Как построить масштабируемый Data Lake в облаке и не утонутьАрхитектуры, масштабируемость
Руководитель направления разработки Platform-as-a-Service (PaaS) в Mail.Ru Cloud Solutions. Занимается проектированием, разработкой и запуском в эксплуатацию облачных сервисов для обработки, хранения и анализа данных. Ранее занимался разработкой ядра Tarantool и проектированием комплексных систем хранения и обработки данных для крупных корпоративных клиентов.
Hadoop или Data WareHouse? MapReduce или SQL? In-memory или диск? Предагрегация или schema-on-read? ETL или ELT? Lambda-architecture или Kappa-architecture? В множестве современных технологий и подходов для работы с большими данными легко запутаться и сделать неправильный выбор. Какие решения, подходы и технологии выбрать сегодня, чтобы заложить возможности для расширения и масштабирования завтра?
В своем докладе я постараюсь объективно и непредвзято рассказать о распространенных подходах к сбору, хранению, обработке и анализу больших данных. Рассмотрим плюсы и минусы традиционных Data WareHouse, поговорим, почему Hadoop не является панацеей от всех бед, и почему время dimensional databases уже ушло. Поговорим про концепцию так называемого Data Lake или озера данных, позволяющего объединить лучшее из миров Hadoop и Data WareHouse в единую систему. Разберем классические практики enterprise-мира и прикоснемся к модным хайповым темам из мира digital-компаний. Посчитаем TCO.
Перейдем от теории к практике. Разберем популярные решения с открытым исходным кодом, поймем, какие из них лучше всего выбрать в качестве основы для озера и как связать между собой разнородные компоненты в единую систему. Рассмотрим опыт Mail.Ru Group по построению эластичного Data Lake как сервиса в публичном облаке на базе OpenStack. Расскажем о подводных камнях, болях и страданиях.
Приходите на доклад, если хотите понять, как построить правильное озеро данных для структурированных и неструктурированных данных так, чтобы оно не превратилось в болото!