Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Как построить масштабируемый Data Lake в облаке и не утонутьАрхитектуры, масштабируемость

Доклад отклонён
Роман Цисык
Mail.Ru Group

Руководитель направления разработки Platform-as-a-Service (PaaS) в Mail.Ru Cloud Solutions. Занимается проектированием, разработкой и запуском в эксплуатацию облачных сервисов для обработки, хранения и анализа данных. Ранее занимался разработкой ядра Tarantool и проектированием комплексных систем хранения и обработки данных для крупных корпоративных клиентов.

roman@tsisyk.com
Тезисы

Hadoop или Data WareHouse? MapReduce или SQL? In-memory или диск? Предагрегация или schema-on-read? ETL или ELT? Lambda-architecture или Kappa-architecture? В множестве современных технологий и подходов для работы с большими данными легко запутаться и сделать неправильный выбор. Какие решения, подходы и технологии выбрать сегодня, чтобы заложить возможности для расширения и масштабирования завтра?

В своем докладе я постараюсь объективно и непредвзято рассказать о распространенных подходах к сбору, хранению, обработке и анализу больших данных. Рассмотрим плюсы и минусы традиционных Data WareHouse, поговорим, почему Hadoop не является панацеей от всех бед, и почему время dimensional databases уже ушло. Поговорим про концепцию так называемого Data Lake или озера данных, позволяющего объединить лучшее из миров Hadoop и Data WareHouse в единую систему. Разберем классические практики enterprise-мира и прикоснемся к модным хайповым темам из мира digital-компаний. Посчитаем TCO.

Перейдем от теории к практике. Разберем популярные решения с открытым исходным кодом, поймем, какие из них лучше всего выбрать в качестве основы для озера и как связать между собой разнородные компоненты в единую систему. Рассмотрим опыт Mail.Ru Group по построению эластичного Data Lake как сервиса в публичном облаке на базе OpenStack. Расскажем о подводных камнях, болях и страданиях.

Приходите на доклад, если хотите понять, как построить правильное озеро данных для структурированных и неструктурированных данных так, чтобы оно не превратилось в болото!

Архитектурные паттерны
,
Распределенные системы
,
Архитектура данных, потоки данных, версионирование
,
Критерии выбора технологий для проекта
,
Технологии виртуализации и контейнеризации
,
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
,
Администрирование баз данных
,
Инфраструктура как сервис (IaaS), платформы как сервис (PaaS)
,
Big Data и Highload в Enterprise
,
Интеграция web и enterprise-решений
,
Hadoop
,
ETL

Другие доклады секции Архитектуры, масштабируемость

Rambler's Top100