Профессиональная конференция разработчиков высоконагруженных систем

Hadoop в 3 ДЦ.

BigData и машинное обучение

Hadoop
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Петабайтные размеры данных давно перестали быть cutting-edge, и их можно встретить в огромном количестве организаций. With great power comes great responsibility - надо делать работу с данными экономически эффективной, а инфраструктуру - надежной и масштабируемой. Из доклада узнаем про это.

Целевая аудитория

Системные инженеры поддерживающие hadoop, инженеры данных, data science, аналитики.

Тезисы

До 2022 года, в Ozon была практика переезда из одного кластера Hadoop в другой при смене датацентра примерно раз в год/два.
А это значит заново создать всю инфраструктуру, переносить данные и клиентов, их код и согласовать это с тысячами интеграций завязанных на прошлый кластер. Это было очень дорого и долго.
Долго, потому что в Ozon около 25 команд разработки использующих Hadoop.
И поэтому дорого. В основном это data-science ребята, которые месяц занимались операционкой переезда.

Мы решили больше не проводить своих DE, DS и аналитиков через эти трудности, и решили попробовать то, что все гайды по Hadoop категорически не рекомендуют. А именно, растянуть Hadoop на 3 DC.

В докладе расскажу:
Зачем нам вообще hadoop.
Почему не 3 hadoop-кластера, а один растянутый. PnL.
Какие у нас были вводные по железу, по данным и клиентам
Как распределить данные. Репликация и шардирование
Как раскидать потребителей YARN.
Какие результаты мы получили
Планы. Своя BlockPlacementPolicy. 3+ DC.

Люблю распределённые системы хранения и обработки данных.

Ozon

Ozon — ведущий e-com России. В нашей IT-команде уже 5 000 специалистов, которые создают продукты для миллионов людей по всей стране и за рубежом. Ozon Tech разрабатывает собственные решения, контрибьютит в Open Source и использует современный стек: Go, C#, Kotlin, Swift TypeScript, Vue.js, Kubernetes и Kafka. Мы продолжаем расти, чтобы повышать доступность сервисов и быть ещё ближе к пользователям.

Видео