- Главная
- →
- BigData и машинное обучение
BigПочта: как мы строили DataLake в Почте России BigData и машинное обучение
Chief Architect, Luxoft.
Архитектор проекта DataCloud для Почты России, Product Owner, TeamLead
В проекте:
- отвечает за архитектуру, инфраструктуру, выбор технологических решений,
- управляет продуктом корпоративного хранилища (прием, очистка, анализ, построение модели, внешние интеграции, построение ср.слоя данных), RnD.
PhD, диссертация связана с оптимизацией обработки данных в распределенных системах.
Весь опыт, так или иначе, связан с вопросами решения задачи обработки данных в распределенных средах.
В BigData пришел в 2013 году, с тех пор все проекты связаны с BigData.
Участвовал в разработке Магистерской программы по BigData на ВМК МГУ, автор двух курсов.
Тезисы
Мы планируем поделиться с аудиторией примером SuccessStory создания BigData-инфраструктуры (Hadoop) в Почте России. Мы расскажем про выбранные решения, мотивацию их выбора, а также про то, куда развивается продукт в Почте.
Доклад будет интересен всем проектам и компаниям, где только задумываются о развитии BigData-технологий, а также всем, кому интересно узнать, как устроена "внутри" современная Почта.
Почта России - большая организация. К особенностям Почты можно отнести:
- географическое распределение отделений;
- большую сеть отделений (45 тыс.);
- большой объем обрабатываемых отправлений (в пике до 1 млрд. в год);
- большой поток событий, поступающих real-time (200 млн. событий в сутки);
- разнородность поступаемой информации;
- большие потребности бизнеса;
- большие потребности в данных среди других IT-систем организации.
Нашей команде удалось построить одно из самых больших BigData-решений в Enterprise-сегменте в стране.
В докладе планируется отразить следующие темы:
- задачи, решаемые в рамках проекта;
- архитектура решения;
- мотивации выбора тех или иных архитектурных решений;
- инфраструктура проекта.
1. задачи, решаемые в рамках проекта
В рамках проекта решаются (или планируются) следующие задачи:
- получение данных, сохранение данных, очистка, валидация, дедупликация;
- графовые задачи;
- real-time-обработка;
- аналитика и статистика;
- разнообразные задачи бизнеса (разнообразные КПИ + показатели выработки);
- интеллектуальный анализ;
- визуализация (BI);
- интеграция с внешними системами;
- балансировка нагрузки, отказоустойчивость.
2. архитектура решения:
В проекте используются следующие технологии: Hadoop (Hortonworks), Yarn, Spark, Hive, Tez, Oozie, Hue, Sqoop, Flume, Flink, Kafka, Spark Streaming, Cassandra, Vertica, Yandex ClickHouse, Docker, Pentaho, ES, Kibana, etc. Мы расскажем, как подружили весь этот зоопарк.
3. мотивации выбора тех или иных архитектурных решений:
Каждое выбранное решение было проверено и обосновано. Проведен этап RnD. Если возникают вопросы, какой дистрибутив выбрать, какую выбрать SQL-базу или NoSQL и.т.д., то в докладе мы расскажем о нашем выборе и наших решениях (см. архитектура решения).
4. инфраструктура проекта:
Суммарное число узлов в рамках BigData-инфраструктуры Почты России - 150-200 узлов 5000+ ядер, плюс планируется расширение. В докладе мы расскажем, какие типы узлов выбрали и почему, а также как совмещаем разнообразное ПО (см. архитектура решения) на одних и тех же узлах.