Миграция в облачный "Modern Data Stack": выбирай, страдай, люби

Резерв

Архитектура данных, потоки данных, версионирование
Проектирование информационных систем
ETL
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Из этого доклада можно узнать, что же такое Data Lake House — новый модный хайп или принципиально иной подход к организации хранения и обработки большого количества данных.

Целевая аудитория

Доклад будет интересен широкому кругу слушателей, которые работают с данными: аналитикам данных, инженерам данным, архитекторам хранилищ, CDO.

Тезисы

Data Lakehouse, Cloud Data Platform, Data Mesh, Data Fabric — громко звучащие слова, которые у всех на слуху и профессионально интересны каждому специалисту в области работы с данными. Но что, если желание "пощупать и внедрить", которое обычно разбивается о будни поддержки текущих решений, вдруг воплощается в рабочую реальность? Бойтесь своих желаний, ведь именно так произошло в toloka.ai — перед командой платформы данных была поставлена задача: "Azure. Modern Data Stack. Завтра".

В рамках нашего доклада мы пройдем все стадии нашей работы с Modern Data Stack — выбирай, страдай, люби — и затронем следующие вопросы:
* что такое современная платформа данных и на каких китах она держится?
* как не утонуть в мире Modern Data Stack-решений?
* какие подводные камни интеграции разных систем вас ожидают?
* какие инструменты (из тех, что мы попробовали) “must have”, а что можно пробовать заменить?
* как изменилась (и изменилась ли) работа аналитиков?
* что стоит, а что не стоит повторять, если вы пойдете по той же дорожке?

Более 10 лет опыта работы в IТ-сфере, архитектор хранилищ данных и систем анализа в Mail.ru group, Yandex Go, Toloka.AI. Кандидат технических наук, автор более 10 работ в области анализа данных, соавтор монографии по теории и практике анализа параллельных баз данных.

Toloka.AI

Toloka.AI — это краудсорсинговая платформа, на которой миллионы людей по всему миру размечают и обрабатывают данные для маркетплейсов, банков, производственных, розничных и IT-компаний. Результаты работы системы используются в машинном обучении, исследованиях, тестировании, технической поддержке и модерации контента.

C++/Python developer, DevOps, Big data enthusiast.
Писал бэкенд браузерной ММОРПГ в 2reallife, делал Антиспам и модерацию рекламы в Яндексе.
На текущий момент занимается Data Platform в Toloka.AI.

Toloka.AI

Toloka.AI — это краудсорсинговая платформа, на которой миллионы людей по всему миру размечают и обрабатывают данные для маркетплейсов, банков, производственных, розничных и IT-компаний. Результаты работы системы используются в машинном обучении, исследованиях, тестировании, технической поддержке и модерации контента.

Видео