Миграция в облачный "Modern Data Stask": выбирай, страдай, люби

BigData и машинное обучение

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Из этого доклада можно узнать, что же такое Data Lake House — новый модный хайп, или принципиально иной подход к организации хранения и обработки большого количества данных.

Тезисы

Data Lakehouse, Cloud Data Platform, Data Mesh, Data Fabric - ярко звучащие аббревиатуры, которые у всех на слуху и профессионально интересны каждому специалисту в области работы с данными. Но что, если желание “пощупать и внедрить“, которое обычно разбивается о будни поддержки текущих решений, вдруг воплощается в рабочую реальность? Бойтесь своих желаний, ведь именно так произошло в toloka.ai - перед командой платформы данных была поставлена задача: "Azure. Modern Data Stack. Завтра."

В рамках нашего доклада мы пройдем все стадии нашей работы с Modern Data Stack - выбирай, страдай, люби - и затронем следующие вопросы:
- что такое современная платформа данных и на каких китах она держится?
- как не утонуть в мире Modern Data Stack решений?
- какие подводные камни интеграции разных систем вас ожидают?
- какие инструменты (из тех, что мы попробовали) “must have”, а что можно пробовать заменить?
- как изменилась (и изменилась ли) работа аналитиков?
- что стоит, а что не стоит повторять, если вы пойдете по той же дорожке?

Целевая аудитория

доклад будет интересен широкому кругу слушателей, которые работают с данными: аналитикам данных, инженерам данным, архитекторам хранилищ, CDO

Более 10 лет опыта работы в ИТ-сфере, архитектор хранилищ данных и систем анализа в Mail.ru group, Yandex Go, Toloka.AI. Кандидат технических наук, автор более 10 работ в области анализа данных, соавтор монографии по теории и практике анализа параллельных баз данных.

Toloka.ai

Toloka.ai — это краудсорсинговая платформа, на которой миллионы людей по всему миру размечают и обрабатывают данные для маркетплейсов, банков, производственных, розничных и IT-компаний. Результаты нашей работы используются в машинном обучении, исследованиях, тестировании, технической поддержке и модерации контента.

C++/python developer, DevOps, Big data enthusiast
Писал бэкэнд браузерной ММОРПГ в 2reallife, делал Антиспам и модерацию рекламы в Яндексе
На текущий момент занимаюсь Data Platform в Toloka Ai Inc

toloka.ai

Toloka.ai — это краудсорсинговая платформа, на которой миллионы людей по всему миру размечают и обрабатывают данные для маркетплейсов, банков, производственных, розничных и IT-компаний. Результаты нашей работы используются в машинном обучении, исследованиях, тестировании, технической поддержке и модерации контента.

Видео

Другие доклады секции

BigData и машинное обучение