Потоковая обработка данных: разбираем архитектуры и предлагаем реализации
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Наши команды создают инфру для потоковой обработки данных и с помощью этих систем решают продуктовые задачи в Яндексе. Поток, с которым они работают — гигабайты в секунду, размер стейта — петабайты данных.
Наши эксперты расскажут:
* почему стриминг-подготовка данных — ключевое направление развития процессинга в ближайшие годы;
* чем может помочь стриминг-парадигма;
* как перейти в парадигму стриминга из MapReduce;
* как спроектировать архитектуру стриминга.
Руководитель отдела инфраструктуры рекомендательных систем. Занимается потоковой обработкой данных и построением удобной ML-инфраструктуры для ресечеров. Закончил МФТИ. В Яндексе с 2013 года. Выпускник и преподаватель ШАД-а, семинарист на курсе «Алгоритмы и структуры данных».
Яндекс
Руководитель службы хранения и обработки данных в рекламе. Занимается разработкой систем хранения и обработки данных в рекламе.
Яндекс
Руководитель службы подготовки и анализа больших данных.
Занимается подготовкой данных: от отчётности для инвесторов до данных поиска и рекламы. Отвечает за сотни петабайт данных. Знает, как устроено многое в продукте, инфраструктуре, маркетинге и финансах. Работала с юристами и бухгалтерами и умеет объединять эти подразделения инфраструктурой и данными. Разбирает сложные и запутанные схемы и делает всю архитектуру процессингов в разы проще. В Яндексе больше 10 лет.
Подтемы для консультации:
* сбор и подготовка данных для ML от сбора данных с рантаймов до формирования train pools;
* создание feature store;
* переход от batch-процессинга фичей к процессингу в real-time.
Яндекс
Руководитель службы разработки инфраструктуры интернет-безопасности и противодействия мошенничеству. Занимается разработкой инфраструктуры для сервисов интернет-безопасности в Яндексе: антифрод, анти-DDoS, модерация, борьба с мошенниками.
Яндекс
Руководитель группы разработки антифрода. Строит системы для защиты большинства сервисов Яндекса с использованием потоковой обработки данных и MapReduce. Закончил МГУ и МФТИ. В Яндексе с 2018 года. До прихода в Яндекс занимался разработкой в области высокочастотной торговли. Преподает в ШАДе на курсе «Обучение языку C++».
Яндекс
Видео
Другие доклады секции
Экспертная зона