Подготовка данных поиска Яндекса, какую библиотеку и процессы для этого мы сделали

BigData и машинное обучение

Доклад принят в программу конференции

Тезисы

Это рассказ от команды подготовки данных Поиска Яндекса про то, как мы построили процессинг, обрабатывающий потоки в 5 Gb/s, как именно мы к нему пришли. Почему мы остановились на гибриде между лямбда- и каппа-архитектурами, почему наши аналитики в запросах в поле FROM вместо таблицы указывают библиотеку. И как это помогает учитывать изменения бизнес-логики без изменения кода у потребителей наших данных.

В Яндексе 11 лет занимается проектами, связанными с обработкой больших данных, написанием библиотек для аналитики и упрощения расчётов на MapReduce. В последние 3 года занимается Streaming-процессами, построением систем потоковой обработки данных и их взаимодействием с классическими MapReduce-процессами.

Яндекс

Поиск Яндекса. Текущий поток данных от поиска, который они процессят — порядка 5 Gb/s пожатых данных. Яндекс стремится все ключевые процессы обработки данных перенести из MapReduce-процессов в процессы потоковой обработки для получения большего качества при использовании ML-моделей.

Мейнтейнер библиотеки Ralib (DOM-представление поиска) и архитектор её интеграции в процессы потоковой обработки данных.

Яндекс

Поиск Яндекса. Поиск и другие сервисы Яндекса быстро развиваются и это сказывается на изменения в бизнес-логике. Для корректной работы всех метрик и аналитических расчётов поддерживают изменения бизнес-логики в библиотеке Ralib.

Видео

Другие доклады секции

BigData и машинное обучение