Подготовка данных поиска Яндекса, какую библиотеку и процессы для этого мы сделали

BigData и машинное обучение

Поток данных

Архитектурные паттерны
Оптимизация производительности
Управление изменениями
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Целевая аудитория

Разработчики, которым надо строить процессы обработки данных в Streaming- и MapReduce-режимах.

Тезисы

Это рассказ от команды подготовки данных Поиска Яндекса про то, как мы построили процессинг, обрабатывающий потоки в 5 Gb/s, как именно мы к нему пришли. Почему мы остановились на гибриде между лямбда- и каппа-архитектурами, почему наши аналитики в запросах в поле FROM вместо таблицы указывают библиотеку. И как это помогает учитывать изменения бизнес-логики без изменения кода у потребителей наших данных.

В Яндексе 11 лет занимается проектами, связанными с обработкой больших данных, написанием библиотек для аналитики и упрощения расчётов на MapReduce. В последние 3 года занимается Streaming-процессами, построением систем потоковой обработки данных и их взаимодействием с классическими MapReduce-процессами.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например, библиотеку машинного обучения CatBoost.

Мейнтейнер библиотеки Ralib (DOM-представление поиска) и архитектор её интеграции в процессы потоковой обработки данных.

Яндекс

Яндекс — технологическая компания, которая создаёт инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах. Основные бизнес-направления: поиск и электронная коммерция, сервисы объявлений, медиасервисы, онлайн-заказ такси и еды, беспилотные автомобили, продукты для рекламодателей и владельцев бизнеса. Яндекс также активно развивает проекты с открытым исходным кодом, например, библиотеку машинного обучения CatBoost.

Видео

Другие доклады секции

BigData и машинное обучение