«ML-свадьба» между миллионами товаров, или Как выдержать нагрузку в потоке

BigData и машинное обучение

Доклад принят в программу конференции

Тезисы

В докладе мы расскажем о том, как нам удалось построить крутой real-time-алгоритм матчинга для товаров на огромной e-commerce-площадке. Задача была не из простых и заслуживает целого доклада.

Раньше нашим алгоритмом могли пользоваться только мы, а теперь — любой разработчик компании.

Нам удалось сохранить высокие нагрузки, отказавшись от batch-подхода при онбординге большого количества новых товаров, которые у нас представлены в виде длинных векторов. Речь пойдет об используемых технологиях, а также ML/DL-подходах, которые мы используем при сопоставлении и ранжировании товаров.

Основные пункты доклада:
1. Про нашу задачу и цель.
2. Стек и технологии.
3. Метрики и мониторинг на всех уровнях.
4. Про ML и используемые SOTA-подходы.
5. Как мы боремся с деградацией наших моделей.
6. Нагрузки и поток данных, с которым нам приходится работать.

Возглавляет отдел машинного обучения. Карьеру в DS начал в 2017 году, перебравшись из сферы финансов. Имеет степень магистра матметодов в статистике и экономике от НИУ ВШЭ.

Ozon

Ozon — лидирующая платформа e-commerce в России. В команде Ozon Tech 3 800 инженеров — и она продолжает расти. Десятки миллионов людей пользуются сервисами Ozon, их IT-инфраструктура управляет миллионами процессов каждый час. Микросервисы на Go и C#, в стеке технологий есть Vue.js, Swift и Kotlin, Kubernetes, Kafka, Hadoop и ClickHouse.

Видео

Другие доклады секции

BigData и машинное обучение