Машинное обучение (lightGBM) и теория вероятностей для предсказания продаж и оптимизации запасов интернет-магазина OZON.RU BigData и машинное обучение

Доклад принят в программу конференции
Александр Алексейцев
OZON.RU

Ведет проект по разработке автоматизированной системы пополнения склада. В прошлом много занимался анализом данных и машинным обучением в самых разных областях знаний (от поиска утечек в нефтепроводах до автоматизации торговли на бирже). Физтех.

telegram: @AlekseyAlexander
mail: aalekseitsev@ozon.ru
Тезисы

- Обучение ML-моделей для потоварного предсказания спроса.
Подводные камни в формировании обучающей выборки (балансировка, очистка данных).
Подбор гиперпараметров и постобработка результатов.
Unsupervised-кластеризация временных рядов как фича для обучения supervised-классификатора товаров без истории продаж.
Первые шаги с LSTM-сетями.

- Математика и теория вероятностей в процессах пополнения складов.
Оценка распределений ошибок прогноза, ошибок поставок (опоздания, "недовозы" поставщиков).
Расчет страховых запасов на основе полученных распределений.

- Методы оптимизации в ценообразовании.
Оптимизация цен товаров для максимизации оборота с ограничением по марже.
Применение моделей предсказания продаж в оптимизации цен. Линеаризация сложной модели для ускорения работы оптимизатора.

- Замкнутый цикл разработки ML-решений для продакшна. Бизнес-применение ML.
feature engineering -> model selection -> training -> results evaluation -> feature engineering -> ...

- Работа с большими данными. Как заставить Spark быть параллельным.
Сбор данных и генерация фич на Spark. Подбор настроек Spark для достижения высокой степени параллельности вычислений. Осознанное репартиционирование таблиц для равномерной нагрузки на вычислительные ноды.

Python
,
Распределенные системы
,
Общение с заказчиком, извлечение требований
,
Hadoop
,
Machine Learning
Подготовительное задание

Ссылка на предыдущий доклад на HighLoad++ 2018.
https://www.youtube.com/watch?v=LXqtzF1PaTg

Другие доклады секции BigData и машинное обучение