Прогнозирование продаж интернет-магазина с помощью градиентного бустинга (lightGBM)BigData и машинное обучение
Ведет проект по разработке автоматизированной системы пополнения склада. В прошлом много занимался анализом данных и машинным обучением в самых разных областях знаний (от поиска утечек в нефтепроводах до автоматизации торговли на бирже). Физтех.
mail: aalekseitsev@ozon.ru
Мы в OZON.ru разработали автоматическую систему пополнения склада.
Мозг системы - ML для прогнозирования продаж.
- Постановка задачи и выбор лосс-функции.
- Feature enginering - около 180 признаков. Расскажу, как сочиняли, а потом отбирали признаки. Как дать "понять" модели сложные сезонные особенности спроса на товары, выход на рынок конкурента, неожиданный хайп и такое же неожиданное забвение.
- Генерация дата-сета - известные и не очень баги Spark, сложные джойны, оконные функции и многое другое.
- Выбор модели - перепробовали все на свете (линейную регрессию все же обыграли).
- Подводные камни процесса обучения lightGBM - выбор гиперпараметров, регуляризация, балансировка выборки.
- Оценка результатов - как убедить весь мир (и себя заодно), что все работает хорошо.
Скелет системы - Spark/Hadoop/.
- Весь код написан на Spark (около 5к строк).
- Ежедневная доставка/валидация данных.
- Решения по повышению надежности системы (если упадем, OZON просто ничего не закупит).
Бизнес-реалии закупок товаров.
- Выбор поставщика.
- Страховые запасы.
- Борьба с уровнем сервиса поставщиков.
БОНУС: использование обученных lightGBM-моделей для оценки эластичности спроса на товары по цене планирования маркетинговых акций и эффекта от них. Разные виды функций зависимости спроса от цены для разных типов товаров и многое другое получили как "побочный" эффект от основной задачи.