Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Трансформеры в Такси: в нужное время — в нужном месте!

BigData и машинное обучение

BigData / ML

ML
Обработка данных

Доклад принят в программу конференции

Целевая аудитория

ML-разработчики, специалисты в области Data Science.

Тезисы

Пользовательская активность часто характеризуется набором численных признаков и статистических характеристик, отражающих сложную последовательность взаимодействий с сервисом. Подобный набор признаков позволяет использовать классические методы машинного обучения для решения прикладных ML-задач широкого спектра, но не всегда позволяет достичь наивысших метрик качества.

Более продвинутым подходом является использование векторного представления поведения клиента, полученного с помощью нейронных сетей и называемого эмбеддингами. Рецептов приготовления эмбеддингов множество, и по мере развития архитектур нейронных сетей появляются более новые и полезные подходы.

В рамках доклада мы расскажем про наши находки среди наилучших рецептов расчета векторных представлений для пользователей сервиса Такси. После того как будет определена оптимальная архитектура модели расчета эмбеддингов, возникает ряд нетривиальных технических вопросов, связанных с тем, что на векторном представлении должны стабильно работать другие ML-модели, даже в тех случаях, когда появляются изменения в базовой архитектуре. Расчет векторного представления для всех пользователей такси требует вычислительных ресурсов, хранение эмбеддингов также подразумевает определенные требования в связи с существенным объемом информации. Как часто пересчитывать эмбеддинги, как их хранить и как при этом обновлять модель их расчета? Отдельный вопрос в интерпретации компонент эмбеддинга: как определить, на какой информации сфокусирована модель при извлечении определенной части векторного представления?

Подбору архитектуры нейронной сети, организации доступности, актуальности и совместимости использования эмбеддингов поведения пользователей в Такси будет посвящен доклад: с какими проблемами мы столкнулись, чему научились и как их преодолели.

Артем Просветов

Яндекс Такси

Кандидат физ.-мат. наук. Долгое время работал в Институте Космических Исследований в роли ведущего математика. Имеет ряд научных публикаций по анализу временных рядов и спутниковых данных. Читает курс лекций по анализу данных в ВШЭ.

Несколько лет работал в CleverDATA/LANIT, занимался разработкой и настройкой рекомендательных систем, построением предсказательных моделей (отток, LTV, anti-fraud и т.д.), моделей Lookalike, работой с текстовыми данными (NLP), а также временными рядами (Predictive Maintenance). В настоящее время занимается ML-разработкой в Яндекс-Такси.

Яндекс Такси

Яндекс.Такси — одна из самостоятельных бизнес-единиц «Яндекса», предлагающая сервисы агрегатора такси и доставки еды и продуктов, а также мобильные приложения к ним.
Эрнест Глухов

Яндекс Такси

ML-разработчик в Яндекс Такси.
Специализируется на анализе пользовательского поведения:
* модели look-alike;
* uplift-моделирование.
Преподаватель (code reviewer) в Яндекс Практикум курсов Data Sciece, Data Analysis.

Яндекс Такси

Яндекс.Такси — одна из самостоятельных бизнес-единиц «Яндекса», предлагающая сервисы агрегатора такси и доставки еды и продуктов, а также мобильные приложения к ним.

Видео

Другие доклады секции

BigData и машинное обучение