ML для ML в задачах качества данных
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Работа с качеством данных актуальна не только для решающих задачи моделирования, но и в целом для тех, кто использует Data Driven-подход. Задача поиска новых решений в этом направлении стала особенно острой для Газпромбанка при работе с оттоком посредством ML-подходов, где был найден значительный бизнес-эффект. Такие модели характеризуют продуктовое поведение человека. Для их вывода в промышленную эксплуатацию необходимо поддерживать витрину с фичами по каждому клиенту. Это тысячи колонок с признаками миллионов клиентов по состоянию на каждый месяц за несколько лет.
Как поддерживать качество данных на приемлемом уровне при таком объеме и при вечном недостатке ресурсов? Ни один алгоритм поиска аномалий не справится с таким объемом данных, а отсматривать каждый признак на тысячах графиков проблематично и трудозатратно.
Основная идея в том, что нужно не рассматривать фичу поклиентно, а представить распределение переменной за каждый временной срез через описательные статистики. Из-за неоднородности этих описательных статистик и других причин мы выбрали ML-метод Isolation Forest в качестве core для самого алгоритма ранжирования аномальностей — в докладе мы поговорим о преимуществах и ограничениях данного метода в качестве core-алгоритма.
Обсудим также, почему Isolation Forest не работает просто на статистиках и зачем требуется дополнительная ранжирующая функция аномальности и алгоритм интерпретации результата.
В финальной части доклада я расскажу, как мы применяем данный алгоритм, о развитии фич нашего решения, об эффекте от его внедрения в прод и почему мы выбрали эту тему для доклада на HighLoad++.
8 лет опыта в анализе данных и разработке. Из них более 5 лет в крупнейших банках России. Занимается разработкой ML-моделей в розничном бизнесе, проведением A/B-тестирования и оценкой бизнес-эффекта в Газпромбанке.
Газпромбанк
Видео
Другие доклады секции
BigData и машинное обучение