Antispam ML: как и зачем автоматизировать обучение моделейBigData и машинное обучение

Доклад принят в программу конференции

VK, Mail

Head of ML, Mail.

d.merkushov@corp.mail.ru
@dmerkushov в телеграме

Тезисы

Внедрение и эксплуатация машинного обучения в антиспаме имеет свои особенности в сравнении с другими доменами. Это связано с непрекращающейся адаптацией спамеров под системы защиты, которая происходит днем, ночью, на выходных и когда вы в отпуске без Интернета. Постоянная гонка вооружений между силами добра и зла порождает много вызовов:
* Как добиться эффективности ML в течение продолжительного времени? А не только первые 30 минут (true story!)
* Как убедиться, что качественные метрики на выборках подтвердятся в проде?
* Как гарантировать, что ночью/на выходных/под Новый Год модель не сойдет с ума после очередного обучения?
* и многие другие...

Эти вопросы становятся все более актуальными и в других бизнесах: adversarial атаки уже характерны для систем face recognition, банковского скоринга, поиска, social медиа. И на горизонте - атаки с использованием машинного обучения. Одно из решений всех этих вызовов лежит в ускорении цикла дообучения всевозможных моделей на новые паттерны, а также в формировании быстрого и эффективного пайплайна их выкатки в продакшн. Все это требует как кастомизации обучения самих моделей, так и построения качественной ML-инфраструктуры.

Как мы прошли этот путь в Почте Mail.ru, я расскажу в рамках своего доклада.