Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

5 вещей, которые чуть не убили антиспам

Митапы

Большие проекты/команды
Аналитика / другое
Лайфхаки

Доклад отклонён

Целевая аудитория

DA / DE / DS, дизайнеры пайплайнов

Тезисы

5 вещей, которые чуть не убили антиспам

Введение: проект антиспам от Билайна родился в декабре 2021 года для того, чтобы защищать наших абонентов от голосового спама, который уже стал сильно раздражать, при этом не сбавляя темпы роста

В докладе я не планирую рассказать о сути продукта, процессе обучения нашей ML модели и тонкостях сбора обратной связи. Но хочется поделиться тем, с какими трудностями мы столкнулись и как мы их решали. Думаю, это будет интересно и с точки зрения обмена опытом, и с точки зрения развенчивания мифов о проекта формата «на 1 день данные собрали, на 2 день обучили, на 3 запустили»

Кейс 1. Данные

У нас были супер разрозненные данные в виде транзакций из разных источников (разные части мобильной и фиксированной сети)
- часть звонков уникальна, часть присутствует в обоих источниках
- разные таймзоные и правила на разных коммутаторах
- звонки могут лежать в разных партициях
- разные виды записи номеров

Кейс 2. Обучающая выборка

Сбор обучающей выборки для построения модели был очень не простым. Помимо того, что понятие «спамера» растяжимо, о чем мы отдельно поговорим в следующем кейсе, и помимо того, что получить достоверные номера в нужном количестве (100к+ номеров) и так затруднительно, было еще сложности:

•Надо искать руками периоды активности спамеров
•Не по всем номерам мы видим достаточно трафика
•Этот процесс должен быть постоянный, 
а не разовый

Кейс 3. Формализация терминов

Понятие «спамер» очень растяжимо, и есть многие кейсы, когда вынести решение «блокировать или нет» не так просто

Помимо классических спамеров в мире существуют
•Белые спамеры: организации, у которых много ПОЛЕЗНЫХ звонков (различные клиентские службы)
•Курьеры, таксисты, доставщики
•Те, кого нельзя блокировать по закону: государственные службы, коллекторы и так далее
•Различные m2m устройства, которые нужны для технических функций

Кейс 4. Задержка источников

В какой-то момент мы поняли, что из-за задержки в данных мы стали пропускать очень много трафика от новорожденных спамеров. Для этого мы помимо основной модели сделали:

- горячую модель на быстром источнике, но не по всему трафику. Задержка - 1 сутки
- Триггеры на сбор обратной связи по новым активным номерам. Задержка - десятки минут

Кейс 5. Мы сильно влияем на спамеров

Так как мы начали блокировать звонки от некоторых номеров, это начало искажать их фичи. Вследствие этого, они в какой-то момент перестанут детектироваться моделью и снова их звонки будут проходить. И так же блокирую спамеров, мы сами же обрезаем необходимые для переобучения единички (спамеры)


Итого:

Рассказать будет состоять из приветствия, введения, рассказа о вышеперечисленных кейсах и заключения




Иванов Дмитрий

Вымпелком - ИТ

Дмитрий Иванов, 25 лет, билайн
Аналитика данных для внутренних проектов

Вымпелком - ИТ

«Вымпелком ИТ» - техдочка билайна. У нас 3000 сотрудников, продукты как для била на, так и для внешнего рынка: b2b продукты, технические решения и аналитика

Видео