Алан Савушкин на Saint HighLoad++ 2022

Частотный и байесовский подходы оценки TPR при неполной разметке данных

BigData и машинное обучение

23 сентября, 12:20, «Зал 04. Красный»

Google Outlook Apple

Доклад принят в программу конференции

Целевая аудитория

Все, кто интересуется применением статистических методов в проектах, связанных с машинным обучением.

Тезисы

Скачать презентацию Все презентации конференции

Практически в каждом проекте, в котором применяются модели машинного обучения, присутствует необходимость оценивать метрики онлайн, отражающие качество модели. Например, в задаче классификации целевыми метриками могут быть Precision и Recall (TPR). В случае доступности полной разметки данных с точки зрения статистики достаточно просто получить оценки и построить доверительные интервалы для этих оценок. Но что, если решается задача фильтрации данных, полная разметка для отфильтрованных объектов отсутствует и необходимо оценить TPR?

В данном докладе на примере задачи фильтрации данных мы рассмотрим проблему оценки TPR при отсутствии полной разметки отфильтрованных объектов и какая здесь возникает особенность. Мы покажем, как можно решить данную проблему. Причем мы взглянем на решение с точки зрения двух подходов, а именно, частотного и байесовского.

Алан Савушкин

Лаборатория Касперского

Senior Data Scientist.

Лаборатория Касперского

«Лаборатория Касперского» — международная компания, работающая в сфере информационной безопасности и цифровой приватности с 1997 года. Глубокие экспертные знания и многолетний опыт компании лежат в основе защитных решений и сервисов нового поколения, обеспечивающих безопасность бизнеса, критически важной инфраструктуры, государственных органов и рядовых пользователей.