- Главная
- →
- BigData и машинное обучение
Поиск паттернов (Data Mining: Pattern Discovery) BigData и машинное обучение
Выпускник МГТУ им. Баумана и Высшей Школы Экономики.
Инженер-разработчик в отделе исследований Qrator Labs.
@podshumok
Тезисы
Паттерн — это повторяющаяся структура в данных. Это может быть подмножество, подстрока, подпоследовательность, последовательность или множество подстрок, подграф, элемент изображения или видео-фрагмент.
Чаще всего находят все достаточно часто встречающиеся паттерны в датасете и сортируют их по частоте появления. Так, например, можно найти наиболее встречаемые юзкейсы в логах работы системы.
Но возможны и другие метрики и подходы, использующие, в общем-то, те же самые алгоритмы, но позволяющие находить аномальное поведение, "заблудившихся пользователей", распространённые ошибки ("антипаттерны").
Существует немало реализаций (в основном, FP-Growth и PrefixSpan) для разных типов данных, но, как правило, они не позволяют легко "залезть внутрь" алгоритма, что часто бывает необходимо: например, можно значительно сократить время работы и потребляемые ресурсы, избежать предобработки данных и т.д., если "рано", а не пост-фактум учесть дополнительные критерии, накладываемые на паттерны.
Всё это мы рассмотрим в докладе: какие бывают алгоритмы, на каких данных работают, какие ответы дают, как и зачем "залезать внутрь".