ML-анализ видео в Crowd (или как решать задачу трекинга без явного таргета?)

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

DS/ML - инженеры. Все кто интересуются CV, VLM, треккингом объектов, покадровым анализом видео

Тезисы

Во многих областях разметки активно применяются генеративные модели ИИ. Однако в анализе видео такие модели пока уступают классическим алгоритмам компьютерного зрения — особенно когда у задачи нет явного целевого объекта для трекинга.
На примере кейса из Crowd(а) разберём устройство автоматизированного пайплайна для разметки видео и ключевые компоненты кастомного алгоритма трекинга. Кроме того, я рассмотрю "грабли", на которые мы наступили, и покажу, как нам удалось ускорить разметку видео с 7 часов до 30 минут

Магистр физики, окончил физический факультет СПбГУ
Более пяти лет работаю в области ML/DS и backend-разработки. Сейчас — руководитель группы CrowdCV в Яндексе

Видео