Искусственный vs естественный интеллект в задачах разметки

Нейронные сети и искусственный интеллект (data science)

Machine Learning
ML
Расширение кругозора
Лайфхаки

Доклад принят в программу конференции

Целевая аудитория

DS- и ML-инженеры и все те, кому интересна задача сбора и разметки больших данных для обучения и валидации нейронных сетей в эпоху LLM.

Тезисы

Пройдемся по следующим темам:
* разметка в эпоху до LLM и сильных SOTA-решений;
* практические кейсы в домене CV: SAM для задач детекции и сегментации, VLM для кепшенинга изображений и видео;
* практические кейсы в домене NLP: SOTA-решения в задаче описания, суммаризации, рерайтинга больших пластов текста;
* практические кейсы в домене звука: транскрибация аудио, озвучка в режиме сингл- и мультиспикер. Кросс-модальная разметка для задач видео и аудио;
* появление LLM на арене: ускорение разметки, синергия человека и нейросетей;
* специализированная разметка: когда нейронные сети не справляются;
* синтетические данные и как очистить авгиевы конюшни;
* что делать, когда кончится Интернет?

Руководит исследовательскими ML-командами в SberDevices. В прошлом инженер-железячник в области цифровой обработки сигналов на FPGA и ASIC, в частности, для обработки изображений и звука. Автор топовых лекций по обработке сигналов и регулярный спикер на научно-технических конференциях. Активный контрибьютор в Open Source.

SberDevices

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberJazz, GigaChat, Kandinsky и другие легенды.

Помогает Сберу делать его флагманский ИИ лучше: делают инструменты для DS-/ML-команд, позволяющие быстро и максимально качественно размечать данные практически любой сложности.

Сбер / абт

Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3 000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.

Закончил кафедру ИУ7 МГТУ им. Баумана.
Был разработчиком ПО в Институте общей и неорганической химии им. Курнакова, РНЦ Курчатовский Институт, в Российско-Корейском Центре исследования энергии.

Автор системы по учету и контролю сварных соединений нефте- и газопроводов.
Руководил компанией по разработке высоконагруженных проектов Netstream, плодами которой были проекты, связанные с online-вещанием и видео (smotri.com, ivi). В 2012 году Netstream вместе со всей командой был дружественно поглощен одним из своих заказчиков — ivi. C 2012 года по сей день Евгений работает CTO ivi.

C 2006 г. преподает в МГТУ им. Баумана авторский курс «Технологии командной разработки ПО».
Является автором магистерской программы МАИ по подготовке менеджеров в IT.

ИВИ

ИВИ — один из лидеров онлайн кинотеатров в России.

.

Ozon

Ozon — ведущий e-com России. В их IT-команде уже 5 000 специалистов, которые создают продукты для миллионов людей по всей стране и за рубежом. Ozon Tech разрабатывает собственные решения, контрибьютит в Open Source и использует современный стек: Go, C#, Kotlin, Swift TypeScript, Vue.js, Kubernetes и Kafka. Продолжают расти, чтобы повышать доступность сервисов и быть ещё ближе к пользователям.

Автор LLM-бенчмарка llmarena.ru. Преподаватель краудсорсинга в ШАДе, ВШЭ, МФТИ. Ex-Founder & ex-CTO TrainingData.ru.

llmarena.ru

LLM Arena — открытая краудсорсинговая платформа для оценки больших языковых моделей (LLM) на русском языке.
Дмитрий Пименов

Яндекс Крауд

Руководитель службы разметки данных в Yandex Crowd. Прошёл долгий путь от Crowd Solutions Architect до руководства службы, которая помогает всему Яндексу обучать ML и нейросети.

Яндекс Крауд

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Видео

Другие доклады секции

Нейронные сети и искусственный интеллект (data science)