Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

Как мы варим данные Gigachat Pretrain

Нейронные сети и искусственный интеллект (data science)

Доклад принят в программу конференции

Целевая аудитория

Дата-сайентисты, которым интересны фундаментальные технологии LLM.

Тезисы

Расскажу, что примерно представляют собой данные для современного претрейна LLM, как они собираются, фильтруются и генерируются. Расскажу про эксперименты над данными, покажу своеобразную карту интернета.

Делал голос Алисы, сейчас делает данные для Гигачата.

SberDevices

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение, лицевая и голосовая биометрия. Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberJazz, GigaChat, Kandinsky и другие легенды.

Видео

Другие доклады секции

Нейронные сети и искусственный интеллект (data science)