Как мы варим данные Gigachat Pretrain
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Расскажу, что примерно представляют собой данные для современного претрейна LLM, как они собираются, фильтруются и генерируются. Расскажу про эксперименты над данными, покажу своеобразную карту интернета.
Делал голос Алисы, сейчас делает данные для Гигачата.
SberDevices
Видео
Другие доклады секции
Нейронные сети и искусственный интеллект (data science)