Переход от LLM-моделей GigaChat до технологической платформы GigaPlatform

GenAI и большие языковые модели (LLM)

Доклад принят в программу конференции

Целевая аудитория

Разработчики

Тезисы

В России мало кто имеет опыт обучения LLM в промышленных масштабах. В том же Китае работают 20+ команд, которые понимают в этой теме — там есть с кем обмениваться опытом и у кого учиться. А у нас таких шансов нет, приходится изобретать велосипеды и набивать шишки самостоятельно.
Когда мы в Сбере начинали строить GigaChat, у нас были разрозненные ML-микросервисы: один занимался распознаванием речи, другой компьютерным зрением, третий текстовыми задачами. Каждый сервис делал что-то маленькое свое и жил изолированно. Со временем поняли, что все сервисы надо прошивать между собой и объединять платформу. Место, где можно от и до создать ML-продукт. Например, когда захотели создать voice-mode чат (как у ChatGPT), оказалось, что связать несколько сервисов, которые будут работать в связке — это отдельная инженерная задача уровня highload.
Проблемы, с которыми мы столкнулись:
Разработка собственных GenAI решений — дорого, сложно
Количество наших GenAI технологий росло, сложность их использования для клиента — тоже
Готовые решения для inference категорически не подходили для наших нагрузок и мультимодальных технологий
У каждой технологии — своя ветка разработки, нужно было сводить всю разработку моделей в релизы, которые дружат друг с другом
Каждый кубик в платформе — собственная модель со своими особенностями. Например, в платформу входят мультимодальный GigaChat с поддержкой Audio, а также наша сеть для генерации изображений по тексту — Kandinsky.
Одно дело — технология, а другое — продукт, с использованием нескольких объединенных технологий. Сразу возникли сложности с тем, что по одиночке всё работает, а вместе — уже нет.

Что мы поняли и как решали:
Так как мы пошли в собственную разработку GenAI решений, то нам нужно очень много вкладывать в обучение моделей. Мы одни из немногих, кто в России столько вкладывает в оптимизацию обучения. В разработке каждой из моделей — уникальный опыт. В каких-то технологиях мы лучшие в своей категории, в каких-то догоняем.

В итоге, мы создали платформу GenAI, питающую нашу группу компаний. Платформа сегодня обрабатывает эквивалент 50 лет речи за сутки и справляется с 15K одновременных потоков. Наши LLM в день пишут в 9 раз больше слов, чем человек за всю жизнь.
Наши уникальные решения:
Собственные техники оптимизации training pipeline (конкретные цифры экономии ресурсов)
Кастомные решения для inference вместо готовых фреймворков — расскажу почему SGLANG/VLLM/TensorRT as is не подходят
Специальные подходы к обучению мультимодальности
Свой, большой пройденный путь в каждой технологии
Наши провалы/трудности:
Датасет претрейна LLM — самое важное и сложное
Отличие мощностей для инференса, требующихся для разных моделей
Недооценка сложности перехода от изолированных сервисов к единой платформе
Практическая польза:
Расскажу, как мы строим наши GenAI технологии, в чем особенности и челленджи. Покажу как строить не прототипы, а системы которые реально работают с 15K+ потоков. Как строить сложные ML-конвейеры, где используются несколько ML-технологий.
Что унесете с собой:
Конкретные техники снижения стоимости обучения LLM
Подходы к оптимизации inference для высоких нагрузок
Архитектурные паттерны для перехода от микросервисов к ML-платформе
Опыт создания одного из самых больших ML-инференсов в России

Федор Минькин

Сбер

Выпускник Московского физико-технического института

Старший управляющий директор-начальник управления базовых моделей Giga Департамента ИИ-платформы и моделей

Начинал карьеру с разработчика в компании Яндекс, c 2019 перешел в Сбер, где начал разработку речевых технологий и виртуальных ассистентов департамента SberDevices. С 2023 года лидирует разработку генеративной языковой модели GigaChat