Переход от LLM-моделей GigaChat до технологической платформы GigaPlatform
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В России мало кто имеет опыт обучения LLM в промышленных масштабах. В том же Китае работают 20+ команд, которые понимают в этой теме — там есть с кем обмениваться опытом и у кого учиться. А у нас таких шансов нет, приходится изобретать велосипеды и набивать шишки самостоятельно. Когда мы в Сбере начинали строить GigaChat, у нас были разрозненные ML-микросервисы: один занимался распознаванием речи, другой компьютерным зрением, третий текстовыми задачами. Каждый сервис делал что-то маленькое свое и жил изолированно. Со временем поняли, что все сервисы надо прошивать между собой и объединять платформу. Место, где можно от и до создать ML-продукт. Например, когда захотели создать voice-mode чат (как у ChatGPT), оказалось, что связать несколько сервисов, которые будут работать в связке — это отдельная инженерная задача уровня highload. Проблемы, с которыми мы столкнулись: Разработка собственных GenAI решений — дорого, сложно Количество наших GenAI технологий росло, сложность их использования для клиента — тоже Готовые решения для inference категорически не подходили для наших нагрузок и мультимодальных технологий У каждой технологии — своя ветка разработки, нужно было сводить всю разработку моделей в релизы, которые дружат друг с другом Каждый кубик в платформе — собственная модель со своими особенностями. Например, в платформу входят мультимодальный GigaChat с поддержкой Audio, а также наша сеть для генерации изображений по тексту — Kandinsky. Одно дело — технология, а другое — продукт, с использованием нескольких объединенных технологий. Сразу возникли сложности с тем, что по одиночке всё работает, а вместе — уже нет.
Что мы поняли и как решали: Так как мы пошли в собственную разработку GenAI решений, то нам нужно очень много вкладывать в обучение моделей. Мы одни из немногих, кто в России столько вкладывает в оптимизацию обучения. В разработке каждой из моделей — уникальный опыт. В каких-то технологиях мы лучшие в своей категории, в каких-то догоняем.
В итоге, мы создали платформу GenAI, питающую нашу группу компаний. Платформа сегодня обрабатывает эквивалент 50 лет речи за сутки и справляется с 15K одновременных потоков. Наши LLM в день пишут в 9 раз больше слов, чем человек за всю жизнь. Наши уникальные решения: Собственные техники оптимизации training pipeline (конкретные цифры экономии ресурсов) Кастомные решения для inference вместо готовых фреймворков — расскажу почему SGLANG/VLLM/TensorRT as is не подходят Специальные подходы к обучению мультимодальности Свой, большой пройденный путь в каждой технологии Наши провалы/трудности: Датасет претрейна LLM — самое важное и сложное Отличие мощностей для инференса, требующихся для разных моделей Недооценка сложности перехода от изолированных сервисов к единой платформе Практическая польза: Расскажу, как мы строим наши GenAI технологии, в чем особенности и челленджи. Покажу как строить не прототипы, а системы которые реально работают с 15K+ потоков. Как строить сложные ML-конвейеры, где используются несколько ML-технологий. Что унесете с собой: Конкретные техники снижения стоимости обучения LLM Подходы к оптимизации inference для высоких нагрузок Архитектурные паттерны для перехода от микросервисов к ML-платформе Опыт создания одного из самых больших ML-инференсов в России
Выпускник Московского физико-технического института
Старший управляющий директор-начальник управления базовых моделей Giga Департамента ИИ-платформы и моделей
Начинал карьеру с разработчика в компании Яндекс, c 2019 перешел в Сбер, где начал разработку речевых технологий и виртуальных ассистентов департамента SberDevices. С 2023 года лидирует разработку генеративной языковой модели GigaChat
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)