Model Merging. Как объединить знания нескольких LLM в одну.

GenAI и большие языковые модели (LLM)

Программный комитет ещё не принял решения по этому докладу

Целевая аудитория

- ML-инженеры, работающие с LLM - Исследователи в области NLP и deep learning - Технические директора и руководители AI-подразделений - Data scientists, интересующиеся оптимизацией моделей - Специалисты по MLOps

Тезисы

В эпоху активного развития больших языковых моделей перед разработчиками часто встает дилемма: как совместить преимущества нескольких специализированных моделей, обученных на разных задачах, не запуская при этом множество моделей одновременно? В докладе мы рассмотрим актуальную проблему объединения параметров языковых моделей (model merging) и познакомимся с существующими подходами: от простого усреднения весов до методов LoRA merging и Task Arithmetic. Вы узнаете, почему традиционные методы часто приводят к деградации качества и как можно это исправить.

Мы представим новый метод Significant Deltas Merging with Weights (SDM-W), который позволяет интеллектуально объединять модели, учитывая только значимые изменения параметров и автоматически определяя вклад каждой модели. На практических примерах покажем, как метод помогает создать универсальную модель, которая одинаково хорошо справляется с генерацией кода, вызовом тулов и корпоративными задачами. Результаты экспериментов демонстрируют сохранение 95-98% точности при экономии до 30% вычислительных ресурсов.

Более 6 лет в IT и 5 лет в Machine Learning. На текущий момент являюсь Lead LLM Engineer команды Supervised FineTuning в GigaChat. Обучал огромные LLM модели на кластерах из тысяч GPU. Хобби - парфюмерия, рыбалка и велоспорт.

Видео

Другие доклады секции

GenAI и большие языковые модели (LLM)