Model Merging. Как объединить знания нескольких LLM в одну.
Программный комитет ещё не принял решения по этому докладу
Целевая аудитория
Тезисы
В эпоху активного развития больших языковых моделей перед разработчиками часто встает дилемма: как совместить преимущества нескольких специализированных моделей, обученных на разных задачах, не запуская при этом множество моделей одновременно? В докладе мы рассмотрим актуальную проблему объединения параметров языковых моделей (model merging) и познакомимся с существующими подходами: от простого усреднения весов до методов LoRA merging и Task Arithmetic. Вы узнаете, почему традиционные методы часто приводят к деградации качества и как можно это исправить.
Мы представим новый метод Significant Deltas Merging with Weights (SDM-W), который позволяет интеллектуально объединять модели, учитывая только значимые изменения параметров и автоматически определяя вклад каждой модели. На практических примерах покажем, как метод помогает создать универсальную модель, которая одинаково хорошо справляется с генерацией кода, вызовом тулов и корпоративными задачами. Результаты экспериментов демонстрируют сохранение 95-98% точности при экономии до 30% вычислительных ресурсов.
Более 6 лет в IT и 5 лет в Machine Learning. На текущий момент являюсь Lead LLM Engineer команды Supervised FineTuning в GigaChat. Обучал огромные LLM модели на кластерах из тысяч GPU. Хобби - парфюмерия, рыбалка и велоспорт.
Видео
Другие доклады секции
GenAI и большие языковые модели (LLM)