Успех ChatGPT вдохновил многих исследователей попробовать технологии, которые лежат в основе обучения подобных моделей. Подход к Fine-tuning больших моделей с помощью LoRA-адаптеров, а также механизм RLHF для учета мнения людей существенно упростили решение генеративных задач. А Instruction tuning позволил использовать генеративные модели в кейсах, в которых сложно формализовать задачу заранее.
Мы в Работа.ру давно планировали решить несколько генеративных задач, но с классическим подходом к обучению моделей это было слишком ресурсозатратно. Сейчас же несколько кейсов уже реализованы и ушли в прод.
В своем докладе я:
* расскажу о самих технологиях SFT, LoRA, RLHF, Instruction tuning;
* покажу примеры реализации и расскажу о некоторых особенностях и подводных камнях этих технологий;
* подробно расскажу о реализованных нами кейсах в сфере HR tech;
* поделюсь архитектурными решениями;
* расскажу о ближайших планах.