Мнение Программного комитета о докладе
Под капотом новой Алисы три дата-центра и сотни серверов с GPU. Но все равно для обеспечения быстрой работы приходится использовать множество оптимизаций: "рефразеры" для запросов, стриминг, квантизацию и спекулятивный декодинг. Все это - в докладе спикера из Яндекса.