Мнение Программного комитета о докладе
Под капотом новой Алисы три дата-центра и сотни серверов с GPU. Но все равно для обеспечения быстрой работы приходится использовать множество оптимизаций: «рефразеры» для запросов, стриминг, квантизацию и спекулятивный декодинг. Все это — в докладе спикера из Яндекса.