Конференция завершена. Ждем вас на HighLoad++ Foundation в следующий раз!

Оптимизация инференса нейронок на CPU с использованием SIMD и квантизаций на примере WaveNet

Низкоуровневые оптимизации

Доклад принят в программу конференции

Тезисы

В докладе расскажу, с какими проблемами мы столкнулись при запуске синтеза речи в прод:
* особенности архитектуры WaveNet;
* сервинг вокодера в реальном времени на CPU.
И как их решили с помощью своей реализации с использованием векторных инструкций и квантизации весов модели.

Сравним особенности сервинга WaveNet и других вокодеров и обсудим целесообразность нашего подхода.

ML-инженер в команде голосовых технологий. Работает в этой команде c момента её появления.
За это время успела позаниматься обучением моделей распознавания речи,
оптимизацией инференса моделей, написанием и поддержкой сервисов распознавания и синтеза.
Сейчас вновь занимается обучением моделей распознавания.

Видео