Оптимизация инференса нейронок на CPU с использованием SIMD и квантизаций на примере WaveNet
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В докладе расскажу, с какими проблемами мы столкнулись при запуске синтеза речи в прод:
* особенности архитектуры WaveNet;
* сервинг вокодера в реальном времени на CPU.
И как их решили с помощью своей реализации с использованием векторных инструкций и квантизации весов модели.
Сравним особенности сервинга WaveNet и других вокодеров и обсудим целесообразность нашего подхода.
ML-инженер в команде голосовых технологий. Работает в этой команде c момента её появления.
За это время успела позаниматься обучением моделей распознавания речи,
оптимизацией инференса моделей, написанием и поддержкой сервисов распознавания и синтеза.
Сейчас вновь занимается обучением моделей распознавания.
Тинькофф
Видео
Другие доклады секции
Нейронные сети, искусственный интеллект