Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Оптимизация инференса нейронок на CPU с использованием SIMD и квантизаций на примере WaveNet

Нейронные сети, искусственный интеллект

Низкоуровневые оптимизации

Доклад принят в программу конференции

Целевая аудитория

ML-инженеры, занимающиеся синтезом речи или оптимизацией инференса под мобильные устройства или инференсом маленьких моделей на серверных CPU.

Тезисы

В докладе расскажу, с какими проблемами мы столкнулись при запуске синтеза речи в прод:
* особенности архитектуры WaveNet;
* сервинг вокодера в реальном времени на CPU.
И как их решили с помощью своей реализации с использованием векторных инструкций и квантизации весов модели.

Сравним особенности сервинга WaveNet и других вокодеров и обсудим целесообразность нашего подхода.

ML-инженер в команде голосовых технологий. Работает в этой команде c момента её появления.
За это время успела позаниматься обучением моделей распознавания речи,
оптимизацией инференса моделей, написанием и поддержкой сервисов распознавания и синтеза.
Сейчас вновь занимается обучением моделей распознавания.

Тинькофф

Команда Тинькофф — это разработчики, продакт-менеджеры, дизайнеры, маркетологи, аналитики, тестировщики, SRE- инженеры и другие специалисты. Вместе мы создаем новые и развиваем существующие финтех-продукты, которыми пользуются20миллионовклиентовикаждыйизнас. Мы меняем IT-индустрию, ценим инициативу и любим то, что делаем.

Видео