Эксплуатация голоса в Марусе. С какими проблемами мы столкнулись и при чем тут GPU

Аппаратное обеспечение, инфраструктура

Речь

ML
Железо
Инфраструктура

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Хотели сами собрать "ферму" с видеокартами, но подозреваете, что будут проблемы? Приходите, Павел не просто подтвердит ваши опасения, но и подробно расскажет, что и как не будет работать.

Целевая аудитория

Люди, работающие с GPU. Те, кому интересно, как устроена обработка и генерация голоса Маруси изнутри.

Тезисы

GPU — вещь капризная: видеокарты горят, вылетают из системы, отвечают с ошибками. Что делать с ними, когда ответ "переустанови драйвер" перестает работать? А если они просто исчезают? А если их еще при этом сотни?

За три года эксплуатации Маруси мы разрослись до порядка двухсот серверов, внутри которых более тысячи видеокарт. В этом докладе я расскажу, как мы применяем GPU, какие проблемы мы получили и как их решали. Рассмотрим типичные ошибки и не очень типичные действия по устранению этих ошибок.

SRE в VK, команда Маруси.

VK

VK — это более 200 технологичных проектов, больше 10 000 сотрудников и миллион возможностей проявить себя. Делают современные и быстрые интернет-сервисы, доступные каждому.

Видео

Другие доклады секции

Аппаратное обеспечение, инфраструктура