Автоматический подбор параметров для Spark-приложений: как запускать больше на ограниченном кластере и не тратить время инженеров

BigData и машинное обучение

ML Ops

#Hadoop
#Machine Learning

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Целевая аудитория

System Engineer, ML-разработчики.

Тезисы

Мы научились каждой модели автоматически выдавать оптимальные ресурсы в Hadoop-кластере без участия человека. В нашем кластере запускаются сотни ежедневных и тысячи ежечасных Spark-расчётов, все очень разные и со своим SLA. В такой ситуации тюнить силами инженеров нереально. Поэтому мы построили и внедрили полностью автоматическую систему тюнинга, а в результате увеличили пропускную способность кластера в четыре раза. Я расскажу, как устроен подбор параметров и что позволяет ему работать автономно, а также поделюсь проблемами, с которыми мы столкнулись в процессе внедрения и эксплуатации.

Техлид команды ML Data в OneFactor. 8 лет пишет на Scala, из них половину работает со Spark и Hadoop. Сотрудничает с Яндекс Практикумом в составлении курса Data Engineer.

OneFactor

OneFactor делает платформу безопасной монетизации данных для владельцев традиционных розничных бизнесов, например, телекомов, банков, ритейлеров или платежных систем. Платформа позволяет быстро запускать AI-сервисы и автоматизировать бизнес-процессы, такие как банковский скоринг или лидогенерация.

Видео

Другие доклады секции

BigData и машинное обучение