BigData и ML на HighLoad++ 2019, голосование за номинантов HighLoad++ Awards
HighLoad++ Award 2019
Номинанты и победители премии создают инструменты, формирующие инфраструктурную базу для площадок и сервисов с миллионами пользователей, а также способствуют формированию благоприятной среды для развития российского IT.
Знакомьтесь с номинантами этого года. Вы можете проголосовать за одного или нескольких номинантов, которые, по вашему мнению, внесли наибольший вклад в развитие IT-сферы в России. Голосование продлится до 13 октября. Награждение победителей состоится вечером 7 ноября — в первый день конференции HighLoad++ 2019.
Голосуйте за своих коллег и за тех, на кого вы равняетесь. Отрасль должна знать своих героев в лицо!
Доклады о BigData и машинном обучении на HighLoad++ 2019
Григорий Коваль из МТС и Михаил Цветков из Intel расскажут историю создания одного из крупнейших в России Озера Данных — Data Lake MTS. Узнаем, что нужно крупному телеком-оператору для успешного развития BigData и как можно совместить технические желания с бизнес-рационализмом.
Выстроенный процесс Continuous Delivery в ML может упростить жизнь разработчикам, Data Scientists и бизнесу. Николай Фоминых и Антон Якунин из S7 Техлаб объяснят, как этот процесс строится. Мы узнаем:
- как обеспечить повторяемость экспериментов и версионирование моделей с помощью DVC,
- чего не хватило в Open Source-продуктах и с чем можно смириться,
- как сделать наглядными ключевые метрики с помощью MLFlow,
- какие pipeline строятся в ML-продуктах S7.
Александр Алексейцев из OZON.RU расскажет, как теория вероятностей и ML применяются для предсказания продаж и оптимизации запасов в крупном интернет-магазине. Начнём с самого начала: от обучения моделей до их применения для оптимизации цен и ускорения такой оптимизации. А ещё узнаем, как заставить spark быть параллельным.
Артём Просветов и Анастасия Семёнова из CleverDATA однажды нашли увлекательное в повседневном и оптимизировали справочные формализмы с помощью машинного обучения и NLP. Им удалось решить несколько задач: многоклассовая классификация коротких текстов чеков в Интернет-магазине и поиск пар фраз, одинаковых по смыслу, но по-разному написанных (сопоставление таксономий). Ещё одна задача была связана с анализом корпуса текстовых описаний изделий. В описаниях нужно было найти наиболее важные параметры изделий и перевести тексты-описания в набор параметров изделий, по которому можно осуществлять поиск. Разработанные Артёмом и Анастасией решения подходят для высоконагруженных систем и большого объёма данных.
О том, как ML используется в Почте Mail.ru, узнаем от Эдуарда Тянтова. ML помогает компании сделать почту умнее и защитить пользователей от спама. Для этого в Mail.ru поддерживаются десятки систем машинного обучения. Узнаем, как всё это поддерживать в условиях, когда спамеры быстро адаптируются к системе защиты, а набор выборки, дообучение и выкатки отнимают почти всё время команды. Эдуард обещал раскрыть общие подходы, которые были выработаны в его команде для решения таких задач.
Дмитрий Петров работал Data Scientist в Microsoft Bing. Сейчас он является генеральным директором стартапа Iterative.AI из Сан-Франциско, который занимается разработкой инструментов для машинного обучения. Инструменты для ML и обсудим с Дмитрием на HighLoad++ 2019. Ведь традиционные инструменты разработки не отвечают требованиям ML-команд в полной мере. В своём докладе Дмитрий расскажет о MLFlow, Git-LFS и DVC.ORG. Узнаем, в каких случаях их надо (или не надо) использовать и как их можно комбинировать в одном проекте.
А вместе с Алексеем Григорьевым из OLX Group будем разбираться, как машинное обучение помогает бороться с мошенниками. OLX — платформа для онлайн-объявлений с несколькими миллионами пользователей. К сожалению, среди них иногда встречаются мошенники, которые создают несуществующие объявления, копируя содержания других листингов и обманывают покупателей. Система, разработанная в OLX Group, использует ML для анализа текста и картинок в более 10 млн объявлений в день, ищет дубликаты и удаляет подозрительные листинги до того, как они нанесут вред пользователям. На конференции узнаем, как эта система устроена.