Highload++ 2017 завершён!

Профессиональная конференция разработчиков высоконагруженных систем

СКОЛКОВО, Москва 7 и 8 ноября

11-я ежегодная конференция для разработчиков highload-систем, которая соберет   2 700 участников из разных регионов России и мира. Мероприятие направлено на обмен знаниями о технологиях, позволяющих одновременно обслуживать многие тысячи и миллионы пользователей.

Программа охватывает такие аспекты веб-разработок, как архитектуры крупных проектов, базы данных и системы хранения, системное администрирование, нагрузочное тестирование, эксплуатация крупных проектов и другие направления, связанные с высоконагруженными системами.

AutoFE-сапёр: укрощаем взрыв размерности в автоматической генерации признаков
Прочее

Доклад принят в Программу конференции
Upgini

Разработчик в области ML и Big Data. Работала в OneFactor и Uzum, была техлидом дата-инженерной команды, создавая высоконагруженную data-платформу и autoML-инструменты. Сейчас разрабатывает алгоритмы поиска и feature engineering в Upgini.

Тезисы

Чтобы данные работали для модели, их практически всегда нужно адаптировать и извлечь из них дополнительную информацию — то есть провести feature engineering. И если на небольших объёмах признаков задача, может, и не сложная, то когда их десятки тысяч — начинаются проблемы.

В Upgini мы делаем сервис поиска признаков для любой модели, используя сотни разных источников, а значит, делать feature engineering нам нужно уметь: а) универсально, б) автоматически и в) на очень широких таблицах. Да ещё и не потратить на это все деньги.

Исходя из нашего опыта, я расскажу:
* какие проблемы AutoML-инструментов для генерации признаков (в частности, Featuretools и OpenFE) не позволяют применять их на широких таблицах;
* как, взяв за основу OpenFE, мы почти полностью переписали его в свой фреймворк, чтобы эти проблемы побороть;
* какие простые и не очень соображения позволили нам генерировать в 500 раз меньше фич с лучшим качеством.

И кроме того — как ML помогает нам делать ML, чтобы помогать вашему ML :)

Другие доклады секции
Прочее

Rambler's Top100