Построить Continuous Delivery в ML BigData и машинное обучение

Доклад принят в программу конференции
Антон Якунин
S7 Techlab

Техлид департамента BigData в «S7 Техлаб». В коммерческой разработке более 8 лет. Последние 3 года занимается продуктами, в основе которых лежит анализ данных.

Николай Фоминых
S7

Более 9 лет занимается разработкой ПО. Основной и любимый язык разработки - Python.
Более 7 лет работал удаленно, сотрудничал со стартапами в США и РФ, но в 2018 году решил сменить берег океана на сильный коллектив и амбициозные задачи.
С июня 2018 года работает в отделе аналитики компании S7 Techlab и разрабатывает инструменты для data scientist'ов.

Тезисы

Поговорим о том, как усложнилась разработка с приходом ML в коммерческие продукты. Расскажем, с чем столкнулись сами и как внедряли практики Continuous Delivery.

Подавляющее большинство продуктов S7 Techlab либо рождаются из аналитики данных, либо изначально предполагают ML ядро.

* Взаимодействие Data Science и Software Developer.
* Что выходит из попытки использовать MVP, написанное DS, при развитии продукта.
* Необходимость версионировать и хранить не только код, но и данные, метрики, модели.
* Построение пайплайнов получения предиктов, дообучение и обучения моделей для читаемости и упрощения понимания процессов.
* Что использовали и чего не хватило в opensource-инструментах.
* Деплой по кнопке, как он может выглядеть.

Python
,
Архитектура данных, потоки данных, версионирование
,
Непрерывное развертывание и деплой
,
Автоматизация разработки и тестирования
,
Machine Learning
,
ETL

Другие доклады секции BigData и машинное обучение