Версионирование дата-сетов и моделей машинного обучения, используя Open Source-инструменты BigData и машинное обучение

Доклад принят в программу конференции
Дмитрий Петров
Iterative.ai

Дмитрий работал Data Scientist в Microsoft Bing. Сейчас является сооснователем и генеральным директором быстрорастущего стартапа Iterative.AI из Сан-Франциско, который занимается разработкой инструментов для машинного обучения.

Дмитрий является автором и одним из контрибьюторов opensource-проекта DVC.org - Git для ML-проектов. Выступает с докладами об организации процессов машинного обучения, версионировании данных и продуктивности ML-команд: O'Reilly AI Conference, PyCon, PyData, Open Source Summit и другие.

https://twitter.com/FullStackML
dmitry@iterative.ai
Тезисы

Проекты по искусственному интеллекту и машинному обучению (ML) становятся неотъемлемой частью современной программной инженерии, что создает потребность в новых инструментах разработки: контроль версий данных (а не кода), версионирования ML-пайплайнов, трэккинг ML-экспериментов, метрик и т.д.

Файлы данных и ML-моделей являются центральной частью ML-проектов, в отличие от традиционных программных проектов, где все активности сосредоточенны вокруг исходного код. Традиционные инструменты разработки не поддерживают в полной мере требования ML-команд. Мы обсудим текущие практики и opensource-инструменты и покажем, почему их недостаточно для эффективной работы.

Мы обсудим три инструмента с открытым исходным кодом, которые помогают ML-командам повысить эффективность их работы: MLFlow, Git-LFS и DVC.ORG. Покажем, чем они могут помочь в ваших проектах, в каких случаях их надо (или не надо) использовать и как их можно комбинировать в одном проекте.

Совместная работа, система контроля версий, организация веток
,
Проектные артефакты, инструментарий
,
Machine Learning
Подготовительное задание

Навыки Git. Базовые знания о машинном обучении: подготовка данных, тренировка моделей, метрики, подбор гипер-параметров.

Другие доклады секции BigData и машинное обучение