«Get Real»: как я в финтехе машинное обучение растил Менеджмент крупных проектов
Что можно сказать про 5 лет работы в дата-сайенс на одном месте? Там, где подразделение выросло с 1 до 65 и продолжает расти?
Самое главное — разработка. Все очень просто: без нее дата-сайенс — это инсайты, которые в чем-то помогают, но если инсайты не превращать в работающий код, желательно — автоматически работающий, то их ценность ограничена.
Итак, как устроена разработка дата-сайенс? Она отделена от дата-сайентистов. Она встраивает решение в существующий монолит или в сеть микросервисов. Она мониторит, трейсит и даже выносит (noops). Она придумывает протокол общения с дата-сайентистами («ядро» и требования к нему). Она выносит «как можно быстрее».
Что еще нужно разработке? Инфраструктура. Это система, работающая в реальном времени, которая имеет всю нужную информацию для принятия решений (т.н. «профиль»). Это хранилище всего без структуры (Хадуп).
А как же дата-сайентисты? Мы попробовали все, что может быть интересно, и многое не зашло: отток, рекомендашки, супер-точные А/Б-тесты, клавиатурный почерк… Но что-то оказалось критически важным: EDA для проекта «Займы» — т.е. быстрые ответы на вопросы с учетом всех источников данных, CV — чтение доков и распознавание лиц, NLP — речевая аналитика и чат-бот.
Это рассказ о нашем пути, о месте машинного обучения в большой финтех-компании.
Работает руководителем "Машинного отделения" в ЦФТ с 2016 года. До этого работал в московском "ЕС-лизинге". Любит машинное обучение, но больше — как оно помогает бизнесу. Учился долго эмпирической микроэкономике, есть PhD от Мэрилендского университета.