Профессиональная конференция разработчиков высоконагруженных систем

YTSaurus и аналитические витрины с актуальностью в 15 минут

BigData и машинное обучение

Архитектурные паттерны
Распределенные системы
Архитектуры / другое
ETL
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Часто в ETL-процессах возникает потребность "считать часть данных не в batch-режиме, а в NRT". Из доклада мы узнаем, как эффективно реализовать такой процесс для big-data инфраструктур на базе YTSaurus, и при этом не наплодить параллельные вселенные для батча и стримминга.

Целевая аудитория

CTO/CDO Инженеры данных и аналитики данных

Тезисы

Что если бизнесу нужны сложные аналитические витрины с актуальность данных в минуты, а выходить в стриминговую обработку на CEP движках таких как Flink дорого и overkill по скорости поставки данных?
Есть ли компромиссное решение не требующее полного разворота на 180 градусов от ETL процессов реализованных на SQL диалекте? И конечно это решение должно быть масштабируемым до cотен ТБ. Поэтому это не PostreSQL.

"И оно есть у нас"
Триплет технологий YTSaurus + YQL + динамические таблицы позволили найти архитектуру поставок данных, повторяющую подход к обработке данных заложенный в стриминге, но упрощающий реализации. Это дало нам достаточную скорость обработки данных в минуты помноженную на технологии с невысоким входом и прозрачную для потребителя структуру промежуточных и конечных данных. И конечно вишенкой на торте такие поставки интегрированы по данным классическим с T-1 поставками и их можно легко пересчитывать.

Деталями этой реализации на примере расчета быстрой Юнит Экономики в Яндекс Маркете мы и хотим поделится

Филипп Козьмин

Яндекс Маркет

• DWH IT Lead Яндекс Маркета.
• Руководитель дата-инженеров и разработчиков платформенных компонентов.
• Отвечает за IT-ландшафт DWH.
Более 10 лет работы в сфере обработки данных в крупнейших e-com- и телеком-компаниях и банках России.

Яндекс Маркет

Маркет позволяет покупателям заказывать товары прямо из дома и получать заказы по всей стране, а партнёрам — развивать свой бизнес, повышая продажи и привлекая новых клиентов. Для этого команда Маркета строит архитектуру так, чтобы можно было быстро делать новые фичи и не ломать важные сценарии, учится выдерживать многократный рост нагрузки и не перерасходовать ресурсы, следит, чтобы сайт Маркета работал как надо. У них есть целый арсенал технологий: микросервисы и микрофронты, тыквы и gracefull degradation, отложенная обработка запросов и автоматические системы нагрузочного тестирования. Изменяют архитектуру всех сервисов Маркета и помогают продуктовым командам быстро и безопасно развиваться.

Видео