Что если бизнесу нужны сложные аналитические витрины с актуальность данных в минуты, а выходить в стриминговую обработку на CEP движках таких как Flink дорого и overkill по скорости поставки данных?
Есть ли компромиссное решение не требующее полного разворота на 180 градусов от ETL процессов реализованных на SQL диалекте? И конечно это решение должно быть масштабируемым до cотен ТБ. Поэтому это не PostreSQL.
"И оно есть у нас"
Триплет технологий YTSaurus + YQL + динамические таблицы позволили найти архитектуру поставок данных, повторяющую подход к обработке данных заложенный в стриминге, но упрощающий реализации. Это дало нам достаточную скорость обработки данных в минуты помноженную на технологии с невысоким входом и прозрачную для потребителя структуру промежуточных и конечных данных. И конечно вишенкой на торте такие поставки интегрированы по данным классическим с T-1 поставками и их можно легко пересчитывать.
Деталями этой реализации на примере расчета быстрой Юнит Экономики в Яндекс Маркете мы и хотим поделится