- Главная
- →
- BigData и машинное обучение
Lambda architecture для realtime-аналитики - риски и преимущества BigData и машинное обучение
Chief Data Architect в ManyChat, отвечает за все pipeline и платформу данных для аналитики (хранилище, BI, ETL, интеграционные сервисы), все в AWS.
До этого — руководитель Data Platform в Avito. В область ответственности Data Platform входили системы больших данных (сотни Тб), OLTP-базы (PostgreSQL), NoSQL-базы (MongoDB, Redis, Tarantool, VoltDB), а также системы очередей и потоковой обработки данных (RabbitMQ, NSQ, Spark). Все про данные, их движение и обработку.
Помимо работы в ManyChat, Николай преподает в НИУ ВШЭ и занимается научными исследованиями в области современных методологий построения хранилищ данных, таких как Data Vault и Anchor Modeling, а также в области технологий BlockChain.
Тезисы
В 2017 построить аналитику на больших данных - это уже не достижение.
Витрины, отстающие на день - уже старые. Отставание на час - неплохо.
Достижением для 2017 является realtime BigData - доступные для широкого круга аналитические данные, отстающие от реальности на секунды (миллисекунды!).
Миллисекундное отставание - значит in-memory.
BigData - значит все в оперативную память уже не влезет.
Значит, нужно совмещать.
Эту концепцию принято называть Lambda Architecture.
В Avito подобная схема построена путем совмещения HP Vertica (объемные исторические данные) + Redis/Tarantool (realtime data cache).