Масштабная событийка на практике: пайплайны, ретраи, DLQ и неочевидные сложности

Архитектура и масштабируемость

Архитектурные паттерны
Рефакторинг
Масштабирование с нуля
Микросервисы

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Реализация событийно-ориентированной архитектуры от Яндекс Go. Централизация, стандартизация, Push вместо Pull на выходе для упрощения интеграций. Эталонная реализация гарантированной доставки работающая автоматом для всех потребителей.

Целевая аудитория

Разработчики, разработчики инфраструктуры, архитекторы, CTO

Тезисы

Событийная архитектура кажется простой: «прочитал → обработал → закоммитил». На пилоте всё летает, переполнений «не было», стажёр справится за неделю. Но как только мы идём в массовое внедрение — десятки команд, тысячи сервисов — всплывают совсем другие задачи: пропускная способность, параметризация, наблюдаемость, гарантии, бесконечные ретраи, poisoned messages. В докладе я разберу три подхода к масштабированию событийки — от «каждый пишет сам» и «масштабируем лучшую библиотеку» до инверсии с push-моделью и общей «коммуналкой» — и покажу, как выглядит рабочее решение: прокси/пайплайны, коммунальные retry-queue, DLQ, circuit breaker-ы. Поделюсь метриками и граблями, а в конце сравню Kafka и Redpanda и дам ориентиры, что выбирать с учётом размера команды и бюджета на инфраструктуру.

Руковожу службой в Яндекс.Go, в индустрии более 15 лет. Работал CTO в стартапах, Кандидат технических наук, стажировался в Harvard Medical School в Бостоне.

Видео

Другие доклады секции

Архитектура и масштабируемость