Сделать централизованное логирование и крепко спать по ночам

Platform Engineering

Распределенные системы
Логирование и мониторинг
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
Observability в enterprise
Логи, метрики, ошибки

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Продолжение эпопеи о том, как в МТС устроено observability: про эволюцию системы логирования через поле, усыпанное граблями, до нагруженного production-сервиса. В меньшей степени про bleeding edge-технологии, в большей степени — про то, как технологии заставить работать на пользу разработчикам и SRE

Целевая аудитория

DevOps, SRE, архитекторы, разработчики.

Тезисы

Наша команда давно и успешно развивает сервис централизованного логирования в МТС. За это время мы успели вырасти в сотни раз по объемам, пользователям и нагрузке, перейти от одного единственного кластера Elasticsearch к геораспределенной системе из множества кластеров OpenSearch. Не все наши изначальные архитектурные решения выдержали проверку временем, и с их последствиями мы боремся до сих пор. А часть компонентов пришлось дорабатывать или заменять собственными решениями.

В докладе расскажем, как нам удалось сделать геораспределенную систему логирования на базе OpenSearch на 300+ TB и 3 000 пользователей. Как менялись наша архитектура и стек с ростом нагрузки. И самое главное — что бы мы сделали по-другому, если бы начали с нуля.

Филипп Бочаров

МТС Диджитал

Руководитель направления в МТС. Занимается развитием технологической платформы, обеспечивающей наблюдаемость процессов и систем. Внедряет и популяризирует практику наблюдаемости на IТ-ландшафте МТС. Сертифицированный владелец продукта с опытом в разработке более 10 лет.

МТС Диджитал

МТС — мультисервисная цифровая экосистема и ведущий телеком-оператор в России. Компания развивает сервисы и продукты в сфере больших данных, искусственного интеллекта, облачного хранения, медиа и финансов, телекоммуникаций. Штат IT-специалистов превышает 9,5 тыс. человек.
Юлия Тальцкова

МТС Диджитал

Ведущий инженер сервиса логирования платформы Наблюдаемости в МТС. Эксперт по Opensearch.

МТС Диджитал

МТС — мультисервисная цифровая экосистема и ведущий телеком-оператор в России. Компания развивает сервисы и продукты в сфере больших данных, искусственного интеллекта, облачного хранения, медиа и финансов, телекоммуникаций. Штат IT-специалистов превышает 9,5 тыс. человек.

Видео