Надёжность высоконагруженных C++-приложений в Яндекс.Маркете

DevOps и эксплуатация

Эксплуатация

C/C++
Поисковые системы
Отказоустойчивость
Технологии отказоустойчивости и катастрофоустойчивости, бэкапы
Управление инцидентами
Надёжность продакшена
Практики программирования

Доклад принят в программу конференции

Целевая аудитория

Разработчики бэкенда, технические менеджеры.

Тезисы

Более десяти лет мы разрабатываем сервис, на котором каждый день миллионы пользователей ежедневно делают покупки. И с каждым годом темп разработки только увеличивается. Мы пишем всё больше кода и всё быстрее выкладываем новые фичи в продакшн. Как сохранить надёжность сервиса на должном уровне?

В этом докладе я пролью свет на основные проблемы надежности высоконагруженных приложений, написанных на C++, с которыми нам пришлось столкнуться в Яндекс.Маркете, и мы поговорим о методах их решения. Речь пойдёт и о поиске, который отвечает на запросы пользователей, и о пайплайнах подготовки данных, которые строят поисковые индексы.

Расскажу, как мы измеряем надёжность сервиса, с какими причинами падений мы сталкивались и какие инструменты и автоматику мы реализовали для предотвращения инцидентов и их быстрого устранения.
Также затрону тему инцидент-менеджмента в Яндекс.Маркете и расскажу про наши практики быстрого тушения "пожаров".

Делает Яндекс.Маркет с 2008 года. Руководит командой бэкенд-разработки инфраструктуры хранения и обработки данных.
Развивает ECOM-платформу, которая агрегирует ECOM-данные нескольких сервисов Яндекса, таких как Маркет, Директ, Еда и Лавка.

Яндекс

Яндекс Маркет — это сервис с огромным ассортиментом товаров, помогающий миллионам пользователей ежедневно выбирать и покупать товары в Интернет.

Видео