Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Как создать автоматизацию детекции и оценки сбоев в Production

Работа с инцидентами

Доклад принят в программу конференции

Тезисы

* У вас происходят сбои в production и они вас беспокоят?
* Вы чувствуете, что ваша разработка стагнирует, но прозрачности получить неоткуда?
* Вы хотите понимать, насколько в production'е всё хорошо или плохо и о чем стоит беспокоиться?
Тогда этот доклад для вас! :)

Каждый день мы катим изменения в production иногда десятками, да и сотнями в сутки и, конечно же, что-то ломаем. Ломаем по-разному, чаще по мелочи — на 5-10 минут, иногда и по-крупному — этак на час, и совсем редко гремит так, что в СМИ можно попасть, если вы крупная компания. Сбои неодинаковые, ведут себя по-разному, имеют витиеватые корни и различные последствия.

Они способны рассказать многое:
* про культуру разработки и тренды развития или стагнации инженерии;
* про качество продукта и рядом стоящие показатели доступности, SLO и SLA;
* про развитость процессов внутри тех. депа;
* и еще многое веселое, что покажу в докладе.
Собирать такие данные руками весьма накладно и, главное, медленно, но автоматизировать — это реально.

В докладе расскажу про опыт Авито в области автоматизации работы со сбоями, как создать подобный механизм (где можно оступиться и в каких условиях автоматизацию вряд ли получится реализовать) и взять работу вашего продукта под контроль — измеримо и увидеть актуальные и ключевые проблемы вашего продукта и инженерии.

Занимается вопросами тестирования и обеспечения качества, старается держать курс на инновации и находиться на переднем крае технологий разработки и тестирования. Значительное время занимался автоматизацией тестирования, измерением качества и нефункциональными видами тестирования. В течение 15 лет опыта работы Дмитрию удалось поучаствовать не в одном highload-проекте.

Авито

Видео