Что нужно знать о надежности систем?
Привет, друзья!
Как обеспечить надежную и быструю работу систем, когда от вас зависит проверка сотен миллионов операций в день?
Например, антиспам-система Mail.ru обрабатывает более 400 миллионов писем ежедневно и должна успевать проверять каждое письмо всего за 350 миллисекунд. В таких условиях даже малейшая ошибка может привести к сбоям в масштабах всей системы.
Или возьмем ВКонтакте — там лента новостей обслуживает более 100 миллионов пользователей, и любая задержка в выдаче контента снижает их взаимодействие с платформой.
Как справляться с такой нагрузкой и какие технические решения используют ведущие компании для борьбы с подобными вызовами?
Узнайте, как архитектура антиспам-системы эволюционировала за 15 лет, какие вызовы приносит машинное обучение и как достигаются показатели SLA под нагрузкой выше 300K RPS.
Сергей Реусин рассказал о том, как ошибки и инциденты могут приносить пользу и как благодаря им можно укрепить устойчивость всей системы.
Лента ВКонтакте — главный экран взаимодействия пользователей с контентом. Как она выдерживает нагрузку более 100 миллионов пользователей, и как в этом помогает машинное обучение? – ответы в докладе Андрей Якушева.
Надёжность систем часто оказывается на втором плане, пока не происходит серьёзный инцидент. Когда система уже запущена, и пользователи активно ей пользуются, любой сбой может привести к потере данных, финансовым убыткам или снижению доверия клиентов. Как предотвратить такие сценарии? На HighLoad++ 2024 вы узнаете, как идентифицировать критические риски ещё на этапе проектирования и какие меры необходимо заложить в архитектуру, чтобы обеспечить максимальную устойчивость системы.
Но архитектура — это только часть вопроса. Также важны инженерные практики, процедуры и культура, которые помогают командам быстро реагировать на проблемы и устранять их, не допуская повторения.
Доклады HighLoad++ 2024
Алексей Мерсон(Т-Банк) расскажет, как в их экосистеме, состоящей из сотен сервисов и тысяч людей, обеспечивается надёжность цифровой инфраструктуры. Он поделится тем, как они грамотно проектируют архитектуру системы, используют GitOps, канареечные релизы и нагрузочные тесты, а также организуют круглосуточные дежурства инженеров SRE, чтобы избежать инцидентов и быстро реагировать на сбои.
Иван Нещадин (Авито) представит доклад о том, как их команда анализирует 5 миллионов трейсов в день и строит интерактивную карту взаимодействия микросервисов. Это помогает выявлять узкие места системы и предотвращать серьёзные сбои. Он также расскажет о трудностях работы с графовой базой данных и о том, как Авито использует этот инструмент для улучшения архитектуры своих систем.
Наталья Макарова (CDEK) расскажет, что необходимо предусмотреть и заложить в код и процессы команды задолго до наступления серьёзного сбоя. Она поделится своим опытом запуска энтерпрайз-решений с нуля и расскажет, какие ошибки помогли им предотвратить серьёзные инциденты. Этот доклад будет особенно полезен продуктовым командам, которые работают с масштабными системами и хотят быть готовы к любым неожиданным ситуациям.
Ваши голоса помогут нам сформировать программу и расписание конференции!
Проголосуйте, пожалуйста, за доклады.
В списке — только доклады, принятые Программным Комитетом.
Все доклады, которые вы отметите, станут избранными в мобильной версии сайта и Telegram-боте.
Если докладов в списке нет, то , возможно, нет еще принятых докладов или у вас нет билета на конференцию.
Наведите курсор на название доклада и выберите «Пойду», если вы хотите посетить этот доклад и «Не пойду», если вам этот доклад неинтересен.