Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем 2025: Список тезисов

GenAI и большие языковые модели (LLM) (16)

AI-ответы в Яндекс Поиске: как увеличить счастье пользователей и сэкономить GPU

Яндекс

Google Outlook Apple

Эпоха генеративных моделей позволяет помогать пользователям решать задачи прямо на выдаче поиска, не отправляя их по ссылкам. В Яндекс Поиске мы уже сделали три релиза генеративных ответов: SearchGPT, «Нейро» и «Поиск с Алисой».

Главный вызов: как приносить максимум пользы 100+ миллионам пользователей и при этом оптимально использовать ограниченные GPU-ресурсы.

Когда запускали первую версию SearchGPT, мы попробовали простые фильтры и модели, который решали, где показывать LLM-ответы. Работало, но покрытие было всего в несколько процентов. И это давало неоптимальные результаты: на части запросов пользователи получали ошибки и жалобы на качество, а на некоторых других, наоборот, ответы не появлялись там, где они были полезны.

Со временем появились новые модели: специализированные (например математические), мультимодальные, дистиллированные для оптимизации ресурсов. Каждая эффективна на своем наборе запросов, и стало понятно: одной модели выбора запросов для LLM-ответов и роутинга недостаточно.

Поэтому мы построили многоуровневую систему, которая сначала решает, стоит ли отвечать на запрос с помощью LLM, а затем подбирает оптимальную из 4+ моделей под конкретный случай. При этом как минимум треть ответов генерируется заранее в офлайне.

Результат: покрытие, увеличенное до 30+ пп, рост качества, счастья пользователей и экономия сотен GPU.

В докладе:
* разберём архитектуры решений;
* обсудим практические паттерны оптимизации ресурсов при работе с LLM в высоконагруженных системах;
* покажем наши грабли, в том числе с расхождением офлайн- и онлайн-метрик (из-за которых потеряли несколько недель и ресурсы на повторные проверки и доработку моделей)

Что заберете с собой:
* примеры архитектур многоуровневого роутинга LLM-моделей;
* проверенные паттерны кэширования генеративных ответов;
* методики выбора оптимальной модели под запрос;
* опыт и ошибки при масштабировании LLM в продакшене.

Доклад принят в программу конференции

Темная сторона открытых нейросетей

Кирилл Одиноков

СберТех

7 ноября, 15:50, Зал «Казан»

Google Outlook Apple

Покажем, как open-LLM превращаются в участок периметра: от «отравления данных» и триггеров до эскалации через агентов и RCE. На живых примерах разберём, почему «магическая фраза» меняет поведение модели и как это приводит к генерации опасных payload'ов в небезопасном окружении.

Что разберём:
* Где рождается «отравление»: дообучение, публичные датасеты, RAG-индексы, базовые техники детекции.
* Триггеры и скрытые инструкции: ключевые токены, контекстные бэкдоры, стего-промпты — почему проходят модерацию.
* Каналы исполнения: function-calling, агенты и типичные мисконфиги, ведущие к RCE.
* Демо-kill-chain: «триггер — генерация — запуск»», где заканчивается модель и начинается ваша ответственность за окружение.
* Контрмеры: изоляция, ограничение прав инструментов, fuzzing-промптов, red-teaming-моделей, контроль цепочки поставок и MLOps-гейты.

Слушатели уйдут с чек-листом «минимально безопасной поставки LLM» и понятной картиной угроз: LLM — это новый периметр, требующий комбинировать ИБ-практики и MLOps.

Доклад принят в программу конференции

Создание ML-планировщика движения для робота доставщика

Дмитрий Быков

Автономный транспорт

7 ноября, 13:30, Зал «Капсула 2»

Google Outlook Apple

Разработка планировщика движения для автономных транспортных средств — это одна из самых амбициозных и комплексных задач на пересечении современных технологий. В нашей работе мы применяем передовые методы машинного обучения и анализируем большие объемы данных. Каждый день мы сталкиваемся с множеством сложнейших технических вызовов самого разного характера: от организации эффективного сбора данных до оптимизации инференса моделей и снижения нагрузки на CPU.

Расскажу, как мы создаем ML-планировщик:
* Почему вообще хотим заменить алгоритмическое решение на решение на базе трансформеров.
* Как собираем данные с помощью джойстиков и как очищаем их для обучения.
* Как запускаем модель на ограниченных бортовых ресурсах робота.
* Что мы видим в closed-loop-симуляторе, а что в нем не можем увидеть.
* Как это уже работает на реальном роботе и что планируем дальше.

Доклад принят в программу конференции

Заселение без фронт-деска, или Как построить бесконтактный сервис в сети отелей на основе RAG

Python

Защита информации

Бэкенд / другое

Организация системы кеширования

Отказоустойчивость

Безопасность программного кода, SQL и прочие инъекции

Кирилл Кухарев

Raft

6 ноября, 18:10, Зал «Капсула 2»

Google Outlook Apple

В современном гостиничном бизнесе периоды высокой загрузки, особенно в праздники и выходные, создают огромную нагрузку на персонал. Рутинные задачи вроде бронирования, консультаций и управления дополнительными услугами отнимают много времени, снижая общий уровень качества сервиса.

В докладе будет представлен практический опыт создания масштабируемой RAG-системы с LLM для автоматизации обслуживания гостей. На примере стека Langchain, FastAPI, Langgraph, Redis, GPT-4o, RabbitMQ и Qdrant подробно разберем архитектуру отказоустойчивого цифрового ассистента для отелей, который:
* оформляет и отменяет бронирования, информирует о наличии номеров и изменениях статуса;
* консультирует по всем вопросам на основе базы знаний отеля;
* предлагает и подключает дополнительные услуги;
* генерирует ссылки на оплату и проверяет их статус;

Особое внимание будет уделено архитектурным решениям, проблемам и вызовам внедрения, а также интеграции с экосистемой отеля.

Доклад принят в программу конференции

Агентный подход к матчингу товаров с помощью LLM

Виталий Кулиев

Wildberries & Russ

6 ноября, 14:40, Зал «Капсула 2»

Google Outlook Apple

Агентный подход позволяет автоматизировать написание качественных промптов для матчинга конкретной категории товаров. За счет использования агентного подхода(LLM workflow) минимизировано участие человека в составлении правил для матчинга пары товаров. Автоматизация позволила обработать 200 категорий товаров. При ручном составлении промптов отдельная категория товаров обрабатывалась долго и за все время удалось составить пайплайны всего для 10 категорий.
Принципы работы ИИ агента универсальны и могут быть переиспользованы в других областях.

Доклад принят в программу конференции

Как перевести разметку на генеративные модели, не уронив качество и стабильность

Дарья Шатько

Яндекс Крауд

7 ноября, 12:20, Зал «Капсула 2»

Google Outlook Apple

В начале июля мы выкатили на нашей платформе опцию разметки на LLM и VLM. Теперь при запуске разметки пользователь может выбрать человека, модель, а может поставить условие по качеству, и тогда будет работать комбинация модели и человека. Расскажу о том, какие компоненты мы реализовали и как интегрировали для того, чтобы наряду с асессорской разметкой дать пользователям доступ к авторазметке. Основные фичи:

* оценка уверенности генеративной модели,
* рекомендации по улучшению промпта,
* регулярный мониторинг качества,
* автотипизация проектов и рекомендация автоматик.

Расскажу, как мы пришли от кастомных автоматик под каждый проект разметки к настраиваемой автоматике на платформе. Как устроена архитектура микросервисов и данных, мониторинги, контроль нагрузки. Полезно будет всем, кто стремится настроить регулярные авторазметки на генеративных моделях и экспериментирует с LLM-as-a-judge.

Доклад принят в программу конференции

Как RAG ускоряет поддержку RUTUBE: от гибридного поиска до мониторинга галлюцинаций

Виктор Леньшин

RUTUBE

6 ноября, 17:00, Зал «Капсула 2»

Google Outlook Apple

Расскажу, как мы в RUTUBE сократили время ответа поддержки в два раза, автоматизировав 80% запросов. Покажу конкретные цифры: было 40+ тематик поддержки, тысячи запросов в день, постоянно растущая база знаний — стало автоматическое решение, которое работает 24/7 и всегда обладает актуальной информацией. Если вы думаете о внедрении RAG или уже обожглись на первой попытке — этот доклад для вас.

Что разберем:

* Рабочую архитектуру RAG-системы, обрабатывающей тысячи запросов в день.
* Конкретные метрики для оценки качества. Спойлер: accuracy — не главное.
* Почему наивный RAG провалился и как мы пришли к гибридному поиску с помощью BM25 и FRIDA.
* Сравнительные таблицы: Milvus vs альтернативы.
* Реальные метрики качества: как мы снизили долю IDK («я не знаю») с 40% до 15%.
* Антипаттерны: почему 90% RAG-проектов умирают. Спойлер: дело не в LLM.

Слушатели доклада получат готовый чек-лист внедрения RAG-системы, которая уже обрабатывает тысячи запросов в день.

Доклад принят в программу конференции

Больше не значит медленнее: практики инференса больших LLM

Антон Чигин

Сбер

7 ноября, 14:40, Зал «Капсула 2»

Google Outlook Apple

Мы расскажем о том, как делать инференс гигантских Mixture-of-Experts-моделей. Разберем на практике, как построить и масштабировать гетерогенный кластер, в котором правильная архитектура сети и памяти становится важнее «голых» петафлопс.

Доклад принят в программу конференции

vLLM, LoRA и GPU-кластеры: техническая анатомия обогащения поисковой выдачи Авито мультимодальными моделями

Python

Распределенные системы

Кирилл Нетреба

Авито

7 ноября, 15:50, Зал «Капсула 2»

Google Outlook Apple

В докладе я представлю архитектурное решение, позволившее нам интегрировать мультимодальные модели в поисковую систему маркетплейса для улучшения поисковой выдачи. Наша система анализирует изображения товаров и генерирует релевантные описания для сотен тысяч объявлений, существенно обогащая поисковый индекс.

Мы рассмотрим наш переход от Aqueduct на vLLM, работу с LoRA-адаптерами, общую архитектуру решения, интеграцию с поисковым движком и посмотрим на наши метрики.

Доклад принят в программу конференции

Безопасное взаимодействие с GenAI. Проблемы и кейсы с применением шлюза безопасности AI Platform V SOWA

API

Атаки

Безопасность

Всеслав Соленик

СберТех

7 ноября, 10:00, Зал «Капсула 2»

Google Outlook Apple

Генеративный ИИ (GenAI) открывает новые горизонты для бизнеса, но влечет серьезные риски: от утечек данных до атак при интеграции с внешними и внутренними LLM. Как защитить ваши системы и данные? На HighLoad++ 2025 мы раскроем главные угрозы и продемонстрируем, как шлюз безопасности Platform V SOWA и решения СберТеха обеспечивают надежную защиту интеграций с GenAI. Практические кейсы — от блокировки утечек персональных данных до проверки ИИ-генерированного кода — покажут, как минимизировать риски и соответствовать требованиям регуляторов.

Доклад принят в программу конференции

💻 Воркшоп: «Разработка ИИ-агентов с использованием MCP-серверов»

Другое

Антон Морев

Wormsoft

6 ноября, 14:40, «Зал A1»

Google Outlook Apple

Мы в компании активно внедряем LLM-агентов в свою работу и продукты, которые разрабатываем для наших клиентов. Имеем уже коммерческий опыт в создании виртуальных помощников на базе ИИ разных провайдеров — от облачных гигантов (OpenAI, Anthorpic, Сбер) до локальных моделей, запущенных на домашней видеокарте RTX 3060.

В докладе раскрою следующие темы:
* что такое вообще MCP-сервера и как с ними работать;
* какие есть MCP-клиенты и как их использовать;
* способы реализации агентов: CLI, Telegram-бот, голосовой ассистент;
* какие модели и какие провайдеры лучше подходят под какие задачи;
* реальные примеры решения задач нашей команды разработки;
* какие ресурсы нужны для запуска модели здесь и сейчас небольшой команде разработчиков;

В докладе расскажу все, что нужно знать для разработки своих ИИ-агентов — как лично для себя, так и для бизнеса.

Никакого вайб-кодинга и «ИИ заменит программистов». Я сторонник мысли, что работы нам только прибавится благодаря подобным возможностям, предоставляемым ИИ.

Доклад принят в программу конференции

Строительные блоки LLM‑агентов: планировщик, память, RAG и рабочие цепочки

Фреймворки

Архитектурные паттерны

Оптимизация производительности

Архитектуры / другое

Алексей Барган

Компания «Тантор Лабс»

6 ноября, 15:50, Зал «Капсула 2»

Google Outlook Apple

Как собрать настоящего LLM-агента: с планировщиком, памятью, инструментами и RAG, чтобы он решал реальные бизнес-кейсы.
Разберем рабочие паттерны, практические хаки по экономии токенов и снижению latency, а также примеры multi-agent-команд, которые уже работают в проде.

Изучим, как измерять качество, ставить guardrails и правильно мониторить агентов.

Доклад принят в программу конференции

AI-агенты для рынка недвижимости: от чат-бота до мультиагентной системы

Алина Баймашева

Домклик

6 ноября, 12:20, «Зал A3»

Google Outlook Apple

В начале года мы решали нетривиальную задачу по созданию первого агента-консультанта по вопросам недвижимости и ипотеки.

В докладе я поделюсь нашим опытом запуска агентов на примерах. Расскажу:
* как сделали агента-консультанта, используя готовые подсистемы — чат-бот и гибридный поиск, покажу его схему работы и компоненты;
* как работает агент по работе со страховыми полисами и какие компоненты нужны для работы такого пайплайна;
* с какими ограничениями и сложностями столкнулись в процессе разработки агентов и какие технологии и языковые модели используем под капотом, RAG и база знаний.

Разберу, из чего состоит платформа для разработки агентов, на чем основывается агентность и когда стоит брать опенсорс.
Предложу критерии выбора инструментов и оптимального подхода (no-code/code-first) для создания агентов под задачу.
Расскажу про инструменты безопасности: подводные камни по работе и использованию, что, когда и как применять. Покажу архитектуру мультиагентной системы с использованием инструментов безопасности.

Доклад принят в программу конференции

Как устроены данные GigaChat: петабайты текстов и триллионы токенов

Валерий Березовский

Сбер

6 ноября, 13:30, Зал «НеДетская Капсула»

Google Outlook Apple

В этом докладе поделимся нашим опытом построения масштабных пайплайнов подготовки данных для обучения больших языковых моделей.

Обсудим web-данные: парсинг HTML, детекцию языка, дедупликацию и фильтрацию текстов на масштабе триллионов токенов. Покажем, как за счет новой CPU инфраструктуры мы ускорили семплинг данных и другие задачи в тысячи раз.

Код и математика: как используем LLM для фильтрации и аннотации кода, генерируем синтетические программы и обучаемся на уровне репозиториев; как собираем математические задачи с гарантированными ответами, смешиваем датасеты и проводим автоматическую валидацию. Поясним, как измеряем обучающую ценность этих источников.

Покажем, как устроена наша инфраструктура для генерации триллионов токенов синтетики (сегментация и фильтрация текстов, reverse-prompt-цепочки, LLM-заметки, QA-пары к текстам) и как мы справлялись с падениями генераций при непрерывной нагрузке кластера из тысяч GPU для обеспечения 100% утилизации.

Завершим взглядом вперед: от инструктивных бенчмарков до новых сценариев синтетических данных.

Доклад принят в программу конференции

Как сохранить высокую надежность при GenAI-трансформации

Вячеслав Кудряшов

Сбер

6 ноября, 13:30, «Зал A3»

Google Outlook Apple

Внедрение GenAI в небольшой организации и в крупной финансовой корпорации — это две большие разницы. Интеграция AI-агентов в критические банковские системы без снижения уровня надежности сопряжена с уникальными и специфичными вызовами. Отсутствием детерминированности в ответах агентов, риски зацикливания, сложности с мониторингом — вот лишь некоторые из них.

Наше решение:
Мы разработали паттерны, обеспечивающие надежную работу AI-агентов в продакшн-среде:
* Уникальная идентификация операций и полный трейс действий агента в AEF.
* HealthCheck и мониторинг, специфичные для AI-агентов.
* Механизмы предотвращения зацикливания (TTL, лимиты попыток).
* ByPass-режим для продолжения работы системы без агента в случае сбоев.
* Поддержка отката изменений для критичных операций.
* GuardRails для управления рисками и безопасности.

Участники получат:
* Чек-лист для безопасного внедрения AI-агентов.
* Набор готовых паттернов и требований по надежности для интеграции GenAI в enterprise-среду.
* Понимание того, как избежать «паралича» IT-сервисов при отказах AI-агентов, обеспечить полноценный аудит и восстановление, а также интегрировать агентов в существующие BCP-планы (планы непрерывности бизнеса).

В основе доклада — реальный опыт внедрения в продакшн критичных банковских систем в экосистеме Сбера.

Доклад принят в программу конференции

Разработка AI-агентов: с нуля до мультиагентной системы антифрода

Дмитрий Антипов

Сбер/АБТ

7 ноября, 10:00, «Зал A3»

Google Outlook Apple

Пошагово с нуля построим систему AI-агентов на примере задачи детекции фрода — от простого text2SQL до мультиагентной архитектуры. Мы возьмем специально подготовленную базу, где есть фрод, и попробуем его найти агентами.

Начнем с концепции агентов, попробуем text2SQL для анализа транзакций, построим первого агента с инструментами, затем создадим систему специализированных агентов для детекции разных типов фрода и скоординируем их взаимодействие.

В процессе внимательно и детально разберем ключевые концепции ИИ-агентов: различные архитектуры и паттерны, поговорим про управление контекстом и памятью, протоколы взаимодействия между агентами, их координацию и специализацию. И научимся правильно измерять эффективность и другие важные метрики как отдельных агентов, так и всей системы в целом.

Доклад принят в программу конференции

Архитектура и масштабируемость (34)

In-memory-поисковый движок вместо OpenSearch — система проверки SWIFT-платежей своими руками

Бэкенд

Архитектуры, теория программирования

Платёжные системы, обработка платежей

Java

Поисковые системы

Оптимизация производительности

Распределенные системы

Рефакторинг

Архитектура данных, потоки данных, версионирование

Проектирование информационных систем

Оптимизация

Обработка данных

Расширение кругозора

Николай Кувыркин

Райффайзен Банк

7 ноября, 17:00, Зал «НеДетская Капсула»

Google Outlook Apple

Бизнес-задача: в связи с окончанием поддержки текущей системы контроля SWIFT-платежей, рисков и клиентов из-за политической обстановки возникла необходимость сделать свое решение.

Получилось справиться в две итерации: сначала использовали в качестве базового движка поиска OpenSearch, но этот подход себя не оправдал — из-за специфики проверок очень медленно работает.

Во второй итерации написали свой специализированный поисковый in-memory-движок на замену OpenSearch, о котором и расскажу в докладе.

Доклад принят в программу конференции

💻 Воркшоп: «Ломаем геораспределенный Postgres на базе Patroni»

PostgreSQL

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Администрирование баз данных

Надёжность продакшена

Автоматизация разработки, доставки, эксплуатации

Облака

Железо

Инфраструктура

Сеть

Георгий Меликов

Genesis Core

Антон Кременецкий

Genesis Core

Евгений Фролов

Genesis Core

6 ноября, 10:00, «Зал A1»

Google Outlook Apple

Важно — для участия требуется наличие ноутбука!

Как часто мы смотрим на фактическую работу приложения при отказе т. н. точки правды в виде той же базы данных? А как часто мы устраиваем физические «учения» по отказу одного из ЦОДов?

В этом воркшопе мы возьмем кластер БД (PG), построенный по общепринятым практикам, который позволяет пережить отказ минимум одного ЦОДа, и попробуем поломать его, устроим хитрые кейсы (выдернем физически питание и сеть из сервера, устроим задержки по Сети), изучим реакцию на наши издевательства и наконец потрогаем базовый managed DBaaS своими руками изнутри (на базе Patroni).

Бонус — ЦОДы будут имитировать реальные физические серверы, приходите «дернуть рубильник»!

Доклад принят в программу конференции

Как писать платежные интеграции на конечных автоматах и не умереть

Платёжные системы, обработка платежей

Бэкенд / другое

Игорь Панасюк

Яндекс

6 ноября, 10:00, «Зал B1+B2»

Google Outlook Apple

Ранее мы рассказывали о проектировании внутреннего платежного шлюза Яндекса (https://highload.ru/moscow/2023/authors/16191), который обрабатывает транзакции всех клиентских сервисов компании, но тогда речь шла лишь о высокоуровневом дизайне.

В этом докладе я покажу «кухню» платежной платформы: как мы используем детерминированные конечные автоматы и event sourcing и как все это «приготовлено» на Go.

Помимо этого, за прошедшее время система сильно выросла: появились новые платежные интеграции, а вместе с ними — неожиданные вызовы и боль. Чтобы справиться, нам пришлось не только расширять автоматы и местами прибегать к «костылям», но и разрабатывать новые сервисы, что сказалось на архитектуре.

Доклад принят в программу конференции

Ревью архитектурных изменений без шума и пыли

Архитектурные паттерны

Отказоустойчивость

Распределенные системы

Методы и техника разработки ПО

Масштабирование с нуля

Критерии выбора технологий для проекта

Поддержка и развитие legacy систем

Управление изменениями

Надёжность продакшена

Микросервисы

Лайфхаки

Базы знаний / wiki

Фиксация знаний

Инструменты

Методологии

Дмитрий Александров

Яндекс Лавка

7 ноября, 18:10, Зал «Казан»

Google Outlook Apple

Многие в индустрии сталкиваются с проблемой бесконтрольного разрастания системы. Вместо стройной микросервисной архитектуры со временем получается месиво из монолитов и наносервисов. Тут — пулл-модель, там — пуш. Тут — Kafka, там — синхронный http-запрос. А почему — никто толком не знает, но у каждого есть свое чувство прекрасного.

Это приводит к дублированию функциональности, сложностям с поддержкой, «зоопарку» технологий, антипаттернам и другим проблемам, которые снижают эффективность работы и увеличивают риски сбоев.

В докладе будет представлен проверенный на практике подход к управлению эволюцией распределенных микросервисных систем. Мы расскажем, как с помощью процесса архитектурного ревью:
* контролировать изменения в системе и избегать негативных последствий;
* валидировать вектор развития и убедиться, что изменения соответствуют технологической стратегии компании;
* избегать «велосипедостроения» и антипаттернов;
* подбирать инструменты под конкретные задачи с учетом нагрузки и критичности.

Вы узнаете о ключевых составляющих успешного архитектурного ревью:
* важности наличия стратегии развития на краткосрочную и долгосрочную перспективу;
* необходимости чёткого процесса с регламентом, SLA и ответственными лицами;
* роли автоматизации в ускорении процесса и снижении зависимости от конкретных сотрудников;
* значении инженерной культуры и системы принятия решений для эффективного ревью;
* возможностях, которые предоставляет гильдия архитектуры и шаблон-опросник для анализа предлагаемых изменений.

Также будут рассмотрены конкретные инструменты и методы, которые помогут оптимизировать процесс: технологический радар для избежания устаревших инструментов, хинты применимости для выбора решений, каталог готовых общих сервисов для сокращения времени разработки. Мы поделимся опытом автоматизации процедуры ревью и представим шаблон-опросник, который поможет авторам изменений учесть все важные аспекты проектирования.

Доклад принят в программу конференции

Архитектура современной антифрод-системы

Федор Васильев

xStack

7 ноября, 15:50, Зал «Капсула 1»

Google Outlook Apple

Что такое финансовый фрод и зачем с ним бороться?
Чем chargeback отличается от refund и что такое friendly fraud?
Какие бывают кейсы финансовых потерь и недополученной прибыли и как их избежать?
Как AML, Compliance и Disputes стали частью современной риск системы.
Ну и самое главное, какой же должна быть архитектура, чтобы все это потянуть...

Доклад принят в программу конференции

Выжимаем облака досуха: как свое железо экономит 90% затрат на большие данные для стартапа

Андрей Ивахненко

Антиплагиат

7 ноября, 18:10, «Зал B3»

Google Outlook Apple

Стартап — это постоянный цикл проверки гипотез. Чем быстрее и дешевле вы тестируете свои предположения, тем выше шансы на успех. Облака обеспечивают гибкость и масштабируемость, что идеально подходит для начальных этапов: пет-проектов, PoC и MVP.

Однако, когда стартап выходит на рынок, набирает пользователей и начинает работать с большими объемами данных (документы, фото, видео и т. п.), расходы на облачную инфраструктуру начинают расти экспоненциально за счет оплаты дискового пространства. В этот момент стоит задуматься о переводе хранения данных на собственное оборудование.

Мы, в Антиплагиате, периодически выкатываем новые сервисы в виде стартапов. Так как мы работаем с пользовательскими документами, то все вышесказанное в полной мере относится и к нам. Да и сам Антиплагиат был стартапом не так уж и давно. Мы с коллегами адаптировали архитектуру большого Антиплагиата для наших стартап-спин-офф-проектов.

В докладе я поделюсь опытом планомерного сокращения затрат на хранение в несколько раз за счет использования собственных серверов. Будут предложены практические идеи и расчеты по снижению совокупной стоимости владения (TCO). В результате получается масштабируемое решение на основе open-source-компонентов (Proxmox, ceph, Deckhouse CE). Покажу, как это масштабируется в несколько раз на примере инфраструктуры Антиплагиата.

Доклад будет полезен основателям и техническим специалистам: представленные подходы успешно применены в реальном проекте, но отдельные решения можно адаптировать под самые разные сервисы.

Доклад принят в программу конференции

Подводные камни DLP-систем: архитектурный анализ

Отказоустойчивость

Оптимизация производительности

Распределенные системы

Методы и техника разработки ПО

Расширение кругозора

Евгений Аксенов

ГК Солар

6 ноября, 12:20, Зал «Капсула 1»

Google Outlook Apple

При разработке DLP-систем (защиты от утечек информации) необходимо учесть множество особенностей, способных привести к избыточной нагрузке или даже к полной недееспособности системы. Мы разберем, как работает типичная DLP-система на всех ключевых этапах: перехват данных из разных источников, их подготовка и анализ по политикам безопасности, принятие решений и хранение информации, а также работа в геораспределенных инсталляциях. На каждом из этих этапов рассмотрим основные архитектурные вызовы и обсудим, что можно сделать для их решения.

Доклад принят в программу конференции

Enterprise Architecture on a Page: новый фреймворк для корпоративной архитектуры

Архитектуры / другое

Святослав Котусев

ВШЭ

7 ноября, 13:30, Зал «Капсула 1»

Google Outlook Apple

* Зачем нам нужен еще один фреймворк?
* Идея фреймворка EA on a Page.
* Происхождение фреймворка EA on a Page.
* Компоненты фреймворка и их смысл.
* Использование фреймворка на практике.
* Роль корпоративных архитекторов.
* Активности корпоративных архитекторов.

Доклад принят в программу конференции

Эволюция архитектуры платежной системы: сохраняем SLA 99,99 при росте нагрузки в 30 раз

Иван Мареев

ЕДИНЫЙ ЦУПИС

6 ноября, 17:00, «Зал B1+B2»

Google Outlook Apple

Как мы в ЕДИНОМ ЦУПИС развивали архитектуру проекта, чтобы сохранить SLA 99,99 при активном росте проекта и нагрузки.
Покажу ключевые изменения, а также то, что нас к ним подтолкнуло, какие подводные камни мы обошли и с какими сложностями пришлось столкнуться.

Что вы получите:
* Проверенные подходы к масштабированию платежной системы.
* Практики предотвращения узких мест и рефакторинга системы на фоне интенсивного релизного цикла и постоянной доступности.
* Ценные рекомендации для каждой стадии развития архитектуры.
* Идеи по улучшению своих проектов, основанные на нашем опыте и лучших практиках.

Доклад принят в программу конференции

Зеркала не врут: Traffic Mirroring в OVN

C/C++

Сетевое администрирование

Сеть

Александра Рукомойникова

K2 Cloud

7 ноября, 12:20, Зал «Капсула 1»

Google Outlook Apple

Представьте: ваш облачный трафик — это нервная система. Каждый пакет — как импульс, который нужно контролировать. К нам в K2 Cloud обращались клиенты и ИБ-партнеры с запросами на сервис зеркалирования трафика — технологию копирования сетевого трафика для анализа и мониторинга, которая позволяет распознавать сетевые атаки и проводить анализ защищенности инфраструктуры.

Мы рассмотрели реализацию этого сервиса на уровне нашей SDN-платформы — OVN. На нее мы перешли несколько лет назад, чтобы получить свободу в разработке и уйти от ограничений проприетарных решений. Хотя технология в OVN была, ее пришлось дорабатывать под условия облачной инфраструктуры.

Открытость OVN сыграла нам на руку — мы не просто адаптировали функциональность, а полностью переработали ее, и теперь наши улучшения доступны в апстриме OVN.

Дополнительным стимулом к реализации стало желание стать первым российским облаком с готовым решением Traffic Mirroring — и нам это удалось.

В докладе я расскажу, как мы реализовали этот механизм в нашей SDN-платформе на базе OVN и интегрировали его с NTA-решениями.

Доклад принят в программу конференции

Восстание машин, или как хранилища Sage на новое железо заезжали

Хранилища

Железо

Инфраструктура

Расширение кругозора

Руслан Боярский

T-Банк

6 ноября, 12:20, «Зал B3»

Google Outlook Apple

В основе работы любого приложения всегда лежит железо. Оно может дать как буст нашему приложению, так и забрать «силы» у него. Но мы настолько привыкли к облачным решениям и Kubernetes (K8s), что уже просто забываем про эту истину.

Мы — Sage в Т-Банке. Мы владеем большим количеством инфраструктуры (серверов), на которое запускаем наши хранилища.

И вот мы получаем партию серверов от нового для нас вендора. И казалось бы, что же могло пойти не так? Мы же уже столько раз разворачивали наши Elasticsearch (ES), но именно в этот раз железо решило преподать нам урок.

Из доклада вы узнаете:
* Архитектуру современного сервера: процессоры, память, riser и RAID-контроллеры.
* Наш опыт запуска ES на новом железе и на какие проблемы с аппаратным обеспечением (hardware) мы наткнулись (наш «черный лебедь»).
* Как при этом вел себя ES нода или сервер и как мы доказывали, что проблема не в приложении, а на уровне железа.
* Как эти проблемы были решены и какие выводы были сделаны на будущее.

Доклад будет интересен как экспертам, так и начинающим.

Доклад принят в программу конференции

DDoS на серверсайд: как мы выжили при x3-нагрузке с ограниченными ресурсами

Отказоустойчивость

Архитектуры / другое

Работа с облачными сервисами

Поддержка и развитие legacy систем

Артем Букин

VK, VK Реклама

7 ноября, 17:00, «Зал A3»

Google Outlook Apple

После миграции в облако нас ждал сюрприз: обещанные «бесконечные» ресурсы закончились, а DDoS-атаки начали приходить через внутренние сервисы, минуя фронтальную защиту. При росте нагрузки на 30% и жестком SLA в 300мс мы оказались в критической ситуации.

Расскажу, как мы доработали архитектуру сервиса подбора рекламы: внедрили service mesh на Consul, реализовали динамические таймауты и умную деградацию без потери выручки. Покажу реальные графики DDoS-атак с трехкратным ростом трафика и нашу реакцию за секунды.

Что заберете с доклада:
* Схему архитектуры на service-mesh для защиты от резкого роста трафика или пропадания.
* Алгоритмы динамических таймаутов.
* Методику проведения учений DC-1 (снизили время восстановления с 30 до 5 минут).
* Механизмы деградации без импакта на выручку.
* Чек-лист перехода на cross-DC-архитектуру.

Все из реального продакшена с цифрами и графиками.

Доклад принят в программу конференции

Эволюция Kafka as a Service: от факапа до чилаута

Архитектуры / другое

Автоматизация разработки, доставки, эксплуатации

DevOps / Кубер

DevOps / SRE

Инфраструктура

Анастасия Цепелева

РСХБ.цифра

7 ноября, 11:10, «Зал C1»

Google Outlook Apple

В App.Farm PaaS-платформе РСХБ.цифра — мы прошли тернистый путь от одной «большой» Kafka до реализации услуги «Kafka as a Service» c индивидуальными кластерами под ключ для решения бизнес-задач. За три года в промышленной эксплуатации это решение обслуживают всего два инженера. Расскажем честную историю: от ошибок создания первой архитектуры (риски, высокие затраты) до успешной трансформации в «Kafka as a Service» с использованием Kubernetes-операторов и middleware с парсингом протокола.

В докладе поделимся:
* Почему мы отказались от одной «большой» Kafka и как этим минимизировали затраты на сопровождение.
* Как через декларативный GitOps-подход (с примерами кода) автоматизировать развёртывание кластеров Kafka в Kubernetes.
* Как упростить авторизацию с помощью middleware, «влезая» в протокол обмена.
* Как мы настроили пресеты настроек Kafka под запросы пользователей PaaS-платформы (статистика, отзывы).
* Сравнение архитектур с чек-листом, поделимся топом ошибок в проде и рекомендациями по эволюции для вашего проекта.

Практические решения, которые вы сможете забрать для себя:
* Автоматизация развертывания через Kubernetes-операторы + Strimzi (покажем код).
* Решение kafka-proxy с парсингом протокола для упрощения авторизации.
* Декларативные пресеты настроек железа под потребности бизнеса.
* Автоматизация обновлений Kafka без простоев.

Идеально для инфраструктурных инженеров, сотрудников SRE, Platform-разработчиков, DevOps-инженеров и архитекторов, работающих с highload-интеграциями.

Доклад принят в программу конференции

Сетевые нереплицируемые диски в облаке: почему, как, а главное — зачем?

Надёжность продакшена

Тестирование новых продуктов

Облака

DevOps / SRE

Железо

Инфраструктура

Александр Руденко

K2 Cloud

7 ноября, 10:00, «Зал B1+B2»

Google Outlook Apple

Наряду с надежными и привычными дисками с репликацией в некоторых облаках появляются сетевые нереплицируемые диски.
Этот доклад посвящен обзору и техническим деталям нового типа дисков в K2 Cloud.

Вы узнаете:
* О предпосылках появления таких дисков.
* Об их позиционировании относительно других решений.
* Об их сильных и слабых сторонах.

Расскажу, как устроена инфраструктура этих дисков, за счет чего достигаются высокие показатели производительности и низкие задержки, а также о:
* проблемах и особенностях их эксплуатации;
* перспективах их развития.

Поговорим, для чего подойдут такие диски и как их использовать, чтобы максимизировать их плюсы и минимизировать риски.

Доклад принят в программу конференции

RAG → GraphRAG → LightRAG: как мы трижды переписывали медицинский AI и кратно снизили издержки

Python

Архитектурные паттерны

Оптимизация производительности

Методы и техника разработки ПО

Алгоритмы и их сравнение

Архитектуры / другое

Machine Learning

Оптимизация

Базы знаний / wiki

СУЗ / системы управления знаниями

KCS / knowledge-centered service

Knowledge Ops

YDB

Андрей Носов

Raft

6 ноября, 10:00, «Зал A3»

Google Outlook Apple

Когда внедряешь LLM в медицину, цена ошибки измеряется не только деньгами. Расскажу историю трех итераций одного проекта, которая поможет вам избежать наших граблей.

Три попытки, три архитектуры:
* RAG v1.0: быстрый старт за неделю → провал в проде. Система не могла связать симптом из одного документа с протоколом лечения из другого.
* GraphRAG: качество ответов взлетело → бюджет тоже. $6–7 за индексацию одной карточки, тысячи долларов на весь корпус медицинских статей.
* LightRAG: оптимальный баланс. Сохранили преимущества графов, снизили затраты в 10 раз.

Что разберем детально:
* Архитектура LightRAG: инкрементальная индексация, дедупликация сущностей, двухуровневый поиск.
* Реальные расчеты стоимости для каждого подхода с конкретными цифрами.
* Специфика MedTech: работа с регуляторами (HIPAA, GDPR), цитируемость источников.

Сравнительная таблица: когда какой подход выбирать.

Практическая ценность: готовый фреймворк выбора RAG-архитектуры + экономическое обоснование для защиты решения перед бизнесом.

Доклад принят в программу конференции

Как масштабируются блокчейны

Распределенные системы

Блокчейн-технология

Смарт-контракты

Сергей Прилуцкий

MixBytes

6 ноября, 10:00, Зал «НеДетская Капсула»

Google Outlook Apple

Блокчейны — медленные и никогда не догонят Web2-сервисы, которые могут себе позволить просто «поверить на слово» доверенному серверу. Для соблюдения требований к безопасности в этих сетях все перепроверяют всех, что создает фундаментальные ограничения на скорость блокчейнов. Несмотря на это, сейчас, в Web3, где количество пользователей постоянно растет, проблемы скорости практически незаметны для обычных пользователей. Как этого удалось добиться?

В этом докладе мы рассмотрим, как разные проекты решали проблемы масштабирования. Вертикально: как оптимизировались алгоритмы консенсуса, виртуальные машины и state transition, параллельное исполнение транзакций и ordering. Горизонтально: что такое sharding, L2-решения, optimistic и ZK Rollups и какие подходы в них используются. Примерами будут служить реально работающие блокчейны: Ethereum, Solana, TON, Arbitrum, zkSync и многие другие.

Доклад будет полезен тем, кому интересно, в каких направлениях развивается техническая мысль в децентрализованных сетях со строгими требованиями к устойчивости, детерминизму и целостности данных.

Доклад принят в программу конференции

Масштабная событийка на практике: пайплайны, ретраи, DLQ и неочевидные сложности

Архитектурные паттерны

Рефакторинг

Масштабирование с нуля

Микросервисы

Алексей Терентьев

Яндекс Go

6 ноября, 13:30, Зал «Капсула 2»

Google Outlook Apple

Событийная архитектура кажется простой: «прочитал → обработал → закоммитил». На пилоте все летает, переполнений «не было», стажер справится за неделю. Но как только мы идем в массовое внедрение — десятки команд, тысячи сервисов, — всплывают совсем другие задачи: пропускная способность, параметризация, наблюдаемость, гарантии, бесконечные ретраи, poisoned messages. В докладе я разберу три подхода к масштабированию событийки — от «каждый пишет сам» и «масштабируем лучшую библиотеку» до инверсии с push-моделью и общей «коммуналкой» — и покажу, как выглядит рабочее решение: прокси/пайплайны, коммунальные retry-queue, DLQ, circuit breaker'ы. Поделюсь метриками и граблями раскатки такого решения.

Доклад принят в программу конференции

От автоматизации к платформе: эволюция управления инфраструктурой в Sage

Масштабирование с нуля

Управление конфигурацией

DevOps на собственном (арендованном) оборудовании

Observability в enterprise

Доверие команды внутри и снаружи

Автоматизация разработки, доставки, эксплуатации

DevOps / Кубер

DevOps / SRE

Железо

Инфраструктура

Роман Чернышев

Т-Банк

7 ноября, 14:40, «Зал A3»

Google Outlook Apple

Система на тысячи хостов, сотни разрозненных инструментов, у каждого свои скрипты и процессы — настоящий зоопарк.
Увидеть всю свою инфраструктуру целиком невозможно. Инвентаризация фрагментирована, а автоматизация — хаос из «авторских» решений.

Любая мелочь — потенциальный сбой на десятках систем и на часы восстановления. Миграция — многомесячный полуручной процесс. Это не просто неудобство, это риск, который ведет к стагнации или даже провалу.

В докладе расскажу, как мы трансформируем подход к инфраструктуре: перестраиваем процессы, команды, роли и инженерную культуру. Почему отказались от DevOps как набора тулов в пользу продуктового мышления в CoreTech. Как мы превращаем инфраструктурные компоненты в управляемые ресурсы, а SRE-инженеров — в разработчиков платформы и ее же клиентов.

Доклад — попытка ответить на следующие вопросы:
* Как эволюционируют системы управления инфраструктурой?
* Инфраструктурная платформа для одного продукта? Серьезно?
* Как масштабирование меняет оргструктуру, процессы и образ мышления?
* Как освоить инфраструктуру из сотен, тысяч и десятков тысяч хостов?
* Почему k8s — нечто большее, чем поды, деплойменты и сервисы?
* Как технически и процессно устроена инфраструктурная платформа в Sage?

Доклад принят в программу конференции

Планировщик рейта запросов

Оптимизация производительности

Распределенные системы

Алгоритмы и их сравнение

Микросервисы

Михаил Апахов

Яндекс Еда

7 ноября, 17:00, Зал «Капсула 1»

Google Outlook Apple

В высоконагруженных приложениях зачастую присутствуют ограничения на входящие запросы, которые позволяют контролировать нагрузку, создаваемую клиентскими сервисами, отбрасывая лишние запросы.

Но что делать клиенту, запросы которого распределены во времени неравномерно? Что делать, если отбрасывать лишние запросы нельзя? И как для множества клиентов оптимизировать запросы так, чтобы получить максимальную эффективность?

В докладе расскажу, как мы столкнулись с задачей, в которой ограничение нагрузки с помощью рейт-лимитера оказалось боттлнеком для эффективности и качества работы сервиса-клиента. Расскажу о различных подходах лимитирования нагрузки на стороне клиента, которые могут подойти в разных задачах. И, самое интересное, про собственный алгоритм планирования запросов на стороне клиента, который позволил оптимизировать скорость работы сервиса и заметно увеличить его надежность.

Доклад принят в программу конференции

OVN, техдолг и распределенка: переносим функции облачной сети в SDN из LXC

Отказоустойчивость

Распределенные системы

Технологии виртуализации и контейнеризации

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Инфраструктура как сервис (IaaS), платформы как сервис (PaaS)

Техдолг

Облака

Инфраструктура

Сеть

Владислав Одинцов

K2 Cloud

7 ноября, 11:10, Зал «Капсула 1»

Google Outlook Apple

После перехода с VMware NSX на open source SDN OVN, о котором я рассказывал на HL++ 2024, мы смогли вздохнуть полной грудью, получив прирост в производительности, быстродействии сети и, наконец, начали «владеть» продуктом, избавившись от вендорской закрытости. OVN, как и его предшественник NSX предоставлял в облачной сети L2-изоляцию между подсетями, firewall на портах ВМ, DHCP и возможность подключения внешних инфраструктур клиентов через HW VTEP (L2 Gateway).

В то же время остальные сетевые сервисы — DNS, межсетевой firewall, VPNaaS и маршрутизация VPC и зонами доступности — продолжали функционировать в LXC-контейнерах на выделенных сетевых нодах с использованием стандартных Linux-инструментов. Такое решение было простым и понятным, но имело свои ограничения.

Поэтому мы видели улучшение облачных сетей уже на базе более продвинутых фич OVN, которые должны были решить оставшиеся проблемы:

* Сетевая нода с LXC и veth-интерфейсами становилась узким местом с точки зрения производительности, особенно при росте нагрузки одного VPC.
* Использование conntrack для NAT добавляло нагрузки, что влияло на эффективность обработки внешнего трафика.
* Несмотря на компактность LXC, сосредоточение всех сетевых функций VPC в одном контейнере снижало гибкость при построении распределенных архитектур.

В докладе я расскажу, как мы выстроили новую архитектуру сетевых сервисов в К2 Облаке, чтобы решить эти задачи, повысить масштабируемость и отказоустойчивость, и какой ценой смогли этого достичь.

Доклад принят в программу конференции

Очереди на PostgreSQL: антипаттерн или реальность жизни?

Дмитрий Кривопальцев

Яндекс 360

7 ноября, 11:10, Зал «Казан»

Google Outlook Apple

Разберем известный антипаттерн очередей на PostgreSQL. Поймем, можно ли сделать рабочими такие очереди под большой нагрузкой, если очень хочется. А также почему в Яндекс Диске для некоторых нагруженных сценариев используем именно такой подход, а не классические очереди.

Доклад принят в программу конференции

От стартапа к highload-приложению — технические вызовы мобильного приложения «Пятерочка» на пути к 10k RPS и 25 млн пользователей

Фреймворки

API

Python

Поисковые системы

Бэкенд / другое

Архитектурные паттерны

Отказоустойчивость

Логи, метрики, ошибки

Микросервисы

DevOps / Кубер

DevOps / SRE

Сеть

Лайфхаки

Knowledge Ops

Алексей Юрченко

X5 Tech

7 ноября, 13:30, Зал «НеДетская Капсула»

Google Outlook Apple

Рассказ о том, какие технические вызовы и решения приняла команда разработки мобильного приложения «Пятерочка» по мере роста от стартапа до топового ECOM-приложения. В процессе будут затронуты вопросы, плохо освещенные в открытых документациях, связанные с поведением Python, зависимостью от внешних систем, внедрением архитектурных паттернов, релизным процессом, работой с PostgreSQL и ElasticSearch, нейтрализации внешних угроз, поведением инфраструктуры при высокой нагрузке.

Доклад принят в программу конференции

Performance-driven Development: как сделать торговую систему с минимальными задержками

Алексей Шурыгин

AlphaNova

7 ноября, 10:00, Зал «Капсула 1»

Google Outlook Apple

Какими принципами надо руководствоваться, чтобы создать систему, где время задержки — микросекунды, а количество сообщений — десятки и сотни тысяч в секунду. Что такое Performance-Driven Development (PDD) и почему без него такую систему не создать. Какие практические подходы надо использовать.

Доклад принят в программу конференции

Программный съем трафика на скорости 400 Gbps: опыт, оптимизации и неочевидные решения

Архитектуры, теория программирования

C/C++

Архитектура данных, потоки данных, версионирование

Алгоритмы и их сравнение

Юрий Морозов

Группа компаний «Гарда»

7 ноября, 14:40, Зал «НеДетская Капсула»

Google Outlook Apple

Рассмотрим актуальные скорости трафика и методы их съема. Узнаем, почему 400Gbps — сегодняшняя реальность. Погрузимся в теорию программного съема и на практических примерах компании «Гарда» разберем, как достигли 400 Gbps. Главный фокус — на неочевидных оптимизациях схемы и кода, давших прорыв в производительности, а также вывод — решение есть почти всегда, надо стараться найти.

Доклад принят в программу конференции

Transaction Outbox под нагрузкой: как не потерять ни одного события при 100k+ RPS

Олег Мифле

Altenar

7 ноября, 17:00, «Зал B1+B2»

Google Outlook Apple

Когда ваш сервис обрабатывает сотни тысяч транзакций в секунду, потеря даже одного события может стоить бизнесу миллионы. Transaction Outbox кажется простым паттерном, пока не начинает ломаться под реальной нагрузкой: WAL переполняется, реплики отстают на часы, а CDC-коннекторы падают от back-pressure.

Я помогаю масштабировать событийную архитектуру от тысяч до сотен тысяч событий в секунду. В докладе поделюсь болезненными уроками: как сделать Outbox под 100k+ событий/сек и как правильно оптимизировать WAL.

Вы узнаете конкретные техники оптимизации: от zero-copy-публикации до асинхронного чтения с реплик. Разберем архитектурные решения для горизонтального масштабирования и построения observability, которые действительно помогут во время ночного инцидента.

И главное — обсудим честно, когда Outbox становится антипаттерном и пора переходить к другим решениям.

Доклад принят в программу конференции

За гранью очередей: RabbitMQ 4 и его темная сторона stream'ов

Devops / другое

Управление изменениями

Надёжность продакшена

Проверка гипотез на проде: технологии и команды

Тестирование новых продуктов

Автоматизация разработки, доставки, эксплуатации

Инфраструктура

Юрий Власов

CDEK

7 ноября, 10:00, Зал «Казан»

Google Outlook Apple

Миллиарды сообщений в день — 500+ модулей говорят на одном языке.
MQTT 5.0 — полная поддержка, мгновенная доставка.
Classic queues? Что ждет и что уже не работает и блокер в обновлении.
Classic queues v2 — в 2 раза быстрее, в 0 раз сложнее.
Quorum queues — обновление для критически важных задач и отказоустойчивость.
Streams vs Kafka — теперь мы не просто на равных. Иногда — быстрее.
RabbitMQ v4.X — стоит ли обновляться.
Kepri — новая база данных, спроектированная под реальные нагрузки.
Управление кластерами — теперь строим сложные схемы.
Erlang: фундамент для работы, им надо управлять.

Доклад принят в программу конференции

Как поиск авиабилетов в Туту обрабатывает 10000 предложений в секунду: вызовы, архитектура, кейсы оптимизации

Архитектурные паттерны

Оптимизация производительности

Распределенные системы

Оптимизация

Микросервисы

Иван Садовой

Туту

6 ноября, 10:00, «Зал C1»

Google Outlook Apple

Поиск авиабилетов кажется простым делом: ввел «Москва — Сочи» и через несколько секунд получил десятки вариантов. Но за кулисами работает многоуровневый конвейер обработки данных: каждый пользовательский запрос превращается в десятки обращений к внешним API и тысячи предложений. Кешировать их можно лишь на короткое время.

Источники ассортимента сильно различаются по скорости и качеству: ответы приходят через 2 или 10 секунд, пересекаются, противоречат друг другу и быстро устаревают. Мы выявляем дубликаты, устраняем конфликты, обогащаем информацию, а также строим маршруты с пересадками — задачи, которые раньше выполняли специализированные системы.

Ключевая метрика — time‑to‑first‑offer: пользователи ждут быстрых результатов, даже если не все источники успели ответить.

Со временем старые решения перестают справляться: оптимизации начинают тормозить, а бизнес‑требования заставляют пересмотреть архитектуру.

В докладе я расскажу:
* почему поиск авиабилетов — это не просто бизнес‑логика про тарифы, а настоящий Highload со специфическими метриками качества;
* как мы прошли путь от «это не может работать» до «бизнес в нас поверил»;
* как устроены доменные слои поиска и где внутри системы «взрывается» нагрузка;
* на какие компромиссы и приемы оптимизации пришлось пойти, где не сработали первоначальные идеи;
* каких целей и показателей в продакшне мы достигли, а каких целей достичь не удалось;
* какие новые вызовы стоят перед системой после пяти лет эксплуатации;
* что вы можете применить у себя.

Доклад принят в программу конференции

Реалтайм-аналитика в распределенной системе

Организация системы кеширования

Распределенные системы

Архитектура данных, потоки данных, версионирование

Вадим Зотеев

Яндекс Go

7 ноября, 12:20, «Зал A3»

Google Outlook Apple

В докладе поделюсь практическим опытом решения задач real-time аналитики в условиях:
* Миллионы/миллиарды записей, распределенных по десяткам сервисов в большом B2B-продукте.
* Требование отклика в сотни миллисекунд.
* Постоянные изменения данных, включая обновления задним числом.

Что вы узнаете:
* Архитектурные паттерны для быстрой фильтрации и агрегации в распределенной системе.
* Концепция обновляемой Read-Only реплики: подводные камни и решения (холодный старт, гонки, скорость обновлений).
* Предагрегаты на PostgreSQL и ClickHouse: когда колоночных БД недостаточно.
* Техники обработки исторических изменений без полного пересчета.
* Путь от ad-hoc-решений к платформизации.

Практическая ценность: в конце доклада получите готовый cheatsheet с проверенными решениями для типовых задач real-time-аналитики.

Доклад принят в программу конференции

Как мы в Яндекс Еде за 3 месяца построили свой рекламный движок с нуля

Алгоритмы и их сравнение

Рекомендации / ML

Микросервисы

Денис Токарев

Яндекс Еда

6 ноября, 11:10, Зал «НеДетская Капсула»

Google Outlook Apple

Когда у вас 2,2 млн DAU, 500k+ ресторанов и жесткие требования по latency, готовые решения перестают работать. Расскажу, как мы за один квартал построили рекламный движок, который:

* Обрабатывает >600 RPS с 99 перцентилем <50ms на кандидатогенерации.
* Работает по CPA-модели (Cost Per Action) вместо классического CPC.
* Упростил путь рекламодателя с 5 шагов до 3.

Технические детали, которые разберем:
* Кандидатогенерация за 50ms: сравнение геоиндексов (R-tree vs H3 Uber vs Geohash) на реальных данных.
* ML в продакшене: как предсказываем вероятность заказа и потенциальную выручку в real-time.
* Аукционы VCG vs GSP: почему провели сотни offline-симуляций перед выбором конфигурации.
* Архитектура: микросервис на C++ для аукциона, обработка событий, проклейка конверсий с TTL 48 часов.
* Борьба с каннибализацией: механизмы амнистирования ставок и organic_tolerance.

Практическая ценность: получите конкретные бенчмарки алгоритмов, архитектурные решения и метрики, которые помогут принять решение о создании собственного рекламного движка.

Доклад принят в программу конференции

Антипаттерн как фича: кросс-неймспейсный garbage collector в Kubernetes

Сергей Петров

РСХБ.цифра

7 ноября, 11:10, Зал «НеДетская Капсула»

Google Outlook Apple

Если вы пишете Kubernetes-операторы, то наверняка сталкивались с такими вопросами:

* Как отслеживать и удалять порожденные оператором CR, которые больше не нужны?
* Как понимать взаимосвязь CR между собой, особенно когда они располагаются в различных пространствах имен и кластерах?
* Как писать код оператора, не задумываясь о жизненном цикле каждого из множества CR и их потомков?

Особенно остро эти вопросы встают, когда вы разрабатываете не один оператор, а PaaS-платформу, архитектура которой построена на каскаде операторов. Этот подход мы используем в PaaS App.Farm.

В этом докладе мы поделимся своим опытом реализации простого и надежного механизма garbage collection, который решает все поставленные выше вопросы, НО противоречит рекомендациям в документации Kubernetes.

Все, кто, как и мы, «не читали» документацию Kubernetes, welcome!

Доклад принят в программу конференции

От одного контейнера до 4000 RPS: как мы масштабировали GitLab в трех дата-центрах

Отказоустойчивость

Распределенные системы

Архитектуры / другое

Логирование и мониторинг

Devops / другое

Микросервисы

Инфраструктура

Сеть

Максим Степанов

МТС Web Services (MWS)

7 ноября, 15:50, «Зал C1»

Google Outlook Apple

Доклад посвящён реальному опыту масштабирования GitLab от маленького контейнера до крупного распределенного решения в трех дата-центрах с нагрузкой 4000 запросов в секунду. Мы подробно рассмотрим ограничения, с которыми столкнулись при росте нагрузки и пользователей, и конкретные шаги по решению этих проблем:
* Причины перехода на различные редакции GitLab (от CE до собственной редакции): какие преимущества получили и когда стоит переходить на новую редакцию.
* Оптимизация хранения и бэкапов, включая миграцию на S3 и смену подхода к резервному копированию.
* Отделение очередей и GitLab в отдельные сервисы для повышения стабильности.
* Почему и как мы мигрировали на Kubernetes-кластер.
* Масштабирование GitLab VCS и внедрение балансировки для отказоустойчивости.
* Переход на базы данных In-memory (redis/valkey) и разделение нагрузки на несколько кластеров.
После доклада слушатели смогут лучше понять, как последовательно и эффективно масштабировать GitLab и аналогичные сервисы, избегать распространенных ошибок и заранее подготовиться к техническим ограничениям инфраструктуры.

Доклад принят в программу конференции

Интеллектуальное кеширование: можем ли мы научить backend предсказывать будущее

Бэкенд / другое

Критерии выбора технологий для проекта

Оптимизация

Теория

Николай Кокоулин

Ви.Tech

6 ноября, 13:30, Зал «Казан»

Google Outlook Apple

Кеширование ускоряет работу сервисов, и чаще всего мы полагаемся на проверенные эвристики вроде TTL или LRU. Но в реальных высоконагруженных системах они не дают хороших результатов. В докладе расскажу, как мы пробовали использовать ML, чтобы кеш сам предсказывал востребованность данных, почему не все сработало и почему в проде мы оставили классическое решение.

Доклад принят в программу конференции

Как мы ускоряли поиск в модели EAV для 13500 атрибутов через ClickHouse

Миграции данных

PostgreSQL

Архитектурные паттерны

Архитектура данных, потоки данных, версионирование

ClickHouse

Поддержка и развитие legacy систем

СУЗ / системы управления знаниями

Александр Залеский

МТС Web Services (MWS)

7 ноября, 11:10, «Зал A3»

Google Outlook Apple

Что делать, если нужна структура данных, которую необходимо менять прямо на проде? А если таких структур тысячи, атрибутов десятки тысяч, и множество из них — связи между объектами? Добавим сюда транзакционность, сложную валидацию, поиск по любым атрибутам среди десятков миллионов объектов.

Мы не понаслышке знакомы с этой ситуацией, ведь разрабатываем BPM-систему для всех строительных и эксплуатационных процессов мобильной сети МТС. Мы прошли путь от классической EAV-модели к CQRS-архитектуре, сохранив EAV для мастер-данных и метаданных в Postgres, но вынеся чтение и поиск в ClickHouse по денормализованным JSON-объектам. В докладе разберем плюсы и минусы такого подхода, расскажем, как боролись с неконсистентностью, ограничениями JOIN в ClickHouse, масштабируемостью и задержками. Поделимся конкретными практиками и извлеченными уроками, которые помогут вам избежать дорогостоящих ошибок в своих проектах.

Доклад принят в программу конференции

AppMetrica: миграция профилей на транзакционную запись в YDB для 500к событий в секунду

C/C++

Распределенные системы

Архитектура данных, потоки данных, версионирование

Павел Пересторонин

Яндекс

6 ноября, 13:30, Зал «Капсула 1»

Google Outlook Apple

Долгое время мы самостоятельно обеспечивали согласованность шины данных и состояния в YDB, но с появлением транзакций между топиками и таблицами в YDB эту работу забрала на себя СУБД. Приходите послушать про то, с какими сложностями мы сталкивались при самостоятельном обеспечении консистентности, почему это боль и как миграция на транзакционную запись ее решает.

Доклад принят в программу конференции

Базы данных и системы хранения (17)

Винил снова в моде, или История дискового движка в Tarantool

Tarantool

Хранилища

Обработка данных

Типовые ошибки

Picodata

Сергей Бронников

VK, VK Tech, Tarantool

6 ноября, 15:50, «Зал C1»

Google Outlook Apple

В инженерной работе есть как успехи, так и провалы. Причем о последних не очень любят рассказывать. Тем не менее рассказы о провалах поучительны, они позволяют другим учиться на чужих ошибках. Одной из основных фич Tarantool 1.7 была поддержка дискового движка, который назвали «винил». Планировали до конца 2016 года тщательно протестировать и стабилизировать функциональность движка, но по разным причинам сделать этого не получилось, а вместо стабильности до последнего времени это был один из компонентов Tarantool, который был сложен в эксплуатации, крэшился под нагрузкой и который тяжело было поддерживать.

Сейчас, когда от большинства проблем получилось избавиться, можно ретроспективно взглянуть на историю появления дискового движка, осмыслить причины сложности разработки, эксплуатации и поддержки. Я расскажу историю дискового движка в Tarantool с организационной и инженерной точек зрения, расскажу, как мы решали проблемы с винилом и реанимировали его репутацию среди пользователей.

Доклад принят в программу конференции

Внедрение и развитие каталога данных в МТС BigData: практический опыт

Александр Полищук

МТС Web Services (MWS)

6 ноября, 17:00, Зал «НеДетская Капсула»

Google Outlook Apple

Когда в компании объемы данных постоянно растут, в какой-то момент в них становится довольно сложно ориентироваться, и не утонуть в этом болоте помогает каталог данных.

У нас уже было проприетарное решение, но, к сожалению, из-за всем известных событий возникли проблемы с лицензиями, и ему пришлось искать альтернативу.

В своем докладе я поделюсь опытом поиска и внедрения нового каталога данных в МТС BigData: как мы выбирали решение, как пришли к Open Source и как нам пришлось сидеть на двух стульях (зачеркнуто) каталогах в процессе миграции со старого каталога на новый. Тема взаимодействия с пользователями в этом процессе также будет раскрыта.

Ну а в завершение расскажу, каким образом мы извлекаем метаданные с кластеров размером десятки петабайт незаметно для самих кластеров, с какими проблемами столкнулись на пути к данному решению и на какие trade-off при этом пришлось пойти.

Доклад принят в программу конференции

«Прощай, Oracle! Здравствуй, Scylla!» — (совсем не) квантовый переход ленты уведомлений на Госуслугах

Миграции данных

Java

Oracle

Базы данных / другое

Асинхронное программирование, реактивное программирование

Отказоустойчивость

Логирование и мониторинг

A/B-тестирование

Импортозамещение

Логи, метрики, ошибки

Микросервисы

Сергей Олейников

РТЛабс

6 ноября, 15:50, Зал «Капсула 1»

Google Outlook Apple

Поделимся реальным опытом бесшовной миграции высоконагруженного сервиса уведомлений с Oracle на ScyllaDB. Вы узнаете, как организовать такой переход, минимизировать риски и сохранить доступность для миллионов пользователей.

Прослушав доклад, вы на конкретном примере узнаете:
* о проектном решении, использующем Kafka, балансировщик, куки;
* с какими проблемами придётся столкнуться и как их решить;
* какие инструменты и метрики использовать для мониторинга миграции;
* что необходимо предусмотреть заранее, чтобы потом не было больно.

В рамках доклада разберём:
* почему мы приняли решение уйти от Oracle и что повлияло на выбор ScyllaDB;
* как спроектировали архитектуру параллельной работы двух хранилищ;
* как использовали Kafka, балансировщики и куки для безопасного переключения;
* какие сложности нас поджидали (от асинхронности до отказа дата-центра) и как мы их преодолели;
* какие метрики и инструменты мониторинга использовались на каждом этапе;
* какие цифры подтверждают успех миграции.

Доклад будет полезен инженерам и архитекторам, которые:
* работают с высоконагруженными системами;
* планируют миграцию с монолитных решений;
* ищут реальные кейсы бесшовной миграции и data-consistency-стратегий.

Доклад принят в программу конференции

💻 Воркшоп «Собери Postgres себе на ноуте»

Андрей Бородин

Yandex Cloud

7 ноября, 10:00, «Зал A1»

Google Outlook Apple

Postgres — не только хорошее слово, но и очень быстрое дело.
Приносите ноуты — соберем из исходников СУБД и попробуем реализовать простой патч.
Если есть ваши идеи, что напрограммирововать, — хорошо, если нет — я предложу, на чем потренироваться.

Доклад принят в программу конференции

YTsaurus Shuffle Service: как повысить надежность и производительность тяжелых Spark-приложений

Отказоустойчивость

Распределенные системы

Базы данных, обработка данных

YTSaurus

Антон Рыбьянов

Яндекс

Александр Токарев

Яндекс

7 ноября, 15:50, «Зал B3»

Google Outlook Apple

При работе Apache Spark промежуточные shuffle-данные по умолчанию хранятся на локальных дисках executor-ов, что привязывает их жизненный цикл к конкретным процессам и хостам. Это создает уязвимости: сбой или вытеснение executor-а может привести к повторным вычислениям, замедлению работы и росту потребления ресурсов — особенно в долгоживущих и ресурсоемких приложениях.

В стандартном подходе для повышения надежности применяется External Shuffle Service, однако он по-прежнему опирается на локальное хранение и требует дополнительной поддержки со стороны инфраструктуры. Мы реализовали альтернативный подход — хранение shuffle-данных в распределенном хранилище YTsaurus. Такой способ повышает надежность, упрощает квотирование ресурсов, позволяет динамически реконфигурировать кластер и открывает возможность применения альтернативного push-based подхода к shuffle-операциям без необходимости изменений со стороны Spark. Реализация полностью прозрачна и может применяться для всех Spark-задач, запускаемых на платформе YTsaurus, вне зависимости от типа и объема нагрузки.

В докладе будут рассмотрены детали интеграции YTsaurus со Spark, а также представлены актуальные результаты оценки производительности этого решения на реальных задачах платформы.

Доклад принят в программу конференции

Неожиданные различия PostgreSQL и YDB: опыт перевоза процессинга Яндекс Такси

Миграции данных

PostgreSQL

YDB

YTSaurus

Игорь Березняк

Техплатформа городских сервисов Яндекса

7 ноября, 12:20, «Зал C1»

Google Outlook Apple

Я поделюсь опытом миграции микросервиса с шардированного PostgreSQL на YDB: несмотря на похожесть двух СУБД, YDB далек от состояния drop-in replacement для PostgreSQL. Коснусь вопросов различия гарантий, подходов к написанию запросов и эксплуатационных характеристик. Эти особенности стоит учесть заранее, чтобы не столкнуться с ними посреди процесса миграции.

Доклад принят в программу конференции

Как прокачать иопсы вновь: новый слой хранения для Vitastor

Виталий Филиппов

Личный проект

6 ноября, 18:10, Зал «НеДетская Капсула»

Google Outlook Apple

За последние три года Vitastor стал универсальной SDS. Появилось много новых функций и оптимизаций — и полноценная кластерная файловая система VitastorFS, и S3, и k8s-оператор, и zero-copy в io_uring, и локализованные чтения, и совсем безумные вещи вроде Antietcd — встроенного заменителя etcd всего лишь на 3,5 тысячи строк кода (сам etcd — это более 150 тысяч строк).

Однако одной вещи не хватало давным-давно — более умного и быстрого слоя хранения. Идея не давала покоя буквально все эти годы и только сейчас наконец кристаллизовалась и вылилась в практическую реализацию. Результаты отличные — снижение потребления CPU и повышение производительности буквально в 3–4 раза. Это при том, что уже и так было быстро, а CPU и так потреблялось мало!

Новое хранилище одновременно простое и сложное. Оно эффективно использует особенности архитектуры современных SSD-накопителей, при этом решая сразу массу проблем и закладывая основу для реализации дополнительных функций.

О нем и будет доклад!

Доклад принят в программу конференции

Снапшоты своей файловой системы через LSM: с RocksDB легко, но есть нюансы

Александр Черепанов

YADRO

7 ноября, 17:00, «Зал A1»

Google Outlook Apple

Разрабатывая собственную файловую систему, мы столкнулись с проблемой: как эффективно и быстро реализовать механизм снапшотов для защиты данных? Для хранения метаданных файловой системы мы используем RocksDB, популярную реализацию LSM-дерева на диске, которая будто бы идеальна для этой задачи, — но на пути оказались скрытые рифы, неочевидные из документации.

В этом докладе я расскажу о нашем опыте интеграции преимуществ RocksDB, сфокусировавшись на реализации снапшотов файловой системы.

Вы узнаете, как воспользоваться преимуществами LSM-дерева для реализации снапшотов и при этом не раздуть их метаданные из-за особенностей RocksDB. Как стреляют в ногу нюансы дедуплицирующей файловой системы и POSIX. И как делать поверх всего этого очистку более не используемых данных.

Доклад принят в программу конференции

Бесконечность — не предел: как мы масштабируем единое хранилище Яндекса на десятки эксабайт

Бэкенд

Отказоустойчивость

Распределенные системы

Хранилища

Александр Снопов

Yandex Infrastructure

7 ноября, 11:10, «Зал B1+B2»

Google Outlook Apple

Все сервисы Яндекса используют единое объектное хранилище MDS — от Я.Диска и Почты до Yandex Object Storage. Сейчас это 4 эксабайта данных на тысячах серверов с RPS 1,5M и требованиями доступности 99,99% и надежности 99,999999999%.

Проблема: архитектура старой версии MDS не позволяла масштабироваться дальше:
* централизованный control-plane ограничивал рост числа серверов;
* клиентская репликация приводила к проблемам согласованности при отказах;
* поломки требовали ручного вмешательства, снижая надежность.

Как решали:
* децентрализация — перенесли логику в «умный» дисковый слой, избавились от единой точки отказа;
* Raft-репликация — заменили клиентскую репликацию на простой и надежный алгоритм;
* Self-healing — внедрили декларативное управление и автоматизировали починку типовых отказов;
* расскажу про graceful degradation при масштабных сбоях, почему не взяли Ceph/Minio и какие альтернативы не сработали.

Что заберете:
* принципы проектирования exascale-хранилищ;
* паттерны автоматизации эксплуатации (self-healing, декларативность);
* метрики мониторинга здоровья кластера из тысяч серверов.

Доклад принят в программу конференции

Миграция контента в KION: как перенести сотни ТБ без downtime

Никита Иванов

МТС Web Services (MWS)

6 ноября, 14:40, Зал «Капсула 1»

Google Outlook Apple

Казалось бы, перенос данных — рутинная задача. Но когда речь идет о работающем онлайн-кинотеатре с нагрузкой в тысячи RPS, гигабитами трафика и жесткими требованиями к IOPS, все становится сложнее.

В этом докладе я расскажу реальный кейс миграции контента из легаси-системы (на физических серверах) на новую платформу Kion без остановки сервиса.

* Кратко расскажу, как устроена раздача контента в онлайн-кинотеатре.
* Как решали задачу переноса данных, какие инструменты использовали для миграции, с какими проблемами столкнулись и как пытались разогнать миграцию до 50 гбит/сек без влияния на сервис.
* Подведу итог, на что обратить внимание при проведении подобных мероприятий.

Доклад принят в программу конференции

2 DC 1 fail: как реализовать автоматический фейловер, когда данные в двух зонах доступности

Георгий Белянин

VK Tech, Tarantool

7 ноября, 17:00, Зал «Казан»

Google Outlook Apple

Механизм репликации используется для обеспечения отказоустойчивости в базах данных.

Популярная разновидность — master-slave репликация — требует, чтобы среди нескольких узлов с одинаковыми данными был выбран главный (master), который будет доступен не только для чтения, но и для записи.

В случае его отказа необходимо выбрать нового главного среди оставшихся, чтобы сохранить возможность писать данные.
Это можно делать вручную при сбое, но алгоритмы консенсуса, например RAFT и Paxos, позволяют произвести переключение автоматически.

Проблема в том, что такие алгоритмы требуют наличия минимум трех зон доступности, а платить за них может быть накладно.
Попробуем разобраться, какие есть способы ограничиться двумя дата-центрами и при этом обеспечивать автоматическое переключение в момент сбоя.

Перескажем опыт команды Tarantool в разработке и в эксплуатации различных вариантов таких механизмов.

Рассмотрим возможные трансформации алгоритма RAFT для сценария с данными в двух зонах доступности.

Доклад принят в программу конференции

Федерация брокеров сообщений и как с ней экономить половину места

Отказоустойчивость

Распределенные системы

Архитектура данных, потоки данных, версионирование

Big Data и Highload в Enterprise

Логи, метрики, ошибки

YDB

Андрей Серебрянский

YDB

7 ноября, 13:30, «Зал A1»

Google Outlook Apple

Во всех организациях огромный объем передаваемых данных — это логи и метрики бегущих микросервисов. В Яндексе через YDB Topics каждую секунду пишется около 80 ГБ логов.

Как разработчик YDB Topics, я расскажу:
* как в Яндексе устроен процесс обработки такого огромного объема логов;
* что такое erasure кодирование и почему оно экономит половину места по сравнению с Kafka;
* что такое федерации из кластеров брокеров сообщений: как в них писать и читать, что произойдет при отказах. На примере Kafka и YDB Topics;
* какие недостатки у федерации из кластеров и в каких случаях она не подойдет;
* как воспроизвести такой экономичный способ сбора логов на open-source-технологиях и что нужно учесть, чтобы сделать из этого решения платформу.

Доклад принят в программу конференции

TTL данных в Яндекс Доставке: где закончился PostgreSQL и что вместо него

PostgreSQL

Хранилища

Обработка данных

Валерий Кондаков

Яндекс Доставка

7 ноября, 14:40, «Зал A1»

Google Outlook Apple

Яндекс Доставка — высоконагруженный сервис, считающий 10 000 офферов в секунду (каждый оффер — JSON ~30 КБ). Нам нужно укладываться в 20 мс на сохранение и при этом сохранять персистентность данных. В своем докладе я дам выжимку нашего трехлетнего пути:
* PostgreSQL под write-heavy и TTL: с какими ограничениями мы столкнулись и почему масштабирование упирается в архитектуру базы.
* Переход к Redis/Valkey: почему in-memory-хранилище подходит под эту задачу и как мы не потеряли гарантии.
* Хранение офферов на клиентах Ya Go вместо собственной БД: когда это оправдано, какие подводные камни и что важно учесть при внедрении.

Доклад принят в программу конференции

Перебалансировка без даунтайма в динтаблицах YTsaurus

Иван Смирнов

Яндекс, YTsaurus

6 ноября, 18:10, Зал «Капсула 1»

Google Outlook Apple

Использование Raft-автоматов давно стало одним из стандартов индустрии для построения отказоустойчивых систем. В нашем докладе мы расскажем о том, как поверх автоматов построены динтаблицы YTsaurus — распределенная база данных класса NewSQL. На примере задачи балансировки шардов базы данных без даунтайма расскажем, как обеспечить жизнь нескольких тысяч автоматов в одном кластере и какие бывают протоколы передачи сообщений между автоматами.

Доклад принят в программу конференции

Почему следует время от времени переписывать все компоненты СУБД с нуля

Павел Велихов

Yandex Cloud

6 ноября, 17:00, «Зал C1»

Google Outlook Apple

В мире СУБД постоянно меняется абсолютно все. Железо стремительно меняется, диски замещаются NVMe SSD, ядер в процессоре становится больше сотни, появляются новые способы работы с сетью, такие как RDMA. Появляются новые подходы, идеи, алгоритмы. Но еще важнее — все время меняются требования пользователей. В таком динамическом мире требуется или создавать с ноля современные СУБД каждые лет десять или переписывать с нуля основные ее компоненты. В этом докладе сфокусируемся на двух конкретных компонентах СУБД: движке выполнения запросов и оптимизаторе запросов.

Доклад принят в программу конференции

Как мы внедрили WebAssembly в SQL-движок динамических таблиц YTsaurus

C/C++

Базы данных / другое

YTSaurus

Дмитрий Торилов

Яндекс

6 ноября, 11:10, «Зал B3»

Google Outlook Apple

Мы в динамических таблицах YTsaurus более десяти лет строим распределенную СУБД. Нашим SQL-подобным языком запросов пользуются разработчики в Яндексе, и многие из них хорошо владеют C++ и используют его в работе. Это основной язык, который используется в наших User-Defined Functions. Другие используемые в Яндексе языки не подходят, потому что не работают так же быстро.

WebAssembly — технология для безопасного запуска произвольного кода в изолированном окружении. Именно она позволяет нам запускать любой пользовательский код на C++ внутри нашей СУБД и не бояться.
В докладе расскажу:
* как мы внедрили WebAssembly во взрослый SQL-движок, работающий в продакшне;
* почему WebAssembly выполняется и безопасно, и быстро;
* что требуется от хорошего WebAssembly-рантайма и как нам пришлось допиливать существующий;
* как кросс-компилировать под WebAssembly код произвольной сложности, а не только игрушечные примеры;
* почему это лучший способ поддержать UDF на настоящий момент.

Доклад принят в программу конференции

Postgres в 2025 году: можно ли больше 200K TPS?

Вадим Пономарев

Скала^р (Группа Rubytech)

6 ноября, 14:40, «Зал A3»

Google Outlook Apple

Вопрос простой: есть ли жизнь выше 200K TPS на pgbench rw, а если есть, то это честно или «читерство»?

Мы взяли pgbench, потюнили систему и Postgres (не всегда невинно), ответили на главный вопрос (нет, не 42), а потом сравнили с эксплуатационной реальностью.

Доклад посвящен вопросам тестирования, сверхвысокой производительности PostgreSQL и проблеме того, почему олимпийские результаты тестов могут запросто не иметь никакого отношения к реальности, а звездолет из рекламных брошюр — ехать со скоростью запорожца в реальной жизни. Основная проблематика — разрыв между заявленными в бенчмарках показателями производительности и реальными возможностями в продакшене. В докладе показывается, что скрывается «за кулисами кухни тестов больших результатов» и почему результаты бенчмарков часто не соответствуют реальности.

Приходите на доклад, чтобы увидеть и разобрать:
* Методику бенчмарка: почему это самое важное и почему детали имеют критическое значение.
* Где проходит граница честности: почему часто нам показывают красивые цифры не из реальной жизни.
* Что реально помогает, где и насколько несовершенства postgres можно «закидать железом» и какие побочные эффекты могут быть.
* Важная частность: работа Postgres c NUMA, как можно исправить его не-NUMA-aware-поведение и насколько процессоры есть смысл масштабировать вверх.
* Безопасные и небезопасные читы, «красные зоны» и антипаттерны.

В общем, сделаем все, чтобы объяснить магию бенчмаркинга.

Доклад принят в программу конференции

Data Engineering (9)

Кто это? Что это? Учим VLM узнавать лица, картины и достопримечательности

Завен Мартиросян

Сбер/МИСИС

6 ноября, 15:50, Зал «НеДетская Капсула»

Google Outlook Apple

Мультимодальные модели видят мир, но часто не узнают его. Они могут описать текстуру камня на фасаде собора, но не сказать, что это Нотр-Дам.

Мы взялись за эту проблему «узнавания» и провели серию экспериментов, чтобы научить VLM запоминать ключевые сущности: от шедевров живописи до лиц знаменитостей.

В докладе вы узнаете, какие подходы провалились, а какой рецепт обучения позволил нам добиться значительного прироста в качестве.

Доклад принят в программу конференции

MLOps в супертяжелом весе: приседания c большими моделями в k8s

Максим Мараков

Т-Банк

6 ноября, 12:20, Зал «Капсула 2»

Google Outlook Apple

Мы в Т-Банке запустили внутреннюю продакшн-платформу для синтеза визуального контента. В докладе расскажу, как поднимали «супертяжелые» ML-модели в Kubernetes: справлялись с огромными образами и весами, строили архитектуру вокруг особенностей инференса и выжимали максимум подручными средствами. Будет полезно тем, кто планирует завести огромные ML-модели у себя.

Доклад принят в программу конференции

Онлайн-анализатор миллиона видеостримов: как положить в ClickHouse 2 млрд записей в сутки и собрать их в мультитенантную Grafana

Максим Лапшин

Erlyvideo

6 ноября, 14:40, «Зал B1+B2»

Google Outlook Apple

Мы разработали решение, анализирующее структурную целостность около миллиона видеопотоков одновременно.

Это поток в 2 млрд строк в Clickhouse в сутки. Эти данные просматривают люди через Grafana, адаптированную для мультитенантного доступа, и роботы, присылающие алерты в системы мониторинга клиентов.

В докладе технические детали:

* Запись в БД с множества версий нашего видеостримера.
* Организация стейджинга, тестов и подбор железа под БД.
* Чтение из кликхауса: как прикидываться прометеусом.
* Связь личного кабинета с Grafana, интеграция пользователей и ограничение доступа к данным.
* И на сладкое: как все это развернуть on-prem в редуцированном виде.

Доклад принят в программу конференции

Платформа для создания субтитров на весь UGC в RUTUBE

Оптимизация производительности

Масштабирование с нуля

Дмитрий Лукьянов

RUTUBE

6 ноября, 14:40, Зал «НеДетская Капсула»

Google Outlook Apple

Чтобы обеспечить автоматическими субтитрами миллионы часов UGC-контента, нужно не просто точно распознавать речь — требуется промышленная платформа, способная к экстремальному масштабированию. В RUTUBE мы прошли путь от ограниченного MVP на Whisper до высокопроизводительной системы на собственных моделях, которая сейчас обрабатывает новые пользовательские видео почти без задержки. В докладе раскрою архитектурные решения, позволившие добиться такой пропускной способности при качестве, близком к ручной расшифровке.

Технический стек и архитектурные решения:
* асинхронная обработка через Kafka для управления потоком задач;
* Triton Server для эффективного инференса ML-моделей без OOM на длинных видео;
* кастомный Speech Worker как оркестратор с балансировкой нагрузки;
* собственные ASR-модели на базе FastConformer.

Практические кейсы из production:
* Обработка экстремально длинного контента (24+ часа) без потери производительности.
* Борьба с «галлюцинациями» моделей на музыке, шумах и спецэффектах.
* Горизонтальное масштабирование под переменную нагрузку видеохостинга.
* Работа со сложным аудио: от зашумленных записей до музыкальных клипов.

Что вы узнаете:
* как организовать pipeline-обработки для достижения требуемой пропускной способности;
* конкретные оптимизации для снижения задержек и увеличения throughput;
* стратегии мониторинга и обеспечения отказоустойчивости.

Доклад будет полезен разработчикам, которые сталкиваются с задачами обработки больших объемов аудио/видеоданных, масштабирования ML-сервисов и построения отказоустойчивых систем под высокие нагрузки.

Доклад принят в программу конференции

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Machine Learning

Дмитрий Колесников

Wildberries & Russ

7 ноября, 18:10, «Зал C1»

Google Outlook Apple

Как за год превратить сотни разрозненных CV-моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 10+ млн карточек товаров (50+ млн изображений и 500K видео)? В докладе раскрою DS-архитектуру системы модерации Wildberries: как мы унифицировали модели через TensorRT и DALI, перешли к шаблонной архитектуре «общий бэкбон — легкие головы» и построили ансамбль в Triton, чтобы снизить нагрузку и ускорить деплой. Расскажу, как автоматизировали ретроскоринг, прогнозируем нагрузку на модераторов и используем LLM для перепроверки. Это не просто кейс — это готовая инженерная система, которую можно масштабировать под любые задачи в сфере модерации.

Доклад принят в программу конференции

Next Best Action: от просроченной задолженности к прибыли через персонализацию коммуникаций

Ольга Кравченко

Газпромбанк.Тех

7 ноября, 14:40, Зал «Капсула 1»

Google Outlook Apple

В современном банковском секторе критически важно эффективно управлять просроченной задолженностью. Мы разработали систему, которая уже на первом месяце применения увеличила объем возврата средств на 25%.

Внедренный подход позволил полностью автоматизировать и персонализировать выбор канала взаимодействия с клиентом. Как итог — исключение человеческого фактора, оптимизация нагрузки на колл-центр, минимум затрат на коммуникации и максимум прибыли. А еще — прирост лояльности клиентов.

В докладе покажем и расскажем, как создавалась архитектура комплексного пилота и промышленного решения, углубимся в применение uplift- и response-моделей на разных этапах задолженности. Поделимся, как мы искали подходы к разным типам клиентов и какие ошибки совершали по пути.

Доклад принят в программу конференции

GPT в службе поддержки: автоматизация, оптимизация и инновации

Николай Пономаренко

Техплатформа Городских сервисов Яндекса

6 ноября, 11:10, «Зал A3»

Google Outlook Apple

* Как Городские сервисы Яндекса внедряют GPT для автоматизации различных процессов.
* Как построить RAG для высокоэффективной автоматизации обращений в службу поддержки.
* Какие уроки были извлечены в процессе переосмысления подхода к использованию языковых моделей.

Мой доклад будет полезен в первую очередь DL-специалистам, работающим в сфере NLP, чтобы узнать, как можно приземлять LLM в реальных продуктах, как оптимизировать большие языковые модели, чтобы получать максимальный эффект при небольших затратах на железо, как эффективно обучать, оценивать и запускать SotA-технологии в этой сфере. Я не планирую очень сильно углубляться в детали, чтобы сделать доклад максимально доступным для аудитории разного уровня.

Также мой доклад должен быть крайне полезен продактам, так как в нем пойдет речь про то, как максимизировать профит от использования LLM в реальных продуктах, как эффективно и точно замерять позитивные изменения от внедрения больших языковых моделей, с какими нетривиальными проблемами можно столкнуться при внедрении LLM в бизнес-процессы.

Доклад принят в программу конференции

Как быстро join'ить датафреймы с геоданными на Apache Sedona и при чем здесь DataSkew, деревья и RDD

Обработка данных

Павел Молчанов

МТС Web Services (MWS)

7 ноября, 18:10, Зал «Капсула 1»

Google Outlook Apple

Боремся с длительными джоинами Spark датафреймов с геоданными в Apache Sedona (с условием в виде пространственного предиката типа ST_Contains) и побеждаем! Выясняем, почему здесь часто возникает перекос данных (Data Skew) и как его ликвидировать. Пишем инструмент для быстрых Spatial Joins.

Доклад принят в программу конференции

Разработка высокопроизводительного коннектора к YTsaurus для Apache Flink

Данил Сабиров

Яндекс

6 ноября, 10:00, «Зал B3»

Google Outlook Apple

В DMP Yandex Go работает платформа потоковой обработки данных на базе Apache Flink. Сотни джобов ежесекундно обрабатывают терабайты данных и отправляют их в YTsaurus. Однако так было не всегда.

В докладе расскажем о том, как разрабатывали коннектор для Apache Flink, чтобы удовлетворить потребности DWH в поставке данных в режиме real-time: научиться отправлять сотни мегабайт в секунду и выполнять лукапы в тысячи RPS в кластер YTsaurus.

Доклад принят в программу конференции

Platform Engineering (7)

💻 Воркшоп «Высшая куберматика: почему пять бинарей — это действительно просто»

Бэкенд / другое

Архитектурные паттерны

Технологии виртуализации и контейнеризации

DevOps / Кубер

Владимир Утратенко

Лаборатория Числитель

7 ноября, 12:20, Зал «НеДетская Капсула»

Google Outlook Apple

Несмотря на то что Кубер уже, казалось бы, живет в каждом продакшне и уже стал обыденностью с точки зрения использования, для многих механизмы его работы остаются terra incognita. В воркшопе расскажу, как не заблудиться лесу объектов Kubernetes, а также выйти оттуда не просто живым, со здоровым рассудком, но и с победой.

Доклад принят в программу конференции

Виртуальные машины как полноправные жители Kubernetes

Павел Тишков

Флант

6 ноября, 13:30, «Зал B1+B2»

Google Outlook Apple

Kubernetes — прекрасный оркестратор не только для контейнеров, но и для виртуальных машин. Но как сделать так, чтобы ВМ под его управлением была по-настоящему надежной и стала «first-class citizen»? И что нужно, чтобы с виртуальной машиной можно было работать так же, как с обычным контейнером?

В докладе я расскажу об опыте построения Open-Source-платформы виртуализации с оркестратором на базе Kubernetes. Вы узнаете, как мы решали проблемы с обеспечением надёжности работы виртуальной машины, а также почему не взяли стандартное решение, а сделали свое на его основе.

Доклад принят в программу конференции

Test environment as a service: как приручить хаос тестовых окружений

Автоматизация тестирования

Инфраструктура

Илья Соловьев

Lamoda Tech

6 ноября, 13:30, «Зал B3»

Google Outlook Apple

В крупных IT-компаниях с экосистемой на сотни сервисов создание тестового окружения превращается в кошмар: от нескольких дней на подготовку до недель простоя, неясные зоны ответственности, огромные затраты на инфраструктуру и тестирование критичных фич прямо на продакшене.

В докладе я хочу поделиться опытом построения платформы динамических тестовых окружений, которая позволяет любому инженеру за 30 минут собрать произвольный набор сервисов под любой сценарий и как от этого выиграли сотрудники и бизнес.

Расскажу как совместная работа DevOps, QA и разработчиков позволила приручить существующий хаос и превратить его в управляемую платформу с наследованием окружений, собственным service discovery, механизмами экономии ресурсов и загрузки данных и не забуду про грабли, собранные по пути.

Доклад принят в программу конференции

Мастер-класс «Cloud from scratch: строим виртуальную сеть из подручных материалов»

Python

Сетевое администрирование

Теория

Инфраструктура

Сеть

Александр Попов

VK Tech, VK Cloud

6 ноября, 12:20, «Зал B1+B2»

Google Outlook Apple

Хотите построить сеть для облака с нуля? Хотите «швейцарский нож» для подобной задачи? Проведем мастер-класс по созданию распределенной виртуальной сети между виртуалками.

В наше время появляется много новых облаков, но вот новые SDN появляются редко. Мы в VK Cloud написали собственный SDN. И теперь помаленьку выкладываем его в open source. На этом мастер-классе я покажу небольшой кусочек нашего SDN, который, тем не менее, выполняет очень важную функцию: он служит для организации распределенного свитча в виртуальной сети. Кроме этого он умеет еще много всего, например быть распределенным роутером. Это не полноценный SDN, а скорее универсальный инструмент, которым можно решить кучу около сетевых проблем вокруг облаков и k8s.

В качестве dataplane используем Open vSwitch и GoBGP. Обеспечиваем совместимость с набором стандартов EVPN.

Доклад принят в программу конференции

Billing Platform: внедрение Temporal и переход к предметно-ориентированной микросервисной архитектуре

Платёжные системы, обработка платежей

PostgreSQL

Микросервисы, SOA

Отказоустойчивость

Александр Тарасов

AvitoTech

6 ноября, 14:40, «Зал C1»

Google Outlook Apple

В докладе я расскажу о создании асинхронной системы для обеспечения eventual consistency в учете. Поговорим о внедрении Temporal, почему он стал ключевым элементом новой микросервисной архитектуры и как помог справиться с хаосом бизнес-логики.

Доклад принят в программу конференции

Эволюция разработки IDE: от перфокарт до облачных сред с ИИ

Георгий Суаридзе

7 ноября, 12:20, «Зал B3»

Google Outlook Apple

За 100 лет программирование превратилось из профессии для избранных математиков в навык, который скоро освоит любой школьник. И все благодаря эволюции наших инструментов. Когда-то программисты писали код вслепую — на перфокартах, без подсветки синтаксиса и автодополнения. Сегодня IDE не просто подсказывают ошибки, а могут сгенерировать готовый модуль, протестировать его и даже объяснить, что произошло.

В этом докладе мы пройдем путь от первых интегрированных сред до облачных IDE и low-code-платформ, разберем, что стало катализатором каждой эры, и обсудим главный вопрос: останется ли у разработчика работа, если IDE уже умеют писать код сами?

Доклад принят в программу конференции

Платформа для 50000 приложений: как собрать инфраструктуру и выжить?

Отказоустойчивость

Распределенные системы

Методы и техника разработки ПО

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Надёжность продакшена

Инфраструктура

Всеволод Величко

Yandex Infrastructure

7 ноября, 10:00, «Зал C1»

Google Outlook Apple

В Яндексе используется, пожалуй, самое большое инфраструктурное облако в России: под его управлением находятся десятки тысяч сервисов и 150 тысяч серверов.

Страшно ли в такой системе проводить обновления? Как обеспечить максимальную надежность и при этом сохранить высокий темп релизов?

Мы поговорим о том, как сделать простой сложную инфраструктуру. Как жить сервису, когда вокруг все горит. Расскажу о том, как мы используем Kubernetes и CRD-манифесты для управления инфраструктурой и почему не все популярные решения одинаково хороши.

Доклад принят в программу конференции

Безопасность высоконагруженных систем (7)

SSO для бедных: реализация IAM на Open Source в инфраструктуре разработки

Александр Лысенко

К2 Кибербезопасность

6 ноября, 13:30, «Зал C1»

Google Outlook Apple

Инфраструктура заказной разработки — страшный сон для любого специалиста ИБ: большое количество сервисов (GitLab, Nexus, Jaeger, Jira, Nextcloud, Confluence, Sentry, Kubernetes, Kibana и др.), «тестовые» и «демо»-сервисы с инфраструктурной обвязкой (БД, брокеры сообщений, S3‑совместимые хранилища). А иногда есть еще и PROD‑контур — сервисы, предоставляемые клиентам по SaaS-модели. При этом бизнес требует делать больше за меньшее число человеко‑часов. В таких условиях DevOps‑инженеры успевают лишь «чинить» очередную упавшую сборку, а полноценное администрирование сервисов становится факультативом, пока загружается пайплайн. Подобные ситуации порождают огромное количество рисков ИБ. Самый распространённый из них — «подвисшие» и общие учётные записи.

В докладе расскажу:

* как решить проблему силами «половины» DevOps‑инженера и набором Open‑Source‑решений;
* как развернуть все необходимые сервисы;
* как построить интеграции;
* сколько ресурсов требуется.

Доклад принят в программу конференции

От хаоса к порядку: как приручить Admission Controller в Enterprise-масштабах

Логирование и мониторинг

Управление конфигурацией

Управление уязвимостями

Безопасность от планирования до эксплуатации

Логи, метрики, ошибки

Безопасная коммуникация, культура

DevOps / Кубер

Безопасность инфраструктуры

Инфобезопасность

Владислав Трофимов

Wildberries & Russ

Анастасия Макеева

Wildberries & Russ

6 ноября, 11:10, Зал «Капсула 1»

Google Outlook Apple

* Расскажем, как перейти от реактивной безопасности к продуманной экосистеме в Kubernetes на масштабе Enterprise компании.
* Расскажем честно: где болело, что сломали по дороге и почему поставили Kyverno как единый и непоколебимый рубеж обороны.
* Обсудим встраивание безопасности в DevOps/CI/CD без потери скорости релизов.
* Как мы превратили хаос в порядок, не сорвав ни одного деплоя? Секрет в неочевидном подходе — тактике «волнами и без паники»: включения, наблюдаемость, управляемые исключения.
* Коротко разберем реальные кейсы — от внутреннего реестра образов до корректировки прав ingress-controller и включения ReadOnlyRootFilesystem, где мутации стали нашим козырем в рукаве.
* Поговорим о сезонности бизнеса и о том, как беречь прод, когда ставки максимальны.
* Результат — меньше нарушений, больше прозрачности и релизов, за которые не страшно, а самое главное — безопасность, органично встроенная в DevOps-практики; доклад для платформенных инженеров, DevOps, SRE и специалистов по ИБ.

Доклад принят в программу конференции

Правовая архитектура генеративного AI

София Чернавина

BETOBELEGAL

7 ноября, 18:10, Зал «НеДетская Капсула»

Google Outlook Apple

Многие продукты внедряют LLM через облачные или SaaS‑решения (обмен данными, генерация контента, интеграция в бизнес‑процессы), при этом не думая о юридических особенностях и возможных рисках.

Обсудим следующее:
* Что происходит с данными пользователей (персональными, коммерческими)? Как обеспечить GDPR‑подобное соответствие?
* Как формулировать лицензионные соглашения и условия использования — особенно в связке с open source и сторонними LLM (особенно при fine‑tuning)?
* Кто несёт ответственность за ошибки ИИ‑генерации: вред пользователю, нарушение прав третьих лиц, дискриминационные или токсичные результаты?

Доклад принят в программу конференции

Задача Икс: применяем принципы эволюции к тестированию безопасности

Управление изменениями, управление требованиями

Тестирование безопасности

Application security

Тестирование новых продуктов

Безопасность

Арина Волошина

YADRO

6 ноября, 17:00, Зал «Капсула 1»

Google Outlook Apple

Эволюция давно научилась эффективно выстраивать процессы тестирования. Давайте подсмотрим у нее и оптимизируем превентивную защиту продукта до уровня самообучения. Генетика поможет нам создать обучаемые тесты, которые обойдут misuse case'ы, о которых вы не подозревали.

Вы узнаете, как применить эволюционный принцип к любому виду тестирования на безопасность, и поймете, почему это сильно повысит устойчивость вашей системы к падению.

Доклад принят в программу конференции

Серьезный разговор про контроль целостности в Kubernetes

DevOps / Кубер

Безопасность

Безопасность инфраструктуры

Максим Набоких

Флант

6 ноября, 12:20, «Зал C1»

Google Outlook Apple

Все больше компаний стремятся построить доверенную инфраструктуру вокруг Kubernetes. Одного контроля доступа недостаточно: в современных кластерах существует множество потенциальных векторов атак — от подмены контейнеров и эксплуатации уязвимостей рантайма до выполнения неподписанного кода внутри пода. Чтобы действительно понимать, что именно запускается в кластере, и быть уверенным в целостности всех компонентов, нужны гораздо более строгие механизмы контроля.

В рамках подготовки к получению сертификата ФСТЭК России по 118-му приказу мы столкнулись с реальными ограничениями существующих решений. Многие доступные инструменты решают лишь отдельные задачи: кто-то фокусируется на образах, кто-то — на манифестах, а кто-то — на стадии запуска.

В этом докладе я поделюсь тем, как мы встраивали надежность на каждом уровне — от CI до рантайма, на какие компромиссы приходилось идти и как можно подойти к построению сквозной системы верификации без потери гибкости и совместимости. Этот опыт будет полезен командам, которым важно управлять безопасностью Kubernetes в условиях реальных угроз, а также тем, кто стремится к соответствию требованиям регуляторов и хочет внедрить практики доверенного исполнения в своих кластерах.

Доклад принят в программу конференции

Опережаем угрозу: антивирусная защита начинается с CI/CD

Марк Песков

Selectel

7 ноября, 14:40, «Зал B1+B2»

Google Outlook Apple

В докладе рассмотрим оригинальное архитектурное решение по антивирусной защите разрабатываемых облачных сервисов и особенности его практического применения. Суть решения состоит во внедрении в инструменты CI/CD и в служебную инфраструктуру дополнительных механизмов безопасности. Они реализуют многоуровневую проверку кода и артефактов на этапе сборки, что позволяет обнаружить и заблокировать вредоносный код еще до начала его выполнения и снижает возможное влияние на сервисы провайдера и ресурсы клиентов.

Доклад принят в программу конференции

Действительно безопасная оплата картой

Дмитрий Викулов

Мир Plat.Form (НСПК)

6 ноября, 11:10, «Зал B1+B2»

Google Outlook Apple

1. Что такое токенизация и зачем она нужна.
2. Платеж через терминал, как это происходит.
3. Как устроены мобильные платежи в НСПК.
4. Особенности оплаты картой в интернете.
5. Проблемы при оплате картой в интернете.
6. Как скрыть чувствительные данные.
7. Протокол взаимодействия, доверие в интернете.

Доклад принят в программу конференции

SRE и эксплуатация систем (9)

💻 Воркшоп: тушим инцидент, а не исполняем SRE-ритуалы

Отказоустойчивость

Распределенные системы

Управление инцидентами

Практики программирования

Логи, метрики, ошибки

Александр Ложкин

keep-alive.ru

6 ноября, 17:00, «Зал B3»

Google Outlook Apple

Важно! Для участия требуется ноутбук с предустановленными WireGuard и SSH-клиентами.

В наше время существует очень много практик по предотвращению инцидентов и по ведению процессов вокруг них. Однако никто не умеет учить самому ТУШЕНИЮ инцидентов.

Мы считаем, что по-настоящему научиться локализовывать и решать проблемы во время инцидента можно только набивая шишки.

На воркшопе мы проведем игру, правила которой поместят игроков в условия близкие к инциденту. Таким образом, мы попытаемся набить те самые шишки участникам.

Формат игры:

Всем участникам выдадут заготовленный стенд, где будет развернут сервис, на который будет подаваться нагрузка, эмулирующая реальных пользователей. В сервисе будут заложены проблемы, которые будут активироваться с течением времени. Помимо сервиса стенд будет в себя включать базовую инфраструктуру, необходимую для выявления аномалий и их устранения: пайплайн доставки кода (GitLab), метрики (Victoria Metrics + Grafana), логи (Vector + Victoria Logs + Grafana).

Во время игры мы будем вести подсчет очков. Таким образом, в конце воркшопа будет составлен лидерборд, по которому будут распределяться призы.

Доклад принят в программу конференции

💻 Воркшоп «Postmortem. Докопаться до истины»

Александр Качмашев

Точка

6 ноября, 12:20, «Зал A1»

Google Outlook Apple

На воркшопе вы будете разбирать большой и заковыристый сбой и писать postmortem. Чтобы написать полезный документ, который будет применим как сразу после сбоя — т. к. мы получим набор задач, над которыми нужно будет поработать, — так и после, у нас будет информация, которой мы сможем делиться для обучения, но для этого вам обязательно нужно будет задавать вопросы, иначе ничего не выйдет. На воркшопе очень ждем людей, которые хотят докопаться до истины, задавая вопросы и вступая в дискуссии, а не просто написать очередной документ :)

Доклад принят в программу конференции

Круглый стол «Мониторинг, написанный кровью»

Логирование и мониторинг

Observability в enterprise

Александр Крылов

Лаборатория Числитель

Кирилл Борисов

Александр Тоцкий

Совкомбанк

Денис Ефремов

Торговый дом Нефтьмагистраль

6 ноября, 15:50, «Зал B1+B2»

Google Outlook Apple

Ни для кого не секрет, что манифесты или конвенции по логированию пишутся кровью, болью и финансовыми потерями бизнеса из прошлого. Но есть ли такие метрики и настройки мониторинга, которые бы помогли это предотвратить или хотя бы предупредить? Кажется, что если при введении в эксплуатацию сервиса или системы предусмотреть максимальные точки отказа на слоях инфраструктуры и приложения, добавив метрики здоровья приложения, то можно нивелировать часть рисков, но так ли это? Об этом мы и поговорим, присоединяйтесь к нашей дискуссии.

Доклад принят в программу конференции

Не рейт-лимитером единым: как управлять нагрузкой в микросервисной системе на практике

Бэкенд / другое

Архитектурные паттерны

Отказоустойчивость

Оптимизация производительности

Распределенные системы

Архитектура данных, потоки данных, версионирование

Архитектуры / другое

Надёжность продакшена

Оптимизация

Микросервисы

Расширение кругозора

Олег Табота

Яндекс Еда

6 ноября, 11:10, «Зал C1»

Google Outlook Apple

Я расскажу о том, какие проблемы, связанные с распределением совокупного 200k+ RPS-ного трафика есть в нашей более чем 300 микросервисной системе, какие инструменты для борьбы с ними мы реализовали и как их применяем. А также расскажу про инцидент, который остановил работу сервиса, где все обилие наших знаний и инструментов не помогло его избежать.

Вы узнаете:
* Про подходы нивелирования влияния трафика на сервисы.
* Про архитектурные ошибки при создании взаимодействия между микросервисами.
* Про то, как происходил реальный масштабный инцидент.
* Про то, к каким выводам мы пришли в результате разбора инцидента.

Доклад принят в программу конференции

Когда облако дало сбой: реальный кейс борьбы за отказоустойчивость

Константин Крамлих

Yandex Cloud

7 ноября, 13:30, Зал «Казан»

Google Outlook Apple

Любая крупная инфраструктура не застрахована от серого лебедя: критические инциденты случались и будут случаться, поэтому важно уметь вовремя понимать, не стоит ли всё на пороге кризиса, а если он случился, то как из него выходить и извлекать уроки.

В докладе расскажу, как выносить уроки и пересматривать подходы к устойчивости.

В частности вы узнаете:
* Как можно распознать приближающиеся проблемы.
* Что делать, если она уже случилась.
* Что помогало и что мешало принимать технические решения в условиях неопределенности.

Бонус-трек: как поддержать себя и команду в условиях кризиса.

Доклад принят в программу конференции

SLA на максималках

Дмитрий Химион

X5 Digital

7 ноября, 13:30, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Вы не знаете, как измерить SLA в большом продукте так, чтобы все были согласны с ним?
Вы сомневаетесь в достоверности текущих расчетов SLA?
Бизнесу не понятен ваш SLA, измеренный в «технических попугаях»?
Вы не знаете, как подступиться к снаряду «посчитать SLA»?

Тогда этот доклад для вас. Доклад будет освещать аспекты измерения SLA, бизнесовую и техническую составляющие, продажу коллегам, автоматизацию и использование AI, достоверность расчетов и многое другое, с чем мы столкнулись за годы развития процесса инцидент-менеджмента.

Доклад принят в программу конференции

Практики SRE на примере большого инцидента

DevOps и системное администрирование

Отказоустойчивость

Распределенные системы

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Менеджмент в эксплуатации

DevOps / SRE

Сергей Киселев

МТС Web Services (MWS)

7 ноября, 12:20, Зал «Казан»

Google Outlook Apple

В условиях высокой нагрузки на сервисы и сложных технических проблем важно иметь эффективные практики для быстрого устранения инцидентов. Я хочу поделиться опытом решения кризисных ситуаций на примере одного из моих инцидентов, связанного с DNS, облачной инфраструктурой и человеческим фактором.

Поговорим о следующем:
* Фиксация истории релизов и ведение внутренних чендждлогов.
* Правильное выкатывание опасных изменений с использованием метрик.
* Что делать если откат не работает и нет инструментов для починки.
* Ведение лога разбора инцидента и фиксация промежуточных действий.
* Как жить без тестового контура и проверять изменения наживую.
* Работа с горящими пользователями и тревожным руководством.
* Использование аудиторов для оценки процесса разрешения проблем.
* Как правильно строить процессы разработки.
* Обратная связь от экспертных пользователей.

Доклад принят в программу конференции

L4-балансировка и защита от DDoS-атак

Алексей Медошин

Wildberries & Russ

7 ноября, 15:50, «Зал B1+B2»

Google Outlook Apple

Расскажем, зачем нам в Wildberries понадобился L4-балансировщик, какие проблемы он решал и как так оказалось, что мы пришли к eBPF(XDP). Кратко пробежимся по его архитектуре. Также покажем, как можно использовать XDP для защиты от DDoS атак. Дополнительно поделимся, как можно с помощью eBPF передавать пакеты напрямую, в обход балансировщика, на конкретный backend, если вы балансируете внутри вашей инфраструктуры.

В качестве основы для балансировщика мы взяли готовый framework под названием Katran и допиливаем его под свои нужды.

В докладе будет раскрыто:
* Боли BGP Anycast и их лечение L4-балансировщиком.
* Способы защититься от атак на протокол TCP.

Доклад принят в программу конференции

Как убедить бизнес чинить, а не только строить: прозрачная приоритизация проблем

Максим Бурцев

Купер.тех

6 ноября, 11:10, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Если вы устали от бесконечно повторяющихся инцидентов или наоборот — от спринтов, состоящих из техдолга на 99,99%, — вам сюда. Расскажу о том, как мы приоритизируем задачи из post-mortem без конфликта с продуктом и основываясь на простых и понятных метриках. Попутно поговорим о приоритетах инцидентов, матрицах, рисках и подсчетах потерь на инцидентах.

Доклад принят в программу конференции

Тестирование высоконагруженных систем (2)

Автоматизированное тестирование автономного транспорта

Функциональное тестирование

Автоматизация тестирования

Евгений Енин

Navio

7 ноября, 12:20, «Зал B1+B2»

Google Outlook Apple

Расскажу о том, как тестируется технология автономного вождения и как мы строили свою систему автоматического тестирования многоагентной системы:
* Тестирование автономного транспорта требует работы с симуляторами и интеграцией множества компонентов.
* Выбор оптимального набора тестов для запуска (не все тесты нужны на каждом коммите).
* Параллельный запуск автотестов в условиях ограниченных ресурсов симулятора.
* Анализ результатов интеграционных тестов (ложные падения, флаки, сложная диагностика).
* Эффективный репортинг и нотификации для быстрого реагирования.

Доклад будет полезен тем, кто хочет узнать, как тестируются технологии автономного вождения, или сталкивается со сложностями в автоматизации тестирования распределенных и ресурсоемких систем.

Доклад принят в программу конференции

Тест-драйв ClickHouse: 24 миллиарда событий в сутки

Сергей Волков

Сбер

В нашей системе аналитики события проходят путь от шины данных через сервис сбора событий, попадают в Kafka, а затем — в ClickHouse с помощью Kafka-Engine. В архитектуре — три кластера ClickHouse (main, replica, sandbox) с настроенной репликацией, каждый из которых обслуживает свою зону ответственности: сбор, BI, пользовательские запросы.

Мы провели серию нагрузочных и отказоустойчивых тестов, чтобы убедиться, что система выдерживает реальные и экстремальные сценарии. В докладе расскажем:

* Как устроен наш стриминговый пайплайн: от шины данных до ClickHouse.
* Как сервис сбора событий справляется с миллиардами событий.
* Какие тесты проводили:
* 9 млрд событий в сутки;
* 15 млрд событий в сутки;
* 24 млрд событий в сутки — предел, к которому стремились;
* внезапный скачок нагрузки х2;
* сбой кластера ClickHouse и как он проявился;
* сбой Kafka и поведение пайплайна;
* запись всех событий в один проект вместо 50+ — и к чему это привело;
* Kafka-Engine vs Kafka-Connect — замеры, сравнение, выбор.
* Как организовали мониторинг и метрики, на что смотрели в Grafana и ClickHouse.
* Какие баги, затыки и инсайты мы получили и как это повлияло на прод.

Доклад будет интересен всем, кто работает с ClickHouse под высокой нагрузкой, собирает real-time-данные, использует Kafka и хочет понять, где тонко и как не порвать.

Доклад принят в программу конференции

Языки программирования и технические стеки (9)

Порефлексируем о Spring AOT

Java

Оптимизация производительности

Оптимизация

Микросервисы

Рустам Курамшин

MAGNIT TECH

7 ноября, 17:00, «Зал B3»

Google Outlook Apple

В гонке за перформансом Java-приложений технологии Ahead-of-Time выходят на первый план. Но если GraalVM, AOT в JDK и CDS ориентированы на статическую компиляцию и оптимизацию JVM, то Spring AOT в Spring Boot 3.x решает совсем другую задачу. Он не превращает проект в автономный исполняемый файл, а заменяет рефлексию и динамику Spring Framework на сгенерированный Java-код, ускоряя старт приложения и снижая накладные расходы.

В докладе разберём:

* как именно Spring AOT работает «под капотом»;
* что ломается и какие есть ограничения;
* как адаптировать свои проекты и тесты под AOT-режим;
* что реально выигрываем в старте и потреблении ресурсов.

Будет live-демо: соберем проект в режиме Spring AOT, посмотрим на сгенерированный код, соберем Docker-образ и сравним время запуска с обычным Spring Boot. А в конце — небольшой бенчмарк и выводы, где Spring AOT уже можно использовать на практике.

Доклад принят в программу конференции

💻 Воркшоп «Пишем простую браузерную игру на Rust»

Анимации и 2D/3D графика в браузере

WebAssembly (WASM)

Илья Барышников

Независимый консультант

6 ноября, 14:40, «Зал B3»

Google Outlook Apple

На этом воркшопе мы напишем небольшую браузерную игру на Rust. Для начала разберемся с инструментами и скомпилируем Rust-проект в WebAssembly. Потом посмотрим, как использовать полученный wasm-модуль из JS. Решим проблему циклических ссылок в Rust и научимся работать с JS-коллбеками из Rust-кода. Напишем рендерер, используя 2D Canvas. И если останется время, то обсудим мультиплеер или даже напишем свой сервер.

Перед воркшопом необходимо заранее установить Rust. Сделать это лучше всего через rustup, следуя инструкциям с официального сайта: https://rust-lang.org/tools/install
Альтернативный вариант — использовать докер-образ rust:latest
Далее добавляем цель сборки: rustup target add wasm32-unknown-unknown
Устанавливаем утилиту для создания wasm-модулей: cargo install wasm-bindgen-cli --version 0.2.100

Для сборки проекта в зависимости от операционной системы может потребоваться установить дополнительные пакеты, например на Ubuntu это, как правило, build-essential. Чат для помощи с настройкой окружения, если возникнут какие-то вопросы:
https://t.me/+2vI9ITkdle8zM2Ni

Доклад принят в программу конференции

Технологический стек Flowwow: что скрывается под капотом маркетплейса

Алексей Сундуков

Flowwow

6 ноября, 10:00, Зал «Капсула 2»

Google Outlook Apple

В 2024 году оборот Flowwow достиг 17 миллиардов рублей. Думаете, наш движок — это Golang? Нет! Ядро работает на PHP — языке, который на протяжении последних 30 лет постоянно хоронят. Но для нас это инструмент, который приносит реальную прибыль.

В докладе вместе с вами исследуем, до каких масштабов может дорасти проект, оставаясь в изначальной технологической экосистеме. Наш пример — PHP, но эти же принципы применимы к Node.js или Python.

Я подробно разберу, с какими пиковыми нагрузками справляется наша архитектура. Вы узнаете, какие готовые опенсорс-решения (доступные каждому) мы используем, как их настраиваем и — главное — почему до сих пор не перешли на Golang. Кроме того, я расскажу, как не биться головами в одной кодовой базе модульного монолита, сколько нужно железа и в каком окружении работает наш софт, как мы масштабируемся на пиках и не тратим лишнего на железо. Все технологии открыты, и любой разработчик может повторить наш путь.

Доклад принят в программу конференции

Диагностика под нагрузкой: .NET, Java и Go на практике

Игорь Щегловитов

«Лаборатория Касперского»

7 ноября, 15:50, «Зал A3»

Google Outlook Apple

Cовременные приложения на .NET, Java и Go сталкиваются с одними и теми же проблемами: утечки памяти, падение производительности и зависания потоков. В мастер-классе мы разберем универсальную методологию диагностики — метрики, профили и дампы — и посмотрим, как она реализуется в разных экосистемах. Основной акцент сделаем на .NET: dotnet-counters для быстрого health-check, dotnet-trace и PerfView для поиска горячих функций, dotnet-dump и WinDBG для анализа утечек и зависших потоков. Java (jcmd, async-profiler, JFR) и Go (pprof, go tool trace) будут рассмотрены как аналоги для сравнения. Отдельный блок посвящен dotnet-monitor и ClrMD: автоматизация диагностики и интеграция в Kubernetes. Участники получат готовый набор приемов и инструментов, которые помогут уверенно находить и устранять проблемы в любых приложениях, независимо от стека.

Доклад принят в программу конференции

От Protobuf к FlatBuffers: двухкратное ускорение сервиса с правильной сериализацией

Денис Божок

Островок!

6 ноября, 11:10, Зал «Казан»

Google Outlook Apple

В этом докладе расскажем про наш опыт перехода от использования Protocol Buffers к FlatBuffers в связке с языком Go и gRPC. Детально разберем причины и процесс миграции, рассмотрим проблемы, с которыми столкнулись, а также обсудим результаты этой миграции.

Доклад принят в программу конференции

Хайлоад на ровном месте

Фреймворки

Java

PostgreSQL

Оптимизация производительности

Оптимизация

Микросервисы

Илья Сазонов

Axiom JDK

Федор Сазонов

OpenIDE

6 ноября, 15:50, Зал «Казан»

Google Outlook Apple

Мы хотим рассказать о том, как проекты, добившиеся мало-мальского успеха, получают лейбл «хайлоад». Хотя ничто этого не предвещает.

В таких проектах нет сумасшедших нагрузок. Там нет огромного количества пользователей, как у соцсетей или государственных информационных систем. И количество данных там достаточно небольшое. Но код написан так, что система не может обслуживать новых пользователей, которые пришли потому, что проект выстрелил.

И почти всегда у проблем с производительностью есть одна и та же причина: разработчики не соблюдают основное правило работы с реляционными БД.

Мы расскажем, что это за правило, какие из него проистекают следствия и как надо писать код, чтобы нарушений этого правила было как можно меньше.

Доклад принят в программу конференции

Beyond the OOM: Decoding Java Memory Behavior

Оптимизация производительности

Профилирование

Технологии отказоустойчивости и катастрофоустойчивости, бэкапы

Оптимизация

Михаил Поливаха

Spring Aio

6 ноября, 12:20, Зал «НеДетская Капсула»

Google Outlook Apple

Бывает так, что при анализе потребления памяти приложения разные инструменты продьюсят разные данные, на первый взгляд противоречащие друг другу. Особенно это касается процессов ОС где задействован нетривиальный рантайм, как, например, в случае Java.

Доклад о том, как правильно анализировать память Java-приложений и на какие вопросы в каких инструментах нужно искать ответы.

Разберем на практическом кейсе, как устроена память процесса ОС в рамках физической RAM, как ОС виртуализирует память процессов и как с этим всем работает JVM со своей стороны. Станет понятно, почему цифры, которые репортят NMT, VisualVM или Jconsole могут отличаться друг от друга. Поговорим о том, почему стандартных RSS, PSS и USS может быть недостаточно и что с этим делать.

Доклад принят в программу конференции

Perforator: всеядный распределенный профилировщик

Профилирование

Оптимизация

Сергей Скворцов

Яндекс

7 ноября, 13:30, «Зал B1+B2»

Google Outlook Apple

Расскажем, как и зачем реализовали еще одну систему распределенного профилирования с открытым исходным кодом Perforator. Посмотрим на детали реализации, изучим подходы к распределенному профилированию. Обсудим, как использовать Perforator как на больших кластерах Kubernetes, так и на отдельных серверах.

Доклад принят в программу конференции

Деньги или скорость? Экономика выбора: Python vs Java vs Go при разных RPS

Java

Python

Бэкенд / другое

Продуктовая разработка

Управление / другое

Enterprise-системы

Оптимизация

Алексей Жиряков

MTС Web Services (KION, MWS)

6 ноября, 10:00, Зал «Казан»

Google Outlook Apple

Выбор языка программирования часто делается на основе субъективных предпочтений команды или популярных трендов, без учета реальной экономической эффективности. Это приводит к неоптимальным затратам на разработку и эксплуатацию высоконагруженных систем.

Решение:
* Проведу полный экономический анализ для каждого языка программирования, основанный на реальных данных и кейсах.
* Покажу, как количественно оценить trade-off между скоростью разработки и производительностью, учесть долгосрочные затраты на поддержку кода.

Будут: исследования скорости разработки, скорости работы, стоимость изменений, скорость обновления кода для разных отраслей, стоимость инфры. Учитывая эти факторы, посчитаю для скольких RPS экономически оправдано использовать тот или иной язык разработки.

Что получат слушатели:

* Готовую модель для расчета экономической эффективности выбора ЯП.
* Конкретные рекомендации по выбору стека в зависимости от параметров проекта.
* Реальные цифры по затратам на разработку и инфраструктуру.
* Чек-лист факторов для принятия решений по технологическому стеку.
* Ссылки на исследования, каждый тезис будет подтвержден ссылками на исследования (во избежание холиваров).

Доклад принят в программу конференции

Интернет вещей (IoT) (1)

DIY-подход к цифровизации предприятий с помощью готовых решений: как мы реализовали гибкую IoT- и МТОИР-платформу для сбора, реакции и анализа событий

Василий Ежов

Систем ИКС

6 ноября, 10:00, Зал «Капсула 1»

Google Outlook Apple

* Готовое решение «из коробки», DIY-построение сценариев цифровизации для пользователей любого уровня IT-подготовки.
* Унификация сбора данных: как мы реализовали подключение IoT-устройств на разных протоколах (MQTT, Modbus, OPC-UA, TCP, GoodWAN, LoRaWAN, NB-IoT).
* DSL-скрипты и no-code workflow для настройки пользовательских сценариев. Объединение всех объектов платформы и создание бизнес-процессов.
* Кросс-платформенные интерфейсы: web, iOS, Android.

Доклад принят в программу конференции

Высокопроизводительные вычисления (4)

Оценка возможностей GPU Moore Threads в составе программно-аппаратных комплексов для искусственного интеллекта

Абдулхалик Беляков

Скала^р (Группа Rubytech)

6 ноября, 17:00, «Зал A3»

Google Outlook Apple

Мы протестировали Moore Threads MTT S4000 в задачах обучения моделей. Архитектура и программный стек формируют независимую экосистему, принципиально отличающуюся от NVIDIA. Это не просто замена, а стратегический шаг в условиях монополии, логистических ограничений и высокой стоимости.
Ключевой вопрос — зрелость MUSU по сравнению с CUDA. Совместимость обеспечивается через MUSIFY, поддержка PyTorch уже есть, но сохраняются ограничения. Мы провели сравнение MTT S4000 с картами NVIDIA в тренировке и инференсе, основываясь на реальных метриках и бенчмарках.
Отдельное внимание уделено распределённым вычислениям: текущая поддержка аналогов NCCL и сетевых драйверов остаётся ограниченной. Перспективы развития связаны с улучшением драйверов, расширением поддержки моделей и выходом более мощных GPU следующего поколения.

Доклад принят в программу конференции

50 оттенков Transactional Outbox

Денис Цветцих

DevBrothers, Т-Банк

6 ноября, 14:40, Зал «Казан»

Google Outlook Apple

Все слышали про Transactional Outbox, но до сих пор нет библиотеки, которая реализует его единственно правильно. В докладе я покажу разные реализации Outbox, расскажу, какие у них достоинства и недостатки, как выбрать реализацию под свою задачу. А также как использовать возможности PostgreSQL при реализации Outbox.

Доклад принят в программу конференции

Как понимание работы RAM ускорило на 30% пакетный шлюз 4G/5G-сетей и позволило обрабатывать 4M пакетов в секунду на одном ядре и 100 Gbps на NUMA node

Максим Шахметов

Протей-Лаб

6 ноября, 18:10, «Зал A3»

Google Outlook Apple

Чаще всего узким местом в высокопроизводительных системах является оперативная память (RAM). Если CPU способны выполнять до четырех инструкций за такт, то обращение к памяти — от единиц тактов для кеша L1 до сотен тактов для RAM. Если при разработке ПО учесть организацию RAM, то можно ощутимо ускорить производительность.

На примере нашего приложения расскажем, как мы при помощи профилирования нашли узкие места в программе. Какие CPU-метрики (DTLB miss, L2/L3 cache miss, RAM throughput) проседали, какие решения мы применяли для увеличения производительности. Эти простые методы применимы для широкого круга задач разработки.

Доклад принят в программу конференции

Поймай меня, если сможешь: эффективный поиск региона, к которому принадлежит точка

Оптимизация производительности

Оптимизация

Микросервисы

Александр Аникеев

Wildberries & Russ

7 ноября, 18:10, Зал «Капсула 2»

Google Outlook Apple

Имеется следующая задача: по заданным координатам точки необходимо определить, в какой регион она попала. Система должна обеспечивать высокую пропускную способность (высокий RPS), устойчивость к внезапным всплескам нагрузки (вплоть до лавинообразной), а также 100% точность геометрических вычислений.

Простая реализация задачи без ограничений тривиальна, однако построение эффективного решения требует комплекса оптимизаций на всех этапах. Для достижения максимальной производительности были использованы приемы из линейной алгебры, особенности работы процессоров x86/x64, иерархические алгоритмы поиска, неочевидные оптимизации.

Доклад принят в программу конференции

Технологии будущего и специализированные темы (5)

Двигательные установки космических аппаратов

Александр Токарев

Voxys

6 ноября, 18:10, «Зал C1»

Google Outlook Apple

И снова космос на связи. Сегодня мы обсудим, как же так спутники по 5 тонн не падают вниз и ориентируются на доли градуса. Для этого мы посмотрим на то, что позволяет им перемещаться с орбиты на орбиту и работать, превышая сроки службы. Собственно, тема нашего доклада — это двигатели. Мы рассмотрим не только классику на гидразине и ионные двигатели, научившись по цвету определять, какой же газ внутри движка, но и экзотику, такую как паровые двигатели и двигатели на жидких металлах. Посмотрим на известные отказы, повангуем о будущем, изучим тренды в двигательных стартапах и посмотрим, можно ли собрать движок для спутника по вечерам в гараже. Само собой, посмотрим на интерфейсы управления и протоколы общения, а также как бортовое оборудование отдает команды на движки на основе анализа SDK Software Defined Satellite и реверс-инжиниринга ретрокода летавших космических аппаратов.

Доклад принят в программу конференции

Как устроена система восприятия робота-доставщика Яндекса

Сергей Голованов

Яндекс

7 ноября, 15:50, «Зал A1»

Google Outlook Apple

Как робот-доставщик Яндекса передвигается в реальном городе, избегая пешеходов, машин и неожиданных препятствий?

Доклад раскроет устройство системы восприятия, ключевой технологии робота. Я расскажу, какой hardware мы используем для получения данных из окружающего мира и их обработки (сенсоры: парктроники, камеры, лидар; вычислитель). Коснемся ML-моделей восприятия, а именно модели 3D-детекции объектов и сегментации лидарного облака, карты заполненности, трекера объектов, модели детекции светофоров, различных вспомогательных моделей.

Конечно, будут истории из production — как мы добиваемся realtime-скорости обработки данных, как модели справляются со сложными городскими условиями. Посмотрим на способы предотвращения восстания машин через качественную проверку роботов — от офлайн-валидации и симуляций до приемки релизов и уличных испытаний. Это практический кейс для всех, кто строит realtime-системы с машинным обучением для реального мира!

Что вы унесете с собой:
* Детальный обзор архитектуры системы восприятия робота-доставщика Яндекса.
* Знания о ML-моделях восприятия и их адаптации под жесткие realtime-требования.
* Истории и уроки из production-тестирования в реальном мире.
* Советы по оптимизации AI для Edge-устройств с фокусом на scalability.

Доклад принят в программу конференции

Воркшоп «Прием данных с космических аппаратов без специализированного оборудования»

Кирилл Стариков

ООО «Геоскан»

6 ноября, 17:00, «Зал A1»

Google Outlook Apple

Ознакомимся с тем, какие данные можно принять самостоятельно, какая архитектура, подходы и технологический стек используются в разработке как оборудования, так и бэкенда/фронтенда сети. В процессе воркшопа самые умелые соберут реальные антенны и подключат их к сети, для того чтобы на себе понять, что такое собрать, настроить и подключить железо для общего пользования. Ну и, конечно же, мы попытаемся принять данные с реальных космических аппаратов, если нам повезет и над станциями пролетит спутник, а также подумаем, где их можно применить в обычной жизни.

Доклад принят в программу конференции

DMTF RedFish как протокол управления ЦОД

Никита Австрийский

Прегель

6 ноября, 15:50, «Зал A3»

Google Outlook Apple

Сегодня уже мало кто спорит, что управлять серверами через древние протоколы вроде IPMI неудобно и больно. Redfish предлагает современный подход: REST со стандартизированным API. Звучит круто, но когда открываешь документацию от вендоров, понимаешь: каждый придумал свой особенный Redfish.
В докладе расскажу, как мы внедряли Redfish в ЦОД, какие возможности он открыл и чем отличается от привычных инструментов. Поделюсь практическим опытом, который поможет вам начать использовать Redfish.

Приходите на доклад, чтобы увидеть и разобрать:
- Зачем вообще придумали Redfish и чем он лучше старого доброго IPMI
- Как использовать Redfish для управления большим парком серверов
- Какие особенности реализации у разных вендоров стоит учитывать заранее
- Как Redfish вписывается в экосистему управления современным ЦОД

Доклад принят в программу конференции

Цифровой рубль в России: настоящее и будущее

Взаимодействие с государством

Смарт-контракты

Евгений Кузовлев

Т-Банк

7 ноября, 14:40, Зал «Казан»

Google Outlook Apple

Широкий пилот с использованием цифрового рубля стартует в конце 2025 года в России. Что это будет означать для IT-подразделений множества компаний? Зачем это государству, банкам и простым людям? Каким будет ландшафт платежных сценариев с использованием цифровой формы национальной валюты в 2030-м?

Доклад принят в программу конференции

DevOps-практики и культура (2)

Инженерные практики в действии!

Методологии и процессы разработки ПО; Сроки и приоритеты

Корпоративная культура и мотивация

DevOps / SRE

Евгений Харченко

Райффайзен Банк

6 ноября, 17:00, Зал «Казан»

Google Outlook Apple

Сегодня многие компании внедряют инженерные практики, однако не всегда ясно, как выбрать наиболее подходящие и как оценивать их эффективность. В этом докладе я на практическом примере покажу, как мы выбираем, внедряем и оцениваем инженерные практики в команде. Мы пройдемся по всем ключевым практикам, обсудим критерии выбора, подходы к внедрению и методы оценки их результативности. Доклад основан на реальном опыте и наполнен практическими советами, которые помогут другим командам сделать осознанный выбор и получить измеримый эффект от внедрения инженерных практик.

Доклад принят в программу конференции

ICQ мертв. Да здравствует ICQ!

Олег Вознесенский

VK Tech, VK WorkSpace

6 ноября, 18:10, Зал «Казан»

Google Outlook Apple

15 ноября 1996 миру был представлен ICQ — пионер сервисов мгновенного обмена сообщениями и некогда самый популярный IM. 26 июня 2024 года компания VK, на тот момент владеющая проектом, прекратила работу мессенджера. Конец.

На самом деле все гораздо интереснее.

За годы существования ICQ оброс множеством фич, от тредов в сообщениях до групповых видеоконференций, и полностью соответствовал высоким требованиям, предъявляемым к современным мессенжерам — ориентацию на поддержку высоких нагрузок, миллионов пользователей и отлаженную годами стабильность.

Мы использовали опыт ICQ при разработке корпоративного супераппа VK WorkSpace, который громко заявил о себе на рынке закрытых корпоративных on-premise инсталляций.

В докладе вместе заглянем под капот и узнаем, какие принципы проектирования легли в его основу и поговорим о путях развития.

Доклад принят в программу конференции

Доклады вне привычной рамки (11)

Как масштабировать не только IT-системы, но и IT-команды

Большие проекты/команды

Модели руководства

Поиск и развитие команды

Управление командой

Управление разработкой

Бизнес-процессы

Трансформационные изменения

Александр Апазиди

Независимый эксперт, ментор CTO (Apazidi IT)

7 ноября, 11:10, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Одна из самых популярных и спорных тем среди CTO — как организовать свою команду. С одной стороны, на этот счёт есть множество мнений и готовых фреймворков, с другой — каждая компания уникальна, и не всегда типовые «рецепты» подходят.

Я прошёл через разные этапы роста команд — от маленьких групп до управления 200+ сотрудниками в 20 направлениях. На этом пути сталкивался с типичными вызовами: плоские структуры работали на старте, но при масштабе приводили к хаосу, а модели вроде Spotify обещали agile, но создавали «острова» с конфликтами и потерей общего видения.

Я приведу сравнительный анализ разных оргструктур на основе своего 35-летнего опыта: от анализа узких мест до использования подходов, вдохновленного проектированием IT-систем.

Расскажу о типовых оргструктурах в IT — плоских, матричных, Spotify-подобных, — их проблемы (на моем опыте: от снижения производительности на 20% до текучки кадров) и о том, как я их решал.

Практическая польза:

* Как проводить организационную декомпозицию: на какие «микросервисы» разбить команды, чтобы сохранить скорость и автономность.
* Что такое organizational anti-patterns: как диагностировать «баги» в структуре по симптомам в процессе.
* Практический фреймворк для проектирования и эволюции структуры вашей IT-команды, который заберете с собой.
* На какие метрики обращать внимание в первую очередь.

Доклад принят в программу конференции

Разгоняем электричку, или Что помогает совершать обмены за 200 миллисекунд между сотнями ГИСов

Защита информации

Работа со внешним заказчиком/исполнителем

Взаимодействие с государством

Обслуживание клиентов, техническая поддержка, обратная связь

Внедрение и поддержка

Общение с заказчиком, извлечение требований

Коммуникация

Управление проектами

Хранилища

Типовые ошибки

Фиксация знаний

Support

Анастасия Пятько

РТК-СОФТ

7 ноября, 17:00, Зал «Капсула 2»

Google Outlook Apple

На докладе разберемся, как устроены обмены информацией между сотнями систем ведомств для быстрого предоставления услуг гражданам. В основе реализации этого лежат витрины данных. Это типовое масштабируемое решение, которое включает в себя как программное обеспечение, так и отлаженный процесс, где в качестве единого транспорта — «электрички» — используется СМЭВ.

Кроме этого, я поделюсь нашим реальным опытом внедрения и поддержки витрин, взаимодействия с заказчиками, расскажу об особенностях ИТ в госсекторе.

Доклад принят в программу конференции

Не тушите пожары, стройте систему: управление техдолгом в гармонии с бизнесом

Методологии и процессы разработки ПО; Сроки и приоритеты

Управление разработкой

Трансформационные изменения

Алексей Шаблюк

VK Tech

6 ноября, 12:20, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

В этом докладе я на основе своего опыта СТО в enterprise-системах расскажу о технических деталях, о важности управления техдолгом и стратегиях работы с ним. Мы разберем:

* Как посчитать техдолг и перевести его на язык бизнеса: операционные расходы, missed revenue, риски безопасности и репутации.
* Модели приоритизации: какие долги тушить сразу, а какие можно отложить? Используем матрицу с оценкой влияния на продукт.
* Как встроить работу с техдолгом в продуктовый цикл: от выделения кворума разработчиков до создания «дня долга» и договоренностей с продукт-менеджерами.
* Метрики управления техдолгом: какие используем и в каком порядке.
* Реальные кейсы и цифры: какую стратегию мы применяли для масштабирования и что дала реформа процессов. Я также поделюсь и неудачными решениями, которые лишь увеличили долг.
* Инструменты коммуникации: готовые шаблоны и метрики для диалога с бизнес-заказчиками о необходимости инвестиций в код.
* Плюс расскажу, какие попытки без вовлечения бизнеса приводят к сопротивлению — урок в коммуникации с бизнесом.

Посетители уйдут с шаблонами: как рассчитывать техдолг, внедрять и балансировать с OKR и избегать типичных ошибок. Это не теория — мой опыт, чтобы ваши команды применили его сразу.

Доклад принят в программу конференции

ИИ расшифровывает код мозга: от реального синапса до цифрового двойника нейрона (и при чем тут мыши с микроскопами на голове?)

Управление, менеджмент и бизнес

Базы данных, обработка данных

Другое

Networking, знакомство

Machine Learning

Teamlead

Knowledge Management

Обработка данных

Екатерина Пчицкая

СПб политехнический университет Петра Великого

7 ноября, 18:10, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Мозг — самая сложная загадка Вселенной, но сегодня у нас появляются невиданные ранее инструменты для ее разгадки. Как собрать и вдохновить молодую команду ученых, готовую штурмовать эту крепость на стыке биологии и IT?

В этом докладе мы заглянем «под капот» современной нейронауки и увидим, как искусственный интеллект становится незаменимым партнером исследователя. Поговорим о том, как цифровые технологии, от нейросетей для улучшения качества микроскопических изображений до больших фундаментальных моделей активности нейронов, помогают нам увидеть то, что раньше было скрыто. Почему так важно изучать форму крошечных синапсов — мест контакта нейронов — и как ИИ помогает нам не только их анализировать, но и создавать синтетические копии? Мы разберемся, как искусственные нейросети помогают нам понять реальные, биологические, и почему для этого нам нужны мыши с моделью болезни Альцгеймера и миниатюрными микроскопами на голове. Узнаем, зачем нейробиологам понадобился собственный аналог ChatGPT (нейробиологическая LLM) и как мы научили нейросеть YOLO понимать язык мышиного поведения.

Присоединяйтесь к путешествию в мир, где биты и байты помогают расшифровывать биологический код, а данные и метаданные учат нас не только науке, но и порядку!

Доклад принят в программу конференции

CокрAIти.It

Марина Кубанина

Технологии Доверия (ex PWC)

6 ноября, 17:00, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Автомобильная промышленность Китая за 20 лет повысила эффективность работы почти в 19 раз, полностью насытив внутренний рынок. Аналогично, в IT выигрывают те, кто интенсивно инвестирует в эффективность и создает уникальные решения.

Современный IT-ландшафт — зоопарк систем с множеством платформ и инструментов, перегружающих бизнес. ROI для ИИ-решений сокращается с лет до месяцев, поэтому перед разработкой важно оценивать доступные продукты и избегать избыточности. Искусственный интеллект кардинально повышает производительность и сокращает численность штата: бизнес требует минимум 30% сокращений, а лидеры рынка достигают 70–80%. Это новая эра, сравнимая с изобретением компьютера, требующая перехода на качественно новый уровень.

Для CTO ключевой путь — создание профессиональных команд, усиленных ИИ-инструментами, где CTO становится инициатором изменений, а не их объектом.

Лиды трансформируют модели компетенций и процессы отбора, снижая число джуниоров и развивая команду нового уровня — концентрированную и адаптивную.

Доклад принят в программу конференции

Нетворкинг для технических лидеров

Валентина Полякова

Образовательное бюро «Розетка»

6 ноября, 18:10, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Нетворкинг для тех, кто управляет не только кодом, но и людьми.

Это формат, где CTO, тимлиды и техдиры обсуждают реальные вызовы, делятся опытом и находят решения, которые работают.

Пространство разделено на тематические зоны: наем и адаптация, развитие команды, личностный рост лидера и другие. Каждые 5 минут — новый диалог, новый собеседник, новая идея. Можно переходить между зонами или остаться там, где разговор идет вглубь.

Присоединяйтесь к нетворкингу на HighLoad++ 2025!

* Формат этого нетворкинга предполагает продуманную структуру участников для максимально релевантного обмена опытом. Мы формируем состав так, чтобы интересы и экспертиза пересекались наиболее эффективно. Участие по персональным приглашениям — они будут направлены индивидуально за неделю до конференции.

Доклад принят в программу конференции

Под капотом скоринга: как на самом деле модели кредитного риска принимают решения

Иззатилло Хакимов

Alif

6 ноября, 11:10, Зал «Капсула 2»

Google Outlook Apple

Доклад раскрывает внутреннюю кухню моделей оценки кредитного риска и принципов работы кредитного/скорингового конвейера — от заявки клиента до финального решения и периода после принятия решения о выдаче кредита — и покажет, как данные превращаются в управляемый финансовый риск. Начнем с бизнес-контекста: почему оценка кредитного риска — ключевой фактор стабильности и конкурентоспособности бизнеса. Затем пошагово разберем архитектуру современного скорингового конвейера.

Особое внимание уделим «внутренней кухне»:

* PD, EAD, LGD — как обучить эти модели, как калибровать и измерять ее качество.
* Поведенческий скоринг — как использовать историю платежного поведения для переоценки рисков и повышения LTV.
* Расчет Expected Credit Loss — как объединять модели в единую метрику риска и переводить ее в бизнес-решения.
* Внедрение и мониторинг моделей: офлайн-тесты, ретротесты и бэк-тесты и т. д.
* SOTA-подходы.

Вы уйдете с четкой схемой проектирования каскада моделей кредитного конвейера и decisioning-логики под бизнес-метрики.

Доклад принят в программу конференции

Контактный центр без мифов: архитектура, проблемы, планы

Петр Васильев

МТС Web Services (MWS)

7 ноября, 15:50, Зал «НеДетская Капсула»

Google Outlook Apple

Доклад о том, как построить контактный центр. Мы разберём реальную архитектуру контактного центра МТС, покажу, какие решения работают под нагрузкой, а какие приводят к сбоям. Слушатели узнают, как выстраивать архитектуру контактного центра, капитанские советы, как избегать типичных ошибок, какие планы по развитию решения дальше.

Доклад принят в программу конференции

Fail-митап

Екатерина Фирсова

Altenar

Алексей Мерсон

Яндекс

Александр Межов

Инфиннити

Александр Кириллов

Evrone

Алексей Яшунькин

Altenar

Евгений Малышев

Купер.тех

Андрей Смирнов

MAGNIT TECH

Олег Мифле

Altenar

6 ноября, 18:10, «Зал B1+B2»

Google Outlook Apple

Конференции завалены историями успеха. Но путь к успеху всегда лежит через фейлы, о которых рассказывать не принято. Но только не на нашем fail-митапе!

В своих коротких, но зажигательных выступлениях спикеры поделятся настоящими историями фейлов. Без записи, без трансляции, без комплексов.

Доклад принят в программу конференции

Стратегия масштабирования команд

Продуктовая разработка

Управление / другое

Enterprise-системы

Алексей Шарапов

Альфа-Банк

6 ноября, 14:40, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Любая компания стремиться расти и развиваться. Рост может быть обусловлен выходом на новые рынки, увеличением охвата, открытием новых направлений.

Каждый рост компании сопровождается ростом внутреннего IT, а кроме роста есть внутренние вызовы: повсеместное внедрение AI, DPI, общих средств внутри компании, замена ролей на ИИ-помощники, код-ревью, создание артефактов с помощью ИИ. Постараемся ответить на вопрос, благо это или нет, как такие средства могут помочь, а где могут повредить и помешать.
Обсудим, что делать в такой ситуации руководителю, куда смотреть, как развивать свои legacy-проекты, чтобы не было мучительно больно и не превратить отлаженный механизм монолита в неуправляемый хаос микросервисов. Разберем топологии команд, изменились ли подходы за последние десять лет при переходе к платформенным решениям и помогло ли это развитию DevOps-практик.

Доклад принят в программу конференции

Мастер-класс «Как повторять чужие кейсы, не повторяя их, или Как решать свои сложные и тяжелые задачи»

Архитектурные паттерны

Разделение представления и бизнес-логики, шаблонизация

Алгоритмы и их сравнение

Архитектуры / другое

Оценка сложности проекта

Управление изменениями, управление требованиями

Проектирование информационных систем

Теории и техники анализа

Общение с заказчиком, извлечение требований

Аналитика / другое

Управление разработкой

Бизнес-процессы

Soft Skills

Трансформационные изменения

Проверка гипотез на проде: технологии и команды

Безопасная коммуникация, культура

Инструменты

Методологии

Сергей Хованов

Ингосстрах

7 ноября, 15:50, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Прокачать soft skills и на практике применить некоторые инструменты методологии ТРИЗ к своей задаче, какой бы сложной она вам ни казалась. Поможем разобраться с задачами участников, найти свежие гипотезы и ходы для её решения. Никакой воды, а только напряженная работа ваших нейронок.

Доклад принят в программу конференции

Технологии от партнеров (8)

РЕД АДМ – система централизованного управления IT-инфраструктурой

Кристина Орлова

РЕД СОФТ

6 ноября, 15:50, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

* Комплексное программное обеспечение РЕД СОФТ для организации безопасной и импортонезависимой IT‑инфраструктуры.
* Экосистема совместимых технологических решений.
* Миграция и управление IT-инфраструктурой.
* Работа без потери функциональности на период миграции.
* Примеры построения надежной IT-инфраструктуры с учетом индивидуальных потребностей и бизнес-задач.

Доклад принят в программу конференции

OpenIDE: свобода разработки без рисков и ограничений

Павел Кислов

OpenIDE

6 ноября, 16:15, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Совсем недавно мы выпустили OpenIDE — российскую замену для IntelliJ IDEA Community Edition, которая в связке с парой плагинов может заменить и Ultimate.

Я много раз видел, как люди в чатах и на форумах выражают сомнения в том, что кому-то вообще может понадобиться OpenIDE, когда есть IntelliJ IDEA CE.

Но даже если проговорить, что маркетплейс в IntelliJ IDEA CE в РФ заблокирован и поставить плагины привычным способом не получится, остается еще один вопрос. Примерно такой.

IntelliJ IDEA — свободный проект, исходники выложены на GitHub. Собрать свою версию может каждый. В чем смысл существования проекта, для создания аналога которого нужно просто пара часов свободного времени?

Интересный вопрос.

Что на самом деле нужно сделать для того, чтобы «просто собрать» проект с открытым кодом и выложить его для скачивания. С какими сложностями можно при этом столкнуться? И сколько ещё всего нужно сделать для того, чтобы у разработчика был какой-то смысл использовать новую IDE, а не продолжать пользоваться тем, чем он пользовался последние десять лет? Во что это обойдется бизнесу и что для бизнеса означает альтернатива — использование IntelliJ IDEA CE.

Доклад принят в программу конференции

Как построить облачную инфраструктуру с нуля?

Эдгар Сипки

MWS Cloud Platform

6 ноября, 13:30, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Как построить облачную платформу с нуля за один год? Какие инженерные решения лежат в основе надежного IaaS и PaaS? И почему Object Storage — это новый фундамент для всей облачной инфраструктуры? Давайте вместе пройдемся по процессу запуска одного из сложнейших проектов в стране — с нуля.

Доклад принят в программу конференции

Новый подход к управлению масштабной IT-инфраструктурой

Василий Александров

Прегель

7 ноября, 14:40, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Разберем, как графовая CMDB и серверлес-приложения на графе позволяют проактивно управлять отказами, обновлениями и изменениями в масштабах стойки, кластера и нескольких ЦОД и как это поможет сделать инфраструктуру по-настоящему умной.

Кому и где применимо:
* кластеры от ~100 серверов on-prem: банки, индустрия, AI/HPC;
* DCIM/ITAM, SDS/SDN, GPU-фермы, компонуемая инфраструктура (NVMeoF, CXL), распределенные площадки / edge;
* встраивание в существующие стеки наблюдаемости/CI/CD через открытое API.

Какие эффекты разберем и как их измеряем:
* снижение потерь от простоев за счет картирования зависимостей;
* ускорение вывода изменений (меньше ручных шагов, меньше config-drift) и контроль регуляторики/SLA через сквозную трассируемость;
* снижение киберрисков: закрытие «слепых зон», контроль зависимостей.

Доклад принят в программу конференции

Платформа Tantor: новые горизонты управления PostgreSQL

Алексей Барган

Компания «Тантор Лабс»

7 ноября, 12:45, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

В докладе будут представлены последние нововведения: встроенный интеллектуальный помощник, полностью обновленный пользовательский интерфейс, инновационная карта аудита таблиц, а также нативная интеграция для визуального управления МБД Tantor XData. Отдельное внимание уделим множеству точечных улучшений, которые значительно упрощают рутинные операции. Узнайте, как платформа Tantor эволюционирует из мощного инструмента администрирования в полноценную среду, адаптирующуюся под растущие потребности бизнеса.

Доклад принят в программу конференции

DevOps уже не тот, BPM Ops — ускоренная доставка приложений бизнесу!

Игорь Клопотов

Хоулмонт

7 ноября, 12:20, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

DevOps уже не тот, BPM Ops — ускоренная доставка приложений бизнесу!

* Что такое Platform Engineering?
* Кому нужны платформы разработки и какие бизнес-эффекты достигаются при их внедрении?
* Переходим к проблематике, что DevOps — это уже «дедушка», у которого много детей и внуков в виде MLOps, FinOps, RevenueOps. Что насчет BPM Ops?
* Реальные кейсы платформенной разработки на платформах от Хоулмонт.
* Что делать, если разработчиков все равно не хватает?
* Бонусы для слушателей доклада.

Доклад принят в программу конференции

Инфраструктура для ML

Владислав Кирпинский

Selectel

6 ноября, 13:55, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

Инфраструктурные задачи инференса напрямую влияют на стоимость владения ML-продуктами и скорость их вывода на рынок.
Мы разберем, как с помощью решений Selectel можно упростить деплой моделей, обеспечить предсказуемое масштабирование под нагрузкой и оптимально использовать GPU-ресурсы.

Вы узнаете, как создавать управляемую и экономически эффективную среду для развития ML, — безопасно и прогнозируемо.

Доклад принят в программу конференции

Облачная платформа NGENIX для защиты и ускорения веб-приложений

Оптимизация изображений

Инфраструктура как сервис (IaaS), платформы как сервис (PaaS)

Импортозамещение

Big Data и Highload в Enterprise

DDoS

Эффективное использование облаков

Онлайн-медиа (

Облака

DevOps / SRE

Инфраструктура

Сеть

Атаки

Безопасность

HTTP/HTTPS

Артем Фомичев

NGENIX

7 ноября, 15:05, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

В презентации будут показаны принцип работы и функциональные возможности облачной платформы NGENIX для ускорения, защиты и отказоустойчивости веб-сайтов и приложений. Доклад будет сопровождаться демонстрацией в режиме реального времени.

Принцип — все для веб-ресурса в одном окне (ускорение, защита от киберугроз, обеспечение отказоустойчивости).

* Инфраструктура для высоконагруженных приложений (50+ узлов, 23 региона присутствия), различные виды балансировки запросов.
* Как устроен отказоустойчивый распределенный DNS.
* Эшелонированная защита: от канального и прикладного DDoS, бот-трафика, взломов. Как обеспечить отказоустойчивость кластера WAF на 20000 rps. Защита доступа к данным на платформе.
* Сервисы оптимизации и ускорения.
* Управление и принятие решений: аналитика, дашборды, гранулированные права.

Кому подходит: кейсы (крупный OTT, критический государственный сервис, авиакомпания, крупный маркетплейс федерального уровня).

Доклад принят в программу конференции

HighLoad++ Specials (4)

Open-Source-трибуна

Онтико

7 ноября, 13:30, «Зал B3»

Google Outlook Apple

Open-Source-трибуна — это место, где комьюнити слышит твой голос.
Мы собрали проекты со всей страны, отобрали самые интересные заявки, провели большое открытое голосование и привезли лучшие решения на HighLoad++ 2025 в Москве.

Приходи, чтобы узнать о классных разработках, поддержать своих и вдохновиться на реализацию собственных идей!

Доклад принят в программу конференции

А что будет, если выгрузить все доклады HighLoad++ в GPT? Презентация продуктов Технологического университета от команды Онтико

Онтико

6 ноября, 12:20, Зал «Казан»

Google Outlook Apple

Любую инженерную задачу можно схематично разбить на следующие стадии:

1. Поиск подходящих решений.
2. Выбор наиболее подходящего решения.
3. Освоение и изучение выбранного решения.
4. Внедрение.

Разработчики тратят более 50% времени на первые три стадии и меньшую часть — непосредственно на программирование и реализацию. Что, если создать продукты, которые помогут разработчикам именно с поиском, выбором и освоением новых решений?

Во сколько раз увеличится продуктивность нашей работы? Сегодня мы хотим рассказать вам о нескольких продуктах, которые мы построили поверх нашей огромной базы материалов (более 5000 видеозаписей и статей). В одном из них мы загрузили все видеозаписи в LLM и разработали интерфейс, в котором можно задавать вопросы. Вам будет отвечать GPT, предобученный на отобранных нашими Программными комитетами докладами. В другом нарезали доклады на небольшие микроуроки и заполнили ими матрицы компетенций. В третьем пересмотрели все доклады и сгруппировали их в библиотеку, добавили Q&A сессий с профессионалами — инструмент, позволяющий оставаться up-to-date в вашей профессиональной области. Четвертый — это вообще медиа, не просто рилз, а рилз на технологические темы.

Приглашаем вас к тестированию! Давайте создадим себе новые инструменты для работы вместе.

Доклад принят в программу конференции

Открытая встреча разработчиков и Максута Игоревича Шадаева, министра цифрового развития, связи и массовых коммуникаций России

Максут Шадаев

Министр цифрового развития, связи и массовых коммуникаций РФ

7 ноября, 13:10, «Зал C1»

Google Outlook Apple

В 2023 году сообщество разработчиков вручило Максуту Игоревичу Шадаеву, министру цифрового развития, связи и массовых коммуникаций, премию HighLoad++ (https://awards.highload.ru/) за вклад в развитие экосистемы интернет-разработки в России.

В этом году Максут Игоревич вновь приедет к нам в гости, а мы проведем с ним сессию вопросов и ответов. Вечером, без галстуков, в свободной атмосфере афтепати вы можете задать волнующие вас вопросы напрямую министру.

Общение без купюр, как и принято в нашем сообществе. До встречи на конференции и готовьте свои вопросы!

Доклад принят в программу конференции

Исследование состояния DevOps в России на 2025 год и пересечение с мировой индустрией

Виталий Хабаров

Флант

7 ноября, 13:30, «Зал A3»

Google Outlook Apple

В рамках доклада рассмотрим результаты исследования, проведенного командой Экспресс 42 по темам:

* ИИ-инструменты. Три четверти респондентов уже используют ИИ-решения. Как они оценивают влияние ИИ на свою работу?
* Информационная безопасность. Три четверти участников исследования на повседневной основе сталкиваются с ИБ. С какими сложностями они сталкиваются?
* Internal Developer Platform. Две трети опрошенных уже используют или планируют внедрить IDP. Что для них наиболее важно в IDP?

Также беглым взглядом посмотрим на зарубежные индустриальные исследования по схожим темам.

Доклад принят в программу конференции

Afterparty (4)

Клуб анонимных CTO: заседание второе

Федор Васильев

xStack

Евгений Россинский

Иви

Евгений Кузовлев

Т-Банк

Глеб Михеев

Сбер

6 ноября, 19:20, Зал «Капсула 3 - Трек Leaders Lab»

Google Outlook Apple

По многочисленным просьбам организуем второй заход — зрительские оценки премьерного показа оказались столь высоки, что мы постеснялись их публиковать... Но поняли, что второго раунда нам не избежать.

Итак, встречаем... Теперь... Уже... В Москве!

Никаких записей, камер и дипломатии. Только честные ответы на неудобные вопросы: от вайб-кодинга до выгорания команд. Узнайте инсайды, которые никогда не попадут в блоги и интервью, — встречайте: Клуб анонимных CTO!

* Количество мест ограничено.

Доклад принят в программу конференции

Личное стратегическое планирование: как строить карьерные и жизненные планы с учетом изменений

Валерия Орлова

билайн

6 ноября, 19:20, Зал «Капсула 1»

Google Outlook Apple

Расскажу о том, как планирование влияет на качество и продолжительность жизни, приведу примеры исследований по теме, которые это доказывают.
Детально разберем с примерами:
* что такое личное стратегическое планирование;
* инструменты работы с планированием;
* как ставить цели, чтобы они работали;
* как внедрять в жизнь новые привычки;
* как проводить чек или ревизию целей.

Доклад принят в программу конференции

Саботеры правят ТЗ

Татьяна Сущенко

Независимый эксперт

6 ноября, 19:20, Зал «Капсула 2»

Google Outlook Apple

Игра, в которой исполнитель задачи будет делать жизнеспособный продукт и противостоять саботёрам, вносящим правки в ТЗ.

Казалось бы, ТЗ — это главный источник правды. Но чем выше ты растешь в карьере, тем реже можешь ответить своим коллегам, что «этого не было в ТЗ». Нужно думать на шаг вперед. Нужно предвидеть, что в том самом ТЗ, которое для тебя центр и основа, рано или поздно появится или исчезнет пара слов, и это полностью поменяет картину мира.

Как если из словосочетания «Внутреннее CRM-решение» исчезнет слово «внутреннее».

Пытаясь стать лидерами рынка, из самых лучших побуждений, саботёры правят ТЗ.

На игре мы попрактикуемся предусматривать неожиданные повороты и находить выходы из неочевидных ситуаций.

Участники разделятся на команды, в каждой из которых будет один защитник, остальные игроки — саботеры. Все как в жизни ;)

На старте у каждой команды будет ТЗ. Саботеры, действуя в своих интересах, будут устраивать каверзы, внося в ТЗ «небольшие правки», а защитники — эти каверзы отбивать, интегрировать, адаптировать, в общем, делать всё, чтобы эти неожиданные изменения не стали катастрофой для продукта.

Доклад принят в программу конференции

Резюме глазами HR

Александра Романенко

6 ноября, 19:20, Зал «НеДетская Капсула»

Google Outlook Apple

Как сделать резюме заметным и понятным для HR? Разберем, как работают алгоритмы на платформах вроде hh.ru, какие ошибки мешают пройти отбор и как улучшить свое резюме. Вместе с HR-экспертом в реальном времени посмотрим реальные примеры и дадим конкретные рекомендации. Подойдет тем, кто хочет перейти на следующий карьерный уровень, сменить направление или просто повысить шансы на отклик.

Доклад принят в программу конференции

TechTalk (4)

Эволюция Quality Gates: контроль качества для Self-Driving-системы

Дмитрий Романов

Navio

6 ноября, 12:10, Зал «Казан»

Google Outlook Apple

Тестирование — это важнейшая часть процесса создания технологии, обеспечивающая ее безопасность, стабильность и комфортное использование. Я расскажу, как сформировалась политика Quality Gates на всех этапах производственного процесса, как изменились метрики бизнеса и метрики качества конечного программного продукта. Разберем конкретные примеры в разных плоскостях процесса: от этапа формирования набора реализуемых требований до автоматических и ручных проверок релизного артефакта. Узнаем, как все эти проверки встроены в пайплайн, и увидим ошибки, которые мы допустили. Дополнительно рассмотрим способы реагирования на отклонения в процессе на примерах мониторинга и доставки критичных уведомлений.

Доклад принят в программу конференции

Биометрия — новый формфактор платежей. Межбанковская платформа биометрических сервисов НСПК

Сергей Лысенко

Мир Plat.Form (НСПК)

6 ноября, 14:30, Зал «Казан»

Google Outlook Apple

В рамках техтолка поговорим о роли НСПК в развитии биометрических сервисов и биоэквайринга. Поговорим об архитектуре и плюсах платформы биометрических сервисов НСПК для банков. Выясним, как создание межбанковской платформы повлияет на клиентский опыт и прием платежей, а также как биометрию можно применить в нефинансовых сервисах.

Доклад принят в программу конференции

Как мы мигрируем со Spark на Polars, обрабатывая сотни ТБ в сутки

Оптимизация производительности

Архитектура данных, потоки данных, версионирование

Обработка данных

Георгий Попов

Navio

7 ноября, 12:10, Зал «Казан»

Google Outlook Apple

Инженеры данных в Navio управляют хранилищем на десятки петабайт, а размер данных, которые ежедневно проходят через наши пайплайны, исчисляется сотнями терабайтов в день. Это настоящий заповедник Big Data, и, казалось бы, в таких условиях лучшим инструментом для обработки данных будет Apache Spark. Но на практике все оказалось чуть сложней.

Я хотел бы поделиться историей, как Spark в нашей компании постепенно все больше заменяется Polars. Я подсвечу, какие аспекты Spark тормозили разработку, съедали кучу лишних ресурсов или просто выбешивали; и как с приходом Polars наши пайплайны стали быстрее, создание ETL-процессов — бодрее, а использование вычислительного кластера — экономней.

Доклад принят в программу конференции

Универсальный QR-код: как это устроено?

Артём Бояршинов

Мир Plat.Form (НСПК)

7 ноября, 13:20, Зал «Казан»

Google Outlook Apple

Внедрение универсального QR-кода полностью завершено во всей эквайринговой сети Системы быстрых платежей. Теперь более 200 банков могут использовать эту технологию для приема платежей. В рамках техтолка мы поговорим о том, что из себя представляет универсальный QR-код, какие возможности он дает потребителю. И как команда разработки СБП осуществляла миграцию QR-кодов (платежных ссылок) на новые «платежные рельсы».

Доклад принят в программу конференции

Резерв (8)

Где деньги, Лебовски? Как мы следим за стоимостью системы аналитики в облаке

Андрей Березин

Сбер

Расскажу, как наша платформа внутренней аналитики выросла с 8 млн до 160+ млн событий в сутки только за первый год. При линейном масштабировании стоимость инфраструктуры увеличилась бы в 20 раз, что стало критичным для бюджета. Основные расходы: ClickHouse, Kafka и GreenPlum. Встал вопрос: как сохранить производительность, но удержать рост расходов хотя бы в пределах 4–5x?

Решение

Комплексная оптимизация стоимости хранения и обработки данных:
* Настройка TTL-политик в ClickHouse с переносом на дешевые диски и S3 (экономия 20–30%).
* Оптимизация политик S3 (warm/cold storage).
* Отказ от избыточной мультизональности и версионности.
* Использование облачных фич: холодные партиции GaussDB, шедулинг ресурсов.
* Сжатие данных в Kafka и переход на дешевые диски вместо SSD.

Практическая польза:
Посетители получат готовый чек-лист оптимизации расходов на высоконагруженные аналитические системы, конкретные настройки TTL и температурных политик, метрики контроля стоимости за единицу данных, а также список критических ошибок при оптимизации (включая проблемы с бэкапами и холодным хранилищем).

Доклад принят в программу конференции

Использование современных сетей и железа для deep learn

Борис Корзун

Скала^р (продукт Группы Rubytech)

Можно ли построить свой HPC-кластер и что для этого требуется?

Мы взяли несколько узлов, в которые можно установить нужное оборудование: видеокарты, сетевые карты, поддерживающие RDMА. Установили на них Astra и стали разбираться с нюансами. Их оказалось немало.

Приходите на доклад, чтобы увидеть и разобрать:
* Почему надо обязательно использовать специализированные GPU-платформы — рядовые серверные системы нам не подойдут.
* NCCL, MPI, UCX — зачем они нужны для параллельных вычислений.
* Как понять, что PFC и ECN работают — или почему tcpdump не ловит траффик.
* Как производительность HPC можно измерить.
* И что еще придется крутить, чтобы увидеть цифры, приближенные к скорости, написанной в спецификациях сетевой карты.

Доклад принят в программу конференции

МТС Cashback под микроскопом: как системный анализ спасает продукт

Проектирование информационных систем

Расширение кругозора

Юлия Васильева

МТС Web Services (MWS)

Расскажу, как мы научились видеть и предотвращать проблемы невозможности списания бонусов до того, как о них узнают пользователи. Проектирование системы мониторинга.

Вы узнаете:
* Как определять ключевые сценарии для мониторинга.
* С какими сложностями мы столкнулись: некорректная компоновка, переговоры без данных.
* Как нашли баланс между точностью метрик и их практической ценностью.
* Почему иногда важно мерить не время запроса, а время до следующего этапа.

Честный разбор ошибок и решений, которые вернули клиентам возможность использовать бонусы.

Доклад принят в программу конференции

SRE-трансформация в SmallTech: эволюция от хаоса инцидентов к автоматизированной наблюдаемости и предсказуемым SLA

Антон Скутин

Петрович-Тех

* Как small-tech эволюционировала от фиксации инцидентов в Excel к централизованной системе наблюдаемости с метриками, логами и трейсингом.
* Внедрение SLO/SLI на основе собственной метрики «негативное влияние» для измерения качества сервисов.
* Автоматизация управления инцидентами: от ручной эскалации к чат-ботам и AI-ассистентам.
* Трансформация дежурных администраторов в команду оперативного реагирования с четкими SLA.
* Практические кейсы: снижение MTTR с 4 до 1,5 часа, рост доступности сервисов до 99,9%.

Доклад принят в программу конференции

Как LLM-мультиагенты меняют науку (и не только)

Разработка библиотек, включая open source библиотеки

Расширение кругозора

Николай Никитин

ИТМО

Уже сегодня ИИ-ассистенты становятся незаменимым инструментом для ученых, работающих в различных областях. В этом докладе я расскажу, как лежащие в их основе мультиагентные системы на основе больших языковых моделей позволяют решать сложные комплексные задачи, а также разберу актуальные практики их разработки и адаптации под конкретные предметные области (в том числе и за рамками научных приложений), полезные фреймворки и паттерны. В качестве примеров будут использованы несколько мультиагентных Open-Source-решений, созданных в Университете ИТМО: OSA (инструмент для улучшения оформления репозиториев с кодом) и CoScientist (ассистент химика и материаловеда).

Доклад принят в программу конференции

MongoDB как единственное хранилище. Использование, проблемы, боль и последствия

MongoDB

Хранилища

Облака

Игорь Анохин

K2 Cloud

Расскажу, как MongoDB работает в реальной продакшн-среде: как хранилище, кеш, брокер сообщений, time-series и распределенная база данных. Покажу, где она действительно справляется и позволяет упростить стек, а где на практике пришлось перейти на специализированные решения: Redis, Kafka, VictoriaMetrics. Поделюсь архитектурными компромиссами, эксплуатационными нюансами и выводами, которые помогают трезво выбирать инструменты.

Доклад принят в программу конференции

Безопасность веб-приложения во внешнем и внутреннем контуре

Безопасность программного кода, SQL и прочие инъекции

DDoS

Управление уязвимостями

Безопасность инфраструктуры

HTTP/HTTPS

WebSockets

Александр Подгорный

МТС Web Services (MWS)

* Расскажем, как создать безопасную локальную среду при развороте стендов для работы проекта с учетом специфики современного веб-приложения.
* Средства и способы защиты с учетом разворота в локальном контуре.

Поговорим про реагирование на шелл, левый код и процессы на сервере.
Хонипот — как и с чем его есть.

* Свой WAF и краткий обзор отечественных NGFW. Расскажем, как локально поставить Ideco, и сравним его с нашим решением.

Доклад принят в программу конференции

Школьный код в высоконагруженной системе: какие уроки мы выучили, проводя олимпиады по программированию

Александр Межов

Инфиннити

Реализация площадки для проведения онлайн-олимпиад по программированию — крайне интересная и нестандартная задача. Мы запускаем сомнительный код в промышленной среде, заставляя ее работать на пределе возможностей. В среднестатистическом приложении происходящее назвали бы инцидентом, но для нас это обычные рабочие будни. В такие моменты некоторые аспекты поведения приложения и ОС кажутся нелогичными и необъяснимыми. Между тем понимание происходящего может оказаться крайне полезным для анализа проблем, их устранения и предотвращения.

За последние два года мы столкнулись с множеством нестандартных кейсов. В докладе раскрою самые яркие из них. На живых примерах разберём:

* в чём разница между полезной работой и временем исполнения;
* как и зачем контролировать параллелизм;
* каковы особенности работы со временем и часами;
* что определяет характер расхода оперативной памяти;
* как контролировать агрессивные процессы;
* как вся система может превратиться в «зомби».

Доклад принят в программу конференции

Другое (1)

Бэкстейдж трансляция HighLoad++

Ontico team

Ontico

6 ноября, 09:30, Зал «Бэкстейдж»

Google Outlook Apple

Бэкстейдж трансляция знакомит с тем, что происходит на конференции за пределами докладов. Прямые эфиры с авторами наиболее ожидаемых докладов, беседы с членами программного комитета HighLoad++, интервью с партнерами конференции об их продуктах и технологических решениях.

Программа
09:30—10:00 [ТРАНСЛЯЦИЯ]
Открытие конференции
Прямая трансляция из главного зала.
10:15—10:35 [ПРОГРАММНЫЙ КОМИТЕТ]
Тизер бэкстейдж трансляции
Беседа с Александром Белоцерковским, членом программного комитета HighLoad++, о том, что ожидает зрителей сегодня.
10:45—11:00 [СПИКЕР]
Александр Токарев (Voxys)
Автор доклада «Двигательные установки космических аппаратов».
11:15—11:30 [СПИКЕР]
Артем Букин (VK)
Автор доклада «DDoS на серверсайд: как мы выжили при x3-нагрузке с ограниченными ресурсами».
11:45—12:00 [ПАРТНЕР]
Haulmont — партнер Продуктовой аллеи
Антон Решанов, Business Development Manager, о том, как сохранить темпы продуктовой разработки при сокращении финансирования.
12:15—12:20 [ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ ОНТИКО]
OnticoGPT
ИИ-ассистент, обученный на нескольких тысячах докладов конференций Онтико.
12:30—13:00 [ПРОГРАММНЫЙ КОМИТЕТ]
Роман Поборчий
О трендах и темах конференции, процессе отбора докладов.
13:15—13:30 [СПИКЕР]
Александр Снопов (Яндекс)
Автор доклада «Бесконечность — не предел: как мы масштабируем единое хранилище Яндекса на десятки эксабайт».
13:40—13:55 [ПАРТНЕР]
Wildberries & Russ
О внедрении внутреннего инструментария компании и оптимизации производительности мобильного приложения маркетплейса.
14:05—14:10 [ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ ОНТИКО]
DevNavigator
Обучающая платформа для разработчиков.
14:20-14:35 [ПАРТНЕР]
X5 Tech
О разработках компании
14:45—15:00 [СПИКЕР]
Дмитрий Кривопальцев (Яндекс)
Автор доклада «Очереди на PostgreSQL: антипаттерн или реальность жизни?».
15:10—15:25 [ПАРТНЕР]
Open IDE
Свобода разработки без рисков и ограничений (Продуктовая аллея)
15:35—15:50 [СПИКЕР]
Екатерина Пчицкая (СПбПУ)
Автор доклада «ИИ расшифровывает код мозга: от реального синапса до цифрового двойника нейрона (и при чем тут мыши с микроскопами на голове?)».
16:00—16:15 [ПАРТНЕР]
MWS
Интервью с генеральным партнером HighLoad++ о трендах ИИ-агентов
16:25—16:40 [СПИКЕР]
Алексей Яндутов (Яндекс)
Автор доклада «AI-ответы в Яндекс Поиске: как увеличить счастье пользователей и сэкономить GPU».
16:50—16:55 [ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ ОНТИКО]
Tech Kitchen
Технологический медиа-продукт.
17:05—17:20 [ПАРТНЕР]
MAGNIT TECH
Интервью с партнером HighLoad++
17:30—17:45 [СПИКЕР]
Кирилл Стариков (Геоскан)
Автор воркшопа «Прием данных с космических аппаратов без специализированного оборудования».
18:00—18:05 [ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТ ОНТИКО]
ALL CFP
Платформа для управления Call for Papers.
18:15—18:30 [СПИКЕР]
Николай Кокоулин (Ви.Tech)
Автор доклада «Интеллектуальное кэширование: можем ли мы научить backend предсказывать будущее».
18:45—19:00 [OPENSOURCE ТРИБУНА]
Spring-ai-gigachat
Финалист народного голосования за лучшие OpenSource-решения.
19:00—19:15 [OPENSOURCE ТРИБУНА]
Go2rtc
Финалист народного голосования за лучшие OpenSource-решения.
19:15—19:20
Завершение трансляции
Подведение итогов дня.

Доклад принят в программу конференции

Расписание конференции

Кто отбирал доклады

Секции и доклады