HighLoad++ Genesis

Доклады

Доклад (8)

Колоночные СУБД: магия сжатия данных и сверхбыстрых запросов

1) Разница в паттернах использования баз данных и вытекающие ограничения на физическую модель данных.
2) Компактность колонок и векторизация вычислений.
3) Практические трудности с поддержкой ACID-транзакций.
4) Разница в перформансе на основании ClickBench как бенчмарка для сравнения эффективности работы с диском.

Доклад принят в программу конференции

От железного сервера к Docker, Docker Compose, Docker Swarm и Kubernetes

Когда-то продакшн начинался с больших мейнфреймов, хорошо укоренился в горизонтально скалируемых железных серверах (Baremetal), а виртуализация и контейнеризация сделали эксплуатацию SMB-проектов выгоднее. Baremetal, виртуализация и контейнеризация нашли свою аудиторию, при этом не всегда ясно, когда отдать предпочтение определенной технологии.

В докладе мы посмотрим на этапы развития инфраструктуры, на проблемы каждого этапа и как виртуализация, контейнеризация и оркестрация контейнеризации решают свои проблемы.

Доклад принят в программу конференции

Сравнительный обзор механизмов polling в Kafka и pub/sub в RabbitMQ: особенности и области применения

* Обзор основных компонентов и принципов работы Kafka и RabbitMQ. Сравнение архитектурных подходов двух систем.
* Подробное описание механизма polling в Kafka: как он работает, его преимущества и недостатки.
* Подробное описание механизма pub/sub в RabbitMQ: как он работает, его преимущества и недостатки.
* Сравнение эффективности и производительности механизмов обмена данными в контексте различных сценариев использования.
* Анализ сценариев, в которых один инструмент может быть предпочтительнее другого.

Доклад принят в программу конференции

Сети для самых маленьких

Чтобы код с ноутбука разработчика попал в репозиторий — нужна сеть.
Чтобы код с репозитория попал на прод — нужна сеть.
Чтобы прод с кодом мог обслуживать пользователей... ну, вы поняли.

А что такое сеть? Как она работает? Что за магия передает пакетики от одного сервера к другому?

Давайте разбираться (с)

Доклад принят в программу конференции

Гори-гори ясно, чтобы база не погасла, или Как жить с высокими нагрузками на базы данных

Поговорим о том, что такое высокая нагрузка для баз данных, почему БД часто становится самой хрупкой частью системы и о том, как сделать эту часть надежной и быстрой.

Ответим на следующие вопросы.
* Как настраивать? Важные аспекты при установке и первоначальной настройке
* Диски, память и процессор: что важнее для базы?
* Что влияет на производительность?
* Почему запись — это медленно?
* Как написать быстрый и не очень SELECT?
* Как сделать запрос еще быстрее?
* Внешние метрики и внутренняя статистика: что мониторить, куда смотреть
* Когда использовать реляционную базу вообще не стоит?

Доклад принят в программу конференции

Key-value-хранилища в больших проектах

История и архитектурные преимущества и недостатки kv.
Классификация и сценарии использования:
- кеш;
- альтернативное хранилище с пониженными гарантиями;
- основное хранилище с высокими гарантиями;
- специализированные сервисы / дата-апп grid.

Доклад принят в программу конференции

ML-решения в проде — батчи, NRT, RT, что выбрать и какие подводные камни?

В мире высоких нагрузок вывод ML-моделей в продакшн требует тщательного выбора архитектуры: батч, near real-time (NRT) или real-time (RT). Как Machine Learning Engineer (MLE) с опытом в MWS, я поделюсь практическими инсайтами на основе реальных кейсов из онлайн-кинотеатра KION. Мы разберем, кто такой MLE — не только разработчик моделей, но и специалист по их деплою, мониторингу и масштабированию под пиковые нагрузки до 600 RPS.

На примере персонализации витрин контента обсудим офлайн-схемы (батч): ежедневные обновления автополок с градиентным бустингом, преимущества стабильности и простоты, но с рисками устаревших данных. Перейдем к NRT: стриминг трендов через Kafka для свежести рекомендаций, баланс ML и бизнес-правил (>50, включая дедупликацию). Для RT раскрою что нужно — быстрый стек (FastAPI, Python 3.11), runtime-компоновка в Blender под 160 мс, A/B-эксперименты с «playoff» шести моделей, приводящие к +2-5% роста метрик смотрения.

Особое внимание подводным камням: «моргание» контента, нагрузка на систему, баланс персонализации и новизны (ежедневный мониторинг). Завершим универсализацией: платформенный подход с MLOps для гибридных архитектур, «полка как сервис» и сеточная структура рекомендаций (DSSM-векторы). Узнайте, как выбирать схему, избегать ошибок и строить масштабируемые ML-системы. Идеально для молодых ML-специалистов, ищущих путь от модели к продакшну!

Доклад принят в программу конференции

От виртуалки на ноутбуке к облакам

Распределенные системы
Масштабирование с нуля
Синхронизация данных, параллельная обработка, CDN
Критерии выбора технологий для проекта
Работа с облачными сервисами
Надёжность продакшена
Поддерживаемый код
Автоматизация разработки, доставки, эксплуатации
Микросервисы
Облака
Железо
Инфраструктура
Сеть

Большинство разработчиков запускали виртуальные машины на своем ноутбуке. Кажется, что облака — это то же самое?

Приходите и послушайте, чем задача построения облаков отличается от запуска одной виртуальной машины. Облака в современном мире используются примерно всеми и стоит хорошо понимать, что под ними находится, так как «абстракции протекают».

Доклад принят в программу конференции