Где в Spark спрятаны ресурсы, а в видео — нужный кадр?

Привет, друзья!

Сегодня делимся кейсами о том, как работает AI в высоконагруженных проектах. А еще напоминаем: вы можете заглянуть за кулисы московского HighLoad++ 2025.


День открытых дверей HighLoad++ 2025

Мы уже начали подготовку к конференции и 26 мая в 19:00 зовем вас на открытую встречу в офисе VK в Москве.

Обсудим:

  • как будет устроен отбор в этом году,
  • какие доклады особенно ждем в программе,
  • как «вроде бы есть тема» превращается в отличный доклад,
  • что помогает новичкам не растеряться и дойти до зала с микрофоном.

Подача докладов на HighLoad++ 2025

Если хотите подать доклады — приходите.
Если не хотите — тоже приходите. 

Обещаем, будет интересно: бар, дискуссии, цвет российского IT-сообщества. Встречаемся в московском офисе VK.

📍 Офлайн в Москве — регистрируйтесь тут
🌐 Онлайн — подключайтесь тут


Что почитать

Оптимизация Spark-приложений: шаг за шагом от базовых техник до продвинутых приемов

Александр Маркачев из билайн делится опытом оптимизации, основанным на реальных задачах из антифрода. Говорит о репартицировании, об экономии ресурсов при запуске множества задач и о том, почему настройки оконных функций могут все испортить. Полезно тем, кто работает с большими объемами данных и ищет конкретные техники, которые можно сразу применить.

Читать статью

Что посмотреть

Гибридный поиск на базе OpenSearch и Qdrant
Егор Прохоренко из Lamoda рассказал, как в Т-Банке создали гибридный поиск на базе OpenSearch и Qdrant. Модель обучали на пользовательском поведении, клик-релевантность дополняли моделью ранжирования. Доклад о том, как два подхода к поиску уживаются в одной прод-системе и какие компромиссы пришлось найти.

Смотреть видео

Как KION формирует в Realtime персональные рекомендации и витрины
Алексей Жиряков показал, как в компании собирают рекомендации в режиме реального времени. Система учитывает десятки условий и умеет адаптироваться к поведению пользователя. Хороший разбор того, как обычные правила и простые решения в сумме дают мощную ML-систему.

Смотреть видео

Как искать кадры в видео с помощью AI?
В этом видео вместе с Александром Соколовым посмотрим на пайплайн, который позволяет находить нужный момент по описанию, цвету, фразе, лицу или действию. Внутри — десяток моделей и архитектура на Dagster, Celery и Kubernetes. История про сложную задачу, в которой каждый элемент нужно было довести до продакшн-состояния.

Смотреть видео


Интеграция ИИ в архитектуру открывает новые возможности для обработки данных и автоматизации процессов, что делает их более эффективными и адаптивными к меняющимся требованиям рынка. И эту тему мы продолжим в июне на петербургской конференции.

Доклады секции «Нейронные сети, ИИ (data science)» Saint HighLoad++ 2025

Миллион товаров, опыт один: используем коллаборативные и мультимодальные эмбеддинги для кластеризации

Каталог Wildberries давно превысил миллион позиций, и рекомендательная система начала промахиваться. Команда Олега Дурандина объединила коллаборативные и визуальные эмбеддинги, ввела метрику качества кластеров и вывела модель в прод. Новые товары теперь попадают в тематические подборки без ручного «пинка», а интересы пользователей считываются заметно точнее. В докладе Олега — путь от выбора гипотез до решения проблем запуска на боевом трафике.

Как мы создали свое аппаратное решение для измерения габаритов и веса товара с помощью нейросетей и стереокамер

Мария Гафурова расскажет, как в Ozon создавали систему для измерения габаритов и веса посылок. Сначала собрали стенд со стереокамерами и тензодатчиками. Затем обучили нейросеть распознавать размеры объектов — от булавки до стиральной машины. В результате добились такой точности, что систему можно использовать в реальной логистике без ручной доработки.

Склад Шредингера: как с помощью компьютерного зрения сократить инцидентность на больших складах логистического оператора

В логистических центрах камеры фиксируют все, а операторы видят лишь часть. Команда BIA-Technologies обучила детекторы, которые отмечают броски груза, нарушения регламента и другие инциденты в реальном времени. Михаил Красильников покажет, как переносили модель из лаборатории в прод, почему результаты на тесте расходились с боевыми данными и какие приемы помогли сократить потери и повысить продуктивность мониторинга.


Saint HighLoad++ 2025 — это про реальные решения и инженерный опыт в экстремальных условиях: архитектура, масштаб, отказоустойчивость, AI. Присоединяйтесь к сообществу 23 и 24 июня в Петербурге — программа и расписание уже на сайте.

Забронировать билет на Saint HighLoad++ 2025


На сегодня все. До новых встреч!