Saint HighLoad++

Как мы строили хранилище на 30+ Пб данных для AI и не планируем останавливаться

Резерв

Доклад принят в программу конференции

Целевая аудитория

big data engineers, data architect

Тезисы

Хранилище данных на 30+ Пб для AI: подходы и перспективы развития.


1. Когда сделать очень нужно, но некому рассказать, как именно - как подойти к задаче с высокой степенью неопределенности и начать ее решать.

- Чем мы располагали по технологиям в начале нашего пути.
- Какую задачу мы решаем

Возможные ценные мысли для слушателя - как подойти к решению задачи по построению хранилища, у которого мало примеров реализации на рынке, имея общие подходы к построению.

2. Многоуровневая архитектура хранилища. Как мы пробовали Data Vault и потом сделали проще, как нам в итоге помог Apache Iceberg. Выбор подходящего инструмента для обработки очень больших данных подхода методом проб и ошибок. Как работают в одной связке s3 совместимое хранилище, GaussDB, Apache Spark on Kubernetes, Apache Airflow, Apache Iceberg.

Как мы делали первую реализацию нашего хранилища командой из 3 человек, выбирали базы данных и подходы к моделированию данных, запускали первых клиентов в наш «детальный" слой. С какими проблемами начали сталкиваться при масштабировании потоков данных.

Возможные ценные мысли для слушателя:
- почему Data Vault 2.0 - это «модно, стильно, молодежно», но не всегда нужно

3. Как мы прогружаем по 100 Тб в сутки и почти не падаем. Работа над доступностью, отказоустойчивостью и ожиданиями пользователей.

Как мы в результате дошли до прогрузки 100 Тб в сутки, с какими проблемами сталкивались (например, недоступность s3 совместимого хранилища), как побеждали такую проблему.

Возможные ценные мысли для слушателя - работа с вендором и пользователями, а также использование лучших практик разработки с высокой долей вероятности помогут найти решение технических проблемы.

4. Как используем gaussDb в нашей работе как хранилище для DDS слоя (и какие есть альтернативы)

Как мы используем gaussDB в качестве хранения детального слоя.
Ключевые фишки gaussDB, отличия от greenplum.
Что планируем дальше (trino + Apache Iceberg).

5. Планы на будущее, с какими проблемами нам предстоит столкнуться.

В планах - рост до 100 Пб хранилища, с какими потенциальными проблемами мы можем столкнуться при увеличении объема прогрузок.

Возможные ценные мысли для слушателя - мыслить шире и не бояться больших масштабов.

Тимлид команды разработки BigData решений с опытом более 10 лет в IT.
Работаю в SberDevices, вместе с командой готовим данные для AI моделей Сбера и приближаем будущее.

Видео