Как мы строили хранилище на 30+ Пб данных для AI и не планируем останавливаться
Доклад принят в программу конференции
Целевая аудитория
Тезисы
Хранилище данных на 30+ Пб для AI: подходы и перспективы развития.
1. Когда сделать очень нужно, но некому рассказать, как именно - как подойти к задаче с высокой степенью неопределенности и начать ее решать.
- Чем мы располагали по технологиям в начале нашего пути.
- Какую задачу мы решаем
Возможные ценные мысли для слушателя - как подойти к решению задачи по построению хранилища, у которого мало примеров реализации на рынке, имея общие подходы к построению.
2. Многоуровневая архитектура хранилища. Как мы пробовали Data Vault и потом сделали проще, как нам в итоге помог Apache Iceberg. Выбор подходящего инструмента для обработки очень больших данных подхода методом проб и ошибок. Как работают в одной связке s3 совместимое хранилище, GaussDB, Apache Spark on Kubernetes, Apache Airflow, Apache Iceberg.
Как мы делали первую реализацию нашего хранилища командой из 3 человек, выбирали базы данных и подходы к моделированию данных, запускали первых клиентов в наш «детальный" слой. С какими проблемами начали сталкиваться при масштабировании потоков данных.
Возможные ценные мысли для слушателя:
- почему Data Vault 2.0 - это «модно, стильно, молодежно», но не всегда нужно
3. Как мы прогружаем по 100 Тб в сутки и почти не падаем. Работа над доступностью, отказоустойчивостью и ожиданиями пользователей.
Как мы в результате дошли до прогрузки 100 Тб в сутки, с какими проблемами сталкивались (например, недоступность s3 совместимого хранилища), как побеждали такую проблему.
Возможные ценные мысли для слушателя - работа с вендором и пользователями, а также использование лучших практик разработки с высокой долей вероятности помогут найти решение технических проблемы.
4. Как используем gaussDb в нашей работе как хранилище для DDS слоя (и какие есть альтернативы)
Как мы используем gaussDB в качестве хранения детального слоя.
Ключевые фишки gaussDB, отличия от greenplum.
Что планируем дальше (trino + Apache Iceberg).
5. Планы на будущее, с какими проблемами нам предстоит столкнуться.
В планах - рост до 100 Пб хранилища, с какими потенциальными проблемами мы можем столкнуться при увеличении объема прогрузок.
Возможные ценные мысли для слушателя - мыслить шире и не бояться больших масштабов.
Тимлид команды разработки BigData решений с опытом более 10 лет в IT.
Работаю в SberDevices, вместе с командой готовим данные для AI моделей Сбера и приближаем будущее.