Как мы в Тинькофф Data Catalog создавали
Доклад принят в программу конференции
Целевая аудитория
Тезисы
В чем главная задача аналитика? Думать головой и принимать решения. Правильные решения можно принять только при наличии нужных данных. А как найти данные в большой компании? В этом-то и проблема.
Хранилище данных в Тинькофф существует уже 14 лет и за это время мы накопили гигантский объем данных: 2 петабайта данных, ±120 000 таблиц, ±30 000 отчетов и еще много чего. А теперь представьте себя на месте любого из 3000+ людей, которые ежедневно ищут в этом море данных нужную им информацию! Традиционно мы решали проблему с помощью ручного ведения документации в Confluence, но с ростом объема данных этот подход становился все менее и менее эффективным. Проблема встала ребром, мы поняли, что пришло время что-то менять, и решили внедрять у себя Data Catalog.
Первым делом мы попытались найти решение на рынке, но не нашли ничего подходящего именно нам. Поэтому решили вложиться и сделать свой продукт. В докладе подробно расскажем:
1. Как мы искали решения на рынке и почему решили сделать свое.
2. Какой продукт мы в итоге сделали и как применяем его в нашей Data Platform.
3. Про архитектуру продукта и как нам удалось вместить в него столь разношерстную информацию по всем нашим данным.
4. О проблемах, с которым мы столкнулись в процессе разработки, и о решениях, которые приняли.
5. Что мы планируем делать дальше.
Руководитель группы управления данными. Занимается внедрением Data Governance и Data Quality в Тинькофф.
Тинькофф
Старший разработчик Data Detective. Занимается разработкой backend-решений для Data-платформы Тинькофф.
Тинькофф
Видео
Другие доклады секции
Цифровая культура / CTO-трек