Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Проксирование данных для Hadoop

Data Lake / Data Mesh

Доклад принят в программу конференции

Тезисы

Доклад посвящен продуктам, разработанным в SberData, для прозрачного федеративного доступа пользователей к данным в экосистеме Apache Hadoop. Обсудим основные принципы работы компонентов Apache Hadoop: HDFS, Hive и Sentry/Ranger. Расскажу про особенности проксирования данных, метаданных и привилегий.

Будут затронуты основные проблемы разработки и проектирования распределенных систем, расскажу, на какие проблемы стоит обратить внимание, об аспектах безопасности и нюансах использования Kerberos. Обсудим форматы хранения данных в HDFS, в частности, формат Apache Parquet.

Коснемся особенностей работы с open source-библиотеками Apache Hadoop, их доработки и реализации функционала, который нигде не описан, и непонятно, с чего начинать.

В финале обсудим нюансы эксплуатации ПО подобного класса: проведение нагрузочного тестирования, взаимодействие со смежными системами, мониторинг, настройка health check'ов, управление конфигурацией и развертыванием.

Занимается разработкой продуктов на Java с 2005 года.

Сбер

Видео