Data Lake на HighLoad++, ускорение разработки с Rust

Привет, друзья!

Один месяц и два дня — да, мы уже считаем дни до встречи с вами на HighLoad++ Foundation. Команда вовсю обсуждает концепты оформления конференции. Но в одном мы сошлись — будет красиво. А Программный комитет делает всё, чтобы было полезно.

Забронировать билет на HighLoad++ Foundation

Сегодня продолжим знакомить вас со спикерами конференции, а ещё поделимся новой статьёй и полезными материалами от наших партнёров. 


Хранилище данных в Tinkoff существует уже 14 лет, и за это время накопился гигантский объем данных (2 петабайта данных, ± 120 000 таблиц, ± 30 000 отчетов и еще много чего). А теперь представьте себя на месте любого из 3000+ людей, которые ежедневно ищут в этом море данных нужную им информацию!

Раньше эта проблема решалась с помощью ручного ведения документации в Confluence, но когда объём данных вырос, этот подход показал свою неэффективность. Было принято решение о внедрении Data Catalog. Первым делом разработчики Tinkoff попытались найти решение на рынке. 

Но ничего подходящего запросам компании не нашли. И тогда в Tinkoff сделали свой продукт. На HighLoad++ Foundation Роман Митасов и Дмитрий Пичугин расскажут:

  • Как искали решения на рынке и почему решили сделать своё.
  • Какой продукт в итоге сделали, и как он применяется в корпоративной Data Platform.
  • Про архитектуру продукта.
  • О проблемах, с которым столкнулись в процессе разработки, и о решениях, которые приняли.
  • О планах на ближайшее будущее.

О том, как проксируются данные для Hadoop в Сбербанкерасскажет Андрей Ильин. В SberData разработано несколько продуктов, для прозрачного доступа пользователей к данным в экосистеме Apache Hadoop. На конференции обсудим основные принципы работы компонентов Apache Hadoop: HDFS, Hive и Sentry/Ranger. Андрей расскажет об особенностях проксирования данных, метаданных и привилегий. Обсудим форматы хранения данных в в HDFS (в частности, формат Apache Parquet) и затронем проблемы, которые могут возникнуть при разработке и проектировании распределённых систем. 

Андрей объяснит, в чём особенность работы с open source-библиотеками Apache Hadoop, а в финале расскажет о нюансах эксплуатации ПО подобного класса: проведение нагрузочного тестирования, взаимодействие со смежными системами, мониторинг, настройка health check'ов, управление конфигурацией и развертыванием.


Если вы хотите углубиться в тему высоконагруженных систем хранения данных, советуем прочитать новую статью от Олега Уткина.

Tarantool: ускорение разработки с Rust

Tarantool, как известно, поддерживает любой язык, который совместим с C и компилируется в машинный код. В том числе на Lua и C можно реализовать хранимые функции и модули.

Но можно еще круче — и производительность будет выше в 5 раз, чем на Lua и сопоставимо с C.

Олег Уткин в Tarantool занимается высоконагруженными системами хранения данных. В своей статье он рассказал, чем так хорош Rust и как он может заткнуть по производительности за пояс Lua и C. С примерами двух проектов, которые Tarantool уже реализовал на Rust.


Полезные материалы от Muse Group

Если вы хоть раз были на наших конференциях, то знаете, что в зоне выставки постоянно что-то происходит. А общаться с представителями наших партнёров бывает так же интересно, как со спикерами.

Сегодня хотим познакомить вас с одним из наших партнёров — Muse Group.

Если вы имеете хоть какое-то отношение к музыке, то продукты компании вам наверняка знакомы: сервисы Ultimate Guitar и MuseScore. Сегодня аудитория продуктов компании — более 400 миллионов человек по всему миру.

В 2007 году команда Muse Group столкнулась с серьёзным вызовом, связанным с авторским правом. Многие конкуренты тогда закрылись, так как не нашли способ легализовать свой контент. Команде Muse Group удалось тогда подписать одно из первых в мире лицензионных соглашений о цифровых табулатурах, а к 2010 году — заключить контракты с десятками музыкальных издателей. Как это отразилось на разработке — читайте в статье.

А ещё разработчики Muse Group рассказали, как им удалось существенно ускорить клиентскую часть их сайтов. Об этом — по ссылке.

На сегодня всё! До скорого!