ORC и Parquet. О форматах и их использовании на базе HDFS

BigData и машинное обучение

Хранилища данных

Hadoop
Хранилища
Обработка данных

Доклад принят в программу конференции

Мнение Программного комитета о докладе

В своем докладе Александр представит актуальные исследования форматов ORC и Parquet, а также общие рекомендации по их использованию. Это специфичные форматы для Big Data, без которых жизнь не мила.

Целевая аудитория

Data engineer.

Тезисы

Современный мир наполнен данными, а количество производимых и хранимых каждой компанией данных непрерывно растет, вызывая множество проблем. Хранение и обработка этих данных является критически важной задачей для бизнеса.

Оптимизация обработки и хранения данных — это необходимая задача для компаний в настоящее время. Это помогает сокращать затраты на обработку данных, ускоряет выполнение запросов и повышает общую производительность — в том числе и для задач машинного обучения. Решение этой проблемы может иметь огромное значение для развития организации, которая на основе эффективного управления данными сможет укрепить свою позицию на рынке и обеспечить успешное развитие в будущем.

В докладе разберём:
* как устроены форматы ORC и Parquet;
* в чём секрет их эффективности;
* каких правил придерживаться при настройке таблиц на примере ORC;
* реальный пример оптимизации таблицы на 500 миллионов записей и ускорения ее обработки в 3 раза.

Data Engineer в билайне.

билайн

билайн – технологичная компания, предоставляющая клиентам услуги в области Big Data, IT, безопасности, облачных технологий, интернета вещей и рекламных инструментов. В штате работают более 3000 IT-специалистов, они помогают более 80 000 клиентам из разных отраслей бизнеса быть более эффективными.

Видео