Доклады секции "BigData и машинное обучение"

(6)

YTsaurus — это будущее DWH, и в Яндекс Маркете оно наступило

Филипп Козьмин

Яндекс Маркет

* К концу 2022 года мы должны были построить хранилище вместимостью 30 PT с ростом данных в 10 PT в год и наличием жестких SLA по времени доставки данных.
* Мы пробовали делать это так, как принято сейчас — Greeenplum для ядра DWH и MapReduce для остального, оно не взлетало.
* Мы упростили всю архитектуру и сделали DWH на одном YTsaurus.

Доклад принят в программу конференции

ORC и Parquet. О форматах и их использовании на базе HDFS

Hadoop
Хранилища
Обработка данных

Современный мир наполнен данными, а количество производимых и хранимых каждой компанией данных непрерывно растет, вызывая множество проблем. Хранение и обработка этих данных является критически важной задачей для бизнеса.

Оптимизация обработки и хранения данных — это необходимая задача для компаний в настоящее время. Это помогает сокращать затраты на обработку данных, ускоряет выполнение запросов и повышает общую производительность — в том числе и для задач машинного обучения. Решение этой проблемы может иметь огромное значение для развития организации, которая на основе эффективного управления данными сможет укрепить свою позицию на рынке и обеспечить успешное развитие в будущем.

В докладе разберём:
* как устроены форматы ORC и Parquet;
* в чём секрет их эффективности;
* каких правил придерживаться при настройке таблиц на примере ORC;
* реальный пример оптимизации таблицы на 500 миллионов записей и ускорения ее обработки в 3 раза.

Доклад принят в программу конференции

Антифрод наоборот и использование методов ML в нем

Каждый из нас хотя бы раз в неделю совершает онлайн-покупку. Нас совсем не удивляет, что интернет-магазины перенаправляют нас на страницу оплаты, где мы вводим свои карточные данные, а дальше ждем, когда нам придет СМС с одноразовым паролем.

Сегодня мы с вами посмотрим, как уже сейчас упрощается наш с вами клиентский путь, и почему теперь вовсе не обязательно вводить СМС. А еще рассмотрим, как популярные методы машинного обучения помогают лучше справляться с задачей "антифрода наоборот" или Сервиса Принятия Решений в платежной системе "Мир".

Доклад принят в программу конференции

MinIO — что изменилось за год

Алексей Плетнёв

Базис-Центр+

На прошлогоднем HighLoad я рассказывал про свой опыт разворачивания геораспределённого отказоустойчивого S3-совместимого хранилища на базе MinIO. После этого мне на почту, что приятно, пришло множество вопросов касательно различных нюансов. В этом году я бы хотел систематизировать ответы на них и представить в виде доклада широкой публике.

Кроме того, я планирую рассказать о том, как развивался MinIO в течение прошедшего года, от каких минусов разработчикам удалось избавиться, а что до сих пор остаётся в виде подводных камней, на которые можно легко наступить и порезаться.

Также хочется рассказать об очень интересном опыте масштабирования MinIO — как мы расширили своё присутствие с 3 до 4 дата-центров, какой реальный прирост производительности дал переход от обычных дисков к дисковым массивам. С какими сложностями можно столкнуться при работе с этими массивами.

Доклад ориентирован не на мастодонтов, создающих свои облака, таких как ребята из Яндекса или ВК, а на архитекторов из компаний, представляющих малый и средний бизнес, у которых, однако, есть серьёзный потенциал роста и потребность в хранении данных в собственном периметре.

Доклад принят в программу конференции

Переосмысление рекомендаций в Дзене и внедрение item-to-item-схемы

Дзен — крупная мультиформатная контентная платформа с персональной лентой рекомендаций, в которой пользователю предлагаются статьи, видео, посты и ролики от сотен тысяч авторов.

Доклад будет посвящен нашему пути к построению объяснимой для пользователей персональной ленты и способу сделать рекомендации «контролируемыми». Расскажем, какие ограничения мы себе поставили для этого и почему в их рамках пришли к item-to-item-модели, как решаем задачу построения таких рекомендаций, какие возможности нам это открыло, а также про основные этапы внедрения и развития item-to-item-технологии.

Доклад принят в программу конференции

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

При обработке больших данных с помощью Apache Spark наиболее трудозатратным этапом считается Shuffle stage, когда вся информация активно перемещается. А возникает он в вашем плане, как только вы задумываетесь о группировке или джойнах. Но всегда ли он необходим? Нет! Дело в том, что зачастую Spark не знает, как эффективно использовать метаданные источника данных, поэтому строит универсальные способы исполнения.

В этом докладе я расскажу, как мы ускорили выполнение агрегаций и джойнов на отсортированных данных внутри YTsaurus. Для этого придется покопаться во внутренностях механизмов выполнения запросов, чтения данных и генерации планов исполнения.

Доклад принят в программу конференции