Главная
→
2007
→
Основная секция

Производительность GIST и GIN индексов в PostgreSQL
Основная секция

Доклад принят в Программу конференции

МФТИ / Физтех — ведущий российский исследовательский университет. Насчитывает 10 Нобелевских лауреатов. В топ‑100 глобального рейтинга Times Higher Education. Десятки научных школ, международные лаборатории, одни из сильнейших программ.

Тезисы

При построении современных информационных систем приходится решать разнообразные технологические задачи, связанные с хранением, доступом и поиском информации. Учитывая современные требования к производительности, надежности и шкалированию таких систем, такие задачи требуют использования достаточно сложных алгоритмов и специализированных структур данных (abstract data type, ADT).

Эффективный доступ к данным является одной из важнейшей задачей базы данных. Мы рассматриваем большие базы данных, которые не помещаются в оперативную память. Для таких БД эффективность доступа к данным определяется, в основном, количеством обращений к диску, поэтому основной задачей СУБД является минимизация этих обращений. Обычно, это достигается использованием индекса, который представляет собой вспомогательную структуру данных, предназначенную для ускорения получения данных удовлетворяющих определенным поисковым критериям. Индекс позволяет уменьшить количество дисковых операций необходимых для считывания данных с диска. Обычно, индекс представляет собой файл на диске, и, если этот файл становится очень большим, то может потребоваться дополнительный индекс для ускорения работы самого индекса. Методами доступа (access methods,AM), обычно, называют организацию (структуру) индексного файла и методы работы с ней. В традиционных реляционных СУБД для работы с одномерными данными, такими как строки, цифры, используются B+-tree и хэш, для которых разработаны очень эффективные алгоритмы работы. Однако, современные приложения, такие как ГИС (GIS), мультимедийные системы, CAD, цифровые библиотеки, которые по-сути используют многомерные данные, требуют других, более эффективных AM.

Для эффективной работы с такими многомерными данными PostgreSQL предлагает два типа индекса: GiST (Generalized Search Tree) и GIN (Generalized Inverted Index).

GiST был предложен Hellerstein et al. [HNP95] как обобщение нескольких классов индексов (такие как B-Tree, R-Tree, Similarity Tree, RD-Tree) и позволяет создавать индексы на базе произвольной метрики типа данных. Для использования GiST разработчик должен создать метрику и функции-адаптеры, используя API. Как классический индекс, в котором храниться одна и только одна пара ключ-ссылка, индексы GiST имеют хорошею производительность при вставке нового ключа, но производительность при поиске может сильно зависеть от метрики проиндексированного типа данных и собственно типа поискового запроса.

GIN представляет собой обратный индекс, в которов храняться ключи и список ссылок на значения, в которых ключи встречаются. Обратный индекс получил широкое распространение для полнотекстовго поиска. Но PostgreSQL предлагает некоторое обобщение обратного индекса, не ограничиваясь только текстом. Как и для использования индексов GiST, для использования индексов GIN разработчик должен создать несколько функций-адаптеров, в основном, выделяющие ключи из индексируемого или поискового значения. GIN показывает хорошую прозводительность при поиске данных мало завися от типа поискового запроса. Производительность при вставке сильно зависит от количества ключей в индексируемом значении - для каждого ключа требуется отдельная вставка в индекс.

В докладе представлены сравнение производительности и потребного дискового пространства для GIN и GiST индексов на примере полнотекстового поиска с использованием модуля раширения tsearch2, а также практические советы по их использованию в высоконагруженных приложениях.

Другие доклады секции
Основная секция

Особенности обработки больших объемов данных

Богдан Минко

Hivetrace - компания которая занимается разработкой решений в области AI Security: Red Team, Guardrails, детекция PII

Высоконагруженные приложения как совокупность веб-сервисов

Анастасия Абрашитова

Яндекс — международная IT-компания, которая более 25 лет создает технологичные продукты на основе машинного обучения и нейросетей. В их экосистеме более 90 сервисов. Среди них есть внутренние, которые обеспечивают процессы внутри компании и работу сотрудников: Yandex Infrastructure, YTeasaurus, YDB и Ecom-сценарии. А еще опенсорс-проекты Яндекс Реклама, Поиск с Нейро, Алиса, Автономный транспорт, Yandex GPT и Yandex Cloud.

Архитектура Инфона: архитектура Spike2, железо и кластеризация

Наиль Успанов

Ви.Tech — технологичная компания, которая развивает IT-инфраструктуру крупнейшего в России DIY-интернет-магазина «ВсеИнструменты.ру». Создет и поддерживает высоконагруженные системы, обрабатывающие миллионы пользователей и сотни тысяч заказов ежедневно.

Системы выкатки кода и изменений в больших проектах

Чекрыгина Наталья

Navio — разработчик универсальной технологии автономного вождения на базе ИИ, включающей Software и Hardware компоненты, R&D, уникальный процесс тестирования и экосистему сервисов для обработки данных и управления флотом автономного транспорта.

Практические методики нагрузочного тестирования, опыт тестирования производительности веб-приложений

Семён Мацепура

В «Магните» отвечает за формирование стратегии архитектурного штаба, управление портфелем IT-проектов, продуктовую трансформацию IT-вертикали, развитие подходов к бюджетированию и контролю эффективности производственного цикла.

Управление распределенными данными

Денис Кузнеделев

Яндекс — технологическая компания, которая создает инновационные продукты на основе машинного обучения и нейронных сетей. Команда талантливых математиков и программистов развивает самую популярную в России поисковую систему и более 85 пользовательских сервисов, которые помогают людям в повседневных заботах.

Масштабирование результатов нагрузочного тестирования методом анализа стоимости транзакций

Зар Захаров

RUTUBE - пожалуй лучший видеохостинг страны.

Функциональное, автоматическое тестирование

Андрей Кулешов

Яндекс — технологическая компания. В основе их сервисов лежат сложные, уникальные, трудно воспроизводимые технологии. Именно они позволяют делать то, что еще некоторое время назад люди приняли бы за волшебство.

Крупное online-СМИ на примере Gazeta.RU, Expert.RU

Дмитрий Морозов

Почтатех — дочерняя IТ-компания Почты России, созданная в 2016 году. Разрабатывает сложные цифровые сервисы, которыми пользуются миллионы людей по всей стране. В портфолио Почтатеха более 100 продуктов, среди которых логистические системы, софт для отделений, портал и приложение Почты.

Обзор инструментальных средств нагрузочного тестирования Web-приложений

Антон Непша

Сбер — это современный стек технологий, драйвовые проекты и команда единомышленников. У них около 3 000 продуктовых команд и огромное профессиональное IT-сообщество. Работают над созданием удобных онлайн-сервисов в самых разных сферах.

Как работает www.microsoft.com

Илья Пономарев

BI.ZONE — компания по управлению цифровыми рисками. Мы создаем IT-продукты для обеспечения кибербезопасности: от мобильных приложений до сложных платформ, в основе которых лежат методы машинного обучения.

Хранение больших объемов информации (на примере поиска по LiveJournal)

Кирилл Меньшов

ПАО Сбербанк — один из крупнейших банков в России и один из ведущих глобальных финансовых институтов. На долю Сбербанка приходится около трети активов всего российского банковского сектора. Сбербанк является ключевым кредитором для национальной экономики и занимает одну из крупнейших долей на рынке вкладов.

Конфигурирование веб-систем для оптимальной работы PHP приложений

Сергей Рыжиков

1С-Битрикс

Агрегация семантических знаний с применением технологии распределенных GRID-вычислений

Юлия Аравина

Рекламная система SUP Fabrik

Андреев Пётр

Архитектура почтовой системы Рамблер

Сергей Михалев

Т-Банк — финансовая онлайн-экосистема, объединяющая полный спектр финансовых услуг для частных лиц и бизнеса. Особое внимание Т-Банк уделяет развитию лайфстайл-банкинга: экосистема дает клиентам возможность анализировать и планировать личные траты, инвестировать сбережения, получать бонусы в рамках программ лояльности, бронировать путешествия, покупать билеты в кино, бронировать столики в ресторанах и делать многое другое.

Сервер приложений SUP Fabrik

Андрей Шетухин

Пресловутая компонента ранжирования Search Engines

Артем Ерохин

X5 Tech — IT-компания и основной цифровой партнер X5 Group. Мы разрабатываем онлайн и офлайн-решения, которые помогают более 392 тысячам сотрудников группы работать с максимальным технологическим комфортом, а миллионам покупателей — быстро и удобно покупать свежие продукты.

Высоконагруженные приложения как совокупность веб-сервисов

Анастасия Абрашитова

Горизонтальное масштабирование SQL Server на основе зависимой от данных маршрутизации

Олег Бирюков

Билайн — один из ведущих поставщиков телекоммуникационных услуг в России.

Техники масштабирования баз данных для Web приложений

Сергей Мироненко

SberDevices — это компания полного цикла. Мы создаём идеи, самостоятельно разрабатываем продукты, занимаемся прототипированием, конструированием, придумываем дизайн, программные решения, контролируем качество на фабриках и создаём инструменты для аппаратного тестирования.

Oracle Real Application Clusters (RAC)

Илья Пономарев

Современный подход к веб-хостингу от Microsoft

Алексей Панаэтов

МТС — одна из ведущих экосистемных компаний России. Предоставляет услуги мобильной и фиксированной связи, решения в области объединенных коммуникаций, интернета вещей, обработки данных, облачных вычислений и кибербезопасности. Штат IT-специалистов компании превышает 8 000 человек.

Использование nginx как сервера-сборщика

Андреев Пётр

Код и масштабирование. Как упростить себе жизнь в будущем

Виталий Кулиев

Wildberries & Russ — крупнейший маркетплейс России.

Многоуровневый мониторинг веб-систем класса “mission critical”

Александр Аникеев

ВБТЕХ - Технологический фундамент Wildberries. Делаем покупки в интернете доступными для России, Беларуси, Казахстана, Кыргызстана, Армении и Узбекистана

Улучшения производительности PostgreSQL версии 8.3

Михаил Рябов

TeamStorm - российский разработчик одноименной системы управления совместной работой.

Сравнение Транзакционных систем хранения для MySQL (Innodb, Falcon, PBXT, SolidDB)

Сергей Мироненко

Обзорный доклад о архитектуре статистики LiveInternet

Богдан Минко

Hivetrace - компания которая занимается разработкой решений в области AI Security: Red Team, Guardrails, детекция PII

Основы масштабирования и кластеризации

Новиков Алексей Сергеевич

SOA в системах электронной коммерции

Горбатов Алексей

Банк от группы Ozon — первый e-commerce банк в России, предлагающий уникальные финансовые сервисы для клиентов и продавцов торговой площадки Ozon. 35+ млн клиентов.

Тюнинг операционных систем

Дмитрий Калаев

Венчурный фонд ФРИИ. 450+ инвестиций с 2013 года. Самый большой по количеству инвестиций фонд в России. Среди инвестиций: Vision Labs, Flowwow, Pravo.tech, Unim Histology, Promobot… Акселератор ФРИИ. В различных рейтингах акселераторов топ-10/топ-20 в мире. 2000+ IТ-компаний, прошедших программы акселерации. Naumen.ru. 1000+ сотрудников, лидер в сегментах рынка программных продуктов Service Desk и Call-центров.

Сетевая многозадачность: событийные машины

Анастасия Абрашитова

Кластерные параллельные вычисления

FrontendConf

Профессиональная конференция фронтенд-разработчиков в России.

Реализация высоконагрузочного проекта на основе стандартного тиражируемого решения

Дмитрий Антипов

Масштабируемость, учет и ограничение ресурсов на массовом виртуальном хостинге

Михаил Журавель

Тестирование производительности кластеризованной масштабируемой "вширь" системы

Наиль Успанов

Построение географически распределенного архива хранения документов

Анастасия Грибановская

Розетка — образовательное бюро и партнёр по изменениям: проектируем системные обучающие решения вокруг людей и бизнес-целей. Мы работаем и онлайн, и офлайн, не боимся экспериментировать и собирать решения под ваш запрос. В команде — проджект-менеджеры, фасилитаторы, методисты разного профиля (от IT до креатива), а также эксперты, геймификаторы и консультанты.

Массовый виртуальный хостинг неоптимизированных ресурсов

Дмитрий Криков

NGENIX

Эксплуатация портала Яндекс

Станислав Палашкевич

OpenYard — российский вендор и производитель серверного оборудования с собственным R&D-центром и производственной площадкой в Рязани, которая обеспечивает полный цикл выпуска серверов. В портфеле компании — корпоративные серверы (19" стоечные решения) и OCP-подобные платформы. Продукция OpenYard ориентирована на создание эффективной и надежной ИТ-инфраструктуры и входит в реестр промышленной продукции Минпромторга РФ.

Sphinx – система полнотекстового поиска по СУБД, применения

Андрей Аксенов

Авито, Sphinx

Расширенная версия Архитектуры Яндекса

Станислав Васильев

Яндекс — компания, где можно найти команду по вкусу.

Архитектура Яндекс-Поиска

Андреев Пётр

Профессиональная конференция разработчиков высоконагруженных систем

Производительность GIST и GIN индексов в PostgreSQL Основная секция

Тезисы

Другие доклады секции Основная секция

Производительность GIST и GIN индексов в PostgreSQL
Основная секция

Другие доклады секции
Основная секция