Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Умные алгоритмы обработки строк в ClickHouse Базы данных и системы хранения

Доклад принят в программу конференции
Данила Кутенин
Яндекс

Разработчик базового поиска в Яндексе — инфраструктрура, подготовка индекса и работоспособность более 5000 поисков среди нескольких дата-центров.

Попутно делает проекты в ClickHouse.

danlark@yandex-team.ru
Тезисы

Мы расскажем о самом эффективном алгоритме поиска подстроки или одновременно нескольких подстрок, о котором вы услышите впервые и который был внедрён в ClickHouse. Мы покажем, какие трюки использованы для поиска регулярных выражений, как поискать сразу по многим регулярным выражениям, как эффективно обрабатывать UTF-8 строки. Также углубимся в тему о том, как найти похожие строки и какие трудности возникают в определении "похожести".

C/C++
,
Оптимизация производительности
,
Алгоритмы и их сравнение

Другие доклады секции Базы данных и системы хранения

Rambler's Top100