Конференция завершена. Ждем вас на HighLoad++ в следующий раз!

Крупнейшая профессиональная конференция для разработчиков высоконагруженных систем

17 и 18 мая 2021 Москва, Крокус-Экспо 3, зал 20

Пишем свой Domain Crawler Архитектуры, масштабируемость

17 мая, 14:10

Доклад принят в программу конференции

Тезисы

Скачать презентацию Все презентации конференции

Причины, зачем может понадобиться сбор данных о доменах и размещенных на них сайтах, могут быть разными. В нашем случае речь шла о лучшем понимании, что же происходит на сайтах клиентов и как меняется интернет. Некоторое время мы покупали эти данные, но качество оставляло желать лучшего. Таким образом мы пришли к задаче написания собственного Domain Crawler'а, способного обходить до 100 миллионов доменов и собирать самую разную информацию о них.

В докладе планируется осветить различные аспекты и проблемы построения такого решения: где можно получить данные бесплатно, где можно купить нужные данные, как можно организовать архитектуру, как масштабировать проект, как следить за качеством и, конечно же, какие ожидают грабли на этом, весьма тернистом, пути.

Евгений Карагодин

Plesk

Fullstack-разработчик в компании Plesk. Занимается разработкой web-приложений на Node.js и React — от создания прототипа до автоматического развёртывания на инфраструктуре AWS. Более 10 лет опыта программирования на JavaScript.

Другие доклады секции Архитектуры, масштабируемость

Как сдержать самые сложные обещания: планирование batch-задач в системе Yandex.YT

Игнат Колесниченко

Яндекс

Crash Recovery в Распределенном Хранилище

Антон Виноградов

СберТех

Игровой сервер: что там внутри?

Марк Локшин

IT Territory/Mail.ru Group

Платформа видеоконференций ВКонтакте – сделано удалённо

Александр Тоболь

ВКонтакте, VK

Серебряная пуля геораспределенных систем

Евгений Кузовлев

Т-Банк

Платформа для любой биометрии: проблемы и решения, или Как устроена Единая биометрическая система

Сергей Браун

РТЛабс

Угнать за 5 миллисекунд: как мы делали транспорт для торговых ядер Московской Биржи

Николай Карлов

VK Cloud

Как мы добавляли распределенный SQL в Hazelcast

Владимир Озеров

Querify Labs

Проектирование высоконагруженных систем на основе моделирования и теории массового обслуживания

Максим Юнусов

IT1

API Gateway: пустая трата сил или полезный инструмент?

Василий Сошников

Quantil Inc.

Микросервисы с нуля

Семен Катаев

Авито

Как правильно выбирать очередь

Владимир Перепелица

Tarantool, VK

Почему распределенный SQL сложнее, чем кажется

Станислав Лукьянов

GridGain

Как мы попали в истории. Stories в сервисе объявлений

Александр Инякин

Юла

Отказоустойчивое Такси, или Как мы строим надежный сервис

Максим Педченко

Яндекс.Go

Чёрная магия JIT-компиляции

Алексей Рагозин

Дойче Банк

Public Cloud. Гайд по масштабированию

Нарек Татевосян

Яндекс

Высоконагруженная платежная система "Мир": что под капотом

Юрий Бабак

Т-Банк

Разработка приложений, устойчивых к кратковременным отказам

Георгий Полевой

Dodo Pizza

GraphQL Federation, или Как не выстрелить себе в ногу

Иван Решетин

Юла, VK

Metadata management system в Авито

Фрол Крючков

Авито

Как мы создавали Data Management Platform в OZON

Евгений Чмель

Ozon

Консенсус на пальцах, или Как договориться в распределенной системе

Владимир Протасов

Yandex.Cloud

Архитектура отказоустойчивого платежного шлюза

Алексей Павлов

Wildberries

Тысяча и один бэкап, или Резервное копирование Compute Cloud

Артемий Капитула

VK Cloud

Согласованная локализация: версии, транзакции, очереди

Алексей Тимин

Badoo

Кошелек с нуля в 2020 году: технологии, вызовы, решения

Филипп Дельгядо

lekton.io

Мониторинг большого количества движущихся по карте объектов

Егор Маслов

big3.ru

Python и Ruby под нагрузкой: самый низкий уровень

Григорий Петров

Evrone