Как считать и анализировать сотни гигабит трафика в секунду, не тратясь на Hadoop и не парся логи Архитектуры
Тезисы
В своем докладе я расскажу о такой непростой задаче, как обсчет и анализ трафика многих клиентов под очень высокими нагрузками и при практически полном отсутствии расходов на дополнительные серверы под статику. Задача усложняется тем, что все клиенты отдаются со всех серверов, а статистика ведется по отдельным субдоменам. Сбор статистики многоуровневый - скорость отдачи, коды ошибок HTTP, количество отданных байтов и ряд других параметров с 5-минутными интервалами.
Основные подтемы доклада
- В чем проблема подхода, включающего парсинг логов?
- Чем хороши, а чем не очень инструменты работы с логами?
- Что получается, если объем собираемых в день логов составляет около 70 Тб?
- Плюсы и минусы универсальных решений типа Hadoop для такой задачи.
- Наш подход к интеграции MapReduce в nginx.
- Горизонтальная масштабируемость системы агрегации логов.
- Почему одного сервера достаточно, чтобы считать 50 гигабит трафика в секунду и более 7 миллиардов хитов в день?
- Результаты работы в production
- Как бы мы реализовали то же самое сейчас?