Налог на добавленную стоимость - важнейшее средство пополнения бюджета страны, а проверка корректности налоговых деклараций - важнейшая задача Федеральной Налоговой Службы. Естественно, в наше время эти задачи не выполняются вручную. На помощь приходит автоматизированная система, работающая на основе стека технологий Hadoop. При разработке и эксплуатации этой системы пришлось столкнуться с огромным количеством трудностей, были перепробованы самые разные варианты, от классических map-reduce задач на базе YARN до Impala, последних версий Spark и технологии долгоживущих исполнителей LLAP, которая пока существует только в версии для разработчиков.
В борьбе за производительность мы выработали и проверили десятки гипотез. Одной из особенностей проекта является отсутствие подключения вычислительных мощностей к сети Интернет, другая особенность - необходимость обслуживать как интерактивные запросы от пользователей на местах, так и аналитические запросы, продолжительность которых - не один час.
Отдельного рассказа заслуживает система сбора метрик кластера и взаимодействие приложений с ней.