Rspamd - это система фильтрации спама с открытым кодом, выполняющая оценку e-mail сообщений по множеству критериев, который возник как попытка адаптировать фильтрацию спама к современным реалиям и постоянно растущему потоку электронных писем, нуждающихся в обработке.
В данном докладе я хотел бы продемонстрировать результаты сравнения rspamd с аналогами, рассказать про архитектурные особенности и применяемые алгоритмы, позволяющие повысить производительность, а также затронуть вопросы безопасности при обработке сообщений клиентов.
Из доклада вы узнаете:
- как неблокирующая модель ввода/вывода помогает улучшить общую производительность системы и какие проблемы она привносит;
- как использовать алгоритм шинглов для поиска похожих писем и организации "черных" списков;
- про использование цепей Маркова в Bayes статистике;
- про оптимизацию правил в абстрактном синтаксическом дереве;
- как обрабатывать 10 тысяч шифрованных запросов в секунду на одном ядре, или что делать, пока нет TLS 1.3;
- про то, почему стандартное API языка С плохо подходит для высоконагруженных систем, или зачем нужны велосипеды, когда есть костыли;
- почему удобная система конфигурации является "лицом" для проекта.
Кроме этого, доклад, разумеется, охватывает и общие вопросы борьбы со спамом, тенденции и проблемы, с которыми приходилось сталкиваться на практике.