Выжимаем облака досуха: как свое железо экономит 90% затрат на большие данные для стартапа

Архитектура и масштабируемость

Доклад принят в программу конференции

Мнение Программного комитета о докладе

Как хранить петабайты данных максимально дешево. Десятилетний опыт разработчика системы «Антиплагиат».

Целевая аудитория

Стартап фаундеры, технические директора, инженеры.

Тезисы

Стартап — это постоянный цикл проверки гипотез. Чем быстрее и дешевле вы тестируете свои предположения, тем выше шансы на успех. Облака обеспечивают гибкость и масштабируемость, что идеально подходит для начальных этапов: пет-проектов, PoC и MVP.

Однако, когда стартап выходит на рынок, набирает пользователей и начинает работать с большими объемами данных (документы, фото, видео и т. п.), расходы на облачную инфраструктуру начинают расти экспоненциально за счет оплаты дискового пространства. В этот момент стоит задуматься о переводе хранения данных на собственное оборудование.

Мы, в Антиплагиате, периодически выкатываем новые сервисы в виде стартапов. Так как мы работаем с пользовательскими документами, то все вышесказанное в полной мере относится и к нам. Да и сам Антиплагиат был стартапом не так уж и давно. Мы с коллегами адаптировали архитектуру большого Антиплагиата для наших стартап-спин-офф-проектов.

В докладе я поделюсь опытом планомерного сокращения затрат на хранение в несколько раз за счет использования собственных серверов. Будут предложены практические идеи и расчеты по снижению совокупной стоимости владения (TCO). В результате получается масштабируемое решение на основе open-source-компонентов (Proxmox, ceph, Deckhouse CE). Покажу, как это масштабируется в несколько раз на примере инфраструктуры Антиплагиата.

Доклад будет полезен основателям и техническим специалистам: представленные подходы успешно применены в реальном проекте, но отдельные решения можно адаптировать под самые разные сервисы.

Андрей Ивахненко

Антиплагиат

Начал карьеру в наукоемком стартапе, организованном сотрудниками ВЦ РАН. За время работы пришлось поработать в ролях: ML-разработчика, разработчика алгоритмов, занимался разработкой и оптимизацией кода на C++ и C# (бэкенд, алгоритмы, структуры данных). Десять с лишним лет руководит командами, отвечающими за разные направления в IT в российском сервисе поиска заимствований Антиплагиат. Под его началом — собственные сервера, взаимодействие несколькими облачными провайдерами, сети, системы совместной работы сотрудников. Занимается также внедрением и эксплуатацией сервиса Антиплагиат вместе с командами SRE, DevOps. Помогает клиентам по вопросам изменения инфраструктуры и интеграции систем заказчика с сервисом проверки на заимствования. Меняет архитектуру сервиса. За время работы IТ-инфраструктура продакшна расширилась с двух серверов до десятка тысяч ядер в собственном железе и нескольких облачных провайдеров.

Видео

Другие доклады секции

Архитектура и масштабируемость