Доклады секции "Platform Engineering"
(10)
FinOps в IТ-платформе Туту. Как мы говорим с бизнесом про эффективность
Современная платформа — это не только долгосрочный проект, это еще и дорогая инфраструктура. Платформа Туту обходится компании в 5 раз дешевле, чем аналогичная инфраструктура в облаках.
В докладе я расскажу:
* Про нашу систему внутреннего биллинга и ресурсные дашборды для продуктовых команд;
* Про механизмы Garbage Collector в инфраструктуре и другие инструменты для оптимального использования ресурсов;
* Рассмотрим модель затрат на IT-Платформу;
* Как мы нашли общий язык с бизнесом и считаем эффективность IТ-платформы.
Доклад принят в программу конференции
Тысячи асинхронных задач в секунду в облачных s3 на Rust/Axum/Tokio — шлифуем ржавчину до блеска
Почему и как мы пишем на Rust новые утилиты массовой асинхронно-неблокирующей работы с AWS-совместимыми облаками для Яндекс Облака и VK Cloud. Расскажем, как мы реплицируем события бакета s3 и как мы удалили несколько петабайт и миллиарды файлов на Rust, активно используя асинхронные сокеты и аллокатор jemalloc. Поделимся опытом, как правильно и быстро писать полезные утилиты, работающие с AWS-совместимым API и как быстро прокачать стеку асинхронного Rust разработчиков других стеков: Python, Java, PHP, JavaScript.
Доклад принят в программу конференции
Инфраструктурный провайдер для Cluster API: с нуля до open source
Cluster API — это мощный инструмент для декларативного управления жизненным циклом Kubernetes-кластеров. Он активно развивается и поддерживает множество провайдеров для различных платформ: GCP, AWS, Azure, vSphere, bare metal и др. Однако на момент начала нашего проекта не существовало открытого провайдера для Yandex Cloud — что делало невозможным его использование в гибридных инфраструктурах.
Этот доклад будет полезен DevOps-инженерам, SRE и платформенным командам, которые стремятся упростить и унифицировать управление кластерами с помощью Cluster API, в том числе в Yandex Cloud, а также тем, кто интересуется разработкой собственных провайдеров.
Я расскажу, как мы в Т‑Банке решили эту проблему, разработав собственный Cluster API-провайдер для Yandex Cloud с нуля. Разберем архитектуру, взаимодействие с Yandex Cloud API, управление ресурсами (инстансами, балансировщиками). Особое внимание уделю нюансам разработки инфраструктурных провайдеров: спецификации CRD и reconciliation loop. Провайдер уже доступен в open source, и я покажу, как его можно начать использовать.
Вы услышите реальную историю от идеи до производственной эксплуатации — с вызовами, техническими решениями и опытом, который мы готовы передать сообществу.
Доклад принят в программу конференции
Управление ресурсами как продукт
Осознанное потребление ресурсов — это то, к чему мы стремимся в Яндекс Вертикалях. У нас тысячи сервисов и сотни хранилищ данных, поэтому контроль потребления ресурсов был нетривиальной задачей, но на помощь пришла наша IDP!
В докладе я расскажу о том, как мы трансформировали ситуативную активность по оптимизации ресурсов в единый продукт, ставший частью IDP, и как можно переиспользовать наши наработки. В конце поделюсь нашими результатами и вызовами, которые нам еще предстоит решить.
Доклад принят в программу конференции
Интеграция Keycloak с Airflow, MLFlow, Superset и сервисами мониторинга
Задумываетесь над внедрением системы единого входа (SSO)? Расскажу на примере реального опыта, поделюсь инсайдами, как мы это сделали.
Почему стоит прийти:
* для архитекторов и DevOps-инженеров: вы получите готовые примеры интеграции Keycloak с ключевыми компонентами ML-инфраструктуры — никаких абстрактных теорий, только проверенные решения;
* для тех, кто работает с мультитенантными системами: узнаете, как разграничить доступ между разными организациями и командами внутри одной платформы без компромиссов по безопасности;
* для руководителей IT-проектов: поймете, как централизовать управление доступом и сократить издержки на администрирование множества разрозненных систем.
Ключевые аспекты доклада:
* тонкости настройки OpenID Connect для Airflow, MLFlow и Superset — нюансы, которых нет в документации;
* простые решения для сервисов без нативной поддержки OAuth;
* практические кейсы организации изолированных пространств в Grafana через Keycloak;
* разделение авторизации для пользователей и для межсервисного взаимодействия.
От проблемы к решению — за один доклад.
Если вы устали от разрозненных систем аутентификации, постоянных переключений между аккаунтами или опасаетесь утечек из-за слабой защиты — этот доклад станет вашей дорожной картой к построению надежной и удобной системы единого входа, способной масштабироваться вместе с вашей инфраструктурой.
Приходите за практическими инсайтами, которые сэкономят вам недели разработки и тестирования!
Доклад принят в программу конференции
Строим единую платформу аутентификации на основе Keycloak
В этом докладе я расскажу, как мы построили единую платформу аутентификации для группы компаний.
Рассмотрим:
* почему мы разделили авторизацию и аутентификацию;
* почему Keycloak;
* как мы деплоим Keycloak, чтобы не бояться даунтаймов;
* управляем Keycloak, через IaC с помощью Pulumi (и почему именно Pulumi);
* разработали типовые архитектурные принципы работы с Keycloak;
* стандартизировали заявки на создание сущностей Keycloak;
* авторизуем пользователей из мульти-AD-инфрастурктуры с кучей дублей учетных записей между AD.
Доклад принят в программу конференции
Объединение сложных филиальных организаций при помощи Event Mesh
Каждая ДЗО имеет свой стек технологий и уровень зрелости IT-ландшафта. Но при этом необходимость взаимодействия друг с другом никуда не делась. Как взаимодействовать, если с одной стороны REST, а с другой Kafka? Или RabbitMQ и Kafka? Под каждый поток данных писать адаптер?
Расскажу, как мы в команде MWS Octapi решили эту проблему с помощью Event Mesh. Теперь пользователю достаточно сформировать манифест взаимодействия, описать поток данных при помощи Json Schema и все. Система поднимет валидатор, коннектор, контроллер… Упорядочит потоки, сформирует артефакты гарантированной доставки и запустит поток.
Доклад принят в программу конференции
Как сэкономить гигабайты памяти в Istio Sidecars
Часто шутят, что Istio — это всего лишь 500 мегабайт на сайдкар. Но это обидная неправда — на самом деле сайдкары бывают и по гигабайту.
В докладе будет исчерпывающий гайд про потребление памяти в Istio в больших и сверхбольших промышленных инсталляциях на реальных примерах. А также все способы это потребление сократить — от простых и понятных до самых экзотических.
Доклад принят в программу конференции
Система аналитики в реальном времени на 5 млрд событий в день c помощью ClickHouse
SaluteEye — платформа продуктовой аналитики. Собираем события с умных устройств Сбера и других источников, обрабатываем и предоставляем для аналитики и мониторинга технических показателей продуктов. Сегодня мы собираем и обрабатываем более 5 млрд событий в день и храним в быстром доступе аналитиков более 200 Тб, но так было не всегда...
В докладе поделюсь историей эволюции нашей системы и опытом внедрения ClickHouse для аналитики около реального времени. Зачем мы это делали, с какими вызовами столкнулись и что не учли, как контролируем рост и масштабируемся.
Доклад принят в программу конференции
Как мы создавали единую платформу онлайн-тарификации
Как сделать миграцию для высоконагруженной системы операторского класса, обслуживающей более 80 млн абонентов без остановки сервиса, параллельно выпуская постоянные релизы, хотфиксы и колдпатчи.
В докладе я расскажу:
* что такое онлайн-биллинг? >80 млн абонентов, 1 млрд транзакций в секунду;
* разбираем легаси-продукт, который никто не описывал 30 лет: 3,5 млн строк превращаются в 1700 тарифов и 11 унифицированных классов услуг;
* в чем сложность замены онлайн-биллинга? 80% проектов свопов неуспешны. Расскажу про классические ошибки;
* итак, мы создали онлайн-биллинг. Как мигрировать? Виды миграции и выбор подхода;
* ключевые проблемы, с которым мы столкнулись в процессе миграции: боттлнеки в 20 тыс. абонентов, сигнальные штормы и «дергания» миллионов абонентов.
Доклад принят в программу конференции