Заметки из production

Технические статьи команды iTeam: лучшие практики, архитектурные разборы, ретроспективы инцидентов.

Whitepaper

SLI/SLO модель: как перестать тушить пожары и начать управлять надёжностью

Полный гайд по внедрению SLI/SLO/error budgets — от выбора метрик до политик rollout-блокировки.

15 мин·Е. Воронова
Kubernetes

Karpenter vs Cluster Autoscaler: production-сравнение на 8000-узловом кластере

Замеры скорости провижионинга, поведения при scaling-down, цены и сложности миграции.

12 мин·Д. Климов
CI/CD

GitOps в enterprise: подводные камни ArgoCD на 600 приложениях

Как организовать репозитории, sync waves, secret management и rollback на больших инсталляциях.

10 мин·П. И.
MLOps

Feature stores в реальной жизни: офлайн/онлайн консистентность за 5 шагов

Архитектура с Feast + Redis + BigQuery, проверка консистентности и обработка сбоев.

14 мин·М. Соколов
Terraform

Terraform Stacks vs Terragrunt: что выбрать в 2026?

Разбираем плюсы, минусы и сценарии использования двух подходов к организации Terraform-проектов.

9 мин·А. Терехов
Security

Vault Dynamic Secrets для PostgreSQL: ротация без даунтайма

Полная конфигурация Vault DB engine с примерами для приложения, K8s и legacy сервисов.

11 мин·А. Б.
Observability

OpenTelemetry vs Datadog APM: миграция enterprise-приложения

Опыт замены Datadog Agent на vendor-neutral OTel-стек: экономия 4.2 млн ₽/год при тех же возможностях.

13 мин·Р. А.
FinOps

Spot Instances в production: как сэкономить 73% на K8s

Karpenter + spot consolidation + PDB strategy. Реальные цифры и кейс из ритейла.

8 мин·В. Р.
Incident

Post-mortem: каскадный отказ из-за liveness probe

Разбор реального инцидента 2024 года: 14 минут downtime из-за неаккуратной конфигурации probe.

7 мин·Е. Воронова

Подписаться на технический дайджест

Раз в две недели — лучшее из мира DevOps/MLOps. Без воды, без рекламы, без кликбейта.