Кейсы из production-инженерии

Имена клиентов под NDA — публикуем архитектуру, цифры и уроки. Ниже — характерные проекты последних трёх лет.

FinTech · 2024–2025

Платёжный шлюз: 240 RPS → 8 000 RPS, миграция за 9 месяцев

Индустрия
Банковский эквайринг
Команда заказчика
34 разработчика
Облако
AWS eu-central-1, Yandex Cloud
Срок
9 месяцев + 6 мес. Retainer

Контекст

Монолит на PHP + MySQL обрабатывал 240 RPS на 95-м перцентиле, при пиках падал в 502. Регуляторные требования ЦБ заставляли перейти на отказоустойчивую архитектуру в течение года.

Что мы сделали

  • Декомпозиция на 14 микросервисов (Go) с gRPC-коммуникацией через Istio mesh.
  • Event-driven слой на Kafka с exactly-once семантикой через Kafka Streams.
  • Multi-AZ deployment в EKS с Karpenter autoscaling, R/W split на Aurora PostgreSQL.
  • Полная observability: Prometheus + Tempo + Loki, бизнес-SLI/SLO для каждого сервиса.
  • Канареечный CI/CD с автоматическим rollback по error-rate (ArgoCD Rollouts).
  • Disaster-recovery протокол с failover в Yandex Cloud за < 90 секунд.

Чего достигли

Платформа выдержала чёрную пятницу 2025 без единой деградации. Compliance-аудит пройден с первого раза. Заказчик увеличил retainer на ещё 12 месяцев.

33×
RPS на p95
−42%
p99 latency
99.99%
uptime
+18%
infra cost
90 с
RTO
14
микросервисов
AI / ML · 2025

Recsys: вывод модели сократили с 3 недель до 2 дней

Индустрия
E-commerce / маркетплейс
ML-команда
5 инженеров
Облако
GCP us-central1, on-prem GPU
Срок
5 месяцев

Контекст

ML-команда обучала модели в Jupyter, выкатывала вручную через scp + перезапуск контейнеров. Откат проблемной модели занимал часы и требовал участия 3-х человек.

Что мы сделали

  • Feature store на Feast с офлайн (BigQuery) + онлайн (Redis) backend'ами и автоматической консистентностью.
  • MLflow Registry с обязательным подписанием моделей и контролем lineage.
  • Kubeflow Pipelines для distributed training на A100 GPU (spot-узлы Karpenter).
  • KServe для inference с canary-routing 1% → 10% → 100% и автоматическим rollback по бизнес-метрикам.
  • Dashboards в Grafana по NDCG@10, recall@50, latency p99 — открытые всей команде продукта.
  • Drift detection через Evidently с автоматическим re-training trigger.

Чего достигли

Команда стала катить новую версию модели в среднем 2 раза в неделю вместо раза в месяц. Бизнес-метрика основного recsys (CTR) выросла на 14% за квартал.

10×
скорость shipping'а
+0.07
NDCG@10
+14%
CTR
95%
automated tests
−68%
GPU-часы
Retail · 2024

Multi-region K8s: BCP и оптимизация стоимости

Индустрия
Сетевая розница
Команда
20 разработчиков
Облако
AWS (3 региона)
Срок
6 месяцев

Контекст

Падение eu-west-1 в феврале 2024 года стоило заказчику 2 часа downtime и около 14 млн ₽ упущенной выручки. Появилось требование active-active в 3 регионах с RTO < 1 минуты.

Что мы сделали

  • Active-active K8s в eu-central, eu-west, us-east с anycast DNS на Route 53.
  • PostgreSQL с репликацией через Patroni и Aurora Global Database (read-replicas).
  • Перенос non-critical workloads на спот-инстансы с Karpenter (consolidation enabled).
  • Автоматический failover тест каждое воскресенье в 04:00 UTC через Chaos Mesh.
  • Cost-allocation tags во всём IaC с дашбордом FinOps для CFO.

Чего достигли

Реальный failover произошёл в августе 2024 года при падении eu-west-1 — пользователи не заметили. Compute стоимость снизилась на 73% за счёт спотов.

−73%
compute cost
3
регионов
28 с
RTO
0 с
видимый downtime
SaaS · 2025

Observability: алертная усталость → осмысленный on-call

Индустрия
B2B SaaS, видеоконференции
Команда
60 разработчиков
Стек
K8s, Prometheus, Tempo, Loki
Срок
3 месяца

Контекст

Команда получала ~340 алертов в неделю через PagerDuty. 78% — false positive. Текучка SRE — 2 человека за полгода.

Что мы сделали

  • Внедрили SLI/SLO модель (Google SRE подход): для каждого user-facing сервиса определены availability, latency и quality SLI.
  • Перешли с threshold-алертов на burn-rate alerting (multi-window multi-burn-rate).
  • Полная остановка алертов на staging — только метрики и дашборды.
  • Runbooks написаны для каждого алерта, ссылки в самом алерте.
  • Автоматическая блокировка release'ов при истощении error budget.

Чего достигли

Алерты сократились до ~22 в неделю, из них 95% — actionable. On-call перестал быть «мучением» — никто не уволился за следующие 6 месяцев.

−93%
алертов
95%
actionable
0
увольнений (6 мес)
EdTech · 2024

Streaming-платформа: 50k → 800k параллельных учеников

Индустрия
Образование, прямые трансляции
Стек
K8s, WebRTC, Redis, Kafka
Облако
Yandex Cloud + on-prem GPU
Срок
4 месяца

Контекст

Платформа на Node.js с одним инстансом Redis падала на 50k параллельных подключений. Сентябрьский пик (старт учебного года) — −400 000 ₽/час из-за оттока учеников.

Что мы сделали

  • Шардирование Redis Cluster (16 шардов) с Sentinel-failover'ом.
  • SFU-нагрузка на Pion-based Go-сервисах с GPU-ускорением для транскодинга.
  • Автоскейлинг по custom-метрике «active streams» через Keda.
  • CDN на BunnyCDN + анализ путей доставки через Cloudflare Logpush.
  • Постоянное load-testing с k6 в pre-prod, gating release'ов по результатам.

Чего достигли

Платформа без проблем выдержала сентябрьский пик 800k активных учеников. Стоимость на одного активного пользователя снизилась на 41%.

16×
пиковая нагрузка
−41%
cost per user
99.95%
uptime
GovTech · 2025

Импортозамещение: миграция с VMware на on-prem K8s

Индустрия
Госсектор, ЦОД
Стек
Astra Linux, Deckhouse, RuBackup
Стандарты
152-ФЗ, 187-ФЗ, ФСТЭК К1
Срок
11 месяцев

Контекст

Заказчик имел 220 виртуалок на VMware vSphere, лицензии заканчивались, обновлений и поддержки больше нет. Жёсткие требования по гостайне для части workloads.

Что мы сделали

  • Кластер Deckhouse на Astra Linux SE с сертифицированной криптографией.
  • Миграция legacy workloads через KubeVirt (виртуалки внутри K8s).
  • Реестр контейнеров с подписью образов через ГОСТ-совместимый сервис.
  • Backup — RuBackup с шифрованием по ГОСТ Р 34.12-2015.
  • Интеграция с СУиА (системой управления и аутентификации) на базе FreeIPA.
  • Документация и аудит соответствия класса К1 ФСТЭК.

Чего достигли

Платформа сертифицирована, передана команде заказчика. Стоимость владения за 5 лет на 64% ниже, чем продление VMware-лицензий.

220
VM мигрировано
−64%
TCO 5 лет
К1
ФСТЭК класс

У вас похожая задача?

Опишите задачу в письме — пришлём оценку реализуемости и сроков в течение 1 рабочего дня.