Услуги — iTeam

01 · CI/CD

Конвейеры непрерывной поставки enterprise-уровня

Стандартизируем релизный процесс: от коммита до production за минуты, с автоматическими проверками безопасности, тестами и rollback'ом по метрикам.

GitOps архитектура с ArgoCD / Flux
Multi-environment promotion (dev → stage → canary → prod)
Автоматический rollback по SLI/error-rate
Container scanning (Trivy), SBOM (Syft), подпись (Cosign)
Branch deploys и preview environments
Интеграция с ServiceNow / Jira / Slack

.gitlab-ci.yml · pipeline

# progressive delivery с автоматическим gate'ингом
stages:
  - test
  - build
  - security
  - deploy:canary
  - deploy:prod

canary:
  stage: deploy:canary
  script:
    - argocd app sync $APP --revision $CI_COMMIT_SHA
    - kubectl rollout status deploy/$APP -n canary
    - ./check_slo.sh --window 5m --max-error-rate 0.5%
  when: on_success

prod:
  stage: deploy:prod
  needs: ["canary"]
  script: argocd app sync prod-$APP
  environment:
    name: production
    url: https://$APP.iteam.site

02 · Kubernetes

Production-ready Kubernetes кластеры

Разворачиваем и поддерживаем кластеры любого масштаба: от стартапа на одном узле до enterprise в нескольких регионах с миллионами запросов в секунду.

Multi-tenant изоляция (namespaces, NetworkPolicies)
Service mesh: Istio, Linkerd, Cilium с mTLS
Horizontal/Vertical/Cluster autoscaling
Secret management через Vault / External Secrets Operator
Backup & DR (Velero, Restic, S3 cross-region)
Cost optimization через Karpenter и Spot Instances

deployment.yaml · golden template

apiVersion: apps/v1
kind: Deployment
spec:
  replicas: 3
  strategy: { rollingUpdate: { maxSurge: 1, maxUnavailable: 0 } }
  template:
    spec:
      topologySpreadConstraints:
        - maxSkew: 1
          topologyKey: zone
          whenUnsatisfiable: ScheduleAnyway
      containers:
        - resources:
            requests: { cpu: "200m", memory: "256Mi" }
            limits:   { cpu: "1000m", memory: "1Gi" }
          readinessProbe: { httpGet: { path: /healthz } }
          livenessProbe:  { httpGet: { path: /alive } }
          securityContext:
            runAsNonRoot: true
            readOnlyRootFilesystem: true
            allowPrivilegeEscalation: false

03 · MLOps

ML-пайплайны от обучения до A/B-теста на проде

Делаем из ML-команды инжиниринговую функцию: модели вылетают в прод так же надёжно и быстро, как обычный код. Без «работало в Jupyter».

Feature store (Feast / Hopsworks) с офлайн/онлайн консистентностью
Versioning данных (DVC) и моделей (MLflow Registry)
Distributed training на K8s (Kubeflow, Ray)
Shadow deploys и канареечные A/B-тесты с бизнес-метриками
Drift detection и автоматический re-training
GPU autoscaling для inference (NVIDIA Triton, KServe)

train.py · MLflow tracking

import mlflow, mlflow.pytorch
mlflow.set_tracking_uri("https://mlflow.iteam.site")

with mlflow.start_run(run_name=run_id) as run:
    mlflow.pytorch.autolog()
    # auto-logs params, metrics, artifacts

    train_ds, val_ds = load_features(version="2026.05")
    model = RankNet(dim=256, layers=4)
    metrics = train_loop(model, train_ds, epochs=12)

    eval_(model, val_ds)

    if metrics["ndcg@10"] > 0.74:
        mlflow.register_model(
            f"runs:/{run.info.run_id}/model",
            "recsys-prod",
        )

04 · Infrastructure as Code

Вся инфраструктура — версионируемый код

Никаких «кликов в консоли». Каждое изменение проходит через PR с peer review, automated tests и planned apply. Откат — git revert.

Terraform / Terragrunt модули корпоративного качества
Pulumi для команд, предпочитающих TypeScript / Python
Crossplane: K8s API над любым облаком
Ansible для конфигурации серверов и edge-устройств
State management: S3 + DynamoDB lock + encryption
Drift detection: автоматический weekly check vs Git

main.tf · production module

module "eks" {
  source  = "terraform-aws-modules/eks/aws"
  version = "~> 20.0"

  cluster_name    = "prod-eu-c1"
  cluster_version = "1.30"

  eks_managed_node_groups = {
    workers = {
      instance_types = ["m6i.xlarge"]
      min_size     = 3
      max_size     = 12
      desired_size = 3
    }
  }
  cluster_addons = {
    vpc-cni            = { most_recent = true }
    aws-ebs-csi-driver = { most_recent = true }
  }
}

05 · Observability & SRE

Знать, что происходит — раньше пользователей

Метрики, логи, трассировки, профили — всё в едином стеке. SLI/SLO определены и связаны с бизнес-целями. Алерты не ложные.

Метрики: Prometheus + Thanos / Mimir для долгосрочного хранения
Логи: Loki / OpenSearch с retention policies
Трейсы: Tempo / Jaeger с auto-instrumentation
RUM: Real User Monitoring через Sentry / Faro
Synthetic checks: Blackbox / k6 / DataDog Synthetics
Incident response: PagerDuty / Opsgenie с ESC ladder

slo.yaml · OpenSLO

apiVersion: openslo/v1
kind: SLO
metadata:
  name: api-availability
spec:
  service: api
  indicator:
    spec:
      ratioMetric:
        good:  { expr: 'http_requests{code!~"5.."}' }
        total: { expr: 'http_requests' }
  objectives:
    - target: 0.9999      # 99.99% requests OK
      window:    30d
  alertPolicies:
    - burnRate: 14.4      # exhaust 5% in 1h → page
      window:    1h
    - burnRate: 3.0
      window:    6h

06 · Security & Compliance

Безопасность встроена, а не приклеена

Shift-left security: проверки в IDE, в pre-commit, в CI, в admission controller, в runtime. Соответствие 152-ФЗ, ФСТЭК, GDPR, SOC 2.

Hashicorp Vault: secret management и dynamic credentials
Container hardening: distroless образы, read-only FS
OPA / Gatekeeper: policy-as-code
Runtime: Falco / Tetragon для поведенческого мониторинга
SCA: Trivy / Snyk / Dependency-track
Audit: ELK + неизменяемые логи в S3 с Object Lock

policy.rego · OPA

# запрещаем :latest и privileged в проде
package kubernetes.admission

deny[msg] {
  input.request.kind.kind == "Pod"
  c := input.request.object.spec.containers[_]
  endswith(c.image, ":latest")
  msg := sprintf("image %v uses :latest", [c.image])
}

deny[msg] {
  input.request.kind.kind == "Pod"
  input.request.namespace == "production"
  c := input.request.object.spec.containers[_]
  c.securityContext.privileged == true
  msg := "privileged containers forbidden in prod"
}

Полный цикл DevOps & MLOps инжиниринга

Конвейеры непрерывной поставки enterprise-уровня

Production-ready Kubernetes кластеры

ML-пайплайны от обучения до A/B-теста на проде

Вся инфраструктура — версионируемый код

Знать, что происходит — раньше пользователей

Безопасность встроена, а не приклеена

Прозрачный инжиниринговый процесс

Discovery & Audit

Design

Implementation

Operate & Optimize

Не нашли подходящего формата работы?