Pular para o conteúdo principal

Declaração do Problema

Estado Atual — Pontos de Dor

Provisionamento Lento de Ambientes

As equipes abrem tickets para a equipe de plataforma para criação de namespaces, RBAC, pipelines de CI/CD e recursos de nuvem. O tempo médio de espera é de 2 a 5 dias por solicitação. O bootstrap de um novo serviço exige de 8 a 15 etapas manuais em múltiplas ferramentas.

Drift de Nomenclatura e Configuração

Cada equipe nomeia namespaces, labels e aplicações do ArgoCD de forma diferente. Não existe um conjunto padrão de labels — Kubernetes, ArgoCD e Backstage não conseguem fazer referência cruzada de cargas de trabalho sem mapeamento manual. Incidentes demoram mais para serem diagnosticados porque não existe uma fonte única da verdade para "qual serviço é dono desse namespace".

Ausência de Self-Service para Desenvolvedores

Os desenvolvedores não têm visibilidade sobre o que possuem, o que depende do quê ou a saúde dos seus serviços nos diferentes ambientes. Toda pergunta entre ambientes passa pelo Slack ou JIRA para a equipe de plataforma.

Sprawl de Infraestrutura

Recursos de nuvem (bancos de dados, clusters, filas) são provisionados de forma ad-hoc via scripts Terraform sem inventário central. Recursos abandonados acumulam custo. A exclusão acidental de recursos de produção já ocorreu.

Fricção no Onboarding

Novos engenheiros passam de 1 a 3 dias para obter acesso aos clusters, repositórios e ferramentas corretos. Os limites de papéis e permissões não são documentados e são aplicados de forma inconsistente.

Causas Raiz

  1. Nenhuma convenção única de nomenclatura de recursos entre os sistemas
  2. Nenhum caminho self-service — todo provisionamento requer intervenção da equipe de plataforma
  3. Nenhum catálogo para descobrir o que existe, quem é o dono e o estado atual
  4. O estado da infraestrutura fica em arquivos de estado do Terraform, não no Kubernetes — sem reconciliação contínua ou detecção de drift
  5. O RBAC é aplicado por pessoa em vez de por grupo, tornando o offboarding propenso a erros