Declaração do Problema
Estado Atual — Pontos de Dor
Provisionamento Lento de Ambientes
As equipes abrem tickets para a equipe de plataforma para criação de namespaces, RBAC, pipelines de CI/CD e recursos de nuvem. O tempo médio de espera é de 2 a 5 dias por solicitação. O bootstrap de um novo serviço exige de 8 a 15 etapas manuais em múltiplas ferramentas.
Drift de Nomenclatura e Configuração
Cada equipe nomeia namespaces, labels e aplicações do ArgoCD de forma diferente. Não existe um conjunto padrão de labels — Kubernetes, ArgoCD e Backstage não conseguem fazer referência cruzada de cargas de trabalho sem mapeamento manual. Incidentes demoram mais para serem diagnosticados porque não existe uma fonte única da verdade para "qual serviço é dono desse namespace".
Ausência de Self-Service para Desenvolvedores
Os desenvolvedores não têm visibilidade sobre o que possuem, o que depende do quê ou a saúde dos seus serviços nos diferentes ambientes. Toda pergunta entre ambientes passa pelo Slack ou JIRA para a equipe de plataforma.
Sprawl de Infraestrutura
Recursos de nuvem (bancos de dados, clusters, filas) são provisionados de forma ad-hoc via scripts Terraform sem inventário central. Recursos abandonados acumulam custo. A exclusão acidental de recursos de produção já ocorreu.
Fricção no Onboarding
Novos engenheiros passam de 1 a 3 dias para obter acesso aos clusters, repositórios e ferramentas corretos. Os limites de papéis e permissões não são documentados e são aplicados de forma inconsistente.
Causas Raiz
- Nenhuma convenção única de nomenclatura de recursos entre os sistemas
- Nenhum caminho self-service — todo provisionamento requer intervenção da equipe de plataforma
- Nenhum catálogo para descobrir o que existe, quem é o dono e o estado atual
- O estado da infraestrutura fica em arquivos de estado do Terraform, não no Kubernetes — sem reconciliação contínua ou detecção de drift
- O RBAC é aplicado por pessoa em vez de por grupo, tornando o offboarding propenso a erros