Cómo un equipo de SRE redujo un 85% el tiempo de diagnóstico de alertas en Kubernetes
Introducción En STCLab, un equipo de dos SREs soporta múltiples clusters Amazon EKS en producción con tráfico alto. El stack de observabilidad incluye OpenTelemetry (alimentando Mimir, Loki y Tempo), Prometheus…