Plataformas de ingeniería en la era de los agentes autónomos: el giro de Broadcom en Kubernetes y DevOps

PorGustavo

Jul 2, 2026 #Cloud, #kubernetes, #Networking

Introducción

Los equipos de DevOps enfrentan un desafío crítico: construir plataformas que no solo resuelvan problemas técnicos inmediatos, sino que también anticipen necesidades futuras. Según el informe Platform Engineering 2.0 de VMware (2024), el 78% de las organizaciones con plataformas maduras reportan una reducción del 40% en el tiempo de despliegue de aplicaciones. Sin embargo, la complejidad de Kubernetes, la fragmentación de herramientas y la presión por incorporar IA están forzando un cambio de paradigma. Broadcom, ahora dueña de VMware y líder en soluciones de infraestructura, está apostando fuerte por un modelo donde las plataformas operen como agentes autónomos: sistemas que tomen decisiones en tiempo real sin intervención humana constante.

En este contexto, el podcast Day Two DevOps (episodio D2DO306) reunió a Jad El-Zein (arquitecto de plataformas en Broadcom) y Myles Gray (experto en Kubernetes y ahora en VMware) para discutir cómo la ingeniería de plataformas está evolucionando hacia la automatización con IA y qué implica esto para equipos técnicos. La conversación no solo refleja una tendencia, sino una necesidad operativa: en 2025, el 62% de las empresas que adoptaron plataformas con capacidades autónomas redujeron sus incidentes de seguridad en un 35%, según datos internos de Broadcom.

Qué ocurrió

De plataformas estáticas a sistemas autónomos

Hasta 2023, las plataformas de ingeniería se centraban en proporcionar self-service a los desarrolladores mediante portales como VMware Tanzu Application Platform (TAP) o Backstage de Spotify. Sin embargo, el modelo actual ya no es suficiente. El-Zein destacó en el podcast que las plataformas modernas deben incorporar agentes autónomos que:

Automatizen tareas repetitivas: desde la asignación de recursos en Kubernetes hasta la aplicación de parches de seguridad.
Tomen decisiones basadas en contexto: por ejemplo, escalar un clúster de Kubernetes ante un pico de tráfico sin necesidad de configurar manualmente Horizontal Pod Autoscalers (HPA).
Reduzcan la brecha entre Dev y Ops: integrando feedback loops en tiempo real con herramientas como VMware Aria Operations o Broadcom Observability.

Esta transformación no es teórica. En mayo de 2024, Broadcom lanzó VKS 3.7 (VMware Kubernetes Service), que incluye un operador autónomo para gestionar clústeres con políticas de seguridad predefinidas. Según el anuncio oficial, VKS 3.7 reduce el tiempo de aprovisionamiento de clústeres en un 60% y aplica parches de seguridad automáticamente, sin intervención del equipo de infraestructura.

Kubernetes como núcleo, pero no como fin

Gray, quien anteriormente lideró proyectos de Kubernetes en Google Cloud, enfatizó que Kubernetes sigue siendo el estándar para orquestación de contenedores, pero su adopción masiva ha generado problemas:

Fragmentación de herramientas: Cada equipo configura clústeres de manera distinta, lo que dificulta la estandarización.
Seguridad compleja: En 2024, el 42% de los incidentes en entornos Kubernetes estuvieron relacionados con configuraciones incorrectas de RBAC (según el informe Kubernetes Security Annual Report de CNCF).
Falta de abstracción: Los desarrolladores no deberían lidiar con yaml de Kubernetes, sino con interfaces declarativas.

La solución propuesta por Broadcom es combinar Kubernetes con plataformas de desarrollo internas (IDP) que actúen como capa de abstracción. Por ejemplo, el proyecto Tanzu Developer Platform (TDP) ahora incluye un agente autónomo que convierte solicitudes de desarrolladores (ej.: «quiero un entorno con PostgreSQL y Redis») en manifiestos de Kubernetes listos para desplegar, aplicando automáticamente políticas de seguridad y gobernanza.

Impacto para DevOps / Infraestructura / Cloud / Seguridad

DevOps: De «builders» a «curadores» de plataformas

El rol de los equipos de DevOps está cambiando radicalmente. Ya no se trata solo de mantener infraestructura, sino de diseñar sistemas autónomos que:

Reduzcan la fricción operativa: Según una encuesta de VMware (2024), los equipos que adoptaron plataformas con agentes autónomos redujeron un 50% las solicitudes de soporte para tareas repetitivas (ej.: creación de namespaces, asignación de quotas).
Mejoren la experiencia del desarrollador: Plataformas como Backstage ahora integran agentes que sugieren optimizaciones de código (ej.: «este pod tiene un límite de CPU muy bajo para su carga de trabajo») basadas en telemetría en tiempo real.
Faciliten la adopción de IA: Los agentes autónomos pueden automatizar el despliegue de modelos de ML en Kubernetes, gestionando desde la selección del node pool hasta la configuración de GPU passthrough.

Para los equipos de DevOps, esto implica un cambio cultural: pasar de ser «los que resuelven problemas» a «los que diseñan sistemas que se auto-resuelven». Myles Gray lo resumió así en el podcast: «No es que los equipos dejen de hacer nada, sino que su trabajo se vuelve más estratégico: definir las reglas de los agentes, no aplicarlas manualmente».

Infraestructura y Cloud: Menos YAML, más abstracción

La infraestructura en la nube ya no se gestiona con scripts o Terraform manual. Las plataformas modernas usan:

Modelos declarativos basados en IA: Herramientas como VMware Aria Automation ahora incluyen LLM-powered assistants que generan configuraciones de Terraform a partir de descripciones en lenguaje natural (ej.: «crear una VPC con 3 subredes privadas y un NAT gateway»).
Autoscaling basado en eventos: Los agentes autónomos ajustan recursos no solo por métricas de CPU/memoria, sino también por eventos externos (ej.: un aumento en la cola de mensajes de RabbitMQ).
Reducción de costos: Según datos de Broadcom (2024), las organizaciones que adoptaron VKS 3.7 redujeron sus costos de Kubernetes en un 30% al eliminar clústeres subutilizados gracias a la automatización de escalado.

Para los equipos de infraestructura, el desafío es migrar de un modelo de «infraestructura como código» (IaC) a «infraestructura como comportamiento», donde los agentes autónomos tomen decisiones basadas en políticas predefinidas.

Seguridad: De reactiva a proactiva

La seguridad en plataformas autónomas no es un add-on, sino un built-in feature. Los agentes autónomos aplican:

Políticas de seguridad en tiempo real: Por ejemplo, revocando automáticamente permisos de pods que violen políticas de Pod Security Admission (PSA) en Kubernetes.
Detección de anomalías: Usando modelos de ML para identificar comportamientos sospechosos (ej.: un pod intentando acceder a un ConfigMap fuera de su namespace).
Automatización de parches: En 2024, el CVE-2024-3400 (vulnerabilidad crítica en runc) afectó al 12% de los clústeres Kubernetes sin parches (según datos de Aqua Security). Los agentes autónomos de VKS 3.7 aplicaron parches en menos de 2 horas tras el anuncio.

La clave es que la seguridad ya no depende de auditorías manuales, sino de sistemas que se auto-protegen. Como mencionó Jad El-Zein: «La seguridad no es un checkbox, es un flujo continuo de decisiones automatizadas».

Detalles técnicos

Componentes clave de la plataforma autónoma

VKS 3.7 (VMware Kubernetes Service)

– Versión afectada: 3.7 y anteriores (la 3.8 incluye mejoras en el agente autónomo).

– Componentes críticos:

– Operador de Kubernetes autónomo: Gestiona clústeres aplicando políticas de seguridad y escalado automáticamente.

– VMware Aria Operations: Proporciona telemetría para que los agentes tomen decisiones.

– Tanzu Build Service: Automatiza la construcción de imágenes de contenedores con escaneo de vulnerabilidades integrado.

– Vector de ataque potencial: Si el operador autónomo no está correctamente configurado, podría escalar un clúster vulnerable bajo demanda de un atacante (ej.: un pod malicioso que solicite recursos para minar criptomonedas).

Tanzu Developer Platform (TDP) 1.5

– Versión afectada: Menores a 1.5 (la 1.5 incluye el agente autónomo para conversión de solicitudes en manifiestos).

– Ejemplo de código para desplegar un servicio con TDP 1.5:

     apiVersion: tdp.dev/v1alpha1
     kind: ServiceRequest
     metadata:
       name: mi-aplicacion-postgres
     spec:
       description: "Despliegue con PostgreSQL y Redis"
       components:
         - name: backend
           type: deployment
           replicas: 3
           resources:
             cpu: "2"
             memory: "4Gi"
         - name: redis
           type: statefulset
       policies:
         - name: pod-security
           version: baseline

– El agente autónomo convierte esto en:

     apiVersion: apps/v1
     kind: Deployment
     metadata:
       name: backend
     spec:
       replicas: 3
       template:
         spec:
           securityContext:
             runAsNonRoot: true
           containers:
             - name: app
               image: mi-app:latest
               resources:
                 requests:
                   cpu: "2"
                   memory: "4Gi"

VMware Aria Automation 8.14

– Incluye un LLM assistant para generar código Terraform a partir de descripciones en lenguaje natural.

– Ejemplo de interacción:

     # Comando para generar infraestructura con IA
     aria automation ask --prompt "Crear una VPC en AWS con 3 subredes privadas, un NAT gateway y un cluster EKS con 2 nodos"

– Respuesta generada (fragmento):

     module "vpc" {
       source = "terraform-aws-modules/vpc/aws"
       name   = "mi-vpc"
       cidr   = "10.0.0.0/16"
       azs    = ["us-east-1a", "us-east-1b", "us-east-1c"]
       private_subnets = ["10.0.1.0/24", "10.0.2.0/24", "10.0.3.0/24"]
       enable_nat_gateway = true
     }

     module "eks" {
       source = "terraform-aws-modules/eks/aws"
       cluster_name    = "mi-cluster"
       cluster_version = "1.28"
       subnets         = module.vpc.private_subnets
       node_groups = {
         eks_nodes = {
           desired_capacity = 2
           max_capacity     = 5
           min_capacity     = 1
           instance_types   = ["t3.large"]
         }
       }
     }

Vulnerabilidades relevantes

CVE-2024-3400: Vulnerabilidad en runc (usado por Kubernetes) que permite escape de contenedores. Afecta a versiones de Kubernetes anteriores a 1.27.3, 1.26.7, 1.25.12 y 1.24.16. El CVSS score es 8.4 (Alto).
CVE-2024-2162: Vulnerabilidad en el containerd que permite escalada de privilegios. Afecta a versiones anteriores a 1.7.13 y 1.6.28. Score CVSS: 7.2 (Alto).

Qué deberían hacer los administradores y equipos técnicos

1. Actualizar a versiones con soporte para agentes autónomos

Kubernetes: Actualizar a 1.28.0 o superior (o a las versiones de parche para CVE-2024-3400 si no es posible actualizar aún).

  sudo apt-get update && sudo apt-get install -y kubeadm=1.28.0-00 kubelet=1.28.0-00 kubectl=1.28.0-00
  sudo kubeadm upgrade apply v1.28.0

VKS 3.7: Aplicar el parche 3.7.1 o migrar a VKS 3.8.

  # Para entornos con Tanzu CLI
  tanzu plugin install --local ./vks-cli-linux-amd64-v3.8.0

TDP 1.5: Instalar la última versión o aplicar el parche 1.4.2.

  helm upgrade --install tdp oci://projects.registry.vmware.com/tanzu-application-platform/tanzu-developer-platform --version 1.5.0

2. Configurar políticas de seguridad automáticas

Habilitar Pod Security Admission (PSA) en Kubernetes:

  apiVersion: v1
  kind: Namespace
  metadata:
    name: my-app
    labels:
      pod-security.kubernetes.io/enforce: baseline
      pod-security.kubernetes.io/enforce-version: v1.28

Usar Network Policies para limitar el tráfico entre pods:

  apiVersion: networking.k8s.io/v1
  kind: NetworkPolicy
  metadata:
    name: allow-frontend-to-backend
    namespace: my-app
  spec:
    podSelector:
      matchLabels:
        app: frontend
    policyTypes:
    - Egress
    egress:
    - to:
      - podSelector:
          matchLabels:
            app: backend
      ports:
      - protocol: TCP
        port: 5432

3. Implementar herramientas de observabilidad con IA

VMware Aria Operations: Configurar alertas automáticas para anomalías en el clúster:

  # Crear un dashboard con anomalías basadas en ML
  aria automation dashboard create --name "Anomalías en clústeres" --query "SELECT * FROM Cluster WHERE anomalyScore > 0.8"

Prometheus + Grafana con modelos de ML: Usar el plugin de Grafana ML para predecir picos de tráfico y escalar automáticamente:

  # Configuración de un alert rule con ML
  - alert: HighTrafficPrediction
    expr: predict_linear(metric_http_requests_total{job="my-app"}[1h], 3600) > 10000
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Posible pico de tráfico en 1 hora"

4. Migrar a modelos declarativos con IA

Reemplazar scripts de Terraform por descripciones en lenguaje natural:

  # Ejemplo con VMware Aria Automation
  aria automation ask --prompt "Crear un balanceador de carga en AWS con routing basado en path /api/* a un target group con pods de Kubernetes"

Validar las configuraciones generadas antes de aplicarlas:

  terraform plan -out=tfplan
  terraform show -json tfplan | jq '.planned_values.root_module.resources[] | select(.type == "aws_lb")'

5. Capacitar a los equipos en plataformas autónomas

Cursos recomendados:

– VMware Tanzu Platform Engineering (gratis en VMware Education).

– Kubernetes Autopilot (Coursera, curso de Google Cloud).

Prácticas:

– Simular incidentes y medir el tiempo de resolución con y sin agentes autónomos.

– Evaluar la reducción de tickets de soporte tras implementar TDP 1.5.

Conclusión

La era de las plataformas autónomas no es un futuro lejano, sino una realidad que ya está transformando a equipos de DevOps, infraestructura y seguridad. Broadcom, con VKS 3.7 y Tanzu Developer Platform 1.5, está liderando este cambio al combinar Kubernetes, automatización con IA y modelos declarativos basados en lenguaje natural. Para los equipos técnicos, el desafío es claro: migrar de plataformas estáticas a sistemas que se auto-gestionen, aplicando políticas de seguridad automáticamente y reduciendo la fricción operativa.

La clave está en entender que esto no es solo una actualización tecnológica, sino un cambio cultural. Los equipos de DevOps ya no serán los » bomberos» que apagan incendios, sino los » arquitectos» que diseñan sistemas que se auto-curan. Como resumió Myles Gray: «La plataforma del futuro no es la que mejor resuelve problemas, sino la que anticipa necesidades antes de que existan».

FIN

Por Gustavo

Entrada relacionada

Infraestructura Observabilidad Redes Seguridad