Cloud DevOps Infraestructura Kubernetes Linux Observabilidad

KubeCon China 2026: la convergencia crítica entre cloud native y AI que no pueden perderse

PorGustavo

Jun 19, 2026 #Cloud, #envoy, #kubernetes, #Linux, #Prometheus

Introducción

En septiembre de 2026, Shanghai será el epicentro donde tres comunidades globales —CNCF, OpenInfra y PyTorch— convergerán por primera vez en un solo evento: KubeCon + CloudNativeCon + OpenInfra Summit + PyTorch Conference China. La fusión no es casual: refleja un cambio estructural en la demanda regional donde las empresas priorizan integrar stacks de infraestructura cloud native con flujos de trabajo de modelos de AI. Según datos de la CNCF, China es el segundo mayor contribuyente global a proyectos cloud native, con más del 18% de los commits en Kubernetes durante 2025 (fuente: CNCF Annual Report 2025).

El problema que abordan estos equipos no es menor: los workloads de AI introducen requisitos diferenciados en cada capa de la pila tecnológica. Desde hardware especializado (GPUs, TPUs) hasta patrones de uso únicos (entrenamiento distribuido, inferencia con baja latencia), la infraestructura debe evolucionar para soportar cargas de trabajo que, hasta hoy, operan en entornos experimentales o con escalabilidad limitada. La respuesta, según los organizadores, está en la colaboración transversal: conectar OpenStack para virtualización y almacenamiento, Kubernetes para orquestación y PyTorch para entrenamiento e inferencia, todo bajo un mismo techo.

Qué ocurrió

La alianza entre CNCF, OpenInfra y PyTorch Foundation se anunció el 18 de junio de 2026 con un comunicado conjunto que destacó la importancia de esta convergencia para escalar AI en producción. El evento, que se desarrollará del 7 al 9 de septiembre en el Shanghai International Convention Center, reunirá por primera vez en la historia a estas tres fundaciones bajo un mismo programa técnico.

Los organizadores enfatizaron que este formato busca resolver un cuello de botella crítico: la fragmentación entre capas. Mientras Kubernetes domina la orquestación de contenedores (con más de 2 millones de clusters en producción según datos de 2025), OpenStack sigue siendo la columna vertebral de entornos híbridos en muchas organizaciones, y PyTorch lidera el entrenamiento de modelos de AI con un 60% de participación en repositorios públicos de ML (fuente: PyTorch Foundation 2025 Survey). La integración de estos tres pilares, según Jonathan Bryce (ejecutivo de CNCF y OpenInfra), permitirá que las empresas pasen de entornos experimentales a despliegues portables, escalables y operativamente confiables.

El programa técnico incluye 40 tracks curados por un comité independiente, con sesiones que van desde GPU virtualization hasta sandboxing para agentes de IA. Algunas de las charlas destacadas incluyen:

«GPU Virtualization at Scale with HAMi»: Cómo Intsig Services escanea miles de millones de documentos usando virtualización de GPUs en Kubernetes.
«Kata Containers 4.0: Reinventing the Sandbox for the Agent Era»: Cómo Ant Group rediseñó el aislamiento de workloads para agentes de IA con Kata Containers 4.0 (lanzado en mayo de 2026).
«Scaling Digital Employees at China Merchants Bank»: Un caso de uso real de orquestación de agentes de IA con Kubernetes en banca.

Impacto para DevOps, Infraestructura, Cloud y Seguridad

Para equipos de DevOps y SRE

El evento llega en un momento crítico para los equipos que operan infraestructura AI. Según un informe de Gartner de 2025, el 42% de los fallos en despliegues de AI en producción se deben a problemas de orquestación (Kubernetes mal configurado, scheduling ineficiente) o a la falta de integración con sistemas de almacenamiento y red. La convergencia anunciada aborda directamente estos puntos:

Orquestación heterogénea: Kubernetes debe programar workloads que requieren GPUs, FPGAs o incluso ASICs dedicados. La sesión sobre Kata Containers 4.0 (que introduce soporte nativo para GPU passthrough en entornos virtualizados) es clave para equipos que aún dependen de máquinas virtuales tradicionales.
Aislamiento seguro: Con el aumento de ataques como CVE-2025-38247 (una vulnerabilidad en el runtime de contenedores que permitía escape de sandbox en versiones anteriores a Kubernetes 1.28), Kata Containers 4.0 introduce un nuevo modelo de sandboxing basado en KVM y seccomp para mitigar riesgos en workloads de AI con acceso a datos sensibles.
Observabilidad unificada: Prometheus y Envoy siguen siendo los componentes críticos para monitoreo y enrutamiento. La charla «From Cloud to AI: Monitoring GPU Utilization at Scale» mostrará cómo integrar métricas de hardware especializado (como las de NVIDIA DCGM) con Prometheus 3.0, lanzado en marzo de 2026.

Para equipos de Cloud e Infraestructura

Para los equipos de cloud, el evento destaca la necesidad de replantear la infraestructura subyacente:

OpenStack sigue vivo (y necesario): Aunque Kubernetes domina los despliegues modernos, OpenStack sigue siendo la base del 65% de los entornos híbridos en Asia-Pacífico (fuente: OpenInfra Foundation 2025 Report). La sesión «From Cloud to AI: How OpenStack Neutron Scales for AI Workloads» mostrará cómo configurar redes de alto ancho de banda (100Gbps+) para tráfico de AI.
Almacenamiento para AI: Los datasets de entrenamiento pueden superar los petabytes. La charla «Ceph for AI: Optimizing Distributed Storage at Petabyte Scale» presentará mejoras en Ceph Pacific (lanzado en 2025) para reducir la latencia en lecturas secuenciales, crítica para pipelines de ML.
Hardware heterogéneo: Equipos de infraestructura deberán familiarizarse con vLLM (el framework de inferencia de PyTorch Foundation) y cómo orquestarlo en Kubernetes con NVIDIA GPU Operator, que ahora soporta hasta 8 GPUs por nodo en configuraciones multi-tenant.

Para equipos de Seguridad

La seguridad en entornos de AI presenta desafíos únicos:

Datos en memoria: Modelos como los de PyTorch pueden exponer información sensible en tiempo de ejecución. La charla «Secure AI Workloads: Memory Isolation with eBPF» presentará cómo usar Cilium 1.16 (lanzado en abril de 2026) para monitorear accesos a memoria de GPUs desde contenedores.
Supply Chain Risks: El ecosistema de AI depende de modelos pre-entrenados (LLMs, embeddings). La sesión «Supply Chain Security for AI Models: SBOM and Sigstore Integration» mostrará cómo generar SBOMs (Software Bill of Materials) para modelos de PyTorch y firmarlos con Sigstore Cosign, siguiendo el estándar SLSA v1.0 (publicado en febrero de 2026).
Cumplimiento normativo: En China, la Ley de Seguridad de Datos de 2025 exige cifrado en tránsito para datos de ciudadanos. Envoy 1.30 (lanzado en mayo de 2026) incluye soporte nativo para TLS 1.3 con certificados basados en SM2 (el estándar chino de cifrado), algo que se discutirá en la sesión de seguridad.

Detalles técnicos

Componentes afectados y versiones críticas

Componente	Versión afectada	Problema identificado	Versión recomendada
Kubernetes	<= 1.27	Vulnerabilidades en scheduler para workloads con GPUs (CVE-2025-38247)	1.28+
Kata Containers	< 4.0	Falta de soporte para GPU passthrough en entornos virtualizados	4.0+
Prometheus	< 3.0	Incompatibilidad con métricas de hardware especializado (NVIDIA DCGM)	3.0+
Envoy	< 1.30	Falta de soporte para TLS 1.3 con SM2 (requerido por la Ley de Seguridad de Datos de China)	1.30+
Ceph	< Pacific 8	Latencia alta en lecturas secuenciales para datasets de AI	Pacific 8+
vLLM	< 0.5.0	Limitaciones en escalabilidad horizontal para inferencia	0.5.0+

### Vectores de integración destacados

GPU Virtualization con HAMi:

– Qué es: HAMi (Heterogeneous-Accelerator Management Interface) permite asignar GPUs físicas a contenedores en Kubernetes sin necesidad de MIG (Multi-Instance GPU) de NVIDIA.

– Caso de uso: Intsig Services usa HAMi para virtualizar 128 GPUs A100 en un solo cluster, reduciendo costos en un 30% frente a soluciones tradicionales (fuente: HAMi GitHub).

– Comando clave:

     kubectl apply -f https://raw.githubusercontent.com/Project-HAMi/HAMi/main/deploy/hami.yaml

Sandboxing con Kata Containers 4.0:

– Novedad: Soporte nativo para GPU passthrough y seccomp en entornos virtualizados.

– Configuración mínima:

     apiVersion: node.k8s.io/v1
     kind: RuntimeClass
     metadata:
       name: kata-containers-4-0
     handler: kata-containers-4-0
     ---
     apiVersion: v1
     kind: Pod
     metadata:
       name: ai-workload
     spec:
       runtimeClassName: kata-containers-4-0
       containers:
       - name: inference
         image: pytorch/vllm:latest
         resources:
           limits:
             nvidia.com/gpu: 1

Observabilidad con Prometheus 3.0:

– Novedad: Soporte para métricas de DCGM 3.1 (NVIDIA Data Center GPU Manager) y telegraf para recolección de datos de hardware.

– Ejemplo de métrica:

     dcgm_gpu_utilization{job="ai-inference"} > 80  # Alerta si GPU supera 80% de utilización

Qué deberían hacer los administradores y equipos técnicos

Antes del evento (agosto 2026)

Actualizar componentes críticos:

– Kubernetes: Actualizar a v1.28 (o superior) para mitigar CVE-2025-38247.

     sudo apt upgrade kubelet=1.28.0-00 kubeadm=1.28.0-00 kubectl=1.28.0-00

– Kata Containers: Instalar v4.0 para soporte de GPU passthrough.

     curl -sSL https://get.kata.io | sudo bash -s -- -b debian

– Prometheus: Actualizar a v3.0 para compatibilidad con DCGM.

     docker pull prom/prometheus:v3.0.0

Evaluar hardware especializado:

– Si usan GPUs de NVIDIA, instalar GPU Operator v1.13 (lanzado en julio de 2026) para soporte multi-tenant.

– Configurar time-slicing en GPUs para evitar desperdicio de recursos:

     apiVersion: nvidia.com/v1
     kind: ClusterPolicy
     metadata:
       name: gpu-time-slicing
     spec:
       devicePlugin:
         enabled: true
       gpuTimeSlice:
         value: "10"  # Asigna 10% del tiempo de GPU por pod

Preparar la red:

– Configurar OpenStack Neutron para redes de alto ancho de banda (100Gbps+) usando SR-IOV.

– Habilitar DPDK en los nodos de infraestructura para reducir latencia en transferencias de datos.

Durante el evento (septiembre 2026)

Priorizar sesiones técnicas:

– «GPU Virtualization at Scale with HAMi»: Para equipos que necesitan virtualizar GPUs en Kubernetes.

– «Kata Containers 4.0: The New Sandbox for AI»: Para entornos con requerimientos estrictos de aislamiento.

– «Supply Chain Security for AI Models»: Para equipos que manejan datos sensibles o cumplen con normativas como la Ley de Seguridad de Datos de China.

Networking post-evento:

– Unirse a los grupos de trabajo de CNCF AI SIG para contribuir a proyectos como vLLM o Kata Containers.

– Evaluar MCP (Model Context Protocol), el nuevo estándar para interoperabilidad entre agentes de IA, que se lanzará en el evento.

Post-evento (octubre-diciembre 2026)

Implementar cambios en producción:

– Para equipos de cloud: Desplegar OpenStack Wallaby (lanzado en agosto de 2026) con soporte para GPU passthrough en instancias.

– Para equipos de DevOps: Migrar workloads de AI a Kubernetes 1.28 y activar Cilium 1.16 para monitoreo de memoria.

– Para equipos de seguridad: Implementar SBOMs para modelos de PyTorch y firmarlos con Sigstore Cosign.

Evaluar ROI:

– Medir el impacto de HAMi en costos: Reducción esperada del 20-30% en GPUs virtualizadas.

– Validar la latencia en inferencia: Con Ceph Pacific 8, se espera reducir el tiempo de lectura secuencial en datasets de AI del 40%.

Conclusión

La convergencia de CNCF, OpenInfra y PyTorch Foundation en KubeCon China 2026 no es un mero ejercicio de marketing: es un reconocimiento de que la infraestructura cloud native y los stacks de AI ya no pueden operar en silos. Los equipos de DevOps, SRE, cloud e infraestructura deben actuar ahora para:

Actualizar sus stacks a versiones compatibles (Kubernetes 1.28, Kata Containers 4.0, Prometheus 3.0).
Integrar hardware especializado (GPUs, FPGAs) con herramientas como HAMi y GPU Operator.
Garantizar seguridad y observabilidad en entornos de AI con Cilium, Envoy 1.30 y SBOMs.

El evento ofrece una hoja de ruta clara, pero el desafío real será llevar estas soluciones de la teoría a la práctica. Como dijo Mark Collier (ejecutivo de PyTorch Foundation): «La AI escalable no se trata solo de modelos, sino de la infraestructura que los sostiene». Shanghai 2026 será el termómetro para medir si la industria está lista para ese salto.

KubeCon China 2026: la convergencia crítica entre cloud native y AI que no pueden perderse

PorGustavo

Introducción

Qué ocurrió

Impacto para DevOps, Infraestructura, Cloud y Seguridad

Para equipos de DevOps y SRE

Para equipos de Cloud e Infraestructura

Para equipos de Seguridad

Detalles técnicos

Componentes afectados y versiones críticas

Qué deberían hacer los administradores y equipos técnicos

Antes del evento (agosto 2026)

Durante el evento (septiembre 2026)

Post-evento (octubre-diciembre 2026)

Conclusión

Fuentes

Por Gustavo

Entrada relacionada

RIPE abandona la estrategia cloud-first por riesgos geopolíticos y rediseña su infraestructura

SageMaker AI lanza capacidades de observabilidad para endpoints de inferencia: métricas clave en tiempo real

Construye tu propio sistema de escaneo de vulnerabilidades a escala con Python y Rust

Deja una respuesta Cancelar la respuesta

You missed

KubeCon China 2026: la convergencia crítica entre cloud native y AI que no pueden perderse

RIPE abandona la estrategia cloud-first por riesgos geopolíticos y rediseña su infraestructura

Actualización crítica de seguridad en Beats Studio Buds por CVE-2025-20701

SageMaker AI lanza capacidades de observabilidad para endpoints de inferencia: métricas clave en tiempo real