ARTICULO
Introducción
Si tu equipo de DevOps necesita integrar IA en su flujo diario sin sacrificar seguridad ni escalabilidad, este artículo te muestra cómo Cloudflare implementó una pila completa de ingeniería de IA que hoy procesa 241 mil millones de tokens mensuales con 3.683 usuarios internos activos. La clave está en usar los mismos productos que ofrecés al mercado: AI Gateway para enrutamiento centralizado, Workers AI para inferencia low-latency y Cloudflare Access para autenticación Zero Trust.
Esta guía cubre el diseño real de su stack, con comandos exactos para replicar:
- Un proxy Worker que centraliza autenticación y enrutamiento a múltiples proveedores
- Configuración de AI Gateway para gestión de costos y BYOK (Bring Your Own Keys)
- Implementación de Workers AI con modelos open-source como Kimi K2.5
- Integración de MCP (Model Context Protocol) con autenticación OAuth2
Qué es y para qué sirve
Una pila de ingeniería de IA interna debe resolver cuatro problemas críticos:
- Autenticación unificada: Todos los usuarios (desde desarrolladores hasta agentes automatizados) deben autenticarse mediante Zero Trust.
- Enrutamiento inteligente: Cada request a un LLM debe pasar por un gateway que aplique políticas de costos, retención de datos y selección de proveedor.
- Inferencia eficiente: Usar modelos open-source en Workers AI evita latencias cruzadas entre clouds y reduce costos en un 77% vs. modelos propietarios.
- Sandboxing seguro: Ejecutar código generado por IA en entornos aislados (Durable Objects) para prevenir fugas de datos o ejecuciones maliciosas.
Cloudflare resolvió estos puntos con:
- AI Gateway: Un proxy que recibe requests desde clientes MCP (OpenCode, Windsurf) y los redirige a proveedores como Frontier Labs, Google AI Studio o Workers AI.
- Workers AI: Servidor de inferencia serverless que corre modelos open-source (como Kimi K2.5) en GPUs globales, evitando salidas de red.
- Cloudflare Access: Autenticación Zero Trust basada en JWT firmado por
cloudflared, integrada con SSO corporativo.
El resultado es una arquitectura donde todos los componentes son productos oficiales de Cloudflare, lo que simplifica mantenimiento y escalado.
Prerequisitos
Para replicar este stack necesitarás:
| Componente | Versión mínima | Requisitos adicionales |
|---|---|---|
| Cloudflare Account | N/A | Dominio propio (ej: BLOCK16 ) y zona DNS configurada |