La plataforma de IA de Cloudflare: una capa de inferencia para agentes
(blog.cloudflare.com)- Construye una capa de inferencia unificada que integra diversos modelos y proveedores para reducir la complejidad de las aplicaciones agentivas
- A través de AI Gateway y Workers AI, permite invocar más de 70 modelos y más de 12 proveedores con una sola API, y gestionar de forma centralizada los costos y el uso
- Admite la ejecución de modelos basados en contenedores usando la tecnología Cog de Replicate para que los usuarios puedan implementar directamente modelos personalizados
- Aprovecha la infraestructura en 330 ciudades de todo el mundo para minimizar la latencia y garantiza una inferencia estable con enrutamiento automático ante fallas
- El equipo de Replicate se unió a Cloudflare para integrar por completo el hosting y el despliegue de modelos, ampliándose hacia una plataforma única para el desarrollo de agentes
Resumen de Cloudflare AI Platform
- La rápida evolución de los modelos de IA y las diferencias entre proveedores aumentan la complejidad de las aplicaciones agentivas que combinan varios modelos
- Por ejemplo, un agente de atención al cliente puede usar un modelo rápido para clasificar mensajes, un modelo grande para planificar y un modelo liviano para ejecutar
- Es necesario gestionar de forma unificada el costo, la confiabilidad y la latencia sin depender de un solo proveedor
- Cloudflare construyó una capa de inferencia unificada basada en AI Gateway y Workers AI, con la que todos los modelos pueden llamarse mediante una sola API
- Recientemente añadió una renovación del panel, configuración automática del gateway predeterminado, reintentos automáticos ante fallas upstream y controles de logging más granulares
Un catálogo, un endpoint unificado
- Mediante el binding AI.run(), es posible llamar directamente modelos de terceros (OpenAI, Anthropic, etc.) desde Cloudflare Workers
- Al cambiar de un modelo alojado por Cloudflare a uno de terceros, solo hace falta modificar una línea de código
- También habrá soporte para REST API próximamente, lo que permitirá acceder al catálogo completo de modelos desde cualquier entorno
- Se pueden usar más de 70 modelos y más de 12 proveedores con una sola API y una sola unidad de facturación
- Proveedores principales: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Incluye modelos de imagen, video y voz, lo que permite crear aplicaciones multimodales
- Todas las llamadas a modelos se integran en una sola API, lo que permite gestionar de forma centralizada el uso de IA y los costos
- En promedio, las empresas llaman 3.5 modelos de varios proveedores, pero AI Gateway permite rastrearlo desde un solo panel
- En cada solicitud se puede incluir metadata personalizada para analizar costos por cliente o por flujo de trabajo
Despliegue directo de modelos propios (Bring Your Own Model)
- AI Gateway integra modelos de todos los proveedores, pero también se prepara para permitir el despliegue directo de modelos ajustados con datos del usuario
- Actualmente, clientes empresariales ya ejecutan modelos personalizados en instancias dedicadas, y se planea extenderlo a usuarios generales
- Cloudflare usa la tecnología Cog de Replicate para contenerizar modelos de machine learning
- Si se definen las dependencias en el archivo
cog.yamly se escribe el código de inferencia enpredict.py, el empaquetado se realiza automáticamente - Cog abstrae configuraciones complejas como CUDA, versiones de Python y carga de pesos
- Si se definen las dependencias en el archivo
- Tras construir una imagen de contenedor con el comando
cog buildy subirla a Workers AI, Cloudflare se encarga del despliegue y la operación del servicio- Más adelante se ofrecerán comandos de wrangler, arranques en frío rápidos basados en snapshots de GPU y una API para clientes
- Ya se está probando con clientes internos y algunos externos, con planes de ampliarlo para que cualquiera pueda usar sus propios modelos en Workers AI
Optimización de la velocidad hasta el primer token
- La combinación de AI Gateway + Workers AI es especialmente ventajosa para agentes en vivo donde la respuesta en tiempo real es importante
- Incluso si el tiempo total de inferencia es de 3 segundos, que el primer token llegue 50 ms antes mejora la percepción de velocidad del usuario
- Cloudflare minimiza la latencia de red entre el usuario y el endpoint de inferencia mediante centros de datos en 330 ciudades del mundo
- Workers AI aloja modelos open source especializados para agentes, como Kimi K2.5 y modelos de voz en tiempo real
- Al llamarlos mediante AI Gateway, el código y la inferencia se ejecutan en la misma red para lograr la latencia más baja posible
Confiabilidad basada en failover automático
- Los flujos de trabajo de agentes tienen una alta dependencia entre etapas, por lo que la estabilidad de la inferencia es clave
- Si el mismo modelo existe en varios proveedores, AI Gateway lo enruta automáticamente a otro proveedor cuando uno falla
- Los desarrolladores no necesitan escribir lógica de manejo de fallas por separado
- En el caso de agentes de larga duración que usan Agents SDK, la inferencia en streaming puede recuperarse incluso si se corta la conexión
- AI Gateway almacena en buffer las respuestas en streaming de forma independiente, por lo que tras una reconexión puede reutilizar la misma respuesta
- Recupera los mismos tokens sin cobro duplicado y, al combinarse con la función de checkpoints del SDK, el usuario no percibe la interrupción
Integración con Replicate
- El equipo de Replicate se unió al equipo de Cloudflare AI Platform y avanza hacia una integración total
- Todos los modelos de Replicate se migrarán a AI Gateway, y los modelos alojados se volverán a montar sobre la infraestructura de Cloudflare
- Los usuarios podrán llamar modelos existentes de Replicate desde AI Gateway o alojar en Workers AI los modelos que hayan desplegado en Replicate
Cómo empezar
- Los desarrolladores pueden comenzar en la documentación de AI Gateway o en la documentación de Workers AI
- También pueden crear agentes sobre Cloudflare mediante Agents SDK
El papel de Cloudflare
- Cloudflare, como connectivity cloud, ayuda a proteger redes empresariales, crear aplicaciones a gran escala, acelerar el rendimiento web y ofrecer defensa contra DDoS y seguridad Zero Trust
- Con la app gratuita 1.1.1.1, se puede usar Internet de forma más rápida y segura
- La misión de Cloudflare es construir un mejor Internet, y se puede encontrar más información y vacantes en su sitio web oficial
1 comentarios
Comentarios en Hacker News
Al final, esto parece ser openrouter con Cloudflare Argo networking encima
Siento que podrían hacer algo más interesante aprovechando la adquisición de Replicate
El RL específico para aplicaciones está mejorando cada vez más, pero faltan formas de desplegarlo de manera escalable
Lugares como Fireworks dicen que despliegan LoRA a escala, pero en la práctica no funciona bien
Por eso, por ahora estoy alojando yo mismo la carga base de mi app con varias 3090 en el garaje. Es ridículo, pero me ahorra 1,000 dólares al mes
Esto se ve bastante útil. Cloudflare está juntando muy buenas herramientas
En particular, D2 es prácticamente el único sqlite-as-a-service, además de que tiene buena estabilidad y límites generosos en el plan gratis
Para enlazar una nueva DB hay que volver a desplegar el Worker, así que en realidad es casi imposible
Las consultas se quedan colgadas por varios segundos, y a veces por decenas de segundos, en la capa de red interna
Algunas consultas ni siquiera aparecen en el panel de observabilidad, así que si no agregas tu propia detección de timeouts no te enteras del problema
Tampoco soporta transacciones, y en el hilo del issue un PM dijo que no hay planes de implementarlas
Para garantizar consistencia de datos hay que usar Durable Object, pero eso trae otros costos y trade-offs
La idea es buena, pero es difícil confiar en eso para producción; para proyectos hobby está bien
Ahora mismo solo se puede hacer con código personalizado en un Worker
Cuesta entender que digan que están haciendo OpenRouter mientras solo soportan bindings de su propio runtime
La lista de modelos de Workers AI y el
catálogo de modelos de AI no tienen la misma selección
El namespace “workers-ai/*” tiene muchos menos modelos. Me pregunto si es intencional
“workers-ai/@cf/nvidia/nemotron-3-120b-a12b” no aparecen en el endpoint /models de gateway.ai.cloudflare.com. Pero sí existen como modelos alojados
Yo uso openrouter sin problemas en Cloudflare Workers
También tiene funciones de cascading y waterfalling mucho mejores cuando un modelo está offline
Parece que en V1 eso todavía no se puede
Me gusta tanto todo lo de openrouter que ya casi soy fan
El problema de la capa de inferencia se está resolviendo rápido
Lo siguiente difícil es la capa de gobernanza, o sea, qué puede hacer un agente y cómo probarlo
Me pregunto si Cloudflare también está pensando en esa parte
Me imagino una estructura donde cada agente presenta credenciales RBAC para obtener permisos
Da gusto ver que la adquisición de Replicate por fin está dando resultados
En la página de modelos no se ve información de precios
Me pregunto cuánto más caro es que pagarle directo al proveedor
¿Cloudflare lo estará ofreciendo a precio de costo?
Además, zero data retention no es el valor por defecto, y con algunos proveedores ni siquiera está soportado
También estaría bien poder devolver completions al estilo OpenAI y Anthropic
Por ahora es igual a la tarifa del proveedor, con una pequeña comisión de procesamiento a través de unified billing credits
El soporte para completions al estilo OpenAI/Anthropic también llegará pronto
enlace con la explicación de unified billing
Al final, esto parece ser un servicio similar a openrouter
Es un anuncio bastante grande. Se ve lo suficientemente competitivo como para ser una alternativa a AWS Bedrock
Incluso podría tener mejor uptime que Anthropic o AWS