La plataforma de IA de Cloudflare: una capa de inferencia para agentes

(blog.cloudflare.com)

2 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp

Construye una capa de inferencia unificada que integra diversos modelos y proveedores para reducir la complejidad de las aplicaciones agentivas
A través de AI Gateway y Workers AI, permite invocar más de 70 modelos y más de 12 proveedores con una sola API, y gestionar de forma centralizada los costos y el uso
Admite la ejecución de modelos basados en contenedores usando la tecnología Cog de Replicate para que los usuarios puedan implementar directamente modelos personalizados
Aprovecha la infraestructura en 330 ciudades de todo el mundo para minimizar la latencia y garantiza una inferencia estable con enrutamiento automático ante fallas
El equipo de Replicate se unió a Cloudflare para integrar por completo el hosting y el despliegue de modelos, ampliándose hacia una plataforma única para el desarrollo de agentes

Resumen de Cloudflare AI Platform

La rápida evolución de los modelos de IA y las diferencias entre proveedores aumentan la complejidad de las aplicaciones agentivas que combinan varios modelos
- Por ejemplo, un agente de atención al cliente puede usar un modelo rápido para clasificar mensajes, un modelo grande para planificar y un modelo liviano para ejecutar
- Es necesario gestionar de forma unificada el costo, la confiabilidad y la latencia sin depender de un solo proveedor
Cloudflare construyó una capa de inferencia unificada basada en AI Gateway y Workers AI, con la que todos los modelos pueden llamarse mediante una sola API
- Recientemente añadió una renovación del panel, configuración automática del gateway predeterminado, reintentos automáticos ante fallas upstream y controles de logging más granulares

Un catálogo, un endpoint unificado

Mediante el binding AI.run(), es posible llamar directamente modelos de terceros (OpenAI, Anthropic, etc.) desde Cloudflare Workers
- Al cambiar de un modelo alojado por Cloudflare a uno de terceros, solo hace falta modificar una línea de código
- También habrá soporte para REST API próximamente, lo que permitirá acceder al catálogo completo de modelos desde cualquier entorno
Se pueden usar más de 70 modelos y más de 12 proveedores con una sola API y una sola unidad de facturación
- Proveedores principales: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
- Incluye modelos de imagen, video y voz, lo que permite crear aplicaciones multimodales
Todas las llamadas a modelos se integran en una sola API, lo que permite gestionar de forma centralizada el uso de IA y los costos
- En promedio, las empresas llaman 3.5 modelos de varios proveedores, pero AI Gateway permite rastrearlo desde un solo panel
- En cada solicitud se puede incluir metadata personalizada para analizar costos por cliente o por flujo de trabajo

Despliegue directo de modelos propios (Bring Your Own Model)

AI Gateway integra modelos de todos los proveedores, pero también se prepara para permitir el despliegue directo de modelos ajustados con datos del usuario
- Actualmente, clientes empresariales ya ejecutan modelos personalizados en instancias dedicadas, y se planea extenderlo a usuarios generales
Cloudflare usa la tecnología Cog de Replicate para contenerizar modelos de machine learning
- Si se definen las dependencias en el archivo cog.yaml y se escribe el código de inferencia en predict.py, el empaquetado se realiza automáticamente
- Cog abstrae configuraciones complejas como CUDA, versiones de Python y carga de pesos
Tras construir una imagen de contenedor con el comando cog build y subirla a Workers AI, Cloudflare se encarga del despliegue y la operación del servicio
- Más adelante se ofrecerán comandos de wrangler, arranques en frío rápidos basados en snapshots de GPU y una API para clientes
- Ya se está probando con clientes internos y algunos externos, con planes de ampliarlo para que cualquiera pueda usar sus propios modelos en Workers AI

Optimización de la velocidad hasta el primer token

La combinación de AI Gateway + Workers AI es especialmente ventajosa para agentes en vivo donde la respuesta en tiempo real es importante
- Incluso si el tiempo total de inferencia es de 3 segundos, que el primer token llegue 50 ms antes mejora la percepción de velocidad del usuario
Cloudflare minimiza la latencia de red entre el usuario y el endpoint de inferencia mediante centros de datos en 330 ciudades del mundo
Workers AI aloja modelos open source especializados para agentes, como Kimi K2.5 y modelos de voz en tiempo real
- Al llamarlos mediante AI Gateway, el código y la inferencia se ejecutan en la misma red para lograr la latencia más baja posible

Confiabilidad basada en failover automático

Los flujos de trabajo de agentes tienen una alta dependencia entre etapas, por lo que la estabilidad de la inferencia es clave
- Si el mismo modelo existe en varios proveedores, AI Gateway lo enruta automáticamente a otro proveedor cuando uno falla
- Los desarrolladores no necesitan escribir lógica de manejo de fallas por separado
En el caso de agentes de larga duración que usan Agents SDK, la inferencia en streaming puede recuperarse incluso si se corta la conexión
- AI Gateway almacena en buffer las respuestas en streaming de forma independiente, por lo que tras una reconexión puede reutilizar la misma respuesta
- Recupera los mismos tokens sin cobro duplicado y, al combinarse con la función de checkpoints del SDK, el usuario no percibe la interrupción

Integración con Replicate

El equipo de Replicate se unió al equipo de Cloudflare AI Platform y avanza hacia una integración total
- Todos los modelos de Replicate se migrarán a AI Gateway, y los modelos alojados se volverán a montar sobre la infraestructura de Cloudflare
- Los usuarios podrán llamar modelos existentes de Replicate desde AI Gateway o alojar en Workers AI los modelos que hayan desplegado en Replicate

Cómo empezar

Los desarrolladores pueden comenzar en la documentación de AI Gateway o en la documentación de Workers AI
También pueden crear agentes sobre Cloudflare mediante Agents SDK

El papel de Cloudflare

Cloudflare, como connectivity cloud, ayuda a proteger redes empresariales, crear aplicaciones a gran escala, acelerar el rendimiento web y ofrecer defensa contra DDoS y seguridad Zero Trust
Con la app gratuita 1.1.1.1, se puede usar Internet de forma más rápida y segura
La misión de Cloudflare es construir un mejor Internet, y se puede encontrar más información y vacantes en su sitio web oficial

1 comentarios

GN⁺ 14 일 전

Comentarios en Hacker News

Al final, esto parece ser openrouter con Cloudflare Argo networking encima
Siento que podrían hacer algo más interesante aprovechando la adquisición de Replicate
El RL específico para aplicaciones está mejorando cada vez más, pero faltan formas de desplegarlo de manera escalable
Lugares como Fireworks dicen que despliegan LoRA a escala, pero en la práctica no funciona bien
Por eso, por ahora estoy alojando yo mismo la carga base de mi app con varias 3090 en el garaje. Es ridículo, pero me ahorra 1,000 dólares al mes
- Me da curiosidad saber qué modelos estás ejecutando y cuántas 3090 harían falta para escalar
Esto se ve bastante útil. Cloudflare está juntando muy buenas herramientas
En particular, D2 es prácticamente el único sqlite-as-a-service, además de que tiene buena estabilidad y límites generosos en el plan gratis
- En la documentación y el marketing destacan casos como “una DB por usuario o por tenant”, pero en la práctica es difícil usarlo con Workers
  Para enlazar una nueva DB hay que volver a desplegar el Worker, así que en realidad es casi imposible
- En nuestra experiencia, la estabilidad de D1 no ha sido buena
  Las consultas se quedan colgadas por varios segundos, y a veces por decenas de segundos, en la capa de red interna
  Algunas consultas ni siquiera aparecen en el panel de observabilidad, así que si no agregas tu propia detección de timeouts no te enteras del problema
  Tampoco soporta transacciones, y en el hilo del issue un PM dijo que no hay planes de implementarlas
  Para garantizar consistencia de datos hay que usar Durable Object, pero eso trae otros costos y trade-offs
  La idea es buena, pero es difícil confiar en eso para producción; para proyectos hobby está bien
- Ojalá Cloudflare ofreciera por defecto un sistema de backups de D1 a R2
  Ahora mismo solo se puede hacer con código personalizado en un Worker
- El límite de 10 GB de D1 es demasiado pequeño. Fuera de proyectos de juguete, lo veo difícil
- Dicen que pronto lanzarán una REST API, pero parece una estructura pensada para forzar el lock-in con Cloudflare
  Cuesta entender que digan que están haciendo OpenRouter mientras solo soportan bindings de su propio runtime
La lista de modelos de Workers AI y el
catálogo de modelos de AI no tienen la misma selección
El namespace “workers-ai/*” tiene muchos menos modelos. Me pregunto si es intencional
- Por ejemplo, modelos como “workers-ai/@cf/google/gemma-4-26b-a4b-it” o
  “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” no aparecen en el endpoint /models de gateway.ai.cloudflare.com. Pero sí existen como modelos alojados
Yo uso openrouter sin problemas en Cloudflare Workers
También tiene funciones de cascading y waterfalling mucho mejores cuando un modelo está offline
Parece que en V1 eso todavía no se puede
Me gusta tanto todo lo de openrouter que ya casi soy fan
El problema de la capa de inferencia se está resolviendo rápido
Lo siguiente difícil es la capa de gobernanza, o sea, qué puede hacer un agente y cómo probarlo
Me pregunto si Cloudflare también está pensando en esa parte
- Estaría bueno tener un sistema automático de autenticación basado en zero-trust
  Me imagino una estructura donde cada agente presenta credenciales RBAC para obtener permisos
Da gusto ver que la adquisición de Replicate por fin está dando resultados
En la página de modelos no se ve información de precios
Me pregunto cuánto más caro es que pagarle directo al proveedor
¿Cloudflare lo estará ofreciendo a precio de costo?
Además, zero data retention no es el valor por defecto, y con algunos proveedores ni siquiera está soportado
También estaría bien poder devolver completions al estilo OpenAI y Anthropic
- Soy ingeniero en Cloudflare. Pronto vamos a agregar información de precios en la documentación y en el dashboard
  Por ahora es igual a la tarifa del proveedor, con una pequeña comisión de procesamiento a través de unified billing credits
  El soporte para completions al estilo OpenAI/Anthropic también llegará pronto
  enlace con la explicación de unified billing
- La información de precios de Workers AI está aquí
Al final, esto parece ser un servicio similar a openrouter
- Sí. Aunque la variedad de modelos es más limitada, salvo que traigas tu propio modelo
- Y además con Argo networking añadido
Es un anuncio bastante grande. Se ve lo suficientemente competitivo como para ser una alternativa a AWS Bedrock
Incluso podría tener mejor uptime que Anthropic o AWS

La plataforma de IA de Cloudflare: una capa de inferencia para agentes

Resumen de Cloudflare AI Platform

Un catálogo, un endpoint unificado

Despliegue directo de modelos propios (Bring Your Own Model)

Optimización de la velocidad hasta el primer token

Confiabilidad basada en failover automático

Integración con Replicate

Cómo empezar

El papel de Cloudflare

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News