2 puntos por GN⁺ 14 일 전 | 1 comentarios | Compartir por WhatsApp
  • Construye una capa de inferencia unificada que integra diversos modelos y proveedores para reducir la complejidad de las aplicaciones agentivas
  • A través de AI Gateway y Workers AI, permite invocar más de 70 modelos y más de 12 proveedores con una sola API, y gestionar de forma centralizada los costos y el uso
  • Admite la ejecución de modelos basados en contenedores usando la tecnología Cog de Replicate para que los usuarios puedan implementar directamente modelos personalizados
  • Aprovecha la infraestructura en 330 ciudades de todo el mundo para minimizar la latencia y garantiza una inferencia estable con enrutamiento automático ante fallas
  • El equipo de Replicate se unió a Cloudflare para integrar por completo el hosting y el despliegue de modelos, ampliándose hacia una plataforma única para el desarrollo de agentes

Resumen de Cloudflare AI Platform

  • La rápida evolución de los modelos de IA y las diferencias entre proveedores aumentan la complejidad de las aplicaciones agentivas que combinan varios modelos
    • Por ejemplo, un agente de atención al cliente puede usar un modelo rápido para clasificar mensajes, un modelo grande para planificar y un modelo liviano para ejecutar
    • Es necesario gestionar de forma unificada el costo, la confiabilidad y la latencia sin depender de un solo proveedor
  • Cloudflare construyó una capa de inferencia unificada basada en AI Gateway y Workers AI, con la que todos los modelos pueden llamarse mediante una sola API
    • Recientemente añadió una renovación del panel, configuración automática del gateway predeterminado, reintentos automáticos ante fallas upstream y controles de logging más granulares

Un catálogo, un endpoint unificado

  • Mediante el binding AI.run(), es posible llamar directamente modelos de terceros (OpenAI, Anthropic, etc.) desde Cloudflare Workers
    • Al cambiar de un modelo alojado por Cloudflare a uno de terceros, solo hace falta modificar una línea de código
    • También habrá soporte para REST API próximamente, lo que permitirá acceder al catálogo completo de modelos desde cualquier entorno
  • Se pueden usar más de 70 modelos y más de 12 proveedores con una sola API y una sola unidad de facturación
    • Proveedores principales: Alibaba Cloud, AssemblyAI, Bytedance, Google, InWorld, MiniMax, OpenAI, Pixverse, Recraft, Runway, Vidu
    • Incluye modelos de imagen, video y voz, lo que permite crear aplicaciones multimodales
  • Todas las llamadas a modelos se integran en una sola API, lo que permite gestionar de forma centralizada el uso de IA y los costos
    • En promedio, las empresas llaman 3.5 modelos de varios proveedores, pero AI Gateway permite rastrearlo desde un solo panel
    • En cada solicitud se puede incluir metadata personalizada para analizar costos por cliente o por flujo de trabajo

Despliegue directo de modelos propios (Bring Your Own Model)

  • AI Gateway integra modelos de todos los proveedores, pero también se prepara para permitir el despliegue directo de modelos ajustados con datos del usuario
    • Actualmente, clientes empresariales ya ejecutan modelos personalizados en instancias dedicadas, y se planea extenderlo a usuarios generales
  • Cloudflare usa la tecnología Cog de Replicate para contenerizar modelos de machine learning
    • Si se definen las dependencias en el archivo cog.yaml y se escribe el código de inferencia en predict.py, el empaquetado se realiza automáticamente
    • Cog abstrae configuraciones complejas como CUDA, versiones de Python y carga de pesos
  • Tras construir una imagen de contenedor con el comando cog build y subirla a Workers AI, Cloudflare se encarga del despliegue y la operación del servicio
    • Más adelante se ofrecerán comandos de wrangler, arranques en frío rápidos basados en snapshots de GPU y una API para clientes
    • Ya se está probando con clientes internos y algunos externos, con planes de ampliarlo para que cualquiera pueda usar sus propios modelos en Workers AI

Optimización de la velocidad hasta el primer token

  • La combinación de AI Gateway + Workers AI es especialmente ventajosa para agentes en vivo donde la respuesta en tiempo real es importante
    • Incluso si el tiempo total de inferencia es de 3 segundos, que el primer token llegue 50 ms antes mejora la percepción de velocidad del usuario
  • Cloudflare minimiza la latencia de red entre el usuario y el endpoint de inferencia mediante centros de datos en 330 ciudades del mundo
  • Workers AI aloja modelos open source especializados para agentes, como Kimi K2.5 y modelos de voz en tiempo real
    • Al llamarlos mediante AI Gateway, el código y la inferencia se ejecutan en la misma red para lograr la latencia más baja posible

Confiabilidad basada en failover automático

  • Los flujos de trabajo de agentes tienen una alta dependencia entre etapas, por lo que la estabilidad de la inferencia es clave
    • Si el mismo modelo existe en varios proveedores, AI Gateway lo enruta automáticamente a otro proveedor cuando uno falla
    • Los desarrolladores no necesitan escribir lógica de manejo de fallas por separado
  • En el caso de agentes de larga duración que usan Agents SDK, la inferencia en streaming puede recuperarse incluso si se corta la conexión
    • AI Gateway almacena en buffer las respuestas en streaming de forma independiente, por lo que tras una reconexión puede reutilizar la misma respuesta
    • Recupera los mismos tokens sin cobro duplicado y, al combinarse con la función de checkpoints del SDK, el usuario no percibe la interrupción

Integración con Replicate

  • El equipo de Replicate se unió al equipo de Cloudflare AI Platform y avanza hacia una integración total
    • Todos los modelos de Replicate se migrarán a AI Gateway, y los modelos alojados se volverán a montar sobre la infraestructura de Cloudflare
    • Los usuarios podrán llamar modelos existentes de Replicate desde AI Gateway o alojar en Workers AI los modelos que hayan desplegado en Replicate

Cómo empezar

El papel de Cloudflare

  • Cloudflare, como connectivity cloud, ayuda a proteger redes empresariales, crear aplicaciones a gran escala, acelerar el rendimiento web y ofrecer defensa contra DDoS y seguridad Zero Trust
  • Con la app gratuita 1.1.1.1, se puede usar Internet de forma más rápida y segura
  • La misión de Cloudflare es construir un mejor Internet, y se puede encontrar más información y vacantes en su sitio web oficial

1 comentarios

 
GN⁺ 14 일 전
Comentarios en Hacker News
  • Al final, esto parece ser openrouter con Cloudflare Argo networking encima
    Siento que podrían hacer algo más interesante aprovechando la adquisición de Replicate
    El RL específico para aplicaciones está mejorando cada vez más, pero faltan formas de desplegarlo de manera escalable
    Lugares como Fireworks dicen que despliegan LoRA a escala, pero en la práctica no funciona bien
    Por eso, por ahora estoy alojando yo mismo la carga base de mi app con varias 3090 en el garaje. Es ridículo, pero me ahorra 1,000 dólares al mes

    • Me da curiosidad saber qué modelos estás ejecutando y cuántas 3090 harían falta para escalar
  • Esto se ve bastante útil. Cloudflare está juntando muy buenas herramientas
    En particular, D2 es prácticamente el único sqlite-as-a-service, además de que tiene buena estabilidad y límites generosos en el plan gratis

    • En la documentación y el marketing destacan casos como “una DB por usuario o por tenant”, pero en la práctica es difícil usarlo con Workers
      Para enlazar una nueva DB hay que volver a desplegar el Worker, así que en realidad es casi imposible
    • En nuestra experiencia, la estabilidad de D1 no ha sido buena
      Las consultas se quedan colgadas por varios segundos, y a veces por decenas de segundos, en la capa de red interna
      Algunas consultas ni siquiera aparecen en el panel de observabilidad, así que si no agregas tu propia detección de timeouts no te enteras del problema
      Tampoco soporta transacciones, y en el hilo del issue un PM dijo que no hay planes de implementarlas
      Para garantizar consistencia de datos hay que usar Durable Object, pero eso trae otros costos y trade-offs
      La idea es buena, pero es difícil confiar en eso para producción; para proyectos hobby está bien
    • Ojalá Cloudflare ofreciera por defecto un sistema de backups de D1 a R2
      Ahora mismo solo se puede hacer con código personalizado en un Worker
    • El límite de 10 GB de D1 es demasiado pequeño. Fuera de proyectos de juguete, lo veo difícil
    • Dicen que pronto lanzarán una REST API, pero parece una estructura pensada para forzar el lock-in con Cloudflare
      Cuesta entender que digan que están haciendo OpenRouter mientras solo soportan bindings de su propio runtime
  • La lista de modelos de Workers AI y el
    catálogo de modelos de AI no tienen la misma selección
    El namespace “workers-ai/*” tiene muchos menos modelos. Me pregunto si es intencional

    • Por ejemplo, modelos como “workers-ai/@cf/google/gemma-4-26b-a4b-it” o
      “workers-ai/@cf/nvidia/nemotron-3-120b-a12b” no aparecen en el endpoint /models de gateway.ai.cloudflare.com. Pero sí existen como modelos alojados
  • Yo uso openrouter sin problemas en Cloudflare Workers
    También tiene funciones de cascading y waterfalling mucho mejores cuando un modelo está offline
    Parece que en V1 eso todavía no se puede
    Me gusta tanto todo lo de openrouter que ya casi soy fan

  • El problema de la capa de inferencia se está resolviendo rápido
    Lo siguiente difícil es la capa de gobernanza, o sea, qué puede hacer un agente y cómo probarlo
    Me pregunto si Cloudflare también está pensando en esa parte

    • Estaría bueno tener un sistema automático de autenticación basado en zero-trust
      Me imagino una estructura donde cada agente presenta credenciales RBAC para obtener permisos
  • Da gusto ver que la adquisición de Replicate por fin está dando resultados

  • En la página de modelos no se ve información de precios
    Me pregunto cuánto más caro es que pagarle directo al proveedor
    ¿Cloudflare lo estará ofreciendo a precio de costo?
    Además, zero data retention no es el valor por defecto, y con algunos proveedores ni siquiera está soportado
    También estaría bien poder devolver completions al estilo OpenAI y Anthropic

    • Soy ingeniero en Cloudflare. Pronto vamos a agregar información de precios en la documentación y en el dashboard
      Por ahora es igual a la tarifa del proveedor, con una pequeña comisión de procesamiento a través de unified billing credits
      El soporte para completions al estilo OpenAI/Anthropic también llegará pronto
      enlace con la explicación de unified billing
    • La información de precios de Workers AI está aquí
  • Al final, esto parece ser un servicio similar a openrouter

    • Sí. Aunque la variedad de modelos es más limitada, salvo que traigas tu propio modelo
    • Y además con Argo networking añadido
  • Es un anuncio bastante grande. Se ve lo suficientemente competitivo como para ser una alternativa a AWS Bedrock
    Incluso podría tener mejor uptime que Anthropic o AWS