1 puntos por GN⁺ 2025-06-05 | 1 comentarios | Compartir por WhatsApp
  • Con el soporte oficial (GA) de GPU en Cloud Run, ejecutar cargas de trabajo de IA ahora es mucho más sencillo
  • Ahora también es posible usar GPU en Cloud Run jobs, lo que abre nuevas posibilidades para el procesamiento por lotes y las tareas asíncronas
  • Un entorno optimizado para trabajos por lotes a gran escala como procesamiento de imágenes, análisis de lenguaje natural y conversión de medios

Cloud Run GPU: disponibilidad oficial y cambios principales

Comienza el soporte de NVIDIA GPU en Cloud Run jobs

  • La capacidad de GPU en Cloud Run se usaba antes en servicios basados en solicitudes, como la inferencia en tiempo real
  • Ahora el soporte de GPU en Cloud Run jobs ya es oficial, lo que habilita nuevos casos de uso
    • Ajuste fino de modelos: es posible volver a entrenar fácilmente modelos preentrenados para adaptarlos a conjuntos de datos específicos
    • Inferencia de IA por lotes: ideal para trabajos a gran escala como analizar imágenes, procesar lenguaje natural o generar recomendaciones
    • Procesamiento masivo de medios: la transcodificación de video, la generación de miniaturas y la conversión de imágenes pueden manejarse de forma eficiente con GPU
  • Los Cloud Run jobs con GPU reducen automáticamente los recursos al finalizar el trabajo, minimizando la carga de administración

Experiencias reales de empresas que adoptaron la tecnología desde el inicio

  • vivo: Cloud Run aceleró la velocidad de iteración en el desarrollo de aplicaciones de IA y permitió ahorrar significativamente en costos de operación y mantenimiento. La capacidad de escalado automático de GPU impulsó de forma notable la eficiencia de la adopción de IA en mercados internacionales
  • Wayfair: las GPU L4 ofrecen alto rendimiento junto con un precio razonable y, al combinarse con el autoscaling rápido de Cloud Run, lograron reducir los costos en aproximadamente un 85%
  • Midjourney: Cloud Run GPU es muy útil para el procesamiento de imágenes a gran escala y, gracias a un entorno de desarrollo simple y claro, permite enfocarse en la innovación sin la carga de administrar infraestructura. La escalabilidad de GPU facilita el análisis y procesamiento de millones de imágenes

Guía de inicio y recursos

Conclusión

  • El soporte oficial de GPU en Cloud Run ofrece una capacidad de expansión transformadora para diversas cargas de trabajo especializadas, como IA, procesamiento por lotes a gran escala y conversión de medios
  • Empresas reales ya han demostrado beneficios en costos, eficiencia operativa y escalabilidad
  • Con una configuración simple y diversos materiales de aprendizaje, cualquiera puede comenzar fácilmente con cargas de trabajo de GPU en la nube

1 comentarios

 
GN⁺ 2025-06-05
Opiniones de Hacker News
  • Me gusta muchísimo Google Cloud Run y lo recomiendo activamente como la mejor opción. Aun así, me cuesta recomendar Cloud Run GPU. La facturación por instancia es ineficiente y las opciones de GPU son limitadas. Al cargar y descargar modelos desde la memoria de la GPU, el rendimiento cae, así que en un entorno serverless existe la limitación de que es lento. Al comparar el costo real, sale que con apenas un 30% de uso diario ya conviene más una combinación de VM + GPU. (enlace al blog relacionado)

    • Vicepresidente de Google. Gracias por el feedback. En la estructura de precios actual, en general coincido en que si necesitas capacidad de servicio casi fija, preaprovisionar VMs es más rentable. En cambio, creo que Cloud Run GPU está optimizado para entornos como productos nuevos o apps de IA con picos de demanda repentinos, donde importa tener costo ocioso mínimo, arranque muy rápido y tráfico poco frecuente e irregular

    • Cloud Run realmente da la impresión de ser un servicio excelente. Mi experiencia es que es mucho más fácil de manejar que ECS/Fargate de AWS

    • El mayor problema es que en GCP no se puede confiar en usar VMs. Todos los grandes clouds tienen este problema. En AWS no puedes conseguir GPUs de 80GB sin reservas a largo plazo, y los precios son ridículos. En GCP pasa lo mismo: caro y con baja disponibilidad. Las grandes empresas dicen ser amigables con las startups, pero en la práctica no lo son. Los neoclouds como runpod, nebius y lambda ofrecen un servicio mucho mejor. Creo que los grandes clouds, confiados en la demanda fija y sin considerar a las startups, están cometiendo un error que les va a pegar fuerte en su crecimiento a largo plazo

    • Mi experiencia con Cloud Run fue la opuesta. Por escalados/reinicios sin causa clara, al final incluso compré soporte pagado para consultar, pero no lograron encontrar la respuesta. Terminé migrando por mi cuenta a VMs autogestionadas. No sé si desde entonces haya mejorado

    • Sobre la opinión de que Cloud Run es lo mejor, yo querría ver las cifras por mí mismo. Para proyectos de juguete está bien, pero en trabajo real es un pozo de costos. En uno de mis proyectos seguían ocurriendo problemas de autoscaling. El scale to zero suena bien en teoría, pero en la práctica durante el calentamiento muchas veces se levantan varios contenedores para una sola solicitud y se quedan vivos mucho tiempo. Incluso contenedores sin uso visible de CPU o red siguen generando cobros. En proyectos Java o Python, la velocidad de cold start es terriblemente lenta; no tengo experiencia con Go/C++/Rust, así que no sabría decir

  • Además de la complejidad de los grandes clouds, preocupa el riesgo de que te vacíen la tarjeta de crédito de la noche a la mañana con cobros YOLO ilimitados. Mi conclusión es que voy a seguir con Modal y vast.ai

    • Desde la perspectiva de usuarios individuales o de proyectos pequeños, no ofrecer un límite de gasto (CAP) es una gran debilidad de GCP. En Cloud Run puedes contener el costo al menos de forma indirecta mediante límites de concurrencia y de número de instancias. Aun así, no equivale a un CAP real

    • Recuerdo haber pagado mucho en AWS por olvidar apagar una instancia, así que el scale to zero y la facturación por segundo de Cloud Run son una gran ventaja. Si de verdad arranca muy rápido, me parece perfecto para mi carga de trabajo

    • En Cloud Run puedes limitar indirectamente el gasto máximo configurando el número máximo de instancias. El “hard cap” de la época de App Engine tenía el efecto secundario de que el servicio se detenía por completo justo cuando despegaba (por ejemplo, cuando llegaba a HN). Personalmente, creo que gestionar el presupuesto mediante alertas es una mejor opción

    • De hecho, esa es exactamente la razón por la que terminé abandonando Datadog en producción. Me pregunto si para estas plataformas realmente vale la pena tolerar la mala impresión que se genera cuando a los usuarios se les cobra de más por error

    • No me queda claro cómo Modal o vast.ai evitan los cobros YOLO. Tengo curiosidad por saber si funcionan con prepago o si ofrecen un CAP directo

  • Comparé directamente los precios y la verdad no le veo una ventaja clara. Organicé en una tabla las tarifas por hora de Google, runpod.io y vast.ai:

      1x L4 24GB:  google: $0.71, runpod.io: $0.43, spot: $0.22  
      4x L4 24GB:  google: $4.00, runpod.io: $1.72, spot: $0.88  
      1x A100 80GB: google: $5.07, runpod.io: $1.64, spot: $0.82, vast.ai $0.880, spot: $0.501  
      1x H100 80GB: google: $11.06, runpod.io: $2.79, spot: $1.65, vast.ai $1.535, spot: $0.473  
      8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, spot: $14.563
    

    Da la impresión de que el precio de Google asume ejecución 24/7 durante un mes, mientras que runpod.io y vast.ai facturan por segundo. No pude encontrar la tarifa spot de las GPU de Google

    • Puedes ver la tarifa spot directamente en “Crear instancia de cómputo”. Por ejemplo, en GCP un 1xH100 spot cuesta $2.55 por hora, y se aplica descuento cuanto más tiempo lo uses. En clientes empresariales, estos precios además pueden negociarse. Solo los usuarios normales pagan esta tarifa de lista

    • Tengo curiosidad por la fuente de los precios de vast.ai. En el sitio web, la opción 8xH200 parece estar en su mayoría por arriba de $21.65 por hora

    • Me pregunto en qué se basa la afirmación de que los precios de Google están planteados para 24/7. En la página oficial de precios de Cloud Run dice que se cobra solo el uso real en bloques de 100 ms, y la documentación de autoscaling también explica que las instancias inactivas se reducen automáticamente tras 15 minutos de espera (PM de Cloud Run)

    • ¿No es que en Cloud Run GPU solo se puede elegir 1xL4?

    • Si Google también cobra por segundo, entonces para usos de menos de 20 minutos quizá Google incluso salga mejor

  • Soy un fan total de Modal y llevo mucho tiempo usando GPU serverless con scale-to-zero. Es muy fácil escalar a gran tamaño cuando hace falta y, al mismo tiempo, la carga de desarrollo es notablemente menor. Me parece interesante que un proveedor grande entre a este mercado. De hecho me pasé a Modal precisamente porque en los grandes clouds no ofrecían este tipo de función (por ejemplo, AWS Lambda no soporta GPU). Me pregunto si ahora todos los clouds principales se dirigen hacia este tipo de servicio

    • Modal es realmente excelente. También me impresionó mucho el análisis técnico profundo de su solver de LP (programación lineal) publicado por ellos. Si eres desarrollador Python, también recomiendo Coiled. No es tan rápido como Modal, pero facilita levantar GPU VM y todo corre dentro de tu propia cuenta cloud. Además ofrece una gestión de paquetes conveniente para sincronizar drivers CUDA y librerías de Python. (Nota: trabajo en Coiled, pero lo recomiendo sinceramente)

    • También fue una ventaja inesperada que soporte cargas de trabajo compatibles con HIPAA

    • Modal tiene el cold start más rápido para modelos de más de 10GB

    • También me dejó muy buena impresión que la documentación de Modal esté tan bien organizada

  • La razón principal por la que Cloud Run es mejor que otros servicios es el autoscaling y el scale-to-zero. Cuando no hay uso real, el cobro es prácticamente cero, y al poder fijar el número máximo de instancias también puedes controlar de forma estable el costo máximo. Eso sí, hablo del caso de usar solo la versión de CPU; es muy confiable y muy fácil de usar

    • Aun así, incluso Cloud Run normal suele tener tiempos largos de arranque en frío (aprox. 3~30 segundos), así que al usar scale-to-zero puede haber problemas de latencia
  • El proveedor europeo pequeño de cloud con GPU DataCrunch (sin relación conmigo) ofrece GPU VM de Nvidia más baratas que RunPod y otros

    1x A100 80GB 1.37 euros/hora
    1x H100 80GB 2.19 euros/hora

    • En lambda.ai ofrecen una VM 1x H100 80GB a $2.49 por hora. Con el tipo de cambio da justo 2.19 euros. Me pregunto si es coincidencia o si existe una especie de techo invisible en la industria

    • En Vast.ai puedes usar 2x A100 por $0.8/hora en esquema P2P (o sea, $0.4/hora por cada A100). Yo solo soy un usuario satisfecho, nada más. Hay que tener cuidado con la velocidad de red. Algunos hosts comparten ancho de banda, así que la velocidad real puede no coincidir con la anunciada. Si mueves grandes volúmenes de datos, hay que tenerlo en cuenta

  • VP/GM a cargo de Cloud Run/GKE. Estoy listo para responder preguntas al respecto. Gracias por todo el interés

  • Me gusta Cloud Run y esta función nueva también me parece interesante. Pero algo que me decepcionó fue que quise correr self hosted GitHub runners y no estaba soportado por el tema de permisos root. Además, la función de worker pool introducida recientemente tampoco era realmente integrada en la práctica, porque igual había que escribir el scaler a mano

    • Engineering Manager a cargo de Serverless y Worker Pools Autoscaling. En este momento estamos definiendo activamente el roadmap, y sería de gran ayuda que compartieras por correo ejemplos reales de cargas de trabajo. Esperamos comentarios sobre worker pools y sobre cargas que necesiten escalado
  • Después de que me cobraran $1000 por dejar corriendo modelos de prueba en vertex.ai y olvidar apagarlos, creo que esta vez Cloud Run va a convertirse en mi servicio de cabecera. Llevo años operando microservicios de producción y proyectos hobby con Cloud Run, y estoy satisfecho tanto con la simplicidad como con la eficiencia de costos

  • Si lo entiendo bien, puedes crear una API que levante modelos arbitrarios como los de Hugging Face, y aunque no tenga un esquema de cobro por token, si la carga de uso es baja podría operarse a un costo bastante barato. Si realmente es así, sería algo revolucionario. La mayoría de los proveedores actuales exigen una suscripción mensual para operar modelos personalizados

    • Básicamente sí. Eso sí, el cold start puede ser muy lento (30~60 segundos). Es la desventaja del scale to zero. También conviene tener en cuenta que se cobran algunas tarifas mensuales pequeñas, como por almacenamiento de contenedores

    • Existen varias alternativas con inferencia serverless en GPU, como Runpod, vast, coreweave y replicate