- Con el soporte oficial (GA) de GPU en Cloud Run, ejecutar cargas de trabajo de IA ahora es mucho más sencillo
- Ahora también es posible usar GPU en Cloud Run jobs, lo que abre nuevas posibilidades para el procesamiento por lotes y las tareas asíncronas
- Un entorno optimizado para trabajos por lotes a gran escala como procesamiento de imágenes, análisis de lenguaje natural y conversión de medios
Cloud Run GPU: disponibilidad oficial y cambios principales
Comienza el soporte de NVIDIA GPU en Cloud Run jobs
- La capacidad de GPU en Cloud Run se usaba antes en servicios basados en solicitudes, como la inferencia en tiempo real
- Ahora el soporte de GPU en Cloud Run jobs ya es oficial, lo que habilita nuevos casos de uso
- Ajuste fino de modelos: es posible volver a entrenar fácilmente modelos preentrenados para adaptarlos a conjuntos de datos específicos
- Inferencia de IA por lotes: ideal para trabajos a gran escala como analizar imágenes, procesar lenguaje natural o generar recomendaciones
- Procesamiento masivo de medios: la transcodificación de video, la generación de miniaturas y la conversión de imágenes pueden manejarse de forma eficiente con GPU
- Los Cloud Run jobs con GPU reducen automáticamente los recursos al finalizar el trabajo, minimizando la carga de administración
Experiencias reales de empresas que adoptaron la tecnología desde el inicio
- vivo: Cloud Run aceleró la velocidad de iteración en el desarrollo de aplicaciones de IA y permitió ahorrar significativamente en costos de operación y mantenimiento. La capacidad de escalado automático de GPU impulsó de forma notable la eficiencia de la adopción de IA en mercados internacionales
- Wayfair: las GPU L4 ofrecen alto rendimiento junto con un precio razonable y, al combinarse con el autoscaling rápido de Cloud Run, lograron reducir los costos en aproximadamente un 85%
- Midjourney: Cloud Run GPU es muy útil para el procesamiento de imágenes a gran escala y, gracias a un entorno de desarrollo simple y claro, permite enfocarse en la innovación sin la carga de administrar infraestructura. La escalabilidad de GPU facilita el análisis y procesamiento de millones de imágenes
Guía de inicio y recursos
- El soporte de GPU en Cloud Run ofrece un entorno adecuado para el desarrollo de aplicaciones de próxima generación
- Cualquiera puede comenzar fácilmente con la documentación, la guía de inicio rápido y las mejores prácticas de optimización oficiales
- También es posible solicitar participación en la vista previa privada de Cloud Run jobs con GPU
Conclusión
- El soporte oficial de GPU en Cloud Run ofrece una capacidad de expansión transformadora para diversas cargas de trabajo especializadas, como IA, procesamiento por lotes a gran escala y conversión de medios
- Empresas reales ya han demostrado beneficios en costos, eficiencia operativa y escalabilidad
- Con una configuración simple y diversos materiales de aprendizaje, cualquiera puede comenzar fácilmente con cargas de trabajo de GPU en la nube
1 comentarios
Opiniones de Hacker News
Me gusta muchísimo Google Cloud Run y lo recomiendo activamente como la mejor opción. Aun así, me cuesta recomendar Cloud Run GPU. La facturación por instancia es ineficiente y las opciones de GPU son limitadas. Al cargar y descargar modelos desde la memoria de la GPU, el rendimiento cae, así que en un entorno serverless existe la limitación de que es lento. Al comparar el costo real, sale que con apenas un 30% de uso diario ya conviene más una combinación de VM + GPU. (enlace al blog relacionado)
Vicepresidente de Google. Gracias por el feedback. En la estructura de precios actual, en general coincido en que si necesitas capacidad de servicio casi fija, preaprovisionar VMs es más rentable. En cambio, creo que Cloud Run GPU está optimizado para entornos como productos nuevos o apps de IA con picos de demanda repentinos, donde importa tener costo ocioso mínimo, arranque muy rápido y tráfico poco frecuente e irregular
Cloud Run realmente da la impresión de ser un servicio excelente. Mi experiencia es que es mucho más fácil de manejar que ECS/Fargate de AWS
El mayor problema es que en GCP no se puede confiar en usar VMs. Todos los grandes clouds tienen este problema. En AWS no puedes conseguir GPUs de 80GB sin reservas a largo plazo, y los precios son ridículos. En GCP pasa lo mismo: caro y con baja disponibilidad. Las grandes empresas dicen ser amigables con las startups, pero en la práctica no lo son. Los neoclouds como runpod, nebius y lambda ofrecen un servicio mucho mejor. Creo que los grandes clouds, confiados en la demanda fija y sin considerar a las startups, están cometiendo un error que les va a pegar fuerte en su crecimiento a largo plazo
Mi experiencia con Cloud Run fue la opuesta. Por escalados/reinicios sin causa clara, al final incluso compré soporte pagado para consultar, pero no lograron encontrar la respuesta. Terminé migrando por mi cuenta a VMs autogestionadas. No sé si desde entonces haya mejorado
Sobre la opinión de que Cloud Run es lo mejor, yo querría ver las cifras por mí mismo. Para proyectos de juguete está bien, pero en trabajo real es un pozo de costos. En uno de mis proyectos seguían ocurriendo problemas de autoscaling. El
scale to zerosuena bien en teoría, pero en la práctica durante el calentamiento muchas veces se levantan varios contenedores para una sola solicitud y se quedan vivos mucho tiempo. Incluso contenedores sin uso visible de CPU o red siguen generando cobros. En proyectos Java o Python, la velocidad de cold start es terriblemente lenta; no tengo experiencia con Go/C++/Rust, así que no sabría decirAdemás de la complejidad de los grandes clouds, preocupa el riesgo de que te vacíen la tarjeta de crédito de la noche a la mañana con cobros YOLO ilimitados. Mi conclusión es que voy a seguir con Modal y vast.ai
Desde la perspectiva de usuarios individuales o de proyectos pequeños, no ofrecer un límite de gasto (CAP) es una gran debilidad de GCP. En Cloud Run puedes contener el costo al menos de forma indirecta mediante límites de concurrencia y de número de instancias. Aun así, no equivale a un CAP real
Recuerdo haber pagado mucho en AWS por olvidar apagar una instancia, así que el
scale to zeroy la facturación por segundo de Cloud Run son una gran ventaja. Si de verdad arranca muy rápido, me parece perfecto para mi carga de trabajoEn Cloud Run puedes limitar indirectamente el gasto máximo configurando el número máximo de instancias. El “hard cap” de la época de App Engine tenía el efecto secundario de que el servicio se detenía por completo justo cuando despegaba (por ejemplo, cuando llegaba a HN). Personalmente, creo que gestionar el presupuesto mediante alertas es una mejor opción
De hecho, esa es exactamente la razón por la que terminé abandonando Datadog en producción. Me pregunto si para estas plataformas realmente vale la pena tolerar la mala impresión que se genera cuando a los usuarios se les cobra de más por error
No me queda claro cómo Modal o vast.ai evitan los cobros YOLO. Tengo curiosidad por saber si funcionan con prepago o si ofrecen un CAP directo
Comparé directamente los precios y la verdad no le veo una ventaja clara. Organicé en una tabla las tarifas por hora de Google, runpod.io y vast.ai:
Da la impresión de que el precio de Google asume ejecución 24/7 durante un mes, mientras que runpod.io y vast.ai facturan por segundo. No pude encontrar la tarifa spot de las GPU de Google
Puedes ver la tarifa spot directamente en “Crear instancia de cómputo”. Por ejemplo, en GCP un 1xH100 spot cuesta $2.55 por hora, y se aplica descuento cuanto más tiempo lo uses. En clientes empresariales, estos precios además pueden negociarse. Solo los usuarios normales pagan esta tarifa de lista
Tengo curiosidad por la fuente de los precios de vast.ai. En el sitio web, la opción 8xH200 parece estar en su mayoría por arriba de $21.65 por hora
Me pregunto en qué se basa la afirmación de que los precios de Google están planteados para 24/7. En la página oficial de precios de Cloud Run dice que se cobra solo el uso real en bloques de 100 ms, y la documentación de autoscaling también explica que las instancias inactivas se reducen automáticamente tras 15 minutos de espera (PM de Cloud Run)
¿No es que en Cloud Run GPU solo se puede elegir 1xL4?
Si Google también cobra por segundo, entonces para usos de menos de 20 minutos quizá Google incluso salga mejor
Soy un fan total de Modal y llevo mucho tiempo usando GPU serverless con scale-to-zero. Es muy fácil escalar a gran tamaño cuando hace falta y, al mismo tiempo, la carga de desarrollo es notablemente menor. Me parece interesante que un proveedor grande entre a este mercado. De hecho me pasé a Modal precisamente porque en los grandes clouds no ofrecían este tipo de función (por ejemplo, AWS Lambda no soporta GPU). Me pregunto si ahora todos los clouds principales se dirigen hacia este tipo de servicio
Modal es realmente excelente. También me impresionó mucho el análisis técnico profundo de su solver de LP (programación lineal) publicado por ellos. Si eres desarrollador Python, también recomiendo Coiled. No es tan rápido como Modal, pero facilita levantar GPU VM y todo corre dentro de tu propia cuenta cloud. Además ofrece una gestión de paquetes conveniente para sincronizar drivers CUDA y librerías de Python. (Nota: trabajo en Coiled, pero lo recomiendo sinceramente)
También fue una ventaja inesperada que soporte cargas de trabajo compatibles con HIPAA
Modal tiene el cold start más rápido para modelos de más de 10GB
También me dejó muy buena impresión que la documentación de Modal esté tan bien organizada
La razón principal por la que Cloud Run es mejor que otros servicios es el autoscaling y el
scale-to-zero. Cuando no hay uso real, el cobro es prácticamente cero, y al poder fijar el número máximo de instancias también puedes controlar de forma estable el costo máximo. Eso sí, hablo del caso de usar solo la versión de CPU; es muy confiable y muy fácil de usarscale-to-zeropuede haber problemas de latenciaEl proveedor europeo pequeño de cloud con GPU DataCrunch (sin relación conmigo) ofrece GPU VM de Nvidia más baratas que RunPod y otros
1x A100 80GB 1.37 euros/hora
1x H100 80GB 2.19 euros/hora
En lambda.ai ofrecen una VM 1x H100 80GB a $2.49 por hora. Con el tipo de cambio da justo 2.19 euros. Me pregunto si es coincidencia o si existe una especie de techo invisible en la industria
En Vast.ai puedes usar 2x A100 por $0.8/hora en esquema P2P (o sea, $0.4/hora por cada A100). Yo solo soy un usuario satisfecho, nada más. Hay que tener cuidado con la velocidad de red. Algunos hosts comparten ancho de banda, así que la velocidad real puede no coincidir con la anunciada. Si mueves grandes volúmenes de datos, hay que tenerlo en cuenta
VP/GM a cargo de Cloud Run/GKE. Estoy listo para responder preguntas al respecto. Gracias por todo el interés
Me gusta Cloud Run y esta función nueva también me parece interesante. Pero algo que me decepcionó fue que quise correr self hosted GitHub runners y no estaba soportado por el tema de permisos root. Además, la función de worker pool introducida recientemente tampoco era realmente integrada en la práctica, porque igual había que escribir el scaler a mano
Después de que me cobraran $1000 por dejar corriendo modelos de prueba en vertex.ai y olvidar apagarlos, creo que esta vez Cloud Run va a convertirse en mi servicio de cabecera. Llevo años operando microservicios de producción y proyectos hobby con Cloud Run, y estoy satisfecho tanto con la simplicidad como con la eficiencia de costos
Si lo entiendo bien, puedes crear una API que levante modelos arbitrarios como los de Hugging Face, y aunque no tenga un esquema de cobro por token, si la carga de uso es baja podría operarse a un costo bastante barato. Si realmente es así, sería algo revolucionario. La mayoría de los proveedores actuales exigen una suscripción mensual para operar modelos personalizados
Básicamente sí. Eso sí, el cold start puede ser muy lento (30~60 segundos). Es la desventaja del
scale to zero. También conviene tener en cuenta que se cobran algunas tarifas mensuales pequeñas, como por almacenamiento de contenedoresExisten varias alternativas con inferencia serverless en GPU, como Runpod, vast, coreweave y replicate