Fly.io, ahora con GPU
(fly.io)La IA es realmente genial
- Fly.io es un nuevo servicio de nube pública que permite ubicar poder de cómputo cerca de los usuarios.
- Ahora es posible usar GPU para procesar cargas de trabajo de IA en entornos de edge computing.
- Fly.io permite ejecutar aplicaciones full-stack o una plataforma de desarrollo basada en la API de Fly Machines cerca de los usuarios.
Casos reales de uso con GPU en Fly.io
- Puedes desplegar tu propio código y el modelo que prefieras sobre el backbone en la nube de Fly.io.
- Con las GPU de Fly.io, es fácil poner en marcha en dos pasos una app con GPU que ejecute Ollama (los amigos del mundo de la generación de texto).
- Puedes desplegar la app agregando configuración en
fly.tomly ejecutando el comandofly apps create sandwich_ai && fly deploy.
La velocidad de la luz tiene límites
- Encender GPU rápidamente está muy bien, pero Fly.io realmente destaca en la inferencia en el edge.
- Un ejemplo sería una app donde el usuario ingresa los ingredientes que tiene en la cocina y recibe al instante una receta de sándwich.
- Fly.io tiene GPU en centros de datos de todo el mundo y permite ejecutar el mismo programa en cualquier región con soporte para GPU.
Solo cuando realmente se necesita
- Las GPU son potentes dispositivos de procesamiento paralelo, pero no son baratas.
- Puedes agregar la sección
servicesal archivofly.tomlpara especificar cómo debe escalar y reducirse la app. - Puedes configurarlo para no pagar el costo de la GPU cuando los usuarios no estén pidiendo recetas de sándwich.
Detalles
- Ofrece GPU disponibles en varias regiones de Estados Unidos, Europa y Sídney.
- Ofrece diversas opciones de GPU y precios, y por defecto todos los despliegues usan ocho núcleos de CPU AMD EPYC.
- Se pueden conectar volúmenes de hasta 500 GB, y también ofrece descuentos para instancias reservadas y hosts dedicados.
Opinión de GN⁺:
- Fly.io ofrece un servicio de nube innovador que permite procesar cargas de trabajo de IA en entornos de edge computing, con enfoque en mejorar la experiencia del usuario.
- El servicio con GPU ofrece una solución que considera tanto la velocidad de inferencia como la eficiencia de costos, especialmente adecuada para aplicaciones que requieren alta potencia de cómputo en tiempo real.
- Este servicio aumenta la accesibilidad de la tecnología de IA y puede ayudar a los desarrolladores a crear nuevas aplicaciones innovadoras, por lo que representa un avance muy interesante y útil.
1 comentarios
Comentarios en Hacker News
cogusados por replicate y si puede correr modelos preempaquetados con la misma API de predicción. Cree que podría dudar por replicate, pero que si adoptaran eso ofrecerían una experiencia más fluida.