- SF Compute es un grupo que reúne a startups e institutos de investigación para comprar y compartir en conjunto recursos de cómputo para el entrenamiento de modelos a gran escala.
- En lugar de que cada startup compre su propio clúster de GPU, el grupo compra un clúster con un total de GPU proporcional al número de startups.
- Con base en la propiedad, el programador de tareas asigna de forma justa los recursos de cómputo a todas las startups.
- Esto permite que las startups avancen rápidamente en el entrenamiento de modelos usando 512 GPU durante una semana, evitando la molestia de tener que mantener ocupadas 128 GPU de forma continua durante un mes.
- Si hay recursos de cómputo inactivos, el programador puede asignar a las startups más recursos que su cuota justa.
- Este modelo es similar al que usan grandes laboratorios de investigación como OpenAI y Deepmind, pero suele ser más accesible para startups con clústeres más pequeños y contratos de largo plazo.
- El objetivo es ofrecer recursos de cómputo a alrededor de $2.00 por cada GPU H100, con asignaciones explosivas y contratos de corto plazo.
- Las startups pueden unirse al grupo completando un formulario o contactando a los organizadores.
- Las startups pueden salir del clúster con un periodo de aviso previo, y nuevas startups pueden incorporarse por tandas.
- El grupo puede mantener una ligera sobreoferta para atender experimentos pequeños o solicitudes de amigos a buen precio.
- El financiamiento para la compra del clúster puede distribuirse con ayuda de un banco.
- El grupo planea tener 512 GPU H100 en línea en 4 a 6 semanas, y podría añadir más recursos si la demanda es alta.
- Se ofrece una lista de correo para depuración de infraestructura y un grupo de Slack como espacios donde los miembros pueden pedir ayuda con problemas de infraestructura.
1 comentarios
Comentarios en Hacker News