2 puntos por GN⁺ 2023-07-31 | 1 comentarios | Compartir por WhatsApp
  • SF Compute es un grupo que reúne a startups e institutos de investigación para comprar y compartir en conjunto recursos de cómputo para el entrenamiento de modelos a gran escala.
  • En lugar de que cada startup compre su propio clúster de GPU, el grupo compra un clúster con un total de GPU proporcional al número de startups.
  • Con base en la propiedad, el programador de tareas asigna de forma justa los recursos de cómputo a todas las startups.
  • Esto permite que las startups avancen rápidamente en el entrenamiento de modelos usando 512 GPU durante una semana, evitando la molestia de tener que mantener ocupadas 128 GPU de forma continua durante un mes.
  • Si hay recursos de cómputo inactivos, el programador puede asignar a las startups más recursos que su cuota justa.
  • Este modelo es similar al que usan grandes laboratorios de investigación como OpenAI y Deepmind, pero suele ser más accesible para startups con clústeres más pequeños y contratos de largo plazo.
  • El objetivo es ofrecer recursos de cómputo a alrededor de $2.00 por cada GPU H100, con asignaciones explosivas y contratos de corto plazo.
  • Las startups pueden unirse al grupo completando un formulario o contactando a los organizadores.
  • Las startups pueden salir del clúster con un periodo de aviso previo, y nuevas startups pueden incorporarse por tandas.
  • El grupo puede mantener una ligera sobreoferta para atender experimentos pequeños o solicitudes de amigos a buen precio.
  • El financiamiento para la compra del clúster puede distribuirse con ayuda de un banco.
  • El grupo planea tener 512 GPU H100 en línea en 4 a 6 semanas, y podría añadir más recursos si la demanda es alta.
  • Se ofrece una lista de correo para depuración de infraestructura y un grupo de Slack como espacios donde los miembros pueden pedir ayuda con problemas de infraestructura.

1 comentarios

 
GN⁺ 2023-07-31
Comentarios en Hacker News
  • Un comentarista menciona un proyecto similar en el que participó antes y expresa su deseo de que este proyecto tenga éxito
  • Un comentarista reflexiona sobre los cambios en la disponibilidad de las TPU y los desafíos que enfrentó en proyectos anteriores
  • Un comentarista expresa una actitud optimista sobre el proyecto actual y recomienda al equipo aceptar activamente las ideas de otras personas
  • Otro comentarista compara el modelo de negocio del proyecto con proveedores de nube como AWS y Azure
  • Se sugiere alojar la infraestructura fuera de California debido a los altos costos
  • Se pregunta por la comparación del proyecto con Lambda Labs
  • Se pregunta por el posible uso del proyecto para estudiantes universitarios y de posgrado
  • Se recomienda usar vast.ai para machine learning como hobby
  • Se menciona la idea de una cooperativa de GPU
  • Se pregunta por el origen del nombre del proyecto y los planes de participación de la comunidad
  • Se pregunta cómo se financió la compra de las H100
  • Los comentarios incluyen dos mensajes de error