Entrenar un LLM completamente desde cero
- Hay mucha curiosidad sobre la experiencia de haber entrenado con éxito en Reka un potente modelo de lenguaje multimodal.
- Se comparten los desafíos y las lecciones del proceso de construir infraestructura y entrenar desde cero modelos de lenguaje grandes y multimodales.
- Se espera que esta publicación resulte interesante y educativa para muchas personas.
La lotería del hardware en la era de los LLM
- El primer requisito indispensable para entrenar un modelo es conseguir poder de cómputo.
- Sorprende la inestabilidad de los proveedores de cómputo y las diferencias en la calidad de los clústeres, aceleradores y conectividad.
- La diferencia en la calidad del hardware es grande, y en el entrenamiento esto realmente se siente como una "lotería del hardware".
GPU vs TPU
- En Reka se entrenan los modelos principalmente con GPU.
- En comparación con la experiencia de usar TPU en Google, sorprende la tasa de fallas de las GPU.
- La capacidad del equipo de hardware es importante, lo que refuerza la idea de la "lotería del hardware".
El dolor de una configuración multiclúster
- Resulta extraño tener que configurar nuevos entornos en varios clústeres.
- Es inevitable tener pools de aceleradores distribuidos en múltiples clústeres.
- Hay incomodidades al manejar grandes volúmenes de datos, y replicar datos no es algo sencillo a gran escala.
Código salvaje
- T5X y MeshTensorflow eran sus codebases favoritas, pero fuera de Google tienen poco soporte y son difíciles de usar.
- Se eligió PyTorch por ser más accesible.
- Se percibe que la calidad de las codebases externas está por detrás de la que existe dentro de Google.
Menos principios, más Yolo
- En principio, los modelos deberían escalarse de forma sistemática, pero en una startup hay menos recursos de cómputo, así que se hacen muchas ejecuciones estilo Yolo.
- Entrenar modelos potentes con una cantidad limitada de intentos es un reto.
Resumen
- La experiencia en el mundo real fue interesante, pero dolorosa.
- Fue más difícil de lo esperado por la escasez de recursos de cómputo y la inestabilidad de los proveedores, pero se superó gracias a la capacidad técnica.
- Solo se cuenta una parte del proceso de fundar la empresa, levantar capital, comprar chips y competir con Gemini pro/GPT 3.5, además de superar a muchos otros.
Opinión de GN⁺
- Este artículo muestra bien los problemas y desafíos reales que enfrenta una startup al entrenar desde cero un modelo de lenguaje a gran escala. Esto puede ofrecer una perspectiva realista a ingenieros de software principiantes.
- La importancia de elegir el hardware y las diferencias resultantes en tasas de falla y nivel de soporte son factores que deben considerarse al iniciar un gran proyecto en una startup o empresa pequeña.
- El artículo resalta las limitaciones técnicas que enfrenta una startup en comparación con la infraestructura de grandes empresas como Google. Esto muestra por qué hay que ser cuidadosos al tomar decisiones tecnológicas en una startup.
- Sugiere que construir la infraestructura y las herramientas necesarias para entrenar modelos a gran escala puede ser un proceso muy complejo y difícil. Esto es una consideración importante al elegir un proveedor de servicios en la nube o decidir construir hardware propio.
- A pesar de los problemas y desafíos técnicos, transmite un mensaje positivo: una startup puede superar las dificultades con capacidad técnica y lograr resultados exitosos.
1 comentarios
Opiniones de Hacker News