5 puntos por GN⁺ 2024-03-08 | 1 comentarios | Compartir por WhatsApp

Entrenar un LLM completamente desde cero

  • Hay mucha curiosidad sobre la experiencia de haber entrenado con éxito en Reka un potente modelo de lenguaje multimodal.
  • Se comparten los desafíos y las lecciones del proceso de construir infraestructura y entrenar desde cero modelos de lenguaje grandes y multimodales.
  • Se espera que esta publicación resulte interesante y educativa para muchas personas.

La lotería del hardware en la era de los LLM

  • El primer requisito indispensable para entrenar un modelo es conseguir poder de cómputo.
  • Sorprende la inestabilidad de los proveedores de cómputo y las diferencias en la calidad de los clústeres, aceleradores y conectividad.
  • La diferencia en la calidad del hardware es grande, y en el entrenamiento esto realmente se siente como una "lotería del hardware".

GPU vs TPU

  • En Reka se entrenan los modelos principalmente con GPU.
  • En comparación con la experiencia de usar TPU en Google, sorprende la tasa de fallas de las GPU.
  • La capacidad del equipo de hardware es importante, lo que refuerza la idea de la "lotería del hardware".

El dolor de una configuración multiclúster

  • Resulta extraño tener que configurar nuevos entornos en varios clústeres.
  • Es inevitable tener pools de aceleradores distribuidos en múltiples clústeres.
  • Hay incomodidades al manejar grandes volúmenes de datos, y replicar datos no es algo sencillo a gran escala.

Código salvaje

  • T5X y MeshTensorflow eran sus codebases favoritas, pero fuera de Google tienen poco soporte y son difíciles de usar.
  • Se eligió PyTorch por ser más accesible.
  • Se percibe que la calidad de las codebases externas está por detrás de la que existe dentro de Google.

Menos principios, más Yolo

  • En principio, los modelos deberían escalarse de forma sistemática, pero en una startup hay menos recursos de cómputo, así que se hacen muchas ejecuciones estilo Yolo.
  • Entrenar modelos potentes con una cantidad limitada de intentos es un reto.

Resumen

  • La experiencia en el mundo real fue interesante, pero dolorosa.
  • Fue más difícil de lo esperado por la escasez de recursos de cómputo y la inestabilidad de los proveedores, pero se superó gracias a la capacidad técnica.
  • Solo se cuenta una parte del proceso de fundar la empresa, levantar capital, comprar chips y competir con Gemini pro/GPT 3.5, además de superar a muchos otros.

Opinión de GN⁺

  • Este artículo muestra bien los problemas y desafíos reales que enfrenta una startup al entrenar desde cero un modelo de lenguaje a gran escala. Esto puede ofrecer una perspectiva realista a ingenieros de software principiantes.
  • La importancia de elegir el hardware y las diferencias resultantes en tasas de falla y nivel de soporte son factores que deben considerarse al iniciar un gran proyecto en una startup o empresa pequeña.
  • El artículo resalta las limitaciones técnicas que enfrenta una startup en comparación con la infraestructura de grandes empresas como Google. Esto muestra por qué hay que ser cuidadosos al tomar decisiones tecnológicas en una startup.
  • Sugiere que construir la infraestructura y las herramientas necesarias para entrenar modelos a gran escala puede ser un proceso muy complejo y difícil. Esto es una consideración importante al elegir un proveedor de servicios en la nube o decidir construir hardware propio.
  • A pesar de los problemas y desafíos técnicos, transmite un mensaje positivo: una startup puede superar las dificultades con capacidad técnica y lograr resultados exitosos.

1 comentarios

 
GN⁺ 2024-03-08
Opiniones de Hacker News
  • Una startup se entiende como una organización con pocas personas y mucho capital para invertir en un clúster de entrenamiento. El artículo explica que muchas startups y empresas ya establecidas operan alquilando servidores. La mayoría de los creadores de LLM (Large Language Model) entrenan con hardware y datos similares, usando datos de texto e imágenes. Cada LLM tiene su propia "salsa secreta", y eso marca diferencias en la calidad de sus resultados. Pero, en general, todo este proceso parece un trabajo duplicado que consume mucha energía.
  • Este texto trata sobre la experiencia de Yi Tay, quien fue líder técnico de tecnologías como PaLM, UL2, Flan y Bard en Google, al convertirse en cofundador de Reka y entrenar un LLM como startup independiente. La conversación que motivó a Yi Tay a escribir esta publicación está registrada aquí.
  • Me enteré de Reka.ai por esta publicación. Los LLM de Reka.ai no se han discutido mucho en Hacker News. Por curiosidad, probé la interfaz de chat de Reka Flash comparándola con ChatGPT 4, Gemini Advanced, Claude 3 y Mistral Large. Los resultados están aquí. En general, Reka Flash no parece ni claramente peor ni claramente mejor que los otros LLM. Claro, harían falta más pruebas para llegar a una conclusión firme.
  • El autor asume que los lectores entienden "la naturaleza salvaje" como "fuera de Google". El texto da mucho crédito a la infraestructura y al equipo de hardware de Google, y dan ganas de leer la perspectiva de alguien interno de Google haciendo este tipo de trabajo en otro lugar.
  • La página principal de Reka.AI parece ser un clon típico de ChatGPT que cobra por tokens, es decir, un LLM. No está claro en qué se diferencia de otras empresas. El precio parece similar al de ChatGPT 3.5-Turbo.
  • Entrenar un LLM desde cero es un tema tan importante para la velocidad y el alcance de la evolución de la IA como las mejoras en hardware puro. El blog es entretenido, pero algo superficial y poco técnico, y no contiene nada sorprendente para alguien con experiencia manejando clústeres de GPU. Tampoco queda claro por qué recomendar Jax sobre PyTorch para LLM fuera de Google. Ojalá esta nueva empresa publique un reporte más técnico sobre su aventura de entrenamiento.
  • Solo cubre una pequeña parte de la historia: iniciar la empresa, levantar capital, comprar chips y construir un LLM al nivel de GPT 3.5 en menos de un año, superando a muchos otros productos. Me pregunto cuánto presupuesto se fue en chips o GPU en la nube. ¿Algo así como entre 2 y 5 millones de dólares?
  • Una gran duda es cómo las pequeñas startups sin el contexto o la trayectoria adecuados consiguen financiamiento para productos de LLM. El mundo de las startups de LLM se parece al de los hedge funds y private equity, donde los requisitos previos para semilla o financiamiento parecen ser un historial laboral prestigioso o la experiencia adecuada, junto con una red sólida de inversionistas dispuestos a apostar antes de que el producto siquiera arranque.
  • Me pregunto si el título no debería ser "from the ground up" en lugar de "ground zero".
  • Lo que cuenta sobre el proceso de datos de entrenamiento es muy interesante, pero me gustaría leer más.