Los LLM ya no se entrenan "con internet"

(allenpike.com)

20 puntos por GN⁺ 2024-06-03 | 2 comentarios | Compartir por WhatsApp

Antes, los LLM se entrenaban principalmente con datos de internet, y en su mayoría todavía es así, pero cada vez es menos cierto
El concepto de "simulador de internet" no es útil para predecir cómo se comportan GPT-5 y modelos posteriores
- Los modelos nuevos ya están yendo más allá de esa definición, y este cambio apenas está comenzando

Muro de datos (Data Wall)

El paper de GPT-3 de OpenAI en 2020 describía en detalle el conjunto de datos de entrenamiento, pero eso ya es una reliquia del pasado
- Desde 2022, en el entrenamiento de LLM se empezó a usar retroalimentación personalizada de usuarios, y OpenAI y otras empresas son reservadas al hablar de sus datos de entrenamiento
- No se sabe con qué se entrenaron GPT-4, Sora o GPT-5, pero no fue simplemente con datos de internet
Quienes entrenan LLM se han topado recientemente con un "muro de datos"
- OpenAI ya posee casi todos los datos disponibles en la web, así que para construir mejores LLM necesita obtener y generar datos privados
Para los laboratorios con dinero, la respuesta es conseguir y producir datos privados
- Al principio, el enfoque estuvo en volver más útiles los datos de entrenamiento existentes o en agregar datos privados ya disponibles al pool de entrenamiento
- Por ejemplo
  1. Anotación y filtrado: los investigadores crean anotaciones sobre los datos de entrenamiento para concentrarse en datos de alta calidad y así construir mejores modelos
  2. RLHF: los laboratorios hacen que personas evalúen las salidas del modelo, y usan esos datos para ajustarlo finamente y fomentar comportamientos útiles
  3. Datos de uso: se dice que ChatGPT genera alrededor de 10 mil millones de tokens de datos al día
  4. Adquisición de datos: muchos datos no están en internet, como correos, logs de chat, manuales propietarios, tickets de JIRA, grabaciones de llamadas, reportes internos y contratos, y quienes entrenan modelos pueden agregarlos a los datos de entrenamiento
Sin embargo, estas técnicas no resuelven por completo el problema de que los LLM son "débiles para generar salidas distintas de los datos existentes"
- A los LLM les cuesta realizar tareas como las siguientes (porque no hay mucho texto en línea que las muestre)
  1. Expresar duda o incertidumbre sobre una respuesta
  2. Mantener conversaciones largas sin frases repetidas ni bucles
  3. Elaborar planes de alto nivel que un agente LLM pueda seguir
  4. Razonar como un ingeniero principal sobre una gran base de código legacy
  5. Seguir de forma confiable prompts muy largos o complejos
Una arquitectura mejorada y más parámetros pueden ayudar a resolver estas limitaciones, pero OpenAI, Meta, Google y Microsoft, entre otros, están gastando mucho dinero para cerrar esas brechas con un método más simple: crear nuevos ejemplos para entrenar

Los LLM ahora se entrenan con datos personalizados

El reporte técnico de Phi-3 de Microsoft (publicado en abril) es un caso reciente del aumento de datos personalizados
- phi-3-mini tiene solo 3.8 mil millones de parámetros, pero muestra un rendimiento capaz de competir con modelos Mixtral más grandes y pesados
- Parte de esta mejora se explica por haber incluido en los datos de entrenamiento datos sintéticos de alta calidad generados por LLM más grandes
- Los datos sintéticos pueden cubrir vacíos en los datos fuente de internet y mejorar el rendimiento del modelo para un tamaño dado
Los datos sintéticos son actualmente un tema destacado en la investigación sobre LLM
- Todavía no está claro hasta dónde se puede llegar entrenando un LLM con sus propias salidas (podría darse una situación parecida a una enorme serpiente de red neuronal comiéndose su propia cola)
- Pero al menos los datos sintéticos ayudarán a cerrar brechas que aparecen cuando un LLM se comporta como un "simulador de internet"
  - Por ejemplo, si faltan ejemplos de entrenamiento para expresar incertidumbre o si los datos no son representativos y están sesgados, se pueden generar ejemplos mejores
Sin embargo, crear excelentes datos sintéticos con LLM es un problema difícil y tendrá límites
- Por eso entra en escena la última gran fuente de datos fuera de internet: los "humanos"

¿Cuántos datos se pueden crear con mil millones de dólares al año ($1B)?

Si pagas, la gente crea datos con gusto
- Scale.ai se describe a sí misma como una "fábrica de datos para IA" y opera un servicio en el que los laboratorios les pagan a personas para crear datos
- Se dice que las empresas de IA ya pagan más de mil millones de dólares al año por los servicios de Scale
- Parte de eso se destina a anotación y evaluación de datos tomados de la web o de LLM, pero también se crean desde cero nuevos datos de entrenamiento
- Scale se enfoca en trabajadores altamente especializados, como académicos con nivel de doctorado, abogados, contadores, poetas, escritores y personas con dominio de idiomas específicos
- Ellos entrenan y prueban modelos para empresas como OpenAI, Cohere, Anthropic y Google, y reciben pagos por hora más altos
Empresas como OpenAI pueden pagar para que expertos creen datos nuevos y valiosos que llenen los huecos de los datos obtenidos de internet, y luego usar esos datos para entrenar modelos
- Un conjunto de datos como "50 mil ejemplos de cómo expresar una incertidumbre reflexiva cuando a un Ph.D. se le hace una pregunta cuya respuesta no conoce" podría valer mucho más que su costo de producción
Originalmente se entendía que los LLM se entrenaban con internet, y que muchas de sus debilidades iniciales provenían de todo tipo de contenido misceláneo publicado en la web
Pero a medida que crecen la escala y la influencia de los datos de entrenamiento personalizados, se espera que los LLM vayan mucho más allá de una simple "simulación de internet"
- En especial, seguirán avanzando en cosas que no están en internet, pero que pueden demostrarse con más de mil millones de dólares en generación de datos personalizados
En otras palabras, este tren seguirá avanzando por un buen tiempo

La opinión de GN⁺

La importancia de los datos: para mejorar el rendimiento de los LLM se necesitan datos de fuentes diversas. Los datos de internet por sí solos tienen límites.
El problema del costo: generar datos personalizados requiere mucho dinero. Esto puede ser una carga importante para laboratorios o empresas pequeñas.
Los límites de los datos sintéticos: los datos sintéticos son útiles, pero pueden diferir de los datos generados por humanos reales. Esto podría limitar el realismo del modelo.
Perspectiva futura: se espera que el desarrollo de los LLM usando datos personalizados y sintéticos continúe. Esto puede traer innovación a muchos campos.
La competencia: grandes empresas como OpenAI, Google y Microsoft están invirtiendo en la creación de datos personalizados, por lo que la competencia probablemente se intensificará.

2 comentarios

bytebrawlers 2024-06-04

Al final, eso de la data wall se vuelve un problema cuando hay suficiente compute, y más bien, al ver los problemas de eficiencia y suministro eléctrico, el límite al aumento del compute, es decir, el tema de la cantidad de energía eléctrica, va a volverse más importante.

GN⁺ 2024-06-03

Opiniones de Hacker News

Este artículo señala varios puntos buenos y, en particular, Phi-3 es una tecnología muy interesante. Es extraño que no mencione arquitecturas recientes como Anthropic, Mistral y FAIR.
Los LLM modernos no se entrenan solo con datos recopilados de la web, sino con conjuntos de datos personalizados creados por muchas personas. Esto muestra potencial de crecimiento, pero existe el riesgo de escalar indefinidamente en la dirección equivocada.
Es un problema que los humanos generen datos sesgados. Como ejemplo de que los LLM no pueden producir respuestas originales, no logran proponer distintas maneras de inducir a alguien a hacer clic en el botón de suscripción de YouTube.
Los datos usados para entrenar LLM fueron proporcionados por programadores indios mal pagados. Ahora los datos los aportan expertos, pero existe la posibilidad de que eso cambie hacia mano de obra de bajos salarios.
La razón por la que fallaron los sistemas expertos es que había que seguir pagándoles a los expertos. La colaboración entre OpenAI y MS apunta a lograr AGI (inteligencia artificial general), pero tiene límites prácticos.
Entrenar modelos multimodales sigue siendo un desafío. No es la falta de datos, sino otros problemas, los que generan cuellos de botella.
Un conjunto de datos como "50,000 ejemplos que expresan cuidadosamente incertidumbre sobre preguntas que los Ph.D. no conocen" podría tener un valor mayor que su costo de producción.
Ojalá que, gracias a la inversión tecnológica, surja un programa tipo WPA que permita que escritores capacitados escriban. Eso podría crear una gran colección de obras humanas de alta calidad.
Parece que el próximo gran avance de la IA no estará relacionado con los datos.
OpenAI y otras pagarán grandes sumas a empresas que prometan mantener sus datos privados. Entre ellas estarían compañías como Slack, Atlassian y Dropbox.