- Antes, los LLM se entrenaban principalmente con datos de internet, y en su mayoría todavía es así, pero cada vez es menos cierto
- El concepto de "simulador de internet" no es útil para predecir cómo se comportan GPT-5 y modelos posteriores
- Los modelos nuevos ya están yendo más allá de esa definición, y este cambio apenas está comenzando
Muro de datos (Data Wall)
- El paper de GPT-3 de OpenAI en 2020 describía en detalle el conjunto de datos de entrenamiento, pero eso ya es una reliquia del pasado
- Desde 2022, en el entrenamiento de LLM se empezó a usar retroalimentación personalizada de usuarios, y OpenAI y otras empresas son reservadas al hablar de sus datos de entrenamiento
- No se sabe con qué se entrenaron GPT-4, Sora o GPT-5, pero no fue simplemente con datos de internet
- Quienes entrenan LLM se han topado recientemente con un "muro de datos"
- OpenAI ya posee casi todos los datos disponibles en la web, así que para construir mejores LLM necesita obtener y generar datos privados
- Para los laboratorios con dinero, la respuesta es conseguir y producir datos privados
- Al principio, el enfoque estuvo en volver más útiles los datos de entrenamiento existentes o en agregar datos privados ya disponibles al pool de entrenamiento
- Por ejemplo
- Anotación y filtrado: los investigadores crean anotaciones sobre los datos de entrenamiento para concentrarse en datos de alta calidad y así construir mejores modelos
- RLHF: los laboratorios hacen que personas evalúen las salidas del modelo, y usan esos datos para ajustarlo finamente y fomentar comportamientos útiles
- Datos de uso: se dice que ChatGPT genera alrededor de 10 mil millones de tokens de datos al día
- Adquisición de datos: muchos datos no están en internet, como correos, logs de chat, manuales propietarios, tickets de JIRA, grabaciones de llamadas, reportes internos y contratos, y quienes entrenan modelos pueden agregarlos a los datos de entrenamiento
- Sin embargo, estas técnicas no resuelven por completo el problema de que los LLM son "débiles para generar salidas distintas de los datos existentes"
- A los LLM les cuesta realizar tareas como las siguientes (porque no hay mucho texto en línea que las muestre)
- Expresar duda o incertidumbre sobre una respuesta
- Mantener conversaciones largas sin frases repetidas ni bucles
- Elaborar planes de alto nivel que un agente LLM pueda seguir
- Razonar como un ingeniero principal sobre una gran base de código legacy
- Seguir de forma confiable prompts muy largos o complejos
- Una arquitectura mejorada y más parámetros pueden ayudar a resolver estas limitaciones, pero OpenAI, Meta, Google y Microsoft, entre otros, están gastando mucho dinero para cerrar esas brechas con un método más simple: crear nuevos ejemplos para entrenar
Los LLM ahora se entrenan con datos personalizados
- El reporte técnico de Phi-3 de Microsoft (publicado en abril) es un caso reciente del aumento de datos personalizados
- phi-3-mini tiene solo 3.8 mil millones de parámetros, pero muestra un rendimiento capaz de competir con modelos Mixtral más grandes y pesados
- Parte de esta mejora se explica por haber incluido en los datos de entrenamiento datos sintéticos de alta calidad generados por LLM más grandes
- Los datos sintéticos pueden cubrir vacíos en los datos fuente de internet y mejorar el rendimiento del modelo para un tamaño dado
- Los datos sintéticos son actualmente un tema destacado en la investigación sobre LLM
- Todavía no está claro hasta dónde se puede llegar entrenando un LLM con sus propias salidas (podría darse una situación parecida a una enorme serpiente de red neuronal comiéndose su propia cola)
- Pero al menos los datos sintéticos ayudarán a cerrar brechas que aparecen cuando un LLM se comporta como un "simulador de internet"
- Por ejemplo, si faltan ejemplos de entrenamiento para expresar incertidumbre o si los datos no son representativos y están sesgados, se pueden generar ejemplos mejores
- Sin embargo, crear excelentes datos sintéticos con LLM es un problema difícil y tendrá límites
- Por eso entra en escena la última gran fuente de datos fuera de internet: los "humanos"
¿Cuántos datos se pueden crear con mil millones de dólares al año ($1B)?
- Si pagas, la gente crea datos con gusto
- Scale.ai se describe a sí misma como una "fábrica de datos para IA" y opera un servicio en el que los laboratorios les pagan a personas para crear datos
- Se dice que las empresas de IA ya pagan más de mil millones de dólares al año por los servicios de Scale
- Parte de eso se destina a anotación y evaluación de datos tomados de la web o de LLM, pero también se crean desde cero nuevos datos de entrenamiento
- Scale se enfoca en trabajadores altamente especializados, como académicos con nivel de doctorado, abogados, contadores, poetas, escritores y personas con dominio de idiomas específicos
- Ellos entrenan y prueban modelos para empresas como OpenAI, Cohere, Anthropic y Google, y reciben pagos por hora más altos
- Empresas como OpenAI pueden pagar para que expertos creen datos nuevos y valiosos que llenen los huecos de los datos obtenidos de internet, y luego usar esos datos para entrenar modelos
- Un conjunto de datos como "50 mil ejemplos de cómo expresar una incertidumbre reflexiva cuando a un Ph.D. se le hace una pregunta cuya respuesta no conoce" podría valer mucho más que su costo de producción
- Originalmente se entendía que los LLM se entrenaban con internet, y que muchas de sus debilidades iniciales provenían de todo tipo de contenido misceláneo publicado en la web
- Pero a medida que crecen la escala y la influencia de los datos de entrenamiento personalizados, se espera que los LLM vayan mucho más allá de una simple "simulación de internet"
- En especial, seguirán avanzando en cosas que no están en internet, pero que pueden demostrarse con más de mil millones de dólares en generación de datos personalizados
- En otras palabras, este tren seguirá avanzando por un buen tiempo
La opinión de GN⁺
- La importancia de los datos: para mejorar el rendimiento de los LLM se necesitan datos de fuentes diversas. Los datos de internet por sí solos tienen límites.
- El problema del costo: generar datos personalizados requiere mucho dinero. Esto puede ser una carga importante para laboratorios o empresas pequeñas.
- Los límites de los datos sintéticos: los datos sintéticos son útiles, pero pueden diferir de los datos generados por humanos reales. Esto podría limitar el realismo del modelo.
- Perspectiva futura: se espera que el desarrollo de los LLM usando datos personalizados y sintéticos continúe. Esto puede traer innovación a muchos campos.
- La competencia: grandes empresas como OpenAI, Google y Microsoft están invirtiendo en la creación de datos personalizados, por lo que la competencia probablemente se intensificará.
2 comentarios
Al final, eso de la data wall se vuelve un problema cuando hay suficiente
compute, y más bien, al ver los problemas de eficiencia y suministro eléctrico, el límite al aumento delcompute, es decir, el tema de la cantidad de energía eléctrica, va a volverse más importante.Opiniones de Hacker News