Quiet-STaR: cómo enseñar a pensar antes de hablar a un modelo de lenguaje
- Las personas a veces se detienen para pensar cuando escriben o hablan, y este tipo de razonamiento está implícito en casi todo texto escrito.
- En Self-Taught Reasoner (STaR), se propone una forma de aprender pensamientos útiles: inferir la justificación a partir de unos pocos ejemplos en preguntas y respuestas, y aprender de las justificaciones que conducen a la respuesta correcta.
- Quiet-STaR es una generalización de STaR, en la que se entrena al modelo de lenguaje para generar una justificación en cada token con el fin de explicar el texto futuro y así mejorar sus predicciones.
Principales desafíos y soluciones
- Existen desafíos como el costo computacional de la generación continua de texto, el hecho de que al principio el modelo de lenguaje no sabe cómo generar ni usar pensamientos internos, y la necesidad de predecir más allá del siguiente token individual.
- Para resolver estos problemas, se propone un algoritmo de muestreo paralelo por token que usa tokens aprendibles para indicar el inicio y el final de los pensamientos, junto con una técnica extendida de teacher-forcing.
Mejora del rendimiento del modelo
- Las justificaciones generadas ayudan a predecir tokens difíciles y mejoran la capacidad del modelo de lenguaje para responder directamente preguntas difíciles.
- Tras continuar el preentrenamiento de un modelo de lenguaje con Quiet-STaR sobre un corpus de texto de internet, se encontraron mejoras zero-shot en GSM8K (5.9%→10.9%) y CommonsenseQA (36.3%→47.2%), además de una mejora en la perplejidad de tokens difíciles en texto natural.
- Estas mejoras se logran sin ajuste fino para esas tareas.
Opinión de GN⁺
- Quiet-STaR muestra un paso adelante hacia modelos de lenguaje que puedan aprender a razonar de una forma más general y escalable.
- Esta investigación representa un avance importante para reforzar la comprensión del lenguaje y la capacidad de razonamiento en inteligencia artificial, y puede contribuir al desarrollo de la tecnología de procesamiento de lenguaje natural.
- Desde una mirada crítica, cuando esta tecnología se aplique a problemas complejos del mundo real podría producir resultados inesperados, por lo que se necesitan más investigaciones y medidas de seguridad.
- Otros proyectos con funciones similares incluyen la serie GPT de OpenAI y BERT de Google, que también siguen investigando cómo mejorar la comprensión y generación del lenguaje.
- Entre los aspectos a considerar al adoptar esta tecnología están la calidad y diversidad de los datos de entrenamiento, el uso ético del modelo y el costo computacional; entre sus beneficios potenciales está la creación de modelos de lenguaje más precisos y detallados.
1 comentarios
Comentarios de Hacker News