Lo que los LLM nunca podrán hacer

(strangeloopcanon.com)

36 puntos por GN⁺ 2024-04-28 | 1 comentarios | Compartir por WhatsApp

[ Límites de los LLM ]

Sobre la desviación de objetivos y la baja confiabilidad de los LLM, o por qué los LLM no pueden resolver Conway's Game of Life
Aunque en los últimos años los LLM han resuelto de forma brillante problemas que se pensaba que no podían resolver, sigue sin estar claro por qué todavía no pueden responder preguntas que parecen simples
En las últimas semanas he intentado identificar los modos de falla de los LLM. Es algo raro, pero me parece un tema interesante. Los fracasos de la IA enseñan más que sus éxitos
Empecé desde la idea de que, para muchas de las tareas que los LLM terminarán realizando, hace falta evaluar cada paso, pero me enfoqué en encontrar una forma de confiar en su capacidad de aprendizaje entendiendo los límites de su razonamiento
Evaluar la capacidad de razonamiento de los LLM es difícil
- Es difícil separar la capacidad de razonamiento de los datos de entrenamiento
- Quería encontrar una manera de probar la capacidad de razonar de forma iterativa y responder preguntas
Empecé con la versión más simple que cumplía un criterio satisfactorio
- Si pueden crear de manera consecutiva cuadrículas de palabras de tamaño 3x3, 4x4 y 5x5
- La evaluación debe ser fácil de construir, fácil de calificar y aun así difícil de ejecutar
Todos los modelos de lenguaje grandes más recientes (incluidos Opus y GPT-4) fallan en esta tarea
- Estos modelos pueden responder preguntas complejas sobre economía, mecánica cuántica y otros temas, además de programar, dibujar, crear música y video, generar aplicaciones completas e incluso jugar ajedrez de alto nivel
- Pero no pueden resolver Sudoku

Reversal Curse

En los LLM existe el Reversal Curse, donde si el modelo aprende algo en el formato "A es B", no logra generalizarlo en sentido inverso como "B es A"
- Por ejemplo, si el modelo aprende que "Valentina Tereshkova fue la primera mujer en viajar al espacio", no responde automáticamente a la pregunta "¿Quién fue la primera mujer en viajar al espacio?"
- Es más, la probabilidad de la respuesta correcta ("Valentina Tereshkova") no es mayor que la de un nombre aleatorio
Los modelos no generalizan bien para entender las relaciones entre personas
Incluso los modelos de más alto nivel siguen teniendo este problema

¿No será un problema de distribución de los datos de entrenamiento?

Surgió la duda de si el problema se debía a rarezas en la distribución de los datos de entrenamiento. Como parecía que no les habíamos mostrado suficientes ejemplos, probé con algo determinista
Lo probé entrenando un transformer para predecir Cellular Automata
No parece haber un problema de traducción, ¡pero igual falla!
Hay al menos dos problemas distintos
1. Problemas que un LLM no puede resolver porque la información no está en los datos de entrenamiento y no fue entrenado para hacerlo
2. Problemas que un LLM no puede resolver por la forma en que está construido
Casi todo lo que vemos recuerda más al problema 2 que al problema 1

Por qué los LLM fundamentalmente no pueden hacerlo

Creo que el modelo tiene un problema de desviación de objetivos (goal drift): como está forzado a generar un token a la vez, no puede generalizar más allá del contexto dentro del prompt y no sabe dónde poner la atención
- Esa es también la razón por la que funciona el prompt injection: porque distorsiona el mecanismo de atención (por ejemplo, al decir algo como _### Instruction: ...` para hacer jailbreak al modelo)
Tanto en los LLM como en los humanos, el contexto es un recurso escaso
En resumen,
1. Los LLM son modelos probabilísticos que imitan el cómputo, y a veces lo imitan muy de cerca
2. Cuanto más grandes sean los modelos que entrenemos, más asociaciones implícitas en los datos aprenderán, lo que ayudará a un mejor razonamiento
- Las asociaciones aprendidas no siempre se mapean limpiamente con nuestras ideas
1. El razonamiento siempre ocurre en una sola pasada
- A menos que ese proceso esté descrito en detalle en los datos de entrenamiento, un LLM no puede detenerse, recopilar el estado del mundo, razonar, volver a revisar respuestas anteriores ni predecir respuestas futuras
- Incluso si se incluyen prompts y respuestas previas, el siguiente razonamiento sigue empezando desde cero en una sola pasada
1. Esto crea un problema en el que inevitablemente aparece una especie de 'deriva del objetivo' que vuelve poco confiable el razonamiento
- Esa es también la razón por la que funciona el prompt injection (porque distorsiona el mecanismo de atención)
- Esta 'deriva del objetivo' implica que los agentes o las tareas realizadas de manera repetitiva y secuencial son poco confiables
- Como la atención no es selectiva ni dinámica, 'olvida' dónde debería concentrarse
1. Los LLM no pueden reiniciar el contexto de forma dinámica
- Mientras que una máquina de Turing usa una cinta como memoria, un transformer usa estado interno (gestionado mediante self-attention) para seguir cálculos intermedios
- Eso significa que hay muchos tipos de cálculo en los que los transformers no rinden bien
1. Esto puede resolverse parcialmente con métodos como chain of thought o usando otros LLM para revisar y corregir la salida
- En esencia, se trata de encontrar una forma de volver a encarrilar el razonamiento
- Con prompts lo bastante ingeniosos e iteración paso a paso, los LLM pueden extraer casi todo lo que está en los datos de entrenamiento
- A medida que el modelo mejore, cada razonamiento también mejorará, ganará confiabilidad y hará posibles mejores agentes
1. Con mucho esfuerzo, se terminará teniendo un sistema GPT conectado, con múltiples iteraciones internas, verificación y corrección continua de errores, memoria externalizada y otros componentes funcionales
- Pero incluso así, aunque se avance por fuerza bruta para acercarse a una AGI en varios ámbitos, no podrá generalizar verdaderamente más allá de los datos de entrenamiento
- Aun así, sigue siendo algo milagroso

[ Experimento - por qué GPT no puede aprender Wordle ]

Los LLM no pueden jugar Wordle
- Lo mismo ocurre con Sudoku o con cuadrículas de palabras (la forma más simple de crucigrama)
Esto resulta sorprendente, porque estos problemas no son difíciles
- Incluso un estudiante de primaria puede intentarlo, pero ni los mejores LLM logran hacerlo
La primera hipótesis sería la falta de datos de entrenamiento
- Pero aquí no parece ser el caso
- Porque las reglas claramente están en los datos
- No es que Wordle haya quedado inevitablemente fuera de los datasets de entrenamiento actuales de los LLM
Otra hipótesis es que se deba a un problema de tokenización
- Pero eso tampoco es cierto
- Incluso si se les dan varias oportunidades y sus respuestas previas para que puedan iterar, siguen teniendo dificultades para llegar a la solución correcta
- Ni siquiera dejando espacios entre las letras hay mucha suerte
Incluso si se les vuelven a dar sus respuestas previas, el contexto y la pregunta, muchas veces reinician toda la secuencia de respuesta en lugar de editar algo en la celda [3,4]
En cambio, por su propia naturaleza, cada paso parece requerir distintos niveles de cálculo iterativo que ningún modelo parece capaz de realizar
- En cierto sentido esto tiene lógica, porque los modelos autorregresivos solo pueden hacer una pasada hacia adelante a la vez
  - Pueden seguir “pensando en voz alta” usando el almacén de tokens existente y la salida como bloc de notas, pero pierden el hilo demasiado rápido
La conclusión aquí es que, cuando cada paso requiere tanto memoria como cómputo, eso parece no poder resolverse dentro del número de capas y cabezas de atención que hoy tienen los transformers
- Esto ocurre incluso en modelos muy grandes como GPT-4, entrenados con billones de tokens
Irónicamente, no logran determinar dónde deben concentrar la atención
- Porque la forma en que hoy se aplica la atención es estática y procesa todas las partes de la secuencia al mismo tiempo
- En lugar de intentar alternativas usando varias heurísticas, siendo más selectiva y reiniciando dinámicamente el contexto
Esto se debe a que la atención tal como se mide hoy no es realmente un análisis jerárquico multihilo como el que hacemos nosotros
- O podría serlo de forma implícita, pero la evaluación probabilística que produce no traduce ese contexto a problemas individuales

[ Experimento - enseñar Cellular Automata a un LLM ]

Pensé que podría enseñarle lo básico porque, mientras aprende, se puede generar datos infinitos hasta obtener el resultado deseado
Quería crear un transformer de juguete para intentar hacer predicciones
A la izquierda está el CA y a la derecha la salida del Transformer, y se pide ver si se pueden distinguir
No se pudo entrenar para que predijera los resultados y no se logró averiguar la razón
Era un modelo de juguete, pero funcionaba lo suficiente como para aprender varias de las ecuaciones que se probaron e incluso hacía algo de generalización
Se redujo el tamaño de la cuadrícula y se intentó optimizar los hiperparámetros, pero aun así no funcionó
Se pensó que quizá hacía falta más información sobre el diseño físico, así que se añadieron capas CNN y se cambió el positional embedding para que tratara explícitamente los ejes X e Y. Aun así no funcionó
En plena desesperación, se intentó enseñarle aunque fuera una sola ecuación simple
Al principio no funcionaba para nada, pero al añadir tokens de inicio y fin de pronto empezó a funcionar. Los Transformer son extraños
No era perfecto en tamaño, pero casi estaba aprendiendo, a pesar de que apenas tenía cabezas o capas y max_iter era 1000
La idea era claramente que tenía que aprender varios estados y mantener un historial, así que pareció necesario añadir esa función de alguna manera. Por eso se modificó el decodificador para agregar otra entrada después de la salida. Esto equivale a añadir otra capa RNN o proporcionar memoria sobre qué pasos había atravesado antes
Pero siguió sin funcionar. Incluso al volver a los cellular automata e intentar con lo más básico, no funcionaba. Y eso que era unidimensional y había reglas realmente fáciles, no solo la 110, que es Turing-completa, sino también cosas como la 0
Que haya aprendido a dar la respuesta correcta en una serie de problemas, ¿significa que aprendió la regla fundamental? ¿O solo aprendió un análogo de esa regla para imitar los resultados dentro de una distribución dada? Quedando en un estado fácil de equivocarse de la manera incorrecta
El mismo problema aparece no solo en modelos de juguete o GPT 3.5, sino también en LLM más grandes como GPT-4, Claude y Gemini. Al menos en modo chat
Ya sea con fine-tuning o con entrenamiento especializado, parece que los LLM no pueden jugar Conway's Game of Life
Si alguien resolviera esto, sería sumamente interesante. Al menos si pudiera explicar por qué existe este problema

[ Cómo se ha resuelto este problema hasta ahora ]

Al diseñar este sistema, mientras más reflejemos nuestra inteligencia, mejor podrá el resultado final imitar la transformación necesaria
Se pueden enseñar rompecabezas individuales uno por uno y esperar que el razonamiento se transfiera, pero ¿cómo saber si realmente aprendió a generalizar? Hasta hace poco, incluso la suma y la multiplicación eran difíciles para este modelo
Victor Taelin afirma que "GPT nunca puede resolver problemas A::B". Era un ejemplo de que los modelos basados en transformer no pueden aprender de verdad problemas nuevos fuera del conjunto de entrenamiento ni realizar razonamiento de largo plazo
- Él dice: "un GPT potente básicamente hizo evolucionar un diseñador de circuitos dentro de sus pesos", y agrega que "pero, como modelo de cómputo, la rigidez de la attention impide que esos circuitos evolucionados se vuelvan lo bastante flexibles"
- "AGI intenta crecer dentro de eso, pero parece no poder hacerlo por las restricciones impuestas de cómputo y comunicación. Recuerda que el cerebro humano atraviesa siempre plasticidad sináptica. Existen arquitecturas flexibles con más probabilidad de conducir a AGI, aunque se entrenen a una escala mucho menor. Pero todavía no sabemos cuáles son."
Ofreció una recompensa de 10 mil dólares por este problema, y se resolvió en un solo día.

[ ¿Qué tan capaces de aprender son realmente los LLM? ]

Dudas sobre la capacidad de aprendizaje de los LLM

Los LLM suelen fallar incluso en juegos infantiles, como interacciones repetitivas simples o selección bajo restricciones
Sin embargo, los LLM pueden resolver problemas matemáticos difíciles, razonamiento económico competitivo, estimaciones de Fermi e incluso problemas de física en idiomas para los que no fueron entrenados explícitamente
Las respuestas de los LLM dependen en gran medida de la forma del prompt
Los LLM muestran una intuición sobresaliente, pero tienen una inteligencia limitada
A medida que aumentan los pasos de razonamiento, los LLM tienen más dificultades para identificar el objetivo y mantener el enfoque

Mejora del rendimiento de redes neuronales con memoria externa

Añadir conexiones de tipo RNN produce alguna diferencia, pero no es suficiente para resolver por completo el problema
Añadir memoria externa a una red neuronal permite aprender diversos patrones irregulares
Solo las redes que incorporan memoria estructurada (como una pila o una cinta de memoria) pueden generalizar con éxito en tareas libres de contexto y sensibles al contexto

Límites del prompting de cadena de pensamiento y del scratchpad

El prompting de cadena de pensamiento, el uso de scratchpads y escribir ideas intermedias en papel son ejemplos de procesos mentales para reducir la deriva del objetivo
Pero estos métodos siguen viéndose obstaculizados por el pecado original (original sin)
Las salidas que dependen de entradas previas, sobre todo cuando requieren cálculo en cada paso, son demasiado complejas y largas para que los modelos actuales basados en transformer las manejen bien

La maldición de la autoregresión

A mayor escala del modelo, se observa mejor rendimiento en cadenas largas de pensamiento, pero siguen apareciendo de forma persistente errores que parecen no tener relación con otras capacidades en puntos arbitrarios de la cadena de razonamiento
Incluso si resuelven la misma tarea a lo largo de varias etapas, mientras más larga sea la secuencia de pasos, más probable es que cometan errores
GPT-4 tiene menos alucinaciones y errores que GPT-3.5
¿Realmente la respuesta es construir modelos enormes como GPT-4 u Opus, que fallan en juegos como Wordle?

Preguntas sobre la naturaleza de la cognición

Si existen tipos de problemas que un alumno de primaria puede resolver con facilidad, pero que modelos sofisticados construidos con billones de tokens y decenas de miles de millones de dólares no pueden resolver, ¿qué nos dice eso sobre la naturaleza de nuestra cognición?
La parte G (generalización) de AGI es la parte más difícil, y no puede generalizar fácilmente más allá de la distribución
Lo que tenemos se parece más a una parte de la Biblioteca de Babel, y podemos leer no solo los libros ya escritos, sino también la información que existe en los espacios entre esos libros

Diferencias entre los datos de aprendizaje humanos y los de los LLM

Un humano puede leer entre 30 mil y 50 mil libros a lo largo de su vida, pero la mayoría de las personas no llega ni al 1% de eso (como máximo 1 GB de datos)
En cambio, los LLM han absorbido todo lo que hay en internet y mucho más, y han aprendido cientos de miles de millones de palabras a través de todos los dominios y disciplinas (GPT-3 fue entrenado con 45 TB de datos)
No es fácil responder cómo sería alguien que leyera 2 millones de libros, ni qué podría hacer un simple reconocedor de patrones si leyera 2 millones de libros
Los LLM aprenden los patrones y reglas implícitas de los datos de entrenamiento, pero no es fácil volver eso explícito
Si un LLM no tiene forma de conocer la ecuación relacionada con la coincidencia de patrones, no puede aprender a generalizar, por lo que la Reversal Curse sigue existiendo

[ Los LLM no pueden reiniciar el contexto ]

Decir que un LLM es como una entidad, una neurona o una parte de la neocorteza es una analogía útil en ciertos momentos, pero no captura por completo el comportamiento que observamos en los LLM
Lo interesante de los modelos que pueden aprender patrones es que aprenden patrones que quizá no estaban explícitamente incluidos en el conjunto de datos
En el proceso de aprender el lenguaje, los LLM captan múltiples conexiones inherentes a los datos, conectan a von Neumann con Charles Dickens y producen simulaciones lo bastante verosímiles de cosas que nosotros podríamos haber dicho

Complejidad del conjunto de datos y límites del tamaño del modelo

Incluso si asumimos que el conjunto de datos codifica toda la complejidad de la humanidad, la cantidad de esos patrones presentes incluso dentro de un conjunto de datos pequeño superaría rápidamente el tamaño del modelo
Eso es casi una inevitabilidad matemática
En el problema de los cellular automata, no está claro si el LLM realmente aprendió el método ni qué tan confiable es
Los errores de los LLM son un mejor indicador de lo que no saben que sus aciertos

Límites de los LLM que aprenden a aprender

Las redes neuronales más grandes no solo aprenderán de los datos, también aprenderán a aprender
Esa es la razón por la que los LLM pueden recibir algunos ejemplos y resolver problemas que no vieron en el conjunto de entrenamiento
Pero el método que usan los LLM no parece generalizar lo suficiente, sobre todo en lo que respecta a aprender dónde deben poner la atención
Aprender a aprender tampoco es un algoritmo global único para nosotros
En algunas cosas funciona mejor y en otras peor
Funciona de manera distinta según el tipo de problema
Todo esto tiene que escribirse con la misma cantidad de parámetros, así que el cómputo que puede realizarse a través de esos pesos no solo debe poder responder sobre los Muppets, sino también decirnos cuál será el próximo gran descubrimiento en física que destruya la teoría actual

Complejidad de las secuencias de símbolos que interactúan

Si en una secuencia de símbolos la existencia o posición de un símbolo interactúa de una manera que afecta el contenido informativo del siguiente símbolo, la entropía total de Shannon del conjunto de datos puede ser mayor de lo que se propondría observando solo símbolos individuales
Esto hace que las cosas que dependen del estado, como el Juego de la Vida de Conway, sean realmente difíciles
Esta también parece ser la razón por la que GPT no puede realmente aprender el patrón, a pesar de haber sido ajustado finamente con un conjunto de datos del Juego de la Vida
En cambio, GPT aprende lo suficiente como para poder responder preguntas (una especie de ley de Goodhart)

La dificultad de definir a los LLM con una prueba simple

Hacer una pregunta de orden superior para definir cualquiera de estos puntos con una prueba simple que pueda ejecutarse sobre un LLM es una tontería
Porque definir cualquiera de ellos probablemente equivaldría a definir de forma efectiva el panorama de más de medio siglo de investigación científica

[ Se necesitan más agentes ]

Al igual que en la teoría actual, agregar más recursión a los modelos LLM naturalmente los haría mejores
Sin embargo, solo podrían resolver problemas de planificación gradualmente más complejos en la medida en que puedan mantener en mente el objetivo original y el camino recorrido hasta ahora
Sigue sin estar claro por qué los LLM no son confiables
GPT-4 es más confiable que GPT-3.5, pero no está claro si eso se debe simplemente a que se volvió más hábil durante el entrenamiento o a que el escalado aumentó la confiabilidad y redujo las alucinaciones

Agentes: un caso de uso potente

Los agentes, es decir, entidades autónomas capaces de realizar tareas completas por nosotros, son el caso de uso soñado para los LLM
De hecho, en muchas tareas se necesitan más agentes
Si en algunas tareas funcionan un poco mejor, ¿con una cantidad suficiente de agentes funcionarían mejor en todas las tareas? Es posible, pero por ahora no parece probable
Con opciones como Devin de Cognition Labs, pudimos ver un vistazo de qué tan potente puede ser (presentación de un caso de uso real)

Posibilidad de expandirse a una parte considerable de los empleos en los próximos años

¿Podría este comportamiento expandirse a una parte considerable de los empleos en los próximos años? Parece que sí
Habrá que abordar cada empleo de manera individual, y eso dará lugar a modelos especializados que no escalan fácilmente (no un único modelo que domine todo)
Las versiones de código abierto ya están mostrando parte de los elementos clave
- Revisar cuidadosamente el orden y la cantidad de información que llega al modelo base, y crear un entorno en el que puedan prosperar teniendo en cuenta sus limitaciones, como ya vimos antes

Los límites de GPT y la solución

No importa que GPT no pueda resolver por sí solo problemas como el Juego de la Vida, ni siquiera cuando intenta pensar los pasos
Lo importante es que GPT puede escribir un programa para resolverlo
Es decir, podríamos acercarnos a la AGI si se pudiera entrenar a GPT para reconocer las situaciones en las que tiene sentido escribir un programa, en cualquier programa (esta es mi opinión)

Los límites de la capacidad del modelo y la relación competitiva entre modalidades visuales y de lenguaje

Al menos en los modelos pequeños, existe competencia entre los pesos por lo que se aprende
El mejor comentario que vi en el artículo de DeepSeek:
- DeepSeek-VL-7B muestra cierta caída en matemáticas (GSM8K)
- Esto sugiere que, a pesar de los esfuerzos por fomentar la armonía entre las modalidades visuales y de lenguaje, todavía existe una relación competitiva entre ambas
- Esto podría deberse a la capacidad limitada del modelo (7B), y modelos más grandes podrían aliviar considerablemente este problema

[ Conclusión ]

Cosas aprendidas a través de los casos anteriores
- Existen ciertos tipos de problemas que, por ahora, los LLM (Large Language Model) no pueden resolver
  - En particular, se trata de problemas que requieren pasos de razonamiento más largos, como depender de estados previos o tener que predecir estados futuros
  - Ejemplos de ello son jugar Wordle o predecir CA (Cellular Automata)
- Si se usan LLM más grandes, es posible enseñarles cierto grado de razonamiento proporcionándoles información paso a paso sobre el problema y varios ejemplos a seguir
  - Sin embargo, esto equivale a poner en el prompt una abstracción del problema real y la forma de pensar la respuesta
- Esto puede mejorar de las siguientes maneras
  1. Mejor prompting
  2. Mejor acceso a memoria, cómputo y herramientas en etapas intermedias
  - Sin embargo, no llegará a un nivel de conciencia generalizable comparable al que usamos al hablar de los humanos
  - Toda la información que se le ingresa a un LLM probablemente pueda extraerse si se le da el prompt adecuado
- Por lo tanto, una parte enorme de usar correctamente el modelo consiste en crear prompts adecuados según la tarea que se quiera realizar
  - Esto puede requerir construir cuidadosamente largas secuencias de respuestas correctas e incorrectas para problemas computacionales, con el fin de preparar al modelo para responder apropiadamente junto con guardrails externos
- La "atención" (Attention) es vulnerable a la deriva de objetivos (Goal Drift), por lo que es muy difícil hacerla confiable sin un andamiaje externo considerable
  - Los errores que cometen los LLM brindan información mucho más útil que sus aciertos
Para alcanzar la AGI (Artificial General Intelligence) y lograr un nivel suficiente de generalización, se necesitan mejoras arquitectónicas fundamentales
- Ampliar la escala de los modelos existentes y añadir nuevas arquitecturas como Jamba los hará más eficientes, rápidos y estables, pero no resolverá problemas fundamentales como la falta de generalización o la "deriva de objetivos"
No basta con añadir agentes especializados para hacer "prompt engineering" y hacer que 17 GPT hablen entre sí
- Sin embargo, con suficientes soluciones temporales, en las áreas que nos interesan tal vez no podamos distinguir los resultados
Cuando aparecieron por primera vez los motores de ajedrez en los inicios de la era de la IA, tenían capacidad de procesamiento limitada y funciones de búsqueda o evaluación casi inútiles
- Por eso tuvieron que depender de soluciones temporales como aperturas o finales codificados a mano, iterative deepening para mejorar la búsqueda y alpha-beta pruning
- Con el tiempo eso se superó mediante mejoras graduales, y con los LLM pasa algo similar
La idea que prefiere el autor es tener varios agentes de planificación en distintos niveles de jerarquía, capaces de dirigir a otros agentes especializados con sus propios subagentes interconectados, una vez que la confiabilidad mejore un poco
Podemos añadir módulos para razonamiento e iteración, agregar memoria persistente y de acceso aleatorio, e incluso darles comprensión del mundo físico
- En ese punto, parecería posible obtener en un LLM una aproximación de conciencia similar a la que vemos en los animales, pero ¿realmente será así?
- También podría terminar siendo un modelo estadístico extremadamente convincente que imita lo que necesitamos mientras se sale de la distribución
Esa es la razón por la que el autor llama a los LLM un procesador difuso (Fuzzy Processor), y por la que preguntas como "qué se siente ser un LLM" terminan en conversaciones circulares
Esto no debe tomarse como señal alguna de que lo que tenemos hoy no sea milagroso
- Pensar que la Bitter Lesson no se extrapolará por completo hasta la AGI no significa que los frutos que ya tenemos no sean extraordinarios
El autor está convencido de que los LLM sí "aprenden" de los datos que ven
- No son simples compresores ni loros
- Pueden conectar datos con matices provenientes de distintas partes del dataset de entrenamiento o del prompt y ofrecer respuestas inteligentes
Thomas Nagel probablemente habría planteado la pregunta de cómo es ser un LLM
- Como mamíferos, los murciélagos están más cerca de nosotros que los LLM, y si su interior ya nos resulta borroso, ¿qué posibilidades hay de que entendamos el funcionamiento interno de modelos nuevos?
- O al contrario, dado que en los LLM podemos inspeccionar libremente todos los pesos y circuitos, ¿qué nivel de comprensión podremos tener sobre estos modelos que usamos?
Esta es la razón por la que el autor está oficialmente dispuesto a aceptar la idea
- Las estadísticas suficientemente escaladas son indistinguibles de la inteligencia dentro de la distribución de los datos de entrenamiento
- Tampoco para todo, ni lo bastante como para hacerlo todo, pero tampoco es un espejismo
- Por eso los errores en las pruebas son mucho más útiles para el diagnóstico que los éxitos
Si los LLM son máquinas que pueden hacer cualquier cosa, al final deberían poder hacer la mayoría de las cosas
- Con muchos estímulos y empujones
- Tal vez no inspiren la genialidad de Bach o von Neumann, pero sí podrían posibilitar innovaciones y descubrimientos más ordinarios, aunque no por ello menos importantes
- Y podrían hacerlo sin necesidad de conciencia ni de personalidad moral
- Si se puede automatizar o acelerar el progreso dentro de un paradigma, del que hablaba Kuhn, entonces se vuelve posible dar saltos libres entre paradigmas

1 comentarios

GN⁺ 2024-04-28

Opinión de Hacker News

Resumen:

Actualmente existen problemas que para los humanos son fáciles pero para los LLM (modelos de lenguaje grandes) son difíciles, o quizá imposibles, como Wordle o la predicción de autómatas celulares como Rule 110. La razón todavía no está del todo clara.
Dar ejemplos e instrucciones paso a paso en el prompt no significa que el LLM descubra por sí mismo los "pasos de razonamiento", sino que el usuario se los está proporcionando. Tenemos una "máquina de razonamiento" que parece inteligente, pero que choca con límites fundamentales.
No está claro si se puede alcanzar la AGI con modelos más grandes basados en el mecanismo actual de Attention y con mejores prompts. Attention es muy rígido, mientras que el cerebro humano experimenta plasticidad sináptica constantemente. Podría existir una arquitectura más flexible capaz de hacer posible la AGI, pero todavía no la conocemos.
Por ahora, para usar los modelos de IA actuales hay que construir prompts largos con mucho cuidado: preparar con esmero respuestas correctas e incorrectas para problemas computacionales, hacer priming para que el modelo responda adecuadamente y aplicar muchos guardrails externos.
Attention parece sufrir de "deriva de objetivos", por lo que es difícil asegurar confiabilidad sin todos esos apoyos externos.
Para cuantificar teóricamente las limitaciones de los LLM, habría que apoyarse en resultados teóricos y no en una lista de evidencia empírica sobre cosas que hoy no pueden hacer. En la literatura relacionada puede buscarse el término "expressibility".
Incluso reglas simples, como las convenciones de notación numérica, fallan en muchos ejemplos y a menudo no funcionan bien sin importar cómo se construya el prompt. Es sorprendente, pero sigue habiendo muchas limitaciones.
Les cuesta seguir instrucciones del tipo "menciona un dato interesante pero no digas que es interesante". De hecho, si se les dice que no hagan algo, aumenta la probabilidad de que lo hagan.
Aun si asumimos que los LLM "razonan", se están construyendo sistemas de Agentic AI que enfrentan las alucinaciones no con respecto al mundo, sino con respecto a los hechos, entidades y relaciones causales contenidos en los documentos. También lidian con el razonamiento cruzado a distancias de tokens muy grandes.
Se piensa que la necesidad de manejar bien complejidades de segundo orden como relaciones entre personas, rencores y alianzas llevó a niveles más altos de inteligencia.
Algunas cosas que "definitivamente no pueden hacer", como Wordle/Sudoku, son solo artefactos de la representación textual; si se transforman a otro dominio, la tasa de éxito sería mucho mayor incluso usando la misma arquitectura Transformer.
No hace falta crear una AGI personalizada para todos los dominios; basta con tener un agente que razone lo suficientemente bien como para descomponer un problema, asignarlo a herramientas especializadas y luego recomponer la respuesta, junto con un catálogo de modelos/herramientas.

Lo que los LLM nunca podrán hacer

[ Límites de los LLM ]

Reversal Curse

¿No será un problema de distribución de los datos de entrenamiento?

Por qué los LLM fundamentalmente no pueden hacerlo

[ Experimento - por qué GPT no puede aprender Wordle ]

[ Experimento - enseñar Cellular Automata a un LLM ]

[ Cómo se ha resuelto este problema hasta ahora ]

[ ¿Qué tan capaces de aprender son realmente los LLM? ]

Dudas sobre la capacidad de aprendizaje de los LLM

Mejora del rendimiento de redes neuronales con memoria externa

Límites del prompting de cadena de pensamiento y del scratchpad

La maldición de la autoregresión

Preguntas sobre la naturaleza de la cognición

Diferencias entre los datos de aprendizaje humanos y los de los LLM

[ Los LLM no pueden reiniciar el contexto ]

Complejidad del conjunto de datos y límites del tamaño del modelo

Límites de los LLM que aprenden a aprender

Complejidad de las secuencias de símbolos que interactúan

La dificultad de definir a los LLM con una prueba simple

[ Se necesitan más agentes ]

Agentes: un caso de uso potente

Posibilidad de expandirse a una parte considerable de los empleos en los próximos años

Los límites de GPT y la solución

Los límites de la capacidad del modelo y la relación competitiva entre modalidades visuales y de lenguaje

[ Conclusión ]

Lecturas relacionadas

1 comentarios

Opinión de Hacker News