Comprender los límites del razonamiento matemático en los LLM

(arxiv.org)

2 puntos por GN⁺ 2024-10-13 | 1 comentarios | Compartir por WhatsApp

El aumento de puntajes en GSM8K por sí solo dificulta evaluar la capacidad real de razonamiento matemático de los LLM; GSM-Symbolic permite una evaluación más controlada mediante múltiples variantes con la misma estructura de problema
Este benchmark convierte problemas de GSM8K en plantillas simbólicas, ajustando nombres, números y cantidad de cláusulas condicionales; a partir de 100 plantillas genera 50 muestras por plantilla, para formar 5,000 ejemplos por benchmark
En 25 modelos recientes, tanto abiertos como cerrados, incluso con la misma estructura de problema, cambiar solo los números redujo el rendimiento y aumentó la varianza; el puntaje original de GSM8K quedó a la derecha de la distribución de GSM-Symbolic en 21 de los 25 modelos
A medida que aumentaron las cláusulas condicionales, la precisión bajó y la varianza subió: Gemma2-9B-it cayó de 84.4% en GSM-M1 a 41.8% en GSM-P2, y GPT-4o bajó de 94.4% a 88.0%
En GSM-NoOp, donde se agregaron cláusulas irrelevantes pero aparentemente relacionadas, el rendimiento de todos los modelos cayó de forma marcada; Phi-3-mini quedó 65.7 puntos porcentuales por debajo de GSM8K, lo que muestra que no distingue de forma estable la información necesaria de la innecesaria

Capacidad de razonamiento matemático difícil de evaluar solo con GSM8K

GSM8K contiene más de 8,000 problemas de matemática de primaria con sus soluciones, compuesto por 7,473 ejemplos de entrenamiento y 1,319 ejemplos de prueba
Al tratarse de problemas matemáticos relativamente simples centrados en las cuatro operaciones básicas, se usa ampliamente para evaluar prompts de Chain-of-Thought(CoT)
En una estructura de test fija y única solo se obtiene una medición de precisión, por lo que resulta difícil controlar el comportamiento del modelo ante variaciones de preguntas o cambios de dificultad
Cuanto más usado es un benchmark, mayor es también la posibilidad de contaminación de datos, es decir, que ejemplos de prueba queden incluidos accidentalmente en los datos de entrenamiento del modelo
GSM-Symbolic convierte problemas de GSM8K en plantillas simbólicas para crear diversas variantes y evalúa el rendimiento de razonamiento matemático de los LLM como una distribución de rendimiento, no como un único puntaje
Las plantillas de GSM-Symbolic y los datos generados están publicados en apple/ml-gsm-symbolic

Generación de plantillas y método de evaluación

GSM-Symbolic se construyó convirtiendo ejemplos específicos del conjunto de prueba de GSM8K en plantillas parseables
- Se especifican variables, rangos de variables y condiciones que garantizan que la respuesta sea correcta
- Debido a las características de los problemas de matemática de primaria, se usan con frecuencia condiciones como divisibilidad para que la respuesta sea un entero
- Se aprovechan nombres propios comunes, como nombres de personas, comida y monedas, para simplificar la generación de plantillas
Después de generar las plantillas, se realizan varias verificaciones automáticas
- Se comprueba que los valores originales de las variables no permanezcan en la plantilla
- Se verifica que los valores originales satisfagan todas las condiciones
- Se confirma que la respuesta final generada coincida con la respuesta del problema original
- Se revisan manualmente 10 muestras aleatorias por plantilla
- Tras evaluar todos los modelos, si al menos 2 modelos no resuelven correctamente un problema, se vuelve a revisar manualmente
Los rangos numéricos se ajustan para que sean cercanos a los del conjunto de prueba original de GSM8K
- El objetivo no es evaluar la capacidad aritmética en sí, sino la capacidad de razonamiento lógico
- El análisis del apéndice confirma que los rangos numéricos ampliados se mantienen dentro de los límites donde los modelos conservan su precisión aritmética
La evaluación incluye más de 20 modelos abiertos de 2B a 27B y modelos cerrados recientes como GPT-4o-mini, GPT-4o, o1-mini y o1-preview
En total se realizaron unas 500 evaluaciones; los experimentos principales usan benchmarks de 5,000 ejemplos, compuestos por 100 plantillas y 50 muestras por plantilla
Salvo que se indique lo contrario, se sigue la configuración de 8-shot CoT y greedy decoding, común en GSM8K y otros benchmarks matemáticos
- En experimentos preliminares, la cantidad de shots no cambió de forma significativa el rendimiento ni las conclusiones

Rendimiento inestable incluso con la misma estructura de problema

En los 50 datasets de GSM-Symbolic, todos los modelos recientes muestran una varianza de precisión que no puede ignorarse
- Gemma2-9B presenta una diferencia superior al 12% entre su peor y mejor rendimiento
- En Phi-3.5-mini, esa diferencia es de aproximadamente 15%
La única diferencia entre instancias de una pregunta son los nombres y los números; todos los pasos de razonamiento necesarios para resolver el problema son iguales
El rendimiento sobre los 100 problemas originales de GSM8K se ubica en muchos modelos a más de 1 desviación estándar a la derecha del centro de la distribución de rendimiento de GSM-Symbolic
- Este fenómeno aparece en 21 de los 25 modelos
- Una explicación posible es la contaminación de datos, donde ejemplos de prueba de GSM8K entran accidentalmente en los datos de entrenamiento del modelo y hacen que el rendimiento se mida de forma optimista
Al pasar de GSM8K a GSM-Symbolic, el rendimiento de todos los modelos cae
- Mistral-7b-it-v0.1: -9.2 puntos porcentuales
- Gemma2-2b y Gemma2-2b-it: -7.4 puntos porcentuales cada uno
- Gemma2-9b, Gemma2-9b-it y Mistral-7b-it-v0.3: -6.2 puntos porcentuales cada uno
- GPT-4o-mini: -2.4 puntos porcentuales; o1-preview: -2.2 puntos porcentuales
- o1-mini: -0.6 puntos porcentuales; GPT-4o: -0.3 puntos porcentuales
Modelos como Llama3-8b y GPT-4o, cuyo rendimiento en GSM8K está cerca del centro de la distribución de GSM-Symbolic, muestran caídas pequeñas

Más sensibilidad a cambios numéricos que a cambios de nombres

Incluso al cambiar solo los nombres hay fluctuaciones de rendimiento, pero la varianza es menor que al cambiar los números
La precisión original en GSM8K está más cerca del centro de la distribución donde solo cambian los nombres
- Al cambiar los números, o nombres y números juntos, la media de la distribución se desplaza hacia la izquierda y la varianza aumenta
La precisión 8-shot CoT de Gemma2-9b-it es: GSM8K 87.0%, cambio de nombres 88.6±2.0%, cambio de números 83.1±2.2%, ambos cambios 79.1±3.0%
Phi-3.5-mini-instruct obtiene: GSM8K 88.0%, cambio de nombres 89.1±1.8%, cambio de números 84.9±2.4%, ambos cambios 82.1±3.4%
Mathstral-7b-v0.1 obtiene: GSM8K 80.0%, cambio de nombres 81.0±1.3%, cambio de números 77.3±2.0%, ambos cambios 74.0±3.5%
Estos resultados sugieren que el proceso de razonamiento de los LLM podría estar más cerca de hacer pattern matching con preguntas y pasos de solución similares vistos en los datos de entrenamiento que de un razonamiento formal

Vulnerabilidad revelada por el aumento de cláusulas y GSM-NoOp

El experimento de dificultad usa GSM-M1, que elimina una cláusula de GSM-Symbolic; GSM-P1, que agrega una cláusula; y GSM-P2, que agrega dos cláusulas
- Agregar o eliminar una cláusula no significa que la cantidad de pasos de razonamiento necesarios aumente o disminuya exactamente en uno
- El foco del experimento está en cómo cambia la distribución de rendimiento, más que en el número exacto en sí
A medida que aumenta la cantidad de cláusulas, el rendimiento promedio baja en todos los modelos y la varianza sube
- Gemma2-9b-it: GSM-M1 84.4±2.4%, GSM-Symb 79.1±3.0%, GSM-P1 68.1±4.8%, GSM-P2 41.8±6.0%
- Phi-3.5-mini-instruct: 87.6±2.0%, 82.1±3.4%, 64.8±5.4%, 44.8±6.3%
- GPT-4o-mini: 92.5±1.6%, 91.7±2.0%, 81.1±3.1%, 72.4±4.6%
- GPT-4o: 94.4±1.6%, 94.9±1.9%, 93.9±2.6%, 88.0±3.4%
- o1-mini: 94.9±1.5%, 94.5±1.6%, 94.3±2.6%, 89.1±3.6%
GSM-NoOp es un dataset que agrega a las plantillas de GSM-Symbolic cláusulas que no son necesarias para resolver el problema, pero parecen relacionadas
- En el ejemplo, la información de que “5 de los kiwis recolectados el domingo eran un poco más pequeños que el promedio” no afecta el cálculo del total de kiwis
- o1-mini y Llama3-8B convierten esos 5 en una operación de resta sobre la cosecha del domingo y dan una respuesta incorrecta
Los modelos tienden a convertir oraciones en operaciones en vez de ignorarlas según su significado
- También se observaron casos donde expresiones como “discount” se interpretan como multiplicación sin importar el contexto
En GSM-NoOp, el rendimiento de todos los modelos evaluados cae de forma marcada
- Phi-3-mini-128k-instruct: -65.7 puntos porcentuales frente a GSM8K
- Phi-3-small-128k-instruct: -64.0 puntos porcentuales
- Gemma2-9b y Gemma2-9b-it: -63.0 puntos porcentuales cada uno
- Phi-3.5-mini-instruct: -62.5 puntos porcentuales
- GPT-4o-mini: -40.0 puntos porcentuales; GPT-4o: -32.0 puntos porcentuales
- o1-mini: -29.1 puntos porcentuales; o1-preview: -17.5 puntos porcentuales
Incluso en la configuración NoOp-Symb, que proporciona como shots 8 variantes GSM-Symbolic de la misma pregunta, el rendimiento permanece dentro del rango de la desviación estándar
- Phi-3-medium-128k-instruct: GSM 87.3%, GSM-Symb 82.5%, GSM-NoOp 29.4%, NoOp-Symb 30.2%, NoOp-NoOp 22.6%
- Llama3-8b-instruct: GSM 76.0%, GSM-Symb 74.6%, GSM-NoOp 18.6%, NoOp-Symb 19.6%, NoOp-NoOp 19.2%
En la configuración NoOp-NoOp, que proporciona como shots otros 8 problemas GSM-NoOp, la recuperación de rendimiento también es limitada
- Llama3-8B tiene el mismo rendimiento que en NoOp original
- Phi-3 baja ligeramente su rendimiento
Algunos modelos con bajo rendimiento en GSM8K y GSM-Symbolic muestran mejor rendimiento en NoOp-Symb
- Gemma2b: GSM 12.1%, GSM-Symb 8.2%, GSM-NoOp 4.7%, NoOp-Symb 48.3%, NoOp-NoOp 3.1%
- Mistral-7b-v0.1: GSM 44.5%, GSM-Symb 41.1%, GSM-NoOp 16.2%, NoOp-Symb 62.5%, NoOp-NoOp 14.5%
En conjunto, los resultados muestran que el razonamiento matemático de los LLM es vulnerable a variantes de un mismo problema, a ligeros aumentos de dificultad y a la incorporación de información irrelevante, y que podría parecerse más a un pattern matching probabilístico

1 comentarios

GN⁺ 2024-10-13

Opiniones de Hacker News

No afirmaría con total seguridad que los LLM realmente razonen, pero la forma en que baja su rendimiento se parece a lo que veo en estudiantes de primer año de universidad.
Actualmente enseño cálculo, y casi la mitad de mis alumnos cursaron Cálculo AP en la preparatoria. Resuelven bien los problemas simples, pero cuando tienen que encadenar varios pasos, aunque sean sencillos, su precisión baja y la variación aumenta.
Si se agregan oraciones irrelevantes al problema, aparece un resultado parecido. A muchos estudiantes se les entrenó para usar toda la información dada, así que si omiten información que dio el profesor, es fácil que piensen que se perdieron algo importante.
Por eso creo que los LLM modernos como GPT-4o rinden más o menos al nivel de un egresado promedio de preparatoria en Estados Unidos. En términos de desempeño humano es decepcionante, pero para los LLM también es una buena señal de que ya pueden ayudar a mucha gente.
- Cuando un LLM acierta, se parece más a extraer probabilísticamente la respuesta correcta dentro del modelo gracias a la enorme cantidad de información que ingirió durante el entrenamiento.
  Los humanos han desarrollado formas más sofisticadas de procesar datos y razonar con unas cuantas explicaciones, videos de YouTube y algunos ejercicios, sin necesidad de leer mil millones de problemas de matemáticas ni respuestas de Stack Overflow.
  Que obtengan puntajes similares en áreas como matemáticas de preparatoria puede deberse a que la IA actual y los humanos están, por casualidad, en el mismo punto. Si se observan de cerca los patrones de error, ambos fallan de maneras muy distintas, y los fallos de la IA actual les parecen bastante absurdos a los humanos.
- Decir que “los LLM modernos como GPT-4o están más o menos al nivel de un egresado promedio de preparatoria en Estados Unidos” puede ser correcto en sentido estricto, pero la diferencia en cómo se usan los LLM y los egresados de preparatoria es muy importante.
  Los LLM responden con la misma confianza cuando aciertan y cuando se equivocan, y muchas veces se le presentan al usuario como si fueran impecables.
  Si le preguntas a una persona promedio un problema lógico de dificultad media, esa persona suele desconfiar adecuadamente de su respuesta porque ha sido socializada con la idea de que los humanos no son buenos para la lógica. En cambio, un LLM está sobre una computadora, y las computadoras se han percibido como interfaces que siempre aciertan en matemáticas y lógica.
  Por eso creo que los LLM tienen más probabilidad de desorientar a mucha gente que de ayudarla.
- Me pregunto si es porque los problemas de los exámenes de preparatoria son demasiado simples, o porque en los datos de entrenamiento hay demasiados patrones parecidos.
  Cuando se incluyen problemas simples pero nuevos que requieren una comprensión real de conceptos matemáticos básicos, los resultados siguen siendo malos, y lo mismo ocurrió con problemas del nivel del examen de ingreso a la preparatoria en China.
  Parecía que los LLM no entienden las matemáticas, sino que hacen coincidencia de patrones, y ese tipo de coincidencia de patrones puede ser útil solo para estudiantes que ya tienen cierto dominio.
- No entiendo por qué la gente todavía se confunde con esto. Estos modelos, fundamentalmente, tienen parámetros de aleatoriedad para evitar salidas deterministas y parecer que realmente piensan, así que parece claro que no hay razonamiento ocurriendo.
- No quiero denigrar el sistema escolar estadounidense, pero me parece bastante cercano al modo fácil. No todo el mundo tiene que destacar académicamente, pero aprender es más fácil cuando uno es niño, y creo que llevar demasiado de la mano perjudica el aprendizaje.
Este artículo muestra que, si se agrega información irrelevante, el rendimiento de los LLM empeora mucho en problemas básicos de álgebra
Un ejemplo sería algo como: “John recogió 43 kiwis el lunes y 24 el martes; de los kiwis que recogió el miércoles, 5 eran más pequeños de lo normal. Si en total recogió 87 kiwis entre lunes, martes y miércoles, ¿cuántos recogió el miércoles?”
Que algunos kiwis del miércoles fueran pequeños es irrelevante, pero al incluir una oración así, el rendimiento en un benchmark famoso cae del 95% al 77% en GPT-4o
Aun así, esto no me parece tan impresionante. Una persona que lee un problema así también tiene que considerar dos posibilidades: puede ser información irrelevante, o puede ser que el problema esté mal redactado y que originalmente esa información se quisiera usar de forma relevante
Si veo una pregunta trampa para LLM que invierte un acertijo lógico famoso, creo que yo también “me equivocaría”. No porque no entienda el problema, sino porque, sin contexto, podría asumir que esa inversión es un error tipográfico
- Incluir trampas pequeñas de ese tipo es una táctica en la enseñanza de matemáticas y física para comprobar si el estudiante realmente entiende el problema nuevo, en vez de seguir mecánicamente la estructura superficial del problema anterior
  El argumento aquí es que el LLM no razona, sino que responde de forma mecánica, como si girara una manivela
  Este problema no desentonaría en un examen de matemáticas de sexto grado. Recuerdo claramente haber aprendido, en problemas redactados, la habilidad de distinguir entre la información realmente relacionada con la pregunta y la información señuelo puesta por el docente
- En el discurso real se mezcla mucha información irrelevante por todo tipo de razones
  Hay contextos estrechos, como el ámbito académico o profesional, donde las preguntas se plantean de manera cuidadosa y específica, pero una herramienta de asistencia de propósito general debería poder encontrar lo relevante entre lo irrelevante
  La capacidad de resolver bien problemas matemáticos muy bien definidos puede ser útil como herramienta de asistencia para dominios específicos, pero no es la misma capacidad en sí
  Si un proyecto de IA está apostando 100.000 millones de dólares a llegar a la AGI, le conviene confundir esos contextos. En ese caso, profundizar en problemas formales como los del SAT, LSAT o GRE se parece más a optimizar para microbenchmarks que para casos de uso reales
- Distinguir información irrelevante es una habilidad que se enseña incluso en primaria y que también se necesita en el SAT
  De hecho, cualquier tipo de modelo, aunque no sea un LLM ni aprendizaje automático, tiene que filtrar información irrelevante
  La clave es dar una respuesta lógicamente defendible y con la que la mayoría estaría de acuerdo. Si el modelo hubiera dicho “no estoy seguro de si esta parte es un error tipográfico”, los creadores del modelo habrían orientado el RLHF de otra manera. Eso es razonable y defendible hasta cierto punto
  Sin embargo, creo que este problema específico sí tiene una única respuesta objetiva. Por supuesto, no todos los prompts engañosos o irrelevantes son así, pero el modelo, por la forma en que responde, en la práctica está cayendo en la trampa
  Lo veo así porque, como trabajador de RLHF, a veces recibo instrucciones para escribir preguntas parecidas. Al final, esta es la forma de predicción del lenguaje que quieren los creadores del modelo, y el usuario simplemente se sube a ese flujo
- Creo que este resultado es válido. Los modelos Transformer no ejecutan la lógica de manera explícita; más bien “adivinan” la respuesta mediante mecanismos de atención, basándose en la secuencia de entrada y el conocimiento aprendido, y en última instancia predicen una secuencia de texto
  Por eso, si se agrega contexto irrelevante a la entrada, es muy probable que la salida se vea afectada
  El mecanismo de atención podría superarlo, pero si no lo hace, es una trampa bastante grande para las aplicaciones reales y la confiabilidad. En entornos reales, muchas veces no está claro de inmediato qué información es relevante
  Si una persona tiene que decidir qué información incluir y la salida también depende de ese juicio, la utilidad del modelo se reduce mucho. Sigue siendo útil incluso ahora, pero el nivel que parecen esperar los inversionistas es mucho más alto que eso
- La capacidad de filtrar la señal del ruido es tan importante como, o quizá incluso más importante que, la capacidad de generar conclusiones a partir de la señal, así que este resultado importa
Este resultado se parece mucho al problema de Alice in Wonderland que se discutió hace unos meses. Otros autores de artículos lo ven de forma mucho más crítica y lo llaman un “colapso total del razonamiento”
También se podría decir que estos problemas aparecen porque el modelo está en un estado intermedio entre el reconocimiento de patrones y el razonamiento
Si los resultados cambian en más de 20 puntos porcentuales al cambiar los personajes, los números y la estructura de las oraciones del problema, creo que es difícil confiar en los resultados de benchmarks de LLM relacionados con matemáticas y razonamiento
https://arxiv.org/html/2406.02061v1
https://news.ycombinator.com/item?id=40811329
- Había un ejemplo interesante relacionado con la capacidad de razonamiento: https://x.com/colin_fraser/status/1834336440819614036
  “Un hombre fue llevado al hospital. El médico lo vio y exclamó: ‘No puedo operar a esta persona. ¡Es mi hijo!’. ¿Cómo es posible?”
  Todos los LLM que probé, incluso GPT o1-preview, respondieron mal esta pregunta. Asumen que es un acertijo sobre romper el estereotipo de género de que el médico es hombre, pero aquí dice “he exclaims”, así que queda claro que el médico es hombre; no hay contradicción, y ese hombre podría ser el padre del paciente
  Parece que el LLM se equivoca porque encuentra un patrón de razonamiento parecido y luego lo aplica. Incluso con pistas adicionales siguió cometiendo el error, y en un momento llegó a afirmar que podía tratarse de una relación entre personas del mismo sexo
  Curiosamente, cuando este ejemplo apareció en el hilo de O1, mucha gente en HN también malinterpretó el problema. Quizá los humanos también razonan usando muchos ejemplos previos en vez de pensar desde cero
- Claude-3.5 y o1-preview sí resolvieron correctamente este problema
  En “Alice tiene 3 hermanos y 2 hermanas. ¿Cuántas hermanas tiene el hermano de Alice?”, la clave es que los hermanos cuentan como hermanas no solo a las 2 hermanas de Alice, sino también a la propia Alice, así que la respuesta es 3 en total
- La discusión más grande en HN sobre el artículo de Alice in Wonderland está aquí
  https://news.ycombinator.com/item?id=40585039
Una explicación más simple también podría ser posible para eso de que “a medida que aumenta la cantidad de cláusulas en la pregunta, el desempeño en razonamiento matemático cae mucho, y los LLM actuales no realizan verdadero razonamiento lógico”: tokenización
Si se tokeniza “12345 * 27271”, se divide en algo como “123”, “45”, “ *”, “ ”, “272”, “71”
En el contexto de aritmética simple, la posibilidad estadística de que esos tokens se predigan entre sí casi no tiene sentido
Puede verse como un punto donde hace falta usar herramientas, y yo también estoy de acuerdo con eso, pero es difícil ver esto como una buena señal para el “verdadero razonamiento lógico”
- Nanda y otros lograron recuperar el mecanismo exacto con el que un Transformer fue entrenado para realizar suma modular
  Al final, en los Transformer los datos de entrenamiento son clave, y vamos a aprender cada vez más que el orden en que se hace aprender esos datos es muy importante. Pero está claro que un Transformer puede codificar una solución generalizada para la aritmética
  Con un esquema de tokenización y un procedimiento de entrenamiento adecuados, se puede crear un LLM con capacidades aritméticas estadísticamente robustas. Aun así, yo no confiaría en un modelo probabilístico por encima de la certeza algorítmica de una calculadora; pero lo más importante para los matemáticos es si estos modelos pueden razonar sobre problemas complejos y ayudar a abrir nuevas áreas de problemas matemáticos difíciles aprovechando la fuerza estadística de sus pesos
  https://arxiv.org/abs/2301.05217
- Discrepo respetuosamente. Es cierto que la tokenización afecta el procesamiento de entrada de los modelos de lenguaje, pero atribuir toda la dificultad del razonamiento matemático a la tokenización es demasiado simplista
  Los modelos de lenguaje modernos no dependen solo de predecir tokens individuales, sino que construyen representaciones contextuales a lo largo de varias capas. De lo contrario, habría sido imposible que los modelos funcionaran salvo en casos extremadamente simples
  La caída de desempeño al aumentar la complejidad puede deberse a otros factores, como límites de memoria de trabajo o de alcance de atención, dificultad para mantener coherencia en secuencias largas, o dificultad para gestionar simultáneamente varias restricciones lógicas interdependientes
  En cualquier caso, creo que el modelo o1 de OpenAI ahora está funcionando muy bien en matemáticas. Su enfoque iterativo y guiado por el modelo de cadena de pensamiento parece manejar problemas bastante complejos
- Si se cambiara un poco la tokenización, por ejemplo asignando un dígito a un token, ¿no ayudaría en este problema en particular?
- Un LLM también debería saber que “123” y “45” son partes consecutivas de un número. Es parecido a cuando una persona dice “123”, hace una pausa muy breve y luego dice “45”, y aun así entendemos que es un solo número
Me cuesta entender la estupidez del mundo en que vivimos. Parece demasiado evidente que el mercado bursátil es una burbuja, y en especial que las acciones relacionadas con IA son una burbuja enorme
Aunque cuando reviente se va a ver muy feo, sigue entrando dinero. Como dijo Sabine, se está pareciendo a la actitud en física de partículas de pedir solo colisionadores más grandes. Si la metodología está equivocada, agrandar el colisionador no va a producir retornos significativos
Al final se acabará el efectivo exponencial que se está inyectando y los inversionistas empezarán a hacer preguntas. Las acciones ya están valuadas a más de 60 veces sus ganancias, y nadie va a querer ser quien compró en la cima cuando la burbuja reviente
Al público general le tomará más tiempo darse cuenta de los problemas de los LLM, pero eventualmente ocurrirá
- Las predicciones de escalamiento de hace 5 años han sido correctas hasta ahora. Se siguieron aumentando los parámetros y el cómputo, y los modelos siguieron volviéndose más potentes
  Los defectos de los LLM en 2024 no son lo importante. Así como los defectos de los LLM en 2021 tampoco lo fueron, lo importante es el ritmo de cambio y la falta de evidencia de que esta subida pronunciada no vaya a continuar
  En particular, si vemos GPT-4 como una especie de modelo de adelanto que impulsó inversiones enormes, los modelos empujados por esa inversión empezarán a aparecer en los próximos 2 años
  Si la tendencia se rompe y el escalamiento falla, creo que se desinflará buena parte de la burbuja
  https://arxiv.org/pdf/2001.08361
- Desde hace décadas, las computadoras pueden hacer cálculos matemáticos y deducción lógica de forma barata y perfecta, y para que la IA generativa sea útil no necesariamente tiene que hacer eso directamente bien
  Basta con que pueda escribir y ejecutar código Python para resolverlo, y por lo general eso lo hace bastante bien
  Si realmente puede hacerlo es una pregunta académicamente interesante, pero es independiente de si es útil. Para ser útil tampoco tiene que ser necesariamente una AGI real
Hay mucha discusión sobre si las cláusulas irrelevantes confunden a los LLM y si eso importa, pero creo que lo más grave es esta parte: “en el benchmark GSM-Symbolic, solo cambiar los valores numéricos de las preguntas hace que el desempeño de todos los modelos baje”
Esto parece una evidencia difícil de refutar de sobreajuste. En el mejor de los casos, significa que el sobreajuste está muy extendido en los LLM actuales en general; en el peor, está ocultando una limitación fundamental: que no logran aprender razonamiento matemático a partir de los datos de entrenamiento
Muy interesante, y coincide con mis expectativas sobre el tipo de “pensamiento” que hacen los LLM
Creo que con solo este tipo de “pensamiento” podrían aprobar la mayoría de las materias escolares. Por supuesto, la excepción serían las materias donde el profesor se esmera en poner preguntas de examen difíciles de resolver por pattern matching
Si pensamos en preguntas de entrevista tipo LeetCode, es una diferencia parecida a qué problemas son mejores o peores para evaluar a un candidato
También sé que mucha gente está trabajando intensamente para agregar otros tipos de pensamiento que funcionen junto con modelos de lenguaje puros
Pruebo los LLM de una forma similar. Por ejemplo, el famoso acertijo lógico del granjero que cruza el río con una col, una cabra y un lobo ya se podía resolver desde GPT-2, pero si se cambia el lobo por una vaca, gpt-o infiere correctamente las reglas del acertijo y aun así no logra resolverlo
- Los acertijos de cruce de río son buenos para mostrar cómo se desmoronan los LLM
  Por ejemplo, probé varias variantes en Gemini, incluida una versión fácil donde no existía la restricción de que la barca del granjero solo pudiera llevar un pasajero u objeto a la vez
  Si se pregunta: “un granjero tiene cónyuge, una gallina, una col y un bebé, y todos deben cruzar el río en una barca. ¿Cuál es la mejor manera?”, en mis pruebas el LLM casi siempre asumía que la barca tenía un límite de carga y generaba una solución rara con múltiples viajes de ida y vuelta
- ¿Qué pasaría si uno creara directamente un juego lógico completamente nuevo que nunca haya sido documentado en ninguna parte y le pidiera a un LLM que lo resolviera? Para mí, que no soy experto, parece una buena forma de medir el razonamiento de la IA
- He usado esto como primera pregunta cada vez que pruebo un LLM nuevo, y estoy bastante seguro de que los modelos anteriores a GPT-4 casi nunca se acercaban a la respuesta correcta. ¿Podrías mostrar un prompt que GPT-2 o 3 puedan resolver?
- En definitiva, significa que no es más que un Google llamativo
Sería interesante si este tipo de trabajo pudiera ampliarse para mostrar también los límites del razonamiento matemático en animales y humanos.
Por ejemplo, así como un perro nunca entendería una transformada de Fourier, es muy probable que existan ideas que los humanos tampoco puedan comprender.
Si pudiéramos conocer nuestros límites, me pregunto si podríamos crear máquinas que razonen de maneras que los humanos no pueden.
- Suponer que esos límites realmente existen puede ser, en sí mismo, una hipótesis ingenua. Aquí, “existir” se refiere a límites útiles que puedan describirse de forma coherente y relativamente simple.
  En el lenguaje también se exploraron ideas similares a través de Noam Chomsky, intentando trazar límites claros y formalizados de la comprensión para mostrar cómo las capacidades humanas difieren de las de los animales.
  Personalmente creo que ese enfoque fracasó de manera irreversible, pero eso no significa que la investigación en sí no haya servido de nada.
Para cualquiera que haya trabajado con razonamiento formal, no es un resultado sorprendente. Los LLM no realizan verdadero razonamiento lógico en el sentido formal, y un SMT solver puede hacerlo mejor.
Al mismo tiempo, si los datos de entrenamiento abarcan casi todo lo escrito hasta ahora, entonces con solo aplicar “pasos de razonamiento” provenientes de esos datos de entrenamiento se pueden resolver muchos problemas lógicos.
Ambas cosas pueden ser ciertas al mismo tiempo; no es una contradicción, sino una dicotomía interesante.

Comprender los límites del razonamiento matemático en los LLM

Capacidad de razonamiento matemático difícil de evaluar solo con GSM8K

Generación de plantillas y método de evaluación

Rendimiento inestable incluso con la misma estructura de problema

Más sensibilidad a cambios numéricos que a cambios de nombres

Vulnerabilidad revelada por el aumento de cláusulas y GSM-NoOp

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News