GPT-5.5 tiene 3 veces más alucinaciones que GLM-5.2 con licencia MIT

(arrowtsx.dev)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

Mientras crece el escepticismo entre los grandes laboratorios de IA sobre la estrategia de escalado infinito, aparece un caso que muestra que el tamaño del modelo no garantiza precisión en el mundo real
GLM-5.2, un modelo open weight con licencia MIT, tiene 753B parámetros y unos 40B parámetros activos, y se acerca hasta quedar a 4 puntos de GPT-5.5
En AA-Omniscience, la tasa de alucinación fue de 28% para GLM-5.2, 86% para GPT-5.5 y 94% para DeepSeek V4 Pro, lo que hace que la brecha en calibración de incertidumbre sea tan importante como la puntuación de rendimiento
En una prueba de Python, DeepSeek V4 Pro se equivocó incluso usando 3 min 52 s y 7.7k reasoning tokens, mientras que GLM-5.2 detectó la imposibilidad técnica en 12 s y con unos 800 tokens
Elegir un modelo no puede basarse solo en la cantidad de parámetros o en el rendimiento teórico; también hay que considerar la capacidad bruta, la tasa de alucinación y la eficiencia computacional

Dudas sobre la estrategia de escalado de modelos

Entre los principales laboratorios de IA está creciendo el escepticismo hacia el enfoque de seguir elevando el rendimiento solo mediante más parámetros y más datos de entrenamiento
Claude Fable 5 fue restringido por el gobierno de EE. UU. tres días después de su lanzamiento, y se trató como el primer caso de prohibición de una IA estadounidense derivado de seguridad nacional
- El hecho de que uno de los modelos más grandes del mundo haya sido vetado por el riesgo de un solo jailbreak se usa como ejemplo de los límites del paradigma de escalado
Los modelos grandes siguen logrando puntuaciones altas en el Artificial Analysis Intelligence Index, pero los modelos open weight también han recortado mucho la distancia
- GLM-5.2 de Z.ai es un LLM open weight con licencia MIT y 753B parámetros, con unos 40B parámetros activos
- GLM-5.2 se ha acercado hasta quedar a 4 puntos de GPT-5.5 y a 9 puntos de Fable 5 en el Artificial Analysis Intelligence Index
- En un contexto donde se estima que los modelos cerrados son entre 1.5 y 2 veces más grandes que GLM-5.2, esta reducción de la brecha refuerza la posibilidad de un plateau de la inteligencia real

La tasa de alucinación expone un problema de calibración de incertidumbre

Los modelos entrenados con grandes volúmenes de datos factuales y no teóricos pueden reforzarse en la dirección de responder incluso cuando no saben
La tasa de alucinación del benchmark AA-Omniscience varía mucho entre modelos
- Comparación de tasas de alucinación: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6T parámetros, 49B parámetros activos, 44 puntos en el AA Intelligence Index, tasa de alucinación de 94%
- GLM-5.2: tasa de alucinación de 28%
- Opus 4.8: tasa de alucinación de 36%
- Fable 5: tasa de alucinación de 48%
- GPT-5.5: tasa de alucinación de 86%
La tasa de alucinación de 94% de DeepSeek V4 Pro significa que, en las preguntas donde no logró encontrar la respuesta, solo dijo “no lo sé” en alrededor de 6% de los casos, y en el resto dio respuestas incorrectas con seguridad

Eficiencia computacional divergente en una prueba de Python

La prueba comparativa se realizó con una pregunta de Python relativamente compleja que contenía un defecto de arquitectura claro
- Ambos modelos se probaron en OpenRouter con high reasoning effort y temperature 1
- El system prompt fue: “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 fue ofrecido por Z.ai con precisión FP8, y DeepSeek V4 Pro por Baidu Qianfan también con precisión FP8
DeepSeek V4 Pro generó una respuesta incorrecta y segura incluso después de usar 3 min 52 s y 7.7k reasoning tokens
GLM-5.2 determinó en 12 s y con solo unos 800 reasoning tokens que era técnicamente imposible que una tarea single-threaded realizara multiplexed I/O sin yielding ni system polling
Aumentar sin control el reasoning budget, el tamaño del corpus o la cantidad de parámetros puede terminar desperdiciando cómputo y elevando el riesgo de producir respuestas incorrectas pero plausibles
Incluso los modelos muy grandes pueden no decir “no lo sé” o no reconocer errores lógicos y técnicos sofisticados, por lo que hay que evaluar en conjunto la raw capability, la uncertainty calibration / hallucination rate y la computational efficiency

1 comentarios

GN⁺ 4 시간 전

Opiniones de Hacker News

Decir que la inteligencia real se ha estancado mucho y que seguir entrenando modelos más grandes en el futuro no solo hará que la inteligencia se estanque sino que incluso empeore es una afirmación bastante audaz
No entiendo por qué concluyen que modelos más grandes y más datos necesariamente llevan a más alucinaciones. En los últimos años, en la práctica ha ocurrido lo contrario, y aunque algunos modelos todavía pueden alucinar más, los modelos actuales alucinan mucho menos que el ChatGPT inicial de 175B, que era más pequeño y fue entrenado con muchos menos datos
Mencioné los datos por las citas sobre que los principales laboratorios de IA se están volviendo escépticos respecto a la expansión infinita del número de parámetros y de los datos de entrenamiento. La situación actual parece ser que la industria ha visto que todavía hay mucho por extraer incluso de modelos de menos de 1T, aunque para desbloquear las capacidades deseadas parece hacer falta más datos, y de mayor calidad, dentro de esa distribución
- Para hacer que un modelo sea más inteligente de lo que es ahora, hacen falta casos y ejemplos con los que aprender, pero cuanto más se acerca uno al percentil más alto del razonamiento humano, más escaso se vuelve ese material
  Se pueden fabricar problemas de lógica a la fuerza, pero el inglés no es lógica formal, así que a menudo termina siendo un juego de lenguaje. Los problemas tipo “Monty Hall” también se parecen más a juegos de lenguaje interesantes solo para humanos, que se vuelven obvios si se presentan de otra manera
  Al final, quien entrena modelos está luchando contra la abrumadora mediocridad del corpus de entrenamiento, es decir, del conjunto completo de producción humana registrada en la historia. A medida que los modelos mejoren, la siguiente etapa probablemente serán modelos co-diseñados junto con humanos para superar esos límites. También evolucionarán en conjunto la forma en que usamos el lenguaje, cómo resolvemos problemas y lo que ahora llamamos “orquestación”
  Si pueden manejar contextos enormes y no necesitan las mismas restricciones, las metáforas del mundo real no encajan muy bien. También surgen preguntas como qué tan distintas son realmente la alucinación y la extrapolación
  Gran parte del escepticismo y la confusión sobre los LLM no es tan diferente de cuando una persona de inteligencia promedio escucha la explicación de alguien muy inteligente, la toma por tonterías y luego lo acusa con arrogancia de ser antipático
  Así como el lobo fue domesticado hasta convertirse en perro con características aptas para convivir con los humanos, los LLM también evolucionarán en torno a nuestras limitaciones, arrogancia, sesgos estéticos y prejuicios. Lo que la mayoría de los humanos quiere de los LLM, en el fondo, no es inteligencia y racionalidad
- La cita no decía “modelos más grandes y más datos = más alucinaciones”. Decía que los modelos más grandes muestran un estancamiento de la inteligencia; no hablaba de más datos ni de un aumento de las alucinaciones
  La cita relacionada era la parte que decía que “cuando los modelos se entrenan con grandes volúmenes de datos muy factuales y no teóricos, aprenden a dar siempre una respuesta”
  Así que en realidad hay dos afirmaciones separadas. 1) los modelos más grandes se estancan en rendimiento 2) los modelos entrenados con más datos factuales tienen una mayor tasa de alucinaciones
  La primera ya se acerca a algo bien conocido. Si no recuerdo mal, incluso los estudios de OpenAI sobre leyes de escalado ya mostraban desde hace años rendimientos decrecientes en la cantidad de parámetros y el volumen de datos de entrenamiento. De la segunda no sé qué evidencia adicional hay aparte de lo que dice el texto original
- ¿Las alucinaciones no dependen también mucho de la capacidad de cómputo y de memoria? Las empresas pueden dedicar más tiempo a verificar resultados dentro de arquitecturas tipo agente, usar más tokens de razonamiento y cuantizar menos. Todo eso depende mucho del cómputo y la memoria, pero se ha demostrado que reduce las alucinaciones
  Tal vez GPT-5.5 esté muy limitado por falta de cómputo, memoria y energía
  Coincido en que concluir que los modelos más grandes se estancaron suena exagerado
- Que los principales laboratorios de IA se hayan vuelto escépticos respecto a la expansión infinita del número de parámetros y de los datos de entrenamiento probablemente se debe en gran parte a la calidad de los datos de entrenamiento. No entiendo por qué eso casi no se menciona en estas discusiones
  Como era evidente desde el principio, las leyes de escalado solo hicieron posible parte de las capacidades descritas en los datos subyacentes y permitieron que las redes neuronales artificiales las abstrajeran en el espacio latente
- ¿Eso no es sobreajuste? Hay más datos, pero si les preguntas algo que no está en esos datos, aparece la alucinación
Me pregunto si esto es lo que se ve como un “LLM mínimo viable”. A menudo pienso en qué tan grande tiene que ser un LLM para que, a partir de cierto punto, lo que haga falta ya sea una ventana de contexto más grande y meterle contenido de conocimiento dinámico como archivos PDF o Markdown, para darle conocimiento que está fuera de los datos de entrenamiento
Parece que los LLM no necesitan más datos, sino un proceso de refinamiento mejor
Las alucinaciones parecen, a primera vista, un problema fácil de atacar con RLVR. Ya se están generando enormes cantidades de trazas de razonamiento cuya respuesta correcta puede verificarse, así que bastaría con incluir “no lo sé” como respuesta válida y, en los problemas donde ninguna de miles de trazas de razonamiento llegue a la respuesta correcta, promover a datos de entrenamiento las trazas que llegan a “no lo sé”
En esencia, se trata de enseñarle al modelo que “no lo sé” es una respuesta válida
Creo que Sam Altman incluso escribió hace tiempo una entrada de blog insinuando esta idea, así que probablemente sea una idea obvia para todos. Si es así, entonces habría que asumir que en la práctica no es tan fácil como parece
- Casi todos los benchmarks miden la precisión dando 1 punto si la respuesta es correcta y 0 en cualquier otro caso. Si ante 100 preguntas en las que solo tienes 10% de confianza respondes “no lo sé” a todas, obtienes 0 puntos, pero si respondes con seguridad a todas, el valor esperado es 10 puntos. Por eso se entrena así a la mayoría de las IA
  Hasta donde sé, el único benchmark de IA en el que adivinar al azar obtiene en promedio una puntuación peor que responder “no lo sé” a todas las preguntas es AA-Omniscience
- Creo que el problema está en la salida del LLM y en la forma en que las herramientas la interpretan. La salida es una distribución de probabilidad sobre todos los posibles tokens siguientes. Aunque la probabilidad de todos los tokens sea muy baja, se normaliza para que la suma total de probabilidades sea 1. Después de esa etapa, es difícil distinguir si el modelo realmente prefería con fuerza un token concreto o si solo estamos viendo ruido amplificado
  Entrenar un token separado de “no lo sé” significa que hay que crear un foso entre ese token y todos los demás. En lugar de tener una zona borrosa de ruido entre “sí” y “no” donde ambos tengan probabilidades relativamente altas, hace falta un nuevo pico más alto para “no lo sé”. Pero entonces vuelven a aparecer nuevas zonas borrosas entre “sí” y “no lo sé”, y entre “no lo sé” y “no”. Para aprender otra respuesta entre medio, haría falta mucha más sofisticación
  En cambio, sí se puede comprobar si varias opciones tienen probabilidades casi iguales. Pero entonces también hay que verificar si las dos opciones principales son, en esencia, sinónimos como “Genève” y “Geneva”, lo cual sería una buena señal de que el modelo sabe la respuesta, o si son “sí” y “no”
- El problema central es que la supresión de alucinaciones no se generaliza. Se puede castigar una respuesta incorrecta en preguntas variadas, pero eso no lleva a la aparición de una visión del mundo coherente. Solo una visión del mundo coherente, combinada con capacidad de razonamiento, sería una solución real a las alucinaciones
  Con la arquitectura actual, es muy probable que las alucinaciones permanezcan para siempre en tareas de dominio abierto
- No es tan simple. Antes tuve curiosidad por esta cuestión y de hecho intenté entrenar un LLM exactamente con ese objetivo
  La tarea era simple. Armé un set de entrenamiento usando el dataset MS-MARCO[0], que incluye consultas, resultados de búsqueda y respuestas. 1) preguntas con la respuesta correcta adjunta junto con resultados de respaldo reales y algunos resultados irrelevantes mezclados, 2) preguntas con solo resultados irrelevantes y la respuesta puesta como “No answer present”
  El dataset era grande, de casi 1 millón de muestras, y lo entrené con varias técnicas: desde hacer que imitara el dataset al estilo SFT, hasta DPO para contrastar respuestas buenas y malas a la misma consulta del usuario, y GRPO para validar anotaciones sobre la presencia o ausencia de respuesta
  Al final, las alucinaciones no disminuyeron; de hecho, empeoraron mucho. Ahora el modelo empezó a afirmar “No answer present” incluso cuando la respuesta sí estaba, o en preguntas simples que ni siquiera necesitaban resultados de búsqueda desde el principio, por ejemplo problemas como X+Y
  Claro, se puede decir que mi entrenamiento era básico comparado con lo que pueden hacer los laboratorios de punta. Aun así, creo que apunta a una limitación más fundamental. Los LLM son delicados y no entienden limpiamente desde primeros principios cosas como “mira una lista de resultados de búsqueda, verifica su relevancia para la consulta del usuario y, si la relevancia para la respuesta está por debajo de cierto umbral, no la uses en la respuesta”
  En resumen, no es tan simple como parece, y quizá incluso sea imposible de lograr
  0: https://huggingface.co/datasets/microsoft/ms_marco
- Si se pudiera usar una función de recompensa así, no haría falta un LLM; bastaría con consultar esa función de recompensa y responder cualquier pregunta. Puedes crear benchmarks y verificarlos automáticamente, pero en el caso general no se puede resolver. El modelo puede rendir bien en los benchmarks y aun así seguir dando respuestas con exceso de confianza en áreas que esos benchmarks no cubren
  Se puede ajustar al modelo para que diga “no lo sé” con más frecuencia, pero eso tiene un costo en rendimiento. También empezará a rechazar algunas preguntas que sí podría responder de forma significativa. En casos degenerados, incluso podría colapsar hasta predecir siempre, o casi siempre, esa frase
La puntuación de tasa de alucinación es un poco complicada de interpretar. Se debe a que es un valor condicionado a los casos en los que el modelo no sabe la respuesta. Por lo tanto, no mide directamente la probabilidad de encontrarse con una alucinación en el uso cotidiano. Esa probabilidad también depende de la probabilidad de que el modelo no sepa la respuesta y de qué tanto la distribución de tareas del usuario coincide con la distribución de la evaluación
También hay que ser cuidadosos al atribuir esta diferencia en tasa de alucinación únicamente al tamaño del modelo. GLM-5.2 alucina mucho menos que DeepSeek-V4 Pro, que tiene el doble de parámetros, pero DeepSeek-V4 Flash tiene menos de la mitad del tamaño de GLM-5.2 y aun así ocupa el primer lugar en el índice de alucinación de AA-Omniscience
Es muy probable que Opus 4.8 sea más grande que DeepSeek-V4 Pro, y en el índice muestra una tasa de alucinación de 36%, más alta que el 28% de GLM-5.2, aunque mucho más baja que la de DeepSeek. Además, la precisión de Opus es 47% y la de GLM-5.2 es 25%. Si con estas cifras calculamos la tasa de alucinación absoluta, es decir, el valor de dividir el número de respuestas alucinadas entre el número total de respuestas, Opus queda en 19% y GLM-5.2 en 21%
Por lo tanto, si todo lo demás se mantiene igual, los modelos grandes podrían ser más vulnerables a alucinar cuando no saben la respuesta, pero también hay muchos otros factores en la tasa de alucinación, y ni siquiera está del todo claro si este es el indicador clave que hay que seguir
- No es que esté en desacuerdo, pero al mismo tiempo el modelo no “sabe” algo en ese sentido tan binario. Parece una explicación simple, pero en realidad es algo muy sutil
  ¿Qué sabe un modelo según si cierto hecho apareció una vez en los datos de entrenamiento, nunca apareció, apareció diez veces o mil veces? Los hechos no se almacenan tal cual, sino que se descomponen en componentes y se comprimen dentro de los pesos
  Los hechos “similares” que no aparecieron de forma abrumadoramente frecuente se agrupan y al final se confunden. Pero ¿qué significa que dos hechos sean similares? ¿Qué hechos fueron eliminados por completo y cuáles quedaron agrupados con otros, contaminando el conjunto y al mismo tiempo aportando capacidad de razonamiento? El modelo no sabe nada, y tampoco puede saber jamás qué sabe y qué no sabe
- Quizá mientras más fácil sea la pregunta, más fácil sea para el modelo darse cuenta de que no sabe la respuesta
  Si Opus acertara todas las preguntas salvo las más difíciles, entonces las preguntas en las que falla serían precisamente aquellas donde verificar o detectar alucinaciones es más difícil, así que su tasa de alucinación podría verse más alta
- Parece que eso podría probarse con preguntas hipotéticas. Bastaría con preguntar sobre cosas que no ocurrieron después de la fecha de corte de conocimiento, o preguntar algo que en realidad no tenga solución
- A la alucinación habría que llamarla “fracaso de fundamentación”
  En la estructura de costos de los modelos de frontera en EE. UU. parece haber algo así como si les aplicaran una pistola eléctrica cada vez que el modelo duda entre buscar o no buscar mientras está inseguro. La respuesta de evitación de búsqueda equivale a casi todas las alucinaciones
  Yo ni siquiera espero el turno del modelo. Si hay un man page o un resultado de Hoogle, lo inserto en el último punto de corte del caché de prefijo. Conviene hacerlo así
- Aquí falta un modo de fallo común: la información posterior a la fecha de corte de conocimiento. Si hace falta información posterior a ese punto, el modelo falla sin importar su tamaño, así que la tasa de alucinación puede ser importante independientemente de la base de conocimiento
  Si todos los casos de uso tuvieran el mismo riesgo de salirse del rango soportado, entonces la lógica anterior sería correcta, pero muchas veces se sabe con certeza que ciertos puntos de datos están fuera del rango soportado, por lo que importa la capacidad absoluta de reconocerlo
Decir que GPT-5.5 y DeepSeek V4 Pro son enormes y aun así lideran claramente en alucinaciones hace parecer que mientras más grande el modelo, más probable es que alucine. Eso no coincide con mi experiencia
- Parece querer decir que cuando no saben la respuesta, tienen más probabilidad de alucinar. Los modelos grandes darán la respuesta correcta más seguido que los pequeños, pero cuando se equivocan, es más probable que inventen algo en vez de decir “no lo sé”
Me sorprenden tanto la parte de “si un modelo se entrena con enormes volúmenes de datos muy factuales y no teóricos, aprende a responder siempre” como las cifras de tasa de alucinación de AA-Omniscience: 94% para DeepSeek V4 Pro, 28% para GLM-5.2, 36% para Opus 4.8, 48% para Fable 5 y 86% para GPT-5.5
Ya sabía por estudios anteriores que la alucinación es un problema fundamental de los LLM y que probablemente sea tan difícil de corregir como la inyección de prompts, pero no sabía que la tasa fuera tan mala
Todo el mundo ha actuado como si los mejores modelos solo alucinaran en casos extremos, pero aquí incluso GLM-5.2, que es el de mejor desempeño, tiene una tasa de alucinación de 28% cuando “no sabe” algo
Aun así, creo que el título del blog, “Bigger models are not the way”, es más apropiado y toca un punto que debería ser una noticia aún mayor. Si los modelos más grandes y los conjuntos de entrenamiento más grandes ya no están dando rendimientos proporcionales, entonces es muy posible que ya estemos cerca de la parte alta de la curva S. Considerando que la valuación de empresas como OpenAI o xAI depende en gran medida de la absurda idea de una expansión infinita de estos modelos, sería una noticia enorme
- Los LLM no tienen un concepto de conocimiento en el sentido de Wikipedia
  Los tokens de la pregunta solo definen los tokens de la respuesta. La clave está en agrupar juntos los pesos relevantes
- Estoy de acuerdo con el título, y fue un error mío. Sobre todo usando estos modelos “de frontera” en agentes de código me han pasado cosas realmente terribles, porque muchas veces inventaban hechos sobre el codebase
Si lo único que se busca es maximizar la puntuación en benchmarks, puede que más grande no siempre sea mejor, pero en inteligencia general y en esa cualidad particular de los modelos grandes, para nada es así
Los modelos open source son impresionantes, pero comparados con Opus o 5.5, queda bastante claro qué tan rápido se desmoronan en cuanto sales del conjunto estrecho de problemas donde les fue bien en benchmarks
Considero que la tasa de alucinaciones no depende del tamaño del modelo, sino de la forma de entrenamiento. Los modelos fueron entrenados con enormes corpus donde predominan de forma abrumadora las preguntas bien formuladas y las respuestas bien organizadas y correctas. Esto aplica especialmente a los libros, que son materiales fuertemente curados por expertos en el área
En los libros casi no se ve que se planteen preguntas sin respuesta y que luego se razone y explique por qué y cómo no tienen respuesta. También es muy raro ver libros que hagan buenas preguntas y luego expliquen honestamente que no saben la respuesta. En el proceso de curación, las preguntas para las que el autor no tiene respuesta suelen quedar fuera de la discusión
Además, durante el RLHF, los laboratorios probablemente están sesgados hacia preguntas con solución y que producen respuestas interesantes, mientras que las preguntas “malas”, que no tienen buenas respuestas, quedan subrepresentadas. También es muy probable que se haya dedicado menos esfuerzo de RLHF a preguntas en las que el modelo debería admitir que no sabe
Los humanos aprendimos durante toda la vida enfrentándonos en el mundo real a preguntas cuya respuesta no conocemos de inmediato, y aprendimos a evaluar muy rápido si no sabemos algo o si no estamos seguros
Además, los humanos tenemos miedo, algo que los LLM no tienen. En el cerebro humano existe la amígdala, separada de la parte del pensamiento lógico, que envía señales de miedo y, como resultado, nos hace ser mucho más cuidadosos con lo que decimos. En cambio, los LLM no tienen un órgano del miedo como la amígdala y solo aprenden a responder según los patrones del corpus de entrenamiento. Como no “temen” perder prestigio o ser despedidos por dar una respuesta incorrecta, pueden soltar con entusiasmo respuestas completamente equivocadas
Por eso, la tasa de alucinaciones podría mejorarse con entrenamiento, pero los laboratorios actuales no están optimizando eso debido a la competencia de alto riesgo por crear los modelos más inteligentes y capaces
Como alternativa, creo que se podría crear en el LLM un órgano separado, parecido a una amígdala. Ese órgano podría enviar señales de forma asíncrona con base en el prompt del usuario y las huellas de razonamiento del LLM, para inyectar una señal de miedo en la inferencia del LLM y desviar la respuesta hacia una más segura
- Sin duda coincido en que el tamaño del modelo no es la causa directa. Aun así, sigue siendo cierto que los modelos con más parámetros necesitan más datos de entrenamiento para evitar el sobreajuste o el subajuste
  Por eso creo que la competencia por alcanzar el “tamaño máximo de datos de entrenamiento” terminó llevando, sin querer, a un sobreajuste. No a un nivel fatal, pero sí lo suficiente como para activar dentro del modelo una percepción que parece omnisciencia
- Skinner probablemente habría dicho que no es un tema de emociones como el miedo o la codicia, sino de resultados

GPT-5.5 tiene 3 veces más alucinaciones que GLM-5.2 con licencia MIT

Dudas sobre la estrategia de escalado de modelos

La tasa de alucinación expone un problema de calibración de incertidumbre

Eficiencia computacional divergente en una prueba de Python

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News