- Mientras crece el escepticismo entre los grandes laboratorios de IA sobre la estrategia de escalado infinito, aparece un caso que muestra que el tamaño del modelo no garantiza precisión en el mundo real
- GLM-5.2, un modelo open weight con licencia MIT, tiene 753B parámetros y unos 40B parámetros activos, y se acerca hasta quedar a 4 puntos de GPT-5.5
- En AA-Omniscience, la tasa de alucinación fue de 28% para GLM-5.2, 86% para GPT-5.5 y 94% para DeepSeek V4 Pro, lo que hace que la brecha en calibración de incertidumbre sea tan importante como la puntuación de rendimiento
- En una prueba de Python, DeepSeek V4 Pro se equivocó incluso usando 3 min 52 s y 7.7k reasoning tokens, mientras que GLM-5.2 detectó la imposibilidad técnica en 12 s y con unos 800 tokens
- Elegir un modelo no puede basarse solo en la cantidad de parámetros o en el rendimiento teórico; también hay que considerar la capacidad bruta, la tasa de alucinación y la eficiencia computacional
Dudas sobre la estrategia de escalado de modelos
- Entre los principales laboratorios de IA está creciendo el escepticismo hacia el enfoque de seguir elevando el rendimiento solo mediante más parámetros y más datos de entrenamiento
- Claude Fable 5 fue restringido por el gobierno de EE. UU. tres días después de su lanzamiento, y se trató como el primer caso de prohibición de una IA estadounidense derivado de seguridad nacional
- El hecho de que uno de los modelos más grandes del mundo haya sido vetado por el riesgo de un solo jailbreak se usa como ejemplo de los límites del paradigma de escalado
- Los modelos grandes siguen logrando puntuaciones altas en el Artificial Analysis Intelligence Index, pero los modelos open weight también han recortado mucho la distancia
- GLM-5.2 de Z.ai es un LLM open weight con licencia MIT y 753B parámetros, con unos 40B parámetros activos
- GLM-5.2 se ha acercado hasta quedar a 4 puntos de GPT-5.5 y a 9 puntos de Fable 5 en el Artificial Analysis Intelligence Index
- En un contexto donde se estima que los modelos cerrados son entre 1.5 y 2 veces más grandes que GLM-5.2, esta reducción de la brecha refuerza la posibilidad de un plateau de la inteligencia real
La tasa de alucinación expone un problema de calibración de incertidumbre
- Los modelos entrenados con grandes volúmenes de datos factuales y no teóricos pueden reforzarse en la dirección de responder incluso cuando no saben
- La tasa de alucinación del benchmark AA-Omniscience varía mucho entre modelos
- Comparación de tasas de alucinación:
- DeepSeek V4 Pro: 1.6T parámetros, 49B parámetros activos, 44 puntos en el AA Intelligence Index, tasa de alucinación de 94%
- GLM-5.2: tasa de alucinación de 28%
- Opus 4.8: tasa de alucinación de 36%
- Fable 5: tasa de alucinación de 48%
- GPT-5.5: tasa de alucinación de 86%
- La tasa de alucinación de 94% de DeepSeek V4 Pro significa que, en las preguntas donde no logró encontrar la respuesta, solo dijo “no lo sé” en alrededor de 6% de los casos, y en el resto dio respuestas incorrectas con seguridad
Eficiencia computacional divergente en una prueba de Python
- La prueba comparativa se realizó con una pregunta de Python relativamente compleja que contenía un defecto de arquitectura claro
- Ambos modelos se probaron en OpenRouter con
highreasoning effort y temperature 1 - El system prompt fue: “You respond professionally. You are a highly capable coding assistant well-versed in Python.”
- GLM-5.2 fue ofrecido por Z.ai con precisión FP8, y DeepSeek V4 Pro por Baidu Qianfan también con precisión FP8
- Ambos modelos se probaron en OpenRouter con
- DeepSeek V4 Pro generó una respuesta incorrecta y segura incluso después de usar 3 min 52 s y 7.7k reasoning tokens
- GLM-5.2 determinó en 12 s y con solo unos 800 reasoning tokens que era técnicamente imposible que una tarea single-threaded realizara multiplexed I/O sin yielding ni system polling
- Aumentar sin control el reasoning budget, el tamaño del corpus o la cantidad de parámetros puede terminar desperdiciando cómputo y elevando el riesgo de producir respuestas incorrectas pero plausibles
- Incluso los modelos muy grandes pueden no decir “no lo sé” o no reconocer errores lógicos y técnicos sofisticados, por lo que hay que evaluar en conjunto la raw capability, la uncertainty calibration / hallucination rate y la computational efficiency
1 comentarios
Opiniones de Hacker News
Decir que la inteligencia real se ha estancado mucho y que seguir entrenando modelos más grandes en el futuro no solo hará que la inteligencia se estanque sino que incluso empeore es una afirmación bastante audaz
No entiendo por qué concluyen que modelos más grandes y más datos necesariamente llevan a más alucinaciones. En los últimos años, en la práctica ha ocurrido lo contrario, y aunque algunos modelos todavía pueden alucinar más, los modelos actuales alucinan mucho menos que el ChatGPT inicial de 175B, que era más pequeño y fue entrenado con muchos menos datos
Mencioné los datos por las citas sobre que los principales laboratorios de IA se están volviendo escépticos respecto a la expansión infinita del número de parámetros y de los datos de entrenamiento. La situación actual parece ser que la industria ha visto que todavía hay mucho por extraer incluso de modelos de menos de 1T, aunque para desbloquear las capacidades deseadas parece hacer falta más datos, y de mayor calidad, dentro de esa distribución
Se pueden fabricar problemas de lógica a la fuerza, pero el inglés no es lógica formal, así que a menudo termina siendo un juego de lenguaje. Los problemas tipo “Monty Hall” también se parecen más a juegos de lenguaje interesantes solo para humanos, que se vuelven obvios si se presentan de otra manera
Al final, quien entrena modelos está luchando contra la abrumadora mediocridad del corpus de entrenamiento, es decir, del conjunto completo de producción humana registrada en la historia. A medida que los modelos mejoren, la siguiente etapa probablemente serán modelos co-diseñados junto con humanos para superar esos límites. También evolucionarán en conjunto la forma en que usamos el lenguaje, cómo resolvemos problemas y lo que ahora llamamos “orquestación”
Si pueden manejar contextos enormes y no necesitan las mismas restricciones, las metáforas del mundo real no encajan muy bien. También surgen preguntas como qué tan distintas son realmente la alucinación y la extrapolación
Gran parte del escepticismo y la confusión sobre los LLM no es tan diferente de cuando una persona de inteligencia promedio escucha la explicación de alguien muy inteligente, la toma por tonterías y luego lo acusa con arrogancia de ser antipático
Así como el lobo fue domesticado hasta convertirse en perro con características aptas para convivir con los humanos, los LLM también evolucionarán en torno a nuestras limitaciones, arrogancia, sesgos estéticos y prejuicios. Lo que la mayoría de los humanos quiere de los LLM, en el fondo, no es inteligencia y racionalidad
La cita relacionada era la parte que decía que “cuando los modelos se entrenan con grandes volúmenes de datos muy factuales y no teóricos, aprenden a dar siempre una respuesta”
Así que en realidad hay dos afirmaciones separadas. 1) los modelos más grandes se estancan en rendimiento 2) los modelos entrenados con más datos factuales tienen una mayor tasa de alucinaciones
La primera ya se acerca a algo bien conocido. Si no recuerdo mal, incluso los estudios de OpenAI sobre leyes de escalado ya mostraban desde hace años rendimientos decrecientes en la cantidad de parámetros y el volumen de datos de entrenamiento. De la segunda no sé qué evidencia adicional hay aparte de lo que dice el texto original
Tal vez GPT-5.5 esté muy limitado por falta de cómputo, memoria y energía
Coincido en que concluir que los modelos más grandes se estancaron suena exagerado
Como era evidente desde el principio, las leyes de escalado solo hicieron posible parte de las capacidades descritas en los datos subyacentes y permitieron que las redes neuronales artificiales las abstrajeran en el espacio latente
Me pregunto si esto es lo que se ve como un “LLM mínimo viable”. A menudo pienso en qué tan grande tiene que ser un LLM para que, a partir de cierto punto, lo que haga falta ya sea una ventana de contexto más grande y meterle contenido de conocimiento dinámico como archivos PDF o Markdown, para darle conocimiento que está fuera de los datos de entrenamiento
Parece que los LLM no necesitan más datos, sino un proceso de refinamiento mejor
Las alucinaciones parecen, a primera vista, un problema fácil de atacar con RLVR. Ya se están generando enormes cantidades de trazas de razonamiento cuya respuesta correcta puede verificarse, así que bastaría con incluir “no lo sé” como respuesta válida y, en los problemas donde ninguna de miles de trazas de razonamiento llegue a la respuesta correcta, promover a datos de entrenamiento las trazas que llegan a “no lo sé”
En esencia, se trata de enseñarle al modelo que “no lo sé” es una respuesta válida
Creo que Sam Altman incluso escribió hace tiempo una entrada de blog insinuando esta idea, así que probablemente sea una idea obvia para todos. Si es así, entonces habría que asumir que en la práctica no es tan fácil como parece
Hasta donde sé, el único benchmark de IA en el que adivinar al azar obtiene en promedio una puntuación peor que responder “no lo sé” a todas las preguntas es AA-Omniscience
Entrenar un token separado de “no lo sé” significa que hay que crear un foso entre ese token y todos los demás. En lugar de tener una zona borrosa de ruido entre “sí” y “no” donde ambos tengan probabilidades relativamente altas, hace falta un nuevo pico más alto para “no lo sé”. Pero entonces vuelven a aparecer nuevas zonas borrosas entre “sí” y “no lo sé”, y entre “no lo sé” y “no”. Para aprender otra respuesta entre medio, haría falta mucha más sofisticación
En cambio, sí se puede comprobar si varias opciones tienen probabilidades casi iguales. Pero entonces también hay que verificar si las dos opciones principales son, en esencia, sinónimos como “Genève” y “Geneva”, lo cual sería una buena señal de que el modelo sabe la respuesta, o si son “sí” y “no”
Con la arquitectura actual, es muy probable que las alucinaciones permanezcan para siempre en tareas de dominio abierto
La tarea era simple. Armé un set de entrenamiento usando el dataset MS-MARCO[0], que incluye consultas, resultados de búsqueda y respuestas. 1) preguntas con la respuesta correcta adjunta junto con resultados de respaldo reales y algunos resultados irrelevantes mezclados, 2) preguntas con solo resultados irrelevantes y la respuesta puesta como “No answer present”
El dataset era grande, de casi 1 millón de muestras, y lo entrené con varias técnicas: desde hacer que imitara el dataset al estilo SFT, hasta DPO para contrastar respuestas buenas y malas a la misma consulta del usuario, y GRPO para validar anotaciones sobre la presencia o ausencia de respuesta
Al final, las alucinaciones no disminuyeron; de hecho, empeoraron mucho. Ahora el modelo empezó a afirmar “No answer present” incluso cuando la respuesta sí estaba, o en preguntas simples que ni siquiera necesitaban resultados de búsqueda desde el principio, por ejemplo problemas como X+Y
Claro, se puede decir que mi entrenamiento era básico comparado con lo que pueden hacer los laboratorios de punta. Aun así, creo que apunta a una limitación más fundamental. Los LLM son delicados y no entienden limpiamente desde primeros principios cosas como “mira una lista de resultados de búsqueda, verifica su relevancia para la consulta del usuario y, si la relevancia para la respuesta está por debajo de cierto umbral, no la uses en la respuesta”
En resumen, no es tan simple como parece, y quizá incluso sea imposible de lograr
0: https://huggingface.co/datasets/microsoft/ms_marco
Se puede ajustar al modelo para que diga “no lo sé” con más frecuencia, pero eso tiene un costo en rendimiento. También empezará a rechazar algunas preguntas que sí podría responder de forma significativa. En casos degenerados, incluso podría colapsar hasta predecir siempre, o casi siempre, esa frase
La puntuación de tasa de alucinación es un poco complicada de interpretar. Se debe a que es un valor condicionado a los casos en los que el modelo no sabe la respuesta. Por lo tanto, no mide directamente la probabilidad de encontrarse con una alucinación en el uso cotidiano. Esa probabilidad también depende de la probabilidad de que el modelo no sepa la respuesta y de qué tanto la distribución de tareas del usuario coincide con la distribución de la evaluación
También hay que ser cuidadosos al atribuir esta diferencia en tasa de alucinación únicamente al tamaño del modelo. GLM-5.2 alucina mucho menos que DeepSeek-V4 Pro, que tiene el doble de parámetros, pero DeepSeek-V4 Flash tiene menos de la mitad del tamaño de GLM-5.2 y aun así ocupa el primer lugar en el índice de alucinación de AA-Omniscience
Es muy probable que Opus 4.8 sea más grande que DeepSeek-V4 Pro, y en el índice muestra una tasa de alucinación de 36%, más alta que el 28% de GLM-5.2, aunque mucho más baja que la de DeepSeek. Además, la precisión de Opus es 47% y la de GLM-5.2 es 25%. Si con estas cifras calculamos la tasa de alucinación absoluta, es decir, el valor de dividir el número de respuestas alucinadas entre el número total de respuestas, Opus queda en 19% y GLM-5.2 en 21%
Por lo tanto, si todo lo demás se mantiene igual, los modelos grandes podrían ser más vulnerables a alucinar cuando no saben la respuesta, pero también hay muchos otros factores en la tasa de alucinación, y ni siquiera está del todo claro si este es el indicador clave que hay que seguir
¿Qué sabe un modelo según si cierto hecho apareció una vez en los datos de entrenamiento, nunca apareció, apareció diez veces o mil veces? Los hechos no se almacenan tal cual, sino que se descomponen en componentes y se comprimen dentro de los pesos
Los hechos “similares” que no aparecieron de forma abrumadoramente frecuente se agrupan y al final se confunden. Pero ¿qué significa que dos hechos sean similares? ¿Qué hechos fueron eliminados por completo y cuáles quedaron agrupados con otros, contaminando el conjunto y al mismo tiempo aportando capacidad de razonamiento? El modelo no sabe nada, y tampoco puede saber jamás qué sabe y qué no sabe
Si Opus acertara todas las preguntas salvo las más difíciles, entonces las preguntas en las que falla serían precisamente aquellas donde verificar o detectar alucinaciones es más difícil, así que su tasa de alucinación podría verse más alta
En la estructura de costos de los modelos de frontera en EE. UU. parece haber algo así como si les aplicaran una pistola eléctrica cada vez que el modelo duda entre buscar o no buscar mientras está inseguro. La respuesta de evitación de búsqueda equivale a casi todas las alucinaciones
Yo ni siquiera espero el turno del modelo. Si hay un man page o un resultado de Hoogle, lo inserto en el último punto de corte del caché de prefijo. Conviene hacerlo así
Si todos los casos de uso tuvieran el mismo riesgo de salirse del rango soportado, entonces la lógica anterior sería correcta, pero muchas veces se sabe con certeza que ciertos puntos de datos están fuera del rango soportado, por lo que importa la capacidad absoluta de reconocerlo
Decir que GPT-5.5 y DeepSeek V4 Pro son enormes y aun así lideran claramente en alucinaciones hace parecer que mientras más grande el modelo, más probable es que alucine. Eso no coincide con mi experiencia
Me sorprenden tanto la parte de “si un modelo se entrena con enormes volúmenes de datos muy factuales y no teóricos, aprende a responder siempre” como las cifras de tasa de alucinación de AA-Omniscience: 94% para DeepSeek V4 Pro, 28% para GLM-5.2, 36% para Opus 4.8, 48% para Fable 5 y 86% para GPT-5.5
Ya sabía por estudios anteriores que la alucinación es un problema fundamental de los LLM y que probablemente sea tan difícil de corregir como la inyección de prompts, pero no sabía que la tasa fuera tan mala
Todo el mundo ha actuado como si los mejores modelos solo alucinaran en casos extremos, pero aquí incluso GLM-5.2, que es el de mejor desempeño, tiene una tasa de alucinación de 28% cuando “no sabe” algo
Aun así, creo que el título del blog, “Bigger models are not the way”, es más apropiado y toca un punto que debería ser una noticia aún mayor. Si los modelos más grandes y los conjuntos de entrenamiento más grandes ya no están dando rendimientos proporcionales, entonces es muy posible que ya estemos cerca de la parte alta de la curva S. Considerando que la valuación de empresas como OpenAI o xAI depende en gran medida de la absurda idea de una expansión infinita de estos modelos, sería una noticia enorme
Los tokens de la pregunta solo definen los tokens de la respuesta. La clave está en agrupar juntos los pesos relevantes
Si lo único que se busca es maximizar la puntuación en benchmarks, puede que más grande no siempre sea mejor, pero en inteligencia general y en esa cualidad particular de los modelos grandes, para nada es así
Los modelos open source son impresionantes, pero comparados con Opus o 5.5, queda bastante claro qué tan rápido se desmoronan en cuanto sales del conjunto estrecho de problemas donde les fue bien en benchmarks
Considero que la tasa de alucinaciones no depende del tamaño del modelo, sino de la forma de entrenamiento. Los modelos fueron entrenados con enormes corpus donde predominan de forma abrumadora las preguntas bien formuladas y las respuestas bien organizadas y correctas. Esto aplica especialmente a los libros, que son materiales fuertemente curados por expertos en el área
En los libros casi no se ve que se planteen preguntas sin respuesta y que luego se razone y explique por qué y cómo no tienen respuesta. También es muy raro ver libros que hagan buenas preguntas y luego expliquen honestamente que no saben la respuesta. En el proceso de curación, las preguntas para las que el autor no tiene respuesta suelen quedar fuera de la discusión
Además, durante el RLHF, los laboratorios probablemente están sesgados hacia preguntas con solución y que producen respuestas interesantes, mientras que las preguntas “malas”, que no tienen buenas respuestas, quedan subrepresentadas. También es muy probable que se haya dedicado menos esfuerzo de RLHF a preguntas en las que el modelo debería admitir que no sabe
Los humanos aprendimos durante toda la vida enfrentándonos en el mundo real a preguntas cuya respuesta no conocemos de inmediato, y aprendimos a evaluar muy rápido si no sabemos algo o si no estamos seguros
Además, los humanos tenemos miedo, algo que los LLM no tienen. En el cerebro humano existe la amígdala, separada de la parte del pensamiento lógico, que envía señales de miedo y, como resultado, nos hace ser mucho más cuidadosos con lo que decimos. En cambio, los LLM no tienen un órgano del miedo como la amígdala y solo aprenden a responder según los patrones del corpus de entrenamiento. Como no “temen” perder prestigio o ser despedidos por dar una respuesta incorrecta, pueden soltar con entusiasmo respuestas completamente equivocadas
Por eso, la tasa de alucinaciones podría mejorarse con entrenamiento, pero los laboratorios actuales no están optimizando eso debido a la competencia de alto riesgo por crear los modelos más inteligentes y capaces
Como alternativa, creo que se podría crear en el LLM un órgano separado, parecido a una amígdala. Ese órgano podría enviar señales de forma asíncrona con base en el prompt del usuario y las huellas de razonamiento del LLM, para inyectar una señal de miedo en la inferencia del LLM y desviar la respuesta hacia una más segura
Por eso creo que la competencia por alcanzar el “tamaño máximo de datos de entrenamiento” terminó llevando, sin querer, a un sobreajuste. No a un nivel fatal, pero sí lo suficiente como para activar dentro del modelo una percepción que parece omnisciencia