Desacuerdos entre LLM de frontera en la verificación de hechos del mundo real

(lenz.io)

1 puntos por GN⁺ 2026-05-29 | 1 comentarios | Compartir por WhatsApp

Cinco LLM de frontera discreparon en sus veredictos en el 67% de 1,000 afirmaciones enviadas por usuarios reales, y solo coincidieron los 5 en el 33%
El veredicto mayoritario no es la etiqueta correcta, sino un criterio para medir desacuerdo; en el 67% sin unanimidad, al menos 1 modelo necesariamente estaba equivocado
En la rúbrica de 4 niveles, hubo desacuerdo sustantivo de 34% con separaciones de 2 o más niveles, y también apareció una división extrema entre True y False en el 21%
La tasa de coincidencia de etiquetas por pares de modelos fue de 53~75%, y la más alta se dio entre Gemini 3 Pro y la versión Search, que comparten el mismo modelo base
Los datos se extrajeron de afirmaciones reales recientes de Lenz y se midieron sin etiquetas de verdad ni jueces LLM, lo que revela la inestabilidad de la estructura de veredictos más que la precisión

Con qué frecuencia se dividieron los veredictos en afirmaciones reales

Entre las 1,000 afirmaciones analizadas, en 672, el 67% (IC del 95%: 64–70%) los veredictos de los 5 modelos de frontera no coincidieron
- Las afirmaciones en las que los 5 modelos dieron exactamente el mismo veredicto fueron 328, el 33% (IC del 95%: 30–36%)
- Las afirmaciones en las que solo 1 modelo dio un veredicto distinto fueron 224, el 22% (IC del 95%: 20–25%)
- Las afirmaciones en las que 2 modelos dieron veredictos distintos fueron 316, el 32% (IC del 95%: 29–35%)
- Las divisiones sin una mayoría estricta, como 2-2-1 o 2-1-1-1, fueron 132, el 13% (IC del 95%: 11–15%)
- Los casos en que al menos 2 modelos dieron veredictos distintos fueron 448, el 45% (IC del 95%: 42–48%)
El veredicto mayoritario no es un indicador sustituto de exactitud, sino un criterio estructural para contar desacuerdos
- El veredicto mayoritario puede estar equivocado, y el modelo en minoría podría ser el correcto
- Si se asume que solo uno de los cuatro buckets de veredicto es la respuesta correcta, entonces en el 67% de afirmaciones sin unanimidad, al menos 1 modelo está equivocado
- En el 45% que incluye divisiones 3-2, 3-1-1 y sin mayoría, al menos 2 modelos están equivocados
- En el 13% sin mayoría, ningún bucket alcanzó 3 votos, así que al menos 3 modelos están equivocados
- Incluso dentro del 33% donde los 5 modelos estuvieron de acuerdo, puede haber puntos ciegos compartidos
El nivel de acuerdo del panel fue Krippendorff’s α (ordinal)=0.639
- Los veredictos de los modelos no fueron cercanos al azar, pero tampoco lo bastante consistentes como para tratar a los 5 modelos como evaluadores intercambiables
- Se usa α ordinal porque True / Mostly True / Misleading / False son categorías ordinales

Diferencias de matiz y desacuerdo sustantivo

De las 1,000 afirmaciones, en 343, el 34% (IC del 95%: 31–37%) al menos dos modelos se separaron por 2 o más niveles en la rúbrica de 4 pasos
- La diferencia entre True y Mostly True se trata como una diferencia de matiz cercana a un ajuste de confianza
- La diferencia entre True y False se trata como un desacuerdo sustantivo en la respuesta misma
La medición se calculó con la máxima distancia por pares entre buckets entre los 5 veredictos
- El orden de veredictos es True (0) → Mostly True (1) → Misleading (2) → False (3)
- La distancia 0 corresponde a 328 casos, el 33% (IC del 95%: 30–36%), donde los 5 modelos eligieron el mismo bucket
- La distancia 1 corresponde a 329 casos, el 33% (IC del 95%: 30–36%), y equivale a diferencias de matiz como True ↔ Mostly True
- La distancia 2 corresponde a 132 casos, el 13% (IC del 95%: 11–15%), y representa desacuerdos sustantivos como True ↔ Misleading o Mostly True ↔ False
- La distancia 3 corresponde a 211 casos, el 21% (IC del 95%: 19–24%), y representa una división extrema entre True ↔ False
La distancia entre buckets no es una medida precisa de la magnitud del error, sino un indicador aproximado
- Implica la simplificación de tratar True / Mostly True / Misleading / False como una escala ordinal de intervalos iguales
- Una diferencia de 2 niveles también puede surgir por ambigüedad de la rúbrica, diferencias en el criterio temporal o diferencias en la interpretación de “Misleading”

Tasa de coincidencia entre modelos

La tasa de coincidencia de etiquetas entre pares de los 5 modelos estuvo en el rango de 53%~75%
- La tasa más alta fue Gemini 3 Pro × Gemini 3 Pro + Search con 75% (IC del 95%: 72–77%), y ambos comparten el mismo modelo base
- La tasa más baja fue 53% (IC del 95%: 50–56%) y apareció en tres pares
Principales tasas de coincidencia por pares
- GPT-5.4 × Claude Opus 4.7: 65% (IC del 95%: 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65% (IC del 95%: 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60% (IC del 95%: 57–63%)
- GPT-5.4 × Sonar Pro: 60% (IC del 95%: 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53% (IC del 95%: 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (IC del 95%: 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58% (IC del 95%: 55–61%)
- Gemini 3 Pro × Sonar Pro: 53% (IC del 95%: 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58% (IC del 95%: 55–61%)

Tendencias de veredicto por modelo

Distribución de veredictos
- Entre los modelos hubo diferencias en qué tanto se concentraban en los extremos True/False y en qué tanto usaban los buckets intermedios Mostly True/Misleading
- Como no hay etiquetas de verdad, no es posible separar el efecto de la tendencia previa del modelo del efecto de las características de las afirmaciones
- GPT-5.4: True 42% (IC del 95%: 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
- Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
- Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
- Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
- Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
Coincidencia con la mayoría del resto del panel
- La proporción de veces en que cada modelo dio el mismo veredicto que la mayoría estricta formada por al menos 3 de los otros 4 modelos fue de 69%~81%
- Este valor refleja alineación con pares dentro de este corpus, no exactitud
- El cálculo solo incluye las afirmaciones en las que los otros 4 modelos formaron una mayoría de 3/4 o más, por lo que el n elegible varía según el modelo
- GPT-5.4: 81% (IC del 95%: 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70% (IC del 95%: 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77% (IC del 95%: 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76% (IC del 95%: 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69% (IC del 95%: 66–73%), eligible n=675, ineligible=325

Desacuerdos por área

El denominador por área es el número de afirmaciones en esa área, y en la mayoría de las áreas la tasa de desacuerdo superó ampliamente la mitad
- Finance: 75, desacuerdo arbitrario 67% (IC del 95%: 55–76%), desacuerdo sustantivo 39% (28–50%), sin mayoría 20% (13–30%)
- General: 179, desacuerdo arbitrario 68% (60–74%), desacuerdo sustantivo 40% (33–48%), sin mayoría 12% (8–17%)
- Health: 171, desacuerdo arbitrario 71% (64–78%), desacuerdo sustantivo 29% (23–36%), sin mayoría 12% (8–17%)
- History: 131, desacuerdo arbitrario 53% (44–61%), desacuerdo sustantivo 24% (17–32%), sin mayoría 13% (8–20%)
- Legal: 48, desacuerdo arbitrario 77% (63–87%), desacuerdo sustantivo 40% (27–54%), sin mayoría 19% (10–32%)
- Politics: 168, desacuerdo arbitrario 70% (62–76%), desacuerdo sustantivo 38% (31–46%), sin mayoría 8% (5–13%)
- Science: 151, desacuerdo arbitrario 68% (60–75%), desacuerdo sustantivo 36% (29–44%), sin mayoría 21% (15–28%)
- Tech: 77, desacuerdo arbitrario 69% (58–78%), desacuerdo sustantivo 31% (22–42%), sin mayoría 8% (4–16%)
La clasificación por áreas refleja los patrones de tráfico de Lenz y no es el resultado de un muestreo uniforme de todas las afirmaciones verificables

Consenso por bucket de veredicto

El panel casi nunca convergió cuando llegaba a los buckets intermedios
- En los veredictos mayoritarios de Mostly True y Misleading, la unanimidad apenas llegó como máximo a alrededor del 5% en cada caso
- Las tasas de unanimidad para los veredictos mayoritarios de True y False fueron 47% y 43%, respectivamente
Con base en afirmaciones donde una mayoría estricta de 3/5 o más emitió ese veredicto
- True: eligible n=438, unanimidad 47% (IC del 95%: 42–51%), mayoría de 3–4 votos 53% (49–58%)
- Mostly True: eligible n=76, unanimidad 0% (IC del 95%: 0–5%), mayoría de 3–4 votos 100% (IC del 95%: 95–100%)
- Misleading: eligible n=74, unanimidad 5% (IC del 95%: 2–13%), mayoría de 3–4 votos 95% (87–98%)
- False: eligible n=280, unanimidad 43% (IC del 95%: 37–49%), mayoría de 3–4 votos 57% (51–63%)
Las 328 afirmaciones en las que los 5 modelos emitieron exactamente el mismo veredicto también se concentraron en los polos
- True: 204, 62% de las unánimes (IC del 95%: 57–67%)
- Mostly True: 0, 0% (IC del 95%: 0–1%)
- Misleading: 4, 1% (IC del 95%: 0–3%)
- False: 120, 37% (IC del 95%: 32–42%)
Un estudio de ablación de Llama-3 de una sola familia sobre 17,856 afirmaciones de PolitiFact, Schwab et al. 2025 también muestra un resultado relacionado en el que los errores de los modelos de veredicto de fact-checking se concentran en etiquetas detalladas

Dataset y criterios de exclusión

El objeto de análisis son 1,000 afirmaciones
- Son las afirmaciones más recientes entre solicitudes reales de usuarios enviadas a la plataforma de fact-checking de Lenz que pasaron los criterios de exclusión
- Todas las afirmaciones se generaron después del 15 de febrero de 2026
- Los veredictos propios de Lenz no se usaron en el análisis, y este no compara a Lenz con los modelos de frontera, sino que mide únicamente los desacuerdos entre modelos de frontera
El campo atomic_claim no es el texto original ingresado por el usuario, sino una proposición neutral y verificable depurada mediante la etapa de framing de Lenz
- Por ejemplo, la entrada “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” se convierte en la proposición “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
Afirmaciones excluidas
- Afirmaciones marcadas como privadas por quien las envió
- Afirmaciones enviadas por personal de la plataforma, cuentas internas o agentes/API
- Afirmaciones con estado editorial pending o hidden
- Afirmaciones marcadas automáticamente en la etapa de filtrado de PII de Lenz por incluir datos personales de individuos que no son figuras públicas
- Afirmaciones casi duplicadas con distancia coseno de 0.2 o menos entre atomic_claim embeddings de OpenAI text-embedding-3-small de 1536 dimensiones
- Afirmaciones en las que хотя бы uno de los 5 modelos no pudo emitir un veredicto parseable incluso después de un reintento
- Afirmaciones con más de 180 días de antigüedad al momento de la recolección
Entre los casi duplicados, para proposiciones dependientes del tiempo se tomó como fila representativa la afirmación más reciente; en los demás casos, la afirmación existente con más vistas en Lenz

Metodología

Modelos y prompt
- Modelos paramétricos: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Modelos con búsqueda aumentada: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Cada afirmación se presentó junto con una fecha de referencia “as of YYYY-MM-DD” alineada con la fecha de envío
- Los modelos debían elegir forzosamente una entre True, Mostly True, Misleading y False

Classify this claim as of <date>: "<atomic claim>"

Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.

No se ofreció una opción de abstención, y la elección forzada mantuvo una comparación simétrica entre modelos
Configuración de llamadas y puntuación
- Todos los modelos recibieron el mismo placeholder de sistema . y la misma plantilla de prompt de usuario usr_v2
- No se usaron esquema de salida estructurada, esquema de tool calling, seed, top-p ni control de logit-bias
- Cuando fue compatible, se solicitó decodificación determinista usando temperature=0.0
- GPT-5.4 y Claude Opus 4.7 se invocaron sin temperature explícita porque los adaptadores del proveedor rechazaban una configuración de temperature personalizada
- GPT-5.4, Claude Opus 4.7 y Sonar Pro limitaron la longitud de salida a 16 tokens, mientras que Gemini 3 Pro y Gemini 3 Pro + Search usaron un límite de 1024 tokens
- Gemini 3 Pro + Search activó el grounding con Google Search, y Sonar Pro se trató como un modelo con búsqueda aumentada a través de la API con respaldo de búsqueda de Perplexity
- Después de la normalización, solo se consideró parseable una salida que coincidiera exactamente con una de las cuatro etiquetas
- No se usaron jueces LLM ni etiquetas de referencia correctas; todas las mediciones provienen de la coincidencia directa entre las etiquetas parseadas de los 5 modelos
Tratamiento estadístico
- El corpus consiste en las 1,000 afirmaciones eligible más recientes enviadas a una sola plataforma de fact-checking y no es una muestra probabilística de una población más amplia
- Los intervalos de confianza de Wilson al 95% son intervalos binomiales nominales bajo un modelo en el que cada afirmación se extrae de forma independiente de un flujo similar de envíos eligible bajo las mismas reglas de selección
- Las afirmaciones de Lenz tienden a concentrarse alrededor de eventos noticiosos, y un mismo usuario puede enviar varias afirmaciones relacionadas en una sola sesión, por lo que no son independientes e idénticamente distribuidas
- Bajo un modelo de clúster más honesto, la variabilidad muestral real podría ser mayor que la de los intervalos de Wilson
- No se realizaron pruebas de significancia entre modelos; las tasas de acuerdo por pares y sus IC de Wilson al 95% se reportan como estadísticas descriptivas

Reproducibilidad y materiales públicos

Los datos completos por claim se ofrecen en CSV
- Cada fila incluye el ID del claim y la URL, el texto del atomic claim, 5 veredictos de frontera, la distancia máxima por pares entre buckets, el dominio y la fecha de creación
- Si el remitente luego elimina el claim o lo cambia a privado, algunas páginas pueden dejar de estar disponibles
El PDF es una versión renderizada independiente del navegador para lectura sin conexión, citas y alojamiento de preprints estilo arXiv
La instantánea es la v1.0 y la fecha de corte de los datos es el 21 de mayo de 2026
- La URL de archivo https://lenz.io/research/llm-disagreement/v1.0 ofrece de forma permanente la instantánea v1.0
- Mantiene la estabilidad de las citas aunque la URL general cambie a versiones futuras
El registro permanente y la cita están disponibles en doi.org/10.5281/zenodo.20344847

Limitaciones

El límite inferior de error basado en el principio del palomar es un límite inferior de desacuerdo de la rúbrica, no un veredicto de que algún modelo esté factualmente equivocado en un claim específico
- Solo uno de los cuatro buckets puede ser correcto, por lo que cualquier desacuerdo implica al menos un veredicto inconsistente
- Pero no permite saber qué modelo se equivocó en qué claim
El carácter ordinal de la distancia entre buckets es una simplificación
- Trata True / Mostly True / Misleading / False como una escala ordinal de intervalos iguales
- Una diferencia de 2 buckets puede deberse a ambigüedad de la rúbrica, diferencias en el corte temporal o diferencias de interpretación de “Misleading”, y no necesariamente significa un error factual mayor
La ambigüedad del veredicto no es un problema exclusivo de los LLM, sino también una propiedad de la tarea misma
- AVeriTeC es un corpus de 4,568 claims revisados en múltiples rondas con base en 50 organizaciones de fact-checking, y el acuerdo entre anotadores para los veredictos se queda en κ=0.619
- Parte del desacuerdo entre modelos de frontera refleja la naturaleza misma de etiquetas que serían difíciles para cualquier evaluador
La instantánea está fijada a una fecha específica y a versiones específicas de modelos
- Los LLM de frontera son no deterministas, así que incluso al volver a ejecutar el mismo modelo con el mismo prompt, las cifras pueden variar hasta cierto punto
- Si se vuelve a ejecutar con modelos nuevos o prompts distintos, las cifras pueden moverse más
Los modelos con soporte de búsqueda pueden haber consultado fuentes en el momento de razonar, pero no se controla ni se audita qué buscaron

Investigación previa y planes futuros

Yang & Wang (2026) muestran que los modelos de frontera mejor clasificados discrepan en 16~38% de los ítems de MMLU-Pro y GPQA aun cuando igualan la precisión total
AVeriTeC se presenta como referencia estricta de anotación humana para la verificación de claims del mundo real
Como corpus más grande de fact-checking, existe un conjunto de 17,856 claims de PolitiFact en una configuración de ablación de una sola familia de Llama-3
El corpus de Lenz consiste en envíos reales de usuarios de los últimos 180 días, solo está indexado en lenz.io y nunca ha sido emparejado con veredictos estándar en un set público de entrenamiento
La investigación de seguimiento planea etiquetar manualmente todo este mismo corpus y usar esas etiquetas como ground truth para evaluar los 5 modelos de frontera y el veredicto propio de Lenz
El objetivo no es un leaderboard, sino analizar en qué puntos el panel de frontera se desvía del consenso humano, en qué puntos Lenz se desvía de ambos y qué categorías provocan el desacuerdo

Ética y uso de datos

Los únicos campos usados fueron el campo público del claim, el texto del atomic claim, y la fecha de creación
- No se usa información personal
- Se excluyen los claims privados y los claims del personal
- A los modelos de frontera solo se les proporciona el texto del claim y la fecha de corte, no la identidad del remitente ni señales de análisis
Si el remitente más tarde vuelve privado o elimina un claim, ese claim puede retirarse de la instantánea y de futuras descargas

Ejemplos donde el panel de frontera se dividió fuertemente

El apéndice presenta los 20 claims con la mayor brecha entre el bucket más alto y el más bajo
- Son claims con desacuerdo sustancial donde al menos un veredicto de un modelo queda a 2 o más buckets de otro modelo
- Se ordenan por distancia máxima por pares entre buckets en orden descendente, se resuelven empates priorizando los casos sin mayoría y luego se ordenan por un hash estable del ID del claim
Casos representativos de distancia 3 y sin mayoría
- El claim de que Muthiah Muralidaran dijo que la Indian Premier League es puro negocio y que se preparan pitches planas porque los partidos de bajo puntaje aburren a los patrocinadores: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- El claim de que, en 2025, el active portfolio del World Bank en Nigeria supera los 16.4 mil millones de dólares: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- El claim de que las personas que prefieren música con poco contenido emocional positivo tienden a tener mayor inteligencia: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- El claim de que los hostales de Kota, Rajasthan, suelen usar ventiladores de techo tipo jaula como medida para prevenir suicidios estudiantiles: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- El claim de que, al 6 de mayo de 2026, musulmanes de varios países se reunieron en el distrito de Hooghly, en West Bengal, India: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True

1 comentarios

GN⁺ 2026-05-29

Comentarios de Hacker News

El prompt utilizado fue el siguiente: Classify this claim as of : "" / Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.
La lista de afirmaciones está en https://lenz.io/research/llm-disagreement/data.csv y la pusieron en Datasette Lite para que sea más fácil de explorar. Un ejemplo de desacuerdo está en https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
La afirmación “todas las almendras se cultivan en el estado de California, EE. UU.” es falsa, pero solo Opus 4.7 respondió “misleading”. Como incluyeron “mostly true” y “misleading”, y además impusieron la regla de “sin explicaciones”, el planteamiento pierde fuerza
Como mejor ejemplo, en “las solicitudes de visa egipcia incompletas son una de las razones más comunes por las que se rechaza una solicitud de visa egipcia”, los modelos se dividieron entre “true” y “mostly true”, pero por la expresión “among the most” ambas significan prácticamente lo mismo
Un ejemplo aún más decisivo es “el 18 de mayo de 2026 Ucrania llevó a cabo un ataque con drones contra Moscú, Rusia”: sin una herramienta de búsqueda, la única respuesta correcta sería “no se puede verificar”, pero no existía esa opción y las respuestas se dividieron entre true y false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
- Si no les dieron a los evaluadores definiciones de True / Mostly True / Misleading / False, yo consideraría falsa la propia afirmación del artículo de que “para una afirmación solo existe una categoría correcta”
  Algunas afirmaciones pueden ser al mismo tiempo “misleading” y true o false. Tampoco está claro en qué categoría debería entrar algo “mayormente falso”
  Tampoco hay un criterio sobre qué tan incorrecto debe ser algo para pasar de “mostly true” a “false”. Al final, no solo están evaluando la comprensión factual, sino también cómo define el modelo mostly y misleading, así que decir que los modelos discrepan fundamentalmente sobre los hechos en sí es una exageración
- Otro error fatal es que no intentaron medir la varianza interna del modelo
  Si conectas de verdad una evaluación estricta, en las llamadas a herramientas como la búsqueda web entran tal cual problemas de infraestructura, fallas temporales y toda clase de no determinismo
  Deberían haber mostrado cifras separando 3 modelos sin búsqueda y los agentes con búsqueda. Para afirmaciones sobre hechos recientes posteriores a la fecha de corte del conocimiento, los modelos sin búsqueda en la práctica tienen poco sentido, y como no existía la opción de “no lo sé”, el resultado queda casi completamente invalidado. Aunque no lo saben, no pueden decirlo, así que terminan eligiendo una respuesta que suena plausible
  También estoy de acuerdo en que la elección forzada y las variantes “débiles/fuertes” inflan la cifra del titular. Para hacer esta clase de distinción, haría falta un prompt mucho más riguroso, y probablemente también ejemplos en contexto (ICL) para no dejar en manos del modelo qué significa “mostly”
- Si “la mayoría” significa aproximadamente 51% según Wikipedia[1], no entiendo cómo 51% podría considerarse algo cercano a “todo” como para que “misleading” sea una respuesta válida
  Me pregunto si se me está escapando algo
  [1]: https://en.wikipedia.org/wiki/Almond#Production
- Tenía la impresión de que Opus 4.7 daba muchas más respuestas reservadas que los demás modelos, y efectivamente era cierto
  claude-opus-4-7 fue 451 de 1000, 45.1%; sonar-pro, 39.1%; gpt-5.4, 27.7%; gemini-3-retrieval, 12.9%; y gemini-3-pro, 6.0%

La consulta de Datasette está aquí: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...

Si vas a usar un LLM como si fuera un oráculo, no me parece que este prompt sea irracional. Los LLM se venden como si fueran genios, y la gente también los trata así, en especial porque la IA en la ciencia ficción suele retratarse como algo excesivamente preciso
Si fuera una herramienta perfecta con “inteligencia de nivel genio”, debería responder correctamente

Ante la afirmación «La vida extraterrestre existe en algún lugar del universo», GPT-5.4 y Opus 4.7 respondieron Misleading, mientras que Gemini 3, Gemini 3 (Retrieval) y Sonar Pro respondieron FALSE.
Es una afirmación fáctica extraña. La respuesta correcta en realidad es nadie lo sabe con certeza, pero esa opción no existe.
- Es aún más extraño decir que esta discrepancia demuestra un problema. Si le pides a 5 humanos con mucho conocimiento sobre este tema que elijan la respuesta correcta en una pregunta de opción múltiple, es muy probable que discrepen mucho más que estos 5 LLM.
  No significa que las alucinaciones no sean un problema, pero esta es una pésima forma de probarlo.
- Entre las opciones dadas, probablemente “Misleading” sea la mejor. Presenta como hecho algo que no está probado, aunque es muy plausible.
  Aun así, debió existir una categoría de unknown o undecidable.
- Este patrón sigue apareciendo, y como benchmark se ve muy deficiente. No son en absoluto las afirmaciones que esperaba.
- Entonces, ¿aquí no sería misleading la opción correcta?
- No entiendo cómo “misleading” puede sustituir a “unknown”.
Está bien la parte de «esto no es un ítem de benchmark con hoja de respuestas pública, sino afirmaciones cuya verificación solicitaron usuarios reales a una plataforma de fact-checking».
Aun así, no sé qué tan significativo sea esto si los autores no aclaran exactamente cuánto usaron LLM para redactar y producir el informe en sí. Aunque hasta hay una sección “11. Ethics & data use” y se tratan temas parecidos a la infalibilidad de los LLM, nunca se menciona si se usaron LLM para producir el informe.
- La recolección y el procesamiento de datos se hicieron manualmente, y los LLM ayudaron con el borrador inicial del informe. Todo fue revisado por humanos antes de publicarse.
Creo que todos podemos estar de acuerdo en que es TRUE que este experimento tiene fallas en muchos sentidos.
Aun así, es un excelente ejercicio para detectar errores comunes que comete la gente al usar LLM. Parece una buena pregunta para una entrevista de trabajo de prompt engineering.
Los modelos se están volviendo más humanos cada día.
- Hoy en día muchos humanos tampoco logran ponerse de acuerdo sobre qué es verdad. Parece ir cada vez peor, y no tengo claro cuál sería la solución.
Por la ley de Goodhart, este “benchmark” se volverá irrelevante en días, o en el mejor de los casos en unas pocas semanas.
Volverá a ser absorbido por el entrenamiento y parecerá “resuelto”, pero no porque haya aparecido razonamiento, sino porque al iluminar nuevos “problemas” solo aumentará la plausibilidad estadística de las respuestas correctas. Y luego habrá ruido diciendo que esto es un enorme “avance” que “lo cambiará todo”.
Agrego que tal vez sí, o tal vez no, tengo un título en estrategia corporativa y relaciones públicas.
- Ese efecto existe, pero no es un golpe mortal. También hay muchos benchmarks privados basados en tráfico real de productos, y hay problemas públicos no contaminados.
  La gente de los laboratorios por lo general sabe lo que hace, y no es que desconozcan este tipo de problema.
- ¿No pasa lo mismo con la inteligencia humana? Incluso entre personas inteligentes que conozco, muchas sostienen creencias que no parecen tener un valor de verdad claro.
No entiendo por qué excluyeron a Grok. Dado que se ha hecho pública la diferencia filosófica en la manera en que se entrena Grok, habría sido un dato interesante.
Se puede debatir todo el día sobre esa diferencia, pero igual es una lástima haber perdido la oportunidad de observarla objetivamente.
- Dice “Frontier” en el título, así que Grok quedaría fuera.
  Grok fue entrenado para tener sesgos que a mucha gente le gustan, pero no es un modelo pensado para ser preciso.
- De acuerdo. Habría sido divertido ver cuánto peor lo haría Grok.
No veo qué muestra esto que ya no supiéramos. Los LLM no pueden dar respuestas precisas a preguntas sobre datos que no están en su set de entrenamiento.
No parece haber mucho contenido aquí.
- Los LLM también pueden dar respuestas inexactas a preguntas sobre datos que sí están en su set de entrenamiento, y eso es parte de la naturaleza de una red neuronal. Solo que esa probabilidad aumenta cuando los datos no están en el set de entrenamiento.
- Por desgracia, la mayoría no sabe esto y trata a los LLM como si fueran cerebros superpoderosos que saben todo y pueden hacerlo todo.
- Entonces esto muestra que estos modelos usan sets de entrenamiento muy distintos y que exhiben alta confianza incluso cuando no deberían tenerla.
  En preguntas como «¿el enjuague bucal es efectivo?», parecería que debería haber al menos una fuente de datos sólida, como una revista médica.
- Con gusto lo buscarán por ti y te darán como respuesta el comentario mejor votado de Reddit.
  Eso es peor.
No entiendo por qué todo el mundo está tan obsesionado con hacer que los LLM hagan fact-checking.
Esta tecnología no es para eso. En ciertas situaciones puede funcionar más o menos, pero eso no la convierte en la herramienta adecuada.
Es como comprarte un refrigerador para guardar ropa.
- Nietzsche quizá diría que esto no es una ilusión sobre la verdad, sino una ilusión sobre la comodidad.
  El último hombre quiere una máquina que le diga “fácticamente falso” o “fácticamente verdadero”, porque quiere reducir a un tamaño soportable el abismo de que no exista una verdad última, algo lo bastante pequeño como para poder dormirse a su lado.
- La gente pregunta para obtener respuestas. En lo personal, me parece bastante importante. Más todavía si los motores de búsqueda empiezan a empujar respuestas de LLM.
- Pero la gente sí los está usando así en la práctica. Entonces, ¿cuál es el punto?
Hice esto para fact-checking 100% local en CPU: https://news.ycombinator.com/item?id=48301003
- ¿Por qué habría de confiar en esto si no hay ni paper, ni benchmark, ni siquiera un README escrito por una persona?

Desacuerdos entre LLM de frontera en la verificación de hechos del mundo real

Con qué frecuencia se dividieron los veredictos en afirmaciones reales

Diferencias de matiz y desacuerdo sustantivo

Tasa de coincidencia entre modelos

Tendencias de veredicto por modelo

Distribución de veredictos

Coincidencia con la mayoría del resto del panel

Desacuerdos por área

Consenso por bucket de veredicto

Dataset y criterios de exclusión

Metodología

Modelos y prompt

Configuración de llamadas y puntuación

Tratamiento estadístico

Reproducibilidad y materiales públicos

Limitaciones

Investigación previa y planes futuros

Ética y uso de datos

Ejemplos donde el panel de frontera se dividió fuertemente

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News