- Cinco LLM de frontera discreparon en sus veredictos en el 67% de 1,000 afirmaciones enviadas por usuarios reales, y solo coincidieron los 5 en el 33%
- El veredicto mayoritario no es la etiqueta correcta, sino un criterio para medir desacuerdo; en el 67% sin unanimidad, al menos 1 modelo necesariamente estaba equivocado
- En la rúbrica de 4 niveles, hubo desacuerdo sustantivo de 34% con separaciones de 2 o más niveles, y también apareció una división extrema entre True y False en el 21%
- La tasa de coincidencia de etiquetas por pares de modelos fue de 53~75%, y la más alta se dio entre Gemini 3 Pro y la versión Search, que comparten el mismo modelo base
- Los datos se extrajeron de afirmaciones reales recientes de Lenz y se midieron sin etiquetas de verdad ni jueces LLM, lo que revela la inestabilidad de la estructura de veredictos más que la precisión
Con qué frecuencia se dividieron los veredictos en afirmaciones reales
- Entre las 1,000 afirmaciones analizadas, en 672, el 67% (IC del 95%: 64–70%) los veredictos de los 5 modelos de frontera no coincidieron
- Las afirmaciones en las que los 5 modelos dieron exactamente el mismo veredicto fueron 328, el 33% (IC del 95%: 30–36%)
- Las afirmaciones en las que solo 1 modelo dio un veredicto distinto fueron 224, el 22% (IC del 95%: 20–25%)
- Las afirmaciones en las que 2 modelos dieron veredictos distintos fueron 316, el 32% (IC del 95%: 29–35%)
- Las divisiones sin una mayoría estricta, como 2-2-1 o 2-1-1-1, fueron 132, el 13% (IC del 95%: 11–15%)
- Los casos en que al menos 2 modelos dieron veredictos distintos fueron 448, el 45% (IC del 95%: 42–48%)
- El veredicto mayoritario no es un indicador sustituto de exactitud, sino un criterio estructural para contar desacuerdos
- El veredicto mayoritario puede estar equivocado, y el modelo en minoría podría ser el correcto
- Si se asume que solo uno de los cuatro buckets de veredicto es la respuesta correcta, entonces en el 67% de afirmaciones sin unanimidad, al menos 1 modelo está equivocado
- En el 45% que incluye divisiones 3-2, 3-1-1 y sin mayoría, al menos 2 modelos están equivocados
- En el 13% sin mayoría, ningún bucket alcanzó 3 votos, así que al menos 3 modelos están equivocados
- Incluso dentro del 33% donde los 5 modelos estuvieron de acuerdo, puede haber puntos ciegos compartidos
- El nivel de acuerdo del panel fue Krippendorff’s α (ordinal)=0.639
- Los veredictos de los modelos no fueron cercanos al azar, pero tampoco lo bastante consistentes como para tratar a los 5 modelos como evaluadores intercambiables
- Se usa α ordinal porque True / Mostly True / Misleading / False son categorías ordinales
Diferencias de matiz y desacuerdo sustantivo
- De las 1,000 afirmaciones, en 343, el 34% (IC del 95%: 31–37%) al menos dos modelos se separaron por 2 o más niveles en la rúbrica de 4 pasos
- La diferencia entre True y Mostly True se trata como una diferencia de matiz cercana a un ajuste de confianza
- La diferencia entre True y False se trata como un desacuerdo sustantivo en la respuesta misma
- La medición se calculó con la máxima distancia por pares entre buckets entre los 5 veredictos
- El orden de veredictos es
True (0) → Mostly True (1) → Misleading (2) → False (3)
- La distancia 0 corresponde a 328 casos, el 33% (IC del 95%: 30–36%), donde los 5 modelos eligieron el mismo bucket
- La distancia 1 corresponde a 329 casos, el 33% (IC del 95%: 30–36%), y equivale a diferencias de matiz como True ↔ Mostly True
- La distancia 2 corresponde a 132 casos, el 13% (IC del 95%: 11–15%), y representa desacuerdos sustantivos como True ↔ Misleading o Mostly True ↔ False
- La distancia 3 corresponde a 211 casos, el 21% (IC del 95%: 19–24%), y representa una división extrema entre True ↔ False
- La distancia entre buckets no es una medida precisa de la magnitud del error, sino un indicador aproximado
- Implica la simplificación de tratar True / Mostly True / Misleading / False como una escala ordinal de intervalos iguales
- Una diferencia de 2 niveles también puede surgir por ambigüedad de la rúbrica, diferencias en el criterio temporal o diferencias en la interpretación de “Misleading”
Tasa de coincidencia entre modelos
- La tasa de coincidencia de etiquetas entre pares de los 5 modelos estuvo en el rango de 53%~75%
- La tasa más alta fue Gemini 3 Pro × Gemini 3 Pro + Search con 75% (IC del 95%: 72–77%), y ambos comparten el mismo modelo base
- La tasa más baja fue 53% (IC del 95%: 50–56%) y apareció en tres pares
- Principales tasas de coincidencia por pares
- GPT-5.4 × Claude Opus 4.7: 65% (IC del 95%: 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65% (IC del 95%: 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60% (IC del 95%: 57–63%)
- GPT-5.4 × Sonar Pro: 60% (IC del 95%: 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53% (IC del 95%: 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53% (IC del 95%: 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58% (IC del 95%: 55–61%)
- Gemini 3 Pro × Sonar Pro: 53% (IC del 95%: 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58% (IC del 95%: 55–61%)
Tendencias de veredicto por modelo
-
Distribución de veredictos
- Entre los modelos hubo diferencias en qué tanto se concentraban en los extremos True/False y en qué tanto usaban los buckets intermedios Mostly True/Misleading
- Como no hay etiquetas de verdad, no es posible separar el efecto de la tendencia previa del modelo del efecto de las características de las afirmaciones
- GPT-5.4: True 42% (IC del 95%: 39–45%), Mostly True 16% (14–19%), Misleading 12% (10–14%), False 30% (28–33%)
- Claude Opus 4.7: True 38% (35–41%), Mostly True 26% (23–29%), Misleading 19% (17–22%), False 17% (15–20%)
- Gemini 3 Pro: True 54% (51–57%), Mostly True 3% (2–4%), Misleading 3% (2–4%), False 40% (37–43%)
- Gemini 3 Pro + Search: True 52% (49–55%), Mostly True 4% (3–5%), Misleading 9% (7–11%), False 35% (32–38%)
- Sonar Pro: True 35% (32–38%), Mostly True 23% (21–26%), Misleading 16% (14–18%), False 26% (23–28%)
-
Coincidencia con la mayoría del resto del panel
- La proporción de veces en que cada modelo dio el mismo veredicto que la mayoría estricta formada por al menos 3 de los otros 4 modelos fue de 69%~81%
- Este valor refleja alineación con pares dentro de este corpus, no exactitud
- El cálculo solo incluye las afirmaciones en las que los otros 4 modelos formaron una mayoría de 3/4 o más, por lo que el n elegible varía según el modelo
- GPT-5.4: 81% (IC del 95%: 78–84%), eligible n=650, ineligible=350
- Claude Opus 4.7: 70% (IC del 95%: 67–74%), eligible n=691, ineligible=309
- Gemini 3 Pro: 77% (IC del 95%: 74–80%), eligible n=683, ineligible=317
- Gemini 3 Pro + Search: 76% (IC del 95%: 73–79%), eligible n=693, ineligible=307
- Sonar Pro: 69% (IC del 95%: 66–73%), eligible n=675, ineligible=325
Desacuerdos por área
- El denominador por área es el número de afirmaciones en esa área, y en la mayoría de las áreas la tasa de desacuerdo superó ampliamente la mitad
- Finance: 75, desacuerdo arbitrario 67% (IC del 95%: 55–76%), desacuerdo sustantivo 39% (28–50%), sin mayoría 20% (13–30%)
- General: 179, desacuerdo arbitrario 68% (60–74%), desacuerdo sustantivo 40% (33–48%), sin mayoría 12% (8–17%)
- Health: 171, desacuerdo arbitrario 71% (64–78%), desacuerdo sustantivo 29% (23–36%), sin mayoría 12% (8–17%)
- History: 131, desacuerdo arbitrario 53% (44–61%), desacuerdo sustantivo 24% (17–32%), sin mayoría 13% (8–20%)
- Legal: 48, desacuerdo arbitrario 77% (63–87%), desacuerdo sustantivo 40% (27–54%), sin mayoría 19% (10–32%)
- Politics: 168, desacuerdo arbitrario 70% (62–76%), desacuerdo sustantivo 38% (31–46%), sin mayoría 8% (5–13%)
- Science: 151, desacuerdo arbitrario 68% (60–75%), desacuerdo sustantivo 36% (29–44%), sin mayoría 21% (15–28%)
- Tech: 77, desacuerdo arbitrario 69% (58–78%), desacuerdo sustantivo 31% (22–42%), sin mayoría 8% (4–16%)
- La clasificación por áreas refleja los patrones de tráfico de Lenz y no es el resultado de un muestreo uniforme de todas las afirmaciones verificables
Consenso por bucket de veredicto
- El panel casi nunca convergió cuando llegaba a los buckets intermedios
- En los veredictos mayoritarios de Mostly True y Misleading, la unanimidad apenas llegó como máximo a alrededor del 5% en cada caso
- Las tasas de unanimidad para los veredictos mayoritarios de True y False fueron 47% y 43%, respectivamente
- Con base en afirmaciones donde una mayoría estricta de 3/5 o más emitió ese veredicto
- True: eligible n=438, unanimidad 47% (IC del 95%: 42–51%), mayoría de 3–4 votos 53% (49–58%)
- Mostly True: eligible n=76, unanimidad 0% (IC del 95%: 0–5%), mayoría de 3–4 votos 100% (IC del 95%: 95–100%)
- Misleading: eligible n=74, unanimidad 5% (IC del 95%: 2–13%), mayoría de 3–4 votos 95% (87–98%)
- False: eligible n=280, unanimidad 43% (IC del 95%: 37–49%), mayoría de 3–4 votos 57% (51–63%)
- Las 328 afirmaciones en las que los 5 modelos emitieron exactamente el mismo veredicto también se concentraron en los polos
- True: 204, 62% de las unánimes (IC del 95%: 57–67%)
- Mostly True: 0, 0% (IC del 95%: 0–1%)
- Misleading: 4, 1% (IC del 95%: 0–3%)
- False: 120, 37% (IC del 95%: 32–42%)
- Un estudio de ablación de Llama-3 de una sola familia sobre 17,856 afirmaciones de PolitiFact, Schwab et al. 2025 también muestra un resultado relacionado en el que los errores de los modelos de veredicto de fact-checking se concentran en etiquetas detalladas
Dataset y criterios de exclusión
- El objeto de análisis son 1,000 afirmaciones
- Son las afirmaciones más recientes entre solicitudes reales de usuarios enviadas a la plataforma de fact-checking de Lenz que pasaron los criterios de exclusión
- Todas las afirmaciones se generaron después del 15 de febrero de 2026
- Los veredictos propios de Lenz no se usaron en el análisis, y este no compara a Lenz con los modelos de frontera, sino que mide únicamente los desacuerdos entre modelos de frontera
- El campo
atomic_claim no es el texto original ingresado por el usuario, sino una proposición neutral y verificable depurada mediante la etapa de framing de Lenz
- Por ejemplo, la entrada “Canadian authorities are throwing Christians in jail for quoting the Bible!!!” se convierte en la proposición “As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”
- Afirmaciones excluidas
- Afirmaciones marcadas como privadas por quien las envió
- Afirmaciones enviadas por personal de la plataforma, cuentas internas o agentes/API
- Afirmaciones con estado editorial
pending o hidden
- Afirmaciones marcadas automáticamente en la etapa de filtrado de PII de Lenz por incluir datos personales de individuos que no son figuras públicas
- Afirmaciones casi duplicadas con distancia coseno de
0.2 o menos entre atomic_claim embeddings de OpenAI text-embedding-3-small de 1536 dimensiones
- Afirmaciones en las que хотя бы uno de los 5 modelos no pudo emitir un veredicto parseable incluso después de un reintento
- Afirmaciones con más de 180 días de antigüedad al momento de la recolección
- Entre los casi duplicados, para proposiciones dependientes del tiempo se tomó como fila representativa la afirmación más reciente; en los demás casos, la afirmación existente con más vistas en Lenz
Metodología
-
Modelos y prompt
- Modelos paramétricos: GPT-5.4 (OpenAI), Claude Opus 4.7 (Anthropic), Gemini 3 Pro (Google)
- Modelos con búsqueda aumentada: Gemini 3 Pro + Search (Google), Sonar Pro (Perplexity)
- Cada afirmación se presentó junto con una fecha de referencia “as of YYYY-MM-DD” alineada con la fecha de envío
- Los modelos debían elegir forzosamente una entre
True, Mostly True, Misleading y False
Classify this claim as of <date>: "<atomic claim>"
Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
- No se ofreció una opción de abstención, y la elección forzada mantuvo una comparación simétrica entre modelos
-
Configuración de llamadas y puntuación
- Todos los modelos recibieron el mismo placeholder de sistema
. y la misma plantilla de prompt de usuario usr_v2
- No se usaron esquema de salida estructurada, esquema de tool calling, seed, top-p ni control de logit-bias
- Cuando fue compatible, se solicitó decodificación determinista usando
temperature=0.0
- GPT-5.4 y Claude Opus 4.7 se invocaron sin temperature explícita porque los adaptadores del proveedor rechazaban una configuración de temperature personalizada
- GPT-5.4, Claude Opus 4.7 y Sonar Pro limitaron la longitud de salida a 16 tokens, mientras que Gemini 3 Pro y Gemini 3 Pro + Search usaron un límite de 1024 tokens
- Gemini 3 Pro + Search activó el grounding con Google Search, y Sonar Pro se trató como un modelo con búsqueda aumentada a través de la API con respaldo de búsqueda de Perplexity
- Después de la normalización, solo se consideró parseable una salida que coincidiera exactamente con una de las cuatro etiquetas
- No se usaron jueces LLM ni etiquetas de referencia correctas; todas las mediciones provienen de la coincidencia directa entre las etiquetas parseadas de los 5 modelos
-
Tratamiento estadístico
- El corpus consiste en las 1,000 afirmaciones eligible más recientes enviadas a una sola plataforma de fact-checking y no es una muestra probabilística de una población más amplia
- Los intervalos de confianza de Wilson al 95% son intervalos binomiales nominales bajo un modelo en el que cada afirmación se extrae de forma independiente de un flujo similar de envíos eligible bajo las mismas reglas de selección
- Las afirmaciones de Lenz tienden a concentrarse alrededor de eventos noticiosos, y un mismo usuario puede enviar varias afirmaciones relacionadas en una sola sesión, por lo que no son independientes e idénticamente distribuidas
- Bajo un modelo de clúster más honesto, la variabilidad muestral real podría ser mayor que la de los intervalos de Wilson
- No se realizaron pruebas de significancia entre modelos; las tasas de acuerdo por pares y sus IC de Wilson al 95% se reportan como estadísticas descriptivas
Reproducibilidad y materiales públicos
- Los datos completos por claim se ofrecen en CSV
- Cada fila incluye el ID del claim y la URL, el texto del atomic claim, 5 veredictos de frontera, la distancia máxima por pares entre buckets, el dominio y la fecha de creación
- Si el remitente luego elimina el claim o lo cambia a privado, algunas páginas pueden dejar de estar disponibles
- El PDF es una versión renderizada independiente del navegador para lectura sin conexión, citas y alojamiento de preprints estilo arXiv
- La instantánea es la v1.0 y la fecha de corte de los datos es el 21 de mayo de 2026
- El registro permanente y la cita están disponibles en doi.org/10.5281/zenodo.20344847
Limitaciones
- El límite inferior de error basado en el principio del palomar es un límite inferior de desacuerdo de la rúbrica, no un veredicto de que algún modelo esté factualmente equivocado en un claim específico
- Solo uno de los cuatro buckets puede ser correcto, por lo que cualquier desacuerdo implica al menos un veredicto inconsistente
- Pero no permite saber qué modelo se equivocó en qué claim
- El carácter ordinal de la distancia entre buckets es una simplificación
- Trata True / Mostly True / Misleading / False como una escala ordinal de intervalos iguales
- Una diferencia de 2 buckets puede deberse a ambigüedad de la rúbrica, diferencias en el corte temporal o diferencias de interpretación de “Misleading”, y no necesariamente significa un error factual mayor
- La ambigüedad del veredicto no es un problema exclusivo de los LLM, sino también una propiedad de la tarea misma
- AVeriTeC es un corpus de 4,568 claims revisados en múltiples rondas con base en 50 organizaciones de fact-checking, y el acuerdo entre anotadores para los veredictos se queda en κ=0.619
- Parte del desacuerdo entre modelos de frontera refleja la naturaleza misma de etiquetas que serían difíciles para cualquier evaluador
- La instantánea está fijada a una fecha específica y a versiones específicas de modelos
- Los LLM de frontera son no deterministas, así que incluso al volver a ejecutar el mismo modelo con el mismo prompt, las cifras pueden variar hasta cierto punto
- Si se vuelve a ejecutar con modelos nuevos o prompts distintos, las cifras pueden moverse más
- Los modelos con soporte de búsqueda pueden haber consultado fuentes en el momento de razonar, pero no se controla ni se audita qué buscaron
Investigación previa y planes futuros
- Yang & Wang (2026) muestran que los modelos de frontera mejor clasificados discrepan en 16~38% de los ítems de MMLU-Pro y GPQA aun cuando igualan la precisión total
- AVeriTeC se presenta como referencia estricta de anotación humana para la verificación de claims del mundo real
- Como corpus más grande de fact-checking, existe un conjunto de 17,856 claims de PolitiFact en una configuración de ablación de una sola familia de Llama-3
- El corpus de Lenz consiste en envíos reales de usuarios de los últimos 180 días, solo está indexado en lenz.io y nunca ha sido emparejado con veredictos estándar en un set público de entrenamiento
- La investigación de seguimiento planea etiquetar manualmente todo este mismo corpus y usar esas etiquetas como ground truth para evaluar los 5 modelos de frontera y el veredicto propio de Lenz
- El objetivo no es un leaderboard, sino analizar en qué puntos el panel de frontera se desvía del consenso humano, en qué puntos Lenz se desvía de ambos y qué categorías provocan el desacuerdo
Ética y uso de datos
- Los únicos campos usados fueron el campo público del claim, el texto del atomic claim, y la fecha de creación
- No se usa información personal
- Se excluyen los claims privados y los claims del personal
- A los modelos de frontera solo se les proporciona el texto del claim y la fecha de corte, no la identidad del remitente ni señales de análisis
- Si el remitente más tarde vuelve privado o elimina un claim, ese claim puede retirarse de la instantánea y de futuras descargas
Ejemplos donde el panel de frontera se dividió fuertemente
- El apéndice presenta los 20 claims con la mayor brecha entre el bucket más alto y el más bajo
- Son claims con desacuerdo sustancial donde al menos un veredicto de un modelo queda a 2 o más buckets de otro modelo
- Se ordenan por distancia máxima por pares entre buckets en orden descendente, se resuelven empates priorizando los casos sin mayoría y luego se ordenan por un hash estable del ID del claim
- Casos representativos de distancia 3 y sin mayoría
- El claim de que Muthiah Muralidaran dijo que la Indian Premier League es puro negocio y que se preparan pitches planas porque los partidos de bajo puntaje aburren a los patrocinadores: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- El claim de que, en 2025, el active portfolio del World Bank en Nigeria supera los 16.4 mil millones de dólares: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- El claim de que las personas que prefieren música con poco contenido emocional positivo tienden a tener mayor inteligencia: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- El claim de que los hostales de Kota, Rajasthan, suelen usar ventiladores de techo tipo jaula como medida para prevenir suicidios estudiantiles: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- El claim de que, al 6 de mayo de 2026, musulmanes de varios países se reunieron en el distrito de Hooghly, en West Bengal, India: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True
1 comentarios
Comentarios de Hacker News
Classify this claim as of : ""/Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.La lista de afirmaciones está en https://lenz.io/research/llm-disagreement/data.csv y la pusieron en Datasette Lite para que sea más fácil de explorar. Un ejemplo de desacuerdo está en https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
La afirmación “todas las almendras se cultivan en el estado de California, EE. UU.” es falsa, pero solo Opus 4.7 respondió “misleading”. Como incluyeron “mostly true” y “misleading”, y además impusieron la regla de “sin explicaciones”, el planteamiento pierde fuerza
Como mejor ejemplo, en “las solicitudes de visa egipcia incompletas son una de las razones más comunes por las que se rechaza una solicitud de visa egipcia”, los modelos se dividieron entre “true” y “mostly true”, pero por la expresión “among the most” ambas significan prácticamente lo mismo
Un ejemplo aún más decisivo es “el 18 de mayo de 2026 Ucrania llevó a cabo un ataque con drones contra Moscú, Rusia”: sin una herramienta de búsqueda, la única respuesta correcta sería “no se puede verificar”, pero no existía esa opción y las respuestas se dividieron entre true y false: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Algunas afirmaciones pueden ser al mismo tiempo “misleading” y true o false. Tampoco está claro en qué categoría debería entrar algo “mayormente falso”
Tampoco hay un criterio sobre qué tan incorrecto debe ser algo para pasar de “mostly true” a “false”. Al final, no solo están evaluando la comprensión factual, sino también cómo define el modelo mostly y misleading, así que decir que los modelos discrepan fundamentalmente sobre los hechos en sí es una exageración
Si conectas de verdad una evaluación estricta, en las llamadas a herramientas como la búsqueda web entran tal cual problemas de infraestructura, fallas temporales y toda clase de no determinismo
Deberían haber mostrado cifras separando 3 modelos sin búsqueda y los agentes con búsqueda. Para afirmaciones sobre hechos recientes posteriores a la fecha de corte del conocimiento, los modelos sin búsqueda en la práctica tienen poco sentido, y como no existía la opción de “no lo sé”, el resultado queda casi completamente invalidado. Aunque no lo saben, no pueden decirlo, así que terminan eligiendo una respuesta que suena plausible
También estoy de acuerdo en que la elección forzada y las variantes “débiles/fuertes” inflan la cifra del titular. Para hacer esta clase de distinción, haría falta un prompt mucho más riguroso, y probablemente también ejemplos en contexto (ICL) para no dejar en manos del modelo qué significa “mostly”
Me pregunto si se me está escapando algo
[1]: https://en.wikipedia.org/wiki/Almond#Production
claude-opus-4-7fue 451 de 1000, 45.1%;sonar-pro, 39.1%;gpt-5.4, 27.7%;gemini-3-retrieval, 12.9%; ygemini-3-pro, 6.0%La consulta de Datasette está aquí: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
Si fuera una herramienta perfecta con “inteligencia de nivel genio”, debería responder correctamente
Ante la afirmación «La vida extraterrestre existe en algún lugar del universo», GPT-5.4 y Opus 4.7 respondieron Misleading, mientras que Gemini 3, Gemini 3 (Retrieval) y Sonar Pro respondieron FALSE.
Es una afirmación fáctica extraña. La respuesta correcta en realidad es nadie lo sabe con certeza, pero esa opción no existe.
No significa que las alucinaciones no sean un problema, pero esta es una pésima forma de probarlo.
Aun así, debió existir una categoría de unknown o undecidable.
Está bien la parte de «esto no es un ítem de benchmark con hoja de respuestas pública, sino afirmaciones cuya verificación solicitaron usuarios reales a una plataforma de fact-checking».
Aun así, no sé qué tan significativo sea esto si los autores no aclaran exactamente cuánto usaron LLM para redactar y producir el informe en sí. Aunque hasta hay una sección “11. Ethics & data use” y se tratan temas parecidos a la infalibilidad de los LLM, nunca se menciona si se usaron LLM para producir el informe.
Creo que todos podemos estar de acuerdo en que es TRUE que este experimento tiene fallas en muchos sentidos.
Aun así, es un excelente ejercicio para detectar errores comunes que comete la gente al usar LLM. Parece una buena pregunta para una entrevista de trabajo de prompt engineering.
Los modelos se están volviendo más humanos cada día.
Por la ley de Goodhart, este “benchmark” se volverá irrelevante en días, o en el mejor de los casos en unas pocas semanas.
Volverá a ser absorbido por el entrenamiento y parecerá “resuelto”, pero no porque haya aparecido razonamiento, sino porque al iluminar nuevos “problemas” solo aumentará la plausibilidad estadística de las respuestas correctas. Y luego habrá ruido diciendo que esto es un enorme “avance” que “lo cambiará todo”.
Agrego que tal vez sí, o tal vez no, tengo un título en estrategia corporativa y relaciones públicas.
La gente de los laboratorios por lo general sabe lo que hace, y no es que desconozcan este tipo de problema.
No entiendo por qué excluyeron a Grok. Dado que se ha hecho pública la diferencia filosófica en la manera en que se entrena Grok, habría sido un dato interesante.
Se puede debatir todo el día sobre esa diferencia, pero igual es una lástima haber perdido la oportunidad de observarla objetivamente.
Grok fue entrenado para tener sesgos que a mucha gente le gustan, pero no es un modelo pensado para ser preciso.
No veo qué muestra esto que ya no supiéramos. Los LLM no pueden dar respuestas precisas a preguntas sobre datos que no están en su set de entrenamiento.
No parece haber mucho contenido aquí.
En preguntas como «¿el enjuague bucal es efectivo?», parecería que debería haber al menos una fuente de datos sólida, como una revista médica.
Eso es peor.
No entiendo por qué todo el mundo está tan obsesionado con hacer que los LLM hagan fact-checking.
Esta tecnología no es para eso. En ciertas situaciones puede funcionar más o menos, pero eso no la convierte en la herramienta adecuada.
Es como comprarte un refrigerador para guardar ropa.
El último hombre quiere una máquina que le diga “fácticamente falso” o “fácticamente verdadero”, porque quiere reducir a un tamaño soportable el abismo de que no exista una verdad última, algo lo bastante pequeño como para poder dormirse a su lado.
Hice esto para fact-checking 100% local en CPU: https://news.ycombinator.com/item?id=48301003