- Un estudio a gran escala liderado por el Oxford Internet Institute (OII), con la participación de 42 investigadores de todo el mundo, confirmó la falta de rigor científico en los benchmarks usados para evaluar modelos de lenguaje de gran tamaño (LLM)
- Tras revisar 445 benchmarks de IA, se encontró que más de la mitad tienen definiciones conceptuales poco claras o métodos de análisis débiles, con una estructura que dificulta obtener conclusiones confiables
- Solo 16% de los estudios revisados utilizó métodos estadísticos, y en muchos casos no se definieron con claridad conceptos abstractos como “razonamiento” o “inocuidad”
- El equipo presentó 8 recomendaciones de mejora, incluyendo clarificación de definiciones, evaluaciones representativas y fortalecimiento del análisis estadístico, y publicó la herramienta Construct Validity Checklist
- Garantizar la validez científica de los benchmarks de IA está emergiendo como una tarea clave para el avance de la tecnología de IA y la confiabilidad regulatoria
Resumen del estudio
- Es una investigación liderada por el Oxford Internet Institute (OII) con participación de instituciones destacadas como EPFL, Stanford, TUM, UC Berkeley y Yale
- El artículo se titula Measuring What Matters: Construct Validity in Large Language Model Benchmarks y está programado para presentarse en NeurIPS 2025
- El estudio analizó de forma sistemática 445 benchmarks de IA para evaluar la validez científica de sus criterios de evaluación
Hallazgos principales
- Falta de rigor estadístico: solo el 16% de los estudios revisados usó métodos de comparación estadística
- Existe la posibilidad de que las diferencias de desempeño entre modelos o las afirmaciones de superioridad sean resultados del azar
- Definiciones ambiguas o debatibles: cerca de la mitad de los benchmarks no define con claridad conceptos abstractos como “razonamiento” o “inocuidad”
- La ausencia de definiciones conceptuales claras genera una desalineación entre el objetivo de la evaluación y lo que realmente se mide
Casos problemáticos
- Confusión con reglas de formato: si se exige resolver un rompecabezas lógico simple y además entregar la respuesta en un formato complejo, una respuesta correcta puede contarse como fallo por un error de formato
- Desempeño frágil: hay casos en que el modelo funciona bien con problemas matemáticos sencillos, pero falla si cambian apenas los números o la estructura de la oración
- Afirmaciones sin fundamento: obtener una puntuación alta en preguntas de exámenes médicos podría llevar a interpretar erróneamente que el modelo tiene un nivel de experiencia comparable al de un médico
Recomendaciones de mejora
- El equipo considera que es posible resolver estos problemas y presentó 8 recomendaciones basadas en metodologías de validación de psicometría y medicina
- Definir y aislar (Define and isolate): definir con claridad el concepto que se mide y controlar los factores no relacionados
- Construir evaluaciones representativas (Build representative evaluations): reflejar entornos reales e incluir todo el alcance de la habilidad objetivo
- Fortalecer el análisis y la justificación (Strengthen analysis and justification): reportar incertidumbre estadística, realizar análisis de errores y presentar evidencia de validez del benchmark
- Con Construct Validity Checklist, investigadores, desarrolladores y organismos reguladores pueden revisar de antemano la validez del diseño de un benchmark
Importancia del estudio
- Los benchmarks funcionan como una herramienta clave para definir la dirección de la investigación en IA, la competencia entre modelos y los criterios de política y regulación
- Los benchmarks con base científica débil corren el riesgo de provocar malentendidos sobre el rendimiento y la seguridad de la IA
- Este estudio se presenta como un modelo de colaboración internacional para garantizar la confiabilidad de la evaluación en IA
Información adicional
- El artículo será presentado del 2 al 7 de diciembre de 2025 en NeurIPS 2025
- La investigación recibió apoyo de diversas entidades, entre ellas la beca Clarendon, ESRC, EPSRC y Meta LLM Evaluation Research Grant
- El OII es una institución que durante los últimos 25 años ha investigado el impacto social de nuevas tecnologías como la inteligencia artificial, las plataformas digitales y los sistemas autónomos
1 comentarios
Opiniones en Hacker News
Trabajo en un laboratorio a cargo de benchmarks de LLM y evaluación humana
Si soy sincero, ahora mismo este campo es prácticamente una tierra sin ley. No hay una solución adecuada y a los investigadores tampoco les entusiasma dedicar todo su tiempo al benchmarking
Al final, a nivel de producto, el método más realista sigue siendo el A/B testing tradicional, porque permite medir métricas directas a gran escala
Claro, también existe algo como el ‘benchmarketing’, pero la mayoría sí quiere crear benchmarks realmente buenos. El problema es que eso es demasiado difícil o directamente imposible
Aunque hay métricas medibles muy claras, el tratamiento estadístico es pésimo. Casi todos comparan solo diferencias de medias, y ni siquiera se puede confiar en los p-values
Además, casi no hay correlación con el rendimiento en cargas de trabajo reales. Los experimentos en producción tienen tanto ruido que es fácil pasar por alto pérdidas
En AI es todavía peor. Lo que se mide es ambiguo y además existe el incentivo de hacer mediciones ruidosas para la cotización bursátil. En estas condiciones, es normal que los benchmarks de LLM sean un desastre
B podría subir de puntuación simplemente “engañando a la gente”. El caso de 4o de OpenAI es un ejemplo representativo
Desde una mirada más generosa, el problema es que es difícil benchmarkear la inteligencia misma. Si ya es complicado evaluar la aptitud laboral de una persona con preguntas estandarizadas, con la AI lo es aún más
Trabajo en el área de TTS (Text-to-Speech), y aquí todo es un territorio todavía más caótico que en LLM
Los demos son perfectos, pero cuando generas cientos de minutos empiezan a aparecer deriva de volumen, cambios de velocidad y errores de pronunciación
El mayor problema es que no existe un benchmark estándar para síntesis de voz de larga duración.
Resumí una propuesta de estos criterios en Death of Demo
Escribí sobre el proyecto Humanity’s Last Exam
Consiste en crowdsourcing de problemas difíciles de expertos de todo el mundo para poner a prueba a modelos de AI
Me pareció interesante que incluso problemas fáciles para humanos sigan siendo difíciles para la AI
Al final, creo que el futuro del aprendizaje de AI depende de la experiencia en el mundo real (meatspace) y de anotaciones de razonamiento
Creo que los benchmarks son parecidos a los puntajes del SAT. No son una predicción perfecta, pero sí sirven como señal aproximada
Los LLM están avanzando en una dirección significativa, y los benchmarks lo reflejan hasta cierto punto
El eslabón más débil del boom actual de los LLM es el benchmarking
Las comparaciones entre modelos están casi al nivel de una confusión pseudocientífica.
Yo uso el leaderboard de LMArena, pero entre modelos hay diferencias imposibles de explicar en los resultados
Los prompts están fuertemente acoplados a la versión del modelo, así que algo que funcionaba bien en GPT-4 se rompe en GPT-5
Por eso últimamente me estoy inclinando simplemente por usar Gemini
Este ajuste basado en feedback empeora el problema de exceso de confianza de los LLM
Pero los usuarios no quieren evaluar por sí mismos y prefieren rankings tipo leaderboard
Existe la opción de usar LLM como juez, pero se siente como algo mal planteado.
Al final, se necesita evaluación basada en revisores expertos, pero es costosa
A nivel individual para desarrolladores, la solución es crear tus propios benchmarks
Basta con armar pruebas basadas en problemas de código que uno mismo resolvió y revisar métricas como tok/s o TTFT
Al final, la evaluación más realista sigue siendo que el propio usuario lo pruebe directamente
Alguien puso como ejemplo problemas del AIME, un examen sin calculadora, y señaló que benchmarks que solo manejan números pequeños no reflejan la capacidad real
Pero yo creo que el hecho de que el modelo aprenda técnicas para rendir bien en exámenes también es una forma de progreso. Se acerca más al razonamiento humano
Yo quiero evaluaciones no gamificadas. Por ahora, esto sigue siendo solo una forma de autocompletado inteligente
Se propuso que armemos entre nosotros un repo de Git con una colección de bugs molestos para probar LLM
Por ejemplo, se intentó con un bug de Yjs/CRDT usando Claude Code, GPT5-codex y GLM-4.6, pero al final solo se logró una solución por rodeo
Recién hubo avances cuando se enviaron logs del frontend al backend para que la AI pudiera verlos en tiempo real
Si los publican, terminan absorbidos como datos de entrenamiento y quedan invalidados.
Mantener estos benchmarks personales permite ver con mucha más frialdad la velocidad real de avance de los modelos
Al final, un benchmark no es más que una especificación en un contexto determinado. Solo demuestra que cierto código funciona bien en una situación específica, no garantiza todos los casos
Aplicado a los LLM, eso se convierte en: “los benchmarks solo muestran tareas posibles, pero no pueden demostrar tareas imposibles”
En este estudio revisaron 445 benchmarks, y dicen que la mayoría tiene poca validez de constructo
Si realmente se quiere medir inteligencia, hay que evaluar la novedad (novelty).
Resolver patrones parecidos a problemas ya vistos no es más que memorización
Pero evitar por completo cientos de petabytes de datos de entrenamiento para crear problemas totalmente nuevos es casi imposible
Por eso aparece la ilusión de inteligencia
En la práctica, entre ambos conceptos existe una enorme zona gris.
Incluso un problema completamente nuevo necesita cierto grado de similitud para poder resolverse