4 puntos por GN⁺ 2025-11-09 | 1 comentarios | Compartir por WhatsApp
  • Un estudio a gran escala liderado por el Oxford Internet Institute (OII), con la participación de 42 investigadores de todo el mundo, confirmó la falta de rigor científico en los benchmarks usados para evaluar modelos de lenguaje de gran tamaño (LLM)
  • Tras revisar 445 benchmarks de IA, se encontró que más de la mitad tienen definiciones conceptuales poco claras o métodos de análisis débiles, con una estructura que dificulta obtener conclusiones confiables
  • Solo 16% de los estudios revisados utilizó métodos estadísticos, y en muchos casos no se definieron con claridad conceptos abstractos como “razonamiento” o “inocuidad”
  • El equipo presentó 8 recomendaciones de mejora, incluyendo clarificación de definiciones, evaluaciones representativas y fortalecimiento del análisis estadístico, y publicó la herramienta Construct Validity Checklist
  • Garantizar la validez científica de los benchmarks de IA está emergiendo como una tarea clave para el avance de la tecnología de IA y la confiabilidad regulatoria

Resumen del estudio

  • Es una investigación liderada por el Oxford Internet Institute (OII) con participación de instituciones destacadas como EPFL, Stanford, TUM, UC Berkeley y Yale
  • El artículo se titula Measuring What Matters: Construct Validity in Large Language Model Benchmarks y está programado para presentarse en NeurIPS 2025
  • El estudio analizó de forma sistemática 445 benchmarks de IA para evaluar la validez científica de sus criterios de evaluación

Hallazgos principales

  • Falta de rigor estadístico: solo el 16% de los estudios revisados usó métodos de comparación estadística
    • Existe la posibilidad de que las diferencias de desempeño entre modelos o las afirmaciones de superioridad sean resultados del azar
  • Definiciones ambiguas o debatibles: cerca de la mitad de los benchmarks no define con claridad conceptos abstractos como “razonamiento” o “inocuidad”
    • La ausencia de definiciones conceptuales claras genera una desalineación entre el objetivo de la evaluación y lo que realmente se mide

Casos problemáticos

  • Confusión con reglas de formato: si se exige resolver un rompecabezas lógico simple y además entregar la respuesta en un formato complejo, una respuesta correcta puede contarse como fallo por un error de formato
  • Desempeño frágil: hay casos en que el modelo funciona bien con problemas matemáticos sencillos, pero falla si cambian apenas los números o la estructura de la oración
  • Afirmaciones sin fundamento: obtener una puntuación alta en preguntas de exámenes médicos podría llevar a interpretar erróneamente que el modelo tiene un nivel de experiencia comparable al de un médico

Recomendaciones de mejora

  • El equipo considera que es posible resolver estos problemas y presentó 8 recomendaciones basadas en metodologías de validación de psicometría y medicina
    • Definir y aislar (Define and isolate): definir con claridad el concepto que se mide y controlar los factores no relacionados
    • Construir evaluaciones representativas (Build representative evaluations): reflejar entornos reales e incluir todo el alcance de la habilidad objetivo
    • Fortalecer el análisis y la justificación (Strengthen analysis and justification): reportar incertidumbre estadística, realizar análisis de errores y presentar evidencia de validez del benchmark
  • Con Construct Validity Checklist, investigadores, desarrolladores y organismos reguladores pueden revisar de antemano la validez del diseño de un benchmark

Importancia del estudio

  • Los benchmarks funcionan como una herramienta clave para definir la dirección de la investigación en IA, la competencia entre modelos y los criterios de política y regulación
  • Los benchmarks con base científica débil corren el riesgo de provocar malentendidos sobre el rendimiento y la seguridad de la IA
  • Este estudio se presenta como un modelo de colaboración internacional para garantizar la confiabilidad de la evaluación en IA

Información adicional

  • El artículo será presentado del 2 al 7 de diciembre de 2025 en NeurIPS 2025
  • La investigación recibió apoyo de diversas entidades, entre ellas la beca Clarendon, ESRC, EPSRC y Meta LLM Evaluation Research Grant
  • El OII es una institución que durante los últimos 25 años ha investigado el impacto social de nuevas tecnologías como la inteligencia artificial, las plataformas digitales y los sistemas autónomos

1 comentarios

 
GN⁺ 2025-11-09
Opiniones en Hacker News
  • Trabajo en un laboratorio a cargo de benchmarks de LLM y evaluación humana
    Si soy sincero, ahora mismo este campo es prácticamente una tierra sin ley. No hay una solución adecuada y a los investigadores tampoco les entusiasma dedicar todo su tiempo al benchmarking
    Al final, a nivel de producto, el método más realista sigue siendo el A/B testing tradicional, porque permite medir métricas directas a gran escala
    Claro, también existe algo como el ‘benchmarketing’, pero la mayoría sí quiere crear benchmarks realmente buenos. El problema es que eso es demasiado difícil o directamente imposible

    • Yo trabajo en infraestructura de plataforma en un hyperscaler, y los benchmarks en nuestra área también son un desastre
      Aunque hay métricas medibles muy claras, el tratamiento estadístico es pésimo. Casi todos comparan solo diferencias de medias, y ni siquiera se puede confiar en los p-values
      Además, casi no hay correlación con el rendimiento en cargas de trabajo reales. Los experimentos en producción tienen tanto ruido que es fácil pasar por alto pérdidas
      En AI es todavía peor. Lo que se mide es ambiguo y además existe el incentivo de hacer mediciones ruidosas para la cotización bursátil. En estas condiciones, es normal que los benchmarks de LLM sean un desastre
    • El A/B testing también es riesgoso. Al final, es una optimización indirecta del feedback de los usuarios, y a los evaluadores humanos se les puede manipular con facilidad
      B podría subir de puntuación simplemente “engañando a la gente”. El caso de 4o de OpenAI es un ejemplo representativo
    • Me impactó ver que los modelos resuelven bien problemas de matemáticas de primaria, pero si cambias un poco los números o la redacción, fallan. Al final no es más que memorización de patrones
    • Creo que un problema todavía mayor es que las empresas tecnológicas y los medios no transparentan este tipo de problemas. Promocionan los puntajes de benchmark como si fueran indicadores objetivos
    • Yo también hago evaluación de LLM, y visto con cinismo, la mayoría de los benchmarks son tareas falsas, porque casi no tienen casos de uso reales
      Desde una mirada más generosa, el problema es que es difícil benchmarkear la inteligencia misma. Si ya es complicado evaluar la aptitud laboral de una persona con preguntas estandarizadas, con la AI lo es aún más
  • Trabajo en el área de TTS (Text-to-Speech), y aquí todo es un territorio todavía más caótico que en LLM
    Los demos son perfectos, pero cuando generas cientos de minutos empiezan a aparecer deriva de volumen, cambios de velocidad y errores de pronunciación
    El mayor problema es que no existe un benchmark estándar para síntesis de voz de larga duración.
    Resumí una propuesta de estos criterios en Death of Demo

  • Escribí sobre el proyecto Humanity’s Last Exam
    Consiste en crowdsourcing de problemas difíciles de expertos de todo el mundo para poner a prueba a modelos de AI
    Me pareció interesante que incluso problemas fáciles para humanos sigan siendo difíciles para la AI
    Al final, creo que el futuro del aprendizaje de AI depende de la experiencia en el mundo real (meatspace) y de anotaciones de razonamiento

    • Empresas como Mercor o Micro1 ya están generando ingresos anuales de nueve cifras con este enfoque
  • Creo que los benchmarks son parecidos a los puntajes del SAT. No son una predicción perfecta, pero sí sirven como señal aproximada
    Los LLM están avanzando en una dirección significativa, y los benchmarks lo reflejan hasta cierto punto

    • Pero no hay ninguna razón para que exámenes diseñados para humanos predigan el desempeño laboral de un LLM. Por ejemplo, un problema simple de multiplicación se relaciona con la inteligencia humana, pero para una computadora no significa nada
    • Esto se parece a un examen para evaluar críticos de arte. Ya es contradictorio intentar calificar objetivamente resultados subjetivos
    • La expresión “ha mejorado claramente” enturbia el punto. En realidad, sigue en discusión si hubo una mejora significativa o no
  • El eslabón más débil del boom actual de los LLM es el benchmarking
    Las comparaciones entre modelos están casi al nivel de una confusión pseudocientífica.
    Yo uso el leaderboard de LMArena, pero entre modelos hay diferencias imposibles de explicar en los resultados
    Los prompts están fuertemente acoplados a la versión del modelo, así que algo que funcionaba bien en GPT-4 se rompe en GPT-5
    Por eso últimamente me estoy inclinando simplemente por usar Gemini

    • Las evaluaciones de LMArena son demasiado fáciles de manipular. Incluso los evaluadores humanos caen con facilidad ante respuestas aduladoras
      Este ajuste basado en feedback empeora el problema de exceso de confianza de los LLM
    • Creé un sitio llamado AImodelReview para comparar salidas de varios modelos
      Pero los usuarios no quieren evaluar por sí mismos y prefieren rankings tipo leaderboard
      Existe la opción de usar LLM como juez, pero se siente como algo mal planteado.
      Al final, se necesita evaluación basada en revisores expertos, pero es costosa
    • Esto me recuerda que las pruebas psicológicas humanas también son igual de difíciles
  • A nivel individual para desarrolladores, la solución es crear tus propios benchmarks
    Basta con armar pruebas basadas en problemas de código que uno mismo resolvió y revisar métricas como tok/s o TTFT

    • Yo solo uso LLM en entornos con wrappers de agentes, así que el benchmark es simple. Pruebo el trabajo con un modelo nuevo y decido pass/fail por intuición
      Al final, la evaluación más realista sigue siendo que el propio usuario lo pruebe directamente
    • Si agregas evaluaciones al GitHub de OpenAI, el siguiente modelo termina haciéndolo mejor en ese problema
    • A este tipo de evaluación propia se le llama evals, y es indispensable en cualquier proyecto serio de AI
    • Sitios como AI Stupid Level también siguen este enfoque
    • Aun así, no hay que olvidar que “resolver un problema” podría ser simplemente reconocimiento de patrones
  • Alguien puso como ejemplo problemas del AIME, un examen sin calculadora, y señaló que benchmarks que solo manejan números pequeños no reflejan la capacidad real
    Pero yo creo que el hecho de que el modelo aprenda técnicas para rendir bien en exámenes también es una forma de progreso. Se acerca más al razonamiento humano

    • En sentido contrario, también está la opinión de que si existe razonamiento real, entonces debería poder resolver problemas con números grandes
    • Que universitarios resuelvan problemas con técnicas de examen es solo una parte de cómo se evalúa a los humanos, pero los LLM presentan eso como si fuera su capacidad total
      Yo quiero evaluaciones no gamificadas. Por ahora, esto sigue siendo solo una forma de autocompletado inteligente
    • Los problemas de cálculo al final desaparecerán como problema en cuanto exista capacidad de uso de herramientas
    • También es interesante este video de Forbidden Technique, que trata esta discusión
    • Si se permite que los LLM usen herramientas externas como Excel o Mathematica, podrían resolver problemas de cálculo igual que lo hace un humano
  • Se propuso que armemos entre nosotros un repo de Git con una colección de bugs molestos para probar LLM
    Por ejemplo, se intentó con un bug de Yjs/CRDT usando Claude Code, GPT5-codex y GLM-4.6, pero al final solo se logró una solución por rodeo
    Recién hubo avances cuando se enviaron logs del frontend al backend para que la AI pudiera verlos en tiempo real

    • Hacer que usen directamente la librería Playwright fue efectivo para resolver problemas de frontend
    • Pero en el fondo, una propuesta así también podría terminar siendo básicamente ofrecer datos de alta calidad para entrenar AI gratis
    • Yo también armé por mi cuenta una colección de bugs y le pedí a un LLM que escribiera código de prueba, pero incluso los modelos más recientes siguen fallando
    • En realidad, la mayoría de los usuarios expertos de LLM ya mantiene sus propios benchmarks privados
      Si los publican, terminan absorbidos como datos de entrenamiento y quedan invalidados.
      Mantener estos benchmarks personales permite ver con mucha más frialdad la velocidad real de avance de los modelos
  • Al final, un benchmark no es más que una especificación en un contexto determinado. Solo demuestra que cierto código funciona bien en una situación específica, no garantiza todos los casos

    • Como dijo Dijkstra, “las pruebas pueden mostrar la presencia de bugs, pero no demostrar su ausencia”
      Aplicado a los LLM, eso se convierte en: “los benchmarks solo muestran tareas posibles, pero no pueden demostrar tareas imposibles
  • En este estudio revisaron 445 benchmarks, y dicen que la mayoría tiene poca validez de constructo
    Si realmente se quiere medir inteligencia, hay que evaluar la novedad (novelty).
    Resolver patrones parecidos a problemas ya vistos no es más que memorización
    Pero evitar por completo cientos de petabytes de datos de entrenamiento para crear problemas totalmente nuevos es casi imposible
    Por eso aparece la ilusión de inteligencia

    • Dividir la resolución de problemas simplemente entre ‘memoria’ y ‘creatividad’ es un enfoque equivocado
      En la práctica, entre ambos conceptos existe una enorme zona gris.
      Incluso un problema completamente nuevo necesita cierto grado de similitud para poder resolverse