Resumen breve
- En el paper "General-purpose large language models outperform specialized clinical AI tools on medical benchmarks", publicado en Nature Medicine el 12 de junio de 2026, se afirmó que modelos frontier de propósito general como GPT-5.2, Gemini 3.1 Pro y Claude Opus 4.6 superan a herramientas de IA médicas especializadas como OpenEvidence y UpToDate AI
- OpenEvidence y UpToDate AI son herramientas de apoyo a la decisión clínica que los médicos usan para buscar evidencia en tiempo real durante la consulta, y ya son productos en uso en hospitales
- El paper se difundió rápidamente tras su publicación, y después surgieron cuestionamientos por posible conflicto de interés: el autor opera su propia IA médica competidora y anteriormente habría solicitado acceso a la API de OpenEvidence, que le fue rechazado
- Al volver a verificar directamente la metodología, el autor del artículo encontró múltiples fallas estadísticas que dificultan sostener el ranking en sí
Estructura del paper y conclusión superficial
- La evaluación se hizo en tres etapas
- Evaluación de conocimiento médico con 500 preguntas de MedQA
- Evaluación de alineación clínica con 500 preguntas de HealthBench
- Evaluación de 100 consultas clínicas reales (RCQ), con un total de 1,800 evaluaciones realizadas por 12 clínicos de EE. UU.
- La conclusión fue que los modelos frontier superaron a las herramientas clínicas especializadas en las tres evaluaciones, y que el tamaño del modelo y el método de alineación podrían ser factores más importantes que el fine-tuning especializado por dominio
Problema de confiabilidad en la evaluación
- El alpha de Krippendorff, que mide la concordancia entre evaluadores, fue de 0.10 a 0.20 en RCQ
- En esta métrica, 0 significa un nivel equivalente al azar y 1 indica acuerdo perfecto; para usarla en rankings normalmente se exige al menos 0.67
- La gráfica central del paper (Figure 2c), que muestra la superioridad relativa de los modelos, surge del promedio de puntajes con ese nivel insuficiente de acuerdo
Una estructura donde el jurado también era parte de lo evaluado
- La evaluación de HealthBench usa un esquema donde un LLM califica la respuesta de otro LLM, pero el jurado estaba compuesto únicamente por los tres modelos evaluados: GPT-5.2, Gemini 3.1 Pro y Claude Opus 4.6
- Las herramientas clínicas especializadas quedaron fuera del jurado
- HealthBench es un benchmark creado por OpenAI, y el GPT-5.2 de OpenAI es evaluado en ese mismo benchmark
- El self-preference bias, donde un modelo se califica mejor a sí mismo o a modelos similares, ya es un fenómeno conocido, y esta estructura no tiene mecanismos para filtrar ese sesgo
Un problema parecido a haber visto el examen antes
- MedQA y HealthBench son conjuntos de datos públicos en internet desde hace tiempo
- Como los modelos frontier se entrenan con enormes volúmenes de texto de internet, es posible que ya hayan visto esas preguntas y respuestas durante el entrenamiento
- El paper reconoce esa posibilidad, pero no calcula cuánto pudo afectar realmente los resultados
Problemas en el tratamiento estadístico
- Se trataron como independientes 1,704 observaciones en las que varios modelos y varios evaluadores respondieron a una misma pregunta
- Los puntajes de una misma pregunta están correlacionados por la dificultad de esa pregunta; ignorarlo produce pseudoreplicación y hace que los resultados parezcan estadísticamente más sólidos de lo que realmente son
- Además, el paper reporta un resultado de Fisher's exact test con P=0.10 al comparar una tasa de rechazo de 19% en UpToDate con una tasa de 6% en Google AI Overview
- Si se calcula directamente con los datos originales (19/100 frente a 6/100), el valor p es de aproximadamente 0.009. Bajo el nivel de significancia de 0.05 que declara el paper, eso corresponde a una diferencia significativa, por lo que, si no se publica el método de corrección aplicado, esa discrepancia necesita explicación
El problema de que las condiciones de evaluación eran distintas
- Los modelos frontier se evaluaron con una API determinista usando temperature 0
- Las herramientas clínicas se evaluaron mediante una interfaz de navegador. El resultado puede variar cada vez y sus prompts internos no se publican
- Las respuestas rechazadas se excluyeron del cómputo. UpToDate rechazó el 19%, por lo que solo quedaron puntajes de preguntas relativamente más fáciles, mientras que los modelos frontier rechazaron apenas entre 1% y 3%, conservando así puntajes sobre toda la distribución de preguntas
Si se usan otros benchmarks, aparecen otros resultados
- Un estudio independiente en medRxiv aplicó a OpenEvidence el mismo benchmark de triage que mostró que ChatGPT Health subestima (undertriage) el 51.6% de las emergencias reales
- La tasa de subestimación de OpenEvidence fue de 12.5%, una cuarta parte de la de ChatGPT Health
- Incluso con la misma herramienta, los resultados pueden cambiar mucho según el benchmark usado. La elección del benchmark en sí misma es una variable que determina la conclusión
Por qué este paper importa ahora
- OpenEvidence ya es una herramienta que miles de médicos en EE. UU. usan todos los días durante la atención clínica. Esta comparación no es una pregunta académica, sino una decisión sobre qué herramienta adoptarán hoy los hospitales
- 2026 es el momento en que hospitales y aseguradoras están firmando contratos reales de adquisición de IA médica. Un solo paper de benchmark puede usarse de inmediato como base para decidir contratos e implementación
- Un paper publicado en Nature Medicine adquiere autoridad y se propaga de inmediato. La revisión crítica que detectó estas fallas estructurales apareció apenas días después, pero para entonces los clínicos ya habían cambiado contenidos de capacitación ese mismo día
- Una vez que una decisión de compra o una guía clínica incorpora estos resultados, revertir contratos y prácticas cuesta tiempo y dinero, incluso si luego se descubren fallas
- Los benchmarks de IA médica siguen saliendo en gran volumen, pero la infraestructura y el personal para revalidarlos de forma independiente no avanzan al mismo ritmo. No es solo el problema de este paper, sino de una estructura que puede repetirse
Conclusión
- Este texto no sostiene que la dirección general del paper sea necesariamente incorrecta
- Pero aquí se superponen al mismo tiempo jurados autoevaluándose, baja concordancia entre evaluadores, posible contaminación de los datos de entrenamiento y errores en el tratamiento estadístico. Resultados con tal acumulación de fallas no deberían determinar contratos de adquisición ni guías clínicas
- El paper expresó confianza en su conclusión, pero los datos no sostienen esa confianza. El problema no es la intención del autor, sino una estructura en la que la confianza circula antes que la validación
- Ahora que la IA médica está entrando a los hospitales, antes que un nuevo paper de benchmark hace falta un sistema independiente de auditoría para verificarlo. Mientras la velocidad de las afirmaciones siga superando la velocidad de la validación, lo mismo volverá a pasar en el próximo paper
Aún no hay comentarios.