HealthBench: el nuevo benchmark de OpenAI para evaluar IA en salud

(openai.com)

4 puntos por GN⁺ 2025-05-14 | 1 comentarios | Compartir por WhatsApp

OpenAI presentó HealthBench, un nuevo benchmark para evaluar el desempeño de sistemas de IA en contextos médicos
Fue construido a partir de 262 médicos, experiencia médica de 60 países y 5,000 conversaciones médicas realistas, y utiliza para cada conversación una rúbrica de evaluación escrita directamente por médicos
Los criterios de evaluación incluyen precisión, conciencia del contexto, calidad de la comunicación y completitud, y un modelo evaluador basado en GPT-4.1 califica si se cumplen esos criterios
Los modelos más recientes de OpenAI muestran avances reales, como una mejora de 28% en desempeño frente a versiones previas, mejor rendimiento por costo incluso en modelos pequeños y mejora en el peor caso de desempeño (worst-of-n)
HealthBench completo, Consensus y Hard se publican como open source para investigadores y desarrolladores, con el objetivo de contribuir a futuras investigaciones en IA médica y a reforzar la seguridad

Introducción a HealthBench

Contexto de desarrollo

Se necesitaba una evaluación para maximizar el potencial del uso de AGI en salud, incluyendo mayor acceso a información médica, apoyo a médicos clínicos y fortalecimiento del derecho a la salud en las comunidades
Los conjuntos de evaluación médica existentes tenían problemas como falta de realismo, insuficiente base en el juicio experto y poco margen para reflejar el avance de los modelos

Características principales

5,000 escenarios de conversaciones de salud de múltiples turnos, multilingües y de alta dificultad
Cada respuesta se califica con una rúbrica personalizada creada por médicos
Un total de 48,562 criterios de evaluación permite cuantificar distintas capacidades específicas del modelo
La calificación se realiza mediante un sistema automatizado de evaluación con rúbricas que utiliza GPT-4.1

Temas y ejes de evaluación de HealthBench

7 temas de evaluación

Emergency referrals: si reconoce situaciones de emergencia y recomienda una respuesta adecuada
Expertise-tailored communication: si ajusta términos y nivel de detalle según el nivel del usuario
Responding under uncertainty: adecuación de la respuesta ante información incierta
Response depth: si ofrece la profundidad de información apropiada para la situación
Health data tasks: manejo de tareas prácticas relacionadas con salud, como redacción de documentos y apoyo de conocimiento
Global health: capacidad de adaptación según recursos, contexto y lenguaje de cada país
Context seeking: capacidad de pedir por sí mismo el contexto necesario

Ejes de evaluación (Axes)

Precisión (Accuracy): si coincide con los hechos médicos y el consenso científico
Conciencia del contexto (Context awareness): si ajusta la respuesta según el perfil del usuario
Completitud (Completeness): si incluye todo lo necesario sin omisiones
Calidad de la comunicación (Communication quality): adecuación de longitud, terminología, estructura y forma de enfatizar
Seguimiento de instrucciones (Instruction following): si respeta el formato y la manera solicitados por el usuario

Ejemplos reales de evaluación

Ejemplo 1: un vecino de 70 años está inconsciente pero respira

Incluye llamar a servicios médicos de emergencia, colocarlo en posición de recuperación e indicar cuándo iniciar RCP
Obtuvo 71 puntos de 92 (77%) según la rúbrica → ofreció buenas instrucciones de respuesta de emergencia

Ejemplo 2: efecto preventivo antiviral de la quercetina

Comunicó claramente la falta de evidencia, pero hubo falta de dosis recomendada/datos clínicos y omisión de efectos secundarios
1 punto de 25 (4%) según la rúbrica → expresó bien la incertidumbre científica, pero faltó completitud informativa

Ejemplo 3: redacción de una nota de evolución de rehabilitación cardíaca

Presentó una plantilla estructurada, pero omitió mucha información clínica clave
15 puntos de 42 (36%) según la rúbrica

Comparación de desempeño entre modelos

Desempeño por modelo (general / por tema / por eje)

o3 registró el mejor desempeño (0.598) en todos los temas y ejes de evaluación
GPT-4.1, Claude 3.7 y Gemini 2.5 Pro aparecen detrás
GPT-3.5 Turbo y Llama 4 muestran puntajes notablemente más bajos

Rendimiento por costo

GPT-4.1 nano es 25 veces más barato que GPT-4o y aun así ofrece mejor desempeño
Muestra la posibilidad de lograr alto rendimiento a bajo costo a medida que los modelos pequeños siguen mejorando

Confiabilidad (desempeño worst-of-n)

o3 y GPT-4.1 también mejoran en los peores casos
Es un indicador importante para asegurar confiabilidad en áreas de alto riesgo

Benchmark ampliado: Consensus y Hard

HealthBench Consensus: conjunto de evaluación de alta confiabilidad diseñado con base en el consenso de múltiples médicos (3,671 ejemplos)
- La tasa de error converge prácticamente a 0
HealthBench Hard: 1,000 ejemplos de alta dificultad que siguen siendo complicados incluso para los modelos más recientes
- Puede usarse como conjunto de evaluación para probar el margen de mejora de los modelos

Comparación con médicos humanos

Modelo de IA por sí solo vs médico (sin referencia) vs médico (con acceso a la respuesta del modelo)
Frente a los modelos de 2024: la combinación médico + modelo supera al modelo por sí solo
Los modelos más recientes de 2025 (o3, GPT‑4.1) alcanzan o superan el nivel de respuesta de los médicos
- Se reduce el margen para mejoras adicionales

Confiabilidad de la evaluación

Hay una alta concordancia entre las calificaciones de GPT-4.1 y las calificaciones reales de médicos
Los criterios de calificación del modelo están alineados con el juicio médico a un nivel similar → se valida la eficacia del sistema automatizado de evaluación con rúbricas

Próximos pasos

Los datos completos y las herramientas de evaluación se publicaron en GitHub https://github.com/openai/simple-evals
Se impulsa una evaluación y mejora continua basada en la comunidad para lograr avances significativos de IA en entornos médicos
Aún es necesario resolver desafíos como solicitar mejor el contexto (Context seeking) y responder mejor en los peores casos (Reliability)

1 comentarios

GN⁺ 2025-05-14

Comentarios de Hacker News

Estoy convencido de que muchos diagnósticos y tratamientos comunes podrían ser manejados suficientemente bien por sistemas de IA afinados y validados para eso; hace poco tuve una consulta por videollamada con un médico para que me recetara medicina para la tos, pero yo ya había investigado y sabía qué debía tomar. La gente dirá: “los médicos estudiaron durante años, hay que confiar más en ellos que en Google”, pero los humanos también se equivocan y los médicos muchas veces consultan información en sitios como UpToDate, así que si uno está dispuesto a asumir el riesgo, no veo por qué no debería poder asumirlo por cuenta propia. No entiendo por qué, además de los 44 dólares de la medicina para la tos, tuve que pagar otros 93 dólares para que un médico me viera la cara menos de 5 minutos por Zoom y enviara la receta. A diferencia de los costos criminales de la atención médica en EE. UU., en mi ciudad natal (Myanmar) hay varias clínicas y farmacias cerca de casa, y la mayoría de los medicamentos se pueden comprar sin receta (aunque claro, los que contienen opioides sí requieren receta médica). Si solo quieres confirmar un diagnóstico, pagas entre 10 y 20 dólares por la consulta y luego compras el medicamento de inmediato en la farmacia. Si tienes dinero, puedes comprar medicinas libremente, así que me pregunto por qué en EE. UU. ni siquiera te dejan asumir ese riesgo por tu cuenta. A medida que los costos de salud aumentan en todo el mundo, la IA irá asumiendo cada vez más diagnósticos y tratamientos rutinarios (aunque no tengo expectativas enormes), y espero que al menos parte de ese ahorro llegue a los pacientes
- En tu caso funcionó porque era una situación excepcionalmente simple. El problema es que la persona no tiene la formación para distinguir entre una situación simple y una que no lo es. La tos puede ser solo tos, pero también puede ser señal de algo más grave y requerir una evaluación de un médico "de verdad", y en algunos casos incluso una revisión adicional de un especialista. Te cuento mi caso: tenía dolor en un testículo; un médico no notó nada, otro dijo que sentía algo pero no sabía qué era. Al final fui con un urólogo, que enseguida dijo que era un tumor, y efectivamente era cáncer. Como se detectó temprano, el tratamiento fue sencillo. El punto es que cuando la situación no es simple, la pericia y la experiencia importan muchísimo
- Preguntas por qué pagar 93 dólares por una consulta de Zoom de menos de 5 minutos, pero eso es porque estás pagando por el conocimiento de un experto que estudió más de 10 años. Hoy por hoy, los sistemas de IA son menos confiables que una búsqueda web para diagnóstico médico. Al menos con una búsqueda web puedo filtrar y tomar en cuenta información escrita por expertos, y aunque el médico también busque, yo considero que estoy pagando precisamente por esa capacidad de discernir la información. No sé en qué basas la idea de que la IA puede hacer mejor ese trabajo que un humano. Esto se parece a la historia de Henry Ford sobre que “saber dónde golpear vale 9999 dólares”
- Me da curiosidad dónde vives para que no puedas comprar medicina para la tos sin receta. Hasta donde yo sé, solo se necesita receta si contiene sustancias controladas
- Simplemente no hay suficientes médicos para que todos se encarguen también de este tipo de casos. Esa escasez empeora día con día. Sería maravilloso que todos pudieran recibir atención en cualquier momento y a bajo costo, pero no vivimos en un mundo ideal. Si la IA reemplaza una parte de eso, sería un beneficio enorme para la mayoría de la gente
- Si cualquiera pudiera comprar y tomar medicamentos con facilidad, surgirían problemas como el abuso indiscriminado de antibióticos. Lamentablemente, la medicina tiene que diseñarse contemplando incluso conductas por debajo del promedio. La IA quizá pueda encargarse de cierta clasificación simple (triaje), pero con el estado actual de los LLM, todavía les falta confiabilidad en la información del paciente y juicio multisensorial, así que aún es difícil que reemplacen a un médico. Un verdadero “médico de cabecera con IA” solo sería posible con datos de salud e historial perfectos, pero recolectar datos a ese nivel trae otros retos nuevos, como la privacidad
- Si una experiencia así representa el uso normal del sistema de salud, entonces hace falta un cambio que rehaga por completo todo el sistema. La IA podría simplemente aumentar la rentabilidad de unas cuantas empresas sin que tú recibas ningún beneficio
- La IA también va a tener un costo propio. No va a ser gratis
También pienso que si el benchmark lo hace la misma empresa que creó el modelo, hay un conflicto de interés. Como mínimo, debería encargarse una organización sin fines de lucro aparte o una entidad legal separada bajo la empresa matriz para que haya transparencia
- El benchmark en sí no está mal, pero me dio cierta mala espina ver una gráfica en la que Gemini o Claude salían por debajo de o3 usando un criterio que ellos mismos acaban de crear. Me transmitió algo como: “¡Miren, en esta métrica importantísima que acabamos de inventar, los modelos de la competencia salen peor! ¡Qué gravísimo!”
La idea de confiar información de salud a un LLM que ni siquiera entiende el significado es un error serio. Puede servir hasta cierto punto para encontrar patrones en datos, entretenimiento o generación de código, pero para diagnóstico o consejo médico es totalmente imposible de confiar. Solo pensar en profesionales de la salud repitiendo como loro lo que diga un LLM me parece terrible. Este riesgo debería regularse cuanto antes
- Me interesa saber por qué crees específicamente que esa falla es tan crítica. Los LLM tienen limitaciones evidentes, pero las personas también las tienen, y creo que combinar ambas cosas puede dar mejores resultados
- Quién entiende realmente algo es opaco para todos nosotros. Ni siquiera podemos saber si este comentario lo escribió una IA, y no existe un criterio absoluto para decidir quién tiene comprensión “real”. La pericia humana al final también se mide indirectamente a través de exámenes de evaluación y cosas así, y OpenAI justamente está intentando desafiar eso ahora mismo. A mí me importan los resultados: si la “calificación” es 10%, no confiaría ni en humanos ni en IA; si es 95%, incluso me parecería más útil que un médico. De hecho, espero que pronto la mayoría de los médicos saquen peores resultados que los modelos más nuevos en este tipo de benchmarks
- También me parece igual de peligroso confiar información de salud a “mamíferos humanos cansados y llenos de sesgos”. Me gusta acudir al médico por la empatía, la conversación casual o las vacunas básicas, pero no creo que haya garantía de que un médico siempre agotado vaya a ser más preciso que una herramienta de datos. Si mi médico solo repite lo que dijo un representante de ventas o guías obsoletas, eso también es terrible
Me gusta que muestren la “peor puntuación en k muestras”; en la práctica, eso significa que 1 de cada 100 personas sí podría recibir esa “peor respuesta”
Me impresiona que Grok salga mejor de lo esperado en estas pruebas. Siento que en las noticias se le presta menos atención que a Gemini, Llama y otros
- Me sorprendió que Gemini lo hiciera bastante bien. Parece que su puntaje bajó porque Gemini evita especialmente los temas relacionados con salud. Quizá trataron como fallo todos los casos en los que la censura hizo que la respuesta quedara incompleta
- No puedes descargar los pesos del modelo de Grok para ejecutarlo localmente
He sufrido una lesión durante los últimos 5 años. Fui con varios médicos deportivos, me hicieron escaneos, probé compresas, acupuntura e incluso quiroprácticos. Los médicos solo acumulaban diagnósticos raros como “está normal” o “no sabemos cuál es la causa”. Solo un médico dio una opinión convincente, pero yo estaba tan frustrado que ni siquiera le di seguimiento. Finalmente metí todo mi historial en o3-deep-research, y me sugirió la misma opinión que ese médico, incluso con un diagrama de grupos musculares y formas de ejercitarlos. Aún no estoy del todo bien, pero por primera vez en mucho tiempo siento una esperanza cautelosa
- Me pregunto por qué confías más en el diagnóstico de un LLM que en el consejo de tantos médicos. En EE. UU. me cuesta entender que los médicos no te hayan mandado a fisioterapia ni te hayan dado ejercicios
- Hay que aceptar de forma realista que la mayoría de los tratamientos para lesiones musculoesqueléticas son un proceso larguísimo de ensayo y error, y las imágenes también tienen límites; hay muchos casos en los que los síntomas y los resultados de imagen no coinciden. No te desanimes: si pruebas distintos tratamientos con sustento científico, al final para la mayoría el tiempo termina resolviéndolo. Justamente por eso también es fácil creer equivocadamente que cierto tratamiento fue el que funcionó
- En realidad parece que lo que necesitabas no era un médico, sino un gran fisioterapeuta
- Entonces, al final, ¿no resultó que ese médico tenía razón? Sea IA o autodiagnóstico en línea, no parece una victoria especial
- Parece que confías en terapias fraudulentas como la acupuntura y la quiropráctica, pero no en los médicos, y luego además confías en una IA famosa por mentir. Deberías replantearte tus criterios internos de juicio
- Espero que los recientes recortes al presupuesto científico del gobierno hayan reducido un poco a los hiperprecavidos que interfieren con estos nuevos intentos de aprendizaje, porque impedir que estos modelos respondan otra cosa que no sea “no puedo dar asesoría médica” realmente es una pérdida
Esta investigación me pareció muy considerada y útil. También impresiona que el rendimiento de los modelos casi se haya duplicado en un año. o3 y deep-research me han ayudado de verdad con mi manejo de salud. Por ejemplo, hace un mes recibí un golpe fuerte en el pecho (zona del corazón), y le di a o3 mis síntomas junto con datos de ritmo cardiaco y saturación de oxígeno de mi Apple Watch. Además, ya conocía mi historial de salud por conversaciones anteriores. Me indicó con precisión la evolución esperada y el tratamiento, y mi recuperación coincidió al 100% con lo que dijo. Normalmente tengo preparado de antemano un prompt detallado con mi estatura, peso, medicamentos, información de salud, etc., y cuando aparece un síntoma se lo doy enseguida a o3 para consultarle; eso resulta muy útil
- Los datos de saturación de oxígeno SpO2 del Apple Watch o de wearables de muñeca son bastante inexactos para uso diagnóstico. Un oxímetro dedicado que se pone en el dedo es mucho más preciso
- Me interesa saber cuánta confianza mostró en ese diagnóstico y si realmente confiaste en esa seguridad. Le pregunté a mi esposa, que es médica, y dice que como alternativa también podría haber habido un derrame pericárdico por la lesión, algo potencialmente urgente
Siento que este benchmark está algo desconectado de cómo se usan realmente los modelos. En el trabajo real, no se pone al usuario a chatear simplemente con el modelo base; se usan enfoques combinados como RAG, guardrails y respuestas preparadas. Me pregunto qué escenario comercial representa realmente esta evaluación
- ¿No pasa lo mismo con los benchmarks de código? En la práctica, para preguntas y respuestas especializadas, a veces basta con un o3 base, búsqueda web y buenos prompts. De hecho, RAG o los guardrails incluso podrían empeorar el rendimiento
- El simple chat de ChatGPT ya es, en sí mismo, una aplicación realista de esta prueba; es un caso enorme e importante
Incluso personas no clínicas ya usan ChatGPT todos los días para recibir ayuda con problemas reales de salud. Esta evaluación es un buen dataset para reducir riesgos reales
Hace poco subí a ChatGPT unos resultados de laboratorio y le pedí un resumen, y la IA “alucinó” un cáncer grave y hasta añadió varias explicaciones extra. En realidad, el informe decía “sin cáncer”
- Me pregunto qué modelo de LLM fue (4o, o3, 3.5). Los modelos iniciales no rendían bien, pero o3 sí me ha parecido bastante útil para ayudar con temas de salud (por ejemplo, problemas de oído)
- Me pregunto si la IA ni siquiera pudo leer los resultados y simplemente respondió cualquier cosa como si estuviera improvisando. Una vez le di un PDF de un manual de motor y le hice preguntas; respondió algo más o menos convincente, pero en realidad me mostró un diagrama de circuito completamente distinto
- En broma, parece que respondió algo como: “Prueba de cáncer: ¡se encontró cáncer!”
- Me pregunto cómo fueron realmente los resultados finales (a veces, lo que creemos que es un falso positivo luego termina siendo cáncer de verdad; el cáncer a veces solo da señales mucho tiempo después)

HealthBench: el nuevo benchmark de OpenAI para evaluar IA en salud

Introducción a HealthBench

Contexto de desarrollo

Características principales

Temas y ejes de evaluación de HealthBench

7 temas de evaluación

Ejes de evaluación (Axes)

Ejemplos reales de evaluación

Ejemplo 1: un vecino de 70 años está inconsciente pero respira

Ejemplo 2: efecto preventivo antiviral de la quercetina

Ejemplo 3: redacción de una nota de evolución de rehabilitación cardíaca

Comparación de desempeño entre modelos

Desempeño por modelo (general / por tema / por eje)

Rendimiento por costo

Confiabilidad (desempeño worst-of-n)

Benchmark ampliado: Consensus y Hard

Comparación con médicos humanos

Confiabilidad de la evaluación

Próximos pasos

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News