OpenAI o1 diagnosticó correctamente al 67% de los pacientes de urgencias; los médicos de triaje registraron 50–55%

(theguardian.com)

1 puntos por GN⁺ 2 시간 전 | 1 comentarios | Compartir por WhatsApp

En un estudio de Harvard, el modelo de razonamiento o1 de OpenAI mostró mayor precisión que médicos humanos en diagnósticos iniciales de triaje en urgencias, y se evaluó que los LLM ya superan la mayoría de los benchmarks de razonamiento clínico
En una prueba leyendo expedientes médicos electrónicos estandarizados de 76 pacientes que llegaron a una sala de urgencias en Boston, o1 emitió un diagnóstico correcto o muy cercano en el 67% de los casos, mientras que 2 médicos humanos registraron 50–55%
Cuando se proporcionaron más detalles, la precisión de la IA subió a 82% y la de expertos humanos fue de 70–79%, pero la diferencia no fue estadísticamente significativa
La IA también superó a 46 médicos en tareas de planes de tratamiento a largo plazo, como terapia con antibióticos o planificación del final de la vida; en 5 casos clínicos, la IA obtuvo 89% frente a 34% de médicos humanos usando materiales tradicionales
El estudio solo comparó datos de pacientes que pueden transmitirse por texto y no evaluó señales no verbales, por lo que su papel se acerca más a una segunda opinión basada en documentos que a reemplazar a un médico real

Resultados clave del experimento de triaje en urgencias de Harvard

En el estudio de Harvard, un sistema de IA logró mejor desempeño que médicos humanos en precisión diagnóstica en situaciones de triaje en medicina de urgencias
Los resultados publicados en Science surgieron de un experimento que comparó respuestas de cientos de médicos con respuestas de IA, y expertos independientes evaluaron que la IA muestra un “verdadero avance” en razonamiento clínico
Se evaluó que los modelos de lenguaje grandes (LLM) “han superado la mayoría de los benchmarks de razonamiento clínico”
La ventaja de la IA fue especialmente notable en escenarios de triaje inicial en urgencias, donde hay poca información y se requiere una decisión rápida

Experimento de diagnóstico con 76 pacientes de urgencias

En un experimento con 76 pacientes que llegaron a una sala de urgencias de un hospital de Boston, la IA y 2 médicos humanos leyeron los mismos expedientes médicos electrónicos estandarizados y emitieron diagnósticos
Los expedientes médicos electrónicos suelen incluir signos vitales, información demográfica y algunas frases de enfermería sobre la razón por la que el paciente acudió al hospital
El modelo de razonamiento o1 de OpenAI encontró un diagnóstico correcto o muy cercano en el 67% de los casos, mientras que los médicos humanos registraron una precisión de 50–55%
Cuando se proporcionó más detalle, la precisión diagnóstica de la IA subió a 82%, y los expertos humanos registraron 70–79%, aunque la diferencia no fue estadísticamente significativa

Experimento de planes de tratamiento a largo plazo

La IA también superó a un grupo más grande de médicos humanos en tareas de planificación de tratamiento a largo plazo, como proponer terapia con antibióticos o planificar el final de la vida
La IA y 46 médicos revisaron 5 estudios de casos clínicos, y la IA elaboró planes significativamente mejores que los médicos humanos que usaron materiales tradicionales
Las puntuaciones fueron de 89% para la IA y 34% para médicos humanos que utilizaron recursos tradicionales como motores de búsqueda

Límites del estudio y cambio de rol en la práctica médica

Este estudio comparó a humanos e IA solo con datos de pacientes que pueden transmitirse por texto
No se evaluó la capacidad de la IA para leer señales no verbales, como el grado de dolor del paciente o su apariencia visual
Por eso, más que reemplazar a un médico real de urgencias, la IA cumple un papel más cercano al de un clínico que emite una segunda opinión basada en documentación
Arjun Manrai, quien dirige el laboratorio de IA de Harvard Medical School, dijo que estos resultados no significan que la IA vaya a reemplazar a los médicos, sino que está en marcha un “cambio tecnológico muy profundo” que reconfigurará la medicina
Adam Rodman, médico del Beth Israel Deaconess medical centre de Boston donde se realizó el estudio, considera a los LLM de IA como “una de las tecnologías más influyentes en décadas”
Rodman cree que, durante la próxima década, en lugar de reemplazar a los médicos, la IA se incorporará a un nuevo modelo de atención tripartito con médicos, pacientes y sistemas de IA trabajando juntos

Casos clínicos y razonamiento de la IA

En uno de los casos del estudio de Harvard, el paciente presentaba un coágulo pulmonar y síntomas en empeoramiento
Los médicos humanos concluyeron que los anticoagulantes estaban fallando, pero la IA detectó que el antecedente de lupus del paciente podía causar inflamación pulmonar
Se confirmó que la evaluación de la IA era correcta

Uso de IA médica ya en expansión

Según un estudio publicado el mes pasado, cerca de 1 de cada 5 médicos en Estados Unidos ya usa IA como apoyo diagnóstico
En el Reino Unido, 16% de los médicos usa IA a diario, y otro 15% la usa semanalmente
Según una encuesta reciente del Royal College of Physicians, uno de los usos más comunes entre médicos británicos es la toma de decisiones clínicas
La principal preocupación de los médicos británicos fue el riesgo de errores de IA y de responsabilidad legal
Aunque se han invertido miles de millones de dólares en empresas de IA para salud, siguen abiertas las preguntas sobre las consecuencias de los errores de la IA
Rodman dijo que actualmente no existe un marco formal para asignar responsabilidades, y subrayó que los pacientes, en última instancia, quieren que decisiones de vida o muerte y decisiones terapéuticas difíciles sean guiadas por humanos

Evaluación de expertos externos y advertencias

El profesor Ewen Harrison, codirector del Centre for Medical Informatics de la University of Edinburgh, evaluó que este estudio es importante y que estos sistemas ya no se limitan a aprobar exámenes de medicina o resolver casos de prueba artificiales
Harrison considera que la IA empieza a verse especialmente como una herramienta útil de segunda opinión para clínicos cuando se necesita considerar un rango más amplio de diagnósticos posibles y no pasar por alto lo importante
El Dr. Wei Xing, de la School of Mathematical and Physical Sciences de la University of Sheffield, consideró que algunos otros resultados sugieren que los médicos podrían seguir inconscientemente la respuesta de la IA en lugar de pensar de forma independiente
Xing dijo que esta tendencia podría crecer a medida que la IA se use de forma más cotidiana en entornos clínicos
Xing señaló que falta información sobre en qué pacientes la IA tuvo peor desempeño y si enfrentó más dificultades con pacientes mayores o con pacientes cuya lengua materna no es el inglés
Xing afirmó que este estudio no demuestra que la IA sea segura para uso clínico cotidiano ni que el público deba usar herramientas de IA disponibles libremente como sustituto del consejo médico

1 comentarios

GN⁺ 2 시간 전

Comentarios en Hacker News

Me cuesta confiar en este tipo de estudios porque es demasiado fácil arruinar los benchmarks
Por ejemplo, en un artículo reciente la IA superó a radiología en interpretación de rayos X, pero la IA ni siquiera tuvo acceso a las rayos X: https://arxiv.org/pdf/2603.21687
Era un “benchmark masivo de preguntas y respuestas visuales para comprensión general de rayos X de tórax”, y no es que lo hubieran roto a propósito
Además, en la lectura de rayos X, el radiólogo humano sí mira realmente las imágenes. Pero en el contexto de este artículo, un médico humano no diagnostica a un paciente de urgencias basándose solo en notas
Es como ponerle una tarea que no necesita, no conoce y para la que no fue entrenado, y luego decir “la IA lo hace mejor”, así que incluso si las notas no filtraron la respuesta por una ruta rara, no sería sorprendente
No digo que este estudio esté definitivamente mal o que haya sido engañoso a propósito, pero no sacaría conclusiones fuertes a partir de un solo estudio
- Estoy de acuerdo con respecto a este estudio en particular, pero a largo plazo no entiendo muy bien la idea de que los médicos vayan a seguir siendo mejores que los modelos de IA
  Al final, la medicina es un problema de conocimiento, experiencia, inteligencia y quizá reconocimiento de patrones, y todo eso parece el tipo de cosa en la que los mejores modelos de IA, especialmente los enfocados solo en medicina, deberían superar ampliamente a la mayoría de los humanos, es decir, a los médicos
  Si ya asumimos algo así para los ingenieros de software, entonces también debería aplicar aquí, y de hecho, en los últimos meses cada vez que he visto a un médico, incluyendo dos visitas a urgencias, todos estaban usando ChatGPT. No es broma, fue impactante
  Así que de verdad me da curiosidad: dejando de lado responsabilidad y ética, viéndolo de forma puramente técnica, ¿qué capacidad concreta o combinación de capacidades hace pensar que una IA médica de primer nivel no podrá igualar o superar de forma permanente, o al menos durante décadas, el rendimiento de un gran médico humano?
- Curiosamente, un estudio reciente usando ChatGPT Health dio resultados bastante distintos: https://www.nature.com/articles/s41591-026-04297-7
  Ahí se equivocó aproximadamente en la mitad de los casos de triaje de gravedad en urgencias
- Si lees el artículo hasta el final, cuando tanto a los médicos como a los modelos de lenguaje grandes les dieron acceso al historial completo del caso, la diferencia desapareció bajo criterios de significancia estadística
  Las cifras del titular citan resultados donde estimaron un diagnóstico presuntivo viendo solo notas de enfermería. Mi sospecha es que, en un estudio de casos seleccionado, los modelos de lenguaje grandes probablemente adivinaron con más soltura que los médicos
- Parece plausible que los médicos omitan cosas por sesgos cognitivos humanos, y que las personas tiendan a quedarse fijadas en los patrones que más les resultan familiares
- Aún no he leído completo el artículo enlazado, pero me parece interesante la suposición de que, al no dar acceso a las rayos X, el resultado sea una ilusión o un espejismo
  Suena como una conclusión muy razonable, pero deja fuera otras posibilidades. ¿Y si las rayos X hacen el resultado menos preciso?
Me sorprendió lo exagerados que parecen tanto el artículo como el paper. Esto hace competir a médicos contra modelos de lenguaje grandes de una forma muy diseñada para favorecer a la IA, y no representa la práctica clínica
Este tipo de casos de razonamiento son una herramienta de aprendizaje, no un benchmark para médicos
El diagnóstico depende primero de describir correctamente al paciente, y la información que se recoge cambia según el diagnóstico diferencial
Una de las capacidades del médico es reunir información de múltiples fuentes y filtrar lo importante. Puede que el paciente no se exprese con claridad o que ni siquiera sea verbal, y quizá haya que obtener datos de un cuidador o familiar
La anamnesis en sí es una habilidad, y el examen físico también, pero aquí esos datos ya vienen dados
Especialmente en preguntas que pudieron haber estado en los datos de entrenamiento de o1, no sorprende en absoluto que supere a médicos en puro reconocimiento de patrones en texto plano, pero no parece una comparación clínicamente útil
Decidir qué pruebas pedir, si tomar imágenes, o qué información irrelevante filtrar de la historia clínica también es una habilidad aparte, y es difícil separarla de la construcción del diagnóstico
- También habría que ver el análisis de los casos mal diagnosticados. El objetivo del médico humano no es lograr la mayor exactitud posible, sino reducir el daño total al paciente
  En algunos casos puede ser ventajoso elegir X en términos probabilísticos, aunque la diferencia no sea grande, y la opción más segura podría ser descartar primero otra posibilidad o iniciar un tratamiento seguro que cubra varias posibilidades
  Simplemente obtener una “puntuación alta” en esta evaluación no equivale necesariamente a una buena práctica médica
No le daría demasiado peso a este estudio, pero aun así creo que mucha gente puede admitir que los modelos de lenguaje grandes para autodiagnóstico sí pueden ser útiles
En Estados Unidos es difícil conseguir la atención y el tiempo de un médico, así que al final uno tiene que arreglárselas solo
Hace 10 años los médicos se quejaban de que los pacientes llegaban con lo que habían encontrado en Google, pero ahora creo que no hay alternativa
Por ejemplo, fui con un especialista en pie y tobillo por problemas en ambos; el problema del pie lo diagnosticó con rayos X, pero del tobillo solo se encogió de hombros porque en la radiografía no se veía nada
Se acabaron los 15 minutos asignados y salí sin saber la causa ni cómo corregirla. Tras preguntarle 5 minutos a un modelo de lenguaje grande, obtuve una causa plausible del tobillo que además encajaba con el diagnóstico del pie
- No creo que usar modelos de lenguaje grandes en medicina sea una solución adecuada para los problemas del sistema de salud de Estados Unidos
  Si las empresas de salud eligen usar IA para aumentar la cantidad de pacientes por día en lugar de mejorar la atención, la situación probablemente empeorará
Decir que “a la IA y a dos médicos humanos se les dio a leer el mismo expediente clínico electrónico estandarizado” es imponer una restricción sobre la capacidad del médico humano
Un médico humano puede obtener mucha más información con solo observar al paciente por un momento
- ¿No se podría decir lo mismo de la IA?
- Por otro lado, también se ha dicho que “pocas cosas son tan peligrosas como expertos con acceso a material que puede abrirse a interpretaciones arbitrarias, como en una entrevista clínica”
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- De acuerdo. Creo que la mejor forma de usar esta tecnología es combinar las fortalezas de ambos lados
  Lo ideal sería que la IA revise los registros y proponga candidatos diagnósticos, y que luego el médico los evalúe después de observar al paciente
  Además, las enfermedades comunes realmente son comunes. También me pregunto cuánto sesga eso tanto a médicos como a modelos de lenguaje grandes
  Si diagnosticas gripe a alguien que llega con moqueo y tos, probablemente acertarás la mayoría de las veces
- Me parece una observación muy importante. Sumado a eso, también sería interesante incluir videos cortos o fotos para que la IA pueda aprovecharlos
- Encima, las redes de salud ahora están presionando a los médicos para que usen software de transcripción con IA al ingresar datos en el expediente clínico electrónico
  A médicos y enfermeras les gusta porque ya no tienen que teclear directamente, pero el hecho de que revisen bien en el expediente los errores de transcripción, que son bastante frecuentes, es un desastre total
  Ahora solo falta meter una transcripción defectuosa en un sistema de diagnóstico por IA y listo. La IA la tomará como si fuera palabra sagrada, mientras que un médico puede detenerse y decir “espera, ¿qué es esto?”
He usado modelos de lenguaje grandes para diagnosticar no solo a mí y a mi esposa, sino también a mis perros
Estoy convencido de que hay una gran oportunidad en la veterinaria basada en IA. Especialmente si luego también pudiera gestionar licitaciones de atención o cirugía entre clínicas veterinarias locales
Los precios entre veterinarias locales pueden variar por más de 10 veces. Mi madre y mi suegra, ambas de 80 años, han sido sobrecargadas muchas veces por veterinarios, y como sus mascotas son una parte enorme de sus vidas, son muy vulnerables a esa presión
No entiendo las reacciones negativas aquí. Ya es sorprendente que una computadora pueda llegar siquiera a un 30% más o menos
Parece haber demasiada hostilidad hacia la IA y hacia laboratorios de frontera como OpenAI, o los de Google, y no tiene sentido
- Sí hay mucho ambiente negativo respecto a la IA. Pero este estudio también tiene limitaciones reales
  Creo que el punto clave es que la IA recibió notas de casos, pero no vio directamente al paciente
  Eso es distinto de cómo se entrena a los médicos, y restringe innecesariamente lo que un médico puede hacer. Gran parte del valor que aporta un médico viene de hablar con el paciente
  El titular suena como si la IA fuera a reemplazar a los médicos, pero en realidad se parece más a “la IA puede hacer esta tarea estrecha mejor que un médico”
  Además, es posible que las notas utilizadas hayan sido escritas originalmente por un médico
  La verdadera recompensa sería que la combinación médico+IA fuera mejor que el médico solo. Si un médico tiene que leer notas de un caso y llegar a una conclusión, ahora puede aprovechar una propuesta bastante decente de la IA
- No entiendo por qué no se entendería. Los comentarios críticos más votados explican bastante bien sus razones, y esas razones ni siquiera son tan técnicas
  Cuanto más alto está lo que está en juego, normalmente deberíamos ser más críticos, no menos
- También decían eso de Enron
  El escepticismo es una herramienta tremendamente útil, incluso en exceso
- Sinceramente me da gusto que gente del sector médico sienta el mismo miedo existencial que yo, de que la IA pueda quitarle el trabajo, en una profesión cómoda y muy bien pagada sostenida por un cártel
Como alguien de 60 años, construí personalmente una herramienta de apoyo médico con IA [1] y la he usado ampliamente con varios síntomas, y estoy muy satisfecho
Después de analizar algunos resultados de pruebas, incluso me recomendó indicadores que el médico no había considerado al principio
No reemplazará al médico, pero es una herramienta muy útil para autodiagnóstico de síntomas simples y como segunda opinión
[1] https://mediconsulta.net (DeepSeek)
Me da curiosidad saber si ese 33% es un subconjunto del 50~45%
Si no lo es, ¿qué tan grave fue ese error? ¿Hubo más muertes? ¿La recuperación fue más larga? ¿En qué se tradujo realmente esa diferencia?
Paper: https://www.science.org/doi/10.1126/science.adz4433 (30 de abril de 2026)
¿Qué tan grande es realmente la diferencia entre 67% y 55%? ¿El estudio usó los mismos pacientes que vieron los médicos?
Si no compararon lado a lado cómo evaluó cada parte cada situación y por qué llegaron a conclusiones distintas, no sé qué tan científicamente útil puede ser
¿Quién puede garantizar que, en el 43% restante, los médicos no puedan detectar puntos ciegos que la IA pasó por alto?
Las herramientas no son para reemplazar, sino para combinar esfuerzos
Lanzarle estos porcentajes al público es bastante irresponsable

OpenAI o1 diagnosticó correctamente al 67% de los pacientes de urgencias; los médicos de triaje registraron 50–55%

Resultados clave del experimento de triaje en urgencias de Harvard

Experimento de diagnóstico con 76 pacientes de urgencias

Experimento de planes de tratamiento a largo plazo

Límites del estudio y cambio de rol en la práctica médica

Casos clínicos y razonamiento de la IA

Uso de IA médica ya en expansión

Evaluación de expertos externos y advertencias

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News