OpenAI o1 diagnosticó correctamente al 67% de los pacientes de urgencias; los médicos de triaje registraron 50–55%
(theguardian.com)- En un estudio de Harvard, el modelo de razonamiento o1 de OpenAI mostró mayor precisión que médicos humanos en diagnósticos iniciales de triaje en urgencias, y se evaluó que los LLM ya superan la mayoría de los benchmarks de razonamiento clínico
- En una prueba leyendo expedientes médicos electrónicos estandarizados de 76 pacientes que llegaron a una sala de urgencias en Boston, o1 emitió un diagnóstico correcto o muy cercano en el 67% de los casos, mientras que 2 médicos humanos registraron 50–55%
- Cuando se proporcionaron más detalles, la precisión de la IA subió a 82% y la de expertos humanos fue de 70–79%, pero la diferencia no fue estadísticamente significativa
- La IA también superó a 46 médicos en tareas de planes de tratamiento a largo plazo, como terapia con antibióticos o planificación del final de la vida; en 5 casos clínicos, la IA obtuvo 89% frente a 34% de médicos humanos usando materiales tradicionales
- El estudio solo comparó datos de pacientes que pueden transmitirse por texto y no evaluó señales no verbales, por lo que su papel se acerca más a una segunda opinión basada en documentos que a reemplazar a un médico real
Resultados clave del experimento de triaje en urgencias de Harvard
- En el estudio de Harvard, un sistema de IA logró mejor desempeño que médicos humanos en precisión diagnóstica en situaciones de triaje en medicina de urgencias
- Los resultados publicados en Science surgieron de un experimento que comparó respuestas de cientos de médicos con respuestas de IA, y expertos independientes evaluaron que la IA muestra un “verdadero avance” en razonamiento clínico
- Se evaluó que los modelos de lenguaje grandes (LLM) “han superado la mayoría de los benchmarks de razonamiento clínico”
- La ventaja de la IA fue especialmente notable en escenarios de triaje inicial en urgencias, donde hay poca información y se requiere una decisión rápida
Experimento de diagnóstico con 76 pacientes de urgencias
- En un experimento con 76 pacientes que llegaron a una sala de urgencias de un hospital de Boston, la IA y 2 médicos humanos leyeron los mismos expedientes médicos electrónicos estandarizados y emitieron diagnósticos
- Los expedientes médicos electrónicos suelen incluir signos vitales, información demográfica y algunas frases de enfermería sobre la razón por la que el paciente acudió al hospital
- El modelo de razonamiento o1 de OpenAI encontró un diagnóstico correcto o muy cercano en el 67% de los casos, mientras que los médicos humanos registraron una precisión de 50–55%
- Cuando se proporcionó más detalle, la precisión diagnóstica de la IA subió a 82%, y los expertos humanos registraron 70–79%, aunque la diferencia no fue estadísticamente significativa
Experimento de planes de tratamiento a largo plazo
- La IA también superó a un grupo más grande de médicos humanos en tareas de planificación de tratamiento a largo plazo, como proponer terapia con antibióticos o planificar el final de la vida
- La IA y 46 médicos revisaron 5 estudios de casos clínicos, y la IA elaboró planes significativamente mejores que los médicos humanos que usaron materiales tradicionales
- Las puntuaciones fueron de 89% para la IA y 34% para médicos humanos que utilizaron recursos tradicionales como motores de búsqueda
Límites del estudio y cambio de rol en la práctica médica
- Este estudio comparó a humanos e IA solo con datos de pacientes que pueden transmitirse por texto
- No se evaluó la capacidad de la IA para leer señales no verbales, como el grado de dolor del paciente o su apariencia visual
- Por eso, más que reemplazar a un médico real de urgencias, la IA cumple un papel más cercano al de un clínico que emite una segunda opinión basada en documentación
- Arjun Manrai, quien dirige el laboratorio de IA de Harvard Medical School, dijo que estos resultados no significan que la IA vaya a reemplazar a los médicos, sino que está en marcha un “cambio tecnológico muy profundo” que reconfigurará la medicina
- Adam Rodman, médico del Beth Israel Deaconess medical centre de Boston donde se realizó el estudio, considera a los LLM de IA como “una de las tecnologías más influyentes en décadas”
- Rodman cree que, durante la próxima década, en lugar de reemplazar a los médicos, la IA se incorporará a un nuevo modelo de atención tripartito con médicos, pacientes y sistemas de IA trabajando juntos
Casos clínicos y razonamiento de la IA
- En uno de los casos del estudio de Harvard, el paciente presentaba un coágulo pulmonar y síntomas en empeoramiento
- Los médicos humanos concluyeron que los anticoagulantes estaban fallando, pero la IA detectó que el antecedente de lupus del paciente podía causar inflamación pulmonar
- Se confirmó que la evaluación de la IA era correcta
Uso de IA médica ya en expansión
- Según un estudio publicado el mes pasado, cerca de 1 de cada 5 médicos en Estados Unidos ya usa IA como apoyo diagnóstico
- En el Reino Unido, 16% de los médicos usa IA a diario, y otro 15% la usa semanalmente
- Según una encuesta reciente del Royal College of Physicians, uno de los usos más comunes entre médicos británicos es la toma de decisiones clínicas
- La principal preocupación de los médicos británicos fue el riesgo de errores de IA y de responsabilidad legal
- Aunque se han invertido miles de millones de dólares en empresas de IA para salud, siguen abiertas las preguntas sobre las consecuencias de los errores de la IA
- Rodman dijo que actualmente no existe un marco formal para asignar responsabilidades, y subrayó que los pacientes, en última instancia, quieren que decisiones de vida o muerte y decisiones terapéuticas difíciles sean guiadas por humanos
Evaluación de expertos externos y advertencias
- El profesor Ewen Harrison, codirector del Centre for Medical Informatics de la University of Edinburgh, evaluó que este estudio es importante y que estos sistemas ya no se limitan a aprobar exámenes de medicina o resolver casos de prueba artificiales
- Harrison considera que la IA empieza a verse especialmente como una herramienta útil de segunda opinión para clínicos cuando se necesita considerar un rango más amplio de diagnósticos posibles y no pasar por alto lo importante
- El Dr. Wei Xing, de la School of Mathematical and Physical Sciences de la University of Sheffield, consideró que algunos otros resultados sugieren que los médicos podrían seguir inconscientemente la respuesta de la IA en lugar de pensar de forma independiente
- Xing dijo que esta tendencia podría crecer a medida que la IA se use de forma más cotidiana en entornos clínicos
- Xing señaló que falta información sobre en qué pacientes la IA tuvo peor desempeño y si enfrentó más dificultades con pacientes mayores o con pacientes cuya lengua materna no es el inglés
- Xing afirmó que este estudio no demuestra que la IA sea segura para uso clínico cotidiano ni que el público deba usar herramientas de IA disponibles libremente como sustituto del consejo médico
1 comentarios
Comentarios en Hacker News
Me cuesta confiar en este tipo de estudios porque es demasiado fácil arruinar los benchmarks
Por ejemplo, en un artículo reciente la IA superó a radiología en interpretación de rayos X, pero la IA ni siquiera tuvo acceso a las rayos X: https://arxiv.org/pdf/2603.21687
Era un “benchmark masivo de preguntas y respuestas visuales para comprensión general de rayos X de tórax”, y no es que lo hubieran roto a propósito
Además, en la lectura de rayos X, el radiólogo humano sí mira realmente las imágenes. Pero en el contexto de este artículo, un médico humano no diagnostica a un paciente de urgencias basándose solo en notas
Es como ponerle una tarea que no necesita, no conoce y para la que no fue entrenado, y luego decir “la IA lo hace mejor”, así que incluso si las notas no filtraron la respuesta por una ruta rara, no sería sorprendente
No digo que este estudio esté definitivamente mal o que haya sido engañoso a propósito, pero no sacaría conclusiones fuertes a partir de un solo estudio
Al final, la medicina es un problema de conocimiento, experiencia, inteligencia y quizá reconocimiento de patrones, y todo eso parece el tipo de cosa en la que los mejores modelos de IA, especialmente los enfocados solo en medicina, deberían superar ampliamente a la mayoría de los humanos, es decir, a los médicos
Si ya asumimos algo así para los ingenieros de software, entonces también debería aplicar aquí, y de hecho, en los últimos meses cada vez que he visto a un médico, incluyendo dos visitas a urgencias, todos estaban usando ChatGPT. No es broma, fue impactante
Así que de verdad me da curiosidad: dejando de lado responsabilidad y ética, viéndolo de forma puramente técnica, ¿qué capacidad concreta o combinación de capacidades hace pensar que una IA médica de primer nivel no podrá igualar o superar de forma permanente, o al menos durante décadas, el rendimiento de un gran médico humano?
Ahí se equivocó aproximadamente en la mitad de los casos de triaje de gravedad en urgencias
Las cifras del titular citan resultados donde estimaron un diagnóstico presuntivo viendo solo notas de enfermería. Mi sospecha es que, en un estudio de casos seleccionado, los modelos de lenguaje grandes probablemente adivinaron con más soltura que los médicos
Suena como una conclusión muy razonable, pero deja fuera otras posibilidades. ¿Y si las rayos X hacen el resultado menos preciso?
Me sorprendió lo exagerados que parecen tanto el artículo como el paper. Esto hace competir a médicos contra modelos de lenguaje grandes de una forma muy diseñada para favorecer a la IA, y no representa la práctica clínica
Este tipo de casos de razonamiento son una herramienta de aprendizaje, no un benchmark para médicos
El diagnóstico depende primero de describir correctamente al paciente, y la información que se recoge cambia según el diagnóstico diferencial
Una de las capacidades del médico es reunir información de múltiples fuentes y filtrar lo importante. Puede que el paciente no se exprese con claridad o que ni siquiera sea verbal, y quizá haya que obtener datos de un cuidador o familiar
La anamnesis en sí es una habilidad, y el examen físico también, pero aquí esos datos ya vienen dados
Especialmente en preguntas que pudieron haber estado en los datos de entrenamiento de o1, no sorprende en absoluto que supere a médicos en puro reconocimiento de patrones en texto plano, pero no parece una comparación clínicamente útil
Decidir qué pruebas pedir, si tomar imágenes, o qué información irrelevante filtrar de la historia clínica también es una habilidad aparte, y es difícil separarla de la construcción del diagnóstico
En algunos casos puede ser ventajoso elegir X en términos probabilísticos, aunque la diferencia no sea grande, y la opción más segura podría ser descartar primero otra posibilidad o iniciar un tratamiento seguro que cubra varias posibilidades
Simplemente obtener una “puntuación alta” en esta evaluación no equivale necesariamente a una buena práctica médica
No le daría demasiado peso a este estudio, pero aun así creo que mucha gente puede admitir que los modelos de lenguaje grandes para autodiagnóstico sí pueden ser útiles
En Estados Unidos es difícil conseguir la atención y el tiempo de un médico, así que al final uno tiene que arreglárselas solo
Hace 10 años los médicos se quejaban de que los pacientes llegaban con lo que habían encontrado en Google, pero ahora creo que no hay alternativa
Por ejemplo, fui con un especialista en pie y tobillo por problemas en ambos; el problema del pie lo diagnosticó con rayos X, pero del tobillo solo se encogió de hombros porque en la radiografía no se veía nada
Se acabaron los 15 minutos asignados y salí sin saber la causa ni cómo corregirla. Tras preguntarle 5 minutos a un modelo de lenguaje grande, obtuve una causa plausible del tobillo que además encajaba con el diagnóstico del pie
Si las empresas de salud eligen usar IA para aumentar la cantidad de pacientes por día en lugar de mejorar la atención, la situación probablemente empeorará
Decir que “a la IA y a dos médicos humanos se les dio a leer el mismo expediente clínico electrónico estandarizado” es imponer una restricción sobre la capacidad del médico humano
Un médico humano puede obtener mucha más información con solo observar al paciente por un momento
https://entropicthoughts.com/arithmetic-models-better-than-y...
Lo ideal sería que la IA revise los registros y proponga candidatos diagnósticos, y que luego el médico los evalúe después de observar al paciente
Además, las enfermedades comunes realmente son comunes. También me pregunto cuánto sesga eso tanto a médicos como a modelos de lenguaje grandes
Si diagnosticas gripe a alguien que llega con moqueo y tos, probablemente acertarás la mayoría de las veces
A médicos y enfermeras les gusta porque ya no tienen que teclear directamente, pero el hecho de que revisen bien en el expediente los errores de transcripción, que son bastante frecuentes, es un desastre total
Ahora solo falta meter una transcripción defectuosa en un sistema de diagnóstico por IA y listo. La IA la tomará como si fuera palabra sagrada, mientras que un médico puede detenerse y decir “espera, ¿qué es esto?”
He usado modelos de lenguaje grandes para diagnosticar no solo a mí y a mi esposa, sino también a mis perros
Estoy convencido de que hay una gran oportunidad en la veterinaria basada en IA. Especialmente si luego también pudiera gestionar licitaciones de atención o cirugía entre clínicas veterinarias locales
Los precios entre veterinarias locales pueden variar por más de 10 veces. Mi madre y mi suegra, ambas de 80 años, han sido sobrecargadas muchas veces por veterinarios, y como sus mascotas son una parte enorme de sus vidas, son muy vulnerables a esa presión
No entiendo las reacciones negativas aquí. Ya es sorprendente que una computadora pueda llegar siquiera a un 30% más o menos
Parece haber demasiada hostilidad hacia la IA y hacia laboratorios de frontera como OpenAI, o los de Google, y no tiene sentido
Creo que el punto clave es que la IA recibió notas de casos, pero no vio directamente al paciente
Eso es distinto de cómo se entrena a los médicos, y restringe innecesariamente lo que un médico puede hacer. Gran parte del valor que aporta un médico viene de hablar con el paciente
El titular suena como si la IA fuera a reemplazar a los médicos, pero en realidad se parece más a “la IA puede hacer esta tarea estrecha mejor que un médico”
Además, es posible que las notas utilizadas hayan sido escritas originalmente por un médico
La verdadera recompensa sería que la combinación médico+IA fuera mejor que el médico solo. Si un médico tiene que leer notas de un caso y llegar a una conclusión, ahora puede aprovechar una propuesta bastante decente de la IA
Cuanto más alto está lo que está en juego, normalmente deberíamos ser más críticos, no menos
El escepticismo es una herramienta tremendamente útil, incluso en exceso
Como alguien de 60 años, construí personalmente una herramienta de apoyo médico con IA [1] y la he usado ampliamente con varios síntomas, y estoy muy satisfecho
Después de analizar algunos resultados de pruebas, incluso me recomendó indicadores que el médico no había considerado al principio
No reemplazará al médico, pero es una herramienta muy útil para autodiagnóstico de síntomas simples y como segunda opinión
[1] https://mediconsulta.net (DeepSeek)
Me da curiosidad saber si ese 33% es un subconjunto del 50~45%
Si no lo es, ¿qué tan grave fue ese error? ¿Hubo más muertes? ¿La recuperación fue más larga? ¿En qué se tradujo realmente esa diferencia?
Paper: https://www.science.org/doi/10.1126/science.adz4433 (30 de abril de 2026)
¿Qué tan grande es realmente la diferencia entre 67% y 55%? ¿El estudio usó los mismos pacientes que vieron los médicos?
Si no compararon lado a lado cómo evaluó cada parte cada situación y por qué llegaron a conclusiones distintas, no sé qué tan científicamente útil puede ser
¿Quién puede garantizar que, en el 43% restante, los médicos no puedan detectar puntos ciegos que la IA pasó por alto?
Las herramientas no son para reemplazar, sino para combinar esfuerzos
Lanzarle estos porcentajes al público es bastante irresponsable