- Tras una MRI por dolor en el hombro derecho, surgieron dudas sobre el diagnóstico del hospital de desgarro parcial de espesor Grade III y su plan de tratamiento acelerado, así que se intentó volver a interpretar las imágenes con Opus 4.8
- El hospital vio un desgarro parcial de más del 50% del ancho en la zona de “apical insertion” del tendón subescapular, pero Opus 4.8 concluyó que el tendón estaba intacto, por lo que las conclusiones divergieron mucho
- GPT 5.5 Pro cuestionó la evidencia de la terapia con ondas de choque y la inyección de Traumeel dentro del tratamiento del hospital, lo que aumentó la motivación para revisar directamente el diagnóstico en sí
- Opus 4.8 analizó en el entorno de Claude Code cientos de archivos DICOM de MRI de unos 266 MB mediante instalación de paquetes y ejecución de código; luego se le agregaron el informe humano y la conversación con ChatGPT para volver a realizar un análisis de mediación
- El resultado final de la mediación quedó cerca de “tendinosis leve en la inserción, sin desgarro parcial ni completo claro”, pero sigue la incertidumbre sobre a quién creerle: al profesional médico o a la AI
Diagnóstico y tratamiento de MRI realizados con rapidez
- Durante varias semanas hubo dolor en el hombro derecho y, aunque los síntomas parecían estar mejorando, se buscó la opinión de un traumatólogo
- El médico recomendó una MRI y, como en la clínica podían hacerla de inmediato, se realizó el estudio
- El resultado de la MRI llevó al diagnóstico de un Grade III (>50%-width) partial-thickness tear en la zona de “apical insertion” del tendón subescapular
- El hospital inició el tratamiento apenas unos minutos después de la MRI y también programó repetir el mismo tratamiento un total de 3 veces
- Al sentir que el tratamiento avanzaba demasiado rápido, al salir del hospital se solicitó una copia de los resultados de la MRI y una lista de los tratamientos realizados y propuestos
Problemas de evidencia del tratamiento señalados por GPT 5.5 Pro
- Al pasarle los resultados de la MRI y la lista de tratamientos a GPT 5.5 Pro, dos puntos aparecieron de inmediato
- El hospital aplicó terapia con ondas de choque en el hombro, pero las guías clínicas recientes dicen que no se use ni se recomiende la terapia con ondas de choque para la tendinopatía del manguito rotador sin calcificación
- Durante el ultrasonido se mencionó que no había calcificación
- El hospital inyectó Traumeel, un medicamento homeopático registrado en Alemania como “sin indicación terapéutica”
- Ese resultado redujo aún más la confianza en el diagnóstico y el tratamiento del hospital, y despertó el deseo de analizar la propia MRI
Análisis de la MRI con Opus 4.8 en Claude Code
- El paquete de la MRI era una exportación DICOM estándar compuesta por cientos de archivos sin extensión, con un tamaño total de aproximadamente 266 MB
- Para el análisis se usó Opus 4.8 (xhigh) dentro de Claude Code
- Se eligió Claude Code para permitir la ejecución de código y la instalación de paquetes
- Se le indicó que instalara de antemano los paquetes necesarios para el análisis
- Aunque se use el mismo modelo, se considera que la diferencia entre Claude Code y el chat de Claude.ai es muy grande
- Como no había conocimiento previo sobre MRI, se configuró para que Claude primero elaborara un plan detallado y luego lo ejecutara
- El único contexto médico dado al inicio fue “dolor en el hombro derecho desde hace 2–3 semanas”, y más adelante se consideró que era menos información de la que había recibido el médico humano
La existencia del desgarro diverge desde el primer análisis
- Aproximadamente 1 hora después, Opus 4.8 devolvió un informe
- La interpretación del hospital y la de Opus 4.8 fueron casi opuestas
- El hospital vio un desgarro parcial Grade III en la zona de apical insertion del tendón subescapular
- Opus 4.8 consideró ese tendón como un intact tendon
- La diferencia esperada era, como mucho, que el grado del desgarro saliera más bajo, pero en realidad diferían incluso sobre si había o no desgarro
Nueva mediación entre la interpretación humana y la de AI
- Para reconciliar ambos resultados, se le pidió a Opus 4.8 un nuevo análisis comparativo
- Esta vez se entregó no solo el informe humano de la MRI, sino también la conversación mantenida con ChatGPT 5.5 Pro
- Esa conversación incluía movimientos y posturas para intentar estimar el diagnóstico
- Opus abordó el caso usando varios subagentes para obtener un análisis nuevo, menos sesgado por el contexto existente
- Tras aproximadamente 1 hora más, salió un nuevo informe
- La conclusión de la mediación fue que la evidencia favorecía al Reader A, resumida con “moderate-to-high confidence”
- Tendinosis leve en la inserción
- Sin desgarro parcial ni completo claro, incluida la apical insertion
- Dijo que algunas discrepancias entre los dos informes no podían resolverse, pero sobre este punto llegó a una conclusión relativamente firme
- Tendinosis leve en la inserción
Opciones que quedan tras la segunda opinión de AI
- Existe una sensación de tranquilidad al dejar el caso en manos de un experto de confianza, pero una segunda opinión basada en AI puede sacudir incómodamente esa sensación
- Tras el análisis de AI, el diagnóstico y el plan de tratamiento existentes parecían apresurados y con demasiada intervención en relación con los hechos, pero tampoco es fácil confiar por completo en la propia AI
- Las opciones que quedan son buscar otro médico o esperar a ver si el hombro mejora con la rehabilitación que ya se está haciendo
- Se espera que, dentro de algunas generaciones, se pueda confiar en la AI para revisar una MRI del mismo modo que hoy se confía en ella para corregir un correo
- No se revelan los nombres de la clínica ni del médico; esta experiencia no es consejo médico, sino un caso sobre la curiosidad técnica de obtener una segunda opinión con AI
1 comentarios
Opiniones de Hacker News
Soy radiólogo, pero es difícil juzgar sin ver el conjunto completo de datos 3D de la MRI. El ultrasonido no es una buena forma de evaluar calcificaciones; encuentra las grandes, pero puede pasar por alto fácilmente las pequeñas.
Una radiografía simple ayuda más, y también podría haberse visto en la MRI. En cualquier caso, cuando no hay calcificación, la terapia con ondas de choque no es dañina; simplemente no ayuda.
En la interpretación radiológica, cuando se escribe “no hay”, siempre queda implícita la salvedad de “no hay dentro de la modalidad de imagen usada y el rango de imágenes obtenidas”. Por eso, no es una contradicción que el informe de ultrasonido diga que no hay calcificación y que el informe de radiografía simple diga que sí la hay.
Para un paciente o alguien no familiarizado con la terminología médica, obviamente es confuso, pero si se explicara todo eso en el informe, el documento tendría aún más expresiones condicionales que ahora y sería irritante de leer.
Me recuerda la anécdota en la que le preguntaron a Babbage si, al introducir una pregunta incorrecta en una máquina de cálculo, saldría la respuesta correcta. Él respondió algo así como: “No puedo entender en absoluto la lógica mental que lleva a formular una pregunta así”.
Si es AI, debería al menos señalar que el calcio se ve mejor en rayos X/CT que en ultrasonido.
Para quien le interese, ofrecemos un servicio de segunda opinión con radiólogos humanos certificados: https://expert.med
El punto clave es realmente este. Sé que no se puede confiar en la AI, pero al mismo tiempo es mucho más cómodo pedirle más explicaciones o rebatirle algo. No hay citas por hora ni costos por hora, y eso pesa mucho. Pero tener más información no necesariamente ayuda.
Una vez llevé mi Civic de 11 años y 150 mil millas a varios talleres para jugar al juego de la “segunda opinión”. Quería comparar las recomendaciones de cada taller y decidir qué hacer.
El resultado fueron tres recomendaciones sin ninguna relación entre sí, y una de ellas era algo que yo sabía con certeza que estaba mal. Me sentí peor que antes de empezar.
La solución a la información incierta no es más información, que la AI sí puede proporcionar, sino mejor información, y la AI actual no puede ofrecer eso.
Es bastante revelador ver cuántas respuestas diferentes y contradictorias aparecen. La mayoría se presentan con seguridad.
La última vez que le hice una pregunta médica a Claude, ni siquiera obtuve respuestas consistentes entre sesiones.
Lo más aterrador es lo fácil que es guiar a cada LLM hacia la respuesta que tengo en mente. Si empiezo a preguntar por opciones que propuso otro LLM, cada sesión termina inclinándose hacia esa explicación.
Un misterio es peor. Cada pieza adicional de datos hace que el objetivo se aleje más. Todo se vuelve cada vez más confuso.
Es una distinción que popularizó Malcolm Gladwell.
Sé que conseguir opiniones de mecánicos toma mucho tiempo. Pero con la AI no pasa eso.
Hace unos años, antes del boom de la IA, me dieron un diagnóstico erróneo de tuberculosis. Tenía tos crónica y un radiólogo externo de una clínica encontró señales de tuberculosis. El resultado se envió, como exige la ley, al hospital municipal de tuberculosis, y los médicos de ahí aceptaron sin más la conclusión de radiología y me dijeron que debía quedarme al menos 8 meses en un hospital con un régimen estricto, casi como una cárcel
No había forma de negarme. Me consideraban una especie de riesgo biológico y legalmente tenía que obedecer
Antes de internarme, busqué de urgencia a otro radiólogo, y él diagnosticó neumonía. Envié ese informe al médico tratante del hospital de tuberculosis y, tras revisarlo, concluyeron que la primera lectura era incorrecta. Resultó que los médicos de ahí no sabían leer las imágenes en absoluto y el sistema consistía simplemente en creer lo que decía el radiólogo
Lo gracioso es que ya me habían puesto en el registro oficial de tuberculosis y no querían reconocer el error. En cambio, me emitieron otro documento que decía que “en ese hospital la tuberculosis se curó en 7 días”. Probablemente soy la única persona de ese país que venció la tuberculosis en una semana
Si te cuesta confiar en radiólogos o médicos, conviene buscar otro médico cuando el costo lo permita. Puedes comparar las conclusiones y ver si coinciden. Si dos médicos o radiólogos no relacionados entre sí dicen lo mismo, es bastante probable que estén cerca de la verdad
Eso sí, no tengo claro en quién habría que confiar más, si en la IA o en los humanos. La IA alucina, pero a mí también me han diagnosticado mal varias veces seres humanos
Me parece que debería existir un lugar centralizado donde expertos del más alto nivel revisen las imágenes, en vez de dejar que cada médico las mire por su cuenta
Me resulta curioso cómo la gente aquí espera que el cuerpo humano sea como una función determinista, donde para una entrada X debería salir una salida Y. Esa expectativa también se traslada al diagnóstico, y se piensa que varios especialistas darán el mismo diagnóstico para el mismo problema
Considerando la complejidad del cuerpo humano, un diagnóstico es el resultado de combinar la experiencia acumulada durante la carrera, el conocimiento, los métodos de diagnóstico y el equipo disponible. Un título como “médico” es una certificación del Estado de que “aprobó el examen, así que es seguro que atienda”, pero no significa que todos atiendan exactamente igual
Algunos especialistas actualizan sus conocimientos cada mes, otros cada año y otros no lo hacen nunca. Hay demasiadas variables: la región, la política e incluso el clima
Por eso la elección del especialista es realmente importante. Hay que buscar su reputación en cuanto a su forma de atender y su área de especialidad. Solo puedes maximizar la probabilidad de recibir un diagnóstico correcto; no deberías esperar que alguien tenga razón solo porque se le llama médico
He visto a muchos amigos y familiares a quienes les recomendaron cirugía casi de inmediato por dolor de hombro. Para quienes se dedican a operar, es común que la cirugía se vuelva la opción por defecto
Yo también tuve bastante dolor de hombro en algún momento, y no se me fue durante meses. No quería operarme, así que probé con masajes y acupuntura, pero no me ayudaron en absoluto
Lo que me lo solucionó fue enfocarme de verdad en las dominadas. Al principio no podía hacer ni una, así que empecé colgándome de la barra y con dominadas escapulares, y poco a poco pasé a las dominadas normales. Cuando ya pude hacer varias por serie, entrené con el método “grease-the-groove”
Cuando llegué a unas 17 por serie dejé el esquema de entrenamiento, y ahora hago 6 series de 7 u 8, repartidas durante el día, 3 veces por semana. También hago ejercicios de movilidad de hombro https://www.youtube.com/watch?v=vP8YmmRMz6I
Si me da flojera y me los salto, inevitablemente vuelve la molestia, pero si retomo los ejercicios de fortalecimiento desaparece
Me parece que si un paciente va buscando una solución rápida, le ofrecen ese tipo de solución. Si estudia un poco y va buscando la mejor solución para sí mismo, por lo general termina obteniéndola
Hace unos 2 años investigué con “deep research” de ChatGPT una sinusitis crónica contra la que venía luchando desde hacía casi 3 años. Después de pasar por 3 médicos generales y 3 visitas al otorrino, metí en la IA todas mis observaciones
En particular, el otorrino había mirado mis senos paranasales con un endoscopio y había visto evidencia de una reacción alérgica, pero luego, después de una prueba de alergias, no pudo explicar por qué concluyó que no se podía tratar con medicamentos para la alergia. Le pregunté varias veces, pero no respondió
ChatGPT encontró un estudio de los NIH según el cual el 20% de las personas presenta reacciones alérgicas limitadas a una parte específica del cuerpo, que podrían no aparecer en una prueba cutánea por punción en el hombro. Cuando se lo pregunté, solo dijo: “las alergias no funcionan así”. Y ahí terminó todo. Ni siquiera consideró revisar el estudio
Me recetó CPAP y tratamientos regulares con nebulizador. Como tema aparte, la empresa de CPAP me envió un mensaje de texto, pero no pude saber si era phishing o no; pregunté quiénes eran, pero no hubo respuesta
Así que simplemente decidí probar tomar todos los días un antihistamínico de segunda generación
La sinusitis desapareció. Antes tenía una sinusitis importante al menos una vez por trimestre. Tal vez, como decía ese médico, las alergias no funcionen así, pero el medicamento para la alergia resolvió mi problema por completo
Lo agradezco, porque hace unos años intenté usar bien el CPAP durante un mes, pero nunca logré acostumbrarme y dormía pésimo
Luego están la responsabilidad y el tiempo. En especial en un campo de alto impacto como la medicina, si le pides a alguien que reconsidere una decisión, nadie tiene el tiempo ni las ganas de abrir ese lío
Si realmente quieres tener éxito, tienes que proponer la prueba sugerida por la investigación antes de que se cierre el circuito diagnóstico, antes de que los médicos consoliden su caso sobre ti. Así hay más posibilidades de que vean lo que tienen que ver
Es mejor decir con franqueza que llegas con una hipótesis. Los médicos se dan cuenta muy rápido de que los estás intentando orientar, pero tardan más en darse cuenta de que el paciente en realidad tenía razón. En un sistema donde gente sobrecargada hace lo mejor que puede, así es como hay que moverse
Como radiólogo, me pareció que Claude y ChatGPT son realmente pésimos para la lectura de MRI, y no confiaría en ellos en absoluto. Tienen ventajas al investigar material basado en texto, pero todavía no interpretan suficientemente bien las imágenes radiológicas
Actualmente, el software de MR de Siemens Deep Resolve genera señal (aproximadamente un 50% adicional), luego genera uno de cada dos píxeles y, en secuencias 3D, genera una de cada dos slices. Reduce alrededor de un 59% el tiempo de cada secuencia, y es realmente muy bueno
Soy técnico de MR
En realidad me da curiosidad el ELO de ChatGPT 5.5. Gracias al contenido que absorbió, no me sorprendería demasiado que, con una comprensión básica de los principios del ajedrez, estuviera por encima de 2000
No entiendo la reacción negativa. La medicina actual funciona cuando tanto el médico como el paciente usan la cabeza. Casi nunca me pasó que el médico simplemente me diera un diagnóstico y yo siguiera con mi día. Cuando ocurrió algo así, por lo general era porque yo ya estaba seguro del problema y sabía lo que necesitaba. El médico era la barrera que bloqueaba el acceso al tratamiento
Dr. GPT es una buena herramienta de brainstorming. Sintetiza información de formas que serían difíciles usando solo los materiales originales. Eso sí, también hay que obligarlo a decir “esto no tiene sentido”
Creo que la postura de que “los médicos no conocen el conocimiento más reciente” tiene poco sustento. Si uno piensa en la densidad de tokens durante el preentrenamiento y en cómo se componen los datasets de postentrenamiento, adaptarse a cambios fundamentales llevará muchísimo tiempo. Si hubiéramos olvidado cómo tratar el escorbuto, ¿cuántos papers harían falta para adaptarnos al nuevo descubrimiento?
No confiaría en la IA para imágenes. Pero una vez ChatGPT, mirando solo el texto de un informe de MRI, dijo que el informe probablemente estaba muy equivocado y sugirió otro diagnóstico. Lo sostuvo con bastante firmeza, así que fui con otro médico y me hicieron otro estudio. En resumen, ChatGPT tenía razón
De nuevo, es solo la experiencia individual de una persona, así que no significa demasiado
No entiendo por qué los médicos no prueban al menos meter un prompt en un LLM antes de decir algo incorrecto. ¿Será por orgullo?
Entiendo que la radiología necesita redes neuronales convolucionales especializadas, pero con más razón cuando el problema se parece más a uno basado en conocimiento
Creo que aparecerán muchos VLM especializados que aporten valor real
Estos juguetes no son confiables en absoluto. No digo que sean inútiles, pero no se puede confiar en ellos