2 puntos por GN⁺ 10 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Tras una MRI por dolor en el hombro derecho, surgieron dudas sobre el diagnóstico del hospital de desgarro parcial de espesor Grade III y su plan de tratamiento acelerado, así que se intentó volver a interpretar las imágenes con Opus 4.8
  • El hospital vio un desgarro parcial de más del 50% del ancho en la zona de “apical insertion” del tendón subescapular, pero Opus 4.8 concluyó que el tendón estaba intacto, por lo que las conclusiones divergieron mucho
  • GPT 5.5 Pro cuestionó la evidencia de la terapia con ondas de choque y la inyección de Traumeel dentro del tratamiento del hospital, lo que aumentó la motivación para revisar directamente el diagnóstico en sí
  • Opus 4.8 analizó en el entorno de Claude Code cientos de archivos DICOM de MRI de unos 266 MB mediante instalación de paquetes y ejecución de código; luego se le agregaron el informe humano y la conversación con ChatGPT para volver a realizar un análisis de mediación
  • El resultado final de la mediación quedó cerca de “tendinosis leve en la inserción, sin desgarro parcial ni completo claro”, pero sigue la incertidumbre sobre a quién creerle: al profesional médico o a la AI

Diagnóstico y tratamiento de MRI realizados con rapidez

  • Durante varias semanas hubo dolor en el hombro derecho y, aunque los síntomas parecían estar mejorando, se buscó la opinión de un traumatólogo
  • El médico recomendó una MRI y, como en la clínica podían hacerla de inmediato, se realizó el estudio
  • El resultado de la MRI llevó al diagnóstico de un Grade III (>50%-width) partial-thickness tear en la zona de “apical insertion” del tendón subescapular
  • El hospital inició el tratamiento apenas unos minutos después de la MRI y también programó repetir el mismo tratamiento un total de 3 veces
  • Al sentir que el tratamiento avanzaba demasiado rápido, al salir del hospital se solicitó una copia de los resultados de la MRI y una lista de los tratamientos realizados y propuestos

Problemas de evidencia del tratamiento señalados por GPT 5.5 Pro

  • Al pasarle los resultados de la MRI y la lista de tratamientos a GPT 5.5 Pro, dos puntos aparecieron de inmediato
    • El hospital aplicó terapia con ondas de choque en el hombro, pero las guías clínicas recientes dicen que no se use ni se recomiende la terapia con ondas de choque para la tendinopatía del manguito rotador sin calcificación
    • Durante el ultrasonido se mencionó que no había calcificación
    • El hospital inyectó Traumeel, un medicamento homeopático registrado en Alemania como “sin indicación terapéutica”
  • Ese resultado redujo aún más la confianza en el diagnóstico y el tratamiento del hospital, y despertó el deseo de analizar la propia MRI

Análisis de la MRI con Opus 4.8 en Claude Code

  • El paquete de la MRI era una exportación DICOM estándar compuesta por cientos de archivos sin extensión, con un tamaño total de aproximadamente 266 MB
  • Para el análisis se usó Opus 4.8 (xhigh) dentro de Claude Code
    • Se eligió Claude Code para permitir la ejecución de código y la instalación de paquetes
    • Se le indicó que instalara de antemano los paquetes necesarios para el análisis
  • Aunque se use el mismo modelo, se considera que la diferencia entre Claude Code y el chat de Claude.ai es muy grande
  • Como no había conocimiento previo sobre MRI, se configuró para que Claude primero elaborara un plan detallado y luego lo ejecutara
  • El único contexto médico dado al inicio fue “dolor en el hombro derecho desde hace 2–3 semanas”, y más adelante se consideró que era menos información de la que había recibido el médico humano

La existencia del desgarro diverge desde el primer análisis

  • Aproximadamente 1 hora después, Opus 4.8 devolvió un informe
  • La interpretación del hospital y la de Opus 4.8 fueron casi opuestas
    • El hospital vio un desgarro parcial Grade III en la zona de apical insertion del tendón subescapular
    • Opus 4.8 consideró ese tendón como un intact tendon
  • La diferencia esperada era, como mucho, que el grado del desgarro saliera más bajo, pero en realidad diferían incluso sobre si había o no desgarro

Nueva mediación entre la interpretación humana y la de AI

  • Para reconciliar ambos resultados, se le pidió a Opus 4.8 un nuevo análisis comparativo
  • Esta vez se entregó no solo el informe humano de la MRI, sino también la conversación mantenida con ChatGPT 5.5 Pro
    • Esa conversación incluía movimientos y posturas para intentar estimar el diagnóstico
  • Opus abordó el caso usando varios subagentes para obtener un análisis nuevo, menos sesgado por el contexto existente
  • Tras aproximadamente 1 hora más, salió un nuevo informe
  • La conclusión de la mediación fue que la evidencia favorecía al Reader A, resumida con “moderate-to-high confidence”
    • Tendinosis leve en la inserción
      • Sin desgarro parcial ni completo claro, incluida la apical insertion
      • Dijo que algunas discrepancias entre los dos informes no podían resolverse, pero sobre este punto llegó a una conclusión relativamente firme

Opciones que quedan tras la segunda opinión de AI

  • Existe una sensación de tranquilidad al dejar el caso en manos de un experto de confianza, pero una segunda opinión basada en AI puede sacudir incómodamente esa sensación
  • Tras el análisis de AI, el diagnóstico y el plan de tratamiento existentes parecían apresurados y con demasiada intervención en relación con los hechos, pero tampoco es fácil confiar por completo en la propia AI
  • Las opciones que quedan son buscar otro médico o esperar a ver si el hombro mejora con la rehabilitación que ya se está haciendo
  • Se espera que, dentro de algunas generaciones, se pueda confiar en la AI para revisar una MRI del mismo modo que hoy se confía en ella para corregir un correo
  • No se revelan los nombres de la clínica ni del médico; esta experiencia no es consejo médico, sino un caso sobre la curiosidad técnica de obtener una segunda opinión con AI

1 comentarios

 
Opiniones de Hacker News
  • Soy radiólogo, pero es difícil juzgar sin ver el conjunto completo de datos 3D de la MRI. El ultrasonido no es una buena forma de evaluar calcificaciones; encuentra las grandes, pero puede pasar por alto fácilmente las pequeñas.
    Una radiografía simple ayuda más, y también podría haberse visto en la MRI. En cualquier caso, cuando no hay calcificación, la terapia con ondas de choque no es dañina; simplemente no ayuda.
    En la interpretación radiológica, cuando se escribe “no hay”, siempre queda implícita la salvedad de “no hay dentro de la modalidad de imagen usada y el rango de imágenes obtenidas”. Por eso, no es una contradicción que el informe de ultrasonido diga que no hay calcificación y que el informe de radiografía simple diga que sí la hay.
    Para un paciente o alguien no familiarizado con la terminología médica, obviamente es confuso, pero si se explicara todo eso en el informe, el documento tendría aún más expresiones condicionales que ahora y sería irritante de leer.

    • Creo que eso lo estás diciendo de una forma demasiado amable. Si uno no entiende esto, solo podría confundirse si asumiera que todos los equipos de diagnóstico tienen nitidez infinita y siempre aciertan.
      Me recuerda la anécdota en la que le preguntaron a Babbage si, al introducir una pregunta incorrecta en una máquina de cálculo, saldría la respuesta correcta. Él respondió algo así como: “No puedo entender en absoluto la lógica mental que lleva a formular una pregunta así”.
    • Como técnico radiólogo, me dan ganas de decir: “¡Así es, doctor!”. He visto usos de AI que ayudan a los pacientes a entender su situación o a interpretar resultados básicos de análisis de sangre, pero es realmente mala cuando le da demasiada razón a la persona y la arrastra a una madriguera médica como en el post original.
      Si es AI, debería al menos señalar que el calcio se ve mejor en rayos X/CT que en ultrasonido.
    • Estoy de acuerdo. No soy radiólogo, pero investigo bastante con MRI. Es muy probable que expertos y personas comunes tengan tasas de éxito distintas al extraer el diagnóstico correcto de los modelos de frontera, y que pequeñas diferencias en el prompt produzcan diagnósticos diferentes https://www.nature.com/articles/s41591-026-04501-8
    • Al leer y buscar las palabras que aparecen aquí, parecen demasiado parecidas a los síntomas de mi hombro derecho. Siento que se abrió una enorme madriguera de conejo al lado de mi escritorio.
    • Me pregunto por qué en ortopedia no se usa más el ultrasonido diagnóstico. Todos los días se ven corazones y órganos fetales; ¿por qué no un hombro? Parece mucho más barato y rápido.
  • Para quien le interese, ofrecemos un servicio de segunda opinión con radiólogos humanos certificados: https://expert.med

    • Necesitamos una versión de esto para odontología.
  • El punto clave es realmente este. Sé que no se puede confiar en la AI, pero al mismo tiempo es mucho más cómodo pedirle más explicaciones o rebatirle algo. No hay citas por hora ni costos por hora, y eso pesa mucho. Pero tener más información no necesariamente ayuda.
    Una vez llevé mi Civic de 11 años y 150 mil millas a varios talleres para jugar al juego de la “segunda opinión”. Quería comparar las recomendaciones de cada taller y decidir qué hacer.
    El resultado fueron tres recomendaciones sin ninguna relación entre sí, y una de ellas era algo que yo sabía con certeza que estaba mal. Me sentí peor que antes de empezar.
    La solución a la información incierta no es más información, que la AI sí puede proporcionar, sino mejor información, y la AI actual no puede ofrecer eso.

    • Mantengo varias suscripciones a LLM y modelos locales a la vez. Cuando hago preguntas fuera de mi área de especialidad, se las hago a todos los LLM a los que tengo acceso y creo sesiones separadas para plantear la misma pregunta de varias maneras.
      Es bastante revelador ver cuántas respuestas diferentes y contradictorias aparecen. La mayoría se presentan con seguridad.
      La última vez que le hice una pregunta médica a Claude, ni siquiera obtuve respuestas consistentes entre sesiones.
      Lo más aterrador es lo fácil que es guiar a cada LLM hacia la respuesta que tengo en mente. Si empiezo a preguntar por opciones que propuso otro LLM, cada sesión termina inclinándose hacia esa explicación.
    • Hay una gran diferencia entre un rompecabezas y un misterio. En un rompecabezas, el estado objetivo se conoce, y mientras más piezas —es decir, datos— tienes, más te acercas al objetivo. También sabes cuánto falta para llegar.
      Un misterio es peor. Cada pieza adicional de datos hace que el objetivo se aleje más. Todo se vuelve cada vez más confuso.
      Es una distinción que popularizó Malcolm Gladwell.
    • Creo que la AI actualmente sí puede proporcionar mejor información. Solo que no puede hacerlo de forma confiable, y como los no expertos no pueden distinguir la diferencia, se vuelve más peligrosa.
    • Ese sonido suave con el que ChatGPT nos consuela diciéndonos lo correctos e inteligentes que somos… ¿cómo podría alucinar? Sobre todo si es 5.5.
    • ¿Solo obtuviste 3 opiniones sobre el auto? ¿Por qué no 50? Si hubieras reunido más información, tal vez habrías encontrado una señal más útil.
      Sé que conseguir opiniones de mecánicos toma mucho tiempo. Pero con la AI no pasa eso.
  • Hace unos años, antes del boom de la IA, me dieron un diagnóstico erróneo de tuberculosis. Tenía tos crónica y un radiólogo externo de una clínica encontró señales de tuberculosis. El resultado se envió, como exige la ley, al hospital municipal de tuberculosis, y los médicos de ahí aceptaron sin más la conclusión de radiología y me dijeron que debía quedarme al menos 8 meses en un hospital con un régimen estricto, casi como una cárcel
    No había forma de negarme. Me consideraban una especie de riesgo biológico y legalmente tenía que obedecer
    Antes de internarme, busqué de urgencia a otro radiólogo, y él diagnosticó neumonía. Envié ese informe al médico tratante del hospital de tuberculosis y, tras revisarlo, concluyeron que la primera lectura era incorrecta. Resultó que los médicos de ahí no sabían leer las imágenes en absoluto y el sistema consistía simplemente en creer lo que decía el radiólogo
    Lo gracioso es que ya me habían puesto en el registro oficial de tuberculosis y no querían reconocer el error. En cambio, me emitieron otro documento que decía que “en ese hospital la tuberculosis se curó en 7 días”. Probablemente soy la única persona de ese país que venció la tuberculosis en una semana
    Si te cuesta confiar en radiólogos o médicos, conviene buscar otro médico cuando el costo lo permita. Puedes comparar las conclusiones y ver si coinciden. Si dos médicos o radiólogos no relacionados entre sí dicen lo mismo, es bastante probable que estén cerca de la verdad
    Eso sí, no tengo claro en quién habría que confiar más, si en la IA o en los humanos. La IA alucina, pero a mí también me han diagnosticado mal varias veces seres humanos

    • ¿Cómo puede pasar eso? No se puede diagnosticar tuberculosis solo mirando una imagen, y un hospital de tuberculosis debería saberlo
    • Me pasó algo parecido. Mi hijo tuvo neumonía y, aun después de 10 días de antibióticos, el dolor seguía. Llevé la radiografía a tres médicos, y solo uno hizo el diagnóstico correcto de derrame pleural
      Me parece que debería existir un lugar centralizado donde expertos del más alto nivel revisen las imágenes, en vez de dejar que cada médico las mire por su cuenta
  • Me resulta curioso cómo la gente aquí espera que el cuerpo humano sea como una función determinista, donde para una entrada X debería salir una salida Y. Esa expectativa también se traslada al diagnóstico, y se piensa que varios especialistas darán el mismo diagnóstico para el mismo problema
    Considerando la complejidad del cuerpo humano, un diagnóstico es el resultado de combinar la experiencia acumulada durante la carrera, el conocimiento, los métodos de diagnóstico y el equipo disponible. Un título como “médico” es una certificación del Estado de que “aprobó el examen, así que es seguro que atienda”, pero no significa que todos atiendan exactamente igual
    Algunos especialistas actualizan sus conocimientos cada mes, otros cada año y otros no lo hacen nunca. Hay demasiadas variables: la región, la política e incluso el clima
    Por eso la elección del especialista es realmente importante. Hay que buscar su reputación en cuanto a su forma de atender y su área de especialidad. Solo puedes maximizar la probabilidad de recibir un diagnóstico correcto; no deberías esperar que alguien tenga razón solo porque se le llama médico

    • Si se trata de una comunidad compuesta sobre todo por gente que se dedica a crear ese tipo de funciones, es previsible que también espere que el cuerpo humano sea una función determinista
    • No entiendo bien el punto. ¿Quieres decir que, como la medicina es inherentemente propensa al error, la IA, en especial un conjunto de varias IA especializadas, tendría más probabilidades de dar un mejor diagnóstico?
  • He visto a muchos amigos y familiares a quienes les recomendaron cirugía casi de inmediato por dolor de hombro. Para quienes se dedican a operar, es común que la cirugía se vuelva la opción por defecto
    Yo también tuve bastante dolor de hombro en algún momento, y no se me fue durante meses. No quería operarme, así que probé con masajes y acupuntura, pero no me ayudaron en absoluto
    Lo que me lo solucionó fue enfocarme de verdad en las dominadas. Al principio no podía hacer ni una, así que empecé colgándome de la barra y con dominadas escapulares, y poco a poco pasé a las dominadas normales. Cuando ya pude hacer varias por serie, entrené con el método “grease-the-groove”
    Cuando llegué a unas 17 por serie dejé el esquema de entrenamiento, y ahora hago 6 series de 7 u 8, repartidas durante el día, 3 veces por semana. También hago ejercicios de movilidad de hombro https://www.youtube.com/watch?v=vP8YmmRMz6I
    Si me da flojera y me los salto, inevitablemente vuelve la molestia, pero si retomo los ejercicios de fortalecimiento desaparece

    • Tuve problemas de hombro durante años. Probé fisioterapia y ejercicios de jalón/empuje, pero esos ejercicios me empeoraban el dolor. Si no hacía ejercicios que usaran el hombro, estaba “bien”
    • En cambio, cuando tuve un problema del manguito rotador, el cirujano me recomendó varios meses de fisioterapia antes de meter bisturí. Funcionó. Seguí haciendo entrenamiento con pesas enfocándome en el movimiento correcto del hombro y el dolor no volvió
      Me parece que si un paciente va buscando una solución rápida, le ofrecen ese tipo de solución. Si estudia un poco y va buscando la mejor solución para sí mismo, por lo general termina obteniéndola
  • Hace unos 2 años investigué con “deep research” de ChatGPT una sinusitis crónica contra la que venía luchando desde hacía casi 3 años. Después de pasar por 3 médicos generales y 3 visitas al otorrino, metí en la IA todas mis observaciones
    En particular, el otorrino había mirado mis senos paranasales con un endoscopio y había visto evidencia de una reacción alérgica, pero luego, después de una prueba de alergias, no pudo explicar por qué concluyó que no se podía tratar con medicamentos para la alergia. Le pregunté varias veces, pero no respondió
    ChatGPT encontró un estudio de los NIH según el cual el 20% de las personas presenta reacciones alérgicas limitadas a una parte específica del cuerpo, que podrían no aparecer en una prueba cutánea por punción en el hombro. Cuando se lo pregunté, solo dijo: “las alergias no funcionan así”. Y ahí terminó todo. Ni siquiera consideró revisar el estudio
    Me recetó CPAP y tratamientos regulares con nebulizador. Como tema aparte, la empresa de CPAP me envió un mensaje de texto, pero no pude saber si era phishing o no; pregunté quiénes eran, pero no hubo respuesta
    Así que simplemente decidí probar tomar todos los días un antihistamínico de segunda generación
    La sinusitis desapareció. Antes tenía una sinusitis importante al menos una vez por trimestre. Tal vez, como decía ese médico, las alergias no funcionen así, pero el medicamento para la alergia resolvió mi problema por completo
    Lo agradezco, porque hace unos años intenté usar bien el CPAP durante un mes, pero nunca logré acostumbrarme y dormía pésimo

    • Aquí hay mucho que desentrañar, y la situación ya venía cuesta arriba desde el principio. Primero, cuando una prueba dice X, es realmente difícil negar X. No es un problema exclusivo de la medicina, sino de los humanos en general. Somos malos para volver a mirar o corregir decisiones, y peores aún para considerar la posibilidad de revertirlas
      Luego están la responsabilidad y el tiempo. En especial en un campo de alto impacto como la medicina, si le pides a alguien que reconsidere una decisión, nadie tiene el tiempo ni las ganas de abrir ese lío
      Si realmente quieres tener éxito, tienes que proponer la prueba sugerida por la investigación antes de que se cierre el circuito diagnóstico, antes de que los médicos consoliden su caso sobre ti. Así hay más posibilidades de que vean lo que tienen que ver
      Es mejor decir con franqueza que llegas con una hipótesis. Los médicos se dan cuenta muy rápido de que los estás intentando orientar, pero tardan más en darse cuenta de que el paciente en realidad tenía razón. En un sistema donde gente sobrecargada hace lo mejor que puede, así es como hay que moverse
    • Los medicamentos para la alergia tomados a diario están asociados con un aumento importante del riesgo de Alzheimer de aparición temprana. Me alegra que hayas encontrado algo que funciona, pero también podría valer la pena probar vacunas contra los alérgenos
  • Como radiólogo, me pareció que Claude y ChatGPT son realmente pésimos para la lectura de MRI, y no confiaría en ellos en absoluto. Tienen ventajas al investigar material basado en texto, pero todavía no interpretan suficientemente bien las imágenes radiológicas

    • La IA compensa no tanto informando, sino mejorando las imágenes
      Actualmente, el software de MR de Siemens Deep Resolve genera señal (aproximadamente un 50% adicional), luego genera uno de cada dos píxeles y, en secuencias 3D, genera una de cada dos slices. Reduce alrededor de un 59% el tiempo de cada secuencia, y es realmente muy bueno
      Soy técnico de MR
    • Es parecido a cuando la gente espera que ChatGPT sea realmente bueno jugando ajedrez. Como los motores de ajedrez con rendimiento sobrehumano existen desde hace décadas, asumen que para un LLM de frontera moderno entrenado con miles de millones de dólares debería ser fácil
      En realidad me da curiosidad el ELO de ChatGPT 5.5. Gracias al contenido que absorbió, no me sorprendería demasiado que, con una comprensión básica de los principios del ajedrez, estuviera por encima de 2000
  • No entiendo la reacción negativa. La medicina actual funciona cuando tanto el médico como el paciente usan la cabeza. Casi nunca me pasó que el médico simplemente me diera un diagnóstico y yo siguiera con mi día. Cuando ocurrió algo así, por lo general era porque yo ya estaba seguro del problema y sabía lo que necesitaba. El médico era la barrera que bloqueaba el acceso al tratamiento
    Dr. GPT es una buena herramienta de brainstorming. Sintetiza información de formas que serían difíciles usando solo los materiales originales. Eso sí, también hay que obligarlo a decir “esto no tiene sentido”
    Creo que la postura de que “los médicos no conocen el conocimiento más reciente” tiene poco sustento. Si uno piensa en la densidad de tokens durante el preentrenamiento y en cómo se componen los datasets de postentrenamiento, adaptarse a cambios fundamentales llevará muchísimo tiempo. Si hubiéramos olvidado cómo tratar el escorbuto, ¿cuántos papers harían falta para adaptarnos al nuevo descubrimiento?

  • No confiaría en la IA para imágenes. Pero una vez ChatGPT, mirando solo el texto de un informe de MRI, dijo que el informe probablemente estaba muy equivocado y sugirió otro diagnóstico. Lo sostuvo con bastante firmeza, así que fui con otro médico y me hicieron otro estudio. En resumen, ChatGPT tenía razón
    De nuevo, es solo la experiencia individual de una persona, así que no significa demasiado

    • Como anécdota, puse en Gemini Pro la imagen de un paciente con herpes zóster al que un médico le había dicho que tenía otra enfermedad, y dio el diagnóstico correcto; gracias a eso recibió el tratamiento adecuado y se curó
      No entiendo por qué los médicos no prueban al menos meter un prompt en un LLM antes de decir algo incorrecto. ¿Será por orgullo?
      Entiendo que la radiología necesita redes neuronales convolucionales especializadas, pero con más razón cuando el problema se parece más a uno basado en conocimiento
    • Creo que una parte considerable de la brecha visual se debe a que en las imágenes está menos estructurado dónde hay que prestar atención. Anecdóticamente, modelos pequeños con fine-tuning de qwen, por ejemplo modelos de menos de 10.000 millones de parámetros, también elevan la precisión desde menos del 30% del modelo base hasta el 90%. He vendido este tipo de modelos para tareas de back office basadas en rendimiento
      Creo que aparecerán muchos VLM especializados que aporten valor real
    • Hace unos días, ChatGPT Enterprise dijo que el kernel 7.0.2 era más antiguo que el 6.69
      Estos juguetes no son confiables en absoluto. No digo que sean inútiles, pero no se puede confiar en ellos