Auditores de Ontario afirman que un generador de notas médicas con IA se equivoca repetidamente en hechos básicos
(theregister.com)- En 20 sistemas de AI Scribe aprobados por Ontario para proveedores de salud se detectaron omisiones de información clave, inserción de desinformación y generación de contenido que nunca se dijo
- La evaluación de adquisición comparó grabaciones simuladas de médico-paciente con notas clínicas generadas por IA revisadas por profesionales de la salud, y 9 sistemas incluso inventaron sugerencias de planes de tratamiento
- 12 sistemas incluyeron información incorrecta sobre medicamentos y 17 omitieron detalles clave de salud mental del paciente que sí aparecían en la grabación
- OntarioMD recomendó a los médicos revisar manualmente las notas de IA, pero ninguno de los sistemas aprobados contaba con una función obligatoria de verificación de precisión
- En la puntuación de evaluación, tener presencia local representó el 30%, mientras que la exactitud de las notas médicas fue 4%, y el control de sesgos junto con la evaluación de riesgos y privacidad quedaron en 2% cada uno
Informe de auditoría y método de evaluación
- El informe sobre el uso de IA en servicios públicos publicado por la Office of the Auditor General of Ontario de Canadá incluyó la evaluación del programa AI Scribe del Ontario Ministry of Health
- Este programa trata sobre la adquisición de herramientas de redacción de notas con IA para médicos, enfermeros especialistas y otros profesionales de la salud
- En el proceso de adquisición se usaron grabaciones simuladas de médico-paciente, y profesionales de la salud compararon el audio original con las notas clínicas generadas por IA para juzgar su precisión
Errores detectados
- De los 20 sistemas, 9 inventaron contenido que no se había tratado en la grabación y generaron propuestas de planes de tratamiento para el paciente
- Los informes de muestra incluían desinformación potencialmente grave como “no se encontró ninguna masa” o “el paciente se mostró ansioso”, aunque esos temas no se discutieron en la grabación
- 12 de los 20 sistemas añadieron información incorrecta sobre medicamentos en las notas del paciente
- 17 de los 20 sistemas omitieron detalles clave relacionados con la salud mental del paciente que sí se trataron en la grabación
- 6 sistemas omitieron total o parcialmente los problemas de salud mental del paciente o dejaron fuera detalles clave
Revisión manual y salvaguardas
- OntarioMD, que apoyó la adopción de nuevas tecnologías por parte de los médicos y participó en el proceso de adquisición de AI Scribe, recomendó que los médicos revisaran manualmente la exactitud de las notas generadas por IA
- Según el informe de auditoría, ninguno de los sistemas AI Scribe aprobados contaba con una función obligatoria de confirmación de que el médico hubiera verificado la precisión
Problemas con la ponderación de la evaluación
- Una parte importante del bajo desempeño está vinculada al problema de la ponderación de la evaluación
- El 30% de la puntuación de evaluación de la plataforma se asignó a contar con presencia local en Ontario, mientras que la exactitud de las notas médicas representó solo el 4% de la puntuación total
- El control de sesgos equivalió al 2% de la puntuación total; la evaluación de amenazas, riesgos y privacidad fue 2%, y el cumplimiento de SOC 2 Type 2 representó 4%
- Estas ponderaciones podrían llevar a seleccionar proveedores capaces de generar historiales médicos inexactos o sesgados, o que no cuenten con protecciones suficientes para resguardar información personal sensible de salud
Respuesta del Ministerio de Salud de Ontario
- The Register consultó al Ontario Health Ministry sobre su postura respecto del informe y si planea seguir las recomendaciones del programa AI Scribe, pero no recibió una respuesta inmediata
- Un portavoz del ministerio dijo el miércoles a CBC que más de 5,000 médicos en Ontario participan en el programa AI Scribe y que no se conocen reportes de daños a pacientes relacionados con esta tecnología
1 comentarios
Comentarios de Hacker News
En general he pasado del pesimismo al optimismo sobre el futuro de la tecnología de IA actual, pero aunque los modelos mejoran mucho, me sigue molestando bastante que persistan los errores en hechos básicos
Cuando le pides a Claude Opus que te arme una receta según tus gustos y sabores, parece magia, pero en cuanto se equivoca en un cálculo básico de unidades como convertir cucharadas y cucharaditas, se me cae por completo
Se siente como ese personaje de una película que parecía actuar casi normal, pero tenía algo raro y luego resulta que era un zombi; este caso del generador de notas también es impresionante por lo mucho que casi funciona, pero falla en detalles importantes
Cuando veo fallas así, cada vez dudo más de que la IA actual, aunque bien gestionada pueda hacer cosas geniales, esté realmente en el camino correcto hacia una inteligencia real
La industria de IA parece seguir difuminando el hecho de que capacidad y confiabilidad son propiedades fundamentalmente distintas. Solemos usar “preciso” y “confiable” como si fueran sinónimos, pero aunque un modelo pase bien los benchmarks, en un entorno operativo real puede seguir siendo un riesgo
Los resultados más recientes de METR también muestran una gran sensibilidad a las mejoras de capacidad, pero se habla menos de que esa medición usa como criterio una tasa de éxito del 50%. El indicador complementario con umbral de 80% de éxito reduce muchísimo el rango de tiempo de las tareas: https://metr.org/
Implemento sistemas de IA empresariales, y nunca he visto una empresa que acepte ni siquiera 50% de confiabilidad, mucho menos 80%
Al ver que los LLM en la práctica ya pueden diseñar sus propios prompts y contexto, no parece que vayan a necesitar guía humana para siempre
Para tareas simples basadas en hechos concretos y con una metodología específica, los LLM no son la herramienta adecuada, y que no puedan reconocer esas tareas y derivarlas a herramientas que operen de forma más determinista me parece un fallo del arnés
Igual que uno usa una “habilidad” cuando hace falta, ciertas tareas deberían delegarse a herramientas o “cerebros” especializados
Parece muy probable que la primera inteligencia artificial general no sea un solo cerebro, sino un sistema compuesto de varios LLM, arneses, habilidades y subsistemas especializados por dominio y tarea
La cucharada australiana son 4 cucharaditas/20 mL y la estadounidense 3 cucharaditas/15 mL, así que ese error podría explicarse en parte por la complejidad del mundo real
Aunque si dice 3.14 cucharaditas o 2 cucharaditas, ya no sé
Ahora eso está casi resuelto y hoy hasta generan video difícil de distinguir de la realidad
Por eso me hace pensar que estos errores sutiles también van a seguir disminuyendo hasta volverse difíciles de detectar en casi cualquier tarea
Sí me dio inspiración, pero también interpretó mal cosas muy básicas. Puede que haya sido problema de mi forma de usarlo, así que no estoy seguro
En el trabajo usamos un generador de notas para reuniones con LLM, y hace poco tuve que intervenir porque el CIO estaba muy molesto diciendo que un proveedor había prometido algo y luego no cumplió
El CIO no estuvo en la reunión donde supuestamente se hizo esa “promesa”, pero yo sí, y en realidad no se prometió nada; la discusión fue mucho más matizada que el resumen detallado del LLM
También veo que falla cuando la discusión no es lineal. Por ejemplo, si el equipo de SOC va y viene sobre alertas recientes y respuesta a incidentes, capta la idea general, pero si dependes de la exactitud, falla muy fuerte
Puede servir para algo como el registro inicial que hace una enfermera en el hospital, con síntoma principal, peso, estatura y un resumen de cambios recientes, pero no confiaría en eso para un intercambio detallado y técnico con un médico
Incluso desde el punto de vista de cumplimiento, me imagino que un hospital preferiría usar solo la transcripción antes que reescribir el registro, pero no lo sé
Esa noche mi mamá me devolvió la llamada, hablamos un momento y luego me preguntó con cautela: “Entonces… ¿había algo que de verdad necesitabas decirme?” y yo me quedé totalmente confundido
Resulta que el resumen con LLM de la notificación de llamada convirtió un mensaje de voz donde el 75% eran expresiones sociales de cortesía sin mucho contenido en una redacción laboral rígida y demasiado formal, dándole un tono inquietante
Le dio demasiado peso a expresiones individuales como “quiero hablar” y “pregunta por un horario posible”, haciendo que pareciera un mensaje largo sobre algo importante pero ambiguo y urgente
El resultado fue que mi mamá se preocupó un poco, y me molestó que un saludo tan normal terminara así. Ahora parece que van a meter resúmenes mediocres con LLM en todo
Siempre revisa el registro resumido de inmediato, y si hay algún problema, contacta al médico lo antes posible
Normalmente el médico puede corregirlo directamente, y es mejor hacerlo mientras todos todavía recuerdan lo sucedido
Sobre todo si se va a consultar seguido una transcripción larga, una persona podría marcar manualmente los lugares donde sienta que hace falta un resumen
En este tipo de interacciones, por mi experiencia, no suele haber tanta información de relleno que se pueda filtrar a la ligera, y los detalles importan bastante
Lo de “demasiado buena” viene de que en muchos entornos comerciales se prohíbe la transcripción continua. Es porque ciertos detalles específicos quedan registrados de forma fácil de descubrir como evidencia y eso crea riesgo de negocio
Las minutas o resúmenes pueden omitir discusiones sensibles o presentar solo acuerdos sin detalles concretos, y además ofrecen una defensa interpretativa con “ambigüedad estratégica”
Lo de “no lo bastante buena” es que el reconocimiento de voz también sigue siendo probabilístico. La salida real de evaluación puede incluir datos de palabras o frases alternativas además de las elegidas, así que hay margen para representar palabras que no se dijeron o generar una impresión distinta
El hecho de que la gente vea las transcripciones por reconocimiento de voz como si fueran un registro autoritativo empeora más el problema
Si encima les pones inferencia generativa, como un resumen, ambos problemas se agrandan. Desde el punto de vista legal, puede resultar más aceptable un resumen con menos términos específicos buscables y con responsabilidad y concreción más difusas
Me pasó hace poco. Me diagnosticaron rodilla de corredor, pero el resumen de IA decía que tenía osteoporosis, dolor de cadera y dificultad para caminar, cosas que jamás se mencionaron ni se insinuaron
Siempre hay que revisar la transcripción. En especial, los transcriptores con LLM con bastante frecuencia meten síntomas comunes que en realidad no existen, o afirman diagnósticos comunes que encajan con algunos detalles pero no con otros
Un registro incorrecto puede influir muchísimo en consultas futuras y en costos, así que hay que corregirlo sí o sí
Salvo unas pocas cosas simples y comunes, cerca del 50% de los resúmenes de “IA” que he recibido tenían algo incorrecto. Por lo general agregan síntomas inexistentes, y a veces, como en este caso, fabrican cosas más graves
Un LLM no es software común de voz a texto, y no se le debe tratar como tal. A veces inserta oraciones completas que nunca existieron, y eso jamás está bien en un expediente médico
Otra persona que no pudo asistir a la reunión leyó el resumen después y se armó una gran discusión, porque ese tema era sensible para ella por un debate interno que seguía abierto en la empresa
Todos los asistentes confirmaron que era un error, pero el momento coincidió de forma tan conveniente que a esa persona le costó aceptarlo. El resumen con LLM presentaba el contenido como si confirmara preocupaciones que antes algunos asistentes parecían minimizar
Al final el problema escaló tanto que la gerencia creó una política de no confiar en salidas generativas sin verificación independiente, así que al menos quedó la lección
Pero, ¿qué tan precisos son los humanos? Pedí las impresiones de mis expedientes médicos de los últimos 5 años y eran gruesas como un libro
Me cuesta creer que una persona pueda leer todo eso y hacer algo útil de forma significativa
Si dejas que una herramienta de IA lo revise, claro que puede equivocarse o sacar conclusiones sin fundamento, pero la velocidad con la que puedes revisar rápido, objetar lo raro y llegar a la respuesta correcta podría ser mayor que en cualquier reunión con una enfermera o un médico
En vez de enfocarnos solo en lo imperfectas que son estas herramientas, podríamos hacer más si nos enfocamos en cómo usarlas y cómo cuestionar las partes raras o incorrectas
El generador de notas con IA que usamos en el trabajo también graba la reunión y adjunta a cada nota enlaces con marca de tiempo que te llevan directo al punto correspondiente del audio para verificarlo tú mismo
En un entorno HIPAA esto seguramente sea más complicado, pero en campos críticos como la medicina una solución así es indispensable
Es un elemento central para la confianza, la confiabilidad, el cumplimiento y demás
Si un sistema de software incluye este tipo de salidas de LLM pero no expone de dónde sale el resultado para que una persona pueda evaluarlo y verificarlo, en el mejor de los casos es una mala experiencia de usuario y en el peor es peligroso
Si quieres precisión, al final igual tienes que escucharlo todo
Que alguien escuche toda la grabación de la reunión y revise todas las notas, lo cual consume mucho tiempo y personal; o que un asistente valide las notas de memoria, lo cual es vulnerable a errores; o que el asistente las contraste con sus propias notas, con lo que se pierde el sentido del generador de notas con IA
Siendo realistas, en cualquier contexto donde la precisión importe, el uso de IA en cualquier forma no es aceptable, pero es difícil lograr que la gente lo reconozca
Como canadiense, me entusiasma la posibilidad de que la IA libere tiempo de los médicos y alivie la carga del sistema de salud, pero esto da miedo
Todavía no hemos llegado a ese punto. Tal vez en el futuro haga falta capacitación en IA para médicos
Ya hay algunos complejos de condominios donde, con iPads propiedad de instituciones médicas, se hacen consultas en línea con doctores y eso evita lo engorroso del proceso para conseguir cita con un médico de cabecera
Creo que la dirección de la innovación es la correcta, pero necesita tiempo. A veces siento que la IA salió demasiado pronto
Por ejemplo, para liberar tiempo del médico: las consultas suelen ser dispersas, los pacientes hablan de varios problemas al mismo tiempo y el médico, con tiempo limitado y obligaciones regulatorias de explicación, tiene que comunicar lo que afecta la atención
Incluso con una transcripción perfecta, es una estructura en la que todos salen perdiendo; los LLM no pueden ser perfectos y no dejan de ser autocompletado
Me imagino a un paciente interactuando con una IA de admisión que pueda escucharlo durante horas de divagación o incluso en medio de una crisis de ansiedad, y luego entregar al médico un resumen de necesidades confirmado por el cuidador y la información de triage relevante
En ese punto también podría presentar información útil como acceso a medicamentos o políticas del seguro, siempre para revisión del médico, y el paciente podría organizar y complementar su comprensión del sistema sin presión de tiempo
La idea es mejorar la calidad de la conversación para que el médico pueda concentrarse más en el paciente y para que las necesidades conversacionales del paciente no terminen dominando el tratamiento. En salud hay muchísimos formularios y checklists, y sí veo que el autocompletado puede aportar eficiencia en cómo se llenan
Estoy en Toronto, y mi médico siempre me pregunta si está bien usar un generador de notas con IA, y yo le doy permiso
Cuando termina la consulta, el médico repasa y corrige las notas, y a menudo se queja de que tiene que hablarle más a la computadora que a mí
Por suerte es un buen médico y hace esta verificación posterior, pero me deja la impresión de que esto se les está imponiendo aunque no quieran
Hoy en día la gente en reuniones debería decir en voz alta algo así: “Aviso: las declaraciones interpretadas por IA en esta reunión podrían no ser exactas”
Yo lo hago en todas las reuniones
El informe enlazado parece casi inútil. No dice nada sobre la tasa de error ni sobre el tamaño de la muestra, así que no sabemos si eso de que 9 de 20 sistemas “alteraron información y la sugirieron en planes de tratamiento del paciente” pasó diez de diez veces o una de cada mil
Incluso suponiendo que la tasa de error del sistema sea alta, me pregunto por qué se están adoptando
Las pruebas parecen muy sencillas, así que si fueran tan malos, no parecería lógico que médicos, hospitales o el gobierno los compraran por engaño
La exactitud no era en realidad el criterio central de evaluación, así que parece que a Ontario no le importó mucho
Dice que trata específicamente del programa AI Scribe iniciado por el Ontario Ministry of Health para médicos, enfermeras especialistas y otros profesionales de la salud del sector más amplio, lo que me hace preguntarme qué clase de software va a impulsar el ministerio
Probablemente la mayor parte sean requisitos tipo SOC o similares
La lista de proveedores aprobados parece estar en este enlace: https://www.supplyontario.ca/vor/software/tender-20123-artif...