Auditores de Ontario afirman que un generador de notas médicas con IA se equivoca repetidamente en hechos básicos

(theregister.com)

1 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp

En 20 sistemas de AI Scribe aprobados por Ontario para proveedores de salud se detectaron omisiones de información clave, inserción de desinformación y generación de contenido que nunca se dijo
La evaluación de adquisición comparó grabaciones simuladas de médico-paciente con notas clínicas generadas por IA revisadas por profesionales de la salud, y 9 sistemas incluso inventaron sugerencias de planes de tratamiento
12 sistemas incluyeron información incorrecta sobre medicamentos y 17 omitieron detalles clave de salud mental del paciente que sí aparecían en la grabación
OntarioMD recomendó a los médicos revisar manualmente las notas de IA, pero ninguno de los sistemas aprobados contaba con una función obligatoria de verificación de precisión
En la puntuación de evaluación, tener presencia local representó el 30%, mientras que la exactitud de las notas médicas fue 4%, y el control de sesgos junto con la evaluación de riesgos y privacidad quedaron en 2% cada uno

Informe de auditoría y método de evaluación

El informe sobre el uso de IA en servicios públicos publicado por la Office of the Auditor General of Ontario de Canadá incluyó la evaluación del programa AI Scribe del Ontario Ministry of Health
Este programa trata sobre la adquisición de herramientas de redacción de notas con IA para médicos, enfermeros especialistas y otros profesionales de la salud
En el proceso de adquisición se usaron grabaciones simuladas de médico-paciente, y profesionales de la salud compararon el audio original con las notas clínicas generadas por IA para juzgar su precisión

Errores detectados

De los 20 sistemas, 9 inventaron contenido que no se había tratado en la grabación y generaron propuestas de planes de tratamiento para el paciente
Los informes de muestra incluían desinformación potencialmente grave como “no se encontró ninguna masa” o “el paciente se mostró ansioso”, aunque esos temas no se discutieron en la grabación
12 de los 20 sistemas añadieron información incorrecta sobre medicamentos en las notas del paciente
17 de los 20 sistemas omitieron detalles clave relacionados con la salud mental del paciente que sí se trataron en la grabación
6 sistemas omitieron total o parcialmente los problemas de salud mental del paciente o dejaron fuera detalles clave

Revisión manual y salvaguardas

OntarioMD, que apoyó la adopción de nuevas tecnologías por parte de los médicos y participó en el proceso de adquisición de AI Scribe, recomendó que los médicos revisaran manualmente la exactitud de las notas generadas por IA
Según el informe de auditoría, ninguno de los sistemas AI Scribe aprobados contaba con una función obligatoria de confirmación de que el médico hubiera verificado la precisión

Problemas con la ponderación de la evaluación

Una parte importante del bajo desempeño está vinculada al problema de la ponderación de la evaluación
El 30% de la puntuación de evaluación de la plataforma se asignó a contar con presencia local en Ontario, mientras que la exactitud de las notas médicas representó solo el 4% de la puntuación total
El control de sesgos equivalió al 2% de la puntuación total; la evaluación de amenazas, riesgos y privacidad fue 2%, y el cumplimiento de SOC 2 Type 2 representó 4%
Estas ponderaciones podrían llevar a seleccionar proveedores capaces de generar historiales médicos inexactos o sesgados, o que no cuenten con protecciones suficientes para resguardar información personal sensible de salud

Respuesta del Ministerio de Salud de Ontario

The Register consultó al Ontario Health Ministry sobre su postura respecto del informe y si planea seguir las recomendaciones del programa AI Scribe, pero no recibió una respuesta inmediata
Un portavoz del ministerio dijo el miércoles a CBC que más de 5,000 médicos en Ontario participan en el programa AI Scribe y que no se conocen reportes de daños a pacientes relacionados con esta tecnología

1 comentarios

GN⁺ 5 시간 전

Comentarios de Hacker News

En general he pasado del pesimismo al optimismo sobre el futuro de la tecnología de IA actual, pero aunque los modelos mejoran mucho, me sigue molestando bastante que persistan los errores en hechos básicos
Cuando le pides a Claude Opus que te arme una receta según tus gustos y sabores, parece magia, pero en cuanto se equivoca en un cálculo básico de unidades como convertir cucharadas y cucharaditas, se me cae por completo
Se siente como ese personaje de una película que parecía actuar casi normal, pero tenía algo raro y luego resulta que era un zombi; este caso del generador de notas también es impresionante por lo mucho que casi funciona, pero falla en detalles importantes
Cuando veo fallas así, cada vez dudo más de que la IA actual, aunque bien gestionada pueda hacer cosas geniales, esté realmente en el camino correcto hacia una inteligencia real
- Totalmente. Hay una brecha entre capacidad y confiabilidad de la que la industria no habla mucho
  La industria de IA parece seguir difuminando el hecho de que capacidad y confiabilidad son propiedades fundamentalmente distintas. Solemos usar “preciso” y “confiable” como si fueran sinónimos, pero aunque un modelo pase bien los benchmarks, en un entorno operativo real puede seguir siendo un riesgo
  Los resultados más recientes de METR también muestran una gran sensibilidad a las mejoras de capacidad, pero se habla menos de que esa medición usa como criterio una tasa de éxito del 50%. El indicador complementario con umbral de 80% de éxito reduce muchísimo el rango de tiempo de las tareas: https://metr.org/
  Implemento sistemas de IA empresariales, y nunca he visto una empresa que acepte ni siquiera 50% de confiabilidad, mucho menos 80%
- Yo era escéptico de que los LLM fueran el camino correcto hacia una inteligencia artificial general, pero me sigue sorprendiendo cuánto se les puede exprimir ampliando la forma de usarlos, con arneses para LLM y mejor diseño de contexto
  Al ver que los LLM en la práctica ya pueden diseñar sus propios prompts y contexto, no parece que vayan a necesitar guía humana para siempre
  Para tareas simples basadas en hechos concretos y con una metodología específica, los LLM no son la herramienta adecuada, y que no puedan reconocer esas tareas y derivarlas a herramientas que operen de forma más determinista me parece un fallo del arnés
  Igual que uno usa una “habilidad” cuando hace falta, ciertas tareas deberían delegarse a herramientas o “cerebros” especializados
  Parece muy probable que la primera inteligencia artificial general no sea un solo cerebro, sino un sistema compuesto de varios LLM, arneses, habilidades y subsistemas especializados por dominio y tarea
- Si Claude a veces sobrestima valores de conversión, puede que venga de que la cucharada australiana no es igual a la estadounidense
  La cucharada australiana son 4 cucharaditas/20 mL y la estadounidense 3 cucharaditas/15 mL, así que ese error podría explicarse en parte por la complejidad del mundo real
  Aunque si dice 3.14 cucharaditas o 2 cucharaditas, ya no sé
- Esta analogía me recuerda a los dedos y manos raros de los modelos de generación de imágenes de hace un año
  Ahora eso está casi resuelto y hoy hasta generan video difícil de distinguir de la realidad
  Por eso me hace pensar que estos errores sutiles también van a seguir disminuyendo hasta volverse difíciles de detectar en casi cualquier tarea
- Ayer usé opus 4.6 a través de Copilot para hacer brainstorming tipo rubber duck sobre una función grande que requería cuidado
  Sí me dio inspiración, pero también interpretó mal cosas muy básicas. Puede que haya sido problema de mi forma de usarlo, así que no estoy seguro
En el trabajo usamos un generador de notas para reuniones con LLM, y hace poco tuve que intervenir porque el CIO estaba muy molesto diciendo que un proveedor había prometido algo y luego no cumplió
El CIO no estuvo en la reunión donde supuestamente se hizo esa “promesa”, pero yo sí, y en realidad no se prometió nada; la discusión fue mucho más matizada que el resumen detallado del LLM
También veo que falla cuando la discusión no es lineal. Por ejemplo, si el equipo de SOC va y viene sobre alertas recientes y respuesta a incidentes, capta la idea general, pero si dependes de la exactitud, falla muy fuerte
Puede servir para algo como el registro inicial que hace una enfermera en el hospital, con síntoma principal, peso, estatura y un resumen de cambios recientes, pero no confiaría en eso para un intercambio detallado y técnico con un médico
Incluso desde el punto de vista de cumplimiento, me imagino que un hospital preferiría usar solo la transcripción antes que reescribir el registro, pero no lo sé
- Hace poco, en el Día de las Madres, le dejé a mi mamá un mensaje de voz porque no me contestó; era un saludo humano totalmente normal, algo como “qué mal que no te pude llamar, si te queda bien puedes marcarme esta noche o mañana, hablamos pronto, te quiero, adiós”
  Esa noche mi mamá me devolvió la llamada, hablamos un momento y luego me preguntó con cautela: “Entonces… ¿había algo que de verdad necesitabas decirme?” y yo me quedé totalmente confundido
  Resulta que el resumen con LLM de la notificación de llamada convirtió un mensaje de voz donde el 75% eran expresiones sociales de cortesía sin mucho contenido en una redacción laboral rígida y demasiado formal, dándole un tono inquietante
  Le dio demasiado peso a expresiones individuales como “quiero hablar” y “pregunta por un horario posible”, haciendo que pareciera un mensaje largo sobre algo importante pero ambiguo y urgente
  El resultado fue que mi mamá se preocupó un poco, y me molestó que un saludo tan normal terminara así. Ahora parece que van a meter resúmenes mediocres con LLM en todo
- En todas las atenciones médicas que he recibido hasta ahora, siempre pude corregir el registro después, y casi la mitad tenían errores significativos
  Siempre revisa el registro resumido de inmediato, y si hay algún problema, contacta al médico lo antes posible
  Normalmente el médico puede corregirlo directamente, y es mejor hacerlo mientras todos todavía recuerdan lo sucedido
- A mí también me desconcierta esa parte. ¿No bastaría con hacer una transcripción y ya?
  Sobre todo si se va a consultar seguido una transcripción larga, una persona podría marcar manualmente los lugares donde sienta que hace falta un resumen
  En este tipo de interacciones, por mi experiencia, no suele haber tanta información de relleno que se pueda filtrar a la ligera, y los detalles importan bastante
- La transcripción es demasiado buena y, al mismo tiempo, no lo bastante buena. Si encima le agregas contenido generativo, empeora
  Lo de “demasiado buena” viene de que en muchos entornos comerciales se prohíbe la transcripción continua. Es porque ciertos detalles específicos quedan registrados de forma fácil de descubrir como evidencia y eso crea riesgo de negocio
  Las minutas o resúmenes pueden omitir discusiones sensibles o presentar solo acuerdos sin detalles concretos, y además ofrecen una defensa interpretativa con “ambigüedad estratégica”
  Lo de “no lo bastante buena” es que el reconocimiento de voz también sigue siendo probabilístico. La salida real de evaluación puede incluir datos de palabras o frases alternativas además de las elegidas, así que hay margen para representar palabras que no se dijeron o generar una impresión distinta
  El hecho de que la gente vea las transcripciones por reconocimiento de voz como si fueran un registro autoritativo empeora más el problema
  Si encima les pones inferencia generativa, como un resumen, ambos problemas se agrandan. Desde el punto de vista legal, puede resultar más aceptable un resumen con menos términos específicos buscables y con responsabilidad y concreción más difusas
- En mi experiencia, las transcripciones funcionan bastante bien, y en un caso así se debería tratar la transcripción como el hecho base
Me pasó hace poco. Me diagnosticaron rodilla de corredor, pero el resumen de IA decía que tenía osteoporosis, dolor de cadera y dificultad para caminar, cosas que jamás se mencionaron ni se insinuaron
Siempre hay que revisar la transcripción. En especial, los transcriptores con LLM con bastante frecuencia meten síntomas comunes que en realidad no existen, o afirman diagnósticos comunes que encajan con algunos detalles pero no con otros
Un registro incorrecto puede influir muchísimo en consultas futuras y en costos, así que hay que corregirlo sí o sí
Salvo unas pocas cosas simples y comunes, cerca del 50% de los resúmenes de “IA” que he recibido tenían algo incorrecto. Por lo general agregan síntomas inexistentes, y a veces, como en este caso, fabrican cosas más graves
Un LLM no es software común de voz a texto, y no se le debe tratar como tal. A veces inserta oraciones completas que nunca existieron, y eso jamás está bien en un expediente médico
- De hecho vi que un resumen con LLM de Zoom atribuyó a una persona algo que no dijo, y eso causó un problema serio
  Otra persona que no pudo asistir a la reunión leyó el resumen después y se armó una gran discusión, porque ese tema era sensible para ella por un debate interno que seguía abierto en la empresa
  Todos los asistentes confirmaron que era un error, pero el momento coincidió de forma tan conveniente que a esa persona le costó aceptarlo. El resumen con LLM presentaba el contenido como si confirmara preocupaciones que antes algunos asistentes parecían minimizar
  Al final el problema escaló tanto que la gerencia creó una política de no confiar en salidas generativas sin verificación independiente, así que al menos quedó la lección
Pero, ¿qué tan precisos son los humanos? Pedí las impresiones de mis expedientes médicos de los últimos 5 años y eran gruesas como un libro
Me cuesta creer que una persona pueda leer todo eso y hacer algo útil de forma significativa
Si dejas que una herramienta de IA lo revise, claro que puede equivocarse o sacar conclusiones sin fundamento, pero la velocidad con la que puedes revisar rápido, objetar lo raro y llegar a la respuesta correcta podría ser mayor que en cualquier reunión con una enfermera o un médico
En vez de enfocarnos solo en lo imperfectas que son estas herramientas, podríamos hacer más si nos enfocamos en cómo usarlas y cómo cuestionar las partes raras o incorrectas
El generador de notas con IA que usamos en el trabajo también graba la reunión y adjunta a cada nota enlaces con marca de tiempo que te llevan directo al punto correspondiente del audio para verificarlo tú mismo
En un entorno HIPAA esto seguramente sea más complicado, pero en campos críticos como la medicina una solución así es indispensable
- Cuando diseñas experiencias de usuario basadas en IA, a esto le llamamos trazabilidad de fuentes
  Es un elemento central para la confianza, la confiabilidad, el cumplimiento y demás
  Si un sistema de software incluye este tipo de salidas de LLM pero no expone de dónde sale el resultado para que una persona pueda evaluarlo y verificarlo, en el mejor de los casos es una mala experiencia de usuario y en el peor es peligroso
- Eso suena menos a un “generador de notas” y más a un motor de búsqueda de muestras de audio
  Si quieres precisión, al final igual tienes que escucharlo todo
- Ese enfoque al final requiere una de tres cosas
  Que alguien escuche toda la grabación de la reunión y revise todas las notas, lo cual consume mucho tiempo y personal; o que un asistente valide las notas de memoria, lo cual es vulnerable a errores; o que el asistente las contraste con sus propias notas, con lo que se pierde el sentido del generador de notas con IA
  Siendo realistas, en cualquier contexto donde la precisión importe, el uso de IA en cualquier forma no es aceptable, pero es difícil lograr que la gente lo reconozca
Como canadiense, me entusiasma la posibilidad de que la IA libere tiempo de los médicos y alivie la carga del sistema de salud, pero esto da miedo
Todavía no hemos llegado a ese punto. Tal vez en el futuro haga falta capacitación en IA para médicos
Ya hay algunos complejos de condominios donde, con iPads propiedad de instituciones médicas, se hacen consultas en línea con doctores y eso evita lo engorroso del proceso para conseguir cita con un médico de cabecera
Creo que la dirección de la innovación es la correcta, pero necesita tiempo. A veces siento que la IA salió demasiado pronto
- Creo que se está aplicando mal esta tecnología. En vez de aventarla sobre una transcripción y esperar una salida perfecta, habría que usar las fortalezas de los LLM para mejorar la calidad de entrada y beneficiar a todos
  Por ejemplo, para liberar tiempo del médico: las consultas suelen ser dispersas, los pacientes hablan de varios problemas al mismo tiempo y el médico, con tiempo limitado y obligaciones regulatorias de explicación, tiene que comunicar lo que afecta la atención
  Incluso con una transcripción perfecta, es una estructura en la que todos salen perdiendo; los LLM no pueden ser perfectos y no dejan de ser autocompletado
  Me imagino a un paciente interactuando con una IA de admisión que pueda escucharlo durante horas de divagación o incluso en medio de una crisis de ansiedad, y luego entregar al médico un resumen de necesidades confirmado por el cuidador y la información de triage relevante
  En ese punto también podría presentar información útil como acceso a medicamentos o políticas del seguro, siempre para revisión del médico, y el paciente podría organizar y complementar su comprensión del sistema sin presión de tiempo
  La idea es mejorar la calidad de la conversación para que el médico pueda concentrarse más en el paciente y para que las necesidades conversacionales del paciente no terminen dominando el tratamiento. En salud hay muchísimos formularios y checklists, y sí veo que el autocompletado puede aportar eficiencia en cómo se llenan
Estoy en Toronto, y mi médico siempre me pregunta si está bien usar un generador de notas con IA, y yo le doy permiso
Cuando termina la consulta, el médico repasa y corrige las notas, y a menudo se queja de que tiene que hablarle más a la computadora que a mí
Por suerte es un buen médico y hace esta verificación posterior, pero me deja la impresión de que esto se les está imponiendo aunque no quieran
Hoy en día la gente en reuniones debería decir en voz alta algo así: “Aviso: las declaraciones interpretadas por IA en esta reunión podrían no ser exactas”
Yo lo hago en todas las reuniones
El informe enlazado parece casi inútil. No dice nada sobre la tasa de error ni sobre el tamaño de la muestra, así que no sabemos si eso de que 9 de 20 sistemas “alteraron información y la sugirieron en planes de tratamiento del paciente” pasó diez de diez veces o una de cada mil
Incluso suponiendo que la tasa de error del sistema sea alta, me pregunto por qué se están adoptando
Las pruebas parecen muy sencillas, así que si fueran tan malos, no parecería lógico que médicos, hospitales o el gobierno los compraran por engaño
- Según el artículo, “el 30% de la puntuación de evaluación de la plataforma dependía únicamente de que tuviera una base nacional dentro de Ontario, y la exactitud de los registros médicos representaba apenas el 4% de la puntuación total”
  La exactitud no era en realidad el criterio central de evaluación, así que parece que a Ontario no le importó mucho
Dice que trata específicamente del programa AI Scribe iniciado por el Ontario Ministry of Health para médicos, enfermeras especialistas y otros profesionales de la salud del sector más amplio, lo que me hace preguntarme qué clase de software va a impulsar el ministerio
Probablemente la mayor parte sean requisitos tipo SOC o similares
La lista de proveedores aprobados parece estar en este enlace: https://www.supplyontario.ca/vor/software/tender-20123-artif...

Auditores de Ontario afirman que un generador de notas médicas con IA se equivoca repetidamente en hechos básicos

Informe de auditoría y método de evaluación

Errores detectados

Revisión manual y salvaguardas

Problemas con la ponderación de la evaluación

Respuesta del Ministerio de Salud de Ontario

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News