1 puntos por GN⁺ 5 시간 전 | 1 comentarios | Compartir por WhatsApp
  • En 20 sistemas de AI Scribe aprobados por Ontario para proveedores de salud se detectaron omisiones de información clave, inserción de desinformación y generación de contenido que nunca se dijo
  • La evaluación de adquisición comparó grabaciones simuladas de médico-paciente con notas clínicas generadas por IA revisadas por profesionales de la salud, y 9 sistemas incluso inventaron sugerencias de planes de tratamiento
  • 12 sistemas incluyeron información incorrecta sobre medicamentos y 17 omitieron detalles clave de salud mental del paciente que sí aparecían en la grabación
  • OntarioMD recomendó a los médicos revisar manualmente las notas de IA, pero ninguno de los sistemas aprobados contaba con una función obligatoria de verificación de precisión
  • En la puntuación de evaluación, tener presencia local representó el 30%, mientras que la exactitud de las notas médicas fue 4%, y el control de sesgos junto con la evaluación de riesgos y privacidad quedaron en 2% cada uno

Informe de auditoría y método de evaluación

  • El informe sobre el uso de IA en servicios públicos publicado por la Office of the Auditor General of Ontario de Canadá incluyó la evaluación del programa AI Scribe del Ontario Ministry of Health
  • Este programa trata sobre la adquisición de herramientas de redacción de notas con IA para médicos, enfermeros especialistas y otros profesionales de la salud
  • En el proceso de adquisición se usaron grabaciones simuladas de médico-paciente, y profesionales de la salud compararon el audio original con las notas clínicas generadas por IA para juzgar su precisión

Errores detectados

  • De los 20 sistemas, 9 inventaron contenido que no se había tratado en la grabación y generaron propuestas de planes de tratamiento para el paciente
  • Los informes de muestra incluían desinformación potencialmente grave como “no se encontró ninguna masa” o “el paciente se mostró ansioso”, aunque esos temas no se discutieron en la grabación
  • 12 de los 20 sistemas añadieron información incorrecta sobre medicamentos en las notas del paciente
  • 17 de los 20 sistemas omitieron detalles clave relacionados con la salud mental del paciente que sí se trataron en la grabación
  • 6 sistemas omitieron total o parcialmente los problemas de salud mental del paciente o dejaron fuera detalles clave

Revisión manual y salvaguardas

  • OntarioMD, que apoyó la adopción de nuevas tecnologías por parte de los médicos y participó en el proceso de adquisición de AI Scribe, recomendó que los médicos revisaran manualmente la exactitud de las notas generadas por IA
  • Según el informe de auditoría, ninguno de los sistemas AI Scribe aprobados contaba con una función obligatoria de confirmación de que el médico hubiera verificado la precisión

Problemas con la ponderación de la evaluación

  • Una parte importante del bajo desempeño está vinculada al problema de la ponderación de la evaluación
  • El 30% de la puntuación de evaluación de la plataforma se asignó a contar con presencia local en Ontario, mientras que la exactitud de las notas médicas representó solo el 4% de la puntuación total
  • El control de sesgos equivalió al 2% de la puntuación total; la evaluación de amenazas, riesgos y privacidad fue 2%, y el cumplimiento de SOC 2 Type 2 representó 4%
  • Estas ponderaciones podrían llevar a seleccionar proveedores capaces de generar historiales médicos inexactos o sesgados, o que no cuenten con protecciones suficientes para resguardar información personal sensible de salud

Respuesta del Ministerio de Salud de Ontario

  • The Register consultó al Ontario Health Ministry sobre su postura respecto del informe y si planea seguir las recomendaciones del programa AI Scribe, pero no recibió una respuesta inmediata
  • Un portavoz del ministerio dijo el miércoles a CBC que más de 5,000 médicos en Ontario participan en el programa AI Scribe y que no se conocen reportes de daños a pacientes relacionados con esta tecnología

1 comentarios

 
GN⁺ 5 시간 전
Comentarios de Hacker News
  • En general he pasado del pesimismo al optimismo sobre el futuro de la tecnología de IA actual, pero aunque los modelos mejoran mucho, me sigue molestando bastante que persistan los errores en hechos básicos
    Cuando le pides a Claude Opus que te arme una receta según tus gustos y sabores, parece magia, pero en cuanto se equivoca en un cálculo básico de unidades como convertir cucharadas y cucharaditas, se me cae por completo
    Se siente como ese personaje de una película que parecía actuar casi normal, pero tenía algo raro y luego resulta que era un zombi; este caso del generador de notas también es impresionante por lo mucho que casi funciona, pero falla en detalles importantes
    Cuando veo fallas así, cada vez dudo más de que la IA actual, aunque bien gestionada pueda hacer cosas geniales, esté realmente en el camino correcto hacia una inteligencia real

    • Totalmente. Hay una brecha entre capacidad y confiabilidad de la que la industria no habla mucho
      La industria de IA parece seguir difuminando el hecho de que capacidad y confiabilidad son propiedades fundamentalmente distintas. Solemos usar “preciso” y “confiable” como si fueran sinónimos, pero aunque un modelo pase bien los benchmarks, en un entorno operativo real puede seguir siendo un riesgo
      Los resultados más recientes de METR también muestran una gran sensibilidad a las mejoras de capacidad, pero se habla menos de que esa medición usa como criterio una tasa de éxito del 50%. El indicador complementario con umbral de 80% de éxito reduce muchísimo el rango de tiempo de las tareas: https://metr.org/
      Implemento sistemas de IA empresariales, y nunca he visto una empresa que acepte ni siquiera 50% de confiabilidad, mucho menos 80%
    • Yo era escéptico de que los LLM fueran el camino correcto hacia una inteligencia artificial general, pero me sigue sorprendiendo cuánto se les puede exprimir ampliando la forma de usarlos, con arneses para LLM y mejor diseño de contexto
      Al ver que los LLM en la práctica ya pueden diseñar sus propios prompts y contexto, no parece que vayan a necesitar guía humana para siempre
      Para tareas simples basadas en hechos concretos y con una metodología específica, los LLM no son la herramienta adecuada, y que no puedan reconocer esas tareas y derivarlas a herramientas que operen de forma más determinista me parece un fallo del arnés
      Igual que uno usa una “habilidad” cuando hace falta, ciertas tareas deberían delegarse a herramientas o “cerebros” especializados
      Parece muy probable que la primera inteligencia artificial general no sea un solo cerebro, sino un sistema compuesto de varios LLM, arneses, habilidades y subsistemas especializados por dominio y tarea
    • Si Claude a veces sobrestima valores de conversión, puede que venga de que la cucharada australiana no es igual a la estadounidense
      La cucharada australiana son 4 cucharaditas/20 mL y la estadounidense 3 cucharaditas/15 mL, así que ese error podría explicarse en parte por la complejidad del mundo real
      Aunque si dice 3.14 cucharaditas o 2 cucharaditas, ya no sé
    • Esta analogía me recuerda a los dedos y manos raros de los modelos de generación de imágenes de hace un año
      Ahora eso está casi resuelto y hoy hasta generan video difícil de distinguir de la realidad
      Por eso me hace pensar que estos errores sutiles también van a seguir disminuyendo hasta volverse difíciles de detectar en casi cualquier tarea
    • Ayer usé opus 4.6 a través de Copilot para hacer brainstorming tipo rubber duck sobre una función grande que requería cuidado
      Sí me dio inspiración, pero también interpretó mal cosas muy básicas. Puede que haya sido problema de mi forma de usarlo, así que no estoy seguro
  • En el trabajo usamos un generador de notas para reuniones con LLM, y hace poco tuve que intervenir porque el CIO estaba muy molesto diciendo que un proveedor había prometido algo y luego no cumplió
    El CIO no estuvo en la reunión donde supuestamente se hizo esa “promesa”, pero yo sí, y en realidad no se prometió nada; la discusión fue mucho más matizada que el resumen detallado del LLM
    También veo que falla cuando la discusión no es lineal. Por ejemplo, si el equipo de SOC va y viene sobre alertas recientes y respuesta a incidentes, capta la idea general, pero si dependes de la exactitud, falla muy fuerte
    Puede servir para algo como el registro inicial que hace una enfermera en el hospital, con síntoma principal, peso, estatura y un resumen de cambios recientes, pero no confiaría en eso para un intercambio detallado y técnico con un médico
    Incluso desde el punto de vista de cumplimiento, me imagino que un hospital preferiría usar solo la transcripción antes que reescribir el registro, pero no lo sé

    • Hace poco, en el Día de las Madres, le dejé a mi mamá un mensaje de voz porque no me contestó; era un saludo humano totalmente normal, algo como “qué mal que no te pude llamar, si te queda bien puedes marcarme esta noche o mañana, hablamos pronto, te quiero, adiós”
      Esa noche mi mamá me devolvió la llamada, hablamos un momento y luego me preguntó con cautela: “Entonces… ¿había algo que de verdad necesitabas decirme?” y yo me quedé totalmente confundido
      Resulta que el resumen con LLM de la notificación de llamada convirtió un mensaje de voz donde el 75% eran expresiones sociales de cortesía sin mucho contenido en una redacción laboral rígida y demasiado formal, dándole un tono inquietante
      Le dio demasiado peso a expresiones individuales como “quiero hablar” y “pregunta por un horario posible”, haciendo que pareciera un mensaje largo sobre algo importante pero ambiguo y urgente
      El resultado fue que mi mamá se preocupó un poco, y me molestó que un saludo tan normal terminara así. Ahora parece que van a meter resúmenes mediocres con LLM en todo
    • En todas las atenciones médicas que he recibido hasta ahora, siempre pude corregir el registro después, y casi la mitad tenían errores significativos
      Siempre revisa el registro resumido de inmediato, y si hay algún problema, contacta al médico lo antes posible
      Normalmente el médico puede corregirlo directamente, y es mejor hacerlo mientras todos todavía recuerdan lo sucedido
    • A mí también me desconcierta esa parte. ¿No bastaría con hacer una transcripción y ya?
      Sobre todo si se va a consultar seguido una transcripción larga, una persona podría marcar manualmente los lugares donde sienta que hace falta un resumen
      En este tipo de interacciones, por mi experiencia, no suele haber tanta información de relleno que se pueda filtrar a la ligera, y los detalles importan bastante
    • La transcripción es demasiado buena y, al mismo tiempo, no lo bastante buena. Si encima le agregas contenido generativo, empeora
      Lo de “demasiado buena” viene de que en muchos entornos comerciales se prohíbe la transcripción continua. Es porque ciertos detalles específicos quedan registrados de forma fácil de descubrir como evidencia y eso crea riesgo de negocio
      Las minutas o resúmenes pueden omitir discusiones sensibles o presentar solo acuerdos sin detalles concretos, y además ofrecen una defensa interpretativa con “ambigüedad estratégica”
      Lo de “no lo bastante buena” es que el reconocimiento de voz también sigue siendo probabilístico. La salida real de evaluación puede incluir datos de palabras o frases alternativas además de las elegidas, así que hay margen para representar palabras que no se dijeron o generar una impresión distinta
      El hecho de que la gente vea las transcripciones por reconocimiento de voz como si fueran un registro autoritativo empeora más el problema
      Si encima les pones inferencia generativa, como un resumen, ambos problemas se agrandan. Desde el punto de vista legal, puede resultar más aceptable un resumen con menos términos específicos buscables y con responsabilidad y concreción más difusas
    • En mi experiencia, las transcripciones funcionan bastante bien, y en un caso así se debería tratar la transcripción como el hecho base
  • Me pasó hace poco. Me diagnosticaron rodilla de corredor, pero el resumen de IA decía que tenía osteoporosis, dolor de cadera y dificultad para caminar, cosas que jamás se mencionaron ni se insinuaron
    Siempre hay que revisar la transcripción. En especial, los transcriptores con LLM con bastante frecuencia meten síntomas comunes que en realidad no existen, o afirman diagnósticos comunes que encajan con algunos detalles pero no con otros
    Un registro incorrecto puede influir muchísimo en consultas futuras y en costos, así que hay que corregirlo sí o sí
    Salvo unas pocas cosas simples y comunes, cerca del 50% de los resúmenes de “IA” que he recibido tenían algo incorrecto. Por lo general agregan síntomas inexistentes, y a veces, como en este caso, fabrican cosas más graves
    Un LLM no es software común de voz a texto, y no se le debe tratar como tal. A veces inserta oraciones completas que nunca existieron, y eso jamás está bien en un expediente médico

    • De hecho vi que un resumen con LLM de Zoom atribuyó a una persona algo que no dijo, y eso causó un problema serio
      Otra persona que no pudo asistir a la reunión leyó el resumen después y se armó una gran discusión, porque ese tema era sensible para ella por un debate interno que seguía abierto en la empresa
      Todos los asistentes confirmaron que era un error, pero el momento coincidió de forma tan conveniente que a esa persona le costó aceptarlo. El resumen con LLM presentaba el contenido como si confirmara preocupaciones que antes algunos asistentes parecían minimizar
      Al final el problema escaló tanto que la gerencia creó una política de no confiar en salidas generativas sin verificación independiente, así que al menos quedó la lección
  • Pero, ¿qué tan precisos son los humanos? Pedí las impresiones de mis expedientes médicos de los últimos 5 años y eran gruesas como un libro
    Me cuesta creer que una persona pueda leer todo eso y hacer algo útil de forma significativa
    Si dejas que una herramienta de IA lo revise, claro que puede equivocarse o sacar conclusiones sin fundamento, pero la velocidad con la que puedes revisar rápido, objetar lo raro y llegar a la respuesta correcta podría ser mayor que en cualquier reunión con una enfermera o un médico
    En vez de enfocarnos solo en lo imperfectas que son estas herramientas, podríamos hacer más si nos enfocamos en cómo usarlas y cómo cuestionar las partes raras o incorrectas

  • El generador de notas con IA que usamos en el trabajo también graba la reunión y adjunta a cada nota enlaces con marca de tiempo que te llevan directo al punto correspondiente del audio para verificarlo tú mismo
    En un entorno HIPAA esto seguramente sea más complicado, pero en campos críticos como la medicina una solución así es indispensable

    • Cuando diseñas experiencias de usuario basadas en IA, a esto le llamamos trazabilidad de fuentes
      Es un elemento central para la confianza, la confiabilidad, el cumplimiento y demás
      Si un sistema de software incluye este tipo de salidas de LLM pero no expone de dónde sale el resultado para que una persona pueda evaluarlo y verificarlo, en el mejor de los casos es una mala experiencia de usuario y en el peor es peligroso
    • Eso suena menos a un “generador de notas” y más a un motor de búsqueda de muestras de audio
      Si quieres precisión, al final igual tienes que escucharlo todo
    • Ese enfoque al final requiere una de tres cosas
      Que alguien escuche toda la grabación de la reunión y revise todas las notas, lo cual consume mucho tiempo y personal; o que un asistente valide las notas de memoria, lo cual es vulnerable a errores; o que el asistente las contraste con sus propias notas, con lo que se pierde el sentido del generador de notas con IA
      Siendo realistas, en cualquier contexto donde la precisión importe, el uso de IA en cualquier forma no es aceptable, pero es difícil lograr que la gente lo reconozca
  • Como canadiense, me entusiasma la posibilidad de que la IA libere tiempo de los médicos y alivie la carga del sistema de salud, pero esto da miedo
    Todavía no hemos llegado a ese punto. Tal vez en el futuro haga falta capacitación en IA para médicos
    Ya hay algunos complejos de condominios donde, con iPads propiedad de instituciones médicas, se hacen consultas en línea con doctores y eso evita lo engorroso del proceso para conseguir cita con un médico de cabecera
    Creo que la dirección de la innovación es la correcta, pero necesita tiempo. A veces siento que la IA salió demasiado pronto

    • Creo que se está aplicando mal esta tecnología. En vez de aventarla sobre una transcripción y esperar una salida perfecta, habría que usar las fortalezas de los LLM para mejorar la calidad de entrada y beneficiar a todos
      Por ejemplo, para liberar tiempo del médico: las consultas suelen ser dispersas, los pacientes hablan de varios problemas al mismo tiempo y el médico, con tiempo limitado y obligaciones regulatorias de explicación, tiene que comunicar lo que afecta la atención
      Incluso con una transcripción perfecta, es una estructura en la que todos salen perdiendo; los LLM no pueden ser perfectos y no dejan de ser autocompletado
      Me imagino a un paciente interactuando con una IA de admisión que pueda escucharlo durante horas de divagación o incluso en medio de una crisis de ansiedad, y luego entregar al médico un resumen de necesidades confirmado por el cuidador y la información de triage relevante
      En ese punto también podría presentar información útil como acceso a medicamentos o políticas del seguro, siempre para revisión del médico, y el paciente podría organizar y complementar su comprensión del sistema sin presión de tiempo
      La idea es mejorar la calidad de la conversación para que el médico pueda concentrarse más en el paciente y para que las necesidades conversacionales del paciente no terminen dominando el tratamiento. En salud hay muchísimos formularios y checklists, y sí veo que el autocompletado puede aportar eficiencia en cómo se llenan
  • Estoy en Toronto, y mi médico siempre me pregunta si está bien usar un generador de notas con IA, y yo le doy permiso
    Cuando termina la consulta, el médico repasa y corrige las notas, y a menudo se queja de que tiene que hablarle más a la computadora que a mí
    Por suerte es un buen médico y hace esta verificación posterior, pero me deja la impresión de que esto se les está imponiendo aunque no quieran

  • Hoy en día la gente en reuniones debería decir en voz alta algo así: “Aviso: las declaraciones interpretadas por IA en esta reunión podrían no ser exactas”
    Yo lo hago en todas las reuniones

  • El informe enlazado parece casi inútil. No dice nada sobre la tasa de error ni sobre el tamaño de la muestra, así que no sabemos si eso de que 9 de 20 sistemas “alteraron información y la sugirieron en planes de tratamiento del paciente” pasó diez de diez veces o una de cada mil
    Incluso suponiendo que la tasa de error del sistema sea alta, me pregunto por qué se están adoptando
    Las pruebas parecen muy sencillas, así que si fueran tan malos, no parecería lógico que médicos, hospitales o el gobierno los compraran por engaño

    • Según el artículo, “el 30% de la puntuación de evaluación de la plataforma dependía únicamente de que tuviera una base nacional dentro de Ontario, y la exactitud de los registros médicos representaba apenas el 4% de la puntuación total”
      La exactitud no era en realidad el criterio central de evaluación, así que parece que a Ontario no le importó mucho
  • Dice que trata específicamente del programa AI Scribe iniciado por el Ontario Ministry of Health para médicos, enfermeras especialistas y otros profesionales de la salud del sector más amplio, lo que me hace preguntarme qué clase de software va a impulsar el ministerio
    Probablemente la mayor parte sean requisitos tipo SOC o similares
    La lista de proveedores aprobados parece estar en este enlace: https://www.supplyontario.ca/vor/software/tender-20123-artif...