La documentación médica, tanto la escritura de reportes como evoluciones consume mucho tiempo de la actividad de los profesionales de la salud. Este es un hecho que ha sido señalado en numerosas oportunidades en los estudios realizados sobre la actividad de los profesionales y también otros de índole académicos que abordan el impacto de las tecnologías en el campo de la salud.
Una de las tecnologías de la Inteligencia Artificial en la aplicación en dominios de la salud que ha ganado terreno en los últimos años es el reconocimiento automático de habla, justamente para ayudar a los médicos en su tarea de documentación.
El término reconocimiento automático de habla (ASR por sus siglas en inglés), refiere a las técnicas que convierten el habla en texto digital. Desde hace más de cuatro décadas se investigaron diversas técnicas para convertir habla en texto pero solo en los últimos 10 años, con el surgimiento de las técnicas de aprendizaje profundo basado en redes neuronales, la tecnología ha alcanzado altos niveles de performance.
Si hacemos un poco de historia podemos mencionar que la aplicación de técnicas de ASR en el campo de la medicina se remontan a la década del 90 del siglo pasado, con la aparición de sistemas de dictado como ViaVoice de IBM o el sistema Nuance. Durante esa época, en Estados Unidos por ejemplo, se hizo costumbre que los médicos grabaran sus reportes y enviaran los audios por medios electrónicos en la recién surgida internet a países de habla inglesa, como India, donde se transcribían los reportes a bajo costo.
Para su aplicación en el dominio médico, los sistemas deben contar con un vocabulario que cubra las necesidades de las distintas especialidades. En este sentido, varios de estos softwares contaban o cuentan con modelos de lenguaje apropiados para cada especialidad. Algunas especialidades médicas, como la transcripción de reportes en Radiología, Resonancia Magnética o Tomografía Computacional, ya hace décadas que han incorporado la tecnología.
El avance de los niveles de performance y por lo tanto disminución de las tasas de error, conocidas como WER ( Word Error Rate ) ha sido constante en los últimos años. Sin embargo, este crecimiento no ha estado exento de hechos controversiales. Es conocido el juicio realizado contra IBM por el error de su sistema al transcribir una indicación médica en la que un profesional había instruido dar una dosis de insulina a un paciente, y lo comunicó por medio de parte transcripto por un sistema de ASR. La confusión común en inglés entre “eigth”, “eighteen” y “eighty”, próximas por su pronunciación, hizo que se le diera una dosis desmesurada y el paciente falleció. El caso abrió una discusión sobre el uso de ASR en el área de la salud. Este hecho demostró que todavía no se puede dejar en manos del sistema la validación de lo dicho, sino que es el profesional quién debe supervisar la transcripción.
Hasta el día de hoy los sistemas se ubican dentro de la categoría de “dictado”. El dictado implica un tipo de sistema con características particulares: el hablante está cerca del micrófono y es cooperativo, es decir que tiene conocimiento de dictarle a un sistema. Los modelos de lenguaje y el vocabulario están adaptados al dominio de aplicación. Esto quiere decir, que los modelos fueron entrenados sobre textos escritos en dicho dominio. Por lo tanto, se espera que el habla sea clara, que los signos de puntuación o las abreviaturas sean dictadas y que el sistema tendrá una ventana de unos segundos, los que dure una frase u oración para grabar la voz.
En los últimos años, se ha pensado que las aplicaciones puedan evolucionar a sistemas de transcripción. El sistema que dispone Google para medicina en inglés es un ejemplo. Los sistemas de transcripción pueden reproducir la conversación médico-paciente en su totalidad. La puntuación es repuesta por el sistema y su vocabulario es amplio, ya que en la conversación surgen muchas palabras que no son del dominio médico. Esto cambia la perspectiva de cómo se construyen los sistemas de ASR: el paciente puede estar lejos del micrófono, puede haber voces superpuestas, largos silencios y ruidos. Entonces los sistemas tienen otros componentes: sistemas que detectan la activación del habla (Voice Activity Detection), sistemas que separen las voces o los ruidos para hacerlos ininteligibles, sistemas que identifican a los hablantes (quién es el médico y quién es el paciente). Por último, el interés es poder obtener la información de toda la conversación médico paciente y mediante un sistema de sumarización de texto, obtener la evolución de la interacción médico paciente sin necesidad que el profesional la dicte o, en otros casos, solamente la supervise o complete. Otro de los objetivos, es incluir información secundaria que muchas veces no está en el foco de la consulta médica: estado emocional del paciente, empleo, actividades de la vida cotidiana, hábitos alimentarios, entre otra información, que puede ser de importancia para la historia clínica.