
Investigadores del Hospital Italiano desarrollaron y validaron un sistema de procesamiento de lenguaje natural (PLN) capaz de identificar pacientes con cáncer de próstata avanzado a partir de historias clínicas electrónicas. El modelo podría marcar un antes y un después en la generación de evidencia real en la región.
El cáncer de próstata es la neoplasia más común en hombres en todo el mundo, y América Latina no es la excepción. Sin embargo, la tasa de mortalidad en nuestra región es el doble que en los países desarrollados, en parte debido a la falta de políticas de screening y al acceso limitado a tratamientos modernos. Por otro lado, la escasa representación de pacientes latinoamericanos en los ensayos clínicos internacionales genera que no se tengan en cuenta las particularidades de los perfiles de nuestra región.
Uno de los subtipos más graves de esta enfermedad es el cáncer de próstata metastásico de novo sensibles a la castración (mCSPC), referido a pacientes que debutan con enfermedad avanzada y niveles elevados de testosterona en sangre. Si bien nuevas combinaciones terapéuticas —como la hormonoterapia de privación androgénica con nuevas terapias hormonales— han mejorado la supervivencia, su impacto real en América Latina sigue siendo incierto.
Una solución con inteligencia artificial
Con la idea de cerrar esta brecha, un equipo multidisciplinario conformado por la Subsección de Urooncología y el Programa de Inteligencia Artificial del Departamento de Informática del Hospital Italiano desarrolló y validó una herramienta de inteligencia artificial que utiliza procesamiento del lenguaje natural (PLN) para analizar automáticamente las historias clínicas electrónicas (HCE). Este proyecto fue financiado a través del otorgamiento de un Grant de Pfizer “Prostate Cancer Needs Assessment in Latin America”.
El objetivo de la iniciativa fue identificar de manera precisa a los pacientes con mCSPC y obtener datos sobre sus características clínicas y tratamientos. El estudio analizó los registros de 194 pacientes tratados entre 2010 y 2020, validados manualmente por especialistas en urooncología. De acuerdo con los doctores Federico Cayol –investigador principal del estudio– y José Castaño –desarrollador de la herramienta de inteligencia artificial–, estos dos mundos se encontraron en el camino: se aprovechó la base de datos existente de estos pacientes para implementar y adaptar el modelo en pos de identificar el comportamiento de estas variables.
El algoritmo de PLN se integró a ARGOT, una plataforma de servicios terminológicos propia del Hospital que ya se encuentra mapeada a estándares internacionales como SNOMED CT. Para su desarrollo se usaron tecnologías abiertas como spaCy, MedspaCy y QuickUMLS para construir la secuencia de análisis de texto. En esta línea, los investigadores destacan que “solo podíamos desarrollar esta herramienta en este Hospital por la estructura que tiene la institución, y por la costumbre y tradición de trabajar en equipo entre áreas muy diversas. Esto no se puede desarrollar solo”.

Resultados alentadores, pero con desafíos
El modelo mostró una alta capacidad para identificar eventos clínicos frecuentes, pero tuvo limitaciones con variables más complejas o menos documentadas (como la presencia de metástasis ganglionares).
Entre los principales hallazgos, se destacan:
- Diagnóstico de cáncer de próstata: 95% de efectividad.
- Detección de metástasis: 91 % de efectividad.
- Inicio del primer tratamiento: 95% de efectividad para identificar correctamente cuándo comenzarlo.
Estos y otros resultados de la investigación serán expuestos en el marco de MedInfo 2025, encuentro de referencia global en informática médica.

Una herramienta con potencial regional
El uso creciente de la HCE en nuestra región ofrece una posibilidad de disminuir la brecha, y este estudio representa un avance significativo en el uso de inteligencia artificial para investigación clínica en Latinoamérica. En este sentido, Federico Cayol afirma que “si bien existen modelos de decodificación del lenguaje natural, la inmensa mayoría de estos son en inglés, por lo que esta herramienta resulta de mayor utilidad especialmente en Latinoamérica”. Además, abre la puerta a generar evidencia del mundo real en contextos donde los ensayos clínicos tradicionales son difíciles de implementar.
“Esta es una herramienta que puede llegar a cambiar la forma de conocer cuánto impactan las nuevas tecnologías en nuestros pacientes”, destaca el investigador principal del estudio. También enfatiza en su potencial para seleccionar pacientes candidatos para ensayos clínicos o la generación de modelos de predicción.
Los próximos pasos del equipo incluirán incorporar una muestra más diversa que limite los sesgos y avanzar en el desarrollo de un modelo de lenguaje clínico de mayor escala. A su vez, Castaño reveló que se están comenzando a hacer pruebas con LLM, lo que permitiría mayores posibilidades de escalar en distintos tipos de variables. “Es disruptiva, está bastante avanzada y no falta tanto para poder, eventualmente, generalizar su uso”, cierra Cayol.