La «huella digital» hospitalaria ayuda a la IA a detectar diagnósticos erróneos en tejido canceroso
El origen de una muestra no debe influir en el resultado: criterio de evaluación para una IA clínica fiable
Anuncios
Un nuevo estudio realizado por investigadores de BIFOLD de la Universidad Técnica de Berlín, en colaboración con la empresa berlinesa de inteligencia artificial Aignostics, la Universidad Ludwig-Maximilians (LMU) de Múnich y el Instituto Neerlandés del cáncer (NKI), revela que los modelos actuales de IA para la patología a menudo pueden verse influidos por el hospital del que procede la muestra de tejido que se va a analizar. El equipo desarrolló «PathoROB», el primer índice de evaluación del mundo destinado a medir y reducir este problema. PathoROB ya se utiliza ampliamente en la actualidad, lo que influye en la próxima generación de modelos de IA para la patología. El estudio se ha publicado ahora en Nature Communications.
La inteligencia artificial tiene como objetivo ayudar a los médicos a diagnosticar y caracterizar el cáncer de forma más rápida y precisa. Los denominados «modelos base» —grandes sistemas de IA preentrenados con millones de imágenes microscópicas de tejidos— se utilizan cada vez más para la detección del cáncer, la clasificación de enfermedades y la predicción de biomarcadores en los flujos de trabajo clínicos. El nuevo estudio del equipo de investigación interdisciplinar pone ahora de manifiesto un punto débil crítico de estos modelos: cada laboratorio de anatomía patológica deja una firma sutil en sus cortes de tejido, consistente en diferencias en la preparación, la tinción y la digitalización de las biopsias. Estas diferencias son irrelevantes desde el punto de vista médico, pero son visibles para los sistemas de IA y los modelos las interiorizan. Los investigadores demostraron que los modelos base actuales pueden identificar el hospital de origen de un corte de tejido con una precisión del 88 al 98 por ciento, basándose en las representaciones de características que han aprendido. En algunos casos, el «mapa» interno de los datos de un modelo se organizaba principalmente en función de los hospitales y, solo de forma secundaria, según si el tejido era sano o canceroso.
«Huellas» ocultas de los hospitales en los modelos
Las consecuencias pueden ser graves. En un ejemplo especialmente llamativo, un modelo de IA aprendió a utilizar la firma del hospital como atajo para sus decisiones. De este modo, clasificó erróneamente una muestra de tejido claramente maligna como sana, simplemente porque la muestra procedía de un hospital que, en el pasado, había enviado casi exclusivamente muestras sanas y que, por lo tanto, el modelo había asociado con tejido sano.
Para cuantificar este problema, los investigadores desarrollaron PathoROB, el primer baremo de evaluación de acceso público que aborda específicamente la robustez de los modelos base en patología frente a las variaciones técnicas. Aúna cuatro conjuntos de datos con alrededor de 100 000 muestras de tejido, 28 clases biológicas y 34 centros médicos. Además, introduce un nuevo «índice de robustez» que cuantifica en qué medida la representación interna de un modelo viene determinada por la biología y no por artefactos hospitalarios.
Al aplicarlo a 20 modelos base ampliamente utilizados, PathoROB detectó deficiencias en cada uno de ellos. Los modelos más grandes, entrenados con datos más diversos, así como los que combinan datos de imágenes con informes de texto (modelos de visión-lenguaje), obtuvieron los mejores resultados. Los investigadores también probaron diversos métodos a posteriori para «robustificar» los modelos y constataron que estos pueden reducir significativamente el riesgo de tales errores, aunque todavía no de forma total. Para ello, no es necesario un costoso reentrenamiento del modelo subyacente.
«Los modelos base para la patología están evolucionando rápidamente, lo cual resulta sumamente interesante. Sin embargo, nuestros resultados muestran que un buen rendimiento en un banco de pruebas estándar no es suficiente para confiar en un modelo en el ámbito clínico», afirma Julius Hense, coautor principal del estudio e investigador en BIFOLD y en la Universidad Técnica de Berlín. «PathoROB ofrece a los desarrolladores y a los usuarios clínicos una herramienta para comprobar si un modelo realmente ha aprendido las relaciones biológicas o si simplemente ha reconocido de qué hospital procede una muestra».
Diseñar la próxima generación de IA para la patología
PathoROB ya está cambiando la forma en que se desarrolla y se compara la IA para la patología. El modelo base de la próxima generación de Aignostics, «Atlas 2», desarrollado conjuntamente con la Clínica Mayo de EE. UU., se diseñó expresamente para abordar los conflictos de objetivos entre rendimiento y robustez que PathoROB ha puesto de manifiesto. Además, PathoROB se está consolidando cada vez más como el punto de referencia estándar para la robustez de los modelos base. Los nuevos modelos o incluso plataformas como «Histoboard» presentan ahora sus resultados de PathoROB como uno de los criterios de evaluación para comparar directamente entre sí los modelos de IA para patología.
Gracias a la puesta a disposición abierta del criterio de evaluación, los conjuntos de datos y el código fuente, los investigadores esperan que la evaluación de la robustez se convierta en un componente fijo de la validación de los modelos base biomédicos, antes de que estos se utilicen para respaldar decisiones clínicas y, por lo tanto, puedan influir en los tratamientos de los pacientes.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Alemán se puede encontrar aquí.