A «impressão digital» hospitalar ajuda a IA a identificar diagnósticos errados em tecido canceroso
A origem de uma amostra não deve influenciar o resultado: critérios de avaliação para uma IA clínica fiável
Anúncios
Um novo estudo realizado por investigadores do BIFOLD na Universidade Técnica de Berlim, em colaboração com a empresa de IA berlinense Aignostics, a Universidade Ludwig-Maximilians (LMU) de Munique e o Instituto Neerlandês do Cancro (NKI), revela que os modelos atuais de IA para a patologia podem, muitas vezes, ser influenciados pela origem da amostra de tecido a analisar, nomeadamente pelo hospital de onde provém. A equipa desenvolveu o «PathoROB», o primeiro índice de avaliação a nível mundial destinado a medir e reduzir este problema. O PathoROB já está a ser amplamente utilizado, influenciando assim a próxima geração de modelos de IA para a patologia. O estudo foi agora publicado na revista *Nature Communications*.
A inteligência artificial tem como objetivo ajudar os médicos a diagnosticar e caracterizar o cancro de forma mais rápida e precisa. Os chamados «modelos de base» — grandes sistemas de IA pré-treinados com milhões de imagens microscópicas de tecido — são cada vez mais utilizados na deteção do cancro, na classificação de doenças e na previsão de biomarcadores em fluxos de trabalho clínicos. O novo estudo da equipa de investigação interdisciplinar revela agora um ponto fraco crítico destes modelos: cada laboratório de patologia deixa uma assinatura subtil nas suas secções de tecido: diferenças na preparação, coloração e digitalização das biópsias. Estas diferenças são clinicamente irrelevantes, mas visíveis para os sistemas de IA, e os modelos interiorizam-nas. Os investigadores demonstraram que os atuais modelos de base (Foundation Models) conseguem identificar o hospital de origem de uma secção de tecido com uma precisão de 88 a 98 por cento, com base nas representações de características que aprenderam. Em alguns casos, o «mapa» interno dos dados de um modelo estava organizado principalmente por hospitais e, apenas em segundo lugar, consoante o tecido fosse saudável ou canceroso.
«Impressões digitais» ocultas dos hospitais nos modelos
As consequências podem ser graves. Num exemplo particularmente impressionante, um modelo de IA aprendeu a utilizar a assinatura do hospital como atalho para as suas decisões. Assim, classificou erroneamente uma amostra de tecido claramente maligna como saudável — apenas porque a amostra provinha de um hospital que, no passado, tinha enviado quase exclusivamente amostras saudáveis e que o modelo, por isso, tinha associado a tecido saudável.
Para quantificar este problema, os investigadores desenvolveram o PathoROB, o primeiro critério de avaliação disponível ao público que aborda especificamente a robustez dos modelos de base em patologia face a variações técnicas. Este reúne quatro conjuntos de dados com cerca de 100 000 amostras de tecido, 28 classes biológicas e 34 centros médicos. Além disso, introduz um novo «índice de robustez», que quantifica em que medida a representação interna de um modelo é determinada pela biologia e não por artefactos hospitalares.
Ao ser aplicado a 20 modelos de base amplamente utilizados, o PathoROB revelou deficiências em cada um deles. Os modelos de maior dimensão, treinados com dados mais diversificados, bem como os modelos que combinam dados de imagem com relatórios de texto (modelos de visão-linguagem), obtiveram os melhores resultados. Os investigadores testaram ainda vários métodos posteriores de «robustificação» e constataram que estes podem reduzir significativamente o risco de tais erros — embora ainda não de forma total. Para tal, não é necessário um novo e dispendioso treino do modelo subjacente.
«Os modelos de base para a patologia estão a evoluir rapidamente, o que é extremamente empolgante. No entanto, os nossos resultados mostram que um bom desempenho num benchmark padrão não é suficiente para confiar num modelo na prática clínica», afirma Julius Hense, coautor principal do estudo e investigador na BIFOLD e na TU Berlin. «O PathoROB oferece aos programadores e aos utilizadores clínicos uma ferramenta para verificar se um modelo aprendeu efetivamente relações biológicas ou se se limitou a reconhecer de que hospital provém uma amostra.»
Moldar a próxima geração de IA em patologia
O PathoROB já está a mudar a forma como a IA para a patologia é desenvolvida e comparada. O modelo de base da próxima geração da Aignostics, o «Atlas 2», desenvolvido em colaboração com a Mayo Clinic nos EUA, foi expressamente concebido para resolver os conflitos de objetivos entre desempenho e robustez identificados pelo PathoROB. Além disso, o PathoROB está a afirmar-se cada vez mais como referência padrão para a robustez dos modelos de base. Novos modelos ou mesmo plataformas como o «Histoboard» apresentam agora os seus resultados do PathoROB como um dos critérios de avaliação para comparar diretamente entre si os modelos de IA em patologia.
Através da disponibilização aberta do critério de avaliação, dos conjuntos de dados e do código-fonte, os investigadores esperam estabelecer a avaliação da robustez como parte integrante da validação de modelos de base biomédicos — antes de estes serem utilizados para apoiar decisões clínicas e, consequentemente, influenciar potencialmente os tratamentos dos doentes.
Observação: Este artigo foi traduzido usando um sistema de computador sem intervenção humana. A LUMITOS oferece essas traduções automáticas para apresentar uma gama mais ampla de notícias atuais. Como este artigo foi traduzido com tradução automática, é possível que contenha erros de vocabulário, sintaxe ou gramática. O artigo original em Alemão pode ser encontrado aqui.