Un modèle d'IA prédit les risques de maladie des décennies à l'avance
Un nouvel outil d'IA permet de prévoir le risque et la date de survenue de plus de 1 000 maladies
Des scientifiques du Laboratoire européen de biologie moléculaire (EMBL) et du Centre allemand de recherche sur le cancer (DKFZ) ont mis au point un modèle d'intelligence artificielle qui évalue le risque individuel à long terme de plus de 1 000 maladies. Le modèle, qui a été entraîné et testé à l'aide de données médicales anonymes provenant du Royaume-Uni et du Danemark, peut prédire des événements de santé sur une période de plus d'une décennie. Le modèle, présenté dans la revue Nature, n'est pas encore prêt pour une utilisation clinique, mais il ouvre déjà de nouvelles possibilités pour l'élaboration de stratégies de santé.
Votre histoire médicale personnelle peut-elle être utilisée pour prédire les problèmes de santé auxquels vous pourriez être confronté au cours des deux prochaines décennies ? Des chercheurs de l'EMBL, du DKFZ et de l'université de Copenhague viennent de montrer que c'est possible. Ils ont mis au point un modèle d'IA générative qui utilise les dossiers médicaux à grande échelle pour estimer l'évolution de la santé humaine au fil du temps. Ce modèle peut prévoir le risque et le moment de survenue de plus de 1 000 maladies, et prédire les résultats en matière de santé plus de dix ans à l'avance.
Ce nouveau modèle génératif d'IA a été conçu sur mesure à l'aide de concepts algorithmiques similaires à ceux utilisés dans les grands modèles de langage (LLM). Il a été entraîné sur des données de patients anonymes provenant de 400 000 participants de la biobanque britannique. Les chercheurs ont également testé avec succès le modèle en utilisant les données de 1,9 million de patients du registre national danois des patients. Cette approche constitue l'une des démonstrations les plus complètes à ce jour de la manière dont l'IA générative peut modéliser l'évolution des maladies humaines à grande échelle et a été testée sur des données provenant de deux systèmes de soins de santé totalement distincts.
"Notre modèle d'IA est une preuve de concept, qui montre qu'il est possible d'apprendre beaucoup de nos habitudes de santé à long terme et d'utiliser ces informations pour générer des prédictions significatives", a déclaré Ewan Birney, de l'EMBL. "En modélisant l'évolution des maladies au fil du temps, nous pouvons commencer à étudier le moment où certains risques apparaissent et la meilleure façon de planifier des interventions précoces. C'est un grand pas vers des approches plus personnalisées et préventives des soins de santé".
La "grammaire" des données de santé
"Tout comme les grands modèles de langage peuvent apprendre la structure des phrases, ce modèle d'IA apprend la "grammaire" des données de santé pour modéliser les antécédents médicaux comme des séquences d'événements se déroulant au fil du temps", explique Moritz Gerstung, du DKFZ. Ces événements comprennent des diagnostics médicaux ou des facteurs liés au mode de vie, tels que le tabagisme. Le modèle apprend à prévoir le risque de maladie à partir de l'ordre dans lequel ces événements se produisent et du temps qui s'écoule entre eux.
"Les événements médicaux suivent souvent des schémas prévisibles", explique Tom Fitzgerald, de l'Institut européen de bio-informatique (EMBL-EBI). "Notre modèle d'IA apprend ces schémas et peut prévoir les résultats futurs en matière de santé. Il nous permet d'explorer ce qui pourrait se produire en fonction des antécédents médicaux d'une personne et d'autres facteurs clés. Il est important de noter qu'il ne s'agit pas d'une certitude, mais d'une estimation des risques potentiels.
Le modèle est adapté à diverses maladies, en particulier celles qui présentent des schémas de progression clairs et cohérents, comme le diabète, les crises cardiaques ou la septicémie, qui est un type d'empoisonnement du sang. En revanche, il est moins fiable pour des diagnostics tels que les maladies infectieuses, qui dépendent d'événements imprévisibles de la vie, ou les maladies très rares.
Des probabilités, pas des certitudes
À l'instar des prévisions météorologiques, ce nouveau modèle d'IA fournit des probabilités et non des certitudes. Il ne prédit pas exactement ce qui arrivera à un individu, mais il propose des estimations bien calibrées de la probabilité de survenue de certaines affections sur une période donnée. Par exemple, la probabilité de développer une maladie cardiaque au cours de l'année suivante. Ces risques sont exprimés sous forme de taux dans le temps, comme si l'on prévoyait 70 % de chances qu'il pleuve demain.
Certains résultats, comme le risque d'hospitalisation après un événement majeur - par exemple une crise cardiaque - peuvent être prévus avec un degré de confiance élevé, tandis que d'autres restent plus incertains. De même, les prévisions à court terme sont plus précises que les prévisions à long terme.
L'exemple de la crise cardiaque
Le risque de crise cardiaque calculé par le modèle d'IA pour les hommes âgés de 60 à 65 ans varie entre une probabilité de 4 pour 10 000/an et environ 100 pour 10 000/an, en fonction des diagnostics antérieurs et du mode de vie des hommes. Chez les femmes, le risque moyen d'infarctus est plus faible, mais la fourchette est tout aussi large.
En outre, le risque de crise cardiaque augmente avec l'âge, tant chez les hommes que chez les femmes. Une évaluation systématique de ces risques calculés dans différents groupes d'âge et de sexe montre qu'ils correspondent bien au nombre de cas observés dans un sous-ensemble de la cohorte UK Biobank qui n'a pas été utilisé pour former le modèle.
Le modèle est calibré pour produire des estimations précises du risque au niveau de la population, en prévoyant la fréquence d'apparition de certaines affections au sein de groupes de personnes. Cependant, comme tout modèle d'intelligence artificielle, il présente des limites. Par exemple, comme les données d'entraînement du modèle issues de la biobanque britannique proviennent principalement de personnes âgées de 40 à 60 ans, les événements de santé de l'enfance et de l'adolescence sont sous-représentés. Le modèle comporte également des biais démographiques dus à des lacunes dans les données de formation, notamment la sous-représentation de certains groupes ethniques.
Bien que le modèle ne soit pas encore prêt pour une utilisation clinique, il pourrait déjà aider les chercheurs à
- comprendre comment les maladies se développent et progressent dans le temps
- étudier comment le mode de vie et les maladies antérieures influent sur le risque de maladie à long terme
- simuler des résultats de santé à l'aide de données artificielles sur les patients, dans des situations où il est difficile d'obtenir ou d'accéder à des données réelles.
À l'avenir, des outils d'IA tels que celui décrit ici, formés sur des ensembles de données plus représentatifs, pourraient aider les cliniciens à identifier rapidement les patients à haut risque. Avec le vieillissement des populations et l'augmentation des taux de maladies chroniques, la capacité à prévoir les besoins futurs en matière de santé pourrait aider les systèmes de santé à mieux planifier et à allouer les ressources de manière plus efficace. Mais il faudra encore beaucoup d'essais, de consultations et de cadres réglementaires solides avant que les modèles d'IA puissent être déployés dans un contexte clinique.
"C'est le début d'une nouvelle façon de comprendre la santé humaine et la progression des maladies", a déclaré Moritz Gerstung, du DKFZ. "Des modèles génératifs comme le nôtre pourraient un jour aider à personnaliser les soins et à anticiper les besoins de santé à grande échelle. En apprenant à partir de vastes populations, ces modèles offrent une vision puissante de l'évolution des maladies et pourraient à terme permettre des interventions plus précoces et mieux adaptées."
Ce modèle d'IA a été formé à partir de données de santé anonymes dans le respect de règles éthiques strictes. Les participants à la biobanque britannique ont donné leur consentement éclairé et les données danoises ont été consultées conformément à la réglementation nationale qui exige que les données restent au Danemark. Les chercheurs ont utilisé des systèmes virtuels sécurisés pour analyser les données sans les déplacer au-delà des frontières. Ces garanties permettent de s'assurer que les modèles d'IA sont développés et utilisés dans le respect de la vie privée et des normes éthiques.
Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.
Publication originale
Artem Shmatko, Alexander Wolfgang Jung, Kumar Gaurav, Søren Brunak, Laust Mortensen, Ewan Birney, Tom Fitzgerald & Moritz Gerstung: Learning the natural history of human disease with generative transformers; Nature 2025