Comment trouver des gènes marqueurs dans des groupes de cellules ?

Une nouvelle méthode facilite l'identification de gènes spécifiques à un type de cellule dans les données unicellulaires

06.07.2022 - Allemagne

Les milliers de cellules d'un échantillon biologique sont toutes différentes et peuvent être analysées individuellement, cellule par cellule. Sur la base de l'activité de leurs gènes, elles peuvent être classées en grappes. Mais quels gènes sont particulièrement caractéristiques d'un groupe donné, c'est-à-dire quels sont ses "gènes marqueurs" ? Une nouvelle méthode statistique appelée "Association Plot" facilite la détermination et l'analyse de ces gènes marqueurs.

Unsplash

Quels gènes sont spécifiques d'un certain type de cellules, c'est-à-dire qu'ils "marquent" leur identité ? Avec la taille croissante des ensembles de données de nos jours, il est souvent difficile de répondre à cette question. Souvent, les gènes marqueurs sont simplement des gènes qui ont été trouvés dans des populations cellulaires spécifiques. Cependant, beaucoup d'autres gènes pourraient être caractéristiques d'un type de cellule particulier mais ne sont pas encore découverts.

Les "Association Plots(APL)", une nouvelle méthode statistique permettant de visualiser l'activité des gènes au sein d'un groupe de cellules, facilitent la recherche de ses gènes marqueurs. Les graphiques comparent l'activité des gènes d'un groupe donné à celle de tous les autres groupes de l'ensemble des données. De plus, ils permettent de voir facilement quels gènes sont partagés avec d'autres clusters.

"Les diagrammes d'association ne nous permettent pas seulement d'identifier de nouveaux gènes marqueurs. Ils fonctionnent également dans l'autre sens : nous sommes en mesure d'associer des groupes d'identité inconnue dans un ensemble de données à des types de cellules, sur la base d'une liste fournie de gènes marqueurs", explique Elzbieta Gralinska, de l'Institut Max Planck de génétique moléculaire de Berlin.

La biotechnologiste travaille dans l'équipe de Martin Vingron, qui a développé la technique, démontré sa fonctionnalité sur deux ensembles de données accessibles au public et publié les résultats dans le Journal of Molecular Biology. En outre, APL a été publié en tant que module gratuit pour l'environnement statistique R. Le paquet APL permet aux chercheurs d'inspecter visuellement leurs données unicellulaires et de sélectionner des gènes individuels à l'aide du curseur pour obtenir des détails plus approfondis.

Analyse et regroupement de cellules uniques

Pourquoi est-il nécessaire d'identifier les gènes marqueurs en premier lieu ? Les technologies modernes de séquençage sont capables de déchiffrer les molécules d'ARN individuelles dans les cellules. À partir d'un échantillon de sang, par exemple, chaque cellule peut être séparée et un échantillon des ARN de la cellule peut être décodé. Ces données unicellulaires représentent les gènes actifs qui ont été transcrits en molécules d'ARN.

L'avantage : au lieu de se demander à quel type de cellule appartient un ARN particulier, on peut remonter jusqu'à sa cellule d'origine. L'inconvénient : le séquençage de milliers d'ARN dans chaque cellule parmi des dizaines de milliers de cellules produit une quantité extraordinaire de données.

Une solution consiste à trier les cellules en fonction de leur contenu en ARN. "Les données sur les cellules uniques sont composées d'un mélange sauvage de nombreux types de cellules différentes. Nous nous intéressons aux cellules du même type, qui devraient toutes se comporter de manière similaire", explique Martin Vingron. Il est donc logique de regrouper les cellules similaires par le biais de calculs, ajoute-t-il. "Pour nous, les gènes marqueurs définissent un type de cellule".

Explorer les groupes de cellules de manière interactive

À l'aide de données de globules blancs accessibles au public, l'équipe a démontré le fonctionnement du nouvel algorithme. Les nombreux types de globules blancs comme les cellules T, les cellules B ou les monocytes sont tous regroupés dans des clusters distincts. Les chercheurs ont confirmé les gènes marqueurs connus et ont pu montrer que les proches parents parmi les cellules sanguines partagent également une grande similitude dans leur activité génétique.

"Chacun des gènes marqueurs que nous avons découverts avec l'APL aurait pu être découvert par au moins une autre méthode existante d'identification des gènes marqueurs", explique Mme Gralinska. Mais l'avantage d'APL par rapport aux algorithmes existants est sa représentation graphique des résultats, dit-elle. "Les outils existants fournissent de longues listes de gènes et de valeurs de score. Souvent, les utilisateurs parcourent la liste et s'arrêtent à un seuil arbitraire", explique Mme Gralinska.

En revanche, la nouvelle méthode permet de visualiser ces gènes, de cliquer sur chacun d'eux et d'examiner de plus près son activité. "Nous ne nous contentons pas de fournir des listes de gènes marqueurs, nous permettons aux utilisateurs d'examiner le comportement de ces gènes", explique la chercheuse. "Avec les parcelles d'association, ils peuvent plonger dans leurs données pour en savoir plus sur chaque type de cellule". De plus, elle ajoute qu'il est très facile de décomposer le rôle biologique des gènes les plus intéressants dans une étape ultérieure via l'analyse d'enrichissement des termes de l'ontologie génétique, qui est compatible avec le logiciel APL - ce qu'elle considère comme "une fonctionnalité très utile".

Le modèle mathématique sous-jacent

Les données hautement dimensionnelles qui contiennent des informations sur l'activité entre les gènes ne peuvent pas être représentées visuellement sans perte d'information. Il en va de même pour les données groupées, ce qui complique l'analyse. "Notre astuce consiste à prendre en compte bien plus que deux ou trois dimensions, mais à créer au final un diagramme bidimensionnel", explique Mme Gralinska.

Les diagrammes d'association sont dérivés d'une technique mathématique qui intègre simultanément les gènes et les cellules dans un espace commun à haute dimension. En mesurant les distances entre les gènes et un groupe de cellules donné dans cet espace, on obtient des paires de valeurs qui reflètent l'association d'un gène à un groupe donné et donnent un aperçu de son association à d'autres groupes.

"L'un des inconvénients de l'APL est que nous nous appuyons sur des données pré-classifiées, ce qui signifie que nous devons recourir à d'autres techniques pour la mise en grappes", explique Martin Vingron. "Néanmoins, nous espérons que notre nouvelle méthode trouvera de nombreux nouveaux utilisateurs. Nous trouvons qu'un processus visuel et interactif permet tout simplement une meilleure analyse."

Note: Cet article a été traduit à l'aide d'un système informatique sans intervention humaine. LUMITOS propose ces traductions automatiques pour présenter un plus large éventail d'actualités. Comme cet article a été traduit avec traduction automatique, il est possible qu'il contienne des erreurs de vocabulaire, de syntaxe ou de grammaire. L'article original dans Anglais peut être trouvé ici.

Publication originale

Autres actualités du département science

Actualités les plus lues

Plus actualités de nos autres portails