Un nouveau modèle d’IA de Google DeepMind déchiffre l’ADN et prédit des mutations, ouvrant de nouvelles pistes pour la recherche sur les maladies.
Notre ADN est constitué de millions de combinaisons au sein du génome qui façonne le corps humain. Même les plus infimes modifications de ces séquences, ou de leur comportement, peuvent bouleverser le fonctionnement de l’ensemble du corps et provoquer des maladies comme le cancer.
AlphaGenome, le nouvel outil d’intelligence artificielle (IA) de Google, peut lire de longs segments d’ADN et prédire le comportement des différentes régions ainsi que la manière dont des altérations pourraient conduire à des maladies.
Reposant sur l’apprentissage profond et inspiré du fonctionnement du cerveau, il est conçu pour aider les scientifiques à comprendre comment l’ADN fonctionne.
Le nouvel outil de Google peut aider à décoder la manière dont l’ADN contrôle les gènes en prédisant ce que font de longs segments de code génétique.
« Nous pensons qu’AlphaGenome peut être une ressource précieuse pour la communauté scientifique, en aidant les chercheurs à mieux comprendre le fonctionnement du génome, la biologie des maladies et, à terme, à stimuler de nouvelles découvertes biologiques et le développement de nouveaux traitements », indique Google DeepMind.
Comment fonctionne AlphaGenome ?
Le modèle lit jusqu’à un million de lettres d’ADN avec une précision au niveau de la lettre, une prouesse impossible avec les outils précédents.
L’ADN se compose de longues chaînes formées de quatre briques chimiques fondamentales, les nucléotides, chacune désignée par une lettre : A, C, G et T. Il fait office de manuel d’instructions pour la fabrication et le contrôle de chaque cellule.
Seulement environ 2 % de l’ADN humain codent directement des protéines, ces briques qui accomplissent l’essentiel du travail dans nos cellules.
Les 98 % restants ont longtemps été relégués au rang d’« ADN poubelle » ; pourtant, loin d’être inutiles, ces séquences agissent comme des panneaux de contrôle qui régulent le fonctionnement des 2 % qui codent.
Elles déterminent quand, où et à quel niveau les gènes s’activent ou se désactivent, répondent aux signaux de l’environnement et influencent l’épissage de l’ARN, un mécanisme qui assemble des séquences de lettres et permet à un même gène de produire des versions différentes.
De nombreuses variantes associées à des maladies se nichent ici, modifiant l’activité des gènes sans altérer les protéines.
AlphaGenome est le premier modèle d’apprentissage profond capable de cibler cette partie de l’ADN et d’en prédire le fonctionnement.
Le modèle peut estimer comment de petites modifications génétiques, dites variantes, affectent l’activité des gènes ou perturbent des processus normaux liés à des maladies comme le cancer.
Comment cela fonctionne-t-il concrètement ?
À titre d’exemple réel, les chercheurs se sont penchés sur une forme de leucémie aiguë, un cancer des globules blancs, où des lymphocytes T immatures, les soldats du système immunitaire, prolifèrent de façon incontrôlée.
Dans certains cas, la leucémie est provoquée par de petites altérations de l’ADN qui ne modifient pas la protéine elle-même, mais changent l’intensité ou le moment d’activation de certains gènes.
Le modèle AlphaGenome a comparé la séquence d’ADN normale à celle qui est mutée et a prédit la probabilité que la mutation augmente l’activité des gènes voisins.
Le modèle est actuellement mis gratuitement à disposition des scientifiques pour des travaux non commerciaux ; il s’agit d’un outil de recherche, pas d’un dispositif destiné à un usage clinique.
À quoi peut-il servir ?
L’équipe de recherche entrevoit de multiples usages pour ce nouveau modèle.
En biologie moléculaire, il peut servir d’outil de laboratoire virtuel, permettant aux scientifiques de tester des hypothèses par simulation avant de mener des expériences coûteuses.
En biotechnologie, il peut aider à concevoir des thérapies génétiques ou à améliorer des molécules ciblant des tissus précis.
« AlphaGenome de DeepMind constitue une étape majeure dans le domaine de l’IA appliquée à la génomique », a déclaré Robert Goldstone, responsable de la génomique à l’Institut Francis Crick.
Il ajoute que le niveau de résolution permis par le nouveau modèle est une avancée qui fait passer cette technologie d’un intérêt théorique à une utilité concrète, permettant aux scientifiques d’étudier et de simuler, par programmation, les racines génétiques des maladies complexes.
« AlphaGenome n’est pas une solution miracle à toutes les questions biologiques, mais c’est un outil de base, de grande qualité, qui transforme le code statique du génome en un langage déchiffrable au service de la découverte », a ajouté Goldstone.
Les scientifiques préviennent toutefois que, comme tous les modèles d’IA, AlphaGenome ne vaut que par la qualité des données qui ont servi à l’entraîner.
« La plupart des données existantes en biologie se prêtent mal à l’IA : les jeux de données sont trop petits et mal standardisés », explique Ben Lehner, responsable de la génomique générative et synthétique au Wellcome Sanger Institute, au Royaume-Uni.
Selon lui, le principal défi aujourd’hui est de savoir comment générer les données permettant d’entraîner la prochaine génération de modèles d’IA.