Inspiré de ChatGPT, Google DeepMind prédit 71 millions de mutations génétiques ! L'IA déchiffre le code génétique des gènes humains en Science

Source originale : Xinzhiyuan

Source de l'image : générée par Unbounded AI‌

Après que le modèle de prédiction des protéines AlphaFold ait déclenché une vague de niveau tsunami dans le monde de l'IA, la famille Alpha a inauguré un nouveau parvenu.

Aujourd'hui, Google DeepMind a publié un nouveau modèle d'IA, AlphaMissense, capable de prédire 71 millions de « mutations faux-sens ».

Plus précisément, sur les 89 % de « mutations faux-sens » prédites avec succès par AlphaMissense, 57 % étaient pathogènes et 32 % étaient bénignes.

Adresse papier :

Seulement 0,1 % des mutations peuvent être confirmées par des experts humains.

Afin que les chercheurs puissent mieux comprendre son éventuel impact, Google a également rendu public l'intégralité du catalogue de dizaines de millions de « mutations faux-sens ».

Découvrir la cause sous-jacente constitue depuis longtemps l’un des plus grands défis de la génétique humaine.

Les mutations faux-sens sont des mutations génétiques qui peuvent affecter la fonction des « protéines humaines » et conduire à des maladies telles que la mucoviscidose, la drépanocytose et le cancer.

La naissance d’AlphaMissense démontre l’énorme potentiel de l’IA dans le domaine médical, notamment en génétique.

Cela revêt une grande importance pour comprendre la relation entre la variation génétique et la maladie et pour développer des traitements médicamenteux ciblés.

Après AlphaFold, AlphaMissense pourrait devenir une IA capable de changer le monde et qui devrait surmonter les problèmes de génétique humaine !

**Qu'est-ce qu'une « mutation faux-sens » ? **

La mutation faux-sens est une mutation génétique utilisée dans les domaines de la biomédecine et de la biologie moléculaire pour décrire les gènes codant pour les protéines :

La substitution d’une seule lettre dans l’ADN entraîne la création d’un acide aminé différent dans une protéine.

Si vous considérez l’ADN comme un langage, alors la substitution d’une seule lettre peut changer un mot et changer complètement le sens d’une phrase.

Dans ce cas, les modifications de l’ADN entraînent des modifications des acides aminés qui affectent le fonctionnement de la protéine.

Une personne moyenne est porteuse de plus de 9 000 mutations faux-sens.

D’une manière générale, la plupart de ces mutations faux-sens sont bénignes et ont peu d’impact sur le corps humain. Mais les quelques autres sont pathogènes et peuvent gravement perturber la fonction des protéines.

Les mutations faux-sens peuvent être utilisées pour le diagnostic de maladies génétiques rares, car quelques mutations faux-sens, voire une seule, peuvent directement provoquer la maladie.

En outre, ils sont importants pour étudier des maladies complexes, telles que le diabète de type II, qui peuvent être provoquées par de nombreux types différents de variantes génétiques.

Par conséquent, la classification des mutations faux-sens est une étape importante pour comprendre quels changements protéiques peuvent contribuer à la maladie.

Sur les plus de 4 millions de mutations faux-sens apparues chez l’homme, seules 2 % ont été qualifiées par les experts de pathogènes ou bénignes.

Cela ne représente qu’environ 0,1 % de l’ensemble des 71 millions de mutations faux-sens possibles.

Les mutations restantes ont été classées comme « mutations de signification inconnue » en raison du manque de données expérimentales ou cliniques sur les effets pertinents.

Mais avec AlphaMissense, nous avons obtenu l’image la plus claire à ce jour des effets de la mutation :

AlphaMissense peut classer 89 % des mutations avec un seuil de précision de 90 % dans une base de données de mutations de maladies connues.

Construit sur la base d'AlphaFold, inspiré du grand modèle ChatGPT

Alors, comment AlphaMissense est-il construit exactement ?

Depuis leur sortie, AlphaFold et AlphaFold 2 ont prédit la structure de presque toutes les protéines connues de la science à partir de leurs séquences d'acides aminés, soit plus de 200 millions de protéines.

À cet égard, les chercheurs de Google ont adapté le modèle basé sur AlphaFold (ci-après dénommé AF), afin de pouvoir prédire le pouvoir pathogène des mutations faux-sens qui modifient un seul acide aminé dans une protéine.

En termes simples, le principe de fonctionnement d'AlphaMissense est le suivant : prendre une séquence d'acides aminés comme entrée et prédire le pouvoir pathogène de tous les changements possibles d'un seul acide aminé à une position donnée dans la séquence.

Afin de former le modèle AlphaMissense, il doit être réalisé en deux étapes :

La première phase

Entraînez un réseau neuronal de la même manière que AF. Ce réseau de neurones s'inspire de grands modèles comme ChatGPT.

En prédisant l'identité des acides aminés masqués à des positions aléatoires dans des alignements de séquences multiples (MSA), il permet la prédiction de la structure à chaîne unique, ainsi que la modélisation du langage protéique.

Les chercheurs ont apporté quelques modifications architecturales mineures à l'AF et ont augmenté les poids de perte pour la modélisation du langage protéique, tout en obtenant des performances de prédiction de structure comparables à celles de l'AF.

Après la pré-formation, la tête de modélisation du langage masqué peut déjà être utilisée pour la prédiction de l'effet de mutation en calculant le rapport de vraisemblance entre l'acide aminé de référence et les probabilités d'acides aminés alternatifs, comme dans MSA Transformer et Evolutionary Scaling Modeling (EMS).

Ces réseaux neuronaux se sont révélés efficaces pour prédire les structures protéiques et concevoir de nouvelles protéines, et sont particulièrement utiles pour la prédiction de variantes car ils savent déjà quelles séquences sont crédibles et lesquelles ne le sont pas.

Deuxième étape

À ce stade, les chercheurs ont affiné le modèle sur les protéines humaines, défini des séquences de mutation pour la deuxième ligne de MSA et ajouté des cibles de classification de pathogénicité variable.

Suivez ensuite la méthode PrimateAI pour étiqueter les mutations dans les populations humaines et primates.

Les mutations courantes sont considérées comme bénignes et les mutations inédites sont considérées comme pathogènes.

Une fois que le modèle a commencé à surajuster l’ensemble de validation (2 526 variantes Clin, avec un nombre égal de variantes bénignes et pathogènes par gène), les chercheurs ont arrêté la formation.

Cependant, AlphaMissense ne prédit pas les changements dans la structure des protéines suite à des mutations ou à d’autres effets sur la stabilité des protéines.

Au lieu de cela, il utilise « l’intuition » d’AlphaFold sur la structure pour identifier d’éventuelles mutations pathogènes dans les protéines.

Plus précisément, une base de données de séquences protéiques pertinente et les informations de contexte structurel de la mutation sont utilisées pour générer un score continu compris entre 0 et 1 afin de se rapprocher de la probabilité pathogénique de la mutation.

Ce score continu permet aux utilisateurs de sélectionner un seuil pour classer les mutations comme pathogènes ou bénignes, en fonction de leurs exigences de précision.

Comment AlphaMissense classe les mutations faux-sens humaines

En évaluation expérimentale, AlphaMissense a réalisé des prédictions de pointe sur un large éventail de références génétiques et expérimentales, le tout sans nécessiter de formation explicite sur ces données.

AlphaMissense surpasse les autres méthodes de calcul lors de la classification des variantes de Clin. Clin est une archive de données publiques sur la relation entre les variations humaines et la maladie.

AlphaMissense était également le moyen le plus précis de prédire les résultats de laboratoire, ce qui suggère qu'il était cohérent avec différentes méthodes de mesure de la pathogénicité.

AlphaMissense surpasse les autres méthodes informatiques pour prédire les effets des variantes faux-sens

L'IA change la génétique

Il y a un an, Google DeepMind a publié 200 millions de structures protéiques prédites à l'aide d'AlphaFold.

Cette initiative a aidé des millions de scientifiques du monde entier à accélérer leurs recherches et à ouvrir la voie à de nouvelles découvertes.

Aujourd'hui, AlphaMissense, basé sur AlphaFold, a encore approfondi la compréhension mondiale des protéines en retraçant l'origine de l'ADN.

Encore une fois, une étape clé dans la traduction de ces recherches est la collaboration avec la communauté scientifique.

Google DeenpMind a travaillé avec Genomics England pour explorer comment les prédictions d'AlphaMissense peuvent aider à étudier la génétique des maladies rares.

Genome England a croisé les découvertes d'AlphaMissense avec des données précédemment compilées sur la pathogénicité des mutations humaines connues.

Les résultats de l'évaluation sont cohérents avec les prédictions d'AlphaMissense, ce qui fournit à AlphaMissense une référence dans le monde réel.

Google DeepMind a publié une table de recherche de mutations faux-sens et partagé des prédictions élargies de toutes les substitutions possibles de séquences d'acides aminés uniques dans plus de 19 000 protéines humaines.

Les données publiées comprennent également une valeur moyenne prévue pour chaque gène, qui est similaire à une mesure des contraintes évolutives d'un gène, indiquant l'importance de ce gène pour la survie d'un organisme.

Exemples prédits par AlphaMissense superposés aux structures prédites par AlphaFold

(Rouge = prédit pathogène, bleu = prédit bénin, gris = incertain)

À gauche : sous-unité bêta-hémoglobine (protéine HBB). Les variations de cette protéine peuvent provoquer une drépanocytose.

À droite : Protéine régulatrice de la conductance transmembranaire de la mucoviscidose (protéine CFTR). Des variations de cette protéine peuvent conduire à la mucoviscidose.

De plus, Google DeepMind a également coopéré avec EMBL-EBI. Grâce au prédicteur d’effet de mutation Ensembl, les chercheurs appliqueront plus facilement les résultats de prédiction d’AlphaMissense.

On pense que dans un avenir proche, AlphaMissense aidera à résoudre les problèmes fondamentaux de la génomique et de l’ensemble des sciences biologiques.

Les références:

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)