Inspirado no ChatGPT, o Google DeepMind prevê 71 milhões de mutações genéticas! IA decifra o código genético dos genes humanos na Ciência

Fonte original: Xinzhiyuan

Fonte da imagem: gerada por Unbounded AI‌

Depois que o modelo de previsão de proteínas AlphaFold desencadeou uma onda de tsunami no mundo da IA, a família Alpha deu início a um novo empreendimento.

Hoje, o Google DeepMind lançou um novo modelo de IA – AlphaMissense, que pode prever 71 milhões de “mutações sem sentido”.

Especificamente, das 89% de “mutações missense” previstas com sucesso pelo AlphaMissense, 57% eram patogênicas e 32% eram benignas.

Endereço do papel:

Apenas 0,1% das mutações podem ser confirmadas por especialistas humanos.

Para que os investigadores possam compreender melhor o seu possível impacto, o Google também tornou público todo o catálogo de dezenas de milhões de “mutações sem sentido”.

Descobrir a causa subjacente tem sido um dos maiores desafios da genética humana.

Mutações missense são mutações genéticas que podem afetar a função de "proteínas humanas" e podem levar a doenças como fibrose cística, anemia falciforme e câncer.

O nascimento do AlphaMissense demonstra o enorme potencial da IA na área médica, especialmente na genética.

É de grande importância para a compreensão da relação entre variação genética e doenças e para o desenvolvimento de tratamentos medicamentosos direcionados.

Seguindo AlphaFold, AlphaMissense pode se tornar uma IA que pode mudar o mundo e espera-se que supere os problemas da genética humana!

**O que é uma "mutação sem sentido"? **

Mutação missense é uma mutação genética usada nas áreas de biomedicina e biologia molecular para descrever genes codificadores de proteínas:

A substituição de uma única letra no DNA resulta em um aminoácido diferente em uma proteína.

Se pensarmos no DNA como uma linguagem, então a substituição de uma única letra pode mudar uma palavra e mudar completamente o significado de uma frase.

Neste caso, alterações no DNA levam a alterações nos aminoácidos que afetam a função da proteína.

Uma pessoa média carrega mais de 9.000 mutações missense.

De modo geral, a maioria dessas mutações missense são benignas e têm pouco impacto no corpo humano. Mas os poucos restantes são patogênicos e podem perturbar gravemente a função das proteínas.

Mutações missense podem ser usadas para o diagnóstico de doenças genéticas raras, porque algumas ou mesmo uma única mutação missense podem causar diretamente a doença.

Além disso, são importantes para o estudo de doenças complexas, como o diabetes tipo II, que pode ser causado por diversos tipos de variantes genéticas.

Portanto, classificar mutações missense é um passo importante na compreensão de quais alterações proteicas podem contribuir para a doença.

Das mais de 4 milhões de mutações missense que apareceram em humanos, apenas 2% foram rotuladas pelos especialistas como patogênicas ou benignas.

Isto representa apenas cerca de 0,1% de todas as 71 milhões de mutações missense possíveis.

As restantes mutações foram classificadas como “mutações de significado desconhecido” devido à falta de dados experimentais ou clínicos sobre efeitos relevantes.

Mas com AlphaMissense, obtivemos a imagem mais clara dos efeitos da mutação:

AlphaMissense pode classificar 89% das mutações com uma precisão limite de 90% em um banco de dados de mutações de doenças conhecidas.

Construído com base no AlphaFold, inspirado no modelo grande ChatGPT

Então, como exatamente o AlphaMissense é construído?

Desde o seu lançamento, AlphaFold e AlphaFold 2 previram a estrutura de quase todas as proteínas conhecidas pela ciência a partir de suas sequências de aminoácidos, mais de 200 milhões de proteínas.

Nesse sentido, os pesquisadores do Google adaptaram o modelo baseado no AlphaFold (doravante denominado AF), para que possam prever a patogenicidade de mutações missense que alteram um único aminoácido em uma proteína.

Simplificando, todo o princípio de funcionamento do AlphaMissense é: tomar uma sequência de aminoácidos como entrada e prever a patogenicidade de todas as possíveis alterações de aminoácidos individuais em uma determinada posição na sequência.

Para treinar o modelo AlphaMissense, ele precisa ser realizado em duas etapas:

O primeiro estágio

Treine uma rede neural da mesma forma que AF. Esta rede neural é inspirada em grandes modelos como ChatGPT.

Ao prever a identidade de aminoácidos mascarados em posições aleatórias em alinhamentos de múltiplas sequências (MSA), permite a previsão da estrutura de cadeia única, bem como a modelagem da linguagem das proteínas.

Os pesquisadores fizeram algumas pequenas modificações arquitetônicas no AF e aumentaram os pesos de perda para modelagem de linguagem de proteínas, ao mesmo tempo em que obtiveram desempenho de previsão de estrutura comparável ao AF.

Após o pré-treinamento, o cabeçote de modelagem de linguagem mascarada já pode ser usado para previsão do efeito de mutação calculando a razão de log-verossimilhança entre o aminoácido de referência e as probabilidades de aminoácidos alternativos, como no MSA Transformer e Evolutionary Scaling Modeling (EMS).

Essas redes neurais provaram ser boas na previsão de estruturas proteicas e no projeto de novas proteínas, e são especialmente úteis para a previsão de variantes porque já sabem quais sequências são confiáveis e quais não são.

segundo estágio

Nesta fase, os investigadores aperfeiçoaram o modelo em proteínas humanas, definiram sequências de mutação para a segunda linha de MSA e adicionaram alvos de classificação de patogenicidade variante.

Em seguida, siga o método do PrimateAI para rotular mutações em populações humanas e de primatas.

Mutações comuns são consideradas benignas e mutações nunca antes vistas são consideradas patogênicas.

Assim que o modelo começou a ajustar-se ao conjunto de validação (2.526 variantes de Clin, com números iguais de variantes benignas e patogénicas por gene), os investigadores interromperam o treino.

No entanto, o AlphaMissense não prevê alterações na estrutura da proteína após mutações ou outros efeitos na estabilidade da proteína.

Em vez disso, ele usa a “intuição” do AlphaFold sobre a estrutura para identificar possíveis mutações causadoras de doenças nas proteínas.

Especificamente, uma base de dados de sequências proteicas relevantes e a informação de contexto estrutural da mutação são utilizadas para gerar uma pontuação contínua entre 0 e 1 para aproximar a probabilidade patogénica da mutação.

Essa pontuação contínua permite que os usuários selecionem um limite para classificar as mutações como patogênicas ou benignas, dependendo de seus requisitos de precisão.

Como AlphaMissense classifica mutações missense humanas

Na avaliação experimental, o AlphaMissense alcançou previsões de última geração em uma ampla gama de benchmarks genéticos e experimentais, tudo sem exigir treinamento explícito em tais dados.

AlphaMissense supera outros métodos computacionais ao classificar variantes do Clin. Clin é um arquivo público de dados sobre a relação entre a variação humana e as doenças.

O AlphaMissense também foi a forma mais precisa de prever resultados laboratoriais, sugerindo que era consistente com diferentes formas de medir a patogenicidade.

AlphaMissense supera outros métodos computacionais na previsão de efeitos de variantes missense

IA muda a genética

Há um ano, o Google DeepMind divulgou 200 milhões de estruturas de proteínas previstas usando AlphaFold.

Esta iniciativa ajudou milhões de cientistas em todo o mundo a acelerar a investigação e abriu caminho a novas descobertas.

Agora, o AlphaMissense, baseado no AlphaFold, aprofundou ainda mais a compreensão mundial das proteínas, rastreando a origem do DNA.

Mais uma vez, um passo fundamental na tradução desta investigação é a colaboração com a comunidade científica.

O Google DeenpMind tem trabalhado com a Genomics England para explorar como as previsões da AlphaMissense podem ajudar a estudar a genética de doenças raras.

A Genome England cruzou as descobertas da AlphaMissense com dados previamente compilados sobre a patogenicidade de mutações humanas conhecidas.

Os resultados da avaliação são consistentes com as previsões da AlphaMissense, o que fornece à AlphaMissense uma referência do mundo real.

O Google DeepMind publicou uma tabela de pesquisa de mutações missense e compartilhou previsões expandidas de todas as possíveis 216 milhões de substituições de sequências de aminoácidos únicos em mais de 19.000 proteínas humanas.

Os dados publicados também incluem um valor médio previsto para cada gene, que é semelhante a uma medida das restrições evolutivas de um gene, indicando a importância desse gene para a sobrevivência de um organismo.

Exemplos previstos pelo AlphaMissense sobrepostos a estruturas previstas pelo AlphaFold

(Vermelho = previsto como patogênico, azul = previsto como benigno, cinza = incerto)

Esquerda: subunidade beta-hemoglobina (proteína HBB). Variações nesta proteína podem causar anemia falciforme.

À direita: proteína reguladora de condutância transmembrana da fibrose cística (proteína CFTR). Variações nesta proteína podem levar à fibrose cística.

Além disso, o Google DeepMind também cooperou com o EMBL-EBI. Através do preditor de efeito de mutação Ensembl, os pesquisadores aplicarão mais facilmente os resultados de previsão do AlphaMissense.

Acredita-se que, num futuro próximo, o AlphaMissense ajudará a resolver problemas centrais da genômica e de todas as ciências biológicas.

Referências:

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)