出典: 新志源 画像ソース: Unbounded AI によって生成タンパク質予測モデル AlphaFold が AI の世界に津波レベルの波を引き起こした後、Alpha ファミリーは新たな成り上がりの先駆けとなりました。本日、Google DeepMind は、7,100 万の「ミスセンス変異」を予測できる新しい AI モデル、AlphaMissense をリリースしました。具体的には、AlphaMissense によって予測に成功した 89% の「ミスセンス変異」のうち、57% が病原性、32% が良性でした。 用紙のアドレス:人間の専門家によって確認できる変異はわずか 0.1% です。研究者がその考えられる影響をよりよく理解するために、Google はまた、数千万の「ミスセンス変異」のカタログ全体を公開しました。根本的な原因を発見することは、長い間、人類の遺伝学における最大の課題の 1 つでした。 ミスセンス変異は、「ヒトタンパク質」の機能に影響を与える可能性のある遺伝子変異であり、嚢胞性線維症、鎌状赤血球貧血、がんなどの疾患を引き起こす可能性があります。AlphaMissense の誕生は、医療分野、特に遺伝学における AI の大きな可能性を示しています。遺伝子変異と病気の関係を理解し、標的薬物治療を開発する上で非常に重要です。AlphaFold に続いて、AlphaMissense は世界を変えることができる AI になる可能性があり、人類の遺伝学の問題を克服することが期待されています。 **「ミスセンス変異」とは何ですか? **##ミスセンス変異は、生物医学および分子生物学の分野でタンパク質をコードする遺伝子を説明するために使用される遺伝子変異です。DNA 内の 1 文字を置換すると、タンパク質内に異なるアミノ酸が生成されます。DNA を言語と考えると、単一の文字を置き換えるだけで単語が変わり、文の意味が完全に変わってしまいます。この場合、DNA の変化によりアミノ酸の変化が生じ、タンパク質の機能に影響を与えます。 平均的な人は 9,000 個以上のミスセンス変異を持っています。一般に、これらのミスセンス変異のほとんどは良性であり、人体への影響はほとんどありません。しかし、残りの少数は病原性があり、タンパク質の機能を著しく破壊する可能性があります。ミスセンス突然変異は、少数または単一のミスセンス突然変異が病気を直接引き起こす可能性があるため、稀な遺伝性疾患の診断に使用できます。さらに、多くの異なるタイプの遺伝的変異によって引き起こされる可能性がある II 型糖尿病などの複雑な疾患を研究するためにも重要です。 したがって、ミスセンス変異を分類することは、どのタンパク質の変化が疾患に寄与するかを理解する上で重要なステップとなります。ヒトに出現した400万以上のミスセンス突然変異のうち、専門家によって病原性または良性と分類されたのはわずか2%だけです。これは、起こり得る 7,100 万個のミスセンス変異の約 0.1% にすぎません。 残りの変異は、関連する影響に関する実験または臨床データが不足しているため、「重要性が不明な変異」として分類されました。しかし、AlphaMissense を使用すると、突然変異の影響についてこれまでで最も明確な画像が得られました。AlphaMissense は、既知の疾患変異のデータベースにおいて、90% の閾値精度で変異の 89% を分類できます。 **ChatGPT 大型モデルからインスピレーションを受け、AlphaFold に基づいて構築されました**##では、AlphaMissense は正確にどのように構築されているのでしょうか?AlphaFold と AlphaFold 2 は、リリース以来、アミノ酸配列から科学的に知られているほぼすべてのタンパク質 (2 億個以上のタンパク質) の構造を予測してきました。この点に関して、Googleの研究者らは、AlphaFold(以下、AF)に基づくモデルを適応させ、タンパク質内の単一アミノ酸を変化させるミスセンス変異の病原性を予測できるようにした。 簡単に言うと、AlphaMissense の全体的な動作原理は、アミノ酸配列を入力として受け取り、配列内の特定の位置で考えられるすべての単一アミノ酸変化の病原性を予測することです。AlphaMissense モデルをトレーニングするには、次の 2 段階で実行する必要があります。**最初のステージ**AF と同じようにニューラル ネットワークをトレーニングします。このニューラル ネットワークは、ChatGPT のような大規模モデルからインスピレーションを得ています。多重配列アラインメント (MSA) でランダムな位置でマスクされたアミノ酸の正体を予測することで、単鎖構造の予測やタンパク質言語モデリングが可能になります。研究者らは、AF に若干のアーキテクチャ変更を加え、タンパク質言語モデリングの損失重みを増やしながら、AF と同等の構造予測パフォーマンスを達成しました。事前トレーニング後、マスクされた言語モデリング ヘッドは、MSA トランスフォーマーや進化的スケーリング モデリング (EMS) のように、参照アミノ酸と代替アミノ酸の確率の間の対数尤度比を計算することにより、変異効果の予測にすでに使用できます。これらのニューラル ネットワークは、タンパク質構造の予測と新しいタンパク質の設計に優れていることが証明されており、どの配列が信頼できるか、どの配列がそうでないかをすでに知っているため、変異体の予測に特に役立ちます。**第2段**この段階で、研究者らはヒトタンパク質のモデルを微調整し、MSA の 2 番目の系統の変異配列を設定し、変異体の病原性分類ターゲットを追加しました。次に、PrimateAI の方法に従って、ヒトおよび霊長類の集団における変異をラベルします。一般的な突然変異は良性であると考えられ、これまでに見たことのない突然変異は病原性であると考えられます。モデルが検証セット (遺伝子あたりの良性バリアントと病原性バリアントの数が等しい 2,526 個の Clin バリアント) にオーバーフィットし始めると、研究者たちはトレーニングを中止しました。 ただし、AlphaMissense は、突然変異やタンパク質の安定性に対するその他の影響に伴うタンパク質構造の変化を予測しません。代わりに、AlphaFold の構造に関する「直観」を利用して、タンパク質の病気の原因となる可能性のある変異を特定します。具体的には、関連するタンパク質配列データベースと変異の構造コンテキスト情報を使用して、0 から 1 までの連続スコアを生成し、変異の病原性確率を近似します。この連続スコアにより、ユーザーは精度要件に応じて、突然変異を病原性または良性として分類するためのしきい値を選択できます。 AlphaMissense がヒトのミスセンス変異を分類する方法実験的評価において、AlphaMissense は、そのようなデータに対する明示的なトレーニングを必要とせずに、幅広い遺伝的および実験的ベンチマークにわたって最先端の予測を達成しました。AlphaMissense は、Clin からのバリアントを分類する際に他の計算手法よりも優れたパフォーマンスを発揮します。 Clin は、人間の多様性と病気の関係に関する公開データ アーカイブです。AlphaMissense は検査結果を予測する最も正確な方法でもあり、これが病原性を測定するさまざまな方法と一致していることを示唆しています。 AlphaMissense は、ミスセンス バリアント効果の予測において他の計算手法を上回ります。**AI は遺伝学を変える**##1 年前、Google DeepMind は、AlphaFold を使用して予測された 2 億個のタンパク質構造を発表しました。この取り組みは、世界中の何百万人もの科学者が研究を加速し、新たな発見への道を切り開くのに役立ちました。現在、AlphaFold をベースとした AlphaMissense は、DNA の起源をたどることで、タンパク質に対する世界の理解をさらに深めています。繰り返しになりますが、この研究を翻訳するための重要なステップは、科学コミュニティとの協力です。Google DeenpMind は Genomics England と協力して、AlphaMissense の予測が希少疾患の遺伝学の研究にどのように役立つかを調査してきました。Genome England は、AlphaMissense の発見を、既知のヒト変異の病原性について以前にまとめられたデータと相互参照しました。 評価結果は、AlphaMissense に現実世界のベンチマークを提供する AlphaMissense の予測と一致しています。Google DeepMind は、ミスセンス変異のルックアップ テーブルを公開し、19,000 以上のヒトタンパク質における考えられる 2 億 1,600 万個の単一アミノ酸配列置換すべての拡張予測を共有しました。公開されたデータには、各遺伝子の平均予測値も含まれており、これは遺伝子の進化的制約の尺度に似ており、その遺伝子が生物の生存にとってどれほど重要であるかを示します。 AlphaMissense によって予測された例を、AlphaFold によって予測された構造に重ね合わせたもの(赤 = 病原性であると予測、青 = 良性であると予測、灰色 = 不確か)左: ベータヘモグロビン サブユニット (HBB タンパク質)。このタンパク質の変異は鎌状赤血球貧血を引き起こす可能性があります。右: 嚢胞性線維症の膜貫通コンダクタンス調節タンパク質 (CFTR タンパク質)。このタンパク質の変異は嚢胞性線維症を引き起こす可能性があります。さらに、Google DeepMind も EMBL-EBI と協力しています。 Ensembl 変異効果予測ツールを使用すると、研究者は AlphaMissense の予測結果をより簡単に適用できるようになります。近い将来、AlphaMissense はゲノミクスおよび生物学全体の中核問題の解決に役立つと考えられています。参考文献:
ChatGPT に触発されて、Google DeepMind は 7,100 万の遺伝子変異を予測しています。 AIが科学で人間の遺伝子の遺伝暗号を解読
出典: 新志源
タンパク質予測モデル AlphaFold が AI の世界に津波レベルの波を引き起こした後、Alpha ファミリーは新たな成り上がりの先駆けとなりました。
本日、Google DeepMind は、7,100 万の「ミスセンス変異」を予測できる新しい AI モデル、AlphaMissense をリリースしました。
具体的には、AlphaMissense によって予測に成功した 89% の「ミスセンス変異」のうち、57% が病原性、32% が良性でした。
人間の専門家によって確認できる変異はわずか 0.1% です。
研究者がその考えられる影響をよりよく理解するために、Google はまた、数千万の「ミスセンス変異」のカタログ全体を公開しました。
根本的な原因を発見することは、長い間、人類の遺伝学における最大の課題の 1 つでした。
AlphaMissense の誕生は、医療分野、特に遺伝学における AI の大きな可能性を示しています。
遺伝子変異と病気の関係を理解し、標的薬物治療を開発する上で非常に重要です。
AlphaFold に続いて、AlphaMissense は世界を変えることができる AI になる可能性があり、人類の遺伝学の問題を克服することが期待されています。
ミスセンス変異は、生物医学および分子生物学の分野でタンパク質をコードする遺伝子を説明するために使用される遺伝子変異です。
DNA 内の 1 文字を置換すると、タンパク質内に異なるアミノ酸が生成されます。
DNA を言語と考えると、単一の文字を置き換えるだけで単語が変わり、文の意味が完全に変わってしまいます。
この場合、DNA の変化によりアミノ酸の変化が生じ、タンパク質の機能に影響を与えます。
一般に、これらのミスセンス変異のほとんどは良性であり、人体への影響はほとんどありません。しかし、残りの少数は病原性があり、タンパク質の機能を著しく破壊する可能性があります。
ミスセンス突然変異は、少数または単一のミスセンス突然変異が病気を直接引き起こす可能性があるため、稀な遺伝性疾患の診断に使用できます。
さらに、多くの異なるタイプの遺伝的変異によって引き起こされる可能性がある II 型糖尿病などの複雑な疾患を研究するためにも重要です。
ヒトに出現した400万以上のミスセンス突然変異のうち、専門家によって病原性または良性と分類されたのはわずか2%だけです。
これは、起こり得る 7,100 万個のミスセンス変異の約 0.1% にすぎません。
しかし、AlphaMissense を使用すると、突然変異の影響についてこれまでで最も明確な画像が得られました。
AlphaMissense は、既知の疾患変異のデータベースにおいて、90% の閾値精度で変異の 89% を分類できます。
では、AlphaMissense は正確にどのように構築されているのでしょうか?
AlphaFold と AlphaFold 2 は、リリース以来、アミノ酸配列から科学的に知られているほぼすべてのタンパク質 (2 億個以上のタンパク質) の構造を予測してきました。
この点に関して、Googleの研究者らは、AlphaFold(以下、AF)に基づくモデルを適応させ、タンパク質内の単一アミノ酸を変化させるミスセンス変異の病原性を予測できるようにした。
AlphaMissense モデルをトレーニングするには、次の 2 段階で実行する必要があります。
最初のステージ
AF と同じようにニューラル ネットワークをトレーニングします。このニューラル ネットワークは、ChatGPT のような大規模モデルからインスピレーションを得ています。
多重配列アラインメント (MSA) でランダムな位置でマスクされたアミノ酸の正体を予測することで、単鎖構造の予測やタンパク質言語モデリングが可能になります。
研究者らは、AF に若干のアーキテクチャ変更を加え、タンパク質言語モデリングの損失重みを増やしながら、AF と同等の構造予測パフォーマンスを達成しました。
事前トレーニング後、マスクされた言語モデリング ヘッドは、MSA トランスフォーマーや進化的スケーリング モデリング (EMS) のように、参照アミノ酸と代替アミノ酸の確率の間の対数尤度比を計算することにより、変異効果の予測にすでに使用できます。
これらのニューラル ネットワークは、タンパク質構造の予測と新しいタンパク質の設計に優れていることが証明されており、どの配列が信頼できるか、どの配列がそうでないかをすでに知っているため、変異体の予測に特に役立ちます。
第2段
この段階で、研究者らはヒトタンパク質のモデルを微調整し、MSA の 2 番目の系統の変異配列を設定し、変異体の病原性分類ターゲットを追加しました。
次に、PrimateAI の方法に従って、ヒトおよび霊長類の集団における変異をラベルします。
一般的な突然変異は良性であると考えられ、これまでに見たことのない突然変異は病原性であると考えられます。
モデルが検証セット (遺伝子あたりの良性バリアントと病原性バリアントの数が等しい 2,526 個の Clin バリアント) にオーバーフィットし始めると、研究者たちはトレーニングを中止しました。
代わりに、AlphaFold の構造に関する「直観」を利用して、タンパク質の病気の原因となる可能性のある変異を特定します。
具体的には、関連するタンパク質配列データベースと変異の構造コンテキスト情報を使用して、0 から 1 までの連続スコアを生成し、変異の病原性確率を近似します。
この連続スコアにより、ユーザーは精度要件に応じて、突然変異を病原性または良性として分類するためのしきい値を選択できます。
実験的評価において、AlphaMissense は、そのようなデータに対する明示的なトレーニングを必要とせずに、幅広い遺伝的および実験的ベンチマークにわたって最先端の予測を達成しました。
AlphaMissense は、Clin からのバリアントを分類する際に他の計算手法よりも優れたパフォーマンスを発揮します。 Clin は、人間の多様性と病気の関係に関する公開データ アーカイブです。
AlphaMissense は検査結果を予測する最も正確な方法でもあり、これが病原性を測定するさまざまな方法と一致していることを示唆しています。
AI は遺伝学を変える
1 年前、Google DeepMind は、AlphaFold を使用して予測された 2 億個のタンパク質構造を発表しました。
この取り組みは、世界中の何百万人もの科学者が研究を加速し、新たな発見への道を切り開くのに役立ちました。
現在、AlphaFold をベースとした AlphaMissense は、DNA の起源をたどることで、タンパク質に対する世界の理解をさらに深めています。
繰り返しになりますが、この研究を翻訳するための重要なステップは、科学コミュニティとの協力です。
Google DeenpMind は Genomics England と協力して、AlphaMissense の予測が希少疾患の遺伝学の研究にどのように役立つかを調査してきました。
Genome England は、AlphaMissense の発見を、既知のヒト変異の病原性について以前にまとめられたデータと相互参照しました。
Google DeepMind は、ミスセンス変異のルックアップ テーブルを公開し、19,000 以上のヒトタンパク質における考えられる 2 億 1,600 万個の単一アミノ酸配列置換すべての拡張予測を共有しました。
公開されたデータには、各遺伝子の平均予測値も含まれており、これは遺伝子の進化的制約の尺度に似ており、その遺伝子が生物の生存にとってどれほど重要であるかを示します。
(赤 = 病原性であると予測、青 = 良性であると予測、灰色 = 不確か)
左: ベータヘモグロビン サブユニット (HBB タンパク質)。このタンパク質の変異は鎌状赤血球貧血を引き起こす可能性があります。
右: 嚢胞性線維症の膜貫通コンダクタンス調節タンパク質 (CFTR タンパク質)。このタンパク質の変異は嚢胞性線維症を引き起こす可能性があります。
さらに、Google DeepMind も EMBL-EBI と協力しています。 Ensembl 変異効果予測ツールを使用すると、研究者は AlphaMissense の予測結果をより簡単に適用できるようになります。
近い将来、AlphaMissense はゲノミクスおよび生物学全体の中核問題の解決に役立つと考えられています。
参考文献: