Sau khi mô hình dự đoán protein AlphaFold gây ra làn sóng cấp độ sóng thần trong thế giới AI, gia đình Alpha đã mở ra một công ty khởi nghiệp mới.
Hôm nay, Google DeepMind đã phát hành mô hình AI mới-AlphaMissense, có thể dự đoán 71 triệu "đột biến tên lửa".
Cụ thể, trong số 89% “đột biến tên lửa” được AlphaMissense dự đoán thành công, có 57% là đột biến gây bệnh và 32% là lành tính.
Địa chỉ giấy:
Chỉ có 0,1% đột biến có thể được các chuyên gia về con người xác nhận.
Để các nhà nghiên cứu hiểu rõ hơn về tác động có thể có của nó, Google cũng đã công khai toàn bộ danh mục hàng chục triệu "đột biến tên lửa".
Khám phá nguyên nhân cơ bản từ lâu đã là một trong những thách thức lớn nhất trong di truyền học của con người.
Đột biến sai nghĩa là đột biến gen có thể ảnh hưởng đến chức năng của "protein của con người" và có thể dẫn đến các bệnh như xơ nang, thiếu máu hồng cầu hình liềm và ung thư.
Sự ra đời của AlphaMissense chứng tỏ tiềm năng to lớn của AI trong lĩnh vực y tế, đặc biệt là di truyền học.
Nó có ý nghĩa rất lớn trong việc tìm hiểu mối quan hệ giữa biến thể di truyền và bệnh tật cũng như phát triển các phương pháp điều trị bằng thuốc nhắm mục tiêu.
Tiếp nối AlphaFold, AlphaMissense có thể trở thành một AI có thể thay đổi thế giới và được kỳ vọng sẽ khắc phục được các vấn đề về di truyền của con người!
**"Đột biến tên lửa" là gì? **
Đột biến sai nghĩa là đột biến gen được sử dụng trong lĩnh vực y sinh và sinh học phân tử để mô tả các gen mã hóa protein:
Việc thay thế một chữ cái trong DNA sẽ tạo ra một axit amin khác trong protein.
Nếu bạn coi DNA như một ngôn ngữ, thì việc thay thế một chữ cái có thể thay đổi một từ và thay đổi hoàn toàn ý nghĩa của một câu.
Trong trường hợp này, những thay đổi ở DNA dẫn đến những thay đổi về axit amin ảnh hưởng đến chức năng của protein.
Một người bình thường mang hơn 9.000 đột biến tên lửa.
Nói chung, hầu hết các đột biến tên lửa này đều lành tính và ít ảnh hưởng đến cơ thể con người. Nhưng một số ít còn lại gây bệnh và có thể phá vỡ nghiêm trọng chức năng của protein.
Đột biến sai nghĩa có thể được sử dụng để chẩn đoán các bệnh di truyền hiếm gặp vì một số hoặc thậm chí một đột biến sai nghĩa có thể trực tiếp gây ra bệnh.
Ngoài ra, chúng còn quan trọng trong việc nghiên cứu các bệnh phức tạp, chẳng hạn như bệnh tiểu đường loại II, có thể do nhiều loại biến thể di truyền khác nhau gây ra.
Do đó, phân loại đột biến tên lửa là một bước quan trọng để hiểu những thay đổi protein nào có thể góp phần gây ra bệnh tật.
Trong số hơn 4 triệu đột biến tên lửa xuất hiện ở người, chỉ có 2% được các chuyên gia cho là gây bệnh hoặc lành tính.
Điều này chỉ chiếm khoảng 0,1% trong tổng số 71 triệu đột biến tên lửa có thể xảy ra.
Các đột biến còn lại được phân loại là "đột biến không rõ ý nghĩa" do thiếu dữ liệu thực nghiệm hoặc lâm sàng về các tác động liên quan.
Nhưng với AlphaMissense, chúng tôi đã có được hình ảnh rõ ràng nhất về tác động của đột biến:
AlphaMissense có thể phân loại 89% đột biến với độ chính xác ngưỡng 90% trong cơ sở dữ liệu về các đột biến bệnh đã biết.
Được xây dựng dựa trên AlphaFold, lấy cảm hứng từ mô hình lớn ChatGPT
Vậy chính xác thì AlphaMissense được xây dựng như thế nào?
Kể từ khi phát hành, AlphaFold và AlphaFold 2 đã dự đoán cấu trúc của hầu hết các protein được khoa học biết đến từ trình tự axit amin của chúng, hơn 200 triệu protein.
Về vấn đề này, các nhà nghiên cứu của Google đã điều chỉnh mô hình dựa trên AlphaFold (sau đây gọi là AF), để họ có thể dự đoán khả năng gây bệnh của các đột biến tên lửa làm thay đổi một axit amin duy nhất trong protein.
Nói một cách đơn giản, toàn bộ nguyên tắc hoạt động của AlphaMissense là: lấy trình tự axit amin làm đầu vào và dự đoán khả năng gây bệnh của tất cả các thay đổi axit amin đơn lẻ có thể xảy ra tại một vị trí nhất định trong trình tự.
Để huấn luyện mô hình AlphaMissense, cần thực hiện theo hai giai đoạn:
Giai đoạn đầu tiên
Huấn luyện một mạng lưới thần kinh giống như AF. Mạng lưới thần kinh này được lấy cảm hứng từ các mô hình lớn như ChatGPT.
Bằng cách dự đoán danh tính của các axit amin được che giấu ở các vị trí ngẫu nhiên theo nhiều cách sắp xếp trình tự (MSA), nó cho phép dự đoán cấu trúc chuỗi đơn cũng như mô hình hóa ngôn ngữ protein.
Các nhà nghiên cứu đã thực hiện một số sửa đổi kiến trúc nhỏ đối với AF và tăng trọng số tổn thất cho mô hình ngôn ngữ protein, trong khi vẫn đạt được hiệu suất dự đoán cấu trúc tương đương với AF.
Sau khi đào tạo trước, đầu mô hình hóa ngôn ngữ đeo mặt nạ có thể đã được sử dụng để dự đoán hiệu ứng đột biến bằng cách tính tỷ lệ khả năng ghi nhật ký giữa axit amin tham chiếu và xác suất axit amin thay thế, như trong Máy biến áp MSA và Mô hình quy mô tiến hóa (EMS).
Các mạng lưới thần kinh này đã được chứng minh là rất tốt trong việc dự đoán cấu trúc protein và thiết kế các protein mới, đồng thời đặc biệt hữu ích cho việc dự đoán các biến thể vì chúng đã biết trình tự nào đáng tin cậy và trình tự nào không.
giai đoạn thứ hai
Ở giai đoạn này, các nhà nghiên cứu đã tinh chỉnh mô hình protein của con người, thiết lập trình tự đột biến cho dòng MSA thứ hai và bổ sung các mục tiêu phân loại khả năng gây bệnh của biến thể.
Sau đó, làm theo phương pháp của PrimateAI để dán nhãn các đột biến trong quần thể người và linh trưởng.
Các đột biến phổ biến được coi là lành tính và các đột biến chưa từng thấy trước đây được coi là gây bệnh.
Khi mô hình bắt đầu quá khớp với bộ xác nhận (2.526 biến thể Clin, với số lượng biến thể lành tính và gây bệnh trên mỗi gen bằng nhau), các nhà nghiên cứu đã ngừng đào tạo.
Tuy nhiên, AlphaMissense không dự đoán những thay đổi trong cấu trúc protein sau đột biến hoặc các tác động khác đến sự ổn định của protein.
Thay vào đó, nó sử dụng "trực giác" về cấu trúc của AlphaFold để xác định các đột biến có thể gây bệnh ở protein.
Cụ thể, cơ sở dữ liệu trình tự protein có liên quan và thông tin bối cảnh cấu trúc của đột biến được sử dụng để tạo ra điểm liên tục trong khoảng từ 0 đến 1 nhằm ước tính xác suất gây bệnh của đột biến.
Điểm số liên tục này cho phép người dùng chọn ngưỡng để phân loại đột biến là gây bệnh hoặc lành tính, tùy thuộc vào yêu cầu về độ chính xác của chúng.
Cách AlphaMissense phân loại đột biến tên lửa ở người
Trong đánh giá thử nghiệm, AlphaMissense đã đạt được những dự đoán tiên tiến trên nhiều tiêu chuẩn di truyền và thực nghiệm mà không cần đào tạo rõ ràng về dữ liệu đó.
AlphaMissense vượt trội hơn các phương pháp tính toán khác khi phân loại các biến thể từ Clin. Clin là kho lưu trữ dữ liệu công khai về mối quan hệ giữa sự biến đổi của con người và bệnh tật.
AlphaMissense cũng là cách chính xác nhất để dự đoán kết quả trong phòng thí nghiệm, cho thấy nó phù hợp với các cách đo lường khả năng gây bệnh khác nhau.
AlphaMissense vượt trội hơn các phương pháp tính toán khác trong việc dự đoán hiệu ứng biến thể tên lửa
AI thay đổi di truyền
Một năm trước, Google DeepMind đã phát hành 200 triệu cấu trúc protein được dự đoán bằng AlphaFold.
Sáng kiến này đã giúp hàng triệu nhà khoa học trên thế giới tăng tốc nghiên cứu và mở đường cho những khám phá mới.
Giờ đây, AlphaMissense, dựa trên AlphaFold, đã nâng cao hơn nữa sự hiểu biết của thế giới về protein bằng cách truy tìm nguồn gốc của DNA.
Một lần nữa, một bước quan trọng trong việc thực hiện nghiên cứu này là hợp tác với cộng đồng khoa học.
Google DeenpMind đã hợp tác với Genomics England để khám phá cách dự đoán của AlphaMissense có thể giúp nghiên cứu di truyền của các bệnh hiếm gặp.
Genome England đã tham chiếu chéo những phát hiện của AlphaMissense với dữ liệu được tổng hợp trước đó về khả năng gây bệnh của các đột biến đã biết ở người.
Kết quả đánh giá phù hợp với dự đoán của AlphaMissense, điều này cung cấp cho AlphaMissense một chuẩn mực trong thế giới thực.
Google DeepMind đã xuất bản một bảng tra cứu các đột biến nghĩa và chia sẻ các dự đoán mở rộng về tất cả 216 triệu sự thay thế chuỗi axit amin đơn có thể có trong hơn 19.000 protein của con người.
Dữ liệu được công bố cũng bao gồm giá trị dự đoán trung bình cho mỗi gen, tương tự như thước đo các hạn chế tiến hóa của gen, cho thấy tầm quan trọng của gen đó đối với sự sống sót của sinh vật.
Các ví dụ được AlphaMissense dự đoán được đặt chồng lên các cấu trúc được AlphaFold dự đoán
(Đỏ = được dự đoán là gây bệnh, xanh lam = được dự đoán là lành tính, xám = không chắc chắn)
Bên trái: Tiểu đơn vị Beta-hemoglobin (protein HBB). Sự biến đổi của protein này có thể gây ra bệnh thiếu máu hồng cầu hình liềm.
Phải: Protein điều chỉnh độ dẫn xuyên màng xơ nang (protein CFTR). Sự biến đổi của protein này có thể dẫn đến bệnh xơ nang.
Hơn nữa, Google DeepMind cũng đã hợp tác với EMBL-EBI. Thông qua bộ dự đoán hiệu ứng đột biến Makeembl, các nhà nghiên cứu sẽ dễ dàng áp dụng kết quả dự đoán của AlphaMissense hơn.
Người ta tin rằng trong tương lai gần, AlphaMissense sẽ giúp giải quyết các vấn đề cốt lõi về gen và toàn bộ ngành khoa học sinh học.
Người giới thiệu:
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Lấy cảm hứng từ ChatGPT, Google DeepMind dự đoán 71 triệu đột biến gen! AI giải mã mã di truyền gen người trong Khoa học
Nguồn gốc: Xinzhiyuan
Sau khi mô hình dự đoán protein AlphaFold gây ra làn sóng cấp độ sóng thần trong thế giới AI, gia đình Alpha đã mở ra một công ty khởi nghiệp mới.
Hôm nay, Google DeepMind đã phát hành mô hình AI mới-AlphaMissense, có thể dự đoán 71 triệu "đột biến tên lửa".
Cụ thể, trong số 89% “đột biến tên lửa” được AlphaMissense dự đoán thành công, có 57% là đột biến gây bệnh và 32% là lành tính.
Chỉ có 0,1% đột biến có thể được các chuyên gia về con người xác nhận.
Để các nhà nghiên cứu hiểu rõ hơn về tác động có thể có của nó, Google cũng đã công khai toàn bộ danh mục hàng chục triệu "đột biến tên lửa".
Khám phá nguyên nhân cơ bản từ lâu đã là một trong những thách thức lớn nhất trong di truyền học của con người.
Sự ra đời của AlphaMissense chứng tỏ tiềm năng to lớn của AI trong lĩnh vực y tế, đặc biệt là di truyền học.
Nó có ý nghĩa rất lớn trong việc tìm hiểu mối quan hệ giữa biến thể di truyền và bệnh tật cũng như phát triển các phương pháp điều trị bằng thuốc nhắm mục tiêu.
Tiếp nối AlphaFold, AlphaMissense có thể trở thành một AI có thể thay đổi thế giới và được kỳ vọng sẽ khắc phục được các vấn đề về di truyền của con người!
Đột biến sai nghĩa là đột biến gen được sử dụng trong lĩnh vực y sinh và sinh học phân tử để mô tả các gen mã hóa protein:
Việc thay thế một chữ cái trong DNA sẽ tạo ra một axit amin khác trong protein.
Nếu bạn coi DNA như một ngôn ngữ, thì việc thay thế một chữ cái có thể thay đổi một từ và thay đổi hoàn toàn ý nghĩa của một câu.
Trong trường hợp này, những thay đổi ở DNA dẫn đến những thay đổi về axit amin ảnh hưởng đến chức năng của protein.
Nói chung, hầu hết các đột biến tên lửa này đều lành tính và ít ảnh hưởng đến cơ thể con người. Nhưng một số ít còn lại gây bệnh và có thể phá vỡ nghiêm trọng chức năng của protein.
Đột biến sai nghĩa có thể được sử dụng để chẩn đoán các bệnh di truyền hiếm gặp vì một số hoặc thậm chí một đột biến sai nghĩa có thể trực tiếp gây ra bệnh.
Ngoài ra, chúng còn quan trọng trong việc nghiên cứu các bệnh phức tạp, chẳng hạn như bệnh tiểu đường loại II, có thể do nhiều loại biến thể di truyền khác nhau gây ra.
Trong số hơn 4 triệu đột biến tên lửa xuất hiện ở người, chỉ có 2% được các chuyên gia cho là gây bệnh hoặc lành tính.
Điều này chỉ chiếm khoảng 0,1% trong tổng số 71 triệu đột biến tên lửa có thể xảy ra.
Nhưng với AlphaMissense, chúng tôi đã có được hình ảnh rõ ràng nhất về tác động của đột biến:
AlphaMissense có thể phân loại 89% đột biến với độ chính xác ngưỡng 90% trong cơ sở dữ liệu về các đột biến bệnh đã biết.
Vậy chính xác thì AlphaMissense được xây dựng như thế nào?
Kể từ khi phát hành, AlphaFold và AlphaFold 2 đã dự đoán cấu trúc của hầu hết các protein được khoa học biết đến từ trình tự axit amin của chúng, hơn 200 triệu protein.
Về vấn đề này, các nhà nghiên cứu của Google đã điều chỉnh mô hình dựa trên AlphaFold (sau đây gọi là AF), để họ có thể dự đoán khả năng gây bệnh của các đột biến tên lửa làm thay đổi một axit amin duy nhất trong protein.
Để huấn luyện mô hình AlphaMissense, cần thực hiện theo hai giai đoạn:
Giai đoạn đầu tiên
Huấn luyện một mạng lưới thần kinh giống như AF. Mạng lưới thần kinh này được lấy cảm hứng từ các mô hình lớn như ChatGPT.
Bằng cách dự đoán danh tính của các axit amin được che giấu ở các vị trí ngẫu nhiên theo nhiều cách sắp xếp trình tự (MSA), nó cho phép dự đoán cấu trúc chuỗi đơn cũng như mô hình hóa ngôn ngữ protein.
Các nhà nghiên cứu đã thực hiện một số sửa đổi kiến trúc nhỏ đối với AF và tăng trọng số tổn thất cho mô hình ngôn ngữ protein, trong khi vẫn đạt được hiệu suất dự đoán cấu trúc tương đương với AF.
Sau khi đào tạo trước, đầu mô hình hóa ngôn ngữ đeo mặt nạ có thể đã được sử dụng để dự đoán hiệu ứng đột biến bằng cách tính tỷ lệ khả năng ghi nhật ký giữa axit amin tham chiếu và xác suất axit amin thay thế, như trong Máy biến áp MSA và Mô hình quy mô tiến hóa (EMS).
Các mạng lưới thần kinh này đã được chứng minh là rất tốt trong việc dự đoán cấu trúc protein và thiết kế các protein mới, đồng thời đặc biệt hữu ích cho việc dự đoán các biến thể vì chúng đã biết trình tự nào đáng tin cậy và trình tự nào không.
giai đoạn thứ hai
Ở giai đoạn này, các nhà nghiên cứu đã tinh chỉnh mô hình protein của con người, thiết lập trình tự đột biến cho dòng MSA thứ hai và bổ sung các mục tiêu phân loại khả năng gây bệnh của biến thể.
Sau đó, làm theo phương pháp của PrimateAI để dán nhãn các đột biến trong quần thể người và linh trưởng.
Các đột biến phổ biến được coi là lành tính và các đột biến chưa từng thấy trước đây được coi là gây bệnh.
Khi mô hình bắt đầu quá khớp với bộ xác nhận (2.526 biến thể Clin, với số lượng biến thể lành tính và gây bệnh trên mỗi gen bằng nhau), các nhà nghiên cứu đã ngừng đào tạo.
Thay vào đó, nó sử dụng "trực giác" về cấu trúc của AlphaFold để xác định các đột biến có thể gây bệnh ở protein.
Cụ thể, cơ sở dữ liệu trình tự protein có liên quan và thông tin bối cảnh cấu trúc của đột biến được sử dụng để tạo ra điểm liên tục trong khoảng từ 0 đến 1 nhằm ước tính xác suất gây bệnh của đột biến.
Điểm số liên tục này cho phép người dùng chọn ngưỡng để phân loại đột biến là gây bệnh hoặc lành tính, tùy thuộc vào yêu cầu về độ chính xác của chúng.
Trong đánh giá thử nghiệm, AlphaMissense đã đạt được những dự đoán tiên tiến trên nhiều tiêu chuẩn di truyền và thực nghiệm mà không cần đào tạo rõ ràng về dữ liệu đó.
AlphaMissense vượt trội hơn các phương pháp tính toán khác khi phân loại các biến thể từ Clin. Clin là kho lưu trữ dữ liệu công khai về mối quan hệ giữa sự biến đổi của con người và bệnh tật.
AlphaMissense cũng là cách chính xác nhất để dự đoán kết quả trong phòng thí nghiệm, cho thấy nó phù hợp với các cách đo lường khả năng gây bệnh khác nhau.
AI thay đổi di truyền
Một năm trước, Google DeepMind đã phát hành 200 triệu cấu trúc protein được dự đoán bằng AlphaFold.
Sáng kiến này đã giúp hàng triệu nhà khoa học trên thế giới tăng tốc nghiên cứu và mở đường cho những khám phá mới.
Giờ đây, AlphaMissense, dựa trên AlphaFold, đã nâng cao hơn nữa sự hiểu biết của thế giới về protein bằng cách truy tìm nguồn gốc của DNA.
Một lần nữa, một bước quan trọng trong việc thực hiện nghiên cứu này là hợp tác với cộng đồng khoa học.
Google DeenpMind đã hợp tác với Genomics England để khám phá cách dự đoán của AlphaMissense có thể giúp nghiên cứu di truyền của các bệnh hiếm gặp.
Genome England đã tham chiếu chéo những phát hiện của AlphaMissense với dữ liệu được tổng hợp trước đó về khả năng gây bệnh của các đột biến đã biết ở người.
Google DeepMind đã xuất bản một bảng tra cứu các đột biến nghĩa và chia sẻ các dự đoán mở rộng về tất cả 216 triệu sự thay thế chuỗi axit amin đơn có thể có trong hơn 19.000 protein của con người.
Dữ liệu được công bố cũng bao gồm giá trị dự đoán trung bình cho mỗi gen, tương tự như thước đo các hạn chế tiến hóa của gen, cho thấy tầm quan trọng của gen đó đối với sự sống sót của sinh vật.
(Đỏ = được dự đoán là gây bệnh, xanh lam = được dự đoán là lành tính, xám = không chắc chắn)
Bên trái: Tiểu đơn vị Beta-hemoglobin (protein HBB). Sự biến đổi của protein này có thể gây ra bệnh thiếu máu hồng cầu hình liềm.
Phải: Protein điều chỉnh độ dẫn xuyên màng xơ nang (protein CFTR). Sự biến đổi của protein này có thể dẫn đến bệnh xơ nang.
Hơn nữa, Google DeepMind cũng đã hợp tác với EMBL-EBI. Thông qua bộ dự đoán hiệu ứng đột biến Makeembl, các nhà nghiên cứu sẽ dễ dàng áp dụng kết quả dự đoán của AlphaMissense hơn.
Người ta tin rằng trong tương lai gần, AlphaMissense sẽ giúp giải quyết các vấn đề cốt lõi về gen và toàn bộ ngành khoa học sinh học.
Người giới thiệu: