AI vào Tiền điện tử

Trung cấp9/19/2024, 2:23:31 AM
Việc ra mắt ChatGPT vào tháng 11 năm 2022 đã mở ra mắt của nhiều người chơi trong ngành đến mô hình ngôn ngữ lớn AI. Sự năng động hỗn loạn này đã lan tỏa vào không gian Tiền điện tử, và bài viết này nhằm mục đích giới thiệu về sự phát triển của AI, tình hình hiện tại của nó, và ngành công nghiệp đã nảy sinh từ sự kết hợp giữa AI+Tiền điện tử.

Sự ra mắt của ChatGPT vào tháng 11 năm 2022 đã mở ra mắt của nhiều người chơi trong ngành đến mô hình ngôn ngữ lớn của AI. Sự năng động hỗn loạn này đã xâm nhập không gian Tiền điện tử, và bài viết này nhằm giới thiệu sự phát triển của AI, tình hình hiện tại của nó, và ngành công nghiệp đã nảy sinh từ sự kết hợp của AI+Crypto.

Sự phát triển của trí tuệ nhân tạo và tình hình hiện tại của nó

Loại hình và Kiến trúc

Machine learning (ML) là một công nghệ với khả năng học tập kinh nghiệm, học để phân biệt động vật, dịch ngôn ngữ và các nhiệm vụ cụ thể khác thông qua việc học từ các bộ dữ liệu lớn. Machine learning thuộc về cách thực tế nhất để thực hiện trí tuệ nhân tạo hiện nay, theo việc dữ liệu đã học có nhãn và tính năng nó có thể được chia thành học có giám sát và học không giám sát.

Có nhiều loại mô hình có thể thực hiện việc học có giám sát, bao gồm các mô hình dựa trên cây, mô hình đồ thị, và các mạng nơ-ron mới xuất hiện gần đây. Với sự phát triển nhanh chóng của công nghệ tính toán và dữ liệu, học sâu đã được phát triển tiếp theo dựa trên kiến trúc của các mạng nơ-ron. Các kiến trúc học sâu hiện tại thông thường bao gồm, nhưng không giới hạn, CNNs, RNNs, và các cơ chế chú ý.

Phân loại học máy, nguồn: HashKey Capital

Các mạng học sâu khác nhau có cấu trúc cơ bản của lớp đầu vào, lớp ẩn và lớp đầu ra, lớp đầu vào thường là văn bản, video, âm thanh và dữ liệu khác sau khi được xử lý “tokenize/embedding”. Lớp ẩn có thiết kế khác nhau (hình dạng mô hình) tùy thuộc vào bộ dữ liệu và mục đích của nhiệm vụ, như được hiển thị trong bảng.

Các loại mạng thần kinh, Nguồn: Được tổ chức bởi HashKey Capital

Ba Mươi Năm Phát Triển Mạng Nơron

30 năm phát triển mạng thần kinh, nguồn: tổ chức bởi HashKey Capital

Đào tạo mạng nơ-ron lần đầu tiên bắt nguồn từ những năm 1980 khi Jordan huấn luyện một mạng nơ-ron để học các mẫu tuần tự trong bài báo của ông vào năm 1986 Serial Order: Một cách tiếp cận xử lý phân tán song songMạng nhỏ chỉ có vài tế bào thần kinh.

Trong những năm 1990, Jeffrey Ehrman đã mở rộng mạng nơ-ron thành một mạng 50 nơ-ron với việc phát hiện rằng mạng không gian các từ dựa trên ý nghĩa. Ví dụ, nó phân tách danh từ không sống và sống, và trong hai danh mục này, các đối tượng sống được chia thành loại người và phi người, và không sống được phân loại thành có thể bị vỡ và ăn được. Điều này cho thấy rằng mạng có khả năng học các giải thích phân cấp.

Anh ta cũng quan sát thêm rằng từ có thể được biểu diễn dưới dạng các điểm trong không gian nhiều chiều, và sau đó một chuỗi các từ hoặc câu có thể được xem như một đường đi. Bước tiến lớn này cho phép tập dữ liệu văn bản được số hóa, vector hóa và xử lý bởi máy tính.

Nguồn:http://3b1b.co/neural-networks

Năm 2011, các nhà nghiên cứu Confluence đã huấn luyện các mạng lưới lớn hơn bao gồm hàng nghìn tế bào thần kinh và triệu kết nối, và một chướng ngại đã được tìm thấy trong nghiên cứu về khả năng của mạng lưới duy trì ngữ cảnh mạch lạc qua các chuỗi dài.

Năm 2017, OpenAI đã phát triển dựa trên công việc của Kathy bằng cách huấn luyện trên 82 triệu đánh giá Amazon trong đó các tế bào não cảm xúc đã được phát hiện. Các tế bào não này phân loại hoàn hảo các cảm xúc của văn bản.

Nguồn: Học cách tạo ra nhận xét và khám phá tâm trạng

Về các hạn chế về kích thước bối cảnh, bài báo Attention Is All You Need năm 2017 đưa ra một giải pháp. Bài báo tạo ra một mạng lưới tầng động thích ứng trọng số kết nối dựa trên ngữ cảnh của mạng lưới. Nó hoạt động bằng cách cho phép các từ trong đầu vào xem xét, so sánh với các từ khác và tìm ra những từ có liên quan nhất. Càng gần nhau về mặt khái niệm, càng gần nhau về không gian và có thể có trọng số kết nối cao hơn. Tuy nhiên, bài báo chỉ tập trung vào vấn đề dịch thuật.

Do đó, các nhà nghiên cứu của OpenAI đã thử nghiệm một kiến trúc biến áp mạnh mẽ hơn và ra mắt GPT-3 vào năm 2020, thu hút sự chú ý rộng rãi từ các ngành công nghiệp trên toàn thế giới, lần này mạng có 175 tỷ tham số, 96 lớp, và cửa sổ ngữ cảnh 1,000 từ.

Mạng thần kinh là gì?

Ví dụ, hình ảnh kỹ thuật số 28x28 pixel sau đây, các tế bào thần kinh tương ứng với mỗi pixel của hình ảnh đầu vào 28x28, tổng cộng 784 tế bào thần kinh, các con số trong các tế bào thần kinh là giá trị kích hoạt, có giá trị từ 0-1.

Hình ảnh kỹ thuật số 28x28 pixel, Nguồn: http://3b1b.co/neural-networks

Các tế bào thần kinh này hình thành lớp đầu vào của mạng. Lớp cuối cùng là lớp đầu ra, chứa mười tế bào thần kinh đại diện cho các số từ 0–9, một lần nữa với các giá trị kích hoạt dao động từ 0–1. Lớp giữa là lớp ẩn, nơi giá trị kích hoạt của lớp trước xác định giá trị kích hoạt của lớp tiếp theo khi mạng thần kinh hoạt động.

Độ sâu của việc học sâu nằm ở chỗ mô hình học được nhiều “lớp” biến đổi, mỗi lớp có một biểu diễn khác nhau. Như được thể hiện trong hình dưới đây, ví dụ, ở 9, các lớp khác nhau có thể nhận ra các đặc điểm khác nhau. Càng gần lớp đầu vào với mức độ chi tiết thấp của dữ liệu, càng gần lớp đầu ra với những khái niệm cụ thể hơn có thể được sử dụng để phân biệt.

Nguồn:http://3b1b.co/mang-neural

Khi mô hình trở nên lớn hơn, các lớp ẩn ở giữa liên quan đến hàng trăm tỷ trọng số mỗi lớp, và chính những trọng số và sai số này thực sự quyết định điều mà mạng thực sự đang làm. Quá trình học máy là quá trình tìm ra các tham số phù hợp, đó là trọng số và sai số.

Kiến trúc biến áp được sử dụng trong GPT, một mô hình ngôn ngữ lớn, có một lớp ẩn trung gian bao gồm 96 lớp các mô-đun bộ giải mã, trong đó GPT1, GPT2 và GPT3 có 12, 48 và 96 lớp, tương ứng. Bộ giải mã lần lượt chứa các thành phần chú ý và mạng nơ-ron phản hồi tiến.

Phương pháp đào tạo

Quá trình tính toán hoặc học tập liên quan đến việc định nghị một hàm chi phí (hoặc hàm mất mát) tính tống cống của các tệ bài vuông về sự khác biệt giữa dữ đáng định lượng đầu ra của mạng và các giá trị thực tế, và khi tống là nhệ, mô hình hoạt động trong giới hạn chỉ chỉnh.

Việc huấn luyện bắt đầu bằng cách ngẫu nhiên tham số hóa mạng và hoàn thiện các tham số mô hình của mạng bằng cách tìm tham số tối thiểu hóa hàm chi phí. Cách để hội tụ hàm chi phí là bằng phương pháp gradient descent, bằng cách kiểm tra mức độ tác động của mỗi thay đổi tham số đối với chi phí/mất mát, sau đó các tham số sẽ được điều chỉnh theo mức độ tác động đó.

Quá trình tính toán độ dốc tham số giới thiệu quá trình lan truyền ngược hoặc lan truyền ngược, đi qua mạng từ lớp đầu ra đến lớp đầu vào theo thứ tự ngược lại theo quy tắc chuỗi. Thuật toán cũng yêu cầu lưu trữ bất kỳ biến số trung gian nào (đạo hàm riêng) cần thiết để tính toán độ dốc.

Yếu tố phát triển

Có ba yếu tố chính ảnh hưởng đến hiệu suất của các mô hình ngôn ngữ lớn AI trong quá trình huấn luyện của chúng, đó là số lượng tham số của mô hình, kích thước tập dữ liệu và lượng tính toán.

Nguồn: Báo cáo OpenAI, Luật phát triển cho các mô hình ngôn ngữ Neural

Điều này phù hợp với sự phát triển của bộ dữ liệu và máy tính (sức mạnh tính toán) trong thực tế, nhưng cũng có thể thấy trong bảng dưới đây rằng sức mạnh tính toán đang phát triển nhanh hơn so với dữ liệu có sẵn, trong khi bộ nhớ phát triển chậm nhất.

Sự phát triển của bộ dữ liệu, bộ nhớ và sức mạnh tính toán, Nguồn: https://github.com/d2l-ai

Dữ liệu

Yêu cầu dữ liệu

Đối diện với một mô hình lớn, việc quá mức phù hợp thường xảy ra khi dữ liệu huấn luyện quá nhỏ, và nói chung, độ chính xác của mô hình phức tạp hơn cải thiện khi lượng dữ liệu tăng. Về yêu cầu dữ liệu cần thiết cho một mô hình lớn, có thể quyết định dựa trên quy tắc 10, ngụ ý rằng lượng dữ liệu phải là 10 lần số tham số, nhưng một số thuật toán học sâu áp dụng 1:1.

Dữ liệu được gán nhãn

Học có giám sát đòi hỏi việc sử dụng tập dữ liệu được gán nhãn + có tính năng để đạt được kết quả hợp lệ.

Nguồn: Bộ dữ liệu phân loại quần áo Fashion-MNIST

Dữ liệu tổng hợp

Mặc dù dữ liệu tăng nhanh trong thập kỷ qua và các bộ dữ liệu mã nguồn mở hiện có bao gồm Kaggle, Azure, AWS, Google database, vv., Nhưng lượng dữ liệu hạn chế, khan hiếm và đắt đỏ đang dần trở thành một rào cản đối với việc phát triển trí tuệ nhân tạo do vấn đề về quyền riêng tư, việc tăng số lượng tham số mô hình và khả năng tái tạo dữ liệu. Các giải pháp dữ liệu khác nhau được đề xuất nhằm giảm bớt vấn đề này.

Các kỹ thuật tăng cường dữ liệu có thể là một giải pháp hiệu quả bằng cách cung cấp dữ liệu không đủ cho mô hình mà không cần thu thập mẫu mới, chẳng hạn như tỷ lệ, quay, phản chiếu, cắt, dịch chuyển, thêm nhiễu Gaussian, mixup, v.v.

Dữ liệu tổng hợp là một lựa chọn khác. Dữ liệu tổng hợp là dữ liệu có thể được tạo ra nhân tạo bằng mô phỏng máy tính hoặc thuật toán với hoặc không cần tập dữ liệu tham chiếu trước đó. Liên quan đến việc phát triển các công cụ tạo dữ liệu tổng hợp, Ian J. Goodfellow đã phát minh ra Mạng đối địch sinh (GAN), đó là một kiến trúc học sâu.

Nó huấn luyện hai mạng thần kinh để cạnh tranh với nhau có thể tạo ra dữ liệu mới, chân thực hơn từ một bộ dữ liệu huấn luyện cụ thể. Kiến trúc hỗ trợ tạo ra hình ảnh, điền thông tin bị thiếu, tạo dữ liệu huấn luyện cho các mô hình khác, tạo ra mô hình 3D dựa trên dữ liệu 2D, và nhiều hơn nữa.

Đó vẫn còn sớm trong quá trình phát triển của lĩnh vực này, với hầu hết các công ty hiện tại đang làm dữ liệu tổng hợp được thành lập vào năm 2021 hoặc 2022, và một số ít vào năm 2023.

Tình hình tài chính cho các công ty dữ liệu tổng hợp. Nguồn : https://frontline.vc/blog/synthetic-data/

Cơ sở dữ liệu Vector

Quá trình đào tạo AI liên quan đến một số lượng lớn các phép toán ma trận, từ nhúng từ, ma trận transformer QKV, đến các phép toán softmax, và qua các phép toán ma trận này, toàn bộ các tham số của mô hình cũng được chứa trong ma trận.

ví dụ về cơ sở dữ liệu vector, Nguồn: https://x.com/ProfTomYeh/status/1795076707386360227

Tài nguyên phần cứng máy tính

Các mô hình lớn mang lại nhu cầu phần cứng máy tính khổng lồ, chủ yếu được phân loại thành huấn luyện và suy luận.

Huấn luyện trước, điều chỉnh tinh chỉnh và suy luận

Quá trình tiền huấn luyện và điều chỉnh tinh chỉnh có thể được chia thành phần huấn luyện. Như đã đề cập trước đó, việc xây dựng một mô hình mạng đầu tiên yêu cầu việc khởi tạo ngẫu nhiên các tham số, sau đó huấn luyện mạng và liên tục điều chỉnh các tham số cho đến khi mất mạng đạt đến mức chấp nhận được. Sự khác biệt giữa tiền huấn luyện và điều chỉnh tinh chỉnh là

Quá trình huấn luyện trước bắt đầu với mỗi lớp tham số từ việc khởi tạo ngẫu nhiên, trong khi một số lớp tinh chỉnh có thể trực tiếp sử dụng các tham số của mô hình đã được huấn luyện trước đó như là các tham số khởi tạo cho nhiệm vụ này (đóng băng các tham số của các lớp trước đó) và tác động lên một tập dữ liệu cụ thể.

Nguồn:https://d2l.ai/chapter_computer-vision/fine-tuning.html

Việc chuẩn bị trước và điều chỉnh tinh chỉnh đều liên quan đến việc thay đổi tham số mô hình, cuối cùng dẫn đến việc tối ưu hóa mô hình hoặc tham số, trong khi suy luận là việc tính toán suy luận bằng cách tải một mô hình sau khi người dùng nhập và cuối cùng là nhận phản hồi và kết quả đầu ra.

Việc tiền xử lý, điều chỉnh và suy luận được xếp hạng từ lớn nhất đến nhỏ nhất về yêu cầu máy tính của chúng. Bảng dưới đây so sánh yêu cầu phần cứng máy tính của việc đào tạo và suy luận. Yêu cầu phần cứng máy tính của hai tác vụ này khác biệt đáng kể về sức mạnh tính toán, bộ nhớ và giao tiếp/băng thông do sự khác biệt trong quá trình tính toán và yêu cầu độ chính xác, và đồng thời có một Tam giác bất khả thi trong sức mạnh tính toán, bộ nhớ và giao tiếp/băng thông.

Các đo lường thống kê trong bảng này dựa trên một mô hình duy nhất xử lý một mã thông báo duy nhất, một tham số duy nhất. \ FLOPs: số phép tính dấu chấm động trên giây, số lượng phép tính ma trận.
*DP, TP, PP: dữ liệu song song, tensor song song, song song ống dẫn.

So sánh phần cứng máy tính giữa việc đào tạo và suy luận, Nguồn: Được tổ chức bởi HashKey Capital

Quá trình huấn luyện mạng neural đòi hỏi việc luân phiên giữa truyền và lan truyền ngược, sử dụng độ dốc được cung cấp bởi lan truyền ngược để cập nhật các thông số mô hình. Trong khi đó, suy luận chỉ đòi hỏi truyền ngược. Sự khác biệt này trở thành một yếu tố ảnh hưởng chủ yếu phân biệt yêu cầu tài nguyên phần cứng máy tính cho quá trình huấn luyện và suy luận.

Về sức mạnh tính toán, như được thể hiện trong bảng, có một mối quan hệ nhân chập giữa số lượng tham số mô hình và tiêu thụ công suất tính toán, với quá trình đào tạo yêu cầu 6-8 phép toán dấu phẩy động và suy luận yêu cầu 2. Điều này là do quá trình lan truyền ngược liên quan đến việc đào tạo, yêu cầu gấp đôi lượng công suất tính toán so với lan truyền xuôi, và do đó tiêu thụ công suất tính toán của quá trình đào tạo cao hơn nhiều so với suy luận.

Về mặt bộ nhớ, quá trình lan truyền ngược được sử dụng để huấn luyện tái sử dụng các giá trị trung gian được lưu trữ trong quá trình lan truyền tiến để tránh tính toán lặp lại. Do đó, quá trình huấn luyện cần giữ các giá trị trung gian cho đến khi quá trình lan truyền ngược hoàn tất. Sự tiêu thụ bộ nhớ kết quả trong quá trình huấn luyện chủ yếu chứa các thông số mô hình, giá trị kích hoạt trung gian được tạo ra trong quá trình tính toán tiến, độ dốc được tạo ra bởi tính toán lan truyền ngược và trạng thái tối ưu hóa. Giai đoạn suy luận không cần lan truyền ngược, và không cần trạng thái tối ưu hóa và độ dốc, v.v., và việc sử dụng bộ nhớ tiêu thụ ít hơn nhiều so với quá trình huấn luyện.

Về khía cạnh truyền thông/băng thông, để cải thiện hiệu suất đào tạo AI, việc đào tạo mô hình chính thường sử dụng ba chiến lược song song: song song dữ liệu, song song tensor và song song đường ống.

  • Data parallel đề cập đến việc sao chép nhiều bản sao mô hình chạy trên các thiết bị khác nhau, với mỗi bản sao mô hình hoạt động trên các bộ dữ liệu khác nhau, và đồng bộ hóa dữ liệu gradient trong quá trình huấn luyện.
  • Song song đường ống, ång khác, chia các lớp ẩn trung gian và mỗi nút tính toán chịu trách nhiệm cho một số lớp biến áp này. Phương pháp này cũng được gọi là song song trung gian.
  • Tensor parallelism, on the other hand, splits each of these transformer modules and is also known as intra-layer parallelism.

Nguồn: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Đối với ba chiến lược này, người ta dự đoán rằng tần số truyền thông TP là lớn nhất, khối lượng giao tiếp cao nhất và liên quan đến số lượng mã thông báo, độ rộng mô hình và số lớp. Khối lượng và tần số truyền thông của PP nhỏ hơn TP và có liên quan đến số lượng mã thông báo và chiều rộng của mô hình. Khối lượng và tần số giao tiếp của DP là nhỏ nhất và độc lập với các mã thông báo đầu vào.

Tam Giác Không Thể

Choke point của tài nguyên phần cứng máy tính trong các mô hình lớn chủ yếu bị hạn chế bởi sức mạnh tính toán, băng thông/ giao tiếp và bộ nhớ, và có sự cân bằng giữa ba yếu tố này, dẫn đến vấn đề Tam giác không thể thực hiện. Ví dụ, do những chặn trở trong giao tiếp, hiệu suất của cụm không thể được cải thiện chỉ bằng cách tối ưu hóa công suất của một máy tính đơn lẻ.

Do đó, mặc dù các kiến trúc song song được sử dụng để tăng tốc hiệu suất cụm, hầu hết các kiến trúc song song thực tế đều hy sinh giao tiếp hoặc lưu trữ để tăng cường sức mạnh tính toán.

Hy sinh việc truyền thông và lưu trữ để có sức mạnh tính toán:

Trong PP, nếu mỗi lớp của bộ biến áp được gán một GPU, mặc dù có sự tăng cường về sức mạnh tính toán trong đơn vị thời gian, yêu cầu giao tiếp giữa các lớp cũng tăng, dẫn đến việc tăng dung lượng dữ liệu và độ trễ. Ngoài ra, yêu cầu lưu trữ trạng thái trung gian cho truyền tải tiến ngược cũng tăng nhanh chóng.

Hi sinh giao tiếp để tăng công suất tính toán:

Trong TP, mỗi bộ biến áp được tháo rời để tính toán song song. Khi bộ biến áp bao gồm hai thành phần (đầu chú ý và mạng truyền ngược), nhiệm vụ có thể được chia trong lớp cho cả đầu chú ý hoặc mạng nơ-ron truyền ngược. Phương pháp TP này có thể giảm bớt vấn đề về cấu trúc phân cấp quá nhiều trong PP do GPU không thể vừa với mô hình. Tuy nhiên, phương pháp này vẫn gặp phải chi phí giao tiếp nghiêm trọng.

Tiền điện tử+Trí tuệ nhân tạo

Trong bài báo này, chúng tôi tin rằng hiện tại có các danh mục chính sau về trí tuệ nhân tạo trong lĩnh vực tiền điện tử:

Nguồn: Được tổ chức bởi HashKey Capital

Như đã đề cập trước đó, ba thành phần quan trọng nhất trong trí tuệ nhân tạo là dữ liệu, mô hình và sức mạnh tính toán, đóng vai trò là cơ sở hạ tầng để tăng cường Trí tuệ nhân tạo về tiền điện tử.

Sự kết hợp của họ thực sự tạo thành một mạng máy tính, với một số lượng lớn các phần mềm trung gian xuất hiện trong quá trình tính toán để hiệu quả hơn và phù hợp hơn với tinh thần tiền điện tử. Ở dưới là các Đại lý dựa trên các kết quả có thể xác minh này, có thể phục vụ các vai trò khác nhau cho các đối tượng người dùng khác nhau.

Một biểu đồ luồng khác có thể được sử dụng để diễn tả cơ bản về sinh thái của trí tuệ nhân tạo tiền điện tử như sau:

Sơ đồ sinh thái, nguồn: tổ chức bởi HashKey Capital

Tất nhiên, cơ chế tokenomic cần thiết trong không gian tiền điện tử để khuyến khích việc phối hợp tham gia của các bên tham gia khác nhau.

Dữ liệu

Đối với các bộ dữ liệu, người ta có thể lựa chọn giữa các nguồn dữ liệu công cộng hoặc các nguồn dữ liệu riêng tư cụ thể của mình.

Nguồn dữ liệu:

  • Grass là dự án thu thập nguồn dữ liệu trên nền tảng Solana, nguyên nhân là do nhiều công ty chặn việc thu thập IP từ các trung tâm dữ liệu nhưng không chặn người dùng cá nhân, Grass hoạt động như một nhà cung cấp dịch vụ phi tập trung khuyến khích người dùng cá nhân đóng góp băng thông của họ thông qua token.
  • Vana as DATA DAO cũng cung cấp giải pháp riêng của mình, trong đó người tạo tạo ra các data dao khác nhau cho các nguồn dữ liệu khác nhau trên chuỗi và thiết lập các chương trình khuyến khích khác nhau cho người dùng tải lên dữ liệu của họ. Đến nay, đã có data dao được tạo ra cho reddit (rDAO) nơi hơn 154.000 người dùng cung cấp dữ liệu cá nhân của họ cho rDAO để huấn luyện AI.
  • Dữ liệu liên quan được thu thập dưới dạng DePINs, cho phép người dùng kết nối phương tiện của họ với nền tảng DIMO thông qua một thiết bị phần cứng, ví dụ. Thông tin cơ bản về phương tiện đó và dữ liệu mẫu lái xe nâng cao hơn, v.v. sẽ được truyền một cách an toàn đến mạng lưới DIMO, được lưu trữ trên chuỗi và liên kết với ID phương tiện tương ứng (NFT). Một ví dụ khác là Hivemapper thu thập dữ liệu bản đồ trong khi người dùng đang lái xe.

Nền tảng dữ liệu tổng hợp:

  • Dria là một nền tảng tạo dữ liệu tổng hợp (OPStack L2) khuyến khích người dùng tạo/giao dịch dữ liệu tổng hợp một cách phi tập trung. Dữ liệu của nó được lưu trữ trong Arweave thông qua HollowDB. Khi người dùng khởi tạo yêu cầu tạo dữ liệu tổng hợp, Dria sẽ chấp nhận yêu cầu và chia nhiệm vụ cho các nút tính toán trong mạng dữ liệu tổng hợp để thực thi, và sau khi xác minh mạng, dữ liệu tổng hợp cuối cùng có thể được giao dịch trên thị trường kiến thức.

Khác:

Nền tảng dịch vụ gán nhãn dữ liệu, thông qua việc giao nhiệm vụ gán nhãn cho các công nhân khác nhau, những người này có thể nhận được động lực token tương ứng sau khi hoàn thành nhiệm vụ như Crypto, Public AI và như vậy. Tuy nhiên, vấn đề hiện tại là có nhiều người tham gia gán nhãn dữ liệu hơn là dữ liệu, trong khi các công ty AI có các nhà cung cấp dữ liệu gắn nhãn ổn định cho nhu cầu dữ liệu của họ, do sự tồn tại bám chặt khiến ý muốn của họ chuyển đổi sang các nền tảng phi tập trung yếu. Những nền tảng này có thể chỉ có thể nhận được phần còn lại của đơn đặt hàng từ các nhà cung cấp gán nhãn dữ liệu.

Mạng máy tính

Mạng Máy Tính Tổng Quát

Mạng lưới tính toán tổng quát, chỉ đến mạng lưới tổng hợp tài nguyên như GPU và CPU để có thể cung cấp dịch vụ tính toán tổng quát nghĩa là không phân biệt giữa việc huấn luyện và suy luận.

  • Akash, một dự án năm 2020, hoạt động như một thị trường để phù hợp nguồn cung và cầu tính toán, cho phép nhà cung cấp tính toán đấu thầu đơn hàng, với các cặp phù hợp cuối cùng được tải lên blockchain như các giao dịch. Một máy chủ xác nhận riêng biệt chịu trách nhiệm đóng gói các khối và thực hiện xác nhận. Quá trình này không liên quan đến cách nhiệm vụ trí tuệ nhân tạo được giao, cũng không xác nhận quá trình tính toán và kết quả, trong khi không phân biệt giữa việc huấn luyện và suy luận.
  • io.net, cho đến tháng 6 năm 2022, phát triển hệ thống giao dịch định lượng cấp uỷ thác chủ yếu cho thị trường chứng khoán Mỹ và thị trường tiền điện tử, phát hiện ra Ray.io, một thư viện Python mã nguồn mở để xây dựng hệ thống phân tán hiệu suất cao, trên đường đi. io.net tận dụng Ray và các thư viện chuyên biệt cho luồng dữ liệu, đào tạo, điều chỉnh tốt và kết hợp với Mesh VPNs (giúp đơn giản hóa quá trình phát triển và triển khai các mô hình trí tuệ nhân tạo quy mô lớn trên mạng lưới rộng lớn của GPU) để cung cấp dịch vụ tính toán.
  • Bittensor, như một nền tảng mở, cho phép người dùng tạo ra các mạng con trên nền tảng của nó, mỗi mạng con có động cơ duy nhất của riêng mình để thúc đẩy người dùng khác tham gia như các thợ mạng con, các nhà xác minh mạng con, các thợ mạng con để chạy các nhiệm vụ cụ thể, và các nhà xác minh để xác minh các nhiệm vụ của các thợ mạng con này.
  • Aethir, là một cơ sở hạ tầng máy chủ đám mây cung cấp dịch vụ chất lượng cao cho trí tuệ nhân tạo và game đám mây. Aethir tập trung vào việc tổng hợp tài nguyên GPU chất lượng cao, như chip NVIDIA's H100, từ các trung tâm dữ liệu, các công ty công nghệ, các nhà mạng, các studio game hàng đầu và các công ty đào tiền điện tử. Mạng lưới bao gồm 3 nhân vật chính: Container, Checker và Indexer. Containers, bao gồm Aethir Edge, là nơi tài nguyên tính toán được sử dụng thực sự. Checker đảm bảo tính toàn vẹn và hiệu suất của Container. Nếu cần, Indexer sẽ phù hợp người dùng cuối với Containers thích hợp dựa trên yêu cầu của người dùng cuối.

Mạng cụ thể cho tính toán

Đào tạo trước

Trong lĩnh vực Tiền điện tử, Gensyn, được đầu tư bởi a16z, đề xuất một mạng tính toán đào tạo phi tập trung.

Quá trình là sau khi người dùng gửi một nhiệm vụ huấn luyện, nội dung cần phân tích, đánh giá công suất tính toán cần thiết cũng như chia nhọ nó thành một số tác vụ máy học tổi thiểu, lúc đó người xác nhận để thường xuyên lấy nhiệm vụ đã được phân tích để tạo ngăn ngữ cho việc so sánh của các bằng chủng học xuống dưới.

Khi nhiệm vụ đã nhập vào giai đoạn đào tạo, nó được thực thi bởi Solver, người định kỳ lưu trữ trọng số mô hình và chỉ mục phản hồi từ tập dữ liệu đào tạo cũng như tạo ra bằng chứng học hỏi, và người xác minh cũng thực hiện công việc tính toán chạy lại một số bằng chứng để thực hiện các phép tính khoảng cách để xác minh rằng chúng khớp với các bằng chứng. Những người tiết lộ thông tin thực hiện trọng tài dựa trên một chương trình thách thức chỉ rõ dựa trên Đồ thị để kiểm tra xem công việc xác minh đã được thực hiện đúng cách hay không.

Điều chỉnh tinh chỉnh

Việc điều chỉnh tinh chỉnh dễ dàng và ít tốn kém hơn việc huấn luyện trước một mô hình lớn trực tiếp, chỉ đơn giản bằng cách điều chỉnh tinh chỉnh mô hình đã được huấn luyện trước với một tập dữ liệu cụ thể, và điều chỉnh mô hình cho một nhiệm vụ cụ thể trong khi bảo tồn mô hình ban đầu.

Hugging Face có thể được truy cập như một nhà cung cấp tài nguyên mô hình ngôn ngữ được đào tạo trước cho nền tảng phân tán, người dùng chọn mô hình để được tinh chỉnh theo yêu cầu nhiệm vụ và sau đó sử dụng GPU và các tài nguyên khác do mạng máy tính cung cấp để tinh chỉnh nhiệm vụ, cần dựa trên độ phức tạp của nhiệm vụ để xác định kích thước của tập dữ liệu, độ phức tạp của mô hình và xác định thêm nhu cầu sử dụng tài nguyên cấp cao hơn như A100.

Ngoài Gensyn, một nền tảng có thể hỗ trợ việc huấn luyện trước, hầu hết các nền tảng máy tính cũng có thể hỗ trợ điều chỉnh tinh chỉnh.

Suy luận

So với việc huấn luyện (tiền huấn luyện và điều chỉnh tinh chỉnh), đòi hỏi điều chỉnh các tham số mô hình, quá trình tính toán của suy luận chỉ liên quan đến truyền tiến và đòi hỏi ít sức mạnh tính toán hơn. Hầu hết các mạng tính toán phân tán hiện tại tập trung vào dịch vụ suy luận.

  • Mạng lưới Nosana là một nền tảng để chạy các khối lượng công việc suy luận trí tuệ nhân tạo cung cấp dịch vụ tính toán hướng tới quá trình suy luận cho các mô hình LLama 2 và Stable Diffusion.
  • Ritual.AI, giai đoạn đầu tiên của nền tảng là Infernet, một khung công tác nhẹ. Với nó, các nhà phát triển hợp đồng thông minh có thể yêu cầu các dịch vụ suy luận từ ngoài chuỗi và cung cấp nó cho các hợp đồng thông minh trên chuỗi. Giai đoạn thứ hai là lớp thực thi, Ritual Chain, hỗ trợ các hoạt động gốc AI.

Các lớp/miền trung bổ sung

Khi suy luận được thực hiện giai đoạn này đã là giai đoạn sử dụng mô hình, sau đó middleware có thể được giới thiệu vào đúng thời điểm:

  • Khi thực hiện suy luận, thường cần xác định mô hình phù hợp theo yêu cầu công việc.
  • API: Trừu tượng hóa tất cả các giao diện API của các mô hình mã nguồn mở, như Redpill

Hợp đồng thông minh trên chuỗi để truy xuất kết quả của tính toán trí tuệ nhân tạo ngoại chuỗi:

  • Giao thức ORA cung cấp kết quả suy luận được xác minh cho hợp đồng thông minh, ví dụ, nút opML thu thập các yêu cầu opML được gửi từ chuỗi, sẽ chạy suy luận AI, sau đó tải kết quả lên chuỗi và chờ giai đoạn thách thức.

Một lớp bảo mật khác có thể được thêm vào mạng máy tính, chủ yếu bao gồm quyền riêng tư dữ liệu và quyền riêng tư mô hình, nơi quyền riêng tư dữ liệu quan trọng hơn nhiều so với quyền riêng tư mô hình.

  • Hiện tại, giao thức Oasis sử dụng Intel TDX và NVIDIA TEE để cung cấp tính riêng tư và khả năng xác minh cho việc huấn luyện mô hình AI.

Xác minh

Hầu hết các mạng máy tính xây dựng các hệ thống xác minh khác nhau để đảm bảo rằng hệ thống chạy một cách chính xác, trong khi liên kết là một phần mà chưa được giới thiệu trong lĩnh vực trí tuệ nhân tạo truyền thống.

ZKML

Vai trò chính của chứng minh ZK là 2 điểm sau đây:

  • Được sử dụng để chứng minh tính chính xác của mô hình mà không tiết lộ bất kỳ tham số nào
  • Chứng minh rằng việc tính toán đã được thực hiện đúng và rằng mô hình + đầu vào khớp với các đầu ra: Modulus labs, Giza

Modulus Labs đã chỉ ra rằng có thể tạo ra các bằng chứng cho 18 triệu mô hình tham số trong 60-70 giây bằng cách sử dụng hệ thống chứng minh Plonky của Polygon. Đối với các mô hình nhỏ, có thể sử dụng ZKML ở giai đoạn này, nhưng chi phí vẫn còn đáng kể:

  • Thời gian chứng minh của ZKML tăng theo các tham số tăng lên.
  • Nó rất tốn kém về việc sử dụng bộ nhớ của prover. Ví dụ, Worldcoin sử dụng một mô hình với 1,8 triệu tham số và 50 lớp để phân biệt giữa 10 tỷ mống mắt, cho phép chứng minh suy luận có thể được tạo ra chỉ trong vài phút, nhưng việc tiêu thụ bộ nhớ trong prover quá cao đối với bất kỳ phần cứng di động nào.

Nguồn: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

Với những hạn chế của ZKML được mô tả ở trên, OPML là một sự lựa chọn thay thế. Mặc dù yếu hơn ZKML về mặt bảo mật, nhưng tiêu thụ bộ nhớ và thời gian tính chứng minh của OPML đáng kể tốt hơn so với ZKML. Theo báo cáo của ORA, cho thấy rằng đối với cùng một mô hình 7B-LLaMA (với kích thước mô hình khoảng 26GB) OPML có thể được xử lý trong 32GB bộ nhớ, trong khi tiêu thụ bộ nhớ của mạch trong ZKML có thể lên tới hàng nghìn tỷ byte hoặc thậm chí là petabyte.

TEEML

Môi trường thực thi đáng tin cậy cung cấp bảo mật cấp phần cứng và có thể là một lựa chọn thay thế cho ZKML và OPML. TEE-proof được tạo ra như một kết quả của việc tính toán nội bộ trong TEE và chi phí tính toán của nó thấp hơn nhiều so với zk-proof. Ngoài ra, kích thước chứng chỉ của TEE thường là một hằng số cố định (độ dài chữ ký) và do đó có lợi thế về dấu vết nhỏ gọn và chi phí thấp của việc xác nhận trên chuỗi.

Ngoài việc xác minh, TEE còn có lợi thế là giữ dữ liệu nhạy cảm cô lập, đảm bảo rằng các tiến trình hoặc tính toán bên ngoài không thể truy cập hoặc thay đổi dữ liệu bên trong.

Các dự án sử dụng TEE bao gồm:

  • Mạng Aizel (cung cấp suy luận)
  • Mạng Phala (tập trung vào việc tạo ra AI Agent)
  • Giao thức Oasia (đào tạo mô hình AI)
  • Giao thức Marlin (Oyster có thể triển khai và xác minh các mô hình ML)

Nguồn:https://arxiv.org/pdf/2401.17555,Giao thức Marlin

Ngoài ra, giao thức ORA đã phát triển opp/ai (Optimistic Privacy-Preserving AI on Blockchain) bên cạnh việc xác thực ZKML và OPML của riêng mình, và không được bao gồm trong bảng so sánh ở trên.

Lớp Đại lý

Agent có khả năng phân tích thông tin đầu vào, đánh giá điều kiện môi trường hiện tại và đưa ra quyết định. Cấu trúc của Agent được thể hiện trong hình sau, trong đó LLM là thành phần cốt lõi, ngoài ra, cần cung cấp thông báo phù hợp cho LLM, và thông qua Bộ nhớ để lưu trữ dữ liệu ngắn hạn và dữ liệu lịch sử dài hạn (dữ liệu bên ngoài).

Vì các nhiệm vụ phức tạp không thể hoàn thành ngay lập tức, chúng cần được chia nhỏ thành các nhiệm vụ nhỏ hơn bởi Kế hoạch, ngoài ra, Đại lý cũng có thể gọi các API bên ngoài để có được thông tin bổ sung, bao gồm thông tin hiện tại, khả năng thực thi mã, truy cập vào các nguồn thông tin độc quyền, và cũng như vậy.

Nguồn: Khảo sát về các tác nhân tự trị dựa trên mô hình ngôn ngữ lớn

Khả năng ra quyết định của các Đại lý không có bước đột phá nhất định cho đến khi Mô hình Ngôn ngữ Lớn LLM xuất hiện trong những năm gần đây. Một báo cáo đã tổng hợp số lượng bài báo được xuất bản về Đại lý từ năm 2021 đến 2023, như được thể hiện trong hình dưới đây, thực tế chỉ có khoảng một tá bài báo nghiên cứu vào năm 2021, nhưng có hàng trăm bài báo được xuất bản về chúng vào năm 2023. Bài báo đã phân loại các Đại lý vào 7 danh mục.

Nguồn: Một cuộc khảo sát về các đại lý tự động dựa trên mô hình ngôn ngữ lớn

Trong web3, các kịch bản mà các Đại lý tồn tại vẫn còn hạn chế so với thế giới web2, và hiện tại bao gồm việc thanh toán tự động, xây dựng các thành phần mã (viết hợp đồng thông minh, viết mạch zk), kiểm soát rủi ro thời gian thực, và thực hiện các chiến lược như cơ hội mua bán và trồng cây thu nhập.

Tạo đại lý và các nền tảng giao dịch

  • Theoriq (ChainML) đã giới thiệu khái niệm Lớp Cơ sở Đại lý, cho phép các nhà phát triển chú thích Đại lý dưới dạng NFT và tạo ra Đại lý của riêng họ, cũng như xây dựng Một Hợp đồng Đại lý bằng cách kết hợp Đại lý để đáp ứng các yêu cầu phức tạp. Quá trình này đánh giá hiệu suất và liên kết của các Đại lý khác nhau thông qua chứng minh về sự chuyên nghiệp và chứng minh về sự cộng tác.
  • Spectral Labs có hai sản phẩm chính, Spectral Syntax, một nền tảng cho phép người dùng tạo ra Đại lý trên chuỗi, và Spectral Nova, một dịch vụ suy luận hỗ trợ yêu cầu dịch vụ suy luận. Việc tạo Đại lý trong Spectral Syntax sử dụng dịch vụ suy luận của Spectral Nova, và việc suy luận đó được đảm bảo bằng chứng ZK để đảm bảo nó hoạt động. Đồng thời, họ sẽ ra mắt Inferchain để cho phép giao tiếp từ Đại lý sang Đại lý.
  • Autonolas hỗ trợ xây dựng các dịch vụ bao gồm nhiều Đại lý, cho phép Chủ dịch vụ tạo dịch vụ và đăng ký dịch vụ tương ứng trong đăng ký dịch vụ để bắt đầu quy trình làm việc, yêu cầu nhà phát triển cung cấp các thành phần Đại lý và vân vân. Nhà phát triển có thể phát triển Đại lý, các thành phần và mã khác được lưu trữ ngoại mạng, đúc NFT tương ứng trên chuỗi, và tham chiếu đến bản tóm tắt IPFS, sau đó tham chiếu đến mã nguồn cơ bản bằng cách tham chiếu đến bản tóm tắt IPFS. Các dịch vụ thường được chạy bởi một tập hợp các Nhà điều hành, mỗi người chạy ít nhất một phiên bản Đại lý. Ngoài ra, Autonolas đạt được sự nhất trí trong dịch vụ cho các đại lý của mình thông qua một Thiết bị Gadget nhất trí thiết lập thỏa thuận giữa các đại lý trong dịch vụ.

Nền tảng giám sát đại lý

  • AgentOpsAI là đối tác của sentient, cung cấp dịch vụ giám sát Agent (sự kiện nhật ký, cuộc gọi, lỗi Agent, v.v.), hiện tại là một nền tảng tập trung, không liên quan đến token nào.

Quy trình

Dựa trên các đại lý khác nhau có thể kết hợp/trừu tượng/hình thành một ứng dụng cụ thể, đồng thời, có một số nền tảng phối hợp có sẵn để người dùng lựa chọn loại đại lý nào để sử dụng để xây dựng một loại ứng dụng cụ thể. Nhưng hầu hết chúng đều bị hạn chế trong việc phát triển các đại lý.

Ứng dụng

Nhà phát triển dự án

Một số nhà phát triển sẽ sử dụng một số AI để giúp nền tảng của họ thông minh hơn, ví dụ, trong các dự án bảo mật, học máy được sử dụng để phân biệt các lỗ hổng tấn công; Các giao thức DeFi sử dụng AI để xây dựng các công cụ giám sát thời gian thực; và các nền tảng phân tích dữ liệu cũng sử dụng AI để giúp làm sạch và phân tích dữ liệu.

Người dùng

Cửa sổ Q&A/Phân tích

  • Tại Kaito.ai, người dùng có thể sử dụng Q&A để lấy thông tin về tâm lý cộng đồng dự án, giá cả và di chuyển của nhóm nhân sự cốt lõi.
  • 0xScope, việc sử dụng đồ thị tri thức cơ bản để tích hợp dữ liệu trên chuỗi, cụ thể là đặc điểm hành vi người dùng, để cung cấp dịch vụ phân tích dữ liệu cho người dùng, đã ra mắt cửa sổ Scopechat Q&A đúng thời điểm cho làn sóng AI này.

CỬA HÀNG ỨNG DỤNG AI

  • Myshell đề xuất một lớp người tiêu dùng và tạo cửa hàng ứng dụng trí tuệ nhân tạo, cung cấp các thành phần trí tuệ nhân tạo khác nhau và ba chế độ tạo ra để giúp người dùng tạo ra các ứng dụng trí tuệ nhân tạo khác nhau. Các tiện ích được chia thành các thành phần cơ bản và hợp thành. Các thành phần cơ bản cho phép người dùng tạo các tài sản Prompt, Voice, Avatar và các tài sản khác vào các ứng dụng trí tuệ nhân tạo, trong khi các thành phần hợp thành cho phép xây dựng các thành phần tùy chỉnh bằng cách kết hợp nhiều mô hình/thành phần cơ bản khác nhau. Chế độ tạo ra bao gồm, chế độ cổ điển, phát triển và không mã cho ba chế độ dành cho các nhà phát triển và người dùng có năng lực và nhu cầu khác nhau.

Tóm tắt

Trong bài viết này, chúng tôi muốn nêu bật 3 điểm sau đây:

  • GPUAI

Trong tiền điện tử, một số mạng máy tính nảy sinh tạo cảm giác cho người dùng rằng GPU là Trí tuệ nhân tạo, nhưng như đã phân tích ở phần trước, có một bài toán tam quan trọng không thể giải quyết được của mạng máy tính, tức là sức mạnh tính toán, băng thông/giao tiếp và bộ nhớ, cũng như ba loại chiến lược song song được sử dụng trong huấn luyện mô hình, chẳng hạn như song song dữ liệu, song song tensor và song song đường ống, tất cả đều chỉ ra sự cân nhắc và cân nhắc được áp đặt trong việc thiết lập cơ cấu của mạng máy tính.

  • Cùng mô hình và cùng dữ liệuCùng kết quả

Lý do đằng sau việc cùng một mô hình và dữ liệu không nhất thiết cho ra cùng một kết quả là việc sử dụng tính toán dấu chấm động. Sự khác biệt trong tính toán cũng ảnh hưởng đến việc xây dựng mạng tính toán.

  • Thêm Đại Lý AI

Các Đại lý Trí tuệ nhân tạo chỉ mới bắt đầu thể hiện tính hữu ích hơn trong những năm gần đây, và chúng tôi mong đợi sẽ có thêm Đại lý xuất hiện trên thị trường. Nhưng cách mà Đại lý hoạt động trong tiền điện tử hoặc cách tìm kiếm đúng động lực token vẫn là một thách thức.

Tuyên bố:

  1. Bài viết này được sao chép từ[Đau vừa],原文标题"AI into Crypto",著作权归属原作者[Vốn HashKey],如对转载有异议,请联系Nhóm Học viện Gate,đội ngũ sẽ xử lý càng sớm càng tốt theo quy trình liên quan.

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. Bản dịch tiếng khác của bài viết được dịch bởi nhóm Gate Learn, trong trường hợp không được đề cậpGate.ioKhông được sao chép, phân phối hoặc bắt chước bài viết đã được dịch.

AI vào Tiền điện tử

Trung cấp9/19/2024, 2:23:31 AM
Việc ra mắt ChatGPT vào tháng 11 năm 2022 đã mở ra mắt của nhiều người chơi trong ngành đến mô hình ngôn ngữ lớn AI. Sự năng động hỗn loạn này đã lan tỏa vào không gian Tiền điện tử, và bài viết này nhằm mục đích giới thiệu về sự phát triển của AI, tình hình hiện tại của nó, và ngành công nghiệp đã nảy sinh từ sự kết hợp giữa AI+Tiền điện tử.

Sự ra mắt của ChatGPT vào tháng 11 năm 2022 đã mở ra mắt của nhiều người chơi trong ngành đến mô hình ngôn ngữ lớn của AI. Sự năng động hỗn loạn này đã xâm nhập không gian Tiền điện tử, và bài viết này nhằm giới thiệu sự phát triển của AI, tình hình hiện tại của nó, và ngành công nghiệp đã nảy sinh từ sự kết hợp của AI+Crypto.

Sự phát triển của trí tuệ nhân tạo và tình hình hiện tại của nó

Loại hình và Kiến trúc

Machine learning (ML) là một công nghệ với khả năng học tập kinh nghiệm, học để phân biệt động vật, dịch ngôn ngữ và các nhiệm vụ cụ thể khác thông qua việc học từ các bộ dữ liệu lớn. Machine learning thuộc về cách thực tế nhất để thực hiện trí tuệ nhân tạo hiện nay, theo việc dữ liệu đã học có nhãn và tính năng nó có thể được chia thành học có giám sát và học không giám sát.

Có nhiều loại mô hình có thể thực hiện việc học có giám sát, bao gồm các mô hình dựa trên cây, mô hình đồ thị, và các mạng nơ-ron mới xuất hiện gần đây. Với sự phát triển nhanh chóng của công nghệ tính toán và dữ liệu, học sâu đã được phát triển tiếp theo dựa trên kiến trúc của các mạng nơ-ron. Các kiến trúc học sâu hiện tại thông thường bao gồm, nhưng không giới hạn, CNNs, RNNs, và các cơ chế chú ý.

Phân loại học máy, nguồn: HashKey Capital

Các mạng học sâu khác nhau có cấu trúc cơ bản của lớp đầu vào, lớp ẩn và lớp đầu ra, lớp đầu vào thường là văn bản, video, âm thanh và dữ liệu khác sau khi được xử lý “tokenize/embedding”. Lớp ẩn có thiết kế khác nhau (hình dạng mô hình) tùy thuộc vào bộ dữ liệu và mục đích của nhiệm vụ, như được hiển thị trong bảng.

Các loại mạng thần kinh, Nguồn: Được tổ chức bởi HashKey Capital

Ba Mươi Năm Phát Triển Mạng Nơron

30 năm phát triển mạng thần kinh, nguồn: tổ chức bởi HashKey Capital

Đào tạo mạng nơ-ron lần đầu tiên bắt nguồn từ những năm 1980 khi Jordan huấn luyện một mạng nơ-ron để học các mẫu tuần tự trong bài báo của ông vào năm 1986 Serial Order: Một cách tiếp cận xử lý phân tán song songMạng nhỏ chỉ có vài tế bào thần kinh.

Trong những năm 1990, Jeffrey Ehrman đã mở rộng mạng nơ-ron thành một mạng 50 nơ-ron với việc phát hiện rằng mạng không gian các từ dựa trên ý nghĩa. Ví dụ, nó phân tách danh từ không sống và sống, và trong hai danh mục này, các đối tượng sống được chia thành loại người và phi người, và không sống được phân loại thành có thể bị vỡ và ăn được. Điều này cho thấy rằng mạng có khả năng học các giải thích phân cấp.

Anh ta cũng quan sát thêm rằng từ có thể được biểu diễn dưới dạng các điểm trong không gian nhiều chiều, và sau đó một chuỗi các từ hoặc câu có thể được xem như một đường đi. Bước tiến lớn này cho phép tập dữ liệu văn bản được số hóa, vector hóa và xử lý bởi máy tính.

Nguồn:http://3b1b.co/neural-networks

Năm 2011, các nhà nghiên cứu Confluence đã huấn luyện các mạng lưới lớn hơn bao gồm hàng nghìn tế bào thần kinh và triệu kết nối, và một chướng ngại đã được tìm thấy trong nghiên cứu về khả năng của mạng lưới duy trì ngữ cảnh mạch lạc qua các chuỗi dài.

Năm 2017, OpenAI đã phát triển dựa trên công việc của Kathy bằng cách huấn luyện trên 82 triệu đánh giá Amazon trong đó các tế bào não cảm xúc đã được phát hiện. Các tế bào não này phân loại hoàn hảo các cảm xúc của văn bản.

Nguồn: Học cách tạo ra nhận xét và khám phá tâm trạng

Về các hạn chế về kích thước bối cảnh, bài báo Attention Is All You Need năm 2017 đưa ra một giải pháp. Bài báo tạo ra một mạng lưới tầng động thích ứng trọng số kết nối dựa trên ngữ cảnh của mạng lưới. Nó hoạt động bằng cách cho phép các từ trong đầu vào xem xét, so sánh với các từ khác và tìm ra những từ có liên quan nhất. Càng gần nhau về mặt khái niệm, càng gần nhau về không gian và có thể có trọng số kết nối cao hơn. Tuy nhiên, bài báo chỉ tập trung vào vấn đề dịch thuật.

Do đó, các nhà nghiên cứu của OpenAI đã thử nghiệm một kiến trúc biến áp mạnh mẽ hơn và ra mắt GPT-3 vào năm 2020, thu hút sự chú ý rộng rãi từ các ngành công nghiệp trên toàn thế giới, lần này mạng có 175 tỷ tham số, 96 lớp, và cửa sổ ngữ cảnh 1,000 từ.

Mạng thần kinh là gì?

Ví dụ, hình ảnh kỹ thuật số 28x28 pixel sau đây, các tế bào thần kinh tương ứng với mỗi pixel của hình ảnh đầu vào 28x28, tổng cộng 784 tế bào thần kinh, các con số trong các tế bào thần kinh là giá trị kích hoạt, có giá trị từ 0-1.

Hình ảnh kỹ thuật số 28x28 pixel, Nguồn: http://3b1b.co/neural-networks

Các tế bào thần kinh này hình thành lớp đầu vào của mạng. Lớp cuối cùng là lớp đầu ra, chứa mười tế bào thần kinh đại diện cho các số từ 0–9, một lần nữa với các giá trị kích hoạt dao động từ 0–1. Lớp giữa là lớp ẩn, nơi giá trị kích hoạt của lớp trước xác định giá trị kích hoạt của lớp tiếp theo khi mạng thần kinh hoạt động.

Độ sâu của việc học sâu nằm ở chỗ mô hình học được nhiều “lớp” biến đổi, mỗi lớp có một biểu diễn khác nhau. Như được thể hiện trong hình dưới đây, ví dụ, ở 9, các lớp khác nhau có thể nhận ra các đặc điểm khác nhau. Càng gần lớp đầu vào với mức độ chi tiết thấp của dữ liệu, càng gần lớp đầu ra với những khái niệm cụ thể hơn có thể được sử dụng để phân biệt.

Nguồn:http://3b1b.co/mang-neural

Khi mô hình trở nên lớn hơn, các lớp ẩn ở giữa liên quan đến hàng trăm tỷ trọng số mỗi lớp, và chính những trọng số và sai số này thực sự quyết định điều mà mạng thực sự đang làm. Quá trình học máy là quá trình tìm ra các tham số phù hợp, đó là trọng số và sai số.

Kiến trúc biến áp được sử dụng trong GPT, một mô hình ngôn ngữ lớn, có một lớp ẩn trung gian bao gồm 96 lớp các mô-đun bộ giải mã, trong đó GPT1, GPT2 và GPT3 có 12, 48 và 96 lớp, tương ứng. Bộ giải mã lần lượt chứa các thành phần chú ý và mạng nơ-ron phản hồi tiến.

Phương pháp đào tạo

Quá trình tính toán hoặc học tập liên quan đến việc định nghị một hàm chi phí (hoặc hàm mất mát) tính tống cống của các tệ bài vuông về sự khác biệt giữa dữ đáng định lượng đầu ra của mạng và các giá trị thực tế, và khi tống là nhệ, mô hình hoạt động trong giới hạn chỉ chỉnh.

Việc huấn luyện bắt đầu bằng cách ngẫu nhiên tham số hóa mạng và hoàn thiện các tham số mô hình của mạng bằng cách tìm tham số tối thiểu hóa hàm chi phí. Cách để hội tụ hàm chi phí là bằng phương pháp gradient descent, bằng cách kiểm tra mức độ tác động của mỗi thay đổi tham số đối với chi phí/mất mát, sau đó các tham số sẽ được điều chỉnh theo mức độ tác động đó.

Quá trình tính toán độ dốc tham số giới thiệu quá trình lan truyền ngược hoặc lan truyền ngược, đi qua mạng từ lớp đầu ra đến lớp đầu vào theo thứ tự ngược lại theo quy tắc chuỗi. Thuật toán cũng yêu cầu lưu trữ bất kỳ biến số trung gian nào (đạo hàm riêng) cần thiết để tính toán độ dốc.

Yếu tố phát triển

Có ba yếu tố chính ảnh hưởng đến hiệu suất của các mô hình ngôn ngữ lớn AI trong quá trình huấn luyện của chúng, đó là số lượng tham số của mô hình, kích thước tập dữ liệu và lượng tính toán.

Nguồn: Báo cáo OpenAI, Luật phát triển cho các mô hình ngôn ngữ Neural

Điều này phù hợp với sự phát triển của bộ dữ liệu và máy tính (sức mạnh tính toán) trong thực tế, nhưng cũng có thể thấy trong bảng dưới đây rằng sức mạnh tính toán đang phát triển nhanh hơn so với dữ liệu có sẵn, trong khi bộ nhớ phát triển chậm nhất.

Sự phát triển của bộ dữ liệu, bộ nhớ và sức mạnh tính toán, Nguồn: https://github.com/d2l-ai

Dữ liệu

Yêu cầu dữ liệu

Đối diện với một mô hình lớn, việc quá mức phù hợp thường xảy ra khi dữ liệu huấn luyện quá nhỏ, và nói chung, độ chính xác của mô hình phức tạp hơn cải thiện khi lượng dữ liệu tăng. Về yêu cầu dữ liệu cần thiết cho một mô hình lớn, có thể quyết định dựa trên quy tắc 10, ngụ ý rằng lượng dữ liệu phải là 10 lần số tham số, nhưng một số thuật toán học sâu áp dụng 1:1.

Dữ liệu được gán nhãn

Học có giám sát đòi hỏi việc sử dụng tập dữ liệu được gán nhãn + có tính năng để đạt được kết quả hợp lệ.

Nguồn: Bộ dữ liệu phân loại quần áo Fashion-MNIST

Dữ liệu tổng hợp

Mặc dù dữ liệu tăng nhanh trong thập kỷ qua và các bộ dữ liệu mã nguồn mở hiện có bao gồm Kaggle, Azure, AWS, Google database, vv., Nhưng lượng dữ liệu hạn chế, khan hiếm và đắt đỏ đang dần trở thành một rào cản đối với việc phát triển trí tuệ nhân tạo do vấn đề về quyền riêng tư, việc tăng số lượng tham số mô hình và khả năng tái tạo dữ liệu. Các giải pháp dữ liệu khác nhau được đề xuất nhằm giảm bớt vấn đề này.

Các kỹ thuật tăng cường dữ liệu có thể là một giải pháp hiệu quả bằng cách cung cấp dữ liệu không đủ cho mô hình mà không cần thu thập mẫu mới, chẳng hạn như tỷ lệ, quay, phản chiếu, cắt, dịch chuyển, thêm nhiễu Gaussian, mixup, v.v.

Dữ liệu tổng hợp là một lựa chọn khác. Dữ liệu tổng hợp là dữ liệu có thể được tạo ra nhân tạo bằng mô phỏng máy tính hoặc thuật toán với hoặc không cần tập dữ liệu tham chiếu trước đó. Liên quan đến việc phát triển các công cụ tạo dữ liệu tổng hợp, Ian J. Goodfellow đã phát minh ra Mạng đối địch sinh (GAN), đó là một kiến trúc học sâu.

Nó huấn luyện hai mạng thần kinh để cạnh tranh với nhau có thể tạo ra dữ liệu mới, chân thực hơn từ một bộ dữ liệu huấn luyện cụ thể. Kiến trúc hỗ trợ tạo ra hình ảnh, điền thông tin bị thiếu, tạo dữ liệu huấn luyện cho các mô hình khác, tạo ra mô hình 3D dựa trên dữ liệu 2D, và nhiều hơn nữa.

Đó vẫn còn sớm trong quá trình phát triển của lĩnh vực này, với hầu hết các công ty hiện tại đang làm dữ liệu tổng hợp được thành lập vào năm 2021 hoặc 2022, và một số ít vào năm 2023.

Tình hình tài chính cho các công ty dữ liệu tổng hợp. Nguồn : https://frontline.vc/blog/synthetic-data/

Cơ sở dữ liệu Vector

Quá trình đào tạo AI liên quan đến một số lượng lớn các phép toán ma trận, từ nhúng từ, ma trận transformer QKV, đến các phép toán softmax, và qua các phép toán ma trận này, toàn bộ các tham số của mô hình cũng được chứa trong ma trận.

ví dụ về cơ sở dữ liệu vector, Nguồn: https://x.com/ProfTomYeh/status/1795076707386360227

Tài nguyên phần cứng máy tính

Các mô hình lớn mang lại nhu cầu phần cứng máy tính khổng lồ, chủ yếu được phân loại thành huấn luyện và suy luận.

Huấn luyện trước, điều chỉnh tinh chỉnh và suy luận

Quá trình tiền huấn luyện và điều chỉnh tinh chỉnh có thể được chia thành phần huấn luyện. Như đã đề cập trước đó, việc xây dựng một mô hình mạng đầu tiên yêu cầu việc khởi tạo ngẫu nhiên các tham số, sau đó huấn luyện mạng và liên tục điều chỉnh các tham số cho đến khi mất mạng đạt đến mức chấp nhận được. Sự khác biệt giữa tiền huấn luyện và điều chỉnh tinh chỉnh là

Quá trình huấn luyện trước bắt đầu với mỗi lớp tham số từ việc khởi tạo ngẫu nhiên, trong khi một số lớp tinh chỉnh có thể trực tiếp sử dụng các tham số của mô hình đã được huấn luyện trước đó như là các tham số khởi tạo cho nhiệm vụ này (đóng băng các tham số của các lớp trước đó) và tác động lên một tập dữ liệu cụ thể.

Nguồn:https://d2l.ai/chapter_computer-vision/fine-tuning.html

Việc chuẩn bị trước và điều chỉnh tinh chỉnh đều liên quan đến việc thay đổi tham số mô hình, cuối cùng dẫn đến việc tối ưu hóa mô hình hoặc tham số, trong khi suy luận là việc tính toán suy luận bằng cách tải một mô hình sau khi người dùng nhập và cuối cùng là nhận phản hồi và kết quả đầu ra.

Việc tiền xử lý, điều chỉnh và suy luận được xếp hạng từ lớn nhất đến nhỏ nhất về yêu cầu máy tính của chúng. Bảng dưới đây so sánh yêu cầu phần cứng máy tính của việc đào tạo và suy luận. Yêu cầu phần cứng máy tính của hai tác vụ này khác biệt đáng kể về sức mạnh tính toán, bộ nhớ và giao tiếp/băng thông do sự khác biệt trong quá trình tính toán và yêu cầu độ chính xác, và đồng thời có một Tam giác bất khả thi trong sức mạnh tính toán, bộ nhớ và giao tiếp/băng thông.

Các đo lường thống kê trong bảng này dựa trên một mô hình duy nhất xử lý một mã thông báo duy nhất, một tham số duy nhất. \ FLOPs: số phép tính dấu chấm động trên giây, số lượng phép tính ma trận.
*DP, TP, PP: dữ liệu song song, tensor song song, song song ống dẫn.

So sánh phần cứng máy tính giữa việc đào tạo và suy luận, Nguồn: Được tổ chức bởi HashKey Capital

Quá trình huấn luyện mạng neural đòi hỏi việc luân phiên giữa truyền và lan truyền ngược, sử dụng độ dốc được cung cấp bởi lan truyền ngược để cập nhật các thông số mô hình. Trong khi đó, suy luận chỉ đòi hỏi truyền ngược. Sự khác biệt này trở thành một yếu tố ảnh hưởng chủ yếu phân biệt yêu cầu tài nguyên phần cứng máy tính cho quá trình huấn luyện và suy luận.

Về sức mạnh tính toán, như được thể hiện trong bảng, có một mối quan hệ nhân chập giữa số lượng tham số mô hình và tiêu thụ công suất tính toán, với quá trình đào tạo yêu cầu 6-8 phép toán dấu phẩy động và suy luận yêu cầu 2. Điều này là do quá trình lan truyền ngược liên quan đến việc đào tạo, yêu cầu gấp đôi lượng công suất tính toán so với lan truyền xuôi, và do đó tiêu thụ công suất tính toán của quá trình đào tạo cao hơn nhiều so với suy luận.

Về mặt bộ nhớ, quá trình lan truyền ngược được sử dụng để huấn luyện tái sử dụng các giá trị trung gian được lưu trữ trong quá trình lan truyền tiến để tránh tính toán lặp lại. Do đó, quá trình huấn luyện cần giữ các giá trị trung gian cho đến khi quá trình lan truyền ngược hoàn tất. Sự tiêu thụ bộ nhớ kết quả trong quá trình huấn luyện chủ yếu chứa các thông số mô hình, giá trị kích hoạt trung gian được tạo ra trong quá trình tính toán tiến, độ dốc được tạo ra bởi tính toán lan truyền ngược và trạng thái tối ưu hóa. Giai đoạn suy luận không cần lan truyền ngược, và không cần trạng thái tối ưu hóa và độ dốc, v.v., và việc sử dụng bộ nhớ tiêu thụ ít hơn nhiều so với quá trình huấn luyện.

Về khía cạnh truyền thông/băng thông, để cải thiện hiệu suất đào tạo AI, việc đào tạo mô hình chính thường sử dụng ba chiến lược song song: song song dữ liệu, song song tensor và song song đường ống.

  • Data parallel đề cập đến việc sao chép nhiều bản sao mô hình chạy trên các thiết bị khác nhau, với mỗi bản sao mô hình hoạt động trên các bộ dữ liệu khác nhau, và đồng bộ hóa dữ liệu gradient trong quá trình huấn luyện.
  • Song song đường ống, ång khác, chia các lớp ẩn trung gian và mỗi nút tính toán chịu trách nhiệm cho một số lớp biến áp này. Phương pháp này cũng được gọi là song song trung gian.
  • Tensor parallelism, on the other hand, splits each of these transformer modules and is also known as intra-layer parallelism.

Nguồn: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

Đối với ba chiến lược này, người ta dự đoán rằng tần số truyền thông TP là lớn nhất, khối lượng giao tiếp cao nhất và liên quan đến số lượng mã thông báo, độ rộng mô hình và số lớp. Khối lượng và tần số truyền thông của PP nhỏ hơn TP và có liên quan đến số lượng mã thông báo và chiều rộng của mô hình. Khối lượng và tần số giao tiếp của DP là nhỏ nhất và độc lập với các mã thông báo đầu vào.

Tam Giác Không Thể

Choke point của tài nguyên phần cứng máy tính trong các mô hình lớn chủ yếu bị hạn chế bởi sức mạnh tính toán, băng thông/ giao tiếp và bộ nhớ, và có sự cân bằng giữa ba yếu tố này, dẫn đến vấn đề Tam giác không thể thực hiện. Ví dụ, do những chặn trở trong giao tiếp, hiệu suất của cụm không thể được cải thiện chỉ bằng cách tối ưu hóa công suất của một máy tính đơn lẻ.

Do đó, mặc dù các kiến trúc song song được sử dụng để tăng tốc hiệu suất cụm, hầu hết các kiến trúc song song thực tế đều hy sinh giao tiếp hoặc lưu trữ để tăng cường sức mạnh tính toán.

Hy sinh việc truyền thông và lưu trữ để có sức mạnh tính toán:

Trong PP, nếu mỗi lớp của bộ biến áp được gán một GPU, mặc dù có sự tăng cường về sức mạnh tính toán trong đơn vị thời gian, yêu cầu giao tiếp giữa các lớp cũng tăng, dẫn đến việc tăng dung lượng dữ liệu và độ trễ. Ngoài ra, yêu cầu lưu trữ trạng thái trung gian cho truyền tải tiến ngược cũng tăng nhanh chóng.

Hi sinh giao tiếp để tăng công suất tính toán:

Trong TP, mỗi bộ biến áp được tháo rời để tính toán song song. Khi bộ biến áp bao gồm hai thành phần (đầu chú ý và mạng truyền ngược), nhiệm vụ có thể được chia trong lớp cho cả đầu chú ý hoặc mạng nơ-ron truyền ngược. Phương pháp TP này có thể giảm bớt vấn đề về cấu trúc phân cấp quá nhiều trong PP do GPU không thể vừa với mô hình. Tuy nhiên, phương pháp này vẫn gặp phải chi phí giao tiếp nghiêm trọng.

Tiền điện tử+Trí tuệ nhân tạo

Trong bài báo này, chúng tôi tin rằng hiện tại có các danh mục chính sau về trí tuệ nhân tạo trong lĩnh vực tiền điện tử:

Nguồn: Được tổ chức bởi HashKey Capital

Như đã đề cập trước đó, ba thành phần quan trọng nhất trong trí tuệ nhân tạo là dữ liệu, mô hình và sức mạnh tính toán, đóng vai trò là cơ sở hạ tầng để tăng cường Trí tuệ nhân tạo về tiền điện tử.

Sự kết hợp của họ thực sự tạo thành một mạng máy tính, với một số lượng lớn các phần mềm trung gian xuất hiện trong quá trình tính toán để hiệu quả hơn và phù hợp hơn với tinh thần tiền điện tử. Ở dưới là các Đại lý dựa trên các kết quả có thể xác minh này, có thể phục vụ các vai trò khác nhau cho các đối tượng người dùng khác nhau.

Một biểu đồ luồng khác có thể được sử dụng để diễn tả cơ bản về sinh thái của trí tuệ nhân tạo tiền điện tử như sau:

Sơ đồ sinh thái, nguồn: tổ chức bởi HashKey Capital

Tất nhiên, cơ chế tokenomic cần thiết trong không gian tiền điện tử để khuyến khích việc phối hợp tham gia của các bên tham gia khác nhau.

Dữ liệu

Đối với các bộ dữ liệu, người ta có thể lựa chọn giữa các nguồn dữ liệu công cộng hoặc các nguồn dữ liệu riêng tư cụ thể của mình.

Nguồn dữ liệu:

  • Grass là dự án thu thập nguồn dữ liệu trên nền tảng Solana, nguyên nhân là do nhiều công ty chặn việc thu thập IP từ các trung tâm dữ liệu nhưng không chặn người dùng cá nhân, Grass hoạt động như một nhà cung cấp dịch vụ phi tập trung khuyến khích người dùng cá nhân đóng góp băng thông của họ thông qua token.
  • Vana as DATA DAO cũng cung cấp giải pháp riêng của mình, trong đó người tạo tạo ra các data dao khác nhau cho các nguồn dữ liệu khác nhau trên chuỗi và thiết lập các chương trình khuyến khích khác nhau cho người dùng tải lên dữ liệu của họ. Đến nay, đã có data dao được tạo ra cho reddit (rDAO) nơi hơn 154.000 người dùng cung cấp dữ liệu cá nhân của họ cho rDAO để huấn luyện AI.
  • Dữ liệu liên quan được thu thập dưới dạng DePINs, cho phép người dùng kết nối phương tiện của họ với nền tảng DIMO thông qua một thiết bị phần cứng, ví dụ. Thông tin cơ bản về phương tiện đó và dữ liệu mẫu lái xe nâng cao hơn, v.v. sẽ được truyền một cách an toàn đến mạng lưới DIMO, được lưu trữ trên chuỗi và liên kết với ID phương tiện tương ứng (NFT). Một ví dụ khác là Hivemapper thu thập dữ liệu bản đồ trong khi người dùng đang lái xe.

Nền tảng dữ liệu tổng hợp:

  • Dria là một nền tảng tạo dữ liệu tổng hợp (OPStack L2) khuyến khích người dùng tạo/giao dịch dữ liệu tổng hợp một cách phi tập trung. Dữ liệu của nó được lưu trữ trong Arweave thông qua HollowDB. Khi người dùng khởi tạo yêu cầu tạo dữ liệu tổng hợp, Dria sẽ chấp nhận yêu cầu và chia nhiệm vụ cho các nút tính toán trong mạng dữ liệu tổng hợp để thực thi, và sau khi xác minh mạng, dữ liệu tổng hợp cuối cùng có thể được giao dịch trên thị trường kiến thức.

Khác:

Nền tảng dịch vụ gán nhãn dữ liệu, thông qua việc giao nhiệm vụ gán nhãn cho các công nhân khác nhau, những người này có thể nhận được động lực token tương ứng sau khi hoàn thành nhiệm vụ như Crypto, Public AI và như vậy. Tuy nhiên, vấn đề hiện tại là có nhiều người tham gia gán nhãn dữ liệu hơn là dữ liệu, trong khi các công ty AI có các nhà cung cấp dữ liệu gắn nhãn ổn định cho nhu cầu dữ liệu của họ, do sự tồn tại bám chặt khiến ý muốn của họ chuyển đổi sang các nền tảng phi tập trung yếu. Những nền tảng này có thể chỉ có thể nhận được phần còn lại của đơn đặt hàng từ các nhà cung cấp gán nhãn dữ liệu.

Mạng máy tính

Mạng Máy Tính Tổng Quát

Mạng lưới tính toán tổng quát, chỉ đến mạng lưới tổng hợp tài nguyên như GPU và CPU để có thể cung cấp dịch vụ tính toán tổng quát nghĩa là không phân biệt giữa việc huấn luyện và suy luận.

  • Akash, một dự án năm 2020, hoạt động như một thị trường để phù hợp nguồn cung và cầu tính toán, cho phép nhà cung cấp tính toán đấu thầu đơn hàng, với các cặp phù hợp cuối cùng được tải lên blockchain như các giao dịch. Một máy chủ xác nhận riêng biệt chịu trách nhiệm đóng gói các khối và thực hiện xác nhận. Quá trình này không liên quan đến cách nhiệm vụ trí tuệ nhân tạo được giao, cũng không xác nhận quá trình tính toán và kết quả, trong khi không phân biệt giữa việc huấn luyện và suy luận.
  • io.net, cho đến tháng 6 năm 2022, phát triển hệ thống giao dịch định lượng cấp uỷ thác chủ yếu cho thị trường chứng khoán Mỹ và thị trường tiền điện tử, phát hiện ra Ray.io, một thư viện Python mã nguồn mở để xây dựng hệ thống phân tán hiệu suất cao, trên đường đi. io.net tận dụng Ray và các thư viện chuyên biệt cho luồng dữ liệu, đào tạo, điều chỉnh tốt và kết hợp với Mesh VPNs (giúp đơn giản hóa quá trình phát triển và triển khai các mô hình trí tuệ nhân tạo quy mô lớn trên mạng lưới rộng lớn của GPU) để cung cấp dịch vụ tính toán.
  • Bittensor, như một nền tảng mở, cho phép người dùng tạo ra các mạng con trên nền tảng của nó, mỗi mạng con có động cơ duy nhất của riêng mình để thúc đẩy người dùng khác tham gia như các thợ mạng con, các nhà xác minh mạng con, các thợ mạng con để chạy các nhiệm vụ cụ thể, và các nhà xác minh để xác minh các nhiệm vụ của các thợ mạng con này.
  • Aethir, là một cơ sở hạ tầng máy chủ đám mây cung cấp dịch vụ chất lượng cao cho trí tuệ nhân tạo và game đám mây. Aethir tập trung vào việc tổng hợp tài nguyên GPU chất lượng cao, như chip NVIDIA's H100, từ các trung tâm dữ liệu, các công ty công nghệ, các nhà mạng, các studio game hàng đầu và các công ty đào tiền điện tử. Mạng lưới bao gồm 3 nhân vật chính: Container, Checker và Indexer. Containers, bao gồm Aethir Edge, là nơi tài nguyên tính toán được sử dụng thực sự. Checker đảm bảo tính toàn vẹn và hiệu suất của Container. Nếu cần, Indexer sẽ phù hợp người dùng cuối với Containers thích hợp dựa trên yêu cầu của người dùng cuối.

Mạng cụ thể cho tính toán

Đào tạo trước

Trong lĩnh vực Tiền điện tử, Gensyn, được đầu tư bởi a16z, đề xuất một mạng tính toán đào tạo phi tập trung.

Quá trình là sau khi người dùng gửi một nhiệm vụ huấn luyện, nội dung cần phân tích, đánh giá công suất tính toán cần thiết cũng như chia nhọ nó thành một số tác vụ máy học tổi thiểu, lúc đó người xác nhận để thường xuyên lấy nhiệm vụ đã được phân tích để tạo ngăn ngữ cho việc so sánh của các bằng chủng học xuống dưới.

Khi nhiệm vụ đã nhập vào giai đoạn đào tạo, nó được thực thi bởi Solver, người định kỳ lưu trữ trọng số mô hình và chỉ mục phản hồi từ tập dữ liệu đào tạo cũng như tạo ra bằng chứng học hỏi, và người xác minh cũng thực hiện công việc tính toán chạy lại một số bằng chứng để thực hiện các phép tính khoảng cách để xác minh rằng chúng khớp với các bằng chứng. Những người tiết lộ thông tin thực hiện trọng tài dựa trên một chương trình thách thức chỉ rõ dựa trên Đồ thị để kiểm tra xem công việc xác minh đã được thực hiện đúng cách hay không.

Điều chỉnh tinh chỉnh

Việc điều chỉnh tinh chỉnh dễ dàng và ít tốn kém hơn việc huấn luyện trước một mô hình lớn trực tiếp, chỉ đơn giản bằng cách điều chỉnh tinh chỉnh mô hình đã được huấn luyện trước với một tập dữ liệu cụ thể, và điều chỉnh mô hình cho một nhiệm vụ cụ thể trong khi bảo tồn mô hình ban đầu.

Hugging Face có thể được truy cập như một nhà cung cấp tài nguyên mô hình ngôn ngữ được đào tạo trước cho nền tảng phân tán, người dùng chọn mô hình để được tinh chỉnh theo yêu cầu nhiệm vụ và sau đó sử dụng GPU và các tài nguyên khác do mạng máy tính cung cấp để tinh chỉnh nhiệm vụ, cần dựa trên độ phức tạp của nhiệm vụ để xác định kích thước của tập dữ liệu, độ phức tạp của mô hình và xác định thêm nhu cầu sử dụng tài nguyên cấp cao hơn như A100.

Ngoài Gensyn, một nền tảng có thể hỗ trợ việc huấn luyện trước, hầu hết các nền tảng máy tính cũng có thể hỗ trợ điều chỉnh tinh chỉnh.

Suy luận

So với việc huấn luyện (tiền huấn luyện và điều chỉnh tinh chỉnh), đòi hỏi điều chỉnh các tham số mô hình, quá trình tính toán của suy luận chỉ liên quan đến truyền tiến và đòi hỏi ít sức mạnh tính toán hơn. Hầu hết các mạng tính toán phân tán hiện tại tập trung vào dịch vụ suy luận.

  • Mạng lưới Nosana là một nền tảng để chạy các khối lượng công việc suy luận trí tuệ nhân tạo cung cấp dịch vụ tính toán hướng tới quá trình suy luận cho các mô hình LLama 2 và Stable Diffusion.
  • Ritual.AI, giai đoạn đầu tiên của nền tảng là Infernet, một khung công tác nhẹ. Với nó, các nhà phát triển hợp đồng thông minh có thể yêu cầu các dịch vụ suy luận từ ngoài chuỗi và cung cấp nó cho các hợp đồng thông minh trên chuỗi. Giai đoạn thứ hai là lớp thực thi, Ritual Chain, hỗ trợ các hoạt động gốc AI.

Các lớp/miền trung bổ sung

Khi suy luận được thực hiện giai đoạn này đã là giai đoạn sử dụng mô hình, sau đó middleware có thể được giới thiệu vào đúng thời điểm:

  • Khi thực hiện suy luận, thường cần xác định mô hình phù hợp theo yêu cầu công việc.
  • API: Trừu tượng hóa tất cả các giao diện API của các mô hình mã nguồn mở, như Redpill

Hợp đồng thông minh trên chuỗi để truy xuất kết quả của tính toán trí tuệ nhân tạo ngoại chuỗi:

  • Giao thức ORA cung cấp kết quả suy luận được xác minh cho hợp đồng thông minh, ví dụ, nút opML thu thập các yêu cầu opML được gửi từ chuỗi, sẽ chạy suy luận AI, sau đó tải kết quả lên chuỗi và chờ giai đoạn thách thức.

Một lớp bảo mật khác có thể được thêm vào mạng máy tính, chủ yếu bao gồm quyền riêng tư dữ liệu và quyền riêng tư mô hình, nơi quyền riêng tư dữ liệu quan trọng hơn nhiều so với quyền riêng tư mô hình.

  • Hiện tại, giao thức Oasis sử dụng Intel TDX và NVIDIA TEE để cung cấp tính riêng tư và khả năng xác minh cho việc huấn luyện mô hình AI.

Xác minh

Hầu hết các mạng máy tính xây dựng các hệ thống xác minh khác nhau để đảm bảo rằng hệ thống chạy một cách chính xác, trong khi liên kết là một phần mà chưa được giới thiệu trong lĩnh vực trí tuệ nhân tạo truyền thống.

ZKML

Vai trò chính của chứng minh ZK là 2 điểm sau đây:

  • Được sử dụng để chứng minh tính chính xác của mô hình mà không tiết lộ bất kỳ tham số nào
  • Chứng minh rằng việc tính toán đã được thực hiện đúng và rằng mô hình + đầu vào khớp với các đầu ra: Modulus labs, Giza

Modulus Labs đã chỉ ra rằng có thể tạo ra các bằng chứng cho 18 triệu mô hình tham số trong 60-70 giây bằng cách sử dụng hệ thống chứng minh Plonky của Polygon. Đối với các mô hình nhỏ, có thể sử dụng ZKML ở giai đoạn này, nhưng chi phí vẫn còn đáng kể:

  • Thời gian chứng minh của ZKML tăng theo các tham số tăng lên.
  • Nó rất tốn kém về việc sử dụng bộ nhớ của prover. Ví dụ, Worldcoin sử dụng một mô hình với 1,8 triệu tham số và 50 lớp để phân biệt giữa 10 tỷ mống mắt, cho phép chứng minh suy luận có thể được tạo ra chỉ trong vài phút, nhưng việc tiêu thụ bộ nhớ trong prover quá cao đối với bất kỳ phần cứng di động nào.

Nguồn: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

Với những hạn chế của ZKML được mô tả ở trên, OPML là một sự lựa chọn thay thế. Mặc dù yếu hơn ZKML về mặt bảo mật, nhưng tiêu thụ bộ nhớ và thời gian tính chứng minh của OPML đáng kể tốt hơn so với ZKML. Theo báo cáo của ORA, cho thấy rằng đối với cùng một mô hình 7B-LLaMA (với kích thước mô hình khoảng 26GB) OPML có thể được xử lý trong 32GB bộ nhớ, trong khi tiêu thụ bộ nhớ của mạch trong ZKML có thể lên tới hàng nghìn tỷ byte hoặc thậm chí là petabyte.

TEEML

Môi trường thực thi đáng tin cậy cung cấp bảo mật cấp phần cứng và có thể là một lựa chọn thay thế cho ZKML và OPML. TEE-proof được tạo ra như một kết quả của việc tính toán nội bộ trong TEE và chi phí tính toán của nó thấp hơn nhiều so với zk-proof. Ngoài ra, kích thước chứng chỉ của TEE thường là một hằng số cố định (độ dài chữ ký) và do đó có lợi thế về dấu vết nhỏ gọn và chi phí thấp của việc xác nhận trên chuỗi.

Ngoài việc xác minh, TEE còn có lợi thế là giữ dữ liệu nhạy cảm cô lập, đảm bảo rằng các tiến trình hoặc tính toán bên ngoài không thể truy cập hoặc thay đổi dữ liệu bên trong.

Các dự án sử dụng TEE bao gồm:

  • Mạng Aizel (cung cấp suy luận)
  • Mạng Phala (tập trung vào việc tạo ra AI Agent)
  • Giao thức Oasia (đào tạo mô hình AI)
  • Giao thức Marlin (Oyster có thể triển khai và xác minh các mô hình ML)

Nguồn:https://arxiv.org/pdf/2401.17555,Giao thức Marlin

Ngoài ra, giao thức ORA đã phát triển opp/ai (Optimistic Privacy-Preserving AI on Blockchain) bên cạnh việc xác thực ZKML và OPML của riêng mình, và không được bao gồm trong bảng so sánh ở trên.

Lớp Đại lý

Agent có khả năng phân tích thông tin đầu vào, đánh giá điều kiện môi trường hiện tại và đưa ra quyết định. Cấu trúc của Agent được thể hiện trong hình sau, trong đó LLM là thành phần cốt lõi, ngoài ra, cần cung cấp thông báo phù hợp cho LLM, và thông qua Bộ nhớ để lưu trữ dữ liệu ngắn hạn và dữ liệu lịch sử dài hạn (dữ liệu bên ngoài).

Vì các nhiệm vụ phức tạp không thể hoàn thành ngay lập tức, chúng cần được chia nhỏ thành các nhiệm vụ nhỏ hơn bởi Kế hoạch, ngoài ra, Đại lý cũng có thể gọi các API bên ngoài để có được thông tin bổ sung, bao gồm thông tin hiện tại, khả năng thực thi mã, truy cập vào các nguồn thông tin độc quyền, và cũng như vậy.

Nguồn: Khảo sát về các tác nhân tự trị dựa trên mô hình ngôn ngữ lớn

Khả năng ra quyết định của các Đại lý không có bước đột phá nhất định cho đến khi Mô hình Ngôn ngữ Lớn LLM xuất hiện trong những năm gần đây. Một báo cáo đã tổng hợp số lượng bài báo được xuất bản về Đại lý từ năm 2021 đến 2023, như được thể hiện trong hình dưới đây, thực tế chỉ có khoảng một tá bài báo nghiên cứu vào năm 2021, nhưng có hàng trăm bài báo được xuất bản về chúng vào năm 2023. Bài báo đã phân loại các Đại lý vào 7 danh mục.

Nguồn: Một cuộc khảo sát về các đại lý tự động dựa trên mô hình ngôn ngữ lớn

Trong web3, các kịch bản mà các Đại lý tồn tại vẫn còn hạn chế so với thế giới web2, và hiện tại bao gồm việc thanh toán tự động, xây dựng các thành phần mã (viết hợp đồng thông minh, viết mạch zk), kiểm soát rủi ro thời gian thực, và thực hiện các chiến lược như cơ hội mua bán và trồng cây thu nhập.

Tạo đại lý và các nền tảng giao dịch

  • Theoriq (ChainML) đã giới thiệu khái niệm Lớp Cơ sở Đại lý, cho phép các nhà phát triển chú thích Đại lý dưới dạng NFT và tạo ra Đại lý của riêng họ, cũng như xây dựng Một Hợp đồng Đại lý bằng cách kết hợp Đại lý để đáp ứng các yêu cầu phức tạp. Quá trình này đánh giá hiệu suất và liên kết của các Đại lý khác nhau thông qua chứng minh về sự chuyên nghiệp và chứng minh về sự cộng tác.
  • Spectral Labs có hai sản phẩm chính, Spectral Syntax, một nền tảng cho phép người dùng tạo ra Đại lý trên chuỗi, và Spectral Nova, một dịch vụ suy luận hỗ trợ yêu cầu dịch vụ suy luận. Việc tạo Đại lý trong Spectral Syntax sử dụng dịch vụ suy luận của Spectral Nova, và việc suy luận đó được đảm bảo bằng chứng ZK để đảm bảo nó hoạt động. Đồng thời, họ sẽ ra mắt Inferchain để cho phép giao tiếp từ Đại lý sang Đại lý.
  • Autonolas hỗ trợ xây dựng các dịch vụ bao gồm nhiều Đại lý, cho phép Chủ dịch vụ tạo dịch vụ và đăng ký dịch vụ tương ứng trong đăng ký dịch vụ để bắt đầu quy trình làm việc, yêu cầu nhà phát triển cung cấp các thành phần Đại lý và vân vân. Nhà phát triển có thể phát triển Đại lý, các thành phần và mã khác được lưu trữ ngoại mạng, đúc NFT tương ứng trên chuỗi, và tham chiếu đến bản tóm tắt IPFS, sau đó tham chiếu đến mã nguồn cơ bản bằng cách tham chiếu đến bản tóm tắt IPFS. Các dịch vụ thường được chạy bởi một tập hợp các Nhà điều hành, mỗi người chạy ít nhất một phiên bản Đại lý. Ngoài ra, Autonolas đạt được sự nhất trí trong dịch vụ cho các đại lý của mình thông qua một Thiết bị Gadget nhất trí thiết lập thỏa thuận giữa các đại lý trong dịch vụ.

Nền tảng giám sát đại lý

  • AgentOpsAI là đối tác của sentient, cung cấp dịch vụ giám sát Agent (sự kiện nhật ký, cuộc gọi, lỗi Agent, v.v.), hiện tại là một nền tảng tập trung, không liên quan đến token nào.

Quy trình

Dựa trên các đại lý khác nhau có thể kết hợp/trừu tượng/hình thành một ứng dụng cụ thể, đồng thời, có một số nền tảng phối hợp có sẵn để người dùng lựa chọn loại đại lý nào để sử dụng để xây dựng một loại ứng dụng cụ thể. Nhưng hầu hết chúng đều bị hạn chế trong việc phát triển các đại lý.

Ứng dụng

Nhà phát triển dự án

Một số nhà phát triển sẽ sử dụng một số AI để giúp nền tảng của họ thông minh hơn, ví dụ, trong các dự án bảo mật, học máy được sử dụng để phân biệt các lỗ hổng tấn công; Các giao thức DeFi sử dụng AI để xây dựng các công cụ giám sát thời gian thực; và các nền tảng phân tích dữ liệu cũng sử dụng AI để giúp làm sạch và phân tích dữ liệu.

Người dùng

Cửa sổ Q&A/Phân tích

  • Tại Kaito.ai, người dùng có thể sử dụng Q&A để lấy thông tin về tâm lý cộng đồng dự án, giá cả và di chuyển của nhóm nhân sự cốt lõi.
  • 0xScope, việc sử dụng đồ thị tri thức cơ bản để tích hợp dữ liệu trên chuỗi, cụ thể là đặc điểm hành vi người dùng, để cung cấp dịch vụ phân tích dữ liệu cho người dùng, đã ra mắt cửa sổ Scopechat Q&A đúng thời điểm cho làn sóng AI này.

CỬA HÀNG ỨNG DỤNG AI

  • Myshell đề xuất một lớp người tiêu dùng và tạo cửa hàng ứng dụng trí tuệ nhân tạo, cung cấp các thành phần trí tuệ nhân tạo khác nhau và ba chế độ tạo ra để giúp người dùng tạo ra các ứng dụng trí tuệ nhân tạo khác nhau. Các tiện ích được chia thành các thành phần cơ bản và hợp thành. Các thành phần cơ bản cho phép người dùng tạo các tài sản Prompt, Voice, Avatar và các tài sản khác vào các ứng dụng trí tuệ nhân tạo, trong khi các thành phần hợp thành cho phép xây dựng các thành phần tùy chỉnh bằng cách kết hợp nhiều mô hình/thành phần cơ bản khác nhau. Chế độ tạo ra bao gồm, chế độ cổ điển, phát triển và không mã cho ba chế độ dành cho các nhà phát triển và người dùng có năng lực và nhu cầu khác nhau.

Tóm tắt

Trong bài viết này, chúng tôi muốn nêu bật 3 điểm sau đây:

  • GPUAI

Trong tiền điện tử, một số mạng máy tính nảy sinh tạo cảm giác cho người dùng rằng GPU là Trí tuệ nhân tạo, nhưng như đã phân tích ở phần trước, có một bài toán tam quan trọng không thể giải quyết được của mạng máy tính, tức là sức mạnh tính toán, băng thông/giao tiếp và bộ nhớ, cũng như ba loại chiến lược song song được sử dụng trong huấn luyện mô hình, chẳng hạn như song song dữ liệu, song song tensor và song song đường ống, tất cả đều chỉ ra sự cân nhắc và cân nhắc được áp đặt trong việc thiết lập cơ cấu của mạng máy tính.

  • Cùng mô hình và cùng dữ liệuCùng kết quả

Lý do đằng sau việc cùng một mô hình và dữ liệu không nhất thiết cho ra cùng một kết quả là việc sử dụng tính toán dấu chấm động. Sự khác biệt trong tính toán cũng ảnh hưởng đến việc xây dựng mạng tính toán.

  • Thêm Đại Lý AI

Các Đại lý Trí tuệ nhân tạo chỉ mới bắt đầu thể hiện tính hữu ích hơn trong những năm gần đây, và chúng tôi mong đợi sẽ có thêm Đại lý xuất hiện trên thị trường. Nhưng cách mà Đại lý hoạt động trong tiền điện tử hoặc cách tìm kiếm đúng động lực token vẫn là một thách thức.

Tuyên bố:

  1. Bài viết này được sao chép từ[Đau vừa],原文标题"AI into Crypto",著作权归属原作者[Vốn HashKey],如对转载有异议,请联系Nhóm Học viện Gate,đội ngũ sẽ xử lý càng sớm càng tốt theo quy trình liên quan.

  2. 免责声明:本文所表达的观点和意见仅代表作者个人观点,不构成任何投资建议。

  3. Bản dịch tiếng khác của bài viết được dịch bởi nhóm Gate Learn, trong trường hợp không được đề cậpGate.ioKhông được sao chép, phân phối hoặc bắt chước bài viết đã được dịch.

Lancez-vous
Inscrivez-vous et obtenez un bon de
100$
!