AI เข้าสู่คริปโต

การเปิดตัว ChatGPT เมื่อพฤศจิกายน 2022 ได้เปิดมุมมองของผู้เล่นในอุตสาหกรรมต่าง ๆ ต่อโมเดลภาษาขนาดใหญ่ที่ใช้ประโยชน์จาก AI โดยทั่วไป การแพร่กระจายที่เร่งรีบนี้ทำให้เกิดความเคลื่อนไหวอย่างไม่สม่ำเสมอในพื้นที่ Crypto และบทความนี้มีจุดมุ่งหมายที่จะนำเสนอการพัฒนาของ AI สถานะปัจจุบันของมัน และอุตสาหกรรมที่เกิดขึ้นจากการผสม AI+Crypto

การเปิดตัว ChatGPT ในเดือนพฤศจิกายน 2022 ได้เปิดหูเปิดตาของผู้เล่นในอุตสาหกรรมต่างๆ ถึงโมเดลภาษาขนาดใหญ่ AI ไดนามิกที่บ้าคลั่งนี้แทรกซึมเข้าไปในพื้นที่ Crypto และบทความนี้มีจุดมุ่งหมายเพื่อแนะนําการพัฒนา AI สถานะปัจจุบันและอุตสาหกรรมที่เกิดขึ้นจากการรวมกันของ AI + Crypto

การพัฒนา AI และสถานะปัจจุบันของมัน

ประเภทและสถาปัตยกรรม

Machine learning (ML) เป็นเทคโนโลยีที่มีความสามารถในการเรียนรู้จากประสบการณ์ ซึ่งเรียนรู้ในการแยกแยะสัตว์ การแปลภาษา และงานที่เฉพาะเจาะจงอื่น ๆ โดยการเรียนรู้จากชุดข้อมูลขนาดใหญ่ Machine learning เป็นวิธีที่เป็นปฏิบัติที่สุดสำหรับการเรียนรู้ปัจจุบัน ตามว่าข้อมูลที่เรียนรู้มีป้ายชื่อหรือไม่และลักษณะมันสามารถแบ่งเป็นการเรียนรู้ซึ่งกำกับและการเรียนรู้ที่ไม่ได้รับการกำกับ

มีหลายประเภทของโมเดลที่สามารถทำ supervised learning ได้ รวมถึงโมเดลที่ใช้ต้นไม้, โมเดลกราฟ, และ neural networks ที่เพิ่งปรากฏออกมาเร็ว ๆ นี้ ด้วยการพัฒนาประสิทธิภาพการคำนวณและข้อมูลอย่างรวดเร็ว, deep learning ได้รับการพัฒนาต่อไปโดยอิงจากโครงสร้างของ neural networks โครงสร้าง deep learning ปัจจุบันรวมถึง, แต่ไม่จำกัดอยู่ที่, CNNs, RNNs, และ mechanism การให้ความสนใจ

การจำแนกประเภทของการเรียนรู้ของเครื่อง, แหล่งที่มา: ทุน HashKey

เครือข่ายการเรียนรู้เชิงลึกที่แตกต่างกันมีสถาปัตยกรรมพื้นฐานของเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาต์พุตเลเยอร์อินพุตมักจะเป็นข้อความวิดีโอเสียงและข้อมูลอื่น ๆ หลังจากได้รับการประมวลผล เลเยอร์ที่ซ่อนอยู่มีการออกแบบที่แตกต่างกัน (รูปร่างแบบจําลอง) ขึ้นอยู่กับชุดข้อมูลและวัตถุประสงค์ของงานดังที่แสดงในตาราง

ประเภทของเครือข่ายประสาท ที่มา: จัดระเบียบโดย HashKey Capital

สามสิบปีของการพัฒนาเครือข่ายประสาท

30 ปีของการพัฒนาเครือข่ายประสาท ที่มา: จัดโดย HashKey Capital

การฝึกโครงข่ายประสาทเทียมมีต้นกำเนิดครั้งแรกในช่วงกลางของปี ค.ศ. 1980 เมื่อจอร์แดนฝึกโครงข่ายประสาทเพื่อเรียนรู้รูปแบบตามลำดับในบทความปี 1986 ของเขาลำดับซีเรียล: วิธีการประมวลผลแบบกระจายขนาดใหญ่เครือข่ายขนาดเล็กมีนิวรอนเพียงไม่กี่ตัว

ในปี 1990 Jeffrey Ehrman ขยายเครือข่ายประสาทเป็นเครือข่าย 50 นิวรอนพบว่าเครือข่ายจัดกลุ่มคำตามความหมายทางพื้นที่ เช่น แยกคำนามที่ไม่มีชีวิตและมีชีวิต และภายในหมวดหมู่นี้ วัตถุที่มีชีวิตถูกแบ่งเป็นหมวดหมู่มนุษย์และไม่มนุษย์ และวัตถุที่ไม่มีชีวิตถูกจำแนกเป็นที่สามารถแตกและที่สามารถกิน ซึ่งแสดงให้เห็นว่าเครือข่ายสามารถเรียนรู้การอธิบายแบบชั้นย่อย

เขายังสังเกตเห็นว่าคำสามารถแสดงให้เห็นเป็นจุดในพื้นที่มิติสูง และจากนั้นลำดับของคำหรือประโยคสามารถมองเห็นเป็นเส้นทาง การเจริญใหญ่นี้ช่วยให้ชุดข้อมูลที่เป็นข้อความสามารถถูกดิจิทัล, มีเวกเตอร์, และประมวลผลโดยคอมพิวเตอร์

ที่มา: http://3b1b.co/neural-networks

ในปี 2011 นักวิจัย Confluence ได้ฝึกฝนเครือข่ายขนาดใหญ่ที่มีพันธะพันธุ์พันโตที่เกี่ยวข้องและล้าหลังพบว่ามีปัญหาในการศึกษาในความสามารถของเครือข่ายในการรักษาบริบทที่สมเหตุสมผลตลอดช่วงเวลายาว

ในปี 2017 OpenAI พัฒนาต่อจากงานของ Kathy โดยการฝึกอบรมด้วยรีวิว Amazon 82 ล้านรีวิว โดยพบว่ามีเซลล์ประสาทที่เชื่อมโยงกับอารมณ์ของข้อความได้อย่างละเอียด

Source: การเรียนรู้ในการสร้างรีวิวและค้นพบอารมณ์

เกี่ยวกับข้อจำกัดของขนาดบริบทที่ กระดาษ 2017 Attention Is All You Need นำเสนอวิธีการแก้ปัญหา กระดาษสร้างเครือข่ายเลเยอร์ไดนามิคที่ปรับน้ำหนักการเชื่อมต่อขึ้นอยู่กับบริบทของเครือข่าย มันทำงานโดยอนุญาตให้คำในอินพุตมอง จับคู่คำอื่น ๆ และค้นหาคำที่เกี่ยวข้องที่สุด คำเหล่านี้เมื่ออยู่ใกล้กันตามแนวความคิดมากขึ้น ก็สามารถมีน้ำหนักการเชื่อมต่อสูงขึ้น อย่างไรก็ตาม กระดาษเฉพาะกล่าวถึงปัญหาการแปลเท่านั้น

ดังนั้น นักวิจัย OpenAI ได้ลองใช้โครงสร้าง transformer ที่มีกำลังการทำงานมากกว่าและเปิดตัว GPT-3 ในปี 2020 ซึ่งได้ดึงดูดความสนใจจากอุตสาหกรรมทั่วโลก ในครั้งนี้กับเครือข่ายที่มีพารามิเตอร์รวม 175 พันล้าน ชั้นของ 96 ชั้น และหน้าต่างบริบท 1,000 คำ

นวัตกรรมประสาทคืออะไร?

เรียกดูภาพดิจิตอลขนาด 28x28 พิกเซลต่อไปนี้เป็นตัวอย่าง นิวรอนสมควรตรงกับแต่ละพิกเซลของภาพนำเข้าขนาด 28x28 ทั้งหมด 784 นิวรอน ตัวเลขในนิวรอนคือค่าการกระตุ้นซึ่งมีช่วงค่าตั้งแต่ 0–1

รูปภาพดิจิตอลขนาด 28x28 พิกเซล, ที่มา: http://3b1b.co/neural-networks

เซลล์ประจำนิวรอน 784 เซลล์เป็นชั้นนำของเครือข่าย ชั้นสุดท้ายคือชั้นเอาท์พุต ซึ่งประกอบด้วยนิวรอนสิบตัวที่แทนตัวเลข 0–9 อีกครั้งด้วยค่าการเปิดใช้งานที่ห่างกัน 0–1 ชั้นกลางคือชั้นซ่อนที่ค่าการเปิดใช้งานของชั้นก่อนหน้ากำหนดค่าการเปิดใช้งานของชั้นถัดไปขณะที่เครือข่ายประสานปฏิบัติการ

ความลึกของการเรียนรู้ลึกอยู่ที่ตรงที่โมเดลเรียนรู้ชั้นมากมายของการแปลงข้อมูลแต่ละชั้นที่มีการแสดงผลต่างกัน ดังที่แสดงในภาพด้านล่าง เช่นใน 9 ชั้นที่แตกต่างกันสามารถรู้จำลักษณะที่แตกต่างกัน ยิ่งชั้นข้อมูลนำเข้าเข้าใกล้ชั้นระดับล่างของข้อมูลมากเท่าใด ยิ่งชั้นผลลัพธ์เข้าใกล้กับแนวคิดที่เฉพาะเจาะจงมากขึ้นที่สามารถใช้แยกแยะ

ต้นฉบับ: http://3b1b.co/neural-networks

เมื่อโมเดลใหญ่ขึ้น ชั้นที่ซ่อนอยู่ตรงกลางเกี่ยวข้องกับน้ำหนักที่มีร้อยละของพันล้านต่อชั้น และคือน้ำหนักและความเอียงเหล่านี้ที่จะกำหนดว่าเครือข่ายกำลังทำอะไรในความเป็นจริง กระบวนการของการเรียนรู้ของเครื่องคือกระบวนการค้นหาพารามิเตอร์ที่ถูกต้องซึ่งคือน้ำหนักและความเอียง

โครงสร้างการแปลงใช้ใน GPT โมเดลภาษาขนาดใหญ่ มีชั้นซ่อนตัวกลางที่ประกอบด้วยโมดูลการถอดรหัส 96 ชั้นซึ่ง GPT1, GPT2 และ GPT3 มี 12, 48 และ 96 ชั้นตามลำดับ ตัวถอดรหัสมีองค์ประกอบของเครือข่ายประสาทที่สนใจและส่งกลับไปยังข้างหน้า

วิธีการฝึกอบรม

การประมวลผลหรือการเรียนรู้เกี่ยวกับการกำหนดฟังก์ชันต้นทุน (หรือฟังก์ชันขาดทุน) ซึ่งรวมผลรวมของสี่เหลี่ยมของความแตกต่างระหว่างค่าทำนายผลลัพธ์ของเครือข่ายและค่าจริง ๆ และเมื่อผลรวมเล็ก ๆ น้อย ๆ โมเดลจะทำงานอยู่ภายใต้ขีดจำกัดที่ยอมรับได้

การฝึกอบรมเริ่มต้นด้วยการกำหนดพารามิเตอร์ของเครือข่ายในลักษณะสุ่มและการสรุปผลของพารามิเตอร์ของเครือข่ายโดยการค้นหาพารามิเตอร์ที่ลดค่าฟังก์ชันต้นทุน วิธีในการทำให้ฟังก์ชันต้นทุนรวมคือด้วยการคลี่ร์เดสเซนต์ โดยซึ่งจะตรวจสอบระดับผลกระทบของการเปลี่ยนแปลงพารามิเตอร์แต่ละตัวต่อค่าทุน/สูญเสีย และจากนั้นจะปรับปรุงพารามิเตอร์ตามระดับผลกระทบนั้น

กระบวนการคำนวณค่าเกรเดียนทำให้มีการถอยกลับหรือการถอยกลับซึ่งวิ่งผ่านเครือข่ายจากเลเยอร์เอาต์พุทไปยังเลเยอร์อินพุทในลำดับกลับตามกฎเชน อัลกอริทึมยังต้องการการจัดเก็บตัวแปรกลาง (อนุพันธ์บางส่วน) ที่จำเป็นสำหรับการคำนวณเกรเดียน

ปัจจัยการพัฒนา

มีปัจจัยหลัก 3 ปัจจัยที่มีผลต่อประสิทธิภาพของโมเดลขนาดใหญ่ที่ใช้ในการฝึก AI ระบบภาษา คือ จำนวนพารามิเตอร์ของโมเดล ขนาดของชุดข้อมูล และปริมาณการคำนวณ

แหล่งที่มา: รายงาน OpenAI, กฎหมายสำหรับโมเดลภาษาประสาน神經

นี่สอดคล้องกับการพัฒนาข้อมูลและคอมพิวเตอร์ (กำลังคำนวณ) ในโลกของความเป็นจริง แต่ก็สามารถเห็นได้จากตารางด้านล่างว่า กำลังคำนวณกำลังเติบโตเร็วกว่าข้อมูลที่มีอยู่ ในขณะที่หน่วยความจำเป็นจะเติบโตช้าที่สุด

การพัฒนาของชุดข้อมูล ความจำ และกำลังคำนวณ แหล่งที่มา: https://github.com/d2l-ai

ข้อมูล

ความต้องการของข้อมูล

เมื่อต้องเผชิญกับโมเดลขนาดใหญ่ overfitting มีแนวโน้มที่จะเกิดขึ้นเมื่อข้อมูลการฝึกอบรมมีขนาดเล็กเกินไปและโดยทั่วไปความแม่นยําของแบบจําลองที่ซับซ้อนมากขึ้นจะดีขึ้นเมื่อปริมาณข้อมูลเพิ่มขึ้น เกี่ยวกับข้อกําหนดข้อมูลที่จําเป็นสําหรับโมเดลขนาดใหญ่สามารถตัดสินใจได้ตามกฎ 10 ซึ่งชี้ให้เห็นว่าปริมาณข้อมูลควรเป็น 10 เท่าของพารามิเตอร์ แต่อัลกอริธึมการเรียนรู้เชิงลึกบางอย่างใช้ 1: 1

ข้อมูลที่มีป้ายชื่อ

การเรียนรู้ภายใต้การควบคุม ต้องใช้ชุดข้อมูลที่มีป้ายชื่อและคุณลักษณะเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง

Source: Fashion-MNIST ชุดข้อมูลการจำแนกประเภทเสื้อผ้า

ข้อมูลสังเคราะห์

ถึงกระแสการเพิ่มขึ้นอย่างรวดเร็วของข้อมูลในรอบ 1-2 ทศวรรษที่ผ่านมาและชุดข้อมูลแบบโอเพนซอร์สที่มีให้ใช้งานรวมถึง Kaggle, Azure, AWS, Google database ฯลฯ ข้อมูลที่จำกัด น้อย และมีราคาแพงกำลังกลายเป็นข้อจำกัดสำคัญสำหรับการพัฒนา AI เนื่องจากปัญหาเรื่องความเป็นส่วนตัว เพิ่มพารามิเตอร์โมเดล และการทำให้ข้อมูลสามารถทำซ้ำได้ มีการนำเสนอวิธีการแก้ปัญหาด้านข้อมูลต่าง ๆ เพื่อลดปัญหานี้

เทคนิคการขยายข้อมูลอาจเป็นวิธีการที่มีประสิทธิภาพโดยการให้ข้อมูลไม่เพียงพอให้กับโมเดลโดยไม่ต้องเก็บตัวอย่างใหม่ เช่นการปรับขนาด การหมุน การสะท้อน การตัด การแปลง การเพิ่มเสียงรบกวน Gaussian การผสมเข้าด้วยกัน เป็นต้น

ข้อมูลสังเคราะห์เป็นตัวเลือกอีกอย่าง ข้อมูลสังเคราะห์คือข้อมูลที่สามารถสร้างขึ้นได้ด้วยการจำลองคอมพิวเตอร์หรืออัลกอริทึมโดยมีหรือไม่มีชุดข้อมูลอ้างอิงก่อนหน้า ในเชิงพัฒนาเครื่องมือสำหรับสร้างข้อมูลสังเคราะห์ Ian J. Goodfellow ประดิษฐ์ Generative Adversarial Network (GAN) ซึ่งเป็นสถาปัตยกรรมการเรียนรู้เชิงลึก

มีการฝึกสอนระบบประสาทสองระบบให้แข่งขันกัน ซึ่งสามารถสร้างข้อมูลใหม่ที่สมจริงมากขึ้นจากชุดข้อมูลการฝึกที่กำหนดให้ โครงสร้างรองรับการสร้างภาพ เติมข้อมูลที่ขาดหายไป สร้างข้อมูลฝึกสำหรับโมเดลอื่น ๆ สร้างโมเดล 3 มิติจากข้อมูล 2 มิติ และอื่น ๆ

ยังเร็วไปในการพัฒนาด้านนี้ โดยบริษัทที่มีอยู่ส่วนใหญ่ที่ทำข้อมูลสังเคราะห์ถูกสร้างขึ้นในปี 2021 หรือ 2022 และบางส่วนในปี 2023

สถานะการจัดหาเงินทุนสำหรับบริษัทข้อมูลสังเคราะห์ ที่มา : https://frontline.vc/blog/synthetic-data/

ฐานข้อมูลเวกเตอร์

กระบวนการฝึก AI เกี่ยวข้องกับการดำเนินการเมทริกซ์จำนวนมาก ตั้งแต่การฝังคำ, การเปลี่ยนวงจร QKV ของ transformer, ไปจนถึงการดำเนินการ softmax, และอื่น ๆ ผ่านการดำเนินการเมทริกซ์ พารามิเตอร์โมเดลทั้งหมดก็ถูกพกพาในเมทริกซ์ด้วย

ตัวอย่างฐานข้อมูลเวกเตอร์, Source : https://x.com/ProfTomYeh/status/1795076707386360227

ทรัพยากรฮาร์ดแวร์คอมพิวเตอร์

โมเดลขนาดใหญ่นำมาซึ่งความต้องการที่มีขนาดใหญ่ของฮาร์ดแวร์คอมพิวเตอร์ ซึ่งส่วนใหญ่จะถูกจำแนกเป็นการฝึกและการสรุป

การฝึกก่อน, การปรับปรุง, และการสรุป

การฝึกก่อนและปรับปรุงสามารถแบ่งออกเป็นส่วนย่อยได้อีก ดังที่กล่าวไว้ก่อนหน้า การสร้างโมเดลเครือข่ายต้องเริ่มต้นด้วยการกำหนดค่าพารามิเตอร์ให้สุ่มก่อน จากนั้นค่อยทำการฝึกเครือข่ายและปรับค่าพารามิเตอร์อย่างต่อเนื่องจนกระทั่งค่าสูญเสียของเครือข่ายอยู่ในช่วงที่ยอมรับได้ ความแตกต่างระหว่างการฝึกก่อนและปรับปรุงคือ

การฝึกก่อนการฝึกที่เริ่มต้นด้วยพารามิเตอร์ของแต่ละเลเยอร์จากการเริ่มต้นแบบสุ่ม ในขณะที่บางเลเยอร์ของการปรับปรุงเสร็จสิ้นสามารถใช้พารามิเตอร์ของโมเดลที่เทรนไว้ก่อนหน้าเป็นพารามิเตอร์เริ่มต้นสำหรับงานนี้ได้โดยตรง (การตรึงพารามิเตอร์ของเลเยอร์ก่อนหน้าและมีผลกับชุดข้อมูลที่เฉพาะเจาะจง)

Source: https://d2l.ai/chapter_computer-vision/fine-tuning.html

การฝึกอบรมล่วงหน้าและการปรับแต่งทั้งสองอย่างเกี่ยวข้องกับการเปลี่ยนแปลงพารามิเตอร์แบบจําลองซึ่งในที่สุดก็ส่งผลให้เกิดการเพิ่มประสิทธิภาพแบบจําลองหรือพารามิเตอร์ในขณะที่การอนุมานคือการคํานวณการอนุมานโดยการโหลดแบบจําลองหลังจากอินพุตของผู้ใช้และในที่สุดก็ได้รับข้อเสนอแนะและผลลัพธ์

การฝึกก่อน, ปรับปรุง, และการตัดสินให้เรียงลำดับจากขนาดใหญ่ไปยังเล็กที่สุดตามความต้องการของคอมพิวเตอร์ ตารางต่อไปนี้เปรียบเทียบความต้องการฮาร์ดแวร์ของคอมพิวเตอร์ในการฝึกและการตัดสินให้ ความต้องการฮาร์ดแวร์ของคอมพิวเตอร์สองอย่างนั้นแตกต่างกันอย่างมีนัยสำคัญในด้านพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิดที่เกิดจากความแตกต่างในกระบวนการคำนวณและความต้องการในความแม่นยำ, ในเวลาเดียวกันยังมี Impossible Trilemma ในการพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิด

การวัดค่าสถิติในตารางนี้ ขึ้นอยู่กับการประมวลผลโดยโมเดลเดียว ใช้โทเค็นเดียว พารามิเตอร์เดียวFLOPs: การดำเนินงานทศนิยมต่อวินาที จำนวนของการคำนวณเมทริกซ์
*DP, TP, PP: การแบ่งข้อมูล, การแบ่งเซนเซอร์, การแบ่งท่อทาง

การเปรียบเทียบฮาร์ดแวร์คอมพิวเตอร์ระหว่างการฝึกฝนและการอินเฟอร์เรนซิ่ง ที่มา: จัดทำโดยแฮชคีย์แคปิตัล

กระบวนการฝึกโครงข่ายประสาทต้องทำการสลับระหว่างการกระจายข้างหน้าและการกระจายถอดกลับ โดยใช้ค่าได้เดินทางที่ได้จากการกระจายถอดกลับเพื่อปรับปรุงพารามิเตอร์ของโมเดล ในขณะเดียวกัน การบ่งบอกใช้การกระจายข้างหน้าเท่านั้น ความแตกต่างนี้กลายเป็นปัจจัยที่มีผลต่อความต้องการของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ที่แตกต่างกันสำหรับการฝึกและการบ่งบอก

ในเชิงพลวัตของความสามารถในการคำนวณ ตามที่แสดงในตารางมีความสัมพันธ์แบบเชิงคูณระหว่างจำนวนพารามิเตอร์ของโมเดลและการบริโภคพลังงานในการคำนวณอย่างง่าย ๆ โดยการฝึกอบรมต้องการ 6-8 การดำเนินการทศนิยมและการอ้างอิงต้องการ 2 นั่นเป็นเพราะการย้อนกลับที่มีการฝึกอบรม ซึ่งต้องการพลวัตคอมพิวเตอร์เท่ากับการส่งผ่านไปและจึงการบริโภคพลังงานในการคำนวณของการฝึกอบรมสูงกว่าการอ้างอิงมาก

ในเชิงหน่วยความจำ การใช้ backpropagation สำหรับการฝึกอบรมจะใช้ค่ากลางที่เก็บไว้ในการส่งเสริมไปยังการป้องกันละเว้นการคำนวณซ้ำซ้อน ดังนั้น กระบวนการฝึกอบรมจำเป็นต้องเก็บค่ากลางไว้จนกว่า backpropagation จะเสร็จสิ้น การใช้งานหน่วยความจำที่เกิดขึ้นในระหว่างการฝึกอบรมประกอบด้วยพารามิเตอร์ของโมเดล ค่ากลางกิจกรรมระหว่างการคำนวณไปข้างหน้า ค่าชันที่สร้างขึ้นโดยตัวคำนวณการถอดกลับ และสถานะของตัวปรับปรุง ช่วงการโต้ตอบไม่ต้องการ backpropagation และไม่ต้องการสถานะตัวปรับปรุงและค่าชัน ฯลฯ และการใช้งานหน่วยความจำของมันจะเล็กกว่ามากเมื่อเปรียบเทียบกับการฝึกอบรม

ในเชิงการสื่อสาร/แบนด์วิดท์ เพื่อปรับปรุงประสิทธิภาพในการฝึกอบรม AI แบบหลักปกติมักใช้กลยุทธ์สามวิธีคือ การแบ่งข้อมูลตามพาราเลล การแบ่งเธนเซอร์และการแบ่งพายล์น์

  • ข้อมูลขนาดขนาดหรือ Data parallel หมายถึงการทำซ้ำรูปแบบของแบบจำลองหลายรูปแบบที่ทำงานบนอุปกรณ์ที่แตกต่างกัน โดยแต่ละรูปแบบของแบบจำลองจะมีการทำงานบนชุดข้อมูลที่แตกต่างกัน และการซิงค์ระหว่างข้อมูลเกรเดียนต์ในระหว่างวงจรการฝึกอบรม
  • การประสานความสามารถในการประมวลผลแบบพายุ ในทางตรงกันข้าม แบ่งชั้นซ่อนกลางระหว่างและแต่ละโหนดคำนวณรับผิดชอบต่อชั้นผู้แปลงเหล่านี้หลายระบบ วิธีการนี้ยังรู้จักกันในนามของการประสานความสามารถระหว่างชั้น
  • การแบ่งความคล้ายคลึงเทนเซอร์ตามทิศทางอื่น ๆ และเรียกว่าความคล้ายคลึงในชั้น

แหล่งที่มา: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

สำหรับกลยุทธ์สามส่วนนี้ คาดว่าความถี่ในการสื่อสาร TP มีความใหญ่ที่สุด ปริมาณการสื่อสารมีค่าสูงสุด และเกี่ยวข้องกับจำนวนโทเค็น ความกว้างของโมเดล และจำนวนเลเยอร์ ปริมาณการสื่อสารและความถี่ของ PP เล็กกว่าของ TP และเกี่ยวข้องกับจำนวนโทเค็น และความกว้างของโมเดล ปริมาณการสื่อสารและความถี่ของ DP เล็กที่สุดและไม่เกี่ยวข้องกับโทเค็นขาเข้า

ไม่สามารถทำได้

ปัญหาขีดจำกัดของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ในโมเดลขนาดใหญ่มีข้อจำกัดหลักๆ โดยมีการคำนวณพลังงาน แบนด์วิดธ์/การสื่อสาร และหน่วยความจำ และมีการตรวจสอบและคงสมดุลระหว่างทั้งสามอย่าง ทำใให้เกิดปัญหา Impossible Trilemma เช่นเดียวกับ จากข้อจำกัดในการสื่อสาร ประสิทธิภาพของคลัสเตอร์ไม่สามารถปรับปรุงได้โดยการปรับปรุงพลังงานของคอมพิวเตอร์เพียงเครื่องเดียว

ดังนั้น แม้ว่าโครงสร้างพร้อมกันจะถูกใช้ในการเร่งความเร็วในการทำงานของคลัสเตอร์ โครงสร้างพร้อมกันส่วนมากนั้นจริงๆ แล้วเสียสารสนเพื่อการคำนวณ

เสียสื่อสารและพื้นที่จัดเก็บเพื่อพลังการคำนวณ:

ใน PP หากมี GPU ถูกกำหนดให้กับแต่ละเลเยอร์ของตัวแปรทรานส์ฟอร์มเมอร์ ถึงแม้จะมีการเพิ่มพลังการคำนวณในหน่วยเวลา ความต้องการในการสื่อสารระหว่างเลเยอร์ก็เพิ่มขึ้นเช่นกัน ทำให้มีปริมาณข้อมูลและความล่าช้าเพิ่มขึ้น นอกจากนี้ ความต้องการในการจัดเก็บสถานะกลางของการส่งเสริมไปข้างหน้าเพิ่มขึ้นอย่างรวดเร็วที่สุด

เสียสื่อสารเพื่อพลังคำนวณ:

ใน TP ทุกตัวแปรถูกแยกออกสำหรับการคำนวณแบบขนานกัน โดยเนื่องจากตัวแปรประกอบด้วยสองส่วน (หัวใจความสนใจและเครือข่ายกำลังส่ง) งานสามารถแบ่งในชั้นเพื่อหัวใจความสนใจหรือเครือข่ายประสาทเชิงบวก วิธีการ TP นี้สามารถบรรเทาปัญหาของโครงสร้างหลายระดับของ PP มาจาก GPU ไม่สามารถพอดีกับโมเดล อย่างไรก็ตามวิธีการนี้ยังมีการสื่อสารเฉพาะอย่างร้ายแรง

คริปโต+AI

ในเอกสารนี้ เราเชื่อว่าในปัจจุบันมีประเภทหลักๆ ของ AI ในสนามคริปโต ดังนี้:

แหล่งที่มา: จัดโดย HashKey Capital

เช่นที่กล่าวไว้แล้ว สามส่วนประกอบที่สำคัญที่สุดใน AI คือ ข้อมูล แบบจำลอง และพลังการคำนวณ ซึ่งทำหน้าที่เป็นโครงสร้างพื้นฐานเพื่อเสริมความสามารถของคริปโต AI

การผสมผสานของพวกเขาจริง ๆ ก็เป็นการสร้างเครือข่ายคอมพิวเตอร์ ด้วยจำนวนมากของ middleware ที่ปรากฏขึ้นในกระบวนการคำนวณเพื่อเป็นอย่างมีประสิทธิภาพและสอดคล้องกับวิญญาณคริปโตมากขึ้น ทางล่างคือตัวแทนที่ขึ้นอยู่กับผลลัพธ์ที่สามารถทำให้เห็นได้ว่าถูกต้อง ซึ่งสามารถให้บริการบทบาทต่าง ๆ สำหรับกลุ่มผู้ใช้ที่แตกต่างกันได้อีก

สามารถใช้แผนภูมิกระแสอีกอย่างสำหรับแสดงนิเวศวิธีพื้นฐานของ AI คริปโตได้ดังนี้:

แผนภูมินิเวศวิธี ที่มา: จัดทำโดย HashKey Capital

แน่นอนว่าการสร้างกลไกทางการเงินที่จำเป็นในพื้นที่คริปโตเพื่อสร้างสติมูลค่าให้กับการประสานงานกับผู้เล่นที่แตกต่างกัน

ข้อมูล

สำหรับชุดข้อมูล คุณสามารถเลือกระหว่างแหล่งข้อมูลสาธารณะหรือแหล่งข้อมูลส่วนตัวที่เฉพาะเจาะจงของตนเอง

แหล่งข้อมูล:

  • Grass คือโครงการที่ค้นหาแหล่งข้อมูลบน Solana ซึ่งมีพื้นหลังมาจากการที่บริษัทหลาย ๆ บล็อก IP การค้นหาจากศูนย์ข้อมูล แต่ไม่บล็อกผู้ใช้ที่อาศัยในที่พัก Grass ทำหน้าที่เป็นผู้ให้บริการแบบกระจายที่สร้างสรรค์ผู้ใช้ที่อาศัยในที่พักให้มีสิทธิในการให้แรงบันดาลผ่านโทเเคน
  • Vana ในฐานะ DATA DAO ยังมีการ提供解决方案,其中创作者在链上为不同的数据源创建不同的数据DAO,并为用户建立不同的激励计划以上传其数据。到目前为止,已经为reddit(rDAO)创建了数据DAO,超过154,000名用户向rDAO提供了其个人数据以进行AI培训。
  • ข้อมูลที่เกี่ยวข้องถูกเก็บรวบรวมในรูปแบบของ DePINs ซึ่งช่วยให้ผู้ใช้สามารถเชื่อมต่อยานพาหนะของพวกเขากับแพลตฟอร์ม DIMO ผ่านอุปกรณ์ฮาร์ดแวร์เช่น เนื้อหาพื้นฐานเกี่ยวกับยานพาหนะนั้นและข้อมูลแบบรูปแบบการขับขี่ขั้นสูงมากกว่า จะถูกส่งผ่านอย่างปลอดภัยไปยังเครือข่าย DIMO จะถูกเก็บไว้บนเชนและเชื่อมโยงกับ ID ยานพาหนะที่เกี่ยวข้อง (NFT) ตัวอย่างอีกอันคือ Hivemapper ซึ่งเก็บข้อมูลแผนที่ขณะที่ผู้ใช้กำลังขับขี่

แพลตฟอร์มข้อมูลสังเคราะห์:

  • Dria เป็นแพลตฟอร์มสร้างข้อมูลสังเคราะห์ (OPStack L2) ที่สร้างส่วนสนับสนุนผู้ใช้ให้สร้าง/ซื้อข้อมูลสังเคราะห์ในลักษณะการกระจายอำนวยความสะดวก ข้อมูลเก็บรักษาอยู่ใน Arweave ผ่าน HollowDB โดยเมื่อผู้ใช้เริ่มต้นขอข้อมูลสังเคราะห์ Dria จะยอมรับคำขอและแบ่งงานไปยังโหนดการคำนวณในเครือข่ายข้อมูลสังเคราะห์เพื่อดำเนินการ และหลังจากการตรวจสอบของเครือข่ายข้อมูลสังเคราะห์ ข้อมูลสังเคราะห์สุดท้ายสามารถซื้อขายในตลาดความรู้

อื่นๆ:

แพลตฟอร์มบริการติดป้ายข้อมูลโดยการมอบหมายงานการติดป้ายให้กับคนงานที่แตกต่างกัน พวกเขาจะได้รับสิทธิ์ในการขอรางวัลตรงกันข้ามหลังจากทำงานเช่นคริปโต ไพ่จำลอง และอื่น ๆ อย่างไรก็ตามปัญหาปัจจุบันคือมีคนทำการติดป้ายข้อมูลมากกว่าข้อมูล ในขณะที่บริษัท AI มีผู้ผลิตข้อมูลการติดป้ายที่มั่นคงสำหรับความต้องการข้อมูลที่ติดป้ายเนื่องจากการมีอยู่ของความหดหู่ทำให้ความประสงค์ของพวกเขาที่จะสลับแพลตฟอร์มซึ่งอยู่ในลักษณะกระจายตัวอ่อนแอ แพลตฟอร์มเหล่านี้อาจเพียงสามารถได้รับการจัดสรรของส่วนที่เหลือของคำสั่งจากผู้ผลิตข้อมูลที่ติดป้าย

เครือข่ายคอมพิวเตอร์

เครือข่ายคอมพิวเตอร์ที่ถูกทำมาเพื่อการคำนวณทั่วไป

เครือข่ายการคำนวณทั่วไป หมายถึงเครือข่ายที่รวบรวมทรัพยากรเช่น GPUs และ CPUs เพื่อให้บริการการคำนวณทั่วไปซึ่งหมายความว่าไม่มีความแตกต่างระหว่างการฝึกสอนและการอ้างอิง

  • Akash, โครงการปี 2020 ที่ทำหน้าที่เป็นตลาดสำหรับการจับคู่การส่งเสริมและความต้องการในด้านการคำนวณ ทำให้ผู้ให้บริการคำนวณสามารถเสนอราคาคำสั่งซื้อ โดยการจับคู่สุดท้ายที่อัปโหลดบนบล็อกเชนเป็นธุรกรรม มีวิทยากรเฉพาะที่รับผิดชอบในการบรรจุบล็อกและการทำการตรวจสอบ กระบวนการนี้ไม่เกี่ยวข้องกับวิธีการกำหนดงาน AI และไม่ตรวจสอบกระบวนการคำนวณและผลลัพธ์ โดยไม่แยกแยะระหว่างการฝึกอบรม และการตรวจค้น
  • io.net ซึ่งจนถึงเดือนมิถุนายน 2022 ได้พัฒนาระบบการซื้อขายแบบปริภูมิสำหรับตลาดหุ้นของสหรัฐและตลาดคริปโต พบกับ Ray.io ไลบรารี Python โอเพนซอร์สสำหรับการสร้างระบบกระจายความสามารถสูง io.net ใช้ Ray และไลบรารีที่ทันสมัยสำหรับการสตรีมข้อมูล การฝึกอบรม การปรับแต่งเพื่อรวมกับ Mesh VPNs (ซึ่งทำให้กระบวนการในการพัฒนาและการใช้งานโมเดล AI ขนาดใหญ่ในเครือข่ายขนาดใหญ่ของ GPU ง่ายขึ้น) เพื่อให้บริการด้านคอมพิวเตอร์
  • Bittensor, ในฐานะแพลตฟอร์มเปิด อนุญาตให้ผู้ใช้สร้างเน็ตเวิร์กบนแพลตฟอร์มของมัน แต่ละอันมีสิ่งส่งเสริมที่เป็นเอกลักษณ์ของตัวเองเพื่อกระตุ้นผู้ใช้อื่น ๆ ให้มีส่วนร่วมเป็นผู้ขุดเน็ตเวิร์กย่อย ผู้ตรวจสอบเน็ตเวิร์กย่อย ผู้ขุดเน็ตเวิร์กย่อยในการดำเนินงานงานที่เฉพาะเจาะจง และผู้ตรวจสอบเหล่านี้ของผู้ขุดเน็ตเวิร์กย่อย
  • Aethir เป็นโครงสร้างพื้นฐานการประมวลผลแบบคลาวด์ที่ให้บริการคุณภาพสูงสําหรับ AI และการเล่นเกมบนคลาวด์ Aethir มุ่งเน้นไปที่การรวมทรัพยากร GPU คุณภาพสูงเช่นชิป H100 ของ NVIDIA จากศูนย์ข้อมูล บริษัท เทคโนโลยี telcos สตูดิโอเกมชั้นนําและ บริษัท ขุด crypto เครือข่ายประกอบด้วยนักแสดงหลัก 3 คน: คอนเทนเนอร์ ตัวตรวจสอบ และตัวทําดัชนี คอนเทนเนอร์รวมถึง Aethir Edge เป็นที่ที่มีการใช้ทรัพยากรการประมวลผลจริง ตัวตรวจสอบช่วยให้มั่นใจได้ถึงความสมบูรณ์และประสิทธิภาพของคอนเทนเนอร์ หากจําเป็น Indexer จะจับคู่ผู้ใช้ปลายทางกับคอนเทนเนอร์ที่เหมาะสมตามความต้องการของผู้ใช้ปลายทาง

เครือข่ายที่เฉพาะเจาะจงในด้านคอมพิวเตอร์

การฝึกอบรมล่วงหน้า

ในพื้นที่คริปโต, Gensyn, ที่ถูกลงทุนโดย a16z, предлагает ระบบคอมพิวเตอร์สำหรับการฝึกอบรมแบบกระจาย

กระบวนการคือหลังจากผู้ใช้ส่งงานความต้องการการฝึกอบรมแพลตฟอร์มจะวิเคราะห์และประเมินพลังการคำนวณที่จำเป็นรวมถึงแยกออกเป็นจำนวนขั้นต่ำของงาน ML ซึ่งตรงนี้ผู้ตรวจสอบจะเก็บงานที่วิเคราะห์อย่างสม่ำเสมอเพื่อสร้างค่าเกณฑ์สำหรับการเปรียบเทียบพิสูจน์การเรียนรู้ล่างๆ

เมื่องานเข้าสู่ขั้นตอนการฝึกอบรม มันจะถูกดำเนินการโดย Solver ซึ่งเก็บน้ำหนักโมเดลและดัชนีการตอบสนองจากชุดข้อมูลการฝึกอบรมเป็นระยะ ๆ พร้อมทั้งสร้างการพิสูจน์การเรียนรู้ และผู้ตรวจสอบทำงานคำนวณให้เกิดการทำงานซ้ำเพื่อทำการคำนวณระยะทางเพื่อยืนยันว่ามันตรงกับการพิสูจน์ นอกจากนี้ Whistleblowers ทำงานความถูกต้องโดยใช้โปรแกรมท้าทายบนกราฟเพื่อตรวจสอบว่างานการตรวจสอบถูกต้องหรือไม่

การปรับแต่งละเอียด

การปรับแต่งคือง่ายและมีค่าใช้จ่ายน้อยกว่าการฝึกฝนโดยตรงบนโมเดลขนาดใหญ่โดยการปรับแต่งโมเดลที่ถูกฝึกไว้ก่อนด้วยชุดข้อมูลที่เฉพาะเจาะจงและการปรับโมเดลให้เข้ากับงานที่เฉพาะเจาะจงในขณะที่ยังคงรักษาโมเดลเดิม

Hugging Face สามารถเข้าถึงได้เป็นผู้ให้บริการทรัพยากรโมเดลภาษาที่ถูกเตรียมไว้ล่วงหน้าสำหรับแพลตฟอร์มกระจาย ผู้ใช้เลือกโมเดลที่จะทำการปรับปรุงตามความต้องการของงานและใช้ GPU และทรัพยากรอื่นที่ให้บริการโดยเครือข่ายคอมพิวเตอร์สำหรับการปรับปรุงตามงาน ซึ่งจำเป็นต้องขึ้นอยู่กับความซับซ้อนของงานเพื่อกำหนดขนาดของชุดข้อมูล ความซับซ้อนของโมเดล และเพื่อกำหนดความต้องการในทรัพยากรระดับสูงเช่น A100

นอกจาก Gensyn แพลตฟอร์มที่สามารถรองรับการฝึกฝนล่วงหน้า แพลตฟอร์มคำนวณสามารถรองรับการปรับแต่งได้ด้วย

การอย่างน้อย

เมื่อเปรียบเทียบกับการฝึกอบรม (การฝึกก่อนและการปรับแต่ง), ซึ่งต้องการการปรับตั้งค่ารุ่นโมเดล กระบวนการคำนวณของการอ้างอิงเกี่ยวข้องกับการส่งต่อไปข้างหน้าเท่านั้น และต้องการพลังการคำนวณน้อยกว่า ระบบเครือข่ายการคำนวณที่มีการกระจายอย่างมากในปัจจุบันมุ่งเน้นบริการการอ้างอิง

  • เครือข่าวเร็วเป็นแพลตฟอร์มสำหรับการเรียกใช้โหลดงาน AI ที่ให้บริการคำนวณเน้นการเรียกใช้กระบวนการสรุปสำหรับโมเดล LLama 2 และ Stable Diffusion
  • Ritual.AI, ระบบแรกของแพลตฟอร์มคือ Infernet ซึ่งเป็นกรอบงานที่เบา. ด้วยมันนักพัฒนาสัญญาฉลาดสามารถขอบริการการอ่านอิทธิพลจากออฟเชนและส่งให้สัญญาฉลาดบนเชน. ระบบชั้นที่สองคือ Ritual Chain ซึ่งรองรับการดำเนินการ AI-native

ชั้นเสริม / มิดเดิลแวร์เพิ่มเติม

เมื่อการสรุปถึงการดำเนินการที่อยู่ในขั้นตอนนี้เป็นขั้นตอนของการใช้โมเดลแล้ว จึงสามารถนำมิดเดิลแวร์เข้ามาในเวลาที่เหมาะสม:

  • การจับคู่รูปแบบ: เมื่อทำการพยากรณ์ มักจำเป็นต้องกำหนดรูปแบบที่เหมาะสมตามความต้องการของงาน
  • API: สรุปโมเดลโอเพนซอร์สทั้งหมด API อินเทอร์เฟซที่เป็นมาตรฐาน เช่น Redpill

On-chain smart contract เพื่อดึงข้อมูลผลลัพธ์จากการคำนวณ AI นอกเครือข่าย:

  • โปรโตคอล ORA เพื่อให้ผลลัพธ์การอธิบายที่ตรวจสอบได้สำหรับสัญญาอัจฉริยะ เช่น โหนด opML จะเก็บคำขอ opML ที่ส่งมาจากเชน จะเรียกใช้การตีความ AI และจากนั้นอัปโหลดผลลัพธ์ไปยังเชนและรอระยะเวลาท้าทาย

สามารถเพิ่มชั้นความเป็นส่วนตัวอีกชั้นหนึ่งในเครือข่ายคอมพิวเตอร์ได้ ซึ่งประกอบด้วยความเป็นส่วนตัวของข้อมูลและความเป็นส่วนตัวของโมเดล โดยที่ความเป็นส่วนตัวของข้อมูลมีความสำคัญมากกว่าความเป็นส่วนตัวของโมเดล

  • ในปัจจุบัน Oasis protocol ใช้ Intel TDX และ NVIDIA TEEs เพื่อให้ความเป็นส่วนตัวและความสามารถในการตรวจสอบสำหรับการฝึกโมเดล AI

การยืนยัน

เครือข่ายคอมพิวเตอร์ของส่วนใหญ่สร้างระบบการตรวจสอบที่แตกต่างกันเพื่อให้ระบบเดินไปอย่างถูกต้องในขณะที่ลิงค์เป็นส่วนหนึ่งที่ยังไม่เคยถูกนำเสนอในฟิลด์ AI เดิม

ZKML

บทบาทหลักของการพิสูจน์ ZK คือ 2 จุดต่อไปนี้:

  • ใช้เพื่อพิสูจน์ความถูกต้องของโมเดลโดยไม่เปิดเผยพารามิเตอร์ใด ๆ
  • พิสูจน์ว่าการคำนวณถูกต้องและว่าโมเดล + ข้อมูลนำเข้าตรงกับผลลัพธ์: Modulus labs, Giza

Modulus Labs แสดงให้เห็นว่าเป็นไปได้ที่จะสร้างพิสูจน์สำหรับโมเดลที่มีพารามิเตอร์ 18 ล้านตัวใน 60–70 วินาทีโดยใช้ระบบพิสูจน์ Plonky ของ Polygon สำหรับโมเดลขนาดเล็ก เป็นไปได้ที่จะใช้ ZKML ในขั้นตอนนี้ แต่ค่าใช้จ่ายยังคงมีนัยสำคัญ

  • เวลาพิสูจน์ของ ZKML เพิ่มขึ้นตามพารามิเตอร์ที่เพิ่มขึ้น
  • มันมีราคาแพงมากในเชิงการใช้หน่วยความจำของ prover ยกตัวอย่างเช่น Worldcoin ใช้โมเดลที่มีพารามิเตอร์ 1.8 ล้านและ 50 ชั้นเพื่อแยกแยะระหว่างไอริส 10 พันล้าน สำหรับสิ่งที่พิสูจน์ของการอ่านออกมาได้ในไม่กี่นาที แต่การใช้หน่วยความจำภายใน prover สูงเกินไปสำหรับฮาร์ดแวร์มือถือใดๆ

Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

ด้วยข้อ จํากัด ของ ZKML ที่อธิบายไว้ข้างต้น OPML จึงเป็นทางเลือก แม้ว่าจะอ่อนแอกว่า ZKML ในแง่ของความปลอดภัย แต่การใช้หน่วยความจําและเวลาในการคํานวณหลักฐานนั้นดีกว่า ZKML อย่างมาก ตามรายงาน ORA แสดงให้เห็นว่าสําหรับรุ่น 7B-LLaMA เดียวกัน (มีขนาดรุ่นประมาณ 26GB) opML สามารถประมวลผลได้ภายใน 32GB ของหน่วยความจําในขณะที่การใช้หน่วยความจําของวงจรใน zkML สามารถอยู่ในลําดับของเทราไบต์หรือแม้แต่เพตะไบต์

TEEML

Trusted Execution Environment ให้ความปลอดภัยในระดับฮาร์ดแวร์และสามารถเป็นทางเลือกต่อ ZKML และ OPML ได้ TEE-proof ถูกสร้างขึ้นเป็นผลจากการคำนวณภายใน TEE และต้นทุนการคำนวณของมันมีราคาที่ต่ำมากกว่า zk-proof อีกด้วย ขนาดของ proof ของ TEE โดยปกติจะเป็นค่าคงที่ (ความยาวของลายเซ็น) และจึงมีข้อได้เปรียบในรูปทรงของพื้นที่ที่เล็กกว่าและต้นทุนการตรวจสอบ on-chain ที่ต่ำลง

นอกจากการตรวจสอบแล้ว TEE ยังมีข้อดีที่สามารถเก็บข้อมูลที่ละเอียดอ่อนรักษาไว้ในที่ๆ แยกออกมา ทำให้กระบวนการหรือการคำนวณภายนอกไม่สามารถเข้าถึงหรือเปลี่ยนแปลงข้อมูลภายในได้

โครงการที่ใช้ TEE ได้รวมถึง:

  • เครือข่าย Aizel (ให้การอย่างถูกต้อง)
  • เครือข่าย Phala (เน้นการสร้างเอเจนต์ AI)
  • โอเอเชียโปรโตคอล (การฝึกโมเดล AI)
  • โปรโตคอล Marlin (Oyster สามารถติดตั้งและตรวจสอบโมเดล ML)

แหล่งที่มา: https://arxiv.org/pdf/2401.17555,โปรโตคอลมาร์ลิน

นอกจากนี้ โปรโตคอล ORA ได้พัฒนา opp/ai (Optimistic Privacy-Preserving AI on Blockchain) นอกจาก ZKML และการตรวจสอบ OPML ของตนเอง และไม่รวมอยู่ในตารางเปรียบเทียบด้านบน

เอเจนต์ เลเยอร์

เอเจนท์มีความสามารถในการวิเคราะห์ข้อมูลที่เข้ามา ประเมินเงื่อนไขสภาพแวดล้อมปัจจุบันและตัดสินใจ เอเจนท์ประกอบด้วยส่วนประกอบตามภาพด้านล่าง ซึ่ง LLM เป็นส่วนประกอบหลัก นอกจากนี้จำเป็นต้องเลี้ยงคำแนะนำที่เหมาะสมให้กับ LLM และผ่านหน่วยความจำเพื่อเก็บข้อมูลระยะสั้นและข้อมูลประวัติยาวนาน (ข้อมูลภายนอก)

เนื่องจากงานที่ซับซ้อนไม่สามารถทำเสร็จในคราวเดียวได้ จึงต้องแบ่งเป็นงานย่อยๆ โดย Plan นอกจากนี้ Agent ยังสามารถเรียกใช้ API ภายนอกเพื่อรับข้อมูลเพิ่มเติม รวมถึงข้อมูลปัจจุบัน ความสามารถในการดำเนินการโค้ด การเข้าถึงแหล่งข้อมูลที่เป็นเอกสิทธิ์ และอื่นๆ อีกมากมาย

แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้รูปแบบภาษาขนาดใหญ่

ความสามารถในการตัดสินใจของตัวแทนไม่มีการพัฒนาที่แน่ชัดจนกระชักมาถึงการเกิดของโมเดลภาษาขนาดใหญ่ LLM ในปีสุดท้าย เอกสารรายงานได้รวบรวมจำนวนของเอกสารที่เผยแพร่เกี่ยวกับตัวแทนตั้งแต่ปี 2021 ถึงปี 2023 ดังแสดงในภาพด้านล่าง ในความเป็นจริงมีเพียงประมาณหนึ่งโครงการวิจัยในปี 2021 แต่มีร้อยเอกสารที่เผยแพร่เกี่ยวกับพวกเขาในปี 2023 หนังสือฉบับนี้จะจัดหมวดหมู่ตัวแทนเป็น 7 ประเภท

แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้โมเดลภาษาขนาดใหญ่

ใน web3 ฉากที่เอเจ้นต์มีอยู่ยังมีข้อจำกัดเมื่อเปรียบเทียบกับโลก web2 และประกอบด้วยการล้างอัตโนมัติ การสร้างส่วนประกอบของโค้ด (เขียนสัญญาอัจฉริยะ เขียนวงจร zk) การควบคุมความเสี่ยงแบบเรียลไทม์ และการดำเนินกลยุทธ์เช่น อาร์บิเทรจ และการเกษียณเพาะเสียด

การสร้างตัวแทนและแพลตฟอร์มการซื้อขาย

  • Theoriq (ChainML) ได้นำเสนอแนวคิดของ Agent Base Layer ซึ่งช่วยอนุรักษ์เอเจนต์ในรูปแบบ NFT และสร้างเอเจนต์ของตัวเอง โดยรวมถึงสร้าง Agent Collective โดยการรวมเอเจนต์เข้าด้วยกันเพื่อทำให้ตรงตามความต้องการที่ซับซ้อน กระบวนการนี้ประเมินประสิทธิภาพและการเชื่อมโยงของเอเจนต์ที่แตกต่างกันผ่านการพิสูจน์ที่เป็นข้อเท็จจริงและการพิสูจน์ความร่วมมือ
  • Spectral Labs มีผลิตภัณฑ์หลัก 2 อย่าง คือ Spectral Syntax ซึ่งเป็นแพลตฟอร์มที่ทำให้ผู้ใช้สามารถสร้างตัวแทนบนโซน (chain) และ Spectral Nova ซึ่งเป็นบริการการอินเฟอร์เรนซิ่งที่รองรับการร้องขอบริการการอินเฟอร์เรนซิ่ง การสร้างตัวแทนใน Spectral Syntax ใช้บริการการอินเฟอร์เรนซิ่งของ Spectral Nova และการอินเฟอร์เรนซิ่งนั้นถูกตรวจสอบโดย ZK proof เพื่อให้แน่ใจว่ามันทำงาน ในเวลาเดียวกันพวกเขาจะเปิดตัว Inferchain เพื่อให้สามารถสื่อสารระหว่างตัวแทน
  • Autonolas สนับสนุนการสร้างบริการที่ประกอบด้วยตัวแทนหลายตัวซึ่งช่วยให้เจ้าของบริการสามารถสร้างบริการและลงทะเบียนบริการที่เกี่ยวข้องในรีจิสทรีบริการเพื่อเริ่มเวิร์กโฟลว์ขอให้นักพัฒนาจัดหาส่วนประกอบตัวแทนและอื่น ๆ นักพัฒนาสามารถพัฒนา Agent ส่วนประกอบและรหัสอื่น ๆ ที่เก็บไว้นอกเชนสร้าง NFT onchain ที่เกี่ยวข้องและอ้างถึงแฮช IPFS ข้อมูลเมตาจากนั้นอ้างถึงรหัสพื้นฐานโดยอ้างอิงแฮช IPFS เพิ่มเติม โดยทั่วไปบริการจะดําเนินการโดยชุดของตัวดําเนินการ โดยแต่ละชุดจะเรียกใช้อินสแตนซ์ Agent อย่างน้อยหนึ่งรายการ นอกจากนี้ Autonolas ยังบรรลุฉันทามติภายในบริการสําหรับตัวแทนโดยใช้ Consensus Gadget ที่กําหนดข้อตกลงระหว่างตัวแทนภายในบริการ

แพลตฟอร์มตรวจสอบเอเจนต์

  • AgentOpsAI เป็นพันธมิตรของ sentient ที่ให้บริการตรวจสอบเอเจนต์ (เหตุการณ์บันทึก การโทร ข้อผิดพลาดของเอเจนต์ เป็นต้น) โดยปัจจุบันเป็นแพลตฟอร์มที่ทำงานที่จุดรวม ไม่มีโทเค็นเข้ามาเกี่ยวข้อง

ขั้นตอนการทํางาน

โดยอิงจากตัวแทนที่แตกต่างกัน สามารถรวม/รวมร่าย/สร้างแอปพลิเคชั่นเฉพาะได้ในเวลาเดียวกัน ในเวลาเดียวกัน มีแพลตฟอร์มประสานงานบางรายที่สามารถเลือกตัวแทนที่จะใช้สร้างประเภทแอปพลิเคชั่นที่เฉพาะเจาะจง แต่ส่วนใหญ่ของพวกเขาถูก จำกัด ในการพัฒนาตัวแทน

แอปพลิเคชัน

ผู้พัฒนาโครงการ

นักพัฒนาบางคนจะใช้ปัญญาประดิษฐ์บางส่วนเพื่อช่วยให้แพลตฟอร์มของพวกเขาฉลาดขึ้น เช่นในโครงการด้านความปลอดภัย การเรียนรู้ของเครื่องถูกใช้ในการแยกแยะช่องโหว่การโจมตี โปรโตคอล DeFi ใช้ปัญญาประดิษฐ์ในการสร้างเครื่องมือตรวจสอบแบบเรียลไทม์ และแพลตฟอร์มการวิเคราะห์ข้อมูลยังใช้ปัญญาประดิษฐ์เพื่อช่วยในการทำความสะอาดข้อมูลและการวิเคราะห์

ผู้ใช้

หน้าต่าง Q&A/การวิเคราะห์

  • Kaito.ai, ผู้ใช้สามารถใช้ Q&A เพื่อรับข้อมูลเกี่ยวกับอารมณ์ของชุมชนโครงการ ราคา และการเคลื่อนไหวของทีมหลัก
  • 0xScope, การใช้กราฟความรู้เบื้องหลังเพื่อรวมข้อมูลบนเชน นั่นคือลักษณะพฤติกรรมของผู้ใช้ เพื่อให้บริการการวิเคราะห์ข้อมูลสำหรับผู้ใช้ ได้เปิดตัวหน้าต่าง Scopechat Q&A ทันเวลาสำหรับคลื่น AI นี้

ร้านค้า AI APP

  • Myshell เสนอเลเยอร์ผู้บริโภคและสร้าง AI APP Store ซึ่งมีส่วนประกอบ AI ที่แตกต่างกันและโหมดการสร้างสามโหมดเพื่ออํานวยความสะดวกให้ผู้ใช้สร้างแอปพลิเคชัน AI ที่แตกต่างกัน วิดเจ็ตแบ่งออกเป็นส่วนประกอบพื้นฐานและคอมโพสิต ส่วนประกอบพื้นฐานช่วยให้ผู้ใช้สามารถสร้าง Prompt, Voice, Avatar และสินทรัพย์อื่น ๆ ลงในแอป AI ในขณะที่ส่วนประกอบคอมโพสิตอนุญาตให้สร้างส่วนประกอบที่กําหนดเองโดยใช้โมเดล / ส่วนประกอบพื้นฐานหลายแบบรวมกัน โหมดการสร้างประกอบด้วยโหมดคลาสสิกพัฒนาและไม่มีโค้ดสามโหมดสําหรับนักพัฒนาและผู้ใช้ที่มีความสามารถและความต้องการที่แตกต่างกัน

สรุป

ในบทความนี้เราอยากจะเน้น 3 ประเด็นต่อไปนี้:

  • GPUAI

ใน crypto เครือข่ายคอมพิวเตอร์จํานวนหนึ่งเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ทําให้ผู้ใช้รู้สึกว่า GPU เป็น AI แต่ตามที่วิเคราะห์ในส่วนก่อนหน้ามี trilemma ที่เป็นไปไม่ได้ของเครือข่ายคอมพิวเตอร์เช่นพลังการประมวลผลแบนด์วิดท์ / การสื่อสารและหน่วยความจํารวมถึงกลยุทธ์แบบขนานสามประเภทที่ใช้ในการฝึกอบรมแบบจําลองเช่นข้อมูลขนานเทนเซอร์ขนาน และไปป์ไลน์ขนานทั้งหมดชี้ไปที่การตรวจสอบและยอดคงเหลือที่กําหนดไว้ในการตั้งค่ากรอบของเครือข่ายคอมพิวเตอร์

  • โมเดลเดียวกัน & ข้อมูลเดียวกัน ผลลัพธ์เดียวกัน

เหตุผลที่เหมือนกันและข้อมูลเดียวกันไม่จำเป็นต้องให้ผลลัพธ์เดียวกันคือการใช้การคำนวณทศนิยม ความแตกต่างในการคำนวณนี้ยังมีผลต่อการสร้างเครือข่ายคอมพิวเตอร์

  • เอเจ้นต์ AI เพิ่มเติม

เอไอ เอเจนต์เพียงเริ่มแสดงความมีประโยชน์มากขึ้นในปีหลังสุด และเราคาดหวังว่าเอเจนต์จะปรากฏขึ้นในตลาดมากขึ้น แต่ว่าเอเจนต์ทำงานในคริปโตหรือวิธีการหาสิ่งสนับสนุนโทเค็นที่เหมาะสมยังเป็นความท้าทาย

คำชี้แจง:

  1. บทความนี้ถูกคัดลอกมาจาก[กลาง],ชื่อเรื่องเดิม "AI into Crypto" เป็นสิทธิ์ในการเขียนของผู้เขียนเดิม[HashKey Capital ],หากมีข้อผิดพลาดในการโพสต์กรุณาติดต่อทีม Gate Learnทีมจะดำเนินการตามกระบวนการที่เกี่ยวข้องเร็วที่สุด

  2. คำปฏิเสธความรับผิด: มุมมองและความเห็นที่แสดงในบทความนี้เป็นเพียงมุมมองส่วนตัวของผู้เขียนเท่านั้น ไม่เป็นที่สร้างสรรค์ข้อเสนอแนะในการลงทุนใด ๆ

  3. บทความเวอร์ชันอื่น ๆ ถูกแปลโดยทีม Gate Learn ในกรณีที่ไม่ได้กล่าวถึงGate.ioในกรณีที่ไม่ได้คัดลอก ส่งผ่าน หรือลอกเลียนแบบบทความที่ถูกแปล

AI เข้าสู่คริปโต

กลาง9/19/2024, 2:23:31 AM
การเปิดตัว ChatGPT เมื่อพฤศจิกายน 2022 ได้เปิดมุมมองของผู้เล่นในอุตสาหกรรมต่าง ๆ ต่อโมเดลภาษาขนาดใหญ่ที่ใช้ประโยชน์จาก AI โดยทั่วไป การแพร่กระจายที่เร่งรีบนี้ทำให้เกิดความเคลื่อนไหวอย่างไม่สม่ำเสมอในพื้นที่ Crypto และบทความนี้มีจุดมุ่งหมายที่จะนำเสนอการพัฒนาของ AI สถานะปัจจุบันของมัน และอุตสาหกรรมที่เกิดขึ้นจากการผสม AI+Crypto

การเปิดตัว ChatGPT ในเดือนพฤศจิกายน 2022 ได้เปิดหูเปิดตาของผู้เล่นในอุตสาหกรรมต่างๆ ถึงโมเดลภาษาขนาดใหญ่ AI ไดนามิกที่บ้าคลั่งนี้แทรกซึมเข้าไปในพื้นที่ Crypto และบทความนี้มีจุดมุ่งหมายเพื่อแนะนําการพัฒนา AI สถานะปัจจุบันและอุตสาหกรรมที่เกิดขึ้นจากการรวมกันของ AI + Crypto

การพัฒนา AI และสถานะปัจจุบันของมัน

ประเภทและสถาปัตยกรรม

Machine learning (ML) เป็นเทคโนโลยีที่มีความสามารถในการเรียนรู้จากประสบการณ์ ซึ่งเรียนรู้ในการแยกแยะสัตว์ การแปลภาษา และงานที่เฉพาะเจาะจงอื่น ๆ โดยการเรียนรู้จากชุดข้อมูลขนาดใหญ่ Machine learning เป็นวิธีที่เป็นปฏิบัติที่สุดสำหรับการเรียนรู้ปัจจุบัน ตามว่าข้อมูลที่เรียนรู้มีป้ายชื่อหรือไม่และลักษณะมันสามารถแบ่งเป็นการเรียนรู้ซึ่งกำกับและการเรียนรู้ที่ไม่ได้รับการกำกับ

มีหลายประเภทของโมเดลที่สามารถทำ supervised learning ได้ รวมถึงโมเดลที่ใช้ต้นไม้, โมเดลกราฟ, และ neural networks ที่เพิ่งปรากฏออกมาเร็ว ๆ นี้ ด้วยการพัฒนาประสิทธิภาพการคำนวณและข้อมูลอย่างรวดเร็ว, deep learning ได้รับการพัฒนาต่อไปโดยอิงจากโครงสร้างของ neural networks โครงสร้าง deep learning ปัจจุบันรวมถึง, แต่ไม่จำกัดอยู่ที่, CNNs, RNNs, และ mechanism การให้ความสนใจ

การจำแนกประเภทของการเรียนรู้ของเครื่อง, แหล่งที่มา: ทุน HashKey

เครือข่ายการเรียนรู้เชิงลึกที่แตกต่างกันมีสถาปัตยกรรมพื้นฐานของเลเยอร์อินพุตเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาต์พุตเลเยอร์อินพุตมักจะเป็นข้อความวิดีโอเสียงและข้อมูลอื่น ๆ หลังจากได้รับการประมวลผล เลเยอร์ที่ซ่อนอยู่มีการออกแบบที่แตกต่างกัน (รูปร่างแบบจําลอง) ขึ้นอยู่กับชุดข้อมูลและวัตถุประสงค์ของงานดังที่แสดงในตาราง

ประเภทของเครือข่ายประสาท ที่มา: จัดระเบียบโดย HashKey Capital

สามสิบปีของการพัฒนาเครือข่ายประสาท

30 ปีของการพัฒนาเครือข่ายประสาท ที่มา: จัดโดย HashKey Capital

การฝึกโครงข่ายประสาทเทียมมีต้นกำเนิดครั้งแรกในช่วงกลางของปี ค.ศ. 1980 เมื่อจอร์แดนฝึกโครงข่ายประสาทเพื่อเรียนรู้รูปแบบตามลำดับในบทความปี 1986 ของเขาลำดับซีเรียล: วิธีการประมวลผลแบบกระจายขนาดใหญ่เครือข่ายขนาดเล็กมีนิวรอนเพียงไม่กี่ตัว

ในปี 1990 Jeffrey Ehrman ขยายเครือข่ายประสาทเป็นเครือข่าย 50 นิวรอนพบว่าเครือข่ายจัดกลุ่มคำตามความหมายทางพื้นที่ เช่น แยกคำนามที่ไม่มีชีวิตและมีชีวิต และภายในหมวดหมู่นี้ วัตถุที่มีชีวิตถูกแบ่งเป็นหมวดหมู่มนุษย์และไม่มนุษย์ และวัตถุที่ไม่มีชีวิตถูกจำแนกเป็นที่สามารถแตกและที่สามารถกิน ซึ่งแสดงให้เห็นว่าเครือข่ายสามารถเรียนรู้การอธิบายแบบชั้นย่อย

เขายังสังเกตเห็นว่าคำสามารถแสดงให้เห็นเป็นจุดในพื้นที่มิติสูง และจากนั้นลำดับของคำหรือประโยคสามารถมองเห็นเป็นเส้นทาง การเจริญใหญ่นี้ช่วยให้ชุดข้อมูลที่เป็นข้อความสามารถถูกดิจิทัล, มีเวกเตอร์, และประมวลผลโดยคอมพิวเตอร์

ที่มา: http://3b1b.co/neural-networks

ในปี 2011 นักวิจัย Confluence ได้ฝึกฝนเครือข่ายขนาดใหญ่ที่มีพันธะพันธุ์พันโตที่เกี่ยวข้องและล้าหลังพบว่ามีปัญหาในการศึกษาในความสามารถของเครือข่ายในการรักษาบริบทที่สมเหตุสมผลตลอดช่วงเวลายาว

ในปี 2017 OpenAI พัฒนาต่อจากงานของ Kathy โดยการฝึกอบรมด้วยรีวิว Amazon 82 ล้านรีวิว โดยพบว่ามีเซลล์ประสาทที่เชื่อมโยงกับอารมณ์ของข้อความได้อย่างละเอียด

Source: การเรียนรู้ในการสร้างรีวิวและค้นพบอารมณ์

เกี่ยวกับข้อจำกัดของขนาดบริบทที่ กระดาษ 2017 Attention Is All You Need นำเสนอวิธีการแก้ปัญหา กระดาษสร้างเครือข่ายเลเยอร์ไดนามิคที่ปรับน้ำหนักการเชื่อมต่อขึ้นอยู่กับบริบทของเครือข่าย มันทำงานโดยอนุญาตให้คำในอินพุตมอง จับคู่คำอื่น ๆ และค้นหาคำที่เกี่ยวข้องที่สุด คำเหล่านี้เมื่ออยู่ใกล้กันตามแนวความคิดมากขึ้น ก็สามารถมีน้ำหนักการเชื่อมต่อสูงขึ้น อย่างไรก็ตาม กระดาษเฉพาะกล่าวถึงปัญหาการแปลเท่านั้น

ดังนั้น นักวิจัย OpenAI ได้ลองใช้โครงสร้าง transformer ที่มีกำลังการทำงานมากกว่าและเปิดตัว GPT-3 ในปี 2020 ซึ่งได้ดึงดูดความสนใจจากอุตสาหกรรมทั่วโลก ในครั้งนี้กับเครือข่ายที่มีพารามิเตอร์รวม 175 พันล้าน ชั้นของ 96 ชั้น และหน้าต่างบริบท 1,000 คำ

นวัตกรรมประสาทคืออะไร?

เรียกดูภาพดิจิตอลขนาด 28x28 พิกเซลต่อไปนี้เป็นตัวอย่าง นิวรอนสมควรตรงกับแต่ละพิกเซลของภาพนำเข้าขนาด 28x28 ทั้งหมด 784 นิวรอน ตัวเลขในนิวรอนคือค่าการกระตุ้นซึ่งมีช่วงค่าตั้งแต่ 0–1

รูปภาพดิจิตอลขนาด 28x28 พิกเซล, ที่มา: http://3b1b.co/neural-networks

เซลล์ประจำนิวรอน 784 เซลล์เป็นชั้นนำของเครือข่าย ชั้นสุดท้ายคือชั้นเอาท์พุต ซึ่งประกอบด้วยนิวรอนสิบตัวที่แทนตัวเลข 0–9 อีกครั้งด้วยค่าการเปิดใช้งานที่ห่างกัน 0–1 ชั้นกลางคือชั้นซ่อนที่ค่าการเปิดใช้งานของชั้นก่อนหน้ากำหนดค่าการเปิดใช้งานของชั้นถัดไปขณะที่เครือข่ายประสานปฏิบัติการ

ความลึกของการเรียนรู้ลึกอยู่ที่ตรงที่โมเดลเรียนรู้ชั้นมากมายของการแปลงข้อมูลแต่ละชั้นที่มีการแสดงผลต่างกัน ดังที่แสดงในภาพด้านล่าง เช่นใน 9 ชั้นที่แตกต่างกันสามารถรู้จำลักษณะที่แตกต่างกัน ยิ่งชั้นข้อมูลนำเข้าเข้าใกล้ชั้นระดับล่างของข้อมูลมากเท่าใด ยิ่งชั้นผลลัพธ์เข้าใกล้กับแนวคิดที่เฉพาะเจาะจงมากขึ้นที่สามารถใช้แยกแยะ

ต้นฉบับ: http://3b1b.co/neural-networks

เมื่อโมเดลใหญ่ขึ้น ชั้นที่ซ่อนอยู่ตรงกลางเกี่ยวข้องกับน้ำหนักที่มีร้อยละของพันล้านต่อชั้น และคือน้ำหนักและความเอียงเหล่านี้ที่จะกำหนดว่าเครือข่ายกำลังทำอะไรในความเป็นจริง กระบวนการของการเรียนรู้ของเครื่องคือกระบวนการค้นหาพารามิเตอร์ที่ถูกต้องซึ่งคือน้ำหนักและความเอียง

โครงสร้างการแปลงใช้ใน GPT โมเดลภาษาขนาดใหญ่ มีชั้นซ่อนตัวกลางที่ประกอบด้วยโมดูลการถอดรหัส 96 ชั้นซึ่ง GPT1, GPT2 และ GPT3 มี 12, 48 และ 96 ชั้นตามลำดับ ตัวถอดรหัสมีองค์ประกอบของเครือข่ายประสาทที่สนใจและส่งกลับไปยังข้างหน้า

วิธีการฝึกอบรม

การประมวลผลหรือการเรียนรู้เกี่ยวกับการกำหนดฟังก์ชันต้นทุน (หรือฟังก์ชันขาดทุน) ซึ่งรวมผลรวมของสี่เหลี่ยมของความแตกต่างระหว่างค่าทำนายผลลัพธ์ของเครือข่ายและค่าจริง ๆ และเมื่อผลรวมเล็ก ๆ น้อย ๆ โมเดลจะทำงานอยู่ภายใต้ขีดจำกัดที่ยอมรับได้

การฝึกอบรมเริ่มต้นด้วยการกำหนดพารามิเตอร์ของเครือข่ายในลักษณะสุ่มและการสรุปผลของพารามิเตอร์ของเครือข่ายโดยการค้นหาพารามิเตอร์ที่ลดค่าฟังก์ชันต้นทุน วิธีในการทำให้ฟังก์ชันต้นทุนรวมคือด้วยการคลี่ร์เดสเซนต์ โดยซึ่งจะตรวจสอบระดับผลกระทบของการเปลี่ยนแปลงพารามิเตอร์แต่ละตัวต่อค่าทุน/สูญเสีย และจากนั้นจะปรับปรุงพารามิเตอร์ตามระดับผลกระทบนั้น

กระบวนการคำนวณค่าเกรเดียนทำให้มีการถอยกลับหรือการถอยกลับซึ่งวิ่งผ่านเครือข่ายจากเลเยอร์เอาต์พุทไปยังเลเยอร์อินพุทในลำดับกลับตามกฎเชน อัลกอริทึมยังต้องการการจัดเก็บตัวแปรกลาง (อนุพันธ์บางส่วน) ที่จำเป็นสำหรับการคำนวณเกรเดียน

ปัจจัยการพัฒนา

มีปัจจัยหลัก 3 ปัจจัยที่มีผลต่อประสิทธิภาพของโมเดลขนาดใหญ่ที่ใช้ในการฝึก AI ระบบภาษา คือ จำนวนพารามิเตอร์ของโมเดล ขนาดของชุดข้อมูล และปริมาณการคำนวณ

แหล่งที่มา: รายงาน OpenAI, กฎหมายสำหรับโมเดลภาษาประสาน神經

นี่สอดคล้องกับการพัฒนาข้อมูลและคอมพิวเตอร์ (กำลังคำนวณ) ในโลกของความเป็นจริง แต่ก็สามารถเห็นได้จากตารางด้านล่างว่า กำลังคำนวณกำลังเติบโตเร็วกว่าข้อมูลที่มีอยู่ ในขณะที่หน่วยความจำเป็นจะเติบโตช้าที่สุด

การพัฒนาของชุดข้อมูล ความจำ และกำลังคำนวณ แหล่งที่มา: https://github.com/d2l-ai

ข้อมูล

ความต้องการของข้อมูล

เมื่อต้องเผชิญกับโมเดลขนาดใหญ่ overfitting มีแนวโน้มที่จะเกิดขึ้นเมื่อข้อมูลการฝึกอบรมมีขนาดเล็กเกินไปและโดยทั่วไปความแม่นยําของแบบจําลองที่ซับซ้อนมากขึ้นจะดีขึ้นเมื่อปริมาณข้อมูลเพิ่มขึ้น เกี่ยวกับข้อกําหนดข้อมูลที่จําเป็นสําหรับโมเดลขนาดใหญ่สามารถตัดสินใจได้ตามกฎ 10 ซึ่งชี้ให้เห็นว่าปริมาณข้อมูลควรเป็น 10 เท่าของพารามิเตอร์ แต่อัลกอริธึมการเรียนรู้เชิงลึกบางอย่างใช้ 1: 1

ข้อมูลที่มีป้ายชื่อ

การเรียนรู้ภายใต้การควบคุม ต้องใช้ชุดข้อมูลที่มีป้ายชื่อและคุณลักษณะเพื่อให้ได้ผลลัพธ์ที่ถูกต้อง

Source: Fashion-MNIST ชุดข้อมูลการจำแนกประเภทเสื้อผ้า

ข้อมูลสังเคราะห์

ถึงกระแสการเพิ่มขึ้นอย่างรวดเร็วของข้อมูลในรอบ 1-2 ทศวรรษที่ผ่านมาและชุดข้อมูลแบบโอเพนซอร์สที่มีให้ใช้งานรวมถึง Kaggle, Azure, AWS, Google database ฯลฯ ข้อมูลที่จำกัด น้อย และมีราคาแพงกำลังกลายเป็นข้อจำกัดสำคัญสำหรับการพัฒนา AI เนื่องจากปัญหาเรื่องความเป็นส่วนตัว เพิ่มพารามิเตอร์โมเดล และการทำให้ข้อมูลสามารถทำซ้ำได้ มีการนำเสนอวิธีการแก้ปัญหาด้านข้อมูลต่าง ๆ เพื่อลดปัญหานี้

เทคนิคการขยายข้อมูลอาจเป็นวิธีการที่มีประสิทธิภาพโดยการให้ข้อมูลไม่เพียงพอให้กับโมเดลโดยไม่ต้องเก็บตัวอย่างใหม่ เช่นการปรับขนาด การหมุน การสะท้อน การตัด การแปลง การเพิ่มเสียงรบกวน Gaussian การผสมเข้าด้วยกัน เป็นต้น

ข้อมูลสังเคราะห์เป็นตัวเลือกอีกอย่าง ข้อมูลสังเคราะห์คือข้อมูลที่สามารถสร้างขึ้นได้ด้วยการจำลองคอมพิวเตอร์หรืออัลกอริทึมโดยมีหรือไม่มีชุดข้อมูลอ้างอิงก่อนหน้า ในเชิงพัฒนาเครื่องมือสำหรับสร้างข้อมูลสังเคราะห์ Ian J. Goodfellow ประดิษฐ์ Generative Adversarial Network (GAN) ซึ่งเป็นสถาปัตยกรรมการเรียนรู้เชิงลึก

มีการฝึกสอนระบบประสาทสองระบบให้แข่งขันกัน ซึ่งสามารถสร้างข้อมูลใหม่ที่สมจริงมากขึ้นจากชุดข้อมูลการฝึกที่กำหนดให้ โครงสร้างรองรับการสร้างภาพ เติมข้อมูลที่ขาดหายไป สร้างข้อมูลฝึกสำหรับโมเดลอื่น ๆ สร้างโมเดล 3 มิติจากข้อมูล 2 มิติ และอื่น ๆ

ยังเร็วไปในการพัฒนาด้านนี้ โดยบริษัทที่มีอยู่ส่วนใหญ่ที่ทำข้อมูลสังเคราะห์ถูกสร้างขึ้นในปี 2021 หรือ 2022 และบางส่วนในปี 2023

สถานะการจัดหาเงินทุนสำหรับบริษัทข้อมูลสังเคราะห์ ที่มา : https://frontline.vc/blog/synthetic-data/

ฐานข้อมูลเวกเตอร์

กระบวนการฝึก AI เกี่ยวข้องกับการดำเนินการเมทริกซ์จำนวนมาก ตั้งแต่การฝังคำ, การเปลี่ยนวงจร QKV ของ transformer, ไปจนถึงการดำเนินการ softmax, และอื่น ๆ ผ่านการดำเนินการเมทริกซ์ พารามิเตอร์โมเดลทั้งหมดก็ถูกพกพาในเมทริกซ์ด้วย

ตัวอย่างฐานข้อมูลเวกเตอร์, Source : https://x.com/ProfTomYeh/status/1795076707386360227

ทรัพยากรฮาร์ดแวร์คอมพิวเตอร์

โมเดลขนาดใหญ่นำมาซึ่งความต้องการที่มีขนาดใหญ่ของฮาร์ดแวร์คอมพิวเตอร์ ซึ่งส่วนใหญ่จะถูกจำแนกเป็นการฝึกและการสรุป

การฝึกก่อน, การปรับปรุง, และการสรุป

การฝึกก่อนและปรับปรุงสามารถแบ่งออกเป็นส่วนย่อยได้อีก ดังที่กล่าวไว้ก่อนหน้า การสร้างโมเดลเครือข่ายต้องเริ่มต้นด้วยการกำหนดค่าพารามิเตอร์ให้สุ่มก่อน จากนั้นค่อยทำการฝึกเครือข่ายและปรับค่าพารามิเตอร์อย่างต่อเนื่องจนกระทั่งค่าสูญเสียของเครือข่ายอยู่ในช่วงที่ยอมรับได้ ความแตกต่างระหว่างการฝึกก่อนและปรับปรุงคือ

การฝึกก่อนการฝึกที่เริ่มต้นด้วยพารามิเตอร์ของแต่ละเลเยอร์จากการเริ่มต้นแบบสุ่ม ในขณะที่บางเลเยอร์ของการปรับปรุงเสร็จสิ้นสามารถใช้พารามิเตอร์ของโมเดลที่เทรนไว้ก่อนหน้าเป็นพารามิเตอร์เริ่มต้นสำหรับงานนี้ได้โดยตรง (การตรึงพารามิเตอร์ของเลเยอร์ก่อนหน้าและมีผลกับชุดข้อมูลที่เฉพาะเจาะจง)

Source: https://d2l.ai/chapter_computer-vision/fine-tuning.html

การฝึกอบรมล่วงหน้าและการปรับแต่งทั้งสองอย่างเกี่ยวข้องกับการเปลี่ยนแปลงพารามิเตอร์แบบจําลองซึ่งในที่สุดก็ส่งผลให้เกิดการเพิ่มประสิทธิภาพแบบจําลองหรือพารามิเตอร์ในขณะที่การอนุมานคือการคํานวณการอนุมานโดยการโหลดแบบจําลองหลังจากอินพุตของผู้ใช้และในที่สุดก็ได้รับข้อเสนอแนะและผลลัพธ์

การฝึกก่อน, ปรับปรุง, และการตัดสินให้เรียงลำดับจากขนาดใหญ่ไปยังเล็กที่สุดตามความต้องการของคอมพิวเตอร์ ตารางต่อไปนี้เปรียบเทียบความต้องการฮาร์ดแวร์ของคอมพิวเตอร์ในการฝึกและการตัดสินให้ ความต้องการฮาร์ดแวร์ของคอมพิวเตอร์สองอย่างนั้นแตกต่างกันอย่างมีนัยสำคัญในด้านพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิดที่เกิดจากความแตกต่างในกระบวนการคำนวณและความต้องการในความแม่นยำ, ในเวลาเดียวกันยังมี Impossible Trilemma ในการพลังการคำนวณ, หน่วยความจำ, และ การสื่อสาร/แบนด์วิด

การวัดค่าสถิติในตารางนี้ ขึ้นอยู่กับการประมวลผลโดยโมเดลเดียว ใช้โทเค็นเดียว พารามิเตอร์เดียวFLOPs: การดำเนินงานทศนิยมต่อวินาที จำนวนของการคำนวณเมทริกซ์
*DP, TP, PP: การแบ่งข้อมูล, การแบ่งเซนเซอร์, การแบ่งท่อทาง

การเปรียบเทียบฮาร์ดแวร์คอมพิวเตอร์ระหว่างการฝึกฝนและการอินเฟอร์เรนซิ่ง ที่มา: จัดทำโดยแฮชคีย์แคปิตัล

กระบวนการฝึกโครงข่ายประสาทต้องทำการสลับระหว่างการกระจายข้างหน้าและการกระจายถอดกลับ โดยใช้ค่าได้เดินทางที่ได้จากการกระจายถอดกลับเพื่อปรับปรุงพารามิเตอร์ของโมเดล ในขณะเดียวกัน การบ่งบอกใช้การกระจายข้างหน้าเท่านั้น ความแตกต่างนี้กลายเป็นปัจจัยที่มีผลต่อความต้องการของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ที่แตกต่างกันสำหรับการฝึกและการบ่งบอก

ในเชิงพลวัตของความสามารถในการคำนวณ ตามที่แสดงในตารางมีความสัมพันธ์แบบเชิงคูณระหว่างจำนวนพารามิเตอร์ของโมเดลและการบริโภคพลังงานในการคำนวณอย่างง่าย ๆ โดยการฝึกอบรมต้องการ 6-8 การดำเนินการทศนิยมและการอ้างอิงต้องการ 2 นั่นเป็นเพราะการย้อนกลับที่มีการฝึกอบรม ซึ่งต้องการพลวัตคอมพิวเตอร์เท่ากับการส่งผ่านไปและจึงการบริโภคพลังงานในการคำนวณของการฝึกอบรมสูงกว่าการอ้างอิงมาก

ในเชิงหน่วยความจำ การใช้ backpropagation สำหรับการฝึกอบรมจะใช้ค่ากลางที่เก็บไว้ในการส่งเสริมไปยังการป้องกันละเว้นการคำนวณซ้ำซ้อน ดังนั้น กระบวนการฝึกอบรมจำเป็นต้องเก็บค่ากลางไว้จนกว่า backpropagation จะเสร็จสิ้น การใช้งานหน่วยความจำที่เกิดขึ้นในระหว่างการฝึกอบรมประกอบด้วยพารามิเตอร์ของโมเดล ค่ากลางกิจกรรมระหว่างการคำนวณไปข้างหน้า ค่าชันที่สร้างขึ้นโดยตัวคำนวณการถอดกลับ และสถานะของตัวปรับปรุง ช่วงการโต้ตอบไม่ต้องการ backpropagation และไม่ต้องการสถานะตัวปรับปรุงและค่าชัน ฯลฯ และการใช้งานหน่วยความจำของมันจะเล็กกว่ามากเมื่อเปรียบเทียบกับการฝึกอบรม

ในเชิงการสื่อสาร/แบนด์วิดท์ เพื่อปรับปรุงประสิทธิภาพในการฝึกอบรม AI แบบหลักปกติมักใช้กลยุทธ์สามวิธีคือ การแบ่งข้อมูลตามพาราเลล การแบ่งเธนเซอร์และการแบ่งพายล์น์

  • ข้อมูลขนาดขนาดหรือ Data parallel หมายถึงการทำซ้ำรูปแบบของแบบจำลองหลายรูปแบบที่ทำงานบนอุปกรณ์ที่แตกต่างกัน โดยแต่ละรูปแบบของแบบจำลองจะมีการทำงานบนชุดข้อมูลที่แตกต่างกัน และการซิงค์ระหว่างข้อมูลเกรเดียนต์ในระหว่างวงจรการฝึกอบรม
  • การประสานความสามารถในการประมวลผลแบบพายุ ในทางตรงกันข้าม แบ่งชั้นซ่อนกลางระหว่างและแต่ละโหนดคำนวณรับผิดชอบต่อชั้นผู้แปลงเหล่านี้หลายระบบ วิธีการนี้ยังรู้จักกันในนามของการประสานความสามารถระหว่างชั้น
  • การแบ่งความคล้ายคลึงเทนเซอร์ตามทิศทางอื่น ๆ และเรียกว่าความคล้ายคลึงในชั้น

แหล่งที่มา: OpenAI, https://openai.com/index/techniques-for-training-large-neural-networks/

สำหรับกลยุทธ์สามส่วนนี้ คาดว่าความถี่ในการสื่อสาร TP มีความใหญ่ที่สุด ปริมาณการสื่อสารมีค่าสูงสุด และเกี่ยวข้องกับจำนวนโทเค็น ความกว้างของโมเดล และจำนวนเลเยอร์ ปริมาณการสื่อสารและความถี่ของ PP เล็กกว่าของ TP และเกี่ยวข้องกับจำนวนโทเค็น และความกว้างของโมเดล ปริมาณการสื่อสารและความถี่ของ DP เล็กที่สุดและไม่เกี่ยวข้องกับโทเค็นขาเข้า

ไม่สามารถทำได้

ปัญหาขีดจำกัดของทรัพยากรฮาร์ดแวร์คอมพิวเตอร์ในโมเดลขนาดใหญ่มีข้อจำกัดหลักๆ โดยมีการคำนวณพลังงาน แบนด์วิดธ์/การสื่อสาร และหน่วยความจำ และมีการตรวจสอบและคงสมดุลระหว่างทั้งสามอย่าง ทำใให้เกิดปัญหา Impossible Trilemma เช่นเดียวกับ จากข้อจำกัดในการสื่อสาร ประสิทธิภาพของคลัสเตอร์ไม่สามารถปรับปรุงได้โดยการปรับปรุงพลังงานของคอมพิวเตอร์เพียงเครื่องเดียว

ดังนั้น แม้ว่าโครงสร้างพร้อมกันจะถูกใช้ในการเร่งความเร็วในการทำงานของคลัสเตอร์ โครงสร้างพร้อมกันส่วนมากนั้นจริงๆ แล้วเสียสารสนเพื่อการคำนวณ

เสียสื่อสารและพื้นที่จัดเก็บเพื่อพลังการคำนวณ:

ใน PP หากมี GPU ถูกกำหนดให้กับแต่ละเลเยอร์ของตัวแปรทรานส์ฟอร์มเมอร์ ถึงแม้จะมีการเพิ่มพลังการคำนวณในหน่วยเวลา ความต้องการในการสื่อสารระหว่างเลเยอร์ก็เพิ่มขึ้นเช่นกัน ทำให้มีปริมาณข้อมูลและความล่าช้าเพิ่มขึ้น นอกจากนี้ ความต้องการในการจัดเก็บสถานะกลางของการส่งเสริมไปข้างหน้าเพิ่มขึ้นอย่างรวดเร็วที่สุด

เสียสื่อสารเพื่อพลังคำนวณ:

ใน TP ทุกตัวแปรถูกแยกออกสำหรับการคำนวณแบบขนานกัน โดยเนื่องจากตัวแปรประกอบด้วยสองส่วน (หัวใจความสนใจและเครือข่ายกำลังส่ง) งานสามารถแบ่งในชั้นเพื่อหัวใจความสนใจหรือเครือข่ายประสาทเชิงบวก วิธีการ TP นี้สามารถบรรเทาปัญหาของโครงสร้างหลายระดับของ PP มาจาก GPU ไม่สามารถพอดีกับโมเดล อย่างไรก็ตามวิธีการนี้ยังมีการสื่อสารเฉพาะอย่างร้ายแรง

คริปโต+AI

ในเอกสารนี้ เราเชื่อว่าในปัจจุบันมีประเภทหลักๆ ของ AI ในสนามคริปโต ดังนี้:

แหล่งที่มา: จัดโดย HashKey Capital

เช่นที่กล่าวไว้แล้ว สามส่วนประกอบที่สำคัญที่สุดใน AI คือ ข้อมูล แบบจำลอง และพลังการคำนวณ ซึ่งทำหน้าที่เป็นโครงสร้างพื้นฐานเพื่อเสริมความสามารถของคริปโต AI

การผสมผสานของพวกเขาจริง ๆ ก็เป็นการสร้างเครือข่ายคอมพิวเตอร์ ด้วยจำนวนมากของ middleware ที่ปรากฏขึ้นในกระบวนการคำนวณเพื่อเป็นอย่างมีประสิทธิภาพและสอดคล้องกับวิญญาณคริปโตมากขึ้น ทางล่างคือตัวแทนที่ขึ้นอยู่กับผลลัพธ์ที่สามารถทำให้เห็นได้ว่าถูกต้อง ซึ่งสามารถให้บริการบทบาทต่าง ๆ สำหรับกลุ่มผู้ใช้ที่แตกต่างกันได้อีก

สามารถใช้แผนภูมิกระแสอีกอย่างสำหรับแสดงนิเวศวิธีพื้นฐานของ AI คริปโตได้ดังนี้:

แผนภูมินิเวศวิธี ที่มา: จัดทำโดย HashKey Capital

แน่นอนว่าการสร้างกลไกทางการเงินที่จำเป็นในพื้นที่คริปโตเพื่อสร้างสติมูลค่าให้กับการประสานงานกับผู้เล่นที่แตกต่างกัน

ข้อมูล

สำหรับชุดข้อมูล คุณสามารถเลือกระหว่างแหล่งข้อมูลสาธารณะหรือแหล่งข้อมูลส่วนตัวที่เฉพาะเจาะจงของตนเอง

แหล่งข้อมูล:

  • Grass คือโครงการที่ค้นหาแหล่งข้อมูลบน Solana ซึ่งมีพื้นหลังมาจากการที่บริษัทหลาย ๆ บล็อก IP การค้นหาจากศูนย์ข้อมูล แต่ไม่บล็อกผู้ใช้ที่อาศัยในที่พัก Grass ทำหน้าที่เป็นผู้ให้บริการแบบกระจายที่สร้างสรรค์ผู้ใช้ที่อาศัยในที่พักให้มีสิทธิในการให้แรงบันดาลผ่านโทเเคน
  • Vana ในฐานะ DATA DAO ยังมีการ提供解决方案,其中创作者在链上为不同的数据源创建不同的数据DAO,并为用户建立不同的激励计划以上传其数据。到目前为止,已经为reddit(rDAO)创建了数据DAO,超过154,000名用户向rDAO提供了其个人数据以进行AI培训。
  • ข้อมูลที่เกี่ยวข้องถูกเก็บรวบรวมในรูปแบบของ DePINs ซึ่งช่วยให้ผู้ใช้สามารถเชื่อมต่อยานพาหนะของพวกเขากับแพลตฟอร์ม DIMO ผ่านอุปกรณ์ฮาร์ดแวร์เช่น เนื้อหาพื้นฐานเกี่ยวกับยานพาหนะนั้นและข้อมูลแบบรูปแบบการขับขี่ขั้นสูงมากกว่า จะถูกส่งผ่านอย่างปลอดภัยไปยังเครือข่าย DIMO จะถูกเก็บไว้บนเชนและเชื่อมโยงกับ ID ยานพาหนะที่เกี่ยวข้อง (NFT) ตัวอย่างอีกอันคือ Hivemapper ซึ่งเก็บข้อมูลแผนที่ขณะที่ผู้ใช้กำลังขับขี่

แพลตฟอร์มข้อมูลสังเคราะห์:

  • Dria เป็นแพลตฟอร์มสร้างข้อมูลสังเคราะห์ (OPStack L2) ที่สร้างส่วนสนับสนุนผู้ใช้ให้สร้าง/ซื้อข้อมูลสังเคราะห์ในลักษณะการกระจายอำนวยความสะดวก ข้อมูลเก็บรักษาอยู่ใน Arweave ผ่าน HollowDB โดยเมื่อผู้ใช้เริ่มต้นขอข้อมูลสังเคราะห์ Dria จะยอมรับคำขอและแบ่งงานไปยังโหนดการคำนวณในเครือข่ายข้อมูลสังเคราะห์เพื่อดำเนินการ และหลังจากการตรวจสอบของเครือข่ายข้อมูลสังเคราะห์ ข้อมูลสังเคราะห์สุดท้ายสามารถซื้อขายในตลาดความรู้

อื่นๆ:

แพลตฟอร์มบริการติดป้ายข้อมูลโดยการมอบหมายงานการติดป้ายให้กับคนงานที่แตกต่างกัน พวกเขาจะได้รับสิทธิ์ในการขอรางวัลตรงกันข้ามหลังจากทำงานเช่นคริปโต ไพ่จำลอง และอื่น ๆ อย่างไรก็ตามปัญหาปัจจุบันคือมีคนทำการติดป้ายข้อมูลมากกว่าข้อมูล ในขณะที่บริษัท AI มีผู้ผลิตข้อมูลการติดป้ายที่มั่นคงสำหรับความต้องการข้อมูลที่ติดป้ายเนื่องจากการมีอยู่ของความหดหู่ทำให้ความประสงค์ของพวกเขาที่จะสลับแพลตฟอร์มซึ่งอยู่ในลักษณะกระจายตัวอ่อนแอ แพลตฟอร์มเหล่านี้อาจเพียงสามารถได้รับการจัดสรรของส่วนที่เหลือของคำสั่งจากผู้ผลิตข้อมูลที่ติดป้าย

เครือข่ายคอมพิวเตอร์

เครือข่ายคอมพิวเตอร์ที่ถูกทำมาเพื่อการคำนวณทั่วไป

เครือข่ายการคำนวณทั่วไป หมายถึงเครือข่ายที่รวบรวมทรัพยากรเช่น GPUs และ CPUs เพื่อให้บริการการคำนวณทั่วไปซึ่งหมายความว่าไม่มีความแตกต่างระหว่างการฝึกสอนและการอ้างอิง

  • Akash, โครงการปี 2020 ที่ทำหน้าที่เป็นตลาดสำหรับการจับคู่การส่งเสริมและความต้องการในด้านการคำนวณ ทำให้ผู้ให้บริการคำนวณสามารถเสนอราคาคำสั่งซื้อ โดยการจับคู่สุดท้ายที่อัปโหลดบนบล็อกเชนเป็นธุรกรรม มีวิทยากรเฉพาะที่รับผิดชอบในการบรรจุบล็อกและการทำการตรวจสอบ กระบวนการนี้ไม่เกี่ยวข้องกับวิธีการกำหนดงาน AI และไม่ตรวจสอบกระบวนการคำนวณและผลลัพธ์ โดยไม่แยกแยะระหว่างการฝึกอบรม และการตรวจค้น
  • io.net ซึ่งจนถึงเดือนมิถุนายน 2022 ได้พัฒนาระบบการซื้อขายแบบปริภูมิสำหรับตลาดหุ้นของสหรัฐและตลาดคริปโต พบกับ Ray.io ไลบรารี Python โอเพนซอร์สสำหรับการสร้างระบบกระจายความสามารถสูง io.net ใช้ Ray และไลบรารีที่ทันสมัยสำหรับการสตรีมข้อมูล การฝึกอบรม การปรับแต่งเพื่อรวมกับ Mesh VPNs (ซึ่งทำให้กระบวนการในการพัฒนาและการใช้งานโมเดล AI ขนาดใหญ่ในเครือข่ายขนาดใหญ่ของ GPU ง่ายขึ้น) เพื่อให้บริการด้านคอมพิวเตอร์
  • Bittensor, ในฐานะแพลตฟอร์มเปิด อนุญาตให้ผู้ใช้สร้างเน็ตเวิร์กบนแพลตฟอร์มของมัน แต่ละอันมีสิ่งส่งเสริมที่เป็นเอกลักษณ์ของตัวเองเพื่อกระตุ้นผู้ใช้อื่น ๆ ให้มีส่วนร่วมเป็นผู้ขุดเน็ตเวิร์กย่อย ผู้ตรวจสอบเน็ตเวิร์กย่อย ผู้ขุดเน็ตเวิร์กย่อยในการดำเนินงานงานที่เฉพาะเจาะจง และผู้ตรวจสอบเหล่านี้ของผู้ขุดเน็ตเวิร์กย่อย
  • Aethir เป็นโครงสร้างพื้นฐานการประมวลผลแบบคลาวด์ที่ให้บริการคุณภาพสูงสําหรับ AI และการเล่นเกมบนคลาวด์ Aethir มุ่งเน้นไปที่การรวมทรัพยากร GPU คุณภาพสูงเช่นชิป H100 ของ NVIDIA จากศูนย์ข้อมูล บริษัท เทคโนโลยี telcos สตูดิโอเกมชั้นนําและ บริษัท ขุด crypto เครือข่ายประกอบด้วยนักแสดงหลัก 3 คน: คอนเทนเนอร์ ตัวตรวจสอบ และตัวทําดัชนี คอนเทนเนอร์รวมถึง Aethir Edge เป็นที่ที่มีการใช้ทรัพยากรการประมวลผลจริง ตัวตรวจสอบช่วยให้มั่นใจได้ถึงความสมบูรณ์และประสิทธิภาพของคอนเทนเนอร์ หากจําเป็น Indexer จะจับคู่ผู้ใช้ปลายทางกับคอนเทนเนอร์ที่เหมาะสมตามความต้องการของผู้ใช้ปลายทาง

เครือข่ายที่เฉพาะเจาะจงในด้านคอมพิวเตอร์

การฝึกอบรมล่วงหน้า

ในพื้นที่คริปโต, Gensyn, ที่ถูกลงทุนโดย a16z, предлагает ระบบคอมพิวเตอร์สำหรับการฝึกอบรมแบบกระจาย

กระบวนการคือหลังจากผู้ใช้ส่งงานความต้องการการฝึกอบรมแพลตฟอร์มจะวิเคราะห์และประเมินพลังการคำนวณที่จำเป็นรวมถึงแยกออกเป็นจำนวนขั้นต่ำของงาน ML ซึ่งตรงนี้ผู้ตรวจสอบจะเก็บงานที่วิเคราะห์อย่างสม่ำเสมอเพื่อสร้างค่าเกณฑ์สำหรับการเปรียบเทียบพิสูจน์การเรียนรู้ล่างๆ

เมื่องานเข้าสู่ขั้นตอนการฝึกอบรม มันจะถูกดำเนินการโดย Solver ซึ่งเก็บน้ำหนักโมเดลและดัชนีการตอบสนองจากชุดข้อมูลการฝึกอบรมเป็นระยะ ๆ พร้อมทั้งสร้างการพิสูจน์การเรียนรู้ และผู้ตรวจสอบทำงานคำนวณให้เกิดการทำงานซ้ำเพื่อทำการคำนวณระยะทางเพื่อยืนยันว่ามันตรงกับการพิสูจน์ นอกจากนี้ Whistleblowers ทำงานความถูกต้องโดยใช้โปรแกรมท้าทายบนกราฟเพื่อตรวจสอบว่างานการตรวจสอบถูกต้องหรือไม่

การปรับแต่งละเอียด

การปรับแต่งคือง่ายและมีค่าใช้จ่ายน้อยกว่าการฝึกฝนโดยตรงบนโมเดลขนาดใหญ่โดยการปรับแต่งโมเดลที่ถูกฝึกไว้ก่อนด้วยชุดข้อมูลที่เฉพาะเจาะจงและการปรับโมเดลให้เข้ากับงานที่เฉพาะเจาะจงในขณะที่ยังคงรักษาโมเดลเดิม

Hugging Face สามารถเข้าถึงได้เป็นผู้ให้บริการทรัพยากรโมเดลภาษาที่ถูกเตรียมไว้ล่วงหน้าสำหรับแพลตฟอร์มกระจาย ผู้ใช้เลือกโมเดลที่จะทำการปรับปรุงตามความต้องการของงานและใช้ GPU และทรัพยากรอื่นที่ให้บริการโดยเครือข่ายคอมพิวเตอร์สำหรับการปรับปรุงตามงาน ซึ่งจำเป็นต้องขึ้นอยู่กับความซับซ้อนของงานเพื่อกำหนดขนาดของชุดข้อมูล ความซับซ้อนของโมเดล และเพื่อกำหนดความต้องการในทรัพยากรระดับสูงเช่น A100

นอกจาก Gensyn แพลตฟอร์มที่สามารถรองรับการฝึกฝนล่วงหน้า แพลตฟอร์มคำนวณสามารถรองรับการปรับแต่งได้ด้วย

การอย่างน้อย

เมื่อเปรียบเทียบกับการฝึกอบรม (การฝึกก่อนและการปรับแต่ง), ซึ่งต้องการการปรับตั้งค่ารุ่นโมเดล กระบวนการคำนวณของการอ้างอิงเกี่ยวข้องกับการส่งต่อไปข้างหน้าเท่านั้น และต้องการพลังการคำนวณน้อยกว่า ระบบเครือข่ายการคำนวณที่มีการกระจายอย่างมากในปัจจุบันมุ่งเน้นบริการการอ้างอิง

  • เครือข่าวเร็วเป็นแพลตฟอร์มสำหรับการเรียกใช้โหลดงาน AI ที่ให้บริการคำนวณเน้นการเรียกใช้กระบวนการสรุปสำหรับโมเดล LLama 2 และ Stable Diffusion
  • Ritual.AI, ระบบแรกของแพลตฟอร์มคือ Infernet ซึ่งเป็นกรอบงานที่เบา. ด้วยมันนักพัฒนาสัญญาฉลาดสามารถขอบริการการอ่านอิทธิพลจากออฟเชนและส่งให้สัญญาฉลาดบนเชน. ระบบชั้นที่สองคือ Ritual Chain ซึ่งรองรับการดำเนินการ AI-native

ชั้นเสริม / มิดเดิลแวร์เพิ่มเติม

เมื่อการสรุปถึงการดำเนินการที่อยู่ในขั้นตอนนี้เป็นขั้นตอนของการใช้โมเดลแล้ว จึงสามารถนำมิดเดิลแวร์เข้ามาในเวลาที่เหมาะสม:

  • การจับคู่รูปแบบ: เมื่อทำการพยากรณ์ มักจำเป็นต้องกำหนดรูปแบบที่เหมาะสมตามความต้องการของงาน
  • API: สรุปโมเดลโอเพนซอร์สทั้งหมด API อินเทอร์เฟซที่เป็นมาตรฐาน เช่น Redpill

On-chain smart contract เพื่อดึงข้อมูลผลลัพธ์จากการคำนวณ AI นอกเครือข่าย:

  • โปรโตคอล ORA เพื่อให้ผลลัพธ์การอธิบายที่ตรวจสอบได้สำหรับสัญญาอัจฉริยะ เช่น โหนด opML จะเก็บคำขอ opML ที่ส่งมาจากเชน จะเรียกใช้การตีความ AI และจากนั้นอัปโหลดผลลัพธ์ไปยังเชนและรอระยะเวลาท้าทาย

สามารถเพิ่มชั้นความเป็นส่วนตัวอีกชั้นหนึ่งในเครือข่ายคอมพิวเตอร์ได้ ซึ่งประกอบด้วยความเป็นส่วนตัวของข้อมูลและความเป็นส่วนตัวของโมเดล โดยที่ความเป็นส่วนตัวของข้อมูลมีความสำคัญมากกว่าความเป็นส่วนตัวของโมเดล

  • ในปัจจุบัน Oasis protocol ใช้ Intel TDX และ NVIDIA TEEs เพื่อให้ความเป็นส่วนตัวและความสามารถในการตรวจสอบสำหรับการฝึกโมเดล AI

การยืนยัน

เครือข่ายคอมพิวเตอร์ของส่วนใหญ่สร้างระบบการตรวจสอบที่แตกต่างกันเพื่อให้ระบบเดินไปอย่างถูกต้องในขณะที่ลิงค์เป็นส่วนหนึ่งที่ยังไม่เคยถูกนำเสนอในฟิลด์ AI เดิม

ZKML

บทบาทหลักของการพิสูจน์ ZK คือ 2 จุดต่อไปนี้:

  • ใช้เพื่อพิสูจน์ความถูกต้องของโมเดลโดยไม่เปิดเผยพารามิเตอร์ใด ๆ
  • พิสูจน์ว่าการคำนวณถูกต้องและว่าโมเดล + ข้อมูลนำเข้าตรงกับผลลัพธ์: Modulus labs, Giza

Modulus Labs แสดงให้เห็นว่าเป็นไปได้ที่จะสร้างพิสูจน์สำหรับโมเดลที่มีพารามิเตอร์ 18 ล้านตัวใน 60–70 วินาทีโดยใช้ระบบพิสูจน์ Plonky ของ Polygon สำหรับโมเดลขนาดเล็ก เป็นไปได้ที่จะใช้ ZKML ในขั้นตอนนี้ แต่ค่าใช้จ่ายยังคงมีนัยสำคัญ

  • เวลาพิสูจน์ของ ZKML เพิ่มขึ้นตามพารามิเตอร์ที่เพิ่มขึ้น
  • มันมีราคาแพงมากในเชิงการใช้หน่วยความจำของ prover ยกตัวอย่างเช่น Worldcoin ใช้โมเดลที่มีพารามิเตอร์ 1.8 ล้านและ 50 ชั้นเพื่อแยกแยะระหว่างไอริส 10 พันล้าน สำหรับสิ่งที่พิสูจน์ของการอ่านออกมาได้ในไม่กี่นาที แต่การใช้หน่วยความจำภายใน prover สูงเกินไปสำหรับฮาร์ดแวร์มือถือใดๆ

Source: @ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307"">https://medium.com/@ModulusLabs/chapter-5-the-cost-of-intelligence-da26dbf93307

OPML

ด้วยข้อ จํากัด ของ ZKML ที่อธิบายไว้ข้างต้น OPML จึงเป็นทางเลือก แม้ว่าจะอ่อนแอกว่า ZKML ในแง่ของความปลอดภัย แต่การใช้หน่วยความจําและเวลาในการคํานวณหลักฐานนั้นดีกว่า ZKML อย่างมาก ตามรายงาน ORA แสดงให้เห็นว่าสําหรับรุ่น 7B-LLaMA เดียวกัน (มีขนาดรุ่นประมาณ 26GB) opML สามารถประมวลผลได้ภายใน 32GB ของหน่วยความจําในขณะที่การใช้หน่วยความจําของวงจรใน zkML สามารถอยู่ในลําดับของเทราไบต์หรือแม้แต่เพตะไบต์

TEEML

Trusted Execution Environment ให้ความปลอดภัยในระดับฮาร์ดแวร์และสามารถเป็นทางเลือกต่อ ZKML และ OPML ได้ TEE-proof ถูกสร้างขึ้นเป็นผลจากการคำนวณภายใน TEE และต้นทุนการคำนวณของมันมีราคาที่ต่ำมากกว่า zk-proof อีกด้วย ขนาดของ proof ของ TEE โดยปกติจะเป็นค่าคงที่ (ความยาวของลายเซ็น) และจึงมีข้อได้เปรียบในรูปทรงของพื้นที่ที่เล็กกว่าและต้นทุนการตรวจสอบ on-chain ที่ต่ำลง

นอกจากการตรวจสอบแล้ว TEE ยังมีข้อดีที่สามารถเก็บข้อมูลที่ละเอียดอ่อนรักษาไว้ในที่ๆ แยกออกมา ทำให้กระบวนการหรือการคำนวณภายนอกไม่สามารถเข้าถึงหรือเปลี่ยนแปลงข้อมูลภายในได้

โครงการที่ใช้ TEE ได้รวมถึง:

  • เครือข่าย Aizel (ให้การอย่างถูกต้อง)
  • เครือข่าย Phala (เน้นการสร้างเอเจนต์ AI)
  • โอเอเชียโปรโตคอล (การฝึกโมเดล AI)
  • โปรโตคอล Marlin (Oyster สามารถติดตั้งและตรวจสอบโมเดล ML)

แหล่งที่มา: https://arxiv.org/pdf/2401.17555,โปรโตคอลมาร์ลิน

นอกจากนี้ โปรโตคอล ORA ได้พัฒนา opp/ai (Optimistic Privacy-Preserving AI on Blockchain) นอกจาก ZKML และการตรวจสอบ OPML ของตนเอง และไม่รวมอยู่ในตารางเปรียบเทียบด้านบน

เอเจนต์ เลเยอร์

เอเจนท์มีความสามารถในการวิเคราะห์ข้อมูลที่เข้ามา ประเมินเงื่อนไขสภาพแวดล้อมปัจจุบันและตัดสินใจ เอเจนท์ประกอบด้วยส่วนประกอบตามภาพด้านล่าง ซึ่ง LLM เป็นส่วนประกอบหลัก นอกจากนี้จำเป็นต้องเลี้ยงคำแนะนำที่เหมาะสมให้กับ LLM และผ่านหน่วยความจำเพื่อเก็บข้อมูลระยะสั้นและข้อมูลประวัติยาวนาน (ข้อมูลภายนอก)

เนื่องจากงานที่ซับซ้อนไม่สามารถทำเสร็จในคราวเดียวได้ จึงต้องแบ่งเป็นงานย่อยๆ โดย Plan นอกจากนี้ Agent ยังสามารถเรียกใช้ API ภายนอกเพื่อรับข้อมูลเพิ่มเติม รวมถึงข้อมูลปัจจุบัน ความสามารถในการดำเนินการโค้ด การเข้าถึงแหล่งข้อมูลที่เป็นเอกสิทธิ์ และอื่นๆ อีกมากมาย

แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้รูปแบบภาษาขนาดใหญ่

ความสามารถในการตัดสินใจของตัวแทนไม่มีการพัฒนาที่แน่ชัดจนกระชักมาถึงการเกิดของโมเดลภาษาขนาดใหญ่ LLM ในปีสุดท้าย เอกสารรายงานได้รวบรวมจำนวนของเอกสารที่เผยแพร่เกี่ยวกับตัวแทนตั้งแต่ปี 2021 ถึงปี 2023 ดังแสดงในภาพด้านล่าง ในความเป็นจริงมีเพียงประมาณหนึ่งโครงการวิจัยในปี 2021 แต่มีร้อยเอกสารที่เผยแพร่เกี่ยวกับพวกเขาในปี 2023 หนังสือฉบับนี้จะจัดหมวดหมู่ตัวแทนเป็น 7 ประเภท

แหล่งที่มา: การสำรวจเกี่ยวกับตัวแทนอัตโนมัสที่ใช้โมเดลภาษาขนาดใหญ่

ใน web3 ฉากที่เอเจ้นต์มีอยู่ยังมีข้อจำกัดเมื่อเปรียบเทียบกับโลก web2 และประกอบด้วยการล้างอัตโนมัติ การสร้างส่วนประกอบของโค้ด (เขียนสัญญาอัจฉริยะ เขียนวงจร zk) การควบคุมความเสี่ยงแบบเรียลไทม์ และการดำเนินกลยุทธ์เช่น อาร์บิเทรจ และการเกษียณเพาะเสียด

การสร้างตัวแทนและแพลตฟอร์มการซื้อขาย

  • Theoriq (ChainML) ได้นำเสนอแนวคิดของ Agent Base Layer ซึ่งช่วยอนุรักษ์เอเจนต์ในรูปแบบ NFT และสร้างเอเจนต์ของตัวเอง โดยรวมถึงสร้าง Agent Collective โดยการรวมเอเจนต์เข้าด้วยกันเพื่อทำให้ตรงตามความต้องการที่ซับซ้อน กระบวนการนี้ประเมินประสิทธิภาพและการเชื่อมโยงของเอเจนต์ที่แตกต่างกันผ่านการพิสูจน์ที่เป็นข้อเท็จจริงและการพิสูจน์ความร่วมมือ
  • Spectral Labs มีผลิตภัณฑ์หลัก 2 อย่าง คือ Spectral Syntax ซึ่งเป็นแพลตฟอร์มที่ทำให้ผู้ใช้สามารถสร้างตัวแทนบนโซน (chain) และ Spectral Nova ซึ่งเป็นบริการการอินเฟอร์เรนซิ่งที่รองรับการร้องขอบริการการอินเฟอร์เรนซิ่ง การสร้างตัวแทนใน Spectral Syntax ใช้บริการการอินเฟอร์เรนซิ่งของ Spectral Nova และการอินเฟอร์เรนซิ่งนั้นถูกตรวจสอบโดย ZK proof เพื่อให้แน่ใจว่ามันทำงาน ในเวลาเดียวกันพวกเขาจะเปิดตัว Inferchain เพื่อให้สามารถสื่อสารระหว่างตัวแทน
  • Autonolas สนับสนุนการสร้างบริการที่ประกอบด้วยตัวแทนหลายตัวซึ่งช่วยให้เจ้าของบริการสามารถสร้างบริการและลงทะเบียนบริการที่เกี่ยวข้องในรีจิสทรีบริการเพื่อเริ่มเวิร์กโฟลว์ขอให้นักพัฒนาจัดหาส่วนประกอบตัวแทนและอื่น ๆ นักพัฒนาสามารถพัฒนา Agent ส่วนประกอบและรหัสอื่น ๆ ที่เก็บไว้นอกเชนสร้าง NFT onchain ที่เกี่ยวข้องและอ้างถึงแฮช IPFS ข้อมูลเมตาจากนั้นอ้างถึงรหัสพื้นฐานโดยอ้างอิงแฮช IPFS เพิ่มเติม โดยทั่วไปบริการจะดําเนินการโดยชุดของตัวดําเนินการ โดยแต่ละชุดจะเรียกใช้อินสแตนซ์ Agent อย่างน้อยหนึ่งรายการ นอกจากนี้ Autonolas ยังบรรลุฉันทามติภายในบริการสําหรับตัวแทนโดยใช้ Consensus Gadget ที่กําหนดข้อตกลงระหว่างตัวแทนภายในบริการ

แพลตฟอร์มตรวจสอบเอเจนต์

  • AgentOpsAI เป็นพันธมิตรของ sentient ที่ให้บริการตรวจสอบเอเจนต์ (เหตุการณ์บันทึก การโทร ข้อผิดพลาดของเอเจนต์ เป็นต้น) โดยปัจจุบันเป็นแพลตฟอร์มที่ทำงานที่จุดรวม ไม่มีโทเค็นเข้ามาเกี่ยวข้อง

ขั้นตอนการทํางาน

โดยอิงจากตัวแทนที่แตกต่างกัน สามารถรวม/รวมร่าย/สร้างแอปพลิเคชั่นเฉพาะได้ในเวลาเดียวกัน ในเวลาเดียวกัน มีแพลตฟอร์มประสานงานบางรายที่สามารถเลือกตัวแทนที่จะใช้สร้างประเภทแอปพลิเคชั่นที่เฉพาะเจาะจง แต่ส่วนใหญ่ของพวกเขาถูก จำกัด ในการพัฒนาตัวแทน

แอปพลิเคชัน

ผู้พัฒนาโครงการ

นักพัฒนาบางคนจะใช้ปัญญาประดิษฐ์บางส่วนเพื่อช่วยให้แพลตฟอร์มของพวกเขาฉลาดขึ้น เช่นในโครงการด้านความปลอดภัย การเรียนรู้ของเครื่องถูกใช้ในการแยกแยะช่องโหว่การโจมตี โปรโตคอล DeFi ใช้ปัญญาประดิษฐ์ในการสร้างเครื่องมือตรวจสอบแบบเรียลไทม์ และแพลตฟอร์มการวิเคราะห์ข้อมูลยังใช้ปัญญาประดิษฐ์เพื่อช่วยในการทำความสะอาดข้อมูลและการวิเคราะห์

ผู้ใช้

หน้าต่าง Q&A/การวิเคราะห์

  • Kaito.ai, ผู้ใช้สามารถใช้ Q&A เพื่อรับข้อมูลเกี่ยวกับอารมณ์ของชุมชนโครงการ ราคา และการเคลื่อนไหวของทีมหลัก
  • 0xScope, การใช้กราฟความรู้เบื้องหลังเพื่อรวมข้อมูลบนเชน นั่นคือลักษณะพฤติกรรมของผู้ใช้ เพื่อให้บริการการวิเคราะห์ข้อมูลสำหรับผู้ใช้ ได้เปิดตัวหน้าต่าง Scopechat Q&A ทันเวลาสำหรับคลื่น AI นี้

ร้านค้า AI APP

  • Myshell เสนอเลเยอร์ผู้บริโภคและสร้าง AI APP Store ซึ่งมีส่วนประกอบ AI ที่แตกต่างกันและโหมดการสร้างสามโหมดเพื่ออํานวยความสะดวกให้ผู้ใช้สร้างแอปพลิเคชัน AI ที่แตกต่างกัน วิดเจ็ตแบ่งออกเป็นส่วนประกอบพื้นฐานและคอมโพสิต ส่วนประกอบพื้นฐานช่วยให้ผู้ใช้สามารถสร้าง Prompt, Voice, Avatar และสินทรัพย์อื่น ๆ ลงในแอป AI ในขณะที่ส่วนประกอบคอมโพสิตอนุญาตให้สร้างส่วนประกอบที่กําหนดเองโดยใช้โมเดล / ส่วนประกอบพื้นฐานหลายแบบรวมกัน โหมดการสร้างประกอบด้วยโหมดคลาสสิกพัฒนาและไม่มีโค้ดสามโหมดสําหรับนักพัฒนาและผู้ใช้ที่มีความสามารถและความต้องการที่แตกต่างกัน

สรุป

ในบทความนี้เราอยากจะเน้น 3 ประเด็นต่อไปนี้:

  • GPUAI

ใน crypto เครือข่ายคอมพิวเตอร์จํานวนหนึ่งเกิดขึ้นอย่างหลีกเลี่ยงไม่ได้ทําให้ผู้ใช้รู้สึกว่า GPU เป็น AI แต่ตามที่วิเคราะห์ในส่วนก่อนหน้ามี trilemma ที่เป็นไปไม่ได้ของเครือข่ายคอมพิวเตอร์เช่นพลังการประมวลผลแบนด์วิดท์ / การสื่อสารและหน่วยความจํารวมถึงกลยุทธ์แบบขนานสามประเภทที่ใช้ในการฝึกอบรมแบบจําลองเช่นข้อมูลขนานเทนเซอร์ขนาน และไปป์ไลน์ขนานทั้งหมดชี้ไปที่การตรวจสอบและยอดคงเหลือที่กําหนดไว้ในการตั้งค่ากรอบของเครือข่ายคอมพิวเตอร์

  • โมเดลเดียวกัน & ข้อมูลเดียวกัน ผลลัพธ์เดียวกัน

เหตุผลที่เหมือนกันและข้อมูลเดียวกันไม่จำเป็นต้องให้ผลลัพธ์เดียวกันคือการใช้การคำนวณทศนิยม ความแตกต่างในการคำนวณนี้ยังมีผลต่อการสร้างเครือข่ายคอมพิวเตอร์

  • เอเจ้นต์ AI เพิ่มเติม

เอไอ เอเจนต์เพียงเริ่มแสดงความมีประโยชน์มากขึ้นในปีหลังสุด และเราคาดหวังว่าเอเจนต์จะปรากฏขึ้นในตลาดมากขึ้น แต่ว่าเอเจนต์ทำงานในคริปโตหรือวิธีการหาสิ่งสนับสนุนโทเค็นที่เหมาะสมยังเป็นความท้าทาย

คำชี้แจง:

  1. บทความนี้ถูกคัดลอกมาจาก[กลาง],ชื่อเรื่องเดิม "AI into Crypto" เป็นสิทธิ์ในการเขียนของผู้เขียนเดิม[HashKey Capital ],หากมีข้อผิดพลาดในการโพสต์กรุณาติดต่อทีม Gate Learnทีมจะดำเนินการตามกระบวนการที่เกี่ยวข้องเร็วที่สุด

  2. คำปฏิเสธความรับผิด: มุมมองและความเห็นที่แสดงในบทความนี้เป็นเพียงมุมมองส่วนตัวของผู้เขียนเท่านั้น ไม่เป็นที่สร้างสรรค์ข้อเสนอแนะในการลงทุนใด ๆ

  3. บทความเวอร์ชันอื่น ๆ ถูกแปลโดยทีม Gate Learn ในกรณีที่ไม่ได้กล่าวถึงGate.ioในกรณีที่ไม่ได้คัดลอก ส่งผ่าน หรือลอกเลียนแบบบทความที่ถูกแปล

今すぐ始める
登録して、
$100
のボーナスを獲得しよう!