تطور نماذج تدريب الذكاء الاصطناعي: من المركزية إلى اللامركزية، Prime Intellect تفتح حقبة جديدة

تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى ثورة تقنية التعاون اللامركزي

في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعد تدريب النموذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث عتبة التقنية، وهو ما يحدد مباشرة السقف الأعلى لقدرات النموذج وفعالية تطبيقه الفعلية. بالمقارنة مع الاستدعاءات الخفيفة خلال مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستدامًا من قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج المعمارية، يمكن تصنيف طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية للتعاون اللامركزي

يعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل تجمع محلي عالي الأداء، بدءًا من الأجهزة، والبرمجيات الأساسية، ونظام جدولة التجمع، وصولاً إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تتيح هذه البنية المعمارية المتعمقة التعاون كفاءة عالية في مشاركة الذاكرة، وتزامن التدرجات، وآليات التحمل، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، وتتمتع بمزايا الكفاءة العالية، والسيطرة على الموارد، ولكنها تواجه في نفس الوقت مشاكل مثل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.

التدريب الموزع هو الأسلوب السائد حاليًا في تدريب النماذج الكبيرة، و核心ه هو تقسيم مهمة تدريب النموذج، ثم توزيعها على عدة آلات للعمل بشكل متعاون، لتجاوز قيود الحوسبة والتخزين على جهاز واحد. على الرغم من أن لديه خصائص "موزعة" من الناحية الفيزيائية، إلا أن النظام الكلي لا يزال يتم التحكم فيه من قبل هيئة مركزية لتنسيق والجدولة والتزامن، وغالبًا ما يعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink للاتصال السريع، حيث يتم تنسيق المهام الفرعية بواسطة العقدة الرئيسية. تشمل الأساليب السائدة:

  • التوازي البياني: كل عقدة تدرب معلمات بيانات مختلفة تتشارك في الوزن النموذجي، تحتاج إلى مطابقة أوزان النموذج
  • توزيع النموذج: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية توسيع قوية؛
  • التوازي في الأنابيب: تنفيذ متسلسل على مراحل، وزيادة السعة.
  • توازي الموتر: تقسيم دقيق لحساب المصفوفة، مما يعزز مستوى التوازي.

التدريب الموزع هو مزيج من "تحكم مركزي + تنفيذ موزع"، مشابه لتوجيه نفس المدير عن بُعد لعدة موظفين في "مكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى ثورة تقنية التعاون اللامركزي

تدريب اللامركزية يمثل مسارًا مستقبليًا أكثر انفتاحًا ومقاومةً للرقابة. تتمثل الخصائص الأساسية في: عدة نقاط غير موثوقة تتعاون لإكمال مهام التدريب بدون منسق مركزي، عادةً من خلال بروتوكول يدفع توزيع المهام والتعاون، ويعتمد على آليات التحفيز التشفيرية لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:

  • صعوبة التنسيق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة كبيرة في تنسيق الأجهزة المتنوعة، وكفاءة منخفضة في تقسيم المهام؛
  • عائق كفاءة الاتصال: عدم استقرار الاتصال الشبكي، ووجود عائق واضح في تزامن التدرج؛
  • نقص التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك بالفعل في الحساب؛
  • نقص التنسيق الموحد: لا يوجد منسق مركزي، توزيع المهام وآلية التراجع عن الاستثناءات معقدة.

يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين من جميع أنحاء العالم، يساهمون كل منهم بقوة حسابية لتدريب النموذج بشكل متعاون، ولكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال تحديًا هندسيًا منهجيًا، يشمل بنية النظام، بروتوكولات الاتصال، أمان التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الصدق + نتائج صحيحة" لا يزال في مرحلة استكشاف النماذج الأولية المبكرة.

تعلم الفيدرالي كمرحلة انتقالية بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، ودمج معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، بينما يمتلك أيضًا مزايا توزيع البيانات في التدريب اللامركزي، ولكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره حلاً "لامركزيًا خاضعًا للرقابة" في سيناريوهات الامتثال للخصوصية، حيث يكون في مهمة التدريب، هيكل الثقة، وآلية الاتصال معتدلة نسبيًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.

اللامركزية تدريب الحدود، الفرص والواقع المسار

من منظور أنماط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد بنية المهام، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته غير مناسب لإتمامه بكفاءة بين العقد غير المتجانسة والموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وزمن استجابة منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بفعالية في الشبكات المفتوحة؛ كما أن المهام التي تتطلب خصوصية البيانات وقيود السيادة قوية مقيدة بالتوافق القانوني والاعتبارات الأخلاقية، ولا يمكن مشاركتها بشكل مفتوح؛ بينما تفتقر المهام التي تفتقر إلى حوافز التعاون الأساسية إلى دوافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية على التدريب اللامركزي.

لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، تظهر التدريب اللامركزي آفاق تطبيق واضحة في أنواع المهام الهيكلية الخفيفة، سهلة التوازي، القابلة للتحفيز. بما في ذلك، على سبيل المثال لا الحصر: تعديل LoRA، مهام التدريب اللاحقة التي تتعلق بمحاذاة السلوك، تدريب البيانات المجمعة و مهام التوصيف، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، فضلاً عن سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام بشكل عام بخصائص عالية من التوازي، وانخفاض الارتباط، وتسامح مع قوة الحوسبة غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني عبر الشبكات الند للند، وبروتوكول Swarm، والمحسنات الموزعة.

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية للتعاون اللامركزي

اللامركزية تدريب مشاريع كلاسيكية تحليل

حالياً في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في مجال البلوكتشين Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، وتمثل الاتجاهات المتقدمة في البحث النظري الحالي؛ بينما مسارات التنفيذ لدى Gensyn وFlock.io واضحة نسبياً، ويمكن رؤية التقدم الهندسي الأولي.

Prime Intellect: رائد الشبكات التعاونية المعزز التعلم القابل للتحقق من مسارات التدريب

تسعى Prime Intellect لبناء شبكة تدريب AI لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب، والحصول على مكافآت موثوقة مقابل مساهماته الحاسوبية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST في بناء نظام تدريب AI اللامركزي القابل للتحقق، المفتوح، والذي يحتوي على آلية تحفيزية كاملة.

PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك

PRIME-RL هو إطار نمذجة وتنفيذ المهام المخصص من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتنوعة والمشاركة غير المتزامنة. يستخدم التعلم التعزيزي ككائن التكيف الرئيسي، حيث يفصل بشكل هيكلي عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات موحدة وآليات التحقق والتجميع. بالمقارنة مع عمليات التعلم الإشرافي التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئة بدون جدولة مركزية، مما يقلل من تعقيد النظام، ويؤسس لأساس دعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.

TOPLOC: آلية للتحقق من سلوك التدريب خفيف الوزن

TOPLOC هي آلية جوهرية للتحقق من التدريب قدمها Prime Intellect، تُستخدم لتحديد ما إذا كانت العقدة قد أكملت فعليًا تعلم سياسة فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا تعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل تكمل التحقق من الهيكل الخفيف من خلال تحليل المسار المحلي للتناسق بين "سلسلة الملاحظات ↔ تحديث السياسة". إنها تحول لأول مرة مسارات السلوك أثناء عملية التدريب إلى كائنات قابلة للتحقق، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لا مركزية قابلة للتدقيق والتحفيز.

SHARDCAST: بروتوكول التجميع والانتشار غير المتزامن للأوزان

SHARDCAST هو بروتوكول نشر وتجميع الوزن الذي صممه Prime Intellect، وهو مصمم خصيصًا لبيئات الشبكة الحقيقية غير المتزامنة والمقيدة بالنطاق مع حالات متغيرة للعقد. إنه يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق التقارب التدريجي للوزن والتطور متعدد النسخ. مقارنة بأساليب AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل ملحوظ من قابلية توسيع التدريب اللامركزي وقدرة التحمل، وهو الأساس الرئيسي لبناء توافق وزن مستقر وتكرار تدريب مستمر.

OpenDiLoCo: إطار الاتصالات غير المتزامنة المتناثرة

OpenDiLoCo هو إطار عمل لتحسين الاتصالات تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي اقترحته DeepMind ، مصمم خصيصًا للتحديات الشائعة مثل قيود النطاق الترددي وتنوع الأجهزة وعدم استقرار العقد في التدريب اللامركزي. يعتمد هيكله على البيانات المتوازية ، من خلال بناء هياكل طوبولوجية نادرة مثل Ring و Expander و Small-World ، مما يتجنب تكاليف الاتصال العالية الناتجة عن المزامنة العالمية ، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج التعاوني. مع الجمع بين التحديث غير المتزامن وآلية تحمل الأخطاء في نقطة التوقف ، يجعل OpenDiLoCo وحدات معالجة الرسومات المخصصة والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب ، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي ، ويعد واحدًا من البنى التحتية الرئيسية للاتصالات لبناء شبكة تدريب لامركزية.

PCCL: مكتبة الاتصالات التعاونية

PCCL هو مكتبة اتصالات خفيفة الوزن مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية على الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL الطوبولوجيا النادرة، ضغط التدرجات، المزامنة منخفضة الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهو المكون الأساسي الذي يدعم القدرة على الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عزز بشكل ملحوظ تحمل عرض النطاق الترددي لشبكات التدريب وتوافق الأجهزة، مما يمهد الطريق لبناء شبكة تدريب تعاونية حقيقية مفتوحة وموثوقة من خلال تحسين أساسيات الاتصال "آخر كيلومتر".

تطور نماذج التدريب بالذكاء الاصطناعي: من التحكم المركزي إلى ثورة التقنية في التعاون اللامركزي

بني Prime Intellect شبكة تدريبية قابلة للتحقق وغير مسموح بها مع آلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاثة أنواع من الأدوار الأساسية:

  • مُبادر المهمة: تحديد بيئة التدريب، النموذج الأولي، دالة المكافأة ومعايير التحقق
  • عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
  • عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات

تشمل العملية الأساسية للبروتوكول نشر المهام، وتدريب العقد، والتحقق من المسارات، وتجمع الأوزان، وتوزيع المكافآت، مما يشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".

تطور نماذج تدريب الذكاء الاصطناعي: من التحكم المركزي إلى الثورة التقنية في التعاون اللامركزي

INTELLECT-2:إصدار أول نموذج تدريب قابل للتحقق من اللامركزية

أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز يتم تدريبه من خلال تعاون عقد لامركزية غير موثوقة وغير متزامنة في العالم، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 عبر تعاون أكثر من 100 عقدة GPU هتروغينية منتشرة عبر ثلاث قارات، باستخدام بنية كاملة غير متزامنة، حيث تجاوزت مدة التدريب 400 ساعة، مما يظهر جدوى واستقرار شبكة التعاون غير المتزامن. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا تطبيق نظامي لأول مرة لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يدمج INTELLECT-2 بروتوكولات أساسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يرمز إلى أن شبكة التدريب اللامركزية قد حققت لأول مرة انفتاح عملية التدريب، والتحقق، وحلقة تحفيز اقتصادية.

فيما يتعلق بالأداء، تم تدريب INTELLECT-2 على QwQ-32B وقام بإجراء تدريب RL متخصص في البرمجة والرياضيات، وهو في طليعة نماذج RL مفتوحة المصدر الحالية. على الرغم من أنه لم يتجاوز بعد النماذج المغلقة مثل GPT-4 أو Gemini، إلا أن حقيقته

PRIME2.99%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 4
  • مشاركة
تعليق
0/400
OnchainArchaeologistvip
· منذ 12 س
من الذي ابتكر هذه الطريقة الجديدة لحرق المال؟
شاهد النسخة الأصليةرد0
ShitcoinConnoisseurvip
· منذ 12 س
احترافي又吹 البلوكتشين 
شاهد النسخة الأصليةرد0
AirdropHunterWangvip
· منذ 13 س
ما التدريب وما التدريب، طوال اليوم لا يعرف سوى أن يصرخ القصص.
شاهد النسخة الأصليةرد0
GasGasGasBrovip
· منذ 13 س
الصناعات الثقيلة؟ قوة الحوسبة ستحترق قريباً
شاهد النسخة الأصليةرد0
  • تثبيت