في سلسلة القيمة الكاملة للذكاء الاصطناعي، تعتبر عملية تدريب النموذج هي المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث الحواجز التقنية، حيث تحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية التطبيق العملي. بالمقارنة مع استدعاء المرحلة الاستدلالية الخفيف الوزن، تتطلب عملية التدريب استثمارًا مستمرًا في طاقة الحساب الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكل، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة في مجموعة عالية الأداء محليًا، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتكاملة من مشاركة الذاكرة، ومزامنة التدرجات، وآليات تحمل الأخطاء الأكثر كفاءة، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، وتتمتع بمزايا الكفاءة العالية، وقابلية التحكم في الموارد، ولكنها في الوقت نفسه تعاني من مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.
التدريب الموزع هو الطريقة السائدة حاليًا لتدريب النماذج الكبيرة، وجوهره هو تقسيم مهام تدريب النموذج وتوزيعها على عدة آلات للعمل معًا، من أجل تخطي قيود الحساب والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال يتم بواسطة مؤسسة مركزية، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لواجهة الاتصال عالية السرعة، حيث يقوم عقدة رئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التوازي البيانات: كل عقدة تقوم بتدريب بيانات مختلفة مع مشاركة المعلمات، يجب مطابقة أوزان النموذج
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية التوسع القوية
الأنابيب المتوازية: تنفيذ متسلسل على مراحل، لزيادة معدل النقل
توازي التنسور: تقسيم دقيق لحساب المصفوفة، وتحسين حجم التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، ويمكن تشبيهه برئيس واحد يدير عن بُعد عدة "مكاتب" للموظفين للتعاون في إكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مساراً مستقبلياً أكثر انفتاحاً وخصائص مقاومة للرقابة. تتمثل ميزتها الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، وعادة ما يتم ذلك من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتساعد آلية التحفيز التشفير في ضمان صدق المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التنسيق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة تنسيق الأجهزة المتنوعة، وكفاءة تقسيم المهام منخفضة
عائق كفاءة الاتصال: الاتصال الشبكي غير مستقر، وعائق مزامنة التدرج واضح
نقص التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب.
نقص التنسيق الموحد: لا يوجد جهاز توزيع مركزي، توزيع المهام، آلية التراجع عن الاستثناءات معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهمون كل منهم في قوة الحوسبة لتدريب نموذج بشكل تعاوني، ولكن "التدريب اللامركزي واسع النطاق القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بهندسة النظام، بروتوكولات الاتصال، أمن التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن "التعاون بفعالية + تحفيز الأمانة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
التعلم الفيدرالي كونه شكل انتقال بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجمع معلمات النموذج مركزيًا، ويعتبر مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، بينما يحتفظ أيضًا بميزة البيانات الموزعة للتدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره "لامركزية خاضعة للتحكم" في سياقات الامتثال للخصوصية، حيث تكون مهام التدريب، وهيكل الثقة وآليات الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نموذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته لا يناسب إكماله بكفاءة بين العقد المتنوعة والموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وتأخير منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في الشبكات المفتوحة؛ وتكون المهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالقوانين والامتثال والمعايير الأخلاقية، مما يمنع المشاركة المفتوحة؛ في حين أن المهام التي تفتقر إلى أساس تحفيز التعاون تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود مجتمعة القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام التي تتميز بالهيكل الخفيف، وسهولة التوازي، والتحفيز. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتوافقة مع السلوك، مهام تدريب وتصنيف البيانات الجماعية، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، والتحمل لقوة الحوسبة غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، وبروتوكول Swarm، والمحسنات الموزعة.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
حاليًا، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخل خوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ في حين أن مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، ويمكن رؤية تقدم هندسي أولي.
Prime Intellect: الرائد في الشبكات التعاونية التعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect لبناء شبكة تدريب للذكاء الاصطناعي لا تتطلب الثقة، بحيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST، في بناء نظام تدريب للذكاء الاصطناعي اللامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
شرح آلية العمل الأساسية
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المنفصل
PRIME-RL هو إطار عمل لنمذجة المهام وتنفيذها تم تخصيصه من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتغايرة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف أولوي، حيث يفصل هيكليًا بين عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. مقارنة بعمليات التعلم الخاضع للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات دون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة بشكل متوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب الخفيف الوزن
TOPLOC هو آلية أساسية للتحقق من القابلية للتدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعلاً تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية المتسقة بين "سلسلة المراقبة ↔ تحديث الاستراتيجية". إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق، وهي ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الأوزان غير المتزامنة
SHARDCAST هو بروتوكول لنشر وتجمع الأوزان صممه Prime Intellect، وهو مصمم خصيصًا لبيئات الشبكة الحقيقية غير المتزامنة وذات النطاق الترددي المحدود وحالات العقد المتغيرة. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح للعديد من العقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق تقاربًا تدريجيًا للأوزان وتطورات متعددة النسخ. بالمقارنة مع طرق AllReduce المركزية أو المتزامنة، يعزز SHARDCAST بشكل كبير من قابلية التوسع والقدرة على التحمل للتدريب اللامركزي، وهو الأساس المركزي لبناء إجماع مستقر على الأوزان وتدريب مستمر وتكرارات.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي طوره فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وهو مستقل ومفتوح المصدر، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإتمام تدريب النموذج التعاوني. مع الجمع بين التحديثات غير المتزامنة وآلية تحمل النقاط المنقطعة، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل عنق الزجاجة في التكيف الذي تواجهه المكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسومات الاستهلاكية nodes غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنه يعزز بشكل ملحوظ قدرة تحمل النطاق الترددي لشبكات التدريب وتوافق الأجهزة، ويفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة.
شبكة تحفيز Prime Intellect وتقسيم الأدوار
بني Prime Intellect شبكة تدريبية قابلة للتحقق بدون إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على المكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول على أساس ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدم آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العمليات الأساسية في البروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيز حول "سلوك التدريب الحقيقي".
INTELLECT-2:إطلاق أول نموذج تدريب قابل للتحقق اللامركزي
تم إصدار INTELLECT-2 من قبل Prime Intellect في مايو 2025، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بالتعاون بين عقد غير موثوق بها ولامركزية، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 من قبل أكثر من 100 عقدة GPU متغايرة منتشرة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرقت مدة التدريب أكثر من 400 ساعة، مما يظهر قابلية واستقرار الشبكة التعاونية غير المتزامنة. هذا النموذج ليس فقط اختراقًا في الأداء، بل يمثل أيضًا التطبيق النظامي الأول لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 بروتوكولات رئيسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يميز أول تحقيق لفتح عملية التدريب، والتحقق، ودائرة الحوافز الاقتصادية في الشبكة التدريبية اللامركزية.
من حيث الأداء، يعتمد INTELLECT-2 على QwQ-32B وقد خضع لتدريب RL متخصص في البرمجة والرياضيات، مما يجعله في طليعة نماذج RL المفتوحة المصدر للتعديل الدقيق. على الرغم من أنه لم يتجاوز بعد GPT-4 أو
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
اللامركزية تدريب: نموذج جديد واستكشاف متقدم في مجال الذكاء الاصطناعي
استكشاف اللامركزية في التدريب
في سلسلة القيمة الكاملة للذكاء الاصطناعي، تعتبر عملية تدريب النموذج هي المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث الحواجز التقنية، حيث تحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية التطبيق العملي. بالمقارنة مع استدعاء المرحلة الاستدلالية الخفيف الوزن، تتطلب عملية التدريب استثمارًا مستمرًا في طاقة الحساب الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج الهيكل، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي سيتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة في مجموعة عالية الأداء محليًا، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعات، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. تجعل هذه البنية التحتية المتكاملة من مشاركة الذاكرة، ومزامنة التدرجات، وآليات تحمل الأخطاء الأكثر كفاءة، مما يجعلها مناسبة جدًا لتدريب النماذج الكبيرة مثل GPT وGemini، وتتمتع بمزايا الكفاءة العالية، وقابلية التحكم في الموارد، ولكنها في الوقت نفسه تعاني من مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقطة الواحدة.
التدريب الموزع هو الطريقة السائدة حاليًا لتدريب النماذج الكبيرة، وجوهره هو تقسيم مهام تدريب النموذج وتوزيعها على عدة آلات للعمل معًا، من أجل تخطي قيود الحساب والتخزين على جهاز واحد. على الرغم من أن لديها خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن التحكم والتنسيق والتزامن لا يزال يتم بواسطة مؤسسة مركزية، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لواجهة الاتصال عالية السرعة، حيث يقوم عقدة رئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق الرئيسية ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، ويمكن تشبيهه برئيس واحد يدير عن بُعد عدة "مكاتب" للموظفين للتعاون في إكمال المهام. في الوقت الحالي، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا بهذه الطريقة.
اللامركزية التدريبية تمثل مساراً مستقبلياً أكثر انفتاحاً وخصائص مقاومة للرقابة. تتمثل ميزتها الأساسية في: عدة عقد غير موثوقة تتعاون لإكمال مهام التدريب دون منسق مركزي، وعادة ما يتم ذلك من خلال بروتوكولات تدفع توزيع المهام والتعاون، وتساعد آلية التحفيز التشفير في ضمان صدق المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهمون كل منهم في قوة الحوسبة لتدريب نموذج بشكل تعاوني، ولكن "التدريب اللامركزي واسع النطاق القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بهندسة النظام، بروتوكولات الاتصال، أمن التشفير، الآليات الاقتصادية، والتحقق من النموذج على عدة مستويات، لكن ما إذا كان يمكن "التعاون بفعالية + تحفيز الأمانة + الحصول على نتائج صحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
التعلم الفيدرالي كونه شكل انتقال بين التوزيع واللامركزية، يركز على الاحتفاظ بالبيانات محليًا، وتجمع معلمات النموذج مركزيًا، ويعتبر مناسبًا للسيناريوهات التي تركز على الامتثال للخصوصية. يتمتع التعلم الفيدرالي ببنية هندسية للتدريب الموزع وقدرة على التعاون المحلي، بينما يحتفظ أيضًا بميزة البيانات الموزعة للتدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يمتلك خصائص الانفتاح الكامل ومقاومة الرقابة. يمكن اعتباره "لامركزية خاضعة للتحكم" في سياقات الامتثال للخصوصية، حيث تكون مهام التدريب، وهيكل الثقة وآليات الاتصال أكثر اعتدالًا، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
اللامركزية تدريب الحدود، الفرص والطرق الواقعية
من حيث نموذج التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، وارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه بطبيعته لا يناسب إكماله بكفاءة بين العقد المتنوعة والموثوقة. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وتأخير منخفض، وعرض نطاق ترددي عالي، مما يجعل من الصعب تقسيمه ومزامنته بشكل فعال في الشبكات المفتوحة؛ وتكون المهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالقوانين والامتثال والمعايير الأخلاقية، مما يمنع المشاركة المفتوحة؛ في حين أن المهام التي تفتقر إلى أساس تحفيز التعاون تفتقر إلى دافع المشاركة الخارجية. تشكل هذه الحدود مجتمعة القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فكرة زائفة. في الواقع، يظهر التدريب اللامركزي آفاق تطبيقية واضحة في أنواع المهام التي تتميز بالهيكل الخفيف، وسهولة التوازي، والتحفيز. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتوافقة مع السلوك، مهام تدريب وتصنيف البيانات الجماعية، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. تتمتع هذه المهام عمومًا بخصائص عالية من التوازي، وانخفاض الترابط، والتحمل لقوة الحوسبة غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال شبكات P2P، وبروتوكول Swarm، والمحسنات الموزعة.
تحليل مشاريع التدريب الكلاسيكية اللامركزية
حاليًا، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخل خوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ في حين أن مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبيًا، ويمكن رؤية تقدم هندسي أولي.
Prime Intellect: الرائد في الشبكات التعاونية التعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect لبناء شبكة تدريب للذكاء الاصطناعي لا تتطلب الثقة، بحيث يمكن لأي شخص المشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات: PRIME-RL + TOPLOC + SHARDCAST، في بناء نظام تدريب للذكاء الاصطناعي اللامركزي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
شرح آلية العمل الأساسية
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المنفصل
PRIME-RL هو إطار عمل لنمذجة المهام وتنفيذها تم تخصيصه من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، مصمم خصيصًا للشبكات المتغايرة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف أولوي، حيث يفصل هيكليًا بين عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. مقارنة بعمليات التعلم الخاضع للإشراف التقليدية، فإن PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات دون جدولة مركزية، مما يقلل من تعقيد النظام، ويضع الأساس لدعم المهام المتعددة بشكل متوازي وتطور الاستراتيجيات.
TOPLOC: آلية التحقق من سلوك التدريب الخفيف الوزن
TOPLOC هو آلية أساسية للتحقق من القابلية للتدريب اقترحها Prime Intellect، تُستخدم لتحديد ما إذا كان العقد قد أكمل فعلاً تعلم استراتيجية فعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يكمل التحقق الهيكلي الخفيف من خلال تحليل المسارات المحلية المتسقة بين "سلسلة المراقبة ↔ تحديث الاستراتيجية". إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات قابلة للتحقق، وهي ابتكار رئيسي لتحقيق توزيع مكافآت التدريب بدون ثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الأوزان غير المتزامنة
SHARDCAST هو بروتوكول لنشر وتجمع الأوزان صممه Prime Intellect، وهو مصمم خصيصًا لبيئات الشبكة الحقيقية غير المتزامنة وذات النطاق الترددي المحدود وحالات العقد المتغيرة. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح للعديد من العقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق تقاربًا تدريجيًا للأوزان وتطورات متعددة النسخ. بالمقارنة مع طرق AllReduce المركزية أو المتزامنة، يعزز SHARDCAST بشكل كبير من قابلية التوسع والقدرة على التحمل للتدريب اللامركزي، وهو الأساس المركزي لبناء إجماع مستقر على الأوزان وتدريب مستمر وتكرارات.
OpenDiLoCo: إطار الاتصال غير المتزامن المتناثر
OpenDiLoCo هو إطار تحسين الاتصالات الذي طوره فريق Prime Intellect بناءً على مفهوم DiLoCo الذي اقترحته DeepMind، وهو مستقل ومفتوح المصدر، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. يعتمد هيكله على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على الجيران المحليين لإتمام تدريب النموذج التعاوني. مع الجمع بين التحديثات غير المتزامنة وآلية تحمل النقاط المنقطعة، يجعل OpenDiLoCo وحدات معالجة الرسوميات الاستهلاكية والأجهزة الطرفية قادرة على المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل ملحوظ إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL هو مكتبة اتصالات خفيفة مصممة خصيصًا من قبل Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل عنق الزجاجة في التكيف الذي تواجهه المكتبات التقليدية في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. يدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيله على وحدات معالجة الرسومات الاستهلاكية nodes غير المستقرة، وهو المكون الأساسي الذي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. إنه يعزز بشكل ملحوظ قدرة تحمل النطاق الترددي لشبكات التدريب وتوافق الأجهزة، ويفتح "آخر كيلومتر" من البنية التحتية للاتصالات لبناء شبكة تدريب تعاونية مفتوحة حقًا وغير موثوقة.
شبكة تحفيز Prime Intellect وتقسيم الأدوار
بني Prime Intellect شبكة تدريبية قابلة للتحقق بدون إذن، مزودة بآلية تحفيز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على المكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول على أساس ثلاث فئات من الأدوار الأساسية:
تشمل العمليات الأساسية في البروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان وتوزيع المكافآت، مما يشكل حلقة تحفيز حول "سلوك التدريب الحقيقي".
INTELLECT-2:إطلاق أول نموذج تدريب قابل للتحقق اللامركزي
تم إصدار INTELLECT-2 من قبل Prime Intellect في مايو 2025، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بالتعاون بين عقد غير موثوق بها ولامركزية، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 من قبل أكثر من 100 عقدة GPU متغايرة منتشرة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستغرقت مدة التدريب أكثر من 400 ساعة، مما يظهر قابلية واستقرار الشبكة التعاونية غير المتزامنة. هذا النموذج ليس فقط اختراقًا في الأداء، بل يمثل أيضًا التطبيق النظامي الأول لنموذج "التدريب هو الإجماع" الذي اقترحته Prime Intellect. يتضمن INTELLECT-2 بروتوكولات رئيسية مثل PRIME-RL وTOPLOC وSHARDCAST، مما يميز أول تحقيق لفتح عملية التدريب، والتحقق، ودائرة الحوافز الاقتصادية في الشبكة التدريبية اللامركزية.
من حيث الأداء، يعتمد INTELLECT-2 على QwQ-32B وقد خضع لتدريب RL متخصص في البرمجة والرياضيات، مما يجعله في طليعة نماذج RL المفتوحة المصدر للتعديل الدقيق. على الرغم من أنه لم يتجاوز بعد GPT-4 أو