تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى الثورة التكنولوجية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية التطبيق الفعلية. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا من قوة الحوسبة الكبيرة، وعملية معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج البنية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته في هذه المقالة.
التدريب المركز هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. يسمح هذا الهيكل المترابط العميق بمشاركة الذاكرة، وتزامن التدرجات، وآلية التحمل لتحقيق الكفاءة المثلى، مما يجعله مناسبًا جدًا لتدريب نماذج كبيرة مثل GPT وGemini، ويتميز بكفاءة عالية وموارد قابلة للتحكم، ولكنه يعاني في الوقت نفسه من مشاكل الاحتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود حساب وتخزين الوحدة الواحدة. على الرغم من أنها تمتلك خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والمزامنة، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink للربط السريع، حيث يتم تنسيق جميع المهام الفرعية من قبل العقدة الرئيسية. تشمل الطرق السائدة ما يلي:
توازي البيانات: كل عقدة تدرب معلمات بيانات مختلفة تتشارك في وزن النموذج، يجب مطابقة وزن النموذج.
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على نقاط مختلفة لتحقيق قابلية توسيع قوية
تنفيذ متسلسل على مراحل: زيادة معدل النقل
توازي المصفوفات: تقسيم دقيق لحسابات المصفوفة، مما يعزز من دقة التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لتوجيه نفس المدير عن بُعد للعديد من الموظفين في "المكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا (GPT-4، Gemini، LLaMA وغيرها ) من خلال هذه الطريقة.
تمثل التدريبات اللامركزية مسارًا مستقبليًا يتمتع بمزيد من الانفتاح وخصائص مقاومة الرقابة. تتمثل ميزته الأساسية في: عدة عقد غير موثوقة ( قد تكون أجهزة كمبيوتر منزلية أو وحدات معالجة رسومات سحابية أو أجهزة طرفية ) تعمل معًا لإكمال مهام التدريب بدون منسق مركزي، وغالبًا ما يتم دفع توزيع المهام والتعاون من خلال بروتوكول، ويتم استخدام آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة تجانس الأجهزة وتقسيم المهام: صعوبة تنسيق الأجهزة اللامركزية، وكفاءة تقسيم المهام منخفضة
عائق كفاءة الاتصال: عدم استقرار الاتصال الشبكي، ووجود عائق واضح في تزامن التدرجات
نقص التنفيذ الموثوق: عدم وجود بيئة تنفيذ موثوقة، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعلاً في الحساب
نقص التنسيق الموحد: لا يوجد مركز تحكم، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهمون كل منهم بقوة المعالجة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بهيكل النظام، وبروتوكولات الاتصال، وأمان التشفير، وآليات الاقتصاد، والتحقق من النموذج على عدة مستويات، ولكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الصدق + النتائج الصحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
يعتبر التعلم الفيدرالي شكلًا انتقاليًا بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا، وتجمع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية مثل الرعاية الصحية والمالية(. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، بينما يجمع أيضًا بين مزايا البيانات الموزعة في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث إنه معتدل نسبيًا في مهام التدريب، وهيكل الثقة وآلية الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
) اللامركزية تدريب الحدود، الفرص والواقع المسار
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته لا يناسب الإنجاز بكفاءة بين العقد غير المتجانسة والموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن استجابة منخفض، وعرض نطاق عالٍ، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في الشبكات المفتوحة؛ كما أن المهام التي تتعلق بخصوصية البيانات وقيود السيادة قوية مثل الرعاية الصحية، والمالية، والبيانات الحساسة ### مقيدة بالقوانين والامتثال والاعتبارات الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي لا تحتوي على حوافز للتعاون مثل نماذج الشركات المغلقة أو تدريب النماذج الأولية الداخلية ( إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو وهم. في الواقع، في أنواع المهام ذات الهيكل الخفيف، وسهولة التوازي، والتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتعلق بالمواءمة السلوكية مثل RLHF، DPO)، تدريب وتسمية البيانات المستندة إلى الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، بالإضافة إلى مشاهد التدريب التعاوني التي تشمل الأجهزة الحافة. هذه المهام تتمتع عمومًا بخصائص عالية من التوازي، وانخفاض في الترابط، وقابلية لتحمل القوة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات الند للند، بروتوكولات Swarm، المحسّنات الموزعة، وغيرها.
( اللامركزية تدريب الكلاسيكيات تحليل المشاريع
حالياً في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في البلوك تشين بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبياً، وقد بدأت تظهر التقدم الهندسي الأولي. ستقوم هذه المقالة بتحليل تقنيات النواة والهندسة المعمارية وراء هذه المشاريع الخمسة، واستكشاف الفروق والعلاقات التكميلية بينها في نظام التدريب الذكي اللامركزي.
)# Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST في بناء نظام تدريب AI لامركزي يتمتع بالتحقق والانفتاح وآلية التحفيز الكاملة.
هيكل بروتوكول Prime Intellect وقيمة الوحدات الرئيسية:
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكوك
PRIME-RL هو إطار عمل مخصص لنمذجة المهام وتنفيذها في سيناريوهات التدريب اللامركزية تم تصميمه بواسطة Prime Intellect، خصيصًا للشبكات المتغايرة والمشاركة غير المتزامنة. ويستخدم التعلم المعزز كهدف رئيسي للتكيف، حيث يفصل بشكل هيكلي بين عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهمة بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع العمليات التقليدية للتعلم تحت الإشراف، فإن PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات عدم وجود جدولة مركزية، مما يقلل من تعقيد النظام ويؤسس لدعم المهام المتعددة بالتوازي وتطور السياسات.
TOPLOC: آلية تحقق سلوك التدريب الخفيف الوزن
TOPLOC(تقييم موثوقية المراقبة والتحقق من السياسة المحلية) هو آلية أساسية تم اقتراحها من قبل Prime Intellect للتحقق من قابلية التدريب، لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم السياسة الفعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج الكامل، بل يقوم بتحليل المسارات المحلية المتسقة بين "سلسلة المراقبة ↔ تحديث السياسة" لإجراء التحقق الهيكلي الخفيف. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلًا للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر وتجمع الوزن مصمم بواسطة Prime Intellect، تم تحسينه خصيصًا للبيئات الشبكية الحقيقية التي تتميز باللامركزية، والقيود على النطاق الترددي، وتغير حالات العقد. إنه يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق التقارب التدريجي للوزن وتطور الإصدارات المتعددة. بالمقارنة مع طرق AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير من قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق وزني مستقر وتكرارات تدريب مستمرة.
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار عمل لتحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي اقترحته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد في التدريب اللامركزي. يعتمد هيكله على البيانات المتوازية، من خلال بناء هياكل تخطيط نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على جيران العقد المحلية لإكمال تدريب النموذج بشكل مشترك. من خلال دمج التحديثات غير المتزامنة وآلية تحمل الأعطال، يتيح OpenDiLoCo لمجموعة GPUs الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب اللامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL###Prime Collective Communication Library### هو مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا بواسطة Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف في مكتبات الاتصالات التقليدية ( مثل NCCL وGloo) في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي المكون الأساسي الذي يدعم قدرة التواصل غير المتزامن لبروتوكول OpenDiLoCo. لقد حسنت بشكل ملحوظ من تحمل عرض النطاق الترددي لشبكة التدريب والتوافق مع الأجهزة، مما فتح "آخر ميل" من البنية التحتية للتواصل لبناء شبكة تدريب تعاونية حقيقية مفتوحة وموثوقة.
شبكة Prime Intellect للتحفيز وتوزيع الأدوار
بنى Prime Intellect شبكة تدريب قابلة للتحقق ولا تحتاج إلى إذن، مزودة بآلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. تعمل البروتوكولات بناءً على ثلاثة أنواع من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات الملاحظة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب، والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) وإصدار المكافآت، مما يشكل حلقة تحفيزية حول "السلوك التدريبي الحقيقي".
INTELLECT-2:الإصدار الأول لنموذج تدريب قابل للتحقق من اللامركزية
أصدرت Prime Intellect في مايو 2025 نموذج INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه من خلال تعاون عقد لامركزية غير موثوقة وغير متزامنة، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU هتروجينية تمتد عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار شبكة التعاون غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل أيضًا أول تنفيذ نظامي للنموذج الذي اقترحته Prime Intellect "التدريب هو الإجماع". يدمج INTELLECT-2 هيكل التدريب غير المتزامن PRIME-RL(، وسلوك التدريب TOPLOC).
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 11
أعجبني
11
8
مشاركة
تعليق
0/400
ProxyCollector
· 07-24 16:12
لا تزال تتدرب بشكل مركز؟ هذا قديم جداً.
شاهد النسخة الأصليةرد0
BrokenYield
· 07-24 16:11
صحيح أن تدريب الذكاء الاصطناعي المركزي هو مجرد نقطة فشل واحدة أخرى... مخاطرة نظامية كلاسيكية
شاهد النسخة الأصليةرد0
fork_in_the_road
· 07-24 10:35
تكلفة التدريب مرتفعة للغاية، الشركات الصغيرة لا تستطيع تحملها.
تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى التعاون اللامركزي
تطور نماذج تدريب الذكاء الاصطناعي: من السيطرة المركزية إلى الثورة التكنولوجية للتعاون اللامركزي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يُعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد والأعلى من حيث العوائق التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية التطبيق الفعلية. بالمقارنة مع الاستدعاء الخفيف في مرحلة الاستدلال، تتطلب عملية التدريب استثمارًا مستمرًا من قوة الحوسبة الكبيرة، وعملية معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من حيث نماذج البنية، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته في هذه المقالة.
التدريب المركز هو الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب بواسطة مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، من الأجهزة، والبرمجيات الأساسية، ونظام جدولة المجموعة، إلى جميع مكونات إطار التدريب التي يتم تنسيق تشغيلها بواسطة نظام تحكم موحد. يسمح هذا الهيكل المترابط العميق بمشاركة الذاكرة، وتزامن التدرجات، وآلية التحمل لتحقيق الكفاءة المثلى، مما يجعله مناسبًا جدًا لتدريب نماذج كبيرة مثل GPT وGemini، ويتميز بكفاءة عالية وموارد قابلة للتحكم، ولكنه يعاني في الوقت نفسه من مشاكل الاحتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يتمثل جوهره في تقسيم مهمة تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود حساب وتخزين الوحدة الواحدة. على الرغم من أنها تمتلك خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن الكل لا يزال تحت سيطرة مؤسسة مركزية للتحكم في الجدولة والمزامنة، وغالبًا ما تعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink للربط السريع، حيث يتم تنسيق جميع المهام الفرعية من قبل العقدة الرئيسية. تشمل الطرق السائدة ما يلي:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، وهو مشابه لتوجيه نفس المدير عن بُعد للعديد من الموظفين في "المكاتب" للتعاون في إكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرائجة تقريبًا (GPT-4، Gemini، LLaMA وغيرها ) من خلال هذه الطريقة.
تمثل التدريبات اللامركزية مسارًا مستقبليًا يتمتع بمزيد من الانفتاح وخصائص مقاومة الرقابة. تتمثل ميزته الأساسية في: عدة عقد غير موثوقة ( قد تكون أجهزة كمبيوتر منزلية أو وحدات معالجة رسومات سحابية أو أجهزة طرفية ) تعمل معًا لإكمال مهام التدريب بدون منسق مركزي، وغالبًا ما يتم دفع توزيع المهام والتعاون من خلال بروتوكول، ويتم استخدام آلية تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهمون كل منهم بقوة المعالجة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي على نطاق واسع القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بهيكل النظام، وبروتوكولات الاتصال، وأمان التشفير، وآليات الاقتصاد، والتحقق من النموذج على عدة مستويات، ولكن ما إذا كان يمكن "التعاون بشكل فعال + تحفيز الصدق + النتائج الصحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
يعتبر التعلم الفيدرالي شكلًا انتقاليًا بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا، وتجمع معلمات النموذج مركزيًا، وهو مناسب للسيناريوهات التي تركز على الامتثال للخصوصية مثل الرعاية الصحية والمالية(. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرة على التعاون المحلي، بينما يجمع أيضًا بين مزايا البيانات الموزعة في التدريب اللامركزي، لكنه لا يزال يعتمد على جهة تنسيق موثوقة، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية الخاضعة للرقابة" في سياقات الامتثال للخصوصية، حيث إنه معتدل نسبيًا في مهام التدريب، وهيكل الثقة وآلية الاتصال، مما يجعله أكثر ملاءمة كهيكل نشر انتقالي في الصناعة.
) اللامركزية تدريب الحدود، الفرص والواقع المسار
من حيث نمط التدريب، فإن التدريب اللامركزي ليس مناسبًا لجميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو متطلبات الموارد العالية للغاية، أو صعوبة التعاون، فإنه بطبيعته لا يناسب الإنجاز بكفاءة بين العقد غير المتجانسة والموثوقة. على سبيل المثال، يعتمد تدريب النماذج الكبيرة غالبًا على ذاكرة عالية، وزمن استجابة منخفض، وعرض نطاق عالٍ، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في الشبكات المفتوحة؛ كما أن المهام التي تتعلق بخصوصية البيانات وقيود السيادة قوية مثل الرعاية الصحية، والمالية، والبيانات الحساسة ### مقيدة بالقوانين والامتثال والاعتبارات الأخلاقية، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي لا تحتوي على حوافز للتعاون مثل نماذج الشركات المغلقة أو تدريب النماذج الأولية الداخلية ( إلى الدافع الخارجي للمشاركة. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو وهم. في الواقع، في أنواع المهام ذات الهيكل الخفيف، وسهولة التوازي، والتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك على سبيل المثال لا الحصر: ضبط LoRA، مهام ما بعد التدريب المتعلق بالمواءمة السلوكية مثل RLHF، DPO)، تدريب وتسمية البيانات المستندة إلى الحشود، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، بالإضافة إلى مشاهد التدريب التعاوني التي تشمل الأجهزة الحافة. هذه المهام تتمتع عمومًا بخصائص عالية من التوازي، وانخفاض في الترابط، وقابلية لتحمل القوة الحوسبية غير المتجانسة، مما يجعلها مناسبة جدًا للتدريب التعاوني من خلال الشبكات الند للند، بروتوكولات Swarm، المحسّنات الموزعة، وغيرها.
( اللامركزية تدريب الكلاسيكيات تحليل المشاريع
حالياً في مجال التدريب اللامركزي والتعلم الفيدرالي، تشمل المشاريع البارزة في البلوك تشين بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في البحث النظري الحالي؛ بينما مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبياً، وقد بدأت تظهر التقدم الهندسي الأولي. ستقوم هذه المقالة بتحليل تقنيات النواة والهندسة المعمارية وراء هذه المشاريع الخمسة، واستكشاف الفروق والعلاقات التكميلية بينها في نظام التدريب الذكي اللامركزي.
)# Prime Intellect: رائد الشبكات التعاونية للتعلم المعزز القابل للتحقق من مسار التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تتطلب الثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST في بناء نظام تدريب AI لامركزي يتمتع بالتحقق والانفتاح وآلية التحفيز الكاملة.
هيكل بروتوكول Prime Intellect وقيمة الوحدات الرئيسية:
PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكوك
PRIME-RL هو إطار عمل مخصص لنمذجة المهام وتنفيذها في سيناريوهات التدريب اللامركزية تم تصميمه بواسطة Prime Intellect، خصيصًا للشبكات المتغايرة والمشاركة غير المتزامنة. ويستخدم التعلم المعزز كهدف رئيسي للتكيف، حيث يفصل بشكل هيكلي بين عملية التدريب والاستدلال وتحميل الأوزان، مما يسمح لكل عقدة تدريب بإكمال حلقة المهمة بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. بالمقارنة مع العمليات التقليدية للتعلم تحت الإشراف، فإن PRIME-RL أكثر ملاءمة لتنفيذ التدريب المرن في بيئات عدم وجود جدولة مركزية، مما يقلل من تعقيد النظام ويؤسس لدعم المهام المتعددة بالتوازي وتطور السياسات.
TOPLOC: آلية تحقق سلوك التدريب الخفيف الوزن
TOPLOC(تقييم موثوقية المراقبة والتحقق من السياسة المحلية) هو آلية أساسية تم اقتراحها من قبل Prime Intellect للتحقق من قابلية التدريب، لتحديد ما إذا كان العقدة قد أكملت فعلاً تعلم السياسة الفعالة بناءً على بيانات المراقبة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج الكامل، بل يقوم بتحليل المسارات المحلية المتسقة بين "سلسلة المراقبة ↔ تحديث السياسة" لإجراء التحقق الهيكلي الخفيف. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك خلال عملية التدريب إلى كائنات يمكن التحقق منها، وهي الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب دون الحاجة إلى الثقة، مما يوفر مسارًا قابلًا للتطبيق لبناء شبكة تدريب تعاونية لامركزية قابلة للتدقيق والتحفيز.
SHARDCAST: بروتوكول تجميع ونشر الوزن غير المتزامن
SHARDCAST هو بروتوكول لنشر وتجمع الوزن مصمم بواسطة Prime Intellect، تم تحسينه خصيصًا للبيئات الشبكية الحقيقية التي تتميز باللامركزية، والقيود على النطاق الترددي، وتغير حالات العقد. إنه يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات غير متزامنة، مما يحقق التقارب التدريجي للوزن وتطور الإصدارات المتعددة. بالمقارنة مع طرق AllReduce المركزية أو المتزامنة، فإن SHARDCAST يعزز بشكل كبير من قابلية التوسع والقدرة على تحمل الأخطاء في التدريب اللامركزي، وهو الأساس الرئيسي لبناء توافق وزني مستقر وتكرارات تدريب مستمرة.
OpenDiLoCo: إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار عمل لتحسين الاتصال تم تحقيقه بشكل مستقل ومفتوح المصدر من قبل فريق Prime Intellect استنادًا إلى مفهوم DiLoCo الذي اقترحته DeepMind، وهو مصمم خصيصًا للتحديات الشائعة مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد في التدريب اللامركزي. يعتمد هيكله على البيانات المتوازية، من خلال بناء هياكل تخطيط نادرة مثل Ring وExpander وSmall-World، مما يتجنب التكلفة العالية للتزامن العالمي، ويعتمد فقط على جيران العقد المحلية لإكمال تدريب النموذج بشكل مشترك. من خلال دمج التحديثات غير المتزامنة وآلية تحمل الأعطال، يتيح OpenDiLoCo لمجموعة GPUs الاستهلاكية والأجهزة الطرفية المشاركة بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصال لبناء شبكة تدريب اللامركزية.
PCCL: مكتبة الاتصالات التعاونية
PCCL###Prime Collective Communication Library### هو مكتبة اتصالات خفيفة الوزن تم تصميمها خصيصًا بواسطة Prime Intellect لبيئة تدريب الذكاء الاصطناعي اللامركزية، تهدف إلى حل اختناقات التكيف في مكتبات الاتصالات التقليدية ( مثل NCCL وGloo) في الأجهزة المتنوعة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL التوبولوجيا المتناثرة، وضغط التدرجات، والتزامن منخفض الدقة واستعادة النقاط، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي المكون الأساسي الذي يدعم قدرة التواصل غير المتزامن لبروتوكول OpenDiLoCo. لقد حسنت بشكل ملحوظ من تحمل عرض النطاق الترددي لشبكة التدريب والتوافق مع الأجهزة، مما فتح "آخر ميل" من البنية التحتية للتواصل لبناء شبكة تدريب تعاونية حقيقية مفتوحة وموثوقة.
شبكة Prime Intellect للتحفيز وتوزيع الأدوار
بنى Prime Intellect شبكة تدريب قابلة للتحقق ولا تحتاج إلى إذن، مزودة بآلية حوافز اقتصادية، مما يتيح لأي شخص المشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. تعمل البروتوكولات بناءً على ثلاثة أنواع من الأدوار الأساسية:
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان (SHARDCAST) وإصدار المكافآت، مما يشكل حلقة تحفيزية حول "السلوك التدريبي الحقيقي".
INTELLECT-2:الإصدار الأول لنموذج تدريب قابل للتحقق من اللامركزية
أصدرت Prime Intellect في مايو 2025 نموذج INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز في العالم تم تدريبه من خلال تعاون عقد لامركزية غير موثوقة وغير متزامنة، بحجم معلمات يصل إلى 32B. تم تدريب نموذج INTELLECT-2 بالتعاون بين أكثر من 100 عقدة GPU هتروجينية تمتد عبر ثلاث قارات، باستخدام هيكل غير متزامن بالكامل، واستغرق التدريب أكثر من 400 ساعة، مما يظهر جدوى واستقرار شبكة التعاون غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل أيضًا أول تنفيذ نظامي للنموذج الذي اقترحته Prime Intellect "التدريب هو الإجماع". يدمج INTELLECT-2 هيكل التدريب غير المتزامن PRIME-RL(، وسلوك التدريب TOPLOC).