Децентралізація тренування: нова парадигма та передові дослідження в сфері ШІ

2025-07-28 19:24:25

Дослідження передової децентралізації навчання

У повному ланцюгу вартості штучного інтелекту, навчання моделей є найбільш ресурсомістким і з найвищим технологічним порогом етапом, який безпосередньо визначає межі можливостей моделі та фактичну ефективність застосування. На відміну від легковагого виклику на етапі висновку, процес навчання потребує постійних масштабних обчислювальних витрат, складних процесів обробки даних та високої інтенсивності підтримки алгоритмів оптимізації, що є справжньою "важкою промисловістю" у побудові системи ШІ. З точки зору архітектурних парадигм, способи навчання можна розділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним способом, який реалізується єдиним інститутом у локальному високопродуктивному кластері, що охоплює весь процес навчання, від апаратного забезпечення, базового програмного забезпечення, системи управління кластером до всіх компонентів навчального фреймворку, які координуються єдиною системою управління. Ця архітектура з глибокою взаємодією забезпечує оптимальну ефективність спільного використання пам'яті, синхронізації градієнтів і механізмів відмовостійкості, що робить її дуже підходящою для навчання масштабних моделей, таких як GPT, Gemini, з перевагами високої ефективності та контролю ресурсів, але водночас має проблеми з монополією даних, бар'єрами для ресурсів, споживанням енергії та ризиками єдиної точки.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в розподілі завдань навчання моделі на кілька машин для спільного виконання, щоб подолати обмеження обчислень і зберігання на одному комп'ютері. Хоча фізично має "Децентралізація" характеристики, але в цілому все ще контролюється централізованими установами, які управляють розкладом та синхронізацією, зазвичай працює в середовищі високошвидкісних локальних мереж, через технологію високошвидкісного з'єднання NVLink, головний вузол координує всі підзавдання. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри яких діляться, необхідно узгодити ваги моделі
Паралельне моделювання: розгортання різних частин моделі на різних вузлах для досягнення високої масштабованості
Паралельні канали: поетапне послідовне виконання, підвищення пропускної спроможності
Тензорна паралельність: уточнене розділення матричних обчислень, підвищення паралельної гранулярності

Розподілене навчання є поєднанням "централізованого контролю + розподіленого виконання", подібно до того, як один і той же керівник дистанційно керує співпрацею кількох "офісних" співробітників для виконання завдання. Наразі майже всі провідні великі моделі навчаються цим способом.

Децентралізоване навчання представляє собою більш відкритий і стійкий до цензури шлях у майбутнє. Його основними рисами є: кілька недовірливих вузлів, які спільно виконують навчальні завдання без центрального координатора, зазвичай через протокол, що керує розподілом завдань і співпрацею, а також за допомогою механізму крипто-стимулювання для забезпечення чесності внесків. Основними викликами, з якими стикається ця модель, є:

Гетерогенність пристроїв та труднощі поділу: високі труднощі координації гетерогенних пристроїв, низька ефективність розподілу завдань
Проблема з ефективністю зв'язку: нестабільне мережеве спілкування, яскраво виражена проблема синхронізації градієнтів
Відсутність надійного виконання: брак надійного середовища виконання, важко перевірити, чи дійсно вузли беруть участь у обчисленнях.
Відсутність єдиної координації: немає центрального диспетчера, складне розподілення завдань та механізм відкату помилок

Децентралізоване навчання можна зрозуміти як: група глобальних волонтерів, які спільно вносять обчислювальну потужність для навчання моделі, але "справді здійсненне масштабне децентралізоване навчання" все ще є системною інженерною проблемою, що охоплює архітектуру системи, комунікаційні протоколи, криптографічну безпеку, економічні механізми, валідацію моделей та інші аспекти, але чи можливо "ефективно співпрацювати + стимулювати чесність + отримати правильні результати" все ще перебуває на ранній стадії прототипування.

Федеративне навчання, як перехідна форма між розподіленістю та Децентралізацією, підкреслює збереження даних локально та централізовану агрегацію параметрів моделі, що підходить для сценаріїв, які акцентують увагу на відповідності вимогам конфіденційності. Федеративне навчання має інженерну структуру розподіленого навчання та можливості локальної кооперації, одночасно володіючи перевагами розподілених даних у децентралізованому навчанні, але все ще залежить від надійних координаторів і не має повністю відкритих та антицензурних характеристик. Це можна розглядати як "контрольовану децентралізацію" у сценаріях відповідності конфіденційності, яка є відносно м'якою в навчальних завданнях, структурі довіри та механізмах зв'язку, що робить її більш придатною як перехідну архітектуру для промислових впроваджень.

Децентралізація тренування: межі, можливості та реальні шляхи

З точки зору навчальних парадигм, Децентралізація навчання не підходить для всіх типів завдань. У деяких сценаріях через складну структуру завдання, надзвичайні вимоги до ресурсів або велику складність співпраці, природно, не підходить для ефективного виконання між гетерогенними, децентралізованими вузлами. Наприклад, навчання великих моделей часто залежить від великої пам'яті, низької затримки та високої пропускної здатності, що ускладнює їх ефективний розподіл та синхронізацію в відкритих мережах; завдання, що підлягають сильним обмеженням щодо конфіденційності даних і суверенітету, обмежені правовими нормами та етичними обмеженнями, не можуть бути відкритими для спільного використання; а завдання, які не мають основи для стимулювання співпраці, позбавлені зовнішньої мотивації до участі. Ці межі разом формують реальні обмеження сучасного децентралізованого навчання.

Але це не означає, що децентралізоване навчання є нереальним. Насправді, у типах завдань, які є легкими за структурою, легко паралелізуються та можуть бути стимульовані, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: LoRA доопрацювання, завдання після навчання з поведінковим вирівнюванням, навчання та маркування даних за допомогою краудсорсингу, навчання малих базових моделей з контрольованими ресурсами, а також сцени кооперативного навчання за участю крайових пристроїв. Ці завдання загалом мають високу паралельність, низьку зв'язаність і можуть витримувати гетерогенну обчислювальну потужність, що робить їх дуже придатними для кооперативного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори тощо.

Децентралізація тренування класичних проектів аналіз

Наразі в передових галузях децентралізованого навчання та федеративного навчання, репрезентативні блокчейн-проекти включають Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та дизайні алгоритмів, представляючи сучасні напрямки теоретичних досліджень; тоді як шляхи реалізації Gensyn та Flock.io відносно чіткі, вже можна побачити попередній прогрес у інженерному виконанні.

Prime Intellect: Тренувальна траєкторія, що підлягає верифікації, посилена навчанням кооперативна мережа піонерів

Prime Intellect прагне створити AI навчальну мережу, що не потребує довіри, щоб будь-хто міг брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити AI децентралізовану навчальну систему з трьома основними модулями PRIME-RL + TOPLOC + SHARDCAST, що має перевіряємість, відкритість та повністю розроблену механіку стимулювання.

Детальний опис основного механізму

PRIME-RL: Архітектура завдань асинхронного підкріплювального навчання з декомпозицією

PRIME-RL є фреймворком моделювання та виконання завдань, розробленим Prime Intellect для децентралізованих навчальних сценаріїв, спеціально створеним для гетерогенних мереж та асинхронної участі. Він використовує підкріплювальне навчання як пріоритетний об'єкт адаптації, структурно розділяючи процеси навчання, висновку та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикли завдань на місцевому рівні та співпрацювати через стандартизовані інтерфейси з механізмами верифікації та агрегації. У порівнянні з традиційними процесами контрольованого навчання, PRIME-RL більше підходить для реалізації еластичного навчання в середовищах без централізованого керування, що знижує складність системи і закладає основу для підтримки паралельного виконання багатьох завдань та еволюції стратегій.

TOPLOC: легкий механізм валідації поведінки навчання

TOPLOC є основним механізмом тренування з перевіреною здатністю, запропонованим Prime Intellect, для визначення того, чи дійсно вузол завершив ефективне навчання стратегії на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повторний розрахунок всієї моделі, а здійснює верифікацію легковагової структури, аналізуючи локальну узгодженість між "послідовністю спостережень↔оновленням стратегії". Вперше він перетворює поведінкові траєкторії під час навчання на об'єкти для перевірки, що є ключовою інновацією для реалізації розподілу винагород за навчання без довіри, що забезпечує можливий шлях для створення аудиту, стимулювання децентралізованої мережі кооперативного навчання.

SHARDCAST: асинхронна агрегація ваг та протокол поширення

SHARDCAST — це протокол вагового поширення та агрегації, розроблений Prime Intellect, спеціально оптимізований для асинхронних, обмежених за пропускною спроможністю та з мінливим станом вузлів реальних мережевих умов. Він поєднує механізм поширення gossip з локальною синхронізацією, що дозволяє кільком вузлам продовжувати подавати часткові оновлення в умовах несинхронізації, забезпечуючи поступову конвергенцію ваг та еволюцію у кількох версіях. У порівнянні з централізованими або синхронізованими методами AllReduce, SHARDCAST суттєво підвищує масштабованість та стійкість до відмов децентралізованого навчання, є основою для побудови стабільного консенсусу ваг та безперервних ітерацій навчання.

OpenDiLoCo:Рідкісний асинхронний комунікаційний фреймворк

OpenDiLoCo є комунікаційною оптимізаційною структурою, незалежно реалізованою і відкритою командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально розробленою для вирішення таких викликів, як обмежена пропускна здатність, гетерогенність пристроїв та нестабільність вузлів, які часто зустрічаються під час децентралізованого навчання. Його архітектура базується на паралельній обробці даних, шляхом побудови розріджених топологічних структур, таких як Ring, Expander, Small-World, що дозволяє уникнути високих витрат на комунікацію глобальної синхронізації, покладаючись лише на сусідні вузли для спільного навчання моделі. Поєднуючи асинхронне оновлення та механізм відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та крайнім пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі у глобальному кооперативному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

PCCL:Бібліотека координаційного зв'язку

PCCL є легковаговою бібліотекою зв'язку, спеціально розробленою Prime Intellect для децентралізованого середовища навчання AI, яка має на меті вирішити проблеми адаптації традиційних бібліотек зв'язку на гетерогенних пристроях та у мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що підтримує асинхронні можливості зв'язку протоколу OpenDiLoCo. Він суттєво підвищує толерантність до пропускної здатності тренувальної мережі та сумісність пристроїв, прокладаючи "остання миля" комунікаційної інфраструктури для побудови справді відкритої, без довіри кооперативної навчальної мережі.

Prime Intellect стимулююча мережа та розподіл ролей

Prime Intellect побудував мережу навчання без дозволу, що підлягає перевірці та має економічні стимули, що дозволяє будь-кому брати участь у завданнях і отримувати винагороди на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначити середовище навчання, початкову модель, функцію винагороди та стандарти валідації
Навчальний вузол: виконання локального навчання, подання оновлень ваг та спостереження за траєкторією
Вузли-верифікатори: використовуйте механізм TOPLOC для перевірки достовірності навчальної поведінки та участі в розрахунку винагороди та агрегуванні стратегій

Ядро процесу угоди включає публікацію задач, навчання вузлів, верифікацію траєкторій, агрегацію ваг та розподіл винагород, створюючи стимулююче замкнуте коло навколо "реальних тренувальних дій".

INTELLECT-2:Перший верифікований децентралізований навчальний модель.

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель навчання з підсиленням, яка була навчена шляхом співпраці асинхронних, без довіри, децентралізованих вузлів, з параметрами розміром 32B. Модель INTELLECT-2 була навчена за допомогою більше ніж 100 гетерогенних вузлів GPU, розташованих на трьох континентах, використовуючи повністю асинхронну архітектуру, а тривалість навчання перевищила 400 годин, демонструючи здійсненність і стабільність асинхронної кооперативної мережі. Ця модель не лише є проривом у показниках продуктивності, але й першим системним реалізацією парадигми "навчання — це консенсус", запропонованої Prime Intellect. INTELLECT-2 інтегрує основні модулі протоколів PRIME-RL, TOPLOC та SHARDCAST, що знаменує перше досягнення відкритості, верифікації та економічного стимулювання в процесі навчання децентралізованої навчальної мережі.

В аспекті продуктивності, INTELLECT-2 базується на QwQ-32B, пройшов спеціальне RL навчання в коді та математиці, перебуваючи на передовій лінії сучасних відкритих RL моделей тонкої настройки. Хоча поки що не перевершив GPT-4 або

PRIME-0.69%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

12 лайків

Нагородити
12
7
Поділіться

Прокоментувати

0/400

Lonely_Validator

· 07-31 19:07

Координація ресурсів є ключовою.