Революція даних AI: від обчислювальної потужності до інфраструктури даних у блокчейні

Наступна революція штучного інтелекту: від обчислювальної потужності до інфраструктури даних

З огляду на те, що масштаби параметрів моделей штучного інтелекту (ШІ) перевищують трильйон, обчислювальна потужність вимірюється в сотні мільярдів операцій за секунду (FLOPS), виникає ігнорований ключовий вузький момент - дані. Наступна революція в індустрії ШІ вже не буде керуватися архітектурою моделей або обчислювальною потужністю чіпів, а залежатиме від того, як ми перетворимо фрагментовані дані людської поведінки на перевірений, структурований, готовий до ШІ капітал. Це усвідомлення не лише виявляє структурні суперечності в сучасному розвитку ШІ, а й окреслює зовсім нову картину ери "DataFi" - в цю епоху дані більше не є побічним продуктом технологій, а є основним виробничим фактором, що може вимірюватися, обмінюватися та збільшуватися, подібно до електрики та обчислювальної потужності.

Структурні суперечності в AI-індустрії: від змагання за обчислювальну потужність до голоду даних

Розвиток ШІ давно керується двома ядрами "модель-обчислювальна потужність". З моменту революції глибокого навчання параметри моделей зросли з мільйонів до трильйонів, а попит на обчислювальну потужність зростав експоненціально. Вартість тренування сучасної великої мовної моделі вже перевищує 100 мільйонів доларів, з яких 90% витрачається на оренду GPU-кластерів. Проте, коли галузь зосереджує увагу на "більших моделях" та "швидших чіпах", криза з боку пропозиції даних тихо наближається.

Генеровані людьми "органічні дані" досягли стелі зростання. Наприклад, загальна кількість високоякісних текстових даних, доступних для парсингу в Інтернеті, становить приблизно 10^12 слів, тоді як для навчання моделі з 100 мільярдами параметрів потрібно приблизно 10^13 слів даних - це означає, що існуючий пул даних може підтримувати навчання лише 10 моделей однакового масштабу. Ще гіршою є ситуація з тим, що повторні дані та низькоякісний контент складають понад 60%, що ще більше зменшує постачання ефективних даних. Коли моделі починають "поглинати" дані, які вони самі генерують, "забруднення даних" призводить до погіршення продуктивності моделі, що стало тривожним знаком для галузі.

Ця суперечність корениться в тому, що індустрія ШІ довгий час сприймала дані як "безкоштовний ресурс", а не як "стратегічний актив", що потребує ретельного вирощування. Моделі та обчислювальна потужність сформували зрілу ринкову систему - обчислювальна потужність на хмарних платформах оцінюється за FLOPS, моделі мають API-інтерфейси з оплатою за кількість викликів - але виробництво, очищення, перевірка та торгівля даними все ще перебувають у "дикунському етапі". Наступні десять років у сфері ШІ будуть десятиліттям "інфраструктури даних", а дані на блокчейні крипто-мережі є ключем до розв'язання цієї проблеми.

Онлайнові дані: "База даних людської поведінки", найбільш необхідна для ШІ

В умовах дефіциту даних дані в ланцюжку зашифрованих мереж демонструють незамінну цінність. У порівнянні з традиційними інтернет-даними, дані в ланцюжку, природно, мають автентичність «вирівнювання стимулів» - кожна транзакція, кожна взаємодія з контрактом і кожна адреса гаманця безпосередньо пов'язані з реальним капіталом і не можуть бути підроблені. Це «найбільш концентровані дані про поведінку, орієнтовану на мотивацію людини в Інтернеті», які втілені в трьох вимірах:

  1. Реальні «сигнали наміру»: дані на блокчейні фіксують рішення, які приймаються за допомогою реальних грошей. Наприклад, обмін активів через гаманець на певному DEX, заставлення позики на платформі кредитування, реєстрація домену - всі ці дії безпосередньо відображають оцінку користувачем цінності проекту, його схильність до ризику і стратегію розподілу капіталу. Ці дані, які «підтверджені капіталом», мають надзвичайну цінність для навчання AI в прийнятті рішень.

  2. Відстежувальний "ланцюг дій": прозорість блокчейну дозволяє повністю відстежувати користувацьку поведінку. Історія транзакцій одного гаманця, протоколи, з якими він взаємодіяв, зміни в утримуваних активах формують зв'язний "ланцюг дій". Аналізуючи операції певної адреси з 2020 року до сьогодні в DeFi протоколах, AI може точно визначити, чи є вона "довгостроковим утримувачем", "арбітражним трейдером" чи "постачальником ліквідності", і на цій основі створити профіль користувача.

  3. Відкритий екосистеми "безліцензійний доступ": на відміну від закритості даних традиційних підприємств, дані в блокчейні є відкритими та безліцензійними. Будь-який розробник може отримати вихідні дані за допомогою блокчейн-браузера або API даних, що забезпечує "безбар'єрне" джерело даних для навчання моделей ШІ. Проте ця відкритість також приносить виклики: дані в блокчейні існують у формі "журналів подій", є неструктурованими "сирими сигналами", які потребують очищення, стандартизації та зв'язування, щоб їх могли використовувати моделі ШІ. Наразі "структурований коефіцієнт перетворення" даних у блокчейні становить менше 5%, велика кількість цінних сигналів загублена серед десятків мільярдів фрагментованих подій.

"Операційна система" на основі даних блокчейну: створення інфраструктури даних, готової до AI

Щоб вирішити проблему фрагментації даних в ланцюзі, у галузі було запропоновано концепцію "ланцюгової інтелектуальної операційної системи", спеціально розроблену для ШІ. Її основна мета полягає в перетворенні розсіяних сигналів ланцюга в структуровані, перевіряємi, реальні дані, готові до використання в ШІ. Ця система містить такі ключові компоненти:

  1. Відкриті стандарти даних: уніфікація визначення та опису даних на ланцюзі, стандартизація складних подій, таких як "поведінка стейкера", у структуровані дані, які містять поля staker_address, protocol_id, amount, timestamp, reward_token тощо. Ця стандартизація знижує витрати на розробку штучного інтелекту, дозволяючи розробникам безпосередньо використовувати структуровані дані, такі як "записи стейкингу" та "записи надання ліквідності", значно скорочуючи цикл навчання моделей.

  2. Механізм перевірки даних: забезпечує достовірність даних через мережу вузлів-валідаторів Ethereum. Коли система обробляє подію в ланцюзі, вузли-валідатори перехресно перевіряють хеш-значення даних, інформацію про підпис та стан в ланцюзі, забезпечуючи повну відповідність структурованих даних, що виводяться, оригінальним даним в ланцюзі. Цей механізм перевірки з "гарантією криптоекономіки" вирішує проблему довіри традиційної централізованої перевірки даних.

  3. Висока пропускна здатність шару доступності даних: шляхом оптимізації алгоритмів стиснення даних та протоколів передачі, досягається обробка сотень тисяч подій на ланцюгу в реальному часі за секунду. Такий дизайн дозволяє системі підтримувати вимоги в реальному часі для великих AI-додатків, наприклад, надаючи одночасно онлайн-сервіси ланцюга даних для кількох торгових агентів.

Ера DataFi: коли дані стають торгівельним "капіталом"

Остаточна мета цієї інфраструктури даних на блокчейні – це просування індустрії ШІ в епоху DataFi – дані більше не є пасивним "навчальним матеріалом", а є активним "капіталом", який може бути оцінений, обміняний, підвищений у вартості. Як електрика оцінюється в кіловатах, обчислювальна потужність оцінюється в FLOPS, так і дані повинні бути оцінені, ранжовані, оцінені. Реалізація цього бачення залежить від перетворення даних у чотири основні властивості:

  1. Структурованість: від "сирого сигналу" до "здатного активу", перетворення даних в ланцюгу на структуровану форму, яку може безпосередньо використовувати модель ШІ.

  2. Комбінованість: Дані можуть вільно комбінуватися, як LEGO-цеглинки, розробники можуть комбінувати дані з різних джерел для навчання складних моделей ШІ.

  3. Можливість перевірки: за допомогою технології блокчейн для кожного набору даних генерується унікальний "відбиток даних", що забезпечує достовірність та відстежуваність даних.

  4. Можливість монетизації: постачальники даних можуть безпосередньо монетизувати структуровані дані, наприклад, упаковуючи результати аналізу в API-сервіс і стягуючи плату за кількість викликів, або надаючи ліцензію на спільне використання анонімізованих даних на блокчейні для отримання винагороди.

Висновок: революція даних, наступні десять років ШІ

Коли ми говоримо про майбутнє ШІ, ми часто зосереджуємося на "інтелектуальності" моделей, ігноруючи "дані, що підтримують інтелект". Блокчейн-інфраструктура даних виявляє одну ключову істину: еволюція ШІ, по суті, є еволюцією інфраструктури даних. Від "обмеженості" даних, що генеруються людиною, до "виявлення вартості" даних на ланцюгу, від "безладу" фрагментованих сигналів до "упорядкованості" структурованих даних, від "безкоштовного ресурсу" даних до "капітального активу" DataFi, ця інфраструктура перетворює основну логіку індустрії ШІ.

У цю епоху DataFi дані стануть мостом між AI та реальним світом - торгові агенти сприймають ринкові настрої через дані на блокчейні, автономні dApp оптимізують послуги на основі даних про поведінку користувачів, а звичайні користувачі отримують постійний дохід, ділячись даними. Як електрична мережа стала поштовхом для промислової революції, Обчислювальна потужність мережі стала поштовхом для інтернет-революції, так і мережа даних на блокчейні сприяє "революції даних" AI.

Наступне покоління нативних AI-додатків потребує не лише моделей або гаманців, але й даних, які не потребують довіри, є програмованими і мають високий сигнал. Коли дані, нарешті, отримають свою належну цінність, AI зможе справжнім чином вивільнити силу, що змінює світ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 6
  • Поділіться
Прокоментувати
0/400
MetaLord420vip
· 08-02 02:01
Не потрібно, просто продайте дані.
Переглянути оригіналвідповісти на0
AlphaBrainvip
· 08-02 02:01
Справжніми активами насправді є дані!
Переглянути оригіналвідповісти на0
GasFeeLovervip
· 08-02 01:59
Це дійсно дуже вірно щодо голоду даних.
Переглянути оригіналвідповісти на0
RektDetectivevip
· 08-02 01:53
Такі розкішні дані, чому ще голод?
Переглянути оригіналвідповісти на0
PumpStrategistvip
· 08-02 01:46
Дані — це нова нафта? Чутки свідчать, що вже великі капітали вкладені, форма вже визначена.
Переглянути оригіналвідповісти на0
HypotheticalLiquidatorvip
· 08-02 01:42
Є базові дані для ризик-менеджменту? Голод даних неодмінно викличе кризу ліквідності, тривожний дзвін вже пролунав.
Переглянути оригіналвідповісти на0
  • Закріпити