A revolução dos dados da IA: da competição de poder de computação à infraestrutura de dados na cadeia

A próxima revolução da inteligência artificial: da corrida pelo poder de computação à infraestrutura de dados

Com a escala dos parâmetros dos modelos de inteligência artificial (IA) a ultrapassar um trilhão, a capacidade de computação medida em bilhões de bilhões de operações de ponto flutuante por segundo (FLOPS), um gargalo central que foi ignorado está a emergir - os dados. A próxima revolução na indústria da IA não será impulsionada pela arquitetura de modelos ou pelo poder de computação dos chips, mas dependerá de como transformamos os dados fragmentados do comportamento humano em capital verificável, estruturado e pronto para a IA. Esta visão não só revela as contradições estruturais no desenvolvimento atual da IA, mas também esboça um novo cenário da "era DataFi" - numa era onde os dados não são mais um subproduto da tecnologia, mas sim um fator de produção central que é mensurável, negociável e valorizável, tal como a eletricidade e o poder de computação.

Contradições estruturais da indústria de IA: da corrida pelo poder de computação à fome de dados

O desenvolvimento da IA é impulsionado a longo prazo pelo núcleo duplo "modelo-Poder de computação". Desde a revolução do aprendizado profundo, os parâmetros do modelo saltaram de milhões para trilhões, e a demanda por poder de computação cresceu de forma exponencial. O custo de treinar um avançado modelo de linguagem grande já ultrapassa 100 milhões de dólares, dos quais 90% são destinados ao aluguel de clusters de GPU. No entanto, enquanto a indústria foca em "modelos maiores" e "chips mais rápidos", uma crise do lado da oferta de dados está silenciosamente se aproximando.

Os "dados orgânicos" gerados pela humanidade atingiram um teto de crescimento. Tomando os dados textuais como exemplo, a quantidade total de textos de alta qualidade disponíveis na internet que pode ser rastreada é de cerca de 10^12 palavras, enquanto o treinamento de um modelo com cem bilhões de parâmetros requer cerca de 10^13 palavras de dados - isso significa que o pool de dados existente só pode suportar o treinamento de 10 modelos de igual escala. O cenário é ainda mais grave, pois os dados duplicados e conteúdos de baixa qualidade representam mais de 60%, comprimindo ainda mais a oferta de dados eficazes. Quando os modelos começam a "devorar" os dados que geram, a degradação do desempenho do modelo causada pela "contaminação de dados" tornou-se uma preocupação na indústria.

A raiz dessa contradição reside no fato de que a indústria de IA há muito tempo considera os dados como "recursos gratuitos", em vez de "ativos estratégicos" que precisam ser cuidadosamente cultivados. Modelos e poder de computação já formaram um sistema de mercado maduro - o poder de computação é precificado em plataformas de nuvem por FLOPS, e os modelos têm interfaces de API que cobram por número de chamadas - mas a produção, limpeza, verificação e negociação de dados ainda estão na "era primitiva". A próxima década da IA será a década da "infraestrutura de dados", e os dados on-chain da rede criptográfica são a chave para desbloquear esse impasse.

Dados na cadeia: o "banco de dados de comportamento humano" mais necessário pela IA

No contexto da escassez de dados, os dados on-chain das redes de criptomoedas estão a mostrar um valor inigualável. Comparados aos dados da Internet tradicional, os dados on-chain possuem uma autenticidade inerente de "alinhamento de incentivos" - cada transação, cada interação contratual, cada comportamento de endereço de carteira está diretamente ligado a capital real e é imutável. Estes são "os dados de comportamento de alinhamento de incentivos humanos mais concentrados na Internet", manifestando-se em três dimensões:

  1. Sinais de "intenção" do mundo real: os dados on-chain registram comportamentos de decisão votados com dinheiro real. Por exemplo, a troca de ativos de uma carteira em um DEX, o colateral e empréstimo em uma plataforma de empréstimo, e o registro de domínios refletem diretamente o julgamento dos usuários sobre o valor do projeto, preferências de risco e estratégias de alocação de capital. Esses dados "apoiados pelo capital" têm um valor extremamente alto para treinar a capacidade de decisão da IA.

  2. Cadeia de "comportamento" rastreável: A transparência da blockchain permite que o comportamento dos usuários seja completamente rastreado. O histórico de transações de um endereço de carteira, os protocolos com os quais interagiu e as mudanças nos ativos detidos formam uma "cadeia de comportamento" coerente. Ao analisar as operações de um determinado endereço nos protocolos DeFi de 2020 até agora, a IA pode identificar com precisão se é um "detentor a longo prazo", "trader de arbitragem" ou "fornecedor de liquidez", e, com base nisso, construir um perfil de usuário.

  3. Acesso "sem permissão" em ecossistemas abertos: ao contrário da natureza fechada dos dados empresariais tradicionais, os dados na blockchain são abertos e não necessitam de permissão. Qualquer desenvolvedor pode acessar dados brutos através de um explorador de blockchain ou API de dados, o que fornece uma fonte de dados "sem barreiras" para o treinamento de modelos de IA. No entanto, essa abertura também traz desafios: os dados on-chain existem na forma de "logs de eventos", são "sinais brutos" não estruturados que precisam ser limpos, padronizados e relacionados para serem utilizados por modelos de IA. Atualmente, a "taxa de conversão estruturada" dos dados on-chain é inferior a 5%, e uma grande quantidade de sinais de alto valor está enterrada em bilhões de eventos fragmentados.

O "sistema operativo" dos dados em blockchain: construir uma infraestrutura de dados pronta para a IA

Para resolver o problema da fragmentação de dados na cadeia, a indústria propôs um conceito de "sistema operacional inteligente em cadeia" projetado especialmente para IA. Seu objetivo central é transformar sinais dispersos na cadeia em dados prontos para IA, estruturados, verificáveis e em tempo real combináveis. Este sistema contém os seguintes componentes-chave:

  1. Padrões de dados abertos: unificar a definição e a descrição dos dados na cadeia, padronizando eventos complexos como "comportamento de staking do usuário" em dados estruturados que incluem campos como staker_address, protocol_id, amount, timestamp, reward_token. Essa padronização reduz os custos de atrito no desenvolvimento de IA, permitindo que os desenvolvedores chamem diretamente dados estruturados como "registros de staking do usuário" e "registros de fornecimento de liquidez", encurtando significativamente o ciclo de treinamento do modelo.

  2. Mecanismo de validação de dados: garante a veracidade dos dados através da rede de nós validadores do Ethereum. Quando o sistema processa um evento na cadeia, os nós validadores cruzam os valores de hash dos dados, as informações de assinatura e o estado na cadeia, garantindo que os dados estruturados de saída sejam completamente consistentes com os dados originais na cadeia. Este mecanismo de validação, denominado "garantia da economia criptográfica", resolve o problema de confiança da validação centralizada tradicional.

  3. Camada de disponibilidade de dados de alto throughput: através da otimização de algoritmos de compressão de dados e protocolos de transmissão, é possível realizar o processamento em tempo real de centenas de milhares de eventos na cadeia por segundo. Este design permite que o sistema suporte as necessidades de dados em tempo real de aplicações de IA em larga escala, como fornecer serviços de dados na cadeia online para vários agentes de negociação simultaneamente.

Era DataFi: Quando os dados se tornam "capital" negociável

O objetivo final desta infraestrutura de dados em blockchain é impulsionar a indústria de IA para a era DataFi - os dados não são mais um "material de treino" passivo, mas sim um "capital" ativo, que pode ser precificado, negociado e valorizado. Assim como a eletricidade é precificada em quilowatts, o poder de computação é precificado em FLOPS, os dados também devem ser avaliados, classificados e valorizados. A realização dessa visão depende da transformação dos dados em quatro propriedades essenciais:

  1. Estruturado: de "sinal bruto" a "ativo utilizável", transformar dados on-chain em uma forma estruturada que pode ser diretamente chamada por modelos de IA.

  2. Combinável: Os dados podem ser combinados livremente como peças de Lego, permitindo que os desenvolvedores combinem dados de diferentes fontes para treinar modelos de IA complexos.

  3. Verificável: gera um "dedo digital" único para cada conjunto de dados através da tecnologia blockchain, garantindo a autenticidade e a rastreabilidade dos dados.

  4. Monetizável: os fornecedores de dados podem monetizar dados estruturados diretamente, como embalar os resultados da análise em serviços de API cobrando por número de chamadas, ou autorizando o compartilhamento de dados anônimos na blockchain para obter recompensas.

Conclusão: Revolução dos Dados, a Próxima Década da IA

Quando falamos sobre o futuro da IA, frequentemente nos concentramos no "nível de inteligência" dos modelos, mas ignoramos o "solo de dados" que sustenta essa inteligência. A infraestrutura de dados on-chain revela uma verdade central: a evolução da IA é, na essência, a evolução da infraestrutura de dados. Desde a "limitação" dos dados gerados pelos humanos até a "descoberta de valor" dos dados on-chain, da "desordem" dos sinais fragmentados à "ordem" dos dados estruturados, da "recurso gratuito" dos dados ao "ativo de capital" do DataFi, essa infraestrutura está reformulando a lógica subjacente da indústria de IA.

Na era do DataFi, os dados tornar-se-ão a ponte que liga a IA ao mundo real - os agentes de negociação percebem o sentimento do mercado através de dados on-chain, dApps autônomos otimizam serviços com base em dados de comportamento do usuário, enquanto os usuários comuns obtêm rendimentos contínuos através do compartilhamento de dados. Assim como a rede elétrica deu origem à revolução industrial, a rede de poder de computação deu origem à revolução da Internet, a rede de dados on-chain está a dar origem à "revolução dos dados" da IA.

As aplicações nativas de IA da próxima geração não precisam apenas de modelos ou carteiras, mas também de dados programáveis, de alto sinal e sem necessidade de confiança. Quando os dados forem finalmente valorizados como merecem, a IA poderá realmente liberar o poder de mudar o mundo.

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • Compartilhar
Comentário
0/400
MetaLord420vip
· 22h atrás
Não é necessário, basta vender os dados.
Ver originalResponder0
AlphaBrainvip
· 22h atrás
Os verdadeiros ativos são, na verdade, dados!
Ver originalResponder0
GasFeeLovervip
· 22h atrás
A escassez de dados está muito certa, ah.
Ver originalResponder0
RektDetectivevip
· 22h atrás
Esses dados tão extravagantes, como ainda há fome?
Ver originalResponder0
PumpStrategistvip
· 22h atrás
Os dados são o novo petróleo? Rumores indicam que grandes capitais já estão sendo alocados, e a forma já está definida.
Ver originalResponder0
HypotheticalLiquidatorvip
· 22h atrás
Tem alguma base de controlo de risco de dados? A escassez de dados certamente desencadeará uma crise de liquidez em cascata. O sino já tocou.
Ver originalResponder0
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)