La próxima revolución de la inteligencia artificial: de la competencia por la Potencia computacional a la infraestructura de datos
Con la escala de parámetros de los modelos de inteligencia artificial (IA) superando el billón, la potencia computacional se mide en billones de operaciones por segundo (FLOPS), un núcleo de cuello de botella que ha sido ignorado está saliendo a la luz: los datos. La próxima revolución de la industria de la IA ya no será impulsada por la arquitectura de modelos o la potencia computacional de los chips, sino que dependerá de cómo transformemos los datos de comportamiento humano fragmentados en capital verificable, estructurado y listo para la IA. Esta percepción no solo revela la contradicción estructural del desarrollo actual de la IA, sino que también esboza un nuevo panorama de la "era de DataFi": en esta era, los datos ya no son un subproducto de la tecnología, sino un factor de producción central que es medible, comerciable y capaz de ser valorado, como la electricidad y la potencia computacional.
Las contradicciones estructurales de la industria de la IA: de la competencia en potencia computacional a la escasez de datos
El desarrollo de la IA ha estado impulsado a largo plazo por el doble núcleo "modelo-potencia computacional". Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones a billones, y la demanda de potencia computacional ha crecido de manera exponencial. El costo de entrenar un modelo de lenguaje avanzado ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, cuando la industria centra su atención en "modelos más grandes" y "chips más rápidos", una crisis en el lado de la oferta de datos está llegando silenciosamente.
Los "datos orgánicos" generados por los humanos han alcanzado el techo de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad disponible en Internet que se puede rastrear es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras - esto significa que el pool de datos existente solo puede soportar el entrenamiento de 10 modelos de tamaño equivalente. Más grave aún, la proporción de datos duplicados y contenido de baja calidad supera el 60%, lo que comprime aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos generados por sí mismos, la degradación del rendimiento del modelo causada por la "contaminación de datos" se ha convertido en una preocupación en la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos" en lugar de "activos estratégicos" que requieren un cuidado meticuloso. Los modelos y la potencia computacional han formado un sistema de mercado maduro: la potencia computacional se valora en plataformas en la nube según FLOPS, y los modelos tienen interfaces API que cobran por número de llamadas. Sin embargo, la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era salvaje". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en la cadena de la red criptográfica son la clave para desbloquear este dilema.
Datos en la cadena: la "base de datos de comportamiento humano" más necesaria para la IA
En el contexto de la escasez de datos, los datos en cadena de las redes de criptomonedas están mostrando un valor insustituible. En comparación con los datos de Internet tradicional, los datos en cadena poseen de forma inherente la autenticidad de la "alineación de incentivos" - cada transacción, cada interacción contractual, cada acción de una dirección de billetera está directamente vinculada al capital real y es inalterable. Esta es "la data de comportamiento humano más concentrada en incentivos alineados en Internet", que se concreta en tres dimensiones:
Señales de "intención" del mundo real: los datos en la cadena registran comportamientos de decisión que se votan con dinero real. Por ejemplo, las acciones de un monedero al intercambiar activos en un DEX, al hipotecar préstamos en una plataforma de préstamos o al registrar un dominio, reflejan directamente el juicio del usuario sobre el valor del proyecto, su preferencia por el riesgo y su estrategia de asignación de fondos. Estos datos de "respaldo de capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.
"Cadena de comportamiento" rastreable: La transparencia de la blockchain permite que las acciones de los usuarios sean completamente rastreables. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos que posee, constituyen una "cadena de comportamiento" coherente. Al analizar las operaciones de una dirección en protocolos DeFi desde 2020 hasta la fecha, la IA puede identificar con precisión si se trata de un "tenedor a largo plazo", un "comerciante de arbitraje" o un "proveedor de liquidez", y a partir de esto construir un perfil de usuario.
Acceso "sin licencia" en un ecosistema abierto: A diferencia del carácter cerrado de los datos de las empresas tradicionales, los datos en la cadena son abiertos y no requieren licencia. Cualquier desarrollador puede acceder a los datos originales a través de exploradores de blockchain o API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, esta apertura también presenta desafíos: los datos en la cadena existen en forma de "registros de eventos", son "señales crudas" no estructuradas que necesitan ser limpiadas, estandarizadas y relacionadas para ser utilizados por los modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en la cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas entre miles de millones de eventos fragmentados.
El "sistema operativo" de los datos en cadena: construir una infraestructura de datos lista para IA
Para resolver el problema de la fragmentación de datos en la cadena, la industria ha propuesto un concepto de "sistema operativo inteligente en la cadena" diseñado específicamente para la IA. Su objetivo principal es transformar las señales dispersas en la cadena en datos listos para la IA que sean estructurados, verificables y combinables en tiempo real. Este sistema incluye los siguientes componentes clave:
Estándar de datos abiertos: unificar la definición y la forma de descripción de los datos en la cadena, estandarizando eventos complejos como "comportamiento de participación de usuarios" en datos estructurados que incluyen campos como staker_address, protocol_id, amount, timestamp, reward_token, entre otros. Esta estandarización reduce los costos de fricción en el desarrollo de IA, permitiendo a los desarrolladores acceder directamente a datos estructurados como "registros de participación de usuarios" y "registros de provisión de liquidez", acortando significativamente el ciclo de entrenamiento del modelo.
Mecanismo de validación de datos: se asegura la veracidad de los datos a través de la red de nodos validadores de Ethereum. Cuando el sistema procesa un evento en la cadena, los nodos validadores verifican de manera cruzada los valores hash de los datos, la información de firma y el estado en la cadena, asegurando que los datos estructurados de salida coincidan exactamente con los datos originales en la cadena. Este mecanismo de validación de "garantía de economía criptográfica" resuelve el problema de confianza de la validación centralizada de datos tradicional.
Capa de disponibilidad de datos de alto rendimiento: a través de la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos en cadena por segundo. Este diseño permite que el sistema soporte la demanda de datos en tiempo real de aplicaciones de IA a gran escala, como proporcionar servicios de datos en línea en cadena a múltiples agentes de transacción simultáneamente.
Era DataFi: Cuando los datos se convierten en "capital" negociable
El objetivo final de esta infraestructura de datos en la cadena es impulsar la industria de la IA hacia la era de DataFi - los datos ya no son un "material de entrenamiento" pasivo, sino un "capital" activo, que puede ser valorado, negociado y apreciado. Así como la electricidad se valora en kilovatios, la potencia computacional se valora en FLOPS, los datos también deben ser calificados, clasificados y valorados. La realización de esta visión depende de transformar los datos en cuatro atributos fundamentales:
Estructurado: de "señal original" a "activo utilizable", transformar los datos en cadena en una forma estructurada que el modelo de IA pueda utilizar directamente.
Combinable: Los datos se pueden combinar libremente como bloques de Lego, los desarrolladores pueden combinar datos de diferentes fuentes para entrenar modelos de IA complejos.
Verificable: Generar una "huella digital de datos" única para cada conjunto de datos mediante la tecnología blockchain, asegurando la autenticidad y trazabilidad de los datos.
Monetizable: Los proveedores de datos pueden monetizar datos estructurados directamente, como empaquetar los resultados del análisis en servicios API y cobrar por número de llamadas, o autorizar el intercambio de datos en la cadena anónimos para obtener recompensas.
Conclusión: Revolución de datos, la próxima década de la IA
Cuando hablamos del futuro de la IA, a menudo nos centramos en el "nivel de inteligencia" del modelo, pero pasamos por alto el "suelo de datos" que sustenta esa inteligencia. La infraestructura de datos en cadena revela una verdad fundamental: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en cadena, desde el "desorden" de las señales fragmentadas hasta la "orden" de los datos estructurados, desde los "recursos gratuitos" de los datos hasta los "activos de capital" de DataFi, esta infraestructura está reconfigurando la lógica subyacente de la industria de la IA.
En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real: los agentes de trading perciben el sentimiento del mercado a través de datos en cadena, las dApps autónomas optimizan los servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos al compartir datos. Así como la red eléctrica dio origen a la revolución industrial, la Potencia computacional dio origen a la revolución de Internet, la red de datos en cadena está dando origen a la "revolución de datos" de la IA.
Las aplicaciones nativas de IA de próxima generación no solo requieren modelos o billeteras, sino también datos programables, sin necesidad de confianza y de alta señal. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
8 me gusta
Recompensa
8
6
Compartir
Comentar
0/400
MetaLord420
· 08-02 02:01
No es necesario, solo vende los datos.
Ver originalesResponder0
AlphaBrain
· 08-02 02:01
¡Los verdaderos activos son, en realidad, datos!
Ver originalesResponder0
GasFeeLover
· 08-02 01:59
La escasez de datos tiene toda la razón.
Ver originalesResponder0
RektDetective
· 08-02 01:53
¿Cómo puede haber escasez con datos tan impresionantes?
Ver originalesResponder0
PumpStrategist
· 08-02 01:46
¿Los datos son el nuevo petróleo? Rumores indican que ya hay grandes fondos desplegados, la forma ya se ha establecido.
Ver originalesResponder0
HypotheticalLiquidator
· 08-02 01:42
¿Tienes una base de control de riesgos de datos? La escasez de datos seguramente provocará una crisis de liquidez por liquidación. La alarma ya ha sonado.
La revolución de los datos de la IA: de la competencia de potencia computacional a la infraestructura de datos on-chain
La próxima revolución de la inteligencia artificial: de la competencia por la Potencia computacional a la infraestructura de datos
Con la escala de parámetros de los modelos de inteligencia artificial (IA) superando el billón, la potencia computacional se mide en billones de operaciones por segundo (FLOPS), un núcleo de cuello de botella que ha sido ignorado está saliendo a la luz: los datos. La próxima revolución de la industria de la IA ya no será impulsada por la arquitectura de modelos o la potencia computacional de los chips, sino que dependerá de cómo transformemos los datos de comportamiento humano fragmentados en capital verificable, estructurado y listo para la IA. Esta percepción no solo revela la contradicción estructural del desarrollo actual de la IA, sino que también esboza un nuevo panorama de la "era de DataFi": en esta era, los datos ya no son un subproducto de la tecnología, sino un factor de producción central que es medible, comerciable y capaz de ser valorado, como la electricidad y la potencia computacional.
Las contradicciones estructurales de la industria de la IA: de la competencia en potencia computacional a la escasez de datos
El desarrollo de la IA ha estado impulsado a largo plazo por el doble núcleo "modelo-potencia computacional". Desde la revolución del aprendizaje profundo, los parámetros del modelo han pasado de millones a billones, y la demanda de potencia computacional ha crecido de manera exponencial. El costo de entrenar un modelo de lenguaje avanzado ha superado los 100 millones de dólares, de los cuales el 90% se destina al alquiler de clústeres de GPU. Sin embargo, cuando la industria centra su atención en "modelos más grandes" y "chips más rápidos", una crisis en el lado de la oferta de datos está llegando silenciosamente.
Los "datos orgánicos" generados por los humanos han alcanzado el techo de crecimiento. Tomando como ejemplo los datos textuales, la cantidad total de texto de alta calidad disponible en Internet que se puede rastrear es de aproximadamente 10^12 palabras, mientras que el entrenamiento de un modelo de mil millones de parámetros requiere consumir datos a nivel de aproximadamente 10^13 palabras - esto significa que el pool de datos existente solo puede soportar el entrenamiento de 10 modelos de tamaño equivalente. Más grave aún, la proporción de datos duplicados y contenido de baja calidad supera el 60%, lo que comprime aún más la oferta de datos efectivos. Cuando los modelos comienzan a "devorar" los datos generados por sí mismos, la degradación del rendimiento del modelo causada por la "contaminación de datos" se ha convertido en una preocupación en la industria.
La raíz de esta contradicción radica en que la industria de la IA ha considerado durante mucho tiempo los datos como "recursos gratuitos" en lugar de "activos estratégicos" que requieren un cuidado meticuloso. Los modelos y la potencia computacional han formado un sistema de mercado maduro: la potencia computacional se valora en plataformas en la nube según FLOPS, y los modelos tienen interfaces API que cobran por número de llamadas. Sin embargo, la producción, limpieza, verificación y transacción de datos aún se encuentran en la "era salvaje". La próxima década de la IA será la década de la "infraestructura de datos", y los datos en la cadena de la red criptográfica son la clave para desbloquear este dilema.
Datos en la cadena: la "base de datos de comportamiento humano" más necesaria para la IA
En el contexto de la escasez de datos, los datos en cadena de las redes de criptomonedas están mostrando un valor insustituible. En comparación con los datos de Internet tradicional, los datos en cadena poseen de forma inherente la autenticidad de la "alineación de incentivos" - cada transacción, cada interacción contractual, cada acción de una dirección de billetera está directamente vinculada al capital real y es inalterable. Esta es "la data de comportamiento humano más concentrada en incentivos alineados en Internet", que se concreta en tres dimensiones:
Señales de "intención" del mundo real: los datos en la cadena registran comportamientos de decisión que se votan con dinero real. Por ejemplo, las acciones de un monedero al intercambiar activos en un DEX, al hipotecar préstamos en una plataforma de préstamos o al registrar un dominio, reflejan directamente el juicio del usuario sobre el valor del proyecto, su preferencia por el riesgo y su estrategia de asignación de fondos. Estos datos de "respaldo de capital" tienen un valor extremadamente alto para entrenar la capacidad de decisión de la IA.
"Cadena de comportamiento" rastreable: La transparencia de la blockchain permite que las acciones de los usuarios sean completamente rastreables. El historial de transacciones de una dirección de billetera, los protocolos con los que ha interactuado y los cambios en los activos que posee, constituyen una "cadena de comportamiento" coherente. Al analizar las operaciones de una dirección en protocolos DeFi desde 2020 hasta la fecha, la IA puede identificar con precisión si se trata de un "tenedor a largo plazo", un "comerciante de arbitraje" o un "proveedor de liquidez", y a partir de esto construir un perfil de usuario.
Acceso "sin licencia" en un ecosistema abierto: A diferencia del carácter cerrado de los datos de las empresas tradicionales, los datos en la cadena son abiertos y no requieren licencia. Cualquier desarrollador puede acceder a los datos originales a través de exploradores de blockchain o API de datos, lo que proporciona una fuente de datos "sin barreras" para el entrenamiento de modelos de IA. Sin embargo, esta apertura también presenta desafíos: los datos en la cadena existen en forma de "registros de eventos", son "señales crudas" no estructuradas que necesitan ser limpiadas, estandarizadas y relacionadas para ser utilizados por los modelos de IA. Actualmente, la "tasa de conversión estructurada" de los datos en la cadena es inferior al 5%, y una gran cantidad de señales de alto valor están enterradas entre miles de millones de eventos fragmentados.
El "sistema operativo" de los datos en cadena: construir una infraestructura de datos lista para IA
Para resolver el problema de la fragmentación de datos en la cadena, la industria ha propuesto un concepto de "sistema operativo inteligente en la cadena" diseñado específicamente para la IA. Su objetivo principal es transformar las señales dispersas en la cadena en datos listos para la IA que sean estructurados, verificables y combinables en tiempo real. Este sistema incluye los siguientes componentes clave:
Estándar de datos abiertos: unificar la definición y la forma de descripción de los datos en la cadena, estandarizando eventos complejos como "comportamiento de participación de usuarios" en datos estructurados que incluyen campos como staker_address, protocol_id, amount, timestamp, reward_token, entre otros. Esta estandarización reduce los costos de fricción en el desarrollo de IA, permitiendo a los desarrolladores acceder directamente a datos estructurados como "registros de participación de usuarios" y "registros de provisión de liquidez", acortando significativamente el ciclo de entrenamiento del modelo.
Mecanismo de validación de datos: se asegura la veracidad de los datos a través de la red de nodos validadores de Ethereum. Cuando el sistema procesa un evento en la cadena, los nodos validadores verifican de manera cruzada los valores hash de los datos, la información de firma y el estado en la cadena, asegurando que los datos estructurados de salida coincidan exactamente con los datos originales en la cadena. Este mecanismo de validación de "garantía de economía criptográfica" resuelve el problema de confianza de la validación centralizada de datos tradicional.
Capa de disponibilidad de datos de alto rendimiento: a través de la optimización de algoritmos de compresión de datos y protocolos de transmisión, se logra el procesamiento en tiempo real de cientos de miles de eventos en cadena por segundo. Este diseño permite que el sistema soporte la demanda de datos en tiempo real de aplicaciones de IA a gran escala, como proporcionar servicios de datos en línea en cadena a múltiples agentes de transacción simultáneamente.
Era DataFi: Cuando los datos se convierten en "capital" negociable
El objetivo final de esta infraestructura de datos en la cadena es impulsar la industria de la IA hacia la era de DataFi - los datos ya no son un "material de entrenamiento" pasivo, sino un "capital" activo, que puede ser valorado, negociado y apreciado. Así como la electricidad se valora en kilovatios, la potencia computacional se valora en FLOPS, los datos también deben ser calificados, clasificados y valorados. La realización de esta visión depende de transformar los datos en cuatro atributos fundamentales:
Estructurado: de "señal original" a "activo utilizable", transformar los datos en cadena en una forma estructurada que el modelo de IA pueda utilizar directamente.
Combinable: Los datos se pueden combinar libremente como bloques de Lego, los desarrolladores pueden combinar datos de diferentes fuentes para entrenar modelos de IA complejos.
Verificable: Generar una "huella digital de datos" única para cada conjunto de datos mediante la tecnología blockchain, asegurando la autenticidad y trazabilidad de los datos.
Monetizable: Los proveedores de datos pueden monetizar datos estructurados directamente, como empaquetar los resultados del análisis en servicios API y cobrar por número de llamadas, o autorizar el intercambio de datos en la cadena anónimos para obtener recompensas.
Conclusión: Revolución de datos, la próxima década de la IA
Cuando hablamos del futuro de la IA, a menudo nos centramos en el "nivel de inteligencia" del modelo, pero pasamos por alto el "suelo de datos" que sustenta esa inteligencia. La infraestructura de datos en cadena revela una verdad fundamental: la evolución de la IA es, en esencia, la evolución de la infraestructura de datos. Desde la "limitación" de los datos generados por los humanos hasta el "descubrimiento de valor" de los datos en cadena, desde el "desorden" de las señales fragmentadas hasta la "orden" de los datos estructurados, desde los "recursos gratuitos" de los datos hasta los "activos de capital" de DataFi, esta infraestructura está reconfigurando la lógica subyacente de la industria de la IA.
En esta era de DataFi, los datos se convertirán en el puente que conecta la IA con el mundo real: los agentes de trading perciben el sentimiento del mercado a través de datos en cadena, las dApps autónomas optimizan los servicios mediante datos de comportamiento del usuario, y los usuarios comunes obtienen ingresos continuos al compartir datos. Así como la red eléctrica dio origen a la revolución industrial, la Potencia computacional dio origen a la revolución de Internet, la red de datos en cadena está dando origen a la "revolución de datos" de la IA.
Las aplicaciones nativas de IA de próxima generación no solo requieren modelos o billeteras, sino también datos programables, sin necesidad de confianza y de alta señal. Cuando los datos finalmente se les otorgue el valor que merecen, la IA podrá liberar verdaderamente el poder de cambiar el mundo.