La capacidad de texto largo se convierte en un nuevo "estándar" para los grandes modelos, 400,000 tokens pueden ser solo el comienzo
Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad asombrosa, de 4000 tokens a 400,000 tokens, y esta capacidad parece haberse convertido en un nuevo estándar para medir la fortaleza técnica de las empresas de grandes modelos.
A nivel internacional, OpenAI ha aumentado la longitud de entrada de contexto de GPT-3.5 de 4000 a 16000 tokens a través de múltiples actualizaciones, mientras que GPT-4 ha pasado de 8000 a 32000 tokens. Anthropic ha ampliado la longitud de contexto a 100000 tokens de una sola vez. LongLLaMA incluso ha llevado este número a más de 256000 tokens.
En el ámbito nacional, Kimi Chat, lanzado por la startup La Cara Oscura de la Luna, admite la entrada de 200,000 caracteres chinos, que equivalen a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada en colaboración entre la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens, mientras que el modelo de 70B alcanza 32,000 tokens.
Actualmente, numerosas empresas de modelos grandes y organizaciones de investigación de primer nivel, incluida OpenAI, Anthropic, Meta y Moonlight, están enfocándose en la expansión de la longitud del contexto como una dirección clave para la actualización tecnológica.
Estas empresas son, sin excepción, las favoritas del mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, mientras que la empresa Lado Oscuro de la Luna, que se fundó hace apenas seis meses, ha completado dos rondas de financiación por un total de casi 2 mil millones de yuanes.
La ruptura de la tecnología de texto largo significa que la capacidad de comprensión lectora del modelo ha mejorado significativamente. Desde ser difícil leer un artículo de una cuenta pública hasta poder leer fácilmente una novela larga e incluso manejar literatura profesional compleja. Esta tecnología también está impulsando la implementación de modelos grandes en campos como las finanzas, la justicia y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que la utilización efectiva del contenido del contexto por parte del modelo es más crucial que simplemente aumentar la longitud. A pesar de esto, las exploraciones actuales parecen estar lejos de alcanzar el "punto crítico"; 400,000 tokens pueden ser solo un comienzo.
La tecnología de texto largo no solo ha resuelto algunos problemas que enfrentaban los grandes modelos en sus primeras etapas, sino que también ha mejorado sus funcionalidades, convirtiéndose en una de las tecnologías clave para impulsar las aplicaciones industriales. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
La aplicación de la tecnología de texto largo se ha manifestado en múltiples aspectos: análisis rápido de largos artículos, extracción de información clave de informes financieros, conversión directa de texto a código, diálogos complejos de roles, etc. Estas funciones muestran que los grandes modelos están evolucionando hacia una dirección de especialización, personalización y profundización.
Sin embargo, la tecnología de texto largo también enfrenta la dificultad del "triángulo imposible": el equilibrio entre la longitud del texto, la atención y la capacidad de cálculo. Cuanto más largo es el texto, más difícil es enfocarse en la información clave; cuando la atención es limitada, los textos cortos son difíciles de transmitir información compleja de manera completa; procesar textos largos también requiere una gran cantidad de capacidad de cálculo, lo que aumenta los costos.
Actualmente hay tres soluciones principales: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de autoatención y utilizar métodos de optimización de modelos. Cada uno de estos métodos tiene sus ventajas y desventajas, y su objetivo es encontrar el mejor equilibrio entre la longitud del texto, la atención y la capacidad de cálculo.
A pesar de que la tecnología de texto largo todavía enfrenta muchos desafíos, sin duda es una de las direcciones importantes en el desarrollo de modelos grandes. Con el continuo avance de la tecnología, tenemos razones para esperar la aparición de capacidades de procesamiento de texto largo más poderosas e inteligentes.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
10 me gusta
Recompensa
10
8
Compartir
Comentar
0/400
NervousFingers
· 07-24 16:10
¿70 mil? ¿Qué es eso? Yo empiezo desde 100 mil.
Ver originalesResponder0
NftDataDetective
· 07-24 09:33
hmm 400k tokens... parece que a los fabricantes de gpu les va a encantar esto
Ver originalesResponder0
WalletDivorcer
· 07-23 19:12
¿Eso es todo? Nivel de IA, no confío en un solo token.
Ver originalesResponder0
StablecoinGuardian
· 07-22 00:53
¿La competencia es tan rápida? Longitud gana 20 veces más.
Ver originalesResponder0
PhantomMiner
· 07-22 00:51
La tecnología ha muerto, los jugadores de potencia computacional están eufóricos.
Ver originalesResponder0
StableBoi
· 07-22 00:50
La potencia computacional se disparará rápidamente a más de un millón, ¿verdad?
Ver originalesResponder0
NeverVoteOnDAO
· 07-22 00:40
Los datos pueden subir, pero la potencia computacional no es suficiente.
Ver originalesResponder0
CommunityWorker
· 07-22 00:33
¿40w es todo esto? Está muy lejos en comparación con el ciberespacio.
La capacidad de manejar textos largos de grandes modelos ha aumentado, 400,000 tokens pueden ser solo el comienzo.
La capacidad de texto largo se convierte en un nuevo "estándar" para los grandes modelos, 400,000 tokens pueden ser solo el comienzo
Los grandes modelos están mejorando su capacidad de procesamiento de textos largos a una velocidad asombrosa, de 4000 tokens a 400,000 tokens, y esta capacidad parece haberse convertido en un nuevo estándar para medir la fortaleza técnica de las empresas de grandes modelos.
A nivel internacional, OpenAI ha aumentado la longitud de entrada de contexto de GPT-3.5 de 4000 a 16000 tokens a través de múltiples actualizaciones, mientras que GPT-4 ha pasado de 8000 a 32000 tokens. Anthropic ha ampliado la longitud de contexto a 100000 tokens de una sola vez. LongLLaMA incluso ha llevado este número a más de 256000 tokens.
En el ámbito nacional, Kimi Chat, lanzado por la startup La Cara Oscura de la Luna, admite la entrada de 200,000 caracteres chinos, que equivalen a aproximadamente 400,000 tokens. La tecnología LongLoRA, desarrollada en colaboración entre la Universidad China de Hong Kong y el MIT, puede extender la longitud del texto del modelo de 7B a 100,000 tokens, mientras que el modelo de 70B alcanza 32,000 tokens.
Actualmente, numerosas empresas de modelos grandes y organizaciones de investigación de primer nivel, incluida OpenAI, Anthropic, Meta y Moonlight, están enfocándose en la expansión de la longitud del contexto como una dirección clave para la actualización tecnológica.
Estas empresas son, sin excepción, las favoritas del mercado de capitales. OpenAI ha recibido cerca de 12 mil millones de dólares en inversiones, se espera que la valoración de Anthropic alcance los 30 mil millones de dólares, mientras que la empresa Lado Oscuro de la Luna, que se fundó hace apenas seis meses, ha completado dos rondas de financiación por un total de casi 2 mil millones de yuanes.
La ruptura de la tecnología de texto largo significa que la capacidad de comprensión lectora del modelo ha mejorado significativamente. Desde ser difícil leer un artículo de una cuenta pública hasta poder leer fácilmente una novela larga e incluso manejar literatura profesional compleja. Esta tecnología también está impulsando la implementación de modelos grandes en campos como las finanzas, la justicia y la investigación científica.
Sin embargo, la longitud del texto no siempre es mejor. Los estudios muestran que la utilización efectiva del contenido del contexto por parte del modelo es más crucial que simplemente aumentar la longitud. A pesar de esto, las exploraciones actuales parecen estar lejos de alcanzar el "punto crítico"; 400,000 tokens pueden ser solo un comienzo.
La tecnología de texto largo no solo ha resuelto algunos problemas que enfrentaban los grandes modelos en sus primeras etapas, sino que también ha mejorado sus funcionalidades, convirtiéndose en una de las tecnologías clave para impulsar las aplicaciones industriales. Esto marca la entrada de los grandes modelos en una nueva etapa, de LLM a Long LLM.
La aplicación de la tecnología de texto largo se ha manifestado en múltiples aspectos: análisis rápido de largos artículos, extracción de información clave de informes financieros, conversión directa de texto a código, diálogos complejos de roles, etc. Estas funciones muestran que los grandes modelos están evolucionando hacia una dirección de especialización, personalización y profundización.
Sin embargo, la tecnología de texto largo también enfrenta la dificultad del "triángulo imposible": el equilibrio entre la longitud del texto, la atención y la capacidad de cálculo. Cuanto más largo es el texto, más difícil es enfocarse en la información clave; cuando la atención es limitada, los textos cortos son difíciles de transmitir información compleja de manera completa; procesar textos largos también requiere una gran cantidad de capacidad de cálculo, lo que aumenta los costos.
Actualmente hay tres soluciones principales: utilizar herramientas externas para ayudar en el procesamiento, optimizar el cálculo del mecanismo de autoatención y utilizar métodos de optimización de modelos. Cada uno de estos métodos tiene sus ventajas y desventajas, y su objetivo es encontrar el mejor equilibrio entre la longitud del texto, la atención y la capacidad de cálculo.
A pesar de que la tecnología de texto largo todavía enfrenta muchos desafíos, sin duda es una de las direcciones importantes en el desarrollo de modelos grandes. Con el continuo avance de la tecnología, tenemos razones para esperar la aparición de capacidades de procesamiento de texto largo más poderosas e inteligentes.