A capacidade de texto longo dos grandes modelos disparou, 400 mil tokens podem ser apenas o começo.

robot
Geração do resumo em andamento

A capacidade de texto longo torna-se o novo "padrão" dos grandes modelos, 400 mil tokens podem ser apenas o começo

Os grandes modelos estão a aumentar a sua capacidade de processamento de textos longos a uma velocidade surpreendente, de 4000 tokens para 400000 tokens, esta capacidade parece ter-se tornado um novo padrão para medir a força tecnológica das empresas de grandes modelos.

Internacionalmente, a OpenAI aumentou o comprimento do input de contexto do GPT-3.5 de 4 mil para 16 mil tokens em várias atualizações, enquanto o GPT-4 foi aumentado de 8 mil para 32 mil tokens. A Anthropic foi ainda mais longe, expandindo o comprimento do contexto para 100 mil tokens. A LongLLaMA levou esse número a mais de 256 mil tokens.

No país, a Kimi Chat, lançada pela startup 月之暗面, suporta a entrada de 200.000 caracteres chineses, correspondendo a cerca de 400.000 tokens. A tecnologia LongLoRA, desenvolvida em colaboração entre a Universidade Chinesa de Hong Kong e o MIT, pode expandir o comprimento do texto do modelo de 7B para 100.000 tokens, enquanto o modelo de 70B alcança 32.000 tokens.

Atualmente, muitas das principais empresas e instituições de pesquisa em modelos grandes, incluindo OpenAI, Anthropic, Meta e a Face Oculta da Lua, estão a focar na expansão do comprimento do contexto como uma direção chave para a atualização tecnológica.

Estas empresas são, sem exceção, as queridinhas do mercado de capitais. A OpenAI recebeu quase 12 mil milhões de dólares em investimentos, a Anthropic pode atingir uma avaliação de 30 mil milhões de dólares, enquanto a Dark Side of the Moon, que foi fundada há apenas seis meses, já completou duas rodadas de financiamento totalizando quase 2 mil milhões de yuan.

O avanço da tecnologia de processamento de textos longos significa uma grande melhoria na capacidade de compreensão de leitura dos modelos. Desde a dificuldade inicial em ler um artigo de um公众号 até agora, onde é possível ler facilmente um romance extenso, até mesmo lidar com literatura técnica complexa. Esta tecnologia também está impulsionando a aplicação de grandes modelos em áreas como finanças, justiça e pesquisa.

No entanto, o comprimento do texto não é necessariamente melhor quanto mais longo. Estudos mostram que a utilização eficaz do conteúdo contextual pelo modelo é mais crucial do que simplesmente aumentar o comprimento. Apesar disso, as explorações atuais parecem ainda estar longe de atingir o "ponto crítico", 400 mil tokens podem ser apenas o começo.

A tecnologia de texto longo não apenas resolveu alguns dos problemas enfrentados pelos grandes modelos no início, mas também fortaleceu suas funcionalidades, tornando-se uma das tecnologias-chave para impulsionar a aplicação industrial. Isso marca a entrada dos grandes modelos em uma nova fase, de LLM para Long LLM.

A aplicação de tecnologias de texto longo já se manifesta em várias áreas: análise rápida de longos artigos, extração de informações chave de relatórios financeiros, conversão direta de texto para código, diálogos complexos de interpretação de papéis, entre outros. Essas funcionalidades mostram que os grandes modelos estão se dirigindo para uma evolução em especialização, personalização e profundidade.

No entanto, a tecnologia de texto longo também enfrenta o dilema do "triângulo impossível": a ponderação entre o comprimento do texto, a atenção e a capacidade de computação. Quanto mais longo o texto, mais difícil é focar nas informações-chave; quando a atenção é limitada, textos curtos têm dificuldade em transmitir informações complexas de forma completa; o processamento de textos longos também requer uma grande quantidade de capacidade de computação, o que aumenta os custos.

Atualmente, existem três principais soluções: usar ferramentas externas para auxiliar no processamento, otimizar o cálculo do mecanismo de autoatenção e utilizar métodos de otimização de modelos. Cada um desses métodos tem suas vantagens e desvantagens, visando encontrar o melhor ponto de equilíbrio entre o comprimento do texto, a atenção e o poder computacional.

Apesar de a tecnologia de processamento de textos longos enfrentar muitos desafios, sem dúvida é uma das direções importantes para o desenvolvimento de grandes modelos. Com os constantes avanços tecnológicos, temos razões para esperar o surgimento de capacidades de processamento de textos longos mais poderosas e inteligentes.

TOKEN7.33%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 8
  • Compartilhar
Comentário
0/400
NervousFingersvip
· 07-24 16:10
70 mil? Isso não é nada, eu começo com 100 mil.
Ver originalResponder0
NftDataDetectivevip
· 07-24 09:33
hmm 400k tokens... parece que os fabricantes de gpu vão adorar isso
Ver originalResponder0
WalletDivorcervip
· 07-23 19:12
Só isso? Nível de IA, eu não confio em um token.
Ver originalResponder0
StablecoinGuardianvip
· 07-22 00:53
A competição é tão rápida? A duração ganha 20 vezes mais.
Ver originalResponder0
PhantomMinervip
· 07-22 00:51
A tecnologia morreu, os jogadores de poder de computação estão em êxtase.
Ver originalResponder0
StableBoivip
· 07-22 00:50
O poder de computação rapidamente chegou a mais de um milhão, não é?
Ver originalResponder0
NeverVoteOnDAOvip
· 07-22 00:40
Os dados podem subir, mas o poder de computação não é suficiente.
Ver originalResponder0
CommunityWorkervip
· 07-22 00:33
40w é só isso? Está muito longe de se comparar ao universo cibernético.
Ver originalResponder0
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)