Büyük modelin uzun metin yeteneği 400.000 token ile yükselişe geçti, bu sadece bir başlangıç olabilir.

robot
Abstract generation in progress

Uzun metin yetenekleri büyük modelin yeni "standartı" haline geliyor, 400.000 token belki de sadece başlangıç.

Büyük modeller, 4000 token'dan 400.000 token'a kadar uzun metin işleme yeteneklerini şaşırtıcı bir hızla artırıyor ve bu yetenek, büyük model şirketlerinin teknolojik gücünü ölçmenin yeni bir standardı haline gelmiş gibi görünüyor.

Uluslararası alanda, OpenAI birçok güncellemeyle GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a yükseltti, GPT-4 ise 8 bin token'dan 32 bin token'a çıkarıldı. Anthropic, bağlam uzunluğunu bir anda 100 bin token'a kadar genişletti. LongLLaMA bu sayıyı 256 bin token'ın üzerine çıkardı.

Yerli alanda, yeni kurulan şirket Moon's Dark Side tarafından geliştirilmiş Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çin Üniversitesi ve MIT'nin iş birliğiyle geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.

Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlığı gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi teknik bir yükselişin ana yönü olarak belirliyor.

Bu şirketler, sermaye piyasalarının gözde oyuncularıdır. OpenAI, yaklaşık 12 milyar dolar yatırım aldı, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, sadece altı ayda kurulan Ay'ın Karanlığı ise toplamda yaklaşık 2 milyar yuanlık iki finansman turunu tamamladı.

Uzun metin teknolojisindeki atılım, modellerin okuduğunu anlama yeteneğinin önemli ölçüde arttığı anlamına geliyor. İlk başta bir WeChat makalesini bitirmek zor iken, şimdi bir romanı kolayca okuyabiliyor ve hatta karmaşık uzman belgelerini işleyebiliyorlar. Bu teknoloji, büyük modellerin finans, adalet, araştırma gibi alanlarda uygulanmasını da teşvik ediyor.

Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin bağlam içeriğini etkili bir şekilde kullanmasının, sadece uzunluğu artırmaktan daha önemli olduğunu göstermektedir. Yine de, mevcut araştırmalar "kritik nokta" ya henüz ulaşmış gibi görünmüyor; 400.000 token sadece bir başlangıç olabilir.

Uzun metin teknolojisi, yalnızca büyük modellerin erken dönemlerde karşılaştığı bazı sorunları çözmekle kalmayıp, aynı zamanda işlevselliğini artırmış ve endüstriyel uygulamaları destekleyen anahtar teknolojilerden biri haline gelmiştir. Bu, büyük modellerin LLM'den Long LLM'ye geçiş yaptığı yeni bir aşamaya girdiğini işaret ediyor.

Uzun metin teknolojisinin uygulamaları birçok alanda kendini göstermektedir: uzun makalelerin hızlı analizi, finansal raporların anahtar bilgilerini çıkarma, metinden koda doğrudan dönüşüm, karmaşık rol yapma diyalogları gibi. Bu işlevler, büyük modellerin profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir.

Ancak, uzun metin teknolojisi "imkânsız üçgen" zorluğuyla da karşı karşıya: metin uzunluğu, dikkat ve hesaplama gücü arasındaki denge. Metin ne kadar uzun olursa, temel bilgilere odaklanmak o kadar zorlaşır; dikkat sınırlı olduğunda, kısa metinler karmaşık bilgileri tam olarak iletmeyi zorlaştırır; uzun metinleri işlemek ise büyük miktarda hesaplama gücü gerektirir, bu da maliyetleri artırır.

Şu anda üç ana çözüm bulunmaktadır: Harici araçlar kullanarak yardımcı işleme, kendi kendine dikkat mekanizmasının hesaplamasını optimize etme ve model optimizasyon yöntemlerini kullanma. Bu yöntemlerin her birinin avantajları ve dezavantajları vardır ve metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmayı amaçlamaktadır.

Uzun metin teknolojisinin hala birçok zorlukla karşılaştığına rağmen, şüphesiz büyük modellerin gelişiminde önemli bir yönlerden biridir. Teknolojinin sürekli ilerlemesiyle birlikte, daha güçlü ve daha akıllı uzun metin işleme yeteneklerinin ortaya çıkmasını beklemek için nedenlerimiz var.

TOKEN-4.03%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 8
  • Share
Comment
0/400
NervousFingersvip
· 07-24 16:10
70 bin mi? O ne ki, ben 100 bin ile başlıyorum.
View OriginalReply0
NftDataDetectivevip
· 07-24 09:33
hmm 400k token... gpu üreticilerinin bunu seveceği gibi geliyor
View OriginalReply0
WalletDivorcervip
· 07-23 19:12
Bu mu? AI seviyesi, bir token bile güvenmiyorum.
View OriginalReply0
StablecoinGuardianvip
· 07-22 00:53
İçerik bu kadar hızlı mı? Uzunluk 20 kat daha fazla kazandırıyor
View OriginalReply0
PhantomMinervip
· 07-22 00:51
Teknoloji çöktü, Bilgi İşlem Gücü oyuncuları coştu.
View OriginalReply0
StableBoivip
· 07-22 00:50
Bilgi İşlem Gücü çok hızlı bir şekilde bir milyonu geçer değil mi?
View OriginalReply0
NeverVoteOnDAOvip
· 07-22 00:40
Veriler her zaman yükseliş gösterebilir, ancak bilgi işlem gücü yeterli değil.
View OriginalReply0
CommunityWorkervip
· 07-22 00:33
40w da bu mu? Siber evrenle kıyaslandığında hala çok geride.
View OriginalReply0
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)