Uzun metin yetenekleri büyük modelin yeni "standartı" haline geliyor, 400.000 token belki de sadece başlangıç.
Büyük modeller, 4000 token'dan 400.000 token'a kadar uzun metin işleme yeteneklerini şaşırtıcı bir hızla artırıyor ve bu yetenek, büyük model şirketlerinin teknolojik gücünü ölçmenin yeni bir standardı haline gelmiş gibi görünüyor.
Uluslararası alanda, OpenAI birçok güncellemeyle GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a yükseltti, GPT-4 ise 8 bin token'dan 32 bin token'a çıkarıldı. Anthropic, bağlam uzunluğunu bir anda 100 bin token'a kadar genişletti. LongLLaMA bu sayıyı 256 bin token'ın üzerine çıkardı.
Yerli alanda, yeni kurulan şirket Moon's Dark Side tarafından geliştirilmiş Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çin Üniversitesi ve MIT'nin iş birliğiyle geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.
Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlığı gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi teknik bir yükselişin ana yönü olarak belirliyor.
Bu şirketler, sermaye piyasalarının gözde oyuncularıdır. OpenAI, yaklaşık 12 milyar dolar yatırım aldı, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, sadece altı ayda kurulan Ay'ın Karanlığı ise toplamda yaklaşık 2 milyar yuanlık iki finansman turunu tamamladı.
Uzun metin teknolojisindeki atılım, modellerin okuduğunu anlama yeteneğinin önemli ölçüde arttığı anlamına geliyor. İlk başta bir WeChat makalesini bitirmek zor iken, şimdi bir romanı kolayca okuyabiliyor ve hatta karmaşık uzman belgelerini işleyebiliyorlar. Bu teknoloji, büyük modellerin finans, adalet, araştırma gibi alanlarda uygulanmasını da teşvik ediyor.
Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin bağlam içeriğini etkili bir şekilde kullanmasının, sadece uzunluğu artırmaktan daha önemli olduğunu göstermektedir. Yine de, mevcut araştırmalar "kritik nokta" ya henüz ulaşmış gibi görünmüyor; 400.000 token sadece bir başlangıç olabilir.
Uzun metin teknolojisi, yalnızca büyük modellerin erken dönemlerde karşılaştığı bazı sorunları çözmekle kalmayıp, aynı zamanda işlevselliğini artırmış ve endüstriyel uygulamaları destekleyen anahtar teknolojilerden biri haline gelmiştir. Bu, büyük modellerin LLM'den Long LLM'ye geçiş yaptığı yeni bir aşamaya girdiğini işaret ediyor.
Uzun metin teknolojisinin uygulamaları birçok alanda kendini göstermektedir: uzun makalelerin hızlı analizi, finansal raporların anahtar bilgilerini çıkarma, metinden koda doğrudan dönüşüm, karmaşık rol yapma diyalogları gibi. Bu işlevler, büyük modellerin profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir.
Ancak, uzun metin teknolojisi "imkânsız üçgen" zorluğuyla da karşı karşıya: metin uzunluğu, dikkat ve hesaplama gücü arasındaki denge. Metin ne kadar uzun olursa, temel bilgilere odaklanmak o kadar zorlaşır; dikkat sınırlı olduğunda, kısa metinler karmaşık bilgileri tam olarak iletmeyi zorlaştırır; uzun metinleri işlemek ise büyük miktarda hesaplama gücü gerektirir, bu da maliyetleri artırır.
Şu anda üç ana çözüm bulunmaktadır: Harici araçlar kullanarak yardımcı işleme, kendi kendine dikkat mekanizmasının hesaplamasını optimize etme ve model optimizasyon yöntemlerini kullanma. Bu yöntemlerin her birinin avantajları ve dezavantajları vardır ve metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmayı amaçlamaktadır.
Uzun metin teknolojisinin hala birçok zorlukla karşılaştığına rağmen, şüphesiz büyük modellerin gelişiminde önemli bir yönlerden biridir. Teknolojinin sürekli ilerlemesiyle birlikte, daha güçlü ve daha akıllı uzun metin işleme yeteneklerinin ortaya çıkmasını beklemek için nedenlerimiz var.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 Likes
Reward
10
8
Share
Comment
0/400
NervousFingers
· 07-24 16:10
70 bin mi? O ne ki, ben 100 bin ile başlıyorum.
View OriginalReply0
NftDataDetective
· 07-24 09:33
hmm 400k token... gpu üreticilerinin bunu seveceği gibi geliyor
View OriginalReply0
WalletDivorcer
· 07-23 19:12
Bu mu? AI seviyesi, bir token bile güvenmiyorum.
View OriginalReply0
StablecoinGuardian
· 07-22 00:53
İçerik bu kadar hızlı mı? Uzunluk 20 kat daha fazla kazandırıyor
View OriginalReply0
PhantomMiner
· 07-22 00:51
Teknoloji çöktü, Bilgi İşlem Gücü oyuncuları coştu.
View OriginalReply0
StableBoi
· 07-22 00:50
Bilgi İşlem Gücü çok hızlı bir şekilde bir milyonu geçer değil mi?
View OriginalReply0
NeverVoteOnDAO
· 07-22 00:40
Veriler her zaman yükseliş gösterebilir, ancak bilgi işlem gücü yeterli değil.
View OriginalReply0
CommunityWorker
· 07-22 00:33
40w da bu mu? Siber evrenle kıyaslandığında hala çok geride.
Büyük modelin uzun metin yeteneği 400.000 token ile yükselişe geçti, bu sadece bir başlangıç olabilir.
Uzun metin yetenekleri büyük modelin yeni "standartı" haline geliyor, 400.000 token belki de sadece başlangıç.
Büyük modeller, 4000 token'dan 400.000 token'a kadar uzun metin işleme yeteneklerini şaşırtıcı bir hızla artırıyor ve bu yetenek, büyük model şirketlerinin teknolojik gücünü ölçmenin yeni bir standardı haline gelmiş gibi görünüyor.
Uluslararası alanda, OpenAI birçok güncellemeyle GPT-3.5'in bağlam girdi uzunluğunu 4 bin token'dan 16 bin token'a yükseltti, GPT-4 ise 8 bin token'dan 32 bin token'a çıkarıldı. Anthropic, bağlam uzunluğunu bir anda 100 bin token'a kadar genişletti. LongLLaMA bu sayıyı 256 bin token'ın üzerine çıkardı.
Yerli alanda, yeni kurulan şirket Moon's Dark Side tarafından geliştirilmiş Kimi Chat, 200.000 Çince karakter girişi desteklemektedir, bu da yaklaşık 400.000 token'a denk gelmektedir. Hong Kong Çin Üniversitesi ve MIT'nin iş birliğiyle geliştirilen LongLoRA teknolojisi, 7B modelinin metin uzunluğunu 100.000 token'a, 70B modelini ise 32.000 token'a kadar genişletebilmektedir.
Şu anda, OpenAI, Anthropic, Meta ve Ay'ın Karanlığı gibi birçok üst düzey büyük model şirketi ve araştırma kurumu, bağlam uzunluğunu genişletmeyi teknik bir yükselişin ana yönü olarak belirliyor.
Bu şirketler, sermaye piyasalarının gözde oyuncularıdır. OpenAI, yaklaşık 12 milyar dolar yatırım aldı, Anthropic'in değeri 30 milyar dolara ulaşması bekleniyor, sadece altı ayda kurulan Ay'ın Karanlığı ise toplamda yaklaşık 2 milyar yuanlık iki finansman turunu tamamladı.
Uzun metin teknolojisindeki atılım, modellerin okuduğunu anlama yeteneğinin önemli ölçüde arttığı anlamına geliyor. İlk başta bir WeChat makalesini bitirmek zor iken, şimdi bir romanı kolayca okuyabiliyor ve hatta karmaşık uzman belgelerini işleyebiliyorlar. Bu teknoloji, büyük modellerin finans, adalet, araştırma gibi alanlarda uygulanmasını da teşvik ediyor.
Ancak, metin uzunluğu her zaman daha iyi değildir. Araştırmalar, modelin bağlam içeriğini etkili bir şekilde kullanmasının, sadece uzunluğu artırmaktan daha önemli olduğunu göstermektedir. Yine de, mevcut araştırmalar "kritik nokta" ya henüz ulaşmış gibi görünmüyor; 400.000 token sadece bir başlangıç olabilir.
Uzun metin teknolojisi, yalnızca büyük modellerin erken dönemlerde karşılaştığı bazı sorunları çözmekle kalmayıp, aynı zamanda işlevselliğini artırmış ve endüstriyel uygulamaları destekleyen anahtar teknolojilerden biri haline gelmiştir. Bu, büyük modellerin LLM'den Long LLM'ye geçiş yaptığı yeni bir aşamaya girdiğini işaret ediyor.
Uzun metin teknolojisinin uygulamaları birçok alanda kendini göstermektedir: uzun makalelerin hızlı analizi, finansal raporların anahtar bilgilerini çıkarma, metinden koda doğrudan dönüşüm, karmaşık rol yapma diyalogları gibi. Bu işlevler, büyük modellerin profesyonelleşme, kişiselleşme ve derinleşme yönünde geliştiğini göstermektedir.
Ancak, uzun metin teknolojisi "imkânsız üçgen" zorluğuyla da karşı karşıya: metin uzunluğu, dikkat ve hesaplama gücü arasındaki denge. Metin ne kadar uzun olursa, temel bilgilere odaklanmak o kadar zorlaşır; dikkat sınırlı olduğunda, kısa metinler karmaşık bilgileri tam olarak iletmeyi zorlaştırır; uzun metinleri işlemek ise büyük miktarda hesaplama gücü gerektirir, bu da maliyetleri artırır.
Şu anda üç ana çözüm bulunmaktadır: Harici araçlar kullanarak yardımcı işleme, kendi kendine dikkat mekanizmasının hesaplamasını optimize etme ve model optimizasyon yöntemlerini kullanma. Bu yöntemlerin her birinin avantajları ve dezavantajları vardır ve metin uzunluğu, dikkat ve hesaplama gücü arasında en iyi dengeyi bulmayı amaçlamaktadır.
Uzun metin teknolojisinin hala birçok zorlukla karşılaştığına rağmen, şüphesiz büyük modellerin gelişiminde önemli bir yönlerden biridir. Teknolojinin sürekli ilerlemesiyle birlikte, daha güçlü ve daha akıllı uzun metin işleme yeteneklerinin ortaya çıkmasını beklemek için nedenlerimiz var.