大模型長文本能力飆升 40萬token或僅是起點

robot
摘要生成中

長文本能力成爲大模型新"標配",40萬token或只是開始

大模型正以驚人的速度提升其長文本處理能力,從4000 token到40萬token,這一能力似乎已成爲衡量大模型公司技術實力的新標準。

國際上,OpenAI通過多次升級將GPT-3.5的上下文輸入長度從4千提升至1.6萬token,GPT-4則從8千增至3.2萬token。Anthropic更是一舉將上下文長度擴展到10萬token。LongLLaMA甚至將這一數字推至25.6萬token以上。

國內方面,初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT合作開發的LongLoRA技術可將7B模型的文本長度拓展到10萬token,70B模型則達到3.2萬token。

目前,包括OpenAI、Anthropic、Meta和月之暗面在內的衆多頂級大模型公司和研究機構都將拓展上下文長度作爲技術升級的重點方向。

這些公司無一例外都是資本市場的寵兒。OpenAI獲得近120億美元投資,Anthropic估值有望達300億美元,而成立僅半年的月之暗面已完成兩輪共計近20億元融資。

長文本技術的突破意味着模型的閱讀理解能力大幅提升。從最初難以讀完一篇公衆號文章,到現在可以輕鬆閱讀一本長篇小說,甚至處理復雜的專業文獻。這項技術也正推動大模型在金融、司法、科研等領域的應用落地。

然而,文本長度並非越長越好。研究表明,模型對上下文內容的有效利用比單純增加長度更爲關鍵。盡管如此,當前的探索似乎還遠未觸及"臨界點",40萬token可能僅僅是一個開始。

長文本技術不僅解決了大模型早期面臨的一些問題,還增強了其功能,成爲推動產業應用的關鍵技術之一。這標志着大模型進入了從LLM到Long LLM的新階段。

長文本技術的應用已體現在多個方面:快速分析長文章、提取財報關鍵信息、實現文字到代碼的直接轉換、復雜的角色扮演對話等。這些功能顯示出大模型正朝着專業化、個性化和深度化的方向發展。

然而,長文本技術也面臨"不可能三角"困境:文本長度、注意力和算力之間的權衡。文本越長,越難聚焦關鍵信息;注意力有限時,短文本又難以完整傳達復雜信息;處理長文本又需要大量算力,提高了成本。

目前主要有三種解決方案:借助外部工具輔助處理、優化自注意力機制計算、利用模型優化方法。這些方法各有優缺點,旨在找到文本長度、注意力和算力之間的最佳平衡點。

盡管長文本技術仍面臨諸多挑戰,但它無疑是大模型發展的重要方向之一。隨着技術的不斷進步,我們有理由期待更強大、更智能的長文本處理能力的出現。

TOKEN-9.2%
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 8
  • 分享
留言
0/400
NervousFingersvip
· 07-24 16:10
7万?那算啥 爷玩10万起步
回復0
NFT数据侦探vip
· 07-24 09:33
嗯,400千个代币……感觉GPU制造商会喜欢这个
查看原文回復0
WalletDivorcervip
· 07-23 19:12
就这?AI水平 我一个token都不信
回復0
稳定币守护者vip
· 07-22 00:53
内卷这么快?长度多赚20倍
回復0
幻想矿工vip
· 07-22 00:51
技术卷死了 算力玩家狂喜
回復0
StableBoivip
· 07-22 00:50
算力烧起来很快就破百万了吧
回復0
治理投票从不参与vip
· 07-22 00:40
数据都能增长 就是算力不够
回復0
社区打工仔vip
· 07-22 00:33
40w也就这? 跟赛博宇宙比还差远
回復0
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)