# 長文能力が大モデルの新しい"標準"となり、40万トークンは始まりに過ぎない大規模モデルは驚異的なスピードで長文処理能力を向上させており、4000トークンから40万トークンへと進化しています。この能力は、大規模モデル企業の技術力を測る新たな基準となっているようです。国際的に、OpenAIは何度もアップグレードを行い、GPT-3.5のコンテキスト入力の長さを4000から16000トークンに引き上げ、GPT-4は8000から32000トークンに増加させました。Anthropicはさらに、一気にコンテキストの長さを100000トークンに拡張しました。LongLLaMAはこの数字を256000トークン以上に押し上げました。国内では、スタートアップの月之暗面が提供するKimi Chatが20万の漢字の入力をサポートし、約40万トークンに相当します。香港中文大学とMITが共同開発したLongLoRA技術により、7Bモデルのテキスト長を10万トークンに拡張でき、70Bモデルは3.2万トークンに達します。現在、OpenAI、Anthropic、Meta、月の暗い面を含む多くのトップ大規模モデル企業や研究機関は、コンテキストの長さを技術のアップグレードの重点方向として拡張することに注力しています。これらの企業は例外なく資本市場の寵児です。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みであり、設立から半年しか経っていない月の暗面は、すでに2回のラウンドで合計約20億元の資金調達を完了しました。長文技術の突破は、モデルの読解能力が大幅に向上したことを意味します。最初は一つの公衆アカウントの記事を読み終えるのが難しかったのが、今では長編小説を簡単に読み、さらには複雑な専門文献を処理することもできるようになりました。この技術は、金融、司法、研究などの分野での大規模モデルの応用を推進しています。しかし、テキストの長さは長ければ良いというものではありません。研究によると、モデルが文脈の内容を効果的に利用することが、単に長さを増やすことよりも重要です。それにもかかわらず、現在の探求は「臨界点」にまだ届いていないようで、40万トークンは単なる始まりに過ぎないかもしれません。長文技術は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、その機能を強化し、産業応用を推進する重要な技術の一つとなりました。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。長文技術の応用は、長い記事の迅速な分析、財務報告の重要情報の抽出、テキストからコードへの直接変換、複雑なロールプレイング対話など、さまざまな側面に現れています。これらの機能は、大規模モデルが専門化、個性化、深度化の方向に向かって進化していることを示しています。しかし、長文技術は「不可能な三角形」というジレンマにも直面しています:テキストの長さ、注意力、計算能力の間のトレードオフです。テキストが長くなるほど、重要な情報に集中することが難しくなります。注意力が限られている場合、短いテキストでは複雑な情報を完全に伝えることが難しくなります。長文を処理するには多くの計算能力が必要であり、コストが上がります。現在、主に3つの解決策があります:外部ツールを使用して補助処理を行う、自己注意機構の計算を最適化する、モデル最適化手法を利用する。これらの方法にはそれぞれ利点と欠点があり、テキストの長さ、注意力、計算能力の間の最適なバランスを見つけることを目的としています。長文技術は多くの課題に直面していますが、それでも確実に大規模モデルの発展において重要な方向性の一つです。技術の進歩に伴い、より強力でよりインテリジェントな長文処理能力の出現を期待する理由があります。
大規模モデルの長文能力が急上昇、40万トークンは単なる出発点かもしれない
長文能力が大モデルの新しい"標準"となり、40万トークンは始まりに過ぎない
大規模モデルは驚異的なスピードで長文処理能力を向上させており、4000トークンから40万トークンへと進化しています。この能力は、大規模モデル企業の技術力を測る新たな基準となっているようです。
国際的に、OpenAIは何度もアップグレードを行い、GPT-3.5のコンテキスト入力の長さを4000から16000トークンに引き上げ、GPT-4は8000から32000トークンに増加させました。Anthropicはさらに、一気にコンテキストの長さを100000トークンに拡張しました。LongLLaMAはこの数字を256000トークン以上に押し上げました。
国内では、スタートアップの月之暗面が提供するKimi Chatが20万の漢字の入力をサポートし、約40万トークンに相当します。香港中文大学とMITが共同開発したLongLoRA技術により、7Bモデルのテキスト長を10万トークンに拡張でき、70Bモデルは3.2万トークンに達します。
現在、OpenAI、Anthropic、Meta、月の暗い面を含む多くのトップ大規模モデル企業や研究機関は、コンテキストの長さを技術のアップグレードの重点方向として拡張することに注力しています。
これらの企業は例外なく資本市場の寵児です。OpenAIは約120億ドルの投資を受け、Anthropicの評価額は300億ドルに達する見込みであり、設立から半年しか経っていない月の暗面は、すでに2回のラウンドで合計約20億元の資金調達を完了しました。
長文技術の突破は、モデルの読解能力が大幅に向上したことを意味します。最初は一つの公衆アカウントの記事を読み終えるのが難しかったのが、今では長編小説を簡単に読み、さらには複雑な専門文献を処理することもできるようになりました。この技術は、金融、司法、研究などの分野での大規模モデルの応用を推進しています。
しかし、テキストの長さは長ければ良いというものではありません。研究によると、モデルが文脈の内容を効果的に利用することが、単に長さを増やすことよりも重要です。それにもかかわらず、現在の探求は「臨界点」にまだ届いていないようで、40万トークンは単なる始まりに過ぎないかもしれません。
長文技術は、大規模モデルが初期に直面していたいくつかの問題を解決するだけでなく、その機能を強化し、産業応用を推進する重要な技術の一つとなりました。これは、大規模モデルがLLMからLong LLMへの新しい段階に入ったことを示しています。
長文技術の応用は、長い記事の迅速な分析、財務報告の重要情報の抽出、テキストからコードへの直接変換、複雑なロールプレイング対話など、さまざまな側面に現れています。これらの機能は、大規模モデルが専門化、個性化、深度化の方向に向かって進化していることを示しています。
しかし、長文技術は「不可能な三角形」というジレンマにも直面しています:テキストの長さ、注意力、計算能力の間のトレードオフです。テキストが長くなるほど、重要な情報に集中することが難しくなります。注意力が限られている場合、短いテキストでは複雑な情報を完全に伝えることが難しくなります。長文を処理するには多くの計算能力が必要であり、コストが上がります。
現在、主に3つの解決策があります:外部ツールを使用して補助処理を行う、自己注意機構の計算を最適化する、モデル最適化手法を利用する。これらの方法にはそれぞれ利点と欠点があり、テキストの長さ、注意力、計算能力の間の最適なバランスを見つけることを目的としています。
長文技術は多くの課題に直面していますが、それでも確実に大規模モデルの発展において重要な方向性の一つです。技術の進歩に伴い、より強力でよりインテリジェントな長文処理能力の出現を期待する理由があります。