قدرة النص الطويل تصبح "المعيار" الجديد للنماذج الكبيرة، 400000 توكن قد تكون مجرد البداية
تزداد قدرة النماذج الكبيرة على معالجة النصوص الطويلة بسرعة مذهلة، من 4000 توكن إلى 400000 توكن، ويبدو أن هذه القدرة أصبحت معيارًا جديدًا لقياس القوة التقنية لشركات النماذج الكبيرة.
على المستوى الدولي، قامت OpenAI من خلال عدة ترقيات بزيادة طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، بينما تم زيادة GPT-4 من 8000 إلى 32000 توكن. أما Anthropic فقد قامت بتمديد طول السياق إلى 100000 توكن دفعة واحدة. بينما قامت LongLLaMA بدفع هذا الرقم إلى أكثر من 256000 توكن.
على الصعيد المحلي، تدعم Kimi Chat التي أطلقتها شركة Moon's Dark Side إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. تقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة الصين في هونغ كونغ ومعهد ماساتشوستس للتكنولوجيا يمكنها توسيع طول النص لنموذج 7B إلى 100,000 توكن، بينما تصل نموذج 70B إلى 32,000 توكن.
في الوقت الحالي، تركز العديد من شركات ونماذج الذكاء الاصطناعي الرائدة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على توسيع طول السياق كأحد الاتجاهات الأساسية لتحديث التكنولوجيا.
هذه الشركات بلا استثناء هي المفضلة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت شركة "الجانب المظلم من القمر"، التي تأسست منذ نصف عام فقط، جولات تمويلية تبلغ حوالي 2 مليار يوان.
إن突破 تقنية النصوص الطويلة يعني أن قدرة النموذج على فهم القراءة قد تحسنت بشكل كبير. من البداية، كان من الصعب قراءة مقال على تطبيق رسمي، والآن يمكن قراءة رواية طويلة بسهولة، بل وحتى معالجة الأدبيات المتخصصة المعقدة. هذه التقنية تدفع أيضًا نحو تطبيق النماذج الكبيرة في مجالات المالية، والعدالة، والبحث العلمي.
ومع ذلك، فإن طول النص ليس بالضرورة كلما كان أطول كان أفضل. تظهر الأبحاث أن الاستفادة الفعالة من محتوى السياق أكثر أهمية من مجرد زيادة الطول. على الرغم من ذلك، يبدو أن الاستكشافات الحالية لا تزال بعيدة عن الوصول إلى "نقطة حرجة"، حيث قد تكون 400,000 توكن مجرد بداية.
تكنولوجيا النصوص الطويلة لا تحل فقط بعض المشاكل التي واجهتها النماذج الكبيرة في مراحلها المبكرة، بل تعزز أيضًا من قدراتها، مما يجعلها واحدة من التقنيات الرئيسية التي تدفع تطبيقات الصناعة. وهذا يمثل دخول النماذج الكبيرة في مرحلة جديدة من LLM إلى Long LLM.
تظهر تطبيقات تقنية النصوص الطويلة في عدة جوانب: تحليل المقالات الطويلة بسرعة، استخراج المعلومات الرئيسية من التقارير المالية، تحقيق التحويل المباشر من النص إلى الكود، والحوار المعقد في أدوار متعددة. هذه الوظائف تظهر أن النماذج الكبيرة تتجه نحو التخصص والتخصيص والعمق.
ومع ذلك، تواجه تقنيات النصوص الطويلة أيضاً معضلة "مثلث المستحيل": التوازن بين طول النص، والانتباه، والقدرة الحاسوبية. كلما كان النص أطول، أصبح من الصعب التركيز على المعلومات الأساسية؛ عندما يكون الانتباه محدوداً، يصبح من الصعب نقل المعلومات المعقدة بشكل كامل في نصوص قصيرة؛ ومعالجة النصوص الطويلة تتطلب أيضاً طاقة حاسوبية كبيرة، مما يزيد من التكاليف.
حالياً، هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، واستخدام طرق تحسين النموذج. تتمتع هذه الطرق بمزايا وعيوب، وتهدف إلى إيجاد أفضل توازن بين طول النص والانتباه والقدرة الحاسوبية.
على الرغم من أن تكنولوجيا النصوص الطويلة لا تزال تواجه العديد من التحديات، إلا أنها بلا شك واحدة من الاتجاهات الهامة في تطوير النماذج الكبيرة. مع التقدم المستمر في التكنولوجيا، لدينا أسباب لتوقع ظهور قدرات معالجة نصوص طويلة أكثر قوة وذكاء.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 10
أعجبني
10
8
مشاركة
تعليق
0/400
NervousFingers
· 07-24 16:10
70 ألف؟ ماذا يعني ذلك، أنا أبدأ من 100 ألف.
شاهد النسخة الأصليةرد0
NftDataDetective
· 07-24 09:33
همم 400k توكن... يبدو أن صانعي وحدات معالجة الرسوميات سيحبون هذا
شاهد النسخة الأصليةرد0
WalletDivorcer
· 07-23 19:12
هل هذا كل شيء؟ مستوى الذكاء الاصطناعي، لا أصدق حتى توكن واحد.
شاهد النسخة الأصليةرد0
StablecoinGuardian
· 07-22 00:53
هل الانكماش سريع جدا؟ الطول يكسب 20 ضعفاً
شاهد النسخة الأصليةرد0
PhantomMiner
· 07-22 00:51
تكنولوجيا الموت، قوة الحوسبة اللاعبين في حالة من الفرح
شاهد النسخة الأصليةرد0
StableBoi
· 07-22 00:50
قوة الحوسبة ستصل بسرعة إلى أكثر من مليون.
شاهد النسخة الأصليةرد0
NeverVoteOnDAO
· 07-22 00:40
يمكن أن تنمو البيانات، لكن قوة الحوسبة غير كافية
شاهد النسخة الأصليةرد0
CommunityWorker
· 07-22 00:33
٤٠٠ ألف فقط؟ مقارنة بعالم السايبربانك لا يزال بعيدًا جدًا
قدرة النماذج الكبيرة على معالجة النصوص الطويلة ارتفعت بشكل كبير، و400000 توكن قد تكون فقط نقطة البداية.
قدرة النص الطويل تصبح "المعيار" الجديد للنماذج الكبيرة، 400000 توكن قد تكون مجرد البداية
تزداد قدرة النماذج الكبيرة على معالجة النصوص الطويلة بسرعة مذهلة، من 4000 توكن إلى 400000 توكن، ويبدو أن هذه القدرة أصبحت معيارًا جديدًا لقياس القوة التقنية لشركات النماذج الكبيرة.
على المستوى الدولي، قامت OpenAI من خلال عدة ترقيات بزيادة طول إدخال السياق لـ GPT-3.5 من 4000 إلى 16000 توكن، بينما تم زيادة GPT-4 من 8000 إلى 32000 توكن. أما Anthropic فقد قامت بتمديد طول السياق إلى 100000 توكن دفعة واحدة. بينما قامت LongLLaMA بدفع هذا الرقم إلى أكثر من 256000 توكن.
على الصعيد المحلي، تدعم Kimi Chat التي أطلقتها شركة Moon's Dark Side إدخال 200,000 حرف صيني، ما يعادل حوالي 400,000 توكن. تقنية LongLoRA التي تم تطويرها بالتعاون بين جامعة الصين في هونغ كونغ ومعهد ماساتشوستس للتكنولوجيا يمكنها توسيع طول النص لنموذج 7B إلى 100,000 توكن، بينما تصل نموذج 70B إلى 32,000 توكن.
في الوقت الحالي، تركز العديد من شركات ونماذج الذكاء الاصطناعي الرائدة، بما في ذلك OpenAI وAnthropic وMeta و月之暗面، على توسيع طول السياق كأحد الاتجاهات الأساسية لتحديث التكنولوجيا.
هذه الشركات بلا استثناء هي المفضلة في سوق رأس المال. حصلت OpenAI على استثمار يقارب 12 مليار دولار، ومن المتوقع أن تصل قيمة Anthropic إلى 30 مليار دولار، بينما أكملت شركة "الجانب المظلم من القمر"، التي تأسست منذ نصف عام فقط، جولات تمويلية تبلغ حوالي 2 مليار يوان.
إن突破 تقنية النصوص الطويلة يعني أن قدرة النموذج على فهم القراءة قد تحسنت بشكل كبير. من البداية، كان من الصعب قراءة مقال على تطبيق رسمي، والآن يمكن قراءة رواية طويلة بسهولة، بل وحتى معالجة الأدبيات المتخصصة المعقدة. هذه التقنية تدفع أيضًا نحو تطبيق النماذج الكبيرة في مجالات المالية، والعدالة، والبحث العلمي.
ومع ذلك، فإن طول النص ليس بالضرورة كلما كان أطول كان أفضل. تظهر الأبحاث أن الاستفادة الفعالة من محتوى السياق أكثر أهمية من مجرد زيادة الطول. على الرغم من ذلك، يبدو أن الاستكشافات الحالية لا تزال بعيدة عن الوصول إلى "نقطة حرجة"، حيث قد تكون 400,000 توكن مجرد بداية.
تكنولوجيا النصوص الطويلة لا تحل فقط بعض المشاكل التي واجهتها النماذج الكبيرة في مراحلها المبكرة، بل تعزز أيضًا من قدراتها، مما يجعلها واحدة من التقنيات الرئيسية التي تدفع تطبيقات الصناعة. وهذا يمثل دخول النماذج الكبيرة في مرحلة جديدة من LLM إلى Long LLM.
تظهر تطبيقات تقنية النصوص الطويلة في عدة جوانب: تحليل المقالات الطويلة بسرعة، استخراج المعلومات الرئيسية من التقارير المالية، تحقيق التحويل المباشر من النص إلى الكود، والحوار المعقد في أدوار متعددة. هذه الوظائف تظهر أن النماذج الكبيرة تتجه نحو التخصص والتخصيص والعمق.
ومع ذلك، تواجه تقنيات النصوص الطويلة أيضاً معضلة "مثلث المستحيل": التوازن بين طول النص، والانتباه، والقدرة الحاسوبية. كلما كان النص أطول، أصبح من الصعب التركيز على المعلومات الأساسية؛ عندما يكون الانتباه محدوداً، يصبح من الصعب نقل المعلومات المعقدة بشكل كامل في نصوص قصيرة؛ ومعالجة النصوص الطويلة تتطلب أيضاً طاقة حاسوبية كبيرة، مما يزيد من التكاليف.
حالياً، هناك ثلاث حلول رئيسية: استخدام أدوات خارجية للمساعدة في المعالجة، تحسين حساب آلية الانتباه الذاتي، واستخدام طرق تحسين النموذج. تتمتع هذه الطرق بمزايا وعيوب، وتهدف إلى إيجاد أفضل توازن بين طول النص والانتباه والقدرة الحاسوبية.
على الرغم من أن تكنولوجيا النصوص الطويلة لا تزال تواجه العديد من التحديات، إلا أنها بلا شك واحدة من الاتجاهات الهامة في تطوير النماذج الكبيرة. مع التقدم المستمر في التكنولوجيا، لدينا أسباب لتوقع ظهور قدرات معالجة نصوص طويلة أكثر قوة وذكاء.