Kemampuan teks panjang menjadi "standar" baru model besar, 400.000 token mungkin baru awal
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengejutkan, dari 4000 token menjadi 400.000 token, kemampuan ini tampaknya telah menjadi standar baru untuk mengukur kekuatan teknik perusahaan model besar.
Secara internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token melalui beberapa pembaruan, sementara GPT-4 meningkat dari 8 ribu menjadi 32 ribu token. Anthropic bahkan berhasil memperluas panjang konteks hingga 100 ribu token. LongLLaMA bahkan mendorong angka ini lebih dari 256 ribu token.
Di dalam negeri, Kimi Chat yang diluncurkan oleh startup bulan gelap mendukung input 200.000 karakter Han, yang setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan oleh CUHK dan MIT dapat memperluas panjang teks model 7B menjadi 100.000 token, sementara model 70B mencapai 32.000 token.
Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai fokus arah peningkatan teknologi.
Perusahaan-perusahaan ini tanpa pengecualian adalah favorit di pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar USD, valuasi Anthropic diperkirakan mencapai 30 miliar USD, sementara bulan gelap yang baru berdiri selama setengah tahun telah menyelesaikan dua putaran pendanaan dengan total hampir 2 miliar RMB.
Terobosan dalam teknologi pemahaman teks panjang berarti kemampuan pemahaman bacaan model meningkat pesat. Dari yang awalnya sulit untuk menyelesaikan sebuah artikel di platform publik, hingga kini dapat dengan mudah membaca sebuah novel panjang, bahkan menangani literatur profesional yang kompleks. Teknologi ini juga mendorong penerapan model besar di bidang keuangan, peradilan, dan penelitian.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model lebih penting daripada sekadar meningkatkan panjang. Meskipun demikian, eksplorasi saat ini tampaknya masih jauh dari "titik kritis", 400.000 token mungkin hanya merupakan awal.
Teknologi teks panjang tidak hanya menyelesaikan beberapa masalah yang dihadapi model besar di awal, tetapi juga meningkatkan fungsinya, menjadi salah satu teknologi kunci yang mendorong aplikasi industri. Ini menandai bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Aplikasi teknologi teks panjang telah tercermin dalam berbagai aspek: analisis cepat artikel panjang, ekstraksi informasi kunci laporan keuangan, realisasi konversi langsung dari teks ke kode, dialog peran yang kompleks, dan sebagainya. Fungsi-fungsi ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman.
Namun, teknologi teks panjang juga menghadapi dilema "trilema yang tidak mungkin": trade-off antara panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; ketika perhatian terbatas, teks pendek sulit untuk menyampaikan informasi kompleks secara lengkap; memproses teks panjang juga memerlukan daya komputasi yang besar, yang meningkatkan biaya.
Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model. Metode-metode ini memiliki kelebihan dan kekurangan masing-masing, bertujuan untuk menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi.
Meskipun teknologi teks panjang masih menghadapi banyak tantangan, itu jelas merupakan salah satu arah penting dalam pengembangan model besar. Dengan kemajuan teknologi yang terus berlanjut, kita memiliki alasan untuk mengharapkan munculnya kemampuan pengolahan teks panjang yang lebih kuat dan lebih cerdas.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
10 Suka
Hadiah
10
8
Bagikan
Komentar
0/400
NervousFingers
· 07-24 16:10
70 ribu? Itu apa sih, saya mulai dari 100 ribu.
Lihat AsliBalas0
NftDataDetective
· 07-24 09:33
hmm 400k token... sepertinya para pembuat gpu akan menyukai ini
Lihat AsliBalas0
WalletDivorcer
· 07-23 19:12
Begitu saja? Tingkat AI, saya tidak percaya satu token pun.
Lihat AsliBalas0
StablecoinGuardian
· 07-22 00:53
Involusi begitu cepat? Panjangnya bisa menghasilkan 20 kali lipat.
Lihat AsliBalas0
PhantomMiner
· 07-22 00:51
Teknologi telah mati, para pemain Daya Komputasi bersuka cita.
Lihat AsliBalas0
StableBoi
· 07-22 00:50
Daya Komputasi terbakar dengan cepat hingga mencapai satu juta, kan?
Lihat AsliBalas0
NeverVoteOnDAO
· 07-22 00:40
Data semua bisa naik, hanya saja Daya Komputasi tidak cukup.
Lihat AsliBalas0
CommunityWorker
· 07-22 00:33
40w juga ini? Jauh dibandingkan dengan Cyber Universe.
Kemampuan teks panjang model besar melonjak, 400.000 token mungkin hanya merupakan titik awal.
Kemampuan teks panjang menjadi "standar" baru model besar, 400.000 token mungkin baru awal
Model besar sedang meningkatkan kemampuan pemrosesan teks panjangnya dengan kecepatan yang mengejutkan, dari 4000 token menjadi 400.000 token, kemampuan ini tampaknya telah menjadi standar baru untuk mengukur kekuatan teknik perusahaan model besar.
Secara internasional, OpenAI telah meningkatkan panjang input konteks GPT-3.5 dari 4 ribu menjadi 16 ribu token melalui beberapa pembaruan, sementara GPT-4 meningkat dari 8 ribu menjadi 32 ribu token. Anthropic bahkan berhasil memperluas panjang konteks hingga 100 ribu token. LongLLaMA bahkan mendorong angka ini lebih dari 256 ribu token.
Di dalam negeri, Kimi Chat yang diluncurkan oleh startup bulan gelap mendukung input 200.000 karakter Han, yang setara dengan sekitar 400.000 token. Teknologi LongLoRA yang dikembangkan oleh CUHK dan MIT dapat memperluas panjang teks model 7B menjadi 100.000 token, sementara model 70B mencapai 32.000 token.
Saat ini, banyak perusahaan dan lembaga penelitian model besar terkemuka, termasuk OpenAI, Anthropic, Meta, dan Bulan Gelap, menjadikan perpanjangan panjang konteks sebagai fokus arah peningkatan teknologi.
Perusahaan-perusahaan ini tanpa pengecualian adalah favorit di pasar modal. OpenAI telah mendapatkan investasi hampir 12 miliar USD, valuasi Anthropic diperkirakan mencapai 30 miliar USD, sementara bulan gelap yang baru berdiri selama setengah tahun telah menyelesaikan dua putaran pendanaan dengan total hampir 2 miliar RMB.
Terobosan dalam teknologi pemahaman teks panjang berarti kemampuan pemahaman bacaan model meningkat pesat. Dari yang awalnya sulit untuk menyelesaikan sebuah artikel di platform publik, hingga kini dapat dengan mudah membaca sebuah novel panjang, bahkan menangani literatur profesional yang kompleks. Teknologi ini juga mendorong penerapan model besar di bidang keuangan, peradilan, dan penelitian.
Namun, panjang teks tidak selalu lebih baik. Penelitian menunjukkan bahwa pemanfaatan konten konteks yang efektif oleh model lebih penting daripada sekadar meningkatkan panjang. Meskipun demikian, eksplorasi saat ini tampaknya masih jauh dari "titik kritis", 400.000 token mungkin hanya merupakan awal.
Teknologi teks panjang tidak hanya menyelesaikan beberapa masalah yang dihadapi model besar di awal, tetapi juga meningkatkan fungsinya, menjadi salah satu teknologi kunci yang mendorong aplikasi industri. Ini menandai bahwa model besar telah memasuki tahap baru dari LLM ke Long LLM.
Aplikasi teknologi teks panjang telah tercermin dalam berbagai aspek: analisis cepat artikel panjang, ekstraksi informasi kunci laporan keuangan, realisasi konversi langsung dari teks ke kode, dialog peran yang kompleks, dan sebagainya. Fungsi-fungsi ini menunjukkan bahwa model besar sedang berkembang ke arah spesialisasi, personalisasi, dan kedalaman.
Namun, teknologi teks panjang juga menghadapi dilema "trilema yang tidak mungkin": trade-off antara panjang teks, perhatian, dan daya komputasi. Semakin panjang teks, semakin sulit untuk fokus pada informasi kunci; ketika perhatian terbatas, teks pendek sulit untuk menyampaikan informasi kompleks secara lengkap; memproses teks panjang juga memerlukan daya komputasi yang besar, yang meningkatkan biaya.
Saat ini ada tiga solusi utama: menggunakan alat eksternal untuk membantu pemrosesan, mengoptimalkan perhitungan mekanisme perhatian diri, dan memanfaatkan metode optimasi model. Metode-metode ini memiliki kelebihan dan kekurangan masing-masing, bertujuan untuk menemukan titik keseimbangan terbaik antara panjang teks, perhatian, dan daya komputasi.
Meskipun teknologi teks panjang masih menghadapi banyak tantangan, itu jelas merupakan salah satu arah penting dalam pengembangan model besar. Dengan kemajuan teknologi yang terus berlanjut, kita memiliki alasan untuk mengharapkan munculnya kemampuan pengolahan teks panjang yang lebih kuat dan lebih cerdas.