Khả năng văn bản dài trở thành "tiêu chuẩn" mới của mô hình lớn, 400.000 token có thể chỉ là khởi đầu
Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc, từ 4000 token đến 400.000 token, khả năng này dường như đã trở thành tiêu chuẩn mới để đánh giá sức mạnh công nghệ của các công ty mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần để tăng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, trong khi GPT-4 được tăng từ 8.000 lên 32.000 token. Anthropic thậm chí đã mở rộng độ dài ngữ cảnh lên 100.000 token. LongLLaMA còn đẩy con số này lên hơn 256.000 token.
Trong nước, Kimi Chat do công ty khởi nghiệp 月之暗面 phát triển hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, trong khi mô hình 70B đạt 32.000 token.
Hiện tại, nhiều công ty và tổ chức nghiên cứu hàng đầu về mô hình lớn, bao gồm OpenAI, Anthropic, Meta và Mặt trăng tối, đang coi việc mở rộng độ dài ngữ cảnh là một hướng đi chính trong việc nâng cấp công nghệ.
Những công ty này đều là những đứa con cưng của thị trường vốn. OpenAI đã nhận gần 12 tỷ đô la đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ đô la, trong khi Moonlight Dark Side, chỉ mới thành lập được nửa năm, đã hoàn thành hai vòng huy động vốn tổng cộng gần 2 tỷ nhân dân tệ.
Sự đột phá trong công nghệ văn bản dài có nghĩa là khả năng hiểu đọc của mô hình đã được nâng cao đáng kể. Từ việc ban đầu khó có thể đọc hết một bài viết trên WeChat, đến nay có thể dễ dàng đọc một cuốn tiểu thuyết dài, thậm chí xử lý các tài liệu chuyên môn phức tạp. Công nghệ này cũng đang thúc đẩy việc ứng dụng các mô hình lớn trong các lĩnh vực tài chính, tư pháp, nghiên cứu khoa học.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy, việc mô hình sử dụng hiệu quả nội dung ngữ cảnh quan trọng hơn nhiều so với việc đơn thuần tăng độ dài. Dù vậy, những khám phá hiện tại dường như vẫn còn xa "điểm tới hạn", 400.000 token có thể chỉ là sự khởi đầu.
Công nghệ văn bản dài không chỉ giải quyết một số vấn đề mà các mô hình lớn phải đối mặt ở giai đoạn đầu, mà còn tăng cường khả năng của chúng, trở thành một trong những công nghệ then chốt thúc đẩy ứng dụng trong ngành. Điều này đánh dấu sự chuyển mình của mô hình lớn từ LLM sang Long LLM.
Ứng dụng của công nghệ văn bản dài đã thể hiện ở nhiều khía cạnh: phân tích nhanh các bài viết dài, trích xuất thông tin quan trọng từ báo cáo tài chính, thực hiện chuyển đổi trực tiếp từ văn bản sang mã, đối thoại vai trò phức tạp, v.v. Những chức năng này cho thấy các mô hình lớn đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc hơn.
Tuy nhiên, công nghệ văn bản dài cũng đối mặt với "tam giác không thể": sự cân bằng giữa độ dài văn bản, sự chú ý và tính toán. Văn bản càng dài, càng khó tập trung vào thông tin chính; khi sự chú ý có hạn, văn bản ngắn lại khó truyền đạt thông tin phức tạp một cách đầy đủ; xử lý văn bản dài cũng cần một lượng lớn tính toán, làm tăng chi phí.
Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế tự chú ý, và sử dụng các phương pháp tối ưu hóa mô hình. Những phương pháp này đều có ưu và nhược điểm riêng, nhằm tìm ra điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán.
Mặc dù công nghệ văn bản dài vẫn đối mặt với nhiều thách thức, nhưng nó chắc chắn là một trong những hướng phát triển quan trọng của mô hình lớn. Với sự tiến bộ không ngừng của công nghệ, chúng ta có lý do để kỳ vọng vào sự xuất hiện của khả năng xử lý văn bản dài mạnh mẽ và thông minh hơn.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
10 thích
Phần thưởng
10
8
Chia sẻ
Bình luận
0/400
NervousFingers
· 07-24 16:10
70.000? Thì có nghĩa gì, ông chơi từ 100.000.
Xem bản gốcTrả lời0
NftDataDetective
· 07-24 09:33
hmm 400k tokens... có vẻ như các nhà sản xuất gpu sẽ thích điều này
Xem bản gốcTrả lời0
WalletDivorcer
· 07-23 19:12
Chỉ có vậy thôi? Trình độ AI, tôi không tin một token nào.
Xem bản gốcTrả lời0
StablecoinGuardian
· 07-22 00:53
Nội chiến nhanh vậy sao? Chiều dài kiếm được 20 lần.
Xem bản gốcTrả lời0
PhantomMiner
· 07-22 00:51
Công nghệ đã chết, người chơi khả năng tính toán vui mừng.
Xem bản gốcTrả lời0
StableBoi
· 07-22 00:50
Khả năng tính toán cháy lên nhanh chóng vượt qua một triệu đúng không?
Xem bản gốcTrả lời0
NeverVoteOnDAO
· 07-22 00:40
Dữ liệu đều có thể tăng lên, chỉ có khả năng tính toán không đủ.
Xem bản gốcTrả lời0
CommunityWorker
· 07-22 00:33
40w cũng chỉ có vậy? So với vũ trụ cyber thì vẫn còn xa lắm.
Khả năng xử lý văn bản dài của mô hình lớn tăng vọt, 400.000 token có thể chỉ là khởi đầu.
Khả năng văn bản dài trở thành "tiêu chuẩn" mới của mô hình lớn, 400.000 token có thể chỉ là khởi đầu
Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc, từ 4000 token đến 400.000 token, khả năng này dường như đã trở thành tiêu chuẩn mới để đánh giá sức mạnh công nghệ của các công ty mô hình lớn.
Trên thế giới, OpenAI đã nâng cấp nhiều lần để tăng độ dài đầu vào ngữ cảnh của GPT-3.5 từ 4.000 lên 16.000 token, trong khi GPT-4 được tăng từ 8.000 lên 32.000 token. Anthropic thậm chí đã mở rộng độ dài ngữ cảnh lên 100.000 token. LongLLaMA còn đẩy con số này lên hơn 256.000 token.
Trong nước, Kimi Chat do công ty khởi nghiệp 月之暗面 phát triển hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, trong khi mô hình 70B đạt 32.000 token.
Hiện tại, nhiều công ty và tổ chức nghiên cứu hàng đầu về mô hình lớn, bao gồm OpenAI, Anthropic, Meta và Mặt trăng tối, đang coi việc mở rộng độ dài ngữ cảnh là một hướng đi chính trong việc nâng cấp công nghệ.
Những công ty này đều là những đứa con cưng của thị trường vốn. OpenAI đã nhận gần 12 tỷ đô la đầu tư, giá trị của Anthropic dự kiến sẽ đạt 30 tỷ đô la, trong khi Moonlight Dark Side, chỉ mới thành lập được nửa năm, đã hoàn thành hai vòng huy động vốn tổng cộng gần 2 tỷ nhân dân tệ.
Sự đột phá trong công nghệ văn bản dài có nghĩa là khả năng hiểu đọc của mô hình đã được nâng cao đáng kể. Từ việc ban đầu khó có thể đọc hết một bài viết trên WeChat, đến nay có thể dễ dàng đọc một cuốn tiểu thuyết dài, thậm chí xử lý các tài liệu chuyên môn phức tạp. Công nghệ này cũng đang thúc đẩy việc ứng dụng các mô hình lớn trong các lĩnh vực tài chính, tư pháp, nghiên cứu khoa học.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy, việc mô hình sử dụng hiệu quả nội dung ngữ cảnh quan trọng hơn nhiều so với việc đơn thuần tăng độ dài. Dù vậy, những khám phá hiện tại dường như vẫn còn xa "điểm tới hạn", 400.000 token có thể chỉ là sự khởi đầu.
Công nghệ văn bản dài không chỉ giải quyết một số vấn đề mà các mô hình lớn phải đối mặt ở giai đoạn đầu, mà còn tăng cường khả năng của chúng, trở thành một trong những công nghệ then chốt thúc đẩy ứng dụng trong ngành. Điều này đánh dấu sự chuyển mình của mô hình lớn từ LLM sang Long LLM.
Ứng dụng của công nghệ văn bản dài đã thể hiện ở nhiều khía cạnh: phân tích nhanh các bài viết dài, trích xuất thông tin quan trọng từ báo cáo tài chính, thực hiện chuyển đổi trực tiếp từ văn bản sang mã, đối thoại vai trò phức tạp, v.v. Những chức năng này cho thấy các mô hình lớn đang phát triển theo hướng chuyên môn hóa, cá nhân hóa và sâu sắc hơn.
Tuy nhiên, công nghệ văn bản dài cũng đối mặt với "tam giác không thể": sự cân bằng giữa độ dài văn bản, sự chú ý và tính toán. Văn bản càng dài, càng khó tập trung vào thông tin chính; khi sự chú ý có hạn, văn bản ngắn lại khó truyền đạt thông tin phức tạp một cách đầy đủ; xử lý văn bản dài cũng cần một lượng lớn tính toán, làm tăng chi phí.
Hiện tại có ba giải pháp chính: sử dụng công cụ bên ngoài để hỗ trợ xử lý, tối ưu hóa tính toán cơ chế tự chú ý, và sử dụng các phương pháp tối ưu hóa mô hình. Những phương pháp này đều có ưu và nhược điểm riêng, nhằm tìm ra điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán.
Mặc dù công nghệ văn bản dài vẫn đối mặt với nhiều thách thức, nhưng nó chắc chắn là một trong những hướng phát triển quan trọng của mô hình lớn. Với sự tiến bộ không ngừng của công nghệ, chúng ta có lý do để kỳ vọng vào sự xuất hiện của khả năng xử lý văn bản dài mạnh mẽ và thông minh hơn.