Cuộc thi công nghệ văn bản dài mô hình lớn đã được nâng cấp, 400.000 token có thể chỉ là khởi đầu
Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay đã tăng lên 400.000 token, khả năng văn bản dài dường như đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.
Trên thế giới, OpenAI đã trải qua nhiều lần nâng cấp, nâng độ dài ngữ cảnh của GPT-4 lên tới 32.000 token; Anthropic đã mở rộng độ dài ngữ cảnh lên tới 100.000 token; LongLLaMA thậm chí đã mở rộng độ dài ngữ cảnh lên tới 256.000 token hoặc hơn.
Các doanh nghiệp trong nước cũng không chịu thua kém. Kimi Chat do công ty khởi nghiệp Mặt Trăng Tối phát hành hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token; công nghệ LongLoRA được phát triển bởi Đại học Trung Quốc Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, mô hình 70B mở rộng lên 32.000 token.
Hiện nay, nhiều công ty và tổ chức hàng đầu về mô hình lớn, bao gồm OpenAI, Anthropic, Meta và Mặt Trăng Tối, đều đặt khả năng xử lý văn bản dài là hướng nâng cấp trọng tâm. Những doanh nghiệp này cũng là những đối tượng được thị trường vốn săn đón, quy mô huy động vốn và định giá đều có sự tăng trưởng bùng nổ.
Đột phá trong công nghệ văn bản dài có nghĩa là gì? Trên bề mặt, đó là khả năng đầu vào và đọc của mô hình đã được cải thiện đáng kể, từ việc chỉ có thể đọc xong một bài viết ngắn ban đầu, đến bây giờ có thể dễ dàng xử lý một cuốn tiểu thuyết dài. Ý nghĩa sâu xa hơn là nó thúc đẩy việc ứng dụng của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng càng dài càng tốt. Nghiên cứu cho thấy, độ dài ngữ cảnh mà mô hình có thể xử lý không đồng nghĩa với hiệu quả, điều quan trọng hơn là mô hình có thể sử dụng nội dung ngữ cảnh một cách hiệu quả. Hiện tại, ngành công nghiệp vẫn chưa chạm đến "trần" về độ dài văn bản, 400.000 token có thể chỉ là một khởi đầu.
Tại sao cần vượt qua giới hạn văn bản dài?
Người sáng lập Mặt tối của mặt trăng, Yang Zhilin, cho biết chính vì hạn chế về độ dài đầu vào mà nhiều ứng dụng mô hình lớn gặp khó khăn trong việc triển khai. Ví dụ, trong các tình huống như nhân vật ảo, trò chơi kịch bản và phân tích pháp lý, độ dài đầu vào không đủ sẽ dẫn đến mất thông tin và hiệu quả kém.
Khả năng xử lý văn bản dài là rất quan trọng đối với các ứng dụng Agent và AI trong tương lai. Agent cần dựa vào thông tin lịch sử để lập kế hoạch và ra quyết định, trong khi các ứng dụng AI cần bối cảnh để duy trì sự mạch lạc và trải nghiệm cá nhân hóa.
Yang Zhilin cho rằng, giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện, trong đó trước liên quan đến số lượng tham số, còn sau là độ dài ngữ cảnh. Bằng cách tăng độ dài ngữ cảnh, có thể nâng cao khả năng của mô hình mà không làm tăng đáng kể số lượng tham số.
Văn bản dài cũng giúp giảm vấn đề ảo giác của mô hình lớn. Thông tin ngữ cảnh nhiều hơn có thể hỗ trợ mô hình xác định ngữ nghĩa, giảm thiểu sự mơ hồ, nâng cao độ chính xác trong suy luận.
Có thể nói, công nghệ văn bản dài không chỉ giải quyết một số điểm yếu của mô hình lớn mà còn là chìa khóa để thúc đẩy ngành công nghiệp phát triển. Điều này đánh dấu mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.
Lấy Kimi Chat từ mặt tối của tháng làm ví dụ, khả năng văn bản dài của nó đã mang lại nhiều nâng cấp:
Có thể phân tích nhanh các văn bản dài, báo cáo tài chính, v.v., trích xuất thông tin quan trọng và tạo tóm tắt
Có thể biến toàn bộ sách hoặc tài liệu pháp lý thành cơ sở dữ liệu kiến thức có thể tra cứu
Có thể chuyển đổi tài liệu thành mã, và thực hiện chỉnh sửa tối ưu.
Hỗ trợ vai trò trong cuộc đối thoại dài, thực hiện tương tác với nhân vật ảo
Những chức năng này cho thấy robot trò chuyện đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ mới để thúc đẩy ngành công nghiệp thực hiện.
Yang Zhilin cho biết, mục tiêu của Mặt Trăng Tối là xây dựng ứng dụng siêu C端 tiếp theo, phát triển nhiều ứng dụng dọc dựa trên mô hình chung. Ông dự đoán thị trường mô hình lớn trong nước sẽ chia thành hai trại lớn toB và toC, trong lĩnh vực toC sẽ xuất hiện các ứng dụng siêu dựa trên mô hình tự nghiên cứu.
Vấn đề kỹ thuật của văn bản dài
Công nghệ văn bản dài đối mặt với "độ dài văn bản - sự chú ý - sức mạnh tính toán" trong tam giác bất khả thi:
Văn bản càng dài, càng khó để tập trung vào thông tin chính.
Sự chú ý có hạn, văn bản ngắn lại khó có thể diễn đạt thông tin phức tạp một cách đầy đủ.
Xử lý văn bản dài cần nhiều sức mạnh tính toán, làm tăng chi phí
Nỗi khổ này bắt nguồn từ cơ chế tự chú ý trong cấu trúc Transformer. Cơ chế này cho phép mô hình phân tích linh hoạt các mối quan hệ giữa thông tin, nhưng khối lượng tính toán tăng theo cấp số nhân với chiều dài văn bản.
Nghiên cứu cho thấy, ngữ cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, sự phân tán chú ý. Điều này tạo thành mâu thuẫn giữa độ dài văn bản và sự chú ý. Đồng thời, việc vượt qua văn bản dài hơn cũng cần nhiều sức mạnh tính toán hơn, tạo thành mâu thuẫn với sức mạnh tính toán.
Hiện tại có ba loại giải pháp chính:
Sử dụng công cụ bên ngoài: Chia nhỏ văn bản dài, tìm kiếm các đoạn văn bản ngắn để xây dựng câu trả lời cho văn bản dài.
Tối ưu hóa tính toán tự chú ý: như LongLoRA giảm khối lượng tính toán thông qua tính toán theo nhóm.
Tối ưu hóa mô hình: như LongLLaMA đạt được khả năng suy diễn chuỗi dài hơn thông qua việc tinh chỉnh.
Các phương án khác nhau đều có ưu và nhược điểm. Các nhà sản xuất cần tìm điểm cân bằng giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, để vừa xử lý đủ thông tin vừa đảm bảo hiệu quả tính toán và chi phí.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Khả năng xử lý văn bản dài của mô hình lớn tăng vọt 400.000 token có thể là điểm khởi đầu mới
Cuộc thi công nghệ văn bản dài mô hình lớn đã được nâng cấp, 400.000 token có thể chỉ là khởi đầu
Mô hình lớn đang nâng cao khả năng xử lý văn bản dài với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay đã tăng lên 400.000 token, khả năng văn bản dài dường như đã trở thành "tiêu chuẩn" mới của các nhà sản xuất mô hình lớn.
Trên thế giới, OpenAI đã trải qua nhiều lần nâng cấp, nâng độ dài ngữ cảnh của GPT-4 lên tới 32.000 token; Anthropic đã mở rộng độ dài ngữ cảnh lên tới 100.000 token; LongLLaMA thậm chí đã mở rộng độ dài ngữ cảnh lên tới 256.000 token hoặc hơn.
Các doanh nghiệp trong nước cũng không chịu thua kém. Kimi Chat do công ty khởi nghiệp Mặt Trăng Tối phát hành hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token; công nghệ LongLoRA được phát triển bởi Đại học Trung Quốc Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên 100.000 token, mô hình 70B mở rộng lên 32.000 token.
Hiện nay, nhiều công ty và tổ chức hàng đầu về mô hình lớn, bao gồm OpenAI, Anthropic, Meta và Mặt Trăng Tối, đều đặt khả năng xử lý văn bản dài là hướng nâng cấp trọng tâm. Những doanh nghiệp này cũng là những đối tượng được thị trường vốn săn đón, quy mô huy động vốn và định giá đều có sự tăng trưởng bùng nổ.
Đột phá trong công nghệ văn bản dài có nghĩa là gì? Trên bề mặt, đó là khả năng đầu vào và đọc của mô hình đã được cải thiện đáng kể, từ việc chỉ có thể đọc xong một bài viết ngắn ban đầu, đến bây giờ có thể dễ dàng xử lý một cuốn tiểu thuyết dài. Ý nghĩa sâu xa hơn là nó thúc đẩy việc ứng dụng của mô hình lớn trong các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học.
Tuy nhiên, độ dài văn bản không phải lúc nào cũng càng dài càng tốt. Nghiên cứu cho thấy, độ dài ngữ cảnh mà mô hình có thể xử lý không đồng nghĩa với hiệu quả, điều quan trọng hơn là mô hình có thể sử dụng nội dung ngữ cảnh một cách hiệu quả. Hiện tại, ngành công nghiệp vẫn chưa chạm đến "trần" về độ dài văn bản, 400.000 token có thể chỉ là một khởi đầu.
Tại sao cần vượt qua giới hạn văn bản dài?
Người sáng lập Mặt tối của mặt trăng, Yang Zhilin, cho biết chính vì hạn chế về độ dài đầu vào mà nhiều ứng dụng mô hình lớn gặp khó khăn trong việc triển khai. Ví dụ, trong các tình huống như nhân vật ảo, trò chơi kịch bản và phân tích pháp lý, độ dài đầu vào không đủ sẽ dẫn đến mất thông tin và hiệu quả kém.
Khả năng xử lý văn bản dài là rất quan trọng đối với các ứng dụng Agent và AI trong tương lai. Agent cần dựa vào thông tin lịch sử để lập kế hoạch và ra quyết định, trong khi các ứng dụng AI cần bối cảnh để duy trì sự mạch lạc và trải nghiệm cá nhân hóa.
Yang Zhilin cho rằng, giới hạn của mô hình lớn được xác định bởi khả năng từng bước và số bước thực hiện, trong đó trước liên quan đến số lượng tham số, còn sau là độ dài ngữ cảnh. Bằng cách tăng độ dài ngữ cảnh, có thể nâng cao khả năng của mô hình mà không làm tăng đáng kể số lượng tham số.
Văn bản dài cũng giúp giảm vấn đề ảo giác của mô hình lớn. Thông tin ngữ cảnh nhiều hơn có thể hỗ trợ mô hình xác định ngữ nghĩa, giảm thiểu sự mơ hồ, nâng cao độ chính xác trong suy luận.
Có thể nói, công nghệ văn bản dài không chỉ giải quyết một số điểm yếu của mô hình lớn mà còn là chìa khóa để thúc đẩy ngành công nghiệp phát triển. Điều này đánh dấu mô hình lớn bước vào giai đoạn mới từ LLM đến Long LLM.
Lấy Kimi Chat từ mặt tối của tháng làm ví dụ, khả năng văn bản dài của nó đã mang lại nhiều nâng cấp:
Những chức năng này cho thấy robot trò chuyện đang phát triển theo hướng chuyên nghiệp hóa, cá nhân hóa và sâu sắc, có khả năng trở thành công cụ mới để thúc đẩy ngành công nghiệp thực hiện.
Yang Zhilin cho biết, mục tiêu của Mặt Trăng Tối là xây dựng ứng dụng siêu C端 tiếp theo, phát triển nhiều ứng dụng dọc dựa trên mô hình chung. Ông dự đoán thị trường mô hình lớn trong nước sẽ chia thành hai trại lớn toB và toC, trong lĩnh vực toC sẽ xuất hiện các ứng dụng siêu dựa trên mô hình tự nghiên cứu.
Vấn đề kỹ thuật của văn bản dài
Công nghệ văn bản dài đối mặt với "độ dài văn bản - sự chú ý - sức mạnh tính toán" trong tam giác bất khả thi:
Nỗi khổ này bắt nguồn từ cơ chế tự chú ý trong cấu trúc Transformer. Cơ chế này cho phép mô hình phân tích linh hoạt các mối quan hệ giữa thông tin, nhưng khối lượng tính toán tăng theo cấp số nhân với chiều dài văn bản.
Nghiên cứu cho thấy, ngữ cảnh quá dài sẽ dẫn đến tỷ lệ thông tin liên quan giảm, sự phân tán chú ý. Điều này tạo thành mâu thuẫn giữa độ dài văn bản và sự chú ý. Đồng thời, việc vượt qua văn bản dài hơn cũng cần nhiều sức mạnh tính toán hơn, tạo thành mâu thuẫn với sức mạnh tính toán.
Hiện tại có ba loại giải pháp chính:
Sử dụng công cụ bên ngoài: Chia nhỏ văn bản dài, tìm kiếm các đoạn văn bản ngắn để xây dựng câu trả lời cho văn bản dài.
Tối ưu hóa tính toán tự chú ý: như LongLoRA giảm khối lượng tính toán thông qua tính toán theo nhóm.
Tối ưu hóa mô hình: như LongLLaMA đạt được khả năng suy diễn chuỗi dài hơn thông qua việc tinh chỉnh.
Các phương án khác nhau đều có ưu và nhược điểm. Các nhà sản xuất cần tìm điểm cân bằng giữa độ dài văn bản, sự chú ý và sức mạnh tính toán, để vừa xử lý đủ thông tin vừa đảm bảo hiệu quả tính toán và chi phí.