Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 2 phút đọc

Nghiên cứu đột phá ra mắt LCLMs: Nén context LLM tới 16 lần mà không giảm độ chính xác 🚀

Các nhà khoa học từ NYU, Columbia, Princeton và Harvard đã công bố Latent Context Language Models (LCLMs) giúp nén context đầu vào của LLM lên tới 16 lần và tăng tốc độ xử lý gấp 8.8 lần.

Tier 1 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc venturebeat.com

Trong bối cảnh các mô hình AI agent ngày càng chạy lâu và tích lũy lượng ngữ cảnh (context) khổng lồ từ tài liệu, lịch sử hội thoại và chuỗi suy luận, "cửa sổ ngữ cảnh" (context window) đang trở thành một nút thắt cổ chai tính toán nghiêm trọng. Để giải quyết vấn đề này, một nhóm nghiên cứu liên ngành từ NYU, Columbia, Princeton, Đại học Maryland, Harvard và Phòng thí nghiệm Quốc gia Lawrence Livermore mới đây đã công bố một nghiên cứu mang tính bước ngoặt giới thiệu dòng mô hình Latent Context Language Models (LCLMs).

Thách thức của các phương pháp nén ngữ cảnh hiện nay

Thông thường, khi xử lý ngữ cảnh dài, các giải pháp hiện tại như nén KV cache (Key-Value cache) vẫn đòi hỏi mô hình phải tải và tính toán toàn bộ ngữ cảnh gốc trước khi tiến hành loại bỏ các phần thừa. Điều này không chỉ làm giảm độ chính xác mà còn không thực sự giúp tăng tốc độ xử lý ở giai đoạn "prefill" (tải ngữ cảnh ban đầu) trong hạ tầng máy chủ thực tế.

Giải pháp đột phá từ LCLMs

Khác biệt hoàn toàn với các phương pháp truyền thống, LCLMs sử dụng cấu trúc encoder-decoder để nén chuỗi token đầu vào ngay trước khi nó đi tới bộ giải mã (decoder).

1. Nén trực tiếp chuỗi token: Quá trình nén diễn ra trước giai đoạn prefill của decoder, giúp giảm thiểu đáng kể chi phí tính toán và bộ nhớ ngay từ đầu. 2. Tốc độ vượt trội: Theo báo cáo thử nghiệm trên benchmark ngữ cảnh dài RULER, LCLMs với tỷ lệ nén 16x cho tốc độ phản hồi nhanh hơn gấp 8.8 lần so với các giải pháp KV cache tiêu chuẩn. 3. Giữ nguyên độ chính xác: Nghiên cứu chứng minh mô hình có thể duy trì hiệu năng và độ chính xác tương đương với khi chạy ngữ cảnh đầy đủ, loại bỏ hoàn toàn hiện tượng ảo giác thường gặp ở các kỹ thuật nén thô sơ.

Mã nguồn mở trên Hugging Face

Dòng mô hình LCLMs hiện đã được nhóm nghiên cứu mở khóa hoàn toàn trên nền tảng Hugging Face, cho phép cộng đồng nhà phát triển tích hợp trực tiếp vào các quy trình xây dựng AI Agent và ứng dụng ngữ cảnh dài của mình. Việc tối ưu hóa này hứa hẹn sẽ giúp cắt giảm tới 16 lần chi phí tài nguyên phần cứng, đồng thời đem lại trải nghiệm AI mượt mà và tiết kiệm chi phí hơn trong môi trường sản xuất thực tế (production).