AI tools-ai 27 thg 6, 2026 10 phút đọc

MRAgent: Khung Bộ Nhớ Đại Diện Mới "Đốt" Chỉ 118K Token/Truy Vấn, LangMem Tốn Đến 3.26 Triệu! 🚀

MRAgent, một khung bộ nhớ đại diện AI mới từ Đại học Quốc gia Singapore, đã cách mạng hóa khả năng suy luận dài hạn bằng cách tự động tái cấu trúc bộ nhớ, giúp giảm đáng kể mức tiêu thụ token và thời gian chạy so với các phương pháp hiện có. ✨

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc venturebeat.com

Suy luận dài hạn là một điểm yếu cố hữu của các tác nhân AI: cửa sổ ngữ cảnh nhanh chóng đầy lên, và các quy trình truy xuất thường trả về nhiễu thay vì tín hiệu hữu ích. Để giải quyết vấn đề này, các nhà nghiên cứu tại Đại học Quốc gia Singapore đã phát triển MRAgent, một khung công tác đột phá.

Không giống cách tiếp cận "truy xuất-rồi-suy luận" tĩnh, MRAgent sử dụng một cơ chế cho phép tác nhân tự động phát triển bộ nhớ dựa trên bằng chứng tích lũy. Quá trình tái cấu trúc bộ nhớ nhiều bước này được tích hợp chặt chẽ vào quy trình suy luận của mô hình ngôn ngữ lớn (LLM). Đáng chú ý, MRAgent cắt giảm đáng kể mức tiêu thụ token và chi phí thời gian chạy so với các phương pháp quản lý bộ nhớ đại diện khác.

Giới Hạn Của Truy Xuất Thụ Động Trong Các Tác Vụ Dài Hạn 📉

Trong các quy trình truy xuất cổ điển, tài liệu được truy xuất thông qua tìm kiếm vector hoặc duyệt đồ thị và chuyển đến LLM để suy luận. Cách tiếp cận thụ động này thất bại vì không thể kết hợp suy luận với truy cập bộ nhớ, tạo ra ba nút thắt chính:

* Các hệ thống này không thể sửa đổi chiến lược truy xuất giữa chừng trong quá trình suy luận. Nếu tác nhân tìm thấy một tài liệu nhưng thiếu thông tin quan trọng (như ngày cụ thể, tên người), nó không có cách nào đưa ra truy vấn mới dựa trên phát hiện đó. * Điểm tương đồng cố định và mở rộng đồ thị định trước trả về các kết quả trùng khớp bề mặt, làm ngập cửa sổ ngữ cảnh của LLM bằng nhiễu không liên quan, làm suy giảm khả năng suy luận. * Các hệ thống hiện tại phụ thuộc nhiều vào các cấu trúc đã được xây dựng sẵn như kết quả top-k và các hàm liên quan tĩnh, hạn chế sự linh hoạt cần thiết để mở rộng quy mô cho các tương tác người dùng dài hạn, khó đoán.

Các nhà nghiên cứu lập luận rằng để khắc phục những hạn chế này, các nhà phát triển phải chuyển sang một "quá trình tái cấu trúc chủ động và liên tưởng", một khái niệm lấy cảm hứng từ khoa học thần kinh.

Theo mô hình này, việc gọi lại bộ nhớ diễn ra tuần tự thay vì hoạt động như một đọc-ra thụ động từ một cơ sở dữ liệu tĩnh. Hệ thống bắt đầu với các kích hoạt nhỏ, cụ thể từ lời nhắc của người dùng (như tên người, hành động, địa điểm). Những gợi ý ban đầu này chỉ đến các khái niệm hoặc danh mục liên quan thay vì các khối văn bản lớn. Bằng cách theo dõi các "bước đệm" siêu dữ liệu này, tác nhân thu thập từng mẩu bằng chứng nhỏ, sử dụng mỗi thông tin mới để hướng dẫn bước tiếp theo cho đến khi nó ghép thành công câu chuyện đầy đủ, chính xác.

MRAgent Triển Khai Tái Cấu Trúc Bộ Nhớ Chủ Động Như Thế Nào? 🤔

Thay vì xem bộ nhớ như một cơ sở dữ liệu tĩnh, MRAgent (Memory Reasoning Architecture for LLM Agents) coi đó là một môi trường tương tác. Khi xử lý một truy vấn phức tạp, tác nhân sử dụng khả năng suy luận của LLM xương sống để khám phá nhiều đường dẫn truy xuất ứng cử viên trên một đồ thị bộ nhớ có cấu trúc.

Ở mỗi bước, LLM đánh giá bằng chứng trung gian đã thu thập và sử dụng nó để tối ưu hóa tìm kiếm một cách lặp đi lặp lại. Nó suy ra các ràng buộc tìm kiếm mới, theo đuổi các đường dẫn có thông tin tốt nhất và loại bỏ các nhánh không liên quan. Điều này cho phép MRAgent ghép nối các thông tin được chôn sâu mà không làm đầy ngữ cảnh của LLM bằng nhiễu.

Để làm cho việc khám phá chủ động này hiệu quả về mặt tính toán và có thể mở rộng, khung công tác tổ chức cơ sở dữ liệu của mình bằng cơ chế "Cue-Tag-Content" (Gợi ý-Thẻ-Nội dung). Cơ chế này hoạt động như một đồ thị liên tưởng đa tầng với ba loại nút:

* Cues (Gợi ý): Các từ khóa chi tiết, chẳng hạn như các thực thể hoặc thuộc tính ngữ cảnh được trích xuất từ tương tác của người dùng. * Content (Nội dung): Các đơn vị bộ nhớ thực tế được lưu trữ. Chúng được chia thành các lớp đa hạt, chẳng hạn như bộ nhớ sự kiện (episodic memory) cho các sự kiện cụ thể và bộ nhớ ngữ nghĩa (semantic memory) cho các sự kiện ổn định và sở thích của người dùng. * Tags (Thẻ): Các cầu nối ngữ nghĩa tóm tắt các liên kết quan hệ giữa các Gợi ý và Nội dung cụ thể.

Cấu trúc này cho phép một quy trình truy xuất hai giai đoạn cực kỳ hiệu quả. LLM đầu tiên điều hướng từ các Gợi ý đến các Thẻ ứng cử viên. Vì các Thẻ hiển thị rõ ràng các mối quan hệ ngữ nghĩa và liên kết cấu trúc của dữ liệu, tác nhân đánh giá các bản tóm tắt ngắn này để đánh giá mức độ liên quan của chúng. LLM xác định các đường dẫn khả thi và loại bỏ các nhánh không liên quan trước khi tiêu tốn tài nguyên tính toán và token nhắc để truy cập các nội dung bộ nhớ chi tiết, nặng nề.

Ví dụ, một người dùng có thể hỏi một tác nhân AI: "Nate đã dùng tiền thưởng thế nào khi anh ấy thắng giải đấu trò chơi điện tử lần thứ ba?"

* MRAgent đầu tiên trích xuất các gợi ý chi tiết từ lời nhắc, như "Nate", "giải đấu trò chơi điện tử" và "thắng". * Tác nhân ánh xạ các gợi ý ban đầu này vào đồ thị bộ nhớ và xem xét các Thẻ liên tưởng có sẵn được kết nối với chúng. Tác nhân thấy các thẻ như "Chiến thắng Giải đấu" và "Tham gia Giải đấu". Vì chỉ quan tâm đến những gì người đó đã làm sau khi thắng giải vô địch, MRAgent bỏ qua thẻ tham gia giải đấu và theo đuổi thẻ chiến thắng. * Tác nhân truy xuất nội dung sự kiện được liên kết với cặp Gợi ý-Thẻ đã chọn, lấy ra ba tập ký ức riêng biệt nơi Nate đã thắng một giải đấu. * MRAgent xem xét ba ký ức, quyết định một trong số đó đặc biệt liên quan đến truy vấn và loại bỏ hai cái còn lại. * Với thông tin này, nó cập nhật các gợi ý của mình và bắt đầu một vòng khám phá và cắt tỉa khác. Từ ký ức sự kiện mới đã truy xuất, tác nhân thêm "tiền kiếm được từ giải đấu" vào các gợi ý của mình và sử dụng nó để điều hướng các thẻ mới và tập trung vào các ký ức mới. Nó lặp lại quá trình này cho đến khi thu thập đủ thông tin để trả lời truy vấn, có thể là "Nate đã tiết kiệm số tiền đó".

Hiệu Suất Vượt Trội Của MRAgent Trên Các Thử Nghiệm Tiêu Chuẩn 🚀

MRAgent không đơn độc trong việc giải quyết vấn đề quản lý bộ nhớ đại diện. Các giải pháp thay thế bao gồm A-MEM, MemoryOS, LangMem và Mem0. Tuy nhiên, MRAgent đã chứng minh được hiệu suất vượt trội của mình.

Các nhà nghiên cứu đã thử nghiệm MRAgent trên các bộ thử nghiệm tiêu chuẩn ngành LoCoMo và LongMemEval. Đây là những bài kiểm tra khả năng của tác nhân trong việc giải quyết các truy vấn về các tác vụ và cuộc trò chuyện dài hạn qua hàng chục phiên và hàng trăm lượt đối thoại. Các mô hình xương sống được sử dụng là Gemini 2.5 Flash và Claude Sonnet 4.5. Hệ thống được so sánh với RAG tiêu chuẩn, A-MEM, MemoryOS, LangMem và Mem0.

MRAgent liên tục vượt trội hơn tất cả các phương pháp cơ sở trên cả hai mô hình và tất cả các loại câu hỏi với một biên độ đáng kể.

Đối với các nhà phát triển doanh nghiệp, chi phí tính toán thường là chỉ số quan trọng nhất. Trong các thử nghiệm LongMemEval, MRAgent đã cắt giảm mức tiêu thụ token nhắc xuống chỉ còn 118.000 token mỗi mẫu. So với đó, A-Mem tiêu thụ 632.000 token, và LangMem đã "đốt" tới 3,26 triệu token mỗi truy vấn. MRAgent cũng giảm một nửa thời gian chạy so với A-Mem, từ 1.122 giây xuống còn 586 giây. Thật ấn tượng! ✨

Điều làm cho MRAgent hiệu quả trong thực tế là hành vi theo yêu cầu của nó. Việc đánh giá các thẻ và cắt tỉa các đường dẫn không liên quan trước khi truy xuất giúp tiết kiệm chi phí và không gian ngữ cảnh. Hơn nữa, hệ thống tự động đánh giá ngữ cảnh tích lũy của nó và tự nhiên biết khi nào nên dừng tìm kiếm, hoàn toàn tránh được việc thăm dò dữ liệu dư thừa.

Triển Khai MRAgent: Dễ Dàng Hơn Bạn Nghĩ! 🛠️

Mặc dù MRAgent rất hiệu quả, cấu trúc Cue-Tag-Content cần được chuẩn bị trước khi tác nhân có thể truy vấn. Các nhà phát triển phải tìm ra cách kiến trúc cơ sở dữ liệu bộ nhớ cơ bản để cho phép LLM điều hướng hiệu quả các mục liên tưởng và cắt tỉa các đường dẫn không liên quan mà không làm tăng chi phí tính toán.

May mắn thay, các nhà phát triển không cần phải gắn nhãn hoặc cấu trúc dữ liệu này theo cách thủ công. Các tác giả đã thiết kế MRAgent với một quy trình chắt lọc tự động sử dụng LLM để xử lý lịch sử tương tác thô và tự động điền vào đồ thị bộ nhớ. Đối với một nhà phát triển, công việc là triển khai và điều phối quy trình nhập dữ liệu tự động này, chứ không phải gắn thẻ dữ liệu thủ công.

Bạn cần thiết lập một công việc nền hoặc quy trình streaming để chuyển các tương tác người dùng thô qua các mẫu nhắc để trích xuất siêu dữ liệu này trước khi lưu trữ nó trong cơ sở dữ liệu đồ thị của bạn.

Các tác giả nhấn mạnh rằng đây là một giai đoạn xây dựng nhẹ nhàng và MRAgent cố tình giữ cho việc nhập liệu đơn giản. Mã nguồn đã được phát hành trên GitHub. Bạn có thể tìm hiểu thêm tại đó! 🧑‍💻