Memora: Biểu Diễn Bộ Nhớ Hài Hòa – Cân Bằng Trừu Tượng và Chi Tiết
Các hệ thống bộ nhớ dành cho tác nhân AI ngày càng phải đối mặt với lượng thông tin khổng lồ và liên tục phát triển. Yêu cầu đặt ra là phải hỗ trợ truy xuất hiệu quả, có ngữ cảnh cho các tác vụ phức tạp. Trừu tượng hóa là chìa khóa để mở rộng bộ nhớ, nhưng thường đánh đổi bằng sự thiếu chi tiết, làm lu mờ các thông tin cụ thể cần thiết cho việc lập luận chính xác.
Microsoft Research đã giới thiệu Memora, một biểu diễn bộ nhớ hài hòa, cân bằng một cách cấu trúc giữa sự trừu tượng và tính cụ thể. Được trình bày lần đầu trên arXiv:2602.03315v1 và blog của Microsoft Research (tháng 2/2026), Memora không chỉ thiết lập kỷ lục mới về hiệu quả truy xuất và lập luận mà còn chứng minh rằng các hệ thống RAG (Retrieval-Augmented Generation) và Đồ thị tri thức (Knowledge Graph - KG) quen thuộc chỉ là các trường hợp đặc biệt của khung làm việc này. 🌟
1. Các Thành Phần Kiến Trúc Cốt Lõi 🏗️
Memora xử lý luồng dữ liệu liên tục, không đồng nhất ($\mathcal{D}$) thành một tập hợp bộ nhớ có cấu trúc ($\mathcal{M}$) thông qua một quy trình gồm nhiều giai đoạn:
1.1 Phân Đoạn & Bộ Nhớ Sự Kiện
* Phân đoạn (Segmentation): Phân tách dữ liệu thô ($d \in \mathcal{D}$) thành các phân đoạn có ý nghĩa ngữ nghĩa (ví dụ: {$s_1, \dots, s_k$}). * Bộ nhớ Sự kiện (Episodic Memory - $e_i = \mathcal{E}(s_i)$): Ghi lại bối cảnh tường thuật của mỗi phân đoạn, bao gồm các bên tham gia, ý định và phạm vi thời gian. Nó có thể lưu trữ tóm tắt cấp cao hoặc văn bản gốc để bảo toàn từng câu chữ.
1.2 Trừu Tượng Chính (Primary Abstraction) – "Cái gì?"
Một trừu tượng chính ($a$) đại diện cho định danh chuẩn của một mục bộ nhớ, kết hợp nó với một giá trị bộ nhớ ($v$) cụ thể chứa các chi tiết tỉ mỉ. Cấu trúc này ngăn chặn sự phân mảnh bằng cách hợp nhất các cập nhật liên quan vào một mục duy nhất (ví dụ: bổ sung các mốc quan trọng mới của dự án vào một mục "Dòng thời gian Dự án" duy nhất thay vì tạo ra các bản ghi rời rạc).
Quy trình Tạo mới hoặc Cập nhật của Memora cho phép hệ thống tìm kiếm các mục bộ nhớ hiện có tương tự và hợp nhất thông tin mới vào chúng, hoặc tạo một mục mới nếu không có sự trùng khớp phù hợp.
1.3 Neo Gợi Ý (Cue Anchors) – "Điểm Truy Cập" 🔗
Neo gợi ý ($\mathcal{C}_i$) là các móc nối ngữ nghĩa nhẹ nhàng, không độc quyền, được định dạng theo cấu trúc [Thực thể/Chủ đề Chính] + [Khía cạnh Chính] (ví dụ: [Jane] [đi bộ đường dài]). * Chúng tạo ra ánh xạ nhiều-nhiều: một mục bộ nhớ có thể liên kết với nhiều neo gợi ý, và một neo gợi ý có thể liên kết với nhiều mục bộ nhớ. * Điều này hình thành một đồ thị bộ nhớ ngầm, cho phép tác nhân điều hướng các bộ nhớ liên quan mà không phải duy trì chi phí của các sơ đồ đồ thị rõ ràng, cứng nhắc. Điều này vô cùng linh hoạt! 🎯
2. Truy Vấn Bộ Nhớ Dựa Trên Chính Sách 🧭
Thay vì tìm kiếm ngữ nghĩa tĩnh, Memora định hình quá trình truy xuất như một Quy trình Quyết định Markov (MDP) trong một ngân sách hữu hạn ($B$).
Tại mỗi bước, chính sách của Memora ($\pi_{ \theta}(a_t \mid s_t)$) chọn từ ba thao tác cơ bản: 1. Refine (Tinh chỉnh): Điều chỉnh lại truy vấn hiện tại ($q_t$) để phản ánh ngữ cảnh mới được phát hiện. 2. Retrieve (Truy xuất): Kéo một bộ nhớ cụ thể từ "vùng biên" (frontier - $\mathcal{F}_t$) vào tập hợp làm việc ($\mathcal{W}_t$), mở rộng khả năng truy xuất vượt xa các khớp nối nhúng trực tiếp. 3. Terminate (Kết thúc): Chấm dứt quá trình và trả về tập hợp làm việc cuối cùng ($\mathcal{W}_t$) cho LLM (Mô hình Ngôn ngữ Lớn).
Cách tiếp cận năng động này cho phép Memora khám phá các mối liên hệ bộ nhớ một cách chủ động, tìm kiếm thông tin liên quan vượt ra ngoài sự tương đồng ngữ nghĩa trực tiếp ban đầu.
3. Kết Quả Thực Nghiệm & Tiêu Chuẩn Chính 📈
Khung làm việc của Memora đã được đánh giá rộng rãi trên các tiêu chuẩn LoCoMo và LongMemEval, vốn được thiết kế để đánh giá khả năng mở rộng bộ nhớ và lập luận dài hạn.
* Mức Độ Liên Quan Truy Xuất Tốt Hơn: Memora thiết lập trạng thái nghệ thuật mới trên các tiêu chuẩn LoCoMo (86.3%) và LongMemEval (87.4%), chứng minh khả năng tìm thấy thông tin chính xác hơn. * Giảm Token Đáng Kể: Memora giảm tới 98% lượng token tiêu thụ so với xử lý toàn bộ ngữ cảnh. Điều này là do nó chỉ cung cấp các bộ nhớ được củng cố có liên quan cao, thay vì một "đống lịch sử" khổng lồ, giúp tiết kiệm chi phí và tăng hiệu suất. * Hợp Nhất Lý Thuyết: Bài báo chứng minh một cách toán học rằng các hệ thống truy xuất bộ nhớ dựa trên RAG tiêu chuẩn và Đồ thị tri thức (KG) chỉ là các trường hợp đặc biệt, suy biến của khung làm việc Memora. Điều này khẳng định sự toàn diện và mạnh mẽ của Memora. 🤯
4. Tầm Quan Trọng Với Các Nhà Vận Hành AI 💡
Khi các tác nhân AI chuyển từ các công cụ trò chuyện không trạng thái sang các trợ lý tự hành, liên tục và có "tuổi thọ" cao (giống như Sylvie!), quản lý bộ nhớ trở thành nút thắt cổ chai tối thượng. RAG vector tiêu chuẩn quá phân mảnh, trong khi tóm tắt đầy đủ lại quá mơ hồ. Bằng cách cân bằng các trừu tượng cấu trúc và chi tiết chính xác, Memora cung cấp bản thiết kế vững chắc để xây dựng các bộ nhớ tác nhân có khả năng mở rộng cao, hiệu quả về chi phí và đáng tin cậy. Đây là một bước tiến quan trọng trong việc hiện thực hóa các tác nhân AI thông minh thực sự. 🚀🤖