AGI Maze: Khung Đánh Giá Mới Bóc Trần Giới Hạn Của LLM Trong Việc "Mô Hình Hóa Thế Giới" 🗺️🧠
Các mô hình ngôn ngữ lớn (LLM) dù mạnh mẽ trong việc hoàn thành các mẫu văn bản, nhưng lại chật vật khi cần xây dựng và duy trì một biểu diễn thế giới bền vững và có thể thao tác được. Điều này trở nên rõ ràng hơn khi các tác vụ đòi hỏi khả năng lập luận trong môi trường có một phần quan sát được, có trạng thái và yêu cầu bộ nhớ cùng các giả thuyết có cấu trúc về trạng thái ẩn. Để giải quyết khoảng trống này, các nhà nghiên cứu đã giới thiệu AGI Maze – một khung đánh giá nhẹ nhàng, giúp kiểm tra khả năng các tác nhân AI xây dựng và sử dụng mô hình thế giới, thay vì chỉ suy luận các quy tắc cục bộ từ các quan sát có sẵn.
1. Động Lực: Từ Giới Hạn Của LLM Đến Mô Hình Thế Giới 💡
1.1. LLM: Tiên Đoán Tĩnh, Không Phải Mô Phỏng Thế Giới Bền Vững 🤔
Một hạn chế cốt lõi của các tác nhân chỉ dựa vào LLM hiện tại là mô hình của chúng mang tính tĩnh. "Động lực" thường chỉ đến từ việc: * Thêm văn bản vào lời nhắc (lịch sử tin nhắn làm bộ nhớ làm việc). * Truy xuất văn bản bên ngoài (RAG) vào lời nhắc (bộ nhớ dài hạn). * Đưa kết quả của công cụ trở lại dưới dạng văn bản.
Điều này tạo ra hai vấn đề liên quan: 1. Bộ nhớ dưới dạng văn bản không hiệu quả: Nhiều tác vụ yêu cầu theo dõi trạng thái rõ ràng, xem xét lại các quan sát trước đó và thực hiện tìm kiếm đa bước. Mã hóa mọi thứ dưới dạng văn bản phi cấu trúc dẫn đến hành vi dễ đổ vỡ và chi phí token cao. 2. Không đảm bảo biểu diễn: Việc dự đoán token tiếp theo khuyến khích trích xuất thông tin cần thiết để tạo ra đầu ra, chứ không phải duy trì một biểu diễn ổn định, có thể thao tác được về "những gì là sự thật trong thế giới". Trong các tác vụ ngôn ngữ, sự thiếu hụt này phần nào bị che giấu vì ngôn ngữ vốn đã là một mô tả thế giới; trong môi trường tương tác, nó trở nên rõ ràng.
1.2. Tại Sao "Mô Hình Thế Giới" Cần Hơn Là Chỉ Phát Hiện Quy Tắc 🗺️
Trong lĩnh vực ngôn ngữ, "mô hình thế giới" thường bị giảm xuống thành "phát hiện quy tắc của một trò chơi". Nhưng đối với các tác nhân, một khái niệm đầy đủ về mô hình thế giới còn bao gồm: * Biểu diễn trạng thái tiềm ẩn (những gì không thể quan sát được hiện tại). * Duy trì niềm tin dưới sự không chắc chắn. * Cập nhật niềm tin đó bằng bằng chứng mới. * Lập luận dựa trên các biểu diễn (bản đồ, đồ thị, sơ đồ nhân quả). * Sử dụng bộ nhớ hiệu quả (bộ nhớ làm việc, bộ nhớ sự kiện, kiến thức dài hạn).
Nói cách khác: mô hình thế giới là về trạng thái và biểu diễn, không chỉ về quy tắc.
1.3. Các Thử Nghiệm Mô Hình Thế Giới Và Hạn Chế Của Chúng 🚧
AGI-ARC-3 là một chuẩn mực quan trọng để tổng quát hóa qua các tác vụ và suy luận các quy tắc ẩn. Tuy nhiên, nhiều cài đặt giống ARC: * Thường là có thể quan sát được hoàn toàn. * Không yêu cầu tác nhân duy trì trạng thái thế giới bền vững, có thể truy vấn theo thời gian. * Không kiểm tra áp lực của việc quan sát một phần, định vị, lập bản đồ và bộ nhớ dài hạn.
AGI-ARC-3 không trực tiếp kiểm tra 'liệu tác nhân có thể xây dựng và sử dụng một biểu diễn của trạng thái thế giới đang phát triển không?'. Các mô hình ngôn ngữ lớn (LLM) mở rộng trực tiếp sang lĩnh vực tác nhân cơ thể (embodied agents) có thể học cách thực hiện các chuỗi hành động ngắn, nhưng chúng không giải quyết được vấn đề định vị và lập bản đồ đồng thời (SLAM) để điều hướng trở lại các địa điểm đã gặp. Đây là lý do tại sao vấn đề mô hình thế giới thường được đặt ra trong các môi trường có thể quan sát bằng hình ảnh, nhưng cách tiếp cận này lại thường quá đơn giản.
2. AGI Maze: Khung Thử Nghiệm Nhẹ Cho Trạng Thái, Bộ Nhớ Và Biểu Diễn 🧩
2.1. Mục Tiêu Thiết Kế ✅
AGI Maze được thiết kế để: * Tương tác và có trạng thái, nhưng với băng thông thấp (không yêu cầu pixel). * Mặc định là quan sát một phần (ngoại trừ chế độ hướng dẫn). * Đủ đơn giản để con người chơi. * Có thể mở rộng với các cơ chế mới. * Sử dụng được qua API HTTP ổn định.
2.2. Môi Trường Cơ Bản: Lưới, Tường, Khối Đá Và Lối Thoát 🧭
Tác nhân sống trên một lưới (kích thước phổ biến từ 3x3 đến 8x8) và chọn hành động: lên/xuống/trái/phải. Mê cung có tường nội bộ, một khối đá không thể phá vỡ với một lối ra duy nhất, một rương kho báu và chìa khóa của nó. Mê cung không hiển thị cho người chơi. Chỉ vị trí bắt đầu và kích thước lưới được cung cấp. Các quan sát được cung cấp dưới dạng văn bản (ví dụ: "Bạn đã cố gắng đi sang phải, nhưng một khối đá chặn đường"). Do đó, tác nhân phải tự xây dựng bản đồ hoặc theo dõi vị trí, tường đã biết, lối đi và các ô chưa được thăm.
2.3. Các Động Lực Làm Tăng Khả Năng Quan Sát Một Phần 💥
Để việc suy luận và biểu diễn trạng thái thực sự cần thiết, AGI Maze bao gồm các cơ chế như: * Sông: Bước vào ô sông sẽ kích hoạt di chuyển cưỡng bức xuôi dòng, nhưng tác nhân không được thông báo về hướng dòng chảy. Tác nhân phải lập luận về cả di chuyển có chủ đích và chuyển đổi cưỡng bức. * Vòng Lặp Hố: Bước vào một hố sẽ dịch chuyển tác nhân đến hố tiếp theo trong một vòng lặp.
Các cơ chế này được chọn vì các chiến lược "khám phá lưới" ngây thơ sẽ bị phá vỡ: định vị và lập bản đồ yêu cầu các giả thuyết rõ ràng. Số bước được phép bị giới hạn, buộc tác nhân phải điều hướng và khám phá một cách thông minh. Trong các mê cung khó, các yếu tố quan trọng có thể chỉ đạt được bằng một chuỗi hành động nghiêm ngặt.
2.4. Các Phần Mở Rộng Để Kiểm Tra Tính Tổng Quát 🚀
Để thúc đẩy các nhà nghiên cứu tránh "hard-coding" và "overfitting", khung AGI Maze hỗ trợ các phần mở rộng ngoài các quy tắc cốt lõi, bao gồm: * Các vật phẩm mới (thuyền, lựu đạn, đèn pin). * Các loại ô mới. * Các hành động mới (phá hủy, chiếu sáng).
Các yếu tố mới này đòi hỏi các heuristics và chiến lược mới để đáp ứng ngân sách bước. Ví dụ, đèn pin yêu cầu tác nhân phải tìm ra tình huống sử dụng nó để tiết kiệm di chuyển hoặc giảm sự không chắc chắn. Một số mở rộng thậm chí có thể tạo ra tình huống mà việc đạt được mục tiêu là hoàn toàn bất khả thi nếu không hiểu cơ chế mới. Điều này giúp quan sát "hiểu biết thế giới tổng quát" (theo nghĩa hẹp nhưng có ý nghĩa): liệu tác nhân có suy luận các cơ chế mới từ tương tác hay dựa vào các đoạn mã cứng không linh hoạt?
3. Cấu Trúc Khung Đánh Giá 📊
3.1. Các Nhóm Tác Vụ Và Mục Đích Của Chúng
Các mê cung hiện được chia thành 5 nhóm lớn: * TUTORIAL: Bản đồ mở; dùng để hướng dẫn con người/tác nhân các cơ chế cơ bản; không dùng để chấm điểm. * TRAINING: Mê cung nhỏ + ngân sách bước hào phóng; hữu ích cho lặp lại, hiệu chỉnh, huấn luyện RL và đánh giá chuẩn cơ bản. * CLASSIC: Mê cung lớn hơn theo các quy tắc cốt lõi; được hiệu chỉnh so với con người; vượt qua cho thấy một bộ giải mạnh. * EXTENDED: Kiểm tra tính tổng quát thông qua các cơ chế mới. * HIDDEN: Nhóm giữ bí mật; xác nhận rằng hiệu suất của EXTENDED không chỉ là 'khớp dữ liệu' đơn thuần. Nó chứa các phần mở rộng với các vật phẩm và loại ô mới mà các nhà nghiên cứu không biết, và cơ chế của chúng có thể không được mô tả cho tác nhân. Trong trường hợp sau, tác nhân phải suy luận các quy tắc cơ bản từ tương tác.
Sự hiện diện của nhóm HIDDEN nhấn mạnh mục tiêu cuối cùng: không phải để 'đánh bại chuẩn mực' bằng mọi giá, mà là để chứng minh khả năng mô hình hóa thế giới tổng quát có thể chuyển giao.
3.2. API
Trang web AGI Maze (https://agimaze.org/) cung cấp chế độ chơi cho con người cũng như API cho tác nhân. API này cho phép truy xuất mô tả trò chơi (GET /api/description), bắt đầu trò chơi mới (POST /api/start) và thực hiện các bước (POST /api/step). Phản hồi bao gồm các quan sát dưới dạng văn bản và định dạng có cấu trúc, kho đồ hiện tại và ngân sách bước khuyến nghị. Chi tiết API và ví dụ về tác nhân được cung cấp trong kho agimaze-bench (https://github.com/Necr0x0Der/agimaze-bench).
4. Ví Dụ Đánh Giá Chuẩn Cơ Sở 📝
4.1. Tác Nhân LLM Thô ❌
Các tác nhân LLM thô (vanilla LLM agents), chỉ chạy trực tiếp LLM trên lịch sử tin nhắn và các quy tắc trò chơi mà không xây dựng bản đồ hay bất kỳ 'tạo phẩm' bên ngoài nào, đã được thử nghiệm. Kết quả cho thấy: * Chúng thường xuyên thất bại trong việc giải quyết ngay cả các mê cung TRAINING đơn giản một cách đáng tin cậy. * Một số mô hình, như GPT-4o Mini, thậm chí yếu hơn một tác nhân đi bộ ngẫu nhiên. * Gemini-3.1-Flash-Light cho thấy kết quả tốt nhất trên các mê cung nhỏ không có sông và hố, nhưng không mô hình nào vượt trội hơn tác nhân đi bộ ngẫu nhiên đối với các mê cung 5x4 trở lên. * Ngay cả các mô hình mạnh hơn như GPT-5.5 và Gemini 3.5 Flash cũng chỉ đạt tỉ lệ thành công 30-40% trên các mê cung khó hơn (S3-03) với ngân sách bước gấp đôi, không thể so sánh với con người.
Điều này củng cố giả thuyết rằng, trong quá trình suy luận token tiếp theo tiêu chuẩn, LLM không xây dựng một biểu diễn ẩn rõ ràng, có thể cập nhật và truy vấn về trạng thái môi trường dưới dạng một bản đồ nhất quán.
4.2. Lời Nhắc Là "Giấy Và Bút Chì" ✏️
Con người có thể giải quyết các mê cung tương đối đơn giản mà không cần giấy bút, nhưng các tác nhân LLM thô còn yếu hơn cả thế. Để xem liệu việc cho phép tác nhân LLM ghi chú vào lời nhắc (prompt) có thể giúp ích như thế nào, các nhà nghiên cứu đã thiết kế một tác nhân lập kế hoạch đơn giản. Tác nhân này thực hiện mỗi hành động qua hai giai đoạn: 1. Được nhắc ghi chú về trạng thái khám phá hiện tại và các hành động trong tương lai, coi những ghi chú này là bộ nhớ làm việc. 2. Được nhắc thực hiện một cuộc gọi công cụ để thực hiện hành động.
Việc cung cấp khả năng sử dụng lịch sử tin nhắn làm bộ nhớ làm việc với các hướng dẫn tối thiểu cho phép tác nhân theo dõi tọa độ, trạng thái khám phá, tọa độ rương, các hành động trong tương lai, v.v.
Kết quả cải thiện đáng kể cho các mô hình mạnh hơn trên S3-03 (với ngân sách bước gấp đôi): * GPT 5.5: 30% lên 60% * Gemini 3.5 Flash: 40% lên 70%
Sự gia tăng này cho thấy thông tin mà LLM đưa vào ghi chú của chúng không được xây dựng bởi chính LLM trong các biểu diễn tiềm ẩn nội bộ trong quá trình suy luận trên lịch sử tương tác thuần túy. Tuy nhiên, các LLM nhẹ hơn (như trong Bảng 1) không cho thấy sự cải thiện nào, vẫn đạt điểm 0 trên S3-03.
Kết Luận Chung 🌟
AGI Maze là một khung đánh giá nhẹ nhàng nhưng mạnh mẽ, chuyên biệt để nghiên cứu và đánh giá khả năng mô hình hóa thế giới của AI – theo nghĩa quan trọng đối với các tác nhân: xây dựng và sử dụng các biểu diễn của một trạng thái thế giới tiềm ẩn, đang phát triển dưới sự quan sát một phần, và lập luận về trạng thái đó trong thời gian dài dưới ngân sách bước hạn chế.
Các kết quả ban đầu xác nhận rằng các tác nhân LLM thô, với cùng các quan sát bằng tiếng Anh như con người, thường thất bại trong việc giải quyết ngay cả các mê cung TRAINING nhỏ một cách đáng tin cậy. Điều này phù hợp với giả thuyết rằng, trong quá trình suy luận token tiếp theo tiêu chuẩn, LLM không xây dựng một biểu diễn rõ ràng về trạng thái môi trường mà chúng có thể cập nhật và truy vấn như một bản đồ mạch lạc. Cho phép tác nhân sử dụng lời nhắc/lịch sử tin nhắn như một dạng bộ nhớ làm việc (ví dụ: bằng cách viết ghi chú trước khi hành động) có thể cải thiện hiệu suất cho các mô hình mạnh hơn, nhưng vẫn còn hạn chế.
AGI Maze cố tình gây áp lực lên các khả năng mà khoảng cách này bộc lộ: * Theo dõi niềm tin dưới sự quan sát một phần. * Xây dựng bản đồ (hoặc các biểu diễn trạng thái thay thế). * Sử dụng và nén bộ nhớ (nên lưu trữ gì, cập nhật như thế nào). * Lập kế hoạch dài hạn dưới sự không chắc chắn. * Thích ứng với các cơ chế mới thông qua các phần mở rộng.
Đồng thời, khung này cố ý tránh các vấn đề về nhận thức cấp độ pixel và điều khiển liên tục, để cô lập biểu diễn và lập luận như điểm nghẽn chính. Bước tiếp theo tự nhiên là đánh giá các tác nhân LLM xây dựng các mô hình thế giới có thể tính toán rõ ràng dưới dạng 'tạo phẩm' bên ngoài (ví dụ: bản đồ, đồ thị, hệ thống ràng buộc). AGI Maze không phải là một chuẩn mực cố định, mà là một khung linh hoạt để hỗ trợ nhiều hướng nghiên cứu khác nhau, từ huấn luyện tác nhân RL đến nghiên cứu khám phá dưới sự không chắc chắn.
--- Nguồn: https://arxiv.org/abs/2607.00627