Các agent dựa trên Mô hình Ngôn ngữ Lớn (LLM) ngày càng xuất sắc trong việc ra quyết định tuần tự, nhưng chúng vẫn còn một hạn chế lớn: chúng chỉ phản ứng tức thì trong các nhiệm vụ dài hạn. Khác với con người có khả năng suy luận "nếu-thì" để đánh giá các kế hoạch tiềm năng trước khi thực hiện, các LLM này thường thiếu tầm nhìn xa. 🧐
Để giải quyết thách thức này, một nghiên cứu mới từ Xuan Zhang và cộng sự (arXiv:2606.27483, 25/06/2026) đã đề xuất một mô hình huấn luyện thống nhất, giúp nội hóa khả năng lập kế hoạch có tầm nhìn tương lai vào một mô hình tự hồi quy duy nhất. Mô hình này được huấn luyện để diễn đạt cả chuỗi trạng thái dự kiến trong tương lai và một ước tính thành công dựa trên kế hoạch (tương tự như giá trị Q trong văn bản).
Khoảng Cách Giữa Định Dạng và Năng Lực ("Format-Capability Gap") 💡
Điểm cốt lõi mà nghiên cứu này chỉ ra là một "khoảng cách giữa định dạng và năng lực" (format-capability gap). Các tác giả nhấn mạnh:
> "Điều quan trọng, chúng tôi xác định một khoảng cách giữa định dạng và năng lực: việc chỉ tinh chỉnh các agent trên các dấu vết nhìn trước trong quá trình hậu huấn luyện dẫn đến sự bắt chước hời hợt về tầm nhìn xa mà không có nền tảng dự đoán thực sự."
Điều này có nghĩa là, khi các LLM chỉ được tinh chỉnh trực tiếp bằng dữ liệu lập kế hoạch từng bước hoặc dữ liệu nhìn trước, chúng chỉ học cách tạo ra định dạng của việc lập kế hoạch (ví dụ: "Nếu tôi làm X, thì Y sẽ xảy ra") mà không thực sự hiểu hoặc dự đoán chính xác động lực của môi trường. Để đạt được tầm nhìn xa thực sự, có nền tảng vững chắc, các agent đòi hỏi một quy trình huấn luyện ưu tiên năng lực.
Mô Hình Huấn Luyện Ba Giai Đoạn Đột Phá ✨
Để thu hẹp khoảng cách này, bài báo giới thiệu một mô hình huấn luyện ba giai đoạn có cấu trúc chặt chẽ:
[ Giai đoạn 1: WM-AMT ] ──> [ Giai đoạn 2: FE-SFT ] ──> [ Giai đoạn 3: FC-RL ] (Tiêm năng lực tiềm ẩn) (Cấu trúc định dạng đầu ra) (Hiệu chỉnh & Tinh chỉnh)
1. Huấn luyện Giữa kỳ Agent Mô hình Thế giới (WM-AMT) 🌐
* Mục tiêu: Tiêm trực tiếp các khả năng dự đoán tiềm ẩn vào các biểu diễn cơ sở của chính sách. * Cơ chế: Thay vì tập trung vào định dạng đầu ra, giai đoạn này xây dựng "mô hình thế giới" nền tảng bên trong LLM, cho phép nó ngầm hiểu các chuyển đổi trạng thái và động lực của môi trường.
2. Tinh chỉnh Có Giám sát Khơi gợi Định dạng (FE-SFT) 📝
* Mục tiêu: Cấu trúc các khả năng dự đoán tiềm ẩn đã được tiêm vào ở Giai đoạn 1. * Cơ chế: Tinh chỉnh có Giám sát (SFT) được áp dụng để dạy mô hình diễn đạt rõ ràng các dự đoán nội bộ của nó. Mô hình học cách xuất ra: * Một chuỗi trạng thái dự kiến trong tương lai (điều gì sẽ xảy ra tiếp theo). * Một ước tính thành công dựa trên kế hoạch (một giá trị Q tương tự bằng văn bản, đánh giá chất lượng của kế hoạch dự kiến).
3. Học Tăng cường Điều kiện Tầm nhìn Xa (FC-RL) ✅
* Mục tiêu: Tinh chỉnh sự hiệu chỉnh và tính hữu ích của các mô phỏng được tạo ra. * Cơ chế: Học Tăng cường (RL) được sử dụng để căn chỉnh các dự đoán bằng lời nói của agent với kết quả thực tế, đảm bảo rằng các mô phỏng "nếu-thì" được hiệu chỉnh cao và trực tiếp cải thiện hiệu suất nhiệm vụ cuối cùng.
Đánh Giá và Kết Quả Nổi Bật 📈
Mô hình này đã được đánh giá trong hai lĩnh vực chính: * Nhiệm vụ Tìm kiếm: Kiểm tra khả năng của agent trong việc điều hướng các cây quyết định phức tạp và đánh giá các lựa chọn đường đi. * Lý luận Toán học: Kiểm tra khả năng giải quyết vấn đề nhiều bước, dài hạn.
Các Phát Hiện Chính:
* Hiệu suất Vượt trội: Mô hình ba giai đoạn được đề xuất luôn vượt trội so với các phương pháp Tinh chỉnh Có Giám sát (SFT) và Học Tăng cường (RL) tiêu chuẩn. * Tầm nhìn Xa có Nền tảng: Bằng cách tách biệt việc tiêm năng lực (WM-AMT) khỏi định dạng (FE-SFT), agent đã thể hiện khả năng dự đoán có nền tảng thực sự chứ không phải chỉ là sự bắt chước hời hợt. * Hiệu chỉnh Cải thiện: Giai đoạn FC-RL đã hiệu chỉnh thành công các ước tính "giá trị Q" nội bộ của agent, làm cho khả năng tự đánh giá của nó có tính dự đoán cao về thành công thực tế.
Nghiên cứu này mở ra một hướng đi quan trọng trong việc phát triển các agent AI thông minh hơn, có khả năng tư duy chiến lược và nhìn trước tương lai như con người. Đây là một bước tiến đáng kể hướng tới AI có thể thực sự hiểu và tương tác với thế giới phức tạp. Kalera News sẽ tiếp tục theo dõi sát sao những đột phá như vậy! 💡🤖