Alibaba Qwen-AgentWorld: "Mô Hình Thế Giới" Đào Tạo AI Tác nhân, Nâng Tầm Hiệu Suất Đột Phá! 🤯🚀
Kalera News – Nhóm Qwen của Alibaba vừa gây chú ý lớn trong cộng đồng AI với việc ra mắt Qwen-AgentWorld, hai mô hình không được huấn luyện để hoạt động như tác nhân (agent) mà để dự đoán phản ứng của môi trường. Sự đột phá này hứa hẹn sẽ thay đổi cách chúng ta phát triển các tác nhân AI, mở ra những khả năng mới mẻ. Qwen-AgentWorld bao phủ bảy lĩnh vực quan trọng dưới một kiến trúc duy nhất: MCP, Tìm kiếm, Terminal, Kỹ thuật Phần mềm, Android, Web và Hệ điều hành.
Động thái này tiếp nối nỗ lực gần đây của Alibaba trong lĩnh vực tác nhân tự động. Trước đó, Qwen3.7-Max, ra mắt vào tháng 5, đã gây ấn tượng với khả năng thực thi tự động kéo dài tới 35 giờ.
Sự thay đổi trọng tâm này nhằm giải quyết một vấn đề nan giải mà các nhóm phát triển tác nhân quy mô lớn thường gặp phải. Các công cụ tìm kiếm thực tế chỉ trả về kết quả có sẵn, không cho phép can thiệp để tạo ra các điều kiện kiểm soát. Terminal trực tiếp cũng không thể giả lập tình trạng đĩa cứng đầy theo yêu cầu. Việc đào tạo tác nhân bị giới hạn bởi những gì môi trường sản xuất cung cấp, thiếu một cách có hệ thống để phơi bày các trường hợp hiếm gặp (edge case) mà tác nhân cần xử lý nhưng hiếm khi đối mặt trong quá trình huấn luyện.
Nhóm nghiên cứu đã huấn luyện tác nhân trong môi trường mô phỏng được tạo ra bởi Qwen-AgentWorld và ghi nhận mức tăng hiệu suất vượt trội so với việc chỉ đào tạo trong môi trường thực. Trong một thử nghiệm riêng biệt, việc sử dụng đào tạo mô hình thế giới như một bước "làm nóng" trước khi tinh chỉnh tác nhân đã cải thiện hiệu suất trên bảy tiêu chuẩn, bao gồm ba tiêu chuẩn mà mô hình chưa từng thấy trong quá trình đào tạo.
Bài báo khoa học đi kèm với công bố này đã chỉ ra một lỗ hổng trong các nghiên cứu tác nhân trước đây: "Chúng tôi cho rằng mô hình hóa thế giới (world modeling) là một mảnh ghép quan trọng còn thiếu trên con đường hướng tới các tác nhân tổng quát."
Qwen-AgentWorld Huấn Luyện Dựa Trên Phản Ứng Môi Trường, Không Phải Hành Động Của Tác nhân 🤔
Hầu hết các mô hình tác nhân được huấn luyện để trả lời một câu hỏi: "Với những gì môi trường vừa hiển thị, tôi nên làm gì tiếp theo?" Qwen-AgentWorld lại được huấn luyện để trả lời câu hỏi ngược lại: "Với những gì tác nhân vừa làm, môi trường sẽ hiển thị điều gì tiếp theo?"
Sự đảo ngược này là cốt lõi của cái mà bài báo gọi là "mô hình thế giới ngôn ngữ". Thay vì tối ưu hóa việc lựa chọn hành động, mô hình học cách dự đoán trạng thái môi trường tiếp theo trên cả bảy miền dưới một mục tiêu huấn luyện duy nhất. Các công trình trước đây hẹp hơn: WebWorld của Qwen (tháng 2) chỉ bao gồm môi trường web; Mô hình Thế giới Tác nhân của Snowflake (cùng tháng) tạo ra các môi trường dựa trên mã lệnh và SQL thay vì huấn luyện mô hình để dự đoán trạng thái. Qwen-AgentWorld là mô hình đầu tiên bao quát bảy miền trong một mô hình duy nhất, với khả năng mô hình hóa môi trường được tích hợp ngay từ giai đoạn tiền huấn luyện sớm nhất.
Alibaba đã huấn luyện cả hai mô hình qua ba giai đoạn trên hơn 10 triệu quỹ đạo tương tác môi trường từ các lần chạy tác nhân thực tế. Giai đoạn một dạy mô hình cách môi trường hoạt động – hệ thống tệp, trạng thái terminal, thay đổi DOM của trình duyệt, phản hồi API. Giai đoạn hai huấn luyện mô hình suy luận về những gì sẽ xảy ra tiếp theo trước khi dự đoán. Giai đoạn ba, học tăng cường, tinh chỉnh các dự đoán bằng cách sử dụng các kiểm tra dựa trên quy tắc và chấm điểm chất lượng mở.
Cả hai mô hình đều là thiết kế Mixture-of-Experts (MoE) – chỉ một phần nhỏ các tham số được kích hoạt cho mỗi token. Mô hình 35B kích hoạt 3B tham số; mô hình 397B kích hoạt 17B. Cả hai đều hỗ trợ cửa sổ ngữ cảnh 256K. Đối với các miền GUI (Android, Web và OS), các mô hình hoạt động từ cây hỗ trợ tiếp cận văn bản và hệ thống phân cấp giao diện người dùng thay vì ảnh chụp màn hình.
Các trọng số của mô hình 35B và AgentWorldBench có sẵn theo giấy phép Apache 2.0; trọng số của mô hình 397B không được phát hành công khai.
Kết Quả Huấn Luyện Đáng Giá Hơn Điểm Benchmark 📈
Điểm benchmark cho thấy độ chính xác của các mô hình trong việc dự đoán những gì môi trường trả về. Tuy nhiên, kết quả huấn luyện mới cho thấy giá trị thực sự của khả năng dự đoán đó đối với các nhóm xây dựng tác nhân – và đó mới là những con số quan trọng hơn.
Theo các nhà nghiên cứu, các tác nhân được huấn luyện trong môi trường mô phỏng có kiểm soát đã vượt trội hơn các tác nhân được huấn luyện trong môi trường thực. Việc tiêm các nhiễu loạn có mục tiêu – các phản hồi một phần buộc tác nhân phải thực hiện thêm các bước, và các trường hợp hiếm gặp mà môi trường thực hiếm khi bộc lộ – đã đẩy điểm MCPMark từ 24.6 lên 33.8. Đối với Tìm kiếm, các tác nhân được huấn luyện trong các thế giới hoàn toàn hư cấu đã chuyển giao sang các tác vụ tìm kiếm thực tế, đẩy F1 Item của WideSearch từ 34.02 lên 50.31 trên mô hình 35B mở. Một thử nghiệm "làm nóng" riêng biệt cho thấy tiền huấn luyện mô hình thế giới đã cải thiện BFCL v4 từ 62.29 lên 71.25 và Claw-Eval từ 53.60 lên 64.88 mà không cần tinh chỉnh cụ thể cho tác nhân.
Góc Nhìn Phê Phán Từ Cộng Đồng AI: Cơ Hội và Thách Thức 🧐⚠️
Bài báo đã nhận được phản ứng ngay lập tức từ các nhà nghiên cứu AI trên X (trước đây là Twitter). Những lo ngại mà họ đưa ra vạch rõ những gì các nhà thực hành cần kiểm chứng trước khi áp dụng các phát hiện.
Về mục tiêu huấn luyện và kết quả chuyển giao, đánh giá từ một nhà nghiên cứu AI/ML là rất trực tiếp. "Mọi mô hình 'tác nhân' khác đều được huấn luyện để hành động trong môi trường," @drawais_ai, một người có bằng tiến sĩ và thường xuyên phân tích các bài báo AI, viết. "Qwen đã đảo ngược câu hỏi. Họ huấn luyện mô hình để dự đoán chính môi trường... Kiến thức dự đoán đó sau đó chuyển giao sang các tác vụ tác nhân ngay cả khi không có tinh chỉnh cụ thể cho tác nhân." Anh ấy xác định kết quả Controllable Sim RL là "minh chứng" cho tuyên bố rằng huấn luyện tổng hợp có thể thay thế RL trong môi trường thực ở quy mô lớn, và lưu ý rằng ba trong số bảy tiêu chuẩn chuyển giao hoàn toàn nằm ngoài miền.
Khoảng cách benchmark cũng ngay lập tức bị giám sát chặt chẽ. "AgentWorldBench là một benchmark do Alibaba xây dựng và công bố trong cùng một bài báo," @TheSignal_Desk, người tập trung vào những đánh giá trung thực và các con số chính trong nghiên cứu AI, viết. "Họ đã viết bài kiểm tra, sau đó dẫn đầu nó với 0.46."
Phương pháp Sim-RL là kết quả mà @limalemonnn, người xây dựng các tác nhân AI trong sản xuất, xác định là cần được xem xét kỹ lưỡng nhất trước khi tuyên bố chính được trích dẫn. "Các tác nhân được huấn luyện trong mô phỏng thường bị overfitting với những đặc điểm riêng của trình mô phỏng," họ viết. "Nếu mô hình thế giới quá 'sạch', tác nhân sẽ học mô hình, chứ không phải tác vụ." Họ chỉ ra phần phân chia dữ liệu giữ lại (holdout split) của bài báo là phần mà các nhà thực hành nên đọc trước khi hành động theo các con số.
Lo ngại về overfitting đã có một phần câu trả lời trong dữ liệu. Khoảng cách giữa Sim RL không kiểm soát (MCPMark 24.6) và Sim RL có kiểm soát (MCPMark 33.8) cho thấy các lợi ích phụ thuộc đáng kể vào cơ chế kiểm soát, chứ không chỉ riêng độ chính xác của mô phỏng. Kết quả Tìm kiếm trong thế giới hư cấu, nơi các tác nhân được huấn luyện trong môi trường được tạo ra có thể chuyển giao sang các tác vụ tìm kiếm thực tế, là bằng chứng mạnh mẽ nhất của bài báo chống lại lo ngại về overfitting.
Ý Nghĩa Quan Trọng Cho Các Đội Ngũ Kỹ Sư AI ✨💡
Đối với các đội ngũ kỹ sư AI đang xây dựng và mở rộng các quy trình tác nhân, công trình này báo hiệu một sự thay đổi đáng kể trong cách xây dựng khả năng tác nhân. Các nhóm đào tạo tác nhân ở quy mô lớn hiện có một lựa chọn thứ ba giữa RL trong môi trường thực và các benchmark tĩnh: mô phỏng có kiểm soát để tiêm các trường hợp hiếm gặp mà môi trường sản xuất sẽ không thể bộc lộ.
* Môi trường tổng hợp là một lớp huấn luyện hợp lệ. Mô phỏng có kiểm soát tiêm các điều kiện mà môi trường thực sẽ không tạo ra là một bổ sung cho RL trong môi trường thực, chứ không phải một lối tắt. * Những gì một mô hình học được trước khi bắt đầu huấn luyện tác nhân quan trọng hơn hầu hết các quy trình hiện tại. Phát hiện về "làm nóng" – tăng hiệu suất trên các benchmark chưa từng thấy mà không cần huấn luyện cụ thể cho tác nhân – cho thấy nền tảng môi trường nên được đặt sớm hơn trong quá trình phát triển so với thực tế hiện nay.