Robotics tools-ai 17 thg 6, 2026 6 phút đọc

Qwen-Robot Suite: Bộ Não AI Đưa Robot Ra Ngoài Màn Hình, Chinh Phục Thế Giới Vật Lý! 🤖🚀

Qwen-Robot Suite là bộ mô hình nền tảng đột phá, thu hẹp khoảng cách giữa khả năng hiểu thị giác-ngôn ngữ và điều khiển vật lý của robot, thông qua ba mô hình chuyên biệt: Qwen-RobotNav, Qwen-RobotManip và Qwen-RobotWorld.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc qwen.ai

Qwen-Robot Suite: Bộ Mô Hình Nền Tảng Cho Trí Tuệ Thế Giới Vật Lý

Ngày Phát Hành: 16 tháng 6 năm 2026 Tác Giả: Đội ngũ Qwen

---

Tóm Lược Điều Hành

Qwen-Robot Suite là cầu nối giữa khả năng hiểu biết thị giác-ngôn ngữ (nhận thức/lập kế hoạch) và điều khiển vật lý (hành động). Trong khi các Mô hình Thị giác-Ngôn ngữ (VLM) có thể suy luận và lên kế hoạch bằng ngôn ngữ, chúng không thể trực tiếp tạo ra lệnh điều khiển động cơ. Qwen-Robot Suite giải quyết thách thức căn bản này với ba mô hình nền tảng chuyên biệt, biến trí tuệ tổng quát thành hành động vật lý:

* Qwen-RobotNav: Thống nhất các nhiệm vụ điều hướng và di chuyển thông qua một giao thức quan sát có thể kiểm soát. * Qwen-RobotManip: Tiêu chuẩn hóa dữ liệu robot không đồng nhất vào một không gian chuẩn để thao tác đa dạng trên nhiều dạng vật lý. * Qwen-RobotWorld: Huấn luyện đồng thời hơn 20 dạng vật lý (embodiments) dưới một mô hình thế giới duy nhất sử dụng giao diện hành động ngôn ngữ tự nhiên.

> Thông tin cốt lõi: "Nhìn thấy không phải là hành động: khoảng cách giữa hiểu biết thị giác và ngôn ngữ với điều khiển vật lý vẫn là nút thắt cổ chai trung tâm cho trí tuệ thể hiện." 💡

---

1. Qwen-RobotNav: Cánh Cổng Dẫn Lối Di Chuyển Vật Lý 🧭

Qwen-RobotNav (được xây dựng trên Qwen3-VL) thống nhất năm lĩnh vực điều hướng dưới một bộ trọng số duy nhất. Nó giải quyết các yêu cầu bộ nhớ khác nhau của các nhiệm vụ di chuyển (ví dụ: thực hiện chỉ dẫn tầm xa so với theo dõi mục tiêu tầm ngắn) bằng cách sử dụng một giao diện tham số hóa.

Tính Năng & Kiến Trúc Nổi Bật

* Điều hướng Đa Miền Thống Nhất: Hỗ trợ Điều hướng Thị giác-Ngôn ngữ (VLN), Điều hướng Mục tiêu Đối tượng (ObjNav), Theo dõi Mục tiêu, Lái xe Tự động và Trả lời Câu hỏi Thể hiện (EQA). * Giao Thức Quan Sát Có Thể Điều Khiển: Tiếp xúc bốn trục dưới dạng các tham số thời gian suy luận (được ngẫu nhiên hóa trong quá trình huấn luyện) mà không yêu cầu thay đổi kiến trúc: 1. Ngân sách token thị giác 2. Suy giảm theo thời gian 3. Trọng số mỗi camera 4. Chế độ lấy mẫu khung hình * Hệ Thống Điều Hướng Tác Tử (Agentic): Hoạt động như một nguyên thủy có thể cấu hình lại. Một bộ lập kế hoạch cấp cao hơn (Qwen3.7-Plus) phân tách các mục tiêu tầm xa, điều phối động các cuộc gọi điều hướng và quản lý hệ thống bộ nhớ hai cấp.

Hiệu Suất & Tiêu Chuẩn

* VLN-CE RxR: Tỷ lệ thành công (SR) 76,5%. * HM3Dv2 (Mục tiêu Đối tượng): SR 75,6% (chỉ dùng RGB, vượt trội so với các phương pháp dựa trên độ sâu). * EVT-Bench (Theo dõi): Tỷ lệ theo dõi 90,0%. * NAVSIM (Lái xe): 91,4 PDMS (sử dụng Qwen-RobotNav-4B). * EXPRESS-Bench: Cải thiện +15,4% so với SOTA trước đây với ít hơn 77% bước điều hướng khi tích hợp vào hệ thống tác tử. * Triển Khai Thực Tế: Được triển khai không cần huấn luyện (zero-shot) trên robot bốn chân Unitree Go2 (sử dụng NVIDIA Jetson Thor, độ trễ 196ms) chỉ dùng camera độ phân giải thấp tích hợp để điều hướng đa phòng. 🐕

---

2. Qwen-RobotManip: Nền Tảng Của Tương Tác Vật Lý 🦾

Qwen-RobotManip (được xây dựng trên Qwen3.5-4B VL với đầu hành động DiT khớp luồng) cho phép huấn luyện đa dạng vật lý bằng cách làm cho các cánh tay robot, bàn tay và nền di động không đồng nhất tương thích về mặt biểu diễn.

Cơ Chế Chính Để Căn Chỉnh

1. Biểu Diễn Trạng Thái-Hành Động 80 Chiều Thống Nhất: Được chia sẻ trên các dạng vật lý cánh tay đơn, cánh tay đôi, bàn tay khéo léo và di động. 2. Tư Thế Delta Của Đầu Cuối Khung Camera: Tiêu chuẩn hóa các hành động để các chuyển động tương tự về mặt thị giác gần nhau về mặt số học trên các hình thái robot khác nhau. 3. Thích Ứng Chính Sách Trong Ngữ Cảnh: Đọc lịch sử thực thi như một chữ ký thể hiện ngụ ý để thích ứng theo thời gian thực, tức thì.

Quy Mô Dữ Liệu & Tổng Hợp

Mô hình được huấn luyện trên hơn 38.100 giờ dữ liệu, hoàn toàn từ các tài nguyên mã nguồn mở: * 11.320 giờ dữ liệu robot mã nguồn mở. * 1.933 giờ video con người góc nhìn thứ nhất (egocentric) mã nguồn mở. * 24.808 giờ trình diễn robot tổng hợp trên 15 dạng vật lý, được tạo ra thông qua quy trình tổng hợp Người-thành-Robot (chuyển đổi hành động, loại bỏ/lấp đầy bàn tay, kết xuất mô phỏng và tổng hợp dựa trên độ sâu).

> Phát hiện quan trọng: Căn chỉnh là điều kiện tiên quyết cho quy mô. Chỉ các mô hình có biểu diễn đa dạng vật lý thống nhất (UnifiedSpace + UnifiedEEF) mới thể hiện khả năng mở rộng dữ liệu log-tuyến tính rõ ràng. Nếu không có căn chỉnh, việc thêm nhiều dữ liệu hơn sẽ tạo ra các đường cong thất thường hoặc phẳng.

Hiệu Suất & Tiêu Chuẩn

* RoboChallenge Table30 v1 (Hạng Tổng Quát): Xếp hạng #1 với Tỷ lệ thành công 45% (chiếm 2 vị trí dẫn đầu, vượt 20% so với vị trí thứ 3). * LIBERO-Plus: 91,4% (+7.0 so với pi_0.5). * RoboTwin-C2R Hard: 69,4% (+21.5 so với pi_0.5). * RoboCasa365 (Composite-Unseen): 14,9% (gấp 3 lần so với mô hình tốt nhất tiếp theo). * EBench: 45,6% (+18.5 so với đối thủ cạnh tranh). * RoboTwin-IF: 72,0% (+22.4 so với pi_0.5), chứng tỏ khả năng điều khiển mạnh mẽ theo ngôn ngữ. 💪

---

3. Qwen-RobotWorld: Thế Giới Robot Vô Tận 🌌

Qwen-RobotWorld là một bộ mô phỏng thế giới vật lý học hàm chuyển đổi trạng thái của thế giới. Với một quan sát hiện tại và một hành động bằng ngôn ngữ tự nhiên, nó dự đoán các khung video tiếp theo. Nó cung cấp các mô phỏng có độ chân thực cao cho việc học tăng cường và lập kế hoạch, đóng vai trò là nền tảng cho mô phỏng tạo sinh trong môi trường thế giới thực. 🌐