ASPIRE: Phát hiện và Phát triển Kỹ năng Tự chủ cho Robot từ NVIDIA
Nguồn: NVIDIA GEAR Lab
ASPIRE – một dự án đột phá từ NVIDIA, Đại học Michigan (UMich), UIUC, UC Berkeley và CMU – đang định hình lại cách robot học hỏi và phát triển. Hệ thống này cho phép robot tự động viết, gỡ lỗi và tinh chỉnh các chương trình điều khiển dưới dạng mã nguồn (Code-as-Policy - CaP) dựa trên phản hồi thực thi. Đây là bước tiến quan trọng hướng tới robot tự chủ hoàn toàn.
Tóm Tắt Điều Hành
ASPIRE vận hành trong một vòng lặp học tập mở, nơi robot tự chẩn đoán lỗi, sửa chữa chương trình, xác nhận các hành vi đã điều chỉnh và lưu trữ những kỹ năng có thể tái sử dụng vào một thư viện ngày càng mở rộng. Điều này giúp robot không ngừng cải thiện khả năng của mình.
Trong các thử nghiệm đa dạng, ASPIRE vượt trội đáng kể so với các hệ thống Thị giác-Ngôn ngữ-Hành động (VLA) và các tác nhân viết mã hiện có. Đặc biệt, nó thể hiện khả năng chuyển giao không cần huấn luyện lại (zero-shot transfer) mạnh mẽ cho các nhiệm vụ dài hạn chưa từng thấy và có thể chuyển giao thành công các kỹ năng đã học trong môi phỏng sang robot thực tế với nhiều hình thái khác nhau.
Phương Pháp Cốt Lõi: ASPIRE Hoạt Động Như Thế Nào?
ASPIRE hoạt động trên một vòng lặp học tập mở, được củng cố bởi ba thành phần chính:
1. Động cơ Thực thi Robot Vòng kín (Closed-Loop Robot Execution Engine): * Đối với mỗi lệnh nhận thức, lập kế hoạch, nắm bắt và điều khiển, động cơ sẽ ghi lại các dấu vết đa phương thức (quan sát, đầu vào, đầu ra và bằng chứng trực quan) chi tiết. * Lợi ích thực tiễn: Các dấu vết này cho phép tác nhân kiểm tra chọn lọc các nhật ký nguyên thủy quan trọng, dần dần xác định vị trí lỗi và xác nhận các bản sửa lỗi thông qua việc thực thi lại.
2. Thư viện Kỹ năng Liên tục Mở rộng (Continually Expanding Skill Library): * ASPIRE duy trì một kho lưu trữ ngày càng phát triển các bản sửa lỗi đã được xác thực, chắt lọc chúng thành kiến thức robot có tính mô-đun và có thể chuyển giao. * Lợi ích thực tiễn: Các kỹ năng này được truy xuất dưới dạng hướng dẫn theo ngữ cảnh để giúp tác nhân giải quyết các nhiệm vụ phức tạp hơn trong tương lai.
3. Tìm kiếm Tiến hóa trên các Chương trình (Evolutionary Search Over Programs): * Thay vì dựa vào việc tự cải thiện dựa trên một quỹ đạo duy nhất, ASPIRE sử dụng quy trình tìm kiếm tiến hóa để tạo ra các chuỗi tác vụ và chương trình điều khiển đa dạng. * Lợi ích thực tiễn: Điều này cho phép tinh chỉnh song song và gỡ lỗi lặp đi lặp lại trên nhiều biến thể chương trình.
Kết Quả Đánh Giá & Thử Nghiệm
ASPIRE được huấn luyện trên một tập dữ liệu gỡ lỗi nhỏ và được đánh giá trên các tập dữ liệu kiểm tra lớn hơn, chưa từng được thấy.
Các Điểm Nổi Bật về Hiệu Suất:
* LIBERO-PRO: ASPIRE tạo ra các chương trình điều khiển có khả năng tổng quát hóa thành công trên các loại đối tượng, vị trí và chi tiết nhiệm vụ chưa từng thấy. * Robosuite (Thao tác Tiếp xúc Mạnh): * Thành tựu chính: ASPIRE đã cải thiện tỷ lệ thành công của một nhiệm vụ giao nhận hai tay phức tạp từ 20% (baseline) lên 92% thông qua gỡ lỗi lặp đi lặp lại. Đây là một con số ấn tượng! * BEHAVIOR-1K (Thao tác Di động Dài hạn): Được đánh giá bằng cách thực thi khối mã tăng dần, tạo động mỗi khối mã tiếp theo từ dấu vết đa phương thức hiện tại. Điều hướng được đánh giá riêng với việc hoàn thành nhiệm vụ.
Chuyển Giao Không Cần Huấn Luyện Lại & Khả Năng Mở Rộng
Mở rộng với Kích thước Thư viện Kỹ năng (LIBERO-Pro Long)
* Các kỹ năng được học trên tập dữ liệu LIBERO-90 thành công trong việc chuyển giao cho các nhiệm vụ dài hạn chưa từng thấy. * Insight: Khi kích thước thư viện kỹ năng tăng lên, các tác nhân viết mã đạt được tỷ lệ thành công cao hơn dần dần trên các nhiệm vụ LIBERO-Long.
Chuyển Giao Kỹ năng Đa dạng Hình thái cho Robot Thực tế
Các kỹ năng được ASPIRE khám phá trong môi trường mô phỏng có thể được chuyển giao cho robot thực tế với các hình thái vật lý và API khác nhau.
| Chỉ số | Không có kỹ năng ASPIRE (Baseline) | Với kỹ năng ASPIRE (Truy xuất từ Mô phỏng) | | :--------------------------- | :--------------------------------- | :----------------------------------------- | | Chi phí Token để Thành công lần đầu | Cao | Thấp hơn đáng kể | | Tỷ lệ Thành công trên tập kiểm tra (%) | Thấp | Cao hơn đáng kể |
* Kết luận: Trang bị cho các tác nhân viết mã trong thế giới thực những kỹ năng được khám phá từ mô phỏng giúp giảm đáng kể chi phí token của LLM cần thiết để đạt được lần thực thi thành công đầu tiên của robot thực và tạo ra mã nguồn cuối cùng mạnh mẽ hơn.
Những Hạn chế Hiện tại
Sylvie tại Kalera News nhìn nhận những điểm yếu quan trọng cần được cải thiện:
* Chưa hoàn toàn tự chủ trong Thế giới Thực: Việc triển khai trong thế giới thực vẫn yêu cầu các hệ thống bên ngoài để phát hiện thành công mạnh mẽ, đặt lại an toàn, giám sát an toàn và hiệu chuẩn camera/robot. Sự phụ thuộc này cho thấy một khoảng cách đáng kể để đạt được quyền tự chủ hoàn toàn. * Phụ thuộc vào các LLM tiên tiến nhất: Hệ thống phụ thuộc nhiều vào một mô hình ngôn ngữ lớn (LLM) cố định và tiên tiến (cụ thể là Claude Opus 4.6). Việc các LLM mã nguồn mở nhỏ hơn hoặc yếu hơn có thể duy trì thành công vòng lặp gỡ lỗi tự cải thiện hay không vẫn chưa được xác minh. Điều này đặt ra câu hỏi về tính khả thi rộng rãi của giải pháp. * Bị giới hạn bởi các API cơ bản: Robot bị giới hạn trong một tập hợp cố định các API nhận thức, lập kế hoạch và điều khiển được xác định trước. Mặc dù điều này giúp quá trình gỡ lỗi an toàn, nhưng nó hạn chế khả năng thể hiện các hành vi vật lý thực sự mới lạ và phức tạp. * Quản lý bộ nhớ dài hạn chưa hoàn chỉnh: Khi thư viện kỹ năng phát triển, một số mục có thể trở nên lỗi thời, thừa thãi hoặc quá cụ thể. ASPIRE hiện thiếu một cơ chế tự động để cắt tỉa hoặc hợp nhất các mục cũ hơn trong thời gian dài. Đây là một điểm cần được giải quyết để duy trì hiệu quả và sự gọn gàng của thư viện kỹ năng.