Các nhà nghiên cứu từ NVIDIA, Đại học Carnegie Mellon và UC Berkeley đã hợp tác phát triển ENPIRE, một dự án và framework đột phá nhằm tự động hóa quá trình huấn luyện robot thực hiện các nhiệm vụ phức tạp và đòi hỏi sự khéo léo. Thay vì sự can thiệp thủ công của con người, hệ thống sử dụng các đặc vụ AI tự viết mã để đạt được tỷ lệ thành công lên đến 99% trong các tác vụ vật lý cực kỳ chính xác trong thế giới thực.
Jim Fan, một nhà nghiên cứu tại NVIDIA, mô tả cấp độ tự chủ này là "nghiên cứu tự động thực sự" (real autoresearch). Ông giải thích rằng các đặc vụ AI không chỉ điều chỉnh các tham số; chúng chủ động viết lại các mục tiêu huấn luyện, tự tạo bộ điều khiển an toàn lực tiếp xúc, sửa đổi trình tải dữ liệu và khám phá các mô hình lập trình hoàn toàn mới mà không cần kỹ sư con người can thiệp.
ENPIRE: Khung Làm Việc Tự Chủ Vật Lý Khép Kín 🔄
ENPIRE vượt qua các nút thắt cổ chai về lao động thủ công trong huấn luyện robot vật lý bằng cách tạo ra một vòng lặp phản hồi khép kín, có thể lặp lại, được chia thành bốn mô-đun riêng biệt:
* Environment (EN - Môi trường): Tự động thiết lập lại không gian làm việc vật lý và xác minh kết quả nhiệm vụ. Một đặc vụ chuyên dụng sẽ tìm cách đặt lại bối cảnh, tận dụng nhận định rằng việc đặt lại thường là một vấn đề robot đơn giản hơn chính nhiệm vụ ban đầu. * Policy Improvement (PI - Cải thiện Chính sách): Các đặc vụ AI đề xuất và thực hiện các chiến lược để cải thiện hiệu suất, sử dụng các phương pháp từ các heuristic đơn giản đến nhân bản hành vi (behavior cloning) và học tăng cường (RL). * Rollout (R - Thực thi): Thực hiện chính sách được đề xuất trên các robot vật lý để thu thập dữ liệu thực tế. * Evolution (E - Tiến hóa): Các đặc vụ AI phân tích nhật ký thực thi, tham khảo tài liệu khoa học để tìm ý tưởng mới và tinh chỉnh mã cho lần lặp tiếp theo.
Các Chỉ Số Chính & Điểm Nổi Bật Về Hiệu Suất 📈
* Tỷ lệ thành công 99%: Đạt được trong các nhiệm vụ vật lý đòi hỏi cao, trong thế giới thực, bao gồm: * Kiểm tra Push-T: Trượt một khối chữ T vào vị trí và hướng mục tiêu. * Chèn ghim: Đặt các ghim vào một hộp. * Lắp GPU vào bo mạch chủ: Đặt các card đồ họa nặng vào các khe cắm trên bo mạch chủ. * Cắt cáp: Sử dụng công cụ để cắt dây buộc cáp. * Hội tụ 100%: Đối với nhiệm vụ chèn ghim, chiến lược đã hội tụ đến thành công 100% nhanh hơn so với các phương pháp có sự can thiệp của con người. * Huấn luyện tăng tốc qua mở rộng đội hình: * Kiểm tra Push-T: Mở rộng từ 1 lên 8 đặc vụ đã giảm thời gian huấn luyện từ 5 giờ xuống còn 2 giờ. * Chèn ghim: Mở rộng từ 1 lên 8 đặc vụ đã giảm thời gian huấn luyện từ hơn 90 phút xuống còn khoảng 40 phút. * Các đặc vụ AI được thử nghiệm: Codex (với GPT-5.5), Claude Code (với Opus 4.7) và Kimi Code (với Kimi K2.6). Codex đã thể hiện tốt nhất trong hầu hết các tình huống.
Phối Hợp Đội Hình Phân Tán Qua Git 🤝
ENPIRE mở rộng quá trình huấn luyện trên một đội hình gồm tám trạm robot YAM hai tay, mỗi trạm được trang bị phần cứng, máy tính và đặc vụ AI viết mã riêng.
* Hợp tác phân tán: Các đặc vụ cùng lúc thử nghiệm các giả thuyết khác nhau và chia sẻ kết quả của chúng độc quyền thông qua Git (công cụ kiểm soát phiên bản phần mềm tiêu chuẩn). * Chia sẻ kiến thức: Khi một trạm robot khám phá ra một đột phá, công thức huấn luyện thành công sẽ được đưa vào Git và được toàn bộ đội hình áp dụng, trong khi các phương pháp thất bại sẽ tự động bị loại bỏ.
Thử Thách Từ Thế Giới Thực so Với Mô Phỏng 🌍
Mặc dù mô phỏng là một sân chơi thử nghiệm giá trị, thế giới vật lý vẫn luôn ẩn chứa các biến số không thể đoán trước như động lực học của robot, ma sát và chuyển động của vật thể.
* Khoảng cách thực tế (The Reality Gap): Trong thử nghiệm Push-T, cả ba đặc vụ AI được thử nghiệm đều thành công trong mô phỏng, nhưng hai trong số ba đã thất bại trong môi trường thế giới thực, cho thấy tầm quan trọng cực kỳ lớn của việc huấn luyện với phần cứng thực tế (hardware-in-the-loop). * Hiệu suất hàng đầu: Trong mô phỏng RoboCasa, ENPIRE đã vượt trội hơn cả GR00T (một mô hình thị giác-ngôn ngữ-hành động đầu cuối) và CaP-X (một phương pháp dựa trên công cụ nhưng thiếu khả năng tự nghiên cứu). * Khả năng chuyển giao kỹ năng: Các kỹ năng học được trong một lĩnh vực có thể chuyển giao sang các lĩnh vực khác; kinh nghiệm thu được từ việc chèn ghim đã giúp các đặc vụ học cách lắp GPU vào bo mạch chủ một cách thành công.
Các Chỉ Số Đánh Giá Mới & Hạn Chế 🧐
Các nhà nghiên cứu đã đề xuất hai chỉ số mới để đo lường hiệu quả của quá trình huấn luyện vật lý dựa trên đặc vụ: 1. Mean Robot Utilization (MRU - Tỷ lệ sử dụng robot trung bình): Theo dõi phần trăm thời gian nghiên cứu mà robot vật lý đang hoạt động tích cực. 2. Mean Token Utilization (MTU - Tỷ lệ sử dụng token trung bình): Đo lường khối lượng token của mô hình ngôn ngữ được tiêu thụ mỗi phút.
Những Hạn Chế Hiện Tại
* Thời gian chờ (Idle Time): Robot và tài nguyên tính toán không được sử dụng hết công suất vì các đặc vụ dành đáng kể thời gian đọc nhật ký, viết mã và chờ đợi. * Hiệu suất giảm dần khi mở rộng: Khi quy mô đội hình tăng lên, tỷ lệ sử dụng trên mỗi robot giảm xuống vì các đặc vụ phải dành nhiều thời gian hơn để tóm tắt kết quả của các robot khác. * Chi phí tính toán cao: Các đội hình lớn hơn đạt được thành công nhanh hơn nhưng tiêu thụ ngân sách token với tốc độ tăng nhanh hơn so với mức tăng hiệu suất tương ứng.