Robotics tools-ai 18 thg 6, 2026 4 phút đọc

💥 MolmoMotion Của Allen Institute For AI: AI Dẫn Dắt Chuyển Động 3D Bằng Ngôn Ngữ Tự Nhiên Đã Ra Mắt! 🤖🎬

Viện AI Allen (Ai2) vừa công bố MolmoMotion, một mô hình đột phá có khả năng dự đoán chính xác chuyển động 3D của vật thể dựa trên các hướng dẫn ngôn ngữ tự nhiên, mở ra kỷ nguyên mới cho robot và tạo video.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc x.com

MolmoMotion: AI Từ Allen Institute Cho Phép Dẫn Dắt Chuyển Động 3D Bằng Ngôn Ngữ Tự Nhiên

Viện AI Allen (Ai2) đã chính thức công bố ra mắt MolmoMotion, một mô hình dự đoán chuyển động mang tính đột phá, giúp kết nối trực tiếp các hướng dẫn ngôn ngữ tự nhiên với hành động vật lý trong không gian 3D. Cùng với trọng số mô hình, Ai2 cũng phát hành MolmoMotion-1M, bộ sưu tập lớn nhất từ trước đến nay gồm các quỹ đạo điểm 3D được ghép nối với hướng dẫn hành động, và PointMotionBench, một bộ tiêu chuẩn toàn diện để đánh giá dự đoán chuyển động trong không gian 3D.

MolmoMotion Hoạt Động Như Thế Nào?

Không giống như các mô hình thị giác-ngôn ngữ truyền thống chỉ mô tả hoặc phát hiện đối tượng, MolmoMotion thực sự dự đoán cách các đối tượng sẽ di chuyển. Với một đoạn lịch sử video ngắn (hoặc một khung hình đơn lẻ), một mô tả hành động bằng ngôn ngữ tự nhiên (ví dụ: "Đặt bát trắng lên bàn"), và một tập hợp các điểm truy vấn với vị trí 3D ban đầu của chúng, MolmoMotion sẽ dự đoán quỹ đạo 3D trong tương lai của những điểm đó trong vài giây tiếp theo trong một khung thế giới đo lường.

MolmoMotion sử dụng Molmo 2 làm mô hình xương sống. Kiến trúc này cho phép nó kết nối các hướng dẫn ngôn ngữ trực tiếp với các pixel cụ thể và các điểm truy vấn 3D. Đầu vào chung cho lõi Molmo 2 bao gồm: 1. Các mã thông báo hình ảnh từ quan sát video RGB. 2. Các mã thông báo văn bản từ mô tả hành động bằng ngôn ngữ tự nhiên. 3. Các mã thông báo đặc trưng điểm truy vấn 2D được lấy mẫu từ bộ mã hóa thị giác của Molmo 2.

Hiệu Suất Vượt Trội Trên Các Trường Hợp Sử Dụng Quan Trọng

MolmoMotion đã được đánh giá trên hai ứng dụng quan trọng: lập kế hoạch robot và tạo video.

1. Lập Kế Hoạch và Điều Khiển Robot

Trong môi trường mô phỏng, một chính sách điều khiển được xây dựng dựa trên MolmoMotion đã hoàn thành thành công 76.3% các tác vụ chọn và đặt, vượt trội đáng kể so với Molmo 2 cơ sở, vốn chỉ đạt 56.0%. Hơn nữa, các chính sách được dẫn dắt bởi MolmoMotion học nhanh hơn nhiều: * Đạt tỷ lệ thành công 51.0% chỉ sau 10,000 bước huấn luyện, trong khi Molmo 2 cơ sở chỉ đạt tối đa 19.0%. * Trên các robot vật lý (sau khi tinh chỉnh), MolmoMotion đạt được cùng một lỗi L2 thử nghiệm mà Molmo 2 cơ sở mất 12,000 bước để đạt được, chỉ trong 2,000 bước – tăng hiệu quả huấn luyện lên 6 lần!

2. Tạo Video Với Hướng Dẫn Đường Đi 3D

Thay vì để một mô hình hình ảnh sang video (I2V) đoán cách một đối tượng nên di chuyển chỉ dựa vào văn bản, các nhà phát triển giờ đây có thể đưa các quỹ đạo 3D được dự đoán bởi MolmoMotion vào bộ tạo. * Sử dụng MolmoMotion để hướng dẫn tạo video đã cải thiện chất lượng chuyển động trên tất cả năm chỉ số liên quan đến chuyển động được đo lường. * Nó thậm chí còn vượt trội hơn một mô hình hình ảnh sang video lớn hơn nhiều trên bốn trong năm chỉ số đó.

Bộ Dữ Liệu và Tiêu Chuẩn Đánh Giá Được Phát Hành

Để thúc đẩy khoa học mở, Ai2 đang cung cấp mã nguồn mở các tài nguyên sau: * MolmoMotion-1M: Một bộ dữ liệu khổng lồ gồm 1 triệu clip video được chú thích hành động, ghép nối với các quỹ đạo điểm 3D chính xác. * PointMotionBench: Một khung đánh giá mạnh mẽ được thiết kế để đo lường độ chính xác của các mô hình trong việc dự đoán quỹ đạo điểm 3D dựa trên quan sát hiện tại, các điểm truy vấn và mô tả hành động.

Hạn Chế và Hướng Phát Triển Tương Lai

Hiện tại, mô hình sử dụng tám điểm truy vấn cho mỗi đối tượng trong quá trình huấn luyện. Mặc dù điều này rất hiệu quả cho việc dự báo các quỹ đạo tổng quát, nhưng nó không đủ dày đặc để biểu diễn các hình học bề mặt phức tạp. Do đó, mô hình vẫn còn những hạn chế khi xử lý các chuyển động biến dạng phức tạp cao.

Tuy nhiên, MolmoMotion đánh dấu một bước nhảy vọt đáng kể trong khả năng của AI để suy luận và hành động trong thế giới vật lý.