NVIDIA vừa giới thiệu Vila, một bước tiến quan trọng trong lĩnh vực AI vật lý, tập trung vào khả năng hiểu thị giác và ngôn ngữ đồng thời cho robot.
Diễn biến
Vila là dòng mô hình VLM (Vision-Language Model) có khả năng xử lý các chuỗi hình ảnh và video phức tạp để đưa ra các chỉ dẫn hành động chính xác cho robot. Mô hình này giúp thu hẹp khoảng cách giữa nhận thức thị giác và thực thi lệnh.
Bối cảnh
Khác với các mô hình AI chỉ xử lý văn bản, Vila cho phép robot 'nhìn' thấy chướng ngại vật, hiểu bối cảnh không gian và phản hồi các yêu cầu bằng ngôn ngữ tự nhiên từ con người.
Vì sao đáng chú ý
Đây là hạ tầng cốt lõi cho thế hệ robot dịch vụ và sản xuất tương lai, nơi máy móc cần sự linh hoạt và khả năng học hỏi từ môi trường thay vì chỉ chạy theo các mã code lập trình sẵn.