NVIDIA vừa công bố một kỹ thuật mới giúp tăng tốc độ nhận diện và gán hộp bao (bounding box detection) lên gấp 10 lần. Đây là một sự thay đổi mang tính hệ thống khi họ loại bỏ một bước mà toàn bộ ngành công nghiệp trước đây coi là bắt buộc trong các mô hình thị giác-ngôn ngữ (VLM).
Bối cảnh
Thông thường, các mô hình VLM (Vision Language Models) xử lý các hộp bao như những câu văn, dự đoán chúng từng token một. Quy trình này vốn dĩ rất chậm và tạo ra điểm nghẽn cho các ứng dụng thời gian thực. Việc tối ưu hóa quy trình này là mục tiêu quan trọng để đưa VLM vào các hệ thống tự hành và robot.
Diễn biến
Bằng cách tái cấu trúc cách mô hình "hiểu" về tọa độ không gian, NVIDIA đã cho phép mô hình dự đoán trực tiếp mà không cần qua quy trình xử lý tuần tự truyền thống. Kết quả là tốc độ xử lý tăng vọt mà không làm giảm độ chính xác của việc xác định vị trí vật thể. Điều này cho thấy tiềm năng to lớn của việc xem xét lại các kiến trúc nền tảng thay vì chỉ cố gắng tăng sức mạnh phần cứng.
Vì sao đáng chú ý
Tốc độ nhanh hơn 10 lần là một thay đổi mang tính bước ngoặt cho các hệ thống Physical AI (AI vật lý). Nó cho phép robot phản ứng nhanh hơn với môi trường và xử lý nhiều luồng dữ liệu hình ảnh cùng lúc một cách mượt mà. Đây là minh chứng cho thấy sự kết hợp giữa phần cứng NVIDIA và những cải tiến thuật toán táo bạo đang định hình lại tương lai của thị giác máy tính.