NVIDIA giới thiệu LocateAnything: Mô hình Vision-Language định vị vật thể siêu nhanh cho AI Agent và Robot
Đội ngũ nghiên cứu của NVIDIA vừa công bố LocateAnything, một mô hình vision-language mới giúp tái định nghĩa việc dự đoán khung bao (bounding box). Đây là bước tiến quan trọng giúp AI agent và robot không chỉ 'nhìn' mà còn định vị vật thể cực nhanh để đưa ra hành động chính xác.
Nguồn x.com