Con trỏ chuột tích hợp AI: Từ hình ảnh tĩnh đến hành động tương tác 📝
Google DeepMind trình diễn khả năng hiểu ngữ cảnh của con trỏ chuột AI, biến một mẩu ghi chú viết tay thành danh sách công việc hoặc đặt bàn nhà hàng từ video.
Tag
Tổng hợp 8 bài Kalera News liên quan đến Computer Vision — viết tiếng Việt, có dẫn nguồn gốc.
Google DeepMind trình diễn khả năng hiểu ngữ cảnh của con trỏ chuột AI, biến một mẩu ghi chú viết tay thành danh sách công việc hoặc đặt bàn nhà hàng từ video.
Một nhà phát triển đã đưa thành công mô hình SAM 2.1 (Segment Anything Model) lên framework MLX của Apple, giúp tăng 25% hiệu suất thực thi trên các dòng máy Mac.
Pinterest vừa tạo ra một cú hích về hiệu quả vận hành khi cắt giảm 90% chi phí hạ tầng AI và tăng 30% độ chính xác bằng cách tái cấu trúc tầng xử lý hình ảnh của mô hình Qwen3-VL.
NVIDIA vừa đạt được bước đột phá trong thị giác máy tính khi tăng tốc độ phát hiện hộp bao (bounding box) lên 10 lần nhờ thay đổi cách các mô hình VLM xử lý dữ liệu.
Đội ngũ nghiên cứu của NVIDIA vừa công bố LocateAnything, một mô hình vision-language mới giúp tái định nghĩa việc dự đoán khung bao (bounding box). Đây là bước tiến quan trọng giúp AI agent và robot không chỉ 'nhìn' mà còn định vị vật thể cực nhanh để đưa ra hành động chính xác.
Mô hình RF-DETR của Roboflow hiện đã tích hợp vào thư viện Transformers, cho phép phát hiện vật thể thời gian thực với độ chính xác vượt trội hơn cả YOLO.
Apple giới thiệu TC-JEPA, một phương pháp tự giám sát mới sử dụng chú thích văn bản để định hướng và giảm độ nhiễu khi AI học nhận diện hình ảnh.
Ethan Lauer, kỹ sư phần mềm tại Boston Dynamics, chia sẻ chi tiết về cách robot Stretch nhận biết thế giới, xây dựng mô hình môi trường và các thách thức trong cảm biến.