Nhóm nghiên cứu Machine Learning của Apple vừa chính thức giới thiệu SFI-Bench, một bộ tiêu chuẩn đánh giá (benchmark) mới dành cho các mô hình ngôn ngữ lớn đa phương thức (multimodal LLMs). Mục tiêu của công cụ này là kiểm tra xem AI có thực sự hiểu được công dụng của các vật thể xung quanh hay không, thay vì chỉ nhận diện vị trí hình học đơn thuần của chúng.
Bối cảnh
Theo nhóm nghiên cứu từ Apple, trí tuệ không gian thực sự của các tác nhân AI (agents) đòi hỏi khả năng vượt qua mức nhận thức hình học cấp thấp. Các mô hình hiện tại cần tiến hóa từ việc chỉ biết "vật thể đang ở đâu" sang hiểu rõ "vật thể đó dùng để làm gì". Mặc dù các bộ benchmark hiện tại như VSI-Bench đánh giá tốt giai đoạn hình học nền tảng này, chúng vẫn chưa thể kiểm tra được năng lực nhận thức cấp cao vốn rất quan trọng đối với trí tuệ thực chứng (grounded intelligence).
Diễn biến
Để giải quyết lỗ hổng này, Apple đã phát triển SFI-Bench (Spatial-Functional Intelligence Benchmark). Đây là bộ benchmark dạng video bao gồm hơn 1700 câu hỏi được xây dựng từ nhiều nguồn quét video góc nhìn thứ nhất (egocentric) trong không gian trong nhà. SFI-Bench được thiết kế đặc biệt nhằm đo lường khả năng lập luận của AI về mối quan hệ giữa vị trí không gian và chức năng thực tế của các đồ vật trong môi trường thực tế đời thường.
Vì sao đáng chú ý
Đối với cộng đồng nghiên cứu AI và Robotics tại Việt Nam, SFI-Bench cung cấp một công cụ đo lường chuẩn xác hơn cho các robot dịch vụ trong nhà hoặc kính thông minh (AR/VR). Việc hiểu rõ công dụng vật lý của môi trường xung quanh sẽ giúp các mô hình AI tương tác an toàn và hữu ích hơn trong đời sống thực tế, mở đường cho kỷ nguyên robot gia đình thông minh hơn thế hệ cũ vốn chỉ biết tránh vật cản đơn thuần.