Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 1 phút đọc

JobBench: Benchmark mới đo lường khả năng AI làm việc theo ý muốn con người

Thay vì tập trung vào việc thay thế con người, JobBench đánh giá AI qua 130 tác vụ thực tế mà chuyên gia muốn ủy quyền. Claude Opus 4.7 mới chỉ đạt 45.9% điểm số.

Tier 2 · nguồn 99% độ tin cậy Đã được duyệt
Nguồn gốc arxiv.org

Các nhà nghiên cứu vừa ra mắt JobBench, một bộ tiêu chuẩn đánh giá AI agent tập trung vào khả năng thực thi các luồng công việc mà con người thực sự muốn ủy quyền (delegation) thay vì chỉ nhắm tới việc thay thế nhân lực.

Diễn biến

JobBench bao gồm 130 tác vụ agentic thuộc 35 ngành nghề khác nhau. Khác với các benchmark truyền thống, mỗi bài test trong JobBench được thiết kế như một không gian làm việc thực tế với dữ liệu nhiễu, yêu cầu AI phải suy luận qua các luồng thông tin hỗn độn. Kết quả đánh giá trên 36 mô hình cho thấy khoảng cách còn rất lớn: mô hình mạnh nhất là Claude Opus 4.7 (chạy dưới Claude Code) cũng chỉ đạt mức 45,9%.

Vì sao đáng chú ý

JobBench đánh dấu sự thay đổi trong triết lý phát triển AI: từ 'thay thế' sang 'hỗ trợ'. Điều này cực kỳ quan trọng đối với thị trường lao động Việt Nam, nơi nỗi lo AI thay thế con người đang hiện hữu. Kết quả thấp của các mô hình hàng đầu cho thấy AI agent vẫn còn một chặng đường dài để thực sự hiểu và thực hiện chính xác ý muốn phức tạp của con người trong môi trường công sở thực tế. Benchmark này sẽ giúp các nhà phát triển tại Việt Nam định hướng xây dựng các agent có ích thực sự thay vì chỉ chạy theo các chỉ số lý thuyết.