JobBench: Benchmark mới đo lường khả năng AI làm việc theo ý muốn con người
Thay vì tập trung vào việc thay thế con người, JobBench đánh giá AI qua 130 tác vụ thực tế mà chuyên gia muốn ủy quyền. Claude Opus 4.7 mới chỉ đạt 45.9% điểm số.
Nguồn arxiv.org