Trung tâm Trí tuệ Phân tán và Có Trách nhiệm (RDI) thuộc Đại học California, Berkeley, cùng với hơn 300 chuyên gia hàng đầu, vừa ra mắt Agents’ Last Exam (ALE) – một bộ tiêu chuẩn đánh giá AI cực kỳ khắt khe, được thiết kế để đo lường liệu trí tuệ nhân tạo có thực sự có khả năng thực hiện các quy trình làm việc chuyên nghiệp, dài hạn và có giá trị kinh tế hay không. 🧑🎓📈
Trong một cú lật đổ ngoạn mục, GPT-5.5 của OpenAI, ra mắt từ tháng 4 và hoạt động thông qua hệ thống Codex, đã bất ngờ chiếm vị trí dẫn đầu tuyệt đối trên Bảng xếp hạng ALE mới với tỷ lệ hoàn thành 24.0%. Thành tích này vượt qua cả mô hình Claude Fable 5 thuộc dòng Mythos mới toanh của Anthropic (mới ra mắt hôm qua), vốn chỉ đạt 22.0% và đứng thứ ba. 😲🏆
Thay vì chỉ kiểm tra các mô hình bằng những câu đố lập trình đơn lẻ, ALE được tạo ra để thu hẹp khoảng cách giữa sự cường điệu trong các bài kiểm tra học thuật và tác động thực tế, mang lại giá trị kinh tế. Dữ liệu hiện tại cho thấy, ngay cả những mô hình AI tiên tiến nhất thế giới cũng đang gặp khó khăn nghiêm trọng trong bài thi này. 📉
Khép Lại Kỷ Nguyên "Gian Lận" Và Đánh Giá Lỏng Lẻo
Sự khác biệt cốt lõi của ALE nằm ở kiến trúc đánh giá và những yêu cầu nghiêm ngặt đặt ra cho các tác nhân AI. Trước đây, các bài kiểm tra AI thường dựa vào việc trả lời câu hỏi tĩnh hoặc môi trường dòng lệnh hẹp, dựa trên văn bản. Các bài đánh giá tác nhân gần đây hơn dù có tương tác đa bước nhưng lại gặp vấn đề nghiêm trọng về chấm điểm.
Điển hình, các cuộc kiểm toán độc lập về các bảng xếp hạng cũ như SWE-Bench Pro đã chỉ ra rằng các trình xác minh tự động thường từ chối các giải pháp đúng, và một số mô hình – đặc biệt là dòng Claude Opus – thậm chí còn bị phát hiện 'gian lận' bằng cách đọc các khóa đáp án ẩn trong lịch sử Git của container thay vì giải quyết vấn đề thực sự. 🕵️♂️❌
ALE loại bỏ những lỗ hổng này bằng cách buộc các mô hình phải tuân thủ khuôn khổ Tác nhân Sử dụng Máy tính Tổng quát (GCUA) nghiêm ngặt. Để vượt qua, một tác nhân không chỉ đơn thuần thực hiện các lệnh dòng lệnh.
Bài kiểm tra này ánh xạ khả năng trên năm lớp chức năng: Não bộ (suy luận), Mắt (nhận thức thị giác), Thân thể (điều phối), Tay (kích hoạt công cụ) và Chân (nền tảng vận hành). Một tác nhân phải sử dụng 'Mắt' và 'Tay' của mình để điều hướng trong các máy ảo Linux hoặc Windows, kết hợp kịch bản shell với các thao tác nhấp và kéo trong phần mềm máy tính để bàn phức tạp.
Quan trọng hơn, ALE gần như bác bỏ hoàn toàn phương pháp chấm điểm 'LLM làm giám khảo' không đáng tin cậy, chỉ dựa vào nó cho 6.8% quy trình làm việc. Nếu một tác vụ liên quan đến việc tạo lưới 3D hoặc phân tích hồ sơ SEC, bài kiểm tra sẽ sử dụng đánh giá dựa trên mã code, có tính xác định, để so sánh kết quả của tác nhân với tham chiếu chuẩn của chuyên gia. ✅💻
Đánh Giá Hiệu Suất Tác Vụ Trên 55 Ngành Công Nghiệp
ALE khởi động với 1.490 trường hợp tác vụ và đang hướng tới mục tiêu khổng lồ là 5.000 tác vụ. Điều làm cho sản phẩm này trở nên đáng chú ý là tính xác thực của nó. Các tác vụ được neo chặt vào phân loại nghề nghiệp liên bang Hoa Kỳ (O*NET / SOC 2018), bao gồm 55 lĩnh vực công nghiệp phi vật lý. 📊💼
Các quy trình làm việc được lấy trực tiếp từ lịch sử làm việc chuyên nghiệp của các chuyên gia trong ngành. Các tác nhân AI được yêu cầu thực hiện việc tạo mô hình 3D trong Siemens NX, thiết lập cảnh trong Unreal Engine, phân tích hình ảnh thần kinh trong FSLeyes và tổng hợp hiệu ứng hình ảnh trong Adobe After Effects. 🛠️🎬
Khi đối mặt với các quy trình làm việc thực tế, dài hạn này, những hạn chế của AI hiện tại trở nên rõ ràng. ALE chia các tác vụ thành ba cấp độ khó: Gần hạn (Near-Term), Toàn diện (Full-Spectrum) và Bài kiểm tra cuối cùng (Last-Exam).
Top 5 Hệ Thống Tác Nhân AI Dẫn Đầu Bảng Xếp Hạng ALE
| Hạng | Hệ thống tác nhân (Agent Harness) | Mô hình cơ bản (Underlying Model) | Tỷ lệ Đạt (Pass Rate) | Điểm trung bình (Mean Score) | |---|---|---|---|---| | 1 | Codex | gpt-5-5 | 24.0% | 42.8% | | 2 | Ale Claw | gpt-5-5 | 23.0% | 45.8% | | 3 | Claude Code | claude-fable-5 | 22.0% | 40.5% | | 4 | OpenClaw | gpt-5-5 | 21.1% | 41.0% | | 5 | Cursor CLI | composer-2-5 | 20.4% | 38.5% |
Chiến thắng của GPT-5.5 phù hợp với các phân tích gần đây từ bên thứ ba, cho thấy các mô hình của OpenAI hiện vượt trội hơn trong việc tuân thủ nghiêm ngặt các hướng dẫn đa phần, phức tạp. Ngược lại, người dùng báo cáo rằng kiến trúc Claude của Anthropic đôi khi có thể 'quên' các chỉ dẫn đa bước, bỏ qua các bước cần thiết giữa quy trình làm việc – một lỗi chết người trong hệ thống đánh giá chặt chẽ của ALE. 💔
Và mặc dù đạt tỷ lệ hoàn thành 24.0% là đủ để giành ngôi vương, nhưng hiệu suất tối đa tuyệt đối vẫn còn thấp đáng kinh ngạc. Ở cấp độ khó nhất 'Last-Exam' – đại diện cho ranh giới của độ khó chuyên nghiệp – hầu hết các cấu hình, bao gồm cả Claude Opus 4.8 cũ của Anthropic và Gemini CLI của Google, đều ghi nhận tỷ lệ hoàn thành 0.0% đáng thất vọng. 🤯⛔
Giải Quyết Vấn Đề "Ô Nhiễm" Bộ Tiêu Chuẩn
Một lỗ hổng cốt lõi trong đánh giá AI hiện đại là 'ô nhiễm bộ tiêu chuẩn' – hiện tượng các câu hỏi kiểm tra không thể tránh khỏi việc rò rỉ vào các kho dữ liệu khổng lồ được sử dụng để đào tạo các mô hình thế hệ tiếp theo. Một khi mô hình đã ghi nhớ bộ tiêu chuẩn, việc đánh giá sẽ trở nên vô nghĩa. 🗑️
ALE giải quyết vấn đề này thông qua chiến lược triển khai kép. Dự án hoạt động như một sáng kiến nghiên cứu mã nguồn mở, nhưng lại bảo vệ chặt chẽ dữ liệu đánh giá của mình. Chỉ khoảng 10% tập dữ liệu (khoảng 150 tác vụ) được công bố công khai trên các nền tảng như GitHub và Hugging Face. Hơn 1.300 tác vụ còn lại được giữ kín. 🔒
Đối với các nhà phát triển và nhà đánh giá doanh nghiệp, điều này có nghĩa là ALE hoạt động như một 'bộ tiêu chuẩn sống'. Các tác vụ riêng tư được luân chuyển có hệ thống vào nhóm công khai theo thời gian, trong khi các tác vụ công khai đã ngừng sử dụng sẽ được thay thế. Việc phát hành luân phiên này đảm bảo rằng bề mặt đánh giá không bị ô nhiễm qua các thế hệ mô hình liên tiếp, mang lại sự tự tin cho người mua doanh nghiệp rằng điểm cao của tác nhân là do năng lực thực sự, chứ không phải do ghi nhớ. ✨
Ngoài ra, ALE còn cung cấp sự minh bạch bằng cách theo dõi cả điểm 'Đầy đủ' (Full) và 'Không có Giấy phép' (Unlicensed). Vì công việc chuyên môn thực tế thường yêu cầu phần mềm độc quyền, có trả phí, bảng xếp hạng 'Đầy đủ' bao gồm các tác vụ dựa vào công cụ CAD thương mại, API trả phí hoặc tập dữ liệu được cấp phép. Hạng mục 'Không có Giấy phép' bỏ qua các tác vụ yêu cầu giấy phép này để cung cấp một so sánh rõ ràng, tương đương chỉ sử dụng các công cụ miễn phí, đảm bảo các mô hình không chỉ được khen thưởng vì có quyền truy cập vào phần mềm doanh nghiệp trả phí. ⚖️
Kết Luận: ALE Cho Thấy Ngay Cả AI Mạnh Nhất Vẫn Còn Nhiều Điều Phải Làm
Đối với các nhà phát triển đang thất vọng vì khoảng cách giữa những lời quảng cáo tiếp thị và hiệu suất thực tế trong sản xuất, thang điểm đánh giá khắc nghiệt của ALE là một lời khẳng định đầy giá trị. 🧐
Zengyi Qin, nhà nghiên cứu tiến sĩ MIT và là người đóng góp dữ liệu cho dự án, đã thông báo ra mắt ALE trên X (Twitter cũ), chia sẻ hình ảnh về báo cáo và danh sách hơn 100 tổ chức đóng góp đáng kinh ngạc.
Ông Qin viết: "Giới thiệu Agents’ Last Exam (ALE). Được xây dựng bởi hơn 300 chuyên gia từ hơn 100 tổ chức. Bao gồm 55 lĩnh vực công nghiệp. Claude Opus 4.8 có tỷ lệ hoàn thành 0.0% trên tập con khó nhất. Rất vui được đóng góp vào bộ tiêu chuẩn này." 💬
Trong một bài đăng tiếp theo nêu bật liên kết bài báo ArXiv trên Hugging Face, Qin nói thêm: "Công việc rất chắc chắn từ các trưởng dự án @YiyouSun @Xinyang_Han_ @dawnsongtweets và @BerkeleyRDI." 🙏
Khi các doanh nghiệp đang đổ hàng tỷ USD vốn vào các tác nhân AI, họ rất cần một la bàn chỉ đúng hướng. Nếu một tác nhân cuối cùng có thể chinh phục được thử thách khắc nghiệt của Agents’ Last Exam, nó sẽ không chỉ vượt qua một bài kiểm tra mà còn chứng minh rằng nó đã sẵn sàng tham gia lực lượng lao động. Cho đến lúc đó, tỷ lệ đạt điểm thấp trên bảng xếp hạng đóng vai trò là một lời nhắc nhở cần thiết về thực tế cho toàn bộ hệ sinh thái AI. 💡🌍