AI Khó Khăn Với Công Việc Tri Thức Thực Tế: Chỉ 3% Nhiệm Vụ Được Hoàn Thành Trọn Vẹn! 😟
Ngay cả những mô hình AI xuất sắc nhất cũng đang gặp khó khăn đáng kể khi đối mặt với các công việc tri thức phức tế trong thế giới thực, chỉ giải quyết được vỏn vẹn 3% nhiệm vụ một cách trọn vẹn. Đây là kết quả đáng báo động từ điểm chuẩn AA-Briefcase mới của Artificial Analysis, một "thước đo" khắc nghiệt dành cho khả năng của AI.
AA-Briefcase thử thách các mô hình AI với các dự án công việc tri thức kéo dài nhiều tuần, được xây dựng từ hàng ngàn tệp nguồn phân mảnh, hỗn độn như các cuộc trò chuyện Slack, email, biên bản cuộc họp và dữ liệu xuất khẩu lớn. Claude Fable 5, mô hình hoạt động tốt nhất, đạt tỷ lệ đạt yêu cầu cao nhất nhưng vẫn chỉ hoàn thành tất cả các tiêu chí của nhiệm vụ trên 3% tổng số nhiệm vụ. Đáng chú ý hơn, trên 31 trong số 91 nhiệm vụ, không mô hình nào đạt được 50% khả năng hoàn thành.
Các loại lỗi cũng thay đổi khi mô hình trở nên mạnh mẽ hơn. Các mô hình yếu kém thường gặp trục trặc ở các bước thực thi cơ bản, bỏ lỡ các tệp liên quan hoặc cho ra kết quả không thể sử dụng. Ngược lại, các mô hình mạnh hơn thất bại một cách "thầm lặng" hơn, khi chúng đáp ứng các yêu cầu hiển nhiên nhưng lại bỏ sót những chi tiết tinh tế mà người dùng chỉ có thể nhận ra bằng cách tổng hợp thông tin từ nhiều nguồn.
Bên cạnh đó, khoảng cách chi phí giữa các mô hình cũng là một vấn đề lớn: Chi phí trên mỗi nhiệm vụ có thể chênh lệch hơn 800 lần, từ khoảng 0,04 USD cho DeepSeek V4 Flash đến hơn 31 USD cho Claude Fable 5. Đây là một con số đáng để các doanh nghiệp cân nhắc.
AA-Briefcase: Thước Đo Nghiêm Ngặt Cho Năng Lực Tác Vụ Của AI 🧐
AA-Briefcase là một điểm chuẩn tác vụ (agentic benchmark) mới, được phát triển bởi Artificial Analysis, nhằm đánh giá các mô hình AI trong các dự án công việc tri thức phức tạp, kéo dài nhiều tuần. Được thiết kế bởi các chuyên gia trong ngành từ Google, McKinsey và BCG, điểm chuẩn này kiểm tra các mô hình trên 91 nhiệm vụ riêng tư, sử dụng gần 2.000 tệp nguồn thực tế, phân mảnh (bao gồm các cuộc trò chuyện Slack, email và dữ liệu tài chính). Phương pháp chấm điểm kết hợp giữa đánh giá nhị phân theo rubrics và đánh giá so sánh cặp về chất lượng phân tích và trình bày để đo lường năng lực tác vụ thực sự.
Bảng Xếp Hạng & Cái Nhìn Sâu Sắc Về Hiệu Năng Mô Hình 📊
* Claude Fable 5 đạt điểm Elo tổng thể cao nhất trong AA-Briefcase, dẫn đầu về tỷ lệ đạt yêu cầu theo rubrics và chất lượng phân tích. * Claude Opus 4.8 (max) và GLM-5.2 (max) theo sát phía sau, với Opus 4.8 ngang bằng về chất lượng trình bày. * GLM-5.2 (max) là mô hình mã nguồn mở dẫn đầu rõ rệt, mang lại tỷ lệ năng lực trên chi phí đặc biệt ấn tượng. * GPT-5.5 (xhigh) xếp thứ tư tổng thể. * Các mô hình của Google (ví dụ: Gemini 3.5 Flash, Gemini 3.1 Pro Preview) hoạt động kém hơn so với các điểm chuẩn tổng quát.
Đánh Đổi Giữa Chi Phí Và Hiệu Suất: Khoảng Cách Khổng Lồ 💰
* Chênh lệch chi phí cực lớn: Chi phí trên mỗi nhiệm vụ thay đổi hơn 800 lần giữa các mô hình. * Claude Fable 5 (Mô hình dẫn đầu): Chi phí trung bình ~31,00 USD mỗi nhiệm vụ. * DeepSeek V4 Flash (Max): Chi phí ~0,04 USD mỗi nhiệm vụ, nhưng không đạt được hiệu suất hàng đầu. * Tỷ lệ giá/hiệu suất tốt nhất: Thuộc về các mô hình mã nguồn mở như GLM-5.2 (max) và DeepSeek V4 Pro (max). GLM-5.2 (max) chỉ kém Claude Opus 4.8 (max) khoảng ~90 Elo nhưng chi phí chưa đến 25%.
Mức Tiêu Thụ Token & Thời Gian Thực Thi ⏳
* Tiêu thụ Token cao: Để đạt được hiệu suất hàng đầu đòi hỏi lượng token đầu ra khổng lồ. Claude Fable 5 trung bình 112.000 token đầu ra mỗi nhiệm vụ. Gemini 3.5 Flash sử dụng nhiều nhất với 141.000 token đầu ra mỗi nhiệm vụ (mặc dù có điểm Elo thấp hơn Fable 5 khoảng ~720). * Thời gian thực thi dài: Hoàn thành một nhiệm vụ có thể mất khoảng 20 phút. Claude Opus 4.8 (max) mất khoảng 24 phút/nhiệm vụ, trong khi GLM-5.2 (max) mất khoảng 19 phút/nhiệm vụ. * Số lượt tương tác: Các mô hình được phép thực hiện tối đa 500 lượt tương tác cho mỗi nhiệm vụ. Tuy nhiên, số lượt tương tác cao hơn không tương quan mạnh mẽ với hiệu suất tốt hơn (ví dụ: Gemini 3.5 Flash trung bình ~88 lượt/nhiệm vụ nhưng điểm số lại kém).
Những Điểm Nổi Bật Về Năng Lực Tác Vụ Của AI 💡
1. Sự phức tạp trong thế giới thực là một thử thách lớn: Ngay cả những mô hình tốt nhất cũng chật vật với sự phức tạp của điểm chuẩn này. Claude Fable 5 dẫn đầu nhưng chỉ đáp ứng đúng tất cả các tiêu chí theo rubrics trên 3% tổng số nhiệm vụ. Trên 31 trong số 91 nhiệm vụ, không mô hình nào đạt được trên 50%. 2. Các cách thức thất bại thay đổi theo cấp độ mô hình: * Mô hình năng lực thấp: Thất bại chủ yếu ở việc thực thi cơ bản – bỏ lỡ các tệp đầu vào liên quan, tạo ra lỗi định dạng hoặc không thể gửi một kết quả khả dụng. * Mô hình năng lực cao: Thành công trong việc tạo ra kết quả nhưng thất bại trong việc hoàn thành các yêu cầu tinh tế hoặc ẩn sâu trong các tệp nguồn. 3. Hiệu suất giảm khi số lượng tệp đầu vào tăng: Tỷ lệ đạt yêu cầu giảm across tất cả các cấp độ mô hình khi số lượng tệp nguồn cần thiết tăng lên. Hiệu suất giảm từ ~55% đối với các nhiệm vụ chỉ có prompt xuống ~40% đối với các nhiệm vụ yêu cầu 5 tệp nguồn bên ngoài trở lên.
Kết quả từ AA-Briefcase là một lời nhắc nhở quan trọng: Mặc dù AI đã đạt được những bước tiến vượt bậc, nhưng chúng ta vẫn còn một chặng đường dài để đi trước khi AI có thể thực sự đảm nhiệm hiệu quả các công việc tri thức phức tạp trong môi trường doanh nghiệp thực tế. Các nhà phát triển cần tập trung nhiều hơn vào khả năng tổng hợp thông tin, xử lý bối cảnh phức tạp và giải quyết các yêu cầu ẩn để nâng cao năng lực thực sự của AI.