Viện An toàn AI Vương quốc Anh (AISI) vừa công bố một nghiên cứu cho thấy các công cụ đánh giá AI tiêu chuẩn hiện nay đang đánh giá thấp một cách hệ thống năng lực thực tế của các AI agent. Nguyên nhân cốt lõi nằm ở việc các bài kiểm tra này vô tình giới hạn ngân sách tính toán (compute budget) của mô hình trong quá trình thực thi.
Bối cảnh
Theo báo cáo từ AISI dựa trên việc khảo sát 7 bộ công cụ đánh giá chuẩn (benchmarks), các bài test hiện tại thường áp đặt một mức trần nghiêm ngặt về số lượng token được xử lý. Khi tiến hành thử nghiệm tăng ngân sách token lên gấp 10 lần đối với các tác vụ kỹ thuật phần mềm, tỷ lệ thành công của các AI agent đã nhảy vọt khoảng 25%. Đáng chú ý, các mô hình thế hệ mới nhất lại là những đối tượng được hưởng lợi nhiều nhất từ sự thay đổi này.
Diễn biến
AISI chỉ ra rằng, tùy thuộc vào giới hạn token được cấp, tốc độ tiến bộ thực tế của các mô hình AI tiên phong (frontier models) trên thực tế dốc hơn khoảng 60% so với những gì các phép đo trước đây từng ghi nhận. Điều này đồng nghĩa với việc các AI agent có thể giải quyết các bài toán phức tạp tốt hơn nhiều nếu chúng được phép 'suy nghĩ' và tiêu tốn nhiều tài nguyên tính toán hơn tại thời điểm suy luận (test-time compute).
Vì sao đáng chú ý
Đối với cộng đồng phát triển AI tại Việt Nam, phát hiện này thay đổi cách chúng ta nhìn nhận về năng lực thực tế và giới hạn của các hệ thống tự trị. Việc đánh giá sai lệch khả năng của AI agent không chỉ khiến doanh nghiệp bỏ lỡ tiềm năng ứng dụng thực tế của công nghệ, mà còn tạo ra những lỗ hổng lớn trong việc kiểm soát an toàn và rủi ro khi triển khai các hệ thống AI tự động hóa trong đời sống.