Các AI agent dài hạn đang ngày càng được triển khai như các hệ thống vận hành bền vững, nhưng chúng vẫn thường được đánh giá như những mô hình vừa mới khởi tạo. Các benchmark hiện tại thường bỏ qua một câu hỏi hệ thống cơ bản: một agent có thể duy trì độ tin cậy trong bao lâu sau khi triển khai thực tế?
Diễn biến
Ngay cả khi trọng số mô hình được đóng băng, trạng thái hiệu dụng của agent vẫn liên tục thay đổi khi nó nén lịch sử tương tác, truy xuất từ bộ nhớ ngày càng lớn, sửa đổi các sự kiện sau khi cập nhật và trải qua bảo trì định kỳ. Nhóm nghiên cứu đã giới thiệu AgingBench — một benchmark độ tin cậy theo thời gian để đo lường không chỉ việc agent bị suy giảm (degrade) mà còn là hình thức suy giảm và vị trí cần sửa chữa.
AgingBench phân loại sự 'lão hóa' của agent thành 4 cơ chế: lão hóa do nén (compression), lão hóa do nhiễu (interference), lão hóa do sửa đổi (revision) và lão hóa do bảo trì (maintenance). Thử nghiệm trên 400 lượt chạy với 14 mô hình cho thấy sự lão hóa của agent không hề đơn giản: các bài kiểm tra hành vi có thể vẫn tốt trong khi độ chính xác về sự kiện bị suy giảm đáng kể.
Vì sao đáng chú ý
Đây là lời cảnh tỉnh cho các kỹ sư AI: một mô hình mạnh mẽ trong ngày đầu tiên không đảm bảo nó sẽ hoạt động tốt sau 200 phiên làm việc. Với các doanh nghiệp Việt Nam đang có ý định triển khai AI agent làm trợ lý khách hàng hoặc vận hành nội bộ, việc hiểu về 'vòng đời' và sự lão hóa của hệ thống là cực kỳ quan trọng. Kết quả nghiên cứu gợi ý rằng việc triển khai AI tin cậy đòi hỏi đánh giá vòng đời, chẩn đoán cơ chế lỗi và sửa chữa mục tiêu, thay vì chỉ tập trung vào việc tìm kiếm các mô hình nền tảng mạnh hơn.