AI: AgingBench — Thước đo độ 'lão hóa' của AI agent khi triển khai thực tế
Nghiên cứu mới giới thiệu AgingBench, một benchmark đánh giá độ tin cậy dài hạn của AI agent, chỉ ra rằng agent cũng bị 'lão hóa' và suy giảm hiệu suất theo thời gian sau khi triển khai.
Nguồn arxiv.org