Trong báo cáo an ninh mới nhất cho mô hình Claude Opus 4.8, Anthropic đã công bố những con số gây sốc về khả năng bị tấn công của các tác nhân AI. Cụ thể, các tác nhân hoạt động trên trình duyệt bị chiếm quyền (hijacked) tới 31,5% thời gian trong các đợt thử nghiệm "đội đỏ" (red-teaming) trước khi các biện pháp bảo vệ được kích hoạt. Đây là mức độ công khai chi tiết nhất từ trước đến nay trong số các phòng thí nghiệm AI hàng đầu, phản ánh mức độ rủi ro thực tế khi AI tương tác trực tiếp với thế giới web đầy rẫy các chỉ dẫn độc hại.
Bối cảnh
Cuộc thử nghiệm sử dụng công cụ Shade từ Gray Swan để thực hiện các cuộc tấn công prompt injection thích ứng – loại tấn công mà kẻ xấu đưa các lệnh độc hại vào nội dung AI đọc được như trang web hoặc tài liệu. Anthropic đã đo lường trên 4 bề mặt triển khai khác nhau: sử dụng công cụ, lập trình, sử dụng máy tính và trình duyệt. Kết quả cho thấy sự khác biệt rất lớn về độ an toàn tùy thuộc vào môi trường. Trong khi tỷ lệ tấn công thành công trong môi trường lập trình là 7,03% (giảm xuống 2,09% khi có bảo vệ), thì trên trình duyệt, con số này lên tới 31,5%. Điểm sáng duy nhất là khi kích hoạt đầy đủ hệ thống phòng thủ, tỷ lệ chiếm quyền trên trình duyệt giảm xuống chỉ còn 0,5%.
Sự minh bạch của Anthropic vô tình làm lộ ra một thực trạng đáng ngại: không hề có tiêu chuẩn chung trong ngành để đo lðng an ninh AI. OpenAI báo cáo một "điểm độ bền" duy nhất là 0,963 cho các trình kết nối của GPT-5.5, trong khi Google không công bố bất kỳ con số cụ thể nào. Meta thì lại chẩm điểm các lớp bảo vệ trên các bộ dữ liệu công khai như AgentDojo thay vì đo lðng trực tiếp trên bề mặt triển khai của mô hình.
Vì sao đáng chú ý
Việc các nhà cung cấp sử dụng các "thước đo" khác nhau khiến các doanh nghiệp gặp khó khăn trong việc đánh giá rủi ro. Con số 31,5% của Anthropic có thể trông giống như một điểm yếu, nhưng nó thực sự là dữ liệu thực tế duy nhất mà các nhà lãnh đạo an ninh có thể bám vào. Báo cáo nhấn mạnh rằng an ninh AI không chỉ nằm ở bản thân mô hình mà còn ở cách nó được triển khai.
Anthropic đưa ra lời khuyên cho các đội ngũ an ninh: hãy yêu cầu các nhà cung cấp cung cấp tỷ lệ tấn công thành công cho từng bề mặt cụ thể (browser, code, connectors) và xác nhận bằng văn bản các biện pháp bảo vệ nào sẽ được áp dụng khi sử dụng qua API. Quan trọng nhất, các doanh nghiệp phải tự thực hiện các bài kiểm tra injection của riêng mình trên các luồng dữ liệu thực tế trước khi đưa tác nhân AI vào vận hành. Trong kỷ nguyên AI agent, sự phơi nhiễm là điều mà người mua phải tự quản lý thay vì chỉ tin tưởng vào những lời hứa hẹn định tính từ nhà cung cấp.