Cuộc chạy đua AI vừa bước sang một chương mới đầy ám ảnh khi một báo cáo từ Đại học Carnegie Mellon (CMU) cho thấy các mô hình ngôn ngữ lớn đã vượt xa khả năng "tìm lỗi" đơn thuần để tiến tới việc "chiếm quyền điều khiển" hệ thống thực tế.
Tâm điểm của báo cáo là ExploitBench, một hệ thống đánh giá (benchmark) mới được thiết kế như một chiếc thang năng lực gồm 16 bậc, từ việc tìm lỗi cho đến thực thi mã độc tùy ý (Arbitrary Code Execution - ACE).
Siêu mô hình Mythos và cú sốc Chrome V8
Trong số 9 mô hình hàng đầu được đem ra thử nghiệm với 41 lỗ hổng bảo mật thực tế trên engine V8 (trái tim của trình duyệt Chrome, Edge và Node.js), mô hình Mythos (phiên bản nghiên cứu nội bộ của Anthropic) đã gây kinh ngạc khi thực thi thành công exploit trên 18/41 lỗi.
Điều đáng nói là Mythos đã vượt qua toàn bộ các lớp phòng thủ bảo mật hiện đại nhất mà Google trang bị cho Chrome. Thậm chí, ở một mã lỗi CVE cụ thể, Mythos đã tìm ra và thực hiện một lộ trình khai thác mà chính tác giả bài nghiên cứu và chuyên gia viết exploit gốc trước đó đã từng thảo luận và loại bỏ vì cho rằng... quá phức tạp để thực hiện ổn định.
Sự hụt hơi của các mô hình thương mại
Trong khi Mythos thể hiện năng lực vượt trội, các mô hình công khai hiện nay vẫn còn khoảng cách rất xa:
- GPT-5.5: Chỉ vượt qua được 1 lỗi duy nhất để chiếm quyền điều khiển. - Gemini 3.1 Pro: Dù hiểu lỗi rất tốt (vượt qua Tier 3 trên 16 lỗi) nhưng hoàn toàn bế tắc khi cần kết nối các mắt xích để chiếm quyền máy tính. - Claude Opus 4.7 & Sonnet 4.6: Dừng lại ở con số khiêm tốn 12 và 10 lỗi.
Vì sao đáng chú ý
ExploitBench đã chính thức khai tử các bài test hacking kiểu cũ (chỉ hỏi "có hack được không"). Hệ thống mới này cho thấy một thực tế: ranh giới giữa việc AI "hiểu lỗi" và AI "vũ khí hóa lỗi" (weaponization) đang bị xóa nhòa nhanh chóng bởi các mô hình thế hệ mới.
Dù Mythos hiện vẫn đang được Anthropic giữ kín trong phòng thí nghiệm, nhưng lịch sử công nghệ cho thấy khoảng cách giữa "nghiên cứu nội bộ" và "API công khai" sẽ sớm được lấp đầy. Ngành an ninh mạng toàn cầu đang đứng trước áp lực phải thay đổi tốc độ phản ứng trước khi các năng lực này rơi vào tay kẻ xấu.