AI tools-ai 18 thg 6, 2026 4 phút đọc

Kẻ Gây Lo Lắng Lại Đi Trấn An: Anthropic Cử Hacker Nicholas Carlini Đối Phó Nỗi Sợ AI Từ Chính Phủ 🤯

Nicholas Carlini của Anthropic, người từng gây báo động về khả năng tấn công đáng sợ của AI Mythos, nay được giao nhiệm vụ thuyết phục chính phủ Hoa Kỳ chấp thuận phát hành phiên bản an toàn hơn Fable 5, giữa lúc cộng đồng an toàn AI đang chia rẽ sâu sắc về hướng đi này.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc wsj.com

Kẻ Gây Lo Lắng Lại Đi Trấn An: Anthropic Cử Hacker Nicholas Carlini Đối Phó Nỗi Sợ AI Từ Chính Phủ 🤯

Một nhà nghiên cứu an ninh mạng từng xem nhẹ những lời cảnh báo về ngày tận thế của AI, sau đó lại chính mình lên tiếng cảnh báo, giờ đây đang là nhà đàm phán chủ chốt mà Nhà Trắng mời đến để xoa dịu những lo lắng. Tờ Wall Street Journal đã theo dõi cách Nicholas Carlini của Anthropic – người nổi tiếng trong lĩnh vực an ninh mạng với biệt danh "người hoài nghi chuyên nghiệp" về rủi ro AI – đã thử nghiệm mô hình Mythos mạnh mẽ nhưng chưa được phát hành của công ty vào đầu năm nay và đã vô cùng kinh hãi.

"Tôi không nghĩ chúng ta nên phát hành Mythos lúc này," Carlini đã viết cho các đồng nghiệp trong một ghi chú riêng tư vào thời điểm đó. Đó là một lời cảnh báo lạnh gáy, xuất phát từ chính người được cho là hiểu rõ nhất về mặt trái của công nghệ.

"Vòng Lặp Carlini" và "Đại Nạn Lỗi Phần Mềm" (Bugmageddon) 💥

Carlini đã phát hiện ra rằng AI đã đạt được khả năng tấn công vượt xa mọi kỳ vọng trong giới học thuật. Sử dụng một kỹ thuật gợi ý (prompting) hiện được đặt tên là "Vòng Lặp Carlini", ông đã khiến mô hình AI tự động xem xét mã nguồn bằng cách tập trung vào các tệp riêng lẻ, bị cô lập, trong các cửa sổ ngữ cảnh sạch sẽ, chạy trong một vòng lặp tự động, có kịch bản.

Kết quả thật kinh hoàng và mang tính hủy diệt ngay lập tức:

1. Lỗ hổng Kernel Linux: Mô hình đã tìm ra một lỗ hổng sâu sắc trong hệ điều hành Linux. 2. Zero-Day của Ghost CMS: Mô hình đã xác định một lỗ hổng nghiêm trọng, chưa từng được biết đến trước đây trong Ghost, nền tảng xuất bản web mã nguồn mở phổ biến.

Trong vòng vài tuần sau khám phá của Carlini, các hacker độc hại đã bắt đầu khai thác lỗ hổng zero-day của Ghost trong thực tế. Tác động đời thực này đã kích hoạt điều mà các chuyên gia an ninh mạng đang gọi là "Đại Nạn Lỗi Phần Mềm" (Bugmageddon) – nhận thức đột ngột rằng các mô hình ngôn ngữ lớn (LLM) giờ đây có thể tìm và giúp vũ khí hóa các lỗ hổng phần mềm phức tạp ở quy mô lớn, làm thay đổi đáng kể cán cân quyền lực giữa kẻ tấn công và người bảo vệ.

Cuộc Chiến Vì Sự Ra Mắt Của Fable 5 🛡️

Sau phát hiện chấn động này, chính phủ Hoa Kỳ đã ban hành lệnh cấm khẩn cấp xuất khẩu/phát hành đối với các mô hình chưa được công bố của Anthropic.

Đáp lại, Anthropic đã thực hiện một bước đi đầy nghịch lý: họ cử Nicholas Carlini, chính hacker đã gióng lên hồi chuông báo động, đến Washington D.C. Nhiệm vụ của ông là thuyết phục các quan chức chính phủ và các cơ quan an ninh quốc gia rằng việc phát hành Fable 5 – một phiên bản của mô hình Mythos đã được "nhổ nọc" cẩn thận với các rào chắn an toàn cụ thể – thực sự là con đường an toàn nhất để tiến về phía trước.

Luận điểm cốt lõi của Carlini là, mặc dù không có thứ gọi là an toàn tuyệt đối trong AI, nhưng các đội an ninh phòng thủ sẽ hưởng lợi nhiều hơn từ việc tiếp cận có kiểm soát, công khai các mô hình này để vá lỗi, hơn là việc giữ chúng bị khóa kín.

Điều này đã chia cộng đồng an toàn AI thành ba phe rõ rệt:

* Phe Hạn Chế (Restrictionists): Những người muốn cấm vĩnh viễn, cứng rắn việc phát hành các mô hình tiên tiến. * Phe Ủng Hộ Liên Minh (Consortium Advocates): Những người ủng hộ việc tiếp cận có kiểm soát, được kiểm toán thông qua các quan hệ đối tác nghiên cứu đáng tin cậy (đây là cách tiếp cận mà Anthropic ưu tiên). * Phe Ủng Hộ Mã Nguồn Mở (Open-source Advocates): Những người lập luận rằng việc tiếp cận hoàn toàn mã nguồn mở là biện pháp phòng thủ tối thượng, cho phép cộng đồng cùng nhau kiểm tra và vá lỗi nhanh chóng, phân tán.