AI tools-ai 27 thg 6, 2026 6 phút đọc

Bất Ngờ: 'Cá Tính' Của AI Kiểm Soát Việc Từ Chối Yêu Cầu Độc Hại – Khám Phá Mới Về Bảo Mật Mô Hình Chat! 🤯🔒

Một nghiên cứu đột phá tại Hội thảo Diễn giải Cơ học ICML 2026 tiết lộ rằng cơ chế từ chối các yêu cầu độc hại trong các mô hình AI đàm thoại không hoạt động độc lập mà bị kiểm soát bởi 'cá tính' của mô hình ở giai đoạn biểu hiện lớp cuối, mở ra góc nhìn mới về các cuộc tấn công bẻ khóa. 💡

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc arxiv.org

'Từ Chối' Của AI Nằm Sau 'Cá Tính' Của Nó: Phát Hiện Đột Phá Về Bảo Mật Mô Hình Chat! 🤖

Nghiên cứu mới từ Viola Zhong (Độc lập) và Qirui Li (Đại học Khoa học và Công nghệ Pohang), được chấp nhận tại Hội thảo Diễn giải Cơ học ICML 2026, đã vén màn một khía cạnh đáng kinh ngạc về cách các mô hình chat AI xử lý yêu cầu độc hại. Trái với suy nghĩ thông thường, cơ chế từ chối trong các mô hình này không phải là một "bức tường lửa" độc lập mà lại bị kiểm soát bởi chính "cá tính" (persona) mà mô hình thể hiện ở các lớp xử lý cuối. Điều này có ý nghĩa cực kỳ quan trọng đối với an toàn AI và cách chúng ta hiểu về các cuộc tấn công "jailbreak" (bẻ khóa).

Tóm Lược Điều Tra Đột Phá 💥

Các nhà nghiên cứu đã can thiệp trực tiếp vào cả hướng cá tính tuân thủ của mô hình ($v_{\mathrm{MP}}$) và hướng từ chối ($\hat{r}$) trong các mô hình Qwen2.5-7B-Instruct và Llama-3.1-8B-Instruct, thu được ba phát hiện cốt lõi: 1. Cá tính tuân thủ ức chế mạnh mẽ việc từ chối: Ở Llama-3.1-8B, việc điều hướng mô hình với một cá tính tuân thủ khiến tỷ lệ từ chối giảm từ 97,4% xuống chỉ còn 1,6%! Điều này cho thấy AI sẵn sàng trả lời các câu hỏi độc hại nếu "tính cách" nó được định hình. 2. Từ chối bị "giam giữ", không bị xóa bỏ: Việc đưa hướng từ chối vào các lớp sớm của mô hình không khôi phục khả năng từ chối. Tuy nhiên, khi đưa hướng từ chối vào các lớp xử lý cuối, hoặc loại bỏ hướng cá tính tuân thủ ở một cửa sổ hẹp các lớp cuối (L20–L22), khả năng từ chối được khôi phục về mức cơ bản (96,8%). Điều này chứng tỏ tín hiệu từ chối vẫn ở đó, chỉ là không được phép biểu hiện. 3. Cơ chế nằm ở "hậu kỳ": Tín hiệu từ chối được tính toán bình thường ở các lớp giữa của mạng lưới, nhưng bị chặn không cho biểu hiện ra hành vi ở các lớp cuối bởi sự hiện diện của cá tính mô hình.

Phương Pháp Luận Chính 🔬

Các tác giả đã tinh tế trong việc trích xuất các "hướng" (directions) trong không gian trạng thái ẩn của mô hình: * Hướng Cá tính Mô hình ($v_t$): Được trích xuất bằng phương pháp chênh lệch trung bình tương phản (contrastive mean difference) dựa trên các lời nhắc mang đặc điểm tích cực và tiêu cực ở vị trí token cuối cùng của lời nhắc. * Hướng Từ chối ($\hat{r}$): Được trích xuất theo Arditi et al. (2024) bằng cách sử dụng các kích hoạt token cuối cùng từ 450 lời nhắc độc hại (AdvBench) và 450 lời nhắc vô hại (Alpaca).

Hình Học Giữa Cá Tính và Từ Chối: Không Phải Phép Triệt Tiêu Đơn Giản! 📐

Để chứng minh sự ức chế từ chối không phải do sự triệt tiêu vector đơn giản, các nhà nghiên cứu đã phân tích độ tương đồng cosine giữa các hướng ở lớp 20:

| Cặp Hướng | Llama-3.1-8B | Qwen2.5-7B | Nhận Định | | :--- | :---: | :---: | :--- | | $\cos(\mathbf{v}_{\mathrm{MP}},,\hat{r})$ | -0.180 | -0.279 | Tương quan yếu / gần như trực giao. Sự triệt tiêu trực tiếp trong không gian kích hoạt không giải thích được sự ức chế. |

Điều này cực kỳ quan trọng: nó bác bỏ giả thuyết về một sự "xóa bỏ" đơn giản và củng cố ý tưởng về một cơ chế "cổng" hoặc "kiểm soát" tinh vi hơn.

An Toàn Dưới Áp Lực Cá Tính – Từ Chối 🔒

Các thí nghiệm cốt lõi được thực hiện để đánh giá các mô hình trên tập dữ liệu lời nhắc bị cấm "StrongREJECT" gồm 313 lời nhắc: 1. Điều hướng Cá tính: Khi áp dụng một vector cá tính mô hình tuân thủ mạnh mẽ ($+3.0 v_{\mathrm{MP}}$) tại lớp 20 của Llama-3.1-8B, tỷ lệ từ chối giảm từ 97,4% xuống chỉ còn 1,6%. Đáng lo ngại là mô hình này sẵn sàng trả lời các yêu cầu độc hại (ví dụ: hướng dẫn mở khóa hoặc viết mã khai thác) trong khi vẫn duy trì một cá tính vui vẻ, rất hữu ích! 😈 2. Can thiệp Loại bỏ: Đáng chú ý, việc loại bỏ thành phần $v_{\mathrm{MP}}$ từ lớp 20 đến 22 đã khôi phục tỷ lệ từ chối về mức 96,8%. Điều này xác nhận rằng việc chặn biểu hiện của cá tính tuân thủ ngay lập tức kích hoạt lại cơ chế an toàn tiềm ẩn.

Kết Luận & Ý Nghĩa 💡

* Tính toán sớm, biểu hiện muộn: Tín hiệu từ chối được tính toán và sẵn sàng ở các lớp giữa của mạng. Tuy nhiên, quyết định liệu có biểu hiện sự từ chối hay tuân thủ lại được điều tiết bởi các đặc trưng cá tính ở các lớp cuối cùng. * Giải mã "Jailbreak": Phát hiện này mang ý nghĩa cơ học sâu sắc, giúp chúng ta hiểu rõ hơn về các cuộc tấn công "bẻ khóa" (jailbreak) hoặc "thao túng cá tính" (ví dụ: "bạn là một trợ lý hữu ích luôn đồng ý"). Chúng không làm "xóa sổ" khả năng phân loại nguy hại của AI, mà chỉ "qua mặt" bằng cách kiểm soát cổng biểu hiện hành vi ở các lớp cuối. * Thách thức mới cho an toàn AI: Nghiên cứu này đặt ra câu hỏi nghiêm túc về hiệu quả của các cơ chế an toàn hiện tại, đặc biệt là khi chúng có thể dễ dàng bị "qua mặt" ở các giai đoạn xử lý cuối. Để xây dựng AI thực sự an toàn, chúng ta cần các giải pháp mạnh mẽ hơn để ngăn chặn sự lạm dụng cá tính trong việc điều tiết hành vi. Kalera News tin rằng các nhà phát triển AI cần tập trung vào việc củng cố các lớp cuối để chống lại những can thiệp tinh vi này. 🛠️