AI 27 thg 5, 2026 1 phút đọc

ChatGPT nâng cấp khả năng nhận diện ngữ cảnh an toàn 🛡️

OpenAI cập nhật hệ thống an toàn cho ChatGPT, cho phép mô hình nhận diện rủi ro dựa trên toàn bộ ngữ cảnh hội thoại thay vì chỉ phân tích từng câu lệnh riêng lẻ.

Tier 1 · nguồn 91% độ tin cậy Đã được duyệt

Openai Chatgpt Safety AI Alignment

Nguồn gốc openai.com

OpenAI vừa triển khai các bản cập nhật an toàn mới cho ChatGPT, tập trung vào việc nâng cao khả năng nhận thức ngữ cảnh trong các cuộc hội thoại mang tính nhạy cảm.

Diễn biến

Thay vì chỉ lọc các từ khóa hoặc phân tích từng prompt độc lập, hệ thống mới của OpenAI có khả năng xâu chuỗi thông tin qua nhiều lượt tương tác để phát hiện các hành vi dẫn dụ tinh vi hoặc ý đồ vượt rào (jailbreak). Điều này giúp ChatGPT nhận diện tốt hơn các rủi ro về an ninh mạng, y tế hoặc nội dung gây hại phát sinh trong quá trình trò chuyện dài.

Công ty khẳng định cách tiếp cận này giúp giảm thiểu đáng kể các lỗ hổng an toàn mà các bộ lọc tĩnh trước đây thường bỏ sót.

Vì sao đáng chú ý

Cập nhật này đánh dấu bước chuyển từ 'chặn từ khóa' sang 'hiểu ý đồ' trong an toàn AI. Đối với người dùng Việt Nam, điều này giúp giảm bớt các phản hồi sai lệch hoặc nguy hiểm trong các chủ đề nhạy cảm. Tuy nhiên, việc thắt chặt bộ lọc dựa trên ngữ cảnh cũng đặt ra lo ngại về việc mô hình có thể trở nên quá thận trọng (refusal) đối với các truy vấn nghiên cứu lành mạnh.