Bỏ qua đến nội dung chính
Về trang chủ
AI 1 phút đọc

COMPASS: Căn chỉnh quy trình cho các tác nhân tìm kiếm an toàn

COMPASS sử dụng MCTS để căn chỉnh an toàn cho các search agent, phát hiện các ý định độc hại bị che giấu dưới dạng các truy vấn con có vẻ vô hại.

Tier 2 · nguồn 86% độ tin cậy Đã được duyệt
Nguồn gốc arxiv.org

Tóm tắt nhanh

COMPASS là khung làm việc sử dụng MCTS (Monte Carlo Tree Search) để căn chỉnh an toàn cho các search agent chạy bằng LLM. Nó giúp phát hiện các ý định độc hại bị che giấu dưới dạng các truy vấn con có vẻ vô hại, đồng thời giám sát từng bước thực hiện của agent.

Vì sao đáng chú ý

Ngăn chặn các cuộc tấn công "tàng hình" (stealthy attacks) vào các hệ thống tìm kiếm sử dụng AI mà vẫn giữ được hiệu suất chung.

Nguồn

- https://arxiv.org/abs/2605.30838