COMPASS là khung làm việc sử dụng MCTS (Monte Carlo Tree Search) để căn chỉnh an toàn cho các search agent chạy bằng LLM. Nó giúp phát hiện các ý định độc hại bị che giấu dưới dạng các truy vấn con có vẻ vô hại, đồng thời giám sát từng bước thực hiện của agent.
Vì sao đáng chú ý
Ngăn chặn các cuộc tấn công "tàng hình" (stealthy attacks) vào các hệ thống tìm kiếm sử dụng AI mà vẫn giữ được hiệu suất chung.