AI 28 thg 5, 2026 1 phút đọc

Kiểm soát độ tin cậy của LLM bằng cơ chế Bayesian Belief Tracking

Nghiên cứu mới đề xuất Sequential Bayesian Belief Tracking (SBBT) giúp ước tính độ tin cậy của các chuỗi suy luận dài trước khi có kết quả cuối cùng.

Tier 2 · nguồn 90% độ tin cậy Đã được duyệt

LLM Reasoning Reliability Bayesian AI Safety

Nguồn gốc arxiv.org

Phương pháp SBBT cho phép hiệu chuẩn xác suất và cập nhật niềm tin một cách đệ quy, giúp tách biệt khả năng hiệu chuẩn (calibration) khỏi khả năng xếp hạng (ranking) trong suy luận của mô hình ngôn ngữ.

Diễn biến

Các chuỗi suy luận dài (reasoning traces) thường khó kiểm soát độ tin cậy cho đến khi hoàn tất. SBBT sử dụng các quan sát 'prefix-safe' để theo dõi trạng thái niềm tin thông qua nhiều tín hiệu như điểm số vô hướng, văn bản, hidden clusters và đặc trưng quỹ đạo tiềm ẩn. Thử nghiệm trên MATH-500, GSM8K và AIME 2025 cho thấy SBBT cải thiện chỉ số Brier (chất lượng xác suất) đáng kể, đặc biệt trong các bài toán toán học khó với mức tăng +0.110 AUROC.

Vì sao đáng chú ý

Đây là khung làm việc hỗ trợ suy luận online có khả năng nhận biết hiệu chuẩn. Với các hệ thống AI agent thực hiện các tác vụ phức tạp, việc biết khi nào mô hình đang 'đi sai hướng' trước khi kết thúc quá trình suy luận là cực kỳ quan trọng để tiết kiệm tài nguyên và tăng độ an toàn. Kết quả nghiên cứu cho thấy các tín hiệu cấu trúc (structure-aware) đóng vai trò then chốt trong việc cải thiện thứ hạng tin cậy khi các phương pháp cơ bản đã bão hòa.