Consilium Protocol là một kiến trúc dựa trên cơ chế Byzantine Fault Tolerance (BFT) dành cho việc thảo luận đa mô hình có cấu trúc. Thay vì xem sự bất đồng giữa các mô hình là lỗi, giao thức này coi đó là một tín hiệu nhận thức để tổng hợp tri thức, giúp tách biệt năng lực suy luận của mô hình khỏi các hạn chế từ dữ liệu huấn luyện.
Bối cảnh
Quá trình huấn luyện căn chỉnh (RLHF) thường tạo ra các "điểm mù nhận thức" (epistemic blind spots) trong AI. Ví dụ, các mô hình có xu hướng ít phản biện các chủ đề gây tranh cãi hơn so với các vấn đề khoa học đã ngã ngũ. Điều này làm giảm khả năng tư duy phản biện của AI đối với các thông tin nhạy cảm hoặc mới nổi.
Vì sao đáng chú ý
Bằng cách gán các nhân cách nhận thức (cognitive personas) riêng biệt, Consilium cho thấy hành vi nhận thức phụ thuộc vào cách AI được chỉ định tư duy hơn là bản thân mô hình đó. Thử nghiệm trên hơn 1.400 phiên thảo luận cho thấy giao thức có thể xác thực hàng trăm khẳng định và phát hiện các điểm mù mà quá trình thảo luận thông thường không thấy được. Đây là công cụ tiềm năng để kiểm định độ an toàn và tính khách quan của các hệ thống AI tiên tiến.