Khi các hệ thống tự trị ngày càng phổ biến, việc tạo ra cơ chế ra quyết định bao hàm các cân nhắc đạo đức — thay vì chỉ tối đa hóa lợi ích truyền thống — trở nên cấp thiết.
Diễn biến
Kiến trúc gồm ba module phối hợp: module tạo đặc tả giá trị từ các văn bản nền tảng; module gán nhãn văn bản dựa trên các đặc tả này; và module gán mức độ hỗ trợ hoặc phản đối dựa trên bằng chứng ngữ nghĩa và tu từ. Cách tiếp cận này tách biệt việc khái niệm hóa giá trị khỏi việc phát hiện chúng, tạo ra một quy trình có thể mở rộng và tái lập. Hệ thống đã được thử nghiệm với nhiều LLM khác nhau và đánh giá trên tập dữ liệu ValueEval.
Vì sao đáng chú ý
Điểm khác biệt của kiến trúc này là khả năng 'may đo' (tailorable), cho phép người dùng định nghĩa các khung giá trị khác nhau mà không cần kỹ thuật prompt phức tạp. Thử nghiệm cho thấy hiệu suất phát hiện tốt trên nhiều mô hình, khẳng định tính tổng quát của quy trình. Đây là bước đệm quan trọng để xây dựng các AI agent có khả năng điều chỉnh hành vi theo văn hóa và chuẩn mực đạo đức của từng cộng đồng cụ thể.