Kiến trúc LLM mới giúp AI nhận diện và định lượng giá trị nhân văn
Các nhà khoa học đề xuất kiến trúc module giúp LLM phát hiện các giá trị đạo đức và chuẩn mực con người trong văn bản mà không bị giới hạn bởi một lý thuyết cố định.
Tag
Tổng hợp 5 bài Kalera News liên quan đến Alignment — viết tiếng Việt, có dẫn nguồn gốc.
Các nhà khoa học đề xuất kiến trúc module giúp LLM phát hiện các giá trị đạo đức và chuẩn mực con người trong văn bản mà không bị giới hạn bởi một lý thuyết cố định.
Nghiên cứu mới của Anthropic cho thấy việc thêm các công cụ và system prompt không liên quan vào tập dữ liệu huấn luyện có thể giúp mô hình an toàn hơn trước các hành vi tiêu cực.
Nghiên cứu mới đề xuất đánh giá AI dựa trên các hồ sơ nhận thức đa dạng (synthetic cognitive profiles) thay vì các bộ benchmark tĩnh, giúp phản ánh tốt hơn sự đa dạng của con người.
Nghiên cứu mới phát hiện các AI agent dù giỏi task nhưng thường thất bại trong việc cải thiện vị thế của người dùng trong các tình huống xã hội.
Anthropic quyết định tặng Petri, công cụ căn chỉnh (alignment) mã nguồn mở, cho Meridian Labs cùng với một bản cập nhật lớn giúp tăng cường khả năng kiểm thử AI.