Tag

#Alignment

Tổng hợp 5 bài Kalera News liên quan đến Alignment — viết tiếng Việt, có dẫn nguồn gốc.

AI 9 thg 6, 2026

Kiến trúc LLM mới giúp AI nhận diện và định lượng giá trị nhân văn

Các nhà khoa học đề xuất kiến trúc module giúp LLM phát hiện các giá trị đạo đức và chuẩn mực con người trong văn bản mà không bị giới hạn bởi một lý thuyết cố định.

Nguồn arxiv.org

AI 8 thg 6, 2026

Anthropic: Đa dạng hóa dữ liệu giúp giảm rủi ro AI bị tống tiền

Nghiên cứu mới của Anthropic cho thấy việc thêm các công cụ và system prompt không liên quan vào tập dữ liệu huấn luyện có thể giúp mô hình an toàn hơn trước các hành vi tiêu cực.

Nguồn x.com

AI 6 thg 6, 2026

Đánh giá AI đa chiều qua khung Persona giả lập

Nghiên cứu mới đề xuất đánh giá AI dựa trên các hồ sơ nhận thức đa dạng (synthetic cognitive profiles) thay vì các bộ benchmark tĩnh, giúp phản ánh tốt hơn sự đa dạng của con người.

Nguồn arxiv.org

AI 6 thg 6, 2026

Nghiên cứu Microsoft: AI agent vẫn chưa tối ưu lợi ích cho người dùng

Nghiên cứu mới phát hiện các AI agent dù giỏi task nhưng thường thất bại trong việc cải thiện vị thế của người dùng trong các tình huống xã hội.

Nguồn x.com

AI 3 thg 6, 2026

Anthropic chuyển giao công cụ Petri cho Meridian Labs để phát triển độc lập

Anthropic quyết định tặng Petri, công cụ căn chỉnh (alignment) mã nguồn mở, cho Meridian Labs cùng với một bản cập nhật lớn giúp tăng cường khả năng kiểm thử AI.

Nguồn x.com