Tag

#AI Safety

Tổng hợp 19 bài Kalera News liên quan đến AI Safety — viết tiếng Việt, có dẫn nguồn gốc.

AI 11 thg 6, 2026

Tranh cãi quanh nhóm "Humans First" và làn sóng bài trừ AI cực đoan

Một cuộc tranh luận nổ ra về các nhóm phản đối AI sau khi đồng sáng lập tổ chức "Humans First" bị cáo buộc sử dụng những thông điệp cực đoan tương tự Ted Kaczynski.

Nguồn x.com

AI 11 thg 6, 2026

Microsoft Research công bố các ưu tiên mới: Tối ưu chi phí AI và bình đẳng ngôn ngữ

Microsoft Research vừa chia sẻ các trọng tâm nghiên cứu mới bao gồm hiệu suất đám mây, giảm chi phí cho hệ thống agent, y tế từ xa 3D và thúc đẩy AI bao trùm tại Châu Phi.

Nguồn x.com

AI 8 thg 6, 2026

Anthropic: Đa dạng hóa dữ liệu giúp giảm rủi ro AI bị tống tiền

Nghiên cứu mới của Anthropic cho thấy việc thêm các công cụ và system prompt không liên quan vào tập dữ liệu huấn luyện có thể giúp mô hình an toàn hơn trước các hành vi tiêu cực.

Nguồn x.com

AI 8 thg 6, 2026

Anthropic giới thiệu NLAs: Chuyển đổi dữ liệu AI phức tạp thành văn bản dễ hiểu

Anthropic công bố Natural language autoencoders (NLAs), một công cụ giúp giải mã các hoạt động bên trong của mô hình AI thành các giải thích bằng ngôn ngữ tự nhiên.

Nguồn x.com

AI 5 thg 6, 2026

Microsoft cảnh báo loạt rủi ro vận hành từ hệ thống AI agent

Nghiên cứu mới từ Microsoft chỉ ra các lỗ hổng nghiêm trọng khi AI agent tự động tương tác ở quy mô lớn và không tối ưu được lợi ích thực tế cho người dùng.

Nguồn microsoft.com microsoft.com microsoft.com

AI 3 thg 6, 2026

Anthropic chuyển giao công cụ Petri cho Meridian Labs để phát triển độc lập

Anthropic quyết định tặng Petri, công cụ căn chỉnh (alignment) mã nguồn mở, cho Meridian Labs cùng với một bản cập nhật lớn giúp tăng cường khả năng kiểm thử AI.

Nguồn x.com

AI · tools-ai 3 thg 6, 2026

Hugging Face ủng hộ mã nguồn mở trong bảo mật AI

Hugging Face nhấn mạnh vai trò của sự minh bạch và mã nguồn mở đối với tương lai bảo mật AI, giúp cộng đồng cùng phát hiện và vá lỗ hổng nhanh hơn.

Nguồn huggingface.co

AI 2 thg 6, 2026

Consilium Protocol: Cơ chế thảo luận đa mô hình giúp phát hiện điểm mù AI

Giao thức mới sử dụng các 'nhân cách nhận thức' để buộc các mô hình AI thảo luận và phản biện, giúp lộ diện các định kiến từ quá trình huấn luyện.

Nguồn arxiv.org

AI 1 thg 6, 2026

COMPASS: Căn chỉnh quy trình cho các tác nhân tìm kiếm an toàn

COMPASS sử dụng MCTS để căn chỉnh an toàn cho các search agent, phát hiện các ý định độc hại bị che giấu dưới dạng các truy vấn con có vẻ vô hại.

Nguồn arxiv.org

AI 1 thg 6, 2026

🤖 Giới đầu tư Mỹ chỉ trích Anthropic "ảo tưởng tạo ra Chúa"

Nhà đầu tư kỳ cựu Bill Gurley và Jason Calacanis thẳng thắn chỉ trích Anthropic, cho rằng startup đứng sau Claude đang ảo tưởng tự mãn và xa rời thực tế kinh doanh.

Nguồn x.com

AI 1 thg 6, 2026

Tranh luận AI: Cả phe ủng hộ và lo ngại đều tin đang tạo ra "Thần AI" 🤖

Nghiên cứu từ Harvard chỉ ra điểm chung bất ngờ giữa hai phe đối lập trong cuộc tranh luận AI: dù hành động trái ngược, họ đều tin rằng nhân loại đang chế tạo một thực thể tối cao.

Nguồn x.com

AI 28 thg 5, 2026

Kiểm soát độ tin cậy của LLM bằng cơ chế Bayesian Belief Tracking

Nghiên cứu mới đề xuất Sequential Bayesian Belief Tracking (SBBT) giúp ước tính độ tin cậy của các chuỗi suy luận dài trước khi có kết quả cuối cùng.

Nguồn arxiv.org

AI 28 thg 5, 2026

SocialBot: AI Agent biết lập kế hoạch dựa trên quy chuẩn xã hội

Các nhà nghiên cứu phát triển SocialBot, một AI agent có khả năng lập kế hoạch và hành động dựa trên các quy chuẩn xã hội luôn thay đổi để tương tác an toàn với con người.

Nguồn arxiv.org

AI 28 thg 5, 2026

Microsoft Research: Xem AI là công cụ hỗ trợ thay vì thay thế con người

Microsoft Research nhấn mạnh việc xây dựng các hệ thống AI đáng tin cậy cần dựa trên triết lý xem AI là sự tiếp nối năng lực con người thay vì một sự thay thế hoàn toàn.

Nguồn x.com

AI 27 thg 5, 2026

Hugging Face cập nhật bảng xếp hạng ASR chống gian lận điểm số

Hugging Face bổ sung công cụ "Benchmaxxer Repellant" sử dụng dữ liệu ẩn nhằm ngăn chặn tình trạng gian lận điểm số trên bảng xếp hạng Open ASR Leaderboard.

Nguồn huggingface.co

AI 27 thg 5, 2026

Microsoft ra mắt Vega: Xác thực danh tính thời AI bằng ZKP

Vega của Microsoft sử dụng công nghệ bằng chứng không tri thức giúp bảo vệ danh tính số và hạn chế tối đa việc tiết lộ thông tin cá nhân dư thừa.

Nguồn microsoft.com

AI 27 thg 5, 2026

Anthropic: Quyền hạn của AI agent cần thay đổi theo năng lực 🤖

Anthropic đề xuất điều chỉnh quyền hạn của AI agent theo năng lực và áp dụng giải pháp "sandboxing" nhằm hạn chế tối đa các hành động phá hoại tiềm ẩn.

Nguồn x.com

AI 26 thg 5, 2026

Microsoft Research Asia tổ chức cuộc thi đánh giá khả năng hiểu giá trị con người của AI

Microsoft Research Asia công bố Global AI Values Challenge, thử thách toàn cầu mời giới nghiên cứu đánh giá liệu AI có thể suy luận về các giá trị nhân văn trong bối cảnh thực tế phức tạp hay không.

Nguồn x.com

AI 23 thg 5, 2026

AI không phải 'phép màu': 8 điểm mấu chốt về rủi ro và quản lý nhà nước

Arvind Narayanan và Sayash Kapoor lập luận AI là một công nghệ 'bình thường', bác bỏ quan điểm cần những can thiệp chính phủ đặc biệt cho các kịch bản viễn tưởng.

Nguồn x.com