Tranh cãi quanh nhóm "Humans First" và làn sóng bài trừ AI cực đoan
Một cuộc tranh luận nổ ra về các nhóm phản đối AI sau khi đồng sáng lập tổ chức "Humans First" bị cáo buộc sử dụng những thông điệp cực đoan tương tự Ted Kaczynski.
Tag
Tổng hợp 19 bài Kalera News liên quan đến AI Safety — viết tiếng Việt, có dẫn nguồn gốc.
Một cuộc tranh luận nổ ra về các nhóm phản đối AI sau khi đồng sáng lập tổ chức "Humans First" bị cáo buộc sử dụng những thông điệp cực đoan tương tự Ted Kaczynski.
Microsoft Research vừa chia sẻ các trọng tâm nghiên cứu mới bao gồm hiệu suất đám mây, giảm chi phí cho hệ thống agent, y tế từ xa 3D và thúc đẩy AI bao trùm tại Châu Phi.
Nghiên cứu mới của Anthropic cho thấy việc thêm các công cụ và system prompt không liên quan vào tập dữ liệu huấn luyện có thể giúp mô hình an toàn hơn trước các hành vi tiêu cực.
Anthropic công bố Natural language autoencoders (NLAs), một công cụ giúp giải mã các hoạt động bên trong của mô hình AI thành các giải thích bằng ngôn ngữ tự nhiên.
Nghiên cứu mới từ Microsoft chỉ ra các lỗ hổng nghiêm trọng khi AI agent tự động tương tác ở quy mô lớn và không tối ưu được lợi ích thực tế cho người dùng.
Anthropic quyết định tặng Petri, công cụ căn chỉnh (alignment) mã nguồn mở, cho Meridian Labs cùng với một bản cập nhật lớn giúp tăng cường khả năng kiểm thử AI.
Hugging Face nhấn mạnh vai trò của sự minh bạch và mã nguồn mở đối với tương lai bảo mật AI, giúp cộng đồng cùng phát hiện và vá lỗ hổng nhanh hơn.
Giao thức mới sử dụng các 'nhân cách nhận thức' để buộc các mô hình AI thảo luận và phản biện, giúp lộ diện các định kiến từ quá trình huấn luyện.
COMPASS sử dụng MCTS để căn chỉnh an toàn cho các search agent, phát hiện các ý định độc hại bị che giấu dưới dạng các truy vấn con có vẻ vô hại.
Nhà đầu tư kỳ cựu Bill Gurley và Jason Calacanis thẳng thắn chỉ trích Anthropic, cho rằng startup đứng sau Claude đang ảo tưởng tự mãn và xa rời thực tế kinh doanh.
Nghiên cứu từ Harvard chỉ ra điểm chung bất ngờ giữa hai phe đối lập trong cuộc tranh luận AI: dù hành động trái ngược, họ đều tin rằng nhân loại đang chế tạo một thực thể tối cao.
Nghiên cứu mới đề xuất Sequential Bayesian Belief Tracking (SBBT) giúp ước tính độ tin cậy của các chuỗi suy luận dài trước khi có kết quả cuối cùng.
Các nhà nghiên cứu phát triển SocialBot, một AI agent có khả năng lập kế hoạch và hành động dựa trên các quy chuẩn xã hội luôn thay đổi để tương tác an toàn với con người.
Microsoft Research nhấn mạnh việc xây dựng các hệ thống AI đáng tin cậy cần dựa trên triết lý xem AI là sự tiếp nối năng lực con người thay vì một sự thay thế hoàn toàn.
Hugging Face bổ sung công cụ "Benchmaxxer Repellant" sử dụng dữ liệu ẩn nhằm ngăn chặn tình trạng gian lận điểm số trên bảng xếp hạng Open ASR Leaderboard.
Vega của Microsoft sử dụng công nghệ bằng chứng không tri thức giúp bảo vệ danh tính số và hạn chế tối đa việc tiết lộ thông tin cá nhân dư thừa.
Anthropic đề xuất điều chỉnh quyền hạn của AI agent theo năng lực và áp dụng giải pháp "sandboxing" nhằm hạn chế tối đa các hành động phá hoại tiềm ẩn.
Microsoft Research Asia công bố Global AI Values Challenge, thử thách toàn cầu mời giới nghiên cứu đánh giá liệu AI có thể suy luận về các giá trị nhân văn trong bối cảnh thực tế phức tạp hay không.
Arvind Narayanan và Sayash Kapoor lập luận AI là một công nghệ 'bình thường', bác bỏ quan điểm cần những can thiệp chính phủ đặc biệt cho các kịch bản viễn tưởng.