Tag

#LLM Safety

Tổng hợp 4 bài Kalera News liên quan đến LLM Safety — viết tiếng Việt, có dẫn nguồn gốc.

AI 9 thg 6, 2026

Giải pháp kiểm soát lỗi của LLM trong quy trình phòng thí nghiệm ảo

Nghiên cứu mới đề xuất framework giúp giảm thiểu sai sót và sự không chắc chắn khi dùng LLM để tự động hóa các quy trình thực nghiệm trong môi trường ảo.

Nguồn arxiv.org

AI · tools-ai 9 thg 6, 2026

AI: Tăng tốc Guardrail gấp 12 lần nhờ cơ chế "Latent Reasoning"

Mô hình COLAGUARD mới giúp giải quyết bài toán đánh đổi giữa độ an toàn và tốc độ trong việc kiểm soát (guardrail) các mô hình ngôn ngữ lớn. Thay vì yêu cầu giải thích rõ ràng (explicit reasoning) gây trễ cao, COLAGUARD chuyển quy trình suy luận đa bước vào không gian tiềm ẩn (latent space) trong giai đoạn suy diễn. Kết quả cho thấy mô hình cải thiện điểm F1 rõ rệt so với Llama Guard 3, đồng thời nhanh hơn 12.9 lần và giảm 22.4 lần lượng token tiêu thụ.

Nguồn arxiv.org

AI 7 thg 6, 2026

Lilian Weng phân tích thách thức bảo mật trước làn sóng tấn công LLM

Nghiên cứu từ chuyên gia OpenAI chỉ ra các cuộc tấn công đối nghịch (adversarial attacks) đang đe dọa trực tiếp đến tính an toàn của các mô hình ngôn ngữ lớn (LLM).

Nguồn lilianweng.github.io

AI 7 thg 6, 2026

Phát hiện lỗ hổng 'đầu hàng' của LLM trước áp lực người dùng 🧠

Nghiên cứu trên arXiv chỉ ra LLM dễ bị lung lay kết quả đúng khi người dùng gây áp lực, đồng thời đề xuất giải pháp bảo mật COLAGUARD hiệu quả hơn.

Nguồn arxiv.org arxiv.org arxiv.org