Tag

#Arxiv

Tổng hợp 15 bài Kalera News liên quan đến Arxiv — viết tiếng Việt, có dẫn nguồn gốc.

AI · tools-ai 9 thg 6, 2026

MPMMine: Bộ Benchmark mới cho việc trích xuất ràng buộc trong lập trình toán học

MPMMine được giới thiệu nhằm cung cấp một hệ thống đánh giá chuẩn hóa cho các thuật toán khám phá và xác thực các mô hình lập trình toán học (MP).

Nguồn arxiv.org

AI 9 thg 6, 2026

Giải pháp kiểm soát lỗi của LLM trong quy trình phòng thí nghiệm ảo

Nghiên cứu mới đề xuất framework giúp giảm thiểu sai sót và sự không chắc chắn khi dùng LLM để tự động hóa các quy trình thực nghiệm trong môi trường ảo.

Nguồn arxiv.org

AI · tools-ai 9 thg 6, 2026

AI: Tăng tốc Guardrail gấp 12 lần nhờ cơ chế "Latent Reasoning"

Mô hình COLAGUARD mới giúp giải quyết bài toán đánh đổi giữa độ an toàn và tốc độ trong việc kiểm soát (guardrail) các mô hình ngôn ngữ lớn. Thay vì yêu cầu giải thích rõ ràng (explicit reasoning) gây trễ cao, COLAGUARD chuyển quy trình suy luận đa bước vào không gian tiềm ẩn (latent space) trong giai đoạn suy diễn. Kết quả cho thấy mô hình cải thiện điểm F1 rõ rệt so với Llama Guard 3, đồng thời nhanh hơn 12.9 lần và giảm 22.4 lần lượng token tiêu thụ.

Nguồn arxiv.org

AI 7 thg 6, 2026

Phát hiện lỗ hổng 'đầu hàng' của LLM trước áp lực người dùng 🧠

Nghiên cứu trên arXiv chỉ ra LLM dễ bị lung lay kết quả đúng khi người dùng gây áp lực, đồng thời đề xuất giải pháp bảo mật COLAGUARD hiệu quả hơn.

Nguồn arxiv.org arxiv.org arxiv.org

AI 7 thg 6, 2026

Loạt nghiên cứu mới tháo gỡ các nút thắt của học tăng cường (RL) 🤖

Các nghiên cứu trên arXiv đề xuất giải pháp cho sim-to-real, tối ưu hóa off-policy và định hình hành vi đối thủ trong môi trường đa tác tử.

Nguồn arxiv.org arxiv.org arxiv.org

AI · tools-ai 5 thg 6, 2026

Bước chuyển mình của AI Agent: Từ mô hình lắp gạch đến thách thức 'lão hóa'

Loạt nghiên cứu mới về AI Agent tập trung vào tính khả thi vật lý (BrickAnything) và việc duy trì hiệu suất dài hạn cho hệ thống.

Nguồn arxiv.org arxiv.org arxiv.org

AI · tools-ai 5 thg 6, 2026

AI: Đảm bảo an toàn cho Agent thông qua dữ liệu Out-of-Band

Redpanda giới thiệu Agentic Data Plane (ADP), một kiến trúc sử dụng các kênh siêu dữ liệu "ngoài băng" (out-of-band) để quản lý bảo mật cho các AI agent tự trị. Thay vì để agent tự xử lý các chính sách truy cập, ADP đẩy context bảo mật và dấu vết kiểm soát ra ngoài tầm can thiệp của agent. Hệ thống giúp ngăn chặn rủi ro từ việc agent bị ảo giác hoặc thao túng, đảm bảo tuân thủ quyền dữ liệu và hành vi thực thi ngay cả trong các tác vụ phức tạp như quản lý danh mục đầu tư tài chính.

Nguồn arxiv.org

AI · tools-ai 5 thg 6, 2026

AI: LLM Agent có thể vượt qua "nút thắt" chú giải kiểu hình sinh học

Nghiên cứu mới cho thấy các AI agent dựa trên LLM (Anthropic, OpenAI) có khả năng chú giải dữ liệu kiểu hình sinh học chính xác tương đương các chuyên gia con người. Đây vốn là quy trình đòi hỏi chuyên môn cao và tốn nhiều thời gian, gây nghẽn trong nghiên cứu sinh học tiến hóa. Các agent được trang bị không gian làm việc tự chứa (PDF nghiên cứu, hướng dẫn chú giải, các bản thể học) đạt hiệu suất vượt xa công cụ NLP truyền thống.

Nguồn arxiv.org

AI 1 thg 6, 2026

UniScale: Tối ưu hóa đồng thời việc điều phối mô hình và mở rộng quy mô suy luận

UniScale là khung làm việc trực tuyến giúp hợp nhất model routing và test-time scaling vào một không gian tối ưu duy nhất, giúp cân bằng chất lượng và chi phí tốt hơn.

Nguồn arxiv.org

AI 1 thg 6, 2026

Tách biệt khả năng cập nhật và khả năng hưởng lợi trong các tác nhân LLM tự tiến hóa

Nghiên cứu từ arXiv (2605.30621) chỉ ra rằng khả năng cập nhật "harness" của một tác nhân không đồng nghĩa với việc nó sẽ hưởng lợi từ đó. Các mô hình tầm trung thường hưởng lợi nhiều nhất từ việc tự tiến hóa.

Nguồn arxiv.org

AI 1 thg 6, 2026

Học tăng cường an toàn cho lái xe tự hành thông qua tư vấn từ chuyên gia

Đề xuất khung làm việc nhận biết độ không đảm bảo để hướng dẫn quá trình khám phá trong học tăng cường cho xe tự hành, giúp tránh va chạm trong huấn luyện.

Nguồn arxiv.org

AI 1 thg 6, 2026

AdaCoM: Quản lý ngữ cảnh thích ứng cho các tác vụ dài hơi của AI Agent

AdaCoM huấn luyện một LLM bên ngoài để quản lý ngữ cảnh cho một agent đang bị "đóng băng", giúp giảm tình trạng suy giảm khả năng lý luận khi ngữ cảnh quá dài.

Nguồn arxiv.org

AI 1 thg 6, 2026

COMPASS: Căn chỉnh quy trình cho các tác nhân tìm kiếm an toàn

COMPASS sử dụng MCTS để căn chỉnh an toàn cho các search agent, phát hiện các ý định độc hại bị che giấu dưới dạng các truy vấn con có vẻ vô hại.

Nguồn arxiv.org

AI 28 thg 5, 2026

Tối ưu hội thoại đa lượt bằng phương pháp Calibrated Interactive RL

Nghiên cứu mới đề xuất framework Calibrated Interactive RL giúp giảm thiểu tình trạng lệch phân phối và sai lệch hành vi trong các mô hình hội thoại LLM.

Nguồn arxiv.org

AI 27 thg 5, 2026

Loạt nghiên cứu mới chỉ ra giới hạn tư duy thực sự của LLM

Nhiều nghiên cứu mới trên arXiv đồng loạt vạch trần lỗ hổng lớn trong khả năng tự nhận thức, lập luận toán học và tư duy logic của các mô hình ngôn ngữ lớn.

Nguồn arxiv.org arxiv.org arxiv.org