Google DeepMind hợp tác với EVE Online để huấn luyện AI trong vũ trụ ảo
Google DeepMind bắt tay với các nhà phát triển game EVE Online, sử dụng vũ trụ phức tạp này làm 'sandbox' để thử nghiệm khả năng ghi nhớ và lập kế hoạch dài hạn của các agent.
Tag
Tổng hợp 8 bài Kalera News liên quan đến Reinforcement Learning — viết tiếng Việt, có dẫn nguồn gốc.
Google DeepMind bắt tay với các nhà phát triển game EVE Online, sử dụng vũ trụ phức tạp này làm 'sandbox' để thử nghiệm khả năng ghi nhớ và lập kế hoạch dài hạn của các agent.
Các nghiên cứu trên arXiv đề xuất giải pháp cho sim-to-real, tối ưu hóa off-policy và định hình hành vi đối thủ trong môi trường đa tác tử.
Sự hợp tác này nhằm thiết kế các pipeline huấn luyện mới, cho phép các tác vụ AI agent khám phá và thúc đẩy những bước tiến mới trong khoa học và công nghiệp.
Đề xuất khung làm việc nhận biết độ không đảm bảo để hướng dẫn quá trình khám phá trong học tăng cường cho xe tự hành, giúp tránh va chạm trong huấn luyện.
Clement Delangue (Hugging Face) đưa ra cảnh báo về việc nhiều quy trình huấn luyện Reinforcement Learning (RL) cho các Agentic LLM hiện nay đang bị lỗi mà người dùng không hề hay biết. Trong khi RL đơn lượt (single-turn) hoạt động ổn định, việc thêm công cụ để mô hình tương tác giữa chừng thường khiến hệ thống mất kiểm soát hoặc hội tụ sai hướng.
Nghiên cứu mới đề xuất framework Calibrated Interactive RL giúp giảm thiểu tình trạng lệch phân phối và sai lệch hành vi trong các mô hình hội thoại LLM.
ServiceNow AI và Hugging Face chính thức nâng cấp thư viện vLLM từ V0 lên V1, tập trung vào việc cải thiện độ chính xác trong học tăng cường (RL) giúp giảm đáng kể chi phí hạ tầng.
Atlas, robot hình người của Boston Dynamics, vừa thể hiện khả năng mang vác vật nặng và giữ thăng bằng phức tạp nhờ hệ thống học tăng cường (reinforcement learning) mới.