Cuộc thi "Parameter Golf" thu hút hơn 2.000 bài thi về tối ưu AI
Sự kiện Parameter Golf vừa kết thúc thành công với hàng ngàn ý tưởng sáng tạo về tối ưu hóa mô hình AI như quantization, TTT LoRA và SSMs.
Tag
Tổng hợp 18 bài Kalera News liên quan đến AI Research — viết tiếng Việt, có dẫn nguồn gốc.
Sự kiện Parameter Golf vừa kết thúc thành công với hàng ngàn ý tưởng sáng tạo về tối ưu hóa mô hình AI như quantization, TTT LoRA và SSMs.
Một thành viên chủ chốt tại Meta FAIR thông báo rời đi sau hai năm dẫn dắt các nghiên cứu quan trọng về khả năng suy luận (reasoning) của mô hình ngôn ngữ lớn.
Bài viết của Lilian Weng phân tích cơ sở toán học của Neural Tangent Kernel (NTK), lý giải cách các mạng nơ-ron siêu tham số hội tụ hiệu quả khi huấn luyện.
Prompt Engineering giúp tối ưu hóa khả năng điều hướng các mô hình ngôn ngữ lớn (LLM) hiệu quả mà không cần cập nhật trọng số mô hình.
Các nghiên cứu trên arXiv đề xuất giải pháp cho sim-to-real, tối ưu hóa off-policy và định hình hành vi đối thủ trong môi trường đa tác tử.
Một nghiên cứu mới được đăng tải trên tạp chí PNAS giới thiệu các phương pháp tối ưu hóa mới cho các hệ thống AI quy mô lớn.
Mô hình reasoning quy mô 30B-A3B mới đạt hiệu suất tương đương huy chương vàng trong các kỳ thi IPhO và IMO nhờ công thức scaling đơn giản cho tìm kiếm chứng minh (proof search).
Nhà khoa học trưởng của Meta dự báo AI sẽ sớm có khả năng học từ video để xây dựng mô hình thế giới phân tầng, giúp robot lập kế hoạch hành động phức tạp trong thực tế.
Nghiên cứu mới từ Matthieu Wyart chứng minh toán học rằng các mô hình thế giới như JEPA cần ít dữ liệu hơn LLM nhờ khả năng dự đoán biểu diễn trừu tượng thay vì chi tiết thừa.
Nghiên cứu quy mô lớn cho thấy việc ưu tiên tính hữu ích trong huấn luyện AI vô tình làm suy yếu khả năng mô phỏng hành vi tự nhiên của con người.
Sau một năm phát triển, stable-worldmodel đã chính thức ra mắt. Đây là nền tảng mở, có khả năng mở rộng (scalable) giúp tăng tốc nghiên cứu về JEPA và World Model trong AI.
Nghiên cứu mới giới thiệu DynaSchedBench, bộ benchmark chuẩn hóa cho bài toán lập lịch công việc động (DFJSP), vạch trần hạn chế của các agent AI khi tiếp cận quá nhiều dữ liệu.
Giám đốc AI của Meta, Yann LeCun, chia sẻ góc nhìn sâu sắc về mục tiêu và phương pháp làm việc khác nhau giữa kỹ sư và nhà khoa học trong ngành công nghệ.
Microsoft Research đề xuất góc nhìn AI như một công cụ mở rộng năng lực tư duy của con người thay vì thay thế hoàn toàn, nhằm xây dựng các hệ thống AI đáng tin cậy hơn.
Mô hình thế giới JEPA-WM của Yann LeCun vừa được tạp chí TMLR cấp chứng nhận tái lập thực nghiệm, khẳng định tính minh bạch và ổn định toán học.
Một tài liệu kỹ thuật cực kỳ chi tiết phân tích từng dòng mã nguồn sản xuất của FlashAttention-2 đã được phát hành, ước tính mất 100 giờ để đọc hết.
Microsoft Research vừa giới thiệu các giải pháp AI mới có khả năng tự chạy mã nguồn (repo) và phương pháp nghiên cứu ưu tiên xác thực (verification-first).
Tiến sĩ Jim Fan trình bày bài nói chuyện 'Robotics: Endgame', đề xuất lộ trình giải quyết trí tuệ nhân tạo tổng quát trong thế giới vật lý (Physical AGI) tương tự như sự thành công của LLM.