MPMMine: Bộ Benchmark mới cho việc trích xuất ràng buộc trong lập trình toán học
MPMMine được giới thiệu nhằm cung cấp một hệ thống đánh giá chuẩn hóa cho các thuật toán khám phá và xác thực các mô hình lập trình toán học (MP).
Tag
Tổng hợp 21 bài Kalera News liên quan đến Benchmark — viết tiếng Việt, có dẫn nguồn gốc.
MPMMine được giới thiệu nhằm cung cấp một hệ thống đánh giá chuẩn hóa cho các thuật toán khám phá và xác thực các mô hình lập trình toán học (MP).
Thay vì tập trung vào việc thay thế con người, JobBench đánh giá AI qua 130 tác vụ thực tế mà chuyên gia muốn ủy quyền. Claude Opus 4.7 mới chỉ đạt 45.9% điểm số.
Mô hình Gemini 3.2 Flash được đồn đoán đạt 92% hiệu năng của GPT 5.5 trong các tác vụ coding và suy luận, trong khi chi phí vận hành rẻ hơn tới 15-20 lần.
Google vừa chứng minh sức mạnh của mô hình Gemini Flash 3.5 khi đạt hiệu năng tương đương với Sonnet 4.6 trên các bảng xếp hạng uy tín, đánh dấu sự trở lại của gã khổng lồ tìm kiếm.
Một công cụ mới mang tên physics-intern giúp các mô hình ngôn ngữ lớn như Gemini 3.1 Pro tăng mạnh hiệu suất giải quyết các bài toán vật lý và khoa học nhờ cơ chế subagent chuyên dụng.
PostTrainBench v1.0 cung cấp bộ tiêu chuẩn mới để đo lường khả năng của các AI agent trong việc thực hiện các nhiệm vụ hậu đào tạo cho mô hình ngôn ngữ.
Aleph từ Logic International vừa đạt vị trí dẫn đầu các benchmark suy luận chính thức, minh chứng cho tầm nhìn của Yann LeCun về việc AI cần hệ thống kiểm tra cấu trúc trước khi phản hồi.
Bindu Reddy chỉ ra rằng các bản cập nhật mới nhất của Opus, Gemini và Sonnet đang cho thấy hiệu năng kém hơn hoặc nhiều lỗi hơn so với các phiên bản tiền nhiệm.
Sáng kiến BEAMS thiết lập các tiêu chuẩn cho AI trong mô hình hóa và mô phỏng hướng tới sự trách nhiệm và đạo đức. Kết quả thử nghiệm cho thấy các công cụ AI hiện tại mạnh về thảo luận và nhiệm vụ định tính nhưng vẫn gặp khó khăn với suy luận nhân quả và sửa lỗi định lượng. Dự án sd-ai mã nguồn mở giúp tăng tính minh bạch trong đánh giá.
Chuyên gia Bindu Reddy vừa chia sẻ danh sách các mô hình AI tối ưu nhất cho từng tác vụ như lập trình, thiết kế và hội thoại, giúp người dùng dễ dàng lựa chọn.
Anthropic vừa công bố Claude Opus 4.8, phiên bản nâng cấp mạnh mẽ giúp hãng giành lại ngôi vương hiệu năng từ tay OpenAI và Google, đồng thời giới thiệu tính năng dynamic workflows đột phá.
Paris 2.0 xác lập cột mốc mới khi trở thành mô hình sinh video đầu tiên được huấn luyện theo phương thức phi tập trung. Thử nghiệm cho thấy hiệu suất của nó vượt gấp 2 lần các mô hình tập trung truyền thống trên cùng mức chi phí.
Nghiên cứu mới giới thiệu DynaSchedBench, bộ benchmark chuẩn hóa cho bài toán lập lịch công việc động (DFJSP), vạch trần hạn chế của các agent AI khi tiếp cận quá nhiều dữ liệu.
Hugging Face phối hợp cùng Viện Đổi mới Công nghệ (TII) của UAE giới thiệu QIMMA, một bảng xếp hạng tập trung vào chất lượng nhằm chuẩn hóa việc đánh giá các mô hình ngôn ngữ lớn tiếng Ả Rập.
Hugging Face bổ sung công cụ "Benchmaxxer Repellant" sử dụng dữ liệu ẩn nhằm ngăn chặn tình trạng gian lận điểm số trên bảng xếp hạng Open ASR Leaderboard.
Apple vừa giới thiệu SFI-Bench, bộ benchmark video mới với hơn 1700 câu hỏi nhằm đánh giá khả năng hiểu sâu về chức năng vật lý của các mô hình AI đa phương thức.
Nhiều nghiên cứu mới trên arXiv đồng loạt vạch trần lỗ hổng lớn trong khả năng tự nhận thức, lập luận toán học và tư duy logic của các mô hình ngôn ngữ lớn.
Nghiên cứu mới giới thiệu AgingBench, một benchmark đánh giá độ tin cậy dài hạn của AI agent, chỉ ra rằng agent cũng bị 'lão hóa' và suy giảm hiệu suất theo thời gian sau khi triển khai.
CEO Abacus AI, Bindu Reddy, chia sẻ danh sách các mô hình AI dẫn đầu hiện nay cho từng nhu cầu cụ thể như lập trình, xử lý hình ảnh và giọng nói thời gian thực.
Hugging Face Dataset Leaderboard vừa bổ sung tính năng lọc kết quả benchmark theo dải tham số (parameter range), giúp người dùng dễ dàng tìm kiếm model tối ưu theo kích thước phần cứng.
Bản cập nhật mới của llama.cpp tích hợp Multi-Tentative-Parallelism (MTP), giúp mô hình Qwen3.6-27B đạt tốc độ 45 tokens/giây trên GPU A10G.