Tag

#Benchmark

Tổng hợp 21 bài Kalera News liên quan đến Benchmark — viết tiếng Việt, có dẫn nguồn gốc.

AI · tools-ai 9 thg 6, 2026

MPMMine: Bộ Benchmark mới cho việc trích xuất ràng buộc trong lập trình toán học

MPMMine được giới thiệu nhằm cung cấp một hệ thống đánh giá chuẩn hóa cho các thuật toán khám phá và xác thực các mô hình lập trình toán học (MP).

Nguồn arxiv.org

AI · tools-ai 9 thg 6, 2026

JobBench: Benchmark mới đo lường khả năng AI làm việc theo ý muốn con người

Thay vì tập trung vào việc thay thế con người, JobBench đánh giá AI qua 130 tác vụ thực tế mà chuyên gia muốn ủy quyền. Claude Opus 4.7 mới chỉ đạt 45.9% điểm số.

Nguồn arxiv.org

AI 8 thg 6, 2026

Google sắp ra mắt Gemini 3.2 Flash — hiệu năng tiệm cận GPT 5.5 với chi phí rẻ hơn 20 lần

Mô hình Gemini 3.2 Flash được đồn đoán đạt 92% hiệu năng của GPT 5.5 trong các tác vụ coding và suy luận, trong khi chi phí vận hành rẻ hơn tới 15-20 lần.

Nguồn x.com

AI · tools-ai 8 thg 6, 2026

Gemini Flash 3.5 đối đầu sòng phẳng với Claude Sonnet 4.6

Google vừa chứng minh sức mạnh của mô hình Gemini Flash 3.5 khi đạt hiệu năng tương đương với Sonnet 4.6 trên các bảng xếp hạng uy tín, đánh dấu sự trở lại của gã khổng lồ tìm kiếm.

Nguồn x.com

AI · tools-ai 8 thg 6, 2026

physics-intern: Framework giúp Gemini 3.1 Pro 'vượt mặt' GPT 5.5 Pro trong khoa học

Một công cụ mới mang tên physics-intern giúp các mô hình ngôn ngữ lớn như Gemini 3.1 Pro tăng mạnh hiệu suất giải quyết các bài toán vật lý và khoa học nhờ cơ chế subagent chuyên dụng.

Nguồn x.com

AI · tools-ai 6 thg 6, 2026

Ra mắt PostTrainBench v1.0: Benchmark đánh giá AI agent trong giai đoạn hậu đào tạo

PostTrainBench v1.0 cung cấp bộ tiêu chuẩn mới để đo lường khả năng của các AI agent trong việc thực hiện các nhiệm vụ hậu đào tạo cho mô hình ngôn ngữ.

Nguồn x.com

AI · tools-ai 6 thg 6, 2026

Mô hình dựa trên năng lượng (EBM) trở lại: Aleph dẫn đầu benchmark về suy luận logic

Aleph từ Logic International vừa đạt vị trí dẫn đầu các benchmark suy luận chính thức, minh chứng cho tầm nhìn của Yann LeCun về việc AI cần hệ thống kiểm tra cấu trúc trước khi phản hồi.

Nguồn x.com

AI · tools-ai 6 thg 6, 2026

Cảnh báo: Các mô hình AI thế hệ mới có dấu hiệu "chạy vòng quanh"

Bindu Reddy chỉ ra rằng các bản cập nhật mới nhất của Opus, Gemini và Sonnet đang cho thấy hiệu năng kém hơn hoặc nhiều lỗi hơn so với các phiên bản tiền nhiệm.

Nguồn x.com

AI · tools-ai 5 thg 6, 2026

AI: BEAMS - Khung đánh giá AI trong mô hình hóa và mô phỏng

Sáng kiến BEAMS thiết lập các tiêu chuẩn cho AI trong mô hình hóa và mô phỏng hướng tới sự trách nhiệm và đạo đức. Kết quả thử nghiệm cho thấy các công cụ AI hiện tại mạnh về thảo luận và nhiệm vụ định tính nhưng vẫn gặp khó khăn với suy luận nhân quả và sửa lỗi định lượng. Dự án sd-ai mã nguồn mở giúp tăng tính minh bạch trong đánh giá.

Nguồn arxiv.org

AI 2 thg 6, 2026

Top mô hình AI tối ưu nhất cho từng tác vụ theo Bindu Reddy

Chuyên gia Bindu Reddy vừa chia sẻ danh sách các mô hình AI tối ưu nhất cho từng tác vụ như lập trình, thiết kế và hội thoại, giúp người dùng dễ dàng lựa chọn.

Nguồn x.com

AI 29 thg 5, 2026

Anthropic trình làng Claude Opus 4.8: Vượt mặt GPT-5.5 và Gemini 3.1 Pro

Anthropic vừa công bố Claude Opus 4.8, phiên bản nâng cấp mạnh mẽ giúp hãng giành lại ngôi vương hiệu năng từ tay OpenAI và Google, đồng thời giới thiệu tính năng dynamic workflows đột phá.

Nguồn the-decoder.com

AI 29 thg 5, 2026

Paris 2.0 — Mô hình sinh video đầu tiên trên thế giới được huấn luyện phi tập trung

Paris 2.0 xác lập cột mốc mới khi trở thành mô hình sinh video đầu tiên được huấn luyện theo phương thức phi tập trung. Thử nghiệm cho thấy hiệu suất của nó vượt gấp 2 lần các mô hình tập trung truyền thống trên cùng mức chi phí.

Nguồn x.com

AI 28 thg 5, 2026

DynaSchedBench: Giải mã 'Nghịch lý Quan sát' của LLM trong lập lịch động

Nghiên cứu mới giới thiệu DynaSchedBench, bộ benchmark chuẩn hóa cho bài toán lập lịch công việc động (DFJSP), vạch trần hạn chế của các agent AI khi tiếp cận quá nhiều dữ liệu.

Nguồn arxiv.org

AI 27 thg 5, 2026

Hugging Face và TII UAE ra mắt QIMMA — BXH chất lượng LLM tiếng Ả Rập ⛰️

Hugging Face phối hợp cùng Viện Đổi mới Công nghệ (TII) của UAE giới thiệu QIMMA, một bảng xếp hạng tập trung vào chất lượng nhằm chuẩn hóa việc đánh giá các mô hình ngôn ngữ lớn tiếng Ả Rập.

Nguồn huggingface.co

AI 27 thg 5, 2026

Hugging Face cập nhật bảng xếp hạng ASR chống gian lận điểm số

Hugging Face bổ sung công cụ "Benchmaxxer Repellant" sử dụng dữ liệu ẩn nhằm ngăn chặn tình trạng gian lận điểm số trên bảng xếp hạng Open ASR Leaderboard.

Nguồn huggingface.co

AI 27 thg 5, 2026

Apple công bố SFI-Bench: Đánh giá trí tuệ không gian - chức năng của AI 🧠

Apple vừa giới thiệu SFI-Bench, bộ benchmark video mới với hơn 1700 câu hỏi nhằm đánh giá khả năng hiểu sâu về chức năng vật lý của các mô hình AI đa phương thức.

Nguồn machinelearning.apple.com

AI 27 thg 5, 2026

Loạt nghiên cứu mới chỉ ra giới hạn tư duy thực sự của LLM

Nhiều nghiên cứu mới trên arXiv đồng loạt vạch trần lỗ hổng lớn trong khả năng tự nhận thức, lập luận toán học và tư duy logic của các mô hình ngôn ngữ lớn.

Nguồn arxiv.org arxiv.org arxiv.org

AI 27 thg 5, 2026

AI: AgingBench — Thước đo độ 'lão hóa' của AI agent khi triển khai thực tế

Nghiên cứu mới giới thiệu AgingBench, một benchmark đánh giá độ tin cậy dài hạn của AI agent, chỉ ra rằng agent cũng bị 'lão hóa' và suy giảm hiệu suất theo thời gian sau khi triển khai.

Nguồn arxiv.org

AI 23 thg 5, 2026

Bảng xếp hạng mô hình AI tốt nhất theo từng tác vụ năm 2026 🏆

CEO Abacus AI, Bindu Reddy, chia sẻ danh sách các mô hình AI dẫn đầu hiện nay cho từng nhu cầu cụ thể như lập trình, xử lý hình ảnh và giọng nói thời gian thực.

Nguồn x.com

AI 20 thg 5, 2026

Hugging Face cập nhật Leaderboard: Cho phép lọc model theo số lượng tham số

Hugging Face Dataset Leaderboard vừa bổ sung tính năng lọc kết quả benchmark theo dải tham số (parameter range), giúp người dùng dễ dàng tìm kiếm model tối ưu theo kích thước phần cứng.

Nguồn x.com

AI 20 thg 5, 2026

llama.cpp hỗ trợ MTP giúp tăng 78% tốc độ AI chạy cục bộ

Bản cập nhật mới của llama.cpp tích hợp Multi-Tentative-Parallelism (MTP), giúp mô hình Qwen3.6-27B đạt tốc độ 45 tokens/giây trên GPU A10G.

Nguồn x.com