AI 2 thg 6, 2026 3 phút đọc

Ra mắt bộ benchmark HLE++ thách thức các siêu AI thế hệ mới 🧪

Bộ benchmark mới HLE++ chứa 1.100 câu hỏi STEM cấp độ tiến sĩ đang làm khó cả những mô hình AI hàng đầu hiện nay với tỷ lệ vượt qua chỉ khoảng 20%.

Tier 1 · nguồn 64% độ tin cậy Đã được duyệt

Nguồn gốc x.com

Turing vừa công bố bộ benchmark mới mang tên Multimodal STEM HLE++ nhằm đánh giá năng lực của các mô hình AI tiên tiến nhất, trong bối cảnh các thang đo truyền thống như MMLU đã dần trở nên bão hòa. Theo thông tin chia sẻ trên mạng xã hội X, bộ công cụ này tập trung vào các bài toán STEM đa phương thức ở cấp độ tiến sĩ nhằm tìm ra giới hạn thực sự của những hệ thống trí tuệ nhân tạo hàng đầu.

Bối cảnh

Trong nhiều năm qua, MMLU luôn là thước đo tiêu chuẩn để đánh giá năng lực suy luận của các mô hình ngôn ngữ lớn (LLM). Tuy nhiên, với tốc độ phát triển chóng mặt của công nghệ, các mô hình SOTA (State-of-the-Art) hiện nay đã dễ dàng đạt điểm số tối đa, khiến công cụ này không còn phản ánh chính xác sự khác biệt giữa các hệ thống AI. Ngay cả bộ dữ liệu thử thách HLE (Hard LLM Benchmark) cũng đang dần bị các mô hình mới bắt kịp, đòi hỏi một tiêu chuẩn đánh giá khắt khe và toàn diện hơn.

Diễn biến

Để giải quyết vấn đề này, bộ dữ liệu thử nghiệm Multimodal STEM HLE++ được thiết kế với 1.100 câu hỏi STEM phức tạp ở trình độ nghiên cứu sinh tiến sĩ. Điểm đặc biệt của HLE++ là tính chất đa phương thức, đòi hỏi AI không chỉ xử lý văn bản mà phải hiểu và suy luận dựa trên cả hình ảnh, đồ thị và các biểu đồ khoa học phức tạp. Theo công bố, các câu hỏi trong bộ dữ liệu này đã làm khó cả những mô hình tiên tiến như Opus 4.6, với tỷ lệ trả lời đúng ngay từ lần đầu tiên (pass@1) của các AI hàng đầu hiện tại chỉ đạt vỏn vẹn khoảng 20%. Nhiều phòng thí nghiệm AI lớn trên thế giới được cho là đã bắt đầu tích hợp HLE++ vào quy trình thử nghiệm của họ.

Vì sao đáng chú ý

Đối với cộng đồng nghiên cứu và phát triển công nghệ tại Việt Nam, sự xuất hiện của HLE++ cho thấy cuộc đua AI đang dịch chuyển mạnh mẽ từ việc ghi nhớ kiến thức thông thường sang khả năng giải quyết các vấn đề khoa học chuyên sâu. Việc các siêu AI thế hệ mới chỉ đạt mức chính xác 20% cho thấy ranh giới giữa AI và trí tuệ con người cấp cao vẫn còn một khoảng cách rất lớn. Điều này buộc các nhà phát triển trong nước phải nhìn nhận lại cách đánh giá năng lực thực tế của AI thay vì chỉ dựa vào các điểm số lý thuyết đã bão hòa.