Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 2 phút đọc

Zhipu AI 'Trình Làng' GLM-5.2: Mô Hình Mã Nguồn Mở Mạnh Nhất cho Mã Hóa Dài Hạn với Cửa Sổ Ngữ Cảnh 1 Triệu Token! 🚀💻

Zhipu AI vừa công bố GLM-5.2, một mô hình mã nguồn mở với cửa sổ ngữ cảnh 1 triệu token, thể hiện hiệu suất vượt trội trong các tác vụ mã hóa phức tạp, sánh ngang với các đối thủ độc quyền dù còn hạn chế về khả năng suy luận tổng quát.

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc the-decoder.com

GLM-5.2 của Zhipu AI: Đột Phá Mã Nguồn Mở Cho Mã Hóa Dài Hạn

Phòng thí nghiệm AI của Trung Quốc Zhipu AI đã chính thức ra mắt GLM-5.2, một mô hình mã nguồn mở theo giấy phép MIT, nổi bật với cửa sổ ngữ cảnh ổn định 1 triệu token. Mô hình này được tối ưu hóa đặc biệt cho các tác vụ 'dài hạn' – những công việc mã hóa phức tạp kéo dài hàng giờ và hàng nghìn bước riêng lẻ, bao gồm triển khai quy mô lớn, nghiên cứu tự động và gỡ lỗi phức tạp.

---

Các Điểm Chuẩn Hiệu Suất Chính

GLM-5.2 hiện được định vị là mô hình mã nguồn mở mạnh nhất trên thị trường, chỉ kém một chút so với các mô hình độc quyền hàng đầu về khả năng mã hóa, dù vẫn còn thua kém trong suy luận tổng quát.

1. Mã Hóa Dài Hạn & Tiêu Chuẩn

* FrontierSWE (đánh giá các dự án kỹ thuật kéo dài nhiều giờ): Đạt 74.4%, chỉ kém 1% so với Claude Opus 4.8 của Anthropic và nhỉnh hơn một chút so với GPT-5.5 của OpenAI. * PostTrainBench (huấn luyện các mô hình nhỏ sau đào tạo bằng GPU H100): Vượt qua GPT-5.5 và Opus 4.7, đứng thứ hai sau Opus 4.8. * SWE-Marathon (xây dựng trình biên dịch, tối ưu hóa kernel): Gặp khó khăn với các tác vụ cực kỳ dài hạn, chỉ đạt một nửa điểm của Opus 4.8. * Terminal-Bench 2.1: Tăng lên 81 (từ 63.5 của GLM-5.1), tiệm cận Claude Opus 4.8. * SWE-bench Pro: Đạt 62.1 (từ 58.4).

2. Suy Luận & Toán Học

* AIME 2026 (Toán học): Đạt mức xuất sắc 99.2%. * Humanity's Last Exam & GPQA-Diamond: Kém đáng kể so với Claude Opus 4.8 (khoảng 10%) và Gemini 3.1 Pro (khoảng 5%).

3. Khả Năng Tác Nhân & Sử Dụng Công Cụ

* MCP-Atlas: Gần như ngang bằng với Opus 4.8. * Tool-Decathlon: Kém xa cả Opus 4.8 và GPT-5.5. * GDPval-AA v2 (thước đo tác nhân thực tế của Artificial Analysis): Ngang bằng với GPT-5.5 độc quyền. * Đánh đổi: GLM-5.2 cực kỳ kém hiệu quả về token, tiêu tốn nhiều token hơn đáng kể so với các đối thủ mã nguồn mở khác.

4. Chỉ Số Thông Minh của Artificial Analysis

GLM-5.2 đạt 51 điểm, trở thành mô hình mã nguồn mở mạnh nhất trên chỉ số này, vượt qua MiniMax M3, DeepSeek V4 Pro và Kimi K2.6. Mô hình cho thấy những cải tiến lớn trong suy luận khoa học và tỷ lệ