GLM-5.2 của Z.ai: Mô hình mã nguồn mở thách thức GPT-5.5 với hiệu suất vượt trội và chi phí thấp hơn 6 lần! 💡
Hôm nay, Z.ai (trước đây là Zhipu AI), một công ty khởi nghiệp AI của Trung Quốc, đã chính thức ra mắt GLM-5.2, một mô hình ngôn ngữ lớn (LLM) mã nguồn mở với 753 tỷ tham số, được thiết kế đặc biệt để thống trị các tác vụ lập trình và kỹ thuật tự động "dài hạn" phức tạp. Mô hình này ngay lập tức có mặt trên Hugging Face, API của Z.ai và hơn 20 môi trường lập trình của bên thứ ba, tự hào với cửa sổ ngữ cảnh cực kỳ ổn định lên tới 1 triệu token cùng các gói đăng ký doanh nghiệp chỉ từ 12,60 USD mỗi tháng.
Trong một động thái cực kỳ hấp dẫn đối với các doanh nghiệp quan tâm đến chi phí và bảo mật, Z.ai đã phát hành trọng số cốt lõi của GLM-5.2 dưới giấy phép mã nguồn mở MIT không giới hạn. Điều này cho phép các doanh nghiệp tự do tải xuống mô hình từ Hugging Face, tùy chỉnh hoặc tinh chỉnh theo ý muốn, và chạy cục bộ hoặc thông qua máy ảo chỉ với chi phí tính toán và điện năng của họ. Đây là một lựa chọn ngày càng hấp dẫn khi các mô hình độc quyền tiên tiến của Mỹ đang phải đối mặt với tương lai pháp lý không chắc chắn và có thể bị gián đoạn, sau chỉ thị kiểm soát xuất khẩu của chính quyền Trump cấm công dân nước ngoài sử dụng mô hình Claude Fable 5 mới của Anthropic (khiến công ty này phải ngừng cung cấp mô hình hoàn toàn cho tất cả người dùng). Đối với các nhà hoạch định quyết định kỹ thuật doanh nghiệp, GLM-5.2 của Z.ai cung cấp một lộ trình mạnh mẽ để lưu trữ AI cấp độ tiên tiến cục bộ, hoàn toàn bỏ qua các rào cản địa lý và hạn chế thương mại. 🌍🔒
IndexShare: Tối ưu hóa kiến trúc, giảm nhu cầu tính toán ⚡
Được trang bị 753 tỷ tham số, GLM-5.2 giới thiệu một tối ưu hóa kiến trúc lớn mang tên "IndexShare". Trong các mô hình ngôn ngữ lớn tiêu chuẩn, việc tính toán lại cơ chế chú ý trên các tài liệu dài đòi hỏi chi phí tính toán khổng lồ. IndexShare giải quyết vấn đề này bằng cách tái sử dụng cùng một bộ chỉ mục trên mỗi bốn lớp chú ý thưa. Tại độ dài ngữ cảnh tối đa 1 triệu token, cải tiến này giúp giảm 2,9 lần FLOPs tính toán trên mỗi token. Ngoài ra, mô hình còn có lớp Dự đoán Đa Token (MTP) được nâng cấp để giải mã suy đoán, giúp tăng độ dài token được chấp nhận lên đến 20% trong quá trình suy luận.
Z.ai cũng đã triển khai các "Chế độ Suy nghĩ" linh hoạt, có thể lựa chọn. Người dùng có thể điều chỉnh nỗ lực suy luận của mô hình giữa "Max" (Tối đa), được thiết kế để đẩy giới hạn giải quyết vấn đề logic, hoặc "High" (Cao), tạo ra sự cân bằng cẩn thận giữa hiệu suất cao cấp và hiệu quả token nhạy cảm với độ trễ. 🧠✨
Hiệu suất dẫn đầu: Vượt trội đối thủ trên các điểm chuẩn quan trọng 🏆
Trong các bài kiểm tra điểm chuẩn của bên thứ ba theo tiêu chuẩn ngành, GLM-5.2 hoạt động tốt hơn hầu hết các mô hình mã nguồn mở hàng đầu, thậm chí cả DeepSeek v4, và đạt điểm gần bằng hoặc cao hơn các đối thủ trọng số đóng như GPT-5.5 của OpenAI và Claude Opus 4.8 của Anthropic. Mô hình này đặc biệt nổi bật trong việc sử dụng công cụ đại lý và các tác vụ kỹ thuật phần mềm dài hạn:
* SWE-bench Pro: GLM-5.2 đạt 62.1 điểm, đánh bại dứt khoát GPT-5.5 (58.6) và người tiền nhiệm của chính nó, GLM-5.1 (58.4). * FrontierSWE (Dominance): Được thiết kế để kiểm tra khả năng hoàn thành tác vụ dài hạn, GLM-5.2 đạt 74.4%, vượt qua GPT-5.5 (72.6%) và gần như ngang bằng với Claude Opus 4.8 (75.1%). * MCP-Atlas: Trong đánh giá sử dụng công cụ này, GLM-5.2 đạt 77.0, vượt xa GPT-5.5 (75.3) và chỉ kém một chút so với Claude Opus 4.8 (77.8). * Humanity's Last Exam (khi có Công cụ): Khi được trang bị các công cụ bên ngoài, GLM-5.2 đạt 54.7 điểm, vượt lên GPT-5.5 (52.2) và theo sát Claude Opus 4.8 (57.9). * PostTrainBench & SWE-Marathon: Trong các khối lượng công việc kỹ thuật kéo dài nhiều giờ, GLM-5.2 liên tục vượt trội GPT-5.5, đạt 34.3% so với 25.0% của GPT-5.5 trên PostTrainBench, và 13.0% so với 12.0% của GPT-5.5 trên SWE-Marathon.
Mặc dù GLM-5.2 hơi thua Claude Opus 4.8 và GPT-5.5 về điểm Terminal-Bench 2.1 thô (81.0 so với 85.0 và 84.0), nhưng nó vượt trội đáng kể so với Gemini 3.1 Pro của Google (74.0). Vượt xa các chỉ số lập trình truyền thống, GLM-5.2 đã giành vị trí đầu tiên ấn tượng trên điểm chuẩn tác vụ thiết kế đám đông Design Arena, đánh bại cả Claude Fable 5 tiên tiến đã nói ở trên với điểm ELO là 1360.
Hơn nữa, tác động của các "Chế độ Suy nghĩ" mới của Z.ai được thể hiện rõ ràng trong dữ liệu: ở cấp độ nỗ lực "Max", GLM-5.2 đẩy mạnh trí thông minh cao nhất, nhưng sử dụng gần 85k token đầu ra cho mỗi tác vụ. Chuyển sang cài đặt nỗ lực "High" chỉ hy sinh một vài điểm hiệu suất trong khi giảm hiệu quả một nửa lượng token đầu ra cần thiết, cung cấp một đòn bẩy tối ưu hóa quan trọng cho các ứng dụng nhạy cảm với độ trễ.
Chi phí cực kỳ cạnh tranh và kế hoạch dành cho lập trình viên 💰
Để đưa mô hình vào hoạt động, Z.ai đã ra mắt "GLM Coding Plan", nhắm thẳng vào quy trình làm việc của nhà phát triển chứ không chỉ các giao diện trò chuyện đơn giản. Kế hoạch này cung cấp hỗ trợ sẵn sàng cho các công cụ và hệ thống lập trình đại lý của bên thứ ba tại Mỹ và toàn cầu, bao gồm Claude Code, OpenClaw, Cline, Kilo Code, Crush và Factory. Các bậc giá của Coding Plan (khi thanh toán hàng năm) rất cạnh tranh:
* Lite: 12,60 USD mỗi tháng (151,20 USD mỗi năm bắt đầu từ năm thứ 2), dành cho các tác vụ lặp lại nhẹ nhàng trên các kho lưu trữ nhỏ. * Pro: 50,40 USD mỗi tháng cho việc phát triển hàng ngày trên các kho lưu trữ cỡ trung bình, cung cấp gấp 5 lần mức sử dụng của gói Lite. * Max: 112,00 USD mỗi tháng cho các khối lượng công việc nặng, cung cấp gấp 20 lần mức sử dụng của gói Lite và tài nguyên riêng trong giờ cao điểm.
Đối với các nhà phát triển doanh nghiệp tích hợp mô hình thô vào ứng dụng của riêng họ, giá API của Z.ai cạnh tranh đáng kể so với các đối thủ phương Tây, đồng thời giữ nguyên mức giá của thế hệ GLM-5.1 trước đó. Truy cập API GLM-5.2 có giá 1,40 USD cho mỗi triệu token đầu vào và 4,40 USD cho mỗi triệu token đầu ra, khiến nó trở thành một mô hình có giá trung bình trên toàn cầu, nhưng chỉ bằng khoảng 1/6 chi phí của GPT-5.5 (35,00 USD cho mỗi triệu token đầu vào + đầu ra). 🔥
Để tối ưu hóa chi phí hơn nữa cho các khối lượng công việc ngữ cảnh dài, Z.ai cung cấp mức giá đầu vào được lưu vào bộ nhớ đệm chỉ 0,26 USD cho mỗi triệu token, cùng với ưu đãi lưu trữ đầu vào được lưu vào bộ nhớ đệm miễn phí có thời hạn. Sự tương phản rõ rệt giữa các nhà đổi mới mã nguồn mở và các phòng thí nghiệm độc quyền phương Tây đã không qua mắt cộng đồng nhà phát triển. Trên X, nhà quan sát AI nổi tiếng Lisan al Gaib (@scaling01) đã lập luận rằng "các phòng thí nghiệm tiên phong hoàn toàn đang lừa đảo bạn về giá API". Bài đăng lưu ý rằng trong khi các mô hình mở lớn như GLM-5.2 (744 tỷ tham số) tính phí 4,40 USD cho mỗi triệu token đầu ra và DeepSeek-V4-Pro (1,6 nghìn tỷ tham số) chỉ tính 0,87 USD, các mô hình độc quyền đòi hỏi phí bảo hiểm rất cao: Anthropic's Sonnet 4.6 và Opus 4.8 tính phí lần lượt 15,00 USD và 25,00 USD, trong khi GPT-5.5 của OpenAI có giá 30,00 USD cho đầu ra. Nhấn mạnh rằng các nhà phát triển mô hình mở đang hoạt động có lợi nhuận mà không cần dựa vào các "chip Blackwell" mới nhất, nhà bình luận gợi ý rằng các phòng thí nghiệm độc quyền hàng đầu "có lẽ đang có biên lợi nhuận hơn 90% vào thời điểm này". 🤑📈
Sức mạnh của giấy phép MIT không sửa đổi cho doanh nghiệp 💼
Khía cạnh đột phá nhất của bản phát hành GLM-5.2 chính là cấp phép của nó. Z.ai đã phát hành trọng số của mô hình dưới giấy phép mã nguồn mở MIT, biến nó thành một hệ thống "Hoàn toàn Mở" (Pure Open). Tài liệu kỹ thuật của công ty đã nêu rõ rằng giấy phép này đảm bảo "không giới hạn khu vực" và cho phép "truy cập kỹ thuật không biên giới".
Đối với các nhà lãnh đạo công nghệ doanh nghiệp, giấy phép MIT có nghĩa là phần mềm có thể được sử dụng, sửa đổi và thương mại hóa mà không phải trả tiền bản quyền hoặc tuân thủ các chính sách quản trị "sử dụng chấp nhận được" hạn chế thường thấy ở các giấy phép lưỡng dụng. Nó cho phép các nhóm kỹ thuật lưu trữ AI cấp độ tiên tiến trên hạ tầng tự chủ của riêng họ, hoàn toàn loại bỏ sự phụ thuộc vào nhà cung cấp (vendor lock-in). Đây là một yếu tố thay đổi cuộc chơi! 🔓✨
Cộng đồng nhà phát triển chào đón nồng nhiệt 🥳
Phản ứng của nhà phát triển đối với bản phát hành này đã diễn ra ngay lập tức và vô cùng tích cực. Nhóm phát triển Kilo Code đã xác nhận tích hợp ngay trong ngày đầu tiên, đăng trên X: "GLM-5.2 chạy trong Kilo Code ngay ngày đầu tiên. Cửa sổ ngữ cảnh 1M và chế độ Max effort đều đã hoạt động. Chỉ cần trỏ cấu hình của bạn vào đó và bắt đầu!"
Môi trường lập trình mã nguồn mở Cline IDE cũng lặp lại nhận định này trên X, nhấn mạnh lợi thế kinh tế: "GLM-5.2 là mô hình trọng số mở đầu tiên vượt qua 80% trên Terminal-Bench, và đánh bại mọi mô hình mở khác có sẵn. Nó cũng đánh bại Gemini, biến nó thành một mô hình cấp độ tiên phong với một phần nhỏ chi phí. Trọng số mở đã trở lại. Mô hình này là một yếu tố thay đổi cuộc chơi. Hiện đã có trong Cline!"
Tương tự, tác nhân lập trình desktop mã nguồn mở cạnh tranh Eigent AI cũng đã thử nghiệm các khả năng mới của mô hình trên các quy trình làm việc đại lý phức tạp, lưu ý trên X: "đã giao một tác vụ dài hạn thực sự: nghiên cứu 30 công ty trên 6 lĩnh vực của ngăn xếp hạ tầng AI, cấu trúc nó thành JSON, sau đó xây dựng một báo cáo HTML tương tác... nơi 5.2 vượt trội: -> các kế hoạch..." 👏🚀