Meituan Ra Mắt LongCat-2.0-Preview: Mô Hình Nền Tảng MoE Nghìn Tỷ Tham Số Hoàn Toàn Trên Phần Cứng Nội Địa Trung Quốc!
Meituan đã chính thức mở thử nghiệm công khai cho mô hình ngôn ngữ lớn nền tảng thế hệ tiếp theo của mình, LongCat-2.0-Preview. Tự hào với quy mô khổng lồ 1.6 nghìn tỷ tham số, mô hình này được kiến trúc hóa như một hệ thống Mixture-of-Experts (MoE) chỉ kích hoạt khoảng 48 tỷ tham số cho mỗi lần chuyển tiếp. Nó hỗ trợ cửa sổ ngữ cảnh cực dài 1 triệu token, đặt LongCat-2.0-Preview vào vị thế cạnh tranh trực tiếp với các mô hình tiên tiến như DeepSeek-V4 và GPT-5.5.
Một cột mốc quan trọng của LongCat-2.0-Preview là nền tảng huấn luyện của nó: đây là mô hình nghìn tỷ tham số đầu tiên trong ngành hoàn thành toàn bộ chu trình huấn luyện và suy luận hoàn toàn trên các chip tăng tốc nội địa Trung Quốc (sử dụng cụm 50.000 đến 60.000 thẻ), với tỷ lệ 0% phụ thuộc phần cứng Nvidia. Điều này thể hiện tham vọng tự chủ công nghệ đáng kể của Trung Quốc trong lĩnh vực AI.
---
Thông số Kỹ thuật & Kiến trúc ⚙️
1. Quy mô Kiến trúc Mixture-of-Experts (MoE)
* Tổng số Tham số: 1.6 Nghìn tỷ (1.6T) * Tham số Kích hoạt: Khoảng 48 Tỷ (48B) mỗi token * Cửa sổ Ngữ cảnh: 1 Triệu (1M) token * Gói Miễn phí Hàng ngày: 10 triệu token miễn phí trong giai đoạn thử nghiệm beta.
2. Các Đổi mới trong Kiến trúc 💡
* N-gram Embedding: Để giảm độ sâu tính toán, đội ngũ LongCat đã chuyển một phần tham số thường nằm trong các lớp chuyên gia (expert layers) lên phía trước, vào lớp Nhúng (Embedding layer). Điều này giúp mô hình hóa cấp độ cụm từ, cho phép các mẫu ngôn ngữ tần số cao được khớp trực tiếp ở giai đoạn đầu vào, từ đó tránh được chi phí xử lý MoE từng lớp. * Sparse Attention & Cross-Layer Flow-Sensing Indexing: Thay vì cơ chế attention dày đặc $O(N^2)$ tiêu chuẩn, mô hình triển khai một cơ chế sparse attention nhẹ kết hợp với chỉ mục ngữ nghĩa xuyên lớp. Điều này giúp duy trì khả năng xử lý ngữ cảnh dài với độ trễ cực thấp ở giới hạn 1 triệu token. * 自研确定性算子 (Toán tử Xác định Tùy chỉnh Tự phát triển): Được tối ưu hóa sâu rộng cho kiến trúc chip nội địa, đội ngũ đã tự phát triển các module toán tử quan trọng bao gồm FlashAttention backward gradient (FAG), các toán tử thuộc lớp Scatter, và các công cụ General Matrix Multiply (GEMM). Nhờ đó, hiệu suất giảm sút trên silicon nội địa được khống chế dưới 5%. Đây là một nỗ lực đáng ghi nhận nhằm khắc phục hạn chế của phần cứng không phải của Nvidia. * Tối ưu hóa Đồng thời Bộ nhớ & Truyền thông: Bộ nhớ huấn luyện đỉnh điểm đã được nén thành công xuống dưới 60GB mỗi GPU bằng cách sử dụng thuật toán V-ZB. Ngoài ra, đội ngũ đã xây dựng lại các chiến lược song song tiêu chuẩn — tối ưu hóa lại các bố cục Expert Parallel (EP), Tensor Parallel (TP), và Pipeline Parallel (PP) — để chúng hoạt động hài hòa trong các ràng buộc băng thông cụ thể của các cụm phần cứng nội địa.
---
So sánh: LongCat-2.0-Preview và DeepSeek-V4 🥊
| Chỉ số | LongCat-2.0-Preview | DeepSeek-V4 | | :--- | :--- | :--- | | Nhà phát triển | Meituan | DeepSeek | | Tổng số Tham số | Khoảng 1.6 Nghìn tỷ | Quy mô Nghìn tỷ (chưa tiết lộ chính xác) | | Tham số Kích hoạt | Khoảng 48 Tỷ | Không tiết lộ | | Cửa sổ Ngữ cảnh | 1 Triệu (1M) token | 1 Triệu (1M) token | | Cụm Phần cứng | 50k - 60k Bộ tăng tốc Nội địa | GPU Nvidia (để huấn luyện), Chip Nội địa (để suy luận) | | Đổi mới Chính | N-gram Embedding, Sparse Attention, V-ZB | Multi-head Latent Attention (MLA), DeepSeekMoE |
---
Các Kịch bản Ứng dụng 🎯
LongCat-2.0-Preview của Meituan được tối ưu hóa sâu rộng cho các ứng dụng Agent cấp độ sản xuất, mang lại đầu ra chất lượng cao cho: 1. Quy trình làm việc dạng Agent: Lập kế hoạch phức tạp nhiều bước và tự động hóa doanh nghiệp. 2. Tạo mã: Hiệu suất vượt trội trên các codebase có ngữ cảnh dài. 3. Phân tích Tài liệu dài: Xử lý toàn bộ sách, hướng dẫn sử dụng hoặc danh mục tài chính lên đến 1 triệu token mà không mất ngữ cảnh.