Vài giờ trước, công ty ứng dụng giao hàng khổng lồ Meituan của Trung Quốc đã chính thức giới thiệu LongCat-2.0 trên GitHub, Hugging Face và nền tảng riêng của mình. Mô hình này được tiết lộ chính là bộ não tính toán đằng sau "Owl Alpha" – cái tên bí ẩn đã thống trị bảng xếp hạng các nhà phát triển toàn cầu trên OpenRouter suốt hai tháng qua. LongCat-2.0 không chỉ là một mô hình mới, mà còn là một tuyên bố mạnh mẽ từ Trung Quốc về khả năng tự chủ công nghệ AI.
Được phát triển với mục tiêu phá vỡ sự thống trị của các giải pháp độc quyền trong lĩnh vực kỹ thuật phần mềm tự động, hệ thống Mixture-of-Experts (MoE) 1.6 nghìn tỷ tham số này mang đến cửa sổ ngữ cảnh 1 triệu token cho cộng đồng dưới giấy phép MIT cực kỳ linh hoạt, phù hợp cho doanh nghiệp và thương mại. Điều đặc biệt nhất? LongCat-2.0 được huấn luyện hoàn toàn trên một cụm gồm hơn 50.000 Bộ Tích Hợp Chuyên Dụng (ASIC) nội địa Trung Quốc. Đây là minh chứng rõ ràng cho thấy các mô hình AI "gần biên giới" có thể được phát triển thành công mà không cần phụ thuộc vào GPU của Nvidia – yếu tố then chốt đã thúc đẩy phần lớn nỗ lực huấn luyện AI tạo sinh trên toàn cầu cho đến nay.
Điểm Nhấn Công Nghệ: Độc Lập Từ NVIDIA? 💡
Việc Meituan thành công triển khai công nghệ silicon thay thế này báo hiệu một sự thay đổi cấu trúc sâu sắc. Nếu các tập đoàn Trung Quốc có thể liên tục tạo ra các kiến trúc hàng nghìn tỷ tham số bằng ASIC cây nhà lá vườn thay vì GPU đa năng, điều này sẽ đe dọa nghiêm trọng sự thống trị của Nvidia trong lĩnh vực này. Hơn nữa, sự chuyển dịch công nghệ này diễn ra đúng lúc Washington đang gây áp lực buộc các phòng thí nghiệm hàng đầu của Mỹ hạn chế quyền truy cập vào các mô hình mới nhất của họ.
Sau yêu cầu của chính phủ Hoa Kỳ, OpenAI đã buộc phải giới hạn quyền truy cập vào các mô hình GPT-5.6 mới, trong khi Anthropic trước đây cũng bị yêu cầu hạn chế quyền truy cập vào các mô hình Claude Fable 5 / Mythos 5 mới nhất của mình và phải gỡ bỏ hoàn toàn khỏi mạng. Trong bối cảnh đó, một làn sóng các nhà công nghệ, nhà hoạt động và chuyên gia trong ngành cảnh báo rằng các biện pháp kiểm soát phòng thủ này đã vô tình gây phản tác dụng. Bằng cách khóa chặt các mô hình mã nguồn đóng của phương Tây và đẩy chi phí API lên cao, chính phủ Hoa Kỳ đã vô tình mở ra một cánh cửa lớn cho các nhà phát triển toàn cầu tìm kiếm các lựa chọn thay thế hiệu suất cao, giá cả phải chăng, như các mô hình mã nguồn mở của Trung Quốc như Meituan LongCat-2.0.
Các số liệu vận hành thực tế đã chứng minh sự nhiệt tình của nhà phát triển: trong thời gian hoạt động ẩn danh trên OpenRouter, Owl Alpha đã xử lý khoảng 10.1 nghìn tỷ token mỗi tháng – trung bình 559 tỷ token mỗi ngày – tăng 242% so với tháng trước, đưa nó vào top 3 toàn cầu của nền tảng.
LongCat-2.0: Sức Mạnh 'Agentic' Cho Lập Trình 🤖
LongCat-2.0 tập trung rõ ràng vào các tác vụ kỹ thuật đa bước, tích hợp công cụ và thao tác kho lưu trữ tự động – hay còn gọi là các tác vụ 'agentic'. Trong các đánh giá tiêu chuẩn, LongCat-2.0 đạt 59.5 điểm trên SWE-bench Pro, vượt qua điểm chuẩn 58.6 của GPT-5.5. Mô hình này còn khẳng định chuyên môn agentic của mình với 70.8 điểm trên Terminal-Bench 2.1, 77.3 điểm trên SWE-bench Multilingual và 73.2 điểm trên trình mô phỏng quy trình công việc doanh nghiệp tổng quát FORTE.
Hành vi hoạt động chính xác này đạt được thông qua một lớp huấn luyện hậu kỳ có cấu trúc gọi là Tối Ưu Hóa Đa Giáo Viên thông qua Hỗn Hợp Chuyên Gia Đặc Biệt (MOPD). Kiến trúc MOPD phân tách tối ưu hóa hậu kỳ thành ba cụm chuyên gia độc lập, có trọng tâm cao:
* Chuyên gia Agent: được tinh chỉnh nghiêm ngặt cho thực thi cấu trúc, chuyên về gọi công cụ chính xác, phân tích tham số API đa lượt và cơ chế vòng lặp tự sửa lỗi để tránh tắc nghẽn thực thi. * Chuyên gia Lý Luận: được tối ưu hóa riêng biệt để phát triển logic đa bước, kỹ thuật chuỗi suy nghĩ phức tạp, toán học và giải quyết vấn đề STEM cấp cao. * Chuyên gia Tương Tác: tập trung hoàn toàn vào sự phù hợp với con người, các sắc thái tuân thủ hướng dẫn, căn cứ thực tế để ngăn chặn ảo giác và duy trì các rào cản an toàn nghiêm ngặt mà không làm giảm tiện ích tổng thể của mô hình.
Kiến Trúc Đột Phá: Xử Lý Ngữ Cảnh 1 Triệu Token 🧠
Nằm ở cốt lõi của LongCat-2.0 là sự tối ưu hóa mạnh mẽ của tính thưa thớt của Mixture-of-Experts (MoE), mở rộng tổng số tham số lên 1.6 nghìn tỷ trong khi giới hạn tính toán hoạt động trung bình ở mức 48 tỷ tham số cho mỗi token. Để duy trì cửa sổ ngữ cảnh 1 triệu token mà không gây ra tắc nghẽn phần cứng thảm khốc, Meituan đã giới thiệu LongCat Sparse Attention (LSA). Được thiết kế như một phiên bản tiến hóa của DeepSeek Sparse Attention, LSA giải quyết các chi phí tính toán bình phương và phân mảnh bộ nhớ thường gặp trong các cơ chế thưa thớt tinh vi thông qua ba vector độc lập:
* Lập Chỉ Mục Nhận Biết Dòng Dữ Liệu (SI): Hệ thống này tái cấu trúc quy trình chọn token bằng cách kết hợp các đọc dữ liệu liên tục được căn chỉnh phần cứng với lựa chọn ngẫu nhiên động. * Lập Chỉ Mục Chéo Lớp (CLI): Tận dụng thực tế thực nghiệm rằng sự nổi bật của chú ý vẫn rất ổn định qua các lớp ẩn liền kề, CLI bù đắp chi phí tính toán. * Lập Chỉ Mục Phân Cấp (HI): Cách tiếp cận này áp dụng bố cục tính điểm hai giai đoạn, từ thô đến tinh. Chỉ mục thực hiện thu hồi cấp khối nhanh chóng, gần đúng để lọc các ứng cử viên, trước khi chạy lựa chọn token tinh vi chỉ trên số lượng còn lại.
Chiến Lược Kinh Doanh & Chi Phí Hấp Dẫn 💰
Chiến lược triển khai của Meituan giới thiệu một mô hình thương mại chuyên biệt, chia quyền truy cập mạng giữa thanh toán API truyền thống theo thời gian thực và các "Gói Token" có cấu trúc. Điểm nổi bật về kinh tế của khuôn khổ này là việc xử lý miễn phí các lượt truy cập bộ nhớ đệm ngữ cảnh. Trong các môi trường agentic lớn, nơi một trợ lý lập trình phải lặp đi lặp lại việc đọc, tham chiếu và sửa đổi cùng một kho mã hàng triệu token trong một phiên làm việc kéo dài, các kiến trúc tiêu chuẩn sẽ tính phí đầy đủ cho ngữ cảnh đầu vào lặp lại. Theo cơ sở hạ tầng của Meituan, chỉ các đầu vào không có trong bộ đệm và các thế hệ token cuối cùng mới tiêu tốn hạn mức gói. Kiến trúc này thay đổi hoàn toàn kinh tế chi phí vận hành của phát triển phần mềm agent quy mô lớn, cho phép khám phá ngữ cảnh lặp lại sâu mà không làm tăng chi phí chồng chất.
Với mức giá ưu đãi hiện tại, LongCat-2.0 cung cấp mức chi phí đầu vào 0.30 USD/1M token và đầu ra 1.20 USD/1M token, đứng vào hàng ngũ các mô hình hiệu suất cao có giá cả phải chăng nhất toàn cầu.
| Mô hình | Đầu vào ($/1M) | Đầu ra ($/1M) | Tổng cộng ($/1M) | Nguồn | | :-------------------- | :------------- | :------------ | :--------------- | :------------- | | MiMo-V2.5 Flash | $0.10 | $0.30 | $0.40 | Xiaomi | | deepseek-v4-flash | $0.14 | $0.28 | $0.42 | DeepSeek | | deepseek-v4-pro | $0.435 | $0.87 | $1.305 | DeepSeek | | MiniMax-M3 | $0.30 | $1.20 | $1.50 | MiniMax | | LongCat-2.0 (promo) | $0.30 | $1.20 | $1.50 | LongCat | | Gemini 3.1 Flash-Lite | $0.25 | $1.50 | $1.75 | Google | | Qwen3.7-Plus | $0.40 | $1.60 | $2.00 | Alibaba Cloud | | MiMo-V2.5 | $0.40 | $2.00 | $2.40 | Xiaomi | | LongCat-2.0 (chuẩn) | $0.75 | $2.95 | $3.70 | LongCat | | Grok 4.3 (ngữ cảnh thấp) | $1.25 | $2.50 | $3.75 | xAI | | MiMo-V2.5 Pro (≤256K) | $1.00 | $3.00 | $4.00 | Xiaomi | | Kimi-K2.6 | $0.95 | $4.00 | $4.95 | Moonshot AI | | GLM-5.2 | $1.40 | $4.40 | $5.80 | Z.ai | | GPT-5.6 Luna | $1.00 | $6.00 | $7.00 | OpenAI | | Grok 4.3 (ngữ cảnh cao) | $2.50 | $5.00 | $7.50 | xAI | | MiMo-V2.5 Pro (>256K) | $2.00 | $6.00 | $8.00 | Xiaomi | | Qwen3.7-Max | $2.50 | $7.50 | $10.00 | Alibaba Cloud | | Gemini 3.5 Flash | $1.50 | $9.00 | $10.50 | Google | | Gemini 3.1 Pro Preview (≤200K) | $2.00 | $12.00 | $14.00 | Google | | GPT-5.6 Terra | $2.50 | $15.00 | $17.50 | OpenAI | | GPT-5.4 | $2.50 | $15.00 | $17.50 | OpenAI | | Gemini 3.1 Pro Preview (>200K) | $4.00 | $18.00 | $22.00 | Google | | Claude Opus 4.8 | $5.00 | $25.00 | $30.00 | Anthropic | | GPT-5.5 | $5.00 | $30.00 | $35.00 | OpenAI | | GPT-5.5 Instant (chat-latest) | $5.00 | $30.00 | $35.00 | OpenAI | | Sakana Fugu Ultra (≤272K) | $5.00 | $30.00 | $35.00 | Sakana AI | | GPT-5.6 Sol | $5.00 | $30.00 | $35.00 | OpenAI | | Claude Fable 5 / Claude Mythos 5 | $10.00 | $50.00 | $60.00 | Anthropic |
Meituan: Từ Ứng Dụng Giao Hàng Đến "Đế Chế" AI 🚀
Thành lập vào tháng 3 năm 2010, Meituan ban đầu là một trang web giao dịch hàng ngày kiểu Groupon, trước khi nhanh chóng phát triển thành một trong những "siêu ứng dụng" thống trị Trung Quốc. Đối mặt với sự cạnh tranh thị trường nội địa gay gắt và biên lợi nhuận sụt giảm, công ty đã mạnh dạn chuyển hướng chiến lược, cam kết đầu tư hàng tỷ USD vào trí tuệ nhân tạo và khả năng chip nội địa để vực dậy các dịch vụ dựa trên công nghệ. Sự thay đổi chiến lược này bắt đầu thành hình vào cuối năm 2025 với việc phát hành LongCat-Flash và LongCat-Flash-Thinking. Bằng cách công khai các mô hình "gần biên giới" này dưới giấy phép thân thiện với doanh nghiệp, Meituan đã báo hiệu tham vọng trở thành một người chơi nền tảng trong hạ tầng AI toàn cầu, thay vì chỉ là một gã khổng lồ thương mại điện tử và giao hàng khu vực.
Ý Nghĩa Cho Doanh Nghiệp: Tự Động Hóa Toàn Diện 🏢
Đối với các doanh nghiệp hiện đại, việc phát hành LongCat-2.0 mở ra các chiến lược vận hành rõ ràng trong kỹ thuật phần mềm, vận hành hệ thống và diễn giải dữ liệu dài. Sự kết hợp giữa một mô hình mã nguồn mở, được cấp phép MIT với cửa sổ ngữ cảnh 1 triệu token mở rộng có nghĩa là các tổ chức có thể bỏ qua các lo ngại về quyền riêng tư dữ liệu và chi phí định kỳ liên quan đến việc lưu trữ các API của bên thứ ba độc quyền.
Trong các môi trường phát triển doanh nghiệp quy mô lớn, các nhóm có thể tận dụng các Chuyên gia Agent của mô hình để điều phối việc di chuyển mã nguồn tự động. Thay vì dành hàng trăm giờ của nhà phát triển để viết lại thủ công các khung ứng dụng kế thừa, các kỹ sư có thể chuyển toàn bộ kho lưu trữ doanh nghiệp cùng với tài liệu SDK hiện đại trực tiếp vào cửa sổ ngữ cảnh 1 triệu token. LongCat-2.0 có thể tự động ánh xạ các phụ thuộc, thực hiện các cập nhật cấu trúc cấp kho lưu trữ, biên dịch mã nguồn mới và phát hiện lỗi biên dịch, lỗi thực thi trong môi trường sandbox cục bộ trước khi tạo ra một yêu cầu kéo (pull request) cuối cùng. Mô hình này thực sự là một bước tiến lớn cho các công ty muốn tối ưu hóa chi phí và hiệu suất trong kỷ nguyên AI.