Alibaba vừa gây chú ý khi ra mắt Qwen3.7-Plus 🚀, phiên bản mới nhất của dòng mô hình ngôn ngữ lớn (LLM) Qwen nổi tiếng toàn cầu. Mô hình AI này tự hào với khả năng đa phương thức vượt trội (hỗ trợ văn bản, video, hình ảnh) và chi phí thấp hơn tới 60% so với người tiền nhiệm chỉ tập trung vào văn bản là Qwen3.7-Max, được ra mắt chỉ vài tuần trước. Tuy nhiên, như Qwen3.7-Max, Qwen3.7-Plus chỉ có sẵn theo giấy phép thương mại "đóng" thông qua API độc quyền của Alibaba Cloud và Qwen Chat. Đây là một sự thay đổi lớn so với chiến lược trước đây của Qwen, vốn tập trung vào việc phát hành các mô hình mã nguồn mở mạnh mẽ. Điều này chắc chắn sẽ gây thất vọng cho các doanh nghiệp và người dùng đã tin tưởng vào các mô hình Qwen mã nguồn mở, bao gồm cả những "gã khổng lồ" của Mỹ như Airbnb.
💰 Chi phí siêu hấp dẫn và hiệu suất đa phương thức
Dù vậy, mô hình này vẫn rất đáng để xem xét nhờ chi phí thấp và hiệu suất cao trong các tác vụ đa phương thức như tạo hình ảnh cấp doanh nghiệp hay phân tích video, hình ảnh và ảnh chụp màn hình – những điều mà Qwen3.7-Max (chỉ xử lý văn bản) không thể làm được. Qwen3.7-Plus nằm trong số các mô hình AI mạnh mẽ và có giá thành phải chăng nhất hiện nay, chỉ nhỉnh hơn một chút so với mức giá chiết khấu có thời hạn của MiniMax-M3 từ đối thủ Trung Quốc.
Để hình dung rõ hơn, hãy xem xét giá API của Qwen3.7-Plus và Qwen3.7-Max (giá cho 1 triệu token):
* Qwen3.7-Plus: Đầu vào 0.40 USD / Đầu ra 1.60 USD (Tổng: 2.00 USD) – Nguồn: Alibaba Cloud * Qwen3.7-Max: Đầu vào 2.50 USD / Đầu ra 7.50 USD (Tổng: 10.00 USD) – Nguồn: Alibaba Cloud
🧠 Duy trì Liên Tục Tư Duy trong Các Vòng Lặp Tác Vụ Phức Tạp
Đối với các nhà ra quyết định kỹ thuật triển khai các tác nhân tự động (autonomous agents), nút thắt chính hiếm khi nằm ở trí tuệ ban đầu của mô hình. Thay vào đó, đó là sự suy yếu trạng thái (state decay) – xu hướng một khung tác nhân mất đi quỹ đạo phân tích của nó trong các tác vụ đa bước, dài hạn.
Qwen3.7-Plus giải quyết điểm yếu kiến trúc này thông qua một cách tiếp cận kết hợp giữa quản lý ngữ cảnh và bảo tồn trạng thái suy luận. Mô hình này đi kèm với cửa sổ ngữ cảnh 1 triệu token 😲 và dành tới 256K token đặc biệt cho quá trình xử lý "chuỗi suy nghĩ" nội bộ (chain-of-thought). Để hình dung dung lượng này, hãy tưởng tượng một tác nhân di chuyển đám mây tự động: nó có thể tiếp nhận toàn bộ cơ sở mã, lập bản đồ các phụ thuộc và dành hàng nghìn token để lặng lẽ đánh giá các trường hợp biên trước khi thực thi một dòng lệnh bash duy nhất.
Đặc biệt, API của Qwen3.7-Plus còn cung cấp một tham số gọi là "preserve_thinking". Khả năng này, được giới thiệu từ thế hệ Qwen 3.6 trước đó (áp dụng cho cả Qwen3.6-27B mã nguồn mở và các mô hình Max độc quyền), hoạt động ở cấp độ API và template để duy trì các khối <think> nội bộ qua các lượt hội thoại liên tục.
Tính liên tục về cấu trúc này giải quyết một nút thắt quan trọng cho các nhà phát triển xây dựng các tác vụ dài hạn. Bằng cách giữ nguyên các vòng lặp logic nội bộ này, tính năng ngăn mô hình mất ngữ cảnh hoặc tính toán lại lịch sử đã lưu trữ một cách không cần thiết giữa chừng một hoạt động. Điều này cực kỳ hữu ích khi mô hình thực hiện các nhiệm vụ mã hóa phức tạp, nhiều bước, giúp hệ thống duy trì dòng suy nghĩ ban đầu mà không bị lạc đề hay quên logic cơ bản của các hành động trước đó.
Alibaba không phải là đơn độc trong việc nhận ra sự cần thiết kỹ thuật này. Anthropic triển khai khả năng tương tự với tên gọi "Extended Thinking" cho các mô hình tiên tiến của họ, bao gồm cả Claude Opus 4.8 mới nhất. OpenAI cũng giải quyết thách thức này thông qua cơ chế "reasoning pass-back" được mã hóa cho các mô hình như GPT-5.5. "preserve_thinking" đơn giản là thuật ngữ của Alibaba cho một tính năng đã nhanh chóng trở thành tiêu chuẩn không thể thiếu cho các suy luận đa lượt trong AI hiện đại.
📊 Hiệu năng: Cạnh tranh nhưng chưa "đỉnh của chóp"
Về các chỉ số khả năng thô, kiến trúc "tư duy sâu" này mang lại những cải tiến cấu trúc trên các điểm chuẩn đa phương thức và tác nhân. Tuy nhiên, nó vẫn còn kém so với nhiều mô hình độc quyền hàng đầu và thế hệ trước của Hoa Kỳ như Claude Opus 4.6 của Anthropic và GPT-5.4 của OpenAI.
* Trên Terminal Bench 2.0-Terminus (đo khả năng mô hình chạy mã cấp terminal an toàn và lặp lại), Qwen3.7-Plus đạt 70.3 điểm 📈, vượt trội so với DeepSeek-V4-Pro Max (67.9) và Gemini-3.1 Pro (63.5). * Trên các điểm chuẩn thị giác máy tính đòi hỏi hiểu giao diện cục bộ như ScreenSpot Pro, mô hình đạt 79.0 điểm 👁️, bỏ xa các tên tuổi lớn như GPT-5.4 (xhigh) với 67.4 và Claude-Opus-4.6 với 49.5.
🎯 Qwen3.7-Plus dành cho Doanh nghiệp nào?
Đối với một kiến trúc sư doanh nghiệp, câu hỏi chính khi phân tích Qwen3.7-Plus là: Mô hình này thay thế cái gì trong ngăn xếp công nghệ hiện tại của chúng tôi?
Mô hình được thiết kế để trở thành một sự thay thế trực tiếp cho các mô hình tiên phong hàng đầu (như GPT-5-tier hoặc Claude-Max-tier) trong các quy trình làm việc của nhà phát triển có tần suất cao, tự động hóa quy trình robot (RPA) và các đường ống kỹ thuật dữ liệu. Thay vì triển khai một mô hình flagship đắt tiền, đa năng để xử lý các hoạt động hệ thống lặp đi lặp lại, các nhóm kỹ thuật có thể định tuyến các tác vụ này đến Qwen3.7-Plus. Nó xử lý đồng thời việc diễn giải giao diện trực quan, thực thi lệnh và tạo mã.
Alibaba đã cấu trúc việc cung cấp API của mình để phù hợp với các khung doanh nghiệp mã nguồn mở và độc quyền hiện có. Các điểm cuối hoàn toàn tương thích với OpenAI 🤝, có nghĩa là việc thay đổi các phụ thuộc hiện có chỉ yêu cầu điều chỉnh cơ sở hạ tầng tối thiểu. Đối với các nhóm sử dụng khung terminal tự động, việc tích hợp được hỗ trợ nguyên bản trên nhiều môi trường. Các kỹ sư có thể chạy Qwen3.7-Plus trực tiếp thông qua các thiết lập terminal cục bộ của họ bằng cách thay đổi các mục tiêu môi trường cơ bản.
Từ góc độ chi phí thuần túy, việc chạy một khung tác nhân liên tục tham chiếu các kho mã khổng lồ hoặc lịch sử bố cục trực quan có thể nhanh chóng trở nên quá đắt đỏ. Alibaba giải quyết vấn đề này bằng cách đưa ra các mức giá lưu trữ cache chi tiết. Xử lý đầu vào tiêu chuẩn là 0,40 USD/1 triệu token, nhưng nếu tác nhân đọc từ một cache được tạo rõ ràng (ví dụ: một kho cơ sở dữ liệu lớn hoặc bộ UI tiêu chuẩn của doanh nghiệp vẫn tĩnh qua hàng trăm vòng lặp tự động), chi phí giảm mạnh xuống chỉ còn 0,04 USD/1 triệu token cho các lần đọc tiếp theo. Mức giá này giúp việc lặp lại tác nhân đa lượt, tần suất cao trở nên khả thi về mặt kinh tế ở quy mô doanh nghiệp. Đó là một lợi thế lớn! 💰
🚨 Thách thức về Cấp phép Độc quyền và Chủ quyền Dữ liệu
Khi đánh giá bất kỳ mô hình nào trong hệ sinh thái Qwen, một mối quan tâm chính đối với các nhóm pháp lý và an ninh là khung cấp phép và ranh giới hoạt động của đường ống dữ liệu. Trong khi các phiên bản trước của dòng Qwen đã đạt được sức hút đáng kể trong doanh nghiệp thông qua việc cung cấp mã nguồn mở hoàn toàn theo giấy phép Apache 2.0 hoặc giấy phép sử dụng mở tùy chỉnh, Qwen3.7-Plus được cung cấp nghiêm ngặt dưới dạng API đám mây thương mại, được quản lý qua Alibaba Cloud Model Studio. Đối với quản lý rủi ro doanh nghiệp, sự khác biệt này mang lại những ý nghĩa cụ thể:
* Không Triển khai Trọng số cục bộ: Các tổ chức không thể tải xuống, thử nghiệm (sandbox) hoặc lưu trữ cục bộ các trọng số của Qwen3.7-Plus trong các trung tâm dữ liệu nội bộ hoàn toàn tách biệt của họ. Tất cả các lệnh xác minh dữ liệu, xử lý hình ảnh và thực thi phải thông qua các điểm cuối quốc tế của Alibaba Cloud (ví dụ: phiên bản Singapore được nêu trong tài liệu dành cho nhà phát triển). * Tuân thủ và Chủ quyền: Vì mô hình yêu cầu suy luận dựa trên đám mây, các công ty hoạt động dưới các ranh giới dữ liệu chủ quyền nghiêm ngặt (như các tổ chức y tế tuân thủ các ràng buộc HIPAA/GDPR địa phương hoặc các nhà thầu quốc phòng) phải đánh giá rõ ràng liệu việc định tuyến API bên ngoài có tuân thủ các nghĩa vụ về nơi cư trú dữ liệu cụ thể của họ hay không. * Giảm thiểu Rủi ro được Quản lý: Ngược lại, một cấu trúc API được quản lý giúp loại bỏ gánh nặng cơ sở hạ tầng nội bộ về việc cung cấp, tối ưu hóa và duy trì các cụm đa GPU (như các mảng Nvidia H100 chuyên dụng) chỉ để lưu trữ một mạng lưới tác nhân nội bộ. Đây là một điểm đáng cân nhắc.
🗣️ Cộng đồng nói gì và Lời kết
Sự đón nhận ban đầu từ cộng đồng nhà phát triển và các quỹ đầu tư mạo hiểm công nghệ đã làm nổi bật sự thay đổi trong kinh tế học triển khai tác nhân. Nhà đầu tư mạo hiểm Web3 nổi tiếng @Boxmining nhấn mạnh lợi thế chi phí chiến lược:
> "Qwen 3.7 Plus rẻ hơn 40% so với Max thay đổi cuộc chơi. Nếu đầu ra đủ gần cho hầu hết các tác vụ mã hóa và mạnh hơn nhiều cho các quy trình làm việc trực quan, bạn có thực sự cần Max mỗi ngày hay chỉ cho các công việc nặng chỉ dùng terminal?"
Quan điểm này phù hợp với xu hướng hiện tại trong việc tối ưu hóa ngân sách hoạt động doanh nghiệp: chuyển từ điện toán thô, không giới hạn sang tự động hóa tác vụ có mục tiêu.
Đồng thời, các nhà nghiên cứu chuyên sâu trong hệ sinh thái chỉ ra rằng đây không chỉ là một tối ưu hóa tăng dần của việc tạo văn bản. Dunjie Lu, thực tập sinh nghiên cứu tại Alibaba Qwen, nhận xét:
> "Nó cho thấy những cải tiến rõ ràng so với Qwen3.6-Plus về khả năng sử dụng máy tính, với khả năng khái quát hóa mạnh mẽ hơn ngoài các tác vụ máy tính để bàn thông thường sang các quy trình làm việc chuyên nghiệp như kỹ thuật dữ liệu và nghiên cứu khoa học."
Cuối cùng, đối với các nhà mua hàng doanh nghiệp đang quyết định lộ trình cơ sở hạ tầng tiếp theo của mình, Qwen3.7-Plus là một lựa chọn thay thế thiết thực. Nếu mục tiêu chính của tổ chức bạn là xây dựng các vòng lặp phần mềm tự động có khả năng xử lý hình ảnh, tương tác trực tiếp với môi trường nhà phát triển và bảng điều khiển đám mây – mà không làm phình to ngân sách suy luận của bạn – mô hình này cung cấp một lý do thuyết phục để chuyển đổi thực thi khỏi các lựa chọn thay thế tiên phong đắt tiền hơn. 💡