AI tools-ai 17 thg 6, 2026 19 phút đọc

VibeThinker-3B của Weibo: Mô hình AI tí hon gây SỐC khi "đánh bại" ông lớn, liệu Benchmark đã... LỖI THỜI? 🤔🚀

Mô hình VibeThinker-3B chỉ với 3 tỷ tham số của Weibo đã gây tranh cãi gay gắt trong cộng đồng AI toàn cầu khi đạt điểm số cao bất ngờ trên các bài kiểm tra toán học và lập trình, thách thức định luật scaling và đặt ra nghi vấn về tính hợp lệ của các benchmark hiện tại.

Tier 2 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc venturebeat.com

Vào Chủ Nhật vừa qua, một nhóm gồm 9 nhà nghiên cứu tại Sina Weibo — gã khổng lồ mạng xã hội Trung Quốc, vốn nổi tiếng với nền tảng microblogging hơn là AI tiên tiến — đã âm thầm đăng tải một báo cáo kỹ thuật dài 14 trang lên arXiv, gây ra "cơn địa chấn" trong cộng đồng nghiên cứu AI. Tuyên bố của họ: một mô hình ngôn ngữ chỉ với 3 tỷ tham số có thể sánh ngang hoặc thậm chí vượt trội về hiệu suất suy luận so với các hệ thống hàng đầu từ Google DeepMind, OpenAI, Anthropic và DeepSeek, vốn lớn hơn hàng trăm lần. 😲

Mô hình này, có tên là VibeThinker-3B, đã đạt 94.3 điểm trong AIME 2026 — Kỳ thi Toán học Mời Hoa Kỳ, một trong những cuộc thi toán tiêu chuẩn khắt khe nhất thế giới. Con số này đặt nó ngang hàng với DeepSeek V3.2, một mô hình 671 tỷ tham số, và vượt qua Gemini 3 Pro của Google, đạt 91.7 điểm. Với kỹ thuật mở rộng thời gian kiểm tra mà nhóm gọi là Đánh giá Độ tin cậy Cấp độ Tuyên bố (Claim-Level Reliability Assessment), điểm số tăng vọt lên 97.1, vượt qua hầu hết mọi hệ thống được ghi nhận công khai. 🤯

Chỉ vài giờ sau khi công bố, bài báo đã nhận được 62 lượt upvote trên feed giấy hàng ngày của Hugging Face, kho mô hình thu hút 130 lượt thích và kho lưu trữ GitHub đạt 685 sao. Tuy nhiên, phản ứng trên mạng xã hội không hoàn toàn là ăn mừng. Trong nhiều trường hợp, đó là sự hoài nghi sâu sắc.

"CHUYỆN QUÁI QUỶ GÌ đang xảy ra trong AI vậy?" người dùng @orcus108 viết trên X, bài đăng thu hút hơn 161.000 lượt xem. "Một mô hình 3B tham số vừa đạt điểm benchmark về mã hóa ngang ngửa Claude Opus 4.5... Tôi thực sự không biết đây là một bước đột phá hay các benchmark đã bị hỏng." Sự căng thẳng này — giữa tiến bộ khoa học thực sự và sự nghi ngờ ngày càng tăng rằng các benchmark AI đã trở nên dễ dàng bị "qua mặt" đến mức vô nghĩa — nằm ở cốt lõi câu chuyện về VibeThinker-3B. Và câu trả lời cực kỳ quan trọng, không chỉ vì quyền khoe khoang trong học thuật, mà còn cho câu hỏi trị giá hàng tỷ đô la về việc liệu việc thúc đẩy không ngừng của ngành AI hướng tới các mô hình lớn hơn có phải là con đường duy nhất để đạt được trí tuệ hay không.

Benchmark Gây Sốc và Định Luật Scaling Bị Thách Thức

Các kết quả được báo cáo trong báo cáo kỹ thuật, theo bất kỳ tiêu chuẩn thông thường nào, đều phi thường.

* Về toán học: VibeThinker-3B đạt 91.4 trên AIME 2025, 94.3 trên AIME 2026, 89.3 trên HMMT 2025 (Giải đấu Toán học Harvard-MIT), 93.8 trên BruMO 2025 (Olympic Toán học Đại học Brown), và 76.4 trên IMO-AnswerBench, một benchmark gồm 400 bài toán cấp độ Olympic Toán học Quốc tế. * Về mã hóa: Mô hình đạt 80.2 Pass@1 trên LiveCodeBench v6, một benchmark được thiết kế để kiểm tra khả năng tạo mã thực thi, và đạt tỷ lệ chấp nhận 96.1% trên các cuộc thi LeetCode hàng tuần và hai tuần một lần chưa từng thấy từ cuối tháng 4 đến cuối tháng 5 năm 2026. * Tuân thủ hướng dẫn: Nó đạt 93.4 trên IFEval.

Để đặt sự chênh lệch về tham số vào đúng ngữ cảnh: DeepSeek V3.2 có 671 tỷ tham số — lớn hơn VibeThinker-3B khoảng 224 lần. GLM-5 của Zhipu AI có 744 tỷ tham số. Kimi K2.5 của Moonshot AI vượt quá 1 nghìn tỷ. Trong khi đó, 3 tỷ tham số của VibeThinker-3B có thể chạy trên một chiếc laptop thông thường! 💻

Các nhà nghiên cứu đã trình bày kết quả này không phải là một sự bất thường mà là bằng chứng cho một tuyên bố lý thuyết rộng hơn. Họ giới thiệu cái mà họ gọi là "Giả thuyết Nén-Phủ Tham Số" (Parametric Compression-Coverage Hypothesis), lập luận rằng các loại khả năng AI khác nhau có mối quan hệ cơ bản khác nhau với kích thước mô hình. Suy luận có thể kiểm chứng — loại được kiểm tra bởi các cuộc thi toán học và thử thách mã hóa, nơi câu trả lời có thể được kiểm tra một cách dứt khoát — là điều mà bài báo gọi là khả năng "đặc tham số" (parameter-dense): một khả năng có thể được nén vào một lõi nhỏ gọn. Ngược lại, kiến thức miền mở là "rộng tham số" (parameter-expansive), đòi hỏi phạm vi bao phủ rộng lớn trên các sự kiện, khái niệm và trường hợp biên, vốn đòi hỏi nhiều tham số hơn.

Bài báo thừa nhận sự khác biệt này một cách trực tiếp. Trên GPQA-Diamond, một benchmark kiến thức khoa học cấp độ sau đại học, VibeThinker-3B chỉ đạt 70.2 — kém xa so với 91.9 của Gemini 3 Pro và 87.0 của Claude Opus 4.5. Các tác giả viết rằng khoảng cách này "phù hợp với tuyên bố của chúng tôi chứ không mâu thuẫn: phát hiện chính không phải là một mô hình 3B đã thay thế hoàn toàn các mô hình đa năng hàng đầu, mà là một mô hình nhỏ có thể đạt hiệu suất hàng đầu trên nhiều nhiệm vụ suy luận có thể xác minh được."

Quy Trình Huấn Luyện 4 Giai Đoạn Đằng Sau Động Cơ Suy Luận Tí Hon

VibeThinker-3B không được xây dựng từ đầu. Nó được hậu huấn luyện (post-trained) dựa trên Qwen2.5-Coder-3B, một mô hình nền tảng nhỏ gọn từ nhóm Qwen của Alibaba, thông qua cái mà các nhà nghiên cứu AI của Weibo gọi là "Nguyên lý Phổ-Tín hiệu" (Spectrum-to-Signal Principle) — một quy trình đa giai đoạn lần đầu tiên được giới thiệu trong công trình VibeThinker-1.5B trước đó của nhóm vào tháng 11 năm 2025.

Quá trình huấn luyện diễn ra trong bốn giai đoạn chính:

1. Giai đoạn 1: Fine-tuning có giám sát (Supervised Fine-tuning - SFT) hai giai đoạn sử dụng học theo giáo trình (curriculum learning). Mô hình đầu tiên được huấn luyện trên một hỗn hợp rộng rãi các dữ liệu về toán, mã, suy luận STEM, đối thoại chung và tuân thủ hướng dẫn, sau đó chuyển sang một tập hợp con được tuyển chọn gồm các vấn đề suy luận khó hơn, có tầm nhìn xa hơn. Trong giai đoạn hai, các mẫu có dấu vết suy luận ngắn hơn 5.000 token bị loại bỏ, và các vấn đề mà VibeThinker-1.5B có thể giải quyết hơn 75% thời gian cũng được lọc bỏ, buộc mô hình phải tập trung vào các thử thách thực sự khó khăn. 2. Giai đoạn 2: Học tăng cường (Reinforcement Learning - RL) được áp dụng trên nhiều lĩnh vực — toán học, mã hóa và STEM — sử dụng thuật toán Tối ưu hóa Chính sách Hướng dẫn MaxEnt (MaxEnt-Guided Policy Optimization - MGPO) của nhóm. MGPO ưu tiên huấn luyện trên các vấn đề ở ranh giới khả năng hiện tại của mô hình, thay vì các vấn đề nó đã giải quyết dễ dàng hoặc thấy không thể. Đáng chú ý, nhóm nghiên cứu nhận thấy một chiến lược hoạt động tốt ở quy mô 1.5B — mở rộng dần cửa sổ ngữ cảnh trong quá trình huấn luyện RL — thực tế lại làm giảm hiệu suất ở 3B. Họ giả thuyết rằng checkpoint khởi đầu mạnh mẽ hơn có nghĩa là việc cắt bớt dấu vết suy luận trong quá trình khởi động không còn loại bỏ nhiễu mà lại phá vỡ các mẫu suy luận hợp lệ. Giải pháp là huấn luyện với một cửa sổ ngữ cảnh duy nhất 64.000 token xuyên suốt. * Trong giai đoạn RL toán học, nhóm cũng giới thiệu "RL Toán học Dài-thành-Ngắn" (Long2Short Math RL), một giai đoạn tối ưu hóa thứ cấp phân phối lại phần thưởng để ưu tiên các giải pháp đúng nhưng ngắn gọn hơn, giảm độ dài mà không làm mất độ chính xác. Kỹ thuật này sử dụng phân phối lại phần thưởng tổng bằng không, tránh làm sai lệch tín hiệu phần thưởng tổng thể trong khi thúc đẩy mô hình hướng tới suy luận hiệu quả hơn. 3. Giai đoạn 3: Chưng cất (Distillation) các quỹ đạo suy luận chất lượng cao từ các checkpoint đã huấn luyện RL và chưng cất chúng trở lại thành một mô hình thống nhất thông qua fine-tuning có giám sát. Nhóm sử dụng "điểm tiềm năng học tập" — về cơ bản là độ bất ngờ (perplexity) của mô hình học sinh trên mỗi quỹ đạo của mô hình giáo viên — để ưu tiên các dấu vết đúng nhưng học sinh chưa nội hóa được. 4. Giai đoạn 4: Instruct RL áp dụng học tăng cường trên các nhiệm vụ tuân thủ hướng dẫn bằng cách kết hợp các bộ kiểm định dựa trên quy tắc cho các ràng buộc định dạng và các mô hình phần thưởng dựa trên rubric cho đánh giá chất lượng mở.

Francesco Bertolotti, một nhà nghiên cứu AI đã sớm gắn cờ bài báo trên X, mô tả cách tiếp cận một cách ngắn gọn: "Những kết quả này chủ yếu đạt được thông qua các tinh chỉnh hậu huấn luyện trên Qwen2.5-Coder. Bài báo không cung cấp nhiều chi tiết, nhưng dường như họ chưng cất từ các checkpoint RL và sau đó thực hiện một giai đoạn Instruct RL cuối cùng dựa trên RL." Bài đăng của ông đã thu hút hơn 161.000 lượt xem.

Khoảng Cách Giữa Benchmark và Hiệu Suất Thực Tế: Sự Hoài Nghi Từ Cộng Đồng

Với mỗi phản ứng nhiệt tình, bài báo lại nhận được một sự phản đối mạnh mẽ tương đương. Cộng đồng nghiên cứu AI vào giữa năm 2026 đã trở nên vô cùng cảnh giác với các tuyên bố dựa trên benchmark, và VibeThinker-3B xuất hiện trong một môi trường sẵn sàng cho sự nghi ngờ. 🤨

"Các benchmark chỉ là khớp mẫu lập trình một tệp," @BigMoonKR viết trên X. "Nó không liên quan đến công việc lập trình thực tế. Tôi không hiểu sao mọi người vẫn không nhận ra điều này." @oflu_bedirhan tuyên bố "Benchmaxxing", một thuật ngữ đã trở thành từ viết tắt trong cộng đồng AI cho các mô hình dường như được tối ưu hóa đặc biệt cho hiệu suất benchmark nhưng lại hy sinh tiện ích trong thế giới thực.

Lời chỉ trích gay gắt nhất đến từ những người đã thực sự tải xuống và thử nghiệm mô hình. "Vừa thử độ chính xác đầy đủ," @politilols viết. "Nó thậm chí còn không biết uv script là gì (công cụ phát triển Python phổ biến nhất). Tôi chưa thấy điều đó ở một LLM nào trong ít nhất một năm nay. Benchmaxxed." Khi Bertolotti trả lời rằng mô hình dường như tập trung vào suy luận toán học hơn là mã hóa thực tế, người dùng đã phản bác: "Họ đưa vào điểm livecodebench. Không đời nào điều đó phản ánh đúng mô hình."

@Itsdotdev đưa ra một lời chỉ trích cấu trúc: "Hãy xem xét chính các benchmark và có lẽ nó sẽ không còn gây sốc đến vậy. Tại sao không có DeepSWE? Tại sao không có bất kỳ benchmark tiêu chuẩn nào mà các nhà cung cấp SOTA sử dụng?" Người dùng @AvenirReym đặt câu hỏi mang tính chẩn đoán hơn: "Nếu nó vẫn giữ vững trên một benchmark được tạo ra sau thời điểm cắt dữ liệu huấn luyện của mô hình, thì đó là thật. Nếu nó chỉ thắng trên các bộ AIME-style đã lưu hành nhiều năm, thì đó là rò rỉ dữ liệu (leakage)."

Các tác giả của bài báo dường như đã lường trước những phản đối này. Báo cáo kỹ thuật nêu rõ rằng các tập huấn luyện "đã trải qua quá trình khử nhiễm benchmark nghiêm ngặt," bao gồm lọc dựa trên n-gram để loại bỏ "sự trùng lặp n-gram với các tập đánh giá."

Đánh giá cuộc thi LeetCode — bao gồm các cuộc thi từ ngày 25 tháng 4 đến 31 tháng 5 năm 2026, những ngày này sau bất kỳ thời điểm cắt dữ liệu huấn luyện hợp lý nào — đại diện cho sự bảo vệ mạnh mẽ nhất chống lại các lo ngại về ô nhiễm dữ liệu. Trong các cuộc thi đó, VibeThinker-3B đã vượt qua 123 trên 128 lần nộp bài đầu tiên, tỷ lệ 96.1% vượt qua GPT-5.2, Doubao Seed 2.0 Pro, Kimi K2.5 và Claude Opus 4.6 trong điều kiện đánh giá tương tự.

Tuy nhiên, các báo cáo của người dùng thực tế cho thấy một khoảng cách đáng kể giữa hiệu suất benchmark và tiện ích thực tế — một hiện tượng đã trở nên quen thuộc trong toàn ngành. "Trong LM Studio, nó chỉ phản hồi tốt câu hỏi đầu tiên, các câu hỏi tiếp theo lại trả lời câu hỏi đầu tiên," @luismolinaab báo cáo.

Vì Sao Một Công Ty Mạng Xã Hội Lại Tìm Thấy Lỗ Hổng Trong Giả Thuyết Scaling? 💡

Ngay cả những nhà phê bình gay gắt nhất cũng thừa nhận rằng việc đạt được những con số benchmark này với 3 tỷ tham số — bất kể khả năng chuyển giao chúng cho các trường hợp sử dụng sản xuất như thế nào — là một thành tựu kỹ thuật có ý nghĩa. "Ngay cả khi đó là benchmaxxing thì việc làm được điều đó với 3B tham số cũng thật hấp dẫn, cho thấy lĩnh vực này đang tiến bộ nhanh chóng như thế nào," @rohityin viết.

Quan sát này đặt ra một câu hỏi đã ám ảnh ngành AI kể từ khi giả thuyết scaling ra đời: Lớn hơn có luôn tốt hơn không? Trí tuệ thông thường, được diễn đạt nổi tiếng nhất trong các định luật scaling Chinchilla và được củng cố bởi sự thống trị thương mại của các mô hình nền tảng ngày càng lớn, cho rằng nhiều tham số hơn và nhiều dữ liệu huấn luyện hơn sẽ đáng tin cậy mang lại hiệu suất tốt hơn. Hệ quả kinh tế là rõ ràng: huấn luyện và triển khai các mô hình tiên tiến tốn hàng chục hoặc hàng trăm triệu đô la, tạo ra rào cản gia nhập khổng lồ.

VibeThinker-3B thách thức sự đồng thuận đó — nhưng chỉ một phần. Bài báo cẩn thận đặt ra giới hạn cho các tuyên bố của mình, phân biệt giữa các nhiệm vụ có "tín hiệu xác minh rõ ràng" và những nhiệm vụ đòi hỏi kiến thức thực tế rộng lớn. Giả thuyết Nén-Phủ Tham số lập luận rõ ràng rằng các mô hình nhỏ không thể thay thế các mô hình lớn trên diện rộng.

"Ý nghĩa thực sự của VibeThinker-3B không nằm ở việc chứng minh rằng một mô hình 3B có thể thay thế các mô hình tổng quát quy mô lớn," bài báo nêu rõ, "mà là cung cấp một tín hiệu thực nghiệm cụ thể: sự phát triển của các mô hình nhỏ gọn không còn chỉ là một sự thỏa hiệp thụ động cho hiệu quả triển khai hoặc kiểm soát chi phí; nó nổi lên như một hướng nghiên cứu đầy hứa hẹn, bổ sung cơ bản cho mô hình scaling tham số truyền thống."

Có lẽ yếu tố đáng ngạc nhiên nhất của công trình này là nguồn gốc của nó. Sina Weibo — được niêm yết công khai trên Nasdaq và Hồng Kông, với vốn hóa thị trường dao động trong khoảng vài tỷ đô la — không phải là một công ty thường được liên kết với nghiên cứu AI tiên tiến. Tuy nhiên, loạt VibeThinker là đóng góp AI mã nguồn mở lớn thứ hai của Weibo trong bảy tháng.

VibeThinker-1.5B, được phát hành vào tháng 11 năm 2025, đã chứng minh rằng một mô hình chỉ với 1.5 tỷ tham số có thể vượt trội so với DeepSeek R1 gốc trên một số benchmark toán học — một kết quả mà nhóm đã đạt được với chi phí hậu huấn luyện chỉ 7.800 USD, so với ước tính 294.000 USD cho DeepSeek R1.

Đội ngũ nghiên cứu rất nhỏ gọn — chín tác giả, tất cả đều là nhân viên của Sina Weibo Inc. Mô hình được phát hành theo Giấy phép MIT, một trong những giấy phép mã nguồn mở tự do nhất hiện có, và trọng số có thể tải xuống miễn phí từ cả Hugging Face và ModelScope. Trong vòng một ngày sau khi phát hành, các thành viên cộng đồng đã tạo ra các phiên bản lượng tử hóa GGUF và các mô hình phái sinh.

Mô Hình Nhỏ, Ảnh Hưởng Lớn, và Câu Hỏi Mà Ngành AI Không Thể Tránh

Đánh giá trung thực nhất về VibeThinker-3B có lẽ là nó đồng thời kém và hơn những gì các benchmark gợi ý. Kém, bởi vì một mô hình gặp khó khăn với kiến thức cơ bản về các công cụ phát triển phổ biến khó có thể thay thế bất kỳ trợ lý mã hóa cấp sản xuất nào trong tương lai gần. Hơn, bởi vì cái nhìn sâu sắc cơ bản — rằng khả năng suy luận và kiến thức thực tế được tách rời một phần, và khả năng suy luận có thể được nén mạnh mẽ hơn nhiều so với những gì giả định trước đây — có những hàm ý sâu sắc cho cách ngành công nghiệp suy nghĩ về thiết kế mô hình, kinh tế triển khai và khả năng tiếp cận các khả năng AI tiên tiến. 🌐

Nếu Giả thuyết Nén-Phủ Tham Số được giữ vững, nó gợi ý một tương lai trong đó các động cơ suy luận nhỏ, chuyên biệt hoạt động cùng với các mô hình giàu kiến thức lớn trong các kiến trúc lai — một tầm nhìn nơi một mô hình 3 tỷ tham số xử lý công việc logic nặng nề trong khi một hệ thống lớn hơn cung cấp nền tảng thực tế. Một kiến trúc như vậy có thể giảm đáng kể chi phí triển khai các khả năng suy luận AI, có khả năng mang hiệu suất toán học và mã hóa cấp độ cạnh tranh đến các thiết bị có phần cứng khiêm tốn. 🚀

"Phần thú vị là chúng ta đang bắt đầu tách kiến thức khỏi suy luận," @RealLambdaFlux viết trên X. "Một mô hình nhỏ với hậu huấn luyện mạnh mẽ có thể vượt xa kích thước của nó trên các nhiệm vụ có phản hồi rõ ràng."

@cmitsakis gợi ý kết quả thực tế: "Tôi nghĩ các mô hình nhỏ là tương lai cho các agent vì chúng có thể sử dụng công cụ để có được kiến thức và chúng có thể chạy nhanh và rẻ."

Cho dù tương lai đó đến thông qua VibeThinker-3B cụ thể, hay thông qua hàng tá nhóm đang chạy đua để tái tạo và mở rộng những kết quả này, bài báo đã đạt được điều mà không điểm benchmark nào có thể nắm bắt được hoàn toàn.

Nó đã buộc cộng đồng AI phải đối mặt với một khả năng khó chịu: rằng trong nhiều năm, ngành công nghiệp có thể đã chi hàng tỷ đô la để mở rộng các tham số nhằm cải thiện một loại hình trí tuệ mà từ lâu đã có thể nằm gọn trong một chiếc laptop. Trọng số là công khai. Mã nguồn là mở. Và bài kiểm tra quan trọng nhất không nằm trên bất kỳ bảng xếp hạng nào — mà là liệu ai đó có thể biến một mô hình nhỏ như vậy thực sự hữu ích trong thế giới thực hay không. 🤔✨