AI tools-ai 27 thg 6, 2026 8 phút đọc

ByteDance & Đại học Renmin Ra Mắt iLLaDA 🚀: Mô Hình Ngôn Ngữ Khuếch Tán 8B Thách Thức Qwen2.5!

ByteDance và Đại học Renmin đã công bố iLLaDA, một mô hình ngôn ngữ khuếch tán 8B tham số tiên tiến, đạt hiệu suất ngang ngửa với các LLM tự hồi quy hàng đầu như Qwen2.5-7B, mở ra kỷ nguyên mới cho mô hình phi tự hồi quy và khả năng tạo văn bản linh hoạt hơn.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc the-decoder.com

ByteDance & Đại học Renmin Ra Mắt iLLaDA 🚀: Mô Hình Ngôn Ngữ Khuếch Tán 8B Thách Thức Qwen2.5!

Ngày: 27 tháng 6 năm 2026 Nguồn: The Decoder / arXiv Link Bài Báo Khoa Học: arXiv:2606.25331 Mã Nguồn & Trọng Số: GitHub - ML-GSAI/LLaDA Tác Giả: Shen Nie, Qiyang Min, Shaoxuan Xu, Zihao Huang, Yuxuan Song, Yong Shan, Yankai Lin, Wayne Xin Zhao, Chongxuan Li, Ji-Rong Wen (Đại học Renmin Trung Quốc, Phòng Thí nghiệm Trọng điểm Bắc Kinh về Nghiên cứu Mô hình Lớn, ByteDance Seed)

---

1. Tóm Lược Điều Hành 💡

Các nhà nghiên cứu từ Đại học Renmin và ByteDance vừa chính thức công bố iLLaDA (Improved LLaDA) – một mô hình ngôn ngữ khuếch tán (diffusion language model) hoàn toàn song hướng, bị che giấu (masked), với 8 tỷ tham số, được huấn luyện hoàn toàn từ đầu. iLLaDA đánh dấu một bước đột phá lớn trong mô hình ngôn ngữ phi tự hồi quy (non-autoregressive language modeling), chứng minh rằng các mô hình khuếch tán song hướng có thể đạt hiệu suất ngang bằng với các LLM tự hồi quy đang thống trị thị trường như Qwen2.5-7B của Alibaba.

Trong khi các mô hình tự hồi quy tạo văn bản từng token một từ trái sang phải, các mô hình khuếch tán bị che giấu có khả năng dự đoán văn bản theo cả hai hướng trên toàn bộ chuỗi. Bằng cách tiền huấn luyện trên 12 nghìn tỷ token, cải tiến kiến trúc nền tảng, giới thiệu một lược đồ tinh chỉnh có giám sát (SFT) sáng tạo qua 12 kỷ nguyên (epochs) và áp dụng cơ chế tính điểm dựa trên độ tin cậy, iLLaDA Base đã vượt trội hơn Qwen2.5-7B Base trên một số tiêu chuẩn về suy luận và kiến thức cốt lõi, đồng thời thu hẹp khoảng cách đối với các biến thể được tinh chỉnh theo hướng dẫn (instruction-tuned).

---

2. Đổi Mới Kỹ Thuật và Kiến Trúc 🏗️

iLLaDA giải quyết các hạn chế chính của phiên bản tiền nhiệm, LLaDA, bằng cách triển khai các cải tiến quan trọng về kiến trúc và huấn luyện:

#### Nâng Cấp Kiến Trúc Chính: * Grouped-Query Attention (GQA): Thay vì Multi-Head Attention, iLLaDA triển khai GQA (sử dụng 32 attention heads và 8 key/value heads). Điều này giúp giảm đáng kể mức tiêu thụ bộ nhớ của trạng thái key/value được lưu trữ trong quá trình suy luận, đảm bảo quá trình tạo văn bản nhanh chóng và có khả năng mở rộng. * Tied Embeddings: Liên kết các tham số của input embedding và language modeling head (LM-Head) để tối đa hóa hiệu quả tham số. * Chuẩn Hóa & Kích Hoạt: Sử dụng hàm kích hoạt SwiGLU, RMSNorm và Rotary Position Embeddings (RoPE), không có bias trong attention hoặc MLP, phù hợp với các cấu hình transformer hiện đại nhất. * Mở Rộng Cửa Sổ Ngữ Cảnh: Mở rộng độ dài chuỗi tối đa lên tới 8192 token (gấp đôi giới hạn 4096 token của LLaDA).

#### Thiết Lập Tiền Huấn Luyện: * Mục Tiêu: Khuếch tán bị che giấu dựa trên khả năng xảy ra (likelihood-based masked diffusion). Khi một chuỗi được đưa ra, một phần ngẫu nhiên các token sẽ bị che giấu và mô hình được tối ưu hóa để dự đoán chỉ các vị trí bị che giấu theo cả hai hướng. * Quy Mô: Được tiền huấn luyện từ đầu trên một kho ngữ liệu khổng lồ gồm 12 nghìn tỷ token. * Tối Ưu FlashAttention: Tận dụng các kernel attention đóng gói có độ dài thay đổi để huấn luyện trên các chuỗi có độ dài khác nhau mà không cần token đệm không cần thiết.

---

3. Tối Ưu Hóa Hậu Huấn Luyện và Suy Luận ⚙️

Để iLLaDA cạnh tranh trong các kịch bản trò chuyện và tuân thủ tác vụ, nhóm nghiên cứu đã giới thiệu hai phương pháp chính:

#### Tinh Chỉnh Có Giám Sát (SFT) Qua 12 Kỷ Nguyên: * Không giống như SFT truyền thống chỉ che giấu phản hồi của trợ lý, iLLaDA nối các lời nhắc (prompts) và phản hồi thành một luồng liên tục duy nhất gồm 25 tỷ token. * Nó áp dụng việc che giấu ngẫu nhiên trên toàn bộ chuỗi (bao gồm các hướng dẫn prompt và token <EOS>) và huấn luyện mô hình theo mục tiêu khuếch tán bị che giấu. * Tận dụng khả năng tái sử dụng dữ liệu độc đáo của kiến trúc khuếch tán, họ tinh chỉnh mô hình trong 12 kỷ nguyên đầy đủ, tạo ra một mô hình tuân thủ hướng dẫn cực kỳ mạnh mẽ.

#### Tính Điểm Dựa Trên Độ Tin Cậy (Đánh Giá Trắc Nghiệm): * Cách tính điểm khả năng xảy ra tiêu chuẩn có thể gặp khó khăn với các mô hình ngôn ngữ khuếch tán do xác suất phi tự hồi quy. * iLLaDA giới thiệu một thuật toán tính điểm dựa trên độ tin cậy mới lạ. Đối với các câu hỏi trắc nghiệm, nó bắt đầu với một tùy chọn được che giấu hoàn toàn, dự đoán và tiết lộ lặp đi lặp lại các token mà mô hình có độ tin cậy cao nhất, sau đó tổng hợp các log-probability của các bước tuần tự này. Điều này giúp tăng đáng kể hiệu suất trên các bộ dữ liệu đánh giá.

---

4. Kết Quả Hiệu Suất Chuẩn 📊

Kết quả đánh giá của iLLaDA cho thấy những tiến bộ vượt bậc, vượt trội hơn các mô hình khuếch tán trước đây (LLaDA 8B và Dream 7B) và đạt được hiệu suất cạnh tranh ngang bằng với Qwen2.5-7B đã được tối ưu hóa cao:

| Tiêu Chuẩn | iLLaDA 8B (Base) | LLaDA 8B (Base) | Dream 7B (Base) | Qwen2.5 7B (Base) | | :--- | :---: | :---: | :---: | :---: | | MMLU | 74.8 | 65.9 | 69.5 | 71.9 | | BBH (Big-Bench Hard) | 71.3 | 49.7 | 57.9 | 63.9 | | ARC-Challenge | 60.8 | 45.9 | 59.8 | 51.5 | | GSM8K (Toán Học) | 81.9 | 70.3 | 77.2 | 78.9 | | Hellaswag | 76.6 | 70.5 | 73.3 | 79.0 | | Math | 38.4 | 31.4 | 39.6 | 41.1 |

#### Những Điểm Chính Từ Kết Quả Chuẩn: 1. Hiệu Suất Cơ Sở Ngang Bằng: iLLaDA-Base 8B trung bình mạnh hơn một chút so với Qwen2.5-7B Base, chiếm ưu thế trong các tác vụ suy luận nhiều bước (BBH, GSM8K) và kiến thức khái niệm (MMLU). 2. Khoảng Cách Tinh Chỉnh Hướng Dẫn: Mặc dù iLLaDA-Instruct thể hiện một bước nhảy vọt lớn cho các mô hình khuếch tán, nhưng nó vẫn hơi kém cạnh so với Qwen2.5-7B Instruct trong các tác vụ lập trình và toán học. Điều này nhấn mạnh rằng việc tinh chỉnh các mô hình phi tự hồi quy cho các tác vụ tuân thủ hướng dẫn phức tạp vẫn là một lĩnh vực nghiên cứu tích cực.

---

5. Tại Sao Khuếch Tán Song Hướng Lại Quan Trọng Cho LLM? ✍️

Thiết kế tự hồi quy chiếm ưu thế (như GPT-4, Claude, hoặc Llama) về cơ bản bị giới hạn trong việc tạo văn bản từ trái sang phải. Nếu một mô hình tự hồi quy mắc lỗi ở giai đoạn đầu tạo văn bản, nó không có cơ chế trực tiếp nào để "xóa" hoặc sửa chữa token đó, dẫn đến các chuỗi lỗi hoặc "ảo giác" liên tiếp.

Ngược lại, mô hình khuếch tán song hướng của iLLaDA cho phép mô hình: 1. Chỉnh Sửa và Tinh Chỉnh: Thay đổi, sửa chữa hoặc điền vào các phần giữa của văn bản (in-filling) một cách linh hoạt tại bất kỳ bước tạo văn bản nào. 2. Nhận Thức Ngữ Cảnh Toàn Cầu: Nhìn cả về phía trước và phía sau khi quyết định một token, cho phép cấu trúc câu tự nhiên hơn và giảm các lỗi cấu trúc. 3. Kiểm Soát Lấy Mẫu Nâng Cao: Dừng và che giấu lại các bước tạo văn bản có độ tin cậy thấp để tự sửa lỗi trong quá trình suy luận, mở ra một con đường mới đầy hứa hẹn hướng tới AI viết văn bản hoàn toàn tự chủ và đáng tin cậy. 🌟