Trong kỷ nguyên của các tác nhân AI (AI agents) tự chủ, "tốc độ phản hồi" chính là thước đo tối thượng mới thay thế cho các định luật mở rộng truyền thống (Speed is the new Scaling Law). Mới đây, một bước nhảy vọt mang tính lịch sử đã diễn ra khi nhóm nghiên cứu mô hình MiMo của Xiaomi và đội ngũ phát triển hệ thống TileRT công bố giải pháp đồng thiết kế mô hình - hệ thống (Model-System Co-design). Sự hợp tác này đã thành công phá vỡ cột mốc 1.000+ Tokens mỗi giây (TPS) cho một mô hình Mixture of Experts (MoE) khổng lồ có quy mô 1 nghìn tỷ (1T) tham số – tất cả chạy mượt mà chỉ trên một node 8 GPU phổ thông (commodity GPUs), thay vì các kiến trúc phần cứng siêu đắt đỏ hoặc chip custom độc quyền.
1. Đồng thiết kế Mô hình - Hệ thống: Lối đi riêng vượt mặt phần cứng chuyên dụng
Hiện nay, để đạt được tốc độ suy luận cực hạn (ultra-low latency) cho các mô hình ngôn ngữ lớn trên 100 tỷ hay 1 nghìn tỷ tham số, ngành công nghiệp AI thường phải phụ thuộc hoàn toàn vào các phần cứng đặc thù rất đắt đỏ. Có thể kể đến như giải pháp tích hợp quy mô tấm silicon (Wafer-Scale) của Cerebras, hoặc các bộ tăng tốc ASIC sử dụng chip nhớ SRAM on-chip siêu tốc của Groq.
Tuy nhiên, Xiaomi MiMo và TileRT đã chọn một con đường khác biệt: Đạt hiệu năng tương đương hoặc vượt trội ngay trên các hệ thống GPU tiêu chuẩn của doanh nghiệp (như máy chủ NVIDIA GPGPU 8 thẻ) thông qua sự kết hợp sâu sắc giữa thuật toán và hệ thống phần mềm hạ tầng (Codesign): * Về phía mô hình (MiMo-V2.5-Pro): Nhóm thuật toán Xiaomi thiết kế cấu trúc MoE thích ứng cao với việc nén và phân phối tính toán. * Về phía hệ thống (TileRT): Đội ngũ phát triển xây dựng trình suy luận siêu tối ưu, loại bỏ triệt để các khoảng trễ do ranh giới toán tử (operator boundaries) ở cấp độ phần cứng.
2. Hai bước nhảy vọt kỹ thuật xóa bỏ rào cản băng thông
Để đạt cột mốc không tưởng này, hai đội ngũ đã giải quyết trực tiếp bài toán thắt nút cổ chai lớn nhất của suy luận AI: Băng thông bộ nhớ vật lý.
#### Kỹ thuật lượng tử hóa hỗn hợp (Mixed-Precision Quantization Strategy) Đối với các siêu mô hình 1T tham số, tốc độ đọc/ghi dữ liệu từ bộ nhớ GPU chính là giới hạn vật lý của hệ thống. TileRT và MiMo đã cùng nhau thiết kế một chiến lược lượng tử hóa tinh vi: * Chỉ áp dụng định dạng nén siêu sâu FP4 (4-bit floating point) trực tiếp cho các MoE Experts (vốn chiếm phần lớn dung lượng mô hình). * Giữ nguyên định dạng FP8 chất lượng cao cho các lớp mạng xương sống (backbone) và cơ chế Attention.
Sự đánh đổi công nghệ này được tính toán kỹ lưỡng dựa trên cấu trúc vật lý của phần cứng để đảm bảo: giảm tối đa băng thông truyền tải dữ liệu mà không làm suy giảm độ chính xác của mô hình khi suy luận.
#### Trình thực thi phi ranh giới của TileRT (Ultra-Low-Latency Inference System) TileRT giới thiệu một mô hình thực thi hoàn toàn mới ở cấp độ microsecond. Trình suy luận này hợp nhất các toán tử tính toán, loại bỏ các khoảng thời gian trống (execution gaps) vốn xuất hiện liên tục trong các hệ thống suy luận LLM thông thường. Toàn bộ chuỗi suy luận liên tục được duy trì ổn định không có thời gian chết.
3. Xiaomi chính thức mở mã nguồn, thúc đẩy kỷ nguyên "Tốc độ là tất cả"
Không dừng lại ở việc công bố kết quả nghiên cứu phòng thí nghiệm, Xiaomi đã chính thức đưa mô hình này đến gần hơn với cộng đồng: * Đã mở mã nguồn phiên bản MiMo-V2.5-Pro-FP4-DFlash checkpoint trên Hugging Face, bao gồm đầy đủ trọng số lượng tử hóa FP4 và các siêu tham số tối ưu. * Hệ thống suy luận siêu tốc UltraSpeed hỗ trợ dòng mô hình MiMo-V2.5 đang được chuẩn bị phát hành trong thời gian sớm nhất.
Bước đột phá này chứng minh rằng chúng ta có thể đưa các siêu trí tuệ nhân tạo quy mô nghìn tỷ tham số vào ứng dụng thực tế với chi phí cực kỳ tối ưu, mở ra cơ hội xây dựng những đặc vụ AI có khả năng phản hồi tức thì dưới 1 giây cho mọi tác vụ phức tạp nhất.
Nguồn tham khảo: mimo.xiaomi.com và tilert.ai.