NVIDIA vừa công bố Nemotron-Labs-Diffusion, một dòng mô hình ngôn ngữ dựa trên kiến trúc diffusion có khả năng sinh nhiều token song song trong một lần xử lý duy nhất.
Diễn biến
Khác với các mô hình ngôn ngữ tự hồi quy (autoregressive) truyền thống vốn chỉ sinh một token tại một thời điểm, Nemotron-Labs-Diffusion sử dụng phương pháp diffusion để xử lý đồng thời nhiều token. Thay vì cam kết cố định với từng token ngay lập tức, mô hình này tinh chỉnh dần toàn bộ chuỗi token trong quá trình sinh, cho phép điều chỉnh linh hoạt hơn.
NVIDIA cho biết cách tiếp cận này mở ra hướng đi mới cho việc tối ưu hóa tốc độ suy luận và chất lượng nội dung trong các hệ thống AI phức tạp.
Vì sao đáng chú ý
Khả năng sinh token song song là một trong những ranh giới công nghệ quan trọng để tăng tốc độ cho các mô hình ngôn ngữ lớn (LLM). Với các nhà phát triển tại Việt Nam, việc theo dõi các kiến trúc thay thế cho Transformer tự hồi quy như Diffusion LM là cần thiết để chuẩn bị cho thế hệ ứng dụng AI có độ trễ thấp và hiệu suất cao hơn trong tương lai.