Kỹ thuật này tận dụng một tính năng tinh vi của cơ chế CLC (Concurrent Launch Control) work stealing để cho phép grouped_gemm (General Matrix Multiply trên nhóm ma trận) có thể sử dụng được với CUDA Graph.
Bối cảnh
Trong các tác vụ tính toán hiệu năng cao, CUDA Graph giúp giảm overhead khi khởi chạy kernel bằng cách ghi lại và thực thi lại các luồng công việc. Tuy nhiên, việc kết hợp grouped_gemm — vốn quan trọng cho các kiến trúc như Mixture-of-Experts (MoE) — với CUDA Graph thường gặp khó khăn do tính chất lập lịch động.
Diễn biến
Tác giả chia sẻ về một đặc điểm của cơ chế work stealing trong CLC giúp giữ cho việc lập lịch ổn định và có thể dự đoán được, từ đó 'graphable'. Điều này mở đường cho việc tối ưu hóa sâu hơn các kernel tính toán ma trận mà không hy sinh tính linh hoạt của grouped_gemm.
Vì sao đáng chú ý
Với các kỹ sư AI và HPC tại Việt Nam đang tối ưu hóa mô hình MoE hoặc hệ thống suy luận quy mô lớn, đây là một mảnh ghép quan trọng để vắt kiệt hiệu năng phần cứng NVIDIA. Việc giảm latency thông qua CUDA Graph trong khi vẫn giữ được băng thông của grouped_gemm là một mục tiêu kỹ thuật giá trị.