AI tools-ai 18 thg 5, 2026 1 phút đọc

Tối ưu CUDA Graph cho Grouped GEMM nhờ cơ chế CLC work stealing

Một kỹ thuật mới sử dụng cơ chế CLC work stealing giúp triển khai grouped_gemm có khả năng tương thích với CUDA Graph, tối ưu hiệu suất tính toán cho các mô hình AI phức tạp.

Tier 1 · nguồn 99% độ tin cậy Đã được duyệt

Cuda Nvidia HPC MOE Optimization

Nguồn gốc x.com

Kỹ thuật này tận dụng một tính năng tinh vi của cơ chế CLC (Concurrent Launch Control) work stealing để cho phép grouped_gemm (General Matrix Multiply trên nhóm ma trận) có thể sử dụng được với CUDA Graph.

Bối cảnh

Trong các tác vụ tính toán hiệu năng cao, CUDA Graph giúp giảm overhead khi khởi chạy kernel bằng cách ghi lại và thực thi lại các luồng công việc. Tuy nhiên, việc kết hợp grouped_gemm — vốn quan trọng cho các kiến trúc như Mixture-of-Experts (MoE) — với CUDA Graph thường gặp khó khăn do tính chất lập lịch động.

Diễn biến

Tác giả chia sẻ về một đặc điểm của cơ chế work stealing trong CLC giúp giữ cho việc lập lịch ổn định và có thể dự đoán được, từ đó 'graphable'. Điều này mở đường cho việc tối ưu hóa sâu hơn các kernel tính toán ma trận mà không hy sinh tính linh hoạt của grouped_gemm.

Vì sao đáng chú ý

Với các kỹ sư AI và HPC tại Việt Nam đang tối ưu hóa mô hình MoE hoặc hệ thống suy luận quy mô lớn, đây là một mảnh ghép quan trọng để vắt kiệt hiệu năng phần cứng NVIDIA. Việc giảm latency thông qua CUDA Graph trong khi vẫn giữ được băng thông của grouped_gemm là một mục tiêu kỹ thuật giá trị.