Tag

#Cuda

Tổng hợp 2 bài Kalera News liên quan đến Cuda — viết tiếng Việt, có dẫn nguồn gốc.

AI 20 thg 5, 2026

Công bố bài phân tích 29.000 từ về FlashAttention-2 trong CuTe

Một tài liệu kỹ thuật cực kỳ chi tiết phân tích từng dòng mã nguồn sản xuất của FlashAttention-2 đã được phát hành, ước tính mất 100 giờ để đọc hết.

Nguồn x.com

AI · tools-ai 18 thg 5, 2026

Tối ưu CUDA Graph cho Grouped GEMM nhờ cơ chế CLC work stealing

Một kỹ thuật mới sử dụng cơ chế CLC work stealing giúp triển khai grouped_gemm có khả năng tương thích với CUDA Graph, tối ưu hiệu suất tính toán cho các mô hình AI phức tạp.

Nguồn x.com