Bỏ qua đến nội dung chính
Về trang chủ
Tech tools-ai 8 phút đọc

Cú Hích Lớn! Intel & AMD Hợp Lực Chuẩn Hóa 'ACE' AI trên x86: Tăng Tốc Ma Trận 16 Lần Trực Tiếp trên CPU Tương Lai! 🚀

Intel và AMD đã hợp tác công bố chuẩn AI Compute Extensions (ACE) cho kiến trúc x86, tích hợp khả năng tăng tốc phép toán ma trận gấp 16 lần trực tiếp vào CPU tương lai, nhằm thúc đẩy phát triển AI cục bộ và thống nhất trên nền tảng này. 💡

Tier 1 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc x86ecosystem.org

Trong một động thái hợp tác lớn nhằm bảo vệ kiến trúc x86 trước sự trỗi dậy của ARM và các bộ xử lý thần kinh (NPU) chuyên dụng, Intel, AMD cùng Nhóm Tư vấn Hệ sinh thái x86 (EAG) đã chính thức công bố đặc tả kỹ thuật AI Compute Extensions (ACE) (Phiên bản 1.15). 🤝 Tập lệnh được chuẩn hóa mới này mang các công cụ nhân ma trận cấp độ phần cứng và định dạng dữ liệu AI độ chính xác thấp trực tiếp vào các bộ xử lý x86 tương lai, đảm bảo khả năng tăng tốc AI đồng nhất giữa các nhà cung cấp mà không cần phải chuyển giao tác vụ cho phần cứng rời rạc. Đây là một bước tiến quan trọng cho tương lai AI trên CPU. ✨

Chuẩn Hóa Thông Qua Nhóm Tư Vấn Hệ Sinh Thái x86 (EAG) 🌐

Được thành lập vào tháng 10 năm 2024 với sứ mệnh bảo đảm và thúc đẩy tương lai của điện toán x86, Nhóm Tư vấn Hệ sinh thái x86 (EAG) bao gồm AMD, Intel và các nhà lãnh đạo ngành chủ chốt. Đặc tả ACE vừa phát hành là thành quả trực tiếp từ liên minh này.

Việc chuẩn hóa các tập lệnh AI này trên cả Intel và AMD mang lại động lực lớn cho các nhà phát triển phần mềm để tối ưu hóa mã của họ. Các nhà phát triển sẽ không còn phải bận tâm về việc viết các đường dẫn riêng biệt, dành riêng cho từng nhà cung cấp (chẳng hạn như AMX chỉ của Intel hoặc các tập lệnh chỉ của AMD). Thay vào đó, bất kỳ phần mềm nào được tối ưu hóa cho ACE sẽ tự động chạy với hiệu quả tối ưu trên các CPU tương lai từ cả hai gã khổng lồ bán dẫn. Đây là một lợi ích lớn cho sự phát triển thống nhất! 🚀

Kiến Trúc ACE: Tích Hợp AVX10 Liền Mạch 🧠

ACE được thiết kế như một phần mở rộng tự nhiên của tập lệnh vector AVX10, kết hợp các tính năng xử lý dữ liệu lớn của AVX với khả năng nhân ma trận chuyên biệt cao.

#### Nhảy Vọt Mật Độ Tính Toán 16 Lần Với Công Cụ Tích Ngoài Cốt lõi của kiến trúc ACE là các primitive tăng tốc ma trận dựa trên các phép toán tích ngoài. Một phép toán tích ngoài của ACE mang lại cho phần mềm một lợi thế mật độ tính toán đáng kinh ngạc gấp 16 lần so với một phép toán nhân-tích lũy (FMA) AVX10 tương đương, trong khi tiêu thụ cùng một số lượng vector đầu vào. Điều này cho phép các CPU tương lai xử lý các phép toán ma trận nặng – nền tảng tuyệt đối của AI và Học máy hiện đại – với hiệu quả và tốc độ chưa từng có. Thật ấn tượng! 🔥

#### Tổ Chức Thanh Ghi Ô (Tile Register) ACE giới thiệu trạng thái thanh ghi chuyên dụng để xử lý khối lượng công việc ma trận, định nghĩa tám thanh ghi ô và các thanh ghi tỷ lệ khối. * Mỗi thanh ghi ô ACE có kích thước 512-bit x 16 hàng. * Mỗi hàng có kích thước tương đương với một vector AVX-512 duy nhất. * Đối với phiên bản ACE ban đầu, hỗ trợ được cung cấp cho các loại bộ tích lũy 32-bit (FP32 hoặc INT32), nghĩa là mỗi hàng thanh ghi ô chứa 16 phần tử 32-bit.

#### Thanh Ghi Tỷ Lệ Khối (BSR) và Định Dạng Vi Tỷ Lệ (Microscaling Formats) Để tối ưu hóa hơn nữa hiệu quả năng lượng và băng thông bộ nhớ, ACE hỗ trợ Định dạng vi tỷ lệ OCP (MX) và Đặc tả điểm nổi 8-bit OCP (OFP8), được điều khiển bởi các Thanh ghi tỷ lệ khối chuyên dụng. Các định dạng vi tỷ lệ này cho phép các mô hình chạy ở độ chính xác cực thấp (như FP8) trong khi vẫn kiểm soát được lỗi tích lũy, bắt chước các kỹ thuật lượng tử hóa được sử dụng bởi các triển khai LLM hàng đầu. Điều này giúp tiết kiệm tài nguyên đáng kể! 💰

Các Định Dạng Dữ Liệu Độ Chính Xác Giảm Toàn Diện 📊

Các phần mở rộng ACE hỗ trợ các phép toán nhân ma trận, chia tỷ lệ và chuyển đổi gốc trên một loạt các định dạng dữ liệu gốc ML: * INT8 & INT32: Định dạng số nguyên tiêu chuẩn cho triển khai biên được lượng tử hóa. * FP16 & BF16: Định dạng điểm nổi độ chính xác giảm phổ biến. * FP32 (IEEE-754): Định dạng điểm nổi đơn chính xác tiêu chuẩn. * FP8 (E4M3 và E5M2): Định dạng điểm nổi độ chính xác thấp phù hợp với các đặc tả của Open Compute Project (OCP).

ACE cũng giới thiệu các tập lệnh chuyển đổi định dạng nhanh chuyên dụng trực tiếp trong khuôn khổ AVX10, chẳng hạn như TCVTROWPS2BF16[H,L] (Di chuyển hàng ô và chuyển đổi FP32 sang BF16) và TCVTROWPS2PH[H,L] (Chuyển đổi FP32 sang FP16). Sự linh hoạt này là chìa khóa cho hiệu suất AI. 🗝️

Mã Gợi Nhớ Lắp Ráp Mới 🧑‍💻

Consistent với các tiêu chuẩn x86 AVX và AMX, các tập lệnh ACE giới thiệu các quy ước đặt tên rõ ràng: * Tiền tố TOP (Tile Outer Product): Các phép tính tích ngoài như TOPPS (Tích ngoài ô đơn chính xác) và TOPI8 (Tích ngoài ô số nguyên 8-bit). * Tiền tố BSR (Block Scale Register): Các phép toán quản lý trạng thái vi tỷ lệ. * TILEZERO: Các tập lệnh quản lý ô chuyên dụng để ngay lập tức đặt giá trị 0 cho các thanh ghi ô trước khi thực thi. Đơn giản và hiệu quả! ✅

Tại Sao AI Dựa Trên CPU Phổ Biến Lại Quan Trọng? 🤔

Mặc dù GPU và NPU vẫn là những nhà vô địch trong đào tạo thông lượng cao và lưu trữ các mô hình hàng tỷ tham số khổng lồ, nhưng chúng lại gây ra độ trễ, chi phí sao chép bộ nhớ và sự phức tạp trong lập trình. Việc chuẩn hóa ACE trực tiếp trên CPU x86 thay đổi cuộc chơi cho các khối lượng công việc AI cục bộ, thời gian thực:

1. Các Tác Tử AI Cục Bộ Không Ma Sát: Các nhà phát triển có thể chạy các vòng lặp tác tử, các mô hình hoàn thành mã (như Claude Code, Copilot hoặc các mô hình cục bộ thông qua llama.cpp), và các công cụ dịch thuật cục bộ trực tiếp trên CPU chủ mà không cần phải sao chép dữ liệu qua lại giữa GPU hoặc NPU. Điều này giúp giảm đáng kể độ phức tạp! 🔄 2. Độ Trễ Thấp & Bảo Mật Cao: Xử lý các khối lượng công việc AI trực tiếp trên CPU loại bỏ độ trễ của trình điều khiển và bus PCI Express, đảm bảo các đánh giá AI riêng tư và tức thì. An toàn và nhanh chóng! 🔒 3. Môi Trường Làm Việc Phổ Biến Cho Nhà Phát Triển: Từ các phiên bản đám mây khổng lồ đến các máy trạm cục bộ, việc chuẩn hóa ACE có nghĩa là mọi hệ thống trên thế giới chạy chip x86 hiện đại sẽ có các công cụ tính toán ma trận AI hiệu suất cao được tích hợp sẵn. Một tiêu chuẩn toàn cầu cho AI! 🌍

Việc chuẩn bị báo cáo nghiên cứu và đặc tả kỹ thuật bao gồm các kiến trúc sư phần cứng và nhà khoa học chủ chốt từ cả hai công ty, bao gồm Stuart Biles, Brian Thompto, Michael Estlick, Eric Schwarz, Thomas Fox, Gabriel Loh, Marius Evers và Michael Clark từ AMD, cùng với Alexander Heinecke, Pradeep Dubey và Ido Ouziel từ Intel. Với việc tích hợp trình biên dịch, trình gỡ lỗi và trình phân tích hiệu suất ban đầu đang được tiến hành, hệ sinh thái x86 đang nhanh chóng điều chỉnh để biến phép toán ma trận mật độ cao trở nên bản địa và phổ biến như phép cộng vô hướng tiêu chuẩn. Đây là một bước tiến đột phá, mở ra kỷ nguyên mới cho AI trên CPU! 🌟