Sophon PFG-1: Chip AI 3D nguyên khối với 330GB DRAM trên die, không cần HBM! 💡
* Nguồn: Whitepaper của PhantaField * Các bên liên quan: PhantaField Inc., NVIDIA (Rubin R200), AMD (Instinct MI455X)
---
Tổng quan điều hành
Theo whitepaper mới đây từ PhantaField, PhantaField PFG-1 "Sophon" là một die xử lý AI thống nhất cho cả huấn luyện và suy luận, được xây dựng trên nền tảng 3D nguyên khối (Monolithic 3D - M3D) 2D Transition-Metal Dichalcogenide (TMD) 32 lớp với diện tích 750 mm². Bằng cách nhúng trực tiếp DRAM gain-cell 2T0C 2D-TMD có khả năng đọc-ghi hoàn toàn lên die, Sophon loại bỏ hoàn toàn bộ nhớ băng thông cao (HBM) ngoài. Các trọng số, gradient và trạng thái tối ưu hóa đều nằm ngay trên die, cho phép cùng một phần silicon thực hiện các tác vụ huấn luyện BF16 và phục vụ suy luận với lô nhỏ (low-batch inference decode) ở tốc độ giới hạn bởi tính toán.
Sức mạnh tính toán được cung cấp bởi Compute-In-Memory (CIM) hoàn toàn kỹ thuật số: mỗi trong số 131.072 ô (tile) trên die kết hợp một bộ khuếch đại cảm biến nhị phân với một cây cộng 8 cấp, được điều khiển bởi luồng kích hoạt bit-serial 500 MHz. Kiến trúc này mang lại 4.200 TFLOPS FP8 và 2.100 TFLOPS BF16 trong diện tích 7,5 cm².
---
Đột phá kiến trúc & Thông số kỹ thuật
1. Nền tảng Monolithic 3D (M3D) & 2D-TMD
Kiến trúc vật lý được xây dựng trên lớp nền CMOS Silicon khối 28 nm (chứa bộ điều khiển, gốc NoC, I/O host và PHY PCIe/NVLink) được phủ bởi 64 lớp xen kẽ (tổng chiều cao stack khoảng 22 µm):
* 32 Tầng Logic: Các mảng MAC CMOS 2D-TMD (n-FET MoS₂ và p-FET WSe₂) chạy ở tần số 1,2 GHz ($V_{dd} = 0.6\text{ V}$). * 32 Tầng Bộ nhớ: Các ngân hàng DRAM 2T0C 2D-TMD được đặt trực tiếp phía trên các tầng logic tương ứng. * Monolithic Inter-tier Vias (MIVs): Một lưới các kết nối xuyên tầng với bước siêu nhỏ (90 nm) cung cấp các đường bit-line/word-line/sense thẳng đứng trực tiếp giữa các MAC và ô nhớ, bỏ qua Network-on-Chip (NoC) để truyền trọng số.
> Tại sao lại là 2D TMD? Công nghệ TMD CMOS (MoS₂ / WSe₂) cho phép phát triển tương thích với quá trình chế tạo BEOL ở nhiệt độ $\le 450^\circ\text{C}$, độ dày kênh ở cấp độ nguyên tử giúp loại bỏ rò rỉ kênh ngắn, và mật độ dòng điện tắt (off-current density) cực thấp ($J_{off} \approx 10^{-15}\text{ A/µm}$). Đây là yếu tố then chốt cho DRAM trên die.
2. DRAM Gain-Cell 2T0C: Bí mật "Không HBM"
Ô nhớ 2T0C (2-Transistor, 0-Capacitor) lưu trữ điện tích trên điện dung cổng ký sinh của Transistor Đọc (RT) cộng với điện dung tiếp giáp của cực thoát Transistor Ghi (WT) (khoảng 3.0 fF tổng cộng).
* Đọc không phá hủy (Non-Destructive Reads): RT cảm nhận trạng thái nút lưu trữ như một điện áp cổng, không rút điện tích. Điều này loại bỏ chu trình ghi lại (restore) cần thiết trong DRAM 1T1C thông thường, cho phép đọc liên tục mỗi chu kỳ. * Giữ dữ liệu & Làm mới (Retention & Refresh): Dòng tắt cực thấp của TMD ($I_{off} \approx 0.5\text{ fA}$ mỗi ô) mang lại thời gian giữ dữ liệu 1,8 giây ở 25°C. Sophon làm mới với tần số 1.0 Hz, tiêu thụ một lượng điện năng không đáng kể là 0,08 W cho toàn bộ mảng 330 GB.
3. Compute-In-Memory (CIM) hoàn toàn kỹ thuật số
Sophon tránh được các nhược điểm về ADC/DAC và độ chính xác của CIM analog/RRAM bằng cách sử dụng kiến trúc hoàn toàn kỹ thuật số:
* Cấu trúc ô (Tile Structure): 131.072 ô trên mỗi die. Mỗi ô là một mảng con DRAM 256×256 kết hợp với một bộ khuếch đại cảm biến nhị phân và một cây cộng nhị phân 8 cấp. * Thực thi Bit-Serial: Các kích hoạt được truyền dưới dạng các sóng 1-bit tuần tự ở 500 MHz (16 chu kỳ cho BF16, 8 chu kỳ cho FP8). * Luồng dữ liệu (Dataflow): Thực thi trọng số cố định (weight-stationary). Trọng số không di chuyển hay đi qua NoC; chúng được đọc cục bộ qua các MIV thẳng đứng. NoC lưới 2D ngang (bisection tổng hợp 18.560 TB/s) chỉ mang các kích hoạt và tổng bán phần.
---
Phân tích hiệu năng & so sánh
PhantaField tự tin công bố Sophon PFG-1 vượt trội so với các đối thủ hàng đầu hiện nay:
| Thông số | PFG-1 "Sophon" | NVIDIA Rubin (R200) | AMD Instinct MI455X | | :--- | :--- | :--- | :--- | | Tiến trình | 28 nm Si + 2D-TMD M3D | TSMC N3 (HBM4) | TSMC N3 (HBM4) | | Dung lượng bộ nhớ | 330 GB (On-die 2T0C) | 288 GB HBM4 | 432 GB HBM4 | | Băng thông trọng số | 4.200 TB/s (Trong ô) | 22 TB/s | 19,6 TB/s | | Tính toán đỉnh (FP8) | 4.200 TFLOPS | 17.500 TFLOPS | 20.000 TFLOPS | | Tính toán đỉnh (BF16) | 2.100 TFLOPS | 8.750 TFLOPS | 10.000 TFLOPS | | Năng lượng / FP8 MAC | 0,310 pJ | ~0,90 pJ (bao gồm HBM) | ~0,90 pJ (bao gồm HBM) | | Tốc độ giải mã 80B (B=1) | 14.438 token/giây (FP8) | ~300 token/giây (giới hạn HBM) | ~270 token/giây (giới hạn HBM) | | Token / Watt (80B) | 38,7 token/giây/W | ~0,22 token/giây/W | ~0,22 token/giây/W | | Huấn luyện 80B (B=1) | 2.406 token/giây (BF16) | ~880 token/giây (giới hạn HBM) | ~785 token/giây (giới hạn HBM) | | Điện năng chờ (80B Resident) | ~3 W | ~12–18 W (Tự làm mới) | ~12–18 W (Tự làm mới) | | BOM phần cứng | $8.358 | ~$82.800 | ~$96.700 |
1. Suy luận (Inference/Serving)
Vì các trọng số nằm trong ô (in-tile), quá trình giải mã bị giới hạn bởi tính toán ngay cả ở kích thước lô $B=1$. Điều này là một lợi thế lớn:
* Mô hình 80B: Một mô hình FP8 80 tỷ tham số (80 GB) có thể vừa vặn với 250 GB khoảng trống để mở rộng bộ đệm Key-Value (KV), các mô hình nháp suy đoán, hoặc bộ đệm prefill ngữ cảnh dài. * Khả năng mở rộng 1/N: Không giống như các GPU bị giới hạn bởi HBM, nơi thông lượng giải mã bị tắc nghẽn bởi băng thông bộ nhớ, thông lượng giải mã của Sophon tỷ lệ thuận với khả năng tính toán: $$\text{tokens/s} = \frac{1.155\text{ GFLOPS}}{N_{\text{params}}}$$ Điều này mang lại 14.438 token/giây cho giải mã FP8 80B ở B=1, cao hơn khoảng 48x đến 53x so với Rubin hoặc MI455X. Một con số thật ấn tượng! 🚀
2. Phân tích kinh tế (BOM & TCO)
* Không cần giấy phép IP DRAM: DRAM 2T0C được PhantaField tự triển khai hoàn toàn bằng các transistor TMD tương tự được sử dụng trong mảng MAC – đây là thiết kế ô nhớ độc quyền của PhantaField. * BOM phần cứng: $8.358 mỗi die, làm cho nó rẻ hơn khoảng 9,9x đến 11,6x so với các hệ thống flagship của NVIDIA hoặc AMD. Đây là một lợi thế cạnh tranh khổng lồ về chi phí! 💰
---
Kết luận
PhantaField Sophon PFG-1 đại diện cho một sự thay đổi mô hình trong việc tăng tốc AI. Bằng cách thay thế HBM ngoài bằng DRAM 2T0C trên die với khả năng giữ dữ liệu cao, nó giải quyết vấn đề "memory wall" với một phần nhỏ chi phí và điện năng. Nếu những tuyên bố này là chính xác và có thể được xác minh trong thực tế, Sophon PFG-1 có thể thực sự định hình lại tương lai của hạ tầng AI. Chúng ta hãy cùng chờ xem những thử nghiệm thực tế! 🤔