Trước đây, sự sẵn có của GPU luôn được xem là rào cản lớn nhất đối với AI. Nhưng giờ đây, khi các hệ thống AI tác nhân (agentic AI) ngày càng phát triển, từ những câu hỏi-đáp đơn giản sang các quy trình nhiều bước phức tạp, nút thắt cổ chai đã dịch chuyển một cách đáng ngạc nhiên. Thay vì sức mạnh tính toán, giờ đây chính quản lý ngữ cảnh mới là thách thức hàng đầu!
Theo Jeff Harthorn, Trưởng nhóm Nghiên cứu Ứng dụng AI tại Solidigm, “Câu hỏi của năm 2026 chính là: Tại sao quản lý ngữ cảnh lại trở thành nút thắt chính, hơn cả sự sẵn có của GPU hay hiệu quả tính toán?” Ông giải thích, “GPU đã rẻ đi đáng kể trên mỗi FLOP. Kiến trúc mô hình và công cụ phục vụ suy luận cũng hiệu quả hơn rất nhiều. Nhưng điều tăng trưởng nhanh hơn tất cả những yếu tố đó chính là ngữ cảnh. Trạng thái liên tục cần được duy trì giữa các phiên còn tăng nhanh hơn cả ngữ cảnh tự thân.” 🤯
Hiện tượng này xuất hiện khi cửa sổ ngữ cảnh (context windows) mở rộng mạnh mẽ, khiến mỗi đầu vào lớn hơn rất nhiều so với trước. Các hệ thống AI tác nhân còn liên kết hàng chục, thậm chí hàng trăm lời gọi mô hình, mỗi lời gọi đều tạo ra trạng thái cần được theo dõi. Thêm vào đó, các doanh nghiệp đang yêu cầu trạng thái suy luận phải được duy trì qua nhiều phiên để phục vụ mục đích kiểm toán, quản trị và tái sử dụng.
Ace Stryker, Giám đốc Tiếp thị AI và Hệ sinh thái tại Solidigm, nhấn mạnh: “Ba xu hướng này đang diễn ra đồng thời, đẩy dữ liệu ngữ cảnh và bộ nhớ ngữ cảnh lên tầm cao mới nhanh hơn nhiều so với những gì chúng ta từng chứng kiến.” 📈
Giải pháp đang hình thành là một tầng ngữ cảnh chuyên biệt, nằm giữa bộ nhớ GPU và hệ thống lưu trữ mạng dung lượng lớn. Đây là một lớp bộ nhớ flash hiệu suất cao, mật độ cao, được thiết kế đặc biệt để chứa và phục vụ bộ nhớ đệm khóa-giá trị (KV cache) – dữ liệu suy luận cho phép các mô hình duy trì và tái sử dụng ngữ cảnh, cùng với dữ liệu truy xuất – tất cả với tốc độ suy luận.
Nvidia đã chính thức hóa kiến trúc này dưới thuật ngữ CMX. Các công ty lưu trữ như Solidigm đang phát triển các sản phẩm SSD được tối ưu hóa cho khối lượng công việc này.
Stryker cảnh báo: “Lưu trữ chưa bao giờ là ưu tiên hàng đầu khi các tổ chức lên kế hoạch xây dựng hạ tầng doanh nghiệp. Nó thường chỉ là một chi phí nhỏ so với tính toán, một mặt hàng thiết yếu. Bạn chỉ cần tìm mức giá thấp nhất trên mỗi gigabyte là xong. Nhưng giờ đây, nếu hệ thống lưu trữ của bạn không đủ tốt, ROI sẽ bị ảnh hưởng, tác động trực tiếp đến lợi nhuận của bạn.” Điều này cho thấy tầm quan trọng ngày càng tăng của việc lựa chọn giải pháp lưu trữ phù hợp. 💰
🤔 Vì Sao Suy Luận AI Cần Kiến Trúc Lưu Trữ Khác Biệt So Với Huấn Luyện?
Kiến trúc lưu trữ mà các hệ thống AI đang dựa vào ngày nay phần lớn được kế thừa từ quy trình huấn luyện. Huấn luyện là một quy trình tuần tự, bị chi phối bởi thao tác ghi, với dữ liệu di chuyển theo các khối lớn đến và đi từ bộ nhớ đối tượng dung lượng lớn. Cấu trúc tầng (với bộ nhớ băng thông cao trên GPU, NVMe nhanh trong máy chủ và lưu trữ dung lượng lớn qua mạng) phục vụ tốt cho trường hợp sử dụng đó.
Tuy nhiên, suy luận lại là một “con thú” hoàn toàn khác. Dấu hiệu I/O của nó là chi tiết, nhạy cảm với độ trễ và ngày càng có trạng thái. Dữ liệu KV cache và dữ liệu truy xuất đều có các kiểu truy cập riêng biệt, nhưng cả hai đều cần được phục vụ nhanh chóng và tái sử dụng qua nhiều tương tác. Chúng không nằm gọn gàng trong bộ nhớ băng thông cao của GPU (vốn đắt đỏ và bị giới hạn vật lý), cũng không phù hợp với bộ nhớ dung lượng lớn truyền thống (không được thiết kế cho các khối lượng công việc suy luận tích cực).
Harthorn chia sẻ: “Khoảng cách kiến trúc thú vị đối với tôi hiện nay không nằm ở đỉnh hay đáy của ngăn xếp, mà ở ngay chính giữa. Rất nhiều thứ nằm bên dưới HBM của GPU đang được yêu cầu thực hiện những điều mà nó thực sự không được thiết kế để làm, và đó là nơi các công việc hệ thống thú vị nhất đang diễn ra.”
Một trong những triệu chứng rõ ràng nhất của khoảng cách này là việc tính toán lại (recomputation). Trong suy luận, giai đoạn tiền xử lý (pre-fill) sẽ xử lý tất cả ngữ cảnh liên quan đến một phiên nhất định trước khi quá trình tạo token có thể bắt đầu. Khi trạng thái KV cache không có sẵn trong một tầng nhanh và dễ truy cập, hệ thống sẽ tính toán lại – đốt cháy chu kỳ GPU mà không tạo ra giá trị mới nào. 🔥
Harthorn giải thích: “Một phần đáng kể chu kỳ GPU cuối cùng được dùng để ‘tái-tiền xử lý’. Trong suốt quá trình tính toán ngữ cảnh đó, đó có thể là công suất tính toán đang được chi tiêu để tái tạo trạng thái, thay vì thực hiện công việc mới. Khi bạn bắt đầu nhìn vấn đề theo cách đó, việc sử dụng GPU bắt đầu giống như một vấn đề lưu trữ.”
Sự thay đổi quan điểm này đang thúc đẩy sự quan tâm mới đến một chỉ số mượn từ lĩnh vực mạng: goodput – hay số lượng token hữu ích trên mỗi đô la, thay vì chỉ là tổng số token trên mỗi đô la. Đây là một cách tiếp cận mang tính ‘hiệu quả’ hơn rất nhiều! 📊
🛠️ Tầng Bộ Nhớ Ngữ Cảnh AI Hoạt Động Như Thế Nào?
Phản ứng của ngành công nghiệp đang hình thành cấu trúc. Một tầng mới đang xuất hiện giữa bộ nhớ GPU và lưu trữ mạng truyền thống, được thiết kế đặc biệt để chứa và phục vụ ngữ cảnh suy luận. Lớp này khác biệt hoàn toàn với các ổ đĩa bên trong máy chủ GPU (G3) và máy chủ lưu trữ qua mạng (G4), được thiết kế để cung cấp dữ liệu ngữ cảnh trở lại các bộ tăng tốc nhanh nhất có thể.
Stryker khẳng định: “Nếu bạn đang xây dựng một trung tâm dữ liệu bắt đầu từ nửa cuối năm nay, hoặc đầu năm tới, bạn không thể chỉ nghĩ về lưu trữ ở hai nơi. Lưu trữ phải tồn tại ở ít nhất ba nơi để xử lý tầng bộ nhớ ngữ cảnh, và điều đó có thể sẽ là một yếu tố cố định trong cách hạ tầng được xây dựng trong tương lai.” 🌐
Điều này tương tự như sự xuất hiện của lưu trữ đối tượng (object storage) như một danh mục độc lập, vốn không tồn tại cho đến khi có đủ khối lượng công việc cần đến nó. Và một khi nó xuất hiện, nó đã phát triển các nguyên tắc, SLA, mô hình chi phí và một hệ sinh thái nhà cung cấp riêng.
Harthorn nhận định: “Tầng ngữ cảnh có vẻ như đang đi theo một quỹ đạo tương tự. Áp lực về khối lượng dữ liệu đang tạo ra danh mục này, chứ không phải lộ trình của bất kỳ nhà cung cấp nào.”
Đối với các nhà lãnh đạo hạ tầng, điều này có nghĩa là phải chủ động lên kế hoạch cho tầng mới này, thay vì coi đó là tùy chọn. Triển khai thêm bộ nhớ NAND ở lớp này giúp giảm sự phụ thuộc vào DRAM – vốn đắt hơn nhiều lần trên mỗi gigabyte và bị hạn chế về cả khả năng cung cấp lẫn giới hạn nhiệt.
Stryker bổ sung: “Về hiệu quả đầu tư, bạn sẽ chi ít tiền hơn nếu bạn dựa vào lớp SSD theo cách mà Nvidia hiện đang khuyến nghị và quy định cho rất nhiều trường hợp sử dụng.” Một lời khuyên cực kỳ giá trị cho các doanh nghiệp! ✅
⚡ Flash Cần Đạt Được Gì Để Hỗ Trợ Suy Luận AI?
Tham gia hiệu quả vào ngăn xếp suy luận đặt ra những yêu cầu mới đối với công nghệ SSD:
* Độ trễ cực đại (Tail latency) – hiệu suất tệ nhất của một ổ đĩa – phải có thể dự đoán được, chứ không chỉ nhanh ở mức trung bình. Một hệ thống điều phối phân bổ tài nguyên GPU dựa trên thời gian phản hồi lưu trữ dự kiến không thể chấp nhận những sự chậm trễ bất ngờ kéo dài vài giây. Hiệu suất nhất quán, có thể quan sát được quan trọng hơn nhiều so với thông lượng đỉnh ở đây. * Ngoài độ trễ, mật độ trở thành một mối quan tâm quan trọng, đặc biệt ở quy mô siêu lớn (hyperscale). Trong các trung tâm dữ liệu nơi năng lượng, chứ không phải chi phí, là ràng buộc chính, watts trên mỗi petabyte trở thành chỉ số hoạt động. Bộ nhớ NAND cổng nổi (floating gate NAND), phương pháp sản xuất cốt lõi trong các sản phẩm của Solidigm, rất phù hợp với tính toán đó. * Tích hợp mạng thông qua NVMe over Fabrics, RDMA và hỗ trợ CXL trong tương lai cũng rất cần thiết, do giới hạn độ trễ chặt chẽ của các đường ống suy luận tích cực.
Harthorn nhấn mạnh: “Các ổ đĩa phải có đặc tính hiệu suất đáng tin cậy, vượt ra ngoài khía cạnh thông lượng và khả năng truyền càng nhiều dữ liệu càng nhanh càng tốt, như những gì huấn luyện cần. Bây giờ, đó là về khả năng thực hiện điều đó một cách rất nhất quán, theo cách rất dễ quan sát đối với những người vận hành và điều phối các hệ thống này.”
🗺️ Lãnh Đạo AI Doanh Nghiệp Nên Lên Kế Hoạch Cho Tầng Ngữ Cảnh Như Thế Nào?
Các tiêu chuẩn, nguyên thủy phần mềm và thực tiễn tốt nhất đang được thiết lập ngay bây giờ sẽ định hình cách hạ tầng suy luận AI hoạt động trong nhiều năm tới. Solidigm đang tham gia vào quá trình đó thông qua các cơ quan tiêu chuẩn, hợp tác phòng thí nghiệm đối tác và nghiên cứu đã công bố, điều này rất quan trọng chính vì danh mục này vẫn đang trong quá trình hình thành.
Harthorn kết luận: “Câu hỏi thú vị trong vài năm tới không phải là liệu hạ tầng AI có cần thêm sức mạnh tính toán hay không. Mà là liệu nó có thể sử dụng những gì mình đang có hiệu quả hơn hay không. Phần lớn câu trả lời nằm ở tầng đang được xây dựng ngày hôm nay này.” Điều này mở ra một kỷ nguyên mới về tối ưu hóa hiệu suất cho AI. 🚀✨