Khi các doanh nghiệp chuyển đổi khối lượng công việc AI từ giai đoạn thử nghiệm (pilot) sang sản xuất, việc phân phối dữ liệu thường trở thành yếu tố quyết định liệu các hệ thống đó có thể mở rộng một cách đáng tin cậy hay không. Các kiến trúc điểm-tới-điểm kết nối trực tiếp bộ nhớ với điện toán có thể hoạt động tốt trong điều kiện trình diễn, nhưng chúng thường sụp đổ dưới lưu lượng truy cập sản xuất liên tục và đồng thời. Kết quả là các đường dẫn suy luận bị đình trệ, hệ thống RAG bị chậm trễ, GPU không được sử dụng hết công suất và vi phạm SLA – tất cả đều gây ra những hậu quả kinh doanh trực tiếp.
“Các tổ chức vận hành AI thành công khi hạ tầng của họ được xây dựng để xử lý các sự cố trong thế giới thực, chứ không chỉ trong các điều kiện được kiểm soát,” Hunter Smit, Giám đốc cấp cao về tiếp thị sản phẩm tại F5, chia sẻ.
Lưu lượng truy cập sản xuất phơi bày điểm yếu kiến trúc 🚧
Trong một dự án thử nghiệm, việc truyền dữ liệu bị đình trệ chỉ là một sự bất tiện nhỏ. Nhưng trong môi trường sản xuất, tình trạng tương tự lại là một sự cố gián đoạn mà ai đó phải chịu trách nhiệm. Kiến trúc cơ bản thường giống hệt nhau trong cả hai trường hợp: khi một máy khách được kết nối trực tiếp với bộ nhớ, hệ thống trở nên ngày càng mong manh dưới lưu lượng truy cập sản xuất liên tục và đồng thời. Lý do là kết nối trực tiếp đó không có giải pháp khi một node bị lỗi hoặc lưu lượng truy cập tăng đột biến. Từ đó, các yêu cầu thử lại và thời gian chờ bị chồng chất, toàn bộ đường dẫn bị tắc nghẽn ngay tại thời điểm doanh nghiệp đang phụ thuộc vào kết quả đầu ra.
“Các kiến trúc điểm-tới-điểm, nơi máy khách S3 kết nối trực tiếp với bộ nhớ S3, không có khả năng phục hồi,” Paul Pindell, Kiến trúc sư giải pháp chính cho liên minh công nghệ tại F5, nhấn mạnh. “Nếu một node lưu trữ duy nhất bị lỗi, tất cả lưu lượng truy cập đến cụm đó sẽ suy giảm, và trong một số trường hợp, cụm có thể bị lỗi hoàn toàn.”
Vấn đề nằm ở chỗ, các quy trình làm việc AI, bao gồm suy luận dựa trên RAG và AI tác nhân (agentic AI), ngày càng xem bộ nhớ S3 là một thành phần "hạng nhất" trong cụm AI. Tuy nhiên, kết nối mạng giữa bộ nhớ đó và cụm chưa bao giờ được thiết kế để phục vụ việc di chuyển dữ liệu thông lượng cao, không gián đoạn, cần thiết để duy trì hoạt động tối ưu của GPU.
Chi phí thực sự khi đường dẫn dữ liệu đình trệ và GPU kém hiệu quả 💸
“Các nhà lãnh đạo doanh nghiệp có xu hướng định hình hạ tầng AI xoay quanh việc sử dụng GPU, nhưng điều khiến AI khác biệt so với các khối lượng công việc xác định truyền thống là hạ tầng liên tục ảnh hưởng đến các kết quả đó ở mọi tương tác,” Tanu Mutreja, Giám đốc cấp cao về quản lý sản phẩm tại F5, giải thích. “Trong môi trường AI, hạ tầng không còn chỉ là mối quan tâm ở phía back-end. Nó định hình trải nghiệm khách hàng, chất lượng, khả năng phục hồi và chi phí với mỗi giao dịch.”
Hậu quả kinh doanh có thể rất đáng kể. Chẳng hạn, khi các đường dẫn suy luận bị đình trệ, nó trở thành vấn đề về SLA và trải nghiệm khách hàng. Khi hệ thống RAG bị chậm trễ, các mô hình mất quyền truy cập vào ngữ cảnh kịp thời và phù hợp, dẫn đến các phản hồi không chính xác, lỗi thời hoặc "ảo giác" (hallucinated responses). Tất cả những điều này tạo ra rủi ro về vận hành, tuân thủ và uy tín. Đồng thời, các vấn đề về hạ tầng gây ra những sự cố đó cũng có thể làm tăng chi phí bằng cách khiến các tài nguyên GPU đắt đỏ bị nhàn rỗi hoặc kém hiệu quả.
“Khi GPU không được sử dụng hết công suất, đó là dấu hiệu của sự kém hiệu quả trong hạ tầng, làm tăng chi phí đồng thời hạn chế khả năng mở rộng và phản hồi,” Mutreja nói. “Câu hỏi dành cho lãnh đạo là liệu hạ tầng AI end-to-end có liên tục mang lại trải nghiệm AI đáng tin cậy, an toàn, chất lượng cao và được quản lý với chi phí đơn vị bền vững hay không.”
Xây dựng lớp phân phối dữ liệu sẵn sàng cho sản xuất 🛠️
F5 xem việc phân phối dữ liệu là một lớp hạ tầng hạng nhất, thay vì chỉ giả định đường dẫn mạng sẽ hoạt động. Trong khi việc phân phối ứng dụng tối ưu hóa luồng yêu cầu giữa người dùng và ứng dụng, phân phối dữ liệu tối ưu hóa luồng dữ liệu giữa bộ nhớ, mạng và điện toán, bao gồm cả điện toán AI.
Việc biến phân phối dữ liệu thành một lớp hạng nhất có nghĩa là xây dựng ba thuộc tính sau vào đó:
* Khả năng quan sát (Observability): Cung cấp khả năng hiển thị theo thời gian thực về độ trễ, thông lượng và tình trạng luồng dữ liệu. * Khả năng lập trình (Programmability): Cho phép kiểm soát dữ liệu di chuyển như thế nào thông qua định tuyến động, tối ưu hóa lưu lượng, quản lý tốc độ và chuyển đổi dự phòng tự động. * Nhận biết lỗi (Failure-awareness): Xây dựng khả năng phục hồi cho các mạng bị suy giảm, hạn chế băng thông lưu trữ và gián đoạn dịch vụ.
Trong kiến trúc mà F5 đã phát triển cho Dell ObjectScale, F5 BIG-IP nằm giữa ObjectScale và điện toán AI như một điểm kiểm soát có thể lập trình ở rìa lưu trữ.
“Chúng tôi đã thấy các trường hợp mà một cấu hình sai trong lớp điện toán AI thực sự đã gây ra tấn công DDoS hiệu quả lên hạ tầng lưu trữ S3,” Pindell kể. “Không phải theo cách độc hại, mà giống như một khoảnh khắc ‘Ôi không, tôi đã làm gì thế này?’, nhưng nó vẫn khiến việc lưu trữ bị ngừng hoạt động cho toàn bộ tổ chức.”
Việc đặt BIG-IP làm bộ điều khiển phân phối ứng dụng giữa các lớp lưu trữ và điện toán bảo vệ bộ nhớ bằng QoS (Chất lượng dịch vụ), giới hạn tốc độ và giới hạn kết nối, giữ cho nó linh hoạt và hoạt động dưới tải trọng đó. Thử nghiệm được xác nhận bởi SecureIQLab đã khẳng định rằng khả năng bảo vệ này không làm giảm thông lượng, điều quan trọng về mặt kiến trúc, Pindell nói.
“Việc duy trì, và thậm chí cải thiện, thông lượng là điều bắt buộc,” ông giải thích. “Đó là điều cho phép bạn xếp chồng các chức năng cấp cao hơn, khả năng phục hồi và bảo mật nâng cao, mà không phải hy sinh hiệu suất để đạt được điều đó.”
Sự phức tạp gia tăng của AI lai và đa đám mây 🌐
Các triển khai AI trong môi trường đám mây lai và đa đám mây phải đối mặt với thách thức phân phối dữ liệu lớn hơn nữa do tính không đồng nhất. Nói cách khác, dữ liệu đi qua các môi trường này phải đối phó với các chính sách không nhất quán, kiểm soát bảo mật, hệ thống nhận dạng, yêu cầu quản trị, khả năng hiển thị rời rạc và các ranh giới lỗi riêng biệt.
Quản lý lưu lượng có thể lập trình và khả năng quan sát cùng giải quyết sự phức tạp này. Khả năng quan sát cung cấp một cái nhìn thống nhất về tình trạng ứng dụng, mạng và hạ tầng trên các môi trường vốn bị ngắt kết nối. Quản lý lưu lượng có thể lập trình sử dụng những thông tin chi tiết đó để định tuyến, cân bằng tải và chuyển đổi dự phòng lưu lượng một cách thông minh theo thời gian thực. Cùng nhau, chúng tạo ra một hệ thống phản hồi vòng kín, thực thi các chính sách nhất quán, cải thiện khả năng phục hồi trên các miền lỗi và đảm bảo phân phối dữ liệu AI đáng tin cậy, hiệu suất cao bất kể ứng dụng, dữ liệu hay người dùng cư trú ở đâu.
Điều gì phân biệt AI sản xuất với các dự án thử nghiệm kéo dài? 🤔
Các tổ chức vượt qua các dự án thử nghiệm kéo dài chia sẻ một kỷ luật kỹ thuật cụ thể, Smit nói.
“Họ là những người hướng tới thiết kế sản xuất với trạng thái lỗi là bình thường, chứ không phải là ngoại lệ,” ông giải thích. “Họ sẽ giả định độ trễ, tắc nghẽn và gián đoạn cục bộ sẽ xảy ra. Và họ xây dựng một đường dẫn dữ liệu có khả năng quan sát và nhận biết lỗi đủ để hấp thụ chúng, với các biện pháp giảm thiểu rõ ràng cho mọi điều kiện suy giảm thay vì hy vọng mạng sẽ ổn định.”
Các tổ chức bị mắc kẹt trong các dự án thử nghiệm kéo dài vẫn đang tối ưu hóa cho kết quả phòng thí nghiệm hoàn hảo và chỉ phát hiện ra khoảng cách với thế giới thực khi khối lượng công việc đi vào hoạt động. Vấn đề không nằm ở chất lượng mô hình hay số lượng GPU, mà là liệu lớp phân phối dữ liệu có được thiết kế với sự tỉ mỉ tương tự như điện toán hay không.
“Các nhóm cần hiểu rằng một mạng lưới trong thế giới thực hoạt động rất khác so với một mạng lưới phòng thí nghiệm được tối ưu hóa,” Pindell nói. “Họ cần một kế hoạch giảm thiểu cho các trạng thái lỗi và tắc nghẽn hiệu suất mà họ sẽ gặp phải trong sản xuất.”