Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 8 phút đọc

Apple Phá Vỡ Giới Hạn Bộ Nhớ AI Trên Thiết Bị: Kiến Trúc Mới Từ NAND Flash Có Gì Đột Phá? 🚀💾🍎

Apple đã công bố kiến trúc AI đột phá tại WWDC26, cho phép các mô hình 20 tỷ tham số chạy trên thiết bị bằng cách lưu trữ trọng số trong bộ nhớ flash NAND thay vì DRAM, mở ra kỷ nguyên mới cho AI cục bộ! 🚀📱

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc venturebeat.com

Các mô hình AI trên thiết bị từ lâu đã bị giới hạn về kích thước do toàn bộ tập trọng số phải nằm trong bộ nhớ DRAM, khiến số lượng tham số thực tế thấp hơn đáng kể so với các triển khai phía máy chủ. Điều này buộc các kiến trúc sư doanh nghiệp phải lựa chọn giữa các mô hình mạnh mẽ phụ thuộc vào đám mây và các mô hình cục bộ hạn chế. Tuy nhiên, tại WWDC26, Apple đã công bố các mô hình nền tảng thế hệ thứ ba (AFM 3) có khả năng phá vỡ rào cản này bằng cách chuyển toàn bộ tập trọng số ra khỏi DRAM. 💡

Dòng AFM 3 được phát triển với sự hợp tác của Google, bao gồm năm mô hình: hai mô hình trên thiết bị và ba mô hình phía máy chủ, tất cả đều hoạt động trong ranh giới Private Cloud Compute của Apple. Các mô hình phía máy chủ, bao gồm AFM 3 Cloud Pro cho các tác vụ sử dụng công cụ AI và suy luận phức tạp, chạy trên GPU Nvidia trong Google Cloud. Kiến trúc trên thiết bị là độc quyền của Apple, với AFM 3 Core Advanced là một mô hình 20 tỷ tham số lưu trữ trọng số trong bộ nhớ flash NAND thay vì DRAM.

"Thay vì ép buộc toàn bộ mô hình vào DRAM, mô hình hoàn chỉnh được lưu trữ trong bộ nhớ flash," nhóm nghiên cứu của Apple đã viết. "Vì băng thông NAND-sang-DRAM quá chậm để hoán đổi trọng số từng token một, như các mô hình MoE tiêu chuẩn yêu cầu, AFM 3 Core Advanced đưa ra các quyết định định tuyến cho mỗi lời nhắc."

Kiến Trúc Hoạt Động Như Thế Nào? 🤔

Giới hạn bộ nhớ mà Apple đang giải quyết là vấn đề mà mọi nhà phát triển AI cục bộ đều gặp phải.

"Bạn không thể đặt 20 tỷ tham số vào RAM với bất kỳ độ chính xác hợp lý nào," Awni Hannun, một nhà nghiên cứu tại Anthropic và cựu nhà khoa học nghiên cứu của Apple, đã chia sẻ trên X. "Để làm được điều đó, họ đang sử dụng kiến trúc khá 'ngoại lai' theo tiêu chuẩn ngày nay. Một mô hình nhỏ sẽ dự đoán từ truy vấn (hoặc lời nhắc) những chuyên gia nào cần tải từ NAND vào RAM."

Cơ chế dự đoán và tải này bao gồm ba thành phần riêng biệt, mỗi thành phần được điều khiển bởi các hạn chế phần cứng của chip tiêu dùng:

* Toàn bộ tập trọng số 20 tỷ nằm trong bộ nhớ flash, không phải DRAM. AFM 3 Core Advanced lưu trữ toàn bộ tập tham số của nó trong bộ nhớ flash NAND thay vì bộ nhớ hoạt động. Các triển khai trên thiết bị tiêu chuẩn yêu cầu toàn bộ mô hình phải nằm gọn trong DRAM, đây là yếu tố giới hạn số lượng tham số của chúng. Cách tiếp cận của Apple, được gọi là Instruction-Following Pruning (IFP) và được phát triển bởi các nhà nghiên cứu của họ, coi flash là 'ngôi nhà vĩnh viễn' của mô hình và DRAM là bộ đệm làm việc cho bất kỳ chuyên gia nào mà một lời nhắc cụ thể yêu cầu.

* Định tuyến chuyên gia xảy ra một lần cho mỗi lời nhắc, không phải mỗi token. Trong một mô hình Mixture of Experts (MoE) thông thường, một bộ định tuyến sẽ chọn các chuyên gia khác nhau cho mỗi token được tạo ra – điều này đòi hỏi sự di chuyển trọng số liên tục giữa flash và DRAM với tốc độ suy luận. Băng thông NAND-sang-DRAM không thể hỗ trợ điều đó. AFM 3 Core Advanced định tuyến một lần tại thời điểm lời nhắc, chọn một tập hợp chuyên gia cố định, tải nó vào DRAM cùng với các chuyên gia chia sẻ luôn hoạt động, và tạo ra tất cả các token từ cùng một cấu hình đó. "Sự khác biệt chính so với một MoE điển hình là bạn làm điều này một lần cho mỗi truy vấn và sau đó tạo ra tất cả các token với cùng các chuyên gia," Hannun viết.

* Số lượng tham số hoạt động mở rộng từ 1 tỷ đến 4 tỷ tùy thuộc vào độ phức tạp của tác vụ. Thay vì chạy một kích thước mô hình cố định cho mỗi yêu cầu, AFM 3 Core Advanced điều chỉnh số lượng tham số mà nó kích hoạt dựa trên yêu cầu của tác vụ – 1 tỷ cho các hoạt động đơn giản hơn, lên đến 4 tỷ cho các tác vụ khó hơn, tất cả đều được rút ra từ kho 20 tỷ tham số trong bộ nhớ flash.

Apple Đã Tiết Lộ Và Chưa Tiết Lộ Điều Gì? 🕵️‍♀️

Tài liệu kiến trúc chi tiết về thiết kế bộ nhớ và cơ chế kích hoạt thưa thớt. Tuy nhiên, nó ít nói về các hạn chế triển khai thực tế.

Các công cụ phân tích hiệu suất của Apple hiển thị thời gian nhưng không có các chỉ số quyết định khả năng triển khai thực tế. "Năng lượng, băng thông bộ nhớ, nhiệt độ? Không có trong tài liệu," Marco Abis, người đang phát triển Ziraph, một công cụ phân tích cho AI cục bộ trên chip Apple silicon, đã đăng trên X. "Đây là một khoảng trống đáng chú ý, vì những yếu tố đó quyết định hầu hết hiệu suất trên thiết bị."

Abis cũng không tìm thấy tuyên bố nào trong tài liệu của Apple – từ tài liệu Core AI, tài liệu Foundation Models hay bài đăng bảo mật Private Cloud Compute – về việc khi nào một yêu cầu trên thiết bị được chuyển sang đám mây một cách minh bạch, hoặc liệu việc định tuyến đó có hiển thị cho nhà phát triển hay người dùng hay không. Đối với các doanh nghiệp cần tài liệu hóa nơi suy luận diễn ra, đây là một vấn đề tuân thủ trực tiếp.

Không phải tất cả thông tin đều có sẵn hiện tại. Apple đã chỉ ra rằng một báo cáo kỹ thuật đầy đủ với các điểm chuẩn sẽ được công bố vào cuối mùa hè này.

Điều Này Có Ý Nghĩa Gì Với Các Kiến Trúc Sư Doanh Nghiệp? 🏢

Các ngành công nghiệp được quản lý đang đánh giá việc triển khai AI tác nhân giờ đây có một quyết định kiến trúc cụ thể để đưa ra:

* Giới hạn DRAM cho các tác nhân trên thiết bị đã thay đổi. Các doanh nghiệp đang đánh giá các tác nhân cần chạy mà không cần vòng lặp đám mây giờ đây có một lựa chọn cục bộ 20 tỷ tham số để đánh giá. Hạn chế chuyển từ khả năng mô hình sang phần cứng thiết bị. * Ranh giới riêng tư/đám mây giờ đây là một quyết định kiến trúc, không phải mặc định. Các yêu cầu đơn giản hơn sẽ ở trên thiết bị; các tác vụ tác nhân phức tạp sẽ được định tuyến đến AFM 3 Cloud Pro trên Private Cloud Compute. Apple chưa công khai chi tiết khi nào một yêu cầu được chuyển sang đám mây hoặc liệu việc định tuyến đó có hiển thị cho nhà phát triển hay không – một khoảng trống làm phức tạp các quyết định chính sách cho các tổ chức cần tài liệu hóa nơi suy luận diễn ra. * Tầng máy chủ tác nhân phụ thuộc vào Google Cloud. AFM 3 Cloud Pro chạy trên GPU Nvidia trong Google Cloud. Đảm bảo Private Cloud Compute bảo vệ quyền riêng tư dữ liệu, nhưng nó không loại bỏ sự phụ thuộc vào Google Cloud cho suy luận phía máy chủ.

AFM 3 Core Advanced mang đến cho các doanh nghiệp một tùy chọn 20 tỷ tham số trên thiết bị mà trước WWDC26 chưa từng tồn tại. Liệu nó có thể triển khai ở quy mô lớn hay không phụ thuộc vào những câu trả lời mà Apple chưa công bố. Những chi tiết đó dự kiến sẽ có trong báo cáo kỹ thuật mùa hè.