Một bản ghi nhớ nội bộ gửi tới hơn 6.000 nhân viên của Meta đã hé lộ một bước chuyển dịch quan trọng trong cách gã khổng lồ mạng xã hội tiếp cận và quản lý tài nguyên trí tuệ nhân tạo. Kể từ năm 2027, Meta sẽ chấm dứt giai đoạn chạy đua sử dụng token vô tội vạ (thường gọi là "tokenmaxxing") và chuyển sang quản lý chi phí cực kỳ khắt khe thông qua một hệ thống quản trị tập trung mang tên AI Gateway.
---
Từ thời kỳ "đốt tiền" thử nghiệm đến "bão hòa chi phí"
Trong những năm qua, khi các mô hình ngôn ngữ lớn (LLM) bùng nổ, các bộ phận phát triển sản phẩm tại Meta liên tục được khuyến khích tích hợp AI vào mọi ngóc ngách của ứng dụng — từ Facebook, Instagram cho đến WhatsApp và các hệ thống phụ trợ. Giai đoạn này được mô tả là thời kỳ "tokenmaxxing", nơi các nhóm kỹ sư đo lường sự thành công và tiến độ bằng số lượng token mà hệ thống của họ tiêu thụ được.
Tuy nhiên, hậu quả của làn sóng này là chi phí vận hành hạ tầng AI nội bộ của Meta đã phình to tới mức khổng lồ, ước tính sẽ sớm chạm ngưỡng hàng tỷ USD mỗi năm chỉ riêng cho việc tiêu thụ tài nguyên nội bộ.
Giám đốc Công nghệ (CTO) của Meta, Andrew Bosworth (thường được biết đến với biệt danh Boz), đã thẳng thắn phát biểu trong bản ghi nhớ gửi nhân viên:
> "Mọi chuyển động không đồng nghĩa với tiến bộ, và lượng token tiêu thụ hoàn toàn không phải là thước đo cho tầm ảnh hưởng hay tác động thực tế của bất kỳ sản phẩm nào."
---
AI Gateway và cơ chế quản trị token từ năm 2027
Để giải quyết triệt để bài toán lãng phí hạ tầng, Meta đang xây dựng và chuẩn bị triển khai nền tảng AI Gateway — một trang tổng quan (central dashboard) quản lý tập trung từ năm 2027. Dưới đây là các trụ cột chính trong cơ chế siết chặt quản lý mới:
1. Phân bổ ngân sách token nghiêm ngặt (Allocations & Budgets): Các nhóm phát triển sẽ không còn quyền truy cập tài nguyên tính toán vô hạn. Mỗi dự án/bộ phận sẽ được cấp một "hạn ngạch" token cố định dựa trên ROI (tỷ suất hoàn vốn) thực tế mang lại cho doanh nghiệp. 2. Dashboard giám sát thời gian thực: AI Gateway cung cấp số liệu chi tiết đến từng mili-giây về lượng tài nguyên tính toán, băng thông và số lượng token mà mỗi tính năng AI đang tiêu hao, giúp quản lý phát hiện ngay các đoạn code hoạt động kém hiệu quả hoặc các vòng lặp vô nghĩa. 3. Đánh giá giá trị thực chất: Thay vì tự hào vì mô hình chạy được nhiều lượt sinh văn bản/hình ảnh, các đội ngũ kỹ sư phải chứng minh được các lượt tương tác AI đó giúp tăng tỷ lệ giữ chân người dùng (retention rate), doanh thu quảng cáo, hoặc cải thiện trải nghiệm cốt lõi của ứng dụng.
---
Ý nghĩa đối với cộng đồng phát triển AI toàn cầu
Bước đi này của Meta phản ánh một thực tế lớn hơn trong toàn ngành công nghiệp công nghệ: Giai đoạn thử nghiệm AI hào phóng bằng mọi giá đã khép lại. Các doanh nghiệp lớn, bao gồm cả những ông lớn sở hữu chuỗi siêu máy tính đồ sộ nhất thế giới, bắt buộc phải tối ưu hóa tài nguyên tính toán (Tokenomics).
Đối với các nhà phát triển và kiến trúc sư AI, bài học từ Meta rất rõ ràng: * Tập trung vào hiệu năng thực tế thay vì quy mô: Một agent nhỏ gọn, được tinh chỉnh tốt và sử dụng ít token sẽ luôn thắng thế một agent cồng kềnh tiêu tốn hàng triệu token vô ích. * Xây dựng tư duy tối ưu hóa hạ tầng ngay từ đầu: Sử dụng các kỹ thuật như Multi-Token Prediction, nén context, hoặc định tuyến mô hình (router) linh hoạt để chỉ dùng các mô hình lớn (như Llama 405B) khi thực sự cần thiết, còn lại sử dụng mô hình nhỏ hơn (Llama 8B/70B). * Quản trị là chìa khóa: Các công ty triển khai AI agent ở quy mô lớn sẽ cần những giải pháp tương tự như "AI Gateway" của Meta để kiểm soát rủi ro tài chính trước khi hệ thống AI tự vận hành làm cạn kiệt ngân sách hạ tầng.
Bằng cách tiên phong chuyển đổi từ "Tokenmaxxing" sang "Token managing", Meta không chỉ tự cứu lấy biên lợi nhuận của mình mà còn đặt ra một tiêu chuẩn vận hành thực tế mới cho cuộc đua Agentic AI sắp tới.