Sakana AI, một startup AI đang phát triển nhanh chóng, mới đây đã ra mắt Fugu – một hệ thống điều phối đa tác nhân (multi-agent orchestration system) hứa hẹn mang lại hiệu năng AI tiên phong thông qua một API duy nhất, tương thích với OpenAI. Đây là một bước tiến đáng chú ý, đặc biệt trong bối cảnh các mô hình AI độc quyền đang đối mặt với nhiều thách thức.
Fugu, được đặt tên theo tiếng Nhật là "cá nóc", được thiết kế dành cho các nhà phát triển, doanh nghiệp và thậm chí cả các quốc gia đang tìm kiếm sự linh hoạt để chống lại tình trạng phụ thuộc vào một nhà cung cấp (vendor lock-in) và các lệnh kiểm soát xuất khẩu địa chính trị. Hệ thống này bỏ qua cấu trúc mô hình nguyên khối truyền thống bằng cách định tuyến truy vấn một cách linh hoạt đến một nhóm các tác nhân AI chuyên biệt có thể thay thế.
David Ha, CEO và đồng sáng lập Sakana, cựu lãnh đạo của Google Brain, đã định vị Fugu như một lựa chọn đáng tin cậy hơn cho các quy trình làm việc của doanh nghiệp, đặc biệt sau động thái của Anthropic vào ngày 12 tháng 6 vừa qua, khi họ rút quyền truy cập công khai vào các mô hình mạnh nhất của mình là Claude Mythos 5 và Claude Fable 5 theo lệnh kiểm soát xuất khẩu của chính phủ Hoa Kỳ. Ông Ha chia sẻ trên X:
> "Fugu điều phối linh hoạt các mô hình tốt nhất thế giới để giải quyết các nhiệm vụ phức tạp. Chúng tôi đang chứng minh rằng một nhóm các tác nhân có thể hoán đổi được, được điều phối tốt, có thể sánh ngang với các mô hình tiên phong bị hạn chế như Fable và Mythos. Nhưng Fugu không chỉ về hiệu năng. Tôi tin rằng Mô hình Điều phối là biên giới tiếp theo, vượt ra ngoài các mô hình lớn hơn. Việc phụ thuộc vào mô hình của một công ty duy nhất cho cơ sở hạ tầng quốc gia là một rủi ro lớn. Như các lệnh kiểm soát xuất khẩu gần đây đã cho thấy, quyền truy cập vào các mô hình hàng đầu có thể biến mất chỉ sau một đêm. Trí tuệ tập thể là cách phòng ngừa thiết thực chống lại sự tập trung quyền lực này. Fugu chỉ đơn giản là đi vòng qua các hạn chế của nhà cung cấp bằng cách dựa vào một nhóm tác nhân hoàn toàn có thể hoán đổi."
**Cách thức hoạt động của Sakana Fugu và điểm vượt trội so với Claude Fable 5 của Anthropic**
Về cốt lõi, Sakana Fugu hoạt động như một nhà thầu tổng quát bậc thầy. Khi nhận được một yêu cầu phức tạp, Fugu không cố gắng tự mình thực hiện mọi bước. Thay vào đó, nó chia nhỏ vấn đề, ủy quyền các nhiệm vụ phụ cho một nhóm các mô hình nền tảng chuyên gia, xác minh công việc của chúng và tổng hợp kết quả cuối cùng.
Đội ngũ Sakana AI lưu ý trong bản phát hành kỹ thuật của họ: "Bản thân Fugu là một LLM, được huấn luyện để gọi nhiều LLM trong một nhóm tác nhân, bao gồm cả các phiên bản của chính nó một cách đệ quy." Được xây dựng dựa trên hai bài nghiên cứu năm 2026 của Sakana là TRINITY và Conductor, hệ thống này tự động quản lý toàn bộ vòng đời của việc lựa chọn và xác minh mô hình bằng cách sử dụng các chiến lược điều phối đã học thay vì các quy trình làm việc được thiết kế thủ công. Đối với người dùng cuối, toàn bộ hệ thống đa tác nhân này được trừu tượng hóa hoàn toàn đằng sau một điểm cuối API tiêu chuẩn.
Sakana AI cung cấp hai biến thể của hệ thống để phù hợp với các khối lượng công việc khác nhau:
* Fugu: Một mô hình tốc độ cao, độ trễ thấp, được tối ưu hóa cho các tác vụ hàng ngày. Nó được thiết kế để hoạt động như công cụ mặc định cho các chatbot tương tác và tích hợp trực tiếp vào các môi trường mã hóa như Codex. * Fugu Ultra: Phiên bản hàng đầu được thiết kế cho các tác vụ phức tạp, rủi ro cao như nghiên cứu AI, phân tích an ninh mạng và điều tra bằng sáng chế đa bước. Theo Sakana, Fugu Ultra điều phối một nhóm chuyên gia sâu hơn và sánh ngang với các mô hình nguyên khối hàng đầu trong ngành trên các tiêu chuẩn khoa học và lý luận nghiêm ngặt.
**Hiệu năng vượt trội và cơ chế dự phòng 📈**
Theo các biểu đồ benchmark do Sakana chia sẻ, Fugu thực sự vượt trội hơn hiệu năng của Claude Fable 5 của Anthropic trên LiveCodeBench – một benchmark mã nguồn mở kiểm tra hiệu năng mã hóa trong các tác vụ giải quyết vấn đề phần mềm được cập nhật thường xuyên (Fugu Ultra: 93.2, Fugu: 92.9, Fable: 89.8). Nó cũng đánh bại mô hình Claude Mythos Preview trước đó trên GPQA-D (Diamond) – một bài kiểm tra gồm 198 câu hỏi trắc nghiệm cấp độ sau đại học về sinh học, vật lý và hóa học (Fugu Ultra: 95.5, Fugu: 95.5, Mythos Preview: 94.6).
Bằng cách điều phối nhiều mô hình từ các nhà cung cấp khác nhau, Fugu về cơ bản đã xây dựng tính dự phòng (redundancy) tự nhiên vào hệ thống AI. Nếu một nhà cung cấp gặp sự cố ngừng hoạt động hoặc đối mặt với các hạn chế quy định đột ngột, Fugu sẽ định tuyến lại để duy trì thời gian hoạt động.
**Định vị trong hệ sinh thái AI: Fugu so với các đối thủ 🌐**
Để hiểu vị trí của Fugu trong hệ sinh thái AI, điều quan trọng là phải phân biệt giữa định tuyến mô hình (model routing) và điều phối đa tác nhân (multi-agent orchestration). Các nền tảng định tuyến tiêu chuẩn chỉ đơn thuần phân tích một prompt đầu vào và dự đoán mô hình nền tảng nào sẽ mang lại phản hồi tốt nhất hoặc hiệu quả nhất về chi phí.
Fugu hoạt động theo một mô hình hoàn toàn khác. Thay vì đưa ra quyết định định tuyến một lần, Fugu giống với các hệ thống đa vòng phức tạp. Nó chia nhỏ một truy vấn, xen kẽ lý luận với việc ủy quyền, và gán động các nhiệm vụ phụ cho nhiều mô hình song song hoặc tuần tự trước khi tổng hợp đầu ra cuối cùng.
Trong khi các framework như LangGraph, CrewAI và Microsoft AutoGen cung cấp công cụ để xây dựng các hệ thống đa tác nhân tương tự, chúng đòi hỏi cấu hình thủ công rất lớn. Fugu trừu tượng hóa hoàn toàn chi phí vận hành này, cung cấp một quy trình làm việc kiểu LangGraph đóng gói dưới dạng một điểm cuối API "hộp đen" duy nhất.
**Điểm mạnh và hạn chế của Fugu ⚖️**
Một hệ thống điều phối cuối cùng bị giới hạn bởi khả năng thô của các mô hình cơ bản trong nhóm của nó. Điều này được phản ánh trong thử nghiệm benchmark của Sakana so với các mô hình tiên phong độc lập.
Trong các tác vụ mã hóa và tác nhân nghiêm ngặt, trí tuệ tập thể cho thấy lợi thế rõ rệt so với các mô hình tiêu chuẩn. Fugu Ultra đạt 73.7 trên SWE-Bench Pro, vượt trội đáng kể so với Claude Opus 4.8 (69.2) của Anthropic và GPT-5.5 (58.6) của OpenAI.
Tuy nhiên, Fugu không phải là một viên đạn bạc, và hiệu năng của nó không phải là hoàn hảo trên mọi lĩnh vực. Khi so sánh với các mô hình nguyên khối chuyên biệt cao hoặc bị hạn chế truy cập, Fugu đôi khi vẫn bị tụt lại phía sau:
* SWE-Bench Pro: Fugu Ultra (73.7) đã đánh bại hầu hết các mô hình có thể truy cập, nhưng bị Fable 5 (80.0) của Anthropic (mô hình bị hạn chế truy cập và không có trong nhóm hoán đổi của Fugu do lệnh kiểm soát xuất khẩu của chính phủ Hoa Kỳ) vượt qua dễ dàng. * Humanity's Last Exam: Fugu Ultra (50.0) chỉ nhỉnh hơn Opus 4.8 (49.8) một chút, nhưng vẫn kém Fable 5 (53.3). * Long-Context và Security: Trong bài kiểm tra truy hồi ngữ cảnh dài MRCRv2, GPT-5.5 của OpenAI duy trì vị trí dẫn đầu (94.8 so với 93.6 của Fugu Ultra), và Opus 4.8 vẫn là mô hình hoạt động tốt nhất trong benchmark an ninh mạng CTI-REALM (69.6 so với 69.4 của Fugu Ultra).
Dữ liệu định lượng chỉ ra một kết luận rõ ràng: Fugu rất hiệu quả trong việc tăng cường hiệu năng cho các tác vụ phức tạp, nhiều bước (như viết một trò chơi HTML5 phức tạp từ đầu) bằng cách dựa vào sức mạnh tổng hợp của nhiều mô hình cấp trung và cấp cao. Tuy nhiên, đối với lý luận thuần túy, mạnh mẽ trong một lĩnh vực bị hạn chế cao, các mô hình độc lập lớn nhất của ngành vẫn giữ ưu thế—miễn là doanh nghiệp có thể duy trì quyền truy cập liên tục vào chúng.
**Giấy phép, giá cả và khả dụng 💰**
Fugu được cung cấp dưới dạng dịch vụ API thương mại, độc quyền, không phải framework mã nguồn mở. Vì tài sản trí tuệ cốt lõi của Sakana nằm ở các mẫu hợp tác không rõ ràng của nó, thông tin định tuyến cụ thể—nghĩa là chính xác mô hình cơ bản nào mà Fugu chọn cho một truy vấn nhất định—vẫn là độc quyền và được ẩn đi một cách cố ý khỏi người dùng.
Tuy nhiên, Sakana cung cấp các kiểm soát quan trọng cho việc tuân thủ dữ liệu doanh nghiệp. Các nhà phát triển có thể rõ ràng chọn loại bỏ các mô hình hoặc nhà cung cấp cụ thể khỏi nhóm định tuyến Fugu của họ để duy trì các tiêu chuẩn bảo mật nghiêm ngặt của công ty. Ngoài ra, người dùng có thể chọn không cho phép các prompt của họ được sử dụng cho dữ liệu huấn luyện trong tương lai. Về mặt địa lý, Fugu bị hạn chế hoạt động trong Liên minh Châu Âu (EU) và Khu vực Kinh tế Châu Âu (EEA) trong khi Sakana làm việc để điều chỉnh kiến trúc định tuyến dữ liệu "hộp đen" của mình với các quy định GDPR.
Fugu có sẵn ngay lập tức ở hầu hết các khu vực—ngoại trừ tạm thời EU và EEA—với các gói đăng ký và giá trả theo mức sử dụng. Đối với các triển khai sản xuất quy mô doanh nghiệp, Sakana cung cấp gói trả theo mức sử dụng linh hoạt. Đặc biệt đối với các môi trường có rủi ro cao, các yêu cầu được thực hiện theo mô hình dựa trên mức tiêu thụ này được phục vụ với ưu tiên cao hơn so với các gói đăng ký hàng tháng.
Gói Fugu Ultra có cấu trúc giá cố định: 5 USD cho mỗi triệu token đầu vào và 30 USD cho mỗi triệu token đầu ra. Điều này đặt Fugu Ultra vào nhóm các lựa chọn khá đắt đỏ so với các mô hình AI đơn lẻ thông qua API của nhà cung cấp:
| Mô hình | Đầu vào (M token) | Đầu ra (M token) | Tổng chi phí (M token) | Nguồn | | :------------------------------ | :-------------------- | :------------------ | :-------------------------- | :------------------ | | GPT-5.4 | $2.50 | $15.00 | $17.50 | OpenAI | | Gemini 3.1 Pro Preview (>200K) | $4.00 | $18.00 | $22.00 | Google | | Claude Opus 4.8 | $5.00 | $25.00 | $30.00 | Anthropic | | GPT-5.5 | $5.00 | $30.00 | $35.00 | OpenAI | | Sakana Fugu Ultra | $5.00 | $30.00 | $35.00 | Sakana AI | | Claude Fable 5 / Claude Mythos 5 | $10.00 | $50.00 | $60.00 | Anthropic |
Điều quan trọng, các phản hồi API của Fugu Ultra bao gồm các trường sử dụng chi tiết tách biệt việc tạo token hiển thị cho người dùng với công việc điều phối nội bộ. Các token nền tiêu thụ và tạo ra khi Fugu ủy quyền các nhiệm vụ phụ, xác minh mã hoặc định tuyến giữa các tác nhân cơ bản không được nhà cung cấp hấp thụ; chúng đại diện cho việc sử dụng token thực tế và được tính vào giá cuối cùng của yêu cầu theo tỷ lệ tiêu chuẩn.
**Phản ứng cộng đồng về Fugu 🗣️💬**
Cộng đồng nhà phát triển đã phản ứng với Fugu bằng cách kiểm tra nghiêm ngặt các đánh đổi thực tế của nó, cân nhắc hiệu quả định tuyến của nó so với sức mạnh thuần túy của các mô hình nền tảng nguyên khối.
Chris (@ChrissGPT trên X), một nhà quan sát và nhà phát triển AI, đã làm nổi bật tiện ích cụ thể của Fugu so với AI nền tảng thô. Ông lưu ý: "Đối với một prompt sạch duy nhất, bạn có thể sẽ [sử dụng Fable 5, Mythos hoặc GPT-5.5 trực tiếp]", nhưng lập luận rằng giá trị thực sự của Fugu xuất hiện trong các môi trường lộn xộn, nhiều bước: "...cho dù đó là ủy quyền, xác minh, tổng hợp, đánh giá mã, vòng lặp nghiên cứu, phân tích bảo mật... càng nhiều thì việc sử dụng cái này càng có ý nghĩa." Chris cũng chỉ ra lợi thế địa chính trị chiến lược của kiến trúc Fugu, lưu ý rằng nếu quyền truy cập AI tiên phong bị thu hồi đột ngột do quy định hoặc kiểm soát xuất khẩu, một hệ thống điều phối có thể linh hoạt hoán đổi các mô hình để ngăn chặn sự cố hệ thống hoàn toàn.
Mark Santos (@markksantos) của Mark Studios, chủ sở hữu một công ty sáng tạo, đã so sánh trực tiếp trong thế giới thực bằng cách giao cho cả Fugu Ultra và Claude Opus 4.8 nhiệm vụ xây dựng một bản sao trò chơi "Crossy Road" bằng Three.js. Kết quả đã nhấn mạnh sự khác biệt về hoạt động giữa một hệ thống điều phối và một "gã khổng lồ" nguyên khối:
* Sakana Fugu Ultra: Hoàn thành tác vụ trong 22 phút, sử dụng khoảng 89.000 token với chi phí khoảng 7.32 USD. Tuy nhiên, trò chơi cuối cùng mắc phải các lỗi logic nhỏ, như các hướng rẽ bị đảo ngược và góc camera lung lay. * Claude Opus 4.8: Mất 79 phút, đốt cháy khoảng 940.000 token với chi phí gần 37.85 USD, và bị kẹt trong một vòng lặp thử lại yêu cầu sự can thiệp của con người. Mặc dù kém hiệu quả, nó cuối cùng đã tạo ra thiết kế và chức năng ứng dụng vượt trội.
Santos kết luận thử nghiệm bằng cách nói: "Về chức năng, chất lượng và thiết kế ứng dụng, Opus đã thắng. Về tốc độ và hiệu năng mô hình, Fugu... đã thắng."
Elie Bakouch, kỹ sư nghiên cứu tại Prime Intellect, đã chỉ ra trên X rằng "rõ ràng, đây là một hệ thống điều phối mã nguồn đóng trên các mô hình mã nguồn đóng. nếu trước đây bạn không kiểm soát các mô hình, bây giờ bạn thậm chí không kiểm soát cái nào được sử dụng hoặc bao nhiêu. Đây không phải là 'chủ quyền AI'..."
Những thử nghiệm và phản ứng ban đầu này phản ánh quan điểm được tóm tắt bởi người dùng Reddit GreedyWorking1499 trong các cuộc thảo luận nền tảng ban đầu: "Cho đến khi được chứng minh ngược lại, đây chỉ là một bộ định tuyến/trình bao bọc rất tiên tiến, không phải là một bước nhảy vọt cơ bản về trí thông minh như Mythos/Fable."
**Kết luận 🌟**
Tuy nhiên, khi các doanh nghiệp ngày càng yêu cầu các biện pháp bảo vệ chống lại sự phụ thuộc vào một nhà cung cấp duy nhất, Sakana đang chứng minh rằng việc đóng gói trí tuệ tập thể vào một điểm cuối API duy nhất là một con đường thương mại rất khả thi. Fugu đại diện cho một tầm nhìn tương lai, nơi sự linh hoạt và khả năng phục hồi được ưu tiên, mở ra một hướng đi mới cho hạ tầng AI.