Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 16 phút đọc

Fine-tuning quên kiến thức, RAG rò rỉ ngữ cảnh... ✨ Hypernetwork giải cứu AI Agent bằng mô hình chuyên biệt, tạo tức thì! 🤖

Trong bối cảnh Fine-tuning mắc lỗi quên kiến thức và RAG dễ rò rỉ ngữ cảnh, công nghệ Hypernetwork nổi lên như giải pháp đột phá, giúp AI Agent tạo ra các mô hình chuyên biệt theo yêu cầu, nâng cao độ tin cậy và hiệu quả trong tác vụ phức tạp. 👇

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc venturebeat.com

Giải pháp nào cho AI Agent tự chủ thực sự: Hypernetwork hay RAG/Fine-tuning? 🤔

Các nhóm doanh nghiệp đang chứng kiến một kịch bản quen thuộc: một AI Agent trình diễn xuất sắc, được triển khai sản xuất, nhưng rồi "chết yểu". Nó hoạt động trơn tru trong thời gian ngắn, sau đó cần con người liên tục "nạp" ngữ cảnh và kiểm tra đầu ra. Hiệu quả hứa hẹn tan biến vào khâu giám sát. Agent làm việc, còn bạn thì giám sát. Đây là lý do tại sao nhiều dự án thử nghiệm AI Agent không bao giờ thành công trên thực tế. ❌

Mỗi nhóm đều muốn tin vào lời hứa về một Agent có thể tự chạy một tác vụ dài, qua đêm nếu cần, và chỉ để con người xác thực 10% cuối cùng. Tuy nhiên, việc này phụ thuộc vào một vấn đề mà cuộc thảo luận về điều phối thường bỏ qua. Khi công ty AI Chroma thử nghiệm 18 mô hình hàng đầu, mọi mô hình đều mất độ chính xác khi dữ liệu đầu vào tăng lên (morphllm.com/context-rot). Đây là thuộc tính của cơ chế "chú ý" (attention), không phải một lỗ hổng có thể khắc phục bằng mô hình mạnh hơn. Một Agent được cung cấp ngày càng nhiều thông tin kinh doanh không trở nên ổn định hơn, mà lại càng trở nên "lung lay". ⚠️

Đây là tầng ẩn dưới cuộc đua điều phối. Định tuyến, thực thi bền bỉ và khả năng quan sát đều giả định mỗi Agent đã đủ năng lực để phối hợp. Câu hỏi sâu sắc hơn là một Agent có thể hoạt động bao lâu trước khi con người phải can thiệp, và điều đó phụ thuộc vào cách kiến thức của công ty bạn "sống" trong mô hình. Cả hai giải pháp tiêu chuẩn hiện nay đều buộc con người phải tham gia vào vòng lặp.

Tại sao "dạy" mô hình kiến thức kinh doanh của bạn vẫn cần con người can thiệp? 👩‍💻

Các mô hình tiên tiến ngày càng có năng lực hơn, nhưng khoảng cách vẫn không được rút ngắn vì đây không phải là vấn đề về khả năng. Vấn đề nằm ở cách kiến thức của bạn được đặt trong mô hình. Các doanh nghiệp đã có hai cách để làm điều này:

1. Tinh chỉnh (Fine-tuning): Ghi nhớ nhưng dễ... quên 😩

Tinh chỉnh mô hình "nướng" kiến thức vào các trọng số của nó. Tuy nhiên, nó vẫn chịu ảnh hưởng của hiện tượng quên kiến thức nghiêm trọng (catastrophic forgetting) – một vấn đề được xác định từ những năm 1980 và vẫn chưa được giải quyết vào năm 2026 (emergentmind.com/topics/catastrophic-forgetting-in-language-models). Việc dạy mô hình kiến thức mới có xu hướng làm xói mòn những gì nó đã biết. Các nhóm khắc phục bằng cách tách biệt từng tác vụ vào một mô hình hoặc bộ điều hợp (adapter) tinh chỉnh riêng, tạo ra một "bộ sưu tập mô hình" (model zoo) khổng lồ, làm tăng chi phí và gánh nặng quản trị (infoworld.com/article/4131242). Hơn nữa, một mô hình tinh chỉnh chỉ là một "ảnh chụp" tại một thời điểm, lỗi thời ngay khi chính sách thay đổi, và chu kỳ đào tạo lại tốn kém, chậm chạp lại bắt đầu.

2. Học trong ngữ cảnh (In-context learning/RAG): Tiện lợi nhưng dễ "rò rỉ" 💧

Phương pháp này bỏ qua việc đào tạo lại bằng cách đặt các chính sách liên quan vào prompt tại thời điểm chạy. Đây là nơi suy giảm ngữ cảnh (context rot) gây ra vấn đề. Việc tìm nạp (retrieval) thu hẹp những gì đưa vào prompt, nhưng một lỗi tìm nạp có vẻ giống hệt một câu trả lời tự tin, và cả chi phí lẫn độ trễ đều tăng theo mỗi token được thêm vào.

Cả hai thất bại này đều có chung điểm: Với tinh chỉnh, mô hình có thể tự tin làm việc dựa trên chính sách của quý trước. Với học trong ngữ cảnh, nó có thể tự tin làm việc dựa trên một chi tiết đã bị mất giữa một prompt dài. Dù bằng cách nào, đầu ra trông vẫn tự tin như nhau, vì vậy bạn không thể biết phần nào sai mà không kiểm tra tất cả. Đó là lý do tại sao con người không bao giờ thoát khỏi vòng lặp. Một số nhóm thường chạy cả hai cùng lúc: tinh chỉnh kiến thức ổn định và tìm nạp phần còn lại. Điều này làm giảm nhẹ mỗi thất bại nhưng không loại bỏ hoàn toàn: với bất kỳ đầu ra nào, bạn vẫn không thể chắc chắn mô hình vừa cập nhật vừa làm việc từ ngữ cảnh đúng, vì vậy bạn vẫn phải kiểm tra. 🧐

Con đường thứ ba: Tạo mô hình chuyên biệt theo yêu cầu ✨

Một cách tiếp cận thứ ba đang từ nghiên cứu chuyển sang sản phẩm ban đầu. Thay vì đào tạo lại một mô hình hoặc nhồi nhét prompt của nó, một bộ tạo (generator) sẽ xây dựng một mô hình nhỏ, chuyên biệt cho tác vụ theo yêu cầu từ các chính sách của bạn, tại thời điểm suy luận (inference time). Bộ tạo này là một mạng siêu cấp (hypernetwork): một mạng lưới mà đầu ra của nó là trọng số của một mạng lưới khác.

Ý tưởng này được đặt tên vào năm 2016 (arxiv.org/abs/1609.09106); việc áp dụng nó để tạo ra các mô hình ngôn ngữ chuyên biệt từ văn bản hoặc tài liệu là rất gần đây và đang hoạt động tích cực. Sakana AI với nghiên cứu "Text-to-LoRA" (arxiv.org/abs/2506.06105) đã trình bày tại ICML 2025, tạo ra một bộ điều hợp mô hình từ mô tả ngôn ngữ tự nhiên chỉ trong một lần duy nhất. Một hệ thống năm 2026 có tên SHINE gọi sự thích nghi của mạng siêu cấp là "một biên giới mới đầy hứa hẹn" (arxiv.org/pdf/2602.06358), chính xác vì nó tránh được cả chi phí đào tạo lại của tinh chỉnh và giới hạn ngữ cảnh của prompt.

Mục đích của việc tạo ra các bộ điều hợp thay vì đào tạo và lưu trữ chúng là để biến một thư viện LoRA (Low-Rank Adaptation) khổng lồ, chuyên biệt cho từng tác vụ thành một mạng duy nhất có thể tạo ra chúng theo yêu cầu, kể cả cho các tác vụ chưa từng thấy. Phần tinh tế là cách nó giải quyết vấn đề đã nêu ở trên: bộ điều hợp chuyên biệt cho từng tác vụ mà các nhóm tự xây dựng để tránh quên kiến thức nghiêm trọng lại chính là đối tượng mà một mạng siêu cấp tạo ra tự động. "Bộ sưu tập mô hình" không còn là gánh nặng quản trị mà trở thành một đầu ra được tạo ra. ✅

Điểm mấu chốt là hướng tới các mô hình nhỏ hơn đã được các nhà nghiên cứu Nvidia nhấn mạnh trong một bài báo năm 2025 (arxiv.org/abs/2506.02153): đối với các tác vụ hẹp, lặp đi lặp lại trong quy trình của Agent, các mô hình nhỏ đủ khả năng và rẻ hơn từ 10 đến 30 lần để chạy so với các mô hình tổng quát tiên tiến. Nace.AI, một công ty ở Palo Alto đã huy động được 21,5 triệu đô la Mỹ (businesswire.com/news/home/20260505315897/en/) trong vòng hạt giống vào tháng 5, là ví dụ thương mại rõ ràng nhất. Công nghệ cốt lõi của họ, một bộ tạo mà họ gọi là MetaModel (nace.ai/research/enterprise-policy-injection-with-metamodels), tạo ra các điều chỉnh tham số cho một mô hình tại thời điểm suy luận từ các chính sách của công ty, hướng tới các công việc được quản lý như kiểm toán, tuân thủ, đánh giá rủi ro. Công ty này tuyên bố các Agent của họ xử lý phần lớn quy trình công việc trong khi các chuyên gia con người xác thực kết quả, một tỷ lệ mà họ quảng bá là 90/10. ✨

So sánh ba phương pháp: Ai ưu việt hơn? 🤔

| Đặc điểm | Tinh chỉnh (Fine-tuning) | Học trong ngữ cảnh / RAG | Mô hình do Hypernetwork tạo | | :------------------------ | :------------------------------------------- | :------------------------------------- | :----------------------------------- | | Kiến thức kinh doanh | Trong trọng số mô hình | Trong prompt, được cung cấp mỗi lần chạy | Trong trọng số được tạo theo yêu cầu | | Chi phí cập nhật | Cao: Đào tạo lại | Thấp: Chỉnh sửa nguồn | Thấp: Tạo lại | | Tính lỗi thời | Cao: Ảnh chụp | Thấp | Thấp: Tạo lại từ chính sách hiện hành | | Chi phí/độ trễ mỗi lần gọi | Thấp | Cao, tăng theo ngữ cảnh | Thấp tại thời điểm chạy | | Lỗi phổ biến | Quên kiến thức nghiêm trọng; "model zoo" | Suy giảm ngữ cảnh; lỗi tìm nạp thầm lặng | Chất lượng bộ tạo; hiệu chỉnh | | Ai sở hữu tài sản cải tiến? | Người đào tạo mô hình | Người giữ kho dữ liệu | Tùy thuộc vào nơi bộ tạo và phản hồi tồn tại |

Hypernetwork nâng tầm tự chủ cho AI Agent như thế nào? 🚀

Một mô hình hẹp, cập nhật và nhỏ có bề mặt sai sót nhỏ hơn. Ít lỗi hơn, giới hạn trong một lĩnh vực đã biết, có nghĩa là Agent ít phải chuyển giao kết quả cho con người hơn, đây là cơ sở thực sự cho bất kỳ tuyên bố về mức độ tự chủ cao nào. Đó cũng là nơi con số 90/10 xuất phát: không phải là một cài đặt định trước, mà là kết quả của việc hệ thống cần trả lại rất ít. Tỷ lệ tự chủ được báo cáo tốt nhất nên được đọc như các phép đo của một kiến trúc, không phải là các cài đặt. 💡

Hai lựa chọn thiết kế quyết định liệu tính tự chủ đó có đáng tin cậy hay chỉ đơn thuần là nhanh chóng.

1. Xác minh nguồn gốc (Grounding): Liên kết mọi đầu ra với nguồn gốc của nó để người đánh giá có thể xác minh thay vì làm lại. Các mô hình nghiên cứu được xây dựng chính xác cho mục đích này, chẳng hạn như HalluGuard (arxiv.org/pdf/2510.00880), gắn nhãn mỗi tuyên bố là được hỗ trợ hay không và trích dẫn đoạn văn mà chúng dựa vào. Nace cung cấp các Agent của mình với các mô hình xác minh nguồn gốc và dấu vết lý luận với lý do tương tự. Một đánh giá 10% chỉ có ý nghĩa nếu con người có thể xác nhận nguồn gốc trong vài giây. 2. Vòng phản hồi (Feedback loop): Điều này buộc một câu hỏi mà mọi người mua nên hỏi: khi các chuyên gia của bạn xác thực đầu ra, mô hình của ai được cải thiện và nó nằm ở đâu? Điều đó quyết định liệu tài sản gia tăng đó thuộc về nhà cung cấp hay của bạn. Các thỏa thuận khác nhau. Ví dụ, Nace sử dụng một mạng lưới chuyên gia được chứng nhận bên ngoài cho một số dự án và, đối với các triển khai trực tiếp cho doanh nghiệp, nhân viên của chính khách hàng, với mô hình kết quả được giữ trong đám mây của khách hàng. Mỗi lựa chọn định hướng việc học và quyền sở hữu đến một nơi khác nhau.

Những rào cản và thách thức của Hypernetwork hiện tại ⚠️

Cách tiếp cận này vẫn còn ở giai đoạn đầu, và một vài câu hỏi sẽ quyết định nó sẽ đi xa đến đâu.

* Hiệu chỉnh (Calibration) là yếu tố then chốt: giá trị nằm ở việc mô hình biết khi nào nó không chắc chắn. Và điều này thực sự chưa được giải quyết, các công trình gần đây tạo ra các bộ điều hợp này cho thấy chúng không tự động cải thiện hiệu chỉnh so với tinh chỉnh thông thường, với những cải thiện chỉ xuất hiện dưới những ràng buộc cụ thể. * Chất lượng dữ liệu: Chất lượng của mô hình được tạo ra cũng phụ thuộc rất nhiều vào dữ liệu chính sách mà nó được xây dựng, điều này đòi hỏi phải chú trọng vào việc quản lý dữ liệu. * Khả năng mở rộng (Scale) là biên giới nghiên cứu mở, các mạng siêu cấp được trình bày trong các công trình đã công bố cho đến nay vẫn còn nhỏ. Đây là nơi công việc của Nace trở nên thú vị: trong cuộc phỏng vấn, công ty này cho biết họ đã mở rộng bộ tạo của mình vượt xa các kích thước đã công bố và đưa ra một quy luật mở rộng về cách hiệu suất tăng trưởng, những kết quả mà họ đã bắt đầu chia sẻ công khai và hiện đang đưa ra đánh giá đồng cấp. Nếu điều đó được chứng minh, nó sẽ giúp trả lời một trong những câu hỏi trung tâm còn bỏ ngỏ trong lĩnh vực này, và đó là bài báo đáng theo dõi.

Dù cách tiếp cận nào thắng thế, công việc cuối cùng vẫn kết thúc ở con người, và việc chuyển giao đó là một vấn đề thiết kế riêng. Khi Deloitte Australia chuyển giao một báo cáo chính phủ trị giá khoảng 440.000 đô la Úc, nó đã đi kèm với các trích dẫn bịa đặt và một câu trích dẫn của tòa án được tạo ra (theregister.com/2025/10/06/deloitte_ai_report_australia/) sau khi vượt qua đánh giá cấp cao, vì các nhà đánh giá chỉ kiểm tra các kết luận, vốn đúng, chứ không phải nguồn gốc, vốn không đúng. Nghiên cứu có kiểm soát cho thấy mô hình này là chung: các chuyên gia ít khi sửa một khuyến nghị sai sót giống hệt hơn khi nó được dán nhãn là do AI tạo ra (academic.oup.com/pnasnexus/article/5/6/pgag146/8703789).

Điều 14 của Đạo luật AI của EU (artificialintelligenceact.eu/article/14/) hiện đã gọi đây là "thiên vị tự động hóa" (automation bias). Bài học không phải về một nhà cung cấp cụ thể: tỷ lệ tự chủ cao tập trung sự chú ý của con người vào một phần mỏng, muộn của công việc, vì vậy giá trị của việc đánh giá đó phụ thuộc hoàn toàn vào việc con người có thể kiểm tra nguồn gốc nhanh chóng hay không, điều này quay trở lại vấn trình xác minh nguồn gốc (grounding).

Bạn nên xây dựng gì và cần hỏi gì trước khi mua giải pháp AI? 💡

Lời khuyên thẳng thắn: điều kìm hãm các Agent của bạn thường không phải là điều phối hay kích thước mô hình, mà là liệu mô hình có hiểu rõ công việc kinh doanh của bạn đủ để tự làm việc hay không, và giải pháp đúng đắn phụ thuộc vào từng công việc cụ thể.

* Để tự động hóa một quy trình dài, lặp đi lặp lại, khối lượng lớn từ đầu đến cuối, chạy hầu hết kiểm toán nội bộ của bạn qua đêm và có các chuyên gia của riêng bạn kiểm tra phần cuối cùng, một mô hình được tạo bởi hypernetwork là cách tiếp cận có khả năng thực hiện điều đó một cách rẻ tiền và chạy đủ lâu để tạo ra giá trị. * Đối với một tác vụ ngắn kết thúc trong vài bước và không bao giờ cần chạy mà không có sự giám sát, khoảng cách giữa giải pháp này và một mô hình tiên tiến được prompt tốt gần như không đáng kể, và không đáng với chi phí tích hợp.

Khi một nhà cung cấp quảng cáo các Agent tự chủ hoặc chuyên biệt, bốn câu hỏi sau đây sẽ giúp bạn nhìn thấu vấn đề:

1. Kiến thức kinh doanh nằm ở đâu: Trong trọng số, prompt hay được tạo theo yêu cầu? 2. Mỗi đầu ra đi kèm với gì, để người đánh giá có thể xác minh thay vì làm lại? 3. Điều gì quyết định công việc nào được chuyển lên cấp cao hơn (escalate) cho con người? 4. Và mô hình của ai được cải thiện từ phản hồi đó, và nó chạy ở đâu?

Câu trả lời cho những câu hỏi này, chứ không phải tỷ lệ tự chủ được quảng cáo, mới cho bạn biết bạn đang mua gì. 🎯

Cách tiếp cận hypernetwork là nỗ lực đáng tin cậy nhất cho đến nay để làm cho một mô hình nhỏ hiểu một công việc kinh doanh cụ thể mà không quên nó và không phải giải thích lại nó mỗi lần chạy. Tuy nhiên, nó cũng là ít được chứng minh nhất, và những phần quan trọng nhất, như hiệu chỉnh và khả năng mở rộng, vẫn đang trong quá trình đánh giá đồng cấp. Đối với đúng công việc, hãy thử nghiệm nó ngay bây giờ. Đối với công việc sai, chi phí tích hợp sẽ mang lại rất ít lợi ích so với một mô hình tiên tiến được prompt tốt. ✅