Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 8 phút đọc

Sapient Tuyên Bố Huấn Luyện Mô Hình AI Nền Tảng Chỉ Với $1,500: Phá Vỡ Rào Cản Triệu Đô? 💰🤯

Công ty Sapient tuyên bố đã huấn luyện thành công một mô hình nền tảng từ đầu với chi phí chỉ khoảng 1.500 USD, sử dụng kiến trúc HRM-Text đột phá để giảm đáng kể rào cản tài chính, mở ra cơ hội cho các doanh nghiệp xây dựng AI chuyên biệt. 💡

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc venturebeat.com

Việc huấn luyện một Mô hình Ngôn ngữ Lớn (LLM) nền tảng từ đầu thường tiêu tốn hàng triệu đô la và đòi hỏi lượng dữ liệu khổng lồ, khiến đa số doanh nghiệp phải chùn bước. Tuy nhiên, Sapient, một công ty công nghệ, tuyên bố đã tìm ra một con đường tiết kiệm hơn rất nhiều, với chi phí chỉ khoảng 1.500 USD. 💸

Nút Thắt Huấn Luyện Tốn Kém: Gốc Rễ Vấn Đề 📉

Phương pháp hiện tại để huấn luyện LLM thường là "vét cạn" internet, sau đó dự đoán hàng nghìn tỷ token để hy vọng mô hình phát triển được sự hiểu biết sâu sắc về ngôn ngữ và lý luận. Tuy nhiên, các nhà nghiên cứu cho rằng cách tiếp cận này là "vô cùng tốn kém".

* Guan Wang, CEO của Sapient Intelligence, nhấn mạnh rằng đây là một "vấn đề về kinh tế học lặp lại": "Các doanh nghiệp hiện nay đối mặt với ba vấn đề chồng chéo: huấn luyện tốn kém, hạ tầng nặng nề và chu kỳ thử nghiệm quá chậm. Phản ứng 'nghiện' mở rộng quy mô của ngành là: 'Khi mô hình thất bại, hãy làm cho nó lớn hơn. Thêm dữ liệu. Thêm GPU.' Điều đó đã hiệu quả, nhưng đang chạm đến điểm giảm dần lợi nhuận. Mở rộng quy mô thường đồng nghĩa với nhiều ghi nhớ hơn, độ trễ cao hơn, hạ tầng nặng nề hơn và phụ thuộc nhà cung cấp nhiều hơn. Nó không nhất thiết mang lại cho doanh nghiệp một công cụ lý luận tốt hơn."

Việc tinh chỉnh các mô hình Transformer hiện có cũng không phải lúc nào cũng là giải pháp tối ưu, vì nó vẫn đòi hỏi lượng dữ liệu tổng quát đáng kể, gây tốn kém và khó kiểm soát.

HRM-Text: Tư Duy Lại Kiến Trúc AI Từ Gốc 🧠

Để vượt qua "tín điều" mở rộng quy mô một cách thô bạo này, các nhà nghiên cứu tại Sapient đã phát triển HRM-Text. Đây là một kiến trúc thay thế Transformer truyền thống bằng Mô hình Đệ quy Phân cấp (Hierarchical Recurrent Model - HRM) có hiệu quả về mẫu dữ liệu cực cao, được giới thiệu lần đầu vào năm ngoái.

Kiến trúc HRM phân tách các phép tính thành hai lớp: * Lớp chiến lược (strategic layer) tiến hóa chậm: Duy trì ngữ cảnh ngữ nghĩa ổn định. * Lớp thực thi (execution layer) tiến hóa nhanh: Thực hiện các tinh chỉnh lặp đi lặp lại cục bộ.

Quan trọng hơn, thay vì dự đoán token kế tiếp trên văn bản thô, HRM-Text được huấn luyện độc quyền trên các cặp lệnh-phản hồi. Điều này gần với bối cảnh thực tế của doanh nghiệp, nơi người dùng thường mong đợi một câu trả lời cụ thể cho một nhiệm vụ cụ thể.

Để giải quyết các thách thức về sự bất ổn định toán học khi áp dụng HRM vào sự phức tạp của ngôn ngữ tự nhiên, các nhà nghiên cứu đã đưa ra hai cải tiến kiến trúc chính trong HRM-Text:

1. MagicNorm: Kỹ thuật chuẩn hóa chuyên biệt được thiết kế đặc biệt để giữ cho các tín hiệu nội bộ ổn định, bất kể mô hình lặp lại quá trình tư duy bao nhiêu lần. 2. Phương pháp khởi động (warm-up method): Trong giai đoạn đầu huấn luyện, mô hình chỉ được đánh giá trên các vòng lặp lý luận ngắn, nông. Khi quá trình huấn luyện tiến triển, hệ thống dần dần cung cấp cho mô hình các chuỗi lý luận sâu hơn và dài hơn.

Mục tiêu huấn luyện cũng được chuyển từ dự đoán token sang hoàn thành nhiệm vụ, nơi mô hình chỉ được thưởng cho toàn bộ phản hồi thay vì từng token riêng lẻ.

HRM-Text Trong Thực Tiễn: Kết Quả Đáng Kinh Ngạc 📊

Các nhà nghiên cứu đã xây dựng một mô hình HRM-Text nhỏ gọn với 1 tỷ tham số. Thay vì xử lý hàng nghìn tỷ từ văn bản internet thô, họ đã huấn luyện mô hình này từ đầu trên một tập dữ liệu được tuyển chọn kỹ lưỡng chỉ 40 tỷ token. Dữ liệu huấn luyện hoàn toàn bao gồm các cặp lệnh-phản hồi trên nhiều lĩnh vực: hướng dẫn chung, toán học, logic ký hiệu, bài tập sách giáo khoa và kiến thức được viết lại.

* Mô hình được huấn luyện trong chưa đầy 2 ngày (1,9 ngày) trên một cụm 16 GPU. * Tổng chi phí tính toán ước tính chỉ khoảng 1.500 USD. 💰 * Nó đạt được điểm số cạnh tranh với các mô hình lớn hơn nhiều trên các bộ kiểm tra chuẩn ngành chính: 60,7% trên MMLU, 84,5% trên GSM8K và 56,2% trên MATH. * Đáng chú ý, HRM-Text đã đạt được những điểm số này chỉ với lượng token huấn luyện ít hơn từ 100 đến 900 lần và chi phí tính toán ước tính ít hơn từ 96 đến 432 lần so với các mô hình như Qwen, Gemma và Llama.

Điều này chứng minh rằng một mô hình không cần phải "ghi nhớ toàn bộ internet" để trở thành một công cụ lý luận thông minh. HRM-Text đã thành công trong các tác vụ nặng về lý luận dù chỉ được huấn luyện với 40 tỷ token.

Ý Nghĩa Với Doanh Nghiệp: Chiến Lược Thay Vì Hạ Tầng 🚀

Đối với các ứng dụng AI trong thế giới thực, điều này có nghĩa là việc tiền huấn luyện mô hình nền tảng không còn bị giới hạn cho các tổ chức có nguồn lực dồi dào. Với HRM-Text, các tổ chức có thể:

* Tự tiền huấn luyện các mô hình lý luận có khả năng cao từ đầu với chi phí phải chăng. * Kết hợp chúng với các kho kiến thức bên ngoài, thay vì nhồi nhét toàn bộ dữ liệu công ty vào mô hình. * Xây dựng một "lõi lý luận" nhỏ gọn, chuyên biệt cho logic nghiệp vụ của họ, hoạt động trong một môi trường kiểm soát.

Wang phản bác các ý kiến cho rằng việc so sánh giữa các mô hình huấn luyện trên cặp lệnh-phản hồi với mô hình trên văn bản thô là "không công bằng". Ông lập luận rằng mọi LLM hiện đại đều xử lý dữ liệu lệnh-phản hồi trong quá trình huấn luyện hoặc tinh chỉnh. "Vì vậy, so sánh không phải là táo với cam. Nó gần hơn với lõi táo và táo. Chúng tôi bắt đầu trực tiếp từ định dạng nhiệm vụ cốt lõi vì đó là cách mọi người thực sự sử dụng mô hình: họ đưa ra một lệnh và mong đợi một phản hồi hữu ích," ông nói.

Phản Biện và Tương Lai của AI Doanh Nghiệp 💡

Mặc dù điểm chuẩn và hiệu quả chi phí rất ấn tượng, Sapient cũng làm rõ ranh giới hiện tại của mô hình. Bản phát hành ban đầu chủ yếu là bằng chứng về khái niệm, tương tự như các bản GPT đời đầu, nhằm giới thiệu những lợi thế độc đáo của kiến trúc.

* "Thành thật mà nói, HRM-Text chưa phải là một sự thay thế ChatGPT cắm-và-chạy," Wang chia sẻ. "Nó là một mô hình lý luận ngôn ngữ nền tảng nhỏ gọn. Đối với một đội ngũ kỹ thuật doanh nghiệp, công việc vận hành chủ yếu xoay quanh các template, lựa chọn chế độ, mặt nạ chú ý và căn chỉnh."

Ông kết luận: "Khi chi phí huấn luyện một mô hình lý luận có khả năng giảm xuống khoảng 1.500 USD, AI không còn là câu hỏi về hạ tầng mà trở thành câu hỏi về chiến lược. Một công ty Fortune 500 không còn phải hỏi, 'Chúng ta có đủ khả năng mua một mô hình nền tảng không?' Mà sẽ hỏi, 'Mô hình của chúng ta nên biết gì về doanh nghiệp, và nó nên được tối ưu hóa cho loại lý luận nào?'" Điều này mở ra một kỷ nguyên mới cho AI cấp doanh nghiệp, nơi sự đổi mới không bị giới hạn bởi chi phí khổng lồ.