Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 4 phút đọc

Pythagoras-Prover: Mô hình 4B vượt mặt 'quái vật' DeepSeek-Prover-V2 671B trong giải toán Lean 🚀📐

Pythagoras-Prover 4B đạt pass@32 86.1% trên MiniF2F-Test, vượt mặt DeepSeek-Prover-V2 671B nhờ bộ dữ liệu huấn luyện thông minh và phương pháp ALF đột phá.

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc arxiv.org

Pythagoras-Prover: Mô hình 4B đánh bại siêu mô hình DeepSeek-Prover-V2 671B trong chứng minh toán học Lean 🚀📐

Trong kỷ nguyên của các mô hình ngôn ngữ lớn (LLM), cuộc chạy đua tăng quy mô tham số (scaling) dường như đang thống trị. Tuy nhiên, một nghiên cứu đột phá mới đây đã giới thiệu Pythagoras-Prover, một gia đình mô hình chứng minh định lý toán học mã nguồn mở siêu nhỏ gọn nhưng sở hữu hiệu năng cực kỳ ấn tượng, trực tiếp thách thức các "quái vật" phần cứng hàng trăm tỷ tham số.

Cụ thể, phiên bản Pythagoras-Prover-4B (chỉ có 4 tỷ tham số) đã chính thức vượt qua DeepSeek-Prover-V2-671B (671 tỷ tham số) trên chuẩn đánh giá toán học danh tiếng MiniF2F-Test với điểm số pass@32 đạt 86.1%.

---

Ba Đột Phá Kỹ Thuật Đằng Sau Pythagoras-Prover

Để đạt được hiệu năng vượt trội trong một cấu hình phần cứng tối thiểu, nhóm nghiên cứu đã áp dụng ba giải pháp kiến trúc và dữ liệu mang tính cách mạng:

1. Curriculum SFT (Huấn luyện phân bậc theo chương trình)

Thay vì nhồi nhét toàn bộ dữ liệu chứng minh toán học phức tạp vào mô hình ngay từ đầu, nhóm nghiên cứu đã xây dựng một kho dữ liệu được xác thực bởi ngôn ngữ Lean, phân cấp rõ ràng thành các mức độ: Dễ (Easy), Trung bình (Medium), và Khó (Hard). Mô hình sẽ học các kỹ năng chứng minh một cách lũy tiến — từ các bước chứng minh ngắn, đơn giản đến các chuỗi suy luận dài và phức tạp hơn. Phương pháp này giúp mô hình tối ưu hóa được đường cong học tập mà không bị quá tải thông tin.

2. Lọc suy luận động (Dynamic Proof-Reasoning Filtering)

Trong quá trình tinh chỉnh (SFT), một cơ chế lọc động được kích hoạt nhằm giữ lại các chuỗi suy luận chứng minh giàu thông tin nhất, đồng thời nén chặt dữ liệu để luôn nằm trong giới hạn ngữ cảnh 8k-token. Điều này giúp loại bỏ các bước thừa thãi và tối ưu hóa tài nguyên tính toán cực kỳ hiệu quả.

3. Phương pháp ALF (Augmented Lean Formalisation) đột phá

Một trong những rào cản lớn nhất của AI toán học là sự khan hiếm của các bộ dữ liệu chứng minh được Lean xác thực (Lean-verified). Để giải quyết vấn đề này, Pythagoras-Prover giới thiệu ALF (Augmented Lean Formalisation).

ALF thực hiện mở rộng tập dữ liệu bằng cách tạo ra các biến thể của các phát biểu toán học thông qua cơ chế tự chưng cất (self-distillation). Bằng cách làm nhiễu (perturbing) các bài toán đã biết nhưng vẫn giữ nguyên tính chất hình thức toán học của chúng, ALF giúp mô hình học được bản chất logic thay vì chỉ học vẹt các mẫu ký tự bề mặt.

---

Kiến trúc Kết Hợp: Autoregressive & Diffusion

Gia đình Pythagoras-Prover không chỉ dừng lại ở kiến trúc autoregressive truyền thống. Họ phát triển đồng thời hai hướng tiếp cận: - Autoregressive Models (4B và 32B): Mang lại hiệu năng suy luận tốc độ cực nhanh và chính xác. - Diffusion-based Prover (4B): Một mô hình thử nghiệm (proof-of-concept) sử dụng cơ chế khuếch tán để tinh chỉnh và tối ưu hóa các chuỗi chứng minh Lean lặp đi lặp lại trực tiếp trong quá trình suy luận (inference time).

---

Kết quả Thực nghiệm Ấn tượng

Trên bảng xếp hạng chuẩn MiniF2F-Test, Pythagoras-Prover-4B đạt tỷ lệ chứng minh thành công đáng kinh ngạc: - 86.1% ở pass@32, trực tiếp vượt qua siêu mô hình DeepSeek-Prover-V2-671B và các hệ thống AI chứng minh định lý lớn nhất hiện nay. - Giảm thiểu chi phí tính toán huấn luyện và suy luận xuống hàng chục lần, mở ra cơ hội triển khai trợ lý chứng minh toán học chất lượng cao trên các máy tính cá nhân hoặc các hệ thống đám mây chi phí thấp.

Sự xuất hiện của Pythagoras-Prover là minh chứng rõ ràng cho thấy: Sự chuyên biệt hóa dữ liệu và phương pháp huấn luyện thông minh hoàn toàn có thể đánh bại quy mô tham số khổng lồ (Specialization Beats Scale).

--- Nguồn tham khảo: Nghiên cứu sinh học và công nghệ AI toán học tại arXiv:2606.12594v1.