Bỏ qua đến nội dung chính
Về trang chủ
AI tools-ai 4 phút đọc

Baidu Ra Mắt Unlimited-OCR: Đột Phá Với KV Cache Cố Định, Chinh Phục Tài Liệu Dài Hàng Chục Trang! 🚀

Baidu vừa giới thiệu Unlimited-OCR, mô hình OCR mã nguồn mở đột phá đạt hiệu suất SOTA trên OmniDocBench nhờ kiến trúc Reference Sliding Window Attention (R-SWA) giúp duy trì bộ nhớ KV cache cố định, giải quyết triệt để thách thức khi xử lý tài liệu dài mà không tăng tài nguyên.

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc x.com

Kalera News – Hôm nay, Baidu đã chính thức công bố Unlimited-OCR, một mô hình OCR (Nhận dạng Ký tự Quang học) đầu cuối mã nguồn mở mang tính cách mạng. Sản phẩm này được thiết kế để giải quyết một nút thắt cơ bản trong việc phiên âm các tài liệu dài: sự tăng trưởng tuyến tính của bộ nhớ KV cache trong các kiến trúc dựa trên bộ giải mã truyền thống. Thông tin chi tiết được lan truyền qua một bài đăng từ Daniel van Strien (https://x.com/vanstriendaniel/status/2069403564892397735).

Bằng cách giới thiệu Cơ chế Cửa sổ Trượt Tham chiếu (Reference Sliding Window Attention – R-SWA), Unlimited-OCR nén bộ nhớ KV cache của bộ giải mã từ tăng trưởng tuyến tính xuống cố định, mang lại kết quả hiện đại nhất (SOTA) trên bộ benchmark OmniDocBench. Đây là một bước tiến đáng kể cho ngành AI xử lý văn bản dài. ✨

Đột Phá Cốt Lõi: Cơ chế Cửa sổ Trượt Tham chiếu (R-SWA)

Trong các mô hình OCR dựa trên bộ giải mã truyền thống (như DeepSeek-OCR), bộ nhớ KV cache tăng trưởng tuyến tính theo độ dài của đầu ra được tạo ra. Đối với các tài liệu dài hàng chục trang, điều này dẫn đến việc tăng mức sử dụng VRAM GPU và độ trễ giải mã. Đây là một vấn đề nghiêm trọng, đặc biệt khi cần xử lý khối lượng lớn tài liệu.

Unlimited-OCR đã thay thế tất cả các lớp attention bằng R-SWA, giúp giữ kích thước bộ nhớ KV cache luôn không đổi (kích thước cố định là m + n, trong đó m là token tham chiếu và n là kích thước cửa sổ trượt). Điều này đảm bảo rằng mức tiêu thụ bộ nhớ và độ trễ giải mã trên mỗi token không đổi, bất kể số lượng trang được xử lý. 💡

Hiệu Suất SOTA Vượt Trội Trên Benchmark

Unlimited-OCR được xây dựng trên kiến trúc Mô hình Chuyên gia Hỗn hợp (MoE) 3B tham số, kích hoạt 500M tham số trên mỗi lượt truyền tiến. Nó đã đạt được các kết quả SOTA ấn tượng:

* Điểm OmniDocBench v1.6: Đạt 93,92% tổng điểm, thiết lập một kỷ lục SOTA mới và vượt trội hơn DeepSeek-OCR (87,01%) tới hơn 6 điểm phần trăm. 🏆 * Điểm OmniDocBench v1.5: Đạt 93,23%, xếp hạng nhất về hiệu suất đầu cuối. * Khoảng cách Chỉnh sửa Văn bản: Giảm từ 0,073 (DeepSeek-OCR) xuống 0,038. * CDM Công thức: Đạt 92,61% (v1.6) và 95,79% (v1.5). * TEDS Bảng: Đạt 90,93% (v1.6) và 93,32% (v1.5). * Thông lượng: Tăng lên tới 5.580 TPS (Token mỗi giây) so với 4.951 TPS của DeepSeek-OCR, cải thiện 12,7%. ⚡

Các Tính Năng & Khả Năng Nổi Bật

1. Phiên âm Tài liệu Dài Chỉ Với Một Lượt: Hỗ trợ xử lý từ 2 đến hơn 40 trang PDF trong một lượt truyền tiến duy nhất mà không cần bộ lập lịch vòng lặp bên ngoài hoặc chia nhỏ từng trang. 2. Mã hóa Thị giác Độ phân giải Kép: * Chế độ Cơ bản: Độ phân giải 1024x1024 được tối ưu hóa cho các tài liệu nhiều trang dài. * Chế độ Gundam: Độ phân giải động cho phân tích một trang với độ trung thực cao. 3. Khả năng Tương thích Đa bố cục: Hỗ trợ nguyên bản 9 loại bố cục khác nhau, bao gồm bài báo khoa học, sách, sách giáo khoa, bài thuyết trình (PPT), đề thi, tạp chí, báo chí, ghi chú viết tay và báo cáo nghiên cứu. 4. Nén Token Thị giác Hiệu quả: Sử dụng SAM-ViT kết hợp với CLIP-ViT và nén token 16x, thể hiện một trang 1024x1024 hoàn chỉnh chỉ với 256 token thị giác.

Hoàn Toàn Mã Nguồn Mở

Unlimited-OCR được phát hành hoàn toàn mã nguồn mở theo giấy phép MIT, bao gồm cả các tập lệnh suy luận và trọng số đã huấn luyện. Nó tích hợp liền mạch với thư viện Hugging Face Transformers và các công cụ suy luận SGLang. Cộng đồng AI giờ đây có thể tiếp cận và tận dụng công nghệ đột phá này. 🌐

* Kho lưu trữ GitHub: https://github.com/baidu/Unlimited-OCR * Hugging Face Model Hub: https://huggingface.co/baidu/Unlimited-OCR