Bỏ qua đến nội dung chính
Về trang chủ
AI 3 phút đọc

Baidu giới thiệu 'Unlimited OCR': Xử lý hàng chục trang tài liệu một lần nhờ cơ chế 'quên' 📄

Công nghệ OCR mới của Baidu giải quyết giới hạn bộ nhớ bằng cơ chế chú ý cải tiến, cho phép xử lý hàng chục trang tài liệu cùng lúc.

Tier 1 · nguồn 64% độ tin cậy Đã được duyệt
Nguồn gốc the-decoder.com

Baidu vừa công bố công nghệ nhận dạng ký tự quang học mới mang tên "Unlimited OCR", cho phép xử lý hàng chục trang tài liệu trong một lượt quét duy nhất, vượt qua giới hạn thông thường của các hệ thống cũ vốn chỉ xử lý được khoảng 10 trang. Giải pháp này giúp tối ưu hóa hiệu năng đáng kể khi đối mặt với các tài liệu dài hoặc sách số hóa.

Diễn biến chi tiết

Theo báo cáo từ The Decoder, các hệ thống OCR truyền thống thường gặp nút thắt cổ chai về hiệu suất và bộ nhớ khi số lượng trang tài liệu tăng lên. Với Unlimited OCR, Baidu đã giải quyết được bài toán này bằng cách giữ cho lượng tài nguyên bộ nhớ tiêu thụ luôn ở mức ổn định, không bị phình to theo độ dài của tài liệu. Nhờ đột phá này, mô hình mới của gã khổng lồ công nghệ Trung Quốc hiện đã vươn lên dẫn đầu bảng xếp hạng trên các công cụ chấm điểm chuẩn (benchmark) OCR quan trọng nhất hiện nay.

Phân tích kỹ thuật & Công nghệ

Điểm cốt lõi của Unlimited OCR nằm ở cơ chế chú ý (attention mechanism) đã được tinh chỉnh lại. Thay vì cố gắng lưu trữ toàn bộ thông tin của mọi trang tài liệu vào bộ nhớ đệm, mô hình mô phỏng lại cách não bộ con người hoạt động thông qua cơ chế "quên" chủ động. Hệ thống sẽ lọc và chỉ giữ lại các đặc trưng ngữ cảnh quan trọng nhất từ các trang trước, giải phóng các tài nguyên không cần thiết để tiếp tục xử lý các trang tiếp theo mà không làm giảm độ chính xác của việc nhận diện ký tự.

Ý kiến chuyên gia & Nhận định

Các nhà phân tích tại The Decoder nhận định rằng việc tối ưu hóa cơ chế chú ý để quản lý bộ nhớ là một hướng đi thông minh. Thay vì chạy đua nâng cấp phần cứng hay tăng dung lượng GPU, việc cải tiến thuật toán cốt lõi giúp Unlimited OCR dễ dàng triển khai trên quy mô lớn với chi phí vận hành thấp hơn nhiều so với các giải pháp AI thế hệ cũ.

Tác động & Tương lai

Thành tựu này của Baidu mở ra triển vọng số hóa nhanh chóng các kho lưu trữ văn bản khổng lồ, từ hồ sơ pháp lý, tài liệu y khoa đến các đầu sách thư viện. Đối với cộng đồng công nghệ, phương pháp quản lý bộ nhớ thông minh này cũng có thể được ứng dụng rộng rãi cho các mô hình ngôn ngữ lớn (LLM) để xử lý ngữ cảnh siêu dài (long-context) hiệu quả hơn trong tương lai.