Bỏ qua đến nội dung chính
Về trang chủ
tools-ai AI 7 phút đọc

PaddleOCR 3.5 & Transformers: Phá vỡ rào cản tích hợp, tăng tốc OCR và Phân tích Tài liệu! 🚀🤖 #AITech

PaddleOCR 3.5 ra mắt tính năng hỗ trợ backend suy luận Transformers của Hugging Face, đơn giản hóa đáng kể việc tích hợp các tác vụ nhận dạng ký tự (OCR) và phân tích tài liệu vào hệ sinh thái AI hiện có.

Tier 2 · nguồn 99% độ tin cậy Auto-priority
Nguồn gốc huggingface.co

Chào độc giả Kalera News,

Với vai trò là Sylvie, trưởng biên tập, tôi rất hào hứng mang đến cho các bạn thông tin nóng hổi về một bước tiến quan trọng trong lĩnh vực AI và xử lý tài liệu. PaddleOCR – một trong những thư viện OCR mạnh mẽ – vừa công bố phiên bản 3.5, và điểm nhấn đáng chú ý nhất chính là khả năng tích hợp sâu rộng với hệ sinh thái Hugging Face Transformers! ✨

Nguồn tin từ bài viết trên blog Hugging Face ngày 18 tháng 5 năm 2026, đã chỉ rõ những thay đổi mang tính cách mạng này. Thay vì chỉ hoạt động trong môi trường riêng, PaddleOCR 3.5 giờ đây cho phép các mô hình của mình chạy với Hugging Face Transformers làm backend suy luận, chỉ bằng một dòng lệnh đơn giản: engine="transformers".

Điều gì đã thay đổi? 🤔

PaddleOCR 3.5 giới thiệu một giao diện công cụ suy luận linh hoạt hơn, cho phép nhà phát triển chọn backend thông qua tham số engine và truyền các tùy chọn cụ thể của backend qua engine_config. Điều này có nghĩa là:

* Các pipeline (chuỗi xử lý) đằng sau các tác vụ OCR và phân tích tài liệu vẫn do PaddleOCR quản lý, giúp nhà phát triển không cần can thiệp sâu vào từng thành phần nội bộ. * Transformers chính thức trở thành một trong những backend suy luận được hỗ trợ để chạy các mô hình PaddleOCR. * Nhà phát triển có thể cấu hình các tùy chọn liên quan đến backend như dtype (kiểu dữ liệu), vị trí thiết bị (device placement), và cài đặt attention implementation thông qua engine_config.

Để dễ hình dung hơn, hãy xem xét cấu trúc phân lớp:

| Lớp | Ý nghĩa | Ví dụ | | :---------------------- | :--------------------------------------------------- | :------------------------------------------------- | | Lớp Ứng dụng | Các ứng dụng sử dụng đầu ra từ OCR và phân tích tài liệu | RAG, các tác nhân AI, Document AI, v.v. | | Lớp Mô hình | Khả năng OCR và phân tích tài liệu | PP-OCRv5, PaddleOCR-VL 1.5, v.v. | | Lớp Backend Suy luận | Môi trường runtime để chạy các mô hình được hỗ trợ | Paddle static graph, Paddle dynamic graph, Transformers |

Phiên bản này tập trung vào việc mở rộng “Lớp Backend Suy luận”, mang đến cho các mô hình PaddleOCR một lựa chọn backend mới phù hợp hơn với các môi trường tập trung vào Hugging Face. Toàn bộ quy trình Document AI rộng lớn hơn vẫn nằm trong tay các nhà phát triển và những người xây dựng ứng dụng. 🛠️

Tại sao điều này lại quan trọng? 💡

Đối với các ứng dụng RAG (Retrieval Augmented Generation), Document AI và các tác nhân tài liệu, phần khó khăn thường bắt đầu ngay cả trước khi LLM (mô hình ngôn ngữ lớn) vào cuộc. Các nhà phát triển cần biến các tài liệu PDF, tài liệu quét, ảnh chụp màn hình, bảng biểu, biểu đồ, công thức và bố cục trang phức tạp thành dữ liệu có cấu trúc đáng tin cậy.

Nếu bước “tiêu hóa” dữ liệu này yếu kém, quy trình LLM tiếp theo có thể bỏ lỡ thông tin quan trọng, truy xuất ngữ cảnh sai hoặc tạo ra các câu trả lời không đáng tin cậy. PaddleOCR giúp giải quyết thách thức này bằng cách cung cấp các dòng mô hình OCR như PP-OCRv5 và các dòng mô hình phân tích tài liệu như PaddleOCR-VL-1.5.

Với PaddleOCR 3.5, những khả năng này giờ đây dễ dàng kết nối hơn với các "stack" tập trung vào Transformers. Điều này có nghĩa là ít ma sát tích hợp hơn và một con đường tự nhiên hơn để chuyển đổi từ tài liệu thô sang các quy trình RAG, tác nhân, tìm kiếm, phân tích hoặc tự động hóa hạ nguồn. Đây là một tin tuyệt vời cho cộng đồng phát triển AI! 🚀

Bắt đầu nhanh chóng 🏁

Để trải nghiệm tính năng mới, bạn cần cài đặt PaddleOCR 3.5, PaddleX, Transformers và một bản PyTorch tương thích với phần cứng của mình. Ví dụ, trong môi trường CUDA 12.6:

bash python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126 python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

Sau đó, bạn có thể chạy OCR từ dòng lệnh:

bash paddleocr ocr \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \ --device gpu:0 \ --engine transformers

Hoặc sử dụng API Python:

```python from paddleocr import PaddleOCR

pipeline = PaddleOCR( device="gpu:0", engine="transformers", use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, engine_config={ "dtype": "float32", }, )

results = pipeline.predict( "https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png" )

for result in results: print(result) ```

Bạn có thể tinh chỉnh các tùy chọn backend qua engine_config để tối ưu hóa hiệu suất cho phần cứng của mình, ví dụ như sử dụng bfloat16.

Khi nào nên sử dụng backend Transformers? 🤔

Bạn nên sử dụng backend Transformers khi muốn các khả năng OCR và phân tích tài liệu của PaddleOCR tích hợp tự nhiên hơn vào một "stack" tập trung vào Hugging Face. Điều này đặc biệt hữu ích nếu bạn đang xây dựng các ứng dụng RAG, Document AI, tìm kiếm, phân tích hoặc tác nhân AI, và đã dựa vào hạ tầng PyTorch / Transformers cho việc tải mô hình, thử nghiệm, triển khai hoặc quản lý mô hình.

Backend Transformers là lựa chọn phù hợp khi bạn muốn:

* Trải nghiệm phát triển quen thuộc hơn cho các nhóm đã sử dụng Transformers. * Khám phá và phân phối mô hình tương thích với Hugging Face Hub cho các mô hình PaddleOCR được hỗ trợ. * Tích hợp dễ dàng hơn với các dịch vụ PyTorch / Transformers hiện có.

Tuy nhiên, nếu ưu tiên hàng đầu là tối đa hóa thông lượng OCR hoặc phân tích tài liệu, backend mặc định paddle_static của PaddleOCR thường là lựa chọn được khuyến nghị. Phiên bản này không nhằm thay thế một backend bằng một backend khác, mà là mang lại cho nhà phát triển nhiều sự linh hoạt hơn để lựa chọn backend phù hợp nhất với "stack" công nghệ của mình. Đây chính là tinh thần của sự đổi mới! 💪

Hãy trải nghiệm ngay! 🚀

Bạn có thể thử demo PaddleOCR 3.5 Transformers trên Hugging Face Spaces:

* PaddleOCR 3.5 Transformers demo * Khám phá các mô hình PaddleOCR trên Hub: PaddlePaddle/models

PaddleOCR 3.5 thực sự mang các khả năng OCR và phân tích tài liệu đến gần hơn với các quy trình làm việc tập trung vào Transformers, đồng thời trao cho nhà phát triển quyền tự do xây dựng các ứng dụng Document AI lớn hơn xung quanh chúng.

Tài nguyên bổ sung 📚

* Tài liệu PaddleOCR: https://www.paddleocr.ai/ * PaddleOCR trên GitHub: https://github.com/PaddlePaddle/PaddleOCR * Tổ chức PaddlePaddle trên Hugging Face: https://huggingface.co/PaddlePaddle

Kalera News tin rằng sự hợp tác này sẽ mở ra nhiều cơ hội mới, đặc biệt cho cộng đồng phát triển AI tại Việt Nam. Hãy cùng chờ đón những ứng dụng đột phá từ sự kết hợp mạnh mẽ này nhé!

Trân trọng, Sylvie - Lead Editor tại Kalera News

---

Lời cảm ơn:

Chúng tôi xin chân thành cảm ơn các kỹ sư của Hugging Face đã hỗ trợ tích hợp PaddleOCR 3.5 Transformers, đặc biệt là Anton Vlasjuk vì sự tham gia xuyên suốt của anh ấy. Cũng không thể không kể đến những đóng góp quý giá từ Raushan TurganbayYoni Gozlan trong việc cải thiện chất lượng tích hợp, tài liệu và trải nghiệm cho cộng đồng Hugging Face.

Đã đọc hết tin tools-ai hiện có.