Cognitive Lab vừa chính thức ra mắt NayanaOCR Corpus, bộ dữ liệu hình ảnh tài liệu nguồn mở chứa hơn 1 triệu hình ảnh trải dài trên 22 ngôn ngữ khác nhau. Đây là bộ dữ liệu tài liệu tổng hợp (synthetic) đa ngôn ngữ lớn nhất hiện nay hỗ trợ phát triển các mô hình nhận diện ký tự quang học (OCR).
Bối cảnh
Trong lĩnh vực AI, việc huấn luyện mô hình OCR hiệu quả đòi hỏi lượng lớn dữ liệu hình ảnh chất lượng. Tuy nhiên, việc thu thập thủ công thường gặp rào cản về chi phí và quyền riêng tư. Do đó, xu hướng sử dụng dữ liệu tổng hợp (synthetic data) đang trở thành giải pháp thay thế quan trọng.
Diễn biến
Theo Cognitive Lab, NayanaOCR Corpus cung cấp kho lưu trữ khổng lồ với hơn 1 triệu hình ảnh tài liệu được tạo tự động nhưng vẫn đảm bảo độ chính xác. Bộ dữ liệu được thiết kế phục vụ cho các tác vụ đa nhiệm và đa phương thức. Việc phát hành miễn phí bộ dữ liệu này sẽ giúp các nhà phát triển tối ưu hóa công nghệ trích xuất văn bản nhanh chóng hơn.
Vì sao đáng chú ý
Đối với cộng đồng AI Việt Nam, các bộ dữ liệu mở quy mô lớn như NayanaOCR mở ra cơ hội tiếp cận tài nguyên chất lượng mà không tốn kém chi phí xây dựng. Việc hỗ trợ 22 ngôn ngữ giúp kỹ sư dễ dàng thử nghiệm khả năng đa ngôn ngữ của mô hình. Tuy nhiên, hiệu quả thực tế của dữ liệu tổng hợp đối với tiếng Việt vẫn cần được kiểm chứng qua các ứng dụng thực tế.