Một nhóm nghiên cứu từ UC Berkeley, Đại học Princeton, EPFL và Databricks vừa công bố nghiên cứu giới thiệu PixelRAG, một hệ thống RAG (Retrieval-Augmented Generation) thế hệ mới hoạt động hoàn toàn dựa trên hình ảnh thay vì chuyển đổi tài liệu sang dạng văn bản thuần túy. Phương pháp đột phá này giúp loại bỏ triệt để các sai sót phát sinh từ quá trình phân tích tài liệu (parsing) truyền thống, đồng thời cắt giảm tới 10 lần chi phí tài nguyên token cho các tác nhân trí tuệ nhân tạo (AI Agent).
Diễn biến
Phần lớn các hệ thống RAG doanh nghiệp hiện nay bắt đầu bằng việc sử dụng các bộ trích xuất văn bản (text parsers) để chuyển đổi trang web, tệp tin PDF hoặc tài liệu dạng bảng thành văn bản không cấu trúc trước khi lập chỉ mục (indexing). Tuy nhiên, bước chuyển đổi này vô tình phá hủy các tín hiệu định dạng trực quan quan trọng như bảng biểu, biểu đồ hay sơ đồ cấu trúc. Theo nghiên cứu mới, chính bước phân tích văn bản này là nguyên nhân gây ra phần lớn các câu trả lời sai lệch của mô hình.
PixelRAG giải quyết triệt để vấn đề này bằng cách bỏ qua hoàn toàn khâu chuyển đổi văn bản. Thay vào đó, tài liệu được xử lý trực tiếp dưới dạng hình ảnh thông qua các mô hình thị giác lớn (Vision-Language Models - VLMs).
Điểm mấu chốt giúp PixelRAG tối ưu hóa chi phí chính là kỹ thuật mã hóa hình ảnh hiệu quả cao. Thay vì gửi toàn bộ ảnh độ phân giải lớn của trang tài liệu vào mô hình (vốn tốn rất nhiều token), PixelRAG sử dụng một mạng nơ-ron thị giác nhỏ gọn để chuyển đổi hình ảnh thành các vector biểu diễn mật độ cao (dense embeddings). Nhờ đó, lượng token truyền vào mô hình AI giảm đến 90%, tương đương với việc cắt giảm 10 lần chi phí token khi vận hành các AI Agent phức tạp trên quy mô lớn.
Vì sao đáng chú ý
Đối với cộng đồng phát triển ứng dụng AI và RAG tại Việt Nam, chi phí token khi xử lý tài liệu đa phương tiện (multimodal documents) luôn là một bài toán hóc búa. Các tài liệu doanh nghiệp thực tế chứa rất nhiều bảng biểu và sơ đồ mà các bộ parser văn bản như PyPDF hay OCR thông thường thường xuyên trích xuất lỗi, dẫn đến hiện tượng "ảo tưởng" (hallucination) của AI.
Sự ra đời của PixelRAG không chỉ mở ra hướng đi mới giúp tăng cường độ chính xác cho hệ thống trả lời tự động mà còn giải quyết trực tiếp bài toán kinh tế cho doanh nghiệp bằng việc tối ưu hóa token. Đây hứa hẹn sẽ là một mảnh ghép công nghệ quan trọng thúc đẩy sự phát triển của các thế hệ AI Agent tự vận hành thông minh và tiết kiệm hơn trong tương lai gần.