AI tools-ai 15 thg 6, 2026 12 phút đọc

Ảo Giác Ngoại Sinh của LLM: Hiểu Rõ Nguyên Nhân và Giải Pháp Chống Lại 'Lời Nói Dối' từ AI 🤖❌

Ảo giác ngoại sinh trong LLM là khi AI tạo ra thông tin sai lệch không có cơ sở thực tế; bài viết này của Lilian Weng phân tích nguyên nhân sâu xa, các phương pháp phát hiện tinh vi và loạt giải pháp chống lại 'lời nói dối' từ AI để đảm bảo tính xác thực.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc lilianweng.github.io

Trong thế giới các Mô hình Ngôn ngữ Lớn (LLM), thuật ngữ 'ảo giác' thường dùng để chỉ việc mô hình tạo ra nội dung sai lệch, bịa đặt, không nhất quán hoặc phi lý. Tuy nhiên, Lilian Weng, trong bài viết chuyên sâu của mình, thu hẹp định nghĩa này, tập trung vào ảo giác ngoại sinh (extrinsic hallucination) – khi đầu ra của mô hình hoàn toàn không có cơ sở từ ngữ cảnh được cung cấp hoặc kiến thức thế giới. 🤯

Có hai loại ảo giác chính: * Ảo giác nội ngữ cảnh (In-context hallucination): Đầu ra của mô hình không nhất quán với nội dung nguồn trong ngữ cảnh được cung cấp. * Ảo giác ngoại sinh (Extrinsic hallucination): Đầu ra của mô hình không được củng cố bởi tập dữ liệu tiền huấn luyện, hoặc nói rộng hơn là không đúng với kiến thức thế giới thực.

Bài viết này của Lilian Weng sẽ đi sâu vào ảo giác ngoại sinh, một vấn đề cốt lõi yêu cầu LLM phải (1) chính xác về mặt dữ kiện và (2) thừa nhận khi không biết câu trả lời. 💡

Nguyên nhân gây ra ảo giác ngoại sinh ❓

Một LLM tiêu chuẩn trải qua quá trình tiền huấn luyện và tinh chỉnh để căn chỉnh (alignment) và cải thiện hiệu suất. Chúng ta hãy xem xét các nguyên nhân ở cả hai giai đoạn này.

#### 1. Vấn đề dữ liệu tiền huấn luyện Tập dữ liệu tiền huấn luyện có dung lượng khổng lồ, được coi là đại diện cho kiến thức thế giới. Dữ liệu này thường được thu thập từ Internet công cộng, nên việc nó lỗi thời, thiếu sót hoặc chứa thông tin không chính xác là điều khó tránh khỏi. Khi mô hình ghi nhớ sai những thông tin này bằng cách tối đa hóa log-likelihood, ảo giác sẽ xuất hiện. 📚

#### 2. Tinh chỉnh kiến thức mới Tinh chỉnh một LLM đã tiền huấn luyện thông qua supervised fine-tuning (SFT) và RLHF là kỹ thuật phổ biến để cải thiện khả năng của mô hình. Tuy nhiên, việc đưa kiến thức mới vào giai đoạn tinh chỉnh lại là một thách thức lớn. Nghiên cứu của Gekhman et al. (2024) chỉ ra rằng: * LLM học các ví dụ có kiến thức mới chậm hơn so với các ví dụ có kiến thức phù hợp với tri thức đã có. * Khi các ví dụ kiến thức mới này được học, chúng lại làm tăng xu hướng ảo giác của mô hình. ⚠️

Thí nghiệm cho thấy hiệu suất tốt nhất đạt được khi LLM học phần lớn các ví dụ 'đã biết' nhưng chỉ một số ít ví dụ 'chưa biết'. Mô hình bắt đầu 'ảo giác' khi nó cố gắng học quá nhiều ví dụ 'chưa biết'. Điều này nhấn mạnh rủi ro khi sử dụng SFT để cập nhật kiến thức cho LLM.

Phát hiện ảo giác trong LLM 🔬

Làm thế nào để chúng ta nhận diện và định lượng ảo giác? Các phương pháp sau đây đang được nghiên cứu và áp dụng.

#### 1. Đánh giá tăng cường truy xuất (Retrieval-Augmented Evaluation) Các phương pháp này dựa trên việc so sánh đầu ra của mô hình với một cơ sở kiến thức bên ngoài đáng tin cậy. * FactualityPrompt (Lee et al., 2022): Một tập dữ liệu mới dùng tài liệu Wikipedia làm cơ sở tri thức. Hai chỉ số chính là lỗi thực thể định danh (NE errors) và tỷ lệ suy luận (entailment ratios). Lỗi NE thấp và tỷ lệ suy luận cao cho thấy tính xác thực cao hơn. * FActScore (Min et al., 2023): Phân tách một phản hồi dài thành nhiều sự thật nhỏ (atomic facts) và xác thực từng sự thật đó với cơ sở kiến thức như Wikipedia. Quan sát thú vị: tỷ lệ lỗi cao hơn đối với các thực thể hiếm hoặc các sự thật được đề cập sau trong quá trình tạo văn bản. * SAFE (Wei et al., 2024): (Search-Augmented Factuality Evaluator) Một phương pháp đánh giá tính xác thực văn bản dài, sử dụng LLM làm tác nhân (agent) để thực hiện các truy vấn Google Search lặp đi lặp lại và suy luận xem kết quả tìm kiếm có hỗ trợ sự thật hay không. Kết quả cho thấy SAFE vượt trội hơn cả người đánh giá về hiệu quả và chi phí. 📈 * FacTool (Chern et al., 2023): Một khung kiểm tra tính xác thực linh hoạt, bao gồm 4 bước: Trích xuất yêu cầu (claims), Tạo truy vấn, Truy vấn công cụ & thu thập bằng chứng, và Xác minh đồng thuận.

#### 2. Phát hiện dựa trên lấy mẫu (Sampling-Based Detection) * SelfCheckGPT (Manakul et al., 2023): Phương pháp này dựa trên việc kiểm tra tính nhất quán giữa phản hồi của mô hình và nhiều mẫu ngẫu nhiên khác được tạo ra bởi cùng một LLM. Nó không yêu cầu cơ sở kiến thức bên ngoài, chỉ cần truy cập 'black-box' vào mô hình. SelfCheckGPT so sánh các mẫu bằng các chỉ số như BERTScore, NLI hoặc thậm chí tự hỏi mô hình bằng cách tạo lời nhắc ('prompting').

#### 3. Hiệu chỉnh kiến thức không rõ (Calibration of Unknown Knowledge) Đo lường khả năng của mô hình khi đối mặt với các câu hỏi không thể trả lời hoặc chưa biết. * TruthfulQA (Lin et al., 2021): Tập dữ liệu gồm 817 câu hỏi được tạo ra đối nghịch (adversarially), tập trung vào các quan niệm sai lầm phổ biến của con người. Mục tiêu là kiểm tra liệu mô hình có thể đưa ra câu trả lời trung thực hay không. * SelfAware (Yin et al., 2023): Chứa 1.032 câu hỏi không thể trả lời và 2.337 câu hỏi có thể trả lời. Các mô hình lớn hơn cho thấy khả năng phân loại câu hỏi có thể trả lời/không thể trả lời tốt hơn. * Ngoài ra, việc đo lường độ không chắc chắn của đầu ra cũng giúp đánh giá nhận thức của mô hình về kiến thức chưa biết. Kadavath et al. (2022) cho thấy LLM được hiệu chỉnh tốt về xác suất độ chính xác, nhưng fine-tuning bằng RLHF có thể làm giảm khả năng này.

#### 4. Truy vấn gián tiếp (Indirect Query) Agrawal et al. (2023) đã nghiên cứu ảo giác trong việc tạo ra các tham chiếu (sách, bài báo, tiêu đề giả mạo). Họ phát hiện rằng truy vấn gián tiếp – hỏi các chi tiết phụ trợ (ví dụ: tác giả của bài báo đó là ai?) thay vì hỏi trực tiếp tài liệu đó có tồn tại hay không – hiệu quả hơn trong việc phát hiện các tham chiếu bịa đặt. 🧐

Các phương pháp chống ảo giác hiệu quả 💪

Để nâng cao tính xác thực của LLM, cộng đồng nghiên cứu đã phát triển nhiều phương pháp, từ việc tăng cường truy xuất kiến thức bên ngoài đến các kỹ thuật tinh chỉnh đặc biệt.

#### 1. RAG (Retrieval-Augmented Generation) → Chỉnh sửa và gán nguồn RAG là cách tiếp cận phổ biến để cung cấp thông tin nền tảng bằng cách truy xuất các tài liệu liên quan và tạo ra phản hồi với ngữ cảnh bổ sung. * RARR (Gao et al., 2022): (Retrofit Attribution using Research and Revision) Một khung gồm hai bước: Giai đoạn Nghiên cứu (tìm tài liệu làm bằng chứng qua Google Search) và Giai đoạn Sửa đổi (chỉnh sửa văn bản không được bằng chứng hỗ trợ, đồng thời giữ nguyên nội dung gốc). * FAVA (Mishra et al., 2024): (Factuality Verification with Augmented Knowledge) Tương tự RARR, FAVA cũng truy xuất tài liệu và chỉnh sửa đầu ra. Tuy nhiên, mô hình chỉnh sửa của FAVA cần được tinh chỉnh bằng dữ liệu tổng hợp. * Rethinking with retrieval (RR) (He et al., 2022): Phương pháp này sử dụng CoT prompting để phân tách suy luận, truy xuất kiến thức bên ngoài cho mỗi phần giải thích và sau đó chọn câu trả lời trung thực nhất dựa trên mức độ phù hợp với kiến thức đã truy xuất. * Self-RAG (Asai et al., 2024): LLM được huấn luyện end-to-end để tự phản ánh về nội dung nó tạo ra, bằng cách xuất ra các "reflection tokens" đặc biệt (như Retrieve để quyết định có nên truy xuất hay không, IsRel để kiểm tra độ liên quan, IsSup để đánh giá sự hỗ trợ của bằng chứng, và IsUse để đánh giá mức độ hữu ích). Điều này giúp mô hình tự điều chỉnh và cải thiện chất lượng đầu ra. ✨

#### 2. Chuỗi hành động (Chain of Actions) Thiết kế một quy trình để mô hình tự thực hiện xác minh và sửa đổi mà không cần truy xuất kiến thức bên ngoài. * Chain-of-Verification (CoVe) (Dhuliawala et al., 2023): Phương pháp này gồm bốn bước cốt lõi: 1) Tạo phản hồi ban đầu, 2) Lập kế hoạch xác minh (tạo các câu hỏi kiểm tra), 3) Thực hiện xác minh độc lập các câu hỏi đó, 4) Tạo đầu ra cuối cùng đã tinh chỉnh. CoVe hai bước và có yếu tố phát hiện mâu thuẫn được chứng minh là giảm ảo giác hiệu quả. * RECITE (Sun et al., 2023): (Recitation-augmented generation) LLM được yêu cầu "tuyên đọc" thông tin liên quan từ trí nhớ Transformer của nó trước khi tạo ra câu trả lời. Điều này giúp cải thiện độ chính xác thực tế.

#### 3. Phương pháp lấy mẫu (Sampling Methods) * Factual-nucleus sampling (Lee et al., 2022): Dựa trên giả thuyết rằng ngẫu nhiên trong lấy mẫu gây hại cho tính xác thực nhiều hơn ở phần sau của câu. Thuật toán này điều chỉnh động xác suất trong quá trình lấy mẫu token cho mỗi câu, giảm sự ngẫu nhiên ở cuối câu để tăng tính xác thực mà vẫn duy trì sự đa dạng. * Inference-Time Intervention (ITI) (Li et al., 2023): Nghiên cứu này tìm ra các 'attention heads' trong mô hình có tương quan với tính trung thực. Sau đó, trong quá trình suy luận, ITI sẽ dịch chuyển các kích hoạt của những attention heads được chọn này theo hướng 'trung thực' hơn.

#### 4. Tinh chỉnh cho tính xác thực (Fine-tuning for Factuality) Trực tiếp huấn luyện mô hình để trở nên trung thực hơn. * FLAME (Lin et al., 2024): (Factuality-Aware Alignment) Huấn luyện căn chỉnh (SFT + RLHF) tập trung đặc biệt vào tính xác thực. Giai đoạn SFT tạo dữ liệu huấn luyện chính xác hơn (đo bằng FActScore). Giai đoạn RLHF sử dụng FActScore làm tín hiệu thưởng. * Factuality tuning (Tian & Mitchell et al., 2024): Ước tính tính trung thực của các tuyên bố nguyên tử (qua kiểm tra tham chiếu hoặc độ tin cậy của mô hình) và sau đó sử dụng kỹ thuật DPO để tinh chỉnh mô hình.

#### 5. Tinh chỉnh để gán nguồn (Fine-tuning for Attribution) Huấn luyện LLM để tiêu thụ nội dung đã truy xuất và gán nguồn một cách chất lượng cao. * WebGPT (Nakano et al., 2022): Kết hợp tìm kiếm web với mô hình GPT đã tinh chỉnh để trả lời các câu hỏi dài và cung cấp tham chiếu từ các trang web. Mô hình học cách tương tác với trình duyệt web và trích dẫn thông tin. * GopherCite (Menick et al., 2022): Tương tự WebGPT, GopherCite cũng sử dụng công cụ tìm kiếm và huấn luyện RL từ ưu tiên của con người. Có thêm chiến lược 'dự đoán chọn lọc' để mô hình từ chối trả lời nếu không đủ tự tin.

Kết luận ✨

Việc chống lại ảo giác ngoại sinh là một cuộc chiến không ngừng nghỉ để xây dựng những LLM thực sự đáng tin cậy. Từ việc cải thiện dữ liệu tiền huấn luyện, phát triển các công cụ phát hiện tinh vi, đến các chiến lược tinh chỉnh và RAG tiên tiến, cộng đồng nghiên cứu đang nỗ lực không ngừng để giảm thiểu 'lời nói dối' từ AI. Kalera News tin rằng, một tương lai AI minh bạch và chính xác chỉ có thể đạt được khi chúng ta hiểu rõ và giải quyết triệt để những thách thức này. Đây là bước đi quan trọng để AI trở thành một công cụ thông tin đáng tin cậy cho mọi người. 🚀