Dữ liệu chất lượng cao là nguồn nhiên liệu không thể thiếu cho việc huấn luyện các mô hình học sâu hiện đại. Hầu hết dữ liệu được gán nhãn chuyên biệt cho từng tác vụ, như phân loại hay chú thích cho huấn luyện RLHF (Học tăng cường từ phản hồi của con người) cho các Mô hình Ngôn ngữ Lớn (LLM), đều đến từ quá trình chú thích của con người. Mặc dù có nhiều kỹ thuật ML giúp cải thiện chất lượng dữ liệu, nhưng về cơ bản, việc thu thập dữ liệu từ con người đòi hỏi sự tỉ mỉ và thực hiện cẩn trọng. Cộng đồng AI hiểu rõ giá trị của dữ liệu chất lượng, nhưng vẫn tồn tại một ấn tượng tinh tế rằng "Mọi người đều muốn làm việc với mô hình, chứ không phải với dữ liệu" (Sambasivan et al., 2021).
Bài viết này của Lilian Weng khám phá hai hướng tiếp cận chính để đạt được dữ liệu chất lượng cao, giúp các hệ thống AI trở nên mạnh mẽ và đáng tin cậy hơn.
Con Người ↔ Chất lượng Dữ liệu: Nền Tảng Từ Gốc 🌱
Thu thập dữ liệu từ con người là một quy trình gồm nhiều bước, và mỗi bước đều đóng góp vào chất lượng dữ liệu cuối cùng:
1. Thiết kế tác vụ: Thiết kế quy trình làm việc rõ ràng, giảm độ phức tạp. Hướng dẫn chi tiết rất hữu ích, nhưng nếu quá dài và phức tạp sẽ đòi hỏi nhiều thời gian đào tạo. 2. Tuyển chọn và đào tạo người đánh giá: Chọn người chú thích có kỹ năng phù hợp và đảm bảo tính nhất quán. Các buổi đào tạo, phản hồi định kỳ và hiệu chuẩn là rất cần thiết. 3. Thu thập và tổng hợp dữ liệu: Đây là giai đoạn có thể áp dụng nhiều kỹ thuật ML để làm sạch, lọc và tổng hợp dữ liệu thông minh nhằm xác định nhãn "đúng" thực sự.
#### Trí Tuệ Đám Đông (The Wisdom of the Crowd) 🧑🤝🧑 Khái niệm "Vox populi" (tiếng nói của dân chúng) đã được ghi nhận từ năm 1907 trên Nature, khi một nghiên cứu của Francis Galton chỉ ra rằng ước tính trung bình của một đám đông về trọng lượng một con bò đực béo rất gần với giá trị thực. Gần 100 năm sau, Callison-Burch (2009) đã tiên phong nghiên cứu việc sử dụng Amazon Mechanical Turk (AMT) để đánh giá dịch máy (MT) bởi những người không chuyên. Kết quả cho thấy, với các cơ chế điều chỉnh phù hợp, "đám đông" có thể tạo ra các bản dịch tham chiếu vàng mới với độ tương quan cao hơn so với bản dịch máy. Điều này nhấn mạnh tiềm năng của crowdsourcing, nhưng cũng chỉ ra thách thức về người chú thích "spam" và sự cần thiết của các lược đồ trọng số thông minh.
#### Đo lường sự đồng thuận của người đánh giá (Rater Agreement) 🤝 Để tìm ra nhãn "chân lý" đáng tin cậy, việc thu thập nhiều nhãn từ nhiều người đánh giá là điều cần thiết. Các phương pháp tổng hợp phổ biến bao gồm:
* Bỏ phiếu đa số (Majority Voting): Phương pháp đơn giản nhất, coi mỗi người chú thích đóng góp như nhau. * Độ đồng thuận thô (Raw agreement): Tính tỷ lệ những người khác đồng ý với một người chú thích cụ thể. * Cohen’s Kappa: Đo lường sự đồng thuận giữa các người đánh giá có tính đến yếu tố đồng thuận ngẫu nhiên, dù đôi khi bị chỉ trích là ước tính quá cao nếu một nhãn quá phổ biến. * Mô hình đồ thị xác suất (Probabilistic Graph Modeling): Các mô hình như MACE (Hovy et al., 2013) giúp ước tính khả năng một người chú thích là "spammer" (cung cấp nhãn ngẫu nhiên) bằng cách mô hình hóa xác suất hành vi chú thích của họ.
#### Sự bất đồng của người đánh giá và hai mô hình (Rater Disagreement & Two Paradigms) 💬 Mô hình tổng hợp nhãn thường dựa trên giả định có một câu trả lời vàng duy nhất. Tuy nhiên, trong nhiều lĩnh vực chủ quan (an toàn, xã hội, văn hóa), sự bất đồng là điều tự nhiên và thường là hợp lệ. Aroyo & Welty (2015) đã thách thức một số "huyền thoại" về chú thích, chỉ ra rằng: * Thường có nhiều hơn một cách diễn giải chính xác. * Sự bất đồng không phải lúc nào cũng xấu; nó có thể cung cấp thông tin phong phú. * Hướng dẫn chi tiết hơn không giải quyết được sự đa dạng ý kiến bẩm sinh. * Nhãn "chân lý" có thể thay đổi theo thời gian.
Rottger et al. (2021) đã định hình sự khác biệt này thành hai mô hình chú thích dữ liệu đối lập cho các tác vụ NLP chủ quan:
| Khía cạnh | Mô hình Mô tả (Descriptive) | Mô hình Quy định (Prescriptive) | | :---------------- | :------------------------------------------------ | :------------------------------------------------- | | Định nghĩa | Khuyến khích tính chủ quan, cố gắng mô hình hóa nhiều niềm tin. | Không khuyến khích tính chủ quan, cố gắng áp dụng một niềm tin nhất quán. | | Ưu điểm | - Giúp xác định các mục chủ quan hơn; - Đón nhận sự đa dạng. | - Phù hợp với thiết lập NLP tiêu chuẩn; - Dễ dàng kiểm soát chất lượng bằng cách đo sự bất đồng hoặc tổng hợp nhãn. | | Nhược điểm | - Khó sử dụng các chỉ số như bất đồng để đo chất lượng; - Không thể dùng để huấn luyện mô hình cho một hành vi đặt trước. | - Tốn kém, khó tạo hướng dẫn chất lượng cao; - Khó đào tạo người chú thích; - Không nắm bắt được sự đa dạng ý kiến hoặc mã hóa một niềm tin cụ thể. |
Mô hình mô tả cho phép chúng ta hiểu các yếu tố đa dạng, ví dụ như danh tính của người chú thích (Goyal et al., 2022) hoặc chủ đề nội dung (Wang etol., 2023) có thể ảnh hưởng đến nhãn. Zhang et al. (2023) đã đề xuất một phân loại nguyên nhân gây bất đồng, bao gồm lỗi ngẫu nhiên, thiếu nhất quán cá nhân (cần tránh), và sự đa dạng ý kiến có giá trị. Các phương pháp như Disagreement Deconvolution (Gordon et al., 2021) cố gắng tách biệt ý kiến ổn định khỏi lỗi ngẫu nhiên.
Để học cách dự đoán nhãn khi có sự bất đồng có hệ thống, Davani et al. (2021) đã thử nghiệm các mô hình đa chú thích viên, trong đó multi-task model (mỗi chú thích viên có một lớp MLP dự đoán riêng) đạt hiệu suất tốt nhất và cung cấp ước tính độ không chắc chắn. Jury Learning (Gordon et al., 2022) còn đi xa hơn, mô hình hóa hành vi chú thích của từng cá nhân dựa trên đặc điểm của họ để đưa ra quyết định cuối cùng thông qua việc tổng hợp từ nhiều "ban giám khảo" ảo.
Chất lượng Dữ liệu ↔ Huấn luyện Mô hình: Lọc Bỏ "Tạp Chất" 🧹
Sau khi dữ liệu được xây dựng, nhiều phương pháp có thể giúp xác định nhãn sai dựa trên động lực huấn luyện mô hình. Chúng ta tập trung vào các phương pháp tìm và loại trừ các điểm dữ liệu có nhãn có khả năng không chính xác.
#### Hàm Ảnh hưởng (Influence Functions) 📈 Hàm ảnh hưởng là một kỹ thuật cổ điển từ thống kê mạnh mẽ (Hampel, 1974) để đo lường tác động của các điểm dữ liệu huấn luyện. Koh & Liang (2017) đã áp dụng khái niệm này cho mạng nơ-ron sâu. Nó mô tả cách các tham số mô hình thay đổi khi chúng ta tăng trọng số một điểm dữ liệu huấn luyện lên một lượng nhỏ. Kỹ thuật này có thể giúp xấp xỉ việc huấn luyện lại mô hình khi bỏ đi một điểm dữ liệu mà không cần thực sự chạy tất cả các lần huấn luyện lại. Bằng cách đo influence of upweighting trên hàm mất mát của chính điểm dữ liệu đó (up_loss(z, z)), chúng ta có thể xác định các điểm dữ liệu có thể bị gán nhãn sai.
#### Thay đổi dự đoán trong quá trình huấn luyện (Prediction Changes during Training) 🔄 Một nhóm phương pháp khác theo dõi sự thay đổi trong dự đoán của mô hình trong quá trình huấn luyện để xác định các trường hợp khó học:
* Bản đồ dữ liệu (Data Maps) (Swayamdipta et al., 2020): Theo dõi Độ tin cậy (xác suất trung bình của nhãn đúng) và Biến thiên (độ lệch chuẩn của xác suất nhãn đúng) qua các epoch. Các mẫu khó học (độ tin cậy thấp, biến thiên thấp) thường có khả năng bị gán nhãn sai. * Sự kiện quên (Forgetting Events) (Toneva et al., 2019): Theo dõi khi nào mô hình thay đổi việc phân loại một mẫu từ đúng sang sai hoặc ngược lại. Các mẫu có thể quên (forgettable) thường là những mẫu có nhãn nhiễu hoặc có đặc điểm hình ảnh "không phổ biến". Các mẫu không thể quên (unforgettable) có thể được loại bỏ an toàn mà không ảnh hưởng đến hiệu suất mô hình. * AUM (Area under the Margin) (Pleiss et al., 2020): Phát hiện nhãn sai dựa trên giả định rằng các mẫu bị gán nhãn sai sẽ có lề (margin) nhỏ hơn so với các mẫu đúng. Lề là sự khác biệt giữa logit của lớp được gán và logit lớn thứ hai. AUM tích lũy lề này qua các epoch.
#### Kiểm định chéo nhiễu (Noisy Cross-Validation - NCV) ✖️ Phương pháp NCV (Chen et al., 2019) chia ngẫu nhiên tập dữ liệu thành hai nửa. Một mẫu được coi là "sạch" nếu nhãn của nó khớp với nhãn dự đoán của mô hình được huấn luyện trên nửa còn lại của tập dữ liệu. INCV (Iterative NCV) là phiên bản lặp lại của NCV, nơi các mẫu "sạch" được thêm vào tập đáng tin cậy và các mẫu "nhiễu" được loại bỏ dần.
Kết Luận ✨
Việc đầu tư vào chất lượng dữ liệu "con người" không chỉ là một công đoạn kỹ thuật mà còn là một nghệ thuật, đòi hỏi sự hiểu biết sâu sắc về cả yếu tố con người và khả năng phân tích của máy học. Bằng cách áp dụng các phương pháp từ việc thiết kế quy trình chú thích thông minh đến việc tận dụng động lực học của mô hình, chúng ta có thể xây dựng nền tảng dữ liệu vững chắc, giúp các mô hình AI trở nên đáng tin cậy và hiệu quả hơn trong mọi ứng dụng. Đây là bước đi then chốt để khai thác toàn bộ tiềm năng của AI trong tương lai. 🌟