GitHub vừa chính thức công bố Bộ Dữ liệu Kho Lưu Trữ Đa Ngôn Ngữ của GitHub – một tập hợp siêu dữ liệu khổng lồ cấp độ kho lưu trữ, được thiết kế đặc biệt nhằm hỗ trợ các nhà nghiên cứu và phát triển trong việc xác định những kho GitHub công khai có chứa nội dung ngôn ngữ tự nhiên không phải tiếng Anh. Động thái này thực hiện một cam kết được đưa ra vào năm 2025 theo Cam kết Kỹ thuật số Châu Âu của Microsoft, với mục tiêu làm cho dữ liệu đa ngôn ngữ dễ tiếp cận hơn đối với các nhà phát triển AI nguồn mở. Mục tiêu cuối cùng là xây dựng các hệ thống AI hiểu rõ hơn về "ngôn ngữ" đặc thù của quá trình cộng tác phần mềm (ví dụ: hướng dẫn cài đặt, báo cáo lỗi và đánh giá mã), vốn khác biệt đáng kể so với văn bản web thông thường.
💡 Phát hiện & Thống kê Đáng chú ý
Trong quá trình xây dựng bộ dữ liệu, GitHub đã ghi nhận các mô hình phân bổ ngôn ngữ riêng biệt trên các loại văn bản khác nhau trong kho lưu trữ: - Tiếng Hàn là ngôn ngữ phi tiếng Anh phổ biến nhất trong các văn bản "issue" (vấn đề), nhưng chỉ đứng thứ năm trong các tệp README. - Tiếng Bồ Đào Nha dẫn đầu danh sách README phi tiếng Anh với hơn 3 triệu kho lưu trữ. - Quy mô Bộ dữ liệu: Hơn 80 triệu dòng phân loại trên hơn 40 triệu kho lưu trữ công khai.
🔍 Bộ Dữ liệu Này Chứa Gì?
Bộ dữ liệu được thiết kế có chủ đích như một công cụ khám phá siêu dữ liệu chứ không phải là một bãi chứa nội dung thô.
1. Nguồn Văn bản & Lấy mẫu
Đối với mỗi kho lưu trữ công khai, bộ dữ liệu sẽ phân tích: - Tệp README - Issue được bình luận nhiều nhất - Pull Request được bình luận nhiều nhất - Lưu ý: 150 ký tự đầu tiên của mỗi nguồn được sử dụng làm mẫu đầu vào. Các văn bản dưới 20 ký tự bị loại trừ.
2. Công cụ Phân loại Ngôn ngữ
Để người dùng có thể tùy chỉnh độ chính xác và khả năng thu hồi, GitHub cung cấp các phân loại từ ba công cụ riêng biệt (chỉ bao gồm các phân loại với điểm tin cậy > 0.5): - fastText - gcld3 (CLD3 của Google) - lingua-py
3. Siêu dữ liệu Kho lưu trữ Được Bao gồm
- Thời gian tạo - Dung lượng đĩa - Số lượng sao và lượt fork - Ngôn ngữ lập trình chính - Giấy phép SPDX - Số lượng issue và pull request - Ngày chụp nhanh dữ liệu
🛠️ Các Trường hợp Sử dụng: Bạn có thể Xây dựng Gì?
Bộ dữ liệu này mở ra nhiều khả năng mới: - Khám phá: Tìm kiếm các kho lưu trữ chứa tài liệu phát triển hoặc hoạt động cộng tác bằng các ngôn ngữ cụ thể, ngôn ngữ ít tài nguyên hoặc ngôn ngữ khu vực. - Nghiên cứu Cộng đồng: Phân tích cách các cộng đồng nhà phát triển phi tiếng Anh tương tác thông qua các "issue", "PR" và tệp README. - Đào tạo & Đánh giá AI: Xây dựng các bộ dữ liệu đánh giá cho các công cụ lập trình AI, trình tạo tài liệu hoặc trợ lý đánh giá PR để đảm bảo hiệu quả đa ngôn ngữ. - Vận động: Sử dụng các lập luận dựa trên dữ liệu để khuyến khích các nhà hoạch định chính sách mở rộng phạm vi hỗ trợ ngôn ngữ cho các công cụ phát triển. - Đo lường Đại diện: Theo dõi mức độ đại diện của các ngôn ngữ Châu Âu và các ngôn ngữ ít được đại diện trong mã nguồn mở.
⚠️ Lưu ý & Hạn chế Quan trọng
Tuy nhiên, cần có một cái nhìn thận trọng về những giới hạn của bộ dữ liệu này: - Không phải là Tiêu chuẩn "Ground-Truth": Việc nhận dạng ngôn ngữ trong các kho mã nguồn là một thách thức lớn do văn bản ngắn, huy hiệu, mẫu, đoạn mã và nội dung pha trộn nhiều ngôn ngữ. Một mẫu 150 ký tự có thể không đại diện đầy đủ cho toàn bộ kho lưu trữ. Điều này đồng nghĩa với việc các nhà phát triển cần tự đánh giá và kiểm tra kỹ lưỡng khi sử dụng dữ liệu này cho các tác vụ nhạy cảm. - Không suy luận Thông tin Nhạy cảm: Các tín hiệu chỉ là siêu dữ liệu cấp độ kho lưu trữ và tuyệt đối không được sử dụng để suy luận các thuộc tính cá nhân nhạy cảm về chủ sở hữu, người đóng góp hoặc cộng đồng của kho lưu trữ. Đây là một nguyên tắc đạo đức quan trọng cần tuân thủ.
➡️ Bước Tiếp theo
GitHub và Microsoft đã đồng tổ chức một buổi thảo luận về bộ dữ liệu này và tầm quan trọng của dữ liệu mở đối với AI đa ngôn ngữ tại Trung tâm Đối thoại Đổi mới Mở ở Strasbourg vào ngày 16 tháng 6, cùng với Hội đồng Châu Âu. Các nhà phát triển và nghiên cứu được khuyến khích sử dụng, phê bình và mở rộng bộ dữ liệu thông qua Bảng Thảo luận Kho Lưu Trữ Đa Ngôn Ngữ của GitHub.