Dự án AI quốc gia của Vương quốc Anh, UK-LLM, vừa công bố một sáng kiến độc đáo: sử dụng sức mạnh của mô hình NVIDIA Nemotron để bảo tồn và số hóa các ngôn ngữ cổ đang dần mai một thuộc vùng Celtic và tiếng Wales.
Bối cảnh
Nhiều ngôn ngữ thiểu số hoặc ngôn ngữ cổ đang đứng trước nguy cơ biến mất hoàn toàn trong kỷ nguyên số vì không có đủ dữ liệu để các công cụ dịch thuật hay trợ lý ảo nhận diện. Tiếng Wales (Welsh) và các nhánh ngôn ngữ Celtic cổ đại là một phần di sản văn hóa quan trọng nhưng lại có cấu trúc ngữ pháp và từ vựng rất khác biệt so với tiếng Anh hiện đại. Nếu không có sự can thiệp của công nghệ, các thế hệ tương lai có thể mất đi khả năng tiếp cận với kho tàng văn học và lịch sử của chính dân tộc mình.
Diễn biến
UK-LLM đã quyết định tùy chỉnh kiến trúc Nemotron-70B của NVIDIA – một mô hình nổi tiếng về khả năng suy luận mạnh mẽ – để huấn luyện trên các bộ dữ liệu ngôn ngữ đặc thù này. Thay vì chỉ là một công cụ dịch thuật đơn thuần, mô hình này hướng tới việc hiểu sâu sắc các sắc thái văn hóa và ngữ cảnh lịch sử. NVIDIA hỗ trợ dự án thông qua hạ tầng tính toán hiện đại, cho phép mô hình học từ các bản thảo cổ và các cuộc hội thoại hiếm hoi còn sót lại. Mục tiêu là tạo ra một 'trợ lý ngôn ngữ' có thể giảng dạy, dịch thuật và sáng tác nội dung bằng tiếng Wales một cách tự nhiên như người bản xứ.
Vì sao đáng chú ý
Sáng kiến này là một ví dụ điển hình cho việc sử dụng AI để giải quyết các vấn đề xã hội và nhân văn. Đối với Việt Nam, quốc gia có 54 dân tộc với nhiều ngôn ngữ và thổ ngữ độc đáo, mô hình của UK-LLM là một gợi ý tuyệt vời về cách bảo tồn văn hóa. Chúng ta có thể ứng dụng các mô hình mã nguồn mở như Nemotron để xây dựng các AI agent dành riêng cho tiếng Mường, tiếng Thái hay tiếng Ê-đê, đảm bảo rằng dòng chảy văn hóa dân tộc không bị đứt gãy trong thế giới của những thuật toán.