AI tools-ai 8 thg 6, 2026 1 phút đọc

Talkie: Model 13B được huấn luyện hoàn toàn từ dữ liệu trước năm 1931

Dự án mới mang tên Talkie giới thiệu một mô hình ngôn ngữ 13B chỉ học từ các văn bản cổ trước năm 1931, giúp nghiên cứu khả năng tổng quát hóa của AI khi đối mặt với dữ liệu 'vintage'.

Tier 1 · nguồn 99% độ tin cậy Đã được duyệt

LLM Research Data Curation Vintage AI

Nguồn gốc x.com

Các nhà nghiên cứu vừa ra mắt Talkie, một mô hình 13B được huấn luyện độc quyền trên kho dữ liệu văn bản xuất bản trước năm 1931. Đây là nỗ lực nhằm tạo ra một AI có 'tư duy' và ngôn ngữ của quá khứ.

Bối cảnh

Hầu hết các LLM hiện nay đều được huấn luyện trên dữ liệu Internet hiện đại, dẫn đến việc chúng bị bão hòa bởi các khái niệm và phong cách ngôn ngữ thế kỷ 21. Talkie đi ngược lại xu hướng này bằng cách giới hạn dữ liệu trong thời kỳ tiền kỹ thuật số.

Vì sao đáng chú ý

Dự án này giúp trả lời câu hỏi: Liệu một mô hình không biết về máy tính hay internet có thể học được các khái niệm logic hiện đại (như code) nếu được hướng dẫn? Đây là bài test quan trọng về khả năng tổng quát hóa (generalization) của trí tuệ nhân tạo, đồng thời mở ra hướng đi mới cho các ứng dụng giáo dục và nghiên cứu lịch sử.