Anthropic vừa giới thiệu phương pháp Natural language autoencoders (NLAs), một bước tiến trong việc minh bạch hóa các mô hình ngôn ngữ lớn (LLM).
Diễn biến
Theo Anthropic, NLAs có khả năng chuyển đổi các kích hoạt (activations) mờ nhạt và khó hiểu bên trong mạng thần kinh nhân tạo thành các giải thích bằng văn bản mà con người có thể đọc được. Mặc dù các giải thích này chưa hoàn hảo, nhưng chúng cung cấp cái nhìn hữu ích về cách AI tư duy. Ví dụ, NLAs cho thấy khi được yêu cầu hoàn thành một cặp câu đối, mô hình Claude thực sự đã lên kế hoạch cho các vần điệu tiềm năng từ trước.
Vì sao đáng chú ý
Tính minh bạch (interpretability) là một trong những thách thức lớn nhất của AI hiện nay. Với cộng đồng nghiên cứu AI tại Việt Nam, NLAs mở ra cơ hội để hiểu rõ hơn về "hộp đen" của các mô hình như Claude hay GPT. Việc biết được AI đang "lập kế hoạch" gì giúp chúng ta kiểm soát an toàn và tinh chỉnh mô hình hiệu quả hơn, tránh các hành vi không mong muốn phát sinh từ các lớp ẩn của mạng thần kinh.