Trong bài phân tích kỹ thuật đăng trên blog cá nhân, chuyên gia AI Lilian Weng đã đi sâu vào cơ sở lý thuyết toán học của Neural Tangent Kernel (NTK) – một khái niệm then chốt được giới thiệu bởi Jacot và các cộng sự vào năm 2018. Phân tích này tập trung lý giải cách thức các mạng nơ-ron nhân tạo với số lượng tham số cực lớn hoạt động và hội tụ một cách nhất quán trong quá trình huấn luyện bằng thuật toán gradient descent.
Bối cảnh
Các mạng nơ-ron hiện đại thường rơi vào trạng thái siêu tham số hóa (over-parameterized), nghĩa là số lượng tham số lớn hơn rất nhiều so với số lượng điểm dữ liệu huấn luyện thực tế. Dù các tham số này ban đầu được khởi tạo hoàn toàn ngẫu nhiên, quá trình tối ưu hóa vẫn liên tục dẫn đến các kết quả tốt với sai số huấn luyện gần như bằng không. Theo phân tích của Lilian Weng, công cụ NTK xuất hiện để mô tả động lực học của các mạng nơ-ron này trong suốt quá trình tối ưu hóa. Khi độ rộng của mạng tiến đến vô hạn, NTK trở thành một giá trị không đổi và cho phép phân tích quá trình hội tụ dưới dạng một hệ thống tuyến tính đơn giản hơn.
Vì sao đáng chú ý
Đối với cộng đồng nghiên cứu AI tại Việt Nam, việc hiểu rõ bản chất toán học của NTK giúp làm sáng tỏ phần nào cơ chế hoạt động bên trong của các mô hình học sâu lớn ngày nay. Nghiên cứu chỉ ra rằng các mạng nơ-ron đủ rộng luôn có thể hội tụ về cực tiểu toàn cục khi được huấn luyện để giảm thiểu tổn thất thực nghiệm. Điều này cung cấp nền tảng lý thuyết vững chắc thay vì chỉ dựa vào các thử nghiệm thực nghiệm mò mẫm. Hiểu được cơ chế hoạt động của NTK giúp các kỹ sư tối ưu hóa kiến trúc mạng và dự đoán hiệu suất của mô hình tốt hơn mà không cần tốn quá nhiều tài nguyên tính toán để thử sai liên tục.