Các định luật mở rộng là một trong những phát hiện thực nghiệm then chốt trong lĩnh vực học sâu. Chúng mô tả một cách đơn giản: sai số huấn luyện (training loss) giảm một cách có thể dự đoán được khi chúng ta mở rộng kích thước mô hình (N), kích thước tập dữ liệu (D) và sức mạnh tính toán (C), tuân theo một đường cong hàm mũ—thường xuất hiện như một đường thẳng trên biểu đồ log-log. Về cốt lõi, các định luật này là một khuôn khổ để mô tả mối quan hệ giữa tính toán, sai số, kích thước mô hình và dữ liệu, giúp chúng ta phân bổ nguồn lực tính toán quý giá một cách tối ưu giữa N và D.
Khả năng dự đoán này làm cho các định luật mở rộng trở nên vô cùng hữu ích trong thực tế. Quy trình làm việc phổ biến là áp dụng các định luật mở rộng trên một vài lần chạy thử nghiệm nhỏ, sau đó ngoại suy để ước tính yêu cầu về token và tính toán cho các mô hình lớn hơn nhiều bậc.
Giai Đoạn Sơ Khai: Dự Đoán Sai Số Học Máy 📈
Trước khi các định luật mở rộng trở thành một khái niệm chủ đạo, khả năng dự đoán sai số tổng quát hóa đã được điều tra. Amari et al. (1992) đã dùng phương pháp Bayes để suy ra bốn loại đường cong học tập, tất cả đều tuân theo quy luật hàm mũ. Mặc dù dựa trên một nhiệm vụ phân loại nhị phân đơn giản, công trình này đã chỉ ra hướng đi hữu ích cho việc xây dựng các mô hình dự đoán sai số học máy thực nghiệm.
Một trong những nghiên cứu thực nghiệm sớm nhất của Hestness et al. (2017) đã làm rõ mối quan hệ giữa sai số tổng quát hóa, kích thước mô hình và dữ liệu. Họ nhận thấy:
* Sai số tổng quát hóa tuân theo luật hàm mũ trên nhiều yếu tố (ví dụ: kích thước dữ liệu). * Những cải tiến về mô hình làm dịch chuyển đường cong sai số nhưng không ảnh hưởng đến số mũ của luật hàm mũ. * Kiến trúc mô hình thay đổi điểm bù nhưng không làm thay đổi số mũ—độ dốc của luật hàm mũ dường như là thuộc tính của miền bài toán chứ không phải kiến trúc mô hình.
Rosenfeld et al. (2020) đã tiến xa hơn bằng cách cố gắng mô hình hóa sai số như một hàm chung của cả kích thước mô hình (N) và kích thước dữ liệu (D). Thực nghiệm cho thấy, khi giữ một yếu tố cố định, sai số giảm theo luật hàm mũ ở yếu tố còn lại, và có thể kết hợp thành dạng chung: L(D,N) ≈ A/D^α + B/N^β + E. Điều này cho phép xây dựng một mô hình dự đoán sai số chỉ bằng cách huấn luyện trên một tập hợp các cấu hình nhỏ hơn.
Định Luật Mở Rộng Trong Vùng Dữ Liệu "Vô Hạn" 🚀
Định luật Mở rộng của Kaplan et al. (2020)
Kaplan et al. (2020) đã làm phổ biến khái niệm định luật mở rộng trong cộng đồng mô hình ngôn ngữ. Họ phát hiện rằng sai số kiểm tra cross-entropy tuân theo luật hàm mũ với kích thước mô hình, kích thước tập dữ liệu và sức mạnh tính toán, trải rộng qua nhiều bậc độ lớn. Các phát hiện chính bao gồm:
* Sai số tuân theo luật hàm mũ với N, D và C riêng lẻ; để đạt hiệu suất tối ưu, cả ba phải mở rộng song song. * Các mô hình lớn hơn hiệu quả hơn về mẫu, nghĩa là chúng đạt được một sai số nhất định với ít bước tối ưu hóa và ít điểm dữ liệu hơn. * Chi tiết kiến trúc (chiều rộng, tỷ lệ khung hình,...) ít quan trọng hơn quy mô tuyệt đối. * Sai số huấn luyện và sai số kiểm tra có mối tương quan dương. * Với một ngân sách tính toán cố định, việc huấn luyện một mô hình rất lớn và dừng lại trước khi hội tụ sẽ hiệu quả hơn là huấn luyện một mô hình nhỏ hơn cho đến khi hội tụ hoàn toàn. Kết luận này là điểm mà định luật mở rộng Chinchilla (phần tiếp theo) bất đồng: Kaplan et al. đã đánh giá quá cao kích thước mô hình tối ưu do số mũ được điều chỉnh của họ lớn hơn.
Kaplan et al. đã đưa ra kết luận mang tính ảnh hưởng và gây tranh cãi nhất về phân bổ tài nguyên tính toán tối ưu: N_opt ∝ C^0.73, ngụ ý rằng kích thước mô hình nên tăng nhanh hơn kích thước tập dữ liệu. Cụ thể, để tăng sức mạnh tính toán lên 10 lần, họ đề xuất tăng kích thước mô hình khoảng 5.5 lần nhưng token huấn luyện chỉ khoảng 1.8 lần. Bài báo Chinchilla sau này đã bác bỏ khuyến nghị này, lập luận rằng nó khiến các mô hình lớn bị huấn luyện chưa đủ (undertrained).
Định luật Mở rộng Chinchilla (Hoffmann et al. 2022)
Bài báo Chinchilla (Hoffmann et al. 2022) đã nghiên cứu mối quan hệ giữa kích thước mô hình tối ưu và số lượng token dưới một ngân sách tính toán cố định với thiết kế thử nghiệm cẩn thận hơn, và đưa ra một câu trả lời khác biệt. Câu hỏi trung tâm là chiến lược tốt nhất để phân bổ nguồn lực khi FLOPs(N,D) = C ≈ 6ND bị giới hạn: chúng ta nên chọn nhiều token dữ liệu hơn hay nhiều tham số mô hình hơn?
Chinchilla đã trình bày ba phương pháp thiết kế tinh xảo để điều chỉnh các định luật mở rộng:
1. Cố định kích thước mô hình, thay đổi ngân sách token: Đối với mỗi số lượng tham số, huấn luyện nhiều lần chạy với các ngân sách token khác nhau và ghi lại sai số tối thiểu đạt được trên mỗi ngân sách FLOPs. 2. Hồ sơ IsoFLOP: Cố định một ngân sách tính toán và vẽ biểu đồ sai số cuối cùng theo số lượng tham số. Mỗi đường cong IsoFLOP là một parabola trong không gian log, và điểm cực tiểu của nó chỉ ra kích thước mô hình tối ưu cho ngân sách tính toán đó. 3. Điều chỉnh tham số: Điều chỉnh trực tiếp hàm tham số L(N,D) = A/N^α + B/D^β + E tương tự như Rosenfeld et al. (2020).
Cả ba phương pháp của Chinchilla đều đồng thuận về một điểm cực biên tối ưu về tính toán nơi N_opt ∝ C^0.5, nghĩa là kích thước mô hình và token huấn luyện nên tăng với tỷ lệ bằng nhau. Điều này mâu thuẫn rõ rệt với Kaplan et al., cho rằng hầu hết các mô hình lớn thời điểm đó (khoảng năm 2022) bị huấn luyện chưa đủ. Một minh chứng nổi tiếng là dưới cùng ngân sách tính toán với Gopher (280B tham số, 300B token), Chinchilla (70B tham số, 1.4T token) – một mô hình nhỏ hơn 4 lần nhưng được huấn luyện trên số token nhiều hơn khoảng 4 lần – đã vượt trội Gopher trên toàn diện.
Hòa Giải Giữa Kaplan và Chinchilla 🤝
Cả hai bài báo đều đồng ý về nguyên tắc cơ bản, nhưng bất đồng về điểm cân bằng tối ưu giữa kích thước mô hình và số token. Tại sao lại có sự khác biệt lớn đến vậy?
1. Kaplan et al. chủ yếu thử nghiệm trên các mô hình nhỏ: Các thử nghiệm của Kaplan et al. phần lớn tập trung vào các mô hình nhỏ hơn, trong khi Chinchilla đạt quy mô lớn hơn gấp 10 lần. Khi ngoại suy trong không gian log-log, một khác biệt nhỏ trong điều chỉnh có thể dẫn đến sự khác biệt lớn trong dự đoán. 2. Số lượng tham số nhúng quan trọng đối với các mô hình nhỏ: Trong chế độ tham số nhỏ, các tham số nhúng là một phần không đáng kể so với tổng số, do đó việc tính chúng hay không là điều quan trọng. Pearce & Song (2024) đã thực hiện phân tích kỹ lưỡng, chỉ ra rằng khi kích thước mô hình tăng, hệ số mũ cục bộ cho N_opt ∝ C^g sẽ hội tụ về ước tính của Chinchilla. Trong phạm vi kích thước mô hình của Kaplan et al., hệ số g gần với 0.73 của họ, cho thấy sự khác biệt có thể được giải thích bởi phạm vi thử nghiệm và cách đếm tham số.
Vì Sao Là Hàm Mũ? 💡
Các quy luật hàm mũ được quan sát rộng rãi trong nhiều lĩnh vực ngoài AI, như luật Zipf, mạng không thứ bậc và nhiều hệ thống phức tạp khác. Mô hình này thường xuất hiện khi các sự kiện lớn hiếm khi xảy ra, các sự kiện nhỏ phổ biến và mối quan hệ giữa kích thước và tần suất thường tuân theo một đường thẳng trên thang log-log.
Vậy tại sao các định luật mở rộng của LLM cũng có dạng hàm mũ? Một giả thuyết ban đầu của Sharma & Kaplan (2020) cho rằng mô hình ngôn ngữ có thể được xem là thực hiện hồi quy trên một không gian dữ liệu có chiều thấp. Nhiều tham số mô hình hơn có thể tạo ra phân vùng tốt hơn của không gian dữ liệu, và do đó, sai số tổng quát hóa nhỏ hơn. Một giả thuyết sau này (Michaud et al. 2023, Brill 2024) cho rằng kiến thức hoặc kỹ năng được học theo các “khối lượng tử hóa” rời rạc và phân bố tần suất của các kỹ năng này tuân theo luật hàm mũ, dẫn đến sự suy giảm sai số mượt mà theo luật hàm mũ.
Định Luật Mở Rộng Trong Vùng Dữ Liệu Bị Hạn Chế 📉
Các định luật mở rộng kinh điển thường giả định dữ liệu duy nhất không giới hạn, không lặp lại và không huấn luyện qua nhiều epoch. Tuy nhiên, khi kích thước mô hình tăng đáng kể, chúng ta đang cạn kiệt các token duy nhất chất lượng cao. Trên thực tế, một số lập luận về việc AI có thể tiếp tục mở rộng quy mô bao lâu tập trung vào việc liệu chúng ta có đang đối mặt với “bức tường dữ liệu” hay không. Điều quan trọng cần nhấn mạnh là dữ liệu huấn luyện phải được làm sạch kỹ lưỡng, với các bước phổ biến như khử trùng lặp, lọc chất lượng, loại bỏ văn bản rập khuôn, che giấu thông tin cá nhân/bản quyền, khử nhiễm benchmark và phân bổ lại hỗn hợp dữ liệu cẩn thận.
Nghiên cứu của Hernandez et al. (2022) đã tập trung vào một phiên bản được kiểm soát: một tập dữ liệu chủ yếu là duy nhất với một phần nhỏ dữ liệu lặp lại. Họ quan sát thấy hiện tượng suy giảm kép (double-descent) trong sai số kiểm tra: sai số thực sự có thể tệ hơn và sau đó tốt hơn trở lại khi mức độ dữ liệu lặp lại được nhấn mạnh, một hiệu ứng càng rõ rệt khi tỷ lệ lặp lại tăng lên. Xu hướng phẳng hoặc tăng lên ở giữa quá trình huấn luyện có thể là do mô hình ghi nhớ dữ liệu lặp lại.
Muennighoff et al. (2023) đã giải quyết câu hỏi nghiên cứu về cách phân bổ tối ưu tài nguyên tính toán khi huấn luyện mô hình bị giới hạn dữ liệu. Họ điều chỉnh mô hình Chinchilla để sử dụng dữ liệu và kích thước mô hình hiệu quả (đã chiết khấu) thay vì các đại lượng thô. Mô hình của họ cho rằng giá trị của một token suy giảm theo cấp số nhân khi nó được lặp lại. Họ cũng tìm thấy rằng các tham số dư thừa giảm giá trị nhanh hơn dữ liệu lặp lại, ngụ ý chúng ta nên phân bổ nhiều tài nguyên hơn cho nhiều epoch huấn luyện hơn là nhiều tham số mô hình hơn.
Gần đây nhất, Lovelace et al. (2026) đã xem xét lại vấn đề tương tự với một cách tiếp cận khác. Thay vì mô hình hóa quá tham số hóa như một lợi ích giảm dần trên kích thước mô hình hiệu quả, Lovelace et al. mô hình hóa sự tương tác giữa kích thước mô hình và sự lặp lại dữ liệu một cách rõ ràng. Họ giới thiệu một thuật ngữ phạt quá khớp (overfitting penalty) trực tiếp, được xây dựng xung quanh tỷ lệ năng lực (số lượng tham số so với token duy nhất) và số lần lặp lại. Họ cũng nhận thấy rằng trọng số suy giảm mạnh (strong weight decay) làm giảm hình phạt quá khớp do lặp lại dữ liệu. Cả hai cách tiếp cận mô hình hóa của Muennighoff et al. và Lovelace et al. đều được xây dựng từ việc điều chỉnh đường cong thực nghiệm, nên vẫn chưa rõ tại sao các định luật mở rộng bị giới hạn dữ liệu lại có chính xác những dạng này.
Thử Thách Khi Áp Dụng Định Luật Mở Rộng Trong Thực Tế 🚧
Mặc dù có hình thức rõ ràng, việc điều chỉnh các định luật mở rộng trong thực tế có thể nhạy cảm một cách đáng ngạc nhiên với những lựa chọn tưởng chừng như không đáng kể, chẳng hạn như cách bạn đếm tham số, cách bạn làm tròn độ chính xác hay cách bạn tổng hợp hoặc tính trung bình sai số. Bởi vì một định luật mở rộng chỉ được điều chỉnh trên các mô hình (tương đối nhỏ, tương đối rẻ) mà chúng ta có khả năng huấn luyện, và dự đoán được ngoại suy cho một mô hình lớn hơn nhiều bậc. Trong thiết lập như vậy, những lựa chọn có vẻ như chỉ là sai số làm tròn có thể dẫn đến sự khác biệt lớn trong dự đoán.
Trong khi đó, việc điều chỉnh định luật mở rộng giả định rằng yếu tố thay đổi duy nhất là quy mô, nghĩa là kiến trúc mô hình, bộ tối ưu hóa, lịch tốc độ học, tốc độ batch, hỗn hợp dữ liệu, trình token hóa và các lựa chọn thiết kế khác phải giữ nguyên. Một giả định cơ bản khác là tất cả các cài đặt này phải đã được điều chỉnh cẩn thận, vì các trường hợp như mô hình huấn luyện chưa đủ có thể dẫn đến kết luận khác.
Sự bất đồng giữa kết quả của Kaplan et al. và Chinchilla là một ví dụ minh họa cho sự phức tạp của việc điều chỉnh định luật mở rộng. Một ví dụ thứ hai là phân tích tiếp theo điều tra lý do tại sao phương pháp 3 của Chinchilla lại hơi khác so với hai phương pháp còn lại. Besiroglu et al. (2024) đã chỉ ra một số vấn đề cụ thể, bao gồm việc sử dụng thang sai số cao trong bộ tối thiểu hóa L-BFGS-B, dẫn đến việc tối ưu hóa bị chấm dứt sớm, và việc làm tròn các giá trị α và β đã làm cho kết quả sai lệch nhiều hơn thực tế.
Minh Họa Mô Phỏng 📊
Một công cụ mô phỏng nhỏ cho thấy ba chế độ thất bại cụ thể:
* Độ chính xác của sai số: Làm tròn sai số từ điểm thập phân cao xuống thấp có thể thay đổi các giá trị tham số được điều chỉnh. * Nhiễu sai số: Thay đổi các giá trị sai số chỉ bằng một bội số của đơn vị sai số mililít (0.001) cũng dẫn đến kết quả điều chỉnh khác nhau. * Độ nhạy của vùng điều chỉnh: Việc chỉ điều chỉnh trên các mô hình nhỏ, các mô hình trung bình hoặc tất cả các mô hình đều cho ra các định luật mở rộng khác nhau. Điều này nhấn mạnh tầm quan trọng của việc lựa chọn dữ liệu và phương pháp khi áp dụng các định luật mở rộng.