Startup nghiên cứu và hạ tầng AI Subquadratic có trụ sở tại Miami đã chính thức lộ diện sau thời gian "ẩn mình" với 29 triệu USD vốn hạt giống, cùng tuyên bố táo bạo: họ đã phá vỡ "nút thắt cổ chai quadratic attention" vốn kìm hãm các mô hình ngôn ngữ lớn (LLM) kể từ khi kiến trúc Transformer ra đời vào năm 2017. Mô hình chủ lực của công ty, SubQ, được xây dựng trên kiến trúc độc quyền mang tên Subquadratic Selective Attention (SSA), hỗ trợ cửa sổ ngữ cảnh 12 triệu token chưa từng có tiền lệ, đồng thời mở rộng tuyến tính về cả điện toán và bộ nhớ khi độ dài ngữ cảnh tăng lên.
Nút Thắt Cổ Chai Quadratic Gây Nhức Nhối Suốt Thập Kỷ 😥
Trong các mô hình Transformer truyền thống, mỗi token trong một lời nhắc phải được so sánh với mọi token khác để thiết lập ngữ cảnh. Đây được gọi là "dense attention" (cơ chế chú ý dày đặc). Hậu quả là, chi phí tính toán tăng theo cấp số mũ (quadratic, $O(n^2)$) theo độ dài ngữ cảnh. Một lời nhắc 1.000 token đòi hỏi 1.000.000 phép so sánh. Khi cửa sổ ngữ cảnh mở rộng lên hàng triệu token, yêu cầu về điện toán và năng lượng trở nên cực kỳ lớn, tạo ra một nút thắt cổ chai lớn cho khả năng suy luận ngữ cảnh dài.
Phá Vỡ Rào Cản Với Subquadratic Selective Attention (SSA) 💡
Giải pháp của Subquadratic là loại bỏ "dense attention" để chuyển sang cơ chế sparse attention (chú ý thưa thớt) linh hoạt, phụ thuộc vào nội dung. Thay vì so sánh mọi từ với mọi từ khác, SSA động lực xác định và chỉ giữ lại những cặp và mối quan hệ thực sự quan trọng, loại bỏ hoàn toàn sự phức tạp theo cấp số mũ.
Điểm Nổi Bật Kỹ Thuật Của Mô Hình SubQ:
* Cửa Sổ Ngữ Cảnh Khổng Lồ: Ra mắt với ngữ cảnh 12 triệu token, và một cửa sổ 50 triệu token đã nằm trong lộ trình sản phẩm. * Mở Rộng Tuyến Tính ($O(n)$): Yêu cầu về điện toán và bộ nhớ tăng theo tỉ lệ tuyến tính thay vì cấp số mũ, giảm gần 1.000 lần điện toán chú ý ở mức 12 triệu token. * Hiệu Quả Vượt Trội: Xác thực độc lập từ bên thứ ba bởi Appen xác nhận SubQ sử dụng ít điện toán hơn 64.5 lần so với "dense attention" và hoạt động nhanh hơn 56 lần so với các mô hình sử dụng FlashAttention-2 ở độ dài ngữ cảnh 1 triệu token. * Không Giảm Chất Lượng: Mặc dù áp dụng phương pháp "sparse-attention", Subquadratic tuyên bố SubQ đạt hoặc vượt trội so với Google DeepMind, OpenAI và Anthropic trên các tiêu chuẩn kỹ thuật và mã hóa quan trọng.
Ra Mắt Thầm Lặng và Vòng Gọi Vốn 💰
Subquadratic đã ra mắt vào tháng 5 năm 2026 với 29 triệu USD vốn hạt giống. Startup này được dẫn dắt bởi CEO Justin Dangel và Giám đốc Công nghệ (CTO) Alex Whedon. Công ty định vị SubQ là mô hình đầu tiên được xây dựng đặc biệt cho khả năng suy luận với hàng triệu token, cho phép các tác nhân AI hoạt động nguyên bản trên toàn bộ kho mã, kho lưu trữ pháp lý khổng lồ và lịch sử trò chuyện dài mà không bị cắt bớt ngữ cảnh hoặc mất chất lượng liên quan đến RAG.
Cộng Đồng AI Phản Ứng: Háo Hức Pha Lẫn Hoài Nghi 🤔
Với quy mô của những tuyên bố này, cộng đồng nghiên cứu AI đã phản ứng với sự pha trộn giữa phấn khích và hoài nghi sâu sắc. Dan McAteer, một kỹ sư AI, đã tóm tắt phản ứng của ngành trên X:
> "SubQ hoặc là bước đột phá lớn nhất kể từ Transformer... hoặc nó là Theranos của AI."
Lưu ý: Theranos là công ty y tế từng tuyên bố đột phá nhưng sau đó bị phanh phui lừa đảo, mang ý nghĩa cảnh báo về những tuyên bố quá lớn.
Thêm vào sự hoài nghi là việc Subquadratic không đào tạo SubQ hoàn toàn từ đầu. Thay vào đó, họ khởi tạo mô hình của mình từ một mô hình cơ sở trọng số mở hiện có và thay thế các lớp chú ý SSA độc quyền của họ vào. Mặc dù đây là một thực hành phổ biến trong ngành để tiết kiệm chi phí đào tạo, một số nhà nghiên cứu cho rằng điều này có vẻ không ăn khớp với tuyên bố về việc "tái tạo hoàn toàn cách thức hoạt động của LLM".
Tuy nhiên, CEO Subquadratic Justin Dangel vẫn tự tin rằng các mô hình Transformer đang chạm đến giới hạn vật lý của chúng:
> "Các định luật mở rộng cơ bản do kiến trúc Transformer và dense attention áp đặt đã bị phá vỡ. Chúng tôi không nghĩ ai sẽ còn xây dựng dựa trên Transformer trong vài năm tới."