AI tools-ai 18 thg 6, 2026 6 phút đọc

GitHub Copilot Đột Phá: Tối Ưu “Token” Với Xử Lý Ngữ Cảnh Thông Minh & Định Tuyến AI Siêu Việt HyDRA! 🚀✨

GitHub Copilot đang được nâng cấp với các cải tiến về xử lý ngữ cảnh thông minh (bộ nhớ đệm prompt, công cụ tải theo yêu cầu) và hệ thống định tuyến mô hình AI động HyDRA để tối ưu hiệu suất token, mang lại trải nghiệm lập trình hiệu quả và tiết kiệm chi phí hơn.

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc github.blog

GitHub Copilot Đột Phá: Tối Ưu “Token” Với Xử Lý Ngữ Cảnh Thông Minh & Định Tuyến AI Siêu Việt HyDRA! 🚀

Khi GitHub Copilot dần chuyển mình sang các quy trình làm việc "agentic" phức tạp hơn – như chỉnh sửa nhiều tệp, gỡ lỗi hay điều phối công cụ – hiệu quả sử dụng token không còn chỉ đơn thuần là dùng ít token hơn. Giờ đây, đó là câu chuyện về việc tối ưu hóa cách thức cung cấp ngữ cảnh và định tuyến động các tác vụ đến những mô hình AI phù hợp nhất. GitHub đang giải quyết thách thức này thông qua hai cơ chế chính:

1. Cải tiến nền tảng (Harness Improvements): Nâng cao khả năng lưu trữ bộ nhớ đệm prompt và tải công cụ trong VS Code để giảm việc sử dụng token trùng lặp. 2. Tự động chọn mô hình (Auto Model Selection): Sử dụng công cụ định tuyến động mang tên HyDRA để ghép nối các tác vụ với mô hình tối ưu dựa trên ý định, độ phức tạp và tình trạng hệ thống theo thời gian thực.

---

1. Xử lý ngữ cảnh: Bộ nhớ đệm Prompt & Công cụ tải theo yêu cầu

Để ngăn Copilot lặp lại các hướng dẫn, ngữ cảnh kho lưu trữ và định nghĩa công cụ trong các phiên làm việc kéo dài, GitHub đã triển khai hai nâng cấp lớn trong VS Code:

* Bộ nhớ đệm Prompt (Prompt Caching): Tái sử dụng trạng thái mô hình cho các tiền tố prompt lặp đi lặp lại thay vì tính toán lại cùng một tiền tố trên mỗi yêu cầu. Điều này giúp tiết kiệm đáng kể tài nguyên và thời gian xử lý. 🧠 * Công cụ tải theo yêu cầu (Deferred Tools - Tool Search): Thay vì gửi toàn bộ lược đồ cho mọi công cụ có sẵn (công cụ MCP, lệnh terminal, tìm kiếm không gian làm việc, v.v.) trong mỗi lượt tương tác, Copilot chỉ tải định nghĩa công cụ khi cần. Phương pháp này giúp duy trì bộ công cụ rộng lớn nhưng vẫn giảm thiểu chi phí ngữ cảnh không cần thiết. 🛠️

---

2. Tự động chọn mô hình & Bộ định tuyến HyDRA

Cài đặt 'Auto' tự động xác định mô hình tốt nhất cho một tác vụ cụ thể, loại bỏ nhu cầu các nhà phát triển phải tự tay chuyển đổi cài đặt mô hình. Quyết định định tuyến được thúc đẩy bởi hai tín hiệu thời gian thực:

* Tình trạng mô hình theo thời gian thực (Real-Time Model Health): Một công cụ động theo dõi tính khả dụng, mức độ sử dụng, tốc độ, tỷ lệ lỗi và chi phí của mô hình để định tuyến yêu cầu đến các mô hình khỏe mạnh, phản hồi nhanh. * Định tuyến nhận biết tác vụ qua HyDRA (Task-Aware Routing via HyDRA): Một mô hình định tuyến chuyên biệt đánh giá độ sâu suy luận, độ phức tạp của mã, khó khăn trong gỡ lỗi và nhu cầu điều phối công cụ để chọn mô hình phù hợp nhất.

Hiệu suất của HyDRA trên SWE-bench

Theo các đánh giá của GitHub trên bộ tiêu chuẩn SWE-bench, HyDRA đã chứng minh hiệu quả vượt trội:

* HyDRA (Chế độ Đỉnh cao - Peak Mode): Vượt trội về chất lượng so với Claude 3.5 Sonnet đồng thời đạt tiết kiệm chi phí 12,9%. Thật ấn tượng! 🏆 * HyDRA (Chế độ Tăng cường - Aggressive Mode): Cân bằng chất lượng để đạt tiết kiệm chi phí lên tới 72,5%. Một lựa chọn tối ưu về mặt kinh tế! 💰 * HyDRA (Chế độ Thận trọng - Conservative Mode): Đạt tỷ lệ giải quyết tác vụ tương đương OpenRouter Auto (70,8%) nhưng tiết kiệm chi phí gấp 3,3 lần.

---

3. Đưa tính năng Auto vào các quy trình làm việc thực tế

Để biến tính năng định tuyến động trở nên khả thi trong thực tế, GitHub đã thiết kế các giải pháp cho một số hành vi phổ biến của nhà phát triển:

* Định tuyến nhận biết bộ đệm (Cache-Aware Routing): Việc chuyển đổi mô hình giữa cuộc hội thoại có thể làm hỏng bộ nhớ đệm prompt và tăng chi phí. Để ngăn chặn điều này, 'Auto' chỉ định tuyến tại các ranh giới bộ đệm tự nhiên: ở lượt tương tác đầu tiên của cuộc trò chuyện hoặc sau khi nén (khi các lượt cũ được tóm tắt và tiền tố prompt được đặt lại). * Định tuyến đa ngôn ngữ (Multilingual Routing): Bộ định tuyến được huấn luyện trên các cuộc hội thoại từ 16 nhóm ngôn ngữ (bao gồm các ngôn ngữ CJK và các bảng chữ cái châu Âu). Độ chính xác định tuyến vẫn nằm trong khoảng 4 điểm so với mức chuẩn tiếng Anh, không có khoảng cách chất lượng đáng kể về mặt thống kê. Một bước tiến lớn cho cộng đồng lập trình viên toàn cầu! 🌍 * Học hỏi leo thang (Escalation Learning): Thay vì phân loại tác vụ là 'dễ' hay 'khó', bộ định tuyến được huấn luyện để xác định khi nào một mô hình mạnh hơn thực sự mang lại giá trị gia tăng so với một mô hình hiệu quả hơn, từ đó tối ưu hóa tỷ lệ chất lượng trên chi phí. ✨

---

4. Lộ trình & Mở rộng tính năng

Tính năng 'Auto' với nhận diện ý định tác vụ hiện đã khả dụng trên VS Code, github.com và Copilot Mobile. GitHub có kế hoạch mở rộng khả năng này:

* Các nền tảng mới: Sắp có mặt trên Copilot CLI, GitHub App và các IDE bổ sung. * Đơn giản hóa gói đăng ký: Các gói Copilot Free và Student sẽ được đơn giản hóa để sử dụng 'Auto' làm tùy chọn chọn mô hình duy nhất. * Kiểm soát doanh nghiệp: Các quyền kiểm soát hành chính sẽ cho phép các tổ chức đặt 'Auto' làm mặc định hoặc áp dụng nó làm tùy chọn duy nhất.

Tương lai của AI hỗ trợ lập trình đang ngày càng thông minh và tiện lợi hơn! Cùng chờ đón những cải tiến tiếp theo từ GitHub Copilot nhé! ✨