Gemini 3.5 Flash Của Google Tích Hợp Khả Năng Điều Khiển Máy Tính Trực Tiếp: Bước Tiến Lớn Cho Tác Nhân AI Tự Chủ! 💻🤖
Thông tin từ Kalera News - Ngày 24 tháng 6 năm 2026. Nguồn: The Decoder & Google DeepMind.
🌟 Tóm Tắt Điều Hành: Gemini 3.5 Flash "Mở Mắt" Với Máy Tính
Google đã chính thức đưa khả năng "Sử Dụng Máy Tính" (Computer Use) vào Gemini 3.5 Flash, mô hình AI ổn định mới nhất của mình. Thay vì yêu cầu các nhà phát triển sử dụng một mô hình tác nhân chuyên biệt riêng lẻ (như bản xem trước Gemini 2.5 Computer Use trước đây), giờ đây, họ có thể kích hoạt tính năng điều khiển máy tính như một công cụ bản địa ngay trong Gemini 3.5 Flash, bên cạnh các công cụ quen thuộc như thực thi mã, Google Search và gọi hàm.
Cập nhật quan trọng này cho phép Gemini 3.5 Flash có khả năng "nhìn, suy luận và thực hiện hành động trên màn hình" – mở đường cho các tác nhân AI tự chủ vận hành trình duyệt, thiết bị di động và môi trường máy tính để bàn bằng cách phân tích ảnh chụp màn hình và thực hiện các thao tác như nhấp chuột, cuộn và nhập liệu bằng bàn phím. Đây là một bước tiến đáng kể trong việc hiện thực hóa các AI có khả năng tương tác sâu rộng hơn với thế giới số của con người.
🛠️ Chi Tiết Kỹ Thuật Nổi Bật & Khả Năng Đa Dạng
* Quy Trình Làm Việc Hợp Nhất: Trước đây, việc điều khiển máy tính đòi hỏi một mô hình độc lập và quy trình phức tạp gồm hai mô hình. Việc tích hợp Computer Use vào Gemini 3.5 Flash giúp hợp nhất hoàn toàn khả năng điều hướng màn hình, hiểu biết trực quan và suy luận đa bước vào chỉ một mô hình duy nhất. Điều này đơn giản hóa đáng kể quy trình phát triển và triển khai.
* Vòng Lặp Ảnh Chụp Màn Hình-Hành Động Liên Tục: Cơ chế hoạt động cốt lõi của tính năng này bao gồm một vòng lặp không ngừng: 1. Tác nhân AI chụp ảnh màn hình giao diện người dùng hiện tại. 2. Gemini 3.5 Flash phân tích các yếu tố trực quan (biểu tượng, trường văn bản, nút bấm) và xuất ra một lệnh có cấu trúc (ví dụ: nhấp vào một tọa độ cụ thể, cuộn trang hoặc nhập văn bản). 3. Ứng dụng máy chủ thực thi lệnh, chụp lại màn hình đã cập nhật và gửi về cho Gemini. 4. Vòng lặp này tiếp tục tự động cho đến khi hoàn thành nhiệm vụ được giao.
* Phạm Vi Đa Phương Thức Rộng Lớn: Trong khi mô hình Computer Use độc lập trước đây của Google chủ yếu tập trung vào tự động hóa trình duyệt, công cụ mới trong Gemini 3.5 Flash hoạt động linh hoạt trên nhiều môi trường khác nhau, bao gồm trình duyệt web, thiết bị di động và các ứng dụng trên máy tính để bàn.
* Ứng Dụng Mục Tiêu: Tính năng này được tối ưu hóa cho các tác vụ doanh nghiệp phức tạp, yêu cầu nhiều bước và thời gian dài, chẳng hạn như: * Kiểm thử ứng dụng/phần mềm tự động. * Điền biểu mẫu lặp đi lặp lại. * Nghiên cứu thông tin trên nhiều trang web. * Tự động hóa văn phòng toàn diện.
📊 Hiệu Năng Vượt Trội Trên Thước Đo OSWorld
Trên tiêu chuẩn OSWorld-Verified đầy thách thức – một thước đo khả năng của AI trong việc điều hướng các hệ điều hành và ứng dụng phần mềm thực tế – Gemini 3.5 Flash đã đạt được những kết quả xuất sắc:
* Gemini 3.5 Flash: 78.4% 🚀 * GPT-5.5: 78.7% (chỉ nhỉnh hơn một chút) * Anthropic Opus 4.8: 83.4% (dẫn đầu bảng) * Anthropic Sonnet 4.6: 78.4% (ngang bằng với Gemini 3.5 Flash) * Gemini 3.1 Pro: 76.2% * GPT-5.4 mini: 72.1% * Gemini 3 Flash: 65.1%
Điều này cho thấy Gemini 3.5 Flash – một mô hình nhẹ và nhanh – vẫn có thể mang lại hiệu suất tự động hóa tác nhân hàng đầu, ngang tầm với các mô hình "flagship" khác nhưng với chi phí và độ trễ thấp hơn đáng kể. Một lợi thế cạnh tranh không thể bỏ qua!
🔒 Các Biện Pháp Bảo Mật & Thực Hành Tốt Nhất
Việc vận hành giao diện đồ họa một cách tự động tiềm ẩn nhiều rủi ro bảo mật, chẳng hạn như các cuộc tấn công chèn lệnh gián tiếp (indirect prompt injection) ẩn trong trang web hoặc hình ảnh. Để bảo vệ các triển khai trong doanh nghiệp, Google đã giới thiệu một số biện pháp bảo vệ chính:
1. Huấn Luyện Chống Đối Kháng: Mô hình được đào tạo đặc biệt để chống lại các cuộc tấn công chèn lệnh được ngụy trang trong các trang web hoặc hình ảnh. 2. Yêu Cầu Xác Nhận Người Dùng: Một lớp bảo vệ tùy chọn, yêu cầu sự chấp thuận rõ ràng của con người trước khi thực hiện các hành động nhạy cảm hoặc không thể đảo ngược (ví dụ: chuyển tiền, xóa tệp). 3. Tự Động Dừng Khi Phát Hiện Injection Gián Tiếp: Một bảo vệ cấp hệ thống tùy chọn, tự động chấm dứt tác vụ nếu phát hiện một cuộc tấn công chèn lệnh gián tiếp trên màn hình trực quan hoặc trang web. 4. Khuyến Nghị Sử Dụng Sandbox: Google khuyến nghị mạnh mẽ việc chạy các tác nhân sử dụng máy tính trong các môi trường sandbox an toàn, cô lập, với quyền truy cập mạng bị hạn chế và sự giám sát của con người. "An toàn là trên hết," Google nhấn mạnh.
🌐 Khả Dụng & Nguồn Lực Tham Khảo
* Truy Cập: Tính năng này hiện đã có sẵn dưới dạng bản xem trước thông qua Gemini API và Nền tảng Tác nhân Doanh nghiệp Gemini (Gemini Enterprise Agent Platform) của Google. * Bản Demo & Mã Tham Chiếu: * Bạn có thể trải nghiệm bản demo trực tiếp trên Browserbase tại: http://gemini.browserbase.com/ * Mã triển khai tham chiếu đầy đủ có sẵn trên GitHub tại: https://github.com/google-gemini/computer-use-preview