AI tools-ai 29 thg 6, 2026 5 phút đọc

Vercel AI Gateway Bùng Nổ Với Hỗ Trợ Âm Thanh: Xây Dựng Tác Nhân AI Giọng Nói Thời Gian Thực Dễ Dàng! 🚀

Vercel AI Gateway nay đã tích hợp hỗ trợ âm thanh, cho phép các nhà phát triển dễ dàng xây dựng tác nhân AI đàm thoại thời gian thực, chuyển văn bản thành giọng nói và chuyển giọng nói thành văn bản thông qua cùng một giao diện API quen thuộc. ✨

Tier 1 · nguồn 99% độ tin cậy Auto-priority

Nguồn gốc vercel.com

Kalera News hôm nay mang đến tin tức nóng hổi từ Vercel: Cổng AI Gateway – giải pháp quản lý API AI tập trung – đã chính thức mở rộng hỗ trợ cho các tác vụ âm thanh/giọng nói. Điều này đánh dấu một bước tiến lớn, cho phép các nhà phát triển tích hợp khả năng đàm thoại thời gian thực, chuyển văn bản thành giọng nói (Text-to-Speech - TTS) và chuyển giọng nói thành văn bản (Speech-to-Text - STT) vào ứng dụng của mình chỉ với các lệnh gọi API quen thuộc. 🗣️

AI Gateway hiện đã tích hợp các mô hình âm thanh từ những "ông lớn" như OpenAI và xAI. Mọi lệnh gọi API giờ đây đều được hưởng lợi từ các tính năng quản lý quen thuộc của AI Gateway: định tuyến nhà cung cấp thông minh, khả năng quan sát chi tiết, kiểm soát chi phí chặt chẽ và hỗ trợ sử dụng khóa API riêng (BYOK). Các tính năng mới này hiện đang trong giai đoạn thử nghiệm (beta) và có sẵn trong AI SDK 7.

Ba Năng Lực Giọng Nói Chính Trên AI Gateway

AI Gateway mang đến ba năng lực cốt lõi giúp cách mạng hóa tương tác giọng nói:

* Đàm Thoại Giọng Nói Thời Gian Thực (Realtime Voice): 🎙️ Cho phép người dùng và mô hình AI tương tác bằng giọng nói trực tiếp, hai chiều với độ trễ cực thấp. Điều này hoàn hảo cho các trợ lý ảo, tác nhân hỗ trợ khách hàng hoặc các công cụ rảnh tay, nơi người dùng muốn trò chuyện tự nhiên như với một người thật. Điểm đặc biệt là mô hình AI có thể nghe và tạo ra âm thanh trực tiếp, thay vì phải trải qua một chuỗi phức tạp STT -> Mô hình ngôn ngữ -> TTS truyền thống. * Trong phiên giao tiếp thời gian thực: * Luân phiên nói và Ngắt lời (Barge-in): Với tính năng turnDetection: { type: 'server-vad' }, máy chủ sẽ tự động phát hiện khi người dùng ngừng nói, và cho phép người dùng ngắt lời mô hình ngay cả khi mô hình đang nói, tạo ra trải nghiệm hội thoại mượt mà và tự nhiên hơn. * Công cụ giữa cuộc trò chuyện: Mô hình có thể "gọi" một công cụ (tool) ngay giữa cuộc hội thoại, bạn chạy công cụ đó và trả về kết quả. Mô hình sẽ tự động tích hợp câu trả lời vào phần nói tiếp theo mà không cần phải kết thúc lượt nói. * Chuyển Văn Bản Thành Giọng Nói (Text to Speech - TTS): 📝➡️🔊 Chuyển đổi văn bản thành file âm thanh chỉ với một yêu cầu đơn lẻ. Lý tưởng cho việc tạo lồng tiếng, phản hồi bằng giọng nói hoặc phiên bản âm thanh của nội dung văn bản. * Chuyển Giọng Nói Thành Văn Bản (Speech to Text - STT): 🔊➡️📝 Chuyển đổi các bản ghi âm thành văn bản. Thích hợp cho việc sao chép ghi chú thoại, ghi âm cuộc gọi hoặc bất kỳ nội dung âm thanh nào thành dạng văn bản.

Đáng chú ý, TTS và STT có thể bổ trợ cho nhau. Bạn có thể tạo âm thanh bằng một mô hình và đọc lại bằng mô hình kia, đây là một cách nhanh chóng để kiểm tra cả hai đầu của pipeline âm thanh. ✅

Bắt Đầu Với AI SDK 7

Để khai thác các khả năng này, các nhà phát triển sẽ làm việc với AI SDK 7. SDK cung cấp các hook tiện lợi như useRealtime để quản lý kết nối WebSocket, thu âm micrô và phát lại âm thanh trong trình duyệt. Về mặt bảo mật, khóa API của bạn sẽ không bao giờ tiếp cận client; thay vào đó, một mã thông báo ngắn hạn được tạo ra trên máy chủ để xác thực.

Thử Nghiệm Trực Quan Với Playground 🎮

Không cần viết một dòng mã nào, bạn vẫn có thể trải nghiệm các mô hình âm thanh này! Chỉ cần truy cập trang mô hình của Vercel AI Gateway, chọn một mô hình và tương tác trực tiếp trong trình duyệt. Bạn có thể trò chuyện với một mô hình thời gian thực hoặc gửi văn bản/âm thanh đến mô hình TTS/STT và lắng nghe/đọc kết quả. Thật tiện lợi! 🎉

Quản Lý Âm Thanh Hiệu Quả Qua AI Gateway

Các lệnh gọi âm thanh hoạt động giống như mọi lệnh gọi mô hình khác trên AI Gateway. Điều này mang lại lợi ích to lớn trong việc quản lý tập trung: bạn sử dụng cùng một khóa API cho nhiều nhà cung cấp, dễ dàng theo dõi yêu cầu và mức sử dụng qua tính năng quan sát (observability), áp dụng cùng một ngân sách và giới hạn chi tiêu, và sử dụng khóa nhà cung cấp riêng (BYOK) khi cần. Việc tích hợp giọng nói vào một ứng dụng đã sử dụng AI Gateway cho văn bản/hình ảnh/video giờ đây trở nên vô cùng liền mạch. 💡

Tìm hiểu thêm:

* Hướng dẫn nhanh về Đàm thoại thời gian thực * Hướng dẫn nhanh về Giọng nói (TTS & STT) * Tài liệu tham khảo Đàm thoại thời gian thực * Xem tất cả các mô hình âm thanh