Nền tảng AI Gateway của Vercel vừa công bố một bước tiến đáng kể khi chính thức hỗ trợ các mô hình giọng nói và âm thanh theo thời gian thực, mở ra kỷ nguyên mới cho các ứng dụng AI đàm thoại. Giờ đây, các nhà phát triển có thể xây dựng tác nhân giọng nói tức thì, chuyển đổi văn bản thành giọng nói và chuyển đổi âm thanh thành văn bản một cách dễ dàng. Tính năng này hiện đang trong giai đoạn thử nghiệm và có sẵn thông qua AI SDK 7.
⚡️ Đàm Thoại AI Mượt Mà Hơn Bao Giờ Hết
Với khả năng hỗ trợ thời gian thực, một mô hình duy nhất có thể tiếp nhận và xuất âm thanh, cho phép người dùng trò chuyện và nhận phản hồi gần như ngay lập tức, thay vì phải chờ đợi một chuỗi các mô hình riêng biệt xử lý. Điều này hứa hẹn mang lại trải nghiệm tương tác tự nhiên và liền mạch hơn cho người dùng cuối.
Điều đáng chú ý là các tính năng mới này vẫn giữ nguyên các lợi ích cốt lõi của AI Gateway, bao gồm khả năng quan sát (observability), kiểm soát chi phí chặt chẽ và hỗ trợ sử dụng khóa API riêng của bạn (bring-your-own-key), mà không hề áp dụng phí markup hay phí nền tảng bổ sung. Đây là một điểm cộng lớn cho các doanh nghiệp và nhà phát triển đang tìm kiếm giải pháp AI hiệu quả về chi phí.
🎯 Ba Khả Năng Chính Vừa Được Mở Khóa
AI Gateway cung cấp ba khả năng chính sau:
* Tác nhân giọng nói thời gian thực (Realtime voice agents): Mô hình lắng nghe người dùng, xử lý và phản hồi bằng giọng nói trong một cuộc trò chuyện trực tiếp, độ trễ thấp. Nó có thể gọi các công cụ của bạn ngay trong cuộc trò chuyện để tìm kiếm thông tin hoặc thực hiện hành động. Hook useRealtime giúp xử lý việc thu âm và phát lại micrô. * Chuyển văn bản thành giọng nói (Text to speech): Tạo âm thanh nói từ văn bản, với khả năng lựa chọn giọng nói và định dạng đầu ra như MP3. Lý tưởng cho việc lồng tiếng, tạo phiên bản âm thanh cho nội dung bằng văn bản hoặc các phản hồi bằng giọng nói. * Chuyển giọng nói thành văn bản (Speech to text): Chuyển đổi các bản ghi âm thành văn bản, từ bộ đệm tệp, chuỗi base64 hoặc URL. Hữu ích cho các ghi chú giọng nói hoặc các tác vụ chuyển đổi âm thanh khác.
💡 Bắt Đầu Thật Dễ Dàng!
Có hai cách chính để các nhà phát triển có thể bắt đầu khám phá các tính năng mới này:
1. Theo dõi ví dụ thực tế: Sử dụng ví dụ thời gian thực hoặc hướng dẫn nhanh để thêm tác nhân giọng nói vào ứng dụng của bạn. 2. Sử dụng sân chơi (Playground): Trò chuyện trực tiếp với một mô hình thời gian thực ngay trên trình duyệt mà không cần viết bất kỳ dòng mã nào, thông qua AI Gateway Playground.
🛠️ Cách Hoạt Động (Minh Họa Đơn Giản)
Một tác nhân giọng nói bao gồm hai phần chính: một tuyến máy chủ tạo ra token ngắn hạn (đảm bảo khóa API của bạn không bao giờ đến được phía máy khách) và một thành phần trình duyệt kết nối với nó. Hook useRealtime sẽ đảm nhiệm việc tìm nạp tuyến này, quản lý kết nối WebSocket, thu âm micrô và phát lại âm thanh.
Để trải nghiệm trực tiếp, bạn có thể truy cập trang mô hình của AI Gateway, chọn một mô hình và tương tác với nó ngay trong trình duyệt. Bạn có thể trò chuyện với mô hình thời gian thực, gửi văn bản để mô hình đọc lại hoặc nói chuyện với mô hình âm thanh để nó chuyển lời nói của bạn thành văn bản.
👉 Để tìm hiểu chi tiết hơn về các mô hình giọng nói, chuyển văn bản và chuyển giọng nói sang văn bản thời gian thực trên AI Gateway, đừng quên tham khảo tài liệu chính thức của Vercel! Đừng bỏ lỡ cơ hội khám phá danh sách đầy đủ các mô hình được hỗ trợ!