Cartesia vừa công bố mô hình Ink-2, một giải pháp streaming speech-to-text (STT) thế hệ mới đạt vị trí dẫn đầu trên bảng xếp hạng của Artificial Analysis (AA). Mô hình này tập trung vào việc giảm độ trễ và tối ưu cho các tác vụ tương tác giọng nói.
Diễn biến
Theo đội ngũ Cartesia, Ink-2 đi kèm với nhiều tính năng được tinh chỉnh riêng cho các AI agent hoạt động theo thời gian thực. Với việc sở hữu cả hai dòng mô hình chuyển đổi văn bản sang giọng nói (TTS) và giọng nói sang văn bản (STT) hàng đầu, Cartesia đang củng cố vị thế trong mảng hạ tầng trí tuệ nhân tạo tương tác.
Vì sao đáng chú ý
Tương tác giọng nói thời gian thực là rào cản lớn đối với trải nghiệm AI agent tự nhiên. Việc Ink-2 đạt hiệu suất cao trên bảng xếp hạng AA cho thấy bước tiến quan trọng về độ trễ và độ chính xác cho các ứng dụng như tổng đài AI, trợ lý ảo hoặc hệ thống điều khiển bằng giọng nói mà không cần chờ đợi xử lý đám mây lâu.