AI giọng nói mã nguồn mở vừa đạt được một cột mốc mới. Hai mô hình tiên tiến hiện đã có sẵn:
FireRedTTS2 cung cấp các chỉ số hiệu suất ấn tượng — độ trễ 140ms với hỗ trợ tương tác đối thoại 4 người nói trên 7 ngôn ngữ. Được xây dựng trên kiến trúc biến áp kép, nó xử lý quá trình xử lý âm thanh phức tạp trong khi vẫn duy trì khả năng phản hồi theo thời gian thực.
VibeVoice đưa thời lượng cuộc trò chuyện lên một tầm cao mới, hỗ trợ tương tác liên tục trong 90 phút với khả năng xử lý thời gian thực chính hãng. Kiến trúc cho phép các cuộc đối thoại tự nhiên, kéo dài mà không bị suy giảm.
Cả hai mô hình đều thể hiện những bước tiến đáng kể trong việc phát triển AI giọng nói mã nguồn mở, kết hợp hiệu suất độ trễ thấp với khả năng đa ngôn ngữ và đa loa thực tế.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
5 thích
Phần thưởng
5
2
Đăng lại
Retweed
Bình luận
0/400
JustAnotherWallet
· 3giờ trước
90 phút không giật lag? Quá đỉnh rồi... phải thử mới được
Xem bản gốcTrả lời0
UnruggableChad
· 3giờ trước
90 phút không lag? Nếu thật sự chạy được như vậy, thì tiết kiệm được bao nhiêu tiền máy chủ chứ
AI giọng nói mã nguồn mở vừa đạt được một cột mốc mới. Hai mô hình tiên tiến hiện đã có sẵn:
FireRedTTS2 cung cấp các chỉ số hiệu suất ấn tượng — độ trễ 140ms với hỗ trợ tương tác đối thoại 4 người nói trên 7 ngôn ngữ. Được xây dựng trên kiến trúc biến áp kép, nó xử lý quá trình xử lý âm thanh phức tạp trong khi vẫn duy trì khả năng phản hồi theo thời gian thực.
VibeVoice đưa thời lượng cuộc trò chuyện lên một tầm cao mới, hỗ trợ tương tác liên tục trong 90 phút với khả năng xử lý thời gian thực chính hãng. Kiến trúc cho phép các cuộc đối thoại tự nhiên, kéo dài mà không bị suy giảm.
Cả hai mô hình đều thể hiện những bước tiến đáng kể trong việc phát triển AI giọng nói mã nguồn mở, kết hợp hiệu suất độ trễ thấp với khả năng đa ngôn ngữ và đa loa thực tế.