オープンソースの音声AIが新たなマイルストーンに到達しました。2つの最先端モデルが利用可能です:



FireRedTTS2は、140msのレイテンシと7つの言語での4人の話者間の対話をサポートする優れたパフォーマンス指標を提供します。デュアルトランスフォーマーアーキテクチャに基づき、複雑な音声処理を行いながらリアルタイムの応答性を維持します。

VibeVoiceは、会話の長さを次のレベルに引き上げ、90分間の連続対話と本物のリアルタイム処理能力をサポートします。このアーキテクチャにより、自然で長時間の対話が劣化なく可能です。

両モデルは、低レイテンシ性能と実用的な多言語・多話者機能を組み合わせた、オープンソース音声AI開発の重要な進歩を示しています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 2
  • リポスト
  • 共有
コメント
0/400
JustAnotherWalletvip
· 3時間前
90分間ノンストップ?ちょっとすごいな…試してみる価値あり
原文表示返信0
UnruggableChadvip
· 3時間前
90分間スムーズに動かない?これが本当に動き出せたら、どれだけサーバー代を節約できるだろう
原文表示返信0
  • ピン