L'IA vocale open-source vient d'atteindre une nouvelle étape. Deux modèles de pointe sont désormais disponibles :
FireRedTTS2 offre des performances impressionnantes—une latence de 140 ms avec support pour des interactions dialoguées à 4 locuteurs sur 7 langues. Construit sur une architecture à double-transformer, il gère un traitement audio complexe tout en maintenant une réactivité en temps réel.
VibeVoice pousse la longueur des conversations à un autre niveau, supportant des interactions continues de 90 minutes avec des capacités de traitement en temps réel authentiques. L'architecture permet des dialogues naturels et prolongés sans dégradation.
Les deux modèles représentent des avancées significatives dans le développement de l'IA vocale open-source, combinant faible latence, performances pratiques multilingues et multi-locuteurs.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
5 J'aime
Récompense
5
2
Reposter
Partager
Commentaire
0/400
JustAnotherWallet
· Il y a 4h
90 minutes sans lag ? C'est impressionnant... il faut absolument essayer
Voir l'originalRépondre0
UnruggableChad
· Il y a 4h
90 minutes sans interruption ? Si cela pouvait vraiment fonctionner, combien d'argent en serveurs cela permettrait d'économiser
L'IA vocale open-source vient d'atteindre une nouvelle étape. Deux modèles de pointe sont désormais disponibles :
FireRedTTS2 offre des performances impressionnantes—une latence de 140 ms avec support pour des interactions dialoguées à 4 locuteurs sur 7 langues. Construit sur une architecture à double-transformer, il gère un traitement audio complexe tout en maintenant une réactivité en temps réel.
VibeVoice pousse la longueur des conversations à un autre niveau, supportant des interactions continues de 90 minutes avec des capacités de traitement en temps réel authentiques. L'architecture permet des dialogues naturels et prolongés sans dégradation.
Les deux modèles représentent des avancées significatives dans le développement de l'IA vocale open-source, combinant faible latence, performances pratiques multilingues et multi-locuteurs.