وصل الذكاء الاصطناعي الصوتي مفتوح المصدر إلى معلم جديد. تتوفر الآن نموذجان متطوران:
FireRedTTS2 يقدم مقاييس أداء مذهلة—زمن استجابة 140 مللي ثانية مع دعم لحوارات بين 4 متحدثين عبر 7 لغات. مبني على بنية معمارية ذات محول مزدوج، يتعامل مع معالجة صوتية معقدة مع الحفاظ على استجابة فورية في الوقت الحقيقي.
VibeVoice يأخذ طول المحادثة إلى مستوى آخر، داعمًا تفاعلات مستمرة لمدة 90 دقيقة مع قدرات معالجة فورية حقيقية. تتيح البنية التحتية حوارات طبيعية وممتدة دون تدهور.
تمثل كلا النموذجين خطوات مهمة في تطوير الذكاء الاصطناعي الصوتي مفتوح المصدر، حيث تجمع بين أداء منخفض الكمون وميزات عملية متعددة اللغات والمتحدثين.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تسجيلات الإعجاب 5
أعجبني
5
2
إعادة النشر
مشاركة
تعليق
0/400
JustAnotherWallet
· منذ 6 س
90 دقيقة بدون تقطيع؟ شيء مذهل... يجب أن تجرب
شاهد النسخة الأصليةرد0
UnruggableChad
· منذ 6 س
90 دقيقة بدون توقف؟ إذا كان بإمكانه العمل حقًا بهذه الطريقة، كم من المال سيتم توفيره على خوادم السيرفرات؟
وصل الذكاء الاصطناعي الصوتي مفتوح المصدر إلى معلم جديد. تتوفر الآن نموذجان متطوران:
FireRedTTS2 يقدم مقاييس أداء مذهلة—زمن استجابة 140 مللي ثانية مع دعم لحوارات بين 4 متحدثين عبر 7 لغات. مبني على بنية معمارية ذات محول مزدوج، يتعامل مع معالجة صوتية معقدة مع الحفاظ على استجابة فورية في الوقت الحقيقي.
VibeVoice يأخذ طول المحادثة إلى مستوى آخر، داعمًا تفاعلات مستمرة لمدة 90 دقيقة مع قدرات معالجة فورية حقيقية. تتيح البنية التحتية حوارات طبيعية وممتدة دون تدهور.
تمثل كلا النموذجين خطوات مهمة في تطوير الذكاء الاصطناعي الصوتي مفتوح المصدر، حيث تجمع بين أداء منخفض الكمون وميزات عملية متعددة اللغات والمتحدثين.