Open-source голосовой AI достиг нового рубежа. Теперь доступны две передовые модели:



FireRedTTS2 демонстрирует впечатляющие показатели — задержка 140мс с поддержкой диалогов с 4 участниками на 7 языках. Построенная на архитектуре с двойным трансформером, она обрабатывает сложное аудио и при этом обеспечивает реакцию в реальном времени.

VibeVoice выводит длину диалогов на новый уровень, поддерживая 90-минутные непрерывные взаимодействия с возможностями обработки в реальном времени. Архитектура позволяет вести естественные, продолжительные диалоги без деградации качества.

Обе модели представляют собой значительный шаг вперёд в развитии open-source голосового AI, сочетая низкую задержку с практическими возможностями поддержки нескольких языков и участников.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 2
  • Репост
  • Поделиться
комментарий
0/400
JustAnotherWalletvip
· 21ч назад
90 минут без зависаний? Немного круто... нужно попробовать
Посмотреть ОригиналОтветить0
UnruggableChadvip
· 21ч назад
90 минут без задержек? Если бы это действительно заработало, сколько бы было сэкономлено на серверах.
Посмотреть ОригиналОтветить0
  • Закрепить