Cơ bản
Giao ngay
Giao dịch tiền điện tử một cách tự do
Giao dịch ký quỹ
Tăng lợi nhuận của bạn với đòn bẩy
Chuyển đổi và Đầu tư định kỳ
0 Fees
Giao dịch bất kể khối lượng không mất phí không trượt giá
ETF
Sản phẩm ETF có thuộc tính đòn bẩy giao dịch giao ngay không cần vay không cháy tải khoản
Giao dịch trước giờ mở cửa
Giao dịch token mới trước niêm yết
Futures
Truy cập hàng trăm hợp đồng vĩnh cửu
TradFi
Vàng
Một nền tảng cho tài sản truyền thống
Quyền chọn
Hot
Giao dịch với các quyền chọn kiểu Châu Âu
Tài khoản hợp nhất
Tối đa hóa hiệu quả sử dụng vốn của bạn
Giao dịch demo
Giới thiệu về Giao dịch hợp đồng tương lai
Nắm vững kỹ năng giao dịch hợp đồng từ đầu
Sự kiện tương lai
Tham gia sự kiện để nhận phần thưởng
Giao dịch demo
Sử dụng tiền ảo để trải nghiệm giao dịch không rủi ro
Launch
CandyDrop
Sưu tập kẹo để kiếm airdrop
Launchpool
Thế chấp nhanh, kiếm token mới tiềm năng
HODLer Airdrop
Nắm giữ GT và nhận được airdrop lớn miễn phí
Launchpad
Đăng ký sớm dự án token lớn tiếp theo
Điểm Alpha
Giao dịch trên chuỗi và nhận airdrop
Điểm Futures
Kiếm điểm futures và nhận phần thưởng airdrop
Đầu tư
Simple Earn
Kiếm lãi từ các token nhàn rỗi
Đầu tư tự động
Đầu tư tự động một cách thường xuyên.
Sản phẩm tiền kép
Kiếm lợi nhuận từ biến động thị trường
Soft Staking
Kiếm phần thưởng với staking linh hoạt
Vay Crypto
0 Fees
Thế chấp một loại tiền điện tử để vay một loại khác
Trung tâm cho vay
Trung tâm cho vay một cửa
Microsoft mở nguồn gia đình AI giọng nói tiên phong VibeVoice: xử lý một lần cuộc hội thoại nhiều người nói trong 90 phút, trên GitHub nhanh chóng đạt 27K sao
null
Microsoft gần đây đã mã nguồn mở một gia đình mô hình AI giọng nói tiên tiến có tên là VibeVoice, bao gồm nhiều khả năng như nhận diện giọng nói tự động (ASR) và chuyển văn bản thành giọng nói (TTS). Dự án này nhanh chóng thu hút sự chú ý trong cộng đồng nhà phát triển nhờ vào khả năng xử lý âm thanh dài mạnh mẽ, tạo ra cuộc đối thoại tự nhiên giữa nhiều người nói và tính năng độ trễ thấp thời gian thực, hiện đã nhận được khoảng 27K sao trên GitHub.
Là một khung nghiên cứu mã nguồn mở, VibeVoice áp dụng giấy phép MIT, hỗ trợ triển khai tại chỗ mà không cần phí đăng ký đám mây, nhằm thúc đẩy sự hợp tác và đổi mới trong lĩnh vực tổng hợp giọng nói. Gia đình mô hình này chủ yếu bao gồm ba thành viên cốt lõi, mỗi thành viên có trọng tâm riêng, cùng giải quyết các vấn đề mà AI giọng nói truyền thống gặp phải trong việc xử lý chuỗi dài, tính nhất quán của người nói và sự tự nhiên trôi chảy.
VibeVoice-ASR-7B: Công cụ chuyển văn bản từ giọng nói có thể xử lý âm thanh dài 60 phút
VibeVoice-ASR-7B là một mô hình chuyển văn bản từ giọng nói thống nhất, có khả năng xử lý một lần âm thanh dài tới 60 phút, trực tiếp xuất ra kết quả phiên âm có cấu trúc. Kết quả không chỉ bao gồm “ai đang nói” (nhận diện người nói), “khi nào nói” (dấu thời gian chính xác), mà còn bao gồm “nói gì” (nội dung chi tiết), và hỗ trợ chức năng từ khóa tùy chỉnh, có thể nâng cao độ chính xác trong nhận diện danh từ riêng hoặc thuật ngữ kỹ thuật. Mô hình hỗ trợ hơn 50 ngôn ngữ, thích hợp cho các tình huống phức tạp như ghi chép hội nghị dài và phiên âm podcast.
Các nhà phát triển trong cộng đồng đã phát triển các công cụ thực tiễn dựa trên mô hình này, ví dụ như một phần mềm nhập liệu giọng nói có tên Vibing, hỗ trợ trên nền tảng macOS và Windows. Phản hồi từ người dùng cho thấy tốc độ và độ chính xác nhận diện của nó khá tốt, có thể cải thiện đáng kể hiệu quả nhập liệu giọng nói hàng ngày.
VibeVoice-TTS-1.5B: Tạo giọng nói đa người nói phong phú kéo dài 90 phút
VibeVoice-TTS-1.5B là mô hình cốt lõi tập trung vào việc chuyển văn bản thành giọng nói, có thể tạo ra âm thanh liên tục kéo dài tới 90 phút trong một lần tạo, hỗ trợ tối đa 4 người nói khác nhau để mô phỏng đối thoại tự nhiên. Giọng nói được tạo ra từ mô hình rất phong phú, nghe tự nhiên và trôi chảy, có thể mô phỏng các ngắt quãng, nhấn mạnh và chuyển đổi cảm xúc thực tế, rất phù hợp để sản xuất podcast, kể chuyện âm thanh dài, sách nói hoặc nội dung đối thoại nhiều nhân vật.
So với nhiều mô hình TTS truyền thống chỉ hỗ trợ 1-2 người nói, VibeVoice-TTS đã đạt được bước đột phá đáng kể trong việc duy trì tính nhất quán của nhiều người nói trong định dạng dài. Cấu trúc của nó sử dụng bộ phân tích giọng nói liên tục (phân tích âm học và ngữ nghĩa) kết hợp với thiết kế tần suất thấp (7.5Hz), nâng cao đáng kể hiệu suất tính toán trong việc xử lý chuỗi dài.
VibeVoice-Realtime-0.5B: TTS thời gian thực với độ trễ khoảng 300 mili giây
VibeVoice-Realtime-0.5B tập trung vào các tình huống thời gian thực, hỗ trợ đầu vào văn bản theo dòng, độ trễ đầu ra âm thanh khoảng 300 mili giây, đồng thời có thể tạo ra âm thanh dài khoảng 10 phút. Mô hình này đặc biệt phù hợp cho các ứng dụng tương tác cần phản hồi ngay lập tức, như trợ lý giọng nói thời gian thực hoặc kịch bản lồng ghép trực tiếp.
Ngoài ra, dự án cũng đã giới thiệu hỗ trợ người nói thí nghiệm, bao gồm giọng nói đa ngôn ngữ và nhiều biến thể phong cách tiếng Anh, cung cấp nhiều không gian tùy chỉnh hơn cho các nhà phát triển.
Đánh giá của AIbase: Việc mã nguồn mở VibeVoice của Microsoft không chỉ giảm bớt rào cản sử dụng AI giọng nói hiệu suất cao mà còn cung cấp một giải pháp triển khai tại chỗ hoàn chỉnh. Dự án đã từng bị gỡ bỏ tạm thời do rủi ro sử dụng sai mục đích, nhưng đã được đưa trở lại trực tuyến thông qua việc nhúng watermark âm thanh, tuyên bố có thể nghe thấy và các cơ chế an toàn khác, thể hiện nguyên tắc phát triển AI có trách nhiệm. Hiện tại, các nhà phát triển có thể lấy trọng số mô hình từ kho GitHub và Hugging Face, và thử nghiệm nhanh chóng thông qua các nền tảng như Colab.
Với sự đóng góp liên tục từ cộng đồng mã nguồn mở (như các nhánh tối ưu hóa cho Apple Silicon), VibeVoice có triển vọng tăng tốc áp dụng trong các lĩnh vực sáng tạo nội dung, công cụ hỗ trợ người khuyết tật và tương tác giọng nói. Các nhà phát triển quan tâm có thể truy cập trang dự án chính thức của Microsoft để khám phá thêm.
Địa chỉ dự án: