Segundo a monitorização de 1M AI News, um modelo anónimo chamado HappyHorse-1.0 alcançou, na semana passada, o 1.º lugar no ranking do Video Arena da plataforma de avaliação de vídeo com IA Artificial Analysis, em ambas as categorias de texto-para-vídeo e imagem-para-vídeo (sem categoria de áudio), tendo empurrado a Seedance 2.0 para a 2.ª posição. Nas categorias com áudio, a Seedance 2.0 continua ainda a liderar com uma vantagem ténue. Sem conferência de apresentação, sem blog técnico e sem identificação da empresa; até agora, ninguém o assumiu publicamente.
O ranking do Video Arena baseia-se num sistema de testes cegos com Elo: os utilizadores votam, escolhendo entre duas apresentações de vídeo geradas, sem saber a identidade dos modelos. O HappyHorse esteve em evidência durante menos tempo; com cerca de 3500 ocorrências em amostras, é menos de metade do volume da Seedance 2.0. O intervalo de confiança é mais amplo (±12-13 pontos), mas a vantagem nas categorias sem áudio (cerca de 76 pontos no texto-para-vídeo e cerca de 48 pontos no imagem-para-vídeo) continua muito acima do intervalo de erro.
Pela ordem de idiomas no site oficial (chinês e cantonês antes do inglês) e pelo trocadilho do Ano do Cavalo de 2026, “HappyHorse”, a indústria considera que o modelo é proveniente de uma equipa chinesa. Existem duas versões principais:
O site oficial do HappyHorse mostra que o modelo tem 15 mil milhões de parâmetros, 40 camadas de um Transformer de autoatenção, usando a arquitectura Transfusion (tratando de forma unificada no mesmo modelo tanto a previsão autoregressiva do texto como a geração de difusão de áudio e vídeo). São 8 passos de inferência, com saída de vídeo 1080p com áudio sincronizado. Suporta sincronização de fala em sete idiomas: chinês, inglês, japonês, coreano, alemão, francês e cantonês. É totalmente open-source e permite utilização comercial.