Без пресс-релиза, без технического блога, без корпоративного бренда — текст-в-видео модель под именем HappyHorse-1.0 тихо заняла первое место на Artificial Analysis Video Arena, обогнав Seedance 2.0. Разбираем: кто это сделал, как устроена архитектура и почему этот момент важен для всего опен-сорс видео-AI.

Нейросеть Happy Horse уже доступна на Study AI для тестирования и генерации видео. Также в прошлой статей мы сгенерировали видео для наглядного результат по одинаковому промпту в популярных нейросетях HappyHorse 1.0Veo 3.1Kling 3.0 и Runway.

Рейтинг Artificial Analysis Video Arena
Рейтинг Artificial Analysis Video Arena

Рейтинг Artificial Analysis Video Arena строится не на технических бенчмарках, а на Elo-баллах из слепых тестов реальных пользователей — то есть на субъективных предпочтениях после просмотра. Это делает результат труднее оспариваемым, чем обычные таблицы метрик. И именно поэтому вопрос «кто вообще это сделал?» стало невозможно игнорировать.

Техсообщество в X устроило настоящий детектив. Улики собирались методично.

Улика 1: порядок языков на сайте

На официальном сайте мандаринский и кантонский языки стоят выше английского. Для продукта, нацеленного на глобальную аудиторию, это нетипично — американская команда не поставила бы английский на второе место. Вывод: команда из Китая.

Улика 2: год Лошади

2026 — год Лошади по китайскому лунному календарю. «HappyHorse» — это довольно очевидная отсылка. В начале года аналогичный трюк уже использовала «Pony Alpha». Круг подозреваемых быстро расширился: основатели Tencent и Alibaba носят фамилию Ма («лошадь» по-китайски); часть сообщества ставила на Xiaomi или DeepSeek.

Улика 3: совпадение метрик до последней цифры

Пользователь X по имени Vigo Zhao сравнил публичные бенчмарки HappyHorse-1.0 с известными моделями и нашёл идеальное совпадение — daVinci-MagiHuman, опен-сорс модель, выложенная на GitHub в марте 2026 года.

Метрика

HappyHorse-1.0

daVinci-MagiHuman

Совпадение

Визуальное качество

4.80

4.80

✓ точное

Соответствие тексту

4.18

4.18

✓ точное

Физическая консистентность

4.52

4.52

✓ точное

WER lip-sync

14.60%

14.60%

✓ точное

Архитектура

Single-stream Transformer

Single-stream Transformer

✓ совпадает

Языки lip-sync

EN, ZH, CA, JP, KO, DE, FR

EN, ZH, CA, JP, KO, DE, FR

✓ совпадает

Наиболее признанная версия в техсообществе: HappyHorse — это итеративная версия от Sand.ai, одного из соавторов daVinci-MagiHuman, оптимизированная под реальные пользовательские предпочтения. Цель — проверить потолок модели в слепых тестах и подготовить почву для коммерциализации.

Кто создал daVinci-MagiHuman?

Модель опен-сорснута 23 марта 2026 года как совместный проект двух молодых команд. Первая — лаборатория GAIR (Generative AI Research) при Шанхайском институте инноваций, под руководством учёного Лю Пэнфэя. Вторая — пекинская компания Sand.ai (Sandai Technology), основанная Цао Юэ с академическим бэкграундом; её специализация — авторегрессионные world models.

23 марта 2026

daVinci-MagiHuman опубликована на GitHub командами GAIR + Sand.ai

нач. апреля 2026

HappyHorse-1.0 появляется на Artificial Analysis Video Arena без каких-либо анонсов

~7–8 апреля 2026

HappyHorse занимает #1, опережая Seedance 2.0 по Elo. Техсообщество начинает расследование

8–10 апреля 2026

Vigo Zhao публикует сравнение метрик, совпадение подтверждается. Версия о Sand.ai признаётся наиболее вероятной

Часть 2. Архитектура: что внутри

Главное техническое отличие HappyHorse / daVinci-MagiHuman от конкурентов — unified single-stream Transformer: текст, видео и аудио токены помещаются в одну последовательность и моделируются совместно. В опен-сорс сообществе до этого никто не делал настоящего аудио-видео joint pre-training с нуля. Большинство моделей соединяют отдельные модальности постфактум.

Ключевые технические особенности

Компонент

Как работает

Почему важно

Joint audio-video

Аудио- и видеотокены в одной последовательности трансформера

Звук и картинка планируются совместно — нет проблемы «синхронизации после»

Lip-sync

Выравнивание речь↔мимика встроено в архитектуру на уровне фонем

WER 14.60%, 7 языков — видимо лучший показатель среди публично известных моделей

Latent super-res

5 дополнительных шагов диффузии в латентном пространстве до декодирования

1080p — не ресайз, а восстановление деталей; острее текстуры и лица

Дистилляция

Быстрая версия модели для итерации

Заметно короче время генерации → удобнее перебирать промпты

Prompt fidelity

Сложные описания удерживаются лучше, чем у конкурентов

Можно не упрощать промпт заранее

Часть 3. Почему #1 — и в чём подвох

Почему так быстро вышло на первое место?

daVinci-MagiHuman открылась 23 марта, а уже через две недели HappyHorse обогнала Seedance 2.0 по Elo. Как?

Elo-система — это накопление пользовательских предпочтений в слепых сравнениях. Если немного улучшить чувствительные к восприятию вещи — стабильность мимики, выравнивание аудио и видео, визуальная приятность кадра — выбор в слепом тесте становится более вероятным. Потолок модели не меняется, но «оценочная производительность» полируется.

В слепых тестах Artificial Analysis портретный контент и озвучка составляют более 60% выборки. daVinci-MagiHuman изначально ориентирована на портретный рендеринг — это даёт ей системное преимущество именно в этом распределении тестов. Если тесты смещены в сторону портретов, портретная модель будет выигрывать вне зависимости от реальной универсальности.

Что говорят скептики

Блогер @JACK's AI World сразу задеплоил daVinci-MagiHuman и провёл реальное тестирование. Выводы:

Проблема

Детали

Требования к железу

Нужен H100. Обычные потребительские карты не тянут

Мультиперсонажные сцены

При появлении нескольких людей или сложного фона качество падает — это не баг настроек, а следствие фокуса на портретах

Длинные генерации

При длительности больше ~10 секунд картинка начинает «разъезжаться»

Full-HD без плагина

Для высокого разрешения нужен внешний super-res плагин

Итог по юзабилити

Уступает LTX 2.3 по комплексной применимости; для повседневного использования нужна сначала количизация от сообщества

На X сообщество разделилось: скептики считают, что в деталях персонажей и динамической связности HappyHorse-1.0 всё ещё уступает Seedance 2.0. Поклонники возражают — и надеются, что модель решит боль «консистентности картинки между кадрами в мульти-шот сиквенсах», которую мейнстримные модели до сих пор не решили.

Часть 4. Сравнение с конкурентами

Место

Модель

Сильная сторона

№1

HappyHorse 1.0

Портреты + интегрированное аудио

№2

Seedance 2.0

Мультиассеты, сцены

№3

Kling 3.0

4K, мульти-персонажи

№4

Veo 3.1

Физика, длинные сцены

№5

Sora 2 Pro

Кинематографика, окружение

* Условная визуализация на основе данных Artificial Analysis Video Arena

HappyHorse vs Seedance 2.0

Happy Horse лучше

  • Портретный реализм и мимика

  • Аудио в одном transformer-потоке

  • Работает по тексту без референсов

Seedance 2.0 лучше

  • До 9 изображений + 3 видео в одной генерации

  • Консистентность персонажей между сценами

  • Клонирование движения

HappyHorse vs Kling 3.0

HappyHorse лучше

  • Фонемный lip-sync, 7 языков

  • Мимика для одного персонажа

  • Архитектурно интегрированный звук

Kling 3.0 лучше

  • Мульти-персонажные сцены

  • Нативное 4K

  • Мульти-промпт сторителлинг

HappyHorse vs Veo 3.1

HappyHorse лучше

  • Портрет + диалог

  • Аудио в той же последовательности

  • Точность по одному персонажу

Veo 3.1 лучше

  • Физически сложные сцены

  • Расширение до 30 секунд

  • Мультиреференсная композиция

Кейсы применения

  • Цифровые люди и виртуальные ведущие

  • Лучший сценарий: один персонаж, диалог, реализм мимики

  • Мультиязычный маркетинг

  • Spokesperson-видео с lip-sync на 7 языков без пересъёмки

  • Обучающий контент

  • Объясняющие видео с синхронизированной речью

  • E-commerce

  • Продуктовые видео с консистентным брендом

  • Прототипирование

  • Быстрые черновики сцен до полного продакшна

Примеры промптов

Модель хорошо реагирует на конкретику: субъект, действие, тон, аудио. Несколько рабочих примеров под сильные стороны. HappyHorse:

Женщина из Кореи, которой чуть больше 30 лет, сидит за деревянным столиком в кафе и говорит на корейском языке на камеру. Тихий фоновый шум кафе. Небольшая глубина резкости, теплое вольфрамовое освещение, крупный план.

Портретное видео , взрослая девушка 20+ на фоне моря, лёгкий ветер, волосы немного развеваются, мягкая естественная улыбка, утренний свет, пастельные цвета, кинематографичный реализм, спокойная атмосфера, slow motion.

Часть 5. Почему это важнее, чем строчка в рейтинге

Исторически между опен-сорс и закрытыми видеомоделями существовал очевидный разрыв в качестве. В сценариях, где результат нужно сдавать клиенту, опен-сорс генерация долго не могла перейти порог от «работает» до «сдаётся». На этом разрыве стояла вся ценовая политика Kling и Seedance.

Теперь впервые продукт на базе опен-сорс модели напрямую сравнялся с ведущими закрытыми конкурентами в слепых пользовательских тестах. Сколько бы ни было оптимизации под сценарий оценки — для закрытых вендоров это сигнал, который нельзя игнорировать.

Для разработчиков практическое значение точки перелома конкретно: в вертикальных нишах (портреты, цифровые люди, виртуальные ведущие) как только качество опен-сорс основы достигает порога «сдаётся», структура затрат на деплой меняется кардинально. Это не только про сжатие стоимости API-вызовов. Это про полный контроль над данными, моделью и инференсом, а также гибкость в кастомизации и соответствии требованиям приватности, которую закрытые решения не могут предоставить.

HappyHorse-1.0 не перевернёт рыночные позиции Seedance 2.0 или Kling 3.0 в краткосрочной перспективе. Но как только укрепится восприятие, что опен-сорс по качеству может равняться с закрытыми моделями, последующая оптимизация квантизации, вертикальный файнтюнинг и ускорение инференса будут итерироваться сообществом с куда большей скоростью, чем закрытые продукты способны поддерживать.

Итог. HappyHorse 1.0 — это, по всей видимости, Sand.ai-оптимизация поверх daVinci-MagiHuman, открытой 23 марта 2026. Модель с уникальной архитектурой (joint audio-video трансформер, 15B параметров, честный 1080p через latent super-res, фонемный lip-sync на 7 языков) заняла #1 в реальных пользовательских тестах. При этом она всё ещё требует H100, плохо работает с мульти-персонажными сценами и длинными сегментами. Победа в лидерборде частично объясняется смещением тестовой выборки в сторону портретов — именно туда, где модель изначально заточена.

Комментарии (1)


  1. GeorgSokolov96
    07.05.2026 10:13

    Каждую неделю кто-то захватывает топ рейтинга. И так же быстро уносится водами Леты.