Без пресс-релиза, без технического блога, без корпоративного бренда — текст-в-видео модель под именем HappyHorse-1.0 тихо заняла первое место на Artificial Analysis Video Arena, обогнав Seedance 2.0. Разбираем: кто это сделал, как устроена архитектура и почему этот момент важен для всего опен-сорс видео-AI.
Нейросеть Happy Horse уже доступна на Study AI для тестирования и генерации видео. Также в прошлой статей мы сгенерировали видео для наглядного результат по одинаковому промпту в популярных нейросетях HappyHorse 1.0, Veo 3.1, Kling 3.0 и Runway.

Рейтинг Artificial Analysis Video Arena строится не на технических бенчмарках, а на Elo-баллах из слепых тестов реальных пользователей — то есть на субъективных предпочтениях после просмотра. Это делает результат труднее оспариваемым, чем обычные таблицы метрик. И именно поэтому вопрос «кто вообще это сделал?» стало невозможно игнорировать.
Техсообщество в X устроило настоящий детектив. Улики собирались методично.
Улика 1: порядок языков на сайте
На официальном сайте мандаринский и кантонский языки стоят выше английского. Для продукта, нацеленного на глобальную аудиторию, это нетипично — американская команда не поставила бы английский на второе место. Вывод: команда из Китая.
Улика 2: год Лошади
2026 — год Лошади по китайскому лунному календарю. «HappyHorse» — это довольно очевидная отсылка. В начале года аналогичный трюк уже использовала «Pony Alpha». Круг подозреваемых быстро расширился: основатели Tencent и Alibaba носят фамилию Ма («лошадь» по-китайски); часть сообщества ставила на Xiaomi или DeepSeek.
Улика 3: совпадение метрик до последней цифры
Пользователь X по имени Vigo Zhao сравнил публичные бенчмарки HappyHorse-1.0 с известными моделями и нашёл идеальное совпадение — daVinci-MagiHuman, опен-сорс модель, выложенная на GitHub в марте 2026 года.
Метрика |
HappyHorse-1.0 |
daVinci-MagiHuman |
Совпадение |
|---|---|---|---|
Визуальное качество |
4.80 |
4.80 |
✓ точное |
Соответствие тексту |
4.18 |
4.18 |
✓ точное |
Физическая консистентность |
4.52 |
4.52 |
✓ точное |
WER lip-sync |
14.60% |
14.60% |
✓ точное |
Архитектура |
Single-stream Transformer |
Single-stream Transformer |
✓ совпадает |
Языки lip-sync |
EN, ZH, CA, JP, KO, DE, FR |
EN, ZH, CA, JP, KO, DE, FR |
✓ совпадает |
Наиболее признанная версия в техсообществе: HappyHorse — это итеративная версия от Sand.ai, одного из соавторов daVinci-MagiHuman, оптимизированная под реальные пользовательские предпочтения. Цель — проверить потолок модели в слепых тестах и подготовить почву для коммерциализации.
Кто создал daVinci-MagiHuman?
Модель опен-сорснута 23 марта 2026 года как совместный проект двух молодых команд. Первая — лаборатория GAIR (Generative AI Research) при Шанхайском институте инноваций, под руководством учёного Лю Пэнфэя. Вторая — пекинская компания Sand.ai (Sandai Technology), основанная Цао Юэ с академическим бэкграундом; её специализация — авторегрессионные world models.
23 марта 2026
daVinci-MagiHuman опубликована на GitHub командами GAIR + Sand.ai
нач. апреля 2026
HappyHorse-1.0 появляется на Artificial Analysis Video Arena без каких-либо анонсов
~7–8 апреля 2026
HappyHorse занимает #1, опережая Seedance 2.0 по Elo. Техсообщество начинает расследование
8–10 апреля 2026
Vigo Zhao публикует сравнение метрик, совпадение подтверждается. Версия о Sand.ai признаётся наиболее вероятной
Часть 2. Архитектура: что внутри
Главное техническое отличие HappyHorse / daVinci-MagiHuman от конкурентов — unified single-stream Transformer: текст, видео и аудио токены помещаются в одну последовательность и моделируются совместно. В опен-сорс сообществе до этого никто не делал настоящего аудио-видео joint pre-training с нуля. Большинство моделей соединяют отдельные модальности постфактум.
Ключевые технические особенности
Компонент |
Как работает |
Почему важно |
|---|---|---|
Joint audio-video |
Аудио- и видеотокены в одной последовательности трансформера |
Звук и картинка планируются совместно — нет проблемы «синхронизации после» |
Lip-sync |
Выравнивание речь↔мимика встроено в архитектуру на уровне фонем |
WER 14.60%, 7 языков — видимо лучший показатель среди публично известных моделей |
Latent super-res |
5 дополнительных шагов диффузии в латентном пространстве до декодирования |
1080p — не ресайз, а восстановление деталей; острее текстуры и лица |
Дистилляция |
Быстрая версия модели для итерации |
Заметно короче время генерации → удобнее перебирать промпты |
Prompt fidelity |
Сложные описания удерживаются лучше, чем у конкурентов |
Можно не упрощать промпт заранее |
Часть 3. Почему #1 — и в чём подвох
Почему так быстро вышло на первое место?
daVinci-MagiHuman открылась 23 марта, а уже через две недели HappyHorse обогнала Seedance 2.0 по Elo. Как?
Elo-система — это накопление пользовательских предпочтений в слепых сравнениях. Если немного улучшить чувствительные к восприятию вещи — стабильность мимики, выравнивание аудио и видео, визуальная приятность кадра — выбор в слепом тесте становится более вероятным. Потолок модели не меняется, но «оценочная производительность» полируется.
В слепых тестах Artificial Analysis портретный контент и озвучка составляют более 60% выборки. daVinci-MagiHuman изначально ориентирована на портретный рендеринг — это даёт ей системное преимущество именно в этом распределении тестов. Если тесты смещены в сторону портретов, портретная модель будет выигрывать вне зависимости от реальной универсальности.
Что говорят скептики
Блогер @JACK's AI World сразу задеплоил daVinci-MagiHuman и провёл реальное тестирование. Выводы:
Проблема |
Детали |
|---|---|
Требования к железу |
Нужен H100. Обычные потребительские карты не тянут |
Мультиперсонажные сцены |
При появлении нескольких людей или сложного фона качество падает — это не баг настроек, а следствие фокуса на портретах |
Длинные генерации |
При длительности больше ~10 секунд картинка начинает «разъезжаться» |
Full-HD без плагина |
Для высокого разрешения нужен внешний super-res плагин |
Итог по юзабилити |
Уступает LTX 2.3 по комплексной применимости; для повседневного использования нужна сначала количизация от сообщества |
На X сообщество разделилось: скептики считают, что в деталях персонажей и динамической связности HappyHorse-1.0 всё ещё уступает Seedance 2.0. Поклонники возражают — и надеются, что модель решит боль «консистентности картинки между кадрами в мульти-шот сиквенсах», которую мейнстримные модели до сих пор не решили.
Часть 4. Сравнение с конкурентами
Место |
Модель |
Сильная сторона |
|---|---|---|
№1 |
HappyHorse 1.0 |
Портреты + интегрированное аудио |
№2 |
Seedance 2.0 |
Мультиассеты, сцены |
№3 |
Kling 3.0 |
4K, мульти-персонажи |
№4 |
Veo 3.1 |
Физика, длинные сцены |
№5 |
Sora 2 Pro |
Кинематографика, окружение |
* Условная визуализация на основе данных Artificial Analysis Video Arena
HappyHorse vs Seedance 2.0
Happy Horse лучше
Портретный реализм и мимика
Аудио в одном transformer-потоке
Работает по тексту без референсов
Seedance 2.0 лучше
До 9 изображений + 3 видео в одной генерации
Консистентность персонажей между сценами
Клонирование движения
HappyHorse vs Kling 3.0
HappyHorse лучше
Фонемный lip-sync, 7 языков
Мимика для одного персонажа
Архитектурно интегрированный звук
Kling 3.0 лучше
Мульти-персонажные сцены
Нативное 4K
Мульти-промпт сторителлинг
HappyHorse vs Veo 3.1
HappyHorse лучше
Портрет + диалог
Аудио в той же последовательности
Точность по одному персонажу
Veo 3.1 лучше
Физически сложные сцены
Расширение до 30 секунд
Мультиреференсная композиция
Кейсы применения
Цифровые люди и виртуальные ведущие
Лучший сценарий: один персонаж, диалог, реализм мимики
Мультиязычный маркетинг
Spokesperson-видео с lip-sync на 7 языков без пересъёмки
Обучающий контент
Объясняющие видео с синхронизированной речью
E-commerce
Продуктовые видео с консистентным брендом
Прототипирование
Быстрые черновики сцен до полного продакшна
Примеры промптов
Модель хорошо реагирует на конкретику: субъект, действие, тон, аудио. Несколько рабочих примеров под сильные стороны. HappyHorse:
Женщина из Кореи, которой чуть больше 30 лет, сидит за деревянным столиком в кафе и говорит на корейском языке на камеру. Тихий фоновый шум кафе. Небольшая глубина резкости, теплое вольфрамовое освещение, крупный план.
Портретное видео , взрослая девушка 20+ на фоне моря, лёгкий ветер, волосы немного развеваются, мягкая естественная улыбка, утренний свет, пастельные цвета, кинематографичный реализм, спокойная атмосфера, slow motion.
Часть 5. Почему это важнее, чем строчка в рейтинге
Исторически между опен-сорс и закрытыми видеомоделями существовал очевидный разрыв в качестве. В сценариях, где результат нужно сдавать клиенту, опен-сорс генерация долго не могла перейти порог от «работает» до «сдаётся». На этом разрыве стояла вся ценовая политика Kling и Seedance.
Теперь впервые продукт на базе опен-сорс модели напрямую сравнялся с ведущими закрытыми конкурентами в слепых пользовательских тестах. Сколько бы ни было оптимизации под сценарий оценки — для закрытых вендоров это сигнал, который нельзя игнорировать.
Для разработчиков практическое значение точки перелома конкретно: в вертикальных нишах (портреты, цифровые люди, виртуальные ведущие) как только качество опен-сорс основы достигает порога «сдаётся», структура затрат на деплой меняется кардинально. Это не только про сжатие стоимости API-вызовов. Это про полный контроль над данными, моделью и инференсом, а также гибкость в кастомизации и соответствии требованиям приватности, которую закрытые решения не могут предоставить.
HappyHorse-1.0 не перевернёт рыночные позиции Seedance 2.0 или Kling 3.0 в краткосрочной перспективе. Но как только укрепится восприятие, что опен-сорс по качеству может равняться с закрытыми моделями, последующая оптимизация квантизации, вертикальный файнтюнинг и ускорение инференса будут итерироваться сообществом с куда большей скоростью, чем закрытые продукты способны поддерживать.
Итог. HappyHorse 1.0 — это, по всей видимости, Sand.ai-оптимизация поверх daVinci-MagiHuman, открытой 23 марта 2026. Модель с уникальной архитектурой (joint audio-video трансформер, 15B параметров, честный 1080p через latent super-res, фонемный lip-sync на 7 языков) заняла #1 в реальных пользовательских тестах. При этом она всё ещё требует H100, плохо работает с мульти-персонажными сценами и длинными сегментами. Победа в лидерборде частично объясняется смещением тестовой выборки в сторону портретов — именно туда, где модель изначально заточена.
GeorgSokolov96
Каждую неделю кто-то захватывает топ рейтинга. И так же быстро уносится водами Леты.