Превратить старое видео из 480p в кристально чистое 4K сегодня может каждый. Но какой ценой? Пока одни инструменты подкупают простотой и мощными моделями вроде Starlight, другие предлагают безграничную гибкость open-source, а третьи — ультимативную скорость обработки, требуя взамен технических знаний.

В этом сравнении мы сталкиваем лбами три разных подхода к AI-апскейлингу, а также даём несколько практических советов.

Сложность выбора

На данный момент существует более 30 архитектур апскейлеров и не меньше приложений для взаимодействия с ними. Тем не менее, ключевые принципы и подходы можно посмотреть на примере трёх основных решений: Topaz Video AI, ChaiNNer и REAL-Video-Enhancer.

Чтобы разобраться в их отличиях, мы рассмотрим каждый из них по порядку. Начнём с Topaz Video AI — коммерческого и наиболее простого в освоении решения. Затем перейдём к ChaiNNer — гибкому open-source конструктору для построения сложных конвейеров. И закончим программой REAL-Video-Enhancer, которая создана для максимальной производительности, но требует от пользователя технических знаний.

Topaz Video AI

Без сомнений, это один из самых давних и амбициозных игроков в данной сфере. Главная фишка у Topaz — это многокомпонентность их подходов. Так, модель Iris не только уменьшает шум на видео, но и улучшает лица как отдельный объект на общей сцене.

Пример работы Topaz Video AI на лицах
Пример работы Topaz Video AI на лицах

Помимо своего основного назначения, практически каждая модель предлагает огромный список настроек: подавление шума, устранение артефактов, восстановление деталей и многое другое.

Интерфейс настроек Topaz Video AI
Интерфейс настроек Topaz Video AI

Эта программа эффективно использует ресурсы на всех платформах (Nvidia, AMD, Intel). Это редкость для профессионального софта, особенно учитывая закрытый характер разработки ИИ-моделей Topaz. На первый взгляд, Topaz кажется идеальным выбором: в нём есть буквально всё, даже фильтры в духе Avisynth. Но вся эта мощь оказывается почти бесполезной, как только речь заходит о восстановлении 2D-анимации.

Апскейлер не убрал эффект ореола, а встроил его в картинку
Апскейлер не убрал эффект ореола, а встроил его в картинку

Некоторые пользователи говорят, что методом проб и ошибок (меняя разрешение, битрейт и другие параметры на входном видео) можно добиться от Topaz приемлемых результатов и на 2D-контенте. Однако, на мой взгляд, это бессмысленная трата времени — попытка натянуть сову на глобус. Другие разработчики уже давно сделали эту нишу своей основной специализацией, а не просто дополнением к продукту.

Starlight

Главное нововведение Topaz — первая общедоступная коммерческая модель апскейлинга на основе архитектуры диффузионных моделей.

Прежде чем мы углубимся в детали, стоит сделать важную оговорку. Topaz Labs — коммерческая компания, и она не публикует научные статьи или подробную техническую документацию о своих моделях. Информации из новостных источников, где упоминаются конкретные цифры, едва ли можно доверять, поскольку от самой компании нет никаких подтверждений даже о размерности модели. В основном есть лишь абстрактные заявления в духе «модель смотрит на кучу кадров назад и анализирует их». Поэтому далее я объясню в целом принципиальное отличие прошлых GAN-моделей от нового диффузионного подхода.

Итак, что же представляет собой этот подход? Это переход от старых состязательных сетей (GAN), работавших как «умные» локальные фильтры, к диффузионным моделям, которые обеспечивают глобальное понимание контекста всего кадра. По имеющейся информации, помимо увеличения дальности анализа с нескольких кадров до сотен, сама модель может иметь размер, например, более 6 миллиардов параметров. Даже если предположить, что это так, размер модели в 6 миллиардов параметров может показаться скромным.

Если всё очень сильно упрощать и визуализировать:
Прежние подходы, основанные на GAN, работали как команда узкоспециализированных ретушёров. Каждый «ретушёр» смотрел на небольшой фрагмент кадра и его ближайших соседей (пару кадров до и после), чтобы исправить локальные дефекты: повысить резкость, убрать шум, дорисовать текстуру. Их «память» была короткой, а понимание сцены — локальным. Они отлично справлялись с улучшением того, что уже есть, но не могли воссоздать то, что было утеряно полностью, опираясь на общую логику видео.

Диффузионный подход — это скорее работа мастер-реставратора, который видит всю картину целиком. Такая модель анализирует не пару соседних кадров, а длинную последовательность, порой сотни кадров, чтобы понять глобальный контекст. Она больше не пытается «заострить» размытый край. Она понимает, что этот край принадлежит тому самому автомобилю, который появился 50 кадров назад, и реконструирует его форму, учитывая всю траекторию его движения. Модель видит видео не как набор пикселей, а как целостную динамическую сцену, где у каждого объекта есть своя история.

Так почему же диффузионная модель настолько требовательна, в то время как языковая модель (LLM) сопоставимого размера может запуститься даже на телефоне? Ответ в объёме работы. Старые GAN-модели, как те ретушёры, применяли свои правки за один проход. Диффузионная же модель — это целый реставрационный цех. Для создания одного кадра она берёт «сырьё» (цифровой шум) и прогоняет его через себя десятки раз, на каждом шаге уточняя детали и сверяясь с сотней соседних кадров. Из-за этого многоэтапного процесса её реальная вычислительная нагрузка может быть сравнима с работой очень крупных языковых моделей.

Обобщая: Старый подход (CNN), даже со всеми наворотами поверх него, условно, занимался ретушью картинки, а новый (диффузия) смотрит и анализирует картину целиком, а затем воссоздаёт её из управляемого шума, по сути, рисуя детализированную копию кадра с нуля.

Чтобы сделать технологию доступной, разработчики выпустили локальную версию Starlight Mini. Однако даже на флагманской RTX 5090 её скорость заставляет набраться терпения: при апскейле старого видео с 480p в 4K можно рассчитывать в лучшем случае на 0.5-1 кадр в секунду, что ОЧЕНЬ медленно (для сравнения, классические апскейлеры на архитектуре CNN справляются с этим в десятки раз быстрее, как правило). Так что в текущем варианте, как её предоставляет Topaz, эта история, скорее, об облачных технологиях, чем о пользовательских.

Вывод по Topaz Video AI

Очевидно, что в случае реалистичного видео и частично CGI-анимаций Topaz Video AI будет очень полезным инструментом. Сама компания очень быстро развивается, хотя не все её передовые разработки доступны обычным пользователям.

Теперь перейдём в сферу Open Source. В отличие от Topaz, здесь пользователь получает доступ к двум ключевым компонентам: самим открытым архитектурам моделей и разнообразному ПО для их практического применения.

ChaiNNer

В отличие от Topaz, ChaiNNer — это проект с открытым исходным кодом. Его сердце — огромная библиотека моделей — openmodeldb.info. Кроме того, приложение предлагает множество модулей для обработки видео: от работы с шумом и цветом до математических операций. Правда, для запуска на видеокартах не от Nvidia потребуются дополнительные настройки. Пользователям AMD будет полезна моя статья про ROCm и особенно этот комментарий, где подробно описан процесс установки. Насчёт Intel Arc тоже были сообщения об успешном запуске.

По своей сути ChaiNNer — это визуальный конструктор. Вы соединяете готовые блоки (их называют нодами) в одну цепочку. Один блок загружает видео, второй его увеличивает, третий добавляет резкость, и так далее. Это похоже на работу в профессиональных программах для видеомонтажа, вроде DaVinci Resolve, конкретно работу с плагинами на некоторых вкладках.

Интерфейс ChaiNNer с нодами
Интерфейс ChaiNNer с нодами

Большинство моделей из базы openmodeldb.info обучены на архитектуре ESRGAN(-compact), что можно интерпретировать как «Улучшенная GAN для увеличения разрешения изображений». Это хоть и довольно старая разработка, но всё ещё очень ходовая — 400+ моделей из ~600 в базе. Гибкость в мире open-source достигается иначе, чем в Topaz. Вместо набора настроек для одной модели вы получаете выбор из множества разных архитектур — SPAN, DAT, OmniSR и других. Часто одна и та же модель выходит сразу на нескольких из них.

Список моделей в ChaiNNer
Список моделей в ChaiNNer

Вот пример простой связки для апскейлинга видео в ChaiNNer:

Простая цепочка нодов в ChaiNNer
Простая цепочка нодов в ChaiNNer

Но в целом, можно сделать и такое:

Сложная цепочка нодов в ChaiNNer
Сложная цепочка нодов в ChaiNNer

Более подробно тема выбора моделей и работы в ChaiNNer рассматривалась в этой статье от меня — Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов. Она ещё актуальна, но лучше следите за тем, что появляется на просторах openmodeldb.info, недавно вышли очень интересные LiveActionV1 и BroadcastToStudio-Compact.

Но есть и компромисс — скорость. На данный момент (сентябрь 2025 года) в ChaiNNer нет механизма для конвертации PyTorch-апскейлеров в формат TensorRT — специальной технологии от Nvidia, которая позволяет многократно ускорить работу нейросетей, за счёт оптимизации модели под вашу видеокарту. Проще говоря, за гибкость и удобство вы платите временем обработки.

Вывод по ChaiNNer

ChaiNNer обладает интуитивным интерфейсом, который легко освоить для простых задач. В то же время, он достаточно гибок для построения сложных конвейеров реставрации видео (в основном 2D). Однако за эту гибкость приходится платить не самой высокой производительностью.

REAL-Video-Enhancer

Это приложение создано для максимальной производительности в апскейлинге и интерполяции кадров. Его главное преимущество — автоматическое использование технологий TensorRT (Nvidia) и NCNN (Vulkan), что позволяет обрабатывать видео намного быстрее, иногда даже в десятки раз быстрее, чем в стандартных программах вроде ChaiNNer, жертвуя изысками интерфейса ради скорости. Скачивать тут.

Интерфейс RVE
Интерфейс RVE

Главный фокус разработчика — максимальная эффективность и простота её достижения, пусть и в ущерб сложности интерфейса. Этот софт умеет автоматически конвертировать модели апскейлеров из openmodeldb.info в формат, работающий с TensorRT, который многократно опережает стандартный Torch по скорости работы с моделями. Главное достоинство программы — она берёт на себя самую сложную подготовительную работу. REAL-Video-Enhancer предоставляет простой доступ к нишевым моделям, которые не найти на openmodeldb.info и которые крайне сложно запустить самостоятельно. В дополнение к этому, здесь также легко включить ИИ-шумоподавление и модели интерполяции видео (хотя последними я бы советовал пользоваться с осторожностью). Для меня это стало настоящим открытием.

Кнопки-списки моделей
Кнопки-списки моделей

Для начала работы с программой нужно её скачать и установить, а далее установить из меню TensorRT и выбрать свою версию CUDA.

Меню установки TensorRT
Меню установки TensorRT

Затем мы наконец можем перейти к прямому использованию через пиктограмму процессора, остальной процесс достаточно прост, но есть два важных «НО». Во-первых, добавить модель можно в этой менюшке через пиктограмму скачивания.

Меню добавления моделей
Меню добавления моделей

Во-вторых, обратите внимание на вкладку «Advanced». Это не просто настройки, хотя их и можно найти, но я не советую, ведь это далеко не HandBrake, а поле для ввода пресета кодирования в виде командной строки. Для работы с ним потребуются знания FFmpeg. Я же советую, как и в случае с ChaiNNer, не забывать о пресетах высокой скорости, вроде fast, если ваш процессор замедляет весь остальной конвейер. К тому же, настоятельно рекомендуется сохранять контент в сыром виде (crf от 1 до 3 или ручной высокий битрейт), ибо из-за специфики внутреннего конвейера программы есть разница в качестве между кодированием напрямую в ней и последующей обработкой уже сохранённого файла без потерь.

Строка редактирования FFmpeg
Строка редактирования FFmpeg

Вывод по REAL-Video-Enhancer

Эта программа, хоть и не является швейцарским ножом, как ChaiNNer, выполняет поставленную себе задачу на 300%. Это самое производительное решение в нише. Если чувствуете оковы в виде скорости PyTorch, то это однозначно то, что вам нужно, хоть вся предварительная работа над видео и является полностью вашей задачей.

Важные советы начинающим

Если вы улучшаете видео из 720p или 1080p, указывайте -color_primaries bt709 -color_trc bt709 -colorspace bt709, чаще всего FFmpeg этого сам не сделает, и вы получите совершенно ненужную разницу в цвете между исходником и выходом, которая не зависела от ИИ-преобразований.

Наглядный пример разницы в цвете
Наглядный пример разницы в цвете

Для наиболее корректного сравнения следует использовать Lossless-cut, или любой другой софт, позволяющий определить текущий кадр, и FFmpeg-строку.

Нижняя часть плеера программы с указанием текущего кадра
Нижняя часть плеера программы с указанием текущего кадра
ffmpeg -i НАЗВАНИЕ_ВИДЕО.mp4 -vf "select='eq(n,НОМЕР_КАДРА - 1)'" -vframes 1 output_frame_НОМЕР.png

Очень важен этап анализа между тем, что было на входе и выходе, и между результатом от разных ИИ моделей. Именно столкнувшись с этой задачей, я разработал Improve ImgSLI — интуитивный open-source инструмент, созданный специально для продвинутого сравнения изображений. Он идеально подходит для сравнения апскейлинга, позволяя детально изучать результаты бок о бок, синхронно масштабировать и панорамировать, использовать лупу с разными методами интерполяции для пиксель-перфекционизма и управлять целыми списками изображений для сравнения. Сайт. GitHub.

Интерфейс Improve-ImgSLI
Интерфейс Improve-ImgSLI

Таблица сравнения разного ПО

Критерий

Topaz Video AI

ChaiNNer

REAL-Video-Enhancer

Порог входа

Низкий (готовые пресеты)

Средний (нужно понимать ноды)

Высокий (требует знаний FFmpeg)

Гибкость

Средняя (настройки в рамках моделей)

Очень высокая (свободный конвейер)

Средняя (апскейл и энкодинг, но присутствуют нишевые архитектуры)

Производительность

Хорошая (оптимизация под все GPU)

Низкая (без TensorRT)

Максимальная (с TensorRT для Nvidia)

Основной контент

Реалистичное видео, CGI

2D-анимация, рисунки

Любой (зависит от модели и потребностей)

Цена

Платно (подписка/покупка)

Бесплатно (Open Source)

Бесплатно (Open Source)

Поддержка GPU

Nvidia, AMD, Intel

Nvidia, AMD (с настройкой), Intel

В основном Nvidia (для макс. скорости)

Заключение

Ландшафт инструментов для ИИ-апскейлинга видео стремительно эволюционировал, и сегодня выбор сводится к трём ключевым подходам, каждый из которых занимает свою нишу. Topaz Video AI выступает как коммерческий флагман, предлагая простоту и передовые модели для работы с реалистичным видео. В мире open-source ChaiNNer является гибкой мастерской для энтузиастов, идеальной для реставрации 2D-анимации и построения сложных конвейеров, пусть и ценой производительности. Наконец, REAL-Video-Enhancer — это бескомпромиссное решение для тех, кому важна каждая секунда обработки на открытых апскейлерах за счёт максимальной оптимизации через TensorRT.

В конечном счёте, идеальный инструмент определяется не его общими возможностями, а конкретной задачей пользователя и его готовностью идти на компромиссы. Будь то удобство, гибкость или чистая скорость — для каждой цели теперь есть своё решение. И это главный показатель того, насколько зрелой стала эта технология всего за несколько лет.

© 2025 ООО «МТ ФИНАНС»

Комментарии (0)