Три пути к 4K: выбираем свой инструмент для нейросетевой реставрации видео / forpes.ru

Главная
Три пути к 4K: выбираем свой инструмент для нейросетевой реставрации видео

Три пути к 4K: выбираем свой инструмент для нейросетевой реставрации видео +43

03.10.2025 13:01

Realife 8 1600 Источник

Превратить старое видео из 480p в кристально чистое 4K сегодня может каждый. Но какой ценой? Пока одни инструменты подкупают простотой и мощными моделями вроде Starlight, другие предлагают безграничную гибкость open-source, а третьи — ультимативную скорость обработки, требуя взамен технических знаний.

В этом сравнении мы сталкиваем лбами три разных подхода к AI-апскейлингу, а также даём несколько практических советов.

Сложность выбора

На данный момент существует более 30 архитектур апскейлеров и не меньше приложений для взаимодействия с ними. Тем не менее, ключевые принципы и подходы можно посмотреть на примере трёх основных решений: Topaz Video AI, ChaiNNer и REAL-Video-Enhancer.

Чтобы разобраться в их отличиях, мы рассмотрим каждый из них по порядку. Начнём с Topaz Video AI — коммерческого и наиболее простого в освоении решения. Затем перейдём к ChaiNNer — гибкому open-source конструктору для построения сложных конвейеров. И закончим программой REAL-Video-Enhancer, которая создана для максимальной производительности, но требует от пользователя технических знаний.

Topaz Video AI

Без сомнений, это один из самых давних и амбициозных игроков в данной сфере. Главная фишка у Topaz — это многокомпонентность их подходов. Так, модель Iris не только уменьшает шум на видео, но и улучшает лица как отдельный объект на общей сцене.

Помимо своего основного назначения, практически каждая модель предлагает огромный список настроек: подавление шума, устранение артефактов, восстановление деталей и многое другое.

Эта программа эффективно использует ресурсы на всех платформах (Nvidia, AMD, Intel). Это редкость для профессионального софта, особенно учитывая закрытый характер разработки ИИ-моделей Topaz. На первый взгляд, Topaz кажется идеальным выбором: в нём есть буквально всё, даже фильтры в духе Avisynth. Но вся эта мощь оказывается почти бесполезной, как только речь заходит о восстановлении 2D-анимации.

Апскейлер не убрал эффект ореола, а встроил его в картинку

Некоторые пользователи говорят, что методом проб и ошибок (меняя разрешение, битрейт и другие параметры на входном видео) можно добиться от Topaz приемлемых результатов и на 2D-контенте. Однако, на мой взгляд, это бессмысленная трата времени — попытка натянуть сову на глобус. Другие разработчики уже давно сделали эту нишу своей основной специализацией, а не просто дополнением к продукту.

Starlight

Главное нововведение Topaz — первая общедоступная коммерческая модель апскейлинга на основе архитектуры диффузионных моделей.

Прежде чем мы углубимся в детали, стоит сделать важную оговорку. Topaz Labs — коммерческая компания, и она не публикует научные статьи или подробную техническую документацию о своих моделях. Информации из новостных источников, где упоминаются конкретные цифры, едва ли можно доверять, поскольку от самой компании нет никаких подтверждений даже о размерности модели. В основном есть лишь абстрактные заявления в духе «модель смотрит на кучу кадров назад и анализирует их». Поэтому далее я объясню в целом принципиальное отличие прошлых GAN-моделей от нового диффузионного подхода.

Итак, что же представляет собой этот подход? Это переход от старых состязательных сетей (GAN), работавших как «умные» локальные фильтры, к диффузионным моделям, которые обеспечивают глобальное понимание контекста всего кадра. По имеющейся информации, помимо увеличения дальности анализа с нескольких кадров до сотен, сама модель может иметь размер, например, более 6 миллиардов параметров. Даже если предположить, что это так, размер модели в 6 миллиардов параметров может показаться скромным.

Если всё очень сильно упрощать и визуализировать:
Прежние подходы, основанные на GAN, работали как команда узкоспециализированных ретушёров. Каждый «ретушёр» смотрел на небольшой фрагмент кадра и его ближайших соседей (пару кадров до и после), чтобы исправить локальные дефекты: повысить резкость, убрать шум, дорисовать текстуру. Их «память» была короткой, а понимание сцены — локальным. Они отлично справлялись с улучшением того, что уже есть, но не могли воссоздать то, что было утеряно полностью, опираясь на общую логику видео.

Диффузионный подход — это скорее работа мастер-реставратора, который видит всю картину целиком. Такая модель анализирует не пару соседних кадров, а длинную последовательность, порой сотни кадров, чтобы понять глобальный контекст. Она больше не пытается «заострить» размытый край. Она понимает, что этот край принадлежит тому самому автомобилю, который появился 50 кадров назад, и реконструирует его форму, учитывая всю траекторию его движения. Модель видит видео не как набор пикселей, а как целостную динамическую сцену, где у каждого объекта есть своя история.

Так почему же диффузионная модель настолько требовательна, в то время как языковая модель (LLM) сопоставимого размера может запуститься даже на телефоне? Ответ в объёме работы. Старые GAN-модели, как те ретушёры, применяли свои правки за один проход. Диффузионная же модель — это целый реставрационный цех. Для создания одного кадра она берёт «сырьё» (цифровой шум) и прогоняет его через себя десятки раз, на каждом шаге уточняя детали и сверяясь с сотней соседних кадров. Из-за этого многоэтапного процесса её реальная вычислительная нагрузка может быть сравнима с работой очень крупных языковых моделей.

Обобщая: Старый подход (CNN), даже со всеми наворотами поверх него, условно, занимался ретушью картинки, а новый (диффузия) смотрит и анализирует картину целиком, а затем воссоздаёт её из управляемого шума, по сути, рисуя детализированную копию кадра с нуля.

Чтобы сделать технологию доступной, разработчики выпустили локальную версию Starlight Mini. Однако даже на флагманской RTX 5090 её скорость заставляет набраться терпения: при апскейле старого видео с 480p в 4K можно рассчитывать в лучшем случае на 0.5-1 кадр в секунду, что ОЧЕНЬ медленно (для сравнения, классические апскейлеры на архитектуре CNN справляются с этим в десятки раз быстрее, как правило). Так что в текущем варианте, как её предоставляет Topaz, эта история, скорее, об облачных технологиях, чем о пользовательских.

Вывод по Topaz Video AI

Очевидно, что в случае реалистичного видео и частично CGI-анимаций Topaz Video AI будет очень полезным инструментом. Сама компания очень быстро развивается, хотя не все её передовые разработки доступны обычным пользователям.

Теперь перейдём в сферу Open Source. В отличие от Topaz, здесь пользователь получает доступ к двум ключевым компонентам: самим открытым архитектурам моделей и разнообразному ПО для их практического применения.

ChaiNNer

В отличие от Topaz, ChaiNNer — это проект с открытым исходным кодом. Его сердце — огромная библиотека моделей — openmodeldb.info. Кроме того, приложение предлагает множество модулей для обработки видео: от работы с шумом и цветом до математических операций. Правда, для запуска на видеокартах не от Nvidia потребуются дополнительные настройки. Пользователям AMD будет полезна моя статья про ROCm и особенно этот комментарий, где подробно описан процесс установки. Насчёт Intel Arc тоже были сообщения об успешном запуске.

По своей сути ChaiNNer — это визуальный конструктор. Вы соединяете готовые блоки (их называют нодами) в одну цепочку. Один блок загружает видео, второй его увеличивает, третий добавляет резкость, и так далее. Это похоже на работу в профессиональных программах для видеомонтажа, вроде DaVinci Resolve, конкретно работу с плагинами на некоторых вкладках.

Большинство моделей из базы openmodeldb.info обучены на архитектуре ESRGAN(-compact), что можно интерпретировать как «Улучшенная GAN для увеличения разрешения изображений». Это хоть и довольно старая разработка, но всё ещё очень ходовая — 400+ моделей из ~600 в базе. Гибкость в мире open-source достигается иначе, чем в Topaz. Вместо набора настроек для одной модели вы получаете выбор из множества разных архитектур — SPAN, DAT, OmniSR и других. Часто одна и та же модель выходит сразу на нескольких из них.

Вот пример простой связки для апскейлинга видео в ChaiNNer:

Но в целом, можно сделать и такое:

Более подробно тема выбора моделей и работы в ChaiNNer рассматривалась в этой статье от меня — Нейросетевой апскейлинг дома: вторая молодость для классических мультфильмов. Она ещё актуальна, но лучше следите за тем, что появляется на просторах openmodeldb.info, недавно вышли очень интересные LiveActionV1 и BroadcastToStudio-Compact.

Но есть и компромисс — скорость. На данный момент (сентябрь 2025 года) в ChaiNNer нет механизма для конвертации PyTorch-апскейлеров в формат TensorRT — специальной технологии от Nvidia, которая позволяет многократно ускорить работу нейросетей, за счёт оптимизации модели под вашу видеокарту. Проще говоря, за гибкость и удобство вы платите временем обработки.

Вывод по ChaiNNer

ChaiNNer обладает интуитивным интерфейсом, который легко освоить для простых задач. В то же время, он достаточно гибок для построения сложных конвейеров реставрации видео (в основном 2D). Однако за эту гибкость приходится платить не самой высокой производительностью.

REAL-Video-Enhancer

Это приложение создано для максимальной производительности в апскейлинге и интерполяции кадров. Его главное преимущество — автоматическое использование технологий TensorRT (Nvidia) и NCNN (Vulkan), что позволяет обрабатывать видео намного быстрее, иногда даже в десятки раз быстрее, чем в стандартных программах вроде ChaiNNer, жертвуя изысками интерфейса ради скорости. Скачивать тут.

Главный фокус разработчика — максимальная эффективность и простота её достижения, пусть и в ущерб сложности интерфейса. Этот софт умеет автоматически конвертировать модели апскейлеров из openmodeldb.info в формат, работающий с TensorRT, который многократно опережает стандартный Torch по скорости работы с моделями. Главное достоинство программы — она берёт на себя самую сложную подготовительную работу. REAL-Video-Enhancer предоставляет простой доступ к нишевым моделям, которые не найти на openmodeldb.info и которые крайне сложно запустить самостоятельно. В дополнение к этому, здесь также легко включить ИИ-шумоподавление и модели интерполяции видео (хотя последними я бы советовал пользоваться с осторожностью). Для меня это стало настоящим открытием.

Для начала работы с программой нужно её скачать и установить, а далее установить из меню TensorRT и выбрать свою версию CUDA.

Затем мы наконец можем перейти к прямому использованию через пиктограмму процессора, остальной процесс достаточно прост, но есть два важных «НО». Во-первых, добавить модель можно в этой менюшке через пиктограмму скачивания.

Во-вторых, обратите внимание на вкладку «Advanced». Это не просто настройки, хотя их и можно найти, но я не советую, ведь это далеко не HandBrake, а поле для ввода пресета кодирования в виде командной строки. Для работы с ним потребуются знания FFmpeg. Я же советую, как и в случае с ChaiNNer, не забывать о пресетах высокой скорости, вроде fast, если ваш процессор замедляет весь остальной конвейер. К тому же, настоятельно рекомендуется сохранять контент в сыром виде (crf от 1 до 3 или ручной высокий битрейт), ибо из-за специфики внутреннего конвейера программы есть разница в качестве между кодированием напрямую в ней и последующей обработкой уже сохранённого файла без потерь.

Вывод по REAL-Video-Enhancer

Эта программа, хоть и не является швейцарским ножом, как ChaiNNer, выполняет поставленную себе задачу на 300%. Это самое производительное решение в нише. Если чувствуете оковы в виде скорости PyTorch, то это однозначно то, что вам нужно, хоть вся предварительная работа над видео и является полностью вашей задачей.

Важные советы начинающим

Если вы улучшаете видео из 720p или 1080p, указывайте -color_primaries bt709 -color_trc bt709 -colorspace bt709, чаще всего FFmpeg этого сам не сделает, и вы получите совершенно ненужную разницу в цвете между исходником и выходом, которая не зависела от ИИ-преобразований.

Для наиболее корректного сравнения следует использовать Lossless-cut, или любой другой софт, позволяющий определить текущий кадр, и FFmpeg-строку.

Нижняя часть плеера программы с указанием текущего кадра

ffmpeg -i НАЗВАНИЕ_ВИДЕО.mp4 -vf "select='eq(n,НОМЕР_КАДРА - 1)'" -vframes 1 output_frame_НОМЕР.png

Очень важен этап анализа между тем, что было на входе и выходе, и между результатом от разных ИИ моделей. Именно столкнувшись с этой задачей, я разработал Improve ImgSLI — интуитивный open-source инструмент, созданный специально для продвинутого сравнения изображений. Он идеально подходит для сравнения апскейлинга, позволяя детально изучать результаты бок о бок, синхронно масштабировать и панорамировать, использовать лупу с разными методами интерполяции для пиксель-перфекционизма и управлять целыми списками изображений для сравнения. Сайт. GitHub.

Таблица сравнения разного ПО

Критерий	Topaz Video AI	ChaiNNer	REAL-Video-Enhancer
Порог входа	Низкий (готовые пресеты)	Средний (нужно понимать ноды)	Высокий (требует знаний FFmpeg)
Гибкость	Средняя (настройки в рамках моделей)	Очень высокая (свободный конвейер)	Средняя (апскейл и энкодинг, но присутствуют нишевые архитектуры)
Производительность	Хорошая (оптимизация под все GPU)	Низкая (без TensorRT)	Максимальная (с TensorRT для Nvidia)
Основной контент	Реалистичное видео, CGI	2D-анимация, рисунки	Любой (зависит от модели и потребностей)
Цена	Платно (подписка/покупка)	Бесплатно (Open Source)	Бесплатно (Open Source)
Поддержка GPU	Nvidia, AMD, Intel	Nvidia, AMD (с настройкой), Intel	В основном Nvidia (для макс. скорости)

Заключение

Ландшафт инструментов для ИИ-апскейлинга видео стремительно эволюционировал, и сегодня выбор сводится к трём ключевым подходам, каждый из которых занимает свою нишу. Topaz Video AI выступает как коммерческий флагман, предлагая простоту и передовые модели для работы с реалистичным видео. В мире open-source ChaiNNer является гибкой мастерской для энтузиастов, идеальной для реставрации 2D-анимации и построения сложных конвейеров, пусть и ценой производительности. Наконец, REAL-Video-Enhancer — это бескомпромиссное решение для тех, кому важна каждая секунда обработки на открытых апскейлерах за счёт максимальной оптимизации через TensorRT.

В конечном счёте, идеальный инструмент определяется не его общими возможностями, а конкретной задачей пользователя и его готовностью идти на компромиссы. Будь то удобство, гибкость или чистая скорость — для каждой цели теперь есть своё решение. И это главный показатель того, насколько зрелой стала эта технология всего за несколько лет.

Комментарии (8)

qiper
04.10.2025 15:31
#28918940
Покажите мне ИИ-апскейл, про который можно сказать "О, да, круто"
1. Realife Автор
  04.10.2025 15:31
  #28919204
  https://www.topazlabs.com/starlight
  1. carx
    04.10.2025 15:31
    #28919660
    Не, не апскейлер

muxa_ru
04.10.2025 15:31
#28919608
Я просто оставлю это здесь (тм)

https://habr.com/ru/articles/490620/
1. Wolframium13
  04.10.2025 15:31
  #28923338
  Будто местами попутали.

Shado_vi
04.10.2025 15:31
#28920498
имею оцифровку плёнки.
но плёнка с дефектами. в оцифровке: одноцветные полосы и/или пятна.
вопрос, если готовые решения для их уменьшения? ведь не на всех соседних кадрах эти проблемы в тех же местах.
Topaz Video AI, включая Starlight с этим не помогают.
1. Realife Автор
  04.10.2025 15:31
  #28921072
  моежете предоставить пример кадра?
  1. Shado_vi
    04.10.2025 15:31
    #28921876
    например тут должна по замыслу быть просто тёмный фон.
    https://ibb.co/fVL5TrdF