В июле исследователи Google из команды Brain Team поделились своими достижениями в области масштабирования изображений. Результаты своих исследований они опубликовали в блоге Google AI, посвящённом исследованиям и разработкам в области машинного обучения и искусственного интеллекта.

В статье под названием «Создание высокоточных изображений с использованием диффузионных моделей» (High Fidelity Image Generation Using Diffusion Models) продемонстрирована технология масштабирования изображений на базе диффузионных моделей.

Говоря простыми словами, Image Super-Resolution — это технология «умного» увеличения изображений. Она заключается в обучении модели превращать изображение с низким разрешением в изображение с высоким разрешением (технология RAISR была описана в блоге Google AI в 2016 году).

Если быть точным, в свежей публикации описан подход, основанный на комбинации двух алгоритмов — SR3 и CDM. Он позволяет создавать изображения высокого разрешения без заметной потери качества.

SR3 - Super-Resolution via Repeated Refinements - масштабирование через повторное уточнение.

CDM - Cascaded Diffusion Models - каскадные диффузионные модели.

Super-Resolution via Repeated Refinements

SR3 принимает на вход изображение в низком разрешении и пытается построить изображение с более высоким разрешением, добавляя в него гауссовский шум и размытие на каждом повторе. Итоговое изображение по сути содержит чистый шум. Затем идёт обратный процесс - модель постепенно удаляет шум для достижения нужного результата.

Обученная на огромном массиве данных, модель SR3 показывает хорошие результаты в задачах масштабирования в 4-8 раз изображений лиц и изображений объектов живой природы: 64x64 → 256x256 (в 4 раза) и 256x256 → 1024x1024 (в 4 раза). Объединив модели в каскад, можно масштабировать изображения до 16 раз: 64x64 → 1024x1024.

Как оценить качество работы SR3? Результаты работы модели сравнивают с результатами работы других моделей. Участвующих в эксперименте людей просят выбрать изображение, которое, по их мнению, сделано на фотокамеру (так ставится вопрос).

Участники выбирают между изображением, которое создала модель, и оригинальным изображением с камеры.

Результаты масштабирования трёх алгоритмов (Bicubic, Regression, SR3): сверху — изображения с лицом (64x64 → 512x512), снизу — изображения животного (64x64 → 256x256). Оригинальное изображение в правом столбце.
Результаты масштабирования трёх алгоритмов (Bicubic, Regression, SR3): сверху — изображения с лицом (64x64 → 512x512), снизу — изображения животного (64x64 → 256x256). Оригинальное изображение в правом столбце.

Эффективность модели измеряется с помощью коэффициента путаницы (confusion rate): какой процент времени участники эксперимента выбирают результат работы модели, а не эталонное изображения (а идеальный алгоритм как раз и даёт "50-процентный коэффициент путаницы").

Результаты этого исследования показаны ниже:

Сверху: коэффициент путаницы в задаче с изображениями лиц (16x16 → 128x128). Снизу: коэффициент путаницы в гораздо более сложной задаче — с изображениями объектов живой природы (64x64 → 256x256)
Сверху: коэффициент путаницы в задаче с изображениями лиц (16x16 → 128x128). Снизу: коэффициент путаницы в гораздо более сложной задаче — с изображениями объектов живой природы (64x64 → 256x256)

Cascaded Diffusion Models

CDM обучена на огромном количестве изображений из базы ImageNet, которые представляют собой достаточно сложный набор данных. Именно по этой причине CDM построена как каскад нескольких моделей.

Каскадный подход представляет собой цепочку нескольких генеративных моделей, каждая из которых создаёт изображение с разным разрешением: одна диффузионная модель генерирует изображение с низким разрешением, которое обрабатывает SR3, постепенно повышая разрешение до максимально доступного.

GIF на 4,5 МБ

Масштабирование изображения с 32x32 до 256x256

О реальном внедрении или коммерческом применении информации пока что нет.

Изображения, созданные из изображений низкого разрешения
Изображения, созданные из изображений низкого разрешения

Дополнительные материалы:

  1. Оригинальная статья

  2. Технология RAISR

  3. Метод масштабирования изображений BigGAN-deep

  4. Метод масштабирования изображений VQ-VAE-2

Комментарии (72)


  1. steff Автор
    04.09.2021 16:33
    +45

    Пожалуй, опережу кого-то
    image


    1. Tomasina
      04.09.2021 20:27
      -15

      А еще год назад где-то на хабре утверждали что такое как в фильмах - математически невозможно.


      1. andreishe
        04.09.2021 20:51
        +54

        Оно все ещё невозможно. Нельзя из картинки низкого разрешения извлечь информацию, которой там нет. Но можно додумать свою.


        1. thatsme
          04.09.2021 22:17
          +9

          Но ведь нейросеть именно это и делает. Ну подумаешь не существующий номер на zoom-in будет ...


          1. DistortNeo
            04.09.2021 23:07
            +19

            Она не извлекает информацию, а дорисовывает её, делая изображение визуально правдоподобным.


            1. thatsme
              05.09.2021 08:48
              +4

              Спасибо кэп. 3-м будешь.


          1. dcoder_mm
            05.09.2021 00:39
            +3

            Цифры и текст неплохо восстанавливаются из пары пикселей


            1. muxa_ru
              05.09.2021 01:35
              +15

              Если знать язык и шрифт, то да - можно восстановить. Количество символов и цифр очень небольшое.

              Но рисунок состоящий из произвольных пикселей, это совсем другое дело.


              1. dcoder_mm
                05.09.2021 01:58
                +2

                Выше был коммент про "не существующий номер на zoom-in будет", я отвечал на него. А на что отвечали вы?


                1. muxa_ru
                  05.09.2021 03:00
                  +5

                  Хм.

                  Я не воспринял работу с упорядоченным набором пикселей как ответ на картинку на которой этого набора нет.

                  Номер ведь реально НЕСУЩЕСТУВУЮЩИЙ, а не УМЕНЬШЕННЫЙ.


                  1. TheShock
                    05.09.2021 05:17
                    +6

                    Ну так в номере известен шрифт, язык и подмножество возможных символов. Вся ветка о том, что компьютеры учаться восстанавливать реальный текст из пары символов и номер автомобиля - идеально подходит под ограничения.


                    1. muxa_ru
                      06.09.2021 18:31
                      +1

                      Метод восстановления букв и цифр является реальным методом ВОССТАНОВЛЕНИЯ, и как всякий реальный метод, он имеет множество ограничений и может быть использован далеко не везде.

                      Хотя, возможно я не прав и данный метод может быть использован при любом уменьшении.

                      Попробуйте восстановить вот это

                      Исходный текст был вот таким


                1. saboteur_kiev
                  05.09.2021 21:04
                  +2

                  Цифры и текст в любом положении? (фото в полутьме номеров, расположенных под уголом?)


        1. brom_portret
          05.09.2021 10:16
          +1

          я бы уточнил, что не просто додумать, а додумать наиболее вероятную


          1. AllexIn
            05.09.2021 17:23
            +6

            "В прошлом году вы совершили преступление. Было совершено еще одно. Наиболее вероятно это вы. 10 лет колонии. Следующий!"


            1. Baigildin
              05.09.2021 21:56
              +1

              Суд не совсем так работает. Есть прямые и косвенные улики. И улик должно достаточное количество.


        1. semennikov
          05.09.2021 19:00
          +2

          Не совсем так. Смотря на картинки мне кажется что это не низкое разрешение, а размазанное из-за плохого фокуса изображение.

          А размазанное изображение теоретически возможно сделать сколь угодно четким(правда для этого в идеальном случае нужно отсутствие шума в том числе шума квантования, и бесконечный размер)


          1. Refridgerator
            06.09.2021 06:01
            +2

            Далеко не каждую свёртку можно обратить — из-за наличия нулей в спектре. Гауссиану — в идеале можно. Motion blur — уже нет.


            1. semennikov
              06.09.2021 19:45
              +1

              Вы разумеется правы. Мне казалось, что в расфокусированной фотографии как раз гаусс. Но настаивать не буду, я этим интересовался лет 30 назад, сейчас уже все забыл. Тогда появились более - менее мощные компы и мне казалось что за две три недели рассчетов можно восстановить черно-белую фотографию


              1. DistortNeo
                06.09.2021 21:45
                +2

                Мне казалось, что в расфокусированной фотографии как раз гаусс.

                Как раз таки нет. В расфокусированной фотографии ядро размытия — не Гаусс, а что-то близкое к круговому размытию с резкими краями.


    1. DistortNeo
      04.09.2021 23:07
      +12

      Та ситуация, когда догадался, что под спойлером, не заглядывая в него.


  1. anonymous
    00.00.0000 00:00


  1. tbl
    04.09.2021 16:45
    +68

    Кхм


    1. GerrAlt
      04.09.2021 17:31
      +16

      А куда делся белый воротничок рубашки? Не верится что сетка могла вот так взять и сильно выделяющийся фрагмент картинки выкинуть :)


      1. Moretti2020
        04.09.2021 20:15
        +4

        Насчёт воротничка не знаю, но глаза она лео/гепарду очень сильно исказила.


        1. Vsevo10d
          04.09.2021 20:47
          +1

          *Режим пяти копеек*: Есть простой способ. У гепарда крапинки только сплошные, круглые, по минимуму на голове. У леопарда они неровные и образуют кластеры, как бы колечки вокруг желтого, которые при уменьшении диаметра на брюхе и голове сливаются в просто черные точки.


          1. Dr_Faksov
            05.09.2021 06:38
            +1

            А если учесть что двух одинаковых шкур не существует...


      1. thatsme
        04.09.2021 22:21
        +5

        "Макса Мустермана" из Франкфурта ... Как-то так ...

        На эту модель и гугл можно теперь в суд подавать...


  1. anonymous
    00.00.0000 00:00


    1. ximik666
      04.09.2021 21:04
      +2

      А где можно попробовать или посмотреть реализацию?


      1. AlekseyKidis
        04.09.2021 21:19
        +2

        Topaz Gigapixel пытается по принципу нейросети улучшить качество картинки. обещают в 6 раз. Не так революционно как в статье но для ознакомления наверное пойдет


        1. taberu
          05.09.2021 22:14
          +1

          По своему опыту могу сказать, что алгоритмы Topaz почему-то как раз с лицами работают очень неважно, хоть там есть даже настройка их детектить, а с формой глаз так между сносно и отвратительно, закрытые же глаза может вообще превращать в жуткие отверстия. Возможно с HD изображения дела обстоят получше, с разрешением пониже и 4x увеличение требует правок руками

          ИИ бровь


    1. YMA
      04.09.2021 21:26
      +1

      Какой-то расистский алгоритм, судя по всему - на европеоидах обучался ;)


    1. lioncub
      05.09.2021 09:04
      +1

      BLM негодуэ!


    1. 3epg
      05.09.2021 13:04
      +1

      Вот у нег... афроамериканцев сейчас пригорит то! И тут дискриминация. ))


    1. Baigildin
      06.09.2021 05:42
      +2

      Довольно любопытно. Как бы наш мозг дорисовал человека, если бы не знал что это Барак Обама и если вообще этого человека не существовало бы.


  1. czz
    04.09.2021 16:46
    +29


    1. mogaika
      05.09.2021 12:26
      +4

      Это и представляешь когда говорят не про "похожесть на оригинал", а "похожесть на фотографию сделанную фотоаппаратом"


  1. mSnus
    04.09.2021 17:21
    +32

    Не повышает она разрешение, неправда это. Гугл и то честнее -- называет это "генерирование изображений...". Но по сути это угадывание.


    1. dipsy
      04.09.2021 19:55
      +4

      Или узнавание. Для известных лиц сможет практически реальные лица восстанавливать, для малоизвестных, если будет способна дообучаться, сможет на базе ваших же хороших фото дорисовывать ваши же селфи из крайне неудачных условий съемки в темноте и расфокусе.


  1. ivanovdev
    04.09.2021 18:05
    +14

    Зашел увидеть фото думгая :(


    1. TheCradle
      06.09.2021 12:37
      +3

      Раз уж зашли, то вот. Чтоб не зря всё это было


  1. yefrem
    04.09.2021 21:45
    +3

    confusion rate - хитрая такая метрика


  1. serafims
    04.09.2021 21:58
    +25

    Ничего, для видеопродукции японской индустрии сойдет. Плюс-минус все одинаковое, что они там заблюрили.


    1. wataru
      06.09.2021 11:29
      +1

      Видел несколько проектов для этого самого. Правда для рисованного. Есть и такие, что и раскрашивали. Вот только не помню, как оно называлось, а гуглить такое с работы не хочется.


  1. v1000
    04.09.2021 22:26
    +12

    Честно говоря, потенциал технологии немного пугает. В том смысле, что вместо совершенствования сенсоров и оптики, все ринулись в технологию дорисовывания того, чего нет.


    1. Stesh
      04.09.2021 23:09
      +16

      все ринулись в технологию дорисовывания того, чего нет.

      Дорисовать — это еще полбеды. Беда придет, когда начнут такими «улучшенными» фото размахивать где нибудь в суде.


      1. Dr_Faksov
        05.09.2021 06:42
        +4

        Беда придет, когда начнут такими «улучшенными» фото размахивать где нибудь в суде.

        «улучшенными» будут махать в «суде». А в Суде на каждое фото\видео приводится экспертное заключение что фото не подвергалось редактированию.


        1. MechanicZelenyy
          05.09.2021 11:54
          +3

          Только вот в Судах зачастую приводится "экспертное заключение", так что ваш Суд "суда" сильно отличается.


        1. tuxi
          05.09.2021 22:24
          +1

          А а суды сейчас модно "ии" привлекать, вот он и будет выносить заключение.


        1. VitalKoshalew
          06.09.2021 07:59
          +2

          В судах некоторых стран антинаучный «детектор лжи» принимают; выводы AI-системы определения выстрелов по звукам ShotSpotter до недавнего времени моги быть основным доказательством в суде, пока не оказалось, что операторы кол-центра ShotSpotter по просьбе «органов» вписывают в базу нужные выводы о типе звука и правят геолокацию, а сама AI-система никакой научно-обоснованной проверки не проходила.


    1. BugM
      05.09.2021 04:54
      +5

      Оптика давно уже вся на физических пределах работает. Только платите.

      Такая оптика на самом деле дорого стоит. Её сложно изготавливать.


      1. DistortNeo
        05.09.2021 11:40
        +2

        С другой стороны, КПД сенсоров всё ещё очень далёк от идеала. Дикие шумы, токи утечек, в итоге КПД составляет порядка 1%.


        А что касается оптики: всё упирается в светосилу. Чем больше размер линзы, тем больше света она может собрать и тем выше качество снимка. Проблема исключительно в габаритах: большую линзу в смартфон не засунуть.


        1. pvsur
          06.09.2021 18:51
          +1

          Бедные орлы и соколы.... Как они там со своими глазками размером чуть больше объектива смартфона мышей видят с птичьего полета..


          1. DistortNeo
            06.09.2021 21:51
            +2

            Очень просто:


            1. Выше чувствительность.
            2. Больше плотность пикселей.
            3. Глаз у орлов таки большой, в разы больше, чем булавочное горлышко смартфонов.


    1. thatsme
      05.09.2021 08:59
      +13

      Почему пугает? это очень прикольные базовые элементы "очень сжатой памяти". Т.е. храним в памяти картинку в 16х меньше оригинала, при необходимости восстанавливаем в нужном разрешении, ну подумаешь с оригиналом уже не совпадает, - перезапишем из сгенеророванного ... Моя память так примерно и работает, поэтому Билл Мюррей в любой момент мог стать Джеймсом Белуши и наоборот, пока я их имена не запомнил и с картинками не связал. 20 лет назад я был свято уверен, что это один и тотже чел и судя по всему на них двоих у меня один сжатый портрет был. Потом сетка перетренеровалась, под воздействием окружающих, - жена надо мной постоянно ржала.


    1. lunacyrcus
      05.09.2021 23:33
      +1

      Ну не знаю чего тут пугаться. Это вообще-то похоже на то как человеческий мозг хранит информацию. Мозг тоже не хранит все 1:1 и с точностью до пикселя (если уж к этому пиксели применить, образно), хранит какие-то ключевые моменты, а многое "дорисовывает".

      Да и вообще эта штука конечно не слишком удивляет, давно уже существовали алгоритмы делающие upscaling с более-менее похожим результатом и применялись коммерчески. Гугл видимо решил свой трехколесный велосипед сделать чтобы бороться с низкокачественными картинками в собственном поиске по картинкам, или не знаю зачем еще.

      Но вообще даже если просто интереса ради то тоже интересная темка.


      1. Dr_Faksov
        09.09.2021 01:49
        +4

        Мозг тоже не хранит все 1:1 и с точностью до пикселя (если уж к этому пиксели применить, образно), хранит какие-то ключевые моменты, а многое "дорисовывает".

        У мозга, как считают на данный момент, есть два режима построения изображения.

        Первый- подгон готовой картинки из памяти по некоторым ключевым деталям полученным с сетчатки. Картинка в памяти может быть ранее увиденной на рисунке (или даже быть представленной по детальному описанию) и не иметь никакого отношения к реальности. А может и иметь.

        Второй - построение по-пиксельного изображения с сетчатки глаза.

        Чаще всего используется первый режим как наименее ресурсоёмкий и более быстрый. Отсюда черти, летающие тарелки и прочие интересности. Причём человек их реально видит, как он думает. Они даже двоятся при нажимании на глаз.

        Для перехода во второй режим достаточно отвести взгляд и засомневаться.


  1. slonopotamus
    05.09.2021 00:55
    +17

    Технология Google повышает разрешение изображений до 16 раз без потери качества

    Надо очень постараться, чтобы в процессе увеличения разрешения сделать качество хуже чем было изначально.


    1. mapron
      05.09.2021 08:17
      +2

      Надо постараться, но они смогли. выше уже кидали где просто пропадают детали изображения которые были в оригинале (фото с Обамой)



  1. alan008
    05.09.2021 09:43
    +1

    Нечто подобное уже описывалось на Хабре:

    https://habr.com/ru/post/180393/


  1. 3Dvideo
    05.09.2021 11:40
    +13

    Пару лет назад я тут делал пост "Увеличь это! Современное увеличение разрешения", который набрал +376 и 168 тысяч прочтений - как раз про разницу между реальным восстановлением и "сделай мне красиво, детка".

    А этой весной мы зарелизили бенчмарк методов SR для видео https://videoprocessing.ai/benchmarks/video-super-resolution.html, где есть возможность на потоке генерировать такие сравнения:

    Заметим - самый правый (топ номинации "самые ужасные зубы") - это самый модный в этом сезоне метод Super-Resolution Real-ESRGAN, прямо сейчас он висит на 4 месте (!) в трендах на первой странице https://paperswithcode.com/ (а два дня назад был вторым!) и вообще он в топе среди 600+ методов SR, доступных сегодня на гитхабе.

    Как пользоваться:

    Выбираете характер движения (для методов, которые реально восстанавливают - это важно) тип контента и модели - и наслаждаетесь реальным (а не рекламным) качеством.

    Иногда оно очень приличное, заметим! Но контраст к рекламой сложно не заметить.

    Этот бенчмарк мы активно пополняем разными модными SR. Еще два наших бенчмарка по SR (один - для картинок, второй - для пары SR+видеокодек) на подходе.

    Пост про самые прикольные моменты бенчмарка (а также о том, как корректно интерпретировать графики, что творится в метриках SR - а то мне заголовок "без потери качества" в этой статье понравился))), ну и что творится в методах SR) планирую, а пока можете сами экспериментировать. В т.ч. можно туда залить интересующий вас метод (взяв код с гитхаба) и посмотреть, как он ляжет относительно других на графиках (заметим, что по умолчанию топ бенчмарка отсортирован по усредненной оценке нескольких сотен людей, которым мы показали результаты на яндекс.толоке). Это замедляет добавление, но зато позволяет оценить, насколько оно хорошо на большом количестве разнородных примеров контента.

    Enjoy! )


    1. 3Dvideo
      05.09.2021 12:10
      +5

      Вот вам еще для вдохновения - лицо, на котором "все умерли" )

      А так оно на номерах (iSeeBetter прям красавцы, а что творит текущий самый модный на гитхабе видите сами):

      Что-то подсказывает, что и у гуглового есть погонять - не все так волшебно будет), никакого "без потери качества в 16 раз" там заведомо нет, конечно)


  1. cibirilix
    05.09.2021 22:16
    -2

    Можно выкидывать все Ваши камеры в 24mpx ;)))


  1. smirnoffserhiy80
    05.09.2021 22:33
    +1

    Я думаю если исходник был в плохом качестве, то его уже никакая технология не улучшит, темболее бесплатный продукт от гугла.


  1. DIMooo
    06.09.2021 09:03
    +3

    Я помню что в 90-х баловался программкой фрактального сжатия и увеличения. Загонял в неё картинку размером 32х32 и на голой математике без всяких ИИ и нейросетей минут через 10 получал увеличенный в 30 раз результат, который было просто интересно разглядывать, потому, что он получался "магически" естественным, только на гладких глянцевых поверхностях появлялись сколы и трещинки или грязь какая то налипала.


  1. c_kotik
    06.09.2021 09:48
    +2

    Так, давайте уже скорее обрабатывать фото пришельцев и НЛО!


  1. Galperin_Mark
    06.09.2021 11:15
    +1

    Возможно технологию удастся применить для снижения объема передаваемого трафика. Если в определенных случаях (не утверждаю что во всех) изображение можно будет передавать в искусственно заниженном разрешении, а затем восстановить почти без потери качества, то это должно значительно снизить объем передаваемого видео, фото и иных графический файлов.


    1. 3Dvideo
      06.09.2021 13:51
      +1

      Там все не так волшебно) Мы прогнали пачку наиболее успешных алгоритмов Super-Resolution с разными кодеками на разных разрешениях. Ключевые выводы:
      * Как только со сжатием уходят высокие частоты - эффективность подавляющего большинства методов SR сильно падает (ниже битрейт - ниже выигрыш от SR).
      * С новыми кодеками (типа AV1) эффективность применения SR ниже, чем со старыми (типа H.264).

      С другой стороны - сейчас включение нейросетевых методов SR прямо внутрь кодека - это тренд + есть LCEVC

      Статья на английском точно будет. Возможно и пост тоже)


  1. muxa_ru
    06.09.2021 18:33
    +2

    А можно ли им как-нибудь скормить вот эту картинку и увеличить?

    Интересно, что будет в фаре


  1. Alcpp
    07.09.2021 18:47
    +1

    Интересно, с этим справится? Это зона посадки на Луну.