Появились первые тесты новой модели Janus Pro — она не только генерирует изображения, но и распознаёт их в режиме image-to-text, описывая детали в виде осмысленных комментариев.

Давайте посмотрим, как Janus Pro (7B) справляется с генерацией изображений по сравнению с Stable Diffusion 3 (Medium) и Dalle-3, а также кто более полно и точно комментирует изображения — Janus Pro или ChatGPT-4o.

Что такое Janus Pro?

Janus Pro — это продвинутая мультимодальная языковая модель от DeepSeek, усовершенствованная версия оригинальной Janus. Её архитектура построена так, чтобы модель была способна и анализировать изображения, и генерировать их. Обучение модели проходило в три этапа, используя комбинацию мультимодальных данных, текстов и синтетических визуальных материалов. Janus Pro доступна в двух версиях: 1B и 7B. Главное нововведение Janus Pro — разделённая архитектура, которая делает модель более эффективной при обработке мультимодальных данных и генерации изображений.

Сравнение генераций в разных моделях

Давайте рассмотрим, как три нейросети справились с отрисовкой нескольких промтов.

Кстати, вы можете генерировать изображения на моделях Stable DiffusionDalle и Midjourney в нашем агрегаторе нейросетей.

Самурай в футуристичном городе

Промт: photo of a samurai in a traditional outfit holding a sci‑fi blaster, futuristic skyscrapers with neon signs in the background
Самурай в традиционной одежде, держащий научно‑фантастический бластер, на фоне футуристических небоскрёбов с неоновыми вывесками.

Janus Pro (7B):

(1 of 3)

Stable Diffusion 3 (Medium):

(2 of 3)

Dalle-3:

(3 of 3)

Как видно, даже в 7-миллиардной версии Janus Pro пока значительно уступает конкурентам. Генерация напоминает ранние эксперименты Stable Diffusion 1 образца 2021–2022 годов. В отличие от неё, Stable Diffusion 3 (Medium) и Dalle-3 выдают проработанные, детализированные изображения высокого качества.

Картинка с кошкой и собакой

Промт: cartoon illustration of a blue cat and a green dog wearing party hats, sitting on a park bench and looking up at Saturn
Рисованная иллюстрация — синий кот и зелёная собака в праздничных колпаках, сидят на скамейке в парке и смотрят вверх на Сатурн.

Janus Pro (7B):

(1 of 3)

Stable Diffusion 3 (Medium):

(2 of 3)

Dalle-3:

(3 of 3)

Снова Stable Diffusion и Dalle выдают качественные изображения, которые можно использовать для печати. Janus, напротив, сгенерировала размытое, схематичное изображение с нечёткими контурами.

Фиолетовый робот

Промт: a cute purple robot holding up a cardboard sign that reads «I can spell better than you!»
Милый фиолетовый робот держит картонную табличку с надписью: «Я пишу грамотнее, чем ты!»

Janus Pro (7B):

(1 of 3)

Stable Diffusion 3 (Medium):

(2 of 3)

Dalle-3:

(3 of 3)

Здесь лучше всех справилась Stable Diffusion — её изображение выглядит наименее синтетическим. На изображении, сгенерированном Janus, текст на табличке получился искажённым и практически нечитаемым.

Девочка перед зеркалом

Промт: Generate an image of a girl with deep blue eyes and blonde hair looking straight into a mirror, with her one hand under her face and the other one resting on her side, standing under the light of a flickering blub
Девочка с глубокими синими глазами и светлыми волосами смотрит в зеркало. Одна рука под её лицом, другая покоится на боку. Над ней мигает лампочка.

Janus Pro (7B):

Dalle-3:

Janus отработала запрос корректно, передав все основные детали, включая отражение лампочки в зеркале. Dalle создала изображение более детализированное и реалистичное, с тонкой проработкой всех нюансов. При детальном рассмотрении можно заметить небольшую размытость вокруг лампы на изображении Janus, в то время как Dalle выдала чёткое и проработанное изображение.

Анализ и описание изображений: сравнение Janus Pro и ChatGPT-4o

Определение победителя по счёту на табло

Промт: Based on the score in the image, which team has a higher probability of winning this game?
На основе счёта в кадре какая команда с большей вероятностью победит в игре?

Janus Pro (7B):

Судя по счёту, команда IND (Индия) имеет преимущество и более высокие шансы на победу. Их счёт — 157/4, что означает, что они лидируют на 157 очков, имея при этом ещё 4 калитки. Команда соперника идёт со счётом 123/6, отставая на 34 очка при оставшихся 6 калитках.

Оригинальный текст

Based on the score in the image, the team IND (India) has a higher probability of winning this game. IND has 157/4, which means they have a lead of 157 runs with 4 wickets remaining. The team from the other side, the one with the batting score, is currently on 123/6, meaning they are trailing by 34 runs with 6 wickets remaining

ChatGPT-4o:

Данные на изображении показывают, что Индия бьёт со счётом 137/1 за 12,5 овера против Южной Африки. Это сильная позиция, с учётом следующих факторов:
1​. Скорость набора очков. Индия набирает в среднем 10,7 очка за овер, что является отличным показателем для формата T-20.
2​. Оставшиеся калитки. Потеря всего одной калитки означает, что команда имеет хороший задел для дальнейшего ускорения.

Если только Южная Африка не установила очень высокий целевой счёт, Индия имеет доминирующую позицию. Однако без полного контекста (это первая или вторая подача?) точную вероятность победы предсказать нельзя. Но исходя из текущей информации, шансы Индии выше.

Оригинальный текст

The score displayed in this image shows that India is batting at 137/1 in 12.5 overs against South Africa. This indicates a strong position for India due to:
1​. Run Rate: India is scoring at a high rate, approximately 10.7 runs per over, which is excellent for a T20 match.
2​. Wickets in Hand: Losing only 1 wicket at this stage means India has a good platform to accelerate further in the remaining overs.

Unless South Africa has already posted a very high target, India's position is dominant. However, without knowing the target or the context of the game (e.g., first innings or chase), a definitive probability cannot be calculated. Based on this information alone, India has a higher probability of winning.

Janus корректно определила команды и сделала вывод о вероятности победы, но допустила ошибку при считывании счёта. ChatGPT не только правильно идентифицировала команды и счёт, но и дала детализированное объяснение, почему одна команда имеет преимущество. Она также отметила, что без полного контекста (например, является ли это первой или второй подачей) нельзя точно определить вероятность победы.

Описание предыстории изображения

Промт: Explain the backstory behind this image
Объясни предысторию этого изображения.

Janus Pro (7B):

На изображении представлен персонаж в высокотехнологичном костюме с бронированной перчаткой, содержащей светящийся элемент. Этот дизайн напоминает технологии, характерные для супергероев в массовой культуре. На груди персонажа виден сложный технологический механизм, который может служить источником энергии или защитным устройством.

Визуальный стиль и элементы изображения типичны для научной фантастики и супергеройских фильмов, где герои обладают сверхчеловеческими способностями и используют специализированные костюмы для усиления своих возможностей.

Судя по напряжённой атмосфере и драматическому освещению, это, вероятно, сцена из фильма, в которой персонаж либо сражается, либо использует свои способности. Светящийся элемент на руке указывает на возможность манипуляции энергией, что часто встречается в супергеройских сюжетах.

Оригинальный текст

This image depicts a character who is wearing an advanced suit that includes a high‑tech armored glove with a glowing element on the hand, reminiscent of technology often associated with superheroes in popular culture. The character is also wearing a chest piece with intricate and complex designs, suggesting advanced technology and possibly serving as a power source or a protective device.

The visual style and elements of the image are typical of science fiction and superhero films, where characters often possess superhuman abilities and wear specialized suits or armor to enhance their powers and protect themselves.

This particular image is likely a scene from a movie where the character is engaging in a battle or using their powers, given the intensity of the action and the dramatic lighting. The glowing element in the hand suggests the use of some form of energy manipulation, which is a common theme in superhero narratives.

ChatGPT-4o:

Это изображение запечатлело ключевой момент фильма «Мстители»: Финал (2019) из киновселенной Marvel (MCU). На нём показан Тони Старк, Железный человек (в исполнении Роберта Дауни‑мл.), использующий камни бесконечности в специально разработанном для них наноперчатке, встроенной в его броню.

Предыстория сцены
● «Мстители» ведут решающую битву с Таносом, который пытается использовать камни бесконечности, чтобы уничтожить Вселенную и создать её заново по своему замыслу.
● Танос получает контроль над камнями, и положение «Мстителей» становится отчаянным.
● В этот критический момент Тони Старк проявляет свою гениальность и быстро соображает, как перехватить камни, встроив их в свой нанокостюм.
● Понимая, что их сила смертельна для любого живого существа, он щёлкает пальцами, уничтожая Таноса и его армию, и произносит культовую фразу: «Я — Железный человек».

Значимость сцены
Этот акт самопожертвования спасает Вселенную, но ценой жизни Тони Старка: колоссальная энергия камней оказывается для него смертельной. Эта сцена стала не только эмоциональной кульминацией фильма, но и финальной точкой истории Старка в киновселенной Marvel, закрепив его статус героя, отдавшего всё ради спасения других.

Оригинальный текст

This image depicts a pivotal moment from the Marvel Cinematic Universe (MCU) movie Avengers: Endgame (2019). It shows Tony Stark/Iron Man (played by Robert Downey Jr.) wielding the Infinity Stones in a specially designed gauntlet integrated into his suit.

Backstory:
● The Avengers team is engaged in a climactic battle against Thanos, who is attempting to use the Infinity Stones to destroy and recreate the universe according to his will.
● After Thanos gains control of the Infinity Stones, the Avengers find themselves in a desperate situation.
● In a moment of sacrifice and heroism, Tony Stark uses his genius and quick thinking to retrieve the Stones by integrating them into his nanotech suit.
● Knowing the power of the Stones is lethal to any mortal, Tony snaps his fingers to erase Thanos and his army from existence, uttering the iconic line: “I am Iron Man.”

Significance:

This act of self‑sacrifice saves the universe but comes at the cost of Tony's life, as the immense energy from the Infinity Stones is too much for his body to endure. It marks the end of Tony Stark's arc in the MCU and cements his legacy as a hero who made the ultimate sacrifice. This moment is considered one of the most emotional and defining scenes in MCU history.

Janus подробно описала элементы изображения, но не смогла уловить его предысторию и дала общее объяснение. Dalle распознала сцену из «„Мстителей“: Финал», а также описала ключевой сюжетный поворот фильма и передала эмоциональную глубину момента.

Разбор мема

Промт: Explain this meme
Объясни этот мем.

Janus Pro (7B):

1​. Левая сторона (телефоны 1990-х):
● Изображён мускулистый Doge (известный интернет‑мем) с надписью «NOKIA».
● Подписи:
— «Я самый прочный материал на земле»;
— «Моя батарея бесконечна».
● Это отсылка к культовым телефонам Nokia, известным своей прочностью, долговечностью и мощной батареей.

2​. Правая сторона (телефоны 2020-х):
● Изображён маленький грустный Doge с логотипом Apple.
● Подписи:
— «Пожалуйста, не трогайте, иначе я тресну»;
— «Меня не заряжали три часа, я сейчас умру».
● Это намёк на современные смартфоны, особенно iPhone, которые часто критикуют за хрупкость экранов и быструю разрядку аккумулятора.

Смысл мема
Мем с юмором противопоставляет прочность и надёжность телефонов 1990-х годов хрупкости и быстрой разрядке современных смартфонов. Он подчёркивает значительные изменения в технологии и ожиданиях пользователей за эти годы, показывая, что телефоны прошлого воспринимаются как более надёжные и менее требовательные.

Выводы
Этот мем — шутливая критика современных смартфонов, высмеивающая их кажущуюся хрупкость и необходимость частой подзарядки в сравнении с прочными и долговечными телефонами прошлого.

Дайте знать, если потребуется дополнительное разъяснение!

Оригинальный текст

1​. Left Side (Phones in 1990s):
● Depicts a muscular Doge (a popular internet meme character) with the word “NOKIA” written on its body.
● Captions:
— “I'm the strongest material known to man.”
— “My battery power is unlimited.”
● These references to Nokia phones from the 1990s, known for their durability, long battery life, and robust build quality.

2​. Right Side (Phones in 2020):
● Depicts a smaller, sad Doge with an Apple logo on its body.
● Captions:
— “Please don't touch me or I'll crack.”
— “I haven't been charged for 3 hours, I'll commit die.”
● These references to modern smartphones, particularly iPhones, which are often criticized for their fragility, frequent battery drain, and frequent need for charging.

Meaning:
The meme humorously contrasts the durability and robustness of phones from the 1990s with the fragility and frequent battery drain of modern smartphones. It highlights the significant changes in technology and user expectations over the years, with the 1990s phones being seen as more reliable and less demanding.

Conclusion:
The meme is a playful critique of modern smartphones, poking fun at their perceived fragility and frequent need for charging, in contrast to the robust and long‑lasting phones of the past.

Let me know if you'd like further clarification!

ChatGPT-4o:

Мем использует популярный формат «сильный Doge против слабого Doge», чтобы с юмором показать разницу между мобильными телефонами 1990-х и смартфонами 2020-х годов.

Левая сторона: телефоны 90-х (сильный Doge, Nokia):
● Doge изображён мускулистым, с логотипом Nokia, что символизирует легендарную прочность и надёжность этих телефонов.
● Подписи утрированно восхваляют Nokia:
— «Я самый прочный материал на земле» — отсылка к неубиваемости телефонов Nokia (в частности, Nokia 3310);
— «Моя батарея бесконечна» — намёк на длительное время работы без подзарядки, по сравнению с современными смартфонами.

Правая сторона: телефоны 2020-х (слабый Doge, Apple):
● Doge изображён хрупким и грустным, с логотипом Apple, намекая на современные смартфоны, которые часто критикуют за хрупкость и быструю разрядку.
● Подписи подчёркивают их недостатки:
— «Пожалуйста, не трогайте, иначе я тресну» — намёк на хрупкость стеклянных корпусов;
— «Меня не заряжали три часа, я сейчас умру» — ирония по поводу быстрой разрядки аккумуляторов.

Оригинальный текст

This meme humorously contrasts the evolution of mobile phones from the 1990s to 2020 by using the “Strong Doge vs. Weak Doge” format, which represents exaggerated strengths and weaknesses.

Left Side: Phones in the 90s (Strong Doge — Nokia)
● The depiction of the “strong Doge” with a Nokia logo symbolizes the legendary durability and reliability of Nokia phones from that era.
● Text highlights exaggerated traits:
— “I'm the strongest material known to man”: Refers to the indestructible reputation of Nokia phones (e.g., Nokia 3310).
— “My battery power is unlimited”: Reflects the long‑lasting battery life of older phones compared to modern smartphones.

Right Side: Phones in 2020 (Weak Doge — Apple)
● The “weak Doge” with an Apple logo represents modern smartphones, often perceived as fragile and overly dependent on frequent charging.
● Text emphasizes weaknesses:
— “pls don't touch me or I'll crack”: A jab at the fragile glass construction of many modern smartphones.
— “I haven't been charged for 3 hours, I'll commit die”: A humorous exaggeration of the shorter battery life and dependency on constant charging in contemporary devices.

Overall Message:
The meme playfully criticizes the shift from durable and functional phones of the past to modern devices, which prioritize sleek design and advanced features at the cost of durability and battery life. It's a nostalgic take that pokes fun at the technological trade‑offs over time.

Janus точно интерпретирует мем, объясняя обе его стороны, также даёт контекст к изображению и кратко подытоживает суть. Модель ChatGPT тоже предоставляет детальное описание мема. Обе нейросети корректно описали мем.


Как показывают тесты, качество изображений, созданных в Janus Pro, уступает другим современным генераторам изображений — Stable Diffusion, Dalle, Midjourney. Сейчас применять Janus Pro имеет смысл лишь для изображений, в которых не требуется чётких контуров и структуры объектов, к примеру при генерации изображений природы или абстрактных объектов.

Режим image-to-text показывает нестабильные результаты. Анализ изображений в целом отлично подойдёт разработчикам, которым требуется локальный инструмент для детального описания картинок и распознавания объектов. Однако при распознавании изображений текстов — будь то европейские, восточные алфавиты, иероглифы — нейросеть допускает ошибки, причём их частота явно зависит от количества текста на исходном изображении. В то же время она хорошо распознаёт надписи, пока их немного в кадре: к примеру, считываются без ошибок одиночные формулы, дизайнерские надписи и вывески.

Источники:

Комментарии (5)


  1. fire64
    29.01.2025 15:16

    Мне DeepSeek нужен в первую очередь, для разработки макетов и схем.

    Он не плохо справляется при выводе результатов с помощью векторной графики в SVG и похуже, но все же справляется с выводом 3D модели нужной мне конструкции в Obj.

    Если эта модель способна не только рисовать, но и проектировать макеты и визуализировать их, а не просто рисовать по промтам: "Нарисуй мне собачку", то это то что мне нужно...


  1. Dron007
    29.01.2025 15:16

    Разве Dall-E 3 имеет какое-то отношение к анализу изображений? Думал, она только за генерацию отвечает, а анализ - чисто ChatGPT.


    1. dmitrifriend Автор
      29.01.2025 15:16

      Конечно, вы правы, при описании и распознавании изображений задействуется только ChatGPT, а в архитектуре Dalle не имеется способов задать входное изображение. Исправил все связанные с этим моменты, спасибо.


    1. dmitrifriend Автор
      29.01.2025 15:16

      Кстати, если последовательно генерить в Dalle (через ChatGPT) картинки, то есть в рамках одного чата, при этом просить каждый раз нейросеть как-то улучшить результат, то она может включать в свои фактические Dalle-промты (их можно посмотреть, развернув сгенерированную картинку на весь экран и нажав значок «i» в правом верхнем углу) выражения вида «Refine previous result...», то есть «улучшить предыдущий результат», что-то изменив или добавив. И сперва как будто может показаться, что сам модуль Dalle обращается к предыдущим изображениям, но, скорее всего, такое на самом деле технически не предусмотрено и нейросеть просто суммирует текстовые промты, чтобы последующие генерации более соответствовали новым запросам пользователя.


  1. asatost
    29.01.2025 15:16

    Обе модели корректно описали мем

    Но ведь справа Чимс?!