Читая HABR, наткнулся на статью про мышление больших моделей и их способности распознавания изображений. И у меня возникла идея небольшого теста одной имеющейся у меня модели LLM, которая умеет распозновать фото, а именно llama4:16x17b НО запущенной полностью локально.

Весит эта модель 67 гигабайт, если интересно на чем она была запущена отвечу в комментариях.

На написание статьи меня подвинул один из комментариев - "а как интересно нейросеть распознает разные типы животных"

Для теста я выбрал вот такую картинку
Для теста я выбрал вот такую картинку

Вопрос к модели был абсолютно простым:

Какие существа есть на картинке?

А ответ на удивление быстрым и лаконичным, всего за 30 секунд, покажу его скриншоты.

Для интересующихся, я запускаю модели ollama через open webui. Но иногда натыкаюсь на критику такой связки. Я не против критики, но только когда она конструктивна. Так что готов отвечать на любые вопросы того что я уже изучил в запуске LLM локально, а так же на обоснованную критику моих знаний и действий. )-;

Комментарии (22)


  1. Terranz
    19.02.2026 20:40

    Я чесслово не могу понять, зачем текстовыми моделями распознавать что-то кроме текста?


    1. softel Автор
      19.02.2026 20:40

      Например тексты с картинок taobao


    1. ENick
      19.02.2026 20:40

      это не текстовая модель: """имеющейся у меня модели LLM, которая умеет распозновать фото """


      1. ENick
        19.02.2026 20:40

        """На написание статьи меня подвинул один из комментариев - "а как интересно нейросеть распознает разные типы животных" """ и куда подвинул? Ответа на вопрос: """как нейросеть распознает разные типы животных""" я не увидел. Что хотел сказать Автор этой публикацией?


        1. softel Автор
          19.02.2026 20:40

          Извините, у вас много кавычек в ответе на комментарий, соберитесь и задайте свой вопрос грамотней.


    1. hubabubabagz
      19.02.2026 20:40

      Они могут написать подробное текстовое описание - промпт для рисования "такой же" картинки/ Это популярный сценарий у "нейрохудожников". Они целыми днями такой фигней занимаются.


  1. StraNNicK
    19.02.2026 20:40

    Весит эта модель 67 гигабайт, если интересно на чем она была запущена отвечу в комментариях.

    Интересно. Подозреваю, что что-то вроде GMKtec EVO-X2 128GB


  1. normal
    19.02.2026 20:40

    любопытно. а кто-нибудь нашел открытую LLM под сканы российских паспортов? ну то что делают многие коммерческие решения. из скана паспорта (который может быть и на боку, и перевернут) -- четко выдать серию, ФИО, место выдачи и т.д


    1. softel Автор
      19.02.2026 20:40

      Присылай фото своего паспорта в любом ракурсе, прогоню его через свою нейронку, вдруг она распознает.


    1. dkeiz
      19.02.2026 20:40

      какой-нибудь qwen 3 8B vl наверняка справится, если объяснить ему что от него хотят.


    1. Terranz
      19.02.2026 20:40

      Мы сами делали


  1. softel Автор
    19.02.2026 20:40

    краткая характеристика моего сервера:

    Процессор Core I9 14900KF

    RAM: DDR5 192 Gb.

    GPU 2 x RTX4090D 48Gb (96 Гб. VRAM GDDR6X), производительность по меркам huggingface 166 TFLOPS


    1. Bobos
      19.02.2026 20:40

      Рекомендую забить на webui и открыть для себя удивительный мир comfyui. Там с таким железом можно очень неплохо поразвлечься. А заодно и понять, что именно происходит под капотом всех этих генераторов и распозновалок картинок.


      1. softel Автор
        19.02.2026 20:40

        Спасибо, попробую.

        А железо планирую апгрейдить.


  1. vlsnake
    19.02.2026 20:40

    То что реально удивило в последнее время Qwen/Qwen3-Omni-Demo - картинки - это 2025 год а видео - вот тут я сбросил видео записанное при помощи FuncAnimation из matplotlib, и попросил написать код на python генерирующий это видео - честно я удивлен результатом - китайцы молодцы.

    Из локального, которое можно еще запустить на компе недавно вышла Qwen/Qwen3.5-397B-A17B - вроде GGUF модели около 96Гб


  1. hubabubabagz
    19.02.2026 20:40

    gemma намного меньше и дает такие же ответы


    1. softel Автор
      19.02.2026 20:40

      Я не проверял, но если вы проверяли, то может поделитесь результатами, если вам не сложно конечно.


      1. hubabubabagz
        19.02.2026 20:40

        Это 17гб модель, и у нее есть версии на 8 и 3гб.


        1. softel Автор
          19.02.2026 20:40

          Ну неплохо, скачаю, может для чего и пригодится.


          1. hubabubabagz
            19.02.2026 20:40

            qwen еще есть, он позднее всех вышел, должен быть лучше, по цифрам бенчмарков точно лучше


        1. vlsnake
          19.02.2026 20:40

          А скормите вот это https://www.youtube.com/shorts/9b19b7SmovU и попросите на питоне написать код анимации. Даже больше - попробуйте на любой платной модели


  1. evgensenin
    19.02.2026 20:40

    Если вдруг решитесь развивать эту тему в следующих статьях, то могу предложить проработать тему какие максимально маленькие нейронки могут точно распознавать множество деталей на реалистичных фотографиях (семейных к примеру) и с выходом в json формате. (может есть что-то получше yolo)