Недавно в журнале Nature вышла статья, которая заставила нас ахнуть: оказывается, современные нейросети начинают думать о мире почти как люди! Учёные из Китая исследовали, как большие языковые модели (LLM) и мультимодальные модели (MLLM) формируют представления об объектах, и сравнили их с человеческим мышлением. Мы разобрали эту работу и рассказываем вам, почему она реально крутая, простым языком. Погнали!

Что за исследование?

Представьте, что вы смотрите на яблоко, собаку и стул. Вы сразу понимаете: яблоко и собака — это что‑то живое, а стул — нет. Собака ближе к кошке, чем к машине. Эта способность группировать и сравнивать объекты — основа нашего мышления. Учёные задались вопросом: могут ли нейросети, такие как ChatGPT или Gemini, делать то же самое? И если да, насколько их «мысли» похожи на наши?

Чтобы это проверить, исследователи собрали 4,7 миллиона ответов на задачу «найди лишнее» (как в детской игре). Они взяли базу из 1854 объектов — от животных до техники — и составили миллионы триплетов (например, «альпака, антилопа, доспехи»). Задача: выбрать, какой объект лишний. Ответы собирали от трёх групп:

  1. Люди — тысячи участников с платформы Amazon Mechanical Turk.

  2. Языковая модель (ChatGPT-3.5) — она видела только текстовые описания объектов (например, «альпака — одомашненная лама с шелковистой шерстью»).

  3. Мультимодальная модель (Gemini ProVision) — она смотрела на картинки объектов.

Из этих ответов учёные построили «ментальные карты» — математические представления, где каждый объект — это точка в многомерном пространстве, а похожие объекты находятся ближе друг к другу. И вот что они нашли.

Ключевые находки

Нейросети думают как люди

Учёные использовали метод SPOS (Sparse Positive Similarity Embedding), чтобы превратить миллионы ответов в 66-мерные карты. Это как координаты для каждого объекта (например, «кот» или «телескоп») в пространстве смыслов. И вот сюрприз: эти карты оказались стабильными и предсказуемыми. Нейросети не просто случайно выбирали ответы — они следовали логике, похожей на человеческую.

Ещё круче: эти 66 измерений оказались понятными для человека. Например, одно измерение объединяло животных, другое — еду, третье — технику. Gemini, которая видела картинки, даже выделила визуальные категории вроде «драгоценности» или «много мелких объектов» — то, чего текстовая ChatGPT не могла. Получается, нейросети сами, без подсказок, научились группировать объекты по смыслу, как мы!

Мультимодальные модели ближе к человеку

Учёные сравнили ментальные карты людей, ChatGPT и Gemini с помощью метода RSA (анализ репрезентативного сходства). Это так же, как проверить, насколько две карты похожи. Результаты:

  • Gemini круче ChatGPT: Мультимодальная модель, которая видит картинки, оказалась намного ближе к человеческому мышлению, чем текстовая ChatGPT.

  • Люди — мастера визуала: Мы лучше улавливаем цвета, формы и текстуры (например, «красное» или «округлое»). У ChatGPT с этим проблемы, а Gemini уже ближе к нам, но всё ещё не дотягивает.

  • ChatGPT — педант: Текстовая модель создаёт очень детальные категории, вроде «замороженные десерты» или «домашний скот», там, где мы просто говорим «еда» или «животные».

Нейросети и мозг работают похоже

Самое ошеломляющее: учёные сравнили ментальные карты нейросетей с активностью человеческого мозга! Они использовали данные fMRI (функциональной магнитно‑резонансной томографии) из проекта Natural Scenes Dataset. Людям показывали тысячи картинок, а их мозговую активность сканировали. Оказалось, что объекты, которые Gemini считает похожими, вызывают похожие реакции в зрительной коре мозга — особенно в областях, отвечающих за лица (FFA), тела (EBA) и сцены (PPA, RSC).

Это не просто совпадение. Это доказывает, что мультимодальные нейросети формируют представления, похожие на человеческие на уровне структуры. Словно ИИ и наш мозг, идя разными путями, пришли к похожим способам понимать мир.

Это исследование показывает, что нейросети, особенно мультимодальные, учатся видеть мир почти как мы. Они не просто имитируют ответы, а строят осмысленные категории — животные, еда, техника. Это открывает путь к ИИ, который будет интуитивно понимать нас, потому что его «взгляд» на мир похож на наш.

Помощь в изучении мозга

Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.

Философский вопрос

Что такое понимание? Нужен ли биологический мозг, чтобы «понимать» мир? Исследование говорит, что нет — достаточно сложной нейросети и кучи данных. Это размывает грань между искусственным и человеческим интеллектом и заставляет задуматься: где проходит эта граница?

Недостатки исследования

Как и любая научная работа, эта не идеальна. Вот что отметили сами авторы и мы:

  1. Мало моделей: Учёные тестировали только ChatGPT-3.5 и Gemini ProVision. Это старые модели, и хотя результаты, вероятно, применимы к новым, для полной уверенности нужно больше тестов.

  2. Человеческие описания: ChatGPT работала с текстовыми описаниями из базы WordNet, которые уже структурированы людьми. Получается, модель могла просто «отражать» человеческие категории, а не создавать их с нуля.

  3. Корреляция ≠ тождество: Да, карты нейросетей похожи на мозговые, но это не значит, что они работают одинаково. Мозг — это электрохимия и миллионы лет эволюции, а ИИ — математическая оптимизация на чипах.

  4. Чёрный ящик: Метод SPOS показал, какие категории использует ИИ (еда, животные), но не объясняет, как они появились внутри сети.

Заключение

Этоисследование — настоящий прорыв. Оно показывает, что мультимодальные нейросети, такие как Gemini, формируют представления об объектах, которые пугающе похожи на человеческие — и на уровне поведения, и на уровне активности мозга. Это не значит, что ИИ уже стал человеком, но он явно движется в этом направлении. Мы теперь знаем, что нейросети могут сами, без подсказок, выстраивать осмысленные категории, как мы. Это открывает двери к ИИ, который будет понимать нас лучше, и к новым открытиям о нашем собственном мышлении.

Но вопросов ещё много. Как нейросети приходят к этим категориям? Насколько универсальны их «мысли»? И где грань между имитацией и настоящим пониманием? Мы живём в невероятное время, когда ИИ становится всё ближе к нам, и такие исследования — это шаги к разгадке.

Присоединяйтесь к нашему тг-каналу: обсуждаем свежие исследования, делимся инсайтами и разбираем, как ИИ меняет мир.

Комментарии (12)


  1. UIfbiorn
    11.07.2025 20:41

    Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.

    Не, это уже совсем. Нейросети не могут использовать те же принципы работы, что и мозг.


    1. s-v
      11.07.2025 20:41

      Аргументируете? Почему не могут?


      1. Kdg88
        11.07.2025 20:41

        Потому что в мозге нейроны образуют трехмерную самоизменяющуюся структуру с различными специализациями. А ЛЛМ это просто дохрена сложный алгоритм поисковик по векторной базе данных.


        1. UIfbiorn
          11.07.2025 20:41

          Единственное, я бы сказал, что структуры, потому что в мозге организация нейронов в каждом из полей отлична от других.


        1. digrobot
          11.07.2025 20:41

          Не имеет значения, какую структуру образуют нейроны - важно, какой алгоритм они реализуют.


          1. UIfbiorn
            11.07.2025 20:41

            Важно, потому что для каждого функционала своя структура


            1. digrobot
              11.07.2025 20:41

              В искусственных нейросетях для каждого функционала свои веса связей, что равноценно изменяющейся структуре.


  1. AlexRihter9690
    11.07.2025 20:41

    Учитывая, что даже современные ллмки могут застрять в бесконечном цикле повторения, сомневаюсь


    1. ivchatov309
      11.07.2025 20:41

      А люди?


    1. digrobot
      11.07.2025 20:41

      google: "как избавиться от навязчивых мыслей"


  1. ANB777
    11.07.2025 20:41

    ИИ - Искусственный интеллект Логическая машина


  1. ioleynikov
    11.07.2025 20:41

    Создание иерархии понятий сущностей это малая часть дела. Это было еще в WordNet Важно знать как разные сущности могут быть связаны друг с другом. Такая информация имеется в LLM. Для AGI осталось решить всего несколько задач: 1) создать ясную, понятную, прозрачную систему логического вывода по образцу языка Prolog на базах знаний нейросетевых моделей. 2) добавить в контуры выводов сетей эмоциональную, моральную, этическую оценку, как элемент самосознания, самооценки. 3) добавить глубокий механизмы поиска ассоциативности по всем элементам баз знаний. 4) усилит элемент креативности, самостоятельного поиска новых идей и доказательств их состоятельности. Только в этом случае ИИ станет полноценным помощником людей.