
Недавно в журнале Nature вышла статья, которая заставила нас ахнуть: оказывается, современные нейросети начинают думать о мире почти как люди! Учёные из Китая исследовали, как большие языковые модели (LLM) и мультимодальные модели (MLLM) формируют представления об объектах, и сравнили их с человеческим мышлением. Мы разобрали эту работу и рассказываем вам, почему она реально крутая, простым языком. Погнали!
Что за исследование?
Представьте, что вы смотрите на яблоко, собаку и стул. Вы сразу понимаете: яблоко и собака — это что‑то живое, а стул — нет. Собака ближе к кошке, чем к машине. Эта способность группировать и сравнивать объекты — основа нашего мышления. Учёные задались вопросом: могут ли нейросети, такие как ChatGPT или Gemini, делать то же самое? И если да, насколько их «мысли» похожи на наши?
Чтобы это проверить, исследователи собрали 4,7 миллиона ответов на задачу «найди лишнее» (как в детской игре). Они взяли базу из 1854 объектов — от животных до техники — и составили миллионы триплетов (например, «альпака, антилопа, доспехи»). Задача: выбрать, какой объект лишний. Ответы собирали от трёх групп:
Люди — тысячи участников с платформы Amazon Mechanical Turk.
Языковая модель (ChatGPT-3.5) — она видела только текстовые описания объектов (например, «альпака — одомашненная лама с шелковистой шерстью»).
Мультимодальная модель (Gemini ProVision) — она смотрела на картинки объектов.
Из этих ответов учёные построили «ментальные карты» — математические представления, где каждый объект — это точка в многомерном пространстве, а похожие объекты находятся ближе друг к другу. И вот что они нашли.
Ключевые находки
Нейросети думают как люди
Учёные использовали метод SPOS (Sparse Positive Similarity Embedding), чтобы превратить миллионы ответов в 66-мерные карты. Это как координаты для каждого объекта (например, «кот» или «телескоп») в пространстве смыслов. И вот сюрприз: эти карты оказались стабильными и предсказуемыми. Нейросети не просто случайно выбирали ответы — они следовали логике, похожей на человеческую.
Ещё круче: эти 66 измерений оказались понятными для человека. Например, одно измерение объединяло животных, другое — еду, третье — технику. Gemini, которая видела картинки, даже выделила визуальные категории вроде «драгоценности» или «много мелких объектов» — то, чего текстовая ChatGPT не могла. Получается, нейросети сами, без подсказок, научились группировать объекты по смыслу, как мы!
Мультимодальные модели ближе к человеку
Учёные сравнили ментальные карты людей, ChatGPT и Gemini с помощью метода RSA (анализ репрезентативного сходства). Это так же, как проверить, насколько две карты похожи. Результаты:
Gemini круче ChatGPT: Мультимодальная модель, которая видит картинки, оказалась намного ближе к человеческому мышлению, чем текстовая ChatGPT.
Люди — мастера визуала: Мы лучше улавливаем цвета, формы и текстуры (например, «красное» или «округлое»). У ChatGPT с этим проблемы, а Gemini уже ближе к нам, но всё ещё не дотягивает.
ChatGPT — педант: Текстовая модель создаёт очень детальные категории, вроде «замороженные десерты» или «домашний скот», там, где мы просто говорим «еда» или «животные».
Нейросети и мозг работают похоже
Самое ошеломляющее: учёные сравнили ментальные карты нейросетей с активностью человеческого мозга! Они использовали данные fMRI (функциональной магнитно‑резонансной томографии) из проекта Natural Scenes Dataset. Людям показывали тысячи картинок, а их мозговую активность сканировали. Оказалось, что объекты, которые Gemini считает похожими, вызывают похожие реакции в зрительной коре мозга — особенно в областях, отвечающих за лица (FFA), тела (EBA) и сцены (PPA, RSC).
Это не просто совпадение. Это доказывает, что мультимодальные нейросети формируют представления, похожие на человеческие на уровне структуры. Словно ИИ и наш мозг, идя разными путями, пришли к похожим способам понимать мир.
Это исследование показывает, что нейросети, особенно мультимодальные, учатся видеть мир почти как мы. Они не просто имитируют ответы, а строят осмысленные категории — животные, еда, техника. Это открывает путь к ИИ, который будет интуитивно понимать нас, потому что его «взгляд» на мир похож на наш.
Помощь в изучении мозга
Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.
Философский вопрос
Что такое понимание? Нужен ли биологический мозг, чтобы «понимать» мир? Исследование говорит, что нет — достаточно сложной нейросети и кучи данных. Это размывает грань между искусственным и человеческим интеллектом и заставляет задуматься: где проходит эта граница?
Недостатки исследования
Как и любая научная работа, эта не идеальна. Вот что отметили сами авторы и мы:
Мало моделей: Учёные тестировали только ChatGPT-3.5 и Gemini ProVision. Это старые модели, и хотя результаты, вероятно, применимы к новым, для полной уверенности нужно больше тестов.
Человеческие описания: ChatGPT работала с текстовыми описаниями из базы WordNet, которые уже структурированы людьми. Получается, модель могла просто «отражать» человеческие категории, а не создавать их с нуля.
Корреляция ≠ тождество: Да, карты нейросетей похожи на мозговые, но это не значит, что они работают одинаково. Мозг — это электрохимия и миллионы лет эволюции, а ИИ — математическая оптимизация на чипах.
Чёрный ящик: Метод SPOS показал, какие категории использует ИИ (еда, животные), но не объясняет, как они появились внутри сети.
Заключение
Этоисследование — настоящий прорыв. Оно показывает, что мультимодальные нейросети, такие как Gemini, формируют представления об объектах, которые пугающе похожи на человеческие — и на уровне поведения, и на уровне активности мозга. Это не значит, что ИИ уже стал человеком, но он явно движется в этом направлении. Мы теперь знаем, что нейросети могут сами, без подсказок, выстраивать осмысленные категории, как мы. Это открывает двери к ИИ, который будет понимать нас лучше, и к новым открытиям о нашем собственном мышлении.
Но вопросов ещё много. Как нейросети приходят к этим категориям? Насколько универсальны их «мысли»? И где грань между имитацией и настоящим пониманием? Мы живём в невероятное время, когда ИИ становится всё ближе к нам, и такие исследования — это шаги к разгадке.
Присоединяйтесь к нашему тг-каналу: обсуждаем свежие исследования, делимся инсайтами и разбираем, как ИИ меняет мир.
Комментарии (12)
AlexRihter9690
11.07.2025 20:41Учитывая, что даже современные ллмки могут застрять в бесконечном цикле повторения, сомневаюсь
ioleynikov
11.07.2025 20:41Создание иерархии понятий сущностей это малая часть дела. Это было еще в WordNet Важно знать как разные сущности могут быть связаны друг с другом. Такая информация имеется в LLM. Для AGI осталось решить всего несколько задач: 1) создать ясную, понятную, прозрачную систему логического вывода по образцу языка Prolog на базах знаний нейросетевых моделей. 2) добавить в контуры выводов сетей эмоциональную, моральную, этическую оценку, как элемент самосознания, самооценки. 3) добавить глубокий механизмы поиска ассоциативности по всем элементам баз знаний. 4) усилит элемент креативности, самостоятельного поиска новых идей и доказательств их состоятельности. Только в этом случае ИИ станет полноценным помощником людей.
UIfbiorn
Не, это уже совсем. Нейросети не могут использовать те же принципы работы, что и мозг.
s-v
Аргументируете? Почему не могут?
Kdg88
Потому что в мозге нейроны образуют трехмерную самоизменяющуюся структуру с различными специализациями. А ЛЛМ это просто дохрена сложный алгоритм поисковик по векторной базе данных.
UIfbiorn
Единственное, я бы сказал, что структуры, потому что в мозге организация нейронов в каждом из полей отлична от других.
digrobot
Не имеет значения, какую структуру образуют нейроны - важно, какой алгоритм они реализуют.
UIfbiorn
Важно, потому что для каждого функционала своя структура
digrobot
В искусственных нейросетях для каждого функционала свои веса связей, что равноценно изменяющейся структуре.