Как ИИ учится думать как человек: разбираем крутое исследование про мультимодальные модели / forpes.ru

Главная
Как ИИ учится думать как человек: разбираем крутое исследование про мультимодальные модели

Как ИИ учится думать как человек: разбираем крутое исследование про мультимодальные модели +4

11.07.2025 20:24

Nikta3 20 4900 Источник

Недавно в журнале Nature вышла статья, которая заставила нас ахнуть: оказывается, современные нейросети начинают думать о мире почти как люди! Учёные из Китая исследовали, как большие языковые модели (LLM) и мультимодальные модели (MLLM) формируют представления об объектах, и сравнили их с человеческим мышлением. Мы разобрали эту работу и рассказываем вам, почему она реально крутая, простым языком. Погнали!

Что за исследование?

Представьте, что вы смотрите на яблоко, собаку и стул. Вы сразу понимаете: яблоко и собака — это что‑то живое, а стул — нет. Собака ближе к кошке, чем к машине. Эта способность группировать и сравнивать объекты — основа нашего мышления. Учёные задались вопросом: могут ли нейросети, такие как ChatGPT или Gemini, делать то же самое? И если да, насколько их «мысли» похожи на наши?

Чтобы это проверить, исследователи собрали 4,7 миллиона ответов на задачу «найди лишнее» (как в детской игре). Они взяли базу из 1854 объектов — от животных до техники — и составили миллионы триплетов (например, «альпака, антилопа, доспехи»). Задача: выбрать, какой объект лишний. Ответы собирали от трёх групп:

Люди — тысячи участников с платформы Amazon Mechanical Turk.
Языковая модель (ChatGPT-3.5) — она видела только текстовые описания объектов (например, «альпака — одомашненная лама с шелковистой шерстью»).
Мультимодальная модель (Gemini ProVision) — она смотрела на картинки объектов.

Из этих ответов учёные построили «ментальные карты» — математические представления, где каждый объект — это точка в многомерном пространстве, а похожие объекты находятся ближе друг к другу. И вот что они нашли.

Ключевые находки

Нейросети думают как люди

Учёные использовали метод SPOS (Sparse Positive Similarity Embedding), чтобы превратить миллионы ответов в 66-мерные карты. Это как координаты для каждого объекта (например, «кот» или «телескоп») в пространстве смыслов. И вот сюрприз: эти карты оказались стабильными и предсказуемыми. Нейросети не просто случайно выбирали ответы — они следовали логике, похожей на человеческую.

Ещё круче: эти 66 измерений оказались понятными для человека. Например, одно измерение объединяло животных, другое — еду, третье — технику. Gemini, которая видела картинки, даже выделила визуальные категории вроде «драгоценности» или «много мелких объектов» — то, чего текстовая ChatGPT не могла. Получается, нейросети сами, без подсказок, научились группировать объекты по смыслу, как мы!

Мультимодальные модели ближе к человеку

Учёные сравнили ментальные карты людей, ChatGPT и Gemini с помощью метода RSA (анализ репрезентативного сходства). Это так же, как проверить, насколько две карты похожи. Результаты:

Gemini круче ChatGPT: Мультимодальная модель, которая видит картинки, оказалась намного ближе к человеческому мышлению, чем текстовая ChatGPT.
Люди — мастера визуала: Мы лучше улавливаем цвета, формы и текстуры (например, «красное» или «округлое»). У ChatGPT с этим проблемы, а Gemini уже ближе к нам, но всё ещё не дотягивает.
ChatGPT — педант: Текстовая модель создаёт очень детальные категории, вроде «замороженные десерты» или «домашний скот», там, где мы просто говорим «еда» или «животные».

Нейросети и мозг работают похоже

Самое ошеломляющее: учёные сравнили ментальные карты нейросетей с активностью человеческого мозга! Они использовали данные fMRI (функциональной магнитно‑резонансной томографии) из проекта Natural Scenes Dataset. Людям показывали тысячи картинок, а их мозговую активность сканировали. Оказалось, что объекты, которые Gemini считает похожими, вызывают похожие реакции в зрительной коре мозга — особенно в областях, отвечающих за лица (FFA), тела (EBA) и сцены (PPA, RSC).

Это не просто совпадение. Это доказывает, что мультимодальные нейросети формируют представления, похожие на человеческие на уровне структуры. Словно ИИ и наш мозг, идя разными путями, пришли к похожим способам понимать мир.

Это исследование показывает, что нейросети, особенно мультимодальные, учатся видеть мир почти как мы. Они не просто имитируют ответы, а строят осмысленные категории — животные, еда, техника. Это открывает путь к ИИ, который будет интуитивно понимать нас, потому что его «взгляд» на мир похож на наш.

Помощь в изучении мозга

Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.

Философский вопрос

Что такое понимание? Нужен ли биологический мозг, чтобы «понимать» мир? Исследование говорит, что нет — достаточно сложной нейросети и кучи данных. Это размывает грань между искусственным и человеческим интеллектом и заставляет задуматься: где проходит эта граница?

Недостатки исследования

Как и любая научная работа, эта не идеальна. Вот что отметили сами авторы и мы:

Мало моделей: Учёные тестировали только ChatGPT-3.5 и Gemini ProVision. Это старые модели, и хотя результаты, вероятно, применимы к новым, для полной уверенности нужно больше тестов.
Человеческие описания: ChatGPT работала с текстовыми описаниями из базы WordNet, которые уже структурированы людьми. Получается, модель могла просто «отражать» человеческие категории, а не создавать их с нуля.
Корреляция ≠ тождество: Да, карты нейросетей похожи на мозговые, но это не значит, что они работают одинаково. Мозг — это электрохимия и миллионы лет эволюции, а ИИ — математическая оптимизация на чипах.
Чёрный ящик: Метод SPOS показал, какие категории использует ИИ (еда, животные), но не объясняет, как они появились внутри сети.

Заключение

Этоисследование — настоящий прорыв. Оно показывает, что мультимодальные нейросети, такие как Gemini, формируют представления об объектах, которые пугающе похожи на человеческие — и на уровне поведения, и на уровне активности мозга. Это не значит, что ИИ уже стал человеком, но он явно движется в этом направлении. Мы теперь знаем, что нейросети могут сами, без подсказок, выстраивать осмысленные категории, как мы. Это открывает двери к ИИ, который будет понимать нас лучше, и к новым открытиям о нашем собственном мышлении.

Но вопросов ещё много. Как нейросети приходят к этим категориям? Насколько универсальны их «мысли»? И где грань между имитацией и настоящим пониманием? Мы живём в невероятное время, когда ИИ становится всё ближе к нам, и такие исследования — это шаги к разгадке.

Присоединяйтесь к нашему тг-каналу: обсуждаем свежие исследования, делимся инсайтами и разбираем, как ИИ меняет мир.

Комментарии (20)

UIfbiorn
11.07.2025 20:41
#28559294
Анализируя нейросети, мы можем лучше понять, как работает наш собственный мозг. Если ИИ и мозг используют похожие принципы для категоризации, это даёт учёным новые подсказки о том, как мы думаем.

Не, это уже совсем. Нейросети не могут использовать те же принципы работы, что и мозг.
1. s-v
  11.07.2025 20:41
  #28559336
  Аргументируете? Почему не могут?
  1. Kdg88
    11.07.2025 20:41
    #28559792
    Потому что в мозге нейроны образуют трехмерную самоизменяющуюся структуру с различными специализациями. А ЛЛМ это просто дохрена сложный алгоритм поисковик по векторной базе данных.
    
    UIfbiorn
    11.07.2025 20:41
    #28560016
    Единственное, я бы сказал, что структуры, потому что в мозге организация нейронов в каждом из полей отлична от других.
    
    digrobot
    11.07.2025 20:41
    #28560258
    Не имеет значения, какую структуру образуют нейроны - важно, какой алгоритм они реализуют.
    
    UIfbiorn
    11.07.2025 20:41
    #28560366
    Важно, потому что для каждого функционала своя структура
    
    digrobot
    11.07.2025 20:41
    #28560416
    В искусственных нейросетях для каждого функционала свои веса связей, что равноценно изменяющейся структуре.
    
    Kdg88
    11.07.2025 20:41
    #28565198
    Веса связей нужны для того чтоб на запрос 'напиши функцию на питоне' вам не прилетело описание параболы нарисованое на змейке. Ну серьезно, спросите у гпт разницу между нейронами человека и нейросети, думаю его ответ будет более авторитетным. И про алгоритмы которые реализуют нейроны, и что случится даже если нейросеть обучат исключительно самые квалифицированные ученые со всех областей без лишнего мусора.
    
    digrobot
    11.07.2025 20:41
    #28565374
    разницу между нейронами человека и нейросети
    
    Зачем мне спрашивать про разницу между крылом вороны и самолета?
    
    Kdg88
    11.07.2025 20:41
    #28565784
    Например для того чтобы сравнивать равноценость специализации нейронов мозга с нейронами нейронок. Ну а еще проще - скопируйте этот тред любимой ллм и спросите к чему был вышеупомянутый совет.
    
    Politura
    11.07.2025 20:41
    #28563866
    А ЛЛМ это просто дохрена сложный алгоритм поисковик по векторной базе данных...
    
    Нейроны которого образут сложную структуру с различными специализациями.
    
    И, честно говоря, вы бы матчасть подучили. Чтоб понять в чем разница между векторной базой и LLM, прежде чем пулять фразами.
    
    Kdg88
    11.07.2025 20:41
    #28565106
    Вы бы воспользовались своим советом. Мне лень на каждый чих расписывать разницу между нейрорами мозга и ллм в деталях. Если действительно хотите подискутировать, окей - давайте свою точку зрения на схожесть в механике работы.
1. dkosolobov
  11.07.2025 20:41
  #28562700
  (Не туда ответил, извините)

AlexRihter9690
11.07.2025 20:41
#28559516
Учитывая, что даже современные ллмки могут застрять в бесконечном цикле повторения, сомневаюсь
1. ivchatov309
  11.07.2025 20:41
  #28559832
  А люди?
1. digrobot
  11.07.2025 20:41
  #28560280
  google: "как избавиться от навязчивых мыслей"

ANB777
11.07.2025 20:41
#28560402
ИИ - ~~Искусственный интеллект~~ Логическая машина

ioleynikov
11.07.2025 20:41
#28561016
Создание иерархии понятий сущностей это малая часть дела. Это было еще в WordNet Важно знать как разные сущности могут быть связаны друг с другом. Такая информация имеется в LLM. Для AGI осталось решить всего несколько задач: 1) создать ясную, понятную, прозрачную систему логического вывода по образцу языка Prolog на базах знаний нейросетевых моделей. 2) добавить в контуры выводов сетей эмоциональную, моральную, этическую оценку, как элемент самосознания, самооценки. 3) добавить глубокий механизмы поиска ассоциативности по всем элементам баз знаний. 4) усилит элемент креативности, самостоятельного поиска новых идей и доказательств их состоятельности. Только в этом случае ИИ станет полноценным помощником людей.

dkosolobov
11.07.2025 20:41
#28562704
Первая строка вводит в заблуждение: статья опубликована в nature machine intelligence и это совсем не то же, что nature, хоть и принадлежит тому же издателю. Более того, судя по всему журнал очень средней руки и в нем публикуются, в том числе, чтобы как раз можно было сказать "у нас статья в nature machine intelligence", а люди (как автор например) услышали бы "у нас статья в nature".

Asterris
11.07.2025 20:41
#28563612
Ну, тот факт, что нейросети видят невидимые паттерны известен ещё с момента их изобретения. А тот факт, что они классифицируют их "по-человечески" типа "еда" и "животные" вовсе ни о чем не говорит. Типичный классификатор в диффузной сетке типа StableDiffusion увидит типа кошку на полностью зашумленной картинке с вероятностью 10% - ну и для классификации просто будет выбран этот первый, самый вероятный вариант. Плюс нейросеть ничего не знает об объектах реального мира - она просто сопоставляет набор пикселей с известными ей паттернами.

Поэтому нельзя работу vision-сеток сравнивать с бинокулярным человеческим зрением, которое видит глубину и понимает суть объектов через другие органы чувств в том числе.

Интересно было бы воспроизвести аналогичный эксперимент на людях - показывать им рандомные абстрактные наборы пятен, типа тестов Роршаха - чтобы люди не могли их узнать напрямую, а просто анализировали бы визуальные паттерны. И потом сравнить результаты с ответами ИИ.