Помимо нейросетей и моделей машинного обучения, основанных на перцептронах, существуют и так называемые когнитивные архитектуры – они нацелены на имитацию человеческого интеллекта, как его себе представляют когнитивные науки через призмы разнородных теорий познания и гипотез.
Для психологии именно здесь скрывается человечность и тот сильный искусственный интеллект, AGI, симулирующий все способности человека. Но как работают архитектуры наподобии ACT-R или SOAR, и подойдут ли они для продвижения общего интеллекта? – в нашей статье.
Когнитивные технологии да и когнитивистика в целом — это про наши умственные способности. Психология, нейронаука, искусственный интеллект, лингвистика, философия и антропология — когнитивные науки — это не направление, а целая концепция понимания "психики" человека. Если мы представим себе другие психологии — они зачастую будут содержать в себе дополнительные инстанции, которые нам не особенно нужны.
Та же структура Эго у Фрейда, которая может лишь “намекать” на себя… Когнитивистика такого избегает и оттого становится амбассадором научного знания в области психологии.
Восприятие связано с тем, как люди интерпретируют сенсорную информацию из окружающего мира. Внимание исследует, как мы выбираем и концентрируемся на определенной информации, игнорируя другие раздражители. Память демонстрирует, как информация сохраняется и извлекается из нашего разума.
Язык исследует, как мы понимаем и производим речь, а также как язык структурирует наши мысли. Мышление включает в себя процессы логического рассуждения, решения задач и принятия решений. Воображение связано с нашей способностью представлять вещи, которые не присутствуют непосредственно перед нами.
Важно, что когнитивная наука больше связана с сенсорикой, интерпретацией и переработкой информации — она, прежде всего, про разум. В отличие от условного психоанализа со своим бессознательным — когнитивистика стремится генерировать научное знание с точки зрения критериев проверяемости, прозрачности.
Еще с 70ых ученые пошли по пути не только разработок теории познания на основе поведения испытуемых – они начали формировать архитектуры симуляции когнитивных способностей человека.
Простые эксперименты сохраняют ключевую проблему психологии – черного ящика.
Зная результаты, мы не можем знать их причины. Нельзя залезть к людям в голову.
Мы получили много архитектур и все они решают разные задачи: проблему ошибок, языка, формирования визуальных представлений – сегодня мы поговорим про симуляцию памяти по теории адаптивного контроля рационального мышления и реализацию SOAR по концепции USP (операциональной архитектуры с целеполаганием).
Как исследователи разбили человеческий интеллект на модули?
(Adaptive Control of Thought-Rational) или ACT-R. Из названия следует: контроль над рациональным размышлением. Плюс рационального размышления для разработчиков — оно укладывается в последовательные логические цепочки, подчинено какой-то структуре.
Разработчики ACT-R и других архитектур приводят все знания, восприятия модели в понятный информационный вид.
Здесь не будет и слова о классических языковых играх, неопределенности смысла. Задача архитектуры исследовательская. Какой бы нейронная сеть ни была, она остается упрощением, но таким, что позволяет нам сопоставлять результаты исследований.
Разработанная Джоном Р. Андерсоном и его коллегами в Карнеги-Меллоновском университете, ACT-R стремится формализовать понимание того, как ум организует и использует знания для выполнения различных задач (например, Ханойская башня, заучивание списка слов, понимание языка, общение, управление самолетом…).
Исследователи создают модели которые, помимо учета точки зрения ACT-R на познание, добавляют свои собственные предположения относительно конкретной задачи.
Эти предположения можно проверить, сравнив результаты модели с результатами людей, выполняющих те же задачи. Таким образом, исследователи пытаются подстроить данные под реальные эмпирические результаты. Кстати, результаты оценивают по времени выполнения задания, уровню точности и неврологическим данным по FMRI.
Численные оценки нужны для объективации результатов.
Исследователи могут регулировать число фактических и практических знаний, чтобы представить, сколько человеку нужно операций и фактов в голове, чтобы адекватно водить машину и не потерять права в первый день своего заезда…
Но ACT-R – это не просто программка для симуляции экспериментов, а вполне конкретная теория памяти, по которой реализовали нейросеть.
Ключевая цель подобных систем — не точная передача человеческой организации ума, а помощь в интерпретации исследований и "приближении" к пониманию интеллекта человека… ACT-R, как и SOAR не стремятся к воссозданию “разума” в полной мере.
ACT-R реализует одну из теорий познания, которая необязательно истинна и переносима на человека полноценно.
ACT-R зародилась как модель человеческой памяти и лишь затем превратилась в единую теорию познания.
Структура у нейронки простая: она состоит из нескольких модулей, буферов и "сопоставителя шаблонов".
Буферы из своего названия служат интерфейсом для взаимодействия с модулями. содержимое буфера показывает исследователям, как архитектура работает в данный модель. Это временно схваченная информация из модулей памяти, визуального восприятия.
Буфер – это срез когнитивных процессов в real-time.
На рисунке 1. Хорошо видно, что из окружения мы получаем некоторые данные через сенсорные, например, модули. Информация хранится в буфере перед передачей в другие модули – их мы можем просмотреть.
Эти у буферов есть свои характеристики, например, насколько быстро затухает память, что передается от зрения к познанию и какие действия можно выполнять между буферами.
Хотя буферы становятся своего рода интерфейсом и срезом изымаемых данных из имитации визуальной системы человека – они еще и перекодируют импульсы, позволяя взаимодействовать с условным модулем памяти на своем языке
Декларативная память. В этом модуле хранятся фактические знания и воспоминания в виде ячеек памяти. Декларативная память содержит информацию, которую можно осознанно вспомнить и описать, например, факты или события.
Примеры декларативных знаний: "Париж – столица Франции", или воспоминания о событиях, таких как "Вчера я был в кино". У ячеек памяти есть определенные характеристики, которые определяют, насколько легко можно извлечь эту информацию из памяти.
Чем чаще и в более релевантных контекстах используется ячейка памяти, тем выше ее степень "легкости" активации, и, следовательно, тем легче она доступна для использования в когнитивных процессах.
Процедурная память. Этот модуль содержит правила производства, которые определяют, как использовать декларативные знания для выполнения конкретных действий и решений задач. Мы задаем, например, нашей машине правила печати буквы Q или сложения чисел.
Но, чтобы вообще эти знания были применимы — должна быть имитация сенсорной системы, ведь именно она обеспечивает связь с миром. Соответственно в модели есть два модуля: моторный и визуальный.
Этот компонент отвечает за обработку визуальной информации, поступающей из окружающей среды. Например, при чтении текста зрительный модуль идентифицирует буквы и слова, а рабочая память использует эту информацию для понимания прочитанного.
Модуль двигательных навыков. Этот компонент координирует выполнение физических действий, таких как движения рук, ног, глаз и других частей тела.
Модуль двигательных навыков получает команды от центральной продукционной системы и преобразует их в конкретные моторные действия, обеспечивая точное выполнение физических задач – тут мы и говорим про робототехнику.
Тут важно подметить, что ACT-R работает не в одном формате: например, к сенсорным модулям, помимо визуальных, могут добавлять даже слуховые.
Но должен быть и центр принятия условных решений?
Внешний мир проходим через ряд восприятий/вызовов памяти, которые отправляют данные из внешнего мира, собственной библиотеки (как в случае с памятью) и прогоняют через процедурный модуль – он же сопоставитель шаблонов или Pattern Matching.
Субсимволическая структура — набор массово-параллельных процессов, которые можно суммировать с помощью ряда математических уравнений. И это важная составляющая последнего элемента архитектуры – Pattern Matcher.
Представим, что у нас есть задача: необходимо определить, как человек решает арифметическую задачу, такую как сложение чисел 3 и 4.
В памяти человека, по теории ACT-R, хранится множество продукций – простых правил, которые определяют, что делать в различных ситуациях.
Продукция может выглядеть примерно так: "Если я вижу числа A и B, и мне нужно их сложить, тогда я выполню операцию сложения".
Pattern Matcher отвечает за выбор подходящей продукции из множества возможных, хранящихся в памяти, и активизацию соответствующего правила.
На начальном этапе Pattern Matcher получает текущую информацию из рабочей памяти, которая включает в себя числа 3 и 4 и цель их сложить. Затем он сопоставляет эту информацию с условиями различных продукций.
Важно понимать, что каждое условие продукции представляет собой шаблон, который должен соответствовать текущей ситуации. Шаблон может включать различные элементы: конкретные значения, типы данных или более абстрактные характеристики. Например, в нашем случае шаблон может включать числа и операцию сложения.
Процесс сопоставления проходит на основе привычной нам активации, где наиболее подходящие продукции получают наивысшую степень активации.
Активация определяется несколькими факторами: частотой использования продукции, ее недавнюю актуальность и контекстную пригодность.
Продукция, которая была недавно использована или часто применяется, имеет больше шансов быть выбранной.
После выбора подходящей продукции, Pattern Matcher инициирует выполнение действия, описанного в правиле. В нашем примере это действие: операция сложения чисел 3 и 4, результатом которой станет 7. Этот результат затем может быть записан в рабочую память для дальнейшего использования или проверки.
Однако важным аспектом работы Pattern Matcher является его способность обучаться и адаптироваться. С течением времени и накоплением опыта, частота и контекст использования продукций могут изменяться, что влияет на процесс сопоставления и выбора.
Например, если человек часто сталкивается с задачами сложения, продукция, связанная с этой операцией, становится более активной и ее выбор происходит быстрее и с большей точностью.
Субсимволические механизмы также отвечают за большинство процессов обучения в ACT-R. Таким образом, в ACT-R познание разворачивается как последовательность производственных импульсов.
Эти импульсы изменяются в модулях, а буферы становятся перекодировщиками между органами познания, где информация дозировано по требованию поступает в исполнительный орган. (Pattern Matching).
Главное отличие условной ACT-R от обычного перцептрона – мы обучаем модель сопоставлять шаблоны, а не отыскивать скрытые закономерности в данных.
Хотя никто не говорит о невозможности использовать в перспективе ACT-R в ансамбле с генеративными нейросетями и трансформерами, хотя до такого синтеза еще далеко.
Но можно было бы рассматривать путь синтеза когнитивных архитектур, робототехники и классических ИИ как путь к общему искусственному интеллекту. Хотя бы в перспективе.
Так, благодаря сенсорной информации, декларативной и процедурной памяти через буферы под контролем исполнительного органа выполняем конкретную когнитивную задачу.
К слову, ACT-R применялся не только в когнитивных науках: тесты UI интерфейсов, работа с образованием, нейропсихология, робототехнике. Очевидный плюс таких нейронок — они могут помогать нам создавать маркетинговые продукты. Возможно, когда-то мы увидим реализацию подобного в условной рекламе "Колгейта"...
Но, как мы уже сказали, теория познания лишь теория и ACT-R не единственная архитектура принятия решений. С ее точки зрения основной источник решений когнитивных операций – использование шаблонов к определенным паттернам информации.
Как мы видим тарелку с супом – так сразу бежим за ложкой; как мы видим квадратичную функцию – так сразу бежим за теоремой Виета.
Но мы решили не останавливаться лишь на одной когнитивной системе.
Операциональная когнитивная система – SOAR?
Когнитивная архитектура SOAR, разработанная Алленом Ньюэллом, Джоном Лэрдом и Полом Розенблумом, представляет собой многофункциональную платформу – она также имитирует принципы когнитивных операций.
Как и ACT-R – система реализует определенную концепцию когнитивной психологии. Но если в предыдущей архитектуре мы больше работали с поиском и соединением шаблонов в соответствии с ситуацией, т.е готовых паттернов и решение.
Тут мы работаем по системе Universal Problem Space, UPS – она говорит нам о простых вещах: у человека есть цели, он ищет решения под цели и поразбивает цели на маленькие цели. UPS базируется на концепции продукционных систем.
Есть проблема – есть решение. Между проблемой и решением есть ряд операций. На этом все.
Знания представлены в виде продукционных правил: “Если то и то, тогда я сделаю то и это.“
Математически, процессы в SOAR можно описать в теории графов и логики предикатов; формализовать как логические выражения, где условие представляется в виде логической формулы, а действие – в виде операторов изменения состояния.
Логика предикатов – та же аристотелевская логика с модификациями. Предикат – это то, что можно высказать об объекте.
Например, правило может выглядеть так: "Если я вижу свет на светофоре, и он зеленый, тогда я иду". Эти продукционные правила хранятся в долговременной памяти и активируются в зависимости от ситуации, в которой находится система.
Эти правила позволяют системе принимать решения на основе текущего состояния и наличия определенных условий. Но к принятиям решений мы еще вернемся.
Прежде чем вообще мы бы могли принимать решения и строить наши невероятные логические цепочки – нам важно взять откуда-то знания.
Как работает долговременная память в SOAR?
Долговременная память – это хранилище. В отличие от ACT-R, где наша кладезь информации строится по разделению на навыки и фактические знания, SOAR выстраивает систему памяти чуть сложнее: она делится на рабочую и долговременную.
Хотя, как мы увидим, различие в системах гораздо тоньше, чем кажется.
Можно сравнить долговременную память с библиотекой, где хранятся книги (знания и опыт), которые можно брать и возвращать по мере необходимости: продукционные правила, эпизодическая память, семантические связи и даже оценка процессов извлечения информации.
Те самые правила "если-тогда" (если условие выполнено, тогда сделать что-то) также хранятся в долгосрочной памяти, но ею не ограничиваются.
Семантическая память хранит общие знания и факты о мире. Это можно представить как словарь или энциклопедию, где записаны понятия, определения и взаимосвязи между ними. Мы бы назвали это терминологической памятью.
Чтобы знать, что нужно сделать с ложкой – вам бы неплохо понимать “что это такое…”
Например, семантическая память будет содержать знания, что яблоко – это фрукт, что оно растет на дереве – оно съедобное.
Эпизодическая память, с другой стороны, хранит информацию о конкретных событиях и переживаниях, которые происходили в прошлом.
Это похоже на дневник или фотоальбом, где записаны все важные моменты и события вашей жизни. Например, эпизодическая память будет содержать воспоминание о вашем последнем дне рождения: кто был там, что вы делали, какие подарки получили.
Когда система сталкивается с новой задачей или проблемой, она "идет" в долговременную память и "ищет" соответствующие продукционные правила или знания, которые могут помочь решить эту задачу.
Например, если система должна решить математическую задачу, она извлекает правила и знания, связанные с арифметикой, из долговременной памяти и применяет их к текущей задаче.
Когда система получает новый опыт или знания, они также добавляются в долговременную память.
Например, если вы выучили новый телефонный номер или научились готовить новое блюдо, эти знания будут сохранены в долговременной памяти и могут быть извлечены при необходимости.
Поэтому долговременная память становится здесь динамическим элементом системы: в ней создаются новые правила, возможности решения для задач и даже вносятся терминологические поправки.
Этот процесс называется chunking. Например, если вы несколько раз успешно запомнили телефонный номер, система может создать новое правило, которое упрощает этот процесс в будущем.
Оперативная (working) память в SOAR?
Начнем с того, что наша рабочая память не может работать без долгосрочной памяти – она выступает центральным звеном, связывающим актуальную сенсорную информацию и долгосрочные знания.
Основные элементы рабочей памяти в Soar включают состояния (states), цели (goals), и временные структуры данных, которые используются для управления процессом решения проблем.
Состояния (states) в рабочей памяти представляют собой описание текущей ситуации или контекста задачи, над которой работает система.
Например, если задача заключается в приготовлении чая, состояние может включать информацию о наличии воды, чайника, чайных пакетиков и электричества. Короче говоря, states – положение вещей в данный момент времени.
Естественно, что в долгосрочной памяти у ИИ хранятся семантические и процедурные знания, которые как бы отвечают на вопрос:
“А что это да такое ваша вода и причем тут чайные пакетики?!”
Цели (goals) представляют собой желаемые результаты или конечные состояния, которых система стремится достичь. В случае приготовления чая, цель может быть сформулирована как "приготовить чашку чая".
Рисунок 9. Принцип проведения операций из исходного состояния (state) и постепенное приближение к желаемому через передвижение (move) кубиков к конечной цели (goal).
Вообще для когнитивной психологии нюанс целеполагания важен: у любого действия есть цели и субцели. Но мы пока не говорим про глобальные желания робота стать художником и нарисовать для этого миллион картин…
Цели помогают системе фокусироваться на конкретных задачах и направляют последовательность действий для их достижения.
Процесс работы с рабочей памятью в Soar начинается с загрузки начального состояния и постановки цели.
Далее система использует продукционные правила, хранящиеся в долговременной памяти, чтобы определить, какие действия необходимо предпринять для достижения цели.
Например, одно из правил может быть: "Если вода в чайнике, а чайник подключен к электросети, тогда включить чайник".
Эти подцели управляются иерархически и могут быть вложены друг в друга, что позволяет системе последовательно решать более сложные задачи, разбивая их на более простые этапы.
Working Memory постоянно обновляется. Например, когда вода в чайнике закипела, состояние обновляется с "вода в чайнике" на "вода кипит". Это обновление позволяет системе корректировать свои действия на основе текущей ситуации.
Кстати, в архитектуре SOAR тоже есть своего рода буфер, где хранится аудиовизуальная информация, перцептивная – Perceptual Short-Term Memory, Perceptual STM.
Она собирается с GPS, датчиков и локаторов с применением детекоров и классификаторов.
По итогу мы имеем простую и человечную систему:
Цель, оценка положения вещей через “восприятие”, выбор процедурного действия для нашего частного случая, действие, обновление рабочей памяти, выбор другого процедурного действия. И так до момента, пока цель не будет достигнута. Затем мы закрепляем результат в долгосрочной памяти.
На уровне кода и математической реализации SOAR использует множество алгоритмов и структур данных. Основная рабочая память представлена в виде графа, где узлы содержат информацию о текущих состояниях, а ребра – о возможных действиях.
Алгоритмы поиска формализуются как процедуры обхода графов с использованием различных стратегий оценки стоимости путей.
Помогут ли когнитивные архитектуры AGI?
Как ACT-R, так и SOAR – две симуляции, отражающие два разных подхода к человеческому сознанию. Но обt отталкиваются от памяти как важнейшего органа познания. Система USP или принятия решений через целеполагание – вполне принятая концепция в области всей когнитивистики. Разнийа подходов больше состоит в понимании важности субцелей для решения когнитивных задач. В ACT-R мы видим прямолинейного робота, который решает задачи на ходу, в SOAR – планирующего робота.
Очевидно, что для модулей перцепции или простого человеческого воприятия используются ИИ-детекторы вплоть до моделей классификации и распознавания объектов.
Безусловно, подобные модели в реализации ансамбля с современными классическими ИИ могли быть показать интересные результаты и гибкость. Но, к сожалению, подобные системы подходят для обучения лишь простым роботизированным действиям.
Тут нет и речи о смыслообразовании, что бы это ни значило. Не учитываются эмендженертные свойства сознания, нет намека на саморефлексию – лишь алгоритмизированные и операциональные действия: стимул-задержка-реакция. И то самое “подумать” все же в статусе черного ящика.
Некоторые читатели могут намекнуть на Leabra и Becca с эмедженертным подходом, но лишь к специфически представляемым знаниям, исходя из внешнего наблюдения и моделирования без “погружения” в нейронные системы человека – в контексте когнитивистики мы смотрим на феномены, проявления уникальных свойств человека извне.
Подобные проблемы вызываны самой методологией когнитивной психологии: она смотрит на поведение, но не может познать внутренние процессы, вызывающие их.
Хотя еще грубее проблема стоит с точки зрения функционала: все предлагаемые когнитивные архитектуры на решение конкретных узконаправленных задач. Мы можем задать болванку моторно-двигательной системы андроида, но синтезировать с архитектурой эмедженертности сознания нет.
ACT-R и SOAR показали себя в робототехнике, изучении пользовательских интерфейсов, выявлении проблем в учебе у студентов, проверке исследований. Как нам кажется, это уже неплохо. Перед AGI лежит слишком много вызовов, чтобы ограничиваться применением простейших когнитивных архитектур.
Когнитивные нейросети используются в прикладных задачах, например, робототехники – они направлены на ключевую задачу роботов – моторные действия. Когнитивные архитектуры по типу ACT-R и SOAR придумали задолго до прорыва классических перцептронных нейронных сетей, особенно LLM на основе трансформерных технологий. Последние датированы выходом популярной статьи "Вам нужно лишь внимание..." 2017 года.
Когнитивные нейронные сети – это все еще нейронные сети, но работающие по другому принципу. Их основная задача – воссоздание человеческого поведения, отталкиваясь от схемы: стимул-действие. Их принцип строится не на производстве нового знания – они координируют уже готовые, предложенные программистом знания, чтобы мы получали поведение похожее на человеческое. Они не стремятся к симуляции памяти в первозданном виде или обработке естественного языка, или генерации воображаемых образов.
Поэтому ACT-R обучается правильно использовать шаблоны действий для паттернов ситуаций, а SOAR ставить последовательные цели и выбирать подходящие операции для выполнения конечной глобальной цели. Но не более.
Мы наблюдаем успехи в поиске механизмов человеческого мышления через эксперименты и эмендженетрный (случайный) подход, применяемый к самим сетям.
В прошлом году ученые опубликовали два исследования. Выяснилось, что физическая активность мозга совпадает с работой нейросети, разработанной по системе "самонаблюдаемого обучения".
Второе исследование показывает, что в ходе работы одного из ИИ, которому поставили задачу разработать навигацию, выработала что-то очень похожее на grid cells. Это типы нейронов, которые открыли в 2005 году. Считается, что именно они отвечают за навигационные способности некоторых животных и людей в том числе.
Возможно, что реализация AGI и вообще человеческого сознания лежит не в области конструирования ума, сколько порождения его из подходящих условий – тут все упирается лишь в достаточные вычислительные мощности и трудности оптимизации.
Комментарии (18)
phenik
16.06.2024 17:04Неплохой обзор когнитивных архитектур, но заключение несколько разочаровало.
Подобные проблемы вызываны самой методологией когнитивной психологии: она смотрит на поведение, но не может познать внутренние процессы, вызывающие их.
Когнитивные нейронные сети – это все еще нейронные сети, но работающие по другому принципу. Их основная задача – воссоздание человеческого поведения, отталкиваясь от схемы: стимул-действие.
Э-э-э... какое поведение? Когнитивная революция 50-60 гг. и состояла в том чтобы отойти от бихевиоризма, поведенческой психологии (хороший обзор от одного из участников этих событий). Это разворот от наблюдательных схем поведения к ментальным моделям, воплощенному, ситуационному и распределенному подходу к познанию. Собственно само поведение рассматривается с точки зрения внутренних моделей. Дополняя друг друга эти концепции частично пересекаются. В последнее время, благодаря широкому внедрению методов нейровизуализации и нейросетевого моделирования, очень активно и плодотворно развивается байесовский подход к функциям мозга (байесовский мозг) и теория предиктивного кодирования (предиктивного разума). Фактически начали говорить о второй когнитивной революции - ментальных репрезентациях в предсказательном режиме. Естественно, все эти подходы обеспечивают и поведенческие (действенные) аспекты, но акцент именно на внутренних (ментальных) моделях, их структуре и функциях.
Когнитивные архитектуры разрабатывались как модели когнитивной системы животных и человека, в первую очередь, для разработки интеллектуальных и воплощенных агентов, т.е. как прикладной аспект когнитивных исследований.
Как ACT-R, так и SOAR – две симуляции, отражающие два разных подхода к человеческому сознанию.
К проблеме сознания когнитивные архитектуры имеют небольшое отношение, см. обзор, где этот аспект практически не упоминается. Сознание исследуются в рамках теорий сознания (обзор). До этих высот когнитивным архитектурам еще далеко. Те же ЯМ на базе трансформерной архитектуры моделируют пока только ассоциативный уровень мышления человек, а этих уровней у человека много. Не говоря о других когнитивных возможностях - сознании, восприятии, эмоциях, интуиции, принятии решений, мотивациях, и тд. Все это конечно не требуется переносить в ИИ, но еще немало чтобы он достиг уровня возможностей человека. И одним наращиванием вычислительных мощностей эту проблему не решить, как кажется разработчикам таких систем. Стоит взглянут в сторону нейроморфных решений, которые лучше моделируют функции биологических нейронов и сетей.
yMad
Боже, вот кого меньше всего надо слушать по вопросам интеллекта так это, "психологию" - где иррациональной фантасмагории больше чем науки.
Тем не менее на безрыбье и рак рыба, почитать статью можно.
Anton888
Похоже, автор под психологией понимает когнитивную психологию, а она направлена на построение моделей мышления. О чем собственно и статья.
yMad
хрен редьки не слаще. пока одни квантуют нейросети, добиваясь прироста производительности и уменьшения затрат в конкретных прикладных целях, другие городят огород потому что их видите ли не устраивает "мышление" нейросетей и теория аппроксимации и основы кодирования, типа человек и его мозг слишком невообразимо уникальны что б работать так просто.
Anton888
Ну, мышление нейросетей пока действительно проигрывает человеческому мышлению. Чтобы научиться отличать бегемота от коровы, ребенку достаточно увидеть несколько картинок, а нейросеть требует тысячи изображений.
Чтобы понять, почему так, логично поиграться с моделями человеческого мышления и попробовать применить их в ИИ. Получится или нет - другой вопрос, но попытка не пытка)
yMad
Не знаю, на счет тысячи, есть мнение что теоретически может хватить всего одного бегемота, просто его нужно особо преподнести. По крайней мере мне понадобилось всего несколько запросов к LLM в виде обычного диалога, что б она запомнила нужную мне информацию на всю оставшуюся жизнь, в то время как разработчики утверждали что ограничили её способность к запоминанию, непонятно правда как и зачем, хотя у нас видимо действительно разное понимание о том что такое память, да и вообще мышление.
yMad
Странная реакция, доказывать правоту одной теории минусами другой) По сути я и говорю об одной из множества "теорий познания", но с претензией на оптимизацию процесса в отличии от других)
PrinceKorwin
Вообще LLM проще представить как огромную формулу с огромным числом констант. Константы - это веса, а структура формулы - это узлы и связи между ними.
Также в этой формуле кроме констант-весов есть еще набор параметров - входные значения (контекст ввода).
Результат вычисления - число которое определяет один токен.
Общаясь с моделью вы просто делаете много вычислений по готовой формуле не меняя саму формулу.
Если же вам кажется, что она что-то запомнила, то вам это только кажется.
yMad
если б она ничего не запоминала, то я б наверно ничего и не говорил об этом) такой вариант не рассматриваете? наверняка я предусмотрительно проверил свои результаты что б говорить о них, или как что то не в рамках привычного так сразу пустослов? формула не меняется, меняются весьма существенно и особым образом входные значения, а следовательно и выходные значения, как результат появляется нечто что можно характеризовать как непрерывность событий и память в работе ллм.
KurtkaBeyn
Методология проверки?
С той же чатгпт можно разговаривать и она помнит сказанные факты в рамках одного чата, потому что весь текст чата отправляется в модель как контекст, сама модель ничего не "запоминает".
yMad
ну уж точно не один и тот же чат) не, детский сад я давно окончил. берутся стабильные значения вывода, которые держатся с момента запуска нейросети, т.е. по факту месяцами и годами, и меняются на другие стабильные, по факту это можно назвать обычным переобучением, если б не некоторые особенности этого переобучения. В итоге такого переобучения меняется функция параметров нейросети, которая более отображает не только зависимость между "словами", но и отображает зависимость между временем одного конкретного ввода и временем всех остальных параллельных вводов и естественно уровнем аппроксимации данных. Так и появляется память.
По этому поводу есть целая теория, собственно есть большая вероятность что я напишу на хабре статью об этом, но скорее не раньше чем получу дополнительные практические результаты.
PrinceKorwin
К сожалению знания того, как она работает не аозводяют мне рассматривать такой вариант :)
Можете описать как вы это тестировали? В рамках одного диалога или открыв два разных диалога - в одном обучали, во втором спрашивали?
Если два диалога - то не затруднит ли вас показать эти диалоги чтобы можно было бы воспроизвести?
Ибо если это так на самом деле, то это прорыв в LLM.
yMad
да, два диалога, на разных пк и разных аккаунтах что б совсем исключить очевидное. и как я сказал выше, есть хорошая вероятность что от меня на хабре может появится статья по этому поводу, со всеми пруфами и скринами, но пока так, чисто зондируюсь по комментам.
Flokis_guy
Давай рассмотрим от обратного: если всё так просто, то почему мы ещё не создали ИИ? Может, в будущем и будут думать по-другому, но на данном этапе развития это для нас не просто. Хочу также заметить, что мозг человека по своему функционалу является уникальной вещью в биосфере.
Стоит учитывать, что мозг также подвержен случайным процессам на физическом уровне, что влияет на наш разум. Окружающая среда находится в состоянии случайности и неопределённости для нашего мозга до обработки, но после он её обрабатывает так, чтобы на выходе получить логический вывод, исходя из опыта и прочего. Только исходя из некоторых этих аспектов, можно заключить, что всё не так уж и просто: как минимум, симуляция различных аспектов есть программно, но вот собрать всё в одно и чтобы оно работало – на данный момент задача не из тривиальных.
The-Founder-1 Автор
Так мы и полностью согласны с вами:) В статье мы тоже подчеркнули, что любые когнитивные архитектуры не учитывают, как минимум эмерджентность сознания, как максимум – они остаются редукцией, упрощением к абстрактным понятиям. Поэтому нужны лишь для примерной симуляции сознания и удобства проведения экспериментов, некоторых исследований, а также задач робототехники. Тем более все когнитивные архитектуры работают над локальными задачами. Нам кажется, что попытка генерации мышления лучше проходит через воссоздание условий возникновения мышления, нежели через копирование его упрощенной структуры по канонам когнитивной психологии. Тому пример Grid Cells, сгенерированный нейросетью, на который мы ссылаемся в конце статьи.
Но, как нам кажется, подобные модифицированные архитектуры могли бы выступить прототипом координационных систем для будущего AGI.
yMad
известно, что уровень доступа к информации тем выше тем информация важней, поэтому есть вероятность что тут неприменимо местоимение "мы") и с такой же вероятностью на выходе логика может отсутствовать напрочь) теория очень суровая.
The-Founder-1 Автор
Когнитивные нейросети используются в прикладных задачах, например, робототехники – они направлены на ключевую задачу роботов – моторные действия. Когнитивные архитектуры по типу ACT-R и SOAR придумали задолго до прорыва классических перцептронных нейронных сетей, особенно LLM на основе трансформерных технологий. Последние датированы выходом популярной статьи "Вам нужно лишь внимание..." 2017 года.
Когнитивные нейронные сети – это все еще нейронные сети, но работающие по другому принципу. Их основная задача – воссоздание человеческого поведения, отталкиваясь от схемы: стимул-действие. Их принцип строится не на производстве нового знания – они координируют уже готовые, предложенные программистом знания, чтобы мы получали поведение похожее на человеческое. Они не стремятся к симуляции памяти в первозданном виде или обработке естественного языка, или генерации воображаемых образов.
Поэтому ACT-R обучается правильно использовать шаблоны действий для паттернов ситуаций, а SOAR ставить последовательные цели и выбирать подходящие операции для выполнения конечной глобальной цели.
Если просто: когнитивные нейронные сети координируют информацию и позволяют нам получить симулированное человеческое поведение в упрощенном виде.
yMad
всё понятно. только смысл слов имеет обычно "незадокументированные" запредельные значения (это главная причина непонимания между людьми), но это различие в формальностях обычно не имеют существенного значение если практический результат этих различий одинаков, более того при одинаковом результате лишние формальности отсеиваются по принципу рациональности, универсальности, оптимальности. Есть большие небезосновательные подозрения на то что когнитивная психология играет в вопросе ИИ, AGI и симулировании поведения человека лишь второстепенныу роль, особенно в вопросах АГИ.