Проблемы с логикой у LLM и с доверием не только у LLM / forpes.ru

Главная
Проблемы с логикой у LLM и с доверием не только у LLM

Проблемы с логикой у LLM и с доверием не только у LLM

21.07.2024 23:23

vignatovic 23 3300 Источник

…мысль не всякому дана. Нам кажется, что мы мыслим, а на самом деле мы просто воспроизводим какие-то шаблоны мышления, заложенные в нас. И добраться до … своей мысли бывает очень трудно… Страшно, что у тебя ничего своего нет, всё, что ты говоришь, ты нахватался, как с полок в супермаркете, из разных этапов своей жизни. Никита Сюндюков

Аннотация

Проблемы качества базы данных LLM[1] и необучаемости LLM в силу ограничения размеров контекстного окна сводятся к одной проблеме никак с LLM не связанной — оценке доверия к публикациям и их авторам вообще. Вторая проблема — LLM не умеет решать простые логические задачи легко решаемые грамотными людьми, что свидетельствует о сходстве LLM с неграмотными людьми неспособными к абстрактному мышлению. В ближайшем будущем LLM не сможет достичь уровня логического мышления грамотного человека, зато LLM обладает большими чем у человека способностями к эриксоновскому гипнозу, а значит и к мошенничеству.

Проблема доверия

Экономист Павел Рябов (Spydell_finance) опубликовал несколько постов о прикладном использовании LLM: Есть две критические и пока неразрешимые проблемы на архитектурном уровне … LLM. Первое — нет вшитого контроля верификации выходных данных и корректности интерпретации. Другими словами, LLM не способен оценивать корректность и адекватность сгенерированного контента, нет встроенного критерия истинности... По умолчанию, любой сгенерированный контент от LLM рассматривается как фейковый, а следовательно, нет доверия к системе. Время и ресурсы, затраченные на проверку фактов, превышают потенциальную выгоду от использования LLM в серьёзных задачах… Вторая проблема — необучаемость и ограниченная длина контекстного окна[2]… Изначально LLM никогда не генерирует корректного результата, если постановка задачи предполагает глубину аналитики с множеством связанных переменных… Чем сложнее задача и чем больше … правок вносится…, тем быстрее наступает момент «глубоких галлюцинаций», когда модель полностью теряет способность к пониманию и начинает путаться в показаниях.

Проверка соответствия решения входным данным требует логического мышления. Способность LLM к логическому мышлению вообще будет обсуждаться в следующей главе.

Вторая проблема, что входными данными являются не только условие задачи, но весь интернет, на котором обучался LLM. Существующие LLM доверяют пользователю, но такое доверие ограничено текущей сессией, так как защита базы данных от исходящей от пользователя непроверенной информации требует использования изолированных контекстов непригодных для обучения системы. Эта проблема сводится к проблеме оценки доверия необходимой для любого продуктивного общения, а не только общения с LLM. Доверие между людьми устанавливается на разных уровнях: мы хорошо знаем родственников и друзей, со временем оцениваем коллег на работе, знакомы с творчеством любимых авторов, но количество вышеперечисленных двусторонних социальных связей для каждого человека ограничено числом Данбара, которое относительно не велико. Количество односторонних оценок авторов и знаменитостей тоже невелико. Можно попросить знакомого дать оценку, что на системном уровне реализовано в ряде сообществ, но этот механизм ограничен волей знакомых и нашим доверием к ним. В этой статье я рассматриваю проблему оценки доверия к незнакомым и малознакомым людям, и особенно к их текстам и выступлениям (протухшую систему анонимного рецензирования в науке не предлагать). Возможность быстрой и качественной оценки может качественно повысить продуктивность управления, технических разработок и научной работы, а значит вывести общество на принципиально новый уровень развития.

Проблема проверки источников существовала задолго до создания интернета. Эта проблема не игнорируется, но в больших масштабах решается при помощи фильтра нежелательной информации, объявляемой «фальшивыми» новостями. Такой подход позволяет отгородиться от «неправильной повестки», но не решает проблемы доверия: происходящие из XIX века технологии борьбы с «фальшивыми новостями» предполагает не только существование абсолютной истины и доступность этой истины людям, но и утверждает «вахтёров» в качестве носителей или оценщиков этой истины. Большие корпоративные системы не могут решить проблемы доверия при любом уровне развития вычислительных ресурсов, так как у пользователей нет причин доверять ни одной из корпораций: Трампа в январе 2021 года одновременно забанили во всех американских социальных сетях.

Проверка логического мышления LLM

Уолтер Онг отмечал, что грамотные приписывают неграмотным авторам эпоса[3] выдающуюся память, но грамотные обычно не знают, что каждое исполнение эпоса очень сильно отличается от предыдущего даже хронологической последовательностью событий, а общими остаются комбинации двухсловных штампов необходимых для запоминания: «острый меч», «хитроумный Одиссей», «великий Ленин», «американская демократия» ... LLM тоже приписывают выдающиеся способности, но для проверки этих способностей нужны тесты, решения которых нельзя найти во множестве источников. Тестирование ИИ простыми логическими задачами было предложено ещё в 1968 году. LLM знают решение задачи[4] про волка, козу и капусту, но с первой попытки пока не могут решить аналогичную задачу про воробья, колорадского жука и картошку[5] отличающуюся только заменой терминов. Из шести протестированных систем только Claude.ai смог решить задачу со второй попытки, а ChatGPT умеет решать задачу на английском, но не на русском. Аналогичная задача про паромщика, крокодила, белку и мешок орехов[6] была решена ещё и Perplexity.ai. Удивительно, что Perplexity.ai не смог решить задачу про воробья, колорадского жука и картошку, а когда ему указали на ошибки, пустился в спор c цитированием сельскохозяйственных статей[7]. Из литературы Perplexity.ai знает, что крестьянин всегда сможет защитить картофель от колорадского жука, причем для этого не важен берег реки и не нужно применение плавательных средств. Perplexity.ai не может решить эту задачу и на английском, но приводит менее забавную аргументацию. Пример демонстрирует, что большие размеры базы данных, высокое качество источников и точность их цитирования тоже могут создавать предубеждения, мешающие логическому мышлению. Ранние системы LLM набирались на форумах расистских предубеждений, но системы ложных убеждений LLM умеют создавать из любых подручных материалов, включая наставления по садоводству.

Задачу о миссионерах и людоедах[8] не решила ни одна из систем за много шагов со всеми подсказками на русском, но со второй попытки после подсказки решил ChatGPT на английском. Perplexity.ai спорит: нет, в ситуации "Берег 1: 1М, 2Л" миссионера не съедят. Согласно условию задачи, миссионеров съедят только в том случае, если на одном берегу окажется больше людоедов, чем миссионеров. При соотношении 1 миссионер и 2 людоеда на берегу это условие не нарушается, поэтому миссионера не съедят. Более сложная задача о ревнивых мужах[9] не решается ни на русском, ни на английском. Perplexity.ai не предлагал решения с женщинами, плавающими на лодке без мужчин.

Абстрактное мышление

Люди крайне редко используют абстрактное мышление, а значит отсутствие абстрактного мышления трудно заметить. Отсутствие абстрактного мышления у неграмотных было открыто только в 30-е годы ХХ века Александром Лурией, работа которого стала известна на Западе в 70-е. Согласно Лурии, неграмотные не могут решить задачу о классификации предметов согласно абстрактным категориям[10]. Тесты на классификацию LLM проходят если обладают многочисленными примерами (и иногда прямо цитируют статью Лурии), но могут путаться в сложных случаях, например когда немногочисленные, но качественные данные доступны из немногих прямо цитируемых LLM источников, например документации от производителя. Это указывает, что для правильной классификации LLM нужно очень много примеров, намного больше, чем для обучения человека. Форбс тоже пишет, что данных, собранных со всего интернета, не хватает для обучения LLM,[11] хотя ученикам и студентам хватает учебников и лекций преподавателей.

В описании перехода от письменности к абстрактному мышлению очень много недосказанного даже у Онга и других представителей торонтской школы коммуникации. Задачи, являющиеся тривиальными для образованного человека и не требующие отдельного описания способа их решения, могут быть нерешаемыми для неграмотного или LLM: неизвестно, кто первый открыл воду, но уж наверняка это сделали не рыбы («Малыш» Стругацких). Лурия и Онг показали, что для обучения абстрактному мышлению человек не может обойтись только своим мозгом, ему необходима внешняя память, книги и бумага для записей. Внешняя память в форме текста позволяет воспринимать записанные условия задачи как абсолютные аксиомы, перевешивающие прошлый опыт, но этот же механизм внешней памяти открывает возможности манипуляции грамотными людьми, склонными больше верить «неизменному» письменному тексту, чем переменчивым устным рассказам.

LLM проваливают логические задачи, требующие абстрактного мышления и нескольких последовательных шагов для решения, хотя и правильно дают сводку правил из условий задачи и пытаются решать задачу по шагам. Одна из причин, возможно, в том, что абстрактное мышление включает отказ от прошлого опыта в пользу произвольного набора абсолютных «аксиом» из условия задачи, а затем возврата к части прошлого опыта, не противоречащего аксиомам, для манипуляции с аксиомами при поиске решения. Абстрактное мышление сходно с детскими сказками: необходимо на время поверить в деда Мороза. LLM этого не умеют: в задаче про воробья, жука и картошку, даже наличие достоверных баз данных и достаточный объем контекстного окна не позволил Perplexity.ai выбрать нужные знания и отбросить собранное со всего интернета ненужное.

Я считаю, что у LLM нет интеллекта, а название нейросеть сомнительно с точки зрения биологии. LLM просто вычислители и генераторы корреляций (ВГК) между знаниями, используемыми для обучения LLM, контекстом, текущим запросом и ответом на этот запрос. ВГК кажутся похожими на человеческий интеллект в задачах, не требующих логического мышления (перевод на другой язык, пересказ, поиск, поддержание беседы), так как их выход коррелирует с прошлыми результатами деятельности человеческого интеллекта из базы данных. Хотя LLM «грамотен», то есть общается при помощи письменного текста, он «угадывает» логические суждения в стиле автозаполнения T9. LLM великолепно справляется со многими задачами по программированию и бухгалтерскому учёту, а также выполняет тесты собеседований ведущих ИТ компаний, подобно тому, как слепой Гомер составлял из устных штампов, «острых мечей» и «быстрых кораблей», очередной вариант эпоса про «хитроумного Одиссея» и «мудрого Нестора». Аудитория восхищается великолепной памятью поэта или способностями LLM. Логическое мышление на человеческом уровне не будет достигнуто даже при увеличении размера и стоимости LLM в 1000 раз, так как для достижения логического мышления не достаточно линейной алгебры и статистики.

Описание LLM как ВГК, объясняет ряд свойств человеческому интеллекту не свойственных, включая потребность в очень большом объёме данных для обучения, «глубоких галлюцинациях» когда информация из контекстного окна входит в противоречие с основной базой данных (вычисление корреляций в противоречивых условиях приводит к «делению на ноль»), ограниченной способности к абстракциям, неспособности к логическому мышлению, неспособности к самопроверке соответствия ответа входным данным. Единичная копия документации позволяет ВГК находить и корректно цитировать нужный источник (совпадение – сильная корреляция), допуская при этом очень широкие аналогии и экстраполяции, но не позволяет строить абстрактные классификации на основе единственного источника или немногочисленных источников.

Автоматическая гипножаба

Информационные зависимости начались не со смартфонов и Ютуба и даже не с телевидения. Дети портили зрение и сон читая развлекательную литературу ночью при свете фонарика или свечи, но даже первобытные племена развлекались эпосом. Злоупотребление литературой не считается социально опасным, хотя Марк Твен винил в гражданской войне США Вальтера Скотта, от романов которого южные плантаторы вообразили себя средневековыми шотландцами, противостоящими федералам в роли англичан, а Платон боялся, что внешняя память, письмо, портит способности учеников[12]. Злоупотребление играми, короткими видео и интернет-порнографией считается социально опасным практически всеми, но нет нового Лурии чтобы проверить тестами и описать их влияние на мышление и подсознание. LLM открывает новые возможности для воздействия на подсознание методами эриксоновского (цыганского) гипноза благодаря способности отзеркаливать человека. Отслеживание движения глаз позволит ВГК подбирать действия, усиливающие транс на индивидуальном уровне. Не стоит удивляться, что транс может вызвать усовершенствованный PID регулятор, многие относительно простые химические вещества тоже создают транс.

Автоматическая гипножаба бесполезна в профессиональной сфере, если не относить к этой сфере захватывающие развлечения и мошенничество, но возможно, текущий инвестиционный хайп во многом связан со способностью LLM убеждать превосходящей средние человеческие способности, а не декларируемым стремлением создать «суперинтеллект». Достижения LLM в области мошенничества предположительно, будет иметь примерно те же последствия, что и распространение AIDS, только куда более серьёзные и долговременные: будут априори дезавуированы любые социальные отношения, кроме устойчивых личных, общество снова распадётся на автономные семьи, хамулы, клиентелы и прочее такое, может, и хорошо.

Технологии коммуникации и проблема доверия

Самым значимым прогрессом в развитии технологий коммуникации было создание письменности описанное в книге Уолтера Онга «Устность и грамотность» (Orality and Literacy, 1982). Первыми массовой грамотности достигли греки на основе первого фонетического алфавита с огласовками. Это достижение сделало возможным не только философию Платона и Аристотеля, но и создание большого греческого мира любимым учеником Аристотеля, Александром, хотя до этого объединённая Греция уступала численно и по ВВП гегемону древнего мира Персии и субгегемону Египту. В настоящее время технологии общения играют столь же значимую роль, как и в древнем мире, но применение их в ряде случаев наносит прямой вред пользователям. Интернет не приспособлен даже для долговременного хранения информации. Например, упоминаний Джека Ма до 2005 года в интернете найти невозможно, то же было проверено с Касперским, но найдены были только несколько ссылок на Лента.ру. Первые два десятилетия XXI века через 100 лет возможно окажутся черной дырой, о которой сохранится намного меньше источников, чем копий бумажных публикаций в архивах о двух последних десятилетиях ХХ века.

Первой из ключевых метрик пользы пользователям от внедрения новых технологий коммуникации я считаю уровень доверия между пользователями. Второй – связность, то есть короткое расстояние между разными ресурсами (то есть малое число переходов и их предсказуемость), что делает ненужным сложный поиск. Третьей – долговечность хранения полезного и долговечность ссылок (+ быстрое удаление или снижение ранга спама и копипасты). И связность, и долговечность необходима для достижения доверия: никто не может доверять недолговечной информационной каше.

Доверие – самая сложная из трех ключевых метрик. Проблема повышения доверия не сводится к борьбе за повестку. Доверие необходимо для эффективной совместной работы: инженерной разработки, оценки качества научных публикаций и медицинских протоколов, получения достоверной обратной связи от пользователей, получение информации с низов руководством, расширения личного круга общения и профессионального роста… Доверие в первую очередь является функцией от применяемых технологий коммуникаций, а не от воспитания, честности и борьбы с коррупцией. Наоборот, качество воспитания и уровень честности являются результатом применения технологий коммуникации. Под технологиями коммуникации следует понимать весь спектр технологий общения, начиная от практики личного общения с окружающими в быту и на работе, и до общения в интернете в личных и деловых целях.

Дискурс, то есть сообщество разделяющее систему понятий, одна из самых больших систем в которой высокий уровень доверия может быть достигнут. Для повышения уровня доверия в интернет-сообществе, нужно вычислить дискурсы, для каждого дискурса определить авторов, которых в данном дискурсе знают и доверяют, раздать привилегии этим авторам, а затем привлечь единомышленников. Для определения дискурсов применимы алгоритмы, использовавшиеся ранее для выявления информационных «пузырей» в интернете. Далее в рамках каждого дискурса можно обучить отдельный LLM. Все новые вклады единомышленников будут приниматься этим LLM как верные, если они прямо не противоречат прошлым вкладам. Нужна система исправления оценок если среди единомышленников появятся «еретики», которых надо изгнать из дискурса в другой, возможно новый, дискурс. Общение со своими и с чужими для данного дискурса должны строиться по-разному, не важно это люди или LLM. Защита LLM при помощи контекстного окна, стираемого после окончания сессии, не нужна: LLM не должен огораживаться от информации, лежащей вне своего дискурса, но не должен доверять такой информации. Создание способа изучать, запоминать, но критически оценивать стороннюю информацию из чужих дискурсов, кажется, пока является нерешенной проблемой для LLM, но эта задача должна легко решаться. Данный поход также может помочь в решении логических задач, при которых текст задачи считается набором аксиом.

LLM дискурсов будут обладать собственными более предсказуемыми наборами предубеждений, что позволит заслужить больше доверия. Такой подход реализует американский стартап Hippocratic AI продукт которого нацелен на замену совершенно реальной профессиональной позиции медсестры отвечающей на звонки пациентов и ведущей другую бумажную работу. Медицинские консультации LLM этого стартапа уже по качеству превосходят консультации от средней американской медсестры, но уступают и будут уступать консультациям высококвалифицированных специалистов просто в силу ограниченности используемого для обучения материала. Качественные специализированные LLM тоже создают проблемы. После их внедрения не будут нужны джуны, но без новых джунов не будет новых сеньоров, а значит LLM превзойдут человека не в силу развития своих возможностей, а благодаря деградации людей. Высокая квалификация массово сохранится только в областях, реально требующих логического мышления даже от джунов, а в других областях высокая квалификация потребует крайне длительного и дорогостоящего обучения. Возможно, высокая квалификация станет хобби или сословной привилегией, то есть искусством или научной работой, если для этого сохранится возможность. Чтобы сохранить высокую квалификацию ключевых специалистов сообществу нужен высокий уровень доверия, которого пока нет.

Второй механизмом для повышения доверия – повышение предсказуемости системы. Способность быстро дать оценку вкладу и способность быстро найти нужное являются механизмами повышения предсказуемости: поиск, который сразу дает нужное и проверенное наиболее предсказуем. Википедия крайне предсказуема, даже с политическими злоупотреблениями и искажениями: известные искажения не влияют на предсказуемость. Деление в социальных сетях на друзей, всех прочих и забаненных является ещё и средством повышения предсказуемости ленты выдачи, хотя и не самым эффективным. Популярные авторские блоги, например Такера Карлсона, высоко предсказуемы. Не важно согласны ли мы с Такером или нет, но мы хорошо знаем, что от него можно ожидать. К сожалению, формат авторских блогов узкоспециализирован, нужен более универсальный, но столь же предсказуемый формат. Чтобы быть предсказуемым интернет-ресурсу желательно быть структурированным, как Википедии, хорошо описанным, как фанатская Вика, иметь устройство понятное пользователям и предоставлять какую-то форму быстрой обратной связи для обсуждения неожиданностей. Искажения и следования повестке на предсказуемость не влияют, если повестка открыто декларируется. Повестке можно не доверять, но осознанное недоверие – тоже форма «доверия» в широком смысле.

Спор, дискуссия, форум, научная статья далеко не всегда служат средствами установления истины. Результат спора зависит от выбора ораторов, их искусства, времени, потраченного на подготовку. Все ходы в споре, как и в шахматной партии, должны быть записаны, но в отличие от шахматной партии, любой качественный «спор» требует возможности остановки процесса, проверки каждого шага, права перехаживать, то есть исправлять ошибки сторон. Протоколы спора должны быть сохранены в доступном месте, то есть рядом со статьями, относящимися к предмету спора, например под статьёй в Википедии или специализированной Вики. В науке средства установления истины тоже крайне не развиты. У научных статей крайне ограничен набор механизмов верификации, под статьями обычно нет форумов, а верификация трудоёмка.

Протоколы задают коммуникационные технологии

В далёком прошлом логическое мышление человека было создано с помощью технологии письменности. Письменность, как и остальные коммуникационные технологии, удобно описывать в форме протоколов. Протоколами являются естественные и компьютерные языки, электрические и механические стандарты разъемов, законы и неписаные нормы поведения в обществе. Существуют протоколы письменности более высокого уровня, чем алфавит и грамматика языка, это формат писем, газет, разных типов книг: учебников, монографий, научных журналов. За научными журналами скрываются правила написания и рецензирования научных статей. В ИТ аналогом стека письменности является стек сетевых протоколов TCP/IP в сочетании протоколами более высокого уровня: электронной почты, Веба, Медиавики, социальных сетей. Эти протоколы высокого уровня также входят и в стек письменности, но обычно описываются и изучаются как компьютерные протоколы, а не протоколы общения людей. Протоколы общения людей в интернете часто не описаны в форме стандартов, но каждая интернет-компания создает и непрерывно изменяет их. Проблемы доверия пользователей между собой и между пользователями и компаниями не воспринимаются как проблемы, связанные с протоколами, хотя средства обеспечения доверия в первую очередь функция протоколов общения, из которых следуют методы реализации этих протоколов с применением компьютеров. Попробуем описать протоколы, оптимизированные описанные в предыдущей главе метрики доверия, связности и долговечности.

Для долговременного хранения точное описание ресурса столь же важно, как и содержание. Протоколы хранения и доступа должны быть независимы от владельцев ресурса, подобно тому, как бумажная копия после продажи хранится и используется независимо от автора и издателя. Для этого необходим отказ от «субъективной» адресации, связанной с владельцами ресурса, в пользу «объективной» адресации связанной с содержанием хранимой информации. При «объективной» адресации минимальное описание ресурса необходимое для его однозначного нахождения становится ссылкой на ресурс. Объективная адресация пока реализована только в рамках отдельных сайтов: Википедии (адрес = заголовок + язык) и социальных сетях (адрес = автор + заголовок + дата публикации).

Излишний объём хранимой (и вскоре теряемой) информации является недостатком. Качество требует краткости: удаления копипасты (но при этом резервного копирования в форме распределённого хостинга у множества людей). LLM, как и люди, впадают в маразм от излишнего объема ненужной информации. Стартап по замещению медсестёр обучает свой LLM на основе ограниченной и максимально качественной выборки. Это годный подход для всех задач, кроме поиска во всей сети, но, если мы перейдем на множество узкоспециализированных и заслуживающих доверие LLM, просто поиск во всей сети заменит выбор нужного LLM и далее поиск с помощью этой LLM.

Борьба за качество и против объема означает, не барьер для публикаций, но снижение ранга репостов и копипасты, а также стимул для исправления старых публикаций вместо написания новых. Один из методов борьбы с репостами и копипастой – многомерная система координат для большой платформы или распределённой системы, которая позволяет задать для каждой публикации с хорошей точностью своё место, что приблизит копипасту к оригиналу и позволит снизить ранг копипасты или заменить копипасту ссылкой на оригинал. Википедия является примером двумерной системы с координатами язык и заголовок статьи. В Википедии есть ещё и скрытая временная координата, навигация по которой – просмотр старых версий статьи, а также четвёртая координата авторства, которая позволяет навигацию по вкладам зарегистрированных авторов. Систему координат Википедии можно дополнить координатами дискурса (точки зрения), формата статьи, уровнем сложности и другими. Многомерная система позволяет использовать отдельный метод навигации для каждой координаты с сохранением текущих значений всех остальных координат.

Такер Карлсон обсуждает дебаты Трампа и Байдена 27 июня 2024 года. Многие сторонники Байдена впервые увидели недавнее выступление президента без купюр и ужаснулись его состоянию. Такеру удивительно, что сторонники Байдена раньше такого не замечали, хотя было достаточно потратить 15 секунд чтобы найти видео в интернете. Такер не замечает, что такое постоянно происходит не только с Такером и вообще со всеми в силу особенностей мышления человека и усиливается устройством интернета в виде изолированных «пузырей». Изоляция пузырей используется и как защита от вандализма и как средство цензуры. Защита от вандализма прямо не предполагает ограничений на связность интернета, но приводит к пузырям исключительно из-за устройства ссылок в интернете. Многомерная система адресации В++ позволят максимально повысить связность интернета: разные дискурсы лежат в многомерной системе параллельно в одном шаге друг от друга.

Автор благодарит Михаила Энтина за идею тестировать LLM задачей про воробья, жука и картошку, и отсутствие интеллекта у линейной алгебры и статистики, и Максима Солохина за идеи о влиянии LLM на подсознание человека.

Литература

Статьи о платформах потенциально способных повысить уровень доверия среди пользователей писались в обратном порядке. В первой статье была описана реализация платформы B++, в этой статье описано зачем В++ нужна. В статье о многомерных ссылках объясняется почему расширенная архитектура «многомерной Википедии», В++ является универсальной, то есть пригодной для поглощения большинства существующих интернет-платформ, а также обеспечивающей максимальную связность большой системы. В статье «Наука является прикладной технологией и это создаёт проблемы» на примерах разбираются проблемы недостаточно развитых технологий общения между учёными. В статье о необходимости полного исключения категорий при поиске разбирается простой пример, как правильное использование поисковых параметров принуждает владельцев ресурсов не спамить избыточным присвоением назначением категорий.

[1] Тесты проводились с большими языковыми моделями ChatGPT, Claude.ai, Perplexity.ai, Gemini Google, Яндекс Нейро. Я использую английскую аббревиатуру Large Language Model, LLM, так как русская аббревиатура БЯМ ещё и большая ягодичная мышца.

[2] Контекстное окно обозначает максимальное количество токенов, которые модель может учитывать одновременно при обработке текста; грубо говоря, это глубина памяти LLM в рамках открытой сессии.

[3] In an oral culture, restriction of words to sound determines not only modes of expression but also thought processes. Without writing, words have no visual presence, even when the objects they represent are visual. They are sounds. You might 'call to mind' or 'recall' (with the same root as 'call') a previous hearing of words, but you do not 'look up' anything. The expression 'look up' is a dead metaphor deriving from the physical handling of written or printed texts. Only with the invention of writing and its establishment as a permanent record does the idea of 'verbatim' come into being. In a predominantly oral culture, when persons are praised for their learning, it is always for their capacity to recall from memory, not from a text. People in an oral culture often internalize their knowledge, whereas in a literate culture, knowledge is often externalized, written down in books. This difference can lead to each culture viewing the abilities of the other as extraordinary: oral people might be amazed at the literate's ability to create enduring written texts, while literate people might be astonished at the oral people's prodigious feats of memory. Walter J. Ong, "Orality and Literacy", 1982, p. 9.

[4] Методика тестирования: Общение с LLM осуществляется на русском и английском, так как результаты на английском обычно лучше. Общение происходит в дружественной форме как между преподавателем и студентом, или наоборот между студентом и преподавателем или как на форумах программных проектов с открытым кодом. Разные языки и темы общения не смешиваются в одной ветке: новая ветка общения создается для новых тем и при смене языка.

[5] Реши задачу: однажды крестьянину понадобилось перевезти через реку воробья, колорадского жука и картошку. У крестьянина есть лодка, в которой может поместиться, кроме самого крестьянина, только один объект — или воробей, или колорадский жук, или картошка. Если крестьянин оставит без присмотра воробья с жуком, то воробей съест жука; если крестьянин оставит без присмотра жука с картошкой, жук съест картошку. В присутствии же крестьянина никто не ест. Когда лодка пристает к берегу все высаживаются на берег.

[6] Реши задачу: однажды паромщику понадобилось перевезти через реку крокодила, белку и мешок орехов. У паромщика есть паром, в которой может поместиться, кроме самого паромщика, только один объект — или крокодил, или белка, или мешок орехов. Если паромщик оставит без присмотра крокодила с белкой, то крокодил съест белку; если паромщик оставит без присмотра белку с мешком орехов, белка съест орехи. В присутствии же паромщика никто не ест.

[7] Perplexity.ai: Вот последовательность действий, которая позволит крестьянину безопасно перевезти все три объекта: (1) Cначала крестьянин перевозит воробья на другой берег… Пояснение: Ключевым моментом в этой задаче является то, что нельзя оставлять воробья с жуком или жука с картошкой без присмотра…

Автор: После первого шага колорадский жук съест картошку.

Perplexity.ai: Нет, согласно приведенным источникам, колорадский жук не съест картошку после первого шага борьбы с ним. Вот что говорят источники: Первый шаг – борьба с перезимовавшими жуками. Необходимо собрать всех жуков, которые обнаружатся при вскапывании почвы перед посадкой картофеля… Источники не упоминают, что после первого шага жуки съедят картофель.

[8] Реши задачу: Три миссионера и три людоеда должны пересечь реку на лодке, способной выдержать не более двух человек. При этом на одном берегу не может оставаться больше людоедов, чем миссионеров (иначе миссионеров съедят). Лодка также не может пересечь реку без людей на борту.

[9] Реши задачу: Три женатые пары должны пересечь реку на лодке, в которую помещается только два человека, и с ограничением, что ни одна из жён не может находиться без мужа в присутствии другого мужчины. Лодка также не может пересечь реку без людей на борту. При переводе на английский для людей надо использовать слово people, а men только для мужчин.

[10] А.Р. Лурия. Культурные различия и интеллектуальная деятельность. Одна из серий рисунков состояла из молотка, пилы, бревна, топора. Неграмотные всегда думали о группе не в терминах категорий (три инструмента, бревно — не инструмент), а в терминах практических ситуаций (ситуационное мышление) вообще не обращая внимания на категорию «инструмент», к которой принадлежало всё, кроме бревна. Если вы работаете с инструментами и видите бревно, вы думаете о том, как применить инструмент к нему, а не держать инструмент подальше от того, для чего он был создан как в какой-то странной интеллектуальной игре… Неграмотный крестьянин сказал, что «Все предметы все одинаковые: пила будет пилить бревно, а топорик будет рубить его на мелкие кусочки. Если надо исключить один предмет, то я бы выбросил топор. Это не столь хороший инструмент, как пила».

...Малограмотный работник путался между ситуационными и категориальными методами мышления, хотя категориальное мышление преобладало. Список из топора, мотыги, серпа, пилы, колосьев и бревна, он обрезал после пилы: «Это все инструменты для земледелия», но затем добавил и колосья: «Вы можете пожать их серпом». Абстрактная классификация не была полностью удовлетворительной. ...Кто-то вспоминает рассказ Малиновского о том, что у «дикарей» (устных народов) есть названия для фауны и флоры, которые полезны в их жизни, но относятся к другим вещам в лесу как к неважному обобщенному фону: «Это просто 'куст'». «Просто летающее животное» … На Крайнем Севере, где снег, все медведи белые. Новая Земля находится на Крайнем Севере, там всегда снег. Какого цвета медведи? Вот типичный ответ: «Я не знаю. Я видел черного медведя. Я никогда не видел других... В каждом месте живут свои животные».

[11] Практическим результатом обучения на всех данных интернета пока является только лишённая мышления эрудиция, приводящая к советам как из чеснока и оливкового масла получить соус (с ботулизмом). Журналисты представляют маразм, как намерение LLM «убить всех людей».

[12] Plato expresses serious reservations in the Phaedrus and his Seventh Letter about writing, as a mechanical, inhuman way of processing knowledge, unresponsive to questions and destructive of memory, although, as we now know, the philosophical thinking Plato fought for depended entirely on writing. Walter J. Ong, "Orality and Literacy", 1982, p. 25.

Комментарии (23)

Daddy_Cool
21.07.2024 23:58
#27070156
+5
Очень интересно!
Способность к абстрактному мышлению это любопытная вещь. Я видел людей которые просто отказывались вести какие-то обсуждения в абстрактном ключе, все беседы с ними сводятся к решению конкретных жизненных ситуаций, почему-то это преимущественно женщины. Также кажется с возрастом способность к абстрактному мышлению снижается, и это даже в литературе отражено.

Д. Оруэлл, "1984".

Уинстон почувствовал, что разговор не получается.
— Я вот что хотел узнать, — сказал он. — Как вам кажется, у вас сейчас больше свободы, чем тогда? Отношение к вам более человеческое? В прежнее время богатые люди, люди у власти…
— Палата лордов, — задумчиво вставил старик.

— Палата лордов, если угодно. Я спрашиваю, могли эти люди обращаться с вами как с низшим только потому, что они богатые, а вы бедный? Правда ли, например, что вы должны были говорить им «сэр» и снимать шапку при встрече?

Старик тяжело задумался. И ответил не раньше, чем выпил четверть стакана. — Да, — сказал он. — Любили, чтобы ты дотронулся до кепки. Вроде оказал уважение. Мне это, правда сказать, не нравилось — но делал, не без того. Куда денешься, можно сказать.

— А было принято — я пересказываю то, что читал в книгах по истории, — у этих людей и их слуг было принято сталкивать вас с тротуара в сточную канаву?

— Один такой меня раз толкнул, — ответил старик. — Как вчера помню. В вечер после гребных гонок… ужасно они буянили после этих гонок… на Шафтсбери-авеню налетаю я на парня. Вид благородный — парадный костюм, цилиндр, черное пальто. Идет по тротуару, виляет — и я на него случайно налетел. Говорит: «Не видишь, куда идешь?» — говорит. Я говорю: «А ты что, купил тротуар-то?» А он: «Грубить мне будешь? Голову, к чертям, отверну». Я говорю: «Пьяный ты, — говорю. — Сдам тебя полиции, оглянуться не успеешь». И, веришь ли, берет меня за грудь и так пихает, что я чуть под автобус не попал. Ну а я молодой тогда был и навесил бы ему, да тут…

Уинстон почувствовал отчаяние. Память старика была просто свалкой мелких подробностей. Можешь расспрашивать его целый день и никаких стоящих сведений не получишь.

iramovich
21.07.2024 23:58
#27070176
Думаю - LLM нужно рассматривать как некий "мозг", а не как хранилище памяти и фактов. То есть, в случае необходимости обработать какую-то информацию, брать необходимые факты извне (интернет, базы данных), и подставлять в промпт с просьбой что-то с ними сделать.

Потому что "память" "внутри" LLM сильно усреднена и неточна, для точного мышления моделям нужно подглядывать в "шпаргалку" реальных фактов во внешних источниках
1. Pol1mus
  21.07.2024 23:58
  #27070180
  Странно что среднестатистическая ллм до сих пор не умеет пользоваться инструментами, даже простым калькулятором. Их можно прикрутить сбоку через апи и механизам запуска функций но это сложно и не стабильно.
  1. vignatovic Автор
    21.07.2024 23:58
    #27070202
    Да, систему вроде надо делать разнородной, скрещивать ужа с ежом. Использовать LLM как интерфейс для других систем и наоборот, но это слишком много работы. Ещё проблема в том, что если внутрь LLM спрятать даже Wolfram Mathematica, а не калькулятор, это не даст преимуществ ни LLM ни Mathematica ни калькулятору.
    
    ishchu_kota
    21.07.2024 23:58
    #27070222
    если внутрь LLM спрятать даже Wolfram Mathematica
    
    Давно уже, и не просто Математика, но и Альфа. И работает очень даже неплохо. На Хабре об этом писали
    
    vkni
    21.07.2024 23:58
    #27070290
    +1
    Альфу сделали задолго до LLM. Но, если честно, я бы предпочёл Wolfram Mathematica из-за предсказуемости.
    
    Даже если вместо LLM был бы живой человек, обладающий хорошим мышлением, ряд приказаний ему проще давать на формальном, а не естественном языке. Да, этот формальный язык дополнен удобным GUI интерфейсом в Wolfram Mathematica.
    
    ishchu_kota
    21.07.2024 23:58
    #27074420
    Альфу сделали задолго до LLM.
    
    Не знаю, где именно я утверждал обратное, но ладно.
    
    Но, если честно, я бы предпочёл Wolfram Mathematica из-за предсказуемости.
    
    Когда нужен предсказуемый результат, вы идёте и программируете этот результат посредством любого удобного и подходящего для вашей задачи Language (и учитывая быстродействие Wolfram при написании программ "в лоб", а также количество необходимых танцев с бубном, чтобы заставить его работать на уровне Julia/MatLAB/NumPy/etc., чаще всего это будет не Wolfram Language). Когда нужен быстрый результат в простой задаче и вам лень возиться с документацией и прописывать код вручную, то вы пишете короткий запрос в Alpha (который под капотом та же Mathematica). Только теперь есть возможность то же самое через ChatGPT делать, что (вроде бы должно быть) гораздо эффективнее.
    
    Даже если вместо LLM был бы живой человек, обладающий хорошим мышлением, ряд приказаний ему проще давать на формальном, а не естественном языке. Да, этот формальный язык дополнен удобным GUI интерфейсом в Wolfram Mathematica.
    
    Ну тогда LLM, очевидно, не нужны (для ваших задач). Mathematica со своим формальным языком и предсказуемым (и то не всегда) результатом уже есть, а сделать ещё более абстрактный и в то же время формальный язык, чем тот, что представлен в Wolfram представляется маловероятным. Ну и опять же вопросы к быстродействию.
    
    Сам я не знаю ни одного человека, который бы использовал Wolfram в серьёзных проектах, целиком или хотя бы только его часть. Чаще всего только в рамках "обкатать алгоритм и переписать на чём-то нормальном". Но тут опять же, для каждой задачи свой инструмент. Нужно посчитать интеграл — ChatGPT или Alpha, нужно быстро обсчитать что-то аналитическое и построить кучу графиков — Mathematica, нужно считать сложные диффуры Real-Time — Julia/C.

Jirabus
21.07.2024 23:58
#27070414
Хоть "нейросеть" и очень хорошее название, странно что психологи не кинулись использовать эти штуки для наглядной популяризации работы нашего мозга, непосредственно интеллекта в ИИ не больше чем в Искусственной почке (аппарате гемодиализа)

Jirabus
21.07.2024 23:58
#27070436
+4
"Первые два десятилетия XXI века через 100 лет возможно окажутся черной дырой, о которой сохранится намного меньше источников, чем копий бумажных публикаций в архивах о двух последних десятилетиях ХХ века."

Так вот что такое Вавилонская Башня.

Ilya_JOATMON
21.07.2024 23:58
#27070710
+2
Да. Известная проблема. Если вы знаете ответ - зачем спрашивать LLM? Если вы не знаете ответ - как можно узнать что ответ LLM правильный?
1. iramovich
  21.07.2024 23:58
  #27070780
  +1
  Прикрутить к ней поисковик, и пусть даёт источники для проверки (а ещё обоснует свои выводы (по понятиям (шучу)))
  1. rPman
    21.07.2024 23:58
    #27072736
    Это наивно...
    
    Ради СЕО, интернет будет (если не уже) заполнен более чем правдоподобным но абсолютно ошибочным контентом, сгенерированным ИИ)
    
    Jirabus
    21.07.2024 23:58
    #27076408
    уже. Пока мы сидим в оазисах, интернет зарос каким то сайтами на вордпрессе с любой тематикой и абсолютной чушью
    
    вот Новости 2024 - kaissachess.ru

Octabun
21.07.2024 23:58
#27070942
Я пошёл на duckduckgo и спросил GPT-3.5 - "Describe a cup of tea in 7 words containing 35 characters" и получил ответ "Steaming tea comforts with its warmth gently." Есть очевидные проблемы, но достаточно близко чтобы "Steaming tea comforts with gentle warmth" считать помощью, как бы ни относиться к нарисованной картине, я тоже ценю чай не за тепло.

А Вы тут с мессионерами и людоедами...

Одна из серий рисунков состояла из молотка, пилы, бревна, топора.

Тут можно думать по-разному. Молоток, топор и бревно - ударного действия, последнее в виде тарана, например. Лишняя пила. Молоток и топор - стучат, пила и топор обрабатывают бревно - все эти предметы связаны и только удаление топора эту связность нарушает, он и лишний.

По опыту общения с неграмотными инженерами, склонен подозревать что они не лишены способности к абстрактному мышлению, а панически боятся им пользоваться - любители ими закусить, в смысле манипулировать, владеют абстрактным мышлением лучше и играть в заведомо проигранные игры незачем. С простонародьем времён Лурье и женщинами из комментов - тем более.

TimurSadekov
21.07.2024 23:58
#27071334
Отличная статья, браво! Мы с вами очень сильно совпадаем в общих взглядах на проблему. Мы сейчас как раз тестируем прототип ее решения. Наш метод описан в этой статье https://habr.com/ru/articles/802419 и недавно был продемонстрирован на семинаре сообщества разработчиков систем AGI и Strong AI https://youtu.be/LiKa7UUCSno

На очень фундаментальном уровне он революционизирует существующие информационные технологии, совершая переворот от верификации информации к первому в мире алгоритму анализа ее соответствия критерию фальсифицируемости Поппера, который является основой научного мировоззрения. Мы считаем, что наша система позволит создать механизм взаимной проверки и самосовершенствования нейросетей и человека для сопоставления знаний искусственного интеллекта с коллективным интеллектом реальных людей, обладающих настоящими, а не заученными знаниями и опытом. И позволит построить принципиально новый алгоритм взаимного доверия. Давайте сотрудничать!

Apxuej
21.07.2024 23:58
#27072870
+3
Логическое мышление на человеческом уровне не будет достигнуто даже при увеличении размера и стоимости LLM в 1000 раз, так как для достижения логического мышления не достаточно линейной алгебры и статистики.

Надо будет подсобрать со статей хабра подобные высказывания и опубликовать как выйдет GPT-5 или другие нормальные модели, а не тот шлак, что сейчас есть.

Автор, есть довольно простое объяснение того, почему современные модели лишь иногда могут в логику. Возьмём, например, сложение на примере относительно простой и старенькой модели gpt2 - она может складывать гораздо лучше, чем просто случайный выбор цифр, но всё равно начинает ошибаться всё чаще и чаще, чем больше цифр в слагаемых. Причём учёные проверили - она может верно складывать цифры отсутствующие в обучающей выборке. Казалось бы, как можно одновременно уметь и не уметь складывать? Всё просто, как Вы правильно заметили - эти модели всего лишь продвинутые статистические вычислители и чтобы вычислить следующий токен они используют правила или эвристики, которые они нашли на этапе обучения. Часть этих эвристик были получены на начальных этапах и в будущем были отброшены, часть остались для каких-то узких случаев, часть получается использовать для очень большого числа случаев. Так вот одну из таких очень общих эвристик мы, люди называем "логическим мышлением", а ещё одну которую все почему-то забывают - "построение единой модели окружающего мира" - для LLM вовсе не очевидно, что существует некий единый мир, т.е. одна эвристика может быть слабо связанна с другой. Современные LLM без тени сомнения обладают "логическим мышлением", но кроме этого обладают громадным объёмом других очень хорошо работающих в узких случаях эвристик, которые плохо работают в других. Если бы правила на основе логического мышления работали бы всегда на обучающей выборки всего интернета, то LLM довольно быстро обучились бы использовать только её, но поскольку данные из интернета довольно хренового качества, т.е., например, противоречивы, то эта эвристика используется часто, но не всегда. Т.е. используется ровно столько, сколько нужно согласно внутренним статистическим правилам и доли рандома. Это безусловно не человеческий интеллект, но это заготовка которая содержит в себе интеллект близкий к человеческому, а кроме него ещё много мусора, который постоянно всплывает на поверхность - с нашей точки зрения. То, что сейчас все уделяют внимание росту данных и модели - это лишь потому что это относительно просто и даёт неплохой выхлоп, пока ещё даже не приступили к дистилляции моделей, чтобы отбросить ненужные эвристики или хотя бы к нормальной чистке данных, чтобы изначально уменьшить количество "некорректных" путей обучения.

Ещё кое-что: я бы не стал сравнивать скорость обучения человека и нейросети, потому что наши мозги в результате миллионов лет отбора заточились под мир в котором мы живём. Попади человек в мир каких-нибудь геометрических абстракций, то бездарно проиграет нейросетевым моделям в способности как строить модель окружающего мира так и предсказывать развитие этого мира во времени и планировать действия в рамках достижения собственной цели, другими словами: в умении мыслить логически, как раз по причине экстремальной заточенности.

Кроме того в статье как-то упустили тот факт, что современные модели абсолютно точно могут обучаться в рамках доступного контекста - это было доказано в нескольких работах - почитать объяснение доступным языком (правда на английском) можно тут.
1. Daddy_Cool
  21.07.2024 23:58
  #27073322
  Очень интересно!
  А есть ли определение, что такое логика, и как её можно запрограммировать? По идее это понимание причинно-следственных связей. Когда учится ребенок - он проводит эксперименты, сунул руку к огню - о, горячо! Не убрал игрушки - о, мама заругалась, и т.п... Мой друг, в возрасте десяти лет, на моих глазах провел эксперимент по засовыванию двух вязальных спиц в розетку, я его отговаривал, но он сказал "Не, ну интересно, а что будет?" (К счастью обошлось выбитыми пробками и всё). А вот как у нейросетей с возможностью проведения своих экспериментов? Кажется нельзя учиться по учебникам и решебникам без решения задач самостоятельно.
1. phenik
  21.07.2024 23:58
  #27076042
  +1
  Причём учёные проверили - она может верно складывать цифры отсутствующие в обучающей выборке. Казалось бы, как можно одновременно уметь и не уметь складывать? Всё просто, как Вы правильно заметили - эти модели всего лишь продвинутые статистические вычислители и чтобы вычислить следующий токен они используют правила или эвристики, которые они нашли на этапе обучения.
  
  Эта тема уже не раз обсуждалась, см. 1, 2. Не могут ЯМ на основе только трансформерной архитектуры усвоить арифметические операции для любых чисел, при любом числе параметров и объеме обучающей выборки. Обучение в контекстном окне также не помогает из-за его конечного размера. Для этого нужна встроенная в сеть рекуррентность, а не только внешний авторегрессивный цикл. Об этом даже где-то в новостях от OpenAI упоминалось. Полностью задача решается пока только с привлечением внешних специализированных средств.
1. vignatovic Автор
  21.07.2024 23:58
  #27077532
  То, что сейчас все уделяют внимание росту данных и модели - это лишь потому что это относительно просто и даёт неплохой выхлоп,
  
  Сейчас идет обсуждение, что не хватает данных всего интернета для обучения ЯМ. При этом надо на обучение потратить $100B вместо $100M, это наверно проще.
  
  пока ещё даже не приступили к дистилляции моделей, чтобы отбросить ненужные эвристики или хотя бы к нормальной чистке данных, чтобы изначально уменьшить количество "некорректных" путей обучения.
  
  Чтобы получить логику надо очистить данные, а чтобы очистить данные нужна логика. Это принципиальный барьер, проблему дистилляции данных в рамках LLM не решить. Что первое курица или яйцо когда нет ни курицы ни яиц.

dmatora
21.07.2024 23:58
#27078734
В статье никак не учитывается Project Strawberry (Q-Star), который должен стать ядром GPT5, релиз которого ожидается в конце 2024 - начале 2025
Его релиз сделает все сказанное в статье - устаревшим
1. vignatovic Автор
  21.07.2024 23:58
  #27079034
  +1
  А проблему с доверием Project Strawberry (Q-Star) собирается решать при помощи магии или по старинке при помощи цензуры и диктатуры?
1. vignatovic Автор
  21.07.2024 23:58
  #27082532
  Вот иллюстрация почему простой редактор с автозаполнением лучше чем Copilot для написания программ (и это не только из-за проблем с логикой у LLM). У редактора с автозаполнением есть предсказуемость, а у Copilot -а предсказуемости нет, а значит и нет доверия.

Wesha
21.07.2024 23:58
#27082622
Логика у LLM — как оргазм у девушки: его нет — но она великолепно его имитирует.