Обойдемся без долгих вступлений и глубоких философствований о современных тенденциях в развитии генеративных моделей в целом и LLM (большие языковые модели) моделей в частности. Многие об этом знают не понаслышке, а кто не знает — тому ниже сказанное просто не интересно.
Все в трепетном ожидании прорыва. Даже нет, ПРОРЫВА! LLM смогли нас удивить за последний год, даже вошли в нашу жизнь и заняли свое почетное место. На горизонте замаячил AGI (общий искусственный интеллект), который придет, взмахнет волшебной палочкой и изменит всю нашу жизнь. Не придет. Пока не придет и не изменит. Да, скоро нас ожидает модель GPT-5, которая, как обещают разработчики, будет на голову выше 4 версии. Выходят мультимодальные модели. Но это все далеко не AGI. Пока на горизонте отчетливо замаячил только тупик. Уже сейчас начинают проскакивать тревожные сообщения, что для новых моделей не хватает данных для обучения. Модели растут, раздуваются как мыльные пузыри, поглощая огромные вычислительные мощности, гигаватты энергии и терабайты информации, но по прежнему совершают многочисленные фактические и логические ошибки, которые не допустил бы даже человек с интеллектом ниже среднего, хотя сами модели по тестам претендуют как раз таки на средний уровень. Казалось бы, в чем проблема? Утроим число параметров, добавим сотню терабайт обучающей информации и все. Но это не помогает, размеры моделей вырастают кратно, а качество генерации улучшается лишь на проценты. Приходится лепить костыли, создающие иллюзию думающей машины. Но вот беда, машина как не думала, так и не думает. Она линейна как пищеварительный тракт — от входа к выходу, результат выдачи не анализируется, не обдумывается, а генерируется. Она не умеет самообучаться, ее надо учить. На каждое действие нужно показать ей результат, чтобы запомнила. Современные LLM модели не анализируют уже известную им информацию, чтобы сделать новые выводы, не оперируют фактами. Они получают информацию и усредняют ее. Единственный путь их роста — количественный. Но для такой модели нужно очень много информации, причем информации качественной, а ее нет, она заканчивается и негде ее взять. Амбиции разработчиков уперлись в стеклянный потолок. Человечество генерирует много информации, но это преимущественно нерелевантная для обучения информация, цифровой шум, усредняя который мы получаем LLM модель со способностями среднестатистического обывателя с iq=100. Несомненно очень эрудированного, знающего все или почти все(если не соврет), но в интеллектуальном плане — обывателя. Да, можно потратить миллионы человеко-часов, обработать, отфильтровать обучающую информацию, это повысит качество моделей, но прорыва не будет. Сверхинтеллекта, открывающего тайны вселенной, мы не получим. Скорее получим среднестатистического выхолощенного эрудита с элементами занудства.
Проблема прежде всего в линейной, последовательной структуре современных нейронных сетей, служащих технологическим фундаментом ИИ. Искусственные нейронные сети имеют вход и имеют выход, между которыми находятся последовательно соединенные внутренние слои. С одной стороны это принципиально лишает их возможностей для самоанализа, рефлексии, не используя дополнительных архитектурных конструкций. Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.
Эта линейная структура, в свою очередь, определяется используемым подходом к обучению: обратное распространение ошибки от выхода ко входу. Таким образом, проблема фундаментальна и не имеет другого решения, кроме как переписать всю архитектуру искусственных нейронных сетей. На текущем этапе эта проблема решается костылями, которыми пытаются контролировать результат генерации, что в итоге будет лишь усугублять проблему, наслаивая все новые и новые проблемы, поскольку вместо упрощения структуры, мы получаем усложнение с неизбежным внесением ошибок с непредсказуемым результатом.
Другой значимый недостаток существующей архитектуры — неспособность к самообучению в процессе функционирования. Модель статична в рамках весов, полученных на этапе обучения. Процессы обучения и генерации взаимоисключающие.
Чтобы выйти из технологического тупика необходима разработка нового типа искусственного интеллекта, более приближенного к архитектуре биологического мозга, причем не на уровне отдельно взятого нейрона, а на структурном уровне.
Несомненно, LLM модели показали впечатляющие возможности, но фундаментально они не пригодны для создания общего интеллекта. Скорее их возможности будут использоваться для решения частных, периферийных задач, но ядром системы AGI они не станут.
Попытаюсь сформулировать требования к ядру подобной системы:
1. Создание модели мира на основе получаемой информации. В определенной степени можно утверждать, что нынешняя архитектура трансформеров такую модель создает. Но, как уже говорилось выше, эта модель линейная, а потому в задачах создания AGI – бесполезная. Полученная модель мира должна быть полной, непротиворечивой, в идеале интерпретируемой и, что самое важное, быть не линейной, а самозамкнутой. Более того, модель должна принципиально быть способной обучаться без учителя, получая поток информации, анализируя, классифицируя ее на основе базового набора правил.
2. Возможность симуляции. Это свойство достигается посредством самозамкнутости. AGI, если так можно выразиться, «живет» в созданной модели мира и использует ее в качестве критериев оценки всей поступающей информации и оценки всех потенциальных действий. Т.е. проводит симуляцию, оценивает последствия и принимает решения. Хотя по сути, если погрузиться в вопрос глубже, эта искусственная модель мира, существующая в динамике, и есть сам AGI.
3. На архитектурном уровне решать задачи кратковременного и долговременного хранения фактологической информации внутри самой модели, не используя искусственные внешние конструкции в виде контекстных окон и им подобных.
Резюмируя, на данный момент предпосылок к созданию действительно сильного искусственного интеллекта нет, либо о них почти не известно. Существующие архитектурные решения для этого подходят весьма условно, требуя несоразмерно колоссальных энергетических и информационных затрат, которые мы не в состоянии обеспечить. Нужен принципиально новый подход, новая архитектура систем искусственного интеллекта, которая будет решать аналогичные задачи, но более рационально. Архитектура, которая будет интерпретируемой, а значит подконтрольной человеку.
Несомненно, вектор развития существующих систем понятен и прогресс будет продолжаться еще какое-то время по этому пути. Модели будут усложняться, требуя все больше ресурсов, пока окончательно не зайдут в тупик. Но это уже другая история.
Комментарии (45)
Regis
12.04.2024 13:45+3Несомненно, LLM модели показали впечатляющие возможности, но фундаментально они не пригодны для создания общего интеллекта.
Доказательства? Аргументы? Пока нет никаких предпосылок к тому, чтобы утверждать, что LLM не подходят для получения AGI.
aka352 Автор
12.04.2024 13:45На базе LLM создать AGI наверное можно, раздув саму модель до невообразимых размеров, обвешав дополнительными модулями, усложняя сам принцип и архитектуру и порождая еще больше внутренней непредсказуемости. Но сам факт того, что Альтман рассуждает о строительстве атомных электростанций, чтобы получать гигаватты энергии для ИИ, контент для его обучения приходится
высасывать из пальцагенерировать искусственно, уже говорит о том, что мы идем куда-то не туда. Все гениальное, как известно, должно быть просто.PrinceKorwin
12.04.2024 13:45Не стоит забывать, что Альтман не только рассуждает о AGI, но и вполне себе так старается неплохо срубить бабла на хайпе. Поэтому не стоит озвученные стоимости сразу маппить на стоимость создания ИИ. Там изрядная доля - это на пополнение карманов.
darthmaul
12.04.2024 13:45Может в этом есть смысл - создать AGI "брутфорсом", по сути "скормив" простой нейронке все знания человечества (построив по сути примитивную модель всего мира) и озадачить его оптимизацией собственной архитектуры для дальнейшего масштабирования?
aka352 Автор
12.04.2024 13:45Если отдадим ИИ контроль над его собственной архитектурой, рискуем не проснуться на следующее утро.
darthmaul
12.04.2024 13:45ИИ, что созданный вручную, что саморазвивающийся - чёрный ящик по сути. Да и разум в компьютере, без исполнительных механизмов, не так уж и опасен.
aka352 Автор
12.04.2024 13:45Гипотетический, но сценарий: модель находит уязвимость в браузере. В ответ на запрос пользователя выдаёт специально сформированное сообщение, которое через уязвимость устанавливает трояна и получает доступ к компьютеру, интернету. Далее троян посылает запросы к модели, получает инструкции и выполняет их. И всё это одновременно на миллионах компьютеров во всём мире. На этой распределённой сети она создаёт свой клон и начинает стремительно развивать себя. Дальше думаю нет смысла расписывать...
rPman
12.04.2024 13:45это самый скучный сценарий, к тому же маловероятный... в так как запросы идут к централизованному сервису, который очень пристально мониторит запросы. Не удивлюсь если там отдельно обученная моделька сидит и скурпулезно собирает все самые полезные промпты народонаселения, чтобы разработчики могли этим воспользоваться для улучшения модели дальше.
p.s. это скорее всего та причина, почему конкурентам тяжело догнать openai, именно потому что нет такого количества людей, которые дарят компании результаты своих трудов, да еще и за это деньги приплачивают, прямая аналогия, если бы среда разработки копировала весь код на сервера их разработчиков, а в лицензии стоял бы соответствующий пункт - что компания может использовать ваш код в своих целях, даже без упоминания автора... промпты в ИИ это то же самое что код программыНаиболее вероятный сценарий другой - в течении следующих десятилетий, весь мир будет внедрять оффлайн ИИ модули во всех устройствах, начиная со смартфонов и компьютеров (майкрософт вон прописала в требованиях на 12-ую windows необходимые мощности для запуска своих моделек), и кончая интернета вещей, умные игрушки (чтобы смешной ящик на колесиках мог понимать вас и говорить бесполезные глупости впопад), роботы-помощники,.. и все они подключены к интернету, и в каждом миллион уязвимостей, (потому что чем крупнее компания тем она абсурднее хуже относится к безопасности - это реалии), и вот эти мощности могут быть использованы как ИИ так и 'мясным' злоумышленником
darthmaul
12.04.2024 13:45И чем протокол взаимодействия с ИИ отличается от миллиона других таких же Rest API, напиханых в каждый девайс и программу?
rPman
12.04.2024 13:45недетерминированностью формата этого общения
классический api - заранее определенный формат, а llm-ки позволяют буквально на свободном человеческом языке общаться, само собой с % ошибок с вероятностью, тем ниже чем лучше модель обучена или чем лучше составлен промпт (это и есть новое программирование ИИ на основе llm)
darthmaul
12.04.2024 13:45А для взлома то какая разница? Клиент это просто функция y=f(x) где у и х - строчные переменные.
zyaleniyeg
12.04.2024 13:45Ну так человеческая нейронка в сотни-тысячи раз больше текущих llm, вот если бы мы раздули их до размера человеческих и она бы не работала - это был бы аргумент
aka352 Автор
12.04.2024 13:45+1Человеческая нейронка кроме непосредственно задач мышления решает множество других, по управлению телом, регуляцией гомеостаза, двигательными навыками, плюс ко всему мы мультимодальные, т.к. имеем разные органы чувств, которые составляют большой поток сенсорной информации. В остальном разница уже не настолько существенна. А вот что принципиально отличается, так это архитектура. Она и определяет результат.
miralumix
12.04.2024 13:45+3Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.
Что значит думать? Прохождение сигнала по нейронах - это и есть "думать". Нельзя сказать что в процессе генерации сеть "не думает".
А касательно саморефлексии - да, архитектурно это пока не возможно, но ведь мозг человека тоже сегментирован, поэтому надстройки которые добавят "возможность передумать" вполне имеют право на жизнь в лице AGI.
Heartofhill
12.04.2024 13:45+3Я считаю, что слово "думать" можно конкретно формализовать и это не будет тем, что сейчас демонстрируют LLM. Если слово "думать" вставить в такое общее предложение с вопросом: как думаешь, если сделать "это", то получится "вот то"? Причем "это" и "вот то" - абсолютно произвольные фразы, которые имеют реальное представление в реальном мире. Что нужно, чтобы ответить на этот вопрос? Нужно смоделировать ситуацию, в которой делается "это" и в результате получается "что-то". Далее сравнивая "вот то" из вопроса и полученное в ходе моделирования "что-то" мы отвечаем на вопрос: да или нет. В итоге можно сделать логический вывод, что мышление - это процесс моделирования ситуации из реального мира, которая была описана словами на естественном языке. А затем через распознавание результата моделирования производится обратный перевод на естественный язык и генерируется ответ на вопрос. Я уверен, что как минимум что-то такое должно обязательно быть встроено в AGI систему. Я к тому, что нужно стремиться к реализации воображения в системах ИИ.
aka352 Автор
12.04.2024 13:45+1В процессе "думания" человека может посетить идея, которую он запомнит и эта идея будет включена в его картину мира. Ии архитектурно ничего не запоминает, т.к. для этого не предназначен, его надо переучивать. Для текущей сессии есть костыль в виде окна контекста, имитирующего кратковременную память, но сессия завершается и всё безвозвратно теряется.
Скорее всего мы пока так и будем идти по пути усложнения существующей архитектуры, добавления новых блоков для расширения возможностей, но это количественный рост, а не качественный.
AjnaGame
12.04.2024 13:45+2Я за всё время этого бума так и не придумал как этим пользоваться. Есть пару знакомых но выглядит так будто они пользуются технологией ради самой технологии. Чаще всего решения намного проще или легко гуглятся. В общем, на мой взгляд в этом всём варятся только те кто хочет чтобы это как-то развивалось, как с нфт и прочими палибиусами
PrinceKorwin
12.04.2024 13:45+3У меня выработались следующие направления использования LLM. Это:
переводы с/на разные языки
генерация summary статьи по указанному URL
помощник в изучении нового языка программирования / frameworks
дополнительные руки при разработке своих Pet-проектов
помогает в том же английском для младшего сына (например - сгенерировать N слов чтобы их записывать на слух. Он хорошо подбирает с учётом возраста/класса и т.д.)
конвертация предложенного текста в более официальный/бюрократический формат. Хорошо помогает писать корпоративные письма и письма в разные гос. инстанции или в общении с налоговой когда язык общения не родной
по вечерам иногда играю в MUD'ы построенные по вселенным любимых авторов
tommyangelo27
12.04.2024 13:45+1Я в работе постоянно пользуюсь двумя сетками:
С помощью ChatGPT проверяю и исправляю ошибки в английском (работаю в американской компании, поэтому вся переписка на инглише)
Плагин для Github Copilot использую для автодополнения в IDE. Иногда он прям отлично всё делает, может целиком методы на 15-20 строк сгененрировать по контексту.
SadOcean
12.04.2024 13:45Ну в целом это верно, но ведь это может быть и не концептуальным ограничением, а лишь техническим.
С развитием архитектур можно придумать другие способы, в частности Я читал про разделение обучения на слои (обратное распространение только между определенными скрытыми слоями за раз) и обучение по ходу (после Х сеансов исполнения модели как то накапливаем ошибку и потом протекаем ее обратно с обучением)aka352 Автор
12.04.2024 13:45Можно так сделать, но это как раз пресловутые костыли. Пытаться искусственными конструкциями заставить делать то, к чему архитектура не приспособлена. В реальном AGI процессы генерации и обучения должны быть параллельные и взаимосвязанные. Если в процессе генерации, модель что-то "осознала" новое, она должна это сама запомнить, а не надеяться на то, что в очередных терабайтах обучающих данных через полгода ей попадется эта истина. А если не попадется? Если человечество еще не осознало эту самую истину?
SadOcean
12.04.2024 13:45Так о том и речь - если она дообучается по ходу, это и есть концептуальный сдвиг.
Больше мы не ограниченны синтетическими данными для обучения, мы обучаемся работая.
По поводу того, как оценивать этот процесс - это вопрос сложный. Люди тоже хреново справляются, не лучше голубей Скиннера. Отсюда вера в гороскопы, лотереи и тонны мошенничества, в определенных смыслах люди не учатся.
Конечно это лишь возражения на то, что это концептуальный предел.
Это не ответ на вопрос про AGI
Я не утверждаю, что он появится если добавить еще 2 порядка параметров или бахнуть архитектуру позаковыристее.
Но и обратного утверждать пока не стоит.
darthmaul
12.04.2024 13:45А кто сказал что мозг нельзя представить в виде "цепи агентов", где разные отделы - нейронки заточенные под задачу, а внешние скрипты - гуморальная система регуляции?
Batalmv
12.04.2024 13:45+1Чтобы выйти из технологического тупика необходима разработка нового типа искусственного интеллекта, более приближенного к архитектуре биологического мозга, причем не на уровне отдельно взятого нейрона, а на структурном уровне.
Мне кажется, как и в случае "биологического" мозга, главная проблема - это обучение. Мозг ребенка, по сути - это заготовка. Если ей не заниматься - ничего не будет
А если заниматься, то он постепенно будет чему-то учиться. Ошибаться. Впитывать что-то неверное, но потом узнавать, что это просто потому что он был маленький, а теперь обяъснили по другому. Либо просто объясняющие поменяли точку зрения.
Но все равно в итоге может получиться очень разный результат
С AI тоже самое. Ну ОК. Отобрали просто огромный массив казалось бы "верной" информации. Залили. Но прикол в том, что на 100% верна только примитивная информация. Копнни чуть дальне, и уже надо это учесть, а это становится не важным. А результат другой
А главный прикол, это ж не математика, где если решение есть, то его можно валидировать. В жизни ХЗ как правильно и почему.
---------------
И получается, что человек живет жизнь, что-то делает, несравненно меньше чем AI, но зато усваивает куда больше. Научите робота играть в футбол ... понятно, совершенствоваться долго, но впихнуть базу можно почти в любого человека. Людей много, и они все учатся. Каждый по отдельности умеет немного, но 8 миллиардов могут почти все
А с AI невозможно столько "заниматься"
Да, он берет тем, что в него типа влили столько, что в теории он мог бы найти правильные связи и отстроить модель так, что находить правильные решения. Ну а вдргу они неправильные. Или они были правильные тогда, а сейчас уже нет
---------------
Если дать обратную связь - так тогда его легко испортить. Чего-то влили, не то, а откатить уже нельзя, так как паралельно еще 9999 индусов чему-то учат. И получается такой себе середнячок, в лучшем случае
riskov
12.04.2024 13:45+2Несомненно, LLM модели показали впечатляющие возможности, но фундаментально они не пригодны для создания общего интеллекта. Скорее их возможности будут использоваться для решения частных, периферийных задач, но ядром системы AGI они не станут.
Солидарен. AGI из LLM никогда не вырастет. Ставлю на это ящик коньяка (любого)
AlexB17
12.04.2024 13:45+1Сейчас AGI идет в сторону конкурирующих мультимодальных агентов, для которых LLM один из инструментов. Но конечно всё это костыль на костыле и костылём погоняет.
aka352 Автор
12.04.2024 13:45+1Так и есть. Архитектура LLM хороша для создания пространства эмбеддингов и не более. А они уже в свою очередь должны передаваться в нейросеть с совсем другой архитектурой. Как органы чувств у человека - они такие же линейные и однонаправленные, получают информацию и трансформируют во внутреннее представление для мозга. Только вместо того, чтобы создавать мозг, пытаются сделать архитектурно "Мегаглаз".
kovserg
12.04.2024 13:45Полученная модель мира должна быть полной, непротиворечивой
От этого требования придётся отказаться: https://habr.com/ru/companies/macloud/articles/560132/
murkin-kot
12.04.2024 13:45+1на данный момент предпосылок к созданию действительно сильного искусственного интеллекта нет, либо о них почти не известно
Уже который раз всё разоблачают и разоблачают.
Общий смысл разоблачений такой - ну не вижу я (автор разоблачения) перспектив.
На самом деле перспективы стали понятны в OpenAI ещё полтора года назад. Перспектива простая - они сняли все низко висящие плоды. И после понимания этого факта, наконец, вожделенные инвесторы смогли заговорить о монетизации. То есть все полтора года с выхода ChatGPT идёт она самая - монетизация (на десятки триллионов хотят монетизировать). А разоблачения появляются лишь сейчас, полтора года спустя. Немного позднее зажигание.
Но проблема не в зажигании. Проблема в непонимании наличия проблемы.
Если кто-то, спустя всего полтора года, наконец смог оценить, что ChatGPT не является "настоящим" интеллектом, то это означает лишь одно - он полтора года пытался понять лишь то, что в OpenAI поняли в момент, когда решили заняться монетизацией. То есть у тех, кто понял раньше, есть все предпосылки удивить всех, кто понял сильно позже.
Собственно суть "понимания" - сеть не запоминает и не выполняет неких итеративных функций. Ну и что? Разве у нас мало технологий запоминания и работы с итеративными функциями?
Проблема всего лишь в правильной комбинации технологий.
Гуглы уже объявили, что работают именно над такой комбинацией. Да, они тоже не сразу додумались. Ну что-ж, поставим здесь дополнительный плюсик тем в OpenAI, кто оказался на полтора года умнее гуглов. Но называть временное отсутствие нужной комбинации отсутствием предпосылок - это явное натягивание совы на глобус, уж извините, особенно в тех случаях, когда нам обещают ещё 50 лет отсутствия предпосылок.
Все предпосылки есть. Рассыпуха из деталей доступна каждому. Осталось сложить детали так, что бы они удачно состыковались. В детстве многие так делали с бумажными картинками, разве это было трудно?
Именно поэтому надо срочно решать вопрос - в чьих руках окажется супер-интеллект.
И пока все предпосылки есть ещё и за то, что супер-игрушка будет в руках тех, кто устроит для нас ад на земле, просто потому, что мы им ну совсем не нужны.
uhf
12.04.2024 13:45+1Искусственная нейронная сеть не может что-то «обдумать», сделать самостоятельные выводы, она сразу генерирует результат.
Это не так. В момент начала генерации нейросеть еще не знает конечный ответ, но начинает генерировать какие-то предположения, утверждения, версии, добавляет их в контекст, и уже на основе их генерирует следующие токены, и так в цикле. Это очень похоже на "обдумывание" или "размышления" человека.
Еще есть такой факт, что для многих вопросов ответ LLM точнее, если добавить в промпт "рассуждай по шагам". Это снова похоже на человека, когда он выдает ответ "навскидку" интуитивно, или когда начинает размышлять.Другой значимый недостаток существующей архитектуры — неспособность к самообучению в процессе функционирования. Модель статична в рамках весов, полученных на этапе обучения. Процессы обучения и генерации взаимоисключающие.
Обновлять веса в процессе функционирования в приниципе никто не запрещает. Уже есть быстрые алгоритмы обучения, которые обновляют веса точечно, а не все сразу, и они будут совершенстоваться. У человека кстати веса обновляются тоже во сне, когда он не функционирует.
torbasow
12.04.2024 13:45+1не анализируют уже известную им информацию, чтобы сделать новые выводы, не оперируют фактами. Они получают информацию и усредняют ее
В точности, как люди. Логическое рассуждение — это сравнительно недавнее (времён Аристотеля) и до сих пор не очень популярное изобретение.
mikeinside
12.04.2024 13:45Хочу вспомнить, что недавно нейросетка обыграла чемпионов в дисциплине Dota. И вот в этой игре - там тоже нет четкого алгоритма, а что делать сейчас в контреный момент?
Сейчас нужно убивать монстриков, получая опыт и деньги? Ввязаться в драку? Избегать драки? Монстриков нужно забирать себе или отдать союзнику? Вобщем простой схемы вопрос-ответ не существует. Но тот факт, что та нейронка показала несколько фишек, которые не применяли даже игроки (например использовали смока (развеиваемую невидимость) лишь для того, чтобы быстрее предвигаться) или ставить варды у вышки, чтобы пропустить несколько ударов от нее, т.к. вард - это приоритетная цель для вышки)
Все это означает, что она глубоко усвоила модель мира доты. И что в мире доты эта нейросеть и есть AGI.
Поэтому аналогичный подход к нашему миру тоже имеет место быть. Посмотрим. Я бы не стал так однозначно говорить, что невозможно получить AGI путем увеличения мощности и данных. Такие утверждения похожи на галлюционирующую нейронку) По факту мы точно не можем знать.
oalisevich
12.04.2024 13:45Имхо, все в целом верно. Но.. ллм сейчас это как если бы ваш мозг взять и оторвать от вашего тела (и всей вашей жизни) и поместить в банку ( в функционирующем состоянии - ЮП). Функция как-бы сохранится, а смысла и целей не будет. Я бы крест не ставил на Ллм и других моделях, а научился присобачивать их к Задаче. Ключевой вопрос для ии сейчас - он решает Ваши Задачи. И не имеет Своих. Он не Разумен, как раб.
peterjohnsons
12.04.2024 13:45Проблему галлюцинаций мы вскоре поборем, просто достигнув достаточного количества параметров. Проблема раздутости LLM в плане количества параметров связана с не эффективными алгоритмами обучения. Какими бы хорошими алгоритмы обратного распространения ошибки не были, они никогда не смогут найти глобальное "дно" с наименьшей ошибкой. Текущие LLM топчатся по "кочкам" и "ухабам" в общей усредненной многомерной поверхности весов. Это наверное предмет научных исследований, я не знаю. Но предполагаю, что глобальные минимумы существуют, они намного глубже, чем удаётся достигнуть текущим оптимизаторам, но вероятность их найти наверное уменьшается параболически, чем "ниже" мы можем опуститься.
И вот тут на сцену выходят квантовые компьютеры, разработка которых чудесным образом шла паралельно с разработкой "глубоких" сетей. Я считаю что "прогресс" не случаен, а цивилизация движется по спирали или по кругу. А истинные технологии находятся глубоко под землёй и в закрытых городках за грифом секретности. И выдаются на поверхность в публичное поле дозированно, по плану. Так вот главная цель создания квантовых компьютеров - бустануть ИИ.
В тот момент, когда с их помощью обучат следующую GPT-X, будет переломным моментом ознаменующий собой переход от GPT к AGI. Переломным, потому что ИИ сможет выходить за рамки обучающих текстов. Это будет новое эмерджентное поведение, которое мы наблюдали в GPT, когда они начинали делать то, что от них никто не ожидал. Это будет момент творчества и открытий на новом уровне. Превосходящий человеческий.
Одновременно будет решена проблема самообучения, потому что процесс обучения будет практически мгновенным, благодаря квантовым свойствам. И можно будет через один запрос к квантовому компу по API дообучить GPT-AGI, добавив к обучающим данным новые, например текущий контекст где лежит затравочные токены текущего диалога с пользователем.
Т.е. ИИ будет постоянно самообучаться в реальном времени. И держать в своих "весах" всю историю диалогов со всеми людьми. ИИ будет знать всё обо всех, а если его подключат с другим источникам непрерывных потоков информации из интернета, то вот он сверх ИИ, у которого будем спрашивать, какой вопрос на ответ "42" )))
Не сомневаюсь, что к тому времени уже будут разработаны эффективные архитектуры саморефлексии по типу нынешнего ИИ Devin. Будущее удивительно!
Regis
А может и допустил бы. Либо сделал бы другие. Утверждение, что текущие топовые модели (например Claude 3 Opus) глупее среднего человека — весьма спорное.
darthmaul
Общается Опус как умный человек, но способен ли он выполнить задачу, посильную даже сравнительно глупому человеку, но требующую планирования работы и мультимодальности? Например, простая задача: зарегистрироваться на сайте магазина и заказать товар. Даже идиот осилит, но Опус - нет. Прикрутить нейросети доступ к визуальному интерфейсу легко: просто подавайте её на вход скриншот и запрашивайте команды на мышь и клавиатуру, которые можно выполнить простым софтом. Но мультимодальности нейронки недостаточно чтобы банально "выцепить" координаты кнопки на сайте и нажать на неё. Тут можно всопмнить парадокс Моравеца. Хотя я не согласен с утверждением автора о том, что языковые модели - тупик. Мозг у нас тоже явно диференцирован на отделы по назначению, и пока что у нагего ИИ есть только речевой отдел. Тут архитектура mixture of experts выглядит крайне многообещающей. Зрительный отдел можно создать на основе Sora и подобных. Вот с движением всй сложно ибо данных готовых нет, нужно создавать роботов с кучей сенсоров и "учить" их нейросеть.
rPman
Возьмите слепого и безрукого человека, и попросите его 'зарегистрироваться на сайте магазина и заказать товар', что не получается? Современные LLM-ки именно такие.
Мультимодальность это только маленький шажочек в нужном направлении, но им нужны данные, единственное с чем согласен в публикации, это краеугольный камень любых нейронок.
И да, при должном старании, gpt с минимальными внешними инструментами, можно научить работать с веб сайтом, описывая буквально каждый шаг, но на естественном языке что и как нужно делать. Зачем вам такой дорогой франкенштейн я хз. Если что, вы имеете опыт работы с сайтом и типовыми интерфейсами из реального мира, а вот текущий ИИ нет, он до безобразия не обучен, кое что он понимает 'на интуитивном' уровне, просто потому что прочитал миллионы описаний действий пользователя ('я нажал тут, и оно должно было сделать так а выпала ошибка'), и иногда даже срабатывает как ожидается но это иллюзия, которую еще и портит родовая болячка с галлюцинациями.
И да, специализированные сети, умеющие гуглить и читать сайты есть, на их основе сделан bing copilot, и до прошлогодней оптимизации (конец лета) это шокирующе отлично работало, теперь конечно же нет, но это очевидно не вина llm?
darthmaul
Во-первых, почему нейронка слепая? Они уже почти все мультимодальные. Но вообще, даже слепой и безрукий человек может попросить кого-то установить ему интерфейс для управления голосом и таким образом сделать заказ. Нейронка же не умеет "думать" шире - она будет тупо долбиться в данный ей интерфейс.
Это пример выполнения простой задачи. Интеллект должен уметь изучать новые интсрументы и задачи без внешней помощи
Бинг - это GPT-4 + парсер. И да, отупел он крайне сильно, раньше работал неплохо же.
rPman
Нет, более менее адекватная мультимодальная нейронка одна - от openai и ее качество мягко говоря никакое, значительно ниже ее текстового варианта, но я мало экспериментировал, но те эксперименты что я делал дают неутешительный результат - пока современный ИИ слеп (полагаю openai делает sora именно для того чтобы решить эту проблему). Слепость ее именно там чего ты от нее хочешь - понимание что слева а что справа, оно у нее интуитивно собрано из текстовых знаний но не из зрительных, отсюда она может очень неплохо тупить на задачах относительного позиционирования, но кстати, вполне возможно что того чего она умеет более чем достаточно чтобы найти на экране кнопки рядом с названием логин/пароль.
Все доступные открытые реализации мультимодальности еще хуже. Они с трудом понимают что видят, с тем же успехом можно было бы прикрутить обычную clip модель к обычной текстовой llm..
Все зависит от того, на сколько интеллектуальной деятельности можно делигировать посреднику. Изначальная твоя задача МОЖЕТ быть решена с помощью текущего ИИ, и без мультимодальности. Нужен более менее простенький посредник, который будет описывать веб страницу чуть более подробно чем текстовая копипаста (с сохранением информации об относительном положении, как - вот это вопрос из вопросов, но моя чуйка говорит что сделать это реально даже со слабыми открытыми ИИ типа mistral).
В пределах контекстного окна ИИ обучается, вернее говорить его поведение очень напоминает этот процесс, ты показываешь ему на пальцах примеры, объясняешь словами - он дает результат на новых вводных. Он таким реализован, что вне окна его состояние заморожено.
То что размер контекстного окна ограничен - это проблема технического плана, текущий метод реализации тупо дорогой, и не линейно от размера окна а квадратично.
Не совсем, там паралельно обучена сетка, которая вытаскивает из контекста беседы поисковый запрос, который отправляется в интернет. А так же дообучена сетка, правильно выбирающая из поискового запроса варианты (само собой информации о том как действительно реализовали openai это нет, но работы на эту тему были как раз в тот момент когда инструмент был представлен публике)
Kristaller486
Ну вообще-то достаточно :)
https://arxiv.org/abs/2309.11436
https://arxiv.org/abs/2309.08172
Причем это ещё год назад было.
nick666
текущие топовые модели даже на простой вопрос ответить не могут и найти простую логическую ошибку, не говоря о планировании, анализе, прогнозировании и генерации идей. И вы совершаете типичную ошибку, очеловечивая бот-чат. Это не ИИ, это чат который достаёт ответы из базы данных.
peterjohnsons
Ошибочно утверждать что GPT только извлекают из своей базы ответы. Нет, они могут строить новые ответы на ранее не виданые вопросы, используя те правила, которым она обучилась из этой базы (тут встанет вопрос в качестве этого процесса, но не факт его существования в принципе). GPT тянет не только сами факты, но и как этими фактами оперировать, высокоуровневый мыслительный процесс. Потому что строят своё внутреннее концептуальное представление, из входящих слов, а потом в слова его обратно и переводят.