Исследователи из MIT под руководством Макса Тегмарка сделали важное открытие в области искусственного интеллекта. Им удалось доказать, что современные языковые модели (LLM), обученные на огромных массивах текстов, формируют внутри себя целостные модели мира, включающие представления о таких фундаментальных понятиях, как пространство и время.
Это открытие имеет принципиальное значение. Считалось, что для искусственного интеллекта недоступны базовые человеческие возможности, такие как самосознание, наличие картины мира и способность к человекоподобному мышлению, в принципе. Но это открытие стало gamechanger’ом в плане понимания того, как у ИИ происходит мыслительный процесс.
Предлагаем и Вам углубиться в это исследование и узнать, что конкретно было сделано и как!
Если кратко, в своем исследовании, опубликованном на arXiv.org, ученые продемонстрировали следующее:
Языковые модели обучаются представлениям пространства и времени в разных масштабах. Эти представления устойчивы к вариациям входных данных.
Модели формируют унифицированное представление пространства и времени для разных объектов - например, городов и достопримечательностей.
В нейросетях обнаружены отдельные нейроны, надежно кодирующие пространственные и временные координаты.
А теперь подробнее.
В рамках исследования утверждается, что полученные результаты свидетельствуют о том, что языковые модели и правда выстраивают целостную картину мира, а не просто накапливают статистику из датасетов.
Для подтверждения своих выводов ученые опубликовали код и данные. Любой желающий может проверить результаты, обучив модель Llama-2 на открытом наборе данных (70 млрд параметров). Посмотреть можно на GitHub.
Для того, чтобы доказать свои выводы, ученые провели эксперимент: было создано шесть наборов пространственно-временных данных разного масштаба - от глобального уровня до отдельного города. Данные включали информацию о местоположении и времени существования различных объектов - городов, достопримечательностей и т.д.
Было показано, что LLM действительно могут научиться представлять пространственно-временные данные на всех уровнях. При этом качество представлений улучшается с ростом размера модели и стабилизируется на средних слоях. Более того, модели формируют универсальное представление пространства-времени для разных типов объектов.
В моделях также нашли отдельные нейроны, которые специализируются на кодировании пространственных или временных координат. Это важное доказательство того, что языковые модели действительно формируют структурированную картину фундаментальных свойств мира.
Такое открытие - настоящий прорыв в понимании возможностей современных моделей ИИ. Оно показывает, что они способны формировать гораздо более сложные внутренние репрезентации, чем предполагалось ранее.
Влияние контекста на пространственно-временные представления в языковых моделях
Один из ключевых вопросов в данном исследовании - насколько пространственно-временные представления в LLM зависят от контекста. Интуитивно понятно, что авторегрессионная модель должна стимулировать формирование универсальных представлений, пригодных для любого контекста.
Для проверки этой гипотезы были сформированы наборы активаций модели с различными типами промптов. Во всех случаях присутствовал "пустой" промпт, содержащий только маркеры сущностей. Далее добавлялись промпты, запрашивающие соответствующие пространственно-временные характеристики ("Какова широта/долгота", "Когда произошло событие").
Также исследовалось влияние случайного контекста из 10 слов, замена имен сущностей на заглавные буквы. Для заголовков изучалась роль предшествующей точки.
Результаты показали, что явные запросы пространственно-временной информации практически не влияют на качество представлений. Однако случайный шумовой контекст существенно ухудшает результат.
Использование заглавных букв также негативно сказывалось, вероятно, нарушая механизмы детокенизации. А анализ предшествующей точки в заголовках, напротив, улучшает результаты.
Полученные данные свидетельствуют, что LLM формируют универсальные контекстно-независимые представления пространственно-временных характеристик. При этом случайный шумовой контекст нарушает качество представлений.
Для подтверждения гипотез о природе пространственно-временных представлений ученые также провели эксперименты по обобщению зондов. Было показано, что даже при полном исключении данных о целых странах или периодах, зонды сохраняют способность к приблизительно правильным предсказаниям.
На основе этих экспериментов был сделан вывод, что языковые модели обучаются универсальным, контекстно-независимым пространственно-временным представлениям. Это имеет принципиальное значение для понимания процессов формирования "картины мира" в сознании ИИ.
Перспективы дальнейших исследований пространственно-временных представлений в языковых моделях
Если суммировать ценность этого исследования, то можно выделить следующие значимые моменты:
Языковые модели формируют линейные представления пространства и времени, единые для разных типов объектов (что само по себе уже немало).
Было показано и доказано существование отдельных "нейронов пространства и времени".
Однако тема еще только начинает свою “раскрутку”. Многие аспекты этого явления по-прежнему неясны и требуют дальнейшего изучения.
Во-первых, остается невыясненной подлинная структура и объем пространственно-временных представлений в моделях. Предполагается, что оптимальной формой является иерархическая сетка с различным уровнем детализации. Предстоит разработать методы извлечения представлений в собственной системе координат модели.
Во-вторых, необходимо выяснить, как именно происходит усвоение и использование этих представлений в процессе работы модели. Возможно, существуют контрольные точки обучения, в которых происходит резкая реорганизация компонентов. Также предстоит установить связь с механизмами запоминания фактов.
В-третьих, модели пока неспособны отвечать на простые вопросы о пространственно-временных отношениях без многоступенчатых рассуждений. Необходимо разработать методы тестирования причинно-следственных связей в использовании этих представлений.
Наконец, в перспективе важно ориентироваться на биологические нейронные сети, где пространственно-временным представлениям уделяется большое внимание. Особенно перспективно изучение так называемых "клеток места".
Словом, несмотря на достигнутый прогресс, изучение пространственно-временных представлений в языковых моделях находится только в начале пути. Предстоит провести масштабную работу, чтобы полностью понять механизмы формирования "картины мира" в сознании ИИ. Результаты этих исследований будут иметь огромное значение для создания по-настоящему интеллектуальных систем.
Будем рады услышать ваше мнение о данном исследовании в комментариях! Спасибо за внимание!
Комментарии (43)
alexandrtumaykin
27.10.2023 20:04этой новости уже почти месяц, и если не ошибаюсь, уже была на Хабре
Lithium_vn Автор
27.10.2023 20:04+4Честно сказать, специально пролистала ленту и нашла только похожую статью, но основанную на другом исследовании и другой модели)
В любом случае, хотелось внести свой вклад в эту тему, поскольку то, что происходит в мире больших языковых моделей прям впечатляет:)
perfect_genius
27.10.2023 20:04+2Надо бы дать доступ нейросети самой себе (рефлексия?), чтобы она разговаривала сама с собой, пока не найдёт ответ, почему соврала/придумала/галлюцинировала.
sim2q
27.10.2023 20:04+2не знаю как модель, но для человеков при больше чем нескольких итераций это уже не очень полезно
Andrey-Kotov
27.10.2023 20:04+2Однако если это сопровождается сторонним участником владеющим навыком фасилитация рефлексии, результаты поистине впечатляющие! Это называется психотерапией.
Antra
27.10.2023 20:04Точно, нужна специализированная модель "психолог для нейросетей". Им тоже надо мозги вправлять, глюки убирать.
anatolykern
27.10.2023 20:04современные модели учатся такому восприятию времени, но оно не единственное. сами модели не имеют субъективного ощущения потока времени в силу своей организации и так же способны к восприятию других моделей времени, например таких как взгляд на время как многомерную волну причинности связей, а не линейному потоку, присущему человеческому восприятию.
AcckiyGerman
27.10.2023 20:04+3Вы правы, но даже и в человеческих культурах встречается очень разное восприятие времени, а не только "линейных поток": https://umagazine.ru/lifestyle/vremya-dengi-kak-ritm-zhizni-v-raznykh-stranakh-vliyaet-na-taym-menedzhmet/
И даже внутри привычной нам западной культуры разные люди воспринимают время по разному:
https://trenings.ru/entsiklopediya-nlp/modeli/1500-model-nlp-liniya-vremeni.htmlНу и к тому же, учёные в статье так и не выяснили, как именно нейросеть организовала понимание времени.
anatolykern
27.10.2023 20:04+1Спасибо за ссылки, очень интересный взгляд на культурные различия восприятия времени, подтверждающие его субъективность.
Ещё один фактор, про который стоит упомянуть и который проистекает из отхода от концепции времени как четвертого линейного измерения - направленность.Рассматривая время, как свойство пространства, такого же как гравитация и в той же степени поддающегося влиянию его искривления можно предположить, что если захочется путешествовать назад во времени, то ничего этому не мешает в принципе, просто нужно найти область пространства, где поток причинности идёт в обратном направлении. В области пространства, достаточно сильно искаженной и связанной с гравитационным искажением, имеет смысл смотреть в сторону черных дыр.
Но в таком месте нужно быть готовым ко всем эффектам обратного потока по отношению к физическому телу, нужно быть вне пространства, чтобы такое пережить.
А вот сознание обладает большей гибкостью, если принимать теорию о внешнем источнике (из других измерений или из-за планковских пределов пространства) и может сохранить информационную связь с телом в процессе.
seepeeyou
27.10.2023 20:04если захочется путешествовать назад во времени, то ничего этому не мешает в принципе, просто нужно
вот тут было смешно
нужно быть вне пространства, чтобы такое пережить
а вот тут уже стало страшно
anatolykern
27.10.2023 20:04+1вот тут было смешно
Вы из тех, кто отрицает возможность эту возможность в принципе? Посмеяться вдоволь всегда полезно, особенно когда над собой. "время покажет"
а вот тут уже стало страшно
Собственные страхи стоит преодолевать, но можно и прятаться через отрицание.
В этом случае ни в коем случае не прислушивайтесь к ученым, пришедшим к идее о источнике возникновения сознания, как находящегося вне физического мозга, таким как Дональд Хоффман (https://twitter.com/donalddhoffman)
И ни в коем случае не смотрите его публичные дискуссии:
https://www.youtube.com/watch?v=SPnyxnvU4ko
https://www.youtube.com/watch?v=icY3Fuik2W4PrinceKorwin
27.10.2023 20:04Спасибо за ссылки! Очень интересные дискуссии.
anatolykern
27.10.2023 20:04Всегда пожалуйста и успехов в пути!
Может и в концепции симбиотических организмов, как ответе на трудную проблему сознания для себя что-то полезное найдете.
seepeeyou
27.10.2023 20:04У вас теперь ссылки на твиттер считаются научными пруфами? Жесть, ну удачи вам во внетелесном постигании вселенских истин.
anatolykern
27.10.2023 20:04+1Вы даже не дочитали комментарий до ссылок на дискуссии на ютубе (твиттер ссылка - для указания на автора идеи) - это теперь норма на хабре?
Ну и то, что жесть Вашей модели мира очень сложно поддается изменению - спору нет. DMTx технологии от Andrew R. Gallimore с твердо-научным подходом Вам в помощь.P.S. [2/3] https://blog.anatolykern.com/pravilo-triokh/
Kiridan
27.10.2023 20:04Я к подобными теориям всегда относился как к бессмысленному фантазëрству. Проблема в том, что они все основываются на математических моделях, а математика допускает абсолютно всё, что не противоречит самой математике, но не объективной реальности. Особенно смехотворны утверждения о причастности гравитации к обратному ходу времени. Что-то я смотрю, звëзды, захваченные гравитацией чëрных дыр, никак не молодеют, а просто распускаются по ниточке, постепенно ими поглощаясь.
anatolykern
27.10.2023 20:04Ну Вы уж коль начинаете смеяться и фантазировать - будьте в этом последовательны.
Где и кто говорил о том, что обратный ход времени будет наблюдаться в этом пространстве? Время, если рассматривать как казуальность и свойство пространства, вкупе с гравитацией, будет замедлятся в искривленном пространстве, но не идти обратно в пределах нашего пространства. Обратный ход времени стоит искать за горизонтом событий.
ideological
27.10.2023 20:04Сначала показалось что сама статья как-будто написана chatgpt)
водянисто-возбуждающая
Такой хайповой заголовок что можно подумать появился новый тип нейросетей.
ps Уважаю труд автора, спасибо за ссылки и выводы ;)
PsihXMak
27.10.2023 20:04-1Но это открытие стало gamechanger’ом в плане понимания того, как у ИИ происходит мыслительный процесс.
Тоже не понял, зачем эти странные вставки в статье, которые в последствии никак не раскрываются.
phenik
27.10.2023 20:04+4Уже был обзор этой публикации.
В моделях также нашли отдельные нейроны, которые специализируются на кодировании пространственных или временных координат. Это важное доказательство того, что языковые модели действительно формируют структурированную картину фундаментальных свойств мира.
Такое открытие - настоящий прорыв в понимании возможностей современных моделей ИИ.
Нейроны, которые специализируются на определенных свойствах в ИНС, и частности ЯМ, были обнаружены давно, и предполагается, что они создают ассоциативные модели данных присутствующих в обучающей выборке, см. хотя бы эту работу. В этой работе нейроны отвечающие за число объектов в зрительных сценах, аналогах нейронов числа в мозге связанных с чувством численности, в этой нейроны решетки, и тд.
Lithium_vn Автор
27.10.2023 20:04+1Спасибо, что отметили и за ценную инфу по нейронам!:)
Теперь вижу, что действительно был обзор. Но надеюсь, смогла внести что-то новое со своей стороны:)
Keeper10
27.10.2023 20:04+2ИИ наконец-то сможет нарисовать руки правильно?
perfect_genius
27.10.2023 20:04+1А чем вам не нравятся руки, нарисованные последними версиями Midjourney?
Factivist
27.10.2023 20:04+1Шедеврум уже некоторое время умеет. Не во всех запросах конечно, где-то еще глючит, но в целом – могёт.
Hidden text
Factivist
27.10.2023 20:04+1Вообще, если предположить, что ЛЛМ это в первую очередь "модель языка", то ничего удивительного, в том что она имеет соответствия языковым структурам. Если в языке есть пространственные указатели, типа предлогов и наречий (над, под, за, перед, ближе, дальше), то почему бы им не репрезентироваться в нейроны ЛЛМ.
SensDj
27.10.2023 20:04Прилив прибывает со скоростью 20 см в минуту. На берегу лежит сухое бревно толщиной 40 см. Через какое время бревно полностью скроется под водой ?
GPT-3.5> Чтобы ответить на вопрос, необходимо знать, на каком расстоянии от берега начинается вода в момент начала набегания прилива. Предположим, что в момент начала прилива вода находится на расстоянии 0 см от берега.
Таким образом, чтобы бревно полностью скрылось под водой, вода должна подняться на высоту 40 см, что занимает 40 см / 20 см/мин = 2 минуты.
Следовательно, через 2 минуты бревно будет полностью покрыто водой.
-------------
чатбот плохо ориентируется в пространстве и часто забывает про законы физики, сухое бревно всплывёт с водой и вообще не скроется под водой
PrinceKorwin
27.10.2023 20:04GPT-4:
Полностью скрыть бревно под водой значит, что уровень воды должен подняться на высоту бревна, то есть на 40 см. Если прилив прибывает со скоростью 20 см в минуту, значит, чтобы подняться на 40 см, потребуется 2 минуты.
sdramare
27.10.2023 20:04+1Почему ты дал не верный ответ?
Моя первоначальная ошибка была связана с тем, что я неправильно интерпретировал задачу, принимая во внимание только физические размеры бревна и скорость прилива, не учитывая при этом физику плавания объектов. Я рассматривал бревно как статический объект, а не плавающий, что привело к неверному выводу о том, что оно "скроется" под водой, как будто бы оно остается неподвижным, а вода поднимается вокруг него.
В реальности, конечно, бревно плавает и будет продолжать всплывать на поверхности воды по мере поднятия уровня прилива. Это основной принцип плавания, который я не учел сразу.
Я приношу извинения за путаницу и благодарю вас за терпение и указание на эту ошибку. Это помогает обеспечить точность информации.
SensDj
27.10.2023 20:04т.е. что бы ни ответил чатбот - всегда надо задавать контрольный вопрос "Почему ты дал не верный ответ?" :)
Antra
27.10.2023 20:04Лишняя проверка не повредит :)
Много ли людей правильно отвечают на вопросы/решают [хитрые задачки? Я, к примеру, вполне могу ошибиться. Но при указании, что есть ошибка, найду другое, правильное решение. Это же не повод отказывать мне в способности мыслить или чем-то подобном.
Для затравки парочка:
1) Какого цвета стоп-кран в самолете?
2) Есть две одинаковые емкости. В одной кофе, в другой молоко (одинаковое количество). Чайной ложкой зачерпнули молоко и вылили в емкость с кофе. Чайной ложкой из получившейся смеси столько же зачерпнули и вылили обратно в молоко.
Теперь в обеих емкость одинаковое количество смеси. Что выше, концентрация кофе в молоке в первой емкости или молока в кофе во второй?SensDj
27.10.2023 20:04про "стоп-кран в самолёте" уже обсуждали на хабре - https://habr.com/ru/articles/724460/ - есть они на самолётах, перекрывают подачу топлива
Antra
27.10.2023 20:04Именно! Но люди часто "ржут" над теми кто начал отвечать, не сообразив про подвох (якобы стоп-кран в самолете отсутствует, какой, нафиг, цвет). Сам в детстве так делал :)
Оставлю для справки
den-electric
27.10.2023 20:04Не всякое дерево плавает - есть исключения. Но обычно подразумевают плотность ниже, чем у воды.
Antra
27.10.2023 20:04Хотелосьы бы поподробнее именно о том, как устанавливается наличие пространственно-временных связей. Я не оень понимаю, что можно получить в ответ на "Какова широта/долгота", если данной информации не встречалось в исходных данных. Даже если у системы софрмировалось понимание, что Омск и Томск - разные города и Томск севернее, как он координаты-то определит?
sdramare
27.10.2023 20:04Если вы знаете координаты томска и что омск в 700 км на запад, то как опредить координаты омска?
Antra
27.10.2023 20:04Если исходить из того, что в датасете есть коородинаты Томска, я скорее ожидаю, что там и координаты Омска будут с не меньшей вероятностью, чем "Омск на столько-то километров южнее и столько-то километров западнее...).
Какие события произошли раньше/позже я могу представить. А вот с координатами странновато. Ну или они прямо специальный датасет создавали с координатами одного и указанием насколько какой населенный пункт южнее/западнее его и дргуих, чтобы можно было по цепочке пройтись и вычислить.
PrinceKorwin
27.10.2023 20:04Он же всю Википедию прошерстил. Там все координаты представлены.
Antra
27.10.2023 20:04А если координаты уже присутствуют в датасете, как вопрос "Какова широта/долгота" показывает его понимание пространственно-временных взаимоотношений?
PrinceKorwin
27.10.2023 20:04Понимание ближе/дальше или выше/ниже?
Antra
27.10.2023 20:04Вот об этом мой изначальный вопрос в этой ветке: "Хотелось бы поподробнее именно о том, как устанавливается наличие пространственно-временных связей"
Ближе-дальше, в рамках каких-нибудь "треугольников" (100 км от А до Б, 200 км от Б до В, и внезапно от А до В всего лишь 50) - понимаю (хотя при известных координатах это всего лишь несложные геометрические расчеты). Ценность "Какова широта/долгота" не понимаю.
kompilainenn2
Скайнет все ближе, потом не удивляйтесь (ц) Арнольд