Как работает ваш мозг, когда вы говорите на иностранном языке? Сначала переводит внутри на родной или сразу понимает и формулирует фразы на иностранном? Скорее всего, каждый человек ответит на это по-своему, а ответ будет зависеть и от уровня владения языком, и от того, по какой методике вас этому языку учили, и от особенностей мышления и речи вообще. Тем интереснее понять, как с этим обстоят дела у больших языковых моделей. Их обучают преимущественно на английских текстах, но как-то невзначай они вдруг начинают неплохо говорить и на других языках. Да, похуже, чем на английском, но всё-таки вполне достойно. Так что закономерно, что на общей волне интереса к интерпретируемости AI возникает запрос разобраться с этой мультиязычностью моделей. 

Интуитивно (а вообще просто по аналогии с человеком) кажется, что раз модель обучалась на английском, то он должен быть ее “родным” языком. То есть когда мы спрашиваем GPT на русском, он внутри сначала переводит на английский, там же формулирует ответ, а затем переводит обратно на русский. Если это действительно верно, то это означает, что  у модели есть некоторый уклон не только к англоязычной грамматике и лексике, но отсюда и к соответствующим метафорам, логике, поведению. То есть, к менталитету англоязычного мира. А если это неверно? Тогда еще хуже — тогда совершенно непонятно, как модель достигает такого хорошего результата на таком скромном объеме обучающих данных. 

Команда из Федеральной политехнической школы Лозанны (EPFL) провела эксперимент, чтобы выяснить, как работает LLM, когда с ней говорят на разных языках. Авторы взяли модели семейства Llama-2. Их обучали на мультиязычных текстах, но подавляющее большинство (89,7%) было на английском. Сразу стоит упомянуть, что так как речь идет об огромном объеме обучающих данных, то даже небольшой процент - всё равно много.  Например 0,13% китайских токенов —  это на самом деле 2,6 миллиарда. Больше, чем самих китайцев.  

Чтобы интерпретировать скрытые состояния модели, авторы использовали методику Logit lens. Её принцип в том, чтобы превращать в токены не только конечные скрытые состояния последнего блока трансформера, а и промежуточные. По форме они все одинаковы, поэтому принципиальных ограничений к этому нет. Другими словами преждевременно достаем скрытые состояния и расшифровываем их. Если продолжать гипотезу, то эти нефинальные скрытые состояния должны содержать что-то  вроде родного языка модели. Чтобы избежать неоднозначности, авторы составили набор промптом с единственно верным ответом длинной в одно слово. Например, давали модели на вход пары слов на французском и китайском, а затем просили продолжить ряд правильным китайским словом:

Français: "vertu" - 中文: "德"

Français: "siège" - 中文: "座"

Français: "neige" - 中文: "雪"

Français: "montagne" - 中文: "山"

Français: "fleur" - 中文: "

На диаграмме ниже показаны выходные токены, полученные на разных слоях c помощью “логитоскопа” (logit lens). На выходе генерируется правильный иероглиф “花” (цветок), на начальных слоях — что-то бессвязное и не имеющее отношение к цветам ни на на каком языке, а на средних проявляется верное значение, но предпочтение отдается английскому языку. 

Этот и еще несколько тестов проводили на немецком, французском, китайском и русском. Что исследовать гипотетический опорный язык внутри Llama-2, авторы применяли logit lens к скрытым состояниям, соответствующим последнему входному токену на каждом слое. Получается распределение вероятностей для следующего токена, и так как речь об одном слове на одном языке, то оно будет равно распределению вероятности того или иного языка.

На графике — вероятности языка в зависимости от слоя (слева направо для моделей 7В, 13В и 70В). На первой половине слоев вероятность (правильного) китайского нулевая. Равно как и английского. Где-то посередине английский делает резкий скачок, а ближе к выходным слоям спадает, в это время китайский медленно растет, и только на последних нескольких слоях обходит английский и резко стремится к единице. Этот паттерн остается по существу одинаковым на моделях разной величины и для разных заданий. 

Теперь попробуем составить некоторое геометрическое представление, которое поможет нам понять пути трансформера. Если сильно упрощать, то задача трансформера отразить эмбеддинги входа на эмбеддинги выхода. Каждый слой изменяет внутренний вектор, полученный с предыдущих слоев. Геометрически это соответствует некоторой траектории в d-мерном евклидовом пространстве, (d — размерность эмбеддингов). Скрытые состояния живут в гиперсфере с радиусом в √ d. На этой сфере авторы и показывают траекторию перевода (на примере — из французского в китайский), введя дополнительно к вероятности еще “энергию” и энтропию. Энергия отражает какая часть скрытого состояния предсказывает следующий токен. В итоге траектория в недрах трансформера состоит из трех фаз:

  1. Высокая энтропия (14 бит), низкая энергия токенов и нет какого-либо доминирующего языка. На этой фазе, как полагают авторы, строятся подходящие представления входных токенов. Следующий токен модель пока не пробует предсказывать (об этом говорит низкая “энергия” — скрытые состояния ортогональны пространству выходных токенов). Отсюда и большая степень свободы.

  2. Низкая энтропия (1-2 бита), энергия всё еще низкая, но появляется доминирующий английский. Это своего рода область абстракций или концепций. Эмбеддинги становятся ближе к выходу и отражают общую идею — это могут быть разные языки и разные близкие значения. Английский варианты получают преимущество из-за однозначной доминации английского при обучении. Энергия на этом еще не такая большая, потому что скрытые состояния всё еще содержат информацию о входе больше, чем о выходе. 

  3. Энергия вырастает до 20-30%, энтропия остается низкой, китайский становится главным. На этом этапе абстрактные концепции соединяются с целевым языком. Та информация, которая не нужны для следующего токена, выбрасывается, то есть вся “энергия” направляется на генерацию ответа. 


Интерпретировать результаты можно по-разному. С одной стороны, где-то в недрах модели сначала действительно возникает правильный (или хотя бы близкий по смыслу) ответ на английском, и только потом на нужном языке. Можно трактовать это как то, что модель сначала переводит на родной английский. 

Но если пользоваться понятиями энергии и энтропии, которую используют авторы, то получается что сначала модель генерирует смысл, концепцию, абстрактную идею. Да, на английском, но только потому что английских слов у нее в запасе больше. То есть у LLM есть родной язык, но не английский, а язык концепций. Английский всё равно остается опорным для модели, но совершенно в другом смысле. 

Больше наших обзоров AI‑статей — на канале Pro AI.

Комментарии (23)


  1. avshkol
    11.08.2024 14:37
    +2

    Спасибо, только недавно, изучая ответы нескольких LLM на вопрос "напиши эссе о роли Кржижановского в энергетике" (для большинства LLM это сложный вопрос - масса галлюцинаций) задумался - она формулирует на английском и только потом переводит на русский или сразу пытается построить фразы на русском?

    Теперь становится примерно понятно, как это происходит...


  1. AlexSky
    11.08.2024 14:37
    +1

    Интересно, а что было бы на средних слоях, если бы модель учили на всех языках в равных долях?


  1. Flux
    11.08.2024 14:37
    +6

    Языковые модели ни на каком языке не думают, они вообще не думают. Называть мышлением построение условной вероятности для следующего токена это как называть рнн-ку искусственным интеллектом.
    А, погодите, так ведь и делают.


    1. AlexSky
      11.08.2024 14:37
      +6

      А где гарантия, что человеческое мышление не является похожим нанизыванием токенов на нить разворачивающейся мысли?


      1. avshkol
        11.08.2024 14:37
        +3

        Этот вопрос, думаю, станет философским вопросом десятилетия: человек, произнося фразу или обдумывая мысль, не отбирает ли наиболее вероятные токены в ответ на входные токены?

        А если человеческое мышление и самосознание - пусть очень большая и сложная, но все же - языковая модель? Иначе мы должны ввести некое ключевое "качество" человеческого мышления и создания, которого у LLM в принципе быть не может - и это не особое устройство "мокрой сети" (любое устройство сети и алгоритмы можно повторить и в "сухой сети"), это... душа?..

        Хм, пожертвовать атеизмом ради доказательства того, что LLM никогда к человеку не приблизятся?


        1. Flux
          11.08.2024 14:37

          Для этого совершенно не нужно жертвовать атеизмом, достаточно посмотреть как работает трансформер и понять что из-за фиксированного размера эмбеддинга LLM может "анализировать слово" с позиции фиксированного и ограниченного количества концептов, что разумеется совершенно не дотягивает до естественного интеллекта.


          1. AlexSky
            11.08.2024 14:37
            +2

            Мне кажется, что у людей тоже размер эмбеддинга ограничен, хоть и не так. Но вот что есть у людей, чего нет у нынешних нейросетое - рефлексия.


            1. Flux
              11.08.2024 14:37

              С людьми коренное отличие в том что эмбеддинг не фиксирован и подбирается под задачу для каждой смысловой единицы в процессе мышления. Причем человеку можно в самих данных определить новые концепты, мы вполне решаем задачи про сепулирующие сепулькарии если их смысл объяснён.


              1. AlexSky
                11.08.2024 14:37
                +1

                Среди мумбряков есть серые мумбряки. Также среди них есть белые мумбряки. Серые мумбряки ташерят бузду, а белые никогда.
                Мумбряки ташерят бузду. Какой вывод из этого можно сделать?

                Из этих утверждений можно сделать следующий вывод: если мумбряки ташерят бузду, и известно, что серые мумбряки ташерят бузду, а белые никогда, значит, мумбряки, которые ташерят бузду, являются серыми. Следовательно, все мумбряки, которые ташерят бузду, принадлежат к группе серых мумбряков.

                Что забавно, модель свалилась в ту же логическую ловушку, что и валятся люди, не привыкшие анализировать подобные задачи.

                Но каково?!! Модель справилась не хуже среднего человека с незнакомыми словами. Нет, это не просто подстановка следующих слов.


                1. Flux
                  11.08.2024 14:37

                  Это именно что подстановка следующих слов)

                  Ваша задача множество раз встречалась в обучающей выборке среди каких-то задач для дошкольников, с точностью до замены оригинальных слов на мумбряков ташерящих бузду. В данном случае модель построила вывод по "скелету" вокруг этих слов, и это совершенно не признак понимания.

                  Серьезно, потратьте неделю на то чтобы понять как работает трансформер и как обучается GPT, это очень интересно (но и очень разочаровывающие в контексте способностей LLM).


                1. Devastor87
                  11.08.2024 14:37

                  ChatGPT4o не справился и с 10 попыток, даже после моей подсказки о том, что единственный вывод, который можно сделать вообще не относится к серым мумбрякам...


        1. Wizard_of_light
          11.08.2024 14:37
          +1

          Скорее в итоге окажется, что человеческое мышление включает что-то LLM-подобное, но не ограничивается им. Хотя бы потому, что может обрабатывать информацию, не закодированную словами. Я бы предположил, что к человеческому мышлению с разных сторон приближаются системы генерации/описания изображений, языковые модели и игровые системы типа AlphaGo.


        1. AlexSky
          11.08.2024 14:37

          Кстати, вспомнил ещё одну штуку.

          Лет 20 назад мы с друзьями забавлялись тем, что весь вечер говорили верлибром. Это не так сложно, если приноровиться.

          Но вот тогда я чувствовал, как следующее слово вытекает из предыдущего,подчиняясь ритму. И что-то подобное я вижу в LLM.

          И не удержался, от того, чтобы попросить чатжпт сгенерить.

          Ну нет, это совсем не верлибр, но это прекрасно, как по мне.:

          You said:

          Напиши верлибром о хабре.

          ChatGPT said:

          На холме высоком, среди степей пустынных,
          лежит старый город,
          где камни говорят о времени,
          а улицы шепчут истории.

          Там рождаются мысли,
          как птицы в небе,
          летят над домами,
          проникая в сердца прохожих.

          Хабр — это слово на языке ветра,
          это мост между мирами,
          где идеи встречаются,
          переплетаются,
          и уходят, оставляя следы.

          Нет границ у стен его,
          нет замков на дверях,
          только тишина ночная
          и свет далекой звезды,
          которая ведет путников
          к новым горизонтам.

          Здесь каждый найдет свое место,
          каждый услышит свой зов,
          ведь хабр — это не просто город,
          это мысль, это жизнь,
          это дорога,
          ведущая в бесконечность.


      1. Greenback
        11.08.2024 14:37
        +2

        Чижик-пыжик, где ты ... фуникулёр.

        у меня что-то с весами.


      1. Flux
        11.08.2024 14:37

        Вы чрезвычайно упрощаете принимая признаки мышления за его суть.
        Из-за того что существует течение времени любое мышление хочется представить в виде линейного процесса из-за того что его результаты нередко появляются в виде последовательности слов, но таким образом слишком легко поддаться соблазну объявить всё мышление конечным автоматом, просто с невероятно большим вектором состояния.
        Человеческое мышление оперирует не просто тем какое слово вероятнее всего лучше продолжает мысль, оно совершенно точно имеет в своей основе модель мира, причем не фиксированную при обучении а обновляющуюся в рантайме (у LLM вообще никакой модели мира нет), причем модель мира не только физического но и логического, из-за чего способно применять абстракции (LLM в абстракции вообще не может).


        1. AlexSky
          11.08.2024 14:37
          +2

          Но ведь были же исследования, которые показывали, что у LLM и правда есть своя модель мира.

          Я тоже задавал глупые вопросы, типа, "что будет, если карандаш поставить на помидор" - и она отвечала, что "карандаш упадёт, если это не идеальный мир". С дальнейшим объяснением разницы между идеальным миром и реальным.


          1. yappari
            11.08.2024 14:37

            А в идеальном мире карандаш не упадёт? Или в идеальном мире по дефолту помидор имеет идеальную сферическую форму, а карандаш - идеальную цилиндрическую, и, также по дефолту, карандаши всегда ставятся на сферы так, чтобы их продольные оси совпадали с направлением вектора гравитации и при этом эти оси (или их продолжения, как будет угодно) проходили через центр сферо-помидоров? Многовато допущений, особенно, если учесть, что в исходном вопросе про идеальный мир ничего спрошено не было (да и вообще про мир). Есть устойчивое ощущение, что в ответ "вероятностно" затесался связанный осколок информации из обучающего датасета и чат "вероятностно" подлил воды. И у кого-то другого в ответе могло бы и не быть ничего про идеальные условия.


            1. AlexSky
              11.08.2024 14:37

              Ой, я это делал полгода назад. Точных формулировка не помню. Я там что-то дописывал про идеальный баланс.


        1. AlexSky
          11.08.2024 14:37

          Да, и ещё. Вероятностный ответ сильно отличается от конечного автомата.


      1. dmitrykalashnikoff
        11.08.2024 14:37

        Гарантии нет. Есть даже теория предиктивного кодирования (Predictive coding), которая примерно это же и утверждает.


  1. tetelevm
    11.08.2024 14:37

    Не может быть это связано с тем, что при обучении обратное распространение ошибки просто не добивает до первых слоёв, из-за чего там творится хаос внутренней абстракции, а на более верхние слои оно как раз добивает? А из-за того, что англотексов просто больше, чем китайских, то английские термины глубже опускается к другим слоям, чем китайские?


    1. VPryadchenko
      11.08.2024 14:37

      Не должно - там после каждого блока выход блока суммируется со входом, так что бэкпро доезжает.


  1. Anonimous2141
    11.08.2024 14:37

    Насчёт различия качества английских и не английских ответов, слышал такую идею: сначала генерировать предварительный ответ на английском, потом отправить этот ответ обратно той же модели с просьбой перевести на целевой язык. По идее в этом случае модель действительно будет "думать" на английском, что в теории должно увеличить качество выдачи. Но вроде так никто и не реализовал.