Как обычно, я не только сгенерировал перевод собственного стихотворения с помощью нейросети – но и проиллюстрировал его с помощью другой нейросети. Эти картинки сгенерированы нейросетью Midjourney
Как обычно, я не только сгенерировал перевод собственного стихотворения с помощью нейросети – но и проиллюстрировал его с помощью другой нейросети. Эти картинки сгенерированы нейросетью Midjourney

Ранее я уже писал здесь о языковой модели Déiwos-Lókwos GPT, способной общаться на праиндоевропейском языке, подсказывать слова из праиндоевропейского лексикона и переводить тексты (особенно стихи) на праиндоевропейский. Её создал один из пользователей соцсети Reddit. В прошлой заметке я делал реконструктивный эксперимент с переводом своего стихотворения на праиндоевропейский, "обкатывая модель".

В этот раз я решил эксперимент повторить, но дать модели более сложное стихотворение – тоже моего собственного сочинения, но содержащее более сложную лексику.

Вдоль железнодорожной ветки,
Заброшенной сто лет назад,
Бродил я в тёплый летний вечер
И взглядом провожал закат.

Давно уж шпалы развалились,
И рельсы были все в пыли.
И мысли в голове кружились
О быстротечности любви.

Вдруг чистый звук гудка манящий
В дали вечерней прозвучал:
То поезд светлый и блестящий
По брошенной дороге мчал!

Он шёл без грохота и звона,
Лишь лёгкий стук звучал под ним,
Как будто ржавый путь столетний
Был новым и бесстыковым.

Вот фары загорелись рядом,
Гудок зовуще протрубил:
Он шёл в тот город, где когда-то
Кого-то сильно я любил.

Свет в окнах рыжевато-тёплый,
Весенних чувств волшебный свет,
Оживший вновь в замёрзшем сердце,
Хотя прошло уж много лет.

Что ни окно – воспоминанье,
Как старый фильм, что смотришь вновь:
Как на причале мы болтали
О чём-то большем, чем любовь...

Мелькали окна, словно кадры,
О тех мечтах, что не сбылись,
И наши первые признанья
Вслед за вагонами неслись.

Вновь оживали наши встречи:
Увитая плющом скамья
И тот счастливый летний вечер,
Где ждал тебя с цветами я.

Душа любви мотивы пела,
Мечты мои вдаль поезд нёс,
Но я стоял, где пыль летела
И раздавался стук колёс.

Вселял тот стук мне в душу горечь:
Зачем я сердце обманул?
Зачем тем вечером осенним
Я ту девчонку оттолкнул?

Быть может, всё она простила?
Быть может, хочет быть со мной?
Ведь так она меня любила...
Эй, машинист! Постой, постой!

Как звал я тщетно Машиниста,
Как я рукой ему махал!
Но поезд не остановился,
И к ней с собой меня не взял...

Неслись последние вагоны
И оставляли в сердце боль.
Дразня гудком, волшебный поезд
Умчался голубой стрелой.

Огни, насмешливо мигая,
Пропали в сумрачной дали.
Я шёл по шпалам, размышляя
О быстротечности любви...

Стихотворение вроде как о любви. Но в нём очень много (для праиндоевропейского-то чат-бота!) технической лексики. Поезд, рельсы, шпалы, гудок, машинист, и даже бесстыковой путь. Посмотрим, как чат-бот справится с этим? Как он передаст сюжет на языке, в котором ещё не было поездов – но уже были любовь, дорога и прощание? И даже колёсный транспорт!

Материалы и методы

Мета-описание материалов и методов реконструктивного эксперимента частично сгенерировано самим чат-ботом, отредактировано и дополнено мной.

Морфологические формы соответствуют поздне-брегмановскому типу PIE (VIII–VII тыс. до н. э.), с включением тематических и корневых форм, аблаута и акцентной логики. Слова и формы опираются на стандартную реконструкцию LIV, Fortson (2010), Ringe (2017), Dnghu PIE Lexicon.

Аблаут и ларингальная фонетика применены строго: eh₂ → ā, h₁e → e, h₃e → o. О том, как читать ларингалы, можно прочитать в заметке проекта Koryos. Если вкратце: h₁ — гортанная смычка, h₂ — примерно как английское h в слове home, h₃ — примерно как украинское фрикативное Г, только губы сблизить в положение для звука У. Подробнее о ларингалах и истории их реконструкции напишу в одной из следующих заметок.

Вместо прямой рифмы (которой семь тысяч лет назад ещё не было) использованы параллелизмы, повторы и аллитерации, соответствующие поэтике ранней индоевропейской традиции. Метр: трёхударная ритмика (epic trimeter), аналог гимнов Ригведы или формул авестийского типа.

Часть 1, в которой железо становится камнем крови

Хорошей новостью оказалось то, что бот способен общаться не только на английском, но и на русском. Поэтому все промпты ему давались на русском – в отличие от предыдущей заметки.

Получив от меня запрос, бот решил согласовать со мной лексические замены для технических терминов:

Выбрать культурно и поэтически совместимые эквиваленты для технических реалий (поезд, рельсы, гудок, т. д.). В PIE таких слов нет, но можно заменить их метафорами:

‹железная дорога› → “путь из блестящего камня”, h₂éyos-h₁óntih₁os h₂wéǵhos.
— поезд →
“сияющая колесница богов”, h₂éyos kʷékʷlom déiwom.
гудок → “голос трубы / зов воздуха”, h₁wéh₁ntos h₂éwis.

Но мне на этот раз захотелось большего антропологического реализма:

Слушай, идеи классные! Но всё-таки меня хотелось бы, чтобы боги не упоминались вообще. Поезд-призрак должен относиться к нашему, людскому миру, она как бы образ того поезда, на котором мог бы поехать герой, если бы не натворил глупостей много лет назад. Причём тут боги? Давай для "поезда" подберём другой аналог, без теологических ассоциаций? Можешь взять из проекта "Современный индоевропейский" от Dnghu Association — у них это douknom. Также насчёт железнодорожного пути... я могу согласиться с передачей металла как "блестящего камня", но что насчёт когната английского iron, то есть сравнения железа с кровью? Может, пусть лучше железо будет "камнем крови" или "кровяным камнем" – как напоминание, что именно этот химический элемент важен для синтеза гемоглобина? И тогда "железная дорога" получится без проблем. По остальным идеям вопросов нет – давай, жги!)

Я уже в прошлой заметке вскользь упоминал проект "Современный индоевропейский", который является ценным источником неологизмов для ПИЕ. Проблема в том, что основная активность проекта пришлась на 2000-е и ранние 2010-е годы, после чего новых книг не выпускалось – но имеющиеся наработки доступны на сайте indo-european.info. Слово douknom для обозначения "поезда" появляется в самом раннем издании – "Грамматике современного индоевропейского" 2006 года. Этимология его прозрачная – это почти полная когнатная калька немецкого Zug — поезд. Zug образован от глагола ziehen – тянуть, а тот, в свою очередь, восходит к праиндоевропейскому корню *deuk- – вести. Douknom образован от *deuk- так же, как Zug от ziehen. Так что этот неологизм выглядит в тексте абсолютно естественным.

Что касается "железа", то тут, как говорится, сам Бог велел – английское iron через кельтские языки восходит к праиндоевропейскому корню со значением крови. Про гемоглобин прото-кельты не знали, конечно, но назвали так металл за цвет его оксидов. Ну, а у нас есть дополнительная причина назвать железо "камнем крови" или "кровяным камнем" за его центральную роль в синтезе гемоглобина. Похожий подход – основанный на поэтических метафорах – используется проектом ENABLE для создания биологических терминов в языке навахо. Например, ДНК обозначается как "нити жизни", а бактерии – как "жуки, которых нельзя увидеть".

Но "камень крови" сразу придал стихотворению дополнительный поэтический оттенок: кровь могла мыслиться праиндоевропейцами как символ жизни, скорби и памяти. "Дорога из кровяного камня" становится многозначным термином – это и железная дорога, и своеобразная аллегория тяжёлых размышлений. Поэтому в подстрочном переводе ниже я привожу "камень крови" именно в таком виде, не заменяя его на "железо".

Чат-бот перевёл "камень крови" как h₁ésh₂r̥ ḱr̥wéh₁yos, что даёт дополнительную преемственность с современными индоевропейскими языками: ведь h₁ésh₂r̥ – это когнат английского iron. Так что оба неологизма вполне естественны.

Сгенерированный ботом перевод дан в виде таблицы с подстрочным переводом (скорректированным мной, в некоторых местах не дословным из-за особенностей праиндоевропейской лирики и генерации бота). Выделены некоторые особенно примечательные моменты, которые мы обсудим в следующих разделах.

h₂pótis h₁ésh₂r̥ ḱr̥wéh₁yos h₂wéǵhos

вдоль пути из кровяного камня

h₁u̯étrom h₁déḱm̥ h₁ǵʰm̥tóm bʰrudʰéi

забытого сотню лет назад

h₁éǵʰom wékwom dhégʷʰei h₂u̯ésr̥i

я бродил один летним вечером

h₂u̯eidm̥s h₂ewsóm h₁h₁r̥dʰom h₁eǵʰmóm

взглядом из сердца провожал солнце

h₂u̯édʰr̥ h₁n̥dʰréh₁os déǵʰom

деревяшки валялись на земле

h₁ésh₂r̥ ḱr̥wéh₁yos peh₂tós dʰwérti

кровяные камни лежали в пыли

h₁méh₁ti méns gʷʰéronti wéǵhonti

мои мысли кружились

h₂eḱom l̥bʰú-téh₁s h₁léwbhis

о быстропроходящей любви

h₁su̯ékos h₁u̯énos ḱléus dʰéh₁eti

чистый звук голос делает (=звучит)

h₁wéǵʰos wédʰeti h₂ewsónti

далеко в вечере

douknom lékʷs dhéh₁eti bhéronti

поезд сияющий движется

h₁ésh₂r̥ ḱr̥wéh₁yos h₂wéǵhom wéǵhonti

он шёл по пути из кровяного камня

n̥bʰr̥tós h₁su̯énes, n̥kʷétos

без шума, без звука

lékʷs stúkʷos déh₁eti sóm

лёгкий стук делает под ним

h₁ésh₂r̥ h₂wéǵhos ḱléus n̥wósm̥

путь из кровяного камня казался новым

h₂u̯éǵʰetom n̥déyom

казался неразрывным

h₁éus ḱléus kʷékʷlos h₁ésti

свет-звон колёс есть

h₁su̯ékos ḱléus dhéh₁eti

чистый звук делает (=звучит)

douknom gʷʰéronti sóm gʷʰéronti

поезд движущийся туда движущийся

tois h₁léwbhom h₁émi bʰútem

где я был влюблён (=where I was in love)

h₁u̯éydh₁is l̥h₁tós h₂ewsónt

в окнах свет вечерний

h₂u̯ésr̥i kʷékʷlos h₁léwbhis

весенний [свет] кругов (колёс) любви

h₁rudʰrós sū́h₁nom menóghom

рыжеватое дыхание ожившее

h₂u̯értom h₂u̯értom h₁u̯étrom

вращение вращение прошло

h₂u̯édh₁om ḱléwom, wéydh₁om kʷékʷlom

слышимое – дерево, видимое – колесо

h₂u̯édh₁om pr̥sóm, n̥wéydh₁om h₁léwbhom

старое видение, смотришь любовь

h₂u̯édh₁om dʰeǵʰom, h₂u̯édh₁om méms

в той земле, где мы были

h₂u̯édh₁om kʷékʷlom, h₂u̯édh₁om h₁léwbhom

в том круге, в той любви

mélǵʰonti h₁u̯édh₁om kʷékʷlos

колёса стучат по дереву

h₁méms h₁su̯ésonti n̥sónt

наши мечты несбывшиеся

h₁méms pr̥kʷtís h₁léwbhis

наши признания в любви (= мольбы любви)

déms h₂u̯ogʷhóms neḱʷonti

вслед за вагонами неслись

n̥wéydh₁onti h₁léwbhis métis

видения любви оживали

h₂u̯ésr̥i plúth₂yos stólos déms h₁ésti

весенний плющ за скамьёй есть

tois h₂u̯ésr̥i h₁éwsōs méh₁ti

тот летний закат мой

h₂u̯édʰr̥ h₁u̯éydh₁om h₁émi péh₂us

где в сердце моём проносилось стадо чувств

dʰuǵʰéh₁ sū́h₁nom h₁léwbhis gʷʰérti

душа песнь любви несёт

méms swepós douknom bhéreti

мечты мои поезд несёт

h₁éǵʰom stómos h₁u̯ésr̥i phérti

уста движения несут меня в весну

stúkʷos h₁u̯édʰeti kʷékʷlos

звучит стук колёс

stúkʷos menóm h₁h₁r̥dʰom ghérti

стук моё сердце жжёт

kʷid h₁méh₁ti ḱr̥d-m̥n̥ gʰébhont?

как я сам сердце обманул?

kʷid h₁méh₁ti h₂eǵʰsónt h₂utn̥óm

как я сам осенним вечером

dʰugh₂térm̥ h₁léwbhom déḱm̥ h₁ugh₁óm?

оттолкнул любимую девчонку?

bʰeudʰéi ne h₁méh₁ti pr̥stí?

может ли быть, [что она] меня простила?

bʰeudʰéi gʷʰérti tois h₁émi?

может ли быть, [что она] хочет быть со мной?

tois h₁léwbhis bʰuH-méh₁ti gʷʰérti

та, любовью бывшая моей желанной

éi mōsénist! pstói! pstói!

эй, машинист! постой, постой!

ḱléus méh₁ti ne h₁su̯éket

зов мой не слышит

méh₁ti r̥k-méh₁ti h₁ugh₁éi

я рукой махал

douknom ne stémh₁et, ne bʰerét méh₁

поезд не остановился, не взял меня

ne bhért méh₁ tois h₁léwbhom

не понёс меня к той любви

douknoi h₁éwn̥s déms bʰólti

[вагоны] поезда последние сзади бежали

h₁h₁r̥dʰom bʰólti bʰólos

бежали болью в сердце

ḱléus móh₁ghos mnéh₁ti douknom

поезд, манящий зовом звука

h₁lékʷʰeti h₂éḱr̥ h₁h₁r̥dʰos

летел стрелой из сердца

h₁lékʷos bʰréntoi méghos

горели большие огни

n̥bhéronti h₂ewsónt dhgʷʰét

ушли в вечернюю тень

h₁éǵʰom déms h₁ésh₂r̥ ḱr̥wéh₁yos h₂wéǵhōs

я [идя] вдоль пути из кровяного камня

méh₁ti h₁léwbhis l̥bʰú-téh₁s

[размышлял] о скоропроходящей любви

Часть 2, в которой чат-бот начинает нести ерунду

Внимательный читатель уже заметил, что в некоторых местах нейросеть галлюцинирует напропалую. Самая яркая галлюцинация – это строчка

éi mōsénist! pstói! pstói!

Чат-бот привёл к ней лингвокомментарий при генерации. По его мнению, mōsénist – это неоиндоевропейское слово из проекта Dnghu, сложенное из корня mōs- «вести» и суффикса с окончанием -énist- «тот, кто делает». Только вот такого корня со значением "вести" в праиндоевропейском не реконструируется – и в изданиях Dnghu Association его тоже нет. Невозможна в праиндоевропейском и морфема -énist- «тот, кто делает» – её просто не было. Чаще всего деятель обозначался суффиксом *-tor, оставившим обильные следы и когнаты в современных индоевропейских языках (предлагаю найти их самим).

На мой прямой вопрос бот признал, что это была галлюцинация, и предложил более научно обоснованный перевод h₁eǵtṓr douknómos – буквально "водитель поезда", аналог английского train driver. Корень h₁eǵ-, использованный здесь чат-ботом, звучит в наши дни в таких эллинизмах, как "стратег" (ведущий войско) и "педагог" (ведущий ребёнка).

Только вот тут бот опять ошибся: он неправильно образовал форму родительного падежа от douknom. Это существительное среднего рода с окончанием -om, в латинском языке ему соответствует -um. И любой читатель, помнящий латинский язык, знает, что в таком случае окончание родительного падежа не "приклеивается" к окончанию именительного, а заменяет его. Так было и в праиндоевропейском – ведь он, как русский и латынь, был флективным языком. А бот повёл себя так, словно праиндоевропейский был агглютинативным – как венгерский или турецкий. Но не всегда – в 14-ом четверостишии мы находим форму того же родительного падежа, переданную как douknoi. Это уже флективная морфология – но правильно ли тут нейросеть поставила окончание?

Это возможно только в том случае, если -no- трактовать как суффикс, и -o- считать его частью. Такой суффикс с причастным значением в праиндоевропейском был, но вот было ли окончание -i в родительном падеже единственного числа? В "Грамматике современного индоевропейского", где впервые встречается слово douknom, такое окончание допускается "под вопросом" – потому что оно не реконструируется надёжно. Оно присутствует только в латинском языке (но не в других италийских) и в кельтских языках (по данным И.М. Тронского). Его включение в "Грамматику современного индоевропейского" можно счесть скорее намеренной латинизацией – в расчёте на то, что большинство энтузиастов возрождения праиндоевропейского будут знакомы с латынью. Но наиболее достоверным реконструкциями представляются -os или -osyo. Одно из этих окончаний нейросеть и употребила в своей работе над ошибками – но по ошибке применила агглютинацию вместо флексии. Такой паттерн ошибки важно отметить – объяснение будет ниже.

Призыв pstói!, как читатели могли догадаться, тоже галлюцинация – в праиндоевропейском не было приставки p-. (Приставок вообще толком не было, по некоторым данным). Правильным призывом было бы банальное "sta!" (стой!). Именно в таком виде оно по сей день присутствует в латыни. Этот пример указывает критическую особенность языковых моделей, делающую их уязвимыми для ошибок: неспособность правильно делить слово на морфемы. Именно с этим связана "ложная агглютинация" вместо флексии в слове douknomos. Для задач реконструкции праязыкового состояния морфемика как никогда важна – и именно в этом генеративные модели "проваливаются". Ниже я покажу другие примеры таких ошибок и постараюсь разобрать механизм их возникновения.

Конечно, ещё одним фактором могло послужить использование неологизмов в промпте и непривычный для бота язык (русский). Его "родным" языком является английский – и на самом деле его ответы представляли дикую мешанину русского и английского. Вы её не видите только потому, что я её подкорректировал. Конечно, возможность задать боту перевод стихотворения напрямую с русского (а не с английского подстрочника, как в прошлом эксперименте) цена. Но русский у него – так себе...

Часть 3, в которой становится возможным объясниться девчонке в любви

А что с лексическим составом реконструкции? Многие слова выглядят смутно знакомыми для тех, кто говорит на индоевропейских языках сейчас. В слове h₁h₁r̥dʰom большинство читателей без проблем узнают эллинизм "кардиология" и английское heart (да и русское "сердце" оттуда же). Слово lékʷs (сияющий, светлый) звучит в греческом медицинском терминоэлементе "лейко-", ныне означающем "белый" (его можно услышать в словах "лейкоцит", "лейкоэнцефалопатия"). Для меня как биолога с медицинским образованием странно видеть этот узнаваемый корень в таком неопределённом качестве – но эта реконструкция, по-видимому, достоверна.

В предыдущей заметке по сходному реконструктивному эксперименту я затрагивал проблему цветообозначений в праиндоевропейском языке и упоминал, что цветовая "палитра" языка была очень скудной – а те слова, которые мы используем для обозначения чёрного, белого и синего, означали просто "тёмный" или "светлый". В переводе стихотворения есть лишь одно слово, которой можно однозначно связать с цветом – это h₁rudʰrós – красный, рыжий. В наши дни его можно услышать в греческом медицинском термине "эритроцит".

В нынешнем переводе наконец появляется долгожданное h₁léwbhis "любовь". Это то слово, отсутствию которого я удивлялся в прошлой заметке. Оказалось, что его отсутствие связано с ошибкой нейросети – возможно, лишь по причине нераспознавания когната в сильно изменившемся английском love. Напомню, что промпты для предыдущей реконструкции писались на английском.

Также бот опять употребил для "девчонки" слово, когнаты которого в современных индоевропейских языках обозначают "дочь". В этот раз я задал ему вопрос – и выяснил, что у него просто нет более подходящего слова в базе, он предложил лишь заменить "девчонку" на "женщину" или "возлюбленную", если не нравится.

"Абсолютно справедливое замечание — и ты совершенно прав. ?
Использовать dʰugh₂tḗr- («дочь») в значении «девушка» — это
поэтическая вольность, но не совсем точная семантически. В эпических языках дочерние слова часто употреблялись для обращения к женщинам (греч. thygátēr, санскр. duhitā́ в обобщённом смысле «молодая женщина», «девушка»), но в лирическом контексте любви это может звучать неуместно, особенно если связь интимная, а не родственная".

Таким образом, частично снялись многие вопросы к лексике, изложенные в прошлой заметке

Ещё одно слово, требующее комментария – это kʷékʷlos, которое в праиндоевропейском обозначало "колесо". В праиндоевропейском его этимология прозрачна – это редупликация корня kʷel- — "вращаться". То есть "колесо" в праиндоевропейском буквально называлось "вращателем", что указывает на то, что колёсами праиндоевропейцы обзавелись уже в период существования праиндоевропейского, как мы его знаем. Их предки – о которых нам ничего не известно – по всей видимости, были бесколёсными. Подробнее о взаимоотношениях праиндоевропейцев с колёсами можно прочитать в книге Дэвида Энтони "Лошадь, колесо и язык".

В древнегреческом языке kʷékʷlos превратилось в κυκλος — которое стало обозначать просто "круг" или "окружность". Оно дало хорошо известное нам слово "цикл". Именно в этом переносном значении его и использует нейросеть в тех случаях, когда нужно передать значение цикличности – в частности, в выражении "круги любви". Здесь можно заметить и параллелизм с движением поезда – такие повторы и параллели в праиндоевропейском переводе встречаются чаще, чем мы привыкли видеть в русском. Достаточно взглянуть на подстрочник.

Из упомянутой в стихотворении технической лексики в праиндоевропейском были не только колёса, но, как ни странно, вагоны тоже! Это слово – праиндоевропейского происхождения и пришло к нам через германские языки. Конечно, в праиндоевропейском оно означало просто "повозка", но это не помешало нейросети назвать вагоны своим именем (h₂u̯ogʷhóms).

В общем, с технической терминологией нейросеть худо-бедно справилась. Но и обычная лексика в некоторых случаях оказалась для неё своеобразным стресс-тестом, который ещё чётче показывает её слабые места. Подробнее – в следующем разделе!

Часть 4, в которой признание в любви становится молитвой

Отдельного разбора заслуживает часто встречающийся в переводе корень prek-, который звучит в русских словах "просьба" или "вопрос" (а также в немецком fragen). Ц него целых три значения:

  • спрашивать

  • просить

  • молиться (богу)

Соответственно, образованное от него отглагольное существительное pr̥kʷtís может означать:

  • вопрос

  • просьбу

  • молитву

И является очень многозначным.

Особенно красивым оказывается выражение pr̥kʷtís h₁léwbhis, употреблённое ботом вместо русского слова "признание" (в любви). Буквально вместо "наши первые признанья" получилась многозначная конструкция: и "наши признания в любви" и "наши молитвы любви". Это сильно украшает семантику стихотворения и даёт отсылку к следующему фрагменту – где герой уже один взывает в пустоту, и его pr̥kʷtís h₁léwbhis услышать уже некому. Отсутствие богов в этом тексте лишь дополняет ощущение безнадёжности и богоостановленности. Словосочетание pr̥kʷtís h₁léwbhis могло бы стать заголовком праиндоевропейской версии этого стихотворения, как h₂éwn̥s gʷih₃wéh₁m̥ ("Дождь души") стало заголовком для предыдущего перевода. Напомню, что в русском оригинале у обоих стихотворений заголовков нет – они называются по первой строчке.

Но давайте обратим внимание на первую строчку одного из конечных четверостиший стихотворения:

bʰeudʰéi ne h₁méh₁ti pr̥stí?

Быть может, всё она простила?

Что, простите? Откуда здесь pr̥stí странная форма, невозможная в праиндоевропейском? Очевидно, что очередная галлюцинация нейросети, вызванная смешением русских глаголов "просить" и "простить". Как я и говорил раньше – бот не делит слово на морфемы, поэтому путает два глагола и пытается тоже использовать здесь корень *prek- – но неуклюже.

Конечно, бот не так далёк от истины – в литовском языке, морфологически ближайшем к праиндоевропейскому, этот корень используется в формуле извинения. "Извините" по-литовски atsiprašau – то есть буквально "отпрашиваюсь". Я указал боту на это и рекомендовал придумать новую фразу с правильной перфектной формой и этим корнем. Он придумал новый перевод:

*kʷid bʰuHét? pe-pr̥k-é h₁mé-kʷe?

Но интересно, как он при этом разложил слово atsiprašau на морфемы. Он разложил его как atsi-prašau "от себя - прошу". На самом деле -si- – это просто возвратная морфема, полный когнат русского суффикса -ся. Налицо очередной случай неспособности бота провести правильный морфемный анализ. Это привело к тому, что вышеуказанную фразу он смог написать только после серии наводящих вопросов. Но сейчас важно другое: почему у нейросети всё так плохо с морфемным анализом?

Часть 5, в которой я объясняю, как работают нейросети

В качестве бонусной части я попросил бота реконструировать когнаты слова douknom в древних и современных индоевропейских языках, если бы оно реально существовало и сохранилось в языках-потомках.

Задачу бот выполнил неплохо. Обратите внимание, насколько похожа реконструкция для немецкого на реально существующее слово Zug. С английским погрешность реконструкции больше: реальный английский когнат — tug (буксир).

Язык

Реконструированный гипотетический когнат от *douknóm

Латинский

dūcnum

Древнегреческий

δούκνον

Английский

toun / toan

Немецкий

Zugne / Zuhne

Русский

дукно

Литовский

dauknas / duoknas

Но здесь нейросеть тоже попробовала разложить слово dounkom на морфемы. Лучше бы она это не делала... Точнее, не так, спасибо ей – она показала принцип своей работы. В общем, смотрите картинку и наслаждайтесь.

Чат-бот разложил слово douknom как dou-knom
Чат-бот разложил слово douknom как dou-knom

Нейросеть невольно показала нам, как она токенизирует слова: она разложила слово douknom как dou-knom, хотя правильный морфемный разбор выглядит как douk-no-m или douk-n-om. Особенно пикантно, что она ссылается на корень *deuk- – и всё равно не может провести его правильную границу в слове.

В задаче на когнаты этой ей не особо помешало: для этого модели надо "знать" только звуковые соответствия, а они не так сильно зависят от границ морфем. Но в других случаях, как в примерах выше, это приводит к существенным ошибкам.

Неспособность провести границы морфем связана с тем, что языковые модели GPT вообще понятия не имеют о морфемной структуре слова. Вопреки страшным рассказам про "сильный" ИИ, он пока не создан, и сознанием не обладает. Поэтому понимать слова, как человек, он не может. Под "капотом" больших языковых моделей – статистический подход. Модель делит слова не на смысловые части (смысл ей недоступен), а на статистически частые сегменты. А их границы могут не совпадать с границами морфем. Собственно и алгоритм генерации основан на статистике: модель подставляет тот сегмент, который статистически чаще появляется после заданного предыдущего. Причём ещё и не особо делает различия между русским, английским и праиндоевропейским.

В общем, на морфемике модель "прокалывается" полностью. Такой вот, если угодно, праиндоевропейский тест Тьюринга.

Заключение, в котором я объясняю, почему языковые модели праиндоевропейского всё-таки нужны

Неспособность "видеть" границы морфем накладывает серьёзные ограничения на использование больших языковых моделей GPT в собственно реконструктивных задачах. Но модели, способные генерировать праиндоевропейские тексты, важны для другого.

В этом эксперименте, как и в предыдущем, модель относительно достоверно передаёт поэтику и стилистику праиндоевропейского языка, позволяя нам увидеть, как бы выглядели привычные нам тексты в праиндоевропейской "обёртке". Это можно было представить и раньше (Шлейхер написал свою знаменитую басню, когда никакого генеративного ИИ и в проекции не было), однако с генеративным ИИ способность демонстрировать большие тексты на праиндоевропейском вырастет в разы. Как и в предыдущем эксперименте, каждый раз читатели будут шокированы скукотой и однообразием стихотворений – то есть почти полным отсутствие в них рекурсии. А почему это важно-то?

Уже более полувека позиции не сдаёт широко популяризированная теория "универсальный грамматики" Ноама Хомского, которая постулирует наличие в мозге человека врождённых грамматических структур и универсалий. В частности, как предполагал Хомский, ключевой врождённой грамматической особенностью является рекурсия – способ формирования высказываний, где одна структура вкладывается в другую (как в сложноподчинённых предложениях).

Изучая язык пирахан в лесах Амазонии, учёный Дэниэл Эверетт показал, что рекурсия для языка вовсе не обязательна, и пирахан прекрасно без неё обходятся. Но сторонники Хомского не сдавали своих позиций – пример лишь одного языка, да ещё малоизученного, их не убедил.

Но постепенно стали накапливаться другие данные. Сын Дэниэла Эверетта – Калеб Эверетт – в своей книге "Мириады языков" цитирует другие исследования, которые подтверждают отсутствие рекурсии в языках коренных народов, не имеющих письменности и ведущих традиционный образ жизни. Всё больше свидетельств в пользу того, что рекурсия – это удел языков, используемых в цивилизованных обществах со сложным общественным и государственным устройством.

Но и в них это относительно молодое явление. В уже цитировавшейся мной книге Гая Дойчера "Сквозь зеркало языка" приводятся примеры шумерских и хеттских текстов, которые тоже напрочь лишены рекурсии. В них предложения просто идут одно за другим. Хеттский, кстати – один из самых рано ответвившихся индоевропейских языков.

Такая же структура реконструируется для праиндоевропейского – по древнейшим текстам на его языках-потомках. Так что оказывается, что стоит отмотать историю английского языка – на котором говорит профессор Хомский – на 7000 лет назад, как и в его предке рекурсии не окажется. Сомневаюсь, что она вообще в те времена была хоть где-то. Хотя 7000 лет назад, судя по реконструкциям и письменным текстам, люди говорили уже на вполне оформленных языках. В общем, от универсальности рекурсии остаётся смачный пшик.

Тем не менее, моя практика чтения и рецензирования научных статей показывают, что на теорию Хомского продолжают ссылаться как на чуть ли не общеизвестный факт, на консенсусную точку зрения. Может быть, потому, что литература на стыке лингвистики и других наук традиционно остаётся вне поля зрения многих исследователей-гуманитариев. Даже научно-популярная.

Праиндоевропейские чат-боты делают отсутствие рекурсии в праиндоевропейском языке более видимым. А перевод на него современных текстов с помощью нейросети показывает, как за 7000 лет менялась сама логика языка, а не только слова. Это важно хотя бы для научной коммуникации – а я убеждён, что она и есть двигатель современной науки.

Есть и другое применение таким моделям. Возрождать праиндоевропейский придёт в голову разве что энтузиастам от искусственных языков. Но есть и другие языки, которые мы скоро можем потерять – и которые захотим сохранить хоть как-то.

На 2017 год только в одной России насчитывалось 360 исчезающих языков – а по всему миру их могут быть тысячи. И если праиндоевропейский "живёт" в своих нынешних потомках, и мы всегда можем реконструировать его, то многие языки относятся к малоизученным языковым семьям. Их потеря – потеря незаменимых данных о том, как функционирует язык вообще.

Не всегда удаётся сохранить непрерывность существования языка путём его популяризации, а обязательность изучения тем более может сделать только хуже. Не так давно издание "Мел" давало юридическую консультацию, как отказаться от изучения вепсского – такой запрос вполне себе возникает у жителей одного из районов Карелии. Вепсский там входит в школьную программу, но часть родителей старается отказаться от него или заменить на другой предмет, так как в семье нет его носителей, и ребёнок не поговорит на вепсском даже со своей бабушкой. В соцсетях публикация "Мела" и нежелание изучать вепсский вызвали бурю негодования – но сложно упрекать людей в желании учить только то, что важно лично для них.

Фиксация вымирающих языков и создание для них чат-ботов на базе GPT может быть реальным выходом из ситуации. Язык останется квази-живым, и любой сможет составить о нём представление в любой момент, даже когда умрёт его последний носитель. Как я сейчас постарался составить для вас представление о праиндоевропейском.

И ещё – желаю всем, чтобы ваши молитвы любви достигали любимых людей. Ну и опционально – высших сил, если вы в них верите.

P.S. Уже после выхода моей предыдущей заметки с приятным удивлением нашёл на Хабре пост от коллеги, где также анализировалась способность ChatGPT (на этот раз – обычного) "говорить" на праязыках. Рад, что эта тема оказалась настолько популярна на этом портале – надеюсь, что так будет и дальше!

Комментарии (1)


  1. vybo
    23.11.2025 22:57

    Что-то вспомнилось, как один школотрон нанёс серьёзный ущерб сохранности шотландского языка, со скуки сочиняя в тамошнюю вики килотонны статей на некой наивной имитации шотландского, и за долгое время не нашлось никого достаточно компетентного в нём, чтобы суметь заподозрить подвох, а не принимать эти поделки за полноценные образцы современного текста на шотландском. Теперь у нас на любом в том числе и тысячи лет как мертвом языке есть доступные любому собеседнику в любое время "носители", которым множество людей склонно доверять как оракулам и чуть ли не превосходящему их самих "интеллекту", а те их и научат такой вот галюциногенной "живой традиции" про pstói mōsénist n̥esḱrpité ḱlésom и труды множества поколений учёных и энтузиастов по возрождению языка в значительной степени пойдут насмарку