Задача озвучивания орхоно-енисейских рунических надписей / forpes.ru

Главная
Задача озвучивания орхоно-енисейских рунических надписей

Задача озвучивания орхоно-енисейских рунических надписей +2

26.04.2026 05:15

borodinasty 0 2500 Источник

Памятники орхоно-енисейской письменности представляют собой древнейшие известные источники, фиксирующие тюркоязычную речь. Их научное значение первостепенно, так как они принадлежат средневековым обществам, сообщения о которых в иных письменных документах крайне скудны или полностью отсутствуют. Это не просто разрозненные артефакты, а сложные системы государственной письменности, где каждый алфавит являлся культурно-политическим признаком конкретного государственного образования.

Они по праву считаются летописями, поскольку относятся к эпохе становления и развития раннесредневековых феодальных государств и объединяют огромные пространства Европы и Азии. Каменные стелы использовались как официальное письмо в каганатах, содержат важные исторические и филологические сведения и отражают широкий спектр жанров — от эпитафий до религиозных текстов. Несмотря на то, что большинство надписей сохранилось на камне, сама письменная традиция была значительно шире и свидетельствует о развитой культуре письма.

Знакомство с этими памятниками обычного человека затруднено: не все руны легко различить на каменной поверхности, испещренной трещинами, и сами достопримечательности разбросаны по центральной Азии. Если даже и знать перевод надписи с памятника, то это взаимодействие все равно не будет достаточно интерактивным. Намного интереснее услышать, как звучали эти тексты на забытом языке. Автоматически восстановить звучание древнетюркских надписей становится возможным благодаря моделям распознавания рун. Идентифицируя каждую руну в надписи, реально озвучить весь текст. Подробнее про модели компьютерного зрения можно прочитать в предыдущей статье: https://habr.com/ru/companies/fa/articles/907950/

Восстановление звучания древних языков — это сложный процесс. В случае с древнетюркским задача осложняется как особенностями самой письменности, так и спецификой лингвистической реконструкции. Древнетюркские руны часто называют «ребусовидными», так как гласные звуки в них нередко опускались. Например, буква «а» по правилам писалась только в конце слов, а в начале и середине — пропускалась. Читателю приходилось буквально угадывать пропущенные звуки, опираясь на смысл фразы и контекст. Кроме того, долгое время считалось, что существовала единая «орхоно-енисейская» письменность, но исследования выявили множество самостоятельных алфавитов (енисейский, кубанский, ачикташский и др.). Попытки прочитать все надписи на основе одного (например, орхонского) алфавита часто оказываются ошибочными, так как фонетические соответствия знаков в разных системах

могли не совпадать. Даже внутри одной системы природа знаков менялась. Многие руны изначально могли быть слоговыми знаками (передавать сочетание гласного и согласного), но со временем трансформировались в буквы для одиночных звуков. Поскольку мы никогда не слышали носителя, любая реконструкция остается вероятностной моделью. Лингвисты сталкиваются с тем, что в разных регионах, например на Алтае, в Туве, существовали свои школы правописания и, вероятно, свои диалектные особенности произношения.

Лингвисты используют несколько взаимодополняющих методов, чтобы восстановить произношение древнетюркских надписей:

Сравнительно-исторический метод: Это классический «ручной» способ. Ученые сравнивают тысячи слов из современных родственных языков, выявляют закономерности «типовых ошибок» (мутаций) и по ним воссоздают форму слова в протоязыке.
Использование двуязычных текстов: Одним из ключей к дешифровке орхонских рун стали китайские тексты, сопровождавшие надписи. Зная звучание имен персонажей (например, Кюль-тегин) из китайских источников, ученые смогли сопоставить их с руническими знаками и определить их фонетическое значение.
Внутренняя логика (Закон гармонии гласных): Для тюркских языков реконструкцию облегчает закон сингармонизма. Знаки согласных в рунике часто различались в зависимости от того, с каким гласным они соседствуют — твердым или мягким. Это позволяет восстановить «качество» пропущенного гласного звука.
Автоматизированная реконструкция: Современная наука использует математические модели, заимствованные из вычислительной биологии.Слова разбиваются на последовательности фонем и анализируются программой, которая перебирает миллионы сценариев звуковых изменений, отсекая абсурдные варианты с помощью статистических методов, например Монте-Карло.

Математические модели показывают высокую точность (до 85% совпадений с ручной реконструкцией экспертов), но они остаются лишь инструментом. Без глубоких знаний лингвиста-эксперта, понимающего культурный контекст и историю народов, «сухая» цифровая реконструкция может быть ошибочной.

Проблема различных рунических алфавитов и отличающихся символов в нашем исследовании решалась объединением четырех систематизаций в одну. В ней получилось 52 класса рун – такое количество обусловлено региональными отличиями записи одних и тех же звуков, а также добавлением уникальных рун из каждой системы. Изначально этот подход использовался для задачи распознавания рун на изображениях. Это позволило разметить известными нам классами большую часть символов. Затем эту информацию можно использовать для транскрибирования надписей. Но все равно остается проблема с чтением рун, так как один и тот же символ может звучать по-разному. Например, как видно на таблице 1, символы номер 1, 17, 18 и 19 имеют два варианта произношения. Человеку без специального лингвистического образования не понятно, какой вариант звука использовать при записи транскрипции надписи. То же самое происходит и когда мы создаем словарь звуков для последующего озвучивания надписей. В этот словарь мы записываем только один вариант произношения, так как неизвестно, в каком случае применять конкретный.

Кызласов И.Л. Рунические письмена Сибири — Таблица 1. Соответствия рун и звуков из книги Кызласова И.Л. Рунические письмена Сибири.

Для построения словаря звуков мы пользовались информацией из публикаций И.Л. Кызласова и В. В. Радлова. Чтобы модели TTS (Text-to-Speech, “Синтез речи”) могли наиболее корректно “произнести” звуки, мы записывали их используя IPA. IPA (International Phonetic Alphabet) – международная система для записи звуков, которая учитывает нюансы произношения. Но, как можно увидеть в таблице 1, в литературе по тюркологии обычно используются транслитерации для записи звука. Мы старались подобрать наиболее точные транскрипции, но не отрицаем возможности небольших различий (рис. 1).

Рис. 1. Фрагмент словаря, где классу руны соответствует ее звук.

Таким образом, наше исследование не является точной реконструкцией речи древнетюркских народов. Мы выдвигаем гипотезу о звучании знаменитых надписей, подкрепленную реальными правилами чтения древнетюркских языков.

К тому же, чтение и изучение древнетюркских рун — это узкоспециализированная область, в которой работает крайне малое число экспертов. Процесс постижения текста выходит далеко за рамки простого перевода и требует глубоких познаний в эпиграфике, лингвистике и истории. Чтобы отличить буквы от природных трещин и случайных царапин на камне, требуются годы практики и работы непосредственно с полевым материалом. Важно не только прочитать буквы, но и понять характер борозд, последовательность начертания линий и связь надписи с археологическим объектом. Поскольку живых носителей не осталось, произношение — это всегда научная реконструкция, основанная на лингвистических знаниях, как закон гармонии гласных, и переходе от слогового принципа к алфавитному.

Некоторые надписи вызывают разногласия даже в кругу экспертов-тюркологов. Например, надпись на Сальской фляге имеет несколько совершенно разных прочтений: от «Важный посланник ант...» до «(Это) есв дешевое, мягкое, плохое серебро» или простого перечисления имен («Элчи и Ата-ач и Бука — трое их») (рис. 2). Спорность перевода, и, следовательно, прочтения, объясняется пропуском гласных и отсутствием единого мнения ученых о языковой принадлежности текста. Помимо рунических алфавитов, были попытки перевода с древнерусского и касожского языков.

Рис. 2. Прорисовка надписи по фотографиям Сальской фляги М.И. Артамонова и А.А. Миллера.

Возвращаясь к теме исследования, предлагаемая нами система аудиореконструкции не может учитывать всех вышеперечисленных нюансов. Она выступает инструментом для тюрколога, который при правильной настройке будет озвучивать тексты. Также работают и другие решения с использованием ИИ для реконструкций древних надписей и языков. Например, модель Ithaca от DeepMind умеет восстанавливать поврежденные древнегреческие тексты, определять их происхождение и датировку с точностью до ~62%, 71% и 30 лет соответственно. Еще раньше, в 2013 году, в PNAS показали, что реконструкцию древних языков можно автоматизировать: слова представляются как последовательности звуков, а их изменения моделируются вероятностно (аналогично восстановлению ДНК). На корпусе из 637 языков система дала более 85% точных реконструкций.

При этом в обоих случаях модели остаются вспомогательным инструментом — финальная интерпретация всё ещё за человеком. Кроме того, критически важно качество данных, которые передаются в модель. В контексте аудиореконструкции – это транскрипции и правила чтения. Так как не все рунические символы имеют единственное звучание, то построенные транскрипции могут быть ошибочными. Единственный способ добиться исторически верного звучания – это проверка транскрипций специалистами-тюркологами.

Основной идеей нашего исследования была обработка рунической надписи с фотографии тюркского памятника. Поэтому первым блоком в архитектуре решения идут модели машинного зрения. Они распознают символы надписи и классифицируют их в соответствии с 4 наречиями: орхонского, енисейского, а также рун с памятников Ирк Битиг и Кюль-Тегин. После детекции надпись можно транскрибировать. Каждому распознанному классу соответствует звук. В древнетюркских рунических системах используются знаки препинания, что позволяет автоматически разделять надпись на слова. В итоге надпись переводится в целостную фонетическую транскрипцию, с которой могут работать TTS модели. Мы воспользовались нейросетевой моделью OpenAI TTS, которая моделирует произношение, интонацию и паузы. В отличие от классических TTS-систем, где звук собирается из заранее записанных фрагментов, современные модели работают end-to-end: напрямую преобразуют текст в звук на основе обученных акустических представлений. В нашем случае на вход подаётся не обычный текст, а транскрипция древнетюркских рун, что позволяет управлять произношением через выбор символов, пауз и структуры записи.

Так как записей древнетюркской речи крайне мало, обучить свою модель или дообучить TTS не было возможным. Мы выбирали из нескольких open-source TTS-моделей: Bark, XTTS, OpenAI TTS и OpenVoice. Несмотря на схожую задачу, они принципиально отличаются по архитектуре и степени управляемости:

Bark генерирует звук как последовательность токенов, не работая с фонемами. Можно настроить голос диктора и стиль речи в целом, но не произношение отдельных сложных звуков. Это и невозможность управления произношением делают эту модель непригодной для нашей задачи.
Модель XTTS предлагает больше возможностей для настройки звучания. Она работает с фонемами напрямую и озвучивает их по правилам выбранного языка. Так как древнетюркский язык уже мертвый, XTTS, разумеется, его не знает. Но можно использовать родственные турецкий и монгольский языки. Применение их правил произношения дало более естественный результат озвучивания. Ограничением этого решения стал нестабильный результат вывода модели. Одну и ту же транскрипцию она могла озвучить по-разному или с шумами на фоне.
OpenVoice раздельно работает с голосом и самим текстом, что позволяет управлять стилем речи и произношением. При этом модель не может работать с фонемами, записанными в соответствии с IPA, что критически важно для нашего исследования. Так что этот вариант оказался наименее эффективным.

После экспериментов мы выбирали из XTTS и OpenAI TTS. Главным преимуществом последней стала ее предсказуемая работа и чистота генерируемого звука. OpenAI позволяет настраивать ритм и паузы в речи, что помогло сделать аудиореконструкцию более “естественной”. Несмотря на меньшие возможности контроля генерации, результаты OpenAI TTS оказались на одном уровне с XTTS, но более стабильными и воспроизводимыми. Эти качества важны для изучения гипотез о звучании древнетюркского, а предложенное решение является удобным baseline для дальнейшего изучения.

Основной проблемой использования любых TTS моделей является то, что они обучены работать с современными языками. Следовательно они работают со звуками и сочетаниями древнетюркского по современным паттернам. Частично с этим борется изменение языка на родственный, но это не может быть точной аудиореконструкцией. Интонации и паузы в речи древних людей могли значительно отличаться от речи современных тюркских народов.

Кроме неточности TTS и неоднозначности звучания рун, есть вероятность технической ошибки. Представленные в статье примеры – это прочтение надписей, которые были размечены нами. В реальной работе CV модель может неправильно классифицировать одну руну, что повлечет другой звук и слово будет звучать полностью неправильно.

Оценка качества нашей работы тоже затруднена, ведь невозможно посчитать метрику точности звучания без эталонной записи. Так как к нашей команде пока не подключены филологи и лингвисты, сгенерированное аудио анализировали члены команды родом из Тувы. Тувинцы – народ, проживающий на территориях верховьев Енисея и Южной Сибири, прежде всего в пределах современной Республики Тыва, исторически входящей в широкий саяно-алтайский и центральноазиатский культурно-языковой ареал. Тувинский язык относится к тюркской языковой семье, а сама Тува на протяжении истории находилась в зоне контактов древнетюркских государств, письменных традиций и раннесредневековых, в том числе скифских культур, с которыми связаны и рунические памятники Енисейского региона, на территории которой многие памятники были найдены. Именно поэтому привлечение носителей тувинского языкового и культурного опыта представляется обоснованным в рамках нашего исследования: хотя современный тувинский язык не тождествен древнетюркскому, он сохраняет историко-культурную преемственность с тем пространством, в котором формировались и бытовали исследуемые надписи.

Такой подход, разумеется, не заменяет экспертную тюркологическую верификацию, но позволяет получить первичную содержательную оценку того, насколько синтезированное звучание воспринимается как фонетически и интонационно близкое тюркской традиции.

Дальнейшее развитие этого исследования возможно только с привлечением экспертов тюркологов. Специалисты могут оценить, насколько сгенерированное звучание конкретных слов соотносится с правильным их прочтением. Более того, описание правил транскрибирования и чтения в алгоритме сделает решение научно-подкрепленным. Наилучших результатов аудиореконструкции можно добиться дообучением модели TTS на корпусе аудиозаписей чтения на древнетюркском.

Продемонстрируем работу нашей системы на примере рисунка 3.

Рис. 3. Пример распознавания рун и транскрипции памятника, служащие основой для последующей озвучки.

Для него была автоматически создана следующая транскрипция:

ɯ̈qtøulia...litʃbt...øutʃrt...pdøoqinqi...ln...iltrd...adbt...ki...qlitln...øudøbkrøut...ntʃrsqt...irt...øudt...ilɡøuik...iltøøujitj...pnrøoq...isqdi...jrltidi...jøusirt...lɡatønjoqoq...qnɯ̈qisjit...ilrtantʃ...sq...akisra...trrs...ilrtoq...jaøkøu...lrti...lɡiiandŋtnnɡntnninzzntnaɣtødndtndzjaɣøuriiqtnj...jŋjøu...rtʃbbbjbbndørtzt..................ztbjntaɣbaɣaɣqaɣzaɣngtng...økt

Транслитерация: ыктоулиа...личбт...уучрт...пдуокинги...лн...илтрд...адбт...ки...клитлн...уудобкруут...нчрскт...ирт...уудт...илгоуик...илтооюйитй...пнруок...искди...йрлтиди...йоусирт...лгатонйокок...кныкйсйит...илртанч...ск...акисра...тррс...илрток...яёку...лрти...лгиианднгтннгтннинззнтнактодндтндзйагууриктнй...йнйоу...рчбббйббндёрцт..................цтбйнтагбагаккагзангтнг...окт

Послушать аудио реконструкцию этой надписи можно тут:

Предложенное решение не претендует на абсолютную историческую точность и не заменяет работу тюрколога, эпиграфиста или исторического лингвиста. Напротив, результаты исследования подтверждают, что любая аудиореконструкция древнего языка неизбежно носит вероятностный характер, поскольку зависит от качества распознавания рун, от неоднозначности чтения отдельных знаков и от ограничений современных TTS-систем, обученных прежде всего на живых языках. В то же время именно это делает разработанный нами пайплайн значимым: он не подменяет науку автоматизацией, а создает удобный цифровой инструмент, который может использоваться для первичной реконструкции, демонстрации гипотез и расширения доступа к древнетюркскому письменному наследию. Такой подход соответствует общей логике современных гуманитарно-технических исследований, где искусственный интеллект выступает не как окончательный интерпретатор прошлого, а как средство работы с культурно-историческими данными.

Основная ценность работы заключается в создании первого в своем роде воспроизводимого решения, которое может служить основой для дальнейших исследований в области цифрового сохранения и интерпретации культурного наследия. Иными словами, мы не «воскресили» язык в полном смысле этого слова, но сделали важный шаг к тому, чтобы он снова мог быть услышан, то есть речь идет не о завершении задачи, а о начале нового направления, в рамках которого древние тексты получают такую же возможность снова быть услышанными. При этом наша работа должна рассматриваться не как завершенная реконструкция древнетюркской речи, а как отправная точка для дальнейшего развития. Перспективы здесь напрямую связаны с участием тюркологов, уточнением правил чтения и транскрибирования, расширением корпуса рунических данных, а в дальнейшем — и с возможным дообучением специализированных TTS-моделей на экспертно размеченном материале.

Источники:

Кызласов И.Л. Рунические письменности Еразийских степей
Малов С.Е. Енисейская письменность тюрков (1952)
Малов С.Е. Памятники древнетюркской письменности
Кызласов И.Л. Рунические письмена Сибири
В. В. Радлов, Атлас древностей Монголии
Predicting the past with Ithaca [Электронный ресурс]. – Режим доступа: https://deepmind.google/blog/predicting-the-past-with-ithaca/
Bouchard-Côté A., Hall D., Griffiths T. L., Klein D. Automated reconstruction of ancient languages using probabilistic models of sound change // Proceedings of the National Academy of Sciences. – 2013. – Vol. 110, No. 11. – P. 4224–4229.
International Phonetic Association. IPA Chart with Sounds. — URL: International Phonetic Association (официальный сайт): https://www.internationalphoneticalphabet.org/ipa-sounds/ipa-chart-with-sounds/
Дешифровка орхонских и енисейских надписей // Записки Восточного отделения ИВ РАН. — М., 1995. — Вып. 25. — С. 289–318.
Круглов Е. В. Формирование источниковой базы памятников Соколовской Балки // Нижневолжский археологический вестник. — 2002. — № 2. — С. 69–72.
Kyzlasov I. L. Runic Scripts of the Eurasian Steppes. — Moscow: Russian Academy of Sciences, 1994. — 180 p.
Proposal for encoding the Khazarian Rovas script in the SMP of the UCS. ISO/IEC JTC1/SC2/WG2 N3999. — 2011-01-21.
Васильев Д. Д. Графический фонд памятников тюркской рунической письменности азиатского ареала. — М.: Наука, 1983. — 192 с.
Байчоров С. Я. Древнетюркские рунические памятники Европы. — Ставрополь: Ставропольское книжное изд-во, 1989. — 150 с.
Тишин В. В. Новые соображения о возможности расшифровки надписей на рунических дирхемах на основе материала тюркских языков // Вестник БНЦ СО РАН. — 2018. — № 30. — С. 46–56.
Кононов А. Н. Грамматика языка тюркских рунических памятников VII–IX вв. — Л.: Наука, 1980. — 260 с.
Лебедев Ю. С., Попов П. В. Погребение VIII–IX вв. из Астраханской области и горшок с рунической надписью // Российская археология. — 2023. — № 1. — С. 178–186.
Вопросы тюркологии. — М.: Институт тюркологии, 2010. — № 1. — 188 с.
Тюркологические исследования. — 2018. — Т. 1, № 2.
Археологическое наследие / Под ред. А. Н. Головтина. — Липецк: Аргамач, 2018. — ПИ № ТУ48-00362.
Кочкаров У.Ю., Беляева В.Н., Кочкаров Р.А., Кочкаров А.А. Подготовка набора визуальных данных для машинного распознавания рунической письменности // Проблематика и методология современных тюркологических исследований: Коллективная монография / отв. ред. Е.А. Оганова. — М.: ООО «Издательство МБА», 2025. — 303 с. — ISBN 978-5-6051431-4-7. – С.162-173.
Кочкаров Р.А., Бородина А.Д. «Систематизация орхоно-енисейских рунических письменностей и перспективы их автоматизированного анализа методами машинного обучения» // Динамика сложных систем – XXI век.
Кочкаров Р.А., Бородина А.Д. «Классификация рунических символов и распознавание орхоно-енисейских надписей методами машинного обучения» // Современная математика и концепции инновационного образования.

Задача озвучивания орхоно-енисейских рунических надписей +2

Источники:

Комментарии (0)