Авторы: Сердюк Мария Сергеевна, Таратин Артём Андреевич, Пойкалайнен Александра Максимовна, Кочкаров Расул Ахматович

Введение

Современные технологии искусственного интеллекта уже получили широкое применение в различных сферах, включая гуманитарные науки и творчество. Отдельно следует выделить использование машинного и глубокого обучения в исторической науке, где получены результаты по поиску, распознаванию и переводу символов на археологических памятниках.

Исследование символов тюркской рунической письменности актуально, так как может помочь в понимании истории и культуры народов Евразийского ареала. Современные методы анализа данных и машинного обучения обладают большим потенциалом для автоматизации процесса детекции, классификации и распознавания рунических символов. Что может значительно ускорить и улучшить работу исследователей в области археологии.

Несмотря на значительные успешные проекты за рубежом, в России, где находится множество археологических памятников Евразии раннего средневековья с нерасшифрованными руническими надписями, подобные исследования пока не распространены. Данная тематика является крайне актуальной для отечественной науки.

База данных

Для применения моделей машинного обучения был выбран набор данных письменного археологического памятника «IRK BİTİG» [1] (Ирк Битиг), который имеет высокое качество разрешения. Особенно важным для исследования источника Ирк Битиг оказалось значительное количество страниц книги для формирования алфавита. Данный источник позволил собрать большой набор данных однотипных рунических символов, который впоследствии был использован для обучения модели. 

Ход исследования

На первом этапе необходимо было сформировать алфавит символов из всевозможного набора символов [2–11]. В результате анализа различных источников была составлена таблица из 40 классов символов рунического алфавита (рис.1).

Рис. 1. Фрагмент таблица классов символов рунического алфавита
Рис. 1. Фрагмент таблица классов символов рунического алфавита

Однако в ходе анализа символов были выявлены некоторые проблемы:

  • дисбаланс классов (в некоторых классах оказалось мало символов);

  • около 5–10% изображений не удалось однозначно отнести к конкретным классам.

Для решения этих проблем в дальнейшей работе планируется провести полноценный анализ письменных памятников одного региона в близкий временной период. Выделить несколько основных алфавитов, например, енисейский, орхонский, кубанский и др. Это позволит выбрать текст с большим количеством символов сначала определить алфавит и далее классифицировать их в рамках выбранного алфавита.

Для текущей работы был сформирован алфавит на основе письменного источника Ирк Битиг (рис. 2), состоящий из 38 символов, включая знаки пунктуации (037 — разделение символа, 038 — символ для нумерации страниц).

Рис. 2. Рунический алфавит Ирк Битиг
Рис. 2. Рунический алфавит Ирк Битиг

Далее необходимо было разметить символы на страницах документа. Для разметки изображений использовался облачный инструмент с открытым доступом — cvat.ai. Также его можно развернуть в локальной среде с использованием приложения Docker. В результате были сформированы тестовая и обучающая выборки, проаннотированные экспертами, фрагмент которых представлен на рис. 3.

Рис. 3. Разметка символов в cvat.ai и формирование обучающей выборки из рунических текстов
Рис. 3. Разметка символов в cvat.ai и формирование обучающей выборки из рунических текстов

На этапе выбора модели машинного обучения для распознавания символов был проведен анализ версий модели YOLOv8, в результате которого было принято решение остановиться на моделях YOLOv8m и YOLOv8l как потенциально оптимальных в условиях ограниченного набора данных.

На тренировку было выбрано 24 картинки, в то же время на тест попало 5 специально выбранных картинок, имевших 38 уникальных классов = 83/17% (рис. 4). После чего была проведена валидация и тестирование моделей на тестовой выборке. Сравнили результаты с аннотациями экспертов и метриками качества, а также проанализировали ошибки и неточности моделей, выявили сложные случаи. Так, например, модель не могла распознать некоторые классы символов в силу качества изображения.

Символы с классами 016 и 031 встречались очень редко, и из‑за низкого количества экземпляров модель yolov8m классифицирует руны, как фон; символ 025 был ошибочно найден на одной из страниц из‑за неправильной разметки 2-х символов; при распознавании символов 037 и 038 модель yolov8m демонстрирует трудности в различении их и фона.

Рис. 4. Результаты обучения модели yolov8m.
Рис. 4. Результаты обучения модели yolov8m.

После увеличения экземпляров набора данных до 82, стали заметны проблемы с разметкой: путаница и пропуски плохо пропечатанных символов.

Но модель стала лучше различать символы из‑за увеличения количества экземпляров. Метрики YOLOv8l с некоторыми изменениями параметров аугментации представлены на рис. 5 и 6.

Рис. 5. Результаты обучения модели yolov8l на расширенном наборе данных.
            Рис. 5. Результаты обучения модели yolov8l на расширенном наборе данных.
Рис. 6. Метрики yolov8l на расширенном наборе данных.
Рис. 6. Метрики yolov8l на расширенном наборе данных.

Количество редких символов не сильно увеличилось, но это помогло модели их заметить (рис. 7).

Рис. 7. Распределение символов по классам алфавита
Рис. 7. Распределение символов по классам алфавита

Результаты работы модели на случайном скриншоте продемонстрировали ее способность к точному распознаванию рунических символов (рис. 8).

Однако модель все еще продолжает плохо различать классы 035–038. Потому разметка всего набора данных была повторно проверена и исправлена в целях повышения качества детекции символов.

Рис. 8. Пример работы модели YOLOv8l
Рис. 8. Пример работы модели YOLOv8l

Дополнительные задачи

Помимо обучения моделей распознавания, был разработан скрипта конвертации выходных данных YOLOv8 в текстовое представление, а именно в последовательность классов символов (рис. 9).

Рис. 9. Текстовое представление распознанных страниц Ирк Битиг
Рис. 9. Текстовое представление распознанных страниц Ирк Битиг

0 row: 037 024 019 002 004 014 004 002

1 row: 038 002 004 014 037 004 010 004 014

 2 row: 038 001 021 003 028 001 020 014

 3 row: 037 020 003 020 029 004 005 004

 4 row: 005 006 037 004 012 003 017 014

 5 row: 021 003 011 023 037 020 029 003

 6 row: 037 001 021 003 021 014 037 001

 7 row: 037 024 003 019 026 023 011 032

 8 row: 037 003 021 014 037 003 011 023

Текстовое представление позволит провести криптографический и статистический анализ рунических надписей.

Также была реализована обратная задача — визуализация символов Ирк Битиг по заданному набора классов символов. То есть, создана простая библиотека для визуализации рунических символов по их кодировке (рис. 10).

Рис. 10. Пример работы библиотеки для визуализации рунических символов.
Рис. 10. Пример работы библиотеки для визуализации рунических символов.

Заключение

В рамках данного исследования впервые в отечественной практике была предпринята попытка применения технологий искусственного интеллекта для распознавания письменных памятников рунической письменности Ирк Битиг. Несмотря на ряд технических и методологических сложностей, связанных с отсутствием стандартизированного алфавита и достаточного объема размеченных данных, удалось разработать работоспособную систему распознавания рунических символов на примере письменного археологического источника Ирк Битиг.

Дальнейшее развитие проекта предполагает:

  • проведение полноценного анализа письменных памятников одного региона в близкий временной период для формирования унифицированного алфавита или перечня алфавитов;

  • увеличение размера и качества набора данных путем тщательной разметки и валидации данных;

  • доработку модели распознавания с учетом выявленных проблемных классов;

  • реализацию полноценного инструмента для автоматической расшифровки рунических надписей;

Успешная реализация данного проекта позволит не только продвинуть отечественную историографию в области изучения древних письменных памятников, но и создать прикладной инструмент, востребованный в научно‑исследовательской работе, археологии и культурном наследии.

Список литературы

[1] Goybay Uluch, Aygun Huseynli, Dilbar Mehdiyeva, Ozcan Break, Irina Ibrahimova, Jeyran Sarkhanbayova. IRK BITIG. Written In Ancient Uyghur Divination Book. Baku: Turkish While Community Publications, 2013. — 120 с.

[2] Proposal for encoding the Khazarian Rovas script in the SMP of the UCS // International Organization for Standardization. ISO/IEC JTC1/SC2/WG2 N3999 2011–01–21. — 19 p.

[3] Васильев Д.Д. Графический фонд памятников тюркской рунической письменности азиатского ареала (опыт систематизации). — М.: Наука, 1983. — 160 с.

[4] Кызласов И.Л. Рунические письменности Еразийских степей. — М.: Издательская фирма «Восточная литература» РАН, 1994. — 327 с.

[5] Кулешов В.С. О грузинских подражаниях Аббасидам и о так называемой «монете Баграта III» // Труды Государственного Эрмитажа. Т. 69: Византия в контексте мировой культуры. Материалы конференции, посвящённой памяти Алисы Владимировны Банк (1906–1984). СПб: Изд‑во Гос. Эрмитажа. 2013. — С. 370–382.

[6] Кулешов В.С. «Рунический дирхам» из Козьянковского склада // Acta Archaeologica Albaruthenica. Vol. V (Вып. 5) / уклад. М.А. Плавінскі, В.М. Сідаровіч. — Мінск: І.П. Логвінаў, 2009. — С. 105–111.

[7] Кулешов В.С. «Рунический дирхам»: новый источник для истории хазарской геральдики? // Программа семинара «Геральдика — вспомогательная историческая дисциплина», 2019. — С. 4–7.

[8] Кызласов И.Л. Рунические письмена Сибири. Рассказы археолога. — Москва, Абакан: Хакасское книжное издательство, 2021. — 160 с.

[9] Байчоров С.Я. Древнетюркские рунические памятники Европы: Отношение Северо‑Кавказского ареала древнетюркской рунической письменности к волго‑донскому и дунайскому ареалам. — Ставрополь: Кн. из‑во, 1989. — 294 с.

[10] Кормушин И.В. Древние тюркские языки. Учебное пособие для высших учебных заведений, обучающихся по специальности 022 800 — Востоковедение. — Абакан: Издательство Хаскасского государственного университета им. Н.Ф. Катанова, 2004. — 336 с.

[11] Биджиев Х.Х. Хумаринское городище. — Черкесск: Ставроп. кн. изд‑во: Карачаев.‑Черкес. отд‑ние, 1983. — 168 с.

Комментарии (7)


  1. Samych
    28.05.2024 01:25

    Если проект успешно расшифрует все надписи, то РПЦ будет недовольна. Ведь историю древней Руси придется переписывать.


    1. Quarc
      28.05.2024 01:25

      Там ничего не надо расшифровывать, пусть с трудом, но текст читается и поныне, хотя носителям кыпчакских вариантов тюркского языка оно будет попроще.

      Как связаны РПЦ и Древняя Русь с то ли гадальной книгой, то ли сонником тысячелетней давности и вовсе непонятно.

      PS: относительно трудностей распознавания некоторых букв, исследователи отмечали наличие в тексте описок и ошибок.


      1. rkochkarov
        28.05.2024 01:25

        В части Ирк Битик немного проще, можно составить алфавит, хотя бы с некоторой вероятностью можно говорить, что его символы покрывают весь алфавит.

        С другими надписями сложнее, учитывая разнообразие наречий - орхонский, енисейский, кубанский и др. Очень много расхождений, так как авторы из разных территорий по своему усмотрению добавляли понятные только им символы, также их вращали по своему неведомому разумению в пространстве. Очень много опечаток. В отличие от современного языка, символы означают не только звуки, но и слова, а иногда и предложения (смыслы). В общем задача очень интересная.

        В данной работе сделан первый шаг, чтобы понять как дальше двигаться (в части компьютерного зрения - распознавания).

        Уже получены первые результаты по статистическому анализу, но пока не проинтерпретированы. Будет в дальнейших публикациях.


        1. Quarc
          28.05.2024 01:25
          +1

          означают не только звуки, но и слова

          Это уже какая-то дикая самодеятельность древних "грамотеев", потому что каждая буква должна обозначать максимум один слог, а чаще звук.

          С другими надписями сложнее, учитывая разнообразие наречий

          Сочувствую, так как разнообразие начертаний одних и тех же букв поражает даже в пределах региона Саяны-Алтай-Орхон. Даже на ваших рисунках увидел новые для себя способы написания символов :)

          Upd: донские и кубанские записи, при их визуальной схожести с древнетюркским письмом, могут быть и независимыми алфавитами (насколько я помню, этого мнения придерживался Кызласов И.Л.).


  1. LaoSan
    28.05.2024 01:25
    +5

    Интересно, как скоро выпустят ИИ модель способную распознать рунические записи созданные врачами в мед.картах ?


    1. ssj100
      28.05.2024 01:25
      +1

      Это высший уровень.... пока до него не доросли


    1. rkochkarov
      28.05.2024 01:25

      Шутка хорошая, но задача уже решена в частном случае. Когда пользователи, например, на смартфонах обучают приложения для перевода их письменного изображения в печатный.
      Но это нужно некоторые усердие самого пользователя.
      А вот чтобы распознавать все "надписи" любого врача - это да, задачка поинтереснее...