![image](https://habrastorage.org/webt/g-/3t/p5/g-3tp5asgoktgn3a9evcsfm4dne.jpeg)
«Во дни сомнений, во дни тягостных раздумий о судьбах Родины», которые особенно тяжки в последние недели, что для нас поддержка и опора? :) Правильно, великий и могучий. И пока курсы валют и пандемия неумолимо владеют массовым сознанием, ученые не прекращают работу. О том, кто и зачем создаст корпус — уникальную «СУБД» древнеславянских рукописей — в нашей новости.
Коллаборация ученых НИТУ «МИСиС, института русского языка им. В.В. Виноградова РАН,, НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов — корпуса. Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.
Корпус – это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определенном языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.
![image](https://habrastorage.org/webt/yr/zf/ii/yrzfiibuikpbi59sn6cy1fuhr3u.jpeg)
Древнеславянские тексты — это многообразие рукописных памятников XI – XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.
Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы:
«В настоящее время не существует корпуса рукописных славянских текстов, и его создание рассматривается учёными различных дисциплин как важная задача. Основной объем древнеславянских – древнерусских, болгарских, сербских текстов XI – XVII веков, которые дошли до нас – это несколько тысяч богослужебных рукописей. Язык меняется от века к веку. Для ученых важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой. Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи – это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время».Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки – главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.
Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия.
В отношении языковых памятников, можно отметить два принципиальных направления работ – преобразование сканированных изображений в «машиночитаемый» вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами, написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.
![image](https://habrastorage.org/webt/jn/dv/d5/jndvd5t1pasw6j8-vdo750oleyy.jpeg)
Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ «МИСиС», руководитель Научно-учебной лаборатории методов анализа больших данных НИУ Высшей школы экономики:
«Естественный язык является ключевым полигоном для развития технологий ИИ. Именно благодаря этим технологиям задачи машинного перевода, построение диалоговых систем и задачи интерпретации текстов на естественном языке получили мощный толчок в последнее время. В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего. По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом – специалистов по языку со специалистами по искусственному интеллекту».
![image](https://habrastorage.org/webt/wr/y_/at/wry_atm9ujs1rkwy6vomj3x2qru.jpeg)
Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках – служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.
Кто-то скажет, ну какие еще древнеславянские рукописи, мир в полном шатдауне. Однако, стоит помнить, что все-таки «вначале было Слово»…
PereslavlFoto
Как вы оцениваете опасность того, что средневековые тексты, которые находятся в общественном достоянии, при помощи такой базы данных опять вернутся под авторское право, а свободное их использование будет запрещено?
Как НИТУ смог достичь согласия с Историческим музеем и получить право копировать средневековые книги, находящиеся в музее? Наверное, за это пришлось заплатить по 100 рублей за одну страницу, или даже больше?
Спасибо.
moiseeva Автор
ответ авторов проекта:
В вопросах авторского и смежных прав в отношении древних манускриптов нужно иметь в виду два аспекта. С одной стороны, по очевидным причинам не приходится говорить о правах самих авторов или их наследников. С другой стороны, владельцы манускриптов (а это могут быть как государственные и церковные организации, так и частные лица), как правило, не горят желанием предоставлять свободный доступ к книгам, и подчас это вполне оправдано ввиду их ветхости.
Однако, со многими владельцами можно работать в этом направлении. Кроме того, конкретно в случае древних славянских рукописей всё не так плохо. Во-первых, имеется довольно большой объём книг, принадлежащих российским государственным музеям, которые уже были отсканированы в хорошем качестве и выложены в открытый доступ для всех заинтересованных исследователей. Во-вторых, есть основания полагать, что вовлечённые в проект церковные структуры предоставят сканы текстов имеющихся у них манускриптов на таких же условиях. Вообще, расширение объёма доступного для исследователей материала — одна из важных задач проекта.
PereslavlFoto
Уточню проблему.
1) Тексты средневековых книг находятся в общественном достоянии. Будет ли корпус общественным достоянием? Или он будет выпущен по лицензии Creative Commons? Или он будет собственностью создателей, то есть они захватят общественное достояние под своё авторское право?
2) Мне кажется, вы ответили о тех рукописях, которые уже отсканированы и находятся в интернете. А что же с теми книгами, которые ещё не сканированы? Сколько музеи требуют за каждую страницу?
3) Как НИТУ смог достичь согласия с Государственным историческим музеем и получить право копировать средневековые книги, находящиеся в музее? Сколько пришлось платить за такое право?
4) В 2015 году Эрмитаж доказал в суде, что рисунок, сделанный по мотивам картины, является производной работой, а следовательно, права на него принадлежат музею. (Дело А63-18468/2012.) Будет ли новый корпус — печатной продукцией с использованием изображений музейных предметов? Смогут ли музеи запретить использование этого корпуса на основании статьи 36 закона от 26.05.1996 N 54-ФЗ?
Спасибо.
moiseeva Автор
На данный момент участники проекта исходят из модели правового статуса Национального корпуса русского языка http://www.ruscorpora.ru/new/
Имеющийся объём отсканированных и доступных манускриптов уже даёт большие возможности для работы. При дальнейшем развитии, конечно, встанут вопросы финансовой и административной поддержки для обеспечения оцифровки и т.п.
Это же касается вопросов разделения прав на графические изображения, то есть сканы манускриптов и прав на уже распознанные и размеченные тексты в машиночитаемом формате. Понимание этих проблем у участников есть, на данном этапе непреодолимыми они не представляются.
PereslavlFoto
Спасибо.
Отсылка на Национальный корпус русского языка означает: «Мы никому ничего не позволим». Именно таковы условия НКРС. На сайте НКРС написано — «исключительно для некоммерческого использования в научно-исследовательских и учебных целях (в соответствии со статьей 1274 ГК РФ). Они не предназначены ни для чтения/просмотра, ни для копирования, ни для иных видов использования». Хозяева НКРС запретили вообще всё, что только могут запретить.
Сканы манускриптов находятся в общественном достоянии. Распознанные тексты находятся в общественном достоянии. А вот с размеченными текстами — дело иное. Это уже получается база данных, там возникают авторские права тех, кто размечает текст, и авторские права тех, кто формирует базу данных. Очень жаль, что все эти авторские права не будут отменены, а напротив, станут непреодолимым барьером для всех тех, кто не может платить.
Очень грустно всё это. :-(