Сам себе Гутенберг. Делаем многоязычные параллельные книги / forpes.ru

Главная
Сам себе Гутенберг. Делаем многоязычные параллельные книги

Сам себе Гутенберг. Делаем многоязычные параллельные книги +21

02.06.2021 16:05

averkij 12 3100 Источник

Lingtrain parallel books article cover

В прошлый раз мы с вами научились делать параллельные книги и сделали русско-английский вариант отрывка романа Харпер Ли "Убить пересмешника". Сегодня мы сделаем следующий шаг и создадим полноценную многоязычную книгу на восьми языках.

Напомню, что целью этого проекта является создание инструмента, который поможет людям, изучающим и преподающим иностранные языки, создавать учебные материалы и параллельные книги для улучшения навыков чтения. Глобальная проблема состоит в том, что трудно найти интересный для изучения материал с параллельным переводом, тогда как найти книгу в оригинале и ее русскую редакцию по отдельности гораздо проще.

Семь книг

Проделаем все на примере романа Булгакова "Мастер и Маргарита", потому что он очень популярен в мире и был переведен на множество языков. Я нашел его версии на английском и немецком (германские языки); белорусском, чешском и украинском (славянские языки); а также на венгерском и китайском языках. Все семь текстов мы выровняем с русским оригиналом, получим семь книг. Затем выровняем их между собой и получим возможность выбирать любые комбинации языков для своей книги в любом порядке. Полные версии книг можно будет скачать в формате pdf в конце статьи.

Начнем с пары венгерский-русский.

hungarian

Шаг 1. Подготовка текстов

Кратко напомню основные правила подготовки текстов (подробнее смотрите в первой статье, ссылку найдете ниже).

Правила

Удалить заведомо лишние строки (информацию об издателе, посвящение, номера страниц, примечания).
Проставить метки для автора и названия.
Проставить метки для заголовков (H1 самый большой, H5 самый маленький), количество заголовков в текстах должно быть одинаковым.
Убедиться, что в тексте нет строк, которые кончаются точкой и при этом не являются концом абзаца (иначе целый абзац разобьется в этом месте на два).

Четвертое правило можно соблюсти для одного текста, так как при создании книги можно будет выбрать на основе какого из них брать информацию о разбиении на абзацы. В нашем случае возьмем русский, потому что мы будем выравнивать все остальные тексты к нему. К тому же для найденного мной оригинального текста это правило уже соблюдено.

Метки

Язык разметки представляет из себя набор меток, которые ставятся в конце предложения:

Метка	Значение	Установка
%%%%%title.	Название произведения	Вручную
%%%%%author.	Автор	Вручную
%%%%%h1. %%%%%h2. %%%%%h3. %%%%%h4. %%%%%h5.	Заголовки	Вручную
%%%%%divider.	Разделитель	Вручную
%%%%%.	Новый абзац	Автоматически

Благодаря меткам мы извлечем из сырого текста данные о названии произведения, его авторе, названии и местонахождении глав. Это понадобится нам при создании книги.

Текст

В результате должны получиться тексты, похожие на следующие:

Мастер и Маргарита%%%%%title.
М.А. Булгаков%%%%%author.

ЧАСТЬ ПЕРВАЯ%%%%%h1.

Глава 1%%%%%h2.

Никогда не разговаривайте с неизвестными%%%%%h2.

Однажды весною, в час небывало жаркого заката, в Москве, на Патриарших прудах, появились два гражданина. Первый из них, одетый в летнюю серенькую пару, был маленького роста, упитан, лыс, свою приличную шляпу пирожком нес в руке, а на хорошо выбритом лице его помещались сверхъестественных размеров очки в черной роговой оправе. Второй – плечистый, рыжеватый, вихрастый молодой человек в заломленной на затылок клетчатой кепке – был в ковбойке, жеваных белых брюках и в черных тапочках.   

...

MIHAIL BULGAKOV%%%%%author.

A MESTER ES MARGARITA%%%%%title.

ELSO KONYV%%%%%h1.

ELSO FEJEZET%%%%%h2.

Ne alljunk szoba ismeretlenekkel%%%%%h2.

Egy meleg tavaszi esten, az alkonyat orajaban, a Patriarsije Prudin ket ferfiu
jelent meg. Az egyik negyveneves forma, koverkes, alacsony, kopasz fekete
emberke, szurke nyari oltonyt viselt, elegans kalapjat kezeben tartotta, gondosan
borotvalt arcat istentelen nagy meretu, fekete csontkeretes papaszem ekesitette.
Tarsa joval fiatalabb s vallasabb volt nala, borzas hajan tarkojaig hatratolt kockas
sapka; oltozeke kockas sportingbol, gyurott feher nadragbol, fekete szandalbol
allt.

...

Количество меток одного типа должно быть одинаковым среди всех текстов. Иначе где-то будет номер и название главы, а где-то нет. После того как мы приготовили тексты, переходим к выравниванию.

Шаг 2. Выравнивание

Как и в прошлый раз, выравнивать будем библиотекой lingtrain-aligner. Код открыт, так что приглашаю в репозиторий.

Попробовать в Colab

Чтобы попробовать выровнять свои тексты без написания кода используйте вот этот Colab блокнот, который мы использовали в прошлый раз. В нем есть инструкции и некоторые комментарии к процессу. В конце можно будет скачать получившуюся двуязычную параллельную книгу как html страничку.

Попробовать локально

pip install lingtrain-aligner

Сначала немного служебного кода:

# Импортируем необходимые модули
from lingtrain_aligner import preprocessor, splitter, aligner, resolver, reader, vis_helper

# Подготовленные тексты для выравнивания
text1_input = "master_hu.txt"
text2_input = "master_ru.txt"

with open(text1_input, "r", encoding="utf8") as input1:
text1 = input1.readlines()
with open(text2_input, "r", encoding="utf8") as input2:
text2 = input2.readlines()

# Путь до самого главного файла, в котором будет содержаться вся информация о выравнивании
db_path = "master_hu.db"

# Определим языки (важно для разбиения на предложения)
lang_from = "hu"
lang_to = "ru"

# Выберем модель
models = ["sentence_transformer_multilingual", "sentence_transformer_multilingual_labse"]
model_name = models[0]

# Добавим метки абзацев
text1_prepared = preprocessor.mark_paragraphs(lines1_prepared)
text2_prepared = preprocessor.mark_paragraphs(lines2_prepared)

# Разобьем тексты на строки
splitted_from = splitter.split_by_sentences_wrapper(lines1_prepared, lang_from, leave_marks=True)
splitted_to = splitter.split_by_sentences_wrapper(lines2_prepared, lang_to, leave_marks=True)

Итого у нас получилось 9460 предложений на венгерском и 8996 предложений на русском. Их-то мы и хотим сопоставить друг другу таким образом, чтобы ничего не потерялось.

Создадим файл для выравнивания. Это SQLite база данных, которую мы заполним входными данными, для дальнейшей обработки.

aligner.fill_db(db_path, lang_from, lang_to, splitted_from, splitted_to)

Чтобы выровнять первую тысячу строк, выполним следующую команду:

batch_ids = range(10)

aligner.align_db(db_path, 
                model_name, 
                batch_size=100, 
                window=60, 
                batch_ids=batch_ids, 
                save_pic=False,
                embed_batch_size=25, 
                normalize_embeddings=True, 
                show_progress_bar=True
                )

Произойдет следующее — мы запустим процесс выравнивания (детали смотрите в предыдущей статье), для 10 отрезков (batch_ids — их номера) по 100 предложений (параметр batch_size). Параметр window задает "перехлест" между этими кусками, чтобы наверняка захватить целевые предложения. В данном случае этот параметр довольно большой, потому что на протяжении всей книги наша "ось выравнивания" может довольно значительно отклоняться.

В качестве спойлера скажу, что для большинства языков в данном случае такие настройки подойдут для всей книги. Для некоторых же текстов отклонения будут слишком сильными и нужно будет либо делать окно очень большим (это приведет к большему количеству ошибок и отрицательно скажется на качестве), либо двигаться медленнее и использовать параметр shift (о нем ниже).

Визуализация

Теперь у нас есть возможность посмотреть на результат первичного выравнивания при помощи модуля vis_helper:

vis_helper.visualize_alignment_by_db(db_path,
            output_path="alignment_vis.png",
            batch_size=100,
            size=(800,800),
            lang_name_from=lang_from,
            lang_name_to=lang_to,
            batch_ids=batch_ids,
            plt_show=True)

Lingtrain parallel books

В параметр batch_ids мы передали те же номера батчей, что и при выравнивании. Если не передавать ничего, то получим картинки для всех данных.

Мы видим, что модель справилась довольно неплохо. Главное здесь, чтобы "ось выравнивания" не вышла за пределы окна, иначе модель не получит на вход отрезок со всеми правильными вариантами.

Теперь необходимо поставить на место выбросы.

Разрешение конфликтов

Механим разрешения конфликтов заключен в модуле resolver. Подробнее о нем, опять же, смотрите в предыдущей статье. Скажу лишь, что он находит промежутки между удачными отрезками выравнивания, и пытается подобрать для этих промежутков подходящий вариант разрешения. Соответственно, параметрами мы можем задавать минимальную длину хорошей цепочки и максимальную длину для конфликта. На практике, хорошо работает такой подход — трижды проходим по всему выравниванию с постепенным увеличением максимальной длины конфликта:

steps = 3
batch_id = -1 #пройти по всем батчам

for i in range(steps):

    # Найти конфликты
    conflicts, rest = resolver.get_all_conflicts(db_path, min_chain_length=2+i, max_conflicts_len=6*(i+1), batch_id=batch_id)

    # Показать какие конфликты найдены
    resolver.get_statistics(conflicts)
    resolver.get_statistics(rest)

    # Разрешить конфликты
    resolver.resolve_all_conflicts(db_path, conflicts, model_name, show_logs=False)

    if len(rest) == 0:
        break

В конце могут остаться единичные конфликты. Если такие есть, то добиваем их:

# Найти конфликты
conflicts, rest = resolver.get_all_conflicts(db_path, min_chain_length=2, max_conflicts_len=20, batch_id=-1)

# Показать какие конфликты найдены
resolver.get_statistics(conflicts)
resolver.get_statistics(rest)

# Разрешить конфликты
resolver.resolve_all_conflicts(db_path, conflicts, model_name, show_logs=False)

# Визуализировать выравнивание
vis_helper.visualize_alignment_by_db(db_path,
            output_path="alignment_vis.png",
            batch_size=100,
            size=(800,800),
            lang_name_from=lang_from,
            lang_name_to=lang_to,
            batch_ids=batch_ids,
            plt_show=False)

Lingtrain parallel books

Цикл

Мы выровняли часть книги. Для продолжения выполним те же дейсвтия, но с другими батчами. Возьмем следующие 4000 строк. Мы выравнивали 10 кусков по 100 предложений, поэтому выполним следующую команду:

batch_ids = range(10, 50)

aligner.align_db(db_path,                 model_name,                 batch_size=100,                 window=60,                 batch_ids=batch_ids,                 save_pic=False,
                embed_batch_size=25,                 normalize_embeddings=True,                 show_progress_bar=True
                )

После выравнивания этого куска (это займет чуть больше времени, на моем компьютере это около пяти минут) переходим к разрешению конфликтов, как было описано выше. Затем дальше, задавая новый диапазон строк. Так как предложений на венгерском у нас 9460, а разбитие идет по первому из заданных текстов, то батчей по 100 предложений у нас будет 95 штук.

Если задать диапазон

batch_ids = range(50, 100)

то мы выровняем остаток (вторую половину) книги. После разрешения всех конфликтов у нас останется файл master_hu, содержащий в себе венгерско-русскую версию "Мастера и Маргариты".

Шаг 3. Создание двуязычной книги

Теперь, если мы воспользуемся модулем reader, то сможем сгенерировать русско-венгерскую редакцию книги:

from lingtrain_aligner import reader

# Читаем из абзацы и метаданные
paragraphs_from, paragraphs_to, meta = reader.get_paragraphs(db_path, direction="from")

# Создаем html с нашей книгой
reader.create_book(paragraphs_from, paragraphs_to, meta, output_path = "lingtrain.html")

Параллельная книга на венгерском

Это обыкновенная html страничка со встроенными стилями. Для визуализации связей между предложениями можно задавать стили. Например, такой:

reader.create_book(paragraphs_from, paragraphs_to, meta, output_path = f"lingtrain.html", template="pastel_fill")

Параллельная книга на венгерском

Можно задавать свои стили, они будут применены к предложениям каждого абзаца циклически:

# Любые применимые к span'ам стили
my_style = [
    '{"background": "linear-gradient(90deg, #FDEB71 0px, #fff 150px)", "border-radius": "15px"}',
    '{"background": "linear-gradient(90deg, #ABDCFF 0px, #fff 150px)", "border-radius": "15px"}',
    '{"background": "linear-gradient(90deg, #FEB692 0px, #fff 150px)", "border-radius": "15px"}',
    '{"background": "linear-gradient(90deg, #CE9FFC 0px, #fff 150px)", "border-radius": "15px"}',
    '{"background": "linear-gradient(90deg, #81FBB8 0px, #fff 150px)", "border-radius": "15px"}'
    ]

reader.create_book(paragraphs_from, paragraphs_to, meta, output_path = f"lingtrain.html", template="custom", styles=my_style)

Параллельная книга на венгерском

Выравниваем остальные книги

Таким образом, повторяя третий шаг для остальных текстов, мы получим помимо файла master_hu.db остальные шесть. Отмечу некоторые трудности, с которыми я столкнулся (и, вероятно, столкнетесь вы, когда будете выравнивать свою книгу).

Большая разница в количестве предложений

В английской редакции большое количество предложений в диалогах было переведено как отдельные части, тогда как в оригинале это была прямая речь.

1. – Фу ты черт! – воскликнул редактор, – ты знаешь, Иван, у меня сейчас едва удар от жары не сделался!
2. - Даже что-то вроде галлюцинации было, – он попытался усмехнуться, но в глазах его еще прыгала тревога, и руки дрожали.

1. 'Pah, the devil!' exclaimed the editor.
2. 'You know, Ivan, I nearly had heat stroke just now!
3. There was even something like a hallucination...'
4. He attempted to smile, but alarm still jumped in his eyes and his hands trembled.

В итоге имеем 9707 предложений на английском против 8996 на русском. Это довольно большое различие, поэтому после первичного выравнивания с параметром window=100 получаем более 1000 конфликтов.

К счастью, после разрешения конфликтов эти кусочки все равно склеятся обратно.

Такая же ситуация с китайским языком, там в целом есть тенденция перевода более короткими предложениями чем в оригинале.

Выход за пределы окна

Упомяну польский текст, который тоже был найден, но не подошел по следующей причине. В польском тексте (8190 предложений) у нас слишком часто отсутствуют целые куски текста. Поток выравнивания получается местами обрывистым и окна в 100 уже не хватает, — мы постоянно выходим за его пределы:

batch_ids = range(10,12)

aligner.align_db(db_path,                 model_name,                 batch_size=200,                 window=100,                 batch_ids=batch_ids,                 save_pic=False,
                embed_batch_size=25,                 normalize_embeddings=True,                 show_progress_bar=True
                )

Дальнейшее расширение окна увеличит процент ошибок, поэтому мы перейдем в ручной режим и задействуем параметр shift. Этот параметр позволяет сдвигать поток второго текста при расчете батча:

batch_ids = range(10,12)

aligner.align_db(db_path,                 model_name,                 batch_size=200,                 window=100,                 batch_ids=batch_ids,                 save_pic=False,
                embed_batch_size=25,                 normalize_embeddings=True,                 show_progress_bar=True,
                shift=-100 #сдвигаем русский текст
                )

Плюсом такого подхода является то, что мы можем уменьшить окно, улучшив первоначальное качество. Минусом является большее количество итераций.

После разрешения конфликтов эти же куски выглядят так:

Отсутствие частей текста

Ручной режим не поможет нам восстановить разрывы, если в каком-то тексте нет соответствующего куска:

Разрешение таких конфликтов приведет к тому, что какому-то предложению станет соответствовать большой отрывок текста на другом языке. Если таких ситуаций одна-две на весь текст (так было с английским и белорусским текстами), то, в принципе, ничего страшного. В случае польского же отсутствовало более 20 отрывков, поэтому я решил его не добавлять.

Второй уровень выравнивания

К этому моменту мы получили семь файлов с выравниваниями master_*.
Их особенностью является то, что все они выровнены относительно одного языка (русского). Казалось бы, давайте просто возьмем абзацы и сходу получим необходимые локализации.

Делаем так и спустя несколько страниц получаем вот это:

Дело в том, что в некоторых текстах (на рисунке это немецкий) одно предложение могло соответствовать двум русским. Если при этом русские предложения считались разными абзацами, то эти абзацы будут слиты в один. Поэтому в обычной двуязычной книжке все будет хорошо, но относительно друг друга структура абзацев у выравниваний будет отличаться. На помощь приходят метаданные, которые хранятся в базе (наши *.db файлы).

Метаданные

В метаданных хранится информация о том, какое предложение какому абзацу соответствует. Можно получить структуру абзацев для каждого текста в виде массива чисел, показывающих номер последнего предложения в абзаце.
Эти массивы можно слить в один по принципу объединения более мелких интервалов:

par_struct_1 = [2, 5, 6, 8, 10, 12, ...]
par_struct_2 = [2, 6, 8, 10, 11, 12, ...]

res = [2, 6, 8, 10, 12, ...]

Сгенерируем книгу на основе новой разбивки, получим следующий результат:

Стало выглядеть лучше, теперь абзацы формируются относительно русского языка на единой основе.

Индекс

Абзацы починили, но обратим внимание на подсветку предложений и увидим, что во многих местах она разъехалась:

Причина этого в том, что разные тексты имеют разные тенденции по делению на предложения. Чтобы синхронизировать еще и их, придется немного повозиться со следующей сущностью, — с индексом.

На архитектурном этапе я придумал хранить структуру выравнивания как индекс. После выравнивания он выглядит он так:

[
    --первый батч
    [
        --первая пара предложений корпуса
        [1, "[1,2]", 1, "[1]"],

        --вторая и т.д.
        [2, "[3]", 2, "[2]"],
        [3, "[4,5]", 3, "[3]"],
        [4, "[6]", 4, "[4,5,6]"],
        ...
    ],
    --второй батч
    [
        [1, "[100]", 1, "[105]"],
        ...
    ],
    ...
]

В этом примере в первом элементе мы склеили два оригинальных предложения "левого" текста и сопоставили ему первое предложение "правого". Числа в кавычках — ссылки на оригинальные предложения, вне кавычек — ссылки на фактические данные, которые можно редактировать.

Такая структура дает много возможностей:

сохраняется информация о слиянии оригинальных строк
можно добавлять новые элементы в любое место без перезаписи идентификаторов фактических строк
можно удалять элементы из параллельного корпуса, удалив только из индекса
можно редактировать данные, не меняя оригинальные строки
можно пересчитывать отдельные батчи, не затрагивая остальные

Главное для нас здесь то, что из индекса мы можем вытащить структуру элемента корпуса относительно русского языка. Сопоставляя абзацы друг другу, мы опять будем сливать по минимальному принципу. В результате получим разбивку такого типа:

[[1], [2], [3]] -> [[1, 2, 3], [4], [5]] -> [[1], [2], [3]]
[[4]] -> [[6]] -> [[4]]
[[5]] -> [[7]] -> [[5, 6]]
...

Здесь каждая строка — это абзац на трех языках, каждый подмассив а абзаце — это номера строк из целевого текста. Таким образом мы поделили каждый набор абзацев на одинаковое число соответствующих друг другу частей.

После исправлений

Посмотрим, как станет выглядеть подсветка теперь:

Так как мы объединяем структуру по минимальному принципу (в данном примере в китайском было меньше всего предложений на абзац), то подсветка стала ровнее, но беднее. Если убрать китайский, то она станет выглядеть так:

Шаг 4. Создание многоязычной книги

В большинстве случаев будет достаточно создания двуязычной параллельной книги и методов get_paragraphs() и create_book(). Но если вы дочитали до этого момента, то самое время попробовать сделать многоязычную книгу.

Логика по выравниванию абзацев для многоязычных книг содержится в методе get_paragraphs_polybook(), в который мы передадим все наши файлы. Так как при выравнивании система опирается на номера исходных строк, то в файлах не должно остаться конфликтов, иначе абзацы не будут сгенерированы. Проверить на отсутствие конфликтов можно таким кодом (как их разрешать вы уже знаете):

from lingtrain_aligner import resolver

conflicts_to_solve, rest = resolver.get_all_conflicts(db_path, min_chain_length=2, max_conflicts_len=20, batch_id=-1)

#перед генерацией не должно остаться никаких конфликтов
resolver.get_statistics(conflicts_to_solve)
resolver.get_statistics(rest)

Далее получим набор подготовленных текстов на всех нужных языках:

from lingtrain_aligner import reader

db_path1 = "db/master_de.db"
db_path2 = "db/master_uk.db"
db_path3 = "db/master_be.db"
db_path4 = "db/master_zh.db"
db_path5 = "db/master_cz.db"
db_path6 = "db/master_en.db"
db_path7 = "db/master_hu.db"

paragraphs, metas = reader.get_paragraphs_polybook(
                        db_paths=[db_path1, db_path2, db_path3, db_path4, db_path5, db_path6, db_path7])

Теперь самое интересное, — мы можем выбрать нужные нам языки и создать нашу книжку. Можно, например, взять английский и немецкий, многие учат эти языки в паре.

reader.create_polybook(
                lang_ordered=["en", "de", "ru"],
                paragraphs = paragraphs,
                delimeters = delimeters,
                metas = metas,
                output_path = "lingtrain_master.tml",
                template="none")

Параметр lang_ordered задает набор и порядок языков.

Можно сделать белорусско-китайскую версию:

reader.create_polybook(
                lang_ordered=["be", "zh"],
                paragraphs = paragraphs,
                delimeters = delimeters,
                metas = metas,
                output_path = "lingtrain_master.html",
                template="none")

Можно, конечно, и всё взять:

reader.create_polybook(
                lang_ordered = ["ru", "en", "de", "be", "uk", "cz", "hu", "zh"],
                paragraphs = paragraphs,
                delimeters = delimeters,
                metas = metas,
                output_path = "lingtrain_master_total.html",
                template="none")

Лучше оставлять те выравнивания (*.db файлы), языки которых, вам нужны. Это позволит сохранить как можно больше информации об абзацах. Со стилями все как раньше, можете задавать template (сейчас есть "pastel_fill", "pastel_start"), можете придумывать свои, — примеры есть выше и в блокноте на Colab. Если задать template="none", получится чистая книга.

Планы и поддержка

Дальше планируется поддержать fb2 формат для читалок и добавить подстрочный перевод. Также хочу расширить возможности разметки, добавить вставку картинок. Затем оформить это в виде веб-приложения, чтобы люди могли создавать книги без написания кода.
Скидывать тексты для тестирования и выравнивания, делиться предложениями и багами можно в канале http://t.me/lingtrain_books.
Подержать проект финансово можно переводом. Деньги пойдут на хостинг веб-приложения и ускорят его разработку.

Ссылки

Все упомянутые в статье ссылки:

[1] Первая часть статьи

[2] Код lingtrain-aligner на github

[3] Google Colab блокнот с выравниванием

[4] Кот Бегемот с обложки был найден здесь

[5] PDF. Семь параллельных книг "Мастер и Маргарита"

[6] Телеграм-группа

Комментарии (12)

NeoCode
03.06.2021 00:44
#23108684
Интересно, а какой нибудь классической оффлайн софтины для этого нет? Т.е. загружаешь две pdf-ки (txt, fb2, ...) в две части окна, и далее мышью сопоставляешь абзацы (с возможностью разбить абзац на два, склеить из двух один, пропустить кусок и т.п.)
1. averkij Автор
  03.06.2021 09:03
  #23109258
  Это будет довольно долгий процесс. 3000 тысячи абзацев с одной стороны, 3500 с другой (на языке, который вы только изучаете). Мышь в руку и вперёд :)

Emelian
03.06.2021 07:16
#23109000
Я лично сторонник работы с интерактивным звуком, плюс использование метода «запоминание руками». Сейчас работаю над новой версией программы, старый прототип которой можно посмотреть на scholium.webservis.ru. Также интересно создание обучающих видео роликов с двуязычными субтитрами, повторами и паузами. Примеры моих экспериментов можно глянуть на my.mail.ru/mail/emmerald/video/_myvideo. Как то это кажется более современным подходом.

SinsI
03.06.2021 07:23
#23109014
Интересно было бы провернуть что-нибудь подобное с аудиокнигами, или с аудиокнигами и их текстами/переводами текстов — открываешь страницу с русским текстом, а тебе её же проигрывают с английской аудиокнигой, при этом выдавая караоке-подсвечивание текущего предложения.
1. averkij Автор
  03.06.2021 09:05
  #23109260
  Может путаю, но видел такое в Audible от амазона. Там, если купить одновременно книгу и аудиокнигу, то можно слушать и видеть текст, который читается.

niccolo2019
03.06.2021 08:33
#23109178
А почему не используете обычные программы сопоставители типа Abbyy Aligner, LF Aligner etc?
Заходите сюда forum.ru-board.com/topic.cgi?forum=93&topic=4071&start=80#lt
1. averkij Автор
  03.06.2021 08:53
  #23109236
  ABBYY Aligner пробовал, он не умеет автоматически сопостовлять одной строке набор строк и наоборот. Если выравнивать книгу на десяток тысяч строк, то это слишком много ручной работы. Потом я не знаю, сможет ли он запомнить, где были концы абзацев, чтобы из полученного корпуса сделать книжку. Да он и платный к тому же. Еще несколько библиотек и софтин пробовал, но они были такие же глупые.
  
  Тут смысл в том, чтобы из двух текстов сделать готовую книгу с минимальными усилиями. Если использовали что-то более продвинутое, буду рад услышать. На форум зашёл.
  1. niccolo2019
    03.06.2021 09:53
    #23109424
    Abbyy Aligner сопоставляет по предложениям с приоритетом словарного алгоритма, т.е. иногда предложения и с той и с другой стороны принудительно объединяются, пока не будет достигнут некий приемлемый уровень совпадения.
    Ручная работа остаётся ВСЕГДА. Проблема сделать её быстрой и удобной, чем Abbyy Aligner не отличается.
    Поскольку он больше не поддерживается и не развивается — компания часто раздаёт его по всяким акциям.
    
    Если смысл быстро — зачем уходить на уровень предложений — абзацного уровня будет вполне достаточно.
    Это тем более актуально, что в инженерно-научных книгах времён СССР часто опускали абзацы, специфичные только для США/Великобритании, по иному давали ссылки на литературу и т.п. (что тоже часто ставит в тупик программы автоматического сопоставления).
    
    averkij Автор
    03.06.2021 11:21
    #23109834
    Смысл не только в том, чтобы быстро. Изначально, то что я делаю, — это редактор параллельного корпуса для НКРЯ (большой корпус русского языка). Отсюда необходимость соответствия на уровне предложений и выгрузка корпуса в разных форматах.
    
    Для разбития на предложения сырого текста есть хорошие библиотеки (например, razdel), которые учитывают нюансы синтаксиса. А разбить текст на абзацы автоматически не всегда можно, это все-таки логическое «авторское» деление. Поэтому надо текст предобработать (в статье это четвертое правило разметки), и лучше это делать только с одним текстом, чем с всеми. Для книги, которую выравнивали в статье, например, удачно был найден оригинал текста, там кажый абзац был на одной строке. А у всех остальных было как попало. Нужно было бы просматривать и править ещё семь текстов по ~10000 строк.
    
    К тому же, я увлекаюсь изучением иностранных языков, и подсветка предложений в двух параллельных текстах мне очень помогает. Мне кажется это полезным дополнением как минимум на начальном этапе изучения.
    
    По поводу того, что всегда остается ручная работа, я согласен. Для меня всё же лучше, когда её остается минимум. С выравнивателем от ABBYY и тех, что я пробовал, надо было затрачивать существенно больше времени (по крайней мере мне).
    
    niccolo2019
    03.06.2021 11:42
    #23109978
    1. А чем Вас не устраивают существующие ТМХ редакторы — например, давно выложенный в свободный доступ с исходниками Heartsome TMX editor? Может быть проще сделать фильтр ТМХ/Xliff для MSO/LO?
    2. Я не программист, но как практик — разбить голый текст на предложения можно и набором регвыров, который нейтивы могут подогнать под особенности своего языка.
    3. Удачный оригинал для экспериментов — это примерно как козырный туз или джокер из рукава… С такими документами почти все сопоставители работают ОЧЕНЬ ХОРОШО (на основных европейских языках обычно проблемы с пропусками и прямой речью). Обычно же приходится работать со сканами разной степени паршивости.
    4. Пользы от того, что легко даётся — много не бывает. И если раньше, необразованные революционеры выучивали за полгода немецкий для чтения Маркса в подлиннике, то сейчас, со всеми примочками и МП, выпускники ИИЯ такую дичь пишут, что даже не знаешь, что сказать.
    5. Никто не спорит о полезности, когда остаётся минимум. Вопрос только — а как понять? Огромным минусом Абби, да и у вас не вижу, является отсутствие метрики верности сопоставления для каждого сегмента — по словарю, ТМХ, ну или всяким Левенштейнам и иже с ними… Тогда, отфильтровав предложения по порогу неверного сопоставления, можно существенно сократить работу, хотя бы на время переходов от одного плохого сегмента к другому.
    6. Библиотека — это хорошо. Но простым пользователям лучше GUI или, на худой конец, батник, который бы из двух исходников в PDF/TXT/DOC(X)-ODT делал ТМХ/TSV.
    
    averkij Автор
    03.06.2021 12:18
    #23110170
    1. Другие редакторы устраивают, но надо в них что-то подать. Код из моего редактора, я вынес в отдельную библиотеку и про нее написал в этой статье. Она как раз умеет выгружать в TMX в том числе.
    Плюс своего редактора в том, что я добавляю в него функционал, который требуется команде и который использует дополнительные данные, полученные из библиотеки. Плюс модели можно менять, дообучать. Плюс эти модели мультиязыковые, 100+ языков в самой большой. Про фильтр на ТМХ/Xliff, MSO/LO я не до конца понял.
    2. Можно, конечно, но в вышеупомянутой библиотеке razdel это уже сделано, плюс там еще куча правил, словари и прочие хитрости. Для китайского я тоже у себя наделал каких-то регулярок, без этого никак.
    3. Ну тут посыл был в том, что если ни одного такого джокера не нашлось, то лучше обработать руками один, чем все. Это если говорить про разбиение на абзацы. Со сканами я не работал. В моем кейсе у нас есть два качественных текста, которые мы нашли/купили и хотим сделать из них параллельную книгу.
    4. Тут не знаю, что сказать, философствовать надо :) Мне лично изучение доставляет удовольствие и этого достаточно. Хобби все-таки.
    5. На самом деле есть, модель на входе получает два предложения и на выходе дает какую-то чиселку. В редакторе это можно задействовать и фильтровать по этой чиселке, если нет задачи сохранить весь текст.
    В случае книжки же хотелось максимально хорошо выправить тексты, ничего не потеряв.
    6. GUI делаю, в конце статьи про это писал.
1. averkij Автор
  03.06.2021 09:09
  #23109278
  Кстати, выгружать моей библотекой в TMX формат тоже можно.

Сам себе Гутенберг. Делаем многоязычные параллельные книги +21

Семь книг

Шаг 1. Подготовка текстов

Правила

Метки

Текст

Шаг 2. Выравнивание

Попробовать в Colab

Попробовать локально

Визуализация

Разрешение конфликтов

Цикл

Шаг 3. Создание двуязычной книги

Выравниваем остальные книги

Большая разница в количестве предложений

Выход за пределы окна

Отсутствие частей текста

Второй уровень выравнивания

Метаданные

Индекс

После исправлений

Шаг 4. Создание многоязычной книги

Планы и поддержка

Ссылки

Комментарии (12)

NeoCode

averkij Автор

Emelian

SinsI

averkij Автор

niccolo2019

averkij Автор

niccolo2019

averkij Автор

niccolo2019

averkij Автор

averkij Автор