image

Как переводить документ в Word и не париться с форматированиемКак не переводить одно и то же? Как сохранять единообразие? Как не покупать дорогие программы? Как работать эффективно и быстро?

Если вы знакомы с Trados, MemoQ или CrowdIn, переходите сразу к инструкции по установке. Если же это новые для вас слова — добро пожаловать в прекрасный мир Computer Aided Translation. 


О переводе с помощью компьютера


Google Translate — машинный перевод, компьютер переводит за вас. CAT — принцип работы, когда компьютер только помогает в работе, автоматизируя рутинные процессы.

CAT-программы разделяют исходный текст на сегменты строки, предложения, параграфы или абзацы. Человек переводит сегмент один за другим, а перевод сохраняется в специальную базу данных — память перевода (translation memory, TM). Если переводчику встретится похожий сегмент, программа покажет подсказку или возможный перевод. А одинаковые сегменты программа может переводить сама.

Особенно хорошо CAT помогает в переводе инструкций, юридических документов, интерфейсов программ — там, где похожие формулировки встречаются очень часто. В художественном переводе помощь будет не так очевидна, но об этом позже.

Чем больше текстов по схожей тематике вы переводите, тем больше накапливается переводов в базе данных, чаще появляются подсказки. За годы может накопиться такая база, что в новом документе половина перевода будет готова «сама по себе».

Когда перевод закончен, программа создаёт документ, идентичный оригиналу — сохраняя структуру и форматирование, но заменяя исходный текст на ваш перевод.

CAT-программы не изменяют исходный документ, поэтому необратимо испортить документ невозможно. На выходе будет полностью переведённый файл.

Какие бывают CAT-программы?


Разные. Trados, MemoQ — дорогие корпоративные комплексы, устанавливаются на компьютер. CrowdIn, Tolmach и другие — работают прямо в браузере. Как правило, всё стоит денег, либо есть ограничения по объёму проектов.

Но не всё так плохо: я уже лет восемь пользуюсь OmegaT, бесплатной программой с открытым исходным кодом, которая работает на Windows, Mac и Linux-системах и постоянно совершенствуется сообществом. Работаю в ней с китайским, английским и русским языками.

Что умеет OmegaT?


OmegaT
www.omegat.org
Freeware (GPLv3), open source
Windows, macOS, Linux

Умеет всё, что описано в первой главе — помогать переводчику в работе, и разные другие мелочи.

Форматы файлов

  • Microsoft Word, Excel, PowerPoint (только новые .xlsx, .docx и *.pptx, старые нужно сначала сконвертировать)
  • OpenOffice .ods, .odt и прочие
  • Текстовые файлы .txt, .rtf
  • Текстовые файлы структуры key=value (*.ini и подобные)
  • HTML
  • Файлы с XML-структурой (можно настроить самому)
  • И многие другие.

Языки

Любые. Практически всё, что есть в Unicode. Для редких языков может понадобиться корректировка правил сегментирования, но всё решается.



Я не буду пересказывать инструкцию. Она полная и содержательная, и ознакомиться с ней очень важно. Дальше будут лишь основные операции с программой, которые помогут начать работу.



Установка


Скачайте дистрибутив с сайта omegat.org. Я буду использовать англоязычную версию 4.1.1 ветки Latest для Windows. Для запуска требуется Java. Если не уверены, есть ли она у вас, качайте версию с пометкой JRE. Не пугайтесь надписи Beta, программа работает более чем стабильно.

Проверка правописания


После установки программа готова к работе, но по-умолчанию не хватает проверки орфографии.

  1. Запускаем OmegaT
  2. Переходим в Options > Preferences > Spellchecker
  3. Ставим галку Automatically check the spelling of text
  4. Нажимаем Install new dictionary
  5. Выбираем язык (например, ru_RU для русского), нажимаем Install
  6. Жмём Close. В списке видим русский язык.
  7. Выходим из настроек.



Как создать проект


OmegaT работает не с отдельными файлами, а с «проектами». Проект — набор папок с определённой структурой. Чтобы перевести файл, нужно создать проект, а потом добавить туда файл.

  1. Запускаем OmegaT
  2. Project > New, выбираем место для сохранения и имя проекта. Я рекомендую давать проектам осмысленные имена и указывать в них языковую пару. Например, Test-Project_EN-RU.



  3. В появившемся окне укажите языковую пару

    Source Files Language — язык, с которого вы переводите; Target Files Language — язык, на который вы переводите. Указывать нужно в двух- или четырёх-буквенном коде. Например, RU — русский язык, а RU-RU и RU-BY — уточнение, что это русский из РФ и русский из Белорусии. Чтобы работала проверка правописания, код должен совпадать с кодом, указанным в настройках орфографии (если в орфографии установлен RU-RU, а в проекте будет RU, то проверка работать не будет).

  4. Ниже отметьте галочки Enable Sentence-level Segmenting (делить сегменты по предложениям, а не по абзацам) и Auto-propagation of Translations (подставлять переводы автоматически). Галочку Remove Tags (убирать теги) лучше снять, я объясню её работу позже.



  5. Нажимаем ОК.

Что это за папки?


Внутри папки проекта есть несколько под-директорий:

  • dictionary — можно добавить словари в формате StarDict; функция довольно бесполезная.
  • glossary — база терминов по проекту, об этом позже;
  • omegat — память перевода и резервные копии проекта;
  • source — папка с иходными файлами;
  • target — папка, в которой будут появляться переводы;
  • tm — папка для дополнительных памятей перевода, об этом позже.

А также файл omegat.project с конфигурацией текущего проекта.

Как добавить файлы


Создав проект, вы увидите такое окно:



Нажмите Copy Files to Source Folder и выберите файлы, которые вы хотите перевести. Файлы будут скопированы в папку \source\ только что созданного проекта. Вы можете добавить туда файлы вручную. Просто скопируйте файлы в \source\ через проводник.

Для примера я создал два файла — Excel и Word, на которых я буду показывать работу OmegaT.

Интерфейс


OmegaT запущена, файлы добавлены. Давайте посмотрим, как они выглядят в программе.

Вот исходный документ в Word. Здесь видны заголовок, абзацы, форматирование (жирный шрифт, ссылки, подчёркивания).



А вот как он выглядит в OmegaT:



Обратите внимание: весь текст разделён на предложения, форматирования не видно, появились какие-то теги серого цвета, а заголовок заголовок дублируется. В чём дело?

  1. Текст разделился на сегменты

    Каждое предолжение выделилось в отдельный сегмент. Правила сегментации можно настроить самостоятельно при необходимости.
  2. Форматирование в OmegaT не видно, его заменяют теги

    Они представляют собой сокращения тегов из Word, которые иначе могли выглядеть как <t>. Чтобы сохранить оригинальное форматирование, нужно оставлять эти теги как есть, вписывая перевод между тегами по той же логике, что и в оригинале.
    Опция Remove tags в настройках проекта убирает теги вместе с форматированием. Не рекомендуется использовать, если важно сохранить оригинальное форматирование.
  3. Заголовок не дублируется.

    На самом деле, сверху (в зелёном цвете) всегда отображается текст на исходном языке, изменить его нельзя. Под ним находится текстовое поле, куда по-умолчанию скопирован тот же самый текст. Его нужно удалить и вписать перевод.

Кроме того, в правой части программы есть ещё два сектора: Fuzzy Matches и Glossary (словарь проекта).

Fuzzy Matches (нечёткие совпадения) — результаты поиска по базе данных проекта. Там будут отображаться подсказки по переводу, основанные на ваших предыдущих переводах.

Glossary (словарь проекта) — результат поиска по глоссарию, который вы составляете самостоятельно. В отличие от памяти перевода, это не готовый текст, а лишь подсказки по определённым терминам. Это мощный инструмент, который помогает сохранять единообразие в терминологии.

Как переводить


  1. Дважды кликните на сегмент для перевода
    Под оригинальным текстом появится редактируемая текстовая строка, курсор будет в её начале, а в строке будет продублирован оригинальный текст.
  2. Впишите свой перевод
  3. Нажмите Enter
    При нажатии перевод сохранится, а курсор перейдёт к следующему сегменту.



Повторяйте, пока не закончите документ. В любой момент можно вернуться к предыдущему сегменту, просто дважды щёлкнув на него.

В правом нижнем углу есть удобный индикатор прогресса. Кликните на него, чтобы переключить режим просмотра.

Текущий файл: % сегментов переведено (сегментов осталось) / Проект: % сегментов переведено (сегментов осталось), общее число сегментов.[/caption]

В этой строке указано, что в текущем файле переведено 5,8% уникальных сегментов, осталось перевести ещё 1382. А суммарно в проекте переведено 63% сегментов, осталось 1756, а их общее число в проекте — 5979.

Файл: переведено уникальных сегментов / общее число уникальных сегментов (проект: переведено уникальных сегментов / всего уникальных сегментов, всего сегментов в проекте)[/caption]

Во втором режиме на иллюстрации сказано, что в файле из 1592 уникальных сегментов переведено 146, а в проекте из 4748 уникальных сегментов переведено 2992. Всего сегментов (включая повторы) — 5979.

Цифры 14/14 в конце не относятся к счётчику проекта. Это — индикатор длины сегмента с которым вы работаете. Он говорит, что в оригинале было 14 символов, и в переводе их тоже 14. Эта функция полезна в тех случаях, когда нужно строго соблюдать длину строки, например при переводе интерфейса программ.

Нечёткие совпадения Fuzzy Matches


Самый главный инструмент любого CAT-приложения, ради этого они и существуют.
Объясню на примере:



В документе-образце первое предложение очень похоже на четвёртое. Я шёл по порядку и перевёл первое предложение. Когда же я дошёл до четвёртого, программа сразу же показала нечёткое совпадение:

Посмотрите внимательно на панель совпадений:



В верхней части отображается текст на исходном языке, который был сохранён в памяти перевода. Синим цветом выделны слова, которые присутствуют в памяти перевода, но отсутствуют в текущем предложении (с которым сравнивается совпадение), зелёным — слова, расположенные рядом с недостающими частями.

Ниже будет перевод, сохранённый в памяти. Если нажать Ctrl+R, то он скопируется в поле для перевода.

Ещё ниже указаны три числа в процентах. Они означают степень совпадения между предложением и памятью перевода. Подробнее о механизме вычислений можно прочитать в справке к OmegaT.

Автоматический перевод одинаковых сегментов


Конечно, если механизм Fuzzy Match найдёт 100% совпадение, он может вставить его самостоятельно. Для примера возьмём ещё один файл, на этот раз в Excel. Примерно в таком виде нередко приходит заказ на перевод интерфейса какого-нибудь сайта или программы.



А вот как файл выглядит в OmegaT:



Обратите внимание, что в оригинале было шесть строчек See All. Программа убрала все дубликаты, оставив лишь одну строчку. Достаточно перевести её одну, и остальные сегменты тоже переведутся.

Глоссарий


Глоссарий работает очень просто. Сначала вы добавляете в него слова (оригинал и перевод). Теперь, когда слово встретится в тексте, в окошке Glossary сразу же отобразится подсказка.

Таким образом, когда в новом предложении появился какой-то термин, вы сразу будете знать, как именно следует его переводить. Например, если при переводе интерфейса программы всегда нужно писать «Хорошо» вместо «ОК», достаточно добавить в словарь слово «ОК» с переводом «Хорошо». Добавив несколько сотен слов в проект, вы значительно облегчите себе жизнь.

Чтобы добавить слово в глоссарий, выделите его, щёлкните правой кнопкой и выберите Add Glossary Entry.



Кроме того, слова можно добавить массово в файл \glossary\glossary.txt в формате «оригинал табуляция перевод» (подойдёт таблица в Excel, сохранённая в формате tab-delimited *.csv)

Как сохранить


Пункт Project > Save означает «сохранение проекта», т.е. запись всех переводов в файл базы данных. А чтобы получить готовый файл, нужно выбрать Project > Create translated documents.



По этой команде OmegaT создаст новый файл в папке \target\ с тем же именем, что и оригинал, а весь текст поменяет на перевод. Если какие-то сегменты вы не перевели, то в файле на их месте будет оригинальный текст.

image

Как добавить машинный перевод


В некоторых ситуациях машинный перевод (такой, как Google Translate) может помочь переводить быстрее. OmegaT можно настроить таким образом, чтобы прямо в её интерфейсе отображался машинный перевод сегмента, который вы можете использовать напрямую или очень быстро редактировать.

В OmegaT можно подключить такие системы, как Google Translate, Microsoft Translator и Яндекс.Переводчик. За первые два придётся платить, а Яндекс.Переводчик предоставляет свои услуги бесплатно (в разумных пределах использования). Сейчас я расскажу, как это сделать.

  1. Зарегистрируйте аккаунт в Яндекс.
    Например, заведите почту.
  2. Перейдите на страницу разработчика в раздел «Переводчик» по этой ссылке.
  3. Нажмите Создать новый ключ, введите описание (для себя), нажмите Создать.



Добавим ключ в OmegaT:

  1. В OmegaT перейдите в Options > Preferences > Machine Translation
  2. Выберите Yandex Translate, отметьте его галочкой и нажмите Configure
  3. Скопируйте API ключ в появившееся поле, нажмите ОК
  4. В появившемся окне можно задать пароль либо пропустить это действие.
    Пароль нужен для того, чтобы защитить ваш API ключ. Актуально для платных переводческих систем.



Закройте настройки. Теперь в основном окне программы можно нажать на вкладку Machine Translations в нижней части окна. Чтобы окошко с машинным переводом всегда оставалось на виду, нажмите на небольшой значок с двумя окошками.



Теперь при переходе к новому сегменту программа сделает запрос к Яндекс.Переводчику, получит ответ и покажет его в окне. Горячей клавишей Ctrl+M можно вставить результат в поле перевода.

Как проверить текст на ошибки?


Кроме простой проверки орфографии, которую мы настроили ранее, можно проверить более сложные ошибки, от стилистики до пропущенных тегов. Для этого OmegaT использует открытый инструмент Language Tool. Он поставляется в комплекте с OmegaT, то можно установить отдельно, или подключиться к удалённому серверу.

  1. Tools > Check issues (или Ctrl+Shift+V)
  2. Дважды кликните на ошибке из списка, чтобы перейти к сегменту для редактирования.

По правому клику можно добавить слово в словарь, либо отключить проверку этого типа ошибок.

Слева в окне Check issues можно выбрать фильтр Tags. Он полезен в переводе документов с большим количеством тегов, сохранить которые очень важно — например, при локализации софта.
Совет: Если нужно сохранить теги любой ценой, OmegaT можно запретить создавать финальные документы при наличии ошибок в тегах. Делается это в Tools > Preferences > Tag Processing > Do not allow creating translated documents with tag issues.

Тонкая настройка Language Tool доступна через Tools > Preferences > LanguageTool. Здесь можно выбрать, использовать ли встроенный Language Tool, или подключиться к локальному/удалённому серверу. Ниже можно выбрать тип ошибок, на которые программа будет реагировать, например "Пунктуация" > "Пропущена запятая перед предлогом «И» в сложном предложении", или "Стиль" > "Разговорные слова".

Чем открыть память перевода TMX?


Бывает, что нужно посмотреть, что в файле *.tmx, или даже отредактировать его. Структура у файла довольно простая, и в крайнем случае можно обойтись блокнотом, но это не слишком удобно. OmegaT не может сама открыть TMX для редактирования: память перевода можно только добавить в проект, но не открыть её саму по себе.

Для Windows-пользователей подойдёт бесплатная утилита Olifant из пакета Okapi, скачать можно здесь.



Не вижу смысла писать пошаговую инструкцию к этой программе, всё интуитивно понятно: File > Open, выбираем память перевода. В верхней части программы оригинал и перевод, в нижней — список всех сегментов.

Через File > TM Properties можно изменить свойства памяти перевода, такие как языковые пары, кодировку, и прочее.

Как создать свою ТМ?


Допустим, у вас уже есть качественный двуязычный файл, и вы хотите использовать его в проекте как справочный материал. Если файл в формате Excel, где в одном столбце оригинальный текст, а в ячейках напротив — соответствующий перевод, сделать ТМ очень просто.

Существует три способа, которыми я пользуюсь:
  1. Бесплатная утилита Okapi Olifant
  2. Встроенный OmegaT Aligner
  3. Онлайн-сервис Translatum.gr

Olifant


Программа, о которой мы говорили в предыдущей главе, может не только открывать готовые TMX, но и создавать новые, а так же объединять несколько *.tmx в одну память.

Установите и запустите Olifant, нажмите File > New и выберите язык исходника и язык перевода. Теперь добавим в новую память двуязычные сегменты: File > Import. Можно добавить файлы Wordfast, другие *.tmx или Tab-delimited files — другими словами, текстовый файл, где исходный фрагмент и его перевод разделены табуляцией.

Tab-delimited файл можно создать в MS Excel или Libre Office Calc. Для этого создайте таблицу с двумя столбцами. В первом вставьте исходный текст, в ячейках напротив во втором столбце — перевод.

Сохраните файл в формате Tab-delimited textMicrosoft Office), либо в Text CSV с параметрами Field delimiter = Tab, Character set = UTF-8 и Text delimiter = *пустой*, если вы используете Libre Office.



Когда импортируете все нужные фрагменты, просто сохраните через File > Save As в формате TMX.

OmegaT Aligner


В отличие от Olifant, источником служит не таблица с двумя столбцами, а два независимых файла с идентичной структурой, но на разных языках. Чем сложнее форматирование и чем больше отличий, тем хуже будет результат автоматического сопоставления, но его можно подправить вручную внутри Aligner.

Запустите OmegaT, откройте Tools > Align Files. Укажите языки оригинала и перевода, прикрепите файлы.



При необходимости можно убрать теги и изменить параметры сегментации. Нажмите Continue, и вы перейдёте к окну с ручной корректировкой сегментов: можно разбить, объединить или переместить сегменты вверх или вниз.



Когда всё выглядит хорошо, сохраните результат кнопкой Save TMX.

Translatum.gr


Работает аналогично Olifant, на входе нужно подать Excel-файл с двумя столбцами текста.

  1. Создайте новый файл Excel (обязательно *.xlsx)
  2. В первую колонку вставьте оригинальный текст, во вторую — перевод
    Не используйте форматирование, оно не сохранится
  3. Перейдите по ссылке конвертера
  4. Выберите созданный файл
  5. Укажите коды исходного и целевого языка
    Например, если у вас англо-русский текст, это будет EN-US и RU-RU
  6. Нажмите кнопку Submit
  7. Откроется страница, с которой вы сможете скачать архив с памятью перевода.

tmx converter

Чтобы использовать память перевода в проекте, распакуйте архив и поместите файл в папку проекта, поддиректория \tm\ (для отображения fuzzy matches) либо \tm\auto\ (для принудительного использования 100% совпадений).

Внимание!

Существует довольно неприятный баг при создании памяти перевода, где используются особые символы вроде ">", "<" и даже апострофов. TMX представляет из себя структуру XML, поэтому спец-символы, используемые в структуре документа, конвертируются в «безопасные» куски текста. Например, апостроф ' превратится в &pos; (амперсанд, pos и точка с запятой).

В некоторых ситуациях это может сильно замусорить память перевода. По правде говоря, решения этой проблемы я пока не нашёл.

Как посчитать объём проекта


Надо же сказать заказчикам, сколько вы возьмёте за перевод!

На самом деле, нет ничего проще. Откройте проект в OmegaT, перейдите в Tools > Statistics.



Здесь вы найдёте исчерпывающую информацию о том, сколько слов и символов в файлах, как много здесь повторов, сколько уже переведено и сколько осталось перевести, и так далее.

К сожалению, калькулятора стоимости перевода в OmegaT нет, вам придётся посчитать всё самостоятельно.

Как объединить и разделить сегменты?


Бывает, что вы хотите объединить два сегмента в один, или наоборот, заставить конкретный сегмент разделиться на две части. Если проблема встречается с большим количеством сегментов в проекте, то стоит перенастроить правила сегментации. Если же нужно точечно объединить или разделить сегменты, воспользуйтесь специальным скриптом Merge or split segments:

  1. Установите скрипт
    Скачайте здесь, распакуйте в папку \scripts (в Windows это может быть С:\Program Files (x86)\OmegaT\scripts\)
  2. Сделайте правила сегментации Project Specific
    Project > Properties > Segmentation > отметьте галочку Make the segmentation rules project specific
  3. Задайте скрипту кнопку
    Tools > Scripting, в левой части окна найдите Merge or split segments, выделите его щелчком мыши, а затем нажмите правой кнопкой на одну из цифр в нижней части окна. Например, на единицу. И нажмите Add script.



Теперь вы можете объединять или разделять сегменты.

Объединение


  1. Найдите два сегмента, идущих друг за другом, которые вы хотите объединить;
  2. Перейдите к первому сегменту;
  3. Нажмите Tools > 1. Merge or split segments

Программа покажет предупреждение с результатом объединения. Можете нажать ОК для объединения, или отменить действие.

Разделение


  1. Найдите сегмент, который вы хотите разделить;
  2. В исходном тексте сегмента (над переводом) выделите вторую половину текста (от середины и до самого конца), которую вы хотите сделать отдельным сегментов;
  3. Нажмите Tools > 1. Merge or split segments



Программа покажет предупреждение с результатом разделения. Можете нажать ОК для разделения, или отменить действие.

Скрипт создаёт новое правило сегментации и применяет его к проекту. Скрипт очень далёк от идеала, и работает не всегда, но пока в OmegaT это единственный способ для точечного разделения/объединения сегментов.

Вместо заключения


Я объединил две заметки из своего уютного бложика в одну огромную простыню про OmegaT. Постарался раскрыть все её основные возможности, которыми сам пользуюсь регулярно. В комментариях обязательно напишите, почему статья стрёмная и в каком хабе ей на самом деле место.

Профессиональные переводчики должны покритиковать мой англо-русский перевод и поучаствовать в опросе по нормальным CAT-программам.

P.S.: кто-нибудь знает, почему движок GT не понимает html-ссылки внутри страницы?
Каким софтом для переводчиков вы пользуетесь?

Проголосовало 26 человек. Воздержалось 55 человек.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Поделиться с друзьями
-->

Комментарии (26)


  1. CarambaPirat
    23.05.2017 12:08

    Когда-то переводил статью несколько лет назад. Вроде как программой OmegaT. Пробовал разные вещи, но именно двух-страничный режим с синхронизацией мне помог. Но по-моему я пользовался дополнительно программой словарем, хотя могу ошибаться.


    1. wtigga
      23.05.2017 12:08

      «Двухстраничный режим»? Вероятно, это было что-то другое :-)


  1. g8tguy
    23.05.2017 12:27

    Ой как же это удобно — особенно для вдумчивых переводов! В качестве десктопного переводчика еще очень помогает GoldenDict с толковыми словарями EN-EN — ??


    1. wtigga
      23.05.2017 12:27

      Тоже GoldenDict пользуюсь, надёжнее чем онлайн-словари.


  1. hmpd
    23.05.2017 13:32
    +3

    Статья отличная. Спасибо!

    1. В опросе не хватает пункта «SDL Trados»: SDL ведь купил их несколько лет назад.
    2. Если говорить о сопоставлении сегментов оригинального текста и перевода, можно вспомнить еще WinAlign (входит в состав старого Традоса).
    3. По моим ощущениям, главный недостаток при переводе с помощью CAT-программ — необходимость строго соблюдать структуру оригинала. Для работы с техническими текстами, документами и т. п. это подходит прекрасно, но вот с чем-то более художественным работать уже не очень удобно. Наверное, так и должно быть, все-таки перевод «художки» — это отдельная область.
    4. Глоссарии и проверку текста по ним жутко удобно использовать для языков с бедной (англ.) или отсутствующей (кит.) морфологией. Тот же русский язык уже вызывает трудности: термины опознаются не всегда и не везде, потому что могут стоять в косвенном падеже или какой-нибудь особой форме.

    Резюмируя: CATом можно зарабатывать неплохие деньги при переводе инструкций и всякого такого. Особенно если заказчик не прислал готовую «память перевода» (translation memory) и не знает, сколько в тексте новых сегментов (за них платят 100%), а сколько повторений (за них дают 20%).

    Вопрос автору: насколько стабильна OmegaT? Можно использовать «в продакшене» или она годится только для фриланса? (Что касается перевода на КДПВ: пропущено тире в последнем предложении.)


    1. wtigga
      23.05.2017 14:37

      1. В опросе не хватает пункта «SDL Trados»: SDL ведь купил их несколько лет назад.


      Упс, так и сделал опрос изначально, но что-то пошло не так :(

      насколько стабильна OmegaT? Можно использовать «в продакшене»

      Если под стабильностью понимать «не крашится ли с эксепшном» — то стабильна уже пару лет, во всяком случае stable-ветка. Впрочем, я сижу на latest и там не видел никаких проблем.

      Но нужно принимать во внимание особенности работы, такие как костыль для разделения/сращивания сегментов, и поведение спецсимволов в памяти перевода. С последним я до конца не разобрался, то ли баг, то ли я что-то не так делаю.

      Кроме того, я намеренно не покрыл в туториале командную работу: правильная настройка SVN и выстраивание рабочего процесса через него заслуживает отдельной статьи, потому что geek way и совершенно не дружелюбно к пользователю. Что, в общем-то, не мешало использовать OmegaT на моём предыдущем рабочем месте для команды из нескольких человек.


      1. kaze_no_saga
        23.05.2017 16:44

        >>правильная настройка SVN и выстраивание рабочего процесса через него заслуживает отдельной статьи

        А вот это было бы чертовски интересно лично для меня. Ждем, верим.


        1. wtigga
          23.05.2017 17:08

          Я сам настраивал по инструкциям из интернетов. Чтобы нормально написать, это по хорошему бы опять начать проект минимум на два человека, иначе не описать все особенности и возможные подобные камни.

          Я занесу в «ту-ду» со средним приоритетом :))


  1. AleCC
    23.05.2017 17:59

    Если переводить по одному слову иди фрейзел вербс, то эби лингво.


    1. wtigga
      24.05.2017 04:24

      По-моему, вы не читали статью :)


  1. betrachtung
    24.05.2017 06:59
    +1

    Я обычно пользуюсь для перевода translated.by, очень удобный двухколоночный интерфейс, привязка к мультитрану. Тут стоит учесть, что я любитель, перевожу обычно новости какие-нибудь. Иногда перевожу сложные тексты для друзей, но от этого у меня мозг пухнет.


  1. Iamkaant
    24.05.2017 08:16
    +2

    Спасибо за статью! Очень полезная инструкция для начинающих. Я пользуюсь open source везде, где это возможно, но Омега в моей практике не прижилась. По моему мнению, интерфейс очень непродуманный и не выдерживает никакого сравнения с Memsource/Smartcat. Из претензий – отсутствие двухпанельного режима (не бейте сильно, если я просто не нашел его), отсутствие визуального выделения важной информации (куча циферок в строке статуса), замороченная процедура работы. Но и это терпимо, если бы не сложности с машинным переводом. С Яндексом у меня почему-то не получилось, остальные сервисы платные. Отдельное спасибо Вам за инструкцию по Яндексу, но для Украины это уже не актуально :) Большим плюсом Омеги я считаю возможность править глоссарий на лету, в SmartCAT этого очень не хватает. В общем, прочитав статью, попробую ещё раз пожевать кактус, но ничего не обещаю :)


    1. wtigga
      24.05.2017 08:22

      Двухпанельного режима с превью документа действительно нет. По «визуальному выделению информации» не совсем понял, что имеется в виду.

      Встроенный машинный перевод разве проблема омеги? Сервисы сами по себе платные (кроме яндекса), ничего тут не поделаешь.

      Я живу за великим китайским файерволом, поэтому у меня уже определённая деформация сознания: везде, где можно, пользоваться standalone или self-deployed решениями. Потому что сегодня облако работает, а завтра оно закрыто навсегда. Независимо от масштаба. (ваша блокировка яндекса — это так, пустяки ещё).

      Да и по скорости отклика интерфейса облачным решениям всё ж таки далеко до обычных программ.


      1. Iamkaant
        24.05.2017 10:35
        +1

        По поводу визуального выделения: вот скриншот SmartCAT

        SmartCAT
        image


        1. wtigga
          24.05.2017 10:40

          У вас на скриншоте версия OmegaT семилетней давности :))))) Сейчас получше: теги сворачиваются в компактные (...<t1/>) и блокируются от редактирования по-умолчанию, например. Косметические вещи — да, омега в этом смысле выглядит сермяжно и не юзер френдли. С другой стороны, элементов там не так уж и много, запомнить их можно быстро.

          Работа действительно идёт. В последнем релизе наконец-то вынесли все настройки в одно удобное окно конфигурации, на порядок лучше стало. И добавили LanguageTools к простому сверятелю тегов.

          С Okapi я не так плотно работаю, пользуюсь время от времени для каких-то совсем простых операций. Гайд по омеге же писал по своему многолетнему опыту, в основном чтобы не объяснять кому-нибудь в н-цатый раз одно и тоже, а просто кидать ссылку (:


          1. Iamkaant
            24.05.2017 10:45

            А, и еще одно отличие вспомнил — в том же SmartCAT можно скачать один переведенный файл из проекта, в окне перевода. В Омеге, как я понимаю, нужно конвертировать в Word весь проект целиком.

            Что ж, если разработка идет, то и мотивации использовать гораздо больше :) можно даже попровать feature request, вдруг прокатит.


            1. wtigga
              24.05.2017 10:54

              «Скачать один переведённый файл» — это всмысле «финальный файл» или «вытащить все тексты проекта»?

              Если первое, то Project -> Current translated document, и будет сгенерирован текущий финальный файл в том формате, в котором был оригинал.

              Если второе, то Tools -> Scripting -> Write Excel table, и будет сгенерирован эксель со всем контетом из проекта.


              1. Iamkaant
                24.05.2017 10:59

                Спасибо. Я о втором варианте: на любом этапе перевода можно вытянуть частично переведенный docx-файл из окна перевода, не переходя к окну проекта. Но это уже мои придирки и вкусовщина, т.к. я это использую для бэкапа выполненной работы. ABBYY тоже под санкции попал, мало ли…


                1. wtigga
                  24.05.2017 11:06
                  +1

                  Тогда первый ответ :) В любой момент времени, не переходя к окну проекта, можно горячей клавишей сгенерировать готовые (или частично готовые) файлы. Даже скачивать не надо, всё локально ведь :)


                  1. Iamkaant
                    24.05.2017 11:44

                    Спасибо. Вы меня убедили :)


  1. nad_oby
    24.05.2017 20:27
    +1

    Спасибо за статью.
    Использовал OmegaT лет 8-9 назад.
    Как раз юридические документы.
    А вот программы переводил просто в текстовом редакторе Vim.
    Там обычно .po или .xml и омега как то не прижилась.
    Но это так по мелочам.
    Про настройку репозитория для Ворд/Эксель было бы интересно.
    Особенно прикрутили ли diff и если да то как?


    1. wtigga
      25.05.2017 05:15

      А что за «репозиторий для ворд/эксель»? И каким образом может пригодиться diff?


  1. nad_oby
    25.05.2017 06:53
    +2

    Репозиторий это тот самый SVN или git.
    Настройки тоже интересны, но на самом деле workflow — это самое вкусное.
    Переводчики обычно не технари, организовать совместную работу такой команды это плюс 100500 очков к знанию подводных камней.
    Вот ими делитесь, если желание останется.


    По ответу понятно что никакими diff-tool не пользовались.
    Обычно такой инструмент нужен когда сводишь вместе работу двух разных людей в одном файле — merge.
    Для языков программирования? это достаточно тривиально, простой текст он и в Африке текст, большинство инструментов с ним прекрасно справляются.
    Для Ворд/Эксель нормальных diff не находил, когда искал.
    Часто можно вывернуться поделив большой файл на части и распределив их в команде.
    Кроме Майкрософтовских е немало форматов для которых контроль изменений — боль.


    1. wtigga
      25.05.2017 07:50

      Я знаю, что такое дифф, но переводы — не программирование же :-)
      Если над доком работает несколько человек по SVN, то синхронизация идёт достаточно быстро. Плюс омега может оставлять пометки о том, кто именно перевёл тот или иной фрагмент. Т.е. память перевода постоянно синхронизируется между переводчиками, и любой из них в любой момент может сгенерировать конечный файл.

      Когда мы работали командой, то просто обуславливались, с какого по какой сегмент переводим. Либо делили на разные файлы, да. (со всякими key=value документами это не проблема).

      Командная работа идёт по SVN, но версионность как таковая в омеге не задействована.


      1. nad_oby
        25.05.2017 08:57
        +1

        Тогда всё становится понятнее.
        У меня около года назад стояла задача создать и поддерживать репозиторий для файлов Simulink, так разработчикам пришлось перейти к разработке без мерджей, только версии.
        Инструменты для дифф/мердж существуют но стоили невменяемых денег.

        Для вас может подойти использование инструментов, которые конвертируют Word/Exel на лету в текстовый формат (Markdown?), происходит слияние (merge), а затем, так-же на лету происходит конвертация обратно.
        В идеальном случае, в репозиторий попадет только текст, а реальный документ будет использоваться в работе и как конечный результат.
        Более менее представляю как это сделать на Git, с SVN придется курить мануалы.

        Я бы попробовал в Git использовать в качестве хуков скрипты на основе pandoc.
        Правда это может поломать разметку некоторых файлов.

        Есть ещё word_diff на первый взгляд немного заморочно.
        За то не придется ставить на машины ничего кроме Git клиента, конвертация в собственном облаке.


        1. wtigga
          25.05.2017 11:43
          +1

          У меня уже просто деформация сознания переводчика :-) Для меня нет «документов», вся лингвистическая информация должна храниться в ТМ (памяти перевода). На основе которой уже можно в любой момент сгенерировать нужный документ.