Open-Source инструмент для автоматического перевода книг / forpes.ru

Главная
Open-Source инструмент для автоматического перевода книг

Open-Source инструмент для автоматического перевода книг

26.05.2026 20:19

sys_admin_sysoev 22 12000 Источник

Я перевел учебник по химии - OpenStax «Chemistry: Atoms First 2e», состоящий из 1200+ страниц: https://viacheslavsysoev.github.io/chemistry-atoms-first-russian/

Знание, к которому есть лицензия, но нет языка — это знание, к которому нет доступа.

У меня было две проблемы.

Подписка на Claude с увеличенными лимитами, которые я не успевал использовать.
Языковой барьер, который мешал мне читать книги, которые меня интересуют.

Знание лучших университетов мира формально доступно любому. Однако, между знанием и человеком стоит языковой барьер, и для огромной части мира он непреодолим. Школьник из посёлка с английским на тройку не сядет читать 1200-страничный учебник на чужом языке. Не потому, что глупый — а потому что когнитивная нагрузка двойного перевода делает обучение крайне сложным.

Логично предположить, что в эпоху, когда нейросеть сдаёт экзамены по медицине, задача «перевести книгу» решена. Я пошёл искать готовые сервисы.

Нашёл десяток. Все платные. Ладно, за платное обычно дают качество.

Меня в тот момент интересовала одна книжка. На русском её не было, а читать в оригинале не хотелось. Я решил заплатил неприличные деньги за автоперевод и получил PDF, в котором:

Терминология плавала: «активация» в третьей главе становилась «возбуждением» в седьмой.
Формулы стали бессмысленными надписями (сравнил с оригиналом)
Подписи к рисункам оказались посреди текста. Ссылки «см. рис. 4.2» вели в никуда.
Логики между разделами не было: ощущение, что каждый абзац переводился изолированно гугл переводчиком.

По этой книге было невозможно учиться. Я заплатил за машинный мусор в красивой обложке. И за это просят от 30 до 300 долларов.

И тут две мои проблемы сложились в одну. У меня есть простаивающие лимиты на сильной модели. И есть боль от того, что задача, которую эта модель обязана решать на современном уровне, рынком решается отвратительно — потому что у платных сервисов нет стимулов делать хорошо. Их главное достоинство - перевод от 2ух минут до 2ух часов.

Эта картина мне что-то напомнила. В 1983 году Ричард Столман увидел мир, в котором всё ПО становилось проприетарным, и сел писать GNU.

Я не Столман. Но логика та же: если рынок предлагает только плохие проприетарные решения задачи — нужно сделать открытое решение.

Я хочу построить open-source инфраструктуру автоматического перевода книг, удовлетворяющую трём условиям:

Бесплатна. Клонируешь репозиторий, запускаешь локально или в подписке на LLM, которая у тебя уже есть. Без посредников.
Качество, по которому можно учиться. С формулами, терминологией, ссылками, иллюстрациями.
Обновляемая. Выходит второе издание — перегоняем. Книга — живой документ.

Я обкатал пайплайн на OpenStax «Chemistry: Atoms First 2e» — 1200 страниц, 21 глава, ~200 разделов с формулами и иллюстрациями. Лицензия CC BY-NC-SA 4.0.

Технические учебники — худший случай для перевода, и именно поэтому правильный полигон. Чтобы правильно перевести такую книгу, человек должен быть экспертом (1) в области знаний этой книги, (2) в области языка, на котором эта книга написана, и (3) в области языка, на который переводит. Автоперевод в таких книгах сложен, потому что:

Терминология должна быть единой на 1000+ страниц.
Формулы нельзя пересказать своими словами.
Структура линейна: косяк в 4.2 поедет в 7.3 и дальше.

Проблемы, которые встретились:

Чтение формул ненадёжно. Копируя текст из PDF документа формулы наверняка потеряют смысл.
Привязка иллюстраций к тексту. pdfimages извлекает картинки без подписей. Сопоставить «img-432 = Figure 7.5» — отдельная задача, иногда привязка съезжает.
Стилистический дрейф. Даже с гайдом тон чуть гуляет между разделами.
Стоимость. Мне пришлось потратить 6 пятичасовых лимитов Claude Opus 4.7 (по подписке с x5 лимитами). Если бы это решалось API запросами, то вышло бы, наверное, больше денег.
Я не химик. Текст читается, терминология единообразна, формулы валидны, структура совпадает с оригиналом. Но смысловую точность в нюансах без живого химика не гарантирую.

Итоговый алгоритм:

Шаг 1. Три экстракции из PDF.

pdftotext не умеет в химию: H₂SO₄ превращается в H 2 SO 4. Поэтому из одного PDF делается три источника утилитами poppler-utils:

# Текст, который будет использован для перевода
pdftotext -layout chemistry-atoms-first-2e.pdf original_text.txt

# Исходные страницы, превращённые в PNG картинки, чтобы понять, как разместить таблицу или картинку
pdftoppm -png -r 200 chemistry-atoms-first-2e.pdf pages/page

# Исходные картинки, использованные в книге, чтобы не вырезать их ножницами
pdfimages -all chemistry-atoms-first-2e.pdf images/img

Текст — для прозы. PNG страниц — то, на что модель смотрит глазами через multimodal, когда в расшифровке мусор. Изображения — для привязки к рисункам.

Шаг 2. Декомпозиция. Одна большая LLM-сессия не работает: контекст переполняется, тон плывёт, терминология расходится. Поэтому много маленьких независимых сессий, координируемых через файловую систему.

Один раздел учебника (5–15 страниц) = один запуск агента. Контекст: гайд, глоссарий, диапазон страниц, PNG.

Шаг 3. Когерентность через глоссарий. Главное ноу-хау против разнобоя — растущий GLOSSARY.md. Перед использованием нового термина агент смотрит туда. Если термина нет — добавляет. Следующий агент уже видит решение. Терминология сходится сама собой.

Шаг 4. State machine. Каждый раздел проходит pending → draft → review → done. Агенты независимо друг от друга что-то решили или ошиблись? Это обнаружится на ревью. Которое тоже сделает нейросеть. Человеку только в конце дадим уже максимально логичный вариант на проверку.

Шаг 5. Рендер. Статический сайт на MkDocs Material + MathJax/mhchem. Деплой — GitHub Pages. На каждой странице кнопка «Редактировать» открывает Markdown в GitHub-редакторе: правка через PR.

Уточнение:

Разговор шел про Open-Source, но используется Claude. Почему?

Локальные LLM наверняка способны проделать тот же самый труд, однако у меня нет топовых видеокарт, точно так же, как и сотен тысяч рублей на их покупку.

Подписка выглядит более дешевым вариантом. Покупая Claude, наравне с их моделями мы получаем и их вычислительные мощности. А эти мощности не получится вынести в "open-source".

Заключение

Если вы химик, преподаватель, аспирант, толковый старшекурсник или просто интересующийся — зайдите и потыкайте. Особенно полезен взгляд на терминологию, формулировки законов и сравнение с оригиналом. На каждой странице сайта — кнопка «Редактировать»: правка через pull request за три клика.

Если бы у вас в руках появился такой инструмент — работающий, бесплатный, открытый — какую книгу вы бы прогнали первой? Что из непереведённого вам больно не иметь под рукой? Для следующего перевод я могу выбрать именно вашу книгу.

## Ссылки

- ? Оригинал книги: Chemistry: Atoms First 2e, https://openstax.org/details/books/chemistry-atoms-first-2e

- ⚖️ Лицензия: CC BY-NC-SA 4.0, https://creativecommons.org/licenses/by-nc-sa/4.0

- ? Сайт перевода: https://viacheslavsysoev.github.io/chemistry-atoms-first-russian

- ? Репозиторий: https://github.com/ViacheslavSysoev/chemistry-atoms-first-russian

- ? Проект автоперевода: https://github.com/ViacheslavSysoev/perevodnik

Комментарии (22)

gerbert_MX
26.05.2026 20:30
#30023612
Огонь!

В целом проект хорош не только как переводчик, но и как генератор книги в удобную html-читалку.

Я сам как раз уже пол года как не добью GUI-приложение для перевода художественного текста через нейронки (в коде оно работает уже полтора года успешно)может тоже статью на хабр сделаю как закончу.

Интересная тема - переводы через AI потому как контекстное окно накладывает свои ограничения, как и тематика первоисточника.
По опыту хочу заметить что скинуть буферную память на самих агентов (ваши же glossary.md) очень хреновое решение потому как каждую книгу тогда нужно тюнить и перечитывать на правки, потому как гарантировано будут артефакты там где пошакалило смысл (или глоссарий который тоже не нулевой шанс быть пошакаленым если агенты с ним работают напрямую)
1. sys_admin_sysoev Автор
  26.05.2026 20:30
  #30025196
  По опыту хочу заметить что скинуть буферную память на самих агентов (ваши же glossary.md) очень хреновое решение потому как каждую книгу тогда нужно тюнить и перечитывать на правки
  
  А как тогда делать? Контекст переполняется. Результаты ухудшаются
  1. gerbert_MX
    26.05.2026 20:30
    #30025430
    Строгая типизация
    
    Сначала просим собрать данные в глоссарий, что бы вернул детерминировано в том же json. Важно что бы в контекстное окно с запасом влазил разбор с обсуждениями. Эти данные наполняют базу.
    
    Далее базу переводим машинно по контексту и ОБЯЗАТЕЛЬНО вычитываем все глазами.
    
    И наконец заряжаем "чистовой перевод" подставляя валидные куски глоссария под чанки (сопоставление по первой операции, где мы не только заполнили сам глоссарий но и сохранили в каких чанках какие значения были найдены)
    
    В своей задаче с художественной литературой я еще выделил отдельную группу в "часто встречаемые значения" которая выдавалась с обычным глоссарием по чанку что значительно улучшило перевод ведь часто в книгах хватает иносказательности. Но я разрабатывал это еще во времена когда gpt только 4 вышла, сейчас с 1М окнами можно собирать и отдавать в качестве точки опоры гораздо больше данных.
    
    sys_admin_sysoev Автор
    26.05.2026 20:30
    #30025538
    Звучит классно, спасибо!
    На следующей книге откатаю такой подход :)

janvarev
26.05.2026 20:30
#30023638
Кому интересно - для Calibre (это такой известный опенорс менеджер библиотек с читалкой почти любых форматов) есть плагин Ebook Translator, который бьет текст на кусочки и постепенно делает перевод через OpenAI-compatible API. Тут пример инструкции по установке (делал под себя, кому нужно - пожалуйста, адаптируйте под свои реалии)

Wesha
26.05.2026 20:30
#30023648
Ладно, за платное обычно дают качество

Как бы попонятнее объяснить...
1. randomsimplenumber
  26.05.2026 20:30
  #30024386
  Бесплатный сыр достается 2 3 мышке.

materiatura
26.05.2026 20:30
#30023708
Я, когда переводил что-то для себя, всегда делал две видимых страницы рядом - оригинал и перевод. Сохраняя структуру абзацев.

diakin
26.05.2026 20:30
#30023798
Много учебников в djvu. Вот их хорошо бы перегонять в текст вместе с формулами. Даже без перевода.