Мечта Карлсона сбывается
Помните из классики:
— Карлсон, ты знаешь, она хочет попасть в телевизор!
— Она? В телевизор?
— Да.
— Вот эта толстая домомучительница хочет залезть в самую маленькую коробочку?! Ничего не получится. Её надо будет сложить вчетверо!
А теперь представьте, что каждый день мы кладем в «самую маленькую коробочку», в информационно-справочную систему, по три реальные тележки текстовых документов, которые весят явно больше, чем Фрекен Бок. Плюс все эти документы нужно как-то добыть, сверить по много раз, технологически обработать, а потом доставить пользователю в достоверном и актуальном виде. Об этом Карлсон мог только мечтать.
Сегодня поговорим о наполнении наших систем документами и интеллектуальными сервисами. Для этого совершим экскурсию по Производственному департаменту Консорциума «Кодекс» (ПД), сотрудники которого занимаются формированием начинки для профессиональных справочных систем «Кодекс» и «Техэксперт». Коллеги из разных подразделений из первых уст расскажут о нашем способе «наведения чистоты» в системе такого масштаба. Мы проследим весь жизненный путь документа от поиска до попадания к пользователю. Также выясним, есть ли у документа жизнь после смерти.
Взгляд изнутри
Системы «Кодекс» и «Техэксперт» — это профессиональные справочные системы с фондом нормативно-технической и законодательной информации в 13 млн. единиц (+ ~ 40 млн. документов судебной практики). Программный комплекс объединяет нормативные и консультационные материалы, а также аналитические сервисы по работе с документами.
Кто-то у нас пошутил, что в подвалах «Кодекса» есть собственная подземная фабрика гномиков, которые денно и нощно трудятся на благо развития системы. Действительно, объемы входящей документации и работ по сопровождению документов колоссальны: в месяц в тиражную систему попадают сотни экземпляров, так что было бы неплохо иметь такой сказочный ресурс. Но на самом деле процесс обработки документации – это кропотливый труд более 120 реальных и замечательных людей.
Специфика документов и их анализ
В нашем хранилище содержатся крупные блоки нормативно-технической документации (ГОСТ, ГОСТ Р, СП, СНиП, ГН, Р, ГЭСН и др.), нормативно-правовые акты органов государственной власти (законы, указы, постановления, законопроекты и др.), технологическая документация (чертежи, схемы и др.), аналитические материалы, классификаторы и словари, справочная информация. Существенным при этом является не только само содержание информации(текст документа можно найти и в Интернете), а её статус и актуальность– действует ли документ, а если действует – с какого времени, каковы были его предшественники, на основании каких документов вносились изменения и т.д. Чтобы система могла выполнять такие задачи, каждый документ необходимо анализировать вручную.
Процесс обработки
Процесс обработки документа различается в зависимости от типа документов. В широком смысле мы делим документы на нормативно-правовые (НП) и нормативно-технические (НТД). Технологические этапы их обработки напоминают собой конвейер. Из точки «А» документ движется в точку «Б», в руки к пользователю, причем каждый из них идет по собственному маршруту и контролируется на каждом этапе. Расскажем про каждый из них.
1. Поиск документа или жизнь до рождения
Чтобы документ был включен в информационно-справочную систему, сначала его нужно найти. Миром правят общественные связи, так что практически все новые документы, будь то изменение в законодательстве или в области технического регулирования, к нам поступают сразу. Чаще всего, в бумажном виде. Страшно признаться, но мы действительно грузим документы тележками, а типичный кабинет сотрудника производственного департамента напоминает башню старца Фура и гору бумаги, из которой зачастую торчат только уши ответственного сотрудника.
Практически день в день все важные новые документы вы можете увидеть в нашей системе. А как быть с более специфическими экземплярами? Например, с редким СНиПом или СП? Здесь всё начинается с Управления информационного обеспечения. Сотрудники данного подразделения ежедневно мониторят огромные пласты информации, из которой они должны выбрать важные и потенциально интересные для включения в систему документы.
Вот эта схема обработки документа на первом этапе была найдена у коллег.
Где найти документ?
Для каждого вида документов предусмотрен собственный источник поиска. Зачастую это официальные источники разработчиков профессиональной документации – если на их сайтах содержится интересный для пользователей документ, мы обязательно запросим разрешение на его публикацию и в нашей системе.
Если речь идет о нормативно-правовом документе, то здесь мы будем искать нужную информацию в официальных источниках органов госвласти, печатных изданиях, изданиях ведомств и т.д. Если мы ищем технический документ, то обращаемся к проектным институтам, НИИ и т.д.
Также у нас есть наработанная партнерская сеть – например, Российская национальная библиотека, которая регулярно поставляет нам старые документы. Кстати, в наших системах можно найти и совсем редкие авторские документы. Для этого существует Отдел информационно-стратегического развития, который ведет переговоры с организациями и заключает лицензионные договора с авторами.
В целом, Управление информационного обеспечения мониторит несколько сотен различных источников по всем отраслям.
Один старый лучше новых двух или как добыть недобываемое
В системы мы добавляем не только новые, но также и старые стандарты. Зачем? Потому что они нужны специалистам – архитекторам, реставраторам или врачам и т.д. Сложно представить себе ход проекта по реконструкции без изучения оригинальных чертежей.
А кто бы мог подумать, что до сих пор большой популярностью пользуются ретродокументы из Минздрава, которые очень трудно достать? Оказывается, многие технологии и стандарты, которые были введены в оборот еще на заре развития индустрии, до сих пор остались неизменными. Формально – старые, на деле – актуальные.
Специально для этой работы у нас в компании есть собственный «отряд партизан», который рыщет в поисках таких раритетов и половину своего рабочего времени проводит в архивах. Заказать ГОСТ из-за границы, раздобыть авторскую проектную документацию, если её разработчик уже давно умер или (высший пилотаж!) убедить очень Упорного Дедушку, научного сотрудника, выдать нужный экземпляр? Возможно почти всё.
Основная соль этой ответственной работы – построить эффективные личностные связи, договориться с правильным источником и добыть недобываемое. Только и всего :)
2. Первичный анализ
Ура! Мы нашли «тот самый» документ. Теперь мы должны проверить на актуальность оригинал и всю информацию, которая по нему имеется.
Если это нормативно-технический документ, то здесь мы узнаем его статус – действует или нет, а также сколько за его «жизнь» произошло изменений, где он был ранее опубликован и в каком виде должен появиться в нашей системе – полным текстом или в виде сканер-копии, а может, и в том и другом.
Если мы работаем с нормативно-правовым документом, то мы также уточняем все важные параметры.
Собранную информацию по любому виду документа мы фиксируем в специальном сопроводительном листе. Вместе с бумажной копией документа этот лист мы передадим дальше по технологической цепочке. Помечаем, в какие разделы каких баз данных документ нужно включить – наши коллеги на том конце цепочки положат соответствующую базу в тиражный информационный продукт, который пойдет пользователю.
Кстати, бывает и так, что мы находим какой-нибудь редкий документ, по которому невозможно определить его актуальность и статус. Так как материал теоретически может быть полезен пользователю, мы всё равно загружаем его в систему, однако делаем пометку, что в этом случае при обращении к документу пользователь должен увидеть соответствующее предупреждение.
Теперь нам осталось зарегистрировать документ в своей внутренней рабочей базе и отправить его на дальнейшую обработку.
Пока документ регистрируют, наслаждаемся видом из окна.
3. Перед включением в систему. Убойная сила устраняет нелегалов
Заготовка нашего документа – распечатанный текст с сопроводительным листом – теперь попадает в Управление базовой обработки информации (УБОИ), в отделы обработки нормативно-технической или нормативно-правовой информации. Здесь его уже ждут наши лучшие «оперативники».
Сейчас ответственный специалист создаст специальную карточку документа – своеобразный «паспорт», который будет присвоен документу на протяжении всего его существования в системе. Тут же документу дадут уникальный ID номер, укажут его категорию, тип и раздел. Теперь наш документ официально уже не «нелегал», а значит, он уже на своем пути к попаданию в систему.
Ставим вновь прибывшего на «маршрут следования». Ему предстоит попасть в руки ещё четырех разных специалистов.
Что будет происходить с документом далее? Что такое набивка? Как проходит распознавание документа? Какими скриптами обрабатываются тексты и какой результат будет виден пользователю? Есть ли смерть после жизни? Об этом пойдет речь в продолжении этой статьи совсем скоро.
Comandante_WilD
Кажется я знаю что будет происходить с документом далее и что такое набивка. Вы об этом уже писали, только не разбивая на две части habrahabr.ru/company/kodeks/blog/243439
techzilla Автор
Здорово, что АЛЕЕ СОФТВЕР читает и комментирует нас и здесь, и на хабре! Видно, у вас к нам какой-то особый интерес. Это приятно. Всё очень просто — наши хабы перенесли на Geektimes. Менеджер посоветовал нам перенести все публикации сюда, так как на Geektimes у нас только карточка. Подробности переноса вот здесь, вопросы можно задать компании TM habrahabr.ru/company/tm/blog/240135
Comandante_WilD
Зачем надо было разбивать на части материал, который уже есть в интернете в полном объеме, да еще с такой интригой в конце первой части?
techzilla Автор
Чтобы пообщаться с вами! Мне, как девушке, это очень приятно)