Нормативно‑справочная информация (НСИ) — это язык предприятий. Через наименования, коды и атрибуты описываются материалы, оборудование, комплектующие, инструменты — все, что используется в производстве, логистике, закупках, эксплуатации и ремонте. Именно НСИ обеспечивает согласованность ERP, MDM, BI и десятков других систем.
Однако на практике справочники редко бывают в порядке: в них копятся ошибки, дубли, разнородность описаний, несогласованность между системами. Для крупных предприятий эта проблема становится системной и дорогостоящей — не только в ИТ, но и в операционной эффективности бизнеса.
Меня зовут Дмитрий Романов, управляющий директор «Преферентум» (кластер SL Soft AI). В этой статье поделюсь, почему именно справочники материально‑технических ресурсов (МТР) превращаются в точку боли, почему «ручные чистки» и классические MDM‑подходы не помогают, и какие технологические решения действительно работают.

МТР — самый сложный и самый критичный фрагмент НСИ
Справочник МТР содержит данные о оборудовании, запчастях, продукции. В идеале он содержит эталонные наименования, то есть единый набор атрибутов — категория, материал, форма, размеры, нормативы, единицы измерения и пр. Все системы должны оперировать единой записью (то есть говорить на одном языке), однозначно идентифицирующей объект, тогда информация в в них сопоставима и единообразна.
Если справочники заполнены бессистемно и с ошибками, страдают все. Закупщик оформляет лишний заказ, потому что не находит нужную позицию на остатках; логист загружает склад избыточными партиями; инженер тормозит ремонт, потому что не может найти комплектующие или их аналоги; директор принимает решения на основе искаженных данных. Все это приводит к росту затрат, срывам производства, снижению эффективности управления. Именно поэтому нормализация НСИ, и особенно такого чувствительного узла, как справочник МТР, — это не техническая прихоть ИТ‑службы, а экономическая необходимость.

Увы, за 20 лет практики я не встретил ни одного предприятия, где справочник МТР был бы в идеальном состоянии. И дело не в некомпетентности текущей службы НСИ или ИТ‑подразделения. Эти команды пытаются совладать с хаосом, который копился десятилетиями. Давайте разберемся, как это происходит.
Почему справочники МТР деградируют
1. Разные подходы к внесению данных.
В разных отделах приобретенное изделие могут внести в систему под разными названиями:
отдел закупок, используя точную номенклатуру производителя, укажет «Преобразователь частоты ATV320U55N4»;
отдел эксплуатации отметит функциональное описание «Инвертор для насоса 5,5 кВт»;
отдел КИПиА может оперировать английской аббревиатурой Variable Frequency Drive «VFD привод».
Фактически речь идет об одном и том же изделии, но в разных системах это будут три разные позиции.
Даже при наличии выделенной службы НСИ, которая контролирует единообразие ввода информации в подразделениях, методология ведения справочников неизбежно меняется с течением времени.
Справочник МТР превращается в источник хаоса не одномоментно, а постепенно. Исторически записи создаются вручную разными людьми в разное время, в результате логика ведения каталога видоизменяется при смене команд.
2. Организационные изменения
Представим ситуацию: компания успешно внедрила единые принципы и методологию ведения НСИ. Кажется, порядок наведен. Но затем происходит слияние (M&A), присоединяется новое подразделение. В основную систему неизбежно «вливаются» чужеродные справочники со своими уникальными форматами и правилами. При этом нужно не только унифицировать работу с информацией с новым блоком бизнеса, но и сопоставить НСИ.
3. Человеческий фактор.
Ручной ввод всегда чреват ошибками: лишняя буква, неправильная единица измерения или опечатка, неполные данные превращают запись в отдельную позицию. Таких мелких ошибок накапливаются тысячи, а в крупных компаниях — сотни тысяч.
Проекты разовых «oчисток данных» в таких условиях оказываются пустой тратой ресурсов. Да, можно один раз нормализовать массив данных и привести каталог к эталонному виду. Но если при этом процессы ввода данных остаются неавтоматизированными, ошибки возобновятся уже на следующий день. Деградация справочника неизбежна. Фактически организация постоянно тратит ресурсы на поддержание беспорядка.
Последствия беспорядка — наглядные примеры
Проблемы с НСИ редко воспринимаются как стратегическая угроза, которую нужно срочно решать. А зря — именно в этих незначительных на первый взгляд ошибках формируется лавина проблем, которая дальше обрушивается на ключевые процессы предприятия. Рассмотрим несколько примеров.
1. Дискретность производства
Представим типовую ситуацию: инженер приступает к ремонту, в спецификации указана критически важная деталь, которой нет на остатках. По факту она может лежать на складе в соседнем цеху, но найти ее в системах невозможно из‑за ошибок в описании. В результате — задержка работ и простои дорогостоящего оборудования. Цена опечаток в описании МТР может измеряться миллионами рублей.
2. Избыточные закупки
Когда один и тот же элемент существует под десятком разных названий, снабжение не видит реальной картины складских остатков и закупает то, что уже есть в достатке. Склад пополняется партиями, которые затем лежат мертвым грузом. Эта проблема особенно актуальна для крупных промышленных компаний с множеством территориально распределенных складов и производственных подразделений. В результате оборотный капитал замораживается в товарных излишках, которые не работают на бизнес.
3. Потеря времени на поиск
Суть проблемы заключается в отсутствии структуры и неполноте описаний. Существующие записи не содержат полного набора атрибутов, что усложняет или даже делает невозможным быстрый и точный поиск нужной детали или ее функционального аналога по заданным характеристикам.
Вместо того чтобы работать с единой, атрибутированный базой данных, специалисты вынуждены тратить время на ручную верификацию информации. На такой поиск и проверку данных специалисты, по нашим оценкам, тратят до 30% рабочего времени.
4. Искаженные аналитические данные
BI, ERP и другие системы становятся бесполезными, если на входе они получают хаотичные и неструктурированные данные. В этом случае отчеты превращаются в иллюзию контроля: руководитель оперирует цифрами, которые не отражают реального положения дел.
Таким образом, проблемы с НСИ нельзя отнести к локальным неудобствам отдельной службы. Это фундаментальная проблема. И чем больше компания, чем шире ее ассортимент и география деятельности, тем дороже обходится беспорядок в справочниках.
На первый взгляд, решением проблемы может стать классическая MDM‑система (Master Data Management). Безусловно, она необходима в ИТ‑ландшафте, но не становится панацеей. Ключевая проблема в том, что сама по себе (без интеллектуальных сервисов) она не очищает исторические данные, а лишь «централизует хаос», собирая все неструктурированные и ошибочные записи в одном месте.
Для решения этой системной проблемы нужен универсальный, технологичный механизм. Он должен не только однократно нормализовать исторические данные, но и позволять сопоставлять справочники разных систем и автоматизировать ввод новых позиций, обеспечивая их соответствие заданным стандартам.
Почему простые алгоритмы сравнения строк — тупиковый путь
Многие компании пытались (и продолжают пытаться) решить проблему «в лоб» — сравнивать текстовые наименования, предполагая, что похожие строки означают одно и то же.
Технически это выглядит просто: разбиваем строки на подпоследовательности или токены, считаем число совпадающих фрагментов, рассчитываем метрики похожести (Levenshtein, Jaro‑Winkler, token‑ratio и тому подобное) и для каждой «сырой» записи выбираем эталон с максимальным значением метрики. На бумаге — красиво и просто: чем больше совпадений, тем выше вероятность, что это дубль.
На практике такой подход дает много ложных срабатываний и промахов.
Пример:
Пруток ПКРВХ 18,0 2000 БрАЖ9-4 МП ГОСТ 1628 — 2019
Пруток ПКВВХ 18,0 2000 БрАЖ9-4 МП ГОСТ 1628 — 2019
Позиции выглядят почти идентично для алгоритмов — отличие буквально в одной букве, но они описывают принципиально разные изделия: прутки круглой и квадратной формы сечения. Слияние таких записей приведет к ошибкам в спецификациях, неверной комплектации, срывам производства.
«Цифровой шум» добавляют падежи, сокращения, разные обозначения единиц («Ø20», «20 мм», «Д20»). Опечатки, аббревиатуры и др. элементы также серьезно ухудшают работу этого подхода.
Практика показывает, что метрики похожести дают приемлемое качество лишь в 30–40% случаев — это слишком мало для автоматических объединений без проверки сотрудниками. Так как строки могут быть похожи формально, но различаться по ключевому атрибуту (см. рис. 2), или, наоборот, выглядеть совсем по‑разному, но означать один и тот же объект, например, несколько поставщиков указывали в своих спецификациях одно и то же изделие различными способами. Любая политика «берем эталон с максимальной метрикой» при таких условиях либо будет терять значимую долю совпадений (много ложноотрицательных), либо допускать опасные ложные слияния (много ложноположительных).

Вывод очевиден: нельзя опираться только на поверхностный текстовый анализ и метрики похожести. Нужен более глубокий подход.
Единственно надежный путь — атрибутивная нормализация
Только после того, как система «понимает» структуру и смысл наименования, становится возможна корректная дедупликация и безопасное автоматическое объединение записей. Это обеспечивается извлечением и нормализацией атрибутов с выполнением контекстной семантической проверки.
Товарная позиция в справочнике — это не короткое имя, а сложный информационный объект, в котором зашифровано множество параметров: материал, форма, размеры, нормативные документы (ГОСТы, ТУ), технические особенности, варианты применения. Каждое из этих свойств важно — оно позволяет не просто отличить одну деталь от другой, но и корректно подобрать аналоги, проверить соответствие нормативам, интегрировать данные в технологический процесс.
За счет такого подхода строка «Пруток ПКРВХ 18,0 2000 БрАЖ9-4 МП ГОСТ 1628 — 2019» преобразуется в «Пруток прессованный, круглый, высокой точности изготовления, диаметром 18,0 мм, мерной длины 2,0 м, из бронзы марки БрАЖ9-4, повышенной точности по длине, согласно ГОСТ 1628 — 2019».
Однако нецелесообразно пытаться преобразовать описания массива позиций вручную, так как в крупных компаниях речь идет о сотнях тысяч, а то и миллионах записей. Для выполнения задачи потребуются высококвалифицированные эксперты, обладающие глубокими знаниями как номенклатуры предприятия, так и отраслевых стандартов. Это дорого, медленно и фактически бессмысленно: пока эксперты успевают привести в порядок одну часть каталога, в другой появляются новые записи с ошибки.
Поэтому мы предлагаем обратиться к сервисам нормализации на базе ИИ. Мы должны научить систему не просто сравнивать строки, а «понимать», что из себя представляет товарная позиция.
На основе работы нашего сервиса нормализации НСИ SL Soft AI можно отметить, что процесс включает в себя несколько этапов:
1. Классификация — система должна определять, к какой товарной группе относится запись (например, металлический пруток, бронзовый пруток, и др.) в строгом соответствии с классификатором товарных групп, используемым на предприятии;
2. Нормализация — разбор наименования на атрибуты и приведение их к общекорпоративному виду: одинаковые единицы измерения, стандартизированные обозначения материалов, марок, размеров, технологических признаков и нормативов. Все параметры приводятся к формату, принятому в методологии ведения НСИ предприятия;
3. Валидация — проверка полноты, корректности и взаимосогласованности извлеченных атрибутов, включая контроль соответствия корпоративным правилам, нормативам (ГОСТ/ТУ) и логическим зависимостям. Далее эксперты НСИ могут уточнить или скорректировать данные.
Теперь, когда система детализировала описание позиций и классифицировала их, появляется возможность выполнения прикладных задач работы с НСИ:
дедупликация;
сопоставление справочников разных систем или филиалов компании;
быстрый поиск позиций по характеристикам;
автоматизация ввода новых по стандартам для формирования «золотых» записей.
Технологические подходы к нормализации НСИ: от алгоритмов до искусственного интеллекта
Когда речь заходит о нормализации НСИ, многие компании начинают с простых алгоритмов. Это кажется логичным: достаточно «настроить правила», и система будет работать предсказуемо. Но в реальности такие решения оказываются слишком примитивными и хрупкими, а более продвинутые подходы — избыточно сложными, дорогими или трудоемкими в сопровождении. Поэтому важно понимать сильные и слабые стороны разных методов обработки данных и видеть, как они могут сочетаться между собой.
При работе с разнородными и неструктурированными текстовыми описаниями товарных позиций можно выделить четыре технологических метода обработки данных. Каждый из них реализует собственный механизм разбора, интерпретации и структурирования информации, и может использоваться как самостоятельно, так и в составе комбинированной цепочки обработки. Такой подход позволяет адаптировать систему к различным сценариям, повышая точность и устойчивость нормализации.
Подход |
Описание |
Плюсы |
Минусы |
Детерминиро-ванные программные правила |
Обработка данных на основе жестко заданных алгоритмов, парсеров и логических конструкций. Используются фиксированные правила, определяющие, что и как извлекается из строки (например, распознавание числовых форматов, единиц измерения, ГОСТов). |
Максимальная предсказуемость. Очень высокая скорость. Низкая вычислительная стоимость. Эффективен для хорошо структурированных данных. |
Хрупкость: любые изменения форматов ломают правила. Низкая гибкость. Требует постоянного сопровождения. Сложно справляться с ошибками, опечатками и вариативным языком. |
Шаблоны и регулярные выражения |
Обработка данных на основе заранее подготовленных шаблонов, паттернов и регулярных конструкций. Шаблоны представляют собой формализованные структуры, соответствующие типовым описаниям товарных групп. |
Устойчивость к стандартным формам записи. Хорошо подходит для атрибутов с устойчивым форматом. Масштабируется за счет добавления новых шаблонов. Меньше зависимость от разработчиков, чем при программных правилах. |
Ограничен областью применения шаблонов. Требует регулярного обновления при появлении новых вариантов записи. Недостаточно эффективен при хаотичных, неструктурированных описаниях. |
Классическое машинное обучение (ML) |
Метод, использующий обучение моделей на заранее размеченных примерах. Эксперты маркируют данные (диаметры, материалы, ГОСТы и так далее), после чего модель учится распознавать аналогичные признаки в новых записях. Работает со статистическими закономерностями и устойчивыми вариативными структурами. |
Хорошая масштабируемость. Устойчив к вариациям внутри одной предметной области. Извлекает признаки, которые сложно формализовать правилами. Быстрее и дешевле LLM при стабильных данных. Высокая повторяемость результата. |
Требует качественно размеченных датасетов. Зависимость от полноты разметки. Плохо переносит резкие изменения структуры данных. Нуждается в регулярном дообучении. |
Большие языковые модели (LLM) |
Использует модели искусственного интеллекта, которые анализируют текст на уровне смысла. Способность понимать естественный язык, интерпретировать сложные, неполные и свободные описания, выделять скрытые атрибуты и строить структурированное представление на основе контекста. |
Высокая полнота и глубина извлечения. Устойчивость к опечаткам, нестандартным формулировкам и «грязным» данным. Понимание смысла, а не только структуры. Универсальность применения для разных типов ТГ. |
Более высокая вычислительная стоимость. Требует механизма валидации результатов. Зависит от качества обученной модели. Время отклика в сотни раз больше, чем у детерминированных и шаблонных методов.
|
Почему в нашем сервисе нормализации SL Soft AI мы реализовали гибридный подход
Работая на проектах, связанных с нормализацией НСИ, мы пришли к тому, что нельзя ограничиваться одним инструментом — подход должен быть комплексным. В некоторых случаях хорошо работают шаблонные методы, позволяющие быстро выделять нормативы или стандартные параметры. В других — классическое машинное обучение. Для самых сложных формулировок эффективны современные языковые модели, которые умеют разбирать даже «хаотичные» описания, написанные в свободной форме. Да, они требуют больше ресурсов, но дают качественный результат. Но ни один метод не решает задачу в одиночку.
Именно поэтому в сервисе нормализации НСИ SL Soft AI используется гибкое сочетание всех четырех подходов. Такой гибридный метод позволяет одновременно обрабатывать миллионы записей с точностью 95–97%. Одним из ключевым элементов архитектуры сервиса выступает интеллектуальный классификатор, о котором мы подробно писали в статье на Хабре.
Демо сервиса (кабинет администратора). В демонстрации показана работа интеллектуального сервиса на этапе настройки:система обучается определять товарные группы и автоматически классифицировать новые позиции, даже если они записаны в произвольной форме. Далее показывается атрибутивный разбор — из названия извлекаются ключевые характеристики (материал, способ изготовления, размеры, ГОСТ, единицы измерения), которые приводятся к единому формату. В результате «сырая» запись превращается в структурированную «золотую», готовую к использованию.

На основе структурированных данных решаются прикладные задачи — поиск дублей, подбор аналогов, сопоставление со справочниками разных филиалов или интеграция в технологические процессы.
Как ИИ-сервис для нормализации SL Soft AI работает в реальной среде
Рассмотрим, как выглядит работа решения на примере MDM‑системы. Интеллектуальный сервис встраивается в существующий контур и автоматически обрабатывает все входящие данные. Для сотрудников процесс остается привычным: они продолжают работать в основной системе, но каждая запись проходит интеллектуальную обработку: приводится к единому корпоративному формату, извлекаются и нормализуются атрибуты, проверяютсяа значения по справочным данным, проходит валидацию и контроль логических связей. В итоге в MDM поступает корректная и готовая запись, которая может быть утверждена экспертом. Далее она становится доступной для взаимосвязанных информационных систем, использующих единый номенклатурный справочник.

Важно подчеркнуть, что интеллектуальный сервис нормализации НСИ SL Soft AI не заменяет MDM‑систему, а расширяет ее возможности, снимая значительную часть рутинной нагрузки с экспертов и автоматизируя нормализацию, проверку и структурирование данных. Сервис интегрируется через REST API и может работать как автономно, так и как часть корпоративного контура, взаимодействуя с MDM, ERP и другими системами.
После интеграции система функционирует автоматически, предоставляя экспертам инструменты контроля и валидации. В результате формируются единые и верифицированные номенклатурные записи, сокращаются дубли и ошибки, повышается прозрачность учета и качество управленческих решений, а все взаимосвязанные информационные системы получают «чистую» НСИ, готовую к использованию.

Поделитесь, какие способы нормализации НСИ в вашей организации практиковались и каких успехов удалось достичь?
Goron_Dekar
Naming things problem в производстве. Cache invalidation problem также где-то там, на складе.