Привет Хабр!

Чуть больше года прошло с момента последней публикации, в которой описано одно из применений технологии анализа текста, основанной на разработанном нами «свойство-ориентированном подходе».

За это время мы провели работу по переходу от технологии к продукту - семантическому анализатору Real AI SA, решающему реальную задачу бизнеса, и сделали следующее:

  • Провели около двадцати проблемных интервью.

  • Создали юридическое лицо.

  • Получили грант от Фонда Содействия Инновациям.

  • Разработали и зарегистрировали ПО для извлечения поручений.

  • Начали пилотирование решения.

Подробнее о практической задаче – автоматическом заполнении карточек поручений в системе электронного документооборота путем анализа распорядительных документов, а также о нашем подходе к ее решению хотелось бы рассказать в этой статье.

Задача

Крупные организации в ходе своей работы создают большое количество различных документов, например в госкорпорациях или министерствах объем внутреннего документооборота может доходить до 100 000 (ста тысяч) документов ежегодно.

В целом документы имеют определенную структуру, но написаны на естественном языке, что создает большие проблемы для их анализа существующими продуктами.

Безусловно, у всех на слуху решения, основанные на больших языковых моделях, которые впечатляюще обрабатывают входящие фразы, однако их основной недостаток – неопределенная достоверность результата.

Пример некорректного понимания фразы с выявленными поручениями ChatGPT:

Второй недостаток, который мы слышали уже в ходе обсуждения подходов к решению задачи по анализу текста с техническими специалистами – требовательность к ресурсам и объемам размеченных данных для обучения.

Таким образом, решение задач по анализу документов возлагается на специалистов документационного сопровождения, которые только на извлечение поручений из приказов и заполнение карточек в системе электронного документооборота в крупных компаниях тратят около 3000 человеко-часов ежегодно.

Технология

Ядро наших решений по анализу текста и извлечению информации – семантический анализатор, который строит смысловую модель текста в виде графа на базе собственной технологии – свойство-ориентированного подхода.

Несмотря на то, что предыдущие попытки строить семантические модели для представления знаний (например, SemanticWeb) сложно назвать успешными для решения задачи анализа естественного языка (NLP), мы считаем, что этот подход является верным и соответствует способу представления знаний мозгом человека. И, так или иначе, если нам нужна достоверность и проверяемость, обойтись без графового представления сложно.

Разумеется, у существующих систем, использующих семантические модели, много практических сценариев применения – например в области медицины или машиностроения. В целом они отлично справляются с теми задачами, где предметная область заранее поддается классификации, однако все попытки их применения для анализа произвольного текста, закончилась неудачей по причине использования громоздких и негибких объектно-ориентированные онтологий.

Ниже приведен вариант онтологии на примере Универсальной семантической иерархии Abby Compreno:

Мы же, в отличие от объектно-ориентированных решений, для построения графа используем набор универсальных элементов, подходящих для любой предметной области, так как он базируется на описании понятий через их роль в низкоуровневом процессе работы мозга, как мы ее себе представляем.

Работа мозга (то, что называют «сознание», «размышления», «думание») в свойство-ориентированном подходе рассматривается, как выполнение мозгом определенных действий, параметрами и результатами которых являются понятия, внешне представляемые как слова (возможны и другие внешние представления – визуальные, тактильные образы и т.д., но в данном случае мы говорим о тексте). И, соответственно, на нижнем, первичном, уровне достаточно указать место понятия в этом процессе выполнения действий, что приводит к четырем их основным категориям:

  • Характеристика

  • Значение характеристики

  • Объект

  • Действие

На техническом уровне все понятия представляются единым универсальным элементом, и мы считаем, что разработанная нами модель представления знаний близка той, которая реализуется в мозгу человека с помощью нейронов.

Пример построения графов можно посмотреть в технологическом демо.

От технологии к продукту

Демонстрируя технологию потенциальным заказчикам, мы получали много запросов от бизнеса на инструменты по работе со смыслом текста, однако задача по извлечению поручений встречалась чаще всего, поэтому и сфокусировались на ней.

Для этого разработали прототип анализатора, выполняющий в ограниченном объеме разбор документов, провели ряд презентаций представителям бизнеса и получили письма с подтверждением заинтересованности в создаваемом продукте.

Затем подготовили и подали документы для участия в конкурсе Старт-ИИ-1 от Фонда Содействия Инновациям. В июле 2022 года успешно прошли интервью с экспертами фонда, а в августе получили грант на НИОКР.

В ходе грантовой работы (август 2022-ноябрь 2023) подтвердились сильные стороны нашей технологии. Хотя приходилось постоянно развивать и дорабатывать алгоритмы анализатора, однако сама концепция представления знаний через структуру действий осталась неизменной, что давало возможность сосредоточиться на функциональных и потребительских характеристиках продукта.

Как итог – программа, позволяющая серьезно сэкономить время на извлечение поручений. Например, среднее время анализа одностраничного приказа – порядка 7 секунда с формированием матрицы поручений, что в 30 раз быстрее, чем эта задача решилась бы специалистом.

Архитектурно, решение представляет собой web-сервис, который размещается в IT сегменте организации совместно с системой ЭДО. Пример встраивания решения в IT ландшафт:

Как видно из архитектуры, прямого взаимодействия с анализатором у пользователя нет, что является дополнительным фактором безопасности, а все взаимодействие происходит через знакомый пользователю интерфейс системы ЭДО.

Какие преимущества имеет наше решение?

Во-первых – повышенная достоверность – всегда можно посмотреть смысловую модель обработанной фразы. На рисунке ниже – смысловая модель поручения из примера с ChatGPT, в которой корректно связан и актор и объекты действий:

Во-вторых – легкость добавления новых знаний и возможность вносить новые понятия буквально по ходу работы.

Все это делает Real AI SA подходящим для анализа документов и извлечения из них требуемой информации, снимая при этом значительный объем головной боли с заказчиков и в части подготовки данных для обучения, и в части выделения ресурсов для работы решения.

Заключение

В рамках работы над проектом мы прошли путь от формирования собственного представления об обработке мозгом информации и роли текста до пилотирования продукта на этой основе, решающего конкретную задачу бизнеса.

Технология показала практическую ценность и сейчас мы развиваемся по трем трекам:

  1. Совершенствование ядра системы – и в части производительности, и в части повышения универсальности.

  2. Поиск площадок для пилотирование разработанного решения по извлечению поручений.

  3. Выявление новых сценариев и задач, которые можно решить с помощью нашей технологии.

Помимо описанного в данной статье бизнес-сценария извлечения поручений, в ходе проблемных интервью мы слышали много других интересных кейсов, требующих понимания смысла и сейчас взяли в работу несколько из них, например:

  1. Извлечение из договоров сутевой информации для сопоставления с ограничительными условиями или формирования проектов решений

  2. Построение корпоративного смарт-архива – графа, связывающего все документы, бизнес-процесс и сотрудников организации. Инструмент актуален и для аналитики – выявления избыточной загруженности или дублирования ответственности, и для поиска, когда информация ищется в графе на уровне смысла и подбираются релевантные артефакты.

Первый сценарий мы довели до уровня прототипа, второй пока в работе и возможно выложим его в открытый доступ позднее.

Да, на сайте помимо технологического демо есть два демо бизнес-сценариев, которые мы постепенно обновляем и дополняем.

P.S.: Помимо решения технологических задач, для развития бизнес-компетенций принимали активное участие в большом количестве мероприятий для стартапов, самые примечательные из которых – Спринт от ФРИИ, Архипелаг от Платформы НТИ, Академия инноваторов от i.moscow.

Впечатления неоднозначные, и если интересно – можем поделиться своим опытом или в формате отдельной статьи, или просто отвечая на вопросы.

Комментарии (2)


  1. itGuevara
    26.06.2024 11:16

    Есть ли аналоги? Какая графическая библиотека используется? Легенда графических значков (нотация) какая? Почему рядом не показать в RDF?

    Если бы в технологическом демо было бы не "Обсудить в VK", а хотя бы в ТК, то обсудил бы.


    1. Sanek22 Автор
      26.06.2024 11:16

      Добрый день! Нам не известны аналоги. Достаточно развита тема грамматических парсеров (например, Universal Dependencies), но они работают на уровне слов, а это на наш взгляд тупиковый путь.

      Для отображения используем библиотеку Cytoscape.js. Узлы сети - понятия (объекты или действия, действия фиолетовым цветом выделены). Стрелки между узлами - отношения между понятиями (мы их ещё характеристиками называем).

      RDF нам не нужен был до сих пор. Если возникнет необходимость можно будет сделать, наверно.