Введение
Мы в компании создаем сервис, который позволяет автоматически создавать, управлять и безопасно хранить лицензионные соглашения и прочие договоры между фрилансерами и их клиентами.
Для решения это задачи я опробовал десятки решений в области обработки естественного языка, в том числе решения с открытым кодом и хотел бы поделиться опытом работы с open source Python — библиотеками для распознавания именованных сущностей.
Распознавание именованных сущностей
Несколько слов о самой проблеме. Named Entity Recognition (NER) — это направление технологии обработки человеческого языка, программная реализация которой позволяет находить в речи и тексте опредмеченные категории слов и словосочетаний. Сначала это были географические наименования, имена людей, организаций, адреса, однако в настоящее время это понятие сильной расширилось и с помощью NER мы ищем в тексте относительные и абсолютные даты, числа, номера и т.д.
Выявление именованных сущностей — это «ворота» в человеческий язык, оно позволяет выявлять и обрабатывать намерения человека, устанавливать связи слов в его речи и реальным миром.
Языковое неравенство
Для начала, хотел бы обратить внимание на очевидное неравенство в программных решениях для разных языков. Так, большинство разработок (в том числе созданные российскими программистами) работают с английским языком. Найти готовые модели для бахаса, хинди или арабского — задача неблагодарная.
Европейские языки худо-бедно представлены в наиболее популярных библиотеках, языки африки не существуют в современном Natural Language Processing в принципе. Между тем, по своему опыту знаю, что африканский континент — это огромный и богатый рынок, и такое отношение это, скорее всего, инерция рынка.
Для русского языка есть несколько вызывающих удивление своим качеством решений, однако, за ними не чувствуется такой коммерческой мощи и академического потенциала как для развитых библиотек «построенных» на обработке английского языка.
Текст для обработки
Я взял несколько предложений из разных источников, и соединил их в несколько гипнотический текст, чтобы протестировать насколько хорошо справятся со своей задачей выбранные библиотеки.
english_text = ''' I want a person available 7 days and with prompt response all most every time. Only Indian freelancer need I need PHP developer who have strong experience in Laravel and Codeigniter framework for daily 4 hours. I need this work by Monday 27th Jan. should be free from plagiarism .
Need SAP FICO consultant for support project needs to be work on 6 months on FI AREAWe. Want a same site to be created as the same as this https://www.facebook.com/?ref=logo, please check the site before contacting to me and i want this site to be ready in 10 days. They will be ready at noon tomorrow .'''
russian_text = '''Власти Москвы выделили 110 млрд рублей на поддержку населения, системы здравоохранения и городского хозяйства. Об этом сообщается на сайте мэра столицы https://www.sobyanin.ru/ в пятницу, 1 мая. По адресу Алтуфьевское шоссе д.51 (основной вид разрешенного использования: производственная деятельность, склады) размещен МПЗ? Подпоручик Киже управляя автомобилем ВАЗ2107 перевозил автомат АК47 с целью ограбления банка ВТБ24, как следует из записей.
Взыскать c индивидуального предпринимателя Иванова Костантипа Петровича дата рождения 10 января 1970 года, проживающего по адресу город Санкт-Петербург, ул. Крузенштерна, дом 5/1А 8 000 (восемь тысяч) рублей 00 копеек гос. пошлины в пользу бюджета РФ Жители требуют незамедлительной остановки МПЗ и его вывода из района. Решение было принято по поручению мэра города Сергея Собянина в связи с ограничениями из-за коронавируса.'''
Библиотека NLTK
NLTK это классическая библиотека для обработки естественного языка, она проста в использовании, не требует длительного изучения и выполняет 99% задач, которые могут возникнуть при решении студенческих задач.
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
for sent in nltk.sent_tokenize(english_text):
for chunk in nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize(sent))):
if hasattr(chunk, 'label'):
print(chunk)
Output:
(GPE Indian/JJ)
(ORGANIZATION PHP/NNP)
(GPE Laravel/NNP)
(PERSON Need/NNP)
(ORGANIZATION SAP/NNP)
(ORGANIZATION FI/NNP)
Как мы видим, NLTK неплохо справился со своей задачей, однако для того, чтобы сделать результат более «богатым» нам придется обучать свой собственный tagger (или выбрать другой из достаточно широкого списка). Но, стоит ли это делать в 2020 году если есть более простые решения?
Stanford CoreNLP
Один из способов расширить возможности NLTK это использовать вместе с классической Python библиотекой классическую Java библиотеку от Stanford CoreNLP. Качество улучшается значительно, при сравнительно низких требованиях.
from nltk.tag.stanford import StanfordNERTagger
jar = "stanford-ner-2015-04-20/stanford-ner-3.5.2.jar"
model = "stanford-ner-2015-04-20/classifiers/"
st_3class = StanfordNERTagger(model + "english.all.3class.distsim.crf.ser.gz", jar, encoding='utf8')
st_4class = StanfordNERTagger(model + "english.conll.4class.distsim.crf.ser.gz", jar, encoding='utf8')
st_7class = StanfordNERTagger(model + "english.muc.7class.distsim.crf.ser.gz", jar, encoding='utf8')
for i in [st_3class.tag(english_text.split()), st_4class.tag(english_text.split()), st_7class.tag(english_text.split())]:
for b in i:
if b[1] != 'O':
print(b)
Output:
('PHP', 'ORGANIZATION')
('Laravel', 'LOCATION')
('Indian', 'MISC')
('PHP', 'ORGANIZATION')
('Laravel', 'LOCATION')
('Codeigniter', 'PERSON')
('SAP', 'ORGANIZATION')
('FICO', 'ORGANIZATION')
('PHP', 'ORGANIZATION')
('Laravel', 'LOCATION')
('Monday', 'DATE')
('27th', 'DATE')
('Jan.', 'DATE')
('SAP', 'ORGANIZATION')
Как мы видим, качество выдачи улучшилось значительно, и теперь, с учетом скорости работы и простоты использования очевидно, что для несложных задач NLTK вполне пригодна и в промышленной разработке.
Spacy
Spacy это Python-библиотека с открытым исходным кодом для обработки естественного языка, она издается под лицензией MIT (!), ее создали и развивают Мэтью Ганнибал и Инес Монтани, основатели компании-разработчика Explosion.
Как правило, каждый, кто сталкивается с необходимостью решения каких-то задач для обработки естественного языка, рано или поздно узнает об этой библиотеке. Большинство функций доступно «из коробки», разработчики заботятся о том, чтобы библиотека была удобна в использовании.
Space предлагает 18 меток (tags) которыми отмечаются именованные сущности, равно как и простой способ дообучить свою собственную модель. Добавьте сюда отличную документацию, огромное сообщество и хорошую поддержку — и станет понятно, почему это решение стало таким популярным в последние пару лет.
import spacy
model_sp = en_core_web_lg.load()
for ent in model_sp(english_text).ents:
print(ent.text.strip(), ent.label_)
Output:
7 days DATE
New York GPE
Indian NORP
Laravel LOC
Codeigniter NORP
4 hours TIME
Monday 27th Jan. DATE
FICO ORG
6 months DATE
10 days DATE
noon TIME
tomorrow DATE
Iceland GPE
Как видим, результат намного лучше, а код существенно проще и понятней. Минусы работы — большой вес моделей, медленная работа, относительно нелогичные «метки», отсутствие моделей для многих языков, в том числе русского (хотя есть мультиязычные модели).
Flair
Flair предлагает гораздо более глубокое погружение в предметную область, библиотека создана, фактически, для решения исследовательских задач, документация неплохая, но с некоторыми провалами, есть интеграция с большим количеством других библиотек, понятный, логичный и читаемый код.
У библиотеки развитое сообщество, причем не только ориентированное на английский язык, благодаря большому количеству доступных моделей Flair существенно более демократичен в выборе языков чем Spacy.
from flair.models import SequenceTagger
tagger = SequenceTagger.load('ner')
from flair.data import Sentence
s = Sentence(english_text)
tagger.predict(s)
for entity in s.get_spans('ner'):
print(entity)
Output:
Span [6,7]: "7 days" [? Labels: DATE (0.9329)]
Span [17]: "Indian" [? Labels: NORP (0.9994)]
Span [35,36]: "4 hours." [? Labels: TIME (0.7594)]
Span [42,43,44]: "Monday 27th Jan." [? Labels: DATE (0.9109)]
Span [53]: "FICO" [? Labels: ORG (0.6987)]
Span [63,64]: "6 months" [? Labels: DATE (0.9412)]
Span [98,99]: "10 days." [? Labels: DATE (0.9320)]
Span [105,106]: "noon tomorrow" [? Labels: TIME (0.8667)]
Как видите, претренированная модель отработала не лучшим образом. Однако, мало кто использует Flair «из коробки» — это прежде всего библиотека для создания своих инструментов.
То же самое, с оговорками, можно сказать и о следующей библиотеке.
DeepPavlov
DeepPavlov это библиотека с открытым исходным кодом, построенная TensorFlow и Keras.
Разработчики предполагают использование системы преимущественно для «диалоговых» систем, чат-ботов и т.д., но библиотека превосходно подходит и для решения исследовательских задач. Использовать ее «в продакшн» без серьезной работы по «кастомизации» и «допиливанию» решения — задача, похоже, даже не предполагаемая создателями из МФТИ.
Странный и нелогичный подход к архитектуре кода, противоречащий дзен Python, тем не менее приносит хорошие результаты, если потратить достаточно времени, чтобы с ним разобраться.
from deeppavlov import configs, build_model
from deeppavlov import build_model, configs
ner_model = build_model(configs.ner.ner_ontonotes_bert, download=True)
result = ner_model([english_text])
for i in range(len(result[0][0])):
if result [1][0][i] != 'O':
print(result[0][0][i], result[1][0][i])
Output:
7 B-DATE
days I-DATE
Indian B-NORP
Laravel B-PRODUCT
Codeigniter B-PRODUCT
daily B-DATE
4 B-TIME
hours I-TIME
Monday B-DATE
27th I-DATE
Jan I-DATE
6 B-DATE
months I-DATE
FI B-PRODUCT
AREAWe I-PRODUCT
10 B-DATE
days I-DATE
noon B-TIME
tomorrow B-DATE
Результат предсказуемый, понятный, подробный и один из лучших. Сама модель также может использоваться напрямую в Hugging Face Transformers, что снимает, во многом, претензии к архитектуре кода.
deepmipt/ner
Это, по сути, библиотека с которой начинался Deep Pavlov. Она может использоваться, чтобы понять направление мысли разработчиков и прогресс, который был ими достигнут.
import ner
example = russian_text
def deepmint_ner(text):
extractor = ner.Extractor()
for m in extractor(text):
print(m)
deepmint_ner(example)
Output:
Match(tokens=[Token(span=(7, 13), text='Москвы')], span=Span(start=7, end=13), type='LOC')
Match(tokens=[Token(span=(492, 499), text='Иванова')], span=Span(start=492, end=499), type='PER')
Match(tokens=[Token(span=(511, 520), text='Петровича'), Token(span=(521, 525), text='дата')], span=Span(start=511, end=525), type='PER')
Match(tokens=[Token(span=(591, 600), text='Петербург')], span=Span(start=591, end=600), type='LOC')
Match(tokens=[Token(span=(814, 820), text='Сергея'), Token(span=(821, 829), text='Собянина')], span=Span(start=814, end=829), type='PER')
Polyglot
Одна из старейших библиотек, быстрая работа и большое количество поддерживаемых языков делают ее по прежнему популярной. С другой стороны вирусная GPLv3 license не позволяют ее использовать в коммерческой разработке в полную силу.
from polyglot.text import Text
for ent in Text(english_text).entities:
print(ent[0],ent.tag)
Output:
Laravel I-LOC
SAP I-ORG
FI I-ORG
И для русского языка:
!polyglot download embeddings2.ru ner2.ru
for ent in Text(russian_text).entities:
print(ent[0],ent.tag)
Output:
ВТБ24 I-ORG
Иванова I-PER
Санкт I-LOC
Крузенштерна I-PER
РФ I-ORG
Сергея I-PER
Результат не самый хороший, но скорость работы и хорошая поддержка позволяют улучшить его, если приложить усилия.
AdaptNLP
Еще одна новая библиотека с крайне низким порогом входа для исследователя.
AdaptNLP позволяет пользователям, начиная от студентов и заканчивая опытными дата-инженерами, использовать современные модели NLP и методики обучения.
Библиотека построена поверх популярных библиотек Flair и Hugging Face Transformers.
from adaptnlp import EasyTokenTagger
tagger = EasyTokenTagger()
sentences = tagger.tag_text(
text = english_text, model_name_or_path = "ner-ontonotes"
)
spans = sentences[0].get_spans("ner")
for sen in sentences:
for entity in sen.get_spans("ner"):
print(entity)
Output:
DATE-span [6,7]: "7 days"
NORP-span [18]: "Indian"
PRODUCT-span [30]: "Laravel"
TIME-span [35,36,37]: "daily 4 hours"
DATE-span [44,45,46]: "Monday 27th Jan."
ORG-span [55]: "FICO"
DATE-span [65,66]: "6 months"
DATE-span [108,109]: "10 days"
TIME-span [116,117]: "noon tomorrow"
Результат приемлемый, однако библиотека позволяет использовать самые разные модели для выполнения задачи, и он может быть многократно улучшен если приложить силы (но зачем, если есть непосредственно Flair и Hugging Face Transformers).
Тем не менее, простота, большой список выполняемых задач и хорошая архитектура, а также планомерные усилия разработчиков позволяют надеяться, что у библиотеки есть будущее.
Stanza
Stanza от StanfordNlp — это подарок разработчикам в 2020 году от университета Стенфорда. То, что не хватало Spacy — мультиязычность, глубокое погружение в язык вместе с простотой использования.
Если сообщество поддержит эту библиотеку — у нее есть все шансы стать одной из самых популярных.
import stanza
stanza.download('en')
def stanza_nlp(text):
nlp = stanza.Pipeline(lang='en', processors='tokenize,ner')
doc = nlp(text)
print(*[f'entity: {ent.text}\ttype: {ent.type}' for sent in doc.sentences for ent in sent.ents], sep='\n')
stanza_nlp(english_text)
Output:
entity: 7 days type: DATE
entity: Indian type: NORP
entity: Laravel type: ORG
entity: Codeigniter type: PRODUCT
entity: daily 4 hours type: TIME
entity: Monday 27th Jan. type: DATE
entity: SAP type: ORG
entity: FICO type: ORG
entity: 6 months type: DATE
entity: FI AREAWe type: ORG
entity: 10 days type: DATE
entity: noon tomorrow type: TIME
И для русского языка:
import stanza
stanza.download('ru')
def stanza_nlp_ru(text):
nlp = stanza.Pipeline(lang='ru', processors='tokenize,ner')
doc = nlp(text)
print(*[f'entity: {ent.text}\ttype: {ent.type}' for sent in doc.sentences for ent in sent.ents], sep='\n')
stanza_nlp_ru(russian_text)
Output:
2020-05-15 08:01:18 INFO: Use device: cpu
2020-05-15 08:01:18 INFO: Loading: tokenize
2020-05-15 08:01:18 INFO: Loading: ner
2020-05-15 08:01:19 INFO: Done loading processors!
entity: Москвы type: LOC
entity: Алтуфьевское шоссе type: LOC
entity: Киже type: PER
entity: ВАЗ2107 type: MISC
entity: АК47 type: MISC
entity: ВТБ24 type: MISC
entity: Иванова Костантипа Петровича type: PER
entity: Санкт-Петербург type: LOC
entity: ул. Крузенштерна type: LOC
entity: РФ type: LOC
entity: МПЗ type: LOC
entity: Сергея Собянина type: PER
Быстрая работа, красивый код, хороший результат.
AllenNLP
Библиотека для исследовательской работы, построенная на PyTorch/
С одной стороны — простая архитектура и быстрая скорость работы, с другой стороны, разработчики постоянно изменяют что-то в архитектуре, что сказывается на работе бибилиотеки в целом.
from allennlp.predictors.predictor import Predictor
import allennlp_models.ner.crf_tagger
predictor = Predictor.from_path("https://storage.googleapis.com/allennlp-public-models/ner-model-2020.02.10.tar.gz")
allen_result = predictor.predict(
sentence=english_text
)
for i in zip(allen_result['tags'], allen_result['words']):
if (i[0]) != 'O':
print(i)
Output:
('U-MISC', 'Indian')
('U-ORG', 'PHP')
('U-MISC', 'Laravel')
('U-MISC', 'Codeigniter')
('B-ORG', 'SAP')
('L-ORG', 'FICO')
Модуль работает быстро, но результат неприемлемо скудный.
HanLP
HanLP — это одна из открытых библиотек от разработчиков из Китая. Умный, проработанный, активный проект, который, как мне кажется, найдет свою нишу и за пределами «Поднебесной».
Библиотека NLP для исследователей и компаний создана на TensorFlow 2.0.
HanLP поставляется с заранее подготовленными моделями для разных языков, включая английский, китайский и многие другие.
Единственная проблема — качество выдачи «скачет» после каждого обновления библиотеки.
recognizer = hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH)
recognizer([list('??????(??)??????????????????????????????'),
list('????,?????????????????????????????????')])
Output:
[[('??????(??)??', 'NT', 0, 12), ('???', 'NR', 15, 18),
('???', 'NR', 21, 24),
('??', 'NS', 26, 28),
('?????????', 'NS', 28, 37)],
[('???', 'NR', 0, 3),
('???', 'NS', 5, 8),
('?????????????????????', 'NT', 10, 31)]]
import hanlp
tokenizer = hanlp.utils.rules.tokenize_english
testing = tokenizer('Need SAP FICO consultant for support project needs to be work on 6 months on FI AREAWe')
recognizer = hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_UNCASED_EN)
recognizer(testing)
Output:
[('SAP FICO', 'ORG', 1, 3)]
Для английского языка результат нестабилен, но, это решается с использованием токинайзера от NLTK.
PullEnti
Библиотека C# для NER на русском языке. В 2016 году она заняла первое место на конкурсе factRuEval-2016. В 2018 году автор портировал код на Java и Python.
Наверно, самое симпатичное решение для русского языка.
Быстро, глубоко, со вниманием к деталям. Решение rule based, что естественным образом ограничивает его развитие, однако его автономность, скорость и результаты позволяют надеяться на развитие проекта.
Есть python-wrapper для библиотеки, хотя он и выглядит «заброшенным».
from pullenti_wrapper.processor import (
Processor,
MONEY,
URI,
PHONE,
DATE,
KEYWORD,
DEFINITION,
DENOMINATION,
MEASURE,
BANK,
GEO,
ADDRESS,
ORGANIZATION,
PERSON,
MAIL,
TRANSPORT,
DECREE,
INSTRUMENT,
TITLEPAGE,
BOOKLINK,
BUSINESS,
NAMEDENTITY,
WEAPON,
)
processor = Processor([PERSON, ORGANIZATION, GEO, DATE, MONEY])
text = russian_text
result = processor(text)
result.graph
Output:
Natasha
«Наташа», это, похоже, один из главных проектов NLP для русского языка. Он имеет долгую историю, и начинался с rule based решения, которое развивалось через популярный Yargy Parser, и сейчас решает основные задачи NLP для русского языка: токенизацию, сегментация предложения, лемматизация, нормализация фразы, синтаксический разбор, NER-тегирование, извлечение фактов.
from natasha import (
Segmenter,
MorphVocab,
NewsEmbedding,
NewsMorphTagger,
NewsSyntaxParser,
NewsNERTagger,
PER,
NamesExtractor,
Doc
)
segmenter = Segmenter()
morph_vocab = MorphVocab()
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
syntax_parser = NewsSyntaxParser(emb)
ner_tagger = NewsNERTagger(emb)
names_extractor = NamesExtractor(morph_vocab)
doc = Doc(russian_text)
Output:
Власти Москвы выделили 110 млрд рублей на поддержку населения, системы
LOC---
здравоохранения и городского хозяйства. Об этом сообщается на сайте
мэра столицы https://www.sobyanin.ru/ в пятницу, 1 мая. По адресу
Алтуфьевское шоссе д.51 (основной вид разрешенного использования:
LOC---------------
производственная деятельность, склады) размещен МПЗ? Подпоручик Киже
ORG PER------------
управляя автомобилем ВАЗ2107 перевозил автомат АК47 с целью ограбления
банка ВТБ24, как следует из записей.
ORG--
Взыскать c индивидуального предпринимателя Иванова Костантипа
PER----------------
Петровича дата рождения 10 января 1970 года, проживающего по адресу
---------
город Санкт-Петербург, ул. Крузенштерна, дом 5/1А 8 000 (восемь тысяч)
LOC------------ PER---------
рублей 00 копеей госпошлины в пользу бюджета РФ Жители требуют
LO
незамедлительной остановки МПЗ и его вывода из района. Решение было
принято по поручению мэра города Сергея Собянина в связи с
PER------------
ограничениями из-за коронавируса.
Результат, к сожалению, не стабилен, в отличии от настраиваемых правил Yargy Parser от того же разработчика, тем не менее, проект активно развивается, и показывает достойный результат при коммерческом использовании.
ner-d
Последний модуль — это частный проект, не имеющий особой популярности, построенный поверх Spacy и Thinc и, тем не менее, заслуживающий внимания подходом выбранным к архитектуре (акцент на простоте использования).
from nerd import ner
doc_nerd_d = ner.name(english_text)
text_label = [(X.text, X.label_) for X in doc_nerd_d]
print(text_label)
Output:
[('7 days', 'DATE'), ('Indian', 'NORP'), ('PHP', 'ORG'), ('Laravel', 'GPE'), ('daily 4 hours', 'DATE'), ('Monday 27th Jan.', 'DATE'), ('Need SAP FICO', 'PERSON'), ('6 months', 'DATE'), ('10 days', 'DATE'), ('noon', 'TIME'), ('tomorrow', 'DATE')]
Из всех проектов самым «сбалансированным» и удобным, с приемлемыми результатами и удобством использования мне кажется является Stanza от StanfordNlp — работа большинства языков «из коробки», качественная академическая проработка и поддержка научного сообщества самого университета делает проект самым перспективным, на мой взгляд.
В следующий раз я поделюсь опытом о работе с «закрытыми» решениями и предлагаемым API для обработки естественного языка.
Весь код доступен Google Colab
stgunholy
Очень интересный обзор. Спасибо!