Наверное, так и будет до некоторой степени. Уже сегодня степень автоматизации достигла такого уровня, который еще 10 лет назад казался фантастикой. Все так… Но, как известно, «мелочи» могут привнести множество сюрпризов. Одной из таких мелочей является тот факт, что львиная доля всех данных, которые можно и нужно было бы использовать в задачах борьбы с мошенничеством, прогнозированием рынков представляют собой текстовые данные. Количество ежедневно порождаемых письменных, видео и других данных составляет миллиарды строк, анализ которых с помощью операторов практически бесполезен. Кто-то может, поспорить, что все не так и большинство данных представляют собой обычные таблицы, которые хорошо обрабатываются статистическими методами. И, казалось бы, он будет прав. Банки из TOP-30 рапортуют о широком использовании BigData. Но если присмотреться повнимательнее, то по утверждению того же Альфа-банка речь идет преимущественно о структурированных транзакционных данных.
Но даже в анализе структурированных данных мы увидим, что все эти горы цифр упираются в отдельные колонки, которые несут дополнительный смысл. В них лежат названия товаров, наименования организаций без указания каких-либо ИНН, фамилии и другие скажем так «неструктурированные данные».
Другим огромным пластом являются массивы данных с прайс-листами, объявлений о продаже квартир, автомобилей многого другого. И тут опять кто-то скажет: «но ведь практически везде есть товарные каталоги, есть ТН ВЭД, ОКВЭД-2 и многое другое». И вот в этом замечании уже кроется ответ на многие вопросы. Все эти справочники отраслевые, неполные, нет полных описаний и правил отнесения, да и фантазия человеческая границ порой не имеет. Что касается других областей, таких как массивы договоров, объявлений о найме на работу и постов в интернете, то справочников нет никаких вовсе.
Объединяющим все эти проблемы является признание того факта, что никакими статистическими методами, будь то даже нейронные сети, решить эту задачу без поисково-аналитических систем семантического и семиотического анализа попросту невозможно. В качестве простого примера можно привести задачу борьбы с мошенничеством в сфере ипотечного кредитования или выдачу автокредита на покупку подержанного авто. Набор данных которые хотелось бы получить, думаю, понятен каждому: Есть ли квартира или авто, под которые требуется выдать кредит в списках на продажу? А какова стоимость квадратного метра в этом же или соседнем доме, или цена аналогичного авто? А какова стоимость в пределах населенного пункта, а в пределах агломерации и т.д.?
Скачать данные с сайтов «как есть» на сегодняшний день не представляет собой технически сложной задачи. Получив такую базу имеем миллионы записей с неструктурированной информаций и базу категории BigData во всей своей полноте. Анализ же баз предложений на работу, дабы удостоверится в адекватности указанной в справке заработной платы или анализ надежности молодого поколения без анализа социальных сетей вообще представляет собой невыполнимую задачу.
В последнее время все больше разного рода государственных органов стали интересоваться темой семантического анализа данных. В качестве примера можно привести размещенный в мае 2017 года на сайте госзакупок электронный аукцион на разработку «аналитической подсистемы АИС ФНС», в составе которой есть подсистема семантического анализа текстов.
К сожалению, за победными реляциями почему-то скрывается полный пул проблем и упущенных возможностей с этим связанных. Попробуем разобраться хотя бы в некоторых из них.
Во-первых, это наличие объема данных сам по себе. Объем и скорость поступающих данных на сегодняшний день исключает возможность их обработки операторами. Следствием является острая необходимость в наличии на рынке продуктов, обеспечивающих решение задач Data Quality и Data Mining в автоматическом режиме с уровнем извлечения не ниже 80-90 процентов при весьма высокой скорости обработки. И что не маловажно, количество ошибок должно быть не более 1-1,5 процента. Внимательный читатель, может сказать, что есть различные распределенные решения способные решить вопросы низкой производительности, такие как Hadoop и так далее. Все верно, но многие забывают, что такого рода процессы носят циклический характер. И, то что было только что извлечено, должно быть добавлено в справочники, поисковые индексы и т.д. Данные непересекающиеся в рамках одного потока, могут пересекаться с данными из другого потока. Следовательно, количество параллельных веток должно быть сведено к максимальному минимуму, а производительность в рамках одного потока должна быть максимальна.
Во-вторых, это реальный процент, который используется. По оценкам ряда западных источников доля «темных» или скрытых данных в разных странах достигает половины и более. Основными причинами невозможности их использования являются их слабая структурированность на фоне низкого качества. Здесь сразу хочется пояснить, что проблема структурированности и низкого качества – это две совершенно разные проблемы. Неструктурированные данные трудно разложить на составляющие и построить какие-либо зависимости, сложно сравнивать, но при этом они могут быть абсолютно достоверными и валидными по своей сути. Невалидные, или данные с низким качеством, могут быть прекрасно структурированы, но не соответствовать объектам «реального» мира. Например, почтовый адрес, может быть замечательно разложен по полям, но не существовать в природе.
В-третьих, это отсутствие у западных систем компетенции в области семантики русского языка. Данная проблема зачастую упускается сами аналитиками при выборе систем для работы с данными. Поставщики решений и системные интеграторы радушно обещают, что это вопрос, легко решаемый ведь «наше решение уже присутствует во многих странах». Но как правило умалчивается тот факт, что это или международные организации, работающие на английском языке или это язык той же романской группы, или внедрение не полностью локализовано. По нашему опыту все известные на российском рынке попытки локализации задач семантического поиска не увенчались успехом, достигая уровня качества не выше 60-70 процентов от возможного.
В-четвертых, различные участники процесса могут иметь различные представления о правилах классификации каких-либо сущностей. В данном случае речь не идет о том, что в рамках информационного ландшафта существует несколько систем. Зачастую в рамках одной и той же системы одни и те же по своей сути объекты по-разному описаны и классифицированы. И причина не в невнимательности или нерадивости каких-то сотрудников. Основная причина в контексте или условиях, в которых производилось действие. Национальных традициях, различном культурном коде. Произвести однозначную регламентацию правил в этих условиях попросту невозможно.
Таким образом, задача использования больших данных, искусственного интеллекта и т.д. на самом деле требует более широко взгляда, объединенного скорее термином Data Science. А в процессе проектирования решений в области BigData следует уделять отдельное и не менее важное значение вопросам очистки и извлечения данных. Иначе, следуя известной поговорке, автоматизированный бардак – все равно бардак.
Комментарии (12)
Tortortor
24.05.2017 18:46один ответ: ibm watson
MaximKovalev
24.05.2017 18:49Нет, к сожалению или счастью это не панацея. Больше пиар. Это хорошая и сильная разработка. К сожалению — экстенсивный путь развития. Интеллектуальный агент, но не ИИ-полная или приближенная система. Хороша для распознавания образов и игры в Го. Прав я или нет — жизнь покажет.
Tortortor
24.05.2017 19:56поэтому работает диагностом. и собирается юристом. пиар и распознавание образов, ага.
MaximKovalev
24.05.2017 20:01Повнимательнее прочтите в каких областях и как. Про то, что нейросети и тд хорошо работают в ряде задач я писал перед этим. Это так. Просто задачи разные. В рамках BigData безусловно есть и классические задачи статистики, кластеризации и т.д. Это никто не отменял, так же как и безусловную пользу. Но это разные грани проблемы. Если интересно, прочтите мою статью https://habrahabr.ru/post/328668/.
dtmsoft
26.05.2017 17:37Я полагаю, что Tortortor имеет в виду тот факт, что для успешной работы в юридической и медицинской отраслях (не говоря уже об игре в Leopardy) необходимо проанализировать и структурировать большие объемы именно полнотекстовой, то есть слабоструктурированной информации: тексты законов, судебные прецеденты и т.д. Таком образом, неким механизмом для выполнения этой нелегкой работы в IBM все-таки владеют. Насколько он тиражируем на другие отрасли — мне не известно, но для ряда отраслей результат есть и мы его можем наблюдать.
MaximKovalev
26.05.2017 17:40Все не совсем так. Они работают с текстами. Но не с точки зрения семантики и лингвистики, а с точки зрения корреляций. Какие-то зачатки семантики есть. Я тоже читал. Даже есть попытки порождения гипотез. Но пока это нельзя говорить о понимании смысла текста. Так как нет базы знаний, нет индуктивных механизмов и много другого, о чем я писал в пошлой статье https://habrahabr.ru/post/328668/
dtmsoft
26.05.2017 17:50+1Я не думаю, что мы дойдем до понимания смысла текста в обрзимом будущем. Если говорить о понимании в повседневном, «человеческом» смысле слова, то понимание смысла я считаю эквивалентным по трудности созданию «сильного» ИИ. Если это вообще возможно.
Но нужно ли для извлечения знаний (фактов, если быть точным) полное понимание текста? Обычно и близко нет. Существительное, глагол, числительное. Мы сможем извлечь факты без понимания смысла. Но надо значть что искать, разумеется. Вот тут и возникает этап выдвижения идей типа «а есть ли тут такое-то знание», осуществляемый аналитиком.MaximKovalev
26.05.2017 17:58В целом да, все правильно. Но семанитика все же необходима. Без семантических правил не обойтись. Конечно же нужные эталонные справочники как база знаний.
Другой путь — это накопление в эталонной базе вариантов написаний (хешей) — тупиковый. В данном посте я хотел кроме всего прочего подчеркнуть этот факт. А сильный ИИ — действительно в этих задачах действительно совершенно не нужен.dtmsoft
26.05.2017 18:09+1Тут есть важный (для меня) аспект — существует ли знание в отрыве от целеполагания? На данный момент я считаю, что «нет», а поэтому и сама постановка вопроса об извлечении знаний стновится зыбкой. Если гипотезу строит аналитик, то он и является источником целеполагания и, автоматически, создает фундамент для извлечения знаний связанных с этой гипотезой.
С обозначенной в статье проблемой я согласен на 100%, но для решения конкретных задач, для которых гипотеза уже сформулирована, это далеко не всегда нужно. Если же мы переходим к извлечению произвольных знаний из произвольного текста, то считаю эту задачу эквивалетной автоматическому(!) целеполаганию, что в свою очередь, означет сильный ИИ.MaximKovalev
26.05.2017 18:15Если быть совершенно точным в терминологии — то конечно же надо говорить об извлечении данных по образцу, который сформирован в справочники или набор правил. Но устойчивым с легкой подачи маркетологов стал термин «извлечение знаний». А понятие знание вообще очень зыбкое. Человеческий интеллект судя по всему вообще не оперирует «знаниями» как незыблемыми или каким-то образом независимыми от наблюдателя сущностями. Он оперирует системой гипотез, которые подтверждают наблюдаемые феномены и могут предсказывать аналогичные. И не более того.
lash05
MaximKovalev
Все верно.