В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области. Функция (стрелка) (7) в [1] является матричной координатизацией текста. Со словами и фрагментами матричных текстов можно совершать алгебраические операции, как с целыми числами, но с учетом некоммутативности умножения слов как матриц. Структуризация текстов сводится к вычислению идеалов и категорий текстов в матричной форме.
В этой статье определяется понятие матричного слова в контексте. Слова-знаки при повторах могут иметь разные фрагменты текста между ними (контексты), а слова, одинаковые по написанию и звучанию, — иметь разный смысл (как омонимы). В тексте все повторяющиеся слова могут быть омонимами, если их контексты отличаются соответствующей мерой (модулем). И обратно, разные по написанию и звучанию слова могут иметь схожие контексты и разную меру синонимичности. Частотность ключевых слов в семантическом анализе целесообразнее определять как частотность контекстов, сравнимых по соответствующей мере, чем как частотность слов-знаков, подобно буквам алфавита. При вычислении смысловой частотности слов с учетом контекста разные словазнаки с одинаковыми контекстами должны суммироваться при вычислении частоты и, наоборот, одинаковые слова-знаки с разными контекстами — исключаться.
Матричные слова дополняются множителями-контекстами. Эти множители из-за свойств матричных единиц не приводят к изменению слов как знаков, но содержат знаки, влияющие на смысл определяемых слов. Контекстные множители у матричных слов имеются, но не влияют на знаки. Множители содержат отношения (по Фреге) с другими знаками (часть свойств этих знаков – это их смысл в данном контексте). Смысловое сходство и различие слов можно тогда вычислять сравнением (согласованием) этих множителей-контекстов.
Для выполнения алгебраических операций с матричными словами в контексте требуется согласование (конкордация) – смысловое согласование знаков и фрагментов текста, зависящее от меры (модуля) согласования. Матричные слова могут складываться в текст, если их контексты имеют общий смысл (модуль). Инвариантами матричных текстов, сохраняющими их смысл при заменах слов и фрагментов текста на согласованные, являются возрастающие и убывающие цепи Нёттер. Цепи Нёттер позволяют составить системы алгебраических уравнений для преобразований текстов, сохраняющих их смысл.
Слово в контексте
Пусть имеются два повторяющихся слова и (вторая координата j – это номер из словаря, первые координаты и – это номера слов в тексте) и фрагмент матричного текста между этими словами (контекст):
где каждый km – это номер слова в словаре (9) в [1], . Из-за правила координатизации (7) в [1] любой km в (1):
поскольку:
В случае фрагмент нулевой. Например, в многоточии «...» в (1) контекст каждой точки отсутствует и тогда смысл (контекст) имеет не каждая точка, а три точки целиком, как слово (знак) в словаре. При этом точка — это тоже знак из словаря текста. Между двумя точками, не находящимися рядом, имеется ненулевой фрагмент текста (предложение, как соответствующий контекст каждой точки). Таким образом, даже точки в тексте, хотя и выглядят одинаково, но имеют разный смысл-контекст (как точки-омонимы). Аналогично, знаки абзацев, параграфов и, вообще говоря, все слова имеют разный смысл в тексте, если повторяются. И наоборот, если слова имеют одинаковый по соответствующей мере (модулю) контекст, но эти слова — разные как знаки, то их можно считать близкими по смыслу (синонимами). Например, «...», «так далее», «etc».
Highly likely, для достижения всеобщего непонимания среди строителей Вавилонской башни избыточно было заставлять их разговаривать на разных языках. Нет всеобщего понимания и на одном контекстном языке – нужны смысловые (контекстные) переводчики.
Словом в контексте называется выражение:
где E – единичная матрица. Из-за (2):
Произведение справа любого слагаемого из (1) на равно нулю.
Множитель не приводит из-за (6) к изменению знака , но может использоваться для сравнения двух (необязательно повторяющихся) слов и сравнением их контекстов и . Такое семантическое сравнение слов текста по контексту (смыслу) в дальнейшем будет называться согласованием (конкордацией) по смыслу слов.
Конкордантность слов
Пусть имеются два слова и с номерами и из правого словаря текста DR в контекстах и между парами повторяющихся слов:
где и – правые словари контекстов и , , и , – номера парами повторяющихся слов. В дальнейшем все словари принимаются как правые и индекс R не указывается.
Два слова могут быть конкордантны (согласованы) как по пересечению контекстов слов (2) в [3], так и по объединению (3) в [3]. В дальнейшем будет рассматриваться только пересечение контекстов. Алгебраически описания для объединения и пересечения совпадают. Для применения – их назначение отличается. Человек из-за природных физических ограничений одновременно может удерживать в процессе понимания всего несколько сущностей (около семи). Для сведения к этому количеству многообразия мира используется такая операция мышления как абстрагирование. Конкордантность по пересечению является математической экспликацией процесса абстрагирования в форме редукции (4) в [3]. Предельным случаем абстрактных понятий естественного языка являются логические категории (Аристотеля, Канта, Гегеля). Иерархическая преемственность понятий (слов) необходима для построения отношений часть-целое (отношений понимания).
Конкордантность по объединению (3) в [3] увеличивает сущности. Но их количество имеет значение только для людей. Для машинных языков это ограничение не существенно. Поэтому конкордантность по объединению может быть применена для взаимодействия машин, а также для будущего коллективного разума человеческой популяции (по П.Г.Кузнецову), для которого необходимо создать технологии коллективного понимания. В настоящее время приемлемое понимание достигается в коллективах программистов. Для коллективов пять и больше, например, медиков (по Т. и Б. Бьюзенам) нет ни одного термина, который бы они понимали одинаково. В математике, казалось бы универсальном языке человечества, с идеальными объектами не меняющимися во времени (П.Г. Кузнецов), специализация достигла такого уровня, что полностью понимают друг друга территориально распределенные коллективы по три-четыре человека.
Конкордантность по пересечению будет называться просто конкордантностью. Два слова (7) и (8) конкордантны (согласованы) («точка над тильдой») по пересечению правых словарей и контекстов и :
если пересечение двух словарей:
Выражение (9) означает, что слова и похожи в том смысле, что их контексты и имеют общий словарь . При этом согласованными являются контексты после редуцирования (4) в [3]:
Каждый редуцированный контекст содержит все слова из словаря . Действительно, для любого слова , имеющегося в , но отсутствующего в :
где – часть контекста после удаления слова .
N слов конкордантны, если каждая их пара конкордантна:
и произведение словарей:
Отношение конкордантности является отношением эквивалентности, поскольку условия рефлексивности и симметричности для матриц выполняются, а транзитивность отношения следует из (14) и (15).
Мерой (модулем) конкордантности является (15). Именно этим модулем объясняется появление термина «конкордантность по модулю» по аналогии с термином «сравнение по модулю» для целых чисел. Как разные целые числа могут быть равны по модулю, так и разные (как знаки) слова текста могут быть эквивалентны (взаимозаменяемы) по соответствующему модулю конкордантности. Это означает, что если у слов конкордантны их контексты, то слова имеют согласованный смысл и могут считаться эквивалентными (взаимозаменяемыми по смыслу в тексте).
Слова и их суммы могут быть конкордантны по модулю. На отношениях конкордантности, подобно равенству и сравнению по модулю, возможно составлять системы уравнений конкордантности. Неизвестными могут быть определяемые и определяющие слова, модули конкордантности, контексты и фрагменты текста. Уравнения конкордантности позволяют вычислять ответы на такие вопросы: в каком смысле (здесь неизвестная – модуль конкордантности) слова и тексты конкордантны? Если задан смысл (модуль), то какой набор слов заменяем на другие слова? Таким образом, возможно вычислять определения слов и смысловые версии текста. Находить взаимозаменяемые слова, вычислять смысловую разметку и структуризацию текста, черновики текста по аннотации и смысловой перевод текста (даже одного языка). На этих вычислительных возможностях могут основываться новые функции текстовых редакторов и ридеров, мессенджеров и социальных сетей. В последнем случае возможно, составив персональный контекстный словарь пользователя-участника по его сообщениям, сопровождать общение смысловым переводом текста и звука через персональные контекстные языки других участников.
Конкордантное сложение
Конкордантным сложением пары слов (7) и (8) называется выражение
При этом по (6):
Поскольку и – это части фрагментов и , то:
Таким образом,является согласованным контекстом для суммы слов. Модулем согласования является общий словарь двух контекстов . Конкордантное сложение слов:
где многоточие в индексах означает номер повторяющегося слова слева от номера , - произведение правых словарей контекстов .
Слово в уточненном контексте
Два слова конкордантны (9), если правые словари их контекстов имеют ненулевую область пересечения (10). Но каждое слово этих контекстов также является словом в контексте (5). Поэтому необходима взаимная конкордантность определяемого слова с определяющими словами. Такая рефлексия по В.А.Лефевру, является причиной неоднозначности естественного языка и трактований текстов («я думаю, что они думают, что я думаю, . . . »).
Математической экспликацией рефлексии является латентная смысловая нелинейность линейно упорядоченных слов-знаков. Возможно, в будущем языковые тексты перестанут быть линейными и одномерными. Нотные тексты, например, 5-мерные, хотя и их можно переложить в одномерный стан-«ниточку», но это превратит нотные тексты в чудовищно непонятные коды со словарями, сравнимыми со словарями языковых текстов. Такие одномерные музыкальные тексты, как и языковые тексты, потребуют смыслого гештальт перевода, а не только персонального интонационного, как для 5-мерных музыкальных текстов. В будущем многомерном языковом тексте можно будет указывать на смысловые цепочки раскрытия смысла слов и фрагментов текста, а не распознавать их интуитивно или с помощью лайфхаков смыслового (быстрого) чтения.
Контекст (1) в определении слова (5) может рассматриваться как конкордантная сумма матричных слов (21), поскольку каждое слагаемое слово в (1) также имеет свой контекст. Тогда слово в таком уточненном контексте для (5) имеет вид:
где:
-- словари контекстов ,
-- словарь фрагмента-контекста .
Слово в уточненном контексте (22) – матричная билинейная по F форма.
Два слова вида (22) конкордантны по уточненным контекстам, если пересечение (произведение) всех словарей всех контекстов обоих слов:
где и – произведения всех словарей (23) и (24) первого и второго слова.
Могут быть конкордантны n слов по уточненным контекстам, если каждая пара конкордантна. Модулем конкордантности является произведение всех словарей всех контекстов всех форм.
Могут быть конкордантны суммы слов (фрагменты текста) (21) по уточненным контекстам, если каждая пара сумм конкордантна.
Пара сумм слов конкордантна, если произведение словарей всех контекстов всех слов пары сумм отлично от нуля.
Если модуль конкордантности, как произведение словарей всех уточненных контекстов всех слов как билинейных форм (22), ненулевой, то текст из этих слов конкордантен.
Классы конкордантности
Все слова и фрагменты матричного текста могут быть разложены в классы конкордантности.
Каждому слову с номером в текст в форме (22) соответствует множитель слева:
Каждому фрагменту текста Fi , как и любому F в (25), соответствует свой словарь Di:
Множители (26) слева для в (22), как и Di справа для Fi в (27), существуют, но не изменяют или Fi . При этом множители однозначно определяются из текста по его фрагментам. Отсутствие влияния множителя на знаки является необходимым условием, но не достаточным для отношений конкордантности. Достаточным условием является то, что не влияющие на знаки Ei,j и Fi множители (25) слева и Di справа (26) являются однозначной функцией (свойством) текста.
Каждой паре слов и в форме (22) с номерами i1 и i2 в тексте соответствует модуль (каппа) конкордантности – произведение всех словарей всех уточненных контекстов обоих слов (25).
Каждой паре фрагментов текста Fi и Fj соответствует модуль конкордантности – произведение всех словарей всех уточненных контекстов всех слов.
Каждой паре и Fj из слова в форме (22) и фрагмента текста соответствует модуль конкордантности – произведение всех словарей всех уточненных контекстов и Fj.
Обратно, каждому модулю (имя класса) соответствует множество уточненных контекстов, множество слов, соответствующих этим контекстам по (22) и множество фрагментов текста, имеющих словарь, равный . Все эти три множества взаимно конкордантны и все их элементы являются элементами одного класса конкордантности .
Множество всех классов конкордантности по модулю – это булеан множества всех n слов словаря текста или все его частичные суммы (словари фрагментов). Число всех частичных сумм 2n.
Принадлежность таких элементов одному классу означает, что существуют матрицы преобразования элементов друг в друга. Действительно, если множество уточненных контекстов, множество слов, соответствующих этим контекстам по (22) и множество фрагментов текста, имеют один словарь, равный , то все эти элементы подобны друг другу (20) в [1]. При этом общим объектом преобразования в уточненном контексте и фрагментов текста являются матричные полиномы (31) в [1].
Взаимные преобразования уточненных контекстов, слов, соответствующих этим контекстам и фрагментов текста, имеющих словарь, равный , следующие:
Преобразование пары уточненных контекстов вида (26):
Пусть имеются два матричных текста (28). Из-за того, что они принадлежат одному классу, они имеют одинаковый модуль или, что то же самое, имеют одинаковые правые словари. Но матричные тексты, имеющие одинаковые словари, образуют идеалы (кратны словарю) по (37) в [1]. Всегда существует матричный полином, при умножении которым слева на один уточненный фрагмент (28) получается уточненный фрагмент вида (28):
С точностью до этого матричного множителя два уточненных фрагмента неразличимы (взаимозаменяемы).
2 Преобразование слов в уточненном контексте вида (22). Пусть имеются два слов:
Поскольку слова конкордантны (имеют общий словарь , как произведение всех словарей всех уточненных контекстов (14)), то:
Как и сравнения целых чисел, конкордантность матричных единиц (31) можно записать через равенство:
3 Преобразование слов и контекстов.
Пусть имеются слово и контекст:
Слово и контекст (33) конкордантны, если имеют общий модуль :
Или в записи через равенство:
где понимается как конкордантное преобразование слов (32).
Преобразование слов и текстообразующих фрагментов сводится к (35), поскольку части текста -– матричные полиномы (31) в [1], как и контексты. Это означает, что (34) – формула вычисления наименования фрагмента текста словом, принадлежащим классу конкордантности . И наоборот, определение слова текстом.
Смысловые цепи Нёттер
Классы конкордантности различаются словами, входящими в словарь . Пусть задана последовательность словарей:
такая, что соседние словари различаются одним словом :
Класс конкордантности (заглавная каппа) для каждого -- это множество всех слов в уточненном контексте, всех уточненных контекстов и всех фрагментов текста, имеющих общий словарь . Элементы взаимно заменяемы по формулам лам (29), (32) и (35).
Пусть имеются классы конкордантности Ki , соответствующие (36). Тогда:
и наоборот:
для таких , что:
В словарях (36) и (37) происходит увеличение слов в словаре слева направо в (36). В словарях (36) и (40) – происходит уменьшение.
Последовательность непустых подмножеств (38) корпуса текстов, составленных на основе (словаря корпуса всех текстов), является возрастающей, поскольку каждое из них является подмножеством следующего.
И наоборот, последовательность подмножеств (39) является убывающей, так как каждое из них содержит следующее подмножество.
Считается, что последовательность стабилизируется после конечного числа шагов, если существует такое n, что для всех . Это имеет место для матричных текстов -- не существует большего словаря, чем словарь всех текстов D. Совокупность подмножеств заданного множества D (или K) удовлетворяет условию обрыва возрастающих цепей, так как любая возрастающая последовательность становится постоянной после конечного числа шагов.
Любая убывающая последовательность (39) становится постоянной после конечного числа шагов, так как словарь D имеет минимальное множество - одно слово, следовательно совокупность подмножеств (39) удовлетворяет условию обрыва убывающих цепей.
В общей алгебре объекты называются нётеровыми, если они удовлетворяют условиям обрыва цепей. Амалия Эмми Нёттер виртуозно использовала технику обрывающихся цепей в своих многочисленных кейсах. Такие объекты, как классы конкордантности, тоже являются нётеровыми.
Нётеревы цепи могут быть определены также для порядка слов в тексте. Для текстов существенен относительный порядок слов. Например, «случайное в необходимом» различается смыслом с «необходимое в случайном» или «папа мамы» и «мама папы». Для музыкальных текстов и кодов - порядок знаков не менее значим, чем сами знаки.
Модуль конкордантности является фрагментом словаря текста. Для словаря порядок слов несущественен. Поэтому класс конкордантности содержит элементы без учета порядка слов во фрагментах текста. Порядок слов может быть учтен через имеющиеся подклассы класса конкордантности следующим образом.
Пусть имеются два слова:
Слово находится в тексте слева от , если существует такая матричная единица:
что:
В этом случае множество матричных единиц:
является подмножеством:
Если слово находится в тексте слева от , то в смысле (47):
Пусть имеется матричный полином:
Выражение (49) определяет класс конкордантности, имеющий следующее описание:
Элементы класса -- это полиномы, имеющие словарь , с любыми первыми координатами мономов.
Подкласс элементов с такими первыми координатами, что:
3.Подкласс элементов с такими первыми координатами, что:
Для матричного полинома:
класс конкордантности определяется словарем (модулем) и состоит из подклассов, учитывающих порядок слов. Подклассы порядка определяются восходящими или убывающими цепями Нёттер для первых координат матричных мономов в левых словарях текстов (12) в [1]. Выражение (49) соответствует этому определению левого словаря. Для левых словарей также существуют цепи Нёттер, как и для правых словарей (36).
Цепи Нёттер для слов и их порядка являются смысловыми инвариантами текста, сохраняющимися при соответствующих конкордантных заменах слов в тексте (пересказ текста своими словами), заменах фрагментов словами (реферирование и аннотирование), замена слов фрагментами (бот-автописатель). Инвариантность происходит из того, что нёттеревы цепи строятся по левым или правым словарям матричных полиномов. Инвариантность по нёттеревым цепям правых словарей означает, что для смысла текста не важны места слов в тексте, важна система их контекстного соответствия как функции вложения (с учетом порядка слов внутри n–грамм). Инвариантность по нёттеревым цепям левых словарей означает, что для структуры текста не важны слова из правого словаря, важна система их структурного соответствия как функции вложения левых словарей текстообразующих фрагментов (структурный шаблон текста).
Цепи Нёттер текста более предпочтительны для семантического анализа, чем частотные ключевые слова, поскольку учитывают контексты слов, а также выявляют закономерности раскрытия системы понятий в тексте через последовательность вложенности их содержания (контекста) – это и есть упомянутая выше иерархическая преемственность понятий (слов). Логические, этические и эстетические категории естественных языков возможно вычислять как смысловые цепи Нёттер.
Если смысловые цепи Нёттер задаются как целевые функции (последовательности вложений), то возможно составление систем уравнений на переменные билинейных форм (22). Из-за того, что переменные в (22) попарно зацеплены друг с другом (попарно вложены в цепях Нёттер), может быть составлена система квадратичных уравнений на слова в уточненном контексте, их контексты и текстообразующие фрагменты как неизвестные таких уравнений.
Уравнители смысла
В теории категорий уравнителем (обобщение уравнения) называется применительно к фрагментам матричных текстов следующая модель. Пусть заданы четыре объектафрагмента , , , , где -- словари фрагментов. Объекты и связаны парой морфизмов и :
Это означает, что словарь - это часть или весь словарь . и могут отличаться друг от друга из-за того, что в могут быть повторы слов. Тогда нет однозначности в (10) преобразовании фрагментов (результат зависит от того, какое из повторяющихся слов используется для преобразования в слово фрагмента ). Третий объект-фрагмент и морфизм (функция включения) называется уравнителем и , если при конкордантны и :
При этом для любого другого объекта , удовлетворяющего тем же требованиям:
что и , существует единственный морфизм
такой, что:
Существенным отличием приведенного выше определения для уравнителя матричных фрагментов от канонического определения уравнителя для категории множеств Set, например, является замена отношения равенства на отношение конкордантности. Но поскольку отношения равенства и конкордантности являются отношениями эквивалентности (обладают свойствами рефлективности, симметричности и транзитивности), такая замена допустима и удовлетворяет аксиомам категории [3].
Причина использования конкордантности следующая. Для (50) требуется найти третий фрагмент текста и его соответствующий матричный полином-преобразование такой, что при умножении на него справа неоднозначность в (50) ( или ) устраняется. Поскольку в мономах матричных полиномов или обе координаты относятся к положению слов в тексте, то и -- это и есть согласованное правило выбора повторяющихся слов, устраняющее многозначность в (50).
Если слова рассматриваются в уточненном контексте, то для достижения такой однозначности используется смысловое различие повторяющихся слов в тексте и их конкордантность по уточненным контекстам.
Система уравнений для фрагментов в уточненных контекстах (слово -- частный случай фрагмента) может быть составлена тремя способами:
1.По соотношению конкордантности фрагментов текста в уточненных контекстах (28) – (35):
где и различные слова и фрагменты текста. Например, это конкордантность названия текста и всего текста или частей текста (параграфов, глав etc), частей текста (например, аннотации и всего текста, первых абзацев параграфов, etc. Перечисленные сочетания фрагментов обозначаются номерами j из (56) и являются соответствующими номерами уравнений в системах уравнений текста.
2.По цепям Нёттер фрагментов текста и их порядка следования. Уравнения в этом случае является рекуррентными и определяются формулами (37) или (40). Рекуррентность по первым координатам определяет последовательность следования фрагментов текста (структурный шаблон текста). Рекуррентность по вторым координатам определяет последовательность следования фрагментов по преемственности смысла (контекстное оглавление всего текста и его разделов). Каждая цепь Неттер определяет уравнение в системе уравнений.
3.Сочетание двух пунктов выше.
По (22) системы уравнений имеют общий вид:
Системы уравнений (56) в зависимости от того, какие фрагменты F в (56) принимаются за неизвестные, являются либо системами линейных, либо квадратичных по F уравнений. Задаваемые и неизвестные величины в (56) являются матрицами. Для линейного случая имеются матричные версии метода Гаусса решения систем линейных матричных уравнений. Для систем квадратичных матричных уравнений также существует обобщение метода Гаусса исключения неизвестных и редукции в системах уравнений со многими неизвестными к уравнению с одним неизвестным и формулам связи между неизвестными.
Точная линеаризация уравнений
В [4, 5] был разработан метод точной линеаризации и решения систем нелинейных алгебраических уравнений над полем действительных чисел. Система квадратичных уравнений является частным сучаем. Свести систему квадратичных уравнений к системе линейных уравнений можно без потери общности и точности.
Например, пусть задано квадратичное уравнение (, , -- действительные числа)
и четыре матричные единицы (1) в [1]:
Матричные единицы (58) обладают следующими свойствами:
где -- единичная матрица, .
Из формул (51) - (62) следует, что перестановочные свойства пар матриц , и противоположны. Квадраты , равны нулевой матрице, а их сумма произведений в разных порядках (антикоммутатор (60)) равен единичной матрице. И наоборот, для элементов их квадраты равны единичной матрице, а антикоммутатор равен нулевой матрице.
Если использовать свойства кронеккеровского (прямого) произведения матриц
то линеаризованным уравнением (57) является выражение:
где -- спинор Картана (упрощенно -- ненулевой столбец, вообще говоря, комплексных чисел). Квадрат матричного множителя B в (65):
где -- единичная матрица 4x4. Свойства матриц (64) в произведении оставляют произведения и удаляют и . Перестановочные свойства (65) оставляют и , а удаляют в BB.
В теории сравнений целых чисел для индекса класса вычетов проводится аналогия с логарифмами. Смысл преобразования (57) в (66) можно условно представить как:
Перестановочность операций (67) над полем действительных чисел невозможна, но над алгеброй унионов (гиперкомплексных чисел) является естественной. Элементы α и ω (унионы) являются матричным обобщением комплексных чисел, а точная линеаризации (57) возможна, но заплатить придется тем, что коэффициенты α и ω в линейном по x уравнении (65) становятся некоммутативными.
Алгебра унионов, точная линеаризация систем алгебраических нелинейных уравнений над полем действительных чисел и унионное обобщение метода Гаусса исключения незвестных подробно изложены в [4, 5].
Для точной линеаризации и решения систем конкордантных уравнений (56) необходимо, чтобы символы в (56) коммутировали с унионами α и ω, и в выражении (56) были квадраты неизвестных. Второе требование необходимо для исключения неизвестных, поскольку , а -- обратных не имеют. Это требование легко выполнить, поскольку для фрагментов матричного текста выполнятся (10) в [1]. Первое требование можно удовлетворить, используя свойство кронеккеровского (прямого) произведений матриц:
Фрагменты и унионы , и перестановочны между собой за счет соответствующего увеличения размерности используемых матричных единиц.
Литература
Комментарии (5)
phenik
01.12.2021 14:32Спасибо за публикацию, интересная тема. Местная публика оценила бы работу больше, если она была реализована в виде фрейморка на Питоне, и снабжена примера использования) Некоторые замечания с точки зрения психофизиологии и когнитивных исследований.
В этой статье определяется понятие матричного слова в контексте. Слова-знаки при повторах могут иметь разные фрагменты текста между ними (контексты), а слова, одинаковые по написанию и звучанию, — иметь разный смысл (как омонимы). В тексте все повторяющиеся слова могут быть омонимами, если их контексты отличаются соответствующей мерой (модулем). И обратно, разные по написанию и звучанию слова могут иметь схожие контексты и разную меру синонимичности. Частотность ключевых слов в семантическом анализе целесообразнее определять как частотность контекстов, сравнимых по соответствующей мере, чем как частотность слов-знаков, подобно буквам алфавита. При вычислении смысловой частотности слов с учетом контекста разные словазнаки с одинаковыми контекстами должны суммироваться при вычислении частоты и, наоборот, одинаковые слова-знаки с разными контекстами — исключаться.
Насколько понимаю тема работы вдохновлена исследованиями методов статистической векторизации слов в духе word2vec, и механизма внимания в трансформерах. Которые используются в моделях ИНС, генераторах и трансляторах текстов, и соответствующего понимания контекста, смысла, омонимических — синонимических отношений. Контекст слова в предложении помогает в понимании его смысла, но не определяется им полностью. В мозге на уровне областей отвечающих за синтаксическую и семантическую обработку текста механизмы функционируют иначе. Как пример, рассмотрим это предложение:
Ехал грека через реку, видит грека в реке рак, сунул грека в реку руку, рак за руку грека цап.
Как определить смысл слова «грека» через контекст предложения включающего реку, рака, руку? В мозге смысл определяется, условно говоря, ссылками на определяющие грека свойства и отношения (моделируемые семантическими сетями). В них с большой вероятностью может встретиться ссылка на руку, как части человека коим является грек. Но ссылки на реку, тем более рака, встретятся весьма маловероятно. Подобная структура связей воспроизводится в сетях мозга, см. одно из последних исследований на эту тему, более подробно можно почитать в этом коменте со ссылками на др. источники. Кроме того в мозге есть область отвечающая за моделирование (симуляцию) утверждений связанных с поведением (она же отвечает за предсказание поведения физических тел типа падающей стены, столба, и тд, с целью предсказания затронет это субъекта или нет, и соответственно стоит отскакивать или нет), которые позволяют производить проверку их осуществимости (мы называем это здравым смыслом, напр, утверждение — «человек прошел сквозь стену дома» вызовет повышенное внимание, т.к. в соответствии со здравым смыслом в обычных условиях это неосуществимо). Это особенно проявляется в передаче смысла омонимов, например, при переводе текстов, см. этот комент с примером.
Пока статистические модели языка находятся в таком же отдаленном отношении со структурами отвечающими за понимание языка в мозге, включая понимание смысла, как сами ИНС с биологическими прототипами нейронных сетей в мозге. Особенно, если их сравнивать с учетом энергоэффективности.Человек из-за природных физических ограничений одновременно может удерживать в процессе понимания всего несколько сущностей (около семи). Для сведения к этому количеству многообразия мира используется такая операция мышления как абстрагирование… Предельным случаем абстрактных понятий естественного языка являются логические категории (Аристотеля, Канта, Гегеля). Иерархическая преемственность понятий (слов) необходима для построения отношений часть-целое (отношений понимания).
Ограничение до 7 объектов имеется в кратковременной памяти, и это могут быть объекты разного типа. Абстрагирование скорее связано со сжатием информации. Сжатие информации в когнитивных структурах человека является фундаментальным принципом, см., напр, это исследование пространственно-временной суммации в вентральном пути зрительной системы, там приведена схематическая картина такой нелинейной компрессии. Абстрагирование (и классификация, категоризация) является естественным продолжение этого процесса в более высоких отделах мозга, отвечающих за построение и описание внутренней модели мира и собственного состояния субъекта. Это неудивительно, т.к. суммативные механизмы заложены на нейронном уровне, и эта суммативность эксплуатируется в формальных моделях нейронов в ИНС. Особенно ИНС сверточного типа, структура кот. подобна структуре вентрального пути зрительной системы.
Лет десять назад группа авторов даже выдвинула идею, что компрессия лежит в основе функционирования сознания, см. одну из их публикаций Compressionism: A Theory of Mind Based on Data Compression, наряду с другими многочисленными объяснениями этого феномена. Они назвали свой подход компрессионизмом. Если приведенная работа является больше методологической, то в этой делается попытка ее некоторой реализации.SergeyBPshenichnikov Автор
02.12.2021 19:19+1Спасибо. Мне было полезно прочитать Ваш комментарий.
Про Питон: естественнее на Haskell для алгебры текста (на Хабре много статей по теории категорий для программистов). Мне понятнее на псевдокоде.
Про word2vec: вдохновлен с детства эрлангенской программой Клейна, в широком смысле. А в хорошем, - действительно замечательными результатами дистрибутивной семантики. И ее проблемами:1. В матрице сравнений, основного объекта построения словесного векторного пространства, для пар слов может нарушаться симметричность, если матрицы не создаются автозаполнениями половины. Поэтому столбцы и строки матрицы (векторы) могут отличаться. Такая же проблема имеется в СППР (на Хабре имеются обзоры). По Т.Саати – это основная проблема построения матрицы сравнений. Проблема называется необходимостью согласования матрицы сравнений. Вдохновлен исследованиями по решению этой проблемы В.В.Подиновского по критериям важности. 2. Складывать слова для частотности можно, если у них контексты (микро- или макро?) одинаковые (никогда не бывает в языке). Если разные, - исключать из частотности. Если у разных слов одинаковые контексты, но разные слова, - добавлять разные слова в частотность данного слова. Очень сложно. Уверен, нейросетевики найдут решения всех проблем. В статье предпринята попытка движения им навстречу.
Про грека-путешественника: я развлекался пару лет назад на « в недрах тундры выдры в гетрах …». Здесь словарь текста не слова, а «ах», «ры», … . И у Вашего грека: ека, еку, … . Это предмет замечательных формальных грамматик Хомского. Вдохновился у него цепочками, но поменял их смысл.
Про сжатие: если заменять понятие абстрагирование на сжатие, целесообразнее использовать «сжатие с потерями». Ближе к смыслу. У Э.В. Ильенкова есть замечательный перевод с немецкого с послесловием статьи одного известного автора «Кто мыслит абстрактно?» Уверен, вдохновитесь на смысловой перевод «Кто мыслит сжато?».
OlegZH
Что это было? Пахнуло учебником алгебры. Или алгебраической геометрии. Или геометрии. Или геометрической алгебры.
А какое условие достаточное?
SergeyBPshenichnikov Автор
Отсутствие в учебниках.
SergeyBPshenichnikov Автор
А если серьезно, то для достаточности нужен подходящий математический объект, замещающий объект прикладного описания. В учебнике по алгебре И.Р. Шафаревича подробно об этом изложено и приведены примеры координатизирующих объектов и операций над ними. Мое предположение, что для слов текста такие математические объекты – это матричные единицы. Они удовлетворяют всем необходимым условиям Шафаревича. А достаточность (успешность) проверит практика применения.