К созданию данной заметки о комбинаторных свойствах русского текста автора привела работа с русскими текстами по фольклору, философии и поэзии с одной стороны, с другой — вопрос сложности непосредственно самих текстов на русском языке в структурном, математическом или комбинаторном смысле этого слова.

Перед размышлением на данную тему рекомендуется ознакомиться или освежить в памяти основные формулы комбинаторики или просто вспомнить о существовании комбинаторных приёмов и различных комбинаторных объектов.

Ещё одним фактором, побудившим автора взяться за данную заметку, стали занятия переборными алгоритмами, эксперименты с выведением комбинаторных алгоритмов без опоры на учебники и пособия, их программирование.

Результаты практической работы можно найти в сетевом хранилище.

Заметки с примерами алгоритмизации можно посмотреть на habr.com.

Для детального изучения вопроса мне понадобилось поработать с 8 классическими алгоритмами перебора множеств и одним достаточно новым алгоритмом порождения суперперестановок (англ. superpermutations). Речь идёт прежде всего об алгоритмах: 1) перестановок (англ. permutations) размещений (англ. arrangements), 3) сочетаний (англ. combinations) 4) разбиений (англ. partitions). Каждый из данных четырёх алгоритмов подразумевает существование этого же алгоритма, но с повторением, именно поэтому алгоритмов получается 8. Ознакомление с данными алгоритмами и комбинаторикой в целом необходимо для выявления и понимания структурной или комбинаторной сложности текстов на русском языке. Читателю предлагается вспомнить, что представляет собой следующие принципы взаимодействия с объектами или операции над ними, именуемые: перестановка, разбиение, сочетание, размещение, композиция.

Я исхожу из следующего посыла: содержание и глубина содержания определяют сложность текста. Органичная сложность русского текста задаёт сложность его математической, комбинаторной структуры, его красоту. Мысль о содержании предопределяющим органическую красоту выведена мной на основе рассуждений Николая Лосского в работе «Мир как осуществление красоты». В своей работе Николай Лосский критически относится к мысли В. Виноградова об отношении «формы и содержания». В его позиции прослеживаются следы идеализма и субъективизма по вопросам эстетики и восприятия. Однако я переношу ранее высказанную мысль с эстетических вопросов на сложность русского текста в структурном аспекте. Таким образом основная идея статьи звучит так: органическая сложность содержания задаёт не только красоту, но и определяет структурную сложность текста. В этой связи глубокое понимание содержания текста задаёт предпосылку к глубокому понимаю математики текста, а также развивает способность видеть в тексте то, что не является в тексте математическим.

Слово и фраза имеют комбинаторную структуру и могут рассматриваться в качестве независимых дефиниций. Слово является вложенной структурной единицей в комбинаторную структуру предложения или фразы. Это комбинаторика в комбинаторике. Фраза более общая дефиниция относительно слова. Незначительные погрешности во вложенной структуре или изменения могут практически не влиять на создаваемый фразой образ. Слово и фраза — это структура внутри другой структуры; для слова минимальной единицей является буква, для фразы — слово. В отличие от числовой комбинаторики комбинаторика слов естественного языка обнаруживает некоторые законы, которые, говоря математическим языком, можно назвать не в полной мере детерминированными. Например, в русском слове за согласной буквой часто следует гласная. Помимо комбинаторики букв в слове выделяется также комбинаторика слогов, создаваемая по определенным правилам, в основном правилам фонетики, иногда с отступлением от этих правил, что в математическом аспекте не даёт возможности эти правила детерминировать в полной мере.

Для понимания комбинаторной сложности русских текстов можно попытаться сравнить законы построения предложения в русском и английском языках. Как известно, в английском языке прямой порядок слов, что ограничивает, например, возможность перестановки слов в предложении, хотя поэтическая речь в некоторой степени допускает незначительные перестановки слов. Русский текст лишён этого ограничения практически полностью и допускает практически любой порядок слов в предложении, что в разной степени сказывается на оттенках смыслах и значительно дифференцирует русский текст в стилевом плане.

Рассмотрение русского текста через призму комбинаторики позволяет изучать его как многомерную связанную структуру, однако при подобном рассмотрении и особенно попытках перенесения комбинаторного взгляда с текста на речь, следует помнить, что некоторые законы и правила письменного текста для устного текста — речи — далеко не всегда работают.

Комментарии (8)


  1. raamid
    26.07.2022 14:12
    +2

    Ссылки у вас странные. Одна замкнута на себя, вторая ведет к репозиторию, в котором ничего не понятно для неподготовленного пользователя. А в целом, чтобы читатель мог понять о чем здесь идет речь очень рекомендую вставить примеры работы прямо в текст статьи.


  1. lair
    26.07.2022 14:34
    +1

    А можно, пожалуйста, конкретные примеры?


  1. arsab
    26.07.2022 18:01
    +4

    Признаться, не посмотрел размер статьи, очень увлекся чтением (думая, что это введение), а потом статья внезапно закончилась:) Мне не хватило конкретики - какой тезис отстаивает автор и как он его обосновывает.

    1. Русский язык (как и любой естественный) - сложен. Да кто же спорит?

    2. Русский язык (как и любой естественный) может иметь математические закономерности. Да кто же спорит? Вы покажите на примере.


  1. Rum_tea
    27.07.2022 16:29

    Обычно не пишу комментарии, но эта статья вынудила меня.

    1. Как уже заметили выше, не совсем ясно, зачем эта статья существует. Нет ни тезиса, ни реализации алгоритма, ни вывода. Есть ссылка на результаты, но в них довольно сложно разобраться без пояснений.

    2. Вы ссылаетесь на Лосского, но Лосский говорит об эстетике, как можно это экстраполировать на сложность структуры текста? Если вы можете доказать, что такое допустимо, то где доказательства, ссылки на исследования?

    3. Более того, Лосский не лингвист и не филолог, Лосский — философ. В своих сочинениях он мог говорить об эстетической стороне, но не мог говорить о структуре текста и любых других филологических аспектах.

    4. Сама статья по форме далеко не идеальна. Зачем нужны переводы после терминов из комбинаторики? Это очень странный подход, потому что "число сочетаний", "число перестановок" и пр. — устоявшиеся термины, и приводить переводы после них довольно нелогично (illogical).

    5. Вопросы стилистики сложны, и как человек без образования в этой области я не претендую на абсолютную истинность, но на Хабре подавляющее большинство статей относятся к научно-популярному стилю. Этот текст неприятно выделяется, и (дальше полный субъектив) у меня сложилось впечатление, что околонаучным стилем автор маскирует отсутсвие научности в содержании: невалидные ссылки, нелогичные приближения, спорную аксиологию.

    Короче говоря, статья спорна: никаких доказательств, голые тезисы и пресыщенность терминологией.


  1. berez
    27.07.2022 18:22
    +2

    Я исхожу из следующего посыла: содержание и глубина содержания определяют сложность текста.

    У-у-у, как все запущенно…
    Ну ладно содержание — это понятно, это полезная информация, содержащаяся в тексте. А как и в каких единицах предлагается глубину содержания мерить? «Глубина содержания этого текста — три целых шесть десятых метра».
    И с чего вы взяли, что сложность текста хоть как-то зависит от его содержания? Почитайте статьи на хабре — тут бывают тексты, в которых простейшие вещи рассказываются таким корявым языком, что только с третьего прочтения удается понять, о чем же автор нам пытается доложить. А бывают тексты, рассказывающие о довольно сложных вещах и на довольно большую глубину (метров ориентировочно до трех), но при этом — просто и понятно.

    В общем, какая-то сомнительная у вас идея взята за основу.

    Добавлю-с:

    Как известно, в английском языке прямой порядок слов, что ограничивает, например, возможность перестановки слов в предложении, хотя поэтическая речь в некоторой степени допускает незначительные перестановки слов.

    Расхожие истины зачастую ложны.

    Порядок слов в английском предложении не такой уж фиксированный, как кажется. Например, использование пассивного залога вместо активного позволяет «вывернуть» фразу наизнанку: Mother washed the frame -> The frame was washed by mother.

    Русский текст лишён этого ограничения практически полностью и допускает практически любой порядок слов в предложении,

    И это тоже заблуждение.

    Любой порядок практически слов если использовать, Йоды речь мы мастера услышим. А чтобы текст на русском языке легко читался и был понятен, приходится придерживаться довольно жестких ограничений в порядке слов и изложения мыслей.


  1. pinbraerts
    28.07.2022 07:57

    ?

    Как вам такая комбинаторика, уважаемый? Жду продолжения


    1. dcc0 Автор
      28.07.2022 20:54

      Увы! Не планирую писать продолжение.


  1. dcc0 Автор
    28.07.2022 21:06

    Статью писал изначально для научного журнала.
    Но недописал.
    Развить изначальный тезис трудно, но от него не отказываюсь.
    Если мою мысль можно упростить, то она прозвучит так: уровень владения словом может определять научный, в том числе математический, потенциал субъекта.
    Но есть ещё эстетика текста и владения речью, а после определенного порога совершенствования в языке необходимость в исследовании математического в языке почти отпадает. Говоря метафорически: бегать с циркулем вокруг картины Караваджо можно до бесконечности и остаться на том же уровне.

    Поэтический русский язык допускает любой порядок слов.

    P.s. доводы комментирующих неубедительны.
    Остаюсь при своем мнении.