Пушкин vs Лермонтов: поиск истины на Python / forpes.ru

Главная
Пушкин vs Лермонтов: поиск истины на Python

Пушкин vs Лермонтов: поиск истины на Python +12

12.11.2025 18:29

Eco_coder 8 994 Источник

Как Python и простые метрики помогают раскрыть различия в стиле двух великих русских поэтов. Лексическое разнообразие, длина слов и предложений, частотность частей речи — всё это можно измерить и интерпретировать.

Можно ли с помощью Python и математических метрик лучше понять поэзию? В этой статье я покажу, как с помощью кода можно количественно сравнить стили Александра Пушкина и Михаила Лермонтова. Я вычислю индекс лексического разнообразия, среднюю длину слова и предложения, а также частотность частей речи. Результаты сопоставлю с известными литературоведческими интерпретациями. Цель — показать, как количественный анализ может дополнять и обогащать традиционное литературное исследование.

До 1837 г. Лермонтов не мог быть широко известен читающей публике. Слава Лермонтова началась именно с момента распространения в списках стихотворения «Смерть поэта».

Вполне естественно, что успех лермонтовского стихотворения, посвященного Пушкину, неизбежно толкал мысль современников к сопоставлению двух поэтов — погибшего и того, кто поднял голос возмущения. «Новый поэт, выступивший на защиту умершего поэта, становится в представлении современников наследником Пушкина» - писала тогда поэтесса Евдокия Ростопчина. Мысль, что Лермонтов — наследник Пушкина, стала в 19 веке всеобщей. Виссарион Белинский впоследствии, после смерти Лермонтова, прямо сказал: «мы... смотрели на него (на Лермонтова), как на преемника Пушкина».

Первый шаг — получить тексты для анализа. В реальном исследовании это были бы большие корпусы (все стихи поэта), но для демонстрации моей подойдут фрагменты.

 pushkin_text = """

Я помню чудное мгновенье:

Передо мной явилась ты,

Как мимолетное виденье,

Как гений чистой красоты.

"""

lermontov_text = """

Печальная Россия!

Люблю тебя — но странною любовью!

То гнев, то страх, то злоба, то раскаянье —

Всё это в душу мне твою вливает боль.

"""

Здесь будет полезно лемматизировать слова — привести их к начальной форме. Это позволяет считать "идёт", "идти", "шёл" как один элемент при подсчёте уникальных слов. Для этого использую библиотеку pymorphy3.

Метрика 1: Лексическое разнообразие (TTR и индекс Хердана)

Первая метрика — насколько разнообразна лексика автора. Использую два популярных показателя:

TTR (Type-Token Ratio): количество уникальных слов / общее количество слов. Простой, но чувствительный к длине текста.

Индекс Хердана, рассчитанный австрийским лингвистом Густавом Хердманом в 1955 г, учитывает длину текста и даёт более стабильную оценку лексического разнообразия для текстов разного объёма: log(V) / log(N), где V — уникальные слова, N — общее количество. Более стабилен к длине т��кста.

 from math import log

 def calculate_ttr(tokens):

    """(Type-Token Ratio)"""

    if len(tokens) == 0:

        return 0

    return len(set(tokens)) / len(tokens)

 def calculate_herdan_index(tokens):

    """Индекс Хердана: log(V) / log(N)"""

    N = len(tokens)

    V = len(set(tokens))

    if N <= 1 or V == 0:

        return 0

    return log(V) / log(N)

pushkin_ttr = calculate_ttr(pushkin_lemmas)

lermontov_ttr = calculate_ttr(lermontov_lemmas)

pushkin_herdan = calculate_herdan_index(pushkin_lemmas)

lermontov_herdan = calculate_herdan_index(lermontov_lemmas)

Результат (на примере фрагментов):

Пушкин — TTR: 0.6214, Индекс Хердана: 0.8973

Лермонтов — TTR: 0.7027, Индекс Хердана: 0.9180

У Лермонтова выше и TTR, и индекс Хердана. Это говорит о том, что в его фрагменте использовано больше уникальных лексем по сравнению с Пушкиным (на единицу общего числа слов). Стиль Лермонтова в этом отрывке менее повторяющийся, лексически насыщеннее. У Пушкина стиль стройнее, гармоничнее, с меньшим разбросом в использовании разных слов — это соответствует его классическому подходу к языку.

Метрика 2: Средняя длина слова и предложения

Следующие метрики — средняя длина слова (в символах) и средняя длина предложения (в словах). Они дают представление о сложности и ритме стиля.

def get_sentences(text):

        sentences = re.split(r'[.!?]+', text)

    return [s.strip() for s in sentences if s.strip()]

 def get_words(sentence):

    return re.findall(r'[а-яё]+', sentence.lower())

 def average_word_length_in_chars(words):

    if not words:

        return 0

    return sum(len(word) for word in words) / len(words)

 def average_sentence_length_in_words(sentences):

    if not sentences:

        return 0

    total_words = 0

    for sent in sentences:

        words = get_words(sent)

        total_words += len(words)

    return total_words / len(sentences)

 sentences_pushkin = get_sentences(pushkin_text)

sentences_lermontov = get_sentences(lermontov_text)

 all_words_pushkin = []

for sent in sentences_pushkin:

    all_words_pushkin.extend(get_words(sent))

 all_words_lermontov = []

for sent in sentences_lermontov:

    all_words_lermontov.extend(get_words(sent))

 avg_word_len_pushkin = average_word_length_in_chars(all_words_pushkin)

avg_word_len_lermontov = average_word_length_in_chars(all_words_lermontov)

 avg_sent_len_pushkin = average_sentence_length_in_words(sentences_pushkin)

avg_sent_len_lermontov = average_sentence_length_in_words(sentences_lermontov)

Результат (на примере фрагментов):

Пушкин:

Средняя длина слова: 4.90 символов

Средняя длина предложения: 14.71 слов

Лермонтов:

Средняя длина слова: 4.24 символов

Средняя длина предложения: 10.57 слов

У Пушкина длиннее среднее слово — это может говорить о большем количестве сложных, книжных форм (например, "томленьях", "вдохновенье", "небесные").

У Лермонтова короче среднее слово — стиль динамичнее, энергичнее, с простыми, яркими словами.

У Пушкина длиннее среднее предложение — это может говорить о сложной синтаксической структуре, развёрнутых образах, лирических размышлениях.

У Лермонтова короче — эмоциональная выразительность, напряжённость, драматизм.

Метрика 3: Частотность частей речи (POS-теггинг)

Последняя метрика — частотность частей речи. Это позволяет увидеть, какой тип информации (описание, действие, субъективность) преобладает в тексте.

Результат (на примере фрагментов):

Часть речи Пушкин Лермонтов Разница

--------------------------------------------------

ADJ 0.155 0.095 -0.061

ADV 0.039 0.000 -0.039

CONJ 0.136 0.162 +0.026

NOUN 0.359 0.365 +0.006

PART 0.010 0.068 +0.058

PREP 0.117 0.122 +0.005

PRON 0.068 0.095 +0.027

VERB 0.117 0.068 -0.049

Пушкин использует больше прилагательных (ADJ) и наречий (ADV). Это указывает на описательность, живописность, визуальный образ («чистой красоты», «нежный голос», «небесные черты»).

Лермонтов использует больше местоимений (PRON) и частиц (PART), а также меньше глаголов (VERB). Это говорит о субъективности, внутреннем переживании, эмоциональной насыщенности («я», «тебя», «же», «ли», «же»). Больше союзов (CONJ) у Лермонтова — это может быть связано с логическими связями, обоснованием, представлением идеи («и», «но», «что»).

Python и простые метрики позволяют объективно выявить различия в стилях двух великих поэтов. Мы увидели, что:

Лермонтов использует более разнообразную лексику и менее длинные слова, создавая динамичный и эмоционально насыщенный стиль.

Пушкин демонстрирует стройность и гармонию, с описательными образами и сложной синтаксической структурой.

Этот количественный подход не заменяет качественный литературоведческий анализ, но дополняет его, позволяя обнаружить паттерны, которые сложно заметить при обычном чтении. Это мощный инструмент для цифровых гуманитариев и всех, кто интересуется новыми гранями в изучении классики.

Код, использованный в статье, доступен в репозитории (например, GitHub Gist). Вы можете использовать его как основу для собственных исследований, например, проанализировав полные корпуса стихов или сравнив другие пары авторов.

Комментарии (8)

avshkol
12.11.2025 19:01
#29102016
Интересно. Хорошо бы разложить на таких характерных матрицах всех известных поэтов, вот было бы весело. Но, предположу, сами поэты бы не одобрили...
1. Eco_coder Автор
  12.11.2025 19:01
  #29103620
  Сначала было бы хорошо установить, кто "известные" поэты...
  1. avshkol
    12.11.2025 19:01
    #29104700
    Ну как же, в Советское время - это Маяковский, Твардовский, Евтушенко, Рождественский, Бродский и Высоцкий. Их хорошо бы сравнить...

Moog_Prodigy
12.11.2025 19:01
#29102902
А между прочим еще в СССР велись подобные исследования еще на совсем древних машинах. Типа установления авторства текста, изменения настроений поэта по времени.
1. Eco_coder Автор
  12.11.2025 19:01
  #29103626
  Читал где-то что еще до СССР и до каких-либо машин такие исследования тоже велись. В ручном режиме.
  1. id_Alex
    12.11.2025 19:01
    #29103960
    Умом Россию не понять, Аршином общим не измерить. У ней особенная стать. В Россию можно только Верить!

economist75
12.11.2025 19:01
#29104194
Поэты, безусловно, топовые. На посещаемых мною клубных посиделках настоящих (издающихся) региональных и местечковых поэтов - эту пару часто сравнивают и между собой, и с достойным импортом типа Байрона/Бернса (в переводе, ес-сно), используя втч псевдочисловые метрики из характерных строф, с расчетами на скорую руку.

Конечно, Пушкин у поэтов побеждает с большим отрывом. И большинство поэтов вам скажет что у Пушкина слова короче и "сильнее" (хотя в статье найдено обратное по длине). Но все поэты у Лермонтова признают невероятную, рекордную "плотность смысла" в некоторых стихах. Сейчас мы бы это назвали праведной токсичностью, но тогда многим было не до шуток, слова были оружием.

В нечастых ныне диалогах с иностранцами, свою любовь к сабжам они подтверждают и обосновывают преимущество над своими только тем, что любить и знать русскую поэзию - это значит понимать ее. А само по себе понимание РП означает культурное превосходство над любыми обстоятельствами, и даже самой судьбой. Местные поэты до этого, якобы, не дотягивают. Про прозу - аналогично, но со скосом в сторону фатализма и депрессии.
1. Eco_coder Автор
  12.11.2025 19:01
  #29114988
  у вас есть знакомые иностранцы, которые любят Пушкина и Лермонтова?

Пушкин vs Лермонтов: поиск истины на Python +12

Комментарии (8)

avshkol

Eco_coder Автор

avshkol

Moog_Prodigy

Eco_coder Автор

id_Alex

economist75

Eco_coder Автор