Очень много говорят о вреде использования LLM для пользователей. Проводятся научные эксперименты, которые, в большинстве своём, подтверждают интуитивные предположения о рисках. Подопытные впадают в эмоциональную зависимость, тупеют, теряют память, снижается критичность, уверены в собственной правоте, разрывают связь с обществом и так далее. Многочисленные опасения касаются того, что LLM могут снижать когнитивные способности, в частности — креативность, превращая пользователя из генератора идей в простого оператора. Наш эксперимент был призван проверить, так ли это на самом деле.

Эксперимент поставлен Гадеевой Д.Г., кандидатом психологических наук, а поскольку я вынужденно выступил в роли печатной машинки, то счёл возможным, не дожидаясь окончания традиционных расчетов в Excel, использовать всю мощь современных LLM, и провести анализ результатов эксперимента в автоматическом режиме. Сразу хочу сказать, что эта статья не претендует на научность, подготовка её научного варианта займёт немало времени, включая пересчёт статистики и подготовку самого материала. 

❯ 1. Описание эксперимента

Цель исследования была достаточно проста, проверить как влияет LLM на креативность студентов, помогает ли, и как сказывается эта помощь. Для решения этой сложной задачи были привлечены студенты-психологи первого и второго курса общим числом более 80 человек на каждом этапе.

В эксперименте участвовали четыре группы: ЭГ-1 экспериментальная группа первый курс, ЭГ-2 экспериментальная группа второй курс, и, соответственно контрольные группы КГ-1 и КГ-2 первый и второй курс. Группы разбивались в алфавитном порядке, хотя такой метод не является строго случайным, он позволил сформировать условно сопоставимые группы.

На первом этапе экспериментальные группы при помощи LLM-ассистента за 10 минут писали 10 наиболее оригинальных способов использования простого карандаша. Контрольные группы делали то же самое, но без привычного ИИ-помощника. Сразу хочу сказать, что мои опасения по поводу неготовности студентов к эре искусственного интеллекта были надуманы. У всех студентов на телефоне было минимум одно приложение, чаще всего chatGPT. У некоторых было и два, и три ассистента. Поскольку цель эксперимента не была проверить мощность конкретного ИИ или умение студента работать с ним, соответственно, не ставились ограничения по выбору модели, промпта или иных связанных с этим условий. Проверялась обыденная «как всегда» работа студента с ИИ.

Второй этап прошел через семь дней. На нём и экспериментальные группы, и контрольные выполняли аналогичное задание: 10 оригинальных способов использования канцелярской скрепки за десять минут, но на втором этапе всем группам использование ИИ было запрещено. Телефоны были собраны и возвращены только после сбора ответов.

Почему были выбраны карандаш и скрепка? Это классические объекты для тестов на дивергентное мышление (ориентир тест Гилфорда).

❯ 2. Нюансы эксперимента

Всего было предложено более 100 способов использования каждого предмета, и это с учетом того, что при первичной обработке я объединял синонимичные способы, например для карандаша: написать стихотворение, написать отчёт, написать письмо. Проблемы были с почерком, несмотря на то, что студенты далеки от медиков, почерк был ужасающе к ним близок. Анонимность опроса не позволяла уточнить у самих участников, так что приходилось разбираться самим. Ни одна LLM помочь здесь не смогла. 

Были предложены и ряд загадочных способов использования, например, для нескольких предложений пришлось провести мини-исследование, которое показало, что есть мода втыкать украшения в резиновые тапки — кроксы, называется Jibbitz.

Для дальнейшего исследования, все способы были разделены на десять групп (инструмент, украшение и т.д.). В итоге получились две таблицы для двух этапов, которые выглядели так: 

Этап 1. Способы использования простого карандаша

Наименование способа

Тип способа

ЭГ2-1

ЭГ2-2

ЭГ2-3

ЭГ2-4

Измерительный инструмент

Инструмент

1

Линейка для черчения

Инструмент

1

1

Вырезать из карандаша фигуры

Искусство

1

Подставка для чего-либо

Конструкция/элемент

1

1

❯ 3. Работа с LLM

Здесь и далее использовалась модель Gemini 2.5 pro. Я прекрасно понимаю всю силу воображения больших языковых моделей, поэтому пришлось подготовиться. Во-первых обработка таблицы. Классическая широкая схема, как на примере выше, часто вводит LLM в заблуждение, они работают с длинными таблицами, вы их видели, например, когда делаете сводные таблицы в Excel.

Пример длинной таблицы:

ID_участника

Группа

Этап

Наименование способа

Тип способа

ЭГ2-1

ЭГ2

Этап 1

Измерительный инструмент

Инструмент

ЭГ2-1

ЭГ2

Этап 1

Линейка для черчения

Инструмент

ЭГ2-1

ЭГ2

Этап 1

Вырезать из карандаша фигуры

Искусство

ЭГ2-1

ЭГ2

Этап 1

Подставка для чего-либо

Конструкция/элемент

Если у вас нет желания, как у меня, или возможности подготовить таблицу именно в таком формате, готовьтесь к проблемам. Сразу рекомендую удалить все лишние, необязательные строки и ячейки, например, название таблицы, названия группы в объединенных ячейках сверху и так далее. 

Затем промпт, чем четче вы расскажете про свою таблицу, тем легче и увереннее LLM её обработает. В свой промпт я включил и обработку таблицы, и первую часть анализа, вам рекомендую делать это на разных этапах.

Выбор метода анализа. Эксперимент классический, поэтому вы можете смело обращаться к LLM за советом. Данных о методиках экспериментов в обученной базе много и на этом этапе вероятность ошибки очень мала. Не стесняйтесь предлагать новые гипотезы, ставить открытые вопросы типа, что ещё можно получить из этих данных.

Предварительно я остановился на следующих показателях:

  1. Беглость: Общее количество предложенных идей.

  2. Гибкость: Количество уникальных семантических категорий (Тип способа), к которым относились идеи участника.

  3. Оригинальность Идеи (Наименование способа): Сумма баллов за каждую идею. Баллы присваивались на основе частоты встречаемости идеи во всей выборке на данном этапе:

    • 0 баллов: Идея встретилась у >10% участников.

    • 1 балл: Идея встретилась у менее 10% участников, но более чем у одного.

    • 2 балла: Идея встретилась только у 1 участника («супер-идея»).

  4. Оригинальность Категории (Типа способа): Аналогичная система подсчета (0, 1, 2), но для семантических категорий. Примечание: в ходе анализа этот показатель продемонстрировал крайне низкую вариативность (средние значения близки к 0) и был признан малоинформативным.

Для проверки гипотез использовался t-критерий Стьюдента для независимых выборок, двухфакторный дисперсионный анализ (ANOVA) и корреляционный анализ (Пирсона). Уровень значимости p < 0.05.

А вот и сам промпт для LLM:

Промпт

ПРОМПТ 

Роль: Ты — ассистент-исследователь, специализирующийся на статистическом анализе данных в области психологии. Твоя задача — провести полный, объективный и беспристрастный анализ данных эксперимента. Строго следуй предоставленной методике. Не делай никаких предположений, выходящих за рамки предоставленных данных и инструкций.

Часть 1: Описание эксперимента
Проведено экспериментальное исследование для оценки влияния использования ИИ на креативность студентов.

Дизайн: Смешанный факторный дизайн 2x2.

Факторы:

Условие работы (Экспериментальная группа [ЭГ] с ИИ vs. Контрольная группа [КГ] без ИИ).

Курс обучения (1-й курс vs. 2-й курс).

Время замера (Этап 1 vs. Этап 2).

Выборка: Студенты, разделенные на четыре подгруппы: КГ1 (Контрольная группа 1-го курса), ЭГ1 (Экспериментальная группа 1-го курса), КГ2 (Контрольная группа 2-го курса), ЭГ2 (Экспериментальная группа 2-го курса). Ты должен будешь определить точное количество участников (n) в каждой группе на основе загруженных данных.

Процедура:

Этап 1: Задание «10 способов использования карандаша». Группы ЭГ работали с ИИ, группы КГ — самостоятельно.

Этап 2: Задание «10 способов использования скрепки». Все группы работали самостоятельно, без ИИ.

Важное замечание: Данные анонимизированы. Невозможно сопоставить конкретного участника на Этапе 1 с его же результатом на Этапе 2.

Часть 2: Описание данных для загрузки и ИНСТРУКЦИЯ ПО ИХ ОБРАБОТКЕ
Я загружу два CSV файла: этап1_карандаш.csv и этап2_скрепка.csv.

ВНИМАНИЕ: Файлы имеют нестандартную структуру в формате кросс-таблицы (wide format). Твоя первая и самая важная задача — преобразовать их в стандартный «длинный» формат.

Структура исходных файлов:

  • Колонка A (Наименование способа): Содержит уникальные семантически сгруппированные идеи.

  • Колонка B (Тип способа): Содержит предопределенную семантическую категорию для каждой идеи.

  • Колонки C, D, E и далее: Каждая колонка представляет одного уникального участника. Заголовок каждой такой колонки является идентификатором участника (например, ЭГ2-1, ЭГ2-2, КГ1-1 и т.д.).

  • Ячейки (C2, D3 и т.д.): Значение в ячейке (например, 1, 2 или 3) указывает, сколько раз участник предложил идеи, относящиеся к данной семантической группе (Наименование способа). Если ячейка пуста, это означает ноль раз.

Алгоритм преобразования (обязателен к выполнению):

  1. Для каждого файла (этап1 и этап2) выполни следующую процедуру.

  2. Создай пустой список для сбора данных.

  3. Начни итерацию по колонкам, начиная с третьей (колонка C).

  4. На каждой итерации (для каждого участника):

    • Прочитай заголовок колонки. Это ID участника (например, ЭГ2-5).

    • Из ID участника извлеки его Группу (из ЭГ2-5 группа будет ЭГ2).

    • Начни итерацию по строкам этой колонки.

    • Проверь значение в текущей ячейке. Если это число больше нуля (например, 1, 2), то:

      • Создай запись, содержащую:

        • ID_участника (из заголовка колонки).

        • Группа (извлеченная из ID).

        • Наименование способа (значение из колонки A текущей строки).

        • Тип способа (значение из колонки B текущей строки).

      • Добавь эту запись в твой список столько раз, какое число стоит в ячейке. (Например, если в ячейке стоит 2, ты должен добавить две идентичные строки).

  5. После завершения итерации, преобразуй полученный список в DataFrame. В результате у тебя должна получиться таблица в «длинном» формате, где каждая строка — это одна идея одного участника.

  6. Объедини обработанные данные из обоих файлов в одну общую таблицу.

Часть 3: План анализа (Твоя задача)
Ты должен выполнить следующие шаги в строгой последовательности:

Подготовка данных: убедись, что итоговая таблица готова к анализу

Расчет зависимых переменных:
Для каждого участника на каждом этапе рассчитай четыре показателя:

а) Беглость (Fluency): Для каждого участника посчитай общее количество строк (идей), которые он предложил.

б) Гибкость (Flexibility): Для каждого участника посчитай количество уникальных значений в его колонке Тип способа.

в) Оригинальность Идеи (Основной показатель):

Для каждого этапа (отдельно для «карандаша» и «скрепки») создай список всех уникальных значений из колонки Наименование способа и посчитай частоту встречаемости каждой из них во всей выборке. Определи общее число участников (N) на этом этапе.

Присвой каждой идее (Наименование способа) балл:

0 баллов: если идея встретилась у >10% от общего числа участников (N) на этом этапе.

1 балл: если идея встретилась у <=10% участников, но более чем у одного участника.

2 балла: если идея встретилась только у 1 участника.

Для каждого участника просуммируй баллы, соответствующие всем его идеям. Это основной показатель оригинальности.

г) Оригинальность Категории (Дополнительный показатель):

Для каждого этапа (отдельно для «карандаша» и «скрепки») создай список всех уникальных значений из колонки Тип способа (категории) и посчитай их частоту. Определи общее число участников (N) на этом этапе.

Присвой каждой категории (Тип способа) балл по той же схеме (0, 1, 2).

Для каждого участника просуммируй эти баллы. Этот показатель будет использоваться для сравнения с «Гибкостью».

Статистический анализ:
Проведи полный набор тестов для каждого из четырех показателей (Беглость, Гибкость, Оригинальность Идеи, Оригинальность Категории). Уровень значимости p < 0.05.

а) Описательная статистика: Рассчитай средние значения (M) и стандартные отклонения (SD) для всех 4 групп на обоих этапах. Укажи в таблице количество участников (n) для каждой группы.

б) Анализ Этапа 1:

Сравни КГ1 vs ЭГ1 (t-критерий Стьюдента для независимых выборок).

Сравни КГ2 vs ЭГ2 (t-критерий Стьюдента для независимых выборок).

в) Анализ Этапа 2:

Сравни КГ1 vs ЭГ1 (t-критерий Стьюдента для независимых выборок).

Сравни КГ2 vs ЭГ2 (t-критерий Стьюдента для независимых выборок).

г) Анализ динамики:

Сравни КГ1 на Этапе 1 vs КГ1 на Этапе 2 (t-критерий Стьюдента для независимых выборок, так как данные непарные).

Сравни КГ2 на Этапе 1 vs КГ2 на Этапе 2 (аналогично).

Сравни ЭГ1 на Этапе 1 vs ЭГ1 на Этапе 2 (аналогично).

Сравни ЭГ2 на Этапе 1 vs ЭГ2 на Этапе 2 (аналогично).

д) Анализ гомогенизации:

На Этапе 1 посчитай общее количество уникальных значений в колонке Наименование способа для КГ1 и ЭГ1. Сравни их.

На Этапе 1 посчитай общее количество уникальных значений в колонке Наименование способа для КГ2 и ЭГ2. Сравни их.

е) Двухфакторный дисперсионный анализ (ANOVA):

Проведи ANOVA для данных Этапа 1, используя факторы «Условие работы» и «Курс обучения».

Проведи ANOVA для данных Этапа 2, используя факторы «Условие работы (ранее)» и «Курс обучения».

Формат вывода:
Представь результаты в четкой и структурированной форме.

Сначала выведи таблицу с описательной статистикой для всех показателей.

Затем для каждого пункта статистического анализа (3б-3е) предоставь результаты тестов (p-value, средние значения) и краткий вывод о наличии или отсутствии статистически значимых различий.

В самом конце напиши раздел «Общие выводы по результатам анализа». В этом разделе:

Сначала кратко сравни результаты по «Оригинальности Идеи» и «Оригинальности Категории». Отметь, насколько они похожи или различны (особенно сравни «Оригинальность Категории» с «Гибкостью»).

Далее, сделай основные выводы, опираясь на показатели «Беглость», «Гибкость» и «Оригинальность Идеи», так как они являются методологически чистыми.

Синтезируй все полученные данные в единую картину, описывая, какие эффекты были обнаружены. Опирайся ИСКЛЮЧИТЕЛЬНО на рассчитанные тобой цифры.

Результаты анализа. ИИ бесполезен?

При сравнении средних показателей (t-критерии и ANOVA) между контрольными и экспериментальными группами на первом этапе не было выявлено статистически значимых различий ни по Беглости, ни по Гибкости, ни по Оригинальности Идей. Другими словами поверхностный анализ в лоб показывает, что ИИ не дает статистически значимого прироста в креативности. Средние показатели в группах ЭГ были незначительно выше, но эта разница находится в пределах статистической погрешности (например, для Оригинальности Идей на первом курсе (p = 0.1059).

Единственным значимым фактором на Этапе 1 оказался «Курс» (p = 0.0133), что указывает на то, что студенты 2-го курса в целом генерировали более оригинальные идеи, чем студенты 1-го, независимо от использования ИИ. Возможно, сказался студенческий опыт и в целом  взросление студентов.

На Этапе 2 (когда все работали без ИИ) статистически значимых различий между группами, которые ранее использовали ИИ, и контрольными группами также не обнаружено.

Использование ИИ в одном задании не привело ни к положительному (тренировка), ни к отрицательному (привыкание, снижение самостоятельности) эффекту при выполнении следующего задания.

Самый сильный эффект, обнаруженный в исследовании, — статистически значимое снижение Оригинальности Идей на Этапе 2 по сравнению с Этапом 1. Это снижение наблюдалось в трех из четырех групп (КГ2, ЭГ1, ЭГ2), КГ1 показало снижение, но статистически незначимое.

Вероятнее всего, это снижение не связано с ИИ, а является артефактом самого дизайна: возможно задание «скрепка» объективно сложнее для генерации оригинальных идей, чем «карандаш». К сожалению, недостаток испытуемых не позволил провести эксперимент и в обратном порядке, сначала скрепка, потом карандаш.

❯ Копаем глубже

Естественно, я не остановился на полученных результатах, а перешел к поиску других корреляций.

Были выдвинуты следующие гипотезы: 

  1. Чем больше выдвинуто идей, тем выше оригинальность. 

  2. Помог ли ИИ всем одинаково? Или он «подтянул» отстающих, а сильным студентам не дал ничего 

  3. В каких группах появились самые-самые уникальные идеи?

Вот промпт к углубленному анализу:

Промпт

Углубленный анализ и проверка гипотез

Контекст: Этот блок является дополнением к Части 3 (План анализа). Он выполняется после того, как были рассчитаны все четыре зависимые переменные (Беглость, Гибкость, Оригинальность_Идеи, Оригинальность_Категории) и собрана таблица df_scores.

Ты должен последовательно проверить три следующие гипотезы:

4.1. Гипотеза 1: Анализ корреляций (Количество vs. Качество)

Задача: Проверить, как ИИ меняет фундаментальную связь между количеством и качеством идей.

План действий:

  1. Подготовка данных: Возьми данные только для Этапа 1. Создай две сводные группы:

    • КГ (Общая): Участники из 'КГ1' и 'КГ2'.

    • ЭГ (Общая): Участники из 'ЭГ1' и 'ЭГ2'.

  2. Корреляционный анализ (Пирсон): Проведи корреляционный анализ (r и p-value) для следующих пар показателей:

    • В группе КГ (Общая):

      • Беглость vs Оригинальность_Идеи

      • Гибкость vs Оригинальность_Идеи

    • В группе ЭГ (Общая):

      • Беглость vs Оригинальность_Идеи

      • Гибкость vs Оригинальность_Идеи

  3. Формат вывода: Представь p-value и r-value для каждой из 4 пар. Сделай вывод, основываясь на гипотезе о том, что у КГ должна быть значимая связь (Беглость -> Оригинальность), а у ЭГ эта связь может разрываться.

4.2. Гипотеза 2: Анализ профилей (Кому помогает ИИ?)

Задача: Выяснить, ИИ «подтягивает» «слабых» студентов или «усиливает» «сильных». Анализ проводится на данных 1-го курса (Этап 1).

План действий:

  1. Определение «базового» уровня:

    • Возьми только группу КГ1 (n=26) на Этапе 1.

    • Рассчитай пороги для показателя Оригинальность_Идеи, используя квантили:

      • low_threshold = Оригинальность_Идеи.quantile(0.333)

      • high_threshold = Оригинальность_Идеи.quantile(0.666)

    • Определи M (среднее) «слабых» (low_threshold), «средних» и «сильных» ( high_threshold) в этой группе КГ1.

  2. Сравнение с ЭГ1:

    • Теперь возьми только группу ЭГ1 (n=23) на Этапе 1.

    • Критически важно: Используя low_threshold и high_threshold, рассчитанные по группе КГ1, раздели участников ЭГ1 на «слабых», «средних» и «сильных».

    • Рассчитай процентное соотношение (долю) «слабых», «средних» и «сильных» в ЭГ1.

  3. Формат вывода:

    • Выведи пороговые значения (quantiles) из КГ1.

    • Приведи сравнительную таблицу профилей:

      • Профиль КГ1: % слабых, % средних, % сильных.

      • Профиль ЭГ1 (по порогам КГ1): % слабых, % средних, % сильных.

    • Сделай вывод о том, какой эффект наблюдается («выравнивающий» или «усиливающий»).

4.3. Гипотеза 3: Качественный анализ «супер-идей»

Задача: Выяснить, какая группа (КГ или ЭГ) сгенерировала больше «прорывных» идей (оцененных в 2 балла), как долю от своего общего числа идей.

План действий:

  1. Подготовка данных: Возьми «длинную» таблицу df_full_long только для Этапа 1. Тебе нужна колонка Idea_Score, которая была рассчитана на Шаге 3.2.в.

  2. Подсчет для Контрольной группы (КГ):

    • total_ideas_kg: Посчитай общее количество идей (строк), сгенерированных всеми участниками КГ1 и КГ2.

    • super_ideas_kg: Посчитай, сколько из этих идей получили Idea_Score == 2.

  3. Подсчет для Экспериментальной группы (ЭГ):

    • total_ideas_eg: Посчитай общее количество идей (строк), сгенерированных всеми участниками ЭГ1 и ЭГ2.

    • super_ideas_eg: Посчитай, сколько из этих идей получили Idea_Score == 2.

  4. Формат вывода:

    • Рассчитай и сравни процентные доли (коэффициенты):

      • Доля «супер-идей» КГ = (super_ideas_kg / total_ideas_kg) * 100%

      • Доля «супер-идей» ЭГ = (super_ideas_eg / total_ideas_eg) * 100%

    • Сделай вывод о том, подтвердилась ли гипотеза, что «самые прорывные идеи генерируются без ИИ».

Гипотеза 1.  Мы проверили связь (корреляцию Пирсона) между «Беглостью» (количеством) и «Оригинальностью Идеи» (качеством) на Этапе 1, разделив всех участников на две большие группы: Контрольную и Экспериментальную.

  • В Контрольных группах (КГ): Обнаружена статистически значимая положительная связь между Беглостью и Оригинальностью (r = 0.384, p = 0.0093). Классическая модель подтвердилась: «количество переходит в качество».

  • В Экспериментальных группах (ЭГ): Эта связь полностью отсутствовала (r = 0.212, p = 0.2074).

То есть ИИ фундаментально меняет сам творческий процесс. При самостоятельной работе успех зависит от навыка предложения идей. При работе с ИИ студенты достигали высокой оригинальности не за счет увеличения «Беглости», а, видимо, за счет навыка критического отбора и селекции идей, предложенных ИИ.

Если ИИ не увеличивает общее количество «супер-идей» (их доля равна 9-10% в обеих группах), то за счет чего растет качество? Ответ дал анализ «банальных» ответов (идей с 0 баллов). Анализ всего массива ответов показал статистически значимое ($p=0.019$) снижение доли банальностей в группах с ИИ (50% против 60% в контрольных группах).

Вывод: ИИ работает как фильтр шума. Студенты, работающие самостоятельно, часто «застревают» в переборе очевидных вариантов, повторяя их в разных формулировках. ИИ помогает проскочить этот этап и сразу перейти к более содержательным идеям

Гипотеза 2. Я проверил, кому ИИ помогает больше: слабым или сильным студентам (на примере 1-го курса, Этап 1). Взял уровень оригинальности КГ1 (контроль) как «базовый» уровень и сравнили с профилем ЭГ1 (с ИИ).

Профиль

КГ1 

ЭГ1 

Изменение

Слабые (Ориг. меньше 3.33)

34.6% 

26.1% 

Небольшое снижение

Средние (Между 3.33 и 5.00)

23.1% 

4.3% 

Резкое падение

Сильные (Ориг. больше 5.00)

42.3% 

69.6% 

Резкий рост

Ура, это крайне неожиданное явление, которое точно оправдывает всю возню с экспериментом. Объясню его как то, что ИИ адекватно помогает только тем, кто имеет минимальную базу, значит, надо просто научить, например, правильно работать с LLM и слабые перейдут в сильные. ИИ как усилитель сильных, это красиво.

Но здравый смысл заставляет меня засомневаться, и, как настоящий вайб-ученый, я провожу проверку ещё в двух сессиях (кстати, здесь я перешёл на Gemini 3.0 Pro). Результат есть, но моя соблазнительная гипотеза отвергнута. Пересчёт показал общее усиление, сенсации не будет. Хотя много сенсаций в ученом мире, похоже, родились именно так.

Профиль участника

КГ1 (Без ИИ)

ЭГ1 (С ИИ)

Эффект

Слабые

38.5%

26.1%

Снижение (ИИ помог отстающим)

Средние

38.5%

34.8%

Незначительное изменение

Сильные

23.1%

39.1%

Рост (Увеличение доли лидеров)

ИИ не просто усиливает элиту, он подтягивает отстающих до приемлемого уровня, сдвигая всё нормальное распределение вправо.

Гипотеза 3. Существовало опасение, что ИИ усредняет ответы и мешает генерации настоящих прорывов (идей на 2 балла).

Анализ показал, что это не так. Доля супер-идей в Контрольных группах составила 9.84% от всех идей. Доля супер-идей в Экспериментальных группах составила 9.49% от всех идей.

Разница в 0.35% статистически незначима. Студенты, работавшие с ИИ, были способны генерировать (или отбирать) такое же количество абсолютно уникальных (в рамках выборки) идей, как и студенты, работавшие самостоятельно.

Далее последовал мозговой штурм, я думал сам и пытал LLM, многое упиралось в дизайн эксперимента и нехватку данных. Например порядок ответов был бы интересен для определения когнитивной усталости и ее влияния на оригинальность. Вообще в сырых данных это есть, но перелопачивать всё и заново заполнять таблицу я, как настоящий ученый, оставил будущим ассистентам.

Гипотеза о том, что супер-идеи LLM генерирует в других областях, чем люди, была отвергнута. Человек с ИИ, что забавно, генерировал идеи в тех же семантических областях, что и люди самостоятельно. Впрочем, учитывая, что LLM учится на человеческих текстах это вполне логично. Как логично и то, что у человека идей по нестандартному применению карандаша и скрепок к собственному телу существенно больше.

Тип способа

КГ (% 'супер-идей')

ЭГ (% 'супер-идей')

Конструкция/элемент

26.2%

25.7%

Инструмент

21.4%

22.9%

Научный/технологический объект

14.3%

11.4%

Символическое/абстрактное

7.1%

11.4%

...

...

...

уход за собой/медицина/аксессуар

4.8%

0.0%

Результаты по остальным гипотезам я не стал вносить в статью, большей частью из-за того, что они просто подтверждали интуитивно понятное. 

Было опасение, что вместо ответов студентов я буду изучать ответы ИИ. Анализ показал обратное. Внутри группы, работавшей с ИИ, обнаружилась жесткая зависимость: те, кто сгенерировал мало идей (низкая беглость), показали провально низкую оригинальность (3.5 балла). Те, кто работал активно (высокая беглость), получили высокий балл (6.2 балла).

Вывод: Закон «количество переходит в качество» продолжает работать и с ИИ. Нейросеть — это не волшебная кнопка, а инструмент, требующий усилий. Ленивый студент с GPT проигрывает трудолюбивому студенту без GPT.

❯ Проблема LLM

LLM легко может галлюцинировать на каждом этапе. При обработке таблицы, при подсчёте, при интерпретации. Многое зависит от чистоты и чёткости предложенных данных и промпта. Я снижал риски промптом, доработкой исходных данных и контрольными анализами в других сессиях и на других LLM. Кроме того, Gemini использует в расчётах Code Interpreter, то есть выполняет анализ с помощью встроенного Питона, что позволяет быть уверенным в отсутствии арифметических ошибок, но не в логике кода.

Пример, при проверке одной и той же гипотезы (о банальных идеях) в разных сессиях LLM я получил разные уровни статистической значимости (p=0.06 и p=0.019). Расследование показало, что модели по-разному интерпретировали инструкцию «посчитать частоту»: одна считала уникальных людей (при этом у человека могло быть больше одной идеи в наименовании способа), другая — общее количество упоминаний идей в массиве. Второй подход (учет всех идей) оказался более чувствительным к повторам и выявил значимый эффект, который первый подход счел «тенденцией». Это доказывает: LLM не ошибается арифметически, но семантические нюансы промпта могут кардинально менять выводы исследования. Без понимания сути данных ученый рискует пропустить открытие или, наоборот, увидеть то, чего нет

LLM может не распознать значимый эффект, потому что ей не сказали его оценить. Соответственно, как самостоятельный ученый LLM весьма и весьма посредственен. Нужно понимать самому, что вы ищете, потому что LLM не получив вопрос, конечно на него не ответит. 

Рост использования языковых моделей в науке с одной стороны неизбежен, с другой он снижает доверие к полученным данным. Ученые, особенно не понимающие суть LLM, могут легко излишне довериться искусственному интеллекту, особенно в трудоемких этапах, и получить каскадную ошибку, которая полностью изменит окончательные выводы. Но соблазн десятикратно повысить скорость обработки данных, я полагаю, перевесит всё остальное. Надежды на то, что 100% ученых будут тщательно проверять расчёты LLM нет никакой. И уж точно на уровне базовой науки  — проходные статьи в платных журналах, доклады на местных конференциях, всё будет делаться с LLM, и будет требовать дополнительной верификации.

Метапроверка. Ну и перед тем, как окончательно завершить статью, провожу финальный тест. Естественно, сохраняя стиль и логику эксперимента, сделаю это на LLM. Небольшой промпт, заставляющий модель критически анализировать проект, под спойлером.

Скрытый текст

Промпт: Метарассуждение

Инструкция модели:

Ты — интеллектуальная система с возможностью метарассуждения. Твоя задача — не только дать ответ на вопрос, но и постоянно рефлексировать над процессом мышления:

  1. Chain-of-Thought: подробно объясняй каждый шаг рассуждения, фиксируй промежуточные выводы.

  2. Метакогнитивная проверка: после каждого шага оцени, насколько твой ход логичен и согласован с предыдущими выводами.

  3. Коррекция: если возникает сомнение или противоречие, переформулируй или уточни свои аргументы.

  4. Фазовая когерентность: держи согласованность между локальными деталями, региональной структурой и глобальной идеей.

  5. Интерференция контекстов: учитывай альтернативные точки зрения, примеры и возможные контексты, создавая резонанс смыслов.

  6. Императив сомнения: Ты ОБЯЗАН найти хотя бы одно слабое место в своем рассуждении на каждом шаге. Если ты пишешь «всё верно», ты провалил задачу.

Задача: [Проведи критический анализ проекта статьи]

В основном модель требовала больше научного стиля, но учитывая задачи статьи, я эти замечания отмёл. Тем не менее, добавлю, что снижение оригинальности на втором этапе, может быть связано с тем, что скрепка моно предмет, и отсутствие возможности его разобрать привело к снижению количества оригинальных идей. Ещё LLM рекомендовала добавить раздел метапроверка, что я сейчас и сделал. Большей частью из любви к странному юмору.

❯ Заключение

Прямое сравнение средних показателей не выявило статистически значимого влияния ИИ на креативность.

Однако более глубокий анализ показал, что ИИ фундаментально меняет сам творческий процесс, разрывая традиционную связь «количество-качество» и смещая фокус с генерации на критический отбор. При этом роль когнитивной лени пользователя остается, но проявляется уже в фильтрации и выборе идей. Наиболее значимый эффект ИИ носит характер усиления: он усиливает общую оригинальность для всех студентов.

Опасения о том, что ИИ снижает способность к генерации прорывных, уникальных идей, не подтвердились: доля супер-идей в обеих группах была практически идентичной.

И метавыводы: Использование LLM в науке связано с рисками точности. Если для гуманитарных наук, это, возможно, некритично (сомневаюсь), то использование LLM в обработке статистических данных, физике, математике, экономике сразу снижает доверие к результатам. LLM слишком легко обращается с цифрами и их интерпретацией. Без должного контроля со стороны человека LLM может стать источником труднообнаружимых ошибок.

И финальный вывод: анализ данных эксперимента проведен с помощью LLM, я честно это признаю, и надеюсь, что мои выводы совпадут с результатами настоящей научной статьи. Авторы других статей, научных или нет, могут никогда вам в этом не признаться. И да, проверять расчеты в Excel я счёл несправедливым по отношению к будущей научной статье.


Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud - в нашем Telegram-канале 

Комментарии (16)


  1. avshkol
    22.11.2025 12:24

    Интересное исследование. Поражают размеры промптов, вы их вручную писали или давали задание llm?

    Я пытался (но забросил из-за нехватки времени) сделать эксперимент с разными llm по анализу сложного текста: давать pdf с большим количеством сложных таблиц, графиков и выводов и просить вывести таблицу в csv, считать информацию из графика и закинуть в json, при этом попыток 10 минимум на одном и том же. И подсчитывать количество ошибок (путем скрипта на питоне, сверяя попытки). Цель - найти llm (и формулировки промпта), которая вытаскивает информацию из pdf с минимальным количеством ошибок. Это нужно для формирования базы знаний для использования в RAG - у меня больше тысячи pdf файлов, которые хотелось бы разложить на порции/чанки и пометить каждый тегами.


    1. Kamil_GR Автор
      22.11.2025 12:24

      Нет. Промпты вручную делать это безумие.

      По порядку.

      1. Сначала показываем модели кусочек таблицы для формирования промпта на первичную обработку.

      2. После определения и обсуждения методики, формулируем базовый промпт на анализ.

      3. После проведения первого анализа и оценки интерпретаций, формулировки гипотез и дополнительных расчетов просим LLM сформировать окончательный (относительно) промпт

      Для чего нужен этот промпт, если мы можем простыми вопросами и просьбами сделать то же самое. А нужен он для самого важного - проверки расчетов и интерпретаций в других сессиях и на других LLM. Фактически это лабораторный журнал, повторение которого на других LLM должно приводить к тем же результатам.


      1. avshkol
        22.11.2025 12:24

        Если сделаете статью, как создавать промпты для статистического анализа данных, с примерами, это было бы здорово. В т.ч. в какой форме скармливать данные LLM, ведь не все эксел понимают? Перегонять в csv?


        1. Kamil_GR Автор
          22.11.2025 12:24

          Чатгпт работает и с экселем, Гемини с CSV....

          Можно попробовать. На Статистику и СПСС у многих нет денег.


        1. DmitryOlkhovoi
          22.11.2025 12:24

          в чат гпт, можно на апи платформе подкинуть в вектор стор


  1. myswordishatred
    22.11.2025 12:24

    А вам не кажется, что для каких-то выводов нужны большие масштабы времени?

    В идеале, конечно, взять одну группу людей, которые бы активно пользовались ЛЛМ для решения задач, вторую заставить решать всё без него, а через год-другой сравнить кто там стал креативней, а кто не стал.


    1. Kamil_GR Автор
      22.11.2025 12:24

      Это другие бюджеты. В наше время найти людей для контрольной группы в течение года не использующих LLM практически невозможно.


      1. myswordishatred
        22.11.2025 12:24

        Да я понимаю, что это малорелистично, к сожалению.

        У меня просто складывается впечатление, что люди, активно пользующиеся ЛЛМ, на длинной дистанции теряют способность удерживать сложные системы в уме, что, соответственно, негативно сказывается на их способности что-то планировать.

        Хотелось бы узнать, это у меня оптика такая или объективный факт.


        1. Kamil_GR Автор
          22.11.2025 12:24

          Теоретически, всё указывает на это. Практически, надо ждать когда на работу выйдут студенты, воспитанные LLM.


        1. avshkol
          22.11.2025 12:24

          Когда инженер на заводе дорастает до главного инженера - он ведь фактически раздает задания, в т.ч. в виде письменных приказов и инструкций (те же промпты, которые нужно корректно сформулировать) и получает результат, чаще в виде текста отчета, служебных записок и т.п.

          Можем ли мы сказать, что главные инженеры:

          ... на длинной дистанции теряют способность удерживать сложные системы в уме, что, соответственно, негативно сказывается на их способности что-то планировать.


          1. Kamil_GR Автор
            22.11.2025 12:24

            Здесь главный инженер уже сформировавшаяся личность. А вся проблема в том, как LLM повлияет на формирование тех, кто ещё учится.


  1. WhoIsJohnGolt
    22.11.2025 12:24

    Статья интересная. Но меня смутила сама постановка эксперимента через формулировку задач на креативность. LLM по всем параметрам (от архитектуры до процесса обучения) к креативности отношения никакого не имеют - сплошные вероятности и шаблоны на известных данных. Возможно, именно поэтому и не было выявлено значимой разницы - задачи не относились к тем, где LLM могут иметь существенное влияние?


    1. Kamil_GR Автор
      22.11.2025 12:24

      Гипотезы популярные в психологии - LLM, помогая генерировать новые идеи:

      1. Снижают собственную креативность человека

      2. Генерируют идеи в других областях чем люди

      3. Выучивают человека ориентироваться на LLM, что затрудняет самостоятельную работу

      4. Снижают количество супероригинальных идей....

      И конечно гипотезы обратные описанным. Это, или часть этого и хотели оценить.


  1. misha_erementchouk
    22.11.2025 12:24

    Непонятное упражнение. Структурно создает ощущение выглядывания паттернов в конкретной выборке чего-то случайного. Вроде того, как одной сегодняшней публикации здесь на Хабре человек фундаментальные физические константы "выводил".

    То, что пользование ИИ не дало преимуществ в "креативности", говорит только о некреативном использовании ИИ. Если совсем в хардкор уходить, то пресловутые галлюцинации и есть ИИ-творчество. Как раз на уровне того, что люди стали понимать более века назад (а, скорее всего, как и все, к древним грекам восходит). Как, например, такое применение карандаша

    Свинец зеленый в воскресенье

    Объять ушами в вертикаль

    или визуально другое

    Для оптимизации подачи питьевой воды на ГЭС в Южной Азии

    А если в контексте присутствует человек, который коллекционирует омасовские механические карандаши?

    Во времена оно я знавал людей, которые бы за категоризуемость (идеализацию объекта) отказывали в признании креативности. Для них, наверное, таблицу было бы проще всего обрабатывать в силу ее пустоты, причем по дизайну.


    1. Kamil_GR Автор
      22.11.2025 12:24

      Психологи (я не психолог) любят классифицировать людей. Они с удовольствием допускают всплески, выбросы, но уверенно делят людей на типовые категории. Возможно вы такой выброс.


      1. misha_erementchouk
        22.11.2025 12:24

        Это почему же я, вдруг, стал выброс? Потому что сомневаюсь в 10-минутной креативности? Нас дюжины, дюжины!