Большая часть проверок эмоционального интеллекта у LLM сосредоточена на коротких, аккуратно размеченных фразах. В реальности всё сложнее: люди говорят долго, отвлекаются, меняют тему, возвращаются к старым переживаниям. На такой дистанции модели начинают терять важные намёки, путают причины и следствия и редко выдерживают цельную линию поддержки. Авторы LongEmotion предлагают именно такой стресс‑тест — бенчмарк с длинными, шумными и эмоционально насыщенными сценариями.

Иллюстративный обзор LongEmotion: шесть задач — классификация и обнаружение эмоций, вопросы‑ответы, диалог, суммаризация, выразительное письмо
Иллюстративный обзор LongEmotion: шесть задач — классификация и обнаружение эмоций, вопросы‑ответы, диалог, суммаризация, выразительное письмо

Что такое LongEmotion

Бенчмарк покрывает шесть задач, каждая проверяет свой аспект эмоционального интеллекта:

  • распознавание эмоций в большом тексте, где полезный фрагмент утонул в контексте;

  • обнаружение «выбивающегося» по эмоции отрывка среди похожих;

  • ответы на вопросы по психологическим источникам;

  • длинный консультативный диалог из четырёх стадий с психологическими критериями оценки;

  • суммаризация эмоционально значимых аспектов клинических отчётов;

  • выражение эмоций: самооценка и длинный нарратив из пяти фаз.

Средняя длина входов достигает 8–12 тысяч токенов, а местами — существенно больше. Это не игрушечные реплики, а полноценные тексты, где важно удерживать дальние связи, не терять нюансы и внятно завершать мысль.

Распределения токенов по задачам
Распределения токенов по задачам

Две инженерные идеи: RAG без внешней базы и CoEM

Чтобы помочь моделям не утонуть в длинном диалоге, авторы предложили два подхода.

Во‑первых, Retrieval‑Augmented Generation в необычном варианте: источником «извлечения» служит сам диалог и память модели, без внешних баз знаний. Идея простая: не надо тянуть всё сразу — выделяй локально релевантные куски, работай с ними и не вноси лишний шум.

Во‑вторых, мультиагентная система CoEM. Это пятиступенчатый конвейер: разбиение текста, первичное ранжирование, обогащение эмоциональными и теоретическими сигналами (от отдельного помощника), повторное ранжирование и финальная генерация ответов ансамблем. Такой «оркестратор эмоций» помогает модели удерживать смысловую линию и тон, но делает это дозированно, без утечки готовых ответов.

Конвейер CoEM: от разбиения и ранжирования до эмоционального ансамбля
Конвейер CoEM: от разбиения и ранжирования до эмоционального ансамбля

Что показали опыты

  • В распознавании и обнаружении эмоций CoEM даёт самый заметный прирост: структурированное обогащение помогает выцеплять тонкие эмоциональные сигналы среди лишнего контента.

  • В задачах, где ответ жёстко привязан к исходному тексту (вопросы‑ответы, суммаризация), излишние «подсказки» могут вредить: лишний фон портит F1 и снижает согласие с источником.

  • В длинном консультативном диалоге неожиданно сильны Qwen‑3 8B и Llama‑3.1‑8B‑Instruct: они стабильно держат линию разговора, местами обходя GPT‑4o по средним баллам этапов. Пиковый прогресс заметен на завершающей стадии, где важны интеграция смысла и аккуратное закрытие сессии.

  • На генерации эмоциональных текстов многое решает «качество мудреца» в CoEM. Когда роль обогащающего ассистента исполняет сильная модель, итоговая речь получается связной, менее повторяющейся и богаче по эмоциональным деталям.

Как падает и растёт точность при разных длинах контекста в классификации эмоций
Как падает и растёт точность при разных длинах контекста в классификации эмоций
Настройка RAG важнее, чем кажется: размер чанка и число извлечений меняют качество на длинных QA
Настройка RAG важнее, чем кажется: размер чанка и число извлечений меняют качество на длинных QA

Отдельная линия — сравнение версий GPT. По сводным результатам расширенная версия GPT‑5 лучше рассуждает в чистых классификациях, но в вопросах‑ответах иногда «переписывает» по своему пониманию и теряет баллы к эталону. В диалоге GPT‑5 сильнее по теоретическим критериям терапии, однако звучит чуть менее эмпатично. GPT‑4o‑mini, напротив, местами даёт более человеческий тон. Это подчёркивает: эмоциональный интеллект — не только логика, но и стиль, забота о человеке и умение закрыть тему без резких углов.

Разные версии GPT в эмоциональном диалоге: баланс теории и эмпатии
Разные версии GPT в эмоциональном диалоге: баланс теории и эмпатии

На что смотреть практикам

  • Если у вас длинные чаты поддержки, стоит использовать «внутренний» RAG по истории диалога. Это снижает шум и помогает не терять главные нити.

  • Для классификаций и обнаружения аномальных эмоций — лучше CoEM: мультиагентное обогащение делает признаки заметнее.

  • Для QA и суммаризации следите за дозировкой обогащающих подсказок: слишком разговорчивый помощник перестраивает ответ под себя.

  • Модели по‑разному ведут себя на длинных входах: стабильность не всегда у «самой большой» версии. Тестируйте на своих диапазонах длины.

Ограничения и планы

Авторы честно показывают, что автооценка ответов (LLM как судья) пусть и хорошо коррелирует с экспертами, но остаётся уязвимой к выбору модели‑оценщика. Дальше команда собирается расширять набор моделей, публиковать данные и уточнять методики. Практически это важный шаг к системной проверке «эмоциональной памяти» ИИ на длинных дистанциях.

Что извлекается и как это влияет на три режима: Base, RAG и CoEM
Что извлекается и как это влияет на три режима: Base, RAG и CoEM

? Оригинальная статья

? Код

***

Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Комментарии (0)


  1. ioleynikov
    17.09.2025 18:04

    Искусственные нейросети начали строить не с фундамента, а с крыши. Их сразу начали учить сложным функциям распознавания цифр, боевых самолетов, кошек, собак, управлению автопилотами, расчетом цен недвижимости, пониманию речи, текстов. С моей точки зрения надо обратить внимание на самые базовые функции мозга всех живых существ, на работу нейромедиаторов, ведущих к возбуждению или подавлению реакций на события. Сами эмоции появились довольно поздно только у птиц и развились у млекопитающих. Но эмоции это только отражения, проявления внутреннего психического состояния организма. Механизмы боли, страха, агрессии, удовольствия проявлялись в виде инстинктов с самого начала эволюции. Нам необходимо максимально точно воспроизвести, смоделировать все эти системы в нейросетях для получения полноценных аналогов разума и реально полезных приложений ИИ и робототехники. Другими словами перевернуть все современные модели сетей с головы на крепкие ноги. Возможно в этом нам помогут математические модели работы нейромедиаторов, правило Хебба и другие алгоритмы. Во всяком случае всерьез говорить об AGI нельзя не решив вопрос о самосознании ИИ, основанном на понимании того, что такое хорошо и что такое плохо для самой искусственной нейронной сети.