
Шутка шутке рознь. Чистый юмор держится на игре слов и безобидных несоответствиях, чёрный — на болезненных темах, культурных намёках и тонких контрастах между картинкой и подписью. В мемах это особенно заметно: изображение говорит одно, текст — другое, а смысл рождается на стыке. До недавнего времени не было хорошего мультимодального набора данных именно по чёрному юмору, и модели путались между иронией, сарказмом и откровенной агрессией. Команда D‑Humor закрывает пробел: они собрали датасет из мемов и предложили способ учить модели рассуждать — не просто смотреть и читать, а ещё и объяснять, что именно делает шутку тёмной.


Зачем всё это нужно
Понимание чёрного юмора — не про цензуру, а про контекст. Платформам важно отличать злонамеренную речь от юмористического, пусть и жёсткого, комментария. Исследователям — видеть, какие группы чаще становятся мишенью. Для создателей ИИ — проверять, где модель ошибается из‑за культурных различий или неоднозначных визуальных намёков.
Как собрали данные
Авторы собрали 4 397 мемов с Reddit, сохранив изображение и извлечённый OCR‑текст. Каждый мем размечался по трём осям:
есть ли чёрный юмор;
цель шутки: гендер/секс, психическое здоровье, насилие/смерть, раса/этничность, инвалидность, другое;
интенсивность: мягкая, умеренная, высокая.
Разметку делали три аннотатора с обучением и регулярными сверками. Баланс по чёрному/нечёрному юмору близок к равномерному. Чаще всего мишенью выступают гендер/секс и категория «другое», а по уровню интенсивности преобладают более мягкие случаи. Команда отдельно подчёркивает этическую сторону: данные чувствительны, доступ — по соглашению, без персональных данных.
⚠️ Осторожно: примеры из датасета могут содержать оскорбительный контент


Как работает предложенный подход
Ключевая идея — добавить к картинке и тексту ещё один слой: структурированное объяснение, которое модель формирует сама. Авторы берут VLM (Qwen‑2.5‑7B) и просят её кратко расписать мем по шести полям: что на нём происходит, где скрыт шутливый панч, как построен нарратив, какое вызывает чувство, какие тёмные признаки есть и кто потенциальная мишень. Затем запускают итеративное самоулучшение: модель “примеряет” роль автора мема, критикует собственное объяснение и уточняет его. В среднем хватает трёх итераций, чтобы объяснение стало более полным и связным.


Дальше — извлечение признаков. Текст из OCR прогоняют через BERT, объяснение — через S‑BERT, изображение — через ViT. На их стыке работает Tri‑stream Cross‑Reasoning Network (TCRNet): она сопоставляет попарно текст, картинку и объяснение, вылавливает несоответствия и склеивает общее представление. Именно эти несостыковки часто и рождают чёрный юмор, поэтому улавливать их критично.
Что показали эксперименты
Базовые языковые модели уже неплохи в распознавании чёрного юмора, но слабеют в определении цели и особенно интенсивности. Визуальные модели — ещё хуже. Zero‑shot VLM без дообучения тоже не справляются стабильно: им не хватает выравнивания между модальностями.
Когда к OCR‑тексту добавляют структурированные объяснения, результаты заметно растут: у DistilBERT Macro‑F1 по цели увеличивается примерно с 56% до 63%, а корреляция по интенсивности — с 26% до 33%. Лучшие показатели даёт TCRNet, который явно совмещает изображение, текст и рассуждение:
распознавание чёрного юмора: accuracy 75,0%;
предсказание цели: взвешенная F1 64,2%;
предсказание интенсивности: accuracy 62,7%, корреляция Пирсона 38,6%.
Абляция честно подтверждает важность объяснений: удалите канал рассуждения — и Macro‑F1 по цели падает с ~60,5% до ~35,1%, а взвешенная F1 по факту наличия чёрного юмора — с ~74,1% до ~67,3%.



Что это меняет
Научный вклад — в двух вещах. Во‑первых, сообщество получает открытый мультимодальный датасет, где чётко размечены не только факт чёрного юмора, но и его цель и уровень интенсивности. Во‑вторых, показано, что модели начинают лучше понимать тонкие мемы, когда их заставляют объяснять шутку и сопоставлять это объяснение с картинкой и текстом. Не просто «узнать паттерн», а собрать причинную картинку: кто шутит, над чем, за счёт какого контраста и почему это воспринимается как темно.
Где ограничения
Данные — с Reddit и на английском, поэтому перенос на другие платформы и культуры может быть неровным, а распределение по уровням интенсивности несбалансировано. И, конечно, любые модели на деликатные темы нуждаются в ответственных протоколах использования: от психологической безопасности аннотаторов до аккуратного доступа к данным.
Итог
D‑Humor предлагает реалистичный путь к пониманию чёрного юмора: добавить к мультимодальности явное рассуждение и научить модель выравнивать факты и интерпретации. Такой подход делает решения прозрачнее и полезнее — как для исследований, так и для прикладной модерации.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал - там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.