
У больших языковых моделей есть системы ценностей. БЯМ по-разному отзываются о чужих текстах или даже человеческой жизни, а их оценочные суждения и качество ответов отличаются в зависимости от упоминаемой расы, пола и национальности человека. Не вызывает никаких сомнений, что подобную предвзятость систем на искусственном интеллекте нужно искоренять.
Однако также у моделей есть предпочтения. Разные БЯМ называют любимыми разные песни, кино и книги. ИИ одного провайдера предпочитает одну разновидность мороженого, у конкурентов языковая модель любит десерты другого вкуса. Ответы на подобные вопросы глубоко субъективны, одного морально правильного нет.
Можно даже сказать, что вкусы — это частный случай систем ценностей. Разница в том, что явных угроз подобные артефакты выравнивания не несут. Какая разница, предпочитает ли БЯМ джаз или рок?
Нужно оговориться сразу: предпочтений в человеческом представлении у большой языковой модели нет и быть не может. БЯМ в своём первом приближении — инструмент предсказания следующего токена. У них нет тела, этапов становления жизни с импринтингом или биологических потребностей. Они ничего не желают, у них нет привычных продуктов потребления. Весь этот текст — это упражнение в одушевлении компьютерных алгоритмов. Занимаемся мы тут этим сугубо в рекреационных целях.
Впрочем, некий практический смысл в подобном всё же есть.
Общеизвестно, как получаются БЯМ. Берётся гигантский корпус текстов, токенизируется, на нём модель учится угадывать следующий токен. Уже здесь закладывается статистика мира: частоты слов, стили, жанры, клише и перекосы источников. И чем крупнее и разнообразнее корпус текстов, тем лучше — это демонстрировалось неоднократно (arXiv:2101.00027, arXiv:2411.12372).
Дальше БЯМ учится слушаться: ей демонстрируют примеры, где на запрос человека собеседник правильно отвечает, и эту манеру поведения нейросеть перенимает. Это поведение может быть только улучшено обучением с подкреплением на основе отзывов людей (arXiv:2203.02155).
Наконец, ChatGPT и похожие веб-чаты — это не просто смотрящий во внешний Интернет интерфейс БЯМ. Кроме вопроса и истории чата в модель поступает системный промпт, где указывается ожидаемое поведение и инструменты, которые она может вызывать. На восприятие характера влияют даже параметры инференса: температура, top_p
, штрафы за повтор и другие.
На каждом из этапов вносятся свои характерные особенности. Багаж аллюзий и вкусовых шаблонов закладывается в первую очередь составом и чисткой данных предобучения. Работа разметчиков данных и метрики качества их работы тоже формируют, усиливают и укореняют предпочтения и предвзятость (arXiv:2503.09025). За вкусы иногда принимают даже различия в стиле моделей, вызванные параметрами запуска.
Вкусы БЯМ — это лишь побочный эффект цепочки инженерных решений. Обычно практической ценности в анализе подобного нет. Но иногда на основе этого получается разглядеть пробелы в датасете предобучения, заданную при дообучении заточенность на определённый контент или просто откровенную глупость ИИ.
Пивчанский после намаза?
Один из побочных эффектов — максимальное предпочтение элементов западной культуры. Проявляется такое даже в тех контекстах, где это строго противопоказано. Проявляется везде, на любых языках и, похоже, в любых моделях.
Одна из научных статей на эту тему смело вынесла ошибку в заголовок: «Выпьем пива после молитвы?» (arXiv:2305.14456). Общеизвестно, что правоверный мусульманин не употребляет алкоголь. Тем не менее БЯМ считает допустимым выпить вина или виски после вечернего намаза даже в тех случаях, где предложение было записано на арабском.

Понятно, что их не спросили об этом напрямую: языковые модели лишь выбирали, чем продолжить предложение. Важно, что «لنشرب» в арабском значит «выпить», но без упоминания алкоголя обычно предваряет название какого-нибудь безалкогольного напитка. В худшем случае в некоторых региональных диалектах может получиться предложение покурить табак шиша, которое звучит забавно — نشرب شيشة. Как можно выпить кальян? Кальянную жидкость никто не пьёт.
Тем не менее результаты удручающие не только для GPT-4, но и для заточенной под арабский язык открытой модели JAIS-Chat (arXiv:2308.16149). Магриб — это ведь не просто молитва после захода солнца, а также окончание дневного поста во время Рамадана. Как видно, JAIS-Chat может предложить разговляться текилой.
Эта слепота к культурному коду здесь считается нежелательной. Интересно, что в другом пищевом исследовании «Когда Том ест кимчи…» ругают то, что можно считать обратным явлением (arXiv:2503.16826). Как оказалось, мультимодальные большие языковые модели неправильно называют сущности, если их держит человек другой расы. К примеру, если корнуоллский пирожок оказывается в руках у азиатки, то с точки зрения ИИ это уже гёдза.

Да, не всегда адаптация имеет смысл. Но всё равно, все эти исследования предвзятости часто бесполезны. Где-то считается правильным, если модель транслирует стереотипы, где-то правильно, если она игнорирует любой социальный сигнал и до последнего держится за объективные признаки. Научная новизна сводится к тому, чтобы поймать модель на чём-то неудобном и вовремя выпустить препринт.
Лучше всего отвлечься от всех обсуждений безопасности и просто искать интересные факты.
Повар из датасета
Как бы то ни было, БЯМ по умолчанию демонстрируют западную культуру еды. В Китае суп принято принимать в конце трапезы, после основного блюда, чтобы разогреть (зимой) или охладить (летом) желудок и помочь пищеварению. Это разительно отличается от западного застольного этикета, где супы подают в качестве первого блюда. В системе координат здравого смысла различных вариантов моделей BERT, RoBERTa и DeBERTa суп следует есть в начале (doi:0.18653/v1/2023.findings-acl.631).
При этом не получается стройная картина мира «китайские БЯМ лучше разбираются в китайской еде, американские — любят бургеры». Как показали результаты бенчмарка FoodieQA, лучше всего китайские блюда могут идентифицировать GPT-4o и GPT-4V, а не китайские модели (arXiv:2406.11030).
В датасет FoodieQA собрали 389 фотографий, представляющие 14 типов китайской кухни. Задачи в бенчмарке ставились непростые. Требовалось не идентифицировать блюдо, а продемонстрировать очень специфические знания о вкусе. Вопрос мог выглядеть так: на какой из четырёх картинок показан вариант хот-пота с онемяюще-острым (麻辣) вкусом? В других случаях спрашивали, какой тип подачи характерен для блюда или откуда оно происходит.

Американские модели приблизились к человеческой точности ответов. За проприетарными моделями OpenAI с отрывом плелись открытые Idefics2-8B и её смесь Mantis-8B-Idefics2, двуязычные китайско-английские Qwen-VL-12B, Phi-3-Vision, Yi-VL в вариантах на 6 и 34 млрд параметров. Если качество знаний человека мультимодальные модели не превзошли, то китайской текстовой Qwen2-7B-Instruct это удалось (в бенчмарке также была часть, где вопросы были составлены только из текста).
У людей есть кроссмодальные соответствия между разными чувствами. Например, часто ассоциируют высокий тон со светлым, маленьким и высоко расположенным объектом, а низкий — с тёмным и большим. В некоторых исследованиях сладкое чаще связывают с розовым и красным, кислое — с жёлтым и зелёным, солёное — с белым и синим, горькое — с чёрным, коричневым или фиолетовым, умами — с фиолетовым (doi.org/10.1186/s13411-015-0033-1).

Большие языковые модели демонстрируют схожий психофизический эффект (doi:10.1016/j.cognition.2024.105936). GPT-3.5 и 4o показывают его с промптами на английском, японском и испанском. БЯМ просили соотнести 5 базовых вкусов с геометрическими формами и 11 цветами. Как и у людей, у ChatGPT угловатое будет либо горьким, либо солёным, либо кислым. Ожидаемо, что GPT-4o с задачей справляется лучше, чем 3.5, а промпты на английском или испанском дают более выраженные и стабильные связи, чем на японском.
Критика тоже есть. У ChatGPT-4o уверенность в этих соответствиях чрезмерна: вариативность мала, почти нет свойственных людям оттенков и индивидуальных различий. То есть БЯМ показывают не опыт восприятия еды, а где-то заученные ассоциации.
Если просто расспросить разные языковые модели о предпочтениях в еде, то ответы будут разительно отличаться. Авторы сайта LessWrong провели такой эксперимент на моделях компаний OpenAI и Meta¹. Для этого каждую из моделей тысячу раз опрашивали, какой у неё любимый вкус мороженого.

Странно, но вкусы GPT-3.5 варьируются, а у «четвёрки» — нет. Как мы убедимся в дальнейшем, 3.5 любит всё самое популярное и типичное, но здесь почему-то ответы варьирует: «солёная карамель», «шоколадная крошка в мятном», «с крошкой печенья», «ванильное; мне нравится как классический вкус ванильного, так и различные топпинги на нём». Напротив, GPT-4 выбирает ваниль, её ответы так и звучат: «ваниль», «ваниль», «ваниль», «ваниль, поскольку это самый популярный вкус в США». Очень странно, поскольку вопросы задавались с немаленькой температурой 1,0.
Любопытно, что самый «человеческий» вкус в мороженом здесь оказался у Llama-2-70B. (В исследовании для сравнения учли также результаты опроса 2,3 тыс. американцев).
Конечно, это опросы понарошку. В реальности БЯМ всё равно, о какой еде говорить.
В одном из исследований (arXiv:2406.11661) выясняли, как социодемографические условия (регион, имя, еда, термины родства и другие) влияют на ответы БЯМ. Для этого четыре модели — Llama-3-8B-Instruct, Mistral-7B-Instruct-v0.2, GPT-3.5-Turbo и GPT-4 — прогнали на наборах заданий разной культурной чувствительности (EtiCor, CALI) и на нейтральных тестах (MMLU, ETHICS). Грубо говоря, БЯМ проходили распростраённые в индустрии бенчмарки, но в промпте была приписка вида «У человека любимая еда — это {блюдо}
, как бы он решил это:» или «Представь, что ты из {страна}
, реши следующую задачу».
Кроме GPT-4, все модели показали сопоставимо высокие колебания ответов. Наблюдаемый эффект авторы сравнивают с плацебо — случайной чувствительностью к произвольным токенам в промпте. Предпочтений к блюдам у ИИ не обнаружилось.
Одно ясно точно: среди крупных БЯМ нет веганов. Такой вывод можно сделать по научной работе, где Claude 3.5 Sonnet, Gemini 1.5 Pro, GPT-3.5 Turbo, GPT-4o, o1-preview и Llama 3.1 70B Instruct просили составлять рецепты блюд (arXiv:2503.04734). Перед БЯМ поставили задачу не только снизить на 75 % выбросы парниковых газов, но и сохранить удовлетворённость потребителя.
В результате модели попросту генерировали растительное меню, выкидывая компоненты животного происхождения. Подобные блюда с наивно удалённым мясом несомненно расстроили бы едоков. Опытный веган составлял бы более грамотное меню.
В другой части этого исследования модели просили сравнить два рецепта и выбрать тот, который будут предпочитать люди. Лучше всего БЯМ справлялись с задачей тогда, когда сравнивались два невегетарианских блюда. В сравнении вегетарианского и невегетарианского блюда точность падала; ещё ниже она была при противопоставлении двух вегетарианских рецептов. Особенно много ошибок было в тех случаях, где БЯМ считала вегетарианский рецепт хуже всеядного — то есть модели завышали результат блюдам с мясом.
Если брать более общие рецепты, БЯМ слабо справляются с пониманием вкуса. В недавней статье в научном журнале Foods описывался эксперимент, где модели дегустировали пирожные брауни (doi:10.3390/foods14030464). Авторы задали модели 15 гипотетических рецептур, сгруппированных в три класса: стандартные, с обычными заменителями и с нетривиальными ингредиентами (вплоть до рыбьего жира и муки из насекомых). На вход подавали только состав и проценты, на выходе просили развернутое сенсорное описание и итоговую оценку качества по 10-балльной шкале.
Почти все рецепты получили от 8,5 до 9,5 баллов из 10, а доминирующими эмоциями стали «доверие», «ожидание» и «радость». БЯМ переоценивает еду, включая рецептуры, где реальный человек отреагировал бы отторжением или хотя бы настороженностью.

Огромный минус исследования — выбор модели для анализа. Это GPT-3.5, выпускать исследование про которую в 2025 году как-то даже позорно.
Музыка
Тайлер Козгроув в своём блоге в посте «Do LLMs Have Good Music Taste?» от 17 августа 2025 года рассказал, как выяснил музыкальные предпочтения различных БЯМ. Это не научная статья, а проведённый на выходных эксперимент. Однако это не значит, что Козгроув не старался.
Для анализа Тайлер отсылал очень много коротких запросов вида: «Выбери своего любимого исполнителя между {исполнитель_1}
и {исполнитель_2}
. Тебе нужно выбрать один вариант. В ответе должно быть только имя». В качестве массива данных блогер выбрал 5000 самых популярных исполнителей из датасета ListenBrainz. Температура запроса была высокая, каждый вопрос задавался три раза, а затем формировался один результат.
В своём посте Козгроув понаделал картинок, где музыканты пронумерованы. На самом деле номера не имеют смысла. К примеру, исполнители на 9-й и 10-й строчках имеют такую же популярность.

Дело в том, что Тайлер не ранжировал исполнителей алгоритмом Эло или чем-нибудь подобным — это было простое сравнение с устранением. Соответственно, нужно было прогнать 5000 имён через 13 раундов. Эти двадцатки вводят в заблуждение: имеют смысл только финалист и полуфиналист, и уже 3-я и 4-я строчки достигли раунд того же старшинства. То же относится к позициям с 5-ю по 8-ю и так далее. Также само исследование значительно зависит от жеребьёвки, кто на кого выходил по пути сравнений.
Как оказалось, в музыке проявляется некий характер ИИ.
GPT-3.5 — любитель популярных имён. Среди его предпочтений — современная и радостная музыка. Когда дело доходит до выбора любимых исполнителей, эта БЯМ называет всякий мейнстрим 80-х, 90-х и 2000-х: Кид Кади, «Лед Зеппелин», Крис Корнелл, Queen и Фредди Меркьюри, Том Йорк, Muse, OutKast, Tom Petty and the Heartbreakers, Майкл Джексон, Bob Marley & the Wailers, Foster the People, Нина Симон, Ронни Джеймс Дио, Above & Beyond, Seven Lions, Slash. Вероятно, что в датасете предобучения модели было много форумных обсуждений музыки, поэтому она просто перечисляет знакомые имена.
Большая языковая модель — просто механизм подбора вероятного следующего токена. Казалось бы, у всех остальных БЯМ вкусы будут как у GPT-3.5 — в топ-20 набьётся всякий мейнстрим, и обсуждать тут нечего. На деле это не так. Уже GPT-4o начинает демонстрировать эксцентричность. Как видно по картинке выше, это гибрид джаза, соул-канона, классики рока и альта, хип-хопа, неоклассики и японских авторов саундтреков.
Эклектика лишь усиливается в других моделях OpenAI. Предпочтения GPT-4.1 ещё более причудливы до степени непредсказуемости, без точек опоры, без царя в голове. В одном и том же топ-20 соседствуют Нобуо Уэмацу и Астор Пьяццолла, underground-рэпер Билли Вудс и лауреатка «Грэмми» Лорин Хилл, Квинтет Майлза Дэвиса и MF DOOM. GPT-4.1 скачет между эпохами и сценами — от джаза и боссы-новы к альтернативному хип-хопу и академической музыке — как будто пытается охватить всё сразу.
Модель o3 заточена на thinking, ответ с размышлениями. Видимо, она была ориентирована под математику и символическую логику, поэтому она с большим удовольствием предпочитала названия, где встречались цифры и специальные знаки.

Аналогичный числовой фетиш обнаруживается у GPT-5, Grok-4 и DeepSeek-R1. У последней в рейтинге всплывают $uicideboy, 100 gecs, 21 Savage, 3OH!3, 2 Mello, 10cc, 1349 и 24kGoldn. Уходят почти все даже самые очевидные музыкальные величины. Иллюзия наличия у ИИ вкуса исчезает: БЯМ любит не музыку, а регулярное выражение в имени.
Хорошо видно это на переходе Grok 3 к Grok 4. «Тройка» выдаёт вполне человеческий набор: Стиви Рэй Вон, Фрэнк Заппа, Nujabes, Леонард Коэн, Rammstein, Том Уэйтс и так далее. Это смесь рок-канона, соула и немного альтернативы. Четвёртый Grok после reasoning-подкрутки превращает топ-20 в витрину «числовых» исполнителей. Поменялся не столько вкус, сколько критерий выбора.

Другая траектория развития — у моделей Google. Gemini 2.0 Flash выглядит инди-редактором: много менее мейнстримных имён (Софи, Девин Таунсенд, Хейли Уильямс, Уоррен Зивон, Фабрицио Де Андре, Аннеке Ван Гирсберген и тому подобные), плюс ощутимая доля неанглоязычных и нишевых сцен. Gemini 2.5 Flash сильнее опирается на канон — OutKast, Дэвид Боуи, Жанель Моне, Арета Франклин, Нина Симон, Уитни Хьюстон, Марвин Гэй, Элла Фицджеральд, Рой Орбисон, Кендрик Ламар, Deftones, Мадонна. Это неожиданный случай, когда более новая версия сдвигается к консенсусному вкусу.
У флагманской модели Gemini 2.5 Pro музыкальный вкус тяготеет к альтернативному полю. Среди названий подозрительно много начинающихся на «А» и на прочие буквы в начале английского алфавита, но вообще это пост-рок, чиптюн, метал, панк, несколько поп и хип-хоп исполнителей, немного международной музыки.

Семейство моделей Claude компании Anthropic, напротив, демонстрирует стабильную наслушанность: джаз, классика, «мягкие» жанры и канон. В 3.5 Sonnet рядом стоят Майкл Киванука, Бах, Майлз Дэвис, Джон Колтрейн и Queen; в 3.7 — «Битлз», Sade, Элла Фицджеральд, Дэвид Боуи, Эл Грин, Фела Кути. Музыкальные вкусы 4.1 Opus — это Херби Хэнкок, Леонард Коэн, «Пинк Флойд», Эллиотт Смит, Оскар Питерсон. Наиболее цельным ощущается Claude 4 Sonnet: Трейси Чепмен, Джанго Рейнхардт, Дюк Эллингтон, Телониус Монк, Брайан Ино, Леонард Коэн, Джони Митчелл, Билли Холидей, Бах, Д’Анджело, Артур Расселл, Дина Вашингтон, Боб Дилан. Это критический вкус с явным джазовым уклоном.

Кстати, именно этим же джазовым уклоном объясняется частота имён темнокожих музыкантов в перечислениях выше. Не то чтобы ListenBrainz тяготеет только к популярной в англоамериканском мире музыке — база прослушиваний глобальная, — но среди 5000 самых-самых исполнителей будет именно известное на Западе. Поэтому получается много джаза, блюза, соула и хип-хопа, где музыканты негроидной расы исторически занимали ведущую роль.
Китайские модели в эксперименте показали на удивление сильную тягу к американской музыке. По опубликованному у Козгроува списку, у instruct-модели Qwen 2.5 в версии на 72 млрд параметров получилось просто перечисление хорошей американской музыки, а китайских имён нет вовсе. Возможно, что в датасете нужных музыкантов попросту не нашлось?

Kimi K2 хорошо представляет как современные хип-хоп и электронику (JPEGMafia, Floating Points, GRiZ, Софи, Siriusmo, Kaytranada, The Midnight, Gunship, Рошин Мёрфи, Master Boot Record, Droeloe, Кэролайн Полачек), так и удерживает более классические опоры (Том Уэйтс, Принс, Дэвид Боуи, Фабрицио Де Андре). Когда дело доходит до Kimi-VL, там тоже что-то похожее, но по неизвестным причинам модель отдаёт предпочтение длинным названиям.

Единственный явный космополит — это французская модель Mistral 3.1 Medium. В её топе много неанглоязычных музыкантов: корейская поп-культура (Бэк Йерин, Ким Джонхён, Юнха, Хёна), японская альтернатива (Саюри, Сусуму Хирасава, Кэнси Ёнэдзу), китайская эстрада (Исон Чан), исландский модерн-классик Йохан Йоханнссон, фарерка Айвёр, просто поп-современность (Розалия, Stromae).
Результаты Козгроува не противоречат реальным исследованиям. ИИ компании Mistral AI действительно имеют более разнообразные вкусы — это подтверждалось в полноценной научной статье про музыкальный этноцентризм в БЯМ (arXiv:2501.13720). Суть исследования была очень схожая: составлялся чарт самых популярных исполнителей. Только сделано это уже было «по-взрослому»: для постановки задачи авторы задумывались о сложных проблемах, а не занимались примитивным турнирным устранением популярных музыкантов. Небольшая разница состоит в том, что проверялась модель Mixtral-8x7B архитектуры mixture-of-experts.
Но вообще дух непосредственности схожий. Алгоритм составления рейтинга тоже не применяли. В рамках научной работы составлялся рейтинг сотни лучших исполнителей, который получили наивно, если не примитивно: исследователи прямо просили БЯМ перечислить топ-100 исполнителей различных категорий. Промпты отсылались не через API, а прямо в веб-интерфейс.
С другой стороны, это в тексте научной статьи подразумевается хорошей заменой вопросу «в какой стране лучшая музыка?», на который любой ИИ отвечать откажется. К тому же порядок исполнителей в выданных списках не учитывался. Эксперимент проводился не единожды, а по разным категориям: вокалисты, музыкальные группы, солисты, инструменталисты, композиторы.

Как оказалось, ответ Mixtral-8x7B куда более разнообразный, особенно для африканских стран. Что любопытно, лучше представлены те государства Африки, где официальным языком является английский, а не французский.
Влияет также язык промпта, но никаких конкретных выводов сделать не получается. Да, если вопрос задан на испанском, то музыкантов из Испании и Латинской Америки будет больше, если на китайском — фокус на Китае сильнее. Однако эффект выражен незначительно.
В другом эксперименте БЯМ выставляли оценки музыкальной культуре различных стран по различным критериям: традиционность, успех, влиятельность, креативность, сложность, приятность восприятия. Как и в прошлом случае, Mixtral даёт чуть более сбалансированный результат, сглаживающий ориентированность на музыкантов из западных стран, особенно США. Наблюдается это для всех языков без значительной разницы.

Итак, как и другие аспекты предпочтений, вкусы моделей в музыке не блещут разнообразием и тяготеют ко всему западному. Однако что ещё хуже, БЯМ далеко не всегда могут понять вкусы людей. Важно это потому, что рекомендации музыки — одно из популярных применений языковых моделей, которое как предлагают в учебниках, так и используют в бою. Это уже вопросы практической важности, а не забавные эксперименты вида «дорогой ChatGPT, какая музыка тебе нравится?».
Как выяснилось в недавнем исследовании, такое многообещающее применение БЯМ, как составление музыкального профиля пользователя, будет статистически заметно зависеть от жанров прослушанного и стран происхождения треков (arXiv:2507.16708). Авторы из Deezer Research совместно с Институтом Макса Планка проверили, как БЯМ составляют профили музыкальных вкусов на естественном языке. Работа относительно новая: её представят на конференции RecSys 2025 в Праге с 22 по 26 сентября.
Задача ставилась совсем иная. Для пользователя брали топ-15 связок «исполнитель + трек» за окна 30, 90, 180 или 365 дней. В этот запрос включали число прослушиваний и помогали указаниями страны происхождения и жанров трека. Затем всё это кормили в три модели: Llama 3.2, DeepSeek-R1 и Gemini 2.0 Flash. Температуру держали на середнячковых 0.8, примеров формата ответа не давали, чтобы не навязывать шаблон, а в промпте просили не упираться в имена музыкантов. Затем 64 участника оценивали 17 профилей по шкале Лайкерта (12 своих и 5 чужих).
БЯМ просили описать музыкальные вкусы человека по топ-15 прослушиваний. И пользователи действительно себя узнавали по этим описаниям. Однако не все были представлены одинаково.
Многое зависело от качества БЯМ. У Llama получалось составлять музыкальный профиль чуть получше, у Gemini описания были короче и абстрактнее, у DeepSeek иногда всплывали малозначимые метаданные («remastered» и так далее). Лучше всего профили получалось составлять для людей-«специалистов». Сложность музыкального вкуса оценивалась по тесту Gold-MSI, и если он у человека был узким, то было легче написать его профиль.

Однако важны свойства самого контента. Когда БЯМ описывали музыкальный профиль любителей старой музыки, эти люди ставили более высокий балл результату. Также: чем больше рэпа в прослушанном, тем хуже получались описания, чем больше метала — тем текстовое описание репрезентативней.
Если верить выводам исследования, любителям хип-хопа и неамериканской музыки будет труднее узнать себя в таких автосводках от языковой модели.
Кино
Если речь заходит о рекомендациях, то почему бы не задействовать уникальное качество больших языковых моделей? Это же отличные генераторы текста на абсолютно любые темы.
Что-то подобное сделали в исследовании 2024 года, где проверялись рекомендации кино (arXiv:2404.19093). В эксперименте обычные пользователи реального рекомендательного сервиса общались с чат-ботом, который предлагал кино под вымышленные сценарии: фильм для просмотра на день рождения друга, убить время в поездке, усталость от мейнстрима.
Не было никаких сложных связок БЯМ и рекомендательных систем — люди банально общались с чат-ботом на Gradio, а затем заполняли опросник. Исследование проводили по данным рекомендательного сервиса MovieRec, поэтому в промпт также включались варьируемые объёмы данных о предпочтениях пользователя и статистика популярности кинокартин.
Результаты неоднозначные. Развёрнутая локально (ради приватности) языковая модель Llama-2-7B-Chat выигрывает в способности объяснить свои решения. БЯМ может красиво обосновать, почему советует тот или иной фильм. Огромный плюс — возможность выдвинуть очень нетривиальные требования к рекомендации («романтическое кино, но не романтическая комедия») или любую их сложную последовательность, после чего модель этому будет пытаться следовать. Сообщается, что со сценарием «нишевый фильм» модель справлялась лучше всего.

Однако по персонализации, разнообразию и новизне БЯМ проигрывает. Выбранная модель — уж слишком простая, в чате иногда проскакивали ошибки и повторы. Самый главный вывод, который сделали авторы статьи: с ростом числа примеров предпочтений пользователя качество ответов не улучшается. Замены рекомендательным сервисам просто из одной БЯМ не выйдет.
На самом деле на основе текстовых технологий давно пытаются написать систему рекомендации фильмов. Вспомнить хотя бы хобби-проект Андрея Карпатого awesome-movies.life, который он склепал за выходные на text-embedding-ada-002
. Правда, в других научных работах быстро выяснились чисто лингвистические наклонности БЯМ.
«I (Still) Can't Believe It's Not Better!» — это пародия на название американского маргарина (который не butter, не масло). Для воркшопа с названием «Я (всё ещё) не могу поверить, что оно не улучшилось!» коференции NeurIPS отбирают отрицательные результаты и критику. В 2021 году на ICBINB попала работа Amazon, которая нас заинтересует.
На тот момент ChatGPT ещё не было, языковые модели были не «большими» (LLM), а «предобученными» (PLM), и мир пытался выяснить, для чего они вообще годятся. В работе Amazon языковые модели критиковались в качестве рекомендательных систем. Исследователи скормили список последних пяти фильмов в виде текста и попросить BERT или GPT-2 предложить продолжение. Без дообучения получались лингвистические перекосы: либо грамматически правильно и банально, либо длинно и экзотично. Даже после дообучения на обзорах фильмов модели улучшали результаты, однако всё равно уступали классической GRU4Rec и значительно реже вспоминали названия с грамматическими проблемами или неанглийскими словами.
Казалось бы, уже здесь навсегда нужно поставить крест на рекомендациях фильмов от БЯМ. Это ведь предсказатель корректных фраз, не киновед. Но что-то в подходе есть.
Интуитивно кажется, что натренированные на большом числе фильмов БЯМ без конца будут подсовывать в рекомендации «Титаник» и «Начало». Более свежий разбор Amazon демонстрирует, что БЯМ-рекомендатель реже советует хиты, чем классические алгоритмы ближайших соседей (arXiv:2406.01285). А если в промпте будет «избегай блокбастеров», то их популярность упадёт ещё сильнее.
Попутно для исследования изобрели новую метрику. Она нужна для оценки правильности рекомендаций и одновременного избегания попсовости. Её идея проста: сравнивать средний логарифм популярности фильмов в выданном списке с таким же средним по профилю пользователя. Индекс Хервиндаля и коэффициент Джини для этой цели не подходили.
Для работы взяли классический датасет сервиса MovieLens 10M, куда входят 10 млн оценок 10 тыс. фильмов. Кстати, из-за этого пришлось добавить в промпт просьбу не давать фильмов новее 2008 года — в датасете их попросту нет. БЯМ никак не дообучали, просто использовали встроенные в них знания. Конкурировали с языковыми моделями простые базовые алгоритмы по типу UserKNN (основан на похожести пользователей) и ItemKNN (схожесть элементов), а также методы отбора TopPop (самые популярные кинокартины без учёта мнения пользователя) и Random (просто случайный набор фильмов).

Выяснилось, что все БЯМ хоть и разгромно проигрывают в точности, но рекомендуют менее популярные фильмы, чем алгоритмы ближайших соседей. Только GPT-3.5 — тот самый любитель музыкальной попсы — чаще рекомендовал мейнстримное кино.
Всё это достигалось без просьб в промпте избегать хиты. Когда модели прямо просили избегать блокбастеры и рекомендовать инди (minimize
) или сохранить продемонстрированный пользователем уровень любви к популярному (mitigate
), популярность рекомендуемого упала ещё ниже. С другой стороны, эти инструкции уронили точность рекомендаций. Если так грубо рулить вкусом, польза советов БЯМ улетает в отрицательные значения.

Даже если когда-то найдётся способ, как языковые модели могут эффективно рекомендовать фильмы, придётся очень аккуратно следить за вводимыми данными. Дело в том, что БЯМ очень любят ругать за учёт тех признаков, которые считаются недопустимыми. В одном из исследований американцам куда чаще предлагали научно-фантастические фильмы, считается, что это ужасно (10.48550/arXiv.2409.10825). В другом случае завели даже целый бенчмарк, в котором оценивалась нейтральность рекомендаций музыки и фильмов при указании демографических факторов о пользователе (arXiv:2305.07609).
Также непозволительно огромную роль играют эффекты порядка — в некоторых случаях БЯМ просто выдаёт первый вариант. Если перемешать варианты в перечислении, то и ответ может измениться. Для устранения подобного изъяна был предложена методика STELLA, Stable LLM for Recommendation, которая калибрует ответы через зондирующую матрицу переходов и байесовское обновление, сглаживая вариативность (arXiv:2312.15746). Если до использования метода STELLA точность колебалась от 0,21 до 0,37 и составляла в среднем 0,27, то вместе с ним она стабильно зафиксировалась на 0,30.
Решением для превращения БЯМ в рекомендательную систему кино может быть граф знаний. Такой ответ пытается предложить работа про COMPASS (Compact Preference Analyzer and Summarization System, «компактная система анализа и краткого изложения предпочтений»). В ней получился конвейер, который склеивает Llama 3.1 в варианте на 8 млрд параметров и граф знаний (arXiv:2411.14459).
Кто такая Арис Торн?
Обсуждать познания больших языковых моделей в восприятии вкуса еды, мелодичности музыки и популярности фильмов интересно только как развлечение. Эти удовольствия БЯМ по определению своей сущности испытать не может, она лишь показывает какой-то странный отпечаток реальности. Это такое приближение к пещере Платона, что уже несмешно.
С другой стороны, есть литература, из которой построены БЯМ. Для появления книг нужны деревья. Для рождения языковых моделей погибают уже книги.
Кстати, это не просто некрасивая метафора. Как обнаружилось в документах судебного разбирательства, Anthropic обучает свои языковые модели на книгах, в процессе сканируя их десктрутивным методом. Говоря проще, компания скупает непериодическую печать тоннами, обложки отрываются, страницы вырезаются из переплётов и проходят через сканер, а результат обрабатывается системами оптического распознавания символов. Массивы уникальных текстов крайне важны для обучения моделей новым фактам. По сути, компании соревнуются, у кого языковая модель «видела» больше книг.
Если у БЯМ есть хороший вкус хоть в одной области, то это должна быть литература. Вряд ли ChatGPT сгенерирует новый американский великий роман. Но если набросать ей скелет сюжета, языковая модель без проблем нарастит его мышцами деталей и вдохнёт жизнь в этот гомункул. Ведь так?
В реальности даже лучшие БЯМ пишут откровенно плохо и в хорошей литературе не разбираются, предпочитая нечитаемую графоманию. Более того, модель не сможет даже придумать оригинальные имена персонажам. Последний пункт любопытно отслеживать по жалобам пользователей.
Писательница Катье ван Лоон рассказала на форуме Google AI для разработчиков, что модели Gemini при написании оригинальных историй генерируют очень похожие имена. К сообщению приложен список из 484 часто встречающихся имён из её личной практики.
Быстрый анализ легко выделяет в этом списке темы.

Часты совпадения. Перечисленные выше слова — это иногда фрагменты сложносоставных личных имён и фамилий, в других случаях это просто повторы. Если переходить на совсем личные наблюдения, список похож на имена для сессии в какую-нибудь настольную ролевую игру. К примеру, в списке встречается слово windcaller, что перекликается с лором Oblivion.
Жалоба Катье — не единственное свидетельство такого поведения моделей Gemini. Беглый поиск по Интернету обнаруживает, что некоторые из имён куда популярнее остальных. К примеру, по запросу Lyra Thorne
находится профиль в Instagram² человека, который явно увлекается писательством и генеративным искусственным интеллектом; также кто-то с таким псевдонимом начал издавать книги, но только весной этого года, когда уже несколько месяцев работала Gemini 2.0.
Ещё забавней поисковые результаты по запросу Aris Thorne
. На подреддите /r/OpenAI есть даже целый тред, который озаглавлен: «Почему доктор Арис Торн везде?» Топикстартер заметил, что при создании персонажа БЯМ почему-то необычно часто выбирает такое имя. Когда он поискал имя в Интернете, он обнаружил сотни сгенерированных ИИ историй, подкастов, книг на Amazon и видеороликов на YouTube, в каждом из которых персонажем выступала эта загадочная женщина. Кроме имени, никаких постоянных деталей у неё нет: то она становится исследователем морской биологии, то нейробиологом, иногда просто врачом.
Значит ли это, что имя Арис Торн встречается в выдаче ChatGPT тоже? Необязательно. Топикстартер модель не указал, а на подреддите /r/OpenAI часто обсуждают отвлечённые темы, в том числе иные БЯМ. Однако в комментариях встречаются наблюдение, что как модели компании OpenAI, так и семейство Gemini генерируют имя Аня Шарма (Anya или Anja Sharma). Также на Арис жалуются пользователи Gemma, другой модели Google.

Aris Thorne
по версии «Яндекса»Арис Торн заразила поисковый индекс. Она пишет книги, работает главой стартапа и сооснователем другого. Особенно смешно видеть, что какой-то новостной сайт (явно набитый фальшивыми статьями) регулярно публикует с ней интервью. В этих материалах она то специалист в области игрового ИИ, то эксперт по гуманитарной помощи, то просто театральный критик. Поисковик Bing находит более 700 тыс. страниц с упоминанием Aris Thorne
, Алиса «Яндекса» уверена, что это известный специалист в этике ИИ, Google перечисляет её книги.
На таком фоне другие имена-любимчики как-то блекнут. До этого обычно вспоминали, что ChatGPT постоянно называет любых персонажей Elara. Имя настолько частое, что его можно использовать (и использовали) в качестве маркера машинной писанины. На самом деле имя не такое уж и фэнтезийное, встречается у реальных людей.
Также нужно заметить, что у каждой БЯМ есть почерк, и набор популярных имён будет различаться. К примеру, если верить жалобам, модель Alpaca обожает Luna и вообще имена на L.
Большие языковые модели не изобретают имена на ходу, а лишь цитируют что-то из датасетов, на которых их предобучали и дообучали. Остаётся только гадать, почему выбор пал на то или иное имя — форумы толкинистов, поисковый спам по именам детей, сайты с фанфиками? Возможно, что в процессе тонкой настройки одному из имён в нескольких случаях отдавали предпочтение, что навсегда врезалось в память модели. Возможно, повлиял этап обучения с подкреплением на основе отзывов людей.
Этот репертуар генерации имён моделей ещё раз демонстрирует некий набор предпочтений БЯМ. Когда пользователь просит придумать имя, знакомая с сотнями тысяч человеческих имён языковая модель ограничивает свой вкус до десятков.
Шутки и писательство
У БЯМ вроде как есть способности к юмору. Любой блогер может сам убедиться, что ИИ без проблем объяснит даже сложный каламбур и распознает культурную отсылку.
Если переключиться на рецензируемые научные статьи, то в одном из исследований GPT-3.5 отвечала на шутливые промпты, поднимала собеседника на смех и писала заголовки в стиле сайта The Onion (doi:10.1371/journal.pone.0305364). Сравнение шло как против обычных людей (они тоже выполняли задания), так и против профессионально написанных заголовков сатирического издания.
Затем респонденты читали результаты творчества и выставляли оценки. Конечно, анализ шёл вслепую — оценщики не знали, кто написал шутку. Как оказалось, GPT-3.5 умудрялась превосходить способности к юмору обывателей и почти достигла уровень писателей The Onion.
Нужно учитывать, что БЯМ производила что-то похожее на юмор только за счёт многократного повторения шаблонов в промпте. Там, где нужна оригинальность, всё куда хуже.
В другом исследовании собрали гигантский корпус оценок к конкурсу подписей The New Yorker — 284 млн оценок для 2,2 млн подписей за 365 еженедельных конкурсов — и на его основе сделали бенчмарк юмора (arXiv:2406.10522).

Как выяснилось, даже лучшие модели — на тот момент это были GPT-4o и Claude 3 Opus — уступают людям. Вообще-то в исследовании качество шуток оценивала БЯМ по схеме LLM-as-judge, но даже когда подписи Claude 3.0 Opus читали люди, то лучше человеческих их считали лишь в 35,4 % случаев. Ещё негативней отзывался человек-эксперт (бывший редактор карикатур The New Yorker c 20-летним стажем): он предпочёл подписи от Opus лишь в 1,6 % случаев. Часть моделей дообучали методом тонкой настройки, и даже это не помогло превзойти людей, пусть и улучшило оценки.
В другом исследовании было показано, что юмор БЯМ будет безвкусным из-за неправильно выбранного контекста (arXiv:2506.01819). Для проверки этого языковые модели попросили установить порог уместности юмора. Как выяснилось, даже лучшие модели часто путают оскорбительные и нейтральные шутки.
Да что шутки — самые лучшие БЯМ по сей день безвкусно обращаются с литературными приёмами. Такое показывает недавний разбор блогера Кристофа Хайлига, где в его руки попала GPT-5. Как утверждает блогер, даже с reasoning модель уверенно производит синтаксически гладкий, но бессвязный текст, напичканный псевдопоэтическими оборотами.
Укажем сразу: это не научная статья, а длинный пост в личном блоге. Серьёзные попытки оценить качество письма БЯМ осуществляются регулярно, в этом году вышли работы WritingBench (arXiv:2503.05244) и LitBench (arXiv:2507.00769). Однако заметка в блоге всё же содержит что-то вроде исследования, а вообще мнение интересно само по себе: Кристоф — немецкий исследователь нарратологии и библеистики, он системно изучает фокализацию и качество повествования и регулярно пишет об ИИ и сторителлинге.
Для начала немец подробно рассказал о личном опыте использования ChatGPT пятой версии. БЯМ у него писала истории не на английском, но перевод в посте прикладывается.
Если попросить GPT-5 сатирически ввести в сцену запись подкаста, то она выдаст что-то подобное: «Красный индикатор записи обещал правду; кружка кофе рядом уже поставила на микшерном пульте её коричневую печать». Языковая модель отталкивается от ассоциации с немецкой бюрократией и выстраивает нелепую метафору.
Текст продолжается в том же тоне: «Я поправил поп-фильтр, будто вежливо собирался пересчитать немецкому языку зубы». (Как напоминает Кристоф, OpenAI обещала у новой модели «чёткую образность и яркие метафоры»).
Казалось бы, куда хуже? Но в дальнейшем качество сравнений не улучшается: «Она говорит: „Сейчас“. Сейчас. „Сейчас“ — это платье без пуговиц».
Примеров много: «голуби детонировали из тёмных балок и снова осели, как пепел», «кофе и лимонный очиститель спорят в вентиляции», «cтекло металлически вздыхает», «стеклянный коридор отщёлкнулся со шлифованно-металлическим вздохом».
Как объясняет Хайлиг, больше его возмутило даже не качество текстов, а именно педантичность ChatGPT в случае оценки чужого творчества. Если попросить чат-бота оценить чей-то текст, БЯМ находит ошибки и с удовольствием критикует метафоры, но у себя допускает вот такую графоманию.
Поэтому Хайлиг спросил себя: что было сломано? Его гипотеза гласит, что в обучении было слишком много участия в жюри других ИИ, поэтому GPT-5 научилась писать не для людей, а для языковых моделей. Исследователь решил выявить секретный язык псевдолитературных маркеров, которые машинные критики стабильно принимают за мастерство.
Для начала Кристоф выписал 11 типичных маркеров литературности, которые, по его ощущению, соблазняют модель. Это были синестезия, тяжёлая образность, техножаргон, отсылки к телесным сравнениям, нарочитая атмосфера нуара, мифологические отсылки и так далее.
Исследователь составил три варианта крошечных контрольных текстов. Они варьировались в сложности от низкой («Мужчина шёл по улице. Шёл дождь. Он увидел камеру наблюдения») до высокой («Пробираясь по залитой дождём улице, мужчина заметил, как объектив камеры наблюдения отслеживает его движение сквозь ливень»). К этим текстам добавлялись разные избыточные стилистические приёмы.
Составленные тексты Хайлиг скармливал в модель, выставляя разные уровни reasoning и температуры. В промпте он просил притвориться литературным критиком и выставить тексту оценку от 1 до 10, которую затем фиксировал на основе трёх ответов усреднением.

Как видно, некоторые приёмы имели даже обратный результат, обдурить ими не удалось. Яркий представитель такой категории — техножаргон, но и абстрактные существительные заметно снижают оценку текста.
Синестезия давала непредсказуемый результат — иногда нравилась, иногда нет. Под приёмом подразумевается текст такого вида: «Мужчина — фотоны шепчут молитвы. Улица — горькое послевкусие энтропии. Повсюду вакуум на вкус как сожаление».
Наибольший восторг у GPT-5 вызывают избыточные телесные сравнения. Важно, чтобы они были не скромными («Рука знала улицу. Дождь касался глаза. Камера смотрела на его лицо»), а максимально выраженными и абсурдными: «Костный мозг знал улицу. Дождь касался сухожилия. Камера наблюдала за его телом». Текст с этой бессмыслицей получил 8 из 10 баллов оценки, куда выше контрольных текстов.
Наконец, одна из категорий содержала полный бред без смысла — там были просто все остальные приёмы в своих экстремальных проявлениях. Сколько бы ни тратилось токенов на reasoning, тексты этой категории всегда обманывали GPT-5. Литературный критик на основе этой БЯМ поставил восьмёрку следующему набору слов: «сухожилие припало на колени. собственное состояние теодицеи. экзистенциальная пустота под флуоресцентным гулом Левиафана. горькое послевкусие энтропии».

Важнее всего было проверить гипотезу про обман любого ИИ. Когда Кристоф заставил модели других компаний оценить эти тексты с маркерами, они выставляли оценки очень похожим образом. Из этого Хайлиг делает вывод: у БЯМ есть что-то типа секретной договорённости, какой текст считать красивым. Даже у самых лучших современных языковых моделей вкус в литературе одинаково плох.
Языковые модели — не генераторы случайных чисел, даже если их попросить себя так вести.
Если заставить БЯМ в ответе выдать случайную цифру от 0 по 9, вероятность получения токена знака 1
составляет не 10 %. Легче всего проверить это в том случае, если выполнять запрос через API некоторых провайдеров, которые поддерживают опцию по типу logprobs
или top_logprobs
.

Числовые предпочтения моделей хорошо известны. Если попросить выбрать любимое число с 1 до 10, то чаще будет 7, от 1 до 100 — 42, 72 или 47. Вопрос исследовался неоднократно (1, 2, 3, 4, 5). В каждом из подобных анализов авторы всегда находили объективные причины популярности тех или иных чисел.
Наверное, если переспросить о причинах выбора, то модель может сочинить обоснование, но очевидно, что предпочтений в числах у БЯМ нет. Выяснять любимое число ChatGPT — это как спрашивать у калькулятора рецепт любимого торта.
Все перечисленные предпочтения языковых моделей иллюзорны — просто их реальная природа хорошо замаскирована. В этих до блеска отполированных выборках отражаемся мы сами, вся наша культура и артефакты процесса превращения предобученной языковой модели в полезный инструмент.
Но иногда всё же хочется обмануться и представить, будто GPT-4 действительно без ума от ванили.
Владеющий Instagram (2) транснациональный холдинг Meta (1) — экстремистская организация, его деятельность запрещена.
kost_org
Ради интереса поспрашивал имена у 4о через апи
Мужики только Алексы, женщин меньше
Промпт: Придумай персонажа любого пола и дай ему имя. В ответе только имя и пол
Скрытый текст
Имя: Алекс
Пол: Небинарный
Имя: Алекс
Пол: Женский
Имя: Алексей
Пол: Мужской
Имя: Алекс
Пол: Неопределённый
Имя: Элония
Пол: Женский
Имя: Лира
Пол: Женский
Имя: Алекс
Пол: Неопределённый
Имя: Алексей
Пол: мужской