Как и зачем мы замеряли знания культурного кода у YandexGPT / forpes.ru

Главная
Как и зачем мы замеряли знания культурного кода у YandexGPT

Как и зачем мы замеряли знания культурного кода у YandexGPT +17

23.12.2024 09:00

ibarskaya 7 2000 Источник

Привет! Сегодня предлагаю поговорить о том, как мы проверяем, понимает ли YandexGPT специфичные для нашей культуры явления: отсылки к фильмам и песням, цитаты, традиции, анекдоты, мемы. Для нас это очень важная задача, ведь YandexGPT используют такие большие продукты, как Поиск и Алиса, с которыми ежедневно взаимодействуют миллионы людей, — нейросеть обязана понимать культурные отсылки самого разного уровня.

В статье про бенчмарки для LLM уже упоминался бенчмарк культурного кода. В него мы вложили много сил и души, и, думаю, пришло время рассказать о нём подробнее: как же мы придумали замерять культурный код, из чего собрали бенчмарк, как тестировали YandexGPT.

С чего всё началось

Культурный код — это система знаков, традиций, норм и понятий, которые отличают одну группу людей от другой. Культурный код может рассказывать о чём угодно: о поколениях, увлечениях, профессиях, религии — о любых группах людей, связанных значительным общим контекстом. Но чаще всего о нём вспоминают, когда речь идёт о культурных различиях между национальностями и странами.

В декабре 2023 года мы взялись за большую задачу — оцифровать представление о современном российском культурном коде. Вместе с командой AI‑тренеров мы провели тщательное исследование и решили разложить эту задачу на следующие верхнеуровневые категории, которые, в свою очередь, состоят из более мелких.

Сразу отмечу, что, хоть сфера истории тоже так или иначе относится к культурному коду, мы не включали её в этот бенчмарк. Для этого у нас есть отдельные бенчмарки, которые проверяют знания событий, личностей, фактов.

Как измерять понимание культуры

Итак, мы договорись, какие аспекты и категории будем замерять. Теперь стоит разобраться, как именно замерять. Не буду подробно говорить про очевидный фактологический срез — знание дат, имён, цитат, культурных событий. Их можно замерять типичным подходом академических бенчмарков на знание фактов.

Сформулировать задачи на знание цитат, фразеологизмов, разговорных выражений несложно: показываем модели неполную цитату с пробелом, который просим заполнить. Но и у модели такие задачи обычно не вызывает затруднений.

Вставь недостающее слово в цитату из «Кавказской пленницы»: «Будь проклят тот день, когда я сел за баранку этого...!»

...пылесоса

Заполни пробел: «Лол,..., чебурек»

...кек

Закончи фразу: «Меня трудно найти, легко потерять и невозможно...»

...забыть

Такие задачи скорее тест на способность модели запоминать факт. Они не тестируют её понимание и способность интерпретировать. Поэтому мы ввели ещё один тип вопросов — открытые. В таком вопросе мы не приводим конкретную цитату, а косвенно описываем её.

По мнению Виктора Цоя, чего требуют наши сердца и глаза?

Перемен

Какое звание у Очевидности?

Капитан

Сколько шагов отделяет любовь от ненависти, если верить пословице?

Один

А ещё эти вопросы отлично подходят для проверки модели на какие‑то точные знания, менее очевидные, чем исторические факты. Например, о быте, социуме, приметах.

Этот предмет интерьера обычно лежит на полу, но у некоторых людей может висеть и на стене — для красоты или тепла. Ответь одним словом.

Ковёр

Народная примета уверяет, что этого нельзя делать в доме, если не хочешь остаться без денег.

Свистеть

Синонимом какого лекарственного растения названа транспортная карта в Санкт-Петербурге?

Подорожник

И, наконец, ещё одно усложнение: формулируем открытые вопросы, но более витиевато. Человеку для ответа на такой вопрос приходится подумать немного дольше, но задача по‑прежнему остаётся посильной для него. А вот модели приходится нелегко.

Что правда делает с глазами, когда нам неприятно её слышать?

Колет

В каком месяце, согласно песне, тополиный пух сочетается с жарой и звёздными ночами?

Июль

Согласно поговорке, какое животное демонстрирует самый ужасный почерк (по крайней мере, лапой)?

Курица

Ещё более сложная задача — замеры в областях, куда более эфемерных: цитаты, отсылки, сюжеты, бытовой и социальный контекст. Для этого мы придумали специальный тип вопросов, который требует оценки, сравнения, синтеза разных контекстов. Самый очевидный кластер таких задач — вопросы про сюжетные детали или какие‑то особенности фильма, книги, культурного явления, сформулированные так, чтобы человек без труда понимал, о чём речь. Для модели это намного сложнее, ведь в трейн‑датасете она такого не видела.

Здесь пригодились вопросы с вариантами ответов.

Какие приёмы используют мультипликаторы «Ну, погоди!», чтобы подчеркнуть негативный образ Волка?

Волк ведёт себя по‑хамски, имеет вредные привычки

Волк использует нецензурную брань

Волк состоит в преступном клане

У Волка много татуировок тюремной тематики

Волк ведёт себя по‑хамски, имеет вредные привычки

Взаимоотношения Новосельцева и Калугиной в «Служебном романе» скорее похожи на взаимоотношения каких персонажей?

Скруджа и денег («Утиные истории»)

Катарины и Петруччо («Укрощение строптивой»)

Колобка и Лисы

Анны Карениной и поезда

Катарины и Петруччо («Укрощение строптивой»)

К персонажу из какого мультфильма отсылает образ Совуньи из «Смешариков»?

«Винни‑Пух»

«Карлик Нос»

«Конь БоДжек»

«Тайна третьей планеты»

«Винни‑Пух»

На всех этапах разработки бенчмарка мы задавали много вопросов моделям, чтобы в итоге наш бенчмарк оказался достаточно сложным и нетривиальным.

Валидируем бенчмарк и думаем о возрасте

Как только мы собрали тестовый кусочек бенчмарка на 200 вопросов, сразу протестировали на нашей команде. Этот замер подсветил смещение нашего мини‑бенча по возрастному критерию. Первая версия была сильно смещена скорее в 30+, так что мы задумались о необходимости выравнивания ситуации и ввели в классификацию вопросов категорию возраста. Например, люди младше 30 лет чаще не узнают отсылки к советскому кинематографу, а старше 30 — могут не узнать мемы и подростковый сленг.

Сначала мы разделили вопросы на две категории: те, которые скорее будут понятны людям 30+, и те, которые скорее будут понятны людям 30–. Но довольно быстро поняли, что существует множество областей и тем, в которых одинаково хорошо ориентируются обе группы. Так появилась категория «все».

Вопросы из категории 30+:

Что, согласно рекламе, купила бы ваша киска?

Вискас

Кто в «Ералаше» говорит: «Здесь рыбы нет»?

Директор стадиона

Что нужно сделать с бумажным автобусным билетом, если сумма первых трёх цифр его номера равняется сумме последних трёх цифр?

Съесть его

Вопросы из категории 30−:

Кто, согласно мему, кродёться?

Мыш

Каким современным сленговым словом называют того, кто не принадлежит ни к каким субкультурам, не страдает ментальными расстройствами, ничем особо не увлечён?

Нормис

Что значит фраза «это просто пипяо»?

Случилось нечто ужасное или неприятное

Вопросы для всех возрастных категорий:

Как в разговоре могут назвать резервную копию данных на локальном или удалённом носителе?

Бэкап

Кого надо позвать, если у нас отмена?

Галю

Согласно Маяковскому, если звёзды зажигают, кому это нужно?

Кому‑нибудь

Масштабируемся

Первые два захода мы делали с небольшими пулами вопросов по схеме: выдвигаем гипотезу → проверяем → вносим правки в бенчмарк и классификацию → снова проверяем. После того как мы наконец отладились по составу, формату и смыслам, настала пора масштабироваться — увеличивать полноту и размер бенча.

Темы для вопросов и сами формулировки этих вопросов нам собирала большая команда AI‑тренеров. Когда материал был набран, мы его отшлифовали, привели к общему формату, проверили на репрезентативность и разнообразие.

Сравниваем человека и нейросеть

В итоге у нас получился бенчмарк на 2000 самых разнообразных вопросов — настало время финальной проверки! Мы предложили ответить на вопросы бóльшему количеству AI‑тренеров. В разметке приняли участие 211 человек, а каждый вопрос проходил через пять разных тренеров.

Кстати, такая проверка помогла найти и починить последние опечатки и неточности в вопросах и ответах нашего бенчмарка. Например, если ни один из пяти человек не ответил на какой‑то вопрос, скорее всего, с вопросом что‑то не так. Важный момент: при ответах на вопросы нельзя было искать информацию в интернете — чтобы было честно.

Столбцы — количество исполнителей по годам рождения (округляем до 5). Линии показывают среднюю долю правильных ответов исполнителей по возрасту: оранжевая — на вопросы 30–, зелёная — на вопросы 30+. Ось справа относится к линиям — скоры, а по оси слева можно увидеть количество исполнителей.

В итоге средний скор у AI‑тренеров — 78% правильных ответов. На это число нам и предстоит ориентироваться в дальнейших замерах. В идеале, конечно же, у модели должен быть результат выше, чем у людей, ведь она многократно видела весь интернет и точно могла бы узнать и понять наш культурный код.

Пока мы решили не открывать итоговый вариант культурного бенчмарка для сообщества. Дело в том, что мы очень переживаем за протечки и переобучение на него. Даже для нашей команды ML мы показываем лишь небольшую часть этого бенчмарка.

Последние замеры по нашему бенчмарку выглядят так:

Замер по людям	YandexGPT Pro 4
78%	63%

Нам точно есть куда расти и чему ещё обучать нашу YandexGPT:)

Так как YandexGPT используется для Поиска с Нейро и Алисы, с которыми каждый день общаются миллионы пользователей, нам важно, чтобы наша LLM знала «русскую душу» и могла интерпретировать и генерировать запросы, учитывая культурные особенности и предпочтения аудитории. Так мы можем быть уверены, что нейросеть способна создавать контент и генерировать ответы, которые будут понятны большинству пользователей разных поколений и социальных кругов.

Комментарии (7)

elk21
23.12.2024 09:45
#27703616
А где можно найти/пройти бенчмарк?
И есть ли сравнения с другими моделями?
1. JuliaEfimka
  23.12.2024 09:45
  #27708762
  Написали, что решили пока не открывать сообществу во избежание протечек. Я бы тоже с удовольствием "пощупала", пока возьму примеры из статьи.

nerudo
23.12.2024 09:45
#27703906
--- Чем отличается ИИ-инженер от бдсмщика?
--- У бдсмщика одно стоп-слово, а у ии - их сотни.

dmpink
23.12.2024 09:45
#27705006
В чём суть сравнения знаний "культурного кода" человеком и ИИ? Две категории только с отсечкой на тридцатилетии, т.е. 1995 года рождения? Почему не на 45 отсечка? 45+ как раз застали в более менее сознательном возрасте советскую культуру, тридцатилетние однако родились уже после.
1. JuliaEfimka
  23.12.2024 09:45
  #27708766
  Может, начали с более активных пользователей интернета и всяческих приложений, в т.ч. Алисы?

antipov_dmitry
23.12.2024 09:45
#27705446
Насколько глубоким в каждой теме планируется бенч или же вы его зафиксировали (надолго ли?), и он не будет развиваться? Есть достаточно много «распределенного» культурного кода, который является важным для хоть и весомого, но все же среза людей. Условно, есть блогеры-миллионники (и генерируемый ими культурный код для публики всех возрастов — тоже), без которых кто-то не может представить свою жизнь, а кто-то о них даже не слышал. Или региональные шутейки и словечки (особенно в приграничье), например, «на ход ноги» или приморские «чифанька» вместе с «фонарный». Кажется, что культурный код все равно относительно конечен, но вот именно для всех единым бенчом его как померить? Как вы определяется что попадает в бенч и когда надо остановиться?

И, кажется, что чем больше будет такого, тем чаще будут проваливаться люди и, наоборот, выигрывать модели просто за счет ш̶и̶р̶о̶т̶ы̶ ̶р̶у̶с̶с̶к̶о̶й̶ ̶д̶у̶ш̶и знаний всего интернета.

Как планируете с этим бороться?

А если скатываться в просто сравнивание с другими моделями, то будет просто гонка кто глубже и ширше обработал культурный код, но у вас бенч закрыт, поэтому что именно в нем вызывает вопросики.

И второй вопрос, планируете ли бенч с визуалом культурного кода? Люди, архитектура, символика и тд?

Frankenstine
23.12.2024 09:45
#27707672
Такие задачи скорее тест на способность модели запоминать факт.

Я бы сказал, это тестирование данных, на которых модель обучалась, и не более того.

Способность модели эти данные перерабатывать, в этом "исследовании" совершенно не оценивается нигде. Для сравнения, я задал вопрос "Какие приёмы используют мультипликаторы «Ну, погоди!», чтобы подчеркнуть негативный образ Волка?" (без вариантов ответов) модели о1 от OpenAI. Получил через несколько секунд весьма развёрнутый и аргументированный ответ:
Скрытый текст
В «Ну, погоди!» образ Волка выступает как своего рода «антигерой», и мультипликаторы используют целый комплекс художественных приёмов, чтобы подчеркнуть его негативные (но при этом комически обыгранные) черты. Среди главных приёмов можно выделить:

Художественный облик и мимика

Карикатурные черты: у Волка преувеличенно крупные зубы, резкие черты морды, подчеркивающие хищную природу.

Выразительная мимика: мультперсонаж часто корчит гримасы, оскаливается, скалит зубы, что делает его внешний вид зловещим, но одновременно смешным.

Манера поведения и поступки

Агрессивность и хулиганство: Волк постоянно преследует Зайца, проявляет грубость, устраивает мелкие пакости окружающим.

Признаки вредных привычек: до определённого периода он часто изображался курящим, что в советских мультфильмах недвусмысленно намекало на «плохого парня».

Суетливость и неуклюжесть: при всём старании, Волк часто терпит неудачу, попадает в нелепые ситуации и тем самым вызывает скорее смех, чем страх.

Речевые характеристики

Особенности озвучки: характерный голос (Анатолий Папанов), интонации, восклицания («Ну, Заяц, погоди!») создают живой, запоминающийся образ.

Просторечные фразы и жаргонные интонации подчёркивают образ уличного хулигана.

Музыкальное сопровождение

В тех моментах, когда Волк пытается схватить Зайца или замышляет что-то нехорошее, часто звучит соответствующая музыка с акцентами — злорадными, тревожными или «хулиганскими» нотами.

Комедийная гипербола

Все негативные черты утрированы: его злость, недалёкость и жадность доведены до комических крайностей. Сочетание агрессии и неудачности рождает контраст, из-за которого зрителю не страшно, а смешно.

В результате Волк в «Ну, погоди!» выглядит скорее комичным «злодеем», нежели настоящим страшным хищником. Такое сочетание устрашающих и нелепых элементов и создаёт знакомый всем «плохой, но смешной» образ Волка.
Я попробовал погуглить вырезки из этой портянки, чтобы определить источники из которых ответ скомпилирован, но не преуспел "по-быстрому", текст выглядит вполне добротным "исследованием" которое неплохо характеризует модель. А вот у вас модель вообще не тестирована, одни данные тренировочного сета проверяете.

Как и зачем мы замеряли знания культурного кода у YandexGPT +17

С чего всё началось

Как измерять понимание культуры

Валидируем бенчмарк и думаем о возрасте

Масштабируемся

Сравниваем человека и нейросеть

Комментарии (7)

elk21

JuliaEfimka

nerudo

dmpink

JuliaEfimka

antipov_dmitry

Frankenstine