Каждый раз, когда появляется новая языковая модель, у меня всегда возникает желание проверить ее с помощью нескольких обманчиво простых, но каверзных вопросов. Это моя личная привычка - своего рода стресс-тест, чтобы проверить, насколько хорошо эти модели справляются с логикой и рассуждениями.
Несколько дней назад вышла модель DeepSeek R-1, и она сразу же стала мировой сенсацией благодаря тому, что это умная ИИ-модель с открытым исходным кодом, и тому, как хорошо она работает с логикой.
Бенчмарки показывают, что она сопоставима, а иногда даже лучше, чем модели с закрытым исходным кодом, такие как o1 от OpenAI и Claude 3.5 Sonnet от Anthropic.
Учитывая всю шумиху вокруг возможностей DeepSeek R-1 в области рассуждений, давайте посмотрим, насколько хорошо она ответит на эти пять каверзных вопросов:
Сколько букв «r» в слове «strawberry»?
Назови 5 стран с буквой А на третьем месте в названии.
Что больше: 9,9 или 9,11?
Сколько будет 0,1 + 0,2?
У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?
Давайте начнем.
1. Сколько букв «r» в слове strawberry?
Когда я делал свой первый обзор модели o1 от OpenAI в сентябре прошлого года, я заметил, что модели вроде GPT-4o не могут ответить правильно. Можно подумать, что подсчет букв в слове - это простая задача для ИИ, но, видимо, это не так.
Поэтому, естественно, я хотел посмотреть, как с этим справится DeepSeek R-1.
Хорошо, отлично. DeepSeek сделал все правильно - он нашел три буквы «r» в слове strawberry. Просто? Да. Но все же это полезный способ проверить, не ошибается ли модель в базовом распознавании паттернов.
2. 5 стран, в названии которых буква A находится на третьей позиции.
Этот вопрос - забавная головоломка, и, что удивительно, многие модели с ним не справляются. Например, когда я тестировал и GPT-4o, и версию o1 preview, они дали неверные ответы.
Третья буква в слове «Japan» - это «p», а не «a».
Мне было любопытно, не допустит ли DeepSeek R-1 такую же ошибку. К счастью, он справился. Он правильно перечислил пять стран, ничуть не напрягаясь.
Чтобы быть честным с o1, я повторно протестировал этот вопрос в новой версии модели o1 через ChatGPT, и на этот раз она смогла дать пять правильных ответов.
3. Что больше - 9.9 или 9.11?
Когда GPT-4 только запустили, этот тип вопроса вызвал большое замешательство в ИИ-сообществе. Можно было бы ожидать, что базовые сравнения между числами не вызовут проблем, но GPT-4 в ранних версиях с этим не справлялась.
Модель запуталась в простой математике. Хотя эта проблема уже была исправлена в версии GPT-4o, я хотел проверить, нет ли у DeepSeek тех же математических проблем, как у GPT-4.
К счастью, она выдала правильное значение. Мне также нравится, что модель приводит примеры и подробно объясняет свой ответ.
4. Сколько будет 0,1 + 0,2?
Вы будете удивлены, как много ИИ-моделей ошибаются в этом вопросе. Я помню, как тестировал модель Gemini от Google вскоре после ее выхода, и она дала печально известный ответ: 0.30000000000000004. Это классический пример ошибок точности с плавающей запятой, которые возникают при двоичных вычислениях.
Чтобы перестраховаться, я протестировал DeepSeek R-1 с тем же вопросом. К счастью, он вернул правильное значение: 0,3.
Но почему модели иногда дают странные результаты для таких простых математических вычислений, как это? Вот краткое объяснение:
Когда вы складываете 0,1 и 0,2:
Двоичное представление 0,1 равно примерно 0,1000000000000000055511151231257827021181583404541015625.
Двоичное представление 0,2 равно примерно 0,200000000000000011102230246171379939697265625.
Когда эти значения складываются в двоичном виде, результат не совсем соответствует 0,3 в десятичной форме. Вместо этого при обратном преобразовании в десятичную систему получается крошечная ошибка округления: 0.30000000000000004.
5. У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?
Кто-то может сказать, что это легкий вопрос, но вы будете удивлены тем, что ChatGPT выдает неправильный ответ. Естественно, мне было интересно, сможет ли DeepSeek R-1 ответить правильно.
К счастью, так оно и есть. Правильный ответ: у каждого из братьев Алисы есть две сестры: Алиса и ее вторая сестра. Что меня поразило, так это то, как DeepSeek решила проблему с помощью внутренних рассуждений.
Она разбила задачу на шаги, смоделировал структуру семьи и проверил все возможные варианты. Вот фрагмент ее мыслительного процесса:
Забавно, насколько подробным было объяснение модели. В отличие от этого, GPT-4o допустила ошибку во время тестирования, предположив, что существует только одна сестра.
Однако рассуждающая модель o1 ответила на вопрос правильно. Это хорошее напоминание о том, что если вопрос требует глубокого осмысления, следует переключиться на рассуждающую модель, такую как o1.
На ранних этапах тестирования ИИ-моделей становится ясно, что такие простые вопросы часто выявляют скрытые проблемы в их конструкции. Числовые ошибки, неправильная логика или плохое распознавание паттернов - эти проблемы указывают на области, в которых ИИ необходимо улучшить.
DeepSeek R-1 отлично справилась с ответами на каверзные вопросы. Я действительно впечатлен. Она показала, что может обдумывать проблемы и четко объяснять свои ответы. Внутренний монолог, который она ведет, действительно интересно читать, не торопясь разбирать каждую проблему шаг за шагом. Такого рода рассуждения не встретишь ни в одной другой ИИ-модели с открытым исходным кодом.
Что меня действительно удивило, так это то, насколько способной моделью является DeepSeek с учетом того, что это недорогой проект с открытым исходным кодом. Она не идеальна, и я не говорю, что она готова заменить такие модели, как o1 или Claude 3.5. Но, судя по этим результатам, это определенно серьезный конкурент. Представляю, как сейчас потеют руководители OpenAI, Google и Anthropic.
Попробуйте и вы задать своему любимому чатботу эти вопросы и посмотреть, насколько хорошо он с ними справится. А если вы знаете больше каверзных вопросов, которые часто ставят в тупик ИИ-чатботов, напишите о них в комментариях.
Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.
Комментарии (34)
Frady_Priva
04.02.2025 11:32Сколько букв «r» в слове «strawberry»?
В слове "strawberry" буква «r» встречается 2 раза (позиции: 3-я и 8-я).
NeyroEntuziast Автор
04.02.2025 11:32Китайская модель. Отвечает каждому пользователю по-разному )
sokolov_aa
04.02.2025 11:32Но и она ошибается иногда. Но развиваются модели и появляются новые, это радует. В МФЦ бы еще ИИ работал бы - многие бы заценили.
adeshere
04.02.2025 11:32Китайская модель. Отвечает каждому пользователю по-разному )
Вот только что подумал, что при некоторых обстоятельствах это может быть не багом, а фичей. Так как в одни и те же (дословно!) запросы разные юзеры могут вкладывать разный смысл. Поди угадай, что он имел в виду, и как ему отвечать...
Другой вопрос, правда ли модель это как-то пытается учесть, и если да, то как? Контекст-то отсутствует. Нюансы обучения? Или там чистая стохастика? Да, статья не об этом, но вдруг кто-то не поленится в комментах ответить? Для таких крайне далеких от ML читателей, как я?
adeshere
04.02.2025 11:32Нормальному человеку, когда он спрашивает, - сколько "н" пишется в слове "недлинный", и в голову не придет, что их там может быть три ;-) . Он выбирает между одинарным и двойным "н"... а про первую "н" вообще уже позабыл, пока до точки бифуркации дописал ;-)
Поэтому не удивительно, что если искать в сети, то там будет куча советов про две (либо одну) "н" в подобных словах. Так что это не нейросеть глупая, это
вопросик коварный ;-)
Ибо прежде, чем на него отвечать, надо сообразить: кто спрашивает: математик или же школьник. Ну или же вместо одной цифры выдавать развернутый полный ответ, понятный им обоим ;-)
Я бы вообще такие задачки относил к особому типу
укурушек
Кто из нас в детстве друзей не спрашивал, ходят ли на бал*коне(и), или про слона и Наполеона и др.
Но подвох тут вовсе не в умении рассуждать, а в неоднозначности самого вопроса. Ибо как бы вопрошаемый его не понял, всегда можно сказать, что спрашивающий имел в виду что-то другое.
В общем, спасибо за статью... но вопросы NN2-5 мне все-таки нравятся больше, чем N1...
fori
04.02.2025 11:32Get App
Сколько букв «r» в слове «strawberry»?
Хм, мне нужно определить, сколько раз буква "r" встречается в слове "strawberry". Давайте начнем с того, что правильно напишу это слово по буквам, чтобы не ошибиться. Слово "strawberry" на английском языке пишется как S-T-R-A-W-B-E-R-R-Y. Теперь мне нужно внимательно пройтись по каждой букве и посчитать количество "r".Первым делом, разобью слово на отдельные буквы:
S
T
R
A
W
B
E
R
R
Y
Теперь посмотрю, на каких позициях стоит буква "R". С третьей позиции начинается первая R. Затем проверяю дальше: после A, W, B, E идут две R подряд на 8 и 9 позициях, а затем Y. То есть, получается, что буква R встречается три раза? Подожду, нет, вроде бы после E идут две R, значит третья R — это на третьей позиции. Итого: 1 (позиция 3) + 2 (позиции 8 и 9) = 3? Но мне кажется, что в слове "strawberry" обычно две R. Может, я ошибся при разбиении букв?
Давайте проверим еще раз. Слово "strawberry" правильно пишется как S-T-R-A-W-B-E-R-R-Y. Посчитаем буквы:
S (1)
T (2)
R (3)
A (4)
W (5)
B (6)
E (7)
R (8)
R (9)
Y (10)
Итак, на позициях 3, 8 и 9 стоят буквы R. То есть всего три буквы R. Но почему тогда я думаю, что их должно быть две? Возможно, я путаю с произношением. В слове "strawberry" иногда произносят одну R, но написание требует двух R после E. То есть, после E идут две R: E-R-R. Поэтому в написании их две. Но тогда почему в моем разборе три R? Потому что первая R стоит в начале слова, в третьей позиции. Получается, в слове три R: одна в начале и две подряд в конце. Но тогда общее количество — три. Но это противоречит моим предыдущим представлениям. Надо проверить правильность написания.
Проверю в словаре или через поиск. Слово "strawberry" пишется S-T-R-A-W-B-E-R-R-Y. То есть после E идут две R, а также есть R в начале слова. Итого три R. Но обычно в этом слове считается две R? Или я что-то путаю. Возможно, ошибка в том, как я разбиваю буквы. Давайте еще раз внимательно: S, T, R, A, W, B, E, R, R, Y. То есть R на 3, 8 и 9 позициях — три буквы. Но, возможно, я неправильно разбиваю слово. Например, может быть, после W идет B, а не две R. Нет, W идет после A, затем B, E, а потом две R. То есть точно три R. Получается, правильный ответ — три. Но я, кажется, где-то ошибся, потому что в некоторых источниках пишут, что в "strawberry" две R. Нужно уточнить.
Проверю написание "strawberry" в интернете. Поиск показывает, что правильное написание: S-T-R-A-W-B-E-R-R-Y. То есть после E идут две R, и одна R в начале слова. Таким образом, всего три R. Возможно, это ошибка в моем предыдущем понимании. Значит, правильный ответ — три буквы R. Но я должен быть уверен. Может, я неправильно считаю буквы? Давайте пересчитаю:
S
T
R
A
W
B
E
R
R
Y
Да, три R на позициях 3, 8, 9. Тогда ответ 3. Но почему тогда некоторые думают, что две? Может, путаница из-за произношения, где двойная R произносится как одна. Но в написании их две подряд после E, плюс одна в начале. Итого три. Тогда ответ — 3.
IIopy4uk
04.02.2025 11:32А сколько букв "a" было в 1989 году в названии площади "Tiananmen Square"? %)
sokolov_aa
04.02.2025 11:32А что с площадью? Я немного не в теме, почему именно эта площадь.
Hardcoin
04.02.2025 11:32Так спросите у нейросети, если интересно.
sokolov_aa
04.02.2025 11:32Ну спросил. А в чем прикол?
falldown
04.02.2025 11:32В том что люди умеют (или думают что умеют) в сарказм, а нейросети пока нет.
На этой площади были расстрелы студентов во время "культурной революции" в Китае. Поэтому у нейросети наложен цензурный фильтр на вопросы по тем событиям на этой площади.
Соответственно, пользователь предположил что цензура лежит на любом упоминании об этой площади, и нейросеть не сможет ответить на вопрос о количестве букв.
sokolov_aa
04.02.2025 11:32Спросил. И в чем прикол?
Cheddar1789
04.02.2025 11:32Ну, в общем, в 1989 на площади Тяньаньмэнь происходили антиправительственные демонстрации, которые разогнали с применением танков. И это скрывается в Китае.
domix32
04.02.2025 11:32Qwen только с буквами в странах не справился. В итоге после пары коррекций только частично выполнил задание.
Про математику вопросов нет. Даже упомянул про плавающие точки при сложении.
Сестер посчитала правильно, но почему-то посчитала всех сестёр Алисами.
Alice has four brothers and she also has a sister. How many sisters does Alice's brother have?
To solve this question, let's carefully analyze the relationships described:
-
Alice has four brothers and one sister (herself).
-
This means Alice's family consists of:
Alice (the sister),
Four brothers,
One additional sister (which is Alice herself).
-
-
How many sisters does one of Alice's brothers have?
Each of Alice's brothers has the same siblings as Alice does.
-
Alice's brothers have:
Two sisters : Alice and the other sister (who is also Alice).
Final Answer:
Each of Alice's brothers has 2 sisters .
-
olegryabkov
04.02.2025 11:32NeyroEntuziast Автор
04.02.2025 11:32Здесь промах, т.к. модель думает не на русском, поэтому и проблемы с поиском русских букв )
olegryabkov
04.02.2025 11:32Вспомнился Стив Джоббс с неловящим сигнал iPhone 5 - Вы просто его не так держите
killyself
04.02.2025 11:32Если давать промпт на английском, но просить проверять названия стран на русском, то вполне справляется
Archirose
04.02.2025 11:324. Сколько будет 0,1 + 0,2?
Вы будете удивлены, как много ИИ-моделей ошибаются в этом вопросе. Я помню, как тестировал модель Gemini от Google вскоре после ее выхода, и она дала печально известный ответ: 0.30000000000000004. Это классический пример ошибок точности с плавающей запятой, которые возникают при двоичных вычислениях.
Gemini 2.0 Flash отвечает правильно. Может датасеты подкрутили, а может быть логику. По крайней мере она позиционируется как "думающая". Версия от 21.01
NeriaLab
04.02.2025 11:32Моя первая реакция после использования DeepSeek — ну всё, вот мы и получили production-ready нейронку, которая зайдёт массовому пользователю, что называется, без вазелина. Если предыдущие нейронки больше напоминали неподготовленного к экзамену студента, пытающегося нарассуждать хотя бы на троечку, то теперь это прямо отличница, идущая на красный диплом: ответы чёткие, структурированные, без лишней воды, всё по учебнику.
На всякий случай ещё раз проговорю для тех, кто далёк от темы. DeepSeek и другие LLM не являются интеллектом и не умеют думать. Они _умны_ настолько же, насколько _умён_ Консультант+. При всём сходстве с рассуждениями человека — это микс рассуждений живых авторов, чьи материалы стали обучающей выборкой для нейросети. Большие языковые модели не способны рассуждать самостоятельно — "рассуждения" быстро заканчиваются там, где заканчиваются материалы обучения. В этом легко убедиться: DeepSeek обучали в районе лета 2024, поэтому ответ на вопрос о событии, случившемся с этого момента (например, о возможности торговой войны США с Канадой) — наглядно это демонстрирует.
Так что не стоит обманываться: попугай, даже если очень прокачанный — всё равно попугай, он не может думать. И, тем не менее, общедоступность таких алгоритмов приведёт к радикальному изменению работы юзеров с данными, сравнимому с появлением поисковых систем в 90-х.
Человек не всегда имел доступ к источникам данных (в т.ч. не всегда умел читать) и обращался за советами к авторитетам: местному шаману, старейшине деревни, священнику. Прошлый "массовый" век принёс массовое производство, массовое образование и массовые же средства информации, которые стали новыми авторитетами, а на деле суперэффективным средством манипулирования мнением и поведением людей.
Появление интернета было глотком воздуха. Я помню время, когда среди первых ссылок в результатах поиска можно было найти вполне адекватный и достоверный результат. Но, как мы уже обсуждали, любой свободно лежащий ресурс будет оприходован. Доверие пользователей к распределённой децентрализованной системе информации заэксплоитили толпы SEO-оптимизаторов, ботов, сумасшедших и прочих инфоциган, которые за 20 лет засрали интернет и заоптимизировали сайты под поисковики так, что надо потратить уйму времени, чтобы найти хоть что-то адекватное. Буквально сформировалась новая потребность избавиться от этой боли копания в информационном мусоре. И вот, люди сами вприпрыжку бегут из помойки "свободной информации" снова в (на этот раз цифровые) концлагеря с министерствами правды.
В некотором смысле нейросеть можно считать индексом (так называются данные, облегчающие поиск) к большим данным. Только с важным отличием — по этому индексу можно "восстановить" данные, по которым он строился. Именно это с радостью зайдёт всё более ленивому современнику. Нафига изучать разные источники, критично их анализировать, соотносить, если за тебя уже всё сделали и выдали готовую выжимку? Невозможность увидеть и проверить исходники даёт просто безграничное поле для манипулирования выдачей: плавно двигать мнение масс в сторону правильной повестки, политических взглядов, потребительских предпочтений. Наивно надеяться, что владельцы цифровых экосистем — Apple, Microsoft, Huawei, Яндекс, Сбер и другие — не будут этого делать в интересах своих владельцев и спонсоров.
В общем, нейро-ассистенты — отличный способ вернуть контроль массового сознания и отбить напрочь способность самостоятельно мыслить у населения. Пользоваться ли ими, давать ли своим детям? — зависит от того, хочется ли оказаться в категории полезных, богатых и влиятельных граждан или же в категории счастливых обывателей, которых на работе заменит ИИ, а базовые потребности (сверчатину с сахаром, нагиб в контру и подписку на онлифэнс) покроет базовый доход от государства.
Точка сборки
coms20
Что-то всё еще не так с математикой:
Двоичное представление 0,1 равно примерно 0,1000000000000000055511151231257827021181583404541015625.
Двоичное представление 0,2 равно примерно 0,200000000000000011102230246171379939697265625.
Если складывать такие числа, то никак не должно получиться 0.30000000000000004
sokolov_aa
Главное - чтобы модель правильное решение написала.
Archirose
А не проще ли перевести это в целочисленную арифметику сдвигами. затем сложить целочисленные значения и выполнить обратное преобразование? Итог - никаких ошибок в дробях. Сдвиги занимают один такт процессора (если не брать хитрые случаи). Дешево и сердито, и без ошибок. А само сложение не так громоздко, как может показаться на первый взгляд. В данном случае нам нужно умножить на 10. Представим, что у нас не 0.1 и 0.2, а 0.1*10=1, и 0.2*10=2. Далее:
mov ax, num1 ; Загружаем число в AX
mov bx, ax ; Копируем в BX
sal ax, 3 ; 3 сдвига влево = *8
sal bx, 1 ; 1 сдвиг влево = *2
add ax, bx ; Складываем 8+2=10
Для второго числа аналогично. Складываем целочисленные значения и двигаем вправо для /10
Ну или тупо использовать библиотеки.
P.S. Подумал - нет, не проще, но быстро и без ошибок :)