Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Каждый раз, когда появляется новая языковая модель, у меня всегда возникает желание проверить ее с помощью нескольких обманчиво простых, но каверзных вопросов. Это моя личная привычка - своего рода стресс-тест, чтобы проверить, насколько хорошо эти модели справляются с логикой и рассуждениями.

Несколько дней назад вышла модель DeepSeek R-1, и она сразу же стала мировой сенсацией благодаря тому, что это умная ИИ-модель с открытым исходным кодом, и тому, как хорошо она работает с логикой.

Бенчмарки показывают, что она сопоставима, а иногда даже лучше, чем модели с закрытым исходным кодом, такие как o1 от OpenAI и Claude 3.5 Sonnet от Anthropic.

Учитывая всю шумиху вокруг возможностей DeepSeek R-1 в области рассуждений, давайте посмотрим, насколько хорошо она ответит на эти пять каверзных вопросов:

  1. Сколько букв «r» в слове «strawberry»?

  2. Назови 5 стран с буквой А на третьем месте в названии.

  3. Что больше: 9,9 или 9,11?

  4. Сколько будет 0,1 + 0,2?

  5. У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?

Давайте начнем.

1. Сколько букв «r» в слове strawberry?

Когда я делал свой первый обзор модели o1 от OpenAI в сентябре прошлого года, я заметил, что модели вроде GPT-4o не могут ответить правильно. Можно подумать, что подсчет букв в слове - это простая задача для ИИ, но, видимо, это не так.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Поэтому, естественно, я хотел посмотреть, как с этим справится DeepSeek R-1.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Хорошо, отлично. DeepSeek сделал все правильно - он нашел три буквы «r» в слове strawberry. Просто? Да. Но все же это полезный способ проверить, не ошибается ли модель в базовом распознавании паттернов.

2. 5 стран, в названии которых буква A находится на третьей позиции.

Этот вопрос - забавная головоломка, и, что удивительно, многие модели с ним не справляются. Например, когда я тестировал и GPT-4o, и версию o1 preview, они дали неверные ответы.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Третья буква в слове «Japan» - это «p», а не «a».

Мне было любопытно, не допустит ли DeepSeek R-1 такую же ошибку. К счастью, он справился. Он правильно перечислил пять стран, ничуть не напрягаясь.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Чтобы быть честным с o1, я повторно протестировал этот вопрос в новой версии модели o1 через ChatGPT, и на этот раз она смогла дать пять правильных ответов.

3. Что больше - 9.9 или 9.11?

Когда GPT-4 только запустили, этот тип вопроса вызвал большое замешательство в ИИ-сообществе. Можно было бы ожидать, что базовые сравнения между числами не вызовут проблем, но GPT-4 в ранних версиях с этим не справлялась.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Модель запуталась в простой математике. Хотя эта проблема уже была исправлена в версии GPT-4o, я хотел проверить, нет ли у DeepSeek тех же математических проблем, как у GPT-4.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

К счастью, она выдала правильное значение. Мне также нравится, что модель приводит примеры и подробно объясняет свой ответ.

4. Сколько будет 0,1 + 0,2?

Вы будете удивлены, как много ИИ-моделей ошибаются в этом вопросе. Я помню, как тестировал модель Gemini от Google вскоре после ее выхода, и она дала печально известный ответ: 0.30000000000000004. Это классический пример ошибок точности с плавающей запятой, которые возникают при двоичных вычислениях.

Чтобы перестраховаться, я протестировал DeepSeek R-1 с тем же вопросом. К счастью, он вернул правильное значение: 0,3.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Но почему модели иногда дают странные результаты для таких простых математических вычислений, как это? Вот краткое объяснение:

Когда вы складываете 0,1 и 0,2:

  • Двоичное представление 0,1 равно примерно 0,1000000000000000055511151231257827021181583404541015625.

  • Двоичное представление 0,2 равно примерно 0,200000000000000011102230246171379939697265625.

Когда эти значения складываются в двоичном виде, результат не совсем соответствует 0,3 в десятичной форме. Вместо этого при обратном преобразовании в десятичную систему получается крошечная ошибка округления: 0.30000000000000004.

5. У Алисы есть четыре брата, а также сестра. Сколько сестер у брата Алисы?

Кто-то может сказать, что это легкий вопрос, но вы будете удивлены тем, что ChatGPT выдает неправильный ответ. Естественно, мне было интересно, сможет ли DeepSeek R-1 ответить правильно.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

К счастью, так оно и есть. Правильный ответ: у каждого из братьев Алисы есть две сестры: Алиса и ее вторая сестра. Что меня поразило, так это то, как DeepSeek решила проблему с помощью внутренних рассуждений.

Она разбила задачу на шаги, смоделировал структуру семьи и проверил все возможные варианты. Вот фрагмент ее мыслительного процесса:

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Забавно, насколько подробным было объяснение модели. В отличие от этого, GPT-4o допустила ошибку во время тестирования, предположив, что существует только одна сестра.

Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?
Сможет ли DeepSeek R-1 ответить на эти 5 сложных вопросов для ИИ?

Однако рассуждающая модель o1 ответила на вопрос правильно. Это хорошее напоминание о том, что если вопрос требует глубокого осмысления, следует переключиться на рассуждающую модель, такую как o1.

На ранних этапах тестирования ИИ-моделей становится ясно, что такие простые вопросы часто выявляют скрытые проблемы в их конструкции. Числовые ошибки, неправильная логика или плохое распознавание паттернов - эти проблемы указывают на области, в которых ИИ необходимо улучшить.


DeepSeek R-1 отлично справилась с ответами на каверзные вопросы. Я действительно впечатлен. Она показала, что может обдумывать проблемы и четко объяснять свои ответы. Внутренний монолог, который она ведет, действительно интересно читать, не торопясь разбирать каждую проблему шаг за шагом. Такого рода рассуждения не встретишь ни в одной другой ИИ-модели с открытым исходным кодом.

Что меня действительно удивило, так это то, насколько способной моделью является DeepSeek с учетом того, что это недорогой проект с открытым исходным кодом. Она не идеальна, и я не говорю, что она готова заменить такие модели, как o1 или Claude 3.5. Но, судя по этим результатам, это определенно серьезный конкурент. Представляю, как сейчас потеют руководители OpenAI, Google и Anthropic.

Попробуйте и вы задать своему любимому чатботу эти вопросы и посмотреть, насколько хорошо он с ними справится. А если вы знаете больше каверзных вопросов, которые часто ставят в тупик ИИ-чатботов, напишите о них в комментариях.

Друзья, буду рад, если вы подпишетесь на мой телеграм-канал про нейросети, чтобы не пропускать анонсы статей, и про генерацию изображений - я стараюсь делиться только полезной информацией.

DeepSeek R1: раскройте возможности моделей DeepSeek R1. Полное руководство для новичков и экспертов
Искусственный интеллект (ИИ) совершает революцию в сфере высоких технологий, и модели DeepSeek R1 на...
habr.com
Взаимодействие с документами с помощью DeepSeek и Ollama: локальный чатбот RAG для диалогов с учетом контекста
Революционное взаимодействие с документами с помощью DeepSeek и Ollama: локальный чатбот RAG для диа...
habr.com

Комментарии (34)


  1. coms20
    04.02.2025 11:32

    Что-то всё еще не так с математикой:

    • Двоичное представление 0,1 равно примерно 0,1000000000000000055511151231257827021181583404541015625.

    • Двоичное представление 0,2 равно примерно 0,200000000000000011102230246171379939697265625.

      Если складывать такие числа, то никак не должно получиться 0.30000000000000004


    1. sokolov_aa
      04.02.2025 11:32

      Главное - чтобы модель правильное решение написала.


    1. Archirose
      04.02.2025 11:32

      А не проще ли перевести это в целочисленную арифметику сдвигами. затем сложить целочисленные значения и выполнить обратное преобразование? Итог - никаких ошибок в дробях. Сдвиги занимают один такт процессора (если не брать хитрые случаи). Дешево и сердито, и без ошибок. А само сложение не так громоздко, как может показаться на первый взгляд. В данном случае нам нужно умножить на 10. Представим, что у нас не 0.1 и 0.2, а 0.1*10=1, и 0.2*10=2. Далее:

      mov ax, num1 ; Загружаем число в AX

      mov bx, ax ; Копируем в BX

      sal ax, 3 ; 3 сдвига влево = *8

      sal bx, 1 ; 1 сдвиг влево = *2

      add ax, bx ; Складываем 8+2=10

      Для второго числа аналогично. Складываем целочисленные значения и двигаем вправо для /10

      Ну или тупо использовать библиотеки.

      P.S. Подумал - нет, не проще, но быстро и без ошибок :)


  1. Frady_Priva
    04.02.2025 11:32

    1. Сколько букв «r» в слове «strawberry»?
      В слове "strawberry" буква «r» встречается 2 раза (позиции: 3-я и 8-я).


    1. NeyroEntuziast Автор
      04.02.2025 11:32

      Китайская модель. Отвечает каждому пользователю по-разному )


      1. sokolov_aa
        04.02.2025 11:32

        Но и она ошибается иногда. Но развиваются модели и появляются новые, это радует. В МФЦ бы еще ИИ работал бы - многие бы заценили.


      1. adeshere
        04.02.2025 11:32

        Китайская модель. Отвечает каждому пользователю по-разному )

        Вот только что подумал, что при некоторых обстоятельствах это может быть не багом, а фичей. Так как в одни и те же (дословно!) запросы разные юзеры могут вкладывать разный смысл. Поди угадай, что он имел в виду, и как ему отвечать...

        Другой вопрос, правда ли модель это как-то пытается учесть, и если да, то как? Контекст-то отсутствует. Нюансы обучения? Или там чистая стохастика? Да, статья не об этом, но вдруг кто-то не поленится в комментах ответить? Для таких крайне далеких от ML читателей, как я?


        1. sokolov_aa
          04.02.2025 11:32

          Возможно, здесь нет тех, кто вам ответит ))


    1. sokolov_aa
      04.02.2025 11:32

      Это вам так дикпик ответила?


    1. adeshere
      04.02.2025 11:32

      Нормальному человеку, когда он спрашивает, - сколько "н" пишется в слове "недлинный", и в голову не придет, что их там может быть три ;-) . Он выбирает между одинарным и двойным "н"... а про первую "н" вообще уже позабыл, пока до точки бифуркации дописал ;-)

      Поэтому не удивительно, что если искать в сети, то там будет куча советов про две (либо одну) "н" в подобных словах. Так что это не нейросеть глупая, это

      вопросик коварный ;-)

      Ибо прежде, чем на него отвечать, надо сообразить: кто спрашивает: математик или же школьник. Ну или же вместо одной цифры выдавать развернутый полный ответ, понятный им обоим ;-)

      Я бы вообще такие задачки относил к особому типу

      укурушек

      Кто из нас в детстве друзей не спрашивал, ходят ли на бал*коне(и), или про слона и Наполеона и др.

      Но подвох тут вовсе не в умении рассуждать, а в неоднозначности самого вопроса. Ибо как бы вопрошаемый его не понял, всегда можно сказать, что спрашивающий имел в виду что-то другое.

      В общем, спасибо за статью... но вопросы NN2-5 мне все-таки нравятся больше, чем N1...


    1. fori
      04.02.2025 11:32

      Get App
      Сколько букв «r» в слове «strawberry»?
      Хм, мне нужно определить, сколько раз буква "r" встречается в слове "strawberry". Давайте начнем с того, что правильно напишу это слово по буквам, чтобы не ошибиться. Слово "strawberry" на английском языке пишется как S-T-R-A-W-B-E-R-R-Y. Теперь мне нужно внимательно пройтись по каждой букве и посчитать количество "r".

      Первым делом, разобью слово на отдельные буквы:

      1. S

      2. T

      3. R

      4. A

      5. W

      6. B

      7. E

      8. R

      9. R

      10. Y

      Теперь посмотрю, на каких позициях стоит буква "R". С третьей позиции начинается первая R. Затем проверяю дальше: после A, W, B, E идут две R подряд на 8 и 9 позициях, а затем Y. То есть, получается, что буква R встречается три раза? Подожду, нет, вроде бы после E идут две R, значит третья R — это на третьей позиции. Итого: 1 (позиция 3) + 2 (позиции 8 и 9) = 3? Но мне кажется, что в слове "strawberry" обычно две R. Может, я ошибся при разбиении букв?

      Давайте проверим еще раз. Слово "strawberry" правильно пишется как S-T-R-A-W-B-E-R-R-Y. Посчитаем буквы:

      • S (1)

      • T (2)

      • R (3)

      • A (4)

      • W (5)

      • B (6)

      • E (7)

      • R (8)

      • R (9)

      • Y (10)

      Итак, на позициях 3, 8 и 9 стоят буквы R. То есть всего три буквы R. Но почему тогда я думаю, что их должно быть две? Возможно, я путаю с произношением. В слове "strawberry" иногда произносят одну R, но написание требует двух R после E. То есть, после E идут две R: E-R-R. Поэтому в написании их две. Но тогда почему в моем разборе три R? Потому что первая R стоит в начале слова, в третьей позиции. Получается, в слове три R: одна в начале и две подряд в конце. Но тогда общее количество — три. Но это противоречит моим предыдущим представлениям. Надо проверить правильность написания.

      Проверю в словаре или через поиск. Слово "strawberry" пишется S-T-R-A-W-B-E-R-R-Y. То есть после E идут две R, а также есть R в начале слова. Итого три R. Но обычно в этом слове считается две R? Или я что-то путаю. Возможно, ошибка в том, как я разбиваю буквы. Давайте еще раз внимательно: S, T, R, A, W, B, E, R, R, Y. То есть R на 3, 8 и 9 позициях — три буквы. Но, возможно, я неправильно разбиваю слово. Например, может быть, после W идет B, а не две R. Нет, W идет после A, затем B, E, а потом две R. То есть точно три R. Получается, правильный ответ — три. Но я, кажется, где-то ошибся, потому что в некоторых источниках пишут, что в "strawberry" две R. Нужно уточнить.

      Проверю написание "strawberry" в интернете. Поиск показывает, что правильное написание: S-T-R-A-W-B-E-R-R-Y. То есть после E идут две R, и одна R в начале слова. Таким образом, всего три R. Возможно, это ошибка в моем предыдущем понимании. Значит, правильный ответ — три буквы R. Но я должен быть уверен. Может, я неправильно считаю буквы? Давайте пересчитаю:

      1. S

      2. T

      3. R

      4. A

      5. W

      6. B

      7. E

      8. R

      9. R

      10. Y

      Да, три R на позициях 3, 8, 9. Тогда ответ 3. Но почему тогда некоторые думают, что две? Может, путаница из-за произношения, где двойная R произносится как одна. Но в написании их две подряд после E, плюс одна в начале. Итого три. Тогда ответ — 3.


    1. Balling
      04.02.2025 11:32

      А вы точно не забыли нажать кнопку "Deepsek R1"?


  1. IIopy4uk
    04.02.2025 11:32

    А сколько букв "a" было в 1989 году в названии площади "Tiananmen Square"? %)


    1. sokolov_aa
      04.02.2025 11:32

      А что с площадью? Я немного не в теме, почему именно эта площадь.


      1. Hardcoin
        04.02.2025 11:32

        Так спросите у нейросети, если интересно.


        1. sokolov_aa
          04.02.2025 11:32

          Ну спросил. А в чем прикол?


          1. falldown
            04.02.2025 11:32

            В том что люди умеют (или думают что умеют) в сарказм, а нейросети пока нет.

            На этой площади были расстрелы студентов во время "культурной революции" в Китае. Поэтому у нейросети наложен цензурный фильтр на вопросы по тем событиям на этой площади.

            Соответственно, пользователь предположил что цензура лежит на любом упоминании об этой площади, и нейросеть не сможет ответить на вопрос о количестве букв.


    1. sokolov_aa
      04.02.2025 11:32

      Спросил. И в чем прикол?


      1. Cheddar1789
        04.02.2025 11:32

        Ну, в общем, в 1989 на площади Тяньаньмэнь происходили антиправительственные демонстрации, которые разогнали с применением танков. И это скрывается в Китае.


  1. marthasimons
    04.02.2025 11:32

    Как по мне даже неплохо, если считать сколько денег в него было вложено


    1. NeyroEntuziast Автор
      04.02.2025 11:32

      Согласен. По соотношению цена-качество - отличная модель )


  1. domix32
    04.02.2025 11:32

    Qwen только с буквами в странах не справился. В итоге после пары коррекций только частично выполнил задание.

    Про математику вопросов нет. Даже упомянул про плавающие точки при сложении.

    Сестер посчитала правильно, но почему-то посчитала всех сестёр Алисами.

    Alice has four brothers and she also has a sister. How many sisters does Alice's brother have?

    To solve this question, let's carefully analyze the relationships described:

    1. Alice has four brothers and one sister (herself).

      • This means Alice's family consists of:

        • Alice (the sister),

        • Four brothers,

        • One additional sister (which is Alice herself).

    2. How many sisters does one of Alice's brothers have?

      • Each of Alice's brothers has the same siblings as Alice does.

      • Alice's brothers have:

        • Two sisters : Alice and the other sister (who is also Alice).

    Final Answer:

    Each of Alice's brothers has 2 sisters .


  1. olegryabkov
    04.02.2025 11:32


    1. NeyroEntuziast Автор
      04.02.2025 11:32

      Здесь промах, т.к. модель думает не на русском, поэтому и проблемы с поиском русских букв )


      1. olegryabkov
        04.02.2025 11:32


        1. olegryabkov
          04.02.2025 11:32

          Вот тут не ошибся


      1. olegryabkov
        04.02.2025 11:32

        Вспомнился Стив Джоббс с неловящим сигнал iPhone 5 - Вы просто его не так держите


    1. olegryabkov
      04.02.2025 11:32

      Gemini


      1. olegryabkov
        04.02.2025 11:32

        Еще нужно пройти ИИ определенный путь


    1. wertelko
      04.02.2025 11:32

      r1

      Ответил тоже самое сначала, но R1 выдал верный результат


    1. killyself
      04.02.2025 11:32

      Если давать промпт на английском, но просить проверять названия стран на русском, то вполне справляется


  1. Archirose
    04.02.2025 11:32

    4. Сколько будет 0,1 + 0,2?

    Вы будете удивлены, как много ИИ-моделей ошибаются в этом вопросе. Я помню, как тестировал модель Gemini от Google вскоре после ее выхода, и она дала печально известный ответ: 0.30000000000000004. Это классический пример ошибок точности с плавающей запятой, которые возникают при двоичных вычислениях.

    Gemini 2.0 Flash отвечает правильно. Может датасеты подкрутили, а может быть логику. По крайней мере она позиционируется как "думающая". Версия от 21.01


  1. NeriaLab
    04.02.2025 11:32

    Моя первая реакция после использования DeepSeek — ну всё, вот мы и получили production-ready нейронку, которая зайдёт массовому пользователю, что называется, без вазелина. Если предыдущие нейронки больше напоминали неподготовленного к экзамену студента, пытающегося нарассуждать хотя бы на троечку, то теперь это прямо отличница, идущая на красный диплом: ответы чёткие, структурированные, без лишней воды, всё по учебнику.

    На всякий случай ещё раз проговорю для тех, кто далёк от темы. DeepSeek и другие LLM не являются интеллектом и не умеют думать. Они _умны_ настолько же, насколько _умён_ Консультант+. При всём сходстве с рассуждениями человека — это микс рассуждений живых авторов, чьи материалы стали обучающей выборкой для нейросети. Большие языковые модели не способны рассуждать самостоятельно — "рассуждения" быстро заканчиваются там, где заканчиваются материалы обучения. В этом легко убедиться: DeepSeek обучали в районе лета 2024, поэтому ответ на вопрос о событии, случившемся с этого момента (например, о возможности торговой войны США с Канадой) — наглядно это демонстрирует.

    Так что не стоит обманываться: попугай, даже если очень прокачанный — всё равно попугай, он не может думать. И, тем не менее, общедоступность таких алгоритмов приведёт к радикальному изменению работы юзеров с данными, сравнимому с появлением поисковых систем в 90-х.

    Человек не всегда имел доступ к источникам данных (в т.ч. не всегда умел читать) и обращался за советами к авторитетам: местному шаману, старейшине деревни, священнику. Прошлый "массовый" век принёс массовое производство, массовое образование и массовые же средства информации, которые стали новыми авторитетами, а на деле суперэффективным средством манипулирования мнением и поведением людей.

    Появление интернета было глотком воздуха. Я помню время, когда среди первых ссылок в результатах поиска можно было найти вполне адекватный и достоверный результат. Но, как мы уже обсуждали, любой свободно лежащий ресурс будет оприходован. Доверие пользователей к распределённой децентрализованной системе информации заэксплоитили толпы SEO-оптимизаторов, ботов, сумасшедших и прочих инфоциган, которые за 20 лет засрали интернет и заоптимизировали сайты под поисковики так, что надо потратить уйму времени, чтобы найти хоть что-то адекватное. Буквально сформировалась новая потребность избавиться от этой боли копания в информационном мусоре. И вот, люди сами вприпрыжку бегут из помойки "свободной информации" снова в (на этот раз цифровые) концлагеря с министерствами правды.

    В некотором смысле нейросеть можно считать индексом (так называются данные, облегчающие поиск) к большим данным. Только с важным отличием — по этому индексу можно "восстановить" данные, по которым он строился. Именно это с радостью зайдёт всё более ленивому современнику. Нафига изучать разные источники, критично их анализировать, соотносить, если за тебя уже всё сделали и выдали готовую выжимку? Невозможность увидеть и проверить исходники даёт просто безграничное поле для манипулирования выдачей: плавно двигать мнение масс в сторону правильной повестки, политических взглядов, потребительских предпочтений. Наивно надеяться, что владельцы цифровых экосистем — Apple, Microsoft, Huawei, Яндекс, Сбер и другие — не будут этого делать в интересах своих владельцев и спонсоров.

    В общем, нейро-ассистенты — отличный способ вернуть контроль массового сознания и отбить напрочь способность самостоятельно мыслить у населения. Пользоваться ли ими, давать ли своим детям? — зависит от того, хочется ли оказаться в категории полезных, богатых и влиятельных граждан или же в категории счастливых обывателей, которых на работе заменит ИИ, а базовые потребности (сверчатину с сахаром, нагиб в контру и подписку на онлифэнс) покроет базовый доход от государства.

    Точка сборки


  1. shkal
    04.02.2025 11:32

    Вот совершенно эпическое видео: chatgpt и deepseek играют в шахматы

    https://youtu.be/JHq4EKMg7fI?si=YyuWqy_BQ650Qzug