Есть простая задачка: Масса арбуза – 1 кг. Из него выпарили 90% воды. Какая масса арбуза после выпаривания?
Если интересно, попробуйте решить самостоятельно, не используя интернет и другие подсказки – так результат будет честным :-) Это моя первая статья на Хабр, надеюсь, будет интересно!
Всё коварство в том, что на первый взгляд это типичная задача для средней школы на проценты. И решений на такие задачи в интернете очень много. Но в данном случае у нас недостаточно данных для получения числового ответа. Мы можем прямо это и указать как решение. Или дать ответ в общем виде – в виде формулы и ее объяснения.
Языковые модели, такие как ChatGPT или GigaChat, обучаются на информации из интернета. Мне стало интересно: а хватит ли логики у нейросетей, чтобы понять, что данная задача решается немного по-особенному. Эта мысль пришла мне в середине 2024 года, и я задала эту задачку нейросетям, которыми пользуюсь в работе.
Заранее скажу, что не являюсь экспертом в области нейросетей и логики, я рядовой пользователь.
Результаты, полученные в 2024 году
1) ChatGPT 4o
С первой попытки ChatGPT 4o не справился. Он воспринял 90% не только как массу выпаренной воды, но и как массу воды в арбузе. После уточняющих вопросов он смог дать ответ, который можно считать корректным.
2) GigaChat в Telegram
GigaChat можно использовать как в Telegram, так и в браузере, но мне привычнее именно в чате. С первой попытки GigaChat выдал очень неожиданный ответ – 51 кг, и привёл странные доводы. При попытке навести на правильную мысль так и не смог выдать ответ в общем виде.
Результаты, полученные в январе 2025 года
С начала декабря 2024 я начала периодически пользоваться в работе новой моделью ChatGPT o1. И мне стало интересно – сможет ли она справиться с той самой задачей про арбуз.
1) Новая модель ChatGPT o1
С первой попытки ChatGPT o1 выдал корректное решение. Да, ответ был числовым, но он написал "Предположим", а в конце четко указал, что мы не можем получить однозначный ответ. Так что, думаю, можно считать, что о1 справился с задачей.
2) GigaChat в Telegram
С первой попытки GigaChat не справился, но при уточнении смог дать правильный ответ. Правда, достаточно странно выглядит то, как он добавляет символы $ и \cdot, но я не буду считать это за ошибку, ведь он старался.
3) ChatGPT 4o
С первой попытки снова не справился. После уточнения выдал корректный ответ.
И так, победитель – ChatGPT о1
Второе место занимает GigaChat. Хоть он и не смог решить задачу, но показал улучшение результатов относительно прошлого года.
ChatGPT 4о – не показал улучшения результатов, поэтому третье место. Хотя улучшений, наверное, ожидать не стоило, так как вышла модель о1.
Мне также стало интересно: многие ли люди смогут решить данную задачу. Большинство моих знакомых справились, хотя сначала по много раз переспрашивали условие. Некоторые все же давали числовой ответ, это было либо 0.1, либо 0.19. Так что, задачкой можно сломать не только нейросеть.
Небольшой итог всего этого эксперимента: нейросети стремительно развиваются и учатся обрабатывать информацию логически, почти так же, как это делает человек. Интересно будет понаблюдать за тем, какими они станут через полгода и год.
Комментарии (41)
axion-1
19.01.2025 17:36Задал тот же вопрос gemini-exp-1206 и claude-3-5-sonnet-20241022.
Первая решила задачу предположив что изначально в арбузе 99% воды, вторая 90%.
В целом, неудивительно то что o1 лучше справилась, она по сути уже следующее поколение.
fren29 Автор
19.01.2025 17:36А запрос на русском или на английском?
Думала еще спросить у grok, но не пользуюсь им на постоянной основе)axion-1
19.01.2025 17:36На русском, тот же что и у вас на скриншотах. Скопировал для чистоты эксперимента.
fren29 Автор
19.01.2025 17:36А Вы часто пользуетесь claude? Слышала, что она хорошо справляется со многими задачами. Но возможности сравнить с chatGpt пока не было
axion-1
19.01.2025 17:36Не часто, но на тех задачах что пробовал решать (программирование, перевод стихов и т.п.), её результат чуть больше нравился. Использовал версию 3.5 Sonnet.
Сравнить бесплатно можно на https://lmarena.ai/?leaderboard, вкладка Arena (side-by-side)
6yHTapb78RUS
19.01.2025 17:36fren29 Автор
19.01.2025 17:36Все-таки после уточнения почти все справляются)
Было бы интересно попробовать еще на 3.5 для сравнения, но вроде к ней уже нет доступаRobastik
19.01.2025 17:36Все-таки после уточнения почти все справляются)
"Правильная формулировка задачи содержит половину решения." © Народная Мудрость
HellQwer
19.01.2025 17:36Мне кажется, у людей кто как думал в последнее время так и решил. При условии решить "не используя интернет и другие подсказки" уточняющие вопросы, на мой взгляд, фейл, либо метаигра когда не с физической моделькой в задаче играешь, а с реальностью, в том числе с тем, чтобы заставить человека забыть о просьбе не использовать подсказки. А вот общий вид, действительно, выигрывает над численным предположением. Я тоже ответил ~0.19кг вместо формулы :(
fren29 Автор
19.01.2025 17:36Некоторые мои знакомые тоже отвечали 0.19. На самом деле, это и правда может быть связано с тем, чем был занят человек и его мозг.
Я думала попробовать собрать статистику ответов всех людей, и проанализировать, почему человек мог так ответить)
CBET_TbMbI
Сама задача глупая и неоднозначная. И главная глупость всех этих ИИ, что их не научили задавать уточняющие вопросы. Первый, кто научит это делать, может захватить рынок.
fren29 Автор
В этом и суть задачи – она странная. Такое происходит и в жизни, когда требования непонятные, а формулировка размытая. А про уточняющие вопросы – это было бы интересно. Возможно, получится построить запрос так, чтобы ИИ уточнял данные. Но не уверена, что это будет эффективно, надо тестировать)
Alexandroppolus
Ничего странного в задаче нет. Просто здесь вместо числа в виде результата возвращается функция. Для пользователей современных языков программирования (с функциями первого класса) это привычное дело.
ITDiver77
Да? Попробуй в промпте добавить "ask me if you need".
fren29 Автор
Попробовала написать запросы на русском и английском с просьбой задавать уточняющие вопросы. На русском ответил 0.19 и ничего не уточнял, а вот на английском задал уточняющие вопросы)
shadovv76
первый вопрос который надо было бы задать: движется ли арбуз по отношению к наблюдателю (решающему), что бы поставить под сомнение массу в кг....
i86com
Наоборот, их "учат" не задавать уточняющих вопросов. Человеков бесит, когда на простой запрос типа "напиши рецепт борща" им выдаётся череда уточняющих вопросов - а какой, традиционный или современный? А мясо какое? А сколько порций и какого размера? А капусту будем добавлять? А какую? И т.д.
dibu28
Сделает "Почемучку"