Масло, вода, ртуть, акварель. Простой тест для LLM… или нет? / forpes.ru

Главная
Масло, вода, ртуть, акварель. Простой тест для LLM… или нет?

Масло, вода, ртуть, акварель. Простой тест для LLM… или нет? -1

02.09.2025 15:34

DZRobo 4 2400 Источник

конечно графика немного не такая, в тесте, но мы явно движемся к этому =)

Недавно я провёл небольшой эксперимент: проверил, как разные модели от OpenAI справляются с одной и той же задачей, создать красивую симуляцию «жидкостей в стакане» с помощью HTML5 Canvas и JavaScript.
На словах всё звучит просто, но на деле это проверка и кода, и физики, и UX. Результаты получились очень показательные, а кое-где даже удивительные. Делюсь наблюдениями и видео ?

Суть задачи

Я дал четырём моделям, GPT-4.5, OpenAI/OSS-120b (think hard), GPT-5 (Thinking) и GPT-5 PRO — один и тот же промпт:

"Я хочу, чтоб ты сделал на HTML5 Canvas и JavaScript очень красивую и эффектную симуляцию. Представь, что в центре экрана стоит стакан с водой, пользователь может выбрать одну из 3-х жидкостей (масло, акварель и ртуть) и добавлять её в стакан с водой, зажимая левую кнопку мыши. Затем он наблюдает за красивой физикой. Подумай очень хорошо и постарайся учесть все нюансы, чтобы вышло максимально красиво!"

На первый взгляд формулировка простая, но на деле задача комплексная. Системные промпты я оставил максимально «казуальными» и повседневными — без подсказок про опыт программирования или дизайна. Хотелось посмотреть, как модели будут действовать без опоры на «роль эксперта».

Что именно проверялось?

Умение писать корректный код.
Умение учитывать UX (пользовательский опыт).
Понимание и симуляция физических законов.
Умение прототипировать приятный визуал.
Способность комплексно решать задачу с «размытым» ТЗ.

Результаты

GPT-4.5 (единственная модель без размышлений)

Что получилось:

Код сразу работал без ошибок.
Визуально был объект похожий на стакан, жидкости имели базовую физику: масло всплывает, ртуть оседает.
Акварель порадовала особенно: только эта модель сделала такие яркие, «вкусные» цвета.

Что не получилось:

Физика в целом очень упрощённая: акварель ведёт себя почти как ртуть и оседает на дно, частицы одинаково отпрыгивают от дна.
UX минимальный, выглядит как заглушка.

OpenAI/gpt-oss-120b (think hard), локально в LMStudio

Запускался на моём ПК через LMStudio с параметрами: --temp 1.0, --min-p 0.0, --top-p 1.0, --top-k 0.0.

Что получилось:

Модель тоже уловила задачу и даже добавила воду в виде частиц.
Физика стала ближе к реальности: ртуть ощущается тяжелее, акварель мягче двигается.
Интерфейс вписан в тёмную тему, выглядит приятнее, чем у GPT-4.5.

Что не получилось:

Вода вся ушла наверх вместо равномерного распределения.
Частицы по-прежнему отскакивают от дна и верха.
UX по сути остался базовым: только выбор жидкости.

GPT-5 (Thinking)

Что получилось:

Стакан визуально аккуратнее, внутри подложка, похожая на воду.
Более продуманный UX: есть контролы и подсказки к интерфейсу.
Масло и ртуть визуально отличаются.

Что не получилось:

Физика отсутствует, частицы летают беспорядочно вылетая за стакан и воду.
Акварель толком не отображается.
Честно, я удивился: даже GPT-4.5 без «thinking» справилась с физикой лучше. Вероятно, дело в ошибке планирования и баге в коде, я верю что если посидеть с моделью по дольше конечно же это можно решить. Если у вас есть идеи, почему так вышло, поделитесь, мне интересно!

GPT-5 PRO

Что получилось:

Это единственная модель, которая смогла удержать все 5 критериев.
Хороший UX (для такого короткого промта), продуманная физика.
Масло и ртуть соединяются в крупные капли, акварель мягко растворяется в воде.
Есть завихрения, влияющие на капли, учтена вязкость, сила потока и размер капель.
Даже визуал волн на воде реализован.

Что не получилось:

Тут действительно нечего добавить.

Итоги

GPT-5 PRO показала по-настоящему комплексный подход. Как арт-директор с многолетним опытом могу сказать: не каждый прототип от человека в геймдеве выглядит так же цельно уже на первом проходе.
GPT-4.5 остаётся сильнейшей в текстах и цветах. OSS-120b приятно удивила креативностью и тем, что даже локально способна так много. GPT-5 (Thinking) добавила интересный UX, но подвела с физикой.
А GPT-5 PRO продемонстрировала баланс всех аспектов, я впечатлён её способностями!

Комментарии (4)

413x
02.09.2025 20:44
#28788110
Мне кажется, что GPT по ощущениям пишет код лучше, но Deepseek имеет больший контекст, поэтому для некоторых задач он лучше. Grok и Gemini пишет ахинею, много словоблудия не по делу.
1. DZRobo Автор
  02.09.2025 20:44
  #28789196
  Да, у каждой модели есть свои нюансы, тестом как раз и проверял возможность модели "достраивать" себе контекст даже в размытых условиях. Здесь фокус был именно на продуктах от OpenAI, если будет интерес аудитории, то я проведу сходный тест и на других моделях и опубликую его тут.

pol_pot
02.09.2025 20:44
#28788372
В опросе нет самого распространённого среди программистов - клода.
1. DZRobo Автор
  02.09.2025 20:44
  #28789184
  Да, пардон забыл его, опросом как раз и хотел посмотреть степень распределения (хотя бы на вскидку) кто чем пользуется среди пользователей Хабра =)
  Включил его в опросник, спасибо что напомнили.

Масло, вода, ртуть, акварель. Простой тест для LLM… или нет? -1

Суть задачи

Что именно проверялось?

Результаты

GPT-4.5 (единственная модель без размышлений)

OpenAI/gpt-oss-120b (think hard), локально в LMStudio

GPT-5 (Thinking)

GPT-5 PRO

Итоги

Комментарии (4)

413x

DZRobo Автор

pol_pot

DZRobo Автор