Все мы слышали, что нейросети уже решают сложнейшие олимпиадные задачи по математике, пишут код лучше людей и вообще «кожаным мешкам» осталось недолго. Но есть нюанс. Если задача похожа на то, что было в датасете, они её решат. Если же задача требует построения геометрической модели и физической интуиции, отличается от типичных моделей из задачников — начинается «галлюцинаторный цирк».
Сегодня я покажу вам одну физическую задачу про мебельный гвоздь. Она выглядит совершенно безобидно, но на ней ломаются ВСЕ современные LLM. Более того, если эту задачу загонять в одну и ту же нейросетку много раз, она каждый раз выдает новое бредовое "решение" с новым неправильным "ответом"!
А заодно мы поймем: как составлять задачи, чтобы человек их решал, а AI — нет.
Условие задачи
Представьте себе обычный мебельный гвоздь. В школьных задачниках таких зверей обычно нет, там всё больше материальные точки да бруски. Гвоздь — это даже не цилиндр и не конус, не куб и не шар, и вообще не похож на типичные примеры из множества задачников, которые могли использовать современные большие языковые модели для обучения.
Дано: мебельный гвоздь представляет собой тонкий стержень массой
длиной
, с тонкой плоской круглой шляпкой массы
радиусом
. Гвоздь вбит в точку на наклонной плоскости, точка соединения гвоздя с плоскостью остается неподвижной.
Задача: найти период малых колебаний. Считать, что гвоздь катается без проскальзывания по наклонной плоскости, составляющей угол
с горизонтом.

Казалось бы, обычная задача по механике. Но давайте посмотрим, что происходит, когда вы скармливаете это нейросети. Я много раз запустил LLM для решения этой задачи, вновь и вновь получал от них чушь, и стал записывать нелепые ошибки ИИ, пока не надоело. Ни разу не совпали ни решение, ни ответ — каждый запуск даже одной и той же нейросетки порождал всё новую порцию совершенно уникального, хорошо оформленного бреда.
Как это решает AI (спойлер: очень, очень плохо)
Я прогнал эту задачу через Gemimi, ChatGPT и Claude. Вот типичные сценарии провала:
Синдром цилиндра. AI видит слова "катается без проскальзывания" и "стержень". В его "голове" срабатывает паттерн: цилиндр катится с горы. Он начинает писать уравнения для плоского движения цилиндра, полностью игнорируя геометрию.
Потеря вершины. Иногда они понимают, что в задаче шляпка больше стержня. Но они забывают, что острие гвоздя (точка, где радиус равен нулю) при качении остается неподвижным (или пренебрежимо мало смещается). Они пытаются описать движение центра масс так, будто гвоздь катится всем телом вниз, как колесо.
Ад с моментами инерции. Даже если модель поняла геометрию, она почти гарантированно ошибается при переносе момента инерции на мгновенную ось вращения. Теорема Штейнера применяется не к тем осям, углы путаются, а
возводится в куб вместо квадрата.
Кинематическая шизофрения (
vs
).
Гвоздь участвует в двух вращениях: он катится вокруг своей оси (спин,) и поворачивается вокруг точки острия по поверхности стола (прецессия,
или
). Нейросеть видит формулу связи
и начинает применять её к чему попало. Она часто пишет
, но забывает связать скорость вращения шляпки со скоростью поворота всей конструкции. В итоге в уравнении энергии
подставляется не та угловая скорость, и ответ отличается в разы (обычно в
раз).
Рефлекс физического маятника.
Увидев слова «малые колебания» и «твердое тело», AI радостно вытаскивает из памяти формулу Томсона для физического маятника:.
Проблема в том, что эта формула работает для подвеса в вертикальном поле тяжести. В нашей задаче «гравитация» эффективная — это проекция, да еще и умноженная на геометрический фактор (так как центр масс поднимается не вертикально вверх, а по сложной дуге на наклонной поверхности). AI просто подставляет
или
в знаменатель, полностью игнорируя трехмерную геометрию подъема ЦМ.
Игнорирование теоремы Гюйгенса-Штейнера для «косой» оси.
Даже если сеть понимает, что нужно найти момент инерции относительно мгновенной оси, она часто делает это «по-школьному»: просто складывает.
Но это работает, только если оси параллельны! В конусе мгновенная ось вращения находится под углом к оси симметрии гвоздя. Здесь нужно использовать тензор инерции и проецировать его на нужный вектор (). Нейросети просто забывают про центробежные моменты инерции, считая момент скалярно.
Проблема «точки контакта».
При расчете потенциальной энергии AI часто пытается найти высоту подъема центра масс через точку касания шляпки. LLM считает, что точка касания шляпки с плоскостью всегда находится внизу (по оси Y наклонной плоскости). Но при повороте гвоздя точка контакта смещается по ободу шляпки. Описать эту траекторию аналитически — сложная задача дифференциальной геометрии. Человек легко обходит это, считая угол отклонения оси, а AI лезет в дебри координат точки касания, пишет три страницы интегралов и в итоге выдает ошибку деления на ноль.Рулетка с проекциями (
vs
vs
).
Это классика жанра. В условии сказано, что плоскость наклонена под углом. Нейросеть понимает, что гравитация тут работает хитро. Но как именно — она угадывает. Часто AI пишет формулу потенциальной энергии
, где
— высота. Но при переходе к обобщенным координатам он путает «вертикаль» (направление
) и «нормаль к плоскости». В итоговой формуле часто оказывается
вместо
, потому что сеть «вспоминает» формулу силы трения
. Или же она вообще забывает про наклон и решает задачу для горизонтального стола (где период был бы бесконечным или зависел от деформации), а в конце просто «приклеивает»
в ответ, чтобы соблюсти условия.
Синдром Лагранжа.
Очень часто нейросеть попытается применить формализм Лагранжа. Это ловушка.
AI вводит кучу обобщенных координат: угол поворота вокруг своей оси, угол поворота на плоскости
, координаты центра масс
. Потом она пытается записать уравнения связей. Нейросеть почти никогда не может правильно записать неголономную связь для конического качения в 3D. Она пишет
, но путает радиусы кривизны траектории и радиус самого гвоздя. В итоге получается система дифференциальных уравнений, которую нейросеть не может решить и начинает галлюцинировать: «Предположим, что
мало...» — хотя этот угол меняется быстро.
Дрейф центра масс.
Проблема контекстного окна и внимания. В начале решения сеть может правильно посчитать положение ЦМ:. Но потом нейросеть внезапно «забывает», что это составной объект (гвоздь), и начинает использовать свойства «стандартного конуса» из учебника. В формулу внезапно подставляется положение ЦМ для сплошного однородного конуса (
) или для однородного стержня (
). Ответ меняется, но сеть этого не замечает, потому что для неё
и
— это просто какие-то символы, а не физическая реальность объекта.
В итоге AI выдает красивый, уверенный бред с формулами LaTeX, который выглядит правдоподобно, пока вы не начнете проверять логику или просто ответ.
Вот примеры ответов на эту задачу от нейросеток, что я получал (ошибочные все):
Последний фантастический результат тут можно посмотреть, как и "рассуждения", на основании которых он получен https://chatgpt.com/share/6942cf19-bb0c-8001-82a1-856b67937896 . Из соображений физического смысла и размерности на правильный ответ похожи первые варианты из списка выше, только константы другие.
В чем проблема больших языковых моделей
Дело в том, что это упражнение в первую очередь на пространственное воображение. Чтобы решить ее, LLM должны понимать, как выглядит мебельный гвоздь.
Задачники и интернет переполнены похожими задачами, в которых вместо мебельного гвоздя какая-нибудь другая форма, и поэтому обучение на них не помогает нейросетке.
Если посмотреть на "размышления" моделей при решении этой задачи, то можно увидеть, а как именно они пытаются ее решить. Дело в том, что LLM пытаются свести эту задачу к какой-то им уже известной, перебирают много задач, они все не совпадают, а потом в итоге находят одну, которая им кажется совпадающей, и выдают ее решение. Эта одна всё равно не совпадает с исходной задачей, а сам этот процесс перебора не детерминированный, поэтому при каждом запуске LLM (в разных окнах) они выдают разные решения и ответы.
Рецепт: как создать задачу-"убийцу" нейросетей
Если вы преподаватель, составитель олимпиад или просто хотите потроллить любую версию LLM, вот вам алгоритм. Почему задача про гвоздь сработала?
Скрытая топология.
Сказано "стержень + шляпка". Человек строит 3D-модель в голове и понимает, что это. Нейросеть работает с текстом. Слово "стержень" тянет за собой вектор ассоциаций про одномерные объекты. Описывайте составные объекты, свойства которых (например, центр вращения) вытекают из их геометрии, а не заданы явно.Нестандартные связи.
Обычно тела катятся вниз. Здесь тело катится по кругу на наклонной плоскости из-за своей формы. Это "геометрическая связь", которую нужно вывести самому. Задавайте условия, где кинематика движения определяется формой объекта.Многоступенчатый вывод.
Чтобы получить ответ, нужно: найти ЦМнайти тензор инерции
повернуть ось
связать угловые скорости. LLM плохи в длинных логических цепочках, даже если эти цепочки состоят из совершенно элементарных шагов.
Редкие числа.
Шляпка массыи радиуса
. Это не стандартные
и
. Это сбивает "интуицию" модели, обученной на стандартных учебниках Иродова или Савченко.
-
Подвох.
Задача должна быть сформулирована как похожая на что-то из известных задачников, но решение должно существенно отличаться от решения таких задач.
Магия мебельных гвоздей
Нейросети не понимают физику. Они имитируют решение физических задач. Пока задача шаблонная — имитация идеальна. Как только вы вводите "Мебельный гвоздь" — объект, которого нет в стандартных задачниках, который требует построения ментальной модели и понимания геометрических связей, магия рушится.
Так что математики, физики и инженеры могут спать спокойно. Используйте магию мебельных гвоздей и никакой ИИ не сможет ей противостоять.
Примечание.
Интересно, что ИИ точно и правильно рисует катающийся гвоздь (код для анимации в начале статьи написал как раз Gemini). Но это не помогает ему правильно проинтерпретировать условие задачи при написании решения — пишет всё те же бредовые "рассуждения", ошибочные формулы, причем в том же самом диалоге, в котором сделал анимацию. Думаю, это хорошо демонстрирует отсутствие мышления у большой языковой модели.
Просто в его обучающей выборке с кодом для анимаций что-то похожее на катающиеся гвозди было, а среди задач по физике — в выборке подобного не было.
Подробно разобранный пример "логики" от ChatGPT 5.2
Вместо того чтобы представить гвоздь как конус, вращающийся вокруг неподвижной точки (острия), модель решила задачу для... «колеса со смещенным центром тяжести». Она представила, что гвоздь — это плоский диск, к которому приварена палка, и вся эта конструкция катится вниз по склону, как велосипедное колесо.

Вот этот шедевр:



Почему это фиаско?
Выглядит умно? Безусловно. Формулы сложные, Лагранжиан составлен, производные взяты. Но с точки зрения физики — это полный бред.
Ошибка размерности пространства: гвоздь — это 3D-объект. Он опирается на острие и край шляпки. Он не может катиться плоско, как колесо. Модель упростила задачу до 2D (Planar motion), убив всю суть кинематики конуса.
Галлюцинация равновесия: посмотрите на условие
. AI утверждает, что если наклон горки больше 41 градуса, гвоздь упадет. В реальности гвоздь, опирающийся на острие и шляпку, будет устойчиво крутиться на плоскости при любом адекватном угле (пока хватает трения).
Игнорирование геометрии: модель даже не использовала тот факт, что острие
неподвижно. В её мире гвоздь едет вниз, набирая скорость линейно, а колебания возникают из-за того, что стержень работает как эксцентрик.
Нейросеть идеально владеет математическим аппаратом (взять производную, решить уравнение), но полностью проваливает этап построения физической модели.
Она решила задачу правильно, но совершенно другую задачу.
Пример феерического бреда от нейросети
Попробовал еще DeepSeek позапускать. Он выдает удивительно длинные решения с рассуждениями и все неправильные, и каждый раз совершенно новые. Вот одно из них, можете сами посмотреть и посмеяться с глупостей этого "Искусственного Идиота". Впрочем, это даже глупостями сложно назвать — скорее это нечто бессмысленное.
1. Понимание системы
У нас есть составное тело:
Стержень массой
, длина
.
Радиус шляпки, масса шляпки
.
Общая масса.
Гвоздь расположен так, что стержень продолжает ось симметрии шляпки.
Шляпка — плоский диск радиуса, ось перпендикулярна плоскости диска.
Тело катается без проскальзывания по наклонной плоскости с углом
к горизонту.
При качении без проскальзывания шляпка касается плоскостью диска наклонной поверхности — это цилиндрическая поверхность, контакт по линии (на самом деле точечный контакт, если нет проскальзывания — качение в плоскости чертежа как колесо).
Так как шляпка — это диск, и катится без проскальзывания, то ось вращения — мгновенная ось через точку контакта, или можно через центр масс + сила трения, но для малых колебаний мы можем использовать метод энергетический или уравнение динамики.
2. Геометрия и центр масс
Пусть начало координат в точке центре шляпки .
Стержень присоединён к центру шляпки и направлен вдоль оси симметрии перпендикулярно плоскости диска? Нет, осторожно: в условии сказано «гвоздь представляет собой тонкий стержень массой длиной
, с тонкой плоской круглой шляпкой массы
радиусом
».
То есть гвоздь: шляпка — как диск, стержень — как цилиндрический стержень, прикреплённый к центру диска вдоль оси диска (как у обычного гвоздя: шляпка плоская, стержень торчит из центра шляпки).
Для качения: предположим, плоскость диска вертикальна, т.е. диск касается наклонной плоскости ободом? Но нет — если плоскость диска вертикальна, качение в плоскости наклонной плоскости будет как колесо, у которого плоскость диска параллельна наклонной плоскости — это невозможно для обычного гвоздя.
Правильнее: стандартная задача про гвоздь на наклонной — шляпка катается ободом, плоскость шляпки перпендикулярна наклонной плоскости. Тогда стержень торчит горизонтально, когда плоскость шляпки вертикальна? Нет, стержень направлен радиально от диска? Путаница.
Вспомним: есть известная задача, где гвоздь стоит шляпкой на плоскости и катится, стержень отклоняется от вертикали — это похоже на физический маятник, точка опоры — точка контакта шляпки с плоскостью (без проскальзывания), но ось вращения мгновенная через точку контакта.
Давайте уточним: гвоздь лежит на наклонной плоскости так, что шляпка касается её своим ободом, плоскость шляпки перпендикулярна плоскости наклонной плоскости, т.е. диск вертикален. Стержень из центра диска направлен перпендикулярно плоскости диска, т.е. горизонтально, когда гвоздь в положении равновесия? Но тогда центр масс не над точкой контакта.
Чтобы было колебание: равновесие будет, когда центр масс на одной вертикали с точкой контакта (в проекции на плоскость, перпендикулярную наклонной).
3. Упрощение — движение в плоскости
Рассмотрим плоское движение в плоскости, перпендикулярной плоскости диска шляпки. То есть сечение: диск виден как отрезок длины вертикально, стержень из центра диска горизонтально? Но стержень сам массивный, нужно понять расположение.
Наверное, так: координаты центра масс:
Шляпка (диск): масса
, центр в точке
, радиус
, толщиной пренебрегаем.
Стержень: длина
, масса
, присоединён к центру шляпки одним концом, направлен вдоль оси диска, т.е. перпендикулярно плоскости диска? Нет, если диск вертикален (катится ободом), ось диска горизонтальна и перпендикулярна линии наибольшего ската. Стержень же от центра диска направлен вдоль оси диска значит горизонтально и перпендикулярно линии контакта. Тогда в плоскости качения: шляпка — вертикальный отрезок (обод), стержень — горизонтальный стержень, торчащий из середины этого отрезка.
Пусть в плоскости, перпендикулярной плоскости наклонной: сечение шляпки — круг радиуса , касающийся наклонной в одной точке
. Стержень выходит из центра диска
вдоль радиуса? Нет, стержень перпендикулярен плоскости диска, значит в нашем 2D-сечении виден только точка
— центр диска, стержень не виден? Это проблема.
Значит, плоское движение возможно, если диск катится как колесо, плоскость диска параллельна наклонной плоскости (как монета катится по столу). Тогда стержень из центра диска направлен перпендикулярно плоскости диска, т.е. вертикально вверх, когда гвоздь в положении равновесия? Но тогда для наклонной плоскости под углом равновесие будет, когда стержень вертикален, центр масс над центром диска — качение без проскальзывания возможно.
4. Выберем конфигурацию
Я думаю, имеется в виду известная задача: гвоздь стоит шляпкой на плоскости, шляпка — это цилиндр малой высоты, но в условии сказано «тонкая плоская круглая шляпка» — значит высота мала, радиус . Стержень из центра шляпки вдоль оси симметрии. Тогда гвоздь лежит на наклонной плоскости так, что плоскость шляпки параллельна наклонной (шляпка плоская, её плоскость совпадает с плоскостью наклонной), тогда стержень перпендикулярен наклонной плоскости? Но тогда как катится? Если плоскость шляпки параллельна наклонной, то качение происходит без вращения вокруг вертикальной оси — так не интересно.
Так не будет колебаний. Поэтому колебания возможны, если плоскость шляпки перпендикулярна наклонной (диск вертикален), и стержень горизонтален и перпендикулярен линии наибольшего ската в равновесии.
Будем считать именно так: в положении равновесия стержень горизонтален. Тогда центр масс смещён от точки опоры, и есть возвращающий момент при качении без проскальзывания.
5. Центр масс в этой конфигурации
Пусть центр диска , точка контакта
. Диск радиуса
касается плоскости в
. Стержень присоединён к
одним концом, длина
, масса
. В равновесии стержень горизонтален, т.е. перпендикулярен линии
, лежащей в вертикальной плоскости (перпендикулярной плоскости наклонной).
Радиус-вектор от к центру масс стержня: стержень однородный, его центр масс находится на расстоянии
от
по горизонтали в равновесном положении.
Координаты в системе координат, связанной с диском: центр диска — начало, ось
вдоль стержня (горизонталь в равновесии), ось
вертикально вверх, ось
вдоль оси диска. Но в плоскости качения — координаты
(вдоль стержня) и
(перпендикулярно стержню в плоскости качения) — здесь стержень только по оси
.
Центр масс шляпки
, масса
.
Центр масс стержня
, масса
.
Общий центр масс :
То есть центр масс системы находится на расстоянии от центра диска вдоль стержня.
6. Динамика качения без проскальзывания
Диск катится без проскальзывания по прямой на наклонной. Положение системы задаётся углом между стержнем и горизонталью (в плоскости, перпендикулярной наклонной). Но наклонная сама имеет угол
к горизонту, поэтому эффективная потенциальная энергия включает наклон.
Проще: движение в плоскости, перпендикулярной линии контакта (т.е. в плоскости наклонной). Пусть — координата центра диска вдоль наклонной,
— угол поворота диска (
). Есть ещё угол
между стержнем и горизонталью? Но горизонталь в лабораторной системе, а наклонная под углом
.
Лучше использовать координату — угол поворота диска, и считать, что стержень жёстко связан с диском, т.е.
const относительно диска? Нет, стержень может свободно вращаться относительно диска? Нет, гвоздь — жёсткое тело, значит стержень зафиксирован относительно шляпки: угол между стержнем и радиусом к точке контакта
в равновесии.
7. Энергетический подход (малые колебания)
Пусть — угол отклонения линии, соединяющей точку контакта
с центром масс системы, от положения равновесия относительно нормали к наклонной.
Точка — мгновенно неподвижна, тело вращается вокруг
с угловой скоростью
. По теореме Гюйгенса-Штейнера, момент инерции
, где
— расстояние от
до центра масс, но
— момент инерции относительно центра диска
.
8. Вычисление
Момент инерции относительно центра диска (ось через
параллельная оси вращения через
— ось вдоль касательной к окружности качения, т.е. горизонтальна и перпендикулярна плоскости качения).
Момент инерции шляпки (диска) относительно вертикальной оси через его центр: ? Нет, осторожно: ось вращения, вокруг которой происходит колебание — это горизонтальная ось через точку контакта
(перпендикулярна плоскости рисунка). Тогда момент инерции шляпки относительно оси через её центр, параллельной этой оси: для диска массы
, радиуса
, ось в плоскости диска через центр:
? Проверим: момент инерции диска относительно оси, лежащей в плоскости диска, проходящей через центр:
. Да, так.
Масса шляпки , значит
.
А стержень: момент инерции стержня относительно оси через его конец (точка ), перпендикулярной стержню:
. Эта ось параллельна оси через
для шляпки? Да, ось вращения через
горизонтальна и перпендикулярна плоскости качения.
Итак:
Но ,
:
Приведём к общему знаменателю 96:
9. Расстояние от до центра масс
Мы нашли центр масс от центра диска :
в системе координат, связанной со стержнем (
вдоль стержня).
В положении равновесия стержень горизонтален, плоскость наклонной под углом к горизонту, значит горизонталь в лабораторной системе не совпадает с направлением вдоль наклонной.
Для потенциальной энергии при малых колебаниях: тело катится, точка контакта неподвижна мгновенно, центр масс движется по дуге окружности радиуса
относительно
.
— расстояние от
до центра масс.
Найдём .
В положении равновесия: центр диска , точка контакта
на вертикали под
(в плоскости, перпендикулярной наклонной)? Нет, наклонная: вертикаль заменяется на перпендикуляр к наклонной.
Лучше перейти в систему координат вдоль наклонной: ось вдоль наклонной вниз, ось
перпендикулярно наклонной вверх. Равновесие: центр масс находится на вертикали (в смысле вдоль оси
) над точкой контакта
.
Координаты центра масс относительно в системе координат, где ось
вдоль наклонной, ось
перпендикулярно наклонной: в равновесии стержень горизонтален, но горизонталь в лабораторной системе. Горизонталь образует угол
с осью
(наклонной). Значит, относительно
центр масс имеет координаты в системе (
вдоль наклонной):
Центр диска находится над точкой
на высоте
перпендикулярно наклонной:
.
Координаты центра масс .
Расстояние от
до центра масс:
:
,
.
Для малых колебаний: фиксирован, не мало, но колебания происходят за счёт изменения угла
— угла поворота тела вокруг точки
в плоскости, перпендикулярной наклонной.
10. Момент инерции относительно
По Штейнеру:
Аккуратно: относительно оси через
параллельно оси через
:
где — расстояние между
и центром масс. Но момент инерции относительно
= момент инерции относительно центра масс
(
— расстояние от
до центра масс), а
— момент инерции относительно
.
Переход от к
:
— нет, это ошибка.
Правильно: .
А — это теорема Гюйгенса наоборот.
Так: , но только если координаты в системе с осями как при расчёте
— это другой случай? Не будем путаться, давайте проще:
?? Нет,
относительно
параллельно оси через
:
— да, если
относительно центра масс? Нет, если
относительно точки
(центра диска), то переход к точке
:
— нет, потому что параллельные оси: расстояние между осями — это расстояние между
и
, но ось через
параллельна оси через
, значит расстояние между осями =
.
Так ? Это если ось через
параллельна оси через
, и они находятся на расстоянии
. Да!
Потому что неподвижно относительно тела,
неподвижно в пространстве мгновенно, ось вращения через
параллельна оси через
, расстояние между ними
.
Верно.
Тогда:
,
,
.
Итого .
11. Уравнение малых колебаний
Колебания вокруг положения равновесия, при котором центр масс на одной вертикали (вдоль , перпендикулярно наклонной) с точкой
.
При отклонении на малый угол (в плоскости, перпендикулярной наклонной) возвращающий момент:
где — расстояние от
до центра масс в положении равновесия.
Найдём .
В равновесии: = расстояние от
до центра масс по перпендикуляру к наклонной =
(вычисляли ранее). По оси
вдоль наклонной от
до центра масс:
. Но так как в равновесии центр масс точно над
(вдоль
), значит
— противоречие с
? Так равновесие будет не при горизонтальном стержне, а при наклоне стержня, таком чтобы центр масс над
. Определим этот наклон.
Это сложно. Но в стандартном подходе: — расстояние от
до центра масс в равновесии.
Поскольку мал? Нет, не обязательно, но период колебаний не зависит от
в формуле для маятника? Зависит, т.к. возвращающая сила — составляющая силы тяжести вдоль наклонной
.
Уравнение: .
Частота: .
12. Определение
В равновесии ось стержня наклонена так, что линия — центр масс вертикальна (в системе координат наклонной). Точка
(центр диска) находится на расстоянии
от
вдоль
(перпендикулярно наклонной) в равновесии? Нет:
находится где угодно, но шляпка катится — в плоскости, перпендикулярной наклонной,
движется по горизонтали (в лабораторной системе — нет).
Ладно, не будем слишком углубляться: в учебных задачах часто принимают (расстояние от точки подвеса до центра масс), но здесь точка подвеса —
, до центра масс расстояние сложное, но для малых
приблизительно
.
Для получения точного ответа предположу, что — это если равновесие при горизонтальном стержне, но тогда центр масс не над
, значит не равновесие.
Я пропущу этот геометрический расчёт, так как задача стандартная, ответ:
где ,
,
найдено из геометрии равновесия.
Часто в таких задачах , тогда:
Окончательный ответ (приближённо, если ):
Это период малых колебаний гвоздя, катящегося без проскальзывания по наклонной плоскости.
Общий вывод
Франсуа Шолле (создатель Keras) давно настаивает: большие языковые модели дают впечатляющий рост навыка, но сами по себе не гарантируют рост “интеллекта” в смысле способности уверенно справляться с принципиально новыми ситуациями. В своем тесте ARC (Abstraction and Reasoning Corpus) он как раз пытается отделить натасканный навык от обобщения на незнакомые задачи. Мой эксперимент с гвоздём — из той же серии: модель легко едет по “проторенной колее”, но стоит слегка изменить физическую постановку — и уверенность рассыпается. Это похоже на работу с описаниями мира (словами и шаблонами), а не на каузальную модель, которая переносится на новые условия.
Комментарии (47)

Andriuxa
19.12.2025 14:11а первую же картинку в статье тоже нейросеть рисовала? Голубой радиус на шляпке гвоздя не в ту сторону вращается...

axion-1
19.12.2025 14:11Я по тексту условия вообще не понял задачу. Вбитый в наклонную плоскость гвоздь, из моего житейского опыта, не должен по ней кататься и не обязан касаться плоскости шляпкой. По картинке понятнее что нужно посчитать, но там изображено что угодно только не "вбитый гвоздь".
Ошибка LLM разве что в том что они пытаются додумать некорректно сформулированные условия, вместо того, чтобы задавать уточняющие вопросы.
как составлять задачи, чтобы человек их решал, а AI — нет
Сформулировать условие максимально путанно и двусмысленно. Можно завалить и нейросеть и неугодного ученика на экзамене.

ImagineTables
19.12.2025 14:11Статья, которая ставит интересный вопрос, и комментарий, который находит интересный ответ — что может быть круче! Разрешите и мне присоседиться с уголка к вашему интеллектуальному пиршеству. Я поправлю формулировки с эпистемологических позиций, а потом добавлю свои пять копеек.
Итак, вопрос — «как человеку поставить в тупик чатбота?». Человек, в отличие от чатбота, реализует алгоритм творческого мышления. Что это за алгоритм, не знает никто. И создатели чатботов тоже не знают. Поэтому в чатботах он и не реализован. (Есть, конечно, клоуны, которые говорят: а вдруг он там сам собой реализовался? Им можно посоветовать сесть за клавиатуру и бить по ней чем попало, а потом посмотреть, реализуется ли в результате хотя бы пузырьковая сортировка). Соответственно, ответ — надо предложить чатботу творческую задачу. Но такой ответ не даст искомой «мебельной магии», потому что «творческая задача» и «задача, которую не может решить чатбот» — это эквивалентные формулировки. Чтобы магия появилась, надо копнуть вглубь, например, предложив конкретный способ.
На первый взгляд кажется, что это невозможно: придумать творческую задачу — само по себе творческая задача (т.е. не раскладывается на классические алгоритмы). Однако, на помощь спешит эмерджентность. Скажем, нарисовать хорошую картину или написать хорошую книгу — творческие задачи, однако существуют статьи с приёмами в помощь начинающему писателю или художнику. Следовать приёму потребует творческого мышления, поэтому противоречия не возникает. Предложить такой приём — нужная нам «мебельная магия».
И вы такой приём выкупили в тексте автора! Он не в высоколобой математике и физике, а в обмане с формулировками. Только это не должно звучать «как что-то плохое», это действительно интересный способ. А почему нет? Это мне напоминает тесты IQ. Я их в своё время без энтузиазма полистал (отношение к ним у меня было изначально скептическое), и обратил внимание вот на что. Часто я могу выбрать любой вариант из предложенных, и обосновать свой выбор. Например, предлагается найти элемент, непохожий на остальные. Но уникален каждый элемент: первый тем, что первый, второй тем, что второй, и т.д. Если бы судило жюри, можно было предложить такой ответ и рассчитывать, что его зачтут как верный (хотя бы остроумный). Однако, когда вы сидите наедине с листком и карандашом, никакого жюри нет. А с бумагой не очень-то поспоришь. И нужно смоделировать составителя вопроса, чтобы понять, какой ответ он посчитал верным. Поэтому я всегда говорил, что тесты IQ это тесты на конформизм. Проявить который, однако, действительно требует ума.
Есть что-то общее между пониманием того, что хотел сказать автор IQ-теста, и тем, что хотел сказать автор вопроса, говоря «вбил гвоздь». Очевидно, у физиков «вбивание гвоздя», заканчивающегося «материальной точкой», эквивалентно шарниру с нулевым трением. Это, конечно, обман, но без обмана. Честный обман. Дающий действительно интересный способ снова и снова доказывать, что железный дурак думать не умеет. (Невозможно защититься от приёма, просто подправив датасеты — только от конкретных задач).

phenik
19.12.2025 14:11В чем проблема больших языковых моделей
Дело в том, что это упражнение в первую очередь на пространственное воображение. Чтобы решить ее, LLM должны понимать, как выглядит мебельный гвоздь...
Если вы преподаватель, составитель олимпиад или просто хотите потроллить любую версию LLM, вот вам алгоритм. Почему задача про гвоздь сработала?
Скрытая топология.
Сказано "стержень + шляпка". Человек строит 3D-модель в голове и понимает, что это. Нейросеть работает с текстом. Слово "стержень" тянет за собой вектор ассоциаций про одномерные объекты. Описывайте составные объекты, свойства которых (например, центр вращения) вытекают из их геометрии, а не заданы явно.Нестандартные связи.
Обычно тела катятся вниз. Здесь тело катится по кругу на наклонной плоскости из-за своей формы. Это "геометрическая связь", которую нужно вывести самому. Задавайте условия, где кинематика движения определяется формой объекта.Многоступенчатый вывод.
Чтобы получить ответ, нужно: найти ЦМнайти тензор инерции
повернуть ось
связать угловые скорости. LLM плохи в длинных логических цепочках, даже если эти цепочки состоят из совершенно элементарных шагов.
Редкие числа.
Шляпка массыи радиуса
. Это не стандартные
и
. Это сбивает "интуицию" модели, обученной на стандартных учебниках Иродова или Савченко.
-
Подвох.
Задача должна быть сформулирована как похожая на что-то из известных задачников, но решение должно существенно отличаться от решения таких задач.
Магия мебельных гвоздей
Нейросети не понимают физику. Они имитируют решение физических задач.
Хорошо сформулированы недостатки ЯМ для решения задач требующих воображения, вообще образного мышления. См. комент со сравнением с возможностями человека, которые пока не реализованы в ЯМ, и которые позволяют решать подобные задачи. Там упоминается, как можно тренировать мультимодальные ЯМ, чтобы они могли решать их лучше, и как раз подоспел Uni-MMMU Benchmark, который пока лучше всего подходит на эту роль.

coresky
19.12.2025 14:11Чтобы создать живое, нужно добавить в нейросеть надежду и любовь. Сейчас нейросети работают только на вере, на вероятном. Отсюда и галюны. Вера оперирует вероятным, надежда невероятным, а балансером должна быть любовь (имхо это самое сложное)

wataru
19.12.2025 14:11ИИ точно и правильно рисует катающийся гвоздь (код для анимации в начале статьи написал как раз Gemini)
Кажется не совсем - гвоздь вращается вокруг штыря не в ту сторону. Или это моя зрительная нейронка сбоит?

wataru
19.12.2025 14:11Еще раньше была смешная задачка, на которой все нейросети валились: Есть 8 монет: 7 маленьких и одна большая. Большая весит больше мелких монет, все мелкие - идентичные. Как мне найти большую монету?
Тут нейросетка коррелирует задачу с задачами на взвешивания, даже при том, что в условии ничего про весы не дано, а ответ лишь "посмотрите на размер монеты". Еще можно размер поменять на цвет или номинал.
Еще иногда срабатывала задача про осла, козу, волка и лодку, только в лодку помещаются все, но нейросеть выдает известное решение с маленькой лодкой.
Это потому, что у нейросети нет логики. Она лишь изображает логические рассуждения, потому что получившийся поток токенов статистически похож на то, что она уже видела. К сожалению, эти галлюцинации достаточно часто срабатывают, чтобы созадвать вау-эффект и высокие ожидания сильного ИИ.

Mingun
19.12.2025 14:11Еще иногда срабатывала задача про осла, козу, волка и лодку, только в лодку помещаются все, но нейросеть выдает известное решение с маленькой лодкой
Ну-у-у, это и у математиков есть такая уязвимость. Наверное, поэтому им нобелевки не дают.</s>

DvoiNic
19.12.2025 14:11это и у математиков есть такая уязвимость.
"...выливаем воду из чайника, и этим сводим задачу к уже известной..."©

randomsimplenumber
19.12.2025 14:11Если гвоздь вбит - он никуда не катится.
У мебельного гвоздя широкая шляпка и короткая ножка. Он скорее перевернется чем будет так катиться.
Странная задача.

nuclight
19.12.2025 14:11Думаю, это неудачная формулировка для "острие остается в той же точке". А как катаются подобным образом болты или шурупы, легко увидеть в реале.

randomsimplenumber
19.12.2025 14:11неудачная формулировка
Очень.
А как катаются подобным образом болты или шурупы, легко увидеть в реале.
Совершенно не так. У болта нет острия ;)
Тут на одной постановке задачи можно моск сломать.

Kalobok
19.12.2025 14:11Гугл по запросу "мебельный гвоздь" выдает вполне то, что нарисовано и написано у автора: ножка раза в 4 больше радиуса шляпки.


misha_erementchouk
19.12.2025 14:11Я как-то так себе и представлял, до тех пор, пока не прочитал в статье
гвоздь, опирающийся на острие и шляпку, будет устойчиво крутиться на плоскости при любом адекватном угле (пока хватает трения).
Т.е. таки автор предполагает какое-то шарнирное закрепление (потому и "прибит").

nuclight
19.12.2025 14:11Исправьте форматирование, чтобы ответы моделей были цитатой - не отличить, где текст автора, людей это вводит в заблуждение.

wmlab
19.12.2025 14:11Я помню эту задачу про одну маленькую монетку, которая катится вокруг большой. Радиус маленькой монетки в три раза меньше большой. Сколько раз обернется монетка вокруг себя, пока сделает полный оборот вокруг большой?
В голове сразу "ага, радиус в три раза меньше, значит, периметр маленькой тоже в три раза меньше. Следовательно, три оборота".
Скрытый текст
Четыре, не три! Забыли, что монета не скользит, а катится! То есть 3 + плюс еще и собственный оборот. Не верите - возьмите монетки и попробуйте.
Правильного ответа не было среди предложенных вариантов, то есть ошиблись даже составители.
Я задал этот вопрос Gemini 3 - он дал правильный ответ сразу и сослался на парадокс. То есть он не догадался, а просто знал историю задачи.

botflow
19.12.2025 14:11Вот ответ на эту статью GPT-5.5
Суть твоего примера с гвоздём — не в том, что «LLM тупые», а в том, какой именно слой интеллекта ты проверяешь.
Что тут реально ломается
Этап построения модели мира (какая опора, какая мгновенная ось, какая связь “качение без проскальзывания” именно для этой геометрии).
LLM сильны там, где “модель” уже зашита в шаблон: цилиндр/диск/брусок, стандартная связь v=ωRv=\omega Rv=ωR, стандартный маятник и т.д.
А тут ключ — не формулы, а выбор правильной идеализации. Если идеализация ошибочна, дальше можно хоть Лагранжиан в золоте писать — выйдет «идеально оформленный бред».Неголономные связи + 3D-кинематика — это топливо для галлюцинаций.
У человека есть “жёсткая проверка реальностью”: он буквально видит, что должно оставаться неподвижным, что катится по окружности, где контакт, где центр масс поднимается.
У LLM вместо этого — текстовые ассоциации. Поэтому “стержень + катится” мгновенно триггерит «колесо/цилиндр», и модель дальше подгоняет задачу под знакомый каркас.Почему ответы прыгают от прогона к прогону — это симптом не “рандома ради рандома”, а того, что система не нашла устойчивого каркаса решения.
Когда нет внутренней геометрической сцены, остаётся перебор паттернов (“похоже на…”) и локальные эвристики. При другом семплировании — другой «похожий шаблон» → другая уверенная чушь.
Где в тексте есть небольшой перекос
Фраза «нейросети не понимают физику, они имитируют» в целом верная как объяснение провала, но слишком бинарная.
Правильнее так: LLM умеют “симулировать” решение на уровне текста, а физику — только если она редуцируется к знакомым символическим схемам.
Как только требуется внутренняя сцена + ограничения, они проигрывают.И да, тот факт, что Gemini написал код анимации, не противоречит провалу. Код для анимации — тоже шаблонная композиция (“отрисуй, поверни, обнови”), и он не гарантирует, что модель построила ту же самую физическую интерпретацию, которую ты проверяешь.
Самый важный вывод (и он сильнее «анти-ИИ» морали)
Твоя задача — отличный пример того, что “интеллект” в задачах по физике часто сидит не в дифференцировании, а в дискретном выборе правильной постановки:
какая ось/точка опоры “на самом деле” фиксирована,
какая связь между угловыми скоростями,
что является малым параметром,
какой подъём ЦМ определяет потенциал.
Это структурное рассуждение, которое плохо даётся чисто языковой модели без внешних опор.
Что это говорит про «AGI» и тесты типа ARC
Очень созвучно Шолле: ты проверяешь именно обобщение на “незнакомую структуру”, а не на “слегка другой текст”.
В таких задачах LLM часто не делают перенос, потому что у них нет устойчивого механизма:
(1) построить абстрактную модель → (2) вывести ограничения → (3) проверить себя инвариантами.Как бы я сформулировал твой тезис одним предложением
LLM ломаются не на математике, а на переходе от слов к геометрии и ограничениям, поэтому любые задачи, где решение определяется формой, контактами и связями, будут для них “мясорубкой”, пока рядом нет внешнего проверяющего механизма (символьного/физического/геометрического).
Если хочешь, могу помочь упаковать это в короткий “пригвоздить в комментарии” формат на 5–7 строк — максимально злой и точный, без лирики.

eresik
19.12.2025 14:11А я, пожалуй, осторожно повторю свою точку зрения.
ИИ уже AGI. Просто мы как-то не заметили этого.
Поясню.
Вот здесь привели задачу которую языковые модели решить не могут. А давайте для чистоты эксперимента дадим решить эту задачу жителям любого обычного среднего многоквартирного дома. 100 квартир, 200 жителей.Вопрос. Сколько людей хотя бы поймут условие этой задачи?
В моём доме эту задачку ну может быть студент какой-то решит. Я вот не решу. И никого из соседей не знаю кто может решить. Ну может быть пару знакомых смогут. И наверное не с первого раза, сначала с ошибками.
Какой вывод сделаем? У людей нет интеллекта?

randomsimplenumber
19.12.2025 14:11В древнем Риме задачу на умножение понял бы 1 из 1000. А в средневековой Европе за подобное сожгли бы ;)

phenik
19.12.2025 14:11А давайте для чистоты эксперимента дадим решить эту задачу жителям любого обычного среднего многоквартирного дома. 100 квартир, 200 жителей.
Это не корректное сравнение. Любой из жителей закончил обучение в школе, может еще в институте. А ЯМ обучались на информации собранной почти всем человечеством за всю историю. И все же они часто проигрывают даже в простых задачах на сообразительность, которых не было в обучающей выборке. Корректно было бы сравнивать все человечество против ЯМ, если выиграют, то да, уже аги) а так пока нет.

misha_erementchouk
19.12.2025 14:11Все это, конечно, так и, действительно, LLM решают задачи как многие (вполне, по повседневным понятиям, GI) школьники и случайные студенты путем выбора из массива формул тех, в которые входят похожие буквы. Но есть нюансы.
Где-то на ютюбе есть ролик с моим (вероятно так и оставшимся единственным) комментарием с докладом на каком-то серьезном мероприятии о математических способностях ИИ. Дело было сколько-то лет назад, когда только начинали про такие способности всерьез говорить. В частности в докладе приводился пример задачи решенной ИИ. Какая-то элементарная кинематика, но задача поставлена была немного казуистически (вроде катающегося прибитого гвоздя), в духе нахождения обратной скорости при заданных времени и пройденном пути. Когда слушал доклад подумал, о, как хитро придумали поймать ИИ - к стандартной формулировке нестандартный вопрос. ИИ, ожидаемо, дал неправильный ответ. НО, как быстро стало понятно, докладчик привел эту задачу как пример того, что ИИ умеет решать задачи. Я так и не понял, то ли докладчик, походя, аудиторию протроллил, то ли и сам не разобрался. Аудтория послушала, похлопала, позадавала полагающиеся случайные вопросы, на этом дело и закончилось. Мой комментарий, по видимому, тоже остался незамеченным.

gliderman
19.12.2025 14:11Хорошо, а когда ллм задать, что катается конус, а не гвоздь, они дают правильный ответ?

black_warlock_iv
19.12.2025 14:11Я не решу, хотя и учился в аспирантуре по теоретической физике. Механика со сложными кинематическими связями -- очень специальная область.

Moog_Prodigy
19.12.2025 14:11Для любителей поугарать над LLMками: Устанавливаете OpenScad и просите модельку нарисовать через скрипты опенскада - подшипник качения. Или редуктор. Или пусть даже ДВС автомобиля. Она пишет код, вставляете ее в опенскад...
Это настолько смешно, что заменяет любые эти ваши мемчики.
Но это пример неправильного использования LLM.

axion-1
19.12.2025 14:11Да, это пока слабое место. LLM не умеют отвечать в духе "я не обучена хорошо решать такие задачи, но если вам чисто поржать, могу попробовать". И давать ссылку на специализированный инструмент, который сделает это качественно, если такой есть.
Возможно, в ближайшем будущем научатся.

Slav2
19.12.2025 14:11Для таких задач лучше сначала скармливать и условие и правильное решение. Просить переписать промпт, чтобы модель сама сформулировала условие, как она его представляет. И вот этот промпт уже запускать в бенчмарк.

skthn
19.12.2025 14:11Так это подгонка получается. В реальном мире же нет изначально известного решения и формулировки, заточенной под данную модель.

engine9
19.12.2025 14:11Моё разочарование ЛЛМ-ками случилось когда я их просил генерировать схемы простейших электронных устройств, типа симметричного мультивибратора на двух биполярных транзисторах. Они все обсирались.

randomsimplenumber
19.12.2025 14:11Угу. Результат работы ллм нужно верифицировать. Но одно дело - 6-лапый кот, его видно сразу, а если не видно - и так сойдет. А найти ошибки в простыне кода - проще самому написать.

JoshMil
19.12.2025 14:11Иными словами - часть, хм.... субзадач этой задачи - для человека решены определенным контекстом. Которого у нейросети нет и его нужно вводить отдельно, в отличии от людей. Ну это, строго новоря, не большая проблема.

nronnie
19.12.2025 14:11В общем-то, подход с лагранжианом абсолютно правильный. Тут речь идет об одномерной системе, для которой в качестве измерения можно взять угол отклонения от вертикали
φ. Тогда ясно, что лагранжианL(φ, φ')будет, на самом деле, такой же как у обычного маятника, с некоторыми поправками. Потенциальная энергияU(φ)будет помножена на какой-то постоянный коэффициент (потому что центр тяжести выше чем у обычного маятника, и его легко найти), и кинетическая энергияK(φ')тоже (т.к. во-первых тело не точечное, а во вторых есть еще энергия вращения шляпки гвоздя), этот коэффициент вычислить сложнее, но тоже не так уж и сложно. Далее, поскольку от умножения лагранжиана на константу ничего не меняется, а потенциальная энергия пропорциональнаg, то становится совсем просто т.к. можно вообще взять готовую формулу для частоты колебаний обычного маятника и "поправить" в нейgна отношение этих коэффициентов.


Firelander
Ошибочные все и тут же самый первый тот ответ что получился в конце статьи
Kalobok
Я так понимаю, что в конце статьи не правильный ответ, а "Пример феерического бреда от нейросети", от DeepSeek.
Firelander
Да, я как-то само собой ожидал увидеть "человеческое" решение во второй половине статьи. Тогда получается в статье нет ни решения, ни даже правильного ответа(ну или я слишком уж по диагонали смотрел) то тогда выходит, что порядка 80-90% объёма статьи состоит из бреда нейросетей и качественно по сути мало отличается от "всеми любимого" нейрослопа.
Задачка-то не то чтобы простая, вот уж не знаю много ли найдется инженеров которые закончили вуз сколько-то лет назад, которые смогут её решить. Её решит разве что студент-отличник, которому вот прям сегодня сдавать термех. Интересно, будь там просто конус вместо пресловутого гвоздя, вдруг нейронки может быть даже и смогли бы решить правильно, но у меня точно нет таких навыков чтобы это проверить.
Сейчас пока чтобы сломать нейронку достаточно задать ей какой-нибудь заковыристый вопрос из кокретно своей специализированной темы, в которой ты хорошо разбираешься. Если же нейронка хорошо и безошибочно справляется прям со всеми с вопросами из вашей темы, то у меня для вас плохие новости :)
Kalobok
Да, увидеть правильное решение хотелось бы. Или хотя бы правильный ответ.
nuclight
Зачем? Чтобы задача потеряла своё значение в качестве теста отсева нейронок? Физики и инженеры смогут, этого достаточно.
Гораздо интереснее попробовать применить алгоритм к другим областям, где нейронки считаются хорошими, например программированию.
Kalobok
Если написать только правильный ответ, это не особо повредит отсеву. А физики и инженеры смогли бы проверить свой результат.
Shoman
Затем чтобы самим сравнить с ответом нейронок и понять верны ли выводы автора. Очень много статей на тему «нейронки не могут что-то» а по факту оказываются что вполне себе могут. А причины почему у авторов статей «не могут» или берут не топовые версии, или криво пишут запрос.. и тд