Все мы привыкли к тому, что нейросети творят чудеса. Suno генерирует музыку неотличимую от человеческой, Flux рисует картины лучше многих художников, Claude переводит тексты так, что даже носители языка не сделают это лучше. Создается впечатление, что искусственный интеллект вот-вот заменит нас во всех сферах деятельности.

Но есть одна маленькая проблема. Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь, что становится стыдно, что знаком с ними.

Когда все идет не по плану

Я активно использую LLM в работе и заметил странную закономерность. Нейросеть легко напишет ассемблер или парсер методом рекурсивного спуска. Код работает, все отлично. Но стоит немного изменить формулировку или попросить решить задачу "не по учебнику" - и начинается цирк.

Попросите написать парсер с использованием регулярных выражений для сложного формата - получите бесконечный цикл исправлений, где устранение одной ошибки порождает две новых. Попросите lock-free MPMC queue - получите красивый код с ABA-проблемой и гонками между потоками, которые нейросеть "забыла" учесть.

Самое забавное, что LLM прекрасно рассуждают о hazard pointers, упоминают нужные статьи, даже реализуют сами hazard pointers. Но правильно их использовать не могут. Это как студент, который выучил все определения из учебника, но не понимает, как применить их на практике. Или разглагольствует об ABA проблеме, но не решает ее в коде. Или утверждает, что код написан по описанию из конкретной научной статьи, но это просто ложь.

Шахматный кошмар

Недавно я посмотрел обзор турнира между LLM по шахматам. И это было откровение. Если вы думаете, что программирование - сложная задача для нейросетей, то шахматы - это просто катастрофа.

Представьте себе:

- Нейросеть материализует себе третью ладью посреди доски из воздуха

- Пытается перепрыгнуть ферзем через собственную пешку

- Внезапно начинает понимать правила инвертированно и пытается уйти из-под шаха каждым недопустимым способом (на битое поле, на занятое другой своей фигурой поле) и называет недопустимыми все нормальные варианты.

- Ставит фигуру под удар и забывает про нее на несколько ходов

- Не видит мат в один ход, но объявляет "мат" после бессмысленного хода

- Рассуждает о преимуществах хода, который собирается сделать, при этом выдавая просто серию откровенно ложных утверждений

При этом дебюты нейросети часто разыгрывают безупречно! Точно так же, как безупречно пишут стандартные алгоритмы из учебников.

В чем же дело?

Между программированием lock-free структур данных и игрой в шахматы есть фундаментальное сходство. Обе задачи требуют:

1. Анализа состояний - нужно рассмотреть, как различные потоки (или игроки) могут повлиять друг на друга

2. Проверки инвариантов - убедиться, что важные правила не нарушаются

3. Планирования на несколько шагов вперед - предвидеть последствия своих действий

И вот именно это LLM делать не умеют. Совсем.

Разглагольствование vs размышление

Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс. Они пишут длинные рассуждения, взвешивают варианты, делают выводы. Но на самом деле они просто подбирают вероятные продолжения текста, создавая иллюзию думания.

Настоящее размышление требует:

- Построения внутренней модели ситуации

- Симуляции различных сценариев развития событий

- Проверки согласованности решений с установленными правилами

- Способности отказаться от привлекательного, но неверного варианта

У современных LLM для этого просто нет механизмов. Они застряли на уровне автодополнения.

Тест на настоящий интеллект

Я пришел к выводу, что для оценки реальных способностей нейросети к размышлению лучше всего подходят именно шахматы. Это гораздо нагляднее и понятнее, чем анализ lock-free кода.

Когда нейросеть начнет стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуя фигуры из воздуха - вот тогда можно будет говорить о настоящем прорыве в ИИ.

Неудобная правда

Задачи можно разделить на три категории:

1. Задачи по учебнику - есть известный алгоритм, его нужно просто воспроизвести

2. Задачи с ограниченным перебором - нужно рассмотреть несколько вариантов и выбрать лучший

3. Задачи стратегического планирования - требуется анализ на несколько ходов вперед

Большинство впечатляющих демонстраций LLM основаны на задачах первого типа - воспроизведении известных паттернов. Это создает иллюзию универсального интеллекта, но реальность гораздо скромнее. LLM отлично справляются только с первым типом. Со вторым - иногда везет. А третий тип - это для них темный лес.

LLM сегодня - это невероятно мощные машины для распознавания и воспроизведения паттернов. Но до настоящего мышления им еще очень далеко. Архитектура трансформеров просто не способна на это.

Пока LLM не научатся по-настоящему рассуждать, а не просто красиво разглагольствовать, они останутся очень полезными в определенных задачах, но ограниченными инструментами.

Комментарии (51)


  1. F1eex
    10.08.2025 00:40

    Пример размышления: где-то годик назад я задал чатуГПТ такой вопрос: "У меня есть знакомый по имени Костя. Но другие люди часто по ошибке называют его другим, похожим именем, начинающемся на ту же букву. Что это за имя?"

    В итоге чатГПТ так и не угадал ответ "Коля". )


    1. Sabin
      10.08.2025 00:40

      Позадавал разным моделям давая по 3 попытки.

      Sonar - Ксения, Коля, Коля (но размышляя прямо в основном выводе перебрал десяток вариантов)

      Sonnet 4 - Коля, Константин, Коля

      GPT-5 - Коля, Константин, Коля

      Gemini 2.5 - Кощей все 3 раза (имя Костя очень похоже на слово «кость»).

      Grok 4 - Коля, Коля, Кирилл (в первый раз гуглил по минуте и я запретил поиск)

      o3 - Кирилл все 3 раза (из двух слогов и имеют ударение на второй: Ко-СТЯ — Ки-РИЛ.)

      Deepseek - Коля, Коля, Кирилл

      Mistral - Константин, Коля, Константин

      Qwen 3 235B - Коля все 3 раза (разрывался между Коля и Кеша

      Алиса (yandex gpt?) - Коста все 3 раза

      Gigachat - Касьян, Коля, Коля (пришлось прямо просить ровно 1 вариант, так что попыток было больше, как Кося, Коста)


  1. Dmitri-D
    10.08.2025 00:40

    Всё так. Мы получаем некую сущность, которая оперирует заметно лучше среднего человека с тем, с чем человечество хорошо работает в целом. Наши знания сильно фрагментированы, а LLM выравнивает проблему доступа, поиска, траты времени на изучение. LLM уже изучила за вас. Но если вопрос изучен плохо, или плохо покрыт примерами или изрыт / изрешечен плохими примерами -- результаты будут плачевные. Вы сами сделаете эти же ошибки и сами будете блуждать от ошибки к ошибке. А если нет - поздравляю, вы на острие и, видимо, вам не грозит, что LLM вас заменит в этом году. Что будет в следующем - посмотрим.


    1. Pshir
      10.08.2025 00:40

      вам не грозит, что LLM вас заменит в этом году

      LLM теоретически могут заменить тех, кто пишет тексты (в любом виде). Всем остальным это не грозит, быть «на острие» для этого не обязательно. Для других целей надо создавать другие заменители.


    1. NeonNomad Автор
      10.08.2025 00:40

      тоже как-то так думал, но после того как я посмотрел шахматный турнир между LLM, понял, что никакое количество хороших примеров текста шахматных партий не заменит процесса мышления. LLM будут выдавать ход, в похожих обстоятельствах часто применявшийся, но будет вносить немного шума (даже 1 глупый ход из 20 это вроде как качество 95%, но на практике это глупо проигранная партия), да и похожесть обстоятельств - это очень сомнительная метрика. И вместо выверенной выигрышной партии будет выходить в разных вариациях глупость. Так же и с кодом. Это не значит, что никакой код LLM написать не может, наоборот, очень даже может написать те самые 80% программ, написание которых не требует реального мышления, только применение великолепно зарекомендовавших себя паттернов. Но вот оставшиеся 20% требуют чего-то большего, чем просто LLM, может быть другого типа нейросети, а может быть инструментов типа систем автоматического вывода теорем, модел чекеров, чек листов, абстрактных интерпретаторов, предоставленных LLM, но ясно что сами по себе они тут ничего не смогут


      1. Kanut
        10.08.2025 00:40

        Если посадить LLM играть в шахматы против обычных людей с улицы, то как часто LLM по вашему будут выигрывать?

        Как часто они будут выигрывать у любителей, которые иногда играют в шахматы, но никогда не занимались ими как видом спорта?


        1. NeonNomad Автор
          10.08.2025 00:40

          Сейчас они проигрывают, потому что не могут даже соблюдать правила


        1. Alice_point_py
          10.08.2025 00:40

          Я ниже уже оставляла один комментарий с ссылкой (не знаю насколько можно дублировать ее еще раз, но вот - https://habr.com/ru/companies/meanotek/articles/690668/). Суть в том, что там обучена модель играть на рейтинг 1279 (высчитывалось путем игры с Stockfish по официальной формуле). Такой рейтинг (и ниже) имеют 12 тысяч человек на LiChess, так что такая модель должна выигрывать достаточно часто у любителей без особенной подготовки.


      1. DasMeister
        10.08.2025 00:40

        Нейросетьдавно играет на несколько порядков сильнее любого человека в шахматы. Это решённая проблема и один из механизмов приведших к созданию LLM.

        Задача LLM в целом понятна уже года полтора два и прозрачана. Создать интеллектуальный поисковые алгоритм по общим и специфическим знаниям, для того, чтобы после подборки короткой и (местами) галлюционирующей выборки уточнить сведения.

        Весь этот шум вокруг одного кольца чтобы заменить их всех не стоит и выеденного яйца. До создания AGI программный код не сможет рассуждать. Т.к. в конечном итоге мозг как совокупность принимающая решения и рассуждающая это в первую очередь множественная совокупность нейронных сетей которые могут взаимодействовать.


        1. vadimr
          10.08.2025 00:40

          Нейросетьдавно играет на несколько порядков сильнее любого человека в шахматы

          Не нейросеть.


          1. DasMeister
            10.08.2025 00:40

            Нет, именно нейросеть: https://lczero.org/


            1. vadimr
              10.08.2025 00:40

              AZ has hard-coded rules for setting search hyperparameters.

              Гибридный ИИ. Учили-учили нейросеть, и потом всё-таки поняли, что без онтологии предметной области играет плохо.


              1. DasMeister
                10.08.2025 00:40

                Интересно узнать, что же вы понимаете в плане шахмат под предметной областью.


  1. vadimr
    10.08.2025 00:40

    LLM не может научиться рассуждать, так как работает только с синтаксисом языка, а не с семантической моделью (онтологией) предметной области. Шахматы – классическая задача символического искусственного интеллекта, LLM там рядом не валялась.


    1. acc0unt
      10.08.2025 00:40

      Всю эту чушь про "символьный ИИ" и его лютую необходимость несут лет 30 уже, а воз и ныне там.

      LLM, которые рассуждают не формальной логикой, а образами и высокоуровневыми абстракциями (той самой "семантикой"), как это делают люди - это, наоборот, чёткий шаг в правильном направлении. Задачи, которые решаются дубовым символьным ИИ, решали ещё в 90-х - а LLM решают задачи где нужно именно человекоподобное мышление.

      Научить LLM играть в шахматы тоже, к слову, можно. Просто для этого нужно в обучающие данные сначала запихать ведро шахматных партий, дать затравку reasoning через SFT, а потом "сшить" этот шахматный навык через RLVR с оценкой от шахматного движка.


      1. NeonNomad Автор
        10.08.2025 00:40

        Это поможет им писать лок фри код? Если да то это шаг в нужное направление, если нет - это тупик. Шахматы интересны именно как наглядный пример задачи, требующей мышления, на самом деле конечно нужно чтобы улучшения позволили решать любые подобные задачи а не конкретно шахматы и все


        1. acc0unt
          10.08.2025 00:40

          Примерно так же можно тренировать и под "лок фри код". Просто намного сложнее организовать процесс обучения.

          Именно через RLVR сейчас обучают ИИ писать рабочий код, особенно на "редких" языках. Многопоточный lock-free код к этому близок. Это не "язык", но мешки из мяса очень не любят писать многопоточный код в целом, и lock-free тем более - по понятным причинам. Поэтому примеров этой вакханалии в датасетах очень мало, и нужно выжимать производительность синтетическими задачами и формально верифицируемыми тестами.

          Сама по себе задача "собрать пайплайн для формальной верификации того, что lock-free код работает верно" нетривиальна, поэтому меня не удивляет что никто конкретно этого ещё не сделал.


          1. NeonNomad Автор
            10.08.2025 00:40

            Это способ подтянуть качество в конкретных задачах. Можно, конечно, так все популярные задачи перебрать, и будет точно лучше чем сейчас


            1. acc0unt
              10.08.2025 00:40

              В идеале перебором будет заниматься сам ИИ.

              Сейчас настолько жирно "замкнуть цикл" не удаётся, но работа в этом направлении идёт.


  1. plFlok
    10.08.2025 00:40

    lock-free ещё ладно, не каждый кожаный напишет. Но даже простой многопоточный код - это база, которую должны понимать все.

    Я как-то попросил сетку написать thread-safe код на джаве, и это была катастрофа. Модель ничего вообще ничего не понимает в кешах процессора и соответственно не понимала, что должно быть volatile, а что нет. Лупит это слово в случайном порядке, пишет ужаснейшего качества тесты, и говорит: воть же, тесты на одном однопоточном запуске проходят, значит код thread-safe!

    Конкретную сеть не упоминаю, так как на cursor тестил разные, все болеют одинаково


    1. NeoNN
      10.08.2025 00:40

      Чат гпт пишет хороший многопоточный код с семафорами и конкаррент структурами данных, но надо выверять.


      1. NeonNomad Автор
        10.08.2025 00:40

        Так хороший или надо выверять?


        1. Kealon
          10.08.2025 00:40

          Так за кожаным программистом тоже надо выверять. Годами баги правят потом.


          1. NeonNomad Автор
            10.08.2025 00:40

            Кожаных можно научить и они потом друг за другом сами баги ищут, а с нейросетями это пока работает хуже


            1. Kealon
              10.08.2025 00:40

              т.е., кто-то ставит им задачу "вот баг, правь"? Есть статистика по такому применению?


      1. NeoNN
        10.08.2025 00:40

        Те, кто минусы ставит, могут обосновать? Я уже 15 лет пишу код на C# и реально вижу, что многопоточный код от гпт неплох, часто содержит очень хорошие оптимизации и идеи, может понять сложный контекст применения паттерна, но из-за вероятностной природы построения ответа его все равно надо проверять. Что не так?


        1. NeonNomad Автор
          10.08.2025 00:40

          Минусов не ставил, сам пользуюсь, но результатом не доволен, часто код выглядит так будто все там хорошо, но там все очень плохо, а с многопоточным кодом ведь как: написать его можно за 30 минут, в процессе написания знающий что делает человек не допускает глупых ошибок. А нейросеть допускает, причем неожиданные и чтобы их выявить и исправить может уйти час.


  1. pda0
    10.08.2025 00:40

    По-настоящему жутким выглядит то, что их, при этом, упорно адаптируют к управлению автомобилями. И в ряде мест даже лицензии получены.


    1. vadimr
      10.08.2025 00:40

      Ну не LLM же адаптируют к управлению автомобилем. Не всякая нейросетка одинаково бесполезна.


      1. pda0
        10.08.2025 00:40

        Я ждал такого ответа. Теслы, приниающие настоящую разметку за фальшивую, принимающие нарисованный туннель за настоящий или принимающие знак в кузове впереди идущего автомобиля за реальный, могли бы с вами поспорить. И машины с лидерами не лучше. Там лишь часть проблем замаскирована.


        1. NeonNomad Автор
          10.08.2025 00:40

          Люди, смотрящие в зеркало на себя, отворачивающиеся от дороги чтобы поговорить, написать смс, по статистике вроде страшнее


          1. pda0
            10.08.2025 00:40

            Ну вы так-то молодец, сравниваете худших людей-водителей с лучшими автопилотами.


            1. dizatorr
              10.08.2025 00:40

              Это смотря кого с кем сравнивать, даже худшие автопилоты, лучше худших водителей. А лучшие автопилоты - лучше средних водителей.


  1. IgnatF
    10.08.2025 00:40

    Есть такая книга Охота на электроовец. В прошлом году она вышла. Там как раз про развитие игровых систем есть глава. Про шашки, и шахматы. Как все начиналось. И принципы работы. Так у ИИ принцип работы другой. И он некогда отлично в шахматы играть не будет.


    1. NeonNomad Автор
      10.08.2025 00:40

      Ну мы все хотим general intelligence


  1. GidraVydra
    10.08.2025 00:40

    Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь

    Статей, обсасывающих этот тезис в разных вариациях, на хабре выходит столько, что не могу не щадать вопрос: кого вы пытаетесь убедить?

    Хотелось бы узнать, что такое, по мнению автора, "настоящее размышление". Хорошо хоть не "мышление", а то многие авторы таких статей всерьез думают, что знают, как устроено человеческое мышление. Я вот не знаю, но могу с полной уверенностью утверждать, что упомянутые автором статьи "Анализ состояний", "Проверка инвариантов и "Планирование на несколько шагов вперед" - это не базовые функции человеческого (раз)мышления, а тонкие слои, появившиеся в результате направленного обучения. У "чистого" человека, не прошедшего направленное обучение, например у ребенка, или у выросшего в приммтивном обществе взрослого, этих надстроек не формируется.

    Те LLM, которыми вы пользуетесь - это нейросети общего назначения, их не обучали направленно этим вещам. Пытаться получить хороший lock-free код от ChatGPT это всё равно, что пытаться получить его от условного Вассермана.

    Для создания специалиста нужно качественное узконаправленное обучение специальности, и это одинаково справедливо и для мясных мешков, и для бездушныэ железяк. Представьте себе человека, которого в университете 5 лет учили на мемах, котиках, постах с Реддита, форумах молодых мам , а в середине обучения за 10 минут пролистали перед ним Кнута, дали часик пошариться по stackoverflow и github, а потом ещё часик показывали ему на слайдах простыни индийского кода. Как вы думаете, сможет ли этот человек писать хороший код? Чудо, если вообще хоть какой-то сможет.

    Короче, проблема не в LLM как архитектуре, а в составе и качестве обучающего датасета. Я никогда не трогал специализированных LLM, обученных под программирование, но, по отзывам, они выдают код намного качественнее, чем general purpose LLM, хотя обучались на датасетах несопоставимо более маленьких.


    1. NeonNomad Автор
      10.08.2025 00:40

      А я трогал несколько десятков разных обученных под программирование, а если считать еще разную квантизацию, то счет пойдет на сотни. И долго думал точно так же как вы, но вот пришло понимание, что проблема глубже чем просто плохие датасеты, она именно в том каким способом работает LLM


    1. anshdo
      10.08.2025 00:40

      Вообще-то топовые LLM в первую очередь учили писать именно код, а потом уже всё остальное, т.к. выросли они из функций автодополнения в IDE.


  1. gerashenko
    10.08.2025 00:40

    Зато поиск готовых решений и паттернов они выполняют блестяще. Они очень хорошо сокращают время гугления.

    Наверное, порой они так хорошо маскируются под собеседника, что ошибочно начинаешь полагать, что там есть какая-то здравая логика, но там лишь осведомленность, а не рассуждения.


    1. NeonNomad Автор
      10.08.2025 00:40

      Точно


  1. Alice_point_py
    10.08.2025 00:40

    А меня наоборот удивило, как модель продвинулась вперёд в игре в шахматы по сравнению с GPT-2 той же, которая мат в один ход могла поставить лишь в 0.5% процентов случаев.А сейчас Grok 4 вообще классно играет и может партию до мата довести, что огромный прорыв

    Вообще, попытки понять, может ли ИИ научиться играть в шахматы, делались давно.

    Когда нейросеть начнёт стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуясь фигуры из воздуха — вот тогда можно будет говорить о настоящем прорыве в ИИ.

    Если ставить такие критерии прорыва, то, Grok 4 в целом притендует на этот прорыв (но это в конце турнира видно будет лучше) и есть вот такая статься 2022 года:
    https://habr.com/ru/companies/meanotek/articles/690668/ — где GPT-2 обучена играть на рейтинг 1279, она достаточно хорошо видит доску и играет по правилам.

    Модель проходила обучение не на полной базе доступных партий. Думаю, если заниматься этим вопросом чуть больше времени, можно довести модель до 1400 рейтинга (3 взрослого разряда) +- точно.

    Еще интересный факт. Рейтинг 1279 фактически соответствует уровню 3-2 юношеского разряда в шахматах. Который зарабатывают в турнирах дети 8-10 лет.

    Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс

    Но до настоящего мышления им еще очень далеко.

    Будете ли вы тогда так же уверенно отверждать, что 10-летний мальчик или девочка, тоже не умееют по настоящему мыслить и лишь имитируют мышление?


    1. NeonNomad Автор
      10.08.2025 00:40

      Если речь о том, что большую модель натренировали именно делать хорошие ходы в большом количестве ситуаций то она от этого не начала думать, она стала справочником дебютов и по сути юношеский разряд получил справочник, это чудесно но мне не интересно


      1. Alice_point_py
        10.08.2025 00:40

        Вы ведь наверняка даже не ознакомились с материалом судя по вашему ответу. Модель играет от начала до конца партию, умеет ставить мат и и делать ходы в ситуациях, которых не было в обучающих партиях. Зачем вы здесь заговорили о дебюте я даже понять не могу. Там даже демка есть, где можно сыграть с моделью и проверить, то, что я говорю.


        1. NeonNomad Автор
          10.08.2025 00:40

          Это вполне ожидаемо, с учетом того, как работает обучение нейросетей. Что я увижу в материале такое чего я не ожидаю там увидеть?


          1. Alice_point_py
            10.08.2025 00:40

            "не смотрел, но осуждаю." - что называется.

            Если используется настолько поверхностный подход, то, конечно, обсуждать тут нечего.


            1. NeonNomad Автор
              10.08.2025 00:40

              Я тебе на слово верю что они там отлично играют, а ты меня зачем-то пытаешься заставить что-то посмотреть. Зачем? Я разве что могу перестать тебе верить если окажется что они хуже играют чем ты описываешь. Тебе это нужно или что?


    1. DasMeister
      10.08.2025 00:40

      Дети в 8-10 лет уже гроссмейстерами становятся. Те у кого 1300 в этом возрасте не имеют будущего в шахматах совершенно. Почему это вообще должно быть ориентиром для оценки, если LLM закончат партию (по турнирному кодексу) поражением против кого угодно, сделав 2-3 невозможных хода - решительно не понятно.


  1. Sly_tom_cat
    10.08.2025 00:40

    Ну хоть бы ссылку привели на то эпичное сражение нейронок в шахматы.

    Там словами трудно описать эту феерию - ее надо смотреть что бы понять всю несостоятельность LLM по крайней мере в игре в шахматы.



  1. AndreyDwin
    10.08.2025 00:40

    GPT-5 неплохо играет в шахматы.


  1. Dinxor
    10.08.2025 00:40

    Перебор вариантов, поиск на два шага вперёд... Попросите нейронку перечислить русские существительные, оканчивающиеся на сочетание букв "со" - вот где настоящая жесть. Пока они не научатся отвечать на правильно поставленный вопрос, требующий для ответа всего лишь знание данных и перебора вариантов по ним - это всего лишь имитация троечника на экзамене