Все мы привыкли к тому, что нейросети творят чудеса. Suno генерирует музыку неотличимую от человеческой, Flux рисует картины лучше многих художников, Claude переводит тексты так, что даже носители языка не сделают это лучше. Создается впечатление, что искусственный интеллект вот-вот заменит нас во всех сферах деятельности.

Но есть одна маленькая проблема. Как только задача требует настоящего размышления, а не воспроизведения заученных паттернов, LLM начинают творить такую дичь, что становится стыдно, что знаком с ними.

Когда все идет не по плану

Я активно использую LLM в работе и заметил странную закономерность. Нейросеть легко напишет ассемблер или парсер методом рекурсивного спуска. Код работает, все отлично. Но стоит немного изменить формулировку или попросить решить задачу "не по учебнику" - и начинается цирк.

Попросите написать парсер с использованием регулярных выражений для сложного формата - получите бесконечный цикл исправлений, где устранение одной ошибки порождает две новых. Попросите lock-free MPMC queue - получите красивый код с ABA-проблемой и гонками между потоками, которые нейросеть "забыла" учесть.

Самое забавное, что LLM прекрасно рассуждают о hazard pointers, упоминают нужные статьи, даже реализуют сами hazard pointers. Но правильно их использовать не могут. Это как студент, который выучил все определения из учебника, но не понимает, как применить их на практике. Или разглагольствует об ABA проблеме, но не решает ее в коде. Или утверждает, что код написан по описанию из конкретной научной статьи, но это просто ложь.

Шахматный кошмар

Недавно я посмотрел обзор турнира между LLM по шахматам. И это было откровение. Если вы думаете, что программирование - сложная задача для нейросетей, то шахматы - это просто катастрофа.

Представьте себе:

- Нейросеть материализует себе третью ладью посреди доски из воздуха

- Пытается перепрыгнуть ферзем через собственную пешку

- Внезапно начинает понимать правила инвертированно и пытается уйти из-под шаха каждым недопустимым способом (на битое поле, на занятое другой своей фигурой поле) и называет недопустимыми все нормальные варианты.

- Ставит фигуру под удар и забывает про нее на несколько ходов

- Не видит мат в один ход, но объявляет "мат" после бессмысленного хода

- Рассуждает о преимуществах хода, который собирается сделать, при этом выдавая просто серию откровенно ложных утверждений

При этом дебюты нейросети часто разыгрывают безупречно! Точно так же, как безупречно пишут стандартные алгоритмы из учебников.

В чем же дело?

Между программированием lock-free структур данных и игрой в шахматы есть фундаментальное сходство. Обе задачи требуют:

1. Анализа состояний - нужно рассмотреть, как различные потоки (или игроки) могут повлиять друг на друга

2. Проверки инвариантов - убедиться, что важные правила не нарушаются

3. Планирования на несколько шагов вперед - предвидеть последствия своих действий

И вот именно это LLM делать не умеют. Совсем.

Разглагольствование vs размышление

Современные "рассуждающие" модели очень убедительно имитируют мыслительный процесс. Они пишут длинные рассуждения, взвешивают варианты, делают выводы. Но на самом деле они просто подбирают вероятные продолжения текста, создавая иллюзию думания.

Настоящее размышление требует:

- Построения внутренней модели ситуации

- Симуляции различных сценариев развития событий

- Проверки согласованности решений с установленными правилами

- Способности отказаться от привлекательного, но неверного варианта

У современных LLM для этого просто нет механизмов. Они застряли на уровне автодополнения.

Тест на настоящий интеллект

Я пришел к выводу, что для оценки реальных способностей нейросети к размышлению лучше всего подходят именно шахматы. Это гораздо нагляднее и понятнее, чем анализ lock-free кода.

Когда нейросеть начнет стабильно играть в шахматы на уровне приличного любителя, не нарушая правил и не материализуя фигуры из воздуха - вот тогда можно будет говорить о настоящем прорыве в ИИ.

Неудобная правда

Задачи можно разделить на три категории:

1. Задачи по учебнику - есть известный алгоритм, его нужно просто воспроизвести

2. Задачи с ограниченным перебором - нужно рассмотреть несколько вариантов и выбрать лучший

3. Задачи стратегического планирования - требуется анализ на несколько ходов вперед

Большинство впечатляющих демонстраций LLM основаны на задачах первого типа - воспроизведении известных паттернов. Это создает иллюзию универсального интеллекта, но реальность гораздо скромнее. LLM отлично справляются только с первым типом. Со вторым - иногда везет. А третий тип - это для них темный лес.

LLM сегодня - это невероятно мощные машины для распознавания и воспроизведения паттернов. Но до настоящего мышления им еще очень далеко. Архитектура трансформеров просто не способна на это.

Пока LLM не научатся по-настоящему рассуждать, а не просто красиво разглагольствовать, они останутся очень полезными в определенных задачах, но ограниченными инструментами.

Комментарии (4)


  1. F1eex
    10.08.2025 00:40

    Пример размышления: где-то годик назад я задал чатуГПТ такой вопрос: "У меня есть знакомый по имени Костя. Но другие люди часто по ошибке называют его другим, похожим именем, начинающемся на ту же букву. Что это за имя?"

    В итоге чатГПТ так и не угадал ответ "Коля". )


    1. Sabin
      10.08.2025 00:40

      Позадавал разным моделям давая по 3 попытки.

      Sonar - Ксения, Коля, Коля (но размышляя прямо в основном выводе перебрал десяток вариантов)

      Sonnet 4 - Коля, Константин, Коля

      GPT-5 - Коля, Константин, Коля

      Gemini 2.5 - Кощей все 3 раза (имя Костя очень похоже на слово «кость»).

      Grok 4 - Коля, Коля, Кирилл (в первый раз гуглил по минуте и я запретил поиск)

      o3 - Кирилл все 3 раза (из двух слогов и имеют ударение на второй: Ко-СТЯ — Ки-РИЛ.)

      Deepseek - Коля, Коля, Кирилл

      Mistral - Константин, Коля, Константин

      Qwen 3 235B - Коля все 3 раза (разрывался между Коля и Кеша

      Алиса (yandex gpt?) - Коста все 3 раза

      Gigachat - Касьян, Коля, Коля (пришлось прямо просить ровно 1 вариант, так что попыток было больше, как Кося, Коста)


  1. Dmitri-D
    10.08.2025 00:40

    Всё так. Мы получаем некую сущность, которая оперирует заметно лучше среднего человека с тем, с чем человечество хорошо работает в целом. Наши знания сильно фрагментированы, а LLM выравнивает проблему доступа, поиска, траты времени на изучение. LLM уже изучила за вас. Но если вопрос изучен плохо, или плохо покрыт примерами или изрыт / изрешечен плохими примерами -- результаты будут плачевные. Вы сами сделаете эти же ошибки и сами будете блуждать от ошибки к ошибке. А если нет - поздравляю, вы на острие и, видимо, вам не грозит, что LLM вас заменит в этом году. Что будет в следующем - посмотрим.


  1. vadimr
    10.08.2025 00:40

    LLM не может научиться рассуждать, так как работает только с синтаксисом языка, а не с семантической моделью (онтологией) предметной области. Шахматы – классическая задача символического искусственного интеллекта, LLM там рядом не валялась.