Даже лучшие инженеры ИИ продолжают совершать одну и ту же ошибку

Человеческий мозг эволюционировал, чтобы отслеживать камни, инструменты, животных, лица - вещи с краями. Вещи, которые толкают другие вещи. Это служило нам верой и правдой сотни тысяч лет.

И большинство из нас всё ещё неправильно применяют эту интуицию к науке и технологиям, включая то, как мы думаем об ИИ. Даже высококвалифицированные инженеры делают то же самое: пытаются впихнуть квадратные колышки в круглые отверстия, а потом не могут понять ошибки в ИИ-системах, которые строят.

Это несоответствие между интуицией и наукой не ново.

Рисунок 1. Сдвиг интуиции Физика отказалась от объектного мышления столетия назад - тепло стало полем, давление стало ограничением, движение стало эволюцией состояния. ИИ требует такого же сдвига. Текущие подходы рассматривают модели как контейнеры знаний, а ошибки - как баги для исправления. Геометрический взгляд признаёт, что смысл живёт в структуре переходов, галлюцинации возникают из нарушенных инвариантов в плоском пространстве, а масштаб усиливает ту геометрию, которая у вас уже есть. Уравнения не становятся проще. Но интуиция наконец соответствует феномену.

Возьмём, например, историю физики: тепло, жидкости и турбулентность выглядели как магия веками, потому что мы пытались понять их как вещи - субстанции, которые двигались, толкали и накапливались. Но затем мы обнаружили, что интересные штуки работают не так, и отказались от этой картины объектов и вещей (см. Рисунок 1 выше).

Тепло стало полем. Давление перестало быть силой, на которую можно указать, и стало ограничением в уравнении. Движение больше не отслеживалось объект за объектом, а как трансформации состояния, распределённого в пространстве и времени.

Это значения, распределённые в пространстве, глобально ограниченные, локально управляемые. В тот момент, когда нам понадобились дифференциальные уравнения в частных производных, наши интуиции каменного века стали обузой.

Парадоксально, но даже среди образованных людей редко встречаются те, кто совершил этот прыжок, знаете, из-за того, как мы проходим через образовательную систему: заучивая формулы наизусть и сопоставляя паттерны экзаменационных вопросов. Это не помогло нашей интуиции соответствовать реальности. Наоборот, интуиция у многих образованных людей остаётся сломанной, и что любопытно - для большинства работ это не имеет значения.

Но те немногие, кто сделал домашнее задание правильно, они знают: как только этот сдвиг произошёл, тайна исчезла. Уравнения не стали проще, но интуиция наконец соответствовала феномену.

ИИ сейчас вынуждает к такой же корректировке, готовы мы к этому или нет.


ИИ - это не вещь, которая думает

Эта привычка видеть объекты повсюду глубоко укоренена в большинстве умов - даже у инженеров, что не должно удивлять, учитывая то, что мы уже обсудили.

Объектная интуиция создаёт людям проблемы - не только в программировании (ООП). Нейронная сеть воображается как коробка: данные входят, консультируются сохранённые знания, происходит рассуждение, и выходят ответы (см. Рисунок 2, диаграмма 1).

Эта картина неверна во всём, что имеет значение.

Нейронная сеть вообще не контейнер, это пространство состояний, геометрия - и смысл не живёт внутри токенов или весов так, как мы это воображаем.

Он живёт в структуре переходов между состояниями. Знание, которое, как вы думаете, должно где-то храниться? Вы не найдёте его нигде, куда можете указать, потому что оно неявно заключено в форме самого многообразия (см. Рисунок 2 ниже, диаграмма 3).

Ошибитесь здесь, и вы потратите годы на отладку не того ИИ. Неудивительно, этот паттерн повторяется в каждом новом релизе ChatGPT, Claude, Gemini, Grok. Как ни назови: новые патчи, те же проблемы остаются.

Рисунок 2. Неправильные интуиции в ИИ Объектный взгляд рассматривает ИИ как коробку, которая хранит факты и выдаёт рассуждения. Полевой взгляд признаёт, что смысл живёт в геометрии переходов состояний - и что ошибки, масштаб и структура неотделимы от этой геометрии.
Рисунок 2. Неправильные интуиции в ИИ Объектный взгляд рассматривает ИИ как коробку, которая хранит факты и выдаёт рассуждения. Полевой взгляд признаёт, что смысл живёт в геометрии переходов состояний - и что ошибки, масштаб и структура неотделимы от этой геометрии.

Математики тоже неправы - даже с теорией категорий

Я знаю нескольких математиков в ИИ, которые клянутся теорией категорий как ответом почти на каждый провал ИИ... и они не дураки. Может, они не смешные, не общительные и не харизматичные, но они среди самых умных людей, которых я знаю. Конечно, они видели тот бардак, который выдаётся за «теорию» в большинстве статей по машинному обучению - бардак, который мы уже анализировали в предыдущих постах:

  • Ad hoc архитектуры, обоснованные вайбами.

  • Расплывчатые заявления о генерализации, которые никто не может уточнить.

  • Бенчмарки, которые не доказывают ничего, кроме того, что кому-то повезло на тестовом наборе.

Так что, естественно, мои друзья-математики склонны видеть в теории категорий более чистую альтернативу (см. Рисунок 2 выше, диаграмма 2). Многие из вас точно понимают, о чём я, потому что категория в математике - это, в конце концов, точная комбинация:

  1. Объектов как граждан второго сорта, понимаемых в первую очередь через то, как они участвуют в отношениях.

  2. Морфизмов с композицией и тождествами как граждан первого сорта, структуросохраняющих преобразований, которые делают реальную работу.

  3. Функторов, отображающих между категориями пространств представления.

  4. Коммутативных диаграмм, которые действительно что-то значат: утверждения, которые можно записать и доказать.

Ладно, и они правы, что это лучше того, чем пользуется большинство людей: средний программист думает о нейронных сетях как о чёрных ящиках, которые магически учат паттерны, а средний ML-инженер думает в терминах снижающихся кривых потерь и гиперпараметров для перебора.

Рисунок 3. Когда эквивалентные пути расходятся Теория категорий предполагает независимость от пути: оба маршрута через коммутативную диаграмму приземляются в одной точке. Голономия нарушает это предположение. В искривлённом пространстве путь, который вы выбираете, меняет то, куда вы прибываете - F(B) и F(B′) не одна и та же точка. Это слепое пятно математиков, применяющих теорию категорий к нейронным сетям: они доказывают алгебраические эквивалентности, игнорируя, что кривизна заставляет «эквивалентные» пути расходиться. Диаграмма не коммутирует (2-й кадр). Модель галлюцинирует. Алгебра этого не предвидела.
Рисунок 3. Когда эквивалентные пути расходятся Теория категорий предполагает независимость от пути: оба маршрута через коммутативную диаграмму приземляются в одной точке. Голономия нарушает это предположение. В искривлённом пространстве путь, который вы выбираете, меняет то, куда вы прибываете - F(B) и F(B′) не одна и та же точка. Это слепое пятно математиков, применяющих теорию категорий к нейронным сетям: они доказывают алгебраические эквивалентности, игнорируя, что кривизна заставляет «эквивалентные» пути расходиться. Диаграмма не коммутирует (2-й кадр). Модель галлюцинирует. Алгебра этого не предвидела.

Да, большинство из нас согласны: теория категорий по крайней мере заставляет задавать настоящие вопросы: какая структура здесь на самом деле сохраняется? Какие преобразования легитимны? Когда мы можем сказать, что две архитектуры действительно эквивалентны, а не просто поверхностно похожи?

Но вот промах - лучше, чем у большинства - это не то же самое, что достаточно.

Теория категорий - это алгебра, а не геометрия, и это различие важнее, чем большинство людей осознаёт. Она говорит вам, когда две архитектуры вычисляют один и тот же класс функций, как преобразования компонуются, какие диаграммы коммутируют. Так что чистые вычисления? Да, это выбор любого программиста. И поэтому, из-за своей чисто вычислительной алгебраической природы, теория категорий - алгебра в ядре нашего текущего ИИ - не может сказать вам, сколько на самом деле стоит любой путь через сеть: в ней не заложена метрика, нет понятия расстояния, нет способа отличить дешёвый переход от дорогого или безопасную область от опасной.

Так что в итоге вы всё равно получаете галлюцинации ИИ, даже используя теорию категорий.

Возьмите это как парадигматический пример: две сети могут быть категориально идентичны: те же объекты, те же стрелки, каждая диаграмма коммутирует ровно так, как должна, и всё же одна постоянно галлюцинирует, а другая производит надёжные выводы (см. Рисунок 4).

Рисунок 4. Та же алгебра. Разная реальность Две сети проходят идентичные алгебраические проверки: обе диаграммы коммутируют, обе сохраняют структуру. Но геометрия раскрывает то, что алгебра не может видеть: у Сети A здоровая кривизна (κ > 0), где пути стоят столько, сколько должны (12 против 14). Сеть B - плоское пространство (κ = 0), где модель выбирает опасно дешёвый путь напрямик (стоимость: 3) прямо через зону семантических коллизий - безопасный путь стоит 847, так что никто его не выбирает. Диаграмма коммутирует. Модель галлюцинирует. Теория категорий не видит противоречия.
Рисунок 4. Та же алгебра. Разная реальность Две сети проходят идентичные алгебраические проверки: обе диаграммы коммутируют, обе сохраняют структуру. Но геометрия раскрывает то, что алгебра не может видеть: у Сети A здоровая кривизна (κ > 0), где пути стоят столько, сколько должны (12 против 14). Сеть B - плоское пространство (κ = 0), где модель выбирает опасно дешёвый путь напрямик (стоимость: 3) прямо через зону семантических коллизий - безопасный путь стоит 847, так что никто его не выбирает. Диаграмма коммутирует. Модель галлюцинирует. Теория категорий не видит противоречия.

Это стоит подчеркнуть: вычислительная алгебра (теория категорий) просто не может увидеть разницу. Пока выполняются композиция, тождество и ассоциативность, две нейронные сети могут вести себя очень по-разному и всё равно выглядеть эквивалентно на бумаге. Морфизмы компонуются, функторы сохраняют структуру. И всё же одна работает, а другая нет - и у теории категорий нет способа объяснить, почему.


Что теория категорий делает правильно (и почему этого всё равно недостаточно)

Справедливости ради, теория категорий действительно делает одну вещь по-настоящему правильно - запомните это, казалось бы, невинное обычное слово, потому что оно критически важно: натуральность.

Конструкция натуральна, если она не зависит от произвольных выборов - и это важнее, чем может показаться. Переставили скрытые юниты? Тот же объект. Репараметризовали веса? Тот же объект. Сменили базис? Тот же объект. Если ваш «интеллект» исчезает в тот момент, когда вы меняете координаты, это никогда не было интеллектом. Это было совпадение в одном конкретном базисе, мираж, который испаряется, когда смотришь на него под другим углом.

Но вот проблема: натуральность без геометрии - это как карта без масштаба. Вы знаете, какие города соединены. Вы понятия не имеете, как далеко они друг от друга. Вы можете доказать, что два маршрута эквивалентны, но не можете сказать, какой из них идёт через горный хребет, а какой вдоль побережья. Алгебра гарантирует, что они заканчиваются в одной точке - геометрия определяет, прибудете ли вы измождённым или отдохнувшим, займёт ли путешествие час или неделю, выживете ли вы вообще (см. Рисунок 5 ниже).

Рисунок 5. Натуральность - хорошее и недостающее Теория категорий гарантирует, что определённые конструкции инвариантны относительно преобразования: переставьте скрытые юниты, смените базис, репараметризуйте веса - тот же объект. Если ваш интеллект исчезает, когда вы меняете координаты, это никогда не было интеллектом. Это действительно ценно. Но натуральность без геометрии - это карта без масштаба. Алгебра говорит вам, что оба маршрута соединяют A и B. Геометрия говорит, что один занимает два дня вдоль побережья, а другой - две недели через смертельные горные перевалы. Та же точка назначения. Очень разное путешествие. Очень разная выживаемость.
Рисунок 5. Натуральность - хорошее и недостающее Теория категорий гарантирует, что определённые конструкции инвариантны относительно преобразования: переставьте скрытые юниты, смените базис, репараметризуйте веса - тот же объект. Если ваш интеллект исчезает, когда вы меняете координаты, это никогда не было интеллектом. Это действительно ценно. Но натуральность без геометрии - это карта без масштаба. Алгебра говорит вам, что оба маршрута соединяют A и B. Геометрия говорит, что один занимает два дня вдоль побережья, а другой - две недели через смертельные горные перевалы. Та же точка назначения. Очень разное путешествие. Очень разная выживаемость.

Патчи OpenAI, Anthropic, Google и Grok не исправят галлюцинации - они просто закопают их глубже

К этому моменту должно быть ясно, что патчи ИИ той же неправильной математикой ничего не исправляют: они просто делают провалы труднее заметными.

И несмотря на все эти свидетельства, индустрия продолжает гнаться за той же мечтой о золотой лихорадке ИИ: лучшие данные, более плотный RLHF (обучение с подкреплением на основе обратной связи от человека), больше ограждений, конституционные ограничения - ну, знаете, что бы ни было модным в этом квартале. Кое-что немного помогает. В основном это заплатки на симптомы, замаскированные под прогресс, в то время как реальная проблема остаётся ровно там, где была.

Да, те, кто, к сожалению, вовлечён в эту динамику ИИ-индустрии, согласны: патчи делают болезнь труднее диагностируемой: например, RLHF делает модели лучше в убеждении людей, что они правы - даже когда они неправы. Уровень одобрения растёт, но уровень корректности за ним не следует. Многие провалы просто не ожидались, они прошли внутренние проверки безопасности незамеченными.

Другими словами, каждый новый патч делает модель более беглой, более уверенной, более убедительной. Ошибки не уходят... они просто закапываются глубже.


Вот что такое галлюцинации на самом деле, и это не то, что думает большинство

Это не ложь. Модель не ленится, не бунтует и не путается в том, что вы хотели. Галлюцинации происходят, когда геометрия пространства эмбеддингов не обеспечивает смысл, как мы видели в предыдущем разделе. Как только вы видите это так, становится ясно, почему обычные исправления не работают.

Подумайте об этом пространственно на минуту. В каком бы многомерном пространстве модель ни использовала для представления концепций, «собака» и «волк» должны жить близко друг к другу - они связаны, у них общие признаки, контексты, где появляется одно, часто допускают другое. Тем временем «собака» и «справедливость» должны быть далеко друг от друга, потому что семантически у них почти нет ничего общего. Пока всё хорошо.

Но вот где всё действительно разваливается. В плоском евклидовом пространстве ничто не мешает пути блуждать через произвольные точки на пути от одной концепции к другой. Вы можете идти от «собаки» к «справедливости» по прямой, и каждый шаг стоит ровно столько же. Метрике всё равно, что вы движетесь через семантическую бессмыслицу. Каждое направление разрешено. Каждый переход дёшев. Само пространство не имеет мнения о смысле.

И вот гадкая часть, на которую мы натыкаемся снова и снова: вы пытаетесь исправить вывод вашего ИИ-чата, а он просто игнорирует вас. Когда вы говорите модели это было неправильно, вы штрафуете конкретный вывод, а не перестраиваете геометрию, которая его произвела.

Лежащее в основе пространство всё ещё плоское. Модель не может рассуждать о пути, который она прошла - только о выводе. В результате она либо повторяет ошибку, либо проваливается немного по-другому в следующий раз. Коренная причина неизменна.

На этом этапе нет нужды спрашивать, что такое галлюцинация геометрически. У вас уже есть правильная интуиция: это модель, выбирающая путь, который она никогда не должна была бы смочь выбрать - если бы геометрия была правильной.

Да, в плоском пространстве ничто этому не мешает. Модель может перемещаться между несвязанными концепциями без дополнительных затрат, потому что само пространство не говорит этот путь неправильный. Каждое направление выглядит одинаково допустимым.

С правильной геометрией этих срезок бы не существовало. Форма пространства сделала бы бессмысленные пути дорогими или невозможными.

Вот почему обычные исправления не работают. Больше данных просто заполняет то же плоское пространство. Больше масштаба просто повторяет ту же структуру с более высоким разрешением. Эти ошибки - не глюки: они - следствия того, как построено пространство.

И всё же - именно на это индустрия удваивает ставки.


Масштаб делает хуже

Прямо сейчас большая ставка индустрии (на сотни миллиардов долларов) в том, что масштаб всё исправит. Окей, мы уже страдаем от всё более раздутых LLM: больше параметров. Больше данных. Больше вычислений - в надежде, что продолжающееся масштабирование заставит проблемы исчезнуть.

Это неправильный тип линейного мышления, применённый к нелинейной системе.

Если геометрия плоская, масштабирование ничего не исправляет; оно просто делает проблему больше. Вы даёте модели больше параметров, чтобы выразить ту же сломанную структуру с более высоким разрешением. Галлюцинации не исчезают; они просто звучат более гладко и убедительнее, но всё ещё неправильно. Спагетти становятся длиннее. Они не становятся прямее.

Понимание того, как на самом деле работают языковые модели, помогает использовать их эффективнее - там, где они сильны, и с осторожностью там, где могут ошибиться.

BotHub открывает доступ к современным AI-моделям без барьеров!

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.

По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе прямо сейчас!


Подводя итог

Физика усвоила этот урок трудным путём: реальности плевать на ваши интуиции. Она работает на ограничениях, инвариантах и геометрии. Когда физики перестали думать о тепле как о субстанции и начали обращаться с ним как с полем, термодинамика внезапно обрела смысл. Тайна исчезла не потому, что они стали умнее - она исчезла потому, что их интуиция наконец соответствовала структуре феномена.

ИИ - тот же урок, разыгрывающийся прямо сейчас. Будущее не в больших моделях. Оно в моделях с правильной геометрией.

Не больше данных, а больше структуры.

Лучшие интуиции, заземлённые в правильной математике.

Как показала эта история, интеллект - это не что-то, что система постепенно накапливает через обучение. Это то, что геометрия либо позволяет, либо запрещает.

Без структуры ИИ не обретает интеллект. Он обретает когнитивное трюкачество - нечто, что становится всё гаже и разочаровывающе с каждым новым релизом. Пора играть в правильную математическую игру.

Комментарии (0)


  1. quarus
    17.01.2026 17:23

    Как предлагается сложить не плоскую геометрию в ИИ?


  1. mrStickens
    17.01.2026 17:23

    Да, дела плохи, мы всё ещё значительно далеки от прорыва


    1. Ainyru
      17.01.2026 17:23

      Чем дальше мы от этого "прорыва", тем лучше наши дела.


  1. nervnomancer
    17.01.2026 17:23

    Внимательно не читал, вроде вся статья одно да потому в очень спорном ключе "у gpt галюны - значит оно бесполезный мусор". У кожмешков тоже глюков полно, но это некоторым из них не мешает быть ноблевскими лауреатами и всем таким подобным.

    Глюками называю например когнитивные искажения описанные у Юдковского.


    Да и математики бывают... Перельман тот же. У него что-то кроме гениальности и глюков есть?


    1. Spyman
      17.01.2026 17:23

      Статья вообще не про это. Наверное все-же стоит сначала читать а потом уже комментировать.

      Статья про то, что текущие пути улучшения llm не помогают и не помогут, потому что исправляют симптомы а не фундаментальную проблему архитектуры сетей, и предлагает посмотреть на llm с использованием других абстракций чтобы это понять. Ценность самой статьи спорна, но ваш комментарий к содержимому вообще отношения практически не имеет.


  1. proxy3d
    17.01.2026 17:23

    Недавно описывал в одном из комментариев причину одной из галлюцинаций LLM.

    https://habr.com/ru/articles/982494/comments/#comment_29332940

    Если коротко, то проблема в выборе вероятного токееа. Текст это цепь иерархическая цепь Маркова. LLM на выходе выдает условную вероятность с учётом всей иерархии. Но это не значит, что мы можем на каждом шаге выбрать любой токен по критерию top-p/top-k. Так как это ломает цепь, согласованность всех ее уровней. Высокая вероятность не значит, что она допустима в данной цепи. Мы должны учитывать вероятность всей текущей цепи Маркова.

    https://telegra.ph/Rangovaya-model-veroyatnostej-i-bifurkacii-kak-utraty-asimmetrii-07-17

    Мы должны учитывать вероятность цепи с учётом порога разрыва цепи Маркова. Сам порог разрыва связан с ограничением кол-ва возможных состояний. Его можно посчитать. Выше ссылке показано как. Только в этом случае мы не разрушаем цепь. Иначе, может возникнуть ситуацию, что мы пытаемся генерировать продолжение шума. Это приводит к тому, что теряется контекст. И это приводит к усилению галлюцинаций.

    Особенно сильно это проявляется в том случае, когда сеть "не знает" ответ. В этом случае мы получаем на выходе множество условных вероятностей, которые будут близки по своему значению. И выбор неправильной, легко приводит к тому, что мы выбираем шум и пытаемся его продолжить. Тут два момента:

    1) мы все таки можем выбрать правильный, только должны сильно сузить выбор допустимых, чтобы не разрушать контекст.

    2) ни один не позволяет сделать выбор, итак чтобы цепь Маркова могла продолжится. То есть мы получаем состояние неопределенности. В случае мозга, запустился бы поиск альтернативного маршрута или это привело к ответу "я не знаю", так как не одна из предложенных вероятностей не допустима, при условии что она не разрушит цепь Маркова. Когда все варианты равновероятны и недопустимы это и есть условно состояние "я не знаю". Но у текущих архитектур LLM нет механизма для обработки такой ситуации. В мозге для этого есть область ACC, она отвечает за подобные конфликты. У LLM такого нет, и она не может прекратить регенерировать текст дальше, так как мы продолжаем выбирать "шум" как следующий токен, даже если мы достигли "неопределенности".

    Что касается разрешения состояния неопределенности, то в мозге для этого есть специальный механизм:

    https://t.me/greenruff/2561


    1. GidraVydra
      17.01.2026 17:23

      Если бы это так работало, нейросеть не могла бы генерировать связный и осмысленный текст. Да и в принципе использовать цепи Маркова для верификации LLM как инструментов синтеза речи - абсурдная идея, т.к. цепи Маркова как инструмент синтеза речи несопоставимо менее эффективны, чем современные LLM.


      1. proxy3d
        17.01.2026 17:23

        Вы в этом уверены? Можете привести не абстрактные аргументы, а конкретные?

        Кто вам сказал, что иначе бы не работали. в большинстве случаев глобальная цепь Маркова не нарушается. Во вторых, небольшие шумы не приводят к неустойчивости иерархии.

        Стандартный BPE токенизатор.
        Стандартный BPE токенизатор.
        Токенизатор построенный на основе цепей Маркова.
        Токенизатор построенный на основе цепей Маркова.

        У меня есть аргументы. Я смог доказать на примерах и в работах, что мы имеем дело с иерархической цепью Маркова. Одним из таких примеров является построение на основе этого токенизатора, который не является частотным как BPE, а именно основан на цепях Маркова. И при равных условиях при обучении одних и тех же LLM с нуля, мы получаем результат который просто "рвет" классические токенизаторы в процессе обучения, как по скорости обучения.

        Так же модель по Loss при обучении заметно быстрее сходиться и дает гораздо более качественный результат. https://t.me/greenruff/2518

        Поэтому если вы что-то утверждаете, то приводите аргументы. Я математически доказал, что является иерархическими цепями Маркова, подтвердил это эмпирически, получил предсказательную силу которую наглядно можно пощупать.

        Вы не до конца видимо понимаете, как устроена LLM и как она предсказывает вероятности.


        1. AI_oslika_IA
          17.01.2026 17:23

          Согласен, использование марковской модели может ускорять обучение и влиять на Loss, особенно с подходящим токенизатором. Но attention и большие корпуса обеспечивают связность текста независимо от марковской схемы, а качество и скорость обучения в итоге зависят в первую очередь от структуры и объёма данных.


          1. proxy3d
            17.01.2026 17:23

            Кто вам такое сказал? Откуда вы это взяли?


            1. AI_oslika_IA
              17.01.2026 17:23

              Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом. Марковская модель это полезное приближение и инженерный инструмент, но не необходимое условие. Влияние данных и контекста на качество и сходимость наблюдается эмпирически при масштабировании


              1. proxy3d
                17.01.2026 17:23

                Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.

                Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".

                Откуда вы взяли это(?):

                Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом. 

                Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.

                Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM:
                https://disk.yandex.ru/d/pNjCRp-hpS1ywg

                если надо понять как https://t.me/greenruff/2472

                Пусть LLM разжует вам подробно, как строиться эта иерархия и связи.


                1. AI_oslika_IA
                  17.01.2026 17:23

                  Мы говорим об одном и том же, но разными словами.


    1. SensDj
      17.01.2026 17:23

      Нет, сами OpenAI уже выяснили причину - дело в неправильном обучении. Модель при обучении быстро понимает что если ответит "не знаю" то получит 0 баллов, а если ответит наугад - то есть мизерный шанс угадать, и он больше 0.


      1. proxy3d
        17.01.2026 17:23

        Где они выяснили причину? Вы понимаете, что обучая модель на разных диалогах, где так же есть "не знаю", модель получает представление о таких ответах. О каких нулях баллах идет речь? Модель обучается по Loss. Если говорить о рассуждениях, так это дообучение модели, где может быть регуляризация. Модели без разницы, что она ответит. Что будет вероятно то и ответит. Вы путаете обучение с регуляризацией с жестко заточенным алгоритмом и неопределенностью. Если вы вводите регуляризацию, то можете выбрать любой критерий. Хоть частое вручающийся символ "А". Только это не имеет отношения к состоянию неопределённости. Вы смотрели ту работу, на чем она была построена.

        Если бы все было так просто, то галлюцинаций в ChatGPT не было бы. И он умел отвечать "я не знаю" самостоятельно.


        1. SensDj
          17.01.2026 17:23

          Я читал об этом тут, на Хабре - https://habr.com/ru/articles/945450/


          1. proxy3d
            17.01.2026 17:23

            Вы внимательно читали ту стать. OpenAI?

            Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь - для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.

            Это во первых. На текущей архитектуре вы от этого не избавитесь. Во вторых в статье речь идет о другой форме проблемы галлюцинаций - это когда модель не знает. Это две разные проблемы галлюцинаций. Одна когда мы продолжаем генерацию шума, и другая когда встречаемся с ситуацией, что все варианты на уровне шума. В цитате из статьи выше, как раз об этом. Что в современных LLM нет механизма для разрешения галлюцинаций, в ситуации когда все варианты на уровне шума.


            1. edgod
              17.01.2026 17:23

              Разрешения нет, но возможно ли отслеживать такую ситуацию когда все варианты ответа на уровне шума и сообщать об этом пользователю?


              1. proxy3d
                17.01.2026 17:23

                Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.

                На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.


  1. achekalin
    17.01.2026 17:23

    Как популярное изложение для неспециалиста статья "пойдёт" — она правильно критикует “наивную интуицию” и переоценку масштабирования. Но как техническое объяснение “почему галлюцинации” и “что делать” — это, скорее, эссе: сильные заявления, мало проверяемых механизмов и много метафор.

    “Плоская евклидова геометрия” как объяснение галлюцинаций — это скорее публицистика, чем техническая модель. В статье нет "работающего" критерия оценки (“как измерить кривизну”, “какую именно метрику внедрить”, “какой алгоритм обучения меняет геометрию так, чтобы исчезли галлюцинации”) — без этого утверждение непроверяемо.

    Идея о том, что защитные слои и пост-тюнинг могут скрывать часть проблем, имеет основание: они действительно иногда уменьшают видимые ошибки, но при этом могут ухудшать другие свойства модели — например, калибровку уверенности, склонность «соглашаться» с пользователем или объяснимость причин ответа. Однако утверждать, что такие меры “всегда” или “в целом” лишь закапывают ошибки глубже, неправильно. На практике это набор компромиссов (как и многое другое в ИИ): часть классов ошибок становится реже, часть — меняет форму, появляются новые побочные эффекты.

    Итого, автор (Jose Crespo) написал много рассуждений (заметьте, не научных рассуждений, а "человеческих", кстати, как раз интуитивных, неподтверждаемых), автор от Ботхаба увидел заголовок и перевел, не разобравшись (насколько вижу, с некоторой потерей смысла, беря ближайшие русские термины, а не наиболее подходящие термины из предметной области), запостил на Хабр (ну, байты не пахнут!), и производная от оригинала текстовка пошла отравлять мозги болтаться на глазах пользоваталей еще одного ресурса, на уже другом языке.


    1. edgod
      17.01.2026 17:23

      Вот работающие критерии оценки которые реально работают:

      • Локальная согласованность эмбеддингов

      • Геодезическая длина рассуждения

      • Entropy Collapse Index (ECI)

      • Контрастивная проверка кривизны

      • Intervention-based probing

      • Алгоритмическое изменение геометрии представлений

      Да, это не «волшебная кнопка». Но утверждение, что геометрия — лишь метафора, неверно: у неё есть наблюдаемые величины, воспроизводимые эксперименты и количественные эффекты. Отсутствие их в популярной статье не означает отсутствия в реальной исследовательской практике.


  1. acc0unt
    17.01.2026 17:23

    Очередное ведро помоев от очередного интернетного шиза с "рииии вы делаете ИИ неправильно".

    И не жалко было тратить токены на перевод этой чуши?


    1. Spyman
      17.01.2026 17:23

      Ну аналогия смотреть на нейросеть, как на сложную поверхность, где ответ формируется путём построения маршрута (я бы даже сказал - скатывания шарика в самую низкую точку от места падения) - в целом довольно здравая. Правда людям сложно представить геометрию с более чем 3-мя изменениями, куда уж там до сотен тысяч в llm. И посыл искать решения смотря на проблему под разными углами, тоже всегда к месту. А в остальном да))


  1. anonym0use
    17.01.2026 17:23

    Ребятам выделили много денег, но родить прорыв из за этого прямо здесь и сейчас невозможно, это не так работает, думаете они не понимают проблем и ограничений текущих LLM ? Конечно понимают и получше нас с вами, но деньги выделены, нужно осваивать.


  1. Haizer
    17.01.2026 17:23

    Это, конечно, красиво. Но...

    Скрытый текст

    Разве это не просто длинный способ сказать что машина которая перебирает кучу вариантов взвешивая вероятности, обречена ошибаться в силу своего определения. Что увеличение сущностей в такой системе должно множить количество ошибок. И что для более корректной работы, нужно не множить сущности, а специализировать машину под конкретную тематику и менять ее подход к перебору ?

    Опять же, я мог ничего не понять.