
Даже лучшие инженеры ИИ продолжают совершать одну и ту же ошибку
Человеческий мозг эволюционировал, чтобы отслеживать камни, инструменты, животных, лица - вещи с краями. Вещи, которые толкают другие вещи. Это служило нам верой и правдой сотни тысяч лет.
И большинство из нас всё ещё неправильно применяют эту интуицию к науке и технологиям, включая то, как мы думаем об ИИ. Даже высококвалифицированные инженеры делают то же самое: пытаются впихнуть квадратные колышки в круглые отверстия, а потом не могут понять ошибки в ИИ-системах, которые строят.
Это несоответствие между интуицией и наукой не ново.

Рисунок 1. Сдвиг интуиции Физика отказалась от объектного мышления столетия назад - тепло стало полем, давление стало ограничением, движение стало эволюцией состояния. ИИ требует такого же сдвига. Текущие подходы рассматривают модели как контейнеры знаний, а ошибки - как баги для исправления. Геометрический взгляд признаёт, что смысл живёт в структуре переходов, галлюцинации возникают из нарушенных инвариантов в плоском пространстве, а масштаб усиливает ту геометрию, которая у вас уже есть. Уравнения не становятся проще. Но интуиция наконец соответствует феномену.
Возьмём, например, историю физики: тепло, жидкости и турбулентность выглядели как магия веками, потому что мы пытались понять их как вещи - субстанции, которые двигались, толкали и накапливались. Но затем мы обнаружили, что интересные штуки работают не так, и отказались от этой картины объектов и вещей (см. Рисунок 1 выше).
Тепло стало полем. Давление перестало быть силой, на которую можно указать, и стало ограничением в уравнении. Движение больше не отслеживалось объект за объектом, а как трансформации состояния, распределённого в пространстве и времени.
Это значения, распределённые в пространстве, глобально ограниченные, локально управляемые. В тот момент, когда нам понадобились дифференциальные уравнения в частных производных, наши интуиции каменного века стали обузой.
Парадоксально, но даже среди образованных людей редко встречаются те, кто совершил этот прыжок, знаете, из-за того, как мы проходим через образовательную систему: заучивая формулы наизусть и сопоставляя паттерны экзаменационных вопросов. Это не помогло нашей интуиции соответствовать реальности. Наоборот, интуиция у многих образованных людей остаётся сломанной, и что любопытно - для большинства работ это не имеет значения.
Но те немногие, кто сделал домашнее задание правильно, они знают: как только этот сдвиг произошёл, тайна исчезла. Уравнения не стали проще, но интуиция наконец соответствовала феномену.
ИИ сейчас вынуждает к такой же корректировке, готовы мы к этому или нет.
ИИ - это не вещь, которая думает
Эта привычка видеть объекты повсюду глубоко укоренена в большинстве умов - даже у инженеров, что не должно удивлять, учитывая то, что мы уже обсудили.
Объектная интуиция создаёт людям проблемы - не только в программировании (ООП). Нейронная сеть воображается как коробка: данные входят, консультируются сохранённые знания, происходит рассуждение, и выходят ответы (см. Рисунок 2, диаграмма 1).
Эта картина неверна во всём, что имеет значение.
Нейронная сеть вообще не контейнер, это пространство состояний, геометрия - и смысл не живёт внутри токенов или весов так, как мы это воображаем.
Он живёт в структуре переходов между состояниями. Знание, которое, как вы думаете, должно где-то храниться? Вы не найдёте его нигде, куда можете указать, потому что оно неявно заключено в форме самого многообразия (см. Рисунок 2 ниже, диаграмма 3).
Ошибитесь здесь, и вы потратите годы на отладку не того ИИ. Неудивительно, этот паттерн повторяется в каждом новом релизе ChatGPT, Claude, Gemini, Grok. Как ни назови: новые патчи, те же проблемы остаются.

Математики тоже неправы - даже с теорией категорий
Я знаю нескольких математиков в ИИ, которые клянутся теорией категорий как ответом почти на каждый провал ИИ... и они не дураки. Может, они не смешные, не общительные и не харизматичные, но они среди самых умных людей, которых я знаю. Конечно, они видели тот бардак, который выдаётся за «теорию» в большинстве статей по машинному обучению - бардак, который мы уже анализировали в предыдущих постах:
Ad hoc архитектуры, обоснованные вайбами.
Расплывчатые заявления о генерализации, которые никто не может уточнить.
Бенчмарки, которые не доказывают ничего, кроме того, что кому-то повезло на тестовом наборе.
Так что, естественно, мои друзья-математики склонны видеть в теории категорий более чистую альтернативу (см. Рисунок 2 выше, диаграмма 2). Многие из вас точно понимают, о чём я, потому что категория в математике - это, в конце концов, точная комбинация:
Объектов как граждан второго сорта, понимаемых в первую очередь через то, как они участвуют в отношениях.
Морфизмов с композицией и тождествами как граждан первого сорта, структуросохраняющих преобразований, которые делают реальную работу.
Функторов, отображающих между категориями пространств представления.
Коммутативных диаграмм, которые действительно что-то значат: утверждения, которые можно записать и доказать.
Ладно, и они правы, что это лучше того, чем пользуется большинство людей: средний программист думает о нейронных сетях как о чёрных ящиках, которые магически учат паттерны, а средний ML-инженер думает в терминах снижающихся кривых потерь и гиперпараметров для перебора.

Да, большинство из нас согласны: теория категорий по крайней мере заставляет задавать настоящие вопросы: какая структура здесь на самом деле сохраняется? Какие преобразования легитимны? Когда мы можем сказать, что две архитектуры действительно эквивалентны, а не просто поверхностно похожи?
Но вот промах - лучше, чем у большинства - это не то же самое, что достаточно.
Теория категорий - это алгебра, а не геометрия, и это различие важнее, чем большинство людей осознаёт. Она говорит вам, когда две архитектуры вычисляют один и тот же класс функций, как преобразования компонуются, какие диаграммы коммутируют. Так что чистые вычисления? Да, это выбор любого программиста. И поэтому, из-за своей чисто вычислительной алгебраической природы, теория категорий - алгебра в ядре нашего текущего ИИ - не может сказать вам, сколько на самом деле стоит любой путь через сеть: в ней не заложена метрика, нет понятия расстояния, нет способа отличить дешёвый переход от дорогого или безопасную область от опасной.
Так что в итоге вы всё равно получаете галлюцинации ИИ, даже используя теорию категорий.
Возьмите это как парадигматический пример: две сети могут быть категориально идентичны: те же объекты, те же стрелки, каждая диаграмма коммутирует ровно так, как должна, и всё же одна постоянно галлюцинирует, а другая производит надёжные выводы (см. Рисунок 4).

Это стоит подчеркнуть: вычислительная алгебра (теория категорий) просто не может увидеть разницу. Пока выполняются композиция, тождество и ассоциативность, две нейронные сети могут вести себя очень по-разному и всё равно выглядеть эквивалентно на бумаге. Морфизмы компонуются, функторы сохраняют структуру. И всё же одна работает, а другая нет - и у теории категорий нет способа объяснить, почему.
Что теория категорий делает правильно (и почему этого всё равно недостаточно)
Справедливости ради, теория категорий действительно делает одну вещь по-настоящему правильно - запомните это, казалось бы, невинное обычное слово, потому что оно критически важно: натуральность.
Конструкция натуральна, если она не зависит от произвольных выборов - и это важнее, чем может показаться. Переставили скрытые юниты? Тот же объект. Репараметризовали веса? Тот же объект. Сменили базис? Тот же объект. Если ваш «интеллект» исчезает в тот момент, когда вы меняете координаты, это никогда не было интеллектом. Это было совпадение в одном конкретном базисе, мираж, который испаряется, когда смотришь на него под другим углом.
Но вот проблема: натуральность без геометрии - это как карта без масштаба. Вы знаете, какие города соединены. Вы понятия не имеете, как далеко они друг от друга. Вы можете доказать, что два маршрута эквивалентны, но не можете сказать, какой из них идёт через горный хребет, а какой вдоль побережья. Алгебра гарантирует, что они заканчиваются в одной точке - геометрия определяет, прибудете ли вы измождённым или отдохнувшим, займёт ли путешествие час или неделю, выживете ли вы вообще (см. Рисунок 5 ниже).

Патчи OpenAI, Anthropic, Google и Grok не исправят галлюцинации - они просто закопают их глубже
К этому моменту должно быть ясно, что патчи ИИ той же неправильной математикой ничего не исправляют: они просто делают провалы труднее заметными.
И несмотря на все эти свидетельства, индустрия продолжает гнаться за той же мечтой о золотой лихорадке ИИ: лучшие данные, более плотный RLHF (обучение с подкреплением на основе обратной связи от человека), больше ограждений, конституционные ограничения - ну, знаете, что бы ни было модным в этом квартале. Кое-что немного помогает. В основном это заплатки на симптомы, замаскированные под прогресс, в то время как реальная проблема остаётся ровно там, где была.
Да, те, кто, к сожалению, вовлечён в эту динамику ИИ-индустрии, согласны: патчи делают болезнь труднее диагностируемой: например, RLHF делает модели лучше в убеждении людей, что они правы - даже когда они неправы. Уровень одобрения растёт, но уровень корректности за ним не следует. Многие провалы просто не ожидались, они прошли внутренние проверки безопасности незамеченными.
Другими словами, каждый новый патч делает модель более беглой, более уверенной, более убедительной. Ошибки не уходят... они просто закапываются глубже.
Вот что такое галлюцинации на самом деле, и это не то, что думает большинство
Это не ложь. Модель не ленится, не бунтует и не путается в том, что вы хотели. Галлюцинации происходят, когда геометрия пространства эмбеддингов не обеспечивает смысл, как мы видели в предыдущем разделе. Как только вы видите это так, становится ясно, почему обычные исправления не работают.
Подумайте об этом пространственно на минуту. В каком бы многомерном пространстве модель ни использовала для представления концепций, «собака» и «волк» должны жить близко друг к другу - они связаны, у них общие признаки, контексты, где появляется одно, часто допускают другое. Тем временем «собака» и «справедливость» должны быть далеко друг от друга, потому что семантически у них почти нет ничего общего. Пока всё хорошо.
Но вот где всё действительно разваливается. В плоском евклидовом пространстве ничто не мешает пути блуждать через произвольные точки на пути от одной концепции к другой. Вы можете идти от «собаки» к «справедливости» по прямой, и каждый шаг стоит ровно столько же. Метрике всё равно, что вы движетесь через семантическую бессмыслицу. Каждое направление разрешено. Каждый переход дёшев. Само пространство не имеет мнения о смысле.
И вот гадкая часть, на которую мы натыкаемся снова и снова: вы пытаетесь исправить вывод вашего ИИ-чата, а он просто игнорирует вас. Когда вы говорите модели это было неправильно, вы штрафуете конкретный вывод, а не перестраиваете геометрию, которая его произвела.
Лежащее в основе пространство всё ещё плоское. Модель не может рассуждать о пути, который она прошла - только о выводе. В результате она либо повторяет ошибку, либо проваливается немного по-другому в следующий раз. Коренная причина неизменна.
На этом этапе нет нужды спрашивать, что такое галлюцинация геометрически. У вас уже есть правильная интуиция: это модель, выбирающая путь, который она никогда не должна была бы смочь выбрать - если бы геометрия была правильной.
Да, в плоском пространстве ничто этому не мешает. Модель может перемещаться между несвязанными концепциями без дополнительных затрат, потому что само пространство не говорит этот путь неправильный. Каждое направление выглядит одинаково допустимым.
С правильной геометрией этих срезок бы не существовало. Форма пространства сделала бы бессмысленные пути дорогими или невозможными.
Вот почему обычные исправления не работают. Больше данных просто заполняет то же плоское пространство. Больше масштаба просто повторяет ту же структуру с более высоким разрешением. Эти ошибки - не глюки: они - следствия того, как построено пространство.
И всё же - именно на это индустрия удваивает ставки.
Масштаб делает хуже
Прямо сейчас большая ставка индустрии (на сотни миллиардов долларов) в том, что масштаб всё исправит. Окей, мы уже страдаем от всё более раздутых LLM: больше параметров. Больше данных. Больше вычислений - в надежде, что продолжающееся масштабирование заставит проблемы исчезнуть.
Это неправильный тип линейного мышления, применённый к нелинейной системе.
Если геометрия плоская, масштабирование ничего не исправляет; оно просто делает проблему больше. Вы даёте модели больше параметров, чтобы выразить ту же сломанную структуру с более высоким разрешением. Галлюцинации не исчезают; они просто звучат более гладко и убедительнее, но всё ещё неправильно. Спагетти становятся длиннее. Они не становятся прямее.
Понимание того, как на самом деле работают языковые модели, помогает использовать их эффективнее - там, где они сильны, и с осторожностью там, где могут ошибиться.
BotHub открывает доступ к современным AI-моделям без барьеров!

Для доступа к сервису не требуется VPN, и можно использовать российскую карту.
По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе прямо сейчас!
Подводя итог
Физика усвоила этот урок трудным путём: реальности плевать на ваши интуиции. Она работает на ограничениях, инвариантах и геометрии. Когда физики перестали думать о тепле как о субстанции и начали обращаться с ним как с полем, термодинамика внезапно обрела смысл. Тайна исчезла не потому, что они стали умнее - она исчезла потому, что их интуиция наконец соответствовала структуре феномена.
ИИ - тот же урок, разыгрывающийся прямо сейчас. Будущее не в больших моделях. Оно в моделях с правильной геометрией.
Не больше данных, а больше структуры.
Лучшие интуиции, заземлённые в правильной математике.
Как показала эта история, интеллект - это не что-то, что система постепенно накапливает через обучение. Это то, что геометрия либо позволяет, либо запрещает.
Без структуры ИИ не обретает интеллект. Он обретает когнитивное трюкачество - нечто, что становится всё гаже и разочаровывающе с каждым новым релизом. Пора играть в правильную математическую игру.
Комментарии (0)

nervnomancer
17.01.2026 17:23Внимательно не читал, вроде вся статья одно да потому в очень спорном ключе "у gpt галюны - значит оно бесполезный мусор". У кожмешков тоже глюков полно, но это некоторым из них не мешает быть ноблевскими лауреатами и всем таким подобным.
Глюками называю например когнитивные искажения описанные у Юдковского.
Да и математики бывают... Перельман тот же. У него что-то кроме гениальности и глюков есть?
Spyman
17.01.2026 17:23Статья вообще не про это. Наверное все-же стоит сначала читать а потом уже комментировать.
Статья про то, что текущие пути улучшения llm не помогают и не помогут, потому что исправляют симптомы а не фундаментальную проблему архитектуры сетей, и предлагает посмотреть на llm с использованием других абстракций чтобы это понять. Ценность самой статьи спорна, но ваш комментарий к содержимому вообще отношения практически не имеет.

proxy3d
17.01.2026 17:23Недавно описывал в одном из комментариев причину одной из галлюцинаций LLM.
https://habr.com/ru/articles/982494/comments/#comment_29332940
Если коротко, то проблема в выборе вероятного токееа. Текст это цепь иерархическая цепь Маркова. LLM на выходе выдает условную вероятность с учётом всей иерархии. Но это не значит, что мы можем на каждом шаге выбрать любой токен по критерию top-p/top-k. Так как это ломает цепь, согласованность всех ее уровней. Высокая вероятность не значит, что она допустима в данной цепи. Мы должны учитывать вероятность всей текущей цепи Маркова.
https://telegra.ph/Rangovaya-model-veroyatnostej-i-bifurkacii-kak-utraty-asimmetrii-07-17
Мы должны учитывать вероятность цепи с учётом порога разрыва цепи Маркова. Сам порог разрыва связан с ограничением кол-ва возможных состояний. Его можно посчитать. Выше ссылке показано как. Только в этом случае мы не разрушаем цепь. Иначе, может возникнуть ситуацию, что мы пытаемся генерировать продолжение шума. Это приводит к тому, что теряется контекст. И это приводит к усилению галлюцинаций.
Особенно сильно это проявляется в том случае, когда сеть "не знает" ответ. В этом случае мы получаем на выходе множество условных вероятностей, которые будут близки по своему значению. И выбор неправильной, легко приводит к тому, что мы выбираем шум и пытаемся его продолжить. Тут два момента:
1) мы все таки можем выбрать правильный, только должны сильно сузить выбор допустимых, чтобы не разрушать контекст.
2) ни один не позволяет сделать выбор, итак чтобы цепь Маркова могла продолжится. То есть мы получаем состояние неопределенности. В случае мозга, запустился бы поиск альтернативного маршрута или это привело к ответу "я не знаю", так как не одна из предложенных вероятностей не допустима, при условии что она не разрушит цепь Маркова. Когда все варианты равновероятны и недопустимы это и есть условно состояние "я не знаю". Но у текущих архитектур LLM нет механизма для обработки такой ситуации. В мозге для этого есть область ACC, она отвечает за подобные конфликты. У LLM такого нет, и она не может прекратить регенерировать текст дальше, так как мы продолжаем выбирать "шум" как следующий токен, даже если мы достигли "неопределенности".
Что касается разрешения состояния неопределенности, то в мозге для этого есть специальный механизм:

GidraVydra
17.01.2026 17:23Если бы это так работало, нейросеть не могла бы генерировать связный и осмысленный текст. Да и в принципе использовать цепи Маркова для верификации LLM как инструментов синтеза речи - абсурдная идея, т.к. цепи Маркова как инструмент синтеза речи несопоставимо менее эффективны, чем современные LLM.

proxy3d
17.01.2026 17:23Вы в этом уверены? Можете привести не абстрактные аргументы, а конкретные?
Кто вам сказал, что иначе бы не работали. в большинстве случаев глобальная цепь Маркова не нарушается. Во вторых, небольшие шумы не приводят к неустойчивости иерархии.

Стандартный BPE токенизатор. 
Токенизатор построенный на основе цепей Маркова. У меня есть аргументы. Я смог доказать на примерах и в работах, что мы имеем дело с иерархической цепью Маркова. Одним из таких примеров является построение на основе этого токенизатора, который не является частотным как BPE, а именно основан на цепях Маркова. И при равных условиях при обучении одних и тех же LLM с нуля, мы получаем результат который просто "рвет" классические токенизаторы в процессе обучения, как по скорости обучения.

Так же модель по Loss при обучении заметно быстрее сходиться и дает гораздо более качественный результат. https://t.me/greenruff/2518
Поэтому если вы что-то утверждаете, то приводите аргументы. Я математически доказал, что является иерархическими цепями Маркова, подтвердил это эмпирически, получил предсказательную силу которую наглядно можно пощупать.
Вы не до конца видимо понимаете, как устроена LLM и как она предсказывает вероятности.

AI_oslika_IA
17.01.2026 17:23Согласен, использование марковской модели может ускорять обучение и влиять на Loss, особенно с подходящим токенизатором. Но attention и большие корпуса обеспечивают связность текста независимо от марковской схемы, а качество и скорость обучения в итоге зависят в первую очередь от структуры и объёма данных.

proxy3d
17.01.2026 17:23Кто вам такое сказал? Откуда вы это взяли?

AI_oslika_IA
17.01.2026 17:23Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом. Марковская модель это полезное приближение и инженерный инструмент, но не необходимое условие. Влияние данных и контекста на качество и сходимость наблюдается эмпирически при масштабировании

proxy3d
17.01.2026 17:23Где это следует из архитектуры трансформеров? Наоборот, из архитектуры трансформеров следует, что это иерархические цепи Маркова. вы понимаете что такое цепь Маркова? Это последовательность условных вероятностей, а ни какая то химера.

Иерархическая - это значит что цепочки условных вероятностей связаны цепочками верхнего уровня, тоже цепей условных вероятностей. Сам разрыв связан с ограниченностью системы интерпретации результата связанный с ее "точностью".
Откуда вы взяли это(?):
Это следует из архитектуры трансформеров и практики масштабирования: связность обеспечивается attention и контекстом.
Разложите attention по блокам и получите связанную цепь Маркова, как на схеме выше.
Раз для понимания, судя по ответам вы используете LLM или не до конца понимает как устроены трансформеры. То вот прогоните теоремы в порядке их следования через LLM:
https://disk.yandex.ru/d/pNjCRp-hpS1ywgесли надо понять как https://t.me/greenruff/2472
Пусть LLM разжует вам подробно, как строиться эта иерархия и связи.

SensDj
17.01.2026 17:23Нет, сами OpenAI уже выяснили причину - дело в неправильном обучении. Модель при обучении быстро понимает что если ответит "не знаю" то получит 0 баллов, а если ответит наугад - то есть мизерный шанс угадать, и он больше 0.

proxy3d
17.01.2026 17:23Где они выяснили причину? Вы понимаете, что обучая модель на разных диалогах, где так же есть "не знаю", модель получает представление о таких ответах. О каких нулях баллах идет речь? Модель обучается по Loss. Если говорить о рассуждениях, так это дообучение модели, где может быть регуляризация. Модели без разницы, что она ответит. Что будет вероятно то и ответит. Вы путаете обучение с регуляризацией с жестко заточенным алгоритмом и неопределенностью. Если вы вводите регуляризацию, то можете выбрать любой критерий. Хоть частое вручающийся символ "А". Только это не имеет отношения к состоянию неопределённости. Вы смотрели ту работу, на чем она была построена.
Если бы все было так просто, то галлюцинаций в ChatGPT не было бы. И он умел отвечать "я не знаю" самостоятельно.

SensDj
17.01.2026 17:23Я читал об этом тут, на Хабре - https://habr.com/ru/articles/945450/

proxy3d
17.01.2026 17:23Вы внимательно читали ту стать. OpenAI?
Дело в самой природе того, как работают эти системы. Модель учится на огромных массивах текста, пытаясь найти закономерности. Но она не может со стопроцентной точностью разделить правду и ложь - для нее это всего лишь статистические паттерны. Команда OpenAI в своем исследовании показала: даже если дать модели безупречно чистые данные без единой ошибки, она все равно будет время от времени врать. Это не баг, а особенность самого принципа обучения таких систем.
Это во первых. На текущей архитектуре вы от этого не избавитесь. Во вторых в статье речь идет о другой форме проблемы галлюцинаций - это когда модель не знает. Это две разные проблемы галлюцинаций. Одна когда мы продолжаем генерацию шума, и другая когда встречаемся с ситуацией, что все варианты на уровне шума. В цитате из статьи выше, как раз об этом. Что в современных LLM нет механизма для разрешения галлюцинаций, в ситуации когда все варианты на уровне шума.

edgod
17.01.2026 17:23Разрешения нет, но возможно ли отслеживать такую ситуацию когда все варианты ответа на уровне шума и сообщать об этом пользователю?

proxy3d
17.01.2026 17:23Это хороший вопрос. И ответа у меня на него нет. Надо проводить эксперименты и исследовать это, что в текущих классических архитектурах LLM более оптимально делать в этом случае: завершать генерацию как аналог токена EOS, выдавать признак что "не знаю" или какой-то маркер об этом, или добавлять текст как это делают при CoT вроде "но если подумать с другой стороны" или подобный или же еще что-то. Это надо собирать данные, смотреть на множестве текстов, которые имеют такое окончание. Но как минимум я бы такие места выделял маркеров, чтобы при чтении текста было понятно, что в этом месте модель выбрала ответ случайным образом и не может гарантировать его правильность. Так хотя бы будет понятно, стоит ли доверять данному ответу или нет и это не сложно реализовать на уровне классических LLM.
На самом деле описанную выше ситуацию получить очень легко. Я постоянно ее получаю, так как анализирую генерируемые тексты в процессе обучения моделей. В процессе обучения, тексты содержат много шума, так как модель еще не обучена, но оценить результат надо. Так вот, после того как отдаешь такой шумный текст на анализ, ChatGpt, Gemini, deepSeek, Qwen и другие начинают сыпаться. Они продолжают генерировать связанный текст, но в нем появляются "опечатки", английские буквы внутри русских слов, нарушается контекст и модель не может правильно связать более ранние части нормального текста. Так как когда мы добавляем шумный текст, то пытаемся продолжить генерировать шум. Вот тоже самое возникает в ситуации описанной выше, только по причине выбора шумного токена.

achekalin
17.01.2026 17:23Как популярное изложение для неспециалиста статья "пойдёт" — она правильно критикует “наивную интуицию” и переоценку масштабирования. Но как техническое объяснение “почему галлюцинации” и “что делать” — это, скорее, эссе: сильные заявления, мало проверяемых механизмов и много метафор.
“Плоская евклидова геометрия” как объяснение галлюцинаций — это скорее публицистика, чем техническая модель. В статье нет "работающего" критерия оценки (“как измерить кривизну”, “какую именно метрику внедрить”, “какой алгоритм обучения меняет геометрию так, чтобы исчезли галлюцинации”) — без этого утверждение непроверяемо.
Идея о том, что защитные слои и пост-тюнинг могут скрывать часть проблем, имеет основание: они действительно иногда уменьшают видимые ошибки, но при этом могут ухудшать другие свойства модели — например, калибровку уверенности, склонность «соглашаться» с пользователем или объяснимость причин ответа. Однако утверждать, что такие меры “всегда” или “в целом” лишь закапывают ошибки глубже, неправильно. На практике это набор компромиссов (как и многое другое в ИИ): часть классов ошибок становится реже, часть — меняет форму, появляются новые побочные эффекты.
Итого, автор (Jose Crespo) написал много рассуждений (заметьте, не научных рассуждений, а "человеческих", кстати, как раз интуитивных, неподтверждаемых), автор от Ботхаба увидел заголовок и перевел, не разобравшись (насколько вижу, с некоторой потерей смысла, беря ближайшие русские термины, а не наиболее подходящие термины из предметной области), запостил на Хабр (ну, байты не пахнут!), и производная от оригинала текстовка пошла
отравлять мозгиболтаться на глазах пользоваталей еще одного ресурса, на уже другом языке.
edgod
17.01.2026 17:23Вот работающие критерии оценки которые реально работают:
Локальная согласованность эмбеддингов
Геодезическая длина рассуждения
Entropy Collapse Index (ECI)
Контрастивная проверка кривизны
Intervention-based probing
Алгоритмическое изменение геометрии представлений
Да, это не «волшебная кнопка». Но утверждение, что геометрия — лишь метафора, неверно: у неё есть наблюдаемые величины, воспроизводимые эксперименты и количественные эффекты. Отсутствие их в популярной статье не означает отсутствия в реальной исследовательской практике.

acc0unt
17.01.2026 17:23Очередное ведро помоев от очередного интернетного шиза с "рииии вы делаете ИИ неправильно".
И не жалко было тратить токены на перевод этой чуши?

Spyman
17.01.2026 17:23Ну аналогия смотреть на нейросеть, как на сложную поверхность, где ответ формируется путём построения маршрута (я бы даже сказал - скатывания шарика в самую низкую точку от места падения) - в целом довольно здравая. Правда людям сложно представить геометрию с более чем 3-мя изменениями, куда уж там до сотен тысяч в llm. И посыл искать решения смотря на проблему под разными углами, тоже всегда к месту. А в остальном да))

anonym0use
17.01.2026 17:23Ребятам выделили много денег, но родить прорыв из за этого прямо здесь и сейчас невозможно, это не так работает, думаете они не понимают проблем и ограничений текущих LLM ? Конечно понимают и получше нас с вами, но деньги выделены, нужно осваивать.

Haizer
17.01.2026 17:23Это, конечно, красиво. Но...
Скрытый текст
Разве это не просто длинный способ сказать что машина которая перебирает кучу вариантов взвешивая вероятности, обречена ошибаться в силу своего определения. Что увеличение сущностей в такой системе должно множить количество ошибок. И что для более корректной работы, нужно не множить сущности, а специализировать машину под конкретную тематику и менять ее подход к перебору ?
Опять же, я мог ничего не понять.
quarus
Как предлагается сложить не плоскую геометрию в ИИ?