Почему врачам, юристам и аналитикам нельзя доверять ИИ длинные документы / forpes.ru

Главная
Почему врачам, юристам и аналитикам нельзя доверять ИИ длинные документы

Почему врачам, юристам и аналитикам нельзя доверять ИИ длинные документы +15

19.03.2026 17:30

cognitronn 16 9600 Источник

Каждый раз, когда вы взаимодействуете с большой языковой моделью, вы наблюдаете шедевр интеллектуального косплея.

Когда модель выдаёт связный, красиво оформленный, на вид глубокий ответ, это ощущается как чудо. Однако этот результат не является индикатором «понимания» или «рассуждения».

Именно это недопонимание истинной природы инференса LLM питает миф о скором пришествии AGI — универсального искусственного интеллекта.

Но по мере того как разрыв между маркетинговой риторикой и научной реальностью растёт, становится очевидно: мы наблюдаем не зарождение искусственного разума, а отполированную версию стохастического попугая.

Ни обучения, ни мышления, ни логики

Главные действующие лица ИИ-революции — руководители OpenAI, Anthropic, Google — говорят о своих моделях так, будто те обладают проблеском человеческого познания. Они используют слова «обучение», «мышление», «логика» для описания изощрённых методов сопоставления паттернов и генерации статистически правдоподобных результатов. Такой подход делает искажение возможностей продукта неизбежным — а последствия потенциально опасными.

В стремлении выдать желаемое за действительное они без колебаний дают зелёный свет публикациям вроде печально известной «Sparks of Artificial General Intelligence: Early experiments with GPT-4».

Эта статья — хрестоматийный пример подмены понятий. Сотрудники Microsoft Research (Microsoft — крупнейший инвестор OpenAI), написавшие её, попытались представить наблюдения, полученные методами экспериментальной психологии, как доказательства «интеллекта». Они полностью проигнорировали очевидный факт: ChatGPT по определению не может обладать психологией.

Разумеется, работа подверглась жёсткой критике со стороны исследователей, и подобных спекулятивных заявлений от Microsoft Research с тех пор не звучало.

Но руководители ИИ-компаний не считают себя более ответственными, чем их сотрудники. Их мало беспокоит, что они называют статистическую модель генерации текста интеллектуальным агентом. И уж точно их не заботит, что тем самым они продвигают ложный нарратив о технологии, на которую поставили колоссальные деньги.

Ловушка памяти: почему «правильный» ответ не означает понимания

Реальность значительно менее драматична и менее чудесна. То, что мы воспринимаем как «понимание», — это просто обращение модели к огромным объёмам обучающих данных для извлечения заранее существующего ответа, подходящего к запросу. Когда мы просим эти модели анализировать новую, специфическую или сложную информацию, иллюзия начинает рассыпаться.

И здесь раскрывается технология, которая не только ненадёжна, но и в силу своей архитектуры неспособна к тому самому «рассуждению», которое декларируют создатели. Чтобы детально понять, как именно нас вводят в заблуждение, достаточно одного широко обсуждаемого эксперимента.

Представьте, что вы загружаете в модель все семь книг о Гарри Поттере — более миллиона слов — и просите перечислить все упомянутые заклинания. Через некоторое время модель выдаёт безупречный, идеально отформатированный список.

На первый взгляд кажется, что ИИ проделал колоссальную работу по анализу текста. Но действительно ли он прочитал документ?

Экспериментаторы проверили это, внеся крошечное изменение в текст книг: добавили два вымышленных заклинания, которых нет ни в оригинале, ни в интернете. Вписали их органично, в контекст существующих сцен, где персонажи используют магию.

Результат отрезвил: модели не обнаружили добавленных заклинаний. Они вернули стандартные списки из памяти, проигнорировав предоставленный документ. Если вы регулярно пользуетесь ИИ-инструментами, вы, скорее всего, и сами сталкивались с этим эффектом.

Это обнажает базовый механизм имитации интеллекта. Модели не «читают» ваши файлы в человеческом смысле. Вместо этого они опираются на паттерны, зашитые в их веса во время обучения.

Исследование Стэнфорда 2025 года подтвердило: популярные модели запоминают тексты настолько глубоко, что могут воспроизводить их практически дословно, начиная с первого предложения. Когда вы просите ИИ проанализировать контракт или отчёт, с высокой вероятностью он анализирует не ваши данные, а выдаёт статистически вероятный ответ на основе «общих знаний». Это не интеллект — это генерация на основе статистического сходства, замаскированная под когнитивный процесс.

Самое опасное здесь — подача. Модель может оформить результат в виде красивой структурированной таблицы, которая выглядит профессионально и убедительно. У пользователя нет оснований сомневаться в полноте данных — если только он сам не расставил ловушку.

Мы имеем дело с «ловушкой уверенности»: впечатляющее форматирование и уверенный тон ИИ служат фасадом, скрывающим тот факт, что модель просто не увидела того, что было прямо перед ней.

Именно поэтому стоит проверять модели самостоятельно — а не верить маркетинговым заявлениям. Сервисы вроде BotHub дают доступ к ведущим нейросетям — GPT-5.4, Claude 4.6 и другим — в одном интерфейсе. Сравнивайте модели на своих задачах, тестируйте их границы, составляйте собственное мнение.

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Научное доказательство хрупкости: почему размер «иголки» решает всё

Иллюзия понимания окончательно разрушается результатами масштабного исследования 2025 года под названием «Hidden in the Haystack: Smaller Needles are More Difficult for LLMs to Find» — «Спрятано в стоге сена: маленькие иголки труднее для LLM».

Учёные провели более 150 000 контролируемых тестов на 11 ведущих моделях, включая новейшие «рассуждающие» версии, чтобы определить, насколько надёжно ИИ находит конкретные факты в длинных документах. Результаты оказались глубоко тревожными для сторонников LLM.

Выяснилось, что производительность ИИ напрямую зависит от объёма целевой информации. Если искомый ответ — «иголка» — сформулирован кратко и лаконично, вероятность того, что модель его проигнорирует или «нагаллюцинирует» неверный ответ, резко возрастает.

Подлинный интеллект не требует, чтобы ключевой факт занимал несколько страниц текста для того, чтобы быть «замеченным». Но для LLM размер контекста оказался решающим независимым предиктором успеха.

Более того, исследование «Hidden in the Haystack» подтвердило существование феномена, который можно назвать «гниением контекста». Модели демонстрируют выраженную позиционную предвзятость: хорошо обрабатывают информацию в начале документа и приемлемо — в самом конце, но всё, что похоронено в середине длинного текста, получает лишь малую долю их «внимания».

Откуда берётся этот провал в анализе данных? На самом деле это не так уж трудно понять.

Настоящий интеллект оценивает значимость событий в контексте общей модели реальности. Поэтому даже очень краткое или символическое упоминание может указывать на аспект этой реальности, наиболее важный для агента в данной точке пространства и времени. У LLM нет модели реальности.

У LLM вообще нет понятия «реальности». Есть только понятие последовательности слов. Физический мир и временное измерение просто отсутствуют в её контексте.

Эта фундаментальная архитектурная хрупкость делает ИИ ненадёжным инструментом для профессионалов — юристов, врачей, аналитиков, — которые доверяют моделям разбор 300-страничных PDF в поисках критически важных деталей.

Эти данные доказывают: мы имеем дело не с «рассуждением» и уж точно не с «ростками сознания», а с ненадёжным статистическим механизмом, не имеющим отношения к мышлению.

«Интеллект», который «теряет нить» просто потому, что нужный факт оказался в середине текста или был слишком коротким, нельзя назвать «общим интеллектом». Это не временный программный баг, который исправят в следующей версии. Это встроенное ограничение архитектуры трансформеров, делающее их фундаментально ненадёжными для задач, результаты которых должны соответствовать научно обоснованным критериям.

Кто несёт ответственность за дефектный ИИ-продукт?

Пожалуй, самый важный вопрос в этой истории — не технический, а морально-правовой. Руководители ведущих ИИ-лабораторий — OpenAI, Anthropic, Google — не сторонние наблюдатели. Это люди, чья работа по определению должна опираться на всесторонний научный анализ собственного продукта.

Когда Сэм Альтман или Дарио Амодеи говорят о «рассуждающих моделях» и «прорывах в логике», они не просто используют маркетинговые метафоры. Они сознательно искажают природу технологии.

Статья «Hidden in the Haystack» и сотни других исследований находятся в открытом доступе. Невозможно представить, что руководители многомиллиардных корпораций не осведомлены о фундаментальной неспособности трансформеров надёжно обрабатывать информацию в контексте, или о том, что модели обращаются к обучающим данным вместо того, чтобы действительно анализировать предоставленный документ.

Поэтому, когда они продают эти системы юристам, аналитикам и врачам как «интеллектуальных помощников», они продают продукт, который является заведомо дефектным и потенциально опасным.

Многочисленные инциденты, вызванные внутренними проблемами ИИ, задокументированы в нескольких популярных онлайн-базах данных, наиболее авторитетной из которых, пожалуй, является AI Incident Database.

Статистика реальных случаев причинения вреда людям и организациям ставит вопрос о юридических последствиях. Аргумент «мы не понимаем, как это работает» не должен и не может служить правовой защитой в суде. Если научная база доказывает, что технология инференса фундаментально ненадёжна и подвержена «гниению контекста», то агрессивное продвижение её как надёжной — это введение потребителя в заблуждение.

Это манипуляция общественными ожиданиями стоимостью в триллионы долларов.

Итог

Рассказы о скором пришествии AGI — это не научный прогноз, а стратегическая дымовая завеса. Она призвана скрыть тот факт, что нынешний путь развития ИИ упёрся в концептуальный потолок.

А те, кто продолжает утверждать обратное, делают это либо из корыстных побуждений, либо по безответственной небрежности. Рано или поздно им придётся столкнуться с последствиями — и не только репутационными, но и юридическими: за продажу «цифрового змеиного масла» под видом Универсального Искусственного Интеллекта.

Пора перестать называть «пониманием» то, что является лишь высокотехнологичным эхом обучающих данных. И перестать использовать термин «рассуждение» для описания процесса генерации текста.

Эти термины вводят в заблуждение. Прямые последствия — уже сейчас завышенные ожидания от ИИ-агентов. Косвенные и ещё более серьёзные — систематическая дезинформация, отравляющая весь дискурс об ИИ.

Настоящий прогресс начнётся, когда мы признаем: LLM — это полезные, но глубоко ограниченные инструменты сопоставления паттернов. Всё остальное — дорогостоящий интеллектуальный косплей, подпираемый заявлениями тех, кто слишком богат, чтобы признать свою неправоту, и слишком прагматичен, чтобы заботиться о последствиях.

Комментарии (16)

renakdup
19.03.2026 18:33
#29692034
Честно, у меня примерно такой же вывод из практики: пока не начинаешь специально проверять ИИ на длинных документах, кажется, что он реально все понял. А потом выясняется, что модель уверенно отвечает, красиво форматирует, но может тупо пропустить самый важный кусок в середине текста и это уже не мелочь а реальный риск для медицины, права и аналитики и в целом любой сферы

Поэтому для себя давно держу простое правило: ИИ - отличный ускоритель черновой работы или ресерча но не тот инструмент, которому можно без проверки доверить контракт, заключение или большой отчет
1. akod67
  19.03.2026 18:33
  #29692150
  Неплохо бы уточнять, какая модель подразумевается под универсальным "ИИ".
1. aeder
  19.03.2026 18:33
  #29692194
  В том-то и дело, что именно для черновой работы его использовать-то и нельзя.
  
  Нет возможности сказать "а найди-ка косяки в этом документе" - доверять результатам просто опасно.
  
  Ну а о "чистовой" работе вообще без шансов.
  1. renakdup
    19.03.2026 18:33
    #29692248
    Например для кода MVP (черновик) очень хорошо реализовывает, либо ресерч уже существующего проекта на англиз бизнес логики или критических проблем.
  1. northrop
    19.03.2026 18:33
    #29692550
    Нет возможности сказать "а найди-ка косяки в этом документе" - доверять результатам просто опасно.
    
    А что, белковый помогайка реже будет пропускать косяки?
    
    Arhammon
    19.03.2026 18:33
    #29692916
    Белковой помогайки не будет, её зачастую давно нет и без ИИ - раньше в какой-нибудь газете был штат корректоров, материал проверялся самим журналистом(иначе его буду прилюдно отчитывать на ~~ревью~~ планерке) потом, зам редактора, редактором, корректорами. И выход в тираж с одной ошибкой в месте где никто не читает был серьёзным факапом, сейчас - ошибка на первой полосе, ну бывает...
    
    Lizdroz
    19.03.2026 18:33
    #29695872
    Белковый помогайка ошибается из-за усталости, но он понимает контекст реальности. Если в договоре написано "оплата в тугриках", юрист-стажер придет и задаст вопрос, нейронка просто проигнорирует аномалию
1. Lizdroz
  19.03.2026 18:33
  #29695848
  Складно пишет, вот и кажется что все понимает прекрасно, но если попросить его посчитать цифры из таблицы в середине отчета, он с умным видом выдаст рандомное число)
1. Kelbon
  19.03.2026 18:33
  #29701692
  Вам нужно меньше общаться с чатгпт, у вас уже сообщения в его стиле

Arhammon
19.03.2026 18:33
#29692898
Результат отрезвил: модели не обнаружили добавленных заклинаний. Они вернули стандартные списки из памяти, проигнорировав предоставленный документ.

Контрольный эксперимент с Естественным интеллектом даже сделать не получиться - ибо долго и дорого, ну и результат вероятно такой-же будет...

ThinkingFirst
19.03.2026 18:33
#29693322
Работаю с расшифровками встреч — и этот эффект знаком. Саммари получается, выглядит полно. Но модель выделила своё. Для обычного созвона — нормально, потом сама дочитываю. Для кастдева не отдаю вообще: там важно не «о чём речь», а что именно и какими словами.
Это надо читать самой. Бывает что точно помнишь, что человек говорил, а ИИ это не находит и не выдает готовой цитатой – потому что респондент прерывался и возвращался к мысли в другом месте.

Так что все читаю и уже отфильтрованный текст дальше отдаю ИИ для анализа и работы.

Но отмечу: человек тоже не «держит в голове» большие тексты — он ищет, перечитывает, уточняет. Это нормальная работа с информацией. Поэтому вопрос скорее не в «доверять / не доверять», а в типе задачи и возможности перепроверки.
1. Cadett
  19.03.2026 18:33
  #29693956
  Ещё нюанс - человек может засомневаться, исходя из своего нажитого опыта. Например, подумает "да не мог тимлид такое на звонке сказать, это просто не в его стиле". И пойдёт перепроверять запись звонка. А ИИшка таких сомнений испытывать не будет, и спокойно напишет галлюцинацию или свою кривую интерпретацию саммари.
  1. ThinkingFirst
    19.03.2026 18:33
    #29694492
    Да, и ещё один эффект из практики — ИИ путает собеседников, смешивает реплики респондента и интервьюера даже при разметке говорящих. Человек это заметит, потому что помнит контекст. Модель — нет.

Lizdroz
19.03.2026 18:33
#29695814
ИИ отлично делает саммари общих мест, но гарантии точности по специфическим пунктам договора там ноль

ndrewpj
19.03.2026 18:33
#29698960
Потеря памяти в середине длинного кода или документа - известная особенность LLM, но и она решается. В rag можно добавить графовые БД

NNikolay
19.03.2026 18:33
#29704368
На это уже есть интересный ответ - https://arxiv.org/abs/2512.24601. Я не говорю, что это AGI и всякое. Просто нужно рассматривать LLM как инструмент. А критики часто ведут себя как лесорубы с китайской бензопилой.