Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ / forpes.ru

Главная
Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ

Из лошади не сделать автомобиль: суровая правда об AGI, которую скрывают создатели ИИ +21

25.02.2026 10:15

cognitronn 29 8400 Источник

В начале проекта он кажется всемогущим демиургом. Но это ощущение проходит быстро и навсегда. Вот математическое доказательство того, почему ИИ никогда не заменит программистов.

У меня для вас две новости: одна хорошая, другая плохая.

Плохая новость: создать AGI на базе текущих LLM-моделей невозможно.

Хорошая новость: если вы являетесь экспертом в области, требующей высоких когнитивных навыков, вам, скорее всего, не грозит увольнение. Разве что Сэм Альтман, Дарио Амодей и Демис Хассабис уже успели проникнуть в голову вашего босса с громкими историями о том, что ИИ заменит каждого сотрудника.

Примечание: Помимо того, что я исследователь искусственного интеллекта, я также профессиональный веб‑разработчик с многолетним опытом работы в аутсорсинговой компании. Эта статья основана на моем личном опыте в данной сфере.

Я постоянно слышу один и тот же рефрен: нынешнее поколение моделей творит чудеса. Вы просите ИИ создать какое‑нибудь приложение, нажимаете «Enter» и идете за кофе. Когда возвращаетесь, все уже готово и отлично работает.

Как всегда — это сильное преувеличение. А порой — и просто фантазия.

Скажу больше: для ИИ, построенного на архитектуре GPT, такой результат недостижим — при условии, что мы говорим о реальном продукте, а не об игрушечной демо‑версии с красивой оберткой.

Я уже много раз объяснял почему, но позвольте мне просто поделиться своими наблюдениями.

Разумеется, я использую ИИ в веб‑разработке. Вот что я успел попробовать: Copilot, Cursor, Gemini Code Assist, Codex и Kilo. Я также пробовал Antigravity от Google, но он оказался излишне «умным». Короче говоря, ему было крайне сложно поддерживать со мной нормальный диалог.

Кстати, о поиске идеального инструмента. Чтобы найти ту самую нейросеть, которая действительно ускорит вашу работу, а не заставит тратить время впустую, полезно иметь доступ к разным моделям.

Сервисы вроде BotHub дают возможность экспериментировать с передовыми ИИ (включая топовые модели для написания кода и анализа) в одном удобном окне.

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Но давайте будем честны.

Конечно, если бы ИИ выдавал исключительно галлюцинации, им бы никто не пользовался. Но нет — во многих случаях он невероятно полезен. Я не собираюсь этого отрицать. Более того, я в полной мере осознаю сложность проблем, которые удалось решить разработчикам LLM. Я снимаю шляпу перед их инженерным гением.

Но.

Этого недостаточно. Мы ведь здесь не ради развлечения, верно? Нам нужны системы, которые будут эффективными, надежными и предсказуемыми.

И именно здесь LLM и генеративный ИИ сталкиваются с фундаментально неразрешимыми проблемами.

Самым надежным инструментом для меня пока остается Gemini Code Assist. Когда я только начал им пользоваться, я был поражен. В первые часы работы над новым проектом это похоже на магию: он работает блестяще. Он быстро пишет код и все объясняет. Его пояснения логичны и связны. Возникает чувство, будто ты разговариваешь не с алгоритмом, а с высококвалифицированным коллегой‑программистом.

Значит ли это, что эра «человеческого программирования» подошла к концу, а AGI находится всего в одном шаге от нас?

Даже близко нет. И вы начинаете понимать это довольно быстро.

Как только ваш проект перерастает масштаб игрушечного примера, «магия» рассеивается. Вы задаете ИИ простой вопрос, и... он «думает». Сначала это терпимо. Иногда пять секунд, иногда десять. Но по мере роста проекта время на раздумья раздувается. Он может висеть минуту, две, пять. В конце концов, вы действительно можете сходить за тем самым кофе, пока он ищет ответ, который человек‑эксперт выдал бы за секунды.

Если вы думаете, что это «баг» или «медленный сервер» — вы ошибаетесь. Это фундаментальный предел технологии и одно из доказательств того, что AGI, построенный на LLM — это не более чем красивая маркетинговая сказка.

Математика против хайпа

Так почему же ИИ начинает так сильно тормозить? Ответ кроется в самой архитектуре трансформеров. Это называется Механизмом внимания (Attention Mechanism).

В начале проекта контекст чист. Но чем дольше вы работаете, тем больше запрос. LLM не помнит ваш код так, как это делает человек; при каждом запросе она перечитывает все нижеперечисленное с нуля:

Историю чата.
Файлы.
Системные инструкции.
Индексы проекта.

Все это превращается в колоссальный массив данных. И вот тут в игру вступает физика: вычислительная сложность растет квадратично (O(n²)) по мере увеличения длины контекста. Увеличьте контекст вдвое — и нагрузка на графические процессоры возрастет в четыре раза. Увеличьте в десять раз — и система начнет пожирать ресурсы, как черная дыра.

Ваш ИИ‑ассистент не размышляет над вашим кодом. Он просто пытается переварить терабайты математических операций, чтобы предсказать следующее слово. Он действует как сущность, запертая в замкнутой когнитивной петле.

Почему мозг программиста — это не «статистический калькулятор»

Это та самая граница, которую евангелисты ИИ отказываются признавать. Между человеком и системой LLM существует фундаментальная разница.

Программист не держит в голове 10 000 строк текста. Он держит в голове смыслы. Он понимает архитектуру, замысел и логику каждого решения. Для ИИ ваш проект — это просто плоская последовательность символов.
Человеческий мозг превосходно отсеивает нерелевантную информацию. А ИИ должен обработать каждый отдельный токен, который ему «скормили» в контексте.
Человек учится в процессе работы, тогда как LLM статична. Она не становится «умнее» от того, что три часа помогала вам с рефакторингом. Она просто сжигает больше энергии.

Ловушка «лошади и автомобиля»

Истинные адепты LLM скажут вам: «Модели станут лучше! Просто подождите GPT-6 или новую версию Gemini».

Это классическое заблуждение. Вы можете бесконечно выводить более быструю и выносливую породу лошадей. Но вы никогда не выведете автомобиль из лошади.

Масштабирование LLM — это путь количественного улучшения статистического предиктора. Но для создания истинного интеллекта (AGI) требуются:

Причинно‑следственное мышление.
Автономная постановка целей.
Долгосрочная память, которая не сжигает электростанцию при каждом запросе.

Неудобная правда

Поначалу ИИ делает вас быстрее. Но в тот момент, когда сложность системы возрастает, скорость работы человека начинает опережать ИИ, который сам себя загнал в тупик. Вы тратите больше времени на составление промптов и ожидание ответа, чем на фактическое написание кода.

Надеюсь, теперь вы понимаете причину моих опасений. Мы строим экономику на инструментах, которые физически не могут масштабироваться соразмерно сложности наших задач. Сегодняшние ИИ‑ассистенты — это мощные статистические зеркала, отражающие наш собственный интеллект. Но не путайте отражение с самим объектом.

Не верьте Сэму Альтману, когда он говорит, что к 2028 году у нас появится ранняя версия AGI.

Хотя... если вам очень хочется — можете верить.

Но этого не произойдет к 2028 году, и любой AGI, который все же появится, будет построен на совершенно иной архитектуре. На какой именно? Думаю, мы узнаем это достаточно скоро.

Комментарии (29)

toh99
25.02.2026 10:27
#29582770
Идеальная интеграция

Кстати, о поиске идеального инструмента

BotHub

Но давайте будем честны

Давайте. Что не так с ботхабом???
1. Wesha
  25.02.2026 10:27
  #29587822
  Что не так с ботхабом???
  
  Задолбал он уже.

bear11
25.02.2026 10:27
#29582780
Пфф.
Причинно-следственное мышление.
Уже есть. Более того, текущая LLМ как раз и выводит из Базы Знаний + Запроса Следствие.

Автономная постановка целей.
Еще как есть. Просто задайте запрос, содержащий "ставьте себе подцели и используйте инструменты для их достижения". Система будет запрашивать информацию у внешних источников-инструментов, перезапускаться с получненными новыми данными.

Долгосрочная память, которая не сжигает электростанцию при каждом запросе.
Кто мешает сбрасывать на диск контекст и сжимать его?

lithium_li
25.02.2026 10:27
#29582786
```
Вот что я успел попробовать: Copilot, Cursor, Gemini Code Assist, Codex и Kilo. Я также пробовал Antigravity от Google
```
без claude code исследование выглядит довольно сомнительным. opus4.6 значительно выше по качеству кода и полезности агента хоть и не без косяков. фактически новый стандарт индустрии на который все ориенитруются
1. arsmerk777
  25.02.2026 10:27
  #29582794
  +++. Как добавить все статьи с ботхабом в банлист?
  1. Vakr
    25.02.2026 10:27
    #29588464
    Подключите ИИ. А в этом вам поможет ...

Abstraction
25.02.2026 10:27
#29582852
Для ИИ ваш проект - это просто плоская последовательность символов.

Неочевидно.
При (до)обучении на данных, было показано что трансформеры могут формировать модель порождающего данные процесса [Li 2022] [Nanda 2023].
Утверждение что этого не может происходить при in-context learning - сильное, оно требует обоснований. Мы уже знаем что модель может строить т.н. task vectors в промежуточных вычислениях - превращать "вопрос о данных" в отдельную внутреннюю сущность [Hendel 2023].

LLM статична. Она не становится «умнее» от того, что три часа помогала вам с рефакторингом.

Но в результате рефакторинга код может принимать форму, более удобную для обработки этой LLM. Совокупная система "текст кода+LLM" не является статичной, то что её "понимание смысла кода" не может улучшаться надо доказывать, это тоже неочевидно.

NKulikov
25.02.2026 10:27
#29583096
вычислительная сложность растет квадратично (O(n²)) по мере увеличения длины контекста. Увеличьте контекст вдвое - и нагрузка на графические процессоры возрастет в четыре раза. Увеличьте в десять раз - и система начнет пожирать ресурсы, как черная дыра.

О, опять паника на счет квадритичной сложности. Я сделаю копи-паст своего прошлого комментария:

1.) State Space Models (SSMs) такие как Mamba2, RWKV уже сейчас дают O(1).

2.) Активно появляются гибридные Mamba-Transformer, Jamba, где не линейная сложность, но сильно не квадричная. И есть открытые модели на ней, например, Jamba 1.5, Nemotron 3, MambaLlama.

3.) Есть куча других технологий, которые убирают квадратичную зависимость. Например, в Qwen3-Next используется Gated DeltaNet + Gated Attention, которые дают линейную зависимость. Есть Sliding Window Attention, которые используются очень давно (Qwen2, Gemma). Multi-Head Latent Attention (MLA), DeepSeek Sparse Attention (DSA) и так далее.

В общем, уже давно большинство не использует "в лоб" алгоритмы с квадратичной сложностью с трансформерами. Ибо иначе не получить окно в 128K-1M, которое есть в современных моделях.

Человеческий мозг превосходно отсеивает нерелевантную информацию. А ИИ должен обработать каждый отдельный токен, который ему «скормили» в контексте.

Разреженное внимание, как раз удаляет "нерелевантную информацию" по мере роста контекста.

Человек учится в процессе работы, тогда как LLM статична. Она не становится «умнее» от того, что три часа помогала вам с рефакторингом. Она просто сжигает больше энергии.

Становится. Как раз за счет формирования контекста, памяти, вспомогательных файлов (разумеется, вам нужно помогать и направлять в эту сторону LLM, а не оно само. Пока). А еще она становится умнее, как бы "сама по себе" по мере выпуска новых моделей, где больше параметров, лучшие алгоритмы, больше данных на тренинге, более активный RL, etc.

Программист не держит в голове 10 000 строк текста. Он держит в голове смыслы. Он понимает архитектуру, замысел и логику каждого решения. Для ИИ ваш проект - это просто плоская последовательность символов.

Так и вам не надо работать с 10000+ строк plain text в LLM. Разбивайте на сервисы, модули, общую архитектуру, планы/схемы и LLM не будет смотреть/анализировать отдельный сервис, пока не решит, что это нужно для решения задачи, которой вы ей поставили.

Значит ли это, что с LLM нельзя работать 1:1, как с живым программистом? Конечно. Требуется так же учиться, адаптироваться и менять подходы. Но тут приходит на помощь ваша аналогия с лошадью и машиной. Не надо в машину пихать сено - лейте в нее масло и бензин ("о, ужас, наши лошади не требовали никакого масло и все работало").

При этом всем, я не говорю, что LLM заменит программистов. Нет конечно. Просто программисты будут заниматься больше другими вещами, как и сейчас никто не пишет все на ассемблере (хотя туда заглядывают иногда в наиболее критичных и сложных случаях).
1. oeditus
  25.02.2026 10:27
  #29584880
  окно в 128K-1M, которое есть в современных моделях
  
  Которое заявлено в некоторых (одной?) современных моделях.
  
  Вы пробовали кормить Gemini на самом супер-пупер-корпоративном тарифе контекстом на миллион? — Я вот пробовал, например.
  1. NKulikov
    25.02.2026 10:27
    #29588744
    Которое заявлено
    
    Ну... Оно не просто заявлено, а оно там действительно есть. Падает ли качество на очень большом контексте? Конечно, как раз из-за разряженного внимания, но, очевидно, что LLM обрабатывают 1M. Для есть даже специальные тесты типа RULER, MRCR v2 и другие. Особенно заметно падение у ранних моделей типа Gemini 2.0, но при этом свежий Claude Opus 4.6 очень хорошо себя показал в 8 Needle Test https://www.anthropic.com/news/claude-opus-4-6.
    
    Посмотреть детали можно тут https://contextarena.ai/
    
    в некоторых (одной?) современных моделях.
    
    Закрытые модели c 1M+: Claude Opus/Sonnet 4.6, Gemini 2.5+, GPT-4.1 (правда в 5+ там 400K), Grok 4.1.
    
    Открытые модели c 1M+: LLama 4, Minimax-M1, Nemotron 3, Qwen3+, etc.
    
    oeditus
    25.02.2026 10:27
    #29588774
    Я человек простой: рекламные буклеты выбрасываю в мусорку, автомобили покупаю только после тест-драйва, джентльменам на слово не верю.
    
    Я задал, вроде, простой вопрос: вы лично пробовали? Для ответа на него достаточно трех нажатий на клавиатуре.
    
    Шляться по интернету и читать результаты фольксваген-тестирования я мог бы и сам, если бы не ценил свое время.
    
    NKulikov
    25.02.2026 10:27
    #29588882
    Я человек простой
    
    Я тоже, но предпочитаю опираться на научный метод в технических вопросах в виде тестирований и экспериментов, которые объективны, воспроизводимы измеряемы и проверяемы, а не "личный опыт" и "ощущения".
    
    RULER, LongBench v2, MRCR, NIAH и прочие - открытые и прозрачные инструменты, созданные разными командами (что минимизирует риски предвзятости), которые измеряют как хорошо LLM работает с большим контекстом (и вообще обрабатывает ли она их). Очень, грубо говоря, путем скармливания ей Nk токенов на вход, а потом запросом на вытащить (обработать) некие данные, которые спрятаны внутри этого контекста.
    
    Вот тут не плохой блог, где про это все рассказывается.
    
    Я задал, вроде, простой вопрос: вы лично пробовали?
    
    Да, пробовал. Работаю с Claude Opus/Sonnet на больших контекстах (когда упирается в лимит и делает компрессию) регулярно. Так же иногда Gemini Pro. В ChatGPT намного меньше (у меня там задачи другие).
    
    Хуже ли работает на большом контексте? Да, хуже. Обрабатывает ли LLM 1M? Да, обрабатывает. Там U-образная кривая - хорошо "помнит" начало и конец, в середине просадка (вот научная статья на эту тему). Нужно/стоит ли пихать моделям 1M? Я считаю, что если это можно избежать, то стоит избегать - качество будет заметно лучше. Но, к сожалению, не всегда получается.
    
    При этом, на Claude 4.6 я ощутил существенное улучшение в своих задачах, но как я писал выше, я не считаю личный опыт доказательством (хотя в данном случае это коррелирует с результатами тестов).
    
    oeditus
    25.02.2026 10:27
    #29589328
    Прикольно: крупные энтерпрайзы тщательно выбирают между Opus и Gemini (потому что на больших контекстных окнах и там и там — такие тарифы, что всегда дешевле договориться с А/Г напрямую, чем платить за API по ценам из каталога), а вы прям с обеими работаете.
    
    Завидую, чё. У меня нет лишних десяти косарей в неделю.
    
    oeditus
    25.02.2026 10:27
    #29589334
    вот научная статья на эту тему
    
    А вас не смутило, что научной статье больше двух лет и авторы говорят про 4К токенов?
    
    NKulikov
    25.02.2026 10:27
    #29589614
    Честно говоря, нет, не смутило. Lost-in-the-middle или positional-bias, в общем-то, хорошо известная всеми история, которая проявляется на любом масштабе и которая изучается, а так же активно разрабатываются способы митигиации этой проблемы (кстати, более-менее успешно).
    
    Но если хотите, вот статья Октября 2025, где есть одно из объяснений причин такого поведения (хотя есть и другие) - Lost in the Middle: An Emergent Property from Information Retrieval Demands in LLMs Или вот еще из 2025 - https://arxiv.org/html/2502.01951v4, https://aclanthology.org/2025.findings-acl.28.pdf, 2024 https://arxiv.org/html/2408.10151v1#A5.F9 и другие.
    
    Но от меня начинает ускользать ваш поинт. Напомню, что изначально я заявил, что в современных моделях с большим контекстом 128K-1M (т.е. большинство передовых и актуальных моделей), как правило не используется механизмы внимания с квадратичной сложностью (потому что иначе сложность слишком высокая и TTFT на этапе prefill улетит в космос), о которых заявлено в статье автора. И да, современные LLM действительно обрабатывают контексты в сотни тысяч и миллионы токенов, а не только заявляют про них, пусть это и приводит к ухудшению "качества работы" по сравнению с запросом с малым контекстом (с этим я ни разу не спорил).
    
    oeditus
    25.02.2026 10:27
    #29589340
    я не считаю личный опыт доказательством
    
    Ну и, чтобы закрыть уже тему полностью: личный опыт, подтверждающий абсурдные рекламные тезисы — не доказательство, зато опровергающий — доказательство.
    
    Если вы посещали среднюю школу, вам об этом должны были классе в десятом рассказать.

Smartor
25.02.2026 10:27
#29583422
То есть, скользящие окна данных, подключаемые слои дистилляции контента, это ещё не изобрели?:) Пишу вам из будущего:)

Zippy
25.02.2026 10:27
#29584046
и любой AGI, который все же появится, будет построен на совершенно иной архитектуре. На какой именно? Думаю, мы узнаем это достаточно скоро

Вот тут очень оптимистично. пока никто понятия не имеет какая архитектура. В лучшем случае продвинутая имитация (эмоций например)