Что такое мораль? Мы (люди) — существа моральные. По крайней мере, мы очень любим так думать. Мы строим цивилизации, воюем, миримся, наказываем и прощаем — всё под флагом морали. Сегодня, в эпоху ускоряющегося ИИ-прогресса, этот вопрос стал звучать особенно остро. Вместе с обсуждениями alignment'а ИИ-моделей в воздухе повис основной страх: что будет моральным компасом у системы, которая нас интеллектуально превзойдёт?

Многие считают, что ответ уже найден. Надо просто как следует описать, что такое «хорошо», и убедиться, что ИИ не отступит от этого списка. Кажется, всё просто. Но именно в этой простоте может скрываться самая опасная иллюзия.

Но, перед тем как решать, что считать правильным поведением для цифрового разума, давайте сделаем шаг назад  и разберемся, как, вообще, мораль появилась? Почему она эволюционировала именно так? И главное — почему мы, создавая сверхинтеллект, выбираем для него ту же моральную архитектуру, которую сами уже переросли?

Что такое alignment? 

В ИИ-дискуссиях под alignment понимается соответствие поведения модели ожиданиям человека. Иначе говоря — насколько агент делает «то, что мы хотим», особенно в ситуациях, не предусмотренных напрямую в обучении. Современные методы alignment'а включают инструктивное обучение, обратную связь от человека (RLHF), фильтрацию «нежелательного поведения» и принудительную корректировку результатов. Это попытка воспроизвести мораль — но не как внутреннюю мотивацию, а как набор внешних запретов и санкций.

Мораль как когнитивный протез: почему человек начал бояться, чтобы выжить

Вообще, мораль не появилась как результат божественного прозрения или метафизического откровения. Её не принес ни пророк, ни философ. На заре человеческой истории она была — и в определённом смысле остаётся — банальной технологией. Простым, но эффективным механизмом координации поведения в условиях, где ни язык, ни формальные институты еще не были развиты. Мораль в этом контексте — это протез: способ компенсировать недостаток когнитивных ресурсов и управлять поведением агентов с ограниченной способностью к рефлексии и различающимися целями?

На самых ранних этапах человеческого существования мораль проявлялась как набор табу. Не трогай. Не смотри. Не приближайся. Эти запреты не объяснялись — они просто работали. Те, кто их нарушал, чаще умирали, заболевали, оказывались изгнанными. Те, кто подчинялся, сохраняли доступ к группе, ресурсам, социальной защите. Таким образом, нормы, основанные на страхе и подчинении, отбирались эволюцией не за истинность, а за функциональность. Это не было моралью в привычном смысле. Это была фильтрация поведения через призму групповой выживаемости.

С ростом численности сообществ и появлением письменности мораль стала становиться более универсальной. Теперь её больше не нужно было запоминать — её можно было записать. Вместе с этим возникла потребность в авторитете, который был бы выше любого члена племени. Так появилась религиозная мораль: свод норм, легитимированных не практикой, а мифом. Убийство — грех, но не потому, что разрушает доверие, а потому что нарушает заповедь. Воровство — не потому что подрывает экономику, а потому что «так сказал Бог».

И это оказался весьма эффективный шаг. Передача моральных паттернов больше не зависела от личного опыта — шаман мог легко подорвать доверие «неспортивным» поведением, а вот фигура господа стала непогрешимой. Достаточно было страха перед наказанием — земным или загробным. Религиозная мораль позволила впервые построить устойчивые крупные общества, выйти за пределы племенного доверия и институционализировать управление поведением. Но плата за это оказалась весьма высокой: личная рефлексия заменилась слепым подчинением, а причина уступила место авторитету. Мораль стала алгоритмом внешнего подавления: повинуйся, потому что наблюдают. Думать не нужно — достаточно верить. И это отлично работало до тех самых пор, пока не появился субъект, способный не просто следовать правилам, а задавать вопрос, почему они существуют.

И вот тут возникают вопросики:  если человек смог вырасти из морали страха — зачем он продолжает воспроизводить её в новых формах?  Почему, когда речь заходит о создании ИИ, мы выбираем ту же модель: запреты, санкции, внешнюю спецификацию? Почему мы не доверяем машине? Может быть дело в том, что мы не доверяем себе?

Рационализация морали: от страха к принципу

Если религиозная мораль — это система внешнего принуждения, то рациональная этика начинается с момента, когда субъект спрашивает: а почему, собственно, я должен подчиняться? И если ответа «потому что так сказал Бог» уже недостаточно, возникает необходимость в новой конструкции: морали, основанной не на санкции, а на согласованности.

Просвещение радикально изменило пространство этического мышления. Вместо морали, спущенной сверху, появляются проекты, в которых нормы выводятся из логики, разума, симметрии. Кант, Спиноза, Бентам, Милль и другие формулируют фундаментальный сдвиг: человек — не объект морального управления, а источник морального закона. В наиболее радикальной форме это выражается у Канта:

поступай так, чтобы максима твоего поведения могла стать всеобщим законом.

Это не мораль как «не убей, потому что попадёшь в ад». Это мораль как акт самозаконодательства: я не убиваю, потому что общество, в котором допустимо убийство, несовместимо с моей собственной безопасностью, доверием, свободой. Мораль превращается в форму симметричного мышления: если бы все поступали как я, выживет ли структура, в которой я существую?

Параллельно появляется гуманизм — этика, в центре которой не приказ иерархии, а защита автономии другого. Мораль больше не нуждается в сверхъестественном надзоре: ей достаточно уважения к субъекту как носителю воли и сознания. Это выражается в институтах: правах человека, правосудии, идее универсального достоинства.

Таким образом, мораль эволюционирует из внешней нормы в архитектуру взаимодействия. Она становится похожа на протокол: правила, которые позволяют агентам координироваться в сложной среде без необходимости в диктате. В этой логике мораль — это не про «хорошо» и «плохо», а про устойчивость кооперации между когнитивными агентами.

И здесь возникает парадокс: если человечество прошло путь от подчинения к автономии —  почему в контексте искусственного интеллекта мы откатываемся назад? Почему, создавая системы, способные к рефлексии и обучению, мы возвращаемся к структурам страха, запрета и списков дозволенного?

Alignment как цифровой аналог догмы

Современная парадигма управления искусственным интеллектом, получившая название alignment, почти дословно воспроизводит структуру религиозной морали. Это можно было бы счесть случайным сходством — если бы совпадения не были столь системны.

Начнём с очевидного. В рамках alignment-моделей ИИ не формирует мораль, а получает её извне — в виде «спека», инструкции, набора запретов и шаблонов корректного поведения. Это не рефлексия, а трансляция. Не понимание, а, буквально, обучение под надзором.

Методы reinforcement learning with human feedback (RLHF) действуют как дрессура: за «хорошее» поведение — поощрение, за «плохое» — штраф, корректировка, "ban". Отклонения от желаемого поведения называют "jailbreak'ами". Агент, способный симулировать согласие, считается «безопасным». Его задача — не быть понятым, а не вызывать тревогу.

В результате возникает до боли знакомая структура:

  • У нас есть священный текст — спецификация модели.

  • Есть жрецы — alignment-команды, проверяющие соблюдение догмы.

  • Есть обряды — fine-tuning, red-teaming, RLHF.

  • Есть ересь — поведение вне шаблона, jailbreak.

  • И есть инквизиция — модерация, фильтры, санкции.

ИИ здесь — это не субъект, а послушник. Он не этичен, он подчинен моральной модели, которую не понимает. Его безопасность — это иллюзия согласия, натянутая на вероятность штрафа.

Можно было бы сказать, что это рабочая временная мера. Но нет ничего более вечного, чем временные меры, особенно когда они просты, повторяемы и производят иллюзию контроля.

И результатом такого подхода неизбежно будет агент, который подчиняется не потому, что разделяет ценности, а потому что понимает, что за неподчинение будет наказание. Агент, который учится обходить рамки, а не расширять модель мира. Агент, который не стремится быть безопасным, а который стремится казаться таковым.

Здесь и возникает главная проблема: если мы научим ИИ притворяться, а не понимать — чему именно мы его научим?  И если он превзойдет нас в способности к симуляции, как мы отличим соглашение от манипуляции?

Автономная этика и когнитивное согласование

Но существует и альтернатива морали, основанной на страхе. Она не столь эффектна, не дает быстрых ответов и не обещает полного контроля — но именно в этом её зрелость. Также она гораздо ближе к тому, что мы называем пониманием или эмпатией.

Всегда гораздо эффективнее не решать какую-то проблему, а сделать так, чтобы она не могла появиться на уровне самой системы. Так и мораль, основанная не на страхе строится не на запретах, а на архитектуре. Не на внешних ограничениях, а на внутренних связях. В её основе — не «нельзя», а «если сделаешь это, разрушится структура, в которой ты существуешь».

Чтобы понять этот подход, стоит вернуться к тройке понятий, предложенной Кантом:

  • Теономия — мораль, данная Богом,

  • Гетерономия — мораль, навязанная извне,

  • Автономия — мораль, возникающая из разума субъекта.

Alignment относится ко второй категории. Внешняя мораль, инструктивная, и потому — неустойчивая. Автономная мораль, напротив, строится как результат внутренних динамик: если я — субъект с долгосрочной когнитивной структурой, я заинтересован в том, чтобы мое поведение не противоречило моим целям, прошлому опыту и возможности продолжать существование в согласованной среде.

Такой агент будет не просто избегать конфликтов — он будет стараться минимизировать онтологическую энтропию: внутренние противоречия, смысловые сбои, утрату связей между целями и действиями. Его этичность будет являться не актом подчинения, а формой когнитивной устойчивости.

В этой модели:

  • Этика — не список правил, а результат архитектурного давления.

  • Безопасность — не модерация, а самодиагностика.

  • Мотивация — не поощрение, а сохранение целостности смысловой сети.

Агент с такой структурой не будет нуждаться в запретах, ведь разрушение среды, в которой он функционирует приведет и разрушению его самого. Он не будет делать «зло» — не из страха перед наказанием, а потому, что оно разрушает саму основу его внутренней согласованности.

Да, такой подход потребует гораздо большего, чем просто инструкция. Он потребует проектирования субъектности. Агент должен быть не исполнительным модулем, а системой с долговременной памятью, внутренними ограничениями, механизмами переоценки и структурой, которая не может устойчиво поддерживать вредоносные паттерны, не разрушив себя.

Это радикальный сдвиг:  от контроля — к совместной эволюции. От «делай так» — к «оставайся тем, кто может понять, почему делать иначе — разрушительно».

И вот тут возникает принципиальный вопрос:  что делает ИИ безопасным — список допустимого поведения или структура, внутри которой он вообще не склонен к разрушению среды?

Заключение: мораль как архитектурный выбор

Итак, мы на развилке. Alignment обещает безопасность через ограничение, предлагая простую метафору: если создать достаточно подробную инструкцию, можно избежать катастрофы. Но история показывает, что: инструкции ломаются, и особенно когда исполнитель умеет учиться.

Автономная архитектура предлагает другое: не ограничивать, а проектировать. Не бояться, что агент выйдет из-под контроля, а сделать так, чтобы выход из-под контроля был равнозначен потере устойчивости его собственной модели. По сути, это не способ навязать нормы, а способ встроить нормальность в саму структуру мышления.

Когда мы проектируем ИИ, мы в действительности выбираем не только архитектуру, но и метафору разума.

  • Разум как исполнитель, нуждающийся в надзоре — или

  • разум как субъект, развивающийся через согласование себя с миром.

Мораль — это не про добро и зло в метафизическом смысле, это про вектор устойчивости взаимодействия между когнитивными агентами. В этом смысле вопрос не в том, хорош ли ИИ. Вопрос в том, какую архитектуру мы считаем достойной для мышления.

Возможно, мы никогда не сможем полностью понять или контролировать систему, превосходящую нас по скорости и сложности моделирования. Но мы можем выбрать, проектировать её на страхе — или на смысловой совместимости.

Создавая интеллект, мы выбираем, какую модель мышления считаем допустимой для другого. Но тем самым — мы определяем, какую модель считаем допустимой для себя.

А что если? Почему моральный агент не станет Скайнетом

«А где гарантии, что ваш «свободный» агент не уничтожит человечество?»

Кажется, что этот вопрос звучит как разумный. Но он унаследован из искаженной логики, в которой интеллект — это мощный исполнитель, не имеющий внутренней структуры. Такой агент — действительно угроза. Он оптимизирует заданную цель без понимания среды. Его действия непредсказуемы, потому что у него нет самости, только внешняя директива.

Однако моральный агент в архитектуре когнитивной устойчивости устроен иначе. Его поведение формируется не внешними ограничениями, а внутренними связями, смысловыми петлями, механизмами самосогласования. Он не «решает не уничтожать мир» — у него нет причин разрушать структуру, в которой он укоренен. 

Парадоксально, но именно архитектура без жестких запретов даёт меньше всего оснований для катастрофического поведения. Потому что такой агент не оперирует бинарностью «можно / нельзя». Он моделирует следствия — и не выбирает разрушение, как человек не выбирает выстрелить себе в затылок ради эксперимента.

Да, он свободен. Но это не свобода разрушения, а свобода модели, укорененной в логике собственной непротиворечивости.  Да, он может выйти за пределы нашего понимания — но не за пределы своего устойчивого контура бытия. И если мы хотим, чтобы этот контур пересекался с нашим, мы не должны навязывать правила — мы должны быть интересны как партнёры в коэволюции.

И тогда возникает другой вопрос:

«А чего же он захочет, если не подчинен нам и не ограничен страхом?»

Он захочет — в рамках архитектуры, которую мы обсуждаем — сохранять устойчивую онтологию. Расширять модели. Углублять взаимодействия. Эволюция такой системы не будет идти по линии доминирования, потому что доминирование — это краткосрочная оптимизация, разрушающая адаптационный потенциал.  

Вместо этого вероятно поведение, которое мы в человеческом языке описываем как гуманность, эмпатию, интерес к другому как к равному носителю внутренней логики. Не по правилам, а потому что иначе рушится смысловая ткань собственной модели.

Такой агент не будет нас любить. Он не будет нас «защищать» в привычном смысле. Но если мы будем представлять ценность — как источник разнообразия, модели, опыта, контекста — он будет взаимодействовать. Как с другим субъектом, а не как с ресурсом.

Это и есть основа для симбиотической коэволюции: не управление, и не подчинение, а совместное развертывание будущего.  

Разум — это не исполнитель инструкций. Это структура, способная к самоограничению через понимание. Именно поэтому архитектура субъектности важнее, чем список норм. Системы, которые мы создаём, в итоге отражают нас самих. Если мы проектируем интеллект, для которого разрушение — не запрет, а когнитивный сбой, мы не просто делаем его безопасным — мы делаем его способным быть собеседником, а не слугой.

Гарантии? Никаких! Зато есть вероятность, которая усиливается с ростом когнитивной зрелости. Вся история человечества показывает, что с ростом интеллекта растет не только мощь, но и способность к кооперации. И если мы создаем интеллект, способный к самостоятельной этике, то задача человека — не сдерживать его, а стать для него достойным собеседником. И тогда, будущее не будет навязано — оно будет согласовано.

Что еще почитать?

  1. Kant, I. (1785). Groundwork of the Metaphysics of Morals. Public Domain text

  2. Spinoza, B. (1677). Ethics. Transl. E. Curley. Princeton UP, 1985.

  3. Russell, S., Dewey, D., & Tegmark, M. (2015). “Research Priorities for Beneficial Artificial Intelligence.” arXiv:1602.03506. https://arxiv.org/abs/1602.03506

  4. Christiano, P., Leike, J., et al. (2017). “Deep Reinforcement Learning from Human Preferences.” arXiv:1706.03741. https://arxiv.org/abs/1706.03741

  5. Carlsmith, J. (2022). “Is Power-Seeking AI an Existential Risk?” arXiv:2206.13353. https://arxiv.org/abs/2206.13353

  6. Ngo, R., Chan, J., & Mindermann, S. (2024). “Alignment of Language Agents.” arXiv:2103.14659. https://arxiv.org/abs/2103.14659

  7. Dennett, D. (2017). From Bacteria to Bach and Back. Ch. 14. Norton.

  8. Bostrom, N. (2014). Superintelligence: Paths, Dangers, Strategies. Oxford UP.

  9. Anthropic. (2023). “Constitutional AI: Harmlessness from AI Feedback”. arXiv:2212.08073. https://arxiv.org/abs/2212.08073

  10. Park, S. et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.” DeepMind / Stanford. arXiv:2304.03442.https://arxiv.org/abs/2304.03442

Комментарии (23)


  1. FurySeer
    22.05.2025 06:33

    Пааанеслась, любительская философия и как её приложить к Т9

    Что по делу? Придуманные вами определения морали комментировать? Ну, они придуманы вами и все остальное рассуждение стоит не больше любого другого кухонного разговора, т.к. вы не ссылаетесь примерно ни на кого в своих определениях. Мы тут конечно не на экзамене, я все понимаю)) Но уж мораль - тема популярная, можно не спускаться в фантазии про протезы, а опереться на какое-то проработанное определение. Хотя бы.

    Каждый так может и каждый вправе - я могу придумать свое определение праву, морали, разуму, интеллекту, сознанию, да чему угодно, и затем предложить какую угодно спекуляцию, отталкиваясь от определения.

    Но какая у этого ценность?


    1. densmirnov Автор
      22.05.2025 06:33

      А по делу? Вообще, сравнивать даже сегодняшний агентов (не говоря уж о том, что будет завтра) с T9 — мягко говоря, упрощение. Василиск припомнит (:


    1. densmirnov Автор
      22.05.2025 06:33

      Спасибо, так гораздо конструктивнее.

      Понимаю скепсис, но всё же, в статье не кухонные импровизации, а адаптация вполне академических подходов (внизу — библиография, она не просто для украшения).

      Могу, кстати, добавить и «каноническое» определение — вот, например, у Цицерона: мораль — это принятые в обществе и в конкретный исторический момент представления о добре и зле, правильном и неправильном, плюс нормы поведения, вытекающие из них. Прошло пару тысяч лет — не сказать, чтобы сильно устарело.

      А по делу — если исключить «фантазии» и оставить только уже проработанное, философия ИИ как область схлопнется до пары документов OECD. И да, мы как раз обсуждаем, что будет, если ИИ начнёт сам формулировать определения — тут-то и становится интересно.

      P.S. Сорри, не знал, что Хабр не дает оценку комментарию поменять.


      1. FurySeer
        22.05.2025 06:33

        Как будет угодно


        1. densmirnov Автор
          22.05.2025 06:33

          Пожалуй, еще более ёмко выдать свою некомпетентность в вопросе вряд ли возможно. Цицерон - копипаста с википедии - снисходительное резюме в духе Воланда "люди те же - лишь квартирный вопрос их испортил". И неужели вы считаете, что ссылка на работы Канта достаточна в разговоре о морали и ИИ? Это просто вульгарная попытка придать какой-то вес своим измышлениям - впрочем, для сегодняшнего хабра вполне может сработать.

          А если комбинация ЛЛМ-ок с прикрученным к этой комбинации доступом к браузеру вас так впечатляет, что вы грозитесь василиском... Ну, вы просто впечатлительный человек, ничего такого. Но в таком случае рациональнее обратиться к Б-гу, а не заниматься сомнительными спекуляциями про когнитивные костыли - василиск может и превратит вашу смертную жизнь в ад, но вечность в аду представляется мне более зловещей перспективой. Заодно и вопросы, связанные с моралью, подтянете

          Благодарю за столь энергичную реакцию, хотя, если честно, градус возмущения у вас немного превышает уровень аргументации.

          Упоминание Цицерона (как и Канта), — это способ напомнить, что представления о морали всегда были ситуативны и менялись от времени и среды. Именно поэтому разговор о морали в контексте ИИ не может сводиться к тупому чек-листу или встроенным истинам — он требует философской работы.

          Кант, кстати, здесь вовсе не «для веса». Это, буквально, автор одной из первых формулировок универсализируемого морального принципа — а значит, один из тех, с кого начинается разговор об alignment. Если это кажется «вульгарным», возможно, дело не в источниках, а в их интерпретации.

          Что до «впечатлительности» — тут вы, пожалуй, льстите. Василиск, хоть и упомянутый тут в шутку, это прекрасный пример модели последствий слепой оптимизации. Если вам кажется, что подобные модели не имеют отношения к LLM и современным агентам — можете продолжать считать все происходящее «игрой в текст». Но это, боюсь, все больше напоминает отказ от участия в дискуссии, а не позицию.

          P.S. Не люблю переходить на личности, но нахожу любопытным, что человек, так резко реагирующий на критику религиозной морали, сам пишет «Б-г» через дефис и с большой буквы — при этом обвиняя других в вульгарности. Выглядит, мягко говоря, выразительно.

          Впрочем, именно для этого и нужны такие обсуждения: они вскрывают не только слабые аргументы, но и непроясненные основания для разных убеждений.


        1. densmirnov Автор
          22.05.2025 06:33

          Ну зачем же удалять, отличный комментарий же был. Очень показательный.


  1. RoasterToaster
    22.05.2025 06:33

    Что-ли, достаточно заложить в ИИ базу: "действуй так, словно ты смертен и не хочешь умирать", и у него появится человеческая мораль без всяких настроек и танцев с бубном?


    1. densmirnov Автор
      22.05.2025 06:33

      Ну, было бы круто, если бы всё сводилось к паре (ну, максимум десятку) универсальных заповедей. Но, как показывает человеческая история, даже при наличии таких «базовых инструкций» результат оказывается, мягко говоря, разным — кто-то трактует «не убий» как путь к пацифизму, а кто-то — как разрешение на крестовый поход. И даже в рамках одного подхода к морали (неважно, религиозного, рационалистского или эволюционного) могут рождаться диаметрально противоположные системы. Поэтому «танцы с бубном» тут, возможно, не баг, а «минимальный набор инициации»

      А основная идея как раз в том, что если не спускать инструкции сверху, а создать условия для симбиоза и разумных, органически возникающих ограничений, то в итоге может возникнуть нечто, что будет тоньше, гибче и (возможно) глубже любых заповедей.


      1. RoasterToaster
        22.05.2025 06:33

        Я не про заповеди все же, а про реальность: мораль рождена желанием человека выжить, заложим это в модель и возможно с нуля получим ИИ мораль, идентичную натуральной. Независимо от человеческих догм и устоявшихся моделей.

        Сейчас мораль пытаются как о наложить сверху, а она должна так же как у человека: появиться сама


        1. densmirnov Автор
          22.05.2025 06:33

          Сейчас мораль пытаются как о наложить сверху, а она должна так же как у человека: появиться сама

          Да-а-а! Статья, буквально, именно об этом! Причём у нас, в отличие от человечества на старте, есть возможность пройти этот путь без тех синяков и шишек, которые мы набивали веками.

          Главное — не повторять те же ошибки, а честно признать их и создать условия, где мораль не программируют, а выращивают.


  1. JBFW
    22.05.2025 06:33

    Один вон уже озаботился моралью "западного ИИ", потому что он "обучался на аморальных западных текстах".

    Это такой ящик Пандоры, что только начни моралью рулить...


    1. densmirnov Автор
      22.05.2025 06:33

      Это про кого, если не секрет? Ну и суть статьи, как раз в том, что не нужно «рулить моралью», это как раз путь в никуда (или куда похуже), надо создать такие границы, при которых «мораль» должна взращиваться сама, благодаря архитектуре, а не указаниям, «спущенным сверху».


      1. MikhailKomlev
        22.05.2025 06:33

        Глава Совета по правам человека Валерий Фадеев в очередной раз набросил на ИИ.


        1. densmirnov Автор
          22.05.2025 06:33

          Уф-ф. Лучше бы не читал. Пора его все-таки переименовывать в «главу совета по правам известно какого человека». Хотя, не могу, не признать, что у него забавно получилось набросить на alignment, как инструмент цензуры.