Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.
Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу на Хабр или куда-то ещё, для сложных терминов я сразу мог бы дать ссылку на понятное и простое объяснение.
А ещё, даже на Хабре почти каждая статья про ИИ просто копипастит оригинальные иллюстрации на английском, я и сам этим грешу. Но в этом проекте, мне захотелось сопровождать мои материалы симпатичными и понятными иллюстрациями на русском языке, поэтому я рисую их самостоятельно.
Так я начал свой хобби-проект «AI человеческим языком». Каждую новую статью про популярный термин я хочу адаптировать под Хабр, и выкладывать сюда.
В последнее время мы видим огромный прогресс в обучении ИИ без участия человека. Это важно, потому что люди - бутылочное горлышко, подготовка и разметка данных вручную человеком - крайне дорогостоящий и длительный процесс. Революция, которую произвел DeepSeek R1 - это как раз следствие найденного способа обучать ИИ без ручного труда. Вчера я рассказывал о том, как китайские ученые автоматизировали процесс обучения ИИ программированию при помощи другого ИИ, который пишет тесты. А сегодня я хочу подробнее описать, в чем суть Reinforcement learning - термина, который используется почти во всех статьях про обучение ИИ.
Что такое "Reinforcement learning"?
Краткий ответ: Reinforcement Learning (RL) — это метод обучения без начальных данных. ИИ в реальном времени совершает действия (или дает ответы), и получает вознаграждение или штраф за качество своих действий/ответов. Так он учится делать то, что приносит больше награды.
Reinforcement Learning (обучение с подкреплением) - это один из ключевых методов обучения ИИ. Его главная особенность в том, что он не требует изначального датасета с примерами правильно решенных задач. В reinforcement learning ИИ совершает действия (или дает ответы) в реальном времени, после чего, человек или алгоритм оценивают качество этого действия/ответа. Если результат хорош - ИИ получает награду (усиливает те веса модели, которые привели к этому результату), если плох - ИИ получает штраф (снижает веса).
Цель ИИ — получить как можно большее вознаграждение. Для этого он пробует разные варианты, запоминая, какие действия приводят к позитивным результатам, а какие — нет.
![](https://habrastorage.org/getpro/habr/upload_files/72a/a02/7c3/72aa027c39ee8819668dea71ba5c5e76.jpg)
Важный ньюанс заключается в том, кто решает, является ли действие хорошим? Если это делает человек, то это называется RLHF (Reinforcement Learning from Human Feedback). В этом случае, на основе фидбека человека (информации о том, понравились ли ему ответы ИИ или нет), обучается другая, небольшая моделька, которая называется Reward Model. И вот уже она выступает в роли того "алгоритма", который оценивает качество ответов "большой" модели, которую мы пытаемся обучить.
Если же существует возможность сделать такой алгоритм (не используя данные на основе труда человека), который сможет оценивать качество ответов модели, то это значительно удешевляет и ускоряет процесс обучения.
Простой пример того, как выглядит RL без участия человека: можно посадить ИИ играть в компьютерную игру, скажем, тетрис. И награждать его за победы, а за поражения - штрафовать. Так как компьютерная игра - это по сути и есть алгоритм, то человек в этой схеме не нужен: ИИ будет играть до тех пор, пока не научиться побеждать настолько часто, насколько это возможно.
В 2025 году главный хит, запущенный DeepSeek - обучение моделей без ручного человеческого труда, многие команды сейчас ищут способы автоматизировано создавать наборы задачек для ИИ, которые легко можно проверить при помощи алгоритма или другой модели.
Надеюсь, вам было интересно и понятно. Если есть идеи о том, что можно было бы улучшить - напишите, пожалуйста, в комменты, буду рад внести правки.
P.S. Я веду Телеграм канал, где не только регулярно пишу про ИИ/агентов, но и даю глубокую аналитику по новостям, а также рассказываю как сделать компанию, в которой все сотрудники — AI-агенты. Велком!
ednersky
Вообще здесь интересно (как мне кажется) внутреннее устройство ИИ рассказывать с э... пусть не историческими но историческо-техническими эксурсами.
А то начинаешь, например, разбираться и натыкаешься на довольно серьёзные барьеры.
И вот когда тебе рассказывают про, скажем, эмбеддинги, то это нифига не понятно. А когда информация "как устроено?" идёт с пояснением "для чего то или это задумано", то уже как-то проще.
Самое здесь весёлое то, что те же эмбеддинги в современное время мутировали в нечто по техническому смыслу такое же (то есть технически не изменились) но по философскому смыслу иное.
Изначально эмбеддинг (вектор) задуман как условно-короткая форма записи смысла. Раньше считали, что записав смысл каждой составляющей фразы (каждого токена) в виде вектора в многомерном пространстве мы сможем выводить смысл чисто математическим способом: сумма векторов токенов = смысл фразы.
А позже, оказалось, что математика здесь не совсем работает или в некоторых случаях совсем не работает: многозначные слова и прочее определение смысла по контексту, и во многих местах эту математику заменили на... снова обученную нейросеть.
И в этом месте появился высокий порог вхождения для изучающих всю эту теорию, ибо вопрос "зачем здесь нейросеть?" стал включать в ответе "чтобы построить нейросеть".
KionX
Когда рассказчик дерьмовый, конечно, не понятно (я не про статью, я её не читал).
Однако, как я считаю, понять это довольно просто.
Эмбеддинги - это способ представить класс/понятие через вектор.
"слово" (класс) = [0.3, -0.2, 0.6] (вектор)
А сумма векторов здесь не работает, потому что теряется информация о порядке (например, "вопрос про" или "про вопрос"). Потому придумали RNN и Транс. А нейросеть - это просто функция с большим количеством связей (настраиваются весами). И обратное распространение как способ подбора весов.
ednersky
это СЕЙЧАС просто, а всего несколько лет назад вкладывали кучу бабла в варианты где токен ОДНОЗНАЧНО сопоставлялся с вектором. Ибо тогда считали, что на этой дороге можно найти решение.
KionX
LSTM придумали в 1997 году. А RNN в принципе ещё раньше.
А всего несколько лет назад придумали Транс (2017).
И что значит "однозначно сопоставляется с вектором" ?
Нейросети имеют вероятностную природу. На входе и сейчас токены однозначно сопоставляется. А на выходе этого давно никто не ждёт.