Как обучают ИИ: без формул, но с котами / forpes.ru

Главная
Как обучают ИИ: без формул, но с котами

Как обучают ИИ: без формул, но с котами +20

18.06.2025 09:22

GiantLynx 21 3300 Источник

Что такое машинное обучение и как оно вообще «учится»? Чем это отличается от обычного программирования с if, for и «всё работает, пока не трогаешь»? А где заканчиваются понятные алгоритмы и начинается чёрный ящик вроде ChatGPT?

Это первая статья из научпоп серии, где мы разберём основы ИИ — без воды, без трюизмов, без академического тумана и, по возможности, без формул (ведь как писал Стивен Хокинг — каждая формула в научпоп книге уменьшит её продажи вдвое). Сегодня поговорим о фундаменте: какие бывают способы обучения ИИ‑моделей, зачем они вообще нужны и как они определяют, на что модель способна.

Да, будут котики. И немного сарказма. Но исключительно в благородных целях: чтобы построить яркий и устойчивый ассоциативный ряд.

Эта статья будет полезна всем, кто погружается в ИИ: техническим и нетехническим специалистам, архитекторам, стартаперам, тем, кто внедряет ML‑фичи, и просто тем, кто хочет навести порядок в голове по поводу того, что такое машинное обучение и с чего оно начинается. В этой части — только база: что такое ML, чем оно принципиально отличается от обычного программирования, и четыре ключевые парадигмы, на которых держится весь современный ИИ.

Классическое программирование vs машинное обучение

Раздел можно пропустить тем, кто уже хорошо понимает, в чём принципиальное отличие ML от традиционного программирования. Но тем, кто хочет структурировать понимание, он может быть полезен.

В книгах о профессоре Фортране есть эпизод, где Воробей уверяет, что для полёта на Луну хватит калькулятора. Кот Икс объясняет, что сложная задача требует не арифметики, а сценариев с ветвлениями, памятью и контекстом — то есть программы.

Калькулятор выполняет одну операцию за раз и только по прямой команде. Компьютер исполняет заранее заданную программу: принимает решения, хранит промежуточные данные, обрабатывает множественные входы. Такой подход эффективен, когда входные данные предсказуемы, а поведение можно выразить в виде жёсткой логики.

Однако этот подход плохо масштабируется в условиях неопределённости. Например, невозможно описать правилами, как отличить Луну от круглой лампочки, как читать неразборчивый почерк или распознать сарказм. Такие признаки не формализуются в if / else и быстро упираются в бесконечное множество исключений.

На этом заканчивается применимость классического программирования — и начинается машинное обучение. Вместо ручного описания всех сценариев алгоритм получает множество примеров и выявляет закономерности самостоятельно. Обучение идёт не через жёсткие конструкции, а через статистику и обобщение.

Модель может впервые встретить почерк конкретного человека — и распознать его букву «Ж», опираясь на статистику тысяч других примеров. Или определить, что пользователь нарисовал динозавра, хотя в базе нет именно такого: сходство форм, пропорций и текстур позволяет сделать вероятностный вывод.

распознавание рукописного почерка и изображений - лишь два примера задач, где предусмореть все сценарии невозможно — распознавание рукописного почерка и изображений — лишь два примера задач, где предусмореть все сценарии невозможно

Парадигмы машинного обучения

Возможности ИИ модели зависят, как она обучалась.
И прежде чем говорить, что «вот этот ИИ модель подойдёт для такой‑то бизнес‑задачи», нужно понять: по какой парадигме происходило обучение. Обычно выделяют четыре основных парадигмы:

Обучение с учителем
Обучение без учителя
Обучение с подкреплением
Самообучение (точное название в русском пока не устаканилось, буду использовать такое)

Supervised learning (Обучение с учителем)

Есть такая работа — смотреть на котов и не путать их с собаками

Это как учить модель различать котиков и собак по фотографиям: мы показываем ей десятки тысяч картинок, и к каждой прилагаем метку — «это кот». Или «это собака». Через тысячи итераций модель начинает сама вычленять: у котов — треугольные уши, подозрительный взгляд, и лежат они в основном посреди клавиатуры. Это и есть supervised learning — обучение по размеченным примерам, где заранее известен «правильный» ответ. По сути, мы говорим модели: «Вот вход — вот ожидаемый результат», а она учится находить закономерности, чтобы затем обобщать их на новые, ранее не встречавшиеся данные.

После тысячи фотографий котов модель усвоила: треугольные уши — важный отличительный признак. Теперь она использует это для отличия кота от собаки.

Такие модели подходят для:

Классификации (например, «спам» или «не спам»).
Регрессии (например, прогноз цен).
Оценки вероятностей (например, «насколько велик риск отказа клиента»).
Иногда на основе supervised learning строят и генеративные модели, но это скорее исключение, чем правило.

Сценарии использования Supervised learning:

Анализ тональности отзывов
Вход: текст отзыва → Выход: положительный / отрицательный

Фильтрация спама
Вход: текст письма → Выход: спам / не спам

Диагностика заболеваний
Вход: медицинские показатели → Выход: диагноз (болен / здоров)

Автомодерация контента
Вход: текст, изображение → Выход: допустимо / нарушает правила

Автоматическая классификация товаров на маркетплейсе
Вход: карточка товара → Выход: категория каталога

OCR (распознавание текста с изображений)
Вход: фото документа → Выход: текст

В других парадигмах такой роскоши, как «метка», нет — и модель вынуждена разбираться сама, что в данных главное, а что просто шум.

Unsupervised learning (Обучение без учителя)

Иногда кажется, что динозавры — это просто очень уверенные в себе жабы

В этой парадигме модель обучается на неразмеченных данных — то есть ей не говорят, какой ответ «правильный». Вместо этого она сама пытается обнаружить скрытую структуру, закономерности или взаимосвязи. По сути, это попытка разложить хаос по полочкам, когда никто заранее не объяснял, какие вообще бывают полки.

Представим: мы показываем модели тысячи изображений — с котами, собаками, жабами и динозаврами (для ассоциативной яркости допустим, у нас почему‑то есть точные снимки этих вымерших животных) — но не указываем, кто есть кто. Более того, модель даже не знает, сколько вообще классов в этих данных: три, пять или, может быть, пятьдесят. Она просто ищет визуальные паттерны. И в какой‑то момент сама начинает группировать пушистых существ в один кластер, а тех, у кого гладкая кожа, боковые глаза и подозрительно холодный взгляд — в другой. Она не знает слов «кот», «жаба» или «динозавр», не делает осознанных выводов — но учится различать образы на уровне внутренней логики похожести.

После разбора тысяч изображений модель принимает решение: тех, у кого мех — в условную «коробку № 1», а существ с гладкой кожей и латеральным зрением — в «коробку № 2». Как она их называет — неважно. Главное, что внутри коробок становится всё более однородно.

Млекопитающих — сюда, амфибий — туда, динозавров… обратно в мезозой

Такие модели не предсказывают ярлыки, а скорее:

группируют похожие объекты (кластеризация),
выявляют аномалии.
уменьшают размерность признаков (упрощение данных).

Эта парадигма особенно полезна, когда:

разметка данных слишком дорогая или невозможна;
мы хотим исследовать данные, не зная заранее, что ищем;
нужно выявить сегменты или поведенческие паттерны без готовых меток

Сценарии использования Unsupervised learning:

Кластеризация клиентов
Вход: история поведения → Выход: сегменты клиентов (самостоятельно выделенные моделью)

Поиск аномалий в логах
Вход: системные логи → Выход: необычные события или сбои

Снижение размерности данных
Вход: данные с сотнями признаков → Выход: сжатое представление (например, для визуализации или ускорения обучения)

Тематическое моделирование текстов
Вход: коллекция документов → Выход: автоматически выделенные темы

Unsupervised learning — это способ узнать, что вообще содержится в данных, если никто до этого не объяснял, на что смотреть. Это не про предсказание, а про разведку территории — на основе которой можно уже строить более точные и осмысленные модели.

Reinforcement learning (Обучение с подкреплением)

В этой парадигме модель — называемая агентом — обучается через взаимодействие с окружением методом проб и ошибок. Агент пробует различные действия, наблюдая, как на них реагирует среда. За действия, которые приближают к желаемому результату, он получает награду; за неэффективные или вредные — штраф. Под наградой и штрафом понимается изменение скалярного значения — так называемой функции вознаграждения. Цель обучения — найти такую стратегию действий, которая максимизирует суммарную награду за определённый период или последовательность шагов.

Это как если бы мы пытались дрессировать кота (что в реальной жизни практически невозможно, но в начале статьи мы же условились объяснять на котах — так что деваться некуда). Только не через команды, а через причинно-следственную связь.
Кот — наш агент. Квартира — его среда. Он пробует разные действия: поймал муху — получил котлету, опрокинул телевизор — остался без ужина. Так он получает обратную связь в виде награды и штрафа.
Спустя десятки итераций кот начнёт вести себя так, как ему выгодно — не потому что понял, чего ты от него хочешь, а потому что выучил стратегию (или «политику»): какие действия в этой среде с наибольшей вероятностью приводят к корму (т.е. к награде).

График не врёт: ор не приводит к награде

Обучение с подкреплением применяется там, где:

Поведение должно оптимизироваться в процессе
Нет заранее известных «правильных» решений
последствия действий проявляются со временем, а не сразу.

Сценарии использования Reinforced learning:

Игры и симуляции
Вход: состояние игрового поля → Действие: ход → Награда: победа / Штраф: поражение

Робототехника
Вход: сенсорные данные → Действие: движение → Награда: достигнута цель / избегнуто столкновение

Управление ресурсами и трафиком
Вход: состояние системы → Действие: перераспределение → Награда: улучшение метрик

Финансовые стратегии
Вход: рыночные данные → Действие: купить / продать / держать → Награда: прибыль / Штраф: убыток

Обучение с подкреплением — это про стратегию, принятие решений и адаптацию. Он ближе всего к обучению живых существ в реальном мире: без готовых ответов, но с понятной целью и постоянной обратной связью от среды.

Self-supervised learning (самообучение)

В этом подходе модель обучается на неразмеченных данных, но получает обучающую задачу внутри самих данных — без участия человека. Модель учится предсказывать одну часть данных на основе другой. Часть примера используется как вход, а другая — как ожидаемый ответ. Эти пары формируются автоматически, по заранее заданным правилам.

Пример

Исходное предложение:

«Кот запрыгнул на клавиатуру и отправил в прод недописанный код.»

Мы превращаем его в обучающую задачу. Например:

Удаляем одно слово:
→ «Кот запрыгнул на *** и отправил в прод недописанный код.»
→ Задача модели: угадать, что на месте *** стояло слово «клавиатуру»
Обрываем фразу:
→ «Кот запрыгнул на...»
→ Модель должна логично продолжить: «...клавиатуру и отправил письмо заказчику»

Для кота Тензора писать вверх ногами лишь вопрос выбора системы координат

Эти пары вход → цель генерируются автоматически, без ручной разметки.

Та же логика применяется и к другим типам данных:

Для изображений — это восстановление скрытого фрагмента или предсказание положения объекта
Для аудио — предсказание пропущенного звук

Сценарии использования Self-supervised learning:

Языковые модели — GPT, LLaMA, Claude и другие LLM обучаются именно self‑supervised: предсказывают слова по контексту.

Компьютерное зрение — CLIP, DINO, MAE — модели, которые учатся распознавать и интерпретировать изображения без меток, просто на базе паттернов и взаимосвязей внутри самих картинок.

Аудио и речь — Модели типа Wav2Vec 2.0 учатся понимать речь, предсказывая пропущенные аудиофрагменты, без транскрипций.

Мультимодальные модели — CLIP, Gemini и другие — учатся связывать текст и изображения без ручной аннотации.

Предобучение (pretraining) — Перед дообучением на узкоспециализированной задаче (например, медицинской или юридической) модель сначала обучают на self‑supervised задачах, чтобы она выучила общие закономерности языка или визуального мира.

Главное: модель обучается на автоматически сформированных задачах, где «правильный ответ» извлекается из самих данных. Это даёт масштабируемость, универсальность и фундамент для большинства современных генеративных и языковых систем.

Подытожим парадигмы обучения

Парадигма	Как обучается модель	Типичные задачи
Supervised Learning (обучение с учителем)	Обучение на размеченных данных (ввод → правильный ответ)	Классификация, регрессия, фильтрация спама, диагностика, прогнозирование
Unsupervised Learning (обучение без учителя)	Обучение на неразмеченных данных (модель сама находит структуру)	Кластеризация, поиск аномалий, тематическое моделирование, сегментация
Reinforcement Learning (обучение с подкреплением)	Обучение через взаимодействие с окружающей средой, с наградами и штрафами	Игры, симуляции, робототехника, управление ресурсами, трейдинг
Self‑supervised Learning (самообучение)	Обучение на неразмеченных данных, где обучающая задача формируется из самих данных	Языковые модели (GPT, BERT), компьютерное зрение, мультимодальные модели

А что ещё бывает?

Помимо supervised, unsupervised, reinforcement и self‑supervised, в машинном обучении существуют и другие подходы. Их редко выделяют как самостоятельные парадигмы, потому что они либо гибриды, либо вариации на тему уже описанных стратегий. Вот самые важные:

Semi‑supervised learning
Обучение на смеси размеченных и неразмеченных данных. Полезно, когда аннотировать всё слишком дорого.
Active learning
Модель сама выбирает, какие примеры ей стоит разметить — чтобы быстрее и эффективнее учиться.
Online learning
Обучение по мере поступления данных, непрерывно, без повторного прохода по всему датасету.
Multi‑task learning
Модель учится решать несколько задач одновременно, используя общие представления.
Curriculum learning
Сначала — простые примеры, потом — сложнее. Как в человеческом обучении.

Все эти методы — важные инженерные практики, но в их основе всё равно лежит одна из четырёх базовых парадигм или их комбинации. Поэтому для понимания сути машинного обучения и уверенной ориентации в мире ML достаточно разобраться именно с ними.

В следующей части мы разберёмся, чем генеративные модели отличаются от остальных ML‑подходов — и как не завалить собеседование, если вдруг спросят про их подкапотное устройство. Почему они не просто классифицируют или предсказывают, а реально создают. Где заканчивается распознавание — и начинается то самое «творчество нейросети». И заодно выясним главное: есть ли в этом хоть капля магии, или это просто скучная математика.

Комментарии (21)

whileTrueCry
18.06.2025 09:34
#28451632
Я не знаю кто ты такой, но твои статьи - это старый добрый и ламповый Хабр. Без иронии жду продолжения.
1. GiantLynx Автор
  18.06.2025 09:34
  #28451860
  Благодарю!

Semjam
18.06.2025 09:34
#28451642
Мне вот интересно. А как ИИ учат говорить? Типа закидывают массивы данных и он начинает из читать и чего-то понимает?
1. GiantLynx Автор
  18.06.2025 09:34
  #28451880
  Нет, ИИ не "понимает" ничего в привычном смысле. Он не знает, что значит слово, не осознаёт контекст, не формулирует свою мысль. Осмысленный текст у него получается потому что может неплохо угадывать, какие слова идут друг за другом с наибольшей вероятностью.
  С чатгпт создаётся иллюзия самостоятельного мышления из-за очень высокой сложности этой модели. Если же запустить локально модель с 7 миллирадами параметров (что довольно мало для языковой модели) - это будет лучше заметно.
  1. einhorn
    18.06.2025 09:34
    #28453290
    LLM знает, что значит слово, и прекрасно осознает контекст. Сначала каждому токену присваивается дефолтный эмбеддинг, который соответствует смыслу слова "в ваккуме". Затем, на каждом слое трансформера, этот эмбеддинг модифицируется за счет контекста, что позволяет различать одно и то же слово, употребленное в разных смыслах
    
    Вы описываете цепи Маркова, а не LLM
    
    GiantLynx Автор
    18.06.2025 09:34
    #28453846
    Я не совсем научно корректно выразился когда говорил, что LLM не осознаёт контекст. Эмбеддинг - да, он передаёт контекст слова, из которого оно было извлечено. Модель действительно дифференцирует значения слов по их окружению, но она не оперирует абстрактными понятиями как человек, а лишь работает с паттернами в данных. То, что мы называем пониманием контекста в LLM - это очень хорошая стаститическая адаптация, а не семантическое сознание.
    
    carx
    18.06.2025 09:34
    #28457716
    А потом оно не может посчитать количество букв в слове
    
    einhorn
    18.06.2025 09:34
    #28457728
    Потому что токенизация. Модель не видит буквы, она видит слова
    
    qiper
    18.06.2025 09:34
    #28457802
    Вот по этому имитация, а не интеллект
    
    einhorn
    18.06.2025 09:34
    #28457872
    А почему для интеллекта вообще релевантно, что слова состоят из букв? ИИ работает как китайцы - на вход подаются токены смысла. Китайцы не обладают интеллектом?
    
    Кстати, если очень хочется, то можно сделать побуквенный токенизатор, и тогда считать количество разных букв в разных словах ИИ сможет гораздо лучше. Просто нужно не это, а способность решать нормальные человеческие задачи, и это получается лучше при большом словаре

Vcoderlab
18.06.2025 09:34
#28451688
Интересная заметка, спасибо!

Подскажите пожалуйста. Например я хочу нейросеть, распознающую голос, научить узнавать меня по голосу. Чтобы в процессе разговора со мной она постоянно обучалась, получая всё больше голосовых данных, произнесённых с разной интонацией, в разном настроении и т. д. Чтобы в итоге узнавание меня становилось всё более точным. Причём всё это должно происходить локально, без использования онлайн-сервисов в интернете.

Это вообще возможно? Куда посмотреть и что почитать, чтобы получить понимание, как это можно реализовать?
1. mrsweetsmo
  18.06.2025 09:34
  #28451804
  Скорее всего возможно но все упрется в железо и его стоимость!
1. GiantLynx Автор
  18.06.2025 09:34
  #28451912
  Да, такое возможно - задача называется speaker identification с адаптацией. Чтобы работало локально и обучалось на ходу, нужно смотреть в сторону моделей типа x-vector, Wav2Vec 2.0 и фреймворков вроде SpeechBrain
  Ну и как для любых локально ML задач, не обойтись без флагманской видеокарты или Apple Silicon

PoksPoks
18.06.2025 09:34
#28452054
Хороший текст, без перегруза

okova_kova
18.06.2025 09:34
#28452162
Спасибо, @GiantLynx, за увлекательную статью, буду ждать продолжение! Особенно подкупили иллюстрации с котиками. Подскажите, пожалуйста, в какой нейросети вы генерировали эти картинки?
1. GiantLynx Автор
  18.06.2025 09:34
  #28452166
  Chatgpt-4o
  1. okova_kova
    18.06.2025 09:34
    #28452482
    Спасибо!

keyarituAI
18.06.2025 09:34
#28453086
Текст понравился. Жду продолжения. Про скучную математику я бы поспорил. В школе и универе еле вытягивал матан на 3. Как только начал пользоваться ИИ загорелся и теперь разбираюсь хорошо. По сути математика и есть "магия" т.к. она может объяснить почти все, что нас окружает.
1. GiantLynx Автор
  18.06.2025 09:34
  #28453874
  Ну про скуку я говорил в несколько пост-ироничном смысле, подразумевая, что когда некий чёрный ящик выдаёт нам неожиданно хорошие и комплексные результаты - это сначала вызывает эмоции, будто столкнулся с немного волшебством в реальном мире. Вспомните свои первые эмоции, когда игрались с диффузионными моделями вроде Midjourney. А когда мы этот чёрный ящик взламываем и разбираем на шестерёнки - то сразу пропадает ощущение чего-то сказочного.
  Это не к тому, что разбираться не нужно (наоборот, можно и нужно), просто иллюстрация к цитате Артура Кларка "любая достаточно развитая технология неотличима от магии".

Akinoriv
18.06.2025 09:34
#28463518
Спасибо за отличную статью! Подскажите, использовали ли вы ИИ для написания текста? Выше прочитала, что изображения были созданы с помощью GPT, а как насчёт самого текста или его черновика — применяли ли вы какие-то ИИ-инструменты? Если да, расскажите, пожалуйста, как именно вы их используете.
1. GiantLynx Автор
  18.06.2025 09:34
  #28463546
  Я применяю LLM (Grok) только для вычитки и фактчекинга и с оговоркой, потому что любые чатботы галлюцинируют, перехваливают не к месту и часто соглашаются с ложными фактами. Хотя интернет уже наполнен текстами, которые от начала и до конца сгенерироваными ChatGPT или его аналогами, такие тексты легко "палятся" по характерным признакам, приторной тактичности и характерными для LLM речевыми оборотам. Может, напишу статью какие есть красные флаги сгенерированного текста, хотя не знаю, формат ли это хабра или какого-нибудь пикабу.
  
  TL;DR использовать LLM для редактуры - нормально, "вайб-блогинг" - палево.

Как обучают ИИ: без формул, но с котами +20

Классическое программирование vs машинное обучение

Парадигмы машинного обучения

Supervised learning (Обучение с учителем)

Unsupervised learning (Обучение без учителя)

Reinforcement learning (Обучение с подкреплением)

Self-supervised learning (самообучение)

Пример

Подытожим парадигмы обучения

А что ещё бывает?

Комментарии (21)

GiantLynx Автор

GiantLynx Автор

GiantLynx Автор

GiantLynx Автор

GiantLynx Автор

GiantLynx Автор

GiantLynx Автор