
Автор: Денис Аветисян
От автора: Прежде чем мы окунемся в мир патологических лжецов и эмпатичных машин, позвольте мне в двух словах рассказать, о чем эта история. Это хроника одного амбициозного эксперимента: мы решили научить машину понимать не слова, а эмоции. Для этого мы создали сложную систему с целой «коллегией» AI‑экспертов, которая умела читать уникальные «эмоциональные отпечатки» пользователей. Она работала... и была чудовищно дорогой, как Bugatti, требующая ракетного топлива.
И эта статья — история о том, как прорывная архитектура ИИ (HRM), вдохновленная работой мозга, позволила нам решить эту проблему. О том, как мы нашли новый, сверхэффективный «двигатель» и превратили дорогую игрушку в технологию, способную по‑настоящему читать между строк. А теперь — к делу.
Пролог: Тирания усредненного вкуса
Однажды приятель, увидев на моем экране результаты работы нашего нового движка, задал простой, убийственный вопрос: «А это кино хорошее?».
И я замер.
Не потому, что не знал ответа. А потому, что вся индустрия поиска и рекомендаций, все эти гигантские машины стоимостью в миллиарды долларов, десятилетиями заставляли нас задавать именно этот, в корне неверный вопрос.
Что вообще значит «хорошее кино»? Рейтинг 8.5 на IMDb? Отлично. Просто на секунду задумайтесь: это усредненная оценка, полученная из голосов, скажем, миллиона анонимных людей. Миллиона разных настроений, разных жизненных ситуаций, разных культурных кодов и разной степени трезвости в момент просмотра. Сколько из этих миллионов чувствовали то же самое, что и вы прямо сейчас, в эту самую минуту? Десять? Пять? А может, вообще ни одного?
То, что мы называем «рейтингом» — это не знак качества. Это тирания усреднения. Это как пытаться выбрать ужин, опросив целый стадион. Вы, без сомнения, получите ответ. Скорее всего, это будет «пицца». Статистически безопасный, предсказуемый и абсолютно безликий выбор, который игнорирует тот факт, что именно ваша душа сегодня требует того самого, острого том‑яма с креветками. Рейтинги и «топ-10» предлагают вам пиццу. Всегда.
Чтобы найти не просто «хорошее», а правильное кино — то, которое нужно вам, и именно сейчас — машине нужно дать нечто большее. Не примитивные ключевые слова, а нечто интимное. Ваш уникальный, неповторимый эмоциональный отпечаток пальца.
Не «затянутый детектив для сна», а...
«Словно я иду по улице поздним вечером, когда уже почти никого нет, и фонари шепчут свои истории. В груди — тихая свобода, лёгкая прохлада и ощущение, что город дышит вместе со мной. Это не одиночество, а скорее интимный разговор с самим пространством вокруг.»
Попробуйте ввести это в любой поисковик. Что он сделает? Он, как патологический буквалист, вцепится в слова «улица», «фонари», «вечер» и, скорее всего, предложит вам подборку нуарных детективов. Он услышит слова, но останется глух к музыке. Он не способен понять ни «тихую свободу», ни «интимный разговор с пространством». Он не может обработать исповедь.
Все существующие системы — от рейтингов до рекомендаций на форумах — построены на уравниловке. Они ищут то, что понравилось миллионам, в надежде, что это как‑то подойдет и вам.
Мы решили пойти другим путем. Перестать усреднять и начать слушать. Наша цель была создать не поисковик, а эмпата. Машину, способную прочитать этот самый эмоциональный отпечаток. И, что самое забавное, для этого нам пришлось отправить ее работать с самым грязным сырьем, какое только можно найти в цифровом мире.
Акт I: Искусство готовить из ничего (и немного настоящей магии)
Итак, мы решили научить машину читать эмоциональные отпечатки. Мы отправились на цифровой базар — на форумы, где царит полный хаос. Наш ИИ — это не шеф‑повар мишленовского ресторана. Это гениальный уличный повар из «Бегущего по лезвию», который может приготовить шедевр из случайного набора ингредиентов. И вот как он это делает.
Сцена 1: "Библиотека душ" вместо склада файлов
Сначала наш конвейер вытягивает из форумного хаоса метаданные. Затем начинается глубокое семантическое обогащение: мы заставляем LLM создать для каждого фильма «психологическую карточку» по четырем независимым аспектам: Атмосфера, Темы, Сюжет и Образы.
На этом этапе можно было совершить главную ошибку: взять все эти тонны текста и просто скормить их другой LLM, гоняя её по кругу, как пони в цирке, в надежде на чудо. Но это путь в никуда. LLM без структуры — это эрудит без библиотеки.
Сцена 2: Усиливаем интуицию математикой
Именно поэтому мы решили усилить наш ИИ реальной, холодной математикой. Для каждого из четырех аспектов мы создали уникальный «ментальный отпечаток» — вектор.
Представьте, что «настроение» фильма — это точка на карте. «Веселый» — на севере, «грустный» — на юге. А теперь представьте, что у нас есть не два направления, а тысяча. Вектор — это и есть координаты фильма в этом многомерном пространстве смыслов.
Наш поисковик Qdrant — это геометр‑экстрасенс. Он не читает слова. Он измеряет косинусную близость — угол между векторами в этом многомерном пространстве. Если вектор вашего запроса и вектор фильма смотрят в одну сторону (угол между ними минимален), значит, они близки по смыслу.
А поскольку у нас четыре отдельных «пространства» (или, говоря языком математики, четыре ортогональных базиса), мы можем делать невероятные вещи. Например, найти фильм, где вектор «атмосферы» близок к «уюту», а вектор «сюжета» — к «ограблению банка».
Сцена 3: "Коллегия кинопсихологов" и универсальность отпечатка
И только теперь, на эту математическую базу, мы выпускаем нашу «Коллегию кинопсихологов» — 41 AI‑личность. Система проводит «кастинг», выбирая лучшего эксперта под ваш «отпечаток». Этот же подход универсален: так можно искать и идеального кандидата на работу по «отпечатку амбиций», и идеальную акцию по «отпечатку рыночного сигнала».
Мы создали систему, которая способна понимать уникальность. Она работала. Она создавала магию из хаоса. Но, как и в любом хорошем фильме, здесь есть поворот сюжета.
Акт II: Слон в серверной, или непомерная цена эмпатии
Система заработала. Но за первым успехом последовал поворот сюжета. Он приходил ко мне раз в месяц, в виде счета за электричество, и каждый раз, глядя на цифры, у меня начинал дергаться глаз.
Мы построили Bugatti Veyron, который может ездить по бездорожью, но заправлять его приходится ракетным топливом. «Ракетное топливо» в нашем случае — это вычислительные ресурсы «тяжелых» языковых моделей. Каждый запрос — каскад вызовов. Та самая многослойность, которая позволяла системе читать между строк, превращала ее в финансовую черную дыру.
Казалось, мы зашли в тупик. Чтобы сделать эмпатию доступной, нужен был не просто оптимизированный код. Нужен был новый тип двигателя.
Акт III: Новый двигатель для чтения души
Наш эмпатический движок, как и все современные большие модели, работал по принципу «цепочки мыслей» (CoT). Это как решать задачу, бормоча себе под нос каждый шаг — работает, но медленно и энергозатратно. Но проблема была глубже: наш CoT‑двигатель умел ездить только по прямой.
Для задач, требующих «поиска с возвратом» (как в Судоку, где нужно откатывать неудачные ходы), CoT‑модель просто падает в обморок. Она неспособна к рекурсивному, итеративному мышлению по своей природе.
Именно поэтому Hierarchical Reasoning Model (HRM) — это не улучшение, а новый тип двигателя.
Сцена 1: Мозг как чертеж
Создатели HRM (тут стоит отдать дань уважения: Гуань Ван и его команда блестяще описали это в своей работе) буквально «подсмотрели» за работой мозга. Внутри HRM живут два модуля: медленный «Стратег» (H‑модуль) для общей картины и быстрый «Тактик» (L‑модуль) для деталей. «Тактик» решает локальную задачу, докладывает наверх, «Стратег» ставит новую цель и «перезагружает» Тактика. Этот элегантный танец называется «иерархической конвергенцией» (кстати, не путайте с нашей «полиморфной дивергенцией», которую мы в «Когерент+ai» используем, чтобы избавиться от стигматов LLM — это совсем другая магия). И главное: модель думает без слов, в латентном пространстве.
Сцена 2: Нокаут в легком весе
Чтобы доказать это, создатели устроили спарринг: гигантская LLM против «малыша» HRM.
Раунд «Судоку‑Экстрим»: Гигант, пытаясь «думать вслух», путается и падает. Точность — 0%. А что же наш малыш? Он не тратит время на танцы по рингу. Он видит задачу, и, пока гигант бормочет первый ход, малыш уже наносит короткий, точный и решающий удар под дых. Он просто решает головоломку. Точность — почти 100%.
Это нокаут. И он доказывает: в мире сложных рассуждений дело не в размере. Дело в архитектуре.
Развязка. Эмпатия становится доступной
HRM — это ключ, который делает наш эмпатический движок экономически жизнеспособным. Мы можем заменить прожорливые CoT‑модули на новый, эффективный HRM‑двигатель. Мы сохраняем качество, но снижаем «расход топлива» на порядок. Наша Bugatti теперь может ездить на обычном бензине.
Эпилог. Ваше настроение — и есть лучший рейтинг
Итак, вы оставили свой уникальный «эмоциональный отпечаток». Наш движок, теперь уже на новом движке HRM, находит тот самый артхаус 70-х с релевантностью 0.95. Его нет в топах. Его не советовали друзья.
Хорошее ли это кино?
Рейтинги говорят, что «хорошо» для усредненного миллиона. Ваш отпечаток говорит, что «правильно» для одного — для вас, и именно сейчас. Кому вы доверяете больше: оглушительному хору усредненного мнения или тихому шепоту собственного сердца?
В этот момент, когда я показываю такие результаты, кто‑нибудь обязательно говорит: «Ну... да ChatGPT делает то же самое!»
И в эту секунду по моей душе разливается тепло, а лицо расплывается в улыбке. Это — величайший комплимент, который только можно себе представить. И я прошу: говорите мне такое как можно чаще!
Знаете, на что это похоже? Это как если бы вы несколько часов колдовали на кухне, приготовили идеальные макароны по‑флотски — простое, честное, но сделанное с душой блюдо, — а ваш приятель, попробовав, задумчиво произнес: «Знаешь, а ведь в мишленовском ресторане спагетти болоньезе делают не хуже. Стоило ли так заморачиваться?»
Он думает, что принижает ваши усилия, но на самом деле он, сам того не понимая, ставит ваш домашний шедевр на одну доску с работой элитного повара с безграничными ресурсами.
Вот и с нашим движком то же самое. Когда нас сравнивают с ChatGPT, они сравнивают результат работы огромной корпорации, которая скачала весь интернет и подключила легион дата‑центров, с системой, которая родилась из хаоса форумных отзывов и работает на одном‑единственном геймерском компьютере. Они переплавляют золотые слитки. Мы — учимся создавать золото из свинца в домашней лаборатории. И если наш результат неотличим от их — значит, мы на верном пути.
И знаете что? Эту магию можно пощупать.
Я не могу дать вам публичную ссылку, потому что наша система работает... на том же самом компьютере, на котором я сейчас пишу эту статью. Поэтому заранее прошу прощения, если она будет отвечать медленно. Видимо, в этот момент я провожу очередной эксперимент или, не дай бог, решил поиграть.
Но если вам интересно заглянуть в лабораторию, где ИИ учится эмпатии, свяжитесь со мной на LinkedIn, и я поделюсь адресом.
Поезд в будущее уже отходит. Раньше билет на него стоил как запуск спутника. Мы нашли способ сделать его доступным для каждого, кто ценит свою уникальность. Мы уже в вагоне. А вы?
Связаться с автором: https://www.linkedin.com/in/avetisyan/