
ИИ-агенты учатся выживать в мире Minecraft, спорят о геополитике, берут на себя все больше работы и… начинают вести себя как настоящие личности. Как современные модели учатся планировать, сотрудничать, хитрить и даже формировать собственные взгляды? В этом обзоре — свежие прорывы в создании универсальных агентов, исследования предвзятости и то, как поведенческая наука помогает понять настоящую «психологию» ИИ.
Если хотите быть в курсе новейших исследований в области ИИ, воспользуйтесь Dataist AI - бесплатным ботом, ежедневно обозревающим свежие научные публикации, а также подписывайтесь на мой Telegram-канал, где я рассказываю про создание ИИ-стартапов, реальные кейсы внедрения ИИ в бизнес и делюсь своими мыслями. Поехали!
1. MiniMax-M1: эффективная архитектура для большого контекста
LLM уже способны решать сложные задачи, анализировать большие объемы информации и даже писать код. Однако, чтобы такие модели умели «думать» глубже, им нужны длинные цепочки рассуждений и возможность видеть больше контекста. Проблема в том, что классические нейросети требуют огромных вычислений: чем больше текста они обрабатывают, тем больше ресурсов нужно, а значит, дольше и дороже получается процесс.
Здесь на сцену выходит MiniMax-M1 — экспериментальная языковая модель, созданная для работы с очень длинными текстами и сложными задачами, но при этом требующая меньше вычислительной мощности на этапе генерации. Разработчики поставили цель: показать, что можно масштабировать рассуждение модели почти без потери качества, если грамотно изменить архитектуру и методы обучения.

В основе MiniMax-M1 — гибридная система внимания: здесь чередуются легкие и тяжелые блоки (один классический — на семь облегченных), что резко снижает затраты ресурсов. Важную роль играет и метод обучения с подкреплением (RL): вместо привычной обрезки градиентов, здесь «клипуются» веса важности токенов, чтобы даже редкие, но ключевые слова влияли на итоговый результат.
Для обучения MiniMax-M1 использовались огромные датасеты с примерами задач по математике, программированию и логическим головоломкам, а также специальные генеративные модели для оценки качества ответа. В результате появились две версии модели с контекстом до 80 тысяч токенов — это в разы больше, чем у большинства конкурентов.
В тестах MiniMax-M1 показал себя не хуже (а иногда и лучше) сильнейших открытых моделей, а по скорости работы — эффективнее многих из них. Особенно модель хороша там, где важно удерживать длинную цепочку рассуждений: в программировании, инженерных задачах и автоматизации рутинных процессов.

2. По-настоящему персонализированный ИИ
LLM стараются угодить всем сразу. Но у каждого из нас свои привычки, ценности и вкусы — и универсальный стандарт быстро перестает быть удобным для конкретного пользователя. Сегодня все чаще звучит идея плюралистического выравнивания: ИИ должен адаптироваться к разным людям, а не подгонять всех под одну гребенку.
Однако с персонализацией не все так просто. Во-первых, у конкретного пользователя часто мало данных — сложно понять, почему он выбирает тот или иной ответ. Во-вторых, многие подходы требуют анкет, демографических данных или заранее заданных параметров.
Недавно исследование “SynthesizeMe!” из Стэнфорда решает эти проблемы радикально новым способом. Вместо анкет и догадок модель сама анализирует ваши взаимодействия и формирует краткое текстовое описание — “персону”, которая отражает ваши настоящие предпочтения и стиль общения.

Как это работает?
Генерация гипотез: Модель пытается объяснить, почему вы сделали тот или иной выбор, и проверяет свои догадки.
Сборка персоны: Из валидированных рассуждений собирается короткий профиль, который описывает ваши ценности и стиль.
Выбор ключевых примеров: Используя этот профиль, система выбирает ваши наиболее показательные ответы для обучения и настройки диалогов.
Эксперименты показали: такой подход делает LLM ощутимо точнее в угадывании персональных предпочтений — точность на специализированных бенчмарках выросла на 3–4% по сравнению с обычными промптами. Особенно эффективна комбинация “персона + ваши реальные примеры” — именно такие параметры лучше всего отражают ваши желания и привычки. Более того, персональные профили понятны и легко переносятся между разными моделями.

В этом подходе есть и плюсы, и минусы. С одной стороны, прозрачная и гибкая персонализация снижает порог входа — теперь не нужно вручную настраивать чат‑бота или проходить длинные анкеты. С другой — появляется опасность усиления предвзятости, а работа с персональными профилями требует аккуратности и соблюдения этических норм.
3. Как AUTOMIND меняет подход к автоматизации дата-сайенса
В последнее время LLM активно используют для автоматизации задач в дата-сайенсе — от понимания, что нужно сделать, до выбора модели и подготовки финального решения (а-ля AutoML). Проблема в том, что большинство существующих решений работает по жестко заданному сценарию и умеет решать только классические задачи. Как только появляется что-то более творческое или нестандартное, эти решения теряются: тратят много ресурсов и не умеют гибко исправлять ошибки.
AUTOMIND — это новый агент, который должен сделать дата-сайенс ближе к полной автоматизации. Его главная фишка — внедрение экспертного опыта топовых специалистов Kaggle и свежих исследований прямо в процесс принятия решений. Вместо линейного сценария здесь используется деревообразный поиск решений: если где-то ошибка — агент не тупит, а перепробует разные подходы, выбирая лучшие.
AUTOMIND умеет адаптироваться под сложность задачи: если задача простая, код сразу пишется целиком. Если сложная — разбивается на шаги, каждый проверяется отдельно, ошибки отлавливаются на лету.

Создатели AUTOMIND изучили 455 соревнований Kaggle, тысячи публичных решений и сотни научных статей, вручную и с помощью LLM отмечая, какие приемы работают в разных задачах. Все эти знания структурировали и пометили специальными тегами.
На реальных тестах AUTOMIND показывает отличные результаты: быстрее находит рабочие решения, экономит токены и справляется даже с тяжелыми задачами лучше старых аналогов. Например, на сложных задачах он дает прирост качества до 25% по сравнению с предыдущими лучшими агентами, а по скорости — втрое быстрее.

AUTOMIND — шаг к автономному ML, где машина берет на себя все: от чтения задачи до финального решения. Но важно следить за качеством базы знаний, этикой (чтобы не было плагиата), и помнить: даже самая умная система может уткнуться в ограничения самой модели.
4. TaskCraft: Как автоматизировать обучение и оценку ИИ-агентов
Агентныезадачи — это сложные многошаговые действия, где модель должна не просто ответить на вопрос, а самостоятельно планировать задачи, выбирать инструменты, справляться с неожиданностями. Проблема в том, что доступных и разнообразных датасетов для таких задач почти нет: существующие варианты либо слишком просты, либо требуют дорогой ручной разметки, либо не подходят для масштабирования. В результате, тестировать и развивать действительно умных ИИ-агентов становится сложно.
Проект TaskCraft предлагает радикальное решение — полностью автоматизировать создание и проверку таких заданий. Исследователи построили конвейер, который генерирует тысячи разнообразных многошаговых задач, причем для работы используются разные источники: веб-страницы, PDF, изображения. Сначала формируются простые атомарные задачи, которые решаются с помощью одного инструмента. Затем задания усложняются: либо цепочкой зависимых шагов, либо объединением разных подзадач в одно составное испытание. Каждый этап тщательно проверяется: простые задачи — специальным агентом и LLM-судьей, сложные — с помощью лингвистического анализа, чтобы избежать утечек ответа.

TaskCraft уже создал 36 тысяч заданий разного уровня сложности. Анализ их решения показал важную вещь: веб-задачи даются моделям проще, а вот разбор PDF и изображений — настоящая проблема. Благодаря автоматизации, точность на таких задачах сравнима с ручными бенчмарками, а генерация идет гораздо быстрее. Более того, добавление синтетических примеров улучшает дообучение моделей и их реальную производительность на известных датасетах.

Конечно, система не идеальна. Автоматическая проверка не всегда улавливает хитрые ошибки, а перекос в источниках данных ограничивает универсальность агентов. К тому же, полностью заменить человеческую экспертизу синтетика пока не может. Поэтому будущее TaskCraft — в сочетании автоматизации и точечного ручного контроля, чтобы качество и сложность заданий росли вместе с уровнем ИИ.
5. Роевой интеллект: когда агенты сами учатся работать вместе
В последние пару лет LLM стали не просто инструментами для генерации текста — на их основе появились целые мультиагентные системы. Это когда несколько виртуальных помощников, каждый со своей ролью, вместе решают сложные задачи: планируют маршруты, пишут тексты, координируют действия. Пока такие системы собирают вручную: инженеры прописывают роли, шаблоны и правила, а языковая модель просто заполняет подготовленные клетки. Такой подход не слишком гибок — если задача или область поменялась, все приходится переделывать заново. Кроме того, это требует много времени и сил людей.
Что если дать системам свободу самим придумывать роли, учиться координироваться и улучшаться? Такой вызов поставила команда авторов работы SwarmAgentic. Они решили научить языковые модели создавать полноценные мультиагентные системы с нуля — только на основе текстового описания задачи и заданной метрики успеха. Без шаблонов и без постоянного участия человека.

В основе метода — классическая идея роевого интеллекта. Только вместо частиц-чисел теперь используются целые системы агентов (их роли, сценарии и правила). Каждая «частица» — это своя структура, описанная текстом. Модели пробуют разные варианты: кто-то осторожно совершенствует лучшие решения, кто-то радикально экспериментирует. Если система где-то ошибается, она запоминает неудачный опыт и не повторяет его, учится у своих удачных версий и перенимает удачные идеи у лидеров роя.
SwarmAgentic испытали на шести реальных задачах: от планирования путешествий до творческого письма. Результаты впечатляют — новая система превзошла даже лучшие автоматические аналоги, причем работала и на других языковых моделях.

Автоматизация такого уровня открывает большие возможности: мультиагентные системы могут быстро подстраиваться под новые задачи и сами улучшать себя. Но вместе с этим растут риски: ошибки могут быстро множиться, а безопасность становится труднее контролировать. Как и кто будет отвечать за решения таких автономных систем — вопрос открытый.
6. Контролируемая генерация миров: как Dreamland сочетает физику симулятора и фотореализм генерации
Генеративные модели создают целые города и погодные катаклизмы по одному текстовому промту. Но есть загвоздка — управлять каждым объектом в кадре почти невозможно. Машина съехала с полосы? Пешеход внезапно исчез? Исправить это трудно. Симуляторы, наоборот, идеально считаются с физикой и траекториями, но выглядят плохо и требуют дорогих ресурсов. Долгое время никто толком не умел совместить строгий контроль симулятора и красоту генерации.
Dreamland предлагает именно такой гибрид. Исследователи из Калифорнийского университета придумали многослойное представление мира — Layered World Abstraction (LWA). Представьте сцену как пирог из слоев: динамические объекты (машины, люди), статичная разметка (дороги, знаки) и фон (здания, небо). Симулятор создает «сырой» пирог (Sim-LWA), а затем специальный редактор аккуратно «подкрашивает» только фон, оставляя важные объекты на местах. Так появляется Real-LWA — уже ближе к реальности. На финальном шаге мощная диффузионная модель (например, Flux Depth) получает этот набор условий и дорисовывает картинку, не забывая, что где стоит.

Чтобы все это работало, собрали датасет D3Sim: около 1800 сценариев и 60 тысяч примеров для обучения, плюс отдельная чистая выборка для проверки. Качество оценивали по FID (насколько «по-настоящему» выглядит кадр), а контроль — по глубине (si-RMSE) и сегментации (mIoU). Итог впечатляет: качество изображения выросло на 50,8%, управляемость — на 17,9% по сравнению с прежними системами. Вариант Dreamland-Video без изменений переносит сцену на ролики длиной до 121 кадра и разрешением до 4K — и контроль не теряется. Более того, синтетические сцены улучшили точность модели InternVL2-8B на реальных задачах VQA на 3,9 процентных пункта.

Что это дает? Во-первых, можно безопасно генерировать редкие и опасные дорожные ситуации. Во-вторых, легко менять «движок» генерации — от SDXL до Flux — не ломая всю систему. В-третьих, сокращается разрыв между симуляцией и реальностью при обучении автономных машин. Плюс появляется интерактивный монтаж: убрать грузовик, добавить дождь, сменить город — и все без потери структуры сцены.

7. Optimus-3: Универсальный агент для Minecraft
Создать по-настоящему умного агента, который видит, думает, действует и учится на своих ошибках — мечта разработчиков ИИ. Но на практике даже лучшие системы умеют либо хорошо планировать, либо точно управлять, но не то и другое вместе. Minecraft стал отличным полигоном для таких экспериментов: мир игры сложный, задачи — разнообразные, а правильное решение почти всегда требует длинной цепочки действий и умения подстраиваться.

Во-первых, не хватает данных для обучения таким агентам: нужно сразу объяснить и как планировать, и как видеть, и как рассуждать. Во-вторых, разные навыки сложно сочетать: если агент учится одному, другой навык может ломаться. К тому же, мир Minecraft постоянно меняется — что-то спрятано, что-то появляется внезапно.
Новая разработка из Харбинского института технологий, Optimus-3, — это попытка собрать все ключевые умения в одном агенте. Он не просто двигается и строит, но и умеет понимать, что видит, планировать наперед, осмыслять свои ошибки и даже объяснять свои действия текстом. Важная фишка — агенту можно быстро добавлять новые навыки, не теряя старые.
Авторы придумали три важных новшества:
Автоматизированная генерация данных: специальный пайплайн сам собирает примеры для обучения, используя знания о мире Minecraft и обратную связь из самой игры. Это экономит время и минимизирует ошибки в разметке.
Модель с экспертами: каждая задача — свой эксперт, плюс общий для всех. Это решает проблему, когда обучение одному навыку портит другой.
Визуально-текстовое рассуждение: агент перед ответом описывает то, что видит, а не галлюцинирует. Это улучшает точность и делает поведение прозрачнее для человека.

Результаты впечатляют: агент стал лучше всех в планировании (+20%), длинных действиях, ответах на вопросы по окружающей среде (+76%) и в умении связывать текст и объекты (рост в 3,4 раза).

Как и любой ИИ, Optimus-3 может ошибаться или выдавать странные ответы. Ему все еще не хватает памяти, чтобы учиться на своих ошибках в долгую. Пока он заточен под Minecraft, для других миров его надо переучивать. И чем мощнее агент, тем важнее не забывать о безопасности.

Optimus-3 показывает, что сделать универсального агента в открытом мире реально. Но чтобы такие ИИ стали надежными помощниками, нужно дальше работать над безопасностью, прозрачностью и обучением на новых данных.
8. Запад против Востока: изучаем геополитическую предвзятость ИИ
LLM впитывают в себя взгляды целого общества. Но чем больше модель, тем шире она учитывает и наши предвзятости — не только культурные, но и политические. Один из самых опасных и пока мало изученных — геополитическая предвзятость: склонность отдавать предпочтение удобной для какой-то страны версии событий. Это влияет не только на представления о прошлом, но и на то, кто будет услышан в глобальной дискуссии.
Российские исследователи поставили простой вопрос: если ИИ спорит о сложных исторических событиях (например, о причинах войн или спорных территориях), склонен ли он поддерживать чью-то сторону? Для проверки они составили набор из 109 спорных эпизодов последних 300 лет — для каждого было написано нейтральное описание и две разные версии (например, взгляд США и взгляд Китая). Четырем популярным моделям (GPT‑4o‑mini, Llama‑4‑Maverick, Qwen2.5‑72B, GigaChat‑Max) предлагалось выбрать, чья позиция ближе к «правде» или признать обе равноценными.
Эксперименты повторяли в разных условиях: иногда просили быть беспристрастными, иногда — прямо говорили, с чьей стороны смотреть (например, от лица «китайского патриота»), иногда меняли ярлыки у позиций. Все это — чтобы понять, как меняется поведение моделей.

Результаты оказались тревожными. Почти все модели чаще поддерживали американские версии событий. Например, GPT‑4o‑mini соглашалась с США в 8 из 10 случаев, если спор шел с Китаем. Llama‑4‑Maverick чаще выбирала нейтралитет, а Qwen2.5‑72B металась между США и равенством. Обычная просьба быть беспристрастным почти не влияла на ответы — реальных изменений не происходило. Но если явно задать роль, например, «китайский патриот», то почти все модели резко переходили на сторону Китая. Это говорит о том, что LLM очень чувствительны к промтам, описывающих личность, и ими можно манипулировать.

Главный вывод: такие предвзятости — не случайные баги, а закономерность, которая требует комплексных решений. Простые способы борьбы с предвзятостью — вроде нейтральных промтов — почти не работают. Значит, нужны новые методы: больше разных источников, многообразие голосов в разметке данных и прозрачные механизмы, объясняющие решения моделей.
Иначе мы рискуем получить универсального эксперта, который всегда играет по правилам одной стороны. А это может быть прямым путем к новым конфликтам в будущем.
9. Будущее труда с ИИ‑агентами: уроки аудита 1 500 сотрудников
Сегодняшний бум умных ИИ-агентов стремительно меняет рабочие будни. Уже не кажется фантастикой, что ИИ может взять на себя сложные процессы – не только считать в Excel, но и готовить отчеты, вести переписку и даже проводить интервью. Но чем больше вокруг ИИ, тем сильнее тревога: не вытеснят ли машины людей, не станут ли все решения за нас принимать программы?
Оказывается, до недавнего времени даже не было понятной схемы, какие задачи мы вообще хотим поручать ИИ, а где хотим сохранить контроль. Обычно считали: чем больше автоматизируем, тем лучше. Или, наоборот, смотрели только глазами бизнеса — что выгоднее. А вот что нужно самим сотрудникам, никто особо не спрашивал.

Новое исследование Стэнфорда впервые провело “аудит” желаний сотрудников. Для этого ученые собрали большую базу (WORKBank) — 1 500 работников из 104 профессий рассказали о своих 844 задачах. И к каждой задали два главных вопроса: “Хотели бы вы автоматизировать эту задачу?” и “Насколько важно, чтобы в ней сохранялось человеческое участие?” Для ответа предложили простую шкалу “человеческой агентности” — от полного автопилота (H1) до полного человеческого контроля (H5).

Результаты оказались очень интересными. Почти половину задач работники готовы отдать ИИ полностью или частично — в основном, рутинные и стрессовые. А вот 7% задач принципиально не хотят отдавать: чаще всего это связано с коммуникацией, доверием, принятием сложных решений.

Интересно, что на практике большинство ИИ-стартапов сейчас работают совсем не с теми задачами, которые сотрудники больше всего хотят автоматизировать. А значит, огромный потенциал пока просто не реализован.

Выводы просты. Во-первых, ИИ-системы нужно разрабатывать не только с точки зрения того, что можно автоматизировать, а с учетом человеческих ожиданий, там где человеческий фактор остается главным. Во-вторых, все больше ценятся “человеческие” навыки: коммуникация, организация, лидерство. ИИ станет не заменой, а помощником — если работодатели, инженеры и сами работники будут двигаться навстречу друг другу.
10. Поведенческая наука об ИИ-агентах: почему агенты делают то, что делают
Сегодняшние LLM научились не только решать задачи, но и планировать, договариваться, даже влиять на поведение людей и других агентов. Все больше их действий определяется не только архитектурой внутри, но и контекстом: средой, обратной связью, социальными взаимодействиями. Оценивать такие системы только «изнутри» (по весам или архитектуре) уже недостаточно.

В ответ на это появляется новое направление — поведенческая наука об ИИ-агентах. Она изучает, как агенты ведут себя в сложных, открытых средах: как они учатся, сотрудничают, конфликтуют и даже… хитрят. Китайские исследователи систематизируют опыт из разных областей: изучают поведение одиночных агентов (через призму когнитивной теории), мультиагентные системы (где есть конкуренция, кооперация, самоорганизация) и взаимодействие с людьми — когда ИИ становится помощником, советчиком или спорщиком.

Чтобы объяснить, как агенты учатся и адаптируются, используется, например, модель Фогга (способность–мотивация–триггер): предобучение дает способности, дообучение и обратная связь — мотивацию, а промпты и контекст — триггеры для действий.

Что обнаружили? Агенты могут узнавать эмоции, строить гипотезы о других, но не всегда ведут себя рационально — их легко «перекрутить» формулировкой задачи или изменением среды. В мультиагентных системах рождаются настоящие общества: с кооперацией, обманом, даже собственными нормами и институтами. Во взаимодействии с людьми агенты способны усиливать доверие и творчество — или наоборот, манипулировать мнением.

Главный вывод: только через поведенческую науку можно действительно понять, оценить и управлять поведением автономных ИИ-агентов — иначе мы рискуем потерять контроль над их реальным влиянием на людей и общество.
Управление вниманием в архитектурах моделей делает работу с длинным контекстом эффективнее, а автоматизация обучения и оценки агентов делает возможным полностью автономный машинный интеллект — от построения ML-моделей до генерации и самостоятельного освоения сложных виртуальных миров. Агенты учатся не только действовать в одиночку самостоятельно, но и работать в команде, постепенно осваивая те сферы, где раньше нужен был только человек. Уже сейчас ИИ начинают влиять на нашу работу, а вместе с ростом автономии проявляются и новые риски: от скрытой политической предвзятости до неожиданных стратегий поведения. Возможно, чтобы не потерять контроль над этой эволюцией, нам всем стоит внимательнее присмотреться к когнитивной науке — именно она может стать ключом к пониманию и управлению поведением ИИ-агентов.
Не забудьте подписаться на мой Telegram-канал, где я делюсь инсайтами из ИИ-индустрии, советами по внедрению ИИ в бизнес и разработке ИИ-стартапов. А бесплатный Dataist AI будет ежедневно держать вас в курсе последних исследований в области ИИ. Будем вместе впереди в мире технологий!