
Каждый месяц появляются тысячи статей об ИИ, но по-настоящему интересных не так много. В майском топе собрал для вас 10 исследований, которые уже меняют наш мир: от нейросетей, которые учатся мыслить сами и создавать видеоигры, до децентрализованного обучения ИИ, робопомощников, обученных с помощью умных очков и новых подходов к разработке и тестированию ПО.
Если хотите бытьв курсе новейших исследований в области ИИ, воспользуйтесь Dataist AI — бесплатным ботом, ежедневно обозревающим свежие научные публикации, а также подписывайтесь на мой Telegram‑канал, где я расска зываю про создание ИИ-стартапов, реальные кейсы внедрения ИИ в бизнес и делюсь своими мыслями. Поехали!
1. Децентрализованный интеллект: как обучали INTELLECT-2
Недавнее исследование проекта INTELLECT-2 доказало, что можно обучать LLM, даже если у вас нет огромного вычислительного центра с мощными видеокартами. Как это возможно? Все дело в децентрализованном обучении с подкреплением (RL).
Обычно RL требует огромных датацентров, которые доступны лишь крупным корпорациям. INTELLECT-2 меняет этот подход, позволяя модели тренироваться на множестве компьютеров, распределенных по всему миру. Любой желающий может присоединиться к сети, предоставляя свои вычислительные ресурсы для обучения.
Основная задача, которую решили авторы INTELLECT-2, состояла в том, чтобы заставить модель стабильно обучаться в условиях такой глобально распределенной сети. Для этого были созданы специальные технологии: PRIME-RL (асинхронный метод обучения), SHARDCAST (сеть для быстрой передачи данных) и TOPLOC (система проверки результатов на недоверенных узлах).

Как работает обучение? Модель генерирует рассуждения (роллауты), которые проверяются с помощью тестов и специальных наград. Авторы добавили особое условие: модель получает штраф за слишком длинные рассуждения, учась думать эффективно.
Результаты оказались впечатляющими. Уже за две недели INTELLECT-2 смог превзойти текущего лидера среди открытых 32-миллиардных моделей по математике и программированию. Интересно, что модель училась контролировать длину своих рассуждений, хотя и не достигла идеала.

Еще одно открытие — обученные заранее модели с помощью RL сложнее дообучать - они быстрее теряют стабильность.
Почему это важно? Децентрализованное RL позволяет создавать большие модели без монополии корпораций. Оно не требует огромных инвестиций в инфраструктуру и доступно открытым сообществам: достаем свои смартфоны и ноутбуки и обучаем ИИ вместе.
2. Hunyuan-Game: создание игр с помощью ИИ
Создание игр становится быстрее и проще благодаря ИИ, но одна задача по-прежнему отнимает много сил и времени — производство профессиональных игровых ассетов. Игровые компании нуждаются не просто в красивых картинках, а в детально продуманных изображениях, видео и визуальных эффектах, которые точно соответствуют стилю и техническим требованиям каждой конкретной игры.
Проект Hunyuan-Game решил подойти к этой задаче системно. Его создатели разработали платформу, которая использует глубокие знания из игровой индустрии вместе с возможностями генеративного ИИ. Платформа умеет генерировать все: от прозрачных спрайтов и текстур до сложных интерактивных видео.

Основу платформы составляют диффузионные трансформеры, обученные на миллиардах специально отобранных игровых изображений и видео. Важно, что эти данные тщательно отбирались и проходили многоступенчатую очистку, чтобы сохранить только качественный и разнообразный датасет. Также каждое изображение и видео получило детальные аннотации, позволяющие максимально точно управлять процессом генерации.

Платформа Hunyuan-Game уже доказала свою эффективность. В результате тестов выяснилось, что она превосходит существующие генеративные модели по точности соответствия запросам, эстетическому качеству и естественности движений.

Она способна создавать уникальные эффекты по текстовому описанию, поддерживать генерацию прозрачных и бесшовных текстур, а также создавать персонажей, выглядящих одинаково реалистично с любого ракурса.
Однако внедрение такой технологии несет в себе не только возможности, но и риски. С одной стороны, она значительно ускоряет процесс разработки и позволяет дизайнерам легко экспериментировать со стилями и эффектами. С другой — возникает риск нарушения авторских прав и того, что многие игры начнут выглядеть одинаково.
Таким образом, будущее игровых ассетов уже здесь, и оно предлагает огромные возможности, если удастся найти баланс между творчеством и автоматизацией.
3. Измеряем общий интеллект с помощью создания игр
Представьте, что вы обучили ИИ отлично проходить любые тесты. Можно ли сказать, что он действительно умный? Исследователи все чаще замечают: современные модели, даже успешно решая популярные задачи, часто просто запоминают примеры, не демонстрируя признаки настоящего мышления. Стандартные тесты быстро устаревают, ведь модели научились их обходить, просто запоминая ответы.
Авторы исследования gg-bench из Беркли предлагают свежий подход, чтобы проверить, способны ли LLM действительно мыслить, а не просто повторять заученное. Вместо статичных задач gg-bench использует процесс постоянного создания новых игр: одна нейросеть генерирует правила и условия, а другая пытается их понять, планировать свои действия и адаптироваться к неожиданным ситуациям.
Задача gg-bench — измерить, насколько модели могут обобщать свой опыт на совершенно новые условия. Процесс включает три шага. Сначала сильная языковая модель придумывает и описывает новую стратегическую игру, кодируя ее в виде среды, похожей на видеоигру. Затем специальный агент учится в нее играть. Для проверки используется не самый сильный агент, против которого и соревнуются тестируемые модели. Наконец, происходит фильтрация игр, чтобы оставить только рабочие и сбалансированные задачи.

Результаты удивили исследователей: известные модели, такие как GPT-4o, смогли победить всего в 7–9% случаев. В то же время модели, которые умеют явно рассуждать и планировать, показали результаты в 31–36%. Оказалось, что главное — способность строить логические цепочки и думать на несколько ходов вперед. Типичные ошибки моделей были связаны с неверной стратегией и неспособностью адаптировать правила к неожиданным ситуациям.

Главное преимущество gg-bench — его гибкость и масштабируемость. При появлении более продвинутых ИИ, бенчмарк автоматически усложняется, создавая новые задачи. Однако есть и риски: он не оценивает некоторые важные аспекты интеллекта, а зависимость от качества генерации игр может вносить ограничения.
Тем не менее, gg-bench — это шаг к живым тестам интеллекта, которые развиваются вместе с самими моделями, давая шанс узнать, насколько далеко зашла способность ИИ думать и обобщать знания.
4. Могут ли нейросети пройти видеоигры 90-х?

Нейросети уже способны решать задачи, сложные даже для человека: писать код, создавать игры и проходить логические тесты. Но справятся ли они с тем, чтобы пройти видеоигру? Ученые проверили это на играх 90-х.
Так появился VideoGameBench — тест, где ИИ пытается пройти популярные видеоигры, полагаясь только на изображение экрана и простые инструкции. Никаких промтов, никаких специальных данных — только кадры игры и описание целей.

Эксперимент из Принстона включал в себя разные жанры: от простых платформеров до сложных стратегий и головоломок. Чтобы понять, как нейросети проходят игры, ученые сравнивали действия моделей с видеопрохождениями, взятыми с YouTube. Специальный алгоритм автоматически определял, прошла ли модель ту или иную часть игры.
Результаты оказались неожиданными: ни одна модель не смогла пройти даже 1% игры полностью самостоятельно. Самая успешная модель — Gemini 2.5 Pro — прошла всего 0,48%, а GPT-4o — 0,09%. А в более легком режиме, когда игра ставилась на паузу, пока модель думала, нейросети также не впечатлили — максимум 1,6%.

Исследование выявило основные проблемы нейросетей: они легко кликают по неподвижным объектам, но теряются при движении и планировании действий в реальном времени. Модели часто делали повторяющиеся ошибки, стреляли по уже побежденным врагам или забывали свои же планы.
Несмотря на низкие результаты, ученые уверены: такой подход полезен. VideoGameBench помогает точно измерить, насколько близки нейросети к человеческой интуиции, памяти и способности планировать. Это позволит постепенно улучшать искусственный интеллект, приближая его к тому, как думает и действует человек.
Но пока до такого уровня еще далеко. Чтобы пройти видеоигры, нейросетям предстоит освоить более сложные навыки: уверенное восприятие движущихся объектов, долгосрочную память и умение быстро принимать решения.
5. Vibe Coding vs Agentic Coding: Переосмысление роли разработчика в эпоху ИИ
В мире разработки программного обеспечения прямо сейчас происходит тихая революция: привычный процесс программирования превращается в диалог человека с ИИ. Среди множества подходов к работе с LLM ярче всех выделились два направления: vibe coding и agentic coding.

Вайб-кодинг похож на живой разговор разработчика с ИИ. Ты просто описываешь, какой код тебе нужен — объясняешь идею, архитектуру, задаешь ограничения, — а модель генерирует код, который ты тут же проверяешь и редактируешь. Это похоже на творческую импровизацию: быстро, понятно и без лишней формальности. Особенно хорошо вайб-кодинг показывает себя при обучении и первых прототипах, часто разработчику приходится вручную проверять код, а качество порой может уплыть в сторону непредсказуемых ошибок.

Agentic coding — это совсем другая история. Здесь ИИ работает почти самостоятельно: получает задачи, планирует, пишет код, тестирует его и даже исправляет ошибки. Человек задает цели и проверяет финальный результат, а остальное делает агент. Такой подход отлично подходит для больших и сложных задач, таких как обновление огромного количества кода, настройка автоматического тестирования или генерация документации. Но при этом возникает риск, что ошибки останутся незамеченными, а команда разработчиков станет слишком зависимой от ИИ и потеряет навыки.

Самое интересное, что эти подходы уже начинают объединяться в гибридные решения. В них человек становится архитектором и контролером, а ИИ — автономным исполнителем, который общается с человеком через понятный интерфейс. Например, можно начать с вайб-кодинга для быстрого прототипа, а затем подключить agentic coding для финальной автоматизации и проверки.

Будущее, судя по всему, именно за такими гибридными моделями, в которых сочетаются творческая свобода человека и надежность автономного ИИ. Важнейшие задачи сейчас — научить модели прозрачности (чтобы понимать, почему ИИ принял конкретное решение), обеспечить безопасность и наладить грамотное взаимодействие команд с такими умными помощниками.

6. Как пофиксить 7 400 багов за один доллар
Программное обеспечение постоянно сталкиваются с угрозой взлома: автоматические системы находят сотни уязвимостей каждый день. Команды разработчиков просто не успевают исправлять все ошибки, и накапливается огромный техдолг по безопасности. Каждый баг требует длительного анализа и дорогостоящих запросов к LLM.
Исследователи из Google предложили интересное решение этой проблемы: вместо того, чтобы сразу искать и устранять первопричину ошибки, можно быстро поставить предохранитель прямо там, где программа ломается (так называемый подход crash-site repair). Идея проста: вставить минимальную защитную проверку, которая заблокирует атаку и даст разработчикам дополнительное время на полноценное исправление.
Для этого была создана система WILLIAMT, использующая два главных принципа. Во-первых, она автоматически находит участок кода, вызвавший сбой, и извлекает контекст без помощи LLM — это значительно экономит ресурсы. Во-вторых, для каждого типа ошибки заранее подготовлены шаблоны исправлений, где модель лишь подставляет конкретные переменные. Это снижает затраты и ускоряет процесс.

Результаты тестов впечатляют: WILLIAMT смогла самостоятельно исправить почти половину уязвимостей, потратив всего 0,0026 доллара на каждую, что в сотни раз дешевле традиционных подходов. При этом время обработки сократилось с 43 минут до менее чем одной минуты. Если же использовать WILLIAMT в сочетании с более мощными системами, то количество исправленных багов возрастает до 73,5%, а затраты снижаются почти в два раза.

Однако у подхода есть и риски. Быстрые предохранители могут случайно блокировать и правильные действия программы, нарушая ее работу. Иногда шаблоны вставляются грубо и могут сломать логику сложных функций. Но несмотря на это, подход crash-site repair открывает путь к массовому и доступному устранению уязвимостей даже в условиях ограниченных ресурсов.
7. Самообучающийся ИИ: автоматическое обучение моделей на синтетических данных
LLM прекрасно решают общие задачи, но часто теряются в сложных областях: математике, медицине, праве или финансах. Обычно, чтобы обучить модель на такие узкие задачи, нужно много данных, размеченных людьми. Это долго и дорого. Поэтому исследователи ищут подходы, чтобы модели учились сами, почти без участия человека.
Недавно MIT предложили новый подход, названный Synthetic Data RL. Главная идея — заменить труд людей синтетическими данными, созданными самой моделью.
Работает это в три этапа:
Сначала модель получает простое описание задачи и несколько примеров. Она самостоятельно ищет полезную информацию в интернете (например, в Википедии или на форумах). Затем модель-инструктор (например, GPT-4o) создает пары «вопрос-ответ», опираясь на найденные данные. Это позволяет быстро получить множество разнообразных задач без человеческой помощи.
Затем задачи подстраиваются под уровень модели. Если модель легко решает задачу — задача усложняется. Если задача слишком трудная — ее делают проще. Это помогает модели постепенно учиться решать задачи разного уровня сложности.
На последнем этапе отбирают примеры, которые модель решает не всегда, а примерно в половине случаев. Именно такие задачи оказываются наиболее полезны для обучения с подкреплением: модель учится на своих ошибках.

Результаты оказались впечатляющими. Например, в математике точность модели выросла с 62% до почти 92%, в медицине — на 9%, а в финансовых задачах — почти на 14%. При этом обучение потребовало всего около 500 синтетических задач, а добавление человеческих примеров почти не улучшило результат (!).

Но есть и риски. Если исходная задача поставлена плохо, модель будет генерировать бесполезные данные. Синтетические данные также могут усиливать ошибки или предвзятости, если не контролировать их качество.
Тем не менее, Synthetic Data RL показывает, что можно создать хорошую узконаправленную модель, просто четко определив задачу и грамотно настроив процесс ее автоматического обучения.
8. EgoZero: как научить робота мыть посуду через умные очки
Сегодня роботы с легкостью играют в шахматы, узнают лица и понимают речь. Но когда речь заходит о простых манипуляциях, вроде того чтобы сложить полотенце или положить хлеб на тарелку, даже современные роботы заметно уступают человеку.
Почему так происходит? Дело не в недостатке информации о мире — люди ежедневно выполняют тысячи действий, которые можно использовать для обучения роботов. Но обычно для этого нужны сложные и дорогие системы: камеры, датчики, калибровка. Проект EGOZERO из Беркли предлагает совершенно другой подход: учить роботов, используя только обычные видео, снятые глазами человека с помощью умных очков Project Aria.

Исследователи решили проверить, смогут ли роботы повторять человеческие действия, не имея данных о том, как их выполнять специально для робота. Они использовали записи простых бытовых задач, таких как «открыть духовку» или «стереть с доски». Эти видео превращались в компактные 3D-точки — движения пальцев и положение объектов. Точки получали с помощью алгоритмов, отслеживающих объекты и руки человека.
Затем робот учился повторять движения, основываясь только на этих 3D-точках. Никаких специальных камер или сенсоров: робот просто смотрел на объект через обычный iPhone и пытался повторить человеческие движения.

Результат удивил даже самих авторов: в среднем в 70% случаев робот успешно выполнял задачи, хотя никогда раньше их не пробовал. Простые альтернативные подходы, которые использовали только изображения или более грубые траектории, полностью провалились.

Конечно, у метода есть ограничения. Роботы зависят от точности алгоритмов, которые иногда ошибаются, а также требуют, чтобы объекты были неподвижны и чтобы камера активно двигалась.
Но главное преимущество подхода очевидно: он простой, дешевый и легко масштабируемый. Люди просто надевают умные очки и живут обычной жизнью, а роботы учатся у них естественно и без дорогих подготовок.
Проект EGOZERO показывает, что наши ежедневные действия могут стать огромной базой знаний, доступной роботам будущего. Теперь мы будем в ответственности за тех, кого обучили.
9. Социальный интеллект для машин: как MetaMind делает ИИ эмпатичным
Представьте себе чат-бота, который не просто отвечает на вопросы, но и чувствует настроение пользователя и «читает между строк». Современные LLM отлично понимают текст, но часто пропускают скрытые смыслы и эмоции. Например, когда человек говорит «Здесь холодно», он может иметь в виду простое наблюдение, намек закрыть окно или выражать дискомфорт. Человек легко угадывает такие подтексты благодаря социальному мышлению — способности понимать намерения и чувства других, известной как «теория разума» (Theory of Mind, ToM). Для компьютеров это по-прежнему сложная задача.
Чтобы решить эту проблему, исследователи создали архитектуру MetaMind — систему, состоящую из трех агентов, которые вместе моделируют социальное мышление человека.
Первый агент, ToM-агент, выдвигает гипотезы о том, что скрывается за словами пользователя, анализируя контекст разговора и учитывая предыдущий опыт общения.
Второй агент проверяет эти гипотезы на соответствие культурным, этическим и социальным нормам. Он выбирает ту гипотезу, которая наиболее правдоподобна и полезна в конкретной ситуации.
Третий агент генерирует ответ, основываясь на выбранной гипотезе, проверяя его на эмпатию и логичность. Если ответ оказывается недостаточно подходящим, агент генерирует новый.

Результаты экспериментов впечатляют: MetaMind улучшает точность социальных взаимодействий почти на 36%, а задачи на понимание намерений решает на 6% лучше, чем обычные модели. Более того, такие улучшения работают и для менее мощных моделей, показывая универсальность подхода.

Но у этой технологии есть и риски. Например, социальная память, которая помогает агентам понимать пользователей, требует строгого соблюдения конфиденциальности. Кроме того, появляется опасность манипуляций — чем лучше ИИ понимает чувства человека, тем легче ему влиять на его решения.
MetaMind — это большой шаг к более умным и эмпатичным ИИ-агентам, которые могут понимать и учитывать скрытые чувства людей. Однако впереди много работы: нужно развивать культурные базы данных, улучшать защиту личных данных и обязательно учитывать не только слова, но и жесты, мимику и другие невербальные сигналы общения.
10. Сам себе инженер: минималистичный агент с максимальными возможностями
Еще недавно LLM воспринимались лишь как умные болтуны, умеющие писать тексты и поддерживать диалоги. Сегодня они стали полноценными автономными агентами, способными планировать и решать сложные задачи. Однако существующие системы зачастую перегружены множеством заранее прописанных модулей и инструментов, что ограничивает их адаптивность и универсальность. Предугадать все невозможно, а значит, такие системы неизбежно сталкиваются с ограничениями в развитии.
Команды разработчиков из ИИ-лаборатории Принстона и китайского университета решили проверить гипотезу: а можно ли создать агента, максимально простого в своей основе, но способного развиваться самостоятельно? Основная идея — дать минимальное ядро и разрешить ему самому создавать нужные инструменты по мере необходимости.
Как это работает? В основе фреймворка Alita лежит компактный модуль прямого решения задач и несколько универсальных компонентов. Центральный агент регулярно проверяет свои способности и, если чего-то не хватает, самостоятельно придумывает новые инструменты через Model Context Protocols (MCP). Процесс прост: сначала агент осознает нехватку определенной функции, затем создает спецификацию, пишет и проверяет код, исправляет ошибки, и, если все удачно, сохраняет инструмент на будущее. Так происходит непрерывная самоэволюция.

Получив вопрос, управляющий агент запускает итеративный цикл CodeReAct для анализа задачи, выявления функциональных пробелов и инициирует мозговой штурм MCP для творческого синтеза. Система динамически осуществляет поиск в открытых источниках, генерирует скрипты и выполняет их в виртуальной среде для создания необходимых функций. Полезные из них инкапсулируются в повторно используемые MCP и сохраняются в MCP Box. В течение всего процесса управляющий агент сотрудничает с веб-агентом для получения внешней информации и постоянно интегрирует промежуточные результаты до получения финального ответа. Такой подход позволяет Alita саморазвиваться без необходимости в огромном количестве заранее прописанных инструментов и сложных ручных рабочих процессов.

Результаты впечатляют. Alita обошла конкурентов на ряде известных тестов: GAIA, MathVista и PathVQA, показав высокие показатели эффективности без сложных заранее прописанных решений. Например, на GAIA ее показатели составили 75% успеха с первой попытки. Кроме того, созданные Alita инструменты успешно используются и другими, более слабыми моделями, значительно повышая их результаты.

Таким образом, простота и способность к саморазвитию оказались мощнее сложных систем, завязанных на ручное проектирование. Но есть и риски: зависимость от уровня генерации кода, возможные ошибки безопасности и переоценка агентом собственных возможностей. Однако с развитием технологий подход Alita, где агент сам творчески развивается, может стать новым стандартом в создании автономных систем.
ИИ становится все более автономным и доступным: его можно обучать децентрализованно с помощью распределенных сетей и простых видеозаписей с умных очков. Для эффективного обучения больше не требуется огромного количества размеченных данных — модели могут дообучаться на синтетических данных, которые генерируют сами. Это открывает путь к созданию целых виртуальных миров, где ИИ-агенты могут эволюционировать и эмпатично взаимодействовать с нами, а также помогать нам в программировании и исправлении багов.
Не забудьте подписаться на мой Telegram-канал, где я делюсь инсайтами из ИИ-индустрии, советами по внедрению ИИ в бизнес и разработке ИИ-стартапов. А бесплатный Dataist AI будет ежедневно держать вас в курсе последних исследований в области ИИ. Будем вместе впереди в мире технологий!