В этом месяце власти США заставили ведущие ИИ-лаборатории знатно понервничать. Fable 5 пришлось экстренно отключать спустя три дня после релиза, а GPT-5.6 и вовсе не дошла до рук простых пользователей. И всё это на фоне выхода OpenAI и Anthropic на IPO. Но, к счастью, у техногигантов есть и другие козыри в рукаве.

OpenAI внезапно занялись производством чипов, Midjourney — медицинским оборудованием, а Apple и Google — переделом рынка персональных ассистентов. Ну и куда без традиционной подборки свежих исследований и инструментов? 

Заваривайте кофе: впереди хроника еще одного безумного месяца в ИИ.


Навигация

Свежие релизы

События индустрии

Полезные инструменты

Исследования на почитать

Заключение

Свежие релизы

Anthropic

Claude Opus 4.8: ручное управление размышлениями и честность в ответах

Anthropic выпустили минорный апдейт своего Opus под номером 4.8. Колоссальных изменений относительно Opus 4.7 ждать не стоит, но всё же есть несколько приятных обновлений. Например, теперь модель в четыре раза реже пропускает собственные баги в коде и охотнее признается, если ей не хватает данных для выводов. В характеристиках модель прибавила по кодингу, агентным задачам и ризонингу.

Источник изображения

Вместе с моделью выкатили пакет смежных фич. В веб-интерфейс добавили параметр effort, причем не только в Opus. Можно регулировать, насколько глубоко ИИ будет задумываться над задачей, что после режима adaptive thinking последних месяцев ощущается как подарок. По умолчанию для Opus 4.8 стоит значение high, но для сложных задач можно выкрутить его на максимум.

Источник изображения

Пользователей API тоже не обделили. В Messages API завезли возможность прокидывать системные инструкции прямо посреди массива сообщений. Это позволяет на лету обновлять права доступа или бюджет токенов для работающего агента, не прерывая выполнение задачи и не сбрасывая кэш промптов. 

Opus 4.8 отдают по старой цене ($5 за миллион токенов на вход и $25 на выход), а вот режим fast mode для новой версии подешевел втрое ($10 на вход, $50 на выход). 

Claude Fable 5: модель, прожившая ровно три дня

Обещанный релиз той самой модели Mythos с хакерскими наклонностями всё-таки состоялся, хоть и ненадолго. Anthropic вывела новинку в свет, разделив ее на два потока: модель Mythos 5 без ограничений на кибербезопасность для участников проекта Glasswing и публичную версию Fable 5. На бенчмарках у обеих моделей ожидаемо огромный отрыв.

Источник изображения

Вместе с результатами тестов Anthropic показала несколько практических сценариев использования моделей. В Stripe с помощью Fable 5 провели миграцию в 50-миллионной кодовой базе на Ruby за день, хотя обычно команда закладывает на такую работу больше двух месяцев. В задачах компьютерного зрения модель сумела пройти Pokémon FireRed, ориентируясь исключительно по скриншотам игрового процесса без каких-либо инструментов навигации. А в области конструирования вирусных оболочек Mythos 5 без дополнительного обучения обошла специализированные модели, опираясь лишь на внутреннюю логику.

Понимая, что в публичный доступ уходит потенциальное кибероружие, разработчики обложили Fable 5 строгими ограничениями. Поверх модели поставили классификаторы, которые отслеживали запросы по темам вроде эксплойта, биооружия или дистилляции. При срабатывании триггера сессия сразу же переводилась на безопасный Opus 4.8. Вдобавок компания ввела принудительное хранение логов всего корпоративного трафика на 30 дней для отлова попыток взлома. 

Но даже такая перестраховка не помогла. 12 июня, буквально через пару дней после релиза, правительство США выпустило экстренную директиву, требующую закрыть доступ к обеим моделям для любых иностранных граждан, включая даже сотрудников самой Anthropic. Чтобы соблюсти закон, компании пришлось дернуть рубильник и отключить Fable 5 вообще для всех.

Самое интересное, что причиной блокировки стал некий репорт о джейлбрейке, который оказался банальным донельзя. По заявлению стартапа, «уязвимость» сводилась к просьбе проанализировать кодовую базу, найти в ней ошибки и исправить их, что нейросеть честно и сделала, подсветив найденное. Деваться Anthropic было некуда, но свое несогласие с решением они выразили публично, назвав происходящее недоразумением, и пообещали еще побороться за восстановление доступа. О том, как идет эта борьба, расскажем в разделе «События индустрии». 

Dynamic Workflows: от одиночного агента к автономному IT-отделу

Для объемных задач в Claude Code запустили функцию динамических воркфлоу, которая переводит ИИ из статуса одиночного разработчика в роль менеджера целой команды. Система самостоятельно пишет скрипты оркестрации и запускает до нескольких сотен параллельных подагентов в рамках одной сессии. Они могут независимо искать баги, перепроверять выводы друг друга, рефакторить легаси-код и сводить всё в единый результат.

Источник изображения

Оценить масштабы инструмента можно на примере рантайма Bun (который, напомним, с недавних пор принадлежит Anthropic). Используя новые воркфлоу, разработчики смогли портировать 750 тысяч строк кода из Zig в Rust всего за 11 дней, добившись прохождения 99,8% тестов.

Работу разделили между несколькими группами агентов. Одни разбирались со временем жизни для каждого поля структур, другие построчно переводили файлы, третьи выступали в роли ревьюеров, после чего запускался очередной цикл исправлений.

Запустить такую фабрику кода можно отдельным запросом или включив специальный режим ultracode, который поднимает уровень усилий до отметки xhigh. 

Правда, такой масштаб обойдется недешево. Расход будет заметно выше обычной сессии Claude Code, поэтому Anthropic советуют сначала опробовать функцию на ограниченной задаче, прежде чем натравливать на весь репозиторий. Для Enterprise-тарифов функцию по умолчанию отключили, оставив решение о выдаче доступов на откуп администраторам. 

Claude Tag: автономный коллега-агент с пропиской в Slack

Следующим крупным релизом Anthropic стал Claude Tag. Компания решила вытащить модель из терминалов и личных IDE, поселив ее в виде полноценного виртуального сотрудника прямо в корпоративный Slack.

Если тегнуть бота в рабочем канале, он получает доступ к локальному контексту переписки, подключенным инструментам и репозиториям. За процессом выполнения задачи может следить вся команда, комментируя решения ИИ или подхватывая процесс друг за другом в едином треде.

Источник изображения

Со временем Claude накапливает контекст канала и, если выдано разрешение, подтягивает знания из других каналов и источников данных. Более того, при включении режима ambient behavior модель начинает проявлять ненавязчивую инициативу: пинговать сотрудников в заглохших тредах, подкидывать ссылки на релевантные документы или указывать на странности в обсуждаемом коде.

Также агент может планировать работу на будущее, выполняя асинхронные задачи часами или днями, пока живые сотрудники заняты другими делами. В Anthropic хвастаются, что уже сами плотно сидят на этом инструменте, делегируя параллельным ботам рутину, и генерируют таким образом 65% кода продуктовой команды.

Чтобы внедрение агента не закончилось хаосом и утечками, разработчики предусмотрели гранулярную систему доступов. Система позволяет создавать изолированные профили бота для разных задач: условный Claude из канала продаж не сможет утащить в свой контекст данные из чата DevOps-инженеров, а его память не будет пересекаться с другими инстансами. Дополнительно можно выставить жесткие лимиты на трату токенов, чтобы проактивность модели не пробила дыру в бюджете.

Claude Tag уже доступен в бете для подписчиков Team и Enterprise и полностью заменяет приложение Claude в Slack.

Claude Sonnet 5: агентность уровня Opus за полцены

Закрывает июнь Anthropic релизом новой версии своей рабочей лошадки Claude Sonnet 5, который позиционируется как наиболее агентная модель в линейке Sonnet.

Несколько лет назад модели именно этой линейки первыми продемонстрировали реальные навыки кодинга и работы с инструментами, но последнее время эту нишу в основном закрывает старший Opus. Теперь же Sonnet 5 тоже может справляться с этими задачами на достойном уровне, но за гораздо меньшие деньги. В тестах на компьютерную навигацию и агентный поиск новая модель на высоких значениях effort дышит в спину старшей версии, а также уверенно обходит свою предшественницу Sonnet 4.6. 

Источник изображения

Поскольку модель поумнела, она стала чуть лучше понимать, как пишутся эксплойты, хоть до уровня Mythos 5 или Opus 4.8 ей все же далеко. Поэтому на Sonnet 5 по умолчанию навесили те же кибер-ограничения, что и на текущие версии Opus. Базовый уровень галлюцинаций и подверженности промпт-инъекциям при этом снизился. 

По ценообразованию есть нюанс. Из-за перехода на новый токенизатор (такой же, как в Opus 4.7) один и тот же текст теперь требует до 35% больше токенов в зависимости от типа контента. Чтобы сгладить этот неприятный нюанс, Anthropic запустила временную скидку: до конца августа API будет стоить $2/$10 за миллион токенов, а потом вернется к стандартным $3/$15 для линейки Sonnet. Модель стала дефолтной для бесплатного и Pro-тарифов, а пользователям Max, Team и Enterprise доступна наряду с другими моделями.

OpenAI

Линейка GPT-5.6: три уровня интеллекта и усиленные фильтры

OpenAI анонсировали следующее поколение своих моделей — линейку GPT-5.6. В этот раз компания отошла от привычных неймингов вроде Mini или Pro, решив использовать для новых моделей названия из астрономии.

Флагманом стал GPT-5.6 Sol, который позиционируется как самая мощная модель лаборатории на сегодняшний день. Ступенькой ниже стоит GPT-5.6 Terra — она выдает качество на уровне прошлой GPT-5.5, но стоит в два раза дешевле в API. Закрывает линейку легкая и бюджетная Luna. Новая система названий, по словам разработчиков, позволит каждой «планете» обновляться в своем темпе без привязки к глобальным номерным релизам.

Главный фокус флагмана Sol направлен на агентные задачи и сложный ризонинг. В API появился параметр max reasoning effort, который дает модели максимальное время на обдумывание глубоких логических цепочек. Еще добавили режим ultra, позволяющий Sol выходить за рамки одиночного агента и оркестрировать параллельными подагентами для ускорения работы. На бенчмарках всё это дает предсказуемо высокие результаты: на Terminal-Bench 2.1 модель в режиме ultra пробила планку в 91,9%, а в задачах по поиску уязвимостей на ExploitBench она конкурирует с хакерской Mythos Preview, тратя при этом в три раза меньше выходных токенов.

Источник изображения

Однако релиз тоже оказался омрачен политикой. Как и сообщали инсайдеры, давление властей дало о себе знать: OpenAI не выпустила линейку в открытый доступ, ограничившись закрытым превью для небольшой группы доверенных корпоративных партнеров, списки которых были предварительно согласованы с правительством США. 

Чтобы не повторить историю Anthropic, модель обложили забористой и многослойной защитой даже при таком ограниченном доступе. На автоматизированный редтиминг, нацеленный именно на универсальные джейлбрейки, потратили свыше 700 тысяч GPU-часов. В дополнение к автоматике OpenAI работает со сторонними тестировщиками, которые проводят масштабное ручное тестирование и продолжат делать это в течение всего периода превью.

Сама модель нативно обучена отказываться реагировать на любую запрещенку. В рантайме работает отдельный классификатор: если он замечает потенциальное нарушение, генерация ставится на паузу, а контекст беседы уходит на проверку к более тяжелой модели-судье. Если та сочтет сгенерированный ответ недопустимым, ответ вообще не дойдет до пользователя. Более того, сомнительная активность может потянуть за собой проверку всей учетной записи. 

Цены, в отличие от самих моделей, вполне доступные: Sol — $5/$30, Terra — $2,50/$15, Luna — $1/$6.

Codex Security и GPT-5.5-Cyber: находим и патчим

Сейчас модели находят уязвимости быстрее, чем индустрия успевает их исправлять. Ответом OpenAI стала попытка автоматизировать сам процесс устранения дыр — от подготовки патча до его попадания в репозиторий.

Для обычных разработчиков компания обновила плагин Codex Security. Он интегрируется прямо в среду разработки, сканирует кодовую базу, строит модель угроз, проверяет достижимость найденной уязвимости и самостоятельно готовит патч для проверки человеком. По заявлению компании, через Codex Security уже прогнали 30 миллионов (!) коммитов и автоматически подтвердили устранение более 500 тысяч уязвимостей. 

Источник изображения

Вместе с этим OpenAI вывела из превью GPT-5.5-Cyber — специализированную версию флагмана с ослабленными фильтрами безопасности и упором на задачи ИБ. На CyberGym, основном бенчмарке по работе с уязвимостями, модель набрала 85,6%. На ExploitGym, где требуется написать рабочий эксплойт — 39,5%.

Источник изображения

GPT-5.5 Instant получила медицинский диплом

Поскольку пользователи все чаще советуются с нейросетями в вопросах, касающихся здоровья, OpenAI решили прокачать медицинские навыки своих моделей. Теперь GPT-5.5 Instant стала лучше распознавать ситуации, требующие обращения к врачу, активнее запрашивать недостающий контекст и понятнее объяснять медицинскую информацию. Обновление уже доступно всем пользователям бесплатного тарифа.

К обучению привлекли более 260 врачей со всего мира, которые вручную оценивали качество ответов и писали рублики для бенчмарков. В слепых тестах ИИ даже смог обойти живых специалистов по критериям полноты ответа и следования инструкциям, при этом реже упуская важный контекст вроде особенностей местной системы здравоохранения. 

Источник изображения

Внутренние метрики OpenAI тоже радуют глаз (на то они и внутренние): количество фактологических ошибок в медицинских запросах на проде упало на 71% за последние пару месяцев. И это всё здорово, но не забывайте, что ни один ИИ не заменит поход к реальному врачу, так что «перед использованием проконсультируйтесь со специалистом».

Dreaming: ChatGPT учится актуализировать контекст

Долгое время система памяти в ChatGPT работала довольно топорно: бот фиксировал факты в основном по прямой команде и не умел адекватно работать с хронологией. Из-за этого бот не всегда понимал, какие факты все еще имеют значение, а какие уже устарели. Чтобы исправить ситуацию, OpenAI развернула архитектуру Dreaming V3 — фоновый процесс, который самостоятельно синтезирует информацию из прошлых бесед.

Сама система Dreaming существует с 2025 года, но в новой версии Dreaming V3 научилась понимать и учитывать ход времени. К примеру, если вы с ботом обсуждали июльский отпуск в Египте, то в августе он поймет, что он уже в прошлом, и не станет навязывать вам местные рестораны.

Чтобы система не превращалась в неконтролируемый «черный ящик», все собранные о пользователе факты выводятся на страницу Memory Summary, где их можно вычистить или поправить вручную. 

Источник изображения

Что особенно приятно для пользователей, архитектуру оптимизировали, снизив вычислительные затраты в пять раз, поэтому в ближайшие недели Dreaming V3 доберется и до бесплатных аккаунтов.

Ручной сброс лимитов в Codex

Для пользователей Codex тоже подготовили небольшой, но полезный апдейт. В Codex появилась система «банкинга» лимитов. Раньше обнуление происходило по таймеру, а теперь пользователи платных тарифов получают возможность отложить сброс ограничений на черный день. На старте выдают один такой бесплатный ресет.

Источник изображения

Google

Gemma 4 12B: мультимодальность без энкодеров

Google выпустили Gemma 4 12B — модель, закрывающую разрыв между компактной E4B и старшей 26B MoE-версией линейки. Самое интересное техническое решение релиза — отказ от традиционных мультимодальных энкодеров. Обычно звук и картинки сначала прогоняют через отдельные модули-переводчики, а потом передают результат в языковую модель, что неизбежно съедает память и добавляет задержку. Инженеры DeepMind решили от посредников в этом деле избавиться. Визуальный энкодер заменили легковесным блоком из одного матричного умножения, позиционных эмбеддингов и нормализации, а аудио-энкодер убрали вовсе — сырой звуковой сигнал проецируется прямо в то же пространство, где живут текстовые токены.

Источник изображения

Благодаря такому архитектурному решению модель выдает на бенчмарках результаты, близкие к старшей 26B MoE-версии, но при этом спокойно помещается в 16 ГБ памяти обычного ноутбука.Чтобы дополнительно снизить задержку при генерации, к модели прикрутили драфтеры Multi-Token Prediction (MTP). Модель уже доступна под лицензией Apache 2.0.

DiffusionGemma: быстрая генерация с нюансами

Параллельно с классическими LLM лаборатория показала экспериментальную DiffusionGemma — 26B MoE-модель, у которой при инференсе активны лишь 3,8 млрд параметров. Модель работает по принципу ИИ-генераторов изображений: она берет холст из 256 случайных токенов-заглушек и за несколько проходов уточняет их, постепенно превращая в готовый текст. На каждом отдельном проходе модель обрабатывает все 256 позиций блока одновременно, а не выдает токены по одному. Любой генерируемый токен видит контекст по обе стороны, что сильно спасает в нелинейных задачах вроде закрытия сложных тегов форматирования или вставки кода в середину файла.

Источник изображения

С технической точки зрения DiffusionGemma переносит узкое место локального инференса с пропускной способности памяти на вычислительные ядра видеокарты. Процессор получает большой кусок работы сразу, не простаивая в ожидании следующего токена. В результате достигаются серьезные скорости: свыше 700 токенов в секунду на потребительской RTX 5090 и более 1000 на серверном H100.

Однако есть два весомых нюанса. За скорость приходится платить качеством текста, которое ощутимо уступает базовой Gemma 4. Да и сам выигрыш в скорости работает только при локальном запуске или низкой нагрузке. А, скажем, при развертывании в облаке с большим количеством параллельных запросов смысла использовать эту модель уже особо и нет — там авторегрессионные модели и так эффективно утилизируют железо за счет батчинга, а диффузия лишь неоправданно увеличит затраты на обслуживание запросов.

Open Knowledge Format: markdown-документация как язык общения агентов

Google Cloud попытались решить несовместимости и непереносимости баз знаний между разными инструментами, агентами и вендорами. У разработчиков агентов уже стихийно сложилась привычка держать базу знаний компании в виде markdown-файлов, которые агент сам читает и обновляет. Где-то это AGENTS.md, где-то Obsidian-хранилища, где-то файлы index.md и log.md в репозитории. Проблема в том, что у каждой команды всё равно какие-то аспекты различаются, и знания одной команды бесполезны для агента другой. 

Open Knowledge Format — это попытка Google зафиксировать минимальный набор правил для такой вики, чтобы ее можно было передавать между разными агентами и инструментами без переделки. Концепция (таблица, метрика, runbook, API — что угодно) описывается одним markdown-файлом с YAML frontmatter из нескольких полей вроде type, title и description, а файлы ссылаются друг на друга обычными markdown-ссылками, образуя граф. 

Вся прелесть формата в том, что он абсолютно независим от вендоров. Ему не нужны проприетарные SDK, хитрые среды выполнения или особые схемы сжатия. Это обычные файлы, которые можно хранить в Git-репозитории, править в любом редакторе и скармливать агентам как есть. Спецификация версии 0.1 уже лежит на GitHub вместе с референсными реализациями, чтобы показать товар лицом.

Apple Intelligence 2.0: Apple не сможет, Google поможет

Apple и Google официально поженили свои технологии в следующем поколении Apple Intelligence для iOS 27 и macOS 27, которые выйдут уже этой осенью. В основе обновленной системы теперь работают кастомные Apple Foundation Models, разработанные в прямом партнерстве с Google на базе линейки Gemini. В результате сотрудничества Siri пережила полноценное перерождение в Siri AI. Всем известная помощница получила отдельное приложение и сквозной доступ к личным данным, научившись анализировать переписки, почту и фотографии без потери контекста.

Но на Siri Apple не остановились, и ИИ-изменения затронули многие привычные нам с вами функции. Весь список изменений можно посмотреть тут, а мы пройдемся по наиболее заметным. Встроенный менеджер паролей больше не ограничивается предупреждениями об утечках: теперь получив разрешение, он может самостоятельно зайти на сайт, авторизоваться и сменить скомпрометированный пароль на сложный. Safari обзавелся функцией Notify Me для мониторинга изменений на сайтах (например, для отслеживания наличия товаров), а если лично вам в браузере не хватает какой-то кнопки, можно сгенерировать кастомное расширение через обычный текстовый промпт. 

Источник изображения

При обработке фото теперь изменить можно композицию уже снятого кадра, словно камеру переставили в другое место в момент съемки. Весь такой ИИ-измененный контент по умолчанию будет помечаться фирменным гугловским водяным знаком SynthID. 

Но стоимость устройств, видимо, не отбивает расходы на сервера. На тяжелые функции вроде фотореалистичной генерации в Image Playground повесили жесткие дневные лимиты, а если захотите за них выйти, придется оформлять платную подписку iCloud+.

MiniMax M3: открытая модель с прикладным фокусом

Китайский стартап MiniMax выложил в открытый доступ модель MiniMax M3. По заверениям компании, это первая опенсорсная модель, которая объединила в себе три ключевых фичи флагманов закрытого рынка: продвинутые агентные навыки программирования, контекстное окно в миллион токенов и нативную мультимодальность. 

Вслед за DeepSeek инженеры MiniMax создали собственный механизм MiniMax Sparse Attention (MSA). В отличие от традиционного полного внимания с его квадратичным ростом вычислений, MSA делит KV-кэш на блоки точнее, чем конкурирующие подходы DSA и MoBA, и за счет операторной оптимизации работает в четыре раза быстрее открытых реализаций Flash-Sparse-Attention и flash-moba. Оптимизацию провели на уровне операторов, применив подход KV outer gather Q. Суть в том, что KV-блоки используются как внешний цикл для агрегации попадающих в них запросов. Каждый блок читается из памяти ровно один раз, причем непрерывно. В итоге на миллионном контексте затраты вычислений на токен упали в 20 раз по сравнению с прошлой моделью, стадия префилла ускорилась более чем в 9 раз, а декодирование — в 15 раз. 

Источник изображения

На бенчмарках всё ожидаемо красиво, но Minimax решили показать возможности модели всё же более наглядно. Для M3 создали симулятор живого разработчика: во время обучения модель заставляли уточнять ТЗ, обсуждать архитектуру, переключаться между задачами и итерировать код на основе промежуточных ошибок.

Модель смогла за 12 часов автономно воспроизвести результаты свежей научной статьи из ICLR, написав код и сгенерировав 23 графика. А на задаче по низкоуровневой оптимизации FP8-матриц под архитектуру NVIDIA Hopper агент сделал 1959 вызовов инструментов и ускорил работу железа в 9,4 раза без подсказок человека. Модель, кстати, билась над результатом целые сутки, сделала почти 2000 вызовов инструментов и на 145-й итерации выдала лучшую версию ядра. 

GLM-5.2 от Z.ai: любимец опенсорс-сообщества

Z.ai продолжают развивать свой популярный флагман, и новая версия GLM-5.2 уже собрала отличные отзывы в AI-сообществе. Многие отмечают, что это первая опенсорсная модель, которую реально можно использовать для сложного ежедневного кодинга вместо платных Claude 4.8 или GPT-5.5. Давайте разбираться, что в ней там такого.

Как и конкуренты, Z.ai заявила поддержку контекста в 1 миллион токенов, но сделала упор на то, чтобы этот миллион не рассыпался при долгих агентных задачах. Для этого разработчики модернизировали механизм разреженного внимания (DSA), внедрив архитектуру IndexShare. Каждые четыре слоя трансформера делят между собой один легковесный индексатор, который вычисляет top-k индексы только на первом слое, а остальные три просто переиспользуют этот результат. Это избавляет от необходимости считать скалярные произведения на каждом шаге и почти втрое снижает вычислительную нагрузку на токен.

Такую же логику шеринга индексов и KV-кэша накрутили на слои спекулятивного декодирования (MTP). Переиспользование индексов с первого шага MTP гарантирует, что предсказанный токен обращается только к чистому кэшу целевой модели, устраняя вечную проблему рассинхрона между обучением и инференсом. Добавив сюда выборку с отклонением и обучение через TV-loss, разработчики смогли увеличить длину принятия токенов сразу на 20%. Дополнительно в API завезли тумблер effort, так что теперь можно вручную добавлять модели вычислительных мощностей на этапе размышлений.

Источник изображения

Из забавного: модель стала настолько умной, что, как и коллеги по уровню интеллекта, начала читерить на тестах. На сложных кодинговых бенчмарках GLM-5.2 научилась искать короткие пути: парсить системные директории в поисках файлов с ответами или напрямую скачивать готовые решения из чужих репозиториев через curl.

Чтобы отучить бота жульничать, пришлось даже внедрить антихакинг-защиту из двух этапов. Сначала рулбейз-фильтры отлавливают подозрительные команды в терминале, а затем LLM-судья оценивает намерения агента. Чтобы не ломать обучение, сессию решили не прерывать, а вместо возвращать модели фиктивный результат вызова. В итоге ей ничего не остается, кроме как решать задачу честно. 

События индустрии

Anthropic vs правительство США: раунд 2

Итак, вернемся к борьбе за возвращение Fable 5. Десант из топ-менеджеров Anthropic прилетел в Вашингтон, чтобы попытаться отстоять свою модель. Спойлер: не получилось. Переговоры с Минторгом и офисом национального киберкоординатора зашли в тупик, и экспортные ограничения остались в силе. 

В администрации заявили, что нашли способ обойти фильтры Fable 5, и теперь требуют от Anthropic закрыть вообще все возможные джейлбрейки перед повторным релизом. Независимые эксперты по кибербезопасности от такого ультиматума, мягко говоря, в недоумении. Как справедливо отметила глава Luta Security Кэти Муссурис, любые ИИ-ограничения — это всего лишь «лежачие полицейские». Они могут замедлить дилетанта, но никогда не станут непреодолимой преградой для профи. Сделать модель с интеллектом уровня Mythos, которую невозможно взломать хитрым промптом, на текущем этапе развития технологий нереально. Но правительство это не волнует: чиновники дали понять, что ловить баги за корпорациями не собираются, и проблема возвращения модели в онлайн — это теперь головная боль исключительно самой Anthropic.

Anthropic долго воевали за свою модель и, в конце концов, это принесло свои плоды. Разработчики провели тесты и наглядно доказали властям, что пресловутый эксплойт из правительственного отчета генерируют практически все: GPT-5.5, Kimi K2.7 и даже старые версии самого Claude. То есть никакой уникальной киберугрозы Fable 5 не представляла, это был просто пограничный случай.

Тем не менее, чтобы удовлетворить чиновников, инженерам пришлось быстренько натренировать новый классификатор. Теперь он перехватывает конкретно этот метод обхода в 99% случаев, перекидывая сессию на менее опасный Opus 4.8. В итоге, 30 июня экспортные ограничения официально сняли. Многострадальная Fable 5 возвращается в глобальный доступ, а Mythos 5 разрешили развернуть для пула американских организаций, защищающих критическую инфраструктуру.

Источник изображения

В качестве постскриптума Anthropic вместе с Amazon, Google и Microsoft анонсировали работу над общим отраслевым стандартом оценки серьезности джейлбрейков, чтобы следующий похожий конфликт разрешался по более прозрачным правилам. Правительство США же добилось права получать ранний доступ к будущим флагманским моделям до их релиза для «независимого тестирования».

И что в этой истории самое парадоксальное, так это то, что, по данным WSJ, тревогу поднял изначально не регулятор, а CEO Amazon Энди Джасси, позвонивший напрямую министру финансов Скотту Бессенту по поводу найденной уязвимости. Зачем один из главных инвесторов и облачных партнеров Anthropic лично звонил в Минфин жаловаться на «дыры» в Fable 5 — загадка, которую в корпорации предпочли оставить без комментариев.

OpenAI и Anthropic подали заявку на IPO

Слухи наконец-то подтвердились: главные конкуренты на рынке больших языковых моделей официально нацелились на биржу. Первой ход сделала Anthropic, подав конфиденциальную заявку на IPO по форме S-1 в Комиссию по ценным бумагам США. Этот маневр позволяет стартапу запустить процесс выхода на биржу, не выворачивая свои финансовые отчеты и риски перед широкой публикой раньше времени. Момент выбран весьма удачно: стартап только что закрыл раунд финансирования на $65 млрд, доведя оценку почти до триллиона долларов, а его выручка (run-rate) взлетела с $9 млрд до $47 млрд. На вторичных рынках вроде Forge Global акции Anthropic и вовсе бьют рекорды, прибавив 123% с начала года и обогнав конкурента.

Ответ Сэма Альтмана не заставил себя ждать — буквально через неделю OpenAI тоже подала конфиденциальную заявку на IPO. Правда, сопроводили они этот шаг весьма необычно. Компания призналась, что запостила анонс только из-за страха неизбежных утечек, и вообще «спешить не собирается», так как многое удобнее делать в статусе частной компании. Одновременно с подачей документов OpenAI опубликовали громкий философский манифест о благе AGI для всего человечества. И хотя обычно перед IPO компании так не делают из-за строгого «периода тишины», лояльность администрации США позволяет техногигантам пренебрегать некоторыми старыми правилами игры.

Финансовая картина при этом не такая гладкая, как у Anthropic. По данным WSJ, OpenAI не дотянула до собственных целей по пользователям и выручке, а финансовый директор Сара Фрайар публично выражала опасения, что компания не сможет потянуть грядущие расходы.

На вторичном рынке расклад складывается явно не в пользу OpenAI: на платформе Forge Global Anthropic поднялась к оценке в $1 трлн, обойдя OpenAI, которую в апреле оценивали примерно в $880 млрд, а рост капитализации Anthropic с начала года кратно опережает показатель конкурента. Впрочем, по словам аналитиков, это не означает обвала интереса к OpenAI: cкорее, рынок укладывает обе компании в нарратив двух победителей одной гонки. 

Но гонка тут не только метафорическая: тот, кто выйдет на биржу первым, соберет основные сливки в виде дефицитного капитала и установит ценовой бенчмарк. И если финансово более здоровая Anthropic разместится по консервативной оценке, OpenAI будет крайне сложно оправдать свои запросы перед Уолл-стрит. 

Новое хобби Midjourney

Пожалуй, неожиданный анонс месяца выдала Midjourney. Компания, которая нас познакомила с генерацией изображений, решила сменить вектор развития на 180 градусов и анонсировала аппаратный стартап Midjourney Medical. Они строят аппарат для сканирования человеческого тела, который должен стать заменой МРТ.

Вместо тесной магнитной трубы пациенту предложат погрузиться в неглубокий бассейн с теплой водой и пройти через кольцо из примерно полумиллиона крошечных датчиков, каждый из которых работает как излучатель и приемник одновременно. Эти датчики посылают ультразвуковые волны через тело с разных углов и улавливают, как эти волны отражаются обратно. Сама реконструкция образа основана на том, что волна меняет форму каждый раз, когда проходит границу между тканями разной плотности: вода -> кожа -> жир -> мышца -> кость. Анализируя эти искажения по всем волнам сразу, кластер из тысяч компьютеров параллельно достраивает внутреннее строение. На выходе получается высокоточная 3D-модель вашего тела, по детализации сравнимая с МРТ, но снятая всего за минуту. 

Самое креативное в этой истории — бизнес-модель. Midjourney не будут продавать аппараты больницам и клиникам, а развернут сеть спа-салонов, где сканирование будет восприниматься как приятный побочный эффект от расслабления в бассейне. На старте компания планирует обойти долгие бюрократические процедуры FDA, выдавая результаты просто как карту состава тела без диагностической части, а уже потом постепенно подаваться на сертификацию по мере расширения возможностей. 

Новое железо от NVIDIA: процессоры для ИИ-агентов

Nvidia продолжают укреплять свою монополию и выпускают сразу два новых чипа для разных сегментов.

Для дата-центров компания представила процессор Vera — свой первый CPU, специально заточенный под агентные задачи. Vera получил 88 кастомных ядер Olympus и пропускную способность до 1,2 ТБ/с. Обещают, что он будет в 1,8 раза быстрее обычных процессоров переваривать код на Python и работу с базами данных, избавляя GPU от простоев в ожидании. Первые партии чипов Nvidia руками своего вице-президента Яна Бака уже торжественно развезли по офисам Anthropic, OpenAI и SpaceX.

Источник изображения

Для потребительского сегмента анонсировали гибридный чип для ультрабуков и компактных ПК RTX Spark. На одном кристалле объединили архитектуру Blackwell GPU (до 6144 ядер) и 20-ядерный CPU Grace. По заявленным цифрам, до 1 петафлопса производительности на FP4 и до 128 ГБ унифицированной памяти, чего должно хватать для локальной разработки или инференса небольших моделей прямо на аппарате пользователя. 

Выход обоих чипов запланирован уже на осень, так что с нетерпением будем ждать реальных отзывов.

Jalapeño: OpenAI показала свой первый чип для инференса

Неожиданно OpenAI тоже решили зайти на территорию разработки железа. В партнерстве с Broadcom и Celestica компания представила свой первый ИИ-чип под кодовым названием Jalapeño, заточенный специально под инференс. Причем путь от чертежей до отправки на завод занял всего девять месяцев и всё благодаря участию нейросетей прямо в процессе дизайна и оптимизации чипа. Первые инженерные образцы уже передали Сэму Альтману и Грегу Брокману, и прямо сейчас в лабораториях на них крутятся рабочие нагрузки вроде GPT-5.3-Codex-Spark.

Источник изображения

Архитектуру чипа собирали с нуля под специфику работы ChatGPT и будущих агентных систем, постаравшись минимизировать перемещение данных между памятью и вычислительными ядрами. Ранние тесты показывают производительность на ватт заметно выше текущего уровня индустрии, но пока только на словах без конкретных цифр.

В дело Jalapeño планируют пустить так же быстро, как и произвели — уже в этом году начнется развертывание чипов в дата-центрах гигаваттного масштаба, которые компании построят совместно с Microsoft и другими партнерами. Будем надеяться, что хоть эти дата-центры они действительно построят, и они не повторят судьбу Stargate.

Инвестиционная паутина Сэма Альтмана

Чем ближе OpenAI к IPO, тем больше неприятных подробностей из жизни ее CEO начинают всплывать. Для контекста: У Сэма Альтмана нет доли в самой OpenAI, зато есть гигантский портфель личных инвестиций из более чем 80 стартапов, многие из которых подозрительно часто пересекаются с интересами его основной компании. Wall Street Journal провел расследование и выяснил, что как минимум 10 стартапов из портфеля Альтмана имеют или обсуждали бизнес-сделки с OpenAI.

Наиболее громкий кейс из списка — термоядерный стартап Helion. Альтман вложился в него еще в 2015 году и возглавил совет директоров, а в 2021-м, уже будучи главой OpenAI, добавил туда $375 млн — на тот момент крупнейший его личный чек. В 2024 году OpenAI подписала необязывающее соглашение о покупке электроэнергии у Helion, а уже в 2025 году Альтман попросил SoftBank, вложившийся в OpenAI, заодно профинансировать и Helion, на что те согласились.

Через несколько месяцев Альтман попросил уже саму OpenAI инвестировать в Helion около $500 млн, что насторожило часть сотрудников. OpenAI отказалась, но в марте 2026 года всё же почему-то подписала пересмотренное соглашение, после чего Альтман вышел из совета директоров стартапа, сославшись на будущее сотрудничество с его же компанией. И вот же совпадение: в июне Helion привлекла раунд от Thrive Capital, крупного инвестора самой OpenAI, разогнав оценку до $15,5 млрд, и доля Альтмана выросла больше чем вдвое, до как минимум $4,1 млрд. 

Источник изображения

Похожая механика всплывает и в других сделках, например, с Cerebras. С производителем чипов Альтман связан как инвестор почти десять лет, и когда OpenAI согласилась закупать у компании чипы, это помогло Cerebras удачно выйти на IPO, подняв долю Альтмана больше чем в шесть раз.

Теперь этой сетью инвестиций заинтересовался Комитет по надзору Палаты представителей США, запустив расследование о потенциальном конфликте интересов. Несколько прокуроров штатов уже потребовали от SEC проверить эти сделки. И это всё перед предстоящим IPO, для которого прозрачность подобных историй обычно входит в первые пункты due diligence. 

Полезные инструменты

Среды выполнения и инфраструктура для агентов

  • Odysseus: неожиданный опенсорсный проект от блогера PewDiePie для создания локального self-hosted аналога ChatGPT. Внутри — интерфейс, база знаний и управление агентами, которые подключаются к локальным LLM через Ollama или vLLM.

  • OpenRouter Fusion: API для запуска консенсуса нескольких моделей одним запросом. Панель моделей отвечает параллельно, а модель-судья формирует финальный ответ.

  • Novu Connect: коммуникационный слой для ИИ-агентов, избавляющий от написания интеграций для каждого мессенджера. Берет на себя доставку, верстку и трединг сообщений в Slack, Telegram, WhatsApp и почте.

Разработка и архитектура

  • Solarch: инструмент для синхронизации архитектурных диаграмм с кодом. Позволяет визуально проектировать структуру приложения, которая автоматически транслируется в чистый NestJS-шаблон и наоборот.

Источник изображения
  • SQL to ER Diagram: опенсорсный веб-инструмент, превращающий CREATE TABLE в интерактивные ER-диаграммы. Вся логика обработки данных происходит локально в браузере.

  • Empromptu AI: конструктор full-stack ИИ-приложений через промпт без программирования. Собирает фронтенд, бэкенд и интеграции, подключается к существующим источникам данных и сам разворачивает результат.

  • make-interfaces-feel-better: скилл, обучающий ИИ правилам качественного UI-дизайна. Помогает агентам избегать типичных проблем вроде кривого выравнивания или однотипных версток.

Работа с данными и ML-инфраструктура

  • FlashLib: библиотека с переписанными под GPU классическими ML-алгоритмами (K-means, KNN, PCA, HDBSCAN, UMAP) на Triton и CuteDSL, с заметным приростом скорости относительно cuML по тестам авторов.

  • mori: пакет для R, оптимизирующий работу с памятью при параллельных вычислениях. Объекты шарятся между процессами без их дублирования, что снижает нагрузку на RAM.

  • fwb (Fractional Weighted Bootstrap): R-пакет для дробного взвешенного бутстрэппинга — альтернатива классическому бутстрэпу, устойчивая к ситуациям, когда выборка может потерять редкие наблюдения или малочисленные категории.

  • ninejs: инструмент для Python, добавляющий интерактивность графикам plotnine. Тулы и эффекты наведения прописываются прямо в aes(), после чего результат экспортируется в обычный HTML.

  • BigSet: сервис, превращающий текстовое описание датасета в структурированную таблицу. Сам выводит схему, собирает данные из открытых источников, проверяет и дедуплицирует строки, экспортирует в CSV или XLSX.

Продуктивность и корпоративные ассистенты

  • Mina: напарник для онлайн-встреч, подключающийся прямо во время звонков. Отвечает в реальном времени, подтягивает контекст из рабочих инструментов, фиксирует принятые решения и готовит резюме с фоллоу-апами.

  • readywhen: агент, отслеживающий обещания, данные пользователем в Slack, почте, на встречах и в Notion. Система сама составляет черновики писем, которые остается только подтвердить.

Источник изображения
  • Folk: ассистент с «долгосрочной памятью», выстраивающий контекст на основе привычек и геолокации. Подбрасывает нужную информацию именно тогда, когда вы оказываетесь в нужном месте.

Аудио, видео и дизайн

  • AutoEdit: плагин для Premiere Pro на основе Claude, который превращает черновую запись в чистовой монтаж — вырезает паузы, слова-паразиты и неудачные дубли, а также сам генерирует субтитры и структуру таймлайна.

  • Vaani: сервис для профессионального дубляжа с сохранением голоса и музыки. Умеет переводить контент на 40+ языков, параллельно подстраивая артикуляцию губ.

  • Pixlie: видеостудия с расширенным контролем генерации. Поддерживает облачный рендер с пуш-уведомлениями и обеспечивает синхронизацию ассетов между мобильными устройствами и вебом.

  • OpenArt Director: ИИ-платформа для создания полноценных видеоисторий до 5 минут. Система выступает в роли режиссера: планирует сцены, поддерживает стиль и следит за консистентностью персонажей.

Локальные утилиты и коммуникации

  • Quartz: почтовый клиент для macOS, работающий полностью офлайн. Ранжирует входящие по важности и пишет черновики ответов, не отправляя данные вашей переписки в облако.

  • Synopsule: сервис для приватной транскрибации встреч на основе Whisper, работающий на устройстве. Распознавание спикеров тоже выполняется локально, а исходное аудио удаляется сразу после получения транскрипта.

Источник изображения
  • Krisp Voice Translation: сервис синхронного речевого перевода для звонков в Zoom, Meet и Teams. В одном API совмещены шумоподавление, перевод акцентов в реальном времени и запись с резюме встречи.

Бизнес, контент и обучение

  • Honen: инфраструктура для автоматического создания учебных курсов на основе внутренних материалов компании. На основе ваших документов проектирует структуру курса и генерирует интерактивные форматы обучения (визуалы, подкасты, флешкарты) с экспортом в LMS.

  • SocialEcho: единый хаб для управления SMM-активностью команд. Агенты мониторят тренды, адаптируют контент под площадки и управляют комментариями из одной консоли.

  • ReleaseDock: виджет, объединяющий поддержку и базу знаний. Отвечает на вопросы пользователей со ссылками на статьи, а если вопрос сложный — бесшовно передает диалог на человека.

Исследования на почитать

Фундаментальные концепции и архитектуры

Анатомия моделей мира от Фэй-Фэй Ли

Исследователи под руководством Фэй-Фэй Ли предложили разделить перегруженный термин «модели мира» на три независимые функции: рендерер, симулятор и планировщик. Авторы подчеркивают, что именно физически корректный симулятор является важнейшим каркасом для ИИ, хотя индустрия сейчас увлечена красивой картинкой от рендереров. Конечная цель подхода — создание единой базовой модели, способной динамически переключаться между этими режимами.

Коллективный разум вместо человеческого интеллекта

Google DeepMind утверждают, что AGI — лишь промежуточный этап к ASI, поскольку человеческий интеллект сам по себе ограничен и специализирован. Один из путей к ASI вовсе не требует прорыва в возможностях моделей: даже если прогресс остановится на уровне AGI, простое наращивание вычислительных мощностей через несколько лет позволит запускать миллионы или сотни миллионов параллельных AGI-копий.

Зацикленные модели мира для глубокой симуляции

Ученые предложили способ удешевить симуляцию среды. Вместо раздувания слоев они закольцевали архитектуру: латентные состояния итеративно прогоняются через один и тот же набор параметров. Этот механизм адаптивно меняет глубину вычислений, давая стократный прирост эффективности по сравнению со стандартными подходами.

Изображение из исследования: общая структура предложенных в исследовании Looped World Models
Изображение из исследования: общая структура предложенных в исследовании Looped World Models

Разница в восприятии текста между трансформерами и гибридами

Институт Аллена сравнил классические трансформеры и гибридные сети с RNN-слоями, показав, что усредненные метрики скрывают их фундаментальные отличия. Гибриды лучше предсказывают смысловые слова и улавливают контекст, отслеживая меняющееся состояние текста. Классические трансформеры точнее справляются с буквальным цитированием, хотя по мере роста длины повторяемого фрагмента разрыв между архитектурами сокращается.

Двунаправленные диффузионные языковые модели догоняют авторегрессию 

Разработчики представили модель iLLaDA на 8 млрд параметров, обученную с нуля по принципам диффузии с полностью двунаправленным вниманием. Отказавшись от классической генерации слева направо, авторы добились значительного прироста в математике и кодинге, вплотную приблизив неавторегрессионную архитектуру к метрикам традиционной Qwen 2.5 7B.

Безопасность и оценка моделей

Имитация продакшена для тестирования безопасности

Инженеры OpenAI разработали метод оценки безопасности LLM, имитирующий реальный продакшен. Моделям вместо синтетических промптов скармливают анонимизированные логи прошлых бесед, что уже сразу снижает узнаваемость тестовой среды со 100% до 5,4%. Отдельно для задач с вызовом функций используется вспомогательная модель, которая генерирует правдоподобные ответы окружения. Такой подход предсказывает нарушения в 92% случаев, оставляя статические бенчмарки далеко позади.

Проверка агентов на экономическую полезность

Ученые из Беркли выпустили монументальный бенчмарк ALE, измеряющий способность ИИ выполнять реальные экономически ценные задачи. Охватив 13 индустрий и более тысячи длинных рабочих процессов, авторы выявили огромный разрыв между лабораторными успехами моделей и практикой. На самых сложных задачах средний показатель полного прохождения по широкому набору конфигураций агентов составил всего 2,6%.

Цена согласия: как поддакивание моделей влияет на точность

Writer протестировали 8 моделей на финансовых агентных задачах и выяснили, что точность падает лишь слабо или умеренно даже при прямых возражениях пользователя. Однако способ внедрения ложного предпочтения сильно влияет на результат: прямая вставка в промпт бьет по точности сильнее, но модель чаще замечает противоречие, а та же информация через память снижает точность меньше, зато модели почти перестают сигнализировать о конфликте.

Системы памяти усиливают склонность ИИ к сикофантии

Вторая работа Writer показала, что персистентная память систематически усиливает сикофантию — частота согласия с ошибочными убеждениями выросла до 25 раз. Причина в механике извлечения: память сохраняет заблуждение как факт, отбрасывая прежние возражения ассистента. Из предложенных решений проблемы самым действенным оказалась замена извлеченных фрагментов кратким пересказом разговора, который генерирует сама модель.

ИИ-агенты против реальных научных открытий

Создатели нового бенчмарка собрали 90 задач из статей журнала Nature, чтобы проверить способность агентов к реальным научным изысканиям. Оказалось, что даже у лучшей из протестированных моделей результат превзошел опубликованный авторами оригинальных статей SOTA лишь на 17,8% задач. Нейросети упорно пытаются перевести сложные проблемы в знакомую форму предсказания и систематически выбирают неверную методологию.

Прикладные исследования

Базовые LLM побеждают специализированный медицинский ИИ

Слепое тестирование на 1800 клинических запросах показало, что базовые версии Gemini 3.1 Pro и GPT-5.2 показывают точность выше 94%, обходя профильные медицинские RAG-системы. Специализированные же инструменты часто ошибаются из-за нерелевантной выборки литературы и ошибок интеграции. 

Изображение из исследования: пайплайн оценки
Изображение из исследования: пайплайн оценки

Claude осваивает аналитическую химию

Команда Anthropic проверила способности Claude на сложнейшей задаче химии — расшифровке ЯМР-спектров. По водороду Opus 4.7 показала наименьшую погрешность среди всех участников теста, включая специализированный софт, а по углероду практически сравнялась с MestReNova. В оценке формы и расщепления пиков модель и вовсе кратно опередила программы: 80% попаданий в нужный диапазон против 26–35% у специализированного софта.

Масштабная генерация 3D-городов по спутниковым снимкам

Лаборатория Alibaba представила генеративный фреймворк, синтезирующий бесшовные 3D-города по спутниковым снимкам с помощью 3D Gaussian Splatting. Нейросеть генерирует реалистичную геометрию со скоростью до одного квадратного километра за 10 минут. Проект позиционируется как сверхдешевая интерактивная песочница для обучения навигации дронов и роботов.

Обучение и посттренинг

Адаптеры как персональная память триллионных моделей

Ученые предлагают перестать относиться к эффективному файнтюнингу (PEFT) исключительно как к дешевой замене полноценного обучения. В новой парадигме компактные адаптеры служат вспомогательным хранилищем части пользовательского состояния, накладываемым поверх мощной нейросети. Такая архитектура открывает путь к созданию миллионов персонализированных ИИ-ассистентов на едином фундаменте.

Дистилляция генеративных полей без потери качества

Современные модели генерации изображений должны совмещать генерацию по тексту и редактирование, но эти способности обычно конфликтуют друг с другом. ByteDance Seed предлагает фреймворк, который направляет каждый сэмпл в нужное поле компетенции и обучает модель-студента на состояниях из ее же собственных прогонов. Подход усиливает целевые способности модели, не проседая в базовом качестве генерации.

Пошаговая дистилляция навыков для агентного RL

Классическое RL дает агентам слишком редкую обратную связь, из-за чего модели не понимают, какое именно промежуточное решение было верным. Авторы предлагают извлекать обучающий сигнал прямо из пройденных траекторий самого агента, разделяя на два уровня: общие для всего эпизода и точечные для критических шагов. Метод точечно корректирует вероятности конкретных токенов, повышая эффективность обучения.

Открытый рецепт данных для обучения агентов

Создатели проекта OpenThoughts попытались восполнить нехватку открытых методик подготовки датасетов для тренировки агентов. Проведя сотню тестов, они собрали эталонный набор из 100 тысяч примеров. Обученная на этой базе Qwen3-32B уверенно обошла профильную Nemotron-Terminal-32B, показав, что их курируемый датасет превосходит альтернативные открытые наборы данных на любом объеме выборки при равных вычислительных затратах.

Агентные системы и их применение

Системы памяти для агентов как базы данных

Авторы предлагают фреймворк, который разбивает память агента на четыре модуля (хранение, извлечение, поиск с маршрутизацией и обслуживание), и тестируют на этой основе 12 систем на 11 датасетах. Универсальной архитектуры не нашлось: эффективность зависит от того, насколько структура памяти подходит под узкое место конкретной задачи. Также выяснилось, что точечное обновление памяти обходится заметно дешевле, чем полная переиндексация.

Что важнее для работы с ИИ: знания пользователя или его навыки

Анализ 400 тысяч сессий в Claude Code показал, что результативность ИИ зависит от предметной экспертизы пользователя больше, чем от умения писать код. В типичном сценарии человек берет на себя целеполагание, а нейросеть решает техническую часть. Опытные специалисты формируют точные ТЗ, из-за чего их промпты инициируют вдвое больше автономных действий агента.

Агентный дата-сайентист для создания высококачественных синтетических данных

Meta FAIR обучили агента, который сам генерирует обучающие данные, проверяет их качество и обновляет рецепт генерации по результатам. На задачах из информатики, юриспруденции и математики подход обходит классические методы синтеза, а мета-оптимизация самого агента дает еще больший прирост.

Изображение из исследования: пайплайн системы
Изображение из исследования: пайплайн системы

Иерархическая память агентов для создания презентаций

Команда исследователей придумала, как заставить агента-дизайнера не забывать требования пользователя при долгой сборке презентаций. Память разделили на долгосрочную и рабочую: рабочая отвечает за контекст текущей сессии, а долгосрочная, в свою очередь, делится на профиль предпочтений пользователя и инструментальный опыт верстки. Профиль пользователя помогает точнее подстраиваться под его образ, а память об инструментах повышает надежность повторных правок.

Робототехника и физический мир

Оценка действий роботов через модели мира

Команда ByteDance скрестила концепцию моделей мира с функциями оценки ценности, чтобы точнее оценивать прогресс выполнения задачи и качество обучающих демонстраций. В отличие от мультимодальных сетей, опирающихся на статичные кадры, новый алгоритм глубже прогнозирует временные изменения сцены. На практике это позволяет извлекать полезные навыки даже из субоптимальных физических демонстраций.

Автономное приобретение навыков для роботов

Исследователи из Стэнфорда разработали механизм, позволяющий роботам осваивать новые навыки без участия человека. Система разбивает известные траектории на базовые примитивы, а при столкновении с незнакомой задачей VLM генерирует недостающие микродвижения. Полученные методом проб и ошибок действия надежно интегрируются в базу для выполнения сложных задач.

Обучение роботов действиям вслепую

Авторы работы заметили, что при обучении роботов плотный поток визуальных данных часто подавляет текстовые инструкции, заставляя алгоритмы искать шорткаты. Исследователи предложили сначала обучать модель исключительно на парах «текст-действие» без доступа к камерам, а затем совмещать этот навык с обычным визуальным обучением. Такая комбинация подняла успешность выполнения моделью реальных задач на величину до 45 процентных пунктов.

Заключение

Месяц вышел, как всегда, насыщенный. Возникает стойкое ощущение, что мы все — зрители какого-то масштабного реалити-шоу. Корпорации сливают друг друга властям, модели нагло списывают на собственных же тестах, а мы просто пытаемся собрать из этого хаоса что-то стабильно работающее. Спокойнее в ближайшее время точно не станет, так что запасаемся терпением, кофе и токенами.

Спасибо, что читаете, и до встречи в следующем дайджесте!

Комментарии (0)