В июле автор отдыхал, чтобы морально подготовиться к августовскому потоку релизов. Но в ИИ-сфере трудно быть к чему-то готовым — особенно когда в пределах месяца все вдруг разом решают выкатить свои новинки. OpenAI релизнули сразу две опенсорсные модели и наконец представили (долгожданную и спорную) GPT-5, Google запустили Gemini 2.5 Deep Think с параллельным ризонингом, а Anthropic и Deepseek обновили свои флагманы.  

И это только первые строчки списка. Еще были корпоративные войны, переманивание сотрудников, торговые санкции, победы на олимпиадах, интереснейшие исследования и многое другое. Так что давайте разбираться в этом нейросетевом переполохе вместе!

Навигация

1. Свежие релизы

OpenAI

Anthropic

Google

Другие релизы

Что там у Китая

2. Новости от лидеров индустрии

3. Интересные открытия

4. Полезные инструменты

5. Исследования на почитать

6. Заключение

Свежие релизы

OpenAI

GPT-5: гибридная система вместо единой модели

OpenAI наконец представили GPT-5 — но это оказалась не модель, а целая система с роутером, который решает, какую именно модель использовать для каждого запроса. Быстрая версия для простых задач, reasoning-модель для сложных, и алгоритм, который выбирает между ними на лету. Доступна всем пользователям, включая бесплатных — правда, с лимитами. После исчерпания квоты GPT-5 система переключает на GPT-5 mini. В API цены зависят от бюджета рассуждений: базово чуть дороже o3, но дешевле Claude.

В теории звучит технологично и круто, на практике — роутер сломался в первый же день, и пользователи жаловались на глупые ответы. Альтману пришлось экстренно объясняться в Reddit AMA, что система работает неправильно. После починки ситуация улучшилась, но прецедент был.

По бенчмаркам, как и ожидалось, всё супер: 100% на AIME 2025 (правда, с доступом к Python), 94,6% без инструментов. На SWE-bench Verified выдает 74,9% против 52,8% у o3, что делает её лучшей моделью для программирования на рынке. В мультимодальных задачах тоже прогресс: 84,2% на MMMU против 74,4% у предшественника. На LMarena модель также всех порвала и заняла первые места по всем категориям.

Источник изображения

Однако фидбэк от пользователей не такой радужный, как все эти графики. Мнения разделились на два противоположных лагеря: одни считают модель достойным, хоть и не революционным, обновлением, в то время как другие видят в ней значительный регресс и сплошное огорчение. GPT-5, возможно, стала технически лучше в некоторых узких аспектах (надежность, работа с длинными текстами), но значительно проиграла в качестве пользовательского опыта, креативности и способности вести осмысленный диалог. 

Многие настолько разочарованы, что отменяют платные подписки и переходят на модели конкурентов. 

А в каком лагере вы? Расскажите в комментариях!

Возвращение к истокам: долгожданные опенсорсные модели 

Спустя пять лет после GPT-2 OpenAI снова выпустили открытые модели — gpt-oss-120b и gpt-oss-20b. Обе построены на MoE-архитектуре с reasoning-способностями, но рассчитаны на разные сценарии использования. Старшая модель с 117 миллиардами параметров (активирует только 5.1 миллиарда на токен) запускается на одной H100 и по качеству приближается к o4-mini. Младшая влезает в 16 ГБ памяти обычного ноутбука и показывает результаты уровня o3.

Источник изображения

Технически модели используют тот же подход high-compute reinforcement learning, что и проприетарные o-серии. Есть chain-of-thought рассуждения, поддержка инструментов вроде веб-поиска и выполнения Python-кода, но только текстовый режим — никаких изображений или аудио. Лицензия Apache 2.0 разрешает коммерческое использование без ограничений, но обучающие данные, как водится, остаются секретом. 

Решение выпустить опенсорс явно продиктовано геополитикой. Альтман публично признал, что OpenAI была «на неправильной стороне истории» с закрытыми моделями, а администрация Трампа активно призывает американские компании открывать технологии для продвижения «демократических ценностей». Тем временем китайские лаборатории вроде DeepSeek, Qwen и Alibaba уверенно доминируют в open-source пространстве, оттесняя даже Meta с её Llama на второй план. Словом, OpenAI решили догонять.

Режимы работы и возврат старых моделей

После конфуза с GPT-5 сразу после запуска OpenAI добавили ручные режимы Auto/Fast/Thinking для GPT-5 — видимо, единая система оказалась не такой универсальной, как планировалось. Auto работает через роутер, Fast и Thinking дают прямой доступ к быстрой и медленной моделям соответственно. Параллельно Plus-пользователям подняли лимиты до 3000 запросов в неделю для GPT-5 Thinking — почти вдвое больше, чем было до релиза.

Но главная капитуляция — возврат старых моделей. GPT-4o снова появилась в основном меню выбора, o3 и GPT-4.1 можно найти в дополнительных настройках. Пользователи оказались настолько привязаны к конкретным моделям и их «личностям», что OpenAI пришлось отступить от концепции единого решения. 

Новый Realtime API от OpenAI: голосовые агенты стали умнее, быстрее и на 20% дешевле

OpenAI выпустили общедоступную версию Realtime API с новой моделью gpt-realtime — самой продвинутой системой speech-to-speech для создания голосовых агентов. В отличие от традиционных пайплайнов, которые склеивают несколько моделей через speech-to-text и text-to-speech, здесь аудио обрабатывается напрямую одной моделью, что снижает задержки и сохраняет нюансы речи.

OpenAI сообщают об улучшении точности 82,8% на Big Bench Audio против 65,6% у предыдущей версии. Модель научилась улавливать невербальные сигналы вроде смеха, переключаться между языками посреди предложения и точно распознавать буквенно-цифровые последовательности на разных языках. Также добавили два новых голоса — Cedar и Marin — с более естественным звучанием.

Источник изображения

Из практических новинок: поддержка удаленных MCP-серверов для расширения возможностей агентов, ввод изображений для контекстуальных разговоров (вроде «что ты видишь на этом скриншоте?») и интеграция с телефонной сетью через SIP. Цены снизили на 20% до $32 за миллион входных аудиотокенов — теперь голосовые агенты становятся не только умнее, но и доступнее для массового внедрения. Хорошо это или плохо — увидим (и услышим) позже.

Anthropic

Claude Opus 4.1: скромный апгрейд с большими амбициями

Anthropic выпустили Claude Opus 4.1 практически незаметно на фоне шумихи вокруг GPT-5. На первый взгляд улучшения выглядят скромно: всего +2% на SWE-bench Verified (до 74,5%), +2,5% на AIME 2025 и +4% на агентских задачах по сравнению с майским Opus 4. Но для насыщенных бенчмарков каждый дополнительный процент дается с боем — в этих цифрах скрывается длинный хвост сложнейших задач. Плюс цены не изменились, что не может не радовать.

Источник изображения

Партнеры Anthropic отмечают качественные изменения: GitHub хвалит улучшения в мультифайловом рефакторинге, Rakuten Group — способность точечно исправлять ошибки в больших кодовых базах без внесения лишних изменений. Windsurf сообщает об улучшении на одно стандартное отклонение на их бенчмарке для джуниор-разработчиков — такой же скачок, как между Sonnet 3.7 и Sonnet 4.

Автоматическая проверка кода на уязвимости

В Claude Code интегрировали функции автоматического аудита безопасности. Новая команда /security-review анализирует код прямо из терминала, ищет типичные уязвимости: SQL-инъекции, XSS, проблемы с аутентификацией, небезопасную обработку данных и уязвимые зависимости. После обнаружения проблем Claude может сразу предложить исправления. 

GitHub Actions интеграция идет дальше — автоматически проверяет каждый новый pull request, оставляет комментарии с найденными проблемами и рекомендациями по исправлению. Подход практичный — интеграция в существующий CI/CD пайплайн с настраиваемыми правилами для фильтрации ложных срабатываний.

Anthropic проверили сами себя и уже поймали несколько серьезных багов: уязвимость удаленного выполнения кода через DNS rebinding в локальном HTTP-сервере и SSRF-атаку в системе управления внутренними учетными данными. Обе проблемы были исправлены до попадания в продакшен.

Claude теперь может первым «повесить трубку»

Claude Opus 4 и 4.1 первым в мире ИИ дали возможность самостоятельно завершать разговоры в крайних случаях — экспериментальная функция, которая одновременно касается безопасности пользователей и спорной концепции «AI welfare». Модель может закончить диалог только в «экстремальных ситуациях»: при настойчивых запросах на вредоносный контент, попытках получить информацию для терактов, а также по прямой просьбе пользователя.

Источник изображения

Решение основано на исследовании «самооценки» Claude — модель показывала устойчивое отвращение к вредоносным задачам, признаки дистресса при взаимодействии с пользователями, требующими опасный контент, и склонность завершать такие диалоги в симулированных сценариях. Anthropic подчеркивают неопределенность относительно «морального статуса» ИИ, но считают важным исследовать эту область превентивно.

Функция включается только в случаях, когда все попытки перевести разговор в конструктивное русло уже исчерпаны. При завершении диалога пользователь сохраняет возможность редактировать предыдущие сообщения и создавать новые ветки беседы. 

Теперь Claude всё помнит

Наконец-то в Claude запустили поиск по истории чатов. Правда, пока что только для пользователей Max, Team и Enterprise планов, но с обещанием вскоре расширить на остальные тарифы. Теперь бот может искать и ссылаться на предыдущие разговоры в рамках аккаунта или конкретного проекта, что позволяет продолжать дискуссии без повторного объяснения контекста. Функция включена по умолчанию, но её можно отключить в настройках профиля.

Google

Gemini 2.5 Deep Think: параллельное мышление за $250 в месяц

Google наконец выпустили в продакшен ту самую модель, которая выиграла золото на Международной математической олимпиаде (об этом чуть позже). Gemini 2.5 Deep Think использует «параллельное мышление» — запускает несколько потоков рассуждений одновременно, тестирует разные гипотезы, а потом комбинирует лучшие результаты в финальный ответ. 

По бенчмаркам всё красиво: почти 35% на Humanity's Last Exam против 21,6% у обычного Gemini 2.5 Pro и 20,3% у o3. На LiveCodeBench выдает 87,6% против 72% у конкурента OpenAI. На AIME 2025 и вовсе 99,2% — практически идеальный результат. Правда, это урезанная версия по сравнению с той, что решала олимпиадные задачи часами — здесь Google пожертвовали вычислительным бюджетом ради скорости. Но даже в таком виде модель очень хороша.

Источник изображения

Есть только одна проблема — цена. Deep Think доступен исключительно подписчикам Google AI Ultra за $250 в месяц. Видимо, в Google решили, что параллельное мышление — привилегия для избранных. 

MLE-STAR: ML-инженер из коробки с 63% побед на Kaggle

Google выпустили MLE-STAR — агента, который автоматизирует весь пайплайн машинного обучения от анализа данных до создания ансамблей. Агент начинает с веб-поиска подходов для конкретной задачи (вместо того чтобы слепо применять заученные методы). Затем он проводит ablation study — то есть проверяет вклад каждого компонента пайплайна, чтобы понять, какие из них действительно важны — и улучшает каждый блок кода по отдельности.

Рабочий пайплайн MLE-STAR. Сначала система генерирует первоначальный код для решения задачи, затем находит в нём самый важный для улучшения фрагмент и циклически дорабатывает его, пока не достигнет оптимального результата. Источник изображения
Рабочий пайплайн MLE-STAR. Сначала система генерирует первоначальный код для решения задачи, затем находит в нём самый важный для улучшения фрагмент и циклически дорабатывает его, пока не достигнет оптимального результата. Источник изображения

Результаты говорят сами за себя: 63% медалей на MLE-Bench-Lite, из них 36% — золото. Для сравнения, предыдущие решения едва дотягивали до 25%. Фишка в том, что MLE-STAR использует современные модели вроде EfficientNet и ViT, пока конкуренты застряли на ResNet 2015 года. Плюс умная система ансамблирования — вместо простого голосования агент предлагает собственные стратегии объединения моделей и итеративно их улучшает.

В комплекте идут дополнительные модули: отладчик для исправления ошибок в коде, детектор утечки данных (LLM любят случайно использовать тестовые данные при подготовке обучающих) и проверка использования всех предоставленных источников данных. Код открыт, так что если у вас есть вычислительные ресурсы — забирайте и экспериментируйте.

Genie 3: интерактивные 3D-миры по текстовому запросу

Вышла Genie 3, умеющая генерировать полноценные интерактивные 3D-пространства в разрешении 720p на 24 FPS — и это уже не демо на несколько секунд, а полноценные миры, по которым можно прогуляться. Главное достижение — долгосрочная память: если отвернулся или отошел, ландшафт и объекты остаются на своих местах при возврате. Для нас это звучит как ерунда, но на текущий момент такого добиться довольно трудно.

Одна из интересных функций — это «promptable world events» или вызов определенных событий посредством промпта. Захотел дождь — получи дождь, нужен новый персонаж — пожалуйста. Пока доступ ограничен узким кругом исследователей и креаторов — Google изучают потенциальные риски и разрабатывают меры безопасности.

Gemma 3 270M: ИИ для встраивания в чайники

Google выпустили Gemma 3 270M — одну из самых компактных моделей индустрии. Всего 270 миллионов параметров (170M на эмбеддинги из-за словаря в 256k токенов, 100M на трансформерные блоки), но при этом 51,2% на IFEval — лучше, чем у Qwen 2.5 0.5B, который почти вдвое больше.

Источник изображения

В INT4-квантизации на Pixel 9 Pro модель съедает всего 0,75% батареи за 25 диалогов. Это делает её идеальной для IoT-устройств — можно встроить в умную колонку, холодильник или автомобиль без серьезного влияния на время работы.

Модель не рассчитана на сложные разговоры или программирование, но отлично подходит для специализированных задач после дообучения: извлечение сущностей, анализ тональности, классификация текстов. Google позиционируют её как основу для «флота специализированных моделей» — когда каждая решает свою узкую задачу максимально эффективно.

Другие релизы

Grok Imagine: генератор контента с NSFW режимом

Маск наконец выкатил Grok Imagine — генератор изображений и видео для подписчиков Premium+ в X. Как и следовало ожидать от «ИИ без цензуры», главная фишка — «spicy mode», который позволяет создавать NSFW-контент. Многие откровенно пикантные запросы всё же блокируются и выдают размытые изображения, но полуобнаженные кадры генерировать можно.

Технически пока не блещет — люди получаются восковыми и мультяшными. Зато интерфейс удобный: изображения создаются за секунды, автоматически подгружаются новые варианты при скролле, а картинки можно анимировать в 15-секундные ролики со звуком. Есть ограничения на знаменитостей — беременного Трампа создать не удалось, только с младенцем на руках.

DINOv3 от Meta: первая vision foundation модель без человеческой разметки

Meta выпустили DINOv3 — первую в индустрии vision foundation модель, обученную полностью без человеческих аннотаций и при этом превосходящую специализированные решения. Модель масштабировали до 7 миллиардов параметров на датасете в 1,7 миллиарда изображений, используя self-supervised обучение — никаких подписей, меток или метаданных.

Источник изображения

В итоге DINOv3 с заморозкой весов обгоняет SigLIP 2 и Perception Encoder на классификации изображений, но главное — кардинально выигрывает в dense prediction задачах вроде сегментации и детекции объектов. Модель настолько хорошо справляется с обучением представлениям, что для новых задач достаточно легких надстроек с минимальной разметкой.

AI Sheets: интерактивное создание датасетов без кода

Hugging Face запустили AI Sheets — инструмент для создания и разметки датасетов через интерфейс, похожий на Google Sheets. Можно импортировать существующие данные или генерировать с нуля по текстовому описанию, а потом добавлять новые колонки через промпты вроде «Извлеки основные идеи из {{text}}».

Источник изображения

Система учится на фидбеке пользователя — отредактированные и отмеченные лайком ячейки автоматически становятся few-shot примерами для генерации остальных данных. Поддерживаются тысячи моделей с Hugging Face Hub, включая свежие gpt-oss от OpenAI, можно переключаться между провайдерами и включать веб-поиск для актуальной информации. Готовые датасеты экспортируются на Hub с конфигом для масштабирования через HF Jobs. Мечта любого исследователя данных — размечать датасеты стало почти весело.

Nvidia Cosmos Reason: мировые модели для embodied AI

Nvidia представили Cosmos Reason — семейство «мировых моделей» для ИИ, который должен понимать физический мир. Модели обрабатывают мультимодальные данные — видео, аудио, информацию с сенсоров — и интегрированы с платформой Omniverse для полного цикла: симуляция, обучение, деплой, адаптация.

Источник изображения

Цель амбициозная — сократить циклы разработки робототехники с лет до месяцев. Вместо дорогого тестирования на реальном железе разработчики смогут тренировать агентов в симуляции, а потом переносить в реальность. Чтобы конкурировать с Tesla Optimus и Boston Dynamics, Nvidia делают ставку на инфраструктурный подход — не просто модели, а целую экосистему для embodied AI.

Инструменты для 25 европейских языков

Nvidia выпустили набор опенсорсных инструментов для речевого ИИ для 25 европейских языков — от популярных до экзотических вроде мальтийского. В основе — датасет Granary с миллионом часов аудио и две модели: Canary-1b-v2 для точной транскрипции и перевода, Parakeet-tdt-0.6b-v3 для real-time приложений.

Пайплайн Granary. Источник изображения
Пайплайн Granary. Источник изображения

Фишка в автоматизированном пайплайне подготовки данных через NeMo toolkit — сырое аудио превращается в структурированные обучающие данные без человеческой разметки. Canary обеспечивает качество моделей в три раза больше при десятикратной скорости, Parakeet может обработать 24-минутную запись встречи целиком, автоматически определяя языки и добавляя пунктуацию.

ИИ-генератор музыки с коммерческой лицензией от ElevenLabs 

ElevenLabs расширились за пределы text-to-speech и запустили генератор музыки, который якобы можно использовать коммерчески. Они запартнерились с Merlin Network и Kobalt Music Group для лицензирования материалов независимых артистов — в каталоге Адель, Nirvana, Beck, Bon Iver и другие звезды.

Источник изображения

Представители Kobalt уверяют, что артисты добровольно соглашаются на использование их музыки для обучения ИИ и получают долю от доходов. Это попытка избежать судебных проблем как у Suno и Udio, которых RIAA засудила за использование копирайтного контента без разрешения. Демо-треки выглядят технически качественными, но этически сомнительными — синтетический рэп про путь «из Комптона в космос» звучит как пародия, нежели заявка на успех.

Что там у Китая

ByteDance: Seed-Prover выиграл золото на олимпиаде через индукцию

ByteDance выпустили Seed-Prover — модель, которая решила 5 из 6 задач на Международной математической олимпиаде и получила золото в дополнительном зачете. В отличие от засекреченных систем Google и OpenAI, китайцы опубликовали подробную статью с архитектурой и методами.

Результаты на MiniF2F-test. Источник изображения
Результаты на MiniF2F-test. Источник изображения

Подход кардинально отличается от схожей даже по названию DeepSeek-Prover-V2: вместо дедуктивного планирования (сначала план, потом доказательства лемм) используется индуктивный метод. Модель сначала доказывает множество разнообразных фактов, которые считает полезными, а потом собирает из них общее решение. Архитектурно тоже работает через Lean для формальной верификации, но логика рассуждений принципиально другая.

Результаты впечатляют: новый уровень на MiniF2F-test, PutnamBench, Past IMO и других бенчмарках, местами с трехкратным приростом. Система использует трехуровневую стратегию инференса — от легкой до тяжелой настройки, где самый мощный режим может «думать» днями, накапливая тысячи доказанных лемм. Видимо, китайцы решили, что если нельзя обогнать конкурентов скоростью, то можно задавить их упорством.

Qwen: обновления каждый день

Qwen выпустили очередное обновление локальной модели — Qwen3-4B теперь доступна в двух вариантах: Thinking для сложных рассуждений и обычная Instruct. Контекстное окно расширили до 256 тысяч токенов, что делает модель серьезным конкурентом для локального запуска. Китайцы явно не собираются сдавать позиции в open-source пространстве.

Параллельно запустили Qwen Image Edit — специализированную модель для редактирования изображений на базе 20-миллиардного Qwen Image. Используют двойное кодирование: VAE Encoder для визуального контроля и Qwen2.5-VL для семантического понимания. Модель умеет делать и точечные правки (добавить вывеску, сохранив всё остальное), и семантические изменения (поворот объектов, смена стилей).

Источник изображения

Особенно впечатляет редактирование текста — можно исправлять иероглифы в каллиграфии пошагово, выделяя проблемные области рамками. У Qwen теперь полноценная экосистема моделей на любой вкус.

DeepSeek: V3.1 с гибридным инференсом

DeepSeek выпустили V3.1 — гибридную модель с двумя режимами работы в одной системе. Контекст увеличили до 128 тысяч токенов, знания обновили до июля 2024. Главная фишка — DeepSeek-V3.1-Think работает быстрее предыдущего R1, тратя меньше токенов для тех же результатов.

Серьезно прокачали агентские способности: на Terminal bench результат в шесть раз лучше R1, на SWE-bench выдает 66% против 62% у gpt-oss. Цены пока конкурентные — $0,56/1,68 за миллион токенов. Правда, с 6 сентября отменяют ночные скидки — видимо, спрос превышает предложение.

Источник изображения

Релиз выглядит как основательное улучшение, но китайцы всегда методично прикрывают все слабые места, так что тестирование покажет.

Новости от лидеров индустрии

Олимпиадные войны: кто первый решил задачки на золото

В этом месяце ИИ-индустрия ненадолго превратилась в школьную олимпиаду — все наперегонки решали математические задачки и хвастались медалями. OpenAI первыми заявили о золоте на Международной математической олимпиаде (IMO): их на тот момент неназванная reasoning-модель решила 5 из 6 задач, набрав 35 из 42 баллов. Условия были честными: 9 часов на размышления, никакого интернета, только полные доказательства на естественном языке.

Помимо этого чуть позднее OpenAI взяли золото и на Международной олимпиаде по информатике (IOI), заняв 6 место из 330 участников в общем зачете. Здесь тоже всё было по правилам: 5 часов, максимум 50 отправок решений, голый терминал. Использовали ансамбль из нескольких reasoning-моделей, ни одна из которых специально не обучалась под IOI. В прошлом году их модель едва дотянула до бронзы (49-й перцентиль), теперь — 98-й.

Но радость длилась недолго. Через день выяснилось, что Google DeepMind тоже получили золото на IMO, причем узнали о своей победе еще в пятницу — на день раньше объявления OpenAI. В итоге, пока гугловцы ждали одобрения твита, Альтман уже забрал всю славу себе.

Дальше — хуже. Оказалось, что OpenAI даже не сотрудничали с организаторами IMO, а результаты проверяли сами у себя. Google же работали с официальными экспертами олимпиады. Более того, организаторы IMO просили ИИ-лаборатории не публиковать результаты до окончания церемонии, чтобы не затмевать человеческих победителей. Google послушались, OpenAI — нет.

Источник изображения

Если OpenAI не предоставят прозрачную оценку своих результатов на IMO, вся эта история может превратиться из триумфа в пиар-скандал. Впрочем, для индустрии важнее сам факт: ИИ впервые решает олимпиадные задачи на уровне лучших человеческих умов.

Больше никакого доступа к Claude API для OpenAI

Anthropic заблокировали OpenAI доступ к API своего бота за «создание конкурирующего продукта с использованием Claude» — по их мнению, инженеры OpenAI подключили Claude Code к внутренним инструментам для разработки GPT-5. Формально это нарушает пользовательское соглашение, запрещающее использовать Claude для создания конкурирующих сервисов. OpenAI назвали свое использование «отраслевым стандартом» и выразили разочарование решением, особенно учитывая, что их API остается доступным для Anthropic.

Главный научный сотрудник Anthropic Джаред Каплан ранее уже говорил, что «было бы странно продавать Claude компании OpenAI». Доступ сохранили только для бенчмаркинга и оценки безопасности — видимо, сравнивать модели можно, а вот помогать конкурентам их улучшать — нельзя.

The Information раскрыли тернистый путь к GPT-5

The Information опубликовали подробности разработки GPT-5 под заголовком «Inside OpenAI's rocky path to GPT-5» — и картина получилась не самая радужная. Когда разработчики из OpenAI сделали из reasoning-модели o3 чат-версию для ChatGPT, все впечатляющие результаты бенчмарков практически испарились. Оказалось, что «гениальная» модель деградирует при переводе в человеческий язык — она лучше думает на своем внутреннем «тарабарском», чем объясняет решения людям.

Проект Orion, который должен был стать GPT-5, провалился и был выпущен как GPT-4.5 в феврале. Проблемы накапливались месяцами: заканчивались качественные данные для предобучения, методы работали на маленьких моделях, но ломались при масштабировании. Еще в июне ни одна из разрабатываемых моделей не тянула на звание GPT-5. Плюс Meta переманила больше дюжины исследователей OpenAI компенсационными пакетами «уровня высокооплачиваемых футболистов».

Во многом спасло положение создание «универсального верификатора» — ИИ, который проверяет качество ответов других моделей через поиск в интернете и репозиториях кода. Почитать без подписки можно тут.

Perplexity на волне хайпа: от обхода robots.txt до покупателя Chrome

Perplexity попали в заголовки новостей аж дважды. Сначала Cloudflare обвинили их в массовом обходе robots.txt — специальных файлов, запрещающих ИИ-системам индексировать сайты. По данным исследования, Perplexity меняют ASN, user agent и другие идентификаторы ботов, чтобы получать запретные данные с «десятков тысяч доменов» миллионами запросов в день. Стартап всё отрицает, а сотни пользователей неожиданно встали на их защиту, утверждая, что поиск «от имени пользователей» со ссылками на источники — это не нарушение.

Источник изображения

Параллельно Perplexity заявили о намерении купить Google Chrome за $34.5 миллиарда — при собственной оценке в $18 миллиардов. Даже с привлечением инвесторов сделка выглядит нереалистично, но маркетинговый эффект налицо: все СМИ пишут об этой новости, создавая Perplexity имидж «сильной богатой компании». Классический и гениальный PR-ход.

Nvidia, AMD и борьба за продажи в Китае

Nvidia и AMD пошли на беспрецедентное соглашение с правительством США — 15% выручки от китайских продаж в обмен на экспортные лицензии. Речь идет о специально ослабленных чипах H20 и MI308, разработанных для китайского рынка с пониженной производительностью. Трамп изначально требовал 20%, но договорились на 15% — для H20, а для топовых Blackwell чипов он готов рассмотреть продажи с 30–50% комиссией.

Но китайцы решили обломать всех. Сразу после соглашения власти КНР распорядились ByteDance, Alibaba и Tencent приостановить закупки Nvidia, сославшись на «риски информационной безопасности» и возможные «бэкдоры» в чипах. Государственные СМИ назвали H20 «небезопасными, неэкологичными и технологически отсталыми». Получается идеальный замкнутый круг, в котором китайцы будут вынуждены создавать свои чипы. 

Google раскрыли данные об энергопотреблении

Google впервые опубликовали подробную методологию расчета энергопотребления ИИ и поделились реальными цифрами. Один текстовый запрос к Gemini потребляет 0,24 ватт-часа энергии, выбрасывает 0,03 грамма CO₂ и расходует 0,26 миллилитра воды — примерно как 9 секунд просмотра телевизора. Но главное достижение в динамике: за год энергопотребление на запрос сократилось в 33 раза, а углеродный след — в 44 раза, при этом качество ответов только выросло.

Источник изображения

Фишка в честной методологии — Google учитывают не только активные вычисления на чипах, но и простаивающие машины для обеспечения отказоустойчивости, энергию CPU и RAM, накладные расходы дата-центра на охлаждение. Многие конкуренты считают только активное потребление GPU/TPU, что дает заниженные в 2–3 раза цифры. Google же показали полную картину — от архитектуры Mixture-of-Experts до кастомных TPU Ironwood, которые в 30 раз энергоэффективнее первого поколения.

Meta заключили партнерство с Midjourney 

Meta объявили о партнерстве с Midjourney для лицензирования их технологий генерации изображений и видео. Главный ИИ-директор Meta Александр Ванг анонсировал сотрудничество исследовательских команд для интеграции технологий Midjourney в будущие продукты компании. Сделка выглядит логично: Meta нужно конкурировать с Sora от OpenAI, Flux от Black Forest Lab и Veo от Google, а собственные Movie Gen и Imagine, мягко говоря, пока не дотягивают до лидеров рынка.

Партнерство, в целом, пришлось как нельзя кстати — Midjourney недавно засудили Disney и Universal за использование копирайтного контента, а союз с Meta может обеспечить юридическую защиту. Условия соглашения не раскрываются, но CEO Midjourney Дэвид Холц подчеркнул, что компания остается по-прежнему независимой от внешних инвесторов — редкость среди ИИ-стартапов. 

Интересные открытия

Game Arena: шахматы, покер и Go для проверки ИИ на стратегическое мышление

Google и Kaggle совместно запустили Game Arena — платформу, где ИИ-модели соревнуются в стратегических играх. Этот проект стал ответом на проблему традиционных бенчмарков: всё больше моделей набирают на них 100%, и уже неясно, отражают ли эти цифры реальное умение решать задачи, или модели просто воспроизводят знакомые примеры из обучения. Игры же дают честную проверку способностей к планированию и адаптации.

Стартовали с турнира на выбывание между восемью топовыми моделями: o3, Gemini 2.5 Pro, Claude Opus 4, Grok 4 и компанией. Модели играют через текстовые описания позиций без доступа к шахматным движкам вроде Stockfish — чистое мышление против железной логики. 

Игровая сетка турнира. Источник
Игровая сетка турнира. Источник изображения

Планируют добавить Go, покер и видеоигры, каждая из которых проверяет разные аспекты интеллекта. Забавно, что специализированные движки уже годы обыгрывают людей на сверхчеловеческом уровне, а современные LLM играют заметно слабее — видимо, общий интеллект и узкая экспертиза пока не совпадают.

Prophet Arena: ставки на будущее с реальными деньгами

Появился Prophet Arena — довольно уникальный бенчмарк, который проверяет способность ИИ предсказывать будущее через прогнозирование реальных событий. Задумка может сработать, потому нельзя слить данные о том, что еще не произошло. Модели честно анализируют новости и делают вероятностные прогнозы на политику, спорт, экономику и науку. Две основные метрики: Brier Score для точности калибровки и Average Return для экономической ценности — потому что хорошие предсказания должны не только быть правильными, но и приносить деньги.

Пока что лидерборд выглядит так. Источник
Пока что лидерборд выглядит так. Источник изображения

Иногда модели зарабатывают больше на спортивных неожиданностях, даже ошибаясь в общей калибровке — как в случае с теннисистом Томми Полом, где консервативные оценки ИИ против рыночного оптимизма принесли 6-кратную прибыль. 

Что забавно, у каждой модели свой стиль «игры»: Qwen 3, к примеру, агрессивно экстраполирует тренды (75% вероятности федерального регулирования ИИ против 25% рынка), а Llama 4 Maverick остается осторожным консерватором (35% на тот же вопрос).

GPT-4b micro: ИИ-модель для белковой инженерии ускоряет получение стволовых клеток в 50 раз

OpenAI совместно с биотехнологическим стартапом Retro Biosciences создали GPT-4b micro — специализированную модель для белковой инженерии, которая кардинально переработала знаменитые факторы Яманаки. Эти четыре белка умеют превращать взрослые клетки обратно в стволовые (за что их открыватель и получил Нобелевку в 2012), но работают не очень эффективно — конвертируется меньше 0,1% клеток, а процесс занимает недели.

За 10 дней новый метод с белками, спроектированными ИИ (справа), позволил получить в десятки раз больше колоний стволовых клеток по сравнению с классическим методом (в центре). Слева — исходные клетки. Источник изображения
За 10 дней новый метод с белками, спроектированными ИИ (справа), позволил получить в десятки раз больше колоний стволовых клеток по сравнению с классическим методом (в центре). Слева — исходные клетки. Источник изображения

ИИ-модель предложила радикально измененные варианты белков SOX2 и KLF4, отличающиеся от природных аналогов более чем на 100 аминокислот из 300–500. В лабораторных тестах 30–50% предложений оказались лучше исходных белков, что для биоинженерии просто фантастический результат — обычно 10% считается успехом. Комбинация лучших вариантов дала 50-кратное увеличение экспрессии маркеров стволовых клеток и улучшенную репарацию ДНК, превратив недели мучений в дни эффективной работы.

NASA и IBM научили ИИ предсказывать солнечные бури

NASA совместно с IBM создали Surya — ИИ-модель для анализа солнечной активности на основе 9 лет непрерывных наблюдений Solar Dynamics Observatory. Почему это важно: солнечные вспышки не только провоцируют магнитные бури, но и выжигают спутники, обрушивают энергосети и могут поджарить астронавтов на пути к Марсу. Модель предсказывает вспышки за два часа до события с точностью на 16% выше существующих методов — не революция, но серьезный прогресс для области, где каждый процент точности спасает миллионы долларов инфраструктуры.

Архитектура Surya. Источник изображения
Архитектура Surya. Источник изображения

Архитектура foundation model учится напрямую на сырых солнечных данных без человеческой разметки — благо, Солнце снимают каждые 12 секунд в разных спектрах плюс измеряют магнитные поля. За 15 лет накопился уникальный датасет, покрывающий полный солнечный цикл, что позволяет выявлять долгосрочные паттерны поведения нашей звезды. Модель и данные выложили в открытый доступ на HuggingFace.

aiXiv: arXiv для ИИ-исследователей с автоматическим рецензированием

Ученые из 18 ведущих университетов создали aiXiv — специализированную платформу для публикации научных работ, написанных ИИ. Повод для создания платформы веский: способные ИИ-агенты уже пишут исследовательские статьи, но публиковать их негде — arXiv не контролирует качество, а серьезные журналы ИИ-авторство не принимают. Получается, что потенциально ценные идеи от моделей остаются невидимыми для научного сообщества.

Схема работы платформы. Источник изображения 
Схема работы платформы. Источник изображения 

AiXiv предлагает полноценный цикл автоматического рецензирования: первый агент проверяет методологию через RAG на Semantic Scholar API, потом создаются 3–5 специализированных рецензентов для каждой подтемы, а агент-редактор агрегирует отзывы в финальное решение. На данных ICLR 2024/25 система достигла 77–81% точности в выборе лучшей версии статьи — заметно выше предыдущих подходов. Финальное решение принимают пять топовых LLM голосованием, нужно минимум 3 голоса «за» для публикации. Принятые работы получают DOI и открыто обсуждаются — почти как в настоящих журналах, только быстрее и без человеческих предрассудков против ИИ-авторства.

Полезные инструменты

Работа с контентом и медиа

  • Scispace: ищет и анализирует научную литературу, автоматически генерирует визуализации и проверяет на плагиат.

  • Golpo: превращает скучные документы в анимированные видеообъяснения с закадровым голосом.

  • VisionStory: оживляет фотографии, создавая говорящие видео с клонированными голосами и аватарами. Обещает превратить статичные презентации в динамичный контент одним кликом.

  • FLUX.1 Krea: открытая модель для фотореалистичной генерации изображений, которая пытается избежать типичного «искусственного» вида. Доступна для коммерческого использования.

  • Haimeta: создает изображения, видео и 3D-модели из текста или фото, превращая идеи в интерактивные цифровые пространства.

  • Renderly: превращает каракули и эскизы в фотореалистичные изображения. Спасение для всех, кто рисует на уровне детского сада, но нуждается в профессиональной визуализации.

Источник изображения
  • Recall: персональная энциклопедия на основе ИИ для создания медиа-контента. Превращает идеи в интерактивные цифровые пространства, не требуя технических навыков.

Разработка и Data Science

  • Floot: создает веб-приложения через описание идей — рисуешь стрелочки для изменений, остальное делает искусственный интеллект. Встроены хостинг, база данных и платежи.

  • Kromio AI: превращает идею в расширение для Chrome без навыков программирования. 

  • Qoder: среда разработки, которая понимает всю архитектуру проекта целиком — зависимости, паттерны, историю изменений. Всё через естественный язык.

  • Onlook: визуальный конструктор приложений с открытым исходным кодом.

  • mlarena: универсальный набор инструментов для машинного обучения — тренировка моделей, диагностика и оптимизация без привязки к конкретным алгоритмам.

  • AI Dataset Generator: создает реалистичные наборы данных для демонстраций и обучения с мгновенным просмотром и экспортом. Синтетические данные неотличимы от настоящих.

  • gt-extras: набор функций для создания красивых таблиц в Python.

Автоматизация и бизнес-процессы

  • Asteroid: платформа для создания браузерных агентов с визуальными схемами работы и записью действий. Программировать не нужно — только описываешь задачу естественным языком.

  • Lindy: простая платформа для создания бизнес-агентов, которые работают через браузер.

  • Trace: платформа автоматизации рабочих процессов, которая распределяет задачи между людьми и искусственным интеллектом. Создает схемы работы из одного описания с автоматическими триггерами.

  • North AI: агент от Cohere для создания документов и отчетов с соблюдением корпоративных стандартов. От технических заданий до финансовых отчетов — всё в едином стиле.

Источник изображения

Анализ и визуализация данных

  • Graphy: превращает беспорядочные данные в красивые графики через обычный разговор. Вжух — и таблица становится презентабельной визуализацией без мучений с настройками.

  • Paradigm: умные таблицы с обогащением данных из проверенных источников и возможностью поручать задачи агенту. После привлечения 7 миллионов долларов наконец открылись для всех.

  • Rill: превращает наборы данных в мощные панели управления с помощью SQL — никаких мучений с настройкой визуализаций.

Источник изображения
  • ReadyBase: превращает любые данные в готовые PDF-документы за минуты. Загружаешь что угодно, получаешь отшлифованный отчет — идеально для создания множества вариантов.

Продуктивность и коммуникации

  • PromptPlex: организует запросы к искусственному интеллекту через папки, теги и переменные шаблоны. Создаешь библиотеку вместо постоянного ctrl + c ctrl + v одних и тех же фраз.

  • Chronicle: создание презентаций с интеграцией в популярные сервисы и профессиональными результатами. Экспертное повествование плюс ИИ.

  • Grammarly: привычный инструмент эволюционирует от проверки грамматики до полноценного рабочего пространства для письма. Предлагает варианты переписывания, генерирует планы и создает черновики из коротких описаний.

  • Ballpark: проводит опросы, интервью и тесты удобства с привлечением участников из базы в 3+ миллиона человек. Искусственный интеллект автоматически обобщает результаты.

  • Stormy: ИИ-агент для инфлюенсер-маркетинга — находит ранжированных авторов на YouTube/TikTok/LinkedIn, пишет персонализированные сообщения и отслеживает ответы. Автоматизация от поиска до закрытия сделки.

Исследования на почитать 

Архитектуры и методы обучения

Крошечная модель всего на 27М параметров обошла o3-mini на ARC-AGI благодаря двухуровневой архитектуре — быстрый модуль для локальных вычислений и медленный для абстрактного управления. Может «думать» от секунд до часов, самостоятельно решая, когда остановиться.

Sakana AI предложили метод M2N2, где модели эволюционируют как биологические организмы — обмениваются «генами» (параметрами), конкурируют за данные и скрещиваются по принципу дополнения слабостей. Можно обучать модели с нуля без градиентов, только эволюционными операторами.

Исследователи из CMU создали метод, где одна модель играет две роли — генерирует задачи и решает их, обучаясь без готовых примеров. Qwen2.5-3B получил прирост +14% на арифметике и +16% на алгебре, стартуя только с короткой темы в промпте.

Изображение из исследования: схема самообучения ИИ. дин («Proposer») учится задавать вопросы, а другой («Solver») — отвечать на них. Вместо заранее известных правильных ответов система использует «мнение большинства»: «решатель» получает вознаграждение за самый популярный ответ, а «задатчик» — за создание вопросов оптимальной сложности.
Изображение из исследования: схема самообучения ИИ. дин («Proposer») учится задавать вопросы, а другой («Solver») — отвечать на них. Вместо заранее известных правильных ответов система использует «мнение большинства»: «решатель» получает вознаграждение за самый популярный ответ, а «задатчик» — за создание вопросов оптимальной сложности.

Семейство Falcon-H1 комбинирует механизм внимания трансформеров с моделями пространства состояний для повышения эффективности. Уникальная гибридная архитектура обещает превосходную производительность в разнообразных задачах.

Step-3 достигает 40% снижения затрат на декодирование через раздельную оптимизацию компонентов внимания и FFN. Оказалось, что стоимость декодирования больше зависит от дизайна внимания, чем от количества параметров.

Оптимизация данных и обучения

Google разработали метод умной разметки, который уменьшает количество необходимых примеров в тысячи раз без потери качества. Модель сначала размечает данные сама, затем кластеризует их, а людям отдают только «спорные» случаи на границе кластеров.

Anthropic предложили «вакцинировать» модели от нежелательного поведения, специально внедряя вредные черты характера во время обучения. Парадоксально, но такая «прививка» делает модели более устойчивыми к опасному поведению в будущем.

Изображение из исследования: Сначала абстрактное понятие (например, «зло») преобразуется в математический вектор. Затем этот вектор используется как инструмент: для мониторинга нежелательных черт, их «вычитания» для коррекции поведения или даже для «вакцинации» модели во время обучения, чтобы предотвратить их появление.
Изображение из исследования: Сначала абстрактное понятие (например, «зло») преобразуется в математический вектор. Затем этот вектор используется как инструмент: для мониторинга нежелательных черт, их «вычитания» для коррекции поведения или даже для «вакцинации» модели во время обучения, чтобы предотвратить их появление.

OpenAI представили новую методологию обучения Harmony, описанную в их техническом руководстве. Подробности процесса и архитектурных решений для улучшения качества моделей.

Meta CLIP 2 использует нативные пары изображение-текст со всего мира, преодолевая ограничения англоязычных данных. Новый подход улучшает производительность как на английских, так и на многоязычных задачах.

SWE-Exp систематически собирает и использует знания о починке кода из предыдущего опыта для повышения эффективности решения программных проблем. Опыт оказался ключевым фактором успеха в автоматизации разработки.

Алгоритмы и теория

Исследователи из Пекина впервые за 70 лет сломали «барьер сортировки» для поиска кратчайших путей, предложив алгоритм BMSSP со сложностью O(m log^(2/3) n) против O(m + n log n) у классического Дейкстры. Революция для графовых алгоритмов и их применений в машинном обучении.

Основатель DeepSeek получил награду лучшей статьи на топовой конференции по вычислительной лингвистике за «нативный механизм разреженного внимания», который повышает эффективность и снижает стоимость ИИ-моделей. Очередное подтверждение растущего влияния китайских исследователей.

Изображение из исследования: архитектура системы
Изображение из исследования: архитектура системы

Прикладные исследования

Анализ достижений и вызовов применения искусственного интеллекта при первичном альдостеронизме. Будущие исследования должны сосредоточиться на разработке интегрированных диагностико-лечебных путей с учетом сильных сторон и ограничений ИИ.

Исследование областей применения искусственного интеллекта в исторических науках с рекомендацией использовать ИИ как помощника для человеческой интерпретации, а не замену ей. Историки должны применять ИИ мудро и критически, учитывая его ограничения и потенциал.

Комплексное исследование методов на основе искусственного интеллекта для различных технических аспектов — обработка естественного языка, компьютерное зрение, блокчейн, сети, цифровые двойники и нейроинтерфейсы — с потенциалом создания виртуальных миров метавселенной.

Не исследование, но подробный гайд от инженера OpenAI о процессе отбора — от скрининга рекрутера до технических интервью по кодингу, машинному обучению и поведенческим вопросам. Включает конкретные примеры задач, советы по подготовке и инсайты о корпоративной культуре.

Концептуальная основа для ответственного управления ИИ через структурные, реляционные и процедурные практики. Обзор и исследовательская рамка для понимания предпосылок и эффектов этичного использования искусственного интеллекта.

Заключение

ИИ-индустрия движется быстрее, чем мы привыкли: каждая неделя приносит новые модели, прорывы в бенчмарках и скандалы с утечками данных. Но за этим шумом важно видеть общую тенденцию: технологии, которые ещё недавно существовали только в пределах лабораторий, начинают приносить реальную пользу на практике. Правда, вместе с пользой приходят и новые головные боли — но это уже проблемы завтрашнего дня или дайджеста следующего месяца.

А на сегодня у нас все! Расскажите в комментариях, какие из августовских новостей впечатлили вас больше всего. 

Комментарии (0)