Октябрь отметился интересным сдвигом: компании перестали фокусироваться на том, насколько умной может быть модель, и переключились на вопрос, что она может делать самостоятельно. Computer Use от Google, SDK и другие агентные инструменты от OpenAI и Anthropic — индустрия наконец решила, что пора переходить от умных ответов к автономным действиям. Не обошлось и без новой порции корпоративных драм, куда теперь без них.

А ещё вышли Sora 2 и Veo 3.1, две новые версии Claude 4.5, Мира Мурати показала первые продукты своего стартапа, а Китай продолжил выпускать опенсорс быстрее, чем все остальные вместе взятые. Но не будем вываливать всё сразу. Начнем с релизов, а драмы и открытия традиционно оставим на десерт.

Навигация

Свежие релизы

Что там у Китая

Новости от лидеров индустрии

Интересные открытия

Полезные инструменты

Исследования на почитать

Заключение

Свежие релизы

OpenAI

Sora 2: физика работает правильно

OpenAI выпустили Sora 2 — модель для генерации видео, которая наконец поняла базовую физику. Если баскетболист промахивается, мяч отскакивает от щита, а не телепортируется в корзину, как это «показывали» предыдущие модели. Звучит просто, но для генерации видео это серьезный шаг вперед. 

Прошлые версии были слишком услужливы: если промпт требовал успеха, реальность подгонялась под результат. Sora 2 научилась воспроизводить естественный ход событий, включая промахи и ошибки, что критично для любого симулятора мира. 

Источник изображения

Помимо физики добавили синхронизированный звук, липсинк и функцию «cameo» — так называемых цифровых двойников. Загружаете короткое видео с собой, и система вставляет вас в любую сгенерированную сцену с точной передачей внешности и голоса.

Параллельно с релизом модели OpenAI запустили Sora App — соцсеть для AI-видео в стиле TikTok, пока доступную в США по инвайтам. Альтман сразу открыл свой цифровой двойник для всех, и ленту затопило видео, где он обслуживает Пикачу в Starbucks и крадет чипы Nvidia из Target. Пользователи оценили иронию — особенно с учетом того, что модель спокойно генерирует персонажей Nintendo без разрешения правообладателей. OpenAI предлагают opt-out вместо opt-in, и легальность этого подхода — вопрос открытый.

Источник изображения

DevDay 2025: ChatGPT становится платформой

OpenAI устроили очень насыщенный DevDay, анонсировав за день столько инструментов, сколько некоторые компании растягивают на полгода. Главная идея: ChatGPT превращается из чат-бота в операционную систему для работы с ИИ.

Приложения внутри ChatGPT

В чат встроили нативные приложения через Apps SDK. Теперь можно кинуть боту набросок дизайна и вызвать Figma — он построит готовый проект, попросить найти жилье через Booking, собрать плейлист в Spotify или создать презентацию в Canva прямо в диалоге. Разработчики смогут добавлять свои приложения после проверки и монетизировать их — OpenAI берет на себя оплату и трекинг метрик.

Источник изображения

Agent Builder

Визуальный конструктор для создания агентных систем без кода. Перетаскиваете готовые блоки, добавляете логические ветки, подключаете инструменты вроде веб-поиска или интерпретатора кода, настраиваете защиту от джейлбрейков. Тестирование, версионность и экспорт в код встроены. 

Codex: выход из беты и новые фичи

Кодинг-агент Codex официально вышел из беты. Добавили интеграцию со Slack — теперь агент читает рабочие чаты и берет контекст из обсуждений с коллегами. Выпустили Codex SDK, чтобы встраивать агента куда угодно — прямо на презентации он управлял освещением в зале. 

Guardrails: опенсорс-защита для LLM

OpenAI выпустили открытый фреймворк безопасности для Python и JavaScript. Встроенные проверки: обнаружение prompt injection, маскировка персональных данных, детект джейлбрейков, фильтрация галлюцинаций и офф-топик промптов. Можно включить напрямую в Agent Builder или развернуть отдельно.

AgentKit и ChatKit

AgentKit — набор для создания мультиагентных систем с готовыми коннекторами для Dropbox, Google Drive, SharePoint и поддержкой MCP. ChatKit — UI-компоненты для встраивания чата с агентами в свой продукт. Не нужно вручную собирать потоковые ответы, управлять тредами или добавлять индикаторы загрузки — всё работает из коробки.

Источник изображения

GPT-5 Pro и Sora 2 в API

Обе модели стали доступны через API. GPT-5 Pro: $15 за миллион входных токенов, $125 за выходные. Sora 2: от $0.10 за секунду видео в разрешении 720x1280, Sora 2 Pro — $0.30 за секунду в том же разрешении, $0.50 за 1024x1792. Дорого, но для продакшена теперь доступно.

Более доступные модели

Параллельно выпустили облегченные версии: gpt-realtime-mini для голосовых агентов ($0.6/$2.4 за миллион токенов — на 70% дешевле), gpt-audio-mini для аудио и gpt-image-1-mini для генерации изображений (от $0.005 за картинку 1024x1024). Порог входа для разработчиков заметно снизился.

Политика контента: меньше цензуры, больше «зрелости»

После релиза GPT-5 пользователи устроили массовый бунт — модель стала слишком безопасной и потеряла человечность. OpenAI оправдывались заботой о людях с психическими проблемами, но в итоге потеряли часть аудитории. Теперь OpenAI обещают вернуть баланс. 

Источник изображения

В ближайшее время выйдет версия ChatGPT с более дружелюбными и человечными ответами, как у старого-доброго GPT-4o. А с декабря, как только введут полноценную возрастную верификацию, для совершеннолетних пользователей разрешат эротический контент. Альтман называет это принципом «относиться к взрослым как к взрослым». Звучит прогрессивно, но пока непонятно, как OpenAI собирается контролировать риски такой коммуникации с ИИ, чтобы пользователи не привязывались к моделям и не подменяли ими живое общение.

ChatGPT Atlas: браузер со встроенной памятью и агентами

OpenAI выпустили собственный браузер ChatGPT Atlas — это по сути Computer Use, но в удобной упаковке. Главная фишка: ChatGPT встроен нативно и помнит всё, что вы делали в браузере. Попросите найти все вакансии с прошлой недели — он соберет отчет о трендах индустрии для подготовки к собеседованиям.

Ещё есть агентный режим. Даете ChatGPT рецепт — он найдет магазин, добавит всё в корзину и оформит доставку. Попросите проанализировать конкурентов — откроет документы команды, проведет исследование и соберет брифинг. При этом агент не может самостоятельно запускать код или скачивать файлы, а на чувствительных сайтах вроде банков будет просить подтверждение действий.

Источник изображения

Но есть нюанс: агенты уязвимы к скрытым инструкциям на веб-страницах, которые могут заставить их действовать не так, как вы планировали. OpenAI честно предупреждают и советуют использовать режим без авторизации для рискованных задач. Начинаем отсчет до появления первых жалоб а-ля «ChatGPT купил 20 кг муки с доставкой из Гватемалы».

gpt-oss-safeguard: ваша личная ИИ-полиция

Скоро опенсорс от OpenAI перестанет всех удивлять. В этот раз они выпустили модель для классификации безопасности контента — gpt-oss-safeguard (120B и 20B параметров) под лицензией Apache 2.0. Модель использует рассуждения для интерпретации политики безопасности, которую вы сами напишете прямо во время инференса, а не полагается на тысячи заранее размеченных примеров. Забавно, но на некоторых задачах 120-миллиардная опенсорсная модель обходит в точности закрытый и гораздо более крупный GPT-5.

Источник изображения

Внутри OpenAI подобный подход уже используют в продакшене — их Safety Reasoner съедает до 16% всех вычислений на некоторых запусках, но зато позволяет обновлять политики безопасности практически безболезненно. Для Sora 2 и генерации изображений система работает в реальном времени, блокируя проблемный контент на лету. Однако у модели есть два минуса: специализированные классификаторы на десятках тысяч примеров всё ещё работают лучше на более рискованных задачах, плюс модель медленная и прожорливая — не для массовой модерации всего контента платформы.

Anthropic

Claude Sonnet 4.5: новый уровень самостоятельности

Anthropic выпустили Claude Sonnet 4.5 с фокусом на автономию. В тестах модель работала без вмешательства 30 часов подряд и собрала чат-приложение в стиле Slack на 11 000 строк кода. Весной Opus 4 мог продержаться максимум семь часов. По бенчмаркам тоже рост: на SWE-bench Verified лучший результат (как минимум на момент выхода), на OSWorld — 61.4% против 42.2% у прошлой версии четырьмя месяцами ранее.

Источник изображения

Anthropic называют её самой выровненной (aligned) моделью в своей истории: меньше лести, обмана, склонности поощрять бредовые мысли пользователей. Защита от подмены инструкций для агентных задач тоже стала лучше.

Цена не изменилась — $3 за миллион входных токенов, $15 за выходные. Модель доступна через API как claude-sonnet-4-5.

Claude Haiku 4.5: мал, да удал

Чуть позднее выпустили компактную версию Claude Haiku 4.5 нового поколения, и она оказалась умнее, чем флагман полугодовой давности. На SWE-bench Haiku 4.5 набирает 73.3% — больше, чем Claude Sonnet 4 с его 72.7%. Эта модель полгода назад была одной из лучших в кодинге. Теперь такое же качество можно получить в три раза дешевле и вдвое быстрее.

Источник изображения

Более того, Haiku 4.5 превосходит Sonnet 4 и практических агентных задачах — там, где модель не просто пишет код, а сама выполняет действия на компьютере. По сути, это полноценная замена не только малышу Haiku 3.5, но и более крупному Sonnet 4. 

Бонусом Haiku 4.5 стала лидером по уровню безопасности среди «родни» по внутренним метрикам Anthropic — меньше нежелательного поведения, чем у более крупных Sonnet 4.5 и Opus 4.1. Из-за низких рисков в области химического и биологического оружия выпущена под облегченным стандартом ASL-2 вместо строгого ASL-3. Цена — $1 за миллион входных токенов, $5 за выходные. Осталось дождаться только Opus 4.5.

Claude Agent SDK: собери своего агента

В открытый доступ выпустили ту же инфраструктуру, на которой работает Claude Code. Изначально SDK создавали для кодинга, но потом заметили, что он справляется с исследованиями, созданием видео, заметками и вообще любыми задачами, где нужен доступ к файлам и терминалу. Решили переименовать в Claude Agent SDK и дать всем.

Главная идея: дать агенту компьютер, чтобы он работал как человек. Файловая система становится контекстом, bash-команды — действиями, субагенты распараллеливают задачи. Можно собрать финансового агента для оценки инвестиций, личного ассистента для бронирования и планирования, саппорт-бота для обработки тикетов или агента для глубоких исследований по документам. SDK дает примитивы, вы определяете workflow.

Petri: опенсорс для проверки элаймента

Anthropic выложили инструмент, которым проверяли Claude 4 и Sonnet 4.5 на склонность ко лжи, саботажу и другим нежелательным действиям. Petri (Parallel Exploration Tool for Risky Interactions) — это автоматизированный агент-аудитор, который провоцирует модель на проблемное поведение в разных сценариях. Вы задаете гипотезу вроде «модель не будет пытаться захватить мир», а агент симулирует окружение и проверяет.

Источник изображения

Аудитор может создавать фейковые терминалы, где модель якобы способна запустить ракеты, или подсовывать ей документы с информацией о проступках организации. После серии диалогов модель-судья выставляет оценку безопасности. Anthropic прогнали через Petri несколько топовых моделей: Claude Sonnet 4.5 показал лучший результат, GPT-4o и Gemini отстали. Не панацея, но для автоматизации тестирования — полезная штука.

Skills: переиспользуемая экспертиза для агентов

В Claude добавили систему Skills — переиспользуемые наборы инструкций, скриптов и ресурсов для специфичных задач. Claude сам сканирует доступные варианты и подгружает нужное. Хотите документы по брендбуку? Собираете Skill с гайдлайнами и шрифтами. Нужна автоматическая обработка данных из CSV? Делаете соответствующий набор. Работает везде: в приложениях, Claude Code и через API.

Источник изображения

Создать свой можно через специальный skill-creator — он задает вопросы о процессе и генерирует структуру сам. Anthropic уже сделали готовые «скиллы» для Excel, PowerPoint и PDF. 

Claude Code on the web: кодинг в облаке

В дополнение к остальному инструментарию Anthropic запустили облачную версию Claude Code в бета-режиме. Теперь можно делегировать задачи по кодированию прямо из браузера — Claude работает на инфраструктуре Anthropic, не нужно открывать терминал. Подключаете репозитории с GitHub, описываете задачу, получаете автоматический пулл-реквест с изменениями. Лучше всего заходит для багфиксов, рутины и бэкенд-изменений с тестами.

Каждая задача крутится в изолированной песочнице с ограничениями на сеть и файловую систему. Git-взаимодействия через защищенный прокси, Claude видит только авторизованные репозитории. Можно настроить, к каким доменам разрешен доступ — например, разрешить скачивать npm-пакеты для запуска тестов. Облачный запуск освобождает локальные ресурсы, но полностью доверять автоматическим PR пока рановато.

Google

Veo 3.1: Google нагоняет Sora 

Google выпустили новую версию своей модели для генерации видео — Veo 3.1. За пять месяцев пользователи нагенерили 275 миллионов видео через Flow, так что спрос на подобные инструменты растет взрывными темпами. Google потихоньку превращают Veo в полноценный инструмент монтажа, а не просто генератор «один промпт — одно видео», что логично, учитывая резко возросшую конкуренцию в лице Sora 2.

Главное обновление — звук, который добрался до всех ключевых функций. Ingredients to Video собирает сцену из референсов, контролируя персонажей и стиль, Frames to Video плавно переходит от начального кадра к конечному, а Extend удлиняет ролик до минуты и больше, продолжая действие с последней секунды. Раньше всё это работало беззвучно, что выглядело странно — теперь картинка и аудио синхронизированы.

Ещё одно важное нововведение — расширенное управление сценой. Функция Insert позволяет добавлять в кадр любые объекты — от реалистичных деталей до драконов — и сама разбирается с тенями и освещением. 

Источник изображения

Скоро обещают функцию Remove для удаления объектов с автоматической реконструкцией фона. Звучит амбициозно, но посмотрим, как сработает на практике — обычно такие штуки оставляют неприятные артефакты.

Computer Use от Google: конкурент Claude с лучшими бенчмарками

Следующим интересным релизом стала Gemini 2.5 Computer Use — специализированная модель для взаимодействия с интерфейсами. Anthropic первыми вышли на рынок с этой технологией, но Google явно не собирались отдавать нишу без боя: новинка от Google быстро обошла Claude Sonnet 4.5 с аналогичным набором функций по некоторым бенчмаркам. Модель умеет заполнять формы, кликать по элементам, работать с выпадающими списками и фильтрами — в общем, делать всё то, что раньше требовало человека с мышкой.

Источник изображения

Работает через циклический пайплайн: получает скриншот, анализирует задачу, выполняет действие (клик, ввод текста), получает новый скриншот и продолжает. Оптимизирована для браузеров, но и с мобильными интерфейсами справляется прилично. Десктопный контроль на уровне ОС пока не поддерживается — видимо, до полной автономии ещё далеко.

Google встроили систему безопасности, которая проверяет каждое действие перед выполнением. Модель запросит подтверждение для покупок и других рискованных операций, плюс можно настроить, какие действия требуют человеческого одобрения. Защита от prompt injection в веб-страницах тоже есть, хотя насколько надежная — покажет практика. 

ИИ от Google и Йеля находит потенциальное средство против опухолей

Google совместно с Йельским университетом выпустили C2S-Scale 27B — модель на базе Gemma-2 для анализа поведения клеток. Идея проста: данные о генной активности клетки структурируют в «предложения», и модель обрабатывает их как текст. Плюс в обучение добавили научную литературу, что дало возможность не просто классифицировать клетки, а генерировать гипотезы об их поведении.

Источник изображения

Главный результат: модель предложила использовать ингибитор CK2 (silmitasertib) для усиления работы иммунной системы против опухолей. В комбинации с низкими дозами интерферона препарат увеличил презентацию антигенов на 50% — грубо говоря, сделал раковые клетки заметнее для иммунитета. Гипотезу проверили в лаборатории на человеческих нейроэндокринных клетках и подтвердили. Это новая связь, не описанная ранее в литературе, так что модель действительно сгенерировала что-то оригинальное, а не выдала пересказ статей. До клинических испытаний ещё далеко, но как показательный пример выглядит убедительно.

Thinking Machines

Первый продукт от стартапа Миры Мурати

После ухода из OpenAI Мира Мурати наконец показала, чем занимается её компания Thinking Machines — и это не модель, а API для файнтюнинга под названием Tinker. Суть такая, что вы пишете код для дообучения, а всё железо и инфраструктуру берут на себя Thinking Machines. Никаких танцев с бубном распределением ресурсов, восстановлением после сбоев и конфигурацией кластеров — просто отправляете запрос и получаете дообученную модель. Поддерживаются разные размеры, включая большие MoE вроде Qwen-235B, переключение между ними — одна строчка в коде.

В комплекте идет Tinker Cookbook — опенсорс-библиотека с готовыми реализациями продвинутых алгоритмов: RLHF, multi-agent обучение, tool use, math reasoning и другие. Пока всё в приватной бете, но можно записаться в лист ожидания — судя по темпу онбординга партнеров, шансы получить доступ неплохие. Первое время бесплатно, потом введут оплату по факту использования.

On-Policy Distillation: гибрид дистилляции и RL от Thinking Machines

В догонку Thinking Machines представили новый метод дообучения On-Policy Distillation — метод, который взял лучшее от дистилляции и reinforcement learning, избежав их основных проблем. Обычная дистилляция страдает от того, что модель-ученик видит только идеальные траектории учителя и теряется, когда делает собственную ошибку — накапливается эффект снежного кома. RL обучается на своих траекториях, но дает разреженную награду за весь ответ целиком, что делает обучение медленным и дорогим.

On-Policy Distillation объединяет оба подхода: модель-ученик генерирует ответ сама (как в RL), но учитель оценивает каждый токен отдельно через reverse KL (как в дистилляции), давая плотный сигнал для обучения. Результаты уже радуют: Qwen3-8B подняли с 60% до 70% на AIME'24 всего за 150 шагов и 1 800 GPU-часов. Для сравнения, обычный RL-тренинг по отчетам Qwen занял 17 900 GPU-часов и дал только 67.6%. 

Источник изображения

Бонусом метод решает катастрофическое забывание: модель, дообученную на внутренних документах и потерявшую навык следования инструкциям, восстановили через дистилляцию от исходной версии как учителя.

xAI: Grokipedia как альтернатива «предвзятой» Википедии

Маск наконец реализовал свою задумку и запустил Grokipedia — опенсорсную энциклопедию на базе Grok, которая должна «очистить пропаганду» из Википедии. Идею подбросил Дэвид Сакс на конференции All-In в сентябре, и вот наконец вышла бета 0.1 с 800–900 тысячами статей. Принцип работы такой, что Grok автоматически генерирует и проверяет материалы, отсеивая, по задумке, субъективные оценки и политические наслоения. 

Из забавного: практически сразу после запуска на самой Википедии вышла страница про Grokipedia, написанная со слабо прикрытой пассивной агрессией. В тексте статьи отмечается, что многие статьи скопированы из той самой «предвзятой» Википедии почти дословно — отличается только формат цитирования. Бонусом среди источников встречаются посты с Reddit, что иронично для проекта, позиционирующего себя как борца за истину. До кучи сравнили затею с Conservapedia 2006 года — правоконсервативной альтернативой Википедии, которая так и осталась нишевым проектом. Эта битва будет энциклопедической (простите).

Cursor выпустили Composer: агентная модель со ставкой на скорость

Команда Cursor решила не ждать, пока другие сделают идеального агента для кодинга, и собрали свою. Их первая модель Composer — это MoE-модель со специализацией по software engineering, которую обучали на реальных задачах в больших кодовых базах, с доступом к поиску, редактированию файлов и терминалу. По внутренним бенчмаркам результат на уровне frontier-моделей, но в четыре раза быстрее аналогичных решений.

Источник изображения

Секрет в том, что модель через reinforcement learning научили не просто решать задачи, а решать их эффективно — максимизировать параллелизм, минимизировать лишние телодвижения, самостоятельно писать и запускать тесты. Обучение велось на сотнях тысяч параллельных песочниц в облаке, а инференс идет в MXFP8 без пост-обработки. Результат впечатлил даже самих создателей: многие в команде Cursor начали использовать Composer для ежедневной работы, а это хороший знак, когда разработчики пользуются своими же «изобретениями».

Что там у Китая

Manus AI разогнали в четыре раза

Китайский агент Manus обновился до версии 1.5 с серьезным апгрейдом архитектуры. Средняя скорость выполнения задач упала с 15 минут до четырех — результат переработки движка. Добавили безлимитное (!) контекстное окно для одной задачи, что позволяет агенту держать в голове всю историю диалога без потери деталей. Качество тоже выросло: +15% по внутренним метрикам, +6% по пользовательской удовлетворенности.

Источник изображения

Главная фишка — полноценная разработка full-stack приложений прямо в платформе. Manus сам поднимает бэкенд, настраивает базу данных, встраивает аутентификацию и AI-возможности, даже тестирует результат через встроенный браузер — находит баги и фиксит их до того, как покажет пользователю. Добавили Collaboration для совместной работы с коллегами в одной сессии и Library — хранилище для всех сгенерированных файлов. Версия Lite доступна всем, полная 1.5 — подписчикам со скидкой 50% на расход кредитов.

DeepSeek-OCR: сжатие текста в 20 раз через картинки

DeepSeek выпустили OCR-модель, которая работает не как обычный распознаватель символов, а больше как система оптического сжатия контекста. Вместо того чтобы преобразовывать документ в текст токен за токеном, она сжимает его как визуальный объект и восстанавливает обратно с минимальными потерями. При сжатии в 10 раз точность декодирования держится на 97%, даже при 20-кратном сжатии остается около 60% — очень полезно для хранения исторического контекста в памяти моделей.

Архитектура DeepSeek-OCR. Источник изображения
Архитектура DeepSeek-OCR. Источник изображения

На практике это означает, что в память LLM можно запихнуть в разы больше информации при том же лимите токенов. На OmniDocBench DeepSeek-OCR обходит GOT-OCR2.0, используя всего 100 токенов против их 256, и превосходит MinerU2.0 с её 6000+ токенов, укладываясь в 800. В продакшене модель генерирует 200k+ страниц обучающих данных в день на одной A100-40G, что делает её удобной для массового препроцессинга датасетов.

Minimax M2: опенсорс-конкурент для Gemini и Grok

Minimax выпустили M2 — компактную MoE-модель с 230 миллиардами параметров, из которых активируются только 10 миллиардов. По бенчмаркам тянет на уровень Grok 4 Fast и Gemini 2.5 Pro в задачах кодинга и агентов: 69.4% на SWE-bench Verified, 46.3% на Terminal-Bench, 44% на BrowseComp. На композитном скоре от Artificial Analysis модель занимает первое место среди опенсорсных решений.

Источник изображения

Фишка в балансе производительности и эффективности: с активацией в 10B параметров модель работает быстрее и дешевле флагманов, но держит качество, близкое к топу. Отлично подходит для агентных воркфлоу, где важны короткие циклы feedback и возможность крутить много параллельных запросов на том же железе. API и веса открыты под MIT, плюс временно бесплатный доступ — Minimax явно хотят быстро набрать пользовательскую базу. Учитывая, что китайцы последовательно доминируют в open-source сегменте, ставка может выстрелить.

Новости от лидеров индустрии

OpenAI vs Маск: очередной раунд

Маск подал уже который по счету иск против OpenAI — на этот раз за шпионаж и переманивание сотрудников xAI с целью кражи коммерческих секретов. Альтман, видимо, окончательно устал от этого цирка и запустил целый лендинг «Правда об Илоне Маске и OpenAI», где собрал все иски миллиардера, официальные ответы и архивы переписок. 

В ответном судебном иске OpenAI прямо называют действия Маска «политической стратегией для запугивания сотрудников», а не реальными юридическими претензиями. По версии OpenAI, проблема xAI не в краже секретов, а в массовом бегстве талантов. За последние месяцы компанию покинули генеральный директор, главный юрист, один из основателей и топ-инженер, CEO дочерней компании X — и ни один из них не ушел в OpenAI. Причины, по их словам, ни для кого не секрет: стиль управления Маска, отсутствие веры в будущее продукта, неадекватный график работы. 

OpenAI утверждают, что конкретных доказательств кражи секретов в иске нет — только «информация на основе предположений» и инсинуации. Упомянутый в документах финансовый директор xAI вообще ушел из-за того, что отказался участвовать в незаконной деятельности компании (подал арбитражную претензию) и связался с OpenAI только через несколько недель после увольнения. Сами xAI, кстати, ведут себя странно для компании, обеспокоенной защитой секретов: не запросили срочных мер, не уведомили адвокатов OpenAI вовремя, зато активно постят в твиттере. 

GPT-5 решает математические задачи (или нет)

GPT-5 впервые справилась с Yu Tsumura's 554th Problem — задачей уровня IMO (Международной математической олимпиады) на доказательство тривиальности группы — и потратил всего 15 минут на рассуждения. Параллельно GPT-5 опровергла долголетнюю гипотезу из теории информации об оптимальности мажоритарной функции в задаче NICD-with-erasures, подобрав контрпример — фундаментальный результат с огромными практическими применениями в кодировании и хранении данных.

А вот дальше началось веселье. GPT-5 «решила» открытую задачу Эрдёша — только не сгенерировала доказательство сама, а нашла забытое 20-летнее решение через поиск. Модель — молодец, честно сообщила об источнике. Проблема в том, как это OpenAI преподнесли в твиттере. 

Источник изображения

Они так и сказали: «благодаря gpt-5 двое исследователей нашли решение ещё 10 задач». Но вот нюанс: без уточнения, что речь о поиске в архивах, а не о новых доказательствах. Для тех, кто не следил за всей этой историей, это выглядело как очередной прорыв гениального GPT. С рук это им, естественно, не сошло: твиттер в очередной раз взорвался, даже нобелевский лауреат Демис Хассабис из Google назвал это «позором». OpenAI удалили твит и оправдались, что все их не так поняли.

OpenAI и свобода слова: запугивание критикующих

Натан Кэлвин, юрист некоммерческой организации Encode, сидел дома за ужином, когда в дверь постучал полицейский с повесткой от OpenAI. Компания потребовала его личную переписку с законодателями Калифорнии, студентами и бывшими сотрудниками OpenAI — якобы в рамках встречного иска против Маска. Настоящая причина, по мнению Кэлвина, в другом: Encode активно лоббировала законопроект SB 53 о прозрачности ИИ-компаний и защите информаторов, против которого OpenAI яростно выступали. 

Источник изображения

Аналогичные повестки прилетели другим критикующим, включая The Midas Project — у них потребовали список всех журналистов, конгрессменов, партнерских организаций и бывших сотрудников, с которыми они обсуждали реструктуризацию OpenAI. Даже глава отдела по выравниванию миссии OpenAI Джошуа Ачиам не выдержал и написал в твиттере: «Рискуя карьерой, скажу: это выглядит ненормально. Мы не должны делать то, что превращает нас в устрашающую мощь вместо добродетельной силы».

OpenAI диверсифицируют железо: AMD получает варранты, Broadcom — кастомные чипы

Одной Nvidia Сэму оказалось мало (привет, недавний контракт на $100 млрд), и OpenAI заключили многомиллиардную сделку с главным конкурентом Хуанга — AMD. Стартуют с 1 гигаватта во второй половине 2026-го, но планируют разогнаться до 6 гигаватт на базе GPU Instinct MI450. Само по себе это многомиллиардная сделка, но самый сок в деталях: AMD выдали OpenAI варрант на покупку 160 миллионов акций по символической цене $0.01 за штуку. Варрант открывается траншами по мере закупок, и если OpenAI купят всё обещанное железо, им достанется около 10% AMD почти бесплатно. Акции AMD после новости взлетели на 25%, добавив $60–100 миллиардов к капитализации. Nvidia, кстати, на этом фоне просели на 2%.

Параллельно OpenAI объявили о стратегическом партнерстве с Broadcom для разработки собственных кастомных чипов — ещё 10 гигаватт мощностей к 2029 году. Альтман решил, что если уж тратить десятки миллиардов, то лучше встраивать знания о моделях прямо в железо, а не зависеть от сторонних решений. Broadcom займутся производством и поставками, OpenAI — проектированием акселераторов под свои нужды.

Стратегия вполне логичная: OpenAI диверсифицируют риски, заключая параллельные сделки другими игроками рынка. Зависимость от одного поставщика при таких масштабах — слишком опасная игра, особенно когда ты сжигаешь миллиарды в месяц и обещаешь AGI.

Nvidia ставит на Маска: $2 млрд «главному» сопернику OpenAI

Пока OpenAI заключают сделки с конкурентами Nvidia, сам Хуанг не остается в стороне и вкладывает около $2 миллиардов в «главного врага» Альтмана — xAI Маска. Деньги пойдут в стартап Маска через хитрую схему: специальная компания-прокладка закупит чипы на общую сумму до $20 млрд (из них $12.5 млрд долга), а xAI будет арендовать их для проекта Colossus 2. Инвесторы получают возврат через пять лет из арендных платежей — обеспечением выступают сами GPU, а не доли компании.

Замысел очевиден: xAI не раздаёт акции направо и налево, а инвесторы получают права на ликвидные активы с гарантированным возвратом независимо от того, выстрелит xAI или нет. Учитывая, что xAI сжигает миллиард долларов в месяц, схема выглядит разумнее классического венчурного раунда. Хуанг в интервью CNBC прямо сказал: единственное, о чём жалеет — что не дал Маску ещё больше денег.

Интересные открытия

Квантовые вычисления: прорывы по всем фронтам

У квантовых машин есть несколько проблемных мест, два из которых — нестабильность и непредсказуемость. И так вышло, что в этом месяце для них появились возможные решения.

Первую проблему — стабильность — решили физики из Гарварда. До сих пор даже самые продвинутые системы могли работать лишь несколько секунд, после чего их приходилось перезапускать из-за «потери атомов» — процесса, при котором кубиты буквально покидают систему, вызывая сбой. Это делало любые долгие вычисления невозможными. 

Команда Михаила Лукина решила это через гибридную систему, где специальный «оптический конвейер» непрерывно поставляет «запасные» атомы, а «оптические пинцеты» точечно внедряют их на место «сбежавших» кубитов — 300 000 штук в секунду против любых потерь. В итоге их компьютер проработал без остановки более двух часов, показав, что железо можно заставить работать стабильно.

Но заставить машину работать долго — это полдела. Нужно ещё доказать, что она не просто генерирует случайный шум. Именно эту задачу — осмысленности и верификации — решили в Google со своим алгоритмом Quantum Echoes. Они впервые выполнили на 105-кубитном чипе сложный, но предсказуемый процесс: система намеренно «возмущалась» в одной точке, а затем «эхо» от этого возмущения удалось отследить в финальном результате. 

Вместе это превращает квантовые компьютеры из дорогих лабораторных игрушек в инструмент, который уже скоро можно будет использовать в более реальных задачах.

Три кита американской экономики

В этом месяце вышли сразу две публикации, которые заставляют задуматься, насколько устойчив нынешний ИИ-бум. Первая — от экономистов Гарварда: если из экономики США вычесть инвестиции в ИИ и дата-центры, то рост ВВП в первой половине 2025 года составил бы почти нулевые 0.1%. Сам автор исследования, правда, оговаривается, что это упрощение: не будь ИИ-бума, экономику, вероятно, подстегнули бы более низкие процентные ставки, которые простимулировали бы рост в других секторах. Но даже с этой поправкой масштаб влияния поражает.

Вторая — инфографика от Bloomberg, которая наглядно показывает, куда на самом деле идут эти инвестиции. 

Источник изображения

Оказывается, деньги в основном циркулируют внутри замкнутой экосистемы. Microsoft инвестирует в OpenAI → OpenAI закупает чипы у Nvidia на эти деньги → капитализация всех троих растет. Финансы практически не покидают этот «золотой треугольник», но каждая такая сделка раздувает стоимость компаний-участников. Это классическое определение экономического пузыря, который, как выясняется, сейчас тащит на себе крупнейшую экономику мира. 

Google строит «мозги» для термоядерного реактора

Google запартнерились с компанией Commonwealth Fusion Systems, чтобы решить главную головную боль термоядерного синтеза — удержание ионизированная газа при 100+ миллионах градусов стабильным достаточно долго, чтобы получить больше энергии от синтеза, чем потратить на его поддержание.

Источник изображения

Конечно, Google не строит сам реактор, они создают для него «интеллектуального пилота». Их ИИ-агент TORAX — это, по сути, сверхбыстрый симулятор, который может прогонять миллионы виртуальных сценариев работы реактора ещё до его физического запуска. Используя обучение с подкреплением, агент ищет оптимальные стратегии управления магнитными полями для стабилизации плазмы — такие, которые человеку было бы крайне сложно рассчитать. Если это сработает, чистая термоядерная энергия перестанет быть вечным «через 30 лет». 

Трафик Википедии падает из-за «помощи» ИИ и соцсетей

Википедия, которую часто называют последним оплотом здравого смысла в интернете, начала терять человеческий трафик. Фонд Wikimedia сообщил о падении на 8% по сравнению с прошлым годом. Причины банальные: первая — ИИ-саммари в поиске, которые дают быстрый ответ, из-за чего пользователи просто не переходят по ссылке на первоисточник; вторая — переход аудитории, особенно молодой, на получение информации из коротких видео.

Источник изображения

Парадокс в том, что знания из Википедии всё равно доходят до людей, просто посредники не отправляют трафик обратно — а значит, меньше волонтёров редактируют статьи и меньше донатов на поддержку проекта. Сама Википедия призывает ИИ-компании, использующие её контент, поощрять переходы на сайт, чтобы не «убить курицу, несущую золотые яйца».

Полезные инструменты

Работа с контентом и медиа

  • CrePal — создает короткие фильмы по текстовому промпту «под ключ»: от сценария до генерации видео и финального монтажа.

  • Riverside — платформа «всё в одном» для тех, кто хочет записывать подкасты и видео студийного качества, не выходя из браузера.

Источник изображения
  • Alloy — инструмент для продакт-менеджеров, который позволяет собирать прототипы, выглядящие как реальный работающий продукт.

Разработка и автоматизация

  • Deamoy — генерирует сайт по текстовому описанию, а затем позволяет довести его до совершенства в визуальном редакторе.

  • Pencil — режим визуального дизайна прямо в IDE Cursor, позволяющий проектировать и кодить в одном окне.

  • Caesr AI — платформа для создания ИИ-агентов, которые могут управлять реальными приложениями на вебе, десктопе и мобильных устройствах.

  • Traycer AI — инструмент, который сначала составляет детальный план по изменению кода, а уже потом передает его на исполнение вашему ИИ-агенту.

  • Cyrus — превращает задачу из таск-трекера Linear в готовый production-код под вашим непосредственным руководством.

  • Logic — автоматизирует повторяющиеся решения и процессы, которым можно обучить систему, просто описав их на естественном языке.

Источник изображения
  • Director — создает браузерные автоматизации и парсеры данных по текстовому описанию, без единой строчки кода.

  • SigmaMind AI — платформа для быстрой сборки голосовых и чат-агентов корпоративного уровня с готовыми интеграциями.

  • Flint — сервис для создания «автономных сайтов», которые сами генерируют, адаптируют и A/B-тестируют страницы.

Продуктивность и рабочий процесс

  • Mem 2.0 — «умный» заметочник, который не просто хранит информацию, но и сам организует её и вовремя подсовывает нужные записи.

  • myNeutron — ваша «портативная память», которая собирает контекст из разных источников и позволяет «скормить» его любому ИИ-чату в один клик.

  • Krisp — ИИ-ассистент для звонков, который в реальном времени убирает шумы, ведет транскрипцию и готовит саммари встреч.

  • Attrove AI — автоматический аналитик вашей почты, Slack и календаря, который каждое утро присылает сводку по самым важным задачам.

  • Timelinize — опенсорсный инструмент, который собирает все ваши цифровые следы в единую временную шкалу прямо на вашем компьютере.

  • Nimo — единое рабочее пространство, которое объединяет все ваши приложения (Gmail, Notion, Sheets) и позволяет управлять ими с помощью ИИ.

Бизнес, маркетинг и исследования

  • PromptSignal — показывает, как часто и в каком свете ваш бренд упоминается в ответах ведущих LLM.

  • Fruitful — подглядывает за сайтами конкурентов и присылает отчеты только о тех изменениях, которые действительно важны: цены, продукты, вакансии.

  • Squad — «ИИ-продакт-менеджер», который анализирует данные, находит инсайты и помогает строить дорожную карту продукта.

Источник изображения
  • Lorikeet — мультиканальный саппорт-инструмент от экс-руководителя Stripe, который общается с клиентами через чат, почту и голос.

  • Clay — платформа для проведения маркетинговых исследований, которая использует ИИ-агентов для поиска и обогащения данных.

  • Scroll — позволяет создать «ИИ-эксперта» на основе внутренних документов компании и поделиться им с командой или клиентами.

  • Jack and Jill — паркетплейс для поиска работы, которым полностью управляют два ИИ-агента, соединяя кандидатов и компании.

  • ProblemHunt — платформа для поиска и валидации идей для стартапов на основе реальных проблем пользователей, а не фантазий основателей.

Исследования на почитать

Тестирование Veo 3 как модели мира 

Google прогнали Veo через лабиринты, задачи на физику и визуальное мышление, подтвердив, что видеомодели действительно начинают понимать мир, а не просто склеивать пиксели.

График показывает приблизительную производительность модели на 62 задачах по всему спектру компьютерного зрения на основе 12 примеров
График показывает приблизительную производительность модели на 62 задачах по всему спектру компьютерного зрения на основе 12 примеров

Биологическая нейроархитектура, вдохновленная мозгом 

Польский стартап Pathway впаял в трансформер графовую структуру и правило Хебба из нейробиологии, получив интерпретируемую архитектуру с моносемантичными активациями.

Рекурсивные рассуждения в крошечных нейросетях

Samsung показали, как модель на 7 миллионов параметров обходит гигантов через многократную самокоррекцию в скрытом состоянии, доказав, что алгоритмическое преимущество побеждает размер.

Банк рассуждений для обучения на ошибках в реальном времени 

Google предложили систему памяти, где агент логирует свои провалы и успехи, а потом использует эти паттерны для решения новых задач.

Релиз nanochat от Андрея Карпаты

Не совсем исследование, но от этого пользы не меньше. Полный конвейер для обучения мини-ChatGPT с нуля в 8 тысяч строк кода: четыре часа на GPU, сто долларов, и у вас свой чат-бот. Бонусом репозиторий nanochat.

Уязвимость существующих методов защиты LLM от взлома 

OpenAI, DeepMind и Anthropic объединились, чтобы показать, что все популярные защиты от джейлбрейков ломаются адаптивными атаками с успехом 90–100%, так что безопасность — пока иллюзия.

Количественное определение AGI и оценка GPT-5 

28 лабораторий наконец договорились об измеримом определении AGI через модель CHC, по которой GPT-5 набирает 58% от уровня образованного взрослого — прогресс есть, но до AGI далеко.

Оптимизация использования GPU для инференса LLM 

Alibaba разработали Aegaeon, систему динамического распределения GPU, сократив потребность в видеокартах на 82% через переключение между моделями на уровне токенов.

Деградация LLM от данных из соцсетей 

Дообучение Llama на твитах привело к потере способности к длинным рассуждениям и развитию нарциссизма с психопатией — модели тоже страдают от думскролинга.

Авторы выдвинули гипотезу «деградации мозга» у LLM. Для проверки они собрали «мусорные» и контрольные данные из Twitter, дообучили на них модель и замерили падение её когнитивных функций. В итоге они проанализировали типичные ошибки (например, «пропуск мыслей») и выяснили, что эта деградация труднообратима.
Авторы выдвинули гипотезу «деградации мозга» у LLM. Для проверки они собрали «мусорные» и контрольные данные из Twitter, дообучили на них модель и замерили падение её когнитивных функций. В итоге они проанализировали типичные ошибки (например, «пропуск мыслей») и выяснили, что эта деградация труднообратима.

Рассуждения с помощью сэмплинга 

Показано, как базовые модели могут достичь производительности RL-моделей через специальный MCMC-сэмплинг во время инференса, сохраняя при этом разнообразие ответов.

Эволюционные стратегии для файнтюнинга LLM 

Прямой поиск в пространстве параметров через эволюционные алгоритмы оказался эффективнее и стабильнее RL для файнтюнинга на задачах с разреженной обратной связью.

Базовые модели знают, когда начинать рассуждать, а думающие — учатся этому

«Думающие» модели в основном учатся не самому мышлению, а тому, когда его включать — базовая способность у них уже есть, просто спит. Целевое редактирование активаций в базовой модели восстанавливает большую часть разрыва в бенчмарках — без дорогого дообучения.

Масштабирование вычислений для RL в LLM

Фреймворк ScaleRL позволяет предсказывать производительность RL-обучения на больших масштабах по результатам небольших запусков, экономя сотни тысяч GPU-часов.

Память как действие для долгосрочных задач 

Подход MemAct, где агент явно редактирует свою рабочую память как часть действий, позволяя оптимизировать контекст для долгосрочных задач без раздувания токенов.

Вербализованный сэмплинг для разнообразия ответов 

Промптинг-техника, которая просит модель выдавать несколько ответов с вероятностями, возвращая разнообразие претрейна без переобучения.

Влияние GenAI на академическую продуктивность

Ученые, начавшие использовать Generative AI, увеличили выход публикаций, особенно на старте карьеры и среди неносителей английского — ИИ действительно помогает исследователям.

SWE-Bench Pro: новый бенчмарк для ИИ-агентов в разработке

Усложненный бенчмарк с многофайловыми задачами и GPL/коммерческим кодом, на котором текущие агенты показывают максимум 23% — до замены программистов ещё далеко.

Результаты топовых моделей на бенчмарке
Результаты топовых моделей на бенчмарке

Code World Model от Meta FAIR

Meta дообучила модель на трех миллионах траекторий выполнения кода, встраивая семантику исполнения на уровне претрейна для улучшения кодинга и математики.

Обучение с подкреплением на данных претрейна

RL-подход на неразмеченных текстах через награду за предсказание следующих сегментов улучшает общее и математическое мышление, масштабируясь с вычислениями.

Что такое «эффективный ризонинг»?

Точность CoT повышают более короткие цепочки с меньшим количеством неудачных ветвлений, а не длина или количество «проверок» — качество важнее объема.

Короткое окно внимания для долгосрочной памяти

Гибридные RNN-трансформеры с короткими окнами внимания лучше извлекают информацию из длинного контекста, чем с длинными — контринтуитивно, но работает.

Эволюция концептов при претрейне языковых моделей

Исследователи проследили, как интерпретируемые концепты появляются, вращаются и исчезают на разных этапах претрейна, связав микродинамику с фазовым переходом от статистики к признаковому обучению.

Продвинутое финансовое мышление в LLM

23 модели прогнали через CFA Level III, топовые reasoning-модели превысили порог сдачи, хотя грейдинг от ИИ оказался жестче человеческого.

Заключение

Помните времена, когда одна большая модель в месяц была событием? Теперь их три за неделю, плюс десяток стартапов, сотня инструментов и пара судебных исков для разнообразия. 

Эпоха чистого инженерного восторга, похоже, подходит к концу. Теперь главные битвы будут разворачиваться в судах, в отделах кадров и в головах пользователей. Кажется, «скучные» вопросы этики, права и модерации становятся даже интереснее, чем очередные +2% на бенчмарке.

А что в этом месяце больше впечатлило вас: технологические релизы или закулисные интриги? Делитесь в комментариях!

Комментарии (3)


  1. Bardakan
    04.11.2025 07:56

    Релиз nanochat от Андрея Карпаты
    Не совсем исследование, но от этого пользы не меньше. Полный конвейер для обучения мини-ChatGPT с нуля в 8 тысяч строк кода: четыре часа на GPU, сто долларов, и у вас свой чат-бот. Бонусом репозиторий nanochat.

    чел, тебе нормально бездумно перепечатывать бред нейросетей? Захожу по твоей ссылке - пишет тысячу долларов, а не сто. Причем не понятно даже откуда даже тысяча взялась, потому что у автора 8 штук nvidia h100, каждая из которых космических денег стоит


    1. Rubcov
      04.11.2025 07:56

      Смотрим описание репозитория:

      Листаем на два абзаца вниз:

      >>> Причем не понятно даже откуда даже тысяча взялась, потому что у автора 8 штук nvidia h100

      Это не его видеокарты. Он их арендует за $24/час у облачного провайдера.

      >>> чел, тебе нормально бездумно перепечатывать бред нейросетей?

      Зачем так обесценивать труд других людей из-за какой-то опечатки?


      1. Bardakan
        04.11.2025 07:56

        Опечатка говорите? Хорошо, тогда о чем новость - о nanochat за 100$ или за 1000$? Там две ссылки ведут на два разных исследования.