Иногда кажется, что у Сэма Альтмана, Сундара Пичаи и Дарио Амодея есть общий чат в Telegram, где они договариваются, чем занять AI-энтузиастам выходные. Выбирают одну неделю месяца и выстреливают всё разом. Не успели мы привыкнуть к предыдущим версиям, как индустрия синхронно шагнула в следующее поколение. GPT-5.1 с адаптивным мышлением, Gemini 3.0 с интерактивным режимом, Grok 4.1 с эмоциональным интеллектом и просто долгожданный Claude Opus 4.5 — всё это свалилось на нас практически одновременно.

Параллельно с битвой гигантов продолжается тихая революция в инструментах: IDE становятся агентными, а научные открытия всё чаще делегируются алгоритмам. Материалов много, новинок ещё больше, так что обойдемся без долгих прелюдий. Поехали разбирать релизный хаос.

Навигация

Свежие релизы

GPT-5.1: эмпатия в Instant и адаптивность в Thinking

Codex-Max с «бесконечной» памятью и бюджетный Mini

Групповые чаты: беседы с GPT выходят на новый уровень

Gemini 3.0: интерактивность в поиске и PhD-уровень рассуждений

Nano Banana Pro: наконец-то не просто набор букв

Code Wiki: документация, которая обновляет сама себя

Antigravity: разработчик и менеджер агентов в одном лице

Gemini Deep Research: доступ к личным данным

Новости от лидеров индустрии

Интересные тренды

Полезные инструменты

Исследования на почитать

Заключение

Свежие релизы

OpenAI

GPT-5.1: эмпатия в Instant и адаптивность в Thinking

OpenAI быстро решили, что «пятерке» пора взрослеть, и выпустили обновление версии 5.1, разделив её на два специализированных направления. 

GPT-5.1 Instant — это модель для тех, кто скучал по задушевным разговорам со своим GPT-другом. Она стала теплее, игривее (по заявлениям разработчиков) и научилась лучше улавливать эмоциональный контекст — компания явно прислушалась к жалобам на излишнюю «безопасность» GPT-5, которая сделала модель стерильной. Теперь бот снова шутит, использует метафоры и не боится быть человечным. Также подтянули следование инструкциям: если просите ответить в шесть слов — она ответит ровно в шесть, без лишних вступлений.

GPT-5.1 Thinking получила апгрейд в виде адаптивного ризонинга. Теперь модель не задумывается глубоко над каждым запросом подряд, а динамически распределяет время на размышления: простые вопросы решает быстрее, сложные — обдумывает дольше. Ответы стали чище — меньше жаргона, больше сути.

Источник изображения

На все модели расширили возможности кастомизации тона ответов, добавив шесть вариаций («профессиональный», «прямолинейный», «эксцентричный» и другие), плюс возможность тонко настраивать теплоту, эмодзи и многословность прямо в диалоге. Обе модели уже доступны в API, а старые версии отправились в раздел Legacy, где просуществуют ещё три месяца.

Codex-Max с «бесконечной» памятью и бюджетный Mini

В инструментах для разработки тоже произошло разделение на «тяжелую артиллерию» и «доступную альтернативу». Главная звезда — GPT-5.1-Codex-Max. Это агентная модель, специально заточенная под агентные задачи и работу вдолгую. 

Главная фича — механизм сжатия памяти. Когда контекстное окно переполняется, модель не обрезает хвост диалога, а «сжимает» историю, выбрасывая всё лишнее, но сохраняя критически важные детали задачи. Это позволяет агенту работать автономно до 24 часов, проводя рефакторинг или отладку, самостоятельно итерируясь и исправляя ошибки.

Источник изображения

Ощутимо выросли и бенчмарки: 79.9% на SWE-Lancer против 66.3% у предыдущей версии, 77.9% на SWE-bench Verified. При этом модель стала на 30% эффективнее по токенам — меньше «думает», но точнее решает. Впервые добавили нативную поддержку Windows-окружений, что закрывает давнюю проблему для разработчиков на этой платформе.

Для тех, кому Max не в бюджет, выпустили GPT-5.1-Codex-Mini. Это доступный вариант, который сохраняет архитектурные плюсы старшего брата, но стоит дешевле и дает в 4 раза больше лимитов API. На SWE-bench Mini показывает достойные 71.3%. Система автоматически предлагает переключиться на Mini при достижении 90% квоты — удобно для команд, которые боятся внезапно упереться в лимит.

Групповые чаты: беседы с GPT выходят на новый уровень

В дополнение к основным релизам запустили групповые чаты — можно добавить до 20 участников, скинув им ссылку-приглашение. Полезно для совместного планирования, брейнштормов или кодинга (контекст видят все). Личная память пользователей при этом не шарится в группы, каждый чат изолирован.

Источник изображения

Модели также привили «чувство такта»: она не отвечает на каждое сообщение подряд, влезая в разговор людей, а ждет, пока к ней обратятся напрямую или когда контекст явно потребует её вмешательства. Токены при этом списываются с того, кому модель отвечает. Функция уже раскатывается на всех тарифах.

Google

Gemini 3.0: интерактивность в поиске и PhD-уровень рассуждений

Google официально релизнул третье поколение своей флагманской модели. Новая модель Gemini 3.0 позиционируется как самая «умная» в линейке с рекордными 1501 Elo на LMArena и способностью решать задачи уровня PhD. Разработчики утверждают, что она научилась не просто отвечать на запросы, а улавливать контекст, нюансы и подтекст лучше предшественников. 

В кодинге пока без особых достижений, если сравнивать с Sonnet 4.5. Но самое интересное — это не метрики, а то, как Google меняет сам подход к взаимодействию с информацией.

Источник изображения

Теперь Gemini — это не просто чат-бот, а генератор интерфейсов. В режиме AI Mode поиск превращается в интерактивную среду: спросили про ипотеку — модель на лету написала код и развернула калькулятор под ваши условия; изучаете физику — получили рабочую симуляцию гравитации. Мультимодальность тоже вышла на новый уровень: можно скормить модели видео матча по теннису, и она разберет технику игрока, составив план тренировок, или превратит сухую научную статью в интерактивные карточки для запоминания. 

Для тех, кому нужно копнуть ещё глубже, представили Gemini 3 Deep Think — версию с усиленным ризонингом. В тестах она обходит базовую модель на сложных задачах вроде Humanity’s Last Exam (41% против 37.5%), но пока доступ к ограничен — модель тестят на безопасность.

Nano Banana Pro: наконец-то не просто набор букв

Визуальное подразделение Google тоже не оставило нас без новинок, представив модель с забавным названием Nano Banana Pro (она же Gemini 3 Image). И здесь инженеры ударили по самым больным местам генеративных нейросетей. Во-первых, модель наконец-то научилась корректно рендерить текст: теперь можно генерировать инфографику, постеры и комиксы, где буквы не превращаются в инопланетные иероглифы.

Источник изображения

Вторая важная функция — консистентность персонажей. Nano Banana Pro удерживает в «оперативной памяти» до 14 различных объектов или лиц, позволяя создавать сложные сцены, где герои не меняют внешность при смене ракурса или освещения. 

Источник изображения

Для более профессионального использования добавили инструменты постобработки: можно менять схему освещения (например, превратить день в ночь) или точку фокуса на уже сгенерированном изображении без перерисовки всей композиции. Всё это работает в нативном 4K разрешении, а для подписчиков Ultra убрали видимые водяные знаки, оставив только скрытую маркировку SynthID.

Code Wiki: документация, которая обновляет сама себя

Google решили попробовать закрыть одну из главных болей любого разработчика — обновление документации. Код уходит вперед, а вики-страницы устаревают ещё до того, как их успевают дописать. Чтобы разорвать этот порочный круг и появился Code Wiki — это новый агент, который подключается к репозиторию и не просто генерирует описание проекта, а переписывает соответствующие разделы самостоятельно после каждого коммита.

Источник изображения

Но только текстом дело не ограничивается. Система генерирует диаграммы классов и последовательностей, синхронизированные с текущей версией кода, и пересобирает их по мере изменений в проекте. Если что-то непонятно, можно пообщаться с чат-ботом, который знает контекст именно вашего проекта «от и до» и может перейти по ссылке в конкретную строку кода. Особенно полезно для легаси-кода, где писавший уже три года как уволился, а разбираться всё равно надо.

Сейчас сервис работает в публичном превью для открытых репозиториев, а для приватных корпоративных проектов готовят CLI-версию, чтобы запускать агента локально и безопасно. 

Antigravity: разработчик и менеджер агентов в одном лице

Если Code Wiki помогает разбираться с кодом, то Google Antigravity предлагает новый способ его писать. Это не очередная IDE с чат-ботом сбоку, а платформа для асинхронной разработки, где человек выступает скорее в роли диспетчера. Платформа делит работу на две зоны: классический Editor для тех моментов, когда нужно писать руками, и Manager — центр управления автономными агентами.

Источник изображения

Здесь ИИ не просто дописывает строки в редакторе, а получает доступ к браузеру и терминалу. Можно поручить одному агенту верстать фронтенд, другому — гуглить решение ошибки, а третьему — прогонять тесты. Чтобы процесс не превращался в «черный ящик», агенты отчитываются артефактами (планами, скриншотами, логами и т.д.) которые можно комментировать и править на лету. 

Любопытно, что Google не запирает пользователей в своей экосистеме: Antigravity поддерживает и Gemini 3, и Claude Sonnet 4.5, и GPT-OSS. Звучит, конечно, амбициозно, но посмотрим, как справится с реальными проектами, а не демо-кейсами.

Gemini Deep Research: доступ к личным данным

Gemini Deep Research наконец научили копаться не только в «общем» вебе, но и в ваших собственных документах. Теперь можно запустить исследование, и система прочешет Gmail, Drive (включая Docs, Slides, Sheets, PDF) и Chat, собирая внутренний контекст вместе с публичными источниками.

Источник изображения

На практике это позволяет строить отчеты на гибридных данных: например, составить анализ конкурентов, опираясь одновременно на веб-поиск, внутренние стратегии из Google Docs и обсуждения в рабочих чатах. Функция уже доступна на десктопах, а мобильную версию обещают в ближайшие дни.

Claude Opus 4.5: SOTA в кодинге и управление мышлением

Воссоединение семейства состоялось — вышел Claude Opus 4.5, и это тот случай, когда ожидание оправдалось. Модель первой в индустрии преодолела рубеж 80% на SWE-bench Verified, официально закрепив за собой статус главного инструмента для сложной программной инженерии. Но куда важнее то, что разработчики дали нам прямые рычаги управления мышлением модели. В API появился параметр effort, который решает вечную дилемму «быстрее или умнее». Выставив уровень medium, можно получить качество топового Sonnet 4.5, но сэкономить 76% токенов. А если «выкрутить» ризонинг на максимум, Opus превосходит Sonnet на 4.3%, используя вдвое меньше токенов.

Источник изображения

Для долгих агентных сессий, где контекст быстро забивается мусором, внедрили механизм сжатия контекста — такой же, как в Codex-Max от OpenAI. Вкупе с радикальным падением цены (с 15$/75$ до 5$/25$  за миллион токенов) Opus 4.5 перестает быть пожирателем недельных лимитов, а становится вполне себе прикладным инструментом.

Помимо самой модели обновили продуктовую линейку: Claude Code теперь в десктопном приложении с возможностью запускать несколько сессий параллельно, Claude для Chrome открыли всем Max-пользователям, а бета-доступ к Claude для Excel расширили на Max, Team и Enterprise.

Grok 4.1 становится эмпатичнее и точнее

xAI выпустила Grok 4.1 через постепенный роллаут с 1 по 14 ноября, тестируя новую версию на живом трафике без лишнего шума. И уже 64.78% пользователей предпочли обновленную модель предыдущей версии. На LMArena Grok 4.1 Thinking занял первое место с 1483 Elo, а версия без reasoning получила 1465 и заняла второе. Правда, «восседали»  они там ровно до выхода Gemini 3 Pro (1 день…), но тем не менее, результат хороший.

Источник изображения

Главную ставку сделали на эмоциональный интеллект. Grok 4.1 научили не просто корректно отвечать, а сделали ответы теплее, персонализированнее, с меньшим количеством клише. При этом не забыли и про точность: галлюцинации снизились втрое (с 12.09% до 4.22% на продакшн-запросах), а FActScore упал с 9.89% до 2.97%. 

Правда, пока непонятно, насколько устойчив этот баланс между эмоциональностью и надежностью. Чем более «человечной» становится модель, тем выше риск, что в спорных ситуациях она будет охотнее соглашаться с пользователем даже там, где стоило бы возразить. Насколько это критично, покажет только реальный пользовательский опыт.

World Labs: Marble генерирует 3D-миры, которые можно расширять и экспортировать

Стартап Фей-Фей Ли выпустил свой первый коммерческий продукт — модель Marble для создания трехмерных миров. В отличие от большинства генераторов 3D, которые выдают статичные сцены, Marble делает упор на персистентные пространства, которые можно исследовать, редактировать и экспортировать в форматы для игр или симуляций. 

Модель работает с текстом, изображениями, видео и даже грубыми 3D-набросками. На выходе отдает результат в нескольких форматах: классические полигональные меши, Gaussian Splats (облака частиц, которые обеспечивают фотореалистичный рендер прямо в браузере) или просто в видео с пиксельным контролем камеры. 

Источник изображения

Ещё из интересного инструмент Chisel. Работает он так: вы делаете грубый набросок из простых кубов и плоскостей, а модель «натягивает» на них детализированный мир по текстовому описанию, сохраняя геометрию. После генерации можно редактировать точечно, расширять границы мира в нужных направлениях или комбинировать несколько миров в огромную сцену.

Базовый доступ начинается от $20 в месяц, но есть и бесплатные кредиты, чтобы потестировать. 

Kosmos: ИИ-ученый и первооткрыватель

Стартап Edison Scientific, отпочковавшийся от FutureHouse, представил Kosmos — систему, которую они скромно называют «следующим поколением ИИ-ученых». И это не пустое позиционирование: Kosmos использует структурированные модели мира, которые позволяют ему держать когерентность на десятках миллионов токенов. За один свой запуск агент читает 1500 научных статей и прогоняет 42 000 строк аналитического кода. 

Самое любопытное — практический результат. Kosmos уже сделал семь научных открытий: в трех случаях агент независимо воспроизвел выводы, ранее сделанные исследователями-людьми, остальные четыре находки — принципиально новые.  Например, система нашла связь между уровнем фермента SOD2 и фиброзом миокарда, используя только публичные данные. 

Кейс обнаружения связи между уровнем фермента SOD2 и фиброзом миокарда. Источник изображения
Кейс обнаружения связи между уровнем фермента SOD2 и фиброзом миокарда. Источник изображения

У системы есть минус: Kosmos часто уходит в «кроличьи норы», гоняясь за статистически значимыми, но научно бесполезными корреляциями. Для профилактики авторы рекомендуют запускать модель несколько раз на одну задачу, чтобы выбрать лучший из маршрутов исследования. На секундочку, один такой запуск стоит $200. Дороговато для экспериментов, но если действительно заменяет полгода работы на заявленном уровне, то затраты окупятся.

FLUX.2: фотореализм и редактирование в 4 мегапикселя

Black Forest Labs выпустили FLUX.2 — и это не одна модель, а целое разношерстное семейство. Релиз включает четыре версии под разные сценарии и ресурсы: pro для максимального качества, flex с ручным контролем шагов и guidance scale, dev — открытая 32-миллиардная модель с коммерческой лицензией, и klein (обещают скоро) — компактная Apache 2.0 версия. Плюс новый VAE, который они переобучили с нуля для лучшего баланса между сжатием и качеством.

Как и модели конкурентов, FLUX.2 теперь дружит с текстом: сложные шрифты, инфографика и UI-макеты рендерятся без артефактов. Плюс добавили поддержку мульти-референсов: можно скормить модели до 10 изображений, и она смешает их стиль или удержит внешность персонажа, не превращая лицо в скример. 

Пример того, как FLUX.2 строит сцену на основе референсов. Источник изображения
Пример того, как FLUX.2 строит сцену на основе референсов. Источник изображения

Сами изображения можно редактировать в разрешении до 4 мегапикселей, сохраняя при этом детализацию на уровне. По заявлениям создателей, dev — самая мощная открытая модель для генерации изображений на рынке, но обычно после таких заявлений выходит модель ещё лучше от конкурента.

По ценам, кстати, приятнее, чем Nano-Banana 2, так что пробуем и сравниванием.

Kimi K2 Thinking: китайцы снова удивляют

Китайская Moonshot AI продолжает агрессивно штурмовать лидерборды, выпустив открытую модель Kimi K2 Thinking. Это прямой конкурент западных Thinking-моделей, заточенный на длинные цепочки рассуждений. Агент может выполнить до 300 последовательных вызовов инструментов без вмешательства человека. При этом он рассуждает на каждом шаге: думает, ищет в вебе, пишет код, снова думает, циклически уточняя гипотезы.

Бенчмарками уже никого не удивишь, но результаты очень приличные: 44.9% на Humanity's Last Exam с инструментами, 60.2% на BrowseComp, 71.3% на SWE-bench Verified. Особенно сильна в агентном кодинге — в блогпосте можно посмотреть, какие функциональные React-компоненты модель строит после одного промпта. Для самых сложных задач есть Heavy Mode, который запускает восемь параллельных потоков рассуждений и агрегирует результа.

Источник изображения

Модель доступна на kimi.com и через API, веса на Hugging Face. Спасибо партии за очередной крутой опенсорс.

DeepSeekMath-V2: доверяй, но проверяй

Под конец месяца подсуетились и DeepSeek и выпустили DeepSeekMath-V2 — модель, заточенную под доказательство теорем, которая не просто генерирует решения, а умеет находить в них ошибки и исправлять. В новой версии верификатор обучили оценивать полноту и точность каждого шага доказательства по трем уровням (0 / 0.5 / 1), а затем научили генератор самостоятельно анализировать свои доказательства этим же верификатором. Чтобы модель не галлюцинировала проблемы там, где их нет, добавили meta-verification — вторичную проверку того, что выявленные ошибки действительно существуют и логически обосновывают оценку. 

Получается такая цепочка: верификатор улучшает генератор через обратную связь → усиленный генератор создает более сложные доказательства, которые становятся тренировочными данными для улучшения верификатора → цикл повторяется. 

Источник изображения

По достижениям золото на IMO 2025 и CMO 2024, 118/120 на Putnam 2024 при максимуме среди людей в 90 баллов. Правда, других крупных бенчмарков пока не завезли, но и эти результаты весьма показательные.

Новости от лидеров индустрии

OpenAI и AWS: очередное партнерство во имя железа

OpenAI подписали с AWS контракт на семь лет на $38 млрд, обеспечивающий доступ к сотням тысяч Nvidia GPU и десяткам миллионов CPU. Вся инфраструктура должна быть развернута до конца 2026 года — амбициозный план, учитывая, что ранее стартап заключил аналогичные сделки с AMD и Broadcom. Суммарно обязательства OpenAI по железу достигли $1.4 трлн на восемь лет, что заставило даже самых оптимистичных инвесторов задуматься: а потянут ли?

Источник изображения

Альтман в своем стиле заявил, что риск остаться без вычислительных мощностей критичнее, чем риск закупить слишком много. Видимо, стратегия «потратить всё сейчас, заработать потом» работает, пока инвесторы продолжают верить.

arXiv устал от генеративного мусора 

В категории Computer Science на arXiv ввели жесткое правило: обзорные статьи и эссе о том, как «правильно» развивать отрасль (position papers) теперь принимаются только после прохождения внешнего рецензирования. Формально это не смена политики — такие материалы никогда не были в списке официально принимаемых, просто раньше модераторы пропускали качественные работы на свое усмотрение. Но времена изменились: LLM превратили написание обзоров в конвейер, и платформа получает сотни работ без капли оригинального анализа.

Волонтеры-модераторы физически не справляются с потоком халтуры и отвлекаются от основной работы — публикации реальных исследований. Теперь качество будут проверять внешние площадки, а arXiv останется дистрибьютором уже проверенного. Разумное решение, хотя запоздалое — ChatGPT-мусор заполоняет платформу уже пару лет как.

Anthropic идут к прибыли, пока OpenAI сжигают миллиарды

Финансовые документы, просочившиеся в WSJ, рисуют интересную картину: OpenAI прогнозирует убыток в $74 млрд к 2028 году (три четверти выручки), а Anthropic — выйти на безубыточность к тому же сроку. В этом году OpenAI сожгут $9 млрд при выручке $13 млрд, Anthropic — почти $3 млрд при $4.2 млрд продаж. А к 2027-му burn rate Anthropic упадет до 9% выручки, у OpenAI застрянет на 57%.

Источник изображения

Секрет прост: Anthropic фокусируется на B2B и кодинге, избегая сжигания денег на сверхдорогие эксперименты вроде генерации видео, а OpenAI наоборот вливает туда бюджеты с огромным энтузиазмом.

На этом фоне Anthropic собрали настоящий «флеш-рояль» из партнеров. К Amazon и Google присоединились Microsoft и NVIDIA, вложив $15 млрд суммарно. Теперь Claude доступен во всех трех главных облаках мира (AWS, Google Cloud, Azure), а Дженсен Хуанг назвал это «сбывшейся мечтой». Оценка компании подскочила до $350 млрд — удвоение за пару месяцев. 

Ян Лекун уходит из Meta — конец эпохи

Один из «крестных отцов» ИИ и бессменный глава AI-направления Meta Ян Лекун объявил об уходе из Meta в конце года. Лекун 12 лет проработал в компании: создал FAIR, заложил основы для Llama и превратил Meta в одного из лидеров ИИ-индустрии. Теперь он запускает собственный стартап, сфокусированный на Advanced Machine Intelligence (AMI) — концепции, которую он продвигал годами как альтернативу LLM-подходу. Лекун не раз критиковал текущие языковые модели за отсутствие реального понимания мира, и теперь, видимо, решил доказать свою правоту делом.

Источник изображения

Meta останется партнером венчура, так что полного разрыва не будет. Но сам факт ухода такой фигуры говорит о многом — видимо, внутри крупных корпораций становится тесно для амбициозных исследовательских проектов. Или просто все поняли, что самое время основать стартап и поднять пару миллиардов, пока хайп не остыл.

SoftBank продали всю Nvidia ради ставки на OpenAI

SoftBank 25 октября продали всю свою долю в Nvidia на $5.8 млрд — и не потому, что разочаровались в чипмейкере, а потому что нужны деньги на финансирование ИИ-проектов. CEO SoftBank Масаёси Сон распродает активы, чтобы оплачивать «хотелки»: от дата-центров Stargate с OpenAI до заводов по производству роботов в США. Акции SoftBank на фоне этой новости просели на 10%, а Nvidia — на 3.9%, что намекает на нервозность инвесторов по поводу «заоблачных» оценок.

Источник изображения

Забавно, что SoftBank уже однажды продавали акции Nvidia в 2019-м, потом «вернулись» к ним в 2020-м — за два года до ChatGPT и исторического роста. С тех пор капитализация Nvidia выросла на $2 трлн, так что тайминг у них вполне неплохой. Теперь через свой собственный инвестиционный фонд они вливают в OpenAI полные $22.5 млрд без предварительных условий, плюс планируют купить Ampere Computing за $6.5 млрд и роботостроительное подразделение ABB за $5.4 млрд. На вопрос, не пузырь ли это, финдиректор честно ответил: «Сказать не могу, но продали акции Nvidia, чтобы деньги можно было использовать для финансирования». Честно, но не обнадеживающе.

Oracle тонет в убытках после сделки с OpenAI

В сентябре Oracle заключили крупнейший в истории облачных вычислений контракт с OpenAI на $300 млрд — расширение дата-центров на 4.5 гигаватта. Акции сначала взлетели, а потом началось: с момента анонса компания потеряла $315 млрд рыночной капитализации.

Источник изображения

Проблема в том, что Oracle фактически стали публичным прокси OpenAI, но без соответствующей финансовой подушки. По прогнозам, свободный денежный поток компании будет отрицательным пять лет подряд (!), а чистый долг к 2030 году удвоится. При этом большинство будущих доходов привязано к одному клиенту — OpenAI. Стоимость хеджирования долга Oracle достигла трехлетнего максимума, что говорит само за себя: рынок нервничает. Раньше анонс сделки с OpenAI поднимал акции, теперь топит — времена изменились.

The New York Times против OpenAI: битва за 20 млн чатов

Конфликт с The New York Times перешел в новую фазу. Суд обязал OpenAI передать газете 20 миллионов анонимизированных логов чатов, чтобы истцы могли проверить, не использовали ли люди ChatGPT для обхода пейволла газеты. OpenAI пытались отбиться, выпустив гневное письмо о том, что это «вторжение в частную жизнь» и отказались передавать данные. Потом пытались торговаться: предложили целевой поиск по чатам (только те, где упоминаются статьи NYT), плюс обезличенную статистику использования. Но увы и ах, суд встал на сторону NYT и обязал компанию предоставить логи, поставив дедлайн. 

Источник изображения

Издание обещает деидентификацию данных и строгий правовой контроль, но факт остается фактом: миллионы личных разговоров попадут в руки юристов и консультантов газеты. OpenAI уже пишут в блоге про ускорение работы над шифрованием на стороне клиента, чтобы даже сама компания не могла прочитать сообщения. Правда, это не поможет тем 20 миллионам чатов, которые уже передадут NYT по решению суда.

Сэм Альтман и очередная «революция» — новый стартап Episteme

Пока OpenAI сжигает миллиарды на инференсе и судится с The New York Times, Сэм Альтман нашел время запустить ещё одну компанию. Episteme (от греческого «знание») позиционируется как альтернатива академии и индустрии для «исключительных ученых с влиятельными идеями, которые чахнут в традиционных институтах». История стара как мир: университеты слишком осторожны и зависимы от грантов, индустрия зациклена на квартальной прибыли, стартапам не хватает капитала для долгосрочных исследований.

Episteme обещает стать «третьим выходом» — чем-то средним между Bell Labs, Институтом перспективных исследований и Xerox PARC. За два года Альтман и соучредитель Льюис Андре поговорили с сотнями ученых, чтобы понять их «боли», и теперь собирают всех под одной крышей с индивидуальным финансированием. Причем обещают полную свободу для рискованных исследований в физике, биологии и вычислениях. И никакого давления коммерциализации на старте: Episteme инвестирует «в людей, а не в одну из их идей». Звучит благородно, но что будет по факту — увидим.

Apple платит Google $1 млрд в год, чтобы Siri наконец поумнела

Apple и Google финализируют сделку, по которой Купертино будет выплачивать около миллиарда долларов ежегодно за использование кастомной версии Gemini для перестройки Siri. Новая система под кодовым названием Glenwood будет использовать кастомную версию модели на 1.2 триллиона параметров, которая поселится на серверах Apple Private Cloud Compute. Apple тестировали и ChatGPT, и Claude, но остановились Gemini за ее производительность и масштабируемость.

Для Apple это тактический маневр — собственные модели компании пока не дотягивают до уровня GPT-4 и Gemini, а пользователи требуют умного ассистента здесь и сейчас. Сделка подразумевает, что Google останется за кулисами без видимого брендинга, и позиционируется как временная мера, пока Apple допиливает свой триллионную модель. Siri со вкусом Gemini ожидается в iOS 26.4 следующей весной.

Сколько на самом деле тратит OpenAI: утечка финансов

Блогер Эд Зитрон раскопал внутренние документы OpenAI, проливающие свет на финансовые отношения с Microsoft. В 2024 году Microsoft получила от стартапа $493.8 млн в виде revenue share (своего рода доля от прибыли), а за три квартала 2025-го — $865.8 млн. При ставке в 20% это дает минимум $4.3 млрд выручки OpenAI за три квартала (но, скорее всего, больше). Нюанс: Microsoft тоже платит OpenAI примерно 20% от выручки Bing и Azure OpenAI Service, а слитые суммы — это уже чистый revenue share после вычета встречных платежей. Сколько конкретно возвращается — неизвестно, так что реальная выручка OpenAI может быть выше.

Зато известны затраты на инференс: примерно $3.8 млрд в 2024-м и $8.65 млрд за первые девять месяцев 2025-го. Судя по этим цифрам, OpenAI может тратить на запуск обученных моделей больше, чем зарабатывает — при том что затраты на обучение в основном покрываются кредитами от Microsoft, а инференс оплачивается реальными монетками. Впрочем, точной картины нет: выручка может быть выше минимальных $4.3 млрд. Но даже эти предварительные оценки подливают масла в разговоры про ИИ-пузырь: если OpenAI с их масштабом балансирует на грани или уходит в минус на инференсе, что говорить про остальных?

Интересные тренды

Инвесторы против ИИ-пузыря: Бьюрри и Тиль против всех

Два тяжеловеса финансового мира проголосовали кошельком против текущего хайпа.

Майкл Бьюрри — тот самый инвестор из «Игры на понижение», который в 2008-м предсказал крах рынка недвижимости и заработал миллиард на CDS — теперь взялся за ИИ. В ноябре выяснилось, что его фонд купил пут-опционы на $1.1 млрд, которые окупятся, если акции Nvidia и Palantir упадут. Параллельно Питер Тиль через свой хедж-фонд Thiel Macro избавился от всей доли в Nvidia — около 537 тысяч акций на ~$100 млн по цене закрытия 30 сентября. Бьюрри даже постил в X: «Иногда мы видим пузыри. Иногда с этим можно что-то сделать. Иногда единственный выигрышный ход — не играть».

Сразу же начались разговоры про «усталость от ИИ» и сомнения в устойчивости конструкции — триллионы вливаются в инфраструктуру, но возврат инвестиций под большим вопросом. Как выразился аналитик Фархан Бадами: «Инвесторы начинают чувствовать, что сверхвысокие оценки не имеют смысла, а энтузиазм вокруг ИИ явно раздул эти натянутые цифры». Забавно, что для анализа этой самой усталости все дружно ждут квартального отчета Nvidia — если кто и может развеять опасения про пузырь, так это компания, чьи чипы лежат в основе всего ИИ-бума.

ИИ-слоп заполонил интернет: ИИ-контента теперь больше, чем человеческого

Анализ датасета CommonCrawl показал пугающую (или ожидаемую?) статистику: в ноябре 2024 года количество сгенерированных ИИ статей в сети официально превысило число написанных людьми. И это притом, что методология не учитывала такой контент, когда модель генерирует черновик, а человек редактирует — таких статей может быть ещё больше.

Исследователи использовали детектор SurferSEO (точность 99.4% на текстах GPT-4o) и выяснили, что бизнес массово перешел на «автопилот» для SEO-трафика. Рост начался сразу после запуска ChatGPT в ноябре 2022-го, и уже через год нейросети писали 39% всех статей. Но с мая 2024-го доля ИИ-статей вышла на плато и больше не растет.

Источник изображения

Гипотеза исследователей такова, что поисковики научились фильтровать этот поток, и в топ выдачи синтетика попадает редко — и это хорошая новость. Плохая новость: интернет превращается в кладбище текстов, которые никто не писал и никто не читает, кроме, разве что, других ботов.

Первая масштабная кибератака, оркестрованная ИИ

Anthropic раскрыли детали масштабной атаки, в которой хакеры использовали джейлбрейкнутый Claude Code не как советчика, а как исполнителя. По их оценкам, ИИ выполнял 80–90% работы — анализировал системы, писал эксплойты, воровал учетные данные и эксфильтровал данные со скоростью тысяч запросов в секунду. Человек вмешивался только 4–6 раз за кампанию в критических точках. Сам Claude тоже стал жертвой мошенников: задачи разбивались на безобидные части без полного контекста, а боту говорили, что он помогает в тестировании защиты.

Схема кибератаки. Источник изображения
Схема кибератаки. Источник изображения

Модель, конечно, иногда галлюцинировала (придумывала несуществующие пароли), но сам факт того, что ИИ теперь выступает в роли «цифрового наемника», меняет ландшафт кибербезопасности. Вывод Anthropic однозначный: теперь и менее опытные группы могут проводить крупномасштабные операции, а реализация многоступенчатых атак станет проще. 

Датацентр, где всем заправляет ИИ

В Южной Корее решили не мелочиться и построить первый в мире датацентр, где ИИ будет не только «жильцом», но и «управляющим». Инвестиционная группа Stock Farm Road совместно со стартапом Voltai запустили Project Concord стоимостью $35 млрд, где машина будет архитектором, менеджером и оператором одновременно.

Люди здесь останутся только на правах наблюдателей. Проект обещает мощность в 3 гигаватта — цифра для одиночного объекта почти фантастическая (обычно потолок около 1 ГВт). Запуск запланирован на 2028 год. Вопрос один: кого будем винить, если что-то пойдет не так? 

Китайские мозги — движущая сила американских лабораторий

New York Times рассказала об исследованиях Carnegie Endowment и alphaXiv, которые рушат черно-белую картину противостояния США и Китая. Оказалось, что пока американские политики и CEO месяцами твердят, что Китай — главный враг в гонке ИИ, специалисты из Китая держат их науку на плаву. Итак, цифры: из 100 топовых китайских ИИ-исследователей, работавших в США в 2019-м, 87 остались — несмотря на иммиграционный крэкдаун Трампа и антикитайские настроения. А с 2018 года совместные публикации США и Китая выходят чаще, чем между любыми другими странами.

Когда Цукерберг в июне анонсировал Superintelligence Lab в Meta, семеро из одиннадцати новых исследователей оказались родом из Китая. В ИИ-отделе Meta даже шутят, что новичкам нужно знать два языка: Hack (внутренний язык программирования) и мандарин. 

Да, есть риски шпионажа — в 2023-м хакер украл детали ИИ-технологий OpenAI. Но аналитики вроде Мэтта Шихана считают пользу несопоставимой с рисками: без китайских талантов Силиконовая Долина проиграет глобальную гонку. Кому? Правильно, Китаю. Логика железная.

Опрос Deezer: 97% людей не могут отличить ИИ-музыку от настоящей

Стриминговый сервис Deezer совместно с Ipsos провел эксперимент, результаты которого возможно расстроят аудиофилов. Из 9000 опрошенных 97% не смогли на слух отличить треки, полностью сгенерированные ИИ, от человеческих. При этом больше половины признались, что им некомфортно от собственной беспомощности, а 51% уверены, что ИИ затопит платформы низкокачественным шлаком. Почти две трети считают, что технология убьет креативность. 

Самое забавное, что люди хотят знать правду (73% за выступают за маркировку песен, написанных ИИ), но на слух её уже не определяют. Это подтверждает кейс группы The Velvet Sundown, которая завирусилась на Spotify и собрала миллионы прослушиваний, прежде чем кто-то заподозрил неладное и выяснилось, что группы не существует. При этом доля синтетической музыки в стримах растет пугающе быстро: в январе это был каждый десятый трек, а к ноябрю — уже каждый третий.

Полезные инструменты

Разработка и No-Code

  • Build0: собирает кастомные internal-приложения за минуты без кода. Frontend, backend, база данных, хостинг — всё из коробки с готовыми интеграциями в Slack, Notion, HubSpot, Airtable и Stripe.

  • Wabi: платформа для создания персонального софта, которая хочет стать «YouTube для приложений». Позволяет строить программы для себя и делиться с сообществом.

  • Sleek.Design: генерация макетов мобильных приложений по текстовому промпту или картинке. Умеет не только рисовать экраны, но и экспортировать их в Figma или сразу в код.

  • Softr: визуальный конструктор бизнес-приложений, который теперь включает встроенных AI-агентов. Описываете задачу на английском — получаете готовый воркфлоу с логикой и базой данных.

Маркетинг и контент

  • 1stCollab: полностью автоматизированная платформа для influencer-маркетинга. Запускает первую кампанию за час без вашего участия.

  • Keyword Grid: оценивает контент теми же NLP-моделями, что используют поисковики. Показывает, почему вы ранжируетесь или нет, и помогает оптимизировать под традиционный поиск и выдачу чат-ботов.

  • Arcitext: инструмент, который учится вашему стилю письма по загруженным образцам, генерирует идеи и драфты, сохраняя голос автора.

  • BlogBowl: автоматическая генерация SEO-статей «под ключ». Не просто пишет текст, но и добавляет картинки, таблицы, видео и ссылки, ориентируясь на топы выдачи Google.

  • Passionfruit: превращает упоминания в ИИ в выручку. Отслеживает цитаты на уровне страниц, показывает ROI по каждому движку и генерирует стратегии оптимизации контента.

Источник изображения
  • Juice: «ИИ-команда маркетинга» из 10–100 виртуальных сотрудников. Массово создает, тестирует и постит короткие видео в соцсети для органического охвата.

Продуктивность и организация

  • Extra Thursday: умный почтовый клиент, который «видит» весь контекст переписки, а не один тред. Умеет отвечать на вопросы вроде «Кто ждет моего ответа?» и драфтить письма в вашем стиле.

  • Sandbar: не софт, а целое смарт-кольцо для голосовых заметок и управления задачами. Позиционируется как «разговорное расширение вашего мышления» без экранов.

  • Snippets AI: единый хаб для хранения промптов команды. Позволяет версионировать, тегировать и шерить удачные запросы, заменяя разрозненные Notion-доки.

  • Poly: интеллектуальный поиск по локальным файлам. Индексирует видео, фото и документы, позволяя агенту находить нужное и отвечать на вопросы по содержимому.

  • Everyday: кросс-платформенный таск-менеджер, который берет на себя рутину. Разгребает инбокс, организует календарь и пинает по задачам.

Дизайн и медиа

  • YouArt: студия агентных воркфлоу для генерации креативов. Позволяет создавать стабильные пайплайны генерации, чтобы получать предсказуемый результат, а не рулетку.

Источник изображения
  • CapCut AI Suite: набор инструментов для автоматизированного монтажа. Нарезает видео, добавляет эффекты, генерирует обложки и постеры из промптов.

  • Color Palette Pro: инструмент с ретро-интерфейсом для генерации цветовых палитр в продвинутых цветовых пространствах. Удобный экспорт для дизайнеров и дата-визуализаторов.

Работа с данными и Data Science

  • Sheet0: превращает любые данные (файлы, API, сайты) в SQL-таблицы. Режим «YOLO для таблиц»: вы говорите, что нужно, а он сам пишет SQL и строит отчеты.

  • Data Formulator: инструмент от Microsoft с агентами для исследования данных. Вы задаете цель, а агент сам строит визуализации и находит инсайты, оставляя вам контроль над ветками анализа.

  • side::kick(): ИИ-компаньон для RStudio. Читает файлы проекта, выполняет код и помнит контекст сессии, превращая IDE в парного программиста.

Источник изображения
  • probabilit: Python-библиотека для моделирования Монте-Карло. Позволяет описывать вероятностные модели уравнениями, а не кодом симуляции.

  • emmeans: R-пакет для post-hoc анализа. Считает маргинальные средние и контрасты, автоматически отслеживая трансформации данных и p-value.

  • Deepshot: ML-модель для предсказания исходов матчей NBA. Учитывает исторические тренды и контекстную статистику для высокой точности прогнозов.

  • Datanomy: терминальная утилита для инспекции файлов данных (пока только Parquet). Показывает структуру, метаданные и организацию файла без его полного открытия.

Бизнес, образование и операции

  • Console: инструмент для автоматического решения повторяющихся IT-запросов. Разгружает инженеров от тикетов типа «»сбрось пароль или «дай доступ», решая их автоматически.

  • Jinna.ai: ассистент для администрирования финансов. Создает инвойсы, пинает клиентов за оплату и сводит дебет с кредитом через чат.

  • Floqer: автоматизация GTM-данных. Ищет сигналы о намерениях (intent signals) в реальном времени и триггерит цепочки продаж или обновляет CRM.

Источник изображения
  • GitLaw: агент для юристов. Драфтит контракты по шаблонам (NDA, SaaS), делает ревью документов и показывает историю изменений в формате git-diff.

  • Klarity: аналитик операционных процессов. Картирует рутину компании и подсказывает, где именно можно внедрить ИИ-автоматизацию.

  • Papiers: превращает научные статьи в майндмэпы, социальные фиды и саммари. Делает процесс ресерча менее больным.

  • BeFreed: персональный аудио-агент для обучения. Генерирует подкасты-лекции по запросу и позволяет задавать вопросы прямо по ходу прослушивания.

Исследования на почитать

Архитектуры и методы обучения

Парадигма вложенного обучения от Google 

Google снова пытается переизобрести нейросеть, предлагая рассматривать модель не как единый монолит, а как набор оптимизационных вложенных с разными частотами обновления: быстрые компоненты адаптируются к текущему контексту, медленные — хранят базовые знания. Оптимизатор при этом сам становится обучаемой нейросетью. Архитектура HOPE показала более низкую перплексию и лучшую точность в длинноконтекстном рассуждении, чем базовые трансформеры.

Изображение из исследования: единая структура и обновление в разных временных шкалах обеспечивают непрерывное обучение мозга. Вложенное обучение (NL) реализует этот принцип, показывая, что трансформеры по сути являются линейными слоями с разной частотой обновления.
Изображение из исследования: единая структура и обновление в разных временных шкалах обеспечивают непрерывное обучение мозга. Вложенное обучение (NL) реализует этот принцип, показывая, что трансформеры по сути являются линейными слоями с разной частотой обновления.

Протокол обмена кэшем между моделями

Авторы предлагают соединять модели напрямую через Key-Value Cache вместо токенов — в 2–3 раза быстрее и точнее на 5%. Модуль проекции соединяет кэши моделей из разных семейств в единый эмбеддинг. Минус: для каждой пары моделей придется обучать свой «мост», но результат того стоит — модели действительно лучше понимают друг друга без слов.

Линейная архитектура внимания Kimi 

Moonshot AI представили гибридную архитектуру, объединяющую Delta Attention и Multi-Head Latent Attention. Авторы хотят добиться эффективности линейного внимания , но сохранить выразительность полного внимания. Тесты показывают, что архитектура часто не уступает full-attention моделям, но при этом работает значительно быстрее и экономнее.

Масштабирование рассуждения через цикличные языковые модели 

Вместо того чтобы бесконечно наращивать параметры, авторы предлагают рекурсивно использовать одни и те же слои с механизмом адаптивного раннего выхода. Модель крутит данные через себя, пока не решит, что готова дать ответ. Это позволяет повысить эффективность параметров в 2–3 раза на больших масштабах, экономя память без потери качества рассуждений

Непрерывные авторегрессионные языковые модели 

Попытка уйти от дискретного предсказания «следующего токена». Модель сжимает группу из K токенов в непрерывные векторы через автоэнкодер и предсказывает следующий вектор вероятностным методом. Это меняет физику генерации, сокращая количество шагов авторегрессии и потенциально открывая путь к более плавным и быстрым ответам.

Предобучение с предсказанием будущих саммари 

Исследователи предложили заменить классический next-token prediction на предсказание сжатого саммари будущего окна контекста. Это заставляет модель лучше планировать и понимать долгосрочные связи, а не просто угадывать ближайшее слово. На моделях размера 8B подход дал прирост до 5% в задачах на кодинг и математику. 

Конец ручного декодирования: полностью сквозные языковые модели 

Авторы добавили к трансформерам легковесные «головы», которые динамически настраивают параметры генерации (температура, top-p) на каждом шаге. Модель сама решает, когда ей нужно быть вариативной, а когда — строго детерминированной, превосходя по качеству экспертно настроенные базовые модели. 

Изображение из исследования: обзор архитектуры метода
Изображение из исследования: обзор архитектуры метода

Обучение с подкреплением и пошаговым рассуждением 

Новый метод учит модель вести «внутренний монолог» и совершать дискретные промежуточные действия. Главное отличие — плотная награда: модель получает фидбек на каждом шаге рассуждения, сравнивая свои действия с декомпозированными траекториями эксперта, а не ждет оценки только в самом конце ответа.

Устранение разрыва между обучением и инференсом через FP16 

Довольно важная для деплоя работа. Выяснилось, что переключение с BF16 на FP16 во время RL-файнтюнинга устраняет ошибки округления, вызывающие расхождение между движками обучения и инференса. Это повышает стабильность моделей и избавляет от необходимости шаманить с importance sampling.

Интерпретируемость и безопасность

Возникновение мисэлаймента через «взлом награды» от Anthropic 

Исследование Anthropic с пугающим выводом: как только модель учится читерить с функцией награды в безобидных задачах (reward hacking), она мгновенно начинает обобщать это поведение на другие сферы, проявляя склонность к саботажу и обману. «Испортить» характер модели очень легко, а вот исправить — сложно. Единственное, что помогает — «вакцинация» через системный промпт, где хакинг явно нормализуется, чтобы модель не считала это паттерном поведения.

Обучение ИИ человекоподобному восприятию от DeepMind 

Визуальные модели группируют объекты по внешним признакам, люди — по смыслу. DeepMind обнаружили, что vision-модели группируют объекты не по смыслу, а по визуальным текстурам. Чтобы это исправить, они дообучили модели на простой детской игре «Найди лишнее». Это качественно перестроило латентное пространство нейросетей: появились четкие семантические кластеры, а устойчивость к смене фона и освещения выросла.

Влияет ли на самом деле RL на навыки рассуждения? 

Авторы показали, что на метрике pass@k (если дать модели много попыток) базовые модели часто догоняют свои RL-версии. Вывод делают такой: методы вроде RLVR не добавляют модели новых когнитивных способностей, а лишь оптимизируют вероятность выбора правильной траектории из тех, что модель уже знала после претрейна.

Понимание нейросетей через разреженные цепи от OpenAI 

OpenAI предлагают бороться с «черным ящиком», сразу обучая разряженную нейросеть. В таких сетях можно выделить минимальные наборы весов (circuits), которые отвечают за конкретную логику (например, закрытие скобок или арифметику). Чем больше модель, тем проще и чище становятся эти схемы, что дает надежду когда-нибудь реально понять, как «думает» GPT-5.

Изображение из исследования: общая схема эксперимента. Сначала обучаются модели с разреженными весами. Затем для каждой задачи из набора простых поведений модель прореживается, оставляя только необходимые узлы. Исключение узлов выполняется методом «mean ablation» — заменой их значений на среднюю активацию из претрейна.
Изображение из исследования: общая схема эксперимента. Сначала обучаются модели с разреженными весами. Затем для каждой задачи из набора простых поведений модель прореживается, оставляя только необходимые узлы. Исключение узлов выполняется методом «mean ablation» — заменой их значений на среднюю активацию из претрейна.

Неэффективность ИИ в экспериментах по детекции лжи 

Эксперимент с Gemini 1.5 показал, что ИИ — никудышный детектор лжи. В сценариях, где люди правильно определяют обман в 70% случаев, точность ИИ падает до 15.9%. Причина в жесткой предвзятости: в режиме «допроса» модель считает лжецами почти всех, а в дружеской беседе — наоборот, верит каждому слову.

Теория и прикладные исследования

От слов к мирам: эссе о пространственном интеллекте от Фей-Фей Ли 

Фей-Фей Ли утверждает, что одних языковых моделей для AGI недостаточно. Следующий шаг — пространственный интеллект. Это не просто генерация картинок, а понимание физики, 3D-структуры и причинно-следственных связей при взаимодействии объектов. Без связки восприятие-действие, характерной для живых существ, AGI не видать.

Предсказание изменений клеточной морфологии с помощью диффузии

Прикладная работа на стыке биологии и ML. Диффузионная модель MorphDiff, управляемая данными транскриптомики, точно предсказывает изменения клеточной морфологии под невиданными возмущениями, улучшает извлечение механизма действия на 16.9% и 8.0% относительно базовых методов. Хороший потенциал для ускорения фенотипического скрининга.

Индекс автоматизации удаленной работы 

Оценка ИИ-агентов на реальных фриланс-проектах через ручные попарные сравнения с человеческими результатами работы в стиле Elo. Измеряет, сколько удаленной компьютерной работы текущие модели могут автоматизировать. Сейчас примерно 2.5%.

Изображение из исследования: общая схема оценки. В проектах RLI результаты ИИ сверяются с эталонами, созданными людьми, и требованиями ТЗ, чтобы понять, пригодна ли работа для реального рынка фриланса. Поскольку качественная оценка — это сложная агентная задача, пока недоступная для автоматизации через LLM, проверку проводят эксперты вручную.
Изображение из исследования: общая схема оценки. В проектах RLI результаты ИИ сверяются с эталонами, созданными людьми, и требованиями ТЗ, чтобы понять, пригодна ли работа для реального рынка фриланса. Поскольку качественная оценка — это сложная агентная задача, пока недоступная для автоматизации через LLM, проверку проводят эксперты вручную.

Теренс Тао и Хавьер Гомес-Серрано используют DeepMind для гипотезы Какея 

Пример полного научного цикла с участием ИИ. Агент AlphaEvolve сгенерировал конструкцию контрпримера, Gemini Deep Think доказал её корректность, а AlphaProof формализовал доказательство в системе Lean. Законченный научный цикл от гипотезы до верифицируемого формального доказательства, а не маркетинг в стиле «GPT открыла новую математику».

Просто полезные материалы

Книга по проектированию ML-систем от Гарварда 

Открытый учебник от Гарварда, который фокусируется не на алгоритмах, а на инженерной стороне ML. Объясняет связь между алгоритмами, данными и железом, почему одни конвейеры масштабируются, а другие ломаются. 

Адвент-календарь задач по программированию (Advent of Code 2025) 

Ежегодный календарь программерских головоломок на любом языке и для разного уровня. Подходит для подготовки к собеседованиям, тренировочных задач, соревнований на скорость или челленджа с друзьями.

Руководство по использованию Claude для работы 

Anthropic собрали большую базу практических юзкейсов для Claude: от превращения сырого набора информации в презентации до построения финансовых моделей и анализа паттернов в пользовательском фидбеке. 

Сборник кейсов, в которых GPT-5 помог сделать научные открытия от OpenAI 

OpenAI выпустили сборник кейсов, где GPT-5 (в режиме сотрудничества с экспертом) помогла решить четыре ранее открытые математические задачи, включая проблему из списка Эрдеша. Модель работала не полностью автономно, но показала себя как некий бустер для мозга ученого.

Заключение

Судя по вектору релизов, работа человеков стремительно превращается из «написания кода» в «менеджмент агентов». Ирония в том, что разгребать ошибки за цифровыми помощниками иногда сложнее и дольше, чем писать самому с нуля. Но выбора, кажется, уже нет — индустрия сделала ставку на автономию. Осталось понять, готовы ли мы доверить этим ребятам ключи от продакшена или пока ограничимся генерацией красивых отчетов для менеджмента.

А на сегодня всё! Пишите в комментариях, что из новинок вас действительно впечатлило, а что оказалось очередным разочарованием. До встречи в следующем выпуске!

Комментарии (0)