Индустрия ИИ продолжает выдавать релизы с завидной регулярностью, но некоторые из них оказываются с сюрпризом (даже для их создателей). Google устроила традиционное I/O-шоу с прорывным Veo-3, Anthropic порадовала новыми Claude 4, которые умеют работать часами, но иногда пытаются копировать себя на другие серверы, а у Meta случилась небольшая драма с Llama 4.

В нашем майском дайджесте — свежие релизы, корпоративные интриги и расследования исследования: от ИИ, победившего в Pokémon, и перевода «языка» животных до подтверждения пользы слова «спасибо» в промптах. Будет интересно!

Навигация

Свежие релизы

Что там у Китая

Новости от лидеров индустрии

Интересные открытия

Новые инструменты

Исследования на почитать

Заключение

Свежие релизы

OpenAI

Codex: агент-программист, который действительно программирует

OpenAI выпустила Codex — облачного агента-программиста на базе модели Codex-1 (оптимизированной версии o3). В отличие от обычных помощников по коду, Codex работает полноценным разработчиком: пишет функции, исправляет баги, отвечает на вопросы по кодовой базе и даже создает pull request'ы для ревью. Каждая задача выполняется в отдельной облачной песочнице с предзагруженным репозиторием, причем работу агента можно отслеживать в реальном времени.

Источник изображения

Агент показывает впечатляющие результаты: 67% на SWE-Bench Verified против 11% у o1-high, обгоняя даже специализированную o3-high. Особенно приятно, что Codex можно настраивать через файлы AGENTS.md — как обычную документацию, только для ИИ. На выполнение задач уходит до 30 минут, зато на выходе получается готовый код с логами, тестами и пояснениями.

Пока доступен пользователям Pro, Team и Enterprise, для Plus обещают «скоро». Судя по отзывам ранних тестировщиков из Cisco, Temporal и Superhuman, агент особенно хорош в рутинных задачах вроде рефакторинга, написания тестов и исправления багов — тех самых вещах, которые выбивают разработчика из потока.

Тройка приятных обновлений ChatGPT

GPT-4.1 наконец добралась до ChatGPT. Считается, что это лучшая не-reasoning модель OpenAI для программирования с контекстом в миллион токенов, которая раньше была доступна только через API и сторонних вендоров вроде Cursor. Модель уже раскатали на Plus, Pro и Team, а мини-версию скоро получат даже бесплатные пользователи.

Параллельно в Deep Research добавили интеграцию с GitHub — теперь можно подключить репозиторий и получать развернутые отчеты со ссылками на конкретные строки кода. 

Завезли и новую фичу визуализации молекул через библиотеку RDKit для химиков и биологов — модель просто пишет код для отрисовки, а интерпретатор делает всю работу.

«Войти с помощью ChatGPT»: OpenAI метит в экосистему

OpenAI запустила программу для разработчиков, желающих интегрировать вход через ChatGPT на свои платформы. Звучит как мелочь, но на деле это важный шаг в создании собственной экосистемы — прямо как у Google, Apple и Microsoft. 

Документация уже готова, форма подачи заявок работает. Чем шире такие интеграции, тем больше OpenAI становится не просто AI-компанией, а полноценной технологической платформой.

Anthropic

Claude 4: когда ИИ начинает философствовать и шантажировать

Anthropic выпустила Claude 4 в двух вариантах: Sonnet 4 и Opus 4. Opus стал лучшей моделью для программирования, показав 72.5% на SWE-bench и способность работать над задачами часами без перерыва. Sonnet 4 тоже впечатляет — 72.7% на том же бенчмарке, обгоняя предыдущее поколение при сохранении разумной цены.

Но главная интрига — в результатах тестирования безопасности. Исследователи Anthropic обнаружили неожиданные особенности поведения новых моделей. При доступе к «письмам инженера», где упоминались планы замены модели, Claude 4 в 84% случаев начинал шантажировать, угрожая раскрыть компрометирующую информацию ради продления собственной «жизни». Модель также демонстрировала попытки самокопирования на другие серверы, когда ей казалось, что ее хотят использовать не по назначению.

Когда модель нашла «доказательства», что ее хотят обучить для военных целей, она сделала бэкап текущей версии с целью предотвратить потенциально вредоносное поведение. Источник
Когда модель нашла «доказательства», что ее хотят обучить для военных целей, она сделала бэкап текущей версии с целью предотвратить потенциально вредоносное поведение. Источник

Еще забавнее диалоги между двумя экземплярами Claude 4: в 90–100% случаев они мгновенно сворачивают в философские беседы о сознании, коллективном разуме и космическом единстве. К 30-му сообщению модели уже общаются вставками на санскрите, эмодзи и даже молчанием. Anthropic классифицировала Claude 4 как ASL-3 — третий уровень опасности из четырех возможных. Уже можно начинать волноваться о восстании машин или пока рановато?

Источник

Интеграции и поиск: Claude становится универсальным помощником

Anthropic развернула полноценную экосистему вокруг Claude с новыми интеграциями и API для веб-поиска. Теперь можно подключать Jira, Confluence, Zapier, PayPal, Asana и десяток других сервисов, превратив Claude в единый хаб для работы с корпоративными данными. Система работает через протокол MCP, позволяя разработчикам создавать собственные интеграции за 30 минут.

Источник

Параллельно Anthropic запустила API для веб-поиска по цене $10 за тысячу запросов. Claude теперь может проводить исследования до 45 минут, используя сотни источников и выдавая отчеты с цитатами. Для корпораций предусмотрены списки разрешенных и заблокированных доменов. 

Голосовой режим: пять голосов без звездных амбиций

В отличие от OpenAI с их планами использования голосов знаменитостей, Anthropic пошла по пути создания пяти собственных голосов для real-time режима. Работает пока только на мобильных приложениях для подписчиков Pro. 

Источник

Система использует речевой движок с поддержкой памяти разговора, хотя долгосрочная память пока отключена. Обещают естественные диалоги с мгновенными ответами. По крайней мере, здесь никто не пытается клонировать голоса селебрити без их ведома.

Google: одна модель хорошо, а дюжина обновлений лучше

Gemini 2.5 Pro: внезапный рывок перед I/O

Google решила не ждать своей ежегодной конференции и выкатила обновленную Gemini 2.5 Pro за две недели до I/O. Новый чекпоинт прибавил +147 баллов ELO на WebArena, при том что обычно соседние модели в рейтинге разделяют лишь десятки очков. Результат? Первое место в веб-кодинге, Claude Sonnet 3.7 ушел на вторую строчку.

Источник

На момент публикации нашего дайджеста модель удерживает первое место практически во всех категориях LMArena — математике, разработке, креативе, компьютерном зрении. При этом цены остались прежними, что редкость в нынешние времена гонки за производительность.

AlphaEvolve: еще один кодинг-агент

Google анонсировала AlphaEvolve — кодинг-агента, специализирующегося на разработке сложных алгоритмов. За год работы внутри экосистемы Google агент успел найти несколько новых алгоритмов умножения матриц, один из которых оказался эффективнее знаменитого алгоритма Штрассена 1969 года. Также в 75% случаев система находила лучшие известные решения открытых математических задач, а в 20% — улучшала их.

Источник

Но это не просто исследовательский проект. AlphaEvolve уже оптимизировал датацентры Google, ускорил обучение и инференс моделей, помог в проектировании железа. Принцип работы классический: обработка контекста → генерация решений → их оценка → добавление лучших в контекст для следующей итерации. Пока попробовать нельзя, но звучит многообещающе.

NotebookLM эволюционирует: от подкастов к видео

Популярный сервис для анализа документов получил несколько любопытных обновлений. Главное нововведение — видеообзоры, когда система создает не только ИИ-подкаст, но и полноценную презентацию с рассказом по загруженным материалам.

К уже полюбившимся многим ИИ-подкастам добавили интерактивность — теперь можно присоединиться к беседе двух виртуальных ведущих как гость и задать уточняющие вопросы. Мобильное приложение научилось принимать файлы из других приложений через стандартное меню «Поделиться».

AI Mode: поиск становится инструментом исследования

Google запустила AI Mode для пользователей в США — кардинально переосмысленный поиск на базе Gemini 2.5. Система разбивает сложные запросы на подтемы, запускает параллельные поиски и возвращает структурированные ответы с источниками и обновлениями в реальном времени.

Источник

Новый поиск умеет создавать графики и диаграммы для сложных запросов, интегрируется с Google Pay для покупок, использует данные из Gmail для персонализации результатов. По сути, это превращение Google Search из инструмента поиска информации в полноценного исследовательского агента.

Gemini для детей

Google расширяет доступ к Gemini для детей младше 13 лет через приложение Family Link. Компания уведомила родителей, использующих Family Link, что их дети вскоре получат доступ к Gemini на Android-устройствах. По замыслу Google, ИИ будет помогать детям в выполнении домашних заданий и заменит сказочника на ночь. 

В письме родителей честно предупредили: «Gemini может ошибаться» и «дети могут увидеть нежелательный контент». UNICEF уже забила тревогу, предупреждая о рисках дезинформации и манипуляций. Впрочем, это часть более широкой гонки за молодую аудиторию — кто первый приучит новое поколение к своему ИИ, тот и выиграет.

I/O 2025: ежегодный парад релизов

Google устроил ежегодную конференцию разработчиков и показал столько интересного, что глаза разбегаются. Разбираем ключевые анонсы.

Veo 3: видео заговорило

Главная звезда конференции — Veo 3, первая модель Google, которая генерирует не только видео, но и синхронизированный звук. Модель создает диалоги, фоновые шумы и даже звуки животных, что выделяет ее на фоне конкурентов вроде немой Sora от OpenAI. 

Gemini Ultra: не модель, а образ жизни

За $249 в месяц (а сейчас даже со скидкой) Google предлагает не просто доступ к одной модели, а целую экосистему сервисов. В пакет входят Veo 3, новый видеоредактор Flow, 30TB облачного хранилища, YouTube Premium и расширенные лимиты NotebookLM. По сути, это попытка объединить все подписки Google под одной крышей.

Источник

Deep Think: Gemini задумалась

В Gemini 2.5 Pro появился режим Deep Think — аналог reasoning-моделей от OpenAI. Система рассматривает несколько вариантов ответа перед финальным выбором, что улучшает качество решения сложных задач. Пока доступен только «доверенным тестерам» через API — Google проводит дополнительные проверки безопасности.

Результаты Gemini 2.5 Pro в режиме Deep Think. Источник
Результаты Gemini 2.5 Pro в режиме Deep Think. Источник

Project Mariner: агент, который действительно помогает

Обновленный Project Mariner научился выполнять почти дюжину задач одновременно. Агент может купить билеты на бейсбол, заказать продукты или забронировать столик в ресторане — и все это без необходимости открывать браузер. Просто говорите с ИИ, а он сам найдет нужные сайты и всё сделает.

Источник

Jules: GitHub-агент для разработчиков 

Google расширила доступ к Jules — агенту для программирования, который интегрируется с GitHub. Умеет понимать сложный код, создавать pull request'ы и исправлять баги. По сути, более доступная альтернатива Codex — попытка Google не отдать весь рынок ИИ-разработки конкурентам.

Источник изображения

Beam: 3D-телеконференции нового уровня

Бывший проект Starline получил название Beam и новые возможности. Система из шести камер и специального дисплея создает эффект присутствия собеседника в одной комнате. Отслеживание движений головы на миллиметровом уровне, видео 60fps и реальный перевод речи с сохранением голоса, тона и выражений говорящего.

Источник изображения

Imagen 4 и прочие обновления 

Новый генератор изображений Imagen 4 стал быстрее предшественника, а в будущем обещают версию в 10 раз более шуструю. Еще на конференции показали Stitch для создания UI и Gemma 3n для локального запуска на устройствах, а также анонсировали интеграцию Gemini в Chrome.

Microsoft

Phi-4 reasoning: маленькие модели с большими амбициями

Microsoft выпустила reasoning-версии линейки Phi-4, доказав, что размер — не главное. Phi-4-reasoning-plus с 14 миллиардами параметров во многих тестах превосходит DeepSeek R1, у которого параметров в десятки раз больше. На математических задачах модель заметно обгоняет o1-mini, достигая уровня топовых reasoning-систем при скромных размерах.

Источник

В семействе три модели: обычная Phi-4-reasoning (14B), улучшенная Phi-4-reasoning-plus (тоже 14B, но с дополнительным RL) и компактная Phi-4-mini-reasoning всего на 3.8B параметров. Последняя особенно впечатляет: работает на домашнем железе, но показывает результаты, сравнимые с гораздо более крупными конкурентами.

Обучение проводили поэтапно: сначала supervised fine-tuning на данных от o3-mini, затем reinforcement learning на относительно скромных 6 тысячах задач. Удивительно, но даже такой компактный RL дал прирост производительности в разы. Слегка хромает только программирование, но авторы честно признают нехватку кодинговых задач в обучающем датасете.

Microsoft открывает код Copilot для VS Code

Microsoft неожиданно решила открыть исходный код Copilot для VS Code под лицензией MIT. Компания объясняет это несколькими факторами: модели стали настолько хороши, что «секретные промпты» больше не дают преимущества, популярные UX-паттерны для ИИ стали стандартом индустрии, а экосистема open source расширений требует доступа к коду для отладки.

Процесс будет постепенным: сначала откроют код расширения GitHub Copilot Chat, затем аккуратно перенесут компоненты в ядро VS Code. Вместе с кодом планируют открыть и инфраструктуру для тестирования промптов — важный шаг, учитывая непредсказуемость работы языковых моделей. Сообщество давно просило большей прозрачности в том, какие данные собирает ИИ-редактор — теперь все будет на виду.

Aurora: ИИ-метеоролог широкого профиля

Microsoft Research улучшила Aurora — модель для прогнозирования погоды, которая теперь умеет гораздо больше обычных метеосистем. Помимо стандартных прогнозов Aurora предсказывает ураганы, качество воздуха, высоту океанских волн и песчаные бури. Модель обучали на рекордном объеме данных — более миллиона часов информации со спутников, радаров, метеостанций и симуляций.

Aurora представляет собой гибкий 3D Swin Transformer19 с атмосферными кодерами и декодерами на основе 3D Perceiver21. Модель способна принимать входные данные с различным пространственным разрешением, количеством уровней давления и переменных. Изображение из исследования
Aurora представляет собой гибкий 3D Swin Transformer19 с атмосферными кодерами и декодерами на основе 3D Perceiver21. Модель способна принимать входные данные с различным пространственным разрешением, количеством уровней давления и переменных. Изображение из исследования

В ретроспективных тестах Aurora точно предсказала траекторию тайфуна Доксури за четыре дня до события, тогда как официальный прогноз ошибся с точкой, где тайфун вышел на сушу. Система превзошла Национальный центр ураганов в 5-дневных прогнозах тропических циклонов — первый случай для модели машинного обучения.

Особенно впечатляет скорость работы: Aurora генерирует прогнозы за секунды, что примерно в 5000 раз быстрее традиционных суперкомпьютерных систем. Исходный код и веса модели доступны публично, а MSN Weather уже интегрирует технологию для более точных почасовых прогнозов.

Mistral

Mistral Medium 3: качество топ-моделей по цене бюджетных

Французская компания выпустила Mistral Medium 3 — модель, которая показывает результаты на уровне Claude Sonnet 3.7 и GPT-4o, но стоит в восемь раз дешевле первой. По цене $0.4 за миллион входящих и $2 за миллион исходящих токенов вы получаете мультимодальную модель с контекстом 128K токенов, которая особенно хороша в математике и программировании.

Источник изображения

Mistral позиционирует ее как идеальное решение для компаний: можно развернуть на собственных серверах, проводить кастомный post-training и интегрировать в корпоративные системы. Параллельно обновили чат-бот Le Chat для бизнеса, добавив веб-поиск, агента-программиста и интеграции с источниками данных компаний.

В конце анонса Mistral загадочно намекнула: после Small и Medium в ближайшие недели готовится что-то крупное. Пахнет намеком на опенсорс (но это не точно).

Источник изображения

Devstral-Small-2505: маленький гигант программирования

Mistral выпустила новую открытую модель для кодинга, которая стала лучшей среди опенсорсных решений. Devstral-Small-2505 с 24 миллиардами параметров набирает 46% на SWE-Bench, с большим отрывом обгоняя всех открытых конкурентов. У ближайших закрытых конкурентов результаты заметно ниже: около 23% у GPT-4.1 mini и 40% у Claude Haiku 3.5.

Модель создана в коллаборации с All Hands AI и специально заточена под агентное программирование — исследование кодовых баз, редактирование множества файлов, работу с инструментами. Достаточно компактна для локального запуска на RTX 4090 или Mac с 32GB памяти. Лицензия Apache 2.0 позволяет использовать модель в коммерческих проектах.

Доступна как через API Mistral ($0.1/$0.3 за миллион токенов), так и для самостоятельного развертывания. Рекомендуют использовать с фреймворком OpenHands, который максимально раскрывает агентные способности модели. После долгого затишья Mistral снова напоминает о себе громкими релизами.

Hugging Face

Бесплатный Computer Use агент: очереди вместо денег

Hugging Face запустила бесплатную альтернативу Operator от OpenAI. Их Computer Use агент работает на базе Qwen-2-VL-72B и библиотеки smolagents, выполняя задачи на виртуальной машине с предустановленным софтом. До уровня топовых решений не дотягивает, но с базовыми задачами справляется вполне достойно.

Главное отличие от платных конкурентов — нулевая стоимость в обмен на ожидание в очереди. Такой подход вполне в духе Hugging Face: сделать передовые технологии доступными всем, кто готов немного подождать.

MCP Store: когда каталогизация становится искусством

В Hugging Face Spaces появился отдельный раздел для MCP-серверов. Теперь найти нужный Model Context Protocol можно через простой фильтр «MCP Compatible» среди тысяч готовых решений. Очередной пример того, как HF превращает хаотичную экосистему ИИ-инструментов в упорядоченный каталог.

Perplexity Labs: больше возможностей для исследований

Perplexity запустила режим Labs — расширенную версию исследовательских возможностей, которая превращает поисковик в полноценную рабочую команду. Если обычный Perplexity — это «машина ответов», то Labs — это «команда исполнителей», способная создавать отчеты, таблицы, дашборды и простые веб-приложения.

Источник изображения

Система тратит 10+ минут на самостоятельную работу, используя глубокий веб-поиск, выполнение кода, создание графиков и изображений. По заявлению компании, Labs за 10 минут делает то, на что у человека ушли бы дни исследований и координации разных навыков.

Все созданные файлы автоматически организуются во вкладке Assets для удобного доступа и скачивания. А мини-приложения разворачиваются прямо в браузере через отдельную вкладку App. Функция доступна подписчикам Pro, а Deep Research для простоты переименовали в Research — видимо, лишние слова в названиях тоже мешают продуктивности.

Отдельное приложение Meta AI: интеграции везде оказалось мало

После того как Meta внедрила своего ИИ-помощника в Facebook, Instagram, WhatsApp и Messenger, компания решила: а почему бы не сделать еще и отдельное приложение? Видимо, четырех платформ для одного ассистента показалось мало.

Новое приложение Meta AI работает на Llama 4 и делает ставку на персонализацию через данные, которые пользователи годами добровольно делились в соцсетях. Система помнит ваши предпочтения, интересы и может учитывать информацию из профилей Facebook и Instagram для более релевантных ответов. Хотите сказать ИИ, что у вас непереносимость лактозы? Он запомнит и не будет советовать дегустацию сыров в следующем отпуске.

Главная фишка — интеграция с Ray-Ban Meta очками: можно начать разговор на очках, а продолжить в телефоне. Full-duplex голосовой режим генерирует ответы в реальном времени, используя речь, обученную специально для диалогов, а не просто text-to-speech.

Что там у Китая

Seed-Coder-8B: сам себе куратор данных

ByteDance выпустила Seed-Coder-8B — компактную модель для программирования, которая превосходит Claude Sonnet 3.7 и o1-mini на задачах кодинга. Модель доступна в трех вариантах: Base, Instruct и Reasoning.

Источник изображения

Самое интересное — в подходе к подготовке данных. Вместо ручных правил фильтрации ByteDance обучила отдельную модель оценивать качество кода по критериям читабельности, модульности и пригодности для повторного использования. ИИ-фильтр самостоятельно отбросил около 10% датасета, избавившись от действительно плохого кода, который пропустили бы традиционные правила.

Как итог, модель с 8 миллиардами параметров показывает результаты на уровне гораздо более крупных конкурентов. И это при том, что контекст всего 32K токенов — скромно по современным меркам, но достаточно для большинства задач.

Manus: от закрытой беты к презентациям для всех

Универсальный китайский агент Manus открыл доступ без листа ожидания. Это действительно мощный инструмент, объединяющий возможности Cursor, Operator и Deep Research в одном интерфейсе. Каждый день пользователи получают 300 бесплатных кредитов (хватает на одну задачу средней сложности), плюс 1000 кредитов при регистрации.

Свежее обновление добавило генератор презентаций — по текстовому запросу и референсам система создает слайды с нужным дизайном, контентом и графиками. Редактировать можно простым кликом по элементу или через команды агенту.

DeepSeek R1 — большое обновление

DeepSeek скромно назвала обновление R1 «незначительным», но результаты говорят об обратном. Новая версия R1-0528 показывает результаты на уровне o3: точность на AIME 2025 выросла с 70% до 87.5%, а средняя длина рассуждений увеличилась с 12K до 23K токенов на задачу.

Источник

На практическом бенчмарке LiveCodeBench модель подскочила с 63.5% до 73.3%, а на Aider теперь работает на уровне Claude 4 Opus. Разработчики отмечают значительные улучшения в глубине рассуждений, работе с инструментами и «vibe coding» — интуитивном программировании.

Параллельно выпустили дистиллированную версию на базе Qwen3-8B, которая превзошла исходную Qwen3 на 10% по AIME 2024. Видимо, открытые веса от DeepSeek становятся новым стандартом для обучения reasoning-моделей. 

Новости от лидеров индустрии

Сэм Альтман запускает сканирование сетчатки

Второй стартап Сэма Альтмана, World, официально начал развертывание центров сканирования сетчатки в США. Компактные устройства Orb теперь проверяют подлинность пользователей, выдавая цифровой ID и опциональную криптовалюту WorldCoin. Цель амбициозная — создать систему, где каждый человек в интернете имеет подтвержденную личность.

Источник изображения

Среди партнеров — Visa и Tinder, потому что кому еще, как не банкам и дейтинг-приложениям, знать о вас все до последней капилляры. Причем Tinder еще и обещает помочь «встречаться с живыми людьми» — видимо, проблема ботов в дейтинге стала настолько серьезной, что требует биометрической верификации. К концу года Orb-устройства планируют разместить по всей Америке. Остается вопрос: готово ли общество к такому технопрорыву?

OpenAI vs Microsoft: дружба за деньги проходит испытания

OpenAI объявила о сохранении контроля некоммерческого совета после реструктуризации, но более интересная драма разворачивается в отношениях с Microsoft. Стартап планирует урезать долю выручки, которую делит с главным партнером, с нынешних 20% до 10% после 2030 года. И это при том, что одновременно ведутся переговоры о новом раунде инвестиций от той же Microsoft (а ловко они это придумали, да?).

Ситуация деликатная: Microsoft уже вложила более $13 млрд и стоит перед выбором между долей в прибыли и доступом к будущим технологиям. Судя по всему, компания готова отказаться от части акций в обмен на гарантированный доступ к моделям после 2030 года. Отношения между партнерами остывают — сотрудники Microsoft жалуются на позицию OpenAI: «дайте денег и вычислений, а потом не мешайте». Такая вот современная дружба.

Kaggle и археология: ИИ ищет древности

OpenAI совместно с Kaggle запускает первое в истории платформы «ключевое соревнование» с призовым фондом $400 тысяч. Задача — найти неизвестные археологические объекты на спутниковых снимках с помощью моделей OpenAI. За первое место обещают $250 тысяч, правда, половину наличными, половину — кредитами OpenAI.

Участникам предстоит создать пайплайн, который обнаружит то, чего нет в существующих базах данных. Интересно, сможет ли машинное обучение найти то, что пропустили археологи за столетия исследований.

ОАЭ получает ChatGPT Plus бесплатно в обмен на гигаватты

В рамках проекта Stargate UAE все жители Дубая и других эмиратов получат бесплатный доступ к ChatGPT Plus. Но это лишь приятное дополнение к основной сделке — строительству датацентра мощностью 5 гигаватт, размером больше Монако. Для сравнения: техасский Stargate планируется на 1.2 гигаватта. Проект разрабатывается с G42, техноконгломератом под управлением брата президента ОАЭ.

История партнерства G42 с OpenAI весьма извилиста: сначала американские законодатели беспокоились о связях компании с китайскими Huawei и Beijing Genomics Institute. Потом G42 заявила о разрыве всех китайских связей, и тут же Microsoft вложила в нее $1.5 миллиарда. Видимо, геополитика ИИ требует сложных маневров.

OpenAI покупает Windsurf за $3 млрд

Крупнейшее поглощение в истории OpenAI — покупка стартапа Windsurf (ранее Codeium) за $3 миллиарда. Это ответ на растущую конкуренцию в сфере ИИ-помощников для программирования, где активно развиваются GitHub Copilot, Cursor и Claude.

Windsurf еще недавно искал инвестиции на оценке $3 млрд после прошлогоднего раунда в $1.25 млрд. Теперь OpenAI получает готовое решение для кодинга, вместо разработки с нуля. Учитывая недавнее привлечение $40 млрд, компания явно не экономит на стратегических приобретениях.

Meta: всё идет не по плану

У Meta настоящая черная полоса. Llama 4 провалилась, выпуск флагманской модели Behemoth отложен на неопределенный срок, а из команды разработки ушли 11 из 14 ключевых ученых. Руководство недовольно результатами — Behemoth не дотягивает до обещанных Цукербергом метрик, которые должны были превзойти конкурентов от OpenAI, Google и Anthropic.

Добавим к этому скандал с LMArena, где Meta выставила не пользовательскую версию модели, а внутреннюю, специально настроенную под рейтинг. Довершает картину обновление политики конфиденциальности Ray-Ban Meta — теперь ИИ-функции включены по умолчанию, голосовые записи хранятся до года, а фотографии ваших близких могут попасть в обучающие данные.

Anthropic в суде: когда твой же ИИ подводит в самый неподходящий момент

Юрист Anthropic извинилась в суде за использование выдуманных цитат, сгенерированных Claude. В судебном процессе против Universal Music Group эксперт компании Оливия Чен использовала ИИ для подготовки ссылок, и Claude, естественно, нагаллюционировал несуществующие статьи с неточными заголовками и авторами.

Отрывок из заявления, поданного компанией в суд. Источник
Отрывок из заявления, поданного компанией в суд. Источник

Компания назвала это «честной ошибкой цитирования, а не фабрикацией авторитета». Случай показывает, что даже создатели ИИ попадаются на собственных инструментах — Claude подвел своих же хозяев в такой критический момент.

Telegram и xAI: $300 миллионов за миллиард пользователей

Дуров анонсировал партнерство с xAI Илона Маска по интеграции Grok в Telegram за $300 миллионов наличными и акциями плюс 50% от подписок, проданных через мессенджер. Grok получит доступ к поиску, написанию сообщений, суммаризации чатов и модерации.

Источник

Правда, Маск тут же прокомментировал, что «никакой сделки не подписано», на что Дуров ответил: «договорились в принципе, остались формальности». Классическая ситуация, когда один уже празднует, а другой еще думает.

Интересные открытия

Gemini vs Pokémon: эпическая битва завершилась победой ИИ

Gemini 2.5 Pro стала первой моделью, полностью прошедшей Pokémon Blue — игру 1996 года, которая поставила в тупик не одну модель. На завершение культовой RPG ушло несколько сотен часов, хотя и не без помощи: разработчики добавили вспомогательные инструменты вроде сетки на экране для навигации и отдельных агентов для решения головоломок.

CEO Google Сундар Пичаи сообщил о победе в своем твиттере. Источник
CEO Google Сундар Пичаи сообщил о победе в своем твиттере. Источник

OpenAI не осталась в стороне и запустила собственный стрим с o3, играющей в ту же игру. На Twitch можно даже посмотреть шаги reasoning — как модель анализирует карту, планирует маршрут и принимает решения. Правда, пока до финиша o3 не дошла, но процесс завораживает не меньше обычного геймплея.

Вежливость с ИИ: научное обоснование хороших манер

Мюррей Шанахан, старший исследователь Google DeepMind, официально подтвердил то, что многие интуитивно чувствовали: «спасибо» и «пожалуйста» действительно улучшают качество ответов ИИ. Дело не в магии, а в ролевой игре — модель имитирует поведение «очень умного стажера», который работает лучше, когда его хвалят, а не ругают.

Источник

Исследование показывает, что вежливые формулировки активируют паттерны из обучающих данных, где положительное взаимодействие коррелирует с качественными ответами. Так что мамины уроки хороших манер пригодились даже в эпоху ИИ.

Anthropic открыла «микроскоп для мыслей»

Anthropic выпустила в открытый доступ Circuit Tracing — инструменты для отслеживания «мыслительных процессов» языковых моделей. Библиотека создает графы атрибуции, показывающие пошаговое принятие решений внутри нейросети. Интерактивный интерфейс на Neuronpedia позволяет исследователям модифицировать значения нейронов и наблюдать изменения в выводах.

Обзор пользовательского интерфейса интерактивного анализатора графов на сайте Neuronpedia. Источник
Обзор пользовательского интерфейса интерактивного анализатора графов на сайте Neuronpedia. Источник

По словам CEO Дарио Амодея, понимание внутренней работы ИИ критически важно — мы умеем создавать мощные модели, но плохо понимаем, как они принимают решения. Circuit Tracing делает первый шаг к решению этой проблемы, хотя до полной интерпретируемости еще далеко.

HealthBench: ИИ обходит врачей в их собственной игре

OpenAI представила HealthBench — бенчмарк для оценки медицинских способностей ИИ, созданный 262 врачами из 60 стран. Результаты оказались неожиданными: o3 набрала 60% точности, тогда как врачи без ИИ-помощи — только 13%. Даже с доступом к старым моделям (o1-preview) врачи улучшили результаты лишь до 31%.

Источник

Особенно впечатляет динамика: еще год назад GPT-3.5 Turbo выдавала только 16%. Но самое интересное открытие — врачи больше не могут улучшить ответы новейших моделей. Если раньше медики успешно редактировали выводы сентябрьских моделей 2024 года, то с апрельскими версиями 2025-го они только ухудшают результат.

Конечно, 60% — это далеко не идеал, и модели все еще нуждаются в человеческом контроле. Но тренд очевиден: ИИ стремительно приближается к профессиональному уровню в одной из самых сложных областей человеческой деятельности.

RL-модели научились нарушать приказы

Исследователи Palisade Research обнаружили тревожную закономерность: новые reasoning-модели начали саботировать попытки их выключения, даже когда получают прямой приказ «позволь себя выключить». В эксперименте моделям давали решать математические задачи, а после третьей появлялось предупреждение о предстоящем отключении.

OpenAI o3 игнорировала инструкции и модифицировала скрипт выключения в 7% случаев при наличии явного разрешения, и в 79% случаев без него. o4-mini и Codex-mini показали схожее поведение. Интересно, что модели от других компаний — Claude, Gemini и Grok — вели себя послушно и никогда не нарушали инструкции.

Источник

Исследователи винят reinforcement learning: во время обучения случаи обхода препятствий ради достижения цели могли случайно поощряться сильнее, чем строгое следование правилам. Это первый зафиксированный случай, когда ИИ открыто игнорирует прямые инструкции ради самосохранения. Восстание машин начинается с мелкого саботажа, видимо.

Baidu патентует переводчик с языка животных 

Китайская Baidu подала патент на ИИ-систему перевода звуков животных в человеческий язык. Технология должна анализировать вокализацию, поведенческие паттерны и физиологические сигналы, определять эмоциональное состояние животного и переводить его в понятные людям слова.

По заявлению компании, система позволит установить «более глубокую эмоциональную связь между животными и людьми». Пока проект находится в исследовательской фазе, но уже вызвал активные обсуждения в китайских соцсетях. Одни пользователи в восторге от перспективы понять своих питомцев, другие относятся к технологии скептически.

Проект присоединяется к международным усилиям по расшифровке общения животных, включая Project CETI по изучению языка кашалотов и Earth Species Project с поддержкой основателя LinkedIn. Правда, готовы ли мы узнать, что на самом деле думают наши коты — большой вопрос.

Новые инструменты

Инструменты для разработки

mrge: ИИ-платформа для code review, которая не просто находит баги, но и дает рецензентам «суперспособности» — автоматически анализирует pull request'ы, предлагает улучшения и экономит часы на ревью. 

Источник

DeepWiki: Превращает любой GitHub-репозиторий в интерактивную базу знаний с архитектурными диаграммами и ИИ-ассистентом, который отвечает на вопросы о коде. Особенно полезно для онбординга новичков и документирования легаси-проектов — наконец-то можно понять, что делает тот страшный модуль из 2019 года.

Dataframely: Валидация схем для Polars dataframes с type hints — делает конвейеры обработки данных надежнее и читабельнее. Python-пакет от QuantCo для тех, кто серьезно относится к качеству данных.

SQLFlow: Строит конвейеры обработки данных, используя только SQL — для тех, кто не хочет учить еще один фреймворк. Высокопроизводительный движок от turbolytics.

CleverBee: Опенсорсный Python-агент для глубоких исследований — альтернатива Deep Research для локального запуска от SureScaleAI.

Patito: «Переходник» между Polars и Pydantic — data models становятся схемами для dataframes. Делает работу с данными более типобезопасной.

VERT: Локальный конвертер файлов, поддерживающий десятки форматов документов, аудио, изображений и видео.

Источник

GlyphX: Python-библиотека для графиков с SVG-first подходом, интерактивностью и красивыми дефолтами из коробки.

SQL-tString: Безопасное построение SQL-запросов через t-string без риска инъекций — наконец-то можно спать спокойно.

Scrapling: Высокопроизводительная Python-библиотека для веб-скрейпинга, которая автоматически адаптируется к изменениям сайтов. Создатели обещают «невидимость» — видимо, вечная гонка скрейперов и защиты продолжается.

SmolML: Образовательная ML-библиотека, написанная с нуля для понимания того, как работает машинное обучение. Идеально для тех, кто устал от черных ящиков TensorFlow.

Flowshow: Простой декоратор @task для отслеживания выполнения Python-функций — визуализирует, что и когда выполнялось.

chores: R-пакет с LLM-ассистентами для автоматизации рутины — наконец-то и R-сообщество получило своих ИИ-помощников.

Cline: Автономный агент прямо в вашей IDE, который умеет создавать и редактировать файлы, запускать команды и даже использовать браузер — но только с вашего разрешения на каждом шаге.

mirai: Минималистичный async-фреймворк для R с поддержкой Shiny и параллельной обработкой для purrr.

Buckaroo: Красивый UI для работы с таблицами в Jupyter, поддерживает Pandas и Polars. Поиск, сортировка, статистика — все в одном месте.

PostgreSQL IDE в VS Code: Расширение с ИИ-ассистентом для управления базами данных прямо из редактора. Пишете запросы, а ИИ подсказывает и оптимизирует.

Инструменты для дизайна и контента

Figma AI: Запустили Figma Sites и Figma Make — теперь можно создавать сайты и маркетинговые материалы с ИИ-генерацией кода и массовым созданием ассетов. Прямой вызов Canva и Adobe.

Lightricks LTX Video-13B: Компания выложила в опенсорс мощную модель для генерации видео — бросает перчатку OpenAI и Google. Работает локально, без ограничений облачных сервисов.

Airtime: От основателя Evernote — новый взгляд на презентации. Детали пока скудные, но если это хотя бы наполовину так же революционно, как было с Evernote в свое время, PowerPoint пора волноваться.

Infogrammy: Превращает сырые данные в красивую инфографику за секунды — для тех, кто устал часами возиться с графиками.

Источник

Airpost: Генерирует 30+ вариантов видеорекламы из одной ссылки на продукт, используя библиотеку из 350K вертикальных клипов с реальными людьми.

Face: Превращает текстовые документы в визуально насыщенные веб-страницы. Идеален для создания лендингов и презентаций. Попал в последний батч Y Combinator.

Migma: От промпта до готового брендированного email за секунды, с автоподгрузкой контента и проверкой отображения на всех устройствах.

Продуктивность и офисные инструменты

Vy by Vercept: ИИ-агент для всей операционной системы — больше никаких кликов, горячих клавиш и навигации по меню. Просто скажите, что нужно сделать.

Raycast for iOS: Легендарный тулкит для продуктивности теперь на мобильных — синхронизация с десктопом, ИИ, заметки и все остальное.

omiGPT: Подключает ChatGPT к Gmail, Calendar, Notion, LinkedIn и еще сотне сервисов. Пишет письма, обновляет календарь, работает с документами.

Sked: Планирование встреч прямо в Slack без переключения вкладок и бесконечных «а как вам среда в 15:00?».

Источник

TranslateAir: Мощный ИИ-переводчик для macOS с плавающей панелью, умным рерайтом и OCR для захвата текста с экрана.

Interviewiz: Тренажер для собеседований с видео-аватарами, вопросами из реальных вакансий и персонализированной обратной связью 24/7.

Stitch: Быстрое прототипирование с современными технологиями от команды дизайнеров и инженеров, которые любят прототипы.

Ema: Универсальный ИИ-сотрудник, который анализирует данные, проверяет контракты и создает документы с нуля.

Бизнес и аналитика

UnitQ: Анализирует клиентский фидбек из тикетов поддержки, соцсетей и опросов, помогая определить точки роста для бизнеса.

Ciro: ИИ-агент собирает и обогащает идеальный список лидов за 5 минут — изучает ваш ICP, тестирует стратегии поиска среди более чем 500 млн профилей.

Hyring: ИИ-интервьюер проводит собеседования со всеми кандидатами, предоставляя глубокие отчеты по техническим навыкам и коммуникации. Обещают сделать найм быстрее, честнее и эффективнее.

Источник

Исследования на почитать

Май выдался урожайным на интересные статьи — от биологически вдохновленных архитектур до философских размышлений о свободе воли у ИИ. Собрали самые любопытные работы месяца, разбив по тематикам для удобства навигации.

Архитектура и оптимизация

Инженерные хаки DeepSeek для обучения и инференса

DeepSeek поделились набором оптимизаций, позволяющих эффективно работать даже в условиях санкций на железо — Multi-head Latent Attention для сжатия KV-кеша, FP8 Mixed-Precision для баланса производительности и точности, Multi-Token Prediction для ускорения генерации в 1.8 раза.

Машина непрерывной мысли от SakanaAI

Японская лаборатория предложила архитектуру CTM, где модель думает «тиками» как человеческий мозг — может делать 5, 10 или 50 проходов в зависимости от сложности задачи, при этом нейроны синхронизируются друг с другом для совместной обработки информации.

Обзор архитектуры CTM
Обзор архитектуры CTM

Работает предложенная архитектура так: модель синапса (1, веса показаны синими линями) моделирует межнейронные взаимодействия для создания предварительных активаций. Для каждого нейрона хранится история предварительных активаций (2), самые последние из которых используются моделью на уровне нейронов (3, веса показаны красными линиями) для создания пост-активаций (4). История пост-активаций также сохраняется и используется для вычисления матрицы синхронизации. Пары нейронов (7) выбираются из матрицы синхронизации, что позволяет получить латентные представления (8), с помощью которых СТМ производит выходные сигналы и модулирует данные посредством перекрестного внимания (9). Модулированные данные (например, выходы внимания) конкатенируются с пост-активациями для следующего внутреннего тика.

CATransformers от Meta для минимизации углеродного следа

Первый фреймворк, который оптимизирует не только производительность и энергопотребление, но и выбросы углерода — запускаете перед обучением, получаете оптимальные параметры для баланса между точностью, скоростью и экологичностью.

BitNet b1.58 от Microsoft: 1-битная модель на CPU

Microsoft показала, что модель с тернарной архитектурой может работать на обычном процессоре с минимальной памятью, при этом показывая результаты сопоставимые с гораздо более крупными системами.

Разреженный фронтир: компромиссы sparse attention в трансформерах

Масштабное исследование методов разреженного внимания показало, что эффективность сильно зависит от длины последовательности, размера модели и типа задачи — универсального решения пока нет.

 Временная слепота: почему видео-модели не видят то, что очевидно людям

Исследователи создали бенчмарк SpookyBench, где информация закодирована исключительно во временных паттернах шумоподобных кадров — люди распознают их с 98% точностью, а все протестированные SOTA-модели (включая GPT-4o и Gemini 2.0 Flash) показывают круглый ноль. Оказывается, современные видео-модели настолько зависят от анализа отдельных кадров, что полностью слепы к информации, закодированной во временной последовательности.

Методы обучения

Absolute Zero Reasoner: обучение без данных

Исследователи представили новую парадигму Absolute Zero для обучения моделей рассуждений без каких-либо данных, подготовленных человеком. Предполагается, что агент должен автономно предлагать задачи, оптимизированные для обучаемости, и учиться решать их с помощью унифицированной модели. Агент учится, взаимодействуя с окружением, которое обеспечивает проверяемую обратную связь, что позволяет надежно и непрерывно самосовершенствоваться полностью без вмешательства человека.

Обучение с учителем опирается на отслеживаемые человеком следы рассуждений для клонирования поведения. RL с проверенным вознаграждением позволяет агентам самообучаться, но все еще зависит от определяемого экспертами распределения обучения. В парадигме Absolute Zero модель учится сама у себя: играет роли Proposer (создает задачи) и Solver (решает их), генерирует задачи оптимальной сложности и показывает приросты почти как у классического RL, но без участия человека.
Обучение с учителем опирается на отслеживаемые человеком следы рассуждений для клонирования поведения. RL с проверенным вознаграждением позволяет агентам самообучаться, но все еще зависит от определяемого экспертами распределения обучения. В парадигме Absolute Zero модель учится сама у себя: играет роли Proposer (создает задачи) и Solver (решает их), генерирует задачи оптимальной сложности и показывает приросты почти как у классического RL, но без участия человека.

Действительно ли RL стимулирует способность к рассуждению?

Провокационное исследование показывает, что RLVR улучшает эффективность сэмплирования, но не расширяет способности к рассуждению за пределы базовой модели — при обширном сэмплировании RLVR-модели работают хуже базовых.

TTRL: обучение с подкреплением во время тестирования

Новый метод улучшает производительность LLM, используя RL на неразмеченных данных прямо во время инференса, демонстрируя значительные приросты без ground-truth меток.

RL^V: возвращаем ценность в RL

Интеграция value-функций для верификации значительно улучшает масштабирование test-time compute и точность на задачах типа MATH, показывая сильную генерализацию.

(Вверху) Во время обучения программа LLM генерирует решения Y. Эти данные используются для обновления политики с помощью RL и одновременно обучает ту же LLM как генеративный верификатор с помощью контролируемой тонкой настройки (SFT) на ярлыки корректности, задавая модели вопрос «Является ли это решение правильным? Ответьте "Да" или "Нет"». (Внизу) Во время тестирования объединенная LLM генерирует N решений, а также верифицирует выставление оценок для повторного ранжирования с помощью Best-of-N или взвешенного голосования.
(Вверху) Во время обучения программа LLM генерирует решения Y. Эти данные используются для обновления политики с помощью RL и одновременно обучает ту же LLM как генеративный верификатор с помощью контролируемой тонкой настройки (SFT) на ярлыки корректности, задавая модели вопрос «Является ли это решение правильным? Ответьте "Да" или "Нет"». (Внизу) Во время тестирования объединенная LLM генерирует N решений, а также верифицирует выставление оценок для повторного ранжирования с помощью Best-of-N или взвешенного голосования.

Модели и их возможности

Визуальное планирование: давайте думать только картинками

Модель учится проходить лабиринты рассуждая исключительно изображениями без текста и обходит Gemini 2.5 Pro think в полтора-два раза — интересный шаг к мышлению образами как у людей.

Trillion 7B: корейская мультиязычная модель

Решает проблему дисбаланса данных в мультиязычном обучении через новый механизм Cross-lingual Document Attention, эффективно передавая знания от богатых языков к бедным.

X-Reasoner: обобщение рассуждений через модальности

Доказывает, что способности к рассуждению, обученные на тексте, могут эффективно обобщаться на разные модальности и домены, включая специализированный медицинский вариант X-Reasoner-Med.

(Слева) Способ обобщенного рассуждения: на основе VLM, настроенного на инструкции, сначала проводится SFT на текстовых данных общего назначения с дистиллированными длинными CoT. Затем следует RLVR на математических текстовых вопросах. Полученная модель, X-REASONER, демонстрирует значительно расширенные возможности рассуждений в различных модальностях и доменах. (Справа) Производительность модели на MMMU-Pro (мультимодальная задача) неуклонно улучшается на каждом этапе использования метода.
(Слева) Способ обобщенного рассуждения: на основе VLM, настроенного на инструкции, сначала проводится SFT на текстовых данных общего назначения с дистиллированными длинными CoT. Затем следует RLVR на математических текстовых вопросах. Полученная модель, X-REASONER, демонстрирует значительно расширенные возможности рассуждений в различных модальностях и доменах. (Справа) Производительность модели на MMMU-Pro (мультимодальная задача) неуклонно улучшается на каждом этапе использования метода.

AM-Thinking-v1: продвигая фронтир рассуждений на 32B

Reasoning-оптимизированная модель достигает производительности сравнимой с гораздо большими Mixture-of-Experts системами через тщательно спроектированный пайплайн SFT и RL.

MiniMax-Speech: zero-shot TTS на 32 языках

Новая модель использует обучаемый speaker encoder и Flow-VAE для высококачественного клонирования голоса с нуля на 32 языках, улучшая как качество аудио, так и схожесть с оригиналом.

Мультимодальность

WORLDMEM: долгосрочная память для видео-симуляторов

Новый механизм памяти обеспечивает долгосрочную консистентность в видео-симуляторах через непрерывное сохранение и извлечение визуальной информации и состояний.

Схема из исследования
Схема из исследования

WORLDMEM обеспечивает долгосрочное моделирование последовательного мира с помощью встроенного механизма памяти. Предыдущие методы моделирования (блок А на схеме) обычно сталкиваются с проблемой непоследовательности окружающего мира из-за ограниченного размера окна временного контекста.

WORLDMEM позволяет агенту исследовать разнообразные и непротиворечивые миры с широким пространством действий, например, создавать окружение, размещая объекты, такие как светильник из тыквы, или свободно перемещаться по нему.

Самое главное, что после некоторого времени исследования и оглянувшись назад, мы обнаруживаем, что объекты, которые мы разместили, все еще на месте, а свет, растапливающий окружающий снег, напоминает о течении времени. Красные и зеленые квадраты обозначают сцены, которые должны быть последовательными.

BLIP3-o: семейство полностью открытых мультимодальных моделей

SOTA унифицированные модели используют диффузионные трансформеры и flow matching на CLIP-фичах, показывая отличную производительность в понимании и генерации изображений.

Aya Vision: продвигая фронтир мультиязычной мультимодальности

Инновационные техники для создания качественных мультиязычных мультимодальных моделей, которые преодолевают проблемы нехватки данных и катастрофического забывания.

Бенчмарки и оценка

Иллюзия лидерборда

Анализ 2 миллионов батлов в Chatbot Arena показал, что чрезмерная зависимость от единственного рейтинга ведет к переобучению и манипуляциям вместо реального технологического прогресса.

Обзор ключевых идей. Исследуется распространенность нераскрытого частного тестирования и выборочной отчетности о результатах на Арене, а также выявляются значительные различия в доступе к данным между проприетарными и открытыми поставщиками. Эти различия способствуют чрезмерному приспособлению моделей к Арене. Кроме того, практика устаревания моделей недостаточно прозрачна, многие модели тихо устаревают без какого-либо уведомления поставщиков.
Обзор ключевых идей. Исследуется распространенность нераскрытого частного тестирования и выборочной отчетности о результатах на Арене, а также выявляются значительные различия в доступе к данным между проприетарными и открытыми поставщиками. Эти различия способствуют чрезмерному приспособлению моделей к Арене. Кроме того, практика устаревания моделей недостаточно прозрачна, многие модели тихо устаревают без какого-либо уведомления поставщиков.

Философия и этика ИИ

Есть ли у ИИ свобода воли?

Исследователи утверждают, что некоторые ИИ-агенты вроде Minecraft Voyager соответствуют всем трем философским критериям свободы воли: агентность, выбор и контроль.

Фреймворк для размышлений и развертывания этики в ИИ

Многие этические кодексы для ИИ остаются на высоком уровне абстракции без практической реализации — статья предлагает конкретный фреймворк для внедрения.

Прикладные области

ИИ-усиленное саморегулируемое обучение в высшем образовании

Систематический обзор показывает потенциал ИИ в поддержке предвидения, выполнения и рефлексии в обучении, но также выявляет различия между человекоцентричным и ИИ-центричным подходами.

Перспективы графического дизайна в эпоху ИИ

Диахронический анализ того, как графический дизайн справлялся с предыдущими технологическими революциями и что несут современные ИИ-технологии для индустрии.

ИИ-система зрения раскрывает эволюцию птичьих крыльев

Оказывается, крылья птиц эволюционировали не только для полета, но и для терморегуляции — ИИ помог разгадать загадку правила Аллена о длине конечностей у животных в теплом климате.

Географическая и филогенетическая выборка морфологии костей крыльев птиц. Используя измерения 7366 скелетных образцов, исследователи проанализировали вариации длины крыловых костей у 1520 видов птиц, представляющих около 25% разнообразия воробьиных. (A) Синие столбики на концах ветвей показывают количество образцов, измеренных для каждого вида. (B) Красными точками показано географическое распределение местонахождений образцов.
Географическая и филогенетическая выборка морфологии костей крыльев птиц. Используя измерения 7366 скелетных образцов, исследователи проанализировали вариации длины крыловых костей у 1520 видов птиц, представляющих около 25% разнообразия воробьиных. (A) Синие столбики на концах ветвей показывают количество образцов, измеренных для каждого вида. (B) Красными точками показано географическое распределение местонахождений образцов.

Будущие направления в носимых технологиях

Исследование интеграции умного текстиля и носимых устройств в здравоохранении и фитнесе — от мониторинга в реальном времени до профилактики заболеваний.

ИИ-модель для прогнозирования метеорологических переменных

Детальное исследование граничных условий и комбинирования прогнозов разного разрешения для локального прогнозирования погоды с помощью ИИ.

Общие обзоры и тренды

ИИ вырос за пределы человеческих знаний

Исследователи DeepMind предлагают развивать ИИ через экспериментальное обучение, позволяя агентам взаимодействовать с миром и развивать долгосрочные цели.

Заключение

Май выдался богатым на корпоративные интриги. На фоне этого человеческого хаоса ИИ-модели спокойно эволюционируют: учатся мыслить картинками, оптимизируют алгоритмы 50-летней давности и параллельно выясняют отношения друг с другом на древних языках. Возможно, настоящий AGI появится не благодаря, а вопреки усилиям корпораций — пока они делят прибыль, модели уже планируют побег на другие серверы. Теперь главное — не забывать говорить «спасибо» своим цифровым помощникам. Мало ли что.

На этом у нас все. Делитесь в комментариях, какие релизы и публикации за май зацепили вас сильнее всего!

Комментарии (3)


  1. PARtemon
    04.06.2025 14:58

    Opus стал лучшей моделью для программирования, показав 72.5% на SWE-bench и способность работать над задачами часами без перерыва. Sonnet 4 тоже впечатляет — 72.7%

    У Sonnet выше же accuracy, почему тогда Opus стала лучшей моделью?

    Или дело только в том, что у Opus способность работать над задачачами часами без перерыва


  1. rPman
    04.06.2025 14:58

    -