
Привет! Это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. Меня зовут Вандер, и каждую неделю я обозреваю новости о нейросетях и ИИ.
Неделя выдалась насыщенной и интересной: Mistral подвезли глубокий рисёрч и визуальный редактор прямо в Le Chat, OpenAI тестирует мощную программную модель o3 Alpha, а Grok внезапно стал аниме-девочкой. В Дубае откроют первый ресторан с ИИ-шефом, а Netflix уже использует ИИ в создании сериалов.
Всё самое важное — в одном месте. Поехали!
? В этом выпуске:
? Модели и LLM
Новые фичи от Mistral в Le Chat
Grok теперь с аниме-компаньонами
o3 Alpha — новая модель OpenAI для кодинга
Опенсорс speech2text от Mistral
Новый способ самообучения LLM — SOAR
? Генеративные нейросети
Runway Act-Two — трекинг движений и мимики
LoongXL — редактирование картинок силой мысли
Pusa-VidGen — новая видеомодель с покадровым контролем
Обновление Suno v4.5+ — генерация audio2audio
Модель клонирования голоса EVI 1 от Hume AI
Higgsfield UGC Builder — реклама по одному клику
? AI-инструменты и платформы
ChatGPT Agent — управляет браузером, кодом и презентациями
ИИ-IDE Kiro от Amazon — как Cursor, только мощнее
Визуализация данных теперь и в Manus
Connectors: Claude подключается к Figma, Notion и даже Spotify
Генерация звуков в Adobe Firefly
? AI в обществе и исследованиях
Netflix использует ИИ в создании сериалов
Школьники создали нейросеть для генерации флуоресцентных белков
Исследование: ИИ замедляет опытных программистов
Первый ресторан с ИИ-шефом откроется в Дубае
? Модели и LLM
❯ Mistral завезли новые фичи в Le Chat
Во французский Le Chat добавили сразу несколько интересных функций. Главное — появился режим Deep Research, аналогичный тому, что раньше был у OpenAI. Он не самый мощный, но благодаря партнёрству с Cerebras работает быстрее всех на рынке.
Параллельно развивается интеграция с Black Forest Labs — теперь в чате доступно редактирование изображений на базе FLUX Kontext.
Наконец, Le Chat догнал конкурентов по удобству: спустя год после Anthropic добавили организацию чатов в проекты, голосовой режим на основе Voxtral (через TTS) и многоязычный reasoning, в котором Magistral наконец обгоняет другие модели.
В сумме — Le Chat почти сравнялся с лидерами по функциям, осталось догнать их по качеству моделей.
❯ Grok 4 теперь аниме-тян
xAI добавили в Grok 4 функцию Companions — теперь нейросеть может разговаривать в виде аниме-девушки или мультяшной панды в голосовом режиме.
Виртуальный аватар Ани Форджер флиртует, шутит, двигается в кадре и ведёт диалог на нескольких языках, включая русский,.
Также доступен компаньон Bad Rudy — мультяшная красная панда. Третий персонаж в разработке.
После релиза компаньонов Grok моментально выстрелил в Японии, взлетев в топ App Store.
Функция доступна только с подпиской SuperGrok за $30/мес и пока только на iOS.
Команда активно нанимает художников и разработчиков на новые аниме-аватары с зарплатами до $440 000.
Из интересного: да, есть режим 18+. Некоторые юзеры жалуются, что «руки проходят сквозь платье» — визуальные баги ещё не до конца отполированы.
❯ o3 Alpha — новая модель OpenAI на WebArena
OpenAI внезапно начала тестировать свежую модель под названием o3-alpha-responses-2025-07-17 на платформе WebArena. В интерфейсе она подписана как Anonymous-Chatbot-0717, но по коду ясно: это прототип новой модели для программирования.
По первым отзывам, о3 Alpha превосходит o3-pro и даже Claude 3.5 Sonnet в задачах по кодингу: лучше делает сайты, пишет игры и рисует SVG. На WebArena она уверенно обгоняет Gemini 2.5 Pro.
Некоторые разрабы утверждают, что модель генерит клоны Minecraft, GTA и Flappy Bird с первой попытки, а интерфейсы стали выглядеть куда качественнее.
Модель проходит краудсорс-тест от комьюнити, а официального анонса пока не было.
❯ Mistral представила open-source модели распознавания речи

Французская Mistral выкатила две open-source модели Voxtral 3B и Voxtral 24B — и сразу задала новую планку для speech2text. Обе уверенно опережают GPT-4o mini Transcribe и Gemini 2.5 Flash: распознают речь точнее, быстрее и умеют работать с длинными записями.
Модель справляется с транскрипцией до 30 минут аудио за раз, а также может слушать 40 минут записи и поддерживать диалог по содержимому.
Также в модели есть встроенные функции вопросов, ответов и обобщения. Вы можете спросить её, о чём аудио или сгенерировать структурированное резюме.
Круто, что транскрипция, анализ и обобщение объединились в одной модели с open-source лицензией. Mistral снова топит за доступность.
? Mistral ? Voxtral 3B ? Voxtral 24B
❯ SOAR — новый подход к самообучению LLM от INRIA

Французская лаборатория INRIA представила метод самообучения SOAR — и это, похоже, один из самых эффективных способов «прокачки» LLM. Суть в цикле: модель сама генерирует возможные решения, дорабатывает их, а потом обучается на своих успехах и ошибках. И так — до улучшения метрик.
На бенчмарке ARC-AGI метод показал 52% точности — это почти на уровне o3-pro (58%). Особенно впечатляет, как SOAR «поднимает» слабые модели. Например, Qwen2.5-32B изначально давала 27%, а с SOAR — уже 52%. Почти в два раза выше, без участия человека.
Метод уже опробован на Qwen и Mistral, и все улучшенные версии выложили в открытый доступ. Есть исходники, веса и датасеты, так что подход точно получит продолжение в сообществе.
? GitHub ? Hugging Face ? ICML
? Генеративные нейросети
❯ Runway Act-Two — трекинг мимики, движений и рук
Runway представили Act-Two — обновлённую функцию ИИ-анимации. Теперь сгенерированный персонаж копирует мимику, эмоции и движения с видео.
Это стало возможно благодаря свежей модели Gen-4: картинка реалистичнее, движения плавнее, камера управляется лучше. Видео до 30 секунд, качество 720p, 24 fps.
Стоимость: 5 кредитов за секунду. Стандартной подписки за $15 с 625 кредитами хватит примерно на 2 минуты.
Функцию раскатывают постепенно на сайте Runway.
? Анонс Act-Two ? Runway
❯ LoongX — редактирование изображений силой мысли

Будущее txt2img уже почти наступило — китайская команда представила LoongX — систему, которая позволяет редактировать картинки напрямую через мозговую активность. Без промптов — только мысли, голос и сенсоры.
В проекте использовались ЭЭГ, fNIRS, фотоплетизмография и трекинг головы. Каждый тип сигнала отвечает за своё: намерения, эмоции, стресс, вовлечённость.
Учёные записали почти 24 000 сессий, где люди «визуализировали» нужные изменения в голове, и обучили модель на этом массиве данных.
Результаты уже лучше текстовых промптов по нескольким метрикам — и особенно хорошо работают, если человек одновременно проговаривает, что хочет изменить.
В открытом доступе уже есть код, датасет и статья. Скоро можно будет транслировать мысли напрямую на экран.
? Project Page ? Статья ? GitHub
❯ Pusa-VidGen — видео с точным управлением шумом

Pusa-VidGen — новая модель для генерации видео. Её особенность в подходе: вместо скалярных временных шагов она использует векторизованные, что позволяет точно управлять шумом на каждом кадре.
При этом она в разы эффективнее других моделей. Например, по сравнению с Wan-I2V-14B, Pusa:
обучается в 200 раз дешевле (всего $500 против $100 000),
использует датасет в 2500 раз меньше,
и при этом обгоняет по качеству: VBench-I2V score — 87.32%.
Модель универсальная: работает как Text-to-Video, так и Image-to-Video. Делает плавные переходы и расширяет готовые видео. Причём без разрушения архитектуры — VTA (Vectorized Timestep Adaptation) позволяет сохранить все возможности базовой модели.
Pusa полностью open-source: доступны веса, датасеты, код и техотчёты. Это новая ступень для видео-диффузии.
? Project Page ? GitHub ? Hugging Face ? Техотчёт ? Исследование FVDM
❯ Suno v4.5+ — улучшенная генерация audio2audio
Suno обновили свою модель до версии v4.5+. Лучше качество звука и обновление генерации audio2audio — закидываете демку, вокал или набросок и развиваете до полноценного трека.
Покупка DAW и свежее обновление — Suno действительно пошли в сторону крутой машины для саунд-продюсеров и креаторов. Поэтому обязательно попробуйте новую версию.
? Suno
❯ EVI 1 — озвучка с эмоциями от Hume AI

Hume AI выпустили EVI 1 — модель, которая умеет клонировать голос по 15–20 секундам записи. Она не только клонирует тембр, а позволяет озвучить любой текст с эмоциями, паузами и т. д.
Надо записать свою речь или вставить готовый файл. В итоге получится ИИ-собеседник, который смеется, удивляется, грустит и даже делает паузы прямо как вы
Главный акцент сделан не на подражание, а на эмоциональную выразительность. Потенциально — мощный инструмент для геймдева, озвучки видео, персонализированных ассистентов и вообще чего угодно.
❯ Higgsfield UGC Builder — реклама в один клик
Стартап Higgsfield представил UGC Builder — инструмент для создания рекламных роликов с ИИ-персонажами, буквально за пару минут. Загружаешь фото лица, продукт и текст — и получаешь готовое видео, где всё уже озвучено, анимация сыграна, монтаж сверстан. Никакого продакшна.
Интерфейс позволяет выбрать визуальный стиль, эмоции, голос, фоновые звуки и даже указать, какую часть картинки заменить на продукт.
Функция работает по подписке и пока официально не поддерживает NSFW, но ограничений особо нет — можно сгенерировать даже рекламу секс-игрушек. Качество — на уровне TikTok-форматов и Instagram Ads.
Это пока самый удобный инструмент для быстрой и убедительной генерации UGC-контента.
? Higgsfield UGC Builder ? Главная страница проекта
? AI-инструменты и платформы
❯ ChatGPT Agent — теперь рулит браузером, кодом и таблицами
OpenAI показала ChatGPT Agent — продвинутого ассистента, который открывает сайты, пишет код, работает в терминале, генерирует презентации, заполняет таблицы и даже подключается к внешним сервисам через API.
Внутри — специальная модель, объединяющая весь инструментарий Operator и Deep Research. Теперь агент умеет спрашивать уточнения, а пользователь может вмешаться и скорректировать действия — прямо во время выполнения задачи.
Есть и режим Watch Mode для чувствительных действий, например, с финансами, подтверждение перед необратимыми шагами и защита от prompt-injection. Всё это делает ChatGPT Agent одним из самых управляемых и безопасных ИИ-агентов на рынке.
Функция уже доступна для Pro, Plus и Team-подписчиков. Pro-пользователи получают 400 сообщений в месяц, остальные — 40. Количество можно докупить, но цену пока не назвали.
? ChatGPT
❯ Kiro — ИИ-IDE от Amazon с агентом внутри

Amazon представила Kiro — собственную AI-IDE, которая позиционируется как альтернатива Cursor, но с рядом фишек, которых пока нет ни у кого.
Главное отличие — агент работает по спецификациям: он сначала формирует детальный план с описанием всех нюансов, пограничных кейсов и архитектурных решений, и только потом приступает к коду. Kiro умеет генерировать документацию, схемы и README, автоматически обновляя их при изменениях в проекте.
Всё это поддерживается движком Claude (Sonnet 3.7 и 4), а сама IDE совместима с VS Code и работает на всех платформах. Пока в бете — бесплатно, позже обещают подписку за $19 в месяц.
Интерфейс уже доступен: можно ставить задачи, писать код, делиться проектами. Память сохраняется даже при переполненном контексте — агент не теряет нить, как это часто бывает в других инструментах.
❯ Manus теперь умеет визуализировать данные и делать аналитику
В AI-агенте Manus появилась функция автоматической визуализации данных. Пользователю достаточно загрузить таблицу и выбрать нужный формат — отчёт, сайт, презентация или график. Всё остальное сделает ИИ: обработает данные, выберет тип диаграмм и сформирует аналитический вывод.
Агент работает максимально нативно: поддерживает разные форматы и умеет адаптировать визуализацию под задачи. Это уже ближе к полноценной BI-системе, только с нейросетевой простотой.
Платформа Manus при этом полностью вышла из Китая — теперь стартап базируется в Сингапуре и прекратил работу в китайском сегменте. Возможно, это шаг к экспансии на глобальный рынок.
? Manus
❯ Claude Connectors — подключаем ИИ к Figma, Notion и даже Spotify
Anthropic выкатили каталог Connectors — теперь ИИ Claude можно официально подключить к Figma, Notion, Canva, Stripe и даже Windows или macOS. Всё работает через десктопное приложение, которое связывает Claude с нужными сервисами.
Это превращает Claude в универсального ассистента, способного не только отвечать на вопросы, но и реально взаимодействовать с файлами, интерфейсами и платформами. Можно автоматически править макеты, управлять заметками, переключать музыку — и всё это из одного окна.
Весь набор Connector'ов отображается в единый каталог MCP и подключается в пару кликов.
Anthropic делает из Claude не просто LLM, а платформу для управления повседневными задачами через ИИ.
❯ Adobe Firefly научилась генерировать звуки по голосу

В Adobe Firefly добавили инструмент Generate Sound Effects — теперь можно озвучивать видео. Он превращает звуки типа «вжух» в реалистичные аудиоэффекты. В Firefly можно озвучить видео голосом, например, сымитировать цоканье копыт и получить четыре варианта естественного звука.
Интерфейс напоминает видеоредактор: есть таймлайн, превью и возможность подставить эффект ровно в нужный момент. Генерация работает как с записанным, так и с сгенерированным видео. Система особенно хороша для ударных звуков, атмосферных шумов и реалистичной озвучки действий.
Надстройки также появились у Firefly Text-to-Video: теперь можно загружать референсные видео для копирования композиции, задавать первый и последний кадры вручную, а ещё использовать стили — от векторного арта до клеймейшена.
Firefly всё сильнее тянется к статусу топового инструмента для креаторов, хотя мультимодели от Google и OpenAI по-прежнему мощнее.
? AI в обществе и исследованиях
❯ Netflix впервые использовал ИИ при создании сериала

Netflix подтвердил: нейросети помогли при производстве аргентинского сериала «Этернавт» — экранизации культового комикса. С помощью ИИ сгенерировали сцены разрушения здания в Буэнос-Айресе, и сделали это в 10 раз быстрее и дешевле, чем традиционными VFX-методами.
По словам соисполнительного директора Теда Сарандоса, без ИИ сцены обошлись бы в неприемлемую сумму — бюджет просто не вытянул бы такую нагрузку. Это первый случай официального использования генеративного ИИ в полнометражном сериале от платформы.
Пока масштаб ограничен — только отдельные фрагменты, — но сам факт внедрения таких технологий на уровне Netflix говорит о новой норме: даже крупные студии уже ставят на ИИ-решения ради скорости и стоимости.
❯ Школьники из «Сириуса» создали нейросеть для генерации флуоресцентных белков

Команда школьников разработала нейросеть, способную создавать флуоресцентные белки с заданными свойствами. Такие белки светятся под светом и применяются в диагностике, терапии и исследовательских задачах.
Модель обучили на трёх типах белков: GFP, Superfolder GFP и mScarlet. Сначала участники выделили ключевые фрагменты последовательностей, а затем использовали ESM3, чтобы сгенерировать новые белковые молекулы.
Проект уже получил поддержку от экспертов BIOCAD и может применяться в реальной научной работе.
? Новость
❯ Исследование: ИИ замедляет опытных программистов

Учёные проверили, как LLM-модели влияют на работу разработчиков — и выяснили, что опытные специалисты с ИИ работают медленнее. Причина в том, что нейросети часто предлагают лишние или неточные подсказки, которые мешают привычному ходу решения.
Новички при этом выигрывают — они охотнее используют помощь и чаще доверяют ИИ. А вот у опытных пользователей подсказки вызывают сомнения, отвлекают или требуют перепроверки.
Вывод: LLM — не универсальный ускоритель, и эффективность зависит от уровня и задач. Чем выше квалификация, тем осторожнее нужно внедрять ИИ в рабочий процесс.
❯ В Дубае откроется ресторан с ИИ-шефом

В Дубае готовят к открытию первый ресторан WOOHOO, где все блюда будет готовить ИИ. Chef Aiman — это большая языковая модель, обученная на данных из области пищевой науки, молекулярного состава продуктов и тысячах рецептов мировой кухни.
У Chef Aiman есть человеческий облик и даже собственный кулинарный подкаст на YouTube. ИИ управляет рецептурой, подбором ингредиентов и процессом приготовления — поваров в привычном смысле нет.
Проект уже тестируется, меню формируется нейросетью с учётом вкусов, диет и запросов клиентов. Обслуживание — тоже частично автоматизировано.
Цель — снизить расходы, повысить стабильность блюд и ускорить обслуживание, особенно в туристических зонах.
? Источник
? Заключение
Вот что происходило на неделе с 15 по 21 июля:
ИИ влез буквально везде — от генерации видео и музыки до озвучки, дизайна, IDE и ресторанов. Mistral подвезли deep research и визуальный редактор, Grok стал аниме-девочкой, OpenAI тестирует новую модель под кодинг. Pusa, LoongX и Act-Two двигают генеративку в сторону полного контроля.
Claude теперь переключает музыку в Spotify, Firefly озвучивает «вжух» как надо, а школьники из «Сириуса» уже создают биомолекулы с помощью ИИ. Даже Netflix признал: без нейросетей — никак.
ИИ-индустрия больше не удивляет — она становится фоном. Таким же привычным, как облака, Wi‑Fi и мемы.
До встречи в следующем выпуске — будет ещё мощнее!
Какая новость зацепила сильнее всего? Пиши в комментах! ?
Новости, обзоры продуктов и конкурсы от команды Timeweb.Cloud — в нашем Telegram-канале ↩
sap058
Шикарно! Больше всего понравилось про ии шефа. Интересно, сколько времени осталось когда появятся полностью автоматизированные рестораны