Google I/O 2025: Gemini, Google Beam, умные очки и другие ключевые анонсы / forpes.ru

Главная
Google I/O 2025: Gemini, Google Beam, умные очки и другие ключевые анонсы

Google I/O 2025: Gemini, Google Beam, умные очки и другие ключевые анонсы +13

08.07.2025 07:53

Sber 0 1600 Источник

В мае этого года прошла конференция Google I/O 2025, где компания представила целый ряд технологических новинок и обновлений своих флагманских продуктов. В этой статье подробно пройдёмся по ключевым анонсам мероприятия.

Google Beam

Beam — это система для трёхмерных видеозвонков с эффектом присутствия собеседника. Проект основан на экспериментальной технологии Project Starline, но, в отличие от оригинала, стал более компактным, доступным и ориентированным под офисы и переговорные комнаты.

Главная особенность Beam — создание трёхмерной модели человека в реальном времени без применения AR и VR-гарнитуры. Для этого система использует:

Массив из 6 камер, которые снимают собеседника под разными углами и точно передают его мимику, жесты и микродвижения.

ИИ и объёмную видеомодель. ИИ превращает отснятое видео в динамическую трёхмерную модель: воссоздаёт недостающие части, устраняет артефакты и делает проекцию максимально реалистичной.
Световое поле. Готовое трёхмерное изображение транслируется на специальный light-field дисплей — это создаёт эффект глубины и перспективы без дополнительной гарнитуры.
Пространственный звук с трекингом, который отслеживает положение головы и рта человека, чтобы точно синхронизировать аудио с виртуальным образом.

Кроме того, система практически сразу переводит иностранную речь, сохраняя тон, голос и мимику говорящего.

Beam уже интегрирован с Google Meet и Zoom. Также планируется сотрудничество с Deloitte, Salesforce, Recruit и другими крупными брендами.

Gemini в Chrome

C 21 мая 2025 года Gemini доступен в Chrome для Windows и macOS, включая бета/канареечные/Dev‑сборки. Пока что нейросеть доступна только на английском языке и только для подписчиков Google AI Pro/Ultra в США.

Gemini умеет:

извлекать ключевые тезисы из статьи или сайта;
объяснять сложные термины и уточнять содержание страницы;
сравнивать характеристики, описания или идеи в пределах одной вкладки;
определять и описывать объекты на изображениях;
распознавать, что происходит на видео — например, может сформировать список ингредиентов и пошаговый рецепт из кулинарного ролика;
перефразировать текст страницы в нужном стиле.

При этом нейросеть не может объединять данные из разных страниц — эта функция запланирована на будущее. Также разработчики обещают добавить поддержку новых регионов, а с 19 июня через Gemini в Chrome можно планировать действия для предстоящих задач и раз в неделю получать новости на релевантные темы.

Imagen 4 и Veo 3

Veo 3 — новейшая ИИ-модель для создания реалистичных видео из текстовых подсказок. В отличие от прошлой версии, здесь можно генерировать ролики сразу со звуком — от диалогов и фонового шума до звуковых эффектов и музыки.

Veo 3 поддерживает 4K-разрешение, лучше понимает промпты и отлично имитирует физику реального мира — учитывает массу объектов, скорость движения, поведение света и теней. Система использует возможности DeepMind в области video-to-audio ИИ и автоматически генерирует звук к видео. Также здесь можно использовать референсные изображения для сцен, объектов и персонажей.

В июне 2025 года у Veo 3 появился новый режим Fast — более быстрая и дешевая модель, которая рендерит ролики за 1-3 минуты и расходует на это в 5 раз меньше кредитов, чем оригинальная версия. При этом разрешение сгенерированных видео — от 720p до 1080p (в зависимости от подписки).

Imagen 4 — новая версия нейросети для генерации фотореалистичных изображений. Модель работает на Google DeepMind и поддерживает 2K-разрешение, лучше отрисовывает текст, четче выражает текстуры и отлично справляется со сбалансированным кадрированием.

24 июня 2025 Imagen 4 официально доступен в Gemini API и Google AI Studio и состоит из двух пакетов — Ultra и Standard.

Flow

ИИ-платформа для создания полноценных фильмов, которая сочетает возможности Veo 3, Imagen 4 и Gemini, где:

Veo 3 отвечает за реалистичную графику, физику мира, движения камеры и генерацию звука;
Imagen 4 дополняет Veo и прорабатывает мельчайшие визуальные детали: текстуры, освещение, отражения, фоновые элементы и художественные акценты;
Gemini управляет всей системой: интерпретирует текстовые запросы, помогает настроить сцену, отредактировать ролик или составить логичную последовательность видео.

Ключевая особенность Flow — поддержка визуальной и сюжетной целостности между сценами. ИИ запоминает вид и поведение персонажей, объектов и окружения, а затем сохраняет их от сцены к сцене. Так ролики выглядят как полноценная история, а не набор случайных клипов.

Gemini 2.5 Pro с Deep Think

Deep Think — это экспериментальный режим для Gemini 2.5 Pro, который использует параллельное мышление и рассматривает несколько вероятных гипотез для решения одной и той же задачи.

Модуль Deep Think показал значительные успехи в высшей математике, программировании и мультимодальных рабочих процессах — здесь он опередил простую версию Gemini 2.5 Pro в среднем на 9%.

Также он стал лидером рейтингов WebDev Arena и LMArena, обогнав ChatGPT o3 Pro и DeepSeek.

Кроме того, 17.06.2025 состоялся релиз самой дешевой и быстрой модели Gemini 2.5 Flash-Lite. Она доступна в Google AI Studio, Gemini API, Vertex AI и оперирует данными от января 2025 года.

Project Aura

Это новые смарт-очки на базе ОС Android XR. Они немного крупнее обычных солнцезащитных аксессуаров и оснащены микрофонами, камерами, дисплеями, динамиками и чипом Qualcomm.

С помощью гаджета можно переводить меню в ресторане, слушать музыку, отвечать на звонки, делать фото, строить маршруты, а также распознавать объекты в реальном времени — например, если посмотреть на городскую достопримечательность, ИИ от Gemini покажет её историю. При этом очки можно в любой момент отрегулировать и переключиться с цифрового контента на реальный мир.

Разработчики обещают подробнее рассказать о Project Aura на будущей выставке Augmented World Expo. Релиз очков ожидается не раньше начала 2026 года.

Stitch

Stitch — инструмент для проектирования интерфейсов веб-приложений через текстовые подсказки, скетчи или скриншоты. Платформа сочетает визуальный редактор, ИИ-генератор кода и поддержку пользовательской логики внутри макета.

Здесь можно настроить цветовую палитру, визуальный стиль, пользовательский путь, типографику и сценарии поведения интерфейса. На выходе получается один или несколько вариантов дизайна, которые можно:

скачать как HTML/CSS;
экспортировать в Figma с полноценными слоями;
продолжить редактировать внутри системы.

Бесплатная версия Stitch работает на Gemini 2.5 Flash, но пользователям Google One AI Premium доступна версия с Gemini 2.5 Pro — с глубоким анализом скриншотов, лучшим пониманием промптов и мультимодальностью.

Jules

Jules — это автономный ИИ-агент для кодирования, который напрямую подключается к репозиторию, копирует проект в изолированную среду Google Cloud и одновременно выполняет несколько задач:

анализ кода;
тестирование;
добавление новых функций;
исправление багов;
обновление зависимостей.

Система построена на Gemini 2.5 Pro и работает в фоновом режиме. При этом агент анализирует всю кодовую базу и принимает решения с учетом архитектуры, зависимостей и бизнес-логики проекта. В конце работы Jules показывает план действий, аргументацию решений и список изменений в коде.

Протестировать новинку можно через Google Labs после регистрации. Также Google ведет открытый репозиторий на GitHub с примерами запросов, которые помогут быстрее освоить Jules.

AI Mode

Новая вкладка в Google Search на базе кастомизированной версии Gemini 2.5. Нейросеть работает с ChromeOS нативно и учитывает происходящее не только в браузере, но и в других приложениях.

Из ключевых функций ассистента:

Контекстная помощь. Фиксирует, чем занят пользователь — пишет письмо в Gmail, оформляет документ в Google Docs или кодит в IDE — и предлагает релевантную поддержку. Например, ИИ может переделать фразу, улучшить стиль текста или объяснить кусок кода.
Мгновенные резюме. Если пользователь выделит статью или длинную переписку, AI Mode поможет составить их сжатое содержание.
Инструменты для письма и редактирования. В интерфейс Google Docs и Gmail добавлена генерация абзацев по плану, улучшение формулировок и корректировка стиля — например, «вежливее», «короче» или «формальнее».
Работа с графикой. ИИ может сгенерировать и отредактировать изображение — например, создать иллюстрацию по текстовому описанию, изменить фон на фото или составить аватар для презентации.
Поддержка кода. В AI Mode встроены элементы Gemini Code Assist. Он может анализировать код, дополнять фрагменты, объяснять работу функций и генерировать тесты.

Также в Search Labs можно протестировать глубокий поиск, виртуальную примерку одежды, визуализацию данных и другие возможности AI Mode.

AI Mode официально доступен всем пользователям из США и через Google Labs — для жителей Индии.

Что еще показали на I/O 2025

На мероприятии в Google представили более 100 анонсов — среди них также заслуживают внимания:

Google Meet с переводом в реальном времени. Система переводит речь практически мгновенно и учитывает тон, темп и интонацию говорящего.
AI Ultra. Новый тарифный план с самыми высокими лимитами и передовыми возможностями. Сюда входят последние модели Gemini, расширенные функции Deep Research, ранний доступ к Veo 3, инструменты Flow и Whisk, а также повышенные лимиты в NotebookLM.
Project Astra. Голосовой ИИ-ассистент нового поколения, который видит, слышит и анализирует окружающий мир в реальном времени через камеру.

Кроме того, на конференции презентовали SynthID Detector, обновленный Google Workspace, Firebase AI Logic и другие инновационные проекты.

Заключение

Google I/O 2025 показала полную переориентацию компании на ИИ. От новых режимов Gemini до современных AR/VR-систем — нейросети буквально пронизывают всю экосистему продуктов Google.

Этот подход не только повышает удобство и персонализацию технологий компании, но и определяет инструменты, которые будут формировать цифровой опыт в будущем.