
Это краткий обзор, лучше всего посмотреть видео инструкции от гугла или обзоры на ютубе, потому что различных функций слишком много и не все они будут показаны в мини обзоре.
Введение
Google AI Studio — это онлайн-платформа, разработанная Google для быстрой работы с моделями искусственного интеллекта, в первую очередь с линейкой Gemini (наследниками Bard и PaLM). Она предоставляет графический и кодовый интерфейс, позволяющий пользователям разрабатывать, тестировать и оптимизировать ИИ-промпты, сценарии и интеграции.
Главный плюс для начинающих, бесплатное почти неограниченное использование (ограничение написаны под Rate limits) пока оно происходит в пользовательском интерфейсе, на вебсайте гугла. (UI (User Interface - Пользовательский интерфейс) remains free of charge/oстается бесплатным).
На данный момент для использования сервиса, необходим ВПН. С почтой от гугла (gmail) зарегистрированной в РФ работает через ВПН.
Стартовая страница Google AI Studio
На этой странице можно начать писать текстовые запросы к модели без предварительной настройки. Среда поддерживает как простые однострочные команды, так и сложные многоступенчатые сценарии с разметкой ролей, вложенными вызовами и определением функций. Это позволяет проектировать не просто ответы, а полноценное поведение ассистента. Так же возможна загрузка своих источников, фото, видео, аудио, голосовой ввод, аудио диалог.

Например:
1- это системные инструкции (основной промпт, определяющий поведение модели). Когда нажата кнопка 1 (блокнот), в верхней части экрана появляется окно, в которое можно ввести основной промпт. На скриншоте в этом окне указано: «пиши только как заядлый программист на плюсах с хабра чётко и по делу».
2 - эта кнопка < >
генерирует готовый программный код (SDK), позволяющий интегрировать взаимодействие с моделью Gemini в ваше приложение.
3 - это кнопка для шеринга промпта: вы можете поделиться текущей настройкой с другими пользователями.
4 - это сохранение текущего промпта и параметров сессии.
5 - это режим сравнения. В нём, как и в основном режиме, можно редактировать настройки и промпты, но с тем отличием, что отображаются сразу два окна рядом. Это удобно для параллельного тестирования, без необходимости переключаться между вкладками.
6 -это кнопка очистки чата. В режиме сравнения очищаются оба диалога, однако системный промпт (кнопка 1) и текущие настройки сохраняются.
7 - дополнительный опции сделать копию, удалить промпт.
8 - позволяет создать новую, отдельную копию текущего чата , начиная с выбранного момента.
Стартовая страница также предоставляет инструменты для few-shot обучения — можно добавлять примеры диалогов прямо в интерфейсе, чтобы задать модели желаемый стиль или структуру ответа. Это особенно полезно при тонкой настройке поведения модели под конкретные задачи. Так же возможно сравнение различных промптов на разных языках и настроек.

Интерфейс позволяет переключаться между различными моделями Gemini, настраивать параметры генерации (например, температуру или максимальную длину ответа) и сразу видеть результат. Все запросы и ответы сохраняются автоматически. Подробнее про настройки и промпты в предыдущей статье.

Дальше выбираем в меню слева Stream(Стрим) и у нас появляется такое окно ниже.

Talk (кнопка микрофона) — позволяет взаимодействовать с моделью Gemini голосом через микрофон. Прежде чем начать голосовую сессию, рекомендуется настроить параметры, например включить функцию Grounded with Google, чтобы модель могла сверяться с актуальной информацией из интернета при ответе.
Webcam (кнопка камеры) — предоставляет модели доступ к видеопотоку с вашей веб-камеры в реальном времени. Это позволяет вести диалог на основе визуальной информации. Например, модель может распознавать объекты, анализировать жесты или помогать с задачами, связанными с изображениями.
Share Screen (кнопка демонстрации экрана) — даёт возможность Gemini видеть содержимое вашего экрана. Это особенно полезно при совместной работе или обучении. Например, во время просмотра видео по боксу модель может в реальном времени комментировать происходящее: распознавать приёмы, описывать технику и объяснять ключевые моменты.
Идем дальше, выбираем в меню слева Generate media.

Начнем с Gemini speech generator.

Выше был аудио диалог на двух разных языках созданный ии.
Генерация речи в Google AI Studio позволяет создавать аудио из текста с различными настройками.
Основные функции на скриншоте:
Raw structure (сырая структура): Определяет, как структурировать ваш скрипт в запросе API для генерации речи.
Script builder (конструктор скриптов): Позволяет создавать сценарии диалогов, указывая реплики и инструкции по стилю для каждого диктора.
Style instructions (инструкции по стилю): Указывают, как именно должен произноситься текст, например, весело и счастливо для говорящего номер 1.
Add dialog (добавить диалог): Позволяет добавлять новые реплики и дикторов в сценарий.
Mode (режим): Позволяет выбрать между монологом или диалогом (пока ограничение на 2 участников)
Model settings (настройки модели): Включают регулировку температуры, которая влияет на креативность и непредсказуемость сгенерированной речи.
Voice settings (настройки голоса): Позволяют конфигурировать параметры для каждого диктора, такие как имя, голос и настройки для управления скоростью речи и другими параметрами.


Почему это прикольно? Гугл поддерживает множество языков, позволяет задавать контекст диалога вручную. Это открывает широкие возможности — от создания обучающих сценариев, в которых ассистент общается с учеником на английском и одновременно даёт перевод и пояснение на родном языке, до построения голосового ассистента для имитации звонков, генерации персонализированных сказок по собственному сценарию, написания диалогов для подкастов или даже создания интерактивной озвучки для видео. Благодаря настройке системного промпта и истории можно построить как простую игрушку, так и сложного обучающего агента, адаптированного под конкретную аудиторию и задачу. Также гугл недавно выпустили умный блокнот NotebookLM, модель не просто читает материалы, а формирует живой диалог между виртуальными участниками, используя содержание предоставленных источников. Главная особенность в том, что вы сами можете вмешиваться в разговор как третий участник: задавать вопросы, вносить уточнения или менять направление дискуссии прямо во время генерации.
А теперь идем к Generate Image.

Тут все просто, задаем промпт, сколько хотим вариантов генерации, и формат.
Дальше идем в Lyria RealTime.
Тут можно создавать свою инструментальную музыку, например для видео или риилса. Откровенно, оно еще сырое, поэтому рекомендую Suno.

И последнее это видеогенерация Veo 2.

Функция генерации видео, пока ограниченная: можно создать ролик продолжительностью до 8 секунд. Качество генерации приемлемое для демонстрации концептов, а в настройках (в правом нижнем углу) предусмотрен «негативный промпт» - возможность указать, чего именно не должно быть в кадре. Это полезно для управления стилем и содержанием видео.
На этом текущий обзор завершается - я не затронула возможности, связанные с генерацией кода, построением приложений по одному промпту и другими функциями, заслуживающими отдельного внимания, а так же последним обновлениям, как в ассистенте для написания кода Jules, стич, последняя крутая версия генерации видео Veo 3 и тд. Ссылки на последние крутые инструменты которые релизнул гугл оставлю тут:
https://deepmind.google/models/imagen/
https://blog.google/products/search/google-search-ai-mode-update/#agentic-capabilities
https://stitch.withgoogle.com/
https://labs.google/flow/about
Всем спасибо за просмотр, камсамнида :)
tolronto
Спасибо! Полезно.
noobaitranslator Автор
спасибо за поддержку! буду стараться выкладывать дальше короткие обзоры! 감사합니다