Как сделать дикторский голос в Google AI Studio: инструкция, промпты и настройки

Нужна озвучка для видео, презентации, подкаста, статьи или короткого ролика? В Google AI Studio можно создать дикторский голос с помощью Gemini Text-to-Speech. Инструмент превращает текст в аудио и позволяет управлять стилем речи через обычные текстовые инструкции: можно задать тон, темп, эмоциональность, паузы и формат подачи.

Я уже отдельно сравнивал Google AI Studio с ElevenLabs на одном и том же тексте. Если коротко: ElevenLabs звучит живее и эмоциональнее, а Google AI Studio лучше подходит для спокойной дикторской озвучки, информационных материалов и быстрых экспериментов. Подробное сравнение с примерами аудио можно посмотреть здесь: Генерация качественного аудио для подкаста: сравнение ElevenLabs и Google Gemini.

В этой статье покажу, как сделать дикторский голос именно в Google AI Studio, какие настройки выбрать и как написать промпт, чтобы русская озвучка звучала естественнее.

Коротко: как озвучить текст в Google AI Studio

Чтобы создать дикторский голос в Google AI Studio:

Откройте сайт Google AI Studio.
Авторизуйтесь через Google-аккаунт.
Выберите инструмент Text to speech with Gemini.
Укажите режим Single-speaker audio для одного диктора.
Выберите голос.
Вставьте текст для озвучки.
Добавьте инструкции по стилю речи.
Нажмите Run.
Прослушайте результат и скачайте аудиофайл.

Для русской озвучки лучше сразу указывать в промпте: natural Russian speech, clear articulation, calm documentary tone, moderate pace, natural pauses.

Пример настройки Ai Studio

Для чего подойдёт дикторский голос

Озвучка через Google AI Studio может пригодиться для разных задач:

закадровый голос для видео;
короткие ролики для VK Клипов, Shorts и Reels;
презентации;
подкасты;
обучающие материалы;
документальные ролики;
озвучка статей;
ролики для мероприятий;
инструкции;
памятные видео;
голосовые версии текстов.

Главное преимущество в том, что стиль можно описывать словами. Не обязательно разбираться в профессиональных аудионастройках. Достаточно объяснить модели, какой голос нужен: спокойный, уверенный, документальный, дружелюбный, официальный или более живой.

Когда Google AI Studio подходит лучше, а когда лучше выбрать ElevenLabs

Google AI Studio хорошо подходит, если вам нужна ровная дикторская озвучка: информационный ролик, презентация, документальный текст, обучающий материал или спокойное закадровое чтение. Голос может звучать чуть менее живо, чем в специализированных сервисах, но он хорошо держит длинный монолог и удобно настраивается через промпт.

ElevenLabs, по моему тесту, лучше подходит для задач, где важны живость, эмоции и большой выбор голосов. Например, для подкастов, художественных фрагментов, рекламных роликов или более выразительной озвучки. Но у него есть свои ограничения: лимиты бесплатного тарифа, нестабильный доступ из России и более капризная работа через VPN.

Поэтому я бы разделил так:

Google AI Studio — для спокойного дикторского голоса, презентаций, информационных роликов и быстрых тестов.

ElevenLabs — для более живой и эмоциональной озвучки, подкастов и проектов, где качество голоса важнее простоты.

Подробный разбор с примерами аудио есть в отдельной статье: сравнение ElevenLabs и Google Gemini для генерации голоса.

Что такое Google AI Studio и Gemini TTS

Google AI Studio — это онлайн-сервис Google для работы с моделями Gemini. В нём можно тестировать текстовые, визуальные, аудио- и другие возможности моделей.

Для озвучки используется направление Text-to-Speech, то есть преобразование текста в речь. Проще говоря, если вам нужен не живой разговор с нейросетью, а готовая озвучка заранее подготовленного текста, нужно использовать TTS-режим.

Пошаговая инструкция

Шаг 1. Откройте Google AI Studio

Перейдите на сайт: https://aistudio.google.com/
Авторизуйтесь под своим Google-аккаунтом. Без входа в аккаунт сервис работать не будет.
После входа найдите инструмент Text to speech with Gemini. Интерфейс может немного меняться, но смысл тот же: вам нужен раздел, где текст преобразуется в аудио.

Во вкладке Audio ищем актуальную модель Gemini TTS

Важно: доступность Google AI Studio зависит от региона, аккаунта и текущих ограничений сервиса. В России сервис может быть недоступен напрямую, поэтому этот момент стоит учитывать заранее.

Шаг 2. Выберите режим генерации

В разделе Mode обычно доступны два варианта:

Single-speaker audio;
Multi-speaker audio.

Если вам нужна обычная дикторская озвучка, выбирайте Single-speaker audio. Это лучший вариант для закадрового голоса, статьи, презентации, информационного ролика или документального текста.

Если нужно озвучить диалог, интервью, сценку или подкаст с двумя голосами, выбирайте Multi-speaker audio. В таком режиме нужно заранее разметить реплики: например, Speaker 1 и Speaker 2.

Шаг 3. Выберите голос

В панели настроек выберите голос из списка доступных вариантов. Обычно можно выбрать мужской или женский голос и предварительно прослушать варианты.

Не пугайтесь, если при предварительном прослушивании голоса звучат на английском. Текст можно озвучивать на русском. Главное — в промпте явно указать, что нужна естественная русская речь.

Например:

Natural Russian speech. Clear pronunciation. Calm documentary narration.

Выбор голосов в Google AI Studio не такой большой, как в ElevenLabs. Но для дикторского голоса, презентации или информационного ролика его обычно достаточно. Если нужен более живой, эмоциональный или характерный голос, можно отдельно посмотреть сравнение с ElevenLabs.

Шаг 4. Подготовьте текст для озвучки

Перед генерацией лучше немного адаптировать текст. Не вставляйте длинную статью одним сплошным полотном.

Лучше:

разбить текст на короткие абзацы;
убрать слишком длинные предложения;
сократить канцелярские фразы;
отдельно проверить фамилии, названия и даты;
расшифровать аббревиатуры;
добавить смысловые паузы;
сложные имена написать так, как они должны звучать.

Например, дату лучше писать не так:

22.06.1941

А так:

двадцать второго июня тысяча девятьсот сорок первого года

Аббревиатуры тоже лучше проверять. Если написать ПДР, голос может прочитать это не так, как нужно. Иногда лучше написать полностью: Поисковое движение России.

Шаг 5. Настройте стиль через промпт

Самый надёжный способ получить нужное звучание — задать голосовые параметры прямо в промпте.

Пример для документальной или официальной озвучки:

Style instructions:
Natural Russian speech suitable for documentary narration.
Voice: calm, neutral, closer to male.
Tone: respectful, serious.
Pace: medium, not too fast.
Pauses: light meaningful pauses.
Clarity: clear articulation, smooth intonation.
Emotion: restrained, without theatrical expression.

Text:
Общероссийское общественное движение по увековечению памяти погибших при защите Отечества «Поисковое движение России» было создано в апреле 2013 года...

Пример того, что получилось у меня

Важно: инструкции по стилю лучше писать отдельно от текста. Так модели проще понять, где настройки, а где сам материал для озвучки.

Шаг 6. Запустите генерацию

Нажмите Run.

Через некоторое время Google AI Studio сгенерирует аудио. Его можно прослушать прямо в интерфейсе.

Если результат подходит, скачайте аудиофайл. В моём тесте Google AI Studio отдавал результат в формате WAV. Интерфейс и доступные форматы могут меняться, поэтому лучше проверять это прямо при скачивании.

Шаг 7. При необходимости скорректируйте стиль

Первая генерация не всегда получается идеальной. Иногда голос звучит слишком ровно, слишком быстро, слишком эмоционально или неправильно ставит ударения.

Можно уточнить промпт:

Make the speech slower and calmer.
Add more natural pauses between sentences.
Use a more documentary and respectful tone.
Avoid theatrical emotion.
Keep pronunciation clear and natural.

Или так:

Speak in natural Russian.
Use a calm male documentary voice.
Do not rush.
Make pauses after important phrases.
Keep the tone serious, warm, and respectful.

Если текст длинный, лучше озвучивать его частями. Так проще контролировать качество, исправлять ошибки и потом собрать аудио в редакторе.

Single-speaker и Multi-speaker: что выбрать

Для большинства задач подойдёт Single-speaker audio.

Выбирайте его, если нужно озвучить:

статью;
презентацию;
видео;
инструкцию;
документальный ролик;
короткий пост;
текст для мероприятия;
закадровый голос.

Multi-speaker audio нужен, если у вас есть несколько персонажей или формат диалога.

Например:

TTS the following conversation in Russian:

Speaker 1: Сегодня мы поговорим о том, как нейросети помогают сохранять семейную память.
Speaker 2: А с чего лучше начать, если есть только старая фотография?
Speaker 1: Лучше всего сначала восстановить снимок, а уже потом делать анимацию или озвучку.

Для диалогов важно заранее разметить реплики. Иначе модель может запутаться, где чей голос.

Готовые промпты для озвучки

Ниже несколько вариантов, которые можно использовать как основу.

Промпт для спокойной документальной озвучки

Style instructions:
Natural Russian speech for documentary narration.
Voice: calm, confident, neutral.
Tone: respectful and serious.
Pace: medium, not too fast.
Pauses: clear pauses between meaning blocks.
Clarity: clear articulation, smooth intonation.
Emotion: restrained, without theatrical expression.

Text:
[вставьте текст для озвучки]

Промпт для информационного ролика

Style instructions:
Natural Russian speech for an informational video.
Voice: clear, calm, confident.
Tone: friendly but professional.
Pace: medium.
Pauses: short pauses after key phrases.
Clarity: very clear pronunciation.
Emotion: light, natural, without exaggeration.

Text:
[вставьте текст для озвучки]

Промпт для короткого ролика в соцсетях

Style instructions:
Natural Russian speech for a short social media video.
Voice: energetic but not exaggerated.
Tone: friendly, clear, engaging.
Pace: slightly faster than normal.
Pauses: short pauses after important phrases.
Clarity: clear articulation.
Emotion: lively but natural.

Text:
[вставьте текст для озвучки]

Промпт для презентации

Style instructions:
Natural Russian speech for a presentation.
Voice: calm and confident.
Tone: professional, clear, explanatory.
Pace: medium.
Pauses: noticeable pauses between slides or key ideas.
Clarity: clear pronunciation of terms and names.
Emotion: neutral and focused.

Text:
[вставьте текст для озвучки]

Промпт для подкаста

Style instructions:
Natural Russian speech for a podcast intro.
Voice: warm, calm, conversational.
Tone: thoughtful and engaging.
Pace: medium-slow.
Pauses: natural pauses, as in live speech.
Clarity: clear but not overly formal.
Emotion: warm and restrained.

Text:
[вставьте текст для озвучки]

Здесь важно честно сказать: если цель — именно подкаст с максимально живой и эмоциональной подачей, Google AI Studio может уступать ElevenLabs. В моём сравнении ElevenLabs звучал ближе к человеческой речи, особенно по эмоциям и интонациям. Но Google AI Studio всё равно хорошо подходит для спокойного монолога, документального текста и информационной озвучки.

Промпт для торжественного текста

Style instructions:
Natural Russian speech for a solemn commemorative video.
Voice: deep, calm, respectful.
Tone: solemn, restrained, dignified.
Pace: slow-medium.
Pauses: longer pauses after important phrases.
Clarity: very clear articulation.
Emotion: respectful, without theatrical drama.

Text:
[вставьте текст для озвучки]

Промпт для обучающего видео

Style instructions:
Natural Russian speech for an educational video.
Voice: calm, friendly, clear.
Tone: explanatory and supportive.
Pace: medium, easy to follow.
Pauses: natural pauses after important explanations.
Clarity: clear pronunciation of terms.
Emotion: friendly but not playful.

Text:
[вставьте текст для озвучки]

Как сделать голос естественнее

Если голос звучит слишком нейтрально или “роботизированно”, попробуйте не просто менять голос, а доработать сам текст и инструкции.

Что помогает:

короткие предложения;
понятная структура текста;
естественная пунктуация;
смысловые паузы;
указание темпа;
указание эмоциональности;
повторная генерация;
разбивка длинного текста на части;
выбор другого голоса.

Плохой вариант:

Прочитай этот текст красиво.
[длинный текст на 5000 знаков]

Лучше:

Style instructions:
Natural Russian speech.
Calm documentary tone.
Medium pace.
Clear pauses between meaning blocks.
No theatrical emotion.
Clear pronunciation of names and dates.

Text:
[короткий фрагмент текста]

Что может пойти не так

Иногда результат получается неидеальным.

Возможные проблемы:

голос звучит слишком ровно;
речь получается слишком быстрой;
интонация не совпадает с задачей;
неправильно читаются фамилии;
странно звучат аббревиатуры;
неверно произносятся даты;
длинные предложения превращаются в монотонный поток;
эмоциональность получается слишком сильной или слишком слабой;
русский текст требует нескольких попыток.

Это не всегда ошибка сервиса. Часто достаточно изменить промпт, разбить текст на части или перегенерировать аудио.

Если проблема в ударении, можно попробовать написать слово так, как оно должно звучать, или заменить фразу. Если проблема в аббревиатуре, лучше расшифровать её. Если голос торопится, добавьте в промпт:

Pace: slower than normal.
Pauses: longer pauses between sentences.
Do not rush.

Чем Google AI Studio отличается от ElevenLabs

Если коротко, Google AI Studio проще воспринимать как инструмент для ровной дикторской озвучки, а ElevenLabs — как сервис для более живого и эмоционального голоса.

В моём тесте Google AI Studio неплохо держал длинный текст, не ускорялся без причины и звучал достаточно аккуратно. Но голос был менее естественным, чем в ElevenLabs.

ElevenLabs дал более живую подачу, лучше справился с интонациями и предложил больше голосов. При этом он оказался капризнее с доступом и имеет более заметные ограничения бесплатного тарифа.

Поэтому вывод такой:

для презентаций, инструкций и документального текста можно спокойно использовать Google AI Studio;
для подкаста, художественного фрагмента или эмоциональной озвучки лучше протестировать ElevenLabs;
для важного проекта стоит сгенерировать один и тот же фрагмент в обоих сервисах и сравнить результат на слух.

Полное сравнение с примерами аудио я сделал в отдельной статье: Генерация качественного аудио для подкаста: сравнение ElevenLabs и Google Gemini.

Как лучше озвучивать длинный текст

Если нужно озвучить большую статью, сценарий или текст для фильма, не вставляйте всё сразу.

Лучше разбить материал на части:

вступление;
первый смысловой блок;
второй смысловой блок;
заключение;
финальная фраза.

Так проще контролировать качество. Если в одном фрагменте ошибка, не придётся заново генерировать весь текст.

Ещё один плюс: отдельные фрагменты удобнее монтировать в видео или подкасте.

Можно ли использовать для памятных и исторических видео

Да, Google AI Studio можно использовать для озвучки памятных роликов, исторических материалов, семейных видео и проектов, связанных с сохранением памяти.

Но для таких тем лучше выбирать спокойный и уважительный стиль. Не стоит делать голос слишком театральным или эмоционально перегруженным. Для исторической памяти лучше работает сдержанная интонация, понятный темп и аккуратные паузы.

Пример настройки:

Style instructions:
Natural Russian speech for a commemorative historical video.
Voice: calm, deep, respectful.
Tone: solemn but restrained.
Pace: slow-medium.
Pauses: meaningful pauses after important phrases.
Clarity: clear pronunciation of names, dates, and places.
Emotion: respectful, without theatrical sadness.

Text:
[вставьте текст для озвучки]

Частые вопросы

Можно ли озвучить текст на русском?

Да, текст можно озвучивать на русском. Для лучшего результата стоит прямо указать в промпте: Natural Russian speech, clear Russian pronunciation, natural pauses.

Почему голоса при preview звучат на английском?

Предпрослушивание голосов может быть на английском, но это не значит, что голос не сможет озвучить русский текст. Выберите подходящий тембр и задайте русскую речь в промпте.

Можно ли сделать два голоса?

Да. Для этого используйте режим Multi-speaker audio и заранее разметьте реплики разных спикеров.

Можно ли скачать аудиофайл?

Да, после генерации аудио можно прослушать и скачать. Формат скачивания может зависеть от текущего интерфейса Google AI Studio.

В каком формате скачивается аудио?

В моём случае результат скачивался в формате WAV. Если интерфейс изменится, формат может отличаться, поэтому лучше проверять это при скачивании файла.

Что лучше: Google AI Studio или ElevenLabs?

По моему тесту, ElevenLabs звучит живее и эмоциональнее, особенно для подкастов и выразительной озвучки. Google AI Studio больше подходит для спокойного дикторского голоса, презентаций, информационных роликов и документальных текстов. Подробное сравнение есть здесь: ElevenLabs и Google Gemini: сравнение генерации голоса.

Как сделать голос менее роботизированным?

Добавьте в промпт больше конкретики: естественная русская речь, спокойный темп, смысловые паузы, чёткая артикуляция, без театральной интонации. Также помогает разбивать текст на короткие фрагменты.

Почему нейросеть неправильно читает ударения?

Такое бывает со сложными фамилиями, названиями, аббревиатурами и редкими словами. Попробуйте переформулировать фразу, расшифровать сокращение или написать слово так, чтобы модель лучше поняла произношение.

Можно ли использовать такую озвучку в видео?

Да, такую озвучку можно использовать для видео, презентаций, подкастов и других проектов. Но перед публикацией стоит проверить актуальные условия использования Google AI Studio и конкретной модели.

Нужен ли VPN?

Доступность Google AI Studio зависит от региона, аккаунта и текущих ограничений сервиса. Если сайт не открывается или инструмент недоступен, это нужно проверять отдельно. В статье я описываю сам процесс работы с инструментом, когда доступ к нему уже есть.

Что почитать дальше

Если вы работаете с видео, голосом, архивными фотографиями или памятными роликами, вам могут быть полезны другие инструкции:

Генерация качественного аудио для подкаста: сравнение ElevenLabs и Google Gemini
Сравнение двух сервисов на одном тексте: качество голоса, русский язык, доступность, ограничения и личные впечатления.
Как оживить фото через Алису: инструкция, промпты, примеры и ограничения
Подойдёт, если нужно быстро превратить обычную фотографию в короткое видео.
Как из старого фото сделать видео с голосом ветерана
Инструкция для памятного ролика, где изображение сочетается с голосовой озвучкой.
Как восстановить архивную фотографию, сделать цветной и добавить плавную анимацию
Полезно, если сначала нужно улучшить старый снимок, а уже потом делать видео.
Как сделать памятное видео, где вы обнимаете ветерана
Более эмоциональный формат для семейной памяти и личных историй.

Краткие итоги

Google AI Studio позволяет быстро сделать дикторскую озвучку без студии, микрофона и сложной обработки звука. Достаточно открыть Text to speech with Gemini, выбрать голос, вставить текст и подробно описать стиль речи. Лучше всего инструмент подходит для закадрового голоса, презентаций, коротких роликов, обучающих материалов, документальных текстов и памятных видео. Главное — не ограничиваться командой “озвучь текст”, а задавать стиль: темп, тон, паузы, эмоциональность и формат подачи.

Если нужен максимально живой и эмоциональный голос, стоит дополнительно протестировать ElevenLabs. Но если задача — сделать спокойную дикторскую озвучку, Google AI Studio вполне справляется, особенно если правильно подготовить текст и промпт. Для русского языка особенно важно проверять фамилии, даты, аббревиатуры и длинные предложения. Если результат получился неидеальным, попробуйте изменить промпт, выбрать другой голос или разбить текст на несколько частей.

Больше моих инструкций по нейросетям, озвучке, фото, видео и цифровой памяти можно найти на сайте медяный.рф и в Telegram-канале «Медяный пишет».