Как создать дикторский голос в Google AI Studio: простая инструкция

Аудио и голос

Нужна качественная озвучка для видео, презентации или подкаста? В Google AI Studio можно быстро получить естественный русский голос, который подходит для документального или информационного стиля. Делюсь подробной и понятной инструкцией, как создать дикторский голос с помощью ИИ и правильно настроить модель.

1. Откройте Google AI Studio

  • Перейдите по адресу:
    https://aistudio.google.com
    Авторизуйтесь под своим Google-аккаунтом. Без входа сервис работать не будет.
  • В верхнем меню выберите: Text to speech with Gemini
    Откроется окно, где можно задавать текст и параметры для генерации аудио.
Пример настройки Ai Studio

2. Выберите режим генерации (Mode)

В разделе Mode есть два режима генерации озвучки Single-speaker audio (монолог одного героя) и Multi-speaker audio (диалога двух персонажей). При выборе последнего будет нужно указать какую реплику озвучивает Speaker 1, а какую Speaker 2.

3. Выберите голос (Voice)

Это обязательный этап. В панели настроек появится список доступных голосов. Выберите нужный вариант – мужской или женский. Можно предварительно прослушать каждый и выбрать тот, который больше всего подходит к вашему тексту. Не пугайтесь, что они все говорят на английском. Это нормально и дальше будет русский.

4. Настройте стиль голоса через промпт

Самый надёжный способ получить нужное звучание – задать голосовые параметры прямо в тексте промпта. Ниже пример, который подходит для документальной или официальной озвучки:

Style instructions:
Natural Russian speech suitable for documentary narration.
Voice: calm, neutral, ближе к мужскому.
Tone: уважительный, серьёзный.
Speed: 1.0
Pauses: лёгкие смысловые паузы.
Clarity: чёткая артикуляция, плавная интонация.

Text:
(здесь нужно вставить текст, который вы хотите озвучить). Например,
«Общероссийское общественное движение по увековечению памяти погибших при защите Отечества “Поисковое движение России” было создано в апреле 2013 года…»

5. Запустите генерацию

Нажмите Run.
Через несколько секунд вы получите готовый аудиофайл (в формате WAV), который можно прослушать и скачать.

Пример того, что получилось у меня

6. При необходимости скорректируйте стиль

Если голос звучит слишком ровно или слишком эмоционально, просто уточните параметры:

  • уменьшите скорость: speed 0.9
  • измените глубину голоса: lower pitch
  • добавьте подробное описание стиля: more documentary tone, more authoritative

Повторная генерация обычно занимает несколько секунд.


Хотите больше инструкций по работе с ИИ, нейросетями, озвучкой, восстановлением фото и созданием контента? Подписывайтесь на мой Telegram-канал «Медяный пишет» – там регулярно выходят новые материалы и примеры реальной работы с технологиями.

Оцените статью
Цифровая память и нейросети | блог Алексея Медяного