Генерация качественного аудио для подкаста: сравнение ElevenLabs и Google Gemini

нейросеть для генерации голоса и речи Аудио и голос

Перед тем как перейти к самым лучшим бесплатным нейросетям для озвучки текста (и их сравнению), хочу уточнить одну простую вещь. Текст для подкаста, промпт с описанием стиля речи, эмоций, пауз и даже инструкции для генерации сегодня можно без всяких проблем подготовить в ChatGPT, Gemini или любой другой языковой модели на ваш вкус. Описываете задачу и получаете готовые формулировки, которые всегда можно подправить вручную. Настоящая сложность начинается дальше – когда нужно получить адекватное звучание, а не «робота, который читает текст».

В этом материале я сравниваю два сервиса, которые чаще всего используют для генерации голоса под подкасты и длинные диалоги/монологи: ElevenLabs и Google Gemini в AI Studio на модели gemini-2.5-flash-preview-tts. Тест проводился на одном и том же тексте, без адаптации под конкретный сервис, чтобы сравнение было честным.

Ранее я уже писал подробную статью по созданию дикторского голоса в Google AI Studio. Если вам нужно более подробная инструкция и разбор интерфейса, то вот ссылка: https://медяный.рф/как-создать-дикторский-голос-в-google-ai-studio-про/. Здесь же мы сравним данную нейросеть со своим прямым конкурентом ElevenLabs.

Google Gemini в AI Studio

Начну с Google Gemini. В России Google AI Studio официально не работает, поэтому для доступа нужны сервисы по обходу блокировок. Это стоит учитывать заранее.

Работа с сервисом устроена максимально просто. Мы вставляем текст, указываем Style instructions, выбираем голос и запускаем генерацию. Описание стиля удобно заранее сформулировать в ChatGPT или другой нейросети, просто перечислив свои пожелания: темп речи, тон, уровень эмоциональности, паузы.

Интерфейс Google AI Studio

Выбор голосов есть, но он не очень большой. Превью голосов звучит на английском языке, но это не проблема – итоговая озвучка всё равно будет на русском. На выходе мы получаем один аудиофайл в формате WAV.

Чтобы получить результат, который меня устроил, пришлось несколько раз перегенерировать аудио. Зато жёстких ограничений на количество генераций я не заметил, можно спокойно экспериментировать.

По звучанию Gemini хорошо держит длинный текст, не ускоряется без причины и не пытается показать эмоциональную эмоциональность. Хотя небольшие недочёты в голосе всё же могут быть.

ElevenLabs

Теперь про ElevenLabs. С доступом ситуация похожая, но как мне по немного сложнее. В России сервис тоже официально не работает, и он заметно более привередлив к сервисам по обходу блокировок. Даже если у вас получится открыть нейронку, она может отказаться работать на бесплатном тарифе с вашим сервисом из трёх букв. Не каждый вариант будет работать стабильно.

Вот одна из самых частых ошибок "Unusual activity detected...". Решение здесь одно – подключаться к другому серверу или менять ваш VPN.

Free tier usage disabled. We’ve temporarily disabled free access from your connection due to unusually high activity from the same IP address…

Зато по возможностям настройки ElevenLabs заметно интереснее. Здесь доступно несколько моделей: Eleven v3 (alpha), Eleven Multilingual v2 и Eleven Flash v2.5. Я протестировал все три, и по качеству звучания мне больше всего понравилась Eleven v3 (alpha). Хотя Multilingual v2 даёт больше параметров ручной настройки, по факту голос в v3 звучит живее и эмоциональнее.

Интерфейс ElevenLabs v3 (alpha)

У Eleven v3 (alpha) есть полезная функция Enhance (alpha). Если её включить, сервис сам предлагает эмоции перед абзацами, с которыми будет озвучиваться текст. Это удобно, если не хочется вручную размечать сценарий.

Выбор голосов здесь значительно шире, чем у Google. Можно подобрать вариант практически под любую задачу. Выбор голоса на английском языке тоже не критичен – русская речь генерируется вполне корректно.

На выходе ElevenLabs предлагает сразу два варианта аудио в формате MP3. В бесплатной версии доступно 10 000 кредитов в месяц. Для понимания масштаба: мой текст длительностью около двух минут потратил чуть больше 1600 кредитов.

Сравнение и впечатления

Ниже размещаю два аудиоплеера с результатами генерации обоих сервисов. Текст одинаковый, постобработки нет. Для честности уточню, что у Google есть более продвинутая модель Gemini 2.5 Pro Preview TTS. Но поскольку в начале статьи я писал про бесплатные нейросети, то сравнивать мы будем именно то, что не просит денег за наши генерации. Хоть и с ограничениями.

Версия от ElevenLabs
Версия от Google AI Studio

На мой взгляд, ни одна нейросеть не звучит как человек, но ElevenLabs довольно близка к этому. Она звучит живее, эмоциональнее и не ошибается или почти не ошибается в интонациях. Да, сервис более капризный с доступом, но по качеству результата он мне понравился больше. Google Gemini – тоже неплох, но голос звучит чуть менее естественно. В целом, оцениваю оба решения на оценку “хорошо”.

А если вам интересны такие разборы и честные сравнения без рекламных списков и громких обещаний, подписывайтесь на мой Telegram-канал «Медяный пишет». Там я делюсь только тем, что сам проверяю и использую в реальной работе.

Оцените статью
Цифровая память и нейросети | блог Алексея Медяного