Перед тем как перейти к самым лучшим бесплатным нейросетям для озвучки текста (и их сравнению), хочу уточнить одну простую вещь. Текст для подкаста, промпт с описанием стиля речи, эмоций, пауз и даже инструкции для генерации сегодня можно без всяких проблем подготовить в ChatGPT, Gemini или любой другой языковой модели на ваш вкус. Описываете задачу и получаете готовые формулировки, которые всегда можно подправить вручную. Настоящая сложность начинается дальше – когда нужно получить адекватное звучание, а не «робота, который читает текст».
В этом материале я сравниваю два сервиса, которые чаще всего используют для генерации голоса под подкасты и длинные диалоги/монологи: ElevenLabs и Google Gemini в AI Studio на модели gemini-2.5-flash-preview-tts. Тест проводился на одном и том же тексте, без адаптации под конкретный сервис, чтобы сравнение было честным.
Ранее я уже писал подробную статью по созданию дикторского голоса в Google AI Studio. Если вам нужно более подробная инструкция и разбор интерфейса, то вот ссылка: https://медяный.рф/как-создать-дикторский-голос-в-google-ai-studio-про/. Здесь же мы сравним данную нейросеть со своим прямым конкурентом ElevenLabs.
Google Gemini в AI Studio
Начну с Google Gemini. В России Google AI Studio официально не работает, поэтому для доступа нужны сервисы по обходу блокировок. Это стоит учитывать заранее.
Работа с сервисом устроена максимально просто. Мы вставляем текст, указываем Style instructions, выбираем голос и запускаем генерацию. Описание стиля удобно заранее сформулировать в ChatGPT или другой нейросети, просто перечислив свои пожелания: темп речи, тон, уровень эмоциональности, паузы.

Выбор голосов есть, но он не очень большой. Превью голосов звучит на английском языке, но это не проблема – итоговая озвучка всё равно будет на русском. На выходе мы получаем один аудиофайл в формате WAV.
Чтобы получить результат, который меня устроил, пришлось несколько раз перегенерировать аудио. Зато жёстких ограничений на количество генераций я не заметил, можно спокойно экспериментировать.
По звучанию Gemini хорошо держит длинный текст, не ускоряется без причины и не пытается показать эмоциональную эмоциональность. Хотя небольшие недочёты в голосе всё же могут быть.
ElevenLabs
Теперь про ElevenLabs. С доступом ситуация похожая, но как мне по немного сложнее. В России сервис тоже официально не работает, и он заметно более привередлив к сервисам по обходу блокировок. Даже если у вас получится открыть нейронку, она может отказаться работать на бесплатном тарифе с вашим сервисом из трёх букв. Не каждый вариант будет работать стабильно.
Вот одна из самых частых ошибок "Unusual activity detected...". Решение здесь одно – подключаться к другому серверу или менять ваш VPN.

Зато по возможностям настройки ElevenLabs заметно интереснее. Здесь доступно несколько моделей: Eleven v3 (alpha), Eleven Multilingual v2 и Eleven Flash v2.5. Я протестировал все три, и по качеству звучания мне больше всего понравилась Eleven v3 (alpha). Хотя Multilingual v2 даёт больше параметров ручной настройки, по факту голос в v3 звучит живее и эмоциональнее.

У Eleven v3 (alpha) есть полезная функция Enhance (alpha). Если её включить, сервис сам предлагает эмоции перед абзацами, с которыми будет озвучиваться текст. Это удобно, если не хочется вручную размечать сценарий.
Выбор голосов здесь значительно шире, чем у Google. Можно подобрать вариант практически под любую задачу. Выбор голоса на английском языке тоже не критичен – русская речь генерируется вполне корректно.
На выходе ElevenLabs предлагает сразу два варианта аудио в формате MP3. В бесплатной версии доступно 10 000 кредитов в месяц. Для понимания масштаба: мой текст длительностью около двух минут потратил чуть больше 1600 кредитов.
Сравнение и впечатления
Ниже размещаю два аудиоплеера с результатами генерации обоих сервисов. Текст одинаковый, постобработки нет. Для честности уточню, что у Google есть более продвинутая модель Gemini 2.5 Pro Preview TTS. Но поскольку в начале статьи я писал про бесплатные нейросети, то сравнивать мы будем именно то, что не просит денег за наши генерации. Хоть и с ограничениями.
На мой взгляд, ни одна нейросеть не звучит как человек, но ElevenLabs довольно близка к этому. Она звучит живее, эмоциональнее и не ошибается или почти не ошибается в интонациях. Да, сервис более капризный с доступом, но по качеству результата он мне понравился больше. Google Gemini – тоже неплох, но голос звучит чуть менее естественно. В целом, оцениваю оба решения на оценку “хорошо”.
А если вам интересны такие разборы и честные сравнения без рекламных списков и громких обещаний, подписывайтесь на мой Telegram-канал «Медяный пишет». Там я делюсь только тем, что сам проверяю и использую в реальной работе.








