Обзоры2026-05-108 мин

Google Speech-to-Text для русского: обзор и альтернативы

Google Speech-to-Text — один из лидеров мирового рынка распознавания речи. Разбираем, как он работает с русским и стоит ли его использовать в 2026 году.

Что такое Google Speech-to-Text

Google Speech-to-Text — облачный API распознавания речи от Google Cloud. Запущен в 2017, в 2026 году поддерживает 125+ языков, включая русский. Это не готовый сервис «загрузил-получил», а API для разработчиков — нужно писать код или использовать сторонние обёртки.

Точность на русском языке

По данным Google: WER на русском составляет 4-6% на чистом аудио. На практике (наши тесты на 50 часах разнородных записей):

Тип записи	WER Google	WER Voxtral (Dicto)
Студия	5,1%	2,3%
Смартфон	6,8%	4,1%
Телефон 8 kHz	9,4%	6,2%
Шум на улице	14,7%	11,3%

Google уступает специализированным моделям на русском, потому что модель тренирована больше на английском (~50% данных). Для интернациональных проектов с поддержкой 125 языков — Google логичный выбор. Для чистого русского — есть варианты лучше.

Цена

Google Speech-to-Text работает по модели pay-per-use:

Стандартное распознавание: $0.016 за 15 секунд = $0.064 за минуту = ~5,6 ₽/мин
Premium-модель (выше точность): $0.024 за 15 секунд = ~8,4 ₽/мин
С diarization +$0.012 за 15 секунд

Для часа аудио: $3.84-5.76 (~340-510 ₽). Это в 5-7 раз дороже Dicto и в 5 раз дороже Яндекса.

Доступность из РФ в 2026

С 2022 года Google Cloud прекратил приём новых клиентов из России. Существующие аккаунты работают, но оплата возможна только зарубежной картой. Технически API доступен — нужен VPN для управления через консоль и зарубежная карта для оплаты. Это превращает простой сервис в сложный proxy-проект.

Дополнительные сложности:

Юр.лица в РФ не могут заключить договор с Google Cloud напрямую
Закрывающие документы — невозможны (нет российской юрисдикции у договора)
152-ФЗ — формально не соблюдается (серверы в США, ЕС)
DPA по российскому праву — нет

Как использовать в 2026

Три варианта:

1.Реселлеры (Cloud4Y, ITGLOBAL.COM): покупают пакет у Google и перепродают. Цена выше на 30-50%.
2.Через зарубежное юр.лицо: если у вашей компании есть представительство в ЕС/Казахстане/Армении — оформите доступ через него.
3.Не использовать в РФ: для российских проектов выбрать Yandex SpeechKit, Сбер SaluteSpeech или Dicto. Юридически чище и в разы дешевле.

Альтернативы Google для русского

Сервис	WER на рус	Цена/мин	Доступен в РФ
Dicto (Voxtral V2)	2-3%	0,83 ₽	Да
Yandex SpeechKit	4-5%	1,2 ₽	Да
Сбер SaluteSpeech	4-6%	0,9 ₽	Да
Whisper Large v3 (local)	4-5%	0 ₽ (нужна GPU)	Да
Google Speech-to-Text	5-6%	5,6 ₽	Косвенно

Когда Google Speech-to-Text всё-таки имеет смысл

Интернациональный проект с 50+ языками
Уже на Google Cloud (BigQuery, Firebase) — интеграция проще
Нужны узкоспециализированные модели (видеоконтент, медицина) — у Google есть подмодели
Real-time транскрипция (streaming API) — Google один из лучших

Когда выбирать Dicto вместо Google

Российский проект с фокусом на русский язык
Нужна максимальная точность на русском
Бизнес-сценарии с AI-обработкой (саммари, тезисы)
Регуляторные требования (152-ФЗ, серверы в РФ)
Бюджет ограничен — Dicto в 5-7 раз дешевле

Вывод

Google Speech-to-Text в 2026 году для русских проектов — overkill: дороже, юридически сложнее, по точности уступает специализированным русским моделям. Для международных проектов на 50+ языках с реалтайм-стримингом — отличный выбор. Для типичных задач транскрибации на русском — Dicto, Yandex или Сбер выгоднее.

Попробуйте Dicto бесплатно

Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.

Начать бесплатно

Читать дальше

Технологии