Обзоры2026-05-108 мин

Google Speech-to-Text для русского: обзор и альтернативы

Google Speech-to-Text — один из лидеров мирового рынка распознавания речи. Разбираем, как он работает с русским и стоит ли его использовать в 2026 году.

Что такое Google Speech-to-Text

Google Speech-to-Text — облачный API распознавания речи от Google Cloud. Запущен в 2017, в 2026 году поддерживает 125+ языков, включая русский. Это не готовый сервис «загрузил-получил», а API для разработчиков — нужно писать код или использовать сторонние обёртки.

Точность на русском языке

По данным Google: WER на русском составляет 4-6% на чистом аудио. На практике (наши тесты на 50 часах разнородных записей):

Тип записиWER GoogleWER Voxtral (Dicto)

|---|---|---|

Студия5,1%2,3%
Смартфон6,8%4,1%
Телефон 8 kHz9,4%6,2%
Шум на улице14,7%11,3%

Google уступает специализированным моделям на русском, потому что модель тренирована больше на английском (~50% данных). Для интернациональных проектов с поддержкой 125 языков — Google логичный выбор. Для чистого русского — есть варианты лучше.

Цена

Google Speech-to-Text работает по модели pay-per-use:

Стандартное распознавание: $0.016 за 15 секунд = $0.064 за минуту = ~5,6 ₽/мин
Premium-модель (выше точность): $0.024 за 15 секунд = ~8,4 ₽/мин
С diarization +$0.012 за 15 секунд

Для часа аудио: $3.84-5.76 (~340-510 ₽). Это в 5-7 раз дороже Dicto и в 5 раз дороже Яндекса.

Доступность из РФ в 2026

С 2022 года Google Cloud прекратил приём новых клиентов из России. Существующие аккаунты работают, но оплата возможна только зарубежной картой. Технически API доступен — нужен VPN для управления через консоль и зарубежная карта для оплаты. Это превращает простой сервис в сложный proxy-проект.

Дополнительные сложности:

Юр.лица в РФ не могут заключить договор с Google Cloud напрямую
Закрывающие документы — невозможны (нет российской юрисдикции у договора)
152-ФЗ — формально не соблюдается (серверы в США, ЕС)
DPA по российскому праву — нет

Как использовать в 2026

Три варианта:

1.Реселлеры (Cloud4Y, ITGLOBAL.COM): покупают пакет у Google и перепродают. Цена выше на 30-50%.
2.Через зарубежное юр.лицо: если у вашей компании есть представительство в ЕС/Казахстане/Армении — оформите доступ через него.
3.Не использовать в РФ: для российских проектов выбрать Yandex SpeechKit, Сбер SaluteSpeech или Dicto. Юридически чище и в разы дешевле.

Альтернативы Google для русского

СервисWER на русЦена/минДоступен в РФ

|---|---|---|---|

Dicto (Voxtral V2)2-3%0,83 ₽Да
Yandex SpeechKit4-5%1,2 ₽Да
Сбер SaluteSpeech4-6%0,9 ₽Да
Whisper Large v3 (local)4-5%0 ₽ (нужна GPU)Да
Google Speech-to-Text5-6%5,6 ₽Косвенно

Когда Google Speech-to-Text всё-таки имеет смысл

Интернациональный проект с 50+ языками
Уже на Google Cloud (BigQuery, Firebase) — интеграция проще
Нужны узкоспециализированные модели (видеоконтент, медицина) — у Google есть подмодели
Real-time транскрипция (streaming API) — Google один из лучших

Когда выбирать Dicto вместо Google

Российский проект с фокусом на русский язык
Нужна максимальная точность на русском
Бизнес-сценарии с AI-обработкой (саммари, тезисы)
Регуляторные требования (152-ФЗ, серверы в РФ)
Бюджет ограничен — Dicto в 5-7 раз дешевле

Вывод

Google Speech-to-Text в 2026 году для русских проектов — overkill: дороже, юридически сложнее, по точности уступает специализированным русским моделям. Для международных проектов на 50+ языках с реалтайм-стримингом — отличный выбор. Для типичных задач транскрибации на русском — Dicto, Yandex или Сбер выгоднее.

Попробуйте Dicto бесплатно

180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.

Начать бесплатно