Технологии2026-05-087 мин

Whisper или GPT Voice: какая модель точнее для русского

OpenAI предлагает две модели распознавания: open-source Whisper и закрытый GPT-4o с голосовым модулем. Что лучше для русского?

Контекст: две модели OpenAI для распознавания речи

OpenAI разрабатывает два разных подхода к ASR (Automatic Speech Recognition):

1.Whisper — специализированная open-source модель, релиз 2022, обновления до v3 в 2024-2025
2.GPT-4o Voice — голосовой модуль внутри multimodal GPT-4o, релиз 2024

Это разные архитектуры с разными целями. Сравним их применимость к русскому языку.

Whisper: open-source ASR

Whisper — encoder-decoder Transformer, обученный на 680,000 часах аудио из интернета (включая 7-10% русского). Размеры: tiny (75 МБ), base (140 МБ), small (460 МБ), medium (1.5 ГБ), large (3 ГБ). Запускается локально через Python (faster-whisper) или через готовые приложения (MacWhisper, WhisperX).

Точность на русском (large v3):

Чистая запись: 4-5% WER
Со смартфона: 6-8% WER
Шум: 12-15% WER

Скорость:

CPU (Mac M2): 0.3-0.5x real-time (час обрабатывается 2-3 часа)
GPU (RTX 3060): 5-10x real-time (час за 6-12 минут)
GPU (A100): 30-50x real-time (час за 1-2 минуты)

Цена: 0 ₽ за модель, но нужен компьютер с GPU или мощным CPU.

GPT-4o Voice: универсальная multimodal

GPT-4o (Omni) — единая модель для текста, изображений, аудио и видео. Голосовой модуль работает в двух режимах:

1.Realtime API — стриминг речи в текст с задержкой ~300 мс
2.Audio input — асинхронная транскрипция файла

Точность на русском (GPT-4o-audio-preview):

Чистая запись: 5-7% WER
Со смартфона: 8-10% WER
Шум: 14-18% WER

Скорость: через API — 2-3 минуты на час записи. Realtime — мгновенно (стриминг).

Цена: $6/час аудио ввода + $24/час вывода (если просите модель ещё и ответить голосом). Для чистой транскрипции — ~$6/час = 530 ₽/час = 8,8 ₽/мин.

Сравнение

ПараметрWhisper Large v3GPT-4o Voice

|---|---|---|

Точность на русском95-96%93-95%
Скорость на GPU5-50x real-time~30x real-time
Скорость на CPU0.3-0.5xN/A (только API)
Стоимость0 ₽ + железо8,8 ₽/мин
Локальный запускДаНет (только API)
Stream/realtimeНет (только batch)Да
Multimodal (GPT задачи)НетДа
ЛицензияMIT (свободно)Закрытая, OpenAI ToS

Когда выбирать Whisper

Нужна локальная обработка без интернета (privacy)
Есть мощный компьютер (Mac M-series, GPU NVIDIA)
Большие объёмы — экономия на API
Открытый исходный код для модификаций
Не нужна мультимодальность

Когда выбирать GPT-4o Voice

Realtime голосовые помощники
Multimodal pipeline (аудио → текст → AI-обработка → голос)
Нет своего железа
Готовы платить за удобство API

А какие альтернативы есть для русского?

МодельWER на русЦена/минДоступ

|---|---|---|---|

Voxtral V2 (через Dicto)2-3%0,83 ₽API + UI
Whisper Large v3 (local)4-5%0 ₽ (нужна GPU)Open-source
GPT-4o Voice5-7%8,8 ₽OpenAI API
Yandex SpeechKit4-5%1,2 ₽Yandex Cloud
Сбер SaluteSpeech4-6%0,9 ₽SberCloud

Voxtral V2 даёт лучший результат для русского — на 2-3 пункта точнее Whisper. Объяснение: Voxtral специально дообучен на русском (а Whisper — на 99 языках равно).

Вывод

Для русского: Voxtral V2 > Whisper Large v3 > GPT-4o Voice > Google Speech-to-Text. Если важна локальная обработка — Whisper (бесплатно, но нужна GPU). Если важна высшая точность на русском — Dicto на Voxtral. GPT-4o Voice имеет смысл только для realtime голосовых ассистентов или multimodal-пайплайнов.

Попробуйте Dicto бесплатно

180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.

Начать бесплатно