Whisper или GPT Voice: какая модель точнее для русского
OpenAI предлагает две модели распознавания: open-source Whisper и закрытый GPT-4o с голосовым модулем. Что лучше для русского?
Контекст: две модели OpenAI для распознавания речи
OpenAI разрабатывает два разных подхода к ASR (Automatic Speech Recognition):
Это разные архитектуры с разными целями. Сравним их применимость к русскому языку.
Whisper: open-source ASR
Whisper — encoder-decoder Transformer, обученный на 680,000 часах аудио из интернета (включая 7-10% русского). Размеры: tiny (75 МБ), base (140 МБ), small (460 МБ), medium (1.5 ГБ), large (3 ГБ). Запускается локально через Python (faster-whisper) или через готовые приложения (MacWhisper, WhisperX).
Точность на русском (large v3):
Скорость:
Цена: 0 ₽ за модель, но нужен компьютер с GPU или мощным CPU.
GPT-4o Voice: универсальная multimodal
GPT-4o (Omni) — единая модель для текста, изображений, аудио и видео. Голосовой модуль работает в двух режимах:
Точность на русском (GPT-4o-audio-preview):
Скорость: через API — 2-3 минуты на час записи. Realtime — мгновенно (стриминг).
Цена: $6/час аудио ввода + $24/час вывода (если просите модель ещё и ответить голосом). Для чистой транскрипции — ~$6/час = 530 ₽/час = 8,8 ₽/мин.
Сравнение
|---|---|---|
Когда выбирать Whisper
Когда выбирать GPT-4o Voice
А какие альтернативы есть для русского?
|---|---|---|---|
Voxtral V2 даёт лучший результат для русского — на 2-3 пункта точнее Whisper. Объяснение: Voxtral специально дообучен на русском (а Whisper — на 99 языках равно).
Вывод
Для русского: Voxtral V2 > Whisper Large v3 > GPT-4o Voice > Google Speech-to-Text. Если важна локальная обработка — Whisper (бесплатно, но нужна GPU). Если важна высшая точность на русском — Dicto на Voxtral. GPT-4o Voice имеет смысл только для realtime голосовых ассистентов или multimodal-пайплайнов.
Попробуйте Dicto бесплатно
180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.
Начать бесплатно