Технологии2026-02-207 мин

Какую нейросеть выбрать для транскрибации: Whisper, Voxtral или GigaChat

Три главные нейросети для распознавания речи. Сравниваем точность на русском, скорость и стоимость — какую выбрать для ваших задач.

Три гиганта распознавания речи

В 2026 году три нейросети доминируют в транскрибации: Whisper (OpenAI), Voxtral (Mistral AI) и GigaChat/SaluteSpeech (Сбер). Разбираемся, какую выбрать.

OpenAI Whisper

Тип: open-source, можно запустить локально

Точность на русском: 92-95%

Скорость: зависит от GPU (RTX 3090: ~2 мин на час)

Whisper — первая массовая нейросеть для транскрибации. Версия large-v3 поддерживает 99 языков. Можно запустить бесплатно на своём компьютере с GPU.

Плюсы: бесплатно, офлайн, гибко.

Минусы: нужен мощный GPU, нет встроенной diarization (разметки спикеров), базовая пунктуация.

Mistral Voxtral V2

Тип: API (облачный)

Точность на русском: 97-98%

Скорость: ~2 мин на час через API

Цена API: $0.003/мин (~0.28 ₽)

Voxtral V2 — модель от французской Mistral AI. Встроенная diarization, высокая точность на русском, автоматическое определение языка.

Плюсы: лучшая точность на русском, diarization из коробки, быстрый API.

Минусы: только облачный (нельзя запустить локально), платный.

Сбер GigaChat / SaluteSpeech

Тип: API (облачный)

Точность на русском: 90-94%

Скорость: ~3 мин на час

Цена: от 0.48 ₽/15 сек

Российская разработка от Сбера. Три версии: Lite (быстро и дёшево), Pro (баланс), MAX (максимум точности). Данные обрабатываются на серверах в России.

Плюсы: серверы в РФ, хорошая поддержка, интеграция с экосистемой Сбера.

Минусы: точность ниже Voxtral, diarization требует отдельной настройки.

Сравнительная таблица

ПараметрWhisperVoxtral V2GigaChat

|----------|---------|------------|----------|

Точность (RU)92-95%97-98%90-94%
DiarizationНетВстроенОтдельно
ПунктуацияБазоваяПродвинутаяХорошая
ЦенаБесплатно$0.003/мин~0.48₽/15с
Локальный запускДаНетНет
Серверы в РФНетДа

Что выбирает Dicto

Dicto использует Voxtral V2 как основной провайдер — лучшая точность на русском + встроенная diarization. Whisper — запасной вариант (fallback).

Для AI-анализа (саммари, тезисы, action items) используется GPT-4o-mini — оптимальный баланс цены и качества.

Вывод

Для программистов с GPU: Whisper (бесплатно, гибко)
Для бизнеса с фокусом на качество: Voxtral V2 (через Dicto)
Для компаний с требованием серверов в РФ: SaluteSpeech

Попробуйте Dicto бесплатно

180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.

Начать бесплатно