Технологии2026-04-208 мин

Точность распознавания речи: что на неё влияет (WER, шум, акцент)

Точность 98% звучит впечатляюще, но что это значит на практике? Разбираем метрику WER, влияние шума, акцентов и других факторов.

Что такое WER

WER (Word Error Rate) — стандартная метрика точности ASR-систем. Формула:

WER = (Substitutions + Deletions + Insertions) / Total Words × 100%

Где:

Substitutions — слова заменены (сказали «привет», распознано «приют»)
Deletions — пропущены (сказали «как ты дела», распознано «как дела»)
Insertions — лишние (сказали «привет», распознано «привет да»)

WER 2% означает 2 ошибки на каждые 100 слов. На часовой записи (~9000 слов на русском при средней скорости речи) это ~180 ошибок. WER 5% — 450 ошибок. WER 10% — 900 ошибок.

Сравнение по сервисам

Сервис	WER на чистом русском	На записи со смартфона	Телефон 8 kHz
Voxtral V2 (Dicto)	2-3%	4-5%	6-8%
Whisper Large v3	4-5%	6-8%	10-12%
Yandex SpeechKit	4-6%	7-9%	11-13%
Google Speech-to-Text	5-6%	7-9%	10-14%
Сбер SaluteSpeech	5-7%	8-10%	12-15%

Цифры варьируются от теста к тесту — но порядок одинаковый.

Факторы, влияющие на точность

1. Качество записи

Источник	WER на русском
Студийный микрофон в звукопоглощённой комнате	2-3%
Качественный USB-микрофон дома	3-5%
Смартфон iPhone/Samsung топ-серия	4-6%
Смартфон бюджетный	6-9%
Встроенный микрофон ноутбука	7-12%
Диктофон Sony профессиональный	4-6%
Телефонный разговор (8 kHz)	8-12%
Запись со старой плёночной кассеты	15-25%

Что улучшает:

Микрофон ближе ко рту (10-30 см)
Без эха в комнате (звукопоглощающие панели)
Высокий битрейт записи (MP3 320 kbps или WAV)
Один говорящий за раз

Что портит:

Микрофон на столе в метре от говорящего
Эхо в пустой комнате
Низкий битрейт (MP3 64 kbps)
Фоновая музыка, шум транспорта

2. Скорость речи

Средняя скорость русской речи — 120-150 слов в минуту. Если человек говорит:

90 wpm (медленно, лекция) — WER снижается на 1-2 пункта
120 wpm (нормально) — WER базовый
180 wpm (быстро, например молодёжная речь) — WER возрастает на 2-3 пункта
250+ wpm (скороговорка, чтение по бумажке) — WER может вырасти в 2-3 раза

3. Акцент

Акцент русского	Влияние на WER
Литературный (Москва, Петербург, СПб)	базовый
Сибирский/уральский	+0,5-1%
Кубанский/донской	+1-2%
Кавказский (армянский, грузинский)	+2-4%
Среднеазиатский (узбекский, таджикский)	+3-5%
Иностранный (китайский, индийский русский)	+5-10%

Модели лучше справляются с акцентами, которые были в обучающих данных. Voxtral V2 видел много русского с акцентами Центральной Азии — для пользователей из РК/Узбекистана/Кыргызстана точность остаётся высокой.

4. Возраст говорящего

Возраст	WER
Дети 4-6 лет	+5-10% (нечёткая дикция)
Дети 7-12 лет	+2-3%
Подростки 13-18	+1%
Взрослые 19-65	базовый
Пожилые 65-80	+1-2%
Пожилые 80+	+3-5% (возможные проблемы с дикцией)

5. Эмоциональное состояние

Нейтральная речь — базовый WER
Возбуждённая, быстрая речь — +2-4%
Плач, всхлипывания — +5-15%
Смех — +3-5% (модель путает смех с речью)
Шёпот — +10-20% (модели не обучаются на шёпоте)

6. Специальная лексика

Тип лексики	Влияние
Бытовая	базовый
IT-термины (известные)	базовый
Медицинская терминология (общая)	+2-4%
Узкомедицинская (хирургия, кардиология)	+5-10%
Юридическая	+3-5%
Научная (физика, биология)	+5-10%
Слэнг, мат, разговорные обороты	+1-3%

Решение для специальной лексики: словарь терминов в настройках Dicto. Добавьте 30-50 ключевых терминов — точность вырастет на 5-15% именно на этих терминах.

7. Количество спикеров

Спикеров	Влияние на WER
1 (монолог)	базовый
2 (интервью)	базовый
3-4 (групповая дискуссия)	+1-2%
5-6 (совещание)	+2-3%
10+ (большое собрание)	+3-5%

Чем больше спикеров — тем больше шанс перекрытий речи, что снижает точность.

8. Микшинг с музыкой

Если в записи звучит музыка (заставка подкаста, фоновая музыка под голос):

Музыка без вокала фоном тихо — +0-1% (модель устойчива)
Громкая музыка под речь — +5-10%
Песня с вокалом — +10-30% (распознавание пения слабое)

Как улучшить точность

На уровне записи

1.Используйте качественный микрофон
2.Записывайте в тихом помещении
3.Микрофон должен быть на расстоянии 10-30 см от рта
4.Высокий битрейт (MP3 192+ kbps, WAV 16-bit)

На уровне сервиса

1.Используйте словарь специальных терминов
2.Укажите язык явно если запись на чистом одном языке
3.Включите diarization если несколько спикеров
4.Не перегружайте файл — не пытайтесь расшифровать 10-часовое аудио одним куском

На уровне постобработки

1.Используйте AI-проверку грамматики (Grammarly для английского, Орфограммка для русского)
2.Прослушайте подозрительные фрагменты (Dicto показывает confidence score для каждого слова)
3.Поправьте имена собственные и числовые данные вручную

Какая точность нужна для разных задач

Задача	Минимальный WER
Личные заметки для себя	10-15%
Шоу-ноты подкаста	5-10%
Статья в блог	5-7%
Цитаты для журналистики	3-5%
Юридические документы	2-3%
Медицинская документация	1-2%

Для большинства задач 95-98% точности Voxtral V2 более чем достаточно. Для критических документов всегда нужна ручная проверка независимо от модели.

Вывод

Точность 98% звучит впечатляюще, но реальная цифра зависит от десятков факторов. Худшее что можно сделать — записать на встроенный микрофон ноутбука в шумном кафе и ожидать 98% — это будет 80-85% и куча правок. Хорошее аудио + Voxtral V2 в Dicto = 96-99% реальной точности.

Попробуйте Dicto бесплатно

Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.

Начать бесплатно

Читать дальше

Гайды