Технологии2026-04-208 мин

Точность распознавания речи: что на неё влияет (WER, шум, акцент)

Точность 98% звучит впечатляюще, но что это значит на практике? Разбираем метрику WER, влияние шума, акцентов и других факторов.

Что такое WER

WER (Word Error Rate) — стандартная метрика точности ASR-систем. Формула:

WER = (Substitutions + Deletions + Insertions) / Total Words × 100%

Где:

Substitutionsслова заменены (сказали «привет», распознано «приют»)
Deletionsпропущены (сказали «как ты дела», распознано «как дела»)
Insertionsлишние (сказали «привет», распознано «привет да»)

WER 2% означает 2 ошибки на каждые 100 слов. На часовой записи (~9000 слов на русском при средней скорости речи) это ~180 ошибок. WER 5% — 450 ошибок. WER 10% — 900 ошибок.

Сравнение по сервисам

СервисWER на чистом русскомНа записи со смартфонаТелефон 8 kHz

|---|---|---|---|

Voxtral V2 (Dicto)2-3%4-5%6-8%
Whisper Large v34-5%6-8%10-12%
Yandex SpeechKit4-6%7-9%11-13%
Google Speech-to-Text5-6%7-9%10-14%
Сбер SaluteSpeech5-7%8-10%12-15%

Цифры варьируются от теста к тесту — но порядок одинаковый.

Факторы, влияющие на точность

1. Качество записи

ИсточникWER на русском

|---|---|

Студийный микрофон в звукопоглощённой комнате2-3%
Качественный USB-микрофон дома3-5%
Смартфон iPhone/Samsung топ-серия4-6%
Смартфон бюджетный6-9%
Встроенный микрофон ноутбука7-12%
Диктофон Sony профессиональный4-6%
Телефонный разговор (8 kHz)8-12%
Запись со старой плёночной кассеты15-25%

Что улучшает:

Микрофон ближе ко рту (10-30 см)
Без эха в комнате (звукопоглощающие панели)
Высокий битрейт записи (MP3 320 kbps или WAV)
Один говорящий за раз

Что портит:

Микрофон на столе в метре от говорящего
Эхо в пустой комнате
Низкий битрейт (MP3 64 kbps)
Фоновая музыка, шум транспорта

2. Скорость речи

Средняя скорость русской речи — 120-150 слов в минуту. Если человек говорит:

90 wpm (медленно, лекция) — WER снижается на 1-2 пункта
120 wpm (нормально) — WER базовый
180 wpm (быстро, например молодёжная речь) — WER возрастает на 2-3 пункта
250+ wpm (скороговорка, чтение по бумажке) — WER может вырасти в 2-3 раза

3. Акцент

Акцент русскогоВлияние на WER

|---|---|

Литературный (Москва, Петербург, СПб)базовый
Сибирский/уральский+0,5-1%
Кубанский/донской+1-2%
Кавказский (армянский, грузинский)+2-4%
Среднеазиатский (узбекский, таджикский)+3-5%
Иностранный (китайский, индийский русский)+5-10%

Модели лучше справляются с акцентами, которые были в обучающих данных. Voxtral V2 видел много русского с акцентами Центральной Азии — для пользователей из РК/Узбекистана/Кыргызстана точность остаётся высокой.

4. Возраст говорящего

ВозрастWER

|---|---|

Дети 4-6 лет+5-10% (нечёткая дикция)
Дети 7-12 лет+2-3%
Подростки 13-18+1%
Взрослые 19-65базовый
Пожилые 65-80+1-2%
Пожилые 80++3-5% (возможные проблемы с дикцией)

5. Эмоциональное состояние

Нейтральная речьбазовый WER
Возбуждённая, быстрая речь+2-4%
Плач, всхлипывания+5-15%
Смех+3-5% (модель путает смех с речью)
Шёпот+10-20% (модели не обучаются на шёпоте)

6. Специальная лексика

Тип лексикиВлияние

|---|---|

Бытоваябазовый
IT-термины (известные)базовый
Медицинская терминология (общая)+2-4%
Узкомедицинская (хирургия, кардиология)+5-10%
Юридическая+3-5%
Научная (физика, биология)+5-10%
Слэнг, мат, разговорные обороты+1-3%

Решение для специальной лексики: словарь терминов в настройках Dicto. Добавьте 30-50 ключевых терминов — точность вырастет на 5-15% именно на этих терминах.

7. Количество спикеров

СпикеровВлияние на WER

|---|---|

1 (монолог)базовый
2 (интервью)базовый
3-4 (групповая дискуссия)+1-2%
5-6 (совещание)+2-3%
10+ (большое собрание)+3-5%

Чем больше спикеров — тем больше шанс перекрытий речи, что снижает точность.

8. Микшинг с музыкой

Если в записи звучит музыка (заставка подкаста, фоновая музыка под голос):

Музыка без вокала фоном тихо+0-1% (модель устойчива)
Громкая музыка под речь+5-10%
Песня с вокалом+10-30% (распознавание пения слабое)

Как улучшить точность

На уровне записи

1.Используйте качественный микрофон
2.Записывайте в тихом помещении
3.Микрофон должен быть на расстоянии 10-30 см от рта
4.Высокий битрейт (MP3 192+ kbps, WAV 16-bit)

На уровне сервиса

1.Используйте словарь специальных терминов
2.Укажите язык явно если запись на чистом одном языке
3.Включите diarization если несколько спикеров
4.Не перегружайте файл — не пытайтесь расшифровать 10-часовое аудио одним куском

На уровне постобработки

1.Используйте AI-проверку грамматики (Grammarly для английского, Орфограммка для русского)
2.Прослушайте подозрительные фрагменты (Dicto показывает confidence score для каждого слова)
3.Поправьте имена собственные и числовые данные вручную

Какая точность нужна для разных задач

ЗадачаМинимальный WER

|---|---|

Личные заметки для себя10-15%
Шоу-ноты подкаста5-10%
Статья в блог5-7%
Цитаты для журналистики3-5%
Юридические документы2-3%
Медицинская документация1-2%

Для большинства задач 95-98% точности Voxtral V2 более чем достаточно. Для критических документов всегда нужна ручная проверка независимо от модели.

Вывод

Точность 98% звучит впечатляюще, но реальная цифра зависит от десятков факторов. Худшее что можно сделать — записать на встроенный микрофон ноутбука в шумном кафе и ожидать 98% — это будет 80-85% и куча правок. Хорошее аудио + Voxtral V2 в Dicto = 96-99% реальной точности.

Попробуйте Dicto бесплатно

180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.

Начать бесплатно