Что такое WER
WER (Word Error Rate) — стандартная метрика точности ASR-систем. Формула:
WER = (Substitutions + Deletions + Insertions) / Total Words × 100%
Где:
●Substitutions — слова заменены (сказали «привет», распознано «приют»)
●Deletions — пропущены (сказали «как ты дела», распознано «как дела»)
●Insertions — лишние (сказали «привет», распознано «привет да»)
WER 2% означает 2 ошибки на каждые 100 слов. На часовой записи (~9000 слов на русском при средней скорости речи) это ~180 ошибок. WER 5% — 450 ошибок. WER 10% — 900 ошибок.
Сравнение по сервисам
СервисWER на чистом русскомНа записи со смартфонаТелефон 8 kHz
|---|---|---|---|
Voxtral V2 (Dicto)2-3%4-5%6-8%
Whisper Large v34-5%6-8%10-12%
Yandex SpeechKit4-6%7-9%11-13%
Google Speech-to-Text5-6%7-9%10-14%
Сбер SaluteSpeech5-7%8-10%12-15%
Цифры варьируются от теста к тесту — но порядок одинаковый.
Факторы, влияющие на точность
1. Качество записи
ИсточникWER на русском
|---|---|
Студийный микрофон в звукопоглощённой комнате2-3%
Качественный USB-микрофон дома3-5%
Смартфон iPhone/Samsung топ-серия4-6%
Смартфон бюджетный6-9%
Встроенный микрофон ноутбука7-12%
Диктофон Sony профессиональный4-6%
Телефонный разговор (8 kHz)8-12%
Запись со старой плёночной кассеты15-25%
Что улучшает:
●Микрофон ближе ко рту (10-30 см)
●Без эха в комнате (звукопоглощающие панели)
●Высокий битрейт записи (MP3 320 kbps или WAV)
●Один говорящий за раз
Что портит:
●Микрофон на столе в метре от говорящего
●Эхо в пустой комнате
●Низкий битрейт (MP3 64 kbps)
●Фоновая музыка, шум транспорта
2. Скорость речи
Средняя скорость русской речи — 120-150 слов в минуту. Если человек говорит:
●90 wpm (медленно, лекция) — WER снижается на 1-2 пункта
●120 wpm (нормально) — WER базовый
●180 wpm (быстро, например молодёжная речь) — WER возрастает на 2-3 пункта
●250+ wpm (скороговорка, чтение по бумажке) — WER может вырасти в 2-3 раза
3. Акцент
Акцент русскогоВлияние на WER
|---|---|
Литературный (Москва, Петербург, СПб)базовый
Сибирский/уральский+0,5-1%
Кубанский/донской+1-2%
Кавказский (армянский, грузинский)+2-4%
Среднеазиатский (узбекский, таджикский)+3-5%
Иностранный (китайский, индийский русский)+5-10%
Модели лучше справляются с акцентами, которые были в обучающих данных. Voxtral V2 видел много русского с акцентами Центральной Азии — для пользователей из РК/Узбекистана/Кыргызстана точность остаётся высокой.
4. Возраст говорящего
ВозрастWER
|---|---|
Дети 4-6 лет+5-10% (нечёткая дикция)
Дети 7-12 лет+2-3%
Подростки 13-18+1%
Взрослые 19-65базовый
Пожилые 65-80+1-2%
Пожилые 80++3-5% (возможные проблемы с дикцией)
5. Эмоциональное состояние
●Нейтральная речь — базовый WER
●Возбуждённая, быстрая речь — +2-4%
●Плач, всхлипывания — +5-15%
●Смех — +3-5% (модель путает смех с речью)
●Шёпот — +10-20% (модели не обучаются на шёпоте)
6. Специальная лексика
Тип лексикиВлияние
|---|---|
Бытоваябазовый
IT-термины (известные)базовый
Медицинская терминология (общая)+2-4%
Узкомедицинская (хирургия, кардиология)+5-10%
Юридическая+3-5%
Научная (физика, биология)+5-10%
Слэнг, мат, разговорные обороты+1-3%
Решение для специальной лексики: словарь терминов в настройках Dicto. Добавьте 30-50 ключевых терминов — точность вырастет на 5-15% именно на этих терминах.
7. Количество спикеров
СпикеровВлияние на WER
|---|---|
1 (монолог)базовый
2 (интервью)базовый
3-4 (групповая дискуссия)+1-2%
5-6 (совещание)+2-3%
10+ (большое собрание)+3-5%
Чем больше спикеров — тем больше шанс перекрытий речи, что снижает точность.
8. Микшинг с музыкой
Если в записи звучит музыка (заставка подкаста, фоновая музыка под голос):
●Музыка без вокала фоном тихо — +0-1% (модель устойчива)
●Громкая музыка под речь — +5-10%
●Песня с вокалом — +10-30% (распознавание пения слабое)
Как улучшить точность
На уровне записи
1.Используйте качественный микрофон
2.Записывайте в тихом помещении
3.Микрофон должен быть на расстоянии 10-30 см от рта
4.Высокий битрейт (MP3 192+ kbps, WAV 16-bit)
На уровне сервиса
1.Используйте словарь специальных терминов
2.Укажите язык явно если запись на чистом одном языке
3.Включите diarization если несколько спикеров
4.Не перегружайте файл — не пытайтесь расшифровать 10-часовое аудио одним куском
На уровне постобработки
1.Используйте AI-проверку грамматики (Grammarly для английского, Орфограммка для русского)
2.Прослушайте подозрительные фрагменты (Dicto показывает confidence score для каждого слова)
3.Поправьте имена собственные и числовые данные вручную
Какая точность нужна для разных задач
ЗадачаМинимальный WER
|---|---|
Личные заметки для себя10-15%
Шоу-ноты подкаста5-10%
Статья в блог5-7%
Цитаты для журналистики3-5%
Юридические документы2-3%
Медицинская документация1-2%
Для большинства задач 95-98% точности Voxtral V2 более чем достаточно. Для критических документов всегда нужна ручная проверка независимо от модели.
Вывод
Точность 98% звучит впечатляюще, но реальная цифра зависит от десятков факторов. Худшее что можно сделать — записать на встроенный микрофон ноутбука в шумном кафе и ожидать 98% — это будет 80-85% и куча правок. Хорошее аудио + Voxtral V2 в Dicto = 96-99% реальной точности.