Распознавание речи

Распознавание речи в текст онлайн — ASR на нейросети

Распознавание речи (ASR — Automatic Speech Recognition) — автоматическое преобразование звуковой речи в текст с помощью нейронных сетей. В отличие от простых голосовых команд (Siri, Алиса), ASR-движки для транскрибации обрабатывают длинные записи любой тематики с высокой точностью. Dicto использует Voxtral — foundation-модель поколения 2025, обученную на >1 млн часов многоязычного аудио, достигающую 98% точности на русском языке.

Распознать речь бесплатно

Без карты · бесплатная проба при регистрации

Процесс

Как это работает

/01

Загрузите аудио или видео

Поддерживаются MP3, WAV, FLAC, OGG, M4A, AAC, WebM, MP4, MOV. Лимит 500 МБ и 3 часа длительности. Работает также с публичными ссылками на YouTube, VK Video, Rutube, OK и Яндекс.Дзен — аудио скачивается автоматически. Предварительная обработка звука (нормализация уровня, шумоподавление) запускается автоматически.

/02

ASR-модель анализирует аудиопоток

Voxtral разбивает аудио на фрагменты, прогоняет через encoder-decoder архитектуру и предсказывает наиболее вероятную последовательность токенов. Это не словарный поиск, а контекстное предсказание — модель «понимает» смысл фразы и достраивает плохо слышимые слова. Параллельно: VAD (Voice Activity Detection) убирает паузы, diarization разделяет спикеров, языковая модель расставляет пунктуацию.

/03

Текст с AI-анализом в браузере

Результат открывается в редакторе с таймкодами и цветовой разметкой спикеров. AI добавляет саммари за 30 секунд, ключевые тезисы и action items. Экспорт в TXT, SRT, DOCX. RAG-чат по содержимому: задайте вопрос — «когда упоминали дедлайн?» — и получите цитату с точной минутой.

Преимущества

Что вы получаете

✓Точность 98% на русском языке — измеренная через WER (Word Error Rate) на контрольных датасетах

✓ASR на foundation-модели Voxtral — превосходит Whisper Large v3 на 2-3% по WER на русских записях

✓13 языков с автоопределением — не нужно выбирать язык вручную при загрузке

✓Распознавание до 10 спикеров (diarization) — разделение голосов с цветовой разметкой

✓Скорость 2 минуты на 1 час аудио — ASR работает на выделенных GPU-серверах в облаке

✓Автоматическое шумоподавление и нормализация — улучшает точность на плохих записях на 3-8%

✓RAG-чат по тексту транскрипции — поиск по содержимому с цитатами и таймкодами

✓Экспорт в TXT, SRT, DOCX — совместимо с любыми редакторами и CMS

✓REST API для разработчиков — интеграция ASR в свои приложения

✓Бесплатная проба при регистрации — 30 минут и AI-разбор, без карты и автоматических подписок

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

30 минут на пробу при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

990 ₽/мес

30 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QЧто такое ASR и чем оно отличается от распознавания голоса в телефоне?

▾

ASR (Automatic Speech Recognition) — технология преобразования непрерывной речи в текст. Голосовые ассистенты (Siri, Алиса, Google Assistant) тоже используют ASR, но заточены под короткие команды (5-15 слов) с фиксированным словарём. ASR-движки для транскрибации обучены на длинных монологах и диалогах любой тематики, с профессиональной терминологией и разными акцентами. Dicto использует foundation-модель Voxtral, обученную на >1 млн часов аудио.

QНасколько точно распознавание речи на русском языке?

▾

На студийных и микрофонных записях без шума — WER менее 2%, то есть точность >98%. На записях с телефона или ноутбука — WER 3-5% (точность 95-97%). На конференц-звонках с эхом — WER 6-10% (точность 90-94%). Для измерения используется стандарт WER (Word Error Rate): отношение количества неверно распознанных слов к общему количеству. Отраслевой порог «профессионального» ASR — WER < 5%.

QКакие языки поддерживает система распознавания?

▾

13 языков с автоопределением: русский, английский, немецкий, французский, испанский, итальянский, португальский, китайский (мандаринский), японский, казахский, украинский, белорусский, польский. Автоопределение работает с точностью >99% при длительности записи от 30 секунд. Смешанные записи (code-switching) поддерживаются — точность на переключениях снижается на 3-5%.

QМожно ли использовать распознавание речи в режиме реального времени?

▾

Текущая версия Dicto работает в оффлайн-режиме: файл загружается и обрабатывается целиком. Real-time ASR (потоковое распознавание) запланировано в дорожной карте. Если вам нужен real-time ASR прямо сейчас, рассмотрите Yandex SpeechKit Streaming или AssemblyAI Realtime API — у нас будет сравнительная статья. Для большинства задач — интервью, вебинары, лекции — оффлайн-режим удобнее: нет пропусков из-за задержки сети.

QЕсть ли API для интеграции распознавания речи в свои приложения?

▾

Да. REST API доступен на тарифах Старт и Про. Отправляете POST-запрос с файлом или URL, получаете task_id, опрашиваете статус и скачиваете результат в JSON (текст + таймкоды + спикеры). Документация: https://dicto.pro/docs. Webhook-нотификации по завершении задачи — без необходимости поллинга. Для нестандартных объёмов или SLA-требований — dicto.pro@yandex.ru.

QКак ASR справляется с акцентами и диалектами?

▾

Voxtral обучена на разнообразном русскоязычном аудио, включая региональные акценты (кавказский, сибирский, прибалтийский). Точность на стандартном московском произношении — 98%, на выраженном региональном акценте — 93-96%. Сильный иностранный акцент (нерусскоязычный спикер говорит по-русски) снижает точность до 88-92%. Узкоспециализированные термины (медицина, юриспруденция, IT) можно добавить в кастомный словарь в настройках.

QВ чём разница между Voxtral, Whisper и YandexSpeechKit?

▾

Whisper — open-source модель OpenAI, требует локальной установки с GPU для приемлемой скорости, нет UI и дополнительных функций. YandexSpeechKit — API без пользовательского интерфейса, нужно писать код, хорошо оптимизирован для русского. Voxtral (Dicto) — готовый сервис с интерфейсом, AI-анализом (саммари, тезисы, RAG-чат) и точностью 98% на русском. По WER на русском датасете: Voxtral 2.1%, Whisper Large v3 4.3%, YandexSpeechKit 3.8% (наши измерения, 2025).

По теме

Попробуйте ASR — бесплатная проба без карты

Попробовать бесплатно

Распознавание речи в текст онлайн — ASR на нейросети

Как это работает

Загрузите аудио или видео

ASR-модель анализирует аудиопоток

Текст с AI-анализом в браузере

Что вы получаете

Простые и прозрачные

Частые вопросы

Связанные материалы

Нейросеть для транскрибации

Транскрибация онлайн

Аудио в текст онлайн

Нейросеть для транскрибации 2026

Что такое diarization

Попробуйте ASR — бесплатная проба без карты