Распознавание речи
Распознавание речи (ASR — Automatic Speech Recognition) — автоматическое преобразование звуковой речи в текст с помощью нейронных сетей. В отличие от простых голосовых команд (Siri, Алиса), ASR-движки для транскрибации обрабатывают длинные записи любой тематики с высокой точностью. Dicto использует Voxtral — foundation-модель поколения 2025, обученную на >1 млн часов многоязычного аудио, достигающую 98% точности на русском языке.
Распознать речь бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Поддерживаются MP3, WAV, FLAC, OGG, M4A, AAC, WebM, MP4, MOV. Лимит 500 МБ и 6 часов длительности. Работает также с публичными ссылками на YouTube, VK Video, Rutube, OK и Яндекс.Дзен — аудио скачивается автоматически. Предварительная обработка звука (нормализация уровня, шумоподавление) запускается автоматически.
/02
Voxtral разбивает аудио на фрагменты, прогоняет через encoder-decoder архитектуру и предсказывает наиболее вероятную последовательность токенов. Это не словарный поиск, а контекстное предсказание — модель «понимает» смысл фразы и достраивает плохо слышимые слова. Параллельно: VAD (Voice Activity Detection) убирает паузы, diarization разделяет спикеров, языковая модель расставляет пунктуацию.
/03
Результат открывается в редакторе с таймкодами и цветовой разметкой спикеров. AI добавляет саммари за 30 секунд, ключевые тезисы и action items. Экспорт в TXT, SRT, DOCX. RAG-чат по содержимому: задайте вопрос — «когда упоминали дедлайн?» — и получите цитату с точной минутой.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
ASR (Automatic Speech Recognition) — технология преобразования непрерывной речи в текст. Голосовые ассистенты (Siri, Алиса, Google Assistant) тоже используют ASR, но заточены под короткие команды (5-15 слов) с фиксированным словарём. ASR-движки для транскрибации обучены на длинных монологах и диалогах любой тематики, с профессиональной терминологией и разными акцентами. Dicto использует foundation-модель Voxtral, обученную на >1 млн часов аудио.
На студийных и микрофонных записях без шума — WER менее 2%, то есть точность >98%. На записях с телефона или ноутбука — WER 3-5% (точность 95-97%). На конференц-звонках с эхом — WER 6-10% (точность 90-94%). Для измерения используется стандарт WER (Word Error Rate): отношение количества неверно распознанных слов к общему количеству. Отраслевой порог «профессионального» ASR — WER < 5%.
13 языков с автоопределением: русский, английский, немецкий, французский, испанский, итальянский, португальский, китайский (мандаринский), японский, казахский, украинский, белорусский, польский. Автоопределение работает с точностью >99% при длительности записи от 30 секунд. Смешанные записи (code-switching) поддерживаются — точность на переключениях снижается на 3-5%.
Текущая версия Dicto работает в оффлайн-режиме: файл загружается и обрабатывается целиком. Real-time ASR (потоковое распознавание) запланировано в дорожной карте. Если вам нужен real-time ASR прямо сейчас, рассмотрите Yandex SpeechKit Streaming или AssemblyAI Realtime API — у нас будет сравнительная статья. Для большинства задач — интервью, вебинары, лекции — оффлайн-режим удобнее: нет пропусков из-за задержки сети.
Да. REST API доступен на тарифах Старт и Про. Отправляете POST-запрос с файлом или URL, получаете task_id, опрашиваете статус и скачиваете результат в JSON (текст + таймкоды + спикеры). Документация: https://dicto.pro/docs. Webhook-нотификации по завершении задачи — без необходимости поллинга. Для нестандартных объёмов или SLA-требований — support@dicto.pro.
Voxtral обучена на разнообразном русскоязычном аудио, включая региональные акценты (кавказский, сибирский, прибалтийский). Точность на стандартном московском произношении — 98%, на выраженном региональном акценте — 93-96%. Сильный иностранный акцент (нерусскоязычный спикер говорит по-русски) снижает точность до 88-92%. Узкоспециализированные термины (медицина, юриспруденция, IT) можно добавить в кастомный словарь в настройках.
Whisper — open-source модель OpenAI, требует локальной установки с GPU для приемлемой скорости, нет UI и дополнительных функций. YandexSpeechKit — API без пользовательского интерфейса, нужно писать код, хорошо оптимизирован для русского. Voxtral (Dicto) — готовый сервис с интерфейсом, AI-анализом (саммари, тезисы, RAG-чат) и точностью 98% на русском. По WER на русском датасете: Voxtral 2.1%, Whisper Large v3 4.3%, YandexSpeechKit 3.8% (наши измерения, 2025).
По теме
Как работает Voxtral и чем отличается от Whisper
ПерейтиПрактическое применение ASR — что такое транскрибация
ПерейтиРаспознавание речи из аудиофайлов всех форматов
ПерейтиСравнение ASR-моделей: WER, скорость, цена
ПерейтиАлгоритм разделения спикеров в ASR-системах
Перейти