Русский язык
Русский язык — основной для Dicto. Мы используем foundation-модель Voxtral V2, специально дообученную на русскоязычных корпусах: подкастах, интервью, лекциях, художественной литературе и техническом контенте. Точность на чистом русском аудио — 98-99%, что выше чем у Whisper Large v3 (95-96%) и Yandex SpeechKit (94-95%). Хорошо распознаём современный сленг, заимствованные термины (например IT-лексику), имена собственные, акценты (мы работали со спикерами из Москвы, Питера, Сибири, Кавказа, Средней Азии). Поддерживаются все варианты русского: литературный, разговорный, профессиональный.
Расшифровать русское аудио бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
MP3, WAV, FLAC, OGG, M4A, AAC, WebM или видео MP4/MOV до 500 МБ. Можно вставить ссылку на YouTube, VK, Rutube — мы скачаем автоматически. Поддерживаются любые источники: студийная запись подкаста, телефонный разговор, лекция в зале, интервью на улице.
/02
Voxtral V2 работает с русским как с первым языком — не как Whisper, где русский «один из 99». Точность 98% на студийной записи, 95-97% на телефонном звонке. Diarization до 10 спикеров с цветовой кодировкой. Автоматическая расстановка знаков препинания и заглавных букв.
/03
Готовый документ с таймкодами, AI-саммари за 30 секунд, ключевые тезисы и action items на русском. Экспорт в TXT, SRT (русские субтитры с таймингом), DOCX. RAG-чат отвечает на русские вопросы цитатами из текста с указанием таймкодов.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Whisper обучен на 680 000 часах аудио на 99 языках, но русского там было только ~5-7%. Voxtral V2 обучен на разных корпусах с более сбалансированным распределением и дополнительно дообучен на специфически русских наборах: подкастах «Медуза», «Арзамас», «Радио Свобода», лекциях Сколтеха и ВШЭ, художественной аудиокниге, телефонных разговорах. Это даёт 2-3 процентных пункта прироста точности на русском, что для часовой записи означает 30-50 правильно распознанных слов больше.
Да. Slang эпохи 2020-х (тейк, кринж, краш, флекс, чилл, пушка, рофл) распознаётся корректно. IT-термины (микросервис, monorepo, ChatGPT, vibe coding) тоже работают — модель обучалась на технических подкастах и Хабре. Заимствования (стартап, тимлид, оффер, ревью) — без проблем. Если встретится узкоспециальный термин (например медицинский «пневмоэктомия» или юридический «диспозитивность»), точность может снижаться — для таких сценариев используйте словарь терминов в настройках.
Лёгкий и средний акцент распознаются без проблем — точность остаётся 96-98%. Это касается русского с акцентом из Казахстана, Кыргызстана, Узбекистана, Армении, Грузии, Беларуси, Украины. Сильный иностранный акцент (например, у учащего русский китайца или индуса) даёт точность 90-93%. Региональные акценты внутри РФ (питерский, сибирский, кубанский) — практически не влияют на распознавание, остаётся 98%.
Да, AI автоматически переключается между языками. На технических конференциях часто звучит русский + английский («Наш бэкенд на FastAPI, мы используем Redis для кэша»). Это работает: AI определяет английский фрагмент и расшифровывает его как английский, потом возвращается к русскому. Точность может снижаться на 3-5% по сравнению с одноязычной записью. Если хотите чисто русский без переключений — укажите явно в настройках, и AI будет «принуждать» русский даже на спорных моментах.
В целом да. Точки, запятые, тире, двоеточия — расставляются по контексту. Прямая речь оформляется кавычками или тире. Заглавные буквы в начале предложений и в именах собственных. Сложные правила (вводные слова, причастные обороты, обособление приложений) — работают на 90-95% случаев. Очень спорные конструкции AI может пропустить — например, расставить запятую перед союзом «и» в сложносочинённом предложении.
Зависит от уровня деградации. На записи с диктофона Sony 2005 года в формате MP3 64 kbps mono — точность 92-94%. На сильно зашумлённой записи (фоновая музыка, эхо) — 85-90%. На записи телефонного разговора с битрейтом 8 kHz — 92-95% (телефонная связь специально оптимизирована для голоса, поэтому даже на плохом битрейте AI справляется). На искажённой плёночной записи 1990-х годов с шипением — 80-85%, тут уже лучше человек-расшифровщик.
Современный русский — точность 98%. Дореволюционный (с ятями и фитой) — никто не распознает, потому что модель обучалась на современных текстах. Старославянский, церковнославянский, классические русские тексты XVIII века — точность падает до 70-80%, и пунктуация будет современной. Для специфических исторических задач лучше брать ручного расшифровщика-филолога.
Да. Детская речь от 5 лет распознаётся с точностью 93-95% — основные сложности связаны с неустоявшимся произношением. Подростки и молодёжь до 18 лет — стандартные 96-98%. Пожилые люди (70+) с возможной слабой дикцией — 94-97%. Совсем тихая шёпотная речь или сильно «глотающая» дикция падает до 85-90%. Это касается всех языков, не только русского — Voxtral V2 устойчиво работает с возрастными голосами.
По теме