Русский язык

Транскрибация аудио на русском языке — точность 98%

Русский язык — основной для Dicto. Мы используем foundation-модель Voxtral V2, специально дообученную на русскоязычных корпусах: подкастах, интервью, лекциях, художественной литературе и техническом контенте. Точность на чистом русском аудио — 98-99%, что выше чем у Whisper Large v3 (95-96%) и Yandex SpeechKit (94-95%). Хорошо распознаём современный сленг, заимствованные термины (например IT-лексику), имена собственные, акценты (мы работали со спикерами из Москвы, Питера, Сибири, Кавказа, Средней Азии). Поддерживаются все варианты русского: литературный, разговорный, профессиональный.

Расшифровать русское аудио бесплатно

Без карты · 180 минут бесплатно при регистрации

Процесс

Как это работает

/01

Загрузите запись

MP3, WAV, FLAC, OGG, M4A, AAC, WebM или видео MP4/MOV до 500 МБ. Можно вставить ссылку на YouTube, VK, Rutube — мы скачаем автоматически. Поддерживаются любые источники: студийная запись подкаста, телефонный разговор, лекция в зале, интервью на улице.

/02

AI распознаёт русскую речь

Voxtral V2 работает с русским как с первым языком — не как Whisper, где русский «один из 99». Точность 98% на студийной записи, 95-97% на телефонном звонке. Diarization до 10 спикеров с цветовой кодировкой. Автоматическая расстановка знаков препинания и заглавных букв.

/03

Получите русский текст

Готовый документ с таймкодами, AI-саммари за 30 секунд, ключевые тезисы и action items на русском. Экспорт в TXT, SRT (русские субтитры с таймингом), DOCX. RAG-чат отвечает на русские вопросы цитатами из текста с указанием таймкодов.

Преимущества

Что вы получаете

Точность 98% на чистом русском — выше YandexSpeechKit (94-95%) и Whisper (95-96%)
Specifically оптимизирован для русского — Voxtral V2 дообучен на русских корпусах
Хорошо распознаёт русский сленг, IT-термины, имена собственные, аббревиатуры
Работает со всеми вариантами акцента: московским, питерским, сибирским, кавказским
Автоматическая пунктуация и заглавные буквы по правилам русского языка
AI-саммари и тезисы генерируются на русском (Gemini 2.5 Flash с русским контекстом)
180 минут бесплатно — без банковской карты, можно сразу проверить точность
Экспорт SRT-субтитров для YouTube и VK Video — корректная кодировка UTF-8
Файлы хранятся в РФ (Selectel, ru-7) с шифрованием — для compliance
Соблюдение 152-ФЗ — для коммерческого использования российскими компаниями

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

180 минут при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

820 ₽/мес

25 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QПочему точность на русском у Dicto выше чем у Whisper?

Whisper обучен на 680 000 часах аудио на 99 языках, но русского там было только ~5-7%. Voxtral V2 обучен на разных корпусах с более сбалансированным распределением и дополнительно дообучен на специфически русских наборах: подкастах «Медуза», «Арзамас», «Радио Свобода», лекциях Сколтеха и ВШЭ, художественной аудиокниге, телефонных разговорах. Это даёт 2-3 процентных пункта прироста точности на русском, что для часовой записи означает 30-50 правильно распознанных слов больше.

QРаспознаёт ли Dicto современный русский сленг и заимствования?

Да. Slang эпохи 2020-х (тейк, кринж, краш, флекс, чилл, пушка, рофл) распознаётся корректно. IT-термины (микросервис, monorepo, ChatGPT, vibe coding) тоже работают — модель обучалась на технических подкастах и Хабре. Заимствования (стартап, тимлид, оффер, ревью) — без проблем. Если встретится узкоспециальный термин (например медицинский «пневмоэктомия» или юридический «диспозитивность»), точность может снижаться — для таких сценариев используйте словарь терминов в настройках.

QА с акцентами как? Я живу в Алматы и говорю с лёгким акцентом.

Лёгкий и средний акцент распознаются без проблем — точность остаётся 96-98%. Это касается русского с акцентом из Казахстана, Кыргызстана, Узбекистана, Армении, Грузии, Беларуси, Украины. Сильный иностранный акцент (например, у учащего русский китайца или индуса) даёт точность 90-93%. Региональные акценты внутри РФ (питерский, сибирский, кубанский) — практически не влияют на распознавание, остаётся 98%.

QПоддерживается ли смесь русского с другими языками в одной записи?

Да, AI автоматически переключается между языками. На технических конференциях часто звучит русский + английский («Наш бэкенд на FastAPI, мы используем Redis для кэша»). Это работает: AI определяет английский фрагмент и расшифровывает его как английский, потом возвращается к русскому. Точность может снижаться на 3-5% по сравнению с одноязычной записью. Если хотите чисто русский без переключений — укажите явно в настройках, и AI будет «принуждать» русский даже на спорных моментах.

QРасставляет ли AI правильно знаки препинания по правилам русского?

В целом да. Точки, запятые, тире, двоеточия — расставляются по контексту. Прямая речь оформляется кавычками или тире. Заглавные буквы в начале предложений и в именах собственных. Сложные правила (вводные слова, причастные обороты, обособление приложений) — работают на 90-95% случаев. Очень спорные конструкции AI может пропустить — например, расставить запятую перед союзом «и» в сложносочинённом предложении.

QМожно ли расшифровать русский на устаревшем оборудовании или в плохом качестве?

Зависит от уровня деградации. На записи с диктофона Sony 2005 года в формате MP3 64 kbps mono — точность 92-94%. На сильно зашумлённой записи (фоновая музыка, эхо) — 85-90%. На записи телефонного разговора с битрейтом 8 kHz — 92-95% (телефонная связь специально оптимизирована для голоса, поэтому даже на плохом битрейте AI справляется). На искажённой плёночной записи 1990-х годов с шипением — 80-85%, тут уже лучше человек-расшифровщик.

QРаботает ли с дореволюционной орфографией или старославянским?

Современный русский — точность 98%. Дореволюционный (с ятями и фитой) — никто не распознает, потому что модель обучалась на современных текстах. Старославянский, церковнославянский, классические русские тексты XVIII века — точность падает до 70-80%, и пунктуация будет современной. Для специфических исторических задач лучше брать ручного расшифровщика-филолога.

QРаспознаются ли голоса детей и пожилых людей?

Да. Детская речь от 5 лет распознаётся с точностью 93-95% — основные сложности связаны с неустоявшимся произношением. Подростки и молодёжь до 18 лет — стандартные 96-98%. Пожилые люди (70+) с возможной слабой дикцией — 94-97%. Совсем тихая шёпотная речь или сильно «глотающая» дикция падает до 85-90%. Это касается всех языков, не только русского — Voxtral V2 устойчиво работает с возрастными голосами.

Транскрибация на русском языке

Попробовать бесплатно