Расшифровка аудио
Расшифровка аудио — превращение устной записи в письменный текст с сохранением смысла, пунктуации и разделения по говорящим. Раньше это была долгая ручная работа: журналист или транскрибатор слушал запись, останавливал, печатал, перематывал. Час хорошей расшифровки занимал 4-6 часов работы и стоил 300-600 ₽. Сейчас всё это делает нейросеть за 2 минуты — с точностью 98% на чистом русском, автоматической пунктуацией и разметкой до 10 спикеров. Dicto — облачный сервис: загружаете файл, через пару минут скачиваете готовый текст в TXT, DOCX или SRT.
Расшифровать аудио бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
MP3, WAV, FLAC, OGG, M4A, AAC, WebM или видео MP4/MOV до 500 МБ. Также можно вставить ссылку на YouTube, VK Video, Rutube, OK или Дзен — мы расшифруем по ссылке без скачивания. Регистрация занимает 30 секунд, карту не спрашиваем.
/02
Foundation-AI распознаёт речь, расставляет пунктуацию, отделяет реплики разных людей через diarization. Поддерживаются 13 языков с автоопределением. На час записи уходит примерно 2 минуты — против 4-6 часов ручной работы.
/03
Текст с таймкодами по каждой реплике, цветовая разметка спикеров, AI-саммари в одном клике, ключевые тезисы и action items. Экспорт в TXT, SRT (субтитры) или DOCX (форматированный документ). RAG-чат для поиска по содержимому: «когда обсуждали бюджет?» с ответом-цитатой.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Никакой разницы — это синонимы. «Транскрибация» пришло из академической среды (фонетики и лингвистики), «расшифровка» — обиходное слово. Оба термина обозначают перевод устной речи в письменный текст. Иногда в технических контекстах под «транскрипцией» понимают пословное воспроизведение с междометиями («эээ», «ну»), а под «расшифровкой» — отредактированный читабельный текст. Dicto делает первое, а в редакторе вы можете дочистить до второго.
Любые с разборчивой речью: интервью, подкасты, лекции, совещания (Zoom, Google Meet, Teams), голосовые сообщения, судебные заседания, медицинские консультации, журналистские записи. Не работает для пения (мелодия искажает распознавание), очень тихой шёпотной речи и записей с сильным эхом. Для лучшего результата записывайте на отдельный микрофон или с гарнитуры, а не встроенный микрофон ноутбука.
Бесплатно при регистрации — 180 минут разово. После — тариф Старт 500 ₽/мес за 600 минут (0,83 ₽ за минуту). Тариф Про 820 ₽ за 1500 минут (0,55 ₽/мин) с расширенным RAG-чатом и приоритетной обработкой. Бизнес 2 300 ₽ за 3600 минут на 5 человек. Премиум 4 600 ₽ за 7200 минут (60 ₽ за час) на 10 человек. Сравните: фрилансер берёт 300-600 ₽ за час расшифровки, Yandex.Транскриптор — 1,2 ₽ за минуту.
В редакторе Dicto можно править любой фрагмент текста: исправлять ошибки распознавания, переименовывать спикеров (с «Говорящий 1» на «Иванов И.И.»), добавлять пропущенные слова. Изменения сохраняются автоматически. Также можно дать AI словарь специфических терминов — например для медицинских, юридических или технических записей. Это улучшает точность распознавания узкопрофессиональной лексики на 5-15%.
Да, и это популярный сценарий. В Telegram нажмите на голосовое → «Поделиться файлом» → сохраните как .ogg. В WhatsApp долгое нажатие → «Поделиться» → сохраните как .opus. Загрузите в Dicto — мы расшифруем за 10-30 секунд. На странице «расшифровка голосовых» есть отдельные подробные инструкции для каждого мессенджера.
Да, AI автоматически переключается между языками внутри одной записи. Например, на технической конференции спикеры часто переходят с русского на английский для терминов — это работает. Точность может снижаться на 3-5% по сравнению с моноязычной записью. Если хотите максимальной точности на одном языке — явно укажите его в настройках транскрибации.
Diarization — алгоритм разметки спикеров: AI слушает аудио и определяет, когда говорит человек A, когда B, когда C. На выходе у вас текст разделён на реплики с цветовой маркировкой каждого голоса. Это критично для интервью, подкастов и совещаний, где важно понимать кто что сказал. Dicto поддерживает разметку до 10 разных голосов автоматически. Подробнее в блог-статье о diarization.
Файлы хранятся в S3-хранилище Selectel (Россия, ru-7) с TLS 1.3 при передаче и at-rest шифрованием. По умолчанию удаляются через 7 дней (можно настроить от 1 до 30 дней или удалить вручную сразу). Расшифровка идёт через API foundation-моделей с DPA-договором запрещающим использование данных для обучения. Соблюдаем 152-ФЗ. Для особо чувствительных записей рекомендуем тариф Бизнес с расширенными настройками retention.
По теме
То же самое — индустриальный термин
ПерейтиОписательное название с фокусом на скорость
Перейти180 минут разово без банковской карты
ПерейтиTelegram, WhatsApp — отдельные инструкции
ПерейтиКак работает разметка спикеров
Перейти