Транскрибация
Транскрибация — это перевод устной речи из аудио- или видеозаписи в структурированный письменный текст. Ручная транскрибация занимает 4-6 часов на каждый час записи и стоит 5-10 ₽ за минуту. Автоматическая с помощью AI-нейросетей — 2 минуты на час и от 0,83 ₽ за минуту при сопоставимой точности 98%. Dicto делает не просто распознавание речи, но и разметку спикеров, расстановку пунктуации и дополнительный AI-анализ.
Начать транскрибацию бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Перетащите аудио или видео в браузер — поддерживаются MP3, WAV, FLAC, OGG, M4A, AAC, WebM, MP4, MOV. Максимум 500 МБ и 6 часов длительности. Также принимаем ссылки на YouTube, VK Video, Rutube, OK и Яндекс.Дзен — сервис скачает аудиодорожку автоматически.
/02
Foundation-модель Voxtral анализирует речь и формирует текст с расставленной пунктуацией, заглавными буквами и абзацами. Параллельно работает diarization — алгоритм разделяет реплики каждого участника и помечает их цветом. До 10 спикеров в одной записи. Поддерживается 13 языков с автоопределением.
/03
Получаете текст с кликабельными таймкодами и цветовой разметкой по спикерам. AI автоматически формирует саммари за 30 секунд, ключевые тезисы и action items. Экспорт в TXT, SRT или DOCX. RAG-чат позволяет задавать вопросы по содержимому — «когда обсуждали бюджет?» — и получать цитаты с точными таймкодами.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Транскрибация — преобразование аудио- или видеозаписи в письменный текст с сохранением структуры речи, пунктуации и разделения по спикерам. Нужна журналистам для обработки интервью, юристам для стенограмм заседаний, преподавателям для конспектов лекций, подкастерам для транскриптов эпизодов, бизнесу для протоколов совещаний. Текстовый формат удобнее для поиска, цитирования и хранения, чем аудиофайл.
Это синонимы. «Транскрибация» — профессиональный термин, принятый в индустрии и лингвистике. «Расшифровка» — более бытовое слово, понятное широкой аудитории. «Перевод аудио в текст» — описательное выражение без специфической коннотации. На практике все три слова описывают один процесс: AI слушает запись и выдаёт текст. Никакой разницы в функциях или качестве нет.
Три тарифа. Free: 180 минут при регистрации, без карты и без автосписания. Старт: 500 ₽/мес — 600 минут (10 часов), то есть 0,83 ₽ за минуту. Про: 820 ₽/мес — 1500 минут (25 часов), то есть 0,55 ₽ за минуту. Для сравнения, фрилансер-транскрибатор берёт 5-10 ₽ за минуту и делает это за 1-2 дня, а не за 2 минуты.
На студийной или микрофонной записи без фонового шума точность достигает 98-99%. На записях со смартфона или ноутбука — 95-97%. На телефонных переговорах или конференциях с эхом — 90-94%. Точность измеряется через WER (Word Error Rate) — долю неверно распознанных слов. Отраслевой стандарт для профессиональной транскрибации — WER < 5%, то есть точность выше 95%.
Аудио: MP3, WAV, FLAC, OGG, M4A, AAC, WebM. Видео: MP4, MOV — мы извлекаем аудиодорожку через FFmpeg, платить за видео не нужно дороже. Максимальный размер файла 500 МБ, максимальная длительность 6 часов. Также принимаем публичные ссылки на YouTube, VK Video, Rutube, OK и Яндекс.Дзен.
Скорость: 2 минуты против 4-6 часов на каждый час записи. Стоимость: от 0,55 ₽/мин против 5-10 ₽/мин у фрилансера. Масштаб: можно загрузить несколько файлов одновременно. Дополнительные функции: ручной транскрибатор даст только текст, а Dicto добавит AI-саммари, тезисы, action items и RAG-чат. Недостаток автоматической транскрибации — специфическая узкоотраслевая терминология и сильные акценты иногда распознаются хуже.
Файлы хранятся в S3-хранилище Selectel в России (ЦОД ru-7) с шифрованием TLS 1.3 при передаче. Аудиозаписи удаляются автоматически через 7 дней, текст транскрипции хранится до удаления аккаунта. Данные не используются для обучения моделей (DPA с поставщиком). Сервис работает в соответствии с 152-ФЗ о персональных данных.
По теме
Углублённо о форматах аудиофайлов и нюансах обработки
ПерейтиMP4, MOV, AVI, WebM и субтитры SRT из видеофайлов
Перейти180 минут при регистрации без банковской карты
ПерейтиВ браузере без установки программ и приложений
ПерейтиСравнение Voxtral, Whisper Large v3 и YandexSpeechKit
Перейти