Транскрибация аудио
Транскрибация — процесс перевода устной речи в письменный текст с сохранением структуры, пунктуации и разделения по спикерам. Раньше это делал человек за 5-10 ₽ за минуту и 24-48 часов работы. Современные foundation-модели (Voxtral, Whisper, Mistral) делают то же самое за 2 минуты на час аудио, с точностью 98% на русском и дешевле в 5-10 раз. Dicto использует комбинацию AI-моделей плюс автоматическую diarization (разметку спикеров) и постобработку текста — на выходе получаете готовый документ с таймкодами, без правок.
Заказать транскрибацию бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Перетащите файл в браузер или вставьте ссылку на YouTube/VK/Rutube/OK/Дзен. Поддерживаются все распространённые форматы: MP3, WAV, FLAC, OGG, M4A, AAC, WebM, MP4, MOV. Максимум 500 МБ и 6 часов длительности. Для видеофайлов мы автоматически извлекаем аудиодорожку через FFmpeg.
/02
Foundation-модель распознаёт слова, расставляет знаки препинания, определяет границы предложений и абзацев. Параллельно работает diarization — алгоритм разметки спикеров: отделяет реплики каждого человека, помечает их разными цветами. Поддерживается до 10 разных голосов в одной записи.
/03
Текст с кликабельными таймкодами, разделением по спикерам, AI-саммари за 30 секунд, ключевые тезисы и action items. Экспорт в TXT (чистый текст), SRT (субтитры с таймингом), DOCX (форматированный документ). Дополнительно RAG-чат для поиска по содержимому: «когда говорили про дедлайн?» — получаете цитату с таймкодом.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Это синонимы — все три термина обозначают перевод устной речи в письменный текст. «Транскрибация» — технический термин, используется в индустрии и в SEO. «Расшифровка» — более бытовое слово. «Перевод аудио в текст» — описательное название. На практике все три процесса идентичны: AI слушает аудио и пишет текст. Если ищете «расшифровку» — открывайте страницу о расшифровке аудио, если «перевод» — отдельную страницу про перевод аудио в текст.
На чистом студийном аудио (микрофон, без шума, один диктор) точность 98-99% — практически не уступает ручной расшифровке. На записях со смартфона или встроенного микрофона ноутбука — 95-97%. На телефонных звонках, конференциях с эхом или фоновой музыкой — 90-94%. На сильно зашумлённом или плохо записанном аудио точность падает до 80-85%. Точность измеряется через метрику WER (Word Error Rate) — процент слов которые AI распознал неверно или пропустил.
Да, это называется speaker diarization. Алгоритм определяет границы реплик и помечает каждого спикера отдельно: «Говорящий 1», «Говорящий 2» и т.д. до 10 голосов. На выходе вы видите цветные блоки текста, можете переименовать спикеров в их реальные имена. Это особенно полезно для интервью, подкастов, совещаний и судебных стенограмм.
В среднем 2 минуты на 1 час аудио. Для двухчасового интервью — 4-5 минут. Для 6-часовой лекции (максимальная длина файла) — 12-15 минут. Это значительно быстрее ручной расшифровки (1 час записи = 4-6 часов работы транскрибатора) и сопоставимо со скоростью YandexSpeechKit. Время не зависит от количества спикеров.
Файлы хранятся в S3-хранилище Selectel (Россия, ru-7) с шифрованием TLS 1.3 при передаче и at-rest шифрованием на диске. По умолчанию аудио удаляется через 7 дней (настраивается от 1 до 30), текст транскрипции — до удаления вашего аккаунта. Расшифровка идёт через API foundation-моделей с DPA-договором запрещающим использование данных для обучения. Соблюдаем 152-ФЗ, ваше согласие на трансграничную передачу даётся при регистрации.
Максимум 500 МБ и 6 часов длительности. Для часового подкаста MP3 в стандартном битрейте 128 kbps это ~55 МБ — далеко от лимита. Для шестичасовой лекции в hi-fi WAV без сжатия может выйти 1-2 ГБ — рекомендуем пересжать в MP3 или FLAC. Если ваш файл больше — разбейте на части по 1-2 часа и загрузите отдельно.
Три ключевых отличия. Первое — модели: Voxtral V2 показывает на 3-5% более высокую точность на русском, чем Yandex SpeechKit и на 2-4% выше Whisper Large v3. Второе — AI-обработка: после транскрибации мы делаем саммари, ключевые тезисы и action items, чего нет у конкурентов. Третье — RAG-чат, позволяющий задавать вопросы по записи и получать цитаты с таймкодами. Подробное сравнение читайте в блог-статье о выборе нейросети для транскрибации.
Да. Тарифы Бизнес (2 300 ₽/мес за 60 часов на 5 пользователей) и Премиум (4 600 ₽/мес за 120 часов на 10 пользователей) разработаны для команд: общая база транскрипций, разграничение доступа, выделенный support. Подписываем DPA по 152-ФЗ. Можем выпустить договор-оферту или закрывающие документы по запросу на support@dicto.pro.
По теме
180 минут при регистрации без банковской карты
ПерейтиТот же процесс под другим названием — углубление в нюансы
ПерейтиДля тех кто ищет именно по слову «перевести»
ПерейтиСравнение Whisper, Voxtral и GigaChat 2026
ПерейтиКак работает разметка спикеров и зачем она нужна
Перейти