Транскрибация аудио

Транскрибация аудио в текст онлайн — точно и быстро

Транскрибация — процесс перевода устной речи в письменный текст с сохранением структуры, пунктуации и разделения по спикерам. Раньше это делал человек за 5-10 ₽ за минуту и 24-48 часов работы. Современные foundation-модели (Voxtral, Whisper, Mistral) делают то же самое за 2 минуты на час аудио, с точностью 98% на русском и дешевле в 5-10 раз. Dicto использует комбинацию AI-моделей плюс автоматическую diarization (разметку спикеров) и постобработку текста — на выходе получаете готовый документ с таймкодами, без правок.

Заказать транскрибацию бесплатно

Без карты · бесплатная проба при регистрации

Процесс

Как это работает

/01

Загрузите запись

Перетащите файл в браузер или вставьте ссылку на YouTube/VK/Rutube/OK/Дзен. Поддерживаются все распространённые форматы: MP3, WAV, FLAC, OGG, M4A, AAC, WebM, MP4, MOV. Максимум 500 МБ и 3 часа длительности. Для видеофайлов мы автоматически извлекаем аудиодорожку через FFmpeg.

/02

AI расшифровывает речь

Foundation-модель распознаёт слова, расставляет знаки препинания, определяет границы предложений и абзацев. Параллельно работает diarization — алгоритм разметки спикеров: отделяет реплики каждого человека, помечает их разными цветами. Поддерживается до 10 разных голосов в одной записи.

/03

Получите готовый документ

Текст с кликабельными таймкодами, разделением по спикерам, AI-саммари за 30 секунд, ключевые тезисы и action items. Экспорт в TXT (чистый текст), SRT (субтитры с таймингом), DOCX (форматированный документ). Дополнительно RAG-чат для поиска по содержимому: «когда говорили про дедлайн?» — получаете цитату с таймкодом.

Преимущества

Что вы получаете

✓Точность 98% на русском языке — выше чем у Whisper и YandexSpeechKit на чистом аудио

✓Скорость 2 минуты на 1 час записи — час 100-страничного интервью готов за 2 минуты

✓Автоматическая разметка спикеров (diarization) до 10 разных голосов

✓Пунктуация и заглавные буквы расставляются автоматически

✓13 поддерживаемых языков с автоопределением — русский, английский, китайский, казахский и другие

✓Транскрибация по ссылке — YouTube, VK Video, Rutube, OK, Дзен через yt-dlp

✓AI-саммари и тезисы дополнительно к тексту — не нужно перечитывать всё

✓Экспорт в TXT, SRT, DOCX — подходит для переноса в любые системы

✓RAG-чат по транскрипту — задавайте вопросы и получайте цитаты с таймкодами

✓Стоимость от 0,83 ₽ за минуту (тариф Старт) — в 5-10 раз дешевле фрилансера

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

30 минут на пробу при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

990 ₽/мес

30 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QЧем транскрибация отличается от расшифровки и перевода аудио?

▾

Это синонимы — все три термина обозначают перевод устной речи в письменный текст. «Транскрибация» — технический термин, используется в индустрии и в SEO. «Расшифровка» — более бытовое слово. «Перевод аудио в текст» — описательное название. На практике все три процесса идентичны: AI слушает аудио и пишет текст. Если ищете «расшифровку» — открывайте страницу о расшифровке аудио, если «перевод» — отдельную страницу про перевод аудио в текст.

QКакая точность у автоматической транскрибации?

▾

На чистом студийном аудио (микрофон, без шума, один диктор) точность 98-99% — практически не уступает ручной расшифровке. На записях со смартфона или встроенного микрофона ноутбука — 95-97%. На телефонных звонках, конференциях с эхом или фоновой музыкой — 90-94%. На сильно зашумлённом или плохо записанном аудио точность падает до 80-85%. Точность измеряется через метрику WER (Word Error Rate) — процент слов которые AI распознал неверно или пропустил.

QМожно ли расшифровать запись если в ней говорят несколько человек?

▾

Да, это называется speaker diarization. Алгоритм определяет границы реплик и помечает каждого спикера отдельно: «Говорящий 1», «Говорящий 2» и т.д. до 10 голосов. На выходе вы видите цветные блоки текста, можете переименовать спикеров в их реальные имена. Это особенно полезно для интервью, подкастов, совещаний и судебных стенограмм.

QСколько времени занимает транскрибация часовой записи?

▾

В среднем 2 минуты на 1 час аудио. Для двухчасового интервью — 4-5 минут. Для 3-часовой лекции (максимальная длина файла) — 6-7 минут. Это значительно быстрее ручной расшифровки (1 час записи = 4-6 часов работы транскрибатора) и сопоставимо со скоростью YandexSpeechKit. Время не зависит от количества спикеров.

QГде хранятся мои аудиозаписи? Это безопасно?

▾

Файлы хранятся в S3-хранилище Selectel (Россия, ru-7) с шифрованием TLS 1.3 при передаче и at-rest шифрованием на диске. По умолчанию аудио удаляется через 7 дней (настраивается от 1 до 30), текст транскрипции — до удаления вашего аккаунта. Расшифровка идёт через API foundation-моделей с DPA-договором запрещающим использование данных для обучения. Соблюдаем 152-ФЗ, ваше согласие на трансграничную передачу даётся при регистрации.

QМожно ли заказать транскрибацию очень большого файла?

▾

Максимум 500 МБ и 3 часа длительности. Для часового подкаста MP3 в стандартном битрейте 128 kbps это ~55 МБ — далеко от лимита. Для трёхчасовой лекции в hi-fi WAV без сжатия может выйти 1-2 ГБ — рекомендуем пересжать в MP3 или FLAC. Если ваш файл больше — разбейте на части по 1-2 часа и загрузите отдельно.

QЧем Dicto отличается от Яндекс.Транскриптора или Google Speech-to-Text?

▾

Три ключевых отличия. Первое — модели: Voxtral V2 показывает на 3-5% более высокую точность на русском, чем Yandex SpeechKit и на 2-4% выше Whisper Large v3. Второе — AI-обработка: после транскрибации мы делаем саммари, ключевые тезисы и action items, чего нет у конкурентов. Третье — RAG-чат, позволяющий задавать вопросы по записи и получать цитаты с таймкодами. Подробное сравнение читайте в блог-статье о выборе нейросети для транскрибации.

QПодходит ли сервис для коммерческого использования и B2B-задач?

▾

Да. Тарифы Бизнес (2 300 ₽/мес за 60 часов на 5 пользователей) и Премиум (4 600 ₽/мес за 120 часов на 10 пользователей) разработаны для команд: общая база транскрипций, разграничение доступа, выделенный support. Подписываем DPA по 152-ФЗ. Можем выпустить договор-оферту или закрывающие документы по запросу на dicto.pro@yandex.ru.

По теме

Закажите транскрибацию аудио онлайн

Попробовать бесплатно

Транскрибация аудио в текст онлайн — точно и быстро

Как это работает

Загрузите запись

AI расшифровывает речь

Получите готовый документ

Что вы получаете

Простые и прозрачные

Частые вопросы

Связанные материалы

Транскрибация бесплатно

Расшифровка аудио в текст

Перевести аудио в текст

Какую нейросеть выбрать для транскрибации

Что такое diarization

Закажите транскрибацию аудио онлайн