Транскрибация

Транскрибация аудио и видео в текст — онлайн-сервис Dicto

Транскрибация — это перевод устной речи из аудио- или видеозаписи в структурированный письменный текст. Ручная транскрибация занимает 4-6 часов на каждый час записи и стоит 5-10 ₽ за минуту. Автоматическая с помощью AI-нейросетей — 2 минуты на час и от 0,83 ₽ за минуту при сопоставимой точности 98%. Dicto делает не просто распознавание речи, но и разметку спикеров, расстановку пунктуации и дополнительный AI-анализ.

Начать транскрибацию бесплатно

Без карты · 180 минут бесплатно при регистрации

Процесс

Как это работает

/01

Загрузите файл или вставьте ссылку

Перетащите аудио или видео в браузер — поддерживаются MP3, WAV, FLAC, OGG, M4A, AAC, WebM, MP4, MOV. Максимум 500 МБ и 6 часов длительности. Также принимаем ссылки на YouTube, VK Video, Rutube, OK и Яндекс.Дзен — сервис скачает аудиодорожку автоматически.

/02

Нейросеть расшифровывает запись

Foundation-модель Voxtral анализирует речь и формирует текст с расставленной пунктуацией, заглавными буквами и абзацами. Параллельно работает diarization — алгоритм разделяет реплики каждого участника и помечает их цветом. До 10 спикеров в одной записи. Поддерживается 13 языков с автоопределением.

/03

Редактируйте, анализируйте, экспортируйте

Получаете текст с кликабельными таймкодами и цветовой разметкой по спикерам. AI автоматически формирует саммари за 30 секунд, ключевые тезисы и action items. Экспорт в TXT, SRT или DOCX. RAG-чат позволяет задавать вопросы по содержимому — «когда обсуждали бюджет?» — и получать цитаты с точными таймкодами.

Преимущества

Что вы получаете

Точность 98% на русском языке — выше чем Whisper Large v3 и YandexSpeechKit на стандартном аудио
Скорость 2 минуты на 1 час записи — ручная транскрибация тех же 60 минут заняла бы 4-6 часов
Автоматическая транскрибация в 5-10 раз дешевле фрилансера: от 0,83 ₽ за минуту на тарифе Старт
13 языков с автоопределением — русский, английский, казахский, немецкий, французский и другие
Разметка до 10 спикеров (diarization) с цветовой кодировкой и переименованием
AI-саммари, ключевые тезисы и action items — дополнительно к расшифровке без доплаты
RAG-чат по транскрипту: задайте вопрос и получите цитату с таймкодом за секунды
Экспорт в TXT (чистый текст), SRT (субтитры с таймингом), DOCX (форматированный документ)
Транскрибация по ссылке с YouTube, VK, Rutube, OK и Дзен — файл скачивается автоматически
180 минут бесплатно при регистрации без банковской карты — сразу можно проверить качество

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

180 минут при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

820 ₽/мес

25 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QЧто такое транскрибация и зачем она нужна?

Транскрибация — преобразование аудио- или видеозаписи в письменный текст с сохранением структуры речи, пунктуации и разделения по спикерам. Нужна журналистам для обработки интервью, юристам для стенограмм заседаний, преподавателям для конспектов лекций, подкастерам для транскриптов эпизодов, бизнесу для протоколов совещаний. Текстовый формат удобнее для поиска, цитирования и хранения, чем аудиофайл.

QЧем транскрибация отличается от расшифровки?

Это синонимы. «Транскрибация» — профессиональный термин, принятый в индустрии и лингвистике. «Расшифровка» — более бытовое слово, понятное широкой аудитории. «Перевод аудио в текст» — описательное выражение без специфической коннотации. На практике все три слова описывают один процесс: AI слушает запись и выдаёт текст. Никакой разницы в функциях или качестве нет.

QСколько стоит транскрибация в Dicto?

Три тарифа. Free: 180 минут при регистрации, без карты и без автосписания. Старт: 500 ₽/мес — 600 минут (10 часов), то есть 0,83 ₽ за минуту. Про: 820 ₽/мес — 1500 минут (25 часов), то есть 0,55 ₽ за минуту. Для сравнения, фрилансер-транскрибатор берёт 5-10 ₽ за минуту и делает это за 1-2 дня, а не за 2 минуты.

QКакая точность у автоматической транскрибации?

На студийной или микрофонной записи без фонового шума точность достигает 98-99%. На записях со смартфона или ноутбука — 95-97%. На телефонных переговорах или конференциях с эхом — 90-94%. Точность измеряется через WER (Word Error Rate) — долю неверно распознанных слов. Отраслевой стандарт для профессиональной транскрибации — WER < 5%, то есть точность выше 95%.

QКакие форматы файлов принимает сервис?

Аудио: MP3, WAV, FLAC, OGG, M4A, AAC, WebM. Видео: MP4, MOV — мы извлекаем аудиодорожку через FFmpeg, платить за видео не нужно дороже. Максимальный размер файла 500 МБ, максимальная длительность 6 часов. Также принимаем публичные ссылки на YouTube, VK Video, Rutube, OK и Яндекс.Дзен.

QЧем автоматическая транскрибация лучше ручной?

Скорость: 2 минуты против 4-6 часов на каждый час записи. Стоимость: от 0,55 ₽/мин против 5-10 ₽/мин у фрилансера. Масштаб: можно загрузить несколько файлов одновременно. Дополнительные функции: ручной транскрибатор даст только текст, а Dicto добавит AI-саммари, тезисы, action items и RAG-чат. Недостаток автоматической транскрибации — специфическая узкоотраслевая терминология и сильные акценты иногда распознаются хуже.

QБезопасно ли загружать конфиденциальные записи?

Файлы хранятся в S3-хранилище Selectel в России (ЦОД ru-7) с шифрованием TLS 1.3 при передаче. Аудиозаписи удаляются автоматически через 7 дней, текст транскрипции хранится до удаления аккаунта. Данные не используются для обучения моделей (DPA с поставщиком). Сервис работает в соответствии с 152-ФЗ о персональных данных.

Попробуйте транскрибацию бесплатно — 180 минут в подарок

Попробовать бесплатно