Транскрибация видео
Транскрибация видео — извлечение аудиодорожки и её распознавание в текст. Видеофайл обрабатывается через FFmpeg: кодек, разрешение и наличие субтитров не влияют на результат. Dicto принимает MP4, MOV, AVI, WebM, MKV и экспортирует готовый текст с таймкодами, разметкой спикеров и субтитрами в формате SRT — за 2 минуты на каждый час видео с точностью 98%.
Транскрибировать видео бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Перетащите файл в браузер — поддерживаются MP4, MOV, WebM, AVI, MKV. Лимит 500 МБ и 6 часов длительности. Если видео на YouTube, VK Video, Rutube, OK или Яндекс.Дзен — вставьте ссылку: yt-dlp автоматически скачает аудиодорожку без необходимости скачивать сам файл. Закрытые и приватные видео по ссылке не поддерживаются.
/02
FFmpeg извлекает аудиодорожку из видеоконтейнера — независимо от кодека (H.264, H.265, AV1, VP9) и разрешения (360p, 4K). Аудио передаётся в Voxtral, который распознаёт речь, расставляет пунктуацию и разбивает на абзацы. Diarization-модель определяет, кто из спикеров говорит в каждый момент — до 10 голосов с цветовой разметкой.
/03
Готовый текст с кликабельными таймкодами и разметкой по спикерам открывается в редакторе. AI формирует саммари за 30 секунд и ключевые тезисы. Экспорт: TXT (полный текст), SRT (субтитры для загрузки в видеохостинг или монтажную программу), DOCX (форматированный документ). RAG-чат: задавайте вопросы по содержимому видео.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
MP4 (самый распространённый), MOV (iPhone, Mac), WebM (браузерные записи), AVI (старый формат), MKV (Matroska с несколькими дорожками). Кодеки: H.264, H.265/HEVC, AV1, VP8, VP9. Если в видео несколько аудиодорожек — используется первая по умолчанию, остальные можно выбрать в настройках. Встроенные жёсткие субтитры (hardcoded) в расчёт не берутся — работаем только с аудиодорожкой.
Да, вставьте публичную ссылку на YouTube-видео — сервис скачает аудиодорожку через yt-dlp и передаст на распознавание. Аналогично работает с VK Video, Rutube, OK и Яндекс.Дзен. Приватные видео, видео с возрастными ограничениями и платный контент не поддерживаются. Ограничение по длительности — 6 часов, как для обычных файлов.
Да, это одна из ключевых функций. После транскрибации в разделе экспорта выберите формат SRT — получите файл субтитров с правильными таймкодами начала и конца каждой реплики. Такой SRT можно загрузить прямо в YouTube Studio, DaVinci Resolve, Premiere Pro или любой другой видеоредактор. Субтитры делятся по спикерам — каждая реплика подписана.
Сжать. Для большинства задач достаточно 720p с битрейтом 1-2 Mbps — это 1-1.5 ГБ в час, сжатие до 360p 500kbps даст ~200 МБ за час. Альтернативно — извлеките аудиодорожку отдельно: ffmpeg -i video.mp4 -vn -ar 44100 -ac 1 audio.mp3 — размер упадёт в 5-10 раз. Или вставьте ссылку на YouTube/VK вместо загрузки файла.
В среднем 2 минуты на 1 час видео. Время не зависит от разрешения или количества спикеров — только от длительности аудиодорожки. Часовой вебинар будет готов за 2 минуты, двухчасовое интервью — за 4-5 минут. После обработки придёт email-уведомление. Если сервер загружен, задача встаёт в очередь — обычно ожидание не превышает 5 минут.
Да, автоопределение языка работает для 13 языков: русский, английский, немецкий, французский, испанский, итальянский, португальский, китайский, японский, казахский, украинский, белорусский, польский. Если спикеры переключаются между языками в одном видео — точность на смешанных фрагментах снижается на 3-5%. Оптимально — видео на одном основном языке.
По теме
Базовая страница о конвертации видеозаписей в текст
ПерейтиСтенограмма видео — детальный разбор процесса
ПерейтиЭкспорт SRT и загрузка субтитров в YouTube, VK, Rutube
ПерейтиYouTube, VK Video, Rutube, OK — без скачивания файла
ПерейтиТранскрибация YouTube-видео по прямой ссылке
Перейти