Транскрибация видео

Транскрибация видео в текст онлайн — MP4, MOV, AVI, WebM

Транскрибация видео — извлечение аудиодорожки и её распознавание в текст. Видеофайл обрабатывается через FFmpeg: кодек, разрешение и наличие субтитров не влияют на результат. Dicto принимает MP4, MOV, AVI, WebM, MKV и экспортирует готовый текст с таймкодами, разметкой спикеров и субтитрами в формате SRT — за 2 минуты на каждый час видео с точностью 98%.

Транскрибировать видео бесплатно

Без карты · 180 минут бесплатно при регистрации

Процесс

Как это работает

/01

Загрузите видеофайл или ссылку

Перетащите файл в браузер — поддерживаются MP4, MOV, WebM, AVI, MKV. Лимит 500 МБ и 6 часов длительности. Если видео на YouTube, VK Video, Rutube, OK или Яндекс.Дзен — вставьте ссылку: yt-dlp автоматически скачает аудиодорожку без необходимости скачивать сам файл. Закрытые и приватные видео по ссылке не поддерживаются.

/02

FFmpeg + Voxtral извлекают и распознают речь

FFmpeg извлекает аудиодорожку из видеоконтейнера — независимо от кодека (H.264, H.265, AV1, VP9) и разрешения (360p, 4K). Аудио передаётся в Voxtral, который распознаёт речь, расставляет пунктуацию и разбивает на абзацы. Diarization-модель определяет, кто из спикеров говорит в каждый момент — до 10 голосов с цветовой разметкой.

/03

Текст, субтитры и AI-анализ

Готовый текст с кликабельными таймкодами и разметкой по спикерам открывается в редакторе. AI формирует саммари за 30 секунд и ключевые тезисы. Экспорт: TXT (полный текст), SRT (субтитры для загрузки в видеохостинг или монтажную программу), DOCX (форматированный документ). RAG-чат: задавайте вопросы по содержимому видео.

Преимущества

Что вы получаете

Поддержка MP4, MOV, AVI, WebM, MKV — все распространённые видеоконтейнеры
Извлечение аудио через FFmpeg — разрешение и кодек видео не влияют на точность
Загрузка по ссылке с YouTube, VK Video, Rutube, OK, Яндекс.Дзен — без скачивания файла
Скорость 2 минуты на 1 час видео — обработка ведётся на выделенных GPU-серверах
Точность 98% на видео с чёткой речью, 94%+ на видеозвонках и вебинарах
Экспорт субтитров в формате SRT с правильными таймкодами — для YouTube и монтажных программ
Разметка до 10 спикеров — удобно для интервью, дебатов и командных встреч
AI-саммари и ключевые тезисы — не нужно смотреть часовое видео чтобы узнать суть
Стоимость от 0,83 ₽ за минуту — обработка двухчасового фильма обойдётся около 100 ₽
Первые 180 минут видео бесплатно — при регистрации без банковской карты

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

180 минут при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

820 ₽/мес

25 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QКакие форматы видео поддерживаются?

MP4 (самый распространённый), MOV (iPhone, Mac), WebM (браузерные записи), AVI (старый формат), MKV (Matroska с несколькими дорожками). Кодеки: H.264, H.265/HEVC, AV1, VP8, VP9. Если в видео несколько аудиодорожек — используется первая по умолчанию, остальные можно выбрать в настройках. Встроенные жёсткие субтитры (hardcoded) в расчёт не берутся — работаем только с аудиодорожкой.

QМожно ли транскрибировать видео с YouTube по ссылке?

Да, вставьте публичную ссылку на YouTube-видео — сервис скачает аудиодорожку через yt-dlp и передаст на распознавание. Аналогично работает с VK Video, Rutube, OK и Яндекс.Дзен. Приватные видео, видео с возрастными ограничениями и платный контент не поддерживаются. Ограничение по длительности — 6 часов, как для обычных файлов.

QМожно ли получить субтитры SRT из видео?

Да, это одна из ключевых функций. После транскрибации в разделе экспорта выберите формат SRT — получите файл субтитров с правильными таймкодами начала и конца каждой реплики. Такой SRT можно загрузить прямо в YouTube Studio, DaVinci Resolve, Premiere Pro или любой другой видеоредактор. Субтитры делятся по спикерам — каждая реплика подписана.

QВидео весит больше 500 МБ — что делать?

Сжать. Для большинства задач достаточно 720p с битрейтом 1-2 Mbps — это 1-1.5 ГБ в час, сжатие до 360p 500kbps даст ~200 МБ за час. Альтернативно — извлеките аудиодорожку отдельно: ffmpeg -i video.mp4 -vn -ar 44100 -ac 1 audio.mp3 — размер упадёт в 5-10 раз. Или вставьте ссылку на YouTube/VK вместо загрузки файла.

QКак быстро обрабатывается видео?

В среднем 2 минуты на 1 час видео. Время не зависит от разрешения или количества спикеров — только от длительности аудиодорожки. Часовой вебинар будет готов за 2 минуты, двухчасовое интервью — за 4-5 минут. После обработки придёт email-уведомление. Если сервер загружен, задача встаёт в очередь — обычно ожидание не превышает 5 минут.

QПоддерживаются ли видео с несколькими языками?

Да, автоопределение языка работает для 13 языков: русский, английский, немецкий, французский, испанский, итальянский, португальский, китайский, японский, казахский, украинский, белорусский, польский. Если спикеры переключаются между языками в одном видео — точность на смешанных фрагментах снижается на 3-5%. Оптимально — видео на одном основном языке.

Транскрибируйте видео бесплатно — 180 минут при регистрации

Попробовать бесплатно