Расшифровка видео
Расшифровка видео — получение полной стенограммы: структурированного текста со всеми репликами, таймкодами и разделением по спикерам. Это не просто субтитры (короткие фрагменты для синхронизации с видео), а полноценный документ, пригодный для редактирования, публикации и поиска. Dicto расшифровывает видео за 2 минуты на каждый час с точностью 98% и формирует AI-саммари поверх готового текста.
Расшифровать видео бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Поддерживаются MP4, MOV, AVI, WebM, MKV — до 500 МБ и 6 часов длительности. Кодек и разрешение не важны: аудиодорожка извлекается через FFmpeg независимо от качества картинки. Для YouTube, VK Video, Rutube, OK и Яндекс.Дзен достаточно вставить ссылку — файл скачивается на сервере автоматически.
/02
Voxtral транскрибирует аудиодорожку в связный текст с пунктуацией, заглавными буквами и разбивкой на абзацы. Diarization-алгоритм параллельно определяет смену спикеров и формирует диалоговую структуру — до 10 разных голосов. Каждая реплика получает таймкод начала и конца.
/03
В браузере открывается полная стенограмма — редактируйте текст, переименуйте спикеров, добавьте примечания. AI формирует краткое изложение за 30 секунд и список ключевых тезисов. Экспорт: TXT (для работы с текстом), SRT (субтитры), DOCX (оформленный документ с заголовками и разметкой спикеров).
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Субтитры — это короткие фрагменты текста (обычно 1-2 строки, 5-7 секунд), синхронизированные с видео для отображения поверх картинки. Они оптимизированы для удобного чтения, поэтому часто сокращены. Стенограмма — полный документ с прямой речью, разбитый по спикерам и снабжённый таймкодами. Dicto генерирует оба варианта: стенограмму в TXT/DOCX и субтитры в SRT.
Вставьте публичную ссылку на YouTube, VK Video, Rutube, OK или Яндекс.Дзен. Сервер скачивает аудиодорожку через yt-dlp — вам не нужно скачивать файл самостоятельно и загружать его. После скачивания запускается та же цепочка обработки что и для локальных файлов. Ограничения: видео должно быть публичным, длительность до 6 часов, плейлисты не поддерживаются (только отдельные видео).
Да, именно для этого используется diarization. Алгоритм определяет уникальные голосовые характеристики каждого спикера и разделяет реплики. До 10 спикеров в одной записи. После расшифровки вы можете переименовать «Говорящий 1» в «Иван» прямо в редакторе. Это особенно полезно для интервью, дискуссий, совещаний и судебных заседаний.
Качество картинки не важно — мы работаем только с аудиодорожкой. Важно качество звука: студийный микрофон или петличка дают 98%, встроенный микрофон ноутбука — 95-97%, телефонный звонок или запись вебинара — 90-94%. Главные враги точности: эхо в помещении, фоновая музыка и несколько человек говорящих одновременно.
Автоматическая расшифровка с точностью 98% подходит для внутренних корпоративных документов, протоколов совещаний и образовательных материалов. Для юридически значимых документов (судебные протоколы, нотариальные записи) автоматическую расшифровку нужно проверить и заверить уполномоченным лицом. Dicto даёт черновик высокого качества, который значительно сокращает время финальной проверки.
На тарифе Старт (500 ₽/мес, 600 минут): 60 минут видео = ~50 ₽. На тарифе Про (820 ₽/мес, 1500 минут): ~33 ₽ за час. Для сравнения: профессиональный транскрибатор берёт 300-600 ₽ за час видео и выполняет работу за 4-8 часов. Первые 180 минут (3 часа видео) бесплатно при регистрации — без карты.
Пока нет возможности указать диапазон времени при загрузке — обрабатывается весь файл. Как временное решение: обрежьте видео до нужного фрагмента в любом редакторе (iMovie, DaVinci Resolve, ffmpeg) и загрузите обрезанный файл. Функция выбора диапазона запланирована в обновлениях 2026 года.
По теме
MP4, MOV, AVI, WebM — подробно о форматах и процессе
ПерейтиБазовая страница о конвертации видеозаписей в текст
ПерейтиЭкспорт SRT и добавление субтитров на YouTube и в монтаж
ПерейтиАвтоматический протокол из записи встречи с action items
ПерейтиКак алгоритм разделяет голоса в расшифровке
Перейти