Расшифровка интервью
Интервью — это 40-90 минут разговора двух людей и 3-5 часов ручной расшифровки потом. Журналист записывает собеседника, потом многократно перематывает и печатает. HR-специалист слушает кандидата несколько раз, чтобы ничего не упустить. UX-исследователь конспектирует цитаты из 10 интервью вручную. Dicto делает это за 2 минуты на час записи с автоматической разметкой кто говорит — интервьюер или респондент.
Расшифровать интервью бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Подходят все форматы: MP3, WAV, M4A (диктофон), MP4, MOV (запись из Zoom или Loom), OGG, FLAC, AAC. Запись на смартфон через «Голосовые заметки» — самый распространённый способ. Zoom-интервью: скачайте MP4 из облака или локальной записи. Телефонный разговор через запись экрана — тоже подойдёт. Максимальный размер 500 МБ, до 6 часов — хватает для 3-4 интервью подряд.
/02
Voxtral V2 за 2 минуты на час создаёт полный транскрипт. Diarization (разметка спикеров) автоматически разделяет реплики: Спикер 1 — вопросы интервьюера, Спикер 2 — ответы респондента. Для группового интервью или фокус-группы — до 10 спикеров. Система различает голоса по тембру и интонационным паттернам. Точность разметки 90-95% при чистой записи с хорошим разделением голосов.
/03
Стенограмма с визуальным разделением: каждый спикер выделен цветом, реплики подписаны. Таймкоды на каждой реплике — легко найти нужный момент в оригинальной записи. AI-саммари даёт краткое содержание интервью. Экспорт в DOCX — формат для редакции и отчётов, TXT — для Notion и CMS, SRT — для видеоинтервью с субтитрами.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Зарегистрируйтесь на dicto.pro (бесплатно, 180 минут без карты), загрузите файл или вставьте ссылку на YouTube/VK. Voxtral V2 обработает запись со скоростью 2 минуты на час аудио. Часовое интервью — 2 минуты ожидания и у вас полная стенограмма. Это в 30-40 раз быстрее ручной расшифровки (средняя скорость — 60-90 мин работы на 10 минут аудио).
Diarization — это автоматическое определение «кто говорит когда». Алгоритм анализирует акустические характеристики голоса (высоту, тембр, темп речи) и разделяет запись на сегменты по спикерам. Для стандартного интервью два на один (журналист + источник) точность разметки 92-96%. Если говорят одновременно или голоса очень похожи по тембру — возможны ошибки разметки. После расшифровки можно вручную переименовать «Спикер 1» в имя конкретного человека.
Интервью — более сложный тип аудио чем диктофонное чтение: незаконченные предложения, перебивания, слова-паразиты, жаргон, имена собственные. Средняя точность на интервью с чистой записью — 95-97%. Для публикации в СМИ обычно нужна лёгкая вычитка (15-20 минут на часовое интервью), а не полная переработка. Хуже работает на: сильный акцент, записи в шумных местах (кафе, улица), телефонные интервью в плохой зоне.
DOCX — самый удобный для редакций: форматированный текст с разметкой спикеров, таймкодами, легко редактировать в Word. TXT — для тех кто работает в Google Docs или Notion, чистый текст без форматирования. SRT-субтитры — если планируете публиковать видеоинтервью на YouTube или сайте. Экспортируйте в том формате, который удобен для вашего рабочего процесса — все три доступны без ограничений.
Да, и это один из самых популярных сценариев среди продакт-команд. Расшифруйте 10-15 кастдев-интервью и используйте RAG-чат для поиска паттернов: «что пользователи говорили о боли X?», «сколько человек упомянули Y?». Это в разы ускоряет аффинитивный анализ. Экспорт в DOCX позволяет легко добавлять теги и аннотации в Word. Стоимость: тариф Старт (500 ₽/мес, 10 часов) перекрывает типичный sprint с 8-10 интервью по 45 минут.
Да, если у вас есть запись. Телефонный разговор: запишите через приложение Call Recorder (iOS/Android) или через функцию записи звонков на Android — получите M4A или MP3. Аудиосообщение WhatsApp: скачайте файл OGG (удерживайте → «Поделиться» → сохраните) и загрузите в Dicto. Голосовые заметки в Telegram: скачайте OGG аналогично. Качество телефонного аудио (8-16 kHz) снижает точность до 90-94% — хуже чем очная запись, но приемлемо для большинства задач.
По теме
Голосовые сообщения WhatsApp и Telegram
ПерейтиAction items и саммари деловых встреч
ПерейтиРасшифровка профессиональных диктофонных записей
ПерейтиWorkflow: от записи до публикации в редакции
ПерейтиВсе функции Dicto для редакционной работы
Перейти