Перевести аудио в текст
Перевести аудио в текст можно тремя способами: вручную (4-6 часов работы на каждый час записи), через ручного транскрибатора (1-2 дня и 300-600 ₽ за час) или через AI-сервис (2 минуты и 50-83 ₽ за час). Dicto — третий вариант. Загружаете аудиофайл — через 2 минуты получаете текст с пунктуацией, разметкой спикеров и таймкодами. Точность 98% на чистом русском, 95%+ на телефонной записи. Поддерживаются 13 языков с автоопределением, не нужно вручную указывать какой именно язык в аудио.
Перевести в текст бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Поддержка MP3, WAV, FLAC, OGG, M4A, AAC, WebM, а также видео MP4, WebM, MOV (мы извлечём аудиодорожку). До 500 МБ и 6 часов длительности. Можно вставить ссылку на YouTube, VK Video, Rutube, OK или Яндекс.Дзен — yt-dlp скачает аудио автоматически.
/02
Foundation-модель распознаёт слова, отделяет реплики разных спикеров, расставляет знаки препинания. Поддерживается 13 языков с автоопределением: русский, английский, немецкий, испанский, французский, итальянский, португальский, голландский, польский, украинский, китайский, японский, корейский.
/03
Готовый текст с кликабельными таймкодами и цветовой разметкой спикеров. AI-саммари за 30 секунд, ключевые тезисы и action items дополнительно. Экспорт в TXT (чистый текст), SRT (субтитры) или DOCX (форматированный документ). RAG-чат для поиска по содержимому.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Алгоритм состоит из трёх шагов. Первый — VAD (Voice Activity Detection) находит участки с речью и отбрасывает паузы. Второй — основная foundation-модель (нейросеть на 7-15 миллиардов параметров) преобразует аудио в текст. Это не словарное распознавание, а понимание контекста: модель «угадывает» неразборчивые слова по соседним. Третий шаг — постобработка: расстановка пунктуации, разметка спикеров через diarization-модель, форматирование текста.
Да, поддерживаются 13 языков с автоопределением. Это значит — не нужно вручную выбирать язык, AI сам распознает речь любого из поддерживаемых языков. Если в аудио переключаются языки (русский + английский в одной фразе), это тоже работает, но точность может снижаться на 3-5%. Для максимальной точности на конкретном языке можно явно указать его в настройках транскрибации.
Да. Точки, запятые, тире, восклицательные и вопросительные знаки расставляются автоматически. Заглавные буквы тоже — в начале предложений и в именах собственных. AI разделяет текст на абзацы по смыслу. Особенно хорошо это работает для подкастов и интервью, где структура чёткая. Для бытовых записей с множеством «эээ» и «угу» — AI старается их исключить, оставляя только осмысленную речь.
При регистрации мы даём 180 минут бесплатно — это 3 часа аудио. Бонус единоразовый, не сгорает. Не нужно вводить карту, не активируется автоматическая подписка. После того как 180 минут закончатся, либо переходите на платный тариф (от 500 ₽/мес), либо просто перестаёте пользоваться. Бесплатный тариф не отличается по функциям и качеству от платных — урезана только квота.
Аудио: MP3, WAV, FLAC, OGG, M4A, AAC, WebM. Видео: MP4, WebM, MOV — для них мы автоматически вытаскиваем дорожку через FFmpeg. Также можно вставить публичную ссылку на YouTube, VK Video, Rutube, OK или Яндекс.Дзен — yt-dlp скачает аудио. Лимит 500 МБ на файл и 6 часов длительности. Файлы со встроенными субтитрами тоже работают, мы используем именно аудиодорожку (для проверки качества модели).
В интерфейсе Dicto можно отредактировать любую часть текста: исправить ошибки распознавания, переименовать спикеров, добавить пропущенные слова. Изменения сохраняются в реальном времени. Также можно дать AI словарь специфических терминов в настройках транскрипции — например для медицинских или юридических записей. Это улучшает распознавание узкопрофессиональной лексики на 5-15%.
Да, но точность будет ниже из-за низкого битрейта телефонной линии (8 kHz vs 44 kHz у студийного аудио). Ожидайте 92-95% точности вместо 98% на чистой записи. Для лучшего результата сохраняйте звонок в WAV без сжатия. AI хорошо справляется с фоновыми шумами (улица, кафе), но эхо в комнате значительно ухудшает результат — пишите в относительно «глухом» помещении.
Yandex SpeechKit — API без UI, нужно писать код. Whisper — open-source модель, надо ставить на свой сервер с GPU. Dicto — готовый сервис: загрузил файл, через 2 минуты получил текст с дополнительными AI-инсайтами (саммари, тезисы, action items, RAG-чат). По точности на русском Voxtral V2 в Dicto показывает 98%, у YandexSpeechKit ~95%, у Whisper Large v3 ~96%.
По теме
То же самое под индустриальным названием
ПерейтиБытовое название того же процесса
ПерейтиЕщё один синоним — преобразование
ПерейтиКак получить 3 часа транскрибации без оплаты
ПерейтиWER, шум, акценты, длина пауз — гайд
Перейти