MP3 в текст
MP3 — самый распространённый аудиоформат: диктофоны, смартфоны, записи лекций и совещаний, подкасты, голосовые заметки. Загрузите файл на dicto.pro — нейросеть Voxtral V2 расшифрует аудио в текст за 2 минуты на час записи с точностью 98% на русском языке. Таймкоды у каждой фразы, разметка спикеров до 10 голосов, AI-саммари и экспорт в нужном формате.
Расшифровать MP3 бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Перетащите файл в окно загрузки или нажмите «Выбрать файл». Максимальный размер — 500 МБ (это примерно 8-10 часов MP3 при стандартном битрейте 128 kbps). Максимальная длительность — 6 часов. Если файл больше — сожмите битрейт через Audacity или онлайн-конвертер (128 kbps достаточно для точной транскрибации). Помимо MP3 принимаем WAV, FLAC, OGG, M4A, AAC — загружайте в том формате в каком он у вас есть.
/02
Voxtral V2 начинает обработку сразу после загрузки. Скорость — 2 минуты на час MP3. Алгоритм автоматически определяет язык (из 13 поддерживаемых), расставляет знаки препинания, разбивает текст на абзацы по паузам и сменам темы. Diarization (разметка спикеров) работает параллельно — определяет кто говорит в каждый момент. На странице транскрипции видно прогресс в реальном времени.
/03
Готовый транскрипт с таймкодами у каждой фразы — кликните на таймкод чтобы перейти к этому моменту в аудиоплеере. Разметка спикеров визуально выделена цветом. AI-саммари — краткое содержание записи. Экспортируйте в нужном формате: TXT для Notion и Google Docs, SRT для видео с субтитрами, DOCX для редактирования в Word.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
Максимум 500 МБ на файл. Стандартный MP3 при 128 kbps весит ~1 МБ в минуту — значит 500 МБ это около 8 часов аудио. На практике ограничение срабатывает только для очень больших файлов. Если ваш файл больше 500 МБ: конвертируйте в MP3 с битрейтом 64-96 kbps через Audacity или FFmpeg (качество для транскрибации не пострадает), или разделите на части. Также ограничение по длительности — 6 часов.
Да, но порог довольно низкий. При 64 kbps и выше — точность 97-98%, разницы почти нет. При 32 kbps — лёгкое снижение до 94-96%, слышны артефакты сжатия. При 16 kbps и ниже (голосовые кодеки для телефонии) — точность может падать до 88-92%, особенно на сложных именах и терминах. Для подкастов (обычно 128-320 kbps) и диктофонных записей (64-192 kbps) — никаких проблем. Рекомендуем не конвертировать ниже 64 kbps.
Конвертировать не нужно — Dicto принимает все популярные аудиоформаты напрямую: WAV, FLAC, OGG, M4A, AAC, WebM. Видеоформаты тоже: MP4, MOV (из них извлекается аудиодорожка через FFmpeg). Загружайте файл в том формате в каком он у вас есть. Единственное исключение — форматы с DRM-защитой (например защищённые M4P из iTunes) — они не поддерживаются и не могут быть расшифрованы.
Для точности распознавания речи разницы практически нет — Voxtral одинаково хорошо работает с mono и stereo. Для diarization (разметки спикеров) stereo иногда даёт преимущество: если разные спикеры пишутся на разные каналы (например в Zoom или профессиональных диктофонах), алгоритм может использовать это для более точного разделения. В mono diarization работает по акустическим характеристикам голоса — чуть менее точно, но обычно приемлемо.
Голосовые сообщения Telegram сохраняются в формате OGG (Opus), WhatsApp — тоже OGG. Чтобы расшифровать: в Telegram — нажмите на голосовое → три точки → «Сохранить в загрузки» — получите файл OGG. В WhatsApp — удерживайте голосовое → «Поделиться» → сохраните. Файлы OGG напрямую принимаются Dicto без конвертации. Качество голосовых из мессенджеров обычно 8-16 kHz — точность транскрибации 90-94%.
Аудиофайл MP3 хранится на серверах Selectel (Россия) 7 дней после загрузки, затем автоматически удаляется. Текстовый транскрипт хранится до тех пор пока вы его не удалите или не закроете аккаунт. Данные не передаются третьим лицам и не используются для обучения моделей. Всё соответствует 152-ФЗ о персональных данных. Если вам нужно удалить файл раньше 7 дней — есть кнопка удаления в интерфейсе транскрипта.
По теме
Общая страница о транскрибации аудио
ПерейтиТипичные сценарии для диктофонных MP3-записей
ПерейтиВсе форматы и возможности сервиса
ПерейтиПодробнее о технологии и точности
Перейти180 минут бесплатно при регистрации
Перейти