MP3 в текст

MP3 в текст онлайн — загрузите файл, получите транскрипт

MP3 — самый распространённый аудиоформат: диктофоны, смартфоны, записи лекций и совещаний, подкасты, голосовые заметки. Загрузите файл на dicto.pro — нейросеть Voxtral V2 расшифрует аудио в текст за 2 минуты на час записи с точностью 98% на русском языке. Таймкоды у каждой фразы, разметка спикеров до 10 голосов, AI-саммари и экспорт в нужном формате.

Расшифровать MP3 бесплатно

Без карты · 180 минут бесплатно при регистрации

Процесс

Как это работает

/01

Загрузите MP3 файл (до 500 МБ)

Перетащите файл в окно загрузки или нажмите «Выбрать файл». Максимальный размер — 500 МБ (это примерно 8-10 часов MP3 при стандартном битрейте 128 kbps). Максимальная длительность — 6 часов. Если файл больше — сожмите битрейт через Audacity или онлайн-конвертер (128 kbps достаточно для точной транскрибации). Помимо MP3 принимаем WAV, FLAC, OGG, M4A, AAC — загружайте в том формате в каком он у вас есть.

/02

Нейросеть обработает аудио

Voxtral V2 начинает обработку сразу после загрузки. Скорость — 2 минуты на час MP3. Алгоритм автоматически определяет язык (из 13 поддерживаемых), расставляет знаки препинания, разбивает текст на абзацы по паузам и сменам темы. Diarization (разметка спикеров) работает параллельно — определяет кто говорит в каждый момент. На странице транскрипции видно прогресс в реальном времени.

/03

Получите текст с таймкодами, экспортируйте в TXT/SRT/DOCX

Готовый транскрипт с таймкодами у каждой фразы — кликните на таймкод чтобы перейти к этому моменту в аудиоплеере. Разметка спикеров визуально выделена цветом. AI-саммари — краткое содержание записи. Экспортируйте в нужном формате: TXT для Notion и Google Docs, SRT для видео с субтитрами, DOCX для редактирования в Word.

Преимущества

Что вы получаете

Точность 98% на русском языке — лучше Yandex SpeechKit и Google Speech
Скорость 2 минуты на 1 час MP3 — не нужно ждать часами
Таймкод у каждой фразы — найдите нужный момент в 1 клик
Разметка спикеров до 10 голосов — видно кто говорит в каждой реплике
AI-саммари, тезисы, action items — смысл записи без прослушивания
Экспорт TXT, SRT, DOCX — выберите формат под задачу
Поддержка MP3, WAV, FLAC, OGG, M4A, AAC, WebM — конвертировать не нужно
Размер файла до 500 МБ, длительность до 6 часов — большие записи без проблем
13 языков — английские, немецкие, испанские MP3 тоже расшифрует
180 минут бесплатно при регистрации — без банковской карты

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

180 минут при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

820 ₽/мес

25 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QКакой максимальный размер MP3 файла можно загрузить?

Максимум 500 МБ на файл. Стандартный MP3 при 128 kbps весит ~1 МБ в минуту — значит 500 МБ это около 8 часов аудио. На практике ограничение срабатывает только для очень больших файлов. Если ваш файл больше 500 МБ: конвертируйте в MP3 с битрейтом 64-96 kbps через Audacity или FFmpeg (качество для транскрибации не пострадает), или разделите на части. Также ограничение по длительности — 6 часов.

QВлияет ли битрейт MP3 на точность расшифровки?

Да, но порог довольно низкий. При 64 kbps и выше — точность 97-98%, разницы почти нет. При 32 kbps — лёгкое снижение до 94-96%, слышны артефакты сжатия. При 16 kbps и ниже (голосовые кодеки для телефонии) — точность может падать до 88-92%, особенно на сложных именах и терминах. Для подкастов (обычно 128-320 kbps) и диктофонных записей (64-192 kbps) — никаких проблем. Рекомендуем не конвертировать ниже 64 kbps.

QЧто если у меня не MP3, а другой формат — WAV, M4A, OGG?

Конвертировать не нужно — Dicto принимает все популярные аудиоформаты напрямую: WAV, FLAC, OGG, M4A, AAC, WebM. Видеоформаты тоже: MP4, MOV (из них извлекается аудиодорожка через FFmpeg). Загружайте файл в том формате в каком он у вас есть. Единственное исключение — форматы с DRM-защитой (например защищённые M4P из iTunes) — они не поддерживаются и не могут быть расшифрованы.

QMono или Stereo — есть ли разница для транскрибации?

Для точности распознавания речи разницы практически нет — Voxtral одинаково хорошо работает с mono и stereo. Для diarization (разметки спикеров) stereo иногда даёт преимущество: если разные спикеры пишутся на разные каналы (например в Zoom или профессиональных диктофонах), алгоритм может использовать это для более точного разделения. В mono diarization работает по акустическим характеристикам голоса — чуть менее точно, но обычно приемлемо.

QКак обстоит дело с MP3 из мессенджеров — голосовые Telegram, WhatsApp?

Голосовые сообщения Telegram сохраняются в формате OGG (Opus), WhatsApp — тоже OGG. Чтобы расшифровать: в Telegram — нажмите на голосовое → три точки → «Сохранить в загрузки» — получите файл OGG. В WhatsApp — удерживайте голосовое → «Поделиться» → сохраните. Файлы OGG напрямую принимаются Dicto без конвертации. Качество голосовых из мессенджеров обычно 8-16 kHz — точность транскрибации 90-94%.

QЧто происходит с файлом после расшифровки?

Аудиофайл MP3 хранится на серверах Selectel (Россия) 7 дней после загрузки, затем автоматически удаляется. Текстовый транскрипт хранится до тех пор пока вы его не удалите или не закроете аккаунт. Данные не передаются третьим лицам и не используются для обучения моделей. Всё соответствует 152-ФЗ о персональных данных. Если вам нужно удалить файл раньше 7 дней — есть кнопка удаления в интерфейсе транскрипта.

MP3 в текст онлайн — загрузите и получите транскрипт

Попробовать бесплатно