Перевести аудио в текст

Перевести аудио в текст онлайн — 2 минуты на час записи

Перевести аудио в текст можно тремя способами: вручную (4-6 часов работы на каждый час записи), через ручного транскрибатора (1-2 дня и 300-600 ₽ за час) или через AI-сервис (2 минуты и 50-83 ₽ за час). Dicto — третий вариант. Загружаете аудиофайл — через 2 минуты получаете текст с пунктуацией, разметкой спикеров и таймкодами. Точность 98% на чистом русском, 95%+ на телефонной записи. Поддерживаются 13 языков с автоопределением, не нужно вручную указывать какой именно язык в аудио.

Перевести в текст бесплатно

Без карты · 180 минут бесплатно при регистрации

Процесс

Как это работает

/01

Загрузите аудиофайл

Поддержка MP3, WAV, FLAC, OGG, M4A, AAC, WebM, а также видео MP4, WebM, MOV (мы извлечём аудиодорожку). До 500 МБ и 6 часов длительности. Можно вставить ссылку на YouTube, VK Video, Rutube, OK или Яндекс.Дзен — yt-dlp скачает аудио автоматически.

/02

AI переводит речь в текст

Foundation-модель распознаёт слова, отделяет реплики разных спикеров, расставляет знаки препинания. Поддерживается 13 языков с автоопределением: русский, английский, немецкий, испанский, французский, итальянский, португальский, голландский, польский, украинский, китайский, японский, корейский.

/03

Скачайте результат

Готовый текст с кликабельными таймкодами и цветовой разметкой спикеров. AI-саммари за 30 секунд, ключевые тезисы и action items дополнительно. Экспорт в TXT (чистый текст), SRT (субтитры) или DOCX (форматированный документ). RAG-чат для поиска по содержимому.

Преимущества

Что вы получаете

Перевод за 2 минуты на 1 час аудио — в 100+ раз быстрее ручной транскрипции
Точность 98% на чистом русском, 95%+ на телефонном качестве звука
13 поддерживаемых языков с автоматическим определением
Разметка спикеров (до 10 голосов) с цветовой кодировкой
AI-саммари, ключевые тезисы и action items дополнительно к тексту
180 минут бесплатно при регистрации — без банковской карты
Стоимость от 0,83 ₽/мин (тариф Старт) — в 6 раз дешевле фрилансера
Экспорт в TXT, SRT, DOCX и копирование в буфер обмена в один клик
Не нужно устанавливать программы — работает прямо в браузере
Файлы хранятся 7 дней, удаляются автоматически (152-ФЗ compliance)

Тарифы

Простые и прозрачные

Начните бесплатно. Переходите когда нужно больше минут.

/free

0 ₽

180 минут при регистрации

/start

500 ₽/мес

10 часов, спикеры, AI-инсайты

/pro

820 ₽/мес

25 часов, RAG-чат

Все тарифы

FAQ

Частые вопросы

QКак именно работает перевод аудио в текст?

Алгоритм состоит из трёх шагов. Первый — VAD (Voice Activity Detection) находит участки с речью и отбрасывает паузы. Второй — основная foundation-модель (нейросеть на 7-15 миллиардов параметров) преобразует аудио в текст. Это не словарное распознавание, а понимание контекста: модель «угадывает» неразборчивые слова по соседним. Третий шаг — постобработка: расстановка пунктуации, разметка спикеров через diarization-модель, форматирование текста.

QМожно ли перевести аудио на иностранном языке?

Да, поддерживаются 13 языков с автоопределением. Это значит — не нужно вручную выбирать язык, AI сам распознает речь любого из поддерживаемых языков. Если в аудио переключаются языки (русский + английский в одной фразе), это тоже работает, но точность может снижаться на 3-5%. Для максимальной точности на конкретном языке можно явно указать его в настройках транскрибации.

QСохраняет ли AI знаки препинания и форматирование?

Да. Точки, запятые, тире, восклицательные и вопросительные знаки расставляются автоматически. Заглавные буквы тоже — в начале предложений и в именах собственных. AI разделяет текст на абзацы по смыслу. Особенно хорошо это работает для подкастов и интервью, где структура чёткая. Для бытовых записей с множеством «эээ» и «угу» — AI старается их исключить, оставляя только осмысленную речь.

QЧто значит «перевести аудио в текст бесплатно»?

При регистрации мы даём 180 минут бесплатно — это 3 часа аудио. Бонус единоразовый, не сгорает. Не нужно вводить карту, не активируется автоматическая подписка. После того как 180 минут закончатся, либо переходите на платный тариф (от 500 ₽/мес), либо просто перестаёте пользоваться. Бесплатный тариф не отличается по функциям и качеству от платных — урезана только квота.

QКакие форматы аудио и видео можно перевести?

Аудио: MP3, WAV, FLAC, OGG, M4A, AAC, WebM. Видео: MP4, WebM, MOV — для них мы автоматически вытаскиваем дорожку через FFmpeg. Также можно вставить публичную ссылку на YouTube, VK Video, Rutube, OK или Яндекс.Дзен — yt-dlp скачает аудио. Лимит 500 МБ на файл и 6 часов длительности. Файлы со встроенными субтитрами тоже работают, мы используем именно аудиодорожку (для проверки качества модели).

QЧто делать если AI неправильно распознал термин или имя?

В интерфейсе Dicto можно отредактировать любую часть текста: исправить ошибки распознавания, переименовать спикеров, добавить пропущенные слова. Изменения сохраняются в реальном времени. Также можно дать AI словарь специфических терминов в настройках транскрипции — например для медицинских или юридических записей. Это улучшает распознавание узкопрофессиональной лексики на 5-15%.

QМожно ли перевести аудио с записи телефонного разговора?

Да, но точность будет ниже из-за низкого битрейта телефонной линии (8 kHz vs 44 kHz у студийного аудио). Ожидайте 92-95% точности вместо 98% на чистой записи. Для лучшего результата сохраняйте звонок в WAV без сжатия. AI хорошо справляется с фоновыми шумами (улица, кафе), но эхо в комнате значительно ухудшает результат — пишите в относительно «глухом» помещении.

QЧем Dicto отличается от Yandex.SpeechKit или Whisper для перевода аудио?

Yandex SpeechKit — API без UI, нужно писать код. Whisper — open-source модель, надо ставить на свой сервер с GPU. Dicto — готовый сервис: загрузил файл, через 2 минуты получил текст с дополнительными AI-инсайтами (саммари, тезисы, action items, RAG-чат). По точности на русском Voxtral V2 в Dicto показывает 98%, у YandexSpeechKit ~95%, у Whisper Large v3 ~96%.

Переведите аудио в текст за 2 минуты

Попробовать бесплатно