Английский язык
Английский — второй по приоритету язык в Dicto после русского. Foundation-модель Voxtral V2 обучалась преимущественно на английских корпусах (как и большинство современных моделей), поэтому точность на чистом английском аудио достигает 99%. Хорошо распознаём American English, British English, Australian, Indian English. Технические термины (программирование, медицина, юриспруденция), специальная лексика (финансы, маркетинг), сленг — всё работает. Особый плюс для русскоязычной аудитории: AI-саммари, ключевые тезисы и action items по англоязычному аудио генерируются на русском (если включить в настройках), что упрощает работу с зарубежным контентом.
Расшифровать английский бесплатноБез карты · 180 минут бесплатно при регистрации
Процесс
/01
Аудио (MP3, WAV, FLAC, OGG, M4A, AAC, WebM) или видео (MP4, MOV, WebM) до 500 МБ. Ссылки на YouTube тоже работают — yt-dlp скачает оригинальную дорожку без перевода. Подходят TED Talks, англоязычные подкасты (The Daily, Lex Fridman, Joe Rogan), курсы Coursera/edX, корпоративные совещания на английском.
/02
Voxtral V2 обработает запись за 2 минуты на час. Точность 99% на студийной записи (TED, подкасты крупных студий), 97-98% на YouTube-видео, 95-97% на телефонных звонках. Поддерживаются разные акценты: American, British, Indian, Australian, Singaporean. Diarization до 10 спикеров.
/03
Текст на английском с таймкодами и разметкой спикеров. AI-саммари можно сгенерировать на русском или английском — выберите в настройках. Это особенно полезно для бизнес-задач: расшифровать звонок с клиентом на английском, получить итоги на русском для команды. Экспорт TXT, SRT, DOCX.
Преимущества
Тарифы
Начните бесплатно. Переходите когда нужно больше минут.
/free
180 минут при регистрации
/start
10 часов, спикеры, AI-инсайты
/pro
25 часов, RAG-чат
FAQ
На чистом студийном английском (TED Talks, профессиональные подкасты) — 99%. На YouTube-видео среднего качества — 97-98%. На записях со смартфона — 96-98%. На телефонных звонках с акцентом — 94-97%. Сравните: Whisper Large v3 даёт 96-97% на тех же тестах, Google Speech-to-Text — 95-97%, Amazon Transcribe — 96-98%. Voxtral V2 для английского находится на уровне топовых моделей рынка.
Да, все основные английские акценты работают. American English — основной обучающий корпус (~60% данных). British English — 15-20%, Australian — 5-10%, Indian — 5-10%, остальные акценты — единичные проценты. На практике это означает: точность на American 99%, на British 98%, Australian 97%, Indian 95-97%. Сильный индийский акцент (Mumbai dialect) может давать 93-95%. Singaporean и Filipino English — обычно 95-97%.
Да, и это популярный сценарий для технических конференций. AI автоматически переключается между языками внутри одной фразы или абзаца. Например: «Мы выбрали FastAPI потому что async-первый и легче чем Django». Точность может снижаться на 3-5% по сравнению с моноязычной записью. Если переключений много (каждое второе предложение), точность ~92-95%. Если переключения редкие (одно слово в минуту), точность остаётся на уровне 96-98%.
Если нужна высокая точность для статьи, цитат или презентации — Dicto (97-98% vs 92-95% у YouTube). Если просто посмотреть о чём ролик — YouTube автокаптионы бесплатно. У Dicto дополнительно: diarization (YouTube показывает один сплошной текст), AI-саммари (YouTube не делает), RAG-чат для вопросов, экспорт в разные форматы. Для коммерческого использования или серьёзной работы — однозначно Dicto.
Да, для большинства профессиональных областей. Программистский лексикон (microservices, kubernetes, async/await, monorepo) — отлично, модель обучалась на технических подкастах и курсах. Финансовая лексика (EBITDA, leverage, derivative, ESG) — корректно. Медицинская терминология — обычно распознаётся, но для узкоспециальных терминов (например хирургические процедуры на латыни) лучше использовать словарь терминов в настройках. Юридический английский (lien, tort, indemnity) — на уровне 95-98%.
Да, через AI-функцию «Переведи на русский». После расшифровки текста на английском нажмите «Перевести» — Gemini переведёт весь текст на русский за 30-60 секунд. Качество перевода — на уровне DeepL или ChatGPT, для большинства бытовых и бизнес-задач хорошо. Для художественного перевода (стихи, литературные произведения) машинный перевод не подходит — нужен человек. Перевод бесплатен в рамках вашего тарифа.
Да, это популярный сценарий. Звонок Zoom/Teams с международным клиентом → запись → загрузка в Dicto → расшифровка с разметкой спикеров → AI-саммари на русском для российской команды → action items. Время на постзвонок: 5-10 минут вместо часа ручной работы. Подписываем DPA по 152-ФЗ, файлы хранятся в РФ. Для команд тариф Бизнес 2 300 ₽/мес на 5 пользователей.
Dicto официально поддерживает 13 языков: русский, английский, китайский, казахский, арабский, немецкий, испанский, французский, итальянский, португальский, голландский, польский, украинский. Все они автоопределяются. Если AI услышит испанскую фразу — распознает корректно. Если что-то более редкое (тайский, вьетнамский, иврит) — точность может падать до 60-70%. Для редких языков лучше использовать специализированные сервисы (например, OpenAI Whisper в режиме конкретного языка).
По теме