Что такое diarization — разметка спикеров и зачем она нужна
Diarization — это разметка спикеров в аудиозаписи. Разбираем как технология работает, зачем нужна и где её применять.
Определение
Diarization (от англ. *diary* — «дневник») — алгоритм автоматической разметки спикеров в аудиозаписи. На вход — поток аудио. На выход — разметка типа «00:00:00-00:00:23 говорит спикер A, 00:00:23-00:01:05 говорит спикер B». В транскрипции это преобразуется в текст с указанием кто что сказал.
Без diarization вы получите сплошной текст: «привет как дела хорошо а у тебя нормально». С diarization: «Спикер A: привет как дела. Спикер B: хорошо а у тебя. Спикер A: нормально». Разница принципиальная.
Как работает технология
Diarization — двухшаговый процесс:
Шаг 1: Voice Activity Detection (VAD)
Алгоритм находит участки с речью и отбрасывает паузы, музыку, шум. На выходе — список фрагментов «здесь кто-то говорит» с таймкодами.
Шаг 2: Speaker embeddings и кластеризация
Каждый фрагмент речи превращается в *эмбеддинг* — векторное представление в 192-512-мерном пространстве (например, через модели ECAPA-TDNN, x-vector, ResNet). Близкие в этом пространстве фрагменты — принадлежат одному говорящему. Алгоритм кластеризации (обычно k-means или spectral clustering) группирует фрагменты в кластеры — каждый кластер = один спикер.
Шаг 3: Объединение с транскрипцией
Параллельно работает ASR (Automatic Speech Recognition) — переводит аудио в текст. Затем тексту приписываются метки спикеров по таймкодам.
Какие модели используются
|---|---|---|---|
*DER = Diarization Error Rate — процент времени с неправильной разметкой.
Сложности технологии
1. Перекрывающаяся речь. Когда двое говорят одновременно (перебивают), алгоритм может потерять одного из них или присвоить речь не тому спикеру. На записях, где такого много (споры, дискуссии), DER возрастает в 2-3 раза.
2. Похожие голоса. Если два спикера имеют похожий тембр (например, два мужчины 30-40 лет с одинаковым акцентом), алгоритм может их перепутать. Особенно сложно для женских голосов одного возраста.
3. Изменения голоса. Если человек повышает или понижает голос (эмоции, кашель, разное расстояние от микрофона), он может быть классифицирован как разные спикеры.
4. Количество спикеров неизвестно. Алгоритм должен сам определить сколько голосов в записи. Если он ошибётся, разметка будет неправильной. Многие системы позволяют вручную указать «у меня 3 спикера» — это улучшает результат.
5. Качество аудио. Шум, эхо, низкий битрейт сильно деградируют точность diarization. На телефонных звонках DER 15-20% — почти 5 минут каждого часа неправильно размечены.
Применения
Подкасты и интервью
Самый очевидный кейс. В часовом интервью с гостем без diarization вы получите кашу из текста — невозможно понять кто что сказал. С diarization — структурированный диалог.
Юридические заседания
Стенограммы судебных заседаний с разметкой судья/истец/ответчик/свидетель. Критично для последующего анализа.
Корпоративные совещания
Протоколы Zoom/Teams встреч с указанием кто что предложил. Особенно важно для action items: «Иван взял на себя задачу X».
HR-интервью
Запись собеседований с разделением «HR» / «Кандидат». Особенно полезно для пересмотра записи после нескольких дней.
Колл-центры
Анализ звонков с разметкой «Оператор» / «Клиент». Помогает QA и обучению сотрудников.
Журналистика
Расшифровка пресс-конференций с разделением вопросов журналистов и ответов спикеров.
Ограничения и обходы
Слишком много спикеров. Большинство моделей работают хорошо до 6-8 спикеров. На 10+ голосах DER резко растёт. Решение: разбить запись на части (если возможно по контексту) или использовать видеозапись для лучшей идентификации.
Тихие спикеры. Если один из спикеров говорит сильно тише других, его реплики могут быть отнесены к «шуму». Решение: нормализовать громкость в DAW перед загрузкой.
Реверберация. Эхо в комнате создаёт «двойной» голос — алгоритм может посчитать это за двух разных спикеров. Решение: записывать в звукопоглощающем помещении или применить de-reverb в постобработке.
Сравнение точности на разных условиях
|---|---|---|
Voxtral V2 показывает на 2-5 пунктов лучше pyannote (open-source baseline) за счёт более крупной модели и специальной тренировки.
Что улучшает результат
Будущее технологии
В 2026-2027 ожидается переход к end-to-end моделям, где ASR и diarization работают совместно с обратной связью. Это уменьшит DER до 2-4% на типовых записях. Также прогнозируется развитие *speaker identification* — не просто «спикер A», а реальное имя человека (если он есть в базе голосов компании).
Вывод
Diarization — невидимый, но критически важный слой современной транскрибации. Без него длинные записи с несколькими спикерами теряют 80% полезности. Voxtral V2 в Dicto даёт лучшее качество разметки на русском среди доступных сервисов.
Попробуйте Dicto бесплатно
180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.
Начать бесплатно