Технологии2026-04-227 мин

Что такое diarization — разметка спикеров и зачем она нужна

Diarization — это разметка спикеров в аудиозаписи. Разбираем как технология работает, зачем нужна и где её применять.

Определение

Diarization (от англ. *diary* — «дневник») — алгоритм автоматической разметки спикеров в аудиозаписи. На вход — поток аудио. На выход — разметка типа «00:00:00-00:00:23 говорит спикер A, 00:00:23-00:01:05 говорит спикер B». В транскрипции это преобразуется в текст с указанием кто что сказал.

Без diarization вы получите сплошной текст: «привет как дела хорошо а у тебя нормально». С diarization: «Спикер A: привет как дела. Спикер B: хорошо а у тебя. Спикер A: нормально». Разница принципиальная.

Как работает технология

Diarization — двухшаговый процесс:

Шаг 1: Voice Activity Detection (VAD)

Алгоритм находит участки с речью и отбрасывает паузы, музыку, шум. На выходе — список фрагментов «здесь кто-то говорит» с таймкодами.

Шаг 2: Speaker embeddings и кластеризация

Каждый фрагмент речи превращается в *эмбеддинг* — векторное представление в 192-512-мерном пространстве (например, через модели ECAPA-TDNN, x-vector, ResNet). Близкие в этом пространстве фрагменты — принадлежат одному говорящему. Алгоритм кластеризации (обычно k-means или spectral clustering) группирует фрагменты в кластеры — каждый кластер = один спикер.

Шаг 3: Объединение с транскрипцией

Параллельно работает ASR (Automatic Speech Recognition) — переводит аудио в текст. Затем тексту приписываются метки спикеров по таймкодам.

Какие модели используются

Модель	Размер	Точность DER*	Авторы
pyannote.audio 3.x	28M params	6-12%	Hervé Bredin
WhisperX + diarization	varies	8-15%	Max Bain
NVIDIA NeMo TitaNet	23M params	5-10%	NVIDIA
Voxtral + diarization (Dicto)	proprietary	4-8%	Mistral AI

*DER = Diarization Error Rate — процент времени с неправильной разметкой.

Сложности технологии

1. Перекрывающаяся речь. Когда двое говорят одновременно (перебивают), алгоритм может потерять одного из них или присвоить речь не тому спикеру. На записях, где такого много (споры, дискуссии), DER возрастает в 2-3 раза.

2. Похожие голоса. Если два спикера имеют похожий тембр (например, два мужчины 30-40 лет с одинаковым акцентом), алгоритм может их перепутать. Особенно сложно для женских голосов одного возраста.

3. Изменения голоса. Если человек повышает или понижает голос (эмоции, кашель, разное расстояние от микрофона), он может быть классифицирован как разные спикеры.

4. Количество спикеров неизвестно. Алгоритм должен сам определить сколько голосов в записи. Если он ошибётся, разметка будет неправильной. Многие системы позволяют вручную указать «у меня 3 спикера» — это улучшает результат.

5. Качество аудио. Шум, эхо, низкий битрейт сильно деградируют точность diarization. На телефонных звонках DER 15-20% — почти 5 минут каждого часа неправильно размечены.

Применения

Подкасты и интервью

Самый очевидный кейс. В часовом интервью с гостем без diarization вы получите кашу из текста — невозможно понять кто что сказал. С diarization — структурированный диалог.

Юридические заседания

Стенограммы судебных заседаний с разметкой судья/истец/ответчик/свидетель. Критично для последующего анализа.

Корпоративные совещания

Протоколы Zoom/Teams встреч с указанием кто что предложил. Особенно важно для action items: «Иван взял на себя задачу X».

HR-интервью

Запись собеседований с разделением «HR» / «Кандидат». Особенно полезно для пересмотра записи после нескольких дней.

Колл-центры

Анализ звонков с разметкой «Оператор» / «Клиент». Помогает QA и обучению сотрудников.

Журналистика

Расшифровка пресс-конференций с разделением вопросов журналистов и ответов спикеров.

Ограничения и обходы

Слишком много спикеров. Большинство моделей работают хорошо до 6-8 спикеров. На 10+ голосах DER резко растёт. Решение: разбить запись на части (если возможно по контексту) или использовать видеозапись для лучшей идентификации.

Тихие спикеры. Если один из спикеров говорит сильно тише других, его реплики могут быть отнесены к «шуму». Решение: нормализовать громкость в DAW перед загрузкой.

Реверберация. Эхо в комнате создаёт «двойной» голос — алгоритм может посчитать это за двух разных спикеров. Решение: записывать в звукопоглощающем помещении или применить de-reverb в постобработке.

Сравнение точности на разных условиях

Запись	DER pyannote	DER Voxtral+Dicto
2 спикера, студия, без перекрытия	4-6%	3-5%
3-4 спикера, студия	7-10%	5-7%
2 спикера, телефон	10-15%	8-12%
Совещание Zoom 5 чел	8-12%	5-9%
Дискуссия с перекрытиями	15-25%	10-18%

Voxtral V2 показывает на 2-5 пунктов лучше pyannote (open-source baseline) за счёт более крупной модели и специальной тренировки.

Что улучшает результат

1.Качественная запись — каждый спикер на своём микрофоне, балансировка громкости.
2.Разделение каналов — если в записи 2 отдельных дорожки (для Zoom/Riverside) — diarization не нужна вовсе, спикеры разделены физически.
3.Минимум фонового шума — особенно музыки и других голосов.
4.Достаточная длина реплик — фрагменты короче 1 секунды плохо классифицируются.
5.Указание количества спикеров — если есть такая настройка в сервисе.

Будущее технологии

В 2026-2027 ожидается переход к end-to-end моделям, где ASR и diarization работают совместно с обратной связью. Это уменьшит DER до 2-4% на типовых записях. Также прогнозируется развитие *speaker identification* — не просто «спикер A», а реальное имя человека (если он есть в базе голосов компании).

Вывод

Diarization — невидимый, но критически важный слой современной транскрибации. Без него длинные записи с несколькими спикерами теряют 80% полезности. Voxtral V2 в Dicto даёт лучшее качество разметки на русском среди доступных сервисов.

Попробуйте Dicto бесплатно

Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.

Начать бесплатно

Читать дальше

Технологии