Технологии2026-04-187 мин

RAG-чат по транскрипту: новая возможность работы с записями

RAG (Retrieval-Augmented Generation) превращает архив транскриптов в умную базу знаний. Объясняем как это работает и зачем нужно.

Что такое RAG

RAG (Retrieval-Augmented Generation) — архитектура использования LLM, в которой:

1.Retrieval — извлекаем релевантные фрагменты из базы знаний по запросу пользователя
2.Augmentation — подмешиваем эти фрагменты в промпт LLM
3.Generation — LLM генерирует ответ на основе фрагментов

В контексте транскрибации: вместо того чтобы вручную листать 50-страничный транскрипт, вы задаёте вопрос «когда обсуждали инвестиции?» — система находит релевантные фрагменты и LLM отвечает цитатой с таймкодом.

Как работает в Dicto

Шаг 1: Векторизация транскрипта

После расшифровки текст делится на чанки 300-500 токенов (~2-3 предложения). Каждый чанк превращается в эмбеддинг — 1024-мерный вектор через модель Mistral mistral-embed. Векторы сохраняются в PostgreSQL с pgvector.

Шаг 2: Получение запроса

Вы задаёте вопрос на естественном языке: «Что эксперт говорил про криптовалюту?». Вопрос тоже превращается в 1024-мерный вектор.

Шаг 3: Поиск ближайших чанков

В базе ищем 5-10 чанков транскрипта, у которых эмбеддинг ближе всего к эмбеддингу вопроса. «Близость» — косинусная мера. Это семантический поиск: даже если в тексте не было слова «криптовалюта», но было «биткоин», «майнинг», «блокчейн» — они окажутся близкими векторами.

Шаг 4: Генерация ответа

LLM (Gemini 2.5 Flash в Dicto) получает промпт:

> «Вот фрагменты разговора: [5-10 найденных чанков]. Ответь на вопрос пользователя: "Что эксперт говорил про криптовалюту?". Цитируй фрагменты с указанием таймкодов.»

LLM генерирует ответ за 2-4 секунды.

Применения

1. Поиск по архиву подкастов

Подкастер выпустил 100 эпизодов за два года. Сделать классический поиск по тексту — найдёт только точные совпадения. RAG-чат: «В каком эпизоде гость говорил про продуктовый менеджмент?» — система найдёт эпизоды по смыслу, даже если буквально «продуктовый менеджмент» не звучало.

2. Подготовка к экзаменам по лекциям

Студент за семестр записал 30 лекций. Перед экзаменом: «Перечисли все упомянутые теоремы», «Что препод говорил про вопрос N?» — RAG-чат соберёт информацию из всего корпуса.

3. Анализ интервью для журналиста

Журналист берёт большое интервью (3 часа). Перед написанием статьи: «Какие ключевые цифры назвал гость?», «Какие источники он рекомендовал?», «Был ли спорный момент в разговоре?». Это быстрее чем пересматривать транскрипт целиком.

4. Поиск решений в корпоративных совещаниях

Менеджер ведёт записи всех встреч команды. Через месяц: «Когда мы обсуждали редизайн UI?», «Какое решение приняли по бюджету Q3?». Вместо ручного поиска — точный ответ с цитатами.

5. Анализ интервью с пользователями (UX research)

UX-исследователь провёл 20 интервью с пользователями. RAG-чат: «Какие пользователи жаловались на onboarding?», «Какие фичи чаще всего просили?», «Сколько раз упомянули конкурента X?».

6. Юридическая практика

Юрист расшифровывает заседания и допросы. RAG-чат: «Какие показания свидетель давал про дату инцидента?», «Как обвиняемый отвечал на вопросы прокурора?».

Качество результатов

RAG не магия — у технологии есть ограничения:

Что работает хорошо:

Поиск конкретных тем в длинных записях
Семантические запросы (не нужно точное совпадение слов)
Цитирование с указанием источника

Что работает плохо:

Подсчёт количественных метрик («сколько раз упомянули X?») — LLM часто ошибается в счётах
Сравнительные запросы по большому объёму («в каком эпизоде упоминалось больше всего книг?»)
Запросы на креативное обобщение всего архива (LLM получает только 5-10 чанков из тысяч)

Конкретные ограничения Dicto:

Контекст LLM — 32K токенов. В RAG-чат подмешивается до 10 чанков (~3-5K токенов). Это достаточно для большинства задач, но не для «прочитай весь архив и сделай мета-анализ».
Точность семантического поиска — 80-90%. Иногда найденные чанки не совсем релевантны.
LLM может «галлюцинировать» — то есть выдумать что-то чего не было в транскрипте. Поэтому всегда проверяйте цитаты по таймкодам.

Сравнение с другими подходами

Подход	Плюсы	Минусы
Ctrl+F по транскрипту	Бесплатно, точные совпадения	Не работает на семантике, нужно знать ключевые слова
Полный текст в ChatGPT	Понимает контекст	Лимит 32-128K токенов, не работает для длинных архивов
RAG-чат Dicto	Поиск по большому архиву, цитаты с таймкодами	Качество семантики 80-90%, нужна проверка
Ручной поиск через слушание	Высокое качество	1-2 часа на типичный запрос

Тарифы Dicto с RAG

RAG-чат доступен на всех платных тарифах. На Free — ограниченный (5 запросов в день). На Старт — 30 запросов в день. На Про — безлимит + расширенный поиск с фильтрами по дате/спикеру.

Технические детали для разработчиков

Если вам интересно реализовать RAG-чат у себя:

Embedding model: mistral-embed (Mistral AI), 1024d, $0.0001 за 1K токенов
Vector DB: pgvector в PostgreSQL — простое, бесплатное, индекс HNSW для быстрого поиска
Chunk size: 300-500 токенов, overlap 50 токенов
LLM: Gemini 2.5 Flash (быстро и дёшево) или GPT-4o (точнее, но дороже)
Retrieval: top-5 чанков по cosine similarity, фильтрация по threshold

Self-hosted решение для 1000 транскриптов стоит ~$10-20 в месяц на embeddings + ~$50 на LLM-запросы.

Будущее RAG

В 2026-2027 ожидается:

Multi-modal RAG: поиск не только по тексту, но и по аудио-эмбеддингам (тон голоса, эмоции)
Cross-document reasoning: «Сравни мнения всех экспертов про крипту»
Long-context RAG: с появлением моделей с контекстом 1M+ токенов RAG может частично потерять актуальность для средних архивов

Вывод

RAG-чат превращает мёртвый архив транскриптов в живую базу знаний. Для постоянно расшифровывающих пользователей (журналисты, подкастеры, исследователи) это инструмент, окупающий подписку в одиночку — экономия часов на поиске информации в записях.

Попробуйте Dicto бесплатно

Бесплатная проба при регистрации: 30 минут и AI-разбор. Разметка спикеров — без карты.

Начать бесплатно

Читать дальше

Технологии