RAG-чат по транскрипту: новая возможность работы с записями
RAG (Retrieval-Augmented Generation) превращает архив транскриптов в умную базу знаний. Объясняем как это работает и зачем нужно.
Что такое RAG
RAG (Retrieval-Augmented Generation) — архитектура использования LLM, в которой:
В контексте транскрибации: вместо того чтобы вручную листать 50-страничный транскрипт, вы задаёте вопрос «когда обсуждали инвестиции?» — система находит релевантные фрагменты и LLM отвечает цитатой с таймкодом.
Как работает в Dicto
Шаг 1: Векторизация транскрипта
После расшифровки текст делится на чанки 300-500 токенов (~2-3 предложения). Каждый чанк превращается в эмбеддинг — 1024-мерный вектор через модель Mistral mistral-embed. Векторы сохраняются в PostgreSQL с pgvector.
Шаг 2: Получение запроса
Вы задаёте вопрос на естественном языке: «Что эксперт говорил про криптовалюту?». Вопрос тоже превращается в 1024-мерный вектор.
Шаг 3: Поиск ближайших чанков
В базе ищем 5-10 чанков транскрипта, у которых эмбеддинг ближе всего к эмбеддингу вопроса. «Близость» — косинусная мера. Это семантический поиск: даже если в тексте не было слова «криптовалюта», но было «биткоин», «майнинг», «блокчейн» — они окажутся близкими векторами.
Шаг 4: Генерация ответа
LLM (Gemini 2.5 Flash в Dicto) получает промпт:
> «Вот фрагменты разговора: [5-10 найденных чанков]. Ответь на вопрос пользователя: "Что эксперт говорил про криптовалюту?". Цитируй фрагменты с указанием таймкодов.»
LLM генерирует ответ за 2-4 секунды.
Применения
1. Поиск по архиву подкастов
Подкастер выпустил 100 эпизодов за два года. Сделать классический поиск по тексту — найдёт только точные совпадения. RAG-чат: «В каком эпизоде гость говорил про продуктовый менеджмент?» — система найдёт эпизоды по смыслу, даже если буквально «продуктовый менеджмент» не звучало.
2. Подготовка к экзаменам по лекциям
Студент за семестр записал 30 лекций. Перед экзаменом: «Перечисли все упомянутые теоремы», «Что препод говорил про вопрос N?» — RAG-чат соберёт информацию из всего корпуса.
3. Анализ интервью для журналиста
Журналист берёт большое интервью (3 часа). Перед написанием статьи: «Какие ключевые цифры назвал гость?», «Какие источники он рекомендовал?», «Был ли спорный момент в разговоре?». Это быстрее чем пересматривать транскрипт целиком.
4. Поиск решений в корпоративных совещаниях
Менеджер ведёт записи всех встреч команды. Через месяц: «Когда мы обсуждали редизайн UI?», «Какое решение приняли по бюджету Q3?». Вместо ручного поиска — точный ответ с цитатами.
5. Анализ интервью с пользователями (UX research)
UX-исследователь провёл 20 интервью с пользователями. RAG-чат: «Какие пользователи жаловались на onboarding?», «Какие фичи чаще всего просили?», «Сколько раз упомянули конкурента X?».
6. Юридическая практика
Юрист расшифровывает заседания и допросы. RAG-чат: «Какие показания свидетель давал про дату инцидента?», «Как обвиняемый отвечал на вопросы прокурора?».
Качество результатов
RAG не магия — у технологии есть ограничения:
Что работает хорошо:
Что работает плохо:
Конкретные ограничения Dicto:
Сравнение с другими подходами
|---|---|---|
Тарифы Dicto с RAG
RAG-чат доступен на всех платных тарифах. На Free — ограниченный (5 запросов в день). На Старт — 30 запросов в день. На Про — безлимит + расширенный поиск с фильтрами по дате/спикеру.
Технические детали для разработчиков
Если вам интересно реализовать RAG-чат у себя:
Self-hosted решение для 1000 транскриптов стоит ~$10-20 в месяц на embeddings + ~$50 на LLM-запросы.
Будущее RAG
В 2026-2027 ожидается:
Вывод
RAG-чат превращает мёртвый архив транскриптов в живую базу знаний. Для постоянно расшифровывающих пользователей (журналисты, подкастеры, исследователи) это инструмент, окупающий подписку в одиночку — экономия часов на поиске информации в записях.
Попробуйте Dicto бесплатно
180 минут на тест при регистрации. AI-саммари, разметка спикеров — без карты.
Начать бесплатно