AI 智能会议助手 · 架构文档

01

系统总体架构

Overall System Architecture

CLIENT 客户端层 Vue 3 + TypeScript SPA

实时转写

TranscribePage

会议管理

MeetingList / Edit

知识库

KnowledgePage

声纹管理

SpeakerPage

系统设置

SettingsPage

HTTP REST

WebSocket

API 接口层 FastAPI + Uvicorn

REST API

/api/meetings · /api/speakers

/api/knowledge · /api/settings

WebSocket Server

/ws/transcribe

Binary PCM 16kHz 双向通信

SSE Proxy

/api/meetings/{id}/generate-minutes

流式纪要生成 · reasoning 分离

Internal Call

SERVICE 核心服务层 Core Business Services

ASR 服务

asr_service

FunASR · VAD · 热词

LLM 服务

llm_service

Chat · 纠错 · 纪要

声纹服务

speaker_service

注册 · 验证 · 识别

知识服务

knowledge_service

解析 · 检索 · RAG

嵌入服务

embedding_service

向量化 · 相似度

Read / Write

Inference

STORAGE 数据持久层 Data Persistence

SQLite 数据库

meetings · utterances · minutes

speakers · knowledge_documents · knowledge_chunks · knowledge_terms

文件系统

voiceprints/{id}_N.npy

hotwords.json · 上传文档 · 临时音频

Model Inference

MODEL AI 模型层 AI Model Inference

FunASR

Paraformer-zh Nano-2512

语音识别 · 热词增强 · 中英混合

cam++

192 维声纹嵌入

说话人特征提取 · 余弦相似度

LM Studio

本地推理服务

Chat: qwen3.5-35b · Embed: nomic-embed-text-v1.5

客户端

接口层

服务层

存储层

模型层

AI 智能会议助手 · 系统总体架构 Architecture Documentation · 2026

02

实时转写数据流

Real-time Transcription Pipeline

MAIN 核心转写流程

麦克风采集

MediaRecorder API

PCM 16kHz

WebSocket

/ws/transcribe

Binary

VAD 检测

fsmn-vad

静音 ≥500ms 切分

ASR 识别

FunASR Nano-2512

+ 热词注入

text

声纹提取

cam++ 192d

speaker

结果合并

text + speaker

JSON Result

JSON

前端展示

双面板实时显示

ASR 原文 + AI 优化

LLM 文本优化分支

LLM 实时文本纠错 · Debounce 3s

ASR 原始文本

最新 final segments

debounce 3s

POST /api/process

realtime 模式

temperature: 0.3 · reasoning: off

LM Studio Chat

qwen3.5-35b-a3b

同音字纠错 · 术语修正

AI 优化文本

右侧面板展示

录音结束 · 全文最终优化

FINAL 全文最终优化 · 录音停止时触发

完整文本

全部 final segments

≤8000 字

POST /api/process/final

optimize / optimize_long

>8000 字时分块处理 · 300 字上下文重叠

LM Studio Chat

全文语义优化

最终 AI 文本

替换右侧面板

客户端

API 接口

AI 推理

声纹模型

数据节点

AI 智能会议助手 · 实时转写数据流 Architecture Documentation · 2026

03

会议全生命周期

Meeting Lifecycle Flow

PHASE 1 录制与转写

创建会议

POST /api/meetings

标题 · 参会人

实时录音

MediaRecorder

PCM 16kHz Int16

WebSocket

ASR + 声纹

VAD → FunASR ∥ cam++

三层分段机制

JSON

持久存储

utterances 表

original_text + speaker

PHASE 2 编辑与纪要生成

导出文档

.docx 下载

minutes/export-docx

LLM 生成纪要

SSE 流式输出

reasoning + message

RAG 增强

术语匹配 + 语义检索

Prompt 注入背景知识

编辑审校

逐条编辑 utterances

说话人 · 文本修正

用户操作

AI 处理

数据存储

AI 智能会议助手 · 会议全生命周期 Architecture Documentation · 2026

04

知识库 RAG 架构

Knowledge Base RAG Architecture

INGESTION 知识入库流程

文档上传

DOCX / PDF / TXT

CSV / Markdown

格式解析

document_parser

python-docx · pdfplumber

文本分块

512 字 / 64 重叠

按段落边界切分

向量嵌入

LM Studio /v1/embeddings

nomic-embed-text-v1.5

向量存储

knowledge_chunks

SQLite BLOB float32

SQLite 持久存储

knowledge_documents · knowledge_chunks · knowledge_terms

RETRIEVAL 知识检索流程 · 纪要生成时触发

会话输入

meeting utterances

全部发言内容

术语精确匹配

Layer 1: Term Match

别名 + 优先级排序

~800 tokens

语义向量检索

Layer 2: Semantic

cosine ≥ 0.65 · top-k 5

~2000 tokens

Prompt 组装

术语表 + 背景知识

注入 system_prompt

LLM 增强生成

RAG-augmented

纪要质量提升

用户输入

API 处理

AI 服务

数据存储

数据流

AI 智能会议助手 · 知识库 RAG 架构 Architecture Documentation · 2026

05

模型调用架构

Model Invocation Architecture

语音识别引擎

FunASR

Paraformer-zh Nano-2512

离线端到端语音识别 · 中英混合

WebSocket Pipeline

实时音频流 → VAD → ASR

+ hotword 热词注入

实时语音转写

Interim + Smart Split

2.5s 临时 · 7s 软切 · 15s 硬切

声纹识别引擎

cam++

192 维声纹嵌入

说话人特征向量提取

Embedding API

音频 → float32[192]

余弦相似度计算

声纹注册

enroll

≤5 样本/人

实时识别

identify

阈值 0.68

大语言模型推理

LM Studio 本地推理

qwen3.5-35b-a3b · nomic-embed-text-v1.5

支持 Thinking 推理 · SSE 流式输出

Chat API

/api/v1/chat

reasoning on/off

会议纪要生成

SSE 流式 · Thinking

ASR 文本纠错

同音字 · 术语修正

Embeddings API

/v1/embeddings

文本向量化

知识块向量化

文档 chunk embedding

语义检索

query embedding

AI 模型

API 接口

业务功能

AI 智能会议助手 · 模型调用架构 Architecture Documentation · 2026

06

声纹识别系统

Speaker Voiceprint Recognition System

ENROLLMENT 声纹注册流程

引导录音

朗读指定文本

~10 秒有效语音

audio

VAD 检测

fsmn-vad

提取有效语音段

cam++ 提取

192d 特征向量

质量校验

有效语音 ≥ 3s

一致性 > 0.6

存储入库

{id}_N.npy

≤5 样本 · FIFO

声纹库

SQLite speakers 表 · data/voiceprints/*.npy

最多 50 人 · 内存缓存

IDENTIFICATION 实时声纹识别流程 · 每个 VAD 段触发

音频段

VAD final segment

cam++ 提取

192d 嵌入向量

余弦相似度

vs 全部注册向量

per-speaker max

阈值判定

threshold ≥ 0.68

匹配成功

→ 说话人姓名

未匹配

→ 未知说话人

用户操作

API / 成功

AI 处理

数据节点

存储

失败路径

AI 智能会议助手 · 声纹识别系统 Architecture Documentation · 2026