01
系统总体架构
Overall System Architecture
CLIENT
客户端层
Vue 3 + TypeScript SPA
实时转写
TranscribePage
会议管理
MeetingList / Edit
知识库
KnowledgePage
声纹管理
SpeakerPage
系统设置
SettingsPage
HTTP REST
WebSocket
API
接口层
FastAPI + Uvicorn
REST API
/api/meetings · /api/speakers
/api/knowledge · /api/settings
WebSocket Server
/ws/transcribe
Binary PCM 16kHz 双向通信
SSE Proxy
/api/meetings/{id}/generate-minutes
流式纪要生成 · reasoning 分离
Internal Call
SERVICE
核心服务层
Core Business Services
ASR 服务
asr_service
FunASR · VAD · 热词
LLM 服务
llm_service
Chat · 纠错 · 纪要
声纹服务
speaker_service
注册 · 验证 · 识别
知识服务
knowledge_service
解析 · 检索 · RAG
嵌入服务
embedding_service
向量化 · 相似度
Read / Write
Inference
STORAGE
数据持久层
Data Persistence
SQLite 数据库
meetings · utterances · minutes
speakers · knowledge_documents · knowledge_chunks · knowledge_terms
文件系统
voiceprints/{id}_N.npy
hotwords.json · 上传文档 · 临时音频
Model Inference
MODEL
AI 模型层
AI Model Inference
FunASR
Paraformer-zh Nano-2512
语音识别 · 热词增强 · 中英混合
cam++
192 维声纹嵌入
说话人特征提取 · 余弦相似度
LM Studio
本地推理服务
Chat: qwen3.5-35b · Embed: nomic-embed-text-v1.5
客户端
接口层
服务层
存储层
模型层
AI 智能会议助手 · 系统总体架构
Architecture Documentation · 2026
02
实时转写数据流
Real-time Transcription Pipeline
MAIN 核心转写流程
麦克风采集
MediaRecorder API
PCM 16kHz
WebSocket
/ws/transcribe
Binary
VAD 检测
fsmn-vad
静音 ≥500ms 切分
ASR 识别
FunASR Nano-2512
+ 热词注入
text
声纹提取
cam++ 192d
speaker
结果合并
text + speaker
JSON Result
JSON
前端展示
双面板实时显示
ASR 原文 + AI 优化
LLM 文本优化分支
LLM 实时文本纠错 · Debounce 3s
ASR 原始文本
最新 final segments
debounce 3s
POST /api/process
realtime 模式
temperature: 0.3 · reasoning: off
LM Studio Chat
qwen3.5-35b-a3b
同音字纠错 · 术语修正
AI 优化文本
右侧面板展示
录音结束 · 全文最终优化
FINAL 全文最终优化 · 录音停止时触发
完整文本
全部 final segments
≤8000 字
POST /api/process/final
optimize / optimize_long
>8000 字时分块处理 · 300 字上下文重叠
LM Studio Chat
全文语义优化
最终 AI 文本
替换右侧面板
客户端
API 接口
AI 推理
声纹模型
数据节点
AI 智能会议助手 · 实时转写数据流
Architecture Documentation · 2026
03
会议全生命周期
Meeting Lifecycle Flow
PHASE 1 录制与转写
创建会议
POST /api/meetings
标题 · 参会人
实时录音
MediaRecorder
PCM 16kHz Int16
WebSocket
ASR + 声纹
VAD → FunASR ∥ cam++
三层分段机制
JSON
持久存储
utterances 表
original_text + speaker
PHASE 2 编辑与纪要生成
导出文档
.docx 下载
minutes/export-docx
LLM 生成纪要
SSE 流式输出
reasoning + message
RAG 增强
术语匹配 + 语义检索
Prompt 注入背景知识
编辑审校
逐条编辑 utterances
说话人 · 文本修正
用户操作
AI 处理
数据存储
AI 智能会议助手 · 会议全生命周期
Architecture Documentation · 2026
04
知识库 RAG 架构
Knowledge Base RAG Architecture
INGESTION 知识入库流程
文档上传
DOCX / PDF / TXT
CSV / Markdown
格式解析
document_parser
python-docx · pdfplumber
文本分块
512 字 / 64 重叠
按段落边界切分
向量嵌入
LM Studio /v1/embeddings
nomic-embed-text-v1.5
向量存储
knowledge_chunks
SQLite BLOB float32
SQLite 持久存储
knowledge_documents · knowledge_chunks · knowledge_terms
RETRIEVAL 知识检索流程 · 纪要生成时触发
会话输入
meeting utterances
全部发言内容
术语精确匹配
Layer 1: Term Match
别名 + 优先级排序
~800 tokens
语义向量检索
Layer 2: Semantic
cosine ≥ 0.65 · top-k 5
~2000 tokens
Prompt 组装
术语表 + 背景知识
注入 system_prompt
LLM 增强生成
RAG-augmented
纪要质量提升
用户输入
API 处理
AI 服务
数据存储
数据流
AI 智能会议助手 · 知识库 RAG 架构
Architecture Documentation · 2026
05
模型调用架构
Model Invocation Architecture
语音识别引擎
FunASR
Paraformer-zh Nano-2512
离线端到端语音识别 · 中英混合
WebSocket Pipeline
实时音频流 → VAD → ASR
+ hotword 热词注入
实时语音转写
Interim + Smart Split
2.5s 临时 · 7s 软切 · 15s 硬切
声纹识别引擎
cam++
192 维声纹嵌入
说话人特征向量提取
Embedding API
音频 → float32[192]
余弦相似度计算
声纹注册
enroll
≤5 样本/人
实时识别
identify
阈值 0.68
大语言模型推理
LM Studio 本地推理
qwen3.5-35b-a3b · nomic-embed-text-v1.5
支持 Thinking 推理 · SSE 流式输出
Chat API
/api/v1/chat
reasoning on/off
会议纪要生成
SSE 流式 · Thinking
ASR 文本纠错
同音字 · 术语修正
Embeddings API
/v1/embeddings
文本向量化
知识块向量化
文档 chunk embedding
语义检索
query embedding
AI 模型
API 接口
业务功能
AI 智能会议助手 · 模型调用架构
Architecture Documentation · 2026
06
声纹识别系统
Speaker Voiceprint Recognition System
ENROLLMENT 声纹注册流程
引导录音
朗读指定文本
~10 秒有效语音
audio
VAD 检测
fsmn-vad
提取有效语音段
cam++ 提取
192d 特征向量
质量校验
有效语音 ≥ 3s
一致性 > 0.6
存储入库
{id}_N.npy
≤5 样本 · FIFO
声纹库
SQLite speakers 表 · data/voiceprints/*.npy
最多 50 人 · 内存缓存
IDENTIFICATION 实时声纹识别流程 · 每个 VAD 段触发
音频段
VAD final segment
cam++ 提取
192d 嵌入向量
余弦相似度
vs 全部注册向量
per-speaker max
阈值判定
threshold ≥ 0.68
匹配成功
→ 说话人姓名
未匹配
→ 未知说话人
用户操作
API / 成功
AI 处理
数据节点
存储
失败路径
AI 智能会议助手 · 声纹识别系统
Architecture Documentation · 2026