文档入库全流程 / 双轨处理管线 / 图谱增量进化 / 实体对齐策略
管理员在后台上传企业文档,支持 Word、PDF、Excel、Markdown、纯文本等格式。原始文件存储到 MinIO 对象存储。
系统自动识别文档格式,调用对应解析器提取纯文本内容。Word/Excel 使用 Apache POI,PDF 使用 PDFBox,保留段落、表格、标题等结构信息。
将解析后的长文本按策略切分为 512~1024 字符的文本块(Chunk),相邻块保留 64 字符重叠区域确保语义连续性。
调用 bge-m3 模型将每个文本块转为 1024 维向量,存入 Weaviate 向量数据库,建立语义索引。
调用 LLM 按图谱配置的实体/关系类型,从文本块中抽取实体和关系,写入 Neo4j 图数据库。
文档处理完成后状态变为 Ready。用户可通过 RAG 问答获取文档中的知识,也可通过图谱浏览查看实体关系网络。
自然语言输入问题
bge-m3 转为向量
Weaviate Top-K
Prompt + 文档片段
qwen3.5-35b 推理
带来源标注输出