2026-01-27

01月27日

一、今日完成情况

  • 明天生活回到正常状态,今天还是恢复状态,开始接受家里的各种设定。

二、今日感悟

  • 核心业务数据​:
    • dify公众号高级工作流,已经完成,回答的深度还是有的,遇到的问题就是ollama没有开启导致的知识库检索失败,其他都非常顺利。
  • ​今日工作总结:​
  • ​明日工作计划:
  • ​今日学习成长:​

三、备注

四、增强版知识问答检索工作流

步骤 节点类型 核心目的
1. 意图拆解 LLM 节点 将用户问题拆解为 3-5 个具体的知识点查询词,通过 deepseek-reasoner 生成思考大纲。
2. 多路检索 知识库检索 开启“多路召回”,并配合 Rerank(重排序) 节点。专业内容对相关性要求极高,向量检索(Embedding)有时不准确,必须用 Rerank 筛选出最硬核的段落。
3. 内容合成 LLM 节点 此时再接入 deepseek-reasoner。给它所有检索到的碎片,要求它先进行“背景对齐”,再进行“系统化论述”。

A. 利用 DeepSeek-R1 的深度推理

你选用的 deepseek-reasoner 本身就擅长逻辑推演。在提示词(Prompt)中,不要直接让它“回答问题”,而是让它执行以下指令:

“请先结合检索到的知识库内容,分析该问题的底层逻辑。在输出正式回答前,先在 <reasoning> 中梳理该领域的专业背景、核心概念之间的关联,以及公众号文章中提到的关键证据。”

B. 引入“重排序”(Rerank)节点

在你的“KNOWLEDGE RETRIEVAL”节点设置中:

  1. 开启 Rerank 模型(如 BGE-Reranker)。
  2. 提高 Top K 值:专业内容需要参考更多背景。将 Top K 调高到 10-15,然后通过 Rerank 筛选出得分最高的 5 条。
  3. 这能有效解决“内容过于专业”导致向量匹配度低的问题。

C. 结构化输出(Professional Citation)

为了让回答更有“公众号专业范儿”,在 OUTPUT 之前的 LLM 节点中,加入严格的格式约束:

  • 背景铺垫:要求 AI 先交代该话题在行业/专业背景下的位置。

  • 引用规范:强制要求在回答中使用 [1], [2] 标注,并在文末列出“参考文章:”。Dify 的检索结果可以返回 segment 的 metadata(如文章标题),一定要把这些参数传给最后的 LLM。

  • START

  • LLM (Query Transformer): 将“怎么看 A”转化为“A 的定义、A 的历史、A 在公众号中的案例”。

  • KNOWLEDGE RETRIEVAL: 检索上述所有关键词。

  • RERANK: 对所有碎片进行二次精选。

  • LLM (DeepSeek-Reasoner):

    • System Prompt: 你是一个专业的公众号资深编辑,擅长深度长文。
    • Task: 请结合背景知识,分章节(背景、核心分析、公众号观点总结、引用来源)回答。
  • OUTPUT


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com
Obsidian