2026-01-23

01月23日

一、今日完成情况

  • 使用自己部署的crawl服务,让我的dify工作流访问,让AI阅读网页 –完成
  • dify打通一下B站字幕总结的问题,whisper本地模型导出速度凑合
  • 数据清洗批量公众号文章,配置dify数据库,实现深度理解文章内容和上下文的效果。 –完成
    • 公众号按照时间排序,并且对内容进行切割,把短句链接成长句
    • dify配置深度内容理解的模式,批量导出知识库解析。
  • 简单了解一下模型微调相关的两个术语,Few-shot 和 ReAct 机制 –未完成
  • 快速学习一下小米手机root玩机的花活有哪些,列举至少5个方面。答案:了解了需要非常扎实的开发基础,大多数人停留在root层面和adb调试层面就下不去了。 –完成
  • 公众号导出文件对其按照时间顺序批量编号使用python脚本,探索出时间复杂度低一点的方法。 –完成

二、今日感悟

  • 核心业务数据​:
    • dify整天都在配置,犯了不少错误,尝试了许多方法,唯手熟尔,明天可以继续配置,争取早日实现自动化工具。
  • ​今日工作总结:​
    • 一直在解决问题的路上,以后要养成好习惯,遇到大批量的数据的时候,若要处理,便使用小样本尝试一下,如果出错也有迂回的余地,所以做什么大事之前,都要“试点” + 备份,非常重要。
    • Dify工作流未来熟练的话,我会有一个非常能干的秘书,现在vscode我使用grok的API已经非常高效率了,他不仅仅帮我写代码,出错了还自动分析报错日志,自动撰写指令调试,我都不知道自己存在的价值是什么了。
  • ​明日工作计划:
    • 找个外面的图书馆好好学习一下,不过在外面的话,网络调试的相关技术无法探索了,使用热点非常不方便。
    • Dify工作流继续配置,看看如何和外部接口一起工作,和B站一起交互,搞个私人秘书,或者自动获取数据保存到数据看看,未来我还是要有一个属于自己的数据库的,不然很麻烦。
  • ​今日学习成长:​
    • 今天遇到错误的时候,自己确实非常专注,直接进入心流状态了,只有遇到苦难,我才能化悲愤为力量。

三、备注

四、任务分解SMART

好的,遵照SMART原则,我们来将您的第三和第四条工作任务进行细化分解。

任务三:简单了解一下模型微调相关的两个术语,Few-shot 和 ReAct 机制

这是一个学习型任务,目标是建立认知。我们可以这样分解:

  • S (Specific - 具体的)

    • 目标: 不是“简单了解”,而是要能用自己的话清晰地解释 Few-shot 和 ReAct 的核心思想、它们分别解决了什么问题,以及它们的应用场景。
    • 具体问题清单:
      • Few-shot: 它是什么?和 Zero-shot、One-shot 的关系是什么?它为什么能有效?它通常用在什么场景下?
      • ReAct: 它是什么?全称是什么(Reasoning and Acting)?它是如何将“思考”和“行动”结合起来的?它的工作流程是怎样的?相比于传统的提示工程,它有什么优势?
  • M (Measurable - 可衡量的)

    • 产出物: 创建一个名为 [[Few-shot与ReAct机制学习笔记]] 的新笔记。
    • 衡量标准:
      1. 笔记中包含对每个术语不超过三句话的核心定义。
      2. 用项目符号列出每个机制的关键原理或步骤。
      3. 为每个机制找到至少一个具体的例子来说明其应用。
      4. 完成一份简要的对比,说明二者在目标和方法上的主要区别。
      5. 自我检验: 能否在不看笔记的情况下,向一个不懂AI的同事花2分钟讲清楚这两个概念。
  • A (Achievable - 可实现的)

    • 这是一个知识输入型任务,通过检索和阅读完全可以实现。
    • 所需资源: 搜索引擎、技术博客(如Hugging Face Blog)、介绍性视频等。
  • R (Relevant - 相关的)

    • 这两个概念是当前大模型应用开发中的重要技术,了解它们对于后续学习“大模型开发”课程、使用Dify等工具都高度相关,有助于你理解AI工作流的底层逻辑。
  • T (Time-bound - 有时限的)

    • 总时长: 设定 1.5 小时。
    • 具体时间安排:
      • 20分钟: 资料搜集。快速浏览搜索结果,筛选出2-3篇高质量的介绍文章或视频。
      • 40分钟: 深度学习。精读或观看筛选出的资料,并开始在笔记中记录关键信息。
      • 30分钟: 整理与内化。停止输入,回顾笔记,用自己的话重新组织和提炼内容,完成衡量标准中要求的产出物。

任务四:梳理大模型开发网课的学习路径

  • S (Specific - 具体的)

    • 目标: 选定一门具体的大模型开发在线课程,并将其课程大纲转化为一份个性化的、可执行的学习计划。
    • 具体行动:
      1. 选课: 如果还没选定,先花时间确定要学习的课程(例如吴恩达的课程、Hugging Face的课程或其他平台上的高分课程)。
      2. 拆解大纲: 将课程的章节(Modules/Chapters)作为一级标题。
      3. 细化知识点: 将每个章节下的小节(Lessons/Topics)作为二级要点或任务清单。
      4. 识别前置条件: 明确学习该课程需要哪些前置知识(如Python、PyTorch/TensorFlow基础、机器学习概念等),并评估自己是否具备。
  • M (Measurable - 可衡量的)

    • 产出物: 创建一个名为 [[大模型开发课程学习路径]] 的新笔记。
    • 衡量标准:
      1. 笔记的开头明确写出所选课程的名称和链接。
      2. 有一个“前置知识检查”清单,并标记自己目前掌握的程度。
      3. 笔记主体是一个完整的、层级清晰的课程大纲思维导图或大纲列表。
      4. 在每个主要章节旁边,预估一个大致的学习时间(例如:第一章 预计花费4小时)。
      5. 自我检验: 这份学习路径是否清晰到可以让你明天就能立即开始学习第一章的第一个小节?
  • A (Achievable - 可实现的)

    • 这是一个信息整理和规划的任务,只要有明确的课程目标,完全可以在短时间内完成。
  • R (Relevant - 相关的)

    • 这个任务直接服务于你的长期学习目标。一份清晰的路径图可以避免学习过程中的迷茫,确保学习的系统性和连贯性,是高效学习的第一步。
  • T (Time-bound - 有时限的)

    • 总时长: 设定 1 小时。
    • 具体时间安排:
      • 15分钟: 课程选择与决策。如果已有目标课程,则此步骤可缩短。
      • 35分钟: 梳理与转录。访问课程页面,将其大纲结构化地整理到你的Obsidian笔记中。
      • 10分钟: 评估与规划。评估前置条件,并为每个模块初步估算学习时间。

希望这份详细的分解能帮助你更清晰、高效地完成今天的工作!

五、dify数据库切片设置

1、手动设置手动导入

记住这个配置,刚好符合我的300文字切片的markdown格式文章:

Pasted image 20260123141456
配置项 你的当前值 建议调整值 理由
Parent Mode Paragraph ✅ 保持 本地模型最佳选择
Parent Length 1500 ✅ 保持 足够涵盖深度上下文
Child Delimiter \n\n ✅ 保持 Markdown标准分隔符
Child Length 1024 🔄 建议改为 450 增加检索颗粒度,精准命中
Pasted image 20260123141816
选项 设置值 原因
检索策略 Hybrid Search 混合检索最强
Rerank模型 netease-youdao/bce-reranker 这个模型选得很好,保持
Top K 6 关键修改:给AI足够的阅读量以理解深度内容
Threshold 0.40 关键修改:过滤掉不相关的段落,防幻觉

2、批量导入问题解决

A、notion同步尝试

Pasted image 20260123153639

使用API key 链接notion数据库,下面是notion的配置方法:

https://www.notion.so/profile/integrations/internal

配置可以访问的数据库,配置权限和申请API即可:

Pasted image 20260123153750 Pasted image 20260123153807

下面查看个人数据库如何加入我的notion数据:

遇到问题了,我批量导入数据到notion过程当中遇到导入的位置无法自定的问题,导致500条数据全部被导入到根目录,导致无法清理的问题,所以未来做尝试,尤其是大批量数据的尝试,一定要小规模的尝试,不然容易出问题的,这次算是血的教训,而且我批量删除其中的数据使用了很多方法都效果不理想,吃了不熟悉notion的亏。

所以最终还是没有解决,放弃此方法。

3、python脚本批量导入

这里有一个细节的问题,就是我如果数据解析方式不是普通方式,不是经济模式的话,无法批量导出文件。

只有一开始的数据解析方式是经济模式,才可以导入上百上千条数据,然后再切换模式为高级模式,就可以完成批量导入的效果了。

Pasted image 20260123230333

然后我的工作流就可以有一个外置大脑,效果非常好。

我可以把很多公众号高人文章导入进去,相当于我有了很多经验丰富的老师,比如说一个公众号的主题以风水为主,就相当于招聘了一个风水先生,非常好玩。

dify_data_update json_clean

六、dify网页爬取

Text Polishing · Translation Tool-whole-workflow

使用网络post的方法, 访问我的本地crawl服务,实现网页内容爬取和AI总结的效果。

已经实现了,短期内没什么用,因为我没有氪金,如果氪金的话,那么小红书什么的也可以爬取,不过目前只能获取开放网页,因此作用便没有这么大了。

七、问题总结

1、Firecrawl 工具配置与调用

  • Base URL 路径错误:初始配置错误地填写了官网地址或重复了 /v1 路径,导致 404 或 JSON 解析失败。
  • 解决:修正为官方 API 地址 https://api.firecrawl.dev 或私有容器地址 http://firecrawl-main:3002/v1/scrape
  • Scrape 逻辑报错:因勾选 json 格式却未提供 Schema 触发 BAD_REQUEST
  • 解决:在 Dify 插件中仅指定 markdown 格式,或在 HTTP Request 节点中手动构建精准的 JSON Body。

2、Dify 前端初始化异常 (i18n ‘t’ Error)

  • 现象:Web 容器日志报 TypeError: reading 't',前端页面白屏或无法加载。
  • 解决:换个浏览器尝试,是之前登录的cookie有问题,清理之前的登录数据就可以了

3、知识库 API 批量上传与索引

  • API 上传阻塞:通过 dataset- 密钥调用 API 批量上传时,因为知识库配置为高级模式而400失败。
  • 解决:脚本直连 5001 端口,并将索引技术临时降级为 economy 模式进行连通性测试。

4、Ollama 嵌入模型连接阻塞

  • Server Unavailable:索引时 Dify 无法连接 Ollama,报 Network is unreachable
  • 解决:打开ollama本地模型即可,是模型服务没有启动的原因。

5、Notion API 自动化实战与绕坑

  • 401 权限异常:使用 API 删除根目录页面时报错 Archiving workspace level pages via API not supported
  • 迂回策略方案:针对上述 API 限制,改用“两步走”策略:利用脚本将 500+ 散乱页面批量移动(Move to)至一个临时父页面(Page),再通过 UI 一键手动删除父页面实现彻底清理。
  • 分页逻辑处理:在脚本中加入 next_cursor 翻页逻辑,突破 Notion API 单词搜索 100 条结果的限制,实现 500+ 文档的全量自动化处理。

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com
Obsidian