2026-01-13

01月13日

一、今日完成情况

  • 编辑一个插件快捷键脚本,批量关闭笔记本的软件,节约时间。 –完成
    • 效果如下:暗笑 control + option + q,可以快速退出除了Chrome、clashverge、Obsidian之外的其他软件。
  • 清理mac内存,两星期没看存储,居然内存只剩60了,不能接受,所以目前清理到100GB了。 –完成
  • 配置Obisidian本地AI访问MCP服务,简单尝试一下 https://github.com/bitbonsai/mcp-obsidian –完成
  • 关于Agent、rag、MCP可以使用自己的语言表述,基础概念导出内容或者笔记 –完成
  • 关于librechat私人数据库快速导入尝试一下,达成批量导入政事堂PDF的目标 –未完成,晚上偷懒
  • 审核100条数据,发送到群文件当中。 –完成
  • 思考如果我要设计一个AI系统,可以自动总结视频的内容并且导出笔记,这个系统如何设计。当然这里限定式B站视频,输入是B站视频的网址,或者是B站网页的插件也行,如果有现成的方案那就更好了。 –思考完毕

二、今日感悟

  • 核心业务数据​:
    • 主要是基本概念的上手了解,项目比较细碎,还是宏观层面了解基本概念的情况
  • ​今日工作总结:​
  • ​明日工作计划:
    • 制定一个衣物整理清点计划,我要知道自己的衣服如何收纳和数量
    • AI系统实现落地,至少打通两个环节
    • librechat私人快速导入方式探索,尽量实现
    • 审核100条数据,发到群文件当中
    • 如果时间有多,尝试打通rag闭环,教程是今天B站的教程。
  • ​今日学习成长:​
    • 有点偷懒,不敢说有啥成长。

三、备注

四、Obsidian MCP 配置精简笔记

为了在 LibreChat 中启用 Obsidian 工具,已在 librechat.yaml 文件的 mcpServers 部分添加了以下配置:

  • 工具名称: obsidian
  • 命令: npx @mauricio.wolff/mcp-obsidian@latest
  • 关键配置:args 中设置了您的 Obsidian Vault 的绝对路径

重要提示: 请确保 /path/to/your/vault 已被替换为您的实际 Obsidian Vault 路径。

例如:/Users/kipley/Library/CloudStorage/OneDrive-Personal/OneNote/Obsidian Vault

Pasted image 20260113142736 Pasted image 20260113143652

果然,下面的第五点模版就是刚才的AI帮我生成的,那么我未来使用AI帮我解决问题之后,我可以直接让它把之前的工作量保存到我的Obsidian笔记当中, 我只需要微调内容就可以了,而不是切屏然后复制黏贴的方法,非常非常方便。

五、Agent、RAG、MCP 学习笔记

学习笔记框架

1. Agent

  • 概念:
    • 传统 AI 是一个“回答问题的专家”,那么 Agent 就是一个能“解决问题的员工”。它的核心是从被动响应转向主动执行
  • 关键技术:
    • 大语言模型
    • MCP工具调用能力
    • 记忆机制(上下文)
  • 应用场景:
    • 超级个人助理:自动处理邮件、管理日程、预订机票酒店、整理文件,完成所有数字世界的琐事。所以这里看出来,Agent就是一个完全体,可以直接和人交互,帮助用户达成具体的任务的打工人。
  • 个人理解/思考:
    • RAG、MCP 和 Agent 之间是层层递进的关系:RAG 为 Agent 提供了知识,MCP 为 Agent 提供了强大的执行框架,而 Agent 则是最终面向用户的、能够完成复杂任务的完整形态。

2. RAG (Retrieval-Augmented Generation)

  • 概念:检索增强生成,相当于给AI外挂一个知识库,从而可以个性化定制大模型的服务。这是一种经济高效地改进 LLM 输出的方法,让它在各种情境下都能保持相关性、准确性和实用性。
  • 工作原理:
    • Pasted image 20260113154419
  • 个人理解/思考:

无论是上述这个B站视频内容,还是下面的评论,可以总结出一下关键信息。传统后端开发在入职后,不少朋友被要求转为Agent开发,所以,也就是后端开发不和AI结合的话,会存在一些困难。

视频内容当中,需要打通的几个部分,包括,1、如何使用python现成库对文件进行分片 2、如何对分片内容进行向量化处理 3、如何选出和提问问题最接近的知识片内容(召回) 4、如何重排,使用现成模型按照相关性从强到弱排列出片段顺序 5、如何调用大模型API接口,把最终片段喂给模型,让模型生成最终答案。

至于具体的实践,等到我从宏观层面,对于知识图谱,rag技术,Agent技术对于自己的了解,知道每个环节在干嘛之后,再看。

3. MCP (Multi-tool Code Interpreter & Planner)

  • 概念:多工具代码解释与规划器。
  • 核心功能:
    • Planner (规划器):负责将用户提出的一个复杂、模糊的目标,拆解成一系列清晰、可执行的子任务步骤。
    • Multi-tool (多工具):AI 可以访问并调用一个工具集。这些工具可以是任何东西:搜索引擎、计算器、日历API、数据库查询接口,甚至是你在笔记中配置的 Obsidian 接口。
    • Code Interpreter (代码解释器):这是 MCP 的“杀手锏”。当没有现成工具可用时,AI 可以动态编写代码(通常是 Python)来处理数据、执行计算、操作文件或与系统交互,极大地扩展了其解决问题的能力。
    • 总结下来:就是任务分解,工具选取,任务执行和解决。
  • 应用潜力:
    • 工作流自动化:你可以直接下达指令:“帮我抓取这个网站的最新数据,整理成 Excel 表格,分析增长趋势并生成一份 PPT 报告。” MCP 将自动完成整个流程,极大地解放生产力。
    • 软件交互的革命:未来的软件可能不再需要复杂的图形界面和菜单。用户只需通过自然语言下达指令,软件内置的 MCP 引擎就会理解并执行相应操作,实现真正的“对话式交互”。
  • 个人理解/思考:
    • 就和汇编被分装为C和C++ 之后,我们就不需要去死扣代码的细节了,直接用封装好的部分就可以了。就像Java抽象化之后,就不需要像C++要求这么细节了,也是相当于被分装了。
    • 那么MCP未来的大规模扩展也是同一个道理,我们不再需要会具体的Excel语言,只需要用人类的语言为AI安排任务即可,我们不需要学会图形化的页面的操作,那么相关的技术上手难度将大大降低,任何事情都被封装了,我们只需要和AI这个“秘书”交互就可以了。

4、知识图谱

  • 概念:结构化的实体和关系数据,是关系型数据库。
  • 核心功能:
    • 对比向量化检索传统方案:
      • 知识图谱:使用关系的方法来存取数据的,实体、关系、属性,所以能够存取的背景知识更多,从而在AI查找答案的过程当中,可以辅助检索到非常非常精确的答案。
        • 缺点:
          • 构建和维护困难:成本高昂,且需要大量专业知识。
          • 灵活性差:对新知识的更新和扩展比较慢,难以覆盖长尾知识。
          • 处理模糊问题能力弱:无法很好地应对开放性、描述性的问题。
      • 向量检索:可以通过把文本抽象为向量的方法,判断你的问题和已经有的知识库的向量的相似度,找到最相关的答案,可是未必是最精确的,相关的答案可以作为背景知识喂给AI回答,可是却不是最合适的答案。
        • 结果不可控:可能召回不相关或事实错误的上下文,导致LLM产生“幻觉”。
        • 可解释性差:无法解释为什么返回了某段特定的文本。
        • 缺乏推理能力:无法像知识图谱那样进行多步的逻辑推理。(AI自己都不知道自己在干嘛,因为答案完全是根据向量来的,而不是根据逻辑来完成的)
    • 所以结合大语言模型的问答系统当中,一般是结合知识图谱和Rag向量检索,相辅相成的,不仅给出正确答案,还给出相关的分析和问题背景知识。
    • 当前最前沿的趋势是将知识图谱和向量检索结合起来,形成所谓的“Graph RAG”。这种方法试图取长补短:
  1. 先利用向量检索的语义理解能力,从海量文本中快速定位到与问题相关的实体或小范围知识。
  2. 然后利用知识图谱的结构化优势,在召回的这个小范围知识图谱上进行精确的推理和查询,最终生成更可靠、更具深度的答案。

六、自动化B站视频总结方案

1、成品方案

BibiGPT:

我下面就测试一下,普通用户有额度,VIP用户随便用,年费会员每天3块钱,还是有点贵,先看看效果再说。

这里是输入视频的链接,系统正在解析:
Pasted image 20260113170342

其实和百度网盘当中的自动AI解析效果是类似的,现在我看一下笔记的质量如何:

Pasted image 20260113170434

未来网课视频形式,以这种方式让同学快速上手是大势所趋了。这样就可以直接按照内容选择性查看,学习查漏补缺的效率会高更多。

Pasted image 20260113170604

使用体验中规中矩,这个效果自己可以实现的,没必要花钱。

2、少量代码实现方案

技术流程图:

输入B站URL -> 模块1: 音频提取 -> 模块2: 语音转文本 -> 模块3: 文本总结 -> 模块4: 笔记生成 -> 输出Markdown文件

模块一:视频音频获取与提取

推荐工具: yt-dlp。这是一个功能极其强大的命令行工具,是 youtube-dl 的继任者。它支持包括B站在内的数百个网站

模块二:语音转文本 (ASR - Automatic Speech Recognition)

推荐工具: OpenAI’s Whisper。这是目前的开源模型中的佼佼者,识别准确率非常高,尤其对中文支持很好。

模块三:核心内容总结 (LLM)

  • 解决方案 (Map-Reduce策略):
    1. 将长文本切分成多个有重叠的块 (Chunks)。
    2. 每一个小块分别进行总结(Map阶段)。
    3. 将所有小块的总结合并起来,再进行一次最终的总结(Reduce阶段)。

模块四:笔记导出

  • 核心任务: 将最终的总结内容,按照预设的Markdown模板格式化,并保存为 .md 文件。
  • 也可以导出为PDF格式,或者图片格式。

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com
Obsidian