2026-01-13

发布时间 : 2026-04-21 01:10

01月13日

01月13日

一、今日完成情况

编辑一个插件快捷键脚本，批量关闭笔记本的软件，节约时间。 –完成
- 效果如下：暗笑 control + option + q，可以快速退出除了Chrome、clashverge、Obsidian之外的其他软件。
清理mac内存，两星期没看存储，居然内存只剩60了，不能接受，所以目前清理到100GB了。 –完成
配置Obisidian本地AI访问MCP服务，简单尝试一下 https://github.com/bitbonsai/mcp-obsidian –完成
关于Agent、rag、MCP可以使用自己的语言表述，基础概念导出内容或者笔记 –完成
关于librechat私人数据库快速导入尝试一下，达成批量导入政事堂PDF的目标 –未完成，晚上偷懒
审核100条数据，发送到群文件当中。 –完成
思考如果我要设计一个AI系统，可以自动总结视频的内容并且导出笔记，这个系统如何设计。当然这里限定式B站视频，输入是B站视频的网址，或者是B站网页的插件也行，如果有现成的方案那就更好了。 –思考完毕

二、今日感悟

核心业务数据：
- 主要是基本概念的上手了解，项目比较细碎，还是宏观层面了解基本概念的情况
今日工作总结：
- 无
明日工作计划：
- 制定一个衣物整理清点计划，我要知道自己的衣服如何收纳和数量
- AI系统实现落地，至少打通两个环节
- librechat私人快速导入方式探索，尽量实现
- 审核100条数据，发到群文件当中
- 如果时间有多，尝试打通rag闭环，教程是今天B站的教程。
今日学习成长：
- 有点偷懒，不敢说有啥成长。

三、备注

四、Obsidian MCP 配置精简笔记

为了在 LibreChat 中启用 Obsidian 工具，已在 librechat.yaml 文件的 mcpServers 部分添加了以下配置：

工具名称： obsidian
命令： npx @mauricio.wolff/mcp-obsidian@latest
关键配置： 在 args 中设置了您的 Obsidian Vault 的绝对路径。

重要提示： 请确保 /path/to/your/vault 已被替换为您的实际 Obsidian Vault 路径。

例如：/Users/kipley/Library/CloudStorage/OneDrive-Personal/OneNote/Obsidian Vault

果然，下面的第五点模版就是刚才的AI帮我生成的，那么我未来使用AI帮我解决问题之后，我可以直接让它把之前的工作量保存到我的Obsidian笔记当中，我只需要微调内容就可以了，而不是切屏然后复制黏贴的方法，非常非常方便。

五、Agent、RAG、MCP 学习笔记

学习笔记框架

1. Agent

概念：
- 传统 AI 是一个“回答问题的专家”，那么 Agent 就是一个能“解决问题的员工”。它的核心是从被动响应转向主动执行
关键技术：
- 大语言模型
- MCP工具调用能力
- 记忆机制（上下文）
应用场景：
- 超级个人助理：自动处理邮件、管理日程、预订机票酒店、整理文件，完成所有数字世界的琐事。所以这里看出来，Agent就是一个完全体，可以直接和人交互，帮助用户达成具体的任务的打工人。
个人理解/思考：
- RAG、MCP 和 Agent 之间是层层递进的关系：RAG 为 Agent 提供了知识，MCP 为 Agent 提供了强大的执行框架，而 Agent 则是最终面向用户的、能够完成复杂任务的完整形态。

2. RAG (Retrieval-Augmented Generation)

概念：检索增强生成，相当于给AI外挂一个知识库，从而可以个性化定制大模型的服务。这是一种经济高效地改进 LLM 输出的方法，让它在各种情境下都能保持相关性、准确性和实用性。
工作原理：
个人理解/思考：
- 打通每个环节是个问题，现在一定有现成的rag框架需要快速了解一下，理论来说，用户层，只需要配置好embedding模型，还有大模型就可以了，实际开发当中，开发者的工作量体现在哪里，还需要了解。
- 完整的看了一个项目的实现全过程 https://www.bilibili.com/video/BV1wc3izUEUb/?spm_id_from=333.337.search-card.all.click&vd_source=26c28d2a11f1fca6e13d0058eb586865

无论是上述这个B站视频内容，还是下面的评论，可以总结出一下关键信息。传统后端开发在入职后，不少朋友被要求转为Agent开发，所以，也就是后端开发不和AI结合的话，会存在一些困难。

视频内容当中，需要打通的几个部分，包括，1、如何使用python现成库对文件进行分片 2、如何对分片内容进行向量化处理 3、如何选出和提问问题最接近的知识片内容（召回） 4、如何重排，使用现成模型按照相关性从强到弱排列出片段顺序 5、如何调用大模型API接口，把最终片段喂给模型，让模型生成最终答案。

至于具体的实践，等到我从宏观层面，对于知识图谱，rag技术，Agent技术对于自己的了解，知道每个环节在干嘛之后，再看。

3. MCP (Multi-tool Code Interpreter & Planner)

概念：多工具代码解释与规划器。
核心功能：
- Planner (规划器)：负责将用户提出的一个复杂、模糊的目标，拆解成一系列清晰、可执行的子任务步骤。
- Multi-tool (多工具)：AI 可以访问并调用一个工具集。这些工具可以是任何东西：搜索引擎、计算器、日历API、数据库查询接口，甚至是你在笔记中配置的 Obsidian 接口。
- Code Interpreter (代码解释器)：这是 MCP 的“杀手锏”。当没有现成工具可用时，AI 可以动态编写代码（通常是 Python）来处理数据、执行计算、操作文件或与系统交互，极大地扩展了其解决问题的能力。
- 总结下来：就是任务分解，工具选取，任务执行和解决。
应用潜力：
- 工作流自动化：你可以直接下达指令：“帮我抓取这个网站的最新数据，整理成 Excel 表格，分析增长趋势并生成一份 PPT 报告。” MCP 将自动完成整个流程，极大地解放生产力。
- 软件交互的革命：未来的软件可能不再需要复杂的图形界面和菜单。用户只需通过自然语言下达指令，软件内置的 MCP 引擎就会理解并执行相应操作，实现真正的“对话式交互”。
个人理解/思考：
- 就和汇编被分装为C和C++ 之后，我们就不需要去死扣代码的细节了，直接用封装好的部分就可以了。就像Java抽象化之后，就不需要像C++要求这么细节了，也是相当于被分装了。
- 那么MCP未来的大规模扩展也是同一个道理，我们不再需要会具体的Excel语言，只需要用人类的语言为AI安排任务即可，我们不需要学会图形化的页面的操作，那么相关的技术上手难度将大大降低，任何事情都被封装了，我们只需要和AI这个“秘书”交互就可以了。

4、知识图谱

概念：结构化的实体和关系数据，是关系型数据库。
核心功能：
- 对比向量化检索传统方案：
  - 知识图谱：使用关系的方法来存取数据的，实体、关系、属性，所以能够存取的背景知识更多，从而在AI查找答案的过程当中，可以辅助检索到非常非常精确的答案。
    - 缺点：
      - 构建和维护困难：成本高昂，且需要大量专业知识。
      - 灵活性差：对新知识的更新和扩展比较慢，难以覆盖长尾知识。
      - 处理模糊问题能力弱：无法很好地应对开放性、描述性的问题。
  - 向量检索：可以通过把文本抽象为向量的方法，判断你的问题和已经有的知识库的向量的相似度，找到最相关的答案，可是未必是最精确的，相关的答案可以作为背景知识喂给AI回答，可是却不是最合适的答案。
    - 结果不可控：可能召回不相关或事实错误的上下文，导致LLM产生“幻觉”。
    - 可解释性差：无法解释为什么返回了某段特定的文本。
    - 缺乏推理能力：无法像知识图谱那样进行多步的逻辑推理。（AI自己都不知道自己在干嘛，因为答案完全是根据向量来的，而不是根据逻辑来完成的）
- 所以结合大语言模型的问答系统当中，一般是结合知识图谱和Rag向量检索，相辅相成的，不仅给出正确答案，还给出相关的分析和问题背景知识。
- 当前最前沿的趋势是将知识图谱和向量检索结合起来，形成所谓的“Graph RAG”。这种方法试图取长补短：

先利用向量检索的语义理解能力，从海量文本中快速定位到与问题相关的实体或小范围知识。
然后利用知识图谱的结构化优势，在召回的这个小范围知识图谱上进行精确的推理和查询，最终生成更可靠、更具深度的答案。

六、自动化B站视频总结方案

1、成品方案

BibiGPT：

我下面就测试一下，普通用户有额度，VIP用户随便用，年费会员每天3块钱，还是有点贵，先看看效果再说。

这里是输入视频的链接，系统正在解析：

其实和百度网盘当中的自动AI解析效果是类似的，现在我看一下笔记的质量如何：

未来网课视频形式，以这种方式让同学快速上手是大势所趋了。这样就可以直接按照内容选择性查看，学习查漏补缺的效率会高更多。

使用体验中规中矩，这个效果自己可以实现的，没必要花钱。

2、少量代码实现方案

技术流程图:

输入B站URL -> 模块1: 音频提取 -> 模块2: 语音转文本 -> 模块3: 文本总结 -> 模块4: 笔记生成 -> 输出Markdown文件

模块一：视频音频获取与提取

推荐工具: yt-dlp。这是一个功能极其强大的命令行工具，是 youtube-dl 的继任者。它支持包括B站在内的数百个网站

模块二：语音转文本 (ASR - Automatic Speech Recognition)

推荐工具: OpenAI’s Whisper。这是目前的开源模型中的佼佼者，识别准确率非常高，尤其对中文支持很好。

模块三：核心内容总结 (LLM)

解决方案 (Map-Reduce策略):
1. 将长文本切分成多个有重叠的块 (Chunks)。
2. 对每一个小块分别进行总结（Map阶段）。
3. 将所有小块的总结合并起来，再进行一次最终的总结（Reduce阶段）。

模块四：笔记导出

核心任务: 将最终的总结内容，按照预设的Markdown模板格式化，并保存为 .md 文件。
也可以导出为PDF格式，或者图片格式。

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 kipleyarch@gmail.com