2026-05-28 4.1 数据科学复习--第四章重点

发布时间 : 2026-06-11 02:00

第四章无监督聚类分析·极简必背考点

第四章无监督聚类分析·极简必背考点

（纯纸质手写考试，所有编程实现全不考，仅考概念、算法步骤和计算，作业原题为最高权重考点）

一、本章整体逻辑架构

核心问题：无标签数据如何自动分组
    ↓
基础：相似性度量方法（距离/相似系数）
    ↓
三大核心算法（按考察优先级排序）：
1. K均值聚类 → 最常考计算+简答
2. 分级聚类 → 次常考计算+步骤
3. 密度峰值聚类 → 必考计算（作业原题）
    ↓
最终目标：将相似样本归为一类，不相似样本归为不同类

二、填空必背考点（直接默写）

聚类是无监督学习方法，分类是监督学习方法；聚类的依据是样本间的相似性。
常用距离度量：
- 欧氏距离（$d(x,y)$ 表示两点间的直线距离）：
  $$d(x,y) = \sqrt{\sum_{i=1}^n(x_i-y_i)^2}$$
  其中 $x_i, y_i$ 为样本特征，$n$ 为特征维度
- 明氏距离：
  $$d_m(x,y) = \left(\sum_{i=1}^n|x_i-y_i|^m\right)^{1/m}$$
  其中 $m$ 为阶数（$m=1$ 为曼哈顿距离，$m=2$ 为欧氏距离）
- 马氏距离：考虑了样本间的相关性，与量纲无关
相似系数度量：
- 余弦相似度：衡量向量方向的相似性
- Tanimoto测度（用于二值特征的相似性计算）：
  $$T(\mathbf{x},\mathbf{z}) = \frac{\mathbf{x}^T\mathbf{z}}{\mathbf{x}^T\mathbf{x}+\mathbf{z}^T\mathbf{z}-\mathbf{x}^T\mathbf{z}}$$
  其中 $\mathbf{x}^T\mathbf{z}$ 表示两个向量的点积
K均值聚类的准则函数：误差平方和，目标是最小化该值：
$$J = \sum_{i=1}^c\sum_{\mathbf{y}\in\Gamma_i}|\mathbf{y}-\mathbf{m}_i|^2$$
其中 $c$ 为聚类数，$\Gamma_i$ 为第 $i$ 类样本集，$\mathbf{m}_i$ 为第 $i$ 类中心
分级聚类的类间距离：最小距离（最近邻）、最大距离（最远邻）、平均距离
密度峰值聚类的两个核心量：
- 局部密度 $\rho_i$（以 $x_i$ 为中心、$d_c$ 为半径范围内的样本数）
- 距离 $\delta_i$（$x_i$ 与所有密度比它大的样本的最小距离）
密度峰值聚类的类中心判定：同时满足局部密度大且与其他高密度点距离远的点，即 $\gamma_i$ 值显著大的点：
$$\gamma_i = \rho_i \times \delta_i$$
其中 $\gamma_i$ 为密度与距离的乘积（$\rho_i$ 为局部密度，$\delta_i$ 为距离度量）

三、简答必背考点（直接背答案）

简述聚类与分类的区别
答：分类是监督学习，训练数据有标签，学习从特征到标签的映射；聚类是无监督学习，数据无标签，自动根据样本相似性分组，发现数据的内在结构。
K均值聚类的算法步骤
答：① 随机选择 $k$ 个样本作为初始聚类中心；② 计算每个样本到各中心的距离，将样本分配给最近的中心；③ 重新计算每个类的均值作为新的聚类中心；④ 重复步骤②-③，直到聚类中心不再变化或达到迭代次数。
K均值聚类的优缺点
答：优点：算法简单、计算效率高、易于理解；缺点：① 需预先指定聚类数 $k$；② 对初始聚类中心敏感，易陷入局部最优；③ 仅适合球形分布的数据，对非球形聚类效果差；④ 对噪声和离群点敏感。
分级聚类（最小距离准则）的算法步骤
答：① 初始化每个样本为单独一类；② 计算所有类对之间的最小距离；③ 合并距离最小的两个类；④ 重复步骤②-③，直到达到指定的聚类数或满足停止条件。
密度峰值聚类的两个核心假设
答：① 聚类中心的局部密度是周围区域的极大值；② 不同聚类中心之间的距离相对较远。

四、必考计算题（100%出作业原题，背步骤直接套用）

题型1：K均值聚类计算（作业第1题原题）

核心步骤模板：

给定初始聚类中心 $\mathbf{z}_1, \mathbf{z}_2$（随机选择 $k$ 个样本作为初始中心）
对每个样本 $\mathbf{x}_i$，计算到 $\mathbf{z}_1, \mathbf{z}_2$ 的欧氏距离（$|\mathbf{x}_i - \mathbf{z}_j|$），分配给距离更近的类
计算每个类的均值 $\bar{\mathbf{x}}$，作为新的聚类中心
重复步骤 2-3，直到聚类中心不再变化或达到迭代次数
分析初始点对聚类效果的影响：初始点选择不当会导致聚类结果偏离真实结构

其中 $k$ 为聚类数，$\mathbf{z}_j$ 为第 $j$ 个聚类中心

题型2：分级聚类（最小距离准则）计算（作业第2题原题）

题目描述：已知5个样本点：$x_1(0,0)$、$x_2(1,2)$、$x_3(2,2)$、$x_4(4,4)$、$x_5(5,5)$，使用最小距离准则进行分级聚类。

核心步骤模板：

初始化：每个样本为单独一类，计算所有类对的欧氏距离矩阵
找到距离矩阵中的最小值（$\min d_{ij}$），合并对应的两个类
重新计算新类与其他所有类的最小距离（取各类中样本到新类的最小距离），更新距离矩阵
重复步骤 2-3，直到达到指定的聚类数
画出聚类分级树（横轴为样本，纵轴为合并距离）

题目描述：已知5个样本点：$x_1(0,0)$、$x_2(1,2)$、$x_3(2,2)$、$x_4(4,4)$、$x_5(5,5)$，使用最小距离准则进行分级聚类。

核心步骤模板：

初始化：每个样本为单独一类，计算所有类对的欧氏距离矩阵
找到距离矩阵中的最小值（$\min d_{ij}$），合并对应的两个类
重新计算新类与其他所有类的最小距离（取各类中样本到新类的最小距离），更新距离矩阵
重复步骤 2-3，直到达到指定的聚类数
画出聚类分级树（横轴为样本，纵轴为合并距离）

解题过程（最小距离准则）：

Step 1：初始距离矩阵
$$
D = \begin{pmatrix}
0 & \sqrt{5} & \sqrt{8} & \sqrt{32} & \sqrt{50} \
\sqrt{5} & 0 & 1 & \sqrt{13} & 5 \
\sqrt{8} & 1 & 0 & \sqrt{8} & \sqrt{18} \
\sqrt{32} & \sqrt{13} & \sqrt{8} & 0 & \sqrt{2} \
\sqrt{50} & 5 & \sqrt{18} & \sqrt{2} & 0
\end{pmatrix}
$$

Step 2：合并 $x_2$ 与 $x_3$（$d_{23}=1$ 最小）

新类 $G_1 = {x_2, x_3}$
更新距离：$d(G_1, x_1) = \min(d_{12}, d_{13}) = \min(\sqrt{5}, \sqrt{8}) = \sqrt{5}$
$d(G_1, x_4) = \min(d_{24}, d_{34}) = \min(\sqrt{13}, \sqrt{8}) = \sqrt{8}$
$d(G_1, x_5) = \min(d_{25}, d_{35}) = \min(5, \sqrt{18}) = \sqrt{18}$

Step 3：合并 $x_4$ 与 $x_5$（$d_{45}=\sqrt{2}$ 最小）

新类 $G_2 = {x_4, x_5}$
更新距离：$d(G_1, G_2) = \min(d_{24}, d_{25}, d_{34}, d_{35}) = \min(\sqrt{13}, 5, \sqrt{8}, \sqrt{18}) = \sqrt{8}$

Step 4：合并 $G_1$ 与 $x_1$（$d(G_1,x_1)=\sqrt{5}\approx2.24$ 最小）

新类 $G_3 = {x_1, x_2, x_3}$

Step 5：最终合并 $G_3$ 与 $G_2$（$d(G_3,G_2)=\sqrt{8}\approx2.83$）

最终类 ${x_1,x_2,x_3,x_4,x_5}$

题型3：Tanimoto测度计算（作业第3题原题）

核心公式：
$$T(\mathbf{x},\mathbf{z}) = \frac{\sum_i x_i z_i}{\sum_i x_i^2 + \sum_i z_i^2 - \sum_i x_i z_i}$$

计算示例（$T(\mathbf{x},\mathbf{z})$ 表示两个二值向量的相似度）：

$\mathbf{x}_1 = (1, 0, 1, 0)$，$\mathbf{x}_2 = (0, 1, 0, 1)$：交集为 $0$
$$\Rightarrow T(\mathbf{x}_1, \mathbf{x}_2) = \frac{0}{2+2-0} = 0$$
$\mathbf{x}_2 = (0, 1, 0, 1)$，$\mathbf{x}_3 = (0, 1, 0, 0)$：交集为 $1$
$$\Rightarrow T(\mathbf{x}_2, \mathbf{x}_3) = \frac{1}{2+1-1} = 0.5$$

聚类步骤：用 Tanimoto 测度计算相似性矩阵，相似性越大距离越近，按最小相似性（最大距离）准则合并类，直到达到指定聚类数。

例题：已知5个样本点：$x_1 = {1\ 0\ 1\ 0}$、$x_2 = {0\ 1\ 0\ 1}$、$x_3 = {0\ 1\ 0\ 0}$、$x_4 = {0\ 0\ 0\ 0}$、$x_5 = {1\ 0\ 0\ 0}$，用Tanimoto测度进行分级聚类。

解题过程：

Step 1：计算Tanimoto相似度矩阵

	$x_1$	$x_2$	$x_3$	$x_4$	$x_5$
$x_1$	1	0	0	0	0.5
$x_2$	0	1	0.5	0	0
$x_3$	0	0.5	1	0	0.5
$x_4$	0	0	0	1	0
$x_5$	0.5	0	0.5	0	1

Step 2：合并 $x_1$ 与 $x_5$（$T=0.5$ 最大）

新类 $G_1 = {x_1, x_5}$，相似度 $= 0.5$

Step 3：合并 $x_2$ 与 $x_3$（$T=0.5$ 最大）

新类 $G_2 = {x_2, x_3}$，相似度 $= 0.5$

Step 4：合并 $G_1$ 与 $G_2$（$\max T = 0$）

新类 $G_3 = {x_1, x_2, x_3, x_5}$

Step 5：最终合并 $G_3$ 与 $x_4$

最终类 ${x_1, x_2, x_3, x_4, x_5}$

聚类树状图：

相似度
  ↑
0.5 ─┬──[x1,x5]
 │   └──[x2,x3]
 │
 └──────────────────────→ 样本
   x1   x2   x3   x4   x5

聚类结果：

$x_4$ 为单独一类（与其他样本无交集）
$G_1 = {x_1, x_5}$（第一维都是1）
$G_2 = {x_2, x_3}$（第二维都是1）

题型4：密度峰值聚类计算（作业第4题原题）

核心步骤模板：

计算所有样本对的欧氏距离矩阵（$d_{ij}$ 表示样本 $\mathbf{x}_i$ 与 $\mathbf{x}_j$ 之间的距离）
给定距离阈值 $d_c$，计算每个样本的局部密度 $\rho_i$（距离小于 $d_c$ 的样本数）
对每个样本，找到所有密度比它大的样本，计算其中的最小距离 $\delta_i$；全局密度最大的样本，$\delta_i$ 为与其他所有样本的最大距离
计算 $\gamma_i = \rho_i \times \delta_i$，将 $\gamma_i$ 降序排列，找到 $\gamma_i$ 显著突变的点，即为聚类中心
将剩余样本分配给距离最近的聚类中心所在的类

其中 $\rho_i$ 为局部密度，$\delta_i$ 为距离度量，$\gamma_i$ 为二者乘积（用于识别聚类中心）

五、作业原题对应考点速查

第1题：K均值聚类计算+初始点敏感性分析（必考）
第2题：分级聚类（最小距离准则）+聚类树绘制（必考）
第3题：Tanimoto测度计算+分级聚类（次考）
第4题：密度峰值聚类全流程计算（必考，步骤最多分值最高）

五、知识内在逻辑

结合你这份考点文档，我从底层业务需求、知识逻辑链条、考试得分要求三个维度，逐块解释「为什么要学、这块内容存在的意义、前后逻辑关系」，帮你建立学习动机，理解知识点不是孤立背诵，而是一套解决无标签数据分组的完整方案。

一、整章整体架构：先搞懂「这套知识是为了解决什么终极问题」

核心背景（学习的根本原因）

现实工作、数据挖掘中，大量数据是没有人工标签的：比如平台所有用户、商城所有商品、采集的传感器数据、客户消费记录……没人、也没时间手动给每一条数据分类。

有标签数据 → 用分类（监督学习）；
无标签数据 → 只能用聚类（无监督学习），让算法自动把“长得像”的样本归为一组。

这就是聚类存在的核心刚需，也是本章所有知识点的出发点。

整体流程的内在逻辑（为什么按「相似性度量→三大算法→分组」排序）

第一步：相似性度量（基础）
想把“相似样本放一起”，首先必须定义：怎么判断两个样本像不像？
肉眼判断主观、不准，必须用数学公式量化距离/相似度，这是所有聚类算法的前置基础，没有它，后续分组全是空谈。
第二步：三大聚类算法（核心方案）
数据形态、业务需求不同，单一算法无法适配所有场景，因此衍生三类主流算法：
- K均值：简单高效，工业界最常用；
- 分级聚类：适合需要层级结构的数据；
- 密度峰值聚类：靠密度分组，适配不规则分布数据。
第三步：输出分组结果（最终目标）
基于相似度+对应算法，完成自动分组，挖掘数据内在结构（如用户分群、商品归类、异常识别）。

总结：整章是一套 「定判断标准 → 选分组算法 → 输出结果」 的完整解决方案，环环相扣，缺一不可。

二、填空考点：基础定义、公式、核心指标（为什么要学？）

这部分是理解算法、做计算、答概念题的地基，所有简答、计算题都建立在这些定义和公式之上。

1. 聚类 vs 分类（监督/无监督）

学习理由：
① 考试必考概念辨析填空；
② 这是机器学习两大基础范式，是所有数据分析方法选型的第一步。拿到数据先判断：有没有标签？有标签用分类，无标签用聚类。分不清二者，后续算法全会用错。

2. 距离度量（欧氏、明氏、马氏距离）

逻辑与需求：
距离 = 量化「两个样本差异大小」的核心工具，距离越小，样本越相似。
不同数据特点，需要不同距离公式适配：
1. 欧氏距离：最通用，常规连续数值数据（年龄、分数、坐标）首选，考试计算主力，必须掌握；
2. 明氏距离：是通用统一公式，把曼哈顿距离(m=1)、欧氏距离(m=2)囊括在内，帮你理解各类距离的同源逻辑，不用孤立记忆多个公式；
3. 马氏距离：解决两个痛点——特征之间有相关性、数据量纲不统一，弥补欧氏距离的缺陷，拓展适用场景。
一句话：学多种距离，是为了适配不同类型的数值型数据。

3. 相似系数（余弦相似度、Tanimoto测度）

逻辑与需求：
距离侧重「样本数值大小的差异」，但现实中还有两类特殊数据，距离不再适用：
1. 向量型数据（文本、用户行为）：关注方向而非绝对数值 → 用余弦相似度；
2. 二值特征数据（是/否、有/无、标签属性）：只有0和1，传统距离计算无意义 → 专用 Tanimoto测度（作业必考计算）。
一句话：距离管数值数据，相似系数管向量、二值数据，二者互补，覆盖绝大多数数据类型。

4. 各算法核心评价/判定指标

（K均值误差平方和、分级聚类类间距离、密度峰值$\boldsymbol{\rho_i/\delta_i/\gamma_i}$）

学习理由：
这些指标是算法运行的“内在规则”：
1. K均值的误差平方和：用来评判聚类效果好坏，算法迭代的目标就是让这个值最小，不懂它就理解不了K均值的优化逻辑；
2. 分级聚类的三类类间距离：算法合并类别时，必须先定义“两个大类之间怎么算距离”，是合并类别的依据；
3. 密度峰值的$\boldsymbol{\rho、\delta、\gamma}$：是寻找聚类中心的唯一依据，该算法不靠距离中心分组，而是靠密度，这三个量是它的核心逻辑。
总结：不懂这些指标，就只能死背步骤，既做不对计算题，也答不出概念题。

三、简答考点：算法步骤、优缺点、核心假设

简答考的是对算法流程、特性、设计思想的理解，不止是背诵，更是学会「怎么用、怎么选算法」。

1. 聚类与分类的区别

需求：考试高频简答，同时是方法论区分的基础，和前面填空知识点形成互补。

2. K均值聚类：算法步骤 + 优缺点

（1）算法步骤

学习理由：步骤是计算题的标准答题模板，考试计算必须按流程书写；同时步骤还原了算法“分配样本→更新中心→迭代收敛”的运行逻辑，看懂步骤才算真正理解算法。

（2）优缺点

核心价值（重点）：
算法没有万能的，优缺点就是算法的使用边界：
- 知道优点（简单、高效）：明白为什么工业界90%的常规聚类场景都首选K均值；
- 知道缺点（需指定k、对初始中心/异常值敏感）：实际使用时会主动避坑（比如多次测试初始中心、提前清洗异常值），考试也专门针对缺点出题。

3. 分级聚类（最小距离准则）算法步骤

学习理由：
它和K均值是两大主流聚类思路：
- K均值：自顶向下划分；
- 分级聚类：自底向上合并。
  掌握它，能完善你对“聚类实现思路”的整体认知，同时直接对应作业计算题答题流程。

4. 密度峰值聚类的两大核心假设

学习理由：
假设是算法设计者的底层思路，整个密度峰值聚类都是围绕这两条假设搭建的：

聚类中心局部密度最大 + 不同中心距离较远
理解假设，你就能瞬间明白：为什么要算局部密度$\rho$、距离$\delta$、乘积$\gamma$，不再机械记公式。

四、必考计算题：四大题型（为什么要动手算？）

计算是把理论落地、检验是否真懂的最好方式，同时也是本章分值最高的部分，每类计算对应一类业务场景。

1. K均值聚类计算（作业第1题）

逻辑&需求：
工业界用户分群、客户分层、商品分组的主流算法，计算过程完整复刻算法迭代逻辑；反复计算能吃透“初始中心影响”这一高频考点，考试+应用双重刚需。

2. 分级聚类计算（最小距离准则）

逻辑&需求：
适合需要层级结构的场景（如商品分类：大类→子类→单品、组织机构分层）；计算过程掌握“类合并+距离更新”规则，同时聚类树也是考试必画内容。

3. Tanimoto测度计算

逻辑&需求：
专门服务二值特征（用户标签、物品属性、行为标签），是这类数据相似度计算的专属工具，作业原题必考，属于针对性技能。

4. 密度峰值聚类全流程计算（作业分值最高）

逻辑&需求：
弥补K均值、分级聚类的短板（比如非球形分布数据、复杂形状聚类），是进阶聚类算法代表；整套计算流程最长，串联了距离、密度、中心判定所有前置知识点，是对整章基础的综合考查。

五、全局总结：整章知识的闭环与学习价值

1. 知识逻辑闭环（从头到尾梳理）

无标签数据 → 定义相似度（距离/相似系数）→ 根据数据形态选算法

常规数值数据、追求效率 → K均值；
需要层级分组 → 分级聚类；
不规则分布数据 → 密度峰值聚类；
二值特征数据 → Tanimoto+聚类。

整套知识从基础评判标准到多套解决方案，覆盖了绝大多数聚类场景，是一套完整、成体系的数据挖掘技能。

2. 对应你的考试需求

所有填空、简答、计算、作业原题，全部嵌入在这套逻辑里：

基础定义 = 填空得分；
算法理解 = 简答得分；
流程公式 = 计算大题得分。
不存在孤立知识点，每一块内容都是为了应对不同题型、不同考点。

3. 一句话总结学习动机

我们学这一章，本质是学会一套“给无标签数据自动分组”的完整工具包：
先学会判断样本像不像，再根据数据特点选合适的聚类算法，理解算法规则、优缺点和使用边界，最终既能应对考试答题，也能看懂实际业务中的数据分组逻辑。

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 kipleyarch@gmail.com

2026-05-28 4.1 数据科学复习--第四章重点

第四章 无监督聚类分析·极简必背考点

一、本章整体逻辑架构

二、填空必背考点（直接默写）

三、简答必背考点（直接背答案）

四、必考计算题（100%出作业原题，背步骤直接套用）

题型1：K均值聚类计算（作业第1题原题）

题型2：分级聚类（最小距离准则）计算（作业第2题原题）

题型3：Tanimoto测度计算（作业第3题原题）

题型4：密度峰值聚类计算（作业第4题原题）

五、作业原题对应考点速查

五、知识内在逻辑

一、整章整体架构：先搞懂「这套知识是为了解决什么终极问题」

核心背景（学习的根本原因）

整体流程的内在逻辑（为什么按「相似性度量→三大算法→分组」排序）

二、填空考点：基础定义、公式、核心指标（为什么要学？）

1. 聚类 vs 分类（监督/无监督）

2. 距离度量（欧氏、明氏、马氏距离）

3. 相似系数（余弦相似度、Tanimoto测度）

4. 各算法核心评价/判定指标

三、简答考点：算法步骤、优缺点、核心假设

1. 聚类与分类的区别

2. K均值聚类：算法步骤 + 优缺点

（1）算法步骤

（2）优缺点

3. 分级聚类（最小距离准则）算法步骤

4. 密度峰值聚类的两大核心假设

四、必考计算题：四大题型（为什么要动手算？）

1. K均值聚类计算（作业第1题）

2. 分级聚类计算（最小距离准则）

3. Tanimoto测度计算

4. 密度峰值聚类全流程计算（作业分值最高）

五、全局总结：整章知识的闭环与学习价值

1. 知识逻辑闭环（从头到尾梳理）

2. 对应你的考试需求

3. 一句话总结学习动机

第四章无监督聚类分析·极简必背考点