第四章 无监督聚类分析·极简必背考点
(纯纸质手写考试,所有编程实现全不考,仅考概念、算法步骤和计算,作业原题为最高权重考点)
一、本章整体逻辑架构
核心问题:无标签数据如何自动分组
↓
基础:相似性度量方法(距离/相似系数)
↓
三大核心算法(按考察优先级排序):
1. K均值聚类 → 最常考计算+简答
2. 分级聚类 → 次常考计算+步骤
3. 密度峰值聚类 → 必考计算(作业原题)
↓
最终目标:将相似样本归为一类,不相似样本归为不同类
二、填空必背考点(直接默写)
- 聚类是无监督学习方法,分类是监督学习方法;聚类的依据是样本间的相似性。
- 常用距离度量:
- 欧氏距离($d(x,y)$ 表示两点间的直线距离):
$$d(x,y) = \sqrt{\sum_{i=1}^n(x_i-y_i)^2}$$
其中 $x_i, y_i$ 为样本特征,$n$ 为特征维度 - 明氏距离:
$$d_m(x,y) = \left(\sum_{i=1}^n|x_i-y_i|^m\right)^{1/m}$$
其中 $m$ 为阶数($m=1$ 为曼哈顿距离,$m=2$ 为欧氏距离) - 马氏距离:考虑了样本间的相关性,与量纲无关
- 欧氏距离($d(x,y)$ 表示两点间的直线距离):
- 相似系数度量:
- 余弦相似度:衡量向量方向的相似性
- Tanimoto测度(用于二值特征的相似性计算):
$$T(\mathbf{x},\mathbf{z}) = \frac{\mathbf{x}^T\mathbf{z}}{\mathbf{x}^T\mathbf{x}+\mathbf{z}^T\mathbf{z}-\mathbf{x}^T\mathbf{z}}$$
其中 $\mathbf{x}^T\mathbf{z}$ 表示两个向量的点积
- K均值聚类的准则函数:误差平方和,目标是最小化该值:
$$J = \sum_{i=1}^c\sum_{\mathbf{y}\in\Gamma_i}|\mathbf{y}-\mathbf{m}_i|^2$$
其中 $c$ 为聚类数,$\Gamma_i$ 为第 $i$ 类样本集,$\mathbf{m}_i$ 为第 $i$ 类中心 - 分级聚类的类间距离:最小距离(最近邻)、最大距离(最远邻)、平均距离
- 密度峰值聚类的两个核心量:
- 局部密度 $\rho_i$(以 $x_i$ 为中心、$d_c$ 为半径范围内的样本数)
- 距离 $\delta_i$($x_i$ 与所有密度比它大的样本的最小距离)
- 密度峰值聚类的类中心判定:同时满足局部密度大且与其他高密度点距离远的点,即 $\gamma_i$ 值显著大的点:
$$\gamma_i = \rho_i \times \delta_i$$
其中 $\gamma_i$ 为密度与距离的乘积($\rho_i$ 为局部密度,$\delta_i$ 为距离度量)
三、简答必背考点(直接背答案)
简述聚类与分类的区别
答:分类是监督学习,训练数据有标签,学习从特征到标签的映射;聚类是无监督学习,数据无标签,自动根据样本相似性分组,发现数据的内在结构。K均值聚类的算法步骤
答:① 随机选择 $k$ 个样本作为初始聚类中心;② 计算每个样本到各中心的距离,将样本分配给最近的中心;③ 重新计算每个类的均值作为新的聚类中心;④ 重复步骤②-③,直到聚类中心不再变化或达到迭代次数。K均值聚类的优缺点
答:优点:算法简单、计算效率高、易于理解;缺点:① 需预先指定聚类数 $k$;② 对初始聚类中心敏感,易陷入局部最优;③ 仅适合球形分布的数据,对非球形聚类效果差;④ 对噪声和离群点敏感。分级聚类(最小距离准则)的算法步骤
答:① 初始化每个样本为单独一类;② 计算所有类对之间的最小距离;③ 合并距离最小的两个类;④ 重复步骤②-③,直到达到指定的聚类数或满足停止条件。密度峰值聚类的两个核心假设
答:① 聚类中心的局部密度是周围区域的极大值;② 不同聚类中心之间的距离相对较远。
四、必考计算题(100%出作业原题,背步骤直接套用)
题型1:K均值聚类计算(作业第1题原题)
核心步骤模板:
- 给定初始聚类中心 $\mathbf{z}_1, \mathbf{z}_2$(随机选择 $k$ 个样本作为初始中心)
- 对每个样本 $\mathbf{x}_i$,计算到 $\mathbf{z}_1, \mathbf{z}_2$ 的欧氏距离($|\mathbf{x}_i - \mathbf{z}_j|$),分配给距离更近的类
- 计算每个类的均值 $\bar{\mathbf{x}}$,作为新的聚类中心
- 重复步骤 2-3,直到聚类中心不再变化或达到迭代次数
- 分析初始点对聚类效果的影响:初始点选择不当会导致聚类结果偏离真实结构
其中 $k$ 为聚类数,$\mathbf{z}_j$ 为第 $j$ 个聚类中心
题型2:分级聚类(最小距离准则)计算(作业第2题原题)
题目描述:已知5个样本点:$x_1(0,0)$、$x_2(1,2)$、$x_3(2,2)$、$x_4(4,4)$、$x_5(5,5)$,使用最小距离准则进行分级聚类。
核心步骤模板:
- 初始化:每个样本为单独一类,计算所有类对的欧氏距离矩阵
- 找到距离矩阵中的最小值($\min d_{ij}$),合并对应的两个类
- 重新计算新类与其他所有类的最小距离(取各类中样本到新类的最小距离),更新距离矩阵
- 重复步骤 2-3,直到达到指定的聚类数
- 画出聚类分级树(横轴为样本,纵轴为合并距离)
题目描述:已知5个样本点:$x_1(0,0)$、$x_2(1,2)$、$x_3(2,2)$、$x_4(4,4)$、$x_5(5,5)$,使用最小距离准则进行分级聚类。
核心步骤模板:
- 初始化:每个样本为单独一类,计算所有类对的欧氏距离矩阵
- 找到距离矩阵中的最小值($\min d_{ij}$),合并对应的两个类
- 重新计算新类与其他所有类的最小距离(取各类中样本到新类的最小距离),更新距离矩阵
- 重复步骤 2-3,直到达到指定的聚类数
- 画出聚类分级树(横轴为样本,纵轴为合并距离)
解题过程(最小距离准则):
Step 1:初始距离矩阵
$$
D = \begin{pmatrix}
0 & \sqrt{5} & \sqrt{8} & \sqrt{32} & \sqrt{50} \
\sqrt{5} & 0 & 1 & \sqrt{13} & 5 \
\sqrt{8} & 1 & 0 & \sqrt{8} & \sqrt{18} \
\sqrt{32} & \sqrt{13} & \sqrt{8} & 0 & \sqrt{2} \
\sqrt{50} & 5 & \sqrt{18} & \sqrt{2} & 0
\end{pmatrix}
$$
Step 2:合并 $x_2$ 与 $x_3$($d_{23}=1$ 最小)
- 新类 $G_1 = {x_2, x_3}$
- 更新距离:$d(G_1, x_1) = \min(d_{12}, d_{13}) = \min(\sqrt{5}, \sqrt{8}) = \sqrt{5}$
- $d(G_1, x_4) = \min(d_{24}, d_{34}) = \min(\sqrt{13}, \sqrt{8}) = \sqrt{8}$
- $d(G_1, x_5) = \min(d_{25}, d_{35}) = \min(5, \sqrt{18}) = \sqrt{18}$
Step 3:合并 $x_4$ 与 $x_5$($d_{45}=\sqrt{2}$ 最小)
- 新类 $G_2 = {x_4, x_5}$
- 更新距离:$d(G_1, G_2) = \min(d_{24}, d_{25}, d_{34}, d_{35}) = \min(\sqrt{13}, 5, \sqrt{8}, \sqrt{18}) = \sqrt{8}$
Step 4:合并 $G_1$ 与 $x_1$($d(G_1,x_1)=\sqrt{5}\approx2.24$ 最小)
- 新类 $G_3 = {x_1, x_2, x_3}$
Step 5:最终合并 $G_3$ 与 $G_2$($d(G_3,G_2)=\sqrt{8}\approx2.83$)
- 最终类 ${x_1,x_2,x_3,x_4,x_5}$
题型3:Tanimoto测度计算(作业第3题原题)
核心公式:
$$T(\mathbf{x},\mathbf{z}) = \frac{\sum_i x_i z_i}{\sum_i x_i^2 + \sum_i z_i^2 - \sum_i x_i z_i}$$
计算示例($T(\mathbf{x},\mathbf{z})$ 表示两个二值向量的相似度):
- $\mathbf{x}_1 = (1, 0, 1, 0)$,$\mathbf{x}_2 = (0, 1, 0, 1)$:交集为 $0$
$$\Rightarrow T(\mathbf{x}_1, \mathbf{x}_2) = \frac{0}{2+2-0} = 0$$ - $\mathbf{x}_2 = (0, 1, 0, 1)$,$\mathbf{x}_3 = (0, 1, 0, 0)$:交集为 $1$
$$\Rightarrow T(\mathbf{x}_2, \mathbf{x}_3) = \frac{1}{2+1-1} = 0.5$$
聚类步骤:用 Tanimoto 测度计算相似性矩阵,相似性越大距离越近,按最小相似性(最大距离)准则合并类,直到达到指定聚类数。
例题:已知5个样本点:$x_1 = {1\ 0\ 1\ 0}$、$x_2 = {0\ 1\ 0\ 1}$、$x_3 = {0\ 1\ 0\ 0}$、$x_4 = {0\ 0\ 0\ 0}$、$x_5 = {1\ 0\ 0\ 0}$,用Tanimoto测度进行分级聚类。
解题过程:
Step 1:计算Tanimoto相似度矩阵
| $x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | |
|---|---|---|---|---|---|
| $x_1$ | 1 | 0 | 0 | 0 | 0.5 |
| $x_2$ | 0 | 1 | 0.5 | 0 | 0 |
| $x_3$ | 0 | 0.5 | 1 | 0 | 0.5 |
| $x_4$ | 0 | 0 | 0 | 1 | 0 |
| $x_5$ | 0.5 | 0 | 0.5 | 0 | 1 |
Step 2:合并 $x_1$ 与 $x_5$($T=0.5$ 最大)
- 新类 $G_1 = {x_1, x_5}$,相似度 $= 0.5$
Step 3:合并 $x_2$ 与 $x_3$($T=0.5$ 最大)
- 新类 $G_2 = {x_2, x_3}$,相似度 $= 0.5$
Step 4:合并 $G_1$ 与 $G_2$($\max T = 0$)
- 新类 $G_3 = {x_1, x_2, x_3, x_5}$
Step 5:最终合并 $G_3$ 与 $x_4$
- 最终类 ${x_1, x_2, x_3, x_4, x_5}$
聚类树状图:
相似度
↑
0.5 ─┬──[x1,x5]
│ └──[x2,x3]
│
└──────────────────────→ 样本
x1 x2 x3 x4 x5
聚类结果:
- $x_4$ 为单独一类(与其他样本无交集)
- $G_1 = {x_1, x_5}$(第一维都是1)
- $G_2 = {x_2, x_3}$(第二维都是1)
题型4:密度峰值聚类计算(作业第4题原题)
核心步骤模板:
- 计算所有样本对的欧氏距离矩阵($d_{ij}$ 表示样本 $\mathbf{x}_i$ 与 $\mathbf{x}_j$ 之间的距离)
- 给定距离阈值 $d_c$,计算每个样本的局部密度 $\rho_i$(距离小于 $d_c$ 的样本数)
- 对每个样本,找到所有密度比它大的样本,计算其中的最小距离 $\delta_i$;全局密度最大的样本,$\delta_i$ 为与其他所有样本的最大距离
- 计算 $\gamma_i = \rho_i \times \delta_i$,将 $\gamma_i$ 降序排列,找到 $\gamma_i$ 显著突变的点,即为聚类中心
- 将剩余样本分配给距离最近的聚类中心所在的类
其中 $\rho_i$ 为局部密度,$\delta_i$ 为距离度量,$\gamma_i$ 为二者乘积(用于识别聚类中心)
五、作业原题对应考点速查
- 第1题:K均值聚类计算+初始点敏感性分析(必考)
- 第2题:分级聚类(最小距离准则)+聚类树绘制(必考)
- 第3题:Tanimoto测度计算+分级聚类(次考)
- 第4题:密度峰值聚类全流程计算(必考,步骤最多分值最高)
五、知识内在逻辑
结合你这份考点文档,我从底层业务需求、知识逻辑链条、考试得分要求三个维度,逐块解释「为什么要学、这块内容存在的意义、前后逻辑关系」,帮你建立学习动机,理解知识点不是孤立背诵,而是一套解决无标签数据分组的完整方案。
一、整章整体架构:先搞懂「这套知识是为了解决什么终极问题」
核心背景(学习的根本原因)
现实工作、数据挖掘中,大量数据是没有人工标签的:比如平台所有用户、商城所有商品、采集的传感器数据、客户消费记录……没人、也没时间手动给每一条数据分类。
- 有标签数据 → 用分类(监督学习);
- 无标签数据 → 只能用聚类(无监督学习),让算法自动把“长得像”的样本归为一组。
这就是聚类存在的核心刚需,也是本章所有知识点的出发点。
整体流程的内在逻辑(为什么按「相似性度量→三大算法→分组」排序)
- 第一步:相似性度量(基础)
想把“相似样本放一起”,首先必须定义:怎么判断两个样本像不像?
肉眼判断主观、不准,必须用数学公式量化距离/相似度,这是所有聚类算法的前置基础,没有它,后续分组全是空谈。 - 第二步:三大聚类算法(核心方案)
数据形态、业务需求不同,单一算法无法适配所有场景,因此衍生三类主流算法:- K均值:简单高效,工业界最常用;
- 分级聚类:适合需要层级结构的数据;
- 密度峰值聚类:靠密度分组,适配不规则分布数据。
- 第三步:输出分组结果(最终目标)
基于相似度+对应算法,完成自动分组,挖掘数据内在结构(如用户分群、商品归类、异常识别)。
总结:整章是一套 「定判断标准 → 选分组算法 → 输出结果」 的完整解决方案,环环相扣,缺一不可。
二、填空考点:基础定义、公式、核心指标(为什么要学?)
这部分是理解算法、做计算、答概念题的地基,所有简答、计算题都建立在这些定义和公式之上。
1. 聚类 vs 分类(监督/无监督)
- 学习理由:
① 考试必考概念辨析填空;
② 这是机器学习两大基础范式,是所有数据分析方法选型的第一步。拿到数据先判断:有没有标签?有标签用分类,无标签用聚类。分不清二者,后续算法全会用错。
2. 距离度量(欧氏、明氏、马氏距离)
- 逻辑与需求:
距离 = 量化「两个样本差异大小」的核心工具,距离越小,样本越相似。
不同数据特点,需要不同距离公式适配:- 欧氏距离:最通用,常规连续数值数据(年龄、分数、坐标)首选,考试计算主力,必须掌握;
- 明氏距离:是通用统一公式,把曼哈顿距离(m=1)、欧氏距离(m=2)囊括在内,帮你理解各类距离的同源逻辑,不用孤立记忆多个公式;
- 马氏距离:解决两个痛点——特征之间有相关性、数据量纲不统一,弥补欧氏距离的缺陷,拓展适用场景。
- 一句话:学多种距离,是为了适配不同类型的数值型数据。
3. 相似系数(余弦相似度、Tanimoto测度)
- 逻辑与需求:
距离侧重「样本数值大小的差异」,但现实中还有两类特殊数据,距离不再适用:- 向量型数据(文本、用户行为):关注方向而非绝对数值 → 用余弦相似度;
- 二值特征数据(是/否、有/无、标签属性):只有0和1,传统距离计算无意义 → 专用 Tanimoto测度(作业必考计算)。
- 一句话:距离管数值数据,相似系数管向量、二值数据,二者互补,覆盖绝大多数数据类型。
4. 各算法核心评价/判定指标
(K均值误差平方和、分级聚类类间距离、密度峰值$\boldsymbol{\rho_i/\delta_i/\gamma_i}$)
- 学习理由:
这些指标是算法运行的“内在规则”:- K均值的误差平方和:用来评判聚类效果好坏,算法迭代的目标就是让这个值最小,不懂它就理解不了K均值的优化逻辑;
- 分级聚类的三类类间距离:算法合并类别时,必须先定义“两个大类之间怎么算距离”,是合并类别的依据;
- 密度峰值的$\boldsymbol{\rho、\delta、\gamma}$:是寻找聚类中心的唯一依据,该算法不靠距离中心分组,而是靠密度,这三个量是它的核心逻辑。
- 总结:不懂这些指标,就只能死背步骤,既做不对计算题,也答不出概念题。
三、简答考点:算法步骤、优缺点、核心假设
简答考的是对算法流程、特性、设计思想的理解,不止是背诵,更是学会「怎么用、怎么选算法」。
1. 聚类与分类的区别
- 需求:考试高频简答,同时是方法论区分的基础,和前面填空知识点形成互补。
2. K均值聚类:算法步骤 + 优缺点
(1)算法步骤
- 学习理由:步骤是计算题的标准答题模板,考试计算必须按流程书写;同时步骤还原了算法“分配样本→更新中心→迭代收敛”的运行逻辑,看懂步骤才算真正理解算法。
(2)优缺点
- 核心价值(重点):
算法没有万能的,优缺点就是算法的使用边界:- 知道优点(简单、高效):明白为什么工业界90%的常规聚类场景都首选K均值;
- 知道缺点(需指定k、对初始中心/异常值敏感):实际使用时会主动避坑(比如多次测试初始中心、提前清洗异常值),考试也专门针对缺点出题。
3. 分级聚类(最小距离准则)算法步骤
- 学习理由:
它和K均值是两大主流聚类思路:- K均值:自顶向下划分;
- 分级聚类:自底向上合并。
掌握它,能完善你对“聚类实现思路”的整体认知,同时直接对应作业计算题答题流程。
4. 密度峰值聚类的两大核心假设
- 学习理由:
假设是算法设计者的底层思路,整个密度峰值聚类都是围绕这两条假设搭建的:聚类中心局部密度最大 + 不同中心距离较远
理解假设,你就能瞬间明白:为什么要算局部密度$\rho$、距离$\delta$、乘积$\gamma$,不再机械记公式。
四、必考计算题:四大题型(为什么要动手算?)
计算是把理论落地、检验是否真懂的最好方式,同时也是本章分值最高的部分,每类计算对应一类业务场景。
1. K均值聚类计算(作业第1题)
- 逻辑&需求:
工业界用户分群、客户分层、商品分组的主流算法,计算过程完整复刻算法迭代逻辑;反复计算能吃透“初始中心影响”这一高频考点,考试+应用双重刚需。
2. 分级聚类计算(最小距离准则)
- 逻辑&需求:
适合需要层级结构的场景(如商品分类:大类→子类→单品、组织机构分层);计算过程掌握“类合并+距离更新”规则,同时聚类树也是考试必画内容。
3. Tanimoto测度计算
- 逻辑&需求:
专门服务二值特征(用户标签、物品属性、行为标签),是这类数据相似度计算的专属工具,作业原题必考,属于针对性技能。
4. 密度峰值聚类全流程计算(作业分值最高)
- 逻辑&需求:
弥补K均值、分级聚类的短板(比如非球形分布数据、复杂形状聚类),是进阶聚类算法代表;整套计算流程最长,串联了距离、密度、中心判定所有前置知识点,是对整章基础的综合考查。
五、全局总结:整章知识的闭环与学习价值
1. 知识逻辑闭环(从头到尾梳理)
无标签数据 → 定义相似度(距离/相似系数)→ 根据数据形态选算法
- 常规数值数据、追求效率 → K均值;
- 需要层级分组 → 分级聚类;
- 不规则分布数据 → 密度峰值聚类;
- 二值特征数据 → Tanimoto+聚类。
整套知识从基础评判标准到多套解决方案,覆盖了绝大多数聚类场景,是一套完整、成体系的数据挖掘技能。
2. 对应你的考试需求
所有填空、简答、计算、作业原题,全部嵌入在这套逻辑里:
- 基础定义 = 填空得分;
- 算法理解 = 简答得分;
- 流程公式 = 计算大题得分。
不存在孤立知识点,每一块内容都是为了应对不同题型、不同考点。
3. 一句话总结学习动机
我们学这一章,本质是学会一套“给无标签数据自动分组”的完整工具包:
先学会判断样本像不像,再根据数据特点选合适的聚类算法,理解算法规则、优缺点和使用边界,最终既能应对考试答题,也能看懂实际业务中的数据分组逻辑。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com