第四章 数据统计分析·极简必背考点
(纯纸质手写考试,所有编程实现全不考,仅考概念、公式推导和计算,PPT内原题为最高权重考点)
一、本章整体逻辑架构
核心问题:如何基于概率统计实现样本分类?
↓
前提:已知先验概率+类条件概率密度
↓
核心方法:贝叶斯决策理论
├─ 最小错误率贝叶斯决策
└─ 最小风险贝叶斯决策
↓
关键支撑:概率密度估计
├─ 参数估计(已知分布形式)
│ ├─ 矩法估计
│ └─ 最大似然估计
└─ 非参数估计(未知分布形式)
├─ Parzen窗法
└─ k_N近邻估计法
↓
最终目标:计算后验概率,实现最优分类决策
二、填空必背考点(直接默写)
- 贝叶斯公式:
$$
P(\omega_i|x) = \frac{p(x|\omega_i)P(\omega_i)}{\sum_{j=1}^c p(x|\omega_j)P(\omega_j)}
$$
其中 $P(\omega_i)$ 是先验概率,$p(x|\omega_i)$ 是类条件概率密度,$P(\omega_i|x)$ 是后验概率。
- 最小错误率贝叶斯决策规则:
若 $P(\omega_i|x) = \max_{j=1,2,…,c} P(\omega_j|x)$,则 $x \in \omega_i$;
等价形式:
$$
p(x|\omega_i)P(\omega_i) = \max_{j} p(x|\omega_j)P(\omega_j)
$$
- 似然比形式的决策规则:
若
$$
l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} > \frac{P(\omega_2)}{P(\omega_1)}
$$
则 $x \in \omega_1$,否则 $x \in \omega_2$。
- 平均错误率定义:
$$
P(e) = \int_{-\infty}^{\infty} P(e|x)p(x)dx
$$
对于两类问题:
$$
P(e) = P(\omega_1)\int_{R_2} p(x|\omega_1)dx + P(\omega_2)\int_{R_1} p(x|\omega_2)dx
$$
- 最小风险贝叶斯决策中,$\lambda(\alpha_j|\omega_i)$ 表示将真实属于 $\omega_i$ 的样本决策为 $\alpha_j$ 所造成的损失;
条件风险:
$$
R(\alpha_j|x) = \sum_{i=1}^c \lambda(\alpha_j|\omega_i)P(\omega_i|x)
$$
- 最小风险决策规则:
若 $R(\alpha_k|x) = \min_{j=1,2,…,a} R(\alpha_j|x)$,则 $x \in \omega_k$。
- 0-1损失函数:
$$
\lambda_{ij} = \begin{cases}0, & i=j \ 1, & i \neq j\end{cases}
$$
此时最小风险决策等价于最小错误率决策。
- 参数估计的两类核心方法:矩法估计和最大似然估计;非参数估计的两类核心方法:Parzen窗法和k_N近邻估计法。
- 均值向量的矩法估计:
$$
\hat{\mu} = \frac{1}{N}\sum_{j=1}^N x_j
$$
协方差矩阵的无偏估计:
$$
\hat{\Sigma} = \frac{1}{N-1}\sum_{j=1}^N (x_j - \hat{\mu})(x_j - \hat{\mu})^T
$$
- 最大似然估计的核心思想:找到使观测样本出现概率最大的参数值 $\hat{\theta}$。
- Parzen窗法概率密度估计公式:
$$
\hat{p}N(x) = \frac{1}{N}\sum{j=1}^N \frac{1}{V_N}\varphi\left(\frac{x-x_j}{h_N}\right)
$$
其中 $\varphi(u)$ 为窗函数,需满足 $\varphi(u) \geq 0$ 且 $\int \varphi(u)du = 1$。
- k_N近邻估计法核心思想:固定每个区域包含的样本数 $k_N$,让区域体积 $V_N$ 随样本密度自适应变化,估计公式:
$$
\hat{p}_N(x) = \frac{k_N/N}{V_N}
$$
- 概率密度估计收敛的三个条件:
$$
\lim_{N \to \infty} V_N = 0, \quad \lim_{N \to \infty} k_N = \infty, \quad \lim_{N \to \infty} \frac{k_N}{N} = 0
$$
三、简答必背考点(直接背答案)
简述贝叶斯决策理论的基本前提
答:① 各类别的先验概率 $P(\omega_i)$ 已知;② 各类别的类条件概率密度 $p(x|\omega_i)$ 已知;③ 待分类样本的特征向量是随机向量,服从一定的概率分布。比较最小错误率贝叶斯决策与最小风险贝叶斯决策的关系
答:① 最小错误率决策是最小风险决策在0-1损失函数下的特例;② 最小错误率决策仅关注分类错误的概率,最小风险决策考虑不同错误类型造成的损失差异;③ 当不同错误的损失差异较大时(如医疗诊断中漏诊的损失远大于误诊),应使用最小风险决策。简述参数估计与非参数估计的区别及适用场景
答:① 参数估计:已知概率密度的函数形式,仅需估计分布的参数(如正态分布的均值和方差),适用于数据分布形式已知的场景,优点是计算简单、所需样本少,缺点是对分布假设依赖性强;② 非参数估计:不假设分布的具体形式,直接从样本中估计概率密度,适用于分布形式未知或复杂的场景,优点是通用性强,缺点是计算量大、需要大量样本。简述Parzen窗法中窗宽 $h_N$ 对估计结果的影响
答:① 窗宽过大:估计的概率密度曲线过于平滑,分辨率低,会丢失分布的细节特征;② 窗宽过小:估计的概率密度曲线波动大、不稳定,会出现过多的尖峰,无法反映真实的分布;③ 合适的窗宽需要在平滑性和分辨率之间取得平衡,通常随样本量 $N$ 增大而减小。比较Parzen窗法与 $k_N$ 近邻估计法的优缺点
答:① Parzen窗法:固定窗宽,样本密集区域包含的样本多,稀疏区域包含的样本少,容易在稀疏区域出现空窗导致估计不稳定;② $k_N$ 近邻估计法:固定每个区域包含的样本数,让区域体积自适应变化,避免了空窗问题,估计更稳定;③ 两者都需要大量样本才能得到较好的估计效果。
四、必考计算题(仅摘PPT内原题,无解题过程)
- 一大批人进行癌症普查,$\omega_1$ 为患病,$\omega_2$ 为正常,$P(\omega_1)=0.005$,$P(\omega_2)=0.995$。患癌试验反应为阳的概率为 $0.95$,正常人试验反应为阳的概率为 $0.01$。问:若化验的人为阳,患癌的概率为多少?分别用最小错误率和似然比形式决策该人是否患病。
- 设正常细胞属于 $\omega_1$ 类,异常细胞属于 $\omega_2$ 类,先验概率分别为 $P(\omega_1)=0.9$,$P(\omega_2)=0.1$。现有一个待识细胞,其观测矢量为 $x$,从类概率曲线上查得 $P(x|\omega_1)=0.2$,$P(x|\omega_2)=0.4$。损失系数取为 $\lambda_{11}=0$,$\lambda_{12}=1$,$\lambda_{21}=6$,$\lambda_{22}=0$。试用最小误判概率准则和最小损失准则判断该细胞是正常的还是异常的。
在车辆检测中,假定类型 $\omega_1$ 为机动车辆,类型 $\omega_2$ 为非机动车辆,已知先验概率 $P(\omega_1)=0.7$ 和 $P(\omega_2)=0.3$。现在做了三次试验,获得三个车辆的类概率密度如下:$P(x|\omega_1)$:0.3, 0.8, 0.4;$P(x|\omega_2)$:0.7, 0.2, 0.6。
(1) 试用贝叶斯最小误判概率准则判决三个样本各属于哪一个类型;
(2) 假设误判损失分别为 $\lambda_{12}=1$ 和 $\lambda_{21}=4$,试用贝叶斯最小风险准则判决三个样本各属于哪一类。在军事目标识别中,假定有灌木丛和坦克两种类型,先验概率分别是 $0.7$ 和 $0.3$,损失函数如下表所示:
| 判决\类型 | $\omega_1$(灌木) | $\omega_2$(坦克) |
|---|---|---|
| $\alpha_1$(判为灌木) | 0 | 2.0 |
| $\alpha_2$(判为坦克) | 1.0 | 0 |
现在做了四次试验,获得四个样本的类概率密度如下:$P(x|\omega_1)$:0.1, 0.15, 0.3, 0.6;$P(x|\omega_2)$:0.8, 0.7, 0.55, 0.3。
(1) 用最小误判概率准则,判断四个样本各属哪一个类型;
(2) 试用最小损失准则判断四个样本各属于哪一个类型。
- 投掷硬币的实验中,正面(1)发生的概率是 $q$,反面(0)发生的概率是 $1-q$,设 $x_i, i=1,2,…,N$ 是实验结果,$x_i \in {0,1}$,计算 $q$ 的最大似然估计。
- 随机变量 $x$ 服从Erlang概率密度函数
$$
p(x, \theta) = \theta^2 x \exp(-\theta x) u(x)
$$
其中 $u(x)$ 是单位阶跃函数
$$
u(x)=\begin{cases}1, & x>0 \ 0, & x<0\end{cases}
$$
给定 $N$ 个测量值 $x_1,…,x_N$,计算 $\theta$ 的最大似然估计。
- 给定数据集 $X = {4,5,5,6,12,14,15,15,16,17}$,使用Parzen窗法估计密度 $p(x)$ 在 $y=3,10,15$ 处的值,使用方窗函数,带宽 $h=4$。
算半宽:$r = h/2$
定区间:$(y-r,\ y+r)$
数样本:只算区间内部点,边界不算
套公式:$\hat{p} = \dfrac{k}{N\cdot h}$
- 随机选取100位年龄在60岁以上的测试者进行空腹血糖测试。其中,已知糖尿病患者5人,其血糖测试结果分别为 {6.0, 7.0, 8.0, 9.0, 10.0} 摩尔/升。另外,已知剩下的测试者为正常个体,其血糖测试结果显示:4.0共20人,4.5共30人,5.0共30人,5.5共10人,6.0共5人。请依据贝叶斯判别规则,判断血糖为 $6.0$ 的一个新的测试者,是否为糖尿病患者。(概率密度估计利用Parzen窗函数方法,选取方窗函数,窗宽 $h=1$)
五、考点对应速查
| 考点类型 | 对应核心内容 | 考试占比 |
|---|---|---|
| 概念填空 | 贝叶斯公式、两类决策规则、损失函数、概率密度估计方法 | 30% |
| 简答 | 贝叶斯决策前提、两类决策的关系、参数与非参数估计对比 | 25% |
| 计算 | 最小错误率/最小风险决策计算、最大似然估计、Parzen窗法计算 | 45% |
六、全局总结:整章知识的闭环与学习价值
从「业务痛点→为什么要学→知识点衔接→每块内容的作用」层层拆解,同时结合你手上的考点、公式、题型,把整章知识串成一套完整可落地的分类解决方案,不再孤立背公式。
先明确整章定位:
上一章聚类是无监督学习(数据无标签,自动分组);本章是有监督概率分类(数据已知类别,对新样本做最优分类)。
现实世界的分类大多不是绝对确定的(比如体检判断是否患病、图像识别目标),存在随机性、误判可能,因此我们用概率+统计的思路做决策,这就是本章诞生的根本原因。
一、整章顶层逻辑
核心问题
拿到一个未知类别的新样本,如何基于已有历史数据,以概率为依据做出最优分类(尽量分对、尽量降低损失)?
完整执行链路(环环相扣,缺一不可)
- 前置前提:我们已知各类别的先验概率、类条件概率密度
- 核心工具:用贝叶斯公式,把已知概率转换成我们真正需要的后验概率
- 决策方案:分两种场景选择规则
- 场景1:只追求「分错概率最小」→ 最小错误率贝叶斯决策
- 场景2:不同错误代价不同(有的错了损失极大)→ 最小风险贝叶斯决策
- 现实缺口:绝大多数场景下,类条件概率密度是未知的,只能拿到有限样本
- 补充方案:用样本估计概率密度(分两大路线)
- 知道数据分布形态 → 参数估计(矩估计、最大似然估计)
- 不知道数据分布形态 → 非参数估计(Parzen窗、$k_N$近邻)
- 最终闭环:用估计出的概率密度 → 代入贝叶斯决策 → 完成最优分类
一句话总结全章:
靠贝叶斯公式算后验概率做分类;概率密度未知就用样本去估计,最终实现基于统计的最优判别。
二、分层逐模块解析(由浅入深,讲清「是什么、为什么、用在哪」)
模块1:贝叶斯公式(全章的地基,所有计算的起点)
1. 先搞懂3个核心概率
结合你计算题第1题「癌症普查」场景:
- 类别:$\omega_1$=患病,$\omega_2$=正常;特征$x$=化验结果(阳性)
先验概率 $P(\omega_i)$
- 含义:还没看样本特征,仅凭常识/历史数据,样本属于第$i$类的概率。
- 例子:人群中癌症患病率 $P(\omega_1)=0.005$,正常人占比 $P(\omega_2)=0.995$。
- 为什么需要它?代表整体分布规律,是分类的基础背景。
类条件概率密度 $p(x|\omega_i)$
- 含义:已知样本属于第$i$类,它出现特征$x$的概率(“在这个类别里,长出这个特征”的可能性)。
- 例子:癌症患者测出阳性的概率 $p(x|\omega_1)=0.95$,正常人测出阳性的概率 $p(x|\omega_2)=0.01$。
- 为什么需要它?描述每一类样本自身的特征分布规律。
后验概率 $P(\omega_i|x)$
- 含义:已经观测到样本特征$x$,反推该样本属于第$i$类的概率。
- 例子:化验结果为阳性,这个人真正患癌的概率。
- 核心痛点:这才是我们最终想要的结果!
我们能轻松统计出先验、类条件概率,但无法直接算出后验概率,必须借助公式转换。
2. 贝叶斯公式存在的意义
$$
P(\omega_i|x) = \frac{p(x|\omega_i)P(\omega_i)}{\sum_{j=1}^c p(x|\omega_j)P(\omega_j)}
$$
- 作用:完成概率逆向推导,把「已知类别看特征」,转换成「已知特征判类别」。
- 分母:全概率公式,作用是归一化,保证所有类别的后验概率之和为1。
- 考点定位:填空必考,所有贝叶斯计算题第一步必用。
模块2:两大贝叶斯决策规则(公式落地,「算出概率后怎么分类」)
算出后验概率只是中间结果,最终要给出分类结论,根据「错误的代价不同」,分为两套规则。
分支1:最小错误率贝叶斯决策(最基础、最常用)
1. 适用场景
所有分类错误的代价完全一样,我们唯一目标:让整体分错的概率降到最低。
例子:普通物品分类、简单二分类,分错了没有严重后果。
2. 规则解读
若 $P(\omega_i|x) = \max_{j} P(\omega_j|x)$,则 $x \in \omega_i$
- 白话理解:哪个类别的后验概率最大,就把样本判给哪一类。
- 等价形式:$p(x|\omega_i)P(\omega_i) = \max_{j} p(x|\omega_j)P(\omega_j)$
为什么要有等价形式?计算时可以省略分母(分母对所有类别都相同,不影响大小比较),简化计算。
3. 似然比形式(两类问题专属简化)
$$
l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} > \frac{P(\omega_2)}{P(\omega_1)} \implies x \in \omega_1
$$
- 为什么要推导这个形式?
两类问题是考试/工程中最常见的场景,把复杂公式简化成比值判断,不用反复算后验概率,计算更快、步骤更少。
4. 平均错误率 $P(e)$
- 作用:衡量这套分类规则好不好的评价指标。
- 含义:整个样本集的平均分错概率,数值越小,分类效果越优。
分支2:最小风险贝叶斯决策(进阶,解决「错误代价不等」的痛点)
1. 核心痛点(为什么要新增这套规则?)
现实中不同错误的损失天差地别:
- 例子1(医疗):把癌症患者判为正常人(漏诊)→ 危及生命(损失极大);把正常人判为患者(误诊)→ 只是复查(损失很小)。
- 例子2(军事):把坦克判为灌木 → 安全风险极高;把灌木判为坦克 → 只是虚惊一场。
此时只看“错误概率”不够,必须量化损失、规避高风险,因此引入「损失函数」和「风险」。
2. 核心概念逐层拆解
- 损失函数 $\lambda(\alpha_j|\omega_i)$
含义:真实类别是$\omega_i$,但我们判决为$\alpha_j$,造成的损失大小(人为根据业务定义)。 - 条件风险 $R(\alpha_j|x)$
$$
R(\alpha_j|x) = \sum_{i=1}^c \lambda(\alpha_j|\omega_i)P(\omega_i|x)
$$
含义:观测到特征$x$后,选择判决$\alpha_j$会承担的平均损失。
计算逻辑:不同类别对应的损失 × 对应后验概率,求和得到综合风险。 - 最小风险决策规则
选择条件风险最小的判决,即:$R(\alpha_k|x) = \min_j R(\alpha_j|x) \implies x \in \omega_k$。
3. 0-1损失函数(两大规则的桥梁,简答高频)
$$
\lambda_{ij} = \begin{cases}0, & i=j \ 1, & i \neq j\end{cases}
$$
- 含义:分对损失为0,分错损失统一记为1。
- 关键结论:此时最小风险决策 = 最小错误率决策。
- 简答逻辑:这也是两者的核心关系——最小错误率是最小风险在“所有错误损失相等”下的特例。
模块3:概率密度估计(承上启下,解决「类条件概率密度未知」的现实难题)
1. 衔接逻辑(最重要的过渡)
前面所有贝叶斯决策,都有一个强假设:$p(x|\omega_i)$(类条件概率密度)是已知的。
但现实中:我们只有一批采集到的样本,不知道数据服从什么分布、也不知道分布参数。
→ 衍生出新问题:如何用有限样本,估计出未知的概率密度?
→ 两大路线:参数估计、非参数估计(根据「是否知道分布形态」划分)。
分支1:参数估计(已知数据的分布形式)
1. 适用场景
我们能确定数据服从某类标准分布(正态分布、二项分布、Erlang分布等),只需要估计分布里的未知参数。
优点:计算简单、需要样本少;缺点:如果分布假设错误,估计结果会严重失真。
2. 两类核心方法
矩法估计
- 核心思想:用样本的统计矩,去估计总体分布的矩。
- 常用公式:样本均值估计总体均值、样本协方差矩阵估计总体协方差。
- 特点:直观、易计算,基础统计估计方法。
最大似然估计(MLE,考试计算重点)
- 核心思想(小白通俗版):
我们手里有一批真实观测的样本,选择哪个参数,能让这批样本“最有可能出现”,这个参数就是最优估计值。 - 适用题型:硬币概率$q$估计、Erlang分布参数$\theta$估计(你文档中计算题5、6)。
- 地位:参数估计中最主流、应用最广的方法。
- 核心思想(小白通俗版):
分支2:非参数估计(完全未知数据的分布形式)
1. 适用场景
无法判断数据服从什么分布,分布形态复杂、无标准函数形式。
优点:通用性强,不依赖分布假设;缺点:计算量大,需要大量样本才能保证精度。
2. 两类核心方法(简答+计算重点)
Parzen窗法(计算题7、8必考)
公式:
$$
\hat{p}N(x) = \frac{1}{N}\sum{j=1}^N \frac{1}{V_N}\varphi\left(\frac{x-x_j}{h_N}\right)
$$- 核心逻辑:以待估计点$x$为中心,画一个固定大小的“窗口”,统计窗口内的样本数量,用局部样本密度近似整体概率密度。
- 窗函数$\varphi(u)$要求:非负、积分和为1(保证密度合法性)。
- 窗宽$h_N$的影响(简答必背):
- 窗宽太大:曲线过度平滑,丢失数据细节;
- 窗宽太小:曲线波动剧烈、噪声多,估计不稳定;
- 最优窗宽需要平衡平滑性与细节。
$k_N$近邻估计法
公式:
$$
\hat{p}_N(x) = \frac{k_N/N}{V_N}
$$- 与Parzen窗反向思路:
Parzen窗:固定窗口大小,样本数自适应;
$k_N$近邻:固定窗口内的样本数量$k_N$,窗口大小自适应。 - 优势:解决了Parzen窗在样本稀疏区域出现“空窗口”的问题,估计更稳定(简答对比考点)。
- 与Parzen窗反向思路:
3. 收敛三条件
$$
\lim_{N \to \infty} V_N = 0, \quad \lim_{N \to \infty} k_N = \infty, \quad \lim_{N \to \infty} \frac{k_N}{N} = 0
$$
- 作用:理论保障。当样本量$N$足够大时,我们估计的概率密度,会无限逼近真实的概率密度。
- 理解:样本越多,窗口越小、近邻数越多,且近邻数占总样本比例趋近于0,保证估计精准。
三、全章知识点+题型对应(帮你对标考点,知道「学完用来做什么题」)
结合你文档里的8道计算题,一一匹配逻辑模块:
- 计算题1~4:纯贝叶斯决策
- 已知先验概率、类条件概率密度 → 贝叶斯公式算后验概率
- 分别用「最小错误率」「最小风险」做分类判决
- 计算题5~6:参数估计(最大似然估计)
- 已知分布形式 → 基于样本求解分布的未知参数
- 计算题7~8:非参数估计(Parzen窗) + 贝叶斯决策 综合题
- 第一步:用Parzen窗估计未知的类条件概率密度
- 第二步:代入贝叶斯公式+决策规则,完成分类
→ 这是整章知识的终极综合应用。
简答考点也全部对应逻辑:
- 贝叶斯决策前提:对应「先验、类条件概率密度已知」的前置假设;
- 两类决策对比:对应「错误代价是否相等」的场景差异;
- 参数/非参数估计对比:对应「分布是否已知」的场景差异;
- 窗宽影响、两种非参数方法对比:对应Parzen窗、$k_N$近邻的原理与优缺点。
四、小白入门极简记忆链条(考前快速复盘)
- 分类有不确定性 → 用概率统计做决策
- 已知特征判类别 → 用贝叶斯公式求后验概率
- 只看分错概率 → 最小错误率决策;考虑损失大小 → 最小风险决策
- 类条件概率密度未知 → 用样本估计密度
- 知道分布 → 参数估计(矩估计、最大似然)
- 不知道分布 → 非参数估计(Parzen窗、$k_N$近邻)
- 估计出密度 → 再回到贝叶斯决策,完成完整分类流程
七、核心考点
1. 简述贝叶斯决策理论的基本前提(3 个采分点)
① 各类别先验概率已知;
② 各类别类条件概率密度已知;
③ 样本特征为随机向量,服从概率分布。
2. 最小错误率与最小风险贝叶斯决策的关系(3 个采分点)
① 最小错误率是最小风险在0-1 损失函数下的特例;
② 最小错误率仅考虑分类错误概率;
③ 最小风险区分不同错误的损失差异,适用于错判代价悬殊的场景。
3. 参数估计与非参数估计的区别及适用场景(4 个采分点)
① 参数估计:已知分布形式,仅估计分布参数,样本需求少、计算简单;
② 适用:数据分布明确的场景;
③ 非参数估计:不假设分布形式,直接由样本估计密度,通用性强;
④ 适用:分布未知 / 复杂场景,需要大量样本。
4. Parzen 窗法中窗宽 (h_N) 对估计结果的影响(3 个采分点)
① 窗宽过大:曲线过度平滑,丢失数据细节;
② 窗宽过小:曲线波动剧烈,估计不稳定;
③ 窗宽需平衡平滑性与分辨率,随样本量增大适当减小。
5. 对比 Parzen 窗法与(k_N)近邻估计法的优缺点(3 个采分点)
① Parzen 窗:固定窗宽,稀疏区域易出现空窗,估计不稳定;
② (k_N)近邻:固定区域内样本数,窗口自适应,避免空窗,稳定性更好;
③ 两者均需要大量样本才能保证估计精度。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com