一、协方差与相关系数计算解题过程
1、已知条件
本次统计共有7组样本,即样本量 $n=7$,身高为变量$X$(单位:cm),体重为变量$Y$(单位:500g),表格已给出每组样本的离均差 $X-E(X)$、$Y-E(Y)$ 以及离均差乘积 $[X-E(X)][Y-E(Y)]$。
2、步骤1:验证并确认变量的均值(期望)
均值公式:$\bar{X}=E(X)=\frac{1}{n}\sum_{i=1}^n X_i$,$\bar{Y}=E(Y)=\frac{1}{n}\sum_{i=1}^n Y_i$
代入数据计算:
$$
\bar{X} = \frac{152+185+169+172+174+168+180}{7} = \frac{1200}{7} \approx 171.4
$$
$$
\bar{Y} = \frac{92+162+125+118+122+135+168}{7} = \frac{922}{7} \approx 131.7
$$
计算结果与表格中的离均差 $X-E(X)$、$Y-E(Y)$ 匹配,均值确认无误。
3、步骤2:计算协方差 $Cov(X,Y)$
协方差的定义为:
$$
Cov(X,Y) = E\left[(X-E(X))(Y-E(Y))\right]
$$
对于样本数据,总体协方差的计算式为:
$$
Cov(X,Y) = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})(Y_i-\bar{Y})
$$
首先计算离均差乘积和,即表格最后一列的总和:
$$
\begin{align*}
\sum_{i=1}^7 (X_i-\bar{X})(Y_i-\bar{Y}) &= 770.18 + 412.08 + 16.08 - 8.22 - 25.22 - 11.22 + 312.18 \
&= 1465.86
\end{align*}
$$
代入协方差公式:
$$
Cov(X,Y) = \frac{1465.86}{7} \approx 209.41
$$
注:若计算无偏样本协方差,分母改为 $n-1=6$,结果为 $S_{XY}=\frac{1465.86}{6}\approx244.31$
4、步骤3:计算变量$X$和$Y$的方差与标准差
相关系数需要用到两个变量的标准差,因此先计算方差,方差公式为:
$$
D(X) = E\left[(X-E(X))^2\right] = \frac{1}{n}\sum_{i=1}^n (X_i-\bar{X})^2
$$
$$
D(Y) = E\left[(Y-E(Y))^2\right] = \frac{1}{n}\sum_{i=1}^n (Y_i-\bar{Y})^2
$$
1. 计算$X$的方差与标准差
先计算$X$的离均差平方和:
$$
\begin{align*}
\sum_{i=1}^7 (X_i-\bar{X})^2 &= (-19.4)^2 + 13.6^2 + (-2.4)^2 + 0.6^2 + 2.6^2 + (-3.4)^2 + 8.6^2 \
&= 376.36 + 184.96 + 5.76 + 0.36 + 6.76 + 11.56 + 73.96 \
&= 659.72
\end{align*}
$$
$X$的总体方差:
$$
D(X) = \frac{659.72}{7} \approx 94.25
$$
$X$的标准差:
$$
\sqrt{D(X)} \approx \sqrt{94.25} \approx 9.71
$$
2. 计算$Y$的方差与标准差
先计算$Y$的离均差平方和:
$$
\begin{align*}
\sum_{i=1}^7 (Y_i-\bar{Y})^2 &= (-39.7)^2 + 30.3^2 + (-6.7)^2 + (-13.7)^2 + (-9.7)^2 + 3.3^2 + 36.3^2 \
&= 1576.09 + 918.09 + 44.89 + 187.69 + 94.09 + 10.89 + 1317.69 \
&= 4149.43
\end{align*}
$$
$Y$的总体方差:
$$
D(Y) = \frac{4149.43}{7} \approx 592.78
$$
$Y$的标准差:
$$
\sqrt{D(Y)} \approx \sqrt{592.78} \approx 24.35
$$
5、步骤4:计算相关系数 $\rho_{XY}$
相关系数的定义公式为:
$$
\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)} \cdot \sqrt{D(Y)}}
$$
代入前面计算的结果:
$$
\rho_{XY} \approx \frac{209.41}{9.71 \times 24.35} \approx \frac{209.41}{236.44} \approx 0.886
$$
6、最终结果
- 总体协方差:$\boldsymbol{Cov(X,Y) \approx 209.41}$(无偏样本协方差约为244.31)
- 相关系数:$\boldsymbol{\rho_{XY} \approx 0.886}$,说明身高和体重存在较强的正线性相关关系。
二、age属性数据规范化计算解题过程
已知age属性的全部取值为:13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,共24个样本,待变换的目标值为age=35,以下分别完成对应计算。
1. 最小-最大规范化(对应问题a)
最小-最大规范化的核心是将原始数据线性映射到[0.0, 1.0]区间,计算公式为:
$$
x’ = \frac{x - min_{age}}{max_{age} - min_{age}}
$$
其中:
- 待变换的原始值 $x=35$
- 数据集的最小值 $min_{age}=13$
- 数据集的最大值 $max_{age}=70$
代入公式计算:
$$
x’ = \frac{35 - 13}{70 - 13} = \frac{22}{57} \approx 0.386
$$
即age=35经最小-最大规范化后的值约为0.386。
2. z分数规范化(对应问题b)
z分数规范化(零均值规范化)通过数据的均值和标准差完成标准化,计算公式为:
$$
x’ = \frac{x - \mu}{\sigma}
$$
题目已给出计算所需参数:
- 待变换的原始值 $x=35$
- age的均值 $\mu=29.67$
- age的标准差 $\sigma=12.94$
代入公式计算:
$$
x’ = \frac{35 - 29.67}{12.94} = \frac{5.33}{12.94} \approx 0.412
$$
即age=35经z分数规范化后的值约为0.412。
3. 小数定标规范化(对应问题c)
小数定标规范化通过移动数据的小数点位置实现规范化,计算公式为:
$$
x’ = \frac{x}{10^j}
$$
其中$j$是满足「变换后所有数据的绝对值的最大值小于1」的最小整数。
步骤1:确定j的值
数据集的最大值为70,绝对值最大值为70。要满足 $\frac{70}{10^j} < 1$,即$10^j >70$,满足条件的最小整数$j=2$($10^2=100$)。
步骤2:计算变换后的值
代入待变换值35计算:
$$
x’ = \frac{35}{10^2} = \frac{35}{100} = 0.35
$$
即age=35经小数定标规范化后的值为0.35。
4. 规范化方法选择与理由(对应问题d)
我会选择z分数规范化,具体理由如下:
- 适配数据的异常值特征:本次age数据中70属于明显的离群点,和次大值52差距较大。最小-最大规范化的结果完全由最大值和最小值决定,异常值会导致大部分数据被压缩到极窄的区间,规范化后数据的区分度大幅下降;而z分数规范化通过均值和标准差变换,对异常值的鲁棒性远高于最小-最大规范化。
- 适配后续分析需求:z分数规范化后的数据均值为0、标准差为1,符合绝大多数统计分析、机器学习算法对输入数据的分布要求,通用性更强,也能直观体现每个数据在整体分布中的相对位置。
- 小数定标规范化仅通过小数点移动做量级统一,没有利用数据的分布特征,无法体现数据间的相对差异,对后续数据分析的适配性较差,因此不做优先选择。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com