2026-05-28 3.1 数据科学复习--第三章重点

发布时间 : 2026-06-11 02:00

第三讲数据预处理·知识点+逻辑架构全梳理

第三讲数据预处理·知识点+逻辑架构全梳理

（纯纸质手写考点，所有编程实现、Python代码、工具调用全不考，仅考概念、方法原理、计算和作业原题）

一、本章整体逻辑架构（一句话搞懂）

从”现实数据为什么不能直接用”出发，围绕”如何把脏数据变成高质量可用数据”这一核心目标，依次讲解4个核心预处理步骤：清洗→集成→归约→变换，最后通过综合案例落地应用。

现实问题：数据是"脏"的
    ↓
目标：提升数据质量，满足后续分析/挖掘要求
    ↓
核心步骤（按处理顺序）：
1. 数据清洗 → 解决"不完整、有噪声、有异常、不一致"
2. 数据集成 → 解决"多源数据合并冲突、冗余"
3. 数据归约 → 解决"数据量太大、维度太高"
4. 数据变换 → 解决"数据格式/尺度不统一、类型不匹配"
    ↓
最终输出：高质量、标准化的数据集

二、详细知识点架构（按考察优先级排序）

模块1：数据预处理概述（基础概念，简答/填空）

为什么需要预处理
- 现实数据的三大问题：不完整、有噪声、不一致（必考填空）
- 核心结论：没有高质量的数据，就没有高质量的挖掘结果
数据质量的多维测度
- 核心3个：准确性、完整性、一致性（高频填空）
- 次要：时效性、相关性、可信性、可解释性
预处理的四大核心任务：数据清洗、数据集成、数据归约、数据变换（必考填空）

模块2：数据清洗（最高频，作业核心）

解决的问题：缺失值、噪声、异常值、不一致数据

缺失值处理（简答高频，考方法分类+适用场景）
- 忽略元组：适合数据集大、缺失值少的情况
- 手工填充：精度高但耗时，大数据不可行
- 全局常数填充：简单但不可靠（易形成新类别）
- 统计量填充：对称分布用均值，倾斜分布用中位数；也可用同类样本的均值/中位数
- 最可能值填充：用回归、决策树预测，效果最好
噪声平滑（考分箱法计算，作业高频）
- 噪声定义：数据中的随机错误或偏差
- 核心方法：分箱法（必考计算）
  - 步骤：排序→划分等频/等宽桶→按桶均值/边界值平滑
  - 例：数据[4,8,15,21,21,24,25,28,34]分3个等频桶
    - 桶均值平滑：[9,9,9,22,22,22,29,29,29]
    - 桶边界平滑：[4,4,15,21,21,24,25,25,34]
- 其他方法：回归、离群点分析
异常值检测与处理（考方法分类+3σ、箱线图原理）
- 检测方法：
  - 简单统计：最大值/最小值判断
  - 3σ原则（正态分布）：偏离均值3倍标准差之外为异常（必考）
  - 箱线图法：低于Q1-1.5IQR或高于Q3+1.5IQR为异常（必考，作业关联）
  - 其他：基于模型、距离、密度、聚类的方法
- 处理方法：删除、视为缺失值、平均值修正、不处理
不一致数据修正：利用元数据、知识规则修正编码/命名冲突

模块3：数据集成（次高频，作业核心）

解决的问题：多源数据合并中的冲突与冗余

实体识别问题（填空）
- 同名异义：不同数据源的同名属性描述不同实体
- 异名同义：不同数据源的不同属性描述同一实体
- 解决：利用元数据（属性含义、类型、范围）
数据值冲突检测与解决（简答）
- 原因：单位不统一、编码不同、表示方式差异
- 例：公制vs英制、不同学校的成绩等级
冗余数据与相关性分析（必考计算，作业第1题原题）
- 冗余定义：一个属性可由其他属性导出
- 检测方法：
  - 标称数据：卡方检验
  - 数值数据：协方差、皮尔逊相关系数（100%考计算）
- 核心公式（必须背）：
  $$Cov(X,Y)=\frac{\sum_{i=1}^{n}(x_i-\bar{X})(y_i-\bar{Y})}{n}$$
  $$r_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} \quad \text{取值范围：}[-1,1]$$

合两张学生表

名字乱：姓名 / 名字、编号 / 编号

数值乱：身高米 / 厘米

属性乱：月 / 年生活费

X 的均值

$\bar{X} = \frac{x_1 + x_2 + … + x_n}{n}$
X 的方差$sigma_X^2$

$\sigma_X^2 = \frac{(x_1-\bar{X})^2 + (x_2-\bar{X})^2 + … + (x_n-\bar{X})^2}{n}$
X 的标准差$sigma_X$

${\sigma_X = \sqrt{方差} = \sqrt{\sigma_X^2}}$

模块4：数据归约（概念为主，填空/简答）

解决的问题：数据量太大、维度太高，在保持数据完整性的前提下压缩数据

维归约（减少属性个数）
- 主成分分析（PCA）：通过正交变换将高维属性映射为低维主成分，保留方差最大的部分
- 属性子集选择：逐步向前选择、逐步向后删除、递归特征消除
数量归约（减少元组个数）
- 参数化：线性回归模型、对数线性模型
- 非参数化：直方图、聚类、抽样（简单随机抽样、分层抽样、簇抽样）、数据立方体聚集
数据压缩

模块5：数据变换（最高频，作业第2题原题）

解决的问题：将数据转换成适合挖掘的形式，统一尺度和格式

数据变换的常用策略（填空）：平滑、聚集、属性构造、规范化、离散化、概念分层
数据规范化（100%考计算，作业第2题原题）
- 核心目标：将不同尺度的属性映射到统一区间，消除量纲影响
- 三种必考方法（公式+计算必须背）：
  1. 最小-最大规范化（线性变换）
    $$v’=\frac{v-min_A}{max_A-min_A}(new_{max}-new_{min})+new_{min}$$
    例：将35映射到$[0,1]$，$min=13$，$max=70$ → $(35-13)/(70-13)≈0.386$
  2. Z-score规范化（零均值规范化）
    $$v’=\frac{v-\bar{A}}{\sigma_A}$$
    例：均值29.67，标准差12.94 → $(35-29.67)/12.94≈0.412$
  3. 小数定标规范化
    $$v’=\frac{v}{10^j}$$
    $j$是使$max(|v’|)<1$的最小整数
    例：35→j=2 → 35/100=0.35
- 方法选择（作业第2题(d)必考简答）：
  - 数据有明确上下界、无异常值：选最小-最大
  - 数据有异常值、分布未知：选Z-score
  - 数据范围跨度大、需要简单直观：选小数定标

我选择Z-score 规范化。

因为 age 数据中存在70这一异常值，最小 - 最大规范化会受异常值影响，导致大部分数据被压缩到很小的区间；小数定标规范化过于简单，精度不足。

Z-score 规范化基于均值和标准差，对异常值鲁棒性更强，能更合理地标准化数据，因此选择该方法。

数据离散化（概念为主）
- 定义：将连续属性的取值划分为若干区间，用区间标签代替原始值
- 分类：
  - 无监督：等宽离散化、等频离散化、K-means聚类离散化
  - 监督：ChiMerge算法、基于熵的离散化

模块6：综合应用案例（概念为主，作业第3题考步骤）

核心流程：数据导入→缺失值检测与处理→异常值检测→相关性分析→数据规范化→数据离散化→特征重要性分析
核心结论：影响房价的核心特征通常是面积、地理位置、配套设施（学校、交通）

三、本章终极重点总结（只背这些就能拿分）

1. 必背填空考点

现实数据三大问题：不完整、有噪声、不一致
预处理四大任务：清洗、集成、归约、变换
异常值检测核心方法：3σ原则、箱线图法
数据规范化三大方法：最小-最大、Z-score、小数定标
数值数据冗余检测：协方差、相关系数

2. 必考计算考点（100%出作业原题）

分箱法平滑数据（等频分箱+均值/边界平滑）
协方差与皮尔逊相关系数计算（作业第1题）
三种数据规范化方法计算+选择理由（作业第2题）
3σ原则/箱线图法判断异常值

3. 必背简答考点

缺失值的常见处理方法及适用场景
数据集成中需要解决的三大问题
三种数据规范化方法的优缺点及适用场景
异常值的检测方法及处理方式

四、作业题对应答题模板（直接套用）

作业第1题：协方差与相关系数计算

先计算X的均值$\bar{X}$和Y的均值$\bar{Y}$
计算每个样本的$(x_i-\bar{X})$和$(y_i-\bar{Y})$
计算乘积和$\sum(x_i-\bar{X})(y_i-\bar{Y})$
代入协方差公式：$Cov(X,Y)=\frac{乘积和}{n}$
计算X的标准差$\sigma_X$和Y的标准差$\sigma_Y$
代入相关系数公式：$r=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$

作业第2题：数据规范化计算

直接套用上述三个公式，方法选择理由按以下模板：

我会选择Z-score规范化。因为给定的age数据存在70这样的异常值，最小-最大规范化会受异常值影响导致大部分数据被压缩到很小的区间；而Z-score规范化基于均值和标准差，对异常值的鲁棒性更好，适合存在极端值的数据集。

作业第3题：综合实践（考步骤，不考代码）

按以下6步回答即可：

缺失值处理：用均值填充数值型缺失值，用众数填充分类型缺失值
异常值检测：用3σ原则和箱线图法检测异常值，删除极端异常值
相关性分析：计算所有特征与price的皮尔逊相关系数，筛选高相关特征
数据标准化：用Z-score对price属性进行规范化
数据离散化：用等频法将price划分为低、中、高三个区间
特征重要性分析：相关系数最高的三个特征通常是area（面积）、traffic（交通）、school（学校数量），因为面积直接决定房屋大小，交通和学校是影响房价的核心配套因素。

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 kipleyarch@gmail.com