第三讲 数据预处理·知识点+逻辑架构全梳理
(纯纸质手写考点,所有编程实现、Python代码、工具调用全不考,仅考概念、方法原理、计算和作业原题)
一、本章整体逻辑架构(一句话搞懂)
从”现实数据为什么不能直接用”出发,围绕”如何把脏数据变成高质量可用数据”这一核心目标,依次讲解4个核心预处理步骤:清洗→集成→归约→变换,最后通过综合案例落地应用。
现实问题:数据是"脏"的
↓
目标:提升数据质量,满足后续分析/挖掘要求
↓
核心步骤(按处理顺序):
1. 数据清洗 → 解决"不完整、有噪声、有异常、不一致"
2. 数据集成 → 解决"多源数据合并冲突、冗余"
3. 数据归约 → 解决"数据量太大、维度太高"
4. 数据变换 → 解决"数据格式/尺度不统一、类型不匹配"
↓
最终输出:高质量、标准化的数据集
二、详细知识点架构(按考察优先级排序)
模块1:数据预处理概述(基础概念,简答/填空)
- 为什么需要预处理
- 现实数据的三大问题:不完整、有噪声、不一致(必考填空)
- 核心结论:没有高质量的数据,就没有高质量的挖掘结果
- 数据质量的多维测度
- 核心3个:准确性、完整性、一致性(高频填空)
- 次要:时效性、相关性、可信性、可解释性
- 预处理的四大核心任务:数据清洗、数据集成、数据归约、数据变换(必考填空)
模块2:数据清洗(最高频,作业核心)
解决的问题:缺失值、噪声、异常值、不一致数据
- 缺失值处理(简答高频,考方法分类+适用场景)
- 忽略元组:适合数据集大、缺失值少的情况
- 手工填充:精度高但耗时,大数据不可行
- 全局常数填充:简单但不可靠(易形成新类别)
- 统计量填充:对称分布用均值,倾斜分布用中位数;也可用同类样本的均值/中位数
- 最可能值填充:用回归、决策树预测,效果最好
- 噪声平滑(考分箱法计算,作业高频)
- 噪声定义:数据中的随机错误或偏差
- 核心方法:分箱法(必考计算)
- 步骤:排序→划分等频/等宽桶→按桶均值/边界值平滑
- 例:数据[4,8,15,21,21,24,25,28,34]分3个等频桶
- 桶均值平滑:[9,9,9,22,22,22,29,29,29]
- 桶边界平滑:[4,4,15,21,21,24,25,25,34]
- 其他方法:回归、离群点分析
- 异常值检测与处理(考方法分类+3σ、箱线图原理)
- 检测方法:
- 简单统计:最大值/最小值判断
- 3σ原则(正态分布):偏离均值3倍标准差之外为异常(必考)
- 箱线图法:低于Q1-1.5IQR或高于Q3+1.5IQR为异常(必考,作业关联)
- 其他:基于模型、距离、密度、聚类的方法
- 处理方法:删除、视为缺失值、平均值修正、不处理
- 检测方法:
- 不一致数据修正:利用元数据、知识规则修正编码/命名冲突
模块3:数据集成(次高频,作业核心)
解决的问题:多源数据合并中的冲突与冗余
- 实体识别问题(填空)
- 同名异义:不同数据源的同名属性描述不同实体
- 异名同义:不同数据源的不同属性描述同一实体
- 解决:利用元数据(属性含义、类型、范围)
- 数据值冲突检测与解决(简答)
- 原因:单位不统一、编码不同、表示方式差异
- 例:公制vs英制、不同学校的成绩等级
- 冗余数据与相关性分析(必考计算,作业第1题原题)
- 冗余定义:一个属性可由其他属性导出
- 检测方法:
- 标称数据:卡方检验
- 数值数据:协方差、皮尔逊相关系数(100%考计算)
- 核心公式(必须背):
$$Cov(X,Y)=\frac{\sum_{i=1}^{n}(x_i-\bar{X})(y_i-\bar{Y})}{n}$$
$$r_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} \quad \text{取值范围:}[-1,1]$$
合两张学生表
名字乱:姓名 / 名字、编号 / 编号
数值乱:身高米 / 厘米
属性乱:月 / 年生活费
X 的均值
$\bar{X} = \frac{x_1 + x_2 + … + x_n}{n}$
X 的方差$sigma_X^2$
$\sigma_X^2 = \frac{(x_1-\bar{X})^2 + (x_2-\bar{X})^2 + … + (x_n-\bar{X})^2}{n}$
X 的标准差$sigma_X$
${\sigma_X = \sqrt{方差} = \sqrt{\sigma_X^2}}$
模块4:数据归约(概念为主,填空/简答)
解决的问题:数据量太大、维度太高,在保持数据完整性的前提下压缩数据
- 维归约(减少属性个数)
- 主成分分析(PCA):通过正交变换将高维属性映射为低维主成分,保留方差最大的部分
- 属性子集选择:逐步向前选择、逐步向后删除、递归特征消除
- 数量归约(减少元组个数)
- 参数化:线性回归模型、对数线性模型
- 非参数化:直方图、聚类、抽样(简单随机抽样、分层抽样、簇抽样)、数据立方体聚集
- 数据压缩
模块5:数据变换(最高频,作业第2题原题)
解决的问题:将数据转换成适合挖掘的形式,统一尺度和格式
- 数据变换的常用策略(填空):平滑、聚集、属性构造、规范化、离散化、概念分层
- 数据规范化(100%考计算,作业第2题原题)
- 核心目标:将不同尺度的属性映射到统一区间,消除量纲影响
- 三种必考方法(公式+计算必须背):
- 最小-最大规范化(线性变换)
$$v’=\frac{v-min_A}{max_A-min_A}(new_{max}-new_{min})+new_{min}$$
例:将35映射到$[0,1]$,$min=13$,$max=70$ → $(35-13)/(70-13)≈0.386$ - Z-score规范化(零均值规范化)
$$v’=\frac{v-\bar{A}}{\sigma_A}$$
例:均值29.67,标准差12.94 → $(35-29.67)/12.94≈0.412$ - 小数定标规范化
$$v’=\frac{v}{10^j}$$
$j$是使$max(|v’|)<1$的最小整数
例:35→j=2 → 35/100=0.35
- 最小-最大规范化(线性变换)
- 方法选择(作业第2题(d)必考简答):
- 数据有明确上下界、无异常值:选最小-最大
- 数据有异常值、分布未知:选Z-score
- 数据范围跨度大、需要简单直观:选小数定标
我选择Z-score 规范化。
因为 age 数据中存在70这一异常值,最小 - 最大规范化会受异常值影响,导致大部分数据被压缩到很小的区间;小数定标规范化过于简单,精度不足。
Z-score 规范化基于均值和标准差,对异常值鲁棒性更强,能更合理地标准化数据,因此选择该方法。
- 数据离散化(概念为主)
- 定义:将连续属性的取值划分为若干区间,用区间标签代替原始值
- 分类:
- 无监督:等宽离散化、等频离散化、K-means聚类离散化
- 监督:ChiMerge算法、基于熵的离散化
模块6:综合应用案例(概念为主,作业第3题考步骤)
- 核心流程:数据导入→缺失值检测与处理→异常值检测→相关性分析→数据规范化→数据离散化→特征重要性分析
- 核心结论:影响房价的核心特征通常是面积、地理位置、配套设施(学校、交通)
三、本章终极重点总结(只背这些就能拿分)
1. 必背填空考点
- 现实数据三大问题:不完整、有噪声、不一致
- 预处理四大任务:清洗、集成、归约、变换
- 异常值检测核心方法:3σ原则、箱线图法
- 数据规范化三大方法:最小-最大、Z-score、小数定标
- 数值数据冗余检测:协方差、相关系数
2. 必考计算考点(100%出作业原题)
- 分箱法平滑数据(等频分箱+均值/边界平滑)
- 协方差与皮尔逊相关系数计算(作业第1题)
- 三种数据规范化方法计算+选择理由(作业第2题)
- 3σ原则/箱线图法判断异常值
3. 必背简答考点
- 缺失值的常见处理方法及适用场景
- 数据集成中需要解决的三大问题
- 三种数据规范化方法的优缺点及适用场景
- 异常值的检测方法及处理方式
四、作业题对应答题模板(直接套用)
作业第1题:协方差与相关系数计算
- 先计算X的均值$\bar{X}$和Y的均值$\bar{Y}$
- 计算每个样本的$(x_i-\bar{X})$和$(y_i-\bar{Y})$
- 计算乘积和$\sum(x_i-\bar{X})(y_i-\bar{Y})$
- 代入协方差公式:$Cov(X,Y)=\frac{乘积和}{n}$
- 计算X的标准差$\sigma_X$和Y的标准差$\sigma_Y$
- 代入相关系数公式:$r=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$
作业第2题:数据规范化计算
直接套用上述三个公式,方法选择理由按以下模板:
我会选择Z-score规范化。因为给定的age数据存在70这样的异常值,最小-最大规范化会受异常值影响导致大部分数据被压缩到很小的区间;而Z-score规范化基于均值和标准差,对异常值的鲁棒性更好,适合存在极端值的数据集。
作业第3题:综合实践(考步骤,不考代码)
按以下6步回答即可:
- 缺失值处理:用均值填充数值型缺失值,用众数填充分类型缺失值
- 异常值检测:用3σ原则和箱线图法检测异常值,删除极端异常值
- 相关性分析:计算所有特征与price的皮尔逊相关系数,筛选高相关特征
- 数据标准化:用Z-score对price属性进行规范化
- 数据离散化:用等频法将price划分为低、中、高三个区间
- 特征重要性分析:相关系数最高的三个特征通常是area(面积)、traffic(交通)、school(学校数量),因为面积直接决定房屋大小,交通和学校是影响房价的核心配套因素。
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com