2026-05-28 3.1 数据科学复习--第三章重点

第三讲 数据预处理·知识点+逻辑架构全梳理

(纯纸质手写考点,所有编程实现、Python代码、工具调用全不考,仅考概念、方法原理、计算和作业原题)

一、本章整体逻辑架构(一句话搞懂)

从”现实数据为什么不能直接用”出发,围绕”如何把脏数据变成高质量可用数据”这一核心目标,依次讲解4个核心预处理步骤:清洗→集成→归约→变换,最后通过综合案例落地应用

现实问题:数据是"脏"的
    ↓
目标:提升数据质量,满足后续分析/挖掘要求
    ↓
核心步骤(按处理顺序):
1. 数据清洗 → 解决"不完整、有噪声、有异常、不一致"
2. 数据集成 → 解决"多源数据合并冲突、冗余"
3. 数据归约 → 解决"数据量太大、维度太高"
4. 数据变换 → 解决"数据格式/尺度不统一、类型不匹配"
    ↓
最终输出:高质量、标准化的数据集

二、详细知识点架构(按考察优先级排序)

模块1:数据预处理概述(基础概念,简答/填空)

  1. 为什么需要预处理
    • 现实数据的三大问题:不完整、有噪声、不一致(必考填空)
    • 核心结论:没有高质量的数据,就没有高质量的挖掘结果
  2. 数据质量的多维测度
    • 核心3个:准确性、完整性、一致性(高频填空)
    • 次要:时效性、相关性、可信性、可解释性
  3. 预处理的四大核心任务:数据清洗、数据集成、数据归约、数据变换(必考填空)

模块2:数据清洗(最高频,作业核心)

解决的问题:缺失值、噪声、异常值、不一致数据

  1. 缺失值处理(简答高频,考方法分类+适用场景)
    • 忽略元组:适合数据集大、缺失值少的情况
    • 手工填充:精度高但耗时,大数据不可行
    • 全局常数填充:简单但不可靠(易形成新类别)
    • 统计量填充:对称分布用均值,倾斜分布用中位数;也可用同类样本的均值/中位数
    • 最可能值填充:用回归、决策树预测,效果最好
  2. 噪声平滑(考分箱法计算,作业高频)
    • 噪声定义:数据中的随机错误或偏差
    • 核心方法:分箱法(必考计算)
      • 步骤:排序→划分等频/等宽桶→按桶均值/边界值平滑
      • 例:数据[4,8,15,21,21,24,25,28,34]分3个等频桶
        • 桶均值平滑:[9,9,9,22,22,22,29,29,29]
        • 桶边界平滑:[4,4,15,21,21,24,25,25,34]
    • 其他方法:回归、离群点分析
  3. 异常值检测与处理(考方法分类+3σ、箱线图原理)
    • 检测方法:
      • 简单统计:最大值/最小值判断
      • 3σ原则(正态分布):偏离均值3倍标准差之外为异常(必考)
      • 箱线图法:低于Q1-1.5IQR或高于Q3+1.5IQR为异常(必考,作业关联)
      • 其他:基于模型、距离、密度、聚类的方法
    • 处理方法:删除、视为缺失值、平均值修正、不处理
  4. 不一致数据修正:利用元数据、知识规则修正编码/命名冲突

模块3:数据集成(次高频,作业核心)

解决的问题:多源数据合并中的冲突与冗余

  1. 实体识别问题(填空)
    • 同名异义:不同数据源的同名属性描述不同实体
    • 异名同义:不同数据源的不同属性描述同一实体
    • 解决:利用元数据(属性含义、类型、范围)
  2. 数据值冲突检测与解决(简答)
    • 原因:单位不统一、编码不同、表示方式差异
    • 例:公制vs英制、不同学校的成绩等级
  3. 冗余数据与相关性分析必考计算,作业第1题原题
    • 冗余定义:一个属性可由其他属性导出
    • 检测方法:
      • 标称数据:卡方检验
      • 数值数据:协方差皮尔逊相关系数(100%考计算)
    • 核心公式(必须背):
      $$Cov(X,Y)=\frac{\sum_{i=1}^{n}(x_i-\bar{X})(y_i-\bar{Y})}{n}$$
      $$r_{X,Y}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y} \quad \text{取值范围:}[-1,1]$$

合两张学生表

名字乱:姓名 / 名字、编号 / 编号

数值乱:身高米 / 厘米

属性乱:月 / 年生活费

  • X 的均值

    $\bar{X} = \frac{x_1 + x_2 + … + x_n}{n}$

  • X 的方差$sigma_X^2$

    $\sigma_X^2 = \frac{(x_1-\bar{X})^2 + (x_2-\bar{X})^2 + … + (x_n-\bar{X})^2}{n}$

  • X 的标准差$sigma_X$

    ${\sigma_X = \sqrt{方差} = \sqrt{\sigma_X^2}}$

模块4:数据归约(概念为主,填空/简答)

解决的问题:数据量太大、维度太高,在保持数据完整性的前提下压缩数据

  1. 维归约(减少属性个数)
    • 主成分分析(PCA):通过正交变换将高维属性映射为低维主成分,保留方差最大的部分
    • 属性子集选择:逐步向前选择、逐步向后删除、递归特征消除
  2. 数量归约(减少元组个数)
    • 参数化:线性回归模型、对数线性模型
    • 非参数化:直方图、聚类、抽样(简单随机抽样、分层抽样、簇抽样)、数据立方体聚集
  3. 数据压缩

模块5:数据变换(最高频,作业第2题原题

解决的问题:将数据转换成适合挖掘的形式,统一尺度和格式

  1. 数据变换的常用策略(填空):平滑、聚集、属性构造、规范化离散化、概念分层
  2. 数据规范化100%考计算,作业第2题原题
    • 核心目标:将不同尺度的属性映射到统一区间,消除量纲影响
    • 三种必考方法(公式+计算必须背):
      1. 最小-最大规范化(线性变换)
        $$v’=\frac{v-min_A}{max_A-min_A}(new_{max}-new_{min})+new_{min}$$
        例:将35映射到$[0,1]$,$min=13$,$max=70$ → $(35-13)/(70-13)≈0.386$
      2. Z-score规范化(零均值规范化)
        $$v’=\frac{v-\bar{A}}{\sigma_A}$$
        例:均值29.67,标准差12.94 → $(35-29.67)/12.94≈0.412$
      3. 小数定标规范化
        $$v’=\frac{v}{10^j}$$
        $j$是使$max(|v’|)<1$的最小整数
        例:35→j=2 → 35/100=0.35
    • 方法选择(作业第2题(d)必考简答):
      • 数据有明确上下界、无异常值:选最小-最大
      • 数据有异常值、分布未知:选Z-score
      • 数据范围跨度大、需要简单直观:选小数定标

我选择Z-score 规范化

因为 age 数据中存在70这一异常值,最小 - 最大规范化会受异常值影响,导致大部分数据被压缩到很小的区间;小数定标规范化过于简单,精度不足。

Z-score 规范化基于均值和标准差,对异常值鲁棒性更强,能更合理地标准化数据,因此选择该方法。

  1. 数据离散化(概念为主)
    • 定义:将连续属性的取值划分为若干区间,用区间标签代替原始值
    • 分类:
      • 无监督:等宽离散化、等频离散化、K-means聚类离散化
      • 监督:ChiMerge算法、基于熵的离散化

模块6:综合应用案例(概念为主,作业第3题考步骤)

  • 核心流程:数据导入→缺失值检测与处理→异常值检测→相关性分析→数据规范化→数据离散化→特征重要性分析
  • 核心结论:影响房价的核心特征通常是面积、地理位置、配套设施(学校、交通)

三、本章终极重点总结(只背这些就能拿分)

1. 必背填空考点

  • 现实数据三大问题:不完整、有噪声、不一致
  • 预处理四大任务:清洗、集成、归约、变换
  • 异常值检测核心方法:3σ原则、箱线图法
  • 数据规范化三大方法:最小-最大、Z-score、小数定标
  • 数值数据冗余检测:协方差、相关系数

2. 必考计算考点(100%出作业原题)

  1. 分箱法平滑数据(等频分箱+均值/边界平滑)
  2. 协方差与皮尔逊相关系数计算(作业第1题)
  3. 三种数据规范化方法计算+选择理由(作业第2题)
  4. 3σ原则/箱线图法判断异常值

3. 必背简答考点

  • 缺失值的常见处理方法及适用场景
  • 数据集成中需要解决的三大问题
  • 三种数据规范化方法的优缺点及适用场景
  • 异常值的检测方法及处理方式

四、作业题对应答题模板(直接套用)

CleanShot 2026-05-28 at 17.09.09@2x CleanShot 2026-05-28 at 17.09.25@2x

作业第1题:协方差与相关系数计算

  1. 先计算X的均值$\bar{X}$和Y的均值$\bar{Y}$
  2. 计算每个样本的$(x_i-\bar{X})$和$(y_i-\bar{Y})$
  3. 计算乘积和$\sum(x_i-\bar{X})(y_i-\bar{Y})$
  4. 代入协方差公式:$Cov(X,Y)=\frac{乘积和}{n}$
  5. 计算X的标准差$\sigma_X$和Y的标准差$\sigma_Y$
  6. 代入相关系数公式:$r=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$

作业第2题:数据规范化计算

直接套用上述三个公式,方法选择理由按以下模板:

我会选择Z-score规范化。因为给定的age数据存在70这样的异常值,最小-最大规范化会受异常值影响导致大部分数据被压缩到很小的区间;而Z-score规范化基于均值和标准差,对异常值的鲁棒性更好,适合存在极端值的数据集。

作业第3题:综合实践(考步骤,不考代码)

按以下6步回答即可:

  1. 缺失值处理:用均值填充数值型缺失值,用众数填充分类型缺失值
  2. 异常值检测:用3σ原则和箱线图法检测异常值,删除极端异常值
  3. 相关性分析:计算所有特征与price的皮尔逊相关系数,筛选高相关特征
  4. 数据标准化:用Z-score对price属性进行规范化
  5. 数据离散化:用等频法将price划分为低、中、高三个区间
  6. 特征重要性分析:相关系数最高的三个特征通常是area(面积)、traffic(交通)、school(学校数量),因为面积直接决定房屋大小,交通和学校是影响房价的核心配套因素。
Drawing 2026-05-29 17.11.30.excalidraw
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com
Archive PDF预览 PPTX Obsidian