第六章 神经网络·极简必背考点
(无手写计算题,仅考概念、简答与编程题,核心围绕神经网络基础逻辑与BP算法展开)
一、本章整体逻辑架构
核心目标:用人工神经网络模拟生物神经元,实现非线性数据的拟合与分类
↓
基础单元:M-P神经元模型 + 激活函数
↓
简单网络:感知机(单层功能神经元)→ 局限性(无法处理非线性可分问题)
↓
核心算法:误差逆传播(BP)算法(多层前馈网络的训练方法,本章重中之重)
↓
优化问题:全局最小 vs 局部最小 + 过拟合缓解
↓
扩展网络:其他常见神经网络的核心特点与适用场景
二、核心必背考点(按考察优先级排序)
模块1:神经元模型基础(填空/简答)
M-P神经元模型
- 结构:接收多个输入信号,通过连接权加权求和,与阈值比较后,经激活函数输出
- 数学形式:$$y = f\left(\sum_{i=1}^n w_i x_i - \theta\right)$$
其中 $\theta$ 为阈值,$f$ 为激活函数
激活函数的作用:引入非线性,使神经网络能拟合任意复杂的非线性函数
- 阶跃函数:理想激活函数,输出0/1,不连续、不可导,实际少用
- Sigmoid函数:
$$f(x) = \frac{1}{1+e^{-x}}$$
核心性质:$f’(x) = f(x)(1-f(x))$(BP算法的关键推导基础)
模块2:感知机与多层网络(填空/简答)
- 感知机结构:仅包含输入层和输出层无隐层,输出层是M-P神经元(阈值逻辑单元)
- 感知机能力边界
- 能解决:线性可分问题(与、或、非运算)
- 不能解决:非线性可分问题(如异或问题)
- 多层前馈神经网络
- 结构:输入层(仅接收输入,不处理)+ 隐层(功能神经元)+ 输出层(功能神经元)
- 特点:每层神经元与下一层全互连,无同层连接、无跨层连接
- 核心结论:只需一个包含足够多神经元的隐层,多层前馈网络就能以任意精度逼近任意连续函数
- 网络参数组成:输入层到隐层的连接权、隐层到输出层的连接权、隐层神经元阈值、输出层神经元阈值
模块3:误差逆传播(BP)算法(本章核心,简答+编程必考)
- 核心思想:基于梯度下降策略,将输出误差沿网络反向传播,逐层更新连接权和阈值,最小化训练误差
- 算法完整流程
- 随机初始化所有连接权和阈值((0,1)范围内)
- 前向传播:输入训练样本,逐层计算隐层和输出层的输出
- 反向传播:
- 计算输出层神经元的梯度项 $g_j$
- 计算隐层神经元的梯度项 $e_h$
- 按梯度更新所有连接权和阈值
- 重复步骤2-3,直到达到停止条件(如训练误差低于阈值、达到最大迭代次数)
- 两种BP算法对比
| 算法类型 | 更新方式 | 特点 |
|---|---|---|
| 标准BP | 每输入一个样本就更新一次参数 | 参数更新频繁,易震荡,大样本下迭代次数多 |
| 累积BP | 读取完整个训练集后更新一次参数 | 参数更新频率低,误差下降到一定程度后会变慢 |
- BP网络的核心问题与解决方法
- 过拟合问题(训练误差下降,测试误差上升)
- 早停:将数据分为训练集+验证集,验证集误差升高时停止训练
- 正则化:在误差目标函数中加入连接权和阈值的平方和,惩罚复杂网络
- 局部最小问题:见下一模块
- 过拟合问题(训练误差下降,测试误差上升)
模块4:全局最小与局部最小(简答必考)
- 基本定义
- 局部最小:在参数空间的一个小邻域内,误差最小的点
- 全局最小:整个参数空间中误差最小的点
- 为什么会陷入局部最小:误差函数是复杂的非凸函数,存在多个极小值点,梯度下降易停在局部极小
- 跳出局部最小的常用策略
- 多组不同参数初始化多个网络,取误差最小的解
- 使用模拟退火:以一定概率接受比当前解更差的结果,概率随时间降低
- 使用随机梯度下降:计算梯度时加入随机因素,即使陷入局部最小,梯度仍可能不为零
- 使用遗传算法进行参数寻优
模块5:其他常见神经网络(填空/简答,考核心特点)
只需记住每个网络的核心定位与最显著特点即可:
- RBF网络(径向基函数网络):单隐层前馈网络,隐层用径向基函数(如高斯函数)作为激活函数,输出层是线性组合;训练分两步(确定神经元中心→用BP训练权重)
- ART网络(自适应谐振理论):竞争型无监督学习,”胜者通吃”原则;可动态增加神经元类别,支持增量学习/在线学习,解决”可塑性-稳定性困境”
- SOM网络(自组织映射):无监督学习,将高维数据映射到二维低维空间,同时保持高维空间的拓扑结构(相似样本映射到邻近神经元)
- 级联相关网络:结构自适应网络,训练过程中自动增加隐层神经元,无需预先设定网络层数和隐层神经元数
- Elman网络:递归神经网络(RNN)的一种,隐层输出会反馈回输入层,适合处理时序数据
- Boltzmann机:基于能量的模型,神经元为布尔型;常用受限Boltzmann机(RBM)(仅显层与隐层有连接,同层无连接),用对比散度(CD)算法训练
四、终极考点速记
- 激活函数的作用是引入非线性,Sigmoid的导数性质是BP算法的核心
- 单层感知机只能处理线性可分问题,多层感知机+BP可处理非线性问题
- BP算法基于梯度下降,分为标准BP和累积BP,易过拟合和陷入局部最小
- 缓解过拟合:早停、正则化;跳出局部最小:多组初始化、模拟退火、随机梯度下降
- 编程核心:掌握Sklearn中MLP的调用与参数调优,理解BP前向和反向传播的代码逻辑
五、考察题型
分为公式类填空、概念关键词填空两大类,标注 ★ 为超高频必考。
模块 1:M-P 神经元 & 激活函数(★★★ 最高频)
1. M-P 神经元模型
出题句式:M-P 神经元模型表达式为 $$y = f\left(\sum_{i=1}^n w_i x_i - \theta\right)$$
答案:$\boldsymbol{\theta}$(阈值)
出题句式:M-P 神经元对输入信号加权求和后,需与____比较,再经激活函数输出。
答案:阈值
2. 激活函数
出题句式:激活函数的核心作用是为神经网络引入____,使其具备拟合非线性数据的能力。
答案:非线性
出题句式:阶跃函数输出为 0 或 1,存在____、不可导的缺陷,实际工程中很少使用。
答案:不连续
出题句式(公式填空):Sigmoid 函数表达式 $f(x) = \dfrac{1}{1+e^{-x}}$
答案:$\boldsymbol{\dfrac{1}{1+e^{-x}}}$
出题句式(公式填空):Sigmoid 函数导数满足 $f’(x) = f(x)(1-f(x))$(BP 算法核心)
答案:$\boldsymbol{f(x)(1-f(x))}$
模块 2:感知机(★★★ 高频)
出题句式:单层感知机仅包含____和____,无隐藏层。
答案:输入层、输出层
出题句式:单层感知机仅能处理____问题,无法解决异或这类____问题。
答案:线性可分;非线性可分
出题句式:与、或、非逻辑运算可由____实现,异或运算无法用其求解。
答案:单层感知机
模块 3:多层前馈神经网络(★★★ 高频)
出题句式:典型三层前馈神经网络由输入层、____、输出层构成。
答案:隐藏层(隐层)
出题句式:多层前馈网络层间全互连,不存在____连接和____连接。
答案:同层;跨层
出题句式:万能逼近定理:仅需一个含足够多神经元的隐层,多层前馈网络能以任意精度逼近任意____函数。
答案:连续
出题句式:多层神经网络的可学习参数主要包括连接权和____。
答案:阈值
模块 4:BP 误差逆传播算法(★★★ 本章核心必考)
出题句式:BP 算法基于____优化策略,通过反向传播误差更新网络参数。
答案:梯度下降
出题句式:BP 算法分为两个阶段:____传播计算网络输出,____传播逐层更新权值与阈值。
答案:前向;反向
出题句式:____BP 算法每输入一个样本就更新一次参数;____BP 算法遍历全部训练集后统一更新参数。
答案:标准;累积
出题句式:BP 网络训练过程中两大典型问题是____和陷入局部最小。
答案:过拟合
出题句式:缓解神经网络过拟合的两种常用方法:____和正则化。
答案:早停
模块 5:全局最小 & 局部最小(★★ 中频)
出题句式:神经网络误差函数为非凸函数,梯度下降训练时容易陷入____。
答案:局部最小
出题句式:跳出局部最小的常用方法:多组参数初始化、____、随机梯度下降等。
答案:模拟退火
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 kipleyarch@gmail.com