一、AI神经网络
人工智能(AI)中的神经网络是一种受生物神经系统启发的机器学习模型,其核心思想是通过分层结构模拟人脑神经元的信息传递与处理过程。
1. 基本组成单元:人工神经元
神经元结构:每个神经元接收多个输入信号(x_1, x_2, …, x_n),每个输入被赋予一个权重(w_1, w_2, …, w_n),加权求和后加上偏置(b),再通过激活函数(Activation Function)处理,产生输出信号。
常见激活函数:Sigmoid(将输出压缩到0~1)、ReLU(修正线性单元,解决梯度消失问题)、Tanh等。
2. 网络结构:层级化连接
神经网络由多层神经元组成:
- 输入层:接收原始数据(如图像像素、文本词向量)。
- 隐藏层:通过非线性变换提取特征(如边缘、纹理、语义信息)。层数越多,模型越复杂(深度学习)。
- 输出层:生成最终预测结果(如分类标签、数值预测)。
3. 前向传播(Forward Propagation)
数据从输入层逐层传递到输出层:
- 每一层的神经元计算加权和并应用激活函数。
- 最终输出层的预测值与真实值对比,计算损失(Loss)。
示例:手写数字识别中,输入层接收28×28像素图像,隐藏层提取边缘特征,输出层给出“数字是3”的概率。
4. 反向传播(Backpropagation)
- 目标:根据预测误差调整网络参数(权重和偏置),最小化损失函数。
- 步骤:
- 计算梯度:通过链式法则(Chain Rule)从输出层向输入层逐层计算损失对每个参数的梯度。
- 参数更新:使用优化算法(如梯度下降)按梯度方向调整参数,使损失逐步降低。
5. 训练过程
- 初始化参数:随机赋予权重和偏置初始值。
- 迭代训练:
- 前向传播计算输出。
- 反向传播更新参数。
- 重复直到损失收敛或达到最大迭代次数。
- 正则化:通过Dropout、L2正则化等技术防止过拟合。
6. 关键特点
- 特征自动提取:无需人工设计特征,网络通过训练自动学习数据中的模式。
- 非线性建模能力:激活函数引入非线性,使网络能拟合复杂关系。
- 端到端学习:直接从输入到输出学习映射,简化传统流水线步骤。
应用场景
- 图像识别(卷积神经网络,CNN)
- 自然语言处理(循环神经网络,RNN;Transformer)
- 强化学习(深度Q网络,DQN)