假设 层有 个节点作出输入单元, 层有 个节点作为输出单元,则:
其中,第一列对应的是偏置单元。
引入bias的原因: bias 和 weigth 是不同的加权方式,合起来才获得完全的线性能力,即:
前向传播过程(Forward propagation):
令激活函数为 :
反向传播过程(Back propagation):
首先计算最后一层的误差:
误差的反向传播,从 层(个节点)到 层(个节点):
利用第 层的误差来计算第 层的权值梯度,基本原理如下:
然后计算一批训练数据的 平均值,并以此来更新 。
Back Propagation 与 Regression 在形式上的区别:
- Regression 过程中,输入 是固定的,每次迭代只需要更新权值,即 或者说 。
- Back Propagation 的第一层在形式上与 Regression 很相似,但在中间层上,每次迭代不仅更新了 ,而且更新了 。