Dropout

论文：

Srivastava, Nitish, et al. “Dropout: a simple way to prevent neural networks from overfitting.” Journal of Machine Learning Research 15.1 (2014): 1929-1958.

基本思想

目的：防止过拟合

方法：随机地移除一些神经单元

效果：有效地将很多个不同地网络架构结合起来

模型描述

前向传播：以概率p随机剔除神经单元
$$
r_j^l=Bernoulli(p),\ \
\hat{y}^l=r^l*y^l
$$
$$
z^{l+1}=w_i^{l+1}\hat{y}^l+b_i^{l+1},\ \
y^{l+1}=f(z_i^{l+1})
$$
dropout1

反向传播：

对于每个batch的数据，每个参数的梯度为每个训练数据上取平均，其中没有用的那些参数梯度取0。

结合max-norm regularization效果更佳。

Experimental Results

数据集：

mnist上的结果

SVHN上的结果

CIFAR上的结果

Imagenet上的结果

其他结果