CNN图像分类学习记录(四)——Network in Network

作者认为CNN的卷积核是一种泛化的线性模型(generalized linear model GLM)，把GLM换成一种非线性近似函数能提高局域的特征提取能力。他说CNN的假设是说需要提出特征都是线性可分的，但是很多特征是以非线性流型的形式存在。非线性流型（nonlinear manifold）这是啥玩意?

他说自己是NiN，就是在普通卷积核之后增加了一个小的普通NN，以提高特征提取能力。而且在网络最后去掉了全连接层，通过 average pooling layer直接进入softmax分类器。

MLPconv

就是在普通conv后增加了全连接层，但是这篇文章厉害的地方是把这个Full Connect Layer视为1*1的conv layer。这个新颖的观点后来被Inception、resnet使用了，并且google还在论文中感谢了这边文章的作者。

Global Average Pooling

文中提到很多FC layer的弊病，如过拟合，参数多等。于是他用的方法是，把最后一层每个通道的feature map看做是类别的特征，把feature map的每个channel 求一个平均数，作为对应类别的分数，然后在求loss。

这篇文章虽然很多细节上没有交代，比如网络结构参数等等。但是他的想法还是很新奇的。并且被很多后续很成功的Net所采用。

论文基于AlexnNet修改，CIFAR100可以到65.3%