0%

CNN图像分类学习记录(四)——Network in Network

作者认为CNN的卷积核是一种泛化的线性模型(generalized linear model GLM),把GLM换成一种非线性近似函数能提高局域的特征提取能力。他说CNN的假设是说需要提出特征都是线性可分的,但是很多特征是以非线性流型的形式存在。非线性流型(nonlinear manifold)这是啥玩意?

他说自己是NiN,就是在普通卷积核之后增加了一个小的普通NN,以提高特征提取能力。而且在网络最后去掉了全连接层,通过 average pooling layer直接进入softmax分类器。

MLPconv

就是在普通conv后增加了全连接层,但是这篇文章厉害的地方是把这个Full Connect Layer视为1*1的conv layer。这个新颖的观点后来被Inception、resnet使用了,并且google还在论文中感谢了这边文章的作者。

Global Average Pooling

文中提到很多FC layer的弊病,如过拟合,参数多等。于是他用的方法是,把最后一层每个通道的feature map看做是类别的特征,把feature map的每个channel 求一个平均数,作为对应类别的分数,然后在求loss。

这篇文章虽然很多细节上没有交代,比如网络结构参数等等。但是他的想法还是很新奇的。并且被很多后续很成功的Net所采用。

论文基于AlexnNet修改,CIFAR100可以到65.3%