基于候选区域的方法由于有两步操作,虽然检测性能比较好,但速度上离实时仍有一些差距。基于直接回归的方法不需要候选区域,直接输出分类/回归结果。这类方法由于图像只需前馈网络一次,速度通常更快,可以达到实时。

候选区域(Region Proposal),就是预先找出图中目标可能出现的位置,通过利用图像中的纹理、边缘、颜色等信息,保证在选取较少窗口(几千个甚至几百个)的情况下保持较高的召回率。 候选区域方法比传统的滑动窗口方法获取的质量要更高。

滑窗法(Sliding Window)是一种经典的目标检测方法。首先对输入图像进行不同窗口大小的滑窗进行从左往右、从上到下的滑动。每次滑动时候对当前窗口执行分类器(分类器是事先训练好的)。如果当前窗口得到较高的分类概率,则认为检测到了物体。

2014年NiNNet用较少参数就取得了Alexnet的效果,开启了对卷积结构的探索。受此启发,GoogLeNet引入了一种能够产生稠密的数据的网络结构,既能增加神经网络表现,又能保证计算资源的使用效率。GoogLeNet及其后续系列模型表明了把图像不同尺度的信息进行融合可以得到图像更好的表征。

VGGNet在2014年的ImageNet比赛中取得了很好的成绩,展示出网络的深度是算法优良性能的关键部分。为了使网络建设得更深,2015年的ResNet引入了直连思想,提出了一种残差学习结构。

LeNet可以说是CNN的开端,麻雀虽小,但五脏俱全,卷积层、池化层、全连接层,这些都是现代CNN网络的基本组件。而AlexNet是另一个具有历史意义的网络结构,它的成功表示了深度学习重回历史舞台。

人们常说神经网络的解释性不强,即神经网络模型是一个黑盒,它学到的经验很难用人类可以理解的方式呈现(反例是树模型,可解释性强)。这种说法不完全正确,卷积神经网络学习到的经验就非常适合可视化,因为很大程度上它们是视觉概念的表示。

卷积网络前面的卷积层捕捉图像局部、细节信息,有小的感受野,即输出图像的每个像素只利用输入图像很小的一个范围。后面的卷积层感受野逐层加大,用于捕获图像更复杂,更抽象的信息。经过多个卷积层的运算,最后得到图像在各个不同尺度的抽象表示。
0%