计算机论文范例代写:基于可切换空洞卷积和注意力机制的目标检测算法探讨

发布时间:2023-01-10 21:25:02 论文编辑:vicky

本文是一篇计算机论文,本文重点研究了目标检测算法ATSS,并提出了基于可切换空洞卷积和注意力机制的目标检测算法。该算法通过在残差结构中融合可切换空洞卷积SAC,扩大了特征感受野并帮助模型自适应的选择感受野,提高了整体精度;

第一章 绪论

1.1课题研究背景与意义

在20世纪50年代,关于人工智能这一概念首次被提出,直到今天,它依然是各大学者相继研究的热点之一,且逐步踏入高速发展的黄金期[1]。人工智能顾名思义就是赋予机器“智力”去帮助人们解决一些相对复杂或者困难繁琐的事情,提高人类的生活满足感和幸福感。近几年,随着互联网和各种电子移动设备的广泛应用,海量的视频,图片数据开始涌入。计算机视觉作为人工智能领域的新兴科研动向之一,也逐渐展露头脚,与机器学习的飞速发展衔尾相随,步入各类研究员的视野。

计算机视觉通过让机器模拟人眼去捕捉一些像素并进行判断和分类,使机器能够获取感知二维图片学习到三维环境的能力[2]。70年代,研究人员试着给机器构建知识库,知识库中存放着大量机器需要检测的物体图片信息,通过训练让机器将看到的东西与自己所携带的知识库进行匹配,这便是最早的检测方式。90年代,随着计算机硬件和软件设备的更新发展,计算机视觉取得了新的成就,并逐渐应用于工业领域[3]。

为了实现更好的检测效果,研究人员试着将深度学习[4]方法与计算机视觉结合。深度学习可以直接获取图片像素值并通过自身训练出适合的模型进行图片上物体的判断和分类。这一技术再次吸引了无数学者的注意,并逐渐成为计算机视觉领域的又一大热点,计算机视觉开始在视频监控,自动驾驶等领域发挥优势。

起初计算机视觉仅仅只是用于检测和分类任务,随着科技的发展,人类开始思考能否让机器在分类的同时对图片中的物体进行定位,这也是计算机视觉最新潮的方向之一即目标检测[5]领域的由来。目标检测主要用于对图片,或影像中需要关注的目标进行精准的分类和定位,具体如图1-1所示,表示图片上的目标检测,左侧为目标分类后的结果,右侧为目标检测后的结果,可以看出,目标检测将图片中如狗,自行车,小汽车等目标区域作为感兴趣区域,其余不含目标的背景区域不多关注,最后便会对感兴趣目标进行定位和分类。但是在现实生活情景中,环境拥有错综复杂且多变的表现,物体的形态同样也具有多样性,这就导致了目标检测仍然面临着巨大挑战。

1.2课题研究现状

目标检测作为计算机视觉的热点领域之一,在众多学者的研究和探索中取得了一系列的成就。实际上目标检测发展初期并没有那么顺利,人可以通过自己的独特思维和想法,简单的处理一些检测问题也可以得到较好的结果,但是对于机器来说,并没有这些智能的处理方式,也难以从思想上逼近较好的检测结果,只适合于进行流水化不变的任务,因此这给众多研究目标检测的学者带来了不小的思考,尽管检测困难,但是依旧不能阻挡学者们研究的脚步。2012年作为主要的分界线[8],将目标检测的进展大体划分为两个时期,早于2012年的,简称为传统目标检测方法,晚于2012年的,简称为基于深度学习的目标检测方法。本节我们将分别详尽概述目标检测两个时期的演变进程。

1.2.1传统目标检测研究现状

早期的目标检测方法由于没有好的计算资源做支撑,都是采用手工的方式进行。手工方式带来的问题就是,对于图像,检测并不是一次性就能完成的,而是分步骤向前推进。传统的目标检测算法通常会先对输入图像进行一个预处理操作,常见的做法是在图片上运用高斯滤波降噪和平滑处理,这样做的好处,除了可以避免非目标的背景区域对后续步骤带来消极影响,也可以对图像中重要的目标信息进行修复。

传统的目标检测算法主要由区域选择、提取特征、分类和后处理四部分构成。区域选择是将图像中目标可能存在的区域选择出来,但是我们并不清楚图像中目标的体型有多大,也不清楚目标究竟位于图像的哪个方位,因此传统的目标检测方法常使用滑动窗口来进行处理,通过设置不同大小的滑动窗口,对整张图像进行遍历,即进行区域选择。2001年Viola Jones检测器[9]便是直接使用滑动窗口技术进行图片的区域选择。提取特征是对含有目标的区域进行特征的提取,提取特征这个步骤对于目标检测算法来说是最重要的,模型知道的目标信息越多,检测效果越好,传统的目标检测方法常通过图像的颜色特征,空间特征或纹理特征来进行特征提取。

第二章 相关概念和相关技术

2.1深度学习

深度学习的思想体系起始于人工神经网络[43](Artificial Neural Networks, ANN)。1981年David Hubel等人发现了人脑的视觉系统在处理输入图像信息时,采取的分级处理方式,即信息从视网膜出发后经过层层提取,从低层开始,一步一步向不同区域传递特征信息,最终获得一个高层次信息。既然大脑可以这样处理输入它的信息,那么机器是否可以采用类似的方法,这激发了学者的研究的思考[44]。直到2006年Geoffrey Hinton等人真正提出深度学习思想,深度学习从运行方式上看是一种机器模拟人脑操作的学习,它同样通过学习低层特征,再利用低层特征去构建抽象的高层特征,最后学习到输入图像信息。

2.1.1神经网络基础

(1)神经元MP模型

1943年McCulloch等人提出MP模型[45],这是首个神经元模型。MP神经元具体构造如图2-1所示,计算方式如公式2-1所示。a1,a2,a3表示输入数值,即特征;w1,w2,w3表示权重,即网络需要学习的参数;f表示sgn跳跃函数,sgn当输入值大于0时输出1,否则输出0;Z表示神经元输出值。但是MP模型的权重值都是事先设定好的,所以MP模型根本无法实现主动学习。

计算机论文怎么写

2.2残差结构

由于深度卷积神经网络在图像方向的表现效果越来越显著,人们开始在网络架构上尝试构建更深的层次,原因是因为网络不同的层次可以提取到不同的特征信息,模型可以学习的特征种类越多,模型的检测效果一定更好。但是事实上,当模型加到一定深度后,会出现梯度消失的迹象,这使网络收敛困难。传统方法利用初始化数据和正则化缓和了梯度问题,但是也产生了新的问题。深度增加产生了一种退化现象,准确率并没有在上升反而错误率上升了,而且随着层数的增加,模型所需的计算量也越来越大,训练速度开始变慢。

针对模型因层数太高而显现出的衰退现象,2015年何凯明等人提出了ResNet结构。中心化思想是残差连接理念的来源,它被验证能对网络的学习提速,Schraudolph[51]将中心化思想引入模型反向传播过程中,并提出了跳跃连接(Shortcut Connections)这一概念。残差块便是基于跳跃连接的思想构建出来,假设输入特征为𝑥,若没有恒等映射,卷积输出的结果为f(x),有了跳跃连接的存在,输出的结果便成了f(x)+x。假设网络在第三层已经优化的足够好,则经过残差块时会保留之前的输入,设置f(x)为0就能实现,若网络还未优化好,则经过残差块后网络会自动学习残差信息。通过这种方式就能解决深层网络退化问题。如图2-10展示了ResNet的两种残差块,左侧表示普通残差块(Residual Block),特点是输出通道数与输入一致,输入通道数256,经过1×1,3×3,1×1卷积后通道数不变,然后与未处理的原始特征相加,通道数仍然为256;右侧表示瓶颈残差块(Residual Bottleneck),特点是输出通道数与输入通道数不一致,输入特征同样为256,一部分经过1×1,3×3,1×1卷积后通道数增大一倍,变为512,另一部分经过通道数为512的1×1卷积,最后将这两部分特征相加,通道数相比原始输入扩大一倍,变为512。残差块堆叠数量不同,模型深度不同,训练后模型实现的效果也不相同。

第三章 基于残差网络ResNet50和可切换空洞卷积SAC的目标检测方法 ................. 22

3.1基于残差网络ResNet50和可切换空洞卷积SAC的目标检测模型 ............... 22

3.1.1模型设计 ........................................ 22

3.1.2模型结构 ...................................... 23

第四章 融合GCNet注意力机制的目标检测方法 ................................ 33

4.1融合GCNet注意力机制的目标检测模型 ............................... 33

4.1.1模型设计 ................................ 33

4.1.2模型结构 ................. 34

第五章 基于PAFPN多尺度特征融合和BFP特征增强的目标检测方法 ..................... 40 

5.1基于PAFPN多尺度特征融合和BFP特征增强的目标检测模型.................... 40 

5.1.1模型设计 .................................. 40 

5.1.2模型结构 ............................................ 41

第五章 基于PAFPN多尺度特征融合和BFP特征增强的目标检测方法

5.1基于PAFPN多尺度特征融合和BFP特征增强的目标检测模型

5.1.1模型设计

SSD作为经典的目标检测算法之一,为了可以充分使用特征提取过程中产生的不同尺度特征信息,首次使用了多尺度特征检测技术,但是SSD采用不同尺度分开检测的思想,并没有对不同信息的特征进行融合,对低层定位信息的获取和利用少之又少,所以模型检测效果还不算太优。FPN特征金字塔结构借鉴了SSD模型思想,在多尺度特征检测之前重新拟定了一条从上至下的特征融合的通道,这样做可以将高层语义信息融合到低层,但是低层的定位信息却仍旧没有得到充分利用。为了加强对低层的定位信息的利用,本章引入了PAFPN多尺度特征融合技术,PAFPN在FPN的基础上增加了一条自下而上的通道,能将低层的特征再次融入高层,将低层定位信息进一步传递给高层,从而提高模型检测精度。Libra R-CNN[40]指出特征信息的不平衡会影响目标检测模型检测性能,所以在特征融合之后,为了避免不同尺度特征信息不平衡的问题,本章引入BFP特征增强技术,将不同尺度的特征尺寸缩放到统一尺度大小进行聚合,再将聚合强化后的特征信息作用于原始特征,既增强了原始特征信息,同时极大的避免了多尺度特征信息利用不平衡的问题。综上所述,本章提出了基于PAFPN多尺度特征融合和BFP特征增强的目标检测方法。如图5-1所示,输入图片首先通过融合了可切换空洞卷积SAC和GCNet注意力机制的ResNet50特征提取网络,其次对特征提取ResNet50+SAC+GCNet部分的后三个特征图进行更强的PAFPN融合,融合后的特征统一进入BFP模块进行特征增强,模型仍采用多尺度预测方式,预测结果仍交由NMS算法筛选淘汰,获得最终检测结果。

计算机论文参考

第六章 总结与展望

6.1工作总结

作为计算机视觉领域最具潜力的研究方向,目标检测已经深入我们的生活,小到超市支付宝刷脸支付,大到铁路运输部门的人脸识别安检,住宅区的人脸识别安全系统以及无人驾驶汽车的道路安全识别系统,目标检测正在一步一步保障和优化人们的生活,为人们的生活带来便捷。但是有利必有弊,人们在享受目标检测带来便利生活的同时,也要考虑到检测是否准确,倘若人脸识别发生错误匹配,则会给住宅区居民带来安全隐患,若道路检测结果不准确,则车上乘客的安全得不到保障,因此继续提升目标检测准确率仍然有一定的发展空间。本文就提高目标检测算法准确率出发,分别提出了相应的改进策略,本文的研究工作将由下面几部分展示说明:

(1)为了提高目标检测算法的准确率,本文从增强模型的特征提取能力出发,提出了基于残差网络ResNet50和可切换空洞卷积SAC的目标检测方法。普通3×3卷积操作得到的特征图,每一个像素都只能获得3×3范围的感受野,而空洞率为3的卷积操作可以帮助特征图每个像素获得7×7的感受野范围,设置了空洞率的可变卷积通过偏移量的获取帮助模型在扩大感受野的同时也能适应图像中不规则的目标。SAC利用生成的切换函数,将可变卷积提取的不同大小感受野按不同概率进行融合,实现了感受野的自适应选择。因此基于残差网络ResNet50和可切换空洞卷积SAC的目标检测方法可以提高目标准确率。

(2)在目标检测任务中时常存在一种现象,检测目标常受到环境的干扰,所以在检测时容易出现漏检、错检的情况。本文从让模型重点关注目标信息出发,提出了融合GCNet注意力机制的目标检测方法。GCNet注意力机制可以帮助模型提取全局注意力特征,帮助模型在全局视角下重点定位感兴趣目标,从而在一定程度上减少图像上因环境干扰而造成的目标漏检、错检现象,因此融合GCNet注意力机制的目标检测方法是有效果的。

参考文献(略)