复杂场景图像合成算法探讨

发布时间:2021-11-30 22:38:39 论文编辑:vicky

本文是一篇计算机论文,笔者认为图像是一种生活中最为常见的一种数据格式,无论从工业应用方面,还是学习研究方面,视觉图像研究都有着非常重要的意义。但是现实生活中,收集标准的图像数据集是需要较大的成本,因此研究通过图形合成技术来扩充图像数据集是一个非常值得研究的话题,当然图像合成技术的应用远不止于此。然而现有的图像合成技术大部分都是集中在包含单个对象的简单场景图像的生成,而对于包含多个显著先进对象的复杂场景图像生成的技术研究相对较少。


第一章  绪论


1.1   研究背景及意义

1.1.1  研究背景

在互联网高速发展的今天,其相关应用产品已经充斥着人们日常生活中的方方面面,可以说人们每天都需要和互联网技术打交道。而随着这些应用的开发研究,各类数据呈井喷式发展,这大量的数据被存储、加工和利用,而通过这些数据,可以帮助计算机理解现实世界,进而更好地辅助人类发展。在此基础之上,提出了大量新概念,大数据、物联网、云计算、人工智能等等,并且得到了巨大发展,逐渐走向成熟。

图像是人类生活中最为司空见惯的一种数据格式,人们通过它可以更好理解视觉世界,而且它具有规则的样式,更容易被操作处理,所以图像处理技术相关研究一直是一个热门的话题。随着社会的发展,图像数据越来越丰富,且图像的品质越来越高,因此也需要更好的技术来处理突破相关研究屏障。深度学习的出现,给计算机视觉研究带来了革命性的改变,它允许计算机快速高效的处理大批量的图像数据,并且可以理解图像更深成的意义。因此大量关于计算机视觉方向的论文被发表和研究,比如图像分类[1]、目标定位[2]、语义分割[3]、目标检测[4]等等,如图 1.1 所示。

计算机论文参考

计算机论文参考

..................................


1.2   研究现状和主要难点

1.2.1  研究现状

图像合成并不是一个新兴话题,早在 20 世纪 60 年代,就有提出合成就有简单线段、规则形状的图像[5],但是受限于计算能力,图像合成已知没有引起很大的关注。但是对着现代计算机的出现,以及深度学习概念的提出,图像合成逐渐从规则图像、纹理图像、人脸图像[6]到复杂自然图像方向转变,比如基于数据集 ImageN et 的图片合成[7]。

早期出现的很多传统生成模型,比如高斯混合模型(Gaussian  Mixture  Models,GMM)、独立成分分析(Independent Component Analysis,ICA)和主成分分析(Principal Component Analysis,PCA)再到后来的隐马尔可夫模型(Hidden Markov Model,HMM)以及马尔可夫条件随机场(Markov Random Field,MRF),由于表达特征能力有限,或者只能服从简单数据分布,使其在生成复杂图像上受到了限制。近年来,深度学习等技术快速发展,产生了一些深度生成模型,由于深层次网络很好的数据特征捕捉能力,使得深度生成模型在生成真实图像方面有更好的表现。而其中最主要的三种深度生成模型分别为:变分自动编码器(Variational Auto-encoder,VAE)[8]、自回归模型(Autoregressive Model)[9],生成对抗网络(Generative Adversarial Network  ,GAN)[10]。

特别是生成对抗网络,由于其优越的性能及广泛实用性,学术界和工业界都掀起一波学习热潮,随着深入研究和探讨,大量高质量论文被发表和探讨,使得图像合成任务取得了长足的进步。生成对抗网络通过博弈式训练一个生成器和一个鉴别器,以此达到生成以假乱真的图像。但是在早期,生成对抗网络在图像应用方面有很大的缺陷,原因在于很难找到生成器和鉴别器的那是平衡点,容易造成模型坍塌[11]等问题,进而造成生成图像无意义。为此,很多学者为了提高生成对抗网络的性能,提出了很多改进模型。

................................


第二章  相关工作研究


2.1 图像合成模型

图像生成的结果取决于图像合成模型的选择,一个好的合成模型可以使图像合成结果更具有真实性、多样性和一致性。从最开始的传统模型到特征表达模型再到深度卷积网络模型,模型的发展带动了图像生成结果的提升。下面将从传统图像合成模型开始,然后注重介绍几种重要的深度图像合成模型:变分自编码器(VAE)[8]、生成对抗网络(GAN)[10]、自回归模型[22]。

2.1.1  传统图像合成

传统图像合成技术经历了从早期的只能使用计算机完成简单线段、规则形状到后来从图像像素上的一些关系出发约束图像的修复或者融合过程[23],再到利用图像梯度上的连续性进行图像的融合,如利用泊松克隆[24]的方法来解决图像融合的问题,这些方法都是对图像生成模型的早期探索。后来特征表达技术高速发展,比如主成分分析(PCA)[25]、独立成分分析(ICA)[26]、和髙斯混合模型(GMM)[27, 28]等等,将图像合成推入发展的新阶段。这些模型假设图片的分布服从一个非常简单的分布,所以这些模型只能处理简单纹理,规则结构图片的合成,因而不能处理复杂数据分布的合成。紧接着大量的更复杂的改进模型出现,如隐马尔科夫模型(HMM)[29],马尔科夫随机场(MRF)[30]、限制玻尔兹曼机(RBMs)[31]和通过判别模型训练生成网络的方法[32],这些模型在简单图片分布的合成取得了非常不做的效果。但是由于计算能力的限制,以及它们的表征能力不强等原因,所以它们只能做一些简单的图像合成,比如数字图像,规则人脸的图像合成。

...............................


2.2  有条件图像合成

通过输入不同的输入条件,比如图像的类标签[41]、对象的属性[42]、文本描述[43]甚至图像[44]可以在不同程度上监督模型的训练,以生成满足条件的图像生成。本文将重点介绍几种常用的条件图像合成模型。其中基于文本的是最常见的方法,但是只适用于简单图像生成,而不适用于具有复杂空间结构的图像。基于场景图的图像合成可以解决文本生成图像的局限性,但是模型较为复杂,且获取数据的代价较高。基于空间布局的方法是最近受关注的方法,输入仅需对象标签和对象边框,可以使用多数复杂场景,但是还是存在合成图像真实度不足等问题。基于语义图像的是生成图像效果最好的方法,可以生成照片级别的图像,但是它要求像素级别的标记数据。

2.2.1  基于文本描述

基于文本描述合成图像是以一段描述图像内容的自然语言作为输入条件,它要求模型需要同时理解自然语言和视觉图像,并建立两者之间的对应关系,这给图像合成带来了更大的挑战。但同时自然语言和视觉图像时显示生活中最为常用的信息数据,因此完成文本-图像的生成具有重大的现实意义,这也是基于文本描述生成图像成为热门研究话题的原因。

计算机论文怎么写

计算机论文怎么写

................................


第三章 基于图注意力网路的场景图到图像的合成 ............................. 24

3.1  背景介绍 ............................. 24

3.2  模型设计与训练 ...........................................25

第四章 基于文本描述和空间布局的图像合成 ................................. 38

4.1  任务描述 ............................................. 38

4.2  模型设计与训练 ......................................... 39

第五章 总结与展望 .................................... 49

5.1  研究工作总结 ....................................... 49

5.2  未来工作展望 ................................. 50


第四章  基于文本描述和空间布局的图像合成


4.1  任务描述

本文第 3 章提出一种基于图注意力网络的场景图到图像生成模型来实现复杂场景图像的生成,利用图注意力网络实现前景对象至今的信息传播,并利用预测的场景布局(边框+形状)作为中间表示,保证对象在图像在指定位置生成。虽然在方法上实现了对复杂场景图像生成的建模,但是存在一定的缺陷,一个是缺乏场景图数据集作为条件输入;另一个是利用场景布局作为空间表示,需要使用像素级别的语义分割图来监督场景布局的生成,然而现实中无论是获取场景图还是语义分割图,都需要较高的成本。所以为了解决这些限制,考虑采用将空间布局(对象标签+边框)作为条件输入生成,来生成图像。和场景图及语义分割图像相比,对象边框+边框的组成空间布局的方式更容易获得,而且相对于布局作为中间表示,以布局作为输入条件带来灵活的生成方式。

在现有的基础上研究归纳现有的基于空间布局的图像合成方法,发现它们都是以对象标签作为对象特征学习的主要信息来源,来对对象边框进行填充,然后通过一系列的图像卷积过程生成实例对象图。其不足之处在于输入信息过于单一,生成对象的纹理和细节不足。同时在处理过程没有实现对象之间的信息传递,导致部分生成结果出现错误的逻辑关系,而且将图像背景看作其中的一个对象来对待,导致前景对象和背景无法更好地融合。

................................


第五章  总结与展望


5.1  研究工作总结

图像是一种生活中最为常见的一种数据格式,无论从工业应用方面,还是学习研究方面,视觉图像研究都有着非常重要的意义。但是现实生活中,收集标准的图像数据集是需要较大的成本,因此研究通过图形合成技术来扩充图像数据集是一个非常值得研究的话题,当然图像合成技术的应用远不止于此。然而现有的图像合成技术大部分都是集中在包含单个对象的简单场景图像的生成,而对于包含多个显著先进对象的复杂场景图像生成的技术研究相对较少。

以此为基础,本文首先重点介绍了图像合成技术的研究背景和研究意义,了解了图像合成技术在实际应用和科学研究方向上的主要作用,并且对国内外研究现状进行详细描述。通过对现有的图像合成研究现状分析,了解到传统图像合成技术的不足,而随着深度学习的发展,图像合成技术越来越成熟,生成效果也越来越好。即便如此,图像生成技术仍然存在一些局限性,无法满足研究者的需求。因此本文介绍了图像生成技术的主要难点,并以此引出本文研究话题,复杂场景图像的生成。

复杂场景图像包含多个情景对象,因此在图像生成过程中既要保证图像和生成对象的真实性,同时还要保证对象实例在生成在指定位置,符合输入条件的语义需求。为此,本文研究了现有图像生成模型,以及基于不同条件的图像生成方法,提出了两种用于实现复杂场景图像生成的算法。一种是基于图注意力网络的场景图到图像生成模型,一种是基于文本描述和空间布局的图像合成模型。

参考文献(略)