代写计算机论文范例:移动端场景藏文检测与识别系统

发布时间:2022-07-20 18:31:08 论文编辑:vicky

本文是一篇计算机论文, 本文研究了场景藏文文字检测与识别算法,并在此基础上尝试对模型进行精简,以提高模型的推理速度。在保持精度的情况下,在本文所构建的数据集上也达到了较为理想的性能。

第1章 绪论

1.1 研究背景与意义

人们将文字作为传递思想和交流的工具,在日常生活中不可或缺。随着互联网的快速发展,以及携带有相机功能的移动设备的广泛使用,我们可获取的来自自然场景的视频和图像也越来越多,提取出这些视频和图像中的文字信息并将其应用在多种场景中,例如多模态检索[1]、自动驾驶[2]、工业自动化[3]和网络信息安全[4]等,具有重要的应用价值。藏文是传承藏族文化的有效介质,自从7世纪松赞干布等人创建藏文文字以来,藏文就成了藏族人民交流的工具,具有悠久深厚的历史,其独特的文化属性和在藏区所发挥了巨大作用。所以,将自然场景中的藏文方便地提取出来,并应用到相关场景,对推动藏区的信息化发展有重大的意义。

自然场景文字的识别(Scene Text Recognition,STR)技术通常包含检测和识别两步,其中检测作为第一步,其结果的优劣将直接影响着后续的识别性能。相比于印刷体OCR,不受约束场景下的文字检测和识别仍面临以下一些问题:

1) 多语言文种混合且风格多变。在不同场景下,文字可能有不同的形状、亮度和对比度,文本行也有倾斜、扭曲等不同的样式,对检测造成了一定的困难。

2)背景复杂性的干扰。自然场景中的文本背景多变,文本可能出现在平面、曲面或折皱表面,部分文本区域甚至被复杂的背景纹路干扰。

3)其他因素的干扰。自然场景下的文字图像的采集通常通过手持设备,其质量可能会受到外界因素如光照、抖动和对焦等影响产生模糊和噪声。

1.2 国内外研究现状

1.2.1 场景文字检测

近几十年,研究人员针对自然场景文字检测提出了许多优秀的检测算法,根据选用特征方式的不同,其研究方法大致可分为两类:基于传统的方法和基于深度学习的方法:

在传统方法中,研究人员认为图像中的文本区域与非文本区域的边缘梯度变化较大,区分较为明显,可根据一些低级特征如颜色、梯度等信息将图像像素进行聚集、分割。根据研究人员获取文字候选区域方法的不同,可分为滑动窗口法和连通域法。

滑动窗口法主要利用图像中文字的特殊纹理特征来检测文本区域。如Chen等人[8]提出利用级联的Adaboost分类器,对一系列图像特征如边缘间距、图像纹理直方图和连通区域分析联合训练得到分类器,利用训练好的分类器来区分文本和非文本区域。Pan等人[9]提出了一种用于场景文本检测的混合方法,首先设计了一个检测器用以估计现有的文本置信度和比例信息,这有助于后续二值化操作分割候选文本区域;之后,又提出了一个条件随机场(CRF)模型,用于筛选文本区域。连通域法则是根据图像中一些相同的属性聚类后,得到连通域,之后再根据人为定义的条件或者通过机器学习方法学到某些特征来排除非文本区域。如Shi等[10]提出利用极值稳定区域(Maximally Stable Extremal Regions , MSERs)方法来检测图像中的文本,为了设计一个有效的连通域分析器,将MSERs标记为文本区域或非文本区域,他们建立了一个基于MSERs的图模型,通过图切算法使成本函数最小化,从而得到最终的MSERs标签结果。Genzalez等人[11]提出了一个三阶段算法用于文字的检测,一个分割阶段来寻找候选字符,一个基于快速计算但稳健的特征连接成分分析来接受字符并放弃非文本对象,最后是一个结合梯度特征和支持向量机对文本行进行分类。

第2章 场景藏文检测与识别数据集构建

2.1藏文文字渲染

藏文与常见的拉丁文和汉字不同,具有“字”意义的字形结构以一个字母为核心,其余字母均以此为基础前后上下叠写,组合成一个完整的结构。由于藏文的特殊组成方式,直接使用pip或conda安装的Pillow在图片渲染时,会出现字丁重复叠加的现象。经调查和实验后发现,使用基于源码的方式安装Pillow5.2版本,可以解决字丁渲染时出现的重叠问题。

目前对于场景文字的检测识别研究大多聚焦于主流文字,较少的机构关注少数民族语言文字,且目前没有可用于场景藏文检测和识别的公开数据集,所以本节从以下三种方式构建和场景藏文检测和识别数据集:基于图像分割的方法、基于对抗生成网络和风格迁移的方法以及人工收集真实自然场景图像的方法。

在实际场景中,藏文和汉文通常成对出现,所以本文使用文献[62]提供的12000例藏汉双语词条,并在互联网上收集了1000张无文字背景图像;之后借助文献[63]提出的模型将藏文和汉文文字渲染至背景图像中,用于文字检测工作。图2-2和2-3分别展示了合成方法的总体流程以及部分合成结果图。合成过程总结如下: 

(1) 获取合适的文本和背景图像样本,结合图像的局部颜色和纹理特征将图像分割成连续区域,并且使用文献[64]提出的CNN方法提取图像的深度信息,获得“像素级”的深度图; 

(2)对于每个连续区域,根据其大小、面积等因素排除不适合放置文本的区域,将剩下的适合放置文本的区域估计局部表面法向量,然后根据局部表面法向量找到适合放置文本的区域; 

(3)从藏语语料库中随机抽取单词,并根据背景区域的风格选择文本的风格,文本风格主要包括文字大小、样式和弯曲度的选取; 

(4)为文本随机选择字体,并根据局部表面法向量方向进行透视变换;使用泊松图像编辑[65]将文本融合到场景中。

2.2 场景藏文检测数据集构建

2.2.1 真实场景中采集

图2-1展示了部分在真实场景中拍摄的藏文图像。可以发现,在真实场景中,藏文和汉文通常成对出现,在后续2.2.2章节的数据合成方法中,我们也将藏文和对应的汉文一起渲染到背景图像中。本文使用Labelme标注工具对收集到的场景图像进行标注,标注格式与ICDAR2015数据集保持一致。数据标注过程中,首先使用市面上的藏汉场景识别软件对我们收集到的图像进行识别,之后对识别错误的文字进行校对,完成该部分数据集的标注工作。

计算机论文怎么写

第3章 场景藏文检测模型构建 ............................................ 17

3.1 引言 ........................................... 17

3.2 模型框架 .................................... 17

第4章 场景藏文识别的模型构建 ......................................... 30

4.1 引言 .......................................... 30

4.2 基于原始表征学习的场景文字识别 .................................. 31

第5章 系统设计与实现 ................................... 37

5.1 整体系统架构 ..................................... 37

5.1.1 需求分析 .......................................... 37

5.1.2 可行性分析 ................................ 38

第5章 系统设计与实现

5.1 整体系统架构

整个系统包含数据层、模型层和用户层,用户层是系统拟实现的功能:首先用户上传包含藏文文字的图像,之后通过检测模型定位出图像中的文字域,或者用户手动截取出图像中包含文字的区域,然后将包含文字区域的图像送入识别模型进行识别,最后输出的是该图像中包含的文字,这些输出的文字是可复制和编辑的。系统结构图如图5-1所示。

计算机论文参考

5.1.1 需求分析

根据用户对场景藏文识别的基本需求,对比分析市面上多个优秀的小程序的的主要功能模块,本着小程序开发的原则:在功能方面,小程序使用更加高效,功能更加实用;在设计方面,小程序仅保留必要的的模块,界面更加简洁;在使用场景方面,小程序设计的目标更明确,更易吸引用户。

该小程序初期的主要定位是为各种需要场景藏文的地方提供便捷的文字识别服务,因此,小程序应为用户提供更加明确的服务,尽量减少与文字识别无关的功能模块,为用户提供用完即走,快速得到结果的使用体验。

第6章 总结与展望

6.1 总结

自然场景文字在人们的日常生活中随处可见,是人类获取现实世界信息的重要来源之一。有效地提取自然场景中的文字信息因其广泛的应用场景一直备受重视,例如车牌识别、实时翻译等。目前国内外的研究大多聚焦于中文和英文,对于藏文的场景文字检测和识别略有不足,且目前学术界和工业界也不存在有关藏文的场景数据集。近年来,随着深度学习技术的发展,关于场景文字检测和识别的性能也取得了令人鼓舞的进步,但由于计算资源和存储空间的限制,阻碍了模型在移动端等设备上的进一步落地应用。基于此,本文主要工作总结如下:

(1) 场景藏文检测和识别数据集构建。为适应场景藏文检测与识别的任务,通过真实场景中采集加自动合成的方式,得到10748张可用于场景藏文文字检测的数据集和514500张可用于场景藏文文字识别的数据集。

(2) 对于检测器,提出了多尺度特征聚合的场景藏文检测方法,用以弥补浅层网络特征提取能力差,难以处理长文本的缺陷;以深度可分离卷积为基础,搭建出较为轻量的检测模型,之后通过基于加权系数的模型剪枝策略进一步降低模型的计算量和存储量,以实现对于场景藏文的实时检测。

(3) 对于识别器,采用基于表征学习的文字识别方法,为减轻设备运行负担,使用轻量级神经网络MobileNetV3-Large作为特征提取的backbone,在所构建的场景藏文识别数据集上对网络进行训练与优化,获得识别模型。

(4) 设计并实现基于“微信”小程序的场景藏文检测与识别系统。从用户需求角度出发,开发出简单明了的界面,最后将所获得的检测和识别模型进行前向封装实现基于小程序的场景藏文的检测与识别功能。

参考文献(略)