计算机论文案例代写:基于深度增强学习的路径规划算法探讨与推广

发布时间:2024-04-30 21:45:23 论文编辑:vicky

本文是一篇计算机论文,本文中使用的路径规划数据集来源于实际项目,数据集容量较小,可以考虑增加更多的数据集以提高算法的泛化能力。

1 绪论

1.1 研究背景与意义

很多公司会将大量人力投入到一些重复的任务当中,而这部分投入会随着企业扩展的需求不断增加,而这部分任务往往是没有创造性的,创造的收益也远低于人力成本。在这个劳动力成本越来越高的时代,通过增加人力来完成这类任务的性价比也越来越低了,为了降低人力成本,业务流程自动化因需而生。

根据已部署流程自动化系统的公司反馈,优秀的业务流程自动化系统确实可以大幅度提升公司办事效率,同时也可以减轻公司的人力成本[1]。例如,日本某保险公司在部署RPA技术后,已经将本公司85%的业务交由RPA自动完成[2]。在新技术的支持下,此公司的人力成本大幅度下降,但是客户的反馈依旧良好。通过对于系统生成的日志分析,进一步研究发现,实际用户在进行业务办理过程时,存在很多重复的步骤和浪费时间的情况,所以一个贴合实际需求的流程策略将会进一步提升用户业务办理效率,同时将大幅度减少系统资源的浪费。但目前业务流程自动化是根据流程制作人员提前设定完成,只能根据设定的流程进行,制定策略的优异完全受到流程制作人对于业务熟悉程度的影响[3-4]。

近几年随着深度学习的发展,研究者提出了使用RNN模型对于时间序列进行学习,可以预测其发展趋势,这样可以帮助工作人员更快、更精准的制定执行策略[5]。而基于日志信息学习到的执行策略存在很大局限,模型只能学到数据的规律并进行无偏差的预估,想要达到更好的策略优化效果只能通过对大量数据进行人工处理,所以如何使模型自动进行学习执行策略成为下一步研究重点[6]。  基于深度学习的策略探索依赖数据集的表现,

1.2 国内外研究现状

1.2.1 业务流程自动化研究现状

业务流程自动化是指利用模拟用户交互的方式完成重复性工作,这种无需对系统进行修改的辅助特性受到规模较大企业的广泛认可[9-11]。其中,机器人流程自动化(RPA)是一种Web端主流框架,基于预构建的业务流程和对客户端控制的引擎模块[12],使用虚拟劳动力完成指定目标的自动化处理。RPA已经被提出约20年,经历了四个发展阶段。

第一阶段,RPA软件可以在个人电脑上处理各种业务操作,覆盖了当前所有的电脑桌面操作。然而,这个阶段的RPA软件存在着一些缺陷,例如无法支持端到端的自动化,难以实现大规模应用和推广。

第二阶段,RPA具备了基本的依据流程自动完成任务的能力,并且已经达到了一定规模,可以满足常见系统的作业环境中的任务要求[13],例如Windows系统。

第三阶段,RPA已经具备了基于流程的自动化处理能力,能够实现动态的任务调度以及对于可用资源的分配分析能力,并且还可以与业务流程管理、企业资源计划等业务应用系统进行结合,甚至可以在集成到云端[14]。然而,该阶段的RPA仍然存在一些局限性,其中之一是无法处理非结构化的业务数据[15]。虽然RPA技术在处理结构化数据方面已经非常成熟,但对于非结构化数据,例如文字、图像、音频等,RPA技术仍然存在一定的挑战。

第四阶段,RPA将与深度学习等技术相结合,结合图像处理,自然语言处理,流程预测等,可以实现对非结构化数据以及规格化的发票单据的自动识别并根据需求进行填充处理,同时可以进行高级别的数据预测分析[16]。

2 相关技术与实验基础

2.1 RPA概述

RPA被称为Robotic流程自动化,可视为一种自动化软件,类似于虚拟员工,可以根据预先设置好的程序模拟人工对计算机进行的键鼠操作,完成一系列指定的任务。RPA的核心[54]是通过自动化、智能化技术来“模拟人”完成一些重复性、低价值、无需人工决策等固定性流程化操作,从而有效提升工作效率,减少错误。由开发工具,运行工具和控制中心组成,作业场景是Web页面。在Web环境中实现RPA执行任务的路径规划。

计算机论文怎么写

2.2 深度增强学习理论基础

深度增强学习是一种能够结合深度学习和增强学习的技术。深度增强学习利用深度学习算法来学习状态和动作之间的映射关系,以此来改进增强学习的决策过程。深度增强学习的主要特点是可以处理高维度、非线性和大规模的状态和动作空间,并且可以自动学习复杂的特征表示,从而提高Agent的决策能力和学习效率。增强学习与深度学习的概念如下:

1. 增强学习

增强学习是一种人工智能领域的学习方法[55],其基本逻辑是通过机器在与环境的交互中,利用环境反馈学习出最优的执行流程。采用随机的动作与环境中进行试错,每次试错后会根据环境的反馈获得奖励或惩罚,从而调整其行为策略,最终学习出最优的行为策略。通常包括四个主要组件:Agent的状态,动作函数,行为判断函数以及执行策略。Agent的状态定义了位置信息,动作空间用来描述其动作选择范围,奖励函数根据机器的行为给出奖励或惩罚,策略指定了机器在特定状态下应该采取的行为。在增强学习中,Agent是根据环境反馈来不断纠正自己的动作选择,直到其能够在特定的状态下采取最优的行动。利用Agent与环境的交互达到学习环境信息的目的,Agent选择的动作的依据来源于环境的反馈,如何衡量一个动作的可行性通过环境的奖罚值进行判断,利用这种机  制来获取到连续动作的最大回报,最终训练出符合要求的模型。成功的部署在各种生产环境中,如物流分配、游戏智能、工厂加工处理等。通过增强学习,机器能够在与环境的交互过程中快速学习并适应新的环境和任务,从而实现更高效、更智能的自主决策和行动。 

3 基于地图隐喻思想的虚拟环境构建方案的设计与实现 .................. 19

3.1 问题分析 ........................ 19

3.2 方案核心设计 .............................. 22

4 基于改进DDQN的路径规划算法设计与实现 ......................... 29

4.1 问题分析 .................... 29

4.1.1 DDQN与路径规划问题的契合点 ...................... 29

4.1.2 DDQN应用于路径规划的不足 ............................ 30

5 实验结果与分析 ........................... 37

5.1 基于地图隐喻思想的路径规划算法分析 ....................... 37

5.2 改进算法的实验验证与分析 ........................ 39 

5 实验结果与分析

5.1 基于地图隐喻思想的路径规划算法分析

本小节详细介绍了一个基于在线签名系统的实验验证方案。该在线签名系统为易企签signit公司的电子签名系统,该系统的主要功能包括企业用户可以在系统中创建电子文档,并通过电子签名的方式完成审批和签署,实现企业内部流程的高效化和智能化。该在线签名系统包含9个功能页面和若干弹窗界面,共有100多个有效元素。为了验证本文提出的虚拟环境中的元素位置表示方法的有效性,我们按照以下步骤进行实验:

页面元素信息提取:首先,使用Python爬虫工具从在线签名系统中提取所有页面元素的信息,包括元素的标签、属性、文本等信息。

有效元素抽取:在所有页面元素中,我们筛选出与签名相关的有效元素,如按钮元素、文本元素、表单等。

LOD值计算:对于每个有效元素,计算其在DOM树上的位置与根节点之间的距离,即LOD值。具体而言,DOM树中的每个节点都可被视为一个有效元素,并假设根节点的LOD值为1,其余节点的LOD值为其父节点的LOD值加1。这样,我们可以通过LOD值来确定元素之间的层级关系。

Gosper曲线绑定:将所有有效元素依据DOM树中的顺序依次绑定到Gosper曲线上,并获得其曲线节点的位置信息。

计算机论文参考

6 总结与展望

6.1 总结

本论文提出的解决方案是基于Web作业环境的RPA路径规划。该方案的核心思想是通过抽取页面有效元素信息,并将元素之间的抽象关联关系通过LOD表达出来,最终利用Gosper将有效元素之间的关联关系进行图形化的表现,从而构建出一个满足深度增强学习的虚拟环境。在该解决方案中,有效元素指的是Web页面上的各种输入框、按钮、链接等。通过抽取这些元素的信息,可以构建出一个页面元素库,包含了各个元素的位置、大小、类型等信息。同时,通过分析页面上不同元素之间的关系,如父子关系、兄弟关系等,可以将这些关系抽象为LOD,从而形成一个元素关系图。通过将页面元素和元素关系图结合起来,可以构建出一个完整的虚拟环境。在这个虚拟环境中,Agent通过八个方向的路径选择实现人类用户的操作,完成各种自动化任务。同时,这个虚拟环境还满足深度增强学习的要求,可以用于机器人学习和优化路径规划算法。通过实验验证,本论文提出的解决方案可以满足实验要求。它可以帮助开发人员更快速、更准确地构建出一个适合于RPA路径规划的虚拟环境,从而提高自动化任务的效率和准确性。

其次是提出一种改进的DDQN算法,通过结合样本之间位置信息的杰卡德系数与基于排名的优先级采样方法构建新的采样方法,克服模型原地摆动的问题,保证模型沿着目标选择最优行动方向。实验对比了原始DQN算法,原始DDQN算法,PPO算法和SAC-Discrete算法,结果表明改进DDQN算法得到的回报值最高,分别比其它算法高19.84%、11.72%、8.46%、4.06%,所需训练次数分别少44.80%、35.00%、18.03%、6.57%,平均损失值也最低,表明所提算法可以保证RPA在实际生产环境中能够更加准确的完成任务。但是依旧存在个别问题影响模型的学习效率,首先是为了提高模型的探索范围,在探索方向的基础上增加了探索长度step,由于我们采取的是离散动作空间,这就导致空间维度过大,使探索到有效的路径所需时间增加,这将是我们下一个主要研究方向。

参考文献(略)