计算机论文范文代写:面向不平衡数据分类的强化学习迁移算法探讨

发布时间:2023-08-12 23:48:58 论文编辑:vicky

本文是一篇计算机论文,本文针对不平衡数据少数类分类难的问题,使用了迁移学习的方式,可以有效解决由于目标数据集分布不均且样本数量稀少所导致的模型效果不佳的问题,提出了一种面向不平衡数据分类的强化学习迁移算法。

第一章 绪论

第一节  研究背景及意义

一、研究背景

互联网的普及与科技的进步影响深远,带来了指数级增长的数据种类和规模,如今各行各业都面临着海量、复杂、高维度的数据,如何从这些大体量数据中挖掘出数据本身所潜藏的价值已经成为当今数据挖掘和机器学习领域的重要课题。如何高效准确地进行分类是监督学习中的重要研究对象之一。

传统研究中,通常假设分类数据集中数据是均衡的以方便研究,但在实际各行各业的应用中,数据通常都是不均衡的,也就是说,数据集中一类或者几类明显比其他类少或者多,这就是不平衡数据集[1]。对于这些数据集,常规机器学习中的分类算法由于评价指标基于精确率,容易出现偏向于多数类而忽略少数类的影响——例如100个样本,只有1个某少数类样本,则只需将该样本默认为多数类即可达到99%的精确率,从而少数类样本在数据集中被视而不见,这在领域中称作“数据淹没”。这种数据不均衡的情况在医学诊断、故障检验、欺诈检测等众多应用都十分普遍。然而,在许多行业应用场景中,少数类样本的影响很可能比多数类要大,一旦分错可能会造成非常大的各种损失,尤其以医疗领域为甚[2]。医疗领域中分类问题主要来源于判断是否患病,少数类样本即患病,假如少数类样本错分,也即患病误诊为没有患病,则会延误治疗,严重者甚至威胁患者生命,后果不堪设想。其他诸如矿藏资源的储层识别等也是不平衡数据的经典案例[3]。因此该方向的研究重要性极高,吸引了国内外计算机领域的众多研究者的广泛关注[4,5]。

第二节  国内外研究现状

一、不平衡数据分类研究现状

不平衡数据分类是一个重要而具有挑战性的问题,为了解决这一问题,研究者们深入探究了各种提高不平衡分类效果的方法,研究主要集中在数据和算法两个层面。

(一)数据层面的方法

数据层面的方法旨在通过对训练样本进行增减处理来平衡类间分布,包括过采样少数类、欠采样多数类以及上述两种方法的组合。

最为朴素的过采样方法就是随机过采样方法,它随机地在少数类集合中进行抽取,然后将这些样本复制到数据集中,从而实现单一的过采样。但是,这种单一的随机复制方法极易导致过拟合,从而降低模型的泛化能力。SMOTE(Synthetic Minority Over-sampling Technique)[7] 是一个改良的线性插值过采样技术,由Chawla等人指出,它利用相邻少数样本之间的线性插值来生成新的样本,从而实现对数据的有效处理。在SMOTE的基础上,MSMOTE[8]算法进一步区分了少数类点的类别,根据其周边邻居的信息,将少数类点分为三种:安全点、噪声点与边界点。分别选择安全点的K个邻居以及与边界点距离最近的点进行插值,而对噪声点不做插值,这种方法使得生成的新样本更能代表少数类数据的分布情况,并且具有更好的类别判别能力。Borderline-SMOTE[9]则在MSMOTE的基础上,只对处于边界上的点采取SMOTE方法,以此来提高采样效率。不同于SMOTE系列将合成样本随机插入到少数类样本与它的近邻之间的方法,ADASYN [10]根据不同样本的分布密度调整合成样本的数量,即对那些分布密度较低的少数类样本产生更多的合成样本。该算法重点关注样本分类的困难程度,并对每个样本赋不同的权值。同时,由于ADASYN算法在生成合成样本时考虑了密度比重,因此它可以缓解SMOTE算法在产生合成样本时可能会将样本插入到空隙区域的问题,从而更好地模拟真实数据。文献[11]给出了一种Safe-Level-SMOTE方法,它在对样本进行合成之前使用最近邻方法来测量每一个少数类的安全性等级,并且根据不同的安全性等级给予相应的采样权重,以确保数据只在安全的位置生成。生成对抗网络(Generative Adversarial Nets)[12]是通过训练两个神经网络来生成新的数据的深度学习模型,生成器生成的样本可以被看作是从模型在数据集中学习到的数据分布中随机采样得到的样本。与传统的过采样方法不同,生成对抗网络可以自适应地学习数据分布,因此能够生成更高质量、更多样性和更真实的新数据。可以有效地扩大数据信息的多样化。尽管过采样可以改善不平衡数据集分类的性能,但也存在一些缺点。一方面,过采样可能导致过拟合的问题。由于过采样技术会产生大量的人工样本,这些样本与原始样本可能存在重叠,从而导致模型在原始样本上过拟合,而不具泛化性。另一方面,过采样需要根据算法逻辑生成新的数据,生成的样本数量过多,会使得训练过程变得更加耗时。

第二章 相关理论介绍

第一节  生成对抗网络

生成对抗网络(GAN)是一种里程碑式的无监督结构模型,它以生成样本分布为基础,将真实的样本分布与模拟结果进行比较,以达到更好的拟合效果。生成对抗网络系统由两个独立的网络组成,它们彼此之间相互作用,以达到对抗的目的。第一个网络系统用于识别真实数据和虚假数据,它是模型中的判别器;第二个网络系统则是生成器,它能够产生相似于实际样本的随机样本,并将其当作假样本输入到判别器中进行判别。

生成对抗网络模型结构如图2.1:

计算机论文怎么写

首先定义一个模型作为生成器,其通过输入一个随机噪声(向量或矩阵),输出指定大小的图片(有些应用中为生成文字)。再定义一个分类器作为判别器D,它能够根据输入的图像的特征判别真伪,真代表判别器认为这些图像数据来自于数据集,假代表判别器认为这些图像数据是生成出来的。输入的向量选用满足均值分布的随机噪声即可。

生成对抗网络的简化训练过程步骤如下:

对于每轮迭代,重复执行以下操作:

(1)从原始数据集中随机抽取真实样本;

(2)从先验均值分布中生成1个随机噪声,作为生成器输入;

(3)生成器接收随机噪声,获取生成样本;

(4)使用判别器对真实样本和生成样本进行分类;

(5)固定生成器参数,计算误差,通过反向传播总误差的方式,调整判别器的参数,目标为使分类的误差最小化;

(6)使用一个新的,通过生成器生成一个新的生成样本;

(7)使用判别器对进行分类;

(8)固定判别器参数,计算误差,通过反向传播总误差的方式,调整判别器的参数,目标为使分类的误差最大化。

第二节  强化学习理论

一、强化学习概述

强化学习是通过不断尝试新的动作,也即试错的方式来优化决策,并通过与环境交互信息来调整动作,以期从环境处获得奖励,从而达到最大化收益的目标。它也被称之为增强学习或再励学习,是一项有效的机器学习方式。

由于算力和大数据技术的迅速发展,强化学习算法得到了愈来愈多的关注。AlphaGo的出现,使得强化学习算法在技术人员和工业界都得到了广泛的认可,成为一个新型的解决方案。DeepMind公司提出的AlphaGo Zero,以其强有力的深度强化学习方法,不仅可以在三日内完成自学习,而且还可以在不需要人类专家经验知识的情况下攻破AlphaGo,这一成就再度验证了强化学习算法的巨大能力,为强化学习的蓬勃发展提供了重要的推动力。增强学习算法不仅可以用于电脑博弈,还可以广泛应用于智慧决策、自动化机器人操控和智能控制等应用领域。

二、强化学习基本模型

强化学习通过与外部环境不断交互使智能体迭代学习,以更好地识别当前状态下的最佳策略。它是解决序列决策问题的一种试探性学习方法,即通过不断执行动作更新自身及环境从而学习到最佳策略。与有监督学习要求大量有标签的样本不同,强化学习要求更多的互动信息来支持智能体学习迭代,通过与环境互动得到反馈和信息更新,并将此信息作为输入调整决策策略,智能体以此得到训练。强化学习可以在很多领域中应用,例如机器人控制、游戏智能、自然语言处理等。

智能体是强化学习建立的一个模型,环境由一些外界信息组成,初始时,时间点为,智能体得到环境给予的输入:状态。对于输入,智能体采取某个动作作为输出,由于采取了这个动作,环境接收到信息,从而做出改变,首先产生奖励反馈,然后环境状态发生改变,将改变后的状态输出给智能体,接着智能体再次采取动作。以此产生的序列,也即马尔科夫决策过程(MDP)。

第三章 基于深度卷积生成对抗网络的过采样方法 ............. 23

第一节 提出动机与思想 ............................... 23

第二节 深度卷积生成对抗网络 ........................... 24

第四章 基于深度Q网络的不平衡数据分类模型 ............... 39

第一节 强化学习深度Q网络 ........................... 39

第二节 基于深度Q网络的不平衡数据分类模型 ........................ 39

第五章 基于深度Q网络的不平衡分类模型的迁移 ............. 48

第一节 预训练与微调 ......................... 48

第二节 基于深度Q网络的不平衡分类模型的迁移 ...................... 49 

第五章 基于深度Q网络的不平衡分类模型的迁移

第一节  预训练与微调

预训练-微调是一种常见的深度学习模型训练方法,通常用于解决在小数据集上训练深度神经网络的问题。通过重新设计神经网络模式,我们可以将源数据集中训练好的模型中的各种基本参数复制到目标模型中,这些基本参数包含了源数据集上学习到的知识,从而使得目标模型也能够有效地应用于源数据集。为了更好地模拟目标数据集,我们需要创建一种输出层,其尺寸取决于目标数据集的种类多少。我们可以随意初始化该层的模型参数。在目标数据集上,我们首先训练输出层,以便更好地模拟目标模型。其他层的参量则是通过对源模型进行微调来获得的。

预训练是一种模型的构建过程,它可以帮助我们更好地理解和预测未来的变化。而微调则是一种将预训练模型应用于实际数据集,以便使参数更加精确地反映实际情况的过程。

预训练-微调的基本步骤如下:

步骤一:预训练,使用大规模数据集进行预训练,得到一个泛化性较好的模型。

步骤二:微调,使用小规模数据集对预训练模型进行微调,以适应具体任务的需求。在微调过程中,一般会对模型的顶部进行调整或重新训练,同时保持预训练模型的底部不变。

步骤三:评估,使用测试集对微调后的模型进行评估,计算其性能指标,如准确率、召回率等。

计算机论文参考

第六章 总结与展望

传统的数据分类方法力求提高总体划分准确度,但实际上存在许多类别分配不平衡的状况,由于某些类别样本总量较少或者收集成本较高,导致某类型样本总量远小于另一类样本总量,这种情形下,异常数据类(极少数类)常常只占常规统计类(大多数类)的10%到20%,甚至更低,从而使得统计分配变得极其不平衡。传统的分类评价标准往往以分类器的整体表现为主要目标,但当数据分布不平衡,尤其是错误分类的代价不同,以及极少数类样本的付出代价很高时,准确划分极少数类样本就变得尤为重要。因此,本文针对不平衡数据少数类分类难的问题,使用了迁移学习的方式,可以有效解决由于目标数据集分布不均且样本数量稀少所导致的模型效果不佳的问题,提出了一种面向不平衡数据分类的强化学习迁移算法。

现将本文总结如下:

(1)使用了深度卷积生成对抗网络作为过采样方法,对于人工制造的不平衡图像数据集生成了有效的少数类样本以缩小多数类与少数类间数量的差距。

(2)使用基于深度Q网络的不平衡数据分类模型,结合强化学习中的奖励机制,通过优化,使智能体获得更高的累计奖励,从而提升分类的准确性和效率。改进并提出了新的基于概率形式的动作A输出及奖励函数R,使其更快收敛,提升模型效果。

(3)将使用深度Q网络作为分类器的不平衡数据集分类模型进行迁移学习,使其模型在另一类似数据集上也能起到很好的效果,不会发生负迁移。对源域数据集与目标域数据集均为结构化数据集或非结构化数据集分别实现迁移,使深度Q网络不平衡数据集分类模型适用于各种任务。 

参考文献(略)