基于耦合度量的多尺度聚类挖掘方法

发布时间:2020-07-01 21:42:01 论文编辑:vicky
本文是一篇计算机论文研究,本文以非独立同分布的分类型多尺度数据集为研究核心进行聚类分析,将耦合度量相似性方法与多尺度聚类相结合,以耦合度量相似性理论为指导思想,对非独立同分布的分类型多尺度数据集做了深入的研究和分析,总的研究成果可分为以下几个方面:(1) 研究了非独立同分布的分类型数据集的多尺度聚类理论基础。针对多尺度数据挖掘中存在的问题,以基于度量的耦合度量相似性理论为基础,扩展了可进行多尺度聚类数据挖掘的数据类型,完善了多尺度聚类理论方法,并从数学角度对方法的可行性进行了理论分析,为后续分类型数据集的多尺度聚类分析提供了理论基础。(2) 构建了基于耦合度量的多尺度聚类算法框架。耦合度量相似性方法为多尺度聚类挖掘理论在分类型数据集中的应用提供了指导思想。首先,对非独立同分布的分类型数据集进行预处理;其次,基于尺度划分及基准尺度选择方法选择最合适的基准尺度;最后,结合耦合度量相似性方法构建多尺度聚类体系结构。

1  绪论

1.1  选题背景及研究意义
近年来,“互联网+”在医学、地学、图像学和卫生信息学等领域取得了长足的进步,对海量数据的收集和积累需要进行深入分析,数据挖掘技术就显得尤为重要。数据挖掘技术可以从海量数据中分析和探索知识,带来无限的信息增长潜力[1]。数据挖掘是面向应用的,可以应用到很多领域,在电信、银行、零售、交通、保险等商业领域应用较多。数据挖掘可以解决的商业问题包括:客户群体划分、交叉销售、背景分析以及客户信用登记、客户流失性分析、欺诈发现等。数据挖掘是一种新的数据处理技术,主要特征是能够从大量的业务数据中进行提取、转换、分析和模型化处理,从中提炼辅助经营决策的关键数据,在企业危机管理中具有比较广泛的应用[2]。多尺度数据挖掘是数据挖掘技术中的一种,是一种能够多视图、多尺度、多分辨率的从信息丰富、知识贫乏的大数据中提炼出有效知识,并通过得到的知识发掘其中潜在价值的非平凡过程。
多尺度系统理论[3]可以有效地将多尺度理论和数据挖掘技术相结合,可以解决“一叶障目”的问题,如果尺度太大,就容易看不清细节;如果尺度太小,就会忽略整体性,局限于细节。因此,为了更好地观察到目标区域,多尺度是很有必要的。多尺度信号表示很自然地形成金字塔或树状数据结构,其中树中的每个级别对应于特定的表示尺度,可以分为聚类数据挖掘、分类数据挖掘和多尺度关联规则数据挖掘。多尺度聚类数据挖掘旨在根据不同的分辨率,从不同的尺度将一堆无标签的物理或抽象对象分成由相似对象组成的簇。通过数据集的尺度划分理论可以将数据集划分为多个尺度,并选择其中一个最合适的基准尺度进行知识挖掘,可对挖掘得到的知识通过尺度转换得到其他尺度挖掘结果。目前多尺度聚类的研究对象主要为有尺度特征的时间、空间数据集[4]。随着研究的不断深入,图像学、景观学、地学等领域的研究学者发现多尺度数据挖掘方法也可用于一般数据集中,只需对数据集进行量纲分析使其呈现多尺度特性即可[5]。
...............................

1.2  国内外研究现状
1.2.1  多尺度数据挖掘
现实生活中的物体由不同的尺度结构所构成,多尺度这一概念最早来源于地理领域的研究,主要是对尺度空间这一概念的拓展。尺度可以用来指研究一个物体或现象时所用到的空间或者时间单位,同时又可以指一个过程和现象在空间上所涉及到的范围和发生的次数。前者是从研究者的角度来定义多尺度,后者是根据研究的现象和过程特征定义多尺度[7]。
多尺度广泛应用于图形图像学、地理生态学、遥感等方面。尺度可以用来指研究范围的大小(如地理面积),也可以用来指详细程度(如地理分辨率的大小),还可以用来表明时间的长短[8]。从医学成像到卫星成像,图像去噪是图像处理领域的首要问题。图像去噪算法的主要目的是降低噪声水平,提高图像的可解释性和视觉效果。研究学者利用小波、脊波和小曲率对随机噪声、高斯噪声、散弹噪声、椒盐噪声(脉冲噪声)和泊松噪声等多种成像方式通过多尺度变换进行去噪操作[9]。2012 年 Jianwen Hu 等人将双边滤波器的边缘保持特性与方向滤波器组的方向信息捕获能力相结合,提出了一种多尺度方向双边滤波器方法,该方法能够较好地表示图像的多尺度几何结构[10]。红外与可见光图像的融合是图像理解与解释中一个活跃而重要的课题。2015 年,Wei Gan 等人通过将多尺度分解和引导滤波相结合,提出了一种新的红外与可见光图像融合框架,能够有效地保留源红外图像和 VI 图像的细节,且能抑制伪影[11]。同年,He  Li 等人根据多尺度变换提出了一种红外与可见光图像融合算法,该方法通过对红外图像和可见光图像分别采用形态学帽子变换,轮廓波变换(CT)以及反轮廓变换(ICT)等一系列操作最终得到融合图像,具有显著的目标信息和高对比度,最大程度保留了细节信息[12]。2018 年 Lihua Jian等研究学者提出了一种利用滚动制导滤波和联合双侧滤波进行图像融合的新方法,该方法利用 Kirsch 算子和滚动制导滤波得到多尺度图像,该方法不仅保留了源图像的细节,而且有效地抑制了伪影[13]。在图像分类中,2015 年 Kaiming He 等人结合“空间金字塔”方法提出一种 SPP-net 方法,用于生成固定长度的图像,进而可以减小尺度对图像识别精度的影响,改进所有基于 CNN 的图像分类方法[14]。2016 年Qingshan Liu 等人针对将卫星图像划分为不同尺度同时训练多个深度卷积神经网络非常耗时的问题,提出了一种针对高分辨率卫星图像的分类方法,该方法结合了金字塔池的思想,通过对网络中参数的调节,使其在具有良好性能的同时提高了效率,是一种多尺度深度特征学习方法[15]。
.........................

2  多尺度聚类及相关研究

2.1  多尺度数据挖掘
本节将系统介绍多尺度数据挖掘的定义,聚类和尺度的概念等;其次阐述多尺度聚类的实质以及尺度转换的常用方法,并介绍了多尺度关联规则挖掘和多尺度分类的理论与方法。
多尺度聚类数据挖掘的核心思想是将多尺度、聚类分析和数据挖掘相结合,从多个尺度、多视角,采用聚类方法挖掘数据中潜藏的有价值的信息。多尺度理论最早起源于尺度空间理论。现实生活中,基本上所有的物体都是由多种尺度结构组成的,在人们的视觉中,由于对物体观察的尺度不同,所以物体呈现的方式也会有所不同,这也是为什么会出现“横看成岭侧成峰”的原因。人们在观察事物时,如果离得太近(尺度太小),更方便观察到物体的细节,但是容易局限于细节,忽略了整体概况,难以把握全局;如果离得太远(尺度太大),就不易看清细节,只能得到物体的大致轮廓。所以,为了能够更好的观察感兴趣的区域,对事物进行多尺度分析是非常有必要的。
2.1.1  多尺度聚类数据挖掘相关定义
为了更好的对多尺度聚类数据挖掘进行研究,本节将对多尺度聚类数据挖掘中的相关概念及定义做详细说明。多尺度数据挖掘可以简单的表述为从不同尺度,从大量的数据中通过智能的方法提取隐藏于其中的数据知识。依据多尺度数据挖掘思想,可以对多尺度聚类数据挖掘作如下定义:
定义 2-1  多尺度聚类数据挖掘:多尺度聚类数据挖掘是对具有多尺度特性的无标签研究对象进行无监督的分析处理过程,该过程包括多尺度数据集的生成阶段、基准尺度聚类以及其他尺度的推衍阶段,经过所有阶段,最终挖掘到目标尺度隐藏在大数据中的知识的过程。
图 2.1  多尺度聚类数据挖掘流程图
........................

2.2  聚类算法
聚类分析是数据挖掘中常用的挖掘方法,主要是针对无标签数据集,根据对象的关系或属性特征将对象分组的一种操作,是一种非监督分类,其目的是使有相同或相似特征的对象划分为一组,不相同(不相关的)的对象划分为不同组,组内越聚集,组间越远离,聚类效果越好。常用的聚类方法通常分为四类:层次聚类、基于划分的聚类方法、网格聚类和基于密度的聚类方法,本节将对四类常见方法进行介绍。
2.2.1  层次聚类
基于层次的聚类算法以树状层次结构为基础,分为凝聚层次聚类和分裂层次聚类。从单个对象开始,逐步合并最相似的两个簇,直至满足最终聚类个数要求或符合迭代终止条件,合并操作终止,是一种自底向上的策略,该过程为凝聚层次聚类;从包含所有对象的一个簇开始,逐步将大的簇细分为更小的簇,直至簇中只包含一个对象或者达到某个终止条件,该过程采用自顶向下的策略,被称为分裂层次聚类。凝聚层次聚类技术是目前比较常见的,分裂的层次聚类技术应用较少。图 2.3 为四个二维点的层次聚类树状图举例。
图 2.3  四个点的层次聚类树状图
......................
 
3   耦合度量相似性 ............................. 25
3.1   理论基础 .................................. 25
3.2   基本框架 ................................... 27
4   基于耦合度量的多尺度聚类理论 ............................................ 35
4.1   多尺度数据集 .................................. 35
4.1.1   理论基础 ....................................... 35
4.1.2   多尺度划分方法 ........................... 36
5   多尺度聚类算法 ......................................... 43
5.1   构建多尺度数据集 ................................... 43
5.1.1   理论基础 .................................. 43
5.1.2   构建方法 ................................ 44

5  多尺度聚类算法

5.1  构建多尺度数据集
多尺度数据集的构建是多尺度聚类挖掘的前提和保障,根据第四章多尺度划分和构建多尺度数据集的理论基础,本节主要阐述多尺度数据集的理论基础、多尺度划分方法和如何构建多尺度数据集。
5.1.1  理论基础
构建多尺度数据集就需要对数据集进行处理,其过程主要分为两阶段:数据预处理阶段,该阶段主要采用独热编码对数据进行与处理;构建多尺度数据集阶段,该阶段为后续进行多尺度聚类研究提供了理论基础。
(1) 独热编码(One-hot encoding)
独热编码是数据预处理的一种方法,主要用于对分类型数据集进行数值化处理,如:人们的性别在原始数据集中用“F”和“M”表示,利用独热编码可以将特征数值化,用“0”表示“F”,“1”表示“M”;独热编码采用二进制向量表示,实现步骤为:先将分类型数据集映射到数值;然后将数值表示为相应的二进制向量。经过独热编码的数据集可以采用常见的回归、分类或聚类方法进行相似性度量或分析,使特征间距离计算更加合理。
..............................
 
6  总结与展望

6.1  总结
随着对多尺度数据挖掘领域研究的深入,多尺度分析在遥感图像识别、疾病检测、故障诊断以及聚类分析等领域的应用越来越成熟。已有的多尺度数据挖掘主要是针对数值型数据集进行定量分析与预测,对具有多尺度分类属性型数据集研究很少,尤其是对于无标签的非独立同分布的分类属性型数据集的内在相似性度量没有得到实质性的解决。 本文以非独立同分布的分类型多尺度数据集为研究核心进行聚类分析,将耦合度量相似性方法与多尺度聚类相结合,以耦合度量相似性理论为指导思想,对非独立同分布的分类型多尺度数据集做了深入的研究和分析,总的研究成果可分为以下几个方面:
(1) 研究了非独立同分布的分类型数据集的多尺度聚类理论基础。针对多尺度数据挖掘中存在的问题,以基于度量的耦合度量相似性理论为基础,扩展了可进行多尺度聚类数据挖掘的数据类型,完善了多尺度聚类理论方法,并从数学角度对方法的可行性进行了理论分析,为后续分类型数据集的多尺度聚类分析提供了理论基础。
(2) 构建了基于耦合度量的多尺度聚类算法框架。耦合度量相似性方法为多尺度聚类挖掘理论在分类型数据集中的应用提供了指导思想。首先,对非独立同分布的分类型数据集进行预处理;其次,基于尺度划分及基准尺度选择方法选择最合适的基准尺度;最后,结合耦合度量相似性方法构建多尺度聚类体系结构。 
(3) 提出了多尺度聚类算法。结合数据集划分与基准尺度选择方法,提出了基于耦合度量的基准尺度聚类方法 LSCA;结合凝聚层次聚类思想,提出多尺度聚类尺度上推算法 UACMS;分析 Lanczos 插值的实质,从不同层面考虑已知样本点对待估样本的贡献率,结合基于三次卷积的尺度上推思想,提出多尺度聚类尺度下推算法 DSAL。
参考文献(略)