本文是一篇计算机论文,本论文重点研究了使用K-means聚类算法过程中的数据安全问题,分别将中心化差分隐私和本地化差分隐私技术引入到K-means聚类算法中,在保护隐私信息安全的前提下提高聚类结果的可用性。
1 绪论
1.1 研究背景及意义
随着互联网的普及,移动终端已经成为主要的数据来源,这导致了数据量的急剧增长。数据挖掘技术能够有效地从这些海量数据中提取有用的知识和信息。作为数据挖掘领域中的重要方法之一,聚类算法扮演着独特而不可或缺的角色。聚类的目的是识别数据中的独特类别,并利用这些类别将数据分组,以确保同一组内的样本相似性较高,而不同组的样本间展现出明显的差异性。聚类算法不仅可以帮助理解和利用数据,发现数据中的模式和规律,还可以为决策制定提供支持,推动科学研究和商业应用的发展。但是随之而来的隐私数据泄露问题是大数据时代不可避免的挑战。
近年来,许多国家不断制定了数据安全相关的法律。然而隐私泄露事件仍然层出不穷。2023年2月,一款Telegram查询机器人泄露了国内45亿条个人信息,数据主要来自各快递平台以及淘宝、京东等购物网站,包含了用户真实姓名、电话与住址等。泄露的数据量超45亿条,数据库大小为435.35GB,几乎涵盖了全国用户的快递信息[1]。同年,ChatGPT的热潮席卷全球的同时,其被指出存在安全漏洞会泄露包含个人隐私的训练数据[2],如图1-1所示。由此OpenAI公司或将面临高达30亿美元的索赔。
1.2 国内外研究现状
近年来,各种隐私泄露事件层出不穷,隐私保护数据挖掘[14]得以受到重视。基于匿名化技术的隐私保护数据挖掘方法[4]无法防范背景知识攻击,因此在保护隐私方面存在一定程度的局限性。另一方面,基于同态加密算法的隐私保护方法可以直接对转换成密文的数据进行挖掘,在存储、传输和计算过程都保障数据的安全性,但是其计算过程较慢且复杂度过高。差分隐私模型[10]无需假设攻击者的背景知识且有严密的数学理论支撑,在隐私保护数据挖掘领域被广泛应用。但在实际使用场景中很难存在可被完全信任的第三方。在LDP下,用户在将数据发送给第三方之前,先对数据进行本地扰动,以实现差分隐私。然后,第三方只能分析用户的数据,而不能收集他们的敏感信息。当前的基于差分隐私的聚类算法主要分为两种场景:中心化差分隐私和本地化差分隐私。然而大部分研究更偏向于中心化差分隐私。接下来将对相关领域的研究现状做一概述。
1.2.1 差分隐私技术研究现状
2006年,Dwork等人[10]提出了差分隐私的概念。早期的差分隐私是一个中心化差分隐私模型,用于保护数据收集服务器上的数据隐私。其核心思想是在对数据进行分析或查询时,通过添加噪声来保护个体隐私,同时尽量保持对数据的有用性和准确性。在CDP模型中,添加噪声的主要的方法包括适用于数值型输出的Laplace机制[10]和适用于非数值型输出的指数机制[15]。此外,高斯机制[10]利用高斯噪声处理统计输出,以实现更宽松的差分隐私。Blum等人[16]提出了一种全新的网络机制实现差分隐私,该机制旨在通过对新数据集与原始数据集之间误差的全面评估,精心生成最适合的新数据集。另一方面,Hardt等人[17]提出了一种新的机制,可以对隐私乘法权重进行调整。但是该机制只能处理计数型查询,有一定局限性。
2相关技术与理论基础
2.2 本地化差分隐私
中心化差分隐私运行在一个可信的第三方平台上,在实际应用中这样的第三方几乎不会存在,用户的隐私仍然很难得到充分保护。与之不同,本地化差分隐私(LDP)不依赖于数据收集者的可信假设,而是面向不可信的数据收集者,并且无需额外的服务器支持。
在LDP模型中,每个用户能够独立处理个人数据的隐私保护,将隐私保护责任从数据收集方转移至用户端,从而降低不可信数据收集者泄露原始数据的风险。本地化差分隐私与中心化差分隐私的区别如图2-1所示。
在LDP模型中,用户在本地端对的原始数据x使用扰动机制M,然后将扰动后的结果M(x)上传至服务端,服务端使用扰动后的数据以进行数据的统计和特征分析[51]。
LDP提供了一种保护用户本地私有数据的方式,但不同的用户和数据可能存在不同的隐私保护需求。因此,本小节采用PLDP(Personalized Local Differential Privacy)模型来满足不同的隐私要求。在PLDP中的每个用户都有一组可选参数(𝐺𝑖,𝜀𝑢),𝜀𝑢表示该用户期望的隐私保护强度,即隐私预算。𝐺𝑖表示用户指定的包含其真实数据的安全范围,其中用户数据与其他数据无法区分。
2.3 聚类算法
2.3.1 K-means聚类算法
K-means聚类算法是数据挖掘领域中应用广泛的聚类算法之一。其核心思想是将各个样本分配到聚类中,以尽可能减小每个聚类内部样本的差异。这一过程可以被描述为将n维数据划分为k个集合的过程,被称为“K-means”,它在类内方差的角度上提供了相当有效的划分。
2.3.2 聚类算法的评价指标
聚类算法的评价指标用于衡量聚类结果的质量和性能。这些指标包括内部评价指标(如轮廓系数、NICV等)、外部评价指标(如调整兰德指数、NMI等)、相对评价指标(如均一性、完整性和V-measure)以及稳健性评价指标。选择合适的评价指标应考虑到数据的特性、聚类的目的以及算法的特点,以便有效地评估聚类结果的准确性和一致性。
NICV(归一化簇内方差)可以直接反映聚类的效用,同时NICV值也可以合理反映隐私保护机制对聚类效用的影响。NICV值越小,表示聚类的效用越好。NMI[42]指的是归一化互信息(Normalized Mutual Information),是一种用于评估聚类效果的指标。它结合了熵和互信息的概念,可以在不同聚类算法的结果之间进行比较。F-measure作为综合评价指标,主要考虑了精确率和召回率两个参数。
S_Dbw[56]指标是一种内部评价指标,使用S_Dbw作为聚类算法的评估指标可提高其鲁棒性。由于其将在第三章将发挥重要作用,本小节对其进行详细介绍。
3 基于中心化差分隐私的 K-means 聚类算法 .................................... 17
3.1 引言 ................................... 17
3.2 SADPK-means 聚类算法 .......................... 19
4 基于本地化差分隐私的 K-means 聚类算法 .................................... 31
4.1 引言 .......................... 31
4.2 基于 PLDP 的 K-means 聚类算法 ..................... 32
5 隐私保护的健康数据聚类分析系统设计与实现 .............................. 43
5.1 需求分析 ...................................... 43
5.1.1 用户需求 .......................... 43
5.1.2 系统需求 ........................... 44
5 隐私保护的健康数据聚类分析系统设计与实现
5.1 需求分析
5.1.1 用户需求
本系统作为健康数据分析系统,主要实现对授权参与健康分析计划的用户的本地健康信息进行聚类分析,得到用户群体的健康数据聚类结果,为后续的产品迭代、广告投放等打下基础。健康数据主要存储于用户的本地设备上,例如手环、手机等。为了保护用户的隐私,服务器并不会保存手机用户的健康信息。为了完成面向实际应用的隐私保护健康数据聚类分析系统的仿真设计,首先需要深入理解该系统用户的切实需求。针对以上现象,挖掘如下需求:
(1)核心信息展示。用户可以直观地查看其个人信息和健康数据的方式。这种展示方式通过简洁清晰的界面,将用户的基本信息和健康数据以易于理解的方式呈现出来。用户可以通过这种展示方式快速了解自己的身体状况和健康趋势,为健康管理和决策提供便利。核心信息展示的设计应当考虑用户体验,确保信息呈现简明扼要、易于理解,同时保护用户隐私和数据安全。
(2)健康数据采集。在用户的终端设备上需要实时采集大量用户健康数据,而是在PC端运行模拟用户状态,所有的健康数据采用公开的数据集。
(3)具备隐私保护能力。健康信息聚类分析过程需要大量用户的健康数据,这些数据都十分敏感,如果不具备隐私保护功能,可能会泄露用户敏感信息,无论是用户还是平台都会收到困扰。因此,系统在设计和实现时必须考虑隐私保护问题,并采取合适的隐私保护技术来保护用户的敏感数据。
6 总结与展望
6.1 总结
随着互联网的普及,移动终端已成为主要数据来源,导致数据量急剧增长。数据挖掘技术能从海量数据中提取信息,聚类算法是其中重要方法,将数据分组以识别类别并支持决策制定。然而,隐私泄露问题是一个巨大的挑战。尽管各个国家制定了数据安全法律,数据泄露事件仍然屡现。差分隐私技术在隐私保护数据挖掘中应用广泛,很多IT巨头,例如谷歌、苹果、华为和小米等都将其部署在自己的产品中。在医疗信息领域,隐私保护尤为重要,可以建立患者信任,促进医疗信息积累和共享。因此,基于差分隐私的聚类算法研究具有重要意义,可满足法律法规要求,降低隐私泄露法律风险,促进数据安全共享,推动数据挖掘和人工智能技术发展。
本论文分别将中心化差分隐私和本地化差分隐私与K-means聚类算法相结合,以K-means聚类算法中的隐私保护问题为主线,分别在中心化差分隐私和本地化差分隐私两种场景下,提出了相应的隐私保护策略。
(1)研究了中心化差分隐私背景下K-means聚类算法的隐私保护问题,并对基于等差数列隐私预算分配方式的差分隐私K-means聚类算法进行改进,提出了基于S_Dbw指标的动态分配隐私预算的差分隐私K-means聚类算法。首先,在选择初始质心时,利用局部方差和局部密度剔除离群点,避免其干扰,依次选取局部方差最小的数据点作为初始质心,从而提高了聚类结果的准确性。在隐私预算的分配过程中,引入S_Dbw指标优化隐私预算的分配方式。在每次迭代中对不同的额簇进行S_Dbw指标评估。基于隐私预算的等差序列分配方式,针对各个簇分别设定不同的权重,从而调整隐私预算的分配方式,能够为不同的簇添加不同程度的噪声,提升聚类结果的可用性。其次,对该算法进行了理论分析,证明该算法满足𝜀 -差分隐私。最后,在四个标准数据集上对算法进行了实验。实验结果表明,在相同的隐私预算下,该算法提高了聚类结果的可用性。
(2)针对现有的基于本地化差分隐私的K-means算法研究大多数都是对所有用户的隐私信息进行统一保护,无法满足用户个性化需求的问题,将个性化本地差分隐私与K-means算法进行结合,提出了基于个性化本地差分隐私的K-means算法,它允许每个用户独立设置其数据的隐私级别。针对本地化场景下噪声过大的问题,使用个性化分段机制(Piecewise Mechanism with PLDP,PWP)对本地端用户数据进行扰动,避免对用户数据进行编码,降低了噪声对数据的影响;针对聚类中间结果有可能泄露隐私的问题,提出一种簇标签扰动算法来抵抗推理攻击,在迭代的过程中对簇标签信息的交互过程进行扰动,牺牲一定的可用性换取隐私性。理论分析证明了该算法满足(𝐺𝑖,𝜀𝑢)-PLDP。实验结果表明,该算法与现有的基于本地化差分隐私的K-means算法聚类有相近的性能,但是但是却有更好的扩展性和实用性。
参考文献(略)