代写计算机论文范文:基于信息增强的说话人验证模型思考

发布时间:2024-06-26 22:01:09 论文编辑:vicky

本文是一篇计算机论文,本文旨在解决现有声纹识别模型中特征表征能力不足的问题,从特征信息增强角度入手,从而提高说话人模型的表征能力。

1绪论

1.1研究背景和意义

1.1.1研究背景

随着互联网和人工智能的发展,身份验证方式发生了重大变化。在古代,人们依据国家颁发的路引辨别访客身份,以及依据银票上的暗号来判断银票的真伪。然而,罪犯伪造路引和银票的事件时有发生。传统的身份认证存在各种不足,无法满足人们对认证系统的安全和便捷的需求。随着万物互联的发展,人们在生活中需要频繁地进行身份认证以享受一些专人服务。因此,安全便捷的认证方式是我们迫切需要的,它可以提高认证的准确性和可靠性,使我们的生活更加安全便利。

随着深度学习的发展,各种人体生物特征相关技术逐渐成为主流的验证方式,包括指纹验证、人脸识别、瞳孔识别、DNA识别以及声纹识别等。生物特征识别技术是指基于人类的生物特征(生理特征、行为特征)利用特定技术手段进行个人身份认证的技术[1]。这些技术具有防伪造、防遗忘、防遗失、便捷和安全等多重优势,被广泛应用于国防、司法鉴定、互联网金融、智能物联等方面,并成为各行业广泛推崇的安全认证手段。生物特征识别技术不仅有助于维护国家的安全,而且还为我们带来了更为高效便捷的生活体验。然而,指纹验证、人脸识别、瞳孔识别、DNA识别等验证方式采集成本较高,并需要近距离接触,这对于新冠疫情下的无接触验证方式构成了挑战。此外,现有戴口罩的人脸识别技术偶尔会出现识别率下降问题,通常需要用户摘下口罩,这也加剧了工业界对远距离生物特征识别技术的需求。2019年,《华尔街日报》报道了某英国公司的母公司CEO被仿造声音成功诱骗高管转账的案例,这也表明对声纹识别技术研究的重要性和紧迫性[2]。语音作为人们生活中最常见的事物之一,其中蕴含着丰富的信息,如文本内容、身份信息、情感以及声源方位等。相对于其他生物特征识别技术而言,声纹识别技术具有无接触采集和成本低廉等优势,在身份验证方面具有显著的优势。因此,为了满足人们对安全、高效且无需接触身份验证方式的需求,进一步研究声纹识别技术具有重要的现实意义和应用价值。

1.2国内外研究现状

1.2.1基于传统方法的声纹识别研究

1935年2月1日,美国《匹兹堡报》报道了侦探利用声纹技术进行犯罪侦查的故事,展示了当时相关技术的具体细节[5]。侦探们利用示波器记录的波形图(oscil-lograph)来区分不同说话人。1962年KERSTA等人提出了利用时频谱(spectrogram)来判断语音说话人身份信息,科研人员根据一定规则主观判断身份信息,实验结果表明基于规则判断的效果准确率高达97%,这项研究进一步说明通过一些技术可以从语音中提取说话人身份信息[6]。

随着音频信号处理技术的不断发展,声纹识别任务的性能也逐步提高。音频信号处理的特征通常用作声纹识别任务的输入特征,可以划分为时域特征与频域特征两大类。其中时域特征主要包括短时能量、短时平均幅值、短时自相关系数和线性预测编码等特征。为了提取频域特征,首先需要将语音信号通过傅里叶变换转换到频域,然后对频域信号进行一系列处理以得到特征。梅尔倒谱系数(mel-frequencycepstral coefficients,MFCC)[7]、感知线性预测(perceptual linear prediction,PLP)[8]以及线性预测倒谱系数(linear predictive cepstral coefficient,LPCC)[9]等特征在语音领域先后出现并得到了广泛应用。由于人耳对语音的感知是非线性的,因此音频信号处理技术往往会参考这一特点进行设计编码。感知线性预测和梅尔倒谱系数特征都采用非线性的设计理念,在声纹领域也得到极为广泛的应用。由于计算梅尔倒谱系数时较为复杂,因此在声纹领域中,通常会使用梅尔倒谱系数中间过程产生的Fbank特征。

2声纹识别及相关技术

2.1声纹识别

2.1.1概念及分类

声纹识别,又称为说话人识别,通过分析语音信号中说话人独有的身份信息来识别说话人身份的技术。它广泛应用于各个领域,能够通过对语音信号进行建模和分析,提取说话人的身份信息。从人类生理角度考虑,声音是由人体的发音器官共同作用的结果,是通过气流在变化的声道中调制而成的。由于每个人的发音器官(声带、声道等)的大小和形状存在显著差异,从而导致每个人的声音也呈现出独特的特征。一般来说,男性声音常常呈现出低沉的音调,而女性声音则表现相对尖锐。从人类环境角度考虑,由于每个人所处的地理位置以及家庭环境不同,声音也会有所差异。一般而言,不同地域的人会带有明显的方言口音,而孩子的发音方式也会与其父母有相似之处。同时,个人词汇和语言构建运用也会因其阅历以及个人喜好而有所不同。如图2-1,这些因素为声纹识别技术的可行性提供了客观保证。

计算机论文怎么写

2.2相关技术

2.2.1多头注意力机制

随着Transformer模型[65]的出现,越来越多的学者开始关注这一结构,其核心技术是多头注意力机制。该机制可以捕捉不同子空间中token之间的关联,从而提升模型的性能。多头注意力机制具体步骤如下:

2.2.2可选择核卷积

可选择核卷积(selective kernel convolution,SKConv)是一种卷积神经网络中的操作,旨在提高模型的感受野和特征提取能力[66]。可选择核卷积可以同时学习多个不同大小的卷积核,并通过注意力权重的加权来控制每个卷积核的重要性,从而提高特征提取的能力和效果。如图2-13,其计算步骤如下:

切分(Split):输入数据X经过普通卷积操作,产生多个特征图U˜,Uˆ。

融合(Fuse):该步骤利用注意力机制自动选择分支特征信息,用于分支特征的融合。首先将不同分支特征进行逐元素相加得到全局特征U,再对全局特征U进行全局平均池化,计算得到全局信息S,然后输入全连接层和非线性激活函数计算得到更加紧凑的全局特征Z。

3 基于局部全局频率信息耦合的说话人验证 ...................................... 25

3.1 问题描述 .......................... 25

3.2 局部全局频率信息耦合的说话人识别模型 ................................ 26

4 基于多视图特征融合的说话人验证 ................... 37

4.1 问题描述 ................................ 37

4.2 基于多视图融合的说话人识别模型 ............................................ 38

5 总结及展望..................................... 47

4基于多视图特征融合的说话人验证

4.1问题描述

目前,基于多视图融合的说话人验证任务已经获得了不错的性能。Qi等人[77]提出基于注意力融合的双向多尺度聚合网络模型,通过从上到下及从下到上逐步聚合多尺度特征信息,从而充分利用不同层中时频上下文信息。Peng等人[29]设计出基于复值的说话人识别模型,从而充分利用音频信号中幅度谱与相位信息。Wu等人[79]设计出可选择的卷积核,从而动态选择长期与短期的上下文信息。这些研究通过多视图特征聚合,从而提高说话人识别任务的性能。

基于SELayer层的说话人模型在一些指标上均有不错的提升,然而过于依赖压缩-激励模型输出特征可能导致建模能力不足。因此,本章提出了一种基于多视图特征融合的网络模型。该模型将SELayer输出特征与原始特征进行聚合,从而保证信息的多样性,并通过让SELayer输出特征与原始特征进行交互,从而避免冗余以及无关特征。简单来说,本章从SELayer输出与原始特征聚合与交互角度出发,从而提取更加鲁棒、具有区分能力的说话人表征。

计算机论文参考

5总结及展望

声纹识别技术是一种生物特征识别技术,相对于传统的身份认证技术其具有更加安全与便捷的性能。与人脸识别、指纹识别以及瞳孔识别等生物特征识别技术相比,声纹识别具备无接触、低成本等优点,从而导致其应用场景非常广泛。本文旨在解决现有声纹识别模型中特征表征能力不足的问题,从特征信息增强角度入手,从而提高说话人模型的表征能力。本文首先介绍了声纹识别概念及分类,阐明了声纹技术有效的理论依据。随后介绍了声纹识别技术常用开源的大规模声纹数据集VoxCeleb与CN-Celeb。接着,详细介绍了所使用Fbank与MFCC音频特征的计算方法,以及介绍了两种说话人模型H/ASP以及ECAPA-TDNN。此外,还介绍了两种聚合方法ASP以及CAS。随后,阐述了说话人识别模型的优化目标,并介绍了说话人识别模型的验证方法、测试指标以及增强说话人性能的分数正则化。本文研究从信息增强方向角度出发,从而提高说话人模型的表征能力。本文具体工作内容总结如下:

(1)提出了基于局部全局频率信息耦合的说话人识别模型。针对残差神经网络无法提取全局频率信息的不足,本文提出了基于局部全局频率信息的耦合说话人模型。该模型利用全局分支提取全局频率特征,同时利用局部分支提取局部频率特征,再将局部频率信息与全局频率信息融合起来,从而提高模型的鲁棒性和性能。本文利用Shift操作提取局部频率特征,多头注意力机制用来提取全局频率特征。实验结果表明,本文提出的LG-FusionNet-L-Shift的声纹识别模型比基准H/ASP方法表现出了更好的结果,其在绝大部分数据集下等错误率及最小检测代价函数与对比模型相比性能更好,从而表明了基于局部全局频率信息融合的有效性。同时,通过说话人嵌入可视化可知,现如今的声纹识别模型对于场景复杂的说话人语音而言,仍然是一个极具挑战性的任务。

(2)提出了基于多视图特征融合的说话人识别模型。针对SELayer得到的特征与原始特征可能存在信息互补的问题,从多视图信息融合与交互角度考虑,本文提出了基于多视图特征融合的说话人识别模型,从而提高说话人识别系统的准确性。实验结果表明,SE-MVF-FusionNet w/o interact模型相比于基准ECAPA-TDNN模型性能更好,在等错误率与最小检测代价函数指标表示了基于多视图特征融合的有效性。

参考文献(略)