本文是一篇计算机论文,本文针对适用于收听阶段噪声抑制的语音可懂度增强(Speech Intelligibility Enhancement,IENH)技术展开研究。该技术是一种感知增强技术。在现实场景中,远端说话人会根据环境干扰噪声的差异调整发声模式,以此减轻背景干扰声对语音的抑制。这种说话人噪声抑制机制称为“Lombard效应”。
第1章绪论
1.1研究背景与意义
在现代社会互联网技术的迅猛发展下,语音相关的应用技术得到了广泛的应用和深入的研究。语音通信技术作为人类交流沟通的重要方式已成为现代社会中不可或缺的一部分。但在语音信号采集、存储和传输过程中,通信技术也面临着越来越高的要求[1]。现代化的生活环境中,人们无法避免地受到来自周围环境的噪声干扰,比如环境噪声和嘈杂人声。这将严重影响通信质量,降低交流效率。因此,研究如何有效地从非目标音频信号中提高目标语音信号的感知效果,提高通信效率至关重要。
语音信号的感知效率通常是根据语音可懂度与语音质量来衡量的。其中语音可懂度表示的是信息能被听音者理解的程度,取决于语音子单元被正确识别的比例(如音节、音素、短句)。语音质量则是听音者对语音样本主观好恶的多维衡量,包含了语音的感知质量、自然度及清晰度等。
实时语音通信示意图如图1-1所示,分为两个部分:左边表示远端(Far-End),存在说话人与身旁的环境噪声,右边表示近端(Near-End),存在听音者与近端噪声[2]。与此同时,语音通信是一个双方交互的过程,远端说话者与近端听音者的身份也会在双方交互的过程中会不断互换。针对使双方获得更好语音交流效率的目的,产生了两种技术,分别是语音增强(SpeechEnhancement,SE)[3][4]和语音可懂度增强(Speech Intelligibility Enhancement,IENH)[5][6]。其中语音增强应用于远端,目的是去除(或分离)远端语音中的噪声,得到干净的源语音,从而提高语音质量。但该技术只能消除远端说话人所讲语音的噪声污染。如果近端处于嘈杂的环境中,听音者将同时接收到远端传来的源语音信号和不可避免的近端噪声。在这种情况下,在移动设备输出前修改语音信号的表达形式及声学特征,使其不易被近端噪声掩盖,提高使语音信号可懂度,从而提高信息交流效率的技术称为语音清晰度增强。
1.2国内外研究现状
语音可懂度增强技术(IENH)已经发展了几十年,它的发展与语音通信技术的快速发展和现代化密切相关。根据不同的语音特征调优策略,IENH算法大致可以分为两大类:基于固定规则的IENH算法和数据驱动的IENH算法。早期的研究中,学者们使用声学的先验知识来构建修改语音信号的固定规则。随着现代社会大数据的积累、硬件设备的升级更新和统计学的发展,基于数据驱动的IENH方法也开始崭露头角。下面会分别就这两种方法的研究历史进行简要介绍。
1.2.1传统语音可懂度增强方法
1978年,当Lim使用谱减法对语音进行降噪时,语音质量在降噪增强后有所提高,但语音可懂度却没有提高[8]。1976年和1978年,美国马萨诸塞大学的Niederjohn研究了语音信号中第一、二共振峰与语音可懂度、质量之间的联系,为提高低信噪比情况下的语音可懂度,提出了一种算法[9]。指出第二共振峰主要表达有助于提高语音可懂度的信息,相对的,第一共振峰对于着重于语音增强任务的目的,即提高语音质量和自然度。其建议使用高通滤波器和快速谱幅压缩压缩方法来增强语音信号的可懂度。
1994年,Conway提出了一个语音可懂度增强的方法框架[10],该方法通过增强语音信号共振峰、高频部分及弱语音部分来增强语音可懂度。随后,1996年,Niederjohn等人[11]指出语音的质量与可懂度是语音信号相对独立的两个特性,改善语音可懂度的根源在于加强语音信号中感知相关的声学特征,如第二共振峰、基频和清浊音分布。
第2章基础理论分析与关键技术介绍
2.1基于声码器的特征转换模型
基于声码器的特征转换模型,其中转换的特征由声码器分析获得,因此声码器分析音频信号的性能将决定IENH算法的理论上限,声码器导致的信号失真是无法避免的。声码器对语音信号的分析运算其基于线性预测算法[41][42][43]。并且随着学者们对声码器研究的不断进展,涌现了许多性能优异的完整声码器系统,如最具代表性的STRAIGHT声码器[44]和WORLD声码器[29]。现在常用于智能语音领域的研究,如语音合成、语音转换等任务中。STRAIGHT和WORLD声码器由于其余说话人无关的普适性,在不依赖说话人身份的任务中发挥着重要作用。这两个声码器除了自身的不断更新外,还针对强实时性任务提出了Legacy-STRAIGHT、TANDEM-STRAIGHT等版本。这类声码器的声学信号特征分析与合成的表达方式可以概括为图2-1,语音信号将被分解为三个特征:频谱包络系数(Spectral Envelope Coefficient,SEC),基频(F0),非周期成分(AP)。其中SEC表示信号能量分布特性,F0和AP表示信号频率分布特性。由图从左到右可见,在语音分析阶段,语音信号被拆解为SEC、F0、AP三种特征,在语音合成阶段,声码器再将这三个特征合成语音信号。图中的黄色方框表示特征转换,IENH任务将修改上述的三个特征(不一定全部修改),如将正常语音的特征转换为Lombard语音的特征,再进行合成,就可以由正常语音转换为Lombard语音。
2.2基于深度学习的语音可懂度增强算法
2.2.1基于深度神经网络的语音可懂度增强算法
在过去的十年里,深度学习技术显著提高了许多有监督学习(数据驱动)任务的性能,如图像生成、自然语言处理、语音领域的语音转换、语音识别等。深度神经网络也显著提高了语音可懂度增强的性能。本节简要介绍了用于语音可懂度增强的深度神经网络的类型:深度神经网络(DNN)[21]、长短期记忆人工神经网络(LSTM)[27]。
(1)Deep Neural Networks(DNN)
深度神经网络(DNN),是具有多个隐藏层的前馈神经网络(Feed ForwardNeural Network,FNN),DNN模型由一层输入层、一层输出层和多层隐藏层组成,其中每层包含多个单元。其在很多深度学习相关领域的应用中都表现出卓越的性能,比如:图像、语音、自然语言处理、视频、多模态等领域。DNN的深层结构使其的特征提取能力具有鲁棒性,学习能力出色,利用DNN能够建立Lombard语音和干净语音之间的非线性映射函数。
芬兰阿尔托大学博士研究生Shreyas Seshadri在2019年提出的基于DNN的IENH方案,网络的输入最小长度为3帧[26],语音特征中部分MCEP与F0参与特征映射。
第3章 基于噪声等级自适应的可懂度增强算法 ................................ 23
3.1 引言 ................................... 23
3.2 噪声等级自适应的特征转换框架 ........................ 25
3.3 基于优化 STARGAN 的可懂度增强网络 ............... 26
第4章 基于多任务学习的噪声自适应可懂度增强算法 .................... 40
4.1 引言 ................................. 40
4.2 噪声自适应的特征转换框架 .............................. 41
4.3 多任务学习的可懂度增强网络 ............................. 43
第5章 噪声自适应语音可懂度增强技术的应用 ................................ 57
5.1 引言 ..................................... 57
5.2 系统设计 ......................................... 57
第5章噪声自适应语音可懂度增强技术的应用
5.2系统设计
本文中可懂度增强语音的生成主要通过采集远端的语音音频估计远端噪声等级,采集近端噪声音频,针对现有的语音可懂度转换框架灵活度不足、生成的Lombard语音相对平稳等问题,导致不足以满足实际复杂通信需求的问题使用本文提出的基于多任务学习的语音可懂度增强方法D2StarGAN进行远端源语音声学特征映射,如图5-1系统整体设计图所示,整体系统设计与实现主要分为五个过程。
(1)远端说话者音频采集框架,使用语音可懂度增强的语音聊天系统采集远端说话人发送的音频;
(2)语音分离阶段,将远端语音分为远端噪声语音和干净语音作为源语音;
(3)在声压级提取阶段,我们测量近端噪声音频与远端噪声音频的声压级,并标记为固定标签c、c';
(4)在语音特征提取阶段,使用WORLD声码器从源语音与近端噪声信号中提取声学特征;
(5)在预处理阶段,我们将所有特征标准化,然后连接远近端噪声等级、源语音特征和近端噪声特征;
(6)在特征映射阶段,利用远端和近端噪声等级与近端噪声声学特征作为映射输入,将源语音特征映射为目标增强语音特征;
(7)目标语音合成阶段,WORLD声码器合成目标增强语音,输出目标增强语音。
第6章总结与展望
6.1研究总结
在现代社会互联网技术的迅猛发展下,语音通信技术作为人类交流沟通的重要方式已成为现代社会中不可或缺的一部分。但在语音信号采集、存储和传输过程中,通信技术也面临着越来越高的要求。现代化的生活环境中,人们无法避免地受到来自周围环境的噪声干扰,比如环境噪声和嘈杂人声。这将严重影响通信质量,降低交流效率。因此,研究如何有效地从非目标音频信号中提高目标语音信号的感知效果,提高通信效率至关重要。本文针对适用于收听阶段噪声抑制的语音可懂度增强(IENH)技术展开研究。
为了保持增强语音的自然度,一种数据驱动的方法正受到越来越多的关注,这种方法的灵感来自于一种名为Lombard效应的人类发声机制[15]。环境噪声在掩盖语音信息的同时,会影响说话者无意识的改变说话风格。使用数据驱动的方法利用数据学习和建模正常语音与Lombard语音之间的语音风格转换(SSC)规律。分析了现基于Lombard语音的特征转换模型存在的两类问题,一方面现框架针对复杂远近端噪声情况灵活度不足,另一方面生成的Lombard语音可懂度在低信噪比时仍不足,进而导致使用现有框架生成的Lombard语,在某些情况下语音质量与可懂度严重下降。针对上述挑战,本文主要贡献为:
(1)基于噪声等级自适应的可懂度增强算法。首先根据现有Lombard数据库中,研究Lombard效应与噪声等级约束规律规律,针对实际生活中现有的语音可懂度转换框架不足以满足实际复杂通信需求的问题,提出了一种基于远近端噪声等级自适应的语音可懂度增强方法,结合生成对抗网络与自注意力机制优化映射。通过声压级获得远近端噪声等级,以此为条件应用合适且准确有效的映射模型,预测符合近端噪声等级的声学特征。使用声码器合成增强语音输出,提高近端语音的可懂度。
参考文献(略)