基于俄语军事新闻数据集的语音关键词检测探讨

发布时间:2022-04-19 19:49:31 论文编辑:vicky

本文是一篇俄语论文,本研究的主要学术贡献归结如下: (1)  构建了俄语军事语音识别语音语料库、文本语料库和发音词典。采集了 200 小时的带标注俄语军事语音语料,并采用两级编码方式存储和命名;军事新闻类、通用新闻类文本语料规模各 500M,以俄罗斯军事新闻网站和通用新闻网站为数据源,经爬虫程序采集、文本过滤清洗后生成;建设了包含 86294 词形式的俄语军事词汇发音词典,为俄语公开源多模态军事语料资源建设提供了实证数据支持。


第一章  绪论


1.1  研究背景

当前,多媒体采集设备日益普及,图像、视频、音频等多媒体数据已经成为人们获取与传播信息的重要资源。随着多模态数据不断增长堆积,研究特定领域信息关键点的筛选与提取技术,必将有助于冗余信息过滤和有价值信息的精简筛选,从而实现多语言多模态网络数据的高效处理。对于文本数据而言,可以通过搜索引擎查询文档中特定关键词,但语音数据中蕴涵的关键信息则无法通过直接的搜索匹配而发现。

近年来,新一代人工智能理论和技术在多感知领域取得突破性进展,作为人工智能的重要领域之一,自然语言处理、语音识别和信息检索技术交叉融合,为文本到语音的关键信息搜索提供了理论和算法支持。强大的算力和分布式的存储架构降低了数据存储的成本,为海量数据的挖掘分析和智能处理提供了有力保障[1]。人工智能新技术的应用领域不断拓展,已渗透到与日常生活息息相关的诸多应用场景中。比如以苹果 Siri 为代表的个人数字助理、亚马逊智能音箱等设备相继推出,并逐渐进入普通大众的生活。在此背景下,语音关键词检测和唤醒技术需求大增,已成为语音识别研究领域重要应用技术之一,在实时对话、命令控制、语音拨号、电话监控、语音文档检索等方面具有广泛的应用前景,成为当前学术界和产业界的一个研究热点。

军事应用作为推动智能科技进步的重要力量,同样对关键词检索任务具有现实需求。随着信息时代背景下军事通信的频繁流通,军事数据的体量呈指数级增长,对军事领域信息的要点提取、高效管理已成为军事智能化重要一环。构建针对垂直领域的关键词检测系统,可以为舆情分析、军事情报研判赋能,推动人工智能军事化应用的发展进程。

中俄两国互为近邻、唇齿相依,近年来双方持续开展国际合作与对话,全面战略协作伙伴关系不断深化。在外交领域,两国继续切实推进“一带一路”倡议和欧亚经济联盟对接合作;在上海合作组织框架内,两国积极展开联合指挥作战和军事演习,军事信息交流和军事技术合作不断加深。开展语言外交是发展两国新时代全面战略协作伙伴关系的重要环节,有利于进一步提升国家软实力,掌握国际话语权,是拓宽国际视野、了解对象国军事文化、洞察国际军事动向的必要保障。语音是军事通信第一形式,军事关键词是军事交流和合作的信息载体,俄语语音关键词检出对中俄军事外交领域信息自动化处理而言十分必要。本研究相关成果不仅能够直接服务于俄语语音信息处理任务,也将在国防通信、情报搜集与整编领域发挥重要作用。


1.2  研究内容

(1)  俄语军事语音语料库和发音词典的构建:大规模语音语料库和文本语料库是语音处理任务的重要资源。采集俄语语音数据,制定相应的采集标注规范,建立 200 小时军事新闻的俄语标注语音数据库和 1000M 的军事和通用领域俄语新闻文本;基于 SAMPA 俄语音素集设计构建涵盖 86294 个词形式的俄语军事词汇数据集,为俄语声学模型和语音识别提供基础资源和数据支撑;

(2)  俄语连续语音识别:语音识别是索引构建、路径搜索等后处理步骤的基石。阐述了连续语音识别流程,基于俄语发音特性及军事文本特征,选择用以区分和表征俄语重音和音质的声学特征参数构建特征模板,以 TDNN-F 建模俄语声学特征,引入 RNN 模型对语音识别结果进行重打分,以提高解码精度,优化系统性能;

(3)  俄语语音关键词检测:索引构建、路径搜索是后处理模块。以语音识别结果为搜索空间,采用加权有限状态机(Weighted Finite-State Transducer, WFST)方法和倒排索引技术,基于 TDNN-F 语音识别系统建立包含时间信息和置信度的索引,得到各自的检索结果。基于 GMM 和 TDNN-F 语音识别系统之间的互补性,对二者检索结果进行时间融合和置信度重估。以漏警率和虚警率为测试指标,探索了不同阈值下关键词的检测性能,并研究了音节个数对查询效果的影响;

(4)  关键词检测实验系统设计:确定系统组织结构,设计功能模块,在 Kaldi 平台设计研发俄语军事语音关键词检测交互系统。最后,以不同时长的音频集为数据基础,评估训练数据规模与检测性能的相关关系。实验表明,数据规模的增加提升了系统的查全能力,降低了误检几率,进而提高了俄语军事语音关键词的识别与检出效果。


第二章  语音关键词检测研究综述


2.1  语音关键词检测概述

关键词检测又叫做唤醒词检测(Wake  Word  Detection),也称为热词检测(Hot  Word Detection),是语音识别研究的一个重要分支,广泛应用于语音设备控制和语音检索中。根据检索目的和形式的不同,语音关键词检测可分为语音检索语音(亦称语音样例检索)、文本检索语音、语音检索文本等。当前,关键词检测普遍采用机器学习算法,但在不同的应用场景下通常具有不同的检索要求,相应的实现方法也有所差别。

关键词检测技术主要分为 Keyword Spotting(KWS)和 Spoken Term Detection(STD)两类[2]。KWS 面向轻量级语音设备控制应用,此类问题关键词固定,追求的是低内存占用,低资源消耗,低计算复杂度下检测的高准确率;STD 则应用于音频文档中关键词的定位和查询,搜索对象为具有一定规模的领域语音库,查询词列表根据用户需求动态变化。根据检测任务的不同,STD 进一步归类为基于文本的查询(Tb-STD)、基于样例的查询 (QbE-STD)  系统和基于语义样例的查询(Semantic  QbE)。由于 Semantic  QbE 和 Tb-STD采用思路相同,以下主要对基于语音样例、基于大词汇量连续语音识别和端到端的关键词检测方法进行描述。

关键词检测技术分类如图 2-1 所示。

俄语论文怎么写


2.2  语音关键词检测研究进展

2.2.1  国外研究进展

语音关键词检测研究始于上世纪六十年代,前苏联科学家提出利用算法将两个不同的语音在时间轴上进行对准的思想。1973 年,Bridle 等人采用模板匹配方法对“给定词”进行识别[11],语音关键词检测任务开始走入研究者的视野。1977 年,Christiansen  通过  LPC技术从连续语音流中发现关键词,且首次提出了关键词检测的说法[12]。同一时期,美国国防高级研究项目计划局(DARPA)建立了多个发音人的 1000 词语料库,并将其用于语音识别实验的性能评估。KWS 系统实现了从固定数据集中检出预定义的关键字的功能[13]。

20 世纪 90 年代以来,陆续开发了基于自动语音识别的语音关键词检测系统[14]。Weintraub 等人提出了第一个基于连续语音识别的关键词检测系统,采用两阶段方式,通过语音识别器将测试集转换成文本库,再通过文本检索技术检出查询词。2004 年,Saraclar[15]等提出基于 Lattice 的方法,拓展了语音识别的解码及搜索空间,提高了检测系统的容错性。随后,Mangu[16]提出了混淆网络生成算法来简化 Lattice 的路径结构。为实现关键词在音频的精确定位,早期主要采取将 Lattice 和时间状态图结构合并、强制对齐来实现融入位置信息,时间因子转换器(TFT)的提出为文本关键词的时间定位提供了准确快捷且行之有效的方案。

深度学习技术被引入语音处理领域后,神经网络模型广泛应用于关键词检测研究。相关研究发现,基于深度神经网络提取的瓶颈特征[17]可以有效应用在基于模板匹配、端到端的关键词检测方法中。He Y[18]等提出了序列到序列的关键词检测流式模型,采用端到端语音识别中的 RNN-Transducer 架构,分为编码、预测和联合三个网络模块,利用 RNN 编码高层声学特征,构造语言模型计算预测标签间的转移概率,最后融合前两个模块表示做出预测。注意力机制[19]、预训练是常用的模型优化方法。


第三章  基于俄语军事语料的连续语音识别 ................................... 15

3.1  俄语语言特征 ................................ 15

3.1.1  俄语发音特点 ........................................ 15

3.1.2  俄语军事文本特点 ................................... 16

第四章  融合系统评分的俄语语音关键词检测 ............................... 35

4.1  加权有限状态机理论 ....................... 35

4.1.1  加权有限状态机的定义 ............................ 35

4.1.2  WFST 的相关操作 .................................. 35

第五章  俄语军事语音关键词检测原型系统 .................................... 47

5.1  系统设计方案 ..................................... 47

5.1.1  系统设计目标 ........................... 47

5.1.2  系统需求与功能 ............................... 47


第五章  俄语军事语音关键词检测原型系统


5.1  系统设计方案

5.1.1  系统设计目标

俄语语音关键词检测原型系统的设计综合第四章实验结果,基于 WFST 的 Lattice 生成和解码运算,设计开发可视化语音关键词检测平台,达到工程应用目的。系统设计的主要目标包括:

(1)  语音识别模型训练与解码。基于军事新闻语音集提取俄语声学特征,训练俄语语音识别模型,对测试集进行解码,保存生成的 Lattice 多候选格式文件。

(2)  建立倒排索引。以测试语料为语音库,基于 WFST 和时间因子转换器将 Lattice 转存为 index 文件。

(3)  设计系统 GUI。在 CentOS 系统上搭建 Python 环境,描述图形化工具各组件功能特性及其与 Shell 脚本程序的接口,设计俄语关键词检测原型系统交互界面。

5.1.2  系统需求与功能

基于俄语军事新闻数据集的语音关键词检测原型系统基本需求为,在交互式关键词检测平台,用户输入待查询的俄语军事关键词或字母序列,系统能够输出该单词所在音频文件列表,实现文本到语音的快速检索。具体功能包括:

(1)  检测功能

用户输入长度不等的查询词,经过预处理作为输入参数与倒排索引中的关键词进行匹配查询,以音频列表形式传递给 GUI 前端,给出该关键词在各音频的起止时间及置信度,便于用户精确定位。

(2)  音频读取功能

实现音频 ID 到音频路径的映射,用户可根据自己的需要对检出的语音文件进行随机播放,详尽听取音频文件的内容,并支持音频的上下跳转和暂停。

俄语论文参考


第六章  总结与展望


6.1  研究内容总结

本文立足于语音关键词检测任务在军队信息化建设和国防外交中的重要价值,瞄准俄语军事领域的音频文档自动化检索现实需求,基于军事新闻标注音频及文本数据集,综合运用俄语语言学、实验语音学原理和计算机应用技术,提出适用于俄语军事关键词检测的神经网络和机器学习算法,设计实现了俄语语音关键词检测原型系统。 本研究的主要学术贡献归结如下:

(1)  构建了俄语军事语音识别语音语料库、文本语料库和发音词典。采集了 200 小时的带标注俄语军事语音语料,并采用两级编码方式存储和命名;军事新闻类、通用新闻类文本语料规模各 500M,以俄罗斯军事新闻网站和通用新闻网站为数据源,经爬虫程序采集、文本过滤清洗后生成;建设了包含 86294 词形式的俄语军事词汇发音词典,为俄语公开源多模态军事语料资源建设提供了实证数据支持。

(2)  基于 Kaldi 架构搭建了俄语军事领域连续语音识别模型。通过对比 GMM、DNN、TDNN-F 的声学建模原理,提出使用 TDNN-F-HMM 建模俄语声学特征的方案;联合 N-gram语言模型和发音词典构建语音识别模型,辅以二次解码阶段的 RNNLM 重打分,在俄语数据集上表现出良好的泛化能力和识别性能,体现了神经网络建模语音信号和文本序列的优势,为俄语军事领域连续语音识别的声学模型设计提供了新方案。实验表明,基于TDNN-F-HMM+RNNLM 的俄语连续语音识别方法,在给定语音数据集上的词错误率为11.75%,相较于 GMM-HMM+4-gram 使词正确率提升了 5.03%。

(3)  利用加权有限状态机静态网络结构高效的解码能力,以 TDNN-F-HMM 在测试集上的识别结果为搜索空间,借助时间因子转换器在解码路径上添加时间信息,构建倒排索引,实现了基于 WFST 的语音关键词检索。根据 GMM 和 TDNN-F 声学建模的差异性特征,依据统计模型和神经网络建模与训练方法差异,选取结果对齐、分数融合等系统融合准则,利用一种融合系统评分的方法,有机地整合两套语音识别系统的输出结果,对给定关键词进行检测,相对基线系统在原始数据集上使虚警率降低了 2.3%,从整体上提升了语音关键词检测系统的性能。

参考文献(略)

如果您有论文代写需求,可以通过下面的方式联系我们
点击联系客服