计算机硕士论文代写:BERT土木工程问题系统测试研究

发布时间:2026-04-17 11:29:02 论文编辑:miaomiao

这是一篇计算机科学与技术的硕士论文代写范文,知识图谱;问答系统;实体关系抽取;BERT;Transformer;深度学习;为研究论点。在本文中的信息抽取模块,本文介绍了一种联合信息抽取框架CivilWoSpERT,其基 于Transformer,并使用了词编码平均方法融入了领域词典的嵌入表示(Embedding),提 出了基于子序列片段(Span)为基础的命名实体识别和关系抽取框架。模型的核心在于针 对土木工程领域的特殊性而特殊设计的词晶格嵌入表示方案(Lattice Embedding)、相对 位置嵌入表示(Relative position Embedding)等额外信息的嵌入。

目录

摘要

ABSTRACT

1 绪论

1.1研究背景和意义

随着土木工程领域信息化建设的发展,越来越多的信息化应用和服务被提出和实践。 目前在土木工程设计施工阶段,项目碎片化的管理方式使得土木工程项目的各方实施人员 的信息应用和交流的效率十分低下,日益复杂的土木工程设计流程对其管理和信息化提出 了要求。为了提高土木工程设计施工各阶段的整体生产经营效益以及促进土木工程行业的有效转型,有必要进行土木工程行业的信息化建设。建筑信息模型(Building Information Modeling,BIM)技术[1]的出现为传统以二维图纸为设计基础的土木工程设计模式带来了新的创新,其打通了土木工程的产业链中的各阶段数据,并提供了一个可供同步协作的专 业设计平台,为土木工程信息化建设提供了有力的技术支持。BIM技术主要是在施工各阶段对施工的决策、设计、招投标、施工等流程进行全周期的模型创建,并以此为基础进行相关信息管理。自从“十二五”《建筑业信息化发展纲BIM技术的发展。在这样 的土木工程信息化快速发展的基础上,刘新男等[4]通过对“知乎”中的社区问答进行统计, 发现了针对土木工程和BIM的相关提问词频是非常巨大的,大量从业人员对土木工程领域的问答具有需求。


硕士论文代写


1.2 国内外研究现状

目前,大量应用于自动问答技术的方案是基于知识图谱的,知识图谱是对领域知识的 结构化存储,如“桥台是一种支承结构”这句土木工程领域非结构化文本,其可被表示为 (桥台,是,支撑结构)这样的三元组。这种三元组的表示方法可以协助计算机进行更为语义化的理解,在进行基于知识库的问答(Knowledge base Question Answering,KBQA) 问答时,其问题解析、查询、推理也更为便捷高效,其问答流程可具体为如图1-1形式。信息检索方法(Information Retrieval)首先提取用户自然语言问题中的实体提及关键词,并将其链接到图谱中的主题实体,将与该主题相关的子图返回作为候选答案集合,通 过对查询问题和子图候选答案的特征比对,排序返回最终的答案。该方法大致分为基于特 征工程的方法和基于表示学习的方法。韩朝等[10]提出了基于粗糙集知识发现的中文 问答检索方法,Yao X.等[11]采用了特征工程进行句法分析,提取问题词、问题焦点词、主题词、中心动词等特征,并形成相应的特征图进行子图查询。随着表示学习的逐渐发展, 部分学者使用表示学习方法将问句和答案转化为统一语义空间的句子向量,进行向量的计算匹配。Bordes A.等[12]首次将答案和问题映射到同一高维的语义空间,通过向量计算达 到嵌入表示和查询的目的。Chen Y.等[13]通过使用注意力机制计算问题和答案的相关性,提升复杂问句的处理能力。另外,也有一些其它方法出现,这些方法尝试了从知识库和QA语料中学习模板,并 利用模板将问句拆解成规则逻辑模板形式[14-16]。Talmor A.等[17]将一个复杂问句通过算法转化成几个简单的问句,并从这些简单问句查询的答案中找到最终的复杂问句答案。

1.3 研究内容和组织结构

本文在土木工程智能问答系统的构建研究主要是采用四步走的策略:自动化构建问答 数据集方法研究、自动化构建知识库方法研究、智能问答方法研究以及最终的问答系统实现。前两步骤主要是采用了现如今Transformer、BERT等主流深度学习NLP模型进行构造,而后两步则主要侧重于工程实现,对前沿的研究方法进行系统层级的实现与落地。如图1-2所示,展示了本文的组织结构,第二章数据集的定义与构建是整个文章模型和系统实现的数据保证,第三章、第四章、第五章主要是第六章系统实现的技术支撑。第二章针对本文所研究的领域特殊性,对数据集的人工构建进行详细地说明,这其中 包括了信息抽取相关数据集以及问答句对相关数据集。这些数据集有的是通过互联网直接 获取的,有的则是人工获取之后再逐条进行人工标注的。第三章对土木工程领域的问答句对生成技术进行了详细的描述。这是整个问答系统构 建的第一个研究重点,其主要针对土木工程领域问答句对数据量较少为切入点,进行自动 化构建技术层面的研究,目标在于能够采用自然语言生成模型生成大量高质量的土木工程 领域问答句对数据集。

2 数据集定义与构建

2.1 信息抽取相关数据集

在信息抽取研究的实践方面,建立在杨明松[59]等构建的一种面向ACC的工程设计规范和设计模型表达与存储方法的基础上,本文针对性的构建了土木工程领域 预训练文本、开放域信息抽取文本、土木工程领域信息抽取文本三种数据集。其中,土木工程领域预训练文本是未标记的无监督数据,其被调整为符合BERT训练方式的上下句格式;开放域信息抽取文本是整理自开源数据集的标记数据,其标记了可能存在于一条语料中的实体子序列片段Span类别和边界;土木工程领域信息抽取文本是小组内人工构建的 用于训练模型的命名实体识别和关系抽取(NER&RE)联合信息抽取数据集,其标注了 语料中可能存在的实体及实体间关系,格式为“JSON”形式,实体边界和实体类别使用 index索引和其相应类别索引进行标记。

2.2 问答句对生成相关数据集

在问答句对生成模型数据集构造的实践方面,本文构建了3种数据集:(1)人工标 注的中文土木工程领域问答句对数据集,共计4,000条;(2)通过互联网爬虫技术获取 的开放域中文问答句子对数据集,共计400,000条;(3)土木工程规范数据集,共计800,000问答句对生成所使用的训练数据集中,土木工程领域问答数据集主要是对模型的编码 解码模块进行训练,使得模型具有土木工程领域问答句对的生成能力;开放域问答句对数 据集主要是在模型分层训练机制的基础上,提升模型的句法和语法生成能力;土木工程规 范数据集主要用于对大规模预训练语言模型进行中下游微调,使得模型具有对土木工程领 域的先验知识嵌入能力。同时,本文对该部分三种数据集的标记序列(token)分布比例进行了研究,如表2-7 所示,其中token长度大小与模型的生成能力具有一定的相关性;统计该比例,也是为了对于问答句对生成模型评估的测试集,本文主要使用了人工构建的80条土木工程领域问答句对数据,用于测试模型最终在问答句对生成能力方面的表现。通过机器指标评价 和人工评价两方面对问答句对生成的效果进行最终测试。使模型最终确定对训练更具适应性的良好参数。

2.3 本章小结

本章主要对全文的系统和模型所涉及的数据集进行介绍。信息抽取相关数据集主要完 成对联合抽取信息模型的训练,问答句对生成相关数据集主要是为问答句对生成模型准 备。通过自动及半自动的数据集构建方法,即完成了全部问答系统模型的准备阶段工作。 以下部分本文将对具体的模型方案以及智能问答系统方法和搭建进行详细介绍。

3 面向土木工程领域的问答句对生成技术

3.1 Transformer模型

3.2 BERT语言模型

3.3 问答句对生成形式化定义

3.4 问答句对生成任务模型描述

3.5 生成问答句对的训练和推断

3.6 实验结果

3.7 分析与讨论

3.8 本章小结

4 面向土木工程领域的联合信息抽取模型

4.1 模型介绍

4.2 模型训练

4.3 实验结果

4.4 本章小结

5 智能问答系统问答方法

5.1 概述

5.2 基础知识库与知识库的扩充

5.3 子序列片段基础的命名实体识别

5.4 属性映射

5.5 实验

5.6 本章小结

6 智能问答系统设计与实现

6.1 智能问答系统需求分析

现代我国土木工程建设高速发展,已经成为衡量我国现代发展管理的重要标准之一。 在世界发展史上,随着第二次世界大战过后,现代科学技术持续高速发展,使得土木工程 建设进入了一个新的时代。现代土木工程建设主要有以下几个新特性:工程趋于功能化、 城市趋向立体化、交通迈向高速化等。同时,土木工程在材料、施工与理论三方面也出现了新的趋势,材料质轻高强化、施工工业规范化、理论研究精密化。而随着工业4.0时代的到来,当代土木工程建设又将迈入一个新的时代。在部分西方发达国家中,土木工程工 程行业已经逐步迈向了行业精英化的状态。以德国为例,大量智能化、机械化的设备已经取代了传统的人工劳作,而BIM技术、AR技术、VR技术、3D打印技术等相关新型技术也已经逐步应用。我国在改革开放后,迎来了土木工程行业的大发展,大量丰富多彩的建筑流派从外界流入了国门,与国内的传统建筑风格发生了思想的交融碰撞。直到2020年末,中国已经完成的世界级工程代表有:港珠澳大桥、天眼射电望远镜、三峡水利枢纽、青藏铁路、北京大兴机场、杭州湾跨海大桥、广州塔、台北101。新中国成立以来,各大世界级工程如雨后春笋般出现在这片土地上,发展十分迅速。同时,我国现阶段的土木工程行业发展仍 存在大量问题亟需解决大而不强的状态还普遍存在,现代工程施工技术和机械设备仍大 量的需要国外引入,而庞大的设计人员的从业水平也亟需提高,这些问题集中暴露出了我 国现代土木工程行业的短板。为了适应新的时代潮流,土木工程建设信息化必将是中国未来土木工程行业走向的一 大趋势。在当下大量土木工程建设和管理服务任务的基础上,如何安全、高效、标准的推 动土木工程建设发展成为当前的热点。因此,发展城市土木工程信息化建设变得尤为重要, 其可有效地帮助人们对土工程建设和运营进行决策支持、信息高效传递、标准化管理等。在土木工程建设领域,大量现存的标准和规范都是保存在文本型的规范和书籍中的, 而对于互联网上的电子规范,其本质也是非结构化的文本的。在工程实践中,无论是在设 计阶段还是施工阶段,都需要广泛的标准和规范作为其依据,大量的设计施工和设计人员 需要通过查阅标准和规范集来获取这些知识内容,而非结构化文本的检索效率低下,且不 具备语义检索的特性。在这样的背景基础上,在该领域构建基于知识库和自然语言处理语义理解的自动化智能问答系统就显得尤为重要。因此,本文以土木工程领域的问答为应用 点,构建了一个以土木工程知识图谱作为知识库,大规模预训练语言模型作为隐含知识嵌 入表示和语义解析模块的自动智能问答平台。

6.2 智能问答系统建模

面向土木工程领域的智能问答系统主要包括了管理员和使用人员两种角色,其主要实 现智能问答、知识图谱展示以及规范文本搜索的功能。使用人员用户使用系统可快速提出 领域自然语言问题,系统自动解析问题所涉及的语义信息并通过知识库的检索返回正确答 案,其主要包含了提出问题、查看语义解析、查看返回答案、查看对应知识库、查看规范 检索文本、编辑个人信息等多个用例;管理人员主要是对系统的知识库、文档数据库以及 用户权限进行管理和维护。其主要包含了问题类别信息管理、知识库管理、规范存储管理、 用户信息管理等主要用例。

6.3 智能问答系统的构建技术路线

(1)数据层:该层是整个系统数据采集、构建、整理的基础模块,其包含了数据采集器、数据标记与预处理器、结构化数据与非结构化数据处理器等部分。其中,数据的采集是基于本文构建的Python爬虫和OCR代码实现的,该模块的自动化构建技术是本文 800,000条土木工程领域无监督文本、开放域问答句对文本以及40,000条开放域命名实体 识别文本的基础支持模块,网络爬虫技术主要使用了基Python的XPath、JSON等技术实现库;对于土木工程领域标准和规范文本,主要是采集自土木工程网站、土木工程百科、 土木工程教材、土木工程规范等。在采集到这些数据后,通过人工,在领域专家的帮助下, 对非结构化的文本数据进行数据标记和预处理,形成了如本文第二章所示的多个数据集。另外,在数据标记任务处理中,本文还就领域特殊标记任务的特殊性,构建了基于HTML、 Vue.js、JS、BootStrap的文本实体关系标记系统,其界面如下图6-5所示。

(2)结合开放域数据与土木工程数据的知识图谱构建层:根据数据层采集整理的无

监督数据,结合多个实体关系抽取公开数据集进行筛选整合,结合多名领域专家,构建了 土木工程领域的规则和标准,该标准的具体描述如本文第二章描述;这些分类规则和标准被存储在了以JSON为基础的文档数据库中,当模型进行NER和RE识别时,会从数据库中对这些标准和规则进行读取;除了定义这些标准,本文还对该标准构建了简单的示例 集,该示例集可帮助相关人员快速上手数据标记任务,更加详细的理解其标记内涵。在问答句对的数据集构建方面,系统模块整合了Seq2Seq、UniLM、Transformer、BERT等相关前沿技术,通过这些技术的应用,可以快速生成大量领域内自然语言问答句对。在结构化知识获取方面,则根据本文第四章所构建的CivilWoSpERT模型,快速进行命名实体识 别NER和关系抽取RE识别,从而自动构建领域知识三元组,并形成一定规模的领域专 有词汇词典;对于Span-based命名实体识别,模块还集成了一种数据增强方法,该方法在上文中也进行了详细说明。总体上,这些自动化构建的问答句对被存储在了文档数据库中,三元组结构化知识则被存储在了Neo4j图数据库中,相关描述属性被保存在了 Elasticsearch文档数据库中。该层所具有的土木工程领域知识库为上层的问答系统提供了应用数据的支持。

(3)知识图谱问答层:首先通过冷启动器在下层获取大量的构建好的知识图谱问答 语料,数据增强方法对数据的扩充在一定程度上增强了模型的NER任务Span边界识别能 力。其次通过NER识别和属性映射完成自然语言问句的语义解析,对于关系属性描述, 系统会调取Neo4j中的结构化数据进行查询,对于属性详细文本描述信息,系统会对 Elasticsearch进行数据检索。该层为上层的应用层提供了智能问答系统的核心业务能力。

(4)应用层:该层主要是在以上三层的基础上进行的封装,形成了以Web为主体形 式的交互系统。Web端主要实现了土木工程领域的知识问答的人机交互功能,其同时也 对移动端进行了适配,并提供了一些查询检索等相关功能API。页面交互方面主要采用了 Vue.js、Echart等主流前端技术,其提供了高效快捷简单可用的展示功能。

6.4 本章小结

本章首先对“CivilAutoQA”智能问答系统的系统业务需求、系统功能需求、系统总体结构设计、系统功能流程、系统技术架构等部分进行了阐述,接着对所构建的系统进行 了简单的使用测试,使得系统能够有效地融合前文所提及的多个深度学习模型,有效地对 知识抽取所构建的知识库进行应用。针对不同功能的简单测试,表明系统可以正常运行, 性能稳定,达到了预期的应用效果。

7 总结与展望

7.1 工作总结

本文的研究建立在土木工程领域的基础上,依托于西安理工大学智能计算所、土木工 程工程信息化国家重点实验室(中铁一院)的支持开展研究。基金支持方面,其属于国家自然科学基金项目(51878556)、国家重点研发计划项目(2018YFB1201500)、陕西省 自然科学基金项目(2016JQ6041)、土木工程信息国家重点实验室基金项目 (SKLKZ19-05)。该智能问答系统的研究目标在于构建中文土木工程领域知识图谱以及实现一个辅助设计人员进行知识问答的智能问答系统。目前,现有的中文土木工程领域实际场景和研究中还存在着如下的一些典型问题:

(1)目前现存的知识图谱大多集中于开放域,针对土木工程领域,严重缺乏公开的领域知识图谱或是相关语料数据。

(2)目前现存的问答、命名实体识别(NER)、关系抽取(RE)数据大多是集中在开放域的,其大量来自于互联网上的大数据,而对于土木工程领域,这样的数据集需要大量的人工标注参与,这样极度依赖领域专家参与的工作导致了领域NLP相关数据集的严重缺失。

(3)现如今存在着土木工程相关设计人员对领域知识需求大和该领域知识资源共享不足问题之间的矛盾,面向该领域精准的智能服务平台还较为稀缺,相关设计人员的需求 得不到满足,针对该领域的教学任务的需求也无法得到有效满足。针对以上存在的问题,本文主要完成了以下部分的研究内容,逐个解决该领域智能问 答系统构建的痛点。

(1)面向土木工程领域的问答句对生成技术与相关数据集的构建本文在该领域问答语料不足的基础上,提出了一种自动生成问答句对语料的深度学习模型,并在该模型构建的同时,通过人工构建了一个4,000条的问答数据集,并汇总整理 形成了800,000条的土木工程领域无监督数据语料。该模型可从预训练语言模型进行领域迁移,获取大量隐含知识表示,并在下游人工构建的问答句对语料中进行学习,最终根据 互联网上广泛存在的领域知识非结构化文本,进行问题的生成,从而形成问答句对数据, 大量扩充问答句对数据集。该数据集一方面可以解决现如今深度学习模型对于监督数据的 依赖问题,另一方面,可利用该数据集辅助进行该领域的教育教学指导任务。

(2)面向土木工程领域的联合信息抽取模型对于智能问答系统所依托的知识图谱的知识库构建问题,本文提出一种基于Transformer的联合抽取模型,该模型可有效地从领域非结构化文本中提取三元组,形成 结构化知识进行存储。在该模型的具体设计方面,本文率先提出了一种融合了Lattice词 晶格机制和相对位置嵌入机制到Transformer为基础的模型中,促使模型能够更为有效地获取字词间的注意力,以形成更好的知识嵌入表示。相关实验也反应了本文的模型在各个 改进点上的效果提升。

7.2 未来工作展望

在本文中的信息抽取模块,本文介绍了一种联合信息抽取框架CivilWoSpERT,其基 于Transformer,并使用了词编码平均方法融入了领域词典的嵌入表示(Embedding),提 出了基于子序列片段(Span)为基础的命名实体识别和关系抽取框架。模型的核心在于针 对土木工程领域的特殊性而特殊设计的词晶格嵌入表示方案(Lattice Embedding)、相对 位置嵌入表示(Relative position Embedding)等额外信息的嵌入。领域二次预训练和任务二次预训练也被应用于模型用于增强模型在特定领域的推断能力,实验证明了该模型在土 木工程领域优秀的信息抽取能力。未来,小组将对模型进行更强有力的结构化数据(图谱 等)嵌入,进一步提升模型的信息抽取能力。在问答句对生成模型研究方面,未来将在以下几点进行后续研究。首先,本文的模型 支持较短文本的语义获取能力,可以有效地生成自然语言问题,对长文本的研究实验还没 有进行。未来,在土木工程领域的自然语言的生成可以在长文本的情况下进行探索。其次, 本文生成模型的本质是基于概率的自然语言生成模式,它没有纳入土木工程领域中常见的 百科知识信息,这种知识通常是结构化或半结构化的,如土木工程领域知识图谱。后续, 可以将某些先验知识融入到土木工程领域的自然语言问题的生成中,使生成的问题更具有 实用价值和参考意义。

致谢

参考文献



提交代写需求

如果您有论文代写需求,可以通过下面的方式联系我们。