基于军事知识图谱的问答系统_窦小强文档格式.docx

资源描述

基于军事知识图谱的问答系统_窦小强文档格式.docx

《基于军事知识图谱的问答系统_窦小强文档格式.docx》由会员分享，可在线阅读，更多相关《基于军事知识图谱的问答系统_窦小强文档格式.docx（5页珍藏版）》请在冰点文库上搜索。

基于军事知识图谱的问答系统_窦小强文档格式.docx

3.School

ofComputerScienceandEngineering,SoutheastUniversity,NanjingJiangsu211189）

Abstract：

Researchingquestionansweringsystemswithlarge-scalemilitaryknowledgeisoneofthewaytoimprovetheintelligenceandconvenienceofmilitarydecisionmaking.ThisPaperintroducesaquestionansweringsystembasedonmilitaryknowledgegraphwhichwasconstructedfrommulti-sourceknowledge.Inthesystem,naturallanguageprocessingtechniquesareadoptedtoachievequestionanalysis,andthegenerationandorganizationofanswerarebasedonintelligentinferencetechniques.Thesystemcananswermostmilitaryquestionsdirectlyandanswersomeofthequestionsininteractionwithusers.

Keywords：

QuestionAnswering;

KnowledgeGraph;

SemanticWeb

0引言

随着互联网中信息的爆炸式增长，通过搜索引擎检索结果已经越来越难以满足用户对确切答案的需求。

在这样的背景下，支持自然语言形式提问的问答系统成为当前国内外的一个重点研究方向。

问答系统具有能确切表达用户的知识需求以及用户友好的特点，从而进一步提高了知识获取的便利性。

当前的Web数据正在从大量的互相链接的网页数据和开放知识源逐渐演变为知识图谱的形式，为充分大量多源异构的知识，构建知识图谱成为知识表示和存储的一种重要方法。

知识图谱中用图的形式来建模现实世界中的知识，具体表现为RDF/RDFs三元组的形式，其中一、三元对应图中的节点，第二元对应图中的边，节点一般为概念或者实例，而边则为这些概念、节点之间存在的关系。

目前已经现存大量的知识图谱，如：

GoogleGraph"

〕、DBpedia[2\百度知心等，通过对知识图谱进行图操作，用户可以获取丰富的与所感兴趣的概念、实例有关的知识。

随着知识图谱资源的日益丰富，以知识图谱作为知识源的问答也成为自动问答领域的一个热点，研究基于知识图谱的问答技术，将极大地帮助人们从已有的知识中获取需要的答案。

各大搜索引擎也在研究使用基于知识图谱的技术提升用户的检索体验，如：

谷歌搜索引擎构造了GoogleGraph用于辅助搜索。

目前已经存在大量基于知识图谱的智能问答系统，这些问答系统旨在利用丰富的知识图谱中的知识，使不了解知识查询语言、不熟悉知识库内容的用户能够无障碍地用自然语言查找需要的知识B41。

AquaLog[5]使用了模板方法来对用户问题进行解析。

系统对句子做了浅层语法分析后，模板库中的规再进一步依据单词词性将句子切分为不同的成分，再根据问句中这些成分出现的先后顺序以及句中包含的某则些关键词、疑问词等特点用模板对问题进行分类，得到了中间二元组，这些二元组最终被映射成知识图谱中的二元组AquaLog在实体链接中加入了用户交互消歧的方式来选择映射关系，并记录用户的选择以及选择的上下文来从中学习，以增强系统关系链接的能力。

但是AquaLog缺乏对复杂问题的处理能力。

TBSL问答系统时依据对句法树的分析结果，结合领域无关词典自动生成了SPARQL模板，再通过RDF资源映射结果实例化SPARQL模板，从而达到查询解题的目的。

Xser®

是一个基于DBpedia的问答系统，该系统首先使用结构感知器算法和使用集束搜索算法得到最优的有向无环图，并用全局最优的RDF资源实例化有向无环图来进行问题理解o该系统未考虑对复杂问题的回答，需要大量的问答对作支撑。

FerrAndez凶等利用文本蕴含的方法实现了一个基于电影本体的西班牙语问答系统QCID,与其他基于机器学习的问答方法类似，该系统所需采集的问题数量随着知识库规模增大而急剧增长。

在国内，张克亮等闵提出了一个面向航空领域的问答系统，该系统按照知识图谱中的实体在用户问句中出现的顺序、答案的实体类型以及几种问句修饰词将用户问题分成了12类，每一类问题包含不同的巳知条件、未知条件和答案类型。

该系统假定用户输入的句子中词语与RDF资源名字一致，从而经过简单的RDF资源映射便可确定问题类型，进而实例化该类问题对应的SPARQL模板。

但是其对问题的分类方法简单，会出现多个意思相同问法不同的句子被分到了不同类别的情况。

杜泽宇廿°

］等实现了一个基于知识图谱的电商领域问答系统，该系统首先使用SVM算法对问题进行分类，然后通过语法分析得到中间三元组形式的语义槽，将语义槽的特点与问题类别结合生成SPARQL模板，再将中间三元组链接到RDF资源的结果实例化SPARQL模板，该问答系统实现了对复杂问题的解答。

在军事领域中，人们对于精确检索答案的需求更加强烈，构建军事知识图谱，并在其基础上，实现相应的智能问答，将极大促进军事决策的智能程度和便捷性。

本文在一个基于军事知识图谱的问答系统研发实践为基础上，总结了相关方法和技术。

首先介绍军事领域基于知识图谱的问答系统的特点，研发的难点，其次介绍构建军事领域的知识图谱的关键技术和环节，然后，介绍了军事问答系统的整体架构和问题理解、问题求解、答案生产等各个主要环节的相关技术，通过典型例了展示了系统的主要功能，最后进行了展望。

1军事问答的特点

与现有常见的开放领域问答系统相比，军事领域的问答系统具有显著的领域特点〔"

］，这也给军事问答系统的研发带来了难题。

与开放领域问答系统相比，军事领域问答的显著特点包括：

（1）与面向大众的开放域问答相比，军事领域的问题形式相对有限，亦即同样问题的问法的多样性少于开放域问题；

（2）与目前具备大量开放知识源的开放域问答相比，缺乏开放的专门知识源；

（3）开放领域大量问题答案往往通过FQA的方式保存在互联网空间，很多问题可以通过普通的检索就能得到；

（4）军事领域问题的理解和回答需要深入利用专门军事知识，通过深度推理准确理解问题和生成答案。

因此，军事问答的难点在于知识图谱的构建和面向问题求解的推理。

2军事知识图谱构建

军事知识来源多样，互联网开放知识源能够提供大量基本的军事常识，例如兵器的分门别类、所属国别等，爬取开放互联网网页和开放知识源，通过文本的结构化处理，可以获取大量的“浅”层军事常识。

目前，更多的军事知识，特别是“深”层军事知识是包含在不同军事信息系统中的专门的数据库中。

不同来源的知识图谱具有异构性，它们各自对应的模式层会出现不一致的情况。

此外，面向在线问答，需要对大规模军事知识进行可靠的存储和高效的检索。

因此在构建军事知识图谱中主要要解决的难题包括：

（1）不同来源知识到RDF规范的转化；

（2）超出RDF表示能力的“深层”军事知识的表示；

（3）不同知识的语义一致性处理；

（4）军事知识图谱的可靠存储和高效检索。

对此，我们提出了一系列的应对技术，包括：

（1）建立了一个标准的模式层的分类体系，自动转化得到的模式层通过上下位等关系与标准模式层建立联系，以实现异构知识图谱之间的语义统一。

（2）定义了提出了多知识表示形式联合的知识模型，定义了浅层知识到RDF的编译方法。

（3）直接以RDF形式存放由于图数据库与知识图谱二者都有相似的图结构，而且图数据库的查询比文件更高效，并支持空间计算的功能，便于后续的问答扩展,本文选择了图数据库作为知识图谱的存储方式。

存储知识图谱时，我们将知识图谱的图模型中的节点和边一一对应到了图数据库的节点和边上，确保知识图谱的语义信息不会丢失，同时该数据建模过程也兼顾了知识查询的可操作性和高效性。

知识图谱存储完成之后，对于知识图谱的查询可通过图数据库上的查询语句执行实现。

3问答系统整体架构

本问答系统主要由问题理解、问题求解和答案生成三个模块构成。

其中问题理解模块对输入的用户问题进行解析，抽取出求解该问题必需的语义信息，问题求解模块则将问题理解的结果转换成图数据库的查询，最终答案生成模块将查询结果转化成了自然语言形式的答案返回给用户。

由于基于知识图谱的智能问答是在知识图谱的基础上进行的，问题求解也最终体现为知识图谱上的查询，所以问题理解模块的关键是将用户问题映射到知识图谱上的实体，并表达出用户的查询意图，这两者即构成了问题中待抽取的语义信息。

系统的总体流程如图1所示，用户问题首先经过浅层语法分析进行分词，得到的结果作为问题分类的输入；

问题的类别识别出后，问题的部分用户意图便已识别出，问题中的对知识图谱的指称也被抽取出来，指称被链接到知识图谱中具体的实体；

问题理解的结果对图数据库查询模板进行实例化，生成具体的查询语句，得到的查询结果由答案生成模板加工成自然语言形式的答案返回给用户。

图1系统流程图

4关键技术

4.1问题理解

由于用户问题针对的是知识图谱中的实体，所以用户的提问总是可以根据知识图谱中的元素拆分开。

我们通过分析，将需要回答的用户问题分为了若干类，如：

问某一类事物在某一方面的属性的最值、判断一个实例与另一个实例之间是否存在某个关系，这两类问题的样例分别如下。

四代机的最大航速是多少？

布什号航空母舰上装配了弹道导弹吗？

用户问题首先通过浅层句法分析，生成对句子中的分词、词性标注结果，这些结果被输入到问题模板中。

对于每一类问题，我们实现了相对应的问题模板来描述该类问题的特点，用于识别该类问题，并同时抽取出问题中对知识图谱中实体的指称词，即命名实体。

对于问题分类，也采用机器学习的方法，如：

SVM、神经网络等方法。

我们探索和实现了对基于模板方法的改进方法，使用朴素贝叶斯分类器进行分类，取得了一定效果，但也受到了军事领域中标注好的问答对数量少这一现状所限制。

因为用户不了解知识图谱中的实体的具体名字，所以句中的命名实体可能和从句中抽取出的命名实体字面上不一致。

因此我们通过字符串之间的相似度度量方法将命名实体链接到知识图谱中的对应实体。

当两个候选实体与句中命名实体之间的相似度一样时，单纯的相似度度量已经无法唯一确定对应的实体，对此我们通过用户交互的方式来实现了消歧的目的。

当一个实体无法唯一确定时，用户将被要求自行从候选实体中做出选择。

如：

“企业号是什么”这个问题中的'

企业号"

在知识图谱中对应了多个同名实例，导致系统无法区分，于是这多个候选实例的具有区分度的属性和属性值被组成自然语言形式的候选项，如：

请问您问的是退役时间为1947年的企业号吗？

请问您问的是退役时间为1965年的企业号吗？

用户从中选择选择最终确定唯一的实体。

4.2问题求解和答案生成

针对每一类问题，都有对应的查询和答案生成方法。

查询过程对问题理解输出的一系列实体进行判断，并生成用户问题所对应的知识图谱查询。

查询结果填入到每一类问题对应的答案生成流程，生成最终形成自然语言形式的答案。

根据答案生成的复杂度，问题被划分为三类：

（1）第一类是可以直接用查询结果作为答案的问题，称为简单问题。

（2）第二类是基于查询结果，通过逻辑推理得到答案的问题。

（3）第三类是基于查询结果，通过不确定推理得到答案的问题，这类问题的答案往往带有不确定性度量，例如“请问该区域飞行物是什么型号的战机？

”，答案是一个带有置信度的战机型号的列表。

答案的不确定源于知识的不确定和证据的不确定。

5系统现状

5.1示例

目前系统已经基本实现若干类问题的自动回答，可以支持部分问题的交互式问答，并展示蕴含问题答案的知识图谱的可视化。

示例如下：

（1）最大飞行速度大于800m/s的飞行器有哪些？

（列举具有特定属性值的一类实例）

（2） LCA战斗机是什么？

图2所示是一个列举满足属性值条件的某一类实例的例子。

图4中展示的是一个问题中包含的知识在知识图谱中对应的子图展示界面。

图2问答系统提问示例

图3则是回答一个实例的定义性描述的例子。

图3问答系统提问示例

5.2改进方向

我们将探讨对用户问题进行更加深层的语法分析，以更灵活地解析出问题中的语义信息，并进一步探讨人工智能的机器学习方法、智能规划和搜索等技术在问题理解和求解等方面的应用。

部分错误的回答是由多源知识图谱中的不一致引起，因此除了对问答方法的改进，对知识图谱的不一致处理也将是下一步研究的一个重要方向。

6结束语

本文利用多种来源的知识，构建了军事领域的知识图谱，采用了适合于军事知识图谱的问题分类体系，问题分类和语义信息抽取，并利用这些信息生成对知识图谱进行查询，得出答案。

该方法对于基于知识图谱的限定域问答具有一定借鉴意义。

（C）1994-2021ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved,

参考文献

[1] AliyuFM,UyarA.EvaluatingsearchfeaturesofGoogleKnowledgeGraphandBingSatori[J].OnlineInformationReview,2015,39

（2）：

197-213.

[2] MendesPN,JakobM,BizerC.DBpedia：

AMultilingualCross-DomainKnowledgeBase[C],2012：

1813-1817.

[3] WangC,XiongM,ZhouQ,etal.Panto：

APortablenaturallanguageinterfacetoontologies[C].EuropeanSemanticWebConference.Springer,BerlinHeidelberg,2007：

473-487.

[4] HoffnerK,WalterS,MarxE,etal.Surveyonchallengesofquestionansweringinthesemanticweb[J].SemanticWeb,2017,8（6）：

895-920.

[5] GarciaVL,MottaE,UrenV.AquaLog：

Anontology-drivenquestionansweringsystemtointerfacethesemanticweb[C].Proceedingsofthe2006ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguisticsonHumanLanguageTechnology：

companionvolume：

demonstrations.AssociationforComputationalLingguistics,

2006：

269-272.

[6] UngerC,LehmannJ,NgomoACN,etal.Template-basedquestionansweringoverRDFdata[C].InternationalConferenceonWorldWideWeb.2012：

639-648.

[7] XuK,ZhangS,FengY,etal.AnsweringNaturalLanguageQuestionsviaPhrasalSemanticParsing[J].CommunicationsinComputer&

InformationScience,2014,333-344.

[8] FerrandezI,IzquierdoR,FerrandezS,etal.Addressingontology-basedquestionansweringwithcollectionsofuserqueries[J].InformationProcessing&

Management>

2009,45

（2）：

175-188.

[9] 张克亮，李伟刚，王慧兰.基于本体的航空领域问答系统[J].中文信息学报，2015,29（4）：

192-198.

[10] 杜泽宇，杨燕，贺糅.基于中文知识图谱的电商领域问答系统[J].计算机应用与软件,2017,34（5）：

153-159.

[11] 王东升，王卫民，王石，等.面向限定领域问答系统的自然语言理解方法综述[J].计算机科学，2017,44（8）：

1-8.

展开阅读全文