WO2017076263A1

WO2017076263A1 - 融合知识库处理方法和装置及知识库管理系统、存储介质

Info

Publication number: WO2017076263A1
Application number: PCT/CN2016/104136
Authority: WO
Inventors: 陈虹
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-11-03
Filing date: 2016-10-31
Publication date: 2017-05-11
Also published as: CN106649394A

Abstract

一种融合知识库处理方法和装置及知识库管理系统、存储介质，所述融合知识库处理方法包括：从常见问题FAQ库和本体知识库中抽取知识分类目录，该本体知识库中包括知识本体和本体关系（S110）；根据知识本体、本体关系和知识分类目录，将FAQ库的内容挂载到本体知识库中，生成融合知识库（S120）；所述方法提高了问答系统的性能。

Description

融合知识库处理方法和装置及知识库管理系统、存储介质

技术领域

本发明涉及计算机和通信技术领域，尤指一种融合知识库处理方法和装置及知识库管理系统、存储介质。

背景技术

目前的问答系统通常分为三类，包括：检索式问答系统、基于知识库的问答系统和社区协作式问答系统。其中，广泛应用的是检索式问答系统，如智能客服系统，都是基于常见问题(Frequently Asked Questions，FAQ)的检索式问答系统；基于知识库的问答系统，通常很少被采用，应用例如为专家系统等；社会协作式问答系统，例如百度知道等，很难判断问答的准确性和处理问答结果，更多的是通过群体智慧来解决问题，通常缺乏判断的标准规则。

对检索式问答系统和基于知识库的知识推理问答系统的问答原理和特点进行分析。对于检索式问答系统，主要是为了克服搜索引擎的不足应运而生的，搜索引擎的不足例如包括无法正确理解和表达用户的信息需求意图、返回的信息太多非用户想要的简单答案，其主要的特点是利用信息检索以及浅层的自然语言技术从文本库或网页中抽取出答案，具有不受领域限制、能理解用户意图，返回的答案更准确等优点，但该问答系统也存在很多缺点，由于检索式问答系统的语料主要是FAQ，则必然存在以下问题：第一、FAQ为常见问题，通过统计得出，存在口语化想象，不够标准，通常会导致匹配不精准，准确率低等问题；第二、该系统的本质技术是检索，答案的返回依靠相似度计算，准确率难以提高；第三、对于没有答案的问题，无法通过推理获取答案，系统的智能性较差；第四、FAQ形式的知识粒度较粗，对于知识管理人员而言，没有层次结构，管理成本和门槛较高。对于基于知识库的问答系统，需要先构建知识库，答案可以从知识库中直接获取得到，还可以在知识库的基础上经过推理得到，该问答系统的特点是知识更细粒度化，因此可以检索到更加精准的答案，并且在没有检索到答案时，还可以通过推理获得间接答案，但该问答系统中的知识库通常基于特定领域，知识库的规模有限，影响了问答系统的使用范围。

综上所述，现有技术中的问答系统，由于检索式问答系统、基于知识库的问答系统和社区协作式问答系统在实际应用中都存在各项缺陷，而导致问答系统的性能难以提高。

发明内容

为了解决上述技术问题，本发明实施例提供了一种融合知识库处理方法和装置及知识库管理系统、存储介质，以解决现有技术中的问答系统，由于检索式问答系统、基于知识库的问答系统和社区协作式问答系统在实际应用中都存在各项缺陷，而导致问答系统的性能难以提高。

第一方面，本发明实施例提供一种融合知识库处理方法，包括：

从常见问题FAQ库和本体知识库中抽取知识分类目录，所述本体知识库中包括知识本体和本体关系；

根据所述知识本体、所述本体关系和所述知识分类目录，将所述FAQ库的内容挂载到所述本体知识库中，生成融合知识库。

第二方面，本发明实施例提供一种融合知识库处理装置，包括：

目录抽取模块，配置为从常见问题FAQ库和本体知识库中抽取知识分类目录，所述本体知识库中包括知识本体和本体关系；

挂载模块，配置为根据所述知识本体、所述本体关系和所述目录抽取模块抽取的知识分类目录，将所述FAQ库的内容挂载到本体知识库中，生成融合知识库。

第三方面，本发明实施例提供一种知识库管理系统，包括：问答装置和如上述第二方面中任一项所述的融合知识库处理装置；

其中，所述问答装置包括：用户交互模块，配置为获取用户输入的问题；

语言处理模块，配置为对所述用户交互模块获取的问题进行语言处理，所述语言处理包括分词、词性标注和实体识别；

标准化模块，配置为对所述语言处理模块处理后的问题进行标准化处理，所述标准化处理包括错别字纠正、语言转换和标准化和词语识别；

语义理解模块，配置为对所述标准化模块处理后的问题进行语义理解，获取所述问题的语义信息；

信息检索模块，配置为将所述语义理解模块获取的语义信息在所述本体知识库中进行检索，获取所述问题的答案。

第四方面，本发明实施例提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行本发明第一方面实施例提供的融合知识库处理方法。

本发明提供的融合知识库处理方法和装置及知识库管理系统、存储介质，通过从FAQ库和本体知识库中抽取知识分类目录，并根据本体知识库中的知识本体、本体关系和已抽取的知识分类目录，将FAQ库的内容挂载到本体知识库中，生成融合知识库，将本实施例生成的融合知识库应用于问答系统中，实现了原先通过FAQ库和本体知识库进行知识问答的答案都可以通过该融合知识库得出，在结合FAQ库和本体知识库优点的同时，可以避免FAQ库和本体知识库各自的缺点；本发明提供的方法解决了现有技术中的问答系统，由于检索式问答系统、基于知识库的问答系统和社区协作式问答系统在实际应用中都存在各项缺陷，而导致问答系统的性能难以提高。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1为本发明实施例提供的一种融合知识库处理方法的流程图；

图2为本发明实施例提供的另一种融合知识库处理方法的流程图；

图3为本发明图1所示实施例提供的融合知识库处理方法中一种知识图谱示意图；

图4为本发明实施例提供的又一种融合知识库处理方法的流程图；

图5为本发明实施例提供的再一种融合知识库处理方法的流程图；

图6为本发明实施例提供的一种融合知识库处理装置的结构示意图；

图7为本发明实施例提供的另一种融合知识库处理装置的结构示意图；

图8为本发明实施例提供的一种知识库管理系统的结构示意图；

图9为通过图8所示知识库管理系统进行智能问答的流程图；

图10为本发明实施例提供的另一种知识库管理系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于现有技术中检索式问答系统和基于知识库的问答系统的各项缺点，可以发现，基于知识库的问答系统的优点可以一定程度上弥补检索式问答系统中准确率难以提高、无法通过推理获取答案和知识粒度较粗等问题，而检索式问答系统也能弥补基于知识库的问答系统，由于知识库规模受限而带来的各项缺点。显然地，检索式问答系统和基于知识库的问答系统两者的优缺点可以形成互补，因此，本发明基于上述两种问答系统优缺点的互补性，提出一种融合FAQ和知识库的技术方案，并且将融合后的知识库应用于问答系统和管理系统，从而可以显著的提高系统性能。

下面通过具体的实施例对本发明的技术方案进行详细说明，本发明以下各实施例中的本体知识库为基于特定领域的知识库，其可以是基于某一项技术领域，也可以是包含多项技术领域的内容。本发明提供以下几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的一种融合知识库处理方法的流程图。本实施例提供的融合知识库处理方法可以应用于知识库系统中，以提高知识库系统的使用范围，该方法可以由融合知识库处理装置执行，该融合知识库处理装置通过硬件和软件结合的方式来实现，该装置可以集成在终端设备的处理器中，供处理器调用使用。如图1所示，本实施例的方法可以包括：

S110，从FAQ库和本体知识库中抽取知识分类目录，该本体知识库中包括知识本体和本体关系。

本发明实施例提供的融合知识库处理方法，目的在于构建一种使用性能较为完善并且普遍适用的知识库，其主要思想是结合FAQ库和本体知识库的优点，并且可以改善FAQ库和本体知识库各自的缺点。本发明各实施例中的本体知识库为一个已建立的知识库，例如为基于特定技术领域的知识库，该本体知识库中通常具有知识本体，并且各知识本体之间存在本体关系，例如知识本体包括通用本体和领域本体等，本体关系包括类属关系、等同关系、属性关系和组成关系等。

本实施例的FAQ库中包括FAQ语料，为一些经常提问到的问题和关键词，结合FAQ语料和本体知识库中的知识本体抽取知识分类目录，抽取该知识分类目录的目的在于便于知识梳理和管理，例如可以采用知识库的上位词进行抽取。

S120，根据知识本体、本体关系和知识分类目录，将FAQ库的内容挂载到本体知识库中，生成融合知识库。

本实施例中抽取出知识分类目录，即已经提供了知识梳理和管理的基础条件，因此，可以根据各知识本体与知识分类目录的关系，FAQ索引库中的内容分别于知识分类目录和知识本体的关系，以及结合本体知识库中的本体关系，将FAQ库的内容挂载到本体知识库中以构建出融合知识库。本实施例中构建的融合知识库不仅具有原本体知识库中的知识本体和本体关系，还将FAQ库的内容以知识分类和结构关系的方式融合到本体知识库中，构成了融合知识库；使得原先通过FAQ库和本体知识库进行知识问答的答案都可以通过该融合知识库得出。

本实施例的实现方式如图2所示，为本发明实施例提供的另一种融合知识库处理方法的流程图，说明融合的方式，即S120可以包括：S121，将本体知识库的知识本体挂载到知识分类目录上，该步骤为对知识本体进行分类；S122，将FAQ库的内容挂载到知识分类目录和知识本体上，该步骤为对FAQ库进行分类，类别为知识分类目录和知识本体；完成融合的知识库的内容和结构可以通过知识图谱来表示。举例来说，如图3所示，为本发明图1所示实施例提供的融合知识库处理方法中一种知识图谱示意图，图3中的知识分类目录包括目录分类A和目录分类B，本体知识库中的知识本体都挂载到上述知识分类目录上，FAQ库的内容例如包括FAQ1、FAQ2和FAQ3，可以挂载到知识分类目录或知识本体上；另外，知识图谱中还具有知识本体的行为和类属于知识本体的属性，知识图谱中的根节点表示超类，即上层的分类)。

以下通过一个具体实例说明知识本体与其行为、属性等，例如问题“彩铃业务如何办理”，其中，“彩铃业务”为知识本体，“办理”为事件行为，彩铃业务的收费标准为属性；再例如，A业务套餐和B业务套餐为两个资费不同的套餐，均为基础套餐，在A业务套餐的基础上可以叠加C升级套餐，可知，A业务套餐与B业务套餐是等同关系，A业务套餐与C升级套餐为上层和下层的关系，即知识本体间的关系可以是横向对比的，也可以是纵向对比的。

本实施例所提供的融合知识库处理方法，通过从FAQ库和本体知识库中抽取知识分类目录，并根据本体知识库中的知识本体、本体关系和已抽取的知识分类目录，将FAQ库的内容挂载到本体知识库中，生成融合知识库，将本实施例生成的融合知识库应用于问答系统中，实现了原先通过FAQ库和本体知识库进行知识问答的答案都可以通过该融合知识库得出，在结合FAQ库和本体知识库优点的同时，可以避免FAQ库和本体知识库各自的缺点；本实施例提供的方法解决了现有技术中的问答系统，由于检索式问答系统、基于知识库的问答系统和社区协作式问答系统在实际应用中都存在各项缺陷，而导致问答系统的性能难以提高。

需要说明的是，上述实施例中已经说明本发明各实施例中的本体知识库为一个已建立的知识库，该本体知识库例如可以为传统的人工构建的知识库，然而，由于本体知识库的知识量大、结构关系复杂，人工构建较为复杂且成本较高。另外，本实施例中的本体知识库还可以为自动构建的，如图4所示，为本发明实施例提供的又一种融合知识库处理方法的流程图，在图4所示实施例中，本体知识库的构建方式可以为：在S110之前还包括：S100，输入初始语料，该初始语料包括文本语料和FAQ语料；S101，根据文本语料和FAQ语料进行知识库的构建，生成本体知识库。本实施例中的文本语料为现有技术中知识库的输入项，本实施例中本体知识库的输入项还包括FAQ语料，可以作为后续融合的基础。

本实施例在实现中，构建本体知识库的形式不同于现有技术中的人工构建，其方式，即S101包括：S102，确定本体目标和抽取规则，抽取规则包括本体关系规则和抽取算法；S103，通过本体目标和抽取算法从文本语料和FAQ语料中抽取知识本体，该知识本体包括领域本体和通用本体；S104，根据本体关系规则从知识本体中抽取本体关系；S105，根据所抽取到的知识本体和本体关系进行知识库的构建，生成本体知识库。本实施例中可以先制定知识本体的目标和后续使用的抽取规则，即哪些是领域本体，哪些是通用本体，本体关系的种类，抽取规则的制定等，这些信息可以是操作人员定义的，通过人机交互界面输入到终端设备中；在定义好规则和目标后，通过预定义的编码进行实体、属性、行为、事件等知识本体的抽取，预定义的编码即为抽取算法的形式，抽取算法例如可以采用斯坦福的命名实体识别器(Named Edtity Recognition，NER)，也可以自己设计抽取算法，最终根据初始语料抽取出通用本体和领域本体，知识本体为知识图谱上的节点，如图3所示，在确定了知识本体后，进一步执行抽取操作，此次根据本体关系规则编码进行本体关系的抽取，本体关系包括但不限于类属关系、等同关系、属性关系、组成关系等，例如可以采用定义规则等方式抽取，本体关系抽取可以确定知识图谱上节点间的边；在确定了节点和节点间的边后，就进行知识库的构建，使其形成知识图谱，即本体知识库。

进一步地，在本体知识库构建完成之后，本实施例提供的方法在S101之后还包括：S106，根据预置的推理规则，在语义知识库中进行知识推理规则的抽取，生成知识推理规则库。知识推理规则库的形成有利于该知识库的使用，在通过该知识库进行问答时，无法直接得到的答案可以根据预置的推理规则从知识推理规则库中得到，进一步提高了融合知识库的使用性能。

需要说明的是，传统的知识库构建均为人工构建，本实施例采用自动化构建的方式形成本体知识库和知识推理规则库，在此基础上，还可以采用人工校对的方式监测知识库的内容，以确保知识的准确率和召回率。

更进一步地，图5为本发明实施例提供的再一种融合知识库处理方法的流程图，在上述各实施例的基础上，在完成本体知识库的自动构建后，该自动构建出的本体知识库用于和FAQ库融合形成上述实施例中的融合知识库；然而，已构建的本体知识库的内容是有限的，不可能包含所有的知识本体，并且FAQ库的内容也是根据用户的输入总结出的常见问题，因此，在实际使用中，用户对知识库的需求是不断增加的，因此，本实施例中的本体知识库的内容不是一成不变的，可以进一步增加本体知识库的范围，其中包括增加FAQ语料，该方式可以为，在S101之后还包括：S130，在本体知识库中输入增量语料；S140，通过抽取算法从增量语料中抽取增量本体；S150，根据本体关系规则从增量本体中抽取增量本体关系；S160，通过所抽取到的增量本体和增量本体关系对本体知识库进行更新。

在本实施例中，对本体知识库的更新方式与构建本体知识库的方式相似，都是根据输入的语料抽取本体和本体关系，从而通过所抽取到的内容进行构建；在更新的过程中，增量语料可以为最新的领域知识、针对知识库增添的知识内容，还可以为用户的提问记录或日志等，目的就是将一些新的知识和新的提问内容添加到本体知识库中，同时可以增加FAQ语料，即同时更新了融合知识库。

需要说明的是，本实施例不限制S130～S160在融合知识库处理方法中的执行顺序，例如可以是在S101之后执行的，还可以是在S106之后执行的，还可以是在S120之后执行的，图5为S130～S160在S120之后执行为例予以示出，即本实施例在构建融合知识库之后对知识库有更新需求。

图6为本发明实施例提供的一种融合知识库处理装置的结构示意图。本实施例提供的融合知识库处理装置可以应用于知识库管理系统中，以提高知识库系统的使用范围，该融合知识库处理装置可以通过硬件和软件结合的方式来实现，该装置可以集成在终端设备的处理器中，供处理器调用使用。如图6所示，本实施例的融合知识库处理装置包括：目录抽取模块11和挂载模块12。

其中，目录抽取模块11，配置为从常见问题FAQ库和本体知识库中抽取知识分类目录，该本体知识库中包括知识本体和本体关系。

本发明实施例提供的融合知识库处理装置，目的在于构建一种使用性能较为完善并且普遍适用的知识库，其主要思想是结合FAQ库和本体知识库的优点，并且可以改善FAQ库和本体知识库各自的缺点；本发明各实施例中的本体知识库为一个已建立的知识库。

挂载模块12，配置为根据知识本体、本体关系和目录抽取模块11抽取的知识分类目录，将FAQ库的内容挂载到本体知识库中，生成融合知识库。

本发明各实施例中生成融合知识库的方式可以为，挂载模块12包括：第一挂载单元13，配置为将本体知识库的知识本体挂载到目录抽取模块11抽取的知识分类目录上；第二挂载单元14，配置为将FAQ库的内容挂载到知识分类目录和知识本体上。通过本发明实施例提供的融合知识库处理装置构建的融合知识库同样可以用图3所示知识图谱来表示，知识图谱中节点和边对应的内容在上述实施例中已经说明，故在此不再赘述。

本发明实施例提供的融合知识库处理装置用于执行本发明图1和图2所示实施例提供的融合知识库处理方法，具备相应的功能模块，其实现原理和技术效果类似，此处不再赘述。

需要说明的是，上述实施例中已经说明本发明各实施例中的本体知识库为一个已建立的知识库，例如可以为传统的人工构建的知识库，也可以为自动构建的本体知识库，本实施例中构建本体知识库的方式如图7所示，为本发明实施例提供的另一种融合知识库处理装置的结构示意图，融合知识库处理装置还包括：输入模块15，配置为在目录抽取模块11从FAQ库和本体知识库中抽取知识分类目录之前，输入初始语料，该初始语料包括文本语料和FAQ语料；构建模块16，配置为根据输入模块15输入的文本语料和FAQ语料进行知识库的构建，生成本体知识库。

本实施例在实现中，构建模块16可以包括：确定单元17，配置为确定本体目标和抽取规则，该抽取规则包括本体关系规则和抽取算法；本体抽取单元18，配置为通过确定单元17确定的本体目标和抽取算法从输入模块15输入的文本语料和FAQ语料中抽取知识本体，该知识本体包括领域本体和通用本体；关系抽取单元19，配置为根据确定单元17确定的本体关系规则从本体抽取单元18抽取的知识本体中抽取本体关系；知识库生成单元20，配置为根据本体抽取单元18抽取的知识本体和关系抽取单元19抽取的本体关系进行知识库的构建，生成本体知识库。通过本实施例提供的融合知识库处理装置生成的本体知识库同样可以通过知识图谱中的节点和表来表示。

进一步地，在本体知识库构建完成之后，本实施例提供的装置还包括：推理规则模块21，配置为在构建模块16生成本体知识库之后，根据预置的推理规则，在本体知识库中进行知识推理规则的抽取，生成知识推理规则库。知识推理规则库的形成有利于该知识库的使用，在通过该知识库进行问答时，无法直接得到的答案可以根据预置的推理规则从知识推理规则库中得到，进一步提高了融合知识库的使用性能。

本发明实施例提供的融合知识库处理装置配置为执行本发明图4所示实施例提供的融合知识库处理方法，具备相应的功能模块，其实现原理和技术效果类似，此处不再赘述。

更进一步地，本实施例在完成本体知识库的自动构建后，该自动构建出的本体知识库配置为和FAQ库融合形成上述实施例中的融合知识库；然而，已构建的本体知识库的内容是有限的，不可能包含所有的知识本体，因此，本实施例中的本体知识库的内容不是一成不变的，可以进一步增加本体知识库的范围，其中包括增加FAQ语料，该方式可以为：输入模块15，还配置为在构建模块16生成本体知识库之后，在该本体知识库中输入增量语料；本体抽取单元18，还配置为通过确定单元17确定的抽取算法从输入模块15输入的增量语料中抽取增量本体；关系抽取单元19，还配置为根据确定单元17确定的本体关系规则从本体抽取单元18抽取的增量本体中抽取增量本体关系；相应地，本实施例中的融合知识库处理装置还包括：更新模块，配置为通过本体抽取单元18抽取的增量本体和关系抽取单元19抽取的增量本体关系对本体知识库进行更新。

需要说明的是，本实施例更新知识库的执行顺序，例如可以是在本体知识库构建完成后就执行更新，还可以是在知识推理规则库构建完成后执行更新，还可以是在是在融合知识库构建完成后执行更新。

本发明实施例提供的融合知识库处理装置用于执行本发明图5所示实施例提供的融合知识库处理方法，具备相应的功能模块，其实现原理和技术效果类似，此处不再赘述。

图8为本发明实施例提供的一种知识库管理系统的结构示意图。本实施例提供的知识库管理系统包括问答装置200，以及上述图6和图7所示任一实施例中的融合知识库处理装置100。

其中，该问答装置200包括：用户交互模块210，配置为获取用户输入的问题。

语言处理模块220，配置为对用户交互模块210获取的问题进行语言处理，语言处理包括分词、词性标注和实体识别。

本实施例中的语音处理通常指自然语言处理，例如用户输入问题后，首先对问题进行分词、词性标注、实体识别等自然语言处理，和传统的FAQ问答不同的是，本实施例的知识库中引入了通用本体和领域本体，其主要作用于分词，使分词更准确，只有分词准确了，才能进行正确的语义理解。举例来说，输入问题为：“天翼A8领航套餐如何收费”，采用传统的分词方式基本分为“天/翼/A/8/领/航/套餐/如何/收费”，而采用本发明实施例生成的融合知识库后，可以分为“天翼A8领航套餐/如何/收费”。

标准化模块230，配置为对语言处理模块220处理后的问题进行标准化处理，标准化处理包括错别字纠正、语言转换和标准化和词语识别。

本实施例中的该模块主要将语言标准化，比如错别字纠正、方言转化为标准普通话、全/简/别称的标准化处理，还可以包括敏感词的识别等。

语义理解模块240，配置为对标准化模块230处理后的问题进行语义理解，获取问题的语义信息。

在语言处理和标准化后，通常可以理解输入问题的正确语义，例如可以是获取到问题的语义信息，该语义信息主要包括抽取和扩展的关键词、抽取的三元组和三元关系、基于上下文的省略回复、指代消解、意图识别、情感分析、问题追问等。

信息检索模块250，用配置为将语义理解模块240获取的语义信息在本体知识库中进行检索，获取问题的答案。

在本实施例中，可以将语义理解模块240获取的语义信息，即关键词、三元组、意图等在融合知识库中进行检索，例如可以采用查询语言和数据获取协议(Simple Protocol and RDF Query Language，SPARQL)等检索语言，在获取问题的答案可以返回给用户，通常地，用户的输入和查看返回的答案均可以通过用户交互模块210来实现，例如可以为图形用户界面(Graphical User Interface，GUI)。

本实施例提供的知识库管理系统配置为对用户输入的问题在融合知识库中进行检索，并通过融合知识库的内容给出答案。本实施例提供的系统中的用于检索的资源为上述实施例提供的融合知识库处理装置所生成的，因此具有与上述实施例相同的技术效果，此处不再赘述。

由于本发明上述实施例提供的融合知识库处理装置100在生成本体知识库后，还能进一步生成知识推理规则库，若上述通过信息检索模块250在融合知识库中没有得到答案，则可以进一步根据知识推理规则库，进行推理来获得答案；即本实施例提供的问答装置200还包括：知识推理模块260，还配置为在信息检索模块250获取到的答案为空时，根据推理规则模块生成的知识推理规则库进行推理，获取上述问题的答案。

进一步地，若知识推理模块260在上述知识推理规则库中进行推理获取到的答案同样为空时，还可以将语义理解模块240获取的语义信息在FAQ库中进行检索，获取问题的答案。在实现的过程中，可以通过将语义信息在FAQ库中进行检索，将检索结果进行相似度计算，并将最终返回阈值内，且排名第一的答案作为问题的答案。

需要说明的是，本实施提供中的问答装置200还可以包括：缓存答案获取模块270，配置为在标准化模块230对语言处理模块220处理后问题进行标准化处理之后，从缓存中获取问题的答案。该方式有利于提高系统性能，可以将常用问题和知识库放入内存中，在语言标准后的基础上，先从缓存中获取答案，避免了大量的检索和计算过程。另外，本实施例提供的问答装置200还可以包括答案返回模块280，配置为返回信息检索模块250、知识推理模块260或缓存答案获取模块270获取的答案，并将答案输出到用户交互模块210中。

通过本实施例提供的知识库管理系统进行智能问答的处理流程如图9所示，为通过图8所示知识库管理系统进行智能问答的流程图，流程包括：

S201，获取用户输入的问题。

S202，对用户输入的问题进行自然语言处理。在处理过程中通常使用到通用本体库、领域本体库、同义词库和停用词库等。

S203，对所述用户输入的问题进行语言标准化处理。在处理过程中通常使用到敏感词库和方言库等。

S204，判断是否可以从缓存中获取问题的答案。若否，则执行S205；若是，则执行S210，若缓存中存储有该问题的知识内容，则可以获取并返回问题的答案。

S205，对标准化处理后的问题进行语义理解，获取语义信息。

S206，判断是否可以从本体知识库中获取问题的答案。若否，则执行S207；若是，则执行S210，若本体知识库中存储有该问题的知识内容，则可以获取并返回问题的答案。

S207，判断是否可以从知识推理规则库中获取问题的答案。若否，则执行S208；若是，则执行S210，若知识推理规则库中可以推理出该问题的知识内容，则可以获取并返回问题的答案。

S208，将语义信息在FAQ库中进行检索，获取检索结果。

S209，对检索结果进行相似性计算。

S210，获取并返回问题的答案。

图10为本发明实施例提供的另一种知识库管理系统的结构示意图。在上述图8所提供的知识库管理系统的结构基础上，本实施例提供的系统还包括管理装置300，该管理装置300包括：知识编辑模块310，配置为对融合知识库处理装置100所抽取的知识本体进行编辑、校对，以及增加新的知识本体。还可以人工增加知识。

知识审核模块320，配置为对融合知识库中的知识本体进行多级审核。通常需要通过多级人员审核，以确保知识的正确性。

统计分析模块330，配置为在通过问答装置200进行提问和获取答案的过程中，统计热门问题、热门知识，融合知识库中未访问的知识本体，以及出现错误答案的知识本体中的一项或多项，并分析通过问答装置200获取答案的准确率。

在线测试模块340，配置为对知识编辑模块310所编辑的知识本体进行验证，获取在线测试结果。

规则管理模块350，配置为对抽取的方式和规则进行管理编辑。例如可以是人工编辑。

资料管理模块360，配置为存储FAQ库和本体知识库中的初始内容，并且按照预置的时间存储融合知识库中的内容。该模块可以对导入的原始附件进行管理，如存储、多版本对比、附件归档等。

智能质检模块370，配置为通过抽样检验确定通过问答装置200获取答案的准确率，还配置为在问答装置200的工作过程中自动检测答案的准确率。

本发明实施例中融合知识库处理装置所包括的各模块，以及各模块所包括的各子模块，都可以通过终端中处理器来实现；当然还可以通过逻辑电路来实现，在实施的过程中，处理器可以为中央处理器(CPU)、微处理器(MPU)、数字信号处理器(DSP)或现场可编程门阵列(FPGA)等。

需要说明的是，本发明实施例中，如果以软件功能模块的形式实现上述的融合知识库处理方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本发明实施例不限制于任何特定的硬件和软件结合。

相应地，本发明实施例再提供一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行本发明实施例中融合知识库处理方法。

基于前述的实施例，本发明实施例再提供一种终端，包括：存储介质和处理器，其中存储介质配置为存储可执行指令，处理器配置为执行存储的可执行指令，所述可执行指令配置为执行下面的步骤：

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘) 中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

需要说明的是，本实施例提供的知识库管理系统还可以对知识进行同步，主要是将用户在知识库管理系统的提问记录和日志，同步到知识库管理系统中，由管理员或知识专业人员对记录进行质检，实时检测；另外，本实施例的知识库管理系统还可以将提问时没有准确回答的问题或没有答案的问题，进行知识抽取，增量更新到融合知识库中，以便于下次能检索到。其中，同步的方式和更新的方式均与上述融合知识库处理装置进行更新的方式相同，故在此再赘述。

虽然本发明所揭露的实施方式如上，但所述的内容仅为便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

工业实用性

本发明实施例中，通过从FAQ库和本体知识库中抽取知识分类目录，并根据本体知识库中的知识本体、本体关系和已抽取的知识分类目录，将FAQ库的内容挂载到本体知识库中，生成融合知识库，将本实施例生成的融合知识库应用于问答系统中，实现了原先通过FAQ库和本体知识库进行知识问答的答案都可以通过该融合知识库得出，在结合FAQ库和本体知识库优点的同时，可以避免FAQ库和本体知识库各自的缺点；本发明提供的方法解决了现有技术中的问答系统，由于检索式问答系统、基于知识库的问答系统和社区协作式问答系统在实际应用中都存在各项缺陷，而导致问答系统的性能难以提高。

Claims

一种融合知识库处理方法，包括：

从常见问题FAQ库和本体知识库中抽取知识分类目录，所述本体知识库中包括知识本体和本体关系；

根据所述知识本体、所述本体关系和所述知识分类目录，将所述FAQ库的内容挂载到所述本体知识库中，生成融合知识库。
根据权利要求1所述的融合知识库处理方法，其中，所述根据所述知识本体、所述本体关系和知识分类目录将所述FAQ库的内容挂载到本体知识库中，包括：

将所述本体知识库的知识本体挂载到所述知识分类目录上；

将所述FAQ库的内容挂载到所述知识分类目录和所述知识本体上。
根据权利要求1所述的融合知识库处理方法，其中，所述从常见问题FAQ库和本体知识库中抽取知识分类目录之前，还包括：

输入初始语料，所述初始语料包括文本语料和FAQ语料；

根据所述文本语料和所述FAQ语料进行知识库的构建，生成所述本体知识库。
根据权利要求3所述的融合知识库处理方法，其中，所述根据所述文本语料和所述FAQ语料进行知识库的构建，生成所述本体知识库，包括：

确定本体目标和抽取规则，所述抽取规则包括本体关系规则和抽取算法；

通过所述本体目标和所述抽取算法从所述文本语料和所述FAQ语料中抽取知识本体，所述知识本体包括领域本体和通用本体；

根据所述本体关系规则从所述知识本体中抽取本体关系；

根据所抽取到的知识本体和本体关系进行知识库的构建，生成本体知识库。
根据权利要求3或4所述的融合知识库处理方法，其中，所述生成本体知识库之后，还包括：

根据预置的推理规则，在所述本体知识库中进行知识推理规则的抽取，生成知识推理规则库。
根据权利要求3或4所述的融合知识库处理方法，其中，所述生成本体知识库之后，还包括：

在所述本体知识库中输入增量语料；

通过所述抽取算法从所述增量语料中抽取增量本体；

根据所述本体关系规则从所述增量本体中抽取增量本体关系；

通过所抽取到的增量本体和增量本体关系对所述本体知识库进行更新。
一种融合知识库处理装置，包括：

目录抽取模块，配置为从常见问题FAQ库和本体知识库中抽取知识分类目录，所述本体知识库中包括知识本体和本体关系；

挂载模块，配置为根据所述知识本体、所述本体关系和所述目录抽取模块抽取的知识分类目录，将所述FAQ库的内容挂载到本体知识库中，生成融合知识库。
根据权利要求7所述的融合知识库处理装置，其中，所述挂载模块包括：

第一挂载单元，配置为将所述本体知识库的知识本体挂载到所述目录抽取模块抽取的知识分类目录上；

第二挂载单元，配置为将所述FAQ库的内容挂载到所述知识分类目录和所述知识本体上。
根据权利要求7所述的融合知识库处理装置，其中，还包括：

输入模块，配置为在所述目录抽取模块从所述FAQ库和所述本体知识库中抽取知识分类目录之前，输入初始语料，所述初始语料包括文本语料和FAQ语料；

构建模块，配置为根据所述输入模块输入的文本语料和所述FAQ语料进行知识库的构建，生成所述本体知识库。
根据权利要求9所述的融合知识库处理装置，其中，所述构建模块包括：

确定单元，配置为确定本体目标和抽取规则，所述抽取规则包括本体关系规则和抽取算法；

本体抽取单元，配置为通过所述确定单元确定的本体目标和抽取算法从所述输入模块输入的文本语料和所述FAQ语料中抽取知识本体，所述知识本体包括领域本体和通用本体；

关系抽取单元，配置为根据所述确定单元确定的本体关系规则从所述本体抽取单元抽取的知识本体中抽取本体关系；

知识库生成单元，配置为根据所述本体抽取单元抽取的知识本体和所述关系抽取单元抽取的本体关系进行知识库的构建，生成本体知识库。
根据权利要求9或10所述的融合知识库处理装置，其中，还包括：推理规则模块，配置为在所述构建模块生成本体知识库之后，根据预置的推理规则，在所述本体知识库中进行知识推理规则的抽取，生成知识推理规则库。
根据权利要求9或10所述的融合知识库处理装置，其中，所述输入模块，还配置为在所述构建模块生成本体知识库之后，在所述本体知识库中输入增量语料；

所述本体抽取单元，还配置为通过所述确定单元确定的抽取算法从所述输入模块输入的增量语料中抽取增量本体；

所述关系抽取单元，还配置为根据所述确定单元确定的本体关系规则从所述本体抽取单元抽取的增量本体中抽取增量本体关系；

所述融合知识库处理装置还包括：更新模块，配置为通过所述本体抽取单元抽取的增量本体和所述关系抽取单元抽取的增量本体关系对所述本体知识库进行更新。
一种知识库管理系统，包括：问答装置和如权利要求7～12中任一项所述的融合知识库处理装置；

其中，所述问答装置包括：用户交互模块，配置为获取用户输入的问题；

语言处理模块，配置为对所述用户交互模块获取的问题进行语言处理，所述语言处理包括分词、词性标注和实体识别；

标准化模块，配置为对所述语言处理模块处理后的问题进行标准化处理，所述标准化处理包括错别字纠正、语言转换和标准化和词语识别；

语义理解模块，配置为对所述标准化模块处理后的问题进行语义理解，获取所述问题的语义信息；

信息检索模块，配置为将所述语义理解模块获取的语义信息在所述本体知识库中进行检索，获取所述问题的答案。
根据权利要求13所述的知识库管理系统，其中，所述融合知识库处理装置包括所述推理规则模块；所述问答装置还包括：知识推理模块，配置为在所述信息检索模块获取到的答案为空时，根据所述推理规则模块生成的知识推理规则库进行推理，获取所述问题的答案。
根据权利要求14所述的知识库管理系统，其中，所述信息检索模块，还配置为在所述知识推理模块获取到的答案为空时，将所述语义理解模块获取的语义信息在所述FAQ库中进行检索，获取所述问题的答案。
根据权利要求13所述的知识库管理系统，其中，所述问答装置还包括：缓存答案获取模块，配置为在所述标准化模块对所述语言处理模块处理后的问题进行标准化处理之后，从缓存中获取所述问题的答案。
根据权利要求13～16中任一项所述的知识库管理系统，其中，还包括管理装置；

其中，所述管理装置包括：知识编辑模块，配置为对所述融合知识库处理装置所抽取的知识本体进行编辑、校对，以及增加新的知识本体；

知识审核模块，配置为对所述融合知识库中的知识本体进行多级审核；

统计分析模块，配置为在通过所述问答装置进行提问和获取答案的过程中，统计热门问题、热门知识，所述融合知识库中未访问的知识本体，以及出现错误答案的知识本体中的一项或多项，并分析通过所述问答装置获取答案的准确率；

在线测试模块，配置为对所述知识编辑模块所编辑的知识本体进行验证，获取在线测试结果；

规则管理模块，配置为对抽取的方式和规则进行管理编辑；

资料管理模块，配置为存储所述FAQ库和所述本体知识库中的初始内容，并且按照预置的时间存储所述融合知识库中的内容；

智能质检模块，配置为通过抽样检验确定通过所述问答装置获取答案的准确率，还配置为在所述问答装置的工作过程中自动检测答案的准确率。
一种计算机存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令用于执行权利要求1至6任一项所述的融合知识库处理方法。