WO2020237856A1

WO2020237856A1 - 基于知识图谱的智能问答方法、装置及计算机存储介质

Info

Publication number: WO2020237856A1
Application number: PCT/CN2019/102200
Authority: WO
Inventors: 张奕
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-29
Filing date: 2019-08-23
Publication date: 2020-12-03
Also published as: CN110334272B; CN110334272A

Abstract

本申请涉及一种人工智能技术，揭露了一种基于知识图谱的智能问答方法，包括：获取问答数据集，根据所述问答数据集构建知识图谱关系型数据集，对所述知识图谱关系型数据集进行预处理操作得到逻辑问答数据集，提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度并建立网页链式接口，接收用户输入的问题后预处理，并计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，判断所述问题相似度集合与预设问题阈值的大小关系，直至最后输出所述用户输入的问题的答案。本申请还提出一种基于知识图谱的智能问答装置以及一种计算机可读存储介质。

Description

基于知识图谱的智能问答方法、装置及计算机存储介质

本申请要求于2019年5月29日提交中国专利局，申请号为201910462081.X、发明名称为“基于知识图谱的智能问答方法、装置及计算机存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于问题输入后，智能化回答所述问题答案的方法、装置及计算机可读存储介质。

背景技术

随着互联网技术的应用和发展，大量问答系统涌现。但目前多数的问答系统主要针对单一的、孤立的、事实性的问题，在答案的精准度以及问题的复杂度上受限于现有的计算模型复杂性和知识库完善程度，虽然许多研究机构和企业在开展智能问答研究，但其技术水平还有待进一步提高，且多数问答系统如果涉及到语义理解、复杂逻辑推理以及篇章层面语言分析等问题，一般也无法做出满意的回答。

发明内容

本申请提供一种基于知识图谱的智能问答方法、装置及计算机可读存储介质，其主要目的在于当用户输入问题时，给用户呈现出精准满意的问题答案。

为实现上述目的，本申请提供的一种基于知识图谱的智能问答方法，包括：步骤A：通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中；步骤B：从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；步骤C：提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值重新清理所述逻辑问题数据集，根据所述清理完成的逻辑问题数据集建立网页链式接口；步骤D：接收用户输入的问题，对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合；步骤H：当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，输出所述用户输入的问题的答案；步骤E：当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行所述包括分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；步骤F：当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；步骤G：当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。

此外，为实现上述目的，本申请还提供一种基于知识图谱的智能问答装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的基于知识图谱的智能问答程序，所述基于知识图谱的智能问答程序被所述处理器执行时实现如下步骤：步骤A：通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中；步骤B：从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；步骤C：提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值重新清理所述逻辑问题数据集，根据所述清理完成的逻辑问题数据集建立网页链式接口；步骤D：接收用户输入的问题，对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合；步骤H：当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，输出所述用户输入的问题的答案；步骤E：当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行所述包括分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；步骤F：当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；步骤G：当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。

此外，为实现上述目的，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于知识图谱的智能问答程序，所述基于知识图谱的智能问答程序可被一个或者多个处理器执行，以实现如上所述的基于知识图谱的智能问答方法的步骤。

本申请提出的基于知识图谱的智能问答方法、装置及计算机可读存储介质使用知识图谱对文本数据中的信息进行筛选，从而可以直接对其中的知识进行处理，且相似度是通过词频、逆向频率值和欧式距离计算而出，故而可以更直观的表现出问题之间的相似度。因此本申请可以实现精准的基于知识图谱的智能问答功能。

附图说明

图1为本申请一实施例提供的基于知识图谱的智能问答方法的流程示意图；

图2为本申请一实施例提供的基于知识图谱的智能问答装置的内部结构示意图；

图3为本申请一实施例提供的基于知识图谱的智能问答装置中基于知识图谱的智能问答程序的模块示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种基于知识图谱的智能问答方法。参照图1所示，为本申请一实施例提供的基于知识图谱的智能问答方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于知识图谱的智能问答方法包括：

S1、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中。

本申请较佳实施例，根据所述网络爬虫(Web crawler)技术从互联网网页内的URL和HTML内爬取所述问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，所述问题数据集与所述答案数据集包括各个领域范围。

本申请较佳实施例中，将所述问答数据集内的数据输入至预先构建的循环神经网络与卷积神经网络的组合模型中，所述组合模型通过训练之后将所述问答数据集内的数据划分至所属的技术领域范围。

本申请较佳实施例对所述各技术领域范围内的数据按照实体、关系、实体的数据关系重新构建，得到知识图谱关系型数据集，如影视领域内的数据有“谁导演了霸王别姬这部电影”、“张国荣主演了霸王别姬”，则根据所述实体、关系、实体的数据关系，将所述“谁”、“张国荣”构建成所述其中一个实体的数据关系，将所述“导演”、“主演”构建成所述关系的数据关系，将所述“霸王别姬”构建成所述另一个实体的数据关系；

将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。

S2、从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集。

本申请较佳实施例中，所述分词根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作。所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

本申请较佳实施例中，所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字。所述相关度的计算方法包括：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。当构建完成所述相关度时，对所述各词之间的相关度进行高低排序，提取相关度较高的词作为关键字，完成所述关键字抽取。

S3、提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值重新清理所述逻辑问题数据集，根据所述清理完成的逻辑问题数据集建立网页链式接口。

本申请较佳实施例中，所述逻辑问答数据集包括所述逻辑问题数据集与所述逻辑答案数据集。计算所述逻辑问题数据集内数据之间的问题相似度，所述问题相似度为：

其中，sim(W _i,W _j)为词W _i和词W _j的问题相似度，n为所述逻辑问题数据集内的数据总数。

本申请较佳实施例中，所述清理为判断所述词W _i和词W _j的问题相似度与所述预设问题阈值，当所述词W _i和词W _j的问题相似度大于所述预设问题阈值时，则从所述逻辑问题数据集中去除所述词W _j，保留所述词W _i，当所述词W _i和词W _j的问题相似度小于所述预设问题阈值时，同时保留所述词W _i和词W _j，直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断，完成清理。

本申请较佳实施例中，所述网页链式接口的建立过程包括将所述逻辑问题数据集利用程序转换成可读的源代码，根据所述可读的源代码建立一种通过网页可自动搜索答案的链式接口(fluent interface)，并将通过网页搜索到的答案自动整理成网页答案集。

S4、接收用户输入的问题，对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合。

本申请较佳实施例，计算与所述逻辑问题数据集内数据的问题相似度与S3的问题相似度计算方式相同。

S5、判断所述答案相似度集合与预设答案阈值的大小关系。

S6、当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，输出所述用户输入的问题的答案。

S7、当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行所述包括分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合。

本申请较佳实施例，所述答案相似度为：

其中，aim(W _i,W _j)为词W _i和词W _j的答案相似度，t为所述问题数据的答案集内的数据总数，m为所述逻辑答案数据集的数据总数，W _i为所述问题数据的答案集内的词，W _j为所述逻辑答案数据集内的词。

S8、判断所述答案相似度集合与预设答案阈值的大小关系。

S9、当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案。

S10、当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。

发明还提供一种基于知识图谱的智能问答装置。参照图2所示，为本申请一实施例提供的基于知识图谱的智能问答装置的内部结构示意图。

在本实施例中，所述基于知识图谱的智能问答装置1可以是PC(Personal Computer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该基于知识图谱的智能问答装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于知识图谱的智能问答装置1的内部存储单元，例如该基于知识图谱的智能问答装置1的硬盘。存储器11在另一些实施例中也可以是基于知识图谱的智能问答装置1的外部存储设备，例如基于知识图谱的智能问答装置1上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于知识图谱的智能问答装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于知识图谱的智能问答装置1的应用软件及各类数据，例如基于知识图谱的智能问答程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于知识图谱的智能问答程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于知识图谱的智能问答装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及基于知识图谱的智能问答程序01的基于知识图谱的智能问答装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于知识图谱的智能问答装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有基于知识图谱的智能问答程序01；处理器12执行存储器11中存储的基于知识图谱的智能问答程序01时实现如下步骤：

步骤一、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中。

步骤二、从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集。

步骤三、提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值重新清理所述逻辑问题数据集，根据所述清理完成的逻辑问题数据集建立网页链式接口。

本申请较佳实施例中，所述网页链式接口的建立过程包括将所述逻辑问题数据集利用程序转换成可读的源代码，根据所述可读的源代码建立一种通过网页可自动搜索答案的链式接口(fluent interface)，并将所述答案自动整理成网页答案集。

步骤四、接收用户输入的问题，对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合。

步骤五、判断所述答案相似度集合与预设答案阈值的大小关系。

步骤六、当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，输出所述用户输入的问题的答案。

步骤七、当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行所述包括分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合。

本申请较佳实施例，所述答案相似度为：

步骤八、判断所述答案相似度集合与预设答案阈值的大小关系。

步骤九、当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案。

步骤十、当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。

可选地，在其他实施例中，基于知识图谱的智能问答程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本申请，本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述基于知识图谱的智能问答程序在基于知识图谱的智能问答装置中的执行过程。

例如，参照图3所示，为本申请基于知识图谱的智能问答装置一实施例中的基于知识图谱的智能问答程序的程序模块示意图，该实施例中，所述基于知识图谱的智能问答程序可以被分割为数据接收模块10、数据清理模块20、问题判断模块30、答案输出模块40示例性地：

所述数据接收模块10用于：通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中。

所述数据清理模块20用于：从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值重新清理所述逻辑问题数据集，根据所述清理完成的逻辑问题数据集建立网页链式接口。

所述问题判断模块30用于：接收用户输入的问题，对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合。

所述答案输出模块40用于：当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，输出所述用户输入的问题的答案；当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行所述包括分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。

上述数据接收模块10、数据清理模块20、问题判断模块30、答案输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本申请实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于知识图谱的智能问答程序，所述基于知识图谱的智能问答程序可被一个或多个处理器执行，以实现如下操作：

通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中。

从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值重新清理所述逻辑问题数据集，根据所述清理完成的逻辑问题数据集建立网页链式接口。

接收用户输入的问题，对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合。

当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，输出所述用户输入的问题的答案；当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行所述包括分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于知识图谱的智能问答方法，其特征在于，所述方法包括：

步骤A：通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中；

步骤B：从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；

步骤C：提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值清理所述逻辑问题数据集，根据清理完成的所述逻辑问题数据集建立网页链式接口；

步骤D：接收用户输入的问题，对所述用户输入的问题进行分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合，判断所述问题相似度集合与预设问题阈值的大小关系；

步骤H：当所述问题相似度集合中相似度最高的值大于所述预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，找到并输出所述用户输入的问题的答案；

步骤E：当所述问题相似度集合中相似度最高的值小于所述预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；

步骤F：当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；

步骤G：当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。
如权利要求1所述的基于知识图谱的智能问答方法，其特征在于，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库包括：

将所述问答数据集内的数据输入至循环神经网络与卷积神经网络的组合模型中，所述组合模型将所述问答数据集内的数据划分至所属的领域范围；

对所述各领域范围内的数据按照实体、关系、实体的数据关系重新构建，得到知识图谱关系型数据集；

将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
如权利要求1所述的基于知识图谱的智能问答方法，其特征在于，所述分词包括：根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

所述关键字抽取包括：构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。
如权利要求2所述的基于知识图谱的智能问答方法，其特征在于，所述分词包括：根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

所述关键字抽取包括：构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。
如权利要求3中的基于知识图谱的智能问答方法，其特征在于，计算所述逻辑问题数据集内数据之间的问题相似度包括：

其中，sim(W _i,W _j)为词W _i和词W _j的问题相似度，n为所述逻辑问题数据集内的数据总数。
如权利要求4中的基于知识图谱的智能问答方法，其特征在于，计算所述逻辑问题数据集内数据之间的问题相似度包括：

其中，sim(W _i,W _j)为词W _i和词W _j的问题相似度，n为所述逻辑问题数据集内的数据总数。
如权利要求5或6所述的基于知识图谱的智能问答方法，其特征在于，基于所述问题相似度的值清理所述逻辑问题数据集，包括：

判断所述词W _i和词W _j的问题相似度与所述预设问题阈值，当所述词W _i和词W _j的问题相似度大于所述预设问题阈值时，则从所述逻辑问题数据集中去除所述词W _j，保留所述词W _i，当所述词W _i和词W _j的问题相似度小于所述预设问题阈值时，同时保留所述词W _i和词W _j，直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断，完成清理。
一种基于知识图谱的智能问答装置，其特征在于，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的基于知识图谱的智能问答程序，所述基于知识图谱的智能问答程序被所述处理器执行时实现如下步骤：

步骤A：通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中；

步骤B：从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；

步骤C：提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值清理所述逻辑问题数据集，根据清理完成的所述逻辑问题数据集建立网页链式接口；

步骤D：接收用户输入的问题，对所述用户输入的问题进行分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合；

步骤H：当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，找到并输出所述用户输入的问题的答案；

步骤E：当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；

步骤F：当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；

步骤G：当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。
如权利要求8所述的基于知识图谱的智能问答装置，其特征在于，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库包括：

将所述问答数据集内的数据输入至循环神经网络与卷积神经网络的组合模型中，所述组合模型将所述问答数据集内的数据划分至所属的领域范围；

对所述各领域范围内的数据按照实体、关系、实体的数据关系重新构建，得到知识图谱关系型数据集；

将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
如权利要求8所述的基于知识图谱的智能问答装置，其特征在于，所述分词包括：根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

所述关键字抽取包括：构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。
如权利要求9所述的基于知识图谱的智能问答装置，其特征在于，所述分词包括：根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

所述关键字抽取包括：构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。
如权利要求10所述的基于知识图谱的智能问答装置，其特征在于，计算所述逻辑问题数据集内数据之间的问题相似度包括：

其中，sim(W _i,W _j)为词W _i和词W _j的问题相似度，n为所述逻辑问题数据集内的数据总数。
如权利要求11所述的基于知识图谱的智能问答装置，其特征在于，计算所述逻辑问题数据集内数据之间的问题相似度包括：

其中，sim(W _i,W _j)为词W _i和词W _j的问题相似度，n为所述逻辑问题数据集内的数据总数。
如权利要求12或13所述的基于知识图谱的智能问答装置，其特征在于，基于所述问题相似度的值清理所述逻辑问题数据集，包括：

判断所述词W _i和词W _j的问题相似度与所述预设问题阈值，当所述词W _i和词W _j的问题相似度大于所述预设问题阈值时，则从所述逻辑问题数据集中去除所述词W _j，保留所述词W _i，当所述词W _i和词W _j的问题相似度小于所述预设问题阈值时，同时保留所述词W _i和词W _j，直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断，完成清理。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于知识图谱的智能问答程序，所述基于知识图谱的智能问答程序可被一个或者多个处理器执行，以实现如下步骤：

步骤A：通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集，并组成问答数据集，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库中；

步骤B：从所述数据库中读取所述知识图谱关系型数据集，并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作，得到逻辑问答数据集，其中，所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集；

步骤C：提取所述逻辑问答数据集内的逻辑问题数据集，并计算所述逻辑问题数据集内数据之间的问题相似度，基于所述问题相似度的值清理所述逻辑问题数据集，根据清理完成的所述逻辑问题数据集建立网页链式接口；

步骤D：接收用户输入的问题，对所述用户输入的问题进行分词和关键字抽取的预处理后，计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度，得到问题相似度集合；

步骤H：当所述问题相似度集合中相似度最高的值大于预设问题阈值时，搜索所述逻辑问答数据集内的逻辑答案数据集，找到并输出所述用户输入的问题的答案；

步骤E：当所述问题相似度集合中相似度最高的值小于预设问题阈值时，通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集，并对所述网页答案集进行分词和关键字抽取的预处理后，计算所述网页答案集与所述逻辑答案数据集的答案相似度集合，并判断所述答案相似度集合与预设答案阈值的大小关系；

步骤F：当所述答案相似度集合中相似度最高的值小于预设答案阈值时，输出所述答案相似度最高的网页答案集所对应的答案；

步骤G：当所述答案相似度集合中相似度最高的值大于预设答案阈值时，输出所述答案相似度最高的逻辑答案数据集所对应的答案。
如权利要求15所述的计算机可读存储介质，其特征在于，根据所述问答数据集构建知识图谱关系型数据集，将所述知识图谱关系型数据集存入数据库包括：

将所述问答数据集内的数据输入至循环神经网络与卷积神经网络的组合模型中，所述组合模型将所述问答数据集内的数据划分至所属的领域范围；

对所述各领域范围内的数据按照实体、关系、实体的数据关系重新构建，得到知识图谱关系型数据集；

将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
如权利要求15所述的计算机可读存储介质，其特征在于，所述分词包括：根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

所述关键字抽取包括：构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。
如权利要求16所述的计算机可读存储介质，其特征在于，所述分词包括：根据所述知识图谱关系型数据集建立分词概率模型P(S)，并最大化所述分词概率模型，完成分词操作，所述分词概率模型P(S)为：

其中，W ₁,W ₂,…,W _m为所述知识图谱关系型数据集内数据的词，m为所述知识图谱关系型数据集的数量；

所述关键字抽取包括：构建所述词的相关度并基于所述相关度提取关键字，所述相关度为：

其中，f(W _i,W _j)为词W _i和词W _j的相关度，tfidf(W _i)为词W _i的词频与逆向频率值，d为词W _i和词W _j关于词向量的欧式距离。
如权利要求17或18所述的计算机可读存储介质，其特征在于，计算所述逻辑问题数据集内数据之间的问题相似度包括：

其中，sim(W _i,W _j)为词W _i和词W _j的问题相似度，n为所述逻辑问题数据集内的数据总数。
如权利要求19所述的计算机可读存储介质，其特征在于，基于所述问题相似度的值清理所述逻辑问题数据集，包括：

判断所述词W _i和词W _j的问题相似度与所述预设问题阈值，当所述词W _i和词W _j的问题相似度大于所述预设问题阈值时，则从所述逻辑问题数据集中去除所述词W _j，保留所述词W _i，当所述词W _i和词W _j的问题相似度小于所述预设问题阈值时，同时保留所述词W _i和词W _j，直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断，完成清理。