WO2020233261A1 - 一种基于自然语言生成技术的知识图谱辅助理解系统 - Google Patents

一种基于自然语言生成技术的知识图谱辅助理解系统 Download PDF

Info

Publication number
WO2020233261A1
WO2020233261A1 PCT/CN2020/083591 CN2020083591W WO2020233261A1 WO 2020233261 A1 WO2020233261 A1 WO 2020233261A1 CN 2020083591 W CN2020083591 W CN 2020083591W WO 2020233261 A1 WO2020233261 A1 WO 2020233261A1
Authority
WO
WIPO (PCT)
Prior art keywords
knowledge graph
predicate
subject
array
natural language
Prior art date
Application number
PCT/CN2020/083591
Other languages
English (en)
French (fr)
Inventor
李劲松
尚勇
吕可伟
周天舒
Original Assignee
之江实验室
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 之江实验室 filed Critical 之江实验室
Priority to JP2021532885A priority Critical patent/JP7064262B2/ja
Publication of WO2020233261A1 publication Critical patent/WO2020233261A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

一种基于自然语言生成技术的知识图谱辅助理解系统,该系统包括知识图谱选择模块、知识图谱翻译模块和结果展示模块;利用自然语言生成技术将知识图谱转换为自然语言文本,方便领域专家在不了解知识图谱的源代码和软件的基础上,在使用知识图谱前,对于其领域的知识图谱有准确、深入且全面的了解。同时每一个短句与知识图谱本身对应的源代码相关联,如果发现知识图谱存在的冗余和错误信息,可以及时对其进行纠正,且该方法通用性较强。利用可视化方法进一步加快领域专家对于知识图谱的理解。

Description

一种基于自然语言生成技术的知识图谱辅助理解系统 技术领域
本发明涉及知识图谱技术领域,尤其涉及一种基于自然语言生成技术的知识图谱辅助理解系统。
背景技术
知识图谱是一个语义知识库,它通常采用主语-谓语-宾语的三元组形式表示一个知识点,相比较于本体对于逻辑和语义的严苛要求,知识图谱强调了弱语义和弱逻辑,因此在学术界和工业界,知识图谱得到了较好地推广,以谷歌为首的大型互联网公司纷纷开始研究知识图谱以提高搜索的质量。根据2014年的报告显示,目前谷歌的知识图谱已经搜集到了超过16亿的事实,其中2.71亿个事实的真实性被认为超过90%。在2016年5月的Google搜索中,知识图谱大约回答了该月1000亿次搜索中的三分之一的问题。
自然语言生成技术是自然语言处理技术的其中一大技术。不同于自然语言理解,自然语言生成技术关注的是计算机如何以自然语言文本来表达给定的含义、思想等。对于知识图谱,尤其是特定领域的知识图谱,其对于实际应用的知识图谱的准确性要求非常高,例如医学相关的知识图谱,其知识图谱的质量严重关系到整个系统的准确性。然而构建知识图谱的编程语言和本体一样,主要是RDF(Resource Description Framework,资源描述框架)、OWL(Web Ontology Language,网络本体语言),采用的软件主要是斯坦福大学开发的Protégé等。这些语言和软件专业性强,如果没有经过长期学习和培训,非相关人员很难理解其具体含义。同时以OWL和RDF存储的知识点是无序的,同一内容相关的知识点存储在程序的不同部位,这进一步加大了领域专家直接理解知识图谱的源代码的难度。知识图谱大多由计算机行业从事者建立,但使用者则是该知识图谱内容相关的领域的学者和专家,两者的不匹配性导致了领域专家无法理解知识图谱的内容,只能通过使用来进一步完善知识图谱,而不能提前对知识图谱的内容有直观的理解并进行改善。这间接导致了知识图谱质量的不稳定性以及相同内容的知识图谱二次开发现象的严重性。有学者在2017年随机抽取了美国国家生物医学本体中心中的200个生物医学相关的本体,发现在其相应的设计文档中,只有17个得到了专家们的正式评估。
许多领域的知识图谱在使用前需要领域专家对其表示内容进行深入而全面的了解,以便保障其在实际使用过程中的准确性。但知识图谱的相关语言和软件专业性强,相同主题的知识点分布零散,领域专家很难在短期内掌握并了解它们。目前辅助理解知识图谱的软件大多 是通过搜索,以可视化的手段呈现不同知识节点的关联,这样呈现的知识是局部知识,且没有涉及到知识图谱本身。同时这些方法都是在知识图谱使用过程中来发现其存在的问题,而没有在其使用之前对其进行全面的了解和评估。
发明内容
本发明的目的是针对于目前知识图谱质量把控不足、领域专家难以理解领域相关的知识图谱的基础上,提出一种基于自然语言生成技术的知识图谱辅助理解系统,本发明根据现实需要,利用自然语言生成技术根据知识图谱的内容生成自然语言文本,并对同一主题的短句进行句子的适当聚合,并且每一个句子都与知识图谱中程序语言一一对应,以方便领域专家在较短时间内对知识图谱进行快速、全面和深入的了解,进行知识图谱质量的把控。
本发明是通过以下技术方案来实现:一种基于自然语言生成技术的知识图谱辅助理解系统,该系统包括知识图谱选择模块、知识图谱翻译模块和结果展示模块;
所述知识图谱选择模块用于获取符合RDF或OWL语法规范的目标知识图谱;
所述知识图谱翻译模块:首先提取目标知识图谱的三元组,对提取的三元组进行字符串分割得到三个动态数组:主语数组、谓语数组、宾语数组,三者之间具有一一对应关系,然后通过嵌套循环,利用simplenlg工具对主语、谓语和宾语进行组装,形成一句完整的短句;同时对于主语-谓语-宾语的关系存在一对一对多和一对多对多的情况,在谓语数组和宾语数组中加入特殊字符进行标识,以确定该谓语对应某一主语以及该宾语对应某一主语和某一谓语,然后在嵌套循环中判断这些特殊字符以确定主语、谓语、宾语的对应关系,利用simplenlg工具对对应的主语、谓语和宾语进行组装,形成一个完整的长句;其中注解部分对应的三元组不单独成句,而是作为补充其他句子的注解信息;然后将目标知识图谱翻译成短句和长句,句子得到进一步规范后被存入本地数据库(可以采用MySQL数据库)中,并从主语、谓语、宾语三个动态数组中选出类与子类、类与实例关系的内容组装成JSON格式的文件。
所述结果展示模块从本地数据库调取目标知识图谱的翻译内容(即短句和长句),将翻译内容以及目标知识图谱的源文件(RDF(资源描述框架),OWL(网络本体语言))进行共同展示,同时获取JSON格式的文件,通过可视化工具(可以采用D3工具)绘制树状图,对知识图谱中的类与子类以及类与实例的层级结构进行可视化展示。
进一步地,所述知识图谱选择模块获取目标知识图谱的途径包括两种:
途径一:从开源知识图谱数据库(该系统应用生物医学领域的知识图谱辅助理解时,开源知识图谱数据库可以选择美国国家生物医学本体中心(National Center for Biomedical Ontology,NCBO))中爬取符合RDF或OWL语法规范的知识图谱,对爬取的知识图谱通过知识图谱翻译模块进行翻译,将翻译结果存入本地数据库中;当用于在系统中搜索某一主题 的知识图谱时,输入名称与知识图谱的英文名称进行相似度计算,按相似度从大到小进行排序,得到待选目标知识图谱;
途径二:用户上传符合RDF或OWL语法规范的知识图谱作为目标知识图谱。
进一步地,获取目标知识图谱的途径一中,相似度判断系数采用Jaccard相似系数(杰卡德系数),它常用于比较有限样本集之间的相似性与差异性,Jaccard系数值越大,样本相似度越高。
将用户输入名称的概念集合记为C 1,知识图谱英文名称的概念集合记为C 2,则两者之间的Jaccard相似系数J(C 1,C 2)为:
Figure PCTCN2020083591-appb-000001
如果C1和C2完全相同,则J(C 1,C 2)值为1;每次搜索结果按照相似度大小排序,呈现相似度较高的N个结果,N为用户自定义。
进一步地,所述知识图谱翻译模块中提取目标知识图谱的三元组的步骤具体如下:利用SPARQL(SPARQL Protocol and RDF Query Language,SPARQL协议和RDF查询语言)提取目标知识图谱中全部知识点(类、实例、对象属性、数据属性、注解等)对应的主语、谓语和宾语,并将其编码成资源描述框架的三元组(RDF Triple)。
进一步地,所述知识图谱翻译模块中目标知识图谱的短句生成步骤具体如下:首先对获取的三元组进行字符串分割,获得主语、谓语和宾语的名称,构建三个动态数组。在短句生成中,由于主语、谓语和宾语关系是一对一对一的关系,所以通过嵌套循环,将对应的主语、谓语、宾语利用Simplenlg直接组装成短句即可。
进一步地,所述知识图谱翻译模块中目标知识图谱的长句生成的步骤具体如下:首先对获取的三元组进行字符串分割,获得主语、谓语和宾语的名称,构建三个动态数组。在长句生成中,考虑到一个主语可以对应多个谓语,而每个谓语又可以对应多个宾语,因此在谓语数组中,不同主语对应的谓语之间用特殊标识符进行标记;在宾语数组中,不同主语对应的不同谓语的宾语之间采用另一特殊标识符进行标记,实现主语、谓语、宾语的一一对应关系,然后采用嵌套循环,对这些特殊标识符进行判断,将对应的主语、谓语和宾语利用Simplenlg进行组装。其中同一主语不同谓语各自构成一个句子,同一主语的所有句子构成一个段落,不同宾语之间用连接词(和、或)进行连接。
进一步地,所述知识图谱翻译模块中目标知识图谱的补充句子的注解信息步骤具体如下:首先对谓语数组进行循环,如果谓语为“comment”(表示宾语为主语的注释),则将对应的主语和宾语提取,形成一个新的动态数组-注解数组,其中奇数下标的数组元素存储主语,偶数下 标的数组元素存储宾语。然后进行主语数组、谓语数组和宾语数组的嵌套循环,判断主语、宾语是否在注解数组中,如果存在,则在该主语或者宾语后面添加括号,括号内为其注解,然后判断谓语,如果谓语不是“comment”,则进行组装,否则不组装。
进一步地,所述知识图谱翻译模块中目标知识图谱的短句和长句插入数据库的步骤具体如下:利用JDBC(Java DataBase Connectivity)API进行数据库的连接,首先创建存放翻译结果的数据库以及数据表,定义表名、表字段、确认主键等,然后将知识图谱的英文名称与数据库中存储的名称进行匹配,如果该知识图谱的翻译结果已经存在于知识库中,则不进行插入操作,如果没有,则将生成的短句数组和长句数组添加到数据表中。
进一步地,所述结果展示模块中翻译内容和源文件展示的具体步骤如下:在网页界面中选定目标知识图谱后,利用ajax从数据库中调取该知识图谱对应的所有翻译内容显示在界面上,并且从本地服务器读取目标知识图谱的源文件,共同显示在界面中。
进一步地,所述结果展示模块中可视化展示的具体步骤如下:在网页界面中选定目标知识图谱后,利用ajax获取后端相应的JSON格式的文件,绘制树状图;在树状图中,每个节点表示主语或者宾语,每个节点通过连线与其他关联的节点进行连接。
本发明的有益效果是:本发明利用自然语言生成技术将知识图谱转换为自然语言文本,方便领域专家在不了解知识图谱的源代码和软件的基础上,在使用知识图谱前,对于其领域的知识图谱有准确、深入且全面的了解。同时每一个短句与知识图谱本身对应的源代码相关联,如果发现知识图谱存在的冗余和错误信息,可以及时对其进行纠正,且该方法通用性较强。本发明利用可视化方法进一步加快领域专家对于知识图谱的理解。
附图说明
图1为本发明基于自然语言生成技术的知识图谱辅助理解系统的结构框图;
图2为本发明基于自然语言生成技术的知识图谱辅助理解系统的实现流程图;
图3为本发明知识图谱翻译模块的自然语言生成流程图;
图4为某一知识图谱的部分源代码示意图;
图5为利用自然语言技术生成的短句示意图;
图6为利用自然语言技术生成的长句示意图;
图7为类与子类的树状图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1、2所示,本发明提供的一种基于自然语言生成技术的知识图谱辅助理解系统,包括知识图谱选择模块、知识图谱翻译模块和结果展示模块;
一、知识图谱选择模块
知识图谱选择模块用于获取符合RDF或OWL语法规范的目标知识图谱;获取目标知识图谱的途径包括两种:
途径一:从开源知识图谱数据库(该系统应用生物医学领域的知识图谱辅助理解时,开源知识图谱数据库可以选择美国国家生物医学本体中心(National Center for Biomedical Ontology,NCBO))中爬取符合RDF或OWL语法规范的知识图谱,对爬取的知识图谱通过知识图谱翻译模块进行翻译,将翻译结果存入本地数据库中;当用于在系统中搜索某一主题的知识图谱时,输入名称与知识图谱的英文名称进行相似度计算,按相似度从大到小进行排序,得到待选目标知识图谱;
相似度判断系数可以采用Jaccard相似系数(杰卡德系数),它常用于比较有限样本集之间的相似性与差异性,Jaccard系数值越大,样本相似度越高。
将用户输入名称的概念集合记为C 1,知识图谱英文名称的概念集合记为C 2,则两者之间的Jaccard相似系数J(C 1,C 2)为:
Figure PCTCN2020083591-appb-000002
如果C1和C2完全相同,则J(C 1,C 2)值为1;每次搜索结果按照相似度大小排序,呈现相似度较高的N个结果,N为用户自定义,N可以设置为15。
途径二:用户上传符合RDF或OWL语法规范的知识图谱作为目标知识图谱。
二、知识图谱翻译模块
具体流程如图3所示,首先提取目标知识图谱的三元组,对提取的三元组进行字符串分割得到三个动态数组:主语数组、谓语数组、宾语数组,三者之间具有一一对应关系,然后通过嵌套循环,利用simplenlg工具对主语、谓语和宾语进行组装,形成一句完整的短句;同时对于主语-谓语-宾语的关系存在一对一对多和一对多对多的情况,在谓语数组和宾语数组中加入特殊字符进行标识,以确定该谓语对应某一主语以及该宾语对应某一主语和某一谓语,然后在嵌套循环中判断这些特殊字符以确定主语、谓语、宾语的对应关系,利用simplenlg工具对对应的主语、谓语和宾语进行组装,形成一个完整的长句;其中注解部分对应的三元组不单独成句,而是作为补充其他句子的注解信息;然后将目标知识图谱翻译成短句和长句,同时生成的句子需要进一步规范,例如句子开头的英文字母大写,部分名称添加超链接等。规范后的句子被插入本地数据库中,并从主语、谓语、宾语三个动态数组中选出类与子类、类与实例关系的内容组装成JSON格式的文件。本地数据库可采用MySQL数据库,MySQL是目前比较流行的一个开源的关系型数据库管理系统,它可以将数据保存在不同的表中,而 不是把数据全部放在一个的仓库里,这样就增加了速度。
提取目标知识图谱的三元组的步骤具体如下:利用SPARQL(SPARQL Protocol and RDF Query Language,SPARQL协议和RDF查询语言)提取目标知识图谱中全部知识点(类、实例、对象属性、数据属性、注解等)对应的主语、谓语和宾语,并将其编码成资源描述框架的三元组(RDF Triple)。
目标知识图谱的短句生成步骤具体如下:首先对获取的三元组进行字符串分割,获得主语、谓语和宾语的名称,构建三个动态数组。在短句生成中,由于主语、谓语和宾语关系是一对一对一的关系,所以通过嵌套循环,将对应的主语、谓语、宾语利用Simplenlg直接组装成短句即可。
目标知识图谱的长句生成的步骤具体如下:首先对获取的三元组进行字符串分割,获得主语、谓语和宾语的名称,构建三个动态数组。在长句生成中,考虑到一个主语可以对应多个谓语,而每个谓语又可以对应多个宾语,因此在谓语数组中,不同主语对应的谓语之间用特殊标识符进行标记;在宾语数组中,不同主语对应的不同谓语的宾语之间采用另一特殊标识符进行标记,实现主语、谓语、宾语的一一对应关系,然后采用嵌套循环,对这些特殊标识符进行判断,将对应的主语、谓语和宾语利用Simplenlg进行组装。其中同一主语不同谓语各自构成一个句子,同一主语的所有句子构成一个段落,不同宾语之间用连接词(和、或)进行连接。
目标知识图谱的补充句子的注解信息步骤具体如下:首先对谓语数组进行循环,如果谓语为“comment”(表示宾语为主语的注释),则将对应的主语和宾语提取,形成一个新的动态数组-注解数组,其中奇数下标的数组元素存储主语,偶数下标的数组元素存储宾语。然后进行主语数组、谓语数组和宾语数组的嵌套循环,判断主语、宾语是否在注解数组中,如果存在,则在该主语或者宾语后面添加括号,括号内为其注解,然后判断谓语,如果谓语不是“comment”,则进行组装,否则不组装。
目标知识图谱的短句和长句插入数据库的步骤具体如下:利用JDBC(Java DataBase Connectivity)API,实现Java与数据库的连接,首先创建存放翻译结果的数据库以及数据表,定义表名、表字段、确认主键等,然后将知识图谱的英文名称与数据库中存储的名称进行匹配,如果该知识图谱的翻译结果已经存在于知识库中,则不进行插入操作,如果没有,则将生成的短句数组和长句数组添加到数据表中。
三、结果展示模块
结果展示分为三部分。当网页端选中目标知识图谱或者在网站上传目标知识图谱时,通过ajax会将该文件或者参数递交给后端,文件被传入后端后,其源代码会显示在网页上,并 自动进行自然语言生成,生成的结果会被插入数据库中,然后从数据库中读取相关内容显示在网页端。同时系统从主语、谓语、宾语三个动态数组中选出类与子类、类与实例关系的内容组装成JSON格式的文件,传送到前端,并利用可视化工具D3绘制树状图,显示其主要的层级结构。以美国生物医学本体中心公开的一个有关慢性肾病的知识图谱为例,其运行结果如图4-7所示,图7展示了树状图的部分内容。
利用本发明系统,把目标知识图谱上传到网站上或者在网站上选择库中的知识图谱后,系统会自动查询知识图谱里的相关内容,分割字符串,将RDF Triple翻译成短句和长句,并进一步规范句式,最后将生成的文本展示给领域专家,其中每一条句子都与其知识图谱的源代码相对应。同时系统对知识图谱中重要的类与子类、类与实例关系以树状图的形式呈现,帮助专家快速理解和掌握该知识图谱的内容和信息,以便在短时间内进行质量的把控。
以上仅为本发明的实施实例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

  1. 一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,该系统包括知识图谱选择模块、知识图谱翻译模块和结果展示模块;
    所述知识图谱选择模块用于获取符合RDF或OWL语法规范的目标知识图谱;
    所述知识图谱翻译模块:首先提取目标知识图谱的三元组,对提取的三元组进行字符串分割得到三个动态数组:主语数组、谓语数组、宾语数组,三者之间具有一一对应关系,然后通过嵌套循环,利用simplenlg工具对主语、谓语和宾语进行组装,形成一句完整的短句;同时对于主语-谓语-宾语的关系存在一对一对多和一对多对多的情况,在谓语数组和宾语数组中加入特殊字符进行标识,以确定该谓语对应某一主语以及该宾语对应某一主语和某一谓语,然后在嵌套循环中判断这些特殊字符以确定主语、谓语、宾语的对应关系,利用simplenlg工具对对应的主语、谓语和宾语进行组装,形成一个完整的长句;其中注解部分对应的三元组不单独成句,而是作为补充其他句子的注解信息;然后将目标知识图谱翻译成短句和长句,句子得到进一步规范后被存入本地数据库中,并从主语、谓语、宾语三个动态数组中选出类与子类、类与实例关系的内容组装成JSON格式的文件;
    所述结果展示模块从本地数据库调取目标知识图谱的翻译内容,将翻译内容以及目标知识图谱的源文件进行共同展示,同时获取JSON格式的文件,通过可视化工具绘制树状图,对知识图谱中的类与子类以及类与实例的层级结构进行可视化展示。
  2. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱选择模块获取目标知识图谱的途径包括两种:
    途径一:从开源知识图谱数据库中爬取符合RDF或OWL语法规范的知识图谱,对爬取的知识图谱通过知识图谱翻译模块进行翻译,将翻译结果存入本地数据库中;当用于在系统中搜索某一主题的知识图谱时,输入名称与知识图谱的英文名称进行相似度计算,按相似度从大到小进行排序,得到待选目标知识图谱;
    途径二:用户上传符合RDF或OWL语法规范的知识图谱作为目标知识图谱。
  3. 根据权利要求2所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,获取目标知识图谱的途径一中,相似度判断系数采用Jaccard相似系数。
    将用户输入名称的概念集合记为C 1,知识图谱英文名称的概念集合记为C 2,则两者之间的Jaccard相似系数J(C 1,C 2)为:
    Figure PCTCN2020083591-appb-100001
    如果C1和C2完全相同,则J(C 1,C 2)值为1;每次搜索结果按照相似度大小排序。
  4. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中提取目标知识图谱的三元组的步骤具体如下:利用SPARQL提取目标知识图谱中全部知识点(类、实例、对象属性、数据属性、注解等)对应的主语、谓语和宾语,并将其编码成资源描述框架的三元组。
  5. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中目标知识图谱的短句生成步骤具体如下:首先对获取的三元组进行字符串分割,获得主语、谓语和宾语的名称,构建三个动态数组。在短句生成中,由于主语、谓语和宾语关系是一对一对一的关系,所以通过嵌套循环,将对应的主语、谓语、宾语利用Simplenlg直接组装成短句即可。
  6. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中目标知识图谱的长句生成的步骤具体如下:首先对获取的三元组进行字符串分割,获得主语、谓语和宾语的名称,构建三个动态数组。在长句生成中,考虑到一个主语可以对应多个谓语,而每个谓语又可以对应多个宾语,因此在谓语数组中,不同主语对应的谓语之间用特殊标识符进行标记;在宾语数组中,不同主语对应的不同谓语的宾语之间采用另一特殊标识符进行标记,实现主语、谓语、宾语的一一对应关系,然后采用嵌套循环,对这些特殊标识符进行判断,将对应的主语、谓语和宾语利用Simplenlg进行组装。其中同一主语不同谓语各自构成一个句子,同一主语的所有句子构成一个段落,不同宾语之间用连接词进行连接。
  7. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中目标知识图谱的补充句子的注解信息步骤具体如下:首先对谓语数组进行循环,如果谓语为“comment”(表示宾语为主语的注释),则将对应的主语和宾语提取,形成一个新的动态数组-注解数组,其中奇数下标的数组元素存储主语,偶数下标的数组元素存储宾语。然后进行主语数组、谓语数组和宾语数组的嵌套循环,判断主语、宾语是否在注解数组中,如果存在,则在该主语或者宾语后面添加括号,括号内为其注解,然后判断谓语,如果谓语不是“comment”,则进行组装,否则不组装。
  8. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述知识图谱翻译模块中目标知识图谱的短句和长句插入数据库的步骤具体如下:利用JDBC API进行数据库的连接,首先创建存放翻译结果的数据库以及数据表,定义表名、表字段、确认主键等,然后将知识图谱的英文名称与数据库中存储的名称进行匹配,如果该知识图谱的翻译结果已经存在于本地数据库中,则不进行插入操作,如果没有,则将生成的 短句数组和长句数组添加到数据表中。
  9. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述结果展示模块中翻译内容和源文件展示的具体步骤如下:在网页界面中选定目标知识图谱后,利用ajax从数据库中调取该知识图谱对应的所有翻译内容显示在界面上,并且从本地服务器读取目标知识图谱的源文件,共同显示在界面中。
  10. 根据权利要求1所述的一种基于自然语言生成技术的知识图谱辅助理解系统,其特征在于,所述结果展示模块中可视化展示的具体步骤如下:在网页界面中选定目标知识图谱后,利用ajax获取后端相应的JSON格式的文件,绘制树状图;在树状图中,每个节点表示主语或者宾语,每个节点通过连线与其他关联的节点进行连接。
PCT/CN2020/083591 2019-07-12 2020-04-07 一种基于自然语言生成技术的知识图谱辅助理解系统 WO2020233261A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021532885A JP7064262B2 (ja) 2019-07-12 2020-04-07 自然言語生成技術に基づく知識グラフ理解支援システム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910629843.0A CN110347798B (zh) 2019-07-12 2019-07-12 一种基于自然语言生成技术的知识图谱辅助理解系统
CN201910629843.0 2019-07-12

Publications (1)

Publication Number Publication Date
WO2020233261A1 true WO2020233261A1 (zh) 2020-11-26

Family

ID=68176110

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/083591 WO2020233261A1 (zh) 2019-07-12 2020-04-07 一种基于自然语言生成技术的知识图谱辅助理解系统

Country Status (3)

Country Link
JP (1) JP7064262B2 (zh)
CN (1) CN110347798B (zh)
WO (1) WO2020233261A1 (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749184A (zh) * 2021-01-13 2021-05-04 首都师范大学 一种sparql联合查询的数据源选择方法
CN113111458A (zh) * 2021-04-13 2021-07-13 合肥工业大学 一种基于dxf的钣金件自动识别和定位方法
CN113157891A (zh) * 2021-05-07 2021-07-23 泰康保险集团股份有限公司 知识图谱路径排序方法、系统、设备及存储介质
CN113282762A (zh) * 2021-05-27 2021-08-20 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113377349A (zh) * 2021-06-21 2021-09-10 浙江工业大学 服务流程间差异检测与自然语言翻译方法
CN113407688A (zh) * 2021-06-15 2021-09-17 西安理工大学 一种基于知识图谱的勘察规范智能问答系统的建立方法
CN113467755A (zh) * 2021-07-12 2021-10-01 卡斯柯信号有限公司 需求符合性分析方法、系统、电子设备及存储介质
CN113553443A (zh) * 2021-07-18 2021-10-26 北京智慧星光信息技术有限公司 记录知识图谱游走路径的关系图谱生成方法和系统
CN113805847A (zh) * 2021-09-15 2021-12-17 南通在渡教育咨询有限公司 在线无代码化开发系统
CN113890899A (zh) * 2021-09-13 2022-01-04 北京交通大学 一种基于知识图谱的协议转换方法
CN114153943A (zh) * 2021-11-22 2022-03-08 之江实验室 一种基于知识图谱构建机器人行为树的系统及方法
CN114201618A (zh) * 2022-02-17 2022-03-18 药渡经纬信息科技(北京)有限公司 药物研发文献可视化解读方法和系统
CN114840563A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN115577713A (zh) * 2022-12-07 2023-01-06 中科雨辰科技有限公司 一种基于知识图谱的文本处理方法
WO2023159650A1 (en) * 2022-02-28 2023-08-31 Microsoft Technology Licensing, Llc Mining and visualizing related topics in knowledge base
CN117436420A (zh) * 2023-12-18 2024-01-23 武汉大数据产业发展有限公司 一种基于自然语言处理生成业务流程模型的方法和装置
CN114153943B (zh) * 2021-11-22 2024-05-17 之江实验室 一种基于知识图谱构建机器人行为树的系统及方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110347798B (zh) * 2019-07-12 2021-06-01 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统
CN111370127B (zh) * 2020-01-14 2022-06-10 之江实验室 一种基于知识图谱的跨科室慢性肾病早期诊断决策支持系统
US20210295036A1 (en) * 2020-03-18 2021-09-23 International Business Machines Corporation Systematic language to enable natural language processing on technical diagrams
CN112100322B (zh) * 2020-08-06 2022-09-16 复旦大学 一种基于知识图谱的api元素比较结果自动生成方法
CN112101040B (zh) * 2020-08-20 2024-03-29 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法
CN112380864B (zh) * 2020-11-03 2021-05-28 广西大学 一种基于回译的文本三元组标注样本增强方法
US11829726B2 (en) 2021-01-25 2023-11-28 International Business Machines Corporation Dual learning bridge between text and knowledge graph
CN112966493A (zh) * 2021-02-07 2021-06-15 重庆惠统智慧科技有限公司 一种知识图谱构建方法及系统
CN113094517A (zh) * 2021-04-27 2021-07-09 中国美术学院 一种产品知识单元的构建方法和系统
CN113434626B (zh) * 2021-08-27 2021-12-07 之江实验室 一种多中心医学诊断知识图谱表示学习方法及系统
CN113810480B (zh) * 2021-09-03 2022-09-16 海南大学 基于dikw内容对象的情感通讯方法
CN115271683B (zh) * 2022-09-26 2023-01-13 西南交通大学 基于标准知识图谱元结构的bim自动标准审查系统
CN115545006B (zh) * 2022-10-10 2024-02-13 清华大学 规则脚本生成方法、装置、计算机设备及介质
CN116628229B (zh) * 2023-07-21 2023-11-10 支付宝(杭州)信息技术有限公司 一种利用知识图谱生成文本语料的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的系统和方法
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN109033260A (zh) * 2018-07-06 2018-12-18 天津大学 基于rdf的知识图谱交互式可视化查询方法
WO2019103727A1 (en) * 2017-11-21 2019-05-31 Google Llc Improved onboarding of entity data
WO2019118256A1 (en) * 2017-12-15 2019-06-20 Microsoft Technology Licensing, Llc Generation of text from structured data
CN110347798A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3281122A4 (en) * 2015-07-24 2018-04-25 Samsung Electronics Co., Ltd. Method for automatically generating dynamic index for content displayed on electronic device
US10229195B2 (en) * 2017-06-22 2019-03-12 International Business Machines Corporation Relation extraction using co-training with distant supervision
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN107798136B (zh) * 2017-11-23 2020-12-01 北京百度网讯科技有限公司 基于深度学习的实体关系抽取方法、装置及服务器
CN108829696B (zh) * 2018-04-18 2019-10-25 西安理工大学 面向地铁设计规范中知识图谱节点自动构建方法
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
CN109146078B (zh) * 2018-07-19 2021-04-30 桂林电子科技大学 一种基于动态路径的知识图谱表示学习方法
CN109408811B (zh) * 2018-09-29 2021-10-22 联想(北京)有限公司 一种数据处理方法及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020148A (zh) * 2012-11-23 2013-04-03 复旦大学 一种将中文短语结构树库转化为依存结构树库的系统和方法
WO2019103727A1 (en) * 2017-11-21 2019-05-31 Google Llc Improved onboarding of entity data
WO2019118256A1 (en) * 2017-12-15 2019-06-20 Microsoft Technology Licensing, Llc Generation of text from structured data
CN109033260A (zh) * 2018-07-06 2018-12-18 天津大学 基于rdf的知识图谱交互式可视化查询方法
CN108959613A (zh) * 2018-07-17 2018-12-07 杭州电子科技大学 一种面向rdf知识图谱的语义近似查询方法
CN110347798A (zh) * 2019-07-12 2019-10-18 之江实验室 一种基于自然语言生成技术的知识图谱辅助理解系统

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112749184A (zh) * 2021-01-13 2021-05-04 首都师范大学 一种sparql联合查询的数据源选择方法
CN112749184B (zh) * 2021-01-13 2024-02-20 广东粤通天下科技有限公司 一种sparql联合查询的数据源选择方法
CN114840563A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN114840563B (zh) * 2021-02-01 2024-05-03 腾讯科技(深圳)有限公司 一种字段描述信息的生成方法、装置、设备及存储介质
CN113111458A (zh) * 2021-04-13 2021-07-13 合肥工业大学 一种基于dxf的钣金件自动识别和定位方法
CN113111458B (zh) * 2021-04-13 2022-10-21 合肥工业大学 一种基于dxf的钣金件自动识别和定位方法
CN113157891B (zh) * 2021-05-07 2023-11-17 泰康保险集团股份有限公司 知识图谱路径排序方法、系统、设备及存储介质
CN113157891A (zh) * 2021-05-07 2021-07-23 泰康保险集团股份有限公司 知识图谱路径排序方法、系统、设备及存储介质
CN113282762A (zh) * 2021-05-27 2021-08-20 深圳数联天下智能科技有限公司 知识图谱构建方法、装置、电子设备和存储介质
CN113407688A (zh) * 2021-06-15 2021-09-17 西安理工大学 一种基于知识图谱的勘察规范智能问答系统的建立方法
CN113407688B (zh) * 2021-06-15 2022-09-16 西安理工大学 一种基于知识图谱的勘察规范智能问答系统的建立方法
CN113377349A (zh) * 2021-06-21 2021-09-10 浙江工业大学 服务流程间差异检测与自然语言翻译方法
CN113377349B (zh) * 2021-06-21 2022-05-13 浙江工业大学 服务流程间差异检测与自然语言翻译方法
CN113467755A (zh) * 2021-07-12 2021-10-01 卡斯柯信号有限公司 需求符合性分析方法、系统、电子设备及存储介质
CN113467755B (zh) * 2021-07-12 2022-07-26 卡斯柯信号有限公司 需求符合性分析方法、系统、电子设备及存储介质
CN113553443B (zh) * 2021-07-18 2023-08-22 北京智慧星光信息技术有限公司 记录知识图谱游走路径的关系图谱生成方法和系统
CN113553443A (zh) * 2021-07-18 2021-10-26 北京智慧星光信息技术有限公司 记录知识图谱游走路径的关系图谱生成方法和系统
CN113890899A (zh) * 2021-09-13 2022-01-04 北京交通大学 一种基于知识图谱的协议转换方法
CN113805847A (zh) * 2021-09-15 2021-12-17 南通在渡教育咨询有限公司 在线无代码化开发系统
CN114153943A (zh) * 2021-11-22 2022-03-08 之江实验室 一种基于知识图谱构建机器人行为树的系统及方法
CN114153943B (zh) * 2021-11-22 2024-05-17 之江实验室 一种基于知识图谱构建机器人行为树的系统及方法
CN114201618A (zh) * 2022-02-17 2022-03-18 药渡经纬信息科技(北京)有限公司 药物研发文献可视化解读方法和系统
WO2023159650A1 (en) * 2022-02-28 2023-08-31 Microsoft Technology Licensing, Llc Mining and visualizing related topics in knowledge base
CN115577713A (zh) * 2022-12-07 2023-01-06 中科雨辰科技有限公司 一种基于知识图谱的文本处理方法
CN117436420A (zh) * 2023-12-18 2024-01-23 武汉大数据产业发展有限公司 一种基于自然语言处理生成业务流程模型的方法和装置

Also Published As

Publication number Publication date
CN110347798B (zh) 2021-06-01
CN110347798A (zh) 2019-10-18
JP2022510031A (ja) 2022-01-25
JP7064262B2 (ja) 2022-05-10

Similar Documents

Publication Publication Date Title
WO2020233261A1 (zh) 一种基于自然语言生成技术的知识图谱辅助理解系统
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
CN108763333B (zh) 一种基于社会媒体的事件图谱构建方法
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
Shigarov et al. Rule-based spreadsheet data transformation from arbitrary to relational tables
CN107391677B (zh) 携带实体关系属性的中文通用知识图谱的生成方法及装置
CN104636466B (zh) 一种面向开放网页的实体属性抽取方法和系统
WO2015043075A1 (zh) 面向微博的情感实体搜索系统
CN111598702A (zh) 一种基于知识图谱的风险投资语义搜索的方法
Remi et al. Domain ontology driven fuzzy semantic information retrieval
Lin et al. OWL Ontology Extraction from Relational Databases via Database Reverse Engineering.
US20230030086A1 (en) System and method for generating ontologies and retrieving information using the same
CN114218472A (zh) 基于知识图谱的智能搜索系统
Xu et al. Novel approach of semantic annotation by fuzzy ontology based on variable precision rough set and concept lattice
Cocco et al. Machine learning of SPARQL templates for question answering over LinkedSpending
Qin et al. Food safety knowledge graph and question answering system
Prudhomme et al. Automatic Integration of Spatial Data into the Semantic Web.
Song et al. Semantic query graph based SPARQL generation from natural language questions
CN107491524B (zh) 一种基于Wikipedia概念向量的中文词语相关度计算方法和装置
CN110795453A (zh) 一种基于关系数据库自动构建rdf的方法
Faiz et al. OD2WD: From Open Data to Wikidata through Patterns.
Katsurai Using word embeddings for library and information science research: A short survey
Xu et al. Semantic annotation of ontology by using rough concept lattice isomorphic model
Nguyen et al. Mtab4d: Semantic annotation of tabular data with dbpedia
Tang et al. Ontology-based semantic retrieval for education management systems

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20810763

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021532885

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20810763

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 20810763

Country of ref document: EP

Kind code of ref document: A1