WO2021017290A1 - 基于知识图谱的实体识别数据增强方法及系统 - Google Patents

基于知识图谱的实体识别数据增强方法及系统 Download PDF

Info

Publication number
WO2021017290A1
WO2021017290A1 PCT/CN2019/117762 CN2019117762W WO2021017290A1 WO 2021017290 A1 WO2021017290 A1 WO 2021017290A1 CN 2019117762 W CN2019117762 W CN 2019117762W WO 2021017290 A1 WO2021017290 A1 WO 2021017290A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
entity
answer data
answer
weight
Prior art date
Application number
PCT/CN2019/117762
Other languages
English (en)
French (fr)
Inventor
梁欣
朱威
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021017290A1 publication Critical patent/WO2021017290A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Definitions

  • the embodiments of the application relate to the field of big data, and in particular to a method, system, computer device, and readable storage medium for enhancing entity recognition data based on a knowledge graph.
  • Knowledge graph is the use of visualization technology or structured methods to describe the knowledge of entities and entity relationships, and provide high-quality knowledge retrieval services for search engine users.
  • the knowledge graph is the prototype of the next-generation search engine, making search more semantic and intelligent.
  • Knowledge graphs need to identify entities.
  • Most of the current knowledge graphs are researched from traditional fields by identifying the entities mentioned in user questions. For example, taking the medical field as an example, the entities that need to be identified generally include drugs, diseases, and symptoms.
  • the question answering system can link the entity with the picture, map the recognized entity to the picture, identify the user's intention, and give the answer to the corresponding question by looking up the graph.
  • bi-directional Long Short-Term Memory Network Conditional Random Field biLSTM-CRF
  • This deep learning model requires a large number of labeled sentences for training .
  • knowledge graph question answering system Knowledge Graph Question Answering System
  • this application aims to solve the problems of lack of data in vertical fields, difficulty in setting up question answering systems, and low recall rate of question entity recognition.
  • an embodiment of the present application provides a method for enhancing entity recognition data based on a knowledge graph, and the method includes:
  • a corresponding weight is assigned to each word segmentation word, wherein the higher the correlation degree, the higher the weight;
  • the second question and answer data template is added to the question and answer database to expand the question and answer database.
  • the collection module is used to collect question and answer data in a certain field from the question and answer database, where the certain field includes at least the medical field and/or the tourism field;
  • the recognition module is used to identify the annotation information of the question and answer data, and identify the intention of the question and answer data according to the annotation information, so as to establish the structure of the entity in the question and answer data in the knowledge graph, wherein the annotation information Including entity identification and labeling information and relationship labeling information between the entities;
  • the word segmentation module is used to segment the relative words to obtain the segmentation words
  • the screening module is used to screen each word segmentation word according to the weight to obtain the reserved word segmentation word;
  • annotation information includes entity identification and annotation information And labeling information about the relationship between the entities;
  • the second question and answer data template is added to the question and answer database to expand the question and answer database.
  • the method, system, computer equipment, and non-volatile computer-readable storage medium for entity recognition data enhancement based on knowledge graphs collect question and answer data in the vertical field to identify the label information of the question and answer data, and
  • the labeling information identifies the intention of the question and answer data to establish the structure of the entity in the question and answer data in the knowledge graph, and identifies the first entity related to the intention from the entity according to the intention, and Conceptualize the first entity into a first concept to obtain a first question and answer data template, perform word segmentation on related words in the first question and answer data template to obtain word segmentation words, and according to the degree of relevance of each word segmentation word to the intention ,
  • To screen out the word segmentation words with a high degree of relevance generate a second question and answer data template according to the screening result, and add the second question and answer data template to the question and answer database to expand the question and answer database.
  • This application can increase the speed of setting up question answering systems in vertical fields, and can effectively improve the recall rate of question
  • FIG. 1 is a flowchart of the steps of a method for enhancing entity recognition data based on a knowledge graph in Embodiment 1 of this application.
  • FIG. 1 shows a flow chart of the method for enhancing entity recognition data based on a knowledge graph in the first embodiment of the present application. It can be understood that the flowchart in this method embodiment is not used to limit the order of execution of the steps. It should be noted that, in this embodiment, the computer device 2 is used as the execution subject for exemplary description. details as follows:
  • the establishment of the medical field and the tourism field is achieved by establishing a knowledge base that stores preset medical field, tourism field classifications, and question and answer data corresponding to the medical field and tourism field. . Then, according to the question and answer data stored in the knowledge base, the question and answer data of a certain field is collected, for example, the question and answer data of a medical field in the certain field is collected.
  • Step S104 Identify a first entity related to the intent from the entity according to the intent, and conceptualize the entity into a first concept to obtain a first question and answer data template, wherein the first question and answer data template Including the first concept and related words.
  • the concept is the abstract representation of the entity
  • the entity is the concrete instance of the concept
  • the attribute is the attribute value of an entity pointing to it.
  • the attribute of hyperlipidemia is disease
  • hyperlipidemia is a concrete instance of disease
  • disease is an abstract representation of hyperlipidemia.
  • the screening module 206 is configured to screen each word segmentation term according to the weight to obtain reserved word segmentation terms.
  • the screening module 206 will assign the word "Shi” "Delete and keep the word “Attention”. Then, the generation module 207 reorganizes " ⁇ disease>", “patient”, “take”, “ ⁇ medicine>”, “what”, “note” and “items” to generate a new question template " ⁇ disease> patient What are the precautions for taking ⁇ medicine>”. Finally, the expansion module 208 adds the new question template to the question and answer database.
  • the computer device 2 recognizes the semantics of the question and answer data template, and expands a plurality of other question and answer data templates with the same semantics according to the semantics, for example: the question and answer data template is " ⁇ disease >What are the precautions for patients taking ⁇ medicine>", according to the semantics of the question and answer data template, the question and answer data template " ⁇ disease>What are the precautions for patients to eat ⁇ medicine>", “ ⁇ disease>The patients need to pay attention to eating ⁇ medicine> What” and " ⁇ disease>What are the precautions for patients to take ⁇ medicine>” etc.
  • the fourth entity with the same attribute as the third entity is selected according to a preset rule Replace the third entity to obtain a fourth question and answer data template, wherein the preset rule may be to randomly replace the third entity with a fourth entity having the same attribute as the third entity to obtain a fourth question and answer data template .
  • the fourth question and answer data template is stored in the database to expand the question and answer data.
  • the expansion module 208 replaces the first entity or the fifth entity with the fifth entity. Said the second entity to obtain the fifth question and answer data. Finally, save the fifth question and answer data in a database to expand the question and answer data. For example, if the alias of "999 Ganmaoling Granules" entity is "Ganmaoling Granules", replace the "999 Ganmaoling Granules" entity with the "Ganmaoling Granules” entity, and add the question and answer data after the replacement to the question and answer database, To expand the question and answer database.
  • annotation information includes entity identification and annotation information And labeling information about the relationship between the entities;
  • a corresponding weight is assigned to each word segmentation word, wherein the higher the correlation degree, the higher the weight;

Abstract

一种基于知识图谱的实体识别数据增强方法,包括:采集确定领域的问答数据;识别问答数据的标注信息,并根据标注信息识别问答数据的意图,以建立问答数据中的实体在知识图谱中的结构(S102);从实体中识别出与意图相关的第一实体,并对第一实体概念化成第一概念以获取第一问答数据模板,第一问答数据模板包括第一概念与关系词;对关系词进行分词,得到分词词语(S106);根据每个分词词语与意图的相关程度,对每个分词词语分别赋予对应的权重(S108),以获得保留的分词词语;将保留的分词词语及第一概念进行组合,以生成第二问答数据模板并加入至问答数据库中。通过该方法能够提升垂直领域中问答系统的搭建速度,且能够有效提高问句实体识别的召回率。

Description

基于知识图谱的实体识别数据增强方法及系统
本申请要求于2019年7月31日提交中国专利局,专利名称为“基于知识图谱的实体识别数据增强方法及系统”,申请号为201910699296.3的发明专利的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及大数据领域,尤其涉及一种基于知识图谱的实体识别数据增强方法、系统、计算机设备及可读存储介质。
背景技术
知识图谱是利用可视化技术或结构化方式来描述实体和实体关系知识,为搜索引擎用户提供高质量的知识检索服务。知识图谱是构建下一代搜索引擎的雏形,使得搜索更加语义化和智能化。知识图谱需要对实体进行识别,目前的知识图谱大多是从传统领域进行研究,通过将用户问句中所提及的实体识别出来。例如,以医疗领域为例,需要识别的实体一般包括药品、疾病及症状等。基于实体识别的结果,问答系统才能将实体与图片进行链接,将识别出的实体对应到图片上,在进行用户意图识别,通过查找图谱给出对应问题的答案。实体识别在学界与业界采用的基准模型均为双向长短期记忆网络条件随机场(Bi-directional Long Short-Term Memory Network Conditional Random Field,biLSTM-CRF)模型,该深度学习模型需要大量标注语句进行训练。
发明人发现,垂直领域问答数据,特别是适合于知识图谱的智能问答系统(Knowledge Graph Question Answering System,KGQA)进行回答的问句,通常是较为匮乏的。数据稀疏性导致模型无法充分训练,使得模型很容易出现过拟合,泛化性能较差,尤其是在实际业务场景中召回率太低,对用户输入的问句不能很好的提取其中的实体。
故,本申请旨在解决垂直领域数据缺乏,问答系统搭建困难,问句实体识 别的召回率低的问题。
发明内容
有鉴于此,有必要提供一种基于知识图谱的实体识别数据增强方法、系统、计算机设备及非易失性计算机可读存储介质,能够提升垂直领域中问答系统的搭建速度,且能够有效提高问句实体识别的召回率。
为实现上述目的,本申请实施例提供了一种基于知识图谱的实体识别数据增强方法,所述方法包括:
从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
对所述关系词进行分词,得到分词词语;
根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
将所述保留的词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
为实现上述目的,本申请实施例还提供了一种基于知识图谱的实体识别数据增强系统,包括:
采集模块,用于从问答数据库采集确定领域的问答数据,其中,所述确定 领域至少包括医疗领域和/或旅游领域;
识别模块,用于识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
获取模块,用于根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
分词模块,用于对所述关系词进行分词,得到分词词语;
赋予模块,用于根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
筛选模块,用于根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
生成模块,用于将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
扩充模块,用于将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
为实现上述目的,本申请实施例还提供了一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如下步骤:
从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
对所述关系词进行分词,得到分词词语;
根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
将所述保留的词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
为实现上述目的,本申请实施例还提供了一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
对所述关系词进行分词,得到分词词语;
根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
将所述保留的词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
本申请实施例提供的基于知识图谱的实体识别数据增强方法、系统、计算 机设备及非易失性计算机可读存储介质,通过采集垂直领域的问答数据,识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,对所述第一问答数据模板中的关系词进行分词得到分词词语,并根据每个分词词语与所述意图的相关程度,以筛选出相关程度高的分词词语,根据筛选结果生成第二问答数据模板,将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。本申请能够提升垂直领域中问答系统的搭建速度,且能够有效提高问句实体识别的召回率。
附图说明
图1为本申请实施例一之基于知识图谱的实体识别数据增强方法的步骤流程图。
图2为本申请实施例二之计算机设备的硬件架构示意图。
图3为本申请实施例三之基于知识图谱的实体识别数据增强系统的程序模块示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本 领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
实施例一
参阅图1,示出了本申请实施例一之基于知识图谱的实体识别数据增强方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。需要说明是,本实施例以计算机设备2为执行主体进行示例性描述。具体如下:
步骤S100,从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域。
例如:若需要对医疗领域的实体进行识别,则采集医疗领域的问答数据。若需要对旅游领域的实体进行识别,则采集旅游领域的问答数据。实体指的是具有可区别性且独立存在的某种事物,例如医疗领域中的高血脂和阿托伐他汀。需要说明的是,所述医疗领域及所述旅游领域的确立,通过建立知识库,所述知识库存储有预设的医疗领域、旅游领域分类以及与所述医疗领域、旅游领域对应的问答数据。然后,根据所述知识库中存储的所述问答数据进行确定领域的问答数据采集,例如对确定领域中医疗领域的问答数据采集。
步骤S102,识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息。
在一较佳实施例中,用户根据采集到的所述问答数据的意图,对所述问答数据中的实体及关系进行标注,所述计算机设备2获取所述用户对所述问答数据的标注信息,以建立所述实体在知识图谱中的对应关系。
步骤S104,根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词。
在一较佳实施例中,当对所述第一实体概念化时,首先识别所述第一实体 的属性,然后将所述第一实体按照所述属性进行分类,并将属性相同的第一实体划分为同一问答数据模板后,获取所述第一问答数据模板。
需要说明的是,概念是实体的抽象表示,实体是概念的具象实例,属性是一个实体指向它的属性值。当需要对实体进行概念化时,先识别所述实体的属性,例如:高血脂的属性是病,高血脂是疾病的具象实例,疾病是高血脂的抽象表示。
示例性地,在医疗领域中,问句为“高血脂患者服用阿托伐他汀有什么注意事项”,该问句中实体“高血脂”的属性为疾病<disease>,实体“阿托伐他汀”的属性为药品<medicine>,则该问句划分的问句模板为“<disease>患者服用<medicine>有什么注意事项”。若还有一问句为“糖尿病患者服用二甲双胍有什么注意事项”,由于该问句中实体“糖尿病”的属性为疾病<disease>,另一实体“二甲双胍”的属性为药品<medicine>,则该问句划分的问句模板也为“<disease>患者服用<medicine>时有什么注意事项”。
步骤S106,对所述关系词进行分词,得到分词词语。
步骤S108,根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高。
步骤S110,根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语。
在一较佳实施例中,当根据所述权重对所述每个分词词语进行筛选时,当所述权重高于或等于数据库中存储的预设权重时,保留与所述权重对应的分词词语;当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
步骤S112,将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板。
步骤S114,将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
示例性地,若问句模板为“<disease>患者服用<medicine>时有什么注意事项”,其中关系词为“患者服用”“时有什么注意事项”,对所述关系词分词之 后,分词结果为“患者”“服用”“时”“有”“什么”“注意”“事项”,并对词语“患者”“服用”“时”“有”“什么”“注意”“事项”分别赋予相应的权重,其中,赋予“时”的权重为0.2,“注意”的权重为0.6,而预设权重为0.5,则将词语“时”删除,并将词语“注意”保留。最后,将“<disease>”“患者”“服用”“<medicine>”“有”“什么”“注意”“事项”进行重组,生成新的问句模板“<disease>患者服用<medicine>有什么注意事项”,并将该新的问句模板加入至所述问答数据库中。
在另一较佳实施例中,识别所述问答数据模板的语义,根据所述语义扩充多个与所述语义相同的其他问答数据模板,例如:问答数据模板为“<disease>患者服用<medicine>有什么注意事项”,根据问答数据模板的语义扩充出问答数据模板“<disease>病人吃<medicine>的注意事项有什么”、“<disease>病人吃<medicine>需要注意什么”及“<disease>病人吃<medicine>有什么注意事项”等。
在另一较佳实施例中,当根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板时,根据所述知识图谱确认所述第一实体的子图结构。然后,将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板。最后,将所述第三问答数据模板保存于问答数据库中,以对所述问答数据库进行扩充。
示例性地,问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“感冒”与该问答数据的意图相关,则确认知识图谱中“感冒”的子图结构,若子图结构中包括“头痛”“鼻塞”等实体,由于“头痛”“鼻塞”实体与“感冒”实体的属性均为疾病<disease>,则将所述“头痛”“鼻塞”等实体替换为“感冒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,根据所述意图从所述实体中识别出与所述意图不相关的第三实体时,按照预设规则将与所述第三实体的属性相同的第四实体代替 所述第三实体以获取第四问答数据模板,其中所述预设规则可以为随机将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板。最后,将所述第四问答数据模板保存于数据库中,以对所述问答数据进行扩充。例如:问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“张三”与该问答数据的意图无关,“张三”实体属于姓名属性,则随机将同属于姓名属性的“李四”实体可替换“张三”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,当所述第一实体或所述第二实体与第五实体为同一事物时,则将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据。最后,将所述第五问答数据保存于问答数据库中,以对所述问答数据进行扩充。例如:“999感冒灵颗粒”实体的别名为“感冒灵颗粒”,则将所述“感冒灵颗粒”实体代替“999感冒灵颗粒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
通过本申请实施例,提升了垂直领域中问答系统的搭建速度,且极大地提高了问句实体识别的召回率。
实施例二
请参阅图2,示出了本申请实施例二之计算机设备的硬件架构示意图。计算机设备2包括,但不仅限于,可通过系统总线相互通信连接存储器21、处理22以及网络接口23,图2仅示出了具有组件21-23的计算机设备2,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器21至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器21可以是所述计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中, 所述存储器也可以是所述计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器21还可以既包括所述计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,所述存储器21通常用于存储安装于所述计算机设备2的操作系统和各类应用软件,例如基于知识图谱的实体识别数据增强系统20的程序代码等。此外,所述存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制所述计算机设备2的总体操作。本实施例中,所述处理器22用于运行所述存储器21中存储的程序代码或者处理数据,例如运行所述基于知识图谱的实体识别数据增强系统20等。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子设备之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
实施例三
请参阅图3,示出了本申请实施例三之基于知识图谱的实体识别数据增强系统的程序模块示意图。在本实施例中,基于知识图谱的实体识别数据增强系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本申请,并可实现上述基于知识图谱的实体识别数据增强方法。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于 知识图谱的实体识别数据增强系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
采集模块201,用于从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域。
例如:若需要对医疗领域的实体进行识别,则所述采集模块201采集医疗领域的问答数据。若需要对旅游领域的实体进行识别,则所述采集模块201采集旅游领域的问答数据。实体指的是具有可区别性且独立存在的某种事物,例如医疗领域中的高血脂和阿托伐他汀。需要说明的是,所述医疗领域及所述旅游领域的确立,通过建立知识库,所述知识库存储有预设的医疗领域、旅游领域分类以及与所述医疗领域、旅游领域对应的问答数据。然后,根据所述知识库中存储的所述问答数据进行确定领域的问答数据采集,例如对确定领域中医疗领域的问答数据采集。
识别模块202,用于识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息。
在一较佳实施例中,用户根据采集到的所述问答数据,对所述问答数据中的实体及关系进行标注,所述识别模块202识别所述用户对所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述实体在知识图谱中的对应关系。
获取模块203,用于根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词。
具体地,当对所述第一实体进行概念化时,首先识别所述第一实体的属性,然后将所述第一实体按照所述属性进行分类,并将属性相同的第一实体划分为同一问答数据模板后,所述获取模块203获取所述第一问答数据模板。
需要说明的是,概念是实体的抽象表示,实体是概念的具象实例,属性是 一个实体指向它的属性值。当需要对实体进行概念化时,先识别所述实体的属性,例如:高血脂的属性是病,高血脂是疾病的具象实例,疾病是高血脂的抽象表示。
示例性地,在医疗领域中,问句为“高血脂患者服用阿托伐他汀有什么注意事项”,该问句中实体“高血脂”的属性为疾病<disease>,实体“阿托伐他汀”的属性为药品<medicine>,则该问句划分的问句模板为“<disease>患者服用<medicine>有什么注意事项”。若还有一问句为“糖尿病患者服用二甲双胍有什么注意事项”,由于该问句中实体“糖尿病”的属性为疾病<disease>,另一实体“二甲双胍”的属性为药品<medicine>,则该问句划分的问句模板也为“<disease>患者服用<medicine>时有什么注意事项”。
分词模块204,用于对所述关系词进行分词,得到分词词语。
赋予模块205,用于每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高。
筛选模块206,用于根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语。
在一较佳实施例中,当根据所述权重对所述每个分词词语进行筛选时,当所述权重高于或等于数据库中存储的预设权重时,所述筛选模块206保留与所述权重对应的分词词语;当所述权重低于所述预设权重时,所述筛选模块206将与所述权重对应的分词词语删除。
生成模块207,用于将保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板。
扩充模块208,用于将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
示例性地,若问句模板为“<disease>患者服用<medicine>时有什么注意事项”,其中关系词为“患者服用”“时有什么注意事项”,所述分词模块204对所述关系词分词之后,分词结果为“患者”“服用”“时”“有”“什么”“注意”“事项”,然后所述赋予模块205对词语“患者”“服用”“时”“有”“什么” “注意”“事项”分别赋予相应的权重,其中,赋予“时”的权重为0.2,“注意”的权重为0.6,而预设权重为0.5,则所述筛选模块206将词语“时”删除,并将词语“注意”保留。然后,所述生成模块207将“<disease>”“患者”“服用”“<medicine>”“有”“什么”“注意”“事项”进行重组,生成新的问句模板“<disease>患者服用<medicine>有什么注意事项”。最后,所述扩充模块208将该新的问句模板加入至问答数据库中。
在另一较佳实施例中,所述计算机设备2识别所述问答数据模板的语义,根据所述语义扩充多个与所述语义相同的其他问答数据模板,例如:问答数据模板为“<disease>患者服用<medicine>有什么注意事项”,根据问答数据模板的语义扩充出问答数据模板“<disease>病人吃<medicine>的注意事项有什么”、“<disease>病人吃<medicine>需要注意什么”及“<disease>病人吃<medicine>有什么注意事项”等。
在另一较佳实施例中,当根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板时,所述扩充模块208根据所述知识图谱确认所述第一实体的子图结构。然后,将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板。最后,将所述第三问答数据模板保存于数据库中,以对所述问答数据库进行扩充。
示例性地,问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“感冒”与该问答数据的意图相关,则确认知识图谱中“感冒”的子图结构,若子图结构中包括“头痛”“鼻塞”等实体,由于“头痛”“鼻塞”实体与“感冒”实体的属性均为疾病<disease>,则将所述“头痛”“鼻塞”等实体替换为“感冒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,根据所述意图从所述实体中识别出与所述意图不相关的第三实体时,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板,其中所述预设规则可以为随机将与所 述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板。最后,将所述第四问答数据模板保存于数据库中,以对所述问答数据进行扩充。例如:问答数据为“张三感冒时喝999感冒灵颗粒有什么注意事项”中,实体“张三”与该问答数据的意图无关,“张三”实体属于姓名属性,则随机将同属于姓名属性的“李四”实体可替换“张三”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
在另一较佳实施例中,当所述第一实体或所述第二实体与第五实体为同一事物时,则所述扩充模块208将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据。最后,将所述第五问答数据保存于数据库中,以对所述问答数据进行扩充。例如:“999感冒灵颗粒”实体的别名为“感冒灵颗粒”,则将所述“感冒灵颗粒”实体代替“999感冒灵颗粒”实体,并将替换之后的问答数据加入至问答数据库中,以对所述问答数据库进行扩充。
通过本申请实施例,提升了垂直领域中问答系统的搭建速度,且极大地提高了问句实体识别的召回率。
本申请还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器、处理器等。
本实施例还提供一种非易失性计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的非易失性计算机可读存储介质用于存储基于知识图谱的实体识别数据增强系统20,被处理器执行时实现如下步骤:
从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医 疗领域和/或旅游领域;
识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
对所述关系词进行分词,得到分词词语;
根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于知识图谱的实体识别数据增强方法,包括步骤:
    从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
    识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
    根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
    对所述关系词进行分词,得到分词词语;
    根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
    根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
    将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
    将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
  2. 如权利要求1所述的基于知识图谱的实体识别数据增强方法,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:
    识别所述第一实体的属性;
    将所述第一实体按照所述属性进行分类;及
    将属性相同的第一实体划分为同一问答数据模板。
  3. 如权利要求1所述的基于知识图谱的实体识别数据增强方法,所述根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语的步骤,还包括步骤:
    将所述权重与数据库中存储的预设权重进行比较;及
    当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。
  4. 如权利要求3所述的基于知识图谱的实体识别数据增强方法,所述将所述权重与数据库中存储的预设权重进行比较的步骤之后,还包括步骤:
    当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
  5. 如权利要求1所述的基于知识图谱的实体识别数据增强方法,所述根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板的步骤,还包括步骤:
    根据所述知识图谱确认所述第一实体的子图结构;及
    将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;
    保存所述第三问答数据模板,以对所述问答数据库进行扩充。
  6. 如权利要求5所述的基于知识图谱的实体识别数据增强方法,所述方法还包括步骤:
    根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;
    保存所述第四问答数据模板,以对所述问答数据库进行扩充。
  7. 如权利要求5所述的基于知识图谱的实体识别数据增强方法,所述方法还包括步骤:
    当所述第一实体或所述第二实体与第五实体为同一事物时,将所述第五实体代替所述第一实体或所述第二实体以获取第五问答数据模板;
    保存所述第五问答数据模板,以对所述问答数据库进行扩充。
  8. 一种基于知识图谱的实体识别数据增强系统,包括:
    采集模块,用于从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
    识别模块,用于识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
    获取模块,用于根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
    分词模块,用于对所述关系词进行分词,得到分词词语;
    赋予模块,用于根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
    筛选模块,用于根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
    生成模块,用于将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;
    扩充模块,用于将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
  9. 一种计算机设备,所述计算机设备存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被处理器执行时实现如下步骤:
    从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
    识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
    根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
    对所述关系词进行分词,得到分词词语;
    根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
    根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
    将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
    将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
  10. 如权利要求9所述的计算机设备,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    识别所述第一实体的属性;
    将所述第一实体按照所述属性进行分类;及
    将属性相同的第一实体划分为同一问答数据模板。
  11. 如权利要求9所述的计算机设备,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    将所述权重与数据库中存储的预设权重进行比较;及
    当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。
  12. 如权利要求11所述的计算机设备,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
  13. 如权利要求9所述的计算机设备,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    根据所述知识图谱确认所述第一实体的子图结构;及
    将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;
    保存所述第三问答数据模板,以对所述问答数据库进行扩充。
  14. 如权利要求13所述的计算机设备,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预 设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;
    保存所述第四问答数据模板,以对所述问答数据库进行扩充。
  15. 一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如下步骤:
    从问答数据库采集确定领域的问答数据,其中,所述确定领域至少包括医疗领域和/或旅游领域;
    识别所述问答数据的标注信息,并根据所述标注信息识别所述问答数据的意图,以建立所述问答数据中的实体在知识图谱中的结构,其中,所述标注信息包括实体识别标注信息及所述实体之间的关系标注信息;
    根据所述意图从所述实体中识别出与所述意图相关的第一实体,并对所述第一实体概念化成第一概念以获取第一问答数据模板,其中所述第一问答数据模板包括所述第一概念与关系词;
    对所述关系词进行分词,得到分词词语;
    根据每个分词词语与所述意图的相关程度,对所述每个分词词语分别赋予对应的权重,其中所述相关程度越高,则所述权重越高;
    根据所述权重对所述每个分词词语进行筛选,得到保留的分词词语;
    将所述保留的分词词语及所述第一概念进行组合,以生成新的第二问答数据模板;及
    将所述第二问答数据模板加入至所述问答数据库中,以对所述问答数据库进行扩充。
  16. 如权利要求15所述的非易失性计算机可读存储介质,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    识别所述第一实体的属性;
    将所述第一实体按照所述属性进行分类;及
    将属性相同的第一实体划分为同一问答数据模板。
  17. 如权利要求15所述的非易失性计算机可读存储介质,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    将所述权重与数据库中存储的预设权重进行比较;及
    当所述权重高于或等于所述预设权重时,保留与所述权重对应的分词词语。
  18. 如权利要求17所述的非易失性计算机可读存储介质,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    当所述权重低于所述预设权重时,将与所述权重对应的分词词语删除。
  19. 如权利要求15所述的非易失性计算机可读存储介质,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    根据所述知识图谱确认所述第一实体的子图结构;及
    将所述子图结构中与所述第一实体的属性相同的第二实体代替所述第一实体以获取第三问答数据模板;
    保存所述第三问答数据模板,以对所述问答数据库进行扩充。
  20. 如权利要求19所述的非易失性计算机可读存储介质,所述计算机可读指令被所述处理器执行时还实现以下步骤:
    根据所述意图从所述实体中识别出与所述意图不相关的第三实体,按照预设规则将与所述第三实体的属性相同的第四实体代替所述第三实体以获取第四问答数据模板;
    保存所述第四问答数据模板,以对所述问答数据库进行扩充。
PCT/CN2019/117762 2019-07-31 2019-11-13 基于知识图谱的实体识别数据增强方法及系统 WO2021017290A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910699296.3 2019-07-31
CN201910699296.3A CN110598204B (zh) 2019-07-31 2019-07-31 基于知识图谱的实体识别数据增强方法及系统

Publications (1)

Publication Number Publication Date
WO2021017290A1 true WO2021017290A1 (zh) 2021-02-04

Family

ID=68853142

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/117762 WO2021017290A1 (zh) 2019-07-31 2019-11-13 基于知识图谱的实体识别数据增强方法及系统

Country Status (2)

Country Link
CN (1) CN110598204B (zh)
WO (1) WO2021017290A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157939A (zh) * 2021-03-26 2021-07-23 联想(北京)有限公司 一种信息处理方法及装置
CN117688189A (zh) * 2023-12-27 2024-03-12 珠江水利委员会珠江水利科学研究院 一种融合知识图谱、知识库和大型语言模型的问答系统构建方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339252B (zh) * 2020-02-25 2021-05-11 腾讯科技(深圳)有限公司 一种搜索方法、装置及存储介质
CN112015919A (zh) * 2020-09-15 2020-12-01 重庆广播电视大学重庆工商职业学院 一种基于学习辅助知识图谱的对话管理方法
CN116737520B (zh) * 2023-06-12 2024-05-03 北京优特捷信息技术有限公司 一种日志数据的数据编织方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193393A1 (en) * 2016-01-04 2017-07-06 International Business Machines Corporation Automated Knowledge Graph Creation
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN109189946A (zh) * 2018-11-06 2019-01-11 湖南云智迅联科技发展有限公司 一种将设备故障语句描述转换为知识图谱表达的方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101635275B1 (ko) * 2014-10-21 2016-07-08 포항공과대학교 산학협력단 데이터베이스의 데이터 확장 방법 및 장치
US10275515B2 (en) * 2017-02-21 2019-04-30 International Business Machines Corporation Question-answer pair generation
CN107766483A (zh) * 2017-10-13 2018-03-06 华中科技大学 一种基于知识图谱的交互式问答方法及系统
CN108345640B (zh) * 2018-01-12 2021-10-12 上海大学 一种基于神经网络语义分析的问答语料库构建方法
CN108509519B (zh) * 2018-03-09 2021-03-09 北京邮电大学 基于深度学习的通用知识图谱增强问答交互系统及方法
CN109918627B (zh) * 2019-01-08 2024-03-19 平安科技(深圳)有限公司 文本生成方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193393A1 (en) * 2016-01-04 2017-07-06 International Business Machines Corporation Automated Knowledge Graph Creation
CN108427735A (zh) * 2018-02-28 2018-08-21 东华大学 基于电子病历的临床知识图谱构建方法
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
CN109189946A (zh) * 2018-11-06 2019-01-11 湖南云智迅联科技发展有限公司 一种将设备故障语句描述转换为知识图谱表达的方法
CN109657037A (zh) * 2018-12-21 2019-04-19 焦点科技股份有限公司 一种基于实体类型和语义相似度的知识图谱问答方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157939A (zh) * 2021-03-26 2021-07-23 联想(北京)有限公司 一种信息处理方法及装置
CN117688189A (zh) * 2023-12-27 2024-03-12 珠江水利委员会珠江水利科学研究院 一种融合知识图谱、知识库和大型语言模型的问答系统构建方法

Also Published As

Publication number Publication date
CN110598204A (zh) 2019-12-20
CN110598204B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
WO2021017290A1 (zh) 基于知识图谱的实体识别数据增强方法及系统
US10909425B1 (en) Systems and methods for mobile image search
JP4893243B2 (ja) 画像要約方法、画像表示装置、kツリー表示システム、kツリー表示プログラム、および、kツリー表示方法
CN113707297B (zh) 医疗数据的处理方法、装置、设备及存储介质
WO2019085335A1 (zh) 利用新词发现投资标的的方法、装置及存储介质
WO2019076062A1 (zh) 功能页面定制方法及应用服务器
WO2021051867A1 (zh) 资产信息识别方法、装置、计算机设备及存储介质
WO2022048210A1 (zh) 命名实体识别方法、装置、电子设备及可读存储介质
CN107133263B (zh) Poi推荐方法、装置、设备及计算机可读存储介质
WO2021073271A1 (zh) 舆情分析方法、装置、计算机装置及存储介质
WO2022222943A1 (zh) 科室推荐方法、装置、电子设备及存储介质
WO2019085120A1 (zh) 协同过滤推荐方法、电子设备及计算机可读存储介质
CN109194704A (zh) 一种b/s端三维模型数据存储方法、装置及存储介质
US20180067986A1 (en) Database model with improved storage and search string generation techniques
WO2021189920A1 (zh) 医疗文献簇的主题确定方法、装置、电子设备及存储介质
WO2021051624A1 (zh) 数据获取方法、装置、电子设备及存储介质
WO2023040530A1 (zh) 网页内容溯源方法、知识图谱构建方法以及相关设备
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
US20210202111A1 (en) Method of classifying medical records
US11275772B2 (en) Method and system for managing network of field-specific entity records
CN107729330B (zh) 获取数据集的方法和装置
US10614136B2 (en) Method and system for managing primary field-specific entity records required by user
WO2021114634A1 (zh) 文本标注方法、设备及存储介质
WO2021135103A1 (zh) 一种语义分析方法、装置、计算机设备及存储介质
EP3654339A1 (en) Method of classifying medical records

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19940023

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19940023

Country of ref document: EP

Kind code of ref document: A1