WO2018072563A1 - 一种知识图谱构建方法、装置及系统 - Google Patents

一种知识图谱构建方法、装置及系统 Download PDF

Info

Publication number
WO2018072563A1
WO2018072563A1 PCT/CN2017/100148 CN2017100148W WO2018072563A1 WO 2018072563 A1 WO2018072563 A1 WO 2018072563A1 CN 2017100148 W CN2017100148 W CN 2017100148W WO 2018072563 A1 WO2018072563 A1 WO 2018072563A1
Authority
WO
WIPO (PCT)
Prior art keywords
entity
data
extraction
knowledge map
relationship
Prior art date
Application number
PCT/CN2017/100148
Other languages
English (en)
French (fr)
Inventor
汪峰来
李春霞
黄震江
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2018072563A1 publication Critical patent/WO2018072563A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Definitions

  • the invention relates to the field of artificial intelligence technology, in particular to a knowledge map construction method, device and system.
  • search engines are an important tool for people to access information and knowledge online.
  • the search engine returns the web page that it believes is most relevant to the keyword and the knowledge map associated with the query term.
  • the search engine will try to compare this string with the captured large-scale webpage. According to the relevance of the webpage to the query term, And the importance of the page itself, sorting the pages and returning them to the user as search results.
  • the knowledge map will understand "Taishan” as an "entity”, which is a real world thing.
  • the search engine will display its basic data in the search results, such as geographic location, altitude, alias, and Wikipedia links, etc., and even tell you about related "entities” such as Lushan, Huashan, Hengshan and Hengshan and other three mountains and five mountains and so on.
  • Knowledge maps give rich semantic information to query words, establish relationships with real-world entities, and help users find the information they need more quickly. Visible knowledge maps have important practical significance, but how to build knowledge maps quickly and effectively has always been the industry. A big challenge.
  • the data source of the knowledge map in the prior art is complex and diverse, and the knowledge acquisition system has high customization degree, poor flexibility, labor cost and low efficiency.
  • the technical problem to be solved by the embodiment of the present invention is to provide a knowledge map construction method and device And the system is used to solve the problem that the knowledge acquisition system in the prior art has high customization degree, poor flexibility, labor cost and low efficiency.
  • an embodiment of the present invention provides a method for constructing a knowledge map, including: collecting corresponding data according to a preset data source rule; and extracting an entity relationship by using the training model to form a corresponding knowledge map.
  • the data source rule includes at least one of the following: a data source type, a data format, and an acquisition policy of the data to be collected.
  • the extracting the entity relationship by using the training model to form the corresponding knowledge map comprises: extracting an entity relationship instance corpus from the collected data through the training model; and performing an entity on the extracted entity relationship instance corpus separately Identification, category extraction, relationship extraction, and attribute extraction; according to the identified entity, the extracted categories and attributes of the entity, and the relationship between the entity and other entities, form a corresponding knowledge map.
  • the entity identification comprises: training an entity recognition model according to the annotated corpus; and performing physical recognition on the raw text corpus by the entity recognition model; the category extraction, the relationship extraction, and the attribute extraction include : Class extraction, relationship extraction, and attribute extraction are performed separately by template matching.
  • the method further includes: evaluating and labeling the correctness of the knowledge map.
  • the method further includes: modifying the training model according to feedback of the user on the knowledge map.
  • the embodiment of the present invention further provides a knowledge map construction apparatus, including: an acquisition unit, configured to collect corresponding data according to a preset data source rule; and an extraction unit configured to collect the collection unit by using the training model.
  • the data extracts the entity relationships to form a corresponding knowledge map.
  • the data source rule includes at least one of the following: a data source of data to be collected. Type, data format and acquisition strategy.
  • the extracting unit includes: an extracting module, configured to extract an entity relationship instance corpus from the collected data through the training model; and the identifying and extracting module is configured to separately perform entity identification and category on the extracted entity relationship instance corpus Extracting, relationship extraction, and attribute extraction; forming a module, configured to extract a category and an attribute of the entity according to the entity identified by the identification and extraction module, and a relationship between the entity and other entities to form a corresponding Knowledge map.
  • the identifying and extracting module is specifically configured to: train an entity recognition model according to the labeled corpus; and perform entity identification on the raw text corpus through the trained entity recognition model; Perform category extraction, relationship extraction, and attribute extraction.
  • the apparatus further includes: a supervising unit configured to: after extracting an entity relationship between the collected data by the training model to form a corresponding knowledge map, evaluating and labeling the correctness of the knowledge map.
  • the apparatus further includes: a correction unit configured to modify the training model according to a feedback of the user on the knowledge map.
  • an embodiment of the present invention further provides an intelligent interaction system, which includes any of the knowledge map construction devices provided by the foregoing embodiments.
  • the system includes at least one of an intelligent customer service system, a chat robot system, a search service system, and a voice assistant system.
  • a storage medium is further provided, and the storage medium may store an execution instruction for executing the implementation of the knowledge map construction method in the foregoing embodiment.
  • the knowledge map construction method, device and system can collect corresponding data according to preset data source rules, and extract the entity relationship from the collected data through the training model to form a corresponding knowledge map.
  • the data acquisition is loosely coupled, thus greatly improving the flexibility of the system and providing an effective guarantee for the collection of massive data.
  • FIG. 1 is a flowchart of a method for constructing a knowledge map according to an embodiment of the present invention
  • FIG. 2 is a schematic structural diagram of a data source rule engine in an embodiment of the present invention.
  • FIG. 3 is a schematic structural diagram of a classified page in an embodiment of the present invention.
  • FIG. 4 is a schematic diagram of an entity identification process in an embodiment of the present invention.
  • FIG. 5 is a schematic diagram of an algorithm for acquiring an upper domain entity using an upper word in an embodiment of the present invention
  • FIG. 6 is a schematic diagram of a system corresponding to a knowledge map formation and feedback process in an embodiment of the present invention
  • FIG. 7 is a schematic structural diagram of a system on which a knowledge map construction method according to an embodiment of the present invention is based;
  • FIG. 8 is a schematic diagram of the system shown in FIG. 7 implemented as a knowledge base of an intelligent customer service system
  • FIG. 9 is a schematic diagram of the system shown in FIG. 7 implemented as a chat corpus
  • FIG. 10 is a schematic diagram of the system shown in FIG. 7 implemented as a search service knowledge base
  • Figure 11 is a schematic diagram of the system of Figure 7 implemented as a voice assistant corpus.
  • an embodiment of the present invention provides a method for constructing a knowledge map, including:
  • the knowledge map construction method provided by the embodiment of the invention can collect corresponding data according to a preset data source rule, and extract an entity relationship from the collected data through a training model to form a corresponding knowledge map.
  • a preset data source rule can collect corresponding data according to a preset data source rule, and extract an entity relationship from the collected data through a training model to form a corresponding knowledge map.
  • Simply modify the corresponding data source rules to collect the required data loosely couple the data source with the data collection through the setting and modification of the data source rules, thus greatly improving the flexibility of the system and collecting the massive data. Provides effective protection.
  • the data source rule may include one or more of the following: a data source type, a data format, and an acquisition policy of the data to be collected.
  • the data collection process can be set up as a data source rules engine.
  • the data source rules engine is similar to an advanced interpreter of IF/THEN. It can compare the data in the data source with the rules in the rule base, activate the matching rules, and then perform corresponding operations according to the execution logic declared in the rules.
  • the data source rules engine can be an easy-to-access, easy-to-adjust, and easy-to-manage polymorphic data source rules engine. It consists of three parts: Rule, Inference Engine, and Working Memory. Memory), as shown in Figure 2.
  • Rule, Inference Engine, and Working Memory. Memory are stored in a Production Memory, and the facts to be matched are stored in a Working Memory. After the fact is inserted into the working memory, it may be modified or deleted.
  • a system with a large number of rules and facts may have many rules that are said to be conflicting.
  • Agenda (Agenda) can manage the order of execution of these conflicting rules through conflict decision strategies.
  • the data source rules engine can be implemented using the RETE algorithm, including: rule compilation and runtime execution.
  • rule compilation refers to the process of generating an inference network according to a rule set
  • runtime execution refers to a process of sending data into an inference network for screening.
  • the specific data collection operations can be performed by the crawler cluster.
  • the crawler cluster can use the multi-source rule engine as the crawling logic to determine what data source to grab, the data source format, and the crawling strategy. Further, in order to ensure the quality of crawling data of the crawler cluster, the crawl data may be preprocessed, for example, data cleaning may be performed. Conversion, etc.
  • step S12 may be performed, and the entity relationship is extracted by the training model to form a corresponding knowledge map.
  • the extracting the entity relationship from the collected data by using the training model to form the corresponding knowledge map may specifically include:
  • the extracted categories and attributes of the entity, and the relationship between the entity and other entities form a corresponding knowledge map.
  • the knowledge map can include two types of pages: a term article page and a category page.
  • An entry article page describes an instance
  • a category page describes a concept.
  • Each node in the graph refers to a certain term or a category
  • each edge in the graph refers to category X to one of its subclasses or from a certain category.
  • X to an entry article under the X category.
  • the entry article (instance) and category (concept) can form a classification tree system.
  • a knowledge base often has pre-defined relationships, such as “residence” (person, place) and “writing” (author, book).
  • An instance of such a relationship contains instances of concepts, and there is a conceptual mapping relationship between them.
  • “residence” (Yao Ming, Shanghai) is an example of a relationship “living” (people, places).
  • massive knowledge data contains hundreds of millions of potential relationships that may be of interest, and this set of relationships is changing every day, so it is impractical to quickly define a large number of valuable relationships.
  • Second, a more serious problem is that extracting relational instances from any unstructured plain text is very difficult and the computational cost involved is enormous.
  • a series of relationships are not defined in advance, and no attempt is made. Extract the instances of these relationships, and directly grab any instance of the relationship between the two concepts in the entry page. For example, suppose that the title “Yao Ming” has a section title called “Personal Life,” which refers to another entry page - "Ye Li.” Then you can create a relationship instance -- (Yao Ming, Ye Li, personal life), which means that Yao Ming and Ye Li directly have a relationship called "personal life.”
  • the extracted relationship instance has the following form: the name of the concept instance 1, the name of the concept instance 2, and the text that expresses a relationship between the two instances.
  • the corpus outputted by the training model can be subjected to autonomous learning process such as word segmentation processing, semantic analysis, entity recognition, category extraction, relationship extraction and attribute extraction.
  • semantic analysis is a logical stage of autonomous learning.
  • the task of semantic analysis is to conduct a review of the contextually relevant nature of the structurally correct corpus and conduct type review. Semantic analysis is to examine the corpus for semantic errors and collect type information for the knowledge map generation phase.
  • Entity recognition is an important basic tool for information extraction, question and answer system, syntactic analysis, machine translation, and semantic network metadata annotation. It plays an important role in the process of natural language processing technology becoming practical.
  • entity identification is to extract specific domain-related entities from the corpus. For example, "How to apply for the hotel message light discount package? A:", where the bold part is the relevant entity in the telecommunications field.
  • the entity identification may include:
  • Entity recognition of the raw text corpus by the entity recognition model is the entity recognition model
  • a certain amount of labeled NER data can be obtained first by labeling the corpus for training the NER model. Then for a given raw text corpus, text preprocessing (word segmentation, part-of-speech tagging, etc.) is first performed, and then the trained NER model is used for NER recognition, and finally the NER recognition result is obtained.
  • the NER module core algorithm can be implemented using an online learning algorithm. Modeling entity recognition as a word-based sequence labeling problem. For the sequence of words in the input sentence, the model labels each word in the sentence with a tag that identifies the named entity boundary and the entity category. In one embodiment of the invention, there are four types of NERs defined. See Table 1.
  • NER type NER mark business SER Package PACK mechanism ORG Other telecommunications domain entities NER
  • the category extraction, the relationship extraction, and the attribute extraction may include: performing category extraction, relationship extraction, and attribute extraction respectively by means of template matching.
  • the purpose is to extract the category of the entity from the corpus.
  • “Flying Young Package Campus T9 Package is a 3G mobile phone package launched by China Telecom for college and university students in the campus”, in which the italicized bold part is the relevant entity in the telecom field, and the non-italicized bold part is the entity corresponding category.
  • text preprocessing word segmentation, part of speech tagging, NER recognition, etc.
  • entity class can be obtained by means of NER information or template matching:
  • x is the relevant entity in the telecommunications field
  • y is the corresponding entity category, for example: “Tianyi mobile phone case Meals are 3G packages.
  • an open domain entity upper word acquisition algorithm may also be used.
  • the information in the Baidu search page, the Baidu encyclopedia page, and the interactive encyclopedia page may be used to obtain the upper word candidate, and then an LR model is adopted. , output a list of ordered upper words.
  • the purpose is to extract the relationship of the entity from the corpus.
  • text preprocessing word segmentation, part-of-speech tagging, NER recognition, etc.
  • entity relationship is obtained by template matching.
  • template matching can mainly use the following five templates:
  • the purpose is to extract the attributes of the entity from the corpus.
  • Example: "What are the functions of the encrypted communication service? A: " in which the italicized bold part is the relevant entity in the telecommunication domain, and the non-italicized bold part is the attribute corresponding to the entity.
  • text preprocessing word segmentation, part-of-speech tagging, NER recognition, etc.
  • entity attribute is obtained by template matching.
  • template matching mainly uses 2 templates:
  • Self-diagnosis evaluation of training and learning effects In the initial training, the cognitive basis of the system should be obtained through diagnostic evaluation. The evaluation after training is the basis for the adaptation of the next learning content, and also the basis for adjusting the training objectives. It can be seen that the self-diagnosis evaluation is dynamic. An important part of the feedback mechanism.
  • the knowledge map construction method may further include: correcting the feedback according to the user's feedback on the knowledge map.
  • the training model By tracking the training process, the behavior of the training behavior is analyzed and analyzed, and the information is fed back to correct the training model.
  • the formation process and the feedback process of the above knowledge map are respectively abstracted into a training subsystem and a feedback subsystem.
  • the training subsystem is not only the input of the corpus data of the acquisition subsystem, but also the output of the knowledge map data after training, which is output to the supervision subsystem.
  • the feedback subsystem collects the evaluation and feedback data from the storage and application subsystem, and then the training model. Dynamic correction is performed to adjust the training model in the training subsystem to form a dynamic training and feedback system.
  • the training subsystem needs to undergo three processes of determining training objectives, self-learning, and self-diagnosis evaluation during training.
  • the training goal is to build a classification tree and extract entity relationships.
  • the feedback subsystem can track the training process, analyze and derive the behavior of the training behavior, and feed back the information to the training subsystem to specify the training.
  • the dynamic feedback module is the dispatching center of the feedback subsystem, which is a training model that dynamically corrects the training subsystem by using the behavior analysis and evaluation data in a quantitative manner.
  • the design and construction of the learning model library and the performance evaluation library are important foundations for the effective operation of the dynamic feedback mechanism.
  • the learning model library is the core module of the autonomous learning support system to realize the effective monitoring and dynamic feedback mechanism of the training process.
  • the learning model should describe both the static learning characteristics of the learners and the process information of the dynamic learning.
  • the performance evaluation library is a quality evaluation data system based on the multi-intelligence theory. The data comes from the self-assessment mode and the other evaluation mode. At the same time, dynamic markers are set in the learning model library to correct and maintain the learning module and establish a learning evaluation mode. To achieve dynamic evaluation of the training process.
  • the knowledge map construction method may further include: evaluating the correctness of the knowledge map and Labeling, that is, the knowledge map data in step S12 can be evaluated and labeled to ensure the accuracy of the knowledge map data.
  • the operational efficiency is as far as possible to avoid manual participation. For important entity class data, it can be manually marked. For general domain information, manual participation can be reduced according to rules, and the program can complete supervision. The results of the supervision can be stored in the form of a triple.
  • FIG. 7 is a schematic diagram of the system shown in FIG. 7 as a knowledge base of an intelligent customer service system.
  • the knowledge map construction method provided by the present invention may specifically include the following steps:
  • Step 801 The collection subsystem configures a data collection rule of the customer service system according to the data source rule engine.
  • the customer service system is generally a specific domain, and the collection rule needs to collect the knowledge data of the specific domain.
  • step 802 the training subsystem performs training and learning according to the knowledge model of the customer service system, and the data output by the customer service system training includes entities, entity relationships, and attributes (question and answer pairs).
  • step 803 the monitoring subsystem evaluates and labels the result data of the training subsystem training to ensure the accuracy of the knowledge map data.
  • manual participation is avoided as much as possible. For example, important entity class data is manually labeled, and information on general fields is reduced according to rules.
  • step 804 the data output by the supervisory subsystem is stored by the storage and application subsystem in a triplet manner.
  • step 805 the user logs in to the customer service system to consult or handle related business.
  • Step 806 The intelligent customer service system performs semantic analysis on the input question of the user.
  • Step 807 The intelligent customer service system performs intention recognition and context recognition on the user.
  • Step 808 The intelligent customer service system generates a search or reasoning request according to the result of the natural language processing described above.
  • step 809 the knowledge map storage and application subsystem of the solution parses the retrieval or inference request of the intelligent customer service system.
  • step 810 the knowledge map storage and application subsystem of the solution returns corresponding knowledge data.
  • step 811 the intelligent customer service system further processes the knowledge data to generate a corresponding answer or an inference answer.
  • step 812 the user receives an answer to the corresponding question.
  • step 813 the user evaluates the answer to the question received.
  • the evaluation data is sent to the feedback subsystem.
  • step 815 the feedback subsystem trains the evaluation data and dynamically adjusts the training model of the training subsystem.
  • step 816 the training subsystem retrains the learning according to the dynamically revised training model.
  • step 817 the trained data is processed by the supervising subsystem and updated to the storage and application subsystem.
  • FIG. 9 is a schematic diagram of the system shown in FIG. 7 implemented as a chat corpus.
  • This scheme first completes the self-learning and construction of the chat corpus, and provides the knowledge map application service.
  • the chat bot interacts with the scheme.
  • This scheme serves as the server and transmits the knowledge map data to the chat bot.
  • the data flow is roughly the same as the embodiment shown in Figure 8, with the following differences:
  • chat bot's corpus is different from the intelligent customer service. It not only contains basic knowledge structures such as entities, entity categories, and entity attributes, but also contains basic dialogue rules.
  • the data source rule engine of the solution collection subsystem is mainly for dialogue data. collection.
  • chat robot when the chat robot interacts with the solution, it needs to perform packaging processing according to the data of the knowledge map application service response, so as to respond to the application scenario that is more in line with the actual dialogue.
  • Figure 10 is a schematic diagram of an embodiment of a search service knowledge base.
  • the program first completes the self-learning and construction of the search engine knowledge and webpage content, and provides the knowledge map application service.
  • the search engine interacts with the scheme.
  • the scheme serves as the server and transmits the knowledge map data to the search engine.
  • the data flow is roughly the same as Figure 8, with the following differences:
  • the corpus of search engines is different from smart customer service, including not only entities, entity categories,
  • the basic knowledge structure such as entity attributes, as well as the website address and classification, etc.
  • the data source rule engine of the acquisition subsystem of this solution mainly collects data for search.
  • the index subsystem of the search engine needs to collect the data of the scheme, and the collected result is stored in the index subsystem, and the external subsystem provides the service through the retrieval subsystem.
  • the search engine's management subsystem manages the association between the search engine and the solution.
  • Figure 11 is a schematic diagram of the implementation as a voice assistant corpus.
  • the scheme first completes the self-learning and construction of the voice assistant corpus, and then provides the knowledge map application service, and the voice interacts with the scheme.
  • the scheme serves as the server and transmits the knowledge map data to the voice assistant.
  • the data flow is roughly the same as Figure 8, with the following differences:
  • the voice assistant's corpus is different from the intelligent customer service. It not only contains basic knowledge structures such as entities, entity categories, and entity attributes, but also includes oral consultation and business processing.
  • the data source rule engine of the program collection subsystem is mainly spoken and consulted. The data processed is collected.
  • the voice assistant interacts with the scheme, the input of the voice needs to be processed first, and converted into the corresponding text.
  • the knowledge map application service semantically understands the converted text, and then the corresponding corpus is packaged and processed to respond, and the application needs to be called.
  • the service is transferred to a third-party application system for processing.
  • the solution of knowledge map construction implements a data collection cluster based on distributed crawler, and the data source can be flexibly configured by the rule engine, thereby greatly improving the breadth and depth of data collection; realizing a positive and negative bidirectional training model of knowledge map
  • the forward training model the collected data is trained to learn the characteristics of entities, relationships and attributes, and the feedback or expert labeled data is trained by the inverse model to modify the training model; the knowledge map quality control system is realized.
  • knowledge can be managed in a supervised or semi-supervised manner.
  • a feedback mechanism is introduced.
  • the upper level application of the knowledge map reversely evaluates the quality of knowledge, dynamically corrects the training model, and gradually improves the maturity of the training model.
  • Provides high-quality knowledge maps for knowledge-based applications such as smart customer service, chat bots, and search engines Spectral intelligent construction method.
  • an embodiment of the present invention further provides a knowledge map construction apparatus, including:
  • the collecting unit 91 is configured to collect corresponding data according to a preset data source rule
  • the extracting unit 92 is configured to extract an entity relationship of the data collected by the collecting unit through the training model to form a corresponding knowledge map.
  • the collection unit 91 can collect corresponding data according to a preset data source rule, and the extraction unit 92 can extract an entity relationship from the collected data through the training model to form a corresponding knowledge map.
  • the extraction unit 92 can extract an entity relationship from the collected data through the training model to form a corresponding knowledge map.
  • the data source rule includes at least one of the following: a data source type, a data format, and an acquisition policy of the data to be collected.
  • the extracting unit 92 may include:
  • Extracting a module configured to extract an entity relationship instance corpus from the collected data through the training model
  • the identification and extraction module is configured to perform entity identification, category extraction, relationship extraction, and attribute extraction on the extracted entity relationship instance corpus;
  • Forming a module configured to extract a category and an attribute of the entity according to the entity identified by the identification and extraction module, and a relationship between the entity and other entities to form a corresponding knowledge map.
  • the identifying and extracting module may be specifically configured to: train an entity recognition model according to the marked corpus; and perform entity identification on the raw text corpus through the trained entity recognition model; Class extraction, relationship extraction, and attribute extraction are performed separately.
  • the knowledge map construction apparatus may further include: The element is configured to evaluate and label the correctness of the knowledge map after extracting the entity relationship from the collected data through the training model to form a corresponding knowledge map.
  • the knowledge map construction apparatus may further include: a correction unit configured to modify the training model according to a feedback of the user on the knowledge map.
  • the present invention further provides an intelligent interactive system, which includes any of the knowledge map construction devices provided by the foregoing embodiments, and thus can achieve corresponding effects.
  • an intelligent interactive system which includes any of the knowledge map construction devices provided by the foregoing embodiments, and thus can achieve corresponding effects.
  • the intelligent interaction system may include one or more of an intelligent customer service system, a chat robot system, a search service system, and a voice assistant system.
  • the foregoing embodiment method can be implemented by means of software plus a necessary general hardware platform, and of course, can also be through hardware, but in many cases, the former is better.
  • Implementation Based on such understanding, the technical solution of the present invention, which is essential or contributes to the prior art, may be embodied in the form of a software product stored in a storage medium (such as ROM/RAM, disk,
  • the optical disc includes a number of instructions for causing a terminal device (which may be a cell phone, a computer, a server, an air conditioner, or a network device, etc.) to perform the methods described in various embodiments of the present invention.
  • the foregoing technical solution provided by the embodiment of the present invention can be applied to a knowledge map construction process, and can collect corresponding data according to a preset data source rule, and extract an entity relationship from the collected data through a training model to form a corresponding knowledge map.
  • a knowledge map construction process can collect corresponding data according to a preset data source rule, and extract an entity relationship from the collected data through a training model to form a corresponding knowledge map.

Abstract

一种知识图谱构建方法、装置及系统,涉及人工智能技术领域,用以解决现有技术中知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下的问题。所述方法包括:根据预设的数据源规则采集相应数据(S11);通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱(S12)。

Description

一种知识图谱构建方法、装置及系统 技术领域
本发明涉及人工智能技术领域,特别是涉及一种知识图谱构建方法、装置及系统。
背景技术
在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入一个查询词,搜索引擎会返回它认为与这个关键词最相关的网页以及查询词相关的知识图谱。
例如,如果想知道“泰山”的相关信息,可以通过搜索引擎搜索“泰山”,搜索引擎会尝试将这个字符串与抓取的大规模网页做比对,根据网页与这个查询词的相关程度,以及网页本身的重要性,对网页进行排序,作为搜索结果返回给用户。而知识图谱则会将“泰山”理解为一个“实体”(entity),也就是一个现实世界中的事物。这样,搜索引擎会在搜索结果中显示它的基本资料,例如地理位置、海拔高度、别名,以及百科链接等等,此外甚至还会告诉你一些相关的“实体”,如嵩山、华山、衡山和恒山等其他三山五岳等。
知识图谱为查询词赋予丰富的语义信息,建立与现实世界实体的关系,从而帮助用户更快找到所需的信息,可见知识图谱具有重要的现实意义,但是如何快速有效地构建知识图谱一直是业界的一大挑战。现有技术中的知识图谱的构建数据来源复杂多样,知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下。
发明内容
本发明实施例要解决的技术问题是提供一种知识图谱构建方法、装置 及系统,用以解决现有技术中知识采集系统定制化程度高,灵活度差,耗费人力成本且效率低下的问题。
一方面,本发明实施例提供一种知识图谱构建方法,包括:根据预设的数据源规则采集相应数据;通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
可选的,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱包括:通过训练模型对采集的数据抽取实体关系实例语料;对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
可选的,所述实体识别包括:根据已标注的语料训练实体识别模型;通过所述实体识别模型,对生文本语料进行实体识别;所述类别提取、所述关系提取以及所述属性提取包括:通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:对所述知识图谱的正确性进行评价及标注。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:根据用户对所述知识图谱的反馈修正所述训练模型。
另一方面,本发明实施例还提供一种知识图谱构建装置,包括:采集单元,设置为根据预设的数据源规则采集相应数据;抽取单元,设置为通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。
可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源 种类、数据格式和采集策略。
可选的,所述抽取单元包括:抽取模块,设置为通过训练模型对采集的数据抽取实体关系实例语料;识别和提取模块,设置为对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;形成模块,设置为根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
可选的,所述识别和提取模块,具体设置为:根据已标注的语料训练实体识别模型;通过训练后的所述实体识别模型,对生文本语料进行实体识别;通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
进一步的,所述装置还包括:监督单元,设置为在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。
进一步的,所述装置还包括:修正单元,设置为根据用户对所述知识图谱的反馈修正所述训练模型。
另一方面,本发明实施例还提供一种智能互动系统,包括前述实施例提供的任一种知识图谱构建装置。
可选的,所述系统包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。
在本发明实施例中,还提供了一种存储介质,该存储介质可以存储有执行指令,该执行指令用于执行上述实施例中的知识图谱构建方法的实现。
本发明实施例提供的知识图谱构建方法、装置及系统,能够根据预设的数据源规则采集相应数据,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用,只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。
附图说明
图1是本发明实施例提供的知识图谱构建方法的一种流程图;
图2是本发明实施例中数据源规则引擎的一种结构示意图;
图3是本发明实施例中分类页面的一种结构示意图;
图4是本发明实施例中实体识别过程示意图;
图5是本发明实施例中使用开放域实体上位词获取算法的一种示意图;
图6是本发明实施例中知识图谱形成和反馈过程对应的系统的一种示意图;
图7是本发明实施例提供的知识图谱构建方法所基于的系统的一种结构示意图;
图8是图7所示的系统作为智能客服系统知识库实施的一种示意图;
图9是图7所示系统作为聊天机器人语料库实施的一种示意图;
图10是图7所示系统作为搜索服务知识库实施的一种示意图;
图11是图7所示系统作为语音助手语料库实施的一种示意图。
具体实施方式
以下结合附图对本发明进行详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
如图1所示,本发明实施例提供一种知识图谱构建方法,包括:
S11,根据预设的数据源规则采集相应数据;
S12,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
本发明实施例提供的知识图谱构建方法,能够根据预设的数据源规则采集相应数据,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用, 只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。
可选的,步骤S11中,数据源规则可以包括以下一种或多种:要采集的数据的数据源种类、数据格式和采集策略。在本发明的一个实施例中,可以将数据采集过程设置成一种数据源规则引擎。数据源规则引擎类似于一个IF/THEN的高级解释器,能够将数据源中的数据与规则库里的规则进行对比,激活相符合的规则,再根据规则中声明的执行逻辑进行相应操作。
具体而言,数据源规则引擎可以是一个易于访问、易于调整以及易于管理的多态数据源规则引擎,主要包括三部分:规则库(Rules)、匹配引擎(Inference Engine)和事实工作内存(Working Memory),如图2所示。其中,数据源采集规则存储在规则库(Production Memory)中,要匹配的事实(facts)存储在工作内存(Working Memory)中。事实被插入到工作内存后,可能被修改或者删除。一个有大量规则和事实的系统可能会有很多规则被满足,这些规则被称为具有冲突性。议程(Agenda)可以通过冲突决策策略管理这些冲突规则的执行顺序。
数据源规则引擎可以采用RETE算法实现,包括:规则编译(rule compilation)和运行时执行(runtime execution)。其中,规则编译是指根据规则集生成推理网络的过程,运行时执行指将数据送入推理网络进行筛选的过程。当进行多态数据源的采集时,从规则集{规则1,规则2……..}中拿出一条来,根据一定算法,变成RETE推理网络的节点。不断循环将所有规则都处理完,RETE推理网络就生成了。
形成了具体的数据源规则后,具体的数据采集操作可以由爬虫集群来执行。具体的,爬虫集群可以采用多源规则引擎作为抓取逻辑,确定抓取什么样的数据源、数据源格式、抓取策略等。进一步的,为了保障爬虫集群爬取数据的质量,可以对爬取数据进行预处理,例如可以进行数据清洗、 转换等。
根据预设的数据源采集规则采集数据后,即可进行步骤S12,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。可选的,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱具体可包括:
通过训练模型对采集的数据抽取实体关系实例语料;
对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
具体的,知识图谱可包含两类页面:词条文章页面和类别页面。一个词条文章页面描述了一个实例,一个分类页面描述了一个概念。如图3所示,在分类页面中,可以列出子类、父类以及相关的孩子节点(即具体的词条)。通过解析这些页面来构建一张图,图中的每个节点指的是某个词条或某个类别,而图中的每一条边指的就是类别X至其某个子类或者从某个类别X至一篇X类别下的词条文章。这样,词条文章(实例)和类别(概念)就可以形成一个分类树系统。
一个知识库往往拥有着预先定义好的关系,例如“居住“(人,地点)和”写作“(作者,书)。这样的一个关系的实例包含了概念的实例,彼此之间存在着一种概念的映射关系。例如,“居住”(姚明,上海)就是关系“居住”(人,地点)的一个实例。理论上,可以试图去定义这样的一系列关系,之后再去抽取他们的实例。但是这样做会引起两个问题。首先,海量知识数据中包含着上亿条可能感兴趣的潜在关系,并且这个关系集合每天都在发生着变化,因此,想要快速定义大量有价值的关系是不切实际的。其次,一个更为严重的问题是,从任何非结构化的纯文本中抽取关系实例是非常困难的,并且所消耗的计算代价也十分巨大。
由于上述原因,本实施例中不是预先定义一系列的关系,也不尝试去 抽取这些关系的实例,而是直接抓取两个概念在词条页面里所存在的任意关系实例。例如,假设“姚明”这一词条中有一个节标题称作”个人生活“,这其中提到了另一个词条页面—“叶莉”。那么接下来就可以创建一个关系实例--(姚明,叶莉,个人生活),其表示姚明和叶莉直接有一个关系称作“个人生活”。可选的,抽取的关系实例具有以下形式:概念实例1的名字,概念实例2的名字,表达两个实例间某种关系的文本。
通过训练模型对采集的数据抽取实体关系实例语料之后,可以对训练模型输出的语料进行分词处理、语义分析、实体识别、类别提取、关系提取以及属性提取等自主学习过程。其中,语义分析是自主学习的一个逻辑阶段,语义分析的任务是对结构上正确的语料进行上下文有关性质的审查,进行类型审查。语义分析是审查语料有无语义错误,为知识图谱生成阶段收集类型信息。实体识别是信息提取、问答系统、句法分析、机器翻译、面向语义网元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。实体识别(NER)的目的为从语料中抽取出特定领域相关实体。例如,“如何办理酒店留言灯优惠套餐?答:…”,其中加粗部分即为电信领域相关实体。
可选的,本实施例中,实体识别可包括:
根据已标注的语料训练实体识别模型;
通过所述实体识别模型,对生文本语料进行实体识别;
如图4所示,可以首先通过标注语料获得一定数量的已标注的NER数据,用于训练NER模型。然后对于给定的生文本语料,先进行文本预处理(分词、词性标注等),然后使用训练好的NER模型进行NER识别,最终得到NER识别结果。可选的,可以使用在线学习算法实现NER模块核心算法。将实体识别建模为基于词的序列标注问题。对于输入句子的词序列,模型给句子中的每个词标注一个标识命名实体边界和实体类别的标记。在本发明的一个实施例中,定义的NER类型有4种。见表1所示。
表1
NER类型 NER标记
业务 SER
套餐 PACK
机构 ORG
其他电信领域实体 NER
基于上述实体识别的步骤,所述类别提取、所述关系提取以及所述属性提取可包括:通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。下面分别对类别提取、关系提取以及属性提取进行详细说明。
具体的,对于类别提取,其目的为从语料中抽取出实体的类别。例:“飞young套餐校园T9套餐是中国电信面向校园内大中专学生推出的3G手机套餐”,其中斜体加粗部分为电信领域相关实体,非斜体加粗部分为实体对应的类别。
可选的,对于生文本语料的输入,先进行文本预处理(分词、词性标注、NER识别等),然后可以通过NER信息或者模板匹配的方式获得实体的类别:
对于NER信息方式,经过NER识别后,可以发现语料中的电信领域相关实体,而对于“SER”、“PACK”、“ORG”,显然是可以得到其对应的类别为“业务”、“套餐”、“机构”。
对于模板匹配方式,可以使用以下模板来获得实体类别:
1、x是[一个|一种]y
2、x[、]等y
3、y[,]特别是x
其中x为电信领域相关实体,y为对应的实体类别,例:“天翼手机套 餐是3G套餐。”经过模板匹配以后,再进行相应的候选过滤,主要体现为设定过滤词表,并去除特定前后缀的词。
可选的,如图5所示,也可以使用开放域实体上位词获取算法,例如可以通过利用百度搜索页面、百度百科页面、互动百科页面中的信息,获取上位词候选,再通过一个LR模型,输出有序上位词列表。
具体的,对于实体关系抽取而言,其目的为从语料中抽取出实体的关系。例:“天翼领航A8信息版套餐如何办理?答:…”,其中斜体加粗部分为电信领域相关实体,非斜体加粗部分为实体对应的关系。
对于生文本语料的输入,先进行文本预处理(分词、词性标注、NER识别等),然后通过模板匹配的方式获得实体关系。可选的,模板匹配主要可以使用如下5个模板:
1、什么是x
2、x是什么
3、x怎么|如何y
4、怎么|如何y x
5、x适用于什么|哪些用户
其中x为电信领域相关实体,y为对应的实体关系。
具体的,对于实体属性抽取而言,其目的为从语料中抽取出实体的属性。例:“加密通信业务有哪些功能?答:…”,其中斜体加粗部分为电信领域相关实体,非斜体加粗部分为实体对应的属性。
对于生文本语料的输入,先进行文本预处理(分词、词性标注、NER识别等),然后通过模板匹配的方式获得实体属性。可选的,模板匹配主要使用2个模板:
1、x有什么|哪些y
2、x[的]y是什么|多少
进一步的,为了对上述自主学习过程进行有效监控和动态反馈,可以 对训练学习效果进行自我诊断测评。自我诊断测评在初次训练时,系统的认知基础判断要通过诊断性评价获取数据,训练完成后的评价是下一步学习内容适应性的依据,也是调整训练目标的基础,可见自我诊断测评是动态反馈机制的重要组成部分。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,本发明实施例提供的知识图谱构建方法还可包括:根据用户对所述知识图谱的反馈修正所述训练模型。通过跟踪训练过程,分析推导训练行为规律,及时将信息反馈来修正训练模型。
如图6所示,将上述知识图谱的形成过程和反馈过程分别抽象成训练子系统和反馈子系统。训练子系统既是采集子系统语料数据的输入者,也是训练后知识图谱数据的输出者,输出到监督子系统中,反馈子系统从存储及应用子系统中采集评价及反馈数据,然后对训练模型进行动态修正,进而调整训练子系统中的训练模型,形成一个动态的训练及反馈系统。训练子系统在训练时需要经过确定训练目标、自主学习以及自我诊断测评三个过程。训练目标是构建分类树及抽取实体关系。反馈子系统能够跟踪训练过程,分析推导训练行为规律,及时将信息反馈至训练子系统指定训练。动态反馈模块是反馈子系统的调度中心,是将行为分析评价数据以定量的方式动态修正训练子系统的训练模型。其中学习模型库、绩效评测库的设计和构建是动态反馈机制有效运行的重要基础。学习模型库是自主学习支持系统实现训练过程有效监控与动态反馈机制的核心模块,学习模型既要描述学习者的静态学习特性也要记录动态学习的过程信息。绩效评测库则是一个以多元智能理论为基础的质量评价数据系统,数据来自于自评模式和他评模式,同时在学习模型库中设置动态标记,以修正和维护学习模块,建立学习评价模式,实现训练过程的动态评价。
进一步的,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,本发明实施例提供的知识图谱构建方法还可包括:对所述知识图谱的正确性进行评价及标注,也就是可以对步骤S12中的知识图谱数据进行评价及标注,保证知识图谱数据的准确性。为了保证系统 的运行效率尽量避免人工参与,对于重要的实体类数据可以由人工进行标注,对于一般领域的信息可以根据规则减少人工参与度,由程序完成监督。监督结果可以以三元组的方式存储起来。
下面通过具体实施例对本发明实施例提供的知识图谱构建方法进行详细说明。
本发明实施例提供的知识图谱构建方法所基于的系统可如图7所示。图8是图7所示的系统作为智能客服系统知识库的示意图。结合图7和图8,本发明提供的知识图谱构建方法具体可包括如下步骤:
步骤801,采集子系统根据数据源规则引擎配置客服系统的数据采集规则,客服系统一般是特定领域,采集规则需要针对该特定领域的知识数据进行采集。
步骤802,训练子系统根据客服系统的知识模型进行训练、学习,客服系统训练输出的数据包含实体、实体关系及属性等(问答对)。
步骤803,监督子系统是对训练子系统训练的结果数据进行评价及标注,保证知识图谱数据的准确性。为了保证系统的运行效率尽量避免人工参与,例如对于重要的实体类数据由人工进行标注,对于一般领域的信息根据规则减少人工参与度。
步骤804,监督子系统输出的数据由存储与应用子系统以三元组的方式存储起来。
步骤805,用户登录客服系统,咨询或者办理相关业务。
步骤806,智能客服系统对用户的输入问句进行语义分析。
步骤807,智能客服系统对用户进行意图识别、语境识别。
步骤808,智能客服系统根据上述自然语言处理的结果生成检索或者推理请求。
步骤809,本方案知识图谱存储与应用子系统解析智能客服系统的检索或者推理请求。
步骤810,本方案知识图谱存储与应用子系统返回相应的知识数据。
步骤811,智能客服系统对知识数据进一步处理,生成相应的答案或者推理答案。
步骤812,用户收到相应问题的答案。
步骤813,用户对收到问题的答案进行评价。
步骤814,评价数据发给反馈子系统。
步骤815,反馈子系统对评价数据进行训练,动态调整训练子系统的训练模型。
步骤816,训练子系统根据动态修正后的训练模型重新训练学习。
步骤817,训练学习后的数据经过监督子系统处理后,更新到存储与应用子系统。
图9为图7所示系统作为聊天机器人语料库实施的示意图。本方案首先完成聊天机器人语料库的自学习及构建,另外提供知识图谱应用服务,聊天机器人与本方案交互,本方案作为服务端,并把知识图谱数据传递给聊天机器人。数据流程与图8所示的实施例大致相同,不同点如下:
首先,聊天机器人的语料与智能客服不同,不仅包含实体、实体类别、实体属性等基本的知识结构,还包含基本对话的规则等,本方案采集子系统的数据源规则引擎主要面向对话的数据进行采集。
其次,聊天机器人与本方案交互时,需要根据知识图谱应用服务响应的数据进行包装加工,以便响应更符合实际对话的应用场景。
图10为作为搜索服务知识库实施例的示意图。本方案首先完成搜索引擎知识及网页内容的自学习及构建,另外提供知识图谱应用服务,搜索引擎与本方案交互,本方案作为服务端,并把知识图谱数据传递给搜索引擎。数据流程与图8大致相同,不同点如下:
首先,搜索引擎的语料与智能客服不同,不仅包含实体、实体类别、 实体属性等基本的知识结构,还网站地址及分类等,本方案采集子系统的数据源规则引擎主要面向搜索的数据进行采集。
其次,本方案的知识图谱构建完成后,搜索引擎的索引子系统需要对本方案的数据进行采集,采集的结果存储在索引子系统中,并通过检索子系统对外提供服务。搜索引擎的管理子系统管理搜索引擎及本方案的关联关系。
图11为作为语音助手语料库实施的示意图。本方案首先完成语音助手语料库的自学习及构建,然后提供知识图谱应用服务,语音与本方案交互,本方案作为服务端,并把知识图谱数据传递给语音助手。数据流程与图8大致相同,不同点如下:
首先,语音助手的语料与智能客服不同,不仅包含实体、实体类别、实体属性等基本的知识结构,还包含口语咨询、业务办理等,本方案采集子系统的数据源规则引擎主要口语咨询、业务办理的数据进行采集。
其次,语音助手与本方案交互时,需要先对语音的输入进行处理,转换为相应文字,知识图谱应用服务对转换后的文字进行语义理解,然后包装加工相应的语料进行响应,对于需要调用应用的服务转给第三方的应用系统进行处理。
本发明实施例提供的知识图谱构建的方案,实现一个基于分布式爬虫的数据采集集群,数据源可以由规则引擎灵活配置,大大提高数据采集的广度与深度;实现一个知识图谱正反双向训练模型,通过正向训练模型对采集的数据进行训练,从中学习实体、关系以及属性等特征,通过反向模型对反馈或者专家标注的数据进行训练,对训练模型进行修正;实现了知识图谱质量管控体系,对于核心领域的知识可以选择监督或者半监督的方式进行管理,同时引入反馈机制,由知识图谱的上层应用对知识的质量进行反向评价,动态修正训练模型,逐步提高训练模型的成熟度。为智能客服、聊天机器人以及搜索引擎等知识图谱相关应用提供了高质量的知识图 谱智能化构建方法。
相应的,如图12所示,本发明的实施例还提供一种知识图谱构建装置,包括:
采集单元91,设置为根据预设的数据源规则采集相应数据;
抽取单元92,设置为通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。
本发明实施例提供的知识图谱构建装置,采集单元91能够根据预设的数据源规则采集相应数据,抽取单元92能够通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用,只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。
可选的,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
可选的,抽取单元92可包括:
抽取模块,设置为通过训练模型对采集的数据抽取实体关系实例语料;
识别和提取模块,设置为对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
形成模块,设置为根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
可选的,所述识别和提取模块,具体可设置为:根据已标注的语料训练实体识别模型;通过训练后的所述实体识别模型,对生文本语料进行实体识别;通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
进一步的,本发明实施例提供的知识图谱构建装置还可包括:监督单 元,设置为在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。
进一步的,本发明实施例提供的知识图谱构建装置还可包括:修正单元,设置为根据用户对所述知识图谱的反馈修正所述训练模型。
相应的,本发明还提供一种智能互动系统,包括前述实施例提供的任一种知识图谱构建装置,因此也能实现相应的效果,前文已经进行了详细说明,此处不再赘述。
可选的,所述智能互动系统,可包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的一种或多种。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
工业实用性
本发明实施例提供的上述技术方案,可以应用于知识图谱构建过程中,能够根据预设的数据源规则采集相应数据,通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。这样,当面对复杂多变的数据源时,无需修改各个具体应用,只需直接修改相应的数据源规则,即可采集到所需的数据,通过数据源规则的设置和修改将数据源与数据采集松耦合,因此大大提高了系统的灵活度,为海量数据的采集提供了有效保障。

Claims (14)

  1. 一种知识图谱构建方法,包括:
    根据预设的数据源规则采集相应数据;
    通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱。
  2. 根据权利要求1所述的方法,其中,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
  3. 根据权利要求1所述的方法,其中,所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱包括:
    通过训练模型对采集的数据抽取实体关系实例语料;
    对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
    根据识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
  4. 根据权利要求3所述的方法,其中,所述实体识别包括:
    根据已标注的语料训练实体识别模型;
    通过所述实体识别模型,对生文本语料进行实体识别;
    所述类别提取、所述关系提取以及所述属性提取包括:
    通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
  5. 根据权利要求1所述的方法,其中,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:
    对所述知识图谱的正确性进行评价及标注。
  6. 根据权利要求1至5中任一项所述的方法,其中,在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,所述方法还包括:
    根据用户对所述知识图谱的反馈修正所述训练模型。
  7. 一种知识图谱构建装置,包括:
    采集单元,设置为根据预设的数据源规则采集相应数据;
    抽取单元,设置为通过训练模型对所述采集单元采集的数据抽取实体关系,以形成相应的知识图谱。
  8. 根据权利要求7所述的装置,其中,所述数据源规则包括以下至少一种:要采集的数据的数据源种类、数据格式和采集策略。
  9. 根据权利要求7所述的装置,其中,所述抽取单元包括:
    抽取模块,设置为通过训练模型对采集的数据抽取实体关系实例语料;
    识别和提取模块,设置为对抽取的所述实体关系实例语料分别进行实体识别、类别提取、关系提取以及属性提取;
    形成模块,设置为根据所述识别和提取模块识别出的实体,提取出的所述实体的类别和属性,以及所述实体与其他实体之间的关系,形成相应的知识图谱。
  10. 根据权利要求9所述的装置,其中,所述识别和提取模块,具体设置为:
    根据已标注的语料训练实体识别模型;
    通过训练后的所述实体识别模型,对生文本语料进行实体识别;
    通过模板匹配的方式,分别进行类别提取、关系提取以及属性提取。
  11. 根据权利要求7所述的装置,其中,还包括:监督单元,设置为在所述通过训练模型对采集的数据抽取实体关系,以形成相应的知识图谱之后,对所述知识图谱的正确性进行评价及标注。
  12. 根据权利要求7至11中任一项所述的装置,其中,还包括:修正单元,设置为根据用户对所述知识图谱的反馈修正所述训练模型。
  13. 一种智能互动系统,包括权利要求7至12中任一项所述的知识图谱构建装置。
  14. 根据权利要求13所述的系统,其中,包括智能客服系统、聊天机器人系统、搜索服务系统以及语音助手系统中的至少一种。
PCT/CN2017/100148 2016-10-18 2017-09-01 一种知识图谱构建方法、装置及系统 WO2018072563A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610908410.5A CN107967267A (zh) 2016-10-18 2016-10-18 一种知识图谱构建方法、装置及系统
CN201610908410.5 2016-10-18

Publications (1)

Publication Number Publication Date
WO2018072563A1 true WO2018072563A1 (zh) 2018-04-26

Family

ID=61996189

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/100148 WO2018072563A1 (zh) 2016-10-18 2017-09-01 一种知识图谱构建方法、装置及系统

Country Status (2)

Country Link
CN (1) CN107967267A (zh)
WO (1) WO2018072563A1 (zh)

Cited By (70)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271459A (zh) * 2018-09-18 2019-01-25 四川长虹电器股份有限公司 基于Lucene和文法网络的聊天机器人及其实现方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
CN109522420A (zh) * 2018-11-16 2019-03-26 广东小天才科技有限公司 一种获取学习需求的方法及系统
CN109589616A (zh) * 2019-01-29 2019-04-09 凌曙阳 一种智能玩具、应用程序、控制器工作方法及装置
CN109710942A (zh) * 2018-12-28 2019-05-03 零犀(北京)科技有限公司 图谱的构建方法及装置、电子设备
CN109766445A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
US20190295001A1 (en) * 2018-03-21 2019-09-26 International Business Machines Corporation Cognitive data curation in a computing environment
CN110489565A (zh) * 2019-08-15 2019-11-22 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN110674312A (zh) * 2019-09-18 2020-01-10 泰康保险集团股份有限公司 构建知识图谱方法、装置、介质及电子设备
CN110705710A (zh) * 2019-04-17 2020-01-17 中国石油大学(华东) 一种基于知识图谱的工业故障分析专家系统
CN110728147A (zh) * 2018-06-28 2020-01-24 阿里巴巴集团控股有限公司 一种模型训练方法及命名实体识别方法
CN110766787A (zh) * 2019-10-11 2020-02-07 南京摄星智能科技有限公司 一种基于语义驱动的3d态势场景智能构建技术
CN110765753A (zh) * 2019-12-27 2020-02-07 广东博智林机器人有限公司 文案生成方法、系统、计算机设备和存储介质
CN110765235A (zh) * 2019-09-09 2020-02-07 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN110781311A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业一致行动人运算系统及方法
CN110795923A (zh) * 2019-11-01 2020-02-14 达而观信息科技(上海)有限公司 基于自然语言处理的技术文档自动生成系统及生成方法
CN110807091A (zh) * 2019-03-01 2020-02-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
CN111026874A (zh) * 2019-11-22 2020-04-17 海信集团有限公司 知识图谱的数据处理方法及服务器
CN111061841A (zh) * 2019-12-19 2020-04-24 京东方科技集团股份有限公司 知识图谱的构建方法及装置
CN111177335A (zh) * 2019-11-29 2020-05-19 广东轩辕网络科技股份有限公司 一种基于知识图谱的智能助理的信息处理方法及装置
CN111209348A (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111309925A (zh) * 2020-02-10 2020-06-19 同方知网(北京)技术有限公司 一种军事装备的知识图谱构建方法
CN111368097A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种知识图谱抽取方法及装置
CN111428018A (zh) * 2020-03-26 2020-07-17 中国建设银行股份有限公司 智能问答方法及装置
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
CN111488468A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111585809A (zh) * 2020-04-29 2020-08-25 北京润通丰华科技有限公司 一种利用大数据统计分析进行网络设备配置稽核的方法
CN111639196A (zh) * 2020-06-03 2020-09-08 核工业湖州工程勘察院有限公司 一种多层渐进增强的地灾知识图谱及其自动补全方法
CN111753100A (zh) * 2020-06-30 2020-10-09 广州小鹏车联网科技有限公司 一种针对车载应用的知识图谱生成方法和服务器
CN111814487A (zh) * 2020-07-17 2020-10-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111813874A (zh) * 2020-09-03 2020-10-23 中国传媒大学 太赫兹知识图谱构建方法及系统
CN111858964A (zh) * 2020-07-30 2020-10-30 浙江萃文科技有限公司 一种基于知识图谱的三维智能定位方法
CN111897781A (zh) * 2020-08-03 2020-11-06 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111930793A (zh) * 2020-06-26 2020-11-13 西安电子科技大学 目标行为挖掘与检索分析方法、系统、计算机设备及应用
CN111950285A (zh) * 2020-07-31 2020-11-17 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN111967761A (zh) * 2020-08-14 2020-11-20 国网电子商务有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN112084339A (zh) * 2020-08-11 2020-12-15 同济大学 一种基于跨媒体数据的交通知识图谱构建方法
CN112131392A (zh) * 2020-08-01 2020-12-25 赛飞特工程技术集团有限公司 基于知识图谱的公共卫生疫情预警方法及系统
CN112199488A (zh) * 2020-11-04 2021-01-08 国网江苏省电力有限公司营销服务中心 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN112231460A (zh) * 2020-10-27 2021-01-15 中国科学院合肥物质科学研究院 一种基于农业百科知识图谱的问答系统的构建方法
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与系统、电子设备
CN112364172A (zh) * 2020-10-16 2021-02-12 上海晏鼠计算机技术股份有限公司 一种政务公文领域知识图谱构建方法
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112541087A (zh) * 2020-12-18 2021-03-23 清华大学 基于百科的跨语言知识图谱构建方法及装置
CN112784062A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN112833942A (zh) * 2020-12-28 2021-05-25 航天南洋(浙江)科技有限公司 一种系统健康状态监控设备及方法
CN113051365A (zh) * 2020-12-10 2021-06-29 深圳证券信息有限公司 一种产业链图谱构建方法及相关设备
CN113094516A (zh) * 2021-04-27 2021-07-09 东南大学 一种基于多源数据融合的电网监控领域知识图谱构建方法
CN113268604A (zh) * 2021-05-19 2021-08-17 国网辽宁省电力有限公司 知识库自适应扩展方法及系统
CN113268605A (zh) * 2021-05-26 2021-08-17 深圳晶泰科技有限公司 一种小分子药物晶型知识图谱的构建方法及系统
CN113269331A (zh) * 2021-04-25 2021-08-17 云南电网有限责任公司信息中心 一种变压器检修作业的知识库构建方法
CN113360751A (zh) * 2020-03-06 2021-09-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
CN113378570A (zh) * 2021-06-01 2021-09-10 车智互联(北京)科技有限公司 一种实体识别模型的生成方法、计算设备及可读存储介质
CN113392223A (zh) * 2021-05-12 2021-09-14 同方知网数字出版技术股份有限公司 一种基于气象领域的知识图谱构建方法
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN113761208A (zh) * 2021-09-17 2021-12-07 福州数据技术研究院有限公司 一种基于知识图谱的科技创新资讯分类方法和存储设备
US11227018B2 (en) 2019-06-27 2022-01-18 International Business Machines Corporation Auto generating reasoning query on a knowledge graph
US11250035B2 (en) * 2018-10-25 2022-02-15 Institute For Information Industry Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof
CN114064939A (zh) * 2022-01-17 2022-02-18 中证信息技术服务有限责任公司 一种知识图谱生成方法、装置、电子设备及存储介质
CN114077194A (zh) * 2021-10-25 2022-02-22 海南大学 面向不完整、不精确、动态优化决策目标的dikw资源构建与处理系统
CN114925210A (zh) * 2022-03-21 2022-08-19 中国电信股份有限公司 知识图谱的构建方法、装置、介质及设备
CN114925833A (zh) * 2022-04-20 2022-08-19 中国人民解放军91977部队 一种基于能力数据底图的目标状态规律知识挖掘方法
CN115098755A (zh) * 2022-06-20 2022-09-23 国网甘肃省电力公司电力科学研究院 一种科技信息服务平台构建方法及科技信息服务平台
CN115309915A (zh) * 2022-09-29 2022-11-08 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质
CN115510196A (zh) * 2021-06-07 2022-12-23 马上消费金融股份有限公司 知识图谱的构建方法、问答方法、装置和存储介质
CN117094394A (zh) * 2023-10-16 2023-11-21 之江实验室 基于论文pdf的天文多模态知识图谱构建方法和系统

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763555A (zh) * 2018-06-01 2018-11-06 北京奇虎科技有限公司 基于需求词的画像数据获取方法及装置
CN108776900A (zh) * 2018-07-02 2018-11-09 北京市天元网络技术股份有限公司 网络投诉智能定界方法及系统
CN109189942B (zh) * 2018-09-12 2021-07-09 山东大学 一种专利数据知识图谱的构建方法及装置
CN109347801B (zh) * 2018-09-17 2021-03-16 武汉大学 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
EP3847555A4 (en) * 2018-09-20 2021-11-10 Huawei Technologies Co., Ltd. KNOWLEDGE-BASED MANAGEMENT OF RECOGNITION MODELS IN ARTIFICIAL INTELLIGENCE SYSTEMS
CN109241062A (zh) * 2018-09-27 2019-01-18 国信优易数据有限公司 一种政务数据目录的生成方法及装置
CN110970112B (zh) * 2018-09-29 2024-03-12 九阳股份有限公司 一种面向营养健康的知识图谱构建方法和系统
CN109597894B (zh) * 2018-09-30 2023-10-03 创新先进技术有限公司 一种关联模型生成方法及装置、一种数据关联方法及装置
CN111090736B (zh) * 2018-10-24 2021-04-20 马上消费金融股份有限公司 问答模型的训练方法、问答方法、装置及计算机存储介质
CN109492112A (zh) * 2018-10-24 2019-03-19 北京百科康讯科技有限公司 一种基于知识图谱的计算机辅助写作科普文章的方法
CN109582800B (zh) * 2018-11-13 2020-02-07 北京合享智慧科技有限公司 一种训练结构化模型、文本结构化的方法及相关装置
CN109299289B (zh) * 2018-11-30 2021-04-06 国信优易数据股份有限公司 一种查询图构建方法、装置、电子设备及计算机存储介质
CN109684313A (zh) * 2018-12-14 2019-04-26 浪潮软件集团有限公司 一种数据清洗加工方法及系统
CN109726253B (zh) * 2018-12-21 2021-03-09 义橙网络科技(上海)有限公司 人才图谱及人才画像的构建方法、装置、设备及介质
CN109933671A (zh) * 2019-01-31 2019-06-25 平安科技(深圳)有限公司 构建个人知识图谱的方法、装置、计算机设备和存储介质
CN111913563A (zh) * 2019-05-07 2020-11-10 广东小天才科技有限公司 一种基于半监督学习的人机交互方法及装置
CN110232130B (zh) * 2019-05-20 2024-02-02 平安科技(深圳)有限公司 元数据管理谱系生成方法、装置、计算机设备和存储介质
CN110533343B (zh) * 2019-09-04 2023-12-15 腾讯科技(深圳)有限公司 智能客服系统的数据处理方法、装置及电子设备
CN111026815B (zh) * 2019-12-05 2024-02-06 电子科技大学广东电子信息工程研究院 基于用户辅助修正下的实体对特定关系抽取方法
CN111475503A (zh) * 2019-12-27 2020-07-31 北京国双科技有限公司 一种虚拟知识图谱构建方法及装置
CN111392538A (zh) * 2020-03-17 2020-07-10 浙江新再灵科技股份有限公司 一种基于多维物联网图谱大数据的电梯综合故障预警方法
CN111914569B (zh) * 2020-08-10 2023-07-21 安天科技集团股份有限公司 基于融合图谱的预测方法、装置、电子设备及存储介质
CN113408690A (zh) * 2021-07-01 2021-09-17 之江实验室 基于多模态知识图谱的机器人个性化情感互动装置及方法
CN116028593A (zh) * 2022-12-14 2023-04-28 北京百度网讯科技有限公司 文本中的人物身份信息识别方法及装置、电子设备和介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN104199956A (zh) * 2014-09-16 2014-12-10 成都博智维讯信息技术有限公司 一种erp数据语音搜索方法
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9183511B2 (en) * 2012-02-24 2015-11-10 Ming Li System and method for universal translating from natural language questions to structured queries
CN105468605B (zh) * 2014-08-25 2019-04-12 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN105550190B (zh) * 2015-06-26 2019-03-29 许昌学院 面向知识图谱的跨媒体检索系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN104199956A (zh) * 2014-09-16 2014-12-10 成都博智维讯信息技术有限公司 一种erp数据语音搜索方法
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN106021281A (zh) * 2016-04-29 2016-10-12 京东方科技集团股份有限公司 医学知识图谱的构建方法、其装置及其查询方法

Cited By (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190295001A1 (en) * 2018-03-21 2019-09-26 International Business Machines Corporation Cognitive data curation in a computing environment
CN110728147A (zh) * 2018-06-28 2020-01-24 阿里巴巴集团控股有限公司 一种模型训练方法及命名实体识别方法
CN110728147B (zh) * 2018-06-28 2023-04-28 阿里巴巴集团控股有限公司 一种模型训练方法及命名实体识别方法
CN109271459A (zh) * 2018-09-18 2019-01-25 四川长虹电器股份有限公司 基于Lucene和文法网络的聊天机器人及其实现方法
CN109408812A (zh) * 2018-09-30 2019-03-01 北京工业大学 一种基于注意力机制的序列标注联合抽取实体关系的方法
US11250035B2 (en) * 2018-10-25 2022-02-15 Institute For Information Industry Knowledge graph generating apparatus, method, and non-transitory computer readable storage medium thereof
CN109522420B (zh) * 2018-11-16 2022-04-22 广东小天才科技有限公司 一种获取学习需求的方法及系统
CN109522420A (zh) * 2018-11-16 2019-03-26 广东小天才科技有限公司 一种获取学习需求的方法及系统
CN111209348B (zh) * 2018-11-21 2023-09-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN111209348A (zh) * 2018-11-21 2020-05-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN109766445A (zh) * 2018-12-13 2019-05-17 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN109766445B (zh) * 2018-12-13 2024-03-26 平安科技(深圳)有限公司 一种知识图谱构建方法及数据处理装置
CN109710942B (zh) * 2018-12-28 2022-11-18 零犀(北京)科技有限公司 图谱的构建方法及装置、电子设备
CN109710942A (zh) * 2018-12-28 2019-05-03 零犀(北京)科技有限公司 图谱的构建方法及装置、电子设备
CN109589616A (zh) * 2019-01-29 2019-04-09 凌曙阳 一种智能玩具、应用程序、控制器工作方法及装置
CN110807091A (zh) * 2019-03-01 2020-02-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
CN110807091B (zh) * 2019-03-01 2023-08-18 王涵 一种酒店智能问答推荐与决策支持分析方法及系统
CN112784062A (zh) * 2019-03-15 2021-05-11 北京金山数字娱乐科技有限公司 一种成语知识图谱构建方法及装置
CN110705710A (zh) * 2019-04-17 2020-01-17 中国石油大学(华东) 一种基于知识图谱的工业故障分析专家系统
US11227018B2 (en) 2019-06-27 2022-01-18 International Business Machines Corporation Auto generating reasoning query on a knowledge graph
CN110598000B (zh) * 2019-08-01 2023-06-09 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110598000A (zh) * 2019-08-01 2019-12-20 达而观信息科技(上海)有限公司 一种基于深度学习模型的关系抽取及知识图谱构建方法
CN110489565B (zh) * 2019-08-15 2023-05-16 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110489565A (zh) * 2019-08-15 2019-11-22 广州拓尔思大数据有限公司 基于领域知识图谱本体中的对象根类型设计方法及系统
CN110674637A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种人物关系识别模型训练方法、装置、设备及介质
CN110765235B (zh) * 2019-09-09 2023-09-05 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN110765235A (zh) * 2019-09-09 2020-02-07 深圳市人马互动科技有限公司 训练数据的生成方法、装置、终端及可读介质
CN110674312A (zh) * 2019-09-18 2020-01-10 泰康保险集团股份有限公司 构建知识图谱方法、装置、介质及电子设备
CN110781311B (zh) * 2019-09-18 2024-02-27 上海合合信息科技股份有限公司 一种企业一致行动人运算系统及方法
CN110674312B (zh) * 2019-09-18 2022-05-17 泰康保险集团股份有限公司 构建知识图谱方法、装置、介质及电子设备
CN110781311A (zh) * 2019-09-18 2020-02-11 上海生腾数据科技有限公司 一种企业一致行动人运算系统及方法
CN110766787A (zh) * 2019-10-11 2020-02-07 南京摄星智能科技有限公司 一种基于语义驱动的3d态势场景智能构建技术
CN110795923B (zh) * 2019-11-01 2024-03-22 达观数据有限公司 基于自然语言处理的技术文档自动生成系统及生成方法
CN110795923A (zh) * 2019-11-01 2020-02-14 达而观信息科技(上海)有限公司 基于自然语言处理的技术文档自动生成系统及生成方法
CN111026874A (zh) * 2019-11-22 2020-04-17 海信集团有限公司 知识图谱的数据处理方法及服务器
CN111177335B (zh) * 2019-11-29 2023-11-21 广东轩辕网络科技股份有限公司 一种基于知识图谱的智能助理的信息处理方法及装置
CN111177335A (zh) * 2019-11-29 2020-05-19 广东轩辕网络科技股份有限公司 一种基于知识图谱的智能助理的信息处理方法及装置
CN111061841B (zh) * 2019-12-19 2023-10-27 京东方科技集团股份有限公司 知识图谱的构建方法及装置
CN111061841A (zh) * 2019-12-19 2020-04-24 京东方科技集团股份有限公司 知识图谱的构建方法及装置
CN110765753B (zh) * 2019-12-27 2023-07-14 广东博智林机器人有限公司 文案生成方法、系统、计算机设备和存储介质
CN110765753A (zh) * 2019-12-27 2020-02-07 广东博智林机器人有限公司 文案生成方法、系统、计算机设备和存储介质
CN111309925B (zh) * 2020-02-10 2023-06-30 同方知网数字出版技术股份有限公司 一种军事装备的知识图谱构建方法
CN111309925A (zh) * 2020-02-10 2020-06-19 同方知网(北京)技术有限公司 一种军事装备的知识图谱构建方法
CN113360751A (zh) * 2020-03-06 2021-09-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
CN111428018B (zh) * 2020-03-26 2024-02-06 中国建设银行股份有限公司 智能问答方法及装置
CN111428018A (zh) * 2020-03-26 2020-07-17 中国建设银行股份有限公司 智能问答方法及装置
CN111368097A (zh) * 2020-03-30 2020-07-03 中国建设银行股份有限公司 一种知识图谱抽取方法及装置
CN111476034A (zh) * 2020-04-07 2020-07-31 同方赛威讯信息技术有限公司 基于规则和模型结合的法律文书信息抽取方法及系统
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111581376B (zh) * 2020-04-17 2024-04-19 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111585809A (zh) * 2020-04-29 2020-08-25 北京润通丰华科技有限公司 一种利用大数据统计分析进行网络设备配置稽核的方法
CN113569051A (zh) * 2020-04-29 2021-10-29 北京金山数字娱乐科技有限公司 一种知识图谱构建方法及装置
CN111488468A (zh) * 2020-04-30 2020-08-04 北京建筑大学 地理信息知识点抽取方法、装置、存储介质及计算机设备
CN111639196B (zh) * 2020-06-03 2022-03-15 核工业湖州勘测规划设计研究院股份有限公司 一种多层渐进增强的地灾知识图谱及其自动补全方法
CN111639196A (zh) * 2020-06-03 2020-09-08 核工业湖州工程勘察院有限公司 一种多层渐进增强的地灾知识图谱及其自动补全方法
CN111930793A (zh) * 2020-06-26 2020-11-13 西安电子科技大学 目标行为挖掘与检索分析方法、系统、计算机设备及应用
CN111753100A (zh) * 2020-06-30 2020-10-09 广州小鹏车联网科技有限公司 一种针对车载应用的知识图谱生成方法和服务器
CN111814487A (zh) * 2020-07-17 2020-10-23 科大讯飞股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111858964A (zh) * 2020-07-30 2020-10-30 浙江萃文科技有限公司 一种基于知识图谱的三维智能定位方法
CN111950285B (zh) * 2020-07-31 2024-01-23 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN111950285A (zh) * 2020-07-31 2020-11-17 合肥工业大学 多模态数据融合的医疗知识图谱智能自动构建系统和方法
CN112131392A (zh) * 2020-08-01 2020-12-25 赛飞特工程技术集团有限公司 基于知识图谱的公共卫生疫情预警方法及系统
CN111897781B (zh) * 2020-08-03 2023-12-26 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN111897781A (zh) * 2020-08-03 2020-11-06 厦门渊亭信息科技有限公司 一种知识图谱数据抽取方法和系统
CN112084339B (zh) * 2020-08-11 2023-11-24 同济大学 一种基于跨媒体数据的交通知识图谱构建方法
CN112084339A (zh) * 2020-08-11 2020-12-15 同济大学 一种基于跨媒体数据的交通知识图谱构建方法
CN111967761A (zh) * 2020-08-14 2020-11-20 国网电子商务有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN111967761B (zh) * 2020-08-14 2024-04-02 国网数字科技控股有限公司 一种基于知识图谱的监控预警方法、装置及电子设备
CN111813874A (zh) * 2020-09-03 2020-10-23 中国传媒大学 太赫兹知识图谱构建方法及系统
CN111813874B (zh) * 2020-09-03 2023-09-15 中国传媒大学 太赫兹知识图谱构建方法及系统
CN112364172A (zh) * 2020-10-16 2021-02-12 上海晏鼠计算机技术股份有限公司 一种政务公文领域知识图谱构建方法
CN112231460A (zh) * 2020-10-27 2021-01-15 中国科学院合肥物质科学研究院 一种基于农业百科知识图谱的问答系统的构建方法
CN112199488A (zh) * 2020-11-04 2021-01-08 国网江苏省电力有限公司营销服务中心 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN112199488B (zh) * 2020-11-04 2023-09-26 国网江苏省电力有限公司营销服务中心 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN112487814A (zh) * 2020-11-27 2021-03-12 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN112487814B (zh) * 2020-11-27 2024-04-02 北京百度网讯科技有限公司 实体分类模型训练方法、实体分类方法、装置及电子设备
CN113051365A (zh) * 2020-12-10 2021-06-29 深圳证券信息有限公司 一种产业链图谱构建方法及相关设备
CN112541087A (zh) * 2020-12-18 2021-03-23 清华大学 基于百科的跨语言知识图谱构建方法及装置
CN112528046A (zh) * 2020-12-25 2021-03-19 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112528046B (zh) * 2020-12-25 2023-09-15 网易(杭州)网络有限公司 新的知识图谱的构建方法、装置和信息检索方法、装置
CN112833942A (zh) * 2020-12-28 2021-05-25 航天南洋(浙江)科技有限公司 一种系统健康状态监控设备及方法
CN112328812A (zh) * 2021-01-05 2021-02-05 成都数联铭品科技有限公司 基于自调参数的领域知识抽取方法与系统、电子设备
CN113269331A (zh) * 2021-04-25 2021-08-17 云南电网有限责任公司信息中心 一种变压器检修作业的知识库构建方法
CN113094516A (zh) * 2021-04-27 2021-07-09 东南大学 一种基于多源数据融合的电网监控领域知识图谱构建方法
CN113392223A (zh) * 2021-05-12 2021-09-14 同方知网数字出版技术股份有限公司 一种基于气象领域的知识图谱构建方法
CN113268604A (zh) * 2021-05-19 2021-08-17 国网辽宁省电力有限公司 知识库自适应扩展方法及系统
CN113268605B (zh) * 2021-05-26 2024-01-02 深圳晶泰科技有限公司 一种小分子药物晶型知识图谱的构建方法及系统
CN113268605A (zh) * 2021-05-26 2021-08-17 深圳晶泰科技有限公司 一种小分子药物晶型知识图谱的构建方法及系统
CN113378570A (zh) * 2021-06-01 2021-09-10 车智互联(北京)科技有限公司 一种实体识别模型的生成方法、计算设备及可读存储介质
CN113378570B (zh) * 2021-06-01 2023-12-12 车智互联(北京)科技有限公司 一种实体识别模型的生成方法、计算设备及可读存储介质
CN115510196A (zh) * 2021-06-07 2022-12-23 马上消费金融股份有限公司 知识图谱的构建方法、问答方法、装置和存储介质
CN113761208A (zh) * 2021-09-17 2021-12-07 福州数据技术研究院有限公司 一种基于知识图谱的科技创新资讯分类方法和存储设备
CN114077194A (zh) * 2021-10-25 2022-02-22 海南大学 面向不完整、不精确、动态优化决策目标的dikw资源构建与处理系统
CN114064939A (zh) * 2022-01-17 2022-02-18 中证信息技术服务有限责任公司 一种知识图谱生成方法、装置、电子设备及存储介质
CN114925210A (zh) * 2022-03-21 2022-08-19 中国电信股份有限公司 知识图谱的构建方法、装置、介质及设备
CN114925210B (zh) * 2022-03-21 2023-12-08 中国电信股份有限公司 知识图谱的构建方法、装置、介质及设备
CN114925833A (zh) * 2022-04-20 2022-08-19 中国人民解放军91977部队 一种基于能力数据底图的目标状态规律知识挖掘方法
CN115098755A (zh) * 2022-06-20 2022-09-23 国网甘肃省电力公司电力科学研究院 一种科技信息服务平台构建方法及科技信息服务平台
CN115309915A (zh) * 2022-09-29 2022-11-08 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质
CN115309915B (zh) * 2022-09-29 2022-12-09 北京如炬科技有限公司 知识图谱构建方法、装置、设备和存储介质
CN117094394B (zh) * 2023-10-16 2024-01-30 之江实验室 基于论文pdf的天文多模态知识图谱构建方法和系统
CN117094394A (zh) * 2023-10-16 2023-11-21 之江实验室 基于论文pdf的天文多模态知识图谱构建方法和系统

Also Published As

Publication number Publication date
CN107967267A (zh) 2018-04-27

Similar Documents

Publication Publication Date Title
WO2018072563A1 (zh) 一种知识图谱构建方法、装置及系统
US10331768B2 (en) Tagging text snippets
Alonso et al. Explainable artificial intelligence for human-centric data analysis in virtual learning environments
US20170103329A1 (en) Knowledge driven solution inference
Shatnawi et al. Automatic content related feedback for MOOCs based on course domain ontology
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
US20140108304A1 (en) Semantic Request Normalizer
CN112036842B (zh) 一种科技服务智能匹配装置
Sekkal et al. Knowledge management and reuse in virtual learning communities
US20220414463A1 (en) Automated troubleshooter
Ferreira-Satler et al. A fuzzy ontology approach to represent user profiles in e-learning environments
CN114840685A (zh) 一种应急预案知识图谱构建方法
Dhoolia et al. A cognitive system for business and technical support: A case study
CN116070599A (zh) 智能化题库生成及辅助管理系统
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
Majid et al. Ontology-Based System for Educational Program Counseling.
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
CN115017271B (zh) 用于智能生成rpa流程组件块的方法及系统
US20230111052A1 (en) Self-learning annotations to generate rules to be utilized by rule-based system
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法
CN111597306B (zh) 语句识别方法和装置、存储介质及电子设备
CN114661900A (zh) 一种文本标注推荐方法、装置、设备及存储介质
Khankasikam Knowledge capture for Thai word segmentation by using CommonKADS
Zhu et al. Construction of transformer substation fault knowledge graph based on a depth learning algorithm
Prajapati et al. Semantic network based cognitive, NLP powered question answering system for teaching electrical motor concepts

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17861594

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17861594

Country of ref document: EP

Kind code of ref document: A1