WO2020237856A1 - 基于知识图谱的智能问答方法、装置及计算机存储介质 - Google Patents

基于知识图谱的智能问答方法、装置及计算机存储介质 Download PDF

Info

Publication number
WO2020237856A1
WO2020237856A1 PCT/CN2019/102200 CN2019102200W WO2020237856A1 WO 2020237856 A1 WO2020237856 A1 WO 2020237856A1 CN 2019102200 W CN2019102200 W CN 2019102200W WO 2020237856 A1 WO2020237856 A1 WO 2020237856A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
data set
answer
similarity
word
Prior art date
Application number
PCT/CN2019/102200
Other languages
English (en)
French (fr)
Inventor
张奕
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2020237856A1 publication Critical patent/WO2020237856A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Definitions

  • This application relates to the field of artificial intelligence technology, and in particular to a method, device and computer-readable storage medium for intelligently answering the answer to the question based on the input of the question.
  • This application provides an intelligent question answering method, device, and computer-readable storage medium based on a knowledge graph, the main purpose of which is to present the user with accurate and satisfactory answer to the question when the user inputs a question.
  • the present application provides an intelligent question answering method based on a knowledge graph, including: Step A: Obtain a question data set and an answer data set corresponding to the question data set from the Internet through a web crawler technology, and form Question and answer data set, construct a knowledge graph relational data set based on the question and answer data set, and store the knowledge graph relational data set in a database; step B: read the knowledge graph relational data set from the database , And perform preprocessing operations including word segmentation and keyword extraction on the knowledge graph relational data set based on the hidden Markov model and the keyword extraction algorithm to obtain a logical question and answer data set, wherein the logical question and answer data set includes Logical question data set and logical answer data set; Step C: Extract the logical question data set in the logical question and answer data set, and calculate the question similarity between the data in the logical question data set, based on the question similarity Re-clean up the logical question data set, and establish a web page chain interface based on the cleaned up
  • this application also provides an intelligent question answering device based on a knowledge graph, which includes a memory and a processor, and the memory stores an intelligent question answering based on the knowledge graph that can run on the processor.
  • the program when the intelligent question answering program based on the knowledge graph is executed by the processor, implements the following steps: Step A: Obtain a question data set and an answer data set corresponding to the question data set from the Internet through web crawler technology, and Form a question and answer data set, construct a knowledge graph relational data set based on the question and answer data set, and store the knowledge graph relational data set in a database; step B: read the knowledge graph relational data from the database Based on the hidden Markov model and the keyword extraction algorithm, the knowledge graph relational data set is subjected to preprocessing operations including word segmentation and keyword extraction to obtain a logical question and answer data set, wherein the logical question and answer data set Including a logical question data set and a logical answer data set; Step C: Extract the following steps: Step A: Obtain a
  • Step H when the question similarity set has the highest similarity When the value is greater than the preset question threshold, the logical answer data set in the logical question and answer data set is searched, and the answer to the question input by the user is output;
  • Step E When the highest similarity value in the question similarity set is less than the preset When the question threshold is set, the webpage is accessed through the webpage chain interface to obtain the webpage answer set of the question input by the user, and after the preprocessing including word segmentation and keyword extraction is performed on the webpage answer set, the The answer similarity set of the web answer set and the logical answer data set is determined, and the relationship between the answer similarity set and the preset answer threshold is judged;
  • Step F When the highest similarity value in the answer similarity set is less than When the answer threshold is preset, output the answer corresponding to the web page answer set with the highest answer similarity;
  • the present application also provides a computer-readable storage medium on which is stored an intelligent question answering program based on a knowledge graph.
  • the intelligent question answering program based on a knowledge graph can be used by one or A plurality of processors are executed to implement the steps of the intelligent question answering method based on the knowledge graph as described above.
  • the intelligent question answering method, device and computer readable storage medium based on the knowledge graph proposed in this application use the knowledge graph to filter the information in the text data, so that the knowledge in it can be directly processed, and the similarity is based on the word frequency and the reverse frequency
  • the value and Euclidean distance are calculated, so the similarity between the problems can be more intuitively expressed. Therefore, this application can realize an accurate intelligent question answering function based on the knowledge graph.
  • FIG. 1 is a schematic flowchart of an intelligent question answering method based on a knowledge graph provided by an embodiment of the application;
  • FIG. 2 is a schematic diagram of the internal structure of an intelligent question answering device based on a knowledge graph provided by an embodiment of the application;
  • FIG. 3 is a schematic diagram of modules of an intelligent question answering program based on a knowledge graph in an intelligent question answering device based on a knowledge graph provided by an embodiment of the application.
  • This application provides an intelligent question answering method based on a knowledge graph.
  • FIG. 1 it is a schematic flowchart of an intelligent question answering method based on a knowledge graph provided by an embodiment of this application.
  • the method can be executed by a device, and the device can be implemented by software and/or hardware.
  • the intelligent question answering method based on the knowledge graph includes:
  • the question data set and the answer data set corresponding to the question data set are crawled from the URL and HTML in the Internet web page according to the Web crawler technology, and form question and answer data
  • the question data set and the answer data set include various fields.
  • the data in the question and answer data set is input into a pre-built combined model of recurrent neural network and convolutional neural network, and the combined model is trained to combine the data in the question and answer data set
  • the data is divided into the scope of the technical field.
  • the preferred embodiment of this application reconstructs the data in the various technical fields according to the data relationship of entities, relationships, and entities to obtain a knowledge graph relational data set.
  • the data in the field of film and television has "Who directed Farewell My Concubine” "This movie” and “Leslie Cheung starred in Farewell My Concubine”, according to the entity, relationship, and entity data relationship, the "who” and “Leslie Cheung” are constructed into the data relationship of one of the entities, and all The "director” and “leading actor” are constructed as the data relationship of the relationship, and the "Farewell My Concubine” is constructed as the data relationship of the other entity;
  • the knowledge graph relational data set is stored in the database according to the entity, relationship, and entity data relationship.
  • the word segmentation establishes a word segmentation probability model P(S) based on the knowledge graph relational data set, and maximizes the word segmentation probability model to complete the word segmentation operation.
  • the word segmentation probability model P(S) is:
  • W 1 , W 2 ,..., W m are the words of the data in the knowledge graph relational data set, and m is the number of the knowledge graph relational data set;
  • the keyword extraction includes constructing the relevance of the word and extracting keywords based on the relevance.
  • the calculation method of the correlation degree includes:
  • f (W i, W j ) is the correlation word W i and the words W j is
  • tfidf (W i) is the term frequency and inverse frequency value of the word W i
  • d is the words W i and the words W j on term vectors Euclidean distance.
  • the logical question and answer data set includes the logical question data set and the logical answer data set.
  • sim(W i , W j ) is the question similarity between the word W i and the word W j
  • n is the total number of data in the logic question data set.
  • the determination of the cleaning is a word W i and W j of word similarity problem issues the preset threshold value, when the problem of word W i and W j of word similarity greater than when said preset threshold issue, issue data from the centralized logic removing the words W j, W i retaining the word, when the word problems word W i and W j of the similarity is smaller than the preset threshold value problem
  • the word W i and the word W j are retained at the same time until the judgment of all the data in the logical question data set and the preset question threshold is completed, and the cleaning is completed.
  • the process of establishing the webpage chain interface includes converting the logic question data set utilization program into readable source code, and establishing a webpage automatically based on the readable source code.
  • calculating the question similarity with the data in the logical question data set is the same as the question similarity calculation method of S3.
  • the answer similarity is:
  • aim (W i, W j ) of word W i and W j of word similarity answer t is the total number of data in the answer set of issue data
  • m is the total number of data sets logical answer data
  • W i is a word in the answer set of the question data
  • W j is a word in the logical answer data set.
  • the invention also provides an intelligent question answering device based on the knowledge graph.
  • 2 is a schematic diagram of the internal structure of an intelligent question answering device based on a knowledge graph provided by an embodiment of the present application.
  • the intelligent question answering device 1 based on the knowledge graph may be a PC (Personal Computer, personal computer), or a terminal device such as a smart phone, a tablet computer, or a portable computer, or a server.
  • the intelligent question answering device 1 based on the knowledge graph at least includes a memory 11, a processor 12, a communication bus 13, and a network interface 14.
  • the memory 11 includes at least one type of readable storage medium, and the readable storage medium includes flash memory, hard disk, multimedia card, card-type memory (for example, SD or DX memory, etc.), magnetic memory, magnetic disk, optical disk, etc.
  • the memory 11 may be an internal storage unit of the intelligent question answering device 1 based on the knowledge graph, for example, the hard disk of the intelligent question answering device 1 based on the knowledge graph.
  • the memory 11 may also be an external storage device of the intelligent question answering device 1 based on the knowledge graph, for example, a plug-in hard disk equipped on the intelligent question answering device 1 based on the knowledge graph, and a smart media card (SMC). ), Secure Digital (SD) card, Flash Card, etc.
  • SMC smart media card
  • the memory 11 may also include both an internal storage unit of the intelligent question answering apparatus 1 based on the knowledge graph and an external storage device.
  • the memory 11 can be used not only to store application software and various data installed in the intelligent question answering device 1 based on the knowledge graph, such as the code of the intelligent question answering program 01 based on the knowledge graph, etc., but also to temporarily store what has been output or will be output The data.
  • the processor 12 may be a central processing unit (CPU), controller, microcontroller, microprocessor, or other data processing chip, and is used to run the program code or processing stored in the memory 11 Data, such as the implementation of intelligent question answering program 01 based on the knowledge graph.
  • CPU central processing unit
  • controller microcontroller
  • microprocessor or other data processing chip
  • the communication bus 13 is used to realize the connection and communication between these components.
  • the network interface 14 may optionally include a standard wired interface and a wireless interface (such as a WI-FI interface), and is usually used to establish a communication connection between the device 1 and other electronic devices.
  • the device 1 may also include a user interface.
  • the user interface may include a display (Display) and an input unit such as a keyboard (Keyboard).
  • the optional user interface may also include a standard wired interface and a wireless interface.
  • the display may be an LED display, a liquid crystal display, a touch-sensitive liquid crystal display, an OLED (Organic Light-Emitting Diode, organic light emitting diode) touch device, etc.
  • the display can also be appropriately called a display screen or a display unit, which is used to display the information processed in the intelligent question answering device 1 based on the knowledge graph and to display a visualized user interface.
  • Figure 2 only shows the intelligent question answering device 1 based on the knowledge graph with the components 11-14 and the intelligent question answering program 01 based on the knowledge graph.
  • the definition of the intelligent question answering device 1 of the knowledge graph may include fewer or more components than shown in the figure, or a combination of certain components, or different component arrangements.
  • the memory 11 stores the intelligent question answering program 01 based on the knowledge graph; the processor 12 implements the following steps when executing the intelligent question answering program 01 based on the knowledge graph stored in the memory 11:
  • Step 1 Use web crawler technology to obtain question data sets and answer data sets corresponding to the question data sets from the Internet, and form a question and answer data set, construct a knowledge graph relational data set based on the question and answer data set, and combine the The knowledge graph relational data set is stored in the database.
  • the question data set and the answer data set corresponding to the question data set are crawled from the URL and HTML in the Internet web page according to the Web crawler technology, and form question and answer data
  • the question data set and the answer data set include various fields.
  • the data in the question and answer data set is input into a pre-built combined model of recurrent neural network and convolutional neural network, and the combined model is trained to combine the data in the question and answer data set
  • the data is divided into the scope of the technical field.
  • the preferred embodiment of this application reconstructs the data in the various technical fields according to the data relationship of entities, relationships, and entities to obtain a knowledge graph relational data set.
  • the data in the field of film and television has "Who directed Farewell My Concubine” "This movie” and “Leslie Cheung starred in Farewell My Concubine”, according to the entity, relationship, and entity data relationship, the "who” and “Leslie Cheung” are constructed into the data relationship of one of the entities, and all The "director” and “leading actor” are constructed as the data relationship of the relationship, and the "Farewell My Concubine” is constructed as the data relationship of the other entity;
  • the knowledge graph relational data set is stored in the database according to the entity, relationship, and entity data relationship.
  • Step 2 Read the knowledge graph relational data set from the database, and perform pre-processing on the knowledge graph relational data set including word segmentation and keyword extraction based on hidden Markov model and keyword extraction algorithm The processing operation obtains a logical question and answer data set, where the logical question and answer data set includes a logical question data set and a logical answer data set.
  • the word segmentation establishes a word segmentation probability model P(S) based on the knowledge graph relational data set, and maximizes the word segmentation probability model to complete the word segmentation operation.
  • the word segmentation probability model P(S) is:
  • W 1 , W 2 ,..., W m are the words of the data in the knowledge graph relational data set, and m is the number of the knowledge graph relational data set;
  • the keyword extraction includes constructing the relevance of the word and extracting keywords based on the relevance.
  • the calculation method of the correlation degree includes:
  • f (W i, W j ) is the correlation word W i and the words W j is
  • tfidf (W i) is the term frequency and inverse frequency value of the word W i
  • d is the words W i and the words W j on term vectors Euclidean distance.
  • Step 3 Extract the logical question data set in the logical question and answer data set, calculate the question similarity between the data in the logical question data set, and clean up the logical question data set again based on the value of the question similarity Establish a webpage chain interface based on the cleaned up logical question data set.
  • the logical question and answer data set includes the logical question data set and the logical answer data set.
  • sim(W i , W j ) is the question similarity between the word W i and the word W j
  • n is the total number of data in the logic question data set.
  • the determination of the cleaning is a word W i and W j of word similarity problem issues the preset threshold value, when the problem of word W i and W j of word similarity greater than when said preset threshold issue, issue data from the centralized logic removing the words W j, W i retaining the word, when the word problems word W i and W j of the similarity is smaller than the preset threshold value problem
  • the word W i and the word W j are retained at the same time until the judgment of all the data in the logical question data set and the preset question threshold is completed, and the cleaning is completed.
  • the process of establishing the webpage chain interface includes converting the logic question data set utilization program into readable source code, and establishing a webpage automatically based on the readable source code. Search for a fluent interface of answers, and automatically organize the answers into a web answer set.
  • Step 4 Receive the user input question, perform the preprocessing including word segmentation and keyword extraction on the user input question, and calculate the similarity between the user input question and the data in the logical question data set , Get the problem similarity set.
  • calculating the question similarity with the data in the logical question data set is the same as the question similarity calculation method of S3.
  • Step 5 Determine the magnitude relationship between the answer similarity set and the preset answer threshold.
  • Step 6 When the highest similarity value in the question similarity set is greater than the preset question threshold, the logical answer data set in the logical question answering data set is searched, and the answer to the question input by the user is output.
  • Step 7 When the highest similarity value in the question similarity set is less than the preset question threshold, access the webpage through the webpage chain interface to obtain the webpage answer set of the question input by the user, and give an answer to the webpage After the preprocessing including word segmentation and keyword extraction is performed on the set, the answer similarity set of the webpage answer set and the logical answer data set is calculated.
  • the answer similarity is:
  • aim (W i, W j ) of word W i and W j of word similarity answer t is the total number of data in the answer set of issue data
  • m is the total number of data sets logical answer data
  • W i is a word in the answer set of the question data
  • W j is a word in the logical answer data set.
  • Step 8 Determine the magnitude relationship between the answer similarity set and the preset answer threshold.
  • Step 9 When the highest similarity value in the answer similarity set is less than the preset answer threshold, output the answer corresponding to the web page answer set with the highest answer similarity.
  • Step 10 When the highest similarity value in the answer similarity set is greater than the preset answer threshold, output the answer corresponding to the logical answer data set with the highest answer similarity.
  • the intelligent question answering program based on the knowledge graph can also be divided into one or more modules, and the one or more modules are stored in the memory 11 and run by one or more processors (this The embodiment is executed by the processor 12) to complete this application.
  • the module referred to in this application refers to a series of computer program instruction segments that can complete specific functions, which are used to describe the intelligent question and answer program based on the knowledge graph in the intelligence based on the knowledge graph. The execution process in the question and answer device.
  • FIG. 3 a schematic diagram of program modules of an intelligent question answering program based on a knowledge graph in an embodiment of an intelligent question answering device based on a knowledge graph of this application.
  • the intelligent question answering program based on the knowledge graph may be It is divided into a data receiving module 10, a data cleaning module 20, a question judgment module 30, and an answer output module 40 for example:
  • the data receiving module 10 is configured to: obtain a question data set and an answer data set corresponding to the question data set from the Internet through web crawler technology, and form a question and answer data set, and construct a knowledge graph relational type based on the question and answer data set Data set, storing the knowledge graph relational data set in the database.
  • the data cleaning module 20 is configured to: read the knowledge graph relational data set from the database, and perform word segmentation on the knowledge graph relational data set based on the hidden Markov model and a keyword extraction algorithm And the preprocessing operation of keyword extraction to obtain a logical question and answer data set, wherein the logical question and answer data set includes a logical question data set and a logical answer data set; extract the logical question data set in the logical question and answer data set, and calculate For the question similarity between data in the logical question data set, the logical question data set is re-cleaned based on the value of the question similarity, and a webpage link interface is established according to the cleaned logical question data set.
  • the question judgment module 30 is configured to: receive questions input by the user, perform preprocessing including word segmentation and keyword extraction on the questions input by the user, and then calculate the questions input by the user and the logical question data set The question similarity of the internal data is obtained, and the question similarity set is obtained.
  • the answer output module 40 is configured to: when the highest similarity value in the question similarity set is greater than a preset question threshold, search for the logical answer data set in the logical question and answer data set, and output the question input by the user
  • the webpage is accessed through the webpage chain interface to obtain the webpage answer set of the question input by the user, and the answer to the webpage is
  • the answer similarity set of the webpage answer set and the logical answer data set is calculated, and the relationship between the answer similarity set and the preset answer threshold is determined ;
  • the answer corresponding to the web answer set with the highest answer similarity is output; when the highest similarity value in the answer similarity set When it is greater than the preset answer threshold, output the answer corresponding to the logical answer data set with the highest degree of answer similarity.
  • an embodiment of the present application also proposes a computer-readable storage medium.
  • the computer-readable storage medium stores an intelligent question answering program based on a knowledge graph, and the intelligent question answering program based on the knowledge graph can be processed by one or more Executed to achieve the following operations:
  • the question data set and the answer data set corresponding to the question data set are obtained from the Internet through the web crawler technology, and form a question and answer data set, a knowledge graph relational data set is constructed based on the question and answer data set, and the knowledge graph relation
  • the type data set is stored in the database.
  • the question similarity between the question input by the user and the data in the logical question data set is calculated to obtain the question Similarity collection.
  • the logical answer data set in the logical question answering data set is searched, and the answer to the question input by the user is output;
  • the question similarity is When the highest similarity value in the set is less than the preset question threshold, the webpage is accessed through the webpage chain interface to obtain the webpage answer set of the question input by the user, and the webpage answer set includes word segmentation and keywords
  • calculate the answer similarity set of the webpage answer set and the logical answer data set and determine the size relationship between the answer similarity set and the preset answer threshold; when the answer similarity set is When the highest similarity value is less than the preset answer threshold, the answer corresponding to the web answer set with the highest similarity is output; when the highest similarity value in the answer similarity set is greater than the preset answer threshold, all answers are output. State the answer corresponding to the logical answer data set with the highest answer similarity.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种人工智能技术,揭露了一种基于知识图谱的智能问答方法,包括:获取问答数据集,根据所述问答数据集构建知识图谱关系型数据集,对所述知识图谱关系型数据集进行预处理操作得到逻辑问答数据集,提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度并建立网页链式接口,接收用户输入的问题后预处理,并计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,判断所述问题相似度集合与预设问题阈值的大小关系,直至最后输出所述用户输入的问题的答案。本申请还提出一种基于知识图谱的智能问答装置以及一种计算机可读存储介质。

Description

基于知识图谱的智能问答方法、装置及计算机存储介质
本申请要求于2019年5月29日提交中国专利局,申请号为201910462081.X、发明名称为“基于知识图谱的智能问答方法、装置及计算机存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于问题输入后,智能化回答所述问题答案的方法、装置及计算机可读存储介质。
背景技术
随着互联网技术的应用和发展,大量问答系统涌现。但目前多数的问答系统主要针对单一的、孤立的、事实性的问题,在答案的精准度以及问题的复杂度上受限于现有的计算模型复杂性和知识库完善程度,虽然许多研究机构和企业在开展智能问答研究,但其技术水平还有待进一步提高,且多数问答系统如果涉及到语义理解、复杂逻辑推理以及篇章层面语言分析等问题,一般也无法做出满意的回答。
发明内容
本申请提供一种基于知识图谱的智能问答方法、装置及计算机可读存储介质,其主要目的在于当用户输入问题时,给用户呈现出精准满意的问题答案。
为实现上述目的,本申请提供的一种基于知识图谱的智能问答方法,包括:步骤A:通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中;步骤B:从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;步骤C:提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值重新清理所述逻辑问题数据集,根据所述清理完成的逻辑问题数据集建立网页链式接口;步骤D:接收用户输入的问题,对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合;步骤H:当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,输出所述用户输入的问题的答 案;步骤E:当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行所述包括分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;步骤F:当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案;步骤G:当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
此外,为实现上述目的,本申请还提供一种基于知识图谱的智能问答装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的基于知识图谱的智能问答程序,所述基于知识图谱的智能问答程序被所述处理器执行时实现如下步骤:步骤A:通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中;步骤B:从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;步骤C:提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值重新清理所述逻辑问题数据集,根据所述清理完成的逻辑问题数据集建立网页链式接口;步骤D:接收用户输入的问题,对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合;步骤H:当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,输出所述用户输入的问题的答案;步骤E:当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行所述包括分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;步骤F:当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案;步骤G:当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于知识图谱的智能问答程序,所述基于知识图谱的智能问答程序可被一个或者多个处理器执行,以实现如上所述的基于知识图谱的智能问答方法的步骤。
本申请提出的基于知识图谱的智能问答方法、装置及计算机可读存储介 质使用知识图谱对文本数据中的信息进行筛选,从而可以直接对其中的知识进行处理,且相似度是通过词频、逆向频率值和欧式距离计算而出,故而可以更直观的表现出问题之间的相似度。因此本申请可以实现精准的基于知识图谱的智能问答功能。
附图说明
图1为本申请一实施例提供的基于知识图谱的智能问答方法的流程示意图;
图2为本申请一实施例提供的基于知识图谱的智能问答装置的内部结构示意图;
图3为本申请一实施例提供的基于知识图谱的智能问答装置中基于知识图谱的智能问答程序的模块示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种基于知识图谱的智能问答方法。参照图1所示,为本申请一实施例提供的基于知识图谱的智能问答方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,基于知识图谱的智能问答方法包括:
S1、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中。
本申请较佳实施例,根据所述网络爬虫(Web crawler)技术从互联网网页内的URL和HTML内爬取所述问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,所述问题数据集与所述答案数据集包括各个领域范围。
本申请较佳实施例中,将所述问答数据集内的数据输入至预先构建的循环神经网络与卷积神经网络的组合模型中,所述组合模型通过训练之后将所述问答数据集内的数据划分至所属的技术领域范围。
本申请较佳实施例对所述各技术领域范围内的数据按照实体、关系、实体的数据关系重新构建,得到知识图谱关系型数据集,如影视领域内的数据有“谁导演了霸王别姬这部电影”、“张国荣主演了霸王别姬”,则根据所述实体、关系、实体的数据关系,将所述“谁”、“张国荣”构建成所述其中一个实体的数据关系,将所述“导演”、“主演”构建成所述关系的数据关系,将所述“霸王别姬”构建成所述另一个实体的数据关系;
将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存 储至所述数据库中。
S2、从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集。
本申请较佳实施例中,所述分词根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作。所述分词概率模型P(S)为:
Figure PCTCN2019102200-appb-000001
其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
本申请较佳实施例中,所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字。所述相关度的计算方法包括:
Figure PCTCN2019102200-appb-000002
其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。当构建完成所述相关度时,对所述各词之间的相关度进行高低排序,提取相关度较高的词作为关键字,完成所述关键字抽取。
S3、提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值重新清理所述逻辑问题数据集,根据所述清理完成的逻辑问题数据集建立网页链式接口。
本申请较佳实施例中,所述逻辑问答数据集包括所述逻辑问题数据集与所述逻辑答案数据集。计算所述逻辑问题数据集内数据之间的问题相似度,所述问题相似度为:
Figure PCTCN2019102200-appb-000003
其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集内的数据总数。
本申请较佳实施例中,所述清理为判断所述词W i和词W j的问题相似度与所述预设问题阈值,当所述词W i和词W j的问题相似度大于所述预设问题阈值时,则从所述逻辑问题数据集中去除所述词W j,保留所述词W i,当所述词W i和词W j的问题相似度小于所述预设问题阈值时,同时保留所述词W i和词W j,直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断,完成清理。
本申请较佳实施例中,所述网页链式接口的建立过程包括将所述逻辑问题数据集利用程序转换成可读的源代码,根据所述可读的源代码建立一种通 过网页可自动搜索答案的链式接口(fluent interface),并将通过网页搜索到的答案自动整理成网页答案集。
S4、接收用户输入的问题,对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合。
本申请较佳实施例,计算与所述逻辑问题数据集内数据的问题相似度与S3的问题相似度计算方式相同。
S5、判断所述答案相似度集合与预设答案阈值的大小关系。
S6、当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,输出所述用户输入的问题的答案。
S7、当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行所述包括分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合。
本申请较佳实施例,所述答案相似度为:
Figure PCTCN2019102200-appb-000004
其中,aim(W i,W j)为词W i和词W j的答案相似度,t为所述问题数据的答案集内的数据总数,m为所述逻辑答案数据集的数据总数,W i为所述问题数据的答案集内的词,W j为所述逻辑答案数据集内的词。
S8、判断所述答案相似度集合与预设答案阈值的大小关系。
S9、当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案。
S10、当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
发明还提供一种基于知识图谱的智能问答装置。参照图2所示,为本申请一实施例提供的基于知识图谱的智能问答装置的内部结构示意图。
在本实施例中,所述基于知识图谱的智能问答装置1可以是PC(Personal Computer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该基于知识图谱的智能问答装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于知识图谱的 智能问答装置1的内部存储单元,例如该基于知识图谱的智能问答装置1的硬盘。存储器11在另一些实施例中也可以是基于知识图谱的智能问答装置1的外部存储设备,例如基于知识图谱的智能问答装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括基于知识图谱的智能问答装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于知识图谱的智能问答装置1的应用软件及各类数据,例如基于知识图谱的智能问答程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于知识图谱的智能问答程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在基于知识图谱的智能问答装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及基于知识图谱的智能问答程序01的基于知识图谱的智能问答装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对基于知识图谱的智能问答装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有基于知识图谱的智能问答程序01;处理器12执行存储器11中存储的基于知识图谱的智能问答程序01时实现如下步骤:
步骤一、通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中。
本申请较佳实施例,根据所述网络爬虫(Web crawler)技术从互联网网页内的URL和HTML内爬取所述问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,所述问题数据集与所述答案数据集包括各个领域范围。
本申请较佳实施例中,将所述问答数据集内的数据输入至预先构建的循环神经网络与卷积神经网络的组合模型中,所述组合模型通过训练之后将所 述问答数据集内的数据划分至所属的技术领域范围。
本申请较佳实施例对所述各技术领域范围内的数据按照实体、关系、实体的数据关系重新构建,得到知识图谱关系型数据集,如影视领域内的数据有“谁导演了霸王别姬这部电影”、“张国荣主演了霸王别姬”,则根据所述实体、关系、实体的数据关系,将所述“谁”、“张国荣”构建成所述其中一个实体的数据关系,将所述“导演”、“主演”构建成所述关系的数据关系,将所述“霸王别姬”构建成所述另一个实体的数据关系;
将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
步骤二、从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集。
本申请较佳实施例中,所述分词根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作。所述分词概率模型P(S)为:
Figure PCTCN2019102200-appb-000005
其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
本申请较佳实施例中,所述关键字抽取包括构建所述词的相关度并基于所述相关度提取关键字。所述相关度的计算方法包括:
Figure PCTCN2019102200-appb-000006
其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。当构建完成所述相关度时,对所述各词之间的相关度进行高低排序,提取相关度较高的词作为关键字,完成所述关键字抽取。
步骤三、提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值重新清理所述逻辑问题数据集,根据所述清理完成的逻辑问题数据集建立网页链式接口。
本申请较佳实施例中,所述逻辑问答数据集包括所述逻辑问题数据集与所述逻辑答案数据集。计算所述逻辑问题数据集内数据之间的问题相似度,所述问题相似度为:
Figure PCTCN2019102200-appb-000007
其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集 内的数据总数。
本申请较佳实施例中,所述清理为判断所述词W i和词W j的问题相似度与所述预设问题阈值,当所述词W i和词W j的问题相似度大于所述预设问题阈值时,则从所述逻辑问题数据集中去除所述词W j,保留所述词W i,当所述词W i和词W j的问题相似度小于所述预设问题阈值时,同时保留所述词W i和词W j,直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断,完成清理。
本申请较佳实施例中,所述网页链式接口的建立过程包括将所述逻辑问题数据集利用程序转换成可读的源代码,根据所述可读的源代码建立一种通过网页可自动搜索答案的链式接口(fluent interface),并将所述答案自动整理成网页答案集。
步骤四、接收用户输入的问题,对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合。
本申请较佳实施例,计算与所述逻辑问题数据集内数据的问题相似度与S3的问题相似度计算方式相同。
步骤五、判断所述答案相似度集合与预设答案阈值的大小关系。
步骤六、当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,输出所述用户输入的问题的答案。
步骤七、当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行所述包括分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合。
本申请较佳实施例,所述答案相似度为:
Figure PCTCN2019102200-appb-000008
其中,aim(W i,W j)为词W i和词W j的答案相似度,t为所述问题数据的答案集内的数据总数,m为所述逻辑答案数据集的数据总数,W i为所述问题数据的答案集内的词,W j为所述逻辑答案数据集内的词。
步骤八、判断所述答案相似度集合与预设答案阈值的大小关系。
步骤九、当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案。
步骤十、当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
可选地,在其他实施例中,基于知识图谱的智能问答程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或 多个处理器(本实施例为处理器12)所执行以完成本申请,本申请所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于知识图谱的智能问答程序在基于知识图谱的智能问答装置中的执行过程。
例如,参照图3所示,为本申请基于知识图谱的智能问答装置一实施例中的基于知识图谱的智能问答程序的程序模块示意图,该实施例中,所述基于知识图谱的智能问答程序可以被分割为数据接收模块10、数据清理模块20、问题判断模块30、答案输出模块40示例性地:
所述数据接收模块10用于:通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中。
所述数据清理模块20用于:从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值重新清理所述逻辑问题数据集,根据所述清理完成的逻辑问题数据集建立网页链式接口。
所述问题判断模块30用于:接收用户输入的问题,对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合。
所述答案输出模块40用于:当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,输出所述用户输入的问题的答案;当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行所述包括分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案;当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
上述数据接收模块10、数据清理模块20、问题判断模块30、答案输出模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于知识图谱的智能问答程序,所述基于知识图谱的智能问答程序可被一个或多个处理器执行,以实现如下操作:
通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中。
从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值重新清理所述逻辑问题数据集,根据所述清理完成的逻辑问题数据集建立网页链式接口。
接收用户输入的问题,对所述用户输入的问题进行所述包括分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合。
当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,输出所述用户输入的问题的答案;当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行所述包括分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案;当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
需要说明的是,上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是 利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种基于知识图谱的智能问答方法,其特征在于,所述方法包括:
    步骤A:通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中;
    步骤B:从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;
    步骤C:提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值清理所述逻辑问题数据集,根据清理完成的所述逻辑问题数据集建立网页链式接口;
    步骤D:接收用户输入的问题,对所述用户输入的问题进行分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合,判断所述问题相似度集合与预设问题阈值的大小关系;
    步骤H:当所述问题相似度集合中相似度最高的值大于所述预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,找到并输出所述用户输入的问题的答案;
    步骤E:当所述问题相似度集合中相似度最高的值小于所述预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;
    步骤F:当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案;
    步骤G:当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
  2. 如权利要求1所述的基于知识图谱的智能问答方法,其特征在于,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库包括:
    将所述问答数据集内的数据输入至循环神经网络与卷积神经网络的组合模型中,所述组合模型将所述问答数据集内的数据划分至所属的领域范围;
    对所述各领域范围内的数据按照实体、关系、实体的数据关系重新构建,得到知识图谱关系型数据集;
    将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
  3. 如权利要求1所述的基于知识图谱的智能问答方法,其特征在于,所述分词包括:根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
    Figure PCTCN2019102200-appb-100001
    其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
    所述关键字抽取包括:构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
    Figure PCTCN2019102200-appb-100002
    其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。
  4. 如权利要求2所述的基于知识图谱的智能问答方法,其特征在于,所述分词包括:根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
    Figure PCTCN2019102200-appb-100003
    其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
    所述关键字抽取包括:构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
    Figure PCTCN2019102200-appb-100004
    其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。
  5. 如权利要求3中的基于知识图谱的智能问答方法,其特征在于,计算所述逻辑问题数据集内数据之间的问题相似度包括:
    Figure PCTCN2019102200-appb-100005
    其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集内的数据总数。
  6. 如权利要求4中的基于知识图谱的智能问答方法,其特征在于,计算所述逻辑问题数据集内数据之间的问题相似度包括:
    Figure PCTCN2019102200-appb-100006
    其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集 内的数据总数。
  7. 如权利要求5或6所述的基于知识图谱的智能问答方法,其特征在于,基于所述问题相似度的值清理所述逻辑问题数据集,包括:
    判断所述词W i和词W j的问题相似度与所述预设问题阈值,当所述词W i和词W j的问题相似度大于所述预设问题阈值时,则从所述逻辑问题数据集中去除所述词W j,保留所述词W i,当所述词W i和词W j的问题相似度小于所述预设问题阈值时,同时保留所述词W i和词W j,直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断,完成清理。
  8. 一种基于知识图谱的智能问答装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于知识图谱的智能问答程序,所述基于知识图谱的智能问答程序被所述处理器执行时实现如下步骤:
    步骤A:通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中;
    步骤B:从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;
    步骤C:提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值清理所述逻辑问题数据集,根据清理完成的所述逻辑问题数据集建立网页链式接口;
    步骤D:接收用户输入的问题,对所述用户输入的问题进行分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合;
    步骤H:当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,找到并输出所述用户输入的问题的答案;
    步骤E:当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;
    步骤F:当所述答案相似度集合中相似度最高的值小于预设答案阈值时,输出所述答案相似度最高的网页答案集所对应的答案;
    步骤G:当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
  9. 如权利要求8所述的基于知识图谱的智能问答装置,其特征在于,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据 集存入数据库包括:
    将所述问答数据集内的数据输入至循环神经网络与卷积神经网络的组合模型中,所述组合模型将所述问答数据集内的数据划分至所属的领域范围;
    对所述各领域范围内的数据按照实体、关系、实体的数据关系重新构建,得到知识图谱关系型数据集;
    将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
  10. 如权利要求8所述的基于知识图谱的智能问答装置,其特征在于,所述分词包括:根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
    Figure PCTCN2019102200-appb-100007
    其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
    所述关键字抽取包括:构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
    Figure PCTCN2019102200-appb-100008
    其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。
  11. 如权利要求9所述的基于知识图谱的智能问答装置,其特征在于,所述分词包括:根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
    Figure PCTCN2019102200-appb-100009
    其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
    所述关键字抽取包括:构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
    Figure PCTCN2019102200-appb-100010
    其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。
  12. 如权利要求10所述的基于知识图谱的智能问答装置,其特征在于,计算所述逻辑问题数据集内数据之间的问题相似度包括:
    Figure PCTCN2019102200-appb-100011
    其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集内的数据总数。
  13. 如权利要求11所述的基于知识图谱的智能问答装置,其特征在于,计算所述逻辑问题数据集内数据之间的问题相似度包括:
    Figure PCTCN2019102200-appb-100012
    其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集内的数据总数。
  14. 如权利要求12或13所述的基于知识图谱的智能问答装置,其特征在于,基于所述问题相似度的值清理所述逻辑问题数据集,包括:
    判断所述词W i和词W j的问题相似度与所述预设问题阈值,当所述词W i和词W j的问题相似度大于所述预设问题阈值时,则从所述逻辑问题数据集中去除所述词W j,保留所述词W i,当所述词W i和词W j的问题相似度小于所述预设问题阈值时,同时保留所述词W i和词W j,直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断,完成清理。
  15. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于知识图谱的智能问答程序,所述基于知识图谱的智能问答程序可被一个或者多个处理器执行,以实现如下步骤:
    步骤A:通过网络爬虫技术从互联网中获取问题数据集和与所述问题数据集对应的答案数据集,并组成问答数据集,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库中;
    步骤B:从所述数据库中读取所述知识图谱关系型数据集,并基于隐性马尔科夫模型和关键字抽取算法对所述知识图谱关系型数据集进行包括分词和关键字抽取的预处理操作,得到逻辑问答数据集,其中,所述逻辑问答数据集包括逻辑问题数据集和逻辑答案数据集;
    步骤C:提取所述逻辑问答数据集内的逻辑问题数据集,并计算所述逻辑问题数据集内数据之间的问题相似度,基于所述问题相似度的值清理所述逻辑问题数据集,根据清理完成的所述逻辑问题数据集建立网页链式接口;
    步骤D:接收用户输入的问题,对所述用户输入的问题进行分词和关键字抽取的预处理后,计算所述用户输入的问题与所述逻辑问题数据集内数据的问题相似度,得到问题相似度集合;
    步骤H:当所述问题相似度集合中相似度最高的值大于预设问题阈值时,搜索所述逻辑问答数据集内的逻辑答案数据集,找到并输出所述用户输入的问题的答案;
    步骤E:当所述问题相似度集合中相似度最高的值小于预设问题阈值时,通过所述网页链式接口访问网页得到所述用户输入的问题的网页答案集,并对所述网页答案集进行分词和关键字抽取的预处理后,计算所述网页答案集与所述逻辑答案数据集的答案相似度集合,并判断所述答案相似度集合与预设答案阈值的大小关系;
    步骤F:当所述答案相似度集合中相似度最高的值小于预设答案阈值时, 输出所述答案相似度最高的网页答案集所对应的答案;
    步骤G:当所述答案相似度集合中相似度最高的值大于预设答案阈值时,输出所述答案相似度最高的逻辑答案数据集所对应的答案。
  16. 如权利要求15所述的计算机可读存储介质,其特征在于,根据所述问答数据集构建知识图谱关系型数据集,将所述知识图谱关系型数据集存入数据库包括:
    将所述问答数据集内的数据输入至循环神经网络与卷积神经网络的组合模型中,所述组合模型将所述问答数据集内的数据划分至所属的领域范围;
    对所述各领域范围内的数据按照实体、关系、实体的数据关系重新构建,得到知识图谱关系型数据集;
    将所述知识图谱关系型数据集按照所述实体、关系、实体的数据关系存储至所述数据库中。
  17. 如权利要求15所述的计算机可读存储介质,其特征在于,所述分词包括:根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
    Figure PCTCN2019102200-appb-100013
    其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
    所述关键字抽取包括:构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
    Figure PCTCN2019102200-appb-100014
    其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。
  18. 如权利要求16所述的计算机可读存储介质,其特征在于,所述分词包括:根据所述知识图谱关系型数据集建立分词概率模型P(S),并最大化所述分词概率模型,完成分词操作,所述分词概率模型P(S)为:
    Figure PCTCN2019102200-appb-100015
    其中,W 1,W 2,…,W m为所述知识图谱关系型数据集内数据的词,m为所述知识图谱关系型数据集的数量;
    所述关键字抽取包括:构建所述词的相关度并基于所述相关度提取关键字,所述相关度为:
    Figure PCTCN2019102200-appb-100016
    其中,f(W i,W j)为词W i和词W j的相关度,tfidf(W i)为词W i的词频与逆向频率值,d为词W i和词W j关于词向量的欧式距离。
  19. 如权利要求17或18所述的计算机可读存储介质,其特征在于,计算所述逻辑问题数据集内数据之间的问题相似度包括:
    Figure PCTCN2019102200-appb-100017
    其中,sim(W i,W j)为词W i和词W j的问题相似度,n为所述逻辑问题数据集内的数据总数。
  20. 如权利要求19所述的计算机可读存储介质,其特征在于,基于所述问题相似度的值清理所述逻辑问题数据集,包括:
    判断所述词W i和词W j的问题相似度与所述预设问题阈值,当所述词W i和词W j的问题相似度大于所述预设问题阈值时,则从所述逻辑问题数据集中去除所述词W j,保留所述词W i,当所述词W i和词W j的问题相似度小于所述预设问题阈值时,同时保留所述词W i和词W j,直至完成所述逻辑问题数据集内所有数据与所述预设问题阈值的判断,完成清理。
PCT/CN2019/102200 2019-05-29 2019-08-23 基于知识图谱的智能问答方法、装置及计算机存储介质 WO2020237856A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910462081.X 2019-05-29
CN201910462081.XA CN110334272B (zh) 2019-05-29 2019-05-29 基于知识图谱的智能问答方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
WO2020237856A1 true WO2020237856A1 (zh) 2020-12-03

Family

ID=68140662

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/102200 WO2020237856A1 (zh) 2019-05-29 2019-08-23 基于知识图谱的智能问答方法、装置及计算机存储介质

Country Status (2)

Country Link
CN (1) CN110334272B (zh)
WO (1) WO2020237856A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597316A (zh) * 2020-12-30 2021-04-02 厦门渊亭信息科技有限公司 一种可解释性推理问答方法及装置
CN113157886A (zh) * 2021-04-19 2021-07-23 西安交通大学深圳研究院 一种自动问答生成方法、系统、终端及可读存储介质
CN113360604A (zh) * 2021-06-23 2021-09-07 中国科学技术大学 基于认知推理的知识图谱多跳问答方法及模型
CN113393084A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 作业票流程管理系统
CN113590797A (zh) * 2021-08-05 2021-11-02 云上贵州大数据产业发展有限公司 一种智能运维客服系统及实现方法
CN113886545A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 知识问答方法、装置、计算机可读介质及电子设备
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法
CN114969548A (zh) * 2022-06-24 2022-08-30 天津联创科技发展有限公司 一种产业图谱数据智能获取方法及系统
CN116628167A (zh) * 2023-06-08 2023-08-22 四维创智(北京)科技发展有限公司 一种响应确定方法、装置、电子设备及存储介质
CN116737966A (zh) * 2023-08-15 2023-09-12 中国标准化研究院 一种基于知识本体的知识体系的建模方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090735B (zh) * 2019-12-25 2023-03-10 成都航天科工大数据研究院有限公司 一种基于知识图谱的智能问答方法的性能评价方法
CN111522914B (zh) * 2020-04-20 2023-05-12 北大方正集团有限公司 标注数据采集方法、装置、电子设备及存储介质
CN112231459A (zh) * 2020-10-27 2021-01-15 恩亿科(北京)数据科技有限公司 一种基于知识图谱实现软件测试智能问答的方法及系统
CN112579753B (zh) * 2020-12-17 2024-04-12 京东科技控股股份有限公司 信息获取方法、装置、设备、介质及产品
CN112966087B (zh) * 2021-03-15 2023-10-13 中国美术学院 一种灵感素材的智能问答系统及方法
CN116340548A (zh) * 2023-05-29 2023-06-27 四维创智(北京)科技发展有限公司 一种数据处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
CN108021691A (zh) * 2017-12-18 2018-05-11 深圳前海微众银行股份有限公司 答案查找方法、客服机器人以及计算机可读存储介质
US20180261118A1 (en) * 2017-03-10 2018-09-13 BrightMind Labs Inc. Systems And Methods For Autonomous Creation Of Personalized, Self-Updating Curricula
CN109635088A (zh) * 2018-12-13 2019-04-16 深圳市思迪信息技术股份有限公司 机器人长文本数据聊天的训练方法及装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104216913B (zh) * 2013-06-04 2019-01-04 Sap欧洲公司 问题回答方法、系统和计算机可读介质
WO2015058604A1 (zh) * 2013-10-21 2015-04-30 北京奇虎科技有限公司 获取问答对相关联程度、优化搜索排名的装置和方法
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
US10586156B2 (en) * 2015-06-25 2020-03-10 International Business Machines Corporation Knowledge canvassing using a knowledge graph and a question and answer system
CN107220380A (zh) * 2017-06-27 2017-09-29 北京百度网讯科技有限公司 基于人工智能的问答推荐方法、装置和计算机设备
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN108804521B (zh) * 2018-04-27 2021-05-14 南京柯基数据科技有限公司 一种基于知识图谱的问答方法及农业百科问答系统
CN109213854A (zh) * 2018-09-05 2019-01-15 平安科技(深圳)有限公司 知识图谱信息管理方法、装置、计算机设备及存储介质
CN109271506A (zh) * 2018-11-29 2019-01-25 武汉大学 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法
CN109614476A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 客服系统问答方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868313A (zh) * 2016-03-25 2016-08-17 浙江大学 一种基于模板匹配技术的知识图谱问答系统及方法
US20180261118A1 (en) * 2017-03-10 2018-09-13 BrightMind Labs Inc. Systems And Methods For Autonomous Creation Of Personalized, Self-Updating Curricula
CN108021691A (zh) * 2017-12-18 2018-05-11 深圳前海微众银行股份有限公司 答案查找方法、客服机器人以及计算机可读存储介质
CN109635088A (zh) * 2018-12-13 2019-04-16 深圳市思迪信息技术股份有限公司 机器人长文本数据聊天的训练方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597316B (zh) * 2020-12-30 2023-12-26 厦门渊亭信息科技有限公司 一种可解释性推理问答方法及装置
CN112597316A (zh) * 2020-12-30 2021-04-02 厦门渊亭信息科技有限公司 一种可解释性推理问答方法及装置
CN113157886A (zh) * 2021-04-19 2021-07-23 西安交通大学深圳研究院 一种自动问答生成方法、系统、终端及可读存储介质
CN113393084A (zh) * 2021-05-13 2021-09-14 上海湃道智能科技有限公司 作业票流程管理系统
CN113393084B (zh) * 2021-05-13 2024-06-11 上海湃道智能科技有限公司 作业票流程管理系统
CN113360604A (zh) * 2021-06-23 2021-09-07 中国科学技术大学 基于认知推理的知识图谱多跳问答方法及模型
CN113360604B (zh) * 2021-06-23 2024-02-27 中国科学技术大学 基于认知推理的知识图谱多跳问答方法及模型
CN113590797A (zh) * 2021-08-05 2021-11-02 云上贵州大数据产业发展有限公司 一种智能运维客服系统及实现方法
CN113886545A (zh) * 2021-09-29 2022-01-04 平安银行股份有限公司 知识问答方法、装置、计算机可读介质及电子设备
CN114020885A (zh) * 2021-10-15 2022-02-08 中国石油大学(华东) 一种基于领域知识图谱和斯坦纳树的智能问答方法
CN114969548A (zh) * 2022-06-24 2022-08-30 天津联创科技发展有限公司 一种产业图谱数据智能获取方法及系统
CN116628167A (zh) * 2023-06-08 2023-08-22 四维创智(北京)科技发展有限公司 一种响应确定方法、装置、电子设备及存储介质
CN116628167B (zh) * 2023-06-08 2024-04-05 四维创智(北京)科技发展有限公司 一种响应确定方法、装置、电子设备及存储介质
CN116737966A (zh) * 2023-08-15 2023-09-12 中国标准化研究院 一种基于知识本体的知识体系的建模方法

Also Published As

Publication number Publication date
CN110334272B (zh) 2022-04-12
CN110334272A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
WO2020237856A1 (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
WO2021169400A1 (zh) 基于人工智能的命名实体识别方法、装置及电子设备
WO2020224097A1 (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
US9721205B2 (en) Clarification of submitted questions in a question and answer system
US10146862B2 (en) Context-based metadata generation and automatic annotation of electronic media in a computer network
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
US10078632B2 (en) Collecting training data using anomaly detection
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
EP3958145A1 (en) Method and apparatus for semantic retrieval, device and storage medium
US20140377735A1 (en) Caching Natural Language Questions and Results in a Question and Answer System
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
WO2021146388A1 (en) Systems and methods for providing answers to a query
WO2020253042A1 (zh) 情感智能判断方法、装置及计算机可读存储介质
CN106708929B (zh) 视频节目的搜索方法和装置
WO2020253043A1 (zh) 智能文本分类方法、装置及计算机可读存储介质
CN109299235B (zh) 知识库搜索方法、装置及计算机可读存储介质
US20180046721A1 (en) Systems and Methods for Automatic Customization of Content Filtering
CN112101031B (zh) 一种实体识别方法、终端设备及存储介质
CN111581956B (zh) 基于bert模型和k近邻的敏感信息识别方法及系统
US9684726B2 (en) Realtime ingestion via multi-corpus knowledge base with weighting
US20210034621A1 (en) System and method for creating database query from user search query
WO2023242540A1 (en) Methods and systems for transforming and retrieving information from document data using machine learning
Nesi et al. Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19930822

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19930822

Country of ref document: EP

Kind code of ref document: A1