WO2021120627A1 - 数据搜索匹配方法、装置、计算机设备和存储介质 - Google Patents

数据搜索匹配方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2021120627A1
WO2021120627A1 PCT/CN2020/105007 CN2020105007W WO2021120627A1 WO 2021120627 A1 WO2021120627 A1 WO 2021120627A1 CN 2020105007 W CN2020105007 W CN 2020105007W WO 2021120627 A1 WO2021120627 A1 WO 2021120627A1
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
nodes
data
node
search
Prior art date
Application number
PCT/CN2020/105007
Other languages
English (en)
French (fr)
Inventor
董润华
徐国强
Original Assignee
深圳壹账通智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳壹账通智能科技有限公司 filed Critical 深圳壹账通智能科技有限公司
Publication of WO2021120627A1 publication Critical patent/WO2021120627A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Definitions

  • This application relates to the field of data processing technology, and in particular to a data search and matching method, device, computer equipment and storage medium.
  • search engines are the main means of data retrieval based on the Internet, and users can obtain search results through search engines.
  • the search engine retrieves related information according to the keywords entered by the user, and displays the retrieved related information to the user as a search result.
  • search engines mostly use general search engines.
  • General search engines perform word segmentation processing on the input search content, and then perform matching based on keywords obtained by word segmentation processing.
  • this search method that uses word segmentation results as keywords cannot analyze the search content and realize the search for information related to the hidden content, such as the search results ranked first The search results of may not match the user's search topic, resulting in low accuracy of search matching results.
  • a data search and matching method is provided.
  • a data search matching method includes:
  • the distance between the node to which the keyword belongs in the target encyclopedia graph and other nodes in the target encyclopedia graph is calculated, and the extraction distance is less than a second preset threshold Obtain the second expanded keyword, and the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs;
  • a data search and matching device includes:
  • An obtaining module used to obtain the keyword to be searched and the event map corresponding to the keyword
  • the first expansion module is used to calculate the distance between the node to which the keyword belongs in the event graph and other nodes in the event graph according to the relationship between the nodes in the event graph, and the extraction distance is less than the first A node with a preset threshold obtains the first expanded keyword;
  • the second expansion module is used to calculate the distance between the node to which the keyword belongs in the target Wikipedia and other nodes in the target Wikipedia according to the relationship between the nodes in the target Wikipedia, and extract A node whose distance is less than a second preset threshold obtains a second expanded keyword, and the target encyclopedia graph is the encyclopedia graph corresponding to the search field to which the keyword belongs;
  • the search result acquisition module is used to merge the keywords, the first expanded keywords, and the second expanded keywords to obtain a keyword set based on the keyword set and a preset search and analysis engine Search, get search results.
  • a computer device including a memory and one or more processors, the memory stores computer readable instructions, and when the computer readable instructions are executed by the processor, the one or more processors execute The following steps:
  • the nodes in the event graph calculate the distance between the node to which the keyword belongs in the event graph and other nodes in the event graph, and extract nodes whose distance is less than a first preset threshold; Get the first expansion keyword;
  • the distance between the node to which the keyword belongs in the target encyclopedia graph and other nodes in the target encyclopedia graph is calculated, and the extraction distance is less than a second preset threshold Obtain the second expanded keyword, and the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs;
  • a computer-readable storage medium having a computer program stored on the computer-readable storage medium, which implements a data search and matching method when the computer program is executed by a processor, wherein the data search and matching method includes the following steps:
  • the nodes in the event graph calculate the distance between the node to which the keyword belongs in the event graph and other nodes in the event graph, and extract nodes whose distance is less than a first preset threshold; Get the first expansion keyword;
  • the distance between the node to which the keyword belongs in the target encyclopedia graph and other nodes in the target encyclopedia graph is calculated, and the extraction distance is less than a second preset threshold Obtain the second expanded keyword, and the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs;
  • the above-mentioned data search and matching method, device, computer equipment and computer-readable storage medium expand according to the distance between the node in the event graph and the node in the graph of the keyword to be searched, and obtain the first expanded keyword based on the keyword's belonging
  • the target encyclopedia map corresponding to the search field is expanded according to the distance between the node of the keyword in the target encyclopedia map and the node in the map to obtain the second expanded keyword, and the keyword and the expanded keyword are merged to obtain a keyword set , Search according to the keyword set to obtain search results, and search in the above manner can more accurately match the search of the search subject, thereby improving the accuracy of the search matching results.
  • Fig. 1 is an application scenario diagram of a data search and matching method according to one or more embodiments
  • FIG. 2 is a schematic flowchart of a data search and matching method according to one or more embodiments
  • FIG. 3 is a schematic flowchart of a target encyclopedia map construction step according to one or more embodiments
  • FIG. 4 is a schematic flowchart of a data search and matching method in another embodiment
  • Fig. 5 is a block diagram of a data search and matching device according to one or more embodiments.
  • Figure 6 is a block diagram of a computer device according to one or more embodiments.
  • the data search and matching method provided in this application can be applied to the application environment as shown in FIG. 1.
  • the search subject enters the keyword in the search box, and the data processing terminal obtains the keyword to be searched and the event map corresponding to the keyword, and calculates the node and event map of the keyword in the event map according to the relationship between the nodes in the event map The distance between other nodes in the Wiki, extract the nodes whose distance is less than the first preset threshold, and obtain the first expanded keyword;
  • calculate the node and target of the keyword in the target encyclopedia map calculate the node and target of the keyword in the target encyclopedia map The distance between other nodes in the encyclopedia map, extract the nodes whose distance is less than the second preset threshold, and obtain the second expanded keyword, where the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs;
  • the keyword, the first The expanded keywords and the second expanded keywords are merged to obtain a keyword set, and search is performed based on the
  • a data search and matching method is provided. Taking the method applied to the data processing terminal in FIG. 1 as an example for description, the method includes the following steps:
  • Step 202 Obtain the keyword to be searched and the event map corresponding to the keyword.
  • Search subjects can enter keywords in the search box to search, for example, users can enter the Sino-US trade war in the search box to search.
  • the event map includes a large number of different words and events.
  • the user inputs a certain keyword to be searched, searches in a preset event map, and obtains the event map corresponding to the keyword. Then search in the node of the event graph according to the keyword to obtain the node to which the keyword belongs.
  • An event refers to an event that occurs at a specific time and a specific place, and event extraction can specifically be meta-event extraction.
  • the meta-event represents the occurrence of an action or the change of state, which is driven by the verb or noun that represents the action, and includes the main components involved in the action, such as time, place, and people.
  • An event consists of event triggers and elements that describe the structure of the event. Event triggers refer to the core words used to indicate the occurrence of events, such as verbs or nouns. Elements refer to attribute information such as participants, time, and location of the event.
  • Event extraction includes event identification and event element identification. Event element identification is to extract corresponding elements based on a preset event template. Meta-event extraction can be realized based on pattern matching, machine learning, neural network and other event extraction methods.
  • the neural network-based event extraction method refers to the conversion of event extraction into a supervised multi-class classification task, including sentence chapter-level events Extraction, neural network event extraction method based on joint model, fusion of external resources, etc.
  • the event graph is a structured representation of event-based information.
  • the nodes in the graph represent event mentions, and the edges between nodes represent the time relationship and referential relationship between event mentions.
  • Step 204 Calculate the distance between the node to which the keyword belongs in the event graph and other nodes in the event graph according to the relationship between the nodes in the event graph, extract nodes whose distance is less than the first preset threshold, and obtain the first expansion key word.
  • the word distance can be calculated by the BP algorithm. First, obtain the word list of the corpus, construct a unit vector for each word in the word list, calculate the output value of the fully connected forward neural network, and correct the weight value by the backward feedback network according to the error, and loop the above Steps until the termination conditions are met.
  • the pig raising industry event map as the preset event map as an example. For example, if the user enters the key word for the Sino-US trade war, the Sino-US trade war is searched in the pre-built pig industry event map for the distance to the Sino-US trade war. The most recent related event node of the node returns the event type and the associated node. For example, the related event result obtained from the query is: the node corresponding to the financial event is "financial crisis" and the node corresponding to the conflict event is "trade friction".
  • One expansion key words include financial crisis and trade friction.
  • Step 206 According to the relationship between the nodes in the target encyclopedia map, calculate the distance between the node to which the keyword belongs in the target encyclopedia map and other nodes in the target encyclopedia map, extract nodes with a distance less than a second preset threshold, and obtain the first Second, expand the keyword, the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs.
  • the subordinate node of A is a1.
  • the nodes whose distance is less than the second preset threshold may be the three closest nodes to the keyword node.
  • the three nodes closest to the keyword node a1 may be its superior node A, peer node a2, and subordinate nodes. Node a11.
  • the nodes obtained by setting a preset threshold are the three nodes closest to the keyword node, so that the quality of the keyword collection can be guaranteed.
  • query a1 for directly related nodes in the pre-built pig industry encyclopedia map For example, the result of the query is: pork price and breeding pig vaccine.
  • the second expansion keyword includes Pork prices and swine vaccines.
  • Step 208 Combine the keywords, the first expanded keyword, and the second expanded keyword to obtain a keyword set.
  • the first expansion keyword and the second expansion keyword and the input keywords can be merged separately according to the event type.
  • the event type returned by the event graph includes financial events and conflict events.
  • the keyword set includes financial event keywords Set and conflict time keyword set.
  • Step 210 Perform a search based on the keyword set and a preset search and analysis engine to obtain search results.
  • the preset search and analysis engine can be the ElasticSearch search and analysis engine.
  • the merged keyword set can be used to search for the most relevant top 50 news in the swine industry information database that has been constructed based on the ElasticSearch search and analysis engine. For example, if two event types are searched out: financial events and conflict events, the corresponding search results are two collections of 50 news results.
  • the above data search and matching method expands according to the distance between the node in the event graph to be searched and the node in the graph to obtain the first expanded keyword, based on the target encyclopedia graph corresponding to the search field to which the keyword belongs, according to the keyword Expand the distance between the node in the target encyclopedia map and the node in the map to obtain the second expanded keyword, merge the keyword and the expanded keyword to obtain the keyword set, search according to the keyword set, and obtain the search result , Searching in the above manner can more accurately match the search of the search subject, thereby improving the accuracy of search matching results.
  • the data search and matching method further includes: obtaining database data, performing natural language processing on the database data, and extracting node words and node relationship words in the event graph, and the node relationship words represent the connection relationship between the nodes; and Generate a preset event graph based on node words and node relation words.
  • obtaining the database data it also includes: obtaining the data source address list, start page number, end page number, and collection time; according to the collection time, extract news data determined based on the data source address list, start page number, and end page number; and parse news
  • the title and text data in the data, and the analysis results are stored in a preset database to generate database data.
  • natural language processing is performed on database data, and the extraction of nodes and the relationship between nodes includes: extracting data keywords from database data through a natural language processing model; data keywords whose word frequency-reverse file frequency is higher than a preset value As a node word, the node relation word is extracted from the database data through a natural language processing model.
  • the text in the news data can be segmented based on semantics through a natural language processing model to obtain multiple words after segmentation, and each word can be tagged with part of speech, such as person names, place names, numbers, etc., to obtain the required tagging entities.
  • the natural language processing model can use the TF-IDF (Term Frequency-Inverse Document Frequency) algorithm to calculate the word frequency of the data keyword-the reverse document frequency, and the word frequency-the reverse document frequency of the data keyword is higher than the preset value.
  • TF Term Frequency
  • IDF Inverse Document Frequency
  • the IDF of a particular word can be obtained by dividing the total number of documents by the number of documents containing the word, and then taking the logarithm of the obtained quotient.
  • a high word frequency in a particular document and a low document frequency of the word in the entire document collection can produce a high-weight TF-IDF. Therefore, TF-IDF can filter out common words and keep important words.
  • the data search and matching method further includes: step 302, from a preset encyclopedia atlas, obtain multiple entries associated with the search field to which the keyword belongs; step 304, more Each item is used as the node of the target encyclopedia map, the relationship between each node is obtained, and the relationship between each node is used as the edge of the target encyclopedia map to construct the target encyclopedia map corresponding to the search field.
  • obtaining the relationship between the nodes, using multiple entries as the nodes of the target encyclopedia map, and taking the relationship between the nodes as the edges of the target encyclopedia map, and before constructing the target encyclopedia map corresponding to the search field it also includes: Calculate the confidence of each entry in the multiple entries to the search field, delete the entries whose confidence is lower than the preset confidence threshold, and obtain multiple updated entries. In this way, entries in the non-search field can be filtered. Many categories and entries in Wikipedia belong to multiple parent categories. In order to improve the accuracy of entries in the search field, it is necessary to eliminate invalid categories and entries that are less relevant to the search field.
  • V the entries and classification structure under the specified search field, as well as the corresponding out degree of all the entries.
  • V the entries and classifications under the pig industry in the Wikipedia public data set page table
  • E the Wikipedia public data set categorylinks
  • V represents the collection of nodes
  • E represents the collection of edges
  • the direction of E is from the subcategory or entry to the parent category.
  • node v is one of the nodes of the swine industry encyclopedia to be established
  • C is the top parent category of the swine industry, and the degree of belonging of v to C needs to be calculated.
  • b is the link weight of node v, and its value is the reciprocal of the out-degree corresponding to v, and c is the weight from v to C, and its value is equal to the product of all weights on this path, and the degree of belonging from v to C is connected
  • a threshold of ownership such as 0.1, to filter invalid categories and entries, and use crawler technology to obtain the relationship nodes and attributes of the entries.
  • the alias of Dabaizhu is Yorkshire , The country of origin is UK and other relevant information.
  • the data search matching method further includes: Step 406: Obtain the index data corresponding to the search subject and the time sequence of the index data, and associate the search results with the index data in the time sequence. Obtain the associated data; step 407, push the associated data to the search subject.
  • a data search and matching device which includes: an acquisition module 502, a first expansion module 504, a second expansion module 506, and a search result acquisition module 508.
  • the obtaining module is used to obtain the keyword to be searched and the event map corresponding to the keyword.
  • the first expansion module is used to calculate the distance between the node of the keyword in the event map and other nodes in the event map according to the relationship between the nodes in the event map, and extract the nodes whose distance is less than the first preset threshold to obtain First expand keywords.
  • the second expansion module is used to calculate the distance between the node belonging to the keyword in the target encyclopedia and other nodes in the target encyclopedia according to the relationship between the nodes in the target encyclopedia map, and extract the distances less than the second preset threshold
  • the node obtains the second expanded keyword
  • the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs.
  • the search result acquisition module is used to merge the keywords, the first expanded keyword, and the second expanded keyword to obtain a keyword set, and search based on the keyword set and a preset search and analysis engine to obtain search results.
  • the data search and matching device further includes an event graph building module, which is used to obtain database data, perform natural language processing on the database data, and extract node words and node relationship words in the event graph.
  • the node relationship words represent the relationship between each node.
  • the connection relationship between nodes generate a preset event graph based on node words and node relationship words.
  • the data search and matching device further includes a database data generation module for obtaining the data source address list, the start page number, the end page number, and the collection time; according to the collection time, the extraction is based on the data source address list, the start page number, and the end News data determined by the page number; parse the title and text data in the news data, and store the analysis results in a preset database to generate database data.
  • a database data generation module for obtaining the data source address list, the start page number, the end page number, and the collection time; according to the collection time, the extraction is based on the data source address list, the start page number, and the end News data determined by the page number; parse the title and text data in the news data, and store the analysis results in a preset database to generate database data.
  • the event graph building module is also used to extract data keywords from the database data through a natural language processing model; the data keywords whose word frequency-reverse file frequency is higher than a preset value are used as node words, and pass the natural language processing model.
  • the language processing model extracts node relation words from database data.
  • the data search and matching device further includes a target encyclopedia map building module, which is used to obtain multiple entries associated with the search field to which the keyword belongs from a preset encyclopedia map; take the multiple entries as the target encyclopedia For the nodes of the graph, the relationship between the nodes is obtained, and the relationship between the nodes is used as the edge of the target encyclopedia graph to construct the target encyclopedia graph corresponding to the search field.
  • a target encyclopedia map building module which is used to obtain multiple entries associated with the search field to which the keyword belongs from a preset encyclopedia map; take the multiple entries as the target encyclopedia
  • the relationship between the nodes is obtained, and the relationship between the nodes is used as the edge of the target encyclopedia graph to construct the target encyclopedia graph corresponding to the search field.
  • the data search and matching device further includes an entry deletion module, which is used to calculate the confidence of each entry in the plurality of entries to the search field, and delete the entry whose confidence is lower than the preset confidence threshold, and get updated Multiple entries after the.
  • an entry deletion module which is used to calculate the confidence of each entry in the plurality of entries to the search field, and delete the entry whose confidence is lower than the preset confidence threshold, and get updated Multiple entries after the.
  • the data search and matching device further includes a data push module, which is used to obtain the index data corresponding to the search subject and the time sequence of the index data, and associate the search results with the index data in the time sequence to obtain the associated data. Data; push the associated data to the search subject.
  • a data push module which is used to obtain the index data corresponding to the search subject and the time sequence of the index data, and associate the search results with the index data in the time sequence to obtain the associated data.
  • Data push the associated data to the search subject.
  • Each module in the above-mentioned data search and matching device can be implemented in whole or in part by software, hardware and a combination thereof.
  • the above-mentioned modules may be embedded in the form of hardware or independent of the processor in the computer equipment, or may be stored in the memory of the computer equipment in the form of software, so that the processor can call and execute the operations corresponding to the above-mentioned modules.
  • a computer device is provided.
  • the computer device may be a server, and its internal structure diagram may be as shown in FIG. 6.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus.
  • the processor of the computer device is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile or volatile storage medium and internal memory.
  • the non-volatile or volatile storage medium stores an operating system, computer readable instructions, and a database.
  • the internal memory provides an environment for the operation of the operating system and computer-readable instructions in the non-volatile storage medium.
  • the database of the computer equipment is used to store data such as event maps and search domain encyclopedia maps.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the computer-readable instruction is executed by the processor to realize a data search and matching method.
  • FIG. 6 is only a block diagram of part of the structure related to the solution of the present application, and does not constitute a limitation on the computer device to which the solution of the present application is applied.
  • the specific computer device may Including more or fewer parts than shown in the figure, or combining some parts, or having a different arrangement of parts.
  • a computer device includes a memory and one or more processors.
  • the memory stores computer-readable instructions.
  • the one or more processors execute the following steps:
  • the nodes in the event graph calculate the distance between the node that the keyword belongs to in the event graph and other nodes in the event graph, extract nodes whose distance is less than the first preset threshold, and obtain the first expanded keyword;
  • the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs;
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the word frequency-reverse file frequency is higher than the preset value of the data keywords as the node words, and the node relation words are extracted from the database data through the natural language processing model.
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the processor further implements the following steps when executing the computer-readable instructions:
  • the nodes in the event graph calculate the distance between the node that the keyword belongs to in the event graph and other nodes in the event graph, extract nodes whose distance is less than the first preset threshold, and obtain the first expanded keyword;
  • the target encyclopedia map is the encyclopedia map corresponding to the search field to which the keyword belongs;
  • the computer-readable storage medium may be non-volatile or volatile.
  • the word frequency-reverse file frequency is higher than the preset value of the data keywords as the node words, and the node relation words are extracted from the database data through the natural language processing model.
  • Non-volatile memory may include read only memory (ROM), programmable ROM (PROM), electrically programmable ROM (EPROM), electrically erasable programmable ROM (EEPROM), or flash memory.
  • Volatile memory may include random access memory (RAM) or external cache memory.
  • RAM is available in many forms, such as static RAM (SRAM), dynamic RAM (DRAM), synchronous DRAM (SDRAM), double data rate SDRAM (DDRSDRAM), enhanced SDRAM (ESDRAM), synchronous chain Channel (Synchlink) DRAM (SLDRAM), memory bus (Rambus) direct RAM (RDRAM), direct memory bus dynamic RAM (DRDRAM), and memory bus dynamic RAM (RDRAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种数据搜索匹配方法、装置、计算机设备和计算机可读存储介质,涉及大数据技术领域中的数据挖掘,数据搜索匹配方法包括:获取待搜索的关键词以及关键词对应的事件图谱;根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词;将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。

Description

数据搜索匹配方法、装置、计算机设备和存储介质
相关申请的交叉引用
本申请要求于2019年12月18日提交中国专利局,申请号为201911311777.9,申请名称为“数据搜索匹配方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种数据搜索匹配方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,搜索引擎作为基于互联网数据检索的主要手段,用户可通过搜索引擎获取搜索结果。搜索引擎根据用户输入的关键词检索得到相关信息,并将检索获得的相关信息作为搜索结果展示给用户。
传统的搜索引擎大多采用通用搜索引擎,通用搜索引擎通过对输入的检索内容进行分词处理,然后再根据分词处理得到的关键词进行匹配。然而,发明人意识到,发明人意识到,这种将分词结果作为关键词的搜索方法,无法对检索内容进行解析,实现搜索其中隐含内容相关的信息,比如搜索获得的结果中排在前面的搜索结果未必与用户搜索主题匹配,导致搜索的匹配结果精准度不高。
发明内容
根据本申请公开的各种实施例,提供一种数据搜索匹配方法、装置、计算机设备和存储介质。
一种数据搜索匹配方法包括:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;及
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
一种数据搜索匹配装置包括:
获取模块,用于获取待搜索的关键词以及所述关键词对应的事件图谱;
第一拓展模块,用于根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
第二拓展模块,用于根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;及
搜索结果获取模块,用于将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合,基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
一种计算机设备,包括存储器和一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述一个或多个处理器执行以下步骤:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;及
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现数据搜索匹配方法,其中,所述数据搜索匹配方法包括以下步骤:
获取待搜索的关键词以及所述关键词对应的事件图谱;
根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;及
基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
上述数据搜索匹配方法、装置、计算机设备和计算机可读存储介质,根据待搜索的关键词在事件图谱中所属节点与图谱中节点间的距离进行拓展,获得第一拓展关键词,基于关键词所属搜索领域对应的目标百科图谱,根据关键词在目标百科图谱中所属节点与图谱中节点间的距离进行拓展,获得第二拓展关键词,将关键词以及拓展后的关键词合并,获得关键词集合,根据关键词集合进行搜索,获得搜索结果,通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索,从而提高搜索匹配结果的精确度。
本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为根据一个或多个实施例中数据搜索匹配方法的应用场景图;
图2为根据一个或多个实施例中数据搜索匹配方法的流程示意图;
图3为根据一个或多个实施例中目标百科图谱构建步骤的流程示意图;
图4为另一个实施例中数据搜索匹配方法的流程示意图;
图5为根据一个或多个实施例中数据搜索匹配装置的框图;
图6为根据一个或多个实施例中计算机设备的框图。
具体实施方式
为了使本申请的技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据搜索匹配方法,可以应用于如图1所示的应用环境中。搜索主体在搜索框内输入关键词,数据处理终端获取待搜索的关键词以及关键词对应的事件图谱,根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,其中,目标百科图谱为关键词所属搜索领域对应的百科图谱;将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索, 获得搜索结果。其中,数据处理终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑。
在其中一个实施例中,如图2所示,提供了一种数据搜索匹配方法,以该方法应用于图1中的数据处理终端为例进行说明,包括以下步骤:
步骤202,获取待搜索的关键词以及关键词对应的事件图谱。
搜索主体可以在搜索框中输入关键词进行搜索,比如,用户可以在搜索框中输入中美贸易战进行搜索。获取某个领域的资讯数据,根据该领域的资讯数据抽取出事件图谱,事件图谱中包括大量不同的词和事件。比如,用户输入某个待搜索的关键词,在预设的事件图谱中查找,获得关键词对应的事件图谱。再根据该关键词在该事件图谱的节点中进行搜索,获取该关键词所属节点。事件是指特定时间、特定地点发生的事情,事件抽取具体可以是元事件抽取。其中,元事件表示一个动作的发生或状态的变化,由表示动作的动词或名词来驱动,包括参与该动作行为的主要成分,比如时间、地点、人物等。事件由事件触发和描述事件结构的元素组成,事件触发词是指用来表示事件发生的核心词,如动词或名词。元素指表示事件的参与者、时间、地点等属性信息。事件抽取包括事件识别和事件元素识别,事件元素识别即根据预先设定的事件模板,抽取相应的元素。可以基于模式匹配、基于机器学习、基于神经网络等事件抽取方法实现元事件抽取,其中,基于神经网络的事件抽取方法是指将事件抽取转换成一个有监督的多元分类任务,包括句子篇章级事件抽取、基于联合模型、融合外部资源的神经网络事件抽取方法等。事件图谱是以事件为基础信息的结构化表示方式,图谱中的节点表示事件提及,节点之间的边表示事件提及之间的时间关系和指代关系。
步骤204,根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词。
可以通过BP算法计算词距离,首先获得语料库的词列表,对词列表中的每个词构建单位向量,计算全连接前向神经网络输出值,根据误差由后向反馈网络修正权值,循环上述步骤直至满足终止条件。
以养猪业事件图谱作为预设的事件图谱为例,比如,用户输入的关键词为中美贸易战,将中美贸易战在预先已构建的养猪业事件图谱中查询距离中美贸易战节点最近的相关事件节点,返回事件类型和关联的节点,比如查询得到的相关事件结果为:金融事件对应的节点是“金融危机”以及冲突事件对应的节点是“贸易摩擦”,此时,第一拓展关键词包括金融危机和贸易摩擦。
步骤206,根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱。
比如,图谱中的一个节点A,A的下级节点为a1。与a1节点同级存在一个a2节点, a1节点的下级存在一个a11节点。距离小于第二预设阈值的节点具体可以是与关键词节点距离中最近的三个节点,比如,与关键词节点a1距离最近的三个节点可以是其上级节点A、同级节点a2以及下级节点a11。一般而言,通过设置预设阈值获取到的节点为与关键词节点距离最近的三个节点,这样可以保证关键词集合的质量。
以养猪业作为搜索领域为例,将a1在预先已构建的养猪业百科图谱中查询直接关联的节点,比如查询的结果为:猪肉价格和种猪疫苗,此时,第二拓展关键词包括猪肉价格和种猪疫苗。
步骤208,将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合。
具体可以按照事件类型将第一拓展关键词和第二拓展关键词及输入的关键词分别合并,比如事件图谱返回的事件类型包括金融事件和冲突事件,对应的,关键词集合包括金融事件关键词集合以及冲突时间关键词集合。
步骤210,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
预设的搜索与分析引擎可以是ElasticSearch搜索与分析引擎,具体可以通过合并后的关键词集合在基于ElasticSearch搜索与分析引擎已构建的养猪业资讯库中搜索最相关的前50条新闻。比如搜索出两个事件类型:金融事件和冲突事件,则对应的搜索结果为两个50条新闻集合结果。
上述数据搜索匹配方法,根据待搜索的关键词在事件图谱中所属节点与图谱中节点间的距离进行拓展,获得第一拓展关键词,基于关键词所属搜索领域对应的目标百科图谱,根据关键词在目标百科图谱中所属节点与图谱中节点间的距离进行拓展,获得第二拓展关键词,将关键词以及拓展后的关键词合并,获得关键词集合,根据关键词集合进行搜索,获得搜索结果,通过上述方式进行搜索能够更加精准的匹配搜索主体的搜索,从而提高搜索匹配结果的精确度。
在其中一个实施例中,数据搜索匹配方法还包括:获取数据库数据,对数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,节点关系词表征各节点之间的连接关系;及根据节点词以及节点关系词生成预设的事件图谱。其中,获取数据库数据之前,还包括:获取数据源地址列表、开始页码、结束页码以及采集时间;根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;及解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。比如,当需要构建金融事件图谱时,可以设置采集金融财经类的新闻数据。这样可以自动采集数据,节省时间,提高效率。具体地,对数据库数据进行自然语言处理,提取节点以及节点之间的关系包括:通过自然语言处理模型从数据库数据中提取数据关键词;将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。可以通过自然语言处理模型对新闻数据中的文本基于语义进行分割,得到分割后的多个词语,对每个词语进行词性标注,比如人名、地名、数字等标注,获取所需的标注实体。自然语言处理模型可以通过TF-IDF(Term Frequency-Inverse Document Frequency,词 频-逆向文件频率)算法计算数据关键词的词频-逆向文件频率,将词频-逆向文件频率高于预设值的数据关键词作为节点。TF(Term Frequency,词频)表示词语在文件中出现的频率,IDF(Inverse Document Frequency,逆向文件频率)是一个词语普遍重要性的度量。某一特定词语的IDF可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,通过TF-IDF可以过滤掉常见的词语,保留重要的词语。
在其中一个实施例中,如图3所示,数据搜索匹配方法还包括:步骤302,从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;步骤304,以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。具体地,获取各节点之间的关系,并以多个条目作为目标百科图谱的节点,以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱之前,还包括:分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。这样可以过滤非搜索领域的条目,在维基百科中很多类别和条目都属于多个父类别,为了提高搜索领域的条目的准确性,需要消除无效的、与搜索领域关联较小的分类及条目。
获取指定搜索领域下的所有条目及分类结构,以及所有条目对应的出度,比如定义V为维基百科公开数据集page表养猪业下的所有条目及分类,定义E为维基百科公开数据集categorylinks和redirect获取到养猪业下的分类结构链接,通过V表示节点的集合,E表示边的集合,E的方向是从子类别或者条目指向父类别。假设节点v是待建立的养猪业百科图谱的节点之一,C是养猪业的顶级父类别,需要计算v到C的所属度。定义b为节点v的链接权重,其取值是v对应的出度的倒数,c为v到C的权重,其值等于这条路径上所有权重的乘积,对于v到C的所属度为连通v到C路径权重的和;设置所属度阈值比如0.1,用于过滤无效的分类和条目,将过滤后的条目通过爬虫技术获取条目的关系节点及属性,如:大白猪的别名为大约克夏,原产地为英国等相关信息。将所有数据入图数据库形成知识图谱,图谱具体可以通过Neo4j图数据库进行构建。
在其中一个实施例中,如图4所示,数据搜索匹配方法还包括:步骤406,获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;步骤407,向搜索主体推送关联后的数据。以股票数据作为指标数据为例,比如可以使用爬虫技术将东方财富网上的所有上市公司股票数据爬取下来,再通过行业分类筛选出养猪业上市公司的股票数据;将所有事件类型关联集合查出的每50条新闻通过时间顺序插入至养猪业上市公司的股票数据时间轴上,这样搜索主体可以通过关联后的数据分析输入的关键词给行业的某条指标带来的影响。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一 部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,如图5所示,提供了一种数据搜索匹配装置,包括:获取模块502、第一拓展模块504、第二拓展模块506和搜索结果获取模块508。获取模块,用于获取待搜索的关键词以及关键词对应的事件图谱。第一拓展模块,用于根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词。第二拓展模块,用于根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱。搜索结果获取模块,用于将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合,基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
在其中一个实施例中,数据搜索匹配装置还包括事件图谱构建模块,用于获取数据库数据,对数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,节点关系词表征各节点之间的连接关系;根据节点词以及节点关系词生成预设的事件图谱。
在其中一个实施例中,数据搜索匹配装置还包括数据库数据生成模块,用于获取数据源地址列表、开始页码、结束页码以及采集时间;根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
在其中一个实施例中,事件图谱构建模块还用于通过自然语言处理模型从数据库数据中提取数据关键词;将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。
在其中一个实施例中,数据搜索匹配装置还包括目标百科图谱构建模块,用于从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。
在其中一个实施例中,数据搜索匹配装置还包括条目删除模块,用于分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在其中一个实施例中,数据搜索匹配装置还包括数据推送模块,用于获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;向搜索主体推送关联后的数据。
关于数据搜索匹配装置的具体限定可以参见上文中对于数据搜索匹配方法的限定,在此不再赘述。上述数据搜索匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性或易失性存储介质、内存储器。该非易失性或易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储事件图谱、搜索领域百科图谱等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种数据搜索匹配方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
一种计算机设备,包括存储器和一个或多个处理器,存储器中储存有计算机可读指令,计算机可读指令被处理器执行时,使得一个或多个处理器执行以下步骤:
获取待搜索的关键词以及关键词对应的事件图谱;
根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱;
将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合;及
基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取数据库数据,对数据库数据进行自然语言处理,提取节点词以及节点关系词;及
根据节点词以及节点关系词生成预设的事件图谱。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取数据源地址列表、开始页码、结束页码以及采集时间;
根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;及
解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
通过自然语言处理模型从数据库数据中提取数据关键词;及
将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;及
以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在其中一个实施例中,处理器执行计算机可读指令时还实现以下步骤:
获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;及
向搜索主体推送关联后的数据。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现数据搜索匹配方法,其中,所述数据搜索匹配方法包括以下步骤:
获取待搜索的关键词以及关键词对应的事件图谱;
根据事件图谱中各节点之间的关系,计算关键词在事件图谱中所属节点与事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
根据目标百科图谱中各节点之间的关系,计算关键词在目标百科图谱中所属节点与目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,目标百科图谱为关键词所属搜索领域对应的百科图谱;
将关键词、第一拓展关键词以及第二拓展关键词合并,获得关键词集合;及
基于关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
其中,该计算机可读存储介质可以是非易失性,也可以是易失性的。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取数据库数据,对数据库数据进行自然语言处理,提取节点词以及节点关系词;及
根据节点词以及节点关系词生成预设的事件图谱。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取数据源地址列表、开始页码、结束页码以及采集时间;
根据采集时间,提取基于数据源地址列表、开始页码、结束页码所确定的新闻数据;及
解析新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数 据。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
通过自然语言处理模型从数据库数据中提取数据关键词;及
将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过自然语言处理模型从数据库数据中提取节点关系词。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
从预设的百科图谱中,获取与关键词所属搜索领域相关联的多个条目;及
以多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建搜索领域对应的目标百科图谱。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
分别计算多个条目中每个条目到搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
在其中一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取搜索主体对应的指标数据以及指标数据的时间顺序,将搜索结果按照时间顺序与指标数据进行关联处理,得到关联后的数据;及
向搜索主体推送关联后的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,所述的计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (20)

  1. 一种数据搜索匹配方法,包括:
    获取待搜索的关键词以及所述关键词对应的事件图谱;
    根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
    根据目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
    将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;及
    基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
  2. 根据权利要求1所述的方法,其中,所述方法还包括:
    获取数据库数据,对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,所述节点关系词表征各节点之间的连接关系;及
    根据所述节点词以及所述节点关系词生成预设的事件图谱。
  3. 根据权利要求2所述的方法,其中,所述获取数据库数据之前,还包括:
    获取数据源地址列表、开始页码、结束页码以及采集时间;
    根据所述采集时间,提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据;及
    解析所述新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
  4. 根据权利要求2所述的方法,其中,所述对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,包括:
    通过自然语言处理模型从所述数据库数据中提取数据关键词;及
    将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
  5. 根据权利要求1所述的方法,其中,所述方法还包括:
    从预设的百科图谱中,获取与所述关键词所属搜索领域相关联的多个条目;及
    以所述多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱。
  6. 根据权利要求5所述的方法,其中,所述获取各节点之间的关系,并以所述多个条目作为目标百科图谱的节点,以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱之前,还包括:
    分别计算所述多个条目中每个条目到所述搜索领域的置信度,删除置信度低于预设置 信度阈值的条目,得到更新后的多个条目。
  7. 根据权利要求1所述的方法,其中,所述方法还包括:
    获取搜索主体对应的指标数据以及所述指标数据的时间顺序,将所述搜索结果按照所述时间顺序与所述指标数据进行关联处理,得到关联后的数据;及
    向所述搜索主体推送所述关联后的数据。
  8. 一种数据搜索匹配装置,其中,所述装置包括:
    获取模块,用于获取待搜索的关键词以及所述关键词对应的事件图谱;
    第一拓展模块,用于根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
    第二拓展模块,用于根据所述目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;及
    搜索结果获取模块,用于将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合,基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
  9. 一种计算机设备,包括存储器及一个或多个处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述一个或多个处理器执行时,使得所述一个或多个处理器执行以下步骤:
    获取待搜索的关键词以及所述关键词对应的事件图谱;
    根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
    根据目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
    将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;及
    基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
  10. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    获取数据库数据,对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,所述节点关系词表征各节点之间的连接关系;及
    根据所述节点词以及所述节点关系词生成预设的事件图谱。
  11. 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    获取数据源地址列表、开始页码、结束页码以及采集时间;
    根据所述采集时间,提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据;及
    解析所述新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
  12. 根据权利要求10所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    通过自然语言处理模型从所述数据库数据中提取数据关键词;及
    将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
  13. 根据权利要求9所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    从预设的百科图谱中,获取与所述关键词所属搜索领域相关联的多个条目;及
    以所述多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱。
  14. 根据权利要求13所述的计算机设备,其中,所述处理器执行所述计算机可读指令时还执行以下步骤:
    分别计算所述多个条目中每个条目到所述搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
  15. 一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现数据搜索匹配方法,其中,所述数据搜索匹配方法包括以下步骤:
    获取待搜索的关键词以及所述关键词对应的事件图谱;
    根据所述事件图谱中各节点之间的关系,计算所述关键词在所述事件图谱中所属节点与所述事件图谱中其它节点之间的距离,提取距离小于第一预设阈值的节点,获得第一拓展关键词;
    根据目标百科图谱中各节点之间的关系,计算所述关键词在所述目标百科图谱中所属节点与所述目标百科图谱中其它节点之间的距离,提取距离小于第二预设阈值的节点,获得第二拓展关键词,所述目标百科图谱为所述关键词所属搜索领域对应的百科图谱;
    将所述关键词、所述第一拓展关键词以及所述第二拓展关键词合并,获得关键词集合;及
    基于所述关键词集合以及预设的搜索与分析引擎进行搜索,获得搜索结果。
  16. 根据权利要求15所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行时还执行以下步骤:
    获取数据库数据,对所述数据库数据进行自然语言处理,提取事件图谱中节点词以及节点关系词,所述节点关系词表征各节点之间的连接关系;及
    根据所述节点词以及所述节点关系词生成预设的事件图谱。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行时还执行以下步骤:
    获取数据源地址列表、开始页码、结束页码以及采集时间;
    根据所述采集时间,提取基于所述数据源地址列表、所述开始页码、所述结束页码所确定的新闻数据;及
    解析所述新闻数据中的标题和正文数据,并将解析结果存储至预设数据库,生成数据库数据。
  18. 根据权利要求16所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行时还执行以下步骤:
    通过自然语言处理模型从所述数据库数据中提取数据关键词;及
    将词频-逆向文件频率高于预设值的数据关键词作为节点词,并通过所述自然语言处理模型从所述数据库数据中提取节点关系词。
  19. 根据权利要求15所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行时还执行以下步骤:
    从预设的百科图谱中,获取与所述关键词所属搜索领域相关联的多个条目;及
    以所述多个条目作为目标百科图谱的节点,获取各节点之间的关系,并以各节点之间的关系作为目标百科图谱的边,构建所述搜索领域对应的目标百科图谱。
  20. 根据权利要求19所述的计算机可读存储介质,其中,所述计算机程序被所述处理器执行时还执行以下步骤:
    分别计算所述多个条目中每个条目到所述搜索领域的置信度,删除置信度低于预设置信度阈值的条目,得到更新后的多个条目。
PCT/CN2020/105007 2019-12-18 2020-07-28 数据搜索匹配方法、装置、计算机设备和存储介质 WO2021120627A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911311777.9 2019-12-18
CN201911311777.9A CN111177405A (zh) 2019-12-18 2019-12-18 数据搜索匹配方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2021120627A1 true WO2021120627A1 (zh) 2021-06-24

Family

ID=70653924

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/105007 WO2021120627A1 (zh) 2019-12-18 2020-07-28 数据搜索匹配方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN111177405A (zh)
WO (1) WO2021120627A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质
CN111768234B (zh) * 2020-06-28 2023-12-19 百度在线网络技术(北京)有限公司 为用户生成推荐文案的方法及设备、电子设备和介质
CN112052340B (zh) * 2020-08-10 2024-06-21 深圳数联天下智能科技有限公司 一种数据模型构建方法、装置以及电子设备
CN112559926B (zh) * 2020-12-22 2023-10-03 北京百度网讯科技有限公司 搜索展示条目的上线处理方法、装置、设备、介质及产品
CN112784025B (zh) * 2021-01-12 2023-08-18 青岛明略软件技术开发有限公司 一种目标事件的确定方法和装置
CN113590805B (zh) * 2021-07-26 2024-06-21 上海致景信息科技有限公司 基于知识图谱的纺织类商品名称的搜索方法及装置
CN114020643B (zh) * 2021-11-29 2023-01-20 中国银行股份有限公司 一种知识库测试方法及装置
CN115168661B (zh) * 2022-08-31 2022-12-02 深圳市一号互联科技有限公司 原生图数据处理方法、装置、设备及存储介质
CN116204568B (zh) * 2023-05-04 2023-10-03 华能信息技术有限公司 一种数据挖掘分析方法
CN117591539B (zh) * 2023-12-07 2024-05-14 中国长江电力股份有限公司 一种基于电力大数据的多数据整合运用一体化系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126503A (zh) * 2016-07-12 2016-11-16 海信集团有限公司 业务领域定位方法及终端
CN106326211A (zh) * 2016-08-17 2017-01-11 海信集团有限公司 交互语句的关键词间距离的确定方法和装置
US20180196812A1 (en) * 2017-01-06 2018-07-12 Microsoft Technology Licensing, Llc Contextual document recall
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN110209827A (zh) * 2018-02-07 2019-09-06 腾讯科技(深圳)有限公司 搜索方法、装置、计算机可读存储介质和计算机设备
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107545000A (zh) * 2016-06-28 2018-01-05 百度在线网络技术(北京)有限公司 基于知识图谱的信息推送方法及装置
CN108763272B (zh) * 2018-04-08 2019-09-17 平安科技(深圳)有限公司 一种事件信息分析方法、计算机可读存储介质及终端设备
CN108763333B (zh) * 2018-05-11 2022-05-17 北京航空航天大学 一种基于社会媒体的事件图谱构建方法
CN110633330B (zh) * 2018-06-01 2022-02-22 北京百度网讯科技有限公司 事件发现方法、装置、设备及存储介质
CN108829865B (zh) * 2018-06-22 2021-04-09 海信集团有限公司 信息检索方法及装置
CN109522465A (zh) * 2018-10-22 2019-03-26 国家电网公司 基于知识图谱的语义搜索方法及装置
CN110134796B (zh) * 2019-04-19 2023-06-02 平安科技(深圳)有限公司 基于知识图谱的临床试验检索方法、装置、计算机设备及存储介质
CN110321408B (zh) * 2019-05-30 2023-07-14 广东省智湾汇科技有限公司 基于知识图谱的搜索方法、装置、计算机设备和存储介质
CN110472018A (zh) * 2019-08-22 2019-11-19 子长科技(北京)有限公司 基于深度学习的信息处理方法、装置及计算机存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126503A (zh) * 2016-07-12 2016-11-16 海信集团有限公司 业务领域定位方法及终端
CN106326211A (zh) * 2016-08-17 2017-01-11 海信集团有限公司 交互语句的关键词间距离的确定方法和装置
US20180196812A1 (en) * 2017-01-06 2018-07-12 Microsoft Technology Licensing, Llc Contextual document recall
CN110209827A (zh) * 2018-02-07 2019-09-06 腾讯科技(深圳)有限公司 搜索方法、装置、计算机可读存储介质和计算机设备
CN110188186A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 医疗领域的内容推荐方法、电子装置、设备及存储介质
CN111177405A (zh) * 2019-12-18 2020-05-19 深圳壹账通智能科技有限公司 数据搜索匹配方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111177405A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
WO2021120627A1 (zh) 数据搜索匹配方法、装置、计算机设备和存储介质
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US9318027B2 (en) Caching natural language questions and results in a question and answer system
US10042896B2 (en) Providing search recommendation
Xu et al. Mining temporal explicit and implicit semantic relations between entities using web search engines
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
WO2021114810A1 (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
US8655648B2 (en) Identifying topically-related phrases in a browsing sequence
CN111598702A (zh) 一种基于知识图谱的风险投资语义搜索的方法
JP2015060243A (ja) 検索装置、検索方法、およびプログラム
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN112883030A (zh) 数据收集方法、装置、计算机设备和存储介质
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
WO2015084757A1 (en) Systems and methods for processing data stored in a database
Blanco et al. Overview of NTCIR-13 Actionable Knowledge Graph (AKG) Task.
Tsapatsoulis Image retrieval via topic modelling of Instagram hashtags
Inan et al. A sequence learning method for domain-specific entity linking
Fu et al. Enhancing Semantic Search of Crowdsourcing IT Services using Knowledge Graph.
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Wongchaisuwat Automatic keyword extraction using textrank
US9530094B2 (en) Jabba-type contextual tagger
Sridevi et al. A novel and hybrid ontology ranking framework using semantic closeness measure
Priyadarshini et al. Semantic clustering approach for documents in distributed system framework with multi-node setup
TWI749901B (zh) 形成關鍵資訊的方法與電腦系統

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20901392

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 14.10.2022)

122 Ep: pct application non-entry in european phase

Ref document number: 20901392

Country of ref document: EP

Kind code of ref document: A1