WO2015100980A1 - 一种信息检索方法及装置 - Google Patents

一种信息检索方法及装置 Download PDF

Info

Publication number
WO2015100980A1
WO2015100980A1 PCT/CN2014/080874 CN2014080874W WO2015100980A1 WO 2015100980 A1 WO2015100980 A1 WO 2015100980A1 CN 2014080874 W CN2014080874 W CN 2014080874W WO 2015100980 A1 WO2015100980 A1 WO 2015100980A1
Authority
WO
WIPO (PCT)
Prior art keywords
matching
information
result information
keyword
group
Prior art date
Application number
PCT/CN2014/080874
Other languages
English (en)
French (fr)
Inventor
吕正东
李航
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to EP14876508.4A priority Critical patent/EP2988229A4/en
Publication of WO2015100980A1 publication Critical patent/WO2015100980A1/zh
Priority to US14/970,768 priority patent/US20160098437A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2255Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24575Query processing with adaptation to user needs using context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Definitions

  • the present invention relates to the field of information retrieval technology, and in particular, to an information retrieval method and apparatus. Background technique
  • the terminal when the terminal receives the retrieval instruction, the terminal searches for the answer including the retrieval keyword in the retrieval instruction from the stored retrieval database, and performs the retrieval keyword included in the retrieved answer. Sort, and then present, the specific process is as follows:
  • Step a determining a search keyword in the received search indication
  • Step b Retrieving an answer including a search keyword
  • Step c Sort the retrieved answers according to the number of keywords included in the search, and present the sorted answers.
  • the above method has the following drawbacks: Some information does not include search keywords, and the information has a high correlation with the search indication. However, since the search keywords are not included in the information, the existing information retrieval method cannot These highly relevant information are retrieved. Therefore, the existing information retrieval methods have the problem of low accuracy of the retrieval results.
  • the existing information retrieval method is: Retrieve the answer including the “Beijing” keyword and/or the “special product” keyword, assuming 10 answers, and 10 The answers are sorted according to the number of keywords including the search for "Beijing” keywords and “specialties”, but they are presented, for example, "a lot of things, such as ⁇ ⁇ ⁇ ⁇ ” Information, although this information is highly correlated with the question of "What special products are there in Beijing," because it does not contain the "Beijing" keyword and the "special product” keyword, it will not be retrieved. Therefore, the retrieval accuracy is higher. low.
  • the embodiment of the invention provides an information retrieval method and device for solving the problem that the retrieval accuracy of the existing information retrieval process is low.
  • an information retrieval method including:
  • Each result information in the result information group is sorted according to the correlation degree corresponding to each result information, and each sorted result information is presented.
  • the method before the result information group is retrieved from the retrieval database according to the retrieval indication, the method further includes:
  • the retrieval database is constructed based on the document data.
  • the result information group is retrieved from the search database according to the retrieval indication, and specifically includes: Determining a result information group from the retrieval database by using a local sensitive hash LSH and a keyword matching manner according to the retrieval indication; and/or,
  • the result information group is retrieved from the search database by the inverted index method based on the search keyword group determined from the search instruction.
  • any one of the partial matching model sets includes a group of information keywords and a response Keyword group;
  • the information keyword group and the response keyword group are all determined according to the bilingual topic model based on the acquired annotation data;
  • the any two-dimensional description combination included in the annotation data is composed of an information description and a response description, and each response description in the two-dimensional description combination corresponds to a marker, and the marker is used to represent the corresponding response description and Whether the information descriptions belonging to the same two-dimensional description combination match.
  • determining a weight value corresponding to the two-dimensional keyword combination includes:
  • a weight value corresponding to the two-dimensional keyword combination is determined according to the acquired annotation data.
  • determining a weight value corresponding to the two-dimensional keyword combination according to the obtained annotation data specifically: Based on the acquired annotation data, a weighting value corresponding to the two-dimensional keyword combination is determined according to the acquired annotation data by using a back propagation algorithm.
  • the matching value according to the result information and each of the local matching models is Calculating a correlation for characterizing the correlation between the result information and the retrieval indication, specifically comprising:
  • a deep neural network algorithm is used to calculate a correlation for characterizing the correlation between the result information and the retrieval indication based on the comprehensive matching model.
  • the comprehensive matching model is determined according to a bilingual topic model.
  • the depth neural network algorithm is used according to the matching value of the result information and each of the local matching models, Calculating a correlation for characterizing the correlation between the result information and the retrieval indication based on the comprehensive matching model includes:
  • Correlating degrees for characterizing the correlation between the result information and the retrieval indication are calculated according to each of the matching values and the weight values respectively corresponding to the respective matching values.
  • the weight value corresponding to each of the matching values is determined by using the back propagation algorithm according to the acquired annotation data.
  • determining the matching information keyword in the search keyword group and the information keyword group specifically:
  • an information retrieval apparatus including:
  • a retrieval unit configured to determine a retrieval keyword group from the received retrieval instruction, and retrieve a result information group from the retrieval database according to the retrieval instruction;
  • a determining unit configured to perform, according to each of the retrieved result information groups, the following steps: determining, according to the search keyword group and the result keyword group, each of the result information and the local matching model set a matching value of a local matching model, wherein the result keyword group is determined according to the result information group;
  • a calculating unit configured to calculate, according to the matching value of the result information and each of the partial matching models, a correlation degree for characterizing a correlation between the result information and the retrieval indication
  • a rendering unit configured to sort each of the result information in the result information group according to a correlation degree corresponding to each result information, and present each sorted result information.
  • the retrieving unit is further configured to: obtain document data; and construct the retrieval database according to the document data.
  • the searching unit is specifically configured to: use a local sensitive hash LSH and a key according to the retrieval indication
  • the word matching method retrieves the result information group from the retrieval database; and/or,
  • the result information group is retrieved from the search database by the inverted index method based on the search keyword group determined from the search instruction.
  • the determining unit determines any one of the local matching model sets of the matching value Including information keyword group and response keyword group;
  • the determining unit is specifically configured to: perform, according to each local matching model, the following steps: determining a matching information keyword in the search keyword group and the information keyword group, and a matching keyword in the result keyword group and the response keyword group;
  • the determining unit determines an information keyword group included in any one of the local matching model sets of the matching value, and the The response keyword group is determined based on the acquired annotation data according to the bilingual topic model;
  • the any two-dimensional description combination included in the annotation data is composed of an information description and a response description, and each response description in the two-dimensional description combination corresponds to a marker, and the marker is used to represent the corresponding response description and Whether the information descriptions belonging to the same two-dimensional description combination match.
  • the determining unit is specifically configured to: determine, according to the acquired annotation data, a combination corresponding to the two-dimensional keyword combination Weights.
  • the determining unit is specifically configured to: determine, according to the acquired annotation data, the back propagation algorithm according to the acquired annotation data
  • the two-dimensional keyword combination corresponds to a weight value.
  • the calculating unit is specifically configured to: according to the result information and each of the local parts Matching the matching values of the model, using a deep neural network algorithm, calculating a correlation for characterizing the correlation of the result information with the retrieval indication based on the comprehensive matching model.
  • the comprehensive matching model on which the computing unit calculates the correlation is determined according to a bilingual topic model.
  • the calculating unit is specifically configured to: match, according to the result information, the matching value of each of the local matching models , using a deep neural network algorithm to determine each matching value based on a comprehensive matching model Weight value;
  • Correlating degrees for characterizing the correlation between the result information and the retrieval indication are calculated according to each of the matching values and the weight values respectively corresponding to the respective matching values.
  • the weight value that is determined by the calculating unit and corresponding to each of the matching values is obtained by using a back propagation algorithm according to the method.
  • the label data is determined.
  • the determining unit is specifically configured to: determine the same information keyword as the search keyword, and the retrieval key Information keywords with the same meaning of words;
  • the determining unit is specifically configured to: determine a response keyword that is the same as the result keyword, and an information keyword that is the same as the result keyword.
  • the existing information retrieval method has a problem that the accuracy of the search result is low, and
  • the result information group is first retrieved from the search result, and the matching value of the result information and each local matching model in the local matching model set is determined for each result information, and then, according to the result information and the local
  • the matching value of each local matching model in the matching model set is used to calculate the correlation between the result information and the correlation of the retrieval indication, and then, according to the correlation degree corresponding to each result information, each of the result information groups
  • the result information is sorted, and the sorted result information is presented.
  • DRAWINGS 1 is a flow chart of an information retrieval method in an embodiment of the present invention.
  • FIG. 3 is a schematic diagram showing the functional structure of an information retrieval apparatus according to an embodiment of the present invention. detailed description
  • an information retrieval method includes: determining a retrieval keyword group from the received retrieval instruction, and retrieving the result information group from the retrieval database according to the retrieval instruction;
  • Each result information in the result information group respectively performs the following operations: determining, according to the search keyword group and the result keyword group, a matching value of each of the local matching models in the result information and the partial matching model set, wherein the result keyword group is based on The result information group determines; according to the matching value of the result information and each local matching model, calculating a correlation degree for characterizing the correlation between the result information and the retrieval indication; according to the correlation degree corresponding to each result information, the result information group Each result information in the ranking is sorted, and each sorted result information is presented.
  • the result keyword group according to the search keyword group and the result information may be locally Determined in the set of matching models
  • the result information and the matching value of each local matching model are then correlated according to the matching of the result information with all the local matching models. Therefore, the result information with high correlation with the retrieval indication and excluding the retrieval keyword can still be obtained.
  • the result information with high correlation with the retrieval indication and excluding the retrieval keyword can still be obtained.
  • a method for information retrieval is provided in the embodiment of the present invention.
  • the process of the method is as follows:
  • Step 100 Determine a search keyword group from the received search indication, and retrieve a result information group from the search database according to the search instruction;
  • Step 110 Perform the following steps for each result information in the retrieved result information group:
  • Step 120 Determine, according to the search keyword group and the result keyword group, a matching value of each of the local matching models in the result information and the local matching model set, wherein the result keyword group is determined according to the result information group;
  • Step 130 Calculate a correlation degree used to represent the correlation between the result information and the retrieval indication according to the matching value of the result information and each local matching model;
  • Step 140 Sort each result information in the result information group according to the correlation degree corresponding to each result information, and present each sorted result information.
  • the first document data is obtained from Weibo (what is special in Beijing; roast duck, glutinous rice cake, preserved fruit, fried noodles, all are delicious), second document data (the fall of Beijing is the most beautiful; ja, ten In the month, you can go to the red leaf), wait for the document data, and then use the document data to build the search database.
  • the retrieval instruction may be a question or a statement.
  • the retrieval instruction may be a question of "What special products are there in Beijing”.
  • the retrieved result information may be: "Roast duck, ⁇ The special products of cakes and preserves, among which, Roast Duck is best eaten; the search instruction can also be a statement that "I don't want to go to work today”.
  • the retrieved result information can be: "There are always five or six days a week that you don't want to go to work.” That is to say, the method of steps 100-140 is not only suitable for retrieving the question and answer scene of the answer to the question, but also for the non-question answering of the non-question related reply, of course. In actual applications, the methods of steps 100-140 can also be adapted to other scenarios, and are not described in detail herein.
  • the result information group is retrieved in the search database; or the result information group may be retrieved from the search database by using the inverted index method according to the search keyword group determined from the search instruction, and the search information group is retrieved according to the search keyword group.
  • the result information group is retrieved, optionally, only one method may be used.
  • the result information group may be retrieved from the retrieval database according to the retrieval instruction in combination with the above several methods.
  • the result information group may also be retrieved from the retrieval database according to the retrieval instruction by other means, and will not be described in detail herein. In this case, these methods may be used in any one or more of the above manners.
  • the result information group is retrieved from the retrieval database based on the retrieval instruction.
  • any one of the partial matching models includes an information keyword group and a response keyword group.
  • a certain partial matching model is: (“Beijing”, “special product”, “taste”; “fruit”, “ ⁇ ” “Baked duck” and “boiled"), "Beijing”, “specialty”, “taste” constitute information keyword group, "fruit”, “ ⁇ ”, “roast duck”, “smashing” constitute a response keyword group.
  • the search keyword group and the result keyword group there are various ways to determine the matching value of the result information and each local matching model in the local matching model set. For example, the following manner may be used:
  • the matching value of the result keyword group and the local matching model is calculated.
  • the search instruction is "Where can I buy specialty products in Beijing?", wherein one of the result information obtained after step 100 is "the taste of the cake is sweet", then yes (where can I buy specialty products in Beijing; The taste is sweet. This combination is matched to the local matching model set.
  • the search keyword group of "Where can I buy special products in Beijing” is first extracted: ("Beijing,,, “Where", “Buy”, “Specialty"), and the result of "the taste of the cake is sweet” keyword group: (" ⁇ ", "taste,,,””sweet,”), assuming that there are 1000 local matching models in the local matching model set.
  • the determined matching information keyword and the determined matching response keyword are combined into a two-dimensional keyword combination, and the two-dimensional keyword is combined into ("special product”; “ ⁇ cake”), and the two-dimensional key is determined
  • the weight value corresponding to the word combination, and the result keyword group ("cake”, “taste,”, “sweet,") and the local matching model (“specialty”, “price,,;” “roast duck” according to the weight value , the matching value of " ⁇ ", "bubble”, “ ⁇ ”).
  • This embodiment only describes the case where there is only one matching information keyword and the determined matching response keyword.
  • the matching information keyword and the determined matching response keyword may both be greater than one. , similar to the above process, will not be described in detail here.
  • any one of the 1000 local matching models in the local matching model set is similar to the above process, and will not be described in detail herein.
  • the architecture of the local matching model set is obtained (architecture). That is, the information keyword group and the response keyword group included in the local matching model set are obtained.
  • the following manner can be used:
  • the information keyword group and the response keyword group in the local matching model set are determined according to the bilingual topic modeling, that is, the information keyword group and the response keyword group are determined based on the acquired annotation data according to the bilingual topic model.
  • Any one of the two-dimensional description combinations included in the annotation data is composed of an information description and a response description, and each response description in the two-dimensional description combination corresponds to a marker, and the marker is used to represent the corresponding response description and belong to the same A two-dimensional description of the combined information description matches.
  • the local matching model is based on the acquired annotation data, and the information keyword group and the response keyword group can be determined according to the bilingual topic model.
  • the above describes only the architecture for obtaining the local matching model set, that is, an embodiment of obtaining the information keyword group and the response keyword group included in the local matching model set.
  • the architecture of the local matching model set is obtained, that is, The manner of obtaining the information keyword group and the response keyword group included in the local matching model set is not limited to the above manner, and other methods may be used, and details are not described herein again.
  • the weight value corresponding to the two-dimensional keyword combination is determined according to the acquired annotation data.
  • the weight value of the information keyword of the information keyword group of any one of the partial matching models and the arbitrary two-dimensional keyword combination of the response keyword of the response keyword group there are several ways to learn the weighting values of the two-dimensional combination in the framework of the local matching model set:
  • a Back-Propagation algorithm is used to determine a weight value corresponding to the two-dimensional keyword combination based on the acquired annotation data.
  • the correlation between the representation result information and the retrieval indication may be calculated according to the matching value of the result information and each partial matching model. Relevance. For example: There are 1000 local matching models in the local matching model set, and 1000 matching values are obtained. When the correlation is calculated according to the 1000 matching values, the 1000 matching values can be first synthesized based on the comprehensive matching model set. After processing, 200 integrated values are obtained, and then the 200 primary integrated values are subjected to the second comprehensive processing based on the integrated matching model set to obtain 100 secondary integrated values. Finally, the 100 secondary integrated values are based on synthesis. The matching model set is processed for the third time to obtain the correlation.
  • the following manner may be used:
  • the depth neural network algorithm is used.
  • the comprehensive matching model set is determined according to the bilingual topic model.
  • the comprehensive matching model set when the comprehensive matching model set is determined according to the bilingual topic model, multiple bilingual topic models may be used, but the accuracy of each bilingual topic model is different.
  • the comprehensive matching model set there are three layers in the comprehensive matching model set, that is, comprehensive Layer 1, Integrated Layer 2, Integrated Layer 3, where the accuracy of the first bilingual topic model ⁇ the accuracy of the second bilingual topic model ⁇ the accuracy of the third bilingual topic model, then in the application, the third bilingual topic
  • the model is used to construct a comprehensive layer
  • the second bilingual topic model is used to construct a comprehensive layer 2
  • the first bilingual topic model is used to construct a comprehensive layer 3.
  • the depth neural network algorithm is used, and the method for calculating the correlation between the result information and the retrieval indication based on the comprehensive matching model is various. , E.g:
  • the depth neural network algorithm is used to determine the weight value of each matching value based on the comprehensive matching model; Correlative degrees for characterizing the correlation between the result information and the retrieval indication are calculated based on each of the matching values and the weight values respectively corresponding to each of the matching values.
  • the weight value corresponding to each matching value is determined in various manners, for example, may be determined according to the acquired annotation data by using a back propagation algorithm technique.
  • the matching information keywords in the search keyword group and the information keyword group there are various ways to determine the matching information keywords in the search keyword group and the information keyword group: for example, determining the same information keyword as the search keyword, and the same information keyword as the search keyword meaning For example, if the information keyword is "price" and the search keyword is also "price”, then the information keyword is the same information keyword as the search keyword, for example, the information keyword is "price”, and the search keyword is also For "price”, the information keyword is the same information keyword as the search keyword.
  • the local matching model set and the comprehensive matching model set in the embodiment of the present invention are all a set of keywords related to the question and answer, or a set of key words for all the information responses, such as: microblog reply.
  • the process of determining the information keyword group and the response keyword group in the local matching model set according to the bilingual topic model that is, the process of learning the framework of the local matching model set.
  • the comprehensive matching model set is determined according to the bilingual topic model, that is, the process of learning the framework of the comprehensive matching model set.
  • the back propagation algorithm is used to determine the information keyword group of the information keyword group of any local matching model and the response keyword group of the response keyword group.
  • the process of weighting the value of any two-dimensional keyword combination that is, the learning process of the associated weight parameter (arameters) of the local matching model set.
  • the weight value corresponding to each matching value is determined by the backpropagation algorithm technique according to the obtained annotation data, that is, the learning process of the correlation weight parameter of the comprehensive matching model set.
  • Step 200 Acquire document data; and construct a retrieval database according to the document data;
  • Step 210 Receive a retrieval indication as "type of swimming"
  • Step 220 Using LSH and keyword technology to retrieve the result information group from the retrieval database, the result information group includes 30 result information, wherein one result information "brokestroke can increase lung capacity and shape the body";
  • Step 230 Determine the search keyword group as ("swim”, "type"), and the result keyword group is ("frog swimming”, “increase”, “lung capacity”, “shape,”, “body shape”);
  • Step 240 Determine each part of the 1000 local matching models in the local matching model set according to ("swim”, “type”; “frogstroke”, “increase”, “lung capacity”, “mold”, “body shape”) Match the match value of the model;
  • Step 250 Calculate the correlation between the "brokestroke can increase lung capacity, shape the body shape" and “type of swimming” based on the 1000 matching values using depth neural network technology based on the comprehensive matching model set;
  • Step 260 Present 30 result information according to the order of 30 correlations.
  • an embodiment of the present invention provides an information retrieval apparatus including a retrieval unit 30, a determination unit 31, a calculation unit 32, and a presentation unit.
  • the searching unit 30 is configured to determine a search keyword group from the received search instructions, and retrieve a result information group from the search database according to the search instruction;
  • a determining unit 31 configured to perform, respectively, for each result information in the retrieved result information group The following steps are performed: determining, according to the search keyword group and the result keyword group, a matching value of each of the local matching models in the result information and the local matching model set, wherein the result keyword group is determined according to the result information group;
  • the calculating unit 32 is configured to calculate, according to the matching value of the result information and each local matching model, a correlation degree for characterizing the correlation between the result information and the retrieval indication;
  • the presentation unit 33 is configured to sort each result information in the result information group according to the correlation degree corresponding to each result information, and present each sorted result information.
  • the retrieval unit 30 is further configured to: acquire document data; and construct a retrieval database according to the document data.
  • the retrieval unit 30 is specifically configured to: retrieve the result information group from the retrieval database according to the retrieval indication using the local sensitive hash LSH and the keyword matching manner; and/or,
  • the result information group is retrieved from the search database by the inverted index method.
  • the determining unit 31 determines that any one of the partial matching model sets of the matching values includes the information keyword group and the response keyword group;
  • the determining unit 31 is specifically configured to: perform, according to each local matching model, the following steps: determining matching information keywords in the search keyword group and the information keyword group, and matching matching keywords in the result keyword group and the response keyword group;
  • the two-dimensional keyword combination includes matching information keywords and matching response keywords;
  • the matching value of the result keyword group and the local matching model is calculated.
  • the determining unit 31 determines that the information keyword group and the response keyword group included in any one of the partial matching model sets of the matching value are determined based on the acquired annotation data according to the bilingual topic model. ;
  • any one of the two-dimensional description combinations included in the annotation data is described by the information description and response
  • the composition, and the response description in each two-dimensional description combination corresponds to a tag, and the tag is used to indicate whether the corresponding response description matches the information description belonging to the same two-dimensional description combination.
  • the determining unit 31 is specifically configured to: determine, according to the acquired annotation data, a weight value corresponding to the two-dimensional keyword combination.
  • the determining unit 31 is specifically configured to: determine, according to the acquired annotation data, a weight value corresponding to the two-dimensional keyword combination according to the acquired annotation data by using a back propagation algorithm.
  • the calculating unit 32 is specifically configured to: according to the matching value of the result information and each local matching model, using a deep neural network algorithm, and calculating the result information and the retrieval instruction based on the comprehensive matching model Relevance of relevance.
  • the comprehensive matching model on which the calculating unit 32 calculates the correlation is determined according to the bilingual topic model.
  • the calculating unit 32 is specifically configured to: determine, according to the matching value of the result information and each local matching model, a depth neural network algorithm, and determine a weight value of each matching value based on the comprehensive matching model;
  • Correlation for characterizing the correlation between the result information and the retrieval indication is calculated based on each of the matching values and the weight values respectively corresponding to each of the matching values.
  • the weight value corresponding to each matching value determined by the calculating unit 32 is determined by using the back propagation algorithm according to the acquired label data.
  • the determining unit 31 is specifically configured to: determine the same information keyword as the search keyword, and the same information keyword as the search keyword;
  • the determining unit 31 is specifically configured to: determine the same response keyword as the result keyword, and the same information keyword as the result keyword.
  • an information retrieval method includes: determining a retrieval keyword group from the received retrieval instruction, and retrieving the result information group from the retrieval database according to the retrieval instruction. For each result information in the retrieved result information group, perform the following operations respectively: Determine the result information and the bureau according to the search keyword group and the result keyword group Matching the matching values of each of the partial matching models in the set of models, wherein the result keyword group is determined according to the result information group; and calculating the information used to represent the result according to the matching value of the result information and each local matching model Retrieving the relevance of the indication correlation; sorting each result information in the result information group according to the correlation degree corresponding to each result information, and presenting each sorted result information, in the scheme, even if the result The search keyword is not included in the information.
  • the keyword group can determine the matching value of the result information and each partial matching model in the local matching model set, and then, according to the result information and all the parts.
  • the matching of the matching model is worthy of relevance. Therefore, the result information with high correlation with the retrieval indication and excluding the retrieval keyword can still be presented to the user, and the accuracy of the retrieval is improved.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus functions in one or more blocks of a flow or a flow diagram and/or block diagram of a flowchart.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions in one or more blocks of the flowchart or in a flow or block of the flowchart.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机通信技术领域,公开了一种信息检索方法及装置,在该方案中,即使结果信息中不包括检索关键词,但是,根据检索关键词组、根据结果信息组确定的结果关键词组可以在局部匹配模型集合中确定出结果信息与每一个局部匹配模型的匹配值,然后,根据结果信息与所有局部匹配模型的匹配值得出相关度,因此,仍然可以将与检索指示相关性较高且不包括检索关键词的结果信息呈现给用户,提高了检索的准确性。

Description

一种信息检索方法及装置 技术领域
本发明涉及信息检索技术领域, 特别涉及一种信息检索方法及装置。 背景技术
随着计算机通信技术以及互联网技术的发展, 互联网的信息资源成指数 增长, 通过互联网检索并获取相关信息越来越成为人们生活以及工作中不可 或缺的部分, 任何人在任何时间、 任何地点都可以通过网络发布信息。 在庞 大的信息库里面快速有效地查找到用户需要的信息, 使所述引擎成为了寻找 信息的好帮手。
现有的信息检索方法中, 当终端接收到检索指示后, 从存储的检索数据 库中查找包括检索指示中的检索关键词的答案, 并按照检索到的答案中包括 的检索关键词的多少来进行排序, 进而进行呈现, 具体过程如下:
步骤 a: 确定接收到的检索指示中的检索关键词;
步骤 b: 检索包括检索关键词的答案;
步骤 c: 将检索到的答案根据包括检索关键词数量的多少来进行排序, 并 将排序后的答案进行呈现。
但是, 上述方法存在如下缺陷: 有些信息不包括检索关键词, 其中, 这 些信息与检索指示相关性较高, 但是, 由于这些信息中不包括检索关键词, 因此, 现有的信息检索方法无法将这些相关性较高的信息检索出来, 所以, 现有的信息检索方法存在检索结果准确性较低的问题。
例如: 检索指示为 "北京有什么特产" 这个问题, 现有的信息检索方法 为: 检索包括 "北京" 关键词和 /或 "特产" 关键词的答案, 假设有 10个答案, 并将这 10个答案按照包括检索 "北京" 关键词、 "特产" 关键词的数量进行 排序, 进而呈现, 但是, 如 "很多啊, 比如说茯苓饼啦烤鸭什么的" 这样的 信息, 虽然这个信息与 "北京有什么特产" 这个问题的相关性较高, 但是, 由于不含有 "北京" 关键词和 "特产" 关键词, 所以不会被检索到, 因此, 检索准确度较低。
综上所述, 目前的信息检索方法存在准确度较低的问题。 发明内容
本发明实施例提供一种信息检索方法及装置, 用以解决现有信息检索过 程存在的检索准确度较低的问题。
本发明实施例提供的具体技术方案如下:
第一方面, 提供一种信息检索方法, 包括:
从接收到的检索指示中确定出检索关键词组, 并根据所述检索指示从检 索数据库中检索出结果信息组;
针对检索出的所述结果信息组中的每个结果信息, 分别执行如下步骤: 根据所述检索关键词组、 结果关键词组, 确定所述结果信息与局部匹配 模型集合中的每一个局部匹配模型的匹配值, 其中, 所述结果关键词组是根 据所述结果信息组确定的;
根据所述结果信息与所述每一个局部匹配模型的匹配值, 计算用于表征 所述结果信息与所述检索指示的相关性的相关度;
根据每一个结果信息对应的相关度大小, 对所述结果信息组中的每一个 结果信息进行排序, 并将排序后的各个结果信息呈现。
结合第一方面, 在第一种可能的实现方式中, 在根据所述检索指示从检 索数据库中检索出结果信息组之前, 还包括:
获取文档数据; 并
根据所述文档数据构建所述检索数据库。
结合第一方面, 或者第一方面的第一种可能的实现方式, 在第二种可能 的实现方式中, 根据所述检索指示从检索数据库中检索出结果信息组, 具体 包括: 根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数据 库中检索出结果信息组; 和 /或,
根据从所述检索指示中确定出的所述检索关键词组, 釆用倒排索引方式 从检索数据库中检索出结果信息组。
结合第一方面, 或者第一方面的第一至第二种可能的实现方式, 在第三 种可能的实现方式中, 所述局部匹配模型集合中的任意一个局部匹配模型包 括信息关键词组和回应关键词组;
根据所述检索关键词组、 结果关键词组, 确定所述结果信息与局部匹配 模型集合中的每一个局部匹配模型的匹配值, 具体包括:
针对每一个局部匹配模型, 分别执行如下步骤:
确定所述检索关键词组和所述信息关键词组中匹配的信息关键词, 及所 述结果关键词组和所述回应关键词组中匹配的回应关键词;
生成二维关键词组合; 其中, 所述二维关键词组合包括所述匹配的信息 关键词和所述匹配的回应关键词;
确定与所述二维关键词组合对应的权重值; 并
根据所述权重值, 计算所述结果关键词组与该局部匹配模型的匹配值。 结合第一方面的第三种可能的实现方式, 在第四种可能的实现方式中, 所述信息关键词组和所述回应关键词组均基于获取的标注数据, 根据双语主 题模型确定的;
其中, 所述标注数据中包括的任意一个二维描述组合由信息描述和回应 描述组成, 且每一个二维描述组合中的回应描述均对应一个标记, 所述标记 用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。
结合第一方面的第三或者第四种可能的实现方式, 在第五种可能的实现 方式中, 确定与所述二维关键词组合对应的权重值, 具体包括:
根据获取的标注数据确定与所述二维关键词组合对应的权重值。
结合第一方面的第五种可能的实现方式, 在第六种可能的实现方式中, 根据获取的标注数据确定与所述二维关键词组合对应的权重值, 具体包括: 根据获取的标注数据, 釆用反向传播算法根据获取的标注数据确定与所 述二维关键词组合对应的权重值。
结合第一方面, 或者第一方面的第一至第六种可能的实现方式, 在第七 种可能的实现方式中, 所述根据所述结果信息与所述每一个局部匹配模型的 匹配值, 计算用于表征所述结果信息与所述检索指示的相关性的相关度, 具 体包括:
根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度神经 网络算法, 基于综合匹配模型计算用于表征所述结果信息与所述检索指示的 相关性的相关度。
结合第一方面的第七种可能的实现方式, 在第八种可能的实现方式中, 所述综合匹配模型根据双语主题模型确定。
结合第一方面的第七至第八种可能的实现方式, 在第九种可能的实现方 式中, 根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度神 经网络算法 , 基于综合匹配模型计算用于表征所述结果信息与所述检索指示 的相关性的相关度, 具体包括:
根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度神经 网络算法, 基于综合匹配模型确定每一个匹配值的权重值;
根据所述每一个匹配值及与所述每一个匹配值分别对应的权重值, 计算 用于表征所述结果信息与所述检索指示的相关性的相关度。
结合第一方面的第九种可能的实现方式, 在第十种可能的实现方式中, 与所述每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注 数据确定的。
结合第一方面的第一至第十种可能的实现方式, 在第十一种可能的实现 方式中, 确定所述检索关键词组和所述信息关键词组中匹配的信息关键词, 具体包括:
确定与检索关键词相同的信息关键词, 和与检索关键词词义相同的信息 关键词; 确定所述结果关键词组和所述回应关键词组中匹配的回应关键词, 具体 包括:
确定与结果关键词相同的回应关键词, 和与结果关键词词义相同的信息 关键词。
第二方面, 提供一种信息检索装置, 包括:
检索单元, 用于从接收到的检索指示中确定出检索关键词组, 并根据所 述检索指示从检索数据库中检索出结果信息组;
确定单元, 用于针对检索出的所述结果信息组中的每个结果信息, 分别 执行如下步骤: 根据所述检索关键词组、 结果关键词组, 确定所述结果信息 与局部匹配模型集合中的每一个局部匹配模型的匹配值, 其中, 所述结果关 键词组是根据所述结果信息组确定的;
计算单元, 用于根据所述结果信息与所述每一个局部匹配模型的匹配值, 计算用于表征所述结果信息与所述检索指示的相关性的相关度;
呈现单元, 用于根据每一个结果信息对应的相关度大小, 对所述结果信 息组中的每一个结果信息进行排序, 并将排序后的各个结果信息呈现。
结合第一方面, 在第一种可能的实现方式中, 所述检索单元还用于: 获 取文档数据; 并根据所述文档数据构建所述检索数据库。
结合第一方面, 或者第一方面的第一种可能的实现方式, 在第二种可能 的实现方式中, 所述检索单元具体用于: 根据所述检索指示釆用局部敏感哈 希 LSH与关键词匹配方式从检索数据库中检索出结果信息组; 和 /或,
根据从所述检索指示中确定出的所述检索关键词组, 釆用倒排索引方式 从检索数据库中检索出结果信息组。
结合第一方面, 或者第一方面的第一至第二种可能的实现方式, 在第三 种可能的实现方式中, 所述确定单元确定匹配值的局部匹配模型集合中的任 意一个局部匹配模型包括信息关键词组和回应关键词组;
所述确定单元具体用于: 针对每一个局部匹配模型, 分别执行如下步骤: 确定所述检索关键词组和所述信息关键词组中匹配的信息关键词, 及所 述结果关键词组和所述回应关键词组中匹配的回应关键词;
生成二维关键词组合; 其中, 所述二维关键词组合包括所述匹配的信息 关键词和所述匹配的回应关键词;
确定与所述二维关键词组合对应的权重值; 并
根据所述权重值, 计算所述结果关键词组与该局部匹配模型的匹配值。 结合第一方面的第三种可能的实现方式, 在第四种可能的实现方式中, 所述确定单元确定匹配值的局部匹配模型集合中的任意一个局部匹配模型包 括的信息关键词组和所述回应关键词组均基于获取的标注数据, 根据双语主 题模型确定的;
其中, 所述标注数据中包括的任意一个二维描述组合由信息描述和回应 描述组成, 且每一个二维描述组合中的回应描述均对应一个标记, 所述标记 用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。
结合第一方面的第三或者第四种可能的实现方式, 在第五种可能的实现 方式中, 所述确定单元具体用于: 根据获取的标注数据确定与所述二维关键 词组合对应的权重值。
结合第一方面的第五种可能的实现方式, 在第六种可能的实现方式中, 所述确定单元具体用于: 根据获取的标注数据, 釆用反向传播算法根据获取 的标注数据确定与所述二维关键词组合对应的权重值。
结合第一方面, 或者第一方面的第一至第六种可能的实现方式, 在第七 种可能的实现方式中, 所述计算单元具体用于: 根据所述结果信息与所述每 一个局部匹配模型的匹配值, 釆用深度神经网络算法, 基于综合匹配模型计 算用于表征所述结果信息与所述检索指示的相关性的相关度。
结合第一方面的第七种可能的实现方式, 在第八种可能的实现方式中, 所述计算单元计算相关度所基于的综合匹配模型根据双语主题模型确定。
结合第一方面的第七至第八种可能的实现方式, 在第九种可能的实现方 式中, 所述计算单元具体用于: 根据所述结果信息与所述每一个局部匹配模 型的匹配值, 釆用深度神经网络算法, 基于综合匹配模型确定每一个匹配值 的权重值;
根据所述每一个匹配值及与所述每一个匹配值分别对应的权重值, 计算 用于表征所述结果信息与所述检索指示的相关性的相关度。
结合第一方面的第九种可能的实现方式, 在第十种可能的实现方式中, 所述计算单元确定的与所述每一个匹配值分别对应的权重值是釆用反向传播 算法根据获取的标注数据确定的。
结合第一方面的第一至第十种可能的实现方式, 在第十一种可能的实现 方式中, 所述确定单元具体用于: 确定与检索关键词相同的信息关键词, 和 与检索关键词词义相同的信息关键词;
所述确定单元具体用于: 确定与结果关键词相同的回应关键词, 和与结 果关键词词义相同的信息关键词。
本发明有益效果如下:
现有技术中, 若与检索指示相关性较高的信息中不包括检索关键词, 是 无法将该信息检索出来的, 因此, 现有的信息检索方法存在检索结果准确性 较低的问题, 而本发明实施例中, 先从检索结果中检索出结果信息组, 针对 每一个结果信息, 确定该结果信息与局部匹配模型集合中的每一个局部匹配 模型的匹配值, 然后, 根据结果信息与局部匹配模型集合中的每一个局部匹 配模型的匹配值计算用于表征结果信息与检索指示的相关性的相关度, 然后, 根据每一个结果信息对应的相关度大小, 对结果信息组中的每一个结果信息 进行排序, 并将排序后的各个结果信息呈现, 在本方案中, 即使结果信息中 不包括检索关键词, 但是, 根据检索关键词组、 结果关键词组可以在局部匹 配模型集合中确定出结果信息与每一个局部匹配模型的匹配值, 然后, 根据 结果信息与所有局部匹配模型的匹配值得出相关度, 因此, 仍然可以将与检 索指示相关性较高且不包括检索关键词的结果信息呈现给用户, 提高了检索 的准确性。 附图说明 图 1为本发明实施例中的信息检索方法的一种流程图;
图 2为本发明实施例中的信息检索方法的实施例;
图 3为本发明实施例中的信息检索装置的功能结构示意图。 具体实施方式
为使本发明实施例的目的、 技术方案和优点更加清楚, 下面将结合本发 明实施例中的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述的实施例是本发明一部分实施例, 而不是全部的实施例。 基于 本发明中的实施例, 本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其它实施例, 都属于本发明保护的范围。
本文中术语"和 /或", 仅仅是一种描述关联对象的关联关系, 表示可以存 在三种关系, 例如, A和 /或 B, 可以表示: 单独存在 A, 同时存在 A和 B, 单独存在 B这三种情况。 另外, 本文中字符" /,,, 一般表示前后关联对象是一 种"或"的关系。
本发明实施例中, 提供一种信息检索方法, 该信息检索方法包括: 从接 收到的检索指示中确定出检索关键词组, 并根据检索指示从检索数据库中检 索出结果信息组; 针对检索出的结果信息组中的每个结果信息, 分别执行如 下操作: 根据检索关键词组、 结果关键词组, 确定结果信息与局部匹配模型 集合中的每一个局部匹配模型的匹配值, 其中, 结果关键词组是根据结果信 息组确定的; 根据结果信息与每一个局部匹配模型的匹配值, 计算用于表征 结果信息与检索指示的相关性的相关度; 根据每一个结果信息对应的相关度 大小, 对结果信息组中的每一个结果信息进行排序, 并将排序后的各个结果 信息呈现, 在该方案中, 即使结果信息中不包括检索关键词, 但是, 根据检 索关键词组、 结果信息的结果关键词组可以在局部匹配模型集合中确定出结 果信息与每一个局部匹配模型的匹配值, 然后, 根据结果信息与所有局部匹 配模型的匹配值得出相关度, 因此, 仍然可以将与检索指示相关性较高且不 包括检索关键词的结果信息呈现给用户, 提高了检索的准确性。 下面结合附图对本发明优选的实施方式进行详细说明。
参阅图 1 所示, 本发明实施例中提供信息检索的一种方法, 该方法实施 例流程如下:
步骤 100: 从接收到的检索指示中确定出检索关键词组, 并根据检索指示 从检索数据库中检索出结果信息组;
步骤 110: 针对检索出的结果信息组中的每个结果信息, 分别执行如下步 骤:
步骤 120: 根据检索关键词组、 结果关键词组, 确定结果信息与局部匹配 模型集合中的每一个局部匹配模型的匹配值, 其中, 结果关键词组是根据结 果信息组确定的;
步骤 130: 根据结果信息与每一个局部匹配模型的匹配值, 计算用于表征 结果信息与检索指示的相关性的相关度;
步骤 140: 根据每一个结果信息对应的相关度大小,对结果信息组中的每 一个结果信息进行排序, 并将排序后的各个结果信息呈现。
本发明实施例中, 在根据检索指示从检索数据库中检索出结果信息组之 前, 还包括如下操作:
获取文档数据; 并根据文档数据构建检索数据库。
例如, 从微博中获取到第一文档数据(北京的特产有什么 ; 烤鸭、 茯苓 饼、 果脯、 炸酱面, 都很好吃)、 第二文档数据(北京的秋天最美 ; 是啊, 十月份的时候可以去赏红叶), 等文档数据, 然后, 利用这些文档数据构建检 索数据库。
当然, 在实际应用中, 获取文档数据的方式有多种, 是比较成熟的技术, 在此不再进行详述。
本发明实施例中, 检索指示可以为一个问题, 也可以是一个陈述, 例如, 检索指示可以为 "北京有什么特产" 这样的问题, 此时, 检索出的结果信息 可以为: "烤鸭、 茯苓饼、 果脯这些特产, 其中, 烤鸭全聚德最好吃"; 检索指 示也可以是 "今天不想上班" 这样的陈述, 此时, 检索出的结果信息可以为: "每周总有那么五六天不想上班", 也就是说, 本步骤 100-140的方法不仅适 应于检索关于问题的答案的问答场景, 也可以检索非问题的相关回复的非问 答场景, 当然, 实际应用中, 步骤 100-140的方法也可以适应于其他场景, 在 此不再进行详述。
本发明实施例中, 根据检索指示从检索数据库中检索出结果信息组的方 式有多种, 例如, 可以为根据检索指示釆用 LSH ( Locality Sensitive Hash, 局 部敏感哈希) 与关键词匹配方式从检索数据库中检索出结果信息组; 或者, 也可以为根据从检索指示中确定出的检索关键词组, 釆用倒排索引方式从检 索数据库中检索出结果信息组, 在根据检索关键词组从检索数据库中检索出 结果信息组时, 可选的, 可以仅釆用一种方式, 当然, 还可以综合上述几种 方式根据检索指示从检索数据库中检索出结果信息组。
在实际应用中, 还可以釆用其他方式根据检索指示从检索数据库中检索 出结果信息组, 在此不再进行详述, 此时, 可以釆用这些方式与上述任意一 种或者几种方式来根据检索指示从检索数据库中检索出结果信息组。
本发明实施例中, 任意一个局部匹配模型包括信息关键词组和回应关键 词组, 例如, 某一个局部匹配模型为: ("北京"、 "特产"、 "味道"; "果脯"、 "茯苓饼"、 "烤鸭"、 "驴打滚"), 则"北京"、 "特产"、 "味道" 组成信息关键 词组, "果脯"、 "茯苓饼"、 "烤鸭"、 "驴打滚"组成回应关键词组。
本发明实施例中, 根据检索关键词组、 结果关键词组, 确定结果信息与 局部匹配模型集合中的每一个局部匹配模型的匹配值的方式有多种, 例如, 可以釆用如下方式:
针对每一个局部匹配模型, 分别执行如下步骤:
确定检索关键词组和信息关键词组中匹配的信息关键词, 及结果关键词 组和回应关键词组中匹配的回应关键词;
确定与组成的生成二维关键词组合, 其中, 二维关键词组合包括匹配的 信息关键词和匹配的回应关键词;
确定与二维关键词组合对应的权重值; 并 根据权重值, 计算结果关键词组与该局部匹配模型的匹配值。 例如, 检索指示为 "北京哪里可以买到特产", 其中, 经过步骤 100后得 出的其中一个结果信息为 "茯苓饼的味道是甜的", 那么对(北京哪里可以买 到特产 ; 茯苓饼的味道是甜的)这个组合到局部匹配模型集合中进行匹配, 具体匹配时,先提取 "北京哪里可以买到特产"的检索关键词组: ("北京,,、 "哪 里"、 "买"、 "特产"),及 "茯苓饼的味道是甜的"的结果关键词组: ("茯苓饼"、 "味道,,、 "甜,,), 假设局部匹配模型集合中有 1000个局部匹配模型。
其中, 有一个局部匹配模型中包括("特产"、 "价钱"; "烤鸭"、 "茯苓饼"、 "泡馍"、 "糯米 "), 则针对("特产"、 "价钱,,; "烤鸭"、 "茯苓饼"、 "泡馍"、 "糯 米" )这个局部匹配模型, 执行如下操作:
确定检索关键词组("北京,,、 "哪里,,、 "买"、 "特产")和信息关键词组("特 产"、 "价钱") 中匹配的信息关键词为"特产"; 确定结果关键词组("茯苓饼"、 "味道"、 "甜 ") 和回应关键词组 ( "烤鸭"、 "茯苓饼"、 "泡馍"、 "糯米,,) 中匹 配的回应关键词为 "茯苓饼";
然后, 将确定的匹配的信息关键词和确定的匹配的回应关键词组成一个 二维关键词组合, 该二维关键词组合为 ("特产"; "茯苓饼"), 并确定该二维 关键词组合对应的权重值, 以及根据该权重值计算结果关键词组 ("茯苓饼"、 "味道,,、 "甜,,)与该局部匹配模型 ("特产", "价钱,,; "烤鸭", "茯苓饼", "泡 馍", "糯米") 的匹配值。
其中, 有一个局部匹配模型中包括("北京"、 "旅游"; "全聚德"、 "天安 门"、 "长城 "), 则针对("北京"、 "旅游"; "全聚德"、 "天安门")这个局部匹 配模型, 执行如下操作:
确定检索关键词组 ("北京"、 "哪里"、 "买"、 "特产,,)和 信息关键词组 ( "北京"、 "旅游") 中匹配的信息关键词为"北京"; 确定结果关键词组 ("茯 苓饼"、 "味道"、 "甜 ") 和回应关键词组("全聚德"、 "天安门") 中匹配的回 应关键词没有。
由于回应关键词组("全聚德"、 "天安门")中没有匹配的回应关键词, 则 可以确定结果关键词组 ("茯苓饼"、 "味道"、 "甜, ') 与该局部匹配模型 ("北 京,,、 "旅游,,; "全聚德"、 "天安门"、 "长城") 的匹配值为 0。
这个实施例只是描述了匹配的信息关键词和确定的匹配的回应关键词均 只有一个的情况, 在实际应用中, 匹配的信息关键词和确定的匹配的回应关 键词均有可能大于一个的情况, 与上述过程类似, 在此不再进行详述。
上述只是描述了一个局部匹配模型的例子 , 那么对于局部匹配模型集合 中的 1000个局部匹配模型中的任意一个局部匹配模型与上述过程类似, 在此 不再进行详述。
本发明实施例中, 在根据检索关键词组、 结果信息的结果关键词组, 确 定结果信息与局部匹配模型集合中的每一个局部匹配模型的匹配值之前, 要 获得局部匹配模型集合的架构 (architecture ), 也就是获得局部匹配模型集合 包括的信息关键词组和回应关键词组, 其中, 获得信息关键词组和 /或回应关 键词组的方式有多种, 例如, 可以釆用如下方式:
基于获取的标注数据, 根据双语主题模型( bilingual topic modeling )确定 局部匹配模型集合中的信息关键词组和回应关键词组, 即信息关键词组和回 应关键词组均基于获取的标注数据, 根据双语主题模型确定的, 其中, 标注 数据中包括的任意一个二维描述组合由信息描述和回应描述组成, 且每一个 二维描述组合中的回应描述均对应一个标记, 标记用于表征对应的回应描述 与属于同一个二维描述组合的信息描述是否匹配。
例如, 从 "百度知道" 中获取(问题; 答案)组合, 或者, 从 "微博" 中获取(微博; 回复)组合, 此时, 不是直接将这些获取的组合作为局部匹 配模型集合中的局部匹配模型, 而是基于获取的标注数据, 根据双语主题模 型才能确定出信息关键词组和回应关键词组。
又例如, 在用户 A在 "百度知道" 提问了一个问题 "北京有什么特产", 其他用户回复的答案有两个, 例如, 答案一: "茯苓饼和烤鸭都不错"; 答案 二: "全聚德的烤鸭又贵又难吃",用户 A认为答案一: "茯苓饼和烤鸭都不错" 是对用户 A有帮助的, 此时, 将(北京有什么特产; 茯苓饼和烤鸭都不错) 这个组合作为局部匹配模型集合中的一个局部匹配模型。
上述只是描述了获得局部匹配模型集合的架构 , 也就是获得局部匹配模 型集合包括的信息关键词组和回应关键词组的一个实施例, 当然, 在实际应 用中, 获得局部匹配模型集合的架构, 也就是获得局部匹配模型集合包括的 信息关键词组和回应关键词组的方式不限于上述方式, 也可以釆用其他方式, 在此不再进行 详述。
本发明实施例中 , 在确定与匹配的信息关键词和匹配的回应关键词组成 的二维关键词组合对应的权重值之前, 还包括如下操作:
根据获取的标注数据, 确定与二维关键词组合对应的权重值的方式有多 种, 例如, 根据获取的标注数据确定与二维关键词组合对应的权重值。
本发明实例中, 根据获取的标注数据, 确定任意一局部匹配模型的信息 关键词组的信息关键词和回应关键词组的回应关键词组成的任意二维关键词 组合的权重值的方式有多种, 也就是学习 (learning )局部匹配模型集合的构 架中的二维组合的权重值的方式有多种:
例如, 根据获取的标注数据, 釆用反向传播算法 (Back-Propagation )确 定根据获取的标注数据确定与二维关键词组合对应的权重值。
例如, 通过"百度知道,,获取很多关于"路程"的标注数据, 那么在与"路程" 对应的回应中, 有^^多回应是被用户釆用的, 且被釆用的回应中有^^多一部 分是包括有"距离,,关键词的, 只有一少部分是包括有"地点,,关键词的, 此时, 根据标注数据釆用反向传播算法可以得出("路程,,; "距离,,)这个二维关键词 组合的权重值比 ("路程"; "地点")这个二维关键词组合的权重值高。
上述只是根据获取的标注数据, 确定与二维关键词组合对应的权重值的 一种方式, 在实际应用中, 还可以是其他方式, 在此不再进行详述。
本发明实施例中, 在计算用于表征结果信息与检索指示的相关性的相关 度时, 可以根据结果信息与每一个局部匹配模型的匹配值, 计算用于表征结 果信息与检索指示的相关性的相关度。 例如: 局部匹配模型集合中有 1000个局部匹配模型, 得到 1000个匹配 值, 那么根据这 1000个匹配值计算相关度时, 可以先对这 1000个匹配值基 于综合匹配模型集合进行第一次综合处理, 得到 200个一次综合值, 然后, 将这 200个一次综合值基于综合匹配模型集合进行第二次综合处理,得到 100 个二次综合值, 最后, 将这 100个二次综合值基于综合匹配模型集合进行第 三次综合处理, 得到相关度。
本发明实施例中, 根据结果信息与每一个局部匹配模型的匹配值, 计算 用于表征结果信息与检索指示的相关性的相关度的方式有多种, 例如, 可以 釆用如下方式:
根据结果信息与每一个局部匹配模型的匹配值, 釆用深度神经网络算法
(deep neural network) 基于综合匹配模型集合计算用于表征结果信息与检索 指示的相关性的相关度。
上述只是给出根据结果信息与每一个局部匹配模型的匹配值, 计算用于 表征结果信息与检索指示的相关性的相关度的一个实施例, 在实际应用中, 还可以存在多种其他实现方式, 在此不再进行详述。
本发明实施例中, 综合匹配模型集合根据双语主题模型确定。
本发明实施例中, 根据双语主题模型确定综合匹配模型集合时, 可以使 用多个双语主题模型来实现, 只不过每一个双语主题模型的精度不同, 例如, 综合匹配模型集合中共有三层, 即综合层一、 综合层二、 综合层三, 其中, 第一个双语主题模型的精度 <第二个双语主题模型的精度 <第三个双语主题 模型的精度, 则在应用中, 第三个双语主题模型用于构建综合层一, 第二个 双语主题模型用于构建综合层二, 第一个双语主题模型用于构建综合层三。
本发明实施例中, 根据结果信息与每一个局部匹配模型的匹配值, 釆用 深度神经网络算法, 基于综合匹配模型计算用于表征结果信息与检索指示的 相关性的相关度的方式有多种, 例如:
根据结果信息与每一个局部匹配模型的匹配值, 釆用深度神经网络算法, 基于综合匹配模型确定每一个匹配值的权重值; 根据每一个匹配值及与每一个匹配值分别对应的权重值, 计算用于表征 结果信息与检索指示的相关性的相关度。
上述只是一种实施例, 在实际应用中, 还有多种实施例, 在此不再进行 详述。
本发明实施例中, 与每一个匹配值分别对应的权重值的确定方式有多种, 例如, 可以是釆用反向传播算法技术根据获取的标注数据确定的。
上述只是一个确定权重值的一个具体例子, 当然, 在实际应用中, 还可 以有其他确定方式, 在此不再进行详述。
本发明实施例中, 确定检索关键词组和信息关键词组中匹配的信息关键 词的方式有多种: 例如, 确定与检索关键词相同的信息关键词, 和与检索关 键词词义相同的信息关键词; 如, 信息关键词为"价格", 检索关键词也为"价 格", 则此信息关键词为与检索关键词相同的信息关键词, 如, 信息关键词为 "价格",检索关键词也为"价钱", 则此信息关键词为与检索关键词词义相同的 信息关键词。
同理, 确定结果关键词组和回应关键词组中匹配的回应关键词的方式也 有多种: 例如: 确定与结果关键词相同的回应关键词, 和与结果关键词词义 相同的信息关键词。
为了提高检索效率, 本发明实施例中的局部匹配模型集合和综合匹配模 型集合要么全部为关于问答的关键词集合, 要么为全部关于信息回应的关键 词集合, 如: 微博回复。
本发明实施例中, 基于获取的标注数据, 根据双语主题模型确定局部匹 配模型集合中的信息关键词组和回应关键词组的过程, 也就是学习局部匹配 模型集合的构架的过程。
同理, 根据双语主题模型确定综合匹配模型集合, 也就是学习综合匹配 模型集合的构架的过程。
本发明实施例中, 根据获取的标注数据, 釆用反向传播算法确定任意一 局部匹配模型的信息关键词组的信息关键词和回应关键词组的回应关键词组 成的任意二维关键词组合的权重值的过程, 也就是局部匹配模型集合的相关 权重值参数 ( arameters ) 的学习过程。
同理, 与每一个匹配值分别对应的权重值是釆用反向传播算法技术根据 获取的标注数据确定的, 也就是综合匹配模型集合的相关权重值参数的学习 过程。
为了更好地理解本发明实施例, 以下给出具体应用场景, 针对信息检索 的过程, 作出进一步详细描述, 具体如图 2所示:
步骤 200: 获取文档数据; 并根据文档数据构建检索数据库;
步骤 210: 接收检索指示为 "游泳的类型";
步骤 220: 釆用 LSH和关键词技术从检索数据库中检索出结果信息组, 结果信息组中包括 30个结果信息, 其中, 一个结果信息 "蛙泳可以增加肺活 量、 塑造体形";
步骤 230:确定检索关键词组为( "游泳"、 "类型" ),结果关键词组为( "蛙 泳"、 "增加"、 "肺活量"、 "塑造,,、 "体形 ");
步骤 240: 根据("游泳"、 "类型"; "蛙泳"、 "增加"、 "肺活量"、 "塑造"、 "体形")确定与局部匹配模型集合中的 1000个局部匹配模型的每一个局部 匹配模型的匹配值;
步骤 250: 根据 1000个匹配值釆用深度神经网络技术基于综合匹配模型 集合计算用于表征 "蛙泳可以增加肺活量、 塑造体形" 与 "游泳的类型" 的 相关性的相关度;
步骤 260: 按照 30个相关度的排序方式将 30个结果信息进行呈现。
基于上述技术方案, 参阅图 3 所示, 本发明实施例提供一种信息检索装 置, 信息检索装置包括检索单元 30、 确定单元 31、 计算单元 32和呈现单元
33 , 其中,
检索单元 30 , 用于从接收到的检索指示中确定出检索关键词组, 并根据 检索指示从检索数据库中检索出结果信息组;
确定单元 31 , 用于针对检索出的结果信息组中的每个结果信息, 分别执 行如下步骤: 根据检索关键词组、 结果关键词组, 确定结果信息与局部匹配 模型集合中的每一个局部匹配模型的匹配值, 其中, 结果关键词组是根据结 果信息组确定的;
计算单元 32 , 用于根据结果信息与每一个局部匹配模型的匹配值, 计算 用于表征结果信息与检索指示的相关性的相关度;
呈现单元 33 , 用于根据每一个结果信息对应的相关度大小, 对结果信息 组中的每一个结果信息进行排序, 并将排序后的各个结果信息呈现。
进一步的, 本发明实施例中, 检索单元 30还用于: 获取文档数据; 并根 据文档数据构建检索数据库。
本发明实施例中, 可选的, 检索单元 30具体用于: 根据检索指示釆用局 部敏感哈希 LSH 与关键词匹配方式从检索数据库中检索出结果信息组; 和 / 或,
根据从检索指示中确定出的检索关键词组, 釆用倒排索引方式从检索数 据库中检索出结果信息组。
本发明实施例中, 可选的, 确定单元 31确定匹配值的局部匹配模型集合 中的任意一个局部匹配模型包括信息关键词组和回应关键词组;
确定单元 31具体用于: 针对每一个局部匹配模型, 分别执行如下步骤: 确定检索关键词组和信息关键词组中匹配的信息关键词, 及结果关键词 组和回应关键词组中匹配的回应关键词;
生成二维关键词组合; 其中, 二维关键词组合包括匹配的信息关键词和 匹配的回应关键词;
确定与二维关键词组合对应的权重值; 并
根据权重值, 计算结果关键词组与该局部匹配模型的匹配值。
本发明实施例中, 可选的, 确定单元 31确定匹配值的局部匹配模型集合 中的任意一个局部匹配模型包括的信息关键词组和回应关键词组均基于获取 的标注数据, 根据双语主题模型确定的;
其中, 标注数据中包括的任意一个二维描述组合由信息描述和回应描述 组成, 且每一个二维描述组合中的回应描述均对应一个标记, 标记用于表征 对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。
本发明实施例中, 可选的, 确定单元 31具体用于: 根据获取的标注数据 确定与二维关键词组合对应的权重值。
本发明实施例中,可选的,确定单元 31具体用于: 根据获取的标注数据, 釆用反向传播算法根据获取的标注数据确定与二维关键词组合对应的权重 值。
本发明实施例中, 可选的, 计算单元 32具体用于: 根据结果信息与每一 个局部匹配模型的匹配值, 釆用深度神经网络算法, 基于综合匹配模型计算 用于表征结果信息与检索指示的相关性的相关度。
本发明实施例中, 可选的, 计算单元 32计算相关度所基于的综合匹配模 型根据双语主题模型确定。
本发明实施例中, 可选的, 计算单元 32具体用于: 根据结果信息与每一 个局部匹配模型的匹配值, 釆用深度神经网络算法, 基于综合匹配模型确定 每一个匹配值的权重值;
根据每一个匹配值及与每一个匹配值分别对应的权重值, 计算用于表征 结果信息与检索指示的相关性的相关度。
本发明实施例中, 可选的,, 计算单元 32确定的与每一个匹配值分别对 应的权重值是釆用反向传播算法根据获取的标注数据确定的。
本发明实施例中, 可选的, 确定单元 31具体用于: 确定与检索关键词相 同的信息关键词, 和与检索关键词词义相同的信息关键词;
确定单元 31具体用于: 确定与结果关键词相同的回应关键词, 和与结果 关键词词义相同的信息关键词。
综上所述, 本发明实施例中, 提供一种信息检索方法, 该信息检索方法 包括: 从接收到的检索指示中确定出检索关键词组, 并根据检索指示从检索 数据库中检索出结果信息组; 针对检索出的结果信息组中的每个结果信息, 分别执行如下操作: 根据检索关键词组、 结果关键词组, 确定结果信息与局 部匹配模型集合中的每一个局部匹配模型的匹配值, 其中, 结果关键词组是 根据所述结果信息组确定的; 根据结果信息与每一个局部匹配模型的匹配值, 计算用于表征结果信息与检索指示的相关性的相关度; 根据每一个结果信息 对应的相关度大小, 对结果信息组中的每一个结果信息进行排序, 并将排序 后的各个结果信息呈现, 在该方案中, 即使结果信息中不包括检索关键词, 但是, 根据检索关键词组、 结果信息的结果关键词组可以在局部匹配模型集 合中确定出结果信息与每一个局部匹配模型的匹配值, 然后, 根据结果信息 与所有局部匹配模型的匹配值得出相关度, 因此, 仍然可以将与检索指示相 关性较高且不包括检索关键词的结果信息呈现给用户, 提高了检索的准确性。
本发明是参照根据本发明实施例的方法、 设备(系统) 、 和计算机程序 产品的流程图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程 图和 /或方框图中的每一流程和 /或方框、 以及流程图和 /或方框图中的流 程和 /或方框的结合。 可提供这些计算机程序指令到通用计算机、 专用计算 机、 嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器, 使 得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现 在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中的功能的 装置。
这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设 备以特定方式工作的计算机可读存储器中, 使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品, 该指令装置实现在流程图一个流程或 多个流程和 /或方框图一个方框或多个方框中的功能。
这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上, 使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的 处理, 从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和 /或方框图一个方框或多个方框中的功能的步骤。
尽管已描述了本发明的上述实施例, 但本领域内的技术人员一旦得知了 基本创造性概念, 则可对这些实施例作出另外的变更和修改。 所以, 所附权 利要求意欲解释为包括上述实施例以及落入本发明范围的所有变更和修改。 脱离本发明实施例的精神和范围。 这样, 倘若本发明实施例的这些修改和变 型属于本发明权利要求及其等同技术的范围之内, 则本发明也意图包含这些 改动和变型在内。

Claims

权 利 要 求
1、 一种信息检索方法, 其特征在于, 包括:
从接收到的检索指示中确定出检索关键词组, 并根据所述检索指示从检 索数据库中检索出结果信息组;
针对检索出的所述结果信息组中的每个结果信息, 分别执行如下步骤: 根据所述检索关键词组、 结果关键词组, 确定所述结果信息与局部匹配 模型集合中的每一个局部匹配模型的匹配值, 其中, 所述结果关键词组是根 据所述结果信息组确定的;
根据所述结果信息与所述每一个局部匹配模型的匹配值, 计算用于表征 所述结果信息与所述检索指示的相关性的相关度;
根据每一个结果信息对应的相关度大小, 对所述结果信息组中的每一个 结果信息进行排序, 并将排序后的各个结果信息呈现。
2、 如权利要求 1所述的方法, 其特征在于, 在根据所述检索指示从检索 数据库中检索出结果信息组之前, 还包括:
获取文档数据; 并
根据所述文档数据构建所述检索数据库。
3、 如权利要求 1或 2所述的方法, 其特征在于, 根据所述检索指示从检 索数据库中检索出结果信息组, 具体包括:
根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数据 库中检索出结果信息组; 和 /或,
根据从所述检索指示中确定出的所述检索关键词组, 釆用倒排索引方式 从检索数据库中检索出结果信息组。
4、 如权利要求 1-3任一项所述的方法, 其特征在于, 所述局部匹配模型 集合中的任意一个局部匹配模型包括信息关键词组和回应关键词组;
根据所述检索关键词组、 结果关键词组, 确定所述结果信息与局部匹配 模型集合中的每一个局部匹配模型的匹配值, 具体包括: 针对每一个局部匹配模型, 分别执行如下步骤:
确定所述检索关键词组和所述信息关键词组中匹配的信息关键词, 及所 述结果关键词组和所述回应关键词组中匹配的回应关键词;
生成二维关键词组合; 其中, 所述二维关键词组合包括所述匹配的信息 关键词和所述匹配的回应关键词;
确定与所述二维关键词组合对应的权重值; 并
根据所述权重值, 计算所述结果关键词组与该局部匹配模型的匹配值。
5、 如权利要求 4所述的方法, 其特征在于, 所述信息关键词组和所述回 应关键词组均基于获取的标注数据, 根据双语主题模型确定的;
其中, 所述标注数据中包括的任意一个二维描述组合由信息描述和回应 描述组成, 且每一个二维描述组合中的回应描述均对应一个标记, 所述标记 用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。
6、 如权利要求 4或 5所述的方法, 其特征在于, 确定与所述二维关键词 组合对应的权重值, 具体包括:
根据获取的标注数据确定与所述二维关键词组合对应的权重值。
7、 如权利要求 6所述的方法, 其特征在于, 根据获取的标注数据确定与 所述二维关键词组合对应的权重值, 具体包括:
根据获取的标注数据, 釆用反向传播算法根据获取的标注数据确定与所 述二维关键词组合对应的权重值。
8、 如权利要求 1-7任一项所述的方法, 其特征在于, 所述根据所述结果 信息与所述每一个局部匹配模型的匹配值, 计算用于表征所述结果信息与所 述检索指示的相关性的相关度, 具体包括:
根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度神经 网络算法, 基于综合匹配模型计算用于表征所述结果信息与所述检索指示的 相关性的相关度。
9、 如权利要求 8所述的方法, 其特征在于, 所述综合匹配模型根据双语 主题模型确定。
10、 如权利要求 8或 9所述的方法, 其特征在于, 根据所述结果信息与 所述每一个局部匹配模型的匹配值, 釆用深度神经网络算法, 基于综合匹配 模型计算用于表征所述结果信息与所述检索指示的相关性的相关度, 具体包 括:
根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度神经 网络算法, 基于综合匹配模型确定每一个匹配值的权重值;
根据所述每一个匹配值及与所述每一个匹配值分别对应的权重值, 计算 用于表征所述结果信息与所述检索指示的相关性的相关度。
11、 如权利要求 10所述的方法, 其特征在于, 与所述每一个匹配值分别 对应的权重值是釆用反向传播算法根据获取的标注数据确定的。
12、 如权利要求 4-11任一项所述的方法, 其特征在于, 确定所述检索关 键词组和所述信息关键词组中匹配的信息关键词, 具体包括:
确定与检索关键词相同的信息关键词, 和与检索关键词词义相同的信息 关键词;
确定所述结果关键词组和所述回应关键词组中匹配的回应关键词, 具体 包括:
确定与结果关键词相同的回应关键词, 和与结果关键词词义相同的信息 关键词。
13、 一种信息检索装置, 其特征在于, 包括:
检索单元, 用于从接收到的检索指示中确定出检索关键词组, 并根据所 述检索指示从检索数据库中检索出结果信息组;
确定单元, 用于针对检索出的所述结果信息组中的每个结果信息, 分别 执行如下步骤: 根据所述检索关键词组、 结果关键词组, 确定所述结果信息 与局部匹配模型集合中的每一个局部匹配模型的匹配值, 其中, 所述结果关 键词组是根据所述结果信息组确定的;
计算单元, 用于根据所述结果信息与所述每一个局部匹配模型的匹配值, 计算用于表征所述结果信息与所述检索指示的相关性的相关度; 呈现单元, 用于根据每一个结果信息对应的相关度大小, 对所述结果信 息组中的每一个结果信息进行排序, 并将排序后的各个结果信息呈现。
14、 如权利要求 13所述的装置, 其特征在于, 所述检索单元还用于: 获 取文档数据; 并根据所述文档数据构建所述检索数据库。
15、 如权利要求 13或 14所述的装置, 其特征在于, 所述检索单元具体 用于: 根据所述检索指示釆用局部敏感哈希 LSH与关键词匹配方式从检索数 据库中检索出结果信息组; 和 /或,
根据从所述检索指示中确定出的所述检索关键词组, 釆用倒排索引方式 从检索数据库中检索出结果信息组。
16、 如权利要求 13-15任一项所述的装置, 其特征在于, 所述确定单元确 定匹配值的局部匹配模型集合中的任意一个局部匹配模型包括信息关键词组 和回应关键词组;
所述确定单元具体用于: 针对每一个局部匹配模型, 分别执行如下步骤: 确定所述检索关键词组和所述信息关键词组中匹配的信息关键词, 及所 述结果关键词组和所述回应关键词组中匹配的回应关键词;
生成二维关键词组合; 其中, 所述二维关键词组合包括所述匹配的信息 关键词和所述匹配的回应关键词;
确定与所述二维关键词组合对应的权重值; 并
根据所述权重值, 计算所述结果关键词组与该局部匹配模型的匹配值。
17、 如权利要求 16所述的装置, 其特征在于, 所述确定单元确定匹配值 的局部匹配模型集合中的任意一个局部匹配模型包括的信息关键词组和所述 回应关键词组均基于获取的标注数据, 根据双语主题模型确定的;
其中, 所述标注数据中包括的任意一个二维描述组合由信息描述和回应 描述组成, 且每一个二维描述组合中的回应描述均对应一个标记, 所述标记 用于表征对应的回应描述与属于同一个二维描述组合的信息描述是否匹配。
18、 如权利要求 16或 17所述的装置, 其特征在于, 所述确定单元具体 用于: 根据获取的标注数据确定与所述二维关键词组合对应的权重值。
19、 如权利要求 18所述的装置, 其特征在于, 所述确定单元具体用于: 根据获取的标注数据, 釆用反向传播算法根据获取的标注数据确定与所述二 维关键词组合对应的权重值。
20、 如权利要求 13-19任一项所述的装置, 其特征在于, 所述计算单元具 体用于: 根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度 神经网络算法 , 基于综合匹配模型计算用于表征所述结果信息与所述检索指 示的相关性的相关度。
21、 如权利要求 20所述的装置, 其特征在于, 所述计算单元计算相关度 所基于的综合匹配模型根据双语主题模型确定。
22、 如权利要求 20或 21所述的装置, 其特征在于, 所述计算单元具体 用于: 根据所述结果信息与所述每一个局部匹配模型的匹配值, 釆用深度神 经网络算法, 基于综合匹配模型确定每一个匹配值的权重值;
根据所述每一个匹配值及与所述每一个匹配值分别对应的权重值, 计算 用于表征所述结果信息与所述检索指示的相关性的相关度。
23、 如权利要求 22所述的装置, 其特征在于, 所述计算单元确定的与所 述每一个匹配值分别对应的权重值是釆用反向传播算法根据获取的标注数据 确定的。
24、 如权利要求 16-23 任一项所述的装置, 其特征在于, 所述确定单元 具体用于: 确定与检索关键词相同的信息关键词, 和与检索关键词词义相同 的信息关键词;
所述确定单元具体用于: 确定与结果关键词相同的回应关键词, 和与结 果关键词词义相同的信息关键词。
PCT/CN2014/080874 2013-12-31 2014-06-26 一种信息检索方法及装置 WO2015100980A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP14876508.4A EP2988229A4 (en) 2013-12-31 2014-06-26 METHOD AND DEVICE FOR EXTRACTING INFORMATION
US14/970,768 US20160098437A1 (en) 2013-12-31 2015-12-16 Information retrieval method and apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310754456.2 2013-12-31
CN201310754456.2A CN104750762A (zh) 2013-12-31 2013-12-31 一种信息检索方法及装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/970,768 Continuation US20160098437A1 (en) 2013-12-31 2015-12-16 Information retrieval method and apparatus

Publications (1)

Publication Number Publication Date
WO2015100980A1 true WO2015100980A1 (zh) 2015-07-09

Family

ID=53493116

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/080874 WO2015100980A1 (zh) 2013-12-31 2014-06-26 一种信息检索方法及装置

Country Status (4)

Country Link
US (1) US20160098437A1 (zh)
EP (1) EP2988229A4 (zh)
CN (1) CN104750762A (zh)
WO (1) WO2015100980A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701120B (zh) 2014-11-28 2019-05-03 华为技术有限公司 确定语义匹配度的方法和装置
US10902330B2 (en) * 2016-06-21 2021-01-26 International Business Machines Corporation Cognitive question answering pipeline calibrating
CN106101748B (zh) * 2016-07-20 2020-04-28 东软集团股份有限公司 节目处理方法和装置
CN107247756B (zh) * 2017-05-26 2021-08-06 华南师范大学 基于时态推理的学术论文精准检索方法及系统
CN111435374B (zh) * 2019-01-11 2023-04-25 百度在线网络技术(北京)有限公司 搜索统计数据的展示装置和方法
CN111209378B (zh) * 2019-12-26 2024-03-12 航天信息股份有限公司企业服务分公司 一种基于业务字典权重的有序分级排序方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567409A (zh) * 2010-12-31 2012-07-11 珠海博睿科技有限公司 一种提供检索关联词的方法及装置
CN102890711A (zh) * 2012-09-13 2013-01-23 中国人民解放军国防科学技术大学 一种检索排序方法及系统
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN103136257A (zh) * 2011-11-30 2013-06-05 阿里巴巴集团控股有限公司 信息提供方法及其装置
CN103430172A (zh) * 2012-03-21 2013-12-04 株式会社东芝 检索装置、检索方法及程序

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020026435A1 (en) * 2000-08-26 2002-02-28 Wyss Felix Immanuel Knowledge-base system and method
CN100524307C (zh) * 2006-06-27 2009-08-05 国际商业机器公司 一种建立文档间关联关系的方法和装置
CN101145153B (zh) * 2006-09-13 2011-03-30 阿里巴巴集团控股有限公司 一种搜索信息的方法及系统
US9646025B2 (en) * 2008-05-27 2017-05-09 Qualcomm Incorporated Method and apparatus for aggregating and presenting data associated with geographic locations
CN101887436B (zh) * 2009-05-12 2013-08-21 阿里巴巴集团控股有限公司 一种检索方法和装置
WO2012135941A1 (en) * 2011-04-05 2012-10-11 Smart Technologies Ulc A method for conducting an assessment and a participant response system employing the same
US9009148B2 (en) * 2011-12-19 2015-04-14 Microsoft Technology Licensing, Llc Clickthrough-based latent semantic model
CN103309886B (zh) * 2012-03-13 2017-05-10 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
US9378464B2 (en) * 2012-07-30 2016-06-28 International Business Machines Corporation Discriminative learning via hierarchical transformations
US8873838B2 (en) * 2013-03-14 2014-10-28 Google Inc. Method and apparatus for characterizing an image

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102567409A (zh) * 2010-12-31 2012-07-11 珠海博睿科技有限公司 一种提供检索关联词的方法及装置
CN103064838A (zh) * 2011-10-19 2013-04-24 阿里巴巴集团控股有限公司 数据搜索方法和装置
CN103136257A (zh) * 2011-11-30 2013-06-05 阿里巴巴集团控股有限公司 信息提供方法及其装置
CN103430172A (zh) * 2012-03-21 2013-12-04 株式会社东芝 检索装置、检索方法及程序
CN102890711A (zh) * 2012-09-13 2013-01-23 中国人民解放军国防科学技术大学 一种检索排序方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2988229A4 *

Also Published As

Publication number Publication date
EP2988229A1 (en) 2016-02-24
EP2988229A4 (en) 2016-07-13
US20160098437A1 (en) 2016-04-07
CN104750762A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
CN105335519B (zh) 模型生成方法及装置、推荐方法及装置
CN106815252B (zh) 一种搜索方法和设备
US11216503B1 (en) Clustering search results
US9864747B2 (en) Content recommendation device, recommended content search method, and program
WO2015100980A1 (zh) 一种信息检索方法及装置
JP4906846B2 (ja) ソーシャルネットワークにおける利用者の相性の得点化
CN111602147A (zh) 基于非局部神经网络的机器学习模型
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
CN105468596B (zh) 图片检索方法和装置
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
JP2020523699A (ja) 関心点コピーの生成
CN107832432A (zh) 一种搜索结果排序方法、装置、服务器和存储介质
WO2016107326A1 (zh) 一种基于搜索词进行搜索推荐的方法和装置
CN103064903B (zh) 图片检索方法和装置
CN110597962A (zh) 搜索结果展示方法、装置、介质及电子设备
CN111522886B (zh) 一种信息推荐方法、终端及存储介质
Jin et al. Jointly modeling review content and aspect ratings for review rating prediction
WO2022179384A1 (zh) 一种社交群体的划分方法、划分系统及相关装置
CN114860874A (zh) 对象匹配方法、模型训练方法、产品匹配方法和存储介质
Sivaramakrishnan et al. An effective user clustering-based collaborative filtering recommender system with grey wolf optimisation
US20140365494A1 (en) Search term clustering
Dai et al. BTR: a feature-based Bayesian task recommendation scheme for crowdsourcing system
Zhang et al. Improving augmented reality using recommender systems
CN117271818B (zh) 视觉问答方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14876508

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2014876508

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014876508

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE