WO2021106141A1 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
WO2021106141A1
WO2021106141A1 PCT/JP2019/046557 JP2019046557W WO2021106141A1 WO 2021106141 A1 WO2021106141 A1 WO 2021106141A1 JP 2019046557 W JP2019046557 W JP 2019046557W WO 2021106141 A1 WO2021106141 A1 WO 2021106141A1
Authority
WO
WIPO (PCT)
Prior art keywords
search target
query
search
information processing
processing unit
Prior art date
Application number
PCT/JP2019/046557
Other languages
English (en)
French (fr)
Inventor
隼人 内出
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to KR1020227016332A priority Critical patent/KR102452777B1/ko
Priority to DE112019007834.8T priority patent/DE112019007834T5/de
Priority to CN201980102347.8A priority patent/CN114730318A/zh
Priority to JP2020529656A priority patent/JP6840293B1/ja
Priority to PCT/JP2019/046557 priority patent/WO2021106141A1/ja
Publication of WO2021106141A1 publication Critical patent/WO2021106141A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/157Transformation using dictionaries or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Definitions

  • the present invention relates to an information processing device, an information processing method, and an information processing program.
  • Patent Document 1 a document concept search device has been proposed (see Patent Document 1).
  • the document concept search device accepts correct answer information.
  • the correct answer information is a set of a set of a search query and a set of correct answer documents that are search target documents that conceptually match the search query.
  • correct answer information needs to be created in advance.
  • correct answer information is created by a user's computer operation.
  • the amount of data is increasing.
  • the number of documents to be searched is increasing.
  • the increase in the amount of data increases the burden on the user who creates the correct answer information.
  • An object of the present invention is to reduce the burden on the user.
  • the information processing device extracts a character string from the acquisition unit that acquires a plurality of search target documents and the first search target document among the plurality of search target documents, and creates a query based on the character string. Then, it has a processing unit that searches the search target of the query from the plurality of search target documents and creates correct answer data including one or more search target documents that are the search results and the query.
  • the burden on the user can be reduced.
  • Embodiment 1 It is a functional block diagram which the information processing apparatus of Embodiment 1 has. It is a figure which shows the structure of the hardware which the information processing apparatus of Embodiment 1 has. It is a flowchart which shows the example of the creation process of the correct answer data of Embodiment 1. It is a flowchart which shows the example of the learning process of Embodiment 1. It is a figure which shows the example of the learning model of Embodiment 1. FIG. It is a flowchart which shows the example of the update process of Embodiment 1. It is a functional block diagram which the information processing apparatus of Embodiment 2 has. It is a flowchart which shows the example of the creation process of the correct answer data of Embodiment 2. It is a functional block diagram which the information processing apparatus of Embodiment 3 has. It is a flowchart which shows the example of the creation process of the correct answer data of Embodiment 3.
  • FIG. 1 is a functional block diagram of the information processing apparatus of the first embodiment.
  • the information processing device 100 is a device that executes an information processing method.
  • the information processing device 100 includes a storage unit 110, a processing unit 120, a learning processing unit 130, an acquisition unit 140, a search unit 150, an update processing unit 160, and an output unit 170.
  • FIG. 2 is a diagram showing a hardware configuration of the information processing apparatus according to the first embodiment.
  • the information processing device 100 includes a processor 101, a volatile storage device 102, and a non-volatile storage device 103.
  • the processor 101 controls the entire information processing device 100.
  • the processor 101 is a CPU (Central Processing Unit), an FPGA (Field Programmable Gate Array), or the like.
  • the processor 101 may be a multiprocessor.
  • the information processing apparatus 100 may be realized by a processing circuit, or may be realized by software, firmware, or a combination thereof.
  • the processing circuit may be a single circuit or a composite circuit.
  • the volatile storage device 102 is the main storage device of the information processing device 100.
  • the volatile storage device 102 is a RAM (Random Access Memory).
  • the non-volatile storage device 103 is an auxiliary storage device of the information processing device 100.
  • the non-volatile storage device 103 is an HDD (Hard Disk Drive) or an SSD (Solid State Drive).
  • the input device 11 and the display device 12 are connected to the information processing device 100.
  • the input device 11 is a mouse, a keyboard, or the like.
  • the display device 12 is a display.
  • the storage unit 110 is realized as a storage area reserved in the volatile storage device 102 or the non-volatile storage device 103.
  • a part or all of the processing unit 120, the learning processing unit 130, the acquisition unit 140, the search unit 150, the update processing unit 160, and the output unit 170 may be realized by the processor 101.
  • a part or all of the processing unit 120, the learning processing unit 130, the acquisition unit 140, the search unit 150, the update processing unit 160, and the output unit 170 may be realized as modules of a program executed by the processor 101.
  • the program executed by the processor 101 is also called an information processing program.
  • an information processing program is recorded on a recording medium.
  • the storage unit 110 includes a search target document group 111, a correct answer data storage unit 112, and a learning model storage unit 113.
  • the search target document group 111 is a plurality of search target documents.
  • the correct answer data storage unit 112 stores the correct answer data created by the processing unit 120.
  • the correct answer data may be considered as correct answer information.
  • the information stored in the learning model storage unit 113 will be described later.
  • the information stored in the storage unit 110 may be stored in the external device.
  • the external device is a cloud server.
  • the acquisition unit 140 acquires a plurality of search target documents (that is, search target document group 111). For example, the acquisition unit 140 acquires a plurality of search target documents from the storage unit 110. Further, for example, the acquisition unit 140 acquires a plurality of search target documents from an external device.
  • the processing unit 120 extracts a character string from one of the plurality of search target documents.
  • One search target document is also referred to as a first search target document.
  • the processing unit 120 creates a query based on the character string.
  • the processing unit 120 uses the query to search the search target of the query from the plurality of search target documents.
  • the processing unit 120 creates correct answer data including one or more search target documents and queries that are the result of the search.
  • the processing unit 120 creates correct answer data including one or more search target documents and queries and numbers corresponding to one or more search target documents, which are the search results.
  • the number may be expressed as a ranking.
  • the learning processing unit 130 the acquisition unit 140, the search unit 150, the update processing unit 160, and the output unit 170 will be described later.
  • FIG. 3 is a flowchart showing an example of the process of creating correct answer data according to the first embodiment.
  • the process of FIG. 3 is started by a user input operation. Further, for example, the process of FIG. 3 starts at a preset time.
  • the processing unit 120 selects one search target document from the search target document group 111.
  • the selected search target document may be considered as the first search target document.
  • Step S12 The processing unit 120 extracts a character string from the selected search target document. For example, the processing unit 120 extracts a sentence or word in the selected search target document as a character string. Further, for example, the processing unit 120 extracts a character string from the selected search target documents based on the rule that the word-separation is performed with a preset character string length. (Step S13) The processing unit 120 creates a query based on the character string.
  • Step S14 The processing unit 120 searches the search target of the query from the search target document group 111 by using the query.
  • Search methods include keyword search, text search based on the importance of words in TF-IDF or Okapi BM25, and similarity search using the similarity between the query character string and the character string in the search target document.
  • the degree of similarity is the difference in character length, the editing distance, the degree of duplication of morphologically analyzed word strings, the degree of duplication of dependency-analyzed phrase units, the degree of duplication of dependency relationships, and the method described in Non-Patent Document 1. It may be calculated by using the Euclidean distance of the multidimensional vector by, the distance between the vectors of the cosine similarity, and the like. In addition, the similarity may be calculated using a machine learning model. Further, the search target may be a plurality of search target documents, which are a plurality of documents in a state in which the extracted character string is deleted.
  • the processing unit 120 creates correct answer data including one or more search target documents and queries that are search results, and a ranking corresponding to one or more search target documents.
  • the ranking may be the importance or the similarity. Further, the ranking may be the searched order. Further, the selected search target document may be the first in the ranking.
  • the processing unit 120 stores the correct answer data in the correct answer data storage unit 112.
  • Step S17 The processing unit 120 determines whether or not all the search target documents of the search target document group 111 have been selected. When all the documents to be searched are selected, the process ends. If there is a search target document that has not been selected in the search target document group 111, the processing unit 120 advances the process to step S11.
  • FIG. 4 is a flowchart showing an example of the learning process of the first embodiment.
  • the process of FIG. 4 is started after the process of creating the correct answer data is completed.
  • the learning processing unit 130 executes a learning process of calculating the weights used in the neural network of the learning model using the correct answer data.
  • This sentence may be expressed as follows.
  • the learning processing unit 130 executes a learning process of calculating the weights of the nodes included in the neural network of the learning model using the correct answer data.
  • the learning processing unit 130 executes a learning process of changing the weights of the nodes included in the neural network of the learning model using the correct answer data.
  • the learning algorithm described in Non-Patent Document 2 or a learning algorithm such as SVM (Support Vector Machine) or a decision tree may be used.
  • the learning process will be explained concretely.
  • a learning model is used. For example, in the learning model, a query of correct answer data and two search target documents are input. Then, information indicating which of the two search target documents is the higher search result is output.
  • the query for correct answer data is query Q.
  • the query Q is associated with the search target documents A, B, and C included in the correct answer data.
  • the search target document A is ranked first.
  • the search target document B is ranked second.
  • the search target document C is ranked 3rd.
  • the learning model is shown.
  • FIG. 5 is a diagram showing an example of the learning model of the first embodiment.
  • FIG. 5 shows two neural networks (NN: Neural Network).
  • the two neural networks are expressed as NN1 and NN2.
  • the learning data is a combination of the query Q and the search target document A, and a combination of the query Q and the search target document B.
  • a combination of the query Q and the search target document A is input to NN1.
  • a combination of query Q and search target document B is input to NN2.
  • the learning data is referred to as learning data 1.
  • the learning data is a combination of the query Q and the search target document C, and a combination of the query Q and the search target document B.
  • a combination of query Q and search target document C is input to NN1.
  • a combination of query Q and search target document B is input to NN2.
  • the learning data is referred to as learning data 2.
  • score 1 and score 2 are compared.
  • the difference between the score 1 and the score 2 is calculated using the equation (1).
  • the result of the calculation is called a difference score. Further, for example, it is decided to subtract the score 2 from the score 1.
  • the difference score is input to the sigmoid function.
  • the sigmoid function is defined by Eq. (2).
  • the learning processing unit 130 uses the error backpropagation method (backpropagation) to minimize the error between the above expectation and the determination result, so that the weight of the node included in NN1 and the weight of the node included in NN2 are minimized. And are calculated.
  • the learning processing unit 130 stores the learning model after learning in the learning model storage unit 113. Further, the learning processing unit 130 may store the weights of the nodes included in the NN1 and the weights of the nodes included in the NN2 in the learning model storage unit 113.
  • FIG. 6 is a flowchart showing an example of the update process of the first embodiment.
  • the acquisition unit 140 acquires a new query input to the information processing device 100.
  • the new query is also referred to as the first query.
  • the search unit 150 uses the new query to search the search target of the new query from the search target document group 111.
  • the search method is a keyword search.
  • the search unit 150 calculates the score by using the keywords included in the new query and each search target document of the search target document group 111. For example, a search target document containing many keywords included in a new query has a high score.
  • the search unit 150 ranks the documents to be searched based on the score. In this way, in the new query, one or more searched documents to be searched and the ranking are associated with each other.
  • Step S33 The update processing unit 160 selects the top N search target documents from the one or more search target documents that are the results of the search by the search unit 150 and are associated with the ranking.
  • N is an integer of 1 or more and is a predetermined number. In this way, the update processing unit 160 selects a predetermined number of high-ranking search target documents.
  • the update processing unit 160 calculates a score 1 using a new query, the top N search target documents, and NN1 that uses weights. In other words, the update processing unit 160 calculates the score 1 by using the new query, the top N search target documents, and the weighted NN1. For example, the update processing unit 160 inputs a new query and a search target document of one of the top N search target documents into NN1. As a result, the score 1 is calculated. The update processing unit 160 updates the calculated score 1 as a new ranking. Similarly, the update processing unit 160 calculates a score 1 for each of the N search target documents and updates the ranking. In this way, the update processing unit 160 updates the rank of each of the N search target documents to a new rank.
  • the update processing unit 160 may use the average value of the original rank of the search target document and the score 1 as a new rank.
  • NN1 the case where NN1 is used is shown.
  • NN1 and NN2 are equivalent models. Therefore, NN2 may be used.
  • Step S34 The output unit 170 outputs a new combination of ranks. For example, the output unit 170 outputs a combination of a new query, N search target documents, and an updated new ranking. Further, for example, the output unit 170 outputs the combination to the display device 12. As a result, N search target documents are displayed on the display device 12 in a ranking format.
  • the user looks at the display device 12.
  • the user can select a search target document that conceptually matches the new query from the N search target documents.
  • the user selects a search target document that conceptually matches the new query, the user performs a selection operation on the information processing device 100.
  • Step S35 The acquisition unit 140 determines whether or not the search target document conceptually matching the new query has been acquired by the selection operation. In other words, the acquisition unit 140 determines whether or not the selection operation has been performed. When the selection operation is performed, the acquisition unit 140 advances the process to step S36. If the selection operation has not been performed, the acquisition unit 140 ends the process.
  • Step S36 The acquisition unit 140 stores the combination of the new query and the search target document conceptually matching the new query as correct answer data in the correct answer data storage unit 112.
  • the information processing device 100 creates correct answer data. Therefore, the user does not have to create the correct answer data. Therefore, the information processing device 100 can reduce the burden on the user.
  • the information processing apparatus 100 uses NN1 to update the order of the search target documents.
  • the information processing apparatus 100 can provide the user with a ranking of the search target documents, which cannot be determined only from the search results of the search unit 150.
  • the information processing apparatus 100 updates the ranking of N documents among the search target documents searched by the search unit 150.
  • the information processing device 100 does not update the ranking of all the search target documents searched by the search unit 150. In this way, the information processing device 100 can reduce the processing load of the information processing device 100 by narrowing down the number of documents to be searched.
  • Embodiment 2 Next, the second embodiment will be described. In the second embodiment, matters different from the first embodiment will be mainly described. Then, in the second embodiment, the description of the matters common to the first embodiment will be omitted. In the description of the second embodiment, FIGS. 1 to 6 are referred to.
  • FIG. 7 is a functional block diagram of the information processing apparatus according to the second embodiment.
  • the configuration of FIG. 7, which is the same as the configuration shown in FIG. 1, has the same reference numerals as those shown in FIG.
  • the information processing device 100a has a processing unit 120a.
  • the processing unit 120a will be described later.
  • FIG. 8 is a flowchart showing an example of the process of creating correct answer data according to the second embodiment.
  • step S12 is not executed.
  • the process of FIG. 8 is different from the process of FIG. 3 in that step S13a is executed. Therefore, in FIG. 8, step S13a will be described.
  • the same number as the step number in FIG. 3 is assigned, and the description of the process will be omitted. Further, each step in FIG. 8 is executed by the processing unit 120a.
  • Step S13a The processing unit 120a creates a query based on the summary sentence of the search target document selected in step S11. Specifically, the processing unit 120a creates a summary sentence as a query. Further, the processing unit 120a may extract a character string from the summary sentence and create a query based on the character string.
  • the summary sentence is stored in the storage unit 110 or an external device in advance. The summary sentence is acquired by the acquisition unit 140.
  • the abstract may be prepared by the method described in Non-Patent Document 3.
  • the information processing device 100a creates correct answer data. Therefore, the user does not have to create the correct answer data. Therefore, the information processing device 100a can reduce the burden on the user.
  • Embodiment 3 Next, the third embodiment will be described. In the third embodiment, matters different from the first embodiment will be mainly described. Then, in the third embodiment, the description of the matters common to the first embodiment will be omitted. In the description of the third embodiment, FIGS. 1 to 6 are referred to.
  • FIG. 9 is a functional block diagram of the information processing apparatus according to the third embodiment.
  • the configuration of FIG. 9, which is the same as the configuration shown in FIG. 1, has the same reference numerals as those shown in FIG.
  • the information processing device 100b has a processing unit 120b.
  • the processing unit 120b will be described later.
  • FIG. 10 is a flowchart showing an example of the process of creating correct answer data according to the third embodiment.
  • step S12 is not executed.
  • the process of FIG. 10 is different from the process of FIG. 3 in that step S13b is executed. Therefore, in FIG. 10, step S13b will be described.
  • the same number as the step number in FIG. 3 is assigned, and the description of the process will be omitted. Further, each step in FIG. 10 is executed by the processing unit 120b.
  • Step S13b The processing unit 120b creates a query based on the paraphrase sentence of the search target document selected in step S11. Specifically, the processing unit 120b creates a paraphrase statement as a query. Further, the processing unit 120a may extract a character string from the paraphrase sentence and create a query based on the character string.
  • processing unit 120b may create a query based on the paraphrase sentence of the summary sentence of the search target document selected in step S11. Further, the processing unit 120b may extract a character string from the paraphrase sentence of the summary sentence and create a query based on the character string.
  • the paraphrase sentence of the search target document or the paraphrase sentence of the summary sentence of the search target document is stored in the storage unit 110 or an external device in advance.
  • the paraphrase sentence of the search target document or the paraphrase sentence of the summary sentence of the search target document is acquired by the acquisition unit 140.
  • the paraphrase sentence may be created by a method of word replacement using a synonym dictionary. Further, the paraphrase sentence may be created by the method described in Non-Patent Document 4.
  • the information processing device 100b creates correct answer data. Therefore, the user does not have to create the correct answer data. Therefore, the information processing device 100b can reduce the burden on the user.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)

Abstract

情報処理装置(100)は、正解データを作成する装置である。情報処理装置(100)は、取得部(140)と、処理部(120)と、を有する。取得部(140)は、複数の検索対象文書を取得する。処理部(120)は、複数の検索対象文書のうちの第1の検索対象文書の中から文字列を抽出し、文字列に基づいてクエリを作成し、複数の検索対象文書の中からクエリの検索対象を検索し、検索の結果である1以上の検索対象文書とクエリとを含む正解データを作成する。

Description

情報処理装置、情報処理方法、及び情報処理プログラム
 本発明は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
 近年、コンピュータがアクセス可能なデータ量が増加している。大量のデータの中から、所望のデータを効率的に検索するための技術が求められている。
 検索方法の1つとして、概念検索が知られている。ここで、文書概念検索装置が提案されている(特許文献1を参照)。例えば、文書概念検索装置は、正解情報を受け付ける。正解情報は、検索クエリと、検索クエリに概念的に適合する検索対象文書である正解文書の集合との組の集合である。
特開2018-10482号公報
「Efficient Estimation of Word Representations in Vector Space」、2013、Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean 「Neural Ranking Models with Weak Supervision」、2017、Mostafa Dehghani、Hamed Zamani、Aliaksei Severyn、Jaap Kamps、W. Bruce Croft 「TextRank:Bringing Order into Texts」、2004、Rada Mihalcea、Paul Tarau 「Get To The Point:Summarization with Pointer-Generator Networks」2017、Abigail See、Peter J.Liu、Christopher D.Manning
 上記の正解情報は、予め作成する必要がある。例えば、正解情報は、ユーザのコンピュータ操作によって、作成される。上述したように、データ量が増加している。例えば、検索対象文書の数は、増加している。データ量が増加することは、正解情報を作成するユーザの負担を大きくする。
 本発明の目的は、ユーザの負担を軽減することである。
 本発明の一態様に係る情報処理装置が提供される。情報処理装置は、複数の検索対象文書を取得する取得部と、前記複数の検索対象文書のうちの第1の検索対象文書の中から文字列を抽出し、前記文字列に基づいてクエリを作成し、前記複数の検索対象文書の中から前記クエリの検索対象を検索し、検索の結果である1以上の検索対象文書と前記クエリとを含む正解データを作成する処理部と、を有する。
 本発明によれば、ユーザの負担を軽減することができる。
実施の形態1の情報処理装置が有する機能ブロック図である。 実施の形態1の情報処理装置が有するハードウェアの構成を示す図である。 実施の形態1の正解データの作成処理の例を示すフローチャートである。 実施の形態1の学習処理の例を示すフローチャートである。 実施の形態1の学習モデルの例を示す図である。 実施の形態1の更新処理の例を示すフローチャートである。 実施の形態2の情報処理装置が有する機能ブロック図である。 実施の形態2の正解データの作成処理の例を示すフローチャートである。 実施の形態3の情報処理装置が有する機能ブロック図である。 実施の形態3の正解データの作成処理の例を示すフローチャートである。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本発明の範囲内で種々の変更が可能である。
実施の形態1.
 図1は、実施の形態1の情報処理装置が有する機能ブロック図である。情報処理装置100は、情報処理方法を実行する装置である。情報処理装置100は、記憶部110、処理部120、学習処理部130、取得部140、検索部150、更新処理部160、及び出力部170を有する。
 ここで、情報処理装置100が有するハードウェアについて説明する。
 図2は、実施の形態1の情報処理装置が有するハードウェアの構成を示す図である。情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
 プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。情報処理装置100は、処理回路によって実現されてもよく、又は、ソフトウェア、ファームウェア若しくはそれらの組み合わせによって実現されてもよい。なお、処理回路は、単一回路又は複合回路でもよい。
 揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)である。
 また、情報処理装置100には、入力装置11と表示装置12が接続される。例えば、入力装置11は、マウス、キーボードなどである。例えば、表示装置12は、ディスプレイである。
 図1に戻って、情報処理装置100が有する機能ブロックを説明する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現される。
 処理部120、学習処理部130、取得部140、検索部150、更新処理部160、及び出力部170の一部又は全部は、プロセッサ101によって実現してもよい。処理部120、学習処理部130、取得部140、検索部150、更新処理部160、及び出力部170の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、情報処理プログラムとも言う。例えば、情報処理プログラムは、記録媒体に記録されている。
 記憶部110は、検索対象文書群111、正解データ記憶部112、及び学習モデル記憶部113を含む。検索対象文書群111は、複数の検索対象文書である。正解データ記憶部112は、処理部120によって作成された正解データを記憶する。ここで、正解データは、正解情報と考えてもよい。学習モデル記憶部113に格納される情報については、後で説明する。
 ここで、記憶部110に格納されている情報は、外部装置に格納されてもよい。例えば、外部装置は、クラウドサーバである。
 取得部140は、複数の検索対象文書(すなわち、検索対象文書群111)を取得する。例えば、取得部140は、複数の検索対象文書を記憶部110から取得する。また、例えば、取得部140は、複数の検索対象文書を外部装置から取得する。
 処理部120は、複数の検索対象文書のうちの1つの検索対象文書の中から文字列を抽出する。なお、1つの検索対象文書は、第1の検索対象文書とも言う。処理部120は、文字列に基づいてクエリを作成する。処理部120は、クエリを用いて、複数の検索対象文書の中からクエリの検索対象を検索する。処理部120は、検索の結果である1以上の検索対象文書とクエリとを含む正解データを作成する。詳細には、処理部120は、検索の結果である1以上の検索対象文書とクエリと1以上の検索対象文書に対応する番号を含む正解データを作成する。以下、当該番号は、順位と表現する場合がある。
 学習処理部130、取得部140、検索部150、更新処理部160、及び出力部170については、後で説明する。
 次に、情報処理装置100が実行する処理について、フローチャートを用いて説明する。
 図3は、実施の形態1の正解データの作成処理の例を示すフローチャートである。例えば、図3の処理は、ユーザの入力操作によって開始する。また、例えば、図3の処理は、予め設定された時刻に開始する。
 (ステップS11)処理部120は、検索対象文書群111の中から1つの検索対象文書を選択する。例えば、選択された検索対象文書は、第1の検索対象文書と考えてもよい。
 (ステップS12)処理部120は、選択された検索対象文書の中から文字列を抽出する。例えば、処理部120は、選択された検索対象文書の中の文又は単語を文字列として抽出する。また、例えば、処理部120は、予め設定された文字列長で分かち書きが行われるというルールに基づいて、選択された検索対象文書の中から文字列を抽出する。
 (ステップS13)処理部120は、文字列に基づいて、クエリを作成する。
 (ステップS14)処理部120は、クエリを用いて、検索対象文書群111の中からクエリの検索対象を検索する。検索方法は、キーワード検索、TF-IDF又はOkapi BM25の単語の重要度に基づくテキスト検索、クエリの文字列と検索対象文書の中の文字列との類似度を用いる類似度検索などである。
 なお、類似度は、文字の長さの差異、編集距離、形態素解析した単語列の重複度合い、係り受け解析した文節単位の重複度合い、係り受け関係の重複度合い、非特許文献1に記載の方式による多次元ベクトルのユークリッド距離、コサイン類似度のベクトル間の距離などが用いられて算出されてもよい。また、類似度は、機械学習モデルを用いて算出されてもよい。
 また、検索対象は、抽出された文字列が削除された状態の複数の文書である複数の検索対象文書でもよい。
 (ステップS15)処理部120は、検索の結果である1以上の検索対象文書とクエリと1以上の検索対象文書に対応する順位を含む正解データを作成する。ここで、順位は、当該重要度又は当該類似度でもよい。また、順位は、検索された順序でもよい。さらに、順位は、選択された検索対象文書が1番でもよい。
 (ステップS16)処理部120は、正解データを正解データ記憶部112に格納する。
 (ステップS17)処理部120は、検索対象文書群111の全ての検索対象文書を選択したか否かを判定する。全ての検索対象文書が選択された場合、処理は、終了する。検索対象文書群111の中に選択されていない検索対象文書が存在する場合、処理部120は、処理をステップS11に進める。
 図4は、実施の形態1の学習処理の例を示すフローチャートである。例えば、図4の処理は、正解データの作成処理が終了した後、開始する。
 (ステップS21)学習処理部130は、正解データを用いて、学習モデルのニューラルネットワークで使用される重みを算出する学習処理を実行する。この文章は、次のように表現してもよい。学習処理部130は、正解データを用いて、学習モデルのニューラルネットワークに含まれるノードの重みを算出する学習処理を実行する。または、学習処理部130は、正解データを用いて、学習モデルのニューラルネットワークに含まれるノードの重みを変更する学習処理を実行する。
 学習処理には、非特許文献2に記載の学習アルゴリズム、又はSVM(Support Vector Machine)、決定木などの学習アルゴリズムが用いられてもよい。
 具体的に学習処理を説明する。学習処理では、学習モデルが用いられる。例えば、学習モデルには、正解データのクエリと2つ検索対象文書が入力される。そして、2つ検索対象文書のうち、どちらの検索対象文書が上位の検索結果であるかを示す情報が出力される。
 詳細に学習処理を説明する。ここで、正解データのクエリは、クエリQとする。クエリQには、正解データに含まれる検索対象文書A,B,Cが対応付けられている。検索対象文書Aの順位は、1位とする。検索対象文書Bの順位は、2位とする。検索対象文書Cの順位は、3位とする。ここで、学習モデルを示す。
 図5は、実施の形態1の学習モデルの例を示す図である。図5は、2つニューラルネットワーク(NN:Neural Network)を示している。以下、2つニューラルネットワークは、NN1とNN2と表現する。
 例えば、学習データは、クエリQと検索対象文書Aの組合せと、クエリQと検索対象文書Bの組合せである。NN1には、クエリQと検索対象文書Aの組合せが入力される。NN2には、クエリQと検索対象文書Bの組合せが入力される。当該学習データは、学習データ1と呼ぶ。
 また、例えば、学習データは、クエリQと検索対象文書Cの組合せと、クエリQと検索対象文書Bの組合せである。NN1には、クエリQと検索対象文書Cの組合せが入力される。NN2には、クエリQと検索対象文書Bの組合せが入力される。当該学習データは、学習データ2と呼ぶ。
 学習モデルでは、スコア1とスコア2とが比較される。比較では、スコア1とスコア2との差分が式(1)を用いて算出される。なお、算出の結果は、差分スコアと呼ぶ。また、例えば、スコア1からスコア2を引くことが決められている。
Figure JPOXMLDOC01-appb-M000001
 差分スコアは、シグモイド関数に入力される。シグモイド関数は、式(2)で定義される。
Figure JPOXMLDOC01-appb-M000002
 差分スコアがシグモイド関数に入力されることで、判定結果が出力される。
 ここで、学習データ1の場合、検索対象文書Aが検索対象文書Bよりも上位であることが期待される。学習データ2の場合、検索対象文書Bが検索対象文書Cよりも上位であることが期待される。
 学習処理部130は、誤差逆伝播法(バックプロパゲーション)を用いて、上記の期待と判定結果との誤差を最小化するように、NN1に含まれるノードの重みとNN2に含まれるノードの重みとを算出する。
 (ステップS22)学習処理部130は、学習後の学習モデルを学習モデル記憶部113に格納する。また、学習処理部130は、NN1に含まれるノードの重みとNN2に含まれるノードの重みとを学習モデル記憶部113に格納してもよい。
 図6は、実施の形態1の更新処理の例を示すフローチャートである。
 (ステップS31)取得部140は、情報処理装置100に入力された新規クエリを取得する。また、新規クエリは、第1のクエリとも言う。
 (ステップS32)検索部150は、新規クエリを用いて、検索対象文書群111の中から新規クエリの検索対象を検索する。例えば、検索方法は、キーワード検索である。
 ここで、検索部150がキーワード検索を用いる場合、検索部150は、新規クエリと検索対象文書群111の各検索対象文書とに含まれるキーワードを用いて、スコアを算出する。例えば、新規クエリに含まれるキーワードが多く含まれている検索対象文書のスコアは、高くなる。検索部150は、スコアに基づいて、検索対象文書に順位を付ける。
 このように、新規クエリには、検索された1以上の検索対象文書と順位とが対応付けられる。
 (ステップS33)更新処理部160は、検索部150による検索の結果であり、順位が対応付けられている1以上の検索対象文書のうち、上位N個の検索対象文書を選択する。なお、Nは、1以上の整数であり、予め決められた数である。このように、更新処理部160は、上位の予め決められた件数の検索対象文書を選択する。
 更新処理部160は、新規クエリと、上位N個の検索対象文書と、重みを用いるNN1とを用いて、スコア1を算出する。言い換えれば、更新処理部160は、新規クエリと、上位N個の検索対象文書と、重みが付加されているNN1とを用いて、スコア1を算出する。例えば、更新処理部160は、新規クエリと、上位N個の検索対象文書のうちの1つの検索対象文書とをNN1に入力する。これにより、スコア1が算出される。更新処理部160は、算出されたスコア1を新たな順位として更新する。同様に、更新処理部160は、N個の検索対象文書のそれぞれのスコア1を算出し、順位を更新する。このように、更新処理部160は、N個の検索対象文書のそれぞれの順位を、新たな順位に更新する。
 また、更新処理部160は、検索対象文書の元の順位とスコア1との平均値を、新たな順位としてもよい。
 なお、上記では、NN1を用いる場合を示した。NN1とNN2は、等価なモデルである。そのため、NN2が用いられてもよい。
 (ステップS34)出力部170は、新たな順位の組合せを出力する。例えば、出力部170は、新規クエリと、N個の検索対象文書と、更新された新たな順位との組合せを出力する。また、例えば、出力部170は、当該組合せを表示装置12に出力する。これにより、表示装置12には、N個の検索対象文書がランキング形式で表示される。
 例えば、ユーザは、表示装置12を見る。ユーザは、N個の検索対象文書の中から新規クエリに概念的に適合する検索対象文書を選択することができる。ユーザが新規クエリに概念的に適合する検索対象文書を選択する場合、ユーザは、情報処理装置100に対して選択操作を行う。
 (ステップS35)取得部140は、選択操作によって、新規クエリに概念的に適合する検索対象文書を取得したか否かを判定する。言い換えれば、取得部140は、選択操作が行われたか否かを判定する。
 選択操作が行われた場合、取得部140は、処理をステップS36に進める。選択操作が行われていない場合、取得部140は、処理を終了する。
 (ステップS36)取得部140は、新規クエリと、新規クエリに概念的に適合する検索対象文書との組合せを正解データとして、正解データ記憶部112に格納する。
 実施の形態1によれば、情報処理装置100は、正解データを作成する。よって、ユーザは、正解データを作成しなくてよい。よって、情報処理装置100は、ユーザの負担を軽減することができる。
 また、情報処理装置100は、NN1を用いて、検索対象文書の順位を更新する。これにより、情報処理装置100は、検索部150の検索結果だけでは分からない、検索対象文書の順位をユーザに提供することができる。また、情報処理装置100は、検索部150によって検索された検索対象文書のうちN個の順位を更新する。情報処理装置100は、検索部150によって検索された全ての検索対象文書の順位を更新しない。このように、情報処理装置100は、検索対象文書の件数を絞ることで、情報処理装置100の処理負荷を軽減できる。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。実施の形態2の説明では、図1~6を参照する。
 図7は、実施の形態2の情報処理装置が有する機能ブロック図である。図1に示される構成と同じ図7の構成は、図1に示される符号と同じ符号を付している。
 情報処理装置100aは、処理部120aを有する。処理部120aについては、後で説明する。
 図8は、実施の形態2の正解データの作成処理の例を示すフローチャートである。図8の処理では、ステップS12が実行されない。また、図8の処理では、ステップS13aが実行される点が、図3の処理と異なる。そのため、図8では、ステップS13aを説明する。図8における他のステップについては、図3のステップ番号と同じ番号を付することによって、処理の説明を省略する。また、図8の各ステップは、処理部120aが実行する。
 (ステップS13a)処理部120aは、ステップS11で選択された検索対象文書の要約文に基づいて、クエリを作成する。詳細には、処理部120aは、要約文をクエリとして作成する。また、処理部120aは、要約文の中から文字列を抽出し、当該文字列に基づいて、クエリを作成してもよい。
 要約文は、予め記憶部110又は外部装置に格納されている。要約文は、取得部140によって、取得される。なお、要約文は、非特許文献3に記載の方法で作成されてもよい。
 実施の形態2によれば、情報処理装置100aは、正解データを作成する。よって、ユーザは、正解データを作成しなくてよい。よって、情報処理装置100aは、ユーザの負担を軽減することができる。
実施の形態3.
 次に、実施の形態3を説明する。実施の形態3では、実施の形態1と相違する事項を主に説明する。そして、実施の形態3では、実施の形態1と共通する事項の説明を省略する。実施の形態3の説明では、図1~6を参照する。
 図9は、実施の形態3の情報処理装置が有する機能ブロック図である。図1に示される構成と同じ図9の構成は、図1に示される符号と同じ符号を付している。
 情報処理装置100bは、処理部120bを有する。処理部120bについては、後で説明する。
 図10は、実施の形態3の正解データの作成処理の例を示すフローチャートである。図10の処理では、ステップS12が実行されない。また、図10の処理では、ステップS13bが実行される点が、図3の処理と異なる。そのため、図10では、ステップS13bを説明する。図10における他のステップについては、図3のステップ番号と同じ番号を付することによって、処理の説明を省略する。また、図10の各ステップは、処理部120bが実行する。
 (ステップS13b)処理部120bは、ステップS11で選択された検索対象文書の言い換え文に基づいて、クエリを作成する。詳細には、処理部120bは、言い換え文をクエリとして作成する。また、処理部120aは、当該言い換え文の中から文字列を抽出し、当該文字列に基づいて、クエリを作成してもよい。
 また、処理部120bは、ステップS11で選択された検索対象文書の要約文の言い換え文に基づいて、クエリを作成してもよい。さらに、処理部120bは、当該要約文の言い換え文の中から文字列を抽出し、当該文字列に基づいて、クエリを作成してもよい。
 検索対象文書の言い換え文、又は検索対象文書の要約文の言い換え文は、予め記憶部110又は外部装置に格納されている。検索対象文書の言い換え文、又は検索対象文書の要約文の言い換え文は、取得部140により、取得される。なお、言い換え文は、同義語辞書を用いた単語の置換による方法によって作成されてもよい。また、言い換え文は、非特許文献4に記載の方法で作成してもよい。
 実施の形態3によれば、情報処理装置100bは、正解データを作成する。よって、ユーザは、正解データを作成しなくてよい。よって、情報処理装置100bは、ユーザの負担を軽減することができる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 11 入力装置、 12 表示装置、 100,100a,100b 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 検索対象文書群、 112 正解データ記憶部、 113 学習モデル記憶部、 120,120a,120b 処理部、 130 学習処理部、 140 取得部、 150 検索部、 160 更新処理部、 170 出力部。

Claims (10)

  1.  複数の検索対象文書を取得する取得部と、
     前記複数の検索対象文書のうちの第1の検索対象文書の中から文字列を抽出し、前記文字列に基づいてクエリを作成し、前記複数の検索対象文書の中から前記クエリの検索対象を検索し、検索の結果である1以上の検索対象文書と前記クエリとを含む正解データを作成する処理部と、
     を有する情報処理装置。
  2.  前記取得部は、前記第1の検索対象文書の要約文を取得し、
     前記処理部は、前記要約文に基づいてクエリを作成する、
     請求項1に記載の情報処理装置。
  3.  前記処理部は、前記要約文の中から文字列を抽出し、抽出された文字列に基づいてクエリを作成する、
     請求項2に記載の情報処理装置。
  4.  前記取得部は、前記要約文の言い換え文を取得し、
     前記処理部は、前記言い換え文に基づいてクエリを作成する、
     請求項2に記載の情報処理装置。
  5.  前記処理部は、前記言い換え文の中から文字列を抽出し、抽出された文字列に基づいてクエリを作成する、
     請求項4に記載の情報処理装置。
  6.  前記取得部は、前記第1の検索対象文書の言い換え文を取得し、
     前記処理部は、前記言い換え文に基づいてクエリを作成する、
     請求項1に記載の情報処理装置。
  7.  前記処理部は、前記言い換え文の中から文字列を抽出し、抽出された文字列に基づいてクエリを作成する、
     請求項6に記載の情報処理装置。
  8.  学習処理部と、
     検索部と、
     更新処理部と、
     出力部と、
     をさらに有し、
     前記処理部は、検索の結果である1以上の検索対象文書と前記クエリと前記1以上の検索対象文書に対応する番号を含む正解データを作成し、
     前記学習処理部は、前記処理部が作成した正解データを用いて、学習モデルのニューラルネットワークで使用される重みを算出する学習処理を実行し、
     前記取得部は、第1のクエリを取得し、
     前記検索部は、前記複数の検索対象文書の中から前記第1のクエリの検索対象を検索し、
     前記更新処理部は、前記検索部による検索の結果であり、順位が対応付けられている1以上の検索対象文書のうち、上位の予め決められた件数の検索対象文書を選択し、前記第1のクエリと選択された1以上の検索対象文書と前記重みを用いる前記ニューラルネットワークとを用いて、選択された1以上の検索対象文書の順位を更新し、
     前記出力部は、選択された1以上の検索対象文書と更新された順位とを出力する、
     請求項1から7のいずれか1項に記載の情報処理装置。
  9.  情報処理装置が、
     複数の検索対象文書を取得し、
     前記複数の検索対象文書のうちの第1の検索対象文書の中から文字列を抽出し、
     前記文字列に基づいてクエリを作成し、
     前記複数の検索対象文書の中から前記クエリの検索対象を検索し、
     検索の結果である1以上の検索対象文書と前記クエリとを含む正解データを作成する、
     情報処理方法。
  10.  情報処理装置に、
     複数の検索対象文書を取得し、
     前記複数の検索対象文書のうちの第1の検索対象文書の中から文字列を抽出し、
     前記文字列に基づいてクエリを作成し、
     前記複数の検索対象文書の中から前記クエリの検索対象を検索し、
     検索の結果である1以上の検索対象文書と前記クエリとを含む正解データを作成する、
     処理を実行させる情報処理プログラム。
PCT/JP2019/046557 2019-11-28 2019-11-28 情報処理装置、情報処理方法、及び情報処理プログラム WO2021106141A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020227016332A KR102452777B1 (ko) 2019-11-28 2019-11-28 정보 처리 장치, 정보 처리 방법, 및 기록 매체
DE112019007834.8T DE112019007834T5 (de) 2019-11-28 2019-11-28 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
CN201980102347.8A CN114730318A (zh) 2019-11-28 2019-11-28 信息处理装置、信息处理方法以及信息处理程序
JP2020529656A JP6840293B1 (ja) 2019-11-28 2019-11-28 情報処理装置、情報処理方法、及び情報処理プログラム
PCT/JP2019/046557 WO2021106141A1 (ja) 2019-11-28 2019-11-28 情報処理装置、情報処理方法、及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/046557 WO2021106141A1 (ja) 2019-11-28 2019-11-28 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2021106141A1 true WO2021106141A1 (ja) 2021-06-03

Family

ID=74845349

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/046557 WO2021106141A1 (ja) 2019-11-28 2019-11-28 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (5)

Country Link
JP (1) JP6840293B1 (ja)
KR (1) KR102452777B1 (ja)
CN (1) CN114730318A (ja)
DE (1) DE112019007834T5 (ja)
WO (1) WO2021106141A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011891A (ja) * 2005-07-01 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2019125124A (ja) * 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
JP2019200449A (ja) * 2018-05-14 2019-11-21 株式会社日立製作所 案件振分支援システム、案件振分支援装置、及び案件振分支援方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4711761B2 (ja) * 2005-07-08 2011-06-29 株式会社ジャストシステム データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US8812493B2 (en) * 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
KR101649146B1 (ko) * 2015-01-15 2016-08-19 주식회사 카카오 검색 방법 및 검색 서버
US11675795B2 (en) * 2015-05-15 2023-06-13 Yahoo Assets Llc Method and system for ranking search content
WO2016187705A1 (en) * 2015-05-22 2016-12-01 Coveo Solutions Inc. System and method for ranking search results
JP6495206B2 (ja) 2016-07-13 2019-04-03 日本電信電話株式会社 文書概念ベース生成装置、文書概念検索装置、方法、及びプログラム
US20180232434A1 (en) * 2017-02-16 2018-08-16 Microsoft Technology Licensing, Llc Proactive and retrospective joint weight attribution in a streaming environment
US10832131B2 (en) 2017-07-25 2020-11-10 Microsoft Technology Licensing, Llc Semantic similarity for machine learned job posting result ranking model
KR102088435B1 (ko) * 2017-09-29 2020-03-12 인하대학교 산학협력단 검색 결과 다양성 인덱스 기반의 효율적 검색 장치 및 그 방법
JP6985181B2 (ja) * 2018-02-28 2021-12-22 ヤフー株式会社 情報処理装置、情報処理方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007011891A (ja) * 2005-07-01 2007-01-18 Nippon Telegr & Teleph Corp <Ntt> 情報検索方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2019125124A (ja) * 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
JP2019200449A (ja) * 2018-05-14 2019-11-21 株式会社日立製作所 案件振分支援システム、案件振分支援装置、及び案件振分支援方法

Also Published As

Publication number Publication date
JP6840293B1 (ja) 2021-03-10
DE112019007834T5 (de) 2022-07-14
JPWO2021106141A1 (ja) 2021-12-09
CN114730318A (zh) 2022-07-08
KR20220073850A (ko) 2022-06-03
KR102452777B1 (ko) 2022-10-07

Similar Documents

Publication Publication Date Title
Lin et al. Choosing transfer languages for cross-lingual learning
Zhai et al. Online latent Dirichlet allocation with infinite vocabulary
US8918348B2 (en) Web-scale entity relationship extraction
US8499008B2 (en) Mixing knowledge sources with auto learning for improved entity extraction
Vijayanarasimhan et al. Deep networks with large output spaces
US20140229476A1 (en) System for Information Discovery &amp; Organization
US8812504B2 (en) Keyword presentation apparatus and method
Yang et al. xMoCo: Cross momentum contrastive learning for open-domain question answering
US20110022598A1 (en) Mixing knowledge sources for improved entity extraction
WO2016015267A1 (en) Rank aggregation based on markov model
CN115374362A (zh) 多路召回模型训练方法、多路召回方法、装置及电子设备
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
Zhang et al. Semantic table retrieval using keyword and table queries
US9286289B2 (en) Ordering a lexicon network for automatic disambiguation
Wang et al. Reproducibility, Replicability, and Insights into Dense Multi-Representation Retrieval Models: from ColBERT to Col
González et al. ELiRF-UPV at SemEval-2019 task 3: Snapshot ensemble of hierarchical convolutional neural networks for contextual emotion detection
JP6840293B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Xie et al. Joint entity linking for web tables with hybrid semantic matching
Zhai et al. Online topic models with infinite vocabulary
CN114328820A (zh) 信息搜索方法以及相关设备
Tamang et al. Adding smarter systems instead of human annotators: re-ranking for system combination
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
Zheng et al. An improved focused crawler based on text keyword extraction
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
Tepper et al. LeanVec: Search your vectors faster by making them fit

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2020529656

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19954597

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20227016332

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 19954597

Country of ref document: EP

Kind code of ref document: A1