WO2022168247A1 - 文書検索装置、文書検索方法、及び、文書検索プログラム - Google Patents

文書検索装置、文書検索方法、及び、文書検索プログラム Download PDF

Info

Publication number
WO2022168247A1
WO2022168247A1 PCT/JP2021/004202 JP2021004202W WO2022168247A1 WO 2022168247 A1 WO2022168247 A1 WO 2022168247A1 JP 2021004202 W JP2021004202 W JP 2021004202W WO 2022168247 A1 WO2022168247 A1 WO 2022168247A1
Authority
WO
WIPO (PCT)
Prior art keywords
term
document
retrieval
search
vector
Prior art date
Application number
PCT/JP2021/004202
Other languages
English (en)
French (fr)
Inventor
恭平 西出
恒次 阪田
宏樹 ▲黒▼須
雅 玉井
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2021/004202 priority Critical patent/WO2022168247A1/ja
Priority to JP2021538447A priority patent/JPWO2022168247A1/ja
Priority to TW110126779A priority patent/TW202232363A/zh
Publication of WO2022168247A1 publication Critical patent/WO2022168247A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Definitions

  • the present disclosure relates to a document search device, document search method, and document search program.
  • Patent Document 1 discloses that when searching for a program having a similar summary column based on the summary column of the program, sentences are expanded using similarity relationships and relationships between linguistic expressions such as higher-lower relationships. discloses a technique corresponding to the aforementioned case.
  • the outline column is a sentence.
  • the purpose of the present disclosure is to expand the words of a document without using words corresponding to superordinate concepts and sibling concepts in a document retrieval device that retrieves documents.
  • the document retrieval device for retrieving a retrieval document corresponding to a retrieval sentence including a term included in a vector term composed of terms included in at least one of a plurality of retrieval documents, element corresponding to each of the terms included in the vector term, a search sentence feature amount corresponding to the search sentence obtained using the search sentence and the plurality of search documents, and between the terms included in the vector term a storage unit for storing superordinate-subordinate relationship information indicating a superior-subordinate relationship; For each two terms included in the vector term, if the superordinate-subordinate relationship information indicates that one term is subordinate to the other term, a weight for the one term determined based on the other term, an inter-term weight calculator that calculates an inter-term weight that is a weight determined according to the semantic distance indicating the distance between the meaning of the one term and the meaning of the other term; For each term included in the vector term, referring to the superordinate-subordinate relationship information, if there is a term higher than each term
  • the inter-term weight calculation unit calculates the inter-term weight for one term determined based on the other term when one term is subordinate to the other term. Ask.
  • a weighting unit uses the inter-term weights to determine the weight corresponding to each term contained in the vector term.
  • the document retrieval device retrieves retrieval documents using the weights obtained by the weighting unit. Therefore, according to the present disclosure, in a document retrieval device for retrieving documents, it is possible to expand the words of a document without using words corresponding to superordinate concepts and sibling concepts.
  • FIG. 1 is a diagram showing a configuration example of a document search device 100 according to Embodiment 1;
  • FIG. 2 is a diagram showing a hardware configuration example of the document search device 100 according to the first embodiment;
  • FIG. 4 is a flowchart showing the operation of the document search device 100 according to Embodiment 1;
  • 4 is a flowchart showing the operation of the inter-term weight calculation unit 130 according to Embodiment 1;
  • FIG. 4 is a diagram for explaining the processing of the inter-term weight calculation unit 130 according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining the processing of the inter-term weight calculation unit 130 according to the first embodiment;
  • FIG. FIG. 4 is a diagram for explaining the processing of the inter-term weight calculation unit 130 according to the first embodiment;
  • FIG. 4 is a diagram for explaining the processing of the inter-term weight calculation unit 130 according to the first embodiment;
  • FIG. 4 is a diagram for explaining the processing of the inter-term weight calculation unit 130 according to the first embodiment
  • FIG. 4 is a flowchart showing the operation of the vectorization processing unit 120 according to Embodiment 1; 4A and 4B are diagrams for explaining the processing of the vectorization processing unit 120 according to the first embodiment; FIG. 4 is a flowchart showing the operation of the document search device 100 according to Embodiment 1; 4A and 4B are diagrams for explaining the processing of the vectorization processing unit 120 according to the first embodiment; FIG. 4A and 4B are diagrams for explaining processing of a weighting unit 140 according to the first embodiment; FIG. 4A and 4B are diagrams for explaining processing of a weighting unit 140 according to the first embodiment; FIG. 4A and 4B are diagrams for explaining processing of a similarity calculation unit 150 according to the first embodiment; FIG. FIG. FIG.
  • FIG. 2 is a diagram showing a hardware configuration example of a document search device 100 according to a modification of the first embodiment
  • FIG. FIG. 2 is a diagram showing a configuration example of a document retrieval device 100 according to Embodiment 2
  • FIG. 8 is a flow chart showing the operation of the document retrieval device 100 according to the second embodiment
  • FIG. 11 is a diagram for explaining processing of a result editing unit 160 according to the second embodiment
  • FIG. 1 shows a configuration example of a document retrieval device 100 according to this embodiment.
  • the document retrieval apparatus 100 includes a retrieval sentence reception unit 110, a vectorization processing unit 120, a term weight calculation unit 130, a weighting unit 140, a similarity calculation unit 150, and a result editing unit. 160.
  • the document retrieval device 100 communicates with the terminal 500 and stores a plurality of retrieval documents 210 , a plurality of retrieval document vectors 220 , a synonym dictionary 230 and a superior/subordinate relationship dictionary 240 .
  • the document retrieval apparatus 100 is also a retrieval server that retrieves a document corresponding to a retrieval sentence 510 from a plurality of retrieval documents 210 .
  • an external device such as a cloud server stores a plurality of retrieval documents 210, a synonym dictionary 230, and a super-low relation dictionary 240, and the document retrieval apparatus 100 performs a plurality of retrievals.
  • the configuration may be such that the information possessed by the document 210, the synonym dictionary 230, and the superordinate/subordinate relation dictionary 240 is appropriately obtained from the external device.
  • a terminal 500 is a device used when a user searches for a plurality of search documents 210 and communicates with the document search device 100 .
  • the user inputs search text 509 into terminal 500 , and terminal 500 transmits search text 509 entered by the user to document search apparatus 100 .
  • Search text 509 is text for searching a plurality of search documents 210 .
  • the terminal 500 receives the search results corresponding to the search text 509 sent to the document search device 100, and presents the received search results to the user.
  • the search sentence 510 is a set of terms included in the vector term 300 among the terms included in the search text 509 .
  • a search sentence 510 is typically a set of nouns.
  • the search sentence 510 first divides the search text 509 into words, then extracts only nouns from the words included in the search text 509, and then extracts nouns included in the vector term 300 from the extracted nouns.
  • obtained by Vector terms 300 consist of terms that at least some of the plurality of search documents 210 contain. Each search document 210 may also include terms contained in vector terms 300 . Note that each search document 210 and search sentence 510 does not necessarily include all of the terms that vector term 300 includes.
  • a vector term 300 is typically a set of nouns contained in at least one of the plurality of search documents 210 .
  • Vector terms 300 are obtained by first segmenting the text of each search document 210 into words and then extracting only the nouns of the words contained in each search document 210 .
  • Each search document 210 is a document to be searched by the document search device 100, and may be a collection of multiple documents.
  • Each retrieved document vector 220 is each retrieved document 210 vectorized and indicates the weight of each term included in each retrieved document 210 .
  • Each retrieved document vector 220 corresponds to each retrieved document 210 one-to-one.
  • the synonym dictionary 230 is a dictionary containing information indicating a group of synonymous terms.
  • the hierarchical relationship dictionary 240 is a dictionary containing hierarchical relationship information indicating the hierarchical relationship between multiple terms included in the vector term 300, and may be an ontology.
  • the search sentence reception unit 110 receives the search text 509 from the terminal 500 and passes the received search text 509 to the vectorization processing unit 120 .
  • the vectorization processing unit 120 receives a search text 509 and a plurality of search documents 210, generates a search statement 510 using the received search text 509, and generates a search statement vector 512 using the generated search statement 510.
  • a plurality of search document vectors 220 are generated using the plurality of search documents 210 generated and received.
  • a retrieval statement vector 512 is a vector corresponding to the retrieval statement 510 and is a specific example of a retrieval statement feature amount.
  • Each retrieval document vector 220 is a retrieval document feature amount obtained by extracting features of each retrieval document 210 .
  • the retrieval sentence feature amount and the retrieval document feature amount are respectively composed of elements corresponding to terms included in the vector term 300 and obtained using the retrieval sentence 510 and the plurality of retrieval documents 210 .
  • the vectorization processing unit 120 obtains a plurality of search document feature amounts corresponding to the plurality of search documents 210 on a one-to-one basis.
  • the vectorization processing unit 120 may use the synonym dictionary 230 when vectorizing the search sentence 510 and each search document 210 .
  • the vectorization processing unit 120 uses the synonym dictionary 230, as a specific example, consider a case where the synonym dictionary 230 indicates that the terms "make" and "create” are synonymous. In this case, the vectorization processing unit 120 combines the element corresponding to the term "create” and the element corresponding to the term "create” into one element.
  • the inter-term weight calculation unit 130 uses the superordinate/subordinate relation dictionary 240 to calculate the interterm weight based on the semantic distance between terms and the superordinate/subordinate relation between terms.
  • the inter-term weight is a weight determined based on the hierarchical relationship between one term and the other term included in the vector term, is a weight for one term determined based on the other term, and is a weight for one term determined based on the other term. It is a weight determined according to the semantic distance from the term. Semantic distance indicates the distance between the meaning of one term and the meaning of another term.
  • the inter-term weight calculation unit 130 calculates an inter-term weight for each two terms included in the vector term 300 when the superordinate-subordinate relationship information indicates that one term is subordinate to the other term.
  • the inter-term weight calculation unit 130 sets the inter-term weight for one term in a combination of one term and the other term to 0 when the super-sub relation information does not indicate that one term is subordinate to the other term.
  • the inter-term weight calculation unit 130 constructs a hierarchical structure 131 of terms using the upper-lower relation dictionary 240 and obtains an inter-term weight matrix 133 based on the constructed hierarchical structure 131 .
  • Each element of the inter-term weight matrix 133 is an inter-term weight.
  • Hierarchical structure 131 may have virtual terms as top-level terms.
  • the weighting unit 140 generates a weighting vector 513 by giving a weight to the search sentence vector 512 based on the inter-term weight calculated by the inter-term weight calculating unit 130 .
  • the weighting unit 140 refers to the superordinate-subordinate relationship information for each term included in the vector term, and if there are terms other than the terms included in the vector term that are superior to each term, the search is performed. A weight corresponding to each term is obtained using the sentence feature amount and the weight between terms. The total number of other terms corresponding to each term may be two or more. For each term included in the vector term, if there are the above-described other terms corresponding to each term, the weighting unit 140 assigns the value of the element of the retrieval sentence feature amount corresponding to each other term to each term. The weight corresponding to each term may be obtained by multiplying the inter-term weight corresponding to each other term and adding the result of the multiplication and the value of the element of the search sentence feature value corresponding to each term. .
  • the similarity calculation unit 150 calculates the similarity 151 between the search sentence 510 and each search document 210 using the weighting vector 513 and each search document vector 220 .
  • the similarity calculation unit 150 calculates, as the similarity 151, the cosine similarity of each of the retrieval sentence feature amount and the retrieval document feature amount or the distance between the vectors.
  • the similarity calculation unit 150 normalizes each retrieval document vector 220 and weighting vector 513 .
  • the result editing unit 160 edits the search results of the multiple search documents 210 based on the degree of similarity 151 and outputs the edited search results to the terminal 500 .
  • the plurality of search documents 210, the plurality of search document vectors 220, the synonym dictionary 230, and the higher-lower relation dictionary 240 are each stored in the storage unit.
  • FIG. 2 shows a hardware configuration example of the document search device 100 according to this embodiment.
  • the document retrieval device 100 consists of a computer.
  • the document retrieval device 100 may consist of multiple computers.
  • the computer is a computer comprising hardware such as a processor 11, a main storage device 12, an auxiliary storage device 13, an input IF (Interface) 14, an output IF, and a communication IF 16. . These pieces of hardware are connected to each other via signal lines 19 .
  • the processor 11 is an IC (Integrated Circuit) that performs arithmetic processing and controls hardware included in the computer.
  • the processor 11 is, for example, a CPU (Central Processing Unit), a DSP (Digital Signal Processor), or a GPU (Graphics Processing Unit).
  • the document search device 100 may include multiple processors in place of the processor 11 . A plurality of processors share the role of processor 11 .
  • the main memory device 12 is typically a volatile memory device.
  • the main storage device 12 is also called main storage device or main memory.
  • the main storage device 12 is, as a specific example, a RAM (Random Access Memory).
  • the data stored in the main storage device 12 is saved in the auxiliary storage device 13 as needed.
  • Auxiliary storage device 13 is typically a non-volatile storage device.
  • the auxiliary storage device 13 is, for example, a ROM (Read Only Memory), an HDD (Hard Disk Drive), or a flash memory.
  • the data stored in the auxiliary storage device 13 is loaded into the main storage device 12 as required.
  • the main storage device 12 and the auxiliary storage device 13 may be configured integrally.
  • the input IF 14 is a port to which an input device and an output device are connected.
  • the input IF 14 is, as a specific example, a USB (Universal Serial Bus) terminal.
  • the input device is, as a specific example, a keyboard and a mouse.
  • the output IF 15 is a port to which an output device is connected.
  • the output IF 15 is, as a specific example, a USB terminal or an HDMI (High-Definition Multimedia Interface, registered trademark) terminal.
  • a specific example of the output device is a display.
  • the communication IF 16 is a receiver and transmitter.
  • the communication IF 16 is, as a specific example, a communication chip or a NIC (Network Interface Card).
  • Each part of the document search device 100 may use the communication IF 16 as appropriate when communicating with other devices. Each part of the document search device 100 may receive data via the input IF 14 or may receive data via the communication IF 16 .
  • the auxiliary storage device 13 stores a plurality of search documents 210, a plurality of search document vectors 220, a synonym dictionary 230, a higher-lower relationship dictionary 240, and a document search program.
  • the document search program is a program that causes a computer to implement the functions of the units included in the document search apparatus 100 .
  • a document retrieval program may consist of multiple files.
  • the document search program is loaded into main memory 12 and executed by processor 11 .
  • the function of each part provided in the document retrieval apparatus 100 is implemented by software.
  • the storage device comprises at least one of a main memory device 12, an auxiliary memory device 13, a register within the processor 11, and a cache memory within the processor 11, as a specific example. Note that data and information may have the same meaning.
  • the storage device may be independent of the computer.
  • the storage unit consists of a storage device. The functions of the main storage device 12 and the auxiliary storage device 13 may be realized by another storage device.
  • the document search program may be recorded on a computer-readable non-volatile recording medium.
  • a nonvolatile recording medium is, for example, an optical disk or a flash memory.
  • a document retrieval program may be provided as a program product.
  • the operating procedure of the document retrieval device 100 corresponds to the document retrieval method.
  • a program that realizes the operation of the document search apparatus 100 corresponds to a document search program.
  • FIG. 3 is a flow chart showing an example of an operation for enabling the document search device 100 to search for a plurality of search documents 210.
  • FIG. The operation of the document retrieval apparatus 100 will be described using this figure.
  • Step S101 startup processing
  • the document retrieval device 100 is activated.
  • Step S102 Advance preparation processing
  • the vectorization process 120 prepares vector terms 300 using a plurality of search documents 210 .
  • the vectorization processing unit 120 prepares a plurality of vectorized documents 211
  • the inter-term weight calculation unit 130 prepares the inter-term weight matrix 133 . Details of the process of preparing each of the plurality of vectorized documents 211 and the inter-term weight matrix 133 will be described later.
  • Step S103 Input standby process
  • the document search device 100 waits until the search text 509 is input to the search sentence reception unit 110 .
  • FIG. 4 is a flowchart showing an example of the operation of the inter-term weight calculation unit 130. As shown in FIG. The operation of the inter-term weight calculation unit 130 will be described using this figure.
  • Step S121 Hierarchical structure building process
  • the inter-term weight calculator 130 constructs a hierarchical structure 131 for terms included in the vector term 300 using the super-low relation dictionary 240 and the vector term 300 .
  • FIG. 5 is a diagram for explaining, using a specific example, the process of constructing the hierarchical structure 131 of terms by the term weight calculation unit 130 using the superordinate/subordinate relationship dictionary 240 .
  • the hierarchical relation dictionary 240 defines the hierarchical relation of terms relating to elevators.
  • the inter-term weight calculation unit 130 may construct a hierarchical structure 131 for each field.
  • Hierarchical structure 131 is both superior and inferior relationship information and information corresponding to a graph having each term included in vector term 300 as a node.
  • the semantic distance may be determined according to the distance from the node corresponding to one term to the node corresponding to the other term.
  • the table at the top of this figure shows a specific example of the superordinate/subordinate relationship dictionary 240 .
  • the hyper-lower-level relationship dictionary 240 defines, as a specific example, each hyper-hyphenate, each hyponym corresponding to each hyponym, and the relationship between each hyponym and each hyponym.
  • the hierarchical structure 131 constructed by the inter-term weight calculation unit 130 is shown at the bottom of the figure. Each term is shown surrounded by a rectangle.
  • the hierarchical relationship between terms is indicated.
  • the "three-sided frame” is connected to the "platform” by a line, and the "three-sided frame” is located below the "platform", so the "three-sided frame” is below the “platform”. is the term for
  • energy saving is an abbreviation for energy saving.
  • the inter-term weight calculation unit 130 creates an area for storing a pre-correction weight matrix 132 in which rows are referred to terms and columns are referred terms.
  • a referencing term is a term that originates a reference relationship. The referenced term is the term at the end of the reference relationship.
  • Inter-term weight calculation section 130 calculates the value of each element of pre-correction weight matrix 132 based on hierarchical structure 131 .
  • FIG. 6 is a diagram for explaining the process of calculating the pre-correction weight matrix 132 by the inter-term weight calculator 130 using a specific example.
  • a hierarchical structure 131 is shown in the upper part of the figure.
  • the pre-correction weight matrix 132 is shown at the bottom of the figure.
  • Each element of pre-correction weight matrix 132 is both a pre-correction weight and an inter-term weight.
  • the inter-term weight is determined according to the cumulative value of the difference between the hierarchy to which one term belongs and the hierarchy to which the other term belongs. In this example, the inter-term weight is multiplied by ⁇ (0 ⁇ 1) each time the cumulative value of the hierarchical difference increases by one.
  • the weight becomes smaller as the cumulative value of the difference between layers increases.
  • the cumulative value of the difference in hierarchy between the “three-way frame” and the “regenerative converter” is seven. Therefore, ⁇ 7 is shown as the inter-term weight corresponding to "three-way frame” and "regenerative converter".
  • the index of ⁇ is a value obtained by adding 1 to the number of terms passed through from the referrer term to the referee term in the hierarchical structure 131 .
  • Step S124 inter-term weight correction process
  • the inter-term weight calculation unit 130 creates an inter-term weight matrix 133 by setting the corresponding weight value of the pre-correction weight matrix 132 to 0 when the referred term is not included in the lower-level terms of the referring term. do.
  • FIG. 7 is a diagram for explaining the process of calculating the inter-term weight matrix 133 by the inter-term weight calculator 130 using a specific example.
  • a hierarchical structure 131 is shown in the upper part of the figure.
  • An inter-term weight matrix 133 is shown at the bottom of the figure.
  • the inter-term weight calculator 130 sets the inter-term weight to 0 except when the referenced term is lower than the referrer term.
  • LED Light Emitting Diode
  • the inter-term weight is not 0 when the referencing term is "elevator” and the referenced term is "LED".
  • Step S125 inter-term weight storage processing
  • the inter-term weight calculation unit 130 stores the created inter-term weight matrix 133 in the storage device.
  • FIG. 8 is a flow chart showing an example of the operation of the vectorization processing unit 120 in the process of vectorizing a plurality of search documents 210 by the vectorization processing unit 120 .
  • the operation of the vectorization processing unit 120 will be described using this figure.
  • Step S141 unprocessed determination process If there is a search document 210 that has not yet been processed, the document search device 100 proceeds to step S142. Otherwise, the document retrieval device 100 proceeds to step S144.
  • Step S142 vectorization processing
  • the vectorization processing unit 120 selects one retrieval document 210 that has not yet been processed by the vectorization processing unit 120 and converts the selected retrieval document 210 into a vector to generate a vectorized document 211 .
  • the vectorization processing unit 120 performs morphological analysis on each search document 210 to generate each vectorized document 211 having each word as an element and the number of occurrences of each word as the value of each element. Generate.
  • Step S143 synonym aggregation process
  • the vectorization processing unit 120 aggregates the plurality of elements into one element for each of the plurality of elements corresponding to the plurality of synonymous words.
  • each vectorized document 211 refers to each vectorized document 211 in which synonyms are aggregated.
  • FIG. 9 shows a specific example of the processing of steps S142 and S143. It should be noted that this figure also includes a description of processing for vectorizing a search sentence 510, which will be described later.
  • the terms shown in this figure are the terms contained in vector term 300 .
  • the vectorization processing unit 120 vectorizes a search sentence 510 and a plurality of search documents 210 using BoW (Bag-of-Words) to generate a vectorized search sentence 511 and a plurality of vectorized documents 211, respectively. It shall be. It is assumed that the search sentence 510 includes "basket", "power consumption”, and "three-sided box", and the search document 210-1 and the search document 210-2 are as shown in this figure.
  • FIG. At this time, when the vectorization processing unit 120 extracts nouns included in the search sentence 510 and the plurality of search documents 210 as elements of BoW from the search sentence 510 and the plurality of search documents 210, the table shown in the upper part of the figure is obtained. become.
  • Step S144 output processing
  • the vectorization processing unit 120 outputs each generated vectorized document 211 .
  • FIG. 10 is a flow chart showing an example of the operation of searching for a plurality of search documents 210 by the document search device 100.
  • FIG. The operation of searching for a plurality of search documents 210 by the document search device 100 will be described with reference to this figure.
  • Step S161 Search statement reception processing
  • the search sentence receiving unit 110 receives the search text 509 from the terminal 500 and passes the received search text 509 to the vectorization processing unit 120 .
  • Step S162 vectorization processing
  • the vectorization processing unit 120 receives the search text 509 from the search sentence receiving unit 110, generates the search sentence 510 using the received search text 509 and the vector term 300, and vectorizes the generated search sentence 510.
  • a vectorized search sentence 511 is generated.
  • Step S163 synonym aggregation process
  • the vectorization processing unit 120 uses the vectorized search sentence 511 instead of each vectorized document 211 .
  • the vectorized search sentence 511 refers to the vectorized search sentence 511 in which synonyms are aggregated.
  • Step S164 weight vector calculation process
  • the vectorization processing unit 120 uses each vectorized document 211 generated by the vectorization processing unit 120 and the vectorized search sentence 511 to generate each search document vector 220 corresponding to each vectorized document 211 and a search sentence vector 512.
  • Each of the retrieval statement vector 512 and each of the retrieval document vectors 220 is, as a specific example, a vector determined by TF-IDF (Term Frequency-Inverse Document Frequency).
  • FIG. 11 shows a specific example in which the vectorization processing unit 120 obtains the TF-IDF for the retrieval document 200-1.
  • This example corresponds to FIG.
  • Variable x ij indicates the value of TF-IDF for document d i and word t j .
  • Document d i may be each search document 210 or search sentence 510 .
  • the vectorization processing unit 120 uses the TF for the search document 200-1 and the IDF for the search document 210-1, the search document 210-2, and the search sentence 510 to create a TF-IDF for the search document 200-1. to find the value of Each element of the vector determined by TF-IDF indicates the characteristics of each term included in vector term 300 .
  • the vector indicates the characteristics of the plurality of search documents 210 and the search sentence 510 used when obtaining the vector.
  • the result of determining the TF-IDF for retrieved document 210-1 is retrieved document vector 220 corresponding to retrieved document 210-1.
  • Weighting section 140 processes retrieval sentence vector 512 using inter-term weighting matrix 133 to generate weighting vector 513 .
  • FIG. 12A and 12B are diagrams for explaining, using a specific example, the process by which the weighting unit 140 assigns inter-term weights to the search sentence vector 512.
  • FIG. Since "LED” is a lower order of "basket", for the element of the search sentence vector 512 corresponding to "LED”, the value corresponding to "basket” of the search sentence vector 512 and the value of "LED” and "basket” is multiplied by the inter-term weight corresponding to .
  • the weighting unit 140 similarly weights the elements of the search sentence vector 512 corresponding to "three-sided frame" and "door".
  • the weighting unit 140 assigns the element of the retrieval sentence vector 512 corresponding to the certain term to the search sentence vector 512 corresponding to each of the terms that are superior to the certain term. is added as a weight by summing all the results obtained by multiplying the value of the element of .
  • the referred term corresponds to one term
  • the referencing term corresponds to the other term.
  • ⁇ 2 is obtained as an inter-term weight for one term in a combination of one term and the other term.
  • the vector term 300 includes another term “cage” that is superordinate to "LED".
  • the weighting unit 140 assigns 0.33, which is the value of the element of the retrieval sentence feature value corresponding to the other term "basket”, to be the inter-term weight corresponding to both "LED” and “basket”.
  • ⁇ 2 is multiplied, and the multiplied result is added to 0.00, which is the element value of the search sentence feature value corresponding to "LED", to obtain the weight corresponding to "LED”.
  • Step S166 normalization processing
  • the similarity calculation unit 150 normalizes each of the retrieved document vectors 220 and the weighted vectors 513 so that the lengths of each of the retrieved document vectors 220 and the weighted vectors 513 become one.
  • each retrieved document vector 220 refers to each normalized retrieved document vector 220 and the weighting vector 513 refers to the normalized weighting vector 513 .
  • FIG. 13 is a diagram illustrating the process of normalizing the weighting vector 513 by the similarity calculation unit 150 using a specific example. This figure corresponds to the case where ⁇ in FIG. 12 is set to 0.5. Assuming that the weighting vector 513 is a, the weighting unit 140 first obtains the length of a. Weighting unit 140 then divides each element of a by the length of a.
  • Step S167 Similarity calculation process
  • the similarity calculation unit 150 calculates a similarity 151 between the search sentence 510 and each search document 210 using the weighting vector 513 and each search document vector 220 .
  • FIG. 14A and 14B are diagrams for explaining, using a specific example, the process of obtaining the cosine similarity as the similarity 151 by the similarity calculation unit 150.
  • FIG. In this figure, the weighting vector 513 and each retrieval document vector 220 are two-dimensional, but the number of dimensions of these vectors is not limited to two.
  • ⁇ 1 indicates the degree of similarity 151 between the weighting vector 513 and the retrieval document vector 220-1
  • ⁇ 2 indicates the degree of similarity 151 between the weighting vector 513 and the retrieval document vector 220-2 .
  • Step S168 output processing
  • the result editing unit 160 generates search results according to the degree of similarity 151 and outputs the generated search results.
  • the result editing unit 160 extracts each of the retrieved documents 210 corresponding to the similarities 151 of the top N items or each of the retrieved documents 210 corresponding to the similarities 151 of M or more and presents them to the user.
  • N is any natural number and M is a positive number.
  • the document retrieval apparatus 100 creates inter-term weights based on whether or not the referred term is included in the lower terms of the referring term, and calculates the inter-term weight.
  • a plurality of search documents 210 are searched for consideration. Therefore, according to the present embodiment, even if a certain term included in the search sentence 510 has a plurality of hypernyms, search results that are unintended by the user and related to each of the plurality of hypernyms can be obtained. It is possible to prevent the presentation of search results that In addition, according to the present embodiment, it is possible to eliminate the influence of broader words that are common in a plurality of fields on search results, and there is no need to create separate dictionaries for each field. become.
  • Inter-term weight calculation section 130 may calculate inter-term weight matrix 133 without obtaining pre-correction weight matrix 132 .
  • FIG. 15 shows a hardware configuration example of the document search device 100 according to this modified example.
  • the document retrieval apparatus 100 includes a processing circuit 18 in place of at least one of the processor 11, the main storage device 12, and the auxiliary storage device 13, as shown in the figure.
  • the processing circuit 18 is hardware that implements at least a part of each unit included in the document retrieval apparatus 100 .
  • the processing circuit 18 may be dedicated hardware, or may be a processor that executes programs stored in the main memory device 12 .
  • processing circuit 18 When processing circuit 18 is dedicated hardware, processing circuit 18 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC (ASIC is an Application Specific Integrated Circuit), an FPGA. (Field Programmable Gate Array) or a combination thereof.
  • the document retrieval device 100 may include a plurality of processing circuits that substitute for the processing circuit 18. FIG. A plurality of processing circuits share the role of processing circuit 18 .
  • the processing circuit 18 is implemented by hardware, software, firmware, or a combination thereof, as a specific example.
  • the processor 11, main storage device 12, auxiliary storage device 13, and processing circuit 18 are collectively referred to as "processing circuitry.”
  • processing circuitry the function of each functional component of the document retrieval apparatus 100 is implemented by processing circuitry.
  • a document retrieval device 100 according to another embodiment may also have the same configuration as this modified example.
  • FIG. 16 shows a configuration example of the document search device 100 according to this embodiment.
  • the document retrieval device 100 includes a document retrieval section 170 in addition to the components of the document retrieval device 100 according to the first embodiment.
  • the document search unit 170 searches each search document 210 corresponding to the search text 509 using an existing search method.
  • the document search unit 170 searches a plurality of search documents 210 for documents corresponding to the search text 509 by a method that does not use the similarity 151, and obtains the search results as document search results.
  • the document search unit 170 may use the search text 509 or the search sentence 510 when searching for a plurality of search documents 210 .
  • the document search unit 170 uses full text match search.
  • the result editing unit 160 refers to the similarity 151 and edits the document search results.
  • FIG. 17 is a flow chart showing an example of the operation of the document search device 100. As shown in FIG. The operation of the document search section 170 will be described using this figure. Note that the document search device 100 does not have to perform the process of step S168.
  • Step S201 reception processing
  • the document search unit 170 receives the search text 509 or the search sentence 510 from the vectorization processing unit 120 .
  • Step S202 search processing
  • the document search unit 170 searches for a plurality of search documents 210 using the received search text 509 or search sentence 510, and outputs the search results.
  • Step S203 result editing process
  • the result editing unit 160 integrates the similarity 151 and the search results obtained by the document search unit 170 to generate search results, and outputs the generated search results.
  • the result editing unit 160 presents search results with a high degree of similarity 151 at a high rank.
  • FIG. 18 is a diagram for explaining the processing of the result editing unit 160 using a specific example. The processing of the result editing unit 160 will be explained using this figure.
  • the “similarity calculation method” is a method for obtaining the similarity 151 shown in the first embodiment.
  • the “full text match search method” is a method adopted by the document search unit 170 . As shown in the figure, the document search unit 170 searches for "AAA.doc" and "CCC.pdf" from a plurality of search documents 210 using the full-text match search technique, and the document search device 100 performs "similarity calculation.” The similarity 151 of each search document 210 was calculated by the method.
  • search result type 1 indicates that each search document 210 was searched by the document search section 170, and 2 indicates that each search document 210 was not searched by the document search section 170.
  • the result editing unit 160 sets the display order of each search document 210 searched by the document search unit 170 higher than the display order of each search document 210 not searched by the document search unit 170 .
  • the result editing unit 160 sorts the search documents 210 searched by the document search unit 170 in descending order of similarity 151, and sorts the search documents 210 that were not searched by the document search unit 170 with the highest similarity 151. Sort by order.
  • Embodiments are not limited to those shown in Embodiments 1 and 2, and various modifications are possible as necessary.
  • the procedures described using flowcharts and the like may be changed as appropriate.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書検索装置(100)は、用語間重み算出部(130)と、重み付け部(140)とを備える。用語間重み算出部(130)は、複数の検索文書(210)の少なくともいずれかが含む用語から成るベクトル用語が含む各2つの用語について、一方の用語が他方の用語の下位に当たる場合に、一方の用語と他方の用語との組み合わせにおける一方の用語に対する重みであって、意味的距離に応じて定まる重みである用語間重みを算出する。重み付け部(140)は、ベクトル用語が含む各用語について、各用語の上位に当たる他の用語をベクトル用語が含む場合に、検索文に対応する検索文特徴量と用語間重みとを用いて各用語に対応する重みを求める。

Description

文書検索装置、文書検索方法、及び、文書検索プログラム
 本開示は、文書検索装置、文書検索方法、及び、文書検索プログラムに関する。
 検索システムにおいて、表記の揺れ等によりテキスト間の類似性を正当に評価することができない場合に対応する必要がある。
 特許文献1は、番組が有する概要欄に基づいて類似した概要欄を有する番組を検索する際に、類似関係と、上位下位関係等の言語表現間の関係とを利用して文章を拡張することにより前述の場合に対応する技術を開示している。なお、概要欄は文章である。
特許第5982174号公報
 特許文献1が開示する技術によれば、上位概念又は兄弟概念に当たる単語を用いて文書の単語を拡張する。そのため、具体例として「エレベータの照明」の詳細について検索したい場合に、利用者は検索文として入力した内容よりも具体的な内容を求めたいと考えるが、「エレベータの照明」の上位概念である「カゴ」等、検索文が含む単語よりも抽象的な単語によって検索対象を拡張することにより利用者が意図していない単語が含まれる文書が検索されるという課題がある。
 特に、ある単語が複数の上位概念に当たる単語を持つ場合に、検索に用いる単語との関連性が低い単語を含む文書が検索されやすくなる。
 本開示は、文書を検索する文書検索装置において、上位概念及び兄弟概念に当たる単語を用いずに文書の単語を拡張することを目的とする。
 本開示に係る文書検索装置は、
 複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語を含む検索文に対応する検索文書を検索する文書検索装置であって、
 前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶する記憶部と、
 前記ベクトル用語が含む各2つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出する用語間重み算出部と、
 前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める重み付け部と
を備える。
 本開示によれば、用語間重み算出部が、ベクトル用語が含む各2つの用語について、一方の用語が他方の用語の下位に当たる場合に他方の用語に基づいて定まる一方の用語に対する用語間重みを求める。その後、重み付け部が用語間重みを用いてベクトル用語が含む各用語に対応する重みを求める。文書検索装置は、重み付け部が求めた重みを用いて検索文書を検索する。
 従って、本開示によれば、文書を検索する文書検索装置において、上位概念及び兄弟概念に当たる単語を用いずに文書の単語を拡張することができる。
実施の形態1に係る文書検索装置100の構成例を示す図。 実施の形態1に係る文書検索装置100のハードウェア構成例を示す図。 実施の形態1に係る文書検索装置100の動作を示すフローチャート。 実施の形態1に係る用語間重み算出部130の動作を示すフローチャート。 実施の形態1に係る用語間重み算出部130の処理を説明する図。 実施の形態1に係る用語間重み算出部130の処理を説明する図。 実施の形態1に係る用語間重み算出部130の処理を説明する図。 実施の形態1に係るベクトル化処理部120の動作を示すフローチャート。 実施の形態1に係るベクトル化処理部120の処理を説明する図。 実施の形態1に係る文書検索装置100の動作を示すフローチャート。 実施の形態1に係るベクトル化処理部120の処理を説明する図。 実施の形態1に係る重み付け部140の処理を説明する図。 実施の形態1に係る重み付け部140の処理を説明する図。 実施の形態1に係る類似度算出部150の処理を説明する図。 実施の形態1の変形例に係る文書検索装置100のハードウェア構成例を示す図。 実施の形態2に係る文書検索装置100の構成例を示す図。 実施の形態2に係る文書検索装置100の動作を示すフローチャート。 実施の形態2に係る結果編集部160の処理を説明する図。
 実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。また、「部」を、「回路」、「工程」、「手順」、「処理」又は「サーキットリー」に適宜読み替えてもよい。
 実施の形態1.
 以下、本実施の形態について、図面を参照しながら詳細に説明する。
***構成の説明***
 図1は、本実施の形態に係る文書検索装置100の構成例を示している。文書検索装置100は、本図に示すように、検索文受付部110と、ベクトル化処理部120と、用語間重み算出部130と、重み付け部140と、類似度算出部150と、結果編集部160とを備える。文書検索装置100は、端末500と通信し、また、複数の検索文書210と、複数の検索文書ベクトル220と、同義語辞書230と、上位下位関係辞書240とを記憶する。文書検索装置100は、複数の検索文書210から検索文510に対応する文書を検索する検索サーバでもある。なお、文書検索装置100の代わりにクラウドサーバ等の外部装置が複数の検索文書210と、同義語辞書230と、上位下位関係辞書240とを記憶しており、文書検索装置100が、複数の検索文書210と、同義語辞書230と、上位下位関係辞書240とが有する情報を当該外部装置から適宜取得する構成であってもよい。
 端末500は、ユーザが複数の検索文書210を検索する際に用いる機器であり、文書検索装置100と通信する。
 ユーザは検索用テキスト509を端末500に入力し、端末500はユーザが入力した検索用テキスト509を文書検索装置100に送信する。検索用テキスト509は複数の検索文書210を検索するためのテキストである。端末500は、文書検索装置100に送信した検索用テキスト509に対応する検索結果を受け取り、受け取った検索結果をユーザに提示する。
 検索文510は、検索用テキスト509が含む用語のうち、ベクトル用語300が含む用語の集合である。検索文510は典型的には名詞の集合である。検索文510は、まず検索用テキスト509を単語に区切り、次に検索用テキスト509に含まれる単語のうち名詞のみを抽出し、次に抽出した名詞のうちベクトル用語300に含まれる名詞を抽出することにより得られる。
 ベクトル用語300は、複数の検索文書210の少なくともいずれかが含む用語から成る。各検索文書210はベクトル用語300が含む用語を含むこともある。なお、各検索文書210及び検索文510は、ベクトル用語300が含む用語の全てを含むとは限らない。ベクトル用語300は、典型的には複数の検索文書210の少なくともいずれかに含まれる名詞の集合である。ベクトル用語300は、まず各検索文書210のテキストを単語に区切り、次に各検索文書210に含まれる単語のうち名詞のみを抽出することによって得られる。
 各検索文書210は、文書検索装置100が検索対象とする文書であり、複数の文書の集合であってもよい。
 各検索文書ベクトル220は、ベクトル化した各検索文書210であり、各検索文書210に含まれる各用語の重みを示す。各検索文書ベクトル220は各検索文書210に1対1で対応する。
 同義語辞書230は、同義である複数の用語のまとまりを示す情報を含む辞書である。
 上位下位関係辞書240は、ベクトル用語300が含む複数の用語間の上位下位関係を示す上位下位関係情報を含む辞書であり、また、オントロジーであってもよい。
 検索文受付部110は、端末500から検索用テキスト509を受け付け、受け付けた検索用テキスト509をベクトル化処理部120に渡す。
 ベクトル化処理部120は、検索用テキスト509と複数の検索文書210とを受け付け、受け付けた検索用テキスト509を用いて検索文510を生成し、生成した検索文510を用いて検索文ベクトル512を生成し、受け付けた複数の検索文書210を用いてと複数の検索文書ベクトル220を生成する。検索文ベクトル512は、検索文510に対応するベクトルであり、検索文特徴量の具体例である。各検索文書ベクトル220は各検索文書210の特徴を抽出した検索文書特徴量である。検索文特徴量と検索文書特徴量とは、それぞれ、ベクトル用語300が含む用語それぞれに対応する要素から成り、検索文510と複数の検索文書210とを用いて求められる。ベクトル化処理部120は、複数の検索文書210に1対1で対応する複数の検索文書特徴量を求める。
 ベクトル化処理部120は、検索文510と各検索文書210とをベクトル化する際に同義語辞書230を用いてもよい。ベクトル化処理部120が同義語辞書230を用いるとき、具体例として、「作る」という用語と「作成」という用語とが同義であると同義語辞書230が示している場合を考える。この場合において、ベクトル化処理部120は、「作る」という用語に対応する要素と「作成」という用語に対応する要素とを1つの要素にまとめる。
 用語間重み算出部130は、上位下位関係辞書240を用いて、用語間の意味的距離及び用語間の上位下位関係に基づいて用語間重みを算出する。用語間重みは、ベクトル用語が含む一方の用語と他方の用語との上位下位関係に基づいて定まる重みであり、他方の用語に基づいて定まる一方の用語に対する重みであり、一方の用語と他方の用語との間の意味的距離に応じて定まる重みである。意味的距離は、一方の用語の意味と他方の用語の意味との間の距離を示す。用語間重み算出部130は、ベクトル用語300が含む各2つの用語について、一方の用語が他方の用語の下位に当たると上位下位関係情報が示す場合に用語間重みを算出する。用語間重み算出部130は、一方の用語が他方の用語の下位に当たると上位下位関係情報が示していない場合に、一方の用語と他方の用語との組み合わせにおける一方の用語に対する用語間重みを0としてもよい。
 用語間重み算出部130は、具体例として、上位下位関係辞書240を用いて用語の階層構造131を構築し、構築した階層構造131に基づいて用語間重み行列133を求める。用語間重み行列133の各要素は用語間重みである。階層構造131は、最上位の用語として仮想的な用語を有するものであってもよい。
 重み付け部140は、用語間重み算出部130が求めた用語間重みに基づいて検索文ベクトル512に重みを付与することによって重み付けベクトル513を生成する。
 重み付け部140は、ベクトル用語が含む各用語について、上位下位関係情報を参照して、ベクトル用語が含む各用語以外の用語の中に各用語の上位に当たる各他の用語が存在する場合に、検索文特徴量と用語間重みとを用いて各用語に対応する重みを求める。各用語に対応する他の用語の総数が2以上であることもある。
 重み付け部140は、ベクトル用語が含む各用語について、各用語に対応する前述の各他の用語が存在する場合に、各他の用語に対応する検索文特徴量の要素の値を、各用語と各他の用語との双方に対応する用語間重みに乗じ、乗じた結果と、各用語に対応する検索文特徴量の要素の値とを足し合わせて各用語に対応する重みを求めてもよい。
 類似度算出部150は、重み付けベクトル513と各検索文書ベクトル220とを用いて、検索文510と各検索文書210との類似度151を算出する。類似度算出部150は、具体例として、類似度151として、検索文特徴量と検索文書特徴量とのそれぞれのコサイン類似度又はベクトル間の距離を算出する。類似度算出部150がベクトル間の距離を算出する場合、類似度算出部150は各検索文書ベクトル220と重み付けベクトル513とを正規化する。
 結果編集部160は、類似度151に基づいて複数の検索文書210の検索結果を編集し、編集した検索結果を端末500に出力する。
 複数の検索文書210と、複数の検索文書ベクトル220と、同義語辞書230と、上位下位関係辞書240とのそれぞれは、記憶部が記憶する。
 図2は、本実施の形態に係る文書検索装置100のハードウェア構成例を示している。文書検索装置100は、コンピュータから成る。文書検索装置100は、複数のコンピュータから成ってもよい。
 コンピュータは、本図に示すように、プロセッサ11と、主記憶装置12と、補助記憶装置13と、入力IF(Interface)14と、出力IFと、通信IF16と等のハードウェアを備えるコンピュータである。これらのハードウェアは、信号線19を介して互いに接続されている。
 プロセッサ11は、演算処理を行うIC(Integrated Circuit)であり、かつ、コンピュータが備えるハードウェアを制御する。プロセッサ11は、具体例として、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、又はGPU(Graphics Processing Unit)である。
 文書検索装置100は、プロセッサ11を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ11の役割を分担する。
 主記憶装置12は、典型的には、揮発性の記憶装置である。主記憶装置12は、主記憶装置又はメインメモリとも呼ばれる。主記憶装置12は、具体例として、RAM(Random Access Memory)である。主記憶装置12に記憶されたデータは、必要に応じて補助記憶装置13に保存される。
 補助記憶装置13は、典型的には、不揮発性の記憶装置である。補助記憶装置13は、具体例として、ROM(Read Only Memory)、HDD(Hard Disk Drive)、又はフラッシュメモリである。補助記憶装置13に記憶されたデータは、必要に応じて主記憶装置12にロードされる。
 主記憶装置12及び補助記憶装置13は一体的に構成されていてもよい。
 入力IF14は、入力装置及び出力装置が接続されるポートである。入力IF14は、具体例として、USB(Universal Serial Bus)端子である。入力装置は、具体例として、キーボード及びマウスである。
 出力IF15は、出力装置が接続されるポートである。出力IF15は、具体例として、USB端子又はHDMI(High-Definition Multimedia Interface、登録商標)端子である。出力装置は、具体例として、ディスプレイである。
 通信IF16は、レシーバ及びトランスミッタである。通信IF16は、具体例として、通信チップ又はNIC(Network Interface Card)である。
 文書検索装置100の各部は、他の装置等と通信する際に、通信IF16を適宜用いてもよい。文書検索装置100の各部は、入力IF14を介してデータを受け付けてもよく、また、通信IF16を介してデータを受け付けてもよい。
 補助記憶装置13は、複数の検索文書210と複数の検索文書ベクトル220と同義語辞書230と上位下位関係辞書240と文書検索プログラムとを記憶している。文書検索プログラムは、文書検索装置100が備える各部の機能をコンピュータに実現させるプログラムである。文書検索プログラムは、複数のファイルから成ってもよい。文書検索プログラムは、主記憶装置12にロードされて、プロセッサ11によって実行される。文書検索装置100が備える各部の機能は、ソフトウェアにより実現される。
 文書検索プログラムを実行する際に用いられるデータと、文書検索プログラムを実行することによって得られるデータと等は、記憶装置に適宜記憶される。文書検索装置100の各部は、適宜記憶装置を利用する。記憶装置は、具体例として、主記憶装置12と、補助記憶装置13と、プロセッサ11内のレジスタと、プロセッサ11内のキャッシュメモリとの少なくとも1つから成る。なお、データと、情報とは、同等の意味を有することもある。記憶装置は、コンピュータと独立したものであってもよい。記憶部は記憶装置から成る。
 主記憶装置12及び補助記憶装置13の機能は、他の記憶装置によって実現されてもよい。
 文書検索プログラムは、コンピュータが読み取り可能な不揮発性の記録媒体に記録されていてもよい。不揮発性の記録媒体は、具体例として、光ディスク又はフラッシュメモリである。文書検索プログラムは、プログラムプロダクトとして提供されてもよい。
***動作の説明***
 文書検索装置100の動作手順は、文書検索方法に相当する。また、文書検索装置100の動作を実現するプログラムは、文書検索プログラムに相当する。
 図3は、文書検索装置100が複数の検索文書210を検索することができるようにするための動作の一例を示すフローチャートである。本図を用いて文書検索装置100の動作を説明する。
(ステップS101:起動処理)
 文書検索装置100は起動される。
(ステップS102:事前準備処理)
 ベクトル化処理部120は複数の検索文書210を用いてベクトル用語300を準備する。その後、ベクトル化処理部120は複数のベクトル化文書211を準備し、用語間重み算出部130は用語間重み行列133を準備する。複数のベクトル化文書211と用語間重み行列133とのそれぞれを準備する処理の詳細は後述する。
(ステップS103:入力待機処理)
 文書検索装置100は、検索文受付部110に検索用テキスト509が入力されるまで待機する。
 図4は、用語間重み算出部130の動作の一例を示すフローチャートである。本図を用いて用語間重み算出部130の動作を説明する。
(ステップS121:階層構造構築処理)
 用語間重み算出部130は、上位下位関係辞書240とベクトル用語300とを用いてベクトル用語300に含まれる用語についての階層構造131を構築する。
 図5は、用語間重み算出部130が、上位下位関係辞書240を用いて用語の階層構造131を構築する処理を、具体例を用いて説明する図である。本例において、上位下位関係辞書240はエレベータに関する用語の上位下位関係を定義している。用語間重み算出部130は、分野ごとに階層構造131を構築してもよい。階層構造131は上位下位関係情報でもあり、ベクトル用語300が含む用語それぞれをノードとするグラフに対応する情報でもある。意味的距離は、一方の用語に対応するノードから他方の用語に対応するノードまでの距離に応じて定まってもよい。
 本図の上部の表は上位下位関係辞書240の具体例を示している。本表に示されるように、上位下位関係辞書240は、具体例として、各上位語と、各上位語に対応する各下位語と、各上位語及び各下位語の関係性とを定義している。
 本図の下部には、用語間重み算出部130が構築する階層構造131の具体例が示されている。各用語は四角形で囲われて示されている。また、2つの用語を線で適宜接続することと、各用語の上下方向における位置を適宜ずらすことにより用語間の上位下位関係を示している。具体例として、「三方枠」は「乗場」と線で接続しており、「三方枠」の方が「乗場」よりも下に位置しているため、「三方枠」は「乗場」の下位の用語である。また、「乗場」と「カゴ」とは線で接続していないため、「乗場」と「カゴ」との間に上位下位関係はない。なお、「省エネ」は省エネルギーの略である。
(ステップS122:行列作成処理)
 用語間重み算出部130は、行を参照元用語とし、列を参照先用語とした修正前重み行列132を格納する領域を作成する。参照元用語は参照関係の起点の用語である。参照先用語は参照関係の終点の用語である。
(ステップS123:修正前重み算出処理)
 用語間重み算出部130は、階層構造131に基づいて修正前重み行列132の各要素の値を算出する。
 図6は、用語間重み算出部130が修正前重み行列132を算出する処理を、具体例を用いて説明する図である。
 本図の上部には階層構造131が示されている。
 本図の下部には修正前重み行列132が示されている。修正前重み行列132の各要素は、修正前重みであり、用語間重みでもある。用語間重みは、具体例として、一方の用語が所属する階層と、他方の用語が所属する階層との差の累積値に応じて定まる。本例において、階層の差の累積値が1つ増えるごとに用語間重みはβ(0<β<1)倍される。そのため、階層の差の累積値が増えるほど重みは小さくなる。具体例として、「三方枠」と「回生コンバータ」との階層の差の累積値は7である。そのため、「三方枠」と「回生コンバータ」とに対応する用語間重みとしてβが示されている。βの指数は、階層構造131において参照元用語から参照先用語までに経由した用語の数に1を足した値である。
(ステップS124:用語間重み修正処理)
 用語間重み算出部130は、参照元用語の下位語に参照先用語が含まれていない場合に修正前重み行列132の対応する重みの値を0にすることにより、用語間重み行列133を作成する。
 図7は、用語間重み算出部130が用語間重み行列133を算出する処理を、具体例を用いて説明する図である。
 本図の上部には階層構造131が示されている。
 本図の下部には用語間重み行列133が示されている。用語間重み算出部130は、参照先用語が参照元用語の下位である場合を除いて用語間重みを0にする。具体例として、「LED(Light Emitting Diode)」は「昇降機」の下位に当たる。そのため、参照元用語が「昇降機」であり、参照先用語が「LED」である場合における用語間重みは0ではない。また、「三方枠」と「回生コンバータ」とには上位下位関係がない。そのため、「三方枠」が参照元用語であり「回生コンバータ」が参照先用語である場合における用語間重みと、「回生コンバータ」が参照元用語であり「三方枠」が参照先用語である場合における用語間重みとは共に0である。
(ステップS125:用語間重み記憶処理)
 用語間重み算出部130は、作成した用語間重み行列133を記憶装置に保存する。
 図8は、ベクトル化処理部120が複数の検索文書210をベクトル化する処理におけるベクトル化処理部120の動作の一例を示すフローチャートである。本図を用いてベクトル化処理部120の動作を説明する。
(ステップS141:未処理判定処理)
 文書検索装置100は、まだ処理していない検索文書210が存在する場合、ステップS142に進む。それ以外の場合、文書検索装置100はステップS144に進む。
(ステップS142:ベクトル化処理)
 ベクトル化処理部120は、まだベクトル化処理部120が処理していない検索文書210を1つ選択し、選択した検索文書210をベクトルに変換してベクトル化文書211を生成する。ベクトル化処理部120は、具体例として、各検索文書210に対して形態素解析を実施することにより、各単語を要素とし、各単語の出現回数を各要素の値とする各ベクトル化文書211を生成する。
(ステップS143:同義語集約処理)
 ベクトル化処理部120は、各ベクトル化文書211の要素について、同義語である複数の単語に対応する複数の要素ごと、複数の要素を1つの要素に集約する。以下、本フローチャートの説明において、各ベクトル化文書211は同義語を集約した各ベクトル化文書211を指す。本ステップの処理の終了後、文書検索装置100はステップS141に戻る。
 なお、文書検索装置100が同義語辞書230を用いない場合、文書検索装置100は本ステップの処理を実施しない。
 図9は、ステップS142及びステップS143の処理の具体例を示している。なお、本図は後述の検索文510をベクトル化する処理の説明も含んでいる。本図に示す用語はベクトル用語300が含む用語である。本例において、ベクトル化処理部120は、BoW(Bag-of-Words)を用いて検索文510及び複数の検索文書210をベクトル化してベクトル化検索文511及び複数のベクトル化文書211それぞれを生成するものとする。検索文510が「カゴ」と「消費電力」と「三方枠」とを含み、検索文書210-1と、検索文書210-2とは本図に示す通りであるものとする。なお、“-1”及び“-2”は複数の検索文書210を区別するための表記である。このとき、ベクトル化処理部120がBoWの要素として検索文510及び複数の検索文書210に含まれる名詞を検索文510及び複数の検索文書210から抽出すると、本図の上部に示される表のようになる。
(ステップS144:出力処理)
 ベクトル化処理部120は、生成した各ベクトル化文書211を出力する。
 図10は、文書検索装置100が複数の検索文書210を検索する動作の一例を示すフローチャートである。本図を用いて文書検索装置100が複数の検索文書210を検索する動作を説明する。
(ステップS161:検索文受付処理)
 検索文受付部110は、端末500から検索用テキスト509を受け付け、受け付けた検索用テキスト509をベクトル化処理部120に渡す。
(ステップS162:ベクトル化処理)
 ベクトル化処理部120は、検索用テキスト509を検索文受付部110から受け取り、受け取った検索用テキスト509とベクトル用語300とを用いて検索文510を生成し、生成した検索文510をベクトル化してベクトル化検索文511を生成する。
(ステップS163:同義語集約処理)
 本処理はステップS143と同様の処理である。ベクトル化処理部120は、各ベクトル化文書211の代わりにベクトル化検索文511を用いる。以下、本フローチャートの説明においてベクトル化検索文511は同義語を集約したベクトル化検索文511を指す。
(ステップS164:重みベクトル算出処理)
 ベクトル化処理部120は、ベクトル化処理部120が生成した各ベクトル化文書211と、ベクトル化検索文511とを用いて、各ベクトル化文書211に対応する各検索文書ベクトル220と、検索文ベクトル512とを生成する。検索文ベクトル512と各検索文書ベクトル220とのそれぞれは、具体例として、TF-IDF(Term Frequency-Inverse Document Frequency)により求まるベクトルである。
 図11は、ベクトル化処理部120が検索文書200-1についてのTF-IDFを求める具体例を示している。本例は図9に対応する。変数xijは、文書dと単語tとについてのTF-IDFの値を示している。文書dは、各検索文書210であってもよく、検索文510であってもよい。ベクトル化処理部120は、検索文書200-1についてのTFと、検索文書210-1と検索文書210-2と検索文510とについてのIDFとを用いて検索文書200-1についてのTF-IDFの値を求める。TF-IDFにより求まるベクトルの各要素は、ベクトル用語300が含む用語それぞれの特徴を示している。また、当該ベクトルは、当該ベクトルを求める際に用いた複数の検索文書210と検索文510とに対する特徴を示す。検索文書210-1に対するTF-IDFを求めた結果は、検索文書210-1に対応する検索文書ベクトル220である。
(ステップS165:重み付けベクトル算出処理)
 重み付け部140は、用語間重み行列133を用いて、検索文ベクトル512を加工し、重み付けベクトル513を生成する。
 図12は、重み付け部140が検索文ベクトル512に用語間重みを付与する処理を、具体例を用いて説明する図である。「LED」は「カゴ」の下位に当たるため、「LED」に対応する検索文ベクトル512の要素に対して、検索文ベクトル512の「カゴ」に対応する値と、「LED」と「カゴ」とに対応する用語間重みとを掛け合わせた値を重みとして付加する。重み付け部140は、「三方枠」及び「戸」それぞれに対応する検索文ベクトル512の要素に対しても同様に重みを付加する。なお、ある用語の上位に当たる用語が複数存在する場合、重み付け部140は、当該ある用語に対応する検索文ベクトル512の要素に対して、当該ある用語の上位に当たる用語それぞれに対応する検索文ベクトル512の要素の値と、当該ある用語の上位に当たる用語それぞれに対応する用語間重みとを乗じた結果全てを足し合わせた値を重みとして付加する。
 用語間重み行列133において、参照先用語は一方の用語に当たり、参照元用語は他方の用語に当たる。具体例として、一方の用語を「LED」とし、他方の用語を「カゴ」とした場合において、一方の用語は他方の用語の下位に当たると上位下位関係情報が示す。そのため、一方の用語と他方の用語との組み合わせにおける一方の用語に対する用語間重みとしてβが求められている。また、ベクトル用語300が含む用語である「LED」について考えると、ベクトル用語300は「LED」の上位に当たる他の用語である「カゴ」を含む。重み付け部140は、当該他の用語である「カゴ」に対応する検索文特徴量の要素の値である0.33を、「LED」と「カゴ」との双方に対応する用語間重みであるβに乗じ、乗じた結果を「LED」に対応する検索文特徴量の要素の値である0.00に足し合わせて「LED」に対応する重みを求める。なお、各用語の上位に当たる用語が複数存在する場合に、各用語に対応する検索文特徴量の要素の値に対して足し合わせる要素である乗じた結果は複数存在する。
(ステップS166:正規化処理)
 類似度算出部150は、各検索文書ベクトル220と重み付けベクトル513とのそれぞれの長さが1になるよう各検索文書ベクトル220と重み付けベクトル513とを正規化する。以下、本フローチャートの説明において、各検索文書ベクトル220は正規化した各検索文書ベクトル220を指し、重み付けベクトル513は正規化した重み付けベクトル513を指す。
 図13は、類似度算出部150が重み付けベクトル513を正規化する処理を、具体例を用いて説明する図である。本図は図12におけるβを0.5とした場合に対応する。重み付けベクトル513をaとしたとき、重み付け部140はまずaの長さを求める。次に、重み付け部140はaの長さでaの各要素を割る。
(ステップS167:類似度算出処理)
 類似度算出部150は、重み付けベクトル513と各検索文書ベクトル220とを用いて、検索文510と各検索文書210との類似度151を算出する。
 図14は、類似度算出部150が類似度151としてコサイン類似度を求める処理を、具体例を用いて説明する図である。本図において重み付けベクトル513と各検索文書ベクトル220とは2次元であるが、これらベクトルの次元数は2に限られない。θは重み付けベクトル513と検索文書ベクトル220-1との類似度151を示しており、θは重み付けベクトル513と検索文書ベクトル220-2との類似度151を示している。
(ステップS168:出力処理)
 結果編集部160は、類似度151に従って検索結果を生成し、生成した検索結果を出力する。結果編集部160は、具体例として、上位N件の類似度151に対応する各検索文書210又はM以上である類似度151に対応する各検索文書210を抽出して利用者に提示する。ここで、Nは任意の自然数であり、Mは正の数である。
***実施の形態1の効果の説明***
 以上のように、本実施の形態によれば、文書検索装置100は、参照元用語の下位語に参照先用語が含まれているか否かに基づいて用語間重みを作成し、用語間重みを考慮して複数の検索文書210を検索する。そのため、本実施の形態によれば、検索文510が含むある用語に複数の上位語が存在する場合であっても、利用者が意図しない検索結果であって、当該複数の上位語それぞれに関連する検索結果を提示することを防ぐことができる。
 また、本実施の形態によれば、複数の分野において共通である上位語が検索結果に与える影響を排除することができ、分野ごとに辞書を作り分けなくてもよいため、辞書の管理が容易になる。
***他の構成***
<変形例1>
 用語間重み算出部130は、修正前重み行列132を求めずに用語間重み行列133を算出してもよい。
<変形例2>
 図15は、本変形例に係る文書検索装置100のハードウェア構成例を示している。
 文書検索装置100は、本図に示すように、プロセッサ11と主記憶装置12と補助記憶装置13との少なくとも1つに代えて、処理回路18を備える。
 処理回路18は、文書検索装置100が備える各部の少なくとも一部を実現するハードウェアである。
 処理回路18は、専用のハードウェアであってもよく、また、主記憶装置12に格納されるプログラムを実行するプロセッサであってもよい。
 処理回路18が専用のハードウェアである場合、処理回路18は、具体例として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(ASICはApplication Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)又はこれらの組み合わせである。
 文書検索装置100は、処理回路18を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路18の役割を分担する。
 文書検索装置100において、一部の機能が専用のハードウェアによって実現されて、残りの機能がソフトウェア又はファームウェアによって実現されてもよい。
 処理回路18は、具体例として、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現される。
 プロセッサ11と主記憶装置12と補助記憶装置13と処理回路18とを、総称して「プロセッシングサーキットリー」という。つまり、文書検索装置100の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。
 他の実施の形態に係る文書検索装置100についても、本変形例と同様の構成であってもよい。
 実施の形態2.
 以下、主に前述した実施の形態と異なる点について、図面を参照しながら説明する。
***構成の説明***
 図16は、本実施の形態に係る文書検索装置100の構成例を示している。文書検索装置100は、本図に示すように、実施の形態1に係る文書検索装置100が備える構成要素に加えて、文書検索部170を備える。
 文書検索部170は、既存の検索手法を用いて検索用テキスト509に対応する各検索文書210を検索する。文書検索部170は、類似度151を用いない手法により検索用テキスト509に対応する文書を複数の検索文書210から検索し、検索した結果を文書検索結果として求める。文書検索部170は、複数の検索文書210を検索する際に、検索用テキスト509を用いてもよく、検索文510を用いてもよい。文書検索部170は、具体例として、全文一致検索を用いる。
 結果編集部160は、類似度151を参照して文書検索結果を編集する。
***動作の説明***
 図17は、文書検索装置100の動作の一例を示すフローチャートである。本図を用いて文書検索部170の動作を説明する。なお、文書検索装置100は、ステップS168の処理を実施しなくてもよい。
(ステップS201:受付処理)
 文書検索部170は、ベクトル化処理部120から検索用テキスト509又は検索文510を受け付ける。
(ステップS202:検索処理)
 文書検索部170は、受け付けた検索用テキスト509又は検索文510を用いて複数の検索文書210を検索し、検索した結果を出力する。
(ステップS203:結果編集処理)
 結果編集部160は、類似度151と、文書検索部170が求めた検索結果とを統合して検索結果を生成し、生成した検索結果を出力する。結果編集部160は、具体例として、類似度151が高い検索結果を上位に提示する。
 図18は、結果編集部160の処理を、具体例を用いて説明する図である。本図を用いて結果編集部160の処理を説明する。「類似度算出手法」は実施の形態1に示す類似度151を求める手法である。「全文一致検索手法」は文書検索部170が採用する手法である。
 本図に示すように、文書検索部170は全文一致検索手法を用いて複数の検索文書210から「AAA.doc」と「CCC.pdf」とを検索し、文書検索装置100は「類似度算出手法」により各検索文書210の類似度151を算出した。「検索結果の種別」において、1は各検索文書210が文書検索部170によって検索されたことを示しており、2は各検索文書210が文書検索部170によって検索されていないことを示している。
 ここで、結果編集部160が各検索文書210を提示する順序の具体例について説明する。まず、結果編集部160は、文書検索部170によって検索された各検索文書210の表示順を、文書検索部170によって検索されなかった各検索文書210の表示順よりも上位とする。次に、結果編集部160は、文書検索部170によって検索された各検索文書210を類似度151が高い順に並べ替え、文書検索部170によって検索されなかった各検索文書210を類似度151が高い順に並べ替える。
***実施の形態2の効果の説明***
 以上のように、本実施の形態によれば、実施の形態1に示す手法を既存の検索手法と組み合わせることにより、より精度の高い検索結果を求めることができる。
 また、本実施の形態によれば、文書検索部170が全文一致検索手法を併用した場合において、検索文510が含む用語全てを含む各検索文書210に対応する類似度151が低い場合であっても、検索文510が含む用語全てを含む各検索文書210を上位に提示することができる。
***他の実施の形態***
 前述した各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
 また、実施の形態は、実施の形態1から2で示したものに限定されるものではなく、必要に応じて種々の変更が可能である。フローチャート等を用いて説明した手順は、適宜変更されてもよい。
 11 プロセッサ、12 主記憶装置、13 補助記憶装置、14 入力IF、15 出力IF、16 通信IF、18 処理回路、19 信号線、100 文書検索装置、110 検索文受付部、120 ベクトル化処理部、130 用語間重み算出部、131 階層構造、132 修正前重み行列、133 用語間重み行列、140 重み付け部、150 類似度算出部、151 類似度、160 結果編集部、170 文書検索部、210 検索文書、211 ベクトル化文書、220 検索文書ベクトル、230 同義語辞書、240 上位下位関係辞書、300 ベクトル用語、500 端末、509 検索用テキスト、510 検索文、511 ベクトル化検索文、512 検索文ベクトル、513 重み付けベクトル。

Claims (10)

  1.  複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語を含む検索文に対応する検索文書を検索する文書検索装置であって、
     前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶する記憶部と、
     前記ベクトル用語が含む各2つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出する用語間重み算出部と、
     前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める重み付け部と
    を備える文書検索装置。
  2.  前記重み付け部は、前記各用語について、前記各他の用語が存在する場合に、前記各他の用語に対応する検索文特徴量の要素の値を、前記各用語と前記各他の用語との双方に対応する用語間重みに乗じ、乗じた結果と、前記各用語に対応する検索文特徴量の要素の値とを足し合わせて前記各用語に対応する重みを求める請求項1に記載の文書検索装置。
  3.  前記重み算出部は、前記一方の用語が前記他方の用語の下位に当たると前記上位下位関係情報が示していない場合に、前記他方の用語に基づいて定まる前記一方の用語に対する用語間重みを0とする請求項1又は2に記載の文書検索装置。
  4.  前記上位下位関係情報は、前記ベクトル用語が含む用語それぞれをノードとするグラフに対応する情報であり、
     前記意味的距離は、前記一方の用語に対応するノードから前記他方の用語に対応するノードまでの距離に応じて定まる請求項1から3のいずれか1項に記載の文書検索装置。
  5.  前記文書検索装置は、さらに、
     前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた複数の検索文書特徴量それぞれと、前記検索文特徴量との類似度を算出する類似度算出部を備え、
     前記複数の検索文書と前記複数の検索文書特徴量とは1対1で対応する請求項1から4のいずれか1項に記載の文書検索装置。
  6.  前記文書検索装置は、さらに、
     前記類似度を用いない手法により前記検索文に対応する文書を前記検索文書から検索し、検索した結果を文書検索結果として求める文書検索部と、
     前記類似度を参照して前記文書検索結果を編集する結果編集部と
    を備える請求項5に記載の文書検索装置。
  7.  前記類似度算出部は、前記類似度として、前記検索文特徴量と、前記検索文書特徴量それぞれとのコサイン類似度を用いる請求項5又は6に記載の文書検索装置。
  8.  前記文書検索装置は、さらに、
     前記検索文特徴量と前記検索文書特徴量とのそれぞれを、ティーエフ-アイディーエフを用いて求めるベクトル化処理部を備える請求項5から7のいずれか1項に記載の文書検索装置。
  9.  複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語を含む検索文に対応する検索文書を検索する文書検索方法であって、
     記憶部が、前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶し、
     用語間重み算出部が、前記ベクトル用語が含む各2つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出し、
     重み付け部が、前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める文書検索方法。
  10.  複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語それぞれに対応する要素から成り、前記ベクトル用語が含む用語を含む検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶するコンピュータである文書検索装置に、前記複数の検索文書から、前記検索文に対応する検索文書を検索させる文書検索プログラムであって、
     前記ベクトル用語が含む各2つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出する用語間重み算出処理と、
     前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める重み付け処理と
    を前記文書検索装置に実行させる文書検索プログラム。
PCT/JP2021/004202 2021-02-05 2021-02-05 文書検索装置、文書検索方法、及び、文書検索プログラム WO2022168247A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2021/004202 WO2022168247A1 (ja) 2021-02-05 2021-02-05 文書検索装置、文書検索方法、及び、文書検索プログラム
JP2021538447A JPWO2022168247A1 (ja) 2021-02-05 2021-02-05
TW110126779A TW202232363A (zh) 2021-02-05 2021-07-21 文書檢索裝置、文書檢索方法、及文書檢索程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/004202 WO2022168247A1 (ja) 2021-02-05 2021-02-05 文書検索装置、文書検索方法、及び、文書検索プログラム

Publications (1)

Publication Number Publication Date
WO2022168247A1 true WO2022168247A1 (ja) 2022-08-11

Family

ID=82740982

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004202 WO2022168247A1 (ja) 2021-02-05 2021-02-05 文書検索装置、文書検索方法、及び、文書検索プログラム

Country Status (3)

Country Link
JP (1) JPWO2022168247A1 (ja)
TW (1) TW202232363A (ja)
WO (1) WO2022168247A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186203A (zh) * 2023-03-01 2023-05-30 人民网股份有限公司 文本检索方法、装置、计算设备及计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179490A (ja) * 2005-12-28 2007-07-12 Research Organization Of Information & Systems 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
US20090254543A1 (en) * 2008-04-03 2009-10-08 Ofer Ber System and method for matching search requests and relevant data

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294684B (zh) * 2012-02-24 2016-08-24 浙江易网科技股份有限公司 关联词汇搜索系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007179490A (ja) * 2005-12-28 2007-07-12 Research Organization Of Information & Systems 情報資源検索装置、情報資源検索方法及び情報資源検索プログラム
US20090254543A1 (en) * 2008-04-03 2009-10-08 Ofer Ber System and method for matching search requests and relevant data

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TAKUYA OBURE, KEIICHI NAKATA, KAZUO FURUTA: "Document retrieval using ontology", 48TH RESEARCH CONFERENCE ON THE FUNDAMENTALS OF ARTIFICIAL INTELLIGENCE (SIG-FAI48); MARCH 11-12, 2002 , no. SIG-FAI-A104, 11 March 2002 (2002-03-11) - 12 March 2002 (2002-03-12), JP, pages 79 - 84, XP009539297 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186203A (zh) * 2023-03-01 2023-05-30 人民网股份有限公司 文本检索方法、装置、计算设备及计算机存储介质
CN116186203B (zh) * 2023-03-01 2023-10-10 人民网股份有限公司 文本检索方法、装置、计算设备及计算机存储介质

Also Published As

Publication number Publication date
JPWO2022168247A1 (ja) 2022-08-11
TW202232363A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
Mallick et al. Graph-based text summarization using modified TextRank
US10360307B2 (en) Automated ontology building
US11288297B2 (en) Explicit semantic analysis-based large-scale classification
US9495358B2 (en) Cross-language text clustering
US10943064B2 (en) Tabular data compilation
US20160299975A1 (en) Concept Analysis Operations Utilizing Accelerators
US20080109399A1 (en) Document summarization
Lossio-Ventura et al. Combining c-value and keyword extraction methods for biomedical terms extraction
Vimal Kumar et al. An improvised extractive approach to hindi text summarization
Chouigui et al. An arabic multi-source news corpus: experimenting on single-document extractive summarization
US20150205860A1 (en) Information retrieval device, information retrieval method, and information retrieval program
Polepalli Ramesh et al. Figure-associated text summarization and evaluation
Alami et al. Automatic texts summarization: Current state of the art
Srinivas et al. A weighted tag similarity measure based on a collaborative weight model
Erritali et al. An Approach of Semantic Similarity Measure between Documents Based on Big Data.
Dutta et al. A graph based approach on extractive summarization
Yousef et al. TextNetTopics: text classification based word grouping as topics and topics’ scoring
Alrehamy et al. SemCluster: unsupervised automatic keyphrase extraction using affinity propagation
WO2022168247A1 (ja) 文書検索装置、文書検索方法、及び、文書検索プログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Ma et al. Document representation methods for clustering bilingual documents
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
Jain et al. An evolutionary game theory based approach for query expansion
Dash et al. Linking Tabular Columns to Unseen Ontologies
Mohd et al. Sumdoc: a unified approach for automatic text summarization

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021538447

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21924642

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21924642

Country of ref document: EP

Kind code of ref document: A1