WO2020109921A1 - 文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体 - Google Patents

文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体 Download PDF

Info

Publication number
WO2020109921A1
WO2020109921A1 PCT/IB2019/059907 IB2019059907W WO2020109921A1 WO 2020109921 A1 WO2020109921 A1 WO 2020109921A1 IB 2019059907 W IB2019059907 W IB 2019059907W WO 2020109921 A1 WO2020109921 A1 WO 2020109921A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
sentence
block
text
target
Prior art date
Application number
PCT/IB2019/059907
Other languages
English (en)
French (fr)
Inventor
岡野達也
齊藤祥子
Original Assignee
株式会社半導体エネルギー研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社半導体エネルギー研究所 filed Critical 株式会社半導体エネルギー研究所
Priority to JP2020557017A priority Critical patent/JP7499183B2/ja
Priority to CN201980076644.XA priority patent/CN113168415A/zh
Priority to US17/294,930 priority patent/US20220004570A1/en
Priority to DE112019005976.9T priority patent/DE112019005976T5/de
Priority to KR1020217016842A priority patent/KR20210095155A/ko
Publication of WO2020109921A1 publication Critical patent/WO2020109921A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Definitions

  • One aspect of the present invention relates to a document search method, a document search system, a program, and a non-transitory computer-readable storage medium.
  • the technical field of one embodiment of the present invention includes a semiconductor device, a display device, a light-emitting device, a power storage device, a storage device, an electronic device, a lighting device, an input device (e.g., a touch sensor), and an input/output device (e.g., a touch panel). ), their driving method, or those manufacturing methods can be mentioned as an example.
  • Patent Document 1 discloses a similar document search method.
  • the similar document may be entirely similar to the target document, or may have extremely high similarity in one part and extremely low similarity in another part.
  • Patent Document 1 the degree of detail is calculated as an index for determining whether a similar document is wholly similar or only partially similar to a target document.
  • some of the documents for which a high degree of similarity is calculated with respect to the target document may have some degree of similarity as a whole even though they are not actually similar. It may include documents that are calculated frequently.
  • a document having a part having an extremely high similarity may be calculated as having a low similarity for the entire document. ..
  • the latter document is preferable to the former document.
  • the specification referred to when creating a new specification is not limited to one. Therefore, it is desirable to be able to easily understand not only which specification is used to create a new specification, but which part of which specification is used as a reference and which part of a new specification is created. .. This is true not only in the description but also in all documents. However, when creating a new document, it is time-consuming and complicated to record in detail which part of which document was referred to.
  • An object of one embodiment of the present invention is to provide a document search method capable of searching a document with high accuracy. Another object of one embodiment of the present invention is to provide a document search system that can search for a document with high accuracy. Another object of one embodiment of the present invention is to realize a highly accurate document search, particularly a document search for an intellectual property, with a simple input method.
  • One aspect of the present invention is a document search method for searching a specific text block from a plurality of text blocks created by dividing each of a plurality of search target documents.
  • a document search method for searching at least one sentence block similar to the search sentence block.
  • the first search text block is one of the plurality of search text blocks.
  • a second search text block which is another part of the search document, is prepared, and at least a part of the plurality of text blocks is set as a third target, and the second search text block is set as a search condition.
  • the second relevance of each of the text blocks included in the third target with respect to the second search text block is calculated by performing a full-text search using, and based on the height of the second relevance.
  • a fourth target is determined from the third target, and a second similarity with each of the sentences included in the fourth target is calculated for each sentence included in the second search sentence block, It is preferable to search at least one text block similar to the second search text block using the second similarity.
  • the first target and the third target may be the same or different from each other.
  • One aspect of the present invention is a document search method for searching a similar text block from a plurality of text blocks created by dividing a plurality of search target documents for each of a plurality of search text blocks. Therefore, by dividing the search document, a plurality of search text blocks are created, and for each of the plurality of search text blocks, at least a part of the plurality of text blocks is used as the first target for the search.
  • the step of calculating the degree of association of each text block included in the first target with the text block for search and the degree of the degree of association Using a step of determining a second target from the first target, a step of calculating a similarity with each sentence included in the second target for each sentence included in the search text block, and using the similarity. And a step of searching for at least one text block similar to the text block for search.
  • One aspect of the present invention is a document search method for searching a specific text block from a plurality of text blocks created by dividing a plurality of search target documents, and is a part of a search document.
  • Prepare a first search sentence block perform at least a part of a plurality of sentence blocks as a first target, and perform a full-text search using each sentence included in the first search sentence block as a search condition.
  • the first relevance of each sentence included in the first target with respect to each sentence included in the first search sentence block is calculated, and for each sentence included in the first search sentence block,
  • the second target is determined from the sentences included in the first target based on the first degree of association, and the second target is determined for each sentence included in the first search sentence block.
  • the first search text block is one of the plurality of search text blocks.
  • a second search text block which is another part of the search document, is prepared, and at least a part of the plurality of text blocks is included in the second search text block as a third target.
  • a second degree of relevance of each sentence included in the third target with respect to each sentence included in the second search sentence block is calculated.
  • the fourth target is determined from the sentences included in the third target based on the second degree of relevance, and the second search text block is determined.
  • the second similarity with each of the sentences included in the fourth target is calculated, and at least a sentence block similar to the second search sentence block is calculated using the second similarity. It is preferable to search for one.
  • the first target and the third target may be the same or different from each other.
  • One aspect of the present invention is a document search method for searching a similar text block from a plurality of text blocks created by dividing a plurality of search target documents for each of a plurality of search text blocks. Therefore, by dividing the search document, a plurality of search text blocks are created, and for each of the plurality of search text blocks, at least a part of the plurality of text blocks is used as the first target for the search.
  • One aspect of the present invention is a document search system having a function of performing any of the above document search methods.
  • One aspect of the present invention is a document search system that searches for a specific text block from a plurality of text blocks created by dividing a plurality of search target documents, and has a processing unit.
  • the section includes a function of preparing a first search text block, which is one of a plurality of search text blocks created by dividing a search document, and a function of preparing at least a part of the plurality of text blocks.
  • a function of calculating a first similarity with each of the sentences included in the second target, and a function of searching at least one sentence block similar to the first search sentence block using the first similarity. Which is a document search system.
  • One aspect of the present invention is a program having a function of causing a processor to execute any one of the above document search methods.
  • One aspect of the present invention is a non-transitory computer-readable storage medium in which the program is stored.
  • the program may be supplied to the computer by various types of temporary computer-readable storage media.
  • Transitory computer readable storage media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable storage medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
  • One aspect of the present invention is a program for searching a specific text block from a plurality of text blocks created by dividing each of a plurality of search target documents, which is created by dividing a search document.
  • Performing a full-text search by using as a search condition a step of calculating a first degree of relevance of each of the sentence blocks included in the first target with respect to the first search sentence block; A step of determining a second target from the first target based on the height; and a first sentence for each sentence included in the first search sentence block and a sentence included in the second target. And a step of searching for at least one sentence block similar to the first search sentence block using the first similarity degree.
  • One aspect of the present invention is a non-transitory computer-readable storage medium in which the program is stored.
  • non-transitory computer-readable storage medium examples include volatile memory such as RAM (Random Access Memory) and non-volatile memory such as ROM (Read Only Memory).
  • volatile memory such as RAM (Random Access Memory) and non-volatile memory such as ROM (Read Only Memory).
  • ROM Read Only Memory
  • recording media drives such as hard disk drives (Hard Disc Drives: HDDs) and solid state drives (Solid State Drives: SSDs), magneto-optical disks, CD-ROMs, CD-Rs and the like can be mentioned.
  • a document search method capable of searching for similar documents for each block of a document.
  • a document search system that can search for similar documents for each block of a document can be provided.
  • a document search method that can search a document with high accuracy
  • a document search system that can search for a document with high accuracy
  • a highly accurate document search particularly a document search relating to intellectual property can be realized with a simple input method.
  • FIG. 1 is a flowchart showing an example of a document search method.
  • FIG. 2 is a diagram showing an example of processing at a pre-stage for performing a search.
  • 3A, 3B, and 3C are diagrams showing an example of a document search method.
  • 4A, 4B, and 4C are diagrams showing an example of a document search method.
  • 5A and 5B are diagrams showing an example of a document search method.
  • 6A, 6B, and 6C are diagrams showing an example of a document search method.
  • 7A, 7B, and 7C are diagrams showing an example of a document search method.
  • 8A, 8B, and 8C are diagrams showing an example of a document search method.
  • 9A and 9B are diagrams showing an example of a document search method.
  • FIG. 1 is a flowchart showing an example of a document search method.
  • FIG. 2 is a diagram showing an example of processing at a pre-stage for performing a search.
  • FIG. 10 is a flowchart showing an example of the document search method.
  • FIG. 11 is a flowchart showing an example of the document search method.
  • FIG. 12 is a diagram showing an example of a document search method.
  • FIG. 13 is a block diagram showing an example of the document search system.
  • FIG. 14 is a block diagram showing an example of a document search system.
  • One aspect of the present invention is a document search method for searching for a specific text block from among a plurality of text blocks created by dividing a plurality of search target documents.
  • a first search text block which is a part of the search document, is prepared.
  • the first search sentence block can be created by extracting a part of the search document.
  • the first search text block may be one of a plurality of search text blocks created by dividing the search document.
  • a plurality of text blocks are created in advance from a plurality of search target documents, and further, a search text block is created from a search document during a search.
  • a text block similar to the search text block can be searched. Therefore, as compared with the case where the entire search document is used as the search condition and the case where the search target is the entire document, it becomes easier to understand the correspondence relationship between similar portions.
  • each of the text blocks included in the first target is searched. , And calculates a first degree of association with the first search text block.
  • the text block (first target) to be searched can be narrowed down for each search text block, so that the processing amount can be reduced and the search speed can be increased.
  • a second target is determined from the first targets based on the first degree of association.
  • the second target is determined from the first targets and the similarity is calculated after narrowing down the target, so that the time required for document search can be shortened.
  • the degree of similarity can be calculated based on the degree of matching of the character faces of the sentences. Unlike the full-text search, the order of the words in the sentence is considered when calculating the similarity. Therefore, a sentence having a common word with the sentence included in the first search sentence block but having a different word arrangement order has a low degree of similarity.
  • the time required for the document search can be shortened.
  • the full-text search may be performed by using the sentences included in the first search-use text block as search conditions one by one.
  • the first degree of association of each sentence included in the first target with each sentence included in the first search sentence block is calculated.
  • the second target is determined from the sentences included in the first target based on the degree of the first degree of association.
  • a sentence block contains multiple sentences. Most of the sentences included in the sentence block are not similar to the sentence included in the first search sentence block. Therefore, in order to search a sentence block having a high degree of similarity with high accuracy, it is necessary to calculate the degree of similarity for many sentence blocks, and it may take a long time to calculate the degree of similarity. Further, in order to reduce the time required to calculate the degree of similarity, the number of sentence blocks that are the second target is reduced, so that there is a possibility that a sentence block including a sentence having a high degree of similarity may be dropped.
  • the first target it is preferable to narrow down the first target to the second target in sentence units, not in sentence block units. Specifically, it is preferable to search a sentence having a high degree of association for each sentence included in the first search sentence block, and narrow down the target for which the similarity is calculated for each sentence.
  • search a sentence having a high degree of association for each sentence included in the first search sentence block it is preferable to search a sentence having a high degree of association for each sentence included in the first search sentence block, and narrow down the target for which the similarity is calculated for each sentence.
  • By narrowing down the target on a sentence-by-sentence basis it is possible to suppress missing of sentences (and sentence blocks) with a high degree of similarity and shorten the time required to calculate the degree of similarity, compared to narrowing down the target on a sentence block basis. Can be planned.
  • FIG. 1 shows a flowchart of the document search method.
  • the document search method according to one aspect of the present invention has six steps, steps A1 to A6.
  • search target document TD when describing a configuration having a plurality of elements (a document, a text block, a sentence, etc.), when explaining matters common to each element, variables and alphabets are used. The description will be omitted.
  • search target document TD1 when a matter common to the search target document TD1, the search target document TD2, the search target document TDn, etc. is described, it may be referred to as the search target document TD.
  • a plurality of search target documents TD are divided to create a plurality of sentence blocks TB.
  • a plurality of documents prepared in advance are divided into blocks.
  • the input search document is also divided into blocks.
  • a text block similar to each block of the search document can be searched.
  • FIG. 2 shows an example in which n (n is an integer of 2 or more) search target documents TD are prepared.
  • the search target document TD is not particularly limited, and various documents can be used.
  • Examples of the search target document TD include documents related to intellectual property.
  • Examples of documents relating to intellectual property include the specifications used for patent applications, the scope of claims, and abstracts.
  • examples of documents related to intellectual property include publications such as patent documents (open patent publications, patent publications, etc.), utility model publications, design publications, and papers. Not limited to domestic publications, publications issued worldwide may be used as documents relating to intellectual property.
  • search target document TD various works including books, papers, reports, columns, or other sentences may be used.
  • a medical document or the like may be used as the search target document TD.
  • the language of the document is also not particularly limited, and for example, documents in Japanese, English, Chinese, Korean, etc. can be used.
  • the search target document TD1 shown in FIG. 2 is divided into x (x is an integer of 2 or more) sentence blocks (from the sentence block TB1(1) to the sentence block TB1(x)).
  • search target document TD2 is divided into y (y is an integer of 2 or more) sentence blocks (from the sentence block TB2(1) to the sentence block TB2(y)).
  • search target document TDn is divided into z (z is an integer of 2 or more) sentence blocks (from the sentence block TBn(1) to the sentence block TBn(z)).
  • a plurality of text blocks may be created by dividing the document into chapters.
  • a plurality of text blocks may be created by using all the sentences of the search target document, or a plurality of text blocks may be created by using only a necessary part of the search target document.
  • a plurality of text blocks may be created without using the “description of code”.
  • the preprocessing is performed at least once before performing the document search (before performing step A1).
  • the pretreatment may be performed multiple times depending on the application. For example, it is possible to improve search accuracy and convenience by regularly performing preprocessing and adding, updating, or deleting a search target document.
  • index file for use in full-text search using a plurality of text blocks TB.
  • full-text search can be performed in a short time.
  • the structure of the index file is not particularly limited, and can have information such as a character string, document name, sentence block name, and appearance frequency.
  • the index file may include information as to whether or not there is a translated sentence in each language of the search target document TD (or the text block TB).
  • conditions such as "there is an English translation” and "there is a Chinese translation” can be specified during the search.
  • Step A1 Creation of Multiple Search Text Blocks STB
  • a plurality of search text blocks STB are created by dividing the search document STD (FIG. 3A).
  • the search document STD is divided into w (w is an integer of 2 or more) search text blocks (search text block STB(1) to search text block STB(w)). It
  • the input search document STD is divided into a plurality of search text blocks STB, a similar document (text block TB) is searched for each search text block STB.
  • the search document STD is not particularly limited, and various documents can be used.
  • Examples of the search document STD include documents related to intellectual property before translation. As a result, a similar translated document can be searched from the search target document TD, and the translated sentence can be referred to or cited.
  • search document STD various works including books, papers, reports, columns, or sentences can be used.
  • a similar document can be searched from the search target document TD, and it can be confirmed whether or not there is a suspicion of plagiarism or plagiarism in the search document STD.
  • a medical care document can be used as the search document STD.
  • Step A2 Selection of Search Text Block STB(i)]
  • a search text block STB(i) (i is an integer of 1 or more and w or less) to be searched is selected from w search text blocks STB.
  • the search text block STB may be created by extracting necessary parts from the search document STD in step A1.
  • one search may be performed one by one (see Example 3 of the document search method) or a plurality of search may be performed in parallel (the document search method). Example 4) and the search may be performed by combining the sequential processing and the parallel processing.
  • Step A3 Calculation of Relevance to Search Text Block STB(i)]
  • the degree of association with the search text block STB(i) is calculated.
  • the full-text search is performed using the search text block STB(i) as a search condition, and the degree of association of each search target text block TB with the search text block STB(i) is calculated. ..
  • the relevance to the search text block STB(i) may be calculated for all the text blocks TB, or the relevance to the search text block STB(i) may be calculated for some of the text blocks TB. May be.
  • each embodiment of the search target document may be a search target, and the “background, problem, means, and effect” may be excluded from the search target. it can.
  • each embodiment of the “with an English translation” search target document can be the search target.
  • the sentence block TB whose degree of association is calculated is automatically selected, for example, based on the information included in the index file.
  • the text block TB for which the degree of association is calculated may be designated.
  • the first example of the document search method shows a case where the search text block STB(i) is used as one search condition for the full text search.
  • each sentence included in the search sentence block STB(i) may be used as a search condition for the full-text search (see Example 2 of document search method). That is, the number of search conditions may be the same as the number of sentences included in the search text block STB(i).
  • the full-text search method is not particularly limited, and sequential search, index search, etc. can be used.
  • the index search is preferable because the search speed does not easily decrease even when there are many text blocks TB to be searched.
  • the text block TB to be searched is scanned in advance and an index file that enables high-speed search is prepared.
  • N-gram is preferable to morphological analysis because it is more advantageous for exact match search and technical terms, new words, abbreviations, etc. are less likely to cause problems.
  • TF-IDF Term Frequency-Inverse Document Frequency
  • the TF value represents the frequency of appearance of each word in a certain text block
  • the IDF value represents the degree of occurrence of words concentrated in some text blocks. The more a word appears in one sentence block, the higher the TF value of the word in the sentence block.
  • the IDF values of words that appear in many text blocks are small, and the IDF values of words that appear only in some text blocks are high.
  • the calculation of the degree of association is not limited to the method using TF-IDF.
  • full-text search can be performed using Apache Lucene, which is an open source search engine library.
  • FIG. 3B shows an example of calculating the degree of association with the search text block STB(1). Also, an example is shown in which the first target 110(1) that is the search target is the first sentence block TB(1) included in each search target document TD.
  • Step A4 Determine Second Target 120(i) from First Target 110(i)]
  • the second target 120(i) is determined from the first target 110(i) based on the degree of association.
  • the number of sentence blocks TB included in the second target 120(i) is not particularly limited.
  • the second target 120(i) is a target whose similarity is calculated in the next step.
  • the time required for the process of calculating the similarity tends to be longer than that of the full-text search.
  • the sentence block TB having a high degree of relevance to the search sentence block STB(i) can be grasped.
  • FIG. 3C shows an example in which the top 10 text blocks TB having a high degree of association with the search text block STB(1) are used as the second target 120(1).
  • the sentence block TB4(1) is ranked first (Rank 1)
  • the sentence block TB1(1) is ranked second (Rank 2)
  • the sentence block TB9(1) is ranked 10th (Rank 10). Is shown.
  • Step A5 Calculation of Similarity to Search Text Block STB(i)
  • the degree of similarity to the search text block STB(i) is calculated. Specifically, for each sentence included in the search sentence block STB(i), the degree of similarity with each sentence included in the second target 120(i) is calculated.
  • the degree of similarity between sentences is obtained. Specifically, it is preferable to calculate the degree of similarity on the basis of the degree of matching of the character faces of the sentences.
  • the degree of similarity can be calculated using diff, which is an algorithm for obtaining the difference between documents.
  • the degree of similarity between the first sentence STS1 of the search sentence block STB(1) and each sentence included in the second target 120(1) is calculated.
  • the similarity between the second sentence STS2 of the search sentence block STB(1) and each sentence included in the second target 120(1) is calculated.
  • the degree of similarity between each sentence of the search sentence block STB(1) and each sentence included in the second target 120(1) is calculated.
  • FIG. 4C shows an example in which p is an integer of 3 or more.
  • the similarity calculation for a plurality of sentences in the search text block STB(1) may be performed in parallel.
  • the process shown in FIG. 4A, the process shown in FIG. 4B, and the process shown in FIG. 4C may all be performed in parallel.
  • a sentence block TB similar to the search sentence block STB(1) can be obtained by using the calculated similarity.
  • each text block TB the sum of the similarities of the sentences having the highest similarity to each sentence of the search text block STB(1) is calculated, and the sum is calculated for the sentences of the search text block STB(1).
  • the standardized similarity of the sentence block TB with respect to the search sentence block STB(1) can be obtained.
  • the sentence having the highest similarity to the first sentence STS1 of the search sentence block STB(1) is the first sentence S1 (the similarity is 1)
  • the sentence with the highest similarity to the second sentence STS2 is the second sentence S2 (similarity is 0.9)
  • the sentence with the highest similarity to the last sentence STSp is the third sentence S3( The degree of similarity is 0.5).
  • a value that is equal to or higher than a threshold value among the degrees of similarity between sentences because the accuracy of search can be improved.
  • a threshold value 0.8
  • the sentence S3 having the highest similarity to the last sentence STSp has a similarity of 0.5, and thus the sum of the similarities. Will not be used (calculated as 0).
  • Step A6 Result output
  • FIG. 5B is an example in which sentence blocks TB (Block) are arranged in descending order of standardized similarity.
  • the normalized similarity is expressed as a percentage is shown as Score.
  • step A3 the order of sentences and words is not considered, and thus the calculated degree of association is different from the degree of similarity.
  • the ten sentence blocks TB determined as the second target 120(1) in step A4 are highly similar to the search sentence block STB(1). They can be arranged in order (Fig. 5B).
  • a similar document (text block TB) is searched for the search text block STB.
  • the time required for the document search can be shortened.
  • Step A3 Calculation of Relevance to Search Text Block STB(i)
  • step A3 in Example 2 of the document search method full text search is performed using each sentence included in the search text block STB(i) as a search condition.
  • the degree of relevance of each sentence included in the search target with respect to each sentence included in the search sentence block STB(i) is calculated.
  • the degree of association with each sentence included in the search text block STB(i) may be calculated, and for some text blocks TB, the search text block STB(i) may be calculated.
  • the degree of association for each included sentence may be calculated.
  • the processing amount can be reduced and the time required for the document search can be shortened.
  • Example 1 of the document search method As the full-text search method and the method of calculating the degree of relevance, the same method as in Example 1 of the document search method can be used.
  • each sentence included in the first target 110(1) is searched.
  • the sentence included in the first target 110(1) refers to a sentence forming a plurality of sentence blocks TB included in the first target 110(1).
  • a full-text search is performed by using the second sentence STS2 of the search text block STB(1) as a search condition, so that each of the objects included in the first target 110(1) is searched.
  • the degree of association of the sentence with the second sentence STS2 is calculated.
  • the degree of association of each sentence in the search sentence block STB(1) is calculated.
  • the degree of relevance is calculated up to the last sentence STSp (p is an integer of 2 or more) of the search sentence block STB(1), so that it is included in the first target 110(1).
  • the degree of relevance of the sentence to be included in each sentence included in the search sentence block STB(1) is calculated. Note that FIG. 6C shows an example in which p is an integer of 3 or more.
  • the full-text search using each sentence of the search text block STB(1) as a search condition may be performed in parallel.
  • the process shown in FIG. 6A, the process shown in FIG. 6B, and the process shown in FIG. 6C may all be performed in parallel.
  • Step A4 Determine Second Target 120(i) from First Target 110(i)]
  • the second target 120(i) is selected from the sentences included in the first target 110(i) based on the degree of relevance. To decide.
  • the number of sentences included in the second target 120(i) is not particularly limited.
  • the second target 120(i) is a target whose similarity is calculated in the next step.
  • the time required for the process of calculating the similarity tends to be longer than that of the full-text search.
  • step A3 by sorting the results of the full-text search in step A3 in descending order of relevance, sentences with high relevance to each sentence included in the search text block STB(i) can be grasped.
  • FIG. 7A shows an example in which the top 300 sentences having a high degree of association with the first sentence STS1 of the search sentence block STB(1) are used as the second target 120(1) (STS1).
  • the first sentence TB4(1)_S1 of the sentence block TB4(1) is ranked first (Rank 1)
  • the first sentence TB3(1)_S1 of the sentence block TB3(1) is The case is shown where the second sentence (Rank 2) and the sixth sentence TB6(1)_S6 of the sentence block TB6(1) are the 300th (Rank 300).
  • FIG. 7B shows an example in which the top 300 sentences having a high degree of association with the second sentence STS2 of the search sentence block STB(1) are used as the second target 120(1) (STS2).
  • the second sentence TB1(1)_S2 of the sentence block TB1(1) is ranked first (Rank 1)
  • the second sentence TB3(1)_S2 of the sentence block TB3(1) is The case where the second sentence (Rank 2) and the eighth sentence TB62(1)_S8 of the sentence block TB62(1) are 300th (Rank 300) are shown.
  • the second target 120(1) (STSp) is determined as the top 300 sentences with high relevance to the last sentence STSp of the search sentence block STB(1).
  • the ninth sentence TB2(1)_S9 of the sentence block TB2(1) is ranked first (Rank 1)
  • the eighth sentence TB6(1)_S8 of the sentence block TB6(1) is The second case (Rank 2) and the case where the 12th sentence TB7(1)_S12 of the sentence block TB7(1) is 300th (Rank 300) are shown.
  • the second target 120(1) is determined for each of all the sentences included in the search sentence block STB(1).
  • the second target 120 is selected from the sentences included in the first target 110(i) based on the degree of relevance. Determine (i).
  • Step A5 Calculation of Similarity to Search Text Block STB(i)
  • the degree of similarity to the search text block STB(i) is calculated. Specifically, for each sentence included in the search sentence block STB(i), the degree of similarity with each sentence included in the second target 120(i) is calculated.
  • the same method as in the first example of the document search method can be used.
  • the degree of similarity between the first sentence STS1 of the search sentence block STB(1) and each sentence included in the second target 120(1) (STS1) is calculated.
  • the similarity between the second sentence STS2 of the search sentence block STB(1) and each sentence included in the second target 120(1) is calculated. ..
  • the degree of similarity between each sentence of the search sentence block STB(1) and each sentence included in the second target 120(1) is calculated.
  • the similarity is calculated up to the last sentence STSp of the search text block STB(1), and the second sentence is calculated for all the sentences included in the search text block STB(1).
  • the degree of similarity with each sentence included in the target 120(1) is calculated.
  • the similarity calculation for a plurality of sentences in the search text block STB(1) may be performed in parallel.
  • the process shown in FIG. 8A, the process shown in FIG. 8B, and the process shown in FIG. 8C may all be performed in parallel.
  • a sentence block TB similar to the search sentence block STB(1) can be obtained by using the calculated similarity.
  • each text block TB the sum of the similarities of the sentences having the highest similarity to each sentence of the search text block STB(1) is calculated, and the sum is calculated for the sentences of the search text block STB(1).
  • the standardized similarity of the sentence block TB with respect to the search sentence block STB(1) can be obtained.
  • the sentence having the highest similarity to the first sentence STS1 of the search sentence block STB(1) is the first sentence S1 (the similarity is 1)
  • the sentence having the highest similarity to the second sentence STS2 is the second sentence S2 (the similarity is 0.90).
  • the highest similarity to each of the p sentences is added and divided by the number of sentences p to obtain the standardized similarity of the sentence block TB4(1) to the search sentence block STB(1).
  • the 26th sentence S26 also has a high similarity (similarity 0.80) to the first sentence STS1 of the search sentence block STB(1), but Since it is lower than the sentence S1 of S1, the similarity value of S26 is not used.
  • the sentence having the highest similarity to the first sentence STS1 of the search sentence block STB(1) is the second sentence S2 (similarity is 0.70).
  • the sentence having the highest similarity to the second sentence STS2 is the first sentence S1 (similarity is 0.60)
  • the third sentence is the sentence having the highest similarity to the last sentence STSp. S3 (similarity is 0.60).
  • the similarity values of these three sentences are used to calculate the highest sum of similarities for each of the p sentences.
  • the threshold value is 0.8
  • the similarity value of these three sentences is less than the threshold value, and therefore is not used when the sum of the similarity degrees is calculated (assumed to be 0).
  • Step A6 Result output
  • FIG. 9B is an example in which sentence blocks TB are arranged in order of increasing standardized similarity.
  • the normalized similarity is expressed as a percentage is shown as Score.
  • Example 2 of the document search method a sentence to be the second target 120(i) is determined from the first target 110(i) for each sentence included in the search text block STB(i). Therefore, among the sentences included in the sentence block TB, only the sentence that is highly related to the sentence included in the search sentence block STB(i) is similar to the sentence included in the search sentence block STB(i). Can be calculated.
  • By narrowing down the target on a sentence-by-sentence basis it is possible to suppress missed sentences (and sentence blocks) with a high degree of similarity and reduce the time required to calculate the similarity, as compared to narrowing down the target on a sentence block basis. You can In addition, it is possible to prevent the degree of similarity of sentence blocks TB that are not actually similar from increasing.
  • the sentence blocks TB7(1), TB3(1), and TB6(1) that did not reach the top 10 in the example 1 of the document search method are ranked in the top 10. It is possible that it will be ranked (Fig. 9B).
  • Example 2 of the document search method has a portion having extremely high similarity (for example, a complete match sentence) even though the remaining portion has extremely low similarity. It is possible to calculate a high degree of block similarity.
  • Example 3 of document search method a method of sequentially searching for similar text blocks among a plurality of search text blocks STB will be described. It should be noted that in the third example of the document search method, an example is shown in which similar sentence blocks are searched for in all the search sentence blocks STB, but the present invention is not limited to this, and similar sentences are found in some search sentence blocks STB. You may search for blocks.
  • FIG. 10 shows a flowchart of the document search method.
  • Step B1 Creation of Multiple Search Text Blocks STB(1) to STB(w)
  • a plurality of search text blocks STB are created by dividing the search document STD.
  • w is an integer of 2 or more
  • search text blocks search text block STB(1) to search text block STB(w)
  • Step B1 can be performed in the same manner as step A1 shown in FIG. 3A.
  • a search text block STB(i) (i is an integer of 1 or more and w or less) to be searched is selected from w search text blocks STB.
  • search text blocks STB the order of searching for similar text blocks is not particularly limited.
  • Step B3 Calculation of Relevance to Search Text Block STB(i)]
  • the degree of association with the search text block STB(i) is calculated.
  • the first step B3 can be performed in the same manner as step A3 shown in FIG. 3B.
  • Step B4 Determine Second Target 120(i) from First Target 110(i)]
  • the second target 120(i) is determined from the first target 110(i) based on the degree of association.
  • the first step B4 can be performed in the same manner as step A4 shown in FIG. 3C.
  • Step B5 Calculation of Similarity to Search Text Block STB(i)
  • the degree of similarity to the search text block STB(i) is calculated. Specifically, for each sentence included in the search sentence block STB(i), the degree of similarity with each sentence included in the second target 120(i) is calculated.
  • the first step B5 can be performed in the same manner as step A5 shown in FIGS. 4A to 4C and 5A.
  • the above processing from step B3 to step B5 is sequentially performed for all the search text blocks STB. If there is a search text block STB for which the degree of similarity has not been calculated, the process returns to step B3 via step B7. When the similarity is calculated for all the search text blocks STB, the process proceeds to step B8.
  • 1 is added to i as step B7. That is, the second steps B3 to B5 are performed on the search text block STB(2). In this way, steps B3 to B5 are repeated until the similarity is calculated for the search text block STB(w).
  • Step B8 Output result
  • FIG. 12 shows an example in which the text blocks TB are arranged in descending order of standardized similarity for each search text block STB. Further, like Score shown in FIG. 5B, a value indicating the high degree of similarity may be output.
  • Example 4 of document search method shows an example in which similar sentence blocks are searched for in all the search sentence blocks STB, the present invention is not limited to this, and a similar sentence is found in some search sentence blocks STB. You may search for blocks.
  • FIG. 11 shows a flowchart of the document search method.
  • Step C1 Creation of Search Text Blocks STB
  • a plurality of search text blocks STB are created by dividing the search document STD.
  • w is an integer of 2 or more
  • search text blocks search text block STB(1) to search text block STB(w)
  • Step C1 can be performed in the same manner as step A1 shown in FIG. 3A.
  • steps C2 to C5 can be performed in parallel for two or more search text blocks STB.
  • Example 4 of the text search method an example of performing w search text blocks STB in parallel is shown.
  • a search text block STB(i) (i is an integer of 1 or more and w or less) to be searched is selected from w search text blocks STB.
  • the degree of association with the search text block STB(i) is calculated.
  • step C3(1) shown in FIG. 11 the degree of association with the search text block STB(1) is calculated.
  • Step C3(1) can be performed in the same manner as step A3 shown in FIG. 3B.
  • step C3(2) performed in parallel with step C3(1), the degree of association with the search text block STB(2) is calculated, and in step C3(w), the association with the search text block STB(w) is calculated. Calculate the degree.
  • Step C4(i) Determine Second Target 120(i) from First Target 110(i)]
  • the second target 120(i) is determined from the first target 110(i) based on the degree of association.
  • step C4(1) shown in FIG. 11 the second target 120(1) is determined from the first targets 110(1) based on the degree of association.
  • Step C4(1) can be performed in the same manner as step A4 shown in FIG. 3C.
  • Step C4(2) performed in parallel with Step C4(1), the second object 120(2) is determined from the first objects 110(2) based on the degree of association, In Step C4(w), the second target 120(w) is determined from the first targets 110(w) based on the degree of association.
  • Step C5 Calculation of Similarity to Search Text Block STB(i)
  • the degree of similarity to the search text block STB(i) is calculated. Specifically, for each sentence included in the search sentence block STB(i), the degree of similarity with each sentence included in the second target 120(i) is calculated.
  • step C5(1) shown in FIG. 11 the similarity with respect to the search text block STB(1) is calculated.
  • Step C5(1) can be performed in the same manner as step A5 shown in FIGS. 4A to 4C and 5A.
  • step C5(2) performed in parallel with step C5(1), the similarity to the search text block STB(2) is calculated, and in step C4(w), similarity to the search text block STB(w) is calculated. Calculate the degree.
  • Step C6 Output Result
  • FIG. 12 shows an example in which the text blocks TB are arranged in descending order of standardized similarity for each search text block STB. Note that a value indicating the high degree of similarity may be output as in Score shown in FIG. 5B.
  • the description part of the search target document that is similar to the specific part of the search document can be accurately determined. You can search. As a result, it becomes easier to understand the correspondence relationship between similar portions than when the entire search document is used as the search condition or when the search target is the entire document.
  • the full-text search result is used to narrow down the targets for which the similarity is calculated for the search text block. As a result, the time required for document search can be shortened.
  • the document search system can search for a document using the document search method described in the first embodiment. Specifically, a document block prepared in advance can be searched for a document (sentence block) similar to the input search document (search sentence block thereof).
  • FIG. 13 shows a block diagram of the document search system 100.
  • the constituent elements are classified by function and the block diagram is shown as an independent block from each other, but it is difficult to completely separate actual constituent elements by function. It is possible that a component is responsible for more than one function. Further, one function may be related to a plurality of constituent elements, and for example, the processing performed by the processing unit 103 may be executed by different servers depending on the processing.
  • the document search system 100 has at least a processing unit 103.
  • the document search system 100 shown in FIG. 13 further includes an input unit 101, a transmission path 102, a storage unit 105, a database 107, and an output unit 109.
  • the search document STD is supplied to the input unit 101 from outside the document search system 100.
  • the search document STD supplied to the input unit 101 is supplied to the processing unit 103, the storage unit 105, or the database 107 via the transmission path 102.
  • the transmission path 102 has a function of transmitting various data. Data transmission/reception among the input unit 101, the processing unit 103, the storage unit 105, the database 107, and the output unit 109 can be performed via the transmission path 102. For example, data such as the search document STD, the search text block STB, the search target document TD, and the text block TB is transmitted/received via the transmission path 102.
  • the processing unit 103 has a function of performing an operation using data supplied from the input unit 101, the storage unit 105, the database 107, and the like.
  • the processing unit 103 can supply the calculation result to the storage unit 105, the database 107, the output unit 109, and the like.
  • a transistor including a metal oxide in a channel formation region is preferably used. Since the off-state current of the transistor is extremely low, the data holding period can be secured for a long time by using the transistor as a switch for holding charge (data) flowing into the capacitor functioning as a memory element. ..
  • the processing unit 103 is operated only when necessary, and in other cases, the information of the immediately preceding processing is saved in the storage element. As a result, the processing unit 103 can be turned off. That is, normally-off computing becomes possible, and the power consumption of the document retrieval system can be reduced.
  • a transistor including an oxide semiconductor or a metal oxide in a channel formation region is referred to as an Oxide Semiconductor transistor or an OS transistor.
  • the channel formation region of the OS transistor preferably contains a metal oxide.
  • the metal oxide is a metal oxide in a broad sense. Metal oxides are classified into oxide insulators, oxide conductors (including transparent oxide conductors), oxide semiconductors (also referred to as Oxide Semiconductor or simply OS), and the like. For example, when a metal oxide is used for a semiconductor layer of a transistor, the metal oxide may be referred to as an oxide semiconductor. That is, when the metal oxide has at least one of an amplification action, a rectification action, and a switching action, the metal oxide can be referred to as a metal oxide semiconductor, which is abbreviated as OS.
  • the metal oxide included in the channel formation region preferably contains indium (In).
  • the carrier mobility (electron mobility) of the OS transistor is high.
  • the metal oxide included in the channel formation region is preferably an oxide semiconductor containing the element M.
  • the element M is preferably aluminum (Al), gallium (Ga), or tin (Sn).
  • Other elements applicable to the element M include boron (B), silicon (Si), titanium (Ti), iron (Fe), nickel (Ni), germanium (Ge), yttrium (Y), zirconium (Zr).
  • the element M is, for example, an element having a high binding energy with oxygen.
  • it is an element having a binding energy with oxygen higher than that of indium.
  • the metal oxide included in the channel formation region preferably contains zinc (Zn). Metal oxide containing zinc may be easily crystallized.
  • the metal oxide included in the channel formation region is not limited to the metal oxide containing indium.
  • the semiconductor layer may be, for example, a metal oxide containing zinc, a metal oxide containing zinc, a metal oxide containing gallium, a metal oxide containing tin, or the like, which does not contain indium, such as zinc tin oxide or gallium tin oxide.
  • a transistor including silicon in a channel formation region may be used.
  • a transistor including an oxide semiconductor in a channel formation region and a transistor including silicon in a channel formation region in combination in the treatment portion 103 it is preferable to use a transistor including an oxide semiconductor in a channel formation region and a transistor including silicon in a channel formation region in combination in the treatment portion 103.
  • the processing unit 103 has, for example, an arithmetic circuit or a central processing unit (CPU: Central Processing Unit).
  • CPU Central Processing Unit
  • the processing unit 103 may include a microprocessor such as a DSP (Digital Signal Processor) and a GPU (Graphics Processing Unit).
  • the microprocessor may have a configuration realized by PLD (Programmable Logic Device) such as FPGA (Field Programmable Gate Array) and FPAA (Field Programmable Analog Array).
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • FPAA Field Programmable Analog Array
  • the processing unit 103 can perform various data processing and program control by interpreting and executing instructions from various programs by the processor.
  • the program that can be executed by the processor is stored in at least one of the memory area of the processor and the storage unit 105.
  • the processing unit 103 may have a main memory.
  • the main memory has at least one of a volatile memory such as a RAM and a non-volatile memory such as a ROM.
  • RAM for example, DRAM (Dynamic Random Access Memory), SRAM (Static Random Access Memory), or the like is used, and a memory space is virtually allocated and used as a work space of the processing unit 103.
  • the operating system, application programs, program modules, program data, lookup tables, etc. stored in the storage unit 105 are loaded into the RAM for execution. These data, programs, and program modules loaded in the RAM are directly accessed and operated by the processing unit 103, respectively.
  • the ROM can store BIOS (Basic Input/Output System) and firmware that do not require rewriting.
  • BIOS Basic Input/Output System
  • Examples of the ROM include a mask ROM, an OTPROM (One Time Programmable Read Only Memory), and an EPROM (Erasable Programmable Read Only Memory).
  • an EPROM Erasable Programmable Read Only Memory
  • a UV-EPROM Ultra-Violet Erasable Programmable Read Only Memory
  • EEPROM Electrical Erasable Programmable Memory
  • the storage unit 105 has a function of storing a program executed by the processing unit 103.
  • the storage unit 105 may also have a function of storing the calculation result generated by the processing unit 103, the data input to the input unit 101, and the like.
  • the storage unit 105 has at least one of a volatile memory and a non-volatile memory.
  • the storage unit 105 may include, for example, a volatile memory such as DRAM or SRAM.
  • the storage unit 105 includes, for example, ReRAM (Resistive Random Access Memory, also referred to as resistance change type memory), PRAM (Phase change Random Memory Memory), FeRAM (Ferroelectric Random Memory), and FeRAM (Ferroelectric Random Memory). (Also referred to as ”) or a non-volatile memory such as a flash memory.
  • the storage unit 105 may have a recording media drive such as a hard disk drive (Hard Disc Drive: HDD) and a solid state drive (Solid State Drive: SSD).
  • the database 107 has at least a function of storing data such as the search target document TD and the sentence block TB. Further, the database 107 may have a function of storing the calculation result generated by the processing unit 103, the data input to the input unit 101, and the like. The storage unit 105 and the database 107 do not have to be separated from each other.
  • the document search system may include a storage unit having the functions of both the storage unit 105 and the database 107.
  • processing unit 103 the storage unit 105, and the memory included in the database 107 can each be an example of a non-transitory computer-readable storage medium.
  • the output unit 109 has a function of supplying data to the outside of the document search system 100.
  • the calculation result in the processing unit 103 can be supplied to the outside.
  • FIG. 14 shows a block diagram of the document search system 150.
  • the document search system 150 includes a server 151 and a terminal 152 (personal computer or the like).
  • the server 151 has a communication unit 161a, a transmission line 162, a processing unit 163a, and a database 167. Although not shown in FIG. 14, the server 151 may further include a storage unit, an input/output unit, and the like.
  • the terminal 152 has a communication unit 161b, a transmission path 168, a processing unit 163b, a storage unit 165, and an input/output unit 169. Although not shown in FIG. 14, the terminal 152 may further include a database and the like.
  • the user of the document search system 150 inputs the search document STD into the server 151 from the terminal 152.
  • the search document STD is transmitted from the communication unit 161b to the communication unit 161a.
  • the search document STD received by the communication unit 161a is stored in the database 167 or a storage unit (not shown) via the transmission path 162. Alternatively, the search document STD may be directly supplied from the communication unit 161a to the processing unit 163a.
  • the processing unit 163a included in the server 151 has a higher processing capacity than the processing unit 163b included in the terminal 152. Therefore, each of these processes is preferably performed by the processing unit 163a.
  • the processing unit 163a generates a search result.
  • the search result is stored in the database 167 or a storage unit (not shown) via the transmission path 162.
  • the search result may be directly supplied from the processing unit 163a to the communication unit 161a.
  • the search result is output from the server 151 to the terminal 152.
  • the search result is transmitted from the communication unit 161a to the communication unit 161b.
  • Input/output unit 169 Data is supplied to the input/output unit 169 from outside the document search system 150.
  • the input/output unit 169 has a function of supplying data to the outside of the document search system 150.
  • the input unit and the output unit may be separated as in the document search system 100.
  • Transmission line 162 and transmission line 168 have a function of transmitting data.
  • Data transmission/reception among the communication unit 161a, the processing unit 163a, and the database 167 can be performed via the transmission path 162.
  • Data transmission/reception among the communication unit 161b, the processing unit 163b, the storage unit 165, and the input/output unit 169 can be performed via the transmission path 168.
  • the processing unit 163a has a function of performing an operation using the data supplied from the communication unit 161a, the database 167, and the like.
  • the processing unit 163b has a function of performing calculation using data supplied from the communication unit 161b, the storage unit 165, the input/output unit 169, and the like.
  • the description of the processing unit 103 can be referred to.
  • the processing unit 163a preferably has a higher processing capacity than the processing unit 163b.
  • the storage unit 165 has a function of storing a program executed by the processing unit 163b. Further, the storage unit 165 has a function of storing the calculation result generated by the processing unit 163b, the data input to the communication unit 161b, the data input to the input/output unit 169, and the like.
  • the database 167 has a function of storing the search target document TD and the sentence block TB. Further, the database 167 may have a function of storing the calculation result generated by the processing unit 163a, the data input to the communication unit 161a, and the like. Alternatively, the server 151 has a storage unit separately from the database 167, and the storage unit has a function of storing the calculation result generated by the processing unit 163a, the data input to the communication unit 161a, and the like. Good.
  • Communication unit 161a and communication unit 161b Data can be transmitted and received between the server 151 and the terminal 152 by using the communication unit 161a and the communication unit 161b.
  • a hub, a router, a modem, or the like can be used as the communication unit 161a and the communication unit 161b.
  • Data may be transmitted and received by wire or wirelessly (for example, radio waves, infrared rays, etc.).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書のブロックごとに、類似する文書を検索する。高い精度で文書を検索する。 複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文 章ブロックを検索する。検索用文書の一部である、第1の検索用文章ブロックを準備し、複数の文 章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックを検索条件に用 いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、第1の検索用文章ブ ロックに対する第1の関連度を算出し、第1の関連度の高さに基づいて、第1の対象の中から第2 の対象を決定し、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞ れとの第1の類似度を算出し、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章 ブロックを少なくとも1つ検索する。

Description

文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体
本発明の一態様は、文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体に関する。
なお、本発明の一態様は、上記の技術分野に限定されない。本発明の一態様の技術分野としては、半導体装置、表示装置、発光装置、蓄電装置、記憶装置、電子機器、照明装置、入力装置(例えば、タッチセンサなど)、入出力装置(例えば、タッチパネルなど)、それらの駆動方法、又はそれらの製造方法を一例として挙げることができる。
大量の文書の中から、目的の文書を効率良く検索する文書検索技術が盛んに開発されている。例えば、特許文献1には、類似文書検索方法が開示されている。
類似文書は、目的の文書に対して全体的に類似している場合も、ある部分で類似性が極端に高く、他の部分は類似性が極めて低い場合もある。
特許文献1では、目的の文書に対して、類似文書が、全体的に類似しているのか、一部のみ類似しているのか、を判断するための指標として、詳細度を算出している。
特開2004−295712号公報
特許出願業務において、新しい明細書(後願の明細書)を作成する際に、自社で過去に作成された明細書(先願の明細書)の記載を参考にする、または引用することがある。ここで、先願の明細書の翻訳文が作成済みであれば、後願の明細書の翻訳文を作成する際に、先願の明細書の翻訳文を参考にする、または引用することができ、後願の明細書の翻訳にかかる時間を短縮することができる。
類似文書の検索方法によっては、目的の文書に対して高い類似度が算出される文書の中に、実際は類似していなくても、全体的にある程度の類似度を有するために、文書全体の類似度が高く算出される文書が含まれることがある。一方、残りの部分の類似性が極めて低くても、類似性が極端に高い部分を有する(例えば、完全一致の文章を含む)文書は、文書全体の類似度が低く算出されてしまうことがある。例えば、翻訳文を参考にする、または引用するためには、前者の文書よりも、後者の文書の方が、好ましい。
また、文章を1文ずつ検索することで、完全一致の文章を見つけることもできるが、文章の流れが切れてしまうことや、明細書によって訳語が統一されていないことがある。したがって、章ごとなど、複数の文を含む文章単位で、類似箇所を把握できることが望ましい。
また、新しい明細書を作成する際に参考にする明細書は、一つとは限らない。したがって、どの明細書を参考にして新しい明細書を作成したか、だけでなく、どの明細書のどの部分を参考にして、新しい明細書のどの部分を作成したか、を容易に把握できることが望ましい。そして、これは明細書に限らず、あらゆる文書に共通していえることである。しかし、新しい文書を作成する際、どの文書のどの部分を参考にしたか、詳細に記録することは、手間がかかり、煩雑な作業である。
本発明の一態様は、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供することを課題の一つとする。または、本発明の一態様は、文書のブロックごとに、類似する文書を検索できる文書検索システムを提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法で、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供することを課題の一つとする。
本発明の一態様は、高い精度で文書を検索できる文書検索方法を提供することを課題の一つとする。または、本発明の一態様は、高い精度で文書を検索できる文書検索システムを提供することを課題の一つとする。または、本発明の一態様は、簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現することを課題の一つとする。
なお、これらの課題の記載は、他の課題の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの課題の全てを解決する必要はないものとする。明細書、図面、請求項の記載から、これら以外の課題を抽出することが可能である。
本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であって、検索用文書の一部である、第1の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、第1の検索用文章ブロックに対する第1の関連度を算出し、第1の関連度の高さに基づいて、第1の対象の中から第2の対象を決定し、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの第1の類似度を算出し、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法である。
検索用文書を分割することで、複数の検索用文章ブロックを作成することが好ましい。このとき、第1の検索用文章ブロックは、複数の検索用文章ブロックの一つであることが好ましい。
さらに、検索用文書の他の一部である、第2の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第3の対象として、第2の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第3の対象に含まれる文章ブロックそれぞれの、第2の検索用文章ブロックに対する第2の関連度を算出し、第2の関連度の高さに基づいて、第3の対象の中から第4の対象を決定し、第2の検索用文章ブロックに含まれる文ごとに、第4の対象に含まれる文それぞれとの第2の類似度を算出し、第2の類似度を用いて、第2の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索することが好ましい。このとき、第1の対象と第3の対象とは、同一であってもよく、互いに異なっていてもよい。
第1の類似度のうち閾値以上の値を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索することが好ましい。
本発明の一態様は、複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、検索用文書を分割することで、複数の検索用文章ブロックを作成し、複数の検索用文章ブロックのそれぞれについて、複数の文章ブロックのうち少なくとも一部を第1の対象として、検索用文章ブロックを検索条件に用いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、検索用文章ブロックに対する関連度を算出するステップと、関連度の高さに基づいて、第1の対象の中から第2の対象を決定するステップと、検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの類似度を算出するステップと、類似度を用いて、検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索するステップと、を行う、文書検索方法である。
本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であり、検索用文書の一部である、第1の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、第1の対象に含まれる文それぞれの、第1の検索用文章ブロックに含まれる各文に対する第1の関連度を算出し、第1の検索用文章ブロックに含まれる文ごとに、第1の関連度の高さに基づいて、第1の対象に含まれる文の中から第2の対象を決定し、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの第1の類似度を算出し、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法である。
検索用文書を分割することで、複数の検索用文章ブロックを作成することが好ましい。このとき、第1の検索用文章ブロックは、複数の検索用文章ブロックの一つであることが好ましい。
さらに、検索用文書の他の一部である、第2の検索用文章ブロックを準備し、複数の文章ブロックのうち少なくとも一部を第3の対象として、第2の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、第3の対象に含まれる文それぞれの、第2の検索用文章ブロックに含まれる各文に対する第2の関連度を算出し、第2の検索用文章ブロックに含まれる文ごとに、第2の関連度の高さに基づいて、第3の対象に含まれる文の中から第4の対象を決定し、第2の検索用文章ブロックに含まれる文ごとに、第4の対象に含まれる文それぞれとの第2の類似度を算出し、第2の類似度を用いて、第2の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索することが好ましい。このとき、第1の対象と第3の対象とは、同一であってもよく、互いに異なっていてもよい。
第1の類似度のうち閾値以上の値を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索することが好ましい。
本発明の一態様は、複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、検索用文書を分割することで、複数の検索用文章ブロックを作成し、複数の検索用文章ブロックのそれぞれについて、複数の文章ブロックのうち少なくとも一部を第1の対象として、検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、第1の対象に含まれる文それぞれの、検索用文章ブロックに含まれる各文に対する関連度を算出するステップと、検索用文章ブロックに含まれる文ごとに、関連度の高さに基づいて、第1の対象に含まれる文の中から第2の対象を決定するステップと、検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの類似度を算出するステップと、類似度を用いて、検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索するステップと、を行う、文書検索方法である。
本発明の一態様は、上記の文書検索方法のいずれかを行う機能を有する文書検索システムである。
本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索システムであって、処理部を有し、処理部は、検索用文書を分割することで作成された複数の検索用文章ブロックの1つである、第1の検索用文章ブロックを準備する機能と、複数の文章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、第1の検索用文章ブロックに対する第1の関連度を算出する機能と、第1の関連度の高さに基づいて、第1の対象の中から第2の対象を決定する機能と、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの第1の類似度を算出する機能と、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する機能と、を有する、文書検索システムである。
本発明の一態様は、上記の文書検索方法のいずれかをプロセッサに実行させる機能を有するプログラムである。本発明の一態様は、当該プログラムが記憶された非一時的コンピュータ可読記憶媒体である。
プログラムは、様々なタイプの一時的なコンピュータ可読記憶媒体によってコンピュータに供給されてもよい。一時的なコンピュータ可読記憶媒体としては、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読記憶媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索するプログラムであって、検索用文書を分割することで作成された複数の検索用文章ブロックの1つである、第1の検索用文章ブロックを準備するステップと、複数の文章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、第1の検索用文章ブロックに対する第1の関連度を算出するステップと、第1の関連度の高さに基づいて、第1の対象の中から第2の対象を決定するステップと、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの第1の類似度を算出するステップと、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索するステップと、を、プロセッサに実行させるプログラムである。本発明の一態様は、当該プログラムが記憶された非一時的コンピュータ可読記憶媒体である。
非一時的コンピュータ可読記憶媒体としては、様々なタイプの実体のある記憶媒体を用いることができる。非一時的コンピュータ可読記憶媒体としては、例えば、RAM(Random Access Memory)等の揮発性メモリ、ROM(Read Only Memory)等の不揮発性メモリが挙げられる。そのほか、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブ、光磁気ディスク、CD−ROM、CD−R等が挙げられる。
本発明の一態様により、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供できる。本発明の一態様により、文書のブロックごとに、類似する文書を検索できる文書検索システムを提供できる。本発明の一態様により、簡便な入力方法で、文書のブロックごとに、類似する文書を検索できる文書検索方法を提供できる。
本発明の一態様により、高い精度で文書を検索できる文書検索方法を提供できる。本発明の一態様により、高い精度で文書を検索できる文書検索システムを提供できる。本発明の一態様により、簡便な入力方法で、精度の高い文書検索、特に知的財産に係る文書の検索を実現できる。
なお、これらの効果の記載は、他の効果の存在を妨げるものではない。本発明の一態様は、必ずしも、これらの効果の全てを有する必要はない。明細書、図面、請求項の記載から、これら以外の効果を抽出することが可能である。
図1は文書検索方法の一例を示すフロー図である。
図2は検索を行う前段階の処理の一例を示す図である。
図3A、図3B、図3Cは文書検索方法の一例を示す図である。
図4A、図4B、図4Cは文書検索方法の一例を示す図である。
図5A、図5Bは文書検索方法の一例を示す図である。
図6A、図6B、図6Cは文書検索方法の一例を示す図である。
図7A、図7B、図7Cは文書検索方法の一例を示す図である。
図8A、図8B、図8Cは文書検索方法の一例を示す図である。
図9A、図9Bは文書検索方法の一例を示す図である。
図10は文書検索方法の一例を示すフロー図である。
図11は文書検索方法の一例を示すフロー図である。
図12は文書検索方法の一例を示す図である。
図13は文書検索システムの一例を示すブロック図である。
図14は文書検索システムの一例を示すブロック図である。
実施の形態について、図面を用いて詳細に説明する。但し、本発明は以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは当業者であれば容易に理解される。従って、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。
なお、以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、その繰り返しの説明は省略する。また、同様の機能を指す場合には、ハッチパターンを同じくし、特に符号を付さない場合がある。
また、図面において示す各構成の、位置、大きさ、範囲などは、理解の簡単のため、実際の位置、大きさ、範囲などを表していない場合がある。このため、開示する発明は、必ずしも、図面に開示された位置、大きさ、範囲などに限定されない。
(実施の形態1)
本実施の形態では、本発明の一態様の文書検索方法について図1~図12を用いて説明する。なお、データの模式図は一例であり、これに限定されない。
本発明の一態様は、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法である。
まず、検索用文書の一部である、第1の検索用文章ブロックを準備する。
例えば、第1の検索用文章ブロックは、検索用文書の一部を抽出することで作成できる。または、第1の検索用文章ブロックは、検索用文書を分割することで作成された複数の検索用文章ブロックの一つであってもよい。
本発明の一態様の文書検索方法では、事前に、複数の検索対象文書から複数の文章ブロックを作成しておき、さらに、検索時には、検索用文書から検索用文章ブロックを作成する。これにより、検索用文章ブロックに類似する文章ブロックを検索することができる。したがって、検索用文書全体を検索条件に用いる場合や、検索対象が文書全体である場合に比べて、類似箇所の対応関係を把握することが容易となる。
次に、複数の文章ブロックのうち少なくとも一部を第1の対象として、第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、第1の対象に含まれる文章ブロックそれぞれの、第1の検索用文章ブロックに対する第1の関連度を算出する。
検索対象文書の数が多いほど、文章ブロックの数も多くなる。本発明の一態様では、検索用文章ブロックごとに、検索の対象となる文章ブロック(第1の対象)を絞り込むことができるため、処理量を削減し、検索速度を高めることができる。
次に、第1の関連度の高さに基づいて、第1の対象の中から第2の対象を決定する。
全文検索では、文や単語の順番は考慮されないため、算出される関連度は類似度とは異なる。一方で、検索用文章ブロックと共通する単語を有する文章ブロックは、関連度の値が高くなり、類似性の低い文章ブロックは、関連度の値も低くなるため、類似度を算出すべき対象を高い精度で絞り込むことができる。
次に、第1の検索用文章ブロックに含まれる文ごとに、第2の対象に含まれる文それぞれとの第1の類似度を算出する。
全文検索に比べて、類似度を算出する処理は、所要時間が長くなりやすい。本発明の一態様では、第1の対象の中から第2の対象を決定し、対象を絞り込んだ後に類似度を算出するため、文書検索にかかる時間を短縮することができる。
類似度は、文同士の字面の一致度に基づいて算出することができる。全文検索と異なり、類似度の算出においては、文中の単語の順番が考慮される。したがって、第1の検索用文章ブロックが有する文と共通する単語を有していても単語の並び順が異なる文は、類似度が低くなる。
そして、第1の類似度を用いて、第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する。
以上のように、本発明の一態様の文書検索方法を用いることで、検索用文書の特定の箇所に類似する、他の文書の記載箇所を容易に把握することができる。
また、本発明の一態様の文書検索方法は、検索用文書を入力すればよく、検索に用いるキーワードの選定が不要であるため、使用者の負担が少なく、技量による検索結果の差が生じにくいという利点がある。
また、検索対象となる文章ブロックを、第1の対象、第2の対象と順に絞り込んだ後に、類似度の算出を行うため、文書検索にかかる時間を短縮することができる。
また、全文検索は、第1の検索用文章ブロックに含まれる文を1つずつ検索条件に用いて行ってもよい。この場合、第1の対象に含まれる文それぞれの、第1の検索用文章ブロックに含まれる各文に対する第1の関連度を算出する。そして、第1の検索用文章ブロックに含まれる文ごとに、第1の関連度の高さに基づいて、第1の対象に含まれる文の中から第2の対象を決定する。
文章ブロックには複数の文が含まれる。文章ブロックに含まれる文のうち、第1の検索用文章ブロックに含まれる文と類似する文が大半であるとは限らない。そのため、類似度の高い文章ブロックを高い精度で検索するためには、多くの文章ブロックについて類似度の算出を行う必要があり、類似度を算出する時間が長くなることがある。また、類似度の算出に要する時間を短縮するために、第2の対象である文章ブロックの数を少なくすることで、類似度の高い文が含まれる文章ブロックを取りこぼす恐れがある。
そこで、文章ブロック単位でなく、文単位で、第1の対象から第2の対象を絞り込むことが好ましい。具体的には、第1の検索用文章ブロックに含まれる文ごとに、関連度の高い文を検索し、文単位で、類似度を算出する対象を絞り込むことが好ましい。文単位で対象を絞り込むことで、文章ブロック単位で対象を絞り込む場合に比べて、類似度の高い文(及び文章ブロック)の取りこぼしの抑制と、類似度の算出に要する時間の短縮と、の両立を図ることができる。
<文書検索方法の例1>
図1に、文書検索方法のフローチャートを示す。図1に示すように、本発明の一態様の文書検索方法は、ステップA1~ステップA6の6つのステップを有する。
なお、特に説明のない限り、要素(文書、文章ブロック、または文など)を複数有する構成を説明する場合であっても、各々の要素に共通する事項を説明する場合には、変数及びアルファベットを省略して説明する。例えば、検索対象文書TD1、検索対象文書TD2、及び検索対象文書TDn等に共通する事項を説明する場合に、検索対象文書TDと記す場合がある。
[前処理]
まず、図2を用いて、検索を行う前段階の処理について説明する。
前処理では、複数の検索対象文書TDを分割し、複数の文章ブロックTBを作成する。
本実施の形態の文書検索方法では、事前に準備された複数の文書をブロックに分ける。そして、検索時には、入力された検索用文書もブロックに分ける。これにより、検索用文書の各ブロックに類似する文章ブロックを検索することができる。
図2では、n個(nは2以上の整数)の検索対象文書TDを準備する例を示す。
検索対象文書TDとしては、特に限定はなく、様々な文書を用いることができる。
検索対象文書TDとしては、例えば、知的財産に係る文書が挙げられる。知的財産に係る文書としては、具体的には、特許出願に用いた明細書、特許請求の範囲、及び要約書などが挙げられる。さらに、知的財産に係る文書としては、特許文献(公開特許公報、特許公報など)、実用新案公報、意匠公報、及び論文などの刊行物が挙げられる。国内で発行された刊行物に限られず、世界各国で発行された刊行物を、知的財産に係る文書として用いることができる。
そのほか、検索対象文書TDとして、書籍、論文、レポート、コラム、または、その他の文を含む各種著作物を用いてもよい。また、検索対象文書TDとして、診療文書などを用いてもよい。
また、文書の言語についても特に限定はなく、例えば、日本語、英語、中国語、韓国語などの文書を用いることができる。
図2に示す検索対象文書TD1は、x個(xは2以上の整数)の文章ブロック(文章ブロックTB1(1)から文章ブロックTB1(x))に分割される。
また、検索対象文書TD2は、y個(yは2以上の整数)の文章ブロック(文章ブロックTB2(1)から文章ブロックTB2(y))に分割される。
また、検索対象文書TDnは、z個(zは2以上の整数)の文章ブロック(文章ブロックTBn(1)から文章ブロックTBn(z))に分割される。
例えば、検索対象文書が複数の章からなる文書である場合、章ごとに分割することで、複数の文章ブロックを作成してもよい。
具体的には、特許明細書の場合、「背景、課題、手段、及び効果」、「実施の形態1」、「実施の形態2」などに分割することができる。
また、論文の場合、「序論」、「研究手法」、「結果」、「考察」、「結論」などに分割することができる。
なお、検索対象文書の全ての文を用いて、複数の文章ブロックを作成してもよく、検索対象文書のうち必要な部分のみを用いて、複数の文章ブロックを作成してもよい。
例えば、検索対象文書が特許明細書の場合、「符号の説明」を用いずに、複数の文章ブロックを作成してもよい。
前処理は、文書検索を行う前(ステップA1を行う前)に少なくとも一度実施する。前処理は、用途に応じて、複数回実施してもよい。例えば、定期的に前処理を行い、検索対象文書の追加、更新、または削除を行うことで、検索精度及び利便性を高めることができる。
さらに、複数の文章ブロックTBを用いて、全文検索に用いるためのインデックスファイルを作成することが好ましい。これにより、全文検索を短時間で行うことができる。インデックスファイルの構成は、特に限定されず、例えば、文字列、文書名、文章ブロック名、出現頻度などの情報を有することができる。
また、例えば、インデックスファイルは、検索対象文書TD(または文章ブロックTB)の各言語の翻訳文が存在するか否かの情報を有していてもよい。これにより、検索時に、「英語の翻訳文が存在する」、「中国語の翻訳文が存在する」などの条件を指定することができる。
次に、図3~図5を用いて、図1に示す6つのステップの詳細について説明する。
[ステップA1:複数の検索用文章ブロックSTBの作成]
まず、検索用文書STDを分割することで、複数の検索用文章ブロックSTBを作成する(図3A)。
図3Aに示すように、検索用文書STDは、w個(wは2以上の整数)の検索用文章ブロック(検索用文章ブロックSTB(1)から検索用文章ブロックSTB(w))に分割される。
本実施の形態の文書検索方法では、入力された検索用文書STDを、複数の検索用文章ブロックSTBに分けるため、検索用文章ブロックSTBごとに、類似する文書(文章ブロックTB)を検索することができる。
検索用文書STDとしては、特に限定はなく、様々な文書を用いることができる。
検索用文書STDとしては、例えば、翻訳前の、知的財産に係る文書が挙げられる。これにより、検索対象文書TDの中から、翻訳済みの類似の文書を検索することができ、翻訳文を参考にする、または引用することができる。
また、検索用文書STDとして、書籍、論文、レポート、コラム、または、文を含む各種著作物を用いることができる。これにより、検索対象文書TDの中から、類似の文書を検索することができ、検索用文書STDに、盗用または盗作の疑いが無いか、確認することができる。
また、検索用文書STDとして、診療文書を用いることができる。治療の途中経過が記載された診療文書を用いて、類似の症例の診療文書を検索することで、診療の参考にすることや、患者が今後どのような経過を辿るのか検討することができる。
[ステップA2:検索用文章ブロックSTB(i)の選択]
次に、w個の検索用文章ブロックSTBの中から、検索を行う検索用文章ブロックSTB(i)(iは、1以上w以下の整数)を選択する。
なお、1つの検索用文章ブロックSTBのみについて検索を行う場合は、ステップA1において検索用文書STDの中から必要な部分を抽出することで、検索用文章ブロックSTBを作成してもよい。
また、複数の検索用文章ブロックSTBについてそれぞれ検索を行う場合は、1つずつ逐次検索してもよい(文書検索方法の例3参照)し、複数を並列で検索してもよい(文書検索方法の例4参照)し、逐次処理と並列処理を組み合わせて検索してもよい。
本実施の形態の文書検索方法では、検索用文章ブロックSTBごとに、類似の文章ブロックTBを検索することができるため、検索用文書STDの特定の箇所に類似する、検索対象文書TDの記載箇所を精度よく、簡便に把握することができる。
[ステップA3:検索用文章ブロックSTB(i)に対する関連度の算出]
次に、検索用文章ブロックSTB(i)に対する関連度を算出する。
具体的には、検索用文章ブロックSTB(i)を検索条件に用いて全文検索を行うことで、検索対象となる文章ブロックTBそれぞれの、検索用文章ブロックSTB(i)に対する関連度を算出する。
ここで、全ての文章ブロックTBについて、検索用文章ブロックSTB(i)に対する関連度を算出してもよく、一部の文章ブロックTBについて、検索用文章ブロックSTB(i)に対する関連度を算出してもよい。
例えば、特許明細書の場合、「背景、課題、手段、及び効果」について類似文書を探したいときは、検索対象文書の「背景、課題、手段、及び効果」のみを検索対象にすればよく、「実施の形態1」などは、検索の対象外とすることができる。
また、「実施の形態1」について、類似文書を探したい場合、検索対象文書の各実施の形態を検索対象にし、「背景、課題、手段、及び効果」は、検索の対象外とすることができる。さらに、「英語の翻訳文が存在する」類似文書を探したい場合、「英語の翻訳文が存在する」検索対象文書の各実施の形態を検索対象にすることができる。
全文検索において、関連度を算出する文章ブロックTBは、例えば、インデックスファイルに含まれる情報に基づいて、自動で選択される。または、検索用文書STDを入力する際に、関連度を算出する文章ブロックTBを指定してもよい。
このように、検索用文章ブロックSTB(i)に応じて、検索対象となる文章ブロックを変えることで、処理量を削減し、文書検索にかかる時間を短縮することができる。
文書検索方法の例1では、検索用文章ブロックSTB(i)を、全文検索の一つの検索条件として用いる場合を示す。なお、後述するように、検索用文章ブロックSTB(i)に含まれる各文を、全文検索の検索条件として用いてもよい(文書検索方法の例2参照)。つまり、検索条件の数が、検索用文章ブロックSTB(i)に含まれる文の数だけあってもよい。
全文検索方法に特に限定は無く、逐次検索、インデックス検索等を用いることができる。
特に、インデックス検索は、検索対象である文章ブロックTBが多い場合であっても検索速度が低下しにくいため、好ましい。
インデックス検索では、あらかじめ検索対象となる文章ブロックTBを走査しておき、高速な検索が可能になるようなインデックスファイルを準備しておく。
インデックスファイルを構成する文字列を抽出する方法に特に限定は無く、わかち書き(単語をスペースで区切ること)、形態素解析、N−gram(N文字インデックス法、Nグラム法などともいう)等を用いることができる。
特に、N−gramは、形態素解析に比べて、完全一致の検索に有利であり、専門用語、新語、略語などが問題になりにくいため、好ましい。
関連度の算出には、例えば、TF−IDF(Term Frequency−Inverse Document Frequency)を用いることが好ましい。TF値は、ある文章ブロック内での各単語の出現頻度を表し、IDF値は、単語が一部の文章ブロックに集中して出現する度合いを表す。ある単語が1つの文章ブロックに多く出現するほど、当該単語の当該文章ブロックにおけるTF値は高くなる。多くの文章ブロックに出現する単語のIDF値は小さく、一部の文章ブロックにのみ出現する単語のIDF値は高くなる。各単語のTF値とIDF値の積を求めることで、当該単語が文章ブロックを特徴づける単語であるかどうかのスコアを算出することができる。
なお、関連度の算出は、TF−IDFを用いた方法に限定されない。
例えば、オープンソースの検索エンジンライブラリであるApache Luceneを用いて、全文検索を行うことができる。
図3Bでは、検索用文章ブロックSTB(1)に対する関連度を算出する例を示す。また、検索対象である第1の対象110(1)が、各検索対象文書TDが有する1つ目の文章ブロックTB(1)である例を示す。
[ステップA4:第1の対象110(i)の中から第2の対象120(i)を決定]
次に、関連度の高さに基づいて、第1の対象110(i)の中から第2の対象120(i)を決定する。
第2の対象120(i)に含まれる文章ブロックTBの数は、特に限定されない。第2の対象120(i)は、次のステップで類似度を算出する対象となる。全文検索に比べて、類似度を算出する処理は、所要時間が長くなりやすい。第1の対象110(i)の中から第2の対象120(i)を決定し、対象を絞り込んだ後に類似度を算出することで、文書検索にかかる時間を短縮することができる。
例えば、ステップA3における全文検索の結果を、関連度の高い順にソートすることで、検索用文章ブロックSTB(i)に対する関連度の高い文章ブロックTBを把握することができる。
図3Cでは、検索用文章ブロックSTB(1)に対する関連度の高い上位10個の文章ブロックTBを第2の対象120(1)として用いる例を示す。図3Cでは、一例として、文章ブロックTB4(1)が1位(Rank 1)、文章ブロックTB1(1)が2位(Rank 2)、そして、文章ブロックTB9(1)が10位(Rank 10)である場合を示す。
[ステップA5:検索用文章ブロックSTB(i)に対する類似度の算出]
次に、検索用文章ブロックSTB(i)に対する類似度を算出する。具体的には、検索用文章ブロックSTB(i)に含まれる文ごとに、第2の対象120(i)に含まれる文それぞれとの類似度を算出する。
本発明の一態様の文書検索方法では、文と文との間の類似度を求める。具体的には、文同士の字面の一致度に基づいて、類似度を算出することが好ましい。
例えば、文書の差分を求めるアルゴリズムであるdiffを用いて、類似度を算出することができる。
まず、図4Aに示すように、検索用文章ブロックSTB(1)の1つ目の文STS1と、第2の対象120(1)に含まれる文それぞれとの類似度を算出する。
次に、図4Bに示すように、検索用文章ブロックSTB(1)の2つ目の文STS2と、第2の対象120(1)に含まれる文それぞれとの類似度を算出する。同様に、検索用文章ブロックSTB(1)の各文と、第2の対象120(1)に含まれる文それぞれとの類似度を算出する。
そして、図4Cに示すように、検索用文章ブロックSTB(1)の最後の文STSp(pは1以上の整数)まで類似度の算出を行うことで、検索用文章ブロックSTB(1)に含まれる全ての文について、第2の対象120(1)に含まれる文それぞれとの類似度を算出する。なお、図4Cでは、pが3以上の整数である例を示す。
なお、検索用文章ブロックSTB(1)の複数の文に対する類似度の算出を、並列で行ってもよい。例えば、図4Aに示す処理と、図4Bに示す処理と、図4Cに示す処理は、全て並列で行われてもよい。
算出した類似度を用いることで、検索用文章ブロックSTB(1)に類似する文章ブロックTBを求めることができる。
例えば、各文章ブロックTBにおいて、検索用文章ブロックSTB(1)の各文に対する類似度が最も高い文の類似度の和を算出し、当該和を、検索用文章ブロックSTB(1)の文の数で割ることで、当該文章ブロックTBの、検索用文章ブロックSTB(1)に対する規格化類似度を求めることができる。
図5Aでは、文章ブロックTB4(1)において、検索用文章ブロックSTB(1)の1つ目の文STS1に対する類似度が最も高い文は1つ目の文S1(類似度は1)であり、2つ目の文STS2に対する類似度が最も高い文は2つ目の文S2(類似度は0.9)であり、最後の文STSpに対する類似度が最も高い文は3つ目の文S3(類似度は0.5)である。これらp個の類似度を足し、文の数pで割ることで、文章ブロックTB4(1)の、検索用文章ブロックSTB(1)に対する規格化類似度を求めることができる。
なお、文同士の類似度のうち、閾値以上の値を用いると、検索の精度を高めることができるため、好ましい。例えば、閾値が0.8である場合、図5Aに示す文章ブロックTB4(1)において、最後の文STSpに対する類似度が最も高い文S3の類似度は0.5であるため、類似度の和を算出する際に用いない(0とみなす)ことになる。
[ステップA6:結果の出力]
そして、検索用文章ブロックSTB(i)に対する規格化類似度が高い文章ブロックTBを出力する。
図5Bは、規格化類似度が高い順に文章ブロックTB(Block)を並べた例である。また、Scoreとして、規格化類似度を百分率で表す例を示す。
ステップA3で行った全文検索では、文や単語の順番は考慮されないため、算出される関連度は類似度とは異なる。ステップA5で類似度を算出することで、ステップA4(図3C)で第2の対象120(1)として決定した10個の文章ブロックTBを、検索用文章ブロックSTB(1)に対する類似性の高い順番に並べることができる(図5B)。
以上のように、検索用文書STDを検索用文章ブロックSTBに分割し、類似する文章ブロックを検索することで、検索用文章ブロックSTBに対して、類似する文書(文章ブロックTB)を検索することができる。これにより、検索用文書STD全体を検索条件に用いる場合や、検索対象が文書全体である場合に比べて、類似箇所の対応関係を把握することが容易となる。
また、検索対象となる文章ブロックを、第1の対象、第2の対象と順に絞り込んだ後に、類似度の算出を行うため、文書検索にかかる時間を短縮することができる。
<文書検索方法の例2>
次に、図6~図9を用いて、ステップA3以降の変形例を説明する。具体的には、検索用文章ブロックSTB(i)に含まれる各文を、全文検索の検索条件として用いる場合について説明する。
[ステップA3:検索用文章ブロックSTB(i)に対する関連度の算出]
文書検索方法の例2におけるステップA3では、検索用文章ブロックSTB(i)に含まれる各文を検索条件に用いて全文検索を行う。これにより、検索対象に含まれる文それぞれの、検索用文章ブロックSTB(i)に含まれる各文に対する関連度を算出する。
ここで、全ての文章ブロックTBについて、検索用文章ブロックSTB(i)に含まれる各文に対する関連度を算出してもよく、一部の文章ブロックTBについて、検索用文章ブロックSTB(i)に含まれる各文に対する関連度を算出してもよい。
検索用文章ブロックSTB(i)に応じて、検索対象となる文章ブロックを変えることで、処理量を削減し、文書検索にかかる時間を短縮することができる。
全文検索方法及び関連度の算出の方法は、文書検索方法の例1と同様の方法を用いることができる。
まず、図6Aに示すように、検索用文章ブロックSTB(1)の1つ目の文STS1を検索条件に用いて全文検索を行うことで、第1の対象110(1)に含まれる各文の、1つ目の文STS1に対する関連度を算出する。なお、第1の対象110(1)に含まれる文とは、第1の対象110(1)に含まれる複数の文章ブロックTBを構成する文を指す。
次に、図6Bに示すように、検索用文章ブロックSTB(1)の2つ目の文STS2を検索条件に用いて全文検索を行うことで、第1の対象110(1)に含まれる各文の、2つ目の文STS2に対する関連度を算出する。同様に、検索用文章ブロックSTB(1)の各文に対する関連度を算出する。
そして、図6Cに示すように、検索用文章ブロックSTB(1)の最後の文STSp(pは2以上の整数)まで関連度の算出を行うことで、第1の対象110(1)に含まれる文の、検索用文章ブロックSTB(1)に含まれる各文に対する関連度を算出する。なお、図6Cでは、pが3以上の整数である例を示す。
なお、検索用文章ブロックSTB(1)の各文を検索条件に用いた全文検索を、並列で行ってもよい。例えば、図6Aに示す処理と、図6Bに示す処理と、図6Cに示す処理は、全て並列で行われてもよい。
[ステップA4:第1の対象110(i)の中から第2の対象120(i)を決定]
次に、検索用文章ブロックSTB(i)に含まれる文ごとに、関連度の高さに基づいて、第1の対象110(i)に含まれる文の中から第2の対象120(i)を決定する。
第2の対象120(i)に含まれる文の数は、特に限定されない。第2の対象120(i)は、次のステップで類似度を算出する対象となる。全文検索に比べて、類似度を算出する処理は、所要時間が長くなりやすい。第1の対象110(i)の中から第2の対象120(i)を決定し、対象を絞り込んだ後に類似度を算出することで、文書検索にかかる時間を短縮することができる。
例えば、ステップA3における全文検索の結果を、関連度の高い順にソートすることで、検索用文章ブロックSTB(i)に含まれる各文に対する関連度の高い文を把握することができる。
図7Aでは、検索用文章ブロックSTB(1)の1つ目の文STS1に対する関連度の高い上位300個の文を第2の対象120(1)(STS1)として用いる例を示す。図7Aでは、一例として、文章ブロックTB4(1)の1つ目の文TB4(1)_S1が1位(Rank 1)、文章ブロックTB3(1)の1つ目の文TB3(1)_S1が2位(Rank 2)、そして、文章ブロックTB6(1)の6つ目の文TB6(1)_S6が300位(Rank 300)である場合を示す。
図7Bでは、検索用文章ブロックSTB(1)の2つ目の文STS2に対する関連度の高い上位300個の文を第2の対象120(1)(STS2)として用いる例を示す。図7Bでは、一例として、文章ブロックTB1(1)の2つ目の文TB1(1)_S2が1位(Rank 1)、文章ブロックTB3(1)の2つ目の文TB3(1)_S2が2位(Rank 2)、そして、文章ブロックTB62(1)の8つ目の文TB62(1)_S8が300位(Rank 300)である場合を示す。
そして、図7Cに示すように、検索用文章ブロックSTB(1)の最後の文STSpに対する関連度の高い上位300個の文として、第2の対象120(1)(STSp)を決定する。図7Cでは、一例として、文章ブロックTB2(1)の9つ目の文TB2(1)_S9が1位(Rank 1)、文章ブロックTB6(1)の8つ目の文TB6(1)_S8が2位(Rank 2)、そして、文章ブロックTB7(1)の12個目の文TB7(1)_S12が300位(Rank 300)である場合を示す。以上のように、検索用文章ブロックSTB(1)に含まれる全ての文について、それぞれ、第2の対象120(1)を決定する。同様に、検索用文章ブロックSTB(i)に含まれる全ての文について、それぞれ、関連度の高さに基づいて、第1の対象110(i)に含まれる文の中から第2の対象120(i)を決定する。
[ステップA5:検索用文章ブロックSTB(i)に対する類似度の算出]
次に、検索用文章ブロックSTB(i)に対する類似度を算出する。具体的には、検索用文章ブロックSTB(i)に含まれる文ごとに、第2の対象120(i)に含まれる文それぞれとの類似度を算出する。
類似度の算出方法は、文書検索方法の例1と同様の方法を用いることができる。
まず、図8Aに示すように、検索用文章ブロックSTB(1)の1つ目の文STS1と、第2の対象120(1)(STS1)に含まれる文それぞれとの類似度を算出する。
次に、図8Bに示すように、検索用文章ブロックSTB(1)の2つ目の文STS2と、第2の対象120(1)(STS2)に含まれる文それぞれとの類似度を算出する。同様に、検索用文章ブロックSTB(1)の各文と、第2の対象120(1)に含まれる文それぞれとの類似度を算出する。
そして、図8Cに示すように、検索用文章ブロックSTB(1)の最後の文STSpまで類似度の算出を行うことで、検索用文章ブロックSTB(1)に含まれる全ての文について、第2の対象120(1)に含まれる文それぞれとの類似度を算出する。
なお、検索用文章ブロックSTB(1)の複数の文に対する類似度の算出を、並列で行ってもよい。例えば、図8Aに示す処理と、図8Bに示す処理と、図8Cに示す処理は、全て並列で行われてもよい。
算出した類似度を用いることで、検索用文章ブロックSTB(1)に類似する文章ブロックTBを求めることができる。
例えば、各文章ブロックTBにおいて、検索用文章ブロックSTB(1)の各文に対する類似度が最も高い文の類似度の和を算出し、当該和を、検索用文章ブロックSTB(1)の文の数で割ることで、当該文章ブロックTBの、検索用文章ブロックSTB(1)に対する規格化類似度を求めることができる。
図9Aでは、文章ブロックTB4(1)において、検索用文章ブロックSTB(1)の1つ目の文STS1に対する類似度が最も高い文は1つ目の文S1(類似度は1)であり、2つ目の文STS2に対する類似度が最も高い文は2つ目の文S2(類似度は0.90)である。このように、p個の各文に対する最も高い類似度を足し、文の数pで割ることで、文章ブロックTB4(1)の、検索用文章ブロックSTB(1)に対する規格化類似度を求めることができる。なお、文章ブロックTB4(1)において、26個目の文S26も、検索用文章ブロックSTB(1)の1つ目の文STS1に対する類似度が高い(類似度0.80)が、1つ目の文S1よりも低いため、S26の類似度の値は使用しない。
なお、文同士の類似度のうち、閾値以上の値を用いると、検索の精度を高めることができるため、好ましい。図9Aに示す文章ブロックTB9(1)において、検索用文章ブロックSTB(1)の1つ目の文STS1に対する類似度が最も高い文は2つ目の文S2(類似度は0.70)であり、2つ目の文STS2に対する類似度が最も高い文は1つ目の文S1(類似度は0.60)であり、最後の文STSpに対する類似度が最も高い分は3つ目の文S3(類似度は0.60)である。閾値を用いない場合、p個の各文に対する最も高い類似度の和の算出に、これら3つの文の類似度の値が使用される。一方、例えば、閾値が0.8である場合、これら3つの文の類似度の値は、閾値未満であるため、類似度の和を算出する際に用いない(0とみなす)ことになる。
[ステップA6:結果の出力]
そして、検索用文章ブロックSTB(i)に対する規格化類似度が高い文章ブロックTBを出力する。
図9Bは、規格化類似度が高い順に文章ブロックTBを並べた例である。また、Scoreとして、規格化類似度を百分率で表す例を示す。
文書検索方法の例2では、検索用文章ブロックSTB(i)に含まれる文ごとに、第1の対象110(i)の中から第2の対象120(i)となる文を決定する。したがって、文章ブロックTBに含まれる文のうち、検索用文章ブロックSTB(i)に含まれる文との関連性が高い文のみ、当該検索用文章ブロックSTB(i)に含まれる文との類似度を算出することができる。文単位で対象を絞り込むことで、文章ブロック単位で対象を絞り込む場合に比べて、類似度の高い文(及び文章ブロック)の取りこぼしを抑制でき、かつ、類似度の算出に要する時間を短縮することができる。また、実際は類似していない文章ブロックTBの類似度が高くなることを防止できる。
例えば、文書検索方法の例2を用いることで、文書検索方法の例1(図5B)では上位10位にならなかった文章ブロックTB7(1)、TB3(1)、TB6(1)が上位10位になる、ということも起こりうる(図9B)。
文書検索方法の例2は、文書検索方法の例1に比べて、残りの部分の類似性が極めて低くても、類似性が極端に高い部分を有する(例えば、完全一致の文章を含む)文章ブロックの類似度を高く算出することができる。
<文書検索方法の例3>
次に、複数の検索用文章ブロックSTBについて、類似する文章ブロックを逐次検索する方法について説明する。なお、文書検索方法の例3では、全ての検索用文章ブロックSTBについて、類似する文章ブロックを検索する例を示すが、これに限定されず、一部の検索用文章ブロックSTBについて、類似する文章ブロックを検索してもよい。図10に、文書検索方法のフローチャートを示す。
なお、検索を行う前段階の処理については、文書検索方法の例1と同様であるため、説明を省略する。
[ステップB1:複数の検索用文章ブロックSTB(1)~STB(w)の作成]
まず、検索用文書STDを分割することで、複数の検索用文章ブロックSTBを作成する。ここでは、w個(wは2以上の整数)の検索用文章ブロック(検索用文章ブロックSTB(1)から検索用文章ブロックSTB(w))に分割する例を示す。ステップB1は、図3Aに示すステップA1と同様に行うことができる。
[ステップB2:検索用文章ブロックSTB(i)の選択(i=1)]
次に、w個の検索用文章ブロックSTBの中から、検索を行う検索用文章ブロックSTB(i)(iは、1以上w以下の整数)を選択する。
なお、一部または全部の検索用文章ブロックSTBについて、類似する文章ブロックを検索する順番は特に限定されない。
文書検索方法の例3では、検索用文章ブロックSTB(1)から順に検索を行う例を示す。そのため、ステップB2では、i=1を選択する。
[ステップB3:検索用文章ブロックSTB(i)に対する関連度の算出]
次に、検索用文章ブロックSTB(i)に対する関連度を算出する。
ステップB2でi=1を選択したため、1回目のステップB3では、検索用文章ブロックSTB(1)に対する関連度を算出する。1回目のステップB3は、図3Bに示すステップA3と同様に行うことができる。
[ステップB4:第1の対象110(i)の中から第2の対象120(i)を決定]
次に、関連度の高さに基づいて、第1の対象110(i)の中から第2の対象120(i)を決定する。
ステップB2でi=1を選択したため、1回目のステップB4では、関連度の高さに基づいて、第1の対象110(1)の中から第2の対象120(1)を決定する。1回目のステップB4は、図3Cに示すステップA4と同様に行うことができる。
[ステップB5:検索用文章ブロックSTB(i)に対する類似度の算出]
次に、検索用文章ブロックSTB(i)に対する類似度を算出する。具体的には、検索用文章ブロックSTB(i)に含まれる文ごとに、第2の対象120(i)に含まれる文それぞれとの類似度を算出する。
ステップB2でi=1を選択したため、1回目のステップB5では、検索用文章ブロックSTB(1)に対する類似度を算出する。1回目のステップB5は、図4A~図4C及び図5Aに示すステップA5と同様に行うことができる。
[ステップB6:全ての検索用文章ブロックSTBに対して類似度を算出したか(i=w?)]
以上のステップB3からステップB5までの処理を、全ての検索用文章ブロックSTBに対して順に行う。類似度を算出していない検索用文章ブロックSTBがある場合は、ステップB7を経由してステップB3に戻る。そして、全ての検索用文章ブロックSTBに対して類似度を算出した場合は、ステップB8に進む。
[ステップB7:iに1を足す(i=i+1)]
ステップB6からステップB3に戻る際に、ステップB7として、iに1を加える。つまり、2回目のステップB3~B5は、検索用文章ブロックSTB(2)に対して行う。このように、検索用文章ブロックSTB(w)に対して類似度を算出するまで、ステップB3~B5を繰り返し行う。
[ステップB8:結果の出力]
そして、各検索用文章ブロックSTBに対する規格化類似度が高い文章ブロックTBを出力する。
図12は、検索用文章ブロックSTB別で、規格化類似度が高い順に文章ブロックTBを並べた例である。さらに、図5Bに示すScoreのように、類似度の高さを示す値を出力してもよい。
以上のように、検索用文章ブロックSTBごとに、類似する文章ブロックを順に検索した後、全ての結果を出力することで、検索用文書STDの各検索用文章ブロックSTBに対して、類似する文書(文章ブロックTB)を検索することができる。
<文書検索方法の例4>
次に、複数の検索用文章ブロックSTBについて、並列で、類似する文章ブロックを検索する方法について説明する。なお、文書検索方法の例4では、全ての検索用文章ブロックSTBについて、類似する文章ブロックを検索する例を示すが、これに限定されず、一部の検索用文章ブロックSTBについて、類似する文章ブロックを検索してもよい。図11に、文書検索方法のフローチャートを示す。
なお、検索を行う前段階の処理については、文書検索方法の例1と同様であるため、説明を省略する。
[ステップC1:複数の検索用文章ブロックSTBの作成]
まず、検索用文書STDを分割することで、複数の検索用文章ブロックSTBを作成する。ここでは、w個(wは2以上の整数)の検索用文章ブロック(検索用文章ブロックSTB(1)から検索用文章ブロックSTB(w))に分割する例を示す。ステップC1は、図3Aに示すステップA1と同様に行うことができる。
以降のステップC2~C5の処理は、2個以上の検索用文章ブロックSTBについて、並列で行うことができる。文章検索方法の例4では、w個の検索用文章ブロックSTBについて、並列で行う例を示す。
[ステップC2(i):検索用文章ブロックSTB(i)の選択]
次に、w個の検索用文章ブロックSTBの中から、検索を行う検索用文章ブロックSTB(i)(iは、1以上w以下の整数)を選択する。
図11に示すステップC2(1)では、i=1を選択する。ステップC2(1)と並行して行われるステップC2(2)では、i=2を選択し、ステップC2(w)では、i=wを選択する。
[ステップC3(i):検索用文章ブロックSTB(i)に対する関連度の算出]
次に、検索用文章ブロックSTB(i)に対する関連度を算出する。
図11に示すステップC3(1)では、検索用文章ブロックSTB(1)に対する関連度を算出する。ステップC3(1)は、図3Bに示すステップA3と同様に行うことができる。
ステップC3(1)と並行して行われるステップC3(2)では、検索用文章ブロックSTB(2)に対する関連度を算出し、ステップC3(w)では、検索用文章ブロックSTB(w)に対する関連度を算出する。
[ステップC4(i):第1の対象110(i)の中から第2の対象120(i)を決定]
次に、関連度の高さに基づいて、第1の対象110(i)の中から第2の対象120(i)を決定する。
図11に示すステップC4(1)では、関連度の高さに基づいて、第1の対象110(1)の中から第2の対象120(1)を決定する。ステップC4(1)は、図3Cに示すステップA4と同様に行うことができる。
ステップC4(1)と並行して行われるステップC4(2)では、関連度の高さに基づいて、第1の対象110(2)の中から第2の対象120(2)を決定し、ステップC4(w)では、関連度の高さに基づいて、第1の対象110(w)の中から第2の対象120(w)を決定する。
[ステップC5:検索用文章ブロックSTB(i)に対する類似度の算出]
次に、検索用文章ブロックSTB(i)に対する類似度を算出する。具体的には、検索用文章ブロックSTB(i)に含まれる文ごとに、第2の対象120(i)に含まれる文それぞれとの類似度を算出する。
図11に示すステップC5(1)では、検索用文章ブロックSTB(1)に対する類似度を算出する。ステップC5(1)は、図4A~図4C及び図5Aに示すステップA5と同様に行うことができる。
ステップC5(1)と並行して行われるステップC5(2)では、検索用文章ブロックSTB(2)に対する類似度を算出し、ステップC4(w)では、検索用文章ブロックSTB(w)に対する類似度を算出する。
[ステップC6:結果の出力]
そして、各検索用文章ブロックSTBに対する規格化類似度が高い文章ブロックTBを出力する。
図12は、検索用文章ブロックSTB別で、規格化類似度が高い順に文章ブロックTBを並べた例である。なお、図5Bに示すScoreのように、類似度の高さを示す値を出力してもよい。
以上のように、各検索用文章ブロックSTBに類似する文章ブロックを並列で検索した後、全ての結果を出力することで、検索用文書STDの各検索用文章ブロックSTBに対して、類似する文書(文章ブロックTB)を検索することができる。
以上のように、本実施の形態の文書検索方法では、検索用文章ブロックに類似する文章ブロックを検索することで、検索用文書の特定の箇所に類似する、検索対象文書の記載箇所を精度よく検索することができる。これにより、検索用文書全体を検索条件に用いる場合や、検索対象が文書全体である場合に比べて、類似箇所の対応関係を把握することが容易となる。
また、本実施の形態の文書検索方法では、全文検索結果を用いて、検索用文章ブロックに対する類似度を算出する対象を絞り込む。これにより、文書検索に係る時間を短縮することができる。
本実施の形態は、他の実施の形態と適宜組み合わせることができる。また、本明細書において、1つの実施の形態の中に、複数の構成例が示される場合は、構成例を適宜組み合わせることが可能である。
(実施の形態2)
本実施の形態では、本発明の一態様の文書検索システムについて図13及び図14を用いて説明する。
本実施の形態の文書検索システムは、実施の形態1に示す文書検索方法を用いて、文書を検索することができる。具体的には、事前に準備された文章ブロックを検索の対象として、入力された検索用文書(の検索用文章ブロック)に類似する文書(文章ブロック)を検索することができる。
<文書検索システムの構成例1>
図13に、文書検索システム100のブロック図を示す。なお、本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得、例えば、処理部103で行われる処理は、処理によって異なるサーバで実行されることがある。
文書検索システム100は、少なくとも、処理部103を有する。図13に示す文書検索システム100は、さらに、入力部101、伝送路102、記憶部105、データベース107、及び出力部109を有する。
[入力部101]
入力部101には、文書検索システム100の外部から検索用文書STDが供給される。入力部101に供給された検索用文書STDは、伝送路102を介して、処理部103、記憶部105、またはデータベース107に供給される。
[伝送路102]
伝送路102は、各種データを伝達する機能を有する。入力部101、処理部103、記憶部105、データベース107、及び出力部109の間のデータの送受信は、伝送路102を介して行うことができる。例えば、検索用文書STD、検索用文章ブロックSTB、検索対象文書TD、及び文章ブロックTBなどのデータが、伝送路102を介して、送受信される。
[処理部103]
処理部103は、入力部101、記憶部105、データベース107などから供給されたデータを用いて、演算を行う機能を有する。処理部103は、演算結果を、記憶部105、データベース107、出力部109などに供給することができる。
処理部103には、チャネル形成領域に金属酸化物を有するトランジスタを用いることが好ましい。当該トランジスタはオフ電流が極めて低いため、当該トランジスタを記憶素子として機能する容量素子に流入した電荷(データ)を保持するためのスイッチとして用いることで、データの保持期間を長期にわたり確保することができる。この特性を、処理部103が有するレジスタ及びキャッシュメモリのうち少なくとも一方に用いることで、必要なときだけ処理部103を動作させ、他の場合には直前の処理の情報を当該記憶素子に待避させることにより処理部103をオフにすることができる。すなわち、ノーマリーオフコンピューティングが可能となり、文書検索システムの低消費電力化を図ることができる。
なお、本明細書等において、チャネル形成領域に酸化物半導体または金属酸化物を用いたトランジスタをOxide Semiconductorトランジスタ、あるいはOSトランジスタと呼ぶ。OSトランジスタのチャネル形成領域は、金属酸化物を有することが好ましい。
本明細書等において、金属酸化物(metal oxide)とは、広い意味での金属の酸化物である。金属酸化物は、酸化物絶縁体、酸化物導電体(透明酸化物導電体を含む)、酸化物半導体(Oxide Semiconductorまたは単にOSともいう)などに分類される。例えば、トランジスタの半導体層に金属酸化物を用いた場合、当該金属酸化物を酸化物半導体と呼称する場合がある。つまり、金属酸化物が増幅作用、整流作用、及びスイッチング作用の少なくとも1つを有する場合、当該金属酸化物を、金属酸化物半導体(metal oxide semiconductor)、略してOSと呼ぶことができる。
チャネル形成領域が有する金属酸化物はインジウム(In)を含むことが好ましい。チャネル形成領域が有する金属酸化物がインジウムを含む金属酸化物の場合、OSトランジスタのキャリア移動度(電子移動度)が高くなる。また、チャネル形成領域が有する金属酸化物は、元素Mを含む酸化物半導体であると好ましい。元素Mは、アルミニウム(Al)、ガリウム(Ga)、またはスズ(Sn)であることが好ましい。元素Mに適用可能な他の元素としては、ホウ素(B)、シリコン(Si)、チタン(Ti)、鉄(Fe)、ニッケル(Ni)、ゲルマニウム(Ge)、イットリウム(Y)、ジルコニウム(Zr)、モリブデン(Mo)、ランタン(La)、セリウム(Ce)、ネオジム(Nd)、ハフニウム(Hf)、タンタル(Ta)、タングステン(W)などがある。ただし、元素Mとして、前述の元素を複数組み合わせても構わない場合がある。元素Mは、例えば、酸素との結合エネルギーが高い元素である。例えば、酸素との結合エネルギーがインジウムよりも高い元素である。また、チャネル形成領域が有する金属酸化物は、亜鉛(Zn)を含むことが好ましい。亜鉛を含む金属酸化物は結晶化しやすくなる場合がある。
チャネル形成領域が有する金属酸化物は、インジウムを含む金属酸化物に限定されない。半導体層は、例えば、亜鉛スズ酸化物、ガリウムスズ酸化物などの、インジウムを含まず、亜鉛を含む金属酸化物、ガリウムを含む金属酸化物、スズを含む金属酸化物などであっても構わない。
また、処理部103には、チャネル形成領域にシリコンを含むトランジスタを用いてもよい。
また、処理部103には、チャネル形成領域に酸化物半導体を含むトランジスタと、チャネル形成領域にシリコンを含むトランジスタと、を組み合わせて用いることが好ましい。
処理部103は、例えば、演算回路または中央演算装置(CPU:Central Processing Unit)等を有する。
処理部103は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって実現された構成であってもよい。処理部103は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域及び記憶部105のうち少なくとも一方に格納される。
処理部103はメインメモリを有していてもよい。メインメモリは、RAM等の揮発性メモリ、及びROM等の不揮発性メモリのうち少なくとも一方を有する。
RAMとしては、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等が用いられ、処理部103の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部105に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部103に直接アクセスされ、操作される。
ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV−EPROM(Ultra−Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
[記憶部105]
記憶部105は、処理部103が実行するプログラムを記憶する機能を有する。また、記憶部105は、処理部103が生成した演算結果、及び、入力部101に入力されたデータなどを記憶する機能を有していてもよい。
記憶部105は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部105は、例えば、DRAM、SRAMなどの揮発性メモリを有していてもよい。記憶部105は、例えば、ReRAM(Resistive Random Access Memory、抵抗変化型メモリともいう)、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory、磁気抵抗型メモリともいう)、またはフラッシュメモリなどの不揮発性メモリを有していてもよい。また、記憶部105は、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブを有していてもよい。
[データベース107]
データベース107は、少なくとも、検索対象文書TD及び文章ブロックTBなどのデータを記憶する機能を有する。また、データベース107は、処理部103が生成した演算結果、及び、入力部101に入力されたデータなどを記憶する機能を有していてもよい。なお、記憶部105及びデータベース107は互いに分離されていなくてもよい。例えば、文書検索システムは、記憶部105及びデータベース107の双方の機能を有する記憶ユニットを有していてもよい。
なお、処理部103、記憶部105、及びデータベース107が有するメモリは、それぞれ、非一時的コンピュータ可読記憶媒体の一例ということができる。
[出力部109]
出力部109は、文書検索システム100の外部にデータを供給する機能を有する。例えば、処理部103における演算結果を外部に供給することができる。
<文書検索システムの構成例2>
図14に、文書検索システム150のブロック図を示す。文書検索システム150は、サーバ151と、端末152(パーソナルコンピュータなど)とを有する。
サーバ151は、通信部161a、伝送路162、処理部163a、及びデータベース167を有する。図14では図示しないが、さらに、サーバ151は、記憶部、入出力部などを有していてもよい。
端末152は、通信部161b、伝送路168、処理部163b、記憶部165、及び入出力部169を有する。図14では図示しないが、端末152は、さらに、データベースなどを有していてもよい。
文書検索システム150の使用者は、端末152から、検索用文書STDを、サーバ151に入力する。検索用文書STDは、通信部161bから通信部161aに送信される。
通信部161aが受信した検索用文書STDは、伝送路162を介して、データベース167または記憶部(図示しない)に保存される。または、検索用文書STDは、通信部161aから、直接、処理部163aに供給されてもよい。
実施の形態1で説明した、検索用文章ブロックSTBの作成、関連度の算出、及び類似度の算出は、それぞれ、高い処理能力が求められる。サーバ151が有する処理部163aは、端末152が有する処理部163bに比べて処理能力が高い。したがって、これらの処理は、それぞれ、処理部163aで行われることが好ましい。
そして、処理部163aにより検索結果が生成される。検索結果は、伝送路162を介して、データベース167または記憶部(図示しない)に保存される。または、検索結果は、処理部163aから、直接、通信部161aに供給されてもよい。その後、サーバ151から、検索結果が、端末152に出力される。検索結果は、通信部161aから通信部161bに送信される。
[入出力部169]
入出力部169には、文書検索システム150の外部からデータが供給される。入出力部169は、文書検索システム150の外部にデータを供給する機能を有する。なお、文書検索システム100のように、入力部と出力部が分かれていてもよい。
[伝送路162及び伝送路168]
伝送路162及び伝送路168は、データを伝達する機能を有する。通信部161a、処理部163a、及びデータベース167の間のデータの送受信は、伝送路162を介して行うことができる。通信部161b、処理部163b、記憶部165、及び入出力部169の間のデータの送受信は、伝送路168を介して行うことができる。
[処理部163a及び処理部163b]
処理部163aは、通信部161a及びデータベース167などから供給されたデータを用いて、演算を行う機能を有する。処理部163bは、通信部161b、記憶部165、及び入出力部169などから供給されたデータを用いて、演算を行う機能を有する。処理部163a及び処理部163bは、処理部103の説明を参照できる。処理部163aは、処理部163bに比べて処理能力が高いことが好ましい。
[記憶部165]
記憶部165は、処理部163bが実行するプログラムを記憶する機能を有する。また、記憶部165は、処理部163bが生成した演算結果、通信部161bに入力されたデータ、及び入出力部169に入力されたデータなどを記憶する機能を有する。
[データベース167]
データベース167は、検索対象文書TD及び文章ブロックTBを記憶する機能を有する。また、データベース167は、処理部163aが生成した演算結果、及び通信部161aに入力されたデータなどを記憶する機能を有していてもよい。または、サーバ151は、データベース167とは別に記憶部を有し、当該記憶部が、処理部163aが生成した演算結果、及び通信部161aに入力されたデータなどを記憶する機能を有していてもよい。
[通信部161a及び通信部161b]
通信部161a及び通信部161bを用いて、サーバ151と端末152との間で、データの送受信を行うことができる。通信部161a及び通信部161bとしては、ハブ、ルータ、モデムなどを用いることができる。データの送受信には、有線を用いても無線(例えば、電波、赤外線など)を用いてもよい。
本実施の形態は、他の実施の形態と適宜組み合わせることができる。
S1:文、S2:文、S3:文、S26:文、STB:検索用文章ブロック、STD:検索用文書、STS1:文、STS2:文、STSp:文、TB:文章ブロック、TB1:文章ブロック、TB2:文章ブロック、TB3:文章ブロック、TB4:文章ブロック、TB6:文章ブロック、TB7:文章ブロック、TB9:文章ブロック、TB62:文章ブロック、TD:検索対象文書、TD1:検索対象文書、TD2:検索対象文書、TDn:検索対象文書、100:文書検索システム、101:入力部、102:伝送路、103:処理部、105:記憶部、107:データベース、109:出力部、110:第1の対象、110(i):第1の対象、120:第2の対象、120(i):第2の対象、150:文書検索システム、151:サーバ、152:端末、161a:通信部、161b:通信部、162:伝送路、163a:処理部、163b:処理部、165:記憶部、167:データベース、168:伝送路、169:入出力部

Claims (15)

  1.  複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であって、
     検索用文書の一部である、第1の検索用文章ブロックを準備し、
     前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文章ブロックそれぞれの、前記第1の検索用文章ブロックに対する第1の関連度を算出し、
     前記第1の関連度の高さに基づいて、前記第1の対象の中から第2の対象を決定し、
     前記第1の検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの第1の類似度を算出し、
     前記第1の類似度を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法。
  2.  請求項1において、
     前記検索用文書を分割することで、複数の検索用文章ブロックを作成し、
     前記第1の検索用文章ブロックは、前記複数の検索用文章ブロックの一つである、文書検索方法。
  3.  請求項1において、
     前記検索用文書の他の一部である、第2の検索用文章ブロックを準備し、
     前記複数の文章ブロックのうち少なくとも一部を第3の対象として、前記第2の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第3の対象に含まれる文章ブロックそれぞれの、前記第2の検索用文章ブロックに対する第2の関連度を算出し、
     前記第2の関連度の高さに基づいて、前記第3の対象の中から第4の対象を決定し、
     前記第2の検索用文章ブロックに含まれる文ごとに、前記第4の対象に含まれる文それぞれとの第2の類似度を算出し、
     前記第2の類似度を用いて、前記第2の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法。
  4.  請求項3において、
     前記第1の対象と前記第3の対象とは、同一である、文書検索方法。
  5.  請求項1乃至4のいずれか一において、
     前記第1の類似度のうち閾値以上の値を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法。
  6.  複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、
     検索用文書を分割することで、前記複数の検索用文章ブロックを作成し、
     前記複数の検索用文章ブロックのそれぞれについて、
     前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文章ブロックそれぞれの、前記検索用文章ブロックに対する関連度を算出するステップと、
     前記関連度の高さに基づいて、前記第1の対象の中から第2の対象を決定するステップと、
     前記検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの類似度を算出するステップと、
     前記類似度を用いて、前記検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索するステップと、を行う、文書検索方法。
  7.  複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索方法であって、
     検索用文書の一部である、第1の検索用文章ブロックを準備し、
     前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記第1の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文それぞれの、前記第1の検索用文章ブロックに含まれる各文に対する第1の関連度を算出し、
     前記第1の検索用文章ブロックに含まれる文ごとに、前記第1の関連度の高さに基づいて、前記第1の対象に含まれる文の中から第2の対象を決定し、
     前記第1の検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの第1の類似度を算出し、
     前記第1の類似度を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法。
  8.  請求項7において、
     前記検索用文書を分割することで、複数の検索用文章ブロックを作成し、
     前記第1の検索用文章ブロックは、前記複数の検索用文章ブロックの一つである、文書検索方法。
  9.  請求項7において、
     前記検索用文書の他の一部である、第2の検索用文章ブロックを準備し、
     前記複数の文章ブロックのうち少なくとも一部を第3の対象として、前記第2の検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第3の対象に含まれる文それぞれの、前記第2の検索用文章ブロックに含まれる各文に対する第2の関連度を算出し、
     前記第2の検索用文章ブロックに含まれる文ごとに、前記第2の関連度の高さに基づいて、前記第3の対象に含まれる文の中から第4の対象を決定し、
     前記第2の検索用文章ブロックに含まれる文ごとに、前記第4の対象に含まれる文それぞれとの第2の類似度を算出し、
     前記第2の類似度を用いて、前記第2の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法。
  10.  請求項9において、
     前記第1の対象と前記第3の対象とは、同一である、文書検索方法。
  11.  請求項7乃至10のいずれか一において、
     前記第1の類似度のうち閾値以上の値を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する、文書検索方法。
  12.  複数の検索用文章ブロックのそれぞれについて、複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、類似する文章ブロックを検索する文書検索方法であって、
     検索用文書を分割することで、前記複数の検索用文章ブロックを作成し、
     前記複数の検索用文章ブロックのそれぞれについて、
     前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記検索用文章ブロックに含まれる各文を検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文それぞれの、前記検索用文章ブロックに含まれる各文に対する関連度を算出するステップと、
     前記検索用文章ブロックに含まれる文ごとに、前記関連度の高さに基づいて、前記第1の対象に含まれる文の中から第2の対象を決定するステップと、
     前記検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの類似度を算出するステップと、
     前記類似度を用いて、前記検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索するステップと、を行う、文書検索方法。
  13.  複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索する文書検索システムであって、
     処理部を有し、
     前記処理部は、
     検索用文書を分割することで作成された複数の検索用文章ブロックの1つである、第1の検索用文章ブロックを準備する機能と、
     前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文章ブロックそれぞれの、前記第1の検索用文章ブロックに対する第1の関連度を算出する機能と、
     前記第1の関連度の高さに基づいて、前記第1の対象の中から第2の対象を決定する機能と、
     前記第1の検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの第1の類似度を算出する機能と、
     前記第1の類似度を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索する機能と、を有する、文書検索システム。
  14.  複数の検索対象文書をそれぞれ分割することで作成された複数の文章ブロックの中から、特定の文章ブロックを検索するプログラムであって、
     検索用文書を分割することで作成された複数の検索用文章ブロックの1つである、第1の検索用文章ブロックを準備するステップと、
     前記複数の文章ブロックのうち少なくとも一部を第1の対象として、前記第1の検索用文章ブロックを検索条件に用いて全文検索を行うことで、前記第1の対象に含まれる文章ブロックそれぞれの、前記第1の検索用文章ブロックに対する第1の関連度を算出するステップと、
     前記第1の関連度の高さに基づいて、前記第1の対象の中から第2の対象を決定するステップと、
     前記第1の検索用文章ブロックに含まれる文ごとに、前記第2の対象に含まれる文それぞれとの第1の類似度を算出するステップと、
     前記第1の類似度を用いて、前記第1の検索用文章ブロックに類似する文章ブロックを少なくとも1つ検索するステップと、を、プロセッサに実行させるプログラム。
  15.  請求項14に記載のプログラムが記憶された非一時的コンピュータ可読記憶媒体。
PCT/IB2019/059907 2018-11-30 2019-11-19 文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体 WO2020109921A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2020557017A JP7499183B2 (ja) 2018-11-30 2019-11-19 翻訳用の文書検索システム
CN201980076644.XA CN113168415A (zh) 2018-11-30 2019-11-19 文件检索方法、文件检索系统、程序以及非暂时性计算机可读存储介质
US17/294,930 US20220004570A1 (en) 2018-11-30 2019-11-19 Document search method, document search system, program, and non-transitory computer readable storage medium
DE112019005976.9T DE112019005976T5 (de) 2018-11-30 2019-11-19 Verfahren zur Dokumentensuche, System zur Dokumentensuche, Programm und nicht-transitorisches, von einem Computer lesbares Speichermedium
KR1020217016842A KR20210095155A (ko) 2018-11-30 2019-11-19 문서 검색 방법, 문서 검색 시스템, 프로그램, 및 비일시적 컴퓨터 가독 기억 매체

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018224825 2018-11-30
JP2018-224825 2018-11-30

Publications (1)

Publication Number Publication Date
WO2020109921A1 true WO2020109921A1 (ja) 2020-06-04

Family

ID=70851931

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/IB2019/059907 WO2020109921A1 (ja) 2018-11-30 2019-11-19 文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体

Country Status (6)

Country Link
US (1) US20220004570A1 (ja)
JP (1) JP7499183B2 (ja)
KR (1) KR20210095155A (ja)
CN (1) CN113168415A (ja)
DE (1) DE112019005976T5 (ja)
WO (1) WO2020109921A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021005433A1 (ja) * 2019-07-05 2021-01-14 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法
JP7476201B2 (ja) 2019-07-19 2024-04-30 株式会社半導体エネルギー研究所 テキスト生成方法およびテキスト生成システム
KR102540939B1 (ko) * 2022-10-05 2023-06-08 (주)유알피 자연어 검색의 적절도 향상 시스템 및 적절도 향상 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013098886A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 検索装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4238616B2 (ja) 2003-03-28 2009-03-18 株式会社日立製作所 類似文書検索方法および類似文書検索装置
JP2006092135A (ja) 2004-09-22 2006-04-06 Fuji Xerox Co Ltd 関連文書検索用コンピュータプログラムならびに関連文書検索システムおよび方法。
JP2012104051A (ja) 2010-11-12 2012-05-31 Kansai Electric Power Co Inc:The 文書インデックス作成装置
US10430445B2 (en) * 2014-09-12 2019-10-01 Nuance Communications, Inc. Text indexing and passage retrieval
CN107491547B (zh) * 2017-08-28 2020-11-10 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013098886A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 検索装置

Also Published As

Publication number Publication date
DE112019005976T5 (de) 2021-08-19
JPWO2020109921A1 (ja) 2020-06-04
KR20210095155A (ko) 2021-07-30
JP7499183B2 (ja) 2024-06-13
CN113168415A (zh) 2021-07-23
US20220004570A1 (en) 2022-01-06

Similar Documents

Publication Publication Date Title
WO2020109921A1 (ja) 文書検索方法、文書検索システム、プログラム、及び非一時的コンピュータ可読記憶媒体
US11341419B2 (en) Method of and system for generating a prediction model and determining an accuracy of a prediction model
US7689574B2 (en) Index and method for extending and querying index
US20210011956A1 (en) Information search system, intellectual property information search system, information search method, and intellectual property information search method
KR20160145785A (ko) 빅 데이터 질의 엔진을 위한 플래시 최적화된 열 데이터 배치 및 데이터 액세스 처리 알고리즘
US12019636B2 (en) Document search system, document search method, program, and non-transitory computer readable storage medium
US20220207070A1 (en) Document search system and document search method
US9047363B2 (en) Text indexing for updateable tokenized text
US20200387678A1 (en) Machine translation method, machine translation system, program, and non-transitory computer-readable storage medium
US20210256002A1 (en) Integrated system for entity deduplication
Monjalet et al. Predicting file lifetimes with machine learning
JP7453987B2 (ja) 文書データ処理方法、及び、文書データ処理システム
WO2021005433A1 (ja) 読解支援システム及び読解支援方法
WO2023073500A1 (ja) 文書検索結果の出力方法、文書検索システム
US20230026321A1 (en) Document retrieval system
US20230350949A1 (en) Document Retrieval System and Method For Retrieving Document
US20230334097A1 (en) Information Retrieval System And Information Retrieval Method
US20240004936A1 (en) Document search system and method for outputting document search result
WO2024110824A1 (ja) 文書検索支援方法、プログラム、文書検索支援システム
Wolff et al. Self-selection bias of similarity metrics in translation memory evaluation
WO2024134406A1 (ja) 文書検索装置、及び文書検索方法
Dai et al. Author disambiguation: a nonparametric topic and co-authorship model
WO2024023624A1 (ja) 文書閲覧装置
Tambouratzis et al. Language-independent hybrid MT: Comparative evaluation of translation quality
KR20230091995A (ko) 독해 지원 시스템 및 독해 지원 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19888395

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020557017

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 20217016842

Country of ref document: KR

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 19888395

Country of ref document: EP

Kind code of ref document: A1