WO2009087815A1 - 類似文書検索システム、類似文書検索方法および記録媒体 - Google Patents

類似文書検索システム、類似文書検索方法および記録媒体 Download PDF

Info

Publication number
WO2009087815A1
WO2009087815A1 PCT/JP2008/070733 JP2008070733W WO2009087815A1 WO 2009087815 A1 WO2009087815 A1 WO 2009087815A1 JP 2008070733 W JP2008070733 W JP 2008070733W WO 2009087815 A1 WO2009087815 A1 WO 2009087815A1
Authority
WO
WIPO (PCT)
Prior art keywords
search
partial area
partial
document
area
Prior art date
Application number
PCT/JP2008/070733
Other languages
English (en)
French (fr)
Inventor
Sumitaka Okajo
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Publication of WO2009087815A1 publication Critical patent/WO2009087815A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Definitions

  • the present invention relates to a similar document search system, and more particularly to a similar document search system that can search a desired electronic document at high speed based on the document area layout.
  • a large number of electronic documents with mixed text and diagrams are created using presentation creation software.
  • a paper document is frequently read into a computer as a document image (electronic document) using an optical device such as a scanner.
  • the text-based search has a problem that a search keyword is necessary and it is difficult to narrow down when the number of hits is large.
  • searcher wants to search for a previously accessed slide with ambiguous memory, he or she cannot search for the slide without thinking of an appropriate keyword. Also, in a search using only keywords, there is a high possibility that many documents will be hit. In this case, the searcher needs to check a large number of hit slides one by one.
  • Patent Document 1 Japanese Patent Laid-Open No. 2006-163841.
  • This similar document search system includes an area dividing unit, an area feature extracting unit, an image area management DB, a feature amount updating unit, and an area similarity comparing unit.
  • the similar document search system having such a configuration operates as follows.
  • the area dividing unit extracts a plurality of partial areas constituting the image from the registered document image.
  • the region feature extraction unit calculates the number of partial regions and the position of the center of gravity, aspect ratio, size, and color feature of each partial region.
  • the feature amount updating unit stores each partial region in the image region management DB using the calculated number of partial regions and the position of the center of gravity as indexes.
  • the area dividing unit extracts a plurality of partial areas constituting the image from the search source document image input by the searcher.
  • the area feature extraction unit calculates the number of partial areas, the center of gravity position, the aspect ratio, the size, and the color characteristics of each partial area for the search source document image.
  • the region similarity comparison unit refers to the index to extract from the image region management DB a partial region that matches the number of the plurality of partial regions and the centroid position constituting the search source document image, and reads the extraction result into the memory. .
  • the region similarity comparison unit narrows down the registered images based on the read partial region, and searches for the images with the registered images narrowed down.
  • the registration of the center of gravity position in the index is performed as follows.
  • the registered document image is divided into a plurality of preset blocks (hereinafter, divided blocks).
  • a divided block in which the center of gravity of the partial region exists is obtained.
  • the identification information of the divided block is registered in the index as the barycentric position.
  • the area dividing unit divides the search source document image input by the searcher into partial areas.
  • the region feature extraction unit extracts the number, the position of the center of gravity, the aspect ratio, the size, and the color feature of each partial region from the search source document image.
  • the region similarity comparison unit determines a divided block near the center of gravity of each partial region. Thereby, it is said that omission of search can be prevented when the barycentric position of the partial area extracted from the search source document image is located at the limit of the block division boundary line.
  • the boundary line and The divided blocks that are adjacent to each other across the boundary line intersection are also treated as divided blocks in which the center of gravity exists.
  • the region similarity comparison unit refers to the index using the block near the center of gravity of the partial region extracted from the search source document image, and reads the feature amount of the corresponding partial region into the memory.
  • the area similarity comparison unit compares the read feature quantity with the feature quantity of the partial area of the search source document image, and narrows down documents having partial areas whose difference is within an allowable range.
  • the area similarity comparison unit calculates the similarity of the feature amount between the narrowed down document image and the search source document image, and uses the list of registered document images arranged in descending order of the similarity as a search result.
  • Patent Document 1 uses the position of the center of gravity of a partial area as an index used for narrowing down electronic documents.
  • the center-of-gravity positions of the partial areas may be close even if the partial areas have different sizes, and may be close even if the partial areas have different shapes.
  • An object of the present invention is to provide a similar document search system, a similar document search method, and a recording medium that can solve the above-described problems.
  • the similar document search system of the present invention stores a plurality of items set in advance based on characteristics related to the size, shape, and position of a partial area in an electronic document, and a plurality of electronic documents. For each partial area in the electronic document, partial area information indicating the partial area is stored in association with an item corresponding to the partial area of the plurality of items and an electronic document including the partial area.
  • a storage means a receiving means for receiving a search partial area; an extraction means for extracting feature information relating to the size, shape, and position of the search partial area from the search partial area; and A search item corresponding to a search partial area is identified using the feature information, and an electronic device having a partial area indicated by the partial area information corresponding to the search item with reference to the storage means Document Comprising specifying means for constant, the.
  • the similar document search method of the present invention is a similar document search method in a similar document search system, and includes a plurality of items set in advance based on characteristics relating to the size, shape, and position of a partial area in an electronic document, For each partial area in the plurality of electronic documents, the partial area information indicating the partial area is an item corresponding to the partial area of the plurality of items. And the electronic document including the partial area, stored in the storage means, accepting the search partial area, and from the partial area for search, characteristic information regarding the size, shape, and position of the partial area for search A search item corresponding to the search partial region among the plurality of items is specified using the feature information, and the storage unit is referred to and the partial region corresponding to the search item is extracted. Information Specifying the electronic document having a partial region which is.
  • the recording medium of the present invention stores, in a storage means, a plurality of items preset based on characteristics relating to the size, shape and position of a partial area in an electronic document and a plurality of electronic documents in a computer. For each partial area in the plurality of electronic documents, the partial area information indicating the partial area corresponds to an item corresponding to the partial area of the plurality of items and an electronic document including the partial area.
  • a storage procedure to be stored in the storage means a reception procedure for accepting a search partial area, an extraction procedure for extracting feature information on the size, shape and position of the search partial area from the search partial area,
  • a search item corresponding to the search partial area among the plurality of items is specified using the feature information, and is indicated by the partial area information corresponding to the search item with reference to the storage means.
  • Is A computer-readable recording medium recording a program for executing a specific procedure for identifying the electronic document having the partial region.
  • FIG. 1 is a block diagram showing a similar document search system according to a first embodiment of this invention.
  • the similar document search system includes a computer 100, an input device 200, and an output device 300.
  • the computer 100 is, for example, a central processing unit, a processor, or a data processing unit.
  • the input device 200 accepts various inputs.
  • the input device 200 receives an electronic document to be searched (hereinafter referred to as “search target electronic document”) at the time of document registration, and receives search pattern information at the time of searching.
  • search target electronic document an electronic document to be searched
  • the output device 300 outputs the search result.
  • the output device 300 is, for example, a display or a printer.
  • the computer 100 includes a document registration unit 101, a document database 102, a region generation unit 103, a region feature extraction unit 104, a feature amount database 105, a search query generation unit 106, a feature amount reference unit 109, and a similarity degree.
  • a calculation unit 110 and a search result generation unit 111 are included.
  • the document database 102 and the feature amount database 105 are included in the storage unit 1.
  • the computer 100 operates according to a program recorded in the hard disk or memory.
  • a hard disk or memory can be generally called a computer-readable recording medium.
  • the computer 100 reads a program from a recording medium and executes it to execute a document registration unit 101, a document database 102, a region generation unit 103, a region feature extraction unit 104, a feature amount database 105, a search query generation unit 106, and a feature amount reference unit. 109, the similarity calculation unit 110, and the search result generation unit 111.
  • the document registration unit 101 can be generally called registration means.
  • the document registration unit 101 registers the search target electronic document received by the input device 200 in the document database 102 in association with information (document ID) for identifying the search target electronic document.
  • the document database 102 can generally be called a document storage means.
  • the document database 102 stores the search target electronic document input by the document registration unit 101.
  • the area generation unit 103 can generally be referred to as area generation means.
  • the region generation unit 103 generates and extracts a plurality of partial regions from the search target electronic document.
  • the partial area refers to a component (configuration pattern) of a document classified by an attribute such as text, diagram, table, image or graph.
  • the region feature extraction unit 104 can be generally called extraction means.
  • the region feature extraction unit 104 extracts the feature amount from each partial region extracted by the region generation unit 103 and each partial region (each partial region for search) in the search query 107 generated by the search query generation unit 106 described later. To extract.
  • the region feature extraction unit 104 extracts, for example, information representing the size, shape, and position of each partial region as the feature amount of each partial region.
  • the region feature extraction unit 104 registers the feature amount extracted from the partial region of the search target electronic document in the feature amount database 105 in association with the search target electronic document and the partial region.
  • the area feature extraction unit 104 selects a search target from a plurality of items (hereinafter, simply referred to as “a plurality of items”) set in advance according to features related to the size, shape, and position of the partial area.
  • the item corresponding to the partial region of the electronic document is specified using the feature amount (document feature information) extracted from the partial region of the electronic document to be searched.
  • the region feature extraction unit 104 For each partial region in the plurality of search target electronic documents, the region feature extraction unit 104 sets partial region information (region ID) indicating the partial region, an item corresponding to the partial region among a plurality of items, The identification information (document ID) of the electronic document including the partial area is registered in the feature amount database 105 in association with the identification information (document ID).
  • the region feature extraction unit 104 provides the feature amount (feature information) extracted from the partial region in the search query 107 to the feature amount reference unit 109 as the search query feature amount 108.
  • the feature quantity database 105 can be generally called feature information storage means.
  • the feature database 105 stores a plurality of items and document IDs of a plurality of search target electronic documents.
  • the feature amount database 105 includes, for each partial area in the plurality of search target electronic documents, an area ID, an item corresponding to the partial area of the plurality of items, and a document ID of the electronic document including the partial area And stored in association with each other.
  • the search query generation unit 106 can be generally called reception means.
  • the search query generation unit 106 uses the search unit received by the input device 200 (search pattern information, for example, a plurality of search partial areas and the priority of each search partial area).
  • search pattern information for example, a plurality of search partial areas and the priority of each search partial area.
  • a search query 107 including the layout of the area and the priority of each search partial area is generated.
  • the feature amount reference unit 109 can be generally referred to as specifying means.
  • the feature amount reference unit 109 uses the search query feature amount 108 from the region feature extraction unit 104 to refer to the index stored in the feature amount database 105 and specifies a search item corresponding to the search query feature amount 108. .
  • the feature amount reference unit 109 refers to the feature amount database 105 to search (specify) a search target electronic document having a partial area corresponding to the search item.
  • the similarity calculation unit 110 can be generally called a calculation means.
  • the similarity calculation unit 110 compares the feature amounts of the partial areas of the search target electronic document searched by the feature amount reference unit 109 with the search query feature amount 108 to calculate the similarity between the two.
  • the search result generation unit 111 can be generally called output means.
  • the search result generation unit 111 specifies a search target electronic document similar to the search query 107 among the search target electronic documents in the document database 102 based on the similarity calculated by the similarity calculation unit 110, and is specified. A search result indicating the search target electronic document is generated.
  • the storage unit 1 can be generally referred to as storage means.
  • the storage unit 1 stores a plurality of items and a plurality of electronic documents. Also, for each partial region in the plurality of electronic documents, partial region information indicating the partial region is stored in the plurality of items. The item corresponding to the partial area is stored in association with the electronic document including the partial area.
  • FIG. 2 is a flowchart for explaining an operation of registering a search target electronic document.
  • FIG. 1 and FIG. 2 an operation of registering a search target electronic document will be described.
  • the registrant operates the input device 200 to input a search target electronic document (step A1).
  • the document registration unit 101 assigns a document ID (identification information) for uniquely identifying the input search target electronic document to the search target electronic document. Subsequently, the document registration unit 101 stores the search target electronic document to which the document ID is assigned in the document database 102 (step A2).
  • FIG. 3 is an explanatory diagram showing an example of data 501 stored in the document database 102.
  • the document database 102 stores a document ID 501a and a file path 501b indicating the storage location (in the document database 102) of the search target electronic document to which the document ID 501a is assigned in association with each other. .
  • the document database 102 stores document information such as a document name (file name), a creator, a creation date / time, or a registration date / time in association with the document ID 501a regarding the electronic document to be searched. Good.
  • the area generation unit 103 generates and extracts a partial area from the search target electronic document (step A3).
  • the partial region is, for example, a character, a line, a text region composed of a plurality of characters or lines, a diagram, a table, a graph, or an image in the electronic document to be searched.
  • the region generation unit 103 When the electronic document to be searched is a document image (document indicated by an image), the region generation unit 103 generates a partial region from the document image using related technology. As a related technique for generating a partial region from a document image, threshold processing, labeling processing, edge processing, or the like is used. For example, the region generation unit 103 classifies the partial region obtained by performing the above processing into a text region, a figure, a table, a graph, an image, and the like based on image features such as size, shape, and pixel distribution. To do.
  • the region generation unit 103 analyzes the data file. By doing so, partial regions are generated, extracted, and classified.
  • the search target electronic document is an electronic document (for example, an electronic document including a plurality of slides) created by the presentation creation software
  • the search target electronic document is not limited to an electronic document created by the presentation creation software, and may be a document image as described above.
  • the region feature extraction unit 104 generates an MBR (minimum circumscribed rectangle) for each partial region generated by the region generation unit 103. Subsequently, the region feature extraction unit 104 uses the coordinates of two vertices (diagonal) forming a diagonal line of the MBR (hereinafter referred to as “MBR coordinates”), the region type, the barycentric coordinate, as the feature amount of each partial region. The area and the aspect ratio are extracted (step A4).
  • MBR coordinates represent characteristics related to the size, shape, and position of the partial area. Also, the MBR coordinates and the area type can be generally called document feature information.
  • FIG. 4 is an explanatory diagram showing an example of feature amount extraction.
  • the area generation unit 103 identifies and extracts two partial areas, a text area 502a and a figure area 502b.
  • the region feature extraction unit 104 extracts, from each of the partial regions 502a and 502b, MBR coordinates, for example, the upper left corner and the lower right coordinate of the MBR with the upper left corner C of the slide as the origin.
  • the region feature extraction unit 104 extracts (20, 10) and (220, 60) from the partial region 502a, and extracts (20, 80) and (220, 180) from the partial region 502b. (See slide 503 in FIG. 4).
  • the region feature extraction unit 104 extracts the center of gravity coordinates, area, and aspect ratio of the MBR for each partial region.
  • the area feature extraction unit 104 extracts the barycentric coordinates (120, 35), the area 10000, and the aspect ratio 4.0 from the partial area 502a. Further, the region feature extraction unit 104 extracts the barycentric coordinates (120, 130), the area 20000, and the aspect ratio 2.0 from the partial region 502b.
  • the area feature extraction unit 104 gives an area ID (identification information) for uniquely identifying each partial area to each partial area.
  • the area feature extraction unit 104 selects an item corresponding to the partial area of the search target electronic document from among a plurality of items set in advance according to the characteristics related to the size, shape, and position of the partial area.
  • the document feature information extracted from the partial area of the document is used for identification.
  • the area feature extraction unit 104 For each partial area in the electronic document to be searched, the area feature extraction unit 104 sets the area ID of the partial area, an item corresponding to the partial area among a plurality of items, and a document of the electronic document including the partial area It is registered in the feature amount database 105 in association with the ID (step A5).
  • step A5 Next, the index registration process in step A5 will be described in detail.
  • the region feature extraction unit 104 uses a block combination pattern (divided block pattern) in which the shape formed by the selected block is a rectangle as an index. One of the keys.
  • the plurality of items are represented by a combination of rectangles formed based on blocks in which diagonals of partial areas exist among the plurality of blocks.
  • FIG. 5 is an explanatory diagram showing a block combination pattern (divided block pattern) when the slide is divided into 3 ⁇ 3 blocks.
  • the region feature extraction unit 104 employs the region type (text, diagram, table, graph, image, etc.) of the partial region as another index key.
  • one record of the index is composed of a divided block pattern, an area type, and an area ID. For this reason, in one record of the index, an area ID can be obtained by using a combination of a divided block pattern and an area type as a key.
  • the divided block pattern corresponding to the extracted partial area is determined by which divided block pattern out of 36 divided block patterns the position, size, and shape of the partial area match.
  • the region feature extraction unit 104 determines a divided block pattern corresponding to the extracted partial region depending on which block the MBR coordinate of the partial region is included in among the nine blocks.
  • the region feature extraction unit 104 assigns IDs 1 to 9 to each divided block as shown in FIG.
  • the region feature extraction unit 104 determines a divided block pattern corresponding to each partial region as shown in FIG. 7 as follows.
  • the region feature extraction unit 104 determines the divided block pattern corresponding to the partial region 504 as the divided block pattern 1.
  • the region feature extraction unit 104 determines the divided block pattern corresponding to the partial region 505 as a divided block pattern 1-2-4-5.
  • the region feature extraction unit 104 determines the divided block pattern corresponding to the partial region 506 as the divided block pattern 1-2-3.
  • the region feature extraction unit 104 registers the combination of the divided block pattern, the region type of the partial region, and the region ID of the partial region in the feature amount database 105 as the partial region index.
  • FIG. 8 is an explanatory diagram showing an example of an index.
  • the region feature extraction unit 104 stores the index in the feature amount database 105.
  • the region feature extraction unit 104 also applies the document ID of the search target electronic document from which the feature amount is extracted regarding the barycentric coordinates, area, and aspect ratio, which are detailed feature amounts related to the position, size, and shape of the partial region. And the feature number database 105 together with the slide number.
  • FIG. 9 is an explanatory diagram showing an example of detailed feature amount data regarding the position, size, and shape of the partial area stored in the feature amount database 105.
  • the combination of the region ID of the partial region, the barycentric coordinates, the area, the aspect ratio, the extraction source document ID, and the slide number is stored in the feature amount database 105.
  • step A4 and step A5 are performed for all partial areas (step S4).
  • step S4 NO the registration process is finished.
  • FIG. 10 is a flowchart for explaining the similar document search operation. Hereinafter, with reference to FIG. 1 and FIG. 10, the operation of the similar document search will be described.
  • a searcher operates the input device 200 to input a partial area layout as search pattern information for searching a desired document to the search query generation unit 106.
  • the search query generation unit 106 generates a search query based on the partial region layout (step B1).
  • the searcher inputs the partial area layout using, for example, the screen shown in FIG.
  • the searcher inputs the partial area layout using the input device 200 such as a keyboard or a mouse while viewing the screen 601 displayed on the output device 300 such as a display.
  • the searcher first uses the region type selection unit 602 to select one of the region types.
  • the search query generation unit 106 selects a rectangular region (for search) according to the region type selected by the region type selection unit 602. Draw a partial area.
  • the searcher can select a drawn rectangle with a mouse and move the position of the rectangle, change the shape, and enlarge / reduce the size.
  • the text area 603a is designated at the top of the slide, and the figure area 603b is designated at the bottom of the slide.
  • the searcher can give priority (weight) to each partial area on the screen 601.
  • Priority is given based on the strength of the impression of the searcher's partial area and the likelihood of memory.
  • the search query generation unit 106 gives higher priority to the rectangular region (search partial region) as the rectangular region is displayed in the earlier order in which the searcher draws on the layout input unit 603.
  • the search query generation unit 106 assigns a higher priority to the previously received search partial area among the plurality of search partial areas, and accepts the assigned priority.
  • weights are automatically assigned in that order based on the recognition that the searcher draws from a partial area that is more likely to be stored.
  • the search query generation unit 106 gives the highest priority to the text area 603a. And gives the lowest priority to the diagram area 603b.
  • the priority may be changed later by the searcher by clicking the “Priority” displayed on the layout input unit 603 with a mouse.
  • the region feature extraction unit 104 extracts the search query feature value 108 from the search query 107 related to the layout of the partial region generated by the search query generation unit 106 (step B2).
  • the search query feature value 108 includes feature information regarding the size, shape, position, and region type of the partial region for search.
  • step A4 The process for extracting the search query feature quantity 108 is the same as that in step A4 for extracting the feature quantity from the search target electronic document when the search target electronic document is registered, and a detailed description thereof will be omitted.
  • FIG. 12 is an explanatory diagram showing an example of the search query feature value 108.
  • the feature amount reference unit 109 refers to the index in the feature amount database 105 using the search query feature amount 108 and corresponds to an item (search item) corresponding to the partial area included in the search query 107.
  • the area ID is searched (step B3).
  • the feature amount reference unit 109 obtains the divided block pattern and area type of the partial area included in the search query 107, and searches the index shown in FIG. 8 using the combination as a key.
  • the feature amount reference unit 109 determines that the partial area of the search query 107 is close to the boundary of the divided blocks. There is a possibility that the document is judged to have a different divided block pattern and a search omission may occur.
  • the right side is the divided block.
  • the text area 611 of the electronic document to be searched that is very close to the boundary between ID2 and ID3 and whose right side is included in the divided block ID3 is not searched.
  • the feature amount reference unit 109 adds the divided block pattern 1 in addition to the search target electronic document 613 in which the partial area exists in the divided block pattern 1-2 as shown in FIG.
  • the search target electronic document 614 having a partial area at 2-3 is also searched from the index.
  • FIG. 16, and FIG. 17 are explanatory diagrams for explaining an algorithm for determining an appropriate divided block pattern even when the boundary line of the search query region is close to the boundary of the divided block.
  • the feature quantity reference unit 109 acquires MBR coordinates from the search query feature quantity 108 of the area included in the search query 107 (step B301).
  • the upper left coordinate of the MBR is M1
  • the lower right coordinate is M2.
  • the feature quantity reference unit 109 adds the divided block ID including M1 to the pattern candidate block set PB1, and adds the divided block ID including M2 to the pattern candidate block set PB2 (step B302).
  • the feature quantity reference unit 109 obtains a divided block in the X-axis direction (W direction in FIG. 15) that is closest to M1. Subsequently, the feature amount reference unit 109 obtains a value MX1 obtained by dividing the distance DX1 between the divided block and M1 in the X-axis direction by the width W of the divided block (step B303).
  • the feature amount reference unit 109 obtains a divided block in the Y-axis direction (H direction in FIG. 15) closest to M1. Subsequently, the feature quantity reference unit 109 obtains a value MY1 obtained by dividing the distance DY1 between the divided block and M1 in the Y-axis direction by the height H of the divided block (step B304).
  • the feature amount reference unit 109 determines the divided block in the X-axis direction closest to M1. Is added to PB1 (step B306).
  • the feature amount reference unit 109 proceeds to the next process.
  • the feature amount reference unit 109 adds the ID of the divided block in the Y-axis direction closest to M1 to PB1 ( Step B308).
  • the feature amount reference unit 109 proceeds to the next process.
  • the feature amount reference unit 109 determines the X-axis direction divided block closest to M1 and the Y closest to M1.
  • the IDs of blocks adjacent to both the axially divided blocks that is, blocks adjacent to the blocks added to PB1 in steps B306 and B308, respectively) are added to PB1 (step B310).
  • the feature value reference unit 109 proceeds to the next process (NO in step B309).
  • the feature quantity reference unit 109 obtains a divided block in the X-axis direction that is closest to M2, and obtains a value MX2 obtained by dividing the distance DX2 between the divided block and M2 in the X-axis direction by the width W of the divided block ( Step B311).
  • the feature amount reference unit 109 obtains a divided block in the Y-axis direction closest to M2, and obtains a value MY2 obtained by dividing the distance DY2 between the divided block and M2 in the Y-axis direction by the height H of the divided block ( Step B312).
  • the feature amount reference unit 109 adds the ID of the divided block in the X-axis direction closest to M2 to PB2 ( Step B314).
  • the feature amount reference unit 109 proceeds to the next process.
  • the feature amount reference unit 109 adds the ID of the divided block in the Y-axis direction closest to M2 to PB2 ( Step B316).
  • the feature amount reference unit 109 proceeds to the next process.
  • the feature amount reference unit 109 determines the X-axis direction divided block closest to M2 and the Y closest to M2.
  • the IDs of blocks adjacent to both the axially divided blocks that is, blocks adjacent to the blocks added to PB2 in steps B314 and B316, respectively) are added to PB2 (step B318).
  • feature amount reference unit 109 proceeds to the next process (NO in step B317).
  • the feature amount reference unit 109 obtains each combination of the block included in PB1 and the block included in PB2, and is formed based on the block included in PB1 and the block included in PB2 in each combination.
  • a divided block pattern indicating a rectangle is obtained (step B319).
  • step B3 when the area ID is obtained by referring to the index of FIG. 8 using the divided block pattern and the area type as a key, the feature amount reference unit 109 uses the divided block pattern obtained in step B319. .
  • FIG. 18 is an explanatory diagram showing a specific application example of the above algorithm.
  • the feature amount reference unit 109 sends the divided blocks 5, 4 to PB1. 4 and 1 are stored. Furthermore, when the distance between M2 and the divided block 8 is equal to or smaller than the threshold value, the feature amount reference unit 109 stores the two IDs of the divided blocks 9 and 8 in PB2.
  • the feature quantity reference unit 109 uses eight divided block patterns as shown in the right part of FIG. 18 as divided block patterns indicating rectangles formed based on the blocks included in PB1 and the blocks included in PB2. Get.
  • the feature quantity reference unit 109 refers to the feature quantity data shown in FIG. 9 using the area ID obtained in step B3, and acquires the document ID and slide number including these area IDs (step B4). ).
  • the feature amount reference unit 109 performs the processing of steps B3 and B4 for all the regions included in the search query 107 obtained in steps B1 and B2 (step B5).
  • the feature amount reference unit 109 includes partial areas that correspond one-to-one with items corresponding to the partial areas of the search query 107.
  • the search target electronic document is specified (step B6).
  • FIG. 19 is an explanatory diagram showing a specific example of the process of step B6.
  • FIG. 19 two partial areas, a text area 19a and a figure area 19b, are designated as a search query.
  • the feature amount reference unit 109 performs a logical product of the document ID and the slide number obtained in each partial area.
  • the slide with the document ID P001 and the slide number 1 (search target electronic document) and the slide with the document ID P002 and the slide number 2 (search target electronic document) are specified.
  • the similarity calculation unit 110 calculates the similarity between the slide obtained in step B6 and the search query (step B7).
  • the similarity calculation unit 110 calculates the similarity between the partial area in the search target electronic document and the partial area for search corresponding to the same item as the similarity calculation. Specifically, the similarity calculation unit 110 uses a weighted average of partial region similarities, which are similarities for each partial region corresponding to the same item.
  • a cosine scale based on an angle ⁇ formed by a feature vector obtained from the feature amount of the partial region information is used.
  • the feature amount data shown in FIG. 9 is expressed by a four-dimensional vector of the centroid x-coordinate v1, the centroid-y coordinate v2, the area v3, and the aspect ratio v4, it is converted from the partial region included in the search query 107.
  • the similarity sim (Qi, Ri) using a cosine measure between the feature vector Qi of the search query feature 108 and the feature vector Ri of the region corresponding to the partial region in the search query stored in the feature database 105 is It can be obtained as shown in FIG.
  • the similarity calculation unit 110 calculates the partial region similarity sim (Q, Ri) with the corresponding region for all partial regions included in the search query 107 for each document obtained in step B6.
  • the similarity calculation unit 110 assigns the weights of the partial areas given when the search query 107 is created in step B1 as the final integrated similarity SIM between the search query 107 and the search target electronic document (FIG. 12). Priority) is used to calculate the weighted average of the similarity of the partial areas.
  • FIG. 21 is an explanatory diagram showing an example of an expression for obtaining a weighted average of similarity in partial areas.
  • the similarity calculation unit 110 gives the reciprocal of priority (i) to each partial area as a weight, and obtains an average value thereof.
  • the reciprocal of priority (i) is used as a weight to be given to each partial area.
  • a function that uses a value corresponding to each priority determined in advance or whose weight changes in the order of priority is used. May be used.
  • 22 and 23 are explanatory diagrams showing specific examples of the integrated similarity calculation in FIG.
  • the slide number 1 of the document P001 and the slide number 2 of the document P002 are specified by the processing of steps B3 to B6.
  • the similarity calculation unit 110 uses the search query feature quantity 617, the feature quantity 618 of the slide number 1 of the document P001, and the feature quantity 619 of the slide number 2 of the document P002, and integrates them using the formula shown in FIG. Calculate similarity SIMs respectively.
  • slide number 2 of document P002 has a higher similarity than slide number 1 of document P001, that is, slide number 2 of document P002 is more similar to the search query. Yes.
  • the search result generation unit 111 sorts the similarity calculation results in step B7 in descending order of similarity, generates a document list arranged in an order more similar to the search query as the search result 400, and outputs it It outputs to the apparatus 300 (step B8).
  • a search query is first generated by referring to the feature quantity representing the position, size, and shape of the partial region extracted from the search target electronic document in advance. Only documents having partial areas substantially the same as the position, size, and shape of the partial area to be represented are sufficiently narrowed down from the electronic document to be searched at a time. Next, similarity calculation is performed with respect to only the narrowed down documents with the search query.
  • a weight (priority) relating to the strength of the impression of the partial area or the certainty of memory is given to the searcher. For this reason, a similar document can be searched based on the weight.
  • the storage unit 1 stores a plurality of items set in advance based on characteristics related to the size, shape, and position of the partial area in the electronic document, and a plurality of search target electronic documents.
  • the storage unit 1 corresponds to the area ID for each partial area in the plurality of search target electronic documents, the item corresponding to the partial area of the plurality of items, and the electronic document including the partial area. Store with attachments.
  • the feature quantity reference unit 109 identifies a search item to which the search partial area corresponds among a plurality of items using the feature information of the search partial area, and refers to the storage unit 1 as a search item. An electronic document to be searched having a corresponding partial area is specified.
  • search target electronic documents are further narrowed down from the search result using the index, it is possible to reduce the number of search target electronic documents to be narrowed down. Therefore, it is possible to increase the search processing speed.
  • the partial area and the search partial area are rectangular.
  • the region feature extraction unit 104 extracts the diagonal position of the search partial region as feature information.
  • the diagonal position of the search partial area is a value corresponding to the size, shape, and position of the search partial area. Therefore, the feature information can be represented by simple information such as the diagonal position of the search partial area.
  • the search query generation unit 106 accepts a plurality of search partial areas and the priority of each search partial area.
  • the region feature extraction unit 104 extracts feature information from each of the plurality of search partial regions.
  • the feature amount reference unit 109 specifies, for each search partial area, a search item corresponding to the search partial area using the feature information of the search partial area, refers to the storage unit 1, and An electronic document having a partial area corresponding to each search item on a one-to-one basis is specified.
  • the similarity calculation unit 110 calculates the similarity between the partial area corresponding to the same search item and the search partial area for each electronic document specified by the feature amount reference unit 109.
  • the similarity calculation unit 110 weights the calculation result according to the priority of the search partial area used for the calculation, and based on the weighted similarity, the electronic document and a plurality of search The integrated similarity with the partial area is calculated.
  • the search query generation unit 106 assigns a higher priority to the previously received search partial area among the plurality of search partial areas, and accepts the assigned priority.
  • the similarity calculation unit 110 assigns a larger weight to a calculation result using a search partial region having a higher priority among the calculation results of the similarity.
  • the searcher is more likely to perform drawing from a search partial area that is more likely to be stored. For this reason, it is possible to give a large weight to a partial area for search that is more likely to be stored.
  • the similarity calculation unit 110 weights the similarity calculation results in the same search target electronic document according to the priority of the search partial area used for the calculation, The weighted average of the weighted similarities is calculated as the integrated similarity.
  • the integrated similarity can be obtained by a calculation method called a weighted average of weighted similarities.
  • the storage unit 1 further associates, for each partial region in the plurality of search target electronic documents, the barycentric coordinates, area, and aspect ratio of the partial region with partial region information indicating the partial region. Store with attachments.
  • the region feature extraction unit 104 further extracts the barycentric coordinates, area, and aspect ratio of the search partial region from each of the plurality of search partial regions.
  • the similarity calculation unit 110 calculates the similarity between the partial area corresponding to the same search item and the partial area for search, the barycentric coordinates, area, and aspect ratio of the partial area, and the barycentric coordinates, area, and aspect ratio of the partial area for search. And calculate using
  • the similarity can be calculated with high accuracy.
  • the plurality of items is a rectangular shape formed based on a block in which the diagonal of the partial area exists among the plurality of blocks. Represented by a combination.
  • the feature amount reference unit 109 specifies a search item from a plurality of items using a rectangle formed based on a block in which a diagonal of a search partial area exists among a plurality of blocks.
  • the partial area can be classified into any of a plurality of rectangles formed by a plurality of blocks, and a search item can be specified according to this classification.
  • the feature amount reference unit 109 further performs diagonal processing when the distance between the diagonal position of the search partial region and the boundary between blocks is equal to or smaller than a predetermined threshold value.
  • a block adjacent to the block in which is located is added as a block having a diagonal, and a search item is specified using a rectangle formed based on the block having a diagonal.
  • the items relate to the size, shape, position, and area type of the partial area.
  • the area feature extraction unit 104 extracts information on the size, shape, position, and area type of the search partial area from the search partial area as feature information.
  • the document registration unit 101 accepts a search target electronic document and stores the search target electronic document in the storage unit 1.
  • the region generation unit 103 extracts a partial region from the search target electronic document.
  • the region feature extraction unit 104 extracts document feature information related to the size, shape, and position of the partial region from the extracted partial region.
  • the region feature extraction unit 104 identifies an item corresponding to the partial region among a plurality of items using the document feature information.
  • the area feature extraction unit 104 stores partial area information indicating the partial area in the storage unit 1 in association with items corresponding to the partial area and an electronic document including the partial area.
  • information can be automatically stored in the storage unit 1.
  • FIG. 24 is a block diagram showing a similar document search system according to the second embodiment of this invention.
  • the similar document search system includes a computer 100A, an input device 200, and an output device 300.
  • the same components as those shown in FIG. 24 are identical to FIG. 24.
  • the computer 100A is, for example, a central processing unit, a processor, or a data processing device.
  • the computer 100A includes a document registration unit 101, a document database 102, a region generation unit 103, a region feature extraction unit 104, a feature amount database 105, a feature amount reference unit 109, a similarity calculation unit 110, and a search result.
  • a generation unit 111, a search source document specification unit 112, and a search query correction unit 113 are included.
  • the search result generation unit 111 and the search source document specification unit 112 are included in the reception unit 2.
  • the computer 100A operates according to a program recorded on a recording medium such as a hard disk or a memory.
  • the computer 100A reads and executes a program from a recording medium, thereby executing a document registration unit 101, a document database 102, a region generation unit 103, a region feature extraction unit 104, a feature amount database 105, a feature amount reference unit 109, and a similarity calculation unit. 110, the search result generation unit 111, the search source document specification unit 112, and the search query correction unit 113.
  • the unit 111 has the same configuration as that of the first embodiment shown in FIG.
  • the search source document specifying unit 112 can be generally referred to as electronic document receiving means.
  • the search source document specifying unit 112 accepts a desired electronic document having a partial area.
  • the search source document specifying unit 112 does not generate a search query from the beginning as in the first embodiment, but has a layout similar to a desired document that the searcher wants to search. Specify the document.
  • the search query correction unit 113 can be generally called correction means.
  • the search query correction unit 113 corrects the partial area in the desired electronic document, and receives the corrected partial area as a search partial area.
  • the search query correcting unit 113 corrects the area layout generated from the document specified by the search source document specifying unit 112 based on a correction instruction from the searcher, and generates a final search query. .
  • FIG. 25 is a flowchart for explaining the operation of the present embodiment.
  • the registration process of the search target electronic document in the present embodiment is the same as the steps A1 to A6 in FIG. 2 in the case of the first embodiment, and a description thereof will be omitted.
  • the searcher operates the input device 200 to specify an electronic document having a layout similar to the desired document to be searched in the search source document specifying unit 112 (step C1).
  • a document registered in the document database storage unit 102 may be selected, or a new document that is not registered may be input.
  • the area generation unit 103 generates and extracts a partial area from the document specified in step C1 in the same manner as in step A3 of FIG. 2 (step C2).
  • the searcher operates the input device 200 to operate the search query correction unit 113.
  • the search query correction unit 113 specifies the priority of the partial area extracted in step C2 according to the searcher's correction instruction, and corrects the position, size, shape, etc. of the partial area as necessary. Generate the final search query. (Step C3).
  • the area generation unit 103 extracts the text area 623a and the figure area 623b as shown in FIG. .
  • the search query correction unit 113 displays a screen as shown in FIG. 27 on the output device 300 such as a display connected to the computer 100A.
  • the searcher modifies the partial area layout using the input device 200 such as a keyboard and a mouse while viewing the screen 621 displayed on the output device 300.
  • the searcher selects the drawn rectangle with a mouse or the like, and corrects the area layout by moving the position of the rectangle, changing the shape, or enlarging / reducing the size.
  • the searcher can select a region type using the region type selection unit 622, and draw a rectangle by dragging the mouse to add a new region.
  • searcher can also change the area type by selecting the part displayed as “text area” and “figure area” with a mouse or the like.
  • FIG. 28 is an explanatory diagram showing an example of a screen when the priority of the diagram area 623b is designated as “2”. When no priority is specified, all partial areas are given equal weight.
  • step C4 uses the search query 107 generated in step C3.
  • step C9 is the same as the processing from step B2 to step B7 in FIG.
  • the search result generation unit 111 sorts the similarity calculation results in step C9 in descending order of similarity, generates a document list arranged in an order more similar to the search query as the search result 400, and outputs the output device. It outputs to 300 (step C10).
  • a search query is generated by designating a search source document having a layout very similar to a desired document, extracting a partial area from the search source document, and correcting it.
  • the search source document designating unit 112 accepts a desired electronic document having a partial area.
  • the search query correction unit 113 corrects the partial area in the desired electronic document, and receives the corrected partial area as a search partial area.
  • FIG. 29 is a block diagram showing a similar document search system according to the third embodiment of the present invention.
  • the similar document search system includes a computer 100B, an input device 200, and an output device 300.
  • the third embodiment will be described focusing on differences from the first embodiment.
  • the document registration unit 101 Compared with the first embodiment (computer 100), in the third embodiment (computer 100B), the document registration unit 101, the region generation unit 103, the similarity calculation unit 110, and the search result generation unit 111 are omitted.
  • the computer 100B is, for example, a central processing unit, a processor, or a data processing device.
  • the computer 100B includes a storage unit 1, a region feature extraction unit 104, a search query generation unit 106, and a feature amount reference unit 109.
  • the computer 100B operates according to a program recorded on a recording medium such as a hard disk or a memory.
  • the computer 100B functions as the storage unit 1, the region feature extraction unit 104, the search query generation unit 106, and the feature amount reference unit 109 by reading and executing the program from the recording medium.
  • the computer 100B since the computer 100B includes the storage unit 1, the region feature extraction unit 104, the search query generation unit 106, and the feature amount reference unit 109, as described in the first embodiment, Only documents having partial areas substantially the same as the position, size, and shape of the partial area for search can be sufficiently narrowed down from a plurality of electronic documents to be searched at once.
  • search target electronic documents are further narrowed down from the search result using the index, it is possible to reduce the number of search target electronic documents to be narrowed down. Therefore, it is possible to increase the search processing speed.
  • the embodiments described above can be applied to uses such as an information search device that searches a document based on a layout of a partial area of an electronic document, and a program for realizing them in a computer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 大量の電子文書から所望の文書を検索するにあたり、部分領域のレイアウトに基づくクエリを用いて的確な検索結果を高速に得られるようにする。  類似文書検索システムは、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と複数の電子文書を格納し、複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する格納部1と、検索用部分領域を受け付ける受付部106と、検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出部104と、複数の項目の中で検索用部分領域が該当する検索用項目を、特徴情報を用いて特定し、格納部1を参照して、検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定部109と、を含む。

Description

類似文書検索システム、類似文書検索方法および記録媒体
 本発明は、類似文書検索システムに関し、特に文書の領域レイアウトに基づき所望の電子文書を高速に検索できる類似文書検索システムに関する。
 テキストと図表が混在した電子文書が、プレゼンテーション作成ソフトウェアを用いて大量に作成されている。また、スキャナなどの光学機器を用いて紙文書を文書画像(電子文書)としてコンピュータに取り込むことも盛んに行われている。
 大量の電子文書から所望の文書を検索する技術として、キーワードを用いたテキストベースでの全文検索がある。
 しかしながら、テキストベースでの検索は、検索キーワードが必要、および、ヒット数が多い場合の絞込みが困難、という問題点を有する。
 例えば、検索者は、以前にアクセスした、記憶があいまいなスライドを検索したい場合には、適切なキーワードを思い浮かばなければ、そのスライドを検索できない。また、キーワードだけの検索では、多数の文書がヒットする可能性が高い。この場合、検索者は、ヒットした多数のスライドを一つ一つ確認する必要がある。
 一方、文書画像の特徴を用いて類似文書を検索する技術がある。
 類似文書検索システムの一例が、特許文献1(特開2006-163841号公報)に記載されている。
 この類似文書検索システムは、領域分割部と、領域特徴抽出部と、画像領域管理DBと、特徴量更新部と、領域類似比較部とから構成されている。
 このような構成を有する類似文書検索システムは、つぎのように動作する。
 領域分割部は、登録文書画像から、画像を構成する複数の部分領域を抽出する。
 領域特徴抽出部は、部分領域の個数と、各部分領域の重心位置、アスペクト比、大きさおよび色特徴とを算出する。
 特徴量更新部は、算出された各部分領域の個数および重心位置をインデックスとして用いて、各部分領域を、画像領域管理DBに保存する。
 また、領域分割部は、検索者によって入力された検索元文書画像から、画像を構成する複数の部分領域を抽出する。
 領域特徴抽出部は、検索元文書画像について、部分領域の個数と、各部分領域の重心位置、アスペクト比、大きさおよび色特徴とを算出する。
 領域類似比較部は、インデックスを参照して、検索元文書画像を構成する複数の部分領域の個数および重心位置と一致する部分領域を、画像領域管理DBから抽出し、その抽出結果をメモリに読み込む。
 領域類似比較部は、その読み込まれた部分領域に基づいて、登録画像の絞込みを行い、絞り込まれた登録画像を対象にして、画像の検索を行う。
 なお、インデックスへの重心位置の登録は、以下のように行われる。
 登録文書画像が、予め設定された複数のブロック(以下、分割ブロック)に分割される。部分領域の重心が存在する分割ブロックが求められる。その分割ブロックの識別情報が、重心位置としてインデックスに登録される。
 ここで、特許文献1に記載の類似文書検索システムにおける検索時の動作を詳しく説明する。
 検索時には、領域分割部が、検索者によって入力された検索元文書画像を、部分領域に分割する。
 次に、領域特徴抽出部が、検索元文書画像について、各部分領域の個数、重心位置、アスペクト比、大きさおよび色特徴を抽出する。
 次に、領域類似比較部が、各部分領域の重心近傍の分割ブロックを決定する。これにより、検索元文書画像から抽出した部分領域の重心位置が、ブロック分割境界線ぎりぎりに位置する場合に、検索漏れを防ぐことができるとされている。
 具体的には、検索元文書画像から抽出した部分領域の重心とブロック分割境界線およびブロック境界線の交点との距離が、あらかじめ定めたしきい値以下であった場合には、それら境界線および境界線の交点を挟んで隣り合う分割ブロックも、重心位置が存在する分割ブロックとして扱われる。
 領域類似比較部は、検索元文書画像から抽出した部分領域の重心位置の近傍ブロックも用いてインデックスを参照し、該当する部分領域の特徴量をメモリ上に読み込む。
 次に、領域類似比較部は、読み込んだ特徴量と、検索元文書画像の部分領域の特徴量を比較して、それらの差が許容範囲にある部分領域を持つ文書を絞り込む。
 最後に、領域類似比較部は、絞り込まれた文書画像と検索元文書画像との間で特徴量の類似度を計算し、類似度の高い順に並べた登録文書画像のリストを検索結果として検索者に提示する。
特開2006-163841号公報
 特許文献1に記載の類似文書検索システムは、電子文書の絞込みに用いるインデックスとして、部分領域の重心位置を用いている。
 部分領域の重心位置は、大きさの異なる部分領域同士であっても近くなる場合があり、また、形状が異なる部分領域同士であっても近くなる場合がある。
 このため、インデックスとして、部分領域の重心位置が用いられた場合、大きさおよび形の大きく異なる部分領域が検索されてしまう。
 また、例えば、インデックスを用いた検索結果から、さらに電子文書の絞込みを行う場合、絞込みの対象となる電子文書が多くなる。したがって、検索処理速度が低下してしまう。
 本発明の目的は、上述した課題を解決することが可能な類似文書検索システム、類似文書検索方法および記録媒体を提供することにある。
 本発明の類似文書検索システムは、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書と、を格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する格納手段と、検索用部分領域を受け付ける受付手段と、前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手段と、前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手段と、を含む。
 本発明の類似文書検索方法は、類似文書検索システムでの類似文書検索方法であって、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納し、検索用部分領域を受け付け、前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出し、前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する。
 本発明の記録媒体は、コンピュータに、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納する格納手順と、検索用部分領域を受け付ける受付手順と、前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手順と、前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手順と、を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
 本発明によれば、電子文書に含まれる部分領域のレイアウトに基づく類似文書検索において、所望の文書の絞込みを効率的に行うことが可能になる。
本発明の第1の実施の形態の類似文書検索システムを示したブロック図である。 検索対象電子文書の登録の動作を説明するためのフローチャートである。 文書データベースに格納するデータの一例を示す図である。 電子文書からの特徴量抽出の一例を示す図である。 電子文書(スライド)を3×3のブロックに分割する場合の分割ブロックパターンを示す図である。 電子文書(スライド)を3×3のブロックに分割した場合のブロックIDの一例を示す図である。 部分領域に対応する分割ブロックパターンの例を示す図である。 領域データベースに格納するインデックスの一例を示す図である。 領域データベースに格納する特徴量データの一例を示す図である。 類似文書検索の動作を説明するためのフローチャートである。 検索クエリ生成部の画面例を示す図である。 検索クエリ特徴量の一例を示す図である。 検索クエリに対して検索漏れを生じる部分領域の一例を示す図である。 検索クエリに対してインデックスの検索対象となる分割ブロックパターンの一例を示すである。 部分領域のMBR座標を含む分割ブロックと、前記分割ブロックに隣接する分割ブロックとの距離の計算方法を示す図である。 インデックスを参照すべき分割ブロックパターンを決定するための処理の流れを示すフローチャートである。 インデックスを参照すべき分割ブロックパターンを決定するための処理の流れを示すフローチャートである。 インデックスを参照すべき分割ブロックパターンの一例を示す図である。 検索クエリのすべての部分領域を持つ文書を特定するための処理を示す模式図である。 部分領域の類似度の計算式の一例を示す図である。 統合類似度の計算式の一例を示す図である。 検索クエリから抽出した領域特徴量と、インデックスを参照することにより検索した、検索クエリのすべての部分領域を含む文書の領域特徴量の一例を示す図である。 統合類似度の計算結果の一例を示す図である。 本発明の第2の実施の形態の構成を示すブロック図である。 類似文書検索処理を実施するための最良の形態の動作を示すフローチャートである。 検索元文書指定部で指定する電子文書の一例を示す図である。 検索クエリ修正部の画面例を示す図である。 検索クエリ修正部の画面例を示す図である。 本発明の第3の実施の形態の構成を示すブロック図である。
符号の説明
 100、100A、100B コンピュータ(中央処理装置;プロセッサ;データ処理装置)
 101  文書登録部
 102   文書データベース
 103   領域生成部
 104   領域特徴抽出部
 105   特徴量データベース
 106   検索クエリ生成部
 107   検索クエリ
 108   検索クエリ特徴量
 109   特徴量参照部
 110   類似度計算部
 111   検索結果生成部
 112   検索元文書指定部
 113   検索クエリ修正部
 200  入力装置
 300  出力装置
 400  検索結果
 1    格納部
 2    受付部
 次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
 [第1実施形態]
 図1は、本発明の第1の実施の形態の類似文書検索システムを示したブロック図である。図1において、類似文書検索システムは、コンピュータ100と、入力装置200と、出力装置300とを含む。
 コンピュータ100は、例えば、中央処理装置、プロセッサ、または、データ処理装置である。
 入力装置200は、種々の入力を受け付ける。入力装置200は、例えば、文書登録時に、検索対象となる電子文書(以下「検索対象電子文書」と称する。)を受け付け、また、検索時に、検索用パターン情報を受け付ける。出力装置300は、検索結果を出力する。
 出力装置300は、例えば、ディスプレイまたはプリンタである。
 コンピュータ100は、文書登録部101と、文書データベース102と、領域生成部103と、領域特徴抽出部104と、特徴量データベース105と、検索クエリ生成部106と、特徴量参照部109と、類似度計算部110と、検索結果生成部111とを含む。文書データベース102と特徴量データベース105は、格納部1に含まれる。
 コンピュータ100は、ハードディスクまたはメモリに記録されたプログラムに従って動作する。ハードディスクまたはメモリは、一般的に、コンピュータにて読み取り可能な記録媒体と呼ぶことができる。
 コンピュータ100は、プログラムを記録媒体から読み取り実行することによって、文書登録部101、文書データベース102、領域生成部103、領域特徴抽出部104、特徴量データベース105、検索クエリ生成部106、特徴量参照部109、類似度計算部110、および、検索結果生成部111として機能する。
 文書登録部101は、一般的に登録手段と呼ぶことができる。文書登録部101は、入力装置200が受け付けた検索対象電子文書を、その検索対象電子文書を識別するための情報(文書ID)と対応付けて、文書データベース102に登録する。
 文書データベース102は、一般的に文書格納手段と呼ぶことができる。文書データベース102は、文書登録部101にて入力された検索対象電子文書を記憶する。
 領域生成部103は、一般的に領域生成手段と呼ぶことができる。領域生成部103は、検索対象電子文書から、複数の部分領域を生成し抽出する。
 部分領域は、テキスト、図、表、画像またはグラフなどの属性により分類される文書の構成要素(構成パターン)を指す。
 領域特徴抽出部104は、一般的に抽出手段と呼ぶことができる。
 領域特徴抽出部104は、領域生成部103により抽出された各部分領域、および、後述の検索クエリ生成部106により生成された検索クエリ107における各部分領域(各検索用部分領域)から、特徴量を抽出する。
 領域特徴抽出部104は、各部分領域の特徴量として、例えば、各部分領域の大きさ、形および位置を表す情報を抽出する。
 領域特徴抽出部104は、検索対象電子文書の部分領域から抽出された特徴量を、その検索対象電子文書および部分領域に対応付けて、特徴量データベース105に登録する。
 具体的には、領域特徴抽出部104は、部分領域の大きさと形と位置に関する特徴に応じて予め設定された複数の項目(以下、単に「複数の項目」と称する)の中から、検索対象電子文書の部分領域が該当する項目を、検索対象電子文書の部分領域から抽出された特徴量(文書特徴情報)を用いて特定する。
 領域特徴抽出部104は、複数の検索対象電子文書内の部分領域ごとに、その部分領域を示す部分領域情報(領域ID)を、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書の識別情報(文書ID)と、に対応付けて、特徴量データベース105に登録する。
 また、領域特徴抽出部104は、検索クエリ107内の部分領域から抽出された特徴量(特徴情報)を、検索クエリ特徴量108として、特徴量参照部109に提供する。
 特徴量データベース105は、一般的に特徴情報格納手段と呼ぶことができる。
 特徴量データベース105は、複数の項目と、複数の検索対象電子文書の文書IDと、を格納する。
 また、特徴量データベース105は、複数の検索対象電子文書内の部分領域ごとに、領域IDを、複数の項目のうちのその部分領域に該当する項目と、その部分領域を含む電子文書の文書IDと、に対応付けて格納する。
 なお、特徴量データベース105内の情報は、インデックスとして使用される。
 検索クエリ生成部106は、一般的に受付手段と呼ぶことができる。検索クエリ生成部106は、入力装置200が受け付けた検索者からの入力(検索用パターン情報、例えば、複数の検索用部分領域と、各検索用部分領域の優先度)に基づいて、検索用部分領域のレイアウトと、各検索用部分領域の優先度と、を含む検索クエリ107を生成する。
 特徴量参照部109は、一般的に特定手段と呼ぶことができる。
 特徴量参照部109は、領域特徴抽出部104からの検索クエリ特徴量108を用いて、特徴量データベース105に記憶されたインデックスを参照し、検索クエリ特徴量108に該当する検索用項目を特定する。
 特徴量参照部109は、特徴量データベース105を参照して、検索用項目に対応する部分領域を備えた検索対象電子文書を検索(特定)する。
 類似度計算部110は、一般的に計算手段と呼ぶことができる。類似度計算部110は、特徴量参照部109により検索された検索対象電子文書の各部分領域の特徴量と、検索クエリ特徴量108と、を比較することにより、両者の類似度を計算する。
 検索結果生成部111は、一般的に出力手段と呼ぶことができる。検索結果生成部111は、類似度計算部110が計算した類似度に基づいて、文書データベース102内の検索対象電子文書のうち、検索クエリ107に類似する検索対象電子文書を特定し、その特定された検索対象電子文書を示す検索結果を生成する。
 格納部1は、一般的に格納手段と呼ぶことができる。格納部1は、複数の項目と、複数の電子文書と、を格納し、また、複数の電子文書内の部分領域ごとに、その部分領域を示す部分領域情報を、複数の項目のうちのその部分領域に該当する項目と、その部分領域を含む電子文書と、に対応付けて格納する。
 次に、動作を説明する。
 図2は、検索対象電子文書の登録の動作を説明するためのフローチャートである。以下、図1および図2を参照して、検索対象電子文書の登録の動作を説明する。
 まず、登録者は、入力装置200を操作して、検索対象電子文書を入力する(ステップA1)。
 次に、文書登録部101は、入力された検索対象電子文書を一意に識別するための文書ID(識別情報)を、その検索対象電子文書に付与する。続いて、文書登録部101は、文書IDが付与された検索対象電子文書を、文書データベース102に格納する(ステップA2)。
 図3は、文書データベース102に格納されるデータ501の一例を示した説明図である。
 図3に示した例では、文書データベース102は、文書ID501aと、文書ID501aが付与された検索対象電子文書の格納場所(文書データベース102内)を示すファイルパス501bとを、互いに対応付けて格納する。
 なお、文書データベース102は、その他にも、検索対象電子文書に関して、文書名(ファイル名)、作成者、作成日時、または、登録日時などの文書情報を、文書ID501aに対応付けて格納してもよい。
 次に、領域生成部103は、検索対象電子文書から、部分領域を生成し抽出する(ステップA3)。なお、部分領域は、例えば、検索対象電子文書内の、文字、行、複数の文字あるいは行から成るテキスト領域、図、表、グラフまたは画像などである。
 検索対象電子文書が文書画像(画像で示された文書)である場合、領域生成部103は、関連技術を用いて、文書画像から部分領域を生成する。文書画像から部分領域を生成する関連技術としては、しきい値処理、ラベリング処理、または、エッジ処理などが用いられる。例えば、領域生成部103は、前記処理を行うことで得られた部分領域を、大きさ、形状および画素分布などの画像の特徴に基づいて、テキスト領域、図、表、グラフおよび画像などに分類する。
 また、検索対象電子文書が、プレゼンテーション作成ソフトウェアで作成された電子文書(例えば、Microsoft(登録商標)社のPowerPoint(登録商標))である場合には、領域生成部103は、そのデータファイルを解析することにより、部分領域の生成、抽出および分類を行う。
 以下では、検索対象電子文書が、プレゼンテーション作成ソフトウェアで作成された電子文書(例えば、複数のスライドからなる電子文書)である場合の例を説明する。なお、検索対象電子文書は、プレゼンテーション作成ソフトウェアで作成された電子文書に限らず、上述したように文書画像でもよい。
 次に、領域特徴抽出部104は、領域生成部103により生成された各部分領域について、MBR(最小外接矩形)を生成する。続いて、領域特徴抽出部104は、各部分領域の特徴量として、MBRの対角線を形成する2つの頂点(対角)の座標(以下「MBR座標」と称する。)、領域種別、重心座標、面積、および、縦横比を抽出する(ステップA4)。
 なお、MBR座標は、部分領域の大きさと形と位置に関する特徴を表す。また、MBR座標と領域種別は、一般的に文書特徴情報と呼ぶことができる。
 図4は、特徴量抽出の一例を示した説明図である。
 図4に示すスライド502では、領域生成部103により、テキスト領域502aと図領域502bの2つの部分領域が、特定され抽出されている。
 領域特徴抽出部104は、部分領域502aおよび502bのそれぞれから、MBR座標として、例えばスライドの左上の角Cを原点として、MBRの左上の座標と右下の座標を抽出する。
 図4の例では、領域特徴抽出部104は、部分領域502aから(20, 10)および(220, 60)を抽出し、部分領域502bから(20, 80)および(220, 180)を抽出する(図4のスライド503参照)。
 また、領域特徴抽出部104は、部分領域ごとに、MBRの重心座標、面積、および、縦横比を抽出する。
 図4の例では、領域特徴抽出部104は、部分領域502aから、重心座標(120, 35)、面積10000、および、縦横比4.0を抽出する。また、領域特徴抽出部104は、部分領域502bから、重心座標(120, 130)、面積20000、および、縦横比2.0を抽出する。
 次に、領域特徴抽出部104は、各部分領域に対して、その部分領域を一意に識別するための領域ID(識別情報)を付与する。
 続いて、領域特徴抽出部104は、部分領域の大きさと形と位置に関する特徴に応じて予め設定された複数の項目の中で、検索対象電子文書の部分領域が該当する項目を、検索対象電子文書の部分領域から抽出された文書特徴情報を用いて特定する。
 領域特徴抽出部104は、検索対象電子文書内の部分領域ごとに、その部分領域の領域IDを、複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書の文書IDと、に対応付けて特徴量データベース105に登録する(ステップA5)。
 次に、ステップA5のインデックス登録処理について詳細に説明する。
 まず、領域特徴抽出部104は、スライドを縦横3×3=9個のブロックに等しく分割する。これは、スライドには全体的に満遍なくテキストや図表が配置されるとの仮説に基づいている。
 次に、領域特徴抽出部104は、9個のブロックから任意のブロックが選択された場合に、選択されたブロックで形成される形状が矩形となるブロックの組み合わせパターン(分割ブロックパターン)を、インデックスのキーの1つとする。
 換言すると、複数の項目は、電子文書を予め定められた複数のブロックに分割した場合に、複数のブロックのうち部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表される。
 図5は、スライドを3×3のブロックに分割したときのブロックの組み合わせパターン(分割ブロックパターン)を示した説明図である。
 図5に示すように、3×3のブロック分割では、36個のパターンがある。
 また、領域特徴抽出部104は、もう1つのインデックスのキーとして、部分領域の領域種別(テキスト、図、表、グラフ、画像など)を採用する。
 つまり、インデックスの1レコードは、分割ブロックパターン、領域種別、および、領域IDから構成される。このため、インデックスの1レコードでは、分割ブロックパターンと領域種別との組み合わせをキーとして用いることによって、領域IDが得られるようになっている。
 抽出された部分領域に対応する分割ブロックパターンは、部分領域の位置、大きさ、形状が、36個の分割ブロックパターンのうち、どの分割ブロックパターンに一致するかにより決定される。
 より具体的には、領域特徴抽出部104は、部分領域のMBR座標が9個のブロックのうち、どのブロックに含まれるかにより、抽出された部分領域に対応する分割ブロックパターンを決定する。
 領域特徴抽出部104は、図6に示すように、各分割ブロックに1~9までのIDを付与する。
 このとき、領域特徴抽出部104は、図7に示すような各部分領域に対応する分割ブロックパターンを、以下のようにして決定する。
 部分領域504では、MBRの左上の座標および右下の座標が、ともに、ID1のブロックに含まれる。このため、領域特徴抽出部104は、部分領域504に対応する分割ブロックパターンを、分割ブロックパターン1に決定する。
 部分領域505では、MBRの左上の座標がID1のブロック、右下の座標がID5のブロックに含まれる。このため、領域特徴抽出部104は、部分領域505に対応する分割ブロックパターンを、分割ブロックパターン1-2-4-5に決定する。
 部分領域506では、MBRの左上の座標がID1のブロック、右下の座標がID3のブロックに含まれる。このため、領域特徴抽出部104は、部分領域506に対応する分割ブロックパターンを、分割ブロックパターン1-2-3に決定する。
 領域特徴抽出部104は、これら分割ブロックパターンと、部分領域の領域種別と、部分領域の領域IDの組み合わせを、部分領域のインデックスとして、特徴量データベース105に登録する。
 図8は、インデックスの一例を示した説明図である。
 図8の例では、スライドを3×3のブロックに分割した分割ブロックパターンと、部分領域をテキスト領域、図領域、表領域、グラフ領域または画像領域などに分類した領域種別と、領域IDと、の組み合わせからなるインデックスに、図4で示した領域ID0001と0002の2つの部分領域が登録されている。
 領域特徴抽出部104は、インデックスを、特徴量データベース105に格納する。
 また、領域特徴抽出部104は、部分領域の位置、大きさおよび形状に関する詳細な特徴量である重心座標、面積、および、縦横比についても、特徴量の抽出元の検索対象電子文書の文書IDおよびスライド番号とともに、特徴量データベース105に格納する。
 図9は、特徴量データベース105に格納される、部分領域の位置、大きさ、形状に関する詳細な特徴量データの一例を示した説明図である。
 図9の例では、部分領域の領域ID、重心座標、面積、縦横比、および、抽出元の文書ID、スライド番号の組み合わせが、特徴量データベース105に格納されている。
 ステップA1で登録した文書から抽出した部分領域について、まだインデックスへの登録および特徴量の格納がされていない部分領域があれば、すべての部分領域についてステップA4、ステップA5の処理が行われる(ステップA6のNO)。一方、すべての部分領域についてインデックスへの登録および特徴量の格納が終われば、登録処理が終了する(ステップA6のYES)。
 図10は、類似文書検索の動作を説明するためのフローチャートである。以下、図1および図10を参照して、類似文書検索の動作を説明する。
 まず、検索者が、入力装置200を操作して、検索クエリ生成部106に、所望の文書を検索するための検索用パターン情報として、部分領域レイアウトを入力する。検索クエリ生成部106は、部分領域レイアウトに基づいて、検索クエリを生成する(ステップB1)。
 検索者は、部分領域レイアウトの入力を、例えば、図11に示す画面を用いて行う。
 検索者は、ディスプレイなどの出力装置300に表示される画面601を見ながら、キーボードまたはマウスなどの入力装置200を用いて、部分領域レイアウトを入力する。
 検索者は、まず、領域種別選択部602を用いて、領域種別のいずれかを選択する。
 次に、検索者が、レイアウト入力部603を用いて、マウスドラッグなどにより矩形を指定すると、検索クエリ生成部106は、領域種別選択部602で選択された領域種別に応じた矩形領域(検索用部分領域)を描画する。
 また、検索者は、描画された矩形をマウスなどで選択し、矩形の位置を移動させたり、形状を変化させたり、大きさを拡大/縮小することもできる。
 図11の例では、テキスト領域603aが、スライド上部に指定され、また、図領域603bが、スライド下部に指定されている。
 また、検索者は、画面601上で、各部分領域に対する優先度(重み)付けを行うことができる。
 優先度は、検索者の部分領域に対する印象の強さ、および、記憶の確からしさに基づいて与えられこととする。検索クエリ生成部106は、検索者がレイアウト入力部603上に描画した順が早い矩形領域ほど、その矩形領域(検索用部分領域)に対して高い優先度を与える。
 換言すると、検索クエリ生成部106は、複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど、高い優先度を付与し、その付与された優先度を受け付ける。
 つまり、検索者がより記憶の確からしい部分領域から描画を行うという認識のもとで、その順序で自動的に重みが付与される。
 図11の例は、検索者が、テキスト領域603a(Priority=1)、図領域603b(Priority=2)の順に描画を行った場合、検索クエリ生成部106は、テキスト領域603aに最も高い優先度を与え、図領域603bに最も低い優先度を与える。
 この優先度は、レイアウト入力部603上に表示された”Priority”の部分をマウスクリックなどすることにより、検索者が後で変更できるようにしてもよい。
 最後に、検索ボタン604が押下されると、レイアウト入力部603で指定されたレイアウトに基づいた文書検索が開始される。
 なお、クリアボタン605が押下されると、レイアウト入力部603に描画された矩形が消去され、レイアウト入力のやり直しを行うことができる。
 検索ボタン604が押下されると、まず、領域特徴抽出部104が、検索クエリ生成部106が生成した部分領域のレイアウトに関する検索クエリ107から、検索クエリ特徴量108を抽出する(ステップB2)。なお、検索クエリ特徴量108は、検索用部分領域の大きさと形と位置と領域種別に関する特徴情報を含む。
 検索クエリ特徴量108の抽出処理は、上述した検索対象電子文書の登録時に、検索対象電子文書から特徴量を抽出するステップA4と同様の処理であるため、詳細な説明は省略する。
 図12は、検索クエリ特徴量108の例を示した説明図である。
 図12の例では、図11に示した検索クエリの2つの部分領域603aおよび603bからなる領域レイアウトから抽出、決定したデータが示されている。
 次に、特徴量参照部109が、検索クエリ特徴量108を用いて、特徴量データベース105内のインデックスを参照し、検索クエリ107に含まれる部分領域に対応する項目(検索用項目)と対応する領域IDを検索する(ステップB3)。
 インデックスの参照では、特徴量参照部109は、検索クエリ107に含まれる部分領域の分割ブロックパターンと領域種別を求め、その組み合わせをキーとして用いて、図8に示したインデックスを検索する。
 このとき、検索対象電子文書中に検索クエリ107と非常に類似した文書が存在していたとしても、特徴量参照部109は、検索クエリ107の部分領域が分割ブロックの境界に近い場合には、その文書は分割ブロックパターンが異なるものと判断されて検索漏れが生じる可能性がある。
 例えば、図13に示すように、右辺が分割ブロックID2および3の境界に非常に近く、かつ右辺が分割ブロックID2に含まれる、検索クエリ107のテキスト領域610が用いられた場合、右辺が分割ブロックID2および3の境界に非常に近く、かつ右辺が分割ブロックID3に含まれる、検索対象電子文書のテキスト領域611は、検索されない。
 そこで、本実施形態では、このような場合、特徴量参照部109は、図14に示すように分割ブロックパターン1-2に部分領域が存在する検索対象電子文書613に加えて、分割ブロックパターン1-2-3に部分領域が存在する検索対象電子文書614も、インデックスから検索する。
 図15、図16および図17は、検索クエリの領域の境界線が分割ブロックの境界に近い場合にも、適切な分割ブロックパターンを決定するためのアルゴリズムを説明するための説明図である。
 まず、特徴量参照部109は、検索クエリ107に含まれる領域の検索クエリ特徴量108からMBR座標を取得する(ステップB301)。ここでは、MBRの左上の座標をM1、右下の座標をM2とする。
 次に、特徴量参照部109は、M1が含まれる分割ブロックIDを、パターン候補ブロック集合PB1に加え、また、M2が含まれる分割ブロックIDを、パターン候補ブロック集合PB2に加える(ステップB302)。
 次に、特徴量参照部109は、図15に示すように、M1に最も近いX軸方向(図15のW方向)の分割ブロックを求める。続いて、特徴量参照部109は、その分割ブロックとM1とのX軸方向の距離DX1を分割ブロックの幅Wで割った値MX1を求める(ステップB303)。
 さらに、特徴量参照部109は、M1に最も近いY軸方向(図15のH方向)の分割ブロックを求める。続いて、特徴量参照部109は、その分割ブロックとM1とのY軸方向の距離DY1を分割ブロックの高さHで割った値MY1を求める(ステップB304)。
 次に、MX1があらかじめ定めたしきい値T(例えば、”0.1”など)以下である場合(ステップB305のYES)には、特徴量参照部109は、M1に最も近いX軸方向の分割ブロックのIDを、PB1に加える(ステップB306)。
 MX1がしきい値Tより大きい場合(ステップB305のNO)には、特徴量参照部109は、次の処理に進む。
 次に、MY1があらかじめ定めたしきい値T以下である場合(ステップB307のYES)には、特徴量参照部109は、M1に最も近いY軸方向の分割ブロックのIDを、PB1に加える(ステップB308)。
 MY1がしきい値Tより大きい場合(ステップB307のNO)には、特徴量参照部109は、次の処理に進む。
 さらに、MX1およびMY1のどちらも、しきい値T以下である場合(ステップB309のYES)には、特徴量参照部109は、M1に最も近いX軸方向の分割ブロックと、M1に最も近いY軸方向の分割ブロックと、の両方に隣接するブロック(つまり、ステップB306とB308でそれぞれPB1に加えたブロックに隣接するブロック)のIDを、PB1に加える(ステップB310)。
 MX1がしきい値Tより大きい、あるいはMY1がしきい値Tより大きい、のいずれかである場合には、特徴量参照部109は、次の処理に進む(ステップB309のNO)。
 次に、特徴量参照部109は、M2に最も近いX軸方向の分割ブロックを求め、その分割ブロックとM2とのX軸方向の距離DX2を分割ブロックの幅Wで割った値MX2を求める(ステップB311)。
 さらに、特徴量参照部109は、M2に最も近いY軸方向の分割ブロックを求め、その分割ブロックとM2とのY軸方向の距離DY2を分割ブロックの高さHで割った値MY2を求める(ステップB312)。
 次に、MX2があらかじめ定めたしきい値T以下である場合(ステップB313のYES)には、特徴量参照部109は、M2に最も近いX軸方向の分割ブロックのIDを、PB2に加える(ステップB314)。
 MX2がしきい値Tより大きい場合(ステップB313のNO)には、特徴量参照部109は、次の処理に進む。
 次に、MY2があらかじめ定めたしきい値T以下である場合(ステップB315のYES)には、特徴量参照部109は、M2に最も近いY軸方向の分割ブロックのIDを、PB2に加える(ステップB316)。
 MY2がしきい値Tより大きい場合(ステップB315のNO)には、特徴量参照部109は、次の処理に進む。
 さらに、MX2およびMY2のどちらも、しきい値T以下である場合(ステップB317のYES)には、特徴量参照部109は、M2に最も近いX軸方向の分割ブロックと、M2に最も近いY軸方向の分割ブロックと、の両方に隣接するブロック(つまり、ステップB314とB316でそれぞれPB2に加えたブロックに隣接するブロック)のIDを、PB2に加える(ステップB318)。
 MX2がしきい値Tより大きい、あるいは、MY2がしきい値Tより大きい、のいずれかである場合には、特徴量参照部109は、次の処理に進む(ステップB317のNO)。
 最後に、特徴量参照部109は、PB1に含まれるブロックとPB2に含まれるブロックのそれぞれの組み合わせを求め、各組み合わせにおいて、PB1に含まれるブロックとPB2に含まれるブロックとに基づいて形成される矩形を示す分割ブロックパターンを求める(ステップB319)。
 ステップB3において、分割ブロックパターンと領域種別とをキーとして用いて図8のインデックスを参照して領域IDを得る際には、特徴量参照部109は、ステップB319で得られた分割ブロックパターンを用いる。
 図18は、上記アルゴリズムの具体的な適用例を示した説明図である。
 図18の例では、検索クエリ107として、MBR座標M1およびM2で示すようなテキスト領域107aが指定されているとする(図18のシート615参照)。
 このとき、M1と分割ブロック4との距離、および、M1と分割ブロック2との距離、の両方が、しきい値以下であると、特徴量参照部109は、PB1に、分割ブロック5、4、2、1の4つのIDを格納する。さらに、M2と分割ブロック8との距離が、しきい値以下であると、特徴量参照部109は、PB2に、分割ブロック9、8の2つのIDを格納する。
 次に、特徴量参照部109は、PB1に含まれるブロックとPB2に含まれるブロックとに基づいて形成される矩形を示す分割ブロックパターンとして、図18の右部に示すような8つの分割ブロックパターンを得る。
 次に、特徴量参照部109は、ステップB3で得られた領域IDを用いて、図9に示した特徴量データを参照し、これら領域IDを含む文書IDおよびスライド番号を取得する(ステップB4)。
 特徴量参照部109は、ステップB3およびB4の処理を、ステップB1およびB2で得た検索クエリ107に含まれる領域のすべてについて行う(ステップB5)。
 検索クエリ107に含まれる領域のすべてについて、文書IDおよびスライド番号が得られたら、特徴量参照部109は、検索クエリ107の各部分領域に対応する項目に1対1で対応する部分領域を含む検索対象電子文書を特定する(ステップB6)。
 これは、各部分領域について取得した文書IDとスライド番号の論理積をとればよい。
 図19は、ステップB6の処理の具体例を示した説明図である。
 図19では、検索クエリとして、テキスト領域19aと図領域19bの2つの部分領域が指定されている。
 このとき、ステップB3およびB4の処理により、各部分領域に一致する領域を持つ検索対象電子文書の文書IDとスライド番号と領域IDが得られたものとする。
 次に、特徴量参照部109は、各部分領域で得られた文書IDとスライド番号との論理積をとる。
 この処理によって、文書IDがP001のスライド番号1のスライド(検索対象電子文書)、および、文書IDがP002のスライド番号2のスライド(検索対象電子文書)が特定される。なお、文書IDがP001のスライド番号1のスライドは、検索クエリのテキスト領域(領域ID=Q001)に一致する領域として領域ID0001を持ち、かつ、検索クエリの図領域(領域ID=Q002)に一致する領域として領域ID0002を持つ。また、文書IDがP002のスライド番号2のスライドは、検索クエリのテキスト領域(領域ID=Q001)に一致する領域として領域ID0005を持ち、かつ、検索クエリの図領域(領域ID=Q002)に一致する領域として領域ID0006を持つ。
 次に、類似度計算部110が、ステップB6で得たスライドと検索クエリとの類似度を計算する(ステップB7)。
 類似度計算部110は、類似度の計算として、同一項目に互いに対応する、検索対象電子文書内の部分領域と検索用部分領域との類似度を計算する。具体的には、類似度計算部110は、同一項目に対応する部分領域ごとの類似度である部分領域類似度の加重平均を用いる。
 部分領域類似度の計算式としては、例えば、部分領域情報の特徴量から得られる特徴ベクトルのなす角θによるコサイン尺度が用いられる。
 いま、図9に示した特徴量データを、重心のx座標v1、重心のy座標v2、面積v3、縦横比v4の4次元ベクトルで表すとき、検索クエリ107に含まれる部分領域から変換された検索クエリ特徴量108の特徴ベクトルQiと、特徴量データベース105に格納され検索クエリ中の部分領域に対応する領域の特徴ベクトルRiと、のコサイン尺度を用いた類似度sim(Qi,Ri)は、図20のように求めることができる。
 類似度計算部110は、ステップB6で得た文書ごとに、検索クエリ107に含まれるすべての部分領域について、対応する領域との部分領域類似度sim(Q,Ri)を計算する。
 さらに、類似度計算部110は、検索クエリ107と検索対象電子文書との最終的な統合類似度SIMとして、ステップB1で検索クエリ107を作成したときに付与した各部分領域の重み(図12のPriority)を用いて、部分領域の類似度の加重平均を計算する。
 図21は、部分領域の類似度の加重平均を求める式の一例を示した説明図である。
 類似度計算部110は、i番目のPriority値priority(i)を持つ部分領域がn個あるとき、各部分領域にpriority(i)の逆数を重みとして与え、その平均値を求める。
 図21では、各部分領域に与える重みとしてpriority(i)の逆数が用いられたが、あらかじめ決めておいた各priorityに対応する値が用いられたり、priorityの順に重みが変化するような関数が用いられてもよい。
 図22および図23は、図21の統合類似度計算の具体例を示した説明図である。
 今、図22に示すように検索クエリから抽出した特徴量である検索クエリ特徴量617について、ステップB3からB6の処理により、文書P001のスライド番号1と文書P002のスライド番号2が特定されているとする。
 類似度計算部110は、検索クエリ特徴量617と、文書P001のスライド番号1の特徴量618および文書P002のスライド番号2の特徴量619を用いて、図23に示した式を用いて、統合類似度SIMをそれぞれ計算する。
 図23の例では、文書P002のスライド番号2のほうが文書P001のスライド番号1よりも類似度が大きい、つまり、文書P002のスライド番号2は、より検索クエリに似ているという結果が示されている。
 最後に、検索結果生成部111が、ステップB7における類似度計算結果を、類似度の大きな順番でソートし、より検索クエリに似ている順に並んだ文書リストを、検索結果400として生成し、出力装置300に出力する(ステップB8)。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、あらかじめ検索対象電子文書から抽出した部分領域の位置、大きさ、形状を表す特徴量を検索対象電子文書に対応付けて登録したインデックスを参照することにより、まず、検索クエリが表す部分領域の位置、大きさ、形状とほぼ同じ部分領域を持つ文書のみが、検索対象電子文書から、一度に充分絞り込まれる。次に、それら絞り込まれた文書のみに対して検索クエリとの間で類似度計算が行われる。
 このため、処理コストの大きな類似度計算処理を大幅に低減でき、所望の文書を高速に検索できる。
 また、本実施の形態では、さらに、検索時に、検索者が部分領域に対する印象の強さまたは記憶の確からしさに関する重み(優先度)が付与される。このため、その重みに基づいて類似文書を検索することができる。
 本実施形態によれば、格納部1は、電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の検索対象電子文書と、を格納する。また、格納部1は、複数の検索対象電子文書内の部分領域ごとに、領域IDを、複数の項目のうちのその部分領域に該当する項目と、その部分領域を含む電子文書と、に対応付けて格納する。
 特徴量参照部109は、複数の項目の中で検索用部分領域が該当する検索用項目を、検索用部分領域の特徴情報を用いて特定し、格納部1を参照して、検索用項目に対応する部分領域を備えた検索対象電子文書を特定する。
 このため、検索用部分領域の位置、大きさ、形状とほぼ同じ部分領域を持つ文書のみを、複数の検索対象電子文書の中から一度に充分絞り込むことが可能になる。
 よって、例えば、インデックスを用いた検索結果から、さらに検索対象電子文書の絞込みを行う場合、絞込みの対象となる検索対象電子文書を少なくすることが可能になる。したがって、検索処理速度の高速化を図ることが可能になる。
 また、本実施形態では、部分領域および検索用部分領域は、矩形である。領域特徴抽出部104は、特徴情報として、検索用部分領域の対角の位置を抽出する。
 部分領域および検索用部分領域が矩形である場合、検索用部分領域の対角の位置は、検索用部分領域の大きさと形と位置に応じた値となる。このため、特徴情報を、検索用部分領域の対角の位置という簡単な情報によって表すことが可能になる。
 また、本実施形態では、検索クエリ生成部106は、複数の検索用部分領域と、各検索用部分領域の優先度と、を受け付ける。領域特徴抽出部104は、複数の検索用部分領域のそれぞれから特徴情報を抽出する。
 また、特徴量参照部109は、検索用部分領域ごとに、検索用部分領域が該当する検索用項目を、その検索用部分領域の特徴情報を用いて特定し、格納部1を参照して、各検索用項目に1対1で対応する部分領域を備えた電子文書を特定する。
 また、類似度計算部110は、特徴量参照部109にて特定された電子文書ごとに、同一検索用項目に対応する部分領域と検索用部分領域の類似度を計算する。類似度計算部110は、その計算結果に対して、その計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、重み付けされた類似度に基づいて、電子文書と複数の検索用部分領域との統合類似度を計算する。
 このため、検索用部分領域の優先度として、検索用部分領域に対する検索者の印象の強さまたは記憶の確からしさを反映することが可能になる。よって、検索用部分領域ごとに、検索の重み付けを行うことが可能になる。
 また、本実施形態では、検索クエリ生成部106は、複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど高い優先度を付与し、付与された優先度を受け付ける。類似度計算部110は、類似度の計算結果のうち、優先度が高い検索用部分領域を用いた計算結果ほど、大きな重みを付与する。
 検索者は、より記憶の確からしい検索用部分領域から描画を行う可能性が高い。このため、より記憶の確からしい検索用部分領域に対して、大きな重みを付与することが可能になる。
 また、本実施形態では、類似度計算部110は、同一の検索対象電子文書における類似度の計算結果に対して、その計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、その重み付けされた類似度の加重平均を、統合類似度として計算する。
 この場合、統合類似度を、重み付けされた類似度の加重平均という計算方法で求めることが可能になる。
 また、本実施形態では、格納部1は、複数の検索対象電子文書内の部分領域ごとに、さらに、その部分領域の重心座標、面積および縦横比を、その部分領域を示す部分領域情報と対応付けて格納する。
 領域特徴抽出部104は、さらに、複数の検索用部分領域のそれぞれから、検索用部分領域の重心座標、面積および縦横比を抽出する。
 類似度計算部110は、同一検索用項目に対応する部分領域と検索用部分領域の類似度を、部分領域の重心座標、面積および縦横比と、検索用部分領域の重心座標、面積および縦横比と、を用いて計算する。
 この場合、高い精度で類似度を計算することが可能になる。
 また、本実施形態では、複数の項目は、電子文書を予め定められた複数のブロックに分割した場合に、複数のブロックのうち部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表される。
 特徴量参照部109は、検索用項目を、複数のブロックのうち検索用部分領域の対角が存在するブロックに基づいて形成される矩形を用いて、複数の項目から特定する。
 この場合、部分領域を、複数のブロックにて形成される複数の矩形のいずれかに分類することが可能になり、この分類にしたがって、検索用項目を特定することが可能になる。
 また、本実施形態では、特徴量参照部109は、検索用部分領域の対角の位置とブロック間の境界との距離が予め定められたしきい値以下である場合には、さらに、対角が位置するブロックに隣接するブロックを、対角が存在するブロックとして追加し、対角が存在するブロックに基づいて形成される矩形を用いて、検索用項目を特定する。
 この場合、検索用項目の漏れを防止することが可能になる。
 また、本実施形態では、項目は、部分領域の大きさと形と位置と領域種別に関するものである。領域特徴抽出部104は、検索用部分領域から、検索用部分領域の大きさと形と位置と領域種別に関する情報を、特徴情報として抽出する。
 この場合、領域種別も考慮して、検索用項目を特定することが可能になる。
 また、本実施形態では、文書登録部101は、検索対象電子文書を受け付け、その検索対象電子文書を格納部1に格納する。領域生成部103は、検索対象電子文書から部分領域を抽出する。
 また、領域特徴抽出部104は、抽出された部分領域から、部分領域の大きさと形と位置に関する文書特徴情報を抽出する。領域特徴抽出部104は、複数の項目の中でその部分領域が該当する項目を、文書特徴情報を用いて特定する。領域特徴抽出部104は、部分領域ごとに、部分領域を示す部分領域情報を、部分領域に該当する項目と、部分領域を含む電子文書と、に対応付けて格納部1に格納する。
 この場合、格納部1への情報の格納を自動で行うことが可能になる。
 [第2実施形態]
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
 図24は、本発明の第2の実施の形態の類似文書検索システムを示したブロック図である。図24において、類似文書検索システムは、コンピュータ100Aと、入力装置200と、出力装置300とを含む。なお、図24において、図1に示したものと同一のものには同一符号を付してある。
 コンピュータ100Aは、例えば、中央処理装置、プロセッサ、または、データ処理装置である。
 コンピュータ100Aは、文書登録部101と、文書データベース102と、領域生成部103と、領域特徴抽出部104と、特徴量データベース105と、特徴量参照部109と、類似度計算部110と、検索結果生成部111と、検索元文書指定部112と、検索クエリ修正部113とを含む。検索結果生成部111と検索元文書指定部112は、受付部2に含まれる。
 コンピュータ100Aは、ハードディスクまたはメモリ等の記録媒体に記録されたプログラムに従って動作する。
 コンピュータ100Aは、プログラムを記録媒体から読み取り実行することによって、文書登録部101、文書データベース102、領域生成部103、領域特徴抽出部104、特徴量データベース105、特徴量参照部109、類似度計算部110、検索結果生成部111、検索元文書指定部112、および、検索クエリ修正部113として機能する。
 ここで、文書登録部101と、文書データベース102と、領域生成部103と、領域特徴抽出部104と、特徴量データベース105と、特徴量参照部109と、類似度計算部110と、検索結果生成部111は、図1に示した第1の実施の形態の構成と同様であるので説明を省略する。
 検索元文書指定部112は、一般的に電子文書受付手段と呼ぶことができる。検索元文書指定部112は、部分領域を有する所望の電子文書を受け付ける。
 具体的には、検索元文書指定部112は、第1の実施の形態のように検索者がはじめから検索クエリを生成するのではなく、検索者が検索したい所望の文書に似たレイアウトを持つ文書の指定を行う。
 検索クエリ修正部113は、一般的に修正手段と呼ぶことができる。検索クエリ修正部113は、修正指示を受け付けた場合に、所望の電子文書内の部分領域を修正し、修正後の部分領域を、検索用部分領域として受け付ける。
 具体的には、検索クエリ修正部113は、検索元文書指定部112が指定した文書から生成された領域レイアウトを、検索者からの修正指示に基づいて修正し、最終的な検索クエリを生成する。
 図25は、本実施の形態の動作を説明するためのフローチャートである。
 以下、図2、図24、図25を参照して、本実施の形態の全体の動作について詳細に説明する。
 まず、本実施の形態における検索対象電子文書の登録の動作について詳細に説明する。
 本実施の形態における検索対象電子文書の登録処理は、第1の実施の形態の場合の図2のステップA1からA6と同様の処理であるので説明を省略する。
 次に、本実施の形態における類似文書検索の動作について詳細に説明する。
 まず、検索者が、入力装置200を操作して、検索元文書指定部112に、検索対象の所望の文書に似たレイアウトを持つ電子文書を指定する(ステップC1)。
 文書の指定方法については、文書データベース格納部102に登録している文書から選択するようにしてもよいし、登録されていない新たな文書が入力されるようにしてもよい。
 次に、領域生成部103が、図2のステップA3と同様にして、ステップC1で指定された文書から部分領域を生成し抽出する(ステップC2)。
 次に、検索者が、入力装置200を操作して、検索クエリ修正部113を動作させる。検索クエリ修正部113は、検索者の修正指示にしたがって、ステップC2で抽出した部分領域の優先度を指定したり、部分領域の位置、大きさ、形状などを必要に応じて修正したりして最終的な検索クエリを生成する。(ステップC3)。
 例えば、検索者が、検索元文書指定部112を用いて、図26に示すスライドを指定した場合には、領域生成部103は、図27に示すようにテキスト領域623aと図領域623bを抽出する。検索クエリ修正部113は、コンピュータ100Aに接続されたディスプレイなどの出力装置300に、図27に示したような画面を表示する。
 検索者は、出力装置300に表示される画面621を見ながら、キーボードおよびマウスなどの入力装置200を用いて、部分領域レイアウトを修正する。
 図27では、図26に示したスライドから抽出された2つの部分領域623aおよび623bがレイアウト入力部623に表示されている。
 検索者は、描画された矩形をマウスなどで選択し、矩形の位置を移動させたり、形状を変化させたり、大きさを拡大/縮小したりして領域レイアウトを修正する。
 また、検索者は、領域種別選択部622を用いて領域種別を選択し、マウスドラッグなどによって矩形を描画して新たな領域を追加することもできる。
 さらに、検索者は、“テキスト領域”、“図領域”と表示されている部分をマウスなどで選択することにより、領域種別を変更することもできる。
 また、検索者は、“Priority=?”と表示されている部分をマウスなどで選択することにより、部分領域に対する優先度を指定することもできる。
 図28は、図領域623bの優先度を“2”に指定する場合の画面例を示した説明図である。特に優先度を指定しない場合には、すべての部分領域に等しい重みが付与される。
 次に、コンピュータ100Aは、ステップC3で生成した検索クエリ107を用いてステップC4以降の検索処理を行う。ステップC4からステップC9の処理は、図10のステップB2からステップB7の処理とそれぞれ同様の処理であるので説明を省略する。
 最後に、検索結果生成部111が、ステップC9における類似度計算結果を類似度の大きな順番でソートし、より検索クエリに似ている順に並んだ文書リストを、検索結果400として生成し、出力装置300に出力する(ステップC10)。
 次に、本発明の実施の形態の効果について説明する。
 本実施形態では、所望の文書によく似たレイアウトを持つ検索元文書を指定し、検索元文書から部分領域を抽出し、それを修正することにより、検索クエリが生成される。具体的には、検索元文書指定部112が、部分領域を有する所望の電子文書を受け付ける。検索クエリ修正部113は、修正指示を受け付けた場合に、所望の電子文書内の部分領域を修正し、修正後の部分領域を、検索用部分領域として受け付ける。
 このため、第1実施形態の効果に加えて、検索者が検索クエリを生成するための手間を軽減することができる。
 [第3実施形態]
 次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
 図29は、本発明の第3の実施の形態の類似文書検索システムを示したブロック図である。図29において、類似文書検索システムは、コンピュータ100Bと、入力装置200と、出力装置300とを含む。なお、図29において、図1に示したものと同一のものには同一符号を付してある。以下、第3実施形態について、第1実施形態と異なる点を中心に説明する。
 第1実施形態(コンピュータ100)と比較すると、第3実施形態(コンピュータ100B)では、文書登録部101、領域生成部103と、類似度計算部110と、検索結果生成部111が省略される。
 コンピュータ100Bは、例えば、中央処理装置、プロセッサ、または、データ処理装置である。
 コンピュータ100Bは、格納部1と、領域特徴抽出部104と、検索クエリ生成部106と、特徴量参照部109とを含む。
 コンピュータ100Bは、ハードディスクまたはメモリ等の記録媒体に記録されたプログラムに従って動作する。
 コンピュータ100Bは、プログラムを記録媒体から読み取り実行することによって、格納部1、領域特徴抽出部104、検索クエリ生成部106、および、特徴量参照部109として機能する。
 本実施形態によれば、コンピュータ100Bは、格納部1と、領域特徴抽出部104と、検索クエリ生成部106と、特徴量参照部109とを含むので、第1実施形態で説明したように、検索用部分領域の位置、大きさ、形状とほぼ同じ部分領域を持つ文書のみを、複数の検索対象電子文書の中から一度に充分絞り込むことが可能になる。
 よって、例えば、インデックスを用いた検索結果から、さらに検索対象電子文書の絞込みを行う場合、絞込みの対象となる検索対象電子文書を少なくすることが可能になる。したがって、検索処理速度の高速化を図ることが可能になる。
 上記各実施形態は、電子文書の部分領域のレイアウトに基づいて文書を検索する情報検索装置、また、それらをコンピュータに実現するためのプログラムといった用途に適用できる。
 以上、各実施形態を参照して本願発明を説明したが、本願発明は上記各実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2008年1月9日に出願された日本出願特願2008-2264を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (23)

  1.  電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書と、を格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する格納手段と、
     検索用部分領域を受け付ける受付手段と、
     前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手段と、
     前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手段と、を含む類似文書検索システム。
  2.  前記部分領域および前記検索用部分領域は、矩形であり、
     前記抽出手段は、前記特徴情報として、前記検索用部分領域の対角の位置を抽出する、請求の範囲第1項に記載の類似文書検索システム。
  3.  前記受付手段は、複数の前記検索用部分領域と、各検索用部分領域の優先度と、を受け付け、
     前記抽出手段は、前記複数の検索用部分領域のそれぞれから前記特徴情報を抽出し、
     前記特定手段は、前記検索用部分領域ごとに、当該検索用部分領域が該当する検索用項目を、当該検索用部分領域の特徴情報を用いて特定し、前記格納手段を参照して、各検索用項目に1対1で対応する部分領域情報にて示された部分領域を備えた電子文書を特定し、
     前記特定された電子文書ごとに、同一検索用項目に対応する部分領域と検索用部分領域の類似度を計算し、当該計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度に基づいて、当該電子文書と前記複数の検索用部分領域との統合類似度を計算する計算手段を、さらに含む、請求の範囲第1または第2項に記載の類似文書検索システム。
  4.  前記受付手段は、前記複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど、高い優先度を付与し、当該付与された優先度を受け付け、
     前記計算手段は、前記類似度の計算結果のうち、前記優先度が高い検索用部分領域を用いた計算結果ほど、大きな重みを付与する、請求の範囲第3項に記載の類似文書検索システム。
  5.  前記計算手段は、同一電子文書における前記類似度の計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度の加重平均を前記統合類似度として計算する、請求の範囲第3項または第4項に記載の類似文書検索システム。
  6.  前記格納手段は、前記複数の電子文書内の部分領域ごとに、さらに、当該部分領域の重心座標、面積および縦横比を、当該部分領域を示す部分領域情報と対応付けて格納し、
     前記抽出手段は、さらに、前記複数の検索用部分領域のそれぞれから、当該検索用部分領域の重心座標、面積および縦横比を抽出し、
     前記計算手段は、前記同一検索用項目に対応する部分領域と検索用部分領域の類似度を、当該部分領域の重心座標、面積および縦横比と、当該検索用部分領域の重心座標、面積および縦横比と、を用いて計算する、請求の範囲第3項から第5項のいずれか1項に記載の類似文書検索システム。
  7.  前記複数の項目は、前記電子文書を予め定められた複数のブロックに分割した場合に、前記複数のブロックのうちの前記部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表され、
     前記特定手段は、前記検索用項目を、前記検索用部分領域の対角が存在するブロックに基づいて形成される矩形を用いて前記複数の項目から特定する、請求の範囲第2項に記載の類似文書検索システム。
  8.  前記特定手段は、前記検索用部分領域の対角の位置と前記ブロック間の境界との距離が予め定められたしきい値以下である場合には、さらに、当該対角が位置するブロックに隣接するブロックを、前記対角が存在するブロックとして追加し、当該対角が存在するブロックに基づいて形成される矩形を用いて、前記検索用項目を特定する、請求の範囲第7項に記載の類似文書検索システム。
  9.  前記項目は、部分領域の大きさと形と位置と領域種別に関するものであり、
     前記抽出手段は、前記検索用部分領域から、前記検索用部分領域の大きさと形と位置と領域種別に関する情報を、前記特徴情報として抽出する、請求の範囲第1項から第8項のいずれか1項に記載の類似文書検索システム。
  10.  前記電子文書を受け付け、当該電子文書を前記格納手段に格納する登録手段と、
     前記電子文書から前記部分領域を抽出する領域生成手段と、をさらに含み、
     前記抽出手段は、前記抽出された部分領域から、当該部分領域の大きさと形と位置に関する文書特徴情報を抽出し、前記複数の項目の中で当該部分領域が該当する項目を、前記文書特徴情報を用いて特定し、前記部分領域ごとに、当該部分領域を示す部分領域情報を、当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて格納する、請求の範囲第1項から第9項のいずれか1項に記載の類似文書検索システム。
  11.  前記受付手段は、
     部分領域を有する所望の電子文書を受け付ける電子文書受付手段と、
     修正指示を受け付けた場合に、前記所望の電子文書内の部分領域を修正し、修正後の当該部分領域を、前記検索用部分領域として受け付ける修正手段と、を含む、請求の範囲第1項から第10項のいずれか1項に記載の類似文書検索システム。
  12.  類似文書検索システムでの類似文書検索方法であって、
     電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納し、
     検索用部分領域を受け付け、
     前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出し、
     前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する、類似文書検索方法。
  13.  前記部分領域および前記検索用部分領域は、矩形であり、
     前記抽出では、前記特徴情報として、前記検索用部分領域の対角の位置を抽出する、請求の範囲第12項に記載の類似文書検索方法。
  14.  前記受付では、複数の前記検索用部分領域と、各検索用部分領域の優先度と、を受け付け、
     前記抽出では、前記複数の検索用部分領域のそれぞれから前記特徴情報を抽出し、
     前記特定では、前記検索用部分領域ごとに、当該検索用部分領域が該当する検索用項目を、当該検索用部分領域の特徴情報を用いて特定し、前記格納手段を参照して、各検索用項目に1対1で対応する部分領域情報にて示された部分領域を備えた電子文書を特定し、
     前記特定された電子文書ごとに、同一検索用項目に対応する部分領域と検索用部分領域の類似度を計算し、当該計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度に基づいて、当該電子文書と前記複数の検索用部分領域との統合類似度を計算することを、さらに含む、請求の範囲第12項または第13項に記載の類似文書検索方法。
  15.  前記受付では、前記複数の検索用部分領域のうち、先に受け付けた検索用部分領域ほど、高い優先度を付与し、当該付与された優先度を受け付け、
     前記計算では、前記類似度の計算結果のうち、前記優先度が高い検索用部分領域を用いた計算結果ほど、大きな重みを付与する、請求の範囲第14項に記載の類似文書検索方法。
  16.  前記計算では、同一電子文書における前記類似度の計算結果に対して、当該計算に用いられた検索用部分領域の優先度に応じた重み付けを行い、当該重み付けされた類似度の加重平均を前記統合類似度として計算する、請求の範囲第14項または第15項に記載の類似文書検索方法。
  17.  前記格納では、前記複数の電子文書内の部分領域ごとに、さらに、当該部分領域の重心座標、面積および縦横比を、当該部分領域を示す部分領域情報と対応付けて前記格納手段に格納し、
     前記抽出では、さらに、前記複数の検索用部分領域のそれぞれから、当該検索用部分領域の重心座標、面積および縦横比を抽出し、
     前記計算では、前記同一検索用項目に対応する部分領域と検索用部分領域の類似度を、当該部分領域の重心座標、面積および縦横比と、当該検索用部分領域の重心座標、面積および縦横比と、を用いて計算する、請求の範囲第14項から第16項のいずれか1項に記載の類似文書検索方法。
  18.  前記複数の項目は、前記電子文書を予め定められた複数のブロックに分割した場合に、前記複数のブロックのうちの前記部分領域の対角が存在するブロックに基づいて形成される矩形の組み合わせによって表され、
     前記特定では、前記検索用項目を、前記検索用部分領域の対角が存在するブロックに基づいて形成される矩形を用いて前記複数の項目から特定する、請求の範囲第13項に記載の類似文書検索方法。
  19.  前記特定では、前記検索用部分領域の対角の位置と前記ブロック間の境界との距離が予め定められたしきい値以下である場合には、さらに、当該対角が位置するブロックに隣接するブロックを、前記対角が存在するブロックとして追加し、当該対角が存在するブロックに基づいて形成される矩形を用いて、前記検索用項目を特定する、請求の範囲第18項に記載の類似文書検索方法。
  20.  前記項目は、部分領域の大きさと形と位置と領域種別に関するものであり、
     前記抽出では、前記検索用部分領域から、前記検索用部分領域の大きさと形と位置と領域種別に関する情報を、前記特徴情報として抽出する、請求の範囲第12項から第19項のいずれか1項に記載の類似文書検索方法。
  21.  前記電子文書を受け付け、当該電子文書を前記格納手段に格納し、
     前記電子文書から前記部分領域を抽出し、
     前記抽出された部分領域から、当該部分領域の大きさと形と位置に関する文書特徴情報を抽出し、前記複数の項目の中で当該部分領域が該当する項目を、前記文書特徴情報を用いて特定し、前記部分領域ごとに、当該部分領域を示す部分領域情報を、当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納することを、さらに含む、請求の範囲第12項から第20項のいずれか1項に記載の類似文書検索方法。
  22.  前記受付は、
     部分領域を有する所望の電子文書を受け付け、
     修正指示を受け付けた場合に、前記所望の電子文書内の部分領域を修正し、修正後の当該部分領域を、前記検索用部分領域として受け付けること、を含む、請求の範囲第12項から第21項のいずれか1項に記載の類似文書検索方法。
  23.  コンピュータに、
     電子文書内の部分領域の大きさと形と位置に関する特徴に基づいて予め設定された複数の項目と、複数の電子文書とを、格納手段に格納し、また、前記複数の電子文書内の部分領域ごとに、当該部分領域を示す部分領域情報を、前記複数の項目のうちの当該部分領域に該当する項目と、当該部分領域を含む電子文書と、に対応付けて前記格納手段に格納する格納手順と、
     検索用部分領域を受け付ける受付手順と、
     前記検索用部分領域から、当該検索用部分領域の大きさと形と位置に関する特徴情報を抽出する抽出手順と、
     前記複数の項目の中で前記検索用部分領域が該当する検索用項目を、前記特徴情報を用いて特定し、前記格納手段を参照して、前記検索用項目に対応する部分領域情報にて示された部分領域を備えた電子文書を特定する特定手順と、を実行させるためのプログラムを記憶したコンピュータ読み取り可能な記録媒体。
PCT/JP2008/070733 2008-01-09 2008-11-14 類似文書検索システム、類似文書検索方法および記録媒体 WO2009087815A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008-002264 2008-01-09
JP2008002264 2008-01-09

Publications (1)

Publication Number Publication Date
WO2009087815A1 true WO2009087815A1 (ja) 2009-07-16

Family

ID=40852940

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/070733 WO2009087815A1 (ja) 2008-01-09 2008-11-14 類似文書検索システム、類似文書検索方法および記録媒体

Country Status (1)

Country Link
WO (1) WO2009087815A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011028749A (ja) * 2009-07-22 2011-02-10 Xerox Corp レイアウトに基づく文書検索およびランク付けのためのスケーラブルな索引付け
US20130246403A1 (en) * 2012-03-13 2013-09-19 Yasuhisa UEFUJI Retrieval apparatus, retrieval method, and computer-readable recording medium

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198695A (ja) * 1997-01-13 1998-07-31 Sharp Corp 情報処理装置
JP2006163841A (ja) * 2004-12-07 2006-06-22 Canon Inc 画像検索装置、画像検索方法、プログラム、記憶媒体
JP2007065763A (ja) * 2005-08-29 2007-03-15 Sharp Corp 画像データ検索装置、画像データ検索方法、プログラム及び記録媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10198695A (ja) * 1997-01-13 1998-07-31 Sharp Corp 情報処理装置
JP2006163841A (ja) * 2004-12-07 2006-06-22 Canon Inc 画像検索装置、画像検索方法、プログラム、記憶媒体
JP2007065763A (ja) * 2005-08-29 2007-03-15 Sharp Corp 画像データ検索装置、画像データ検索方法、プログラム及び記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011028749A (ja) * 2009-07-22 2011-02-10 Xerox Corp レイアウトに基づく文書検索およびランク付けのためのスケーラブルな索引付け
US20130246403A1 (en) * 2012-03-13 2013-09-19 Yasuhisa UEFUJI Retrieval apparatus, retrieval method, and computer-readable recording medium
JP2013190973A (ja) * 2012-03-13 2013-09-26 Nec Corp 文書内の図情報を利用した類似文書の検索システム及び方法
US9378248B2 (en) 2012-03-13 2016-06-28 Nec Corporation Retrieval apparatus, retrieval method, and computer-readable recording medium

Similar Documents

Publication Publication Date Title
US8724908B2 (en) System and method for labeling a collection of images
JP5139716B2 (ja) 画像検索装置及び画像検索方法
US8589410B2 (en) Visual search using multiple visual input modalities
US11704357B2 (en) Shape-based graphics search
JPS61267177A (ja) 文書画像追加情報の蓄積方法
WO2020248497A1 (zh) 图片扫描件处理方法、装置、计算机设备及存储介质
KR20010053788A (ko) 내용기반 이미지 검색 시스템 및 그 방법
KR101549792B1 (ko) 문서 자동 작성 장치 및 방법
JP2003295993A (ja) グラフィック入力及び表示システム、このシステムにおいてユーザインタフェースを利用する方法、並びに、コンピュータが使用可能な媒体から成る製品
CN102902807A (zh) 使用多个视觉输入模态的视觉搜索
JP5103955B2 (ja) 画像検索方法、装置およびプログラム
US8131720B2 (en) Using an ID domain to improve searching
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
WO2009087815A1 (ja) 類似文書検索システム、類似文書検索方法および記録媒体
JP2005208740A (ja) 部分画像検索装置及び部分画像検索プログラム
Diem et al. Semi-automated document image clustering and retrieval
JP2010073194A (ja) 画像処理装置、画像処理方法およびプログラム
Tanaka et al. Slide retrieval technique using features of figures
Tehsin et al. A caption text detection method from images/videos for efficient indexing and retrieval of multimedia data
Saabni et al. Keywords image retrieval in historical handwritten Arabic documents
JPH08194716A (ja) 画像処理方法及びその装置
JP2010102734A (ja) 画像処理装置及びプログラム
JP3199009B2 (ja) 画像蓄積・管理装置及び画像インデックス生成方法
WO2022168400A1 (ja) 情報処理装置、情報処理方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08869493

Country of ref document: EP

Kind code of ref document: A1

DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08869493

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP