WO2015145991A1 - 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体 - Google Patents
整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体 Download PDFInfo
- Publication number
- WO2015145991A1 WO2015145991A1 PCT/JP2015/001062 JP2015001062W WO2015145991A1 WO 2015145991 A1 WO2015145991 A1 WO 2015145991A1 JP 2015001062 W JP2015001062 W JP 2015001062W WO 2015145991 A1 WO2015145991 A1 WO 2015145991A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- main
- consistency
- document
- consistency check
- subset
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/10—Requirements analysis; Specification techniques
Definitions
- the present invention relates to a technique for checking consistency between documents.
- Consistency checking is costly (expense and time) if performed manually and may be missed.
- Patent Document 1 An example of a technique for dealing with such a problem is described in Patent Document 1.
- the related technology described in Patent Document 1 extracts specification text from an analysis target document such as a requirement definition document or design document, and automatically checks for leaks.
- the document 8a includes a table in which a screen list is described.
- the function ID, screen ID, and screen name headings are described in the first line.
- the document 8b includes a table in which a screen layout is described. In this document 8b, the screen ID, screen name, and description heading are described in the first line.
- the present invention has been made to solve the above-described problem, and an object of the present invention is to provide a technique for accurately estimating a consistency check portion between documents.
- the consistency check location estimation apparatus of the present invention includes a prior knowledge storage unit that stores prior knowledge representing features of a headline, and each document to be analyzed based on the prior knowledge.
- One or more headings are extracted, and a set of information corresponding to each extracted heading is estimated as a main set (main set) or a sub-set including sub information accompanying the main set.
- the consistency check system of the present invention includes a consistency check means for determining consistency between the documents using the above-described consistency check location estimation apparatus and the consistency check location estimated by the consistency check location estimation apparatus. And comprising.
- the method for estimating a matching check location extracts one or more headlines from each document to be analyzed based on prior knowledge representing the characteristics of the headings, and a set of information corresponding to the extracted headings. Is estimated as a main set (main set) or a sub-set including sub-information associated with the main set, and based on the main set and the sub-set in each document, Estimate the location (consistency check location) where consistency is checked with the document.
- the storage medium of the present invention extracts one or more headlines from each analysis target document based on prior knowledge representing the characteristics of the headlines, and sets a set of information corresponding to each extracted headline.
- a main sub-set estimation step for estimating as a sub-set that includes sub-sets including sub-information associated with the main set or the main set.
- a consistency check location estimation program for causing a computer device to execute a check location estimation step for estimating a location (consistency check location) for checking consistency with another document is stored.
- the consistency determination method of the present invention determines consistency between documents using the consistency check location estimated by the above-described consistency check location estimation method.
- Another storage medium of the present invention uses a consistency check location estimated by execution of the above-described consistency check location estimation program, and causes the computer device to execute a consistency determination step for determining consistency between documents.
- a sex determination program is stored.
- the present invention can provide a technique for accurately estimating the location of consistency check between documents.
- FIG. 1 shows a functional block configuration of a consistency check location estimation apparatus 1 as the first embodiment of the present invention.
- the consistency check location estimation apparatus 1 includes a prior knowledge storage unit 11, a main / subset estimation unit 12, and a check location estimation unit 13.
- the consistency check location estimation apparatus 1 can be configured by a CPU (Central Processing Unit) 1001, a RAM (Random Access Memory) 1002, a ROM (Read Only Memory) 1003, and a storage device 1004 such as a hard disk. is there.
- the prior knowledge storage unit 11 is configured by the storage device 1004.
- the main / subset estimation unit 12 and the check location estimation unit 13 are configured by a CPU 1001 that reads a computer program and various data stored in the ROM 1003 and the storage device 1004 into the RAM 1002 and executes them.
- the hardware configuration of the consistency check location estimation apparatus 1 and each functional block thereof is not limited to the above configuration.
- the prior knowledge storage unit 11 stores prior knowledge.
- Prior knowledge is information representing the characteristics of a headline in a document to be analyzed.
- the prior knowledge storage unit 11 may store prior knowledge input by a user through an input device such as a keyboard.
- the prior knowledge storage unit 11 may store prior knowledge in advance.
- storage part 11 may memorize
- the main / subset estimation unit 12 extracts one or more headlines in each document to be analyzed based on prior knowledge.
- the main subset estimation unit 12 estimates a set of information corresponding to each extracted heading as a main set or a subset in each document.
- Each document to be analyzed may be input by a user via an input device such as a keyboard.
- each analysis target document may be stored in the storage device 1004 in advance.
- Each document to be analyzed may be specified by information input via an input device among a plurality of documents stored in the storage device 1004 in advance.
- each analysis target document may be acquired in another manner.
- each heading a set of information corresponding to each heading.
- table column headings are extracted from a document.
- the contents of each column of the column corresponding to the heading in the table are information corresponding to the heading.
- a set of such information that is, the entire column is a set of information corresponding to the heading.
- paragraph headings are extracted from a document.
- each sentence included in the paragraph is information corresponding to the heading.
- such a set of information that is, the entire paragraph is a set of information corresponding to each heading.
- the main set is a location that contains the main information that is subject to consistency check in the document.
- the sub-set is a location where secondary information accompanying the information included in the main set is included.
- the main / subset estimation unit 12 may estimate whether the corresponding set is a main set or a subset based on the degree of overlapping of elements in the information set corresponding to each heading.
- a value calculated by N / M is applicable.
- M represents the number of elements including duplication in the set.
- N represents the number of elements not including duplication in the set.
- “/” Represents division. In this case, N / M increases as the number of overlapping elements decreases. A set with few overlapping elements is likely to be the main validation point.
- the main / subset estimation unit 12 may estimate a set in which the overlapping degree N / M of elements satisfies a predetermined condition as a main set, and estimate other sets as subsets.
- the predetermined condition in this case may be a threshold value or more.
- the check location estimation unit 13 estimates the consistency check location between the documents to be analyzed based on the main set and the sub-set in each document to be analyzed.
- the consistency check location is a location where each document to be analyzed is checked for consistency with other documents to be analyzed.
- the main set is a main part in each document, it is considered that all of them are appropriate as a part for checking consistency.
- the corresponding heading names are often the same so that many related parties can easily understand. Therefore, a set having a common heading with respect to other corresponding documents among the sub-sets of each document is considered to be appropriate as a matching check point.
- the check location estimation unit 13 may estimate the main set in each document as a consistency check location. Also, the check location estimation unit 13 may estimate a subset satisfying a predetermined common condition with respect to a main set or a subset of other documents among the subsets in each document as a matching check location.
- the predetermined common condition may be that the character strings of the headings are the same or similar.
- the predetermined common condition may be another condition that can be regarded as having a common heading.
- the main / subset estimation unit 12 extracts one or more headlines in each document to be analyzed based on prior knowledge. Then, the main / subset estimation unit 12 estimates a set of information corresponding to each extracted heading as a main set or a subset (step S1).
- the main / subset estimation unit 12 may estimate the main set or the subset based on the overlapping degree N / M of elements in the information set corresponding to each heading.
- the check location estimation unit 13 estimates the consistency check location in each document based on the main set and sub-set in each document (step S2).
- the check location estimation unit 13 may estimate the main set of each document as a consistency check location. In addition, the check location estimation unit 13 may estimate a subset satisfying a common condition for the main set or subset of other documents among the subsets of each document as a matching check location.
- the check point estimation unit 13 may output the estimated check position of each document to an output device such as a display device or a printing device, or another device connected via a network. Good. Further, the check location estimation unit 13 may output the estimated consistency check location of each document to another apparatus that performs processing using the consistency check location. Moreover, the check location estimation part 13 may memorize
- the consistency check point estimation device 1 finishes the operation.
- the consistency check location estimation apparatus as the first embodiment of the present invention can accurately estimate the consistency check location between documents.
- the main subset estimation unit extracts one or more headings in each document to be analyzed based on prior knowledge, and sets a set of information corresponding to each heading as a main set and a subset. To estimate. This is because the check location estimation unit estimates the consistency check location between documents based on the main set and sub-set of each document.
- the present embodiment by analyzing each document based on the prior knowledge indicating the feature of the headline, it is possible to output a partial portion that is highly likely to be subjected to a consistency check. Therefore, an apparatus that performs an automatic check using the consistency check portion output according to the present embodiment or a checker that performs a manual check is performed between documents for all units (rows, etc.) constituting the entire document. There is no need to perform a consistency check.
- a device or a checker who uses the output of the present embodiment may perform a consistency check between the consistency check points presented by the present embodiment. Therefore, this embodiment can improve the analysis accuracy of the consistency check.
- the reference source document is also referred to as a reference source.
- the reference destination document is also referred to as a reference destination.
- FIG. 4 shows the configuration of the consistency check location estimation apparatus 2 as the second embodiment of the present invention.
- the consistency check location estimation apparatus 2 is different from the consistency check location estimation apparatus 1 according to the first embodiment of the present invention in place of the prior knowledge storage section 11 and the prior knowledge storage section 21.
- the difference is that a main sub-set estimation unit 22 is provided instead of the set estimation unit 12.
- the consistency check location estimation apparatus 2 and each functional block thereof can be configured by the same hardware elements as the consistency check location estimation apparatus 1 as the first embodiment of the present invention described with reference to FIG. It is. Note that the hardware configuration of the consistency check location estimation apparatus 2 and each functional block thereof is not limited to the above-described configuration.
- the prior knowledge storage unit 21 stores prior knowledge including main set features, sub set features, and unnecessary set features.
- the main set feature represents the feature of the main heading.
- Major headings are likely to be subject to validation alone.
- the main set feature may be represented by a regular expression including such a specific word.
- the subset feature represents the feature of the heading accompanying the main heading.
- Such an accompanying headline is difficult to be subject to a consistency check by itself, and is likely to be subject to a consistency check accompanying a main headline.
- a column header in the table that includes a specific word such as “number of digits” or “description” can be regarded as a header associated with the main header.
- the subset feature may be represented by a regular expression including such a specific word.
- the unnecessary set feature represents the feature of the headline that is unnecessary in the matching check.
- the unnecessary set feature may be expressed by a regular expression including such a specific word.
- the prior knowledge such as the main set feature, the sub set feature, and the unnecessary set feature is not limited to the regular expression but may be expressed by a format, an outline level, other information, or a combination thereof.
- the prior knowledge may be represented by a character string itself.
- the content of prior knowledge may be expressed by the characteristics of the format set in the heading such as “background color is X color”.
- the content of prior knowledge may be represented by the depth of the hierarchy set in the heading in a sentence with a hierarchical structure such as “Outline level is X”.
- the content of the prior knowledge may be another expression as long as it represents the feature of the headline.
- the prior knowledge may be information indicating the characteristics of the table header.
- the table heading may be a column heading or a row heading.
- the prior knowledge may be information indicating the feature of the paragraph heading.
- the prior knowledge storage unit 21 may store information input via an input device as the various prior knowledge described above, or store in advance. It may be.
- the prior knowledge storage unit 21 may store various prior knowledge acquired in other manners.
- the main / subset estimation unit 22 extracts at least one heading in each of the reference source document and the reference destination document based on prior knowledge including the main set feature, the subset feature, and the unnecessary set feature. Then, the main / sub-set estimation unit 22 estimates whether the set of information corresponding to the extracted heading is a main set or a sub-set based on the prior knowledge.
- the main / subset estimation unit 22 may search for a header row including a character string that matches at least one of the prior knowledge that is a feature of the column header. Then, the main / subset estimation unit 22 may extract information included in each column of the table in the searched heading row as a heading. In this case, the main / subset estimation unit 22 may regard the extracted column of headings as a set of information corresponding to the headings in the table. In this case, information included in each column in the column is regarded as an element of the set.
- the main / subset estimation unit 22 may extract information that matches prior knowledge that is a feature of a paragraph headline as a headline.
- the main / subset estimation unit 22 may regard the paragraph following the heading as a set of information corresponding to the heading. In this case, each sentence constituting the paragraph is regarded as an element of the set.
- the main / subset estimation unit 22 performs a process of estimating whether the set of information corresponding to each extracted heading is a main set or a subset, the degree of element overlap, the main set feature, This is performed based on the set feature and the unnecessary set feature. At this time, for example, the main / sub-set estimation unit 22 may use different conditions depending on the number of elements included in the information set corresponding to the extracted heading.
- the main / sub-set estimation unit 22 obtains the number of elements included in the information set corresponding to the heading of the extracted heading that does not match the unnecessary set feature.
- the main subset estimation unit 22 determines whether the headline matches the main set feature regardless of the degree of element overlap.
- it may be estimated whether the corresponding information set is a main set or a sub-set.
- the main subset estimation unit 22 sets a corresponding set of information regardless of the degree of element overlap if the heading matches the subset characteristics. May be estimated to be a subset.
- the main subset estimation unit 22 determines whether the corresponding set of information is the main set based on the degree of element overlap. You may estimate whether it is a set.
- the check location estimation unit 13 is configured as described in the first embodiment of the present invention. That is, in this embodiment, the check location estimation unit 13 regards all the reference source and reference destination main sets as consistency check locations. Also, the check location estimation unit 13 regards, as a matching check location, a subset whose heading satisfies a predetermined common condition with respect to the main set or the subset in the other document among the reference source and reference destination subsets.
- the main subset estimation unit 22 extracts one or more headlines from the reference source document based on prior knowledge. Then, the main / subset estimation unit 22 estimates a set of information corresponding to each extracted heading as a main set or a subset (step A1). Details of this step will be described later.
- the main / subset estimation unit 22 extracts one or more headlines in the reference destination document based on prior knowledge. Then, the main / subset estimation unit 22 estimates a set of information corresponding to each extracted heading as a main set or a subset (step A2). Details of this step will be described later.
- the check location estimation unit 13 performs a consistency check between the reference source main set and the subset of the reference source that satisfies the predetermined common condition with respect to the main set or sub set of the reference destination. Estimated as a location (step A3).
- the check location estimation unit 13 performs a consistency check between the reference destination main set and the subset of the reference destination sub-sets that satisfy a predetermined common condition with respect to the reference source main set or sub-set. Estimated as a location (step A4).
- FIG. 6 shows details of the operation for estimating the main set and the sub-set in step A1 and step A2.
- the operation in step A1 or step A2 is the same except that the target document is a reference source document or a reference destination document.
- the main / subset estimation unit 22 extracts one or more headlines from the target document based on the prior knowledge (step A5).
- the target document contains a table.
- the prior knowledge is a regular expression representing the feature of the column heading.
- the main / subset estimation unit 22 may examine the target document in order from the first line, and may regard a line including a character string that matches one of the regular expressions as prior knowledge as a heading line. Further, it is assumed that the prior knowledge is a character string representing the characteristics of the column heading. In this case, the main / subset estimation unit 22 may examine the target document in order from the first line, and may regard a line including a character string similar to a character string as prior knowledge as a heading line.
- the main / subset estimation unit 22 may examine the target document in order from the first line, and may regard a line including a column in which a format as prior knowledge is set as a heading line. Then, the main / subset estimation unit 22 may extract information included in each column of the table in the searched heading row as a heading.
- the target document includes a sentence composed of paragraphs.
- the prior knowledge represents paragraph heading characteristics (regular expression, format, outline level, etc.).
- the main / subset estimation unit 22 may examine the target document in order from the first line, and may extract a line that matches any of the headline characteristics of the paragraph that is prior knowledge as a headline.
- the main / subset estimation unit 22 determines whether or not there is an unprocessed headline that has not been processed in step A7 among the headlines extracted in step A5 (step A6). It is assumed that all headings extracted in step A5 are set to be unprocessed when this step is first executed for a certain target document.
- the main subset estimation unit 22 ends the main subset estimation operation.
- the main / subset estimation unit 22 selects one of the unprocessed headlines (step A7).
- the main / subset estimation unit 22 determines whether or not the selected heading matches the unnecessary set feature (step A8).
- matching with the unnecessary set feature may mean that the character string of the selected heading matches the regular expression.
- matching with the unnecessary set feature may mean that the character string of the selected heading is similar to the unnecessary set feature.
- the unnecessary set feature is a condition such as “blank” or the like, “matching the unnecessary set feature” may satisfy the condition that the selected heading is blank or the like.
- the main / sub-set estimation unit 22 sets the selected heading as processed (step A18), and repeats the processing from step A6.
- the main / sub-set estimation unit 22 extracts an element included in the information set corresponding to the selected heading (step A9).
- the target document contains a table containing column headings.
- the main / subset estimation unit 22 extracts information included in each column of the column of the column header as an element. Further, it is assumed that the target document includes a sentence composed of paragraphs. In this case, the main / subset estimation unit 22 extracts each sentence included in the paragraph following the heading as an element.
- the main / subset estimation unit 22 substitutes the number of elements of the information set corresponding to the selected heading into M (step A10).
- the number of elements M may be the number of elements including blanks or the number of elements excluding blanks.
- the number of elements M may be the number of elements in the column of the selected heading, or may be the number of rows with columns other than the blank in the entire table including the selected heading.
- the main subset estimation unit 22 compares the number M of elements with a threshold value Nthres (step A11).
- Nthres may be a value designated by the user via an input device such as a keyboard.
- Nthres may be a value stored in the storage device 1004 in advance.
- Nthres may be a value acquired in another manner.
- Nthres may be a value such as 1.
- the main subset estimation unit 22 determines whether the selected heading matches the subset feature (step A12).
- the main subset estimation unit 22 estimates that the set of information corresponding to the selected heading is a subset (step A17).
- a set in which the number of elements M is larger than the threshold value Nthres and the headline matches the subset feature is estimated as a subset regardless of the degree of element overlap.
- the main sub-set estimation unit 22 substitutes the number of elements excluding duplication for N for the information set corresponding to the selected heading (step A13).
- N of elements excluding duplicates may be a number including a blank or a number excluding a blank.
- the main / subset estimation unit 22 compares the ratio of the number of elements N without duplication to the number of elements M with duplication (the degree of duplication N / M) with a threshold value Rthres (step A14).
- Rthres may be a value designated by the user via an input device such as a keyboard.
- Rthres may be a value stored in advance in the storage device 1004.
- Rthres may be a value acquired in another manner.
- Rthres may be a value such as 0.5 or 0.7.
- the main / subset estimation unit 22 determines whether or not N / M ⁇ Rthres is satisfied in each file and each sheet. May be. Alternatively, in such a case, the main / subset estimation unit 22 obtains a total N of N ′ in each file or each sheet and a total M of M ′ in each file or each sheet, and N / M ⁇ Rthres as a total. You may investigate whether it becomes.
- the main sub-set estimation unit 22 estimates a set of information corresponding to the selected heading as a main set (step A16).
- the main / subset estimation unit 22 estimates a set of information corresponding to the selected heading as a subset (step A17).
- a set whose number of elements M is larger than the threshold value Nthres and whose headline does not match the subset feature is a main set or a subset based on the overlapping degree of the elements.
- step A11 If it is determined in step A11 that the number of elements M is equal to or less than the threshold value Nthres, the main subset estimation unit 22 determines whether the selected heading matches the main set feature (step A15).
- the main / sub-set estimation unit 22 estimates a set of information corresponding to the selected heading as the main set (step A16).
- the main / subset estimation unit 22 estimates a set of information corresponding to the selected heading as a sub-set (step A17).
- the main / sub-set estimating unit 22 After estimating that it is a main set or a sub-set in step A16 or step A17, the main / sub-set estimating unit 22 sets the selected heading as processed (step A18), and repeats the processing from step A6.
- prior knowledge used in this specific example 1 is shown in FIG.
- the “type” column indicates whether the prior knowledge is a main set feature, a sub set feature, or an unnecessary set feature.
- the column “content” represents the content of prior knowledge.
- the content of prior knowledge is represented by a regular expression. For example, “ ⁇ ” is a regular expression indicating the beginning of a character string, and “$” is a regular expression indicating the end of the character string.
- FIG. 8 shows a reference source document 8a and a reference destination document 8b used in specific example 1.
- the reference source document 8a and the reference destination document 8b include tables, and the consistency check points are estimated in units of columns.
- the first row is a column heading row of the table, and the second and subsequent rows have specific contents.
- the “screen ID” column and the “screen name” column in the reference source document 8a correspond to the “screen ID” column and the “screen name” column in the reference destination document 8b, respectively. Yes. For this reason, these columns are locations where consistency check is to be performed.
- the main / subset estimation unit 22 estimates a column of “screen ID” and a column of “screen name” as main sets and a column of “function ID” as a subset in the reference source document 8a (see FIG. 5 step A1). Details of operations in which these columns are estimated as a main set or a sub-set will be described later.
- the main / subset estimation unit 22 estimates that there is no main set column in the reference document 8b, and sets the “screen ID” column, the “screen name” column, and the “description” as the subset.
- a column is estimated (step A2). Details of operations in which these columns are estimated as subsets will be described later.
- the check location estimation unit 13 estimates the column of “screen ID” and the column of “screen name” as the matching check location of the reference source as follows (step A3).
- the check location estimation unit 13 estimates all the columns of “screen ID” and “screen name”, which are the main set of reference sources, as consistency check locations. Also, the check location estimation unit 13 determines whether or not the column of the reference source sub-set “function ID” has the same heading as the reference main set or sub-set. Here, there is no main set of reference destinations, and the headings of the sub-set “screen ID” column, the “screen name” column, and the “description” column are not “function ID”. Therefore, the check location estimation unit 13 does not estimate the column of the reference source subset “function ID” as the consistency check location.
- the check location estimation unit 13 estimates the column of “screen ID” and the column of “screen name” as the reference check location for reference as follows (step A4).
- the check point estimation unit 13 has the same heading as the reference source main set or sub set for the column of the reference destination sub-set “screen ID”, the column of “screen name”, and the column of “description”. Determine whether or not.
- “screen ID” and “screen name” are the same as the heading of the main set of the reference source. Therefore, the check location estimation unit 13 estimates the “screen ID” column and the “screen name” column of these subsets as the consistency check locations.
- the consistency check location estimation apparatus 2 can estimate the location where the consistency check is to be performed in the reference source document 8a and the reference destination document 8b as the consistency check location.
- the threshold value Nthres for the number M of elements is 1, and the threshold value Rthres for the degree of overlap N / M is 0.5.
- the main subset estimation unit 22 examines the reference source document 8a in order from the first row, and the “function ID” in the first row and first column is the regular expression “ ⁇ function ID $ in the prior knowledge of FIG. ". Therefore, the main / subset estimation unit 22 regards the first row of the reference source document 8a as a column header row, and extracts the headers “function ID”, “screen ID”, and “screen name” included in the column header row ( Step A5 in FIG.
- the main / subset estimation unit 22 selects “function ID” from the first column heading row of the reference source document 8a (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “function ID” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “ZTA00”, “ZTA00”, and “ZTA00” as elements of the column of the selected heading “function ID” (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 3 in the column of the selected heading “function ID” into M (step A10).
- the number of elements including a blank is applied as the number of elements M.
- the main / subset estimation unit 22 substitutes N for the number of elements without duplication in the column of “function ID” (step A13).
- the main subset estimation unit 22 estimates the column of the heading “function ID” as a subset (step A17).
- the main / subset estimation unit 22 sets the heading “function ID” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects a “screen ID” that has not yet been processed from the first column heading row of the reference source document 8a (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “screen ID” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “SZTA001”, “SZTA002”, and “SZTA003” as elements of the column of the selected heading “screen ID” (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 3 in the column of the selected heading “screen ID” into M (step A10).
- the main / subset estimation unit 22 substitutes N for the number of non-overlapping elements 3 in the column of “screen ID” (step A13).
- the main subset estimation unit 22 estimates the column of the heading “screen ID” as the main set (step A16).
- the main / subset estimation unit 22 sets the heading “screen ID” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects the heading “screen name” (step A7), and repeats substantially the same processing as when the heading “screen ID” is selected. Thereby, the main / subset estimation unit 22 estimates the column of the heading “screen name” as the main set (step A16).
- the main subset estimation unit 22 estimates the column of “screen ID” and the column of “screen name” as the main set and the column of heading “function ID” as the subset in the reference source document 8a. To do.
- the main / subset estimation unit 22 examines the reference document 8b in order from the first row, and the “screen ID” in the first row and first column is the regular expression “ ⁇ screen ID $ in the prior knowledge of FIG. ". Therefore, the main / subset estimation unit 22 regards the first row of the referenced document 8b as the column header row, and extracts the headers “screen ID”, “screen name”, and “description” included in the column header row (step) A5).
- the main / subset estimation unit 22 selects “screen ID” in the first column heading row of the reference document 8b (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “screen ID” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “SZTA002”, blank, blank, “SZTA003”, blank, and blank as elements of the column of the selected heading “screen ID” (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 6 in the column of the selected heading “screen ID” into M (step A10).
- the main / subset estimation unit 22 substitutes 2 for N as the number of non-overlapping elements in the column of “screen ID” (step A13).
- the main subset estimation unit 22 estimates the column of the heading “screen ID” as a subset (step A17).
- the main / subset estimation unit 22 sets the heading “screen ID” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects a heading “screen name” that has not been processed yet (step A7), and repeats substantially the same processing as when the heading “screen ID” is selected. Accordingly, the main / subset estimation unit 22 estimates the column of the heading “screen name” as a subset.
- the main / subset estimation unit 22 selects a heading “explanation” that has not yet been processed (step A7).
- the main / subset estimation unit 22 determines that the selected heading “explanation” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / sub-set estimation unit 22 uses “work product ... revise”, blank, blank, “perform product ...”, blank as elements of the column of the selected heading “description”.
- the blank is extracted (step A9).
- the main / subset estimation unit 22 may regard the image diagram pasted in the table column as a blank column or extract the text included in the diagram. Here, it is assumed that the column of the image diagram is blank.
- the main subset estimation unit 22 substitutes the number 6 of elements of the selected heading into M (step A10).
- the main subset estimation unit 22 estimates the column of the heading “explanation” as a subset (step A17).
- the main / subset estimation unit 22 does not have a heading as a main set in the reference document 8b, and sets a column of “screen ID”, a column of “screen name”, and a column of “explanation” as subsets. presume.
- FIG. 9 shows a reference source document 9a and a reference destination document 9b used in the specific example 2.
- the first row is a column heading row of the table, and the second and subsequent rows have specific contents.
- the first and second lines indicate information relating to the entire table, and the third line is a blank line.
- the fourth row is a column heading row of the table, and the fifth and subsequent rows have specific contents.
- the column of “function name” in the reference source document 9a corresponds to the column of “entity candidate” in the reference destination document 9b. For this reason, these columns are locations where consistency check is to be performed.
- the main / subset estimation unit 22 uses the “function name” column as the main set and the columns “A”, “B”,. Is estimated (step A1 in FIG. 5). Details of operations in which these columns are estimated as a main set or a sub-set will be described later.
- the main / subset estimation unit 22 estimates the “entity candidate” column as the main set and the “type” column and the “description” column as the subset in the reference destination document 9b (step A2). . Details of operations in which these columns are estimated as a main set or a sub-set will be described later.
- the check location estimation unit 13 estimates the “function name” column as a reference source match check location as follows (step A3).
- the check location estimation unit 13 estimates the column of “function name”, which is the main set of reference sources, as a consistency check location. In addition, the check point estimation unit 13 determines whether or not the heading and the sub-set of the reference destination are common for each column of the sub-set “A”, “B”,..., “J” of the reference source. Judging. Here, none of the main sets and sub-sets of reference destinations have headings “A”, “B”,..., “J”. Therefore, the check location estimation unit 13 does not estimate each column of the reference source subset as a consistency check location.
- the check location estimation unit 13 estimates a column of “entity candidates” as a reference check consistency location as follows (step A4).
- the check location estimation unit 13 estimates a column of “entity candidates”, which is the main set of reference destinations, as a consistency check location. Further, the check location estimation unit 13 determines whether or not the reference source main set or sub-set has a common heading for the reference-subset “type” column and the “description” column. Here, there is no heading of “type” or “description” in either the main set or the sub-set of the reference source. Therefore, the check location estimation unit 13 does not estimate the reference destination subset “type” column and the “description” column as the consistency check location.
- the consistency check location estimation apparatus 2 can estimate the location where the consistency check should be performed in the reference source document 9a and the reference destination document 9b as the consistency check location.
- the main subset estimation unit 22 examines the reference source document 9a in order from the first row, and the “function name” in the first row and first column is the regular expression “ ⁇ function name $ in the prior knowledge of FIG. ". Therefore, the main / subset estimation unit 22 regards the first row of the reference source document 9a as a column heading row, and includes the headings “function name”, “A”, “B”,. J "is extracted (step A5).
- the main / subset estimation unit 22 selects “function name” in the first column heading row of the reference source document 9a (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “function name” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “order plan confirmation”, “order plan hold”,..., “Estimate request creation” as elements of the column of the selected heading “function name” ( Step A9).
- the main / subset estimation unit 22 substitutes the number of elements 5 in the column of the selected heading “function name” into M (step A10).
- the main / subset estimation unit 22 substitutes N for the number of non-overlapping elements in the “function name” column (step A13).
- the main subset estimation unit 22 estimates the column of the heading “function name” as the main set (step A16).
- the main / subset estimation unit 22 sets the heading “function name” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects “A” that has not yet been processed from the first column heading row of the reference source document 9a (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “A” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “ ⁇ ”, blank, “ ⁇ ”, “ ⁇ ”, and blank as elements of the column of the selected heading “A” (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 5 in the column of the selected heading “screen ID” into M (step A10).
- the main / subset estimation unit 22 substitutes 1 for the number of non-overlapping elements in the column “A” for N (step A13).
- the main subset estimation unit 22 estimates the column of the heading “A” as a subset (step A17).
- the main / subset estimation unit 22 sets the heading “A” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 sequentially selects the headings “B”, “C”,..., “J” (step A7), and repeats substantially the same processing as when the heading “A” is selected. . Thereby, the main / subset estimation unit 22 estimates each column of the headings “B”, “C”,..., “J” as a subset.
- the main / subset estimation unit 22 sets each column of “function name” as the main set and “A”, “B”,. Estimate the column.
- the main subset estimation unit 22 examines the reference document 9b in order from the first row, and the “term” in the fourth row and first column becomes the regular expression “ ⁇ term $” in the prior knowledge of FIG. Judge that it matches. Accordingly, the main / subset estimation unit 22 regards the fourth row of the reference document 9b as a column header row, and extracts the headings “term”, “type”, “entity candidate”, and “description” included in the column header row. (Step A5).
- the main / subset estimation unit 22 selects “term” from the column headings in the fourth row of the reference document 9b (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “term” matches the unnecessary set feature “ ⁇ term $” (Yes in step A8).
- the main / subset estimation unit 22 sets the heading “term” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects a “type” that has not yet been processed from the column headers in the fourth row of the reference document 9b (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “type” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “event system”, “event system”, and “event system” as elements of the column of the selected heading “type” (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 3 in the column of the selected “type” heading into M (step A10).
- the main / subset estimation unit 22 substitutes N for the number of elements without duplication in the “type” column (step A13).
- the main subset estimation unit 22 estimates the column of the heading “type” as a subset (step A17).
- the main / subset estimation unit 22 sets the heading “type” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects an “entity candidate” that has not yet been processed from the fourth column heading row of the reference document 9b (Yes in Step A6, Step A7).
- the main / subset estimation unit 22 determines that the selected heading “entity candidate” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 extracts “order”, “ordering plan”, and “project” as elements of the column of the selected heading “entity candidate” (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 3 in the column of the selected heading “entity candidate” into M (step A10).
- the main / subset estimation unit 22 substitutes N for the number of non-overlapping elements 3 in the “entity candidate” column (step A13).
- the main subset estimation unit 22 estimates the column of the heading “entity candidate” as the main set (step A16).
- the main / subset estimation unit 22 sets the heading “entity candidate” as processed (step A18), and repeats the processing from step A6.
- the main / subset estimation unit 22 selects a heading “explanation” that has not yet been processed (step A7).
- the main / subset estimation unit 22 determines that the selected heading “explanation” does not match the unnecessary set feature “ ⁇ term $” (No in step A8).
- the main / subset estimation unit 22 selects “... for each customer”, “ordered ...”, “project information ...” as elements of the column of the selected heading “explanation”. Extract (step A9).
- the main / subset estimation unit 22 substitutes the number of elements 3 of the selected heading “explanation” into M (step A10).
- the main subset estimation unit 22 estimates the column of the heading “explanation” as a subset (step A17).
- the main sub-set estimation unit 22 estimates the column “entity candidate” as the main set, the column “type”, and the column “description” as the sub-set in the reference document 9b.
- the consistency check point estimation device 2 regards a line including at least one headline that matches any of the prior knowledge as a headline line.
- a headline line is often used even in different projects such as “screen name” so as to be easily understood by many related parties.
- project-specific headings Even in such a case, the matching check location estimation device 2 prepares general headline features as prior knowledge, so that it is included in a headline row including such general headline features. Project-specific headlines can also be detected.
- the matching check location estimation device 2 estimates the matching check location by distinguishing the main set and the sub-set.
- the consistency check location estimation device 2 can estimate the consistency check location by distinguishing the main set as a necessary item from the subset as a secondary location.
- the reference source document and the reference destination document include tables, and the description has been mainly focused on an example in which the consistency check portion is a column unit.
- the present embodiment can also be applied to the case where the consistency check portion is in line units.
- the main / subset estimation unit 22 may select a column of a table including a character string that matches at least one of the prior knowledge as a header column, and extract each column included in the header column as a header. Then, the consistency check location estimation apparatus 2 may regard a line including the extracted headline as a set of information corresponding to the headline, and regard information in each column included in the line as a set element. And the consistency check location estimation apparatus 2 operate
- the present embodiment can also be applied to a case where the reference source document and the reference destination document include a sentence composed of paragraphs and the consistency check part is a paragraph unit.
- prior knowledge as shown in FIG. 10 may be prepared in advance.
- the main set feature is represented by an outline level set to the title of the paragraph corresponding to the heading.
- the unnecessary set feature is represented by a regular expression.
- the main / subset estimation unit 22 excludes the paragraph corresponding to the headline that matches the unnecessary set feature from the extracted headlines from the matching check points.
- prior knowledge as shown in FIG. 11 may be prepared in advance.
- the main set feature is represented by a combination of a plurality of features set in the title of the paragraph corresponding to the heading.
- a title similar to “requirement” may be extracted as a headline.
- the matching check location estimation apparatus 2 may regard a paragraph following the extracted heading as a set of information corresponding to the heading, and may consider each sentence included in the paragraph as a set element. And the consistency check location estimation apparatus 2 operate
- the consistency check location estimation apparatus as the second exemplary embodiment of the present invention can estimate the accuracy of the consistency check location between documents.
- the main subset estimation unit regards, in the reference source document and the reference destination document, a line including information that matches at least one of the prior knowledge as a heading line, and one or more headings from the heading line. To extract. Then, the main / subset estimation unit determines the set of information corresponding to each extracted heading, the number of elements, the degree of element overlap, and the main set features, sub set features, and unnecessary set features included in the prior knowledge. This is because the main set and sub-set are estimated based on the above.
- the check point estimation unit includes a reference source main set and a reference source sub-set in which the reference destination and heading satisfy a common condition, a reference destination main set, and a reference destination sub-set in the reference source This is because a headline that satisfies a common condition is estimated as a matching check point.
- this Embodiment can also extract the headline peculiar to a case contained in the heading line containing the characteristic of such a general heading. As a result, according to the present embodiment, it is possible to more accurately detect the heading of the place where it is desirable to perform the consistency check.
- all portions (main set) where it is estimated that the main information is described in the document are presumed to be consistency check portions.
- a matching document having a headline that satisfies a common condition in the corresponding document is matched. Estimated as a check point.
- the present embodiment estimates the matching check location more accurately by distinguishing the main set that is the main information from the sub-set that is the secondary information and estimating the matching check location. become.
- FIG. 12 shows the configuration of the consistency check location estimation apparatus 3 as the third embodiment of the present invention.
- the consistency check location estimation apparatus 3 is provided with a check location estimation section 33 instead of the check location estimation section 13 with respect to the consistency check location estimation apparatus 2 as the second embodiment of the present invention.
- the consistency check location estimation apparatus 3 and each functional block thereof can be configured by the same hardware elements as the consistency check location estimation apparatus 2 as the second embodiment of the present invention described with reference to FIG. It is.
- the hardware configuration of the consistency check location estimation device 3 and each functional block thereof is not limited to the above-described configuration.
- the check location estimation unit 33 is configured in substantially the same manner as the check location estimation unit 13 in the second embodiment of the present invention, so that the check location estimation unit 33 in the second embodiment of the present invention is estimated as the consistency check location.
- a set or a subset is set as a candidate set of matching check points.
- the check location estimation unit 33 estimates a combination of candidates in which the relationship between the numbers of elements satisfies a predetermined condition between each candidate in the reference source document and each candidate in the reference destination document as a combination of consistency check locations.
- a predetermined condition may be that n / m or m / n is equal to or less than a threshold value, where n is the number of reference source candidate elements and m is the reference destination candidate element number.
- Consistency check is effective when many parts are consistent. If most of the locations are not consistent, many alarms indicating inconsistencies are detected, and the effectiveness of the consistency check is reduced. If the number of elements greatly differs between the reference check point and the reference check point, many of the points do not match and the effectiveness of the check is reduced. This is because a combination of consistency check locations that do not greatly differ in the number of elements is suitable as a combination of consistency check locations that check for consistency.
- the check location estimation unit 33 estimates one or more consistency check locations in the reference source document or the reference destination document that satisfy the predetermined condition in terms of the relationship between the numbers of elements, as relevant consistency check locations.
- the relationship between the number of elements satisfying the predetermined condition may be, for example, that the ratio of the number of elements is equal to or less than a threshold value, as described above.
- a plurality of consistency check location candidates whose elements do not differ greatly are locations that are related to each other.
- Such locations that are related to each other include, for example, a plurality of columns in one table. In this case, these columns contain relevant information described in the same table.
- a plurality of candidates for a consistency check location having a large number of elements are highly likely to be locations that are not related to each other. Examples of such unrelated locations include columns included in different tables. In this case, the columns are likely to contain information that is not related to each other. Therefore, it is possible to present a group of locations to be checked for consistency with the other document by presenting multiple locations where the number of elements in one document is not significantly different as matching locations that are related to each other. Become.
- the ratio of the number of elements is equal to or less than a threshold value as a predetermined condition for determining the relationship between the number of elements.
- the main subset estimation unit 22 estimates the reference source main set and subset by executing step A1 as in the second embodiment of the present invention.
- the main subset estimation unit 22 estimates the reference main set and subset by executing step A2 as in the second embodiment of the present invention.
- the check location estimation unit 33 converts the reference source main set and the subset of the reference source that satisfy the common condition for the reference destination main set and the sub set to the matching check location. Estimation as a candidate (step A21).
- the check location estimation unit 33 converts the reference destination main set and the subset of the reference destination that satisfy the common condition with respect to the reference source main set or the subset to the matching check location. Estimation as a candidate (step A22).
- the check location estimation unit 33 determines whether there is an unprocessed candidate that has not been processed after step A24 among the candidates of the consistency check location of the reference source (step A23). It is assumed that all candidates estimated in step A21 are set to be unprocessed when this step is first executed for a certain reference source document.
- the check location estimation unit 33 ends the operation.
- the check location estimation unit 33 selects one of the unprocessed candidates in the reference source document (step A24).
- the check location estimating unit 33 relates, in the reference source document, the candidates selected in step A24 and other reference source candidates having a number of elements whose ratio between the number of candidate elements is equal to or less than a threshold. It is estimated as a certain consistency check location (step A25).
- the threshold value of the ratio of the number of elements may be a value input by the user via an input device such as a keyboard, or may be a value stored in advance in the storage device 1004. Further, the threshold value of the ratio of the number of elements may be a value acquired in another manner. For example, the threshold value of the ratio of the number of elements may be a value such as 10.
- the check location estimation unit 33 matches each of the reference destination candidates whose ratio of the number of elements is equal to or less than a threshold with respect to the number of selected reference source candidates, and the matching check location corresponding to the selected reference source candidate (Step A26).
- the threshold value of the ratio of the number of elements may be a value input by the user via an input device such as a keyboard, or may be a value stored in advance in the storage device 1004.
- the threshold value of the ratio of the number of elements may be a value acquired in another manner.
- the threshold value of the ratio of the number of elements used in this step may be the same as the threshold value used in Step A25.
- the check location estimation unit 33 sets the candidate selected in step A24 as processed (step A27), and repeats the processing from step A23.
- the check location estimation unit 33 again searches for the same match check location as the match check location already estimated in the previous process. May be estimated. In that case, the check location estimation unit 33 may eliminate duplication. That is, in such a case, the check location estimation unit 33 may not estimate the already-estimated consistency check location. Alternatively, the check location estimation unit 33 may set that one or more reference source consistency check locations estimated in step A25 are all processed in step A27.
- the check location estimating unit 33 checks the consistency between two or more groups between the reference source document and the reference destination document.
- a combination of points may be estimated.
- the check location estimation unit 33 estimates the sets A1 and A2 in the reference source document and the sets B1 and B2 in the reference destination document as combinations of match check locations to be checked for consistency.
- the check location estimation unit 33 may further estimate the sets X1 and X2 in the same reference source document and the sets Y1 and Y2 in the reference destination document as a combination of match check locations that should be checked for consistency. .
- the consistency check location estimation apparatus can accurately estimate a combination suitable for mutual consistency check as a consistency check location between documents.
- the check location estimation unit estimates candidates for consistency check locations from the main set and sub-set of the reference source document and the main set and sub-set of the reference destination document. Then, the check location estimation unit estimates a combination satisfying a predetermined condition of the relationship between the number of elements between each candidate in the reference source document and each candidate in the reference destination document as a combination of consistency check locations that check each other. Because it does. Also, at this time, the check location estimating unit checks one or more candidates in the reference source document or the reference destination document that have a relationship in the number of elements satisfying a predetermined condition among the candidates. It is because it estimates as a location.
- FIG. 14 shows the configuration of a consistency check system 4 as a fourth embodiment of the present invention.
- the consistency check system 4 includes a consistency check location estimation device 3 and a consistency determination unit 44.
- the consistency check system 4 can be configured by the same computer apparatus as the consistency check location estimation apparatus 3 as the third embodiment of the present invention described with reference to FIG.
- the consistency determination unit 44 includes a CPU 1001 that reads a computer program and various data stored in the ROM 1003 and the storage device 1004 into the RAM 1002 and executes them.
- the hardware configuration of the consistency check system 4 and each functional block thereof is not limited to the above-described configuration.
- the consistency check location estimation apparatus 3 includes one or more consistency check locations in the reference source document and one or more consistency check locations in the reference destination document.
- the combination of is estimated.
- the consistency check location estimation apparatus 3 may output information representing a combination of the estimated consistency check locations to the storage device 1004.
- the consistency determination unit 44 uses the consistency check location estimated by the consistency check location estimation device 3 to determine consistency between the consistency check locations between the reference source document and the reference destination document.
- the consistency determination unit 44 extracts the consistency check location of the reference source estimated by the consistency check location estimation device 3 from the reference source document. In addition, the consistency determination unit 44 extracts, from the reference destination document, the consistency check location of the reference destination combined as the location corresponding to the consistency check location of the reference source.
- the consistency determination unit 44 concatenates the corresponding elements at those consistency check locations to form the elements of the reference source consistency check location.
- the consistency check location of the reference destination includes a plurality of relevant consistency check locations.
- the consistency determination unit 44 concatenates the corresponding elements at those consistency check locations to make them the elements of the reference check location. For example, it is assumed that a plurality of columns included in the same table are estimated as relevant consistency check locations. In this case, the consistency determination unit 44 may connect elements included in the same row in the corresponding columns.
- the consistency determination unit 44 calculates information representing the relationship between each element included in the consistency check location of the reference source and each element included in the consistency check location of the reference destination. Then, the consistency determination unit 44 determines that the corresponding element in the consistency check location of the reference source matches the corresponding element in the consistency check location of the reference destination when the information indicating the relevance satisfies the predetermined condition. .
- the consistency determination unit 44 may detect a description omission in the reference destination when there is no reference destination element that matches the element of the consistency check location of the reference source. Similarly, the consistency determination unit 44 may detect a description omission in the reference source when there is no reference source element that matches the element of the consistency check location of the reference destination.
- the consistency determination unit 44 may determine that the matching is achieved if the estimated similarity is equal to or greater than a threshold value.
- the consistency check location estimation device 3 estimates a combination of consistency check locations between the reference source document and the reference destination document (step A28).
- the check location estimation device 3 may store information indicating the estimated match check location and the combination thereof in the storage device 1004. Further, the consistency check system 4 outputs the estimated consistency check location and the combination thereof so as to be correctable by the user, performs correction processing based on information input via the input device, and then stores it in the storage device 1004. You may do it.
- the consistency determining unit 44 extracts the consistency check location of the reference source estimated in step A28 from the reference source document. In addition, the consistency determination unit 44 extracts, from the reference destination document, the consistency check location of the reference destination combined in Step A28 as the location corresponding to the consistency check location of the reference source (Step A29).
- the consistency determining unit 44 connects the corresponding elements at those locations to match the verification check locations. Element.
- the consistency determination unit 44 calculates information representing the relationship between each element in the reference check consistency check location extracted in step A29 and each element in the reference check consistency check location (step S29). A30).
- the consistency determination unit 44 may output the calculation result between the elements in this step to an output device such as a display device or a printing device.
- the consistency determination unit 44 may store the calculation result in the storage device 1004 and output it in response to a request from the user. In addition, the consistency determination unit 44 may output the calculation result in another manner.
- the consistency determination unit 44 determines the consistency of the consistency check location of the reference source and the reference destination based on the relevance calculated in step A30 (step A31).
- the consistency determination unit 44 may determine that a pair of elements between a reference source and a reference destination whose information indicating relevance is equal to or greater than a threshold value and output the pair. Further, the consistency determination unit 44 may determine and output a reference source element in which an element matching the reference destination is not detected as a description omission in the reference destination. Similarly, the consistency determination unit 44 may determine and output a reference destination element for which no element matching the reference source is detected as a description omission in the reference source.
- the output destination may be a display device, a printing device, or the like, or may be the storage device 1004. When output to the storage device 1004, the consistency determination unit 44 may output the determination result output to the storage device 1004 in response to a request from the user.
- the output destination may be another device connected via a network.
- the threshold value used for the consistency determination may be input via an input device such as a keyboard, or may be stored in advance in the storage device 1004. Further, the threshold value may be acquired in a manner other than that.
- step A28 the consistency check location estimation apparatus 3 estimates "screen ID” and "screen name” as relevant consistency check locations at the reference source, and the consistency check location of the reference destination corresponding to these. Assume that “screen ID” and “screen name” are estimated. Then, the consistency check location estimation apparatus 3 outputs a combination of these consistency check locations to the storage device 1004.
- FIG. 16 shows an example of information indicating a combination of consistency check points output to the storage device 1004.
- reference source location represents the character string of the heading of the consistency check location of the reference source.
- reference destination location represents a character string of a heading of a reference check location.
- the reference source location and the reference destination location shown in the same row are a combination estimated to check each other for consistency.
- reference source location and reference destination location are not limited to the character string of the headline of the consistency check location, and may be represented by other information.
- the reference source location and the reference destination location may be represented by a sheet name or cell position information that can specify the location of the consistency check.
- the reference source document or the reference destination document is a document file
- the reference source location and the reference destination location may be represented by a page number, a line number, a chapter number, or the like that can specify the location of the consistency check.
- step A29 the consistency determination unit 44, from the reference source document 8a, based on the “reference source location” of FIG. 16, the reference source alignment check locations “SZTA001, product registration”, “SZTA002, “Material revision” and “SZTA003, deliverable maintenance” are extracted.
- the consistency determination unit 44 extracts the reference check points “SZTA002, product revision” and “SZTA003, product maintenance” from the reference document based on the “reference destination” in FIG. .
- the consistency determination unit 44 extracts information obtained by connecting elements included in the same row in each column of a plurality of consistency check locations “screen ID” and “screen name” that are relevant in one document. To do.
- step A28 it is assumed that the consistency check location estimation apparatus 3 estimates a “function name” as a reference source consistency check location and estimates an “entity candidate” as a corresponding reference destination consistency check location. And the consistency check location estimation apparatus 3 outputs the combination of these consistency check locations to the storage device 1004 as shown in FIG.
- step A29 the consistency determination unit 44, from the reference source document 9a, based on the “reference source location” in FIG. 17, the consistency check locations “order plan confirmation”, “order plan hold”,. , "Create quotation request” is extracted.
- the consistency determination unit 44 extracts the consistency check points “order”, “ordering plan”, and “project” from the reference document 9b based on the “reference point” in FIG.
- Step A30 Next, a specific example of the operation of Step A30 will be described.
- the similarity s (i, j) between the target i and the target j can be calculated by the following formula (1) or the following formula (2). .
- C (i) represents the size when the target i is compressed
- C (j) represents the size when the target j is compressed
- C (ij) represents a size when a new target obtained by connecting the target i and the target j is compressed.
- Such a compression algorithm encodes a character string into information (a pair of matching length and matching position) representing a symbol indicating the character itself or a partial character string that appears before the character.
- a shorter code is assigned to a larger number of symbols according to the number of symbols appearing in the character string. Therefore, the similarity between the objects i and j in consideration of the word order including the particle can be calculated by the rough estimation of the Kolmogorov complexity.
- step A30 in this specific example, the consistency determination unit 44 applies each element in the consistency check location of the reference source and the reference destination to the target i and the target j in the above formula (1) or (2). The similarity between these elements is calculated.
- the consistency check points of the reference source document 8a are “SZTA001, product registration”, “SZTA002, product revision”, and “SZTA003, product maintenance”.
- the consistency check points of the reference destination document 8b are “SZTA002, product revision” and “SZTA003, product maintenance”.
- three elements are included in the consistency check location of the reference source, and two elements are included in the consistency check location of the reference destination. Therefore, in this case, the consistency determination unit 44 calculates information representing the relevance for each of the three elements of the reference source and the six element pairs in total of the two elements of the reference destination.
- the consistency determination unit 44 applies the reference source “SZTA001, product registration” to the target i and applies the reference destination “SZTA002, product revision” to the target j. Calculate the degree. Similarly, the consistency determination unit 44 calculates the degree of similarity for each of the remaining five element pairs.
- the consistency check points of the reference source document 9a are “order plan confirmation”, “order plan suspension”,..., “Estimate request creation”.
- the consistency check points of the reference destination document 9b are “order received”, “order plan”, and “project”.
- the consistency determination unit 44 calculates information representing the relevance of each of the five elements of the reference source for a total of 15 element pairs of the three elements of the reference destination.
- the consistency determination unit 44 applies the “order plan confirmation” of the reference source to the target i, and applies the “order received” of the reference destination to the target j to calculate the similarity between elements. Similarly, the consistency determination unit 44 calculates the similarity for each of the remaining 14 element pairs.
- the consistency determination unit 44 determines whether or not the similarity of the element pair calculated in step A30 is equal to or greater than a threshold value.
- the threshold value may be, for example, a value such as 0.3, 0.35, and 0.55.
- the consistency determination unit 44 determines that the reference element “SZTA002, product revision” matches the reference source element “SZTA002, product revision”. Further, it is assumed that the consistency determination unit 44 determines that the reference element “SZTA003, product maintenance” matches the reference element “SZTA003, product maintenance”. On the other hand, the consistency determination unit 44 determines that the reference source element “SZTA001, product registration” does not match (no omission) because there is no element whose similarity is equal to or greater than the threshold value at the reference destination. .
- the consistency determination unit 44 determines that the reference “order plan” is consistent with the reference source “order plan confirmation”, “order plan hold”, and the like. On the other hand, the consistency determination unit 44 determines that there is no match (description omission) because there is no element whose similarity is greater than or equal to the threshold value for the reference source “create an estimate request”.
- the consistency check system can perform the consistency check between documents more accurately by using the consistency check portion estimated in each document to be analyzed.
- the consistency check location estimation apparatus estimates a combination of consistency check locations that check the consistency between the reference source document and the reference destination document. Then, the consistency determination unit matches a pair satisfying a predetermined condition for the information indicating the relationship between each element included in the reference check point and each reference element included in the reference check point. This is because it is determined that the user is doing. In addition, when the consistency determination unit does not have an element that satisfies the predetermined condition in the other consistency check location among elements included in one consistency check location of the reference source or the reference destination, This is because it is determined that the element is missing description.
- this embodiment can determine the consistency between the reference source document and the reference destination document more efficiently.
- each embodiment is not limited to the case where two of the reference source document and the reference destination document are analyzed, and can be applied to the case where three or more documents are targeted for analysis. In this case, the configuration and operation of each embodiment are similarly described by replacing the reference source document with each document and replacing the reference destination document with another document.
- each embodiment may estimate the matching check location in units of rows in the table. Further, in the case where a plurality of tables are included in each of the reference source document and the reference destination document, each embodiment may estimate the matching check location in units of columns or rows in each table. Further, in the case where the reference source document and the reference destination document are sentences composed of paragraphs, each embodiment may estimate the consistency check location in units of paragraphs.
- each functional block of the consistency check location estimation device and the consistency check system is realized by a CPU that executes a computer program stored in a storage device or ROM.
- the present invention is not limited to this, and some, all, or a combination of each functional block may be realized by dedicated hardware.
- the functional block of the consistency check location device and the consistency check system may be distributed and implemented in a plurality of devices.
- the operations of the consistency check location device and the consistency check system described with reference to the flowcharts are stored in the storage device (storage medium) of the computer apparatus as the computer program of the present invention. It may be stored. Then, the computer program may be read and executed by the CPU. In such a case, the present invention is constituted by a code of such a computer program or a storage medium.
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Stored Programmes (AREA)
Abstract
本発明は、ドキュメント間における整合チェック箇所を精度よく推定する技術を提供する。整合チェック箇所推定装置1は、見出しの特徴を表す事前知識を記憶する事前知識記憶部11と、事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定部12と、各ドキュメントにおける主集合および副集合に基づいて、各ドキュメントにおいて他のドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定するチェック箇所推定部13と、を備える。
Description
本発明は、ドキュメント間の整合性をチェックする技術に関する。
システム・ソフトウェア開発において作成されるドキュメントでは、同じ事柄が複数の観点から複数のドキュメントに記述されることが多い。このため、ドキュメント作成においては、ドキュメント間で互いに漏れや矛盾がないよう整合性をチェックする必要がある。以下、整合性をチェックすることを、整合チェックとも記載する。整合チェックは、人手で行うとコスト(費用と時間)がかかり、また、見逃す場合がある。
このような問題に対応する技術の一例が、特許文献1に記載されている。特許文献1に記載された関連技術は、要件定義書や設計書などの分析対象ドキュメントから仕様テキストを抽出し、漏れなどを自動チェックする。
しかしながら、特許文献1に記載されたような自動チェックであっても、あるいは手動チェックであっても、より精度の高い整合チェックのためには、整合チェック箇所が指定されることが望ましい。その理由について以下に述べる。
ここでは、図8に示すドキュメント8aおよび8bの間で整合性をチェックする場合を例として説明する。ドキュメント8aは、画面一覧が記述された表を含む。このドキュメント8aでは、1行目に、機能ID、画面IDおよび画面名の各見出しが記述されている。また、ドキュメント8bは、画面レイアウトが記述された表を含む。このドキュメント8bでは、1行目に、画面ID、画面名および説明の各見出しが記述されている。
ここで、ドキュメント8aでは、画面名の列に、「成果物登録」、「成果物改版」、「成果物メンテナンス」が記述されている。一方で、ドキュメント8bでは、画面名の列に、「成果物改版」および「成果物メンテナンス」は記述されているが、「成果物登録」が漏れている。
この場合に、自動チェックを行う特許文献1の関連技術を用いて不整合を検出することを想定する。この関連技術は、言明単位(例えば1行)を用いて不整合の検出を行うため、機械的にドキュメントの1行を1仕様として抽出することになる。すると、ドキュメント8aでは、「ZTA00、SZTA001、成果物登録」などが1つの仕様として抽出される。また、ドキュメント8bでは、「SZTA002、成果物改版、成果物登録(SZTA001)で登録した成果物を改版する。」などが1つの仕様として抽出される。すると、この関連技術は、「ZTA00、SZTA001、成果物登録」と「SZTA002、成果物改版、成果物登録(SZTA001)で登録した成果物を改版する。」との類似度が高いため、整合しているとみなしてしまう。このため、この関連技術は、ドキュメント8bにおける「成果物登録」の漏れを見逃す可能性がある。
また、自動チェックでなく、人手で文字列を検索して不整合をチェックする場合を想定する。ここで、ドキュメント8bでは、画面名の列に「成果物登録」が漏れているが、「成果物改版」の説明の列に、「成果物登録」の文字列が含まれている。そのため、チェック者は、整合チェック箇所を意識しない場合、ドキュメント8aにおける「成果物登録」の文字列が、ドキュメント8bにおける「説明」の列に検索された段階で、整合しているとみなしてしまい、漏れを見逃す可能性がある。ここで、ドキュメント8aおよび8bにおいて、それぞれの画面名の列が整合チェック箇所であると提示されれば、チェック者は、不整合に気づく可能性が高い。
このように、自動チェックであっても手動チェックであっても、より精度の高い整合チェックのためには、整合チェック箇所が指定されることが望ましい。
なお、統一されたドキュメントフォーマットを用いることを想定すれば、そのフォーマットにおいて整合チェック箇所となる箇所をあらかじめ定めておくことも可能である。また、そのフォーマットにおいて定められた整合チェック箇所を用いて、整合チェックを自動化することも可能である。しかし、顧客やプロジェクトごとに重要な観点が異なるため、統一されたドキュメントフォーマットを用いることは難しい。また、無理に統一されたドキュメントフォーマットを用いると、ドキュメントの人による可読性が低下するという問題が生じる。
本発明は、上述の課題を解決するためになされたもので、ドキュメント間における整合チェック箇所を精度よく推定する技術を提供することを目的とする。
上記目的を達成するために、本発明の整合チェック箇所推定装置は、見出しの特徴を表す事前知識を記憶する事前知識記憶手段と、前記事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定手段と、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定するチェック箇所推定手段と、を備える。
また、本発明の整合チェックシステムは、上述の整合チェック箇所推定装置と、前記整合チェック箇所推定装置によって推定された前記整合チェック箇所を用いて、前記ドキュメント間の整合性を判定する整合性判定手段と、を備える。
また、本発明の整合チェック箇所推定方法は、見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または前記主集合に付随する副次的な情報が含まれる副集合として推定し、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定する。
また、本発明の記憶媒体は、見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定ステップと、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定するチェック箇所推定ステップと、をコンピュータ装置に実行させる整合チェック箇所推定プログラムを記憶している。
また、本発明の整合性判定方法は、上述の整合チェック箇所推定方法によって推定された整合チェック箇所を用いて、ドキュメント間の整合性を判定する。
また、本発明の他の記憶媒体は、上述の整合チェック箇所推定プログラムの実行によって推定される整合チェック箇所を用いて、ドキュメント間の整合性を判定する整合性判定ステップをコンピュータ装置に実行させる整合性判定プログラムを記憶している。
本発明は、ドキュメント間における整合チェック箇所を精度よく推定する技術を提供することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
(第1の実施の形態)
本発明の第1の実施の形態としての整合チェック箇所推定装置1の機能ブロック構成を図1に示す。図1において、整合チェック箇所推定装置1は、事前知識記憶部11と、主副集合推定部12と、チェック箇所推定部13とを備える。
本発明の第1の実施の形態としての整合チェック箇所推定装置1の機能ブロック構成を図1に示す。図1において、整合チェック箇所推定装置1は、事前知識記憶部11と、主副集合推定部12と、チェック箇所推定部13とを備える。
ここで、整合チェック箇所推定装置1のハードウェア構成例を図2に示す。図2において、整合チェック箇所推定装置1は、CPU(Central Processing Unit)1001と、RAM(Random Access Memory)1002と、ROM(Read Only Memory)1003と、ハードディスク等の記憶装置1004とによって構成可能である。この場合、事前知識記憶部11は、記憶装置1004によって構成される。また、主副集合推定部12およびチェック箇所推定部13は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001によって構成される。なお、整合チェック箇所推定装置1およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
事前知識記憶部11は、事前知識を記憶する。事前知識とは、分析対象のドキュメントにおける見出しの特徴を表す情報である。事前知識記憶部11は、ユーザによってキーボードなどの入力装置を介して入力される事前知識を記憶してもよい。あるいは、事前知識記憶部11は、あらかじめ事前知識を記憶していてもよい。あるいは、事前知識記憶部11は、その他の様態で取得された事前知識を記憶してもよい。
主副集合推定部12は、事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出する。
また、主副集合推定部12は、各ドキュメントにおいて、抽出した各見出しに対応する情報の集合を、主集合または副集合として推定する。分析対象の各ドキュメントは、ユーザによってキーボードなどの入力装置を介して入力されるものであってもよい。あるいは、分析対象の各ドキュメントは、あらかじめ記憶装置1004に記憶されているものであってもよい。また、分析対象の各ドキュメントは、あらかじめ記憶装置1004に記憶されている複数のドキュメントのうち、入力装置を介して入力される情報により指定されるものであってもよい。あるいは、分析対象の各ドキュメントは、その他の様態で取得されるものであってもよい。
ここで、各見出しに対応する情報の集合について説明する。例えば、ドキュメントにおいて、表の列の見出しが抽出されているとする。この場合、その表においてその見出しに対応する列の各欄の内容は、その見出しに対応する情報である。また、そのような情報の集合、すなわち、その列全体は、その見出しに対応する情報の集合である。また、例えば、ドキュメントにおいて、段落の見出しが抽出されているとする。この場合、その段落に含まれる各文は、その見出しに対応する情報である。また、そのような情報の集合、すなわち、その段落全体は、各見出しに対応する情報の集合である。
また、主集合とは、ドキュメントにおいて整合チェック対象となる主要な情報が含まれる箇所である。また、副集合とは、主集合に含まれる情報に付随する副次的な情報が含まれる箇所である。
例えば、主副集合推定部12は、各見出しに対応する情報の集合における要素の重複度合に基づいて、該当する集合が、主集合であるか副集合であるかを推定してもよい。要素の重複度合としては、例えば、N/Mによって算出される値が適用可能である。ここで、Mは、集合における重複を含む要素数を表す。また、Nは、集合における重複を含まない要素数を表す。また、“/”は除算を表す。この場合、N/Mは、重複する要素が少ないほど大きい値となる。重複する要素が少ない集合は、主要な整合チェック箇所となる可能性が高い。そこで、この場合、主副集合推定部12は、要素の重複度合N/Mが所定条件を満たす集合を主集合に推定し、それ以外の集合を副集合に推定してもよい。また、この場合の所定条件とは、閾値以上であることであってもよい。
チェック箇所推定部13は、分析対象の各ドキュメントにおける主集合および副集合に基づいて、分析対象のドキュメント間での整合チェック箇所を推定する。整合チェック箇所とは、分析対象のそれぞれのドキュメントにおいて、他の分析対象のドキュメントとの間で整合性をチェックする箇所である。
ここで、主集合は、各ドキュメントにおける主要な箇所であるため、全て整合チェック箇所として適切であると考えられる。また、システム・ソフトウェア開発などにおいて整合チェックが必要となるドキュメントでは、多くの関連者によって分かり易いように、対応する見出し名が一致している場合が多い。したがって、各ドキュメントの副集合のうち対応する他のドキュメントに対して見出しが共通する集合は、整合チェック箇所として適切であると考えられる。
そこで、例えば、チェック箇所推定部13は、各ドキュメントにおける主集合を、整合チェック箇所として推定してもよい。また、チェック箇所推定部13は、各ドキュメントにおける副集合のうち、他のドキュメントの主集合または副集合に対して見出しが所定の共通条件を満たす副集合を、整合チェック箇所として推定してもよい。なお、所定の共通条件とは、見出しの文字列が同一であること、あるいは、類似することであってもよい。その他、所定の共通条件とは、見出しが共通しているとみなすことができるその他の条件であってもよい。
以上のように構成された整合チェック箇所推定装置1の動作について、図3を参照して説明する。
図3において、まず、主副集合推定部12は、分析対象の各ドキュメントにおいて、事前知識に基づいて1つ以上の見出しを抽出する。そして、主副集合推定部12は、抽出した各見出しに対応する情報の集合を、主集合または副集合に推定する(ステップS1)。
前述のように、主副集合推定部12は、各見出しに対応する情報の集合における要素の重複度合N/Mに基づいて、主集合または副集合の推定を行ってもよい。
次に、チェック箇所推定部13は、各ドキュメントにおける主集合および副集合に基づいて、各ドキュメントにおける整合チェック箇所を推定する(ステップS2)。
前述のように、チェック箇所推定部13は、各ドキュメントの主集合を、整合チェック箇所として推定してもよい。加えて、チェック箇所推定部13は、各ドキュメントの副集合のうち他のドキュメントの主集合または副集合に対して見出しが共通条件を満たす副集合を、整合チェック箇所として推定してもよい。
また、このステップにおいて、チェック箇所推定部13は、推定した各ドキュメントの整合チェック箇所を、ディスプレイ装置や印刷装置などの出力装置や、ネットワークを介して接続された他の装置等に出力してもよい。また、チェック箇所推定部13は、推定した各ドキュメントの整合チェック箇所を、整合チェック箇所を用いた処理を行う他の装置に対して出力してもよい。また、チェック箇所推定部13は、推定した整合チェック箇所を、記憶装置1004に記憶しておき、ユーザからのリクエストなどに応じて出力してもよい。また、チェック箇所推定部13は、推定した整合チェック箇所を、その他の様態で出力してもよい。
以上で、整合チェック箇所推定装置1は、動作を終了する。
次に、本発明の第1の実施の形態の効果について述べる。
本発明の第1の実施の形態としての整合チェック箇所推定装置は、ドキュメント間における整合チェック箇所を精度よく推定することができる。
その理由について説明する。本実施の形態では、主副集合推定部が、分析対象の各ドキュメントにおいて、事前知識に基づいてそれぞれ1つ以上の見出しを抽出し、各見出しに対応する情報の集合を、主集合および副集合に推定する。そして、チェック箇所推定部が、各ドキュメントの主集合および副集合に基づいて、ドキュメント間での整合チェック箇所を推定するからである。
このように、本実施の形態は、見出しの特徴を示す事前知識に基づいて各ドキュメントを分析することにより、整合チェック対象となる可能性が高い部分的な箇所を出力することができる。したがって、本実施の形態によって出力される整合チェック箇所を利用して自動チェックを行う装置または手動チェックを行うチェック者は、各ドキュメント全体を構成するすべての単位(行等)を対象にしてドキュメント間の整合チェックを行う必要がない。本実施の形態の出力を利用する装置またはチェック者は、本実施の形態により提示される整合チェック箇所間で整合チェックを行えばよい。したがって、本実施の形態は、整合チェックの分析精度を向上させることができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
なお、本発明の第2の実施の形態以降では、本発明における分析対象の各ドキュメントとして、参照元ドキュメントおよび参照先ドキュメントの2つのドキュメント間での整合チェック箇所を推定する例について説明する。以降、参照元ドキュメントを、参照元とも記載する。また、参照先ドキュメントを、参照先とも記載する。
まず、本発明の第2の実施の形態としての整合チェック箇所推定装置2の構成を図4に示す。図4において、整合チェック箇所推定装置2は、本発明の第1の実施の形態としての整合チェック箇所推定装置1に対して、事前知識記憶部11に替えて事前知識記憶部21と、主副集合推定部12に替えて主副集合推定部22とを備える点が異なる。ここで、整合チェック箇所推定装置2およびその各機能ブロックは、図2を参照して説明した本発明の第1の実施の形態としての整合チェック箇所推定装置1と同一のハードウェア要素によって構成可能である。なお、整合チェック箇所推定装置2およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
事前知識記憶部21は、主集合特徴と、副集合特徴と、不要集合特徴とを含む事前知識を記憶する。
ここで、主集合特徴は、主要な見出しの特徴を表す。主要な見出しは、単独で整合チェックの対象となりやすい。例えば、表における列見出しのうち、「機能ID」や「画面名称」といったような特定の単語を含むものを主要な見出しとみなすことができるとする。この場合、主集合特徴は、そのような特定の単語を含む正規表現等で表されていてもよい。
また、副集合特徴は、主要な見出しに付随する見出しの特徴を表す。このような付随的な見出しは、単独では整合チェックの対象となりにくく、主要な見出しに付随して整合チェックされる対象となりやすい。例えば、表における列見出しのうち、「桁数」や「説明」といったような特定の単語を含むものを、主要な見出しに付随する見出しとみなすことができるとする。この場合、副集合特徴は、そのような特定の単語を含む正規表現等で表されていてもよい。
また、不要集合特徴は、整合チェックで不要となる見出しの特徴を表す。例えば、表における列見出しのうち、「項」といったような特定の単語を含むものを不要な見出しとみなすことができるとする。この場合、不要集合特徴は、そのような特定の単語を含む正規表現等で表されていてもよい。
なお、これらの主集合特徴、副集合特徴、不要集合特徴などの事前知識は、正規表現に限らず、書式、アウトラインレベル、その他の情報、または、それらの組み合わせ等によって表されていてもよい。例えば、事前知識は、文字列そのもので表されていてもよい。また、事前知識の内容は、「背景色がX色」といったような、見出しに設定されている書式の特徴で表されていてもよい。また、事前知識の内容は、「アウトラインレベルがX」などといったような、階層構造が設定された文章において見出しに設定されている階層の深さによって表されていてもよい。その他、事前知識の内容は、見出しの特徴を表すものであれば、他の表現であってもよい。
また、参照元ドキュメントまたは参照先ドキュメントに表が含まれることが想定される場合、これらの事前知識は、表の見出しの特徴を表す情報であってもよい。なお、表の見出しとは、列見出しであってもよいし、行見出しであってもよい。また、参照元ドキュメントまたは参照先ドキュメントに段落からなる文章が含まれることが想定される場合、これらの事前知識は、段落の見出しの特徴を表す情報であってもよい。
なお、事前知識記憶部21は、本発明の第1の実施の形態と同様に、上述した各種の事前知識として、入力装置を介して入力されたものを記憶してもよいし、あらかじめ記憶していてもよい。また、事前知識記憶部21は、その他の様態で取得された各種の事前知識を記憶してもよい。
主副集合推定部22は、主集合特徴と、副集合特徴と、不要集合特徴とを含む事前知識に基づいて、参照元ドキュメントおよび参照先ドキュメントにおいて、それぞれ1つ以上の見出しを抽出する。そして、主副集合推定部22は、これらの事前知識に基づいて、抽出した見出しに対応する情報の集合が、主集合であるか副集合であるかを推定する。
例えば、参照元ドキュメントまたは参照先ドキュメントに表が含まれることがわかっており、これらの事前知識が表の列見出しの特徴を表している場合を想定する。この場合、主副集合推定部22は、列見出しの特徴である事前知識の少なくともいずれかに合致する文字列を含む見出し行を検索してもよい。そして、主副集合推定部22は、検索した見出し行における表の各欄に含まれる情報を、見出しとして抽出してもよい。そして、この場合、主副集合推定部22は、表において、抽出した見出しの列を、その見出しに対応する情報の集合とみなせばよい。この場合、その列における各欄に含まれる情報は、その集合の要素とみなされる。
また、例えば、参照元ドキュメントまたは参照先ドキュメントに、段落からなる文章が含まれることがわかっており、これらの事前知識が段落の見出しの特徴を表している場合を想定する。この場合、主副集合推定部22は、段落の見出しの特徴である事前知識に合致する情報を、見出しとして抽出すればよい。そして、この場合、主副集合推定部22は、その見出しに続く段落を、その見出しに対応する情報の集合とみなせばよい。この場合、その段落を構成する各文が、その集合の要素とみなされる。
また、主副集合推定部22は、抽出した各見出しに対応する情報の集合が、主集合であるか副集合であるかを推定する処理を、要素の重複度合と、主集合特徴と、副集合特徴と、不要集合特徴とに基づいて行う。また、このとき、例えば、主副集合推定部22は、抽出した見出しに対応する情報の集合に含まれる要素の数に応じて異なる条件を用いてもよい。
例えば、主副集合推定部22は、抽出した見出しのうち、不要集合特徴に合致しないものについて、その見出しに対応する情報の集合に含まれる要素数を求める。そして、要素数が所定条件を満たさない(例えば、閾値以下である)場合、主副集合推定部22は、要素の重複度合によらずに、見出しが主集合特徴に合致するか否かに基づいて、対応する情報の集合が主集合であるか副集合であるかを推定してもよい。また、要素数が所定条件を満たす(例えば、閾値より大きい)場合、主副集合推定部22は、見出しが副集合特徴に合致すれば、要素の重複度合によらずに、対応する情報の集合が副集合であると推定してもよい。また、要素数が所定条件を満たす場合で、見出しが副集合特徴に合致しない場合、主副集合推定部22は、要素の重複度合に基づいて、対応する情報の集合が主集合であるか副集合であるかを推定してもよい。
チェック箇所推定部13は、本発明の第1の実施の形態で説明したように構成される。つまり、本実施の形態では、チェック箇所推定部13は、参照元および参照先の主集合については全て整合チェック箇所とみなす。また、チェック箇所推定部13は、参照元および参照先の副集合のうち、他方のドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合を、整合チェック箇所とみなす。
以上のように構成された整合チェック箇所推定装置2の動作を、図面を参照して説明する。
まず、整合チェック箇所推定装置2の動作の概略を、図5に示す。
図5において、まず、主副集合推定部22は、参照元ドキュメントにおいて、事前知識に基づいて、1つ以上の見出しを抽出する。そして、主副集合推定部22は、抽出した各見出しに対応する情報の集合を、主集合または副集合として推定する(ステップA1)。このステップの詳細については後述する。
次に、主副集合推定部22は、参照先ドキュメントにおいて、事前知識に基づいて、1つ以上の見出しを抽出する。そして、主副集合推定部22は、抽出した各見出しに対応する情報の集合を、主集合または副集合として推定する(ステップA2)。このステップの詳細については後述する。
次に、チェック箇所推定部13は、参照元の主集合と、参照元の副集合のうち参照先の主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、整合チェック箇所として推定する(ステップA3)。
次に、チェック箇所推定部13は、参照先の主集合と、参照先の副集合のうち参照元の主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、整合チェック箇所として推定する(ステップA4)。
以上で、整合チェック箇所推定装置2の動作の概略の説明を終了する。
次に、ステップA1およびステップA2において主集合および副集合を推定する動作の詳細を図6に示す。なお、ステップA1またはステップA2における動作は、対象のドキュメントが参照元ドキュメントであるか参照先ドキュメントであるかが異なるだけで同一である。
図6では、まず、主副集合推定部22は、事前知識に基づいて、対象ドキュメントから1つ以上の見出しを抽出する(ステップA5)。
例えば、対象ドキュメントに表が含まれる場合を想定する。このとき、事前知識が列見出しの特徴を表す正規表現であるとする。この場合、主副集合推定部22は、対象ドキュメントを先頭行から順に調べ、事前知識である正規表現のいずれかに合致する文字列を含む行を、見出し行とみなしてもよい。また、事前知識が列見出しの特徴を表す文字列であるとする。この場合、主副集合推定部22は、対象ドキュメントを先頭行から順に調べ、事前知識である文字列と類似する文字列を含む行を、見出し行とみなしてもよい。また、事前知識が列見出しに設定された「背景色がX色」などの書式であるとする。この場合、主副集合推定部22は、対象ドキュメントを先頭行から順に調べ、事前知識である書式が設定された欄を含む行を、見出し行とみなしてもよい。そして、主副集合推定部22は、検索した見出し行における表の各欄に含まれる情報を、見出しと抽出してもよい。
また、例えば、対象ドキュメントに段落からなる文章が含まれる場合を想定する。このとき、事前知識が段落の見出しの特徴(正規表現、書式、アウトラインレベル等)を表すとする。この場合、主副集合推定部22は、対象ドキュメントを先頭行から順に調べ、事前知識である段落の見出しの特徴のいずれかに合致する行を見出しとして抽出してもよい。
次に、主副集合推定部22は、ステップA5で抽出した見出しのうち、ステップA7以降の処理を行っていない未処理の見出しがあるか否かを判断する(ステップA6)。なお、ある対象ドキュメントについて最初にこのステップが実行される時点では、ステップA5で抽出された全ての見出しが未処理であると設定されているものとする。
ここで、未処理の見出しがなければ、主副集合推定部22は、主副集合推定動作を終了する。
一方、未処理の見出しがあれば、主副集合推定部22は、未処理の見出しのうちの1つを選択する(ステップA7)。
次に、主副集合推定部22は、選択した見出しが、不要集合特徴に合致するか否かを判断する(ステップA8)。
例えば、不要集合特徴が正規表現の場合、不要集合特徴に合致するとは、選択した見出しの文字列が正規表現にマッチすることであってもよい。また、例えば、不要集合特徴が文字列の場合、不要集合特徴に合致するとは、選択した見出しの文字列が不要集合特徴に類似することであってもよい。また、例えば、不要集合特徴が「空欄である」等という条件である場合、不要集合特徴に合致するとは、選択した見出しが空欄である等の条件を満たすことであってもよい。
ここで、選択した見出しが不要集合特徴に合致する場合、主副集合推定部22は、選択した見出しを処理済みと設定し(ステップA18)、ステップA6からの処理を繰り返す。
一方、選択した見出しが不要集合特徴に合致しない場合、主副集合推定部22は、選択した見出しに対応する情報の集合に含まれる要素を抽出する(ステップA9)。
例えば、対象ドキュメントに、列見出しを含む表が含まれる場合を想定する。この場合、主副集合推定部22は、その列見出しの列の各欄に含まれる情報を要素として抽出する。また、対象ドキュメントに段落からなる文章が含まれる場合を想定する。この場合、主副集合推定部22は、その見出しに続く段落に含まれる各文を要素として抽出する。
次に、主副集合推定部22は、選択した見出しに対応する情報の集合の要素数をMに代入する(ステップA10)。
なお、要素数Mは、空欄を含む要素の数でもよいし、空欄を除いた要素の数であってもよい。また、要素数Mは、選択した見出しの列の要素数であってもよいし、選択した見出しを含む表全体のうちで、空欄以外の欄のある行数であってもよい。
次に、主副集合推定部22は、要素数Mを、閾値Nthresと比較する(ステップA11)。
なお、Nthresは、ユーザによってキーボードなどの入力装置を介して指定された値であってもよい。また、Nthresは、あらかじめ記憶装置1004に記憶されている値であってもよい。また、Nthresは、その他の様態で取得された値であってもよい。例えば、Nthresは、1などの値であってもよい。
ここで、要素数Mが閾値Nthresより大きい場合、主副集合推定部22は、選択した見出しが副集合特徴に合致するか否かを判断する(ステップA12)。
ここで、選択した見出しが副集合特徴に合致する場合、主副集合推定部22は、選択した見出しに対応する情報の集合を、副集合であると推定する(ステップA17)。これにより、要素数Mが閾値Nthresより大きく、見出しが副集合特徴に合致する集合は、要素の重複度合によらずに副集合として推定される。
一方、選択した見出しが副集合特徴に合致しない場合、主副集合推定部22は、選択した見出しに対応する情報の集合について、重複を除いた要素数をNに代入する(ステップA13)。
なお、重複を除いた要素数Nは、空欄を含む数でもよいし、空欄を除いた数でもよい。
次に、主副集合推定部22は、重複ありの要素数Mに対する重複なしの要素数Nの割合(重複度合N/M)を、閾値Rthresと比較する(ステップA14)。
なお、Rthresは、ユーザによってキーボードなどの入力装置を介して指定された値であってもよい。また、Rthresは、あらかじめ記憶装置1004に記憶されている値であってもよい。また、Rthresは、その他の様態で取得された値であってもよい。例えば、Rthresは、0.5や0.7などの値であってもよい。
また、対象ドキュメントが複数のファイルや複数のシートによって構成される場合、主副集合推定部22は、各ファイルや各シートのそれぞれにおいて、全てN/M≧Rthresが満たされるか否かを判断してもよい。あるいは、このような場合、主副集合推定部22は、各ファイルや各シートにおけるN’の合計N、および、各ファイルや各シートにおけるM’の合計Mをもとめ、トータルとしてN/M≧Rthresとなるかどうかを調べてもよい。
ここで、重複度合N/Mが閾値Rthres以上である場合、主副集合推定部22は、選択した見出しに対応する情報の集合を、主集合として推定する(ステップA16)。
一方、重複度合N/Mが閾値Rthresより小さい場合、主副集合推定部22は、選択した見出しに対応する情報の集合を、副集合として推定する(ステップA17)。
これにより、要素数Mが閾値Nthresより大きく、見出しが副集合特徴に合致しない集合は、要素の重複度合に基づいて、主集合であるか副集合であるかが推定される。
また、ステップA11において、要素数Mが閾値Nthres以下であると判断された場合、主副集合推定部22は、選択した見出しが主集合特徴に合致するか否かを判断する(ステップA15)。
ここで、選択した見出しが主集合特徴に合致する場合、主副集合推定部22は、選択した見出しに対応する情報の集合を、主集合として推定する(ステップA16)。
一方、選択した見出しが主集合特徴に合致しない場合、主副集合推定部22は、選択した見出しに対応する情報の集合を、副集合として推定する(ステップA17)。
これにより、要素数Mが閾値Nthres以下である集合については、要素の重複度合によらずに、事前知識である主集合特徴に基づいて、主集合であるか副集合であるかが推定される。
ステップA16またはステップA17において主集合または副集合であると推定した後、主副集合推定部22は、選択した見出しを処理済みと設定し(ステップA18)、ステップA6からの処理を繰り返す。
以上で、主副集合推定部22によるステップA1およびステップA2における動作の説明を終了する。
次に、整合チェック箇所推定装置2の動作について、2つの具体例(具体例1および具体例2)を示す。
<具体例1>
まず、この具体例1において用いられる事前知識を図7に示す。図7において、「種類」の列は、事前知識が主集合特徴、副集合特徴、不要集合特徴のいずれかであるかを表す。また、「内容」の列は、事前知識の内容を表す。ここでは、事前知識の内容は、正規表現で表されている。例えば、「^」は文字列の先頭を示す正規表現であり、「$」は文字列の末尾を示す正規表現である。
まず、この具体例1において用いられる事前知識を図7に示す。図7において、「種類」の列は、事前知識が主集合特徴、副集合特徴、不要集合特徴のいずれかであるかを表す。また、「内容」の列は、事前知識の内容を表す。ここでは、事前知識の内容は、正規表現で表されている。例えば、「^」は文字列の先頭を示す正規表現であり、「$」は文字列の末尾を示す正規表現である。
また、図8に、具体例1において用いられる参照元ドキュメント8aおよび参照先ドキュメント8bを示す。これらの参照元ドキュメント8aおよび参照先ドキュメント8bには表が含まれ、整合チェック箇所は、列単位で推定されることになる。また、これらの参照元ドキュメント8aおよび参照先ドキュメント8bでは、1行目が表の列見出し行であり、2行目以降が具体的な内容となっている。また、この例では、参照元ドキュメント8aにおける「画面ID」の列および「画面名」の列と、参照先ドキュメント8bにおける「画面ID」の列および「画面名」の列とがそれぞれ対応している。このため、これらの列が、整合チェックすべき箇所である。
このような参照元ドキュメント8aおよび参照元ドキュメント8bを対象として、図7に示した事前知識を用いて、整合チェック箇所推定装置2が整合チェック箇所を推定する動作について説明する。
まず、主副集合推定部22は、参照元ドキュメント8aにおいて、主集合として、「画面ID」の列および「画面名」の列と、副集合として「機能ID」の列とを推定する(図5のステップA1)。これらの列が主集合または副集合として推定される動作の詳細については後述する。
次に、主副集合推定部22は、参照先ドキュメント8bにおいて、主集合の列はないと推定し、副集合として「画面ID」の列、「画面名」の列、および、「説明」の列を推定する(ステップA2)。これらの列が副集合として推定される動作の詳細については後述する。
次に、チェック箇所推定部13は、参照元の整合チェック箇所として、「画面ID」の列および「画面名」の列を、以下のようにして推定する(ステップA3)。
ここでは、チェック箇所推定部13は、参照元の主集合である「画面ID」の列および「画面名」の列の全てを、整合チェック箇所と推定する。また、チェック箇所推定部13は、参照元の副集合「機能ID」の列について、参照先の主集合または副集合と見出しが共通するか否かを判断する。ここでは、参照先の主集合はなく、副集合「画面ID」の列、「画面名」の列、および、「説明」の列のいずれも、見出しが「機能ID」ではない。そこで、チェック箇所推定部13は、参照元の副集合「機能ID」の列については、整合チェック箇所として推定しない。
次に、チェック箇所推定部13は、参照先の整合チェック箇所として、「画面ID」の列および「画面名」の列を、以下のようにして推定する(ステップA4)。
ここでは、参照先ドキュメント8bにおいて、主集合は推定されていない。そこで、チェック箇所推定部13は、参照先の副集合「画面ID」の列、「画面名」の列、および、「説明」の列について、参照元の主集合または副集合と見出しが共通するか否かを判断する。ここでは、「画面ID」および「画面名」が、参照元の主集合の見出しと共通する。そこで、チェック箇所推定部13は、これらの副集合のうち、「画面ID」の列および「画面名」の列を、整合チェック箇所と推定する。
このようにして、整合チェック箇所推定装置2は、参照元ドキュメント8aおよび参照先ドキュメント8bにおいて、整合チェックすべき箇所を整合チェック箇所として推定できたことになる。
次に、参照元ドキュメント8aにおける主集合および副集合の推定動作(ステップA1)の詳細について説明する。なお、ここでは、要素数Mの閾値Nthresは1であり、重複度合N/Mの閾値Rthresは0.5であるものとする。
ここでは、まず、主副集合推定部22は、参照元ドキュメント8aを先頭行から順に調べ、1行1列目の「機能ID」が、図7の事前知識にある正規表現「^機能ID$」に合致すると判断する。そこで、主副集合推定部22は、参照元ドキュメント8aの1行目を列見出し行とみなし、列見出し行に含まれる見出し「機能ID」、「画面ID」、「画面名」を抽出する(図6のステップA5)。
次に、主副集合推定部22は、参照元ドキュメント8aの1行目の列見出し行のうち、「機能ID」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「機能ID」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「機能ID」の列の要素として、「ZTA00」、「ZTA00」、「ZTA00」を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「機能ID」の列の要素数3をMに代入する(ステップA10)。なお、具体例1では、要素数Mとして、空欄を含む要素の数を適用するものとする。
次に、主副集合推定部22は、M(=3)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「機能ID」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照元ドキュメント8aの「機能ID」の列において、3つの要素「ZTA00」、「ZTA00」、「ZTA00」は全て重複しているため、重複を除いた要素数は1である。そこで、主副集合推定部22は、「機能ID」の列の重複無し要素数1をNに代入する(ステップA13)。
次に、主副集合推定部22は、重複度合N/M(=1/3)がRthres(=0.5)未満であると判断する(ステップA14でNo)。
したがって、主副集合推定部22は、見出し「機能ID」の列を副集合として推定する(ステップA17)。
そして、主副集合推定部22は、見出し「機能ID」を処理済みと設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、参照元ドキュメント8aの1行目の列見出し行のうち、まだ処理済みでない「画面ID」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「画面ID」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「画面ID」の列の要素として、「SZTA001」、「SZTA002」、「SZTA003」を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「画面ID」の列の要素数3をMに代入する(ステップA10)。
次に、主副集合推定部22は、M(=3)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「画面ID」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照元ドキュメント8aの「画面ID」の列において、3つの要素「SZTA001」、「SZTA002」、「SZTA003」はいずれも重複していないため、重複を除いても要素数は3である。そこで、主副集合推定部22は、「画面ID」の列の重複無し要素数3をNに代入する(ステップA13)。
次に、チェック箇所推定部13は、重複度合N/M(=3/3)がRthres(=0.5)以上であると判断する(ステップA14でYes)。
したがって、主副集合推定部22は、見出し「画面ID」の列を主集合として推定する(ステップA16)。
そして、主副集合推定部22は、見出し「画面ID」を処理済と設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、見出し「画面名」を選択し(ステップA7)、見出し「画面ID」を選択したときと略同様の処理を繰り返す。これにより、主副集合推定部22は、見出し「画面名」の列を主集合として推定する(ステップA16)。
このようにして、主副集合推定部22は、参照元ドキュメント8aにおいて、主集合として「画面ID」の列および「画面名」の列と、副集合として見出し「機能ID」の列とを推定する。
以上で、具体例1におけるステップA1の動作の説明を終了する。
次に、参照先ドキュメント8bにおける主集合および副集合の推定動作(ステップA2)の詳細について説明する。
ここでは、まず、主副集合推定部22は、参照先ドキュメント8bを先頭行から順に調べ、1行1列目の「画面ID」が、図7の事前知識にある正規表現「^画面ID$」に合致すると判断する。そこで、主副集合推定部22は、参照先ドキュメント8bの1行目を列見出し行とみなし、列見出し行に含まれる見出し「画面ID」、「画面名」、「説明」を抽出する(ステップA5)。
次に、主副集合推定部22は、参照先ドキュメント8bの1行目の列見出し行のうち、「画面ID」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「画面ID」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「画面ID」の列の要素として、「SZTA002」、空欄、空欄、「SZTA003」、空欄、空欄を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「画面ID」の列の要素数6をMに代入する(ステップA10)。
次に、主副集合推定部22は、M(=6)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「画面ID」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照先ドキュメント8bの「画面ID」の列において、空欄を除いた要素は、「SZTA002」、「SZTA003」の2つであり、これらは重複していない。そこで、主副集合推定部22は、「画面ID」の列の重複無し要素数として2をNに代入する(ステップA13)。
次に、主副集合推定部22は、重複度合N/M(=2/6)がRthres(=0.5)未満であると判断する(ステップA14でNo)。
したがって、主副集合推定部22は、見出し「画面ID」の列を副集合として推定する(ステップA17)。
そして、主副集合推定部22は、見出し「画面ID」を処理済みと設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、まだ処理済みでない見出し「画面名」を選択し(ステップA7)、見出し「画面ID」を選択したときと略同様の処理を繰り返す。これにより、主副集合推定部22は、見出し「画面名」の列を副集合として推定する。
次に、主副集合推定部22は、まだ処理済みでない見出し「説明」を選択する(ステップA7)。
次に、主副集合推定部22は、選択した見出し「説明」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「説明」の列の要素として、「成果物・・・改版する。」、空欄、空欄、「成果物・・・を行う。」、空欄、空欄を抽出する(ステップA9)。なお、主副集合推定部22は、表の欄に貼り付けられたイメージ図を、空欄とみなしてもよいし、図に含まれるテキストを抽出してもよい。ここでは、イメージ図の欄を空欄とみなしたものとする。
次に、主副集合推定部22は、選択した見出しの要素数6をMに代入する(ステップA10)。
次に、チェック箇所推定部13は、主副集合推定部22は、M(=6)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「説明」が図7の副集合特徴「^説明$」に合致すると判断する(ステップA12でYes)。
したがって、主副集合推定部22は、見出し「説明」の列を副集合として推定する(ステップA17)。
このようにして、主副集合推定部22は、参照先ドキュメント8bにおいて、主集合となる見出しがなく、副集合として「画面ID」の列、「画面名」の列、「説明」の列を推定する。
以上で、ステップA2の動作の説明を終了し、具体例1の説明を終了する。
<具体例2>
次に、具体例2について説明する。具体例2において、具体例1と同様に、参照元ドキュメントおよび参照先ドキュメントには表が含まれ、整合チェック箇所は、列単位で推定されるものとする。また、要素数Mとして、空欄を含む要素の数を適用するものとする。また、重複無し要素数Nとして、空欄を除いた重複のない要素の数を適用するものとする。また、要素数Mの閾値Nthresは1であり、重複度合N/Mの閾値Rthresは0.5であるものとする。
次に、具体例2について説明する。具体例2において、具体例1と同様に、参照元ドキュメントおよび参照先ドキュメントには表が含まれ、整合チェック箇所は、列単位で推定されるものとする。また、要素数Mとして、空欄を含む要素の数を適用するものとする。また、重複無し要素数Nとして、空欄を除いた重複のない要素の数を適用するものとする。また、要素数Mの閾値Nthresは1であり、重複度合N/Mの閾値Rthresは0.5であるものとする。
また、具体例2において用いられる事前知識は、具体例1と同様に図7に示したものである。
また、図9に、具体例2において用いられる参照元ドキュメント9aおよび参照先ドキュメント9bを示す。この参照元ドキュメント9aでは、1行目が表の列見出し行であり、2行目以降が具体的な内容となっている。また、この参照先ドキュメント9bでは、1行目および2行目が表全体に関する情報を示し、3行目が空欄の行である。また、この参照先ドキュメント9bでは、4行目が表の列見出し行であり、5行目以降が具体的な内容となっている。また、この例では、参照元ドキュメント9aにおける「機能名」の列と、この参照先ドキュメント9bにおける「エンティティ候補」の列とが対応している。このため、これらの列が、整合チェックすべき箇所である。
このような参照元ドキュメント9aおよび参照先ドキュメント9bを対象として、図7に示した事前知識を用いて、整合チェック箇所推定装置2が整合チェック箇所を推定する動作について説明する。
まず、主副集合推定部22は、参照元ドキュメント9aにおいて、主集合として、「機能名」の列と、副集合として「A」、「B」、・・・、「J」の各列とを推定する(図5のステップA1)。これらの列が主集合または副集合として推定される動作の詳細については後述する。
次に、主副集合推定部22は、参照先ドキュメント9bにおいて、主集合として「エンティティ候補」の列と、副集合として「種別」の列および「説明」の列とを推定する(ステップA2)。これらの列が主集合または副集合として推定される動作の詳細については後述する。
次に、チェック箇所推定部13は、参照元の整合チェック箇所として、「機能名」の列を、以下のようにして推定する(ステップA3)。
ここでは、チェック箇所推定部13は、参照元の主集合である「機能名」の列を、整合チェック箇所と推定する。また、チェック箇所推定部13は、参照元の副集合「A」、「B」、・・・、「J」の各列について、参照先の主集合または副集合と見出しが共通するか否かを判断する。ここでは、参照先の主集合および副集合のいずれも、見出しが「A」、「B」、・・・、「J」であるものはない。そこで、チェック箇所推定部13は、参照元の副集合の各列については、整合チェック箇所として推定しない。
次に、チェック箇所推定部13は、参照先の整合チェック箇所として、「エンティティ候補」の列を、以下のようにして推定する(ステップA4)。
ここでは、チェック箇所推定部13は、参照先の主集合である「エンティティ候補」の列を、整合チェック箇所と推定する。また、チェック箇所推定部13は、参照先の副集合「種別」の列および「説明」の列について、参照元の主集合または副集合と見出しが共通するか否かを判断する。ここでは、参照元の主集合および副集合のいずれも、見出しが「種別」または「説明」であるものはない。そこで、チェック箇所推定部13は、参照先の副集合「種別」の列および「説明」の列については、整合チェック箇所として推定しない。
このようにして、整合チェック箇所推定装置2は、参照元ドキュメント9aおよび参照先ドキュメント9bにおいて、整合チェックすべき箇所を整合チェック箇所として推定できたことになる。
次に、参照元ドキュメント9aにおける主集合および副集合の推定動作(ステップA1)の詳細について説明する。
ここでは、まず、主副集合推定部22は、参照元ドキュメント9aを先頭行から順に調べ、1行1列目の「機能名」が、図7の事前知識にある正規表現「^機能名$」に合致すると判断する。そこで、主副集合推定部22は、参照元ドキュメント9aの1行目を列見出し行とみなし、列見出し行に含まれる見出し「機能名」、「A」、「B」、・・・、「J」を抽出する(ステップA5)。
次に、主副集合推定部22は、参照元ドキュメント9aの1行目の列見出し行のうち、「機能名」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「機能名」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「機能名」の列の要素として、「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「機能名」の列の要素数5をMに代入する(ステップA10)。
次に、主副集合推定部22は、M(=5)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「機能名」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照元ドキュメント9aの「機能名」の列において、5つの要素「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」はいずれも重複していないため、重複を除いても要素数は5である。そこで、主副集合推定部22は、「機能名」の列の重複無し要素数5をNに代入する(ステップA13)。
次に、主副集合推定部22は、重複度合N/M(=5/5)がRthres(=0.5)以上であると判断する(ステップA14でYes)。
したがって、主副集合推定部22は、見出し「機能名」の列を主集合として推定する(ステップA16)。
そして、主副集合推定部22は、見出し「機能名」を処理済みと設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、参照元ドキュメント9aの1行目の列見出し行のうち、まだ処理済みでない「A」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「A」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「A」の列の要素として、「〇」、空欄、「〇」、「〇」、空欄を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「画面ID」の列の要素数5をMに代入する(ステップA10)。
次に、主副集合推定部22は、M(=5)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「A」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照元ドキュメント9aの「A」の列において、空欄を除いた要素「〇」、「〇」、「〇」は重複しているため、重複を除いた要素数は1である。そこで、主副集合推定部22は、「A」の列の重複無し要素数1をNに代入する(ステップA13)。
次に、チェック箇所推定部13は、重複度合N/M(=1/5)がRthres(=0.5)未満であると判断する(ステップA14でNo)。
したがって、主副集合推定部22は、見出し「A」の列を副集合として推定する(ステップA17)。
そして、主副集合推定部22は、見出し「A」を処理済と設定し(ステップA18)、ステップA6からの処理を繰り返す。
以降、主副集合推定部22は、見出し「B」、「C」、・・・、「J」を順次選択し(ステップA7)、見出し「A」を選択したときと略同様の処理を繰り返す。これにより、主副集合推定部22は、見出し「B」、「C」、・・・、「J」の各列を副集合として推定する。
このようにして、主副集合推定部22は、参照元ドキュメント9aにおいて、主集合として「機能名」の列と、副集合として「A」、「B」、・・・、「J」の各列とを推定する。
以上で、具体例2におけるステップA1の動作の説明を終了する。
次に、参照先ドキュメント9bにおける主集合および副集合の推定動作(ステップA2)の詳細について説明する。
ここでは、まず、主副集合推定部22は、参照先ドキュメント9bを先頭行から順に調べ、4行1列目の「項」が、図7の事前知識にある正規表現「^項$」に合致すると判断する。そこで、主副集合推定部22は、参照先ドキュメント9bの4行目を列見出し行とみなし、列見出し行に含まれる見出し「項」、「種別」、「エンティティ候補」、「説明」を抽出する(ステップA5)。
次に、主副集合推定部22は、参照先ドキュメント9bの4行目の列見出しのうち、「項」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「項」が不要集合特徴「^項$」に合致すると判断する(ステップA8でYes)。
そこで、主副集合推定部22は、見出し「項」を処理済と設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、参照先ドキュメント9bの4行目の列見出しのうち、まだ処理済みでない「種別」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「種別」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「種別」の列の要素として、「イベント系」、「イベント系」、「イベント系」を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「種別」の列の要素数3をMに代入する(ステップA10)。
次に、主副集合推定部22は、M(=3)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「種別」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照先ドキュメント9bの「種別」の列において、3つの要素「イベント系」、「イベント系」、「イベント系」は全て重複しているため、重複を除いた要素数は1である。そこで、主副集合推定部22は、「種別」の列の重複無し要素数1をNに代入する(ステップA13)。
次に、主副集合推定部22は、重複度合N/M(=1/3)がRthres(=0.5)未満であると判断する(ステップA14でNo)。
したがって、主副集合推定部22は、見出し「種別」の列を副集合として推定する(ステップA17)。
そして、主副集合推定部22は、見出し「種別」を処理済みと設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、参照先ドキュメント9bの4行目の列見出し行のうち、まだ処理済みでない「エンティティ候補」を選択する(ステップA6でYes、ステップA7)。
次に、主副集合推定部22は、選択した見出し「エンティティ候補」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「エンティティ候補」の列の要素として、「受注」、「発注計画」、「プロジェクト」を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「エンティティ候補」の列の要素数3をMに代入する(ステップA10)。
次に、主副集合推定部22は、M(=3)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「エンティティ候補」が図7の副集合特徴のいずれにも合致しないと判断する(ステップA12でNo)。
ここで、参照先ドキュメント9bの「エンティティ候補」の列において、3つの要素「受注」、「発注計画」、「プロジェクト」はいずれも重複していないため、重複を除いても要素数は3である。そこで、主副集合推定部22は、「エンティティ候補」の列の重複無し要素数3をNに代入する(ステップA13)。
次に、チェック箇所推定部13は、重複度合N/M(=3/3)がRthres(=0.5)以上であると判断する(ステップA14でYes)。
したがって、主副集合推定部22は、見出し「エンティティ候補」の列を主集合として推定する(ステップA16)。
そして、主副集合推定部22は、見出し「エンティティ候補」を処理済と設定し(ステップA18)、ステップA6からの処理を繰り返す。
次に、主副集合推定部22は、まだ処理済みでない見出し「説明」を選択する(ステップA7)。
次に、主副集合推定部22は、選択した見出し「説明」が不要集合特徴「^項$」に合致しないと判断する(ステップA8でNo)。
次に、主副集合推定部22は、選択した見出し「説明」の列の要素として、「得意様毎の・・・」、「オーダーされた・・・」、「プロジェクト情報・・・」を抽出する(ステップA9)。
次に、主副集合推定部22は、選択した見出し「説明」の要素数3をMに代入する(ステップA10)。
次に、チェック箇所推定部13は、主副集合推定部22は、M(=3)>Nthres(=1)であると判断し(ステップA11でYes)、選択した見出し「説明」が図7の副集合特徴「^説明$」に合致すると判断する(ステップA12でYes)。
したがって、主副集合推定部22は、見出し「説明」の列を副集合として推定する(ステップA17)。
このようにして、主副集合推定部22は、参照先ドキュメント9bにおいて、主集合として「エンティティ候補」の列と、副集合として見出し「種別」の列、「説明」の列とを推定する。
以上で、ステップA2の動作の説明を終了し、具体例2の説明を終了する。
これらの具体例1および具体例2に示したように、整合チェック箇所推定装置2は、事前知識のいずれかに合致する見出しを1つでも含む行を見出し行としてみなしている。ここで、システム・ソフトウェア開発等におけるドキュメントでは、多くの関連者にとって分かり易いよう、「画面名」などのように、異なる案件でも同一(類似)の見出しが用いられることが多い。ただし、案件特有の見出しもある。このような場合であっても、整合チェック箇所推定装置2は、一般的な見出しの特徴を事前知識として準備しておくことで、そのような一般的な見出しの特徴を含む見出し行に含まれる案件特有の見出しも検出することができる。
また、これらの具体例1および具体例2に示したように、整合チェック箇所推定装置2は、主集合と副集合とを区別して、整合チェック箇所を推定している。ここで、システム・ソフトウェア開発等におけるドキュメントでは、「画面一覧」などの一覧表を作成して必要項目を洗い出してから、洗い出した個々の必要項目に対して「画面レイアウト」など属性を副次的に定義して詳細化する場合が多い。そのような場合に対応して、整合チェック箇所推定装置2は、必要項目である主集合と副次的な箇所である副集合とを区別して、整合チェック箇所を推定することができる。
なお、上述した本実施の形態および各具体例では、参照元ドキュメントおよび参照先ドキュメントには表が含まれ、整合チェック箇所が列単位となる例を中心に説明した。
この他、整合チェック箇所が行単位となる場合にも、本実施の形態は適用可能である。この場合、主副集合推定部22は、事前知識の少なくともいずれかに合致する文字列を含む表の列を見出し列として選択し、見出し列に含まれる各欄を見出しとして抽出してもよい。そして、整合チェック箇所推定装置2は、抽出した見出しを含む行を、その見出しに対応する情報の集合とみなし、その行に含まれる各欄の情報を、集合の要素とみなしてもよい。そして、整合チェック箇所推定装置2は、上述した本実施の形態と略同様に動作して、整合チェック箇所を推定することができる。
この他、参照元ドキュメントおよび参照先ドキュメントに段落からなる文章が含まれ、整合チェック箇所が段落単位となる場合についても、本実施の形態は適用可能である。
この場合、例えば、図10に示すような事前知識があらかじめ用意されていてもよい。図10では、主集合特徴は、見出しに相当する段落のタイトルに設定されるアウトラインレベルで表されている。また、不要集合特徴は、正規表現で表されている。そして、主副集合推定部22は、主集合特徴「アウトラインレベル=X」に合致する段落のタイトルを見出しとして抽出すればよい。また、主副集合推定部22は、抽出した見出しのうち、不要集合特徴に合致する見出しに対応する段落を、整合チェック箇所から除外する。
また、例えば、図11に示すような事前知識があらかじめ用意されていてもよい。図11では、主集合特徴は、見出しに相当する段落のタイトルに設定される複数の特徴の組み合わせで表されている。この場合、主副集合推定部22は、主集合特徴「アウトラインレベル=X かつ 文字列が“機能要件”と類似」に基づいて、アウトラインレベルがXに設定された段落のタイトルのうち、「機能要件」に類似するタイトルを見出しとして抽出すればよい。
そして、整合チェック箇所推定装置2は、抽出した見出しに続く段落を、その見出しに対応する情報の集合とみなし、段落に含まれる各文を、集合の要素とみなしてもよい。そして、整合チェック箇所推定装置2は、上述した本実施の形態と略同様に動作して、整合チェック箇所を推定することができる。
次に、本発明の第2の実施の形態の効果について述べる。
本発明の第2の実施の形態としての整合チェック箇所推定装置は、ドキュメント間における整合チェック箇所を、さらに精度よく推定することができる。
その理由について説明する。本実施の形態では、主副集合推定部が、参照元ドキュメントおよび参照先ドキュメントにおいて、事前知識の少なくとも1つに合致する情報を含む行を見出し行とみなし、その見出し行から1つ以上の見出しを抽出する。そして、主副集合推定部が、抽出した各見出しに対応する情報の集合を、その要素数と、要素の重複度合と、事前知識に含まれる主集合特徴、副集合特徴、および、不要集合特徴とに基づいて、主集合および副集合に推定するからである。また、チェック箇所推定部が、参照元の主集合と、参照元の副集合のうち参照先と見出しが共通条件を満たすものと、参照先の主集合と、参照先の副集合のうち参照元と見出しが共通条件を満たすものとを、整合チェック箇所として推定するからである。
このように、本実施の形態は、多くの関連者にとって分かり易いよう用いられる一般的な見出しの特徴を事前知識として準備しておく。これにより、本実施の形態は、そのような一般的な見出しの特徴を含む見出し行に含まれる、案件特有の見出しも抽出することができる。その結果、本実施の形態は、整合チェックすることが望ましい箇所の見出しをより精度よく検出することになる。
また、このように、本実施の形態は、ドキュメントにおいて主要な情報が記述されていると推定された箇所(主集合)については、すべて整合チェック箇所と推定する。また、本実施の形態は、主要な情報が記述された箇所(主集合)に対して付随する情報の箇所(副集合)については、対応するドキュメントにおいて共通条件を満たす見出しがあるものを、整合チェック箇所と推定する。つまり、本実施の形態は、主要な情報である主集合と、副次的な情報である副集合とを区別して、整合チェック箇所を推定することで、より精度よく整合チェック箇所を推定することになる。
(第3の実施の形態)
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第1の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第3の実施の形態としての整合チェック箇所推定装置3の構成を図12に示す。図12において、整合チェック箇所推定装置3は、本発明の第2の実施の形態としての整合チェック箇所推定装置2に対して、チェック箇所推定部13に替えてチェック箇所推定部33を備える点が異なる。ここで、整合チェック箇所推定装置3およびその各機能ブロックは、図2を参照して説明した本発明の第2の実施の形態としての整合チェック箇所推定装置2と同一のハードウェア要素によって構成可能である。なお、整合チェック箇所推定装置3およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
チェック箇所推定部33は、本発明の第2の実施の形態におけるチェック箇所推定部13と略同様に構成されることにより、本発明の第2の実施の形態においては整合チェック箇所として推定した主集合または副集合を、整合チェック箇所の候補の集合とする。
そして、チェック箇所推定部33は、参照元ドキュメントにおける各候補および参照先ドキュメントにおける各候補の間で、互いの要素数の関係が所定条件を満たす候補の組み合わせを、整合チェック箇所の組み合わせとして推定する。なお、互いの要素数の関係が所定条件を満たすとは、例えば、要素数の比が閾値以下であることであってもよい。この場合、参照元の候補の要素数をnとし、参照先の候補の要素数をmとして、n/mまたはm/nのいずれかが閾値以下となることを所定条件としてもよい。
ここで、参照元ドキュメントおよび参照先ドキュメントの間で、このような整合チェック箇所の組み合わせを推定する理由について説明する。整合チェックが有効となるのは、箇所の多くが整合している場合である。箇所のほとんどが整合していない場合、不整合というアラームが多く検出され、整合チェックの有効性が薄れる。もし、参照元の整合チェック箇所と参照先の整合チェック箇所とで要素数が大きく異なる場合、箇所の多くが整合せず、整合チェックの有効性が薄れることになる。このように、要素数が大きく異ならない整合チェック箇所の候補の組み合わせは、互いに整合をチェックする整合チェック箇所の組み合わせとして適しているからである。
また、チェック箇所推定部33は、参照元ドキュメントまたは参照先ドキュメントにおいて、互いの要素数の関係が所定条件を満たす1つ以上の整合チェック箇所を、関連性のある整合チェック箇所として推定する。なお、互いの要素数の関係が所定条件を満たすとは、上述と同様に、例えば、要素数の比が閾値以下であることであってもよい。
ここで、参照元ドキュメントまたは参照先ドキュメントにおいて、このような関連性のある1つ以上の整合チェック箇所を推定する理由について説明する。参照元ドキュメントまたは参照先ドキュメントにおいて、要素数が大きく異ならない複数の整合チェック箇所の候補は、互いに関連性のある箇所である可能性が高い。このような互いに関連性のある箇所としては、例えば1つの表における複数の列等がある。この場合、それらの列は、同一の表に記述される関連性のある情報を含んでいるからである。また、参照元ドキュメントまたは参照先ドキュメントにおいて、要素数が大きく異なる複数の整合チェック箇所の候補は、互いに関連性のない箇所である可能性が高い。このような互いに関連性のない箇所としては、例えば異なる表に含まれる列等がある。この場合、それらの列は、互いに関連性のない情報を含んでいる可能性が高い。そこで、一方のドキュメントにおいて要素数が大きく異ならない複数の箇所を互いに関連性のある整合チェック箇所として提示することにより、他方のドキュメントとの間で整合チェックする箇所のグループを提示することが可能となる。
以上のように構成された整合チェック箇所推定装置3の動作について、図13を参照して説明する。なお、以下では、要素数の関係を判定するための所定条件として、要素数の比が閾値以下であることを用いるものとする。
図13では、まず、主副集合推定部22は、本発明の第2の実施の形態と同様にステップA1を実行することにより、参照元の主集合および副集合を推定する。
次に、主副集合推定部22は、本発明の第2の実施の形態と同様にステップA2を実行することにより、参照先の主集合および副集合を推定する。
次に、チェック箇所推定部33は、参照元の主集合と、参照元の副集合のうち参照先の主集合および副集合に対して見出しが共通条件を満たす副集合とを、整合チェック箇所の候補として推定する(ステップA21)。
次に、チェック箇所推定部33は、参照先の主集合と、参照先の副集合のうち参照元の主集合または副集合に対して見出しが共通条件を満たす副集合とを、整合チェック箇所の候補として推定する(ステップA22)。
次に、チェック箇所推定部33は、参照元の整合チェック箇所の候補のうち、ステップA24以降の処理を行っていない未処理の候補があるか否かを判断する(ステップA23)。なお、ある参照元ドキュメントについて最初にこのステップが実行される時点では、ステップA21で推定された全ての候補が未処理であると設定されているものとする。
ここで、未処理の候補がなければ、チェック箇所推定部33は、動作を終了する。
一方、未処理の候補があれば、チェック箇所推定部33は、参照元ドキュメントにおける未処理の候補のうちの1つを選択する(ステップA24)。
次に、チェック箇所推定部33は、参照元ドキュメントにおいて、ステップA24で選択した候補と、この候補の要素数との比が閾値以下の要素数を持つ参照元の他の候補とを、関連性のある整合チェック箇所として推定する(ステップA25)。
なお、要素数の比の閾値は、ユーザによってキーボードなどの入力装置を介して入力された値であってもよいし、記憶装置1004にあらかじめ記憶されている値であってもよい。また、要素数の比の閾値は、それ以外の様態で取得された値であってもよい。例えば、要素数の比の閾値は、10等の値であってもよい。
次に、チェック箇所推定部33は、選択した参照元の候補の要素数に対して、要素数の比が閾値以下の参照先の各候補を、選択した参照元の候補に対応する整合チェック箇所として推定する(ステップA26)。
なお、要素数の比の閾値は、ユーザによってキーボードなどの入力装置を介して入力された値であってもよいし、記憶装置1004にあらかじめ記憶されている値であってもよい。また、要素数の比の閾値は、それ以外の様態で取得される値であってもよい。また、このステップで用いられる要素数の比の閾値は、ステップA25で用いられる閾値と同一であってもよい。
これにより、ステップA25で推定された参照元における1つ以上の整合チェック箇所と、ステップA26で推定された参照先における1つ以上の整合チェック箇所とが、互いに整合しているかをチェックする組み合わせとして対応付けられる。
次に、チェック箇所推定部33は、ステップA24で選択した候補を処理済と設定し(ステップA27)、ステップA23からの処理を繰り返す。
なお、このようにして、参照元の各候補に対してステップA25~A26を実行することにより、チェック箇所推定部33は、前回の処理で既に推定した整合チェック箇所と同一の整合チェック箇所を再度推定する場合がある。その場合、チェック箇所推定部33は、重複を除いてもよい。つまり、このような場合、チェック箇所推定部33は、既に推定済みの整合チェック箇所を推定しないようにしてもよい。あるいは、チェック箇所推定部33は、ステップA25で推定した1つ以上の参照元の整合チェック箇所を、ステップA27において全て処理済みと設定してもよい。
また、このようにして、参照元の各候補に対してステップA25~A26を実行することにより、チェック箇所推定部33は、参照元ドキュメントと参照先ドキュメントとの間で、2グループ以上の整合チェック箇所の組み合わせを推定することもある。例えば、チェック箇所推定部33が、参照元ドキュメントにおける集合A1およびA2と、参照先ドキュメントにおける集合B1およびB2とを、互いに整合しているかをチェックすべき整合チェック箇所の組み合わせとして推定したとする。この場合、さらに、チェック箇所推定部33は、同じ参照元ドキュメントにおける集合X1およびX2と、参照先ドキュメントにおける集合Y1およびY2とを、互いに整合チェックすべき整合チェック箇所の組み合わせとして推定する場合もある。
以上で、整合チェック箇所推定装置3の動作の説明を終了する。
次に、本発明の第3の実施の形態の効果について述べる。
本発明の第3の実施の形態としての整合チェック箇所推定装置は、ドキュメント間における整合チェック箇所として、互いに整合チェックするのに適した組み合わせを、精度よく推定することができる。
その理由について説明する。本実施の形態では、チェック箇所推定部が、参照元ドキュメントの主集合および副集合、ならびに、参照先ドキュメントの主集合および副集合から、それぞれ整合チェック箇所の候補を推定する。そして、チェック箇所推定部が、参照元ドキュメントにおける各候補および参照先ドキュメントにおける各候補の間で、互いの要素数の関係が所定条件を満たす組み合わせを、互いに整合チェックする整合チェック箇所の組み合わせとして推定するからである。また、このとき、チェック箇所推定部は、参照元ドキュメントまたは参照先ドキュメントにおいて、これらの候補のうち、互いの要素数の関係が所定条件を満たす1つ以上の候補を、関連性のある整合チェック箇所として推定するからである。
これにより、本実施の形態は、参照元ドキュメントおよび参照先ドキュメント間で要素数が大きく異なるため有効でない箇所を除いた上で、整合チェック箇所として適した組み合わせを推定することができる。
(第4の実施の形態)
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。本実施の形態では、本発明の整合チェック箇所推定装置によって推定される整合チェック箇所を用いて整合チェックを自動で行う整合チェックシステムについて説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第3の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。本実施の形態では、本発明の整合チェック箇所推定装置によって推定される整合チェック箇所を用いて整合チェックを自動で行う整合チェックシステムについて説明する。なお、本実施の形態の説明において参照する各図面において、本発明の第3の実施の形態と同一の構成および同様に動作するステップには同一の符号を付して本実施の形態における詳細な説明を省略する。
まず、本発明の第4の実施の形態としての整合チェックシステム4の構成を図14に示す。図14において、整合チェックシステム4は、整合チェック箇所推定装置3と、整合性判定部44とを備える。ここで、整合チェックシステム4は、図2を参照して説明した本発明の第3の実施の形態としての整合チェック箇所推定装置3と同一のコンピュータ装置によって構成可能である。この場合、整合性判定部44は、ROM1003および記憶装置1004に記憶されたコンピュータ・プログラムおよび各種データをRAM1002に読み込んで実行するCPU1001によって構成される。なお、整合チェックシステム4およびその各機能ブロックのハードウェア構成は、上述の構成に限定されない。
整合チェック箇所推定装置3は、本発明の第3の実施の形態において説明したように、参照元ドキュメントにおける1つ以上の整合性チェック箇所と、参照先ドキュメントにおける1つ以上の整合性チェック箇所との組み合わせを推定する。例えば、整合チェック箇所推定装置3は、記憶装置1004に、推定した整合チェック箇所の組み合わせを表す情報を出力してもよい。
整合性判定部44は、整合チェック箇所推定装置3によって推定された整合チェック箇所を用いて、参照元ドキュメントおよび参照先ドキュメント間で、整合チェック箇所間の整合性を判定する。
具体的には、整合性判定部44は、整合チェック箇所推定装置3によって推定された参照元の整合チェック箇所を、参照元ドキュメントから抽出する。また、整合性判定部44は、参照元の整合チェック箇所に対応する箇所として組み合わせられた参照先の整合チェック箇所を、参照先ドキュメントから抽出する。
ここで、参照元の整合性チェック箇所が、複数の関連性のある整合チェック箇所からなる場合について説明する。この場合、整合性判定部44は、それらの整合チェック箇所において対応する各要素を連結して参照元の整合チェック箇所の要素とする。同様に、参照先の整合性チェック箇所が、複数の関連性のある整合チェック箇所からなる場合について説明する。この場合、整合性判定部44は、それらの整合チェック箇所において対応する各要素を連結して参照先の整合チェック箇所の要素とする。例えば、関連性のある整合チェック箇所として、同一の表に含まれる複数の列が推定されているとする。この場合、整合性判定部44は、該当する複数の列において同一行に含まれる要素を連結してもよい。
そして、整合性判定部44は、参照元の整合チェック箇所に含まれる各要素と、参照先の整合チェック箇所に含まれる各要素との間でそれぞれ関連性を表す情報を算出する。そして、整合性判定部44は、関連性を表す情報が所定条件を満たす場合に、参照元の整合チェック箇所における該当する要素と、参照先の整合チェック箇所における該当する要素とが整合すると判定する。また、整合性判定部44は、参照元の整合チェック箇所の要素に対して整合する参照先の要素がない場合、参照先における記述漏れとして検出してもよい。同様に、整合性判定部44は、参照先の整合チェック箇所の要素に対して整合する参照元の要素がない場合、参照元における記述漏れとして検出してもよい。
整合性の判定において用いる関連性を表す情報としては、たとえば、コルモゴロフ複雑性に基づいて抽出した文字列間の類似度を用いてもよい。この場合、整合性判定部44は、概算した類似度が閾値以上であるならば、整合すると判定してもよい。
以上のように構成された整合チェックシステム4の動作について、図15を参照して説明する。
図15では、まず、整合チェック箇所推定装置3は、参照元ドキュメントおよび参照先ドキュメント間で、整合チェック箇所の組み合わせを推定する(ステップA28)。
このステップの動作は、本発明の第3の実施の形態において図13を参照して説明した動作と同様である。このとき、チェック箇所推定装置3は、推定した整合チェック箇所およびその組み合わせを表す情報を、記憶装置1004に記憶してもよい。また、整合チェックシステム4は、推定された整合チェック箇所およびその組み合わせを、ユーザによって修正可能に出力し、入力装置を介して入力された情報に基づく修正処理を行ってから記憶装置1004に記憶するようにしてもよい。
次に、整合性判定部44は、参照元ドキュメントから、ステップA28で推定された参照元の整合チェック箇所を抽出する。また、整合性判定部44は、この参照元の整合チェック箇所に対応する箇所としてステップA28で組み合わせられた参照先の整合チェック箇所を、参照先ドキュメントから抽出する(ステップA29)。
このとき、もし、参照元または参照先において、複数の関連性のある整合チェック箇所が推定されている場合、整合性判定部44は、それらの箇所において対応する各要素を連結して整合チェック箇所の要素とする。
次に、整合性判定部44は、ステップA29で抽出した参照元の整合チェック箇所における各要素と、参照先の整合チェック箇所における各要素との間で、関連性を表す情報を算出する(ステップA30)。
なお、整合性判定部44は、このステップにおける各要素間の計算結果を、ディスプレイ装置や印刷装置などの出力装置に出力してもよい。また、整合性判定部44は、計算結果を、記憶装置1004に記憶しておいてユーザからのリクエストなどに応じて出力してもよい。また、整合性判定部44は、計算結果を、その他の様態で出力してもよい。
次に、整合性判定部44は、ステップA30で計算した関連性に基づいて、参照元および参照先の整合チェック箇所の整合性を判定する(ステップA31)。
例えば、前述のように、整合性判定部44は、関連性を表す情報が閾値以上の参照元および参照先間の要素のペアを、互いに整合していると判定して出力してもよい。また、整合性判定部44は、参照先に整合する要素が検出されなかった参照元の要素を、参照先における記述漏れと判定して出力してもよい。同様に、整合性判定部44は、参照元に整合する要素が検出されなかった参照先の要素を、参照元における記述漏れと判定して出力してもよい。なお、出力先は、ディスプレイ装置や印刷装置等であってもよいし、記憶装置1004であってもよい。記憶装置1004に出力した場合、整合性判定部44は、ユーザからのリクエストに応じて、記憶装置1004に出力しておいた判定結果を出力してもよい。また、出力先は、ネットワークを介して接続された他の装置などでもよい。
また、整合性の判定に用いられる閾値は、キーボード等の入力装置を介して入力されたものであってもよいし、記憶装置1004にあらかじめ記憶されているものであってもよい。また、閾値は、それ以外の様態で取得されたものであってもよい。
以上で、整合チェックシステム4は動作を終了する。
次に、整合チェックシステム4の動作を具体例で示す。
まず、ステップA28~A29の動作について、具体例を説明する。
例えば、図8に示した参照元ドキュメント8aおよび参照先ドキュメント8bを想定する。
この場合、ステップA28において、整合チェック箇所推定装置3は、参照元での関連性のある整合チェック箇所として「画面ID」および「画面名」を推定し、これらに対応する参照先の整合チェック箇所として「画面ID」および「画面名」を推定したとする。そして、整合チェック箇所推定装置3は、これらの整合チェック箇所の組み合わせを、記憶装置1004に出力する。
ここで、記憶装置1004に出力される整合チェック箇所の組み合わせを表す情報の一例を、図16に示す。図16において、「参照元箇所」は、参照元の整合チェック箇所の見出しの文字列を表す。また、「参照先箇所」は、参照先の整合チェック箇所の見出しの文字列を表す。また、同一の行に示された参照元箇所および参照先箇所は、互いに整合チェックするよう推定された組み合わせである。
なお、これらの参照元箇所および参照先箇所は、整合チェック箇所の見出しの文字列に限らず、その他の情報で表されていてもよい。例えば、参照元ドキュメントまたは参照先ドキュメントがスプレッドシートファイルである場合、参照元箇所および参照先箇所は、整合チェック箇所を特定可能なシート名やセルの位置情報などで表されていてもよい。また、参照元ドキュメントまたは参照先ドキュメントが文書ファイルである場合、参照元箇所および参照先箇所は、整合チェック箇所を特定可能なページ番号や行番号、章番号などで表されていてもよい。
次に、ステップA29において、整合性判定部44は、参照元ドキュメント8aから、図16の「参照元箇所」に基づいて、参照元の整合チェック箇所「SZTA001、成果物登録」、「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」を抽出する。また、整合性判定部44は、参照先ドキュメントから、図16の「参照先箇所」に基づいて、参照先の整合チェック箇所「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」を抽出する。このように、整合性判定部44は、一方のドキュメントにおいて関連性のある複数の整合チェック箇所「画面ID」および「画面名」の各列において、同一行に含まれる要素を連結した情報を抽出する。
また、例えば、図9に示した参照元ドキュメント9aおよび参照先ドキュメント9bを想定する。
この場合、ステップA28において、整合チェック箇所推定装置3は、参照元の整合チェック箇所として「機能名」を推定し、対応する参照先の整合チェック箇所として「エンティティ候補」を推定したとする。そして、整合チェック箇所推定装置3は、これらの整合チェック箇所の組み合わせを、図17に示すように、記憶装置1004に出力する。
次に、ステップA29において、整合性判定部44は、参照元ドキュメント9aから、図17の「参照元箇所」に基づいて、整合チェック箇所「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」を抽出する。また、整合性判定部44は、参照先ドキュメント9bから、図17の「参照先箇所」に基づいて、整合チェック箇所「受注」、「発注計画」、「プロジェクト」を抽出する。
次に、ステップA30の動作について具体例を説明する。
ここでは、関連性を表す情報を、コルモゴロフ複雑性に基づいて概算する例について説明する。この場合、対象を圧縮するアルゴリズムをあらかじめ定めておくと、対象iと対象jとの間の類似度s(i,j)は、次式(1)または次式(2)によって算出可能である。
s(i,j)=1-C(ij)/{C(i)+C(j)}・・・(1)
s(i,j)=1-[C(ij)-min{C(i),C(j)}]/max{C(i),C(j)}・・・(2)
なお、式(1)および(2)において、C(i)は対象iを圧縮した場合のサイズを表し、C(j)は、対象jを圧縮した場合のサイズを表す。また、C(ij)は、対象iおよび対象jを連結させた新たな対象を圧縮した場合のサイズを表す。
s(i,j)=1-[C(ij)-min{C(i),C(j)}]/max{C(i),C(j)}・・・(2)
なお、式(1)および(2)において、C(i)は対象iを圧縮した場合のサイズを表し、C(j)は、対象jを圧縮した場合のサイズを表す。また、C(ij)は、対象iおよび対象jを連結させた新たな対象を圧縮した場合のサイズを表す。
また、ここで指定される圧縮アルゴリズムとしては、たとえば、zip、gzip(GNU ZIP)などが採用可能である。このような圧縮アルゴリズムは、文字列を、文字そのものを示す記号あるいはその文字以前に出現した部分文字列を表す情報(一致長、一致位置のペア)に符号化する。また、このような符号化では、文字列に出現する記号の個数に応じて、個数の多い記号ほど短い符号が割り当てられる。したがって、したがって、コルモゴロフ複雑性の概算により、助詞も含めて単語順を考慮した対象i、j間の類似度が計算可能である。
そこで、ステップA30において、この具体例では、整合性判定部44は、上記式(1)または(2)における対象iおよび対象jに、参照元および参照先の整合チェック箇所における各要素を適用し、これらの要素間の類似度を算出する。
例えば、図8に示した参照元ドキュメント8aおよび参照先ドキュメント8bを対象としている場合について説明する。この場合、参照元ドキュメント8aの整合チェック箇所が「SZTA001、成果物登録」、「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」である。また、参照先ドキュメント8bの整合チェック箇所が「SZTA002、成果物改版」、「SZTA003、成果物メンテナンス」である。この場合、参照元の整合チェック箇所に3つの要素が含まれ、参照先の整合チェック箇所に2つの要素が含まれる。そこで、この場合、整合性判定部44は、参照元の3つの各要素に対して参照先の2つの要素の合計6通りの要素のペアについて、それぞれ関連性を表す情報を計算する。具体的には、整合性判定部44は、対象iに参照元の「SZTA001、成果物登録」を適用し、対象jに参照先の「SZTA002、成果物改版」を適用して要素間の類似度を算出する。同様に、整合性判定部44は、残りの5通りの要素のペアについても、それぞれ類似度を算出する。
また、例えば、図9に示した参照元ドキュメント9aおよび参照先ドキュメント9bを対象としている場合について説明する。この場合、参照元ドキュメント9aの整合チェック箇所が「発注計画確認」、「発注計画保留」、・・・、「見積依頼の作成」である。また、参照先ドキュメント9bの整合チェック箇所が「受注」、「発注計画」、「プロジェクト」である。この場合、参照元の整合チェック箇所に5つの要素が含まれ、参照先の整合チェック箇所に3つの要素が含まれる。そこで、この場合、整合性判定部44は、参照元の5つの各要素に対して参照先の3つの要素の合計15通りの要素のペアについて、それぞれ関連性を表す情報を計算する。具体的には、整合性判定部44は、対象iに参照元の「発注計画確認」を適用し、対象jに参照先の「受注」を適用して要素間の類似度を算出する。同様に、整合性判定部44は、残りの14通りの要素のペアについても、それぞれ類似度を算出する。
次に、ステップA31では、整合性判定部44は、ステップA30で算出した要素のペアの類似度が、それぞれ閾値以上であるか否かを判定する。閾値は、例えば、0.3、0.35、0.55などの値であってもよい。
例えば、図8に示した参照元ドキュメント8aおよび参照先ドキュメント8bを対象とする場合について説明する。この場合、整合性判定部44は、参照元の要素「SZTA002、成果物改版」に対しては、参照先の要素「SZTA002、成果物改版」が整合していると判定したものとする。また、整合性判定部44は、参照元の要素「SZTA003、成果物メンテナンス」に対しては、参照先の要素「SZTA003、成果物メンテナンス」が整合していると判定したものとする。一方で、整合性判定部44は、参照元の要素「SZTA001、成果物登録」に対しては、参照先で類似度が閾値以上となる要素がないため、整合しない(記述漏れ)と判定する。
また、例えば、図9に示した参照元ドキュメント9aおよび参照先ドキュメント9bを対象とする場合について説明する。この場合、整合性判定部44は、参照元の「発注計画確認」、「発注計画保留」等に対しては、参照先の「発注計画」が整合していると判定する。一方で、整合性判定部44は、参照元の「見積依頼の作成」に対しては、参照先で類似度が閾値以上となる要素がないため、整合しない(記述漏れ)と判定する。
以上で、具体例の説明を終了する。
次に、本発明の第4の実施の形態の効果について述べる。
本発明の第4の実施の形態としての整合チェックシステムは、分析対象の各ドキュメントにおいて推定した整合チェック箇所を用いて、ドキュメント間の整合チェックをより精度よく行うことができる。
その理由について説明する。本実施の形態では、整合チェック箇所推定装置が、参照元ドキュメントおよび参照先ドキュメントにおいて互いに整合性をチェックする整合チェック箇所の組み合わせを推定する。そして、整合性判定部が、参照元の整合チェック箇所に含まれる各要素と、参照先の整合チェック箇所に含まれる各要素との間で、関連性を表す情報が所定条件を満たすペアを整合していると判定するからである。また、整合性判定部が、参照元または参照先の一方の整合チェック箇所に含まれる要素のうち、関連性を表す情報が所定条件を満たす要素が他方の整合チェック箇所にない場合に、他方において該要素が記述漏れであると判定するからである。
これにより、本実施の形態は、参照元ドキュメントを構成する全ての単位(行等)と、参照先ドキュメントを構成するすべての単位との間で関連性を計算する必要がない。したがって、本実施の形態は、より効率的に参照元ドキュメントおよび参照先ドキュメント間の整合性を判定することができる。
なお、本発明の第2から第4の実施の形態において、本発明における分析対象のドキュメントが、参照元ドキュメントおよび参照先ドキュメントから構成される例を中心に説明した。この他、各実施の形態は、参照元ドキュメントおよび参照先ドキュメントの2つを分析対象とする場合に限らず、3つ以上のドキュメントを分析対象とする場合にも適用可能である。その場合、各実施の形態の構成および動作は、参照元ドキュメントを各ドキュメントと読み替え、参照先ドキュメントを、他のドキュメントと読み替えることにより同様に説明される。
また、上述した本発明の各実施の形態において、整合チェック箇所推定装置が、整合チェック箇所を、表の列単位で推定する例を中心に説明したが、その他の単位で推定してもよい。例えば、各実施の形態は、整合チェック箇所を、表における行の単位で推定してもよい。また、参照元ドキュメントと参照先ドキュメントとにそれぞれ複数の表が含まれる場合、各実施の形態は、それぞれの表において列単位または行単位などで整合チェック箇所を推定してもよい。また、参照元ドキュメントと参照先ドキュメントとが段落によって構成される文章である場合、各実施の形態は、整合チェック箇所を、段落単位で推定してもよい。
また、上述した本発明の各実施の形態において、整合チェック箇所推定装置および整合チェックシステムの各機能ブロックが、記憶装置またはROMに記憶されたコンピュータ・プログラムを実行するCPUによって実現される例を中心に説明した。これに限らず、各機能ブロックの一部、全部、または、それらの組み合わせが専用のハードウェアにより実現されていてもよい。
また、上述した本発明の各実施の形態において、整合チェック箇所装置および整合チェックシステムの機能ブロックは、複数の装置に分散されて実現されてもよい。
また、上述した本発明の各実施の形態において、各フローチャートを参照して説明した整合チェック箇所装置および整合チェックシステムの動作を、本発明のコンピュータ・プログラムとしてコンピュータ装置の記憶装置(記憶媒体)に格納してもよい。そして、係るコンピュータ・プログラムを当該CPUが読み出して実行するようにしてもよい。このような場合において、本発明は、係るコンピュータ・プログラムのコードあるいは記憶媒体によって構成される。
また、上述した各実施の形態は、適宜組み合わせて実施されることが可能である。
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。
この出願は、2014年3月28日に出願された日本出願特願2014-67521を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1、2、3 整合チェック箇所推定装置
4 整合チェックシステム
11、21 事前知識記憶部
12、22 主副集合推定部
13、33 チェック箇所推定部
44 整合性判定部
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
4 整合チェックシステム
11、21 事前知識記憶部
12、22 主副集合推定部
13、33 チェック箇所推定部
44 整合性判定部
1001 CPU
1002 RAM
1003 ROM
1004 記憶装置
Claims (24)
- 見出しの特徴を表す事前知識を記憶する事前知識記憶手段と、
前記事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定手段と、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定するチェック箇所推定手段と、
を備えた整合チェック箇所推定装置。 - 前記主副集合推定手段は、前記集合に含まれる要素の重複度合に基づいて、前記主集合または前記副集合を推定することを特徴とする請求項1に記載の整合チェック箇所推定装置。
- 前記主副集合推定手段は、前記集合に含まれる要素の重複度合として、前記集合における重複を含む要素数に対する重複を含まない要素数の割合を用いることを特徴とする請求項2に記載の整合チェック箇所推定装置。
- 前記チェック箇所推定手段は、前記各ドキュメントにおける主集合と、前記各ドキュメントにおける副集合のうち他の前記ドキュメントにおける主集合または副集合に対して見出しが所定の共通条件を満たす副集合とを、前記整合チェック箇所として推定することを特徴とする請求項1から請求項3のいずれか1項に記載の整合チェック箇所推定装置。
- 前記事前知識記憶手段は、整合チェックが不要な見出しの特徴を表す不要集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定手段は、前記不要集合特徴に合致する見出しに対応する情報を含む不要集合を除外して、前記主集合または前記副集合を推定することを特徴とする請求項1から請求項4のいずれか1項に記載の整合チェック箇所推定装置。 - 前記事前知識記憶手段は、主要な見出しに付随する見出しの特徴を表す副集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定手段は、前記副集合特徴に合致する見出しに対応する情報の集合を、前記副集合として推定することを特徴とする請求項1から請求項5のいずれか1項に記載の整合チェック箇所推定装置。 - 前記主副集合推定手段は、前記副集合特徴に合致する見出しに対応する情報の集合を、要素の重複度合によらずに、前記副集合として推定することを特徴とする請求項6に記載の整合チェック箇所推定装置。
- 前記主副集合推定手段は、前記副集合特徴に合致しない見出しに対応する情報の集合を、要素の重複度合に基づいて、前記主集合または前記副集合として推定することを特徴とする請求項6または請求項7に記載の整合チェック箇所推定装置。
- 前記事前知識記憶手段は、主要な見出しの特徴を表す主集合特徴を前記事前知識に含めて記憶し、
前記主副集合推定手段は、前記主集合特徴に合致する見出しに対応する情報の集合を、前記主集合として推定することを特徴とする請求項1から請求項8のいずれか1項に記載の整合チェック箇所推定装置。 - 前記主副集合推定手段は、前記主集合または前記副集合を推定するために用いる条件として、前記集合の要素数に応じた条件を用いることを特徴とする請求項1から請求項9のいずれか1項に記載の整合チェック箇所推定装置。
- 前記主副集合推定手段は、前記集合の要素数が所定条件を満たさない場合、前記重複度合によらずに前記主集合特徴に基づいて、前記主集合または前記副集合を推定することを特徴とする請求項10に記載の整合チェック箇所推定装置。
- 前記主副集合推定手段は、前記集合の要素数が所定条件を満たす場合、前記副集合特徴および前記重複度合に基づいて、前記主集合または前記副集合を推定することを特徴とする請求項10または請求項11に記載の整合チェック箇所推定装置。
- 前記チェック箇所推定手段は、前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて前記整合チェック箇所の候補となる集合を推定し、前記各ドキュメントにおける候補と他の前記ドキュメントにおける候補との間で、互いの要素数の関係が所定条件を満たす組み合わせを、整合チェック箇所の組み合わせとして推定することを特徴とする請求項1から請求項12のいずれか1項に記載の整合チェック箇所推定装置。
- 前記チェック箇所推定手段は、前記各ドキュメントにおいて、前記候補のうち互いの要素数の関係が所定条件を満たす1つ以上の候補を、関連性のある整合チェック箇所として推定することを特徴とする請求項1から請求項13のいずれか1項に記載の整合チェック箇所推定装置。
- 前記ドキュメントに表が含まれるとき、
前記事前知識記憶手段は、表の列見出しの特徴を表す前記事前知識を記憶し、
前記主副集合推定手段は、前記列見出しの特徴に合致する文字列を含む行における前記表の各欄に含まれる情報を見出しとして抽出し、抽出した各見出しの列を前記見出しに対応する情報の集合とし、前記列における各欄に含まれる情報を前記集合の要素として、前記主集合および前記副集合の推定を行うことを特徴とする請求項1から請求項14のいずれか1項に記載の整合チェック箇所推定装置。 - 前記ドキュメントに段落からなる文章が含まれるとき、
前記事前知識記憶手段は、段落の見出しの特徴を表す前記事前知識を記憶し、
前記主副集合推定手段は、前記段落の見出しの特徴に合致する情報を前記見出しとして抽出し、抽出した各見出しに対応する段落を前記見出しに対応する情報の集合とし、前記段落に含まれる各文を前記集合の要素として、前記主集合および前記副集合の推定を行うことを特徴とする請求項1から請求項15のいずれか1項に記載の整合チェック箇所推定装置。 - 請求項1から請求項16のいずれか1項に記載の整合チェック箇所推定装置と、
前記整合チェック箇所推定装置によって推定された前記整合チェック箇所を用いて、前記ドキュメント間の整合性を判定する整合性判定手段と、
を備えた整合チェックシステム。 - 前記整合性判定手段は、前記各ドキュメントにおける整合チェック箇所に含まれる各要素と、他の前記ドキュメントにおける整合チェック箇所に含まれる各要素との間の関連性を表す情報を算出し、関連性を表す情報が所定条件を満たす要素のペアを整合していると判定することを特徴とする請求項17に記載の整合チェックシステム。
- 前記整合性判定手段は、前記各ドキュメントにおける整合チェック箇所に含まれる要素のうち、他の前記ドキュメントの整合チェック箇所に、関連性を表す情報が所定条件を満たす要素がない要素を、該他のドキュメントにおける記述漏れと判定することを特徴とする請求項18に記載の整合チェックシステム。
- 前記整合性判定手段は、前記ドキュメントにおいて関連性のある複数の整合チェック箇所が推定されている場合、それらの整合チェック箇所に含まれる対応する各要素を連結した情報を、他のドキュメントとの間で整合をチェックする対象の要素とすることを特徴とする請求項17から請求項19のいずれか1項に記載の整合チェックシステム。
- 見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、
抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または前記主集合に付随する副次的な情報が含まれる副集合として推定し、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定する整合チェック箇所推定方法。 - 見出しの特徴を表す事前知識に基づいて、分析対象の各ドキュメントにおいて、それぞれ1つ以上の見出しを抽出し、抽出した各見出しに対応する情報の集合を、主要な集合(主集合)または前記主集合に付随する副次的な情報が含まれる副集合として推定する主副集合推定ステップと、
前記各ドキュメントにおける主集合および副集合に基づいて、前記各ドキュメントにおいて他の前記ドキュメントとの間で整合性をチェックする箇所(整合チェック箇所)を推定するチェック箇所推定ステップと、
をコンピュータ装置に実行させる整合チェック箇所推定プログラムを記憶した記憶媒体。 - 請求項21に記載の整合チェック箇所推定方法によって推定された整合チェック箇所を用いて、ドキュメント間の整合性を判定する整合性判定方法。
- 請求項22に記載のコンピュータ・プログラムの実行によって推定される整合チェック箇所を用いて、ドキュメント間の整合性を判定する整合性判定ステップをコンピュータ装置に実行させる整合性判定プログラムを記憶した記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016509962A JP6528763B2 (ja) | 2014-03-28 | 2015-02-27 | 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、および、整合チェック箇所推定プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-067521 | 2014-03-28 | ||
JP2014067521 | 2014-03-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015145991A1 true WO2015145991A1 (ja) | 2015-10-01 |
Family
ID=54194547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2015/001062 WO2015145991A1 (ja) | 2014-03-28 | 2015-02-27 | 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6528763B2 (ja) |
WO (1) | WO2015145991A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186356A (ja) * | 2007-01-31 | 2008-08-14 | Hitachi Information Systems Ltd | ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム |
WO2011129198A1 (ja) * | 2010-04-12 | 2011-10-20 | 日本電気株式会社 | 不整合検出システム、方法、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4876940B2 (ja) * | 2007-01-31 | 2012-02-15 | 船井電機株式会社 | ディスク装置 |
JP5310206B2 (ja) * | 2009-04-08 | 2013-10-09 | コニカミノルタ株式会社 | 文書処理装置、文書処理方法および文書処理プログラム |
-
2015
- 2015-02-27 JP JP2016509962A patent/JP6528763B2/ja active Active
- 2015-02-27 WO PCT/JP2015/001062 patent/WO2015145991A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008186356A (ja) * | 2007-01-31 | 2008-08-14 | Hitachi Information Systems Ltd | ドキュメントの整合性検査支援システムおよび方法、ならびにそのプログラム |
WO2011129198A1 (ja) * | 2010-04-12 | 2011-10-20 | 日本電気株式会社 | 不整合検出システム、方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6528763B2 (ja) | 2019-06-12 |
JPWO2015145991A1 (ja) | 2017-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10169337B2 (en) | Converting data into natural language form | |
US11972201B2 (en) | Facilitating auto-completion of electronic forms with hierarchical entity data models | |
US9754176B2 (en) | Method and system for data extraction from images of semi-structured documents | |
JP2013105321A (ja) | 文書処理装置、文書構成要素間の関係解析方法およびプログラム | |
US9015161B2 (en) | Mismatch detection system, method, and program | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
CN108153728B (zh) | 一种关键词确定方法及装置 | |
US9672438B2 (en) | Text parsing in complex graphical images | |
CN112612810A (zh) | 慢sql语句识别方法及系统 | |
US12045280B2 (en) | Method and system for facilitating keyword-based searching in images | |
WO2015145991A1 (ja) | 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体 | |
CN111699472A (zh) | 确定用于开发、设计和/或部署不同技术领域的复杂的嵌入式或信息物理系统,特别是其中使用的复杂的软件架构的措施的方法和计算机程序产品 | |
CN114220113A (zh) | 一种论文质量检测方法、装置和设备 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
CN113688126A (zh) | 确定源数据与标准数据的映射关系的方法、系统和介质 | |
CN112395865A (zh) | 报关单校验方法及装置 | |
WO2016013157A1 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
JP2008210229A (ja) | 知的財産情報検索装置、知的財産情報検索方法及び知的財産情報検索プログラム | |
US20200097552A1 (en) | Synonym determination device and synonym determination method | |
JP2007058415A (ja) | テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム | |
JP6677158B2 (ja) | 文書データ処理装置、文書データ処理方法、及び文書データ処理プログラム | |
US11868726B2 (en) | Named-entity extraction apparatus, method, and non-transitory computer readable storage medium | |
JP2013156815A (ja) | ドキュメント整合性評価システム、ドキュメント整合性評価方法、およびプログラム | |
US8176407B2 (en) | Comparing values of a bounded domain | |
US11960541B2 (en) | Name data matching apparatus, and name data matching method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 15769769 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2016509962 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase | ||
122 | Ep: pct application non-entry in european phase |
Ref document number: 15769769 Country of ref document: EP Kind code of ref document: A1 |