WO2011129198A1 - 不整合検出システム、方法、およびプログラム - Google Patents

不整合検出システム、方法、およびプログラム Download PDF

Info

Publication number
WO2011129198A1
WO2011129198A1 PCT/JP2011/058370 JP2011058370W WO2011129198A1 WO 2011129198 A1 WO2011129198 A1 WO 2011129198A1 JP 2011058370 W JP2011058370 W JP 2011058370W WO 2011129198 A1 WO2011129198 A1 WO 2011129198A1
Authority
WO
WIPO (PCT)
Prior art keywords
statement
unit
data
inspection
generated
Prior art date
Application number
PCT/JP2011/058370
Other languages
English (en)
French (fr)
Inventor
由希子 黒岩
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/639,729 priority Critical patent/US9015161B2/en
Priority to JP2012510614A priority patent/JP5751431B2/ja
Publication of WO2011129198A1 publication Critical patent/WO2011129198A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/10Requirements analysis; Specification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation

Definitions

  • the present invention relates to document inconsistency detection, and more particularly to inconsistency detection for detecting request inconsistency from a document in which a request is described.
  • Patent Document 1 a technique for modeling an object and performing formal verification is disclosed in Patent Document 1, and it is possible to verify whether there is a problem with the described matter.
  • Formal verification support techniques are disclosed in Patent Literature 2, Patent Literature 3, Patent Literature 4, and the like, but the problem that learning is necessary for use has not been solved, although input becomes easy.
  • document inconsistencies and ambiguities, as well as omissions in the original document when another document is created from the original document are manually reviewed, and costs (labor costs and The problem was that it was time consuming and sometimes overlooked manually.
  • the intention of the present invention is to make it possible to detect document inconsistencies without converting a document written in a natural language into another format.
  • An inconsistency detection system includes a statement unit extraction unit that extracts a set of statement units by dividing a given document described in a natural language, and a context that indicates additional information of a statement unit.
  • a statement component that constitutes each statement as a set of context and content, classified into content indicating the information of the statement itself, a set of predetermined examination contents, and a set of statements generated by the statement component
  • a data generation unit that generates a data set in which the two are merged, and the conversion of the two most similar data into the new data generated by concatenating the two data with respect to the generated data set Generating a new data set, extracting from the generated new data set only data including the statement generated by the statement constructing unit to generate a typed result set, and a predetermined inspection target Inspection Generates a respective test items in the set of the volume, a detector for detecting the similarity mismatch statement based on the generated test items and typology result, characterized in that it comprises a.
  • a set of statement units is extracted by dividing a given document described in a natural language, and contents indicating the context indicating the additional information of the statement and the information of the statement itself
  • each statement is configured as a set of context and content
  • a data set is generated by merging a set of predetermined examination contents and a set of statements generated by the above-mentioned statement configuration
  • the two most similar data are repeatedly converted to one new data generated by concatenating the two data, and a new data set is generated.
  • a statement unit extraction process for extracting a set of statement units by dividing a given document described in a natural language, and a statement unit as a context and statement indicating additional information of a statement.
  • a statement composition process that constitutes each statement as a set of context and content, classified into contents indicating its own information, a set of predetermined examination contents, and a set of statements generated by the statement composition process
  • a data generation process that generates a data set that is a combination of the two, and repeatedly converting the two most similar data into one new data generated by concatenating the two data.
  • a categorization process that generates a categorization result set by extracting only data including the statement generated by the statement composition process from the generated new data set, and a predetermined inspection object and verification
  • An inconsistency detection program for causing a computer to execute a detection process for detecting each inconsistency in a statement based on the similarity between the generated inspection items and the categorization result, and generating each inspection item in combination with the content Is provided.
  • the original data set is converted into new data obtained by concatenating similar data, and the degree of similarity is calculated using data with increased information. Can do.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of a mismatch detection system according to the present invention.
  • FIG. 2 is an explanatory diagram showing an example of statement units stored in the statement unit storage unit 100 of FIG.
  • FIG. 3 is an explanatory diagram illustrating an example of a statement stored in the statement storage unit 101 of FIG.
  • FIG. 4 is an explanatory diagram showing an example of the inspection content stored in the inspection content storage unit 102 of FIG.
  • FIG. 5 is an explanatory diagram showing an example of a data set stored in the data storage unit 103 of FIG.
  • FIG. 6 is an explanatory diagram showing an example of the typification result stored in the typification result storage unit 104 in FIG.
  • FIG. 1 is a block diagram showing a configuration example of a first embodiment of a mismatch detection system according to the present invention.
  • FIG. 2 is an explanatory diagram showing an example of statement units stored in the statement unit storage unit 100 of FIG.
  • FIG. 3 is an explanatory diagram
  • FIG. 7 is a flowchart showing an example of processing progress of the first embodiment of the inconsistency detection system according to the present invention.
  • FIG. 8 is an explanatory diagram showing an example of calculating the maximum number of characters in a line in the statement unit extraction unit 105 in FIG.
  • FIG. 9 is an explanatory diagram showing an example of another statement unit stored in the statement unit storage unit 100 of FIG.
  • FIG. 10 is a flowchart showing an example of processing progress of the detection unit 109 for the integrity i of one inspection target in the first embodiment of the inconsistency detection system according to the present invention.
  • FIG. 11 is a block diagram showing a configuration example of the second embodiment of the inconsistency detection system according to the present invention.
  • FIG. 8 is an explanatory diagram showing an example of calculating the maximum number of characters in a line in the statement unit extraction unit 105 in FIG.
  • FIG. 9 is an explanatory diagram showing an example of another statement unit stored in the statement unit storage unit 100 of FIG.
  • FIG. 10 is
  • FIG. 12 is a flowchart showing an example of the processing progress of the detection unit 200 for the consistency i of one inspection target in the second embodiment of the inconsistency detection system according to the present invention.
  • FIG. 13 is a block diagram showing a configuration example of the third embodiment of the inconsistency detection system according to the present invention.
  • FIG. 14 is an explanatory diagram illustrating an example of conversion words / phrases stored in the conversion word / phrase storage unit 300 of FIG. 13.
  • FIG. 15 is a flowchart showing an example of processing progress of the data generation unit 301 of the third embodiment of the inconsistency detection system according to the present invention.
  • FIG. 16 is a flowchart showing an example of the processing progress of the detection unit 302 for one inspection target unambiguity i in the third embodiment of the inconsistency detection system according to the present invention.
  • FIG. 17 is an explanatory diagram illustrating an example of the inspection content stored in the inspection content storage unit 102 of FIG.
  • FIG. 18 is a block diagram showing a configuration example of the fourth embodiment of the inconsistency detection system according to the present invention.
  • FIG. 19 is an explanatory diagram showing an example of statement units stored in the statement unit storage unit 400 of FIG.
  • FIG. 20 is an explanatory diagram illustrating an example of a statement stored in the statement storage unit 401 of FIG. FIG.
  • FIG. 21 is a flowchart showing an example of processing progress of the fourth embodiment of the inconsistency detection system according to the present invention.
  • FIG. 22 is an explanatory diagram showing an example of the conversion phrase stored in the conversion phrase storage unit 300 of FIG.
  • FIG. 23 is an explanatory diagram showing an example of a data set stored in the data storage unit 103 of FIG.
  • a first embodiment of a mismatch detection system according to the present invention will be described in detail with reference to the drawings.
  • the inconsistency detection system according to the first embodiment detects an inconsistency if the input document does not satisfy the completeness with respect to predetermined inspection contents.
  • a case where the input document is a request for proposal, a proposal, or a specification will be described as an example.
  • Request for Proposal is a document for requesting proposals from IT vendors that are the suppliers when the government agencies and companies that are the suppliers are procuring information systems and IT services. .
  • the proposal request form is also called a procurement request form, a bid request form, a proposal request form, a proposal request form, a proposal request form, a proposal solicitation form, an estimate request form, or a proposal submission form.
  • the request for proposal describes, for example, specific requirements such as an outline and purpose, necessary functions, service level, contract conditions, and the like.
  • a proposal (Proposal) is a document in which IT vendors describe specific proposals.
  • the proposal is also called a plan book or plan proposal. In the proposal, for example, specific proposal items such as purpose and aim, function and service level realization means, and development system are described.
  • a specification is a document that describes requirements that must be satisfied by a system or service.
  • an inconsistency detection system includes an input unit 10 such as a keyboard, a storage unit 11 that stores information, a calculation unit 12 that operates under program control, a display device, and a printing device. And an output unit 13 such as a device.
  • the storage unit 11 includes a statement unit storage unit 100, a statement storage unit 101, an examination content storage unit 102, a data storage unit 103, and a typification result storage unit 104.
  • the statement unit storage unit 100 stores a statement unit.
  • the statement unit is a unit of expression indicating the meaning of the statement, and is a sentence, a bullet, a title, or a part of a figure.
  • Language units are, for example, sentences such as “... input”, bullets such as “... input”, and “1. Introduction”. It is a part of a figure such as a chapter title, a figure or table title such as “FIG. 1 block diagram of the first embodiment”, and an “input unit 10” or “conversion phrase storage unit”.
  • FIG. 2 is an explanatory diagram illustrating an example of statement units stored in the statement unit storage unit 100. As shown in FIG. 2, the statement unit is stored together with a statement unit ID indicating the number of the statement unit.
  • the statement storage unit 101 stores the statement as a set of content and context.
  • FIG. 3 is an explanatory diagram illustrating an example of a statement stored in the statement storage unit 101. As shown in FIG. 3, the statement is stored as a combination of context and content. Here, FIG. 3 is an example of a statement constructed from FIG. As will be described later, since the context having no corresponding content is deleted, the “server requirement” in FIG. 1 is deleted.
  • the inspection content storage unit 102 stores predetermined inspection details. FIG.
  • FIG. 4 is an explanatory diagram illustrating an example of the inspection content stored in the inspection content storage unit 102.
  • FIG. 4 shows an example of server requirements, which are stored as a set of inspection ID, inspection content, and inspection method.
  • the examination content may be a sentence or a list of keywords.
  • the data storage unit 103 stores a data set obtained by merging the set of examination contents stored in the examination content storage unit 102 and the set of statements stored in the statement storage unit 101.
  • FIG. 5 is an explanatory diagram illustrating an example of a data set stored in the data storage unit 103. As shown in FIG.
  • the data is stored as, for example, a data ID indicating a data number, a data content, and a document ID indicating a document number.
  • the document ID is 1 when the data is the examination content, 2 when the data is a statement, and the like.
  • the typification result storage unit 104 stores a result of categorizing data.
  • FIG. 6 is an explanatory diagram illustrating an example of the typification result stored in the typification result storage unit 104. As shown in FIG. 6, the typification result is stored as, for example, an ID indicating a typification result number, a typification result, and a document ID. As a result of categorizing FIG.
  • the calculation unit 12 includes a statement unit extraction unit 105, a statement configuration unit 106, a data generation unit 107, a categorization unit 108, and a detection unit 109.
  • the statement unit extraction unit 105 shapes the document input via the input unit 10, divides it, extracts statement units, and stores them in the statement unit storage unit 100.
  • the statement constructing unit 106 classifies the statement unit into a statement content and a context, composes a statement as a set of the content and the immediately preceding context, and stores the statement in the statement storage unit 101.
  • the data generation unit 107 generates a data set obtained by merging the statement stored in the statement storage unit 101 and the inspection content stored in the inspection content storage unit 102, and stores the data set in the data storage unit 103.
  • the categorization unit 108 creates a new 1 that generates two most similar data by concatenating the two data until the similarity between the data stored in the data storage unit 103 becomes smaller than a predetermined first threshold. Generating a new data set by repeating the conversion into one data, extracting only data including the statement generated by the statement constructing unit 106 from the generated new data set, and generating a categorized result set, The generated typed result set is stored in the typed result storage unit 104.
  • the detection unit 109 sets the similarity between the classification result stored in the categorization result storage unit 104 and the combination of the predetermined inspection object and the inspection content indicating the integrity stored in the inspection content storage unit 102.
  • the inconsistency is detected based on the calculated similarity and the detection result is output to the output unit 13.
  • the statement unit extraction unit 105 first removes unnecessary fixed lines in the document ( Step A1).
  • an unnecessary fixed line is, for example, a blank line or a line indicating a page.
  • the line indicating the page has, for example, a line of only numbers or a form of -number-.
  • character strings described in all pages of the document for example, “Copyright..., All rights reserved.”, Company name, date, etc., they are deleted. These character strings to be deleted may be designated by the user of the system through the input unit 10 such as a keyboard, or may be stored as defaults in the system. May be specified.
  • the statement unit extraction unit 105 next calculates the maximum number of characters in the line (step A2).
  • FIG. 8 is an explanatory diagram showing an example of the case where the statement unit extraction unit 105 calculates the maximum number of characters in a line.
  • FIG. 8 is a part of a document having 101 lines or more. As shown in FIG. 8, when a line is inserted in each line in the form of a sentence as shown in FIG.
  • the first line has 5 characters
  • the second to fifth lines and the seventh line have 25 characters
  • the sixth line has 26 characters.
  • Character, 8th line is 5 characters.
  • the maximum number of characters is 26, but if there are only one line, the number of characters does not become 1% or more, so the statement unit extraction unit 105 calculates that the maximum number of characters is 25 characters.
  • the statement unit extraction unit 105 checks the number of characters in the neighboring lines of each line and deletes unnecessary line breaks (step A3). Neighboring rows are, for example, five rows. If the number of characters in a line and neighboring lines is almost the maximum, delete the line break on that line.
  • the first line is 5 characters, and the line break in the first line is not deleted because the line itself is not within the range of the maximum number of characters ⁇ 3 characters.
  • the second line is 25 characters, and the third to fifth lines are 25 or 26 characters within the range of the maximum number of characters ⁇ 3 characters, so the new line in the second line is deleted.
  • the third line also has its own line, the second line, the fourth line to the sixth line within the range of the maximum number of characters ⁇ 3 characters, so the line break in the third line is deleted.
  • line breaks in the fourth, fifth, and sixth lines are also deleted. Since the number of characters in the seventh line is the same as in the first line, the line feed is not deleted. If there is a table in the document, unnecessary line breaks may be deleted by a similar method using the maximum number of characters in the neighboring lines instead of the maximum number of characters in the lines of all documents.
  • the statement unit extraction unit 105 next checks, for each line, whether it becomes a word by concatenating the end of the previous line and the beginning of the line, and if it becomes a word, The line feed at the end of the line is deleted (step A4).
  • general morphological analysis is performed and it can be judged whether it is divided
  • the morphological analysis can be performed by, for example, Mecab or Chasen which are morphological analysis engines.
  • the morphological analysis is, for example, selecting an output sequence of morphemes “Tokyo”, “Metro”, “Ni”, “I” for an input sentence “I am in Tokyo”.
  • examples of another output series are “East”, “Kyoto”, “Ni”, and “I”.
  • morphological analysis a large number of general documents are prepared, and from these documents, scores for the ease of appearance and connection of morphemes such as nouns and verbs are obtained. The division with the highest score may be selected. For example, in a general large amount of documents, “Tokyo” and “City” are more often connected than when “East” and “Kyoto” are connected. Therefore, the score for the ease of connection between “Tokyo” and “Tokyo” is higher than the score for the ease of connection between “East” and “Kyoto”. , “Tokyo”, “City”, “Ni”, and “I” can be obtained.
  • morphological analysis is performed after concatenating the end of the previous line and the beginning of the line, and if there is one word at the end of the previous line and the beginning of the line, the line break in the previous line is deleted.
  • the line break in the previous line is deleted.
  • the morphological analysis it becomes a noun “server” and becomes a single word at the end of the previous line and the beginning of the line, so the line break of the third line that is the previous line Is deleted.
  • FIG. 9 is an explanatory diagram illustrating an example of another statement unit stored in the statement unit storage unit 100.
  • FIG. 9 is an explanatory diagram illustrating an example of another statement unit stored in the statement unit storage unit 100.
  • step A9 is a statement unit extracted from the document shown in FIG.
  • unnecessary line breaks are deleted in step A3, the first line is “server requirement”, and the second line is otherwise.
  • step A4 the line break is not deleted, and in step A5, a line break is inserted after the punctuation mark to form 8 lines.
  • step A6 the statement unit of FIG. 9 is obtained.
  • the statement unit stored in the statement unit storage unit 100 is output to the output unit 13, and the user of the system confirms the division result into statement units and corrects any errors. Also good.
  • the statement composition unit 106 classifies the statement unit into context and content (step A7).
  • the context is, for example, a title such as a chapter, section, paragraph, figure, or table.
  • the statement composition unit 106 determines the titles of chapters, sections, figures, tables, and the like based on the presence or absence of a verb in the statement unit. For example, in the case where the request unit is FIG. 2, the statement constructing unit 106 has a context because the statement unit with the statement unit ID 1 (assumed to be the statement unit 1) has no verb, and the statement unit 2 has no verb. 3 is classified as content because there is a verb. Similarly, the statement configuration unit 106 classifies statement units 4, 7, and 10 as context, and statement units 5, 6, 8, 9, 11, and 12 as content. In the case of FIG.
  • the statement constructing unit 106 classifies the statement unit 1 as the context because there is no verb, and the contents because there is a verb in other cases.
  • a statement unit shorter than a predetermined number of characters may be used as the context, and a statement unit greater than the predetermined number of characters may be used as the content.
  • the beginning of a statement unit is a number, or “number” and a number, or “(“ and a number and ”)”, the number is assumed to be a chapter, section, or paragraph number, and the previous chapter or If it is a serial number of a section or paragraph, it may be classified as a context that is a chapter or section.
  • the statement constructing unit 106 composes a statement as a pair with the previous context closest to the content, and stores it in the statement storing unit 101 (step A8).
  • the statement when the statement unit is FIG. 2 is as shown in FIG. If the contexts are continuous and there is no content for the previous context, the statement constructing unit 106 deletes the statements. For example, statement 1 is deleted.
  • the first statement may be a combination of “server requirement” and “(1) authentication server” as context, and “perform authentication” as content.
  • the data generation unit 107 generates data from the statement stored in the statement storage unit 101 and the examination content stored in the examination content storage unit 102, and stores the data in the data storage unit 103 (step A9).
  • the statement data is a character string in which the context and content of the statement are connected using a predetermined delimiter.
  • the delimiter may be specified by the system user inputting it via the input unit 10 such as a keyboard, or may be stored as a default in the system, or specified in other ways. May be.
  • the data of the statement 1 is “(1) Authentication server: performs authentication.”
  • the data of the statement 2 is “(2) the calculation server. : Two servers have a load balancing configuration and use a round robin method.
  • the delimiter may be “empty”.
  • the inspection content data is the inspection content. For example, when the inspection content is shown in FIG. 4, the data of the inspection content 1 is “server is load-balanced and active standby”, and the data of the inspection content 2 is “server is single”.
  • the first data may be “server requirement: (1) authentication server: perform authentication”.
  • the typification unit 108 generates a new data set by repeatedly converting the two most similar data into one new data generated by concatenating the two data. Then, only the data including the statement stored in the data storage unit 103 is extracted and stored in the categorization result storage unit 104 as a set of categorization results (step A10). Conversion to data is performed until the similarity between all the data becomes greater than a predetermined first threshold.
  • the first threshold value may be specified by the system user by inputting through the input unit 10 such as a keyboard, or may be stored as a default in the system, or specified in other manners. May be. For example, if data 2 and data 8 and data 4 and data 6 in FIG. 5 are categorized, a typification result as shown in FIG. 6 is obtained.
  • the method of calculating the similarity for typification may be designated by the system user by inputting via the input unit 10 such as a keyboard, or may be stored as a default in the system. However, it may be specified in other manners.
  • the similarity can be calculated based on the appearance frequency of words extracted from text by morphological analysis.
  • the designated compression algorithm is, for example, “gip” or “zgip”.
  • a character string is encoded with a character symbol or a pair of (matching length, matching position) with a previous partial character string.
  • encoding for example, the number of symbols appearing in a character string is obtained, and a shorter code is assigned to a larger number as desired.
  • the words “fast action” and “fast action” assign a short code to “fast action” and can be calculated as high similarity.
  • the categorization unit 108 sequentially examines the categorization results stored in the categorization result storage unit 104, and if there is a typification result that does not include any of the statements stored in the statement storage unit 101, It deletes from the conversion result memory
  • the detection unit 109 detects an inconsistency in a statement regarding completeness (step A12). Detailed processing will be described later. Then, the detection unit 109 ends the operation of the system.
  • the detection unit 109 initializes m, which is a number indicating the inspection content, to 1 (step A13).
  • the detection unit 109 refers to the examination content storage unit 102 and checks whether the integrity of the examination content m is i (step A14). If the integrity is i, the process proceeds to step A15. If the integrity is not i, the process proceeds to step A21. For example, when i is 1 and m is 1, when the completeness of the inspection content whose inspection ID is 1 in FIG.
  • the detection unit 109 generates an inspection item from the inspection target and the inspection content m (step A15).
  • the inspection item is a character string obtained by connecting the inspection object and the inspection content using a predetermined delimiter.
  • the inspection target may be designated by the user of the system through the input unit 10 such as a keyboard, may be stored as a default in the system, or may be designated in another manner. Good.
  • the default is to automatically generate from the context. For example, when i is 1 and m is 1, if “authentication server” is specified as the inspection target and the delimiter is set to “:”, the inspection item that is a combination of the inspection target and the inspection content is “ Authentication server: The server becomes an active standby by load balancing.
  • the detection unit 109 initializes n, which is a number indicating the typification result, to 1 (step A16).
  • the detection unit 109 calculates the similarity between the inspection item and the typification result n (step A17).
  • the detection unit 109 compares the similarity with a predetermined second threshold (step A18).
  • the second threshold value may be specified by the system user by inputting via the input unit 10 such as a keyboard, or may be stored as a default in the system, or specified in other manners. May be.
  • the degree of similarity with the categorization result is calculated because the statement is as short as one sentence and there is little information, so even if the degree of similarity between the inspection item and the statement is simply calculated, the analysis accuracy is low. This is because the analysis accuracy can be improved by the processing of the typification unit 108.
  • the inspection target is “processing server”.
  • a human can estimate from the data 6 in FIG. 5 that the calculation server is also load-balanced because the calculation server is load-balanced from the data 4 in FIG. 5 and the method is the round-robin method. .
  • the similarity of the categorization result 4 with the examination 1 indicating load distribution is high, and it is possible to estimate that the processing server is load distribution. If the similarity is greater than or equal to the second threshold, the process proceeds to step A24, and if it is less than the second threshold, the process proceeds to step A19. In step A19, the detection unit 109 increments n.
  • the detection unit 109 compares n with the number N of classification results (step A20). If n is less than or equal to N, the process proceeds to step A17. If n is greater than N, the process proceeds to step A21. In Step A21, the detection unit 109 increments m. The detection unit 109 compares m with the number of inspection contents M (step A22). If m is less than or equal to M, the process proceeds to step A14, and if m is greater than M, the process proceeds to step A23. If m is larger than M, the detection unit 109 detects that there is a mismatch (step A23).
  • the detection unit 109 can detect that there is a mismatch.
  • the detection result may be output immediately via the output unit 13 such as a display device or a printing device, or may be stored and output in response to a request from a user of the system, or otherwise. It may be output in the manner described above. Then, the detection unit 109 ends the operation.
  • the detection unit 109 detects that there is no mismatch (step A24).
  • “computation server” is designated as the inspection target
  • the degree of similarity between each categorization result of FIG. 6 is calculated for “calculation server: server is active and standby by load balancing”.
  • processing server round robin method similar to the calculation server” of the classification result 3 Since it is high, it can be detected that there is no inconsistency.
  • operation management server When “operation management server” is specified as the inspection target, “operation management server: single server” of data and “server is single (3) operation management server: single configuration” of classification result 1 Since the degree of similarity is high, it can be detected that there is no mismatch.
  • the detection result may be output immediately via the output unit 13 such as a display device or a printing device, or may be stored and output in response to a request from a user of the system, or otherwise. It may be output in the manner described above. It may be specified that no mismatch is output. Then, the detection unit 109 ends the operation. These processes of the detection unit 109 can be executed for all integrity i and all inspection objects suitable for the integrity i.
  • the statement unit extraction unit and the statement composition unit automatically compose a statement to detect a statement inconsistency.
  • the inconsistency of the statement can be detected without manually converting the file to another format.
  • the statement is as short as about one sentence and there is little information, even if the similarity is simply calculated, the analysis accuracy is low, but in the first embodiment, the similarity to the sentence in which the statement or examination content is connected by typification Can be analyzed with high accuracy.
  • the first embodiment there is an effect that analysis can be performed with high accuracy by using typification without specifying all related terms in advance.
  • the first embodiment is inconsistency detection related to integrity, and for any inspection object, if any is described, inspection items that are connected with inspection contents that satisfy the integrity are created. If there is a statement corresponding to the inspection item in the document, there is no inconsistency. (Second Embodiment) Next, a second embodiment of the inconsistency detection system according to the present invention will be described in detail with reference to the drawings.
  • the inconsistency detection system detects an inconsistency when there is a contradiction in an input document with respect to predetermined inspection contents.
  • the input document is a request for proposal, a proposal, or a specification will be described as an example.
  • symbol is attached
  • the inconsistency detection system includes an input unit 20 such as a keyboard, a storage unit 21 that stores information, a calculation unit 22 that operates under program control, a display device, and a printing device. And an output unit 23 such as a device.
  • the storage unit 21 includes a statement unit storage unit 100, a statement storage unit 101, an examination content storage unit 102, a data storage unit 103, and a typification result storage unit 104.
  • the statement unit storage unit 100, the statement storage unit 101, the examination content storage unit 102, the data storage unit 103, and the categorization result storage unit 104 are the same as those in the first embodiment.
  • the calculation unit 22 includes a statement unit extraction unit 105, a statement configuration unit 106, a data generation unit 107, a categorization unit 108, and a detection unit 200.
  • the statement unit extraction unit 105, the statement configuration unit 106, the data generation unit 107, and the categorization unit 108 are the same as those in the first embodiment.
  • the detection unit 200 determines the similarity between the classification result stored in the categorization result storage unit 104 and the combination of the predetermined inspection target and the inspection content indicating the consistency stored in the inspection content storage unit 102. The inconsistency is detected based on the calculated similarity, and the detection result is output to the output unit 23.
  • Nmatch which is a number indicating the number of corresponding contradictions, to 0 (step A25).
  • m which is a number indicating the inspection content, to 1 (step A26).
  • the detection unit 200 refers to the inspection content storage unit 102 and checks whether the consistency of the inspection content m is i (step A27). If the consistency is i, the process proceeds to step A28, and if the consistency is not i, the process proceeds to step A36. If the consistency is i, the detection unit 200 generates an inspection item from the inspection object and the inspection content m (step A28). Next, the detection unit 200 initializes n, which is a number indicating the typification result, to 1 (step A29). Next, the detection unit 200 calculates the similarity between the inspection item and the typification result n (step A30). Next, the detection unit 200 compares the degree of similarity with a predetermined second threshold (step A31).
  • the second threshold value may be specified by the system user by inputting via the input unit 20 such as a keyboard, may be stored as a default in the system, or specified in other manners. May be. If the similarity is greater than or equal to the second threshold, the process proceeds to step A34, and if it is less than the second threshold, the process proceeds to step A32. In Step A32, the detection unit 200 increments n. Next, the detection unit 200 compares n with the number N of typification results (step A33). If n is less than or equal to N, the process returns to step A30. If n is greater than N, the process proceeds to step A36. If the similarity is greater than or equal to the second threshold value in step A31, the detection unit 200 increments Nmatch (step A34).
  • the detection unit 200 checks whether the number of matches Nmatch is 2 or more (step A35). If it is 2 or more, the process proceeds to step A38. In Step A36, the detection unit 200 increments m. Next, the detection unit 200 compares m with the number of inspection contents M (step A37). If m is less than or equal to M, the process returns to step A27, and if m is greater than M, the process proceeds to step A39. In Step A38, the detection unit 200 detects that there is a mismatch. The detection result may be output immediately via the output unit 23 such as a display device or a printing device, or may be stored and output according to a request from a user of the system, or otherwise. It may be output in the manner described above.
  • the output unit 23 such as a display device or a printing device
  • the corresponding inspection content m and the classification result n may be stored, and all the corresponding inspection content and the classification result may be output simultaneously.
  • the detection unit 200 detects that there is no mismatch.
  • the detection result may be output immediately via the output unit 23 such as a display device or a printing device, or may be stored and output according to a request from a user of the system, or otherwise. It may be output in the manner described above. It may be specified that no mismatch is output. Then, the operation of the detection unit 200 with respect to an inspection target having a consistency i is terminated.
  • These processes of the detection unit 200 can be executed for all consistency i and all inspection objects suitable for the consistency i.
  • the second embodiment As in the first embodiment, it is possible to detect statement mismatch with high accuracy without manually converting the document into another format.
  • the second embodiment is inconsistency detection related to consistency, and there is an effect that it is possible to detect contradiction for inspection contents that contradict each other if a plurality are described.
  • a third embodiment of the inconsistency detection system according to the present invention will be described in detail with reference to the drawings.
  • the inconsistency detection system according to the third embodiment detects an inconsistency in an input document if there is an ambiguous part with respect to predetermined inspection contents.
  • an inconsistency detection system includes an input unit 30 such as a keyboard, a storage unit 31 that stores information, a calculation unit 32 that operates under program control, a display device, and a printing device. And an output unit 33 such as a device.
  • the storage unit 31 includes a statement unit storage unit 100, a statement storage unit 101, an examination content storage unit 102, a conversion phrase storage unit 300, a data storage unit 103, and a typification result storage unit 104.
  • the statement unit storage unit 100, the statement storage unit 101, the examination content storage unit 102, the data storage unit 103, and the typification result storage unit 104 are the same as those in the first (second) embodiment.
  • the conversion phrase storage unit 300 stores conversion phrases such as synonyms and unnecessary phrases.
  • FIG. 14 is an explanatory diagram illustrating an example of conversion words / phrases stored in the conversion word / phrase storage unit 300. In FIG. 14, the word after the change in which the first column is a representative phrase of the word, and the second and subsequent columns are the words before conversion.
  • the calculation unit 32 includes a statement unit extraction unit 105, a statement configuration unit 106, a data generation unit 301, a categorization unit 108, and a detection unit 302.
  • the statement unit extraction unit 105, the statement configuration unit 106, and the categorization unit 108 are the same as those in the first (second) embodiment.
  • the data generation unit 301 generates a data set obtained by merging the statement stored in the statement storage unit 101 and the inspection content stored in the inspection content storage unit 102, and synonyms or unnecessary stored in the conversion phrase storage unit 300. Each data in the data set is converted based on the phrase, and the converted data set is stored in the data storage unit 103.
  • the detection unit 302 determines the similarity between the categorization result stored in the categorization result storage unit 104 for a set of a predetermined inspection object and the inspection content indicating the ambiguity stored in the inspection content storage unit 102. The mismatch is detected based on the calculated similarity, and the detection result is output to the output unit 33.
  • the data generation unit 301 of the third embodiment will be described in detail with reference to the flowchart of FIG. First, the data generation unit 301 generates data using the statement stored in the statement storage unit 101 and the examination content stored in the examination content storage unit 102 (step A40).
  • the data generation unit 301 searches the conversion phrase storage unit 300 for the generated data, converts any converted pre-conversion phrase into a post-conversion phrase, and stores the converted data set in the data storage unit 103.
  • Step A41 For example, in the case of FIG. 14, “availability” in the data is not converted as it is, and “availability” is converted into “availability”. “Fault tolerance” and “fault tolerance” in the data are converted to “fault tolerance”.
  • the word “anyway” in the data is deleted. In this way, unnecessary words can be deleted by performing the same operation as unifying synonyms by emptying the representative words of unnecessary words.
  • the conversion phrase can be easily created using a general synonym dictionary, and if a business term dictionary can be prepared, a business conversion phrase can be added. Note that when using the Kolmogorov complexity approximation method, because the similarity between the key and the key is a lower degree, the conversion phrase that unifies the key is the key. May be added.
  • the detection unit 302 selects an inspection content with an ambiguity i, and generates an inspection item based on the inspection object and the inspection content (step A42).
  • FIG. 17 is an explanatory diagram illustrating an example of the inspection content stored in the inspection content storage unit 102. As shown in FIG. 17, one non-ambiguity corresponds to one examination content.
  • the inspection item generation in step A42 for example, when the inspection target is an empty string “” indicating an arbitrary object and the delimiter is an empty string “” and unambiguous 1 is detected, the inspection item is “future It corresponds to the function added to ".”
  • the detection unit 302 converts the inspection item based on the conversion word / phrase stored in the conversion word / phrase storage unit 300 (step A43).
  • the detection unit 302 searches the conversion word storage unit 300 for the inspection item, and if there is a matching pre-conversion word / phrase, converts it to the post-conversion word / phrase. Here, if there is no matching pre-conversion word / phrase for the inspection item, the inspection content after conversion is the same as the inspection item before conversion.
  • the detection unit 302 initializes n to 1 (step A44).
  • the detection unit 302 calculates the similarity between the inspection item and the typification result n (step A45).
  • the detection unit 302 compares the similarity with a predetermined second threshold value (step A46).
  • the second threshold value may be specified by the system user by inputting via the input unit 30 such as a keyboard, may be stored as a default in the system, or specified in other manners. May be. If the similarity is greater than or equal to the second threshold, the process proceeds to step A47, and if it is less than the second threshold, the process proceeds to step A48. In step A47, the detection unit 302 detects that there is a mismatch. The detection result may be output immediately via the output unit 33 such as a display device or a printing device, or may be stored and output according to a request from a user of the system, or otherwise. It may be output in the manner described above. In addition, in order to show an ambiguous part, you may output the corresponding typification result n simultaneously.
  • Step A48 the detection unit 302 increments n.
  • the detection unit 302 compares n with the number N of classification results (step A49). If n is less than or equal to N, the process returns to step A45, and if n is greater than N, the operation of the detection unit 302 is terminated.
  • the conversion phrase storage unit is added, and the phrase conversion is performed by the data generation unit and the detection unit based on the conversion phrase stored in the conversion phrase storage unit.
  • a conversion word storage unit may be added to perform word conversion.
  • completeness, consistency, and unambiguousness are detected, but other inspection methods are stored in the inspection content storage unit, and detection units corresponding to the inspection methods are detected. You may set the operation.
  • inspection contents with a high risk such as “operate without failure 24 hours a day on 365 days” may be determined in advance, and it may be detected whether there is a part similar to the inspection contents in the document.
  • the third embodiment similarly to the first and second embodiments, it is possible to detect statement inconsistency with high accuracy without manually converting the document into another format. .
  • the third embodiment is inconsistency detection related to unambiguousness, and there is an effect that if described, it is possible to detect examination contents that are ambiguous. Also, because the synonym phrase is converted into a synonym phrase representative phrase and the unnecessary phrase is deleted, the inconsistency of the statement can be detected even if there are words with the same meaning but different character strings.
  • the inconsistency detection system according to the fourth embodiment detects an inconsistency if there is a portion that cannot be associated with the reflection source document and the reflection destination document.
  • a case where the reflection source document is a proposal request document and the reflection destination document is a proposal or a case where the reflection source document is a proposal and the reflection destination document is a specification will be described as an example.
  • the reflection source document is a request for proposal, for each requirement described in the request for proposal, the proposal needs to describe the proposal of the realization means corresponding to the requirement.
  • the reflection source document is a proposal
  • inconsistencies are detected by associating the proposed items with such requirements and the requirements with the proposed items.
  • symbol is attached
  • the inconsistency detection system according to the fourth embodiment includes an input unit 40 such as a keyboard, a storage unit 41 that stores information, a calculation unit 42 that operates under program control, a display device, and a printing device. And an output unit 43 such as a device.
  • the storage unit 41 includes a statement unit storage unit 400, a statement storage unit 401, a conversion phrase storage unit 300, a data storage unit 103, and a typification result storage unit 104.
  • the statement unit storage unit 400 stores statement units extracted from two documents that are a reflection source document and a reflection destination document, such as a proposal for a proposal request or a specification for a proposal.
  • FIG. 19 is an explanatory diagram illustrating an example of statement units stored in the statement unit storage unit 400. As shown in FIG. 19, the statement unit storage unit 400 stores an ID indicating a statement unit number, a content of the statement unit, and a document ID indicating a document number.
  • the document ID stores 1 as the reflection source document and 2 as the reflection destination document.
  • the statement storage unit 401 stores the statement as a set of contents and context together with the document ID.
  • FIG. 20 is an explanatory diagram illustrating an example of a statement stored in the statement storage unit 401. As shown in FIG. 20, the statement storage unit 401 stores a statement as a combination of context and content together with a document ID.
  • the conversion phrase storage unit 300, the data storage unit 103, and the typification result storage unit 104 are the same as those in the third embodiment.
  • the calculation unit 42 includes a statement unit extraction unit 402, a statement configuration unit 403, a data generation unit 404, a categorization unit 108, and a detection unit 405.
  • the statement unit extraction unit 402 shapes the reflection source document and the reflection destination document input via the input unit 40, divides and extracts the statement unit, and stores the statement unit in the statement unit storage unit 400 together with the document ID.
  • the statement constructing unit 403 composes a statement based on the statement unit stored in the statement unit storage unit 400, and stores a set of statements in the statement storage unit 401 together with the document ID.
  • the data generation unit 404 generates data from the statement stored in the statement storage unit 401, converts it using the conversion phrase stored in the conversion phrase storage unit 300, and stores the converted data set in the data storage unit 103. To do.
  • the type classification unit 108 is the same as that of the third embodiment.
  • the detection unit 405 calculates the similarity between the categorization results for the categorization result stored in the categorization result storage unit 104, and detects mismatches based on the calculated similarity.
  • the statement unit extraction unit 402 first shapes the reflection source document and the reflection destination document, extracts statement units, and stores them in the statement unit storage unit 400 (step A50).
  • the method of shaping the reflection source document and the reflection destination document is the same as in the first embodiment, for example.
  • the statement composition unit 403 classifies the statement unit into context and content (step A51).
  • the statement composition unit 403 composes a statement with a combination of context and content, and stores it in the statement storage unit 401 (step A52).
  • the statement is composed only when the context and contents belong to the same document.
  • the request of FIG. 20 is configured with respect to FIG.
  • the data generation unit 404 generates data from the statement stored in the statement storage unit 401, converts the data based on the conversion phrase stored in the conversion phrase storage unit 300, and the data storage unit 103 as a data set.
  • a conversion phrase for associating the reflection source document with the reflection destination document may be stored.
  • FIG. 22 is an explanatory diagram illustrating an example of the conversion phrase stored in the conversion phrase storage unit 300.
  • FIG. 23 is an explanatory diagram illustrating an example of a data set stored in the data storage unit 103.
  • the categorization unit 108 categorizes data until the similarity between data becomes less than the first threshold, and stores the categorization result in the categorization result storage unit 104 (step A54).
  • the categorization unit 108 sequentially examines the categorization results stored in the categorization result storage unit 104, and if there is a categorization result that does not include any statement of the reflection destination document, the categorization result storage unit 104 (Step A55).
  • the detection unit 405 initializes the number i indicating the data of the reflection source document to 1 (step A56).
  • the detection unit 405 initializes the number j indicating the typification result to 1 (step A57).
  • the detection unit 405 calculates the similarity between the data i configured from the reflection source document and the classification result j (step A58).
  • the detection unit 405 checks whether or not the calculated similarity is equal to or greater than the second threshold (step A59).
  • the second threshold value may be designated by the user of the system through the input unit 40 such as a keyboard, or may be stored in the system as a default, or other modes. May be specified. If it is equal to or greater than the second threshold value, the process proceeds to step A63, and if it is less than the second threshold value, the process proceeds to step A60.
  • the detection unit 405 increments j.
  • the detection unit 405 compares the number j with the number N of categorization results (step A61). If j is less than or equal to N, the process returns to step A58.
  • step A62 the detection unit 405 detects that there is a mismatch.
  • the result output method may be immediately output via the output unit 43 such as a display device or a printing device, or may be stored and output according to a request from a user of the system, You may output in other modes. Here, data i indicating omission of reflection may be output simultaneously.
  • Step A63 the detection unit 405 detects that there is no mismatch.
  • the result output method may be immediately output via the output unit 43 such as a display device or a printing device, or may be stored and output according to a request from a user of the system, You may output in other modes. It may be specified that no mismatch is output.
  • the detection unit 405 increments i after step A62 (step A64). Next, the detection unit 405 compares the number i with the number of data M of the reflection source document (step A65). If i is less than or equal to M, the process returns to step A57, and if i is greater than M, the process ends.
  • a statement correspondence between two documents that are a reflection source document and a reflection destination document such as a proposal for a proposal request or a specification for a proposal.
  • a statement unit extractor that divides a given document written in natural language and extracts a set of statement units, and a statement unit is classified into a context that indicates additional information of the statement and a content that indicates information of the statement itself.
  • a data generation unit that generates a data set that combines a statement composition unit that constitutes each statement as a set of context and content, and a set of predetermined examination contents and a set of statements generated by the statement composition unit Then, by repeating the conversion of the two most similar data into a new data generated by concatenating the two data, a new data set is generated, and the generated new data set is generated.
  • Each type of inspection item is generated by a combination of a classification unit that extracts only data including the statement generated by the statement composition unit from the data set and generates a typed result set, and a predetermined inspection target and inspection content And Mismatch detection system comprising a detection unit for detecting a mismatch assertions based on the similarity between the test item and Classification results form.
  • the statement component categorizes each statement unit as content if a verb is included, and classifies it as a context if no verb is included, and separates the content from the immediately preceding context with a predetermined delimiter.
  • the categorization unit calculates the similarity between the data based on an approximate calculation method of Kolmogorov complexity, and the two most similar until the similarity between all the two data becomes smaller than a predetermined first threshold value.
  • the inconsistency detection system according to Supplementary Note 1 or Supplementary Note 2, wherein two pieces of data are concatenated and converted into new single data.
  • the detection unit creates one inspection item for each of a plurality of predetermined inspection contents that need to describe any one of the inspection contents and an inspection object, The degree of similarity with each categorization result is calculated, and if all of the calculated degrees of similarity are smaller than a predetermined second threshold, it is detected as an inconsistency regarding the integrity of the inspection target.
  • the degree of similarity with each categorization result is calculated, and if all of the calculated degrees of similarity are smaller than a predetermined second threshold, it is detected as an inconsistency regarding the integrity of the inspection target.
  • the detection unit generates a single inspection item with a set of one of the inspection contents and an inspection target for a plurality of predetermined inspection contents so as to be contradictory if a plurality are described, and each inspection item and If there is a case where the degree of similarity with the result of categorization is greater than or equal to a predetermined second threshold, it is determined that there is a categorization result corresponding to the inspection item, and the corresponding categorization among all inspection items
  • the inconsistency detection system according to any one of appendix 1 to appendix 3, wherein if the number of results is two or more, it is detected as an inconsistency related to consistency of an inspection target.
  • the detection unit generates one inspection item that is a set of one of the inspection contents and an inspection object for one or more inspection contents predetermined as an example of an ambiguous statement.
  • the inconsistency detection according to any one of appendix 1 to appendix 3, wherein if the degree of similarity with any one is equal to or greater than a second threshold, it is detected as an inconsistency related to the unambiguousness of the inspection item. system.
  • the statement unit extraction unit extracts a set of statement units for two documents, a given reflection source document and a reflection destination document, and the data generation unit examines a statement composed of the reflection source document.
  • the inconsistency detection system according to any one of appendix 1 to appendix 3, wherein the inconsistency is detected as an inconsistency between two documents. (Appendix 8)
  • the data generation unit converts the data using a predetermined conversion method after generating the data, and the detection unit converts the inspection item using the same conversion method after generating the inspection item.
  • the inconsistency detection system according to any one of appendix 1 to appendix 7.
  • the statement unit extraction unit divides a document used in system development and service provision such as a request for proposal, a proposal, and a specification document, and extracts a set of semantic units of statements, which is characterized in that the statement unit is extracted.
  • the inconsistency detection system according to any one of the above.
  • Appendix 10 A statement unit extraction step that extracts a set of statement units by dividing a given document written in natural language, and classifies the statement unit into a context that indicates additional information of the statement and a content that indicates information of the statement itself.
  • a data generation step for generating a data set that combines a statement composition step that constitutes each statement as a set of context and content, and a set of predetermined examination contents and a set of statements generated in the statement composition step Then, by repeating the conversion of the two most similar data into a new data generated by concatenating the two data, a new data set is generated, and the generated new data set is generated.
  • each statement unit is classified into contents if a verb is included, and is classified into a context if a verb is not included, and the contents and the immediately preceding context are separated by a predetermined delimiter. 11.
  • the inconsistency detection according to appendix 10 wherein the statement is generated by connecting the inspection object and the content of inspection with a predetermined delimiter symbol to generate an inspection item.
  • Method. (Appendix 12)
  • the categorization step calculates similarity between data based on an approximate calculation method of Kolmogorov complexity, and the most similar 2 until the similarity between all two data becomes smaller than a predetermined first threshold value. 12.
  • the detection step generates one inspection item which is a set of one of the inspection contents and an inspection object for one or more inspection contents predetermined as an example of an ambiguous statement. Inconsistency detection according to any one of appendix 10 to appendix 12, wherein if the degree of similarity with any one is equal to or greater than a second threshold, it is detected as an inconsistency related to the ambiguity of the inspection item. Method. (Appendix 16)
  • the statement unit extraction step extracts a set of statement units for two documents, a given reflection source document and a reflection destination document, and the data generation step checks the statement composed of the reflection source document with the contents of the examination.
  • the data set merged with the statement composed of the reflection destination document is created, and the categorization step extracts only the data including the statement composed of the reflection destination document from the new data set generated from the generated data set. Then, the categorization result set is generated, and the detection step is performed for each inspection item, which is a statement composed of the reflection source document, when the similarity to each typification result is less than the second threshold value. 13.
  • the inconsistency detection method according to any one of appendix 10 to appendix 12, wherein the inconsistency is detected as an inconsistency between two documents.
  • the statement unit extraction step divides a document used for system development and service provision such as a request for proposal, a proposal, and a specification document, and extracts a set of semantic units of the statement, which is characterized in that the statement is extracted from appendix 10 to appendix 17
  • the mismatch detection method according to any one of the above.
  • a statement unit extraction process that extracts a set of statement units by dividing a given document written in natural language, and a statement unit is classified into a context that indicates additional information of the statement and a content that indicates information of the statement itself.
  • a data generation process for generating a data set that combines a statement composition process that constitutes each statement as a set of context and content, and a set of predetermined examination contents and a set of statements generated by the statement composition process Then, by repeating the conversion of the two most similar data into a new data generated by concatenating the two data, a new data set is generated, and the generated new data set is generated.
  • Each test item is classified into a group consisting of a categorization process for generating only a categorization result set by extracting only data including a statement generated by the statement composition process from the data set, and a predetermined inspection object and inspection content.
  • Mismatch detection program for executing generates a detection process of detecting a mismatch assertions based on the similarity between the generated inspection items and typology result to computer.
  • each statement unit is classified into contents if a verb is included, and is classified into a context if a verb is not included, and the contents and the immediately preceding context are separated by a predetermined delimiter.
  • a statement is generated by linking and generating a statement, and the detection process is described in appendix 19 for causing the computer to generate a test item by linking the inspection object and the content of the inspection with a predetermined delimiter symbol.
  • Inconsistency detection program (Appendix 21) The categorization processing calculates the similarity between data based on an approximate calculation method of Kolmogorov complexity, and the most similar 2 until the similarity between all two data becomes smaller than a predetermined first threshold value.
  • the inconsistency detection program according to appendix 19 or appendix 20, which causes the computer to execute a process of concatenating two pieces of data and converting the data into one piece of new data.
  • the inconsistency detection program according to any one of appendix 19 to appendix 21, which causes the computer to execute detection as an inconsistency related to consistency of an inspection target if the number of results is two or more.
  • the detection process generates one inspection item that is a set of one of the inspection contents and an inspection object for one or more inspection contents that are predetermined as an example of an ambiguous statement, If the degree of similarity is greater than or equal to a second threshold value, any one of appendix 19 to appendix 21 for causing the computer to detect an inconsistency related to the ambiguity of the inspection item Inconsistency detection program.
  • the statement unit extraction process extracts a set of statement units for each of two documents, a given reflection source document and a reflection destination document, and the data generation processing examines a statement composed of the reflection source documents.
  • the inconsistency detection program according to any one of appendix 19 to appendix 21 for causing the computer to detect as an inconsistency between two documents. (Appendix 26) In the data generation process, after the data is generated, the data is converted by a predetermined conversion method, and after the detection process is generated, the inspection item is converted by the same conversion method.
  • the inconsistency detection program according to any one of supplementary notes 19 to 25 for execution.
  • the statement unit extraction process is an additional note for causing the computer to extract a set of semantic units of a statement by dividing a document used for system development or service provision such as a request for proposal, a proposal, or a specification.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Stored Programmes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

 不整合検出システムは、自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、予め定めた検査内容の集合と言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、を含む。類型化部は、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する。不整合検出システムは更に、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部を含む。

Description

[規則37.2に基づきISAが決定した発明の名称] 不整合検出システム、方法、およびプログラム
 本発明は、文書の不整合検出に関し、特に要求の記載された文書から要求の不整合を検出する不整合検出に関する。
 システム開発における要求の抜け漏れは、後工程からの手戻りによる修正コストが大きくなるため、早期に検出する必要性が広く知られている。従来、要求の抜け漏れの検出では、予め用意した検査項目を見ながら、要求の記載された文書に問題がないかを人が目視で検査していた。また、提案依頼書(RFP:Request For Proposal)に対する提案書や、提案書に対する仕様書などのように反映元文書と反映先文書がある場合、反映元文書に記載された個々の事柄に対し反映先文書に該当箇所があるかどうかについても、人が目視で検査していた。しかし、量が多く重複した記載のある文書の検査には、コスト(人件費と時間)がかかり、また、人手では見逃す場合があるという問題があった。
 これに対し、対象をモデル化し形式的検証を行う技術が、特許文献1に開示されており、記述された事柄について問題があるかを検証することができる。しかし、記述や解読にはユーザが時間をかけて学習する必要があり、また、自然言語である文書から形式的な記述への変換が不正確であると的確に検証できないという問題があった。
 形式的検証の支援技術が、特許文献2、特許文献3、特許文献4などに開示されているが、入力が容易になるものの、利用に学習が必要という問題は解決されていない。また、一般の文書においても、文書の矛盾点や曖昧な点や、元文書から別文書を作成したときの元文書の事柄の抜け漏れなどについて、人手でレビューしており、コスト(人件費と時間)がかかり、また、人手では見逃す場合があるという問題は同様であった。
特開2008−310663号公報 特開2009−116648号公報 特開2009−075681号公報 特開平5−119987号公報
 本発明の企図するところは、自然言語で記載された文書に対し、他の形式に変換せずに文書の不整合を検出できるようにすることにある。
 本発明の態様に係る不整合検出システムは、自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、予め定めた検査内容の集合と前記言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化部と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部と、を備えることを特徴とする。
 本発明の別の態様によれば、自然言語で記載された所与の文書を分割して言明単位の集合を抽出し、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成し、予め定めた検査内容の集合と前記言明の構成で生成された言明の集合とを併合したデータ集合を生成し、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明の構成で生成された言明を含むデータのみを抽出して類型化結果集合を生成し、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する、ことを含むことを特徴とする不整合検出方法が提供される。
 本発明の更に別の態様によれば、自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出処理と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成処理と、予め定めた検査内容の集合と前記言明構成処理で生成された言明の集合とを併合したデータ集合を生成するデータ生成処理と、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成処理で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化処理と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出処理と、をコンピュータに実行させるための不整合検出プログラムが提供される。
 本発明によれば、文書を自然言語で記載されたままで入力するため、自然言語を他の形式に変換せずに文書の不整合を検出することができる。
 本発明によればまた、元のデータ集合に対し、類似したデータを連結した新たなデータへと変換して情報の増えたデータで類似度を計算するため、高い精度で不整合を検出することができる。
 図1は、本発明に係る不整合検出システムの第1の実施形態の構成例を示すブロック図である。
 図2は、図1の言明単位記憶部100に記憶された言明単位の例を示す説明図である。
 図3は、図1の言明記憶部101に記憶された言明の例を示す説明図である。
 図4は、図1の検査内容記憶部102に記憶された検査内容の例を示す説明図である。
 図5は、図1のデータ記憶部103に記憶されたデータ集合の例を示す説明図である。
 図6は、図1の類型化結果記憶部104に記憶された類型化結果の例を示す説明図である。
 図7は、本発明に係る不整合検出システムの第1の実施形態の処理経過の例を示すフローチャートである。
 図8は、図1の言明単位抽出部105において、行の最大文字数を計算する場合の例を示す説明図である。
 図9は、図1の言明単位記憶部100に記憶される別の言明単位の例を示す説明図である。
 図10は、本発明に係る不整合検出システムの第1の実施形態の1つの検査対象の完全性iに対する検出部109の処理経過の例を示すフローチャートである。
 図11は、本発明に係る不整合検出システムの第2の実施形態の構成例を示すブロック図である。
 図12は、本発明に係る不整合検出システムの第2の実施形態の1つの検査対象の無矛盾性iに対する検出部200の処理経過の例を示すフローチャートである。
 図13は、本発明に係る不整合検出システムの第3の実施形態の構成例を示すブロック図である。
 図14は、図13の変換語句記憶部300に記憶された変換語句の例を示す説明図である。
 図15は、本発明に係る不整合検出システムの第3の実施形態のデータ生成部301の処理経過の例を示すフローチャートである。
 図16は、本発明に係る不整合検出システムの第3の実施形態の1つの検査対象の非曖昧性iに対する検出部302の処理経過の例を示すフローチャートである。
 図17は、図13の検査内容記憶部102に記憶された検査内容の例を示す説明図である。
 図18は、本発明に係る不整合検出システムの第4の実施形態の構成例を示すブロック図である。
 図19は、図18の言明単位記憶部400に記憶される言明単位の例を示す説明図である。
 図20は、図18の言明記憶部401に記憶された言明の例を示す説明図である。
 図21は、本発明に係る不整合検出システムの第4の実施形態の処理経過の例を示すフローチャートである。
 図22は、図18の変換語句記憶部300に記憶された変換語句の例を示す説明図である。
 図23は、図18のデータ記憶部103に記憶されたデータ集合の例を示す説明図である。
 以下に、本発明を不整合検出システムに適用したいくつかの実施形態について説明するが、不整合検出システムは不整合検出装置として解釈されてもよい。
(第1の実施形態)
 本発明による不整合検出システムの第1の実施形態について図面を参照して詳細に説明する。第1の実施形態に係る不整合検出システムは、予め定めた検査内容に対し、入力された文書が完全性を満たさなければ、不整合として検出する。ここで、入力した文書は、提案依頼書や提案書または仕様書とする場合を例として説明する。
 提案依頼書(RFP:Request For Proposal)は、発注元である官公庁や企業が情報システムやITサービスなどを調達する際に、発注先となるITベンダに対して提案を要請するための文書である。提案依頼書は、調達依頼書、入札依頼書、提案要請書、提案要求書、提案要望書、提案募集書、見積依頼書、提案書提出要請書などとも呼ばれる。提案依頼書には、例えば、概要と目的、必要な機能、サービスレベル、契約条件などの具体的な要求事項が記載される。
 提案書(Proposal)とは、ITベンダが具体的な提案事項を記載した文書である。提案書は、企画書、企画提案書などとも呼ばれる。提案書には、例えば、目的やねらい、機能やサービスレベルの実現手段、開発体制などの具体的な提案事項が記載される。
 仕様書は、システムやサービスが満たすべき事項である要件事項を記載した文書である。仕様書は、要求仕様書、要求定義書、要件定義書、機能仕様書、設計書などとも呼ばれる。仕様書には、発注元と発注先との間で取り決められた要件事項が整理されて記載される。
 図1を参照すると、第1の実施形態に係る不整合検出システムは、キーボードなどの入力部10と、情報を記憶する記憶部11と、プログラム制御により動作する計算部12と、ディスプレイ装置や印刷装置などの出力部13とから構成されている。
 記憶部11は、言明単位記憶部100と、言明記憶部101と、検査内容記憶部102と、データ記憶部103と、類型化結果記憶部104とを備える。
 言明単位記憶部100は、言明単位を記憶する。ここで、言明単位とは、言明の意味を示す表現の単位であり、文、箇条書き、表題、図の一部である。言語単位は、例えば、具体的には、「・・・入力される。」のような文や、「・・・入力されること」のような箇条書きや、「1.はじめに」のような章の表題や、「図1 実施形態1のブロック図」のような図や表の表題や、「入力部10」、「変換語句記憶部」のような図の一部である。
 図2は、言明単位記憶部100に記憶された言明単位の例を示す説明図である。図2に示すように、言明単位は、言明単位の番号を示す言明単位IDと共に記憶される。
 言明記憶部101は、言明を内容と文脈との組として記憶する。文脈とは、例えば、章や節などの表題や、図や表のタイトルなどとする。言明とは、1つの完結した意味を示す表現である。言明は、提案依頼書ではそれぞれの要求事項、提案書ではそれぞれの提案事項、仕様書ではそれぞれの要件事項のことを指す。
 図3は、言明記憶部101に記憶された言明の例を示す説明図である。図3に示すように、言明は、文脈と内容との組として記憶する。ここで、図3は、図2から構成した言明の例である。後述するように、該当する内容のない文脈は削除されるため、図1の“サーバ要件”は削除されている。
 検査内容記憶部102は、予め定めた検査内容を記憶する。
 図4は、検査内容記憶部102に記憶された検査内容の例を示す説明図である。図4は、サーバ要件の例であり、検査IDと検査内容と検査方法の組として記憶する。なお、検査内容は、文章でもキーワードの羅列でもよい。また、ここでは、検査方法の例として、完全性、無矛盾性、非曖昧性の場合を示したが、それ以外の方法を設定してもよい。
 データ記憶部103は、検査内容記憶部102に記憶された検査内容の集合と言明記憶部101に記憶された言明の集合とを併合したデータ集合を記憶する。
 図5は、データ記憶部103に記憶されたデータ集合の例を示す説明図である。図5に示すように、データは、例えば、データの番号を示すデータIDとデータの内容と文書の番号を示す文書IDとして記憶する。文書IDは、データが検査内容の場合は1、言明の場合は2などとする。
 類型化結果記憶部104は、データを類型化した結果を記憶する。
 図6は、類型化結果記憶部104に記憶された類型化結果の例を示す説明図である。図6に示すように、類型化結果は、例えば、類型化結果の番号を示すIDと、類型化結果と、文書IDとして記憶する。図5を類型化した結果、データ2とデータ8が類似のため同じデータに変換された場合、データ1以外が言明を含むとして抽出され、図6のような類型化結果を記憶する。
 計算部12は、言明単位抽出部105と、言明構成部106と、データ生成部107と、類型化部108と、検出部109とを備える。
 言明単位抽出部105は、入力部10を介して入力された文書を整形し、分割して言明単位を抽出し、言明単位記憶部100に記憶する。
 言明構成部106は、言明単位を言明の内容と文脈とに分類し、内容とその直前の文脈との組として言明を構成し、言明記憶部101に記憶する。
 データ生成部107は、言明記憶部101に記憶された言明と検査内容記憶部102に記憶された検査内容とを併合したデータ集合を生成し、データ記憶部103に記憶する。
 類型化部108は、データ記憶部103に記憶されたデータ間の類似度が予め定めた第一の閾値より小さくなるまで2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から言明構成部106で生成された言明を含むデータのみを抽出して類型化結果集合を生成し、生成した類型化結果集合を類型化結果記憶部104に記憶する。
 検出部109は、予め定めた検査対象と検査内容記憶部102に記憶された完全性を示す検査内容との組に対し、類型化結果記憶部104に記憶された類型化結果との類似度を計算し、計算した類似度に基づいて不整合を検出し、出力部13に検出結果を出力する。
 次に、図1に加えて、図7のフローチャートを参照して第1の実施形態の全体の動作について詳細に説明する。
 入力部10を介して、提案依頼書(RFP)、提案書、仕様書などの文書がテキスト形式で入力されると、言明単位抽出部105は、まず、文書中の不要な定型行を除く(ステップA1)。ここで、不要な定型行とは、例えば、空行やページを示す行である。ページを示す行は、例えば、数字のみの行や、−数字−という形式である。あるいは、文書の全てのページに記載された文字列、例えば、“Copyright ...,All rights reserved.”や企業名、日付などがあれば、削除する。これらの削除すべき文字列は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。
 言明単位抽出部105は、次に、行の最大文字数を計算する(ステップA2)。ここで、日本語には半角と全角の区別があり、全角文字の多い一般の行の最大文字数を計算するため、その文字数の行の数が文書の一定の割合以上の数があるものとする。一定の割合とは、例えば全行数の1%などとする。
 図8は、言明単位抽出部105において、行の最大文字数を計算する場合の例を示す説明図である。ここで、図8は、101行以上ある文書の一部とする。文書が図8のように、文章の形式で各行に改行が入っている場合には、1行目が5文字、2行目から5行目と7行目が25文字、6行目が26文字、8行目が5文字となる。最大文字数は26文字であるが、26文字は1行しかないとすると、1%以上にならないため、言明単位抽出部105は最大文字数が25文字であると計算する。
 言明単位抽出部105は、次に、各行の近傍行の文字数を調べて、不要な改行を削除する(ステップA3)。近傍行とは、例えば5行などである。ある行および近傍行の文字数がほとんど最大文字数であれば、その行の改行を削除する。ほとんどとは、例えば、ある行自身および近傍5行のうちの3行以上が最大文字数±3文字の範囲の文字数の場合である。これらの条件は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。図8では、1行目は5文字であり、自分自身が最大文字数±3文字の範囲でないので、1行目の改行は削除されない。2行目は25文字であり、3行目から5行目は、25文字あるいは26文字で、最大文字数±3文字の範囲内なので、2行目の改行は削除される。3行目も、自分自身および2行目、4行目から6行目が最大文字数±3文字の範囲内なので、3行目の改行は削除される。同様に、4行目、5行目、6行目の改行も削除される。7行目は、1行目と同様に文字数が少ないので、改行が削除されない。なお、文書中に表がある場合には、全文書の行の最大文字数の代わりに、近傍行の最大文字数を用いて、同様な方法で不要な改行を削除してもよい。
 言明単位抽出部105は、次に、各行に対し、前の行末とその行の行頭とを連結することで単語となるかを調べて、単語になるなら不要な改行があったとして、前の行末の改行を削除する(ステップA4)。ここで、単語になるかを調べるには、一般的な形態素解析を行い、一つの単語として分割されるかで判断することができる。形態素解析は、例えば、形態素解析エンジンであるMecabやChasenなどにより行うことができる。形態素解析とは、例えば、“東京都にいる”という入力文に対し、“東京”、“都”、“に”、“いる”、という形態素の出力系列を選ぶことである。ここで、別の出力系列の例は、“東”、“京都”、“に”、“いる”である。形態素解析では、一般的な大量の文書を用意し、それらの文書から、それぞれの名詞や動詞などの形態素の出現しやすさや連結しやすさのスコアを求めておき、ある入力文に対しては、最もスコアの高い分割を選択すればよい。例えば、一般的な大量の文書では、“東”と“京都”とが連結する場合より、“東京”と“都”とが連結する場合が多い。そのため、“東京”と“都”との連結しやすさのスコアの方が“東”と“京都”との連結しやすさのスコアより高くなり、入力文“東京都にいる”に対して、“東京”、“都”、“に”、“いる”という形態素へ分割する出力系列を得ることができる。ここでは、前の行末と行頭とを連結してから形態素解析を行い、前の行末と行頭とで1つの単語となるなら、前の行の改行を削除する。例えば、図8の4行目の例では、ステップA3で3行目の改行は削除されているが、仮に3行目の改行が削除されていなかったとすると、前の行末と行頭とを連結すると、“…計算サーバでは、…”となり、形態素解析を行うと、名詞“サーバ”となり、前の行末とその行の行頭とで1つの単語になるので、前の行である3行目の改行は削除される。同様に、仮に7行目の改行が削除されていなかったとすると、8行目に対し、前の行末とその行の行頭との連結で、“…運用管理を…”となり、形態素解析を行うと、名詞“管理”に分割されるので、7行目の改行は削除される。
 言明単位抽出部105は、次に、文書の句点の後に改行を挿入する(ステップA5)。句点は、“。”や“.”である。
 言明単位抽出部105は、次に、文書を行単位に分割し、各行を言明単位として言明単位記憶部100に記憶する(ステップA6)。
 図9は、言明単位記憶部100に記憶される別の言明単位の例を示す説明図である。ここで、図9は、図8で示す文書から抽出した言明単位である。図8の文書は、ステップA3で不要な改行が削除され、一行目が“サーバ要件”、二行目がそれ以外となる。次に、ステップA4では改行は削除されず、ステップA5で句点の後に改行を挿入されて8行となり、ステップA6により、図9の言明単位となる。なお、分析精度を向上するため、言明単位記憶部100に記憶された言明単位を出力部13に出力して、システムのユーザが言明単位への分割結果を確認して誤りがあれば修正してもよい。
 次に、言明構成部106は、言明単位を文脈と内容とに分類する(ステップA7)。ここで、文脈は、例えば、章や節や段落、図や表などの表題とする。言明構成部106は、章や節、図や表などの表題は、言明単位中の動詞の有無で判定する。言明構成部106は、例えば、要求単位が図2の場合、言明単位IDが1の言明単位(言明単位1とする)は動詞がないので文脈、言明単位2も動詞がないので文脈、言明単位3は動詞があるので内容と分類する。言明構成部106は、同様に、言明単位4、7、10は文脈、言明単位5、6、8、9、11、12は内容と分類する。言明構成部106は、図9の場合、言明単位1は動詞がないので文脈、それ以外は動詞があるので内容と分類する。
 文脈と内容に分類する別の方法としては、予め定めた文字数より短い言明単位を文脈、予め定めた文字数以上の言明単位を内容としてもよい。または、例えば、言明単位の行頭が数字、あるいは“第”と数字、あるいは、“(“と数字と”)”ならば、数字を章や節、段落の番号と仮定し、それ以前の章や節、段落の番号の連番ならば、章や節である文脈だと分類してもよい。図や表についても、言明単位の行頭が“図”や“表”で次が数字やAなどのアルファベットならば、数字を図や表の番号と仮定し、それ以前の図や表の番号の連番ならば、図や表の表題である文脈だと分類してもよい。
 言明構成部106は、次に、内容に対し、最も近い前の文脈との組として言明を構成し、言明記憶部101に記憶する(ステップA8)。言明単位が図2の場合の言明は、図3のようになる。ここで、文脈が連続することで、前の文脈に対する内容がない場合は、言明構成部106は、その言明を削除する。例えば、言明1は削除する。なお、内容に対し、それ以前の内容が存在するまでの文脈全てを組として言明を構成してもよい。例えば、図2の場合、最初の言明を文脈である“サーバ要件”と“(1)認証サーバ”、内容である“認証を行う。”という組としてもよい。
 次に、データ生成部107は、言明記憶部101に記憶された言明と検査内容記憶部102に記憶された検査内容とからデータを生成し、データ記憶部103に記憶する(ステップA9)。言明のデータは、言明の文脈と内容を予め定めた区切り記号を用いて連結した文字列とする。ここで、区切り記号は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、言明が図3で区切り記号が“:”と指定された場合、言明1のデータは、“(1)認証サーバ:認証を行う。”、言明2のデータは、“(2)計算サーバ:サーバは2台で負荷分散構成とし、ラウンドロビン方式を用いる。”となる。なお、区切り記号は、“空”としてもよい。検査内容のデータは、検査内容とする。例えば、検査内容が図4の場合、検査内容1のデータは、“サーバは、負荷分散で、アクティブ・スタンバイ”、検査内容2のデータは、“サーバはシングル”となる。なお、言明を内容とそれ以前の内容までの文脈全てとの組とする場合は、図2の場合、最初のデータは、“サーバ要件:(1)認証サーバ:認証を行う。”としてもよい。
 次に、類型化部108は、データ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して、新たなデータ集合を生成し、データ記憶部103に記憶された言明を含むデータのみを抽出し、それらを類型化結果の集合として類型化結果記憶部104に記憶する(ステップA10)。データへの変換は、全てのデータ間の類似度が予め定めた第一の閾値より大きくなるまで行う。第一の閾値は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、図5のデータ2とデータ8、データ4とデータ6が類型化されたとすると、図6のような類型化結果となる。ここで、類型化のための類似度の計算方法は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。例えば、類似度は、形態素解析によりテキストから単語を抽出し、単語の出現頻度に基づいて計算することができる。しかし、“高速”と“迅速”という単語は同一とみなされないため、同一とみなすには同義語変換を行う必要がある。また、類似度は、コルモゴロフ複雑性の近似計算法を用いて計算することができる。
 例えば、対象を圧縮するアルゴリズムを予め定めると、対象iと対象jとの間の類似度s(i,j)は、対象iを圧縮した場合のサイズをC(i)、対象jを圧縮した場合のサイズをC(j)、対象iとjとを連結させた新たな対象を圧縮した場合のサイズをC(ij)とすると、例えば、d(i,j)=1−C(ij)/{C(i)+C(j)}あるいはd(i,j)=1−[C(ij)−min{C(i),C(j)}]/max{C(i),C(j)}に示す数式によって計算することができる。指定される圧縮アルゴリズムは、例えば、gip、zgipなどである。圧縮アルゴリズムでは、例えば、文字列に対し、文字である記号あるいは以前の部分文字列との(一致長、一致位置)のペアで符号化する。符号化では、例えば、文字列に出現する記号の個数を求め、個数の多い希望ほど短い符号を割り当てる。したがって、コルモゴロフ複雑性の近似計算法を用いると、“高速に動作”と“迅速に動作”という文は、“速に動作”に短い符号を割り当てることとなり、高い類似度として計算することができる。
 類型化部108は、次に、類型化結果記憶部104に記憶された類型化結果を順に調べて、言明記憶部101に記憶された言明のいずれも含まれない類型化結果があれば、類型化結果記憶部104から削除する(ステップA11)。
 次に、検出部109は、完全性に関する言明の不整合を検出する(ステップA12)。詳細な処理は、後述する。それから、検出部109は、システムの動作を終了する。
 次に、図1に加えて、図10のフローチャートを参照して第1の実施形態の1つの検査対象の完全性iに対する検出部109の動作について詳細に説明する。
 検出部109は、まず、検査内容を示す番号であるmを1に初期化する(ステップA13)。
 検出部109は、次に、検査内容記憶部102を参照して、検査内容mの完全性がiかどうかを調べる(ステップA14)。完全性がiならばステップA15に移行し、完全性がiでないならばステップA21に移行する。例えば、iが1、mが1のとき、図4の検査IDが1である検査内容の完全性を調べると1となるので、ステップA15に移行する。
 検出部109は、検査対象と検査内容mとから検査事項を生成する(ステップA15)。検査事項は、検査対象と検査内容とを、予め定めた区切り記号を用いて連結させた文字列とする。検査対象は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。ここで、デフォルトとは、文脈から自動的に生成することである。例えば、iが1、mが1のとき、検査対象として“認証サーバ”が指定され、区切り記号が“:”と定められていた場合、検査対象と検査内容の組である検査事項は、“認証サーバ:サーバは、負荷分散で、アクティブ・スタンバイ”となる。
 検出部109は、次に、類型化結果を示す番号であるnを1に初期化する(ステップA16)。
 次に、検出部109は、検査事項と類型化結果nとの類似度を計算する(ステップA17)。
 次に、検出部109は、類似度と予め定めた第二の閾値とを比較する(ステップA18)。第二の閾値は、システムのユーザがキーボードなどの入力部10を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。このように、類型化結果との類似度を計算するのは、言明は、一文程度と短く情報が少ないため、単に検査事項と言明との間の類似度を計算しても分析精度が低いが、類型化部108の処理により分析精度を向上させることができるためである。
 例えば、検査対象を“処理サーバ”とする。人間は、図5のデータ4から計算サーバが負荷分散であり、その方式がラウンドロビン方式であるため、図5のデータ6から、ラウンドロビン方式の処理サーバも負荷分散だと推定することができる。しかし、類型化前の図5のデータ6だけでは、シングルとも負荷分散とも異なるので、負荷分散だと推定できない。一方、類型化後の図6では、類型化結果4が負荷分散を示す検査1との類似度が高くなり、処理サーバを負荷分散だと推定可能となる。類似度が第二の閾値以上ならば、ステップA24に移行し、第二の閾値未満ならば、ステップA19に移行する。
 ステップA19では、検出部109は、nをインクリメントする。
 検出部109は、次に、nと類型化結果数Nとを比較する(ステップA20)。nがN以下ならば、ステップA17に移行し、nがNより大きいならば、ステップA21に移行する。
 ステップA21では、検出部109は、mをインクリメントする。
 検出部109は、mと検査内容数Mとを比較する(ステップA22)。mがM以下ならば、ステップA14に移行し、mがMより大きいならば、ステップA23に移行する。
 検出部109は、mがMより大きいならば、不整合ありと検出する(ステップA23)。例えば、検査対象として、“認証サーバ”が指定された場合、データは、“認証サーバ:サーバは、負荷分散で、アクティブ・スタンバイ”と“認証サーバ:サーバはシングル”となるが、どちらも図6のような類型化結果のいずれとも類似していない。これは、認証サーバについて検査内容に関する記載が不足しているためであり、検出部109は、不整合ありと検出することができる。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部13を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。それから、検出部109は動作を終了する。
 ステップA18で類似度が第二の閾値以上で移行してきたならば、検出部109は、不整合なしと検出する(ステップA24)。例えば、検査対象として、“計算サーバ”が指定した場合、“計算サーバ:サーバは、負荷分散で、アクティブ・スタンバイ”に対して、図6のそれぞれの類型化結果との類似度を計算すると、類型化結果3の“2)計算サーバ:サーバは2台で負荷分散構成とし、ラウンドロビン方式を用いる。(3)処理サーバ:計算サーバと同様にラウンドロビン方式とする。”との類似度が高いので、不整合なしと検出することができる。また、検査対象として、“運用管理サーバ”を指定した場合、データの“運用管理サーバ:サーバはシングル”と類型化結果1の“サーバはシングル(3)運用管理サーバ:シングル構成とする。”との類似度が高いので、不整合なしと検出することができる。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部13を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、不整合なしは出力しないと指定してもよい。それから、検出部109は動作を終了する。検出部109のこれらの処理は、全ての完全性i、および、完全性iに適した全ての検査対象に対して実行することができる。
(第1の実施形態の効果)
 第1の実施形態によれば、自然言語で記載された文書を入力すると、言明単位抽出部および言明構成部で自動的に言明を構成して言明の不整合を検出するという構成のため、文書を他の形式に手動で変換せずに言明の不整合を検出することができるという効果がある。
 また、言明は、一文程度と短く情報が少ないため、単に類似度を計算しても分析精度が低いが、第1の実施形態では、類型化により言明や検査内容を連結した文章との類似度を計算するため、高い精度で分析することができる。
 なお、例では、検査内容1に、“ラウンドロビン方式”を追加すれば、負荷分散だと推定可能だが、一般に、文書には業務知識や特殊用語があり、全ての関連語句を事前に指定できない。しかし、第1の実施形態では、全ての関連語句を事前に指定しなくても類型化を用いることで、高い精度で分析することができるという効果がある。
 第1の実施形態は、完全性に関する不整合検出であり、ある検査対象に対して、いずれかを記載すれば完全性を満たすような検査内容との連結である検査事項を作成し、いずれかの検査事項に該当する言明が文書中にあれば不整合なし、なければ不整合ありと検出することができるという効果がある。
(第2の実施形態)
 次に、本発明による不整合検出システムの第2の実施形態について図面を参照して詳細に説明する。第2の実施形態に係る不整合検出システムは、予め定めた検査内容に対し、入力された文書に矛盾があるならば、不整合として検出する。ここで、入力した文書は、提案依頼書や提案書または仕様書とする場合を例として説明する。なお、第1の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
 図11を参照すると、第2の実施形態に係る不整合検出システムは、キーボードなどの入力部20と、情報を記憶する記憶部21と、プログラム制御により動作する計算部22と、ディスプレイ装置や印刷装置などの出力部23とから構成されている。
 記憶部21は、言明単位記憶部100と、言明記憶部101と、検査内容記憶部102と、データ記憶部103と、類型化結果記憶部104とを備える。
 言明単位記憶部100、言明記憶部101、検査内容記憶部102、データ記憶部103、類型化結果記憶部104は、第1の実施形態と同様である。
 計算部22は、言明単位抽出部105と、言明構成部106と、データ生成部107と、類型化部108と、検出部200とを備える。
 言明単位抽出部105、言明構成部106、データ生成部107、類型化部108は、第1の実施形態と同様である。
 検出部200は、予め定めた検査対象と検査内容記憶部102に記憶された無矛盾性を示す検査内容との組に対し、類型化結果記憶部104に記憶された類型化結果との類似度を計算し、計算した類似度に基づいて不整合を検出し、出力部23に検出結果を出力する。
 次に、図11に加えて、図12のフローチャートを参照して第2の実施形態の1つの検査対象の無矛盾性iに対する検出部200の動作について詳細に説明する。
 検出部200は、まず、無矛盾性の該当数を示す番号であるNmatchを0に初期化する(ステップA25)。
 検出部200は、次に、検査内容を示す番号であるmを1に初期化する(ステップA26)。
 次に、検出部200は、検査内容記憶部102を参照して、検査内容mの無矛盾性がiかどうかを調べる(ステップA27)。無矛盾性がiならばステップA28に移行し、無矛盾性がiでないならばステップA36に移行する。
 検出部200は、無矛盾性がiならば、検査対象と検査内容mとから検査事項を生成する(ステップA28)。
 検出部200は、次に、類型化結果を示す番号であるnを1に初期化する(ステップA29)。
 次に、検出部200は、検査事項と類型化結果nとの類似度を計算する(ステップA30)。
 次に、検出部200は、類似度と予め定めた第二の閾値とを比較する(ステップA31)。第二の閾値は、システムのユーザがキーボードなどの入力部20を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。類似度が第二の閾値以上ならばステップA34に移行し、第二の閾値未満ならばステップA32に移行する。
 ステップA32では、検出部200は、nをインクリメントする。
 検出部200は、次に、nと類型化結果数Nとを比較する(ステップA33)。nがN以下ならば、ステップA30に戻り、nがNより大きいならば、ステップA36に移行する。
 検出部200は、ステップA31で類似度が第二の閾値以上ならば、Nmatchをインクリメントする(ステップA34)。
 検出部200は、次に、該当数Nmatchが2以上であるかを調べる(ステップA35)。2以上ならステップA38に移行し、2未満ならステップA36に移行する。
 ステップA36では、検出部200は、mをインクリメントする。
 次に、検出部200は、mと検査内容数Mとを比較する(ステップA37)。mがM以下ならばステップA27に戻り、mがMより大きいならばステップA39に移行する。
 ステップA38では、検出部200は、不整合ありと検出する。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部23を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、矛盾した部分を示すため、該当する検査内容mと類型化結果nとを記憶しておき、全ての該当する検査内容と類型化結果を同時に出力してもよい。
 ステップA39では、検出部200は、不整合なしと検出する。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部23を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、不整合なしは出力しないと指定してもよい。それから、無矛盾性iとある検査対象に対する検出部200の動作を終了する。検出部200のこれらの処理は、全ての無矛盾性i、および、無矛盾性iに適した全ての検査対象について実行することができる。
(第2の実施形態の効果)
 第2の実施形態によれば、第1の実施形態と同様に、文書を他の形式に手動で変換せずに言明の不整合を高い精度で検出することができるという効果がある。第2の実施形態は、無矛盾性に関する不整合検出であり、複数が記載されれば矛盾するような検査内容について矛盾を検出することができるという効果がある。
(第3の実施形態)
 次に、本発明による不整合検出システムの第3の実施形態について図面を参照して詳細に説明する。第3の実施形態に係る不整合検出システムは、予め定めた検査内容に対し、入力された文書に曖昧な部分があるならば、不整合として検出する。ここで、入力した文書は、提案依頼書や提案書または仕様書とする場合を例として説明する。なお、第1(第2)の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
 図13を参照すると、第3の実施形態に係る不整合検出システムは、キーボードなどの入力部30と、情報を記憶する記憶部31と、プログラム制御により動作する計算部32と、ディスプレイ装置や印刷装置などの出力部33とから構成されている。
 記憶部31は、言明単位記憶部100と、言明記憶部101と、検査内容記憶部102と、変換語句記憶部300と、データ記憶部103と、類型化結果記憶部104とを備える。
 言明単位記憶部100、言明記憶部101、検査内容記憶部102、データ記憶部103、類型化結果記憶部104は、第1(第2)の実施形態と同様である。
 変換語句記憶部300は、同義語句や不要語句などの変換語句を記憶する。
 図14は、変換語句記憶部300に記憶された変換語句の例を示す説明図である。図14で、1列目が語句の代表語句となる変化後の語句、2列目以降が変換前の語句である。
 計算部32は、言明単位抽出部105と、言明構成部106と、データ生成部301と、類型化部108と、検出部302とを備える。
 言明単位抽出部105、言明構成部106は、類型化部108は、第1(第2)の実施形態と同様である。
 データ生成部301は、言明記憶部101に記憶された言明と検査内容記憶部102に記憶された検査内容とを併合したデータ集合を生成し、変換語句記憶部300に記憶された同義語句や不要語句に基づいてデータ集合のそれぞれのデータを変換し、変換したデータ集合をデータ記憶部103に記憶する。
 検出部302は、予め定めた検査対象と検査内容記憶部102に記憶された曖昧性を示す検査内容との組に対し、類型化結果記憶部104に記憶された類型化結果との類似度を計算し、計算した類似度に基づいて不整合を検出し、出力部33に検出結果を出力する。
 次に、図13に加えて、図15のフローチャートを参照して第3の実施形態のデータ生成部301の動作について詳細に説明する。
 データ生成部301は、まず、言明記憶部101に記憶された言明と検査内容記憶部102に記憶された検査内容とを用いてデータを生成する(ステップA40)。
 データ生成部301は、次に、生成したデータに対し変換語句記憶部300を検索し、一致する変換前語句があれば変換後語句へ変換し、変換したデータ集合をデータ記憶部103に記憶する(ステップA41)。
 例えば、図14の場合、データ中の“可用性”はそのままで変換されず、“アベイラビリティ”は“可用性”に変換する。データ中の“フォールトトレランス”や“故障許容性”は“耐障害性”に変換する。また、データ中の“とにかく”という単語は削除される。このように、不要語の代表語を空とすることで、同義語の統一と同様の動作で、不要語の削除を行うことができる。変換語句は、一般的な同義語辞書を用いて容易に作成することができ、また、業務用語辞書が用意できるならば、業務用変換語句を追加することができる。なお、コルモゴロフ複雑性の近似計算法を用いる場合、です−ます調と、だ−である調とは類似度が低くなるため、です−ます調を、である調に統一するような変換語句を追加してもよい。
 次に、図13に加えて、図16のフローチャートを参照して第3の実施形態の1つの検査対象の非曖昧性iに対する検出部302の動作について詳細に説明する。
 検出部302は、まず、非曖昧性がiとなる検査内容を選択し、検査対象と検査内容とで検査事項を生成する(ステップA42)。
 図17は、検査内容記憶部102に記憶された検査内容の例を示す説明図である。図17に示すように、1つの非曖昧性は1つの検査内容に対応している。ステップA42の検査事項生成では、例えば、検査対象を任意の対象を示す空列“ ”、区切り記号を空列“ ”で、非曖昧性1に対して検出する場合、検査事項は、“将来的に追加される機能にも対応する。”と生成される。
 検出部302は、次に、変換語句記憶部300に記憶された変換語句に基づいて検査事項を変換する(ステップA43)。検出部302は、検査事項に対し、変換語句記憶部300を検索し、一致する変換前語句があれば変換後語句へ変換する。ここで、検査事項に対し、一致する変換前語句がなければ、変換後の検査内容は、変換前の検査事項と同じである。
 検出部302は、次に、nを1に初期化する(ステップA44)。
 次に、検出部302は、検査事項と類型化結果nとの類似度を計算する(ステップA45)。
 次に、検出部302は、類似度と予め定めた第二の閾値とを比較する(ステップA46)。第二の閾値は、システムのユーザがキーボードなどの入力部30を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。類似度が第二の閾値以上ならばステップA47に移行し、第二の閾値未満ならばステップA48に移行する。
 ステップA47では、検出部302は、不整合ありと検出する。検出結果は、すぐにディスプレイ装置や印刷装置などの出力部33を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、曖昧性のある部分を示すため、該当する類型化結果nを同時に出力してもよい。そのとき、入力された文書が、“将来的な追加機能にも対応すること。対応すべき追加機能とは、機能A、機能Bである。”などと曖昧性のある部分の周辺で、曖昧性を低減している可能性があるので、言明記憶部101を参照して、類型化結果nのそれぞれのデータに該当する言明を近傍の言明を含めて出力してもよい。ここで、近傍とは、例えば、言明の前後3行などとする。
 ステップA48では、検出部302は、nをインクリメントする。
 検出部302は、次に、nと類型化結果数Nとを比較する(ステップA49)。nがN以下ならばステップA45に戻り、nがNより大きいならば検出部302の動作を終了する。検出部302のこれらの処理は、全ての非曖昧性i、さまざまな検査対象について実行することができる。
 なお、第3の実施形態では、変換語句記憶部を追加し、変換語句記憶部に記憶された変換語句に基づいてデータ生成部や検出部で語句変換を行ったが、第1の実施形態、第2の実施形態でも同様に、変換語句記憶部を追加し、語句変換を行ってもよい。また、第1~第3の実施形態では、それぞれ、完全性、無矛盾性、非曖昧性を検出したが、それ以外の検査方法を検査内容記憶部に記憶して、検査方法に対応する検出部の動作を設定してもよい。例えば、“365日24時間故障なく動作する”などのリスクの大きい検査内容を予め定めておき、文書に検査内容と類似した部分があるかを検出してもよい。
(第3の実施形態の効果)
 第3の実施形態によれば、第1、第2の実施形態と同様に、文書を他の形式に手動で変換せずに言明の不整合を高い精度で検出することができるという効果がある。
 第3の実施形態は、非曖昧性に関する不整合検出であり、記載すれば曖昧性があるような検査内容を検出することができるという効果がある。また、同義語句を同義語句の代表語句に変換し、不要語句を削除するという構成のため、意味が同じだが文字列の異なる単語があっても言明の不整合を検出することができるという効果がある。
(第4の実施形態)
 次に、本発明による不整合検出システムの第4の実施形態について図面を参照して詳細に説明する。第4の実施形態に係る不整合検出システムは、反映元文書と反映先文書に対応付けできない部分があるならば、不整合として検出する。ここで、入力した文書として、反映元文書が提案依頼書であり反映先文書が提案書の場合、あるいは、反映元文書が提案書であり反映先文書が仕様書の場合を例として説明する。
 反映元文書が提案依頼書の場合、提案依頼書に記載されたそれぞれの要求事項に対し、提案書ではその要求事項に対応する実現手段の提案事項を記載する必要がある。また、反映元文書が提案書の場合、提案書に記載されたそれぞれの提案事項に対し、仕様書ではその提案事項に関する要件事項を記載する必要がある。第4の実施形態では、このような要求事項に対する提案事項や、提案事項に対する要件事項との対応付けにより、不整合を検出する。なお、第3の実施形態と同様の構成要素については、同一の符号を付し、詳細な説明を省略する。
 図18を参照すると、第4の実施形態に係る不整合検出システムは、キーボードなどの入力部40と、情報を記憶する記憶部41と、プログラム制御により動作する計算部42と、ディスプレイ装置や印刷装置などの出力部43とから構成されている。
 記憶部41は、言明単位記憶部400と、言明記憶部401と、変換語句記憶部300と、データ記憶部103と、類型化結果記憶部104とを備える。
 言明単位記憶部400は、提案依頼書に対する提案書または提案書に対する仕様書のように、反映元文書と反映先文書である2つの文書から抽出した言明単位を記憶する。
 図19は、言明単位記憶部400に記憶される言明単位の例を示す説明図である。図19に示すように、言明単位記憶部400は、言明単位の番号を示すIDと言明単位の内容と文書の番号を示す文書IDとを記憶する。ここで、文書IDは、反映元文書を1、反映先文書を2として記憶する。
 言明記憶部401は、言明を内容と文脈との組として、文書IDとともに記憶する。
 図20は、言明記憶部401に記憶された言明の例を示す説明図である。図20に示すように、言明記憶部401は、言明を文脈と内容との組として、文書IDとともに記憶する。
 変換語句記憶部300、データ記憶部103、類型化結果記憶部104は、第3の実施形態と同様である。
 計算部42は、言明単位抽出部402と、言明構成部403と、データ生成部404と、類型化部108と、検出部405とを備える。
 言明単位抽出部402は、入力部40を介して入力された反映元文書と反映先文書とを整形し、分割して言明単位を抽出し、文書IDとともに言明単位記憶部400に記憶する。
 言明構成部403は、言明単位記憶部400に記憶された言明単位に基づいて言明を構成し、文書IDとともに言明記憶部401に言明の集合を記憶する。
 データ生成部404は、言明記憶部401に記憶された言明からデータを生成し、変換語句記憶部300に記憶された変換語句を用いて変換して、変換したデータ集合をデータ記憶部103に記憶する。
 類型化部108は、第3の実施形態と同様である。
 検出部405は、類型化結果記憶部104に記憶された類型化結果に対し、類型化結果同士の類似度を計算し、計算した類似度に基づいて不整合を検出する。
 次に、図18に加えて、図21のフローチャートを参照して第4の実施形態の全体の動作について詳細に説明する。
 言明単位抽出部402は、まず、反映元文書および反映先文書を整形して言明単位を抽出し、言明単位記憶部400に記憶する(ステップA50)。反映元文書および反映先文書の整形方法は、例えば、第1の実施形態などと同様である。
 次に、言明構成部403は、言明単位を文脈と内容とに分類する(ステップA51)。
 言明構成部403は、次に、文脈と内容の組で言明を構成し、言明記憶部401に記憶する(ステップA52)。ここで、文脈と内容とが同じ文書に属する場合に限って言明を構成することとする。例えば、図19に対して、図20の要求を構成する。
 次に、データ生成部404は、言明記憶部401に記憶された言明からデータを生成し、変換語句記憶部300に記憶された変換語句に基づいてデータを変換し、データ集合としてデータ記憶部103に記憶する(ステップA53)。第4の実施形態では、第3の実施形態に追加して、反映元文書と反映先文書との対応付けのための変換語句を記憶してもよい。
 図22は、変換語句記憶部300に記憶された変換語句の例を示す説明図である。図22に示すように、例えば、提案依頼書における“レスポンス低下なく”などの語句は、提案書では“負荷分散”という解決手段の語句に該当すると指定しておくこともできる。また、提案書での定型語句“提案のポイント”などの語句は、不要として予め定めておくことで削除することもできる。
 図23は、データ記憶部103に記憶されたデータ集合の例を示す説明図である。図19の言明単位を図22で変換すると、図23のようになる。
 次に、類型化部108は、データ間類似度が第一の閾値未満になるまでデータを類型化し、類型化結果を類型化結果記憶部104に記憶する(ステップA54)。
 類型化部108は、次に、類型化結果記憶部104に記憶された類型化結果を順に調べて、反映先文書の言明を1つも含まない類型化結果があれば、類型化結果記憶部104から削除する(ステップA55)。
 次に、検出部405は、反映元文書のデータを示す番号iを1に初期化する(ステップA56)。
 検出部405は、次に、類型化結果を示す番号jを1に初期化する(ステップA57)。
 検出部405は、次に、反映元文書から構成したデータiと類型化結果jとの間の類似度を計算する(ステップA58)。
 次に、検出部405は、計算した類似度が第二の閾値以上かどうかを調べる(ステップA59)。ここで、第二の閾値は、システムのユーザがキーボードなどの入力部40を介して入力することで指定してもよいし、システムにデフォルトとして記憶しておいてもよいし、それ以外の様態で指定してもよい。第二の閾値以上ならばステップA63に移行し、第二の閾値未満ならばステップA60に移行する。
 ステップA60では、検出部405は、jをインクリメントする。
 検出部405は、次に、番号jと類型化結果数Nとを比較する(ステップA61)。jがN以下であればステップA58に戻り、Nより大きければステップA62に移行する。
 ステップA62では、検出部405は、不整合ありと検出する。結果の出力方法は、すぐにディスプレイ装置や印刷装置などの出力部43を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。ここで、反映漏れを示すデータiを同時に出力してもよい。
 ステップA63では、検出部405は、不整合なしと検出する。結果の出力方法は、すぐにディスプレイ装置や印刷装置などの出力部43を介して出力してもよいし、記憶しておいてシステムのユーザからのリクエストなどに応じて出力してもよいし、それ以外の様態で出力してもよい。なお、不整合なしは出力しないと指定してもよい。
 検出部405は、ステップA62の後、iをインクリメントする(ステップA64)。
 次に、検出部405は、番号iと反映元文書のデータ数Mとを比較する(ステップA65)。iがM以下であればステップA57に戻り、Mより大きければ処理を終了する。
(第4の実施形態の効果)
 第4の実施形態によれば、提案依頼書に対する提案書、または、提案書に対する仕様書のように、反映元文書と反映先文書である2つの文書間から、言明の対応付けを検出するため、反映元文書の反映先文書への言明の反映漏れを検出できるという効果がある。また、第1、第2、第3の実施形態と同様に、文書を他の形式に手動で変換せずに言明の不整合を高い精度で検出することができるという効果がある。
 以上、本発明を、複数の実施形態を参照して説明したが、本発明は上記実施形態に限定されるものではない。本発明の構成や詳細には、請求項に記載された本発明の精神や範囲内で当業者が理解し得る様々な変更をすることができる。
 また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
 自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、予め定めた検査内容の集合と前記言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化部と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部と、を含むことを特徴とする不整合検出システム。
(付記2)
 前記言明構成部は、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出部は、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを特徴とする付記1に記載の不整合検出システム。
(付記3)
 前記類型化部は、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての2つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した2つのデータを連結して新たな1つのデータへと変換することを特徴とする付記1または付記2に記載の不整合検出システム。
(付記4)
 前記検出部は、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを特徴とする付記1から付記3までのいずれか1つに記載の不整合検出システム。
(付記5)
 前記検出部は、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が2つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを特徴とする付記1から付記3までのいずれか1つに記載の不整合検出システム。
(付記6)
 前記検出部は、曖昧な言明の例として予め定めた1つ以上の検査内容に対し、その検査内容のうちの1つと検査対象との組である1つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを特徴とする付記1から付記3までのいずれか1つに記載の不整合検出システム。
(付記7)
 前記言明単位抽出部は、所与の反映元文書と反映先文書という2つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成部は、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化部は、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出部は、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、2つの文書間の不整合として検出することを特徴とする付記1から付記3までのいずれか1つに記載の不整合検出システム。
(付記8)
 前記データ生成部は、データを生成した後、予め定めた変換方法でデータを変換し、前記検出部は、検査事項を生成した後、同様の変換方法で検査事項を変換することを特徴とする付記1から付記7までのいずれか1つに記載の不整合検出システム。
(付記9)
 前記言明単位抽出部は、提案依頼書や提案書や仕様書などのシステム開発やサービス提供で用いられる文書を分割して言明の意味単位の集合を抽出することを特徴とする付記1から付記8までのいずれか1つに記載に記載の不整合検出システム。
(付記10)
 自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出ステップと、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成ステップと、予め定めた検査内容の集合と前記言明構成ステップで生成された言明の集合とを併合したデータ集合を生成するデータ生成ステップと、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成ステップで生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化ステップと、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出ステップと、を含むことを特徴とする不整合検出方法。
(付記11)
 前記言明構成ステップは、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出ステップは、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを特徴とする付記10に記載の不整合検出方法。
(付記12)
 前記類型化ステップは、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての2つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した2つのデータを連結して新たな1つのデータへと変換することを特徴とする付記10または付記11に記載の不整合検出方法。
(付記13)
 前記検出ステップは、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを特徴とする付記10から付記12までのいずれか1つに記載の不整合検出方法。
(付記14)
 前記検出ステップは、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が2つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを特徴とする付記10から付記12までのいずれか1つに記載の不整合検出方法。
(付記15)
 前記検出ステップは、曖昧な言明の例として予め定めた1つ以上の検査内容に対し、その検査内容のうちの1つと検査対象との組である1つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを特徴とする付記10から付記12までのいずれか1つに記載の不整合検出方法。
(付記16)
 前記言明単位抽出ステップは、所与の反映元文書と反映先文書という2つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成ステップは、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化ステップは、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出ステップは、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、2つの文書間の不整合として検出することを特徴とする付記10から付記12までのいずれか1つに記載の不整合検出方法。
(付記17)
 前記データ生成ステップは、データを生成した後、予め定めた変換方法でデータを変換し、前記検出ステップは、検査事項を生成した後、同様の変換方法で検査事項を変換することを特徴とする付記10から付記16までのいずれか1つに記載の不整合検出方法。
(付記18)
 前記言明単位抽出ステップは、提案依頼書や提案書や仕様書などのシステム開発やサービス提供で用いられる文書を分割して言明の意味単位の集合を抽出することを特徴とする付記10から付記17までのいずれか1つに記載に記載の不整合検出方法。
(付記19)
 自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出処理と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成処理と、予め定めた検査内容の集合と前記言明構成処理で生成された言明の集合とを併合したデータ集合を生成するデータ生成処理と、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成処理で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化処理と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出処理と、をコンピュータに実行させるための不整合検出プログラム。
(付記20)
 前記言明構成処理は、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出処理は、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを前記コンピュータに実行させるための付記19に記載の不整合検出プログラム。
(付記21)
 前記類型化処理は、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての2つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した2つのデータを連結して新たな1つのデータへと変換することを前記コンピュータに実行させるための付記19または付記20に記載の不整合検出プログラム。
(付記22)
 前記検出処理は、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを前記コンピュータに実行させるための付記19から付記21までのいずれか1つに記載の不整合検出プログラム。
(付記23)
 前記検出処理は、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が2つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを前記コンピュータに実行させるための付記19から付記21までのいずれか1つに記載の不整合検出プログラム。
(付記24)
 前記検出処理は、曖昧な言明の例として予め定めた1つ以上の検査内容に対し、その検査内容のうちの1つと検査対象との組である1つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを前記コンピュータに実行させるための付記19から付記21までのいずれか1つに記載の不整合検出プログラム。
(付記25)
 前記言明単位抽出処理は、所与の反映元文書と反映先文書という2つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成処理は、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化処理は、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出処理は、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、2つの文書間の不整合として検出することを前記コンピュータに実行させるための付記19から付記21までのいずれか1つに記載の不整合検出プログラム。
(付記26)
 前記データ生成処理は、データを生成した後、予め定めた変換方法でデータを変換し、前記検出処理は、検査事項を生成した後、同様の変換方法で検査事項を変換することを前記コンピュータに実行させるための付記19から付記25までのいずれか1つに記載の不整合検出プログラム。
(付記27)
 前記言明単位抽出処理は、提案依頼書や提案書や仕様書などのシステム開発やサービス提供で用いられる文書を分割して言明の意味単位の集合を抽出することを前記コンピュータに実行させるための付記19から付記26までのいずれか1つに記載に記載の不整合検出プログラム。
 この出願は、2010年4月12日に出願された日本出願特願2010−091230号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。
 10、20、30、40  入力部
 11、21、31、41  記憶部
 12、22、32、42  計算部
 13、23、33、43  出力部

Claims (10)

  1.  自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出部と、
     言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成部と、
     予め定めた検査内容の集合と前記言明構成部で生成された言明の集合とを併合したデータ集合を生成するデータ生成部と、
     生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成部で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化部と、
     予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出部と、
    を含むことを特徴とする不整合検出システム。
  2.  前記言明構成部は、それぞれの言明単位を、動詞が含まれるならば内容に分類し、動詞が含まれないならば文脈に分類し、内容とその直前の文脈とを予め定めた区切り記号で区切って連結させて言明を生成し、前記検出部は、検査対象と検査内容とを予め定めた区切り記号で区切って連結させて検査事項を生成することを特徴とする請求項1に記載の不整合検出システム。
  3.  前記類型化部は、データ間の類似度をコルモゴロフ複雑性の近似計算法に基づいて計算し、全ての2つのデータ間の類似度が予め定めた第一の閾値より小さくなるまで最も類似した2つのデータを連結して新たな1つのデータへと変換することを特徴とする請求項1または請求項2に記載の不整合検出システム。
  4.  前記検出部は、いずれかを記載する必要のある予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を作成し、それぞれの検査事項とそれぞれの類型化結果との類似度を計算し、計算した全ての類似度が予め定めた第二の閾値より小さいならば、検査対象の完全性に関する不整合として検出することを特徴とする請求項1から請求項3までのいずれか1項に記載の不整合検出システム。
  5.  前記検出部は、複数を記載すれば矛盾するよう予め定めた複数の検査内容に対し、それら検査内容のうちの1つと検査対象との組で1つの検査事項を生成し、ある検査事項とそれぞれの類型化結果との類似度が予め定めた第二の閾値以上の場合があるならば、その検査事項に該当する類型化結果があると判定し、全ての検査事項のうちで該当する類型化結果がある数が2つ以上ならば、検査対象の無矛盾性に関する不整合として検出することを特徴とする請求項1から請求項3までのいずれか1項に記載の不整合検出システム。
  6.  前記検出部は、曖昧な言明の例として予め定めた1つ以上の検査内容に対し、その検査内容のうちの1つと検査対象との組である1つの検査事項を生成し、類型化結果のいずれかとの類似度が第二の閾値以上であれば、その検査事項の非曖昧性に関する不整合として検出することを特徴とする請求項1から請求項3までのいずれか1項に記載の不整合検出システム。
  7.  前記言明単位抽出部は、所与の反映元文書と反映先文書という2つの文書に対し、言明単位の集合をそれぞれ抽出し、前記データ生成部は、反映元文書から構成された言明を検査内容として反映先文書から構成された言明と併合したデータ集合を作成し、前記類型化部は、生成したデータ集合から生成した新たなデータ集合から反映先文書から構成された言明を含むデータのみを抽出して類型化結果集合を生成し、前記検出部は、反映元文書から構成された言明であるそれぞれの検査事項に対し、それぞれの類型化結果との類似度が全て第二の閾値未満ならば、2つの文書間の不整合として検出することを特徴とする請求項1から請求項3までのいずれか1項に記載の不整合検出システム。
  8.  前記データ生成部は、データを生成した後、予め定めた変換方法でデータを変換し、前記検出部は、検査事項を生成した後、同様の変換方法で検査事項を変換することを特徴とする請求項1から請求項7までのいずれか1項に記載の不整合検出システム。
  9.  自然言語で記載された所与の文書を分割して言明単位の集合を抽出し、
     言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成し、
     予め定めた検査内容の集合と前記言明の構成で生成された言明の集合とを併合したデータ集合を生成し、
     生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明の構成で生成された言明を含むデータのみを抽出して類型化結果集合を生成し、
     予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する、
    ことを含むことを特徴とする不整合検出方法。
  10.  自然言語で記載された所与の文書を分割して言明単位の集合を抽出する言明単位抽出処理と、言明単位を言明の付加情報を示す文脈と言明自身の情報を示す内容とに分類して、文脈と内容との組としてそれぞれの言明を構成する言明構成処理と、予め定めた検査内容の集合と前記言明構成処理で生成された言明の集合とを併合したデータ集合を生成するデータ生成処理と、生成したデータ集合に対し、2つの最も類似したデータをそれら2つのデータの連結で生成した新たな1つのデータへと変換することを繰返して新たなデータ集合を生成し、生成した新たなデータ集合から前記言明構成処理で生成された言明を含むデータのみを抽出して類型化結果集合を生成する類型化処理と、予め定めた検査対象と検査内容との組でそれぞれの検査事項を生成し、生成した検査事項と類型化結果との類似度に基づいて言明の不整合を検出する検出処理と、をコンピュータに実行させるための不整合検出プログラム。
PCT/JP2011/058370 2010-04-12 2011-03-25 不整合検出システム、方法、およびプログラム WO2011129198A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/639,729 US9015161B2 (en) 2010-04-12 2011-03-25 Mismatch detection system, method, and program
JP2012510614A JP5751431B2 (ja) 2010-04-12 2011-03-25 不整合検出システム、方法、およびプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010091230 2010-04-12
JP2010-091230 2010-04-12

Publications (1)

Publication Number Publication Date
WO2011129198A1 true WO2011129198A1 (ja) 2011-10-20

Family

ID=44798576

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/058370 WO2011129198A1 (ja) 2010-04-12 2011-03-25 不整合検出システム、方法、およびプログラム

Country Status (3)

Country Link
US (1) US9015161B2 (ja)
JP (1) JP5751431B2 (ja)
WO (1) WO2011129198A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013125442A (ja) * 2011-12-15 2013-06-24 Nec Corp 整合性判定システム、方法およびプログラム
JP2014229069A (ja) * 2013-05-22 2014-12-08 日本電気株式会社 関連性判定システム、方法、およびプログラム
WO2015145991A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体
JP2019148947A (ja) * 2018-02-27 2019-09-05 株式会社アミット 作成文書修正支援システム、作成文書修正支援方法および作成文書修正支援プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101636902B1 (ko) * 2012-08-23 2016-07-06 에스케이텔레콤 주식회사 문법의 오류 검출 방법 및 이를 위한 장치
US9262465B1 (en) * 2013-12-18 2016-02-16 Amazon Technologies, Inc. Detection of mismatch between book content and description
WO2015166508A1 (en) * 2014-04-30 2015-11-05 Hewlett-Packard Development Company, L.P. Correlation based instruments discovery
CN113434413B (zh) * 2021-06-28 2023-06-06 平安银行股份有限公司 基于数据差异的数据测试方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05119987A (ja) 1991-10-30 1993-05-18 Hitachi Ltd 動的仕様の検証ルールの図形式定義方法
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
JP4946651B2 (ja) 2007-06-15 2012-06-06 富士通株式会社 仕様検証プログラム、該プログラムを記録したコンピュータに読み取り可能な記録媒体、仕様検証装置、および仕様検証方法
JP2009075681A (ja) 2007-09-18 2009-04-09 Fuji Electric Holdings Co Ltd イベント駆動型ソフトウェア用仕様記述支援装置
JP5005510B2 (ja) 2007-11-07 2012-08-22 株式会社日立製作所 ソフトウェアの設計支援方法、設計支援装置及び設計支援プログラム
US8606796B2 (en) * 2008-09-15 2013-12-10 Kilac, LLC Method and system for creating a data profile engine, tool creation engines and product interfaces for identifying and analyzing files and sections of files

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ATSUSHI ONISHI ET AL.: "Techniques of Artificial Intelligence in Requirements Engineering", JOURNAL OF JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 24, no. 6, 1 November 2009 (2009-11-01), pages 898 - 905 *
KATSUMI TANAKA ET AL.: "Understanding Specifications Written in Natural Language", TOSHIBA REVIEW, vol. 48, no. 6, 1 June 1993 (1993-06-01), pages 467 - 470 *
KATSUMI TANAKA: "A knowledge-based method for analyzing specifications written by natural language", IPSJ SIG NOTES, vol. 92, no. 70(92-, 10 September 1992 (1992-09-10), pages 81 - 89 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013125442A (ja) * 2011-12-15 2013-06-24 Nec Corp 整合性判定システム、方法およびプログラム
JP2014229069A (ja) * 2013-05-22 2014-12-08 日本電気株式会社 関連性判定システム、方法、およびプログラム
WO2015145991A1 (ja) * 2014-03-28 2015-10-01 日本電気株式会社 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、整合性判定方法、および、記憶媒体
JPWO2015145991A1 (ja) * 2014-03-28 2017-04-13 日本電気株式会社 整合チェック箇所推定装置、整合チェックシステム、整合チェック箇所推定方法、および、整合チェック箇所推定プログラム
JP2019148947A (ja) * 2018-02-27 2019-09-05 株式会社アミット 作成文書修正支援システム、作成文書修正支援方法および作成文書修正支援プログラム

Also Published As

Publication number Publication date
US9015161B2 (en) 2015-04-21
JPWO2011129198A1 (ja) 2013-07-18
JP5751431B2 (ja) 2015-07-22
US20130031098A1 (en) 2013-01-31

Similar Documents

Publication Publication Date Title
JP5751431B2 (ja) 不整合検出システム、方法、およびプログラム
US10970536B2 (en) Method and system for assessing similarity of documents
JP5862893B2 (ja) 文書分析システム、文書分析方法及び文書分析プログラム
CN109460552B (zh) 基于规则和语料库的汉语语病自动检测方法及设备
EP3113174A1 (en) Method for building a speech feature library, method, apparatus, and device for speech synthesis
US20150066474A1 (en) Method and Apparatus for Matching Misspellings Caused by Phonetic Variations
US11593557B2 (en) Domain-specific grammar correction system, server and method for academic text
JP2013105321A (ja) 文書処理装置、文書構成要素間の関係解析方法およびプログラム
CN114116973A (zh) 多文档的文本查重方法、电子设备及存储介质
Schweter et al. Triple E-Effective Ensembling of Embeddings and Language Models for NER of Historical German.
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
KR101663038B1 (ko) 개체의 표면형 문자열 용례학습기반에 의한 텍스트에서의 개체 범위 인식 장치 및 그 방법
RU2643438C2 (ru) Обнаружение языковой неоднозначности в тексте
JPWO2009113289A1 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
Aziz et al. A hybrid model for spelling error detection and correction for Urdu language
WO2019239877A1 (ja) 知的財産支援装置および知的財産支援方法並びに知的財産支援プログラム
JP6303508B2 (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
Nguyen et al. Medical Prescription Recognition Using Heuristic Clustering and Similarity Search
Angle et al. Kannada morpheme segmentation using machine learning
JP2014115718A (ja) 形態素解析装置、方法、及びプログラム
JP5212725B2 (ja) 電子書籍作成支援装置
US9372850B1 (en) Machined book detection
Alosaimy et al. Ensemble morphosyntactic analyser for classical Arabic
JP2013182580A (ja) 素性ベクトル構築装置、素性ベクトル構築方法、述部類似度計算装置、述部類似度計算方法および述部類似度計算プログラム
JP5915841B2 (ja) 整合性判定システム、方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11768719

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012510614

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13639729

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11768719

Country of ref document: EP

Kind code of ref document: A1