WO2015033605A1 - 事前情報を提供する文書調査システム - Google Patents

事前情報を提供する文書調査システム Download PDF

Info

Publication number
WO2015033605A1
WO2015033605A1 PCT/JP2014/057108 JP2014057108W WO2015033605A1 WO 2015033605 A1 WO2015033605 A1 WO 2015033605A1 JP 2014057108 W JP2014057108 W JP 2014057108W WO 2015033605 A1 WO2015033605 A1 WO 2015033605A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
survey
document
investigation
result
Prior art date
Application number
PCT/JP2014/057108
Other languages
English (en)
French (fr)
Inventor
守本 正宏
秀樹 武田
和巳 蓮子
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to US14/916,142 priority Critical patent/US20160260184A1/en
Publication of WO2015033605A1 publication Critical patent/WO2015033605A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Definitions

  • the present invention relates to a document search system, a document search method, and a document search program, and in particular, a document search system that provides prior information for sorting and searching documents according to litigation cases or fraud investigation cases. , Document search method, and document search program.
  • Patent Document 1 discloses a digital document in which a specific person is designated from at least one or more users included in the user information and is accessed based on access history information regarding the specified specific person. Extracts only the information, sets the accompanying information indicating whether each extracted digital document information document file is related to a lawsuit, and outputs a document file related to the lawsuit based on the supplementary information
  • a forensic system is disclosed.
  • Patent Document 2 recorded digital information is displayed, and for each of a plurality of document files, a user identification indicating which of the users included in the user information relates to the user is specified. Information is set, the set user identification information is set to be recorded in the storage unit, at least one user is specified, and the user identification information corresponding to the specified user is set Searches the document file, sets incidental information indicating whether or not the retrieved document file is related to the lawsuit, and outputs the document file related to the lawsuit based on the supplementary information. A forensic system is disclosed.
  • Patent Document 3 accepts designation of at least one or more document files included in the digital document information, accepts designation of which language the designated document file is translated into, and designates the document file for which designation is accepted.
  • Translated into the language that accepted the specification extracted from the digital document information recorded in the recording unit a common document file showing the same content as the specified document file, the extracted common document file was translated
  • a forensic system that generates translation-related information indicating that a document file has been translated by using the translation content of the document file, and outputs a document file related to a lawsuit based on the translation-related information.
  • Patent Document 1 a forensic system such as Patent Document 1 to Patent Document 3
  • a large amount of document information of users using a plurality of computers and servers is collected.
  • the present invention performs an accurate and reliable investigation in accordance with a lawsuit case or a fraud investigation case, and provides a document that provides advance information that reduces the burden of sorting and investigation work on the document information.
  • the object is to provide a survey system, a document survey method, and a document survey program.
  • a document research system for providing prior information acquires digital information recorded in a plurality of computers or servers, and analyzes document information composed of a plurality of documents included in the acquired digital information.
  • the results of separation work for each case in litigation or fraud investigation cases in a document investigation system that provides advance information to investigate the degree of relevance to lawsuits or fraud investigations.
  • Collecting and analyzing information related to case investigation results including creating and updating investigation model parameters for investigation relating to litigation or fraud investigation cases, and registering the investigation model parameters, and a new investigation item
  • the registered search model parameters are searched and related to the input information.
  • the survey model parameters are extracted, the survey model parameters are output using the extracted survey model parameters, and the preliminary information for configuring and providing the preliminary information for conducting a survey of a new survey item from the survey model output results
  • a component is provided.
  • the document research method for providing prior information acquires digital information recorded in a plurality of computers or servers, and analyzes document information composed of a plurality of documents included in the acquired digital information.
  • a document investigation method that provides advance information to investigate the degree of relevance to a lawsuit or fraud investigation so that it can be used for litigation or fraud investigation, Collect and analyze information related to case investigation results including classification work results, create or update investigation model parameters for investigation on litigation or fraud investigation cases, register the investigation model parameters, and investigate the contents of new investigation items
  • the input information for identifying the input is received, the registered survey model parameter is searched, and the survey model is related to the input information. Extracting Le parameters, using the extracted investigation model parameters, we investigate model output, constitutes a priori information for performing a survey of new research projects from survey model output provides.
  • the document investigation program for providing prior information acquires digital information recorded in a plurality of computers or servers, and analyzes document information composed of a plurality of documents included in the acquired digital information.
  • a document investigation program that provides advance information to investigate the degree of relevance to lawsuits or fraud investigations to facilitate use in lawsuits or fraud investigations, Collect and analyze information related to case investigation results including classification work results, create or update investigation model parameters for investigation related to lawsuits or fraud investigation cases, and register the investigation model parameters, and a new investigation item
  • the registered search model parameters are searched and the input
  • the survey model parameters are extracted in relation to the report, the survey model output is output using the extracted survey model parameters, and the preliminary information for conducting a survey of a new survey item is configured and provided from the survey model output result Realize the function to do.
  • Information investigation result related information refers to information that identifies the item type, investigation type, or language type collected for each case that has been classified or investigated, bibliographic information of the investigation target document, and statistical information of the investigation subject document Review related information (protocols, etc.), review result information, predictive coding (PC) parameters and result information, or feedback information.
  • the “investigation model” is a model that shows typical characteristic actions (injustices, quasi-injustices, and dangerous acts) in the investigation object. There are a plurality of models, and they may be appropriately selected according to the survey type.
  • the “survey model parameter” is a parameter inside the survey model that defines the “survey model”. When information related to “new matter” is registered, “common information element” is extracted, but “survey model parameter” is determined based on information related to this “common information element” (addition, Deleted or updated).
  • “Survey model output” means that the survey model parameters that match the new project are extracted from the survey model parameters registered for the new project, and a predetermined percentage of documents in the new project are extracted. It means to be analyzed by a survey model defined by parameters.
  • the information accumulated in relation to the case is collected and analyzed in advance according to the lawsuit case or the fraud investigation case, and analyzed. Based on the classified information, the classification and investigation of document information used for litigation or fraud investigation is carried out to conduct accurate and reliable classification and investigation according to litigation cases or fraud investigation cases. It is possible to reduce the burden of document information sorting work and investigation work.
  • Embodiment of the present invention acquires digital information recorded in a plurality of computers or servers, analyzes document information composed of a plurality of documents included in the acquired digital information, By assigning a classification code indicating the degree of relevance to a lawsuit to a document, it can be easily used for a lawsuit.
  • FIG. 1 shows a configuration of a document investigation system according to an embodiment of the present invention. With reference to FIG. 1, the structure of the document investigation system which concerns on embodiment of this invention is described below.
  • the document survey system 1 includes a data storage unit 100 that stores information and data.
  • the data storage unit 100 stores digital information acquired from a plurality of computers or servers in the digital information storage area 101 for use in analysis of lawsuits or fraud investigations.
  • the data storage unit 100 includes a survey result database 103 that stores case survey result related information and analysis results related to classification and survey results for each case, and a specific classification code of a document included in the acquired digital information.
  • a keyword database 104 for registering keywords having a close relationship with the specific classification code, and keyword correspondence information indicating a correspondence relationship between the specific classification code and the keyword, a predetermined classification code, and the predetermined classification
  • a related term database 105 for registering a related term consisting of words having a high appearance frequency in a document to which a code is assigned, and related term correspondence information indicating a correspondence relationship between the predetermined classification code and the related term;
  • a score calculation data for registering weights of words included in the document in order to calculate a score indicating the strength of association with a code.
  • the data storage unit 100 stores a prior information configuration database 107 that registers information about predictive coding created for each case. As shown in FIG. 1, the data storage unit 100 may be installed in the document survey system 1, or may be installed outside the document survey system 1 as a separate storage device.
  • a document search system 1 includes a database management unit 109 that manages updating of data contents of a search result database 103, a keyword database 104, a related term database 105, a score calculation database 106, and a prior information configuration database 107.
  • the contents of data stored in the information storage device 902 may be transferred to the digital information storage area 101 via the dedicated connection line or the Internet line 901 and taken in.
  • the database management unit 109 searches the search result database 103, the keyword database 104, the related term database 105, the score calculation database 106, and the prior information configuration.
  • the data content of the database 107 may be updated.
  • a document search system 1 includes a document extraction unit 112 that extracts a plurality of documents from document information, a word search unit 114 that searches keywords or related terms recorded in a database from document information, and a document And a score calculation unit 116 for calculating a score indicating the strength of association between the classification code and the classification code.
  • the document search system 1 searches the keyword recorded in the keyword database 104 by the word search unit 114, extracts a document including the keyword from document information, A first automatic classification unit 201 that automatically assigns a specific classification code based on keyword correspondence information, and a document that includes a related term recorded in a related term database from the document information, and a relationship included in the extracted document Based on the evaluation value of the term and the number of the related terms, a score is calculated, and among the documents including the related terms, the score exceeds a certain value based on the score and the related term correspondence information. And a second automatic sorting unit 301 that automatically assigns a predetermined sorting code.
  • the document investigation system 1 includes a document display unit 130 that displays a plurality of documents extracted from document information on a screen, and a plurality of documents that are not assigned a classification code extracted from document information.
  • the classification code assigned by the user based on the relevance to the lawsuit is received, the classification code reception / giving unit 131 for giving the classification code, and the document to which the classification code is given by the classification code reception / giving unit 131 are analyzed.
  • a third automatic sorting unit 401 that automatically assigns a code is provided.
  • the document investigation system 1 configures prior information from an investigation result analysis unit 801 that collects and analyzes information related to lawsuits or fraud investigation cases, and analysis results of case investigation result related information.
  • a prior information configuration unit 120 is provided.
  • the survey result analysis unit 801 collects and analyzes case survey result related information including a case type, a survey type, a language type, a sorting work result, and a predicted sorting work result for each case regarding lawsuits or fraud investigation cases. Next, based on the analysis result of the survey result related information, the survey result analysis unit 801 creates or updates a survey model and a survey model parameter for investigating a lawsuit or an illegal survey case. Then, the survey result analysis unit 801 registers the case survey result related information, the analysis result of the case survey result related information, the survey model, and the survey model parameter in the survey result database 103.
  • the prior information configuration unit 120 When receiving the input information for specifying the survey content of the new survey item, the prior information configuration unit 120 searches the survey result database 103 and finds the survey model and the survey model parameter from the survey result database 103 in relation to the input information. Using the extracted survey model and survey model parameters, the survey model is output, and the preliminary information for investigating a new survey item is configured from the survey model output result.
  • the prior information configuration unit 120 may register a new survey item, survey model model parameter, survey model output result, and prior information in the prior information configuration database 107.
  • the first automatic classification unit 201 and the second automatic classification unit are performed according to the classification and survey conditions set by the prior information.
  • 301 and the third automatic sorting unit 401 sort the extracted document information.
  • the document survey system 1 may include a translation unit 122 that accepts a user's designation or automatically translates the extracted document.
  • the translation unit 122 may make the language delimiter smaller than one sentence so that it can cope with a single sentence multilingual compound language.
  • predictive coding and character coding for language determination may be used.
  • a process of removing an HTML header or the like from a translation target may be performed.
  • the document investigation system 1 in order to perform the analysis by the document analysis unit 118, the classification that each document has based on the type of word, the number of occurrences, and the word evaluation value included in each document You may provide the tendency information generation part 124 which produces
  • the document investigation system 1 compares the classification code received by the classification code reception / giving unit 131 with the classification code given by the trend information in the document analysis unit 118, and the classification code reception / granting unit 131. May include a quality inspection unit 501 that verifies the validity of the classification code received. Furthermore, the document research system according to the embodiment of the present invention may include a learning unit 601 that learns the weighting of each keyword or related term based on the result of the document classification process or the predicted document classification process.
  • the document investigation system 1 includes a report creation unit 701 for outputting an optimum investigation report according to the investigation type of the litigation case or the fraud investigation based on the result of the document classification process.
  • Legal cases include, for example, antitrust (cartel), patents, foreign bribery prohibition (FCPA), or product liability (PL).
  • the fraud investigation includes, for example, information leakage and fictitious claims.
  • the document search system 1 is a lawyer review reception unit that receives a review of a chief attorney or a lead patent attorney in order to improve the quality of the classification survey and the report and clarify the responsibility of the classification survey and the report. 133 is provided.
  • Classification code refers to an identifier used when classifying documents, and indicates a degree of relevance with a lawsuit so that it can be easily used in a lawsuit. For example, when document information is used as evidence in a lawsuit, it may be given according to the type of evidence.
  • Document means data containing one or more words. Examples of “documents” include e-mail, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, and the like.
  • “Word” refers to a group of the smallest character strings that have meaning. For example, in a sentence “document means data including one or more words”, the words “document” “one” “more” “word” “include” “data” “say” Is included.
  • Keyword refers to a group of character strings having a certain meaning in a certain language. For example, if a keyword is selected from a sentence “classify a document”, it may be “document” or “classify”. In the embodiment, keywords such as “infringement”, “lawsuit”, and “patent publication No. 00” are selected with priority. In the present embodiment, it is assumed that the keyword includes a morpheme.
  • keyword correspondence information refers to information indicating the correspondence between a keyword and a specific classification code. For example, if the classification code “important” representing an important document in a lawsuit has a close relationship with the keyword “infringer”, the “keyword correspondence information” links the classification code “important” with the keyword “infringer”. It may be the information that is managed.
  • a related term refers to a word having an evaluation value equal to or higher than a certain value among words having a high appearance frequency in common with a document to which a predetermined classification code is assigned.
  • the appearance frequency refers to the rate at which related terms appear in the total number of words that appear in one document.
  • evaluation value refers to the amount of information that is exhibited in a document with each word.
  • the “evaluation value” may be calculated based on the amount of transmitted information.
  • the “related term” may indicate a name of a technical field to which the product belongs, a country where the product is sold, a similar product name of the product, and the like.
  • “related terms” in the case of assigning the product name of the apparatus that performs the image encoding process as a classification code includes “encoding process”, “Japan”, “encoder”, and the like.
  • “Related term correspondence information” refers to information indicating correspondence between related terms and classification codes. For example, when the classification code “product A” which is the product name related to the lawsuit has a related term “image encoding” which is a function of the product A, the “related term correspondence information” is classified into the classification code “product A”. And the related term “image coding” may be associated with each other and managed.
  • “Score” refers to a quantitative evaluation of the strength of association with a specific classification code in a document.
  • the score is calculated from the words appearing in the document and the evaluation value possessed by each word using the following equation (1).
  • the document survey system of the present invention may extract frequently appearing words in documents having a common classification code assigned by the user.
  • the extracted word type, the evaluation value of each word, and the trend information of the number of appearances included in each document are analyzed for each document, and the classification code reception / giving unit 131 does not accept the classification code.
  • a common classification code may be assigned to a document having the same tendency as the analyzed trend information.
  • trend information refers to the degree of similarity between each document and a document to which a classification code is assigned, and is based on the type of word, the number of occurrences, and the word evaluation value included in each document.
  • the degree of relevance with a predetermined classification code For example, when each document is similar in degree of relevance between a document assigned a predetermined classification code and the predetermined classification code, the two documents have the same tendency information.
  • documents having the same evaluation value and the same number of occurrences may be documents having the same tendency.
  • FIG. 2 shows a flowchart of the document investigation method according to the embodiment of the present invention.
  • the case investigation result related information is analyzed, and the case investigation result related information and the analysis result of the case investigation result related information are registered in the database (STEP 1).
  • a model and model parameters are created, added, deleted, and updated, and the model and model parameters are registered in the database (STEP 2).
  • Search the database to extract the survey model and survey model parameters in relation to the input information that identifies the project and survey content, such as the project type and survey type, and use the extracted survey model and survey model parameters to model Output is performed, and prior information is constructed from the model output result (STEP 3).
  • the configured prior information may be registered in a database and used.
  • a search condition including a search word is set based on the prior information, and the extracted digital document information is sorted and searched (STEP 4).
  • Collect case survey result related information related to classification and survey results (STEP 5) Then, the case investigation result related information is analyzed for the new case, and when the prediction separation is performed, the processing from STEP 1 to STEP 5 is repeated for each case.
  • analysis results such as case investigation result related information relating to various cases are accumulated in the prior information configuration database.
  • Various prior information can be provided for new projects from the analysis results such as the accumulated information related to the case survey results. That is, the document survey method according to the embodiment of the present invention is provided by configuring and outputting prior prediction information on the basis of a specific survey model using the accumulated case classification and survey analysis results as an information source. Enables sorting and investigation of documents based on prior information. It should be noted that the survey model parameters defining a specific survey model can be updated and corrected using the accumulated classification and survey analysis results as an information source.
  • the matter investigation result related information is collected and registered in the database. Read the case survey result related information from the database, and update and correct the survey model and the survey model parameters as appropriate.
  • a survey model is configured for input information that specifies the survey content of a new project, and advance information is provided based on the survey model. As a result, it is possible to accurately sort and investigate a new case, and obtain a profit that improves the reliability of the sorting and investigation.
  • the analysis processing of the case investigation result related information (STEP 1 in FIG. 2) is described in more detail after being decomposed into the following STEP 11 to STEP 15 processing.
  • Information related to the case investigation result is collected (STEP 11).
  • the case survey result related information includes, for example, the case type, the survey type, the language type, the bibliographic information of the survey target document, statistical information, review related information (protocol, etc.), review result information, predictive coding (PC) parameter / result information.
  • PC predictive coding
  • the item investigation result related information is categorized, that is, classified (STEP 12).
  • the case investigation result related information is classified based on the case type, the investigation type, and the like.
  • Predictive coding (PC) result information analysis result information such as morphological analysis
  • PC predictive coding
  • the relationship with existing information is examined (STEP 13). The relevance is checked, for example, between information of the same / similar case type and survey type.
  • Common information elements in the existing information and the related information are extracted according to the checked relevance (STEP 14).
  • Common information elements include, for example, common morphemes and metadata.
  • Various information related to the above-mentioned common information element is added, deleted, or updated (STEP 15).
  • Various pieces of information related to the common information element include, for example, morpheme weight parameters.
  • StepP 2 in FIG. 2 Processing for creating, adding, deleting, updating, and registering a survey model and a survey model parameter will be described in detail in the following STEP 21 to STEP 23 processing.
  • Various information related to the common information element is read (STEP 21).
  • the various pieces of information described above are processed to generate information related to the model parameters (STEP 22).
  • the survey model parameter is added, deleted, or updated (STEP 23).
  • Information on the survey model and the survey model parameters described above is registered in the database.
  • the processing (STEP 3 in FIG. 2) constituting the prior information will be described in more detail by breaking it down into the following processing from STEP 31 to STEP 35.
  • Input information is collected (STEP 31).
  • the input information is information that specifically identifies a case and a survey content such as a case type and a survey type.
  • the input information may be specific item identification information.
  • STEP 32 Existing information related to the input information (information already stored in the device) is extracted (STEP 32).
  • the above-described processing of STEP 32 may be performed according to step STEP 13 and STEP 14 of the analysis processing of the case investigation result related information, or may be performed based on another relationship.
  • Investigation model parameters related to the above existing information are extracted (STEP 33). For example, an appropriate parameter of a survey model related to a specific survey type may be determined. There are a plurality of survey models, which may be appropriately selected according to the survey type or the like.
  • a model output result is calculated based on the model using the survey model parameters described above (STEP 34). For example, with respect to a specific type, content indicating a typical characteristic action (fraud, semi-fraud, dangerous action) is derived from the research model from information accumulated in the database DB.
  • Prior information is constructed based on the above-described survey model output result (STEP 35).
  • Prior information is prediction information corresponding to input information (a pattern of fraud etc.). After the advance information is configured, the classification and investigation will proceed based on the advance information.
  • information related to prior information is used in predictive coding, and may be stored in the prior information configuration database.
  • the registration process, the classification process, and the inspection process are performed in the first to fifth stages according to the flowchart shown in FIG.
  • keywords and related terms are updated and registered in advance using the results of past classification processing (STEP 100).
  • the keyword and the related term are updated and registered together with the keyword correspondence information and the related term correspondence information which are correspondence information between the classification code and the keyword or the related term.
  • a document including the keyword updated and registered in the first stage is extracted from all document information.
  • the updated keyword correspondence information recorded in the first stage is referred to, and the classification corresponding to the keyword is performed.
  • a first separation process for assigning a code is performed (STEP 200).
  • the document including the related term updated and registered in the first stage is extracted from the document information that has not been given the classification code in the second stage, and the score of the document including the related term is calculated.
  • a second classification process is performed in which a classification code is assigned (STEP 300).
  • the classification code given by the user is accepted for the document information that has not been given the classification code by the third stage, and the classification code accepted from the user is given to the document information.
  • the document information provided with the classification code received from the user is analyzed, the document without the classification code is extracted based on the analysis result, and the third classification for adding the classification code to the extracted document Process. For example, words that frequently appear in documents with a common classification code assigned by the user are extracted, and the types of extracted words, evaluation values possessed by each word, and trend information on the number of appearances are included for each document. And a common classification code is assigned to a document having the same tendency as the trend information (STEP 400).
  • the classification code to be given is determined based on the analyzed trend information for the document to which the user has given the classification code in the fourth stage, and the determined classification code and the classification code given by the user are determined.
  • the validity of the sorting process is verified by comparison (STEP 500). Further, if necessary, the learning process may be performed based on the result of the document classification process.
  • the trend information used in the fourth and fifth stage processing refers to the degree of similarity between each document and the document to which the classification code is assigned.
  • the type of word included in each document the number of occurrences, This is based on the evaluation value of a word. For example, when each document is similar in degree of relevance between a document assigned a predetermined classification code and the predetermined classification code, the two documents have the same tendency information. In addition, even if the types of words included are different, documents having the same evaluation value and the same number of occurrences may be documents having the same tendency.
  • the keyword database 104 creates a management table for each classification code based on the result of classifying documents in past lawsuits, and specifies keywords corresponding to each classification code (STEP 111).
  • the document to which each classification code is assigned is analyzed, and the number of occurrences of each keyword in the document and the evaluation value are used.
  • a method, a method of manual selection by the user, or the like may be used.
  • the keyword correspondence information indicating that the keyword has a special relationship is created (STEP 112). Then, the identified keyword is registered in the keyword database 104. At this time, the identified keyword is associated with the keyword correspondence information and recorded in the management table of the classification code “important” in the keyword database 104 (STEP 113).
  • the related term database 105 creates a management table for each classification code based on the results of document classification in past lawsuits, and registers related terms corresponding to each classification code (STEP 121).
  • STEP 121 registers related terms corresponding to each classification code.
  • encoding process” and “product a” are registered as related terms of “product A”
  • decoding” and “product b” are registered as related terms of “product B”.
  • the related term correspondence information indicating which classification code each registered related term corresponds to is created (STEP 122) and recorded in each management table (STEP 123). At this time, the related term correspondence information also records a threshold value serving as a score necessary for determining an evaluation value and a classification code of each related term.
  • the keyword and the keyword correspondence information, and the related term and the related term correspondence information are updated and registered (STEP 113, STEP 123).
  • ⁇ Second stage (STEP 200)> A detailed processing flow of the first automatic sorting unit 201 in the second stage will be described with reference to FIG.
  • the first automatic classification unit 201 performs a process of assigning the classification code “important” to the document.
  • the first automatic sorting unit 201 extracts documents including the keywords “infringement” and “patent attorney” registered in the keyword database 104 in the first stage (STEP 100) from the document information (STEP 211).
  • the extracted document is referred to from the keyword correspondence information with reference to the management table in which the keyword is recorded (STEP 212), and a classification code of “important” is given (STEP 213).
  • ⁇ Third stage (STEP 300) A detailed processing flow of the second automatic sorting unit 301 in the third stage will be described with reference to FIG.
  • the second automatic classification unit 301 assigns the classification codes “product A” and “product B” to the document information that has not been assigned the classification code in the second stage (STEP 200). Process.
  • the second automatic classification unit 301 records a document including related terms “encoding process”, “product a”, “decoding”, and “product b” recorded in the related term database 105 in the first stage. Extract (STEP 311). Based on the recorded appearance frequency and evaluation value of the four related terms, the score is calculated by the score calculation unit 116 using the expression (1) (STEP 312). The score represents the degree of association between each document and the classification codes “product A” and “product B”.
  • the appearance frequency of the related terms “encoding process” and “product a” and the evaluation value of the related term “encoding process” are high, and the score indicating the degree of association with the classification code “product A” is a threshold value. Is exceeded, the document is given a classification code “Product A”.
  • the second automatic classification unit 301 recalculates the evaluation value of the related term using the score calculated in STEP 432 in the fourth stage according to the following equation (2), and weights the evaluation value (STEP 315). ).
  • the classification code from the reviewer is given to the document information of a certain ratio extracted from the document information to which the classification code is not given. Acceptance and the accepted classification code are assigned to the document information.
  • the document information given the classification code received from the reviewer is analyzed, and based on the analysis result, the classification code is given to the document information to which the classification code is not given.
  • a process of assigning classification codes of “important”, “product A”, and “product B” is performed on the document information. The fourth stage is further described below.
  • the document extraction unit 112 randomly samples a document from the document information to be processed in the fourth stage and displays it on the document display unit 130.
  • 20% of the document information to be processed is extracted at random and set as a classification target by the reviewer.
  • Sampling may be an extraction method in which documents are arranged in order of document creation date and time or in order of name, and 30% of documents are selected from the top.
  • the user views the display screen 11 shown in FIG. 14 displayed on the document display unit 130, and selects a classification code to be assigned to each document.
  • the classification code reception / giving unit 131 receives the classification code selected by the user (STEP 411), and sorts based on the given classification code (STEP 412).
  • the document analysis unit 118 extracts words that frequently appear in the documents classified by classification code by the classification code reception / giving unit 131 (STEP 421).
  • the evaluation value of the extracted common word is analyzed by Expression (2) (STEP 422), and the appearance frequency of the common word in the document is analyzed (STEP 423).
  • FIG. 10 is a graph showing a result of analyzing words frequently appearing in STEP 424 in common with a document to which a classification code of “important” is assigned.
  • the vertical axis R_hot includes words selected as words linked to the classification code “important” among all documents to which the classification code “important” is assigned by the user, and the classification code “important” is assigned. Shows the percentage of documents that were used.
  • the horizontal axis indicates the ratio of documents including the words extracted in STEP 421 by the classification code receiving and assigning unit 131 among all the documents subjected to the classification process by the user.
  • STEP 421 to STEP 424 The processing of STEP 421 to STEP 424 is also executed for the documents to which the classification codes “product A” and “product B” are assigned, and the trend information of the documents is analyzed.
  • the third automatic classification unit 401 performs processing on a document whose classification code is not accepted by the classification code acceptance and grant unit 131 in STEP 411 out of the document information to be processed in the fourth stage.
  • a document having the same trend information as the trend information of the document to which the classification codes “important”, “product A”, and “product B” are assigned analyzed in STEP 424 from such a document.
  • Are extracted (STEP 431), and the score of the extracted document is calculated using equation (1) based on the trend information (STEP 432).
  • an appropriate classification code is assigned to the document extracted in STEP 431 based on the trend information (STEP 433).
  • the third automatic sorting unit 401 further reflects the sorting result in each database using the score calculated in STEP 432 (STEP 434). Specifically, a process of lowering the evaluation values of keywords and related terms included in a document having a low score and increasing the evaluation values of keywords and related terms included in a document having a high score may be performed.
  • the third automatic classification unit 401 may perform a classification process on a document whose classification code is not given by the classification code reception and grant unit 131 in STEP 411 among the document information to be processed in the fourth stage. .
  • the third automatic sorting unit 401 when no argument is given (STEP 441: None), the same trend information as the trend information of the document to which the classification code “important” is assigned, analyzed from the document in STEP 424. Is extracted (STEP 442), and the score of the extracted document is calculated using equation (1) based on the trend information (STEP 443). Further, an appropriate classification code is assigned to the document extracted in STEP 442 based on the trend information (STEP 444).
  • the third automatic sorting unit 401 further reflects the sorting result in each database using the score calculated in STEP 443 (STEP 445). Specifically, the evaluation value of the keyword and the related term included in the document with a low score is lowered, while the evaluation value of the keyword and the related term included in the document with a high score is increased.
  • the data for score calculation is collectively stored in the score calculation database 106. May be stored.
  • the classification code reception / giving unit 131 determines the classification code to be given to the document received in STEP 411 based on the trend information analyzed by the document analysis unit 118 in STEP 424 (STEP 511). .
  • the classification code received by the classification code reception / giving unit 131 is compared with the classification code determined in STEP 511 (STEP 512), and the validity of the classification code received in STEP 411 is verified (STEP 513).
  • the document survey system 1 may include a learning unit 601.
  • the learning unit 601 learns the weighting of each keyword or related term based on the first to fourth processing results using Expression (2).
  • the learning result may be reflected in the keyword database 104, the related term database 105, or the score calculation database 106.
  • the document investigation system 1 is based on the result of the document classification process, and a lawsuit case (for example, a cartel / patent / FCPA / PL if a lawsuit) or a fraud investigation (for example, information leakage)
  • the contents of the survey vary depending on the survey type. For example, 1. When and how did the competing personnel communicate with the cartel (price adjustment)? 2. Who is the organization involved? Is the point. In case of patent infringement, 1. Is the content the same as the technology being infringed? 2. Who, when and with what intention (without) infringing or not infringing? That is the point. In this way, the content to be investigated varies depending on the type or category of the survey. In the embodiment of the present invention, even if there is a difference between the survey type and the survey content, a report is automatically created according to the survey type and the survey content.
  • a method of analyzing a document that has already been given a classification code corresponding to similar search information and adjusting a range to which the classification code is assigned based on the analysis result is used.
  • the method of adjusting the range to which the classification code is assigned corresponding to similar search information the method of adjusting the range to which the classification code is assigned by clustering similar search information corresponding to the similar search information, and the classification result There is a method to perform prediction classification by learning.
  • a common classification code may be given to the reply document of the reply document of the original document.
  • the same or similar classification codes are given to similar search information by learning to integrate similar search information for the classification results.
  • the reliability of the analysis result varies depending on the number of documents to be analyzed. A statistical method may be added to the total number of documents to be classified to determine at what time point the percentage of all documents to be adjusted for the range to which the classification code is assigned based on the analysis results. .
  • the classification is performed by clustering the search information corresponding to the similar search information.
  • the range of the document to which the classification code is assigned may be adjusted by executing both the method of adjusting the range to be performed and the method of performing the prediction classification by learning the classification result.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 訴訟案件に応じて的確で信頼性のある調査を行うとともに、当該文書情報の調査作業の負担を軽減する事前情報を提供する文書調査システム、方法、及びプログラムを提供する。 コンピュータが、訴訟案件毎に案件調査結果関連情報を解析し、訴訟案件に関して調査するための調査モデルパラメータを作成又は更新、及び登録をし、登録された調査モデルパラメータから、新たな調査案件の調査内容を特定する入力情報に関連して調査モデルパラメータを抽出し、抽出したモデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成し、提供する。

Description

[規則37.2に基づきISAが決定した発明の名称] 事前情報を提供する文書調査システム
 本発明は、文書調査システム、文書調査方法、及び文書調査プログラムに関するものであって、特に、訴訟案件又は不正調査案件に応じて文書の分別及び調査を行うための事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムに関する。
 従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
 特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
 一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
 そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
 近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
 また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
 さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011-209930号公報 特開2011-209931号公報 特開2012-32859号公報
 しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。
 このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と費用がかかるという問題があった。
 そこで、本発明は、上記事情に鑑み、訴訟案件又は不正調査案件に応じて的確で信頼性のある調査を行うとともに、当該文書情報の分別及び調査作業の負担を軽減する事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムを提供することを目的とするものである。
 本発明の事前情報を提供する文書調査システムが、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査システムにおいて、訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録する調査結果解析部と、新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデルの出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する事前情報構成部を備える。
 本発明の事前情報を提供する文書調査方法が、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査方法において、コンピュータが、訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録し、新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する。
 本発明の事前情報を提供する文書調査プログラムが、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査プログラムにおいて、コンピュータに、訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録する機能と、新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する機能を実現する。
 本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムの理解を容易にするために、特有な用語について以下に記載する。
 「案件調査結果関連情報」とは、分別又は調査が行われた案件毎に収集される案件種別、調査種別、又は言語種別を特定する情報、調査対象ドキュメントの書誌情報、調査対象ドキュメントの統計情報、レビュー関連情報(プロトコル等)、レビュー結果情報、プレディクティブコーディング(PC)パラメータ及び結果情報、又はフィードバック情報の組み合わせをいう。
 「調査モデル」とは、調査対象における典型的な特徴的行為(不正行為、準不正行為、及び危険行為)を示すモデルである。モデルは複数あって、調査種別等に応じて適宜選択されても良い。
 「調査モデルパラメータ」とは、「調査モデル」を規定する調査モデル内部のパラメータである。「新たな案件」に関する情報が登録される際に、「共通の情報要素」が抽出されるが、「調査モデルパラメータ」はこの「共通の情報要素」に関連する情報に基づいて決定(追加、削除、又は更新)される。
 「調査モデル出力」とは、新たな案件に対して登録された調査モデルパラメータから新たな案件に適合する調査モデルパラメータが抽出され、新たな案件の所定の割合の文書が、抽出された調査モデルパラメータによって規定される調査モデルによって解析されることをいう。
 本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにより、訴訟案件又は不正調査案件に応じて、案件に関連して蓄積された情報を事前に収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより、訴訟案件又は不正調査案件に応じて的確で信頼性を有する分別及び調査を実施するとともに、当該文書情報の分別作業及び調査作業の負担を軽減することが可能となる。
本発明の実施形態に係る文書調査システムの構成図 本発明の実施形態に係る文書調査方法における処理の流れを示すチャート 実施形態における段階ごとの処理の流れを示したチャート 実施形態におけるキーワードデータベースの処理フローを示すチャート 本実施形態における関連用語データベースの処理フローを示したチャート 本実施形態における第1自動分別部の処理フローを示したチャート 本実施形態における第2自動分別部の処理フローを示したチャート 本実施形態における分別符号受付付与部の処理フローを示したチャート 本実施形態における文書解析部の処理フローを示したチャート 本実施形態における文書解析部での解析結果を示したグラフ 本実施形態の1実施例における第3自動分別部の処理フローを示したチャート 本実施形態の他の実施例における第3自動分別部の処理フローを示したチャート 本実施形態における品質検査部の処理フローを示したチャート 本実施形態における文書表示画面
[本発明の実施形態]
 本発明の実施形態に係る文書調査システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟との関連度を示す分別符号を文書に付与することにより、訴訟への利用を容易にするものである。
 図1は、本発明の本発明の実施形態に係る文書調査システムの構成を示す。図1を参照して、本発明の実施形態に係る文書調査システムの構成について以下に記載する。
 実施形態に係る文書調査システム1は、情報及びデータを格納するデータ格納部100を有する。該データ格納部100は、訴訟又は不正調査の解析に利用するために、複数のコンピュータまたはサーバから取得したデジタル情報をデジタル情報格納領域101に格納する。
 そして、データ格納部100は、案件毎の分別及び調査結果に関連する案件調査結果関連情報及び解析結果を格納する調査結果データベース103と、取得されたデジタル情報に含まれる文書の特定の分別符号と、該特定の分別符号と密接な関係を有するキーワード、及び該特定の分別符号と該キーワードとの対応関係を示すキーワード対応情報を登録するキーワードデータベース104と、所定の分別符号と、該所定の分別符号が付与された文書中において出現頻度が高い単語からなる関連用語と、該所定の分別符号と関連用語との対応関係を示す関連用語対応情報とを登録する関連用語データベース105と、文書と分別符号との結びつきの強さを示すスコアを算出するために該文書に含まれるワードの重みづけを登録するスコア算出データベース106とを格納する。更に、データ格納部100は、案件毎に作成されるプレディクティブコーディングに関する情報を登録する事前情報構成データベース107を格納する。このデータ格納部100は、図1に示されるように、文書調査システム1内に設置されても良く、別個のストレージ装置として文書調査システム1の外部に設置されても良い。
 本発明の実施形態に係る文書調査システム1は、調査結果データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び事前情報構成データベース107のデータ内容の更新を管理するデータベース管理部109を備える。情報格納装置902に記憶されるデータの内容を、専用接続線又はインターネット回線901を経由してデジタル情報格納領域101に転送し取り込んでも良い。そして、データベース管理部109は、情報格納装置902からデジタル情報格納領域101に転送された情報に基づいて、調査結果データベース103、キーワードデータベース104、関連用語データベース105、スコア算出データベース106、及び事前情報構成データベース107のデータ内容を更新しても良い。
 本発明の実施形態に係る文書調査システム1は、文書情報から複数の文書を抽出する文書抽出部112と、データベースに記録されたキーワード又は関連用語を文書情報から検索するワード検索部114と、文書と分別符号との結びつきの強さを示すスコアを算出するスコア算出部116とを備える。
 本発明の実施形態に係る文書調査システム1は、ワード検索部114により前記キーワードデータベース104に記録したキーワードを検索し、前記キーワードを含む文書を文書情報から抽出し、該抽出した文書に対して、キーワード対応情報に基づき特定の分別符号を自動的に付与する第1自動分別部201と、文書情報から、関連用語データベースに記録した関連用語を含む文書を抽出し、該抽出した文書に含まれる関連用語の評価値及び該関連用語の数に基づいて、スコアを算出し、関連用語を含む文書のうち、該スコアが一定値を超過した文書に対して、スコアおよび前記関連用語対応情報に基づいて、所定の分別符号を自動的に付与する第2自動分別部301を有する。
 更に、実施形態に係る文書調査システム1は、文書情報から抽出された複数の文書を画面上に表示する文書表示部130と、文書情報から抽出された分別符号が付与されていない複数の文書に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号を付与する分別符号受付付与部131と、分別符号受付付与部131により分別符号を付与された文書を解析する文書解析部118と、文書情報から抽出された複数の文書に対して、前記分別符号受付付与部131により分別符号を付与された文書を文書解析部118により解析した解析結果に基づいて、分別符号を自動的に付与する第3自動分別部401を備える。
 また、本発明の実施形態に係る文書調査システム1は、訴訟又は不正調査案件に関連する情報を収集及び解析する調査結果解析部801と、案件調査結果関連情報の解析結果から事前情報を構成する事前情報構成部120を備える。
 調査結果解析部801は、訴訟又は不正調査案件に関して、案件毎に案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む案件調査結果関連情報を収集及び解析する。次に、調査結果解析部801は、調査結果関連情報の解析結果に基づいて、訴訟又は不正調査案件に関して調査するための調査モデルと調査モデルパラメータを作成又は更新する。そして、調査結果解析部801は、案件調査結果関連情報、前記案件調査結果関連情報の解析結果、前記調査モデル、及び前記調査モデルパラメータを調査結果データベース103に登録する。
 事前情報構成部120は、新たな調査案件の調査内容を特定する入力情報を受け付けると、調査結果データベース103を検索して、入力情報に関連して調査結果データベース103から調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成する。事前情報構成部120は、新たな調査案件、調査モデルモデルパラメータ、調査モデル出力結果、及び事前情報を事前情報構成データベース107に登録しても良い。
 実施形態に係る文書調査システム1では、事前情報構成部120から事前情報が発行及び出力されると、事前情報により設定された分別及び調査条件に従って、第1自動分別部201、第2自動分別部301、及び第3自動分別部401が抽出文書情報を分別する。
 また、本発明の実施形態に係る文書調査システム1は、ユーザの指定を受け付けて、又は、自動的に、抽出した文書を翻訳する翻訳部122を備えても良い。翻訳部122は、1文多言語の複合言語にも対応できるように、言語の区切りを1文より小さくしても良い。また、言語の判定に、言語判定のためのプレディクティブコーディング、キャラクターコーディングのいずれか又は両方を用いても良い。更に、HTMLのヘッダ等を翻訳の対象から除く処理を行うようにしても良い。
 また、本発明の実施形態に係る文書調査システム1は、文書解析部118による解析を行うために、各文書が含む単語の種類、出現数、単語の評価値に基づいて、各文書が持つ分別符号が付与された文書との類似の度合いを表す傾向情報を生成する傾向情報生成部124を備えても良い。
 また、本発明の実施形態に係る文書調査システム1は、分別符号受付付与部131が受け付けた分別符号と文書解析部118において傾向情報により付与された分別符号を比較し、分別符号受付付与部131が受け付けた分別符号の妥当性を検証する品質検査部501を備えても良い。
 更に、本発明の実施形態に係る文書調査システムは、文書分別処理又は予測文書分別処理の結果をもとに、各キーワード又は関連用語の重みづけを学習する学習部601を備えても良い。
 本発明の実施形態に係る文書調査システム1は、文書分別処理の結果をもとに、訴訟案件又は不正調査の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備える。訴訟案件には、 例えば、反トラスト(カルテル)、特許、海外賄賂禁止(FCPA)、又は製造物責任(PL)が含まれる。また、不正調査には、例えば、情報漏洩、架空請求が含まれる。
 本発明の実施形態に係る文書調査システム1は、分別調査と報告の質を向上し、分別調査と報告の責任を明確にするために、主任弁護士又は主任弁理士のレビューを受け付ける弁護士レビュー受付部133を備える。
 本発明の実施形態に係る文書調査システムの理解を容易とするために、実施形態に特有な用語について以下に記載する。
 「分別符号」とは、文書を分類する際に用いる識別子のことをいい、訴訟への利用が容易になるように、訴訟との関連度を示すものをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
 「文書」とは、1つ以上の単語を含むデータをいう。「文書」の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
 「単語」とは、意味をもつ最少の文字列のまとまりをいう。例えば、「文書とは、1つ以上の単語を含むデータをいう。」という文章の中には、「文書」「1つ」「以上」「単語」「含む」「データ」「いう」という単語が含まれる。
 「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報〇〇号」といったキーワードが重点的に選定される。
 本実施形態においては、キーワードには形態素が含まれるものとする。
 また、「キーワード対応情報」とは、キーワードと特定の分別符号との対応関係を表すものをいう。例えば、訴訟において重要な文書を表す「重要」という分別符号が「侵害者」というキーワードと密接な関係を持つ場合、「キーワード対応情報」は分別符号「重要」とキーワード「侵害者」を紐づけて管理する情報のことをいってもよい。
 「関連用語」とは、所定の分別符号が付与された文書に共通して出現頻度が高い単語のうち、評価値が一定値以上のものをいう。例えば、出現頻度は、ひとつの文書中に登場する単語の総数のうち、関連用語が出現する割合をいう。
 また、「評価値」は、各単語がある文書中で発揮する情報量をいう。「評価値」は伝達情報量を基準に算出してもよい。例えば、所定の商品名を分別符号として付与する場合、「関連用語」は、該商品が属する技術分野の名称、該商品の販売国、該商品の類似商品名等を指してもよい。具体的には、画像符号化処理を行う装置の商品名を分別符号として付与する場合の「関連用語」は、「符号化処理」、「日本」、「エンコーダ」等が挙げられる。
 「関連用語対応情報」とは、関連用語と分別符号との対応関係を表すものをいう。例えば、訴訟にかかる商品名である「製品A」という分別符号が製品Aの機能である、「画像符号化」という関連用語を持つ場合、「関連用語対応情報」は、分別符号「製品A」と関連用語「画像符号化」とを紐づけて管理する情報のことをいってもよい。
 「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。本発明の各実施形態では、例えば、スコアを以下の式(1)を用いて、文書中に出現する単語と、各単語の持つ評価値とにより算出している。
Figure JPOXMLDOC01-appb-I000001
 また、本発明の文書調査システムはユーザが付与した分別符号が共通である文書中に頻出する単語を抽出しても良い。そして、文書ごとに含まれる、該抽出した単語の種類、各単語がもつ評価値及び出現数の傾向情報を文書ごとに解析し、分別符号受付付与部131により分別符号を受け付けていない文書のうち、解析した傾向情報と同じ傾向をもつ文書に対して、共通の分別符号の付与を行ってもよい。
 ここで、「傾向情報」とは、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づく、所定の分別符号との関連度で表される。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
 図2は、本発明の実施形態に係る文書調査方法のフローチャートを示す。図2を参照して、本発明の実施形態に係る文書調査方法について以下に記載する。
 案件調査結果関連情報を解析し、案件調査結果関連情報と案件調査結果関連情報の解析結果をデータベースに登録する(STEP1)。
 モデルとモデルパラメータを作成、追加、削除、及び更新し、当該モデルとモデルパラメータをデータベースに登録する(STEP2)。
 案件種別・調査種別等、案件や調査内容を特定する入力情報に関連して、データベースを検索して、調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、モデル出力を行い、モデル出力結果から事前情報を構成する(STEP3)。構成された事前情報をデータベースに登録して利用しても良い。
 事前情報に基づいて検索ワードを含む調査条件を設定し、抽出デジタル文書情報を分別及び調査する(STEP4)。
 分別及び調査結果に関連する案件調査結果関連情報を収集する(STEP5)
 そして、新規案件について案件調査結果関連情報を解析し、予測分別を行う場合には案件毎にSTEP1からSTEP5の処理を繰り返す。
 本発明の実施形態に係る文書調査方法では、種々の案件に関する案件調査結果関連情報等の分析結果を事前情報構成データベースに蓄積する。蓄積された案件調査結果関連情報等の分析結果から、新規案件に対して様々な事前情報を提供することができる。
 すなわち、本発明の実施形態に係る文書調査方法では、蓄積した案件の分別及び調査の解析結果を情報源として、特定の調査モデルに基づき、事前予測情報を構成して出力することにより、提供された事前情報に基づいて文書の分別及び調査を可能とする。
 なお、蓄積した分別及び調査の解析結果を情報源として、特定の調査モデルを規定する調査モデルパラメータを更新、修正することもできる。
 本発明の実施形態に係る文書調査方法の基本的な処理について以下に要約して記載する。
 すなわち、本発明の実施形態に係る文書調査方法では、案件調査結果関連情報を収集し、データベースに登録する。
 案件調査結果関連情報をデータベースから読み出して、調査モデルと調査モデルのパラメータを適宜更新、修正する。
 新規案件の調査内容を特定する入力情報に対し、調査モデルを構成し、調査モデルに基づいて事前情報を提供する。これにより、新規案件に対して分別及び調査処理を的確に行い、分別及び調査に対する信頼性を向上する利益を得ることができる。
 案件調査結果関連情報の解析処理(図2のSTEP1)を、以下のSTEP11からSTEP15の処理に分解してより詳細に記載する。
 案件調査結果関連情報を収集する(STEP11)。
 案件調査結果関連情報には、例えば、案件種別、調査種別、言語種別、調査対象ドキュメントの書誌情報、統計情報、レビュー関連情報(プロトコル等)、レビュー結果情報、プレディクティブコーディング(PC)パラメータ・結果情報、フィードバック情報が含まれる。
 案件調査結果関連情報をカテゴライズ、すなわち分類する(STEP12)。
 案件調査結果関連情報は案件種別、調査種別等に基づいて分類される。プレディクティブコーディング(PC)の結果情報(形態素分析等の分析結果情報)等については階層化されて分類される。
 既存情報(当該装置が既に格納している諸情報)との関連性を調べる(STEP13)。
 関連性は、例えば、同一・類似の案件種別、調査種別の情報間でチェックされる。
 関連性がチェックされた後に、チェックされた関連性に従って、既存情報と関連情報とにおける共通の情報要素を抽出する(STEP14)。
 共通の情報要素には、例えば、共通する形態素、メタデータが含まれる。
 上述の共通情報要素に関連する諸情報を追加、削除、又は更新する(STEP15)。
 共通情報要素に関連する諸情報には例えば、形態素の重みパラメータ等が含まれる。
 調査モデルと調査モデルパラメータを作成、追加、削除、及び更新し、並びに登録する処理(図2のSTEP2)を、以下のSTEP21からSTEP23の処理に分解してより詳細に記載する。
 共通情報要素に関連する諸情報を読み出す(STEP21)。
 上述の諸情報を処理し、モデルパラメータに関連する情報を生成する(STEP22)。
 上述の調査モデルパラメータに関連する情報に基づいて、調査モデルパラメータを追加、削除、更新する(STEP23)。
 上述の調査モデルと調査モデルパラメータに関する情報は、データベースに登録する。
 事前情報を構成する処理(図2のSTEP3)を、以下のSTEP31からSTEP35の処理に分解してより詳細に記載する。
 入力情報を収集する(STEP31)。
 入力情報とは、案件種別・調査種別等、案件や調査内容を具体的に特定する情報である。また、入力情報は具体的な案件の識別情報等でも良い。
 入力情報に関連する既存情報(当該装置が既に格納している諸情報)を抽出する(STEP32)。
 上述のSTEP32の処理は、案件調査結果関連情報の解析処理のステップSTEP13やSTEP14に準じて行っても良く、又は別の関連性に基づいて行っても良い。
 上述の既存情報に関連する調査モデルパラメータを抽出する(STEP33)。
 例えば、特定の調査種別に関する調査モデルの適切なパラメータを決定しても良い。調査モデルは複数あって、調査種別等に応じて適宜選択されてもよい。
 上述の調査モデルパラメータを用いて、モデルに基づいてモデル出力結果を計算する(STEP34)。
 例えば、特定の種別に関して、データベースDBが蓄積した情報から、典型的な特徴的行為(不正行為、準不正行為、危険行為)を示す内容を調査モデルから導出する。
 上述の調査モデル出力結果に基づいて、事前情報を構成する(STEP35)。
 事前情報とは、入力情報に対応した予測情報(不正行為等のパターン等)である。
 事前情報を構成した後に、事前情報に基づいて分別及び調査を進める。
 本発明の実施形態において、事前情報に関する情報はプレディクティブコーディングにおいて使用するので、事前情報構成データベースに格納しても良い。
 本発明の実施形態では、図3に示すフローチャートに従い、第1段階~第5段階で、登録処理、分別処理、及び検査処理を行う。
 第1段階では、過去の分別処理の結果を用いて、事前にキーワードと関連用語の更新登録を行う(STEP100)。このとき、キーワード及び関連用語は、分別符号とキーワード又は関連用語の対応情報であるキーワード対応情報及び関連用語対応情報とともに更新登録される。
 第2段階では、第1段階で更新登録されたキーワードを含む文書を全文書情報から抽出し、該文書を発見すると第1段階で記録した更新キーワード対応情報を参照し、該キーワードに対応する分別符号を付与する第1分別処理を行う(STEP200)。
 第3段階では、第1段階で更新登録された関連用語を含む文書を、第2段階で分別符号を付与されなかった文書情報から抽出し、該関連用語を含む文書のスコアを算出する。該算出したスコアと第1段階で更新登録された関連用語対応情報を参照し、分別符号の付与を実行する第2分別処理を行う(STEP300)。
 第4段階では、第3段階までに分別符号を付与されなかった文書情報に対して、ユーザが付与した分別符号を受け付け、該文書情報に対してユーザから受け付けた分別符号を付与する。次に、ユーザから受け付けた分別符号を付与された文書情報を解析し、解析結果に基づいて、分別符号が付与されていない文書を抽出して、抽出した文書に分別符号を付与する第3分別処理を行う。例えば、該ユーザが付与した分別符号が共通である文書中に頻出する語を抽出し、文書ごとに含まれる、抽出した単語の種類、各単語が持つ評価値及び出現数の傾向情報を文書ごとに解析し、該傾向情報と同じ傾向を持つ文書に対して、共通の分別符号の付与を行う(STEP400)。
 第5段階では、第4段階でユーザが分別符号を付与した文書に対して、解析した傾向情報に基づいて付与すべき分別符号を決定し、該決定した分別符号とユーザの付与した分別符号を比較し、分別処理の妥当性の検証を行う(STEP500)。また、必要に応じて、文書分別処理の結果に基づいて学習処理を行っても良い。
 第4段階及び第5段階の処理に用いられる傾向情報は、各文書が持つ、分別符号が付与された文書との類似の度合いを表すものをいい、各文書が含む単語の種類、出現数、単語の評価値に基づくものをいう。例えば、各文書が、所定の分別符号を付与された文書と、該所定の分別符号との関連度において類似である場合に、該2つの文書は同じ傾向情報を持つという。また、含まれる単語の種類は異なっていても、評価値が同じ単語を同じ出現数で含む文書について、同じ傾向を持つ文書としてもよい。
 第1段階から第5段階の各段階における詳細な処理フローを以下で説明する。
 <第1段階(STEP100)>
 第1段階におけるキーワードデータベース104の詳細な処理フローを図4を用いて説明する。
 キーワードデータベース104は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応するキーワードを特定する(STEP111)。この特定は、本発明の実施形態においては、各分別符号が付与された文書を解析し、該文書中の各キーワードの出現数及び評価値を用いて行うが、キーワードが持つ伝達情報量を用いる方法や、ユーザが手動で選択する方法等を用いてもよい。
 本発明の実施形態においては、例えば、分別符号「重要」のキーワードとして「侵害」及び「弁理士」というキーワードが特定された場合、「侵害」及び「弁理士」が分別符号「重要」と密接な関係を持つキーワードであることを示すキーワード対応情報を作成する(STEP112)。そして、特定されたキーワードをキーワードデータベース104に登録する。この際、特定されたキーワードとキーワード対応情報を関係付けてキーワードデータベース104の分別符号「重要」の管理テーブルに記録する(STEP113)。
 次に、関連用語データベース105の詳細な処理フローを図5を用いて説明する。関連用語データベース105は、過去の訴訟において文書を分別した結果を踏まえ、それぞれの分別符号ごとに管理用のテーブルを作成し、各分別符号に対応する関連用語を登録する(STEP121)。本発明の実施形態においては、例えば、「製品A」の関連用語として「符号化処理」及び「製品a」並びに「製品B」の関連用語として「復号化」及び「製品b」を登録する。
 登録したそれぞれの関連用語がどの分別符号に対応するものかを示す関連用語対応情報を作成し(STEP122)、各管理テーブルに記録する(STEP123)。このとき、関連用語対応情報には、各関連用語の持つ評価値及び分別符号を決定するのに必要なスコアとなる閾値も併せて記録される。
 実際に分別作業を行う前に、キーワードとキーワード対応情報、及び関連用語と関連用語対応情報を最新のものに更新登録する(STEP113、STEP123)。
 <第2段階(STEP200)>
 第2段階における第1自動分別部201の詳細な処理フローを、図6を用いて説明する。本発明の実施形態において、第2段階では、第1自動分別部201によって、分別符号「重要」を文書に付与する処理を行う。
 第1自動分別部201では、第1段階(STEP100)でキーワードデータベース104に登録したキーワード「侵害」及び「弁理士」を含む文書を文書情報から抽出する(STEP211)。該抽出した文書に対して、キーワード対応情報から、該キーワードが記録されている管理テーブルを参照し、(STEP212)、「重要」という分別符号を付与する(STEP213)。
 <第3段階(STEP300>
 第3段階における第2自動分別部301の詳細な処理フローを、図7を用いて説明する。
 本発明の実施形態において、第2自動分別部301では、第2段階(STEP200)で分別符号を付与しなかった文書情報に対して、「製品A」及び「製品B」という分別符号を付与する処理を行う。
 第2自動分別部301は、該文書情報から、第1段階で関連用語データベース105に記録した関連用語「符号化処理」、「製品a」、「復号化」及び「製品b」を含む文書を抽出する(STEP311)。該抽出した文書に対して、記録した4つの関連用語の出現頻度、評価値に基づいて、式(1)を用いて、スコア算出部116によりスコアを算出する(STEP312)。該スコアは各文書と分別符号「製品A」及び「製品B」との関連度を表している。
 該スコアが閾値を超過した場合、関連用語対応情報を参照し(STEP313)、適切な分別符号を付与する(STEP314)。
 例えば、ある文書において関連用語「符号化処理」及び「製品a」の出現頻度並びに関連用語「符号化処理」が持つ評価値が高く、分別符号「製品A」との関連度を示すスコアが閾値を超過した際、該文書には分別符号「製品A」が付与される。
 このとき、該文書に関連用語「製品b」の出現頻度も高く、分別符号「製品B」との関連度を示すスコアが閾値を超過した場合、該文書には分別符号「製品A」と併せて、「製品B」も付与される。一方、該文書に関連用語「製品b」の出現頻度が低く、分別符号「製品B」との関連度を示すスコアが閾値を超過しなかった場合には、該文書には分別符号「製品A」のみが付与される。
 第2自動分別部301では、第4段階のSTEP432において算出されるスコアを用いて以下に示す式(2)により、関連用語の評価値を再計算し、該評価値の重みづけを行う(STEP315)。
Figure JPOXMLDOC01-appb-I000002
 例えば、「復号化」の出現頻度が非常に高いがスコアが一定値以上低い、という文書が一定数以上発生した場合、関連用語「復号化」の評価値を下げて再度、関連用語対応情報に記録する。
 <第4段階(STEP400)>
 第4段階では、図8に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図9に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
 第4段階における分別符号受付付与部131の詳細な処理フローを、図8を用いて説明する。第4段階での処理対象となる文書情報からまず文書抽出部112が、ランダムに文書をサンプリングし、文書表示部130上で表示する。本発明の実施形態では、処理対象となる文書情報のうち2割の文書をランダムに抽出し、レビュワーによる分別対象とする。サンプリングは、文書の作成日時順や、名称順に文書を並べ、上から3割の文書を選ぶという抽出の仕方をしてもよい。
 ユーザは文書表示部130上に表示される図14に示す表示用画面11を閲覧し、各文書に対して付与する分別符号を選択する。分別符号受付付与部131は、該ユーザが選択した分別符号を受け付け(STEP411)、付与された分別符号に基づいて分別する(STEP412)。
 次に、文書解析部118の詳細な処理フローを、図9を用いて説明する。文書解析部118では、分別符号受付付与部131で分別符号ごとに分別された文書に共通して頻出する単語を抽出する(STEP421)。抽出した共通の単語の評価値を式(2)により解析し(STEP422)、該共通の単語の文書中の出現頻度を解析する(STEP423)。
 さらに、STEP422及びSTEP423によって解析した結果を踏まえて、「重要」という分別符号が付与された文書の傾向情報を解析する(STEP424)。
 図10は、STEP424によって、「重要」という分別符号が付与された文書に共通して頻出する単語を解析した結果のグラフである。
 図10において、縦軸R_hotは、ユーザによって分別符号「重要」が付与された全文書のうち、分別符号「重要」に紐づく単語として選定された単語を含み、かつ分別符号「重要」が付与された文書の割合を示している。横軸は、ユーザが分別処理を実施した全文書のうち、分別符号受付付与部131によってSTEP421で抽出された単語を含む文書の割合を示している。
 本発明の実施形態において、分別符号受付付与部131では、直線R_hot=R_allよりも上部にプロットされるような単語を、分別符号「重要」における共通の単語として抽出する。
 STEP421乃至STEP424の処理を、「製品A」及び「製品B」という分別符号が付与された文書に対しても実行し、該文書の傾向情報を解析する。
 次に、第3自動分別部401の詳細な処理フローを、図11を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して処理を行う。第3自動分別部401では、このような文書から、STEP424で解析した、分別符号「重要」、「製品A」及び「製品B」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP431)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP432)。また、STEP431で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP433)。
 第3自動分別部401では、さらに、STEP432で算出したスコアを用いて、分別結果を各データベースに反映する(STEP434)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行っても良い。
 更に、第3自動分別部401の詳細な処理フローの1例を、図12を用いて説明する。第3自動分別部401では、第4段階での処理対象の文書情報のうち、STEP411で分別符号受付付与部131によって分別符号の付与が受け付けられなかった文書に対して分別処理を行っても良い。第3自動分別部401では、引数が与えられなかった場合には(STEP441:なし)、該文書から、STEP424で解析した、分別符号「重要」が付与された文書の傾向情報と、同じ傾向情報を持つ文書を、抽出し(STEP442)、抽出した文書について、傾向情報をもとに式(1)を用いてスコアを算出する(STEP443)。また、STEP442で抽出した文書に対して、傾向情報に基づいて適切な分別符号を付与する(STEP444)。
 第3自動分別部401では、さらに、STEP443で算出したスコアを用いて、分別結果を各データベースに反映する(STEP445)。具体的には、スコアの低い文書に含まれているキーワード及び関連用語の評価値を下げ、一方、スコアの高い文書に含まれているキーワード及び関連用語の評価値を上げる処理を行う。
 上述のように第2自動分別部301と第3自動分別部401の両方でスコア算出が行われ、スコア算出の回数が多くなる場合には、スコア算出のためのデータをスコア算出データベース106に一括して格納しても良い。
 <第5段階(STEP500)>
 第5段階における品質検査部501の詳細な処理フローを図13を用いて説明する。品質検査部501では、分別符号受付付与部131が、STEP411で受け付けた文書に対して、文書解析部118がSTEP424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(STEP511)。
 分別符号受付付与部131が受け付けた分別符号とSTEP511で決定した分別符号とを比較し(STEP512)、STEP411で受け付けた分別符号の妥当性を検証する(STEP513)。
 本発明の実施形態に係る文書調査システム1は、学習部601を備えても良い。学習部601では、第1から第4の処理結果をもとに、各キーワード又は関連用語の重みづけを式(2)により学習する。該学習結果をキーワードデータベース104、関連用語データベース105、又はスコア算出データベース106に反映しても良い。
 本発明の実施形態に係る文書調査システム1は、文書分別処理の結果をもとに、訴訟案件( 例えば、訴訟であればカルテル・特許・FCPA・PLなど)、又は不正調査(例えば、情報漏洩、架空請求など) の調査種類に合わせて最適な調査レポートの出力を行うための報告作成部701を備える。
 調査種類によって、調査する内容は異なる。
 例えば、カルテル案件であれば、
1.競合の担当者がカルテルに関連する意思疎通(価格の調整)を、いつ・どのように取ったか?
2.関係者はどの組織の誰か?がポイントになる。
 また、特許侵害であれば、
1.侵害の対象になっている技術と内容が同じか?
2.誰が、いつ、どのような意図をもって(持たずに)侵害したか、もしくはしていないか?といったことがポイントになる。
 このように、調査の種類又はカテゴリーにより調査する内容に相違が生じる。
 本発明の実施形態では、調査種別と調査内容に相違があっても、調査種別と調査内容に応じて報告を自動的に作成する。
 本発明の実施形態の他の実施例について以下に記載する。
 本発明の実施形態の他の実施例では、類似の検索情報に対応して、既に分別符号を付与した文書を解析し、解析結果に基づいて分別符号を付与する範囲を調整する方法を用いる。
 類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法がある。類似の検索情報に対応して類似の検索情報をクラスタリングして分別符号を付与する範囲を調整する方法には、例えば、メタデータの共通性に着目して、原文書、原文書の返信文書、原文書の返信文書の返信文書に共通の分別符号を付与する場合がある。分別結果を学習して予測分別を行う方法では、分別結果について類似の検索情報を統合するように学習することによって、類似の検索情報について同一又は類似の分別符号を付与する。
 本発明の実施形態の他の実施例では、解析の対象となる文書の件数により、解析結果の信頼性が変化する。分別の対象となる文書の全件数に対して、統計的手法を加えて、どの時点で、全文書のどの割合について、解析結果に基づいて分別符号を付与する範囲を調整するか定めても良い。
 本発明の実施形態の他の実施例では、類似の検索情報に対応して分別符号を付与する範囲を調整する方法として、類似の検索情報に対応して検索情報をクラスタリングして分別符号を付与する範囲を調整する方法と、分別結果を学習して予測分別を行う方法の両方を実行して、分別符号を付与する文書の範囲を調整しても良い。これにより、本発明の実施形態の他の実施例では、これにより、迅速で的確な分別符号の付与を可能とすると共に、分別作業に伴う負担を軽減することができる。
 [本発明の実施形態の効果]
 本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにおいて、訴訟案件又は不正調査案件に応じて、過去の訴訟案件又は不正調査案件により蓄積して得られた情報を事前情報として収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより訴訟案件又は不正調査案件に応じて的確で信頼性を有する分別及び調査を実施することができる。
 また、本発明の事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラムにおいて、訴訟案件又は不正調査案件に応じて、過去の訴訟案件又は不正調査案件により蓄積して得られた情報を事前情報として収集及び解析し、解析された情報に基づいて訴訟又は不正調査に利用する文書情報の分別作業及び調査作業を行うことにより、当該文書情報の分別作業及び調査作業の負担を軽減することが可能となる。
1   文書調査システム
201 第1自動分別部
301 第2自動分別部
401 第3自動分別部
501 品質検査部
601 学習部
701 報告作成部
801 調査結果解析部
100 データ格納部
101 デジタル情報格納領域
103 調査結果データベース
104 キーワードデータベース
105 関連用語データベース
106 スコア算出データベース
107 事前情報構成データベース
109 データベース管理部
112 文書抽出部
114 ワード検索部
116 スコア算出部
118 文書解析部
120 事前情報構成部
122 翻訳部
124 傾向情報生成部
130 文書表示部
131 分別符号受付付与部
133 弁護士レビュー受付部
11      文書表示画面
 

Claims (6)

  1.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査システムにおいて、
     訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録する調査結果解析部と、
     新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデルの出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する事前情報構成部とを備える事前情報を提供する文書調査システム。
  2.  案件毎の分別及び調査結果に関連する情報を登録する調査結果データベースを格納するデータ格納部を備え、
     前記調査結果解析部が、調査結果解析部訴訟又は不正調査案件に関して、案件毎に案件種別、調査種別、言語種別、分別作業結果、予測分別作業結果を含む前記案件調査結果関連情報を収集及び解析し、前記調査結果関連情報の解析結果に基づいて、訴訟又は不正調査案件に関して調査するための前記調査モデルパラメータと調査モデルを作成又は更新し、前記案件調査結果関連情報と前記案件調査結果関連情報の解析結果、前記調査モデルパラメータ、及び前記調査モデルを前記調査結果データベースに登録し、
     前記事前情報構成部が、新たな調査案件の調査内容を特定する入力情報を受け付けると、前記調査結果データベースを検索して、前記入力情報に関連して前記調査結果データベースから調査モデルと調査モデルパラメータを抽出し、抽出した調査モデルと調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件を調査するための事前情報を構成する請求項1記載の事前情報を提供する文書調査システム。
  3.  前記調査結果解析部が、収集した案件調査結果関連情報と登録されている案件調査結果関連情報との関連性を調査し、収集した案件調査結果関連情報と登録されている案件調査結果関連情報とにおける共通の情報要素を抽出し、前記共通の情報要素に関連し、案件の形態素の重み付けパラメータを含む共通情報要素関連情報を追加、削除、又は更新することにより前記案件調査結果関連情報を解析する請求項1又は2記載の事前情報を提供する文書調査システム。
  4.  前記調査結果解析部が、前記共通情報要素関連情報を処理し、前記調査モデルパラメータに関連する情報を生成又は更新する請求項3記載の事前情報を提供する文書調査システム。
  5.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査方法において、
     コンピュータが、
     訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録し、
     新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する事前情報を提供する文書調査方法。
  6.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる、複数の文書から構成される文書情報を分析し、訴訟又は不正調査への利用が容易になるように、訴訟又は不正調査との関連度を調査するため事前情報を提供する文書調査プログラムにおいて、
     コンピュータに、
     訴訟又は不正調査案件に関して、案件毎の分別作業結果を含む案件調査結果関連情報を収集及び解析し、訴訟又は不正調査案件に関して調査するための調査モデルパラメータを作成又は更新し、前記調査モデルパラメータを登録する機能と、
     新たな調査案件の調査内容を特定する入力情報を受け付けると、登録された前記調査モデルパラメータを検索して、前記入力情報に関連して調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて、調査モデル出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成し、提供する機能を実現する事前情報を提供する文書調査プログラム。
     
PCT/JP2014/057108 2013-09-06 2014-03-17 事前情報を提供する文書調査システム WO2015033605A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/916,142 US20160260184A1 (en) 2013-09-06 2014-03-17 Document investigation system, document investigation method, and document investigation program for providing prior information

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013184604A JP5669904B1 (ja) 2013-09-06 2013-09-06 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP2013-184604 2013-09-06

Publications (1)

Publication Number Publication Date
WO2015033605A1 true WO2015033605A1 (ja) 2015-03-12

Family

ID=52573809

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/057108 WO2015033605A1 (ja) 2013-09-06 2014-03-17 事前情報を提供する文書調査システム

Country Status (4)

Country Link
US (1) US20160260184A1 (ja)
JP (1) JP5669904B1 (ja)
TW (1) TW201514903A (ja)
WO (1) WO2015033605A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10642941B2 (en) * 2015-04-09 2020-05-05 International Business Machines Corporation System and method for pipeline management of artifacts
CN112885441B (zh) * 2021-02-05 2023-07-18 深圳市万人市场调查股份有限公司 医院内部员工满意度调查系统及方法
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
JP2001337971A (ja) * 2000-05-29 2001-12-07 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類方法のプログラムを記録した記憶媒体
US20090150168A1 (en) * 2007-12-07 2009-06-11 Sap Ag Litigation document management
JP2010140318A (ja) * 2008-12-12 2010-06-24 Yahoo Japan Corp 文書分類器のパラメータを調整する文書分類装置及び方法
US20100250474A1 (en) * 2009-03-27 2010-09-30 Bank Of America Corporation Predictive coding of documents in an electronic discovery system
JP2011209931A (ja) * 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US20110321124A1 (en) * 2010-06-29 2011-12-29 Kisin Roman Enterprise Evidence Repository

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2799023B1 (fr) * 1999-09-24 2003-04-18 France Telecom Procede de classification thematique de documents, module de classification thematique et moteur de recherche incorporant un tel module
AUPR033800A0 (en) * 2000-09-25 2000-10-19 Telstra R & D Management Pty Ltd A document categorisation system
US6751614B1 (en) * 2000-11-09 2004-06-15 Satyam Computer Services Limited Of Mayfair Centre System and method for topic-based document analysis for information filtering
NO316480B1 (no) * 2001-11-15 2004-01-26 Forinnova As Fremgangsmåte og system for tekstuell granskning og oppdagelse
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US9600568B2 (en) * 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
US8165974B2 (en) * 2009-06-08 2012-04-24 Xerox Corporation System and method for assisted document review
US8515957B2 (en) * 2009-07-28 2013-08-20 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via injection
US7933859B1 (en) * 2010-05-25 2011-04-26 Recommind, Inc. Systems and methods for predictive coding
US20140280042A1 (en) * 2013-03-13 2014-09-18 Sap Ag Query processing system including data classification
US9122681B2 (en) * 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000035963A (ja) * 1998-07-17 2000-02-02 Nec Corp 文章自動分類装置及び方法
JP2001337971A (ja) * 2000-05-29 2001-12-07 Ricoh Co Ltd 文書分類装置、文書分類方法及び文書分類方法のプログラムを記録した記憶媒体
US20090150168A1 (en) * 2007-12-07 2009-06-11 Sap Ag Litigation document management
JP2010140318A (ja) * 2008-12-12 2010-06-24 Yahoo Japan Corp 文書分類器のパラメータを調整する文書分類装置及び方法
US20100250474A1 (en) * 2009-03-27 2010-09-30 Bank Of America Corporation Predictive coding of documents in an electronic discovery system
JP2011209931A (ja) * 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US20110321124A1 (en) * 2010-06-29 2011-12-29 Kisin Roman Enterprise Evidence Repository

Also Published As

Publication number Publication date
TW201514903A (zh) 2015-04-16
JP2015052863A (ja) 2015-03-19
US20160260184A1 (en) 2016-09-08
JP5669904B1 (ja) 2015-02-18

Similar Documents

Publication Publication Date Title
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
US20160292803A1 (en) Document Analysis System, Document Analysis Method, and Document Analysis Program
JP5683749B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5592552B1 (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
WO2015118616A1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
WO2015118619A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5990562B2 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5829768B2 (ja) 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム
JP2015056185A (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015145524A1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14841545

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 14916142

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 14841545

Country of ref document: EP

Kind code of ref document: A1