WO2015015826A1 - 文書分別システム及び文書分別方法並びに文書分別プログラム - Google Patents

文書分別システム及び文書分別方法並びに文書分別プログラム Download PDF

Info

Publication number
WO2015015826A1
WO2015015826A1 PCT/JP2014/057097 JP2014057097W WO2015015826A1 WO 2015015826 A1 WO2015015826 A1 WO 2015015826A1 JP 2014057097 W JP2014057097 W JP 2014057097W WO 2015015826 A1 WO2015015826 A1 WO 2015015826A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
classification
unit
documents
information
Prior art date
Application number
PCT/JP2014/057097
Other languages
English (en)
French (fr)
Inventor
守本 正宏
喜勝 白井
秀樹 武田
和巳 蓮子
彰晃 花谷
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to KR1020167003855A priority Critical patent/KR101780807B1/ko
Priority to EP14832354.6A priority patent/EP3029582A4/en
Priority to US14/396,189 priority patent/US20160275147A1/en
Publication of WO2015015826A1 publication Critical patent/WO2015015826A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to a document sorting system, a document sorting method, and a document sorting program, and more particularly to a document sorting system, a document sorting method, and a document sorting program for document information related to litigation.
  • Patent Document 1 discloses a digital document in which a specific person is designated from at least one or more users included in the user information and is accessed based on access history information regarding the specified specific person. Extracts only the information, sets the accompanying information indicating whether each extracted digital document information document file is related to a lawsuit, and outputs a document file related to the lawsuit based on the supplementary information
  • a forensic system is disclosed.
  • Patent Document 2 recorded digital information is displayed, and for each of a plurality of document files, a user identification indicating which of the users included in the user information relates to the user is specified. Information is set, the set user identification information is set to be recorded in the storage unit, at least one user is specified, and the user identification information corresponding to the specified user is set Searches the document file, sets incidental information indicating whether or not the retrieved document file is related to the lawsuit, and outputs the document file related to the lawsuit based on the supplementary information. A forensic system is disclosed.
  • Patent Document 3 accepts designation of at least one or more document files included in the digital document information, accepts designation of which language the designated document file is translated into, and designates the document file for which designation is accepted.
  • Translated into the language that accepted the specification extracted from the digital document information recorded in the recording unit a common document file showing the same content as the specified document file, the extracted common document file was translated
  • a forensic system that generates translation-related information indicating that a document file has been translated by using the translation content of the document file, and outputs a document file related to a lawsuit based on the translation-related information.
  • Patent Document 1 a forensic system such as Patent Document 1 to Patent Document 3
  • a large amount of document information of users using a plurality of computers and servers is collected.
  • an object of the present invention is to provide a document sorting system, a document sorting method, and a document sorting program that can reduce the burden on reviewers.
  • the document discrimination system of the present invention acquires digital information recorded in a plurality of computers or servers, analyzes document information included in the acquired digital information, and classifies the information so that it can be easily used in a lawsuit.
  • a document classification system an extraction unit that extracts a document group that is a data set including a predetermined number of documents from document information, and a classification code that a user assigns to the extracted document group based on the relevance to a lawsuit
  • a classification code reception unit that receives the classification code, and a selection unit that classifies the extracted document group for each classification code based on the classification code, and analyzes and selects keywords that appear in common in the classified document group;
  • a search unit for searching the selected keyword from the document information, and using the search result of the search unit and the analysis result of the selection unit, a score indicating the relevance between the classification code and the document is calculated.
  • a score calculation unit, an automatic classification unit that automatically assigns a classification code to document information based on the result of the score, and a calculation result of the score calculation unit and / or a classification result of the automatic classification unit are displayed on the screen
  • the display control part to control is provided.
  • Document means data including one or more keywords. For example, e-mails, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, and the like.
  • Keyword refers to a group of character strings having a certain meaning in a certain language. For example, if a keyword is selected from a sentence “classify a document”, it may be “document” or “classify”.
  • Classification code refers to an identifier used to classify documents. For example, when document information is used as evidence in a lawsuit, it may be given according to the type of evidence.
  • “Score” refers to a document that quantitatively evaluates the strength of connection with a specific classification code.
  • the score calculation unit may calculate the score based on keywords appearing in the document group and the weighting of each keyword.
  • the weighting can be determined based on the amount of information transmitted in each classification code that the keyword has.
  • the extraction unit may perform sampling at random when extracting a document group from document information.
  • the search unit has a function of searching for the keyword from document information composed of documents not assigned with a classification code
  • the score calculation unit analyzes the search result of the search unit and the selection unit Using the result, a score indicating the relevance between the classification code and the document is calculated, and the automatic classification unit extracts a document for which the classification code is not accepted in the classification code reception unit, and automatically performs the processing on the document. It is also possible to provide a function for assigning a classification code.
  • the search unit has a function of searching for related terms from the document information
  • the score calculation unit has a function of calculating a score based on a result of the search unit searching for related terms.
  • the automatic classification unit may further have a function of automatically assigning a classification code based on the score calculated using the related terms.
  • the display control unit can also divide the score calculated by the score calculation unit into a plurality of ranges, and display the total number of documents included in each range of the plurality of ranges in descending order of score.
  • the display control unit can also display the ratio of documents relevant to the lawsuit out of the total number of documents.
  • the display control unit can also divide the score calculated by the score calculation unit into a plurality of ranges, and display the ratio of the number of documents relevant to the lawsuit for each range of the plurality of ranges.
  • the document classification system of the present invention further includes a size estimation unit that estimates an appropriate size of a document group that is a data set including a predetermined number of documents to be extracted from document information, and the extraction unit is estimated by the size estimation unit. It is also possible to extract a document group of a different size from the document information.
  • the document classification system of the present invention further includes a document number estimation unit that estimates the number of documents related to a lawsuit included in the document information based on the classification result of the document group received by the classification code reception unit. Also good.
  • the document number estimation unit can also estimate the number of documents related to the lawsuit included in the document information based on the ratio of the number of documents determined to be related to the lawsuit by classification with respect to the extracted document group.
  • the document classification system of the present invention may include a document number calculation unit that calculates the number of documents required when the user reconfirms the result of sorting the document information sorted by the automatic sorting unit.
  • the document number calculation unit can also calculate the number of documents necessary for reconfirmation based on the relationship between the document determined to be related to the lawsuit by the automatic sorting unit and the score calculated by the score calculation unit.
  • the number-of-documents calculation unit displays the recall ratio, which is the ratio of documents determined to be related to a lawsuit by the automatic classification unit, and the ranking of the scores calculated by the score calculation unit among the documents related to the lawsuit among the document information.
  • the number of documents required for reconfirmation can also be calculated based on the relationship with the normalization order divided by the number of documents included in the.
  • recall and normalization rank can also be calculated by nonlinear regression analysis.
  • the display control unit can also display on the screen the number of documents required when the user reconfirms the number calculated by the document number calculation unit.
  • the document classification system of the present invention selects a document that does not include a keyword correlated with the keyword selected by the selection unit, the related term, and the classification code from among the documents included in the document group. You may provide the document exclusion part which excludes the document selected from object.
  • the document classification system of the present invention may further include a database having a function of extracting and recording related terms related to the classification code.
  • a learning unit that increases or decreases keywords and related terms having a correlation between the analysis result of the selection unit and the classification code recorded in the database selected by the selection unit based on the score calculated by the score calculation unit Good.
  • the document classification method of the present invention acquires digital information recorded in a plurality of computers or servers, analyzes document information included in the acquired digital information, and classifies the document information so that it can be easily used in a lawsuit.
  • a document group that is a data set including a predetermined number of documents is extracted from the document information, and a classification code given by the user based on the relevance to the lawsuit is received for the extracted document group, Based on the classification code, the extracted document group is classified for each classification code, and keywords that appear in common in the classified document group are analyzed and selected, and the selected keyword is searched from the document information.
  • a score indicating the relationship between the classification code and the document is calculated, and the classification code is automatically assigned to the document information based on the score result. , And it realizes a function of controlling to display the sorted results of the calculation results and / or the automatic sorting of the score on the screen.
  • the document classification program of the present invention acquires digital information recorded in a plurality of computers or servers, analyzes document information included in the acquired digital information, and classifies the document information so that it can be easily used in a lawsuit.
  • a function for extracting a document group which is a data set including a predetermined number of documents, from a document information to a computer, and a user gives to the extracted document group based on relevance to a lawsuit
  • a score indicating the relevance between the classification code and the document is calculated using the search function for the keyword from the document information and the search result of the search unit and the analysis result of the selection unit.
  • a function for automatically assigning a classification code to document information based on the result of the score and a function for controlling the calculation result of the score and / or the classification result of the automatic classification to be displayed on
  • the document discrimination system, the document discrimination method, and the document discrimination program according to the present invention control to display the score calculation result and / or the automatic classification result on the screen. For this reason, the burden by the reviewer can be reduced.
  • FIG. 1 is a configuration diagram of a document discrimination system according to a first embodiment of the present invention.
  • Diagram showing the relationship between sample size and error level The graph which showed the analysis result in the selection part in the embodiment of the present invention Graph showing fitting results
  • the chart which showed the flow of the process for every step in embodiment of this invention The chart which showed the processing flow of the database in the embodiment of the present invention
  • the chart which showed the processing flow of the search part in embodiment of this invention The chart which showed the processing flow of the score calculation part in embodiment of this invention
  • the chart which showed the processing flow of the automatic classification part in the embodiment of the present invention The chart which showed the processing flow of the sample size estimation part in the embodiment of the present invention
  • the chart which showed the processing flow of the extraction part in the embodiment of the present invention The chart which showed the processing flow of the display control part in the embodiment of the present invention
  • the chart which showed the processing flow of the classification code reception part in the embodiment of the present invention The chart which showed the processing flow of the document number estimation part in embodiment of this invention
  • FIG. 1 shows a configuration diagram of a document discrimination system according to the first embodiment.
  • the first embodiment is an example in a case where a document related to product A, which is a suspected product, is separated when responding to a document submission order in a patent infringement lawsuit.
  • the document classification system includes a size estimation unit 101 that estimates an appropriate size of a document group that is a data set including a predetermined number of documents to be extracted from document information, and data including a predetermined number of documents from the document information. Based on the relevance of a user called a reviewer to a displayed document group, an extraction unit 102 that extracts a set of document groups, and a display control unit 103 that displays the extracted document groups on the screen.
  • the classification code receiving unit 104 that receives the classification code assigned in step S1 and the document number estimation that estimates the number of documents related to the lawsuit included in the document information based on the classification result of the document group received by the classification code reception unit 104 Based on the classification code, the extracted document group is classified for each classification code, and keywords that appear in common in the classified document group are analyzed.
  • the selection unit 106 to be determined, the database 200 for recording the selected keyword, the search unit 107 for searching the keyword recorded in the database 200 from the document information, the search result of the search unit 107 and the analysis result of the selection unit 106 are used.
  • the score calculation unit 108 that calculates a score indicating the relationship between the classification code and the document, the automatic classification unit 109 that automatically assigns the classification code based on the result of the score, and the document that is classified by the automatic classification unit 109
  • An endpoint calculation unit 110 is provided that calculates the number of documents (endpoints) required when the reviewer reconfirms the information classification result (hereinafter referred to as “confirmation review”).
  • the document classification system includes a size estimation unit 101, an extraction unit 102, a display control unit 103, a classification code reception unit 104, a document number estimation unit 105, a selection unit 106, a search unit 107, and a score calculation unit. 108, an automatic classification unit 109, an endpoint calculation unit 110, a document classification unit 100 including a document exclusion unit 111 and a learning unit 112, a database 200, and a client device 300 used by a reviewer.
  • a plurality of client devices 300 can be provided in one document discrimination system.
  • the document classification device 100 and the client device 300 are computers or servers, and operate as various functional units when the CPU executes programs recorded in the ROM based on various inputs.
  • the classification code is an identifier used when classifying documents. When document information is used as evidence in a lawsuit, it may be given according to the type of evidence.
  • the classification code “unrelated” indicating a document having no evidence capability in the current case, “relevant” indicating that the document needs to be submitted as evidence, and particularly related to the product A
  • There are three “important” codes indicating that the document is a document, and among these, documents to which “important” codes are assigned are classified.
  • Document refers to digital information that is submitted as evidence in a lawsuit and refers to data that contains one or more words. For example, e-mails, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, and the like. It is also possible to handle scan data as a document. In this case, an OCR (Optical Character Recognition) device may be provided in the document discrimination system so that the scan data can be converted into text data. By changing to text data by the OCR device, it becomes possible to analyze and search keywords and related terms from the scan data.
  • OCR Optical Character Recognition
  • a “related” code is assigned to the minutes or e-mails that describe the contents of the meeting related to the product A, and the “important” sign is added to the development plan or design document of the product A.
  • "And a" unrelated "code are given to materials such as regular meetings that are irrelevant to the product A.
  • a keyword is a group of character strings having a certain meaning in a certain language. For example, if a keyword is selected from a sentence “classify a document”, it may be “document” or “classify”. In the first embodiment, keywords such as “infringement”, “lawsuit”, and “patent publication No. XX” are selected with priority.
  • the database 200 is a recording device that records data on an electronic medium, and may be inside the document sorting device 100 or may be installed outside as a storage device, for example.
  • the document sorting apparatus 100, the database 200, and the client apparatus 300 are connected via a wired or wireless network. It can also be used in the form of cloud computing.
  • the database 200 records keywords for each classification code. Further, based on the result of the past classification process, a keyword that can be determined can be registered in advance if the “important” code is immediately given if it is highly relevant to the product A and included in the document. For example, main function names of the product A and keywords such as “lawsuit”, “warning”, and “patent publication”. Similarly, general terms that are highly relevant to the document group to which the “important” code is assigned because of high relevance to the product A are extracted from the results of past classification processing and registered as related terms. Is possible. The keywords and related terms once registered in the database 200 are increased or decreased according to the learning result by the learning unit 112, and can be additionally registered and deleted manually.
  • the size estimation unit 101 estimates an appropriate size of a document group (hereinafter also referred to as a sample) that is a data set including a predetermined number of documents to be extracted from document information. All the samples extracted by the extraction unit 102 described later need to be reviewed by the reviewer. However, if the ratio of documents to be extracted with respect to all document information (hereinafter also referred to as sample size) is large, the reliability of the review result is improved, but the burden on the reviewer is increased. On the other hand, if the ratio of documents to be extracted is small, the burden on the reviewer is reduced, but the reliability of the review result is lowered. Therefore, it is necessary to extract samples so that the reviewer's burden is reduced while maintaining the reliability of the review results.
  • a document group hereinafter also referred to as a sample
  • sample size the ratio of documents to be extracted with respect to all document information
  • the size estimation unit 101 estimates the ratio of documents to be extracted from all document information, that is, the sample size so that the burden on the reviewer is reduced while maintaining the reliability of the review result.
  • the size estimation unit 101 estimates the ratio of documents to be extracted from all document information, that is, the sample size so that the burden on the reviewer is reduced while maintaining the reliability of the review result.
  • N HOT the number of documents included in all document information.
  • a document related to a lawsuit included in this all document information is N HOT .
  • N HOT is unknown and needs to be estimated.
  • the reliability (CL: confidence level) of the estimated value p is assumed to be 95%, for example.
  • the estimated value p is unknown (because N HOT is unknown). However, assuming that the estimated value p (half of all document information is a document related to a lawsuit) is 0.5 (this is the value at which p (1-p) is the maximum) as the worst case.
  • the expression (4) becomes the following expression (5). Note that the estimated value p may be set by the user using a client device 300 described later.
  • Table 1 shows the cases where the reliability (CL) is 95% and 99%. As shown in Table 1, under the condition of N >> ns, sample size n s becomes independent values not related to document the number N of all document information.
  • FIG. 2 shows the relationship between the sample size ns and the error level ⁇ p.
  • the vertical axis represents the sample size (n s )
  • the horizontal axis represents the error level ⁇ p.
  • FIG. 2 shows the cases where the reliability (CL) is 95% and 99%. As shown in FIG. 2, it can be seen that the smaller the error level ⁇ p, the larger the ratio of documents to be extracted (sample size n s ) with respect to all document information.
  • the size estimation unit 101 estimates the ratio (sample size) of documents to be extracted with respect to all document information using the above equation (5).
  • the extraction unit 102 can perform sampling at random when extracting a document group from document information.
  • the proportion of documents estimated by the size estimation unit 101 is extracted at random and set as a classification target by a reviewer.
  • the ratio of documents that the extraction unit 102 extracts from all document information can be changed manually. When setting the ratio of documents to be extracted from all document information manually, it is preferable to refer to the sample size estimated by the size estimation unit 101.
  • the display control unit 103 presents a document display screen I1 as shown in FIG.
  • the document display screen I1 has a screen structure in which a document to be classified is displayed in the center and a classification code is displayed on the left side. Is something that can be done.
  • a screen structure in which a portion for displaying a document and a portion for displaying a classification code are different screens may be used.
  • the classification code 1 in the document display screen I1 means “unrelated” code
  • the classification code 2 means “related” code
  • the classification code 3 means “important” code.
  • the minor category 1 is assigned to a document related to the price of the product A
  • the minor category 2 is assigned to a document related to the development schedule of the product A. It is given.
  • a plurality of small classifications may be provided for one classification code, or may not be provided.
  • the classification code receiving unit 104 assigns a classification code based on the determination to the document that is reviewed by the reviewer among the document information displayed by the display control unit 103 and has determined the classification code one by one. Can be classified. Document classification can be performed according to a given classification code.
  • the document number estimation unit 105 estimates the number of documents related to the lawsuit included in the document information based on the classification result of the document group received by the classification code reception unit 104.
  • a document number estimation method by the document number estimation unit 105 will be described.
  • N HOT est is expressed by the following equation (7).
  • a p TAG n TAG / n s .
  • the document number N HOT est estimated to be related to the lawsuit is statistically within the range of the predetermined reliability (CL).
  • CL predetermined reliability
  • the estimated n TAG value is It becomes.
  • Table 2 shows the values of the number of documents N HOT est when the nTAG values are different when the reliability (CL) is 95% and 99%.
  • the number-of-documents estimation unit 105 estimates the number of documents N HOT est estimated to be related to a lawsuit out of the number of documents N of all document information using the above equation (8).
  • the selection unit 106 analyzes the document information classified by the classification code receiving unit 104, and frequently appears in common in the document information to which the classification codes “unrelated”, “related”, and “important” are assigned. Are selected as keywords in the classification code.
  • FIG. 3 is a graph showing the result of analyzing the document to which the “important” code is assigned by the selection unit 106.
  • the vertical axis R_hot includes a keyword selected as a keyword associated with the “important” code among all the documents assigned with the “important” code by the reviewer, and is given the “important” code. Shows the percentage.
  • the horizontal axis represents the ratio of documents including the keyword selected by the selection unit 106 among all the documents that have been subjected to the sorting process by the reviewer.
  • the search unit 107 has a function of searching for a specific keyword from the target document.
  • the search unit 107 is composed of documents that have not been given a classification code by the classification code receiving unit 104 when searching for a document including the keyword selected by the selection unit 106 or related terms extracted from the database 200. Search for a group of documents.
  • the score calculation unit 108 can calculate a score from the following expression based on the keywords appearing in the document group and the weighting of each keyword.
  • the score is a score obtained by quantitatively evaluating the strength of connection with a specific classification code in a certain document.
  • m i Appearance frequency of the i-th keyword or related term
  • the classification code reception unit 104 extracts a document for which the classification code is not accepted and extracts the document. It is also possible to provide a function for automatically assigning a classification code.
  • the sorting result by the automatic sorting unit 109 may be confirmed by a reviewer to ensure reliability. However, if all the sorted documents are confirmed and reviewed, the reviewer is burdened and inefficient. On the other hand, if the number of documents to be confirmed and reviewed is small, the burden on the reviewer is reduced, but the reliability of the review results is reduced. Therefore, it is necessary to determine the number of documents to be confirmed and reviewed so as to reduce the burden on the reviewer while maintaining the reliability of the review result.
  • the endpoint calculation unit 110 calculates the number of documents (hereinafter also referred to as an endpoint) necessary for the reviewer to check and review the classification result of the document information sorted by the automatic sorting unit 109.
  • an endpoint the number of documents necessary for the reviewer to check and review the classification result of the document information sorted by the automatic sorting unit 109.
  • a method for calculating the number of documents by the endpoint calculation unit 110 will be described.
  • “recall rate (recall)” and “normalized rank (normalized rank)” can be used. It can also be used.
  • the “recall rate” is an index of completeness indicating how many of the documents related to the lawsuit included in the document information are sorted by the automatic sorting unit 109. For example, if the number of all documents related to a lawsuit included in the document information is 100, and the number of documents classified as being related to a lawsuit by the automatic sorting unit 109 is 80, the recall rate is 80%.
  • the “relevance rate” is an accuracy index indicating how many of the confirmed and reviewed documents are sorted by the automatic sorting unit 109.
  • the F value is a harmonic average of precision and recall.
  • the “normalized rank” is a standardized rank (rank) of each document based on the score calculated by the score calculation unit 108. For example, when the number of documents is 100, the standardized rank of a document whose rank (rank) by score is 20 is 0.2. Further, when the number of documents is 1000, the standardized rank of the document whose rank (rank) according to the score is 200 is similarly 0.2.
  • the recall rate y can be expressed by the following equation (9), for example.
  • x is a normalization order
  • ⁇ and ⁇ are fitting parameters.
  • the fitting parameter ⁇ approximately matches the saturated recall value. That is, the saturated recall can be used to determine the endpoint.
  • equation (9) is an example, and the endpoint may be determined based on another regression model.
  • FIG. 4 shows the fitting result based on the equation (9).
  • the recall value is also increased.
  • the value of the standardization order exceeds 0.1 (10%)
  • the value of the recall is saturated from 0.864 (84.6%) even when the value of the standardization order is increased. Become.
  • the number of documents with the highest 10% rank is set to the number of documents (endpoint) necessary for reconfirmation, thereby ensuring the reliability of the classification result and reducing the burden on the reviewer. Can do.
  • the document excluding unit 111 searches the sentence information to be classified, and searches for a document that does not include any of the keywords and related terms registered in advance in the database 200 and the keyword selected by the selecting unit 106. It is possible to exclude from the classification target in advance.
  • the learning unit 112 learns the weighting of each keyword based on the result of the classification process, and increases or decreases keywords and related terms registered in the database 200 based on the learning result.
  • the weighting of each keyword can also be determined based on the amount of information transmitted in each classification code that the keyword has. The weighting is learned from the following formula every time the classification process is repeated, and the accuracy can be improved.
  • Wgt i, 0 Weight of the i-th selected keyword before learning (initial value)
  • Wgt i, L Weight of the i-th selected keyword after the L-th learning ⁇ L : Learning parameter in the L-th learning
  • the learning unit can take a learning method in which the classification result is reflected in the weighting using a neural network.
  • the client device 300 is a device that is used by the reviewer to check the document information and determine the classification code to be given.
  • the separation process is performed in five stages according to the flowchart as shown in FIG.
  • the keyword registered at this time is a keyword to which an “important” code is immediately given when it is included in a document, such as the name of a function or the name of a technology that is regarded as an infringement of product A.
  • a document including the keyword registered in the first stage is searched from all document information. When the document is found, an “important” code is assigned.
  • the related terms registered in the first stage are searched from all the document information, the score of the document including the related terms is calculated, and classification is performed.
  • the classification code is automatically assigned based on the regularity classified by the reviewer.
  • learning is performed using the results of the first to fourth stages.
  • Second stage> The processing flow of the database 200 in the first stage will be described in detail with reference to FIG. It is determined which stage of processing is to be performed in the database 200, and the first stage of processing is selected (STEP 1: first stage).
  • first, keywords are pre-registered in the database 200 (STEP 2). Registered at this time are keywords that can be determined from the result of past classification processing if they are highly relevant to product A and are immediately included in the document if they are given an “important” code.
  • general terms that are highly relevant to the document group to which the “important” code is assigned because of high relevance to the product A are extracted (STEP 3) and registered as related terms. (STEP4).
  • StepP 1 Determine what stage processing is to be performed in the database 200 and select the second stage processing (STEP 1: second stage). If there is a keyword that needs to be registered in advance in the database 200 (STEP 5: YES), additional registration is performed (STEP 6). When there is no keyword to be additionally registered (STEP 5: NO) and after the processing of STEP 6 is completed, the search unit 107 determines what level of processing is to be performed, and selects the second level of processing (STEP 11: second). Stage). At this stage, the search unit 107 first determines whether there is a keyword pre-registered in the first stage and the second stage in the database 200 (STEP 12). When there is no keyword registered in advance (STEP 12: NO), the process in the second stage ends.
  • the automatic sorting unit 109 When the automatic sorting unit 109 receives the notification from the search unit 107 (STEP 29: second stage, STEP 30: YES), it assigns an “important” code to the document subject to the notification, and ends the processing. (STEP 31). If the notification is not received from the search unit 107 (STEP 29: second stage, STEP 30: NO), no processing is performed.
  • ⁇ Third stage> The processing flow of the database 200, the search unit 107, the score calculation unit 108, and the automatic sorting unit 109 in the third stage will be described in detail with reference to FIG. 6, FIG. 7, FIG.
  • StepP 1 Determine what stage processing is to be performed in the database 200 and select the third stage processing (STEP 1: third stage). If there is a related term that needs to be registered in advance in the database 200 (STEP 7: YES), additional registration is performed (STEP 8). If additional registration of related terms is not required (STEP 7: NO), the third stage process is terminated.
  • the search unit 107 determines what level of processing is to be performed, and selects the third level of processing (STEP 11: third level). At this stage, the search unit 107 determines whether there is a related term registered in the first stage and the second stage in the database 200 (STEP 16). When there is no keyword registered in advance (STEP 16: NO), the third stage process is terminated.
  • the score calculation unit 108 when the notification is received from the search unit 107 (STEP 24: third stage, STEP 25: YES), the type of the related term found in the document using the above formula (11) and the related The score of each document is calculated from the weighting of the term and notified to the automatic sorting unit 109 (STEP 26).
  • the notification that the related term has been found is not received from the search unit 107 (STEP 24: third stage, STEP 25: NO)
  • the third stage process is terminated.
  • the automatic classification unit 109 When the automatic classification unit 109 receives a score notification from the score calculation unit 108 (STEP 29: third stage, STEP 32: YES), it determines whether the score exceeds the threshold for each document, and the score exceeds the threshold The “important” code is assigned to the received document, and if there is no document whose score exceeds the threshold, the process is terminated without assigning (STEP 33).
  • the size estimation unit 101 estimates the ratio of documents to be extracted from all document information, that is, the sample size so as to reduce the burden on the reviewer while maintaining the reliability of the review result (STEP 34). ).
  • the extraction unit 102 randomly samples a document from the document information to be classified by the sample size estimated by the size estimation unit 101, and a reviewer manually assigns a document group to which a classification code is assigned. Extract (STEP 35).
  • the display control unit 103 displays the extracted document group on the document display screen I1 (STEP 36).
  • the reviewer reads the contents of each document with respect to the document group displayed on the document display screen I1, and determines whether or not there is a relationship between the product A and the contents of the document. Decide whether to grant.
  • the document to which the reviewer assigns an “important” sign is, for example, a report on the result of investigating the prior art of product A, or a warning letter warned by another person that the manufacture of product A is a patent infringement. .
  • the classification code assigned by the reviewer is received by the classification code receiving unit 104 (STEP 37), and the document is classified according to the assigned classification code (STEP 38).
  • the document number estimation unit 105 estimates the number of documents related to the lawsuit included in the document information based on the classification result of the document group received by the classification code reception unit 104 (STEP 39). Note that the estimated number of documents may be displayed on the client device 300.
  • the selection unit 106 performs keyword analysis on each document classified in STEP 38 (STEP 40), and selects a keyword having a large number of appearances in common with the document assigned the “important” code (STEP 41).
  • the search unit 107 when the keyword related to the “important” code is not registered in the database 200 (STEP 20: NO), the process in the fourth stage is finished. If the keyword is registered (STEP 20: YES), the document extracted by the extraction unit 102 and classified by the reviewer is omitted from the search target, and the search for the keyword is executed for each remaining document (STEP 21). . In the search, when a keyword is found in the document (STEP 22: YES), the score calculation unit 108 is notified (STEP 23).
  • the score calculation unit 108 When the score calculation unit 108 receives a keyword discovery notification (STEP 27: YES), the score calculation unit 108 calculates a score for each document using the above equation (11) and notifies the automatic classification unit 109 (STEP 28).
  • the automatic classification unit 109 When the automatic classification unit 109 receives a notification from the score calculation unit 108 (STEP 32: YES), it determines whether the score exceeds the threshold for each document, and assigns an “important” code to the document that exceeds the threshold. Then, the process is terminated without assigning to the documents that did not exceed (STEP 33). Further, the endpoint calculation unit 110 calculates the number of documents (endpoints) required when the reviewer confirms and reviews the classification result of the document information sorted by the automatic sorting unit 109 (STEP 42).
  • a search is performed to determine whether there is a document including the related term registered in the third stage and the keyword registered in the fourth stage. If there is any document that has not been found (STEP 43: YES), the document is Exclude from the classification target in advance (STEP 44).
  • the learning unit 112 learns the weighting of each keyword according to the expression (12) based on the first to fourth processing results.
  • the learning result is reflected in the database 200 (STEP 45).
  • the display control unit 103 presents the document display screen I1 as shown in FIG. 19 to the client device 300. As shown in FIGS. ”,“ Relevant ⁇ Recall”, and “Relevant” may be displayed on the client device 300.
  • the vertical axis is% and the horizontal axis is score.
  • the sample classification result by the reviewer is indicated by a dotted line
  • the classification result by the automatic classification unit 109 is indicated by a solid line.
  • “Indication of review progress and quantity” (review progress and quantity (number of documents)) may be displayed in the lower right of each of FIGS. reference).
  • the denominator is the total number of documents
  • the numerator is a score value of 1 to 10000 divided by the system parameter setting value interval
  • the divided score This is the number of documents in the denominator corresponding to the range accumulated in descending order.
  • the value (%) on the vertical axis of “Relevant Recall” shown in FIG. 21 is the number of documents with the Relevant tag out of the total number of documents in the denominator, and the numerator is Relevant in the denominator documents (related to lawsuits). This is the number of documents that are tagged).
  • the value (%) on the vertical axis of “Relevant” shown in FIG. 22 is the number of documents in which the denominator divides score values of 1 to 10000 by the system parameter setting value intervals and falls within the divided score range.
  • the numerator is the number of documents in the denominator document that are tagged as Relevant.
  • band graph of “Indication” of “review”, “progress” and “quantity” may be displayed on a different screen from “Document” Sum ”,“ Relevant ”Recall”, and “Relevant”. 20 to 22, “Document Sum”, “Relevant Recall”, and “Relevant” are individually displayed, but all may be displayed as shown in FIG. Note that the dotted and solid lines in FIG. 23 have the same meaning as the dotted and solid lines in FIGS.
  • “Document Sum”, “Relevant Recall”, “Relevant”, or a plurality of them can be viewed simultaneously, improving convenience.
  • Chi-squared test This is a basic statistical evaluation method, and it is possible to judge similarity when the number of samples is at least.
  • Similarity is an inner product of two functions, and is expressed by the following equation (13).
  • y si is the y value (Recall) of the i-th sample.
  • y di is the y value (Recall) of the i-th document (of all documents).
  • n is the number of the data point in the sample.
  • “Recall” is a function of “normalized rank”, and in this case, the similarity between the two functions (Recall and normalized rank) is given using the inner product of all the data in the sample.
  • RMSE root mean square error
  • y si is the y value (Recall) of the i-th sample.
  • y di is the y value (Recall) of the i-th document (of all documents).
  • n is the number of the data point in the sample.
  • RMSE indicates an average error without correlation. However, this error is an indicator of how close (similar) the data of the sample and all documents are.
  • the document discrimination system according to the present invention adopts an eDiscovery (electronic evidence disclosure) system such as a cartel or an antitrust law, It can be used in any lawsuit that requires submission.
  • eDiscovery electronic evidence disclosure
  • the fourth stage processing for automatically assigning the classification code based on the regularity classified by the reviewer is performed after the first stage to the third stage processing. It is also possible to perform only the fourth stage process alone without performing the first to third stage processes.
  • a part of the document group is extracted from the document information by the extraction unit 102, and first, the process in the fourth stage is first performed on the extracted document group. Thereafter, an embodiment may be adopted in which the first to third stage processes are performed based on the keywords registered in the fourth stage.
  • the search unit 107 searches for the keyword selected by the selection unit 106 for the document that the classification code has not been received in the classification code reception unit 104.
  • the keyword may be searched for document information.
  • the classification code receiving unit 104 sets only documents that have not received a classification code as targets for automatic classification code assignment. It is good also as an object of grant.
  • a document discrimination system, a document discrimination method, and a document discrimination program according to the present invention estimate an appropriate size of a document group that is a data set including a predetermined number of documents to be extracted from document information.
  • the group is extracted from the document information, and the user assigns the classification code based on the relevance with the lawsuit, so that the labor of the classification work of the reviewer can be reduced.
  • the number of documents related to the lawsuit included in the document information is estimated based on the classification result of the document group received by the classification code reception unit, so it is easy to understand how many documents are related to the lawsuit. can do.
  • the search unit has a function of searching for a keyword from document information composed of a document to which no classification code is assigned
  • the score calculation unit includes a search result and a selection unit of the search unit Using the analysis result, a score indicating the relevance between the classification code and the document is calculated, and the automatic classification unit extracts a document that has not received the classification code in the classification code reception unit,
  • a function for automatically assigning a classification code is provided, a classification code is automatically assigned to the document information that was not accepted by the classification code receiving unit based on the regularity that the reviewer has classified. It is possible to do.
  • the present invention provides a learning unit that increases or decreases keywords and related terms having a correlation between the analysis result of the selection unit and the classification code recorded in the database selected by the selection unit based on the score calculated by the score calculation unit. When it is provided, it is possible to improve the separation accuracy every time the number of separations is repeated.
  • the database extracts and records related terms that are related to the classification code
  • the search unit searches for the related terms from the document information
  • the score calculation unit searches for the related terms by the search unit.
  • the score is calculated
  • the automatic classification unit automatically assigns a classification code based on the score calculated using the related terms
  • the selection unit selects among the documents included in the document group.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Tourism & Hospitality (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 レビュワーによる負担を軽減できる文書分別システム及び文書分別方法並びに文書分別プログラムを提供する。 文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する自動分別部と、スコア算出部の算出結果及び/又は自動分別部の分別結果を画面に表示するよう制御する表示制御部を備える。

Description

文書分別システム及び文書分別方法並びに文書分別プログラム
 本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。
 従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
 特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
 一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
 そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
 近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
 また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
 さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011-209930号公報 特開2011-209931号公報 特開2012-32859号公報
 しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータ及びサーバを利用した利用者の膨大な文書情報を収集することになる。
 このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれるユーザが目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力がかかるという問題があった。
 本発明は、上記事情に鑑みレビュワーによる負担を軽減できる文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とする。
 本発明の文書判別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する自動分別部と、前記スコア算出部の算出結果及び/又は前記自動分別部の分別結果を画面に表示するよう制御する表示制御部を備える。
 「文書」とは、1つ以上のキーワードを含むデータをいう。例えば電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。
 「キーワード」とは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。
 「分別符号」とは、文書を分類する際に用いる識別子のことをいう。例えば、訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。
 「スコア」とは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。例えばスコア算出部は、文書群中に出現するキーワードと、各キーワードの持つ重みづけによりスコアを算出してもよい。一例として該重みづけは、キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。
 また、本発明の文書判別システムにおける、抽出部は、文書情報から文書群を抽出する際に、ランダムにサンプリングを行ってもよい。
 本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。
 また、本発明の文書分別システムにおいて探索部は、関連用語を文書情報から探索する機能を備え、スコア算出部は、探索部が関連用語を探索した結果をもとにスコアを算出する機能を備え、自動分別部は、更に、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与する機能を備えてもよい。
 表示制御部は、スコア算出部により算出されるスコアを複数の範囲に分け、複数の範囲の各範囲に含まれる文書数をスコアの高い順に累計した数を表示することも可能である。
 表示制御部は、全文書数のうち訴訟に関連性がある文書の割合を表示することも可能である。
 表示制御部は、スコア算出部により算出されるスコアを複数の範囲に分け、複数の範囲の各範囲について、訴訟に関連性がある文書数の割合を表示することも可能である。
 本発明の文書分別システムは、文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部をさらに備え、抽出部は、サイズ推定部により推定されたサイズの文書群を前記文書情報から抽出することも可能である。
 また、本発明の文書分別システムは、分別符号受付部で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定する文書数推定部を備えていてもよい。
 文書数推定部は、抽出された文書群に対する、分別により訴訟に関連するとされた文書数の割合に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定することもできる。
 また、本発明の文書分別システムは、自動分別部により分別された文書情報の分別結果をユーザが再確認する際に必要な文書数を算出する文書数算出部を備えていてもよい。
 文書数算出部は、自動分別部により訴訟に関連するとされた文書とスコア算出部により算出されたスコアとの関係に基づいて、再確認に必要な文書数を算出することもできる。
 文書数算出部は、文書情報のうち訴訟に関連する文書のうち、自動分別部により訴訟に関連するとされた文書の割合である再現率と、スコア算出部により算出されたスコアの順位を文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、再確認に必要な文書数を算出することもできる。
 再現率と規格化順位との関係は、非線形回帰分析により算出されることもできる。
 非線形回帰分析により算出された再現率と規格化順位との関係において、規格化順位の値を大きくしていった際に、再現率の値が飽和する規格化順の値に基づいて、再確認に必要な文書数を算出することもできる。
 表示制御部は、文書数算出部により算出されたユーザが再確認する際に必要な文書数を画面上に表示することもできる。
 また、本発明の文書分別システムは、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する文書排除部を備えてもよい。
 本発明の文書分別システムは、更に、分別符号と関連性のある関連用語を抽出し、記録する機能を備えるデータベースを備えてもよい。また、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えてもよい。
 本発明の文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別方法において、文書情報から所定数の文書を含むデータセットである文書群を抽出し、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付け、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、選定したキーワードを文書情報から探索し、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、スコアの結果に基づいて、文書情報に自動で分別符号を付与し、前記スコアの算出結果及び/又は前記自動分別の分別結果を画面に表示するよう制御する機能を実現するものである。
 本発明の文書分別プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、コンピュータに、文書情報から所定数の文書を含むデータセットである文書群を抽出する機能と、抽出された文書群に対して、ユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける機能と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する機能と、選定したキーワードを文書情報から探索する機能と、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出する機能と、スコアの結果に基づいて、文書情報に自動で分別符号を付与する機能と、前記スコアの算出結果及び/又は前記自動分別の分別結果を画面に表示するよう制御する機能を実現させるものである。
 本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、スコアの算出結果及び/又は自動分別の分別結果を画面に表示するよう制御している。このため、レビュワーによる負担を軽減できる。
本発明の第1の実施形態に係る文書判別システムの構成図 サンプルサイズとエラーレベルとの関係を示す図 本発明の実施形態における選定部での解析結果を示したグラフ フィッティング結果を示したグラフ 本発明の実施形態における段階ごとの処理の流れを示したチャート 本発明の実施形態におけるデータベースの処理フローを示したチャート 本発明の実施形態における探索部の処理フローを示したチャート 本発明の実施形態におけるスコア算出部の処理フローを示したチャート 本発明の実施形態における自動分別部の処理フローを示したチャート 本発明の実施形態におけるサンプルサイズ推定部の処理フローを示したチャート 本発明の実施形態における抽出部の処理フローを示したチャート 本発明の実施形態における表示制御部の処理フローを示したチャート 本発明の実施形態における分別符号受付部の処理フローを示したチャート 本発明の実施形態における文書数推定部の処理フローを示したチャート 本発明の実施形態における選定部の処理フローを示したチャート 本発明の実施形態におけるエンドポイント算出部の処理フローを示したチャート 本発明の実施形態における文書排除部の処理フローを示したチャート 本発明の実施形態における学習部の処理フローを示したチャート 本発明の実施形態における文書表示画面 本発明の実施形態における文書表示画面 本発明の実施形態における文書表示画面 本発明の実施形態における文書表示画面 本発明の実施形態における文書表示画面
[第1の実施形態]
 以下、本発明の実施の形態を添付の図により説明する。図1に第1の実施形態に係る文書判別システムの構成図を示す。
 第1の実施形態は、特許侵害訴訟における文書提出命令に対応する際に、被疑製品である製品Aに関する文書を分別処理する場合の実施例である。
 本発明にかかる文書分別システムは、文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部101と、文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部102と、抽出された文書群を画面上に表示する表示制御部103と表示された文書群に対して、レビュワーと呼ばれるユーザが訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部104と、分別符号受付部104で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定する文書数推定部105と、分別符号に基づいて、抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部106と、選定したキーワードを記録するデータベース200と、データベース200に記録されたキーワードを文書情報から探索する探索部107と、探索部107の探索結果と選定部106の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部108と、スコアの結果に基づいて自動で分別符号を付与する自動分別部109と、自動分別部109により分別された文書情報の分別結果をレビュワーが再確認(以下、「確認レビュー」という。)する際に必要な文書数(エンドポイント)を算出するエンドポイント算出部110を備えている。
 第1の実施形態において、該文書分別システムは、サイズ推定部101、抽出部102、表示制御部103、分別符号受付部104、文書数推定部105、選定部106、探索部107、スコア算出部108、自動分別部109、エンドポイント算出部110、文書排除部111及び学習部112を備える文書分別装置100、データベース200及びレビュワーが利用するクライアント装置300から構成される。クライアント装置300は1つの文書判別システム内に複数備えることも可能である。
 文書分別装置100及びクライアント装置300は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。
 分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。第1の実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、証拠として提出する必要があることを表す「関係あり」、及び製品Aととりわけ関わりがある文書であることを表す「重要」の3つの符号を備えており、このうち「重要」符号が付与される文書を分別するものである。
 ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、1つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にOCR(Optical Character Recognition)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。
 例えば、第1の実施形態においては、製品Aに関する打ち合わせについての内容が記載された議事録や電子メール等に「関係あり」符号が付与され、製品Aの開発計画書や設計書等に「重要」符号が付与され、製品Aとは無関係の定例会等の資料に「無関係」符号が付与される。
 また、キーワードは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。第1の実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。
 データベース200は、電子媒体にデータを記録する記録装置であり、文書分別装置100の内部にあってもよいし、例えばストレージ装置として外部に設置してもよい。
 文書分別装置100、データベース200及びクライアント装置300は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
 データベース200は、各分別符号についてのキーワードを記録しているものである。また、過去の分別処理の結果から、製品Aと関連性が高く文書中に含まれれば直ちに「重要」符号を付与すると、判断できるキーワードを事前に登録することができる。例えば製品Aの主要機能名や、「訴訟」、「警告」、「特許公報」のようなキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し、関連用語として登録しておくことも可能である。一度データベース200に登録されたキーワード及び関連用語は、学習部112による学習結果によって増減される他、手動によっても追加登録・及び削除が可能である。
 サイズ推定部101は、文書情報から抽出すべき所定数の文書を含むデータセットである文書群(以下、サンプルとも記載する)の適切なサイズを推定する。後述の抽出部102により抽出されるサンプルは、すべてレビュワーがレビューする必要がある。しかし、全文書情報に対して抽出する文書の割合(以下、サンプルサイズとも記載する)が大きいとレビュー結果の信頼性は向上するが、レビュワーの負担が増加する。一方、抽出する文書の割合が小さいとレビュワーの負担は軽減されるが、レビュー結果の信頼性が低下してしまう。このため、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるようにサンプルを抽出する必要がある、
 上述の課題を解決するため、サイズ推定部101は、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるように、全文書情報から抽出する文書の割合、すなわちサンプルサイズを推定する。以下、サイズ推定部101によるサンプルサイズの推定方法について説明する。
 全文書情報に含まれる文書数をNとする。また、この全文書情報に含まれる訴訟に関連する文書をNHOTとする。ここで、NHOTは、未知であり推定が必要である。推定量p(=NHOT/N)に対して許容可能なエラーレベル(統計誤差)Δpを、例えば、0.01(1%)と仮定する。次に、推定値pの信頼度(C.L.: confidence level)を、例えば、95%と仮定する。
 上記のように、仮定するとエラーレベルΔpは、以下の(1)式で表される。
Figure JPOXMLDOC01-appb-I000001
 上記(1)をサンプルサイズnで整理すると、以下の(2)式となる。
Figure JPOXMLDOC01-appb-I000002
 なお、上記(1)式、(2)式において、γは、信頼度(C.L.)に対する信頼係数であり、γ=1.96で信頼度(C.L.)が95%、γ=2.58で信頼度(C.L.)が99%となる。
 ここで、Nがnに比べて十分に大きな値(N>>n)である場合、以下の(3)式が成り立つ。
 このため、nの値は、以下の(4)式で表される。
Figure JPOXMLDOC01-appb-I000004
 上記(4)式において、推定値pは、未知である(NHOTが未知であるため)。しかしながら、最悪のケースとして推定値p(全文書情報のうち半分が訴訟に関連する文書)が0.5(これは、p(1-p)が最大となる値である)と仮定すると、上記(4)式は、以下(5)式となる。なお、推定値pは、後述のクライアント装置300を利用して、ユーザが設定できるようにしてもよい。
Figure JPOXMLDOC01-appb-I000005
 次に、エラーレベルΔpが0.01(1%)の場合におけるサンプルサイズnの値を算出した例を表1に示す。表1には、信頼度(C.L)が95%の場合と、99%の場合とを示している。なお、表1に示すように、N>>nsの条件では、サンプルサイズnは、全文書情報の文書数Nに関係しない独立した値となる。
Figure JPOXMLDOC01-appb-T000006
 次に、サンプルサイズnsと、エラーレベルΔpの関係を図2に示す。図2において、縦軸は、サンプルサイズ(n)、横軸は、エラーレベルΔpである。なお、図2には、信頼度(C.L.)が95%の場合と、99%の場合とを示した。図2に示すように、エラーレベルΔpの値が小さくなるほど、全文書情報に対して抽出する文書の割合(サンプルサイズn)が大きくなることがわかる。
 以上のように、サイズ推定部101は、上記(5)式を用いて、全文書情報に対して抽出する文書の割合(サンプルサイズ)を推定する。
 抽出部102は、文書情報から文書群を抽出する際に、ランダムにサンプリングを行うことが可能である。第1の実施形態では、全文書情報のうち上記サイズ推定部101により推定された割合の文書をランダムに抽出し、レビュワーによる分別対象とする。抽出部102が全文書情報から抽出する文書の割合は、マニュアル(手動)で変更することも可能である。なお、マニュアルで全文書情報から抽出する文書の割合を設定する場合、サイズ推定部101で推定されたサンプルサイズを参照することが好ましい。
 表示制御部103は、クライアント装置300に対して、図19に示されるような文書表示画面I1を提示する。文書表示画面I1は、図19のように中央に分別対象となる文書が表示し、左側に分別符号が表示するような画面構造で1画面内に分別対象の文書と付与する分別符号を表示することができるものである。文書を表示する箇所と分別符号を表示する箇所がそれぞれ別画面となる画面構造であってもよい。
 第1の実施形態において、文書表示画面I1中の分別符号1は「無関係」符号、分別符号2は「関係あり」符号及び分別符号3は「重要」符号を意味する。また、「関係あり」符号を付与された文書のうち、小分類1は製品Aの価格と関係がある文書に対して付与され、小分類2は製品Aの開発スケジュールと関係がある文書に対して付与されるものである。小分類は1つの分別符号に複数備えてもよいし、備えない場合があってもよい。
 分別符号受付部104は、表示制御部103が表示した文書情報のうち、レビュワーが目視により確認し、ひとつひとつ分別符号を決定した文書に対して、該決定に基づいて分別符号を付与し、該文書を分類することが可能である。文書の分類は付与された分別符号によって行うことが可能である。
 文書数推定部105は、分別符号受付部104で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書数を推定する。以下、文書数推定部105による文書数の推定方法について説明する。
 抽出部102により抽出された文書のうちレビュワーにより訴訟に関連すると分別符号を付与された文書数をnTAGとすると、分別対象である全文書情報の文書数Nのうち訴訟に関連すると推定される文書数NHOT estは、以下の(6)式で近似される。
Figure JPOXMLDOC01-appb-I000007
 より正確には、NHOT estの値は、以下の(7)式となる。
Figure JPOXMLDOC01-appb-I000008
ここで、pTAG=nTAG/nである。
 つまり、全文書情報の文書数Nのうち訴訟に関連すると推定される文書数NHOT estは、統計学的に所定の信頼度(C.L.)の範囲内に収まる。次に、一例を示す。この例では、全文書情報の文書数Nを35、929とする。また、抽出部102により抽出された文書数nsを3000(Δp≦1.7%)とする。
 抽出部102により文書が無作為に抽出され、分別符号が正しく付与されたとすると、推定されるnTAGの値は、
Figure JPOXMLDOC01-appb-I000009
となる。
 nが8であるとして、全文書情報の文書数Nのうち訴訟に関連すると推定される文書数NHOT estは、以下の(8)式となる。
Figure JPOXMLDOC01-appb-I000010
なお、上記(8)式における文書数NHOT est信頼度(C.L.)は、95%である。
 nTAGの値が異なる場合における文書数NHOT estの値を信頼度(C.L.)が、95%、99%の場合について以下の表2に示す。
Figure JPOXMLDOC01-appb-T000011
 以上のように、文書数推定部105は、上記の(8)式を用いて、全文書情報の文書数Nのうち訴訟に関連すると推定される文書数NHOT estを推定する。
 選定部106は、分別符号受付部104が分類した文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する。
 図3は選定部106の「重要」符号が付与された文書を解析した結果を示したグラフである。
 図3において、縦軸R_hotは、レビュワーによって「重要」符号が付与された全文書のうち、「重要」符号に紐づくキーワードとして選定されたキーワードを含み、かつ「重要」符号が付与された文書の割合を示している。横軸は、レビュワーが分別処理を実施した全文書のうち、選定部106によって選定されたキーワードを含む文書の割合を示している。
 第1の実施形態において、選定部106では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。
 探索部107は、対象となる文書中から特定のキーワードを探索する機能を備える。探索部107は、選定部106で選定されたキーワードあるいはデータベース200で抽出された関連用語を含む文書を、探索する際において、分別符号受付部104によって分別符号の付与を受け付けなかった文書から構成される文書群を対象として探索するものである。
 スコア算出部108は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより以下の式からスコアを算出することが可能である。スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。
Figure JPOXMLDOC01-appb-I000012
:i番目のキーワード又は関連用語の出現頻度
Figure JPOXMLDOC01-appb-I000013
 自動分別部109は、算出されたスコアに基づいて文書情報に自動で分別符号を付与する際において、分別符号受付部104において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。
 自動分別部109による分別結果は、信頼性担保のために、レビュワーによる確認レビューを行う場合がある。しかしながら、分別されたすべての文書について確認レビューを行うと、レビュワーの負担が大きく、また非効率でもある。一方、確認レビューする文書数が少ないとレビュワーの負担は軽減されるが、レビュー結果の信頼性が低下してしまう。このため、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるように確認レビューすべき文書数を決定する必要がある。
 エンドポイント算出部110は、自動分別部109により分別された文書情報の分別結果をレビュワーが確認レビューする際に必要な文書数(以下、エンドポイントとも記載する)を算出する。以下、エンドポイント算出部110による文書数の算出方法について説明する。
 エンドポイント算出部110による文書数の算出には、「再現率(recall)」と「規格化順位(normalized rank)」を用いることができるが、再現率に代えて、適合率やF値等を用いることもできる。「再現率(recall)」とは、文書情報に含まれる訴訟に関連するすべての文書のうち、どれだけの文書が自動分別部109により分別されているかを示す網羅性の指標である。例えば、文書情報に含まれる訴訟に関連するすべての文書数が100とし、自動分別部109により訴訟に関連すると分別された文書数が80とすると、再現率は80%となる。「適合率」とは、確認レビューした文書数のうち、どれだけの文書が自動分別部109により分別されているかを示す正確性の指標である。F値とは、適合率と再現率の調和平均である。
 また、「規格化順位(normalized rank)」とは、スコア算出部108により算出されたスコアによる各文書のランク(順位)を規格化したものである。例えば、文書数が100ある場合に、スコアによるランク(順位)が20位の文書の規格化順位は、0.2となる。また、文書数が1000ある場合に、スコアによるランク(順位)が200位の文書の規格化順位は、同様に0.2となる。
 ここで、非線形回帰モデルを用いた場合、再現率yは、例えば以下の(9)式で表すことができる。
Figure JPOXMLDOC01-appb-I000014
 上記(9)式において、xは、規格化順位であり、α,βは、フィッティングパラメータである。
 フィッティングパラメータαは、近似的に、飽和した再現率の値と一致する。つまり、飽和した再現率は、エンドポイントの決定に用いることが可能である。なお、(9)式は一例であって、他の回帰モデルに基づいてエンドポイントを決定してもよい。(9)式によるフィッティング結果を図4に示す。
 図4に示すように、規格化順位(normalized rank)の値を大きくしていくに従い、再現率(recall)の値も大きくなる。しかし、規格化順位の値が0.1(10%)を超えると、規格化順位の値を大きくしても再現率の値が0.864(84.6%)から殆ど変わらない飽和状態となる。
 つまり、図4に示す例では、ランクが0.1以上の文書を確認レビューしても再現率がほとんど変わらないことを意味する。このため、図4に示す例では、ランクが上位10%の文書を再確認に必要な文書数(endpoint)とすることで、分別結果の信頼性を担保しつつ、レビュワーの負担を軽減することができる。
 文書排除部111は、分別対象となる文情報のうち、データベース200で事前に登録されたキーワード及び関連用語、並びに選定部106において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。
 学習部112は、分別処理の結果をもとに、各キーワードの重みづけを学習し、該学習結果をもとにデータベース200に登録されているキーワード及び関連用語の増減を行う。各キーワードがもつ重みづけは、該キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。該重みづけは以下の式より、分別処理を重ねるごとに学習し、精度を向上させることが可能である。
Figure JPOXMLDOC01-appb-I000015
Wgti,0:学習前のi番目の選定キーワードの重み(初期値)
Wgti,L:L回目学習後のi番目の選定キーワードの重み
γL:L回目学習における学習パラメータ
Figure JPOXMLDOC01-appb-I000016
 また、学習部では、ニューラルネットを用いて分別結果を重みづけに反映させる学習方法をとることも可能である。
 クライアント装置300は、レビュワーが操作し、文書情報を確認し付与する分別符号を決定するのに利用する装置である。
 第1の実施形態では、図5に示すようなフローチャートに従い、5つの段階で分別処理を行う。
第1段階では、過去の分別処理の結果を用いて、キーワードと関連用語の事前登録を行う。このとき登録されるキーワードは、製品Aの侵害行為とされている機能の名称や技術の名称など、文書中に含まれると直ちに「重要」符号が付与されるキーワードである。
第2段階では、第1段階で登録されたキーワードを含む文書を全文書情報から探索し、該文書を発見すると「重要」符号を付与する。
第3段階では、第1段階で登録された関連用語を全文書情報から探索し、該関連用語を含む文書のスコアを算出し、分別を行う。
第4段階では、レビュワーによる分別符号の決定を実施した後に、レビュワーの分別した規則性を踏まえ、自動で分別符号の付与を行う。
第5段階では、第1段階乃至第4段階の結果を用いて、学習を行う。
 <第1段階>
第1段階におけるデータベース200の処理フローを、図6を用いて詳細に説明する。データベース200で何段階目の処理を行うかを判断し、第1段階の処理を選択する(STEP1:第1段階)。本段階ではまず、データベース200でキーワードの事前登録を行う(STEP2)。このとき登録されるのは、過去の分別処理の結果から、製品Aと関連性が高く、文書中に含まれれば、直ちに「重要」符号を付与すると、判断できるキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し(STEP3)、関連用語として登録を行う(STEP4)。
 <第2段階>
第2段階におけるデータベース200、探索部107及び自動分別部109の処理フローを、図6、図7及び図9を用いて、詳細に説明する。
 データベース200で何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP1:第2段階)。データベース200において、更に事前に登録しておく必要のあるキーワードがある場合(STEP5:YES)、追加の登録を行う(STEP6)。追加で登録するキーワードがない場合(STEP5:NO)及びSTEP6の処理の完了後、探索部107で何段階目の処理を行うかを判断し、第2段階の処理を選択する(STEP11:第2段階)。本段階で、探索部107は、まずデータベース200内に第1段階及び第2段階で事前登録されたキーワードがあるか判定を行う(STEP12)。事前に登録されたキーワードが存在しない場合(STEP12:NO)、第2段階の処理は終了する。
 事前に登録されたキーワードが存在する場合(STEP12:YES)、分別対象となる文書情報の中に該キーワードを含む文書がないか、分別対象となる全文書情報に対して探索を行う(STEP13)。探索したキーワードが含まれる文書が存在しなかった場合(STEP14:NO)、第2段階の処理を終了する。一方、探索したキーワードが含まれる文書を発見した場合(STEP14:YES)、自動分別部109に通知を行う(STEP15)。
 自動分別部109では、探索部107から該通知を受けた場合(STEP29:第2段階、STEP30:YES)、該通知の対象となった文書に対して「重要」符号を付与し、処理を終了する(STEP31)。探索部107から該通知を受けなかった場合(STEP29:第2段階、STEP30:NO)、何も処理を行わない。
 <第3段階>
第3段階におけるデータベース200、探索部107、スコア算出部108及び自動分別部109の処理フローを、図6、図7、図8及び図9を用いて、詳細に説明する。
 データベース200で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP1:第3段階)。データベース200において、更に事前に登録しておく必要のある関連用語がある場合(STEP7:YES)、追加の登録を行う(STEP8)。関連用語の追加登録が必要ない場合(STEP7:NO)、第3段階の処理を終了する。
 STEP8の処理完了後、探索部107で何段階目の処理を行うかを判断し、第3段階の処理を選択する(STEP11:第3段階)。本段階で、探索部107は、データベース200内に第1段階及び第2段階で登録された関連用語があるか判定を行う(STEP16)。事前に登録されたキーワードが存在しない場合(STEP16:NO)、第3段階の処理は終了する。
 関連用語が存在する場合(STEP16:YES)、分別対象となる文書情報の中に該関連用語を含む文書がないか、分別対象となる全文書情報に対して探索を行う(STEP17)。探索したキーワードが含まれる文書が存在しなかった場合(STEP18:NO)、第3段階の処理を終了する。一方、探索した関連用語を含む文書を発見した場合(STEP18:YES)、スコア算出部108に通知を行う(STEP19)。
 スコア算出部108では、探索部107から該通知を受けた場合(STEP24:第3段階、STEP25:YES)、上述の式(11)を用いて、文書中から発見した関連用語の種類と該関連用語が持つ重みづけから各文書のスコアを算出し、自動分別部109に通知を行う(STEP26)。探索部107から関連用語を発見した通知を受けなかった場合(STEP24:第3段階、STEP25:NO)、第3段階の処理を終了する。
 自動分別部109では、スコア算出部108からスコアの通知を受けた場合、(STEP29:第3段階、STEP32:YES)、スコアが閾値を超過したかの判定を文書ごと行い、スコアが閾値を超過した文書には「重要」符号を付与し、スコアが閾値を超過した文書がなかった場合は付与せずに処理を終了する(STEP33)。
 <第4段階>
第4段階におけるデータベース200、探索部107、スコア算出部108、自動分別部109、サイズ推定部101、抽出部102、表示制御部103、分別符号受付部104、選定部106、エンドポイント算出部110の処理フローを、それぞれ図6~図16を用いて、詳細に説明する。
 第4段階では、まず、サイズ推定部101が、レビュー結果の信頼性を保ちつつ、レビュワーの負担が軽減されるように、全文書情報から抽出する文書の割合、すなわちサンプルサイズを推定する(STEP34)。次に、抽出部102において、分別対象となる文書情報から、サイズ推定部101により推定されたサンプルサイズ分だけランダムに文書をサンプリングし、レビュワーが手動で分別符号を付与する対象となる文書群を抽出する(STEP35)。表示制御部103において、抽出された文書群を、文書表示画面I1上に表示する(STEP36)。
 レビュワーは文書表示画面I1に表示された文書群に対し、各文書の内容を読んだ上で、製品Aと該文書の内容との間に関連性があるかどうかを判断し、「重要」符号を付与するかどうかを決定する。レビュワーが「重要」符号を付与する文書とは、例えば、製品Aの先行技術を調査した結果の報告書や、製品Aの製造は特許侵害であると他者から警告された警告状等である。
 レビュワーによって付与された分別符号は、分別符号受付部104によって受け付けられ(STEP37)、付与された分別符号に応じて文書が分類される(STEP38)。文書数推定部105は、分別符号受付部104で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定する(STEP39)。なお、推定した文書数をクライアント装置300に表示してもよい。
 選定部106では、STEP38で分類された各文書に対し、キーワード解析を行い(STEP40)、「重要」符号を付与された文書に共通して出現回数の多いキーワードを選定する(STEP41)。
 次に、データベース200では、STEP41で選定部106が選定したキーワードが、製品Aと関係があることを示す「重要」符号に関するキーワードとして未登録であった場合(STEP1:第4段階、STEP9:YES)、該キーワードの登録を行う。該キーワードが既に登録されていた場合、何も処理を行わない(STEP1:第4段階、STEP9:NO)。
 探索部107では、「重要」符号に関するキーワードがデータベース200に登録されていなかった場合(STEP20:NO)、第4段階の処理を終了する。該キーワードが登録されている場合(STEP20:YES)、抽出部102において抽出されレビュワーによって分類された文書を探索対象から省き、残りの各文書を対象として、該キーワードの探索を実行する(STEP21)。該探索において、文書中にキーワードを発見した場合(STEP22:YES)、スコア算出部108に通知を行う(STEP23)。
 スコア算出部108では、キーワード発見の通知を受けた場合(STEP27:YES)、上述の式(11)を用いて各文書についてスコアを算出し、自動分別部109に通知する(STEP28)。
 自動分別部109では、スコア算出部108から通知を受けると(STEP32:YES)、文書ごとにスコアが閾値を超過したかの判定を行い、閾値を超過した文書には「重要」符号を付与し、超過しなかった文書には付与せずに処理を終了する(STEP33)。また、エンドポイント算出部110は、自動分別部109により分別された文書情報の分別結果をレビュワーが確認レビューする際に必要な文書数(エンドポイント)を算出する(STEP42)。
 <第5段階>
第5段階での文書排除部111及び学習部112における処理フローを、それぞれ図17及び図18を用いて説明する。
 文書排除部111において、分別対象となる文書情報のうち、第1から第4段階の処理が未実施の文書群に対して、第1、第2段階において事前に登録されたキーワード、第1、第3段階において登録された関連用語及び第4段階において登録されたキーワードを含む文書があるかどうかの探索を行い、いずれも発見されなかった文書があった場合(STEP43:YES)、該文書を分別対象から事前に排除する(STEP44)。
 学習部112では、第1から第4の処理結果をもとに、各キーワードの重みづけを式(12)により学習する。該学習結果をデータベース200に反映する(STEP 45)。
 [実施形態の変形例]
本発明の実施形態の変形例を説明する。
 第1の実施形態では、表示制御部103は、クライアント装置300に対して、図19に示されるような文書表示画面I1を提示しているが、図20~22に示すように、「Document Sum」、「Relevant Recall」、「Relevant」をクライアント装置300に対して表示するようにしてもよい。
 図20~図22では、縦軸が%、横軸がスコアとなっている。また、「Document Sum」、「Relevant Recall」、「Relevant」の各々ついて、レビュワーによるサンプルの分別結果を点線で、自動分別部109による分別結果を実線で各々示している。さらに、図20~図22の各図の右下に、「Indication of review progress and quantity」(レビューの進捗状況と量(文書数))を表示するようにしてもよい(右下の帯グラフを参照)。
 図20に示す「Document Sum」の縦軸の値(%)は、分母が全文書数であり、分子が1~10000のスコアの値をシステムパラメータの設定値の間隔で分け、その分けたスコア範囲に該当する分母の文書数をスコアの高い順に累計した数である。
 図21に示す「Relevant Recall」の縦軸の値(%)は、分母が全文書数のうちRelevantのタグが付けられた文書数であり、分子が、分母の文書のうちRelevant(訴訟に関連性があり提出が必要と認められる文書)のタグが付けられた文書数である。
 図22に示す「Relevant」の縦軸の値(%)は、分母が、1~10000のスコアの値をシステムパラメータの設定値の間隔で分け、その分けたスコア範囲に該当する文書数であり、分子が、分母の文書のうちRelevant(関連性あり)のタグが付けられた文書数である。
 なお、「Indication of review progress and quantity」の帯グラフを「Document Sum」、「Relevant Recall」、「Relevant」とは別画面で表示するようにしてもよい。また、図20~22では、「Document Sum」、「Relevant Recall」、「Relevant」を個別に表示しているが、図23に示すように全てを表示するようにしてもよい。なお、図23の点線及び実線は、図20~図22の点線及び実線と同じ意である。
 さらに、ユーザが「Document Sum」、「Relevant Recall」、「Relevant」のいずれか、または複数を選択してクライアント装置300の画面上に表示できるように構成してもよい。「Document Sum」、「Relevant Recall」、「Relevant」を同時に視認できるので利便性が向上する。
 なお、上記図20~図22の点線(サンプルの分別結果)と実線(自動分別部109による分別結果)の確からしさ(双方の分別結果がどれだけ一致(類似もしくは近似しているか)は、「Chi-squared test」、「Similarity」、「RMSE」等により評価することができる。
「Chi-squared test」(カイ二乗検定)
 基本的な統計的評価手法であり、サンプル数が少なくとも、類似性の判断が可能である。
「Similarity」(類似度)
 「Similarity」は、2つの関数の内積であり、以下の(13)式で表される。
Figure JPOXMLDOC01-appb-I000017
ここで、
siは、i番目のサンプルのy値(Recall)である。
diは、(全文書中の)i番目の文書のy値(Recall)である。
nは、サンプルにおけるデータポイントの番号である。
 Recallは、規格化順位(normalized rank)」の関数であり、このケースでは、2つの関数(Recall及びnormalized rank)の類似度は、サンプル中のすべてのデータの内積を用いて与えられる。
「RMSE」(二乗平均平方根誤差)
 「RMSE」は、以下の(14)式で表される。
Figure JPOXMLDOC01-appb-I000018
ここで、
siは、i番目のサンプルのy値(Recall)である。
diは、(全文書中の)i番目の文書のy値(Recall)である。
nは、サンプルにおけるデータポイントの番号である。
 「RMSE」は、相関関係のない平均誤りを示している。しかしながら、この誤差は、サンプル及び全文書のデータ間がどれだけ近い(類似しているか)を示す指標となる。
 [その他の実施形態]
本発明のその他の実施形態を説明する。
 第1の実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、eDiscovery(電子証拠開示)制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。
 また、第1の実施形態において、レビュワーの分別した規則性を踏まえて自動で分別符号を付与する第4段階の処理を、第1段階乃至第3段階の処理の後に実施していたが、第1段階乃至第3段階の処理を行わず、第4段階の処理のみを単独で行ってもよい。
 さらに、抽出部102によって、文書情報から一部の文書群を抽出し、該抽出した文書群に対して、まず第4段階の処理を最初に行う。その後、第4段階で登録したキーワードを基に第1段階乃至第3段階の処理を行うという実施形態をとってもよい。
 探索部107において、第1の実施形態の第4段階では、分別符号受付部104において、分別符号が受け付けなかった文書に対して選定部106が選定したキーワードの探索を実施していたが、全文書情報を対象として該キーワードの探索を行ってもよい。
 自動分別部109において、第1の実施形態の第4段階では、分別符号受付部104において、分別符号が受け付けなかった文書のみを分別符号の自動付与の対象としていたが、全文書情報を該自動付与の対象としてもよい。
 本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定し、この推定されたサイズの文書群を文書情報から抽出して、ユーザが訴訟との関連性に基づいて分別符号を付与しているのでレビュワーの分別作業の労力の軽減を図ることができる。
 また、分別符号受付部で受け付けられた文書群の分別結果に基づいて、文書情報に含まれる訴訟に関連する文書の数を推定するので、どの程度の文書が訴訟に関連するかを容易に把握することができる。
 さらに、自動分別部により分別された文書情報の分別結果をユーザ(レビュワー)が確認レビューする際に必要な文書数を算出しているので、不必要に多くの文書数を確認レビューする必要がない。このため、レビュワーの分別作業の労力の軽減を図ることができる。
 また、本発明の文書判別システムにおける、探索部は、キーワードを分別符号の付与されていない文書により構成される文書情報から探索する機能を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、自動分別部は、分別符号受付部において、分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えた際において、分別符号受付部において分別符号の付与を受け付けなかった文書情報に対して、レビュワーの分別した規則性を踏まえて、自動で分別符号を付与することを可能とする。
 また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
 また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
100    文書分別装置
101    サイズ推定部
102    抽出部
103    表示制御部
104    分別符号受付部
105    文書数推定部
106    選定部
107    探索部
108    スコア算出部
109    自動分別部
110    エンドポイント算出部
111    文書排除部
112    学習部
200    データベース
300    クライアント装置
 

Claims (15)

  1.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、
     前記文書情報から所定数の文書を含むデータセットである文書群を抽出する抽出部と、
     前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける分別符号受付部と、
     前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する選定部と、
     前記選定したキーワードを前記文書情報から探索する探索部と、
     前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出するスコア算出部と、
     前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与する自動分別部と、
     前記スコア算出部の算出結果及び/又は前記自動分別部の分別結果を画面に表示するよう制御する表示制御部を備えることを特徴とする文書分別システム。
  2.  前記表示制御部は、
     前記スコア算出部により算出されるスコアを複数の範囲に分け、前記複数の範囲の各範囲に含まれる文書数をスコアの高い順に累計した数を表示することを特徴とする請求項1記載の文書分別システム。
  3.  前記表示制御部は、
     全文書数のうち前記訴訟に関連性がある文書の割合を表示することを特徴とする請求項1又は請求項2記載の文書分別システム。
  4.  前記表示制御部は、
     前記スコア算出部により算出されるスコアを複数の範囲に分け、前記複数の範囲の各範囲について、前記訴訟に関連性がある文書数の割合を表示することを特徴とする請求項1乃至請求項3のいずれか記載の文書分別システム。
  5.  前記文書情報から抽出すべき所定数の文書を含むデータセットである文書群の適切なサイズを推定するサイズ推定部をさらに備え、
     前記抽出部は、前記サイズ推定部により推定されたサイズの文書群を前記文書情報から抽出することを特徴とする請求項1乃至請求項4のいずれか記載の文書分別システム。
  6.  前記分別符号受付部で受け付けられた前記文書群の分別結果に基づいて、前記文書情報に含まれる前記訴訟に関連する文書の数を推定する文書数推定部をさらに備えることを特徴とする請求項1乃至請求項5のいずれか記載の文書分別システム。
  7.  前記文書数推定部は、
     前記抽出された文書群に対する、前記分別により前記訴訟に関連するとされた文書数の割合に基づいて、前記文書情報に含まれる前記訴訟に関連する文書の数を推定することを特徴とする請求項6記載の文書分別システム。
  8.  前記自動分別部により分別された前記文書情報の分別結果を前記ユーザが再確認する際に必要な文書数を算出する文書数算出部をさらに備えることを特徴とする請求項1乃至請求項7いずれか記載の文書分別システム。
  9.  前記文書数算出部は、前記自動分別部により前記訴訟に関連するとされた文書と前記スコア算出部により算出されたスコアとの関係に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項8記載の文書分別システム。
  10.  前記文書数算出部は、
     前記文書情報のうち前記訴訟に関連する文書のうち、前記自動分別部により前記訴訟に関連するとされた文書の割合である再現率と、前記スコア算出部により算出されたスコアの順位を前記文書情報に含まれる文書数で除算した規格化順位との関係に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項9記載の文書分別システム。
  11.  前記再現率と前記規格化順位との関係は、非線形回帰分析により算出されることを特徴とする請求項10記載の文書分別システム。
  12.  前記非線形回帰分析により算出された前記再現率と前記規格化順位との関係において、前記規格化順位の値を大きくしていった際に、前記再現率の値が飽和する前記規格化順の値に基づいて、前記再確認に必要な文書数を算出することを特徴とする請求項11記載の文書分別システム。
  13.  前記表示制御部は、
     前記文書数算出部により算出された前記ユーザが再確認する際に必要な文書数を前記画面上に表示することを特徴とする請求項8乃至請求項12のいずれか記載の文書分別システム。
  14.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別方法において、
     前記文書情報から所定数の文書を含むデータセットである文書群を抽出し、
     前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付け、
     前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定し、
     前記選定したキーワードを前記文書情報から探索し、
     前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出し、
     前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与し、
     前記スコアの結果及び/又は前記自動分別の分別結果を画面に表示するよう制御する文書分別方法。
  15.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムにおいて、
     コンピュータに、
     前記文書情報から所定数の文書を含むデータセットである文書群を抽出する機能と、
     前記抽出された文書群に対して、ユーザが前記訴訟との関連性に基づいて付与した分別符号を受け付ける機能と、
     前記分別符号に基づいて、前記抽出された文書群を分別符号ごとに分別し、該分別された文書群において、共通して出現するキーワードを解析し選定する機能と、
     前記選定したキーワードを前記文書情報から探索する機能と、
     前記探索部の探索結果と前記選定部の解析結果を用いて、分別符号と文書との関連性を示すスコアを算出する機能と、
     前記スコアの結果に基づいて、前記文書情報に自動で分別符号を付与する機能と、
     前記スコアの結果及び/又は前記自動分別の分別結果を画面に表示するよう制御する機能を備える文書分別プログラム。
     
PCT/JP2014/057097 2013-07-31 2014-03-17 文書分別システム及び文書分別方法並びに文書分別プログラム WO2015015826A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020167003855A KR101780807B1 (ko) 2013-07-31 2014-03-17 문서 분별 시스템과 문서 분별 방법 및 문서 분별 프로그램
EP14832354.6A EP3029582A4 (en) 2013-07-31 2014-03-17 Document classification system, document classification method, and document classification program
US14/396,189 US20160275147A1 (en) 2013-07-31 2014-03-17 Document classification system, document classification method, and document classification program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013159645A JP5603468B1 (ja) 2013-07-31 2013-07-31 文書分別システム及び文書分別方法並びに文書分別プログラム
JP2013-159645 2013-07-31

Publications (1)

Publication Number Publication Date
WO2015015826A1 true WO2015015826A1 (ja) 2015-02-05

Family

ID=51840433

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/057097 WO2015015826A1 (ja) 2013-07-31 2014-03-17 文書分別システム及び文書分別方法並びに文書分別プログラム

Country Status (6)

Country Link
US (1) US20160275147A1 (ja)
EP (1) EP3029582A4 (ja)
JP (1) JP5603468B1 (ja)
KR (1) KR101780807B1 (ja)
TW (1) TW201504836A (ja)
WO (1) WO2015015826A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180129738A1 (en) * 2014-12-26 2018-05-10 Ubic, Inc. Data analysis system, data analysis method, and data analysis program
WO2016129124A1 (ja) * 2015-02-13 2016-08-18 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
WO2017160837A1 (en) * 2016-03-14 2017-09-21 Sciome, LLC Methods and systems to estimate recall while screening an ordered list of bibliographic references
US10540439B2 (en) * 2016-04-15 2020-01-21 Marca Research & Development International, Llc Systems and methods for identifying evidentiary information
US11769072B2 (en) * 2016-08-08 2023-09-26 Adobe Inc. Document structure extraction using machine learning
WO2019049162A1 (en) * 2017-09-11 2019-03-14 Ingenious E-Brain Solutions Pvt Ltd METHOD AND SYSTEM FOR MANAGING IP PROJECTS
TWI659320B (zh) * 2017-10-16 2019-05-11 臺灣銀行股份有限公司 內容可索引之文件影像檔的建立方法及其索引方法
TWI672597B (zh) * 2018-11-27 2019-09-21 洽吧智能股份有限公司 自動文本標籤方法與系統
US11790047B2 (en) * 2020-08-27 2023-10-17 Consilio, LLC Diversity sampling for technology-assisted document review
CN116226036B (zh) * 2023-05-05 2023-07-18 中信天津金融科技服务有限公司 一种文档管理方法、装置和设备
CN116823541A (zh) * 2023-08-29 2023-09-29 山东大学 一种基于非线性模型的量刑计算方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098811A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2011209930A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209931A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ516822A (en) * 1999-08-06 2004-05-28 Lexis Nexis System and method for classifying legal concepts using legal topic scheme
KR100756921B1 (ko) * 2006-02-28 2007-09-07 한국과학기술원 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US8612446B2 (en) * 2009-08-24 2013-12-17 Fti Consulting, Inc. System and method for generating a reference set for use during document review

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009098811A (ja) * 2007-10-15 2009-05-07 Toshiba Corp 文書分類装置およびプログラム
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2011209930A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209931A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3029582A4

Also Published As

Publication number Publication date
JP2015032030A (ja) 2015-02-16
KR101780807B1 (ko) 2017-10-10
TW201504836A (zh) 2015-02-01
EP3029582A4 (en) 2017-04-12
EP3029582A1 (en) 2016-06-08
KR20160033729A (ko) 2016-03-28
JP5603468B1 (ja) 2014-10-08
US20160275147A1 (en) 2016-09-22

Similar Documents

Publication Publication Date Title
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
TWI532001B (zh) 文件分類系統及文件分類方法以及文件分類程式
TW201415264A (zh) 取證系統、取證方法及取證程式
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
US9595071B2 (en) Document identification and inspection system, document identification and inspection method, and document identification and inspection program
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 14396189

Country of ref document: US

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14832354

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20167003855

Country of ref document: KR

Kind code of ref document: A

REEP Request for entry into the european phase

Ref document number: 2014832354

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014832354

Country of ref document: EP