WO2014057964A1 - フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム - Google Patents

フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム Download PDF

Info

Publication number
WO2014057964A1
WO2014057964A1 PCT/JP2013/077442 JP2013077442W WO2014057964A1 WO 2014057964 A1 WO2014057964 A1 WO 2014057964A1 JP 2013077442 W JP2013077442 W JP 2013077442W WO 2014057964 A1 WO2014057964 A1 WO 2014057964A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
score
unit
relevance
forensic
Prior art date
Application number
PCT/JP2013/077442
Other languages
English (en)
French (fr)
Inventor
守本 正宏
喜勝 白井
秀樹 武田
和巳 蓮子
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to KR1020157012205A priority Critical patent/KR101566153B1/ko
Priority to EP13845254.5A priority patent/EP2908283A4/en
Priority to CN201380052823.2A priority patent/CN104871201A/zh
Priority to US14/396,002 priority patent/US9396273B2/en
Publication of WO2014057964A1 publication Critical patent/WO2014057964A1/ja
Priority to HK16100583.5A priority patent/HK1212799A1/zh
Priority to US15/142,069 priority patent/US10073891B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Definitions

  • the present invention relates to a forensic system, a forensic method, and a forensic program, and more particularly, to a forensic system, a forensic method, and a forensic program for collecting document information related to a lawsuit.
  • Patent Document 1 a specific person is specified from at least one target person included in the target person information of the document submission order, and the specific person is based on the access history information regarding the specified specific person. Extracts only the accessed digital document information, sets the incidental information indicating whether each document file of the extracted digital document information is related to the lawsuit, and based on the incidental information, the document related to the lawsuit.
  • Patent Document 2 displays recorded digital information, and for each of a plurality of document files, specifies a target person indicating which target person is included in the target person information included in the target person information.
  • Information is set, the set target identification information is set to be recorded in the storage unit, at least one target is specified, and target identification information corresponding to the specified target is set.
  • a forensic system is disclosed.
  • Patent Document 3 accepts designation of at least one or more document files included in the digital document information, accepts designation of which language the designated document file is translated into, and designates the document file for which designation is accepted.
  • Translated into the language that accepted the specification extracted from the digital document information recorded in the recording unit a common document file showing the same content as the specified document file, the extracted common document file was translated
  • a forensic system that generates translation-related information indicating that a document file has been translated by using the translation content of the document file, and outputs a document file related to a lawsuit based on the translation-related information.
  • Patent Document 1 a large amount of document information of a target person using a plurality of computers and servers is collected.
  • an object of the present invention is to provide a forensic system, a forensic method, and a forensic program that can reduce a reviewer's review load.
  • the forensic system of the present invention acquires digital information recorded in a plurality of computers or servers, and extracts the acquired digital information from document data included in the digital information in a forensic system that analyzes the relevance with a lawsuit.
  • a result information receiving unit that receives result information, which is a result of a user's judgment regarding relevance to a lawsuit, for a document group that includes a predetermined number of documents, and the result information commonly appears in the document group
  • An element selection unit for selecting an element based on the evaluation value, the selected element included in each document of the document data, and the evaluation value of the selected element
  • a score calculation unit that calculates the score of each document in the document data, and based on the score, calculates the reproducibility for determining relevance with the lawsuit And a reproducing rate calculation unit.
  • Document refers to information including one or more words. Examples of documents include e-mail, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, and the like.
  • Document data refers to a collection of documents.
  • Document group refers to a set of documents, which is a subset of document data.
  • the document data may refer to all documents that need to be determined to be relevant to the lawsuit, and the document group may be a document from which the user determines the relevance.
  • “Relevance determination” refers to determining whether a document needs to be submitted to a lawsuit.
  • the determination of relevance may be an act of assigning a classification code according to the degree of relevance.
  • Result information refers to the result of judgment of relevance to a lawsuit made by a user against a document.
  • the result information may refer to a classification code that represents the degree of relevance with a lawsuit given to a document by a user.
  • a result information receiving unit refers to a unit that receives result information regarding a determination result made by a user on a document.
  • Element refers to a component of a document such as a word, symbol, or drawing included in the document.
  • an element may refer to each of a set of phonemes that are divided and extracted to a point where they do not make sense after further decomposition in a language such as a morpheme.
  • Element selection unit refers to an element that selects an element from an element evaluation value.
  • the element selection unit may extract elements that appear in common for each document that has received the same determination in the relevance determination of the lawsuit by the user. Further, the element selection unit may calculate an evaluation value based on the amount of transmission information possessed by the element. Further, the element selection unit may select an element based on the sum of evaluation values. The element selection unit may rearrange the elements in descending order of the evaluation values, extract the elements until the sum of the evaluation values of the elements reaches a specific target value, and select the extracted elements.
  • Evaluation value refers to a value representing the characteristics of an element.
  • the evaluation value may represent the amount of information transmitted by the element.
  • Transmitted information amount refers to an amount that represents a measure of the interdependence of two random variables in probability theory and information theory. Specifically, the amount of transmitted information may be a measure that represents the relationship between a determination result of relevance to a document including the element and the element.
  • “Inherent target value” refers to a value indicating the target recall rate.
  • the unique target value may be expressed as a percentage.
  • “Score calculator” refers to a component that calculates the score of a document.
  • the score calculation unit may calculate the sum of evaluation values of elements included in the document as a score.
  • recall rate refers to the determination of relevance to lawsuits.
  • the recall rate may be an index representing the degree to which the system automatically reproduces the determination of human relevance.
  • “Recall rate calculation unit” refers to a unit that calculates the recall rate.
  • the recall rate calculation unit may evaluate the score value given to the document by the system according to the present invention and calculate the match rate with the relevance judgment of the user.
  • the recall ratio calculation unit may calculate the recall ratio from a ratio of documents having a score equal to or higher than a document having a predetermined score among documents whose scores are calculated.
  • the recall calculation unit rearranges each document of the document data for which the score has been calculated in descending order of the score, extracts a predetermined ratio of documents from the top of the score, and the extracted document includes a document group. The ratio may be calculated as a recall rate.
  • the forensic system may further include an automatic determination unit that determines a relevance with the lawsuit for a document whose score exceeds a predetermined threshold.
  • Automatic determination unit refers to a unit that automatically determines the relevance of a lawsuit to a document. For example, the automatic determination unit may determine that there is a relevance when the score assigned to the document by the score calculation unit exceeds a predetermined threshold.
  • the forensic system according to the present invention further includes an extraction unit that extracts a document group including a predetermined number of documents from document data included in the digital information, and a display unit that displays the extracted document group on a screen. You may prepare.
  • Extraction unit refers to a unit that extracts a document group from document data in digital information.
  • the extraction unit may extract based on attributes such as update date and time of document data.
  • the extraction unit may have a function of sampling and extracting a document group from document data at random.
  • Display section refers to the one that displays the extracted document group.
  • the display unit may be a display device such as a client terminal used by the user.
  • the forensic system further selects an element using the sum of the evaluation value of the element and the difference between the specific target value and the recall when the recall is below the inherent target value.
  • An element re-selection unit may be provided.
  • “Element reselection part” means the element selected by the element selection part again.
  • the element reselection unit determines that the sum of the element evaluation values is the difference between the specific target value and the recall rate until the recall rate exceeds the specific target value.
  • the elements may be extracted and selected from the set of elements excluding the elements extracted from the elements until reaching.
  • the score calculation unit further uses the element selected by the element reselection unit and the evaluation value of the element reselected by the element reselection unit when the recall rate is lower than the specific target value.
  • a second score of each document of data may be calculated, and a score of each document of the document data may be calculated again by combining the score and the second score.
  • the second score refers to the score of the document recalculated by the score calculation unit using the elements reselected by the element reselection unit.
  • the forensic method according to the present invention is a forensic method for acquiring digital information recorded in a plurality of computers or servers, and analyzing the acquired digital information for relevance with a lawsuit.
  • a step for receiving result information which is a result of a user's judgment regarding relevance to a lawsuit for a document group including a predetermined number of documents extracted from included document data, and common to each document group for each result information
  • a step of calculating a is a forensic method for acquiring digital information recorded in a plurality of computers or servers, and analyzing the acquired digital information for relevance with a lawsuit.
  • the forensic program acquires digital information recorded in a plurality of computers or servers, and analyzes the acquired digital information for relevance with a lawsuit.
  • a function that accepts result information which is a result of a user's judgment regarding relevance to a lawsuit for a document group that includes a predetermined number of documents extracted from the included document data, and is common to the document group for each result information
  • the evaluation value of the element is calculated from the feature of the element appearing as a result, the function of selecting the element based on the evaluation value, the selected element included in each document of the document data, and the evaluation of the selected element
  • the function to calculate the score of each document of document data from the value, and the recall rate for determining the relevance of the lawsuit based on the score To realize a function of output.
  • the forensic system, the forensic method, and the forensic program according to the present invention are the results of the user's judgment regarding the relevance to the lawsuit for the document group including a predetermined number of documents extracted from the document data included in the digital information.
  • a step of receiving certain result information a step of calculating an evaluation value of the element from the feature of the element that appears in common in the document group for each result information, a step of selecting an element based on the evaluation value,
  • the element selection unit selects an element based on the sum of evaluation values, the number of elements used by the system can be reduced, and thereby noise (not related to litigation) (Score assigned to a document) can be reduced.
  • the element selection unit rearranges the elements in descending order of the evaluation values, extracts the elements until the sum of the evaluation values of the elements reaches a specific target value, and selects the extracted elements. In some cases, the number of elements utilized by the system can be reduced, thereby reducing noise.
  • the recall ratio calculation unit calculates the recall ratio from the ratio of the documents having the document score to the document having a score greater than or equal to the document whose score is calculated.
  • the recall ratio calculation unit rearranges each document of the document data for which the score is calculated in descending order of the score, extracts a predetermined ratio of documents from the top of the score, and extracts the extracted document
  • the recall ratio calculation unit evaluates the tendency of the relevance judgment of the system from the score of the document and determine the degree of coincidence with the tendency of the relevance judgment of the user It becomes possible to do.
  • the forensic system of the present invention further includes a tendency for the user to determine the relevance of the user when the automatic determination unit that makes a determination on the relevance of the lawsuit for the document whose score exceeds a predetermined threshold. Based on this, it is possible to automatically determine the relevance between a document and a lawsuit.
  • the forensic system of the present invention further includes an extraction unit that extracts a document group including a predetermined number of documents from document data included in the digital information, and a display unit that displays the extracted document group on a screen. In this case, it is possible to extract a document for which the user determines relevance and display it on the user's terminal.
  • the forensic system of the present invention further selects an element using the sum of the evaluation values of the elements and the difference between the specific target value and the recall when the recall is lower than the inherent target value.
  • the element reselection unit is provided, if the recall rate does not reach the target value, it is possible to select again the element used for calculating the score, and it is possible to improve the relevance determination accuracy.
  • the element reselection unit when the element reselection unit according to the present invention has a recall rate lower than the specific target value, the sum of the element evaluation values is reproduced with the specific target value until the recall rate exceeds the specific target value.
  • the elements are extracted and selected from the set of elements excluding the elements extracted from the elements until the difference with the rate is reached, if the recall does not reach the target value, the score is calculated.
  • the element to be used can be selected again from elements different from the previously used elements, and the relevance determination accuracy can be improved.
  • the score calculation unit when the score calculation unit according to the present invention further has a recall rate lower than a specific target value, the element selected by the element reselection unit and the evaluation value of the element reselected by the element reselection unit, Is used to calculate the second score of each document of the document data, and to calculate again the score of each document of the document data by combining with the score, the previous score and the second score, It is possible to improve the recall rate by using the composite score of.
  • the block diagram of the forensic system in the 1st Embodiment of this invention The figure which showed typically the review screen in the 1st Embodiment of this invention
  • Block diagram of a forensic system in another embodiment of the present invention The flowchart showing the processing flow of the automatic discrimination
  • the forensic system is a forensic system that acquires digital information recorded in a plurality of computers or servers and analyzes the acquired digital information for relevance with a lawsuit.
  • a result information accepting unit 111 that accepts result information that is a result of a user's judgment regarding relevance to a lawsuit for a document group including a predetermined number of documents extracted from document data included in
  • the evaluation value of the element is calculated from the feature of the element that appears in common in the document group, and the element selection unit 112 that selects the element based on the evaluation value, and the selection included in each document of the document data
  • a score calculation unit 113 that calculates the score of each document in the document data from the element and the evaluation value of the selected element, and the lawsuit based on the score
  • a reproducing rate calculation unit 114 for calculating a recall regarding the relevance determination.
  • the forensic system further includes an extraction unit 117 that extracts a document group including a predetermined number of documents from document data included in the digital information, and a display unit 116 that displays the extracted document group on the screen. Also good.
  • the forensic system further re-selects an element when the recall is below the specific target value, and uses the difference between the sum of the element evaluation values and the specific target value and the recall.
  • the unit 115 may be provided.
  • the forensic system includes a computer or a server, and operates as various functional units when a CPU executes a program recorded in a ROM based on various inputs.
  • the program may be stored in a storage medium such as a CD-ROM or distributed via a network such as the Internet and installed in a computer.
  • a user called a reviewer determines relevance with a lawsuit in order to extract a document that needs to be submitted in the lawsuit from document data.
  • a document refers to information that includes one or more words. Examples of documents include e-mail, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, business plans, and the like. It is also possible to handle scan data as a document. In this case, an OCR (Optical Character Reader) device may be provided in the forensic system so that the scan data can be converted into text data. By changing to text data by the OCR device, it becomes possible to analyze and search elements described later from the scan data.
  • OCR Optical Character Reader
  • Document data is a collection of documents.
  • Document data refers to all documents that need to be determined for relevance with a lawsuit
  • a document group refers to documents for which a user determines relevance among document data. This act of determining whether the system or user is related to a lawsuit is called review.
  • a document group which is a document to be reviewed, is classified into a plurality of types based on the degree of relation of the lawsuit and the manner of relation with the lawsuit.
  • FIG. 1 shows a block diagram of the forensic system in the first embodiment.
  • the forensic system includes a server device 100 and a client terminal 200.
  • a communication network refers to a wired or wireless communication line.
  • a communication network For example, a telephone line or an internet line.
  • the client terminal 200 has a screen display unit 211 that displays the review screen I1 shown in FIG.
  • the reviewer connects to the server device 100 via the client terminal 200 and performs a review on the review screen I1.
  • the server device 100 includes a result information reception unit 111, an element selection unit 112, a score calculation unit 113, a recall rate calculation unit 114, an element reselection unit 115, a display unit 116, and an extraction unit 117. Yes.
  • each configuration is mounted on the server device 100, but may be mounted in separate cases.
  • the result information receiving unit 111 receives the result of the review performed on the document by the reviewer.
  • the review result is accepted as result information.
  • the result information may indicate the degree of relevance of each document with the lawsuit by a code.
  • the element selection unit 112 extracts elements that appear in common in the document for each result information that is a review result for each document, and selects an element to be used for subsequent processing from the evaluation value of the element.
  • Element refers to a component of a document such as a word, symbol or drawing contained in the document.
  • an element may refer to each of a set of phonemes that are divided and extracted to a point where they do not make sense after further decomposition in a language such as a morpheme.
  • the evaluation value is a value that represents the feature of the element.
  • the evaluation value may represent the amount of information transmitted by the element.
  • the element selection unit 112 may calculate an evaluation value based on the amount of transmission information possessed by the element.
  • the amount of transmitted information refers to an amount that represents a measure of the interdependence of two random variables in probability theory and information theory. Specifically, the amount of transmitted information may be a measure that represents the relationship between a determination result of relevance to a document including the element and the element. For example, the element selection unit 112 can select an element having a large amount of transmission information.
  • the element selection unit 112 may select an element based on the sum of evaluation values.
  • the element selection unit 112 may rearrange the elements in descending order of evaluation values, extract the elements until the sum of the evaluation values of the elements reaches a specific target value, and select the extracted elements.
  • the unique target value indicates the target recall rate value.
  • the unique target value may be expressed as a percentage.
  • the score calculation unit 113 calculates the score of the document. For example, the score calculation unit 113 can calculate the sum of the evaluation values of the elements included in the document as a score.
  • the score calculation unit 113 further selects the element selected by the element reselection unit 115 and the element selected by the element reselection unit 115 when the recall rate is lower than the specific target value.
  • the second score of each document of the document data may be calculated using the evaluation value of the document data, and the score of each document of the document data may be calculated again by combining the score and the second score. .
  • the second score refers to the second and subsequent scores calculated by the score calculation unit 113 for each document.
  • the reproduction rate calculation unit 114 calculates the reproduction rate of the process of the score calculation unit 113.
  • the reproduction rate calculation unit 114 may evaluate the score value given to the document by the server device 100 and calculate the reproducibility of the review result of the reviewer.
  • Recall rate refers to the determination of relevance with lawsuits.
  • the recall rate may be an index representing the degree to which the system automatically reproduces the determination of human relevance.
  • the recall ratio calculation unit 114 may calculate the recall ratio from the ratio of the documents having the document group included in the documents having a score equal to or higher than the document whose score has been calculated. Further, the recall ratio calculation unit 114 rearranges each document of the document data whose score has been calculated in descending order of the score, extracts a predetermined ratio of documents from the top of the score, and the extracted document includes a document group. It is good also as what calculates a ratio to be reproduced as a recall.
  • the extraction unit 117 extracts a document group from document data in digital information. It is good also as what samples and extracts at random. Further, it may be extracted based on attributes such as the update date and time of the document.
  • the extraction unit 117 may have a function of sampling and extracting a document group from document data at random.
  • the display unit 116 displays the extracted document group. It may be displayed on the client terminal 200 used by the user.
  • the element reselection unit 115 selects the element selected by the element selection unit 112 again. In addition, when the recall rate is lower than the specific target value, the element reselection unit 115 sets the sum of the element evaluation values between the specific target value and the recall rate until the recall rate exceeds the specific target value.
  • the elements may be extracted and selected from a set of elements excluding the elements extracted from the elements until the difference is reached.
  • FIG. 3 is a chart showing processing related to the teacher data creation flow.
  • the forensic system performs relevance determination processing for other document data based on the characteristics of the review results reviewed by the reviewer for the teacher data.
  • the extraction unit 117 randomly samples and extracts a document group to be presented to the reviewer from the collected document data (STEP 111).
  • the display unit 116 instructs the screen display unit 211 of the client terminal 200 to display the extracted document group on the document display screen I1.
  • the display unit 116 issues an instruction to display the documents side by side in order of date.
  • the screen display unit 211 displays the document display screen I1 on the client terminal 200 (STEP 112).
  • the reviewer reviews the document displayed on the document display screen I1. Specifically, a classification code is assigned to the document according to the degree of relevance between the document and the lawsuit.
  • the classification code assigned by the reviewer is received by the result information receiving unit 111 as result information (STEP 113). In this way, the document group reviewed by the reviewer is transferred to subsequent processing as teacher data.
  • FIG. 4 is a chart showing processing related to the recall improvement flow.
  • the element selection unit 112 analyzes the teacher data and performs a process of selecting an element. More specifically, N morphemes that appear in common in documents to which a common classification code is assigned are extracted as elements (STEP 120). For the extracted morphemes, an evaluation value is calculated based on the amount of transmission information possessed by each morpheme (STEP 121). For example, the evaluation value of the first extracted morpheme is Wgt 1 , the second is Wgt 2 , and the Nth is Wgt n . The element selection unit 112 selects morphemes for subsequent processing using the evaluation values of Wgt 1 to Wgt n .
  • the morphemes are rearranged in the descending order of the evaluation values, satisfy the following formula (1), and the upper rank of the evaluation values until the sum reaches a specific target value (K is an arbitrary constant). M morphemes are selected in order.
  • the unique target value indicates a target recall rate.
  • a document including m morphemes selected by the score calculation unit 113 is extracted from the document data (STEP 130). Based on the evaluation value of the included morphemes, the score of each document is expressed by the following equation (2). (STEP 131). At this time, the score calculation unit 113 also calculates a score for the teacher data.
  • the recall calculation unit 114 rearranges the documents (including teacher data) in descending order of the score (STEP 140), and extracts the top A% (A is an arbitrary constant) of the rearranged documents (STEP 141). .
  • the reproduction rate calculation unit 114 calculates the reproduction rate X 1 (X n : the reproduction rate calculated by the reproduction rate calculation unit 114 for the nth time) from the ratio of the teacher data included in the number of documents included in A% ( (STEP 142).
  • Next element reselection unit 115 determines whether the target value K is recall X 1 exceeds (STEP150). If it has exceeded (STEP 150: YES), the process is terminated. If it is lower (STEP 150: NO), the element reselection unit 115 reselects the element (STEP 151). Specifically, the following equation (3) is satisfied from the morphemes obtained by removing the m morphemes used in the current process from the N morphemes extracted by the element selection unit 112, and the sum is a unique target value. L morphemes are selected in order from the top of the evaluation value until the value reaches.
  • the recall ratio calculation unit 114 calculates the recall ratio again, and repeats the processing of STEP 130 to STEP 151 until the target value K is exceeded. Thereby, it becomes possible to improve the accuracy of the review process of the forensic system up to the target recall rate.
  • a forensic system acquires digital information recorded in a plurality of computers or servers, and analyzes the acquired digital information for relevance with a lawsuit.
  • a result information receiving unit 111 that receives result information that is a result of a user's judgment regarding relevance to a lawsuit for a document group that includes a predetermined number of documents extracted from included document data, and for each result information
  • An element selection unit 112 that calculates an evaluation value of the element from the characteristics of the element that appears in common in the document group, and selects an element based on the evaluation value, and the selected element included in each document of the document data
  • a score calculation unit 113 that calculates the score of each document of the document data from the evaluation value of the selected element, and based on the score,
  • a reproducing rate calculation unit 114 for calculating a recall regarding relevance determination with.
  • the forensic system in the present embodiment may further include an automatic determination unit 118 that makes a determination regarding the relevance of the lawsuit for a document whose score exceeds a predetermined threshold.
  • FIG. 5 shows a block diagram of a forensic system in another embodiment.
  • the forensic system includes a server device 100 and a client terminal 200.
  • the client terminal 200 has a screen display unit 211 that displays the review screen I1 shown in FIG.
  • the reviewer connects to the server device 100 via the client terminal 200 and performs a review on the review screen I1.
  • the server apparatus 100 includes a result information reception unit 111, an element selection unit 112, a score calculation unit 113, a recall rate calculation unit 114, an element reselection unit 115, a display unit 116, an extraction unit 117, and an automatic determination. Part 118.
  • each configuration is mounted on the server device 100, but may be mounted in separate cases.
  • the automatic determination unit 118 automatically determines the relevance of the lawsuit to the document. For example, the automatic determination unit 118 may determine that there is a relevance when the score assigned to the document by the score calculation unit 113 exceeds a predetermined threshold.
  • FIG. 6 is a chart showing a processing flow of the automatic determination unit 118.
  • the processing of the automatic discrimination unit is started after the processing of STEP 150 shown in FIG. 4 in the first embodiment is completed.
  • the system administrator inputs a threshold value for each classification code (STEP 201). For the document whose score calculated by the score calculation unit 113 exceeds this threshold, the automatic determination unit determines that a classification code related to the excess score is given.
  • the automatic determination unit 118 assigns a classification code to the certain document A (STEP 203). .
  • the threshold value is not exceeded (STEP 2020: NO)
  • no classification code is assigned to the document A. If there is a document that has not yet been determined whether or not the score has been exceeded in the document data (STEP 204: YES), the automatic determination unit 118 executes the process of STEP 202 again. If there is no document in the document data that has not been determined whether the score has been exceeded (STEP 204: NO), the automatic determination unit 118 ends the process.
  • a forensic system is a result information receiving unit that receives result information, which is a result of a user's determination regarding relevance to a lawsuit, for a document group including a predetermined number of documents extracted from document data included in digital information.
  • result information which is a result of a user's determination regarding relevance to a lawsuit
  • a document group including a predetermined number of documents extracted from document data included in digital information.
  • an element selection unit 112 that calculates an evaluation value of the element based on the characteristic of the element that appears in common in the document group for each result information, and selects an element based on the evaluation value, and each document of the document data
  • the score calculation unit 113 that calculates the score of each document of the document data from the selected element included in the document and the evaluation value of the selected element, and the reproduction rate relating to the determination of the relevance with the lawsuit is calculated based on the score
  • the recall rate calculation unit 114 the burden of determining the relevance of document data used in a lawsuit performed by the user can be reduced, and the system
  • the element selection unit 112 selects elements based on the sum of evaluation values, the number of elements used by the system can be reduced, thereby reducing noise. .
  • the element selection unit 112 rearranges the elements in descending order of the evaluation values, extracts the elements until the sum of the evaluation values of the elements reaches a specific target value, and selects the extracted elements. Can reduce the number of elements used by the system, thereby reducing noise.
  • the recall ratio calculation unit 114 calculates the recall ratio from the ratio of the documents having a score equal to or higher than the documents in the document group among the documents whose scores have been calculated, It is possible to evaluate the tendency of the relevance judgment of the system from the score and determine the degree of coincidence with the tendency of the relevance judgment of the user.
  • the recall ratio calculation unit 114 rearranges each document of the document data for which the score has been calculated in descending order of the score, extracts a predetermined ratio of documents from the top of the score, and adds the document to the extracted document.
  • the ratio of groups to be included as the recall rate it is possible to evaluate the tendency of the relevance judgment of the system from the score of the document and determine the degree of coincidence with the tendency of the relevance judgment of the user. It becomes possible.
  • the forensic system further includes an automatic determination unit 118 that makes a determination regarding the relevance of a lawsuit for a document whose score exceeds a predetermined threshold
  • the forensic system is based on the tendency of the user to determine the relevance. It is possible to automatically determine the relevance between a document and a lawsuit.
  • the forensic system further includes an extraction unit 117 that extracts a document group including a predetermined number of documents from document data included in the digital information, and a display unit 116 that displays the extracted document group on the screen.
  • an extraction unit 117 that extracts a document group including a predetermined number of documents from document data included in the digital information
  • a display unit 116 that displays the extracted document group on the screen. In this case, it is possible to extract a document for which the user determines relevance and display it on the user's terminal.
  • the forensic system further re-selects an element when the recall is below the specific target value, and uses the difference between the sum of the element evaluation values and the specific target value and the recall.
  • the unit 115 is provided, if the recall rate does not reach the target value, it is possible to select again the element used for calculating the score, and it is possible to improve the relevance determination accuracy.
  • the element reselection unit 115 when the element reselection unit 115 has the recall rate lower than the specific target value, the sum of the evaluation values of the elements becomes the specific target value and the recall rate until the recall rate exceeds the specific target value.
  • the elements are extracted from the set of elements excluding the elements extracted from the elements until the difference is reached and selected, if the recall does not reach the target value, the elements used for calculating the score are It becomes possible to select again an element different from the element used last time, and it is possible to improve the accuracy of determining relevance.
  • the score calculation unit 113 further has a recall rate lower than a specific target value, the element selected by the element reselection unit 115 and the evaluation value of the element reselected by the element reselection unit 115 are obtained.
  • the second score of each document of the document data is calculated, and the score of each document of the document data is calculated again by combining with the score, the previous score and the second score are calculated.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computational Linguistics (AREA)
  • Technology Law (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

レビュワーのレビューの負荷を軽減することを可能とする。 デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部とを備える。

Description

フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
 本発明は、フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものであって、特に、訴訟に関連する文書情報を収集するためのフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムに関するものである。
 従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
 また、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
 一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
 そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
 近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、文書提出命令の対象者情報に含まれる少なくとも1人以上の対象者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
 また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、対象者情報に含まれる対象者のうちいずれの対象者に関連するものであるかを示す対象者特定情報を設定し、該設定された対象者特定情報を記憶部に記録するように設定し、少なくとも一人以上の対象者を指定し、指定された対象者に対応する対象者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
 さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011-209930号公報 特開2011-209931号公報 特開2012-32859号公報
 しかしながら、例えば、特許文献1乃至特許文献3のようなフォレンジックシステムおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。
 このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があり、多大な労力と時間がかかるという問題があった。
 そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷を軽減することを可能とするフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムを提供することを目的とするものである。
 本発明のフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部とを備える。
 「文書」は、1つ以上の単語を含む情報をいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。
 「文書データ」は、文書の集合をいう。
 「文書群」は、文書の集合をいい、文書データの部分集合であるものをいう。文書データは、訴訟との関連性の判断が必要な全文書を指し、文書群は、文書データのうち、利用者が関連性の判断を行う文書をいってもよい。
 「関連性の判断」は、文書に対して、訴訟への提出の必要の有無を判断するものをいう。例えば、関連性の判断は、関連性の度合いに応じて分別符号を付与する行為であってもよい。
 「結果情報」は、利用者が文書に対して行った、訴訟との関連性判断の結果を示すものをいう。結果情報は、利用者が文書に付与した、訴訟との関連性の度合いを表す分別符号を指してもよい。
 「結果情報受付部」は、利用者が文書に対して行った判断結果に関する結果情報を受け付けるものをいう。
 「要素」は、文書に含まれる単語、記号、図面等の文書の構成要素をいう。例えば、要素は、形態素のようなある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの一つ一つを指してもよい。
 「要素選定部」は、要素の評価値から要素を選定するものをいう。要素選定部は、利用者による訴訟の関連性判断において、同一の判断を受けた文書ごとに共通して出現する要素を抽出するものとしてもよい。また、要素選定部は、要素が持つ、伝達情報量をもとに評価値を算出するものとしてもよい。また、要素選定部は、評価値の和に基づいて要素を選定するものとしてもよい。また、要素選定部は、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものとしてもよい。
 「評価値」は、要素の特徴を表す値をいう。評価値は、要素がもつ伝達情報量を表すものとしてもよい。
 「伝達情報量」は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量をいう。具体的には、伝達情報量は、その要素を含む文書に対する関連性の判断結果と、その要素との依存関係を表す尺度のこととしてもよい。
 「固有の目標値」は、目標とする再現率の値を示すものをいう。固有の目標値は、百分率であらわされるものとしてもよい。
 「スコア算出部」は、文書のスコアを算出するものをいう。例えば、スコア算出部は、文書に含まれる要素の評価値の和をスコアとして算出するものとしてもよい。
 「再現率」は、訴訟との関連性の判断に関するものをいう。再現率は、人間の関連性の判断をシステムが自動で再現した程度を表す指標としてもよい。
 「再現率算出部」は、再現率を算出するものをいう。例えば、再現率算出部は、本発明に係るシステムが、文書に付与したスコアの値を評価し、利用者の関連性判断との一致率を算出するものとしてもよい。
 また、再現率算出部は、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものとしてもよい。また、再現率算出部は、スコアを算出された文書データの各文書を、スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、抽出された文書に文書群が含まれる割合を再現率として計算するものとしてもよい。
 また、本発明に係るフォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して前記訴訟との関連性に関する判断を行う自動判断部を備えてもよい。
 「自動判断部」は、文書に対して訴訟との関連性の判断を自動で行うものをいう。例えば、自動判断部は、スコア算出部が文書に付与したスコアが所定の閾値を超過した場合に、関連性ありと判断するものとしてもよい。
 また、本発明に係るフォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部と、抽出された文書群を画面上に表示する表示部とを備えてもよい。
 「抽出部」は、デジタル情報中の文書データから文書群を抽出するものをいう。抽出部は、文書データの更新日時等の属性に基づいて抽出するものとしてもよい。また、抽出部は、文書データから文書群をランダムにサンプリングし、抽出する機能を備えてもよい。
 「表示部」は、抽出した文書群を表示するものをいう。表示部は、利用者が利用するクライアント端末等の表示機器であってもよい。
 また、本発明に係るフォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部を備えてもよい。
 「要素再選定部」は、要素選定部に選定された要素を再度選定するものをいう。
 また、要素再選定部は、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものとしてもよい。
 また、スコア算出部は、更に、再現率が固有の目標値を下回っていた際に、要素再選定部が選定した要素と該要素再選定部が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアと前記第2のスコアとの合成により、文書データの各文書のスコアを再度算出するものであってもよい。
 「第2のスコア」は、要素再選定部が再選定した要素を用いてスコア算出部が再度算出した文書のスコアをいう。
 また、本発明に係るフォレンジック方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジック方法において、コンピュータが、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付けるステップと、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定するステップと、文書データの各文書に含まれる選定された要素および選定された要素の評価値から前記文書データの各文書のスコアを算出するステップと、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出するステップとを実行する。
 また、本発明に係るフォレンジックプログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックプログラムにおいて、コンピュータに、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける機能と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する機能と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出する機能と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する機能とを実現させる。
 本発明のフォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラムは、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付けるステップと、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定するステップと、文書データの各文書に含まれる選定された要素および選定された要素の評価値から前記文書データの各文書のスコアを算出するステップと、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出するステップとを実行することによって、システムが自動で行った場合でも、システムの判断が人間の判断にどの程度合致するかを検証することで判断精度を向上させることが可能となる。
 また、本発明に係る要素選定部が、評価値の和に基づいて要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズ(訴訟に関連しない文書に割り当てられてしまうスコアをいう)を低減することが可能となる。
 また、本発明に係る要素選定部が、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズを低減することが可能となる。
 また、本発明に係る再現率算出部が、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものである際においては、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
 また、本発明に係る再現率算出部が、スコアを算出された文書データの各文書を、前記スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、前記抽出された文書に前記文書群が含まれる割合を再現率として計算するものである際には、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
 また、本発明のフォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して訴訟との関連性に関する判断を行う自動判断部を備える際においては、利用者の関連性判断の傾向を踏まえて、自動で文書と訴訟との関連性の判断をすることが可能となる。
 また、本発明のフォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部と、抽出された文書群を画面上に表示する表示部とを備える際においては、利用者が関連性の判断を行う文書を抽出し、利用者の端末上に表示することが可能となる。
 また、本発明のフォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部を備える際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
 また、本発明に係る要素再選定部が、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものである際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を、前回用いた要素とは異なる要素から再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
 また、本発明に係るスコア算出部が、更に、再現率が固有の目標値を下回っていた際に、要素再選定部が選定した要素と該要素再選定部が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアとの合成により、文書データの各文書のスコアを再度算出するものである際においては、前回のスコアと第2のスコアとの合成スコアをスコアとして用いることで、再現率の向上を図ることが可能となる。
本発明の第1の実施形態におけるフォレンジックシステムのブロック図 本発明の第1の実施形態におけるレビュー画面を模式的に示した図 本発明の第1の実施形態の教師データ作成処理フローを表すフローチャート 本発明の第1の実施形態の再現率向上処理フローを表すフローチャート 本発明のその他の実施形態におけるフォレンジックシステムのブロック図 本発明のその他の実施形態における自動判別部の処理フローを表すフローチャート
[第1の実施形態]
 以下、本発明の第1の実施形態を図1乃至図4を用いて説明する。
 本発明の第1の実施形態に係るフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部111と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部112と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部113と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部114とを備える。
 また、フォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部117と、抽出された文書群を画面上に表示する表示部116とを備えてもよい。
 また、フォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部115を備えてもよい。
 フォレンジックシステムは、コンピュータまたはサーバを備え、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、CD-ROM等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。
 本実施形態においては、レビュワーと呼ばれる利用者が、文書データの中から、訴訟に提出が必要な文書を抽出するために、訴訟との関連性の判断を行う。文書は、1つ以上の単語を含む情報をいう。文書の一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、フォレンジックシステム内にOCR(Optical Character Reader)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータから後述する要素の解析や探索が可能になる。
 文書データは文書の集合体のことである。文書データは、訴訟との関連性の判断が必要な全文書を指し、文書群は、文書データのうち、利用者が関連性の判断を行う文書をいう。この、システム又は利用者が訴訟に関連するか否かを判断する行為をレビューという。レビューでは、レビューの対象となる文書である文書群を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行う。
 図1は、第1の実施形態におけるフォレンジックシステムのブロック図を示している。本実施形態において、フォレンジックシステムは、サーバ装置100と、クライアント端末200とを備えている。
 サーバ装置100とクライアント端末200とは通信ネットワークを介して接続されている。通信ネットワークは、有線あるいは無線の通信回線をいう。例えば、電話回線、インターネット回線等である。
 クライアント端末200は、図2に示すレビュー画面I1を表示する画面表示部211を有している。レビュワーは、クライアント端末200を介して、サーバ装置100と接続し、レビュー画面I1上でレビューを行う。
 サーバ装置100は、結果情報受付部111と、要素選定部112と、スコア算出部113と、再現率算出部114と、要素再選定部115と、表示部116と、抽出部117とを備えている。
 本実施形態において、各構成はサーバ装置100上に搭載されているが、それぞれ別筐体に搭載されるものであってもよい。
 図1に記載されている各構成について説明する。結果情報受付部111は、レビュワーが文書に対して行ったレビューの結果を受け付ける。レビュー結果は、結果情報として受け付けられる。結果情報は、各文書の訴訟との関連度合を符号によって示したものであってもよい。
 要素選定部112は、各文書に対するレビュー結果である結果情報ごとに文書に共通して出現する要素を抽出し、該要素の評価値から後段の処理に用いる要素を選定する。
 要素は、文書に含まれる単語、記号、図面等の文書の構成要素をいう。例えば、要素は、形態素のようなある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの一つ一つを指してもよい。
 評価値は、要素の特徴を表す値をいう。評価値は、要素がもつ伝達情報量を表すものとしてもよい。
 また、要素選定部112は、要素が持つ、伝達情報量をもとに評価値を算出するものとしてもよい。
 伝達情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量をいう。具体的には、伝達情報量は、その要素を含む文書に対する関連性の判断結果と、その要素との依存関係を表す尺度のこととしてもよい。例えば要素選定部112は、伝達情報量の大きい要素を、選定することが可能である。
 また、要素選定部112は、評価値の和に基づいて要素を選定するものとしてもよい。また、要素選定部112は、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものとしてもよい。
 固有の目標値は、目標とする再現率の値を示すものをいう。固有の目標値は、百分率であらわされるものとしてもよい。
 スコア算出部113は、文書のスコアを算出する。例えば、スコア算出部113は、文書に含まれる要素の評価値の和をスコアとして算出することが可能である。
 また、スコア算出部113は、更に、後述するように、再現率が固有の目標値を下回っていた際に、要素再選定部115が選定した要素と該要素再選定部115が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアと前記第2のスコアとの合成により、文書データの各文書のスコアを再度算出するものであってもよい。
 第2のスコアは、スコア算出部113が各文書について算出した2回目以降のスコアをいう。
 再現率算出部114は、スコア算出部113の処理の再現率を算出する。例えば、再現率算出部114は、サーバ装置100が、文書に付与したスコアの値を評価し、レビュワーのレビュー結果の再現性を算出するものとしてもよい。
 再現率は、訴訟との関連性の判断に関するものをいう。再現率は、人間の関連性の判断をシステムが自動で再現した程度を表す指標としてもよい。
 また、再現率算出部114は、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものとしてもよい。また、再現率算出部114は、スコアを算出された文書データの各文書を、スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、抽出された文書に文書群が含まれる割合を再現率として計算するものとしてもよい。
 抽出部117は、デジタル情報中の文書データから文書群を抽出する。ランダムにサンプリングし抽出するものとしてもよい。また、文書の更新日時等の属性に基づいて抽出するものとしてもよい。また、抽出部117は、文書データから文書群をランダムにサンプリングし、抽出する機能を備えてもよい。
 表示部116は、抽出した文書群を表示する。利用者が利用するクライアント端末200上に表示するものとしてもよい。
 要素再選定部115は、要素選定部112に選定された要素を再度選定する。また、要素再選定部115は、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものとしてもよい。
 次に、図3および図4を用いて、フォレンジックシステムの処理フローを説明する。
 図3は教師データ作成フローに関する処理を示すチャートである。フォレンジックシステムは、教師データについてレビュワーがしたレビュー結果の特徴に基づいて、他の文書データの関連性判断の処理をおこなう。
 まず、抽出部117が、集められた文書データからレビュワーに提示するための文書群をランダムにサンプリングし、抽出する(STEP111)。次に、表示部116が抽出された文書群を文書表示画面I1に表示するようにクライアント端末200の画面表示部211に指示をだす。このとき、表示部116は、日付の順に文書を並べて表示するように指示をだす。指示を受けた画面表示部211は、文書表示画面I1をクライアント端末200上に表示する(STEP112)。レビュワーは、文書表示画面I1に表示された文書をみてレビューを行う。具体的には、文書と訴訟との関連性の度合いに応じて分別符号を文書に付与する。レビュワーによって付与された分別符号は結果情報として結果情報受付部111が受け付ける(STEP113)。このように、レビュワーによってレビューされた文書群は教師データとして後段の処理に渡される。
 図4は、再現率向上フローに関する処理を表すチャートである。
 要素選定部112が教師データを解析し、要素を選定する処理を行う。具体的には、共通の分別符号が付与された文書に共通して出現する形態素を要素としてN個、抽出する(STEP120)。抽出した形態素は、各形態素が持つ伝達情報量をもとに評価値を算出する(STEP121)。例えば1番目に抽出した形態素の評価値をWgt、2番目をWgt、N番目をWgtとする。要素選定部112はこのWgtからWgtの評価値を用いて、後段の処理を行うための形態素を選定する。具体的には、形態素を評価値の降順に並び替え、以下の式(1)を満たし、その総和が固有の目標値(Kとする:Kは任意の定数)に到達するまで評価値の上位から順番にm個の形態素を選択する。
Figure JPOXMLDOC01-appb-M000001
 本実施形態で、固有の目標値は、目標とする再現率のことを指す。
 次に、スコア算出部113が選定されたm個の形態素を含む文書を、文書データから抽出し(STEP130)、含まれる形態素の評価値に基づいて、各文書のスコアを以下の式(2)により算出する(STEP131)。このとき教師データに対しても、スコア算出部113はスコアを算出する。
Figure JPOXMLDOC01-appb-M000002
 次に、再現率算出部114が、スコアの降順に文書(教師データを含む)を並び替え(STEP140)、並び替えられた文書の上位A%(Aは任意の定数)を抽出する(STEP141)。再現率算出部114は、A%に含まれる文書数のうち、教師データが含まれる割合から再現率X(X:再現率算出部114がn回目に算出した再現率)を算出する(STEP142)。
 次に要素再選定部115が、目標値Kを再現率Xが上回っているか判定する(STEP150)。上回っていた場合(STEP150:YES)、処理を終了する。下回っていた場合(STEP150:NO)、要素再選定部115は要素を再選定する(STEP151)。具体的には、要素選定部112が抽出したN個の形態素から、今回の処理に用いたm個の形態素を除いた形態素から、以下の式(3)を満たし、その総和が固有の目標値に到達するまで評価値の上位から順番にl個の形態素を選択する。
Figure JPOXMLDOC01-appb-M000003
 スコア算出部113は、要素再選定部115が再選定した形態素を含む文書を教師データを含む文書から抽出し(STEP130:2巡目)、各文書の第2のスコアS1rを、式(1)を用いて計算する。初回に計算したスコアSと第2のスコアS1rとの残差Δ1(Δ1=S1r-S)を用いて、以下の式(4)から各文書の合成スコアS2を算出する(STEP131:2巡目)。
Figure JPOXMLDOC01-appb-M000004
 合成スコアS2を用いて、再現率算出部114は再度、再現率を算出し、目標値Kを上回るまで、STEP130~STEP151の処理を繰り返す。これにより、目標再現率まで、フォレンジックシステムのレビュー処理の精度を向上させることが可能となる。
[その他の実施形態]
 以下、本発明のその他の実施形態を図5および図6を用いて説明する。
 本発明のその他の実施形態に係るフォレンジックシステムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部111と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部112と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から文書データの各文書のスコアを算出するスコア算出部113と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部114とを備える。
 また、本実施形態におけるフォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して前記訴訟との関連性に関する判断を行う自動判断部118を備えてもよい。
 図5は、その他の実施形態におけるフォレンジックシステムのブロック図を示している。本実施形態において、フォレンジックシステムは、サーバ装置100と、クライアント端末200とを備えている。
 クライアント端末200は、図2に示すレビュー画面I1を表示する画面表示部211を有している。レビュワーは、クライアント端末200を介して、サーバ装置100と接続し、レビュー画面I1上でレビューを行う。
 サーバ装置100は、結果情報受付部111と、要素選定部112と、スコア算出部113と、再現率算出部114と、要素再選定部115と、表示部116と、抽出部117と、自動判断部118とを備えている。
 本実施形態において、各構成はサーバ装置100上に搭載されているが、それぞれ別筐体に搭載されるものであってもよい。
 自動判断部118は、文書に対して訴訟との関連性の判断を自動で行う。例えば、自動判断部118は、スコア算出部113が文書に付与したスコアが所定の閾値を超過した場合に、関連性ありと判断するものとしてもよい。
 図6は自動判断部118の処理フローを示すチャートである。自動判別部の処理は、第1の実施形態において図4で示したSTEP150の処理が完了後、開始される。
 システム管理者が、各分別符号について、閾値を入力する(STEP201)。スコア算出部113が算出したスコアがこの閾値を超過した文書は、超過したスコアに関する分別符号が付与されるものと自動判別部が判断することになる。
 例えば、ある文書Aについて、スコア算出部113が算出したスコアが、閾値を超過していた場合(STEP202:YES)、ある文書Aに対して、分別符号を自動判断部118が付与する(STEP203)。一方、閾値を超過していなかった場合(STEP2020:NO)、文書Aには分別符号は付与されない。文書データの中に、スコアが超過したか否かの判定がまだされていない文書が残っている場合(STEP204:YES)、自動判断部118は、再度STEP202の処理を実行する。文書データの中に、スコアが超過したか否かの判定がまだされていない文書が残っていなかった場合(STEP204:NO)、自動判断部118は、処理を終了する。
 その他の構成、機能については第1の実施形態と同様である。
 フォレンジックシステムは、デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部111と、結果情報ごとに文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、要素を選定する要素選定部112と、文書データの各文書に含まれる選定された要素および選定された要素の評価値から前記文書データの各文書のスコアを算出するスコア算出部113と、スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部114とを実行することによって、利用者が行う訴訟に利用する文書データの関連性判断作業の負担軽減とし、また、システムが自動で行った判断が人間の判断にどの程度合致するかを検証することで判断精度を向上させることが可能となる。
 また、要素選定部112が、評価値の和に基づいて要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズを低減することが可能となる。
 また、要素選定部112が、要素を評価値の降順に並び替え、要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定するものである際においては、システムが利用する要素の数を抑えることができ、これによってノイズを低減することが可能となる。
 また、再現率算出部114が、スコアを算出された文書のうち、所定のスコア以上を有する文書に、文書群の文書が含まれる割合から再現率を算出するものである際においては、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
 また、再現率算出部114が、スコアを算出された文書データの各文書を、前記スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、前記抽出された文書に前記文書群が含まれる割合を再現率として計算するものである際には、文書のスコアからシステムの関連性判断の傾向を評価し、利用者の関連性判断の傾向との一致具合を判定することが可能となる。
 また、フォレンジックシステムは、更に、スコアが所定の閾値を超過した文書に対して訴訟との関連性に関する判断を行う自動判断部118を備える際においては、利用者の関連性判断の傾向を踏まえて、自動で文書と訴訟との関連性の判断をすることが可能となる。
 また、フォレンジックシステムは、更に、デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部117と、抽出された文書群を画面上に表示する表示部116とを備える際においては、利用者が関連性の判断を行う文書を抽出し、利用者の端末上に表示することが可能となる。
 また、フォレンジックシステムは、更に、再現率が固有の目標値を下回っていた際に、要素の評価値の和と固有の目標値と再現率との差を用いて要素を再選定する要素再選定部115を備える際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
 また、要素再選定部115が、再現率が固有の目標値を下回っていた際に、再現率が固有の目標値を上回るまで、要素の評価値の和が固有の目標値と再現率との差に到達するまで要素から抽出された要素を除いた要素の集合から要素を抽出し、選定するものである際においては、再現率が目標値に達しなかった場合、スコアの算出に用いる要素を、前回用いた要素とは異なる要素から再度選び直すことが可能となり、関連性の判断精度を向上させることが可能となる。
 また、スコア算出部113が、更に、再現率が固有の目標値を下回っていた際に、要素再選定部115が選定した要素と該要素再選定部115が再選定した要素の評価値とを用いて文書データの各文書の第2のスコアを算出し、スコアとの合成により、文書データの各文書のスコアを再度算出するものである際においては、前回のスコアと第2のスコアとの合成スコアをスコアとして用いることで、再現率の向上を図ることが可能となる。
  100      サーバ装置
  111      結果情報受付部
  112      要素選定部
  113      スコア算出部
  114      再現率算出部
  115      要素再選定部
  116      表示部
  117      抽出部
  118      自動判断部
  200      クライアント端末
  211      画面表示部
  I1       レビュー画面

Claims (14)

  1.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックシステムにおいて、
     前記デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、前記訴訟との関連性について判断した結果である結果情報を受け付ける結果情報受付部と、
     前記結果情報ごとに前記文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、前記要素を選定する要素選定部と、
     前記文書データの各文書に含まれる前記選定された要素および前記選定された要素の評価値から前記文書データの各文書のスコアを算出するスコア算出部と、
     前記スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する再現率算出部とを備えるフォレンジックシステム。
  2.  前記要素選定部は、
     前記評価値の和に基づいて前記要素を選定することを特徴とする請求項1記載のフォレンジックシステム。
  3.  前記要素選定部は、
     前記要素を評価値の降順に並び替え、前記要素の評価値の和が固有の目標値に到達するまで要素を抽出し、該抽出した要素を選定することを特徴とする請求項1または2記載のフォレンジックシステム。
  4.  前記再現率算出部は、
     前記スコアを算出された文書のうち、所定のスコア以上を有する文書に、前記文書群の文書が含まれる割合から再現率を算出することを特徴とする請求項1から3いずれか1項記載のフォレンジックシステム。
  5.  前記再現率算出部は、
     前記スコアを算出された文書データの各文書を、前記スコアの降順に並び替え、スコアの上位から所定の割合の文書を抽出し、前記抽出された文書に前記文書群が含まれる割合を再現率として計算することを特徴とする請求項1から4いずれか1項記載のフォレンジックシステム。
  6.  前記要素選定部は、
     前記要素が持つ、伝達情報量をもとに前記評価値を算出することを特徴とする請求項1から5いずれか1項記載のフォレンジックシステム。
  7.  前記フォレンジックシステムは、更に、
     前記スコアが所定の閾値を超過した文書に対して前記訴訟との関連性に関する判断を行う自動判断部を備えることを特徴とする請求項1から6いずれか1項記載のフォレンジックシステム。
  8.  前記フォレンジックシステムは、更に、
     前記デジタル情報に含まれる文書データから所定数の文書を含む文書群を抽出する抽出部と、
     前記抽出された文書群を画面上に表示する表示部とを備えることを特徴とする請求項1から7いずれか1項記載のフォレンジックシステム。
  9.  前記フォレンジックシステムは、更に、
     前記再現率が前記固有の目標値を下回っていた際に、前記要素の評価値の和と前記固有の目標値と前記再現率との差を用いて前記要素を再選定する要素再選定部を備えることを特徴とする請求項3から8いずれか1項記載のフォレンジックシステム。
  10.  前記要素再選定部は、
     前記再現率が前記固有の目標値を下回っていた際に、前記再現率が前記固有の目標値を上回るまで、前記要素の評価値の和が前記固有の目標値と前記再現率との差に到達するまで前記要素から前記抽出された要素を除いた要素の集合から要素を抽出し、選定することを特徴とする請求項9記載のフォレンジックシステム。
  11.  前記スコア算出部は、更に、
     前記再現率が前記固有の目標値を下回っていた際に、前記要素再選定部が選定した要素と該要素再選定部が再選定した要素の評価値とを用いて前記文書データの各文書の第2のスコアを算出し、前記スコアと前記第2のスコアとの合成により、前記文書データの各文書のスコアを再度算出することを特徴とする請求項9または10記載のフォレンジックシステム。
  12.  前記抽出部は、前記文書データから文書群をランダムにサンプリングし、抽出する機能を備えることを特徴とする請求項8記載のフォレンジックシステム。
  13.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジック方法において、
     コンピュータが、
     前記デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、前記訴訟との関連性について判断した結果である結果情報を受け付けるステップと、
     前記結果情報ごとに前記文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、前記要素を選定するステップと、
     前記文書データの各文書に含まれる前記選定された要素および前記選定された要素の評価値から前記文書データの各文書のスコアを算出するステップと、
     前記スコアに基づいて、訴訟との関連性の判断に関する再現率を算出するステップとを実行するフォレンジック方法。
  14.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析するフォレンジックプログラムにおいて、
     コンピュータに、
     前記デジタル情報に含まれる文書データから抽出された、所定数の文書を含む文書群に対して利用者が、前記訴訟との関連性について判断した結果である結果情報を受け付ける機能と、
     前記結果情報ごとに前記文書群に共通して出現する要素の特徴から該要素の評価値を算出し、該評価値に基づいて、前記要素を選定する機能と、
     前記文書データの各文書に含まれる前記選定された要素および前記選定された要素の評価値から前記文書データの各文書のスコアを算出する機能と、
     前記スコアに基づいて、訴訟との関連性の判断に関する再現率を算出する機能とを実現させるフォレンジックプログラム。
PCT/JP2013/077442 2012-10-09 2013-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム WO2014057964A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
KR1020157012205A KR101566153B1 (ko) 2012-10-09 2013-10-09 포렌식 시스템 및 포렌식 방법 및 포렌식 프로그램
EP13845254.5A EP2908283A4 (en) 2012-10-09 2013-10-09 FORENSIC SYSTEM, FORENSIC PROCEDURE AND FORENSIC PROGRAM
CN201380052823.2A CN104871201A (zh) 2012-10-09 2013-10-09 鉴识系统、鉴识方法、及鉴识程序
US14/396,002 US9396273B2 (en) 2012-10-09 2013-10-09 Forensic system, forensic method, and forensic program
HK16100583.5A HK1212799A1 (zh) 2012-10-09 2016-01-20 取證系統,取證方法,和取證程序
US15/142,069 US10073891B2 (en) 2012-10-09 2016-04-29 Forensic system, forensic method, and forensic program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012224587A JP5526209B2 (ja) 2012-10-09 2012-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP2012-224587 2012-10-09

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US14/396,002 A-371-Of-International US9396273B2 (en) 2012-10-09 2013-10-09 Forensic system, forensic method, and forensic program
US15/142,069 Continuation US10073891B2 (en) 2012-10-09 2016-04-29 Forensic system, forensic method, and forensic program

Publications (1)

Publication Number Publication Date
WO2014057964A1 true WO2014057964A1 (ja) 2014-04-17

Family

ID=50477432

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/077442 WO2014057964A1 (ja) 2012-10-09 2013-10-09 フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Country Status (8)

Country Link
US (2) US9396273B2 (ja)
EP (1) EP2908283A4 (ja)
JP (1) JP5526209B2 (ja)
KR (1) KR101566153B1 (ja)
CN (1) CN104871201A (ja)
HK (1) HK1212799A1 (ja)
TW (1) TWI556128B (ja)
WO (1) WO2014057964A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
CN108255926A (zh) * 2017-11-14 2018-07-06 宫辉 一种基于甘特图的法律事务管理方法和系统
CN111444438A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10552459B2 (en) * 2013-10-31 2020-02-04 Micro Focus Llc Classifying a document using patterns
CN106302608B (zh) * 2015-06-08 2020-02-04 阿里巴巴集团控股有限公司 一种信息处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000511671A (ja) * 1996-05-29 2000-09-05 レクシス―ネクシス ア ディヴィジョン オヴ リード エルザヴィア インコーポレイテッド 自動文書分類システム
JP2005508542A (ja) * 2001-11-02 2005-03-31 ウェスト パブリッシング カンパニー ドゥーイング ビジネス アズ ウェスト グループ ドキュメントを分類するシステム、方法、およびソフトウェア
JP2006235716A (ja) * 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
JP2011209930A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209931A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642520A (en) * 1993-12-07 1997-06-24 Nippon Telegraph And Telephone Corporation Method and apparatus for recognizing topic structure of language data
JPH1049549A (ja) * 1996-05-29 1998-02-20 Matsushita Electric Ind Co Ltd 文書検索装置
WO2000016215A1 (fr) * 1998-09-10 2000-03-23 Fujitsu Limited Appareil d'examen de documents, systeme d'examen de documents et support d'enregistrement exploitable par ordinateur et servant a memoriser des programmes permettant d'exploiter des ordinateurs en tant qu'appareils d'examen de documents
US6128620A (en) * 1999-02-02 2000-10-03 Lemed Inc Medical database for litigation
US7024416B1 (en) * 1999-03-31 2006-04-04 Verizon Laboratories Inc. Semi-automatic index term augmentation in document retrieval
US7197716B2 (en) * 2000-12-22 2007-03-27 Merchant & Gould, P.C. Litigation management system and method
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
JP2003167914A (ja) * 2001-11-30 2003-06-13 Fujitsu Ltd マルチメディア情報検索方法、プログラム、記録媒体及びシステム
US6946715B2 (en) * 2003-02-19 2005-09-20 Micron Technology, Inc. CMOS image sensor and method of fabrication
US7912842B1 (en) * 2003-02-04 2011-03-22 Lexisnexis Risk Data Management Inc. Method and system for processing and linking data records
KR100515641B1 (ko) * 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
JP4333229B2 (ja) * 2003-06-23 2009-09-16 沖電気工業株式会社 固有表現文字列の評価装置および評価方法
US7493322B2 (en) * 2003-10-15 2009-02-17 Xerox Corporation System and method for computing a measure of similarity between documents
US8612411B1 (en) * 2003-12-31 2013-12-17 Google Inc. Clustering documents using citation patterns
CN101069177A (zh) * 2004-11-05 2007-11-07 株式会社Ipb 关键字抽取装置
US7937579B2 (en) * 2005-03-16 2011-05-03 Dt Labs, Llc System, method and apparatus for electronically protecting data and digital content
KR20080005208A (ko) 2005-04-25 2008-01-10 가부시키가이샤 아이.피.비. 정보해석 보고서 자동 작성 장치, 정보해석 보고서 자동작성 프로그램 및 정보해석 보고서 자동 작성 방법
JP2007047575A (ja) * 2005-08-11 2007-02-22 Canon Inc パターンマッチング方法およびその装置、および音声情報検索システム
US20070139231A1 (en) * 2005-10-19 2007-06-21 Advanced Digital Forensic Solutions, Inc. Systems and methods for enterprise-wide data identification, sharing and management in a commercial context
US20070198594A1 (en) * 2005-11-16 2007-08-23 Lunt Tracy T Transferring electronic file constituents contained in an electronic compound file using a forensic file copy
US7814102B2 (en) * 2005-12-07 2010-10-12 Lexisnexis, A Division Of Reed Elsevier Inc. Method and system for linking documents with multiple topics to related documents
US7689559B2 (en) * 2006-02-08 2010-03-30 Telenor Asa Document similarity scoring and ranking method, device and computer program product
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP5010885B2 (ja) * 2006-09-29 2012-08-29 株式会社ジャストシステム 文書検索装置、文書検索方法および文書検索プログラム
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
CN101647021B (zh) * 2007-04-13 2013-03-27 麻省理工学院 语音数据检索装置、语音数据检索方法、语音数据检索程序和包含有语音数据检索程序的计算机可用介质
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム
KR101008877B1 (ko) 2007-12-06 2011-01-17 한국전자통신연구원 디지털 포렌식에서의 검색 및 검색 결과를 제시하는 방법, 그리고 그 장치
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
JP5316158B2 (ja) * 2008-05-28 2013-10-16 株式会社リコー 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US20100049769A1 (en) 2008-08-25 2010-02-25 Chen-Kun Chen System And Method For Monitoring And Managing Patent Events
GB0816556D0 (en) * 2008-09-10 2008-10-15 Univ Napier Improvements in or relating to digital forensics
KR101082024B1 (ko) 2008-12-08 2011-11-10 한국전자통신연구원 디지털 포렌식 시스템에서 증거 이미지의 색인 관리 장치 및 방법
US8290961B2 (en) * 2009-01-13 2012-10-16 Sandia Corporation Technique for information retrieval using enhanced latent semantic analysis generating rank approximation matrix by factorizing the weighted morpheme-by-document matrix
US20100205014A1 (en) * 2009-02-06 2010-08-12 Cary Sholer Method and system for providing response services
US20100205020A1 (en) * 2009-02-09 2010-08-12 Losey Ralph C System and method for establishing, managing, and controlling the time, cost, and quality of information retrieval and production in electronic discovery
KR101065091B1 (ko) * 2009-02-17 2011-09-16 엔에이치엔(주) 기여 점수에 기초한 문서 순위 결정 시스템 및 방법
JP5534266B2 (ja) * 2009-07-22 2014-06-25 ファンデーションアイピー,エルエルシー 電子文書コレクションからクエリ結果を送付する方法、システム及び装置
JP2011076408A (ja) * 2009-09-30 2011-04-14 Brother Industries Ltd データ管理装置、データ管理方法、およびデータ管理プログラム
EP2354971A1 (en) * 2010-01-29 2011-08-10 E-Therapeutics plc Document analysis system
WO2012048158A1 (en) * 2010-10-06 2012-04-12 Planet Data Solutions System and method for indexing electronic discovery data
US8775341B1 (en) * 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US9037630B2 (en) * 2012-02-21 2015-05-19 Matthew Martin Shannon Systems and methods for provisioning digital forensics services remotely over public and private networks
US9146981B2 (en) * 2012-07-06 2015-09-29 International Business Machines Corporation Automated electronic discovery collections and preservations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000511671A (ja) * 1996-05-29 2000-09-05 レクシス―ネクシス ア ディヴィジョン オヴ リード エルザヴィア インコーポレイテッド 自動文書分類システム
JP2005508542A (ja) * 2001-11-02 2005-03-31 ウェスト パブリッシング カンパニー ドゥーイング ビジネス アズ ウェスト グループ ドキュメントを分類するシステム、方法、およびソフトウェア
JP2006235716A (ja) * 2005-02-22 2006-09-07 Hitachi Ltd 文書フィルタリングシステム
JP2011209930A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2011209931A (ja) 2010-03-29 2011-10-20 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP2012032859A (ja) 2010-07-28 2012-02-16 Ubic:Kk フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2908283A4

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157467A1 (ja) * 2015-03-31 2016-10-06 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
US9563652B2 (en) 2015-03-31 2017-02-07 Ubic, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
JPWO2016157467A1 (ja) * 2015-03-31 2017-04-27 株式会社Ubic データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
US10204153B2 (en) 2015-03-31 2019-02-12 Fronteo, Inc. Data analysis system, data analysis method, data analysis program, and storage medium
CN108255926A (zh) * 2017-11-14 2018-07-06 宫辉 一种基于甘特图的法律事务管理方法和系统
CN111444438A (zh) * 2020-03-24 2020-07-24 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质
CN111444438B (zh) * 2020-03-24 2023-09-01 北京百度网讯科技有限公司 召回策略的准召率的确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2014078084A (ja) 2014-05-01
US20150088876A1 (en) 2015-03-26
US9396273B2 (en) 2016-07-19
US20160246795A1 (en) 2016-08-25
CN104871201A (zh) 2015-08-26
TWI556128B (zh) 2016-11-01
EP2908283A4 (en) 2016-04-20
KR20150056878A (ko) 2015-05-27
US10073891B2 (en) 2018-09-11
KR101566153B1 (ko) 2015-11-04
EP2908283A1 (en) 2015-08-19
HK1212799A1 (zh) 2016-06-17
JP5526209B2 (ja) 2014-06-18
TW201415275A (zh) 2014-04-16

Similar Documents

Publication Publication Date Title
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5596213B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
US9542474B2 (en) Forensic system, forensic method, and forensic program
WO2014057964A1 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US20160292803A1 (en) Document Analysis System, Document Analysis Method, and Document Analysis Program
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
US20150339786A1 (en) Forensic system, forensic method, and forensic program
JP5592552B1 (ja) 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP6404294B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13845254

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14396002

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2013845254

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 20157012205

Country of ref document: KR

Kind code of ref document: A