WO2014084141A1 - 文書管理システムおよび文書管理方法並びに文書管理プログラム - Google Patents

文書管理システムおよび文書管理方法並びに文書管理プログラム Download PDF

Info

Publication number
WO2014084141A1
WO2014084141A1 PCT/JP2013/081522 JP2013081522W WO2014084141A1 WO 2014084141 A1 WO2014084141 A1 WO 2014084141A1 JP 2013081522 W JP2013081522 W JP 2013081522W WO 2014084141 A1 WO2014084141 A1 WO 2014084141A1
Authority
WO
WIPO (PCT)
Prior art keywords
document data
document
unit
information
thread
Prior art date
Application number
PCT/JP2013/081522
Other languages
English (en)
French (fr)
Inventor
守本 正宏
喜勝 白井
秀樹 武田
和巳 蓮子
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to US14/648,634 priority Critical patent/US9594757B2/en
Publication of WO2014084141A1 publication Critical patent/WO2014084141A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Definitions

  • the present invention relates to a document management system, a document management method, and a document management program, and more particularly to a document management system, a document management method, and a document management program for collecting document information related to a lawsuit.
  • Patent Document 1 a specific person is specified from at least one target person included in the target person information of the document submission order, and the specific person is based on the access history information regarding the specified specific person. Extracts only the accessed digital document information, sets the incidental information indicating whether each document file of the extracted digital document information is related to the lawsuit, and based on the incidental information, the document related to the lawsuit.
  • Patent Document 2 displays recorded digital information, and for each of a plurality of document files, specifies a target person indicating which target person is included in the target person information included in the target person information. Information is set, the set target identification information is set to be recorded in the storage unit, at least one target is specified, and target identification information corresponding to the specified target is set Searches the document file, sets incidental information indicating whether or not the retrieved document file is related to the lawsuit, and outputs the document file related to the lawsuit based on the supplementary information.
  • a document management system is disclosed.
  • Patent Document 3 accepts designation of at least one or more document files included in the digital document information, accepts designation of which language the designated document file is translated into, and designates the document file for which designation is accepted. , Translated into the language that accepted the specification, extracted from the digital document information recorded in the recording unit a common document file showing the same content as the specified document file, the extracted common document file was translated There is disclosed a document management system that generates translation related information indicating that translation has been performed by using the translation content of a document file, and outputs a document file related to a lawsuit based on the translation related information.
  • Patent Document 1 to Patent Document 3 a large amount of document information of a target person using a plurality of computers and servers is collected.
  • an object of the present invention is to provide a document management system, a document management method, and a document management program that can further reduce a reviewer's review load.
  • the document management system acquires digital information recorded in a plurality of computers or servers, and analyzes the relevance of the acquired digital information with respect to lawsuits.
  • Document data included in the digital information A thread classifying unit that confirms each incidental information and classifies the document data into threads based on the incidental information, and extracts elements included in the incidental information of the classified document data for each thread.
  • a similarity analysis unit that analyzes the similarity between threads based on the elements, and an integration unit that integrates threads based on the similarity.
  • “Attached information” refers to information attached to document data.
  • the incidental information may be meta information tagged to structure document data.
  • Thread refers to a collection of document data related to specific information.
  • the thread classifying unit can classify the document data by using an electronic mail describing common contents and a reply mail to the electronic mail as one thread.
  • the document management system further includes document data for classifying document data included in the digital information into single document data, main document data, subordinate document data having a subordinate relationship with the main document data, and other document data.
  • the thread classification unit may include at least a single document data and main document data.
  • the thread classification unit may further classify each of the dependent document data into the same thread as the corresponding main document data.
  • the thread classification unit may handle at least one of the title, creation date / time, update date / time, and author name of the document data as supplementary information.
  • other document data includes unstructured document data having no additional information
  • the thread classification unit considers the contents of the unstructured document data when classifying the unstructured document data. May be.
  • the integration unit may integrate each of the subordinate document data into the same thread as the corresponding main document data.
  • the document management system further includes an extraction unit that extracts a predetermined number of document data from the integrated thread, a screen display unit that displays the extracted document data on the screen, and the displayed document data.
  • the result receiving unit that receives the judgment result of the relevance performed by the user, and the extracted document data is classified according to the judgment result based on the judgment result.
  • a selection unit for analyzing and selecting the element appearing, an element recording unit for recording the selected element, a search unit for searching the element data recorded in the element recording unit, and a search result of the search unit,
  • a score calculation unit that calculates a score indicating the relationship between the determination result and the document data using the analysis result of the selection unit may be provided.
  • the document management method of the present invention is a document management method for acquiring digital information recorded in a plurality of computers or servers, and analyzing the acquired digital information for relevance with a lawsuit.
  • To confirm the incidental information of each document data classify the document data into threads based on the incidental information, extract the elements included in the incidental information of the classified document data for each thread, and extract these
  • the step of analyzing the similarity between threads based on the determined elements and the step of integrating the threads based on the similarity are executed.
  • a document management program is a document management program for acquiring digital information recorded in a plurality of computers or servers, and analyzing the acquired digital information for relevance with a lawsuit.
  • To check the incidental information of each document data classify the document data into threads based on the incidental information, and extract the elements included in the incidental information of the classified document data for each thread, and extract these
  • a function of analyzing the similarity between threads based on the elements that have been made, and a function of integrating threads based on the similarity are realized.
  • the document management system acquires digital information recorded in a plurality of computers or servers, and analyzes the relevance of the acquired digital information with respect to lawsuits.
  • Document data included in the digital information A thread classifying unit that confirms each incidental information and classifies the document data into threads based on the incidental information, and extracts elements included in the incidental information of the classified document data for each thread.
  • a similarity analysis unit that analyzes the similarity between threads based on the elements and an integration unit that integrates threads based on the similarity, the user can determine the relevance (review).
  • the document management system further includes document data for classifying document data included in the digital information into single document data, main document data, subordinate document data having a subordinate relationship with the main document data, and other document data.
  • the thread classification unit includes at least a single document data and a main document data, and can classify at least the single document data and the main document data into threads.
  • the integration unit can integrate the subordinate document data into the same thread.
  • the thread classification unit may further classify the document data having a dependency relationship into the same thread when the dependent document data is classified into the same thread as the corresponding main document data. It becomes possible.
  • the thread classification unit handles at least one of the title, creation date, update date, and author name of the document data as supplementary information, based on information other than the content of the document data, Document data can be classified into threads.
  • the other document data includes unstructured document data having no additional information
  • the thread classification unit refers to the contents of the unstructured document data when classifying the unstructured document data. At that time, even document data having no additional information can be classified into threads by an alternative means.
  • the document management system further includes an extraction unit that extracts a predetermined number of document data from the integrated thread, a screen display unit that displays the extracted document data on the screen, and the displayed document data.
  • the result receiving unit that receives the judgment result of the relevance performed by the user, and the extracted document data is classified according to the judgment result based on the judgment result.
  • a selection unit for analyzing and selecting the element appearing, an element recording unit for recording the selected element, a search unit for searching the element data recorded in the element recording unit, and a search result of the search unit,
  • the review result of the user is compared with the document data of the same quality.
  • the system makes it possible to perform the review automatically Based, it is possible to improve the accuracy of the review.
  • FIG. 1 is a block diagram of a document management system according to a first embodiment of the present invention.
  • Schematic diagram showing the parent-child relationship of e-mail in the first embodiment of the present invention The block diagram of the document management system in the 2nd Embodiment of this invention
  • the graph which showed the analysis result in the selection part in the 2nd Embodiment of this invention The flowchart showing the processing flow in the 2nd Embodiment of this invention.
  • FIG. 1 is a block diagram of a document management system according to this embodiment.
  • the document management system includes a computer or a server, and operates as various functional units when a CPU executes a program recorded in a ROM based on various inputs.
  • the program may be stored in a storage medium such as a CD-ROM or distributed via a network such as the Internet and installed in a computer.
  • the document management system includes a client terminal 200 and a server device 100.
  • the client terminal 200 includes a screen display unit 211 that displays a plurality of document data extracted from digital information, and an instruction unit 212 that receives input from the user, which are targets for the user to determine the relevance with the lawsuit. ing.
  • the server apparatus 100 confirms the incidental information of each document data included in the digital information, and classifies the document data into threads based on the incidental information, and is included in the incidental information of the classified document data
  • a similarity analysis unit 112 that analyzes the similarity between threads based on the extracted elements, and an integration unit 113 that integrates threads based on the similarity.
  • a document data classification unit 114 is provided that classifies document data included in the digital information into single document data, main document data, subordinate document data having a subordinate relationship with the main document data, and other document data.
  • the thread classification unit 111 classifies at least the single document data and the main document data.
  • the server device accepts a relevance determination result made by the user with respect to the extraction unit 155 that extracts a predetermined number of document data from the integrated thread and the document data displayed on the screen display unit 211.
  • a result receiving unit 156 receives a relevance determination result made by the user with respect to the extraction unit 155 that extracts a predetermined number
  • EDiscovery requires an operation (referred to as a review) for sorting out whether or not a large amount of digitized document information is appropriate as evidence for a lawsuit.
  • Review means that the system or a person judges whether or not to submit to a lawsuit for document data. For example, in a review, a document group, which is document data to be reviewed, is classified into a plurality of types based on the degree of association with a lawsuit and the manner of relation with a lawsuit.
  • a set of document data is created based on predetermined requirements.
  • a reviewer determines the relevance of the lawsuit in order to extract the document data that needs to be submitted to the lawsuit from the document data.
  • the reviewer can review the document data of the same quality, and the review efficiency and the burden on the reviewer can be reduced.
  • Document data refers to information including one or more words.
  • the document data preferably includes information including one or more words as the content of the text, and additional information as information other than the text.
  • the incidental information refers to meta information.
  • the supplementary information may mean information related to document data such as the creation date and time of the document data, the creator, the data format, and the title.
  • Examples of document data include e-mail, presentation materials, spreadsheet materials, meeting materials, contracts, organization charts, and business plans. It is also possible to handle scan data as document data.
  • an OCR (Optical Character Reader) device may be provided in the document management system so that the scan data can be converted into text data. By changing to text data by the OCR device, it becomes possible to analyze and search elements described later from the scan data.
  • the document data may be classified into single document data, main document data, subordinate document data, and other document data by processing of a document data classification unit 114 described later.
  • a communication network refers to a wired or wireless communication line.
  • a communication network For example, a telephone line or an internet line.
  • the screen display unit 211 indicates a display or a liquid crystal monitor that displays document data to be reviewed on the client terminal 200.
  • the instruction unit 212 indicates a mouse or a keyboard provided in the client terminal 200, and accepts operations and inputs from the user.
  • the document data classification unit 114 classifies the document data into single document data, main document data, subordinate document data having a subordinate relationship with the main document data, and other document data.
  • Dependent document data refers to data having a dependency relationship with main document data (in this case, e-mail) such as an attached file of e-mail.
  • Single document data refers to document data that does not have dependent document data.
  • the other document data refers to document data that does not correspond to any of single document data, main document data, and subordinate document data.
  • unstructured document data corresponds to this.
  • Unstructured document data means document data having no supplementary information. Specifically, an email with a blank subject corresponds to this.
  • Thread classification unit 111 classifies document data into threads based on the accompanying information. For example, when classifying e-mails, the thread classifying unit 111 uses “Re:” that indicates a reply with the same subject, “FW:” that indicates a reply, or “FW:” that indicates forwarding based on the subject of the e-mail. E-mails with the added subject are classified into the same thread. In addition to the subject name, the thread classification unit 111 may handle at least one of the title, creation date / time, update date / time, and author name of the document data as supplementary information.
  • the thread classification unit 111 refers to the contents of the unstructured document data. It may be a thing. That is, when classifying e-mails that are unstructured document data, they are classified based on the body of the e-mail.
  • the similarity analysis unit 112 analyzes the similarity between threads.
  • the similarity analysis unit 112 preferably analyzes the similarity between threads based on elements included in the incidental information of the email included in each thread for each thread.
  • An element refers to a component of document data such as a word, symbol, or drawing included in the document data.
  • an element may refer to each of a set of phonemes that are divided and extracted to a point where they do not make sense after further decomposition in a language such as a morpheme.
  • an element of a sentence “classify a document” may be “document”, “classify”, and “perform”.
  • the integration unit 113 integrates the threads based on the similarity of the incidental information of the document data included in the threads. Further, the integration unit 113 integrates each of the dependent document data into the same thread as the main document data.
  • a thread integrated by the integration unit 113 is defined as a cluster.
  • the extraction unit 155 extracts a predetermined number of document data from the document data included in the thread (cluster) integrated by the integration unit 113 as a review target by the user. This extraction may be performed randomly or based on attributes such as the update date and time of the document data.
  • the result reception unit 156 receives the result of the review performed by the user for each document data.
  • the user gives an identification code to the document data according to the degree of relevance with the lawsuit in the review. For example, “Responsive” code is assigned to document data that is highly relevant to a lawsuit and needs to be submitted as evidence, and “Non-Responsive” code is assigned to document data that does not need to be submitted. Furthermore, among the document data to which the “Responsive” code is assigned, the “HOT” code is given together with the “Responsive” code to the document data that is particularly relevant to the lawsuit and is particularly important evidence.
  • the “Product A” code is used for the document data that is highly related to the product A
  • the “Product B” code is used for the document data that is highly related to the product B Shall be given.
  • the result receiving unit 156 can receive each identification code as a result of the relevance determination.
  • FIG. 2 is a flowchart showing the flow of processing of the document management system in this embodiment.
  • FIG. 3 is a diagram schematically showing how document data is clustered when the processing shown in FIG. 2 is performed.
  • the document data classification unit 114 classifies the document data (STEP 111). Specifically, the document data classification unit 114, as shown in FIG. 3, out of all the collected document data 501 (ALL Documents), the email is sent to the Mails group 511, and the file attached to the email is Attachments. In the group 512, document data that is neither an electronic mail nor an attached file is classified into an Other / Documents group 513.
  • the thread classification unit 111 classifies the documents in the Mails group 511 into the thread group 521 (Threaded Clusters) or the non-thread group 522 (Non-Threaded Clusters) based on the incidental information as the subject of the email. .
  • the thread group 521 Thread Aaded Clusters
  • the non-thread group 522 Non-Threaded Clusters
  • the thread classification unit 111 classifies the documents in the Mails group 511 into the thread group 521 (Threaded Clusters) or the non-thread group 522 (Non-Threaded Clusters) based on the incidental information as the subject of the email.
  • FIG. 4 for an e-mail whose subject is “Product A Development Status”, there is one parent mail, two replies, one transfer, and “Product A Shipment Determination”. Assume that there is one parent mail and three replies for the subject e-mail. Further, as an example of a case where only the parent mail is an email with the subject “Development of new product”, “
  • E-mails are classified into the same thread on the assumption that they have the same incidental information (FIG. 2, STEP 112). On the other hand, e-mails that have only a parent mail are not threaded and are grouped into a non-thread group 522 in FIG.
  • the integration unit 113 integrates the thread data of the thread group 521 and the document data included in the non-thread group 522 based on the similarity between the threads to form a thread group 531 (Threaded-based Clusters) (STEP 113).
  • the integration unit 113 combines the accompanying information of the document data belonging to the thread, and generates the accompanying information representing the thread. Specifically, the elements included in the supplementary information are extracted, and a composite vector is generated based on the similarity distribution between the elements. Then, among the document data classified into the non-thread group 522, the document data having the accompanying information having a high degree of similarity to the combined auxiliary information is integrated into the thread in the thread group 521 of the combined auxiliary information.
  • the integration unit 113 performs processing for integrating the subordinate document data classified into the Attachments group into threads and clustering them into clusters 541 (Clusters) (STEP 114). It is desirable to integrate into the same thread as the e-mail to which the subordinate document data was attached.
  • the integration unit 113 integrates the document data classified into the Other Documents group (STEP 115).
  • An incidental information vector is created from the file names (excluding the extension) of these document data, and the similarity with the composite vector created in STEP 114 is calculated. If the maximum similarity is greater than or equal to the threshold value, it is integrated into the most similar cluster.
  • a vector is constructed from the whole of the other document data, and the similarity to the previous combined vector is calculated. Then, the maximum similarity is integrated into a cluster having a threshold value or more. All other document data that has not been merged in this way is collectively set as another cluster.
  • the extraction unit 155 extracts document data to be reviewed from each cluster created in this way (STEP 116).
  • the extraction unit 155 extracts document data by random sampling, but may extract the document data in order of creation date and time or in order of creator name.
  • the user reviews the extracted document data (STEP 117), and the result reception unit 156 receives the review result (STEP 118). This makes it possible to review document data of the same quality.
  • FIG. 5 shows a block diagram of the document management system according to the present embodiment.
  • the document management system includes a client terminal 200 and a server device 100.
  • the client terminal 200 includes a screen display unit 211 that displays a plurality of document data extracted from digital information, and an instruction unit 212 that receives input from the user, which are targets for the user to determine the relevance with the lawsuit. ing.
  • the server apparatus 100 confirms the incidental information of each document data included in the digital information, and classifies the document data into threads based on the incidental information, and the incidental information of the classified document data Are extracted for each thread, a similarity analysis unit 112 that analyzes the similarity between threads based on these extracted elements, and an integration unit 113 that integrates threads based on the similarity And.
  • the server device 100 extracts the predetermined number of document data from the integrated thread, and the relevance determination result made by the user with respect to the document data displayed on the screen display unit 211.
  • the result receiving unit 156 that accepts and sorts the extracted document data for each judgment result based on these judgment results, and analyzes and selects elements that appear in common in these sorted document data
  • a selection unit 157, an element recording unit 158 that records the selected element, a search unit 159 that searches the document data for the element recorded in the element recording unit 158, a search result of the search unit 159, and an analysis result of the selection unit 157 Is used to calculate a score indicating the relevance between the determination result and the document data.
  • the selection unit 157 selects an element.
  • the selection unit 157 may analyze and select elements that appear in common in document data having the same determination result.
  • the judgment result refers to a result of judgment of relevance with a lawsuit performed by a user on a document group.
  • the determination result may indicate a classification code that represents the degree of relevance with a lawsuit that is given to the document by the user.
  • the selection unit 157 can also consider the evaluation value of the element when selecting the element.
  • the evaluation value is a value that represents the feature of the element.
  • the evaluation value may represent the amount of information transmitted by the element.
  • the amount of transmitted information refers to an amount that represents a measure of the interdependence of two random variables in probability theory and information theory. Specifically, the amount of transmitted information may be a measure that represents the relationship between a determination result of relevance to a document including the element and the element.
  • FIG. 6 is a graph showing a result of the selection unit 157 analyzing elements that frequently appear in document data determined to be relevant.
  • the vertical axis R_hot includes elements selected as elements associated with the document data determined to be relevant among all the document data determined to be relevant by the user, and the relevance The ratio of the document data determined to be present is shown.
  • the horizontal axis R_all indicates the ratio of document data including elements searched by the search unit 159 described later, out of all document data reviewed by the user.
  • the element recording unit 158 is a unit that records an element. It may be a database.
  • the search unit 159 is a unit that searches for element from document data.
  • the score calculation unit 160 is a unit that calculates the score of document data.
  • the score may be calculated based on the evaluation value of the element included in the document data.
  • the evaluation value is calculated based on the appearance frequency of elements in document data and the amount of transmitted information, and may refer to the amount of information exhibited in document data with elements.
  • Score refers to the degree of relevance to lawsuits in certain document data.
  • the score is calculated based on elements included in the document data. For example, document data including an element that needs to be submitted at the time of a lawsuit may have a higher score.
  • the document data may be given an initial score based on certain requirements. For example, the initial score may be calculated from the elements appearing in the document data and the evaluation values of the elements.
  • the score calculation unit 160 can calculate a score from the following formula based on the elements appearing in the document group and the evaluation values of the elements.
  • the evaluation value possessed by each element is determined based on the amount of transmitted information possessed by the element.
  • the evaluation value can be learned by the following equation.
  • the extraction unit 155 extracts a predetermined number of document data from the cluster integrated by the integration unit 113 (STEP 211).
  • the screen display unit 211 causes the client terminal 200 to display the extracted document data (STEP 212).
  • the result receiving unit 156 receives the result of the user's relevance determination (STEP 213), and the selection unit 157 analyzes the document data from the result of the user's relevance determination and selects an element (STEP 214).
  • the selected element is recorded by the element recording unit 158 (STEP 215).
  • the search unit 159 searches for the element recorded from each document data, and the score calculation unit 160 calculates the score of each document data using the equation (1) (STEP 216).
  • a document management system acquires digital information recorded on a plurality of computers or servers, and analyzes the acquired digital information for relevance with a lawsuit.
  • each document data included in the digital information is attached.
  • Thread classification unit 111 that confirms information and classifies document data into threads based on these incidental information, and extracts elements included in the incidental information of the classified document data for each thread, and these extracted elements
  • the similarity analysis unit 112 that analyzes the similarity between threads based on the above and the integration unit 113 that integrates threads based on the similarity are provided so that the user can determine the relationship (review).
  • the document management system further includes document data for classifying document data included in the digital information into single document data, main document data, subordinate document data having a subordinate relationship with the main document data, and other document data.
  • the thread classifying unit 111 includes a classifying unit 114. When the thread classifying unit 111 classifies at least single document data and main document data, at least single document data and main document data can be classified into threads.
  • the integration unit 113 can integrate the subordinate document data into the same thread. Become.
  • the thread classification unit 111 further classifies the document data having a dependency relationship into the same thread when the dependent document data is classified into the same thread as the corresponding main document data. Is possible.
  • the thread classification unit 111 handles at least one of the title, creation date / time, update date / time, and author name of the document data as incidental information
  • the thread classification unit 111 is based on information other than the content of the document data.
  • Document data can be classified into threads.
  • the other document data includes unstructured document data having no accompanying information
  • the thread classification unit 111 refers to the contents of the unstructured document data when classifying the unstructured document data. In some cases, even document data without accompanying information can be classified into threads by alternative means.
  • the document management system is further displayed with an extraction unit 155 for extracting a predetermined number of document data from the integrated thread, and a screen display unit 211 for displaying the extracted document data on the screen.
  • a result receiving unit 156 that receives the determination result of relevance performed by the user with respect to the document data, and the extracted document data is classified according to the determination result based on the determination result, and these classified document data
  • a selecting unit 157 for analyzing and selecting commonly appearing elements, an element recording unit 158 for recording the selected elements, and a search unit 159 for searching for the elements recorded in the element recording unit 158 from the document data
  • a score calculation unit 160 that calculates a score indicating the relevance between the determination result and the document data using the search result of the search unit 159 and the analysis result of the selection unit 157.
  • the system in light of the user's review results for review automatically, it becomes possible to improve the accuracy of the review.
  • the thread classification unit 111 classifies main document data and single document data among the document data into threads.
  • the thread classification unit 111 may further classify each of the dependent document data into the same thread as the corresponding main document data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

レビュワーのレビューの負荷を軽減することを可能とする。 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部と、この類似度に基づいて、スレッド同士を統合する統合部とを備える。

Description

文書管理システムおよび文書管理方法並びに文書管理プログラム
 本発明は、文書管理システムおよび文書管理方法並びに文書管理プログラムに関するものであって、特に、訴訟に関連する文書情報を収集するための文書管理システムおよび文書管理方法並びに文書管理プログラムに関するものである。
 従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
 また、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
 一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
 そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
 近年、文書管理システムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、文書提出命令の対象者情報に含まれる少なくとも1人以上の対象者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力する文書管理システムについて開示されている。
 また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、対象者情報に含まれる対象者のうちいずれの対象者に関連するものであるかを示す対象者特定情報を設定し、該設定された対象者特定情報を記憶部に記録するように設定し、少なくとも一人以上の対象者を指定し、指定された対象者に対応する対象者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力する文書管理システムについて開示されている。
 さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力する文書管理システムについて開示されている。
特開2011-209930号公報 特開2011-209931号公報 特開2012-32859号公報
 しかしながら、例えば、特許文献1乃至特許文献3のような文書管理システムにおいては、複数のコンピュータおよびサーバを利用した対象者の膨大な文書情報を収集することになる。
 このようなデジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業は、レビュワーと呼ばれる利用者が目視により確認し、当該文書情報をひとつひとつ分別していく必要があったため、多大な労力と時間がかかる傾向があり、さらなる改善が求められていた。
 そこで、本発明は、上記事情に鑑み、レビュワーのレビューの負荷をより軽減することを可能とする文書管理システムおよび文書管理方法並びに文書管理プログラムを提供することを目的とするものである。
 本発明の文書管理システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部と、この類似度に基づいて、スレッド同士を統合する統合部とを備える。
 「付帯情報」は、文書データに付随する情報をいう。例えば、付帯情報は、文書データを構造化するためにタグ付けされたメタ情報などであってもよい。
 「スレッド」は、ある特定の情報に関する文書データの集まりをいう。例えば、スレッド分類部は、共通の内容について記載された電子メールおよびその電子メールに対する返信メールを一つのスレッドとして文書データを分類することができる。
 また、上記文書管理システムは、更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部を備え、上記スレッド分類部は、少なくとも単独文書データおよび主文書データを分類するものであってもよい。
 また、上記スレッド分類部は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものであってもよい。
 また、スレッド分類部は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか1つを付帯情報として扱うものであってもよい。
 また、その他の文書データは付帯情報を有さない非構造化文書データを含み、スレッド分類部は、非構造化文書データを分類する際、この非構造化文書データの内容を参酌するものであってもよい。
 また、上記統合部は、従属文書データの各々を、対応する主文書データと同一のスレッドに統合するものであってもよい。
 また、上記文書管理システムは、更に、統合されたスレッドから所定数の文書データを抽出する抽出部と、これらの抽出された文書データを画面上に表示する画面表示部と、表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部と、判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部と、選定した要素を記録する要素記録部と、要素記録部に記録された要素を文書データから探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部とを備えるものとしてもよい。
 本発明の文書管理方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理方法において、コンピュータが、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するステップと、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析するステップと、この類似度に基づいて、スレッド同士を統合するステップとを実行する。
 本発明の文書管理プログラムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理プログラムにおいて、コンピュータに、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類する機能と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する機能と、この類似度に基づいて、スレッド同士を統合する機能とを実現させる。
 本発明の文書管理システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部と、この類似度に基づいて、スレッド同士を統合する統合部とを備えることによって、利用者が関連性の判断(レビュー)を行う際に、同質の文書データ単位でレビューを行うことが可能となり、レビューの負荷の軽減および効率化を実現することが可能となる。
 また、上記文書管理システムは、更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部を備え、上記スレッド分類部は、少なくとも単独文書データおよび主文書データを分類するものである際においては、少なくとも単独文書データおよび主文書データをスレッドに分類することが可能となる。
 また、上記統合部は、従属文書データの各々を、対応する主文書データと同一のスレッドに統合するものである際においては、従属関係を有する文書データを同一スレッドに統合させることが可能となる。
 また、上記スレッド分類部は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものである際においては、従属関係を有する文書データを同一スレッドに分類することが可能となる。
 また、スレッド分類部は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか1つを付帯情報として扱うものである際においては、文書データの内容以外の情報に基づいて、文書データをスレッドに分類することが可能となる。
 また、その他の文書データは付帯情報を有さない非構造化文書データを含み、スレッド分類部は、非構造化文書データを分類する際、この非構造化文書データの内容を参酌するものである際においては、付帯情報を有さない文書データであっても代替手段によってスレッドに分類することが可能となる。
 また、上記文書管理システムは、更に、統合されたスレッドから所定数の文書データを抽出する抽出部と、これらの抽出された文書データを画面上に表示する画面表示部と、表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部と、判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部と、選定した要素を記録する要素記録部と、要素記録部に記録された要素を文書データから探索する探索部と、探索部の探索結果と選定部の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部とを備える際においては、同質の文書データに対して、利用者のレビュー結果を踏まえてシステムが自動でレビューを行うことが可能となり、レビューの精度を向上させることが可能となる。
本発明の第1の実施形態における文書管理システムのブロック図 本発明の第1の実施形態の処理フローを表すフローチャート 本発明の第1の実施形態に処理によって文書データが分類される様子を示す模式図 本発明の第1の実施形態における電子メールの親子関係を示す模式図 本発明の第2の実施形態における文書管理システムのブロック図 本発明の第2の実施形態における選定部での解析結果を示したグラフ 本発明の第2の実施形態における処理フローを表すフローチャート
[第1の実施形態]
 以下、本発明の第1の実施形態を図1乃至図4を用いて説明する。
 図1は、本実施形態に係る文書管理システムのブロック図を示している。
 文書管理システムは、コンピュータまたはサーバを備え、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。該プログラムは、CD-ROM等の記憶媒体に記憶され、もしくはインターネット等のネットワークを介して配布され、コンピュータにインストールされるものであってもよい。
 本発明の第1の実施形態に係る文書管理システムは、クライアント端末200とサーバ装置100から構成される。クライアント端末200は、利用者が訴訟との関連性について判断する対象となる、デジタル情報から抽出された複数の文書データを表示する画面表示部211と利用者からの入力を受け付ける指示部212を備えている。
 サーバ装置100は、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部111と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部112と、この類似度に基づいて、スレッド同士を統合する統合部113とを備えている。更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、この主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部114を備えている。このとき、スレッド分類部111は、少なくとも単独文書データおよび主文書データを分類する。更にサーバ装置は、上記統合されたスレッドから所定数の文書データを抽出する抽出部155と、画面表示部211に表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部156とを備える。
 eDiscovery(電子証拠開示)においては、デジタル化された膨大な文書情報を訴訟の証拠資料として妥当であるか否かの分別をする作業(レビューという)が必要となる。レビュー(関連性の判断)は、文書データに対して、システムあるいは人間が訴訟への提出の有無を判断するものをいう。例えばレビューでは、レビューの対象となる文書データである文書群を、訴訟の関連の度合いや、訴訟との関連の仕方に基づいて、複数の種類に分類を行う。
 本実施形態に係る文書管理システムでは、このレビューを行う前の段階として、所定の要件に基づいて文書データのまとまりを作成する。そして、まとめられた文書データに対して、レビュワーと呼ばれる利用者が、文書データの中から、訴訟に提出が必要な文書データを抽出するために、訴訟との関連性の判断を行う。これにより、同質の文書データに対してレビュワーがレビューすることができるようになり、レビューの効率化およびレビュワーの負担の軽減を図ることができる。
 文書データは、1つ以上の単語を含む情報をいう。文書データは、本文の内容として1つ以上の単語を含む情報を有し、本文以外の情報として付帯情報を有するものであることが好ましい。付帯情報とは、メタ情報のことをいう。例えば、付帯情報は、文書データの作成日時や作成者、データ形式、タイトルなど、文書データに関連する情報のことを意味してもよい。
 文書データの一例として、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等が挙げられる。また、スキャンデータを文書データとして扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書管理システム内にOCR(Optical Character Reader)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータから後述する要素の解析や探索が可能になる。文書データは、後述する文書データ分類部114の処理によって単独文書データ、主文書データ、従属文書データ、その他の文書データに分類されるものであってもよい。
 図1に記載された、各構成の機能について説明する。
 サーバ装置100とクライアント端末200とは通信ネットワークを介して接続されている。通信ネットワークは、有線あるいは無線の通信回線をいう。例えば、電話回線、インターネット回線等である。
 画面表示部211は、クライアント端末200上にレビュー対象となる文書データを表示する、ディスプレイや液晶モニタなどのことを指す。指示部212は、クライアント端末200に備えられたマウスやキーボードを指し、利用者からの操作や入力を受け付ける。
 文書データ分類部114は、文書データを単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する。従属文書データとは、電子メールの添付ファイルのように主文書データ(この場合は電子メール)との従属関係を有するものをいう。単独文書データは、従属文書データを有さない文書データをいう。その他の文書データは、単独文書データ、主文書データおよび従属文書データのいずれにも該当しない文書データをいう。例えば、非構造化文書データなどがこれに該当する。非構造化文書データは、付帯情報を有さない文書データを意味する。具体的には、件名が空欄の電子メールがこれに該当する。
 スレッド分類部111は、文書データをそれらの付帯情報に基づいてスレッドに分類する。例えば電子メールを分類する場合、スレッド分類部111は、電子メールの件名に基づいて、同一の件名のものや、同一の件名に返信を表す「Re:」や、転送を表す「FW:」が付加された件名の電子メールを同一スレッドに分類する。件名の他にもスレッド分類部111は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか1つを付帯情報として扱うものとしてもよい。また、例えば、件名が空白の電子メールのような、付帯情報を有さない非構造化文書データを分類する際には、スレッド分類部111は、これらの非構造化文書データの内容を参酌するものとしてもよい。つまり、非構造化文書データである電子メールを分類する場合には、この電子メールの本文に基づいて分類する。
 類似度解析部112は、スレッド間の類似度を解析する。特に、類似度解析部112は、スレッド毎にそのスレッドに含まれる電子メールの付帯情報に含まれる要素に基づいてスレッド間の類似度を解析することが好ましい。要素は、文書データに含まれる単語、記号、図面等の文書データの構成要素をいう。例えば、要素は、形態素のようなある言語においてそれ以上分解したら意味をなさなくなるところまで分割して抽出された、音素のまとまりの一つ一つを指してもよい。具体的には、「文書を分別する」という文章の要素は、「文書」「分別」「する」としてもよい。
 統合部113は、スレッドに含まれる文書データの付帯情報の類似度に基づいて、スレッド同士を統合する。また、統合部113は、従属文書データの各々を、主文書データと同一のスレッドに統合する。統合部113が統合したスレッドをクラスタとする。
 本実施形態において、抽出部155は、統合部113によって統合されたスレッド(クラスタ)に含まれる文書データから、所定数の文書データを利用者によるレビュー対象として抽出する。この抽出は、ランダムか、または、文書データの更新日時等の属性に基づいて行われるものとしてもよい。 
 結果受付部156は、各文書データに対して利用者が行ったレビューの結果を受け付ける。利用者は、レビューにおいて訴訟との関連度合に応じて文書データに識別符号の付与を行う。例えば、訴訟との関連性が高く証拠として提出が必要な文書データには「Responsive」符号を、提出が不要な文書データには「Non-Responsive」符号を付与する。更に、「Responsive」符号を付与した文書データのうち、特に訴訟との関連性が高くとりわけ重要な証拠である文書データには「HOT」符号を、「Responsive」符号と併せて付与する。また、「Responsive」符号を付与した文書データのうち製品Aと関連性が高い内容の文書データには「製品A」符号、製品Bと関連性が高い内容の文書データには「製品B」符号を付与するものとする。このとき、結果受付部156は、各識別符号を関連性判断の結果として受け付けることが可能である。
 次に、図2および図3を用いて、文書管理システムの処理の流れについて説明する。図2は、本実施形態における文書管理システムの処理の流れを示すフローチャートである。また、図3は図2に示す処理を行う際に、文書データがクラスタ化されていく様子を模式的に表した図である。
 まず、図2において、文書データ分類部114が文書データを分類する(STEP111)。具体的には、文書データ分類部114は、図3に示すように、収集した全文書データ501(ALL Documents)のうち、電子メールをMailsグループ511に、電子メールに添付されているファイルをAttachmentsグループ512に、電子メールまたはその添付ファイルのいずれでもない文書データをOther Documentsグループ513に分類する。
 次に、スレッド分類部111は、Mailsグループ511の文書を、付帯情報を電子メールの件名とし、これに基づいてスレッド群521(Threaded Clusters)または非スレッド群522(Non-Threaded Clusters)に分類する。例えば、図4に示すように、件名が「製品Aの開発状況」という電子メールについて、親メールが1通、返信が2通、転送が1通あり、また、「製品Aの出荷判定」という件名の電子メールについて親メールが1通、返信が3通あったとする。更に、親メールのみのメールとして、件名が「新商品の開発」、「製品Aの企画」、「Bさんについて」というメールおよび、件名が空白のメールが1通あった場合を例に説明する。このとき、件名が「製品Aの開発状況」、「Re:製品Aの開発状況」、「Re: Re:製品Aの開発状況」および「FW: Re: Re:製品Aの開発状況」である電子メールは、同一の付帯情報を有しているとして、同一スレッドに分類される(図2、STEP112)。一方で、親メールのみしかない電子メールはスレッド化はなされず、図3の非スレッド群522にまとめられる。
 次に、統合部113は、スレッド間の類似度に基づいてスレッド群521のスレッドと非スレッド群522に含まれる文書データを統合し、スレッド群531(Threaded-based Clusters)にする(STEP113)。このとき、統合部113は、スレッドに属する文書データの付帯情報を合成し、スレッドを代表する付帯情報を生成する。具体的には、付帯情報に含まれる要素を抽出し、要素間の類似度の分布に基づいて合成ベクトルを生成する。そして、非スレッド群522に分類された文書データのうち、合成した付帯情報と類似度が高い付帯情報を有する文書データを、この合成した付帯情報のスレッド群521中のスレッドへと統合する。
 更に、統合部113は、Attachmentsグループに分類された従属文書データを、スレッドへ統合し、クラスタ541(Clusters)にクラスタ化する処理を行う(STEP114)。従属文書データが添付されていた電子メールと同一のスレッドへと統合することが望ましい。
 また、統合部113は、Other Documentsグループに分類された文書データを統合する(STEP115)。これらの文書データのファイル名(拡張子を除く)から付帯情報ベクトルを作成し、STEP114で作成した合成ベクトルとの類似度を算出する。最大類似度が閾値以上であれば、最類似のクラスタに統合する。この処理で統合されなかった文書データについては、当該その他の文書データの全体からベクトルを構成し、先ほどの合成ベクトルとの類似度を算出する。そして、最大類似度が閾値以上であるクラスタに統合する。これでも統合されなかったその他の文書データは、全てまとめてその他のクラスタとする。
 このように作成した各クラスタから抽出部155はレビュー対象となる文書データを抽出する(STEP116)。抽出部155は文書データをランダムサンプリングにより抽出するが、作成日時順や作成者名順に抽出するものとしてもよい。
 そして、抽出された文書データに対して利用者がレビューを実施し(STEP117)、レビュー結果を結果受付部156が受け付ける(STEP118)。これにより、同質の文書データに対してレビューを行うことが可能となる。
[第2の実施形態]
 以下、本発明の第2の実施形態を図5乃至図7を用いて説明する。
 図5は、本実施形態に係る文書管理システムのブロック図を示している。
 本発明の第2の実施形態に係る文書管理システムは、クライアント端末200とサーバ装置100から構成される。クライアント端末200は、利用者が訴訟との関連性について判断する対象となる、デジタル情報から抽出された複数の文書データを表示する画面表示部211と利用者からの入力を受け付ける指示部212を備えている。
 また、サーバ装置100は、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部111と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部112と、この類似度に基づいて、スレッド同士を統合する統合部113とを備えている。
 更に、サーバ装置100は、上記統合されたスレッドから所定数の文書データを抽出する抽出部155と、画面表示部211に表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部156と、これらの判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部157と、選定した要素を記録する要素記録部158と、要素記録部158に記録された要素を文書データから探索する探索部159と、探索部159の探索結果と選定部157の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部160とを備える。
 選定部157は、要素を選定する。例えば、選定部157は、同一の判断結果がなされた文書データに共通して出現する要素を解析し、選定するものとしてもよい。判断結果は、利用者が文書群に対して行った、訴訟との関連性判断の結果を示すものをいう。判断結果は、利用者が文書に付与した、訴訟との関連性の度合いを表す分別符号を指してもよい。また、選定部157は、要素を選定する際に、要素の評価値を参酌することも可能である。
 評価値は、要素の特徴を表す値をいう。評価値は、要素がもつ伝達情報量を表すものとしてもよい。伝達情報量は、確率論および情報理論において、2つの確率変数の相互依存の尺度を表す量をいう。具体的には、伝達情報量は、その要素を含む文書に対する関連性の判断結果と、その要素との依存関係を表す尺度のこととしてもよい。
 図6は、関連性ありと判断された文書データに共通して頻出する要素を選定部157が解析した結果のグラフである。図6において、縦軸R_hotは、ユーザによって関連性がありと判断された全文書データのうち、関連性がありと判断される文書データに紐づく要素として選定された要素を含み、かつ関連性がありと判断された文書データの割合を示している。横軸R_allは、利用者がレビューを実施した全文書データのうち、後述する探索部159によって探索された要素を含む文書データの割合を示している。本実施形態において、選定部157では、直線R_hot=R_allよりも上部にプロットされる要素を、関連性ありと判断される文書データに共通の要素として選定する。
 要素記録部158は、要素を記録するものをいう。データベースとしてもよい。
 探索部159は、要素を文書データから探索するものをいう。
 スコア算出部160は、文書データのスコアを算出するものをいう。文書データに含まれる要素の評価値に基づいてスコアを算出するものとしてもよい。評価値は、文書データ中の要素の出現頻度や伝達情報量に基づいて算出され、要素がある文書データ中において発揮する情報量をいってもよい。
 スコアは、ある文書データにおいて、訴訟との関連度合を示すものをいう。スコアは文書データに含まれる要素に基づいて算出される。例えば、訴訟時に提出する必要が高い要素が含まれる文書データほど、高いスコアを有するとしてもよい。文書データは、一定の要件に基づいてスコアの初期値を与えられるものとしてもよい。例えば、文書データに出現する要素と、要素の持つ評価値とにより初期スコアを算出するものとしてもよい。
 スコア算出部160は、文書群中に出現する要素と、要素の持つ評価値により、以下の式からスコアを算出することが可能である。
Figure JPOXMLDOC01-appb-M000001

 各要素がもつ評価値は、該要素が持つ伝達情報量をもとに決定する。該評価値は以下の式により、学習することが可能である。
Figure JPOXMLDOC01-appb-M000002
 図7を用いて、本実施形態における予測情報生成処理のフローについて説明する。まず、抽出部155が、統合部113によって統合されたクラスタから所定数の文書データを抽出する(STEP211)。抽出された文書データを、画面表示部211がクライアント端末200に表示させる(STEP212)。結果受付部156が利用者の関連性判断の結果を受け付け(STEP213)、選定部157が利用者の関連性判断の結果から文書データを解析し、要素を選定する(STEP214)。選定された要素は要素記録部158によって記録される(STEP215)。次に、各文書データから記録された要素を探索部159が探索し、スコア算出部160が式(1)を用いて各文書データのスコアを算出する(STEP216)。
 その他の構成、機能については第1の実施形態と同様である。
 文書管理システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を訴訟との関連性について分析する文書管理システムにおいて、デジタル情報に含まれる文書データ各々の付帯情報を確認し、これらの付帯情報に基づいて文書データをスレッドに分類するスレッド分類部111と、分類された文書データの付帯情報に含まれる要素をスレッド毎に抽出し、これらの抽出された要素に基づいてスレッド間の類似度を解析する類似度解析部112と、この類似度に基づいて、スレッド同士を統合する統合部113とを備えることによって、利用者が関連性の判断(レビュー)を行う際に、同質の文書データ単位でレビューを行うことが可能となり、レビューの負荷の軽減および効率化を実現することが可能となる。
 また、上記文書管理システムは、更に、デジタル情報に含まれる文書データを、単独文書データ、主文書データ、主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部114を備え、上記スレッド分類部111は、少なくとも単独文書データおよび主文書データを分類するものである際においては、少なくとも単独文書データおよび主文書データをスレッドに分類することが可能となる。
 また、上記統合部113は、従属文書データの各々を、対応する主文書データと同一のスレッドに統合するものである際においては、従属関係を有する文書データを同一スレッドに統合させることが可能となる。
 また、上記スレッド分類部111は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものである際においては、従属関係を有する文書データを同一スレッドに分類することが可能となる。
 また、スレッド分類部111は、文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか1つを付帯情報として扱うものである際においては、文書データの内容以外の情報に基づいて、文書データをスレッドに分類することが可能となる。
 また、その他の文書データは付帯情報を有さない非構造化文書データを含み、スレッド分類部111は、非構造化文書データを分類する際、この非構造化文書データの内容を参酌するものである際においては、付帯情報を有さない文書データであっても代替手段によってスレッドに分類することが可能となる。
 また、上記文書管理システムは、更に、統合されたスレッドから所定数の文書データを抽出する抽出部155と、これらの抽出された文書データを画面上に表示する画面表示部211と、表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部156と、判断結果に基づいて、抽出された文書データを判断結果ごとに分別し、これらの分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部157と、選定した要素を記録する要素記録部158と、要素記録部158に記録された要素を文書データから探索する探索部159と、探索部159の探索結果と選定部157の解析結果を用いて、判断結果と文書データとの関連性を示すスコアを算出するスコア算出部160とを備える際においては、同質の文書データに対して、利用者のレビュー結果を踏まえてシステムが自動でレビューを行うことが可能となり、レビューの精度を向上させることが可能となる。
[その他の実施形態]
 以上、本発明の実施形態について述べたが、本発明は既述の実施形態に限定されるものではなく、本発明の技術的思想に基づいて各種の変形および変更が可能である。
 例えば、スレッド分類部111は、既述の実施形態において、文書データのうち、主文書データと単独文書データをスレッドに分類している。しかし、スレッド分類部111は、更に、従属文書データの各々を、対応する主文書データと同一のスレッドに分類するものとしてもよい。
  100      サーバ装置
  111      スレッド分類部
  112      類似度解析部
  113      統合部
  114      文書データ分類部
  155      抽出部
  156      結果受付部
  157      選定部
  158      要素記録部
  159      探索部
  160      スコア算出部
  200      クライアント端末
  211      画面表示部
  212      指示部

Claims (9)

  1.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析する文書管理システムにおいて、
     前記デジタル情報に含まれる文書データ各々の付帯情報を確認し、該付帯情報に基づいて前記文書データをスレッドに分類するスレッド分類部と、
     分類された文書データの付帯情報に含まれる要素を前記スレッド毎に抽出し、該抽出された要素に基づいて前記スレッド間の類似度を解析する類似度解析部と、
     前記類似度に基づいて前記スレッド同士を統合する統合部と
    を備える文書管理システム。
  2.  前記デジタル情報に含まれる文書データを、単独文書データ、主文書データ、該主文書データと従属関係を有する従属文書データ、および、その他の文書データに分類する文書データ分類部を更に備え、
     前記スレッド分類部は、少なくとも前記単独文書データおよび前記主文書データを分類することを特徴とする請求項1記載の文書管理システム。
  3.  前記その他の文書データは付帯情報を有さない非構造化文書データを含み、
     前記スレッド分類部は、
     前記非構造化文書データを分類する際、該非構造化文書データの内容を参酌することを特徴とする請求項1または2記載の文書管理システム。
  4.  前記スレッド分類部は、
     前記文書データのタイトル、作成日時、更新日時、作者名のうち少なくともいずれか1つを付帯情報として扱うことを特徴とする請求項1~3のいずれか一項記載の文書管理システム。
  5.  前記文書管理システムは、更に、
     前記統合されたスレッドから所定数の文書データを抽出する抽出部と、
     前記抽出された文書データを画面上に表示する画面表示部と、
     前記表示された文書データに対して、利用者が行った関連性の判断結果を受け付ける結果受付部と、
     前記判断結果に基づいて、前記抽出された文書データを判断結果ごとに分別し、該分別された文書データにおいて、共通して出現する要素を解析し、選定する選定部と、
     前記選定した要素を記録する要素記録部と、
     前記要素記録部に記録された要素を前記文書データから探索する探索部と、
     前記探索部の探索結果と前記選定部の解析結果を用いて、前記判断結果と文書データとの関連性を示すスコアを算出するスコア算出部とを備えることを特徴とする請求項1~4のいずれか一項記載の文書管理システム。
  6.  前記統合部は、
     前記従属文書データの各々を、対応する主文書データと同一のスレッドに統合することを特徴とする請求項2記載の文書管理システム。
  7.  前記スレッド分類部は、更に、
     前記従属文書データの各々を、対応する主文書データと同一のスレッドに分類することを特徴とする請求項2記載の文書管理システム。
  8.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析する文書管理方法において、
     コンピュータが、
     前記デジタル情報に含まれる文書データ各々の付帯情報を確認し、該付帯情報に基づいて前記文書データをスレッドに分類するステップと、
     分類された文書データの付帯情報に含まれる要素を前記スレッド毎に抽出し、該抽出された要素に基づいて前記スレッド間の類似度を解析するステップと、
     前記類似度に基づいて前記スレッド同士を統合するステップと
    を実行する文書管理方法。
  9.  複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報を分析する文書管理プログラムにおいて、
     コンピュータに、
     前記デジタル情報に含まれる文書データ各々の付帯情報を確認し、該付帯情報に基づいて前記文書データをスレッドに分類する機能と、
     分類された文書データの付帯情報に含まれる要素を前記スレッド毎に抽出し、該抽出された要素に基づいて前記スレッド間の類似度を解析する機能と、
     前記類似度に基づいて前記スレッド同士を統合する機能と
    を実現させる文書管理プログラム。
PCT/JP2013/081522 2012-11-30 2013-11-22 文書管理システムおよび文書管理方法並びに文書管理プログラム WO2014084141A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/648,634 US9594757B2 (en) 2012-11-30 2013-11-22 Document management system, document management method, and document management program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012-263086 2012-11-30
JP2012263086A JP5827206B2 (ja) 2012-11-30 2012-11-30 文書管理システムおよび文書管理方法並びに文書管理プログラム

Publications (1)

Publication Number Publication Date
WO2014084141A1 true WO2014084141A1 (ja) 2014-06-05

Family

ID=50827779

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/081522 WO2014084141A1 (ja) 2012-11-30 2013-11-22 文書管理システムおよび文書管理方法並びに文書管理プログラム

Country Status (4)

Country Link
US (1) US9594757B2 (ja)
JP (1) JP5827206B2 (ja)
TW (1) TW201421387A (ja)
WO (1) WO2014084141A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10146874B2 (en) * 2015-10-28 2018-12-04 Fujitsu Limited Refining topic representations
JP6744571B2 (ja) * 2016-06-22 2020-08-19 富士ゼロックス株式会社 情報処理装置およびプログラム
CN109871468A (zh) * 2019-02-01 2019-06-11 国网四川省电力公司广元供电公司 非结构化文档管理与规章制度条目化管理一体化系统
JP7165165B2 (ja) * 2019-08-21 2022-11-02 ネイバー コーポレーション 長期間の連関性が高い文書クラスタリングのための方法およびシステム
US11568284B2 (en) * 2020-06-26 2023-01-31 Intuit Inc. System and method for determining a structured representation of a form document utilizing multiple machine learning models

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197037A (ja) * 2000-12-25 2002-07-12 Sharp Corp 電子メール装置及びその管理方法並びにその管理プログラムを記録した記憶媒体
JP2007059970A (ja) * 2005-08-22 2007-03-08 Asahi Kasei Homes Kk 電子メール管理装置
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2009157450A (ja) * 2007-12-25 2009-07-16 Nec Corp メール分類システム、メール検索システム、メール宛先分類システム
JP2012181851A (ja) * 2012-04-18 2012-09-20 Ubic:Kk フォレンジックシステム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055715B2 (en) * 2005-02-01 2011-11-08 i365 MetaLINCS Thread identification and classification
US8429184B2 (en) * 2005-12-05 2013-04-23 Collarity Inc. Generation of refinement terms for search queries
US20070271517A1 (en) * 2006-05-19 2007-11-22 Navigant Consulting, Inc. System and method for providing a web portal for managing litigation activities
US8150827B2 (en) * 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US8402021B2 (en) * 2008-08-01 2013-03-19 Google Inc. Providing posts to discussion threads in response to a search query
US8200642B2 (en) * 2009-06-23 2012-06-12 Maze Gary R System and method for managing electronic documents in a litigation context
US9514435B2 (en) * 2009-08-17 2016-12-06 Accenture Global Services Limited System for targeting specific users to discussion threads
US8489600B2 (en) * 2010-02-23 2013-07-16 Nokia Corporation Method and apparatus for segmenting and summarizing media content
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4868191B2 (ja) 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US9026591B2 (en) * 2011-02-28 2015-05-05 Avaya Inc. System and method for advanced communication thread analysis
US20120296833A1 (en) * 2011-05-22 2012-11-22 Puneet Sharma System and method of improved group collaboration
US20130091021A1 (en) * 2011-10-06 2013-04-11 Anton Maslov Method and system for managing multi-threaded conversations
CN103092856B (zh) * 2011-10-31 2015-09-23 阿里巴巴集团控股有限公司 搜索结果排序方法及设备、搜索方法及设备
US9576032B2 (en) * 2012-02-23 2017-02-21 Applied Materials, Inc. Providing dynamic content in context of particular equipment

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002197037A (ja) * 2000-12-25 2002-07-12 Sharp Corp 電子メール装置及びその管理方法並びにその管理プログラムを記録した記憶媒体
JP2007059970A (ja) * 2005-08-22 2007-03-08 Asahi Kasei Homes Kk 電子メール管理装置
JP2007172249A (ja) * 2005-12-21 2007-07-05 Fujitsu Ltd 文書分類プログラム、文書分類装置、および文書分類方法
JP2009157450A (ja) * 2007-12-25 2009-07-16 Nec Corp メール分類システム、メール検索システム、メール宛先分類システム
JP2012181851A (ja) * 2012-04-18 2012-09-20 Ubic:Kk フォレンジックシステム

Also Published As

Publication number Publication date
US9594757B2 (en) 2017-03-14
JP5827206B2 (ja) 2015-12-02
JP2014109852A (ja) 2014-06-12
TW201421387A (zh) 2014-06-01
US20150310004A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
JP5827208B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP5567049B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5823943B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5530476B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
US9542474B2 (en) Forensic system, forensic method, and forensic program
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
KR20110010664A (ko) 문서 분석 시스템
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
KR101078978B1 (ko) 문서 분류 시스템
KR101078966B1 (ko) 문서 분석 시스템
JP2016189036A (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
KR20110010662A (ko) 문서 분석 시스템
KR20100088893A (ko) 문서 분석 시스템
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP6404294B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2014156762A1 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP2016012365A (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
KR20110010663A (ko) 문서 분류 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13858692

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14648634

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13858692

Country of ref document: EP

Kind code of ref document: A1