TW201421387A - 文件管理系統及文件管理方法以及文件管理程式 - Google Patents
文件管理系統及文件管理方法以及文件管理程式 Download PDFInfo
- Publication number
- TW201421387A TW201421387A TW102143382A TW102143382A TW201421387A TW 201421387 A TW201421387 A TW 201421387A TW 102143382 A TW102143382 A TW 102143382A TW 102143382 A TW102143382 A TW 102143382A TW 201421387 A TW201421387 A TW 201421387A
- Authority
- TW
- Taiwan
- Prior art keywords
- document
- information
- file
- document data
- unit
- Prior art date
Links
- 238000007726 management method Methods 0.000 title claims description 43
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 239000000284 extract Substances 0.000 claims abstract description 15
- 239000000463 material Substances 0.000 claims description 41
- 230000001419 dependent effect Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 5
- 238000000034 method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 3
- 238000012552 review Methods 0.000 abstract description 24
- 230000010354 integration Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本發明可減輕檢閱者檢閱的負荷。本發明係取得記錄於複數台電腦或伺服器的數位資訊,將該所取得的數位資訊就和訴訟的相關性進行分析之文件管理系統,其具備:執行緒分類部,其係確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;類似度解析部,其係將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及統一部,其係基於此類似度而統一執行緒彼此。
Description
本發明係關於一種文件管理系統及文件管理方法以及文件管理程式,特別是關於一種用於收集與訴訟相關之文件資訊的文件管理系統及文件管理方法以及文件管理程式。
以往提出了產生不正當存取或機密資訊洩漏等關於電腦的犯罪或法律上的紛爭之際,追究原因或搜查所需的機器或收集分析資料、電子式的記錄,查明其法律上的證據性之手段或技術。
此外,在美國民事訴訟中被要求eDiscovery(電子證據公開)等,該訴訟的原告及被告都要承擔提出全部相關的數位資訊作為證據的責任。因此,必須提出記錄於電腦或伺服器的數位資訊作為證據。
另一方面,伴隨IT的迅速發展與普及,在現代的商務世界中都以電腦製作大部分的資訊,所以即使是同一企業內也是許多的數位資訊充斥著。
因此,在進行用於向法庭提出證據資料的準備作業之過程中,容易產生連與該訴訟未必相關的機密性數位資訊都包含作為證據資料的失誤。此外,提出與該訴訟無關的機密性文件資訊成為問題。
近幾年,專利文獻1至專利文獻3上提出了關於文件管理系
統的文件資訊之技術。專利文獻1上揭示了一種文件管理系統:從文件提出命令的對象者資訊中所含的至少一人以上的對象者中指定特定者,基於關於所指定之特定者的存取履歷資訊,僅擷取特定者存取的數位文件資訊,設定顯示所擷取的數位文件資訊之各文件檔案是否是與訴訟相關的附帶資訊,基於附帶資訊,輸出與訴訟相關的文件檔案。
此外,專利文獻2上揭示了一種文件管理系統:顯示所記錄
的數位資訊,對複數個各文件檔案都設定顯示與對象者資訊中所含的對象者之中哪個對象者相關的對象者特定資訊,並設定成在記憶部內記錄該所設定的對象者特定資訊,指定至少一人以上的對象者,檢索設定有對應於所指定之對象者的對象者特定資訊之文件檔案,經由顯示部而設定顯示所檢索的文件檔案是否是與訴訟相關的附帶資訊,基於附帶資訊,輸出與訴訟相關的文件檔案。
再者,專利文獻3上揭示了一種文件管理系統:受理數位文
件資訊中所含的至少一個以上的文件檔案的指定,受理將所指定的文件檔案翻譯成哪種語言的指定,將受理指定的文件檔案翻譯成受理指定的語言,從記錄於記憶部的數位文件資訊中擷取顯示和所指定的文件檔案同一內容的共通文件檔案,生成顯示藉由引用所翻譯的文件檔案之翻譯內容而翻譯所擷取的共通文件檔案之翻譯相關資訊,基於翻譯相關資訊,輸出與訴訟相關的文件檔案。
【專利文獻1】特開2011-209930號公報
【專利文獻2】特開2011-209931號公報
【專利文獻3】特開2012-32859號公報
然而,在例如專利文獻1至專利文獻3之類的文件管理系統方面,要收集利用複數台電腦及伺服器之對象者的龐大文件資訊。
進行將此種經數位化的龐大文件資訊作為訴訟的證據資料是否妥當的分類之作業,需要被稱為檢閱者的利用者利用目視確認,一個一個逐漸分類該文件資訊,有花費很大的勞力與時間的傾向,需要進一步的改善。
因此,本發明有鑑於上述情況,其目的在於提供一種可更加減輕檢閱者檢閱的負荷之文件管理系統及文件管理方法以及文件管理程式。
本發明之文件管理系統,係取得記錄於複數台電腦或伺服器的數位資訊,將該所取得的數位資訊就和訴訟的相關性進行分析,其具備:執行緒分類部,其係確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;類似度解析部,其係將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及統一部,其係基於此類似度而統一執
行緒彼此。
「附帶資訊」係指附隨於文件資料的資訊。例如,附帶資訊也可以是為將文件資料構造化而附加標籤的元資訊等。
「執行緒」係指關於某特定資訊的文件資料的集合。例如,執行緒分類部可將就共通的內容所記載的電子郵件及對於該電子郵件的回覆郵件作為一個執行緒而將文件資料進行分類。
此外,上述文件管理系統也可以進一步具備:文件資料分類部,其係將數位資訊中所含的文件資料分類為單獨文件資料、主文件資料、和主文件資料有從屬關係的從屬文件資料、及其他的文件資料;上述執行緒分類部至少將單獨文件資料及主文件資料進行分類。
此外,上述執行緒分類部也可以進一步將從屬文件資料之各個文件資料分類為和對應的主文件資料相同的執行緒。
此外,執行緒分類部也可以處理文件資料的標題、作成日期和時間、更新日期和時間、作者名之中至少任一個作為附帶資訊。
此外,其他的文件資料也可以包含沒有附帶資訊的非構造化文件資料,執行緒分類部也可以將非構造化文件資料進行分類之際,參考該非構造化文件資料的內容。
此外,上述統一部也可以將從屬文件資料之各個文件資料統一為和對應的主文件資料相同的執行緒。
此外,上述文件管理系統也可以進一步具備:擷取部,其係從所統一的執行緒擷取預定數量的文件資料;畫面顯示部,其係在畫面上顯示此等所擷取的文件資料;結果受理部,其係受理利用者對於所顯示的
文件資料進行的相關性判斷結果;選定部,其係基於判斷結果,將所擷取的文件資料分類為各判斷結果,在此等所分類的文件資料中解析、選定共通出現的要素;要素記錄部,其係記錄選定的要素;檢索部,其係從文件資料檢索記錄於要素記錄部的要素;及分數計算部,其係使用檢索部的檢索結果與選定部的解析結果,計算表示判斷結果與文件資料相關性的分數。
本發明之文件管理方法,係取得記錄於複數台電腦或伺服器
的數位資訊,將該所取得的數位資訊就和訴訟的相關性進行分析,電腦執行以下步驟:確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及基於此類似度而統一執行緒彼此。
本發明之文件管理程式,係取得記錄於複數台電腦或伺服器
的數位資訊,將該所取得的數位資訊就和訴訟的相關性進行分析,使電腦實現以下功能:確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及基於此類似度而統一執行緒彼此。
【發明之效果】
本發明之文件管理系統,係取得記錄於複數台電腦或伺服器
的數位資訊,將該所取得的數位資訊就和訴訟的相關性進行分析,藉由具備:執行緒分類部,其係確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;類似度解析部,其係將所
分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及統一部,其係基於此類似度而統一執行緒彼此;當利用者進行相關性判斷(檢閱)之際,可用同質的文件資料單位進行檢閱,可實現檢閱負荷的減輕及效率化。
此外,上述文件管理系統於下述構造之際:進一步具備:文
件資料分類部,其係將數位資訊中所含的文件資料分類為單獨文件資料、主文件資料、和主文件資料有從屬關係的從屬文件資料、及其他的文件資料,上述執行緒分類部至少將單獨文件資料及主文件資料進行分類;可至少將單獨文件資料及主文件資料分類為執行緒。
此外,上述統一部於下述構造之際:將從屬文件資料之各個
文件資料統一為和對應的主文件資料相同的執行緒;可使有從屬關係的文件資料統一為相同的執行緒。
此外,上述執行緒分類部於下述構造之際:將從屬文件資料
之各個文件資料分類為和對應的主文件資料相同的執行緒;可將有從屬關係的文件資料分類為相同的執行緒。
此外,執行緒分類部於下述構造之際:處理文件資料的標
題、作成日期和時間、更新日期和時間、作者名之中至少任一個作為附帶資訊;可基於文件資料內容以外的資訊而將文件資料分類為執行緒。
此外,於下述構造之際:其他的文件資料包含沒有附帶資訊
的非構造化文件資料,執行緒分類部將非構造化文件資料進行分類之際,參考該非構造化文件資料的內容;即使是沒有附帶資訊的文件資料,也可以利用代替手段分類為執行緒。
此外,上述文件管理系統於下述構造之際:進一步具備:擷
取部,其係從所統一的執行緒擷取預定數量的文件資料;畫面顯示部,其係在畫面上顯示此等所擷取的文件資料;結果受理部,其係受理利用者對於所顯示的文件資料進行的相關性判斷結果;選定部,其係基於判斷結果,將所擷取的文件資料分類為各判斷結果,在此等所分類的文件資料中解析、選定共通出現的要素;要素記錄部,其係記錄選定的要素;檢索部,其係從文件資料檢索記錄於要素記錄部的要素;及分數計算部,其係使用檢索部的檢索結果與選定部的解析結果,計算表示判斷結果與文件資料相關性的分數;對於同質的文件資料,依據利用者的檢閱結果,系統可自動進行檢閱,可使檢閱的精度提高。
100‧‧‧伺服器裝置
111‧‧‧執行緒分類部
112‧‧‧類似度解析部
113‧‧‧統一部
114‧‧‧文件資料分類部
155‧‧‧擷取部
156‧‧‧結果受理部
157‧‧‧選定部
158‧‧‧要素記錄部
159‧‧‧檢索部
160‧‧‧分數計算部
200‧‧‧客戶終端裝置
211‧‧‧畫面顯示部
212‧‧‧指示部
第1圖為本發明第一實施形態之文件管理系統的方塊圖;第2圖為顯示本發明第一實施形態之處理流程的流程圖;第3圖為顯示在本發明第一實施形態中利用處理將文件資料進行分類之情況的概略圖;第4圖為顯示本發明第一實施形態之電子郵件親子關係的概略圖;第5圖為本發明第二實施形態之文件管理系統的方塊圖;第6圖為顯示本發明第二實施形態之選定部解析結果的圖表;以及第7圖為顯示本發明第二實施形態之處理流程的流程圖。
〔第1實施形態〕
以下,使用第1圖至第4圖說明本發明之第一實施形態。
第1圖顯示關於本實施形態之文件管理系統的方塊圖。文件管理系統具備電腦或伺服器,基於各種輸入,CPU執行記錄於ROM的程式,而動作作為各種功能部。該程式也可以是記憶於CD-ROM等記憶媒體,或者經由網際網路等網路而分發,安裝於電腦上者。
關於本發明第一實施形態之文件管理系統係由客戶終端裝置200及伺服器裝置100所構成。客戶終端裝置200具備:畫面顯示部211,其係顯示成為利用者就和訴訟的相關性進行判斷之對象的由數位資訊擷取之複數個文件資料;及指示部212,其係受理來自利用者的輸入。
伺服器裝置100具備:執行緒分類部111,其係確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;類似度解析部112,其係將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及統一部113,其係基於此類似度而統一執行緒彼此。進一步具備:文件資料分類部114,其係將數位資訊中所含的文件資料分類為單獨文件資料、主文件資料、和該主文件資料有從屬關係的從屬文件資料、及其他的文件資料。此時,執行緒分類部111至少將單獨文件資料及主文件資料進行分類。伺服器裝置進一步具備:擷取部155,其係從上述所統一的執行緒擷取預定數量的文件資料;及結果受理部156,其係受理利用者對於畫面顯示部211所顯示的文件資料進行的相關性判斷結果。
在eDiscovery(電子證據公開)方面,需要進行將經數位化的龐大文件資訊作為訴訟的證據資料是否妥當的分類之作業(稱為檢閱)。檢閱(相關性判斷)係指系統或人對於文件資料判斷有無對訴訟的提出。例如,在檢閱方面,將成為檢閱對象的文件資料即文件群基於訴訟相關的程度或與
訴訟相關的做法而進行分類成複數種類。
在關於本實施形態之文件管理系統方面,係基於預定的要件
作成文件資料的集合作為進行此檢閱前的階段。然後,被稱為檢閱者的利用者為了對於所匯集的文件資料從文件資料中擷取在訴訟中必須提出的文件資料,而進行和訴訟的相關性判斷。藉此,檢閱者可對於同質的文件資料進行檢閱,可謀求檢閱的效率化及檢閱者負擔的減輕。
文件資料係指包含一個以上的單字的資訊。文件資料為具有
包含一個以上的單字的資訊作為本文的內容,具有附帶資訊作為本文以外的資訊者較好。所謂附帶資訊係指元資訊。例如,附帶資訊也可以意味著文件資料的作成日期和時間或作成者、資料形式、標題等與文件資料相關的資訊。
作為文件資料的一例,可舉電子郵件、提交資料、試算表資
料、協商資料、契約書、組織圖、事業計劃書等。此外,也可以操作掃描資料作為文件資料。此情況,也可以在文件管理系統內具備OCR(Optical Character Reader;光學字元閱讀器)裝置,以便可將掃描資料轉換為文字資料。利用OCR裝置變更為文字資料,可從掃描資料中解析或檢索後述的要素。文件資料也可以是藉由後述的文件資料分類部114的處理而分類為單獨文件資料、主文件資料、從屬文件資料、其他的文件資料者。
茲就第1圖所記載的各構造的功能進行說明。
伺服器裝置100與客戶終端裝置200係經由通信網路而連接。通信網路係指有線或無線的通信線路。例如,為電話線路、網際網路線路等。
畫面顯示部211係指在客戶終端裝置200上顯示成為檢閱對象的文件資料之顯示器或液晶監視器等。指示部212係指配備於客戶終端裝置200的滑鼠或鍵盤,受理來自利用者的操作或輸入。
文件資料分類部114將文件資料分類為單獨文件資料、主文
件資料、和主文件資料有從屬關係的從屬文件資料、及其他的文件資料。所謂從屬文件資料,係指如同電子郵件的附加檔案,具有和主文件資料(此情況為電子郵件)的從屬關係者。單獨文件資料係指沒有從屬文件資料的文件資料。其他的文件資料係指都不符合單獨文件資料、主文件資料及從屬文件資料之任一者的文件資料。例如,非構造化文件資料等相當於此文件資料。非構造化文件資料意味著沒有附帶資訊的文件資料。具體而言,件名為空白的電子郵件相當於此文件資料。
執行緒分類部111將文件資料基於該等附帶資訊而分類為執行緒。例如,將電子郵件進行分類時,執行緒分類部111基於電子郵件的件名,將同一件名者、或在同一件名上附加有表示回覆的「Re:」或表示轉寄的「FW:」之件名的電子郵件分類為同一執行緒。除了件名之外,執行緒分類部111也可以處理文件資料的標題、作成日期和時間、更新日期和時間、作者名之中至少任一個作為附帶資訊。此外,於將例如件名為空白的電子郵件之類的沒有附帶資訊的非構造化文件資料進行分類之際,執行緒分類部111也可以參考此等非構造化文件資料的內容。即,在將非構造化文件資料的電子郵件進行分類時,係基於此電子郵件的本文而進行分類。
類似度解析部112解析執行緒間的類似度。特別是類似度解析部112基於要素而解析執行緒間的類似度較好,該要素係包含於各執行緒包含於其執行緒的電子郵件的附帶資訊。要素係指文件資料中所含的單字、記號、圖面等文件資料的構成要素。例如,要素也可以是指在詞素之類的某種語言方面,分割到若再分解則不構成意義的程度而所擷取的音素匯集的各個音素。具體而言,「將文件進行分類」此一文章的要素也可以是「文件」「分類」「進行」。
統一部113基於執行緒中所含的文件資料的附帶資訊的類似度而統一執行緒彼此。此外,統一部113將從屬文件資料之各個文件資
料統一為和主文件資料相同的執行緒。將統一部113統一的執行緒作為群集。
在本實施形態中,擷取部155從由統一部113統一的執行緒(群集)中所含的文件資料擷取預定數量的文件資料作為利用者的檢閱對象。此擷取也可以隨機或基於文件資料的更新日期和時間等屬性而進行。
結果受理部156受理利用者對於各文件資料進行的檢閱的結果。利用者在檢閱中按照和訴訟的相關程度,對文件資料進行識別符號的給予。例如,給予和訴訟的相關性高且必須提出作為證據的文件資料「Responsive」符號,給予不要提出的文件資料「Non-Responsive」符號。再者,將「HOT」符號和「Responsive」符號一併給予已給予「Responsive」符號的文件資料之中,特別是和訴訟的相關性高且格外重要的證據的文件資料。此外,給予已給予「Responsive」符號的文件資料之中,和製品A相關性高的內容的文件資料「製品A」符號,給予和製品B相關性高的內容的文件資料「製品B」符號。此時,結果受理部156可受理各識別符號作為相關性判斷的結果。
其次,使用第2圖及第3圖,就文件管理系統之處理流程進行說明。第2圖為顯示本實施形態的文件管理系統之處理流程的流程圖。此外,第3圖為概略顯示在進行第2圖所示的處理之際,將文件資料逐漸群集化之情況的圖。
首先,在第2圖中,文件資料分類部114將文件資料進行分類(步驟111)。具體而言,如第3圖所示,文件資料分類部114於收集到的全部文件資料501(ALL Documents)之中,將電子郵件分類為Mails組511,將附加在電子郵件上的檔案分類為Attachments組512,將並不是電子郵件或其附加檔案之任一者的文件資料分類為Other Documents組513。
其次,執行緒分類部111將Mails組511的文件以附帶資訊為電子郵件的件名,基於此而分類為執行緒群521(Threaded Clusters)或非執
行緒群522(Non-Threaded Clusters)。例如,如第4圖所示,關於件名為「製品A的開發狀況」的電子郵件,設定為主郵件有1件、回覆有2件、轉寄有1件,而關於「製品A的出貨判定」之件名的電子郵件,設定為主郵件有1件、回覆有3件。再者,以下述情況為例來進行說明:作為僅主郵件的郵件,件名為「新商品的開發」、「製品A的企畫」、「關於B先生」的郵件及件名為空白的郵件有1件。此時,件名為「製品A的開發狀況」、「Re:製品A的開發狀況」、「Re:Re:製品A的開發狀況」及「FW:Re:Re:製品A的開發狀況」的電子郵件係作為具有同一附帶資訊而被分類為同一執行緒(第2圖、步驟112)。另一方面,只有主郵件的電子郵件不被進行執行緒化,而被歸納為第3圖的非執行緒群522。
其次,統一部113基於執行緒間的類似度而統一執行緒群
521的執行緒與非執行緒群522中所含的文件資料,作為執行緒群531(Threaded-based Clusters)(步驟113)。此時,統一部113合成屬於執行緒的文件資料的附帶資訊,生成代表執行緒的附帶資訊。具體而言,擷取附帶資訊中所含的要素,基於要素間的類似度的分布而生成合成向量。然後,將被分類為非執行緒群522的文件資料之中具有和合成的附帶資訊類似度高的附帶資訊之文件資料統一為此合成的附帶資訊之執行緒群521中的執行緒。
再者,統一部113將被分類為Attachments組的從屬文件資
料統一為執行緒,進行群集化為群集541(Clusters)的處理(步驟114)。最好統一為和附加有從屬文件資料的電子郵件相同的執行緒。
此外,統一部113統一被分類為Other Documents組的文件
資料(步驟115)。從此等文件資料的檔案名(除了副檔名之外)作成附帶資訊向量,計算和在步驟114作成的合成向量的類似度。若最大類似度為臨界值以上,則統一為最類似的群集。關於以此處理未被統一的文件資料,則從整個該其他的文件資料構成向量,計算和剛才的合成向量的類似度。然
後,統一為最大類似度為臨界值以上的群集。以此處理也未被統一的其他的文件資料則全部匯集作為其他的群集。
擷取部155從如此作成的各群集擷取成為檢閱對象的文件
資料(步驟116)。擷取部155雖然利用隨機抽樣擷取文件資料,但也可以按作成日期和時間順序或作成者名順序擷取。
然後,利用者對於所擷取的文件資料實施檢閱(步驟117),
結果受理部156受理檢閱結果(步驟118)。藉此,可對於同質的文件資料進行檢閱。
〔第二實施形態〕
以下,使用第5圖至第7圖說明本發明之第二實施形態。
第5圖顯示關於本實施形態之文件管理系統的方塊圖。
關於本發明第二實施形態之文件管理系統係由客戶終端裝
置200及伺服器裝置100所構成。客戶終端裝置200具備:畫面顯示部211,其係顯示成為利用者就和訴訟的相關性進行判斷之對象的由數位資訊擷取之複數個文件資料;及指示部212,其係受理來自利用者的輸入。
此外,伺服器裝置100具備:執行緒分類部111,其係確認
數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;類似度解析部112,其係將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及統一部113,其係基於此類似度而統一執行緒彼此。
伺服器裝置100進一步具備:擷取部155,其係從上述所統
一的執行緒擷取預定數量的文件資料;結果受理部156,其係受理利用者對於畫面顯示部211所顯示的文件資料進行的相關性判斷結果;選定部157,其係基於此等判斷結果,將所擷取的文件資料分類為各判斷結果,在此等所分類的文件資料中解析、選定共通出現的要素;要素記錄部158,其係記錄選定的要素;檢索部159,其係從文件資料檢索記錄於要素記錄部158的
要素;及分數計算部160,其係使用檢索部159的檢索結果與選定部157的解析結果,計算表示判斷結果與文件資料相關性的分數。
選定部157選定要素。例如,選定部157也可以解析、選定
進行過同一判斷結果的文件資料共通出現的要素。判斷結果係指顯示利用者對於文件群進行的和訴訟的相關性判斷的結果。判斷結果也可以是指表示利用者給予文件的和訴訟的相關性程度的分類符號。此外,選定部157也可以於選定要素之際,參考要素的評估值。
評估值係指表示要素特徵的值。評估值也可以表示要素具有
的傳達資訊量。傳達資訊量係指在概率論或資訊論方面,表示兩個概率變數相互依存尺度的量。具體而言,傳達資訊量也可以是表示對於包含其要素的文件的相關性判斷結果與和其要素的依存關係的尺度。
第6圖為選定部157解析被判斷為有相關性的文件資料共通
頻繁出現之要素的結果的圖表。在第6圖中,縱軸R_hot係表示包含由利用者判斷為有相關性的所有文件資料之中被選定作為與被判斷為有相關性的文件資料有關係的要素之要素且被判斷為有相關性的文件資料之比例。
橫軸R_all係表示利用者實施過檢閱的所有文件資料之中包含由後述檢索部159檢索過的要素的文件資料之比例。在本實施形態中,在選定部157方面,係選定標繪於比直線R_hot=R_all上部的要素作為被判斷為有相關性的文件資料共通的要素。
要素記錄部158係指記錄要素者。也可以是資料庫。
檢索部159係指從文件資料檢索要素者。
分數計算部160係指計算文件資料的分數者。也可以是基於
文件資料中所含的要素的評估值而計算分數者。評估值也可以是指基於文件資料中的要素出現頻率或傳達資訊量而計算,要素在某文件資料中發揮的資訊量。
分數係指在某文件資料中表示和訴訟的相關程度者。分數係
基於文件資料中所含的要素而被算出。例如,也可以是越是含有必須在訴訟時提出較高的要素的文件資料,越是具有較高的分數。文件資料也可以是基於一定的要件而給予分數的初始值者。例如,也可以是利用文件資料中出現的要素與要素具有的評估值而計算初始分數者。
分數計算部160可利用文件群中出現的要素與要素具有的評估值,從下式計算分數:
m i :第i個要素的出現頻率
wgt i :第i個要素的評估值
各要素具有的評估值係以該要素具有的傳達資訊量為基礎而決定。該評估值可利用下式而進行學習:
wgt i,0:學習前的第1個選定要素的評估值(初始值)
wgt i,L :第L次學習後的第i個選定要素的評估值
γ L :第L次學習的學習參數
θ:學習效果的臨界值
茲使用第7圖,就本實施形態的預測資訊生成處理的流程進行說明。首先,擷取部155從由統一部113統一的群集擷取預定數量的文件資料(步驟211)。畫面顯示部211使所擷取的文件資料顯示於客戶終端裝置200(步驟212)。結果受理部156受理利用者相關性判斷的結果(步驟213),選定部157從利用者相關性判斷的結果解析文件資料,選定要素(步驟214)。所選定的要素為要素記錄部158所記錄(步驟215)。其次,檢索部159檢索由各文件資料記錄的要素,分數計算部160使用式(1)計算各文件資料的分數(步驟216)。
關於其他的構造、功能,和第一實施形態同樣。
文件管理系統係取得記錄於複數台電腦或伺服器的數位資
訊,將該所取得的數位資訊就和訴訟的相關性進行分析,藉由具備:執行緒分類部111,其係確認數位資訊中所含的文件資料各個的附帶資訊,基於此等附帶資訊而將文件資料分類為執行緒;類似度解析部112,其係將所分類的文件資料的附帶資訊中所含的要素擷取為各執行緒,基於此等所擷取的要素而解析執行緒間的類似度;及統一部113,其係基於此類似度而統一執行緒彼此;當利用者進行相關性判斷(檢閱)之際,可用同質的文件資料單位進行檢閱,可實現檢閱負荷的減輕及效率化。
此外,上述文件管理系統於下述構造之際:進一步具備:文
件資料分類部114,其係將數位資訊中所含的文件資料分類為單獨文件資料、主文件資料、和主文件資料有從屬關係的從屬文件資料、及其他的文件資料,上述執行緒分類部111至少將單獨文件資料及主文件資料進行分類;可至少將單獨文件資料及主文件資料分類為執行緒。
此外,上述統一部113於下述構造之際:將從屬文件資料之
各個文件資料統一為和對應的主文件資料相同的執行緒;可使有從屬關係的文件資料統一為相同的執行緒。
此外,上述執行緒分類部111於下述構造之際:將從屬文件
資料之各個文件資料分類為和對應的主文件資料相同的執行緒;可將有從屬關係的文件資料分類為相同的執行緒。
此外,執行緒分類部111於下述構造之際:處理文件資料的
標題、作成日期和時間、更新日期和時間、作者名之中至少任一個作為附帶資訊;可基於文件資料內容以外的資訊而將文件資料分類為執行緒。
此外,於下述構造之際:其他的文件資料包含沒有附帶資訊
的非構造化文件資料,執行緒分類部111將非構造化文件資料進行分類之際,參考該非構造化文件資料的內容;即使是沒有附帶資訊的文件資料,也可以利用代替手段分類為執行緒。
此外,上述文件管理系統於下述構造之際:進一步具備:擷
取部155,其係從所統一的執行緒擷取預定數量的文件資料;畫面顯示部211,其係在畫面上顯示此等所擷取的文件資料;結果受理部156,其係受理利用者對於所顯示的文件資料進行的相關性判斷結果;選定部157,其係基於判斷結果,將所擷取的文件資料分類為各判斷結果,在此等所分類的文件資料中解析、選定共通出現的要素;要素記錄部158,其係記錄選定的要素;檢索部159,其係從文件資料檢索記錄於要素記錄部158的要素;及分數計算部160,其係使用檢索部159的檢索結果與選定部157的解析結果,計算表示判斷結果與文件資料相關性的分數;對於同質的文件資料,依據利用者的檢閱結果,系統可自動進行檢閱,可使檢閱的精度提高。
〔其他實施形態〕
以上,雖然就本發明之實施形態進行了敘述,但本發明並不受已述實施形態限定,可基於本發明之技術性思想進行各種變形及變更。
例如,在已述實施形態中,執行緒分類部111係將文件資料之中的主文件資料與單獨文件資料分類為執行緒。然而,執行緒分類部111也可以進一步將從屬文件資料之各個文件資料分類為和對應的主文件資料相同的執行緒。
100‧‧‧伺服器裝置
111‧‧‧執行緒分類部
112‧‧‧類似度解析部
113‧‧‧統一部
114‧‧‧文件資料分類部
155‧‧‧擷取部
156‧‧‧結果受理部
200‧‧‧客戶終端裝置
211‧‧‧畫面顯示部
212‧‧‧指示部
Claims (9)
- 一種文件管理系統,係取得記錄於複數台電腦或伺服器的數位資訊,分析該所取得的數位資訊,其具備:執行緒分類部,其係確認該數位資訊中所含的文件資料各個的附帶資訊,基於該附帶資訊而將該文件資料分類為執行緒;類似度解析部,其係將所分類的文件資料的附帶資訊中所含的要素擷取為各該執行緒,基於該所擷取的要素而解析該執行緒間的類似度;及統一部,其係基於該類似度而統一該執行緒彼此。
- 如申請專利範圍第1項之文件管理系統,其中進一步具備:文件資料分類部,其係將該數位資訊中所含的文件資料分類為單獨文件資料、主文件資料、和該主文件資料有從屬關係的從屬文件資料、及其他的文件資料,該執行緒分類部至少將該單獨文件資料及該主文件資料進行分類。
- 如申請專利範圍第1或2項之文件管理系統,其中該其他的文件資料包含沒有附帶資訊的非構造化文件資料,該執行緒分類部將該非構造化文件資料進行分類之際,參考該非構造化文件資料的內容。
- 如申請專利範圍第1至3項中任一項之文件管理系統,其中該執行緒分類部處理該文件資料的標題、作成日期和時間、更新日期和時間、作者名之中至少任一個作為附帶資訊。
- 如申請專利範圍第1至4項中任一項之文件管理系統,其中該文件管理系統進一步具備:擷取部,其係從該所統一的執行緒擷取預定數量的文件資料;畫面顯示部,其係在畫面上顯示該所擷取的文件資料;結果受理部,其係受理利用者對於該所顯示的文件資料進行的相關性判斷結果;選定部,其係基於該判斷結果,將該所擷取的文件資料分類為各判斷結果,在該所分類的文件資料中解析、選定共通出現的要素;要素記錄部,其係記錄該選定的要素;檢索部,其係從該文件資料檢索記錄於該要素記錄部的要素;及分數計算部,其係使用該檢索部的檢索結果與該選定部的解析結果,計算表示該判斷結果與文件資料相關性的分數。
- 如申請專利範圍第2項之文件管理系統,其中該統一部將該從屬文件資料之各個文件資料統一為和對應的主文件資料相同的執行緒。
- 如申請專利範圍第2項之文件管理系統,其中該執行緒分類部進一步將該從屬文件資料之各個文件資料分類為和對應的主文件資料相同的執行緒。
- 一種文件管理方法,係取得記錄於複數台電腦或伺服器的數位資訊,分析該所取得的數位資訊,電腦執行以下步驟:確認該數位資訊中所含的文件資料各個的附帶資訊,基於該附帶資訊而將該文件資料分類為執行緒;將所分類的文件資料的附帶資訊中所含的要素擷取為各該執行緒,基 於該所擷取的要素而解析該執行緒間的類似度;及基於該類似度而統一該執行緒彼此。
- 一種文件管理程式,係取得記錄於複數台電腦或伺服器的數位資訊,分析該所取得的數位資訊,使電腦實現以下功能:確認該數位資訊中所含的文件資料各個的附帶資訊,基於該附帶資訊而將該文件資料分類為執行緒;將所分類的文件資料的附帶資訊中所含的要素擷取為各該執行緒,基於該所擷取的要素而解析該執行緒間的類似度;及基於該類似度而統一該執行緒彼此。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012263086A JP5827206B2 (ja) | 2012-11-30 | 2012-11-30 | 文書管理システムおよび文書管理方法並びに文書管理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201421387A true TW201421387A (zh) | 2014-06-01 |
Family
ID=50827779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW102143382A TW201421387A (zh) | 2012-11-30 | 2013-11-28 | 文件管理系統及文件管理方法以及文件管理程式 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9594757B2 (zh) |
JP (1) | JP5827206B2 (zh) |
TW (1) | TW201421387A (zh) |
WO (1) | WO2014084141A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10146874B2 (en) * | 2015-10-28 | 2018-12-04 | Fujitsu Limited | Refining topic representations |
JP6744571B2 (ja) * | 2016-06-22 | 2020-08-19 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
CN109871468A (zh) * | 2019-02-01 | 2019-06-11 | 国网四川省电力公司广元供电公司 | 非结构化文档管理与规章制度条目化管理一体化系统 |
JP7165165B2 (ja) * | 2019-08-21 | 2022-11-02 | ネイバー コーポレーション | 長期間の連関性が高い文書クラスタリングのための方法およびシステム |
US11568284B2 (en) * | 2020-06-26 | 2023-01-31 | Intuit Inc. | System and method for determining a structured representation of a form document utilizing multiple machine learning models |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002197037A (ja) * | 2000-12-25 | 2002-07-12 | Sharp Corp | 電子メール装置及びその管理方法並びにその管理プログラムを記録した記憶媒体 |
US8055715B2 (en) * | 2005-02-01 | 2011-11-08 | i365 MetaLINCS | Thread identification and classification |
JP2007059970A (ja) * | 2005-08-22 | 2007-03-08 | Asahi Kasei Homes Kk | 電子メール管理装置 |
US8429184B2 (en) * | 2005-12-05 | 2013-04-23 | Collarity Inc. | Generation of refinement terms for search queries |
JP4757016B2 (ja) * | 2005-12-21 | 2011-08-24 | 富士通株式会社 | 文書分類プログラム、文書分類装置、および文書分類方法 |
US20070271517A1 (en) * | 2006-05-19 | 2007-11-22 | Navigant Consulting, Inc. | System and method for providing a web portal for managing litigation activities |
US8150827B2 (en) * | 2006-06-07 | 2012-04-03 | Renew Data Corp. | Methods for enhancing efficiency and cost effectiveness of first pass review of documents |
JP5098631B2 (ja) * | 2007-12-25 | 2012-12-12 | 日本電気株式会社 | メール分類システム、メール検索システム |
WO2010014954A2 (en) * | 2008-08-01 | 2010-02-04 | Google Inc. | Providing posts to discussion threads in response to a search query |
US8200642B2 (en) * | 2009-06-23 | 2012-06-12 | Maze Gary R | System and method for managing electronic documents in a litigation context |
US9514435B2 (en) * | 2009-08-17 | 2016-12-06 | Accenture Global Services Limited | System for targeting specific users to discussion threads |
US8489600B2 (en) * | 2010-02-23 | 2013-07-16 | Nokia Corporation | Method and apparatus for segmenting and summarizing media content |
JP4868191B2 (ja) | 2010-03-29 | 2012-02-01 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
JP4898934B2 (ja) | 2010-03-29 | 2012-03-21 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
JP4995950B2 (ja) | 2010-07-28 | 2012-08-08 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
US9026591B2 (en) * | 2011-02-28 | 2015-05-05 | Avaya Inc. | System and method for advanced communication thread analysis |
US20120297313A1 (en) * | 2011-05-22 | 2012-11-22 | Puneet Sharma | System and method of improved group collaboration |
US20130091021A1 (en) * | 2011-10-06 | 2013-04-11 | Anton Maslov | Method and system for managing multi-threaded conversations |
CN103092856B (zh) * | 2011-10-31 | 2015-09-23 | 阿里巴巴集团控股有限公司 | 搜索结果排序方法及设备、搜索方法及设备 |
US9576032B2 (en) * | 2012-02-23 | 2017-02-21 | Applied Materials, Inc. | Providing dynamic content in context of particular equipment |
JP5669785B2 (ja) * | 2012-04-18 | 2015-02-18 | 株式会社Ubic | フォレンジックシステム |
-
2012
- 2012-11-30 JP JP2012263086A patent/JP5827206B2/ja active Active
-
2013
- 2013-11-22 US US14/648,634 patent/US9594757B2/en active Active
- 2013-11-22 WO PCT/JP2013/081522 patent/WO2014084141A1/ja active Application Filing
- 2013-11-28 TW TW102143382A patent/TW201421387A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
JP5827206B2 (ja) | 2015-12-02 |
WO2014084141A1 (ja) | 2014-06-05 |
JP2014109852A (ja) | 2014-06-12 |
US9594757B2 (en) | 2017-03-14 |
US20150310004A1 (en) | 2015-10-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5551187B2 (ja) | 文献分析システム | |
JP5827208B2 (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム | |
KR101582108B1 (ko) | 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 | |
JP5823943B2 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
US20150032645A1 (en) | Computer-implemented systems and methods of performing contract review | |
US20140337367A1 (en) | Forensic system, forensic method, and forensic program | |
KR20130018640A (ko) | 포렌식 시스템과 포렌식 방법 및 포렌식 프로그램 | |
US9542474B2 (en) | Forensic system, forensic method, and forensic program | |
TW201421387A (zh) | 文件管理系統及文件管理方法以及文件管理程式 | |
JP6025487B2 (ja) | フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム | |
JP2015084168A (ja) | 文書分別調査システム及び文書分別調査方法並びに文書分別調査プログラム | |
JP5669904B1 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
JP6496078B2 (ja) | 分析支援装置、分析支援方法、および分析支援プログラム | |
JP2016189036A (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
KR20110010662A (ko) | 문서 분석 시스템 | |
JP6404294B2 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
KR20100088893A (ko) | 문서 분석 시스템 | |
JP5990562B2 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
JP2016012365A (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
JP2014191800A (ja) | 文書管理システムおよび文書管理方法並びに文書管理プログラム |