TW201415264A

TW201415264A - 取證系統、取證方法及取證程式

Info

Publication number: TW201415264A
Application number: TW102136453A
Authority: TW
Inventors: Masahiro Morimoto; Yoshikatsu Shirai; Hideki Takeda; Kazumi Hasuko
Original assignee: Ubic Inc
Priority date: 2012-10-10
Filing date: 2013-10-09
Publication date: 2014-04-16
Also published as: EP2908282A4; JP5823943B2; JP2014078109A; WO2014057963A1; CN104885116B; EP2908282A1; KR20150129862A; CN104885116A; US20160110826A1; KR20150056873A

Abstract

本發明提供一種能夠減輕檢閱者的檢閱關聯性判斷的負擔的取證系統，該取證系統具有：顯示部，向該使用者顯示由包含在數位資訊中的多個文檔構成的文檔群的至少一個以上的文檔；識別資訊接受部，接受識別資訊，該識別資訊是基於該使用者的是否與訴訟關聯的判斷，對該文檔群中的、供該使用者判斷是否與訴訟關聯的文檔即物件文檔賦予的資訊；評分更新部，基於接受了該識別資訊的物件文檔的特徵量與該文檔群中的文檔的特徵量的比較結果，更新與規定的識別資訊對應的、該文檔群中的文檔的評分；以及顯示控制部，基於該更新的評分來控制該顯示部上顯示的該文檔群的文檔的顯示順序。

Description

取證系統、取證方法及取證程式

本發明屬於一種取證系統、取證方法及取證程式，具體地關於一種用於收集與訴訟相關的文檔資訊的取證系統、取證方法及取證程式。

以往，提出一種如下的裝置或技術，當發生不正當訪問或機密資訊洩漏等與電腦相關的犯罪或法律糾紛時，收集並分析原因查明或調查所需的設備、資料、及電子記錄，從而明確其法律上的證據力。

另外，在美國民事訴訟中，由於需要eDiscovery(電子證據公開)等，該訴訟的原告及被告的任何一方均承擔將全部相關的數位資訊作為證據提出的責任。因此，必須將記錄在電腦或伺服器中的數位資訊作為證據提出。

另一方面，隨著IT的迅猛發展和普及，在當今的商業世界中幾乎所有的資訊都由電腦來製作，因此即使在同一個企業內部，也氾濫著大量的數位資訊。

因此，在為了向法廷提出證據資料而進行準備工作的過程中，很容易發生不一定與該訴訟相關的機密性數位資訊也作為證據材料被包含到其中的失誤。另外，存在著提出與該訴訟無關的機密性文檔資訊的問題。

近年來，在專利文獻1至專利文獻3中提出了與取證系統中的文檔資訊相關的技術。在專利文獻1中，公開了下述取證系統：從包含在文檔提出命令的物件者資訊中的至少一人以上的物件者中指定特定者，基於與被指定的特定者相關的訪問歷史資訊，僅提取特定者所訪問的數位文檔資訊，並設定表示所提取的數位文檔資訊的各文檔檔是否與訴訟相關的附帶資訊，基於附帶資訊，輸出與訴訟相關的文檔檔。

另外，在專利文獻2中公開了下述取證系統：顯示被記錄的數位資訊，對多個文檔檔中的每一個設定表示是否與包含在物件者資訊中任一物件者相關的物件者特定資訊，並將該被設定的物件者特定資訊以記錄於存儲部中的方式進行設定，指定至少一人以上的對象者，檢索設定有與被指定的物件者對應的物件者特定資訊的文檔檔，並通過顯示部，設定表示被檢索出的文檔檔是否與訴訟相關的附帶資訊，基於附帶資訊，輸出與訴訟相關的文檔檔。

另外，專利文獻3中，公開了下述取證系統：接受包含在數位文檔資訊中的至少一個以上的文檔檔的指定，並接受是否將已被指定的文檔檔翻譯成任一種語言的指定，將接受了指定的文檔檔翻譯成接受了指定的語言，並從記錄在記錄部中的數位文檔資訊中，提取表示與已被指定的文檔檔同一內容的共同文檔檔，並且生成表示所提取的共同文檔檔通過援引已被翻譯的文檔檔的翻譯內容而已被翻譯的翻譯關聯資訊，並基於翻譯關聯資訊輸出與訴訟相關的文檔檔。

現有技術文獻專利文獻

專利文獻1：日本特開2011-209930號公報

專利文獻2：日本特開2011-209931號公報

專利文獻3：日本特開2012-32859號公報

但是，例如，在如專利文獻1至專利文獻3那樣的取證系統中，將要收集利用多個電腦及伺服器的物件者的龐大的文檔資訊。

對將這樣的數位化的龐大的文檔資訊作為訴訟的證據資料是否妥當進行辨別的工作由被稱為檢閱者的使用者通過目視來確認，需要一個一個地辨別該文檔資訊，因此存在耗費大量勞力和時間的問題。

因此，本發明鑒於上述情況，其目的在於提供一種能夠減輕檢閱者的檢閱負擔的取證系統、取證方法及取證程式。

本發明的取證系統是獲取多個電腦或伺服器中記錄的數位資訊，並分析該獲取的數位資訊的取證系統，其具有：顯示部，向使用者顯示由包含在數位資訊中的多個文檔構成的文檔群的至少一個以上的文檔；識別資訊接受部，接受識別資訊，該識別資訊是基於使用者的是否與訴訟關聯的判斷，對文檔群中的供使用者判斷是否與訴訟關聯的物件文檔賦予的資訊；評分更新部，基於接受了該識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、該各文檔的評分；以及顯示控制部，基於該更新的評分來控制顯示部上顯示的文檔群的文檔的顯示順序。

「文檔」是指包含一個以上的單詞的資料。作為文檔的一個例子，可以列舉：電子郵件、演示資料、表格計算資料、會議資料、合同、組織圖、事業計畫書等。另外，文檔具有與每個識別資訊對應的評分，評分可以通過從對文檔群中的各文檔預先賦予的初期評分中累加或減去基於與識別資訊關聯的物件文檔和各文檔的特徵量的比較結果所算出的值來算出，並進行更新。

「文檔群」由多個文檔構成。

「顯示部」用於向使用者提示文檔。顯示部上顯示的文檔成為使用者的是否與訴訟相關聯的判斷對象。判斷是否與該訴訟關聯的行為稱為「檢閱」。在檢閱中，基於成為檢閱的對象的文檔(在此，稱為物件文檔)的訴訟關聯程度、與訴訟關聯的方式，將文檔分類成多個種類，並對每個種類賦予識別資訊。

「顯示控制部」通過通信向顯示部發送指示，並且控制要顯示的文檔的順序。例如，可以進行控制，以使文檔按照所具有的評分的昇冪顯示在顯示部上。

「識別資訊接受部」用於接受使用者通過檢閱向物件文檔賦予的識別資訊。

「識別資訊」是對成為分類物件的文檔賦予的資訊，是為了容易用於訴訟，表示與訴訟的關聯性的資訊。識別資訊可以作為附帶資訊被記錄于各文檔中，也可以是將識別資訊與文檔的對應關係記錄於資料庫中的資訊。識別資訊例如可以是：表示與訴訟關聯的「Responsive」、表示是在特別訴訟中受到重視的文檔的「HOT」、以及表示是與這次的訴訟無關的文檔的「Non-Responsive」等關鍵字。

「評分更新部」對識別資訊接受部接受了識別資訊的物件文檔的特徵量與文檔群中包含的文檔的特徵量進行比較，然後更新與該接受了的識別資訊對應的評分。另外，評分更新部可以使用由文檔中頻繁出現的各單詞的種類、各單詞所具有的評定值及各單詞的出現數量組成的傾向資訊來算出特徵量。評分更新部例如可以根據特徵量的一致度對評分進行加分或減分。成為比較物件的文檔中可以包含物件文檔自身，也可以不包含物件文檔。例如，當在比較物件中包含物件文檔自身的情況下，因為特徵量完全一致，所以評分被加上相應的分數而被更新。

「評分」用於量化地評價文檔與識別資訊的結合程度。各文檔可以是在資料庫中記錄了與每個規定的識別資訊對應的評分的文檔。例如，以下述情況為例進行說明：在檢閱中，各文檔基於識別資訊「HOT」、「Responsive」或「Non-Responsive」這三個識別資訊，被進行分類。該情況下，各文檔可以是在資料庫中記錄「HOT」評分、「Responsive」評分及「Non-Responsive」評分這三個評分的區域得到確保的文檔。然後，上述三種評分中，當超過規定的閾值時，可以賦予該超過規定的閾值的識別資訊。

各文檔可以基於固定的要素被賦予初期評分。例如，可以根據文檔中出現的單詞和各單詞所具有的評定值來算出初期評分。另外，可以對全部文檔共同地賦予固定值作為初期評分。從初期評分中進行加分或減分處理，評分被更新。

「特徵量」用於測定各文檔間的相似度。特徵量可以通過使用由文檔中頻繁出現的各單詞的種類、各單詞所具有的評定值及各單詞的出現數量構成的傾向資訊，由評分更新部來算出。並且，評分更新部可以在計算特徵量時，參酌單詞的傳達信息量。

另外，本發明所關於的取證系統可以還具有：排除判定部，判定將評分達到特定值的文檔從顯示部所顯示的文檔的候補中排除；以及控制部，進行控制，使得能夠重複執行顯示部、識別資訊接受部、評分更新部、顯示控制部、排除判定部的處理，直至該已被判定的文檔的數量超過規定的值。

「排除判定部」在評分被更新時，對將更新後的評分達到特定值的文檔從顯示部所顯示的文檔的候補對象中排除進行判定。作為排除判定的前部分，排除判定部可以對每個識別資訊進行結束判定。例如，在賦予三種識別資訊的情況下，在檢閱中，排除判定部可以將對三種的識別資訊都進行了結束判定的文檔，從對象文檔的候補中排除。另外，在僅一個識別資訊的評分超過特定值並且對該識別字進行了結束判定的情況下，排除判定部可以將對該超過特定值的識別資訊進行了結束判定的意思表示賦予該文檔。並且，排除判定及結束判定可以具有兩個特定值作為閾值。例如，在評分由於加分而超過該兩個閾值中的一個的情況下，或評分由於減分而低於另一個閾值的情況下，也能夠進行排除判定及結束判定。

「控制部」進行控制，使得能夠重複執行顯示部、識別資訊接受部、評分更新部、排除判定部的處理。該控制可以針對每一個處理被迴圈性地重複。另外，也可以是，控制部以成批地進行一定量處理後執行後段的處理這樣的單位重複。控制部在文檔群或物件組中包含的全部文檔被進行了排除判定的情況下，結束控制處理。

另外，本發明所關於的取證系統可以還具有基於更新的評分對文檔群中的文檔賦予識別資訊的自動賦予部。

「自動賦予部」根據評分自動判定適合各文檔的識別資訊，並進行賦予。自動賦予部可以對每個識別資訊的種類設置閾值，並賦予與超過該閾值的文檔對應的識別資訊。

另外，本發明所關於的取證系統可以還具有資料庫，資料庫對文檔群中包含的文檔，記錄與識別資訊對應的評分，並在評分更新部每次更新評分時，更新每個識別資訊的評分。資料庫中可以記錄文檔、被賦予的識別資訊、與各識別資訊對應的評分、以及閾值超過資訊等。

另外，本發明所關於的取證系統可以還具有分類部，分類部基於規定的要素，將文檔群分類成組，並從該組中選擇至少一個成為處理物件的物件組，顯示部從分類部所選擇的物件組中提取向使用者顯示的文檔群。

「規定的要素」是分類的條件。規定的要素可以是使用者能夠任意確定的要素。例如，作為規定的要素，可以列舉：製作文檔的年份、文檔的尾碼、文檔的創建者或安全等級等。

「組」將文檔群分類。組可以包含多個文檔。在文檔被分類成組的情況下，控制部可以在物件組中包含的全部文檔被進行了排除判定後，結束處理。

「對象組」是上述組中成為使用者實施檢閱的對象的組。從物件組中，提取顯示部所顯示的文檔群。也可以針對每個物件組通過顯示控制部進行文檔的顯示順序的控制。另外，一旦物件組內的全部文檔完成控制部的處理，下一組可被選擇為物件文檔。

另外，本發明所關於的取證系統可以還具有組比較部，組比較部將物件組中包含的各文檔的特徵量與使用者完成了對是否與訴訟關聯的判斷的組中包含的各文檔的特徵量進行比較，顯示控制部基於組比較部的比較結果，控制從物件組中顯示在顯示部上的文檔群的顯示順序。

「組比較部」在組間進行文檔的特徵的比較處理。例如，組比較部通過利用使用者完成了對是否與訴訟關聯的判斷的組中包含的文檔的特徵量來作為比較物件，能夠暗示下一個物件組中包含的各文檔的識別資訊的偏向。具體而言，組比較部從使用者完成了對是否與訴訟關聯的判斷的組(稱為組A)中，提取與相應於一個識別資訊(稱為識別資訊A)的評分高的文檔共同的特徵量。組比較部進一步從下一個物件組(設為組B)中檢索具有與該提取出的特徵量相似的特徵量的文檔，顯示控制部根據特徵量的相似度來控制文檔的排列順序。該排列順序被控制而到達上位的文檔被認為是被賦予識別資訊「HOT」的可能性大的文檔。因此，關於組B，當使用者對其進行檢閱時，能夠暗示容易附加識別資訊「HOT」的意思，並且能夠提高檢閱的速度。

另外，本發明所關於的取證方法是獲取多個電腦或伺服器中記錄的數位資訊，並分析該獲取的數位資訊的取證方法，該取證方法執行以下步驟：向使用者顯示由數位資訊中包含的多個文檔構成的文檔群；接受識別資訊，該識別資訊是基於使用者的是否與訴訟關聯的判斷，對所顯示的文檔群中的、供使用者判斷是否與訴訟關聯的文檔即物件文檔賦予的資訊；基於接受了識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、各文檔的評分；以及基於更新的評分來控制顯示部上顯示的文檔群的文檔的顯示順序。

另外，本發明所關於的取證程式是獲取多個電腦或伺服器中記錄的數位資訊，並分析該所獲取的數位資訊的取證程式，使電腦執行以下功能：向使用者顯示由數位資訊中包含的多個文檔構成的文檔群；接受識別資訊，該識別資訊是基於使用者的是否與訴訟關聯的判斷，對所顯示的文檔群中的、供使用者判斷是否與訴訟關聯的文檔即物件文檔賦予的資訊；基於接受了識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、各文檔的評分；以及基於更新的評分來控制顯示部上顯示的文檔群的文檔的顯示順序。

本發明的取證系統、取證方法及取證程式具有下述步驟：對於所顯示的物件文檔，向使用者顯示由包含在數位資訊中的多個文檔構成的文檔群；接受識別資訊，該識別資訊是基於使用者的是否與訴訟關聯的判斷，對所顯示的文檔群中的、供使用者判斷是否與訴訟關聯的文檔即物件文檔賦予的資訊；基於接受了識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、各文檔的評分；以及基於更新的評分，控制顯示部所顯示的文檔群的文檔的顯示順序，由此，能夠削減使用者進行關聯性判斷的文檔數量，從而能夠減少使用者的關聯性判斷的負擔，並且能夠提高關聯性判斷處理的速度。

另外，本發明的取證系統可以還具有基於更新的評分對文檔群中的文檔賦予識別資訊的自動賦予部，此時，能夠根據使用者的判斷結果，自動地對文檔賦予識別資訊。

另外，本發明的取證系統的文檔具有與每個識別資訊對應的評分，評分通過從對文檔群中的各文檔預先賦予的初期評分中，基於與識別資訊關聯的物件文檔和各文檔的特徵量的比較結果，進行加分或減分，由此被算出，並被更新，此時，即使使用者判斷錯誤而賦予了不適當的識別資訊的情況下，根據針對其他文檔的判斷，也能夠使評分收斂至適當的值。

另外，本發明所關於的取證系統還具有分類部，分類部基於規定的要素將文檔群分類成組，從該組中，選擇至少一個成為處理物件的物件組，顯示部從分類部選擇出的物件組中，提取向使用者顯示的文檔群，此時，能夠在相似度高的文檔間對特徵量進行比較。

另外，本發明所關於的取證系統還具有組比較部，組比較部將物件組中包含的各文檔的特徵量與控制部完成了控制處理的組中包含的各文檔的特徵量進行比較，顯示控制部基於組比較部的比較結果，控制從物件組中顯示在顯示部上的文檔群的顯示順序，此時，能夠向使用者事先暗示被賦予物件文檔的可能性高的識別資訊。

100‧‧‧取證系統

101‧‧‧資料庫

210‧‧‧顯示部

310‧‧‧顯示控制部

410‧‧‧識別資訊接受部

510‧‧‧評分更新部

610‧‧‧排除判定部

710‧‧‧控制部

810‧‧‧自動賦予部

910‧‧‧分類部

920‧‧‧組比較部

圖1是概念性地示出本發明的第一實施方式的處理的圖；圖2是表示本發明的第一實施方式中的處理的流程圖；圖3是本發明的第一實施方式所關於的取證系統的框圖；圖4是表示本發明的第一實施方式中的顯示部、顯示控制部、識別資訊接受部、評分更新部及自動賦予部的處理的流程圖；圖5是表示本發明的實施方式中的分類部的處理的流程圖；圖6是表示本發明的實施方式中的分類部的處理的示意圖；圖7是表示本發明的實施方式中的組比較部的處理的流程圖；圖8是表示本發明的實施方式中的組比較部的處理的示意圖；圖9是本發明的第二實施方式所關於的取證系統的框圖；圖10是表示本發明的實施方式中的排除判定部的處理的流程圖；以及圖11是表示本發明的第二實施方式中的顯示部、顯示控制部、識別資訊接受部、評分更新部及自動賦予部的處理的流程圖；

〔第一實施方式〕

以下，參照圖1至圖8，說明本發明的第一實施方式。

本發明的第一實施方式所關於的取證系統100是獲取記錄在多個電腦或伺服器中的數位資訊，並分析該獲取的數位資訊的取證系統100，其具有：顯示部210，向使用者顯示由包含在數位資訊中的多個文檔構成的文檔群的至少一個以上的文檔；識別資訊接受部410，接受識別資訊，基於使用者的是否與訴訟關聯的判斷，對文檔群中的供使用者判斷是否與訴訟關聯的物件文檔，賦予該識別資訊；評分更新部510，基於接受了該識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、該各文檔的評分；以及顯示控制部310，基於該更新的評分來控制顯示部210上所顯示的文檔群的文檔的顯示順序。

另外，第一實施方式中，取證系統100可以還具有基於更新的評分對文檔群中的文檔賦予識別資訊的自動賦予部810。

另外，本實施方式中，取證系統100可以還具有資料庫101，資料庫101對文檔群中包含的文檔，記錄與識別資訊對應的評分，並在評分更新部510每次更新評分時，更新每個識別資訊的評分。資料庫101中可以記錄文檔、被賦予的識別資訊、與各識別資訊對應的評分、以及閾值超過資訊等。

另外，取證系統100可以還具有分類部910，分類部910基於規定的要素，將文檔群分類成組，並從該組中選擇至少一個成為處理物件的物件組，顯示部210可以從分類部910所選擇的物件組中提取對使用者顯示的文檔。另外，取證系統100可以具有組比較部920，組比較部920將物件組中包含的各文檔的特徵量與使用者完成了檢閱的組中包含的各文檔的特徵量進行比較，顯示控制部310基於組比較部920的比較結果，控制從物件組中顯示的文檔群的顯示順序。

本實施方式中，以下述情況為例進行說明：對在訴訟中需要提出的文檔使用「HOT」這樣的識別資訊來進行與訴訟的關聯性的判斷。將該系統或使用者判斷是否與訴訟關聯的行為稱為檢閱。在檢閱中，基於與訴訟關聯的程度及與訴訟關聯的方式，將成為檢閱的對象的文檔(在此，稱為物件文檔)分類成多個種類，並對每個種類賦予識別資訊。

圖1所示的圖是概念性表示出利用取證系統100的檢閱的情形。在利用取證系統100的情況下，使用者能夠參考取證系統100所暗示的檢閱的預測結果(Automatic Predictive Coding：自動預測編碼)的同時實施檢閱(Human Review：人工檢閱)。具體而言，當使用者對某個文檔進行檢閱時，取證系統100在人工檢閱每次實施時將使用者所進行的人工檢閱的檢閱結果反映給檢閱物件的文檔。

因此，使用者對下一個文檔進行檢閱時，能夠以下述的判定基準進行檢閱：觀察通過自動預測編碼所暗示的預測檢閱結果的同時，判斷該預測檢閱結果是否適當。因此，使用者能夠在對通過自動預測編碼所暗示的預測檢閱結果滿足時，結束檢閱。由此，通過削減使用者進行關聯性判斷的文檔數量，能夠減小使用者的關聯性判斷的負擔，並且提高關聯性判斷處理的速度。

在此，參考圖2，說明第一實施方式整體的處理流程的概略。圖2是概念性地示出第一實施方式整體的處理流程的圖。

取證系統100中，在處理開始時，首先，進行將文檔的集合、即文檔群分類成多個組的分類處理(Clustering：分組)(步驟1)。然後，從分類好的組中選擇成為取證系統100的這次處理物件的物件組。對象組是指組中成為使用者實施檢閱的對象的組。

文檔是指包含一個以上的單詞的資料。作為文檔的一個例子，可以列舉：電子郵件、演示資料、表格計算資料、會議資料、合同、組織圖、事業計畫書等。另外，文檔可以具有與每個識別資訊對應的評分，評分可以通過從對文檔群中的各文檔預先賦予的初期評分中，基於與識別資訊關聯的物件文檔和各文檔的特徵量的比較結果，進行加分或減分來算出，並進行更新。另外，文檔群由多個文檔構成。組用於將文檔群分類。

進行分類處理時，使用者能夠輸入規定的要素作為分類的條件。規定的要素也可以通過取證系統100自動輸入。具體而言，作為規定的要素，可以列舉：製作文檔的年份、文檔的尾碼、文檔的創建者或安全等級等。

接著，進行組間的比較處理(Automatic Suggest Documents：自動顯示文檔)(步驟2)。這是指：通過將完成了與訴訟的關聯性的判斷的組中包含的文檔與成為這次對象的組進行比較，來暗示下一個物件組中包含的、某個文檔向特定的識別資訊的偏向。具體而言，從完成了關聯性的判斷的組(設為組A)中，提取與對應於一個識別資訊(在此「HOT」)的評分較高的文檔共同的特徵量。從下一個物件組(設為組B)中檢索具有與該提取出的特徵量相似的特徵量的文檔，並根據特徵量的相似度控制文檔的排列順序。也就是說，到達上位的文檔可認為是被賦予識別資訊「HOT」的可能性高的文檔。因此，關於組B，當使用者對其進行檢閱時，能夠暗示容易賦予識別資訊「HOT」的意思，並且能夠提高檢閱的精度及速度。

評分是指定量地評價文檔與規定的識別資訊的關聯的程度。例如，以下述情況為例進行說明：在檢閱中，使用表示與訴訟有關聯性的「Responsive」以及表示是與訴訟的關聯非常強的重要的文檔的「HOT」。該情況下，各文檔可以是在資料庫中記錄「HOT」評分及「Responsive」評分的區域得到確保的文檔。然後，上述兩種評分中，當超過規定的閾值時，可以賦予該超過的識別資訊。

特徵量是指用於測定各文檔間的相似度的量。特徵量使用由在文檔中頻繁出現的各單詞的種類、各單詞所具有的評定值及各單詞的出現數量構成的傾向資訊來算出。

之後，使用者實施檢閱(Human Review)(步驟3)。每次實施檢閱時，取證系統100使用該檢閱結果算出各文檔的評分(Automatic Real-Time Create Trainning Data：自動即時創建培訓資料)(步驟4)。並且，通過按照算出的評分的順序進行物件組內的文檔的排序，由此，使用者進行下一個文檔的檢閱時，能夠暗示該文檔的檢閱結果(Suggest Next Documents by Real-Time Automatic Predictive Coding：通過即時自動預測代碼來暗示下一個文檔)(步驟5)。取證系統100對於物件組重複步驟3至步驟5的處理，直至使用者根據被排序好的文檔判斷為檢閱結束。這是因為：由於排序好的文檔意味著按照降冪、特定的識別資訊由高到低，因此，在某個文檔從使用者來看可判斷為確實與訴訟沒有關聯性的情況下，位於比該文檔靠下位的文檔將全部被判斷為與訴訟沒有關聯性。因此，使用者不需要檢閱全部文檔，就能夠結束關聯性的判斷。

圖3是第一實施方式所關於的取證系統100的框圖。

第一實施方式中，如圖3所示，取證系統100具有：顯示部210、顯示控制部310、識別資訊接受部410、評分更新部510、自動賦予部810、分類部910、組比較部920及資料庫101。

取證系統100是電腦或伺服器，通過由CPU基於各種輸入執行ROM中記錄的程式，作為各種功能部進行工作。該程式可以是存儲於CD-ROM等存儲介質或通過網際網路等網路分佈並安裝於電腦的程式。另外，顯示部210是顯示器、監視器、平板PC等具有顯示功能的裝置，是使用者進行操作、確認物件文檔、並賦予識別資訊所利用的裝置。第一實施方式中，雖然取證系統100在系統內不具有顯示部210，但是也可以在系統內具有顯示部210。

另外，取證系統100的各功能部及顯示部210通過有線或無線的網路來連接，並且還能夠以雲計算的方式來利用。

顯示部210按照通過顯示控制部310排列的順序向使用者顯示文檔群的至少一個以上的文檔。

顯示控制部310控制顯示部210所顯示的文檔的順序。第一實施方式中，顯示控制部310向顯示部210發送顯示控制的指示，使其按照文檔所具有的評分的降冪進行顯示。其結果為，使用者能夠觀察通過顯示控制部310按照評分順序排序的文檔，來判斷是否需要繼續檢閱。也就是說，當正在檢閱的物件文檔顯然與訴訟沒有關聯性時，排列在比該物件文檔更下位的文檔的評分更低，因此，不需要檢閱，就能夠判斷出與訴訟沒有關聯性。

識別資訊接受部410用於接受使用者通過檢閱賦予給物件文檔的識別資訊。

識別資訊是被賦予成為分類物件的文檔的資訊，是為了容易用於訴訟，表示與訴訟的關聯度的資訊。識別資訊可以作為附帶資訊被記錄在各文檔中，也可以是將識別資訊與文檔的對應關係記錄於資料庫101中的資訊。對於識別資訊，可以列舉出：表示訴訟與物件文檔具有關聯性的「Responsive」；表示與訴訟的關聯性非常高並且是重要文檔的「HOT」；表示與訴訟沒有關聯性的「Non-Responsive」等。第一實施方式中，作為識別資訊，賦予「HOT」標籤，該標籤與文檔對應地被管理於資料庫101中。

評分更新部510將識別資訊接受部410接受了識別資訊的物件文檔的特徵量與文檔群中包含的文檔的特徵量進行比較，並將與該接受的識別資訊對應的評分進行更新。評分更新部510例如可以根據特徵量的一致度對評分進行加分或減分。第一實施方式中，在成為比較對象的文檔中不包含對象文檔自身，但也可以是物件文檔也為更新物件的方式。例如，當在比較物件中含有物件文檔自身的情況下，由於特徵量完全一致，所以評分被加上相應的分數而被更新。

基於固定的要素對文檔賦予初期評分。例如，可以根據文檔中出現的單詞和各單詞所具有的評定值來算出初期評分。第一實施方式中，初期評分基於規定的要素來算出，並對全部文檔賦予固定值。從初期評分中進行加分和減分處理，來更新評分。

自動賦予部810根據評分自動判斷適合各文檔的識別資訊，並進行賦予。可以對識別資訊的每個種類設置閾值，並對超過該閾值的文檔賦予對應的識別資訊。第一實施方式中，作為「HOT」評分的閾值，設置有α。也就是說，自動賦予部810對評分更新部510對各文檔的「HOT」評分進行更新處理之後超過α的文檔賦予「HOT」標籤來作為識別資訊。

組比較部920用於在組間進行文檔的特徵的比較處理。通過利用使用者完成了檢閱的組中包含的文檔的特徵量作為比較物件，由此，能夠暗示下一個物件組中包含的文檔向特定的識別資訊的偏向。具體而言，在使用者完成了檢閱的組(設為組A)中，提取與對應於一個識別資訊(在此「HOT」)的評分較高的文檔共同的特徵量。從下一個物件組(設為組B)中檢索具有與該提取出的特徵量相似的特徵量的文檔，顯示控制部310根據特徵量的相似度，控制文檔的排列順序。該排列順序被控制而到達上位的文檔被認為是被賦予識別資訊「HOT」的可能性高的文檔。因此，關於組B，當使用者對其進行檢閱時，能夠暗示容易附加識別資訊「HOT」的意思，並且能夠提高檢閱的精度及速度。

使用圖4，說明顯示部210、顯示控制部310、識別資訊接受部410、評分更新部510、自動賦予部810的處理流程。圖4是表示本實施方式中的顯示部210、顯示控制部310、識別資訊接受部410、評分更新部510、自動賦予部810的處理的流程圖。

顯示部210從文檔群中顯示作為檢閱物件的文檔的文檔1(步驟11)。使用者對文檔1進行檢閱，賦予「HOT」標籤，識別資訊接受部410接受該「HOT」標籤(步驟12)。

評分更新部510為了針對「HOT」標籤更新各文檔的評分，將文檔1與其他文檔的特徵量進行比較(步驟13)。另外，第一實施方式中，評分更新部510對使用者進行了檢閱的文檔，不進行評分的更新處理。

評分更新部510基於比較結果，對其他文檔的「HOT」標籤的評分，進行加分和減分處理(步驟14)。

評分被更新後，自動賦予部810對被更新的評分的值是否超過α進行檢驗(步驟15)。在有評分超過α的文檔時(步驟15：YES)，自動賦予部810對該文檔賦予「HOT」標籤(步驟16)。對評分沒有超過α的文檔(步驟15：NO)，不進行標籤的賦予。

自動賦予處理後，顯示控制部310按照更新後的評分的降冪進行文檔的排序控制(步驟17)。在使用者判斷為結束的情況下(步驟18：YES)，在此結束處理。在使用者沒有判斷為結束的情況下(步驟18：NO)，顯示部210按照顯示控制部310所排序的文檔的上位的順序進行顯示(步驟19)。該情況下，使用者再次對到達最上位的文檔進行標籤附加(步驟12：第二回)。以下，迴圈步驟12至步驟19的處理直至使用者判定為結束。

圖5是表示分類部910的處理流程的圖。分類部910接受使用者所輸入的要素(步驟111)。之後，分類部910基於所輸入的規定的要素執行分類處理(步驟112)。圖6是示意性地示出分類處理的執行結果的圖。

圖6的上圖表示文檔群中的文檔。在使用者例如輸入「年代」作為分類的要素的情況下，文檔群中的文檔如圖6的下圖所示，按照年代被進行分組。

圖7是表示組比較部920的處理流程的圖。

組比較部920進行檢閱處理完成的組(設為組A)與成為下一個檢閱物件的組(設為組B)之間的比較(步驟121)。具體而言，將組A中包含的文檔(設為文檔1)的特徵量與組B中包含的文檔(設為文檔2)的特徵量進行比較。例如，在文檔2的特徵量與文檔1的特徵量相似的情況下，基於文檔1的各識別資訊的評分及相似度，對文檔2的各識別資訊賦予臨時評分(步驟122)。

臨時評分是組比較部920為了進行比較處理，對各文檔暫時賦予的評分。因此，臨時評分不用於自動賦予部810的識別資訊賦予處理。第一實施方式中，組比較部920使用臨時評分進行處理，但也可以直接更新通常的評分進行處理。

組處理部按照各識別資訊的被賦予的臨時評分的降冪對文檔進行排列(步驟123)。

圖8是示意性地表示組比較部920及顯示控制部310的處理的情形的圖。將檢閱實施完成的組A的處理結果反映於組B(圖8的上圖)，顯示控制部310按照針對各識別資訊的臨時評分的降冪，對組B中包含的文檔進行排列(圖8的下圖)。由此，使用者能夠從容易附帶「HOT」標籤的文檔按順序進行檢閱。

〔第二實施方式〕

以下，使用圖9至圖11，說明本發明的實施的方式。

本發明的第二實施方式所關於的取證系統100是獲取多個電腦或伺服器中記錄的數位資訊，並分析該獲取的數位資訊的取證系統100，其具有：顯示部210，向使用者顯示由包含在數位資訊中的多個文檔構成的文檔群的至少一個以上的文檔；識別資訊接受部410，接受識別資訊，基於使用者的是否與訴訟關聯的判斷，對文檔群中的供使用者判斷是否與訴訟關聯的物件文檔賦予該識別資訊；評分更新部510，基於接受了該識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、該各文檔的評分；以及顯示控制部310，基於該更新的評分來控制顯示部210上顯示的文檔群的文檔的顯示順序。

另外，第二實施方式中，取證系統100可以還具有基於更新的評分對文檔群中的文檔賦予識別資訊的自動賦予部810。

另外，本實施方式中，取證系統100可以還具有資料庫101，資料庫101對文檔記錄與識別資訊對應的評分，並在評分更新部510每次更新評分時，更新每個識別資訊的評分。資料庫101中可以記錄文檔、被賦予的識別資訊、與各識別資訊對應的評分、以及閾值超過資訊等。

另外，本實施方式中，取證系統100可以還具有：排除判定部610，排除判定部610對從顯示部210所顯示的文檔的候補中將評分達到特定值的文檔排除進行判定；以及控制部710，控制部710進行控制，使得能夠重複執行顯示部210、識別資訊接受部410、評分更新部510、顯示控制部310、及排除判定部610的處理直至該已被判定的文檔的數量超過規定值。

圖9是第二實施方式所關於的取證系統100的框圖。

第二實施方式中，如圖9所示，取證系統100具有顯示部210、顯示控制部310、識別資訊接受部410、評分更新部510、排除判定部610、自動賦予部810、控制部710、分類部910、組比較部920、及資料庫101。本實施方式中的檢閱處理中，使用「HOT」標籤作為識別資訊，進行判斷與訴訟的關聯性的處理。

排除判定部610在評分被更新時，對將更新後的評分達到特定值的文檔從顯示部210所顯示的物件文檔的候補中排除進行判定。作為排除判定的前部分，排除判定部610對每個識別資訊進行結束判定，並對針對全部識別資訊進行了結束判定的文檔，進行排除判定。本實施方式中，作為特定值，具有β 1與β 2兩個閾值(β 1>β 2)。排除判定部610在評分由於加分而超過β 1時或由於減分而低於β 2時，對該識別資訊進行結束判定。第一實施方式中，賦予三種識別資訊。該情況下，排除判定部610將對三種識別資訊都進行了排除判定的文檔，從對象文檔的候補中排除。

另外，在針對一個識別資訊的評分達到β 1或β 2並進行了結束判定的情況下，可以將針對該超過了的識別資訊進行了排除的意思的表示，賦予該文檔。

使用圖10，說明排除判定部610的處理。圖10是使用者在檢閱中對文檔1賦予「HOT」標籤作為識別信息時的排除判定部610的處理流程。使用者在檢閱中，為了進行賦予「HOT」標籤作為識別資訊的處理，排除判定部610也對「HOT」標籤進行各文檔的排除判定。

排除判定部610檢測各文檔的「HOT」評分的值(步驟621)。在此，α是成為自動賦予部810進行識別資訊的賦予處理的判斷基準的閾值。對於評分大於β 2但小於α的文檔，排除判定部610不進行任何處理(步驟622)。另一方面，對於評分為β 1以上或β 2以下的文檔，對「HOT」標籤進行結束判定(步驟623)。該情況下，對其他識別資訊的評分也進行判定(步驟624)，在評分全部為β 1以上或β 2以下的情況下(步驟624：YES)，將該文檔從檢閱對象中排除(步驟625)。對於有一個小於β 1且大於β 2的評分的識別資訊的文檔(步驟624：NO)，不進行排除判定，使其結束。

控制部710進行控制，使得能夠重複執行顯示部210、識別資訊接受部410、評分更新部510、顯示控制部310、及排除判定部610的處理。該控制可以針對每一個處理被迴圈性地重複。另外，也可以是，以成批地進行一定量處理後執行後段的處理這樣的單位重複。第二實施方式中，顯示控制部310在後述組中包含的文檔全部被進行了排除判定的情況下，結束控制處理。

圖11是表示本實施方式中的處理整體的概要的流程圖。在此，以使用者對文檔1進行檢閱並賦予「HOT」標籤的情形為例進行說明。

首先，顯示部210將文檔1顯示於畫面(步驟130)。對於通過顯示部210所顯示的文檔1，使用者賦予「HOT」標籤作為識別資訊(步驟131)，識別資訊接受部410接受該「HOT」標籤作為使用者對文檔1賦予的識別資訊。

評分更新部510為了針對「HOT」標籤更新各文檔的評分，對文檔1與其他文檔(在此，為文檔2)的特徵量進行比較(步驟132)。另外，第二實施方式中，評分更新部510對使用者進行了檢閱的文檔，不進行評分的更新處理。因此，文檔1在使用者結束了檢閱的時刻，被進行結束判定。

評分更新部510基於比較結果，對文檔2的「HOT」標籤的評分，進行加分和減分處理(步驟133)。

評分被更新後，排除判定部610檢驗文檔2的「HOT」評分的值(步驟134)。排除判定部610在文檔2的「HOT」評分大於β 1且小於α的情況下，不進行處理(步驟135)。另一方面，在文檔2的「HOT」評分為α以上且小於β 1的情況下，對文檔2賦予「HOT」標籤(步驟136)。

當文檔2的評分為β 1以上時，排除判定部610對「HOT」進行結束判定(步驟137)。這時，如果文檔2沒有被賦予「HOT」標籤，則執行自動賦予部810的識別字的賦予處理。

另外，在文檔2的評分為β 2以下的情況下，排除判定部610對「HOT」進行結束判定(步驟138)。在步驟137及步驟138的處理被實施了的情況下，排除判定部610檢驗文檔2的其他的識別資訊的評分是否達到了β 1或β 2(步驟139)。在檢驗的結果是達到了β 1或β 2的情況下(步驟139：YES)，將文檔2從顯示部210的顯示候補中排除(步驟140)。步驟141的處理結束後，控制部710檢驗是否全部的文檔被進行了排除判定(步驟141)，在全部的文檔被進行了排除判定的情況下(步驟141：YES)，使處理結束。

步驟135或步驟136的處理結束後，或者在步驟139中判斷為評分小於β 1且大於β 2的情況下(步驟139：NO)，通過控制部710轉移到下一個處理。這時，通過顯示控制部310對沒有進行排除判定的文檔，按照更新的評分的值的昇冪進行排序(步驟143)。

通過顯示控制部310進行排序後，按照排列順序也就是評分由高到低的順序通過顯示部210進行顯示(步驟144)。

關於其他結構和功能，與第一實施方式相同。

取證系統100通過具有顯示部210、識別資訊接受部410、評分更新部510、以及顯示控制部710，能夠削減使用者進行關聯性判斷的文檔數量，由此能夠降低使用者的關聯性判斷的負擔，並且能夠提高關聯性判斷處理的速度。顯示部210對於所顯示的物件文檔，向使用者顯示由包含在數位資訊中的多個文檔構成的文檔群。識別資訊接受部410接受識別資訊，該識別資訊是基於使用者的是否與訴訟關聯的判斷，對所顯示的文檔群中的、供使用者判斷是否與訴訟關聯的文檔即物件文檔賦予的資訊。評分更新部510基於接受了識別資訊的物件文檔的特徵量與文檔群中的各文檔的特徵量的比較結果，更新與規定的識別資訊對應的、各文檔的評分。顯示控制部710基於更新的評分，控制顯示部210所顯示的文檔群的文檔的顯示順序，另外，取證系統100在還具有對文檔群中的文檔基於更新的評分來賦予識別資訊的自動賦予部810時，能夠根據使用者的判斷結果，自動地對文檔賦予識別資訊。

另外，取證系統100的文檔具有與每個識別資訊對應的評分，評分通過從對文檔群中的各文檔預先賦予的初期評分中，基於與識別資訊關聯的物件文檔和各文檔的特徵量的比較結果，進行加分或減分，由此被算出，並被更新，此時，即使使用者判斷錯誤而賦予了不適當的識別資訊的情況下，根據針對其他文檔的判斷，也能夠使評分收斂至適當的值。

另外，取證系統100還具有分類部910，分類部910基於規定的要素將文檔群分類成組，從該組中選擇至少一個成為處理物件的物件組，顯示部210從分類部910選擇出的物件組中，提取向使用者顯示的文檔群，此時，能夠在相似度高的文檔間對特徵量進行比較。

另外，取證系統100還具有組比較部920，組比較部920將物件組中包含的各文檔的特徵量與控制部710完成了控制處理的組中包含的各文檔的特徵量進行比較，顯示控制部310基於組比較部920的比較結果，控制從物件組中顯示在顯示部210上的文檔群的顯示順序，此時，能夠向使用者事先暗示被賦予物件文檔的可能性高的識別資訊。