TWI518631B

TWI518631B - File classification survey system, document classification survey method and file classification survey program

Info

Publication number: TWI518631B
Application number: TW103130212A
Authority: TW
Inventors: Masahiro Morimoto; Hideki Takeda; Kazumi Hasuko
Original assignee: Ubic Inc
Priority date: 2013-10-25
Filing date: 2014-09-02
Publication date: 2016-01-21
Also published as: JP5592552B1; TW201516946A; JP2015084168A; WO2015059940A1; US20160155207A1; US9595071B2

Description

文件分類調查系統、文件分類調查方法及文件分類調查程式

本發明係關於一種文件分類調查系統、文件分類調查方法、及文件分類調查程式者，特別是關於依調查案件時間序列地分類及調查文件之文件分類調查系統、文件分類調查方法、及文件分類調查程式。

例如將訴訟案件或違法調查案件作為調查案件之情況說明本發明的背景技術。過去提出有在發生違法存取及機密資訊洩漏等關於電腦犯罪及法律糾紛時，為了查明原因及搜查而收集、分析必要之機器、資料及電子記錄，以明瞭其法律證據性的手段及技術。

特別是美國民事訴訟時要求電子資訊公開(eDiscovery)等，該訴訟之原告及被告皆負有提出全部相關數位資訊作為證據的責任。因而，必須提出記錄於電腦及伺服器之數位資訊作為證據。

另外，隨著IT快速發達及普及，今天的商業領域幾乎所有資訊都以電腦製作，所以即使同一個企業內也擁有龐大的數位資訊。

因而，為了向法庭提出證據資料而進行準備作業的過程中，容易發生證據資料中包含與該訴訟未必相關之機密數位資訊的失誤。或是發生提出了與該訴訟無關之機密文件資訊的問題。

近年來，專利文獻1至專利文獻3中提出了關於鑑識系統(Forensic System)中之文件資訊的技術。專利文獻1中揭示了一種鑑識系統，係從用戶資訊中包含之至少1人以上的用戶指定特定者，依據關於指定之特定者的存取履歷資訊，僅抽出特定者存取之數位文件資訊，設定顯示所抽出之數位文件資訊的各個文件檔案是否與訴訟相關之附帶資訊，而依據附帶資訊輸出與訴訟相關之文件檔案。

此外，專利文獻2中揭示之鑑識系統，係顯示所記錄之數位資訊，複數個文件檔案分別設定顯示是否係與用戶資訊中包含之用戶中任何一個用戶相關者的用戶特定資訊，以將該所設定之用戶特定資訊記錄於記憶部之方式設定，指定至少一人以上之用戶，檢索設定了對應於指定之用戶的用戶特定資訊之文件檔案，並設定經由顯示部顯示所檢索之文件檔案是否與訴訟相關的附帶資訊，並依據附帶資訊輸出與訴訟相關之文件檔案。

再者，專利文獻3中揭示之鑑識系統，係受理數位文件資訊中包含之至少1個以上文件檔案的指定，受理是否將指定之文件檔案翻譯成任何一種語言的指定，將受理指定之文件檔案翻譯成受理指定之語言，從記錄於記錄部之數位文件資訊抽出顯示與指定之文件檔案同一內容的共通文件檔案，生成顯示藉由援用曾翻譯之文件檔案的翻譯內容而翻譯所抽出之共通文件檔案的翻譯相關資訊，依據翻譯相關資訊輸出與訴訟相關之文件檔案。

【先前技術文獻】 【專利文獻】

[專利文獻1]日本特開2011-209930號公報

[專利文獻2]日本特開2011-209931號公報

[專利文獻3]日本特開2012-32859號公報

但是，例如專利文獻1至專利文獻3之鑑識系統中，係收集利用複數個電腦及伺服器之用戶的龐大文件資訊。

進行將此種數位化龐大文件資訊作為訴訟之證據資料是否妥當的分類作業，需要藉由目視確認稱為檢視者之用戶，來逐一分類該文件資訊，因而有耗費大量勞力與費用之問題。

此外，過去文件分類中，係依據文件性質之差異進行分類，不過，對於隨著個人或各人所屬之組織的變動而文件性質產生之時間性的變動，並未進行分類及調查。

因此，鑑於上述情形，本發明之目的為提供一種檢測文件分類時隨著時間性的變動文件品質產生之時間序列性的變化，並且可減輕分類作業之負擔的文件分類調查系統、文件分類調查方法、及文件分類調查程式。

本發明之文件分類調查系統，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便利用於案件調查之方式，通過將顯示與調查案件之關連度的分類碼賦予文件，來調查調查案件與文件之關連度，其特徵為具備：分數算出部，其係從前述文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數；分數變化檢測部，其係從算出之分數檢測分數之時間序列性的變化；及分數變化判定部，其係從檢測出之分數的時間序列性變化調查判定調查案件與抽出之文件的關連度。

本發明之文件分類調查方法的特徵為：係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便利用於案件調查之方式，通過將顯示與調查案件之關連度的分類碼賦予文件，來調查調查案件與文件之關連度，電腦之特徵為：係從前述文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數，從算出之分數檢測分數之時間序列性的變化，從檢測出之分數的時間序列性變化調查調查案件與抽出之文件的關連度。

本發明之文件分類調查程式，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便利用於案件調查之方式，通過將顯示與調查案件之關連度的分類碼賦予文件，來調查調查案件與文件之關連度，其特徵為使電腦實現以下功能：算出功能，其係從前述文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數；檢測功能，其係從算出之分數檢測分數之時間序列性的變化；及調查功能，其係從檢測出之分數的時間序列性變化調查調查案件與抽出之文件的關連度。

另外，本發明中，所謂「分數」，係指在某個文件中，定量評估與特定之分類碼的連繫強度者。

本發明係從文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數，從算出之分數檢測分數之時間序列性的變化，從檢測之分數的時間序列性變化調查調查案件與抽出之文件的關連度。藉此，提供可檢測文件分類時隨著時間性的變動，文件品質產生之時間序列性的變化，並且可減輕分類作業之負擔的文件分類調查系統、文件分類調查方法、及文件分類調查程式。

1‧‧‧文件分類調查系統

11‧‧‧文件顯示畫面

100‧‧‧資料儲存部

101‧‧‧數位資訊儲存區域

103‧‧‧調查基礎資料庫

104‧‧‧關鍵字資料庫

105‧‧‧相關用語資料庫

106‧‧‧分數算出資料庫

107‧‧‧報告製作資料庫

109‧‧‧資料庫管理部

112‧‧‧文件抽出部

114‧‧‧字檢索部

116‧‧‧分數算出部

118‧‧‧文件解析部

120‧‧‧分數變化檢測部

122‧‧‧分數變化判定部

124‧‧‧傾向資訊生成部

130‧‧‧文件顯示部

131‧‧‧分類碼受理賦予部

133‧‧‧律師檢視受理部

140‧‧‧分數移動平均算出部

142‧‧‧分數差分移動平均算出部

201‧‧‧第一自動分類部

301‧‧‧第二自動分類部

401‧‧‧第三自動分類部

501‧‧‧品質檢查部

601‧‧‧學習部

701‧‧‧報告製作部

901‧‧‧網際網路線路

902‧‧‧資訊儲存裝置

第一圖係本發明之實施形態的文件分類調查系統之構成圖。

第二圖係顯示本發明之實施形態的文件分類調查方法中之處理流程圖。

第三圖係顯示本發明之實施形態的文件分類調查方法中成為調查對象的文件案件1與案件2的屬性表圖。

第四圖係顯示本發明之實施形態的文件分類調查方法中顯示分數與發信日期之關係圖。

第五圖係顯示本發明之實施形態的文件分類調查方法中分數之移動平均與發信日期的關係圖。

第六圖係顯示本發明之實施形態的文件分類調查方法中分數之差分移動平均與發信日期的關係圖。

第七圖係顯示分數之移動平均的差分(DMA)、發信日期、主要(上傳)端部及「進入(IN)的關係表圖。

第八圖係顯示實施形態中各階段的處理流程圖。

第九圖係顯示實施形態中之關鍵字資料庫的處理流程圖。

第十圖係顯示本實施形態中之相關用語資料庫的處理流程圖。

第十一圖係顯示本實施形態中之第一自動分類部的處理流程圖。

第十二圖係顯示本實施形態中之第二自動分類部的處理流程圖。

第十三圖係顯示本實施形態中之分類碼受理賦予部的處理流程圖。

第十四圖係顯示本實施形態中之分類碼賦予文件解析部的處理流程圖。

第十五圖係顯示本實施形態中之文件解析部的解析結果圖。

第十六圖係顯示本實施形態一個實施例中之第三自動分類部的處理流程圖。

第十七圖係顯示本實施形態其他實施例中之第三自動分類部的處理流程圖。

第十八圖係顯示本實施形態中之品質檢查部的處理流程圖。

第十九圖係本實施形態中之文件顯示畫面。

[本發明之實施形態]

本發明之實施形態的文件分類調查系統，係取得複數個記錄於電腦或伺服器之大量數位資訊(Big Data)，以時間序列分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，藉由將顯示與調查案件之關連度的分類碼與分數賦予文件，以方便利用於案件調查。

因此，例如選擇關於訴訟、違法調查、金融現象、氣象現象、或疾病之診斷與治療的案件作為調查案件。

此外，本發明之實施形態對文件之時間序列資料的解析，可作為時間序列資料的解析而單獨執行，例如，與文件分類相關，亦有時係在文件的分類處理中執行。因此，與文件之分類相關而記載本發明之實施形態的時間序列資料之解析的一例。

第一圖顯示本發明之實施形態的文件分類調查系統之構成。參照第一圖，對於本發明之實施形態的文件分類調查系統之構成，將訴訟作為調查案件的情況為例記載如下。

實施形態之文件分類調查系統1具有儲存資訊及資料之資料儲存部100。該資料儲存部100為了利用於訴訟或違法調查之解析，而將從複數個電腦或伺服器取得之數位資訊儲存於數位資訊儲存區域101。

而後，資料儲存部100儲存：調查基礎資料庫103，其係儲存顯示是否屬於包含反托拉斯、專利、FCPA(反海外賄賂法(Foreign Corrupt Practices Act))、PL(產品責任(Products Liability))之訴訟案件或包含資訊洩漏、詐財(False Claims)之違法調查的任何類別之類別屬性、公司名稱、負責人、監督人及調查或分類輸入畫面的構成；關鍵字資料庫104，其係登錄取得之數位資訊中包含的文件之特定分類碼、與該特定分類碼具有密切關係之關鍵字、及顯示該特定分類碼與該關鍵字之對應關係的關鍵字對應資訊；相關用語資料庫105，其係登錄指定之分類碼、在賦予該指定分類碼之文件中由出現頻率高的單詞構成之相關用語、以及顯示該指定分類碼與相關用語之對應關係的相關用語對應資訊；及分數算出資料庫106，其係登錄為了算出顯示文件與分類碼之連繫強度的分數，而該文件中包含之字的加權。再者，資料儲存部100儲存報告製作資料庫107，其係登錄類別、監督人、依分類作業內容而規定之報告書形式。如第一圖所示，該資料儲存部100亦可設置於文件分類調查系統1中，亦可作為另外之儲存裝置而設置於文件分類調查系統1的外部。

本發明之實施形態的文件分類調查系統1具備資料庫管理部109，其係管裡調查基礎資料庫103、關鍵字資料庫104、相關用語資料庫105、分數算出資料庫106、及報告製作資料庫107之資料內容的更新。資料庫管理部109可經由專用連接線或網際網路線路901而連接於資訊儲存裝置902。而後，資料庫管理部109可依據記憶於資訊儲存裝置902之資料內容，更新調查基礎資料庫103、關鍵字資料庫104、相關用語資料庫105、分數算出資料庫106及報告製作資料庫107之資料內容。

本發明之實施形態的文件分類調查系統1具備：文件抽出部112，其係從文件資訊抽出複數個文件；字檢索部114，其係從文件資訊檢索記錄於資料庫之關鍵字或相關用語；及分數算出部116，其係算出顯示文件與分類碼之連繫強度的分數。本發明之實施形態的分數算出部116係時間序列地算出分數。

此外，本發明之實施形態的文件分類調查系統1具有：分數變化檢測部120，其係從算出之分數檢測分數時間序列性的變化；及分數變化判定部122，其係從檢測出之分數的時間序列性變化調查判定調查案件與抽出之文件的關連度。而後，為了檢測分數之時間序列性變化，分數變化檢測部120具備：分數移動平均算出部140，其係算出分數之移動平均；及分數差分移動平均算出部142，其係從分數之短期間移動平均與長期間移動平均算出分數之差分移動平均。

本發明之實施形態的文件分類調查系統1具有：第一自動分類部201，其係藉由字檢索部114檢索記錄於前述關鍵字資料庫104之關鍵字，從文件資訊抽出包含前述關鍵字之文件，對該抽出之文件，依據關鍵字對應資訊自動賦予特定之分類碼；及第二自動分類部301，其係從文件資訊抽出包含記錄於相關用語資料庫之相關用語的文件，依據該抽出之文件中包含的相關用語之評估值及該相關用語數量算出分數，在包含相關用語之文件中，對於該分數超過一定值之文件，依據分數及前述相關用語對應資訊自動賦予指定之分類碼。

再者，實施形態之文件分類調查系統1具備：文件顯示部130，其係將從文件資訊抽出之複數個文件顯示於畫面上；分類碼受理賦予部131，其係對於未賦予從文件資訊所抽出之分類碼的複數個文件，受理用戶依據與前述訴訟之關連性而賦予的分類碼，並賦予分類碼；文件解析部118，其係解析藉由分類碼受理賦予部131賦予分類碼之文件；及第三自動分類部401，其係依據對於從文件資訊所抽出之複數個文件，藉由文件解析部118解析藉由分類碼受理賦予部131賦予分類碼之文件的解析結果，自動賦予分類碼。

文件解析部118亦解析從用戶追加於依據與訴訟之關連性受理而賦予的文件，並以第一自動分類部201及第二自動分類部301，藉由關鍵字、相關用語及分數值而藉由電腦自動賦予分類碼的文件，亦可整何來自用戶之分類碼受理文件與藉由電腦之自動分類碼賦予文件，而獲得綜合解析結果。此時第三自動分類部401亦可依據該綜合之解析結果自動賦予分類碼。

分類及調查作業之進行方法中，包含字檢索之自動分類、用戶之分類及調查的受理、使用分數值之自動分類及調查、介有學習過程之自動分類及調查、以及介有品質保證之自動分類及調查等多種進行方法。

亦可文件解析部118與顯示此等多種分類作業及調查作業按照何種順序、且以何種組合進行之進行履歷，一起解析賦予分類碼之複數個文件，後述之報告製作部701報告該解析結果。

此外，本發明之實施形態的文件分類調查系統1亦可具備：語言判定部，其係判定所抽出之文件的語言種類；及翻譯部，其係受理用戶之指定，或自動地翻譯所抽出之文件，不過省略圖示。為了亦可對應於1字多種語言之複合語言，應將語言判定部中之語言的區分比1字小。此外，語言判定時，亦可使用預測編碼、字符編碼之任何一種或兩種。再者，亦可進行從翻譯對象除去超文件標示語言(HTML)之標頭等的處理。

此外，本發明之實施形態的文件分類調查系統1亦可具備傾向資訊生成部124，其係為了藉由文件解析部118進行解析，依據各文件包含之單詞種類、出現次數、單詞之評估值，生成表示與賦予了各文件具有之分類碼的文件之類似程度的傾向資訊。

此外，本發明之實施形態的文件分類調查系統1亦可具備品質檢查部501，其係比較分類碼受理賦予部131所受理之分類碼與文件解析部118中藉由傾向資訊所賦予之分類碼，檢驗分類碼受理賦予部131所受理之分類碼的妥當性。

再者，本發明之實施形態的文件分類調查系統1亦可具備學習部601，其係按照文件分類處理結果，學習各關鍵字或相關用語之加權。

本發明之實施形態的文件分類調查系統1具備報告製作部701，其係用於按照文件分類處理結果，配合訴訟案件或違法調查之調查種類輸出最佳的調查報告。訴訟案件例如包含反托拉斯(聯合壟斷)、專利、禁止海外賄賂(FCPA)、或產品責任(PL)。此外，違法調查例如包含資訊洩漏、詐財。

本發明之實施形態的文件分類調查系統1具備律師檢視受理部133，其係為了提高分類調查與報告品質，明確分類調查與報告之責任，而受理主任律師或主任商標代理人之檢視。

為了容易理解本發明之實施形態的文件分類調查系統1，實施形態中之特有用語記載如下。

所謂「分類碼」，係指將文件分類時使用之識別符，且指為了方便訴訟之用，而顯示與訴訟之關連度者。例如，訴訟時利用文件資訊作為證據時，亦可依證據之種類賦予。

所謂「文件」，係指包含1個以上單詞之資料。「文件」之一例如為電子郵件、展示資料、表計算資料、磋商資料、契約書、組織圖、事業計畫書等。

所謂「單詞」，係指具有意義之最少字串的集合。例如，在「所謂文件，係指包含1個以上單詞之資料。」的文章中，包含了「文件」「1個」「以上」「單詞」「包含」「資料」「係指」之單詞。

所謂「關鍵字」，係指某個語言中，具有一定意義之字串的集合。例如，從「分類文件」之文章選定關鍵字時，亦可採用「文件」「分類」等。實施形態中，重點性選定「侵害」、「訴訟」、「專利公報￮￮號」之關鍵字。

本實施形態中，關鍵字為包含語素(Morpheme)者。

此外，所謂「關鍵字對應資訊」，係指表示關鍵字與特定分類碼之對應關係者。例如，在訴訟中表示重要文件之「重要」的分類碼與「侵害者」之關鍵字有密切關係時，「關鍵字對應資訊」亦可說是連繫分類碼「重要」與關鍵字「侵害者」而進行管理之資訊。

所謂「相關用語」，係指在賦予了指定分類碼之文件中共通且出現頻率高的單詞中，評估值為一定值以上者。例如，出現頻率係指在一份文件中採用之單詞總數中，相關用語出現的比率。

此外，「評估值」係指各單詞在某個文件中發揮之資訊量。「評估值」亦可以傳達資訊量為基準而算出。例如，賦予指定之商品名稱作為分類碼時，「相關用語」亦可指該商品所屬之技術領域的名稱、該商品之銷售國家、該商品之類似商品名稱等。具體而言，賦予進行影像編碼處理之裝置的商品名稱作為分類碼時之「相關用語」，如為「編碼處理」、「日本」、「編碼器」等。

所謂「相關用語對應資訊」，係指表示相關用語與分類碼之對應關係者。例如，有關訴訟之商品名稱的「產品A」之分類碼具有產品A之功能的「影像編碼」之相關用語時，「相關用語對應資訊」亦可說是連繫分類碼「產品A」與相關用語「影像編碼」而進行管理之資訊。

所謂「分數」係指在某個文件中，定量評估與特定分類碼之連繫強度者。本發明之各實施形態例如使用以下公式(1)，並藉由文件中出現之單詞與各單詞具有的評估值來算出分數。

Scr：文件之分數

m _i：第i個關鍵字或相關用語之出現頻率

：第i個關鍵字或相關用語之加權值

此外，本發明之文件分類調查系統亦可抽出頻繁出現在用戶賦予之分類碼共通的文件中之單詞。而後，各文件解析各文件中包含之該抽出的單詞種類、各單詞具有之評估值及出現次數之傾向資訊，未藉由分類碼受理賦予部受理分類碼之文件中，對於具有與解析之傾向資訊相同傾向的文件，亦可賦予共通之分類碼。

此處，所謂「傾向資訊」，係指各文件具有之表示與賦予了分類碼之文件的類似程度者，並依據各文件包含之單詞種類、出現次數、單詞之評估值，以與指定分類碼之關連度來表示。例如，各文件與賦予了指定分類碼之文件，在與該指定分類碼之關連度中係類似時，係指該兩份文件具有相同傾向資訊。此外，包含之單詞種類亦可不同，就相同出現次數包含評估值相同單詞之文件，亦可作為具有相同傾向之文件。

此外，本發明之文件分類調查系統亦可進一步具備品質檢查部，其係對於用戶賦予了分類碼之文件，依據解析之傾向資訊決定應賦予的分類碼，比較該決定之分類碼與用戶賦予的分類碼，來檢驗妥當性。

第二圖顯示對於所抽出之文件，藉由時間序列地算出顯示文件與分類碼之連繫強度的分數，來調查判定調查目的與抽出之文件關連度的本發明之實施形態的文件分類調查方法之流程圖。參照第二圖，就本發明實施形態之文件分類調查方法記載如下。

從複數個記錄於電腦或伺服器之數位文件資訊抽出文件(步驟11)。

對於為了預測編碼而抽出的文件，時間序列性算出顯示文件與分類碼之連繫強度的分數(步驟12)。

從算出之分數，每個文件檢測分數之時間序列性的變化(步驟13)。

從檢測出之分數的時間序列性變化調查判定調查目的與抽出之文件的關連度(步驟14)。分數之時間序列性變化例如為超出指定之基準值而分數變化的時期等。

對於希望調查判定調查目的與抽出之文件的關連度之文件，判定抽出是否完成。而後，若完成時，結束抽出及調查判定，若尚未完成時，反覆進行抽出及調查判定(步驟11~步驟14)。

就本發明之實施形態的文件分類調查方法進一步記載如下。

第三圖於表中顯示本發明之實施形態的文件分類調查方法中成為調查對象的文件案件1與案件2的屬性。

案件1與案件2之文件皆由電子郵件(e-mail)等構成。

案件1與案件2之文件亦可作為用於將預測編碼(其中例如亦包含抽樣或檔案種類分類等)予以最佳化的案例來使用。

加權與分數依據關於「有關連(Responsive)」文件的資訊算出。

本發明之實施形態中，案件1的電子郵件文件主要以英語記載，案件2之電子郵件文件以日語與英語兩種語言記載。

案件1與案件2之電子郵件文件可作為部分集合來利用。

此外，本發明之實施形態中，案件2之電子郵件文件係使用從2000年4月1日至2013年3月31日者。

以案件2之文件為例，就分數之時間序列解析記載如下。

首先，參照第四圖，關於案件2就監督人1的電子郵件文件顯示分數與發信日期之關係的一例。

其次，依據分數求出分數之移動平均，就藉由分析該移動平均而獲得之特徵與傾向進行檢討。

此處，移動平均(MA：Moving Average)係

此處，SMA_M係{Scr_M,Scr_M-1,‧‧‧,Scr_M-(n-1)}之單純移動平均。此外，Scr_M係電子郵件文件M之分數。

單純移動平均SMA關於各個文件(電子郵件)M，係依據其分數Scr_M與將電子郵件M之發信日前的指定日數作為發信日的電子郵件之分數{Scr_M-1,‧‧‧,Scr_M-(n-1)}來計算。

指定日數可適當規定，本實施形態中，短期規定為7日，中期規定為30日，長期規定為90日。

藉由使用單純移動平均SMA可使原分數值的大幅搖擺平滑。

第五圖係顯示分數之移動平均與發信日期的關係圖。

分數之移動平均的指定日數如上述為短期(7日)、中期(30日)、長期(90日)，分別算出移動平均而顯示於第五圖。

另外，第五圖中，「熱(HOT)」之點僅顯示發信日期。

此處，就短期之移動平均，有大值變動之處，該處推測與「熱(HOT)」電子郵件的關係。

其次，就差分移動平均之算出記載如下。

移動平均之差分(DMA)以 △MA _M12=△MA _M1-△MA _M2

來表示。

此處，MA_M1：移動平均1(短期間：例如短期(7日))

MA_M2：移動平均2(長期間：例如，中期(30日))

差分移動平均△MA_M12之值為正時，表示在之前的期間(換言之，短期間)分數之值大，在該短期間中寄出比較多之「熱(HOT)」電子郵件等，推測為發生了應調查之變化。因此，藉由差分移動平均，關於電子郵件文件，可取得分數單純比較時無法獲得之特徵與傾向。此處所謂特徵與傾向之變化，例如檢測出差分移動平均曲線之交叉。

第六圖係顯示從2004年4月1日至2006年3月31日間分數移動平均的差分(DMA)與發信日期的關係圖。縱軸之移動平均的差分(DMA)藉由移動平均而標準化。

第七圖係顯示分數之移動平均差分(DMA)、發信日期、主要(上傳)端部(EDGE)、及「進入(IN)」的關係表。

就「熱(HOT)」電子郵件與移動平均差分(DMA)間之關係進行檢討。此外，亦就差分移動平均(DMA)曲線對主要(上傳)端部的接近程度進行檢討。

所謂主要(上傳)端部(EDGE)，係指移動平均之差分(DMA)從負變成正之處，亦即，係指移動平均之差分(DMA)曲線與水平軸的交叉點。

「進入(IN)」表示移動平均之差分(DMA)係正的區域。

對於監督人1之「熱(HOT)」電子郵件文件，例如就同一日期及同一分數值重複的電子郵件是否存在進行檢討。藉由刪除重複之電子郵件文件，「熱(HOT)」電子郵件文件數量從98個電子郵件減少為86個電子郵件。因為位址不同而無法特定發信者之電子郵件數量係4個電子郵件，從數量上而言，幾乎不存在。

對於監督人1之「熱(HOT)」電子郵件，雖然大部分的分數值不大，但是在此等發信的日期中檢測出「端部(EDGE)」或「進入(IN)」。

在2012年11月及其後發信之電子郵件文件既無「端部(EDGE)」亦無「進入(IN)」。因此，此等電子郵件推測為係關於監督人1與相同文件之特定人物間進行頻率高之通信者。

就時間序列資料記載如下。

移動平均(MA)與移動平均之差分(DMA)成為在時間序列資料中用於找出基本特徵與傾向的良好指標。

移動平均之差分(DMA)的「端部(EDGE)」可檢測分數之傾向的變化點，並且可成為顯示「熱(HOT)」電子郵件之存在的指標。

使用分數值之移動平均(MA)或移動平均之差分(DMA)的解析，有可能檢測時間序列資料中之特定的特徵(例如有可能性之「熱(HOT)」)。藉此，可就特定監督人或監督人之特定群組選擇性提供資訊(SDI：Selective Dissemination of Information)。

時間序列資料解析之執行步驟的一例記載如下。

本發明之實施形態的時間序列資料之解析，例如與文件分類相關，而在文件之分類處理中進行。文件分類處理之一例記載如下。文件之分類處理係按照如第八圖所示之流程圖，以第一階段~第五階段，藉由登錄處理、分類處理及檢查處理來進行。

第一階段係使用過去之分類處理結果，事前進行關鍵字與相關用語的更新登錄(步驟100)。此時，關鍵字及相關用語係與分類碼與關鍵字或相關用語之對應資訊的關鍵字對應資訊及相關用語對應資訊一起更新登錄。

第二階段係從全部文件資訊抽出包含在第一階段更新登錄之關鍵字的文件，發現該文件時，參照在第一階段記錄之更新關鍵字對應資訊，進行賦予對應於該關鍵字之分類碼的第一分類處理(步驟200)。

第三階段係從在第二階段未賦予分類碼之文件資訊抽出在第一階段更新登錄之包含相關用語的文件，算出包含該相關用語之文件的分數。參照該算出之分數與在第一階段更新登錄之相關用語對應資訊，進行執行分類碼之賦予的第二分類處理(步驟300)。

第四階段係對第三階段以前未賦予分類碼之文件資訊受理用戶賦予的分類碼，對該文件資訊賦予從用戶受理之分類碼。其次，解析賦予了從用戶受理之分類碼的文件資訊，依據解析結果，抽出未賦予分類碼之文件，進行對抽出之文件賦予分類碼的第三分類處理。例如，抽出在該用戶賦予之分類碼係共通的文件中頻繁出現之語詞，各文件解析各文件中包含之抽出的單詞種類、各單詞具有之評估值及出現次數的傾向資訊，對於具有與該傾向資訊相同傾向的文件，賦予共通之分類碼(步驟400)。

第五階段係對在第四階段用戶賦予了分類碼之文件，依據解析之傾向資訊決定應賦予之分類碼，比較該決定之分類碼與用戶賦予之分類碼，進行分類處理之妥當性檢驗(步驟500)。此外，依需要，亦可依據文件分析處理結果進行學習處理。

用於第四階段及第五階段之處理的傾向資訊，係指各文件具有之表示與賦予了分類碼之文件的類似程度者，且係指依據各文件包含之單詞種類、出現次數、單詞之評估值者。例如，各文件係在賦予指定分類碼之文件與該指定分類碼之關連度中類似時，係指該兩份文件具有相同傾向資訊。此外，即使包含之單詞種類不同，就以相同出現次數包含評估值相同之單詞的文件，亦可作為具有相同傾向之文件。

從第一階段至第五階段之各階段中的詳細處理流程說明如下。

<第一階段(步驟100)>

使用第九圖說明在第一階段關鍵字資料庫104之詳細處理流程。

關鍵字資料庫104按照過去訴訟中分類文件之結果，各個分類碼製作管理用之表，並特定對應於各分類碼之關鍵字(步驟111)。該特定在本發明之實施形態中，係解析賦予了各分類碼之文件，並使用該文件中之各關鍵字的出現次數及評估值來進行，不過亦可使用使用關鍵字具有之傳達資訊量的方法、或用戶手動選擇之方法等。

本發明之實施形態中，例如，作為分類碼「重要」之關鍵字，而特定「侵害」及「商標代理人」之關鍵字時，製作顯示「侵害」及「商標代理人」係與分類碼「重要」具有密切關係之關鍵字的關鍵字對應資訊(步驟112)。而後，將特定之關鍵字登錄於關鍵字資料庫104。此時，將特定之關鍵字與關鍵字對應資訊相關連而記錄於關鍵字資料庫104之分類碼「重要」的管理表中(步驟113)。

其次，使用第十圖說明相關用語資料庫105之詳細處理流程。相關用語資料庫105係按照過去訴訟中分類文件之結果，各個分類碼製作管理用之表，並登錄對應於各分類碼之相關用語(步驟121)。本發明之實施形態中，例如，作為「產品A」之相關用語，係登錄「編碼處理」及「產品a」，以及作為「產品B」之相關用語，係登錄「解碼」及「產品b」。

製作顯示所登錄之各個相關用語係對應於哪個分類碼的相關用語對應資訊(步驟122)，並記錄於各管理表中(步驟123)。此時相關用語對應資訊中亦一併記錄成為各相關用語具有之評估值及決定分類碼時需要的分數之臨限值。

實際進行分類作業之前，將關鍵字與關鍵字對應資訊、及相關用語及相關用語對應資訊更新登錄成最新者(步驟113、步驟123)。

<第二階段(步驟200)>

使用第十一圖說明在第二階段第一自動分類部201之詳細處理流程。本發明之實施形態中，第二階段係藉由第一自動分類部201進行將分類碼「重要」賦予文件之處理。

第一自動分類部201係從文件資訊抽出包含在第一階段(步驟100)登錄於關鍵字資料庫104之關鍵字「侵害」及「商標代理人」的文件(步驟211)。對該抽出之文件，從關鍵字對應資訊參照記錄有該關鍵字之管理表(步驟212)，並賦予「重要」之分類碼(步驟213)。

<第三階段(步驟300)>

使用第十二圖說明在第三階段第二自動分類部301之詳細處理流程。

本發明之實施形態中，第二自動分類部301係對在第二階段(步驟200)未賦予分類碼之文件資訊，進行賦予「產品A」及「產品B」之分類碼的處理。

第二自動分類部301從該文件資訊抽出包含在第一階段記錄於相關用語資料庫105之相關用語「編碼處理」、「產品a」、「解碼」及「產品b」的文件(步驟311)。對該抽出之文件，依據記錄之4個相關用語的出現頻率、評估值，使用公式(1)並藉由分數算出部116算出分數(步驟312)。該分數表示各文件與分類碼「產品A」及「產品B」之關連度。

該分數超過臨限值時，參照相關用語對應資訊(步驟313)，賦予適切之分類碼(步驟314)。

例如某個文件中，相關用語「編碼處理」及「產品a」之出現頻率以及相關用語「編碼處理」具有的評估值高，顯示與分類碼「產品A」之關連度的分數超過臨限值時，對該文件賦予分類碼「產品A」。

此時，該文件中相關用語「產品b」之出現頻率亦高，且顯示與分類碼「產品B」之關連度的分數超過臨限值時，該文件中與分類碼「產品A」一併也賦予「產品B」。另外，該文件中相關用語「產品b」之出現頻率低，且顯示與分類碼「產品B」之關連度的分數不超過臨限值時，對該文件僅賦予分類碼「產品A」。

第二自動分類部301係使用在第四階段之步驟432中算出的分數，藉由以下所示之公式(2)再計算相關用語之評估值，進行該評估值之加權(步驟315)。

wgt _i,0：學習前第i個選定關鍵字之加權值(初始值)

wgt _i,L：第L次學習後之第i個選定關鍵字之加權值

γ _L：第L次學習中之學習參數

：學習效果之臨限值

例如，「解碼」之出現頻率非常高，不過分數低達一定值以上之文件發生一定數以上時，則降低相關用語「解碼」之評估值，再度記錄於相關用語對應資訊。

<第四階段(步驟400)>

第四階段如第十三圖所示，對於在第三階段之前的處理中，從未賦予分類碼之文件資訊所抽出的一定比率之文件資訊，受理從檢視者賦予分類碼，而對該文件資訊賦予所受理之分類碼。其次，如第十四圖所示，解析賦予了從檢視者受理之分類碼的文件資訊，並依據其解析結果，對未賦予分類碼之文件資訊賦予分類碼。另外，本發明之實施形態中，第四階段對該文件資訊例如係進行賦予「重要」、「產品A」及「產品B」之分類碼的處理。就第四階段進一步記載如下。

使用第十三圖說明在第四階段分類碼受理賦予部131之詳細處理流程。首先，文件抽出部112從第四階段之處理對象的文件資訊隨機抽樣文件，而在文件顯示部130上顯示。本發明之實施形態，係從處理對象之文件資訊中隨機抽出兩成文件，作為檢視者之分類對象。抽樣係按照文件之製作日期時間順序或名稱順序排列文件，亦可採用從上起選擇三成文件之抽出方式。

用戶瀏覽在文件顯示部130上顯示之第十九圖所示的顯示用畫面11，選擇對各文件賦予之分類碼。分類碼受理賦予部131受理該用戶選擇之分類碼(步驟411)，並依據所賦予之分類碼來分類(步驟412)。

其次，使用第十四圖說明文件解析部118之詳細處理流程。文件解析部118係抽出分類碼受理賦予部131就各分類碼所分類之文件中共通且頻繁出現的單詞(步驟421)。藉由公式(2)解析所抽出之共通單詞的評估值(步驟422)，並解析該共通之單詞在文件中的出現頻率(步驟423)。

再者，按照步驟422及步驟423之解析結果，解析賦予了「重要」之分類碼的文件之傾向資訊(步驟424)。

第十五圖係藉由步驟424解析賦予了「重要」之分類碼的文件中共通且頻繁出現的單詞之結果圖形。

第十五圖中，縱軸R_hot顯示藉由用戶賦予了分類碼「重要」之全部文件中，包含作為與分類碼「重要」連繫之單詞而選定的單詞，且賦予了分類碼「重要」之文件比率。橫軸顯示用戶實施分類處理之全部文件中，包含藉由分類碼受理賦予部131在步驟421所抽出之單詞的文件比率。

本發明之實施形態中，分類碼受理賦予部131係抽出比直線R_hot=R_all標記在上部之單詞，作為分類碼「重要」中之共通單詞。

對於賦予了「產品A」及「產品B」之分類碼的文件，亦執行步驟421至步驟424的處理，來解析該文件之傾向資訊。

其次，使用第十六圖說明第三自動分類部401之詳細處理流程。第三自動分類部401係對第四階段之處理對象的文件資訊中，未在步驟411藉由分類碼受理賦予部131受理分類碼之賦予的文件進行處理。第三自動分類部401係從此種文件抽出在步驟424所解析之與賦予了分類碼「重要」、「產品A」及「產品B」之文件的傾向資訊相同傾向資訊之文件(步驟431)，並就抽出之文件，按照傾向資訊使用公式(1)算出分數(步驟432)。此外，對於步驟431所抽出之文件，依據傾向資訊賦予適切之分類碼(步驟433)。

第三自動分類部401進一步使用在步驟432算出之分數，將分類結果反映於各資料庫(步驟434)。具體而言，亦可進行降低分數低之文件中包含的關鍵字及相關用語之評估值，並提高分數高之文件中包含的關鍵字及相關用語之評估值的處理。

再者，使用第十七圖說明第三自動分類部401之詳細處理流程的1例。第三自動分類部401亦可對第四階段之處理對象的文件資訊中，未在步驟411藉由分類碼受理賦予部131受理分類碼之賦予的文件進行分類處理。第三自動分類部401在未賦予引數情況下(步驟441：無)，係從該文件抽出在步驟424所解析之與賦予了分類碼「重要」的文件之傾向資訊具有相同傾向資訊之文件(步驟442)，就抽出之文件，按照傾向資訊使用公式(1)算出分數(步驟443)。此外，對於步驟442所抽出之文件，依據傾向資訊賦予適切之分類碼(步驟444)。

第三自動分類部401進一步使用步驟443算出之分數，將分類結果反映於各資料庫(步驟445)。具體而言，係進行降低分數低之文件中包含的關鍵字及相關用語之評估值，另外，提高分數高之文件中包含的關鍵字及相關用語之評估值的處理。

如上述，以第二自動分類部301與第三自動分類部401兩者進行分數算出，分數算出次數多情況下，亦可將用於算出分數之資料統一儲存於分數算出資料庫106。

<第五階段(步驟500)>

使用第十八圖說明在第五階段之品質檢查部501的詳細處理流程。品質檢查部501係對分類碼受理賦予部131在步驟411所受理之文件，依據文件解析部118在步驟424所解析之傾向資訊，決定應賦予之分類碼(步驟511)。

比較分類碼受理賦予部131所受理之分類碼與步驟511所決定之分類碼(步驟512)，檢驗步驟411所受理之分類碼的妥當性(步驟513)。

本發明之實施形態的文件分類調查系統1亦可具備學習部601。學習部601係按照第一至第四之處理結果，藉由公式(2)學習各關鍵字或相關用語之加權。亦可將該學習結果反映於關鍵字資料庫104、相關用語資料庫105或分數算出資料庫106。

本發明之實施形態的文件分類調查系統1具備報告製作部701，其係用於按照文件分類處理之結果，配合訴訟案件(例如，訴訟時為聯合壟斷、專利、FCPA、PL等)、或違法調查(例如，資訊洩漏、詐財等)之調查種類進行最佳調查報告的輸出。

[本發明之實施形態的效果]

本發明之實施形態係從文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數，從算出之分數檢測分數之時間序列性的變化，從檢測之分數的時間序列性變化調查調查案件與抽出之文件的關連度。藉此，提供可檢測文件分類時隨著時間性的變動，文件品質產生之時間序列性的變化，並且可減輕分類作業之負擔的文件分類調查系統、文件分類調查方法、及文件分類調查程式。

S11~S15‧‧‧步驟

Claims

一種文件分類調查系統，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便利用於案件調查之方式，通過將顯示與調查案件之關連度的分類碼賦予文件，來調查調查案件與文件之關連度，其特徵為具備：分數算出部，其係從前述文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數；分數變化檢測部，其係從算出之分數檢測分數之時間序列性的變化；及分數變化判定部，其係從檢測出之分數的時間序列性變化調查判定調查案件與抽出之文件的關連度。
如申請專利範圍第1項之文件分類調查系統，其中前述分數變化檢測部具備：分數移動平均算出部，其係算出分數之移動平均；及分數差分移動平均算出部，其係從分數之短期間移動平均與長期間移動平均算出分數的差分移動平均。
如申請專利範圍第1項或第2項之文件分類調查系統，其中分數變化判定部係藉由不同移動平均之差分碼變化的點，或不同移動平均之差分係正的區域，調查判定調查案件與抽出之文件的關連度。
一種文件分類調查方法，其特徵為：係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便利用於案件調查之方式，通過將顯示與調查案件之關連度的分類碼賦予文件，來調查調查案件與文件之關連度，電腦之特徵為：係從前述文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數，從算出之分數檢測分數之時間序列性的變化，從檢測出之分數的時間序列性變化調查調查案件與抽出之文件的關連度。
如申請專利範圍第4項之文件分類調查方法，其中藉由算出分數之移動平均，而算出分數之短期間移動平均與長期間移動平均，藉由從前述分數之短期間移動平均與長期間移動平均算出分數的差分移動平均，來檢測分數之時間系列性的變化。
如申請專利範圍第4項或第5項之文件分類調查方法，其中藉由不同移動平均之差分碼變化的點，或不同移動平均之差分係正的區域，調查判定調查案件與抽出之文件的關連度。
一種文件分類調查程式，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便利用於案件調查之方式，通過將顯示與調查案件之關連度的分類碼賦予文件，來調查調查案件與文件之關連度，其特徵為使電腦實現以下功能：算出功能，其係從前述文件資訊抽出文件，對於抽出之文件，時間序列地算出顯示文件與分類碼之連繫強度的分數；檢測功能，其係從算出之分數檢測分數之時間序列性的變化；及調查功能，其係從檢測出之分數的時間序列性變化調查調查案件與抽出之文件的關連度。