TW201504836A

TW201504836A - 文件分類系統、文件分類方法及文件分類程式

Info

Publication number: TW201504836A
Application number: TW103123263A
Authority: TW
Inventors: Masahiro Morimoto; Yoshikatsu Shirai; Hideki Takeda; Kazumi Hasuko; Akihiro Hanatani
Original assignee: Ubic Inc
Priority date: 2013-07-31
Filing date: 2014-07-07
Publication date: 2015-02-01
Also published as: US20160275147A1; WO2015015826A1; KR101780807B1; JP5603468B1; EP3029582A4; EP3029582A1; JP2015032030A; KR20160033729A

Abstract

本發明之目的在於提供一種可減輕由審閱者之負擔的文件分類系統、文件分類方法及文件分類程式。為達到上述之目的，本發明提供一種文件分類系統，其係取得複數電腦或伺服器中所記錄的數位資訊，分析該取得之數位資訊所包含的文件資訊，並以容易將其應用在訴訟的方式進行分類的文件分類系統，其特徵為包含：抽出部，從該文件資訊抽出包含既定數量文件的資料組、即文件群；分類符號處理部，處理「使用者根據與該訴訟之關連性對於該所抽出的文件群賦予的分類符號」；選定部，根據該分類符號，將該所抽出的文件群依照分類符號分類，並在該經分類的文件群中，解析並選定共同出現的關鍵字；搜尋部，從該文件資訊搜尋該選定之關鍵字；點數算出部，使用該搜尋部的搜尋結果與該選定部的解析結果，算出表示分類符號與文件之關連性的點數；自動分類部，根據該點數的結果，自動將分類符號賦予該文件資訊；顯示控制部，以將該點數算出部的計算結果及/或該自動分類部的分類結果顯示於畫面的方式進行控制。

Description

文件分類系統、文件分類方法及文件分類程式

本發明係關於一種文件分類系統、文件分類方法及文件分類程式，特別是關於一種與訴訟相關之文件資訊中的文件分類系統、文件分類方法及文件分類程式。

過去有人提出一種方法以及技術，其在發生非法存取與機密資訊洩漏等與電腦相關的犯罪或法律上的紛爭時，作為查明原因及搜查所需的設備，以收集並分析資料、電子記錄，進而使該法律上的證據性明確。

特別，美國民事訴訟中，要求eDiscovery(電子證據揭示)等，該訴訟的原告及被告，皆必須負擔提出所有相關數位資訊以作為證據的責任。因此，不得不提出記錄於電腦或伺服器的數位資訊以作為證據。

另一方面，隨著資訊技術(IT；information technology)的急速發展以及普及，現今的商業世界中，幾乎所有資訊皆以電腦製作而成，即使在同一企業內，亦氾濫數量龐大的數位資訊。

因此，在進行向法院提出證據資料的準備作業的過程中，容易發生「將未必與該訴訟相關之機密數位資訊作為證據資料」這樣的錯誤。另外，「提出與該訴訟無關之機密文件資訊」的情形成為了問題。

近年來，專利文獻1至專利文獻3中，提出了關於鑑識系統中的文件資訊之技術。專利文獻1中揭示一種鑑識系統，係從使用者資訊所包含之至少1人以上的使用者中，指定特定使用者，並根據與指定之特定使用者相關的存取履歷資訊，僅抽出特定使用者所存取的數位文件資訊，並對於所抽出之數位文件資訊的文件檔，設定「是否與訴訟相關」的附加資訊，根據附加資訊，輸出與訴訟相關的文件檔。

另外，專利文獻2中揭示一種鑑識系統，其顯示所記錄的數位資訊，逐一對於複數文件檔設定使用者特定資訊，該特定資訊表示「是否與使用者資訊所含之使用者中的任一使用者相關」；並以將該經設定之使用者特定資訊記錄於記錄部的方式進行設定，指定至少一人以上的使用者，並檢索設有與所指定之使用者對應之使用者特定資訊的文件檔，再透過顯示部，對於所檢索的文件檔，設定表示「是否與訴訟相關」的附加資訊，根據附加資訊，輸出與訴訟相關的文件檔。

更進一步，專利文獻3中揭示一種鑑識系統，其接受數位文件資訊所含的至少一個以上的文件檔的指令，並接受將所指定之文件檔翻譯成任一語言的指定，而將接受指定的文件檔翻譯成指定語言，再從記錄於記錄部中的數位文件資訊，抽出顯示與所指定之文件檔相同內容的共通文件檔，並且產生表示「藉由引用所翻譯之文件檔的翻譯內容對抽出之共通文件檔進行翻譯」的翻譯相關資訊，並根據翻譯相關資訊，輸出與訴訟相關的文件檔。

【先行技術文獻】【專利文獻】

【專利文獻1】日本特開2011-209930號公報

【專利文獻2】日本特開2011-209931號公報

【專利文獻3】日本特開2012-32859號公報

然而，例如，專利文獻1至專利文獻3的鑑識系統中，使用複數電腦及伺服器的使用者，必須收集數量龐大的文件資訊。

將此種數位化的龐大文件資訊作為訴訟之證據資料是否妥當的分類作業，必須由稱為審閱者的使用者進行確認，以將該文件資訊逐一分類，而具有耗費巨大人力的問題。

鑒於上述情事，本發明之目的在於提供一種可減輕審閱者負擔的文件分類系統、文件分類方法及文件分類程式。

本發明之文件分類系統，係取得複數電腦或伺服器中所記錄的數位資訊，並分析該取得之數位資訊所包含之文件資訊，再以容易將其使用於訴訟的方式進行分類的文件分類系統，其中包含：抽出部，從文件資訊中抽出既定數量文件的資料組、即文件群；分類符號處理部，處理「使用者根據與訴訟之關連性對抽出之文件群賦予的分類符號」；選定部，根據分類符號，將所抽出之文件群依照分類符號分類，接著解析並選定該經分類的文件群中共同出現的關鍵字；搜尋部，從文件資訊中搜尋選定的關鍵字；點數算出部，使用搜尋部的搜尋結果與選定部的解析結果，算出表示分類符號與文件之關連性的點數；自動分類部，根據點數的結果，自動將分類符號賦予文件資訊；顯示控制部，以將該點數算出部之算出結果及/或該自動分類部的分類結果顯示於畫面的方式進行控制。

「文件」係指包含1個以上之關鍵字的資料。例如電子郵件、提案資料、表格計算資料、會議資料、契約書、組織圖、事業企劃書等。

「關鍵字」係指某語言中，具有固定意義之文字列的統稱。例如，若從「將文件分類」這樣的文章選定關鍵字，則亦可為「文件」、「分類」。

「分類符號」係指在將文件分類時所用的辨別符號。例如，在訴訟中將文件資訊使用為證據時，亦可對應證據的種類賦予辨別符號。

「點數」係用以對某文件與特定之分類符號的連結強度進行定量評價者。例如，點數算出部，亦可藉由文件群中出現的關鍵字及各關鍵字的持有比重算出點數。作為一例，該比重，亦可根據關鍵字所具有的各分類符號中的傳達資訊量來決定。

另外，本發明之文件分類系統中，抽出部，亦可在從文件資訊抽出文件群時，進行隨機取樣。

本發明之文件分類系統中，搜尋部，具有「從未被賦予分類符號之文件所構成的文件資訊中搜尋關鍵字」的功能；點數算出部，使用搜尋部的搜尋結果與選定部的解析結果，算出表示分類符號與文件之關連性的點數；自動分類部，亦可具備「從分類符號處理部中，抽出未被賦予分類符號的文件，並自動對該文件賦予分類符號」的功能。

另外，本發明之文件分類系統中，搜尋部具備從文件資訊搜尋相關用語的功能；點數算出部，具備根據從搜尋部搜尋相關用語之結果算出點數的功能；自動分類部，亦可更具備根據使用相關用語算出之點數自動賦予分類符號的功能。

顯示控制部，可顯示下述數值：將點數算出部所算出的點數分為複數範圍，並依照點數高的順序，將複數範圍中的各範圍所含有的文件數量累計的數值。

顯示控制部，可顯示所有的文件數量中，與訴訟有關之文件的比例。

顯示控制部，可將點數算出部所算出的點數分為複數範圍，並針對複數範圍中的各範圍，顯示與訴訟相關之文件數量的比例。

本發明之文件分類系統中，更具備檔案大小推定部，其推定包含需從文件資訊抽出之既定數量文件的資料組、即文件群確切的檔案大小；抽出部，亦可從該文件資訊中，抽出將以檔案大小推定部推定之大小的文件群。

另外，本發明之文件分類系統，亦可具備文件數量推定部，根據以分類符號處理部所處理的文件群之分類結果，推定文件資訊所包含之與訴訟相關的文件數量。

文件數量推定部，可根據「因分類而被判定為與訴訟相關之文件數量」相對於「抽出之文件群」的比例，推定文件資訊中，包含與訴訟相關之文件的數量。

另外，本發明的文件分類系統，亦可具備文件數量算出部，可在使用者再次確認由自動分類部分類之文件資訊的分類結果時，算出必要的文件數量。

文件數量算出部，根據「由自動分類部判定與訴訟相關之文件」與「以點數算出部算出之點數」的關係，算出進行再確認所需的文件數量。

文件數量算出部，亦可根據「在文件資訊中與訴訟相關的文件之中，被自動分類部判定為與訴訟相關之文件的比例、即再現率」與「以點數算出部所算出之點數的順序除以文件資訊所包含之文件數量的標準化順序」的關係，算出進行再確認所需的文件數量。

亦可藉由非線性回歸分析，算出再現率與標準化順序的關係。

在以非線性回歸分析算出的再現率與標準化順序的關係之中，在使標準化順序的值變大時，根據再現率值飽和的標準化順序的值，算出進行再確認所需的文件數量。

顯示控制部，亦可將由文件數量算出部所算出的、使用者進行再確認時所需的文件數量顯示於畫面上。

另外，本發明的文件分類系統，亦可具備文件排除部，在文件群所包含的文件之中，選定不包含關鍵字的文件(該關鍵字與選定部所選定之關鍵字、相關用語及分類符號相關)，而從自動分類部的分類對象中，排除被選定的文件。

本發明之文件分類系統，更可具備資料庫，其具有抽出與分類符號相關的相關用語並加以記錄的功能。另外，亦可具備記憶部，根據選定部的分析結果與點數算出部所算出之點數，增加或減少選定部所選定之記錄於資料庫中與分類符號相關的關鍵字及相關用語。

本發明之文件分類方法，係取得複數電腦或伺服器中所記錄的數位資訊，分析該取得之數位資訊所包含的文件資訊，並以容易將其應用在訴訟的方式進行分類的文件分類方法，其可實現下述功能：從文件資訊中，抽出包含既定數量文件之資料組、即文件群；處理使用者根據與訴訟之關連性對抽出之文件群賦予的分類符號；根據分類符號，將抽出之文件群依照分類符號進行分類；在該被分類的文件群中，解析並選定共同出現的關鍵字；從文件資訊中搜尋被選定的關鍵字；使用搜尋部的搜尋結果與選定部的解析結果，算出表示分類符號與文件之關連性的點數；根據點數的結果，自動將分類符號賦予文件資訊，並以將該點數的算出結果及/或該自動分類的分類結果顯示於畫面的方式進行控制。

本發明之文件分類程式，係在取得複數電腦或伺服器中所記錄的數位資訊，分析該取得之數位資訊所包含之文件資訊，以容易將其應用在訴訟的方式進行分類的文件分類系統中，使電腦實現以下功能：抽出功能，從文件資訊抽出包含既定數量文件的資料組、即文件群；處理功能，「處理使用者根據與訴訟之關連性對抽出的文件群賦予的分類符號」；解析選定功能，根據分類符號，將抽出之文件群依照分類符號分類，並在該經分類的文件群中，解析並選定共同出現的關鍵字；搜尋功能，從文件資訊中搜尋選定之關鍵字；演算功能，使用搜尋部的搜尋結果與選定部的解析結果，算出表示分類符號與文件之關連性的點數；賦予功能，根據點數的結果，自動將分類符號賦予文件資訊；控制功能，以將該點數的算出結果及/或該自動分類的分類結果顯示於畫面的方式進行控制。

本發明之文件分類系統、文件分類方法及文件分類程式，係以將點數的計算結果及/或自動分類的分類結果顯示於畫面的方式進行控制。因此，可減輕審閱者的負擔。

100‧‧‧文件分類裝置

101‧‧‧檔案大小推定部

102‧‧‧抽出部

103‧‧‧顯示控制部

104‧‧‧分類符號處理部

105‧‧‧文件數量推定部

106‧‧‧選定部

107‧‧‧搜尋部

108‧‧‧點數算出部

109‧‧‧自動分類部

110‧‧‧最終點數算出部

111‧‧‧文件排除部

112‧‧‧記憶部

200‧‧‧資料庫

300‧‧‧用戶端裝置

I1‧‧‧文件顯示畫面

圖1係本發明之第1實施態樣的文件分類系統的構成圖；圖2係顯示取樣檔案大小與錯誤等級之關係的圖；圖3係顯示在本發明之實施態樣的選定部中的解析結果的圖表；圖4係顯示擬合(Fitting)結果的圖表；圖5係顯示本發明之實施態樣中，每一階段的處理流程的圖表；圖6係顯示本發明之實施態樣中，資料庫之處理流程的圖表；圖7係顯示本發明之實施態樣中，搜尋部之處理流程的圖表；圖8係顯示本發明之實施態樣中，點數算出部之處理流程的圖表；圖9係顯示本發明之實施態樣中，自動分類部之處理流程的圖表；圖10係顯示本發明之實施態樣中，取樣檔案大小推定部之處理流程的圖表；圖11係顯示本發明之實施態樣中，抽出部之處理流程的圖表；圖12係顯示本發明之實施態樣中，顯示控制部之處理流程的圖表；圖13係顯示本發明之實施態樣中，分類符號處理部之處理流程的圖表；圖14係顯示本發明之實施態樣中，文件數量推定部之處理流程的圖表；圖15係顯示本發明之實施態樣中，選定部之處理流程的圖表；圖16係顯示本發明之實施態樣中，最終點數算出部之處理流程的圖表；圖17係顯示本發明之實施態樣中，文件排除部之處理流程的圖表；圖18係顯示本發明之實施態樣中，記憶部之處理流程的圖表；圖19係本發明之實施態樣中文件的顯示畫面；圖20係本發明之實施態樣中的文件顯示畫面；圖21係本發明之實施態樣中的文件顯示畫面；圖22係本發明之實施態樣中的文件顯示畫面；圖23係本發明之實施態樣中的文件顯示畫面。

〔第1實施態樣〕

以下，藉由附圖說明本發明之實施態樣。圖1係顯示第1實施態樣之文件分類系統的構成圖。

第1實施態樣，係在與專利侵權訴訟中之提出文件的指令對應時，將與嫌疑製品之製品A相關的文件進行分類處理之情況的實施例。

本發明之文件分類系統，包含：檔案大小推定部101，推定包含應從文件資訊抽出之既定數量文件的資料組、即文件群的確切檔案大小；抽出部102，從文件資訊抽出包含既定數量之文件的資料組、即文件群；顯示控制部103，將抽出之文件群顯示於畫面上；分類符號處理部104，處理「稱為審閱者的使用者根據與訴訟之關連性而對顯示之文件群賦予的分類符號」；文件數量推定部105，根據分類符號處理部104所處理之文件群的分類結果，推定文件資訊所包含之與訴訟相關的文件數量；選定部106，根據分類符號，將所抽出的文件群依照分類符號分類，在該被分類的文件群中，解析並選定共同出現的關鍵字；資料庫200，記錄選定之關鍵字；搜尋部107，從文件資訊搜尋資料庫200中所記錄的關鍵字；點數算出部108，根據搜尋部107的搜尋結果與選定部106的解析結果，算出表示分類符號與文件之關連性的點數；自動分類部109，根據點數的結果，自動賦予分類符號；最終點數算出部110，在審閱者再次確認以自動分類部109所分類之文件資訊的分類結果(以下稱為「確認審閱」)時，算出必要的文件數量(最終點數)。

第1實施態樣中，該文件分類系統係由具備檔案大小推定部101、抽出部102、顯示控制部103、分類符號處理部104、文件數量推定部105、選定部106、搜尋部107、點數算出部108、自動分類部109、最終點數算出部110、文件排除部111及記憶部112的文件分類裝置100、資料庫200及審閱者所使用的用戶端裝置300所構成。1個文件分類系統內亦可具備複數用戶端裝置300。

文件分類裝置100及用戶端裝置300，係電腦或伺服器根據各種輸入指令，使中央處理器執行唯獨記憶體(ROM)中所記錄的程式，藉此使各種功能部件運作。

分類符號，係指將文件分類時所使用的辨別符號。訴訟中，在將文件資訊作為證據使用時，亦可對應證據的種類賦予分類符號。第1 實施態樣中，具備以下3個符號以作為分類符號：「無關」，表示在此次訴訟中不具有證據能力的文件；「相關」，表示必須提出以作為證據；及「重要」，係表示與製品A高度相關的文件，而本實施態樣，係將其中被賦予「重要」符號之文件分類者。

此處所指的文件，係指在訴訟中作為證據提出之數位資訊中，包含1個詞彙以上的資料。例如，電子郵件、提案資料、表格計算資料、會議資料、契約書、組織圖、事業企劃書等。另外，亦可將掃描資料作為文件處理。此情況中，為了可將掃描資料轉換為文字資料，亦可在文件分類系統中，具備光學文字辨識(OCR；Optical Character Recognition)裝置。藉由光學文字辨識裝置轉換為文字資料，可從掃描資料中搜尋並解析關鍵字及相關用語。

例如，第1實施態樣中，對於記錄有與製品A相關之會議內容的會議記錄及電子郵件等，賦予「相關」的符號；對於製品A的開發計畫書及設計書等賦予「重要」的符號，而對於與製品A無關的例會等的資料賦予「無關」的符號。

另外，關鍵字，係指在某種語言中，具有既定意義的文字列的統稱。例如，若從「將文件分類」這樣的文章中選定關鍵字，則亦可為「文件」、「分類」。第1實施態樣中，重點地選定「侵害」、「訴訟」及「專利公報○○號」這樣的關鍵字。

資料庫200，係將資料記錄於電子媒體的記錄裝置，可設置於文件分類裝置100的內部，亦可作為例如儲存裝置而設置於外部。

文件分類裝置100、資料庫200及用戶端裝置300，可透過有線或是無線的網路連接。亦可使用雲端計算的形態。

資料庫200，記錄與各分類符號相關之關鍵字。另外，若從過去的分類處理結果判斷其包含於與製品A高度相關的文件中而直接賦予「重要」符號，則可事先登錄能判斷的關鍵字。例如，製品A的主要功能名稱、「訴訟」、「警告」、「專利公報」之類的關鍵字。另外，相同地，根據過去的分類處理結果，抽出與「因為與製品A高度相關而被賦予「重要」符號的文件群」高度相關的一般用語，並可預先將其登錄為相關用語。登錄資料庫200之號的關鍵字及相關用語，除了可根據記憶部112的記憶結果進行增減之外，亦可以手動的方式進行追加登錄及刪除。

檔案大小推定部101，推定包含應從文件資訊抽出之既定數量文件的資料組、即文件群(以下亦記載為樣本)確切的檔案大小。以後述抽出部102所抽出的樣本，皆必須由審閱者進行審閱。然而，若抽出文件相對於所有文件資訊的比例(以下亦記載為樣本檔案大小)大，則審閱結果的可靠度提升，但增加審閱者的負擔。另一方面，若抽出文件的比例小，審閱者的負擔雖輕減，但審閱結果的可靠度降低。因此，必須以一方面保持審閱結果的可靠度，一方面減輕審閱者負擔的方式抽出樣本。

為了解決上述課題，檔案大小推定部101，可以一方面保持審閱結果之可靠度，一方面減輕審閱者負擔的方式，推定從所有文件資訊中抽出之文件的比例，亦即樣本檔案大小。以下，說明以檔案大小推定部101推定樣本檔案大小的方法。

將所有文件資訊所包含的文件數量作為N。另外，該所有文件資訊所包含之與訴訟相關的文件作為N_HOT。此處，N_HOT為未知，必須經過推定。相對於推定量P(=N_HOT/N)，將可容許的錯誤等級(統計誤差)△P假設為例如0.01(1%)。接著，將推定值P的可信度(C.L.：confidence level)假設為例如95%。

如上所述，以下式(1)表示假設的錯誤等級△P。

若以樣本檔案大小n_s將上述(1)進行整理，則成為以下的式(2)。

又，上述式(1)、式(2)中，γ為相對於可信度(C.L.)的信賴係數，γ=1.96的情況下，可信度(C.L.)為95%，γ=2.58的情況下可信度(C.L.)為99%。

此處，在N相對於n_s為極大值(N>>n_s)的情況中，以下的式(3)成立。

因此，n_s的值可以下式(4)表示。

上述式(4)中，推定值P為未知(因為N_HOT為未知)。然而，若最差的情況，係將推定值P(所有文件資訊之中一半與訴訟相關的文件)假設為0.5(此情況中，P(1-P)成為最大值)，上述式(4)成為以下式(5)。又，亦可使用後述的用戶端裝置300，由使用者進行設定推定值P。

接著，算出「錯誤等級△P為0.01(1%)的情況中的樣本檔案大小n_s值」的例子顯示於表1。表1中顯示可信度(C.L)為95%的情況與99%的情況。又，如表1所示，n>>n_s的條件中，樣本檔案大小n_s，成為與所有文件資訊之文件數量n無關的獨立值。

接著，樣本檔案大小ns與錯誤等級△P的關係顯示於圖2。圖2中，縱軸為樣本檔案大小(ns)，横軸為錯誤等級△P。又，圖2中顯示可信度(C.L.)為95%的情況與99%的情況。從圖2可得知，錯誤等級△P的值越小，則抽出文件相對於所有文件資訊的比例(樣本檔案大小ns)越大。

如以上所述，檔案大小推定部101，使用上述式(5)，推定抽出文件相對於所有文件資訊的比例(樣本檔案大小)。

抽出部102，在從文件資訊抽出文件群時，可進行隨機取樣。第1實施態樣中，在所有文件資訊中，隨機抽出以上述檔案大小推定部101所推定之比例的文件，以作為供審閱者進行分類的對象。抽出部102從所有文件資訊中抽出的文件的比例，亦可以人工(手動)進行變更。又，在以人工設定從所有文件資訊抽出之文件的比例的情況中，宜參照以檔案大小推定部101所推定之樣本檔案大小。

顯示控制部103，對於用戶端裝置300，提示如圖19所示的文件顯示畫面I1。文件顯示畫面I1，如圖19所示，係中央顯示成為分類對象的文件，左側顯示分類符號的畫面構造，其係可在一個畫面內顯示成為分類對象之文件與所賦予之分類符號的構造。亦可為「顯示文件之處」與「顯示分類符號之處」分別為不同畫面的畫面結構。

第1實施態樣中，文件顯示畫面I1中的分類符號1係指「無關」的符號、分類符號2係指「相關」的符號，而分類符號3係指「重要」的符號。另外，在被賦予「相關」符號的文件之中，對於與製品A之價格相關的文件賦予次分類1，對於與製品A之開發排程相關的文件賦予次分類2。次分類中可複數地具備一個分類符號，亦可為不具備分類符號的情況。

分類符號處理部104，顯示控制部103所表示的文件資訊之中，審閱者以目視確認，對於逐一決定分類符號的文件，根據該決定賦予分類符號，而可將該文件分類。亦可根據被賦予的分類符號來進行文件的分類。

文件數量推定部105，根據以分類符號處理部104處理之文件群的分類結果，推定文件資訊所包含的與訴訟相關的文件數量。以下，說明藉由文件數量推定部105推定文件數量的方法。

若將以抽出部102抽出的文件之中，由審閱者賦予與訴訟相關之分類符號的文件數量作為n_TAG，則所有文件資訊的文件數量N之中，被推定與訴訟相關的文件、即分類對象的數量N_HOT ^EST，係以下式(6)進行近似。

更正確而言，N_HOT ^EST的值，成為下式(7)。

此處，P_TAG=N_TAG/n_s。

亦即，所有文件資訊的文件數量N之中，被推定與訴訟相關的文件數量N_HOT ^EST，在統計學上，被收斂於既定可信度(C.L.)的範圍內。以下舉例。此例中，所有文件資訊的文件數量N為35,929。另外，以抽出部102所抽出的文件數量n_s為3000(△P≦1.7%)。

以抽出部102隨機抽出文件，並正確地賦予分類符號，所推定的N_TAG的值為：

若n_s為8，所有文件資訊的文件數量N之中，被推定與訴訟相關的文件數量N_HOT ^EST，為以下的式(8)。

N _HOT ^est=96±64(32~159)‧‧‧(8)

又，上述式(8)中的文件數量N_HOT ^EST可信度(C.L.)為95%。

在可信度(C.L.)為95%、99%的情況下，n_TAG的值相異的情況中的文件數量N_HOT ^EST的值，顯示於以下的表2。

【表2】

如以上所述，文件數量推定部105，使用上述式(8)，推定所有文件資訊的文件數量N之中被認定與訴訟相關的文件數量N_HOT ^EST。

選定部106，解析分類符號處理部104所分類的文件資訊，並在被賦予「無關」、「相關」及「重要」各種分類符號的文件資訊中，將共同頻繁出現的關鍵字選定為該分類符號中的關鍵字。

圖3係顯示對於由選定部106賦予「重要」符號之文件進行解析之結果的圖。

圖3中，縱軸R_hot係表示，在被審閱者賦予「重要」符號的所有文件之中，包含被選定為與「重要」符號連結之關鍵字的關鍵字，且被賦予「重要」符號之文件的比例。横軸係表示，審閱者進行分類處理的所有文件之中，包含以選定部106選定之關鍵字的文件的比例。

第1實施態樣中，選定部106，可將繪製於比直線R_hot=R_all更上方的關鍵字選定為該分類符號中的關鍵字。

搜尋部107，具備從成為對象之文件中，搜尋特定關鍵字的功能。搜尋部107，在搜尋包含選定部106選定之關鍵字或是資料庫200抽出之相關用語的文件時，係將未由分類符號處理部104賦予分類符號的文件所構成的文件群作為對象以進行搜尋。

點數算出部108，可根據文件群中所出現的關鍵字以及各關鍵字的持有比重，從下式算出點數。點數，係指在某文件中，對於與特定分類符號的連結強度進行定量評價者。

M_I：第I號之關鍵字或是相關用語的出現頻率

第I號之關鍵字或是相關用語的比重

自動分類部109，亦可具備下述功能：抽出「在根據算出的點數自動賦予文件資訊分類符號時，未由分類符號處理部104賦予分類符號」的文件，並自動對該文件賦予分類符號。

為了確保自動分類部109之分類結果的可靠度，亦具有由審閱者進行確認審閱的情況。然而，對於被分類的所有文件進行確認審閱，使得審閱者的負擔增大，且無效率。另一方面，若進行確認審閱的文件數量少，雖可減輕審閱者的負擔，但卻導致審閱結果的可靠度降低。因此，必須以一方面確保審閱結果之可靠度，一方面減輕審閱者負擔的方式，決定應進行確認審閱的文件數量。

最終點數算出部110，算出審閱者對以自動分類部109所分類之文件資訊的分類結果進行確認審閱時，必要的文件數量(以下亦記載為最終點數)。以下，說明最終點數算出部110之文件數量的算出方法。

以最終點數算出部110所算出的文件數量，雖可使用「再現率(recall)」、「標準化順序(normalized rank)」，但亦可使用適合率或F值等來代替再現率。「再現率(recall)」，係表示在文件資訊所包含的與訴訟相關的所有文件之中，有多少文件被自動分類部109分類的綜合性指標。例如，文件資訊所包含的與訴訟相關的所有文件數量為100，而被自動分類部109分類為與訴訟相關的文件數量為80，則再現率為80%。「適合率」，係表示進行確認審閱的文件數量之中，有多少文件被自動分類部109分類的正確性指標。F值則是適合率與再現率的調和平均數(Harmonic Mean)。

另外，「標準化順序(normalized rank)」係根據以點數算出部108所算出的點數而將各文件的排序(順序)標準化者。例如，在文件數量為100的情況中，根據點數所進行的排序(順序)為20的文件，其標準化順序為0.2。另外，文件數量為1000的情況中，根據點數所進行之排序(順序)為200的文件，其標準化順序同為0.2。

此處，使用非線性回歸模型的情況，可以如以下式(9)表示再現率Y。

上述(9)式中，X為標準化順序，α、β為擬合(Fitting)參數。

擬合參數α，幾乎與飽和的再現率值一致。亦即，飽和的再現率，亦可用於最終點數的決定。又，式(9)為一例，亦可根據其他的回歸模型，決定最終點數。式(9)的擬合結果顯示於圖4。

如圖4所示，隨著標準化順序(normalized rank)值越大，再現率(recall)的值亦變大。然而，若標準化順序的值超過0.1(10%)，則即使標準化順序的值再大，再現率的值亦為幾乎不從0.864(84.6%)改變的飽和狀態。

亦即，圖4所示的例中，即使對排序為0.1以上的文件進行確認審閱，再現率亦幾乎不會改變。因此，圖4所示的例中，藉由將排序為前10%的文件作為進行再確認所必要的文件數量(End Point)，可確保分類結果的可靠度，並減輕審閱者的負擔。

文件排除部111，在成為分類對象的文書情報之中，搜尋皆未包含資料庫200預先登錄的關鍵字及相關用語以及選定部106所選定之關鍵字的文件，而可預先從分類對象中將該文件排除。

記憶部112，根據分類處理的結果，記憶各關鍵字的比重，並根據該記憶結果，增加或減少資料庫200中所登錄的關鍵字及相關用語。各關鍵字的比重，亦可根據該關鍵字具有的各分類符號中的傳達資訊量來決定。該比重，亦可藉由下式，隨著每次分類處理進行記憶，而使精度提升。

Wgt_i,0：記憶之前，第I號的選定關鍵字的比重(初期值)

Wgt_i,L：第L次記憶後，第I號之選定關鍵字的比重

γ_L：第L次記憶中的記憶參數

：記憶效果的臨界值

另外，記憶部中，亦可使用神經網路(Neural network)，將分類結果反映於比重的記憶方法。

用戶端裝置300，係在由審閱者操作以確認文件資訊，進而決定賦予之分類符號的情況中所使用的裝置。

第1實施態樣中，依照圖5所示之流程圖，進行五階段的分類處理。

第1階段中，使用過去的分類處理結果，預先登錄關鍵字與相關用語。此時登錄的關鍵字，係在文件中包含與製品A之侵權行為相關的功能名稱及技術名稱等，而直接賦予「重要」符號的關鍵字。

第2階段中，從所有文件資訊中搜尋包含第1階段中所登錄之關鍵字的文件，若發現該文件，則賦予「重要」符號。

第3階段中，從所有文件資訊搜尋第1階段中所登錄的相關用語，並算出包該相關用語之文件的點數，以進行分類。

第4階段中，係在審閱者決定分類符號之後，依循審閱者分類的規則性，自動賦予分類符號。

第5階段中，使用第1階段至第4階段的結果進行記憶。

<第1階段>

使用圖6詳細說明第1階段中的資料庫200的處理流程。於資料庫200判斷進行第幾階段的處理，而選擇第1階段的處理(STEP1：第1階段)。本階段中，首先於資料庫200預先登錄關鍵字(STEP2)。此時登錄的，係可從過去分類處理的結果判斷與製品A高度相關，只要包含於文件中則直接賦予「重要」符號的關鍵字。另外，同樣地從過去的分類處理結果，抽出與「因與製品A高度相關而被賦予「重要」符號的文件群」高度相關的一般用語(STEP3)，作為相關用語以進行登錄(STEP4)。

<第2階段>

使用圖6、圖7及圖9詳細說明第2階段中的資料庫200、搜尋部107 及自動分類部109的處理流程。

資料庫200判斷進行第幾階段的處理，而選擇第2階段的處理(STEP1：第2階段)。資料庫200中，更進一步，在具有必須預先登錄之關鍵字的情況(STEP5：YES)中，進行追加登錄(STEP6)。在沒有追加登錄之關鍵字的情況(STEP5：NO)及STEP6的處理結束之後，搜尋部107判斷進行第幾階段的處理，而選擇第2階段的處理(STEP11：第2階段)。本階段中，搜尋部107，首先判斷資料庫200內是否具有在第1階段及第2階段預先登錄的關鍵字(STEP12)。在預先登錄之關鍵字不存在的情況下(STEP12：NO)，結束第2階段的處理。

在預先登錄之關鍵字存在的情況下(STEP12：YES)，對於成為分類對象的所有文件資訊進行搜尋，以確認成為分類對象的文件資訊之中，是否不具有包含該關鍵字的文件(STEP13)。在包含搜尋之關鍵字的文件不存在的情況下(STEP14：NO)，結束第2階段的處理。另一方面，發現包含搜尋之關鍵字的文件的情況下(STEP14：YES)，通知自動分類部109(STEP15)。

自動分類部109中，在從搜尋部107接收該通知的情況(STEP29：第2階段，STEP30：YES)，對於成為該通知對象的文件賦予「重要」符號，而結束處理(STEP31)。在未從搜尋部107接收該通知的情況下(STEP29：第2階段，STEP30：NO)，不進行任何處理。

<第3階段>

使用圖6、圖7、圖8及圖9，詳細說明第3階段中的資料庫200、搜尋部107、點數算出部108及自動分類部109的處理流程。

於資料庫200判斷進行第幾階段的處理，而選擇第3階段的處理(STEP1：第3階段)。資料庫200中，更進一步，在具有必須預先登錄之相關用語的情況(STEP7：YES)下，進行追加登錄(STEP8)。不需要追加登錄相關用語的情況下(STEP7：NO)，結束第3階段的處理。

STEP8的處理結束後，搜尋部107判斷進行第幾階段的處理，而選擇第3階段的處理(STEP11：第3階段)。本階段中，搜尋部107，判斷資料庫200內是否具有第1階段及第2階段中登錄的相關用語(STEP16)。在預先登錄之關鍵字不存在的情況下(STEP16：NO)，結束第3階段的處理。

相關用語存在的情況下(STEP16：YES)，搜尋成為分類對象的所有文件，以確認成為資訊分類對象之文件資訊中是否具有包含該相關用語的文件(STEP17)。在包含搜尋之相關用語的文件不存在的情況下(STEP18：NO)，結束第3階段的處理。另一方面，在發現包含搜尋之相關用語的文件的情況下(STEP18：YES)，通知點數算出部108(STEP19)。

點數算出部108，在從搜尋部107接受該通知的情況下(STEP24：第3階段，STEP25：YES)，使用上述式(11)，根據從文件中發現之相關用語的種類以及該相關用語的持有比重，算出各文件的點數，進而通知自動分類部109(STEP26)。在未從搜尋部107接收發現相關用語之通知的情況(STEP24：第3階段，STEP25：NO)，結束第3階段的處理。

自動分類部109，在從點數算出部108接受點數通知的情況，(STEP29：第3階段，STEP32：YES)，逐一判斷文件的點數是否超過臨界值，並對於點數超過臨界值的文件賦予「重要」符號，在不具有點數超過臨界值之文件的情況中，不賦予符號而結束處理(STEP33)。

<第4階段>

分別使用圖6~圖16詳細說明第4階段中的資料庫200、搜尋部107、點數算出部108、自動分類部109、檔案大小推定部101、抽出部102、顯示控制部103、分類符號處理部104、選定部106、最終點數算出部110的處理流程。

第4階段中，首先，為了一方面確保審閱結果的可靠度，一方面減輕審閱者的負擔，檔案大小推定部101推定從所有文件資訊抽出之文件的比例，亦即推定樣本檔案大小(STEP34)。接著，抽出部102中，從成為分類對象的文件資訊，僅以檔案大小推定部101推定之樣本檔案大小的量，隨機對文件進行取樣，並抽出審閱者以手動賦予分類符號的成為對象的文件群(STEP35)。顯示控制部103中，將所抽出的文件群顯示於文件顯示畫面I1上(STEP36)。

審閱者，對於顯示於文件顯示畫面I1的文件群，閱讀各文件的內容，並判斷製品A與該文件內容之間是否相關，而決定是否賦予「重要」符號。審閱者賦予「重要」符號的文件，係例如，調查製品A的先前技術之結果的報告，及製品A之製造侵害專利而收到來自他人之警告的警告函等。

由審閱者賦予的分類符號，係由分類符號處理部104處理(STEP37)，而對應被賦予之分類符號，將文件分類(STEP38)。文件數量推定部105，根據分類符號處理部104所處理之文件群的分類結果，推定文件資訊所包含的與訴訟相關的文件數量(STEP39)。又，推定的文件數量亦可顯示於用戶端裝置300。

選定部106，對於STEP38中所分類的各文件，進行關鍵字解析(STEP40)，而在賦予「重要」符號的文件中，選定多次共同出現的關鍵字(STEP41)。

接著，資料庫200，在STEP41中選定部106選定的關鍵字，未作為有關表示與製品A相關之「重要」符號的關鍵字登錄的情況下(STEP1：第4階段，STEP9：YES)，登錄該關鍵字。在該關鍵字已經登錄的情況下，不進行任何處理(STEP1：第4階段，STEP9：NO)。

搜尋部107，在與「重要」符號相關的關鍵字未登錄於資料庫200的情況下(STEP20：NO)，結束第4階段的處理。該關鍵字已登錄的情況(STEP20：YES)中，將由抽出部102抽出並由審閱者分類的文件從搜尋對象中排除，再將剩下的各文件作為對象，進行該關鍵字的搜尋(STEP21)。該搜尋中，在文件中發現關鍵字的情況下(STEP22：YES)，通知點數算出部108(STEP23)。

點數算出部108，在接收發現關鍵字之通知的情況(STEP27：YES)，使用上述式(11)，對各文件算出點數，並通知自動分類部109(STEP28)。

自動分類部109，若接受來自點數算出部108的通知(STEP32：YES)，則逐一判定文件的點數是否超過臨界值，對於超過臨界值的文件，賦予「重要」符號，未超過的文件則不進行賦予而結束處理(STEP33)。另外，最終點數算出部110，算出在審閱者對以自動分類部109將文件資訊分類的分類結果進行確認審閱時所必需的文件數量(最終點數)(STEP42)。

<第5階段>

分別使用圖17及圖18說明第5階段中的文件排除部111及記憶部112中的處理處理流程。

文件排除部111，對於在成為分類對象的文件資訊之中，未進行第1至第4階段之處理的文件群進行搜尋，以確認是否具有「包含第1、第2階段中預先登錄之關鍵字、第1、第3階段中登錄之相關用語及第4階段中登錄之關鍵字」的文件，在具有皆未發現之文件的情況(STEP43：YES)中，將該文件預先從分類對象中排除(STEP44)。

記憶部112，根據第1至第4處理的結果，以式(12)記憶各關鍵字的比重。將該記憶結果反映在資料庫200(STEP45)。

[實施態樣的變化實施例]

說明本發明之實施態樣的變化實施例。

第1實施態樣中，顯示控制部103，對於用戶端裝置300，提醒如圖19所示之文件顯示畫面I1，但亦可如圖20~22所示，將「Document Sum」、「Relevant Recall」、「Relevant」顯示於用戶端裝置300。

圖20~圖22中，縱軸為%，横軸為點數。另外，關於「Document Sum」、「Relevant Recall」、「Relevant」，分別以虛線表示審閱者所進行的樣本分類結果、以實現表示自動分類部109所進行的分類結果。更進一步，圖20~圖22的各圖的右下方，亦可顯示「Indication of review progress and quantity」(審閱的進度狀況與量(文件數量))(參照右下的帶狀圖)。

圖20所示之「Document Sum」的縱軸的值(%)，分母為所有文件數量，分子係以系統參數之設定值的間隔將1~10000的點數值畫分，並依照點數高的順序，將相當於該畫分之點數範圍的該分母之文件數量累計的數量。

圖21所示之「Relevant Recall」之縱軸的值(%)，分母係所有文件數量之中，附有Relevant之標籤的文件數量，分子係分母的文件之中，附有Relevant(被認為與訴訟相關而必須提出的文件)之標籤的文件數量。

圖22所示之「Relevant」的縱軸值(%)，分母係以系統參數的設定值間隔畫分1~10000的點數值，而在該畫分之點數範圍中的該文件數量，分子係分母之文件中，賦予Relevant(相關)標籤的文件數量。

又，亦可將「Indication of review progress and quantity」的帶狀圖，以與「Document Sum」、「Relevant Recall」、「Relevant」不同的畫面表示。另外，圖20~22中，雖分別表示「Document Sum」、「Relevant Recall」、「Relevant」，但亦可如圖23所示，皆表示於一圖中。又，圖23的虛線及實線，與圖20~圖22的虛線及實線具有相同意義。

更進一步，亦可為下述構成：使用者可選擇「Document Sum」、「Relevant Recall」、「Relevant」之任一項，或是選擇複數項目，以顯示於用戶端裝置300的畫面上。因為可同時以目視的方式確認「Document Sum」、「Relevant Recall」、「Relevant」，故提升便利性。

又，上述圖20~圖22的虛線(樣本的分類結果)與實線(自動分類部109的分類結果)的準確率(雙方的分類結果一致(類似或近似)的程度)，可由「Chi-squared test」、「Similarity」、「RMSE」等進行評價。

「Chi-squared test」(卡方檢定)

係基本的統計評價方法，可至少對於樣本數進行相似性的判斷。

「Similarity」(相似度)

「Similarity」係兩個函數的內積，以下式(13)表示。

此處，Y_SI為第I號之樣本的Y值(Recall)。

Y_DI為(所有文件中的)第I號之文件的Y值(Recall)。

N為樣本中資料點的編號。

Recall，標準化順序(normalize drank)」之函數，此情況下，兩個函數(Recall及normalized rank)的相似度，係使用樣本中所有資料的內積而得之。

「RMSE」(均方根誤差)

「RMSE」係以下式(14)表示。

此處，Y_SI為第I號樣本的Y值(Recall)。

Y_DI為(所全文件中的)第I號之文件的Y值(Recall)。

N為樣本中的資料點的編號。

「RMSE」係表示不相關的平均誤差。其中，該誤差成為表示樣本及所有文件之資料之間的近似程度(是否相似)的指標。

[其他實施態樣]

說明本發明之其他實施態樣。

第1實施態樣中，雖特別說明專利侵害訴訟事件中的實施例，但本發明的文件分類系統，亦可使用於禁止企業聯合及反壟斷法法等，採用eDiscovery(電子證據揭示)制度，具有提出文件之義務的所有訴訟之中。

另外，第1實施態樣中，係在第1階段至第3階段的處理後，進行依循審閱者分類之規則性而自動賦予分類符號的第4階段之處理，但亦可不進行第1階段至第3階段的處理，僅單獨進行第4階段的處理。

更進一步，亦可為下述之實施態樣：藉由抽出部102，從文件資訊中抽出一部分的文件群，對於該抽出的文件群，首先，最先進行第4階段的處理。之後，根據第4階段中登錄的關鍵字，進行第1階段至第3階段的處理。

在第1實施態樣的第4階段，搜尋部107，在未經分類符號處理部104進行分類符號處理之文件中，搜尋選定部106所選定之關鍵字，但亦可將所有文件資訊作為對象，進行該關鍵字的搜尋。

在第1實施態樣之第4階段中，自動分類部109，僅將未經分類符號處理部104進行分類符號處理的文件，作為自動賦予分類符號的對象，但亦可將所有文件資訊作為該自動賦予的對象。

本發明之文件分類系統、文件分類方法及文件分類程式，推定包含應從文件資訊抽出之既定數量文件的資料組、即文件群的確切檔案大小，並從文件資訊抽出該推定之檔案大小的文件群，再由使用者根據與訴訟之關連性賦予分類符號，故可謀求減輕審閱者進行分類作業的勞力。

另外，因為根據分類符號處理部所處理之文件群的分類結果，推定文件資訊所包含的與訴訟相關的文件數量，故可輕易掌握有多少文件與訴訟相關。

更進一步，因為算出使用者(審閱者)對以自動分類部分類的文件資訊之分類結果進行確認審閱時所需的文件數量，故不需要對於不必要之大量的文件數量進行確認審閱。因此，可企圖減輕審閱者進行分類作業的勞力。

另外，本發明的文件分類系統中，搜尋部，具備從以未被賦予分類符號之文件所構成的文件資訊中搜尋關鍵字的功能；點數算出部，使用搜尋部的搜尋結果與選定部的解析結果，算出表示分類符號與文件之關連性的點數；自動分類部，在具備抽出未經分類符號處理部進行賦予分類符號處理的文件，並自動將分類符號賦予該文件之功能時，可對於未經分類符號處理部進行賦予分類符號處理的文件資訊，依循審閱者分類的規則性，自動賦予分類符號。

另外，在本發明具備根據選定部的分析結果與點數算出部算出之點數，增加或減少選定部選定之資料庫中所記錄的與分類符號相關的關鍵字及相關用語的記憶部時，可隨著分類次數，提升分類精度。

另外，本發明中，資料庫抽出並記錄與分類符號相關之相關用語；搜尋部從文件資訊搜尋相關用語；點數算出部根據搜尋部搜尋相關用語的結果算出點數；自動分類部根據使用相關用語算出的點數，自動賦予分類符號，並選定文件群所包含的文件之中未包含與選定部選定之關鍵字、相關用語及分類符號相關之關鍵字的文件，而自動從分類部的分類對象之中排除被選定的文件，故可更有效率地進行文件分類。藉由這樣的技術，可輕易將收集的數位資訊應用於訴訟。