TW201510921A

TW201510921A - 文件分析系統、文件分析方法及文件分析程式

Info

Publication number: TW201510921A
Application number: TW103128570A
Authority: TW
Inventors: Masahiro Morimoto; Hideki Takeda; Kazumi Hasuko
Original assignee: Ubic Inc
Priority date: 2013-09-11
Filing date: 2014-08-20
Publication date: 2015-03-16
Also published as: US20160292803A1; WO2015037262A1; JP5627750B1; JP2015055982A

Abstract

使訴訟用文件資訊之分析容易。本發明之文件分析系統，係取得複數個記錄於電腦或伺服器之數位資訊，分析由該取得之數位資訊中包含的複數個文件構成之文件資訊，以方便訴訟或違法調查之利用，其特徵為具備：調查類別輸入受理部，其係受理訴訟或違法調查之類別的輸入；調查部，其係依據調查類別輸入受理部受理之類別進行調查；及報告製作部，其係製作用於報告調查部進行之調查結果的報告書。

Description

文件分析系統、文件分析方法及文件分析程式

本發明係關於一種文件分析系統、文件分析方法及文件分析程式。

過去提出有在發生違法存取及機密資訊洩漏等關於電腦犯罪及法律糾紛時，為了查明原因及搜查而收集、分析必要之機器、資料及電子記錄，以明瞭其法律證據性的手段及技術。

特別是美國民事訴訟時要求揭示電子證據(eDiscovery)等，該訴訟之原告及被告皆負有提出相關數位資訊作為證據的責任。因而，必須提出記錄於電腦及伺服器之數位資訊作為證據。

另外，隨著IT快速發達及普及，今天的商業領域幾乎所有資訊都以電腦製作，即使同一個企業內也擁有龐大的數位資訊。

因而，為了向法庭提出證據資料而進行準備作業的過程中，容易發生證據資料中包含與該訴訟未必相關之機密數位資訊的失誤。或是發生提出了與該訴訟無關之文件資訊的問題。

近年來，專利文獻1至專利文獻3中提出了關於鑑識系統(Forensic System)中之文件資訊的技術。專利文獻1中揭示了一種鑑識系統，係從用戶資訊中包含之至少1人以上的用戶指定特定者，依據關於指定之特定者的存取履歷資訊，僅抽出特定者存取之數位文件資訊，設定顯示所抽出之數位文件資訊的各個文件檔案是否與訴訟相關之附帶資訊，而依據附帶資訊輸出與訴訟相關之文件檔案。

此外，專利文獻2中揭示之鑑識系統，係顯示所記錄之數位資訊，複數個文件檔案分別設定顯示是否係與用戶資訊中包含之用戶中任何一個用戶相關者的用戶特定資訊，以將該所設定之用戶特定資訊記錄於記憶部之方式設定，指定至少一人以上之用戶，檢索設定了對應於指定之用戶的用戶特定資訊之文件檔案，並設定經由顯示部顯示所檢索之文件檔案是否與訴訟相關的附帶資訊，並依據附帶資訊輸出與訴訟相關之文件檔案。

再者，專利文獻3中揭示之鑑識系統，係受理數位文件資訊中包含之至少1個以上文件檔案的指定，受理是否將指定之文件檔案翻譯成任何一種語言的指定，將受理指定之文件檔案翻譯成受理指定之語言，從記錄於記錄部之數位文件資訊抽出顯示與指定之文件檔案同一內容的共通文件檔案，生成顯示藉由援用曾翻譯之文件檔案的翻譯內容而翻譯所抽出之共通文件檔案的翻譯相關資訊，依據翻譯相關資訊輸出與訴訟相關之文件檔案。

【先前技術文獻】 【專利文獻】

[專利文獻1]日本特開2011-209930號公報

[專利文獻2]日本特開2011-209931號公報

[專利文獻3]日本特開2012-32859號公報

但是，例如專利文獻1至專利文獻3之鑑識系統中，係收集利用複數個電腦及伺服器之用戶的龐大文件資訊。

辨識將此種數位化之龐大文件資訊作為訴訟的證據資料是否妥當的作業，需要藉由目視確認稱為檢視者之用戶，來逐一辨識該文件資訊，因而有耗費大量勞力與費用之問題。

本發明之目的為提供一種使訴訟用之文件資訊分析容易的文件分析系統、文件分析方法、及文件分析程式。

本發明之文件分析系統，係取得複數個記錄於電腦或伺服器之數位資訊，分析由該取得之數位資訊中包含的複數個文件構成之文件資訊，以方便訴訟或違法調查之利用，其特徵為具備：調查類別輸入受理部，其係受理訴訟或違法調查之類別的輸入；調查部，其係依據調查類別輸入受理部受理之類別進行調查；及報告製作部，其係製作用於報告調查部進行之調查結果的報告書。

上述報告製作部可依據調查部進行之調查結果，製作符合調查類別輸入受理部受理之類別的報告書。

上述文件分析系統進一步可具備：調查基礎資料庫，其係記憶訴訟或違法調查相關之資訊；及調查種類判定部，其係依據調查類別輸入受理部受理之類別，判定屬於調查對象之調查類別，並從調查基礎資料庫抽出需要之資訊種類。

上述文件分析系統進一步可具備顯示畫面控制部，其係控制對用戶提示調查種類判定部所抽出之資訊種類的顯示畫面。

上述文件分析系統進一步可具備輸入受理部，其係受理對應於顯示畫面控制部提示之資訊種類而用戶輸入的關鍵字及/或文章。

上述文件分析系統進一步可具備資訊抽出部，其係從調查基礎資料庫抽出對應於調查種類判定部所抽出之資訊種類的關鍵字及/或文章。

上述文件分析系統進一步可具備檢索部，其係從文件中檢索關鍵字及/或文章。

上述文件分析系統進一步具備自動辨識碼賦予部，其係對文件自動賦予辨識碼，關鍵字及/或文章可利用於賦予辨識碼。

本發明之文件分析方法，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便訴訟或違法調查之利用，其特徵為具備：調查類別輸入受理步驟，其係受理訴訟或違法調查之類別的輸入；調查步驟，其係依據調查類別輸入受理部所受理之類別進行調查；及報告書製作步驟，其係製作用於報告調查部進行之調查結果的報告書。

本發明之文件分析程式，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便訴訟或違法調查之利用，其特徵為使電腦實現：調查類別輸入受理功能，其係受理訴訟或違法調查之類別的輸入；調查功能，其係依據調查類別輸入受理部所受理之類別進行調查；及報告書製作功能，其係製作用於報告調查部進行之調查結果的報告書。

採用本發明之文件分析系統、文件分析方法、及文件分析程式時，可方便分析訴訟用之文件資訊。

1‧‧‧文件分析系統

11‧‧‧表示用畫面

100‧‧‧資料儲存部

101‧‧‧數位資訊儲存區域

103‧‧‧調查基礎資料庫

104‧‧‧關鍵字資料庫

105‧‧‧相關用語資料庫

106‧‧‧分數算出資料庫

107‧‧‧報告製作資料庫

109‧‧‧資料庫管理部

112‧‧‧文件抽出部

114‧‧‧字檢索部

116‧‧‧分數算出部

118‧‧‧文件解析部

120‧‧‧語言判定部

122‧‧‧翻譯部

124‧‧‧傾向資訊生成部

130‧‧‧文件顯示部

131‧‧‧辨識碼受理賦予部

133‧‧‧律師檢視受理部

201‧‧‧第一自動辨識部

301‧‧‧第二自動辨識部

401‧‧‧第三自動辨識部

501‧‧‧品質檢查部

601‧‧‧學習部

701‧‧‧報告製作部

901‧‧‧網際網路線路

902‧‧‧資訊儲存裝置

第一圖係本發明實施形態之文件判斷系統的構成圖。

第二圖係顯示本發明之實施形態的文件分析方法中的處理流程圖。

第三圖係顯示本發明之實施形態的文件分析方法中依調查種類的調查及辨識處理流程圖。

第四圖係顯示本發明之實施形態的文件分析方法中依調查種類的預測編碼流程圖。

第五圖係顯示實施形態中各階段的處理流程圖。

第六圖係顯示實施形態中之關鍵字資料庫的處理流程圖。

第七圖係顯示本實施形態中之相關用語資料庫的處理流程圖。

第八圖係顯示本實施形態中之第一自動辨識部的處理流程圖。

第九圖係顯示本實施形態中之第二自動辨識部的處理流程圖。

第十圖係顯示本實施形態中之辨識碼賦予部的處理流程圖。

第十一圖係顯示本實施形態中之文件解析部的處理流程圖。

第十二圖係顯示本實施形態中之文件解析部的解析結果圖。

第十三圖係顯示本實施形態一個實施例中之第三自動辨識部的處理流程圖。

第十四圖係顯示本實施形態其他實施例中之第三自動辨識部的處理流程圖。

第十五圖係顯示本實施形態中之品質檢查部的處理流程圖。

第十六圖係本實施形態中之文件顯示畫面。

就本發明之文件分析系統作說明。

本發明之文件分析系統，係取得複數個記錄於電腦或伺服器之數位資訊，分析該取得之數位資訊中包含的由複數個文件構成之文件資訊，以方便訴訟或違法調查之利用。

上述文件分析系統具備：調查類別輸入受理部、調查部、及報告書製作部。

上述調查類別輸入受理部受理訴訟或違法調查之類別的輸入。

上述調查部依據調查類別輸入受理部所受理之類別進行調查。

上述報告書製作部製作用於報告調查部進行之調查結果的報告書。

上述報告書製作部可依據調查部進行之調查結果，製作符合調查類別輸入受理部所受理之類別的報告書。

上述文件分析系統，進一步具備調查基礎資料庫、及調查種類判定部。

上述調查基礎資料庫記憶訴訟或違法調查相關之資訊。

上述調查種類判定部依據調查類別輸入受理部所受理之類別，判定屬於調查對象之調查類別，並從調查基礎資料庫抽出需要之資訊種類。

上述文件分析系統，進一步可具備控制對用戶提示調查種類判定部所抽出之資訊種類的顯示畫面之顯示畫面控制部。

此時，上述文件分析系統進一步可具備受理對應於顯示畫面控制部提示之資訊種類而用戶輸入的關鍵字及/或文章之輸入受理部。

上述文件分析系統進一步可具備從調查基礎資料庫抽出對應於調查種類判定部所抽出之資訊種類的關鍵字及/或文章之資訊抽出部。

上述文件分析系統進一步可具備從文件中檢索關鍵字及/或文章之檢索部。

上述文件分析系統進一步具備對文件自動賦予辨識碼之自動辨識碼賦予部，關鍵字及/或文章可利用於賦予辨識碼。

繼續，參照圖式具體說明本發明之文件分析系統的詳細內容。另外，以下說明之例係一個例子，且不限定於該例。

第一圖顯示本發明實施形態之文件判斷系統的構成例。

如第一圖所示，本實施形態之文件分析系統1可具有儲存資訊及資料之資料儲存部100。該資料儲存部100為了利用於訴訟或違法調查之解析，而將複數個從電腦或伺服器取得之數位資訊儲存於數位資訊儲存區域101。

而後，資料儲存部100儲存：調查基礎資料庫103，其係儲存顯示例如是否屬於包含反托拉斯、專利、FCPA、PL之訴訟案件或包含資訊洩漏、詐財(False Claims)之違法調查的任何類別之類別屬性、公司名稱、負責人、監督人及調查或辨識輸入畫面的構成；關鍵字資料庫104，其係登錄取得之數位資訊中包含的文件之特定辨識碼、與該特定辨識碼具有密切關係之關鍵字、及顯示該特定辨識碼與該關鍵字之對應關係的關鍵字對應資訊；相關用語資料庫105，其係登錄指定之辨識碼、在賦予該指定辨識碼之文件中由出現頻率高的單詞構成之相關用語、以及顯示該指定辨識碼與相關用語之對應關係的相關用語對應資訊；及分數算出資料庫106，其係登錄為了算出顯示文件與辨識碼之連繫強度的分數，而該文件中包含之字的加權。

再者，資料儲存部100儲存報告製作資料庫107，其係登錄類別、監督人、依辨識作業內容而規定之報告書形式。如第一圖所示，該資料儲存部100亦可設置於文件分析系統1中，亦可作為另外之儲存裝置而設置於文件分析系統1的外部。

本發明之實施形態的文件分析系統1具備資料庫管理部109，其係管裡調查基礎資料庫103、關鍵字資料庫104、相關用語資料庫105、分數算出資料庫106、及報告製作資料庫107之資料內容的更新。

資料庫管理部109可經由專用連接線或網際網路線路901而連接於資訊儲存裝置902。而後，資料庫管理部109可依據記憶於資訊儲存裝置902之資料內容，更新調查基礎資料庫103、關鍵字資料庫104、相關用語資料庫105、分數算出資料庫106及報告製作資料庫107之資料內容。

本發明之實施形態的文件分析系統1可具備：文件抽出部112，其係從文件資訊抽出複數個文件；字檢索部114，其係從文件資訊檢索記錄於資料庫之關鍵字或相關用語；及分數算出部116，其係算出顯示文件與辨識碼之連繫強度的分數。

本發明之實施形態的文件分析系統1可具有：第一自動辨識部201，其係藉由字檢索部114檢索記錄於關鍵字資料庫104之關鍵字，從文件資訊抽出包含關鍵字之文件，對該抽出之文件，依據關鍵字對應資訊自動賦予特定之辨識碼；及第二自動辨識部301，其係從文件資訊抽出包含記錄於相關用語資料庫之相關用語的文件，依據該抽出之文件中包含的相關用語之評估值及該相關用語數量算出分數，在包含相關用語之文件中，對於該分數超過一定值之文件，依據分數及相關用語對應資訊自動賦予指定之辨識碼。

再者，實施形態之文件調查系統1具備：文件顯示部130，其係將從文件資訊抽出之複數個文件顯示於畫面上；辨識碼受理賦予部131，其係對於從文件資訊所抽出之未賦予辨識碼的複數個文件，受理用戶依據與訴訟之關連性而賦予的辨識碼，並賦予辨識碼；文件解析部118，其係解析藉由辨識碼受理賦予部131賦予辨識碼之文件；及第三自動辨識部401，其係依據對於從文件資訊所抽出之複數個文件，藉由文件解析部118解析藉由辨識碼受理賦予部131賦予辨識碼之文件的解析結果，自動賦予辨識碼。

此外，本發明之實施形態的文件分析系統1亦可具備：語言判定部120，其係判定所抽出之文件的語言種類；及翻譯部122，其係受理用戶之指定，或自動地翻譯所抽出之文件。為了亦可對應於1字多種語言之複合語言，而將語言判定部120中之語言的區分比1字小。再者，亦可進行從翻譯對象除去超文件標示語言(HTML)之標頭等的處理。

此外，本發明之實施形態的文件分析系統1亦可具備傾向資訊生成部124，其係為了藉由文件解析部118進行解析，依據各文件包含之單詞種類、出現次數、單詞之評估值，生成表示與賦予了各文件具有之辨識碼的文件之類似程度的傾向資訊。

此外，本發明之實施形態的文件分析系統1亦可具備品質檢查部501，其係比較辨識碼受理賦予部131所受理之辨識碼與文件解析部118中藉由傾向資訊所賦予之辨識碼，檢驗辨識碼受理賦予部131所受理之辨識碼的妥當性。

再者，本發明之實施形態的文件分析系統亦可具備學習部601，其係按照文件分析處理結果，學習各關鍵字或相關用語之加權。

本發明之實施形態的文件分析系統1可具備報告製作部701，其係用於按照文件分析處理結果，配合訴訟案件或違法調查之調查種類輸出最佳的調查報告。訴訟案件例如包含反托拉斯(聯合壟斷)、專利、禁止外國賄賂(FCPA)、或產品責任(PL)。此外，違法調查例如包含資訊洩漏、詐財。

本發明之實施形態的文件分析系統1可具備律師檢視受理部133，其係為了提高辨識調查與報告品質，例如受理主任律師或主任商標代理人之檢視。

為了容易理解本發明之實施形態的文件分析系統1，實施形態中之特有用語記載如下。

所謂「辨識碼」，係指將文件分類時使用之識別符，且指為了方便訴訟之用，而顯示與訴訟之關連度者。例如，訴訟時利用文件資訊作為證據時，亦可依證據之種類賦予。

所謂「文件」，係指包含1個以上單詞之資料。「文件」之一例如為電子郵件、展示資料、表計算資料、磋商資料、契約書、組織圖、事業計畫書等。

所謂「單詞」，係指具有意義之最少字串的集合。例如，在「所謂文件，係指包含1個以上單詞之資料。」的文件中，包含了「文件」「1個」「以上」「單詞」「包含」「資料」「係指」之單詞。

所謂「關鍵字」，係指某個語言中，具有一定意義之字串的集合。例如，從「辨識文件」之文章選定關鍵字時，亦可採用「文件」「辨識」等。實施形態中，重點性選定「侵害」、「訴訟」、「專利公報○○號」之關鍵字。

本實施形態中，關鍵字為包含語素(Morpheme)者。

此外，所謂「關鍵字對應資訊」，係指表示關鍵字與特定辨識碼之對應關係者。例如，在訴訟中表示重要文件之「重要」的辨識碼與「侵害者」之關鍵字有密切關係時，「關鍵字對應資訊」亦可說是連繫辨識碼「重要」與關鍵字「侵害者」而進行管理之資訊。

所謂「相關用語」，係指在賦予了指定辨識碼之文件中共通且出現頻率高的單詞中，評估值為一定值以上者。例如，出現頻率係指在一份文件中採用之單詞總數中，相關用語出現的比率。

此外，「評估值」係指各單詞在某個文件中發揮之資訊量。「評估值」亦可以傳達資訊量為基準而算出。例如，賦予指定之商品名稱作為辨識碼時，「相關用語」亦可指該商品所屬之技術領域的名稱、該商品之銷售國家、該商品之類似商品名稱等。具體而言，賦予進行影像編碼處理之裝置的商品名稱作為辨識碼時之「相關用語」，如為「編碼處理」、「日本」、「編碼器」等。

所謂「相關用語對應資訊」，係指表示相關用語與辨識碼之對應關係者。例如，有關訴訟之商品名稱的「產品A」之辨識碼具有產品A之功能的「影像編碼」之相關用語時，「相關用語對應資訊」亦可說是連繫辨識碼「產品A」與相關用語「影像編碼」而進行管理之資訊。

所謂「分數」係指在某個文件中，定量評估與特定辨識碼之連繫強度者。本發明之各實施形態例如使用以下公式(1)，並藉由文件中出現之單詞與各單詞具有的評估值來算出分數。

Scr：文件之分數

m _i：第i個關鍵字或相關用語之出現頻率

wgt _i ²：第i個關鍵字或相關用語之加權值

此外，本發明之文件分析系統1亦可抽出頻繁出現在用戶賦予之辨識碼共通的文件中之單詞。而後，各文件解析各文件中包含之該抽出的單詞種類、各單詞具有之評估值及出現次數之傾向資訊，未藉由辨識碼受理賦予部131受理辨識碼之文件中，對於具有與解析之傾向資訊相同傾向的文件，亦可賦予共通之辨識碼。

此處，所謂「傾向資訊」，係指表示與賦予了辨識碼之文件的類似程度者，並依據各文件包含之單詞種類、出現次數、單詞之評估值，以與指定辨識碼之關連度來表示。例如，各文件與賦予了指定辨識碼之文件，在與該指定辨識碼之關連度中係類似時，係指該兩份文件具有相同傾向資訊。此外，包含之單詞種類亦可不同，就相同出現次數包含評估值相同單詞之文件，亦可作為具有相同傾向之文件。

其次，說明本發明之文件分析方法。

繼續，參照圖式具體說明本發明之文件分析方法的詳細內容。另外，以下說明之例係一個例子，而不限定於該例。

第二圖顯示本發明之實施形態的文件分析方法之流程圖。參照第二圖，就本發明實施形態之文件分析方法記載如下。

依顯示部之顯示畫面的顯示，而從用戶受理引數之指定，例如，可從包含反托拉斯、專利、FCPA、PL之訴訟案件，或包含資訊洩漏、詐財之違法調查特定對應的類別(S11)。

依特定之類別，可特定調查基礎資料庫、文件分析資料庫等之使用資料庫(S12)。

為了確認使用資料庫是否係最新者，可存取儲存最新資料庫之資訊儲存裝置。資訊儲存裝置有時設置於實施辨識之組織內部，有時設置於組織之外部。資訊儲存裝置設置於組織外部之情況，例如，有時設置於合作之法律事務所或專利事務所。

存取資訊儲存裝置情況下，為了保護安全，可藉由識別資料 (ID)及密碼進行認證。(S13)

進行認證後，准許存取資訊儲存裝置，可將調查基礎資料庫、文件分析資料庫等使用資料庫更新成可依憑的資料庫(S14)。

檢索更新後之調查基礎資料庫(S15)，可在顯示裝置之畫面上提示公司名稱、負責人、監督人姓名(S16)。

顯示於顯示裝置畫面之負責人與監督人的姓名與實際負責人及監督人姓名不同時，用戶在顯示裝置畫面上修正負責人與監督人姓名。資訊儲存裝置受理用戶之修正輸入，可特定實際負責人與監督人姓名(S17)。

其次，為了實施文件分析作業，可抽出數位文件資訊(S18)。

檢索更新後之關鍵字資料庫、相關用語資料庫及分數算出資料庫，作為更新後之文件分析資料庫(S19)，可對抽出文件資訊賦予辨識碼(S20)。

此外，受理檢視器之辨識碼，可對抽出文件資訊賦予辨識碼(S21)。

將辨識結果作為教師資料，檢索資料庫，可對抽出文件資訊賦予辨識碼(S22)。

可受理主任律師或商標代理人之檢視(S23)。藉此可使調查品質提高。

藉由用戶指定引數來特定類別(S24)，可依特定之類別特定報告製作資料庫(S25)。可藉由特定之報告製作資料庫規定報告書形式，自動輸出報告書(S26)。

首先，可輸入調查種類(S31)。亦即，使用者依顯示畫面之顯示，例如從包含反托拉斯、專利、禁止外國賄賂(FCPA)、產品責任(PL)之訴訟案件或包含資訊洩漏、詐財之違法調查，輸入與欲實施之調查及辨識作業對應的類別。文件分析系統可受理用戶輸入類別，而特定調查對象之類別。

可依特定之類別判定調查及文件分析處理種類、與使用之資料庫種類(S32)。

亦可依特定之類別，存取記憶於調查基礎資料庫、文件分析資料庫等使用資料庫所存儲之資訊(S33)。

可依特定之類別存取調查基礎資料庫，並依特定類別顯示各關鍵字輸入畫面(S34)。

可依特定之類別存取調查基礎資料庫，並依特定之類別顯示各文章輸入畫面(S35)。

可依特定之類別存取調查基礎資料庫，並依特定之類別抽出關鍵字或文件(S36)。

藉由進行上述處理，可對自動辨識碼賦予(預測編碼)之教師資料追加加權(S37)。

藉由關鍵字檢索文件分析資料庫，可進行抽出文件及資訊之聚焦(S38)。

本發明之實施形態的文件分析方法，係首先，文件分析系統可依調查種類要求用戶輸入，而受理對象用戶之輸入。例如與反托拉斯法相關時，對於聯合壟斷，就對象產品、關係人(姓名與郵件地址)、關係組織(名稱與部門)及時期，可要求用戶輸入，而受理對象用戶之輸入。此外，就關係組織，關於競爭對手企業與顧客企業可要求用戶輸入，而受理對象用戶之輸入(S51)。

其次，可藉由輸入關鍵字對辨識碼賦予進行加權(S52)。而後，可進行預測編碼(S53)。

本發明之實施形態的一例，係按照第五圖所示之流程圖，以第一階段~第五階段進行登錄處理、辨識處理及檢查處理。

第一階段係使用過去之辨識處理結果，事前進行關鍵字與相關用語之更新登錄(步驟100)。此時，關鍵字及相關用語，係與辨識碼與關鍵字或相關用語之對應資訊的關鍵字對應資訊及相關用語對應資訊一起更新登錄。

第二階段係從全部文件資訊抽出包含在第一階段更新登錄之關鍵字的文件，發現該文件時，參照在第一階段記錄之更新關鍵字對應資訊，進行賦予對應於該關鍵字之辨識碼的第一辨識處理(步驟200)。

第三階段係從在第二階段未賦予辨識碼之文件資訊抽出在第一階段更新登錄之包含相關用語的文件，算出包含該相關用語之文件的分數。參照該算出之分數與在第一階段更新登錄之相關用語對應資訊，進行執行辨識碼之賦予的第二辨識處理(步驟300)。

第四階段係對第三階段以前未賦予辨識碼之文件資訊受理用戶賦予的辨識碼，對該文件資訊賦予從用戶受理之辨識碼。其次，解析賦予了從用戶受理之辨識碼的文件資訊，依據解析結果，抽出未賦予辨識碼之文件，進行對抽出之文件賦予辨識碼的第三辨識處理。例如，抽出在該用戶賦予之辨識碼係共通的文件中頻繁出現之語詞，各文件解析各文件中包含之抽出的單詞種類、各單詞具有之評估值及出現次數的傾向資訊，對於具有與該傾向資訊相同傾向的文件，賦予共通之辨識碼(步驟400)。

第五階段係對在第四階段用戶賦予了辨識碼之文件，依據解析之傾向資訊決定應賦予之辨識碼，比較該決定之辨識碼與用戶賦予之辨識碼，進行辨識處理之妥當性檢驗(步驟500)。此外，依需要，亦可依據文件分析處理結果進行學習處理。

用於第四階段及第五階段之處理的傾向資訊，係指各文件具有之表示與賦予了辨識碼之文件的類似程度者，且係指依據各文件包含之單詞種類、出現次數、單詞之評估值者。例如，各文件係在賦予指定辨識碼之文件與該指定辨識碼之關連度中類似時，係指該兩份文件具有相同傾向資訊。此外，即使包含之單詞種類不同，就以相同出現次數包含評估值相同之單詞的文件，亦可作為具有相同傾向之文件。

從第一階段至第五階段之各階段中的詳細處理流程說明如下。

<第一階段(步驟100)>

使用第六圖說明在第一階段關鍵字資料庫104之詳細處理流程。

關鍵字資料庫104按照過去訴訟中辨識文件之結果，各個辨識碼製作管理用之表，並特定對應於各辨識碼之關鍵字(步驟111)。該特定在本發明之實施形態中，係解析賦予了各辨識碼之文件，並使用該文件中之各關鍵字的出現次數及評估值來進行，不過亦可使用使用關鍵字具有之傳達資訊量的方法、或用戶手動選擇之方法等。

本發明之實施形態中，例如，作為辨識碼「重要」之關鍵字，而特定「侵害」及「商標代理人」之關鍵字時，製作顯示「侵害」及「商標代理人」係與辨識碼「重要」具有密切關係之關鍵字的關鍵字對應資訊(步驟112)。而後，將特定之關鍵字登錄於關鍵字資料庫104。此時，將特定之關鍵字與關鍵字對應資訊相關連而記錄於關鍵字資料庫104之辨識碼「重要」的管理表中(步驟113)。

其次，使用第七圖說明相關用語資料庫105之詳細處理流程。相關用語資料庫105係按照過去訴訟中辨識文件之結果，各個辨識碼製作管理用之表，並登錄對應於各辨識碼之相關用語(步驟121)。本發明之實施形態中，例如，作為「產品A」之相關用語，係登錄「編碼處理」及「產品a」，以及作為「產品B」之相關用語，係登錄「解碼」及「產品b」。

製作顯示所登錄之各個相關用語係對應於哪個辨識碼的相關用語對應資訊(步驟122)，並記錄於各管理表中(步驟123)。此時相關用語對應資訊中亦一併記錄成為各相關用語具有之評估值及決定辨識碼時需要的分數之臨限值。

實際進行辨識作業之前，將關鍵字與關鍵字對應資訊、及相關用語及相關用語對應資訊更新登錄成最新者(步驟113、步驟123)。

<第二階段(步驟200)>

使用第八圖說明在第二階段第一自動辨識部201之詳細處理流程。本發明之實施形態中，第二階段係藉由第一自動辨識部201進行將辨識碼「重要」賦予文件之處理。

第一自動辨識部201係從文件資訊抽出包含在第一階段(步驟100)登錄於關鍵字資料庫104之關鍵字「侵害」及「商標代理人」的文件(步驟211)。對該抽出之文件，從關鍵字對應資訊參照記錄有該關鍵字之管理表(步驟212)，並賦予「重要」之辨識碼(步驟213)。

<第三階段(步驟300)>

使用第九圖說明在第三階段第二自動辨識部301之詳細處理流程。

本發明之實施形態中，第二自動辨識部301係對在第二階段(步驟200)未賦予辨識碼之文件資訊，進行賦予「產品A」及「產品B」之辨識碼的處理。

第二自動辨識部301從該文件資訊抽出包含在第一階段記錄於相關用語資料庫105之相關用語「編碼處理」、「產品a」、「解碼」及「產品b」的文件(步驟311)。對該抽出之文件，依據記錄之4個相關用語的出現頻率、評估值，使用公式(1)並藉由分數算出部116算出分數(步驟312)。該分數表示各文件與辨識碼「產品A」及「產品B」之關連度。

該分數超過臨限值時，參照相關用語對應資訊(步驟313)，賦予適切之辨識碼(步驟314)。

例如某個文件中，相關用語「編碼處理」及「產品a」之出現頻率以及相關用語「編碼處理」具有的評估值高，顯示與辨識碼「產品A」之關連度的分數超過臨限值時，對該文件賦予辨識碼「產品A」。

此時，該文件中相關用語「產品b」之出現頻率亦高，且顯示與辨識碼「產品B」之關連度的分數超過臨限值時，該文件中與辨識碼「產品A」一併也賦予「產品B」。另外，該文件中相關用語「產品b」之出現頻率低，且顯示與辨識碼「產品B」之關連度的分數不超過臨限值時，對該文件僅賦予辨識碼「產品A」。

第二自動辨識部301係使用在第四階段之步驟432中算出的分數，藉由以下所示之公式(2)再計算相關用語之評估值，進行該評估值之加權(步驟315)。

wgt _i,0：學習前第i個選定關鍵字之加權值(初始值)

wgt _i,L：第L次學習後之第i個選定關鍵字之加權值

γ _L：第L次學習中之學習參數

：學習效果之臨限值

例如，「解碼」之出現頻率非常高，不過分數低達一定值以上之文件發生一定數以上時，則降低相關用語「解碼」之評估值，再度記錄於相關用語對應資訊。

<第四階段(步驟400)>

第四階段如第十圖所示，對於在第三階段之前的處理中，從未賦予辨識碼之文件資訊所抽出的一定比率之文件資訊，受理從檢視器賦予辨識碼，而對該文件資訊賦予所受理之辨識碼。其次，如第十一圖所示，解析賦予了從檢視器受理之辨識碼的文件資訊，並依據其解析結果，對未賦予辨識碼之文件資訊賦予辨識碼。另外，本發明之實施形態中，第四階段對該文件資訊例如係進行賦予「重要」、「產品A」及「產品B」之辨識碼的處理。就第四階段進一步記載如下。

使用第十圖說明在第四階段辨識碼受理賦予部131之詳細處理流程。首先，文件抽出部112從第四階段之處理對象的文件資訊隨機抽樣文件，而在文件顯示部130上顯示。本發明之實施形態，係從處理對象之文件資訊中隨機抽出兩成文件，作為檢視器之辨識對象。抽樣係按照文件之製作日期時間順序或名稱順序排列文件，亦可採用從上起選擇三成文件之抽出方式。

用戶瀏覽在文件顯示部130上表示之第十六圖所示的表示用畫面11，選擇對各文件賦予之辨識碼。辨識碼受理賦予部131受理該用戶選擇之辨識碼(步驟411)，並依據所賦予之辨識碼來辨識(步驟412)。

其次，使用第十一圖說明文件解析部118之詳細處理流程。文件解析部118係抽出辨識碼受理賦予部131就各辨識碼所辨識之文件中共通且頻繁出現的單詞(步驟421)。藉由公式(2)解析所抽出之共通單詞的評估值(步驟422)，並解析該共通之單詞在文件中的出現頻率(步驟423)。

再者，按照步驟422及步驟423之解析結果，解析賦予了「重要」之辨識碼的文件之傾向資訊(步驟424)。

第十二圖係藉由步驟424解析賦予了「重要」之辨識碼的文件中共通且頻繁出現的單詞之結果圖形。

第十二圖中，縱軸R_hot顯示藉由用戶賦予了辨識碼「重要」之全部文件中，包含作為與辨識碼「重要」連繫之單詞而選定的單詞，且賦予了辨識碼「重要」之文件比率。橫軸顯示用戶實施辨識處理之全部文件中，包含藉由辨識碼受理賦予部131在步驟421所抽出之單詞的文件比率。

本發明之實施形態中，辨識碼受理賦予部131係抽出比直線R_hot=R_all標記在上部之單詞，作為辨識碼「重要」中之共通單詞。

對於賦予了「產品A」及「產品B」之辨識碼的文件，亦執行步驟421至步驟424的處理，來解析該文件之傾向資訊。

其次，使用第十三圖說明第三自動辨識部401之詳細處理流程。第三自動辨識部401係對第四階段之處理對象的文件資訊中，未在步驟411藉由辨識碼受理賦予部131受理辨識碼之賦予的文件進行處理。第三自動辨識部401係從此種文件抽出在步驟424所解析之與賦予了辨識碼「重要」、「產品A」及「產品B」之文件的傾向資訊相同傾向資訊之文件(步驟431)，並就抽出之文件，按照傾向資訊使用公式(1)算出分數(步驟432)。此外，對於步驟431所抽出之文件，依據傾向資訊賦予適切之辨識碼(步驟433)。

第三自動辨識部401進一步使用在步驟432算出之分數，將辨識結果反映於各資料庫(步驟434)。具體而言，亦可進行降低分數低之文件中包含的關鍵字及相關用語之評估值，並提高分數高之文件中包含的關鍵字及相關用語之評估值的處理。

再者，使用第十四圖說明第三自動辨識部401之詳細處理流程的1例。第三自動辨識部401亦可對第四階段之處理對象的文件資訊中，未在步驟411藉由辨識碼受理賦予部131受理辨識碼之賦予的文件進行辨識處理。第三自動辨識部401在未賦予引數情況下(步驟441：無)，係從該文件抽出在步驟424所解析之與賦予了辨識碼「重要」的文件之傾向資訊具有相同傾向資訊之文件(步驟442)，就抽出之文件，按照傾向資訊使用公式(1)算出分數(步驟443)。此外，對於步驟442所抽出之文件，依據傾向資訊賦予適切之辨識碼(步驟444)。

第三自動辨識部401進一步使用步驟443算出之分數，將辨識結果反映於各資料庫(步驟445)。具體而言，係進行降低分數低之文件中包含的關鍵字及相關用語之評估值，另外，提高分數高之文件中包含的關鍵字及相關用語之評估值的處理。

如上述，以第二自動辨識部301與第三自動辨識部401兩者進行分數算出，分數算出次數多情況下，亦可將用於算出分數之資料統一儲存於分數算出資料庫106。

<第五階段(步驟500)>

使用第十五圖說明在第五階段之品質檢查部501的詳細處理流程。品質檢查部501係對辨識碼受理賦予部131在步驟411所受理之文件，依據文件解析部118在步驟424所解析之傾向資訊，決定應賦予之辨識碼(步驟511)。

比較辨識碼受理賦予部131所受理之辨識碼與步驟511所決定之辨識碼(步驟512)，檢驗步驟411所受理之辨識碼的妥當性(步驟513)。

本發明之實施形態的文件分析系統1亦可具備學習部601。學習部601係按照第一至第四之處理結果，藉由公式(2)學習各關鍵字或相關用語之加權。亦可將該學習結果反映於關鍵字資料庫104、相關用語資料庫105或分數算出資料庫106。

本發明之實施形態的文件分析系統可具備報告製作部701，其係用於按照文件分析處理之結果，配合訴訟案件(例如，訴訟時為聯合壟斷、專利、FCPA、PL等)、或違法調查(例如，資訊洩漏、詐財等)之調查種類進行最佳調查報告的輸出。

調查之內容依調查種類而異。

例如，聯合壟斷案件時的重點為：

1.競爭之負責人何時、如何取得關於聯合壟斷的意見疏通(價格之調整)？

2.關係人屬於哪個組織的何人？

此外，侵害專利時的重點為：

1.侵害對象之技術與內容是否相同？

2.何人於何時、基於(不基於)何種意圖侵害、或未侵害？

本發明之實施形態的其他實施例之文件調查報告系統、文件調查報告方法、及文件調查報告程式記載如下。

本發明之實施形態的其他實施例，係使用調整對應於類似之檢索資訊，解析已經賦予辨識碼之文件，並依據解析結果賦予辨識碼之範圍的方法。

調整對應於類似檢索資訊而賦予辨識碼之範圍的方法，包括：調整對應於類似檢索資訊，叢集(Clustering)類似檢索資訊而賦予辨識碼之範圍的方法；及學習辨識結果進行預測辨識之方法。調整對應於類似檢索資訊，叢集類似檢索資訊而賦予辨識碼之範圍的方法中，例如，有時著眼於元資料之共通性，而對原文件、原文件之回信文件、原文件之回信文件的回信文件賦予共通之辨識碼。學習辨識結果進行預測辨識之方法，係藉由就辨識結果整合類似檢索資訊來學習，而就類似檢索資訊賦予同一或類似之辨識碼。

本發明之實施形態的其他實施例，係解析結果之可靠性依解析對象的文件件數而變化。對於辨識對象之全數文件，除了採用統計性方法之外，亦可規定就哪個時刻？全部文件的何種比率？調整依據解析結果賦予辨識碼之範圍。

本發明之實施形態的其他實施例，調整對應於類似檢索資訊，而賦予辨識碼之範圍的方法，亦可執行調整對應於類似檢索資訊，叢集檢索資訊而賦予辨識碼之範圍的方法；及學習辨識結果進行預測辨識之方法兩者，來調整賦予辨識碼之文件的範圍。藉此，本發明之實施形態的其他實施例，藉此可迅速且正確地賦予辨識碼，並且減輕辨識作業之負擔。

本發明之實施形態的其他實施例之文件調查報告系統、文件調查報告方法及文件調查報告程式，係依據此等辨識作業及調查結果來製作報告。

藉此，本發明之實施形態的其他實施例之文件調查報告系統、文件調查報告方法及文件調查報告程式，可迅速製作正確之調查報告，並且可減輕辨識作業及報告製作作業造成的負擔。

上述調查類別輸入受理功能可藉由上述調查類別輸入受理部而實現。詳細內容如上述。

上述調查功能可藉由上述調查部來實現。詳細內容如上述。

上述報告書製作功能可藉由上述報告製作部來實現，詳細內容如上述。

本發明之實施形態，就訴訟案件或違法調查案件之類別，藉由受理用戶之輸入，依類別自動更新資料庫。藉此，減輕輸入負責人、監督人之姓名等事務作業的負擔。此外，藉由依類別而自動更新之資料庫調整檢索字，使用調整後之檢索字，對該文件資訊自動賦予辨識碼。藉此，減輕利用在訴訟或違法調查案件之文件資訊辨識作業的負擔。

亦即，藉由本發明使訴訟用文件資訊之分析容易。