TW201543237A - 文件分析系統、文件分析方法、以及文件分析程式 - Google Patents

文件分析系統、文件分析方法、以及文件分析程式 Download PDF

Info

Publication number
TW201543237A
TW201543237A TW104103852A TW104103852A TW201543237A TW 201543237 A TW201543237 A TW 201543237A TW 104103852 A TW104103852 A TW 104103852A TW 104103852 A TW104103852 A TW 104103852A TW 201543237 A TW201543237 A TW 201543237A
Authority
TW
Taiwan
Prior art keywords
file
information
score
unit
document
Prior art date
Application number
TW104103852A
Other languages
English (en)
Inventor
Masahiro Morimoto
Yoshikatsu Shirai
Hideki Takeda
Kazumi Hasuko
Akiteru HANATANI
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Publication of TW201543237A publication Critical patent/TW201543237A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

藉由把應予監控的文件的優先程度,予以數值化,使得對文件的監控,可以效率化。 本發明所提供的文件分析系統,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析系統,其特徵在於:具備有:一評分算出部,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告部,對應於由前述評分算出部所計算出來的評分,將該當評分報告給使用者。

Description

文件分析系統、文件分析方法、以及文件分析程式
本發明是關於一種,對儲存在設定的電腦或者是伺服器中的文件資訊加以分析的文件分析系統等等的手段。
當電腦的犯罪或法律紛爭(非法存取或是機密資訊洩漏等等)產生之際,在原因究明或者是在捜査上,都會將必要的機器或資料,以及電子記錄加以取集.分析。特別是,在美國民事訴訟中,依據eDiscovery(電子證據開示)制度,無論是該當訴訟的原告以及被告,任何另一方面都負有將相關的數位資訊作為證據加以提出的責任。
另一方面,隨著IT(Information technology)的急速發達以及普及,近年的商業行為中,許多的資訊都是使用電腦作成的。因此,對法庭提出證據資料的準備過程中,容易發生連與該當訴訟連與本案無關的機密資訊,也被包含在證據資料的失誤。為了解決上述問題,關於分析文件資訊之法庭立證系統的技術,在下述專利文獻1~3中被提案出來。
還有,在專利文獻4中,揭示了一種電文資料的監査用保管.檢索系統,使成為監査對象的電文資料,擔保其以無法竄改的形式被加以保管,且成為監査對象的電文資料的檢索處理,可以迅速且簡單地執行。還有,在專利文獻5中,揭示了一種電子郵件監査裝置,具有讓監査 實施者等不會有過剰的負担之監査機能。再者,在專利文獻6中,揭示了一種電子郵件監査裝置,使電子郵件的監査之監査者的作業更加效率化的同時,還可以執行適當的監査。
〔專利文獻1〕特開2011-209930號公報(2011年10月20日公開)
〔專利文獻2〕特開2011-209931號公報(2011年10月20日公開)
〔專利文獻3〕特開2012-032859號公報(2012年02月16日公開)
〔專利文獻4〕特開2008-123423號公報(2008年05月29日公開)
〔專利文獻5〕特開2006-085642號公報(2006年03月30日公開)
〔專利文獻6〕特開2011-191829號公報(2011年09月29日公開)
在上述以往的法庭立證系統相關的技術,使用關鍵字或者是網域,靠著檢索文件,對所欲監控的文件進行抽樣。可是,用該當方法,對於所欲監控的文件,有時會無法適切地抽樣。
例如,關鍵字的檢索範圍縮得不夠小的話,成為監控對象的候補的文件有時就會被大量地列舉出來,這種情形下,就有賴監査人等靠著眼睛來確認(也就是校閱)。相反地,上述限縮要是縮得太小的話,作為監控對象的文件的檢索結果就有可能產生疏漏。於是,例如,對於防止聯合壟斷的請求就無法有萬全的應對。
本發明是,有鑑於上述的問題點所生的手段,其目的是,提供一種把所欲監控的文件的優先度,藉由數值化,使文件的監控予以效率化的文件分析系統等。
為了解決上述課題,本發明之文件分析系統是,一種取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析系統,具備有: 一評分算出部,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告部,對應於由前述評分算出部所計算出來的評分,將該當評分,報告給使用者。
還有,上述文件分析系統中,前述評分報告部是,當用前述評分算出部所算出的評分,超過設定的界限值時,即將該當評分提出報告。。
還有,上述文件分析系統中,前述評分報告部,把由前述評分算出部所算出來的評分,顯示成可由人工觀視確認,來報告其評分。
還有,上述文件分析系統中,更具有一文件抽樣部,把前述評分報告部所報告的有評分的文件,由前述文件資訊中,予以抽樣。。
還有,上述文件分析系統中,前述文件抽樣部,會把被包含在前述文件資訊中的關鍵字以及/或者是文章,作為前述訴訟或者是不實行為調査相關連的資訊,從該當文件資訊中,予以抽樣。
還有,上述文件分析系統中,更具有一字彙檢索部,將前述關鍵字以及/或者是文章,由前述複數個的文件中,予以檢索。
還有,為了解決上述課題,本發明提供一文件分析方法,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其特徵在於:包含有:一評分算出步驟,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告步驟,對應於由前述評分算出部所計算出來的評分,將該當評分報告給使用者。
還有,為了解決上述課題,本發明提供一文件分析程式,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其 特徵在於:包含有:一評分算出機能,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告機能,對應於由前述評分算出部所計算出來的評分,將該當評分報告給使用者。
藉由本發明之文件分析系統,文件分析方法,以及,文件分析程式,把應予監控的文件的優先程度,予以數值化,使得對文件的監控,達到效率化的效果。
1‧‧‧文件分析系統
201‧‧‧第1自動區別部
301‧‧‧第2自動區別部
401‧‧‧第3自動區別部
501‧‧‧品質檢査部
601‧‧‧學習部
701‧‧‧評分報告部
100‧‧‧資料儲存部
101‧‧‧數位資訊儲存領域
103‧‧‧調査基礎資料庫
104‧‧‧關鍵字資料庫
105‧‧‧關連用語資料庫
106‧‧‧評分算出資料庫
107‧‧‧報告作成資料庫
109‧‧‧資料庫管理部
112‧‧‧文件抽樣部
114‧‧‧字彙檢索部
116‧‧‧評分算出部
118‧‧‧文件解析部
120‧‧‧語言判定部
122‧‧‧翻譯部
124‧‧‧傾向資訊生成部
130‧‧‧文件顯示部
131‧‧‧區別符號接收付與部
133‧‧‧律師校閱接收部
11‧‧‧文件顯示畫面
第1圖 本發明之實施形態相關的文件分析系統的詳細的結構圖
第2圖 本發明之實施形態相關的文件分析方法,顯示其處理的流程之流程圖
第3圖 本發明之實施形態相關的文件分析方法中,顯示其詳細的處理流程之流程圖
第4圖 本發明之實施形態相關的文件分析方法中,因應調査種類,顯示其調査以及區別處理流程之流程圖
第5圖 本發明之實施形態相關的文件分析方法中,顯示因應調査種類之預測編碼流程之流程圖
第6圖 實施形態中,顯示每個階段的處理流程之流程圖
第7圖 實施形態中,顯示關鍵字資料庫的處理流程之流程圖
第8圖 本實施形態中,關連用語資料庫的處理流程圖
第9圖 本實施形態中,第1自動區別部的處理流程圖
第10圖 本實施形態中,第2自動區別部的處理流程圖
第11圖 本實施形態中,區別符號接收付與部的處理流程圖
第12圖 本實施形態中,文件解析部的處理流程圖
第13圖 本實施形態中,顯示在文件解析部的解析結果之圖表
第14圖 本實施形態之一實施例中,第3自動區別部的處理流程圖
第15圖 本實施形態之其他的實施例中,第3自動區別部的處理流程圖
第16圖 本實施形態中,品質檢査部的處理流程圖
第17圖 本實施形態中,文件顯示畫面
〔文件分析系統1的結構〕
第1圖是,本發明之實施形態相關的文件分析系統1,顯示要部結構之功能方塊圖。文件分析系統1是,取得在設定的電腦或者是伺服器中所儲存的資訊,對該當被取得的資訊中所包含的,由複數個的文件所構成的文件資訊,加以分析的系統。
如第1圖所示,文件分析系統1具備有:資料儲存部100(數位資訊儲存領域101,調査基礎資料庫103,關鍵字資料庫104,關連用語資料庫105,評分算出資料庫106,報告作成資料庫107),資料庫管理部109,文件抽樣部112,字彙檢索部114,評分算出部116,評分報告部701,第1自動區別部201,第2自動區別部301,文件顯示部130,區別符號接收付與部131,文件解析部118,以及,第3自動區別部401。還有,文件分析系統可以更具備有:傾向資訊生成部124,品質檢査部501,學習部601,律師校閱接收部133,語言判定部120,以及,翻譯部122。
(資料儲存部100)
資料儲存部100是,用來把使用在訴訟或者是不實行為調査的解析中,把從複數個的電腦或者是伺服器中所取得的數位資訊,儲存在數位資訊儲存領域101中。還有,資料儲存部100包含有:調査基礎資料庫103, 關鍵字資料庫104,關連用語資料庫105,評分算出資料庫106,以及,報告作成資料庫107。還有,資料儲存部100,如第1圖所示,可以是包含在文件分析系統1的內部的儲存媒體,也可以是連接在可與該當文件分析系統1進行通訊的外部的儲存媒體。
調査基礎資料庫103是,例如,包含有反壟斷,專利,海外賄賂禁止(Foreign Corrupt Practices Act;FCPA),製造物責任(Products Liability;PL)等等的訴訟案件,以及/或者是,包含有資訊洩漏,虛構的請求等等的不實行為調査,顯示其屬於上述任一種品類之品類屬性,公司名,負責人,監督管理員,以及,保持調査或者是區別輸入畫面的結構。
關鍵字資料庫104可以保存:被包含在所取得的數位資訊中,文件的識別的區別符號,與該當識別的區別符號之間具有密切連接的關係之關鍵字,以及,顯示出該當識別的區別符號與該當關鍵字之間的對應關係之關鍵字對應資訊。
關連用語資料庫105可以保存,設定的區別符號,在被加上該當設定的區別符號的文件上,出現頻率高的單字所構成的關連用語,以及,顯示該當設定的區別符號和關連用語之間的對應關係之關連用語對應資訊。
評分算出資料庫106是,用來把顯示文件和區別符號之間的結合強度的評分加以算出,將該當文件所包含的字彙的加權予以保存。
報告作成資料庫107,因應品類,監督管理員,區別作業的內容,來保存被確定的報告書的形式。
(資料庫管理部109)
資料庫管理部109係用來管理:調査基礎資料庫103,關鍵字資料庫104,關連用語資料庫105,評分算出資料庫106,以及,報告作成資料庫107的資料內容的更新。資料庫管理部109也可以透過專用連接線或者是網 際網路回線901,連接到資訊儲存裝置902。這種情形下,資料庫管理部109,可以根據資訊儲存裝置902中所儲存的資料的內容,來更新調査基礎資料庫103,關鍵字資料庫104,關連用語資料庫105,評分算出資料庫106,以及,報告作成資料庫107的資料內容。
(文件抽樣部112)
文件抽樣部112,取得複數個的電腦或者是伺服器中所儲存的數位資訊,由該當被包含在所取得的數位資訊中,從文件資訊抽樣出複數個的文件。特別是,文件抽樣部112,可以藉由評分報告部701,把有報告給使用者的評分的文件,從上述文件資訊予以抽樣。
還有,文件抽樣部112,可以把上述文件資訊所包含的關鍵字以及/或者是文章,作為訴訟或者是不實行為調査相關連的資訊,由該當文件資訊中予以抽樣。還有,文件抽樣部112,由使用者(以手動的方式)取得被指定的文件,這種情形下,可以從指定的文件的文字列,每接收1個文字(亦即,飛掠式地),就對該當的文件予以抽樣。
(字彙檢索部114)
字彙檢索部114是,把儲存在資料庫中的關鍵字或者是關連用語,從文件資訊中予以檢索。特別是,字彙檢索部114,可以利用文件抽樣部112,把被抽樣的關鍵字以及/或者是文章,由複數個的文件中,予以檢索。
(評分算出部116)
評分算出部116是,由文件資訊中所被抽樣的文件(文件資訊中所包含的文件),顯示該當文件資訊與訴訟或者是不實行為調査之間的關連度之區別符號,有顯示與區別符號結合的強度之評分,算出此評分。關於上述評分的算出方法,在後面會詳細地說明。
評分算出部116也可以把上述評分以時間序列的方式算出來。還有,如果把上述評分用時間序列的方式算出來時,評分算出部116,可以進一步算出將該當評分的移動平均,也可以把該當移動平均的值作為 上述評分來加以算出。藉此,文件分析系統1由於可以把上述評分的微小的變動予以平滑化,所以可以得到更完備的分析結果。
(評分報告部701)
評分報告部701是,利用評分算出部116,對應於所算出的評分,將該當評分報告給使用者。在這裡,評分報告部701,例如,當上述評分超過設定的界限值的話,可以將該當評分予以報告。還有,上述設定的界限值是,可以根據使用者的輸入,任意地設定。
評分報告部701可以把利用評分算出部116所算出來的評分,顯示成可觀視確認,來報告該當評分。具體而言,評分報告部701可以把上述評分輸出到文件顯示部130,例如,文件顯示畫面11(參照第17圖)上,可以顯示該當評分。
評分報告部701對使用者報告上述評分的時間點是,可任意調整的。例如,評分報告部701,每當經過設定的時間,就可以將上述評分予以報告。或者是,評分報告部701,也可以隨機地(每當由使用者接收到要求報告的輸入時),將上述評分提出報告。或者說,評分報告部701,可以在每當超過上述設定的界限值的文件被檢查出時,自動地報告。
評分報告部701,根據將文件予以區別處理後的結果,因應訴訟案件或者是不實行為調査的調査種類,可以輸出最適當的調査報告。像是,在訴訟案件中,包含有例如,反壟斷,專利,海外賄賂禁止(FCPA),製造物責任(PL)等等。還有,不實行為調査中,例如,包含資訊洩漏,虛構的請求等等。
(文件顯示部130)
文件顯示部130是,利用評分報告部701,把報告給使用者的評分,在文件顯示畫面11(參照第17圖)中,以可觀視確認可能的方式顯示出來。文件顯示部130是,把由文件資訊所抽樣出來的複數個的文件,顯示在畫面上。
還有,具有利用評分報告部701所報告的評分之文件,當藉由文件抽樣部112來被抽樣時,文件顯示部130可以將該當被抽樣後的文件,顯示在文件顯示畫面11上。
(第1自動區別部201)
第1自動區別部201,藉由字彙檢索部114,檢索關鍵字資料庫104所儲存的關鍵字,再藉由文件抽樣部112,從包含該當關鍵字的文件的文件資訊加以抽樣的話,對該當被抽樣的文件,根據關鍵字對應資訊,自動地加上識別的區別符號。
(第2自動區別部301)
第2自動區別部301,關連用語資料庫所儲存的包含關連用語的文件是從文件資訊加以抽樣,該當被抽樣文件所包含的關連用語的評價值,以及根據該當關連用語的數值,來算出評分的話,在包含上述關連用語的文件之中,對該當評分超過一定值的文件,根據該當評分以及關連用語對應資訊,自動地加上設定的區別符號。
(語言判定部120)
語言判定部120,把被抽樣的文件的語言的種類,予以判定。
(翻譯部122)
翻譯部122,把接收來自使用者的指定,或者是,自動地,把抽樣後的文件,進行翻譯。這種情形下,可以對應單一文字多言語的複合言語,把言語判定部中的言語的小段落,縮小到比單一文字還要小。還有,對言語的判定,預測編碼(Predictive Coding),字符編碼之任一編碼,或者是兩種編碼一起用,亦無妨。再者,HTML(Hyper Text Markup Language)的標頭等等,也可以從翻譯對象中除去。
(區別符號接收付與部131)
區別符號接收付與部131,對從文件資訊被抽樣出來,而沒被加上區別符號的複數個的文件,根據使用者與訴訟之間的關連性,接收其被加上 的區別符號,來加上該當區別符號。
(文件解析部118)
文件解析部118,係利用區別符號接收付與部131,來解析被加上了區別符號的文件。還有,文件解析部118,會根據與訴訟的關連性,從使用者所接收區別符號,加在所付與的文件上,在第1自動區別部201以及第2自動區別部301中,根據關鍵字,關連用語,評分,解析那些自動地被加上區別符號的文件,由使用者接收然後加上區別符號的上述文件,和自動地加上區別符號的上述文件,兩者統合,也可以得到總合性的解析結果。這時候,第3自動區別部401,可以根據該當總合性的解析結果,自動地加上區別符號。
還有,區別以及調査作業的進行過程中,利用字彙檢索進行自動區別,由使用者所進行的區別以及調査的接收,使用評分來進行的自動區別以及調査,透過學習過程來進行的自動區別以及調査,透過品質保證來進行的自動區別以及調査等等,有各式各樣的進行方式。上述多樣的區別以及調査作業,是以怎麼樣的順序,怎麼樣的組合來進行,會有顯示相關資訊的進行履歴,同時,把加上了區別符號的複數個的文件交由文件解析部118來進行解析,也可以在後述的報告作成部701中來報告該當解析的結果。
(第3自動區別部401)
第3自動區別部401中,利用區別符號接收付與部131來加上區別符號的文件,會藉由文件解析部118,根據解析後的結果,對從文件資訊所抽樣出來的複數個的文件,自動地加上區別符號。
(傾向資訊生成部124)
傾向資訊生成部124中,由於文件解析部118會進行解析,根據各文件所包含的單字的種類,出現次數,單字的評價值,來生成傾向資訊,也就是顯示各文件所具有的區別符號,與被加上區別符號的文件之間的類似 的程度。
(品質檢査部501)
品質檢査部501中,把用區別符號接收付與部131所接收的區別符號,和用文件解析部118以傾向資訊所加上的區別符號,兩者作比較,來檢證由區別符號接收付與部131所接收的區別符號的妥當性。
(學習部601)
學習部601,係根據將文件加以區別處理的結果,來學習各關鍵字或者是關連用語的加權。學習部601,係根據從第1到第4的處理結果(如後所述),把各關鍵字或者是關連用語的加權,利用式(2)來加以學習。學習部601,也可以將該當學習結果,反映在關鍵字資料庫104,關連用語資料庫105,或者是評分算出資料庫106中。
(律師校閱接收部133)
本發明之實施形態相關的文件分析系統1,可以具備有:一律師校閱接收部133,用來提高區別調査和報告的品質,例如,接收主任律師或者是主任專利師的校閱。
〔用語的說明〕
所謂「區別符號」,是指在把文件進行分類之際,所使用的識別子,為了在訴訟上的利用更為容易,而顯示與訴訟之間的關連度。例如,在訴訟中,把文件資訊作為證據來使用之際,就可以因應證據的種類,把它加上去。
所謂「文件」是指,包含一個以上的單字的資料。「文件」舉例而言,像是電子郵件,簡報資料,表計算資料,協商資料,契約書,組織圖,事業計畫書等。
所謂「單字」是指,具有意義的最少文字列的群集。例如,「所謂文件,是指包含一個以上的單字的資料。」這樣的句子中,包含了「文件」「一個」「以上」「單字」「包含」「資料」「所謂」這些單字。
所謂「關鍵字」是指,在某一種語言中,具有一定的意義的文字列的群集。例如,從「把文件加以區別」這樣的句子中,選定關鍵字的話,可以把「文件」「區別」等等作為關鍵字。實施形態中,可以重點式地選定像是「侵權」或「訴訟」,「專利公報○○號」來作為關鍵字。還有,上述「關鍵字」是,也可以包含形態素。
所謂「關鍵字對應資訊」是指,顯示關鍵字與識別的區別符號之間的對應關係的資訊。例如,在訴訟中,顯示重要的文件之「重要」的區別符號,與「侵權者」這樣子的關鍵字之間,如果有密切連接的關係的話,上述「關鍵字對應資訊」可以說就是把區別符號「重要」和關鍵字「侵權者」兩者繫合,加以管理的資訊。
所謂「關連用語」是指,設定的區別符號所加上去的文件其共同出現頻率高的單字當中,評價值在一定值以上的用語。例如,出現頻率可以是指,在一個文件中登場的單字的總數當中,關連用語所出現的比例。
「評價值」是指,各單字在某個文件中,所發揮的資訊量。「評價值」也可以把傳達資訊量當作基準加以計算出來。例如,把設定的商品名作為區別符號加上去的話,上述「關連用語」可以是指,該商品所屬的技術領域的名稱,該商品的販賣國,該商品的類似商品名等。具體而言,把進行畫像符號化處理的裝置的商品名,作為區別符號來加上去的話,其「關連用語」可以是:「符號化處理」,「日本」,「編碼器」等。
所謂「關連用語對應資訊」是指,用來顯示關連用語與區別符號之間的對應關係的資訊。例如,與訴訟相關的商品名為「製品A」之區別符號是製品A的機能,如果是有「畫像符號化」這樣的關連用語的話,「關連用語對應資訊」可以說是,把區別符號「製品A」和關連用語「畫像符號化」相繫合,而加以管理的資訊。
所謂「評分」,在某個文件中,把與識別的區別符號相結 合的強度,以定量地加以評價的手段。本發明之各實施形態中,例如,把評分用以下的式(1),對文件中出現的單字,利用各單字所具有的評價值,加以算出。
Scr:文件的評分
m i :第i個關鍵字或者是關連用語的出現頻率
:第i個關鍵字或者是關連用語的權重
文件分析系統1,也可以對使用者所加上去的區別符號,在共通的某文件中頻頻出現的單字,進行抽樣。然後,在每個文件中所包含的,該抽樣後的單字的種類,各單字所具有的評價值,以及出現數的傾向資訊,對每個文件逐一加以解析,至於由區別符號接收付與部131,沒有接收區別符號的文件當中,對於和解析解析後的傾向資訊有相同傾向的文件,也可以加上共通的區別符號。
在這裡,所謂「傾向資訊」是指,各文件所具有的,顯示其與被加上區別符號後的文件之間的類似的比例,根據各文件所包含的單字的種類,出現數,單字的評價值,來表示其與設定的區別符號之間的關連度。例如,各文件,其被加上設定的區別符號之文件,與該設定的區別符號之間的關連度如果是類似的話,該2個文件就具有相同的傾向資訊。還有,即使所包含的單字的種類不同,對於把評價值相同的單字,用相同的出現數來包含的文件,也可以當作是具有相同傾向的文件。
〔在文件分析系統1中所執行的處理〕
第2圖是,文件分析系統1中所執行的處理(本發明之實施形態相關的文件分析方法)所示的其中一例的流程圖。還有,在以下的說明中,括弧中的「~步驟」是表示,上述文件分析方法(文件分析系統1的控制方 法)所包含的各步驟
首先,文件抽樣部112,取得文件資訊,由該當文件資訊中,對文件予以抽樣(步驟41,以下將「步驟」略記為「S」)。接下來,評分算出部116是,文件資訊所包含的文件,顯示該當文件資訊和訴訟或者是不實行為調査之間的關連度之區別符號,把顯示與區別符號結合的強度之評分,予以算出(S42,評分算出步驟)。接下來,評分報告部701是,對應於由評分算出部116所算出來的評分,將該當評分報告給使用者(S43,評分報告步驟)。
〔在文件分析系統1中所執行的處理的詳細內容〕
第3圖是,本發明之實施形態相關的文件分析方法中,顯示其詳細的處理流程之流程圖。還有,第2圖中所示的流程,可以是從第3圖所示流程中獨立出來處理,第3圖中所示流程的任一個地方,也可以用內部涵蓋的處理,來予以執行。
因應顯示部的顯示畫面的顯示,由使用者接收引數的指定,例如,包含有反壟斷,專利,FCPA,PL的訴訟案件,或者是包含有資訊洩漏,虛構的請求之不實行為調査,可以識別其所對應的品類(S11)。
對應於被識別的品類,可以識別其調査基礎資料庫,文件分析資料庫等的使用資料庫(S12)。
為了確認使用資料庫是不是最新的狀態,可以對儲存在最新資料庫中的資訊儲存裝置,r進行存取。資訊儲存裝置,有時是被設置在實施區別的組織的內部,有時是被設置在組織的外部。資訊儲存裝置如果是被設置在組織的外部的話,例如,可以被設置在合作的法律事務所或者是專利事務所中。
對資訊儲存裝置進行存取時,為了保持安全性,可以藉由ID以及密碼進行認證(S13)。
在進行認證之後,允許對資訊儲存裝置進行存取,也可以對調査基礎資料庫,文件分析資料庫等的使用資料庫之指標性的資料庫進行更新(S14)。
對更新後的調査基礎資料庫,進行檢索(S15),可以在顯示裝置的畫面上,提示公司名,負責人,監督管理員的名字(S16)。
顯示裝置的畫面上所顯示的負責人和監督管理員的名字,如果和實際的負責人和監督管理員的名字不同的話,使用者就可以用顯示裝置的畫面,來修正負責人和監督管理員的名字。文件分析系統,可以接收使用者的修正輸入,來識別實際的負責人和監督管理員的名字(S17)。
接下來,為了實施文件分析作業,可以對數位文件資訊進行抽樣(S18)。
作為更新後的文件分析資料庫,對於更新後的關鍵字資料庫,關連用語資料庫,以及評分算出資料庫,進行檢索(S19),可以對抽樣文件資訊加上區別符號(S20)。
還有,由校閱者來接收的區別符號,可以把區別符號加在抽樣文件資訊上(S21)。
把區別結果作為指引資料,來檢索資料庫,可以在抽樣文件資訊上,加上區別符號(S22)。
可以接收由主任律師或者是專利師所作成的校閱(S23)。藉此,可以提高調査的品質。
藉由使用者的引數指定,來識別品類(S24),對應於被識別的品類,可以識別其報告作成資料庫(S25)。可以藉由被識別的報告作成資料庫,來決定報告書的形式,自動地輸出報告書(S26)。
第4圖是,本發明之實施形態相關的文件分析方法中,因應調査種類,顯示其調査以及區別處理流程之流程圖。
一開始,可以輸入調査種類(S31)。亦即,對應於顯示畫面的顯示,使用者可以輸入,例如,包含有反壟斷,專利,海外賄賂禁止(FCPA),製造物責任(PL)之訴訟案件或者是包含有資訊洩漏,虛構的請求之不實行為調査,欲實施的調査以及與區別作業對應品類。文件分析系統,可以接收使用者的品類的輸入,識別成為調査對象的品類。
對應於被識別的品類,可以判定調査以及文件分析處理的種類,和使用的資料庫的種類(S32)。
對應於被識別的品類,可以存取其儲存在調査基礎資料庫,文件分析資料庫等的使用資料庫中,所儲存的資訊(S33)。
對應於被識別的品類,對調査基礎資料庫進行存取,可以顯示其對應於被識別的品類之各關鍵字輸入畫面(S34)。
對應於被識別的品類,對調査基礎資料庫進行存取,可以顯示其對應於被識別的品類之各文章輸入畫面(S35)
對應於被識別的品類,對調査基礎資料庫進行存取,對應於被識別的品類,可以將關鍵字或者是文件進行抽樣(S36)。
藉由執行上述的處理,可以對自動區別符號付與(預測編碼Predictive Coding)的指引資料,進行加權的追加(S37)。
藉由將文件分析資料庫進行關鍵字檢索,可以縮小抽樣文件以及資訊的範圍(S38)。
第5圖是,本發明之實施形態相關的文件分析方法中,顯示因應調査種類之預測編碼流程之流程圖。
本發明之實施形態相關的文件分析方法中,一開始,文件分析系統會因應調査的種類,要求使用者輸入,可以接收使用者對此的輸入。例如,和反壟斷法相關連,關於聯合壟斷,針對對象製品,關係者(姓名和電子郵件位址),關係組織(名稱和部門)以及時期,要求使用者進行輸入,可以接收使用者對此的輸入。其他的,關於關係組織是指,關於 競爭對企業和顧客企業,要求使用者進行輸入,可以接收使用者對此的輸入(S51)。
接下來,利用輸入關鍵字,可以對加上區別符號進行加權(S52)。然後,可以進行預測編碼(S53)。
本發明之實施形態中,作為其中一例,如第6圖所示之流程圖,在第1階段~第5階段,進行登錄處理,區別處理,以及檢査處理。
第1階段中,使用過去的區別處理的結果,事先進行關鍵字和關連用語的更新登錄(STEP100)。這時候,關鍵字以及關連用語,區別符號和關鍵字或者是關連用語的對應資訊也就是關鍵字對應資訊,以及關連用語對應資訊,可以同時一併更新登錄。
在第2階段中,於第1階段所被包含更新登錄後的關鍵字之文件,由全文件資訊中加以抽樣,如果發現該文件,則參照第1階段中所儲存的更新關鍵字對應資訊,加上對應於該關鍵字之區別符號,進行第1區別處理(STEP200)。
在第3階段中,於第1階段所包含的被更新登錄後的關連用語之文件,在第2階段中,從沒有被加上區別符號的文件資訊中加以抽樣,算出其包含有該關連用語的文件的評分。該算出後的評分,參照在第1階段中被更新登錄後的關連用語對應資訊,加上區別符號,進行第2區別處理(STEP300)。
在第4階段中,對於到了第3階段仍然沒被加上區別符號的文件資訊,使用者接收加上去的區別符號,對於該文件資訊,加上由使用者所接收到的區別符號。接下來,由使用者所接收到的區別符號,對被加上該區別符號的文件資訊予以解析,根據解析結果,對沒有加上區別符號的文件進行抽樣,對抽樣後的文件,加上區別符號,進行第3區別處理。例如,該使用者所加上的區別符號在共通的文件中頻頻出現的文件予以抽樣,把每個文件中所包含的,抽樣後的單字的種類,各單字所具有的評價 值以及出現數的傾向資訊,對每個文件逐一解析,對於具有與該傾向資訊相同傾向的文件,則加上共同的區別符號(STEP400)。
在第5階段中,對於在第4階段中使用者加上區別符號後的文件,根據解析後的傾向資訊,決定其應該加上去的區別符號,把該決定後的區別符號,和使用者所加上去的區別符號,作一比較,來檢證區別處理的妥當性(STEP500)。還有,如果必要,也可以根據文件分析處理的結果,來進行學習處理。
在第4階段以及第5階段的處理中所使用的傾向資訊是指,顯示出各文件所具有,與被加上區別符號的文件之間的類似的比例,根據各文件所包含的單字的種類,出現數,單字的評價值,所成的資訊。例如,各文件中,被加上設定的區別符號的文件,與該設定的區別符號之間的關連度相類似的話,該兩個文件就可以是有相同的傾向資訊。還有,所包含的單字的種類即使不同,對於評價值相同的單字包含相同的出現數之文件,也可以說是具有相同的傾向。
從第1階段到第5階段的各階段中的詳細的處理流程,說明如下。
<第1階段(STEP100)>
第1階段中的關鍵字資料庫104的詳細的處理流程,用第7圖來說明。
關鍵字資料庫104是,在過去的訴訟中,依照把文件進行區別後的結果,對每個各自各別的區別符號,作成管理用的一覽表,以識別其對應於各區別符號的關鍵字(STEP111)。該識別是,在本發明之實施形態中,解析各個被加上區別符號的文件,雖然可以使用在該文件中的各關鍵字的出現數以及評價值來進行,不過,使用關鍵字所具有的傳達資訊量這種方法,或者是使用者用手動來選擇的方法等亦無妨。
在本發明之實施形態中,例如,當區別符號以「重要」作為關鍵字,而「侵權」以及「專利師」這樣的關鍵字被識別的時候,「侵 權」以及「專利師」就會和區別符號「重要」成為具有密切連接的關係的關鍵字,作成顯示此連接關係的關鍵字對應資訊(STEP112)。然後,把被識別的關鍵字,登錄在關鍵字資料庫104中。此時,把被識別的關鍵字和關鍵字對應資訊,兩者之間的關係連接起來,儲存在關鍵字資料庫104的區別符號「重要」的管理一覽表中(STEP113)。
接下來,關連用語資料庫105的詳細的處理流程,用第8圖來加以說明。關連用語資料庫105是,依據在過去的訴訟中,區別文件後的結果,對各自各別的每個區別符號,作成管理用的一覽表,把對應於各區別符號的關連用語加以登錄(STEP121)。在本發明之實施形態中,例如,作為「製品A」的關連用語,登錄「符號化處理」以及「製品a」,連同作為「製品B」的關連用語,登錄「解碼」以及「製品b」。
登錄後的各自各別的關連用語會對應到怎麼樣的區別符號,作成顯示此對應之關連用語對應資訊(STEP122),儲存在各管理一覽表中(STEP123)。這時候,在關連用語對應資訊中,各關連用語所具有的評價值,以及對決定區別符號所要成為的必要的評分之界限值,也會一併加以儲存。
實際上,在進行區別作業之前,關鍵字和關鍵字對應資訊,以及關連用語和關連用語對應資訊,都會更新登錄成最新的態樣(STEP113,STEP123)。
<第2階段(STEP200)>
第2階段中的第1自動區別部201的詳細的處理流程,用第9圖來加以說明。本發明之實施形態中,第2段係藉由第1自動區別部201,把區別符號「重要」,加在文件上。
在第1自動區別部201中,在第1階段(STEP100)中把登錄在關鍵字資料庫104中包含有關鍵字「侵權」以及「專利師」的文件,從文件資訊中進行抽樣(STEP211)。對於該抽樣後的文件,由關鍵 字對應資訊,參照儲存該關鍵字的管理一覽表參照(STEP212),加上「重要」這樣子的區別符號(STEP213)。
<第3階段(STEP300)>
第3階段中的第2自動區別部301的詳細的處理流程,用第13圖來加以說明。
本發明之實施形態中,第2自動區別部301,對於在第2階段(STEP200)中沒有加上區別符號的文件資訊,進行加上「製品A」以及「製品B」這樣的區別符號之處理。
第2自動區別部301是,由該文件資訊,在第1階段儲存在關連用語資料庫105中包含有關連用語「符號化處理」,「製品a」,「解碼」以及「製品b」的文件,對該文件進行抽樣(STEP311)。對該抽樣後的文件,儲存後的這四個關連用語的出現頻率,根據評價值,使用式(1),用評分算出部116來算出其評分(STEP312)。該評分係表示各文件與區別符號「製品A」以及「製品B」之間的關連度。
如果該評分超過界限值的話,則參照關連用語對應資訊(STEP313),加上適當的區別符號(STEP314)。
例如,在某文件中,如果關連用語「符號化處理」以及「製品a」的出現頻率連同關連用語「符號化處理」所具有的評價值高,且顯示其與區別符號「製品A」的關連度之評分超過界限值之際,則對該文件加上區別符號「製品A」。
這時候,如果對該文件而言關連用語「製品b」的出現頻率既高,顯示其與區別符號「製品B」的關連度之評分也超過界限值的話,則對該文件既加上區別符號「製品A」,也加上「製品B」。另一方面,如果對該文件而言關連用語「製品b」的出現頻率低,顯示其與區別符號「製品B」的關連度之評分沒有超過界限值的話,則在該文件上,只要加上區別符號「製品A」就可以了。
在第2自動區別部301中,於第4階段的STEP432,使用計算出來的評分,由以下所示的式(2),重新計算關連用語的評價值,然後進行該評價值的加權(STEP315)。
wgt i,0 :學習前的第i個選定關鍵字的權重(初始值)
wgt i,L :第L回學習後的第i個選定關鍵字的權重
γ L :第L回學習中的學習參數
θ:學習效果的界限值
例如,當「解碼」的出現頻率雖然非常高,評分卻比某一定值以上更低,像這樣的文件發生某一定次數以上的話,就將關連用語「解碼」的評價值降低,然後再儲存在關連用語對應資訊中。
<第4階段(STEP400)>
第4階段,如第11圖所示,在第3階段之前的處理,對於由沒有被加上區別符號的文件資訊中,所抽樣的一定的比例的文件資訊,接收由校閱者所加上的區別符號,對該當文件資訊加上所接收到的區別符號。接下來,如第12圖所示,由校閱者所接收到的區別符號,對加上該區別符號的文件資訊進行解析,根據該解析結果,對沒有被加上區別符號的文件資訊,加上區別符號。還有,在本發明之實施形態中,對於該文件資訊,在第4階段中,例如,進行加上「重要」,「製品A」以及「製品B」之類的區別符號的處理。針對第4階段,進一步記載如下。
第4階段中的區別符號接收付與部131的詳細的處理流程,使用第11圖來加以說明。從在第4階段中成為處理對象的文件資訊開始,首先,資訊抽樣部24,會隨機地採樣文件,然後在文件顯示部130上顯示出來。本發明之實施形態中,把成為處理對象的文件資訊當中2成的 文件,予以隨機地抽樣,由校閱者決定區別對象。採樣是,文件的作成日期時間順序,或者是依照名稱順序,排列文件,從上面開始選擇3成的文件,像這樣的抽樣的做法亦無妨。
使用者閱覽了文件顯示部130上所顯示的,第17圖所示的顯示用畫面11,對各文件選擇其所要加上去的區別符號。區別符號接收付與部131,是用來接收該使用者所選擇的區別符號(STEP411),根據所被加上去的區別符號來進行區別(STEP412)。
接下來,文件解析部118的詳細的處理流程,用第12圖來加以說明。文件解析部118中,區別符號接收付與部131中,針對每個區別符號所被區別後的文件,把共同的頻頻出現的單字予以抽樣(STEP421)。把抽樣後的共通的單字的評價值,用式(2)來進行解析(STEP422),解析該共通的單字在文件中的出現頻率(STEP423)。
接著,依照STEP422以及STEP423所解析後的結果,對加上「重要」的區別符號的文件的傾向資訊,進行解析(STEP424)。
第13圖是,利用STEP424,把被加上「重要」的區別符號的文件所共通的頻頻出現的單字,予以解析後的結果的圖表。
在第13圖中,縱軸R_hot是,在由使用者所加上區別符號為「重要」的全文件當中,顯示其包含作為加上區別符號「重要」的單字而被選定的單字,且被加上區別符號「重要」的文件的比例。橫軸是,使用者在執行區別處理的全文件當中,藉由區別符號接收付與部131,顯示其於STEP421中所包含被抽樣的單字之文件的比例。
本發明之實施形態中,區別符號接收付與部131是,把位於直線R_hot=R_all的上部,將其所被繪製的單字,作為區別符號「重要」中的共通的單字,來予以抽樣。
把STEP421到STEP424的處理,針對那些加上「製品A」以及「製品B」的區別符號的文件,予以執行,解析該文件的傾向資訊。
接下來,第3自動區別部401的詳細的處理流程,用第14圖來加以說明。第3自動區別部401是,在第4階段的處理對象的文件資訊當中,於STEP411以區別符號接收付與部131對那些沒有接收到加上區別符號的文件所進行的處理。第3自動區別部401中,從這樣的文件開始,在STEP424進行解析,對於被加上區別符號為「重要」,「製品A」以及「製品B」文件的傾向資訊,和具有相同的傾向資訊的文件,進行抽樣(STEP431),針對抽樣後的文件,依據傾向資訊,使用式(1)來算出評分(STEP432)。還有,對於在STEP431所抽樣後的文件,根據傾向資訊,加上適當的區別符號(STEP433)。
第3自動區別部401中,進一步,使用STEP432中所算出的評分,把區別結果反映在各資料庫中(STEP434)。具體而言,可以進行把評分低的文件中所包含的關鍵字以及關連用語的評價值予以調降,把評分高的文件中所包含的關鍵字以及關連用語的評價值予以提高。
進一步,第3自動區別部401的詳細的處理流程的其中一例,用第15圖來加以說明。第3自動區別部401中,第4階段的處理對象的文件資訊當中,對於在STEP411中以區別符號接收付與部131仍無法接收其加上區別符號的文件,仍可以進行區別處理。在第3自動區別部401中,如果沒有給與引數的話(STEP441:無),則從該文件開始,用STEP424來進行解析,把被加上區別符號「重要」的文件的傾向資訊,和具有相同的傾向資訊的文件,進行抽樣(STEP442),針對抽樣後的文件,依據傾向資訊,使用式(1)來算出評分(STEP443)。還有,對於STEP442中抽樣後的文件,根據傾向資訊,加上適當的區別符號(STEP444)。
第3自動區別部401中,會進一步,使用STEP443所算出來的評分,將區別結果反映在各資料庫(STEP445)。具體而言,評分低的文件所包含的關鍵字以及關連用語的評價值會被調降,另一方面,評分高的文件所包含的關鍵字以及關連用語的評價值,則會被提高。
如上所述,由第2自動區別部301和第3自動區別部401兩者算出評分,如果評分算出的回數多的話,就可以把用來評分算出的資料,總括起來,儲存在評分算出資料庫106中。
<第5階段(STEP500)>
第5階段中的品質檢査部501的詳細的處理流程,用第16圖來加以說明。品質檢査部501中,區別符號接收付與部131,對於在STEP411所接收到的文件,會根據文件解析部118在STEP424所解析後的傾向資訊,決定其所應該加上去的區別符號(STEP511)。
區別符號接收付與部131所接收的區別符號,和STEP511中所決定的區別符號,兩者比較(STEP512),在STEP411中,檢證接收到的區別符號的妥當性(STEP513)。
本發明之實施形態相關的文件分析系統1,也可以具備一學習部601。學習部601是,依據從第1到第4的處理結果,把各關鍵字或者是關連用語的加權,用式(2)來進行學習。該學習的結果,可以反映在關鍵字資料庫104,關連用語資料庫105,或者是評分算出資料庫106上。
本發明之實施形態相關的文件分析系統1可以具備有一報告作成部701,依據文件分析處理的結果,配合訴訟案件(例如,訴訟的話,有聯合壟斷.專利.FCPA.PL等等)或者是不實行為調査(例如,資訊洩漏,虛構的請求等等)的調査種類,輸出最適當的調査報告。
對於不同的調査種類,調査的內容會不一樣。例如,如果是聯合壟斷案件的話,
1.同業的負責人對於聯合壟斷相關連的默契(價格的調整),是何時.如何取得的呢?
2.關係者是怎麼樣的組織中的誰呢?
這些都是檢核要點。
還有,如果是專利侵權的話,
1.與成為侵權的對象的技術內容相同嗎?
2.是誰?何時?具有什麼樣的意圖(或不具意圖)來侵權的呢?或者是未侵權呢?
這些都會成為檢核的要點。
〔文件分析系統1所達到的效果〕
利用文件分析系統1,文件資訊所包含的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分,可以將該當評分,對使用者提出報告。亦即,將應該監控的文件的優先程度予以數值化,由於可以回饋意見給使用者,所以可以使對文件的監控達到效率化的效果。
〔其他的實施形態〕
對於本發明之實施形態的其他的實施例,記載如下。在本發明之實施形態的其他的實施例中,對應於類似的檢索資訊,來解析那些已經加上區別符號的文件,根據解析的結果,調整該些加上區別符號的範圍。
有對應於類似的檢索資訊,作為調整其加上區別符號的範圍的方法;和對應於類似的檢索資訊,把類似的檢索資訊予以群聚,調整其加上區別符號的範圍的方法;還有學習區別結果,來進行預測區別的方法。對應於類似的檢索資訊,群聚類似的檢索資訊,調整其加上區別符號的範圍的方法中,例如,特別注意元資料(metadata)的共通性,在原文件,原文件的回信文件,原文件的回信文件的回信文件上,有時會加上共通的區別符號。這種用學習區別結果來進行預測區別的方法,會針對區別結果,統合類似的檢索資訊來進行學習,藉此,針對類似的檢索資訊,加上同一或者是類似的區別符號。
在本發明之實施形態的其他的實施例中,藉由成為解析的對象的文件的件數,解析結果的信頼性也會產生變化。對於成為區別的對 象的文件的總件數,加上統計的手法,也可以在特定的時間點,對全文件的特定的比例,根據解析結果,來調整其加上區別符號的範圍。
本發明之實施形態的其他的實施例中,可以是對應於類似的檢索資訊,調整其加上區別符號的範圍之方法,也可以是對應於類似的檢索資訊,把檢索資訊予以群聚,調整其加上區別符號的範圍之方法,更可以是學習區別結果,進行預測區別的方法,執行兩者,調整其加上區別符號的文件的範圍。藉此,在本發明之實施形態的其他的實施例中,可以迅速確實地加上區別符號,同時可以減輕區別作業所伴隨而來的負担。
〔附記事項〕
文件分析系統1的控制功能方塊,可以是藉由積體電路(IC晶片)等中所形成的邏輯電路(硬體)來執行,也可以是以CPU(Central Processing Unit),利用軟體來執行。如果是後者的話,文件分析系統1是,執行各機能的軟體也就是程式(控制程式)的命令之CPU,把上述程式以及各種資料,用電腦(或者是CPU)以可讀取的方式加以儲存在ROM(Read Only Memory)或者是記憶裝置(這些稱之為「儲存媒體」),展開上述程式之RAM(Random Access Memory)等等。然後,電腦(或者是CPU)執行將上述程式由上述儲存媒體中讀取後執行,來達成本發明之目的。作為上述儲存媒體,可以是「非暫時性的有形的媒體」,例如,可以使用:卡帶,光碟片,磁卡,半導體記憶體,可程式化的邏輯電路等。還有,上述程式也可以透過可傳送的任意的傳送媒體(通信網路或廣播等),傳送到上述電腦中。本發明可以把上述程式利用電子式的傳送來具體實現,也可以用載波的資料信號的形態來執行。
本發明並不受上述各自各別的實施形態所限定,專利申請範為中所示的範圍可以有各種的變化,對不同的實施形態,各個被揭示的技術手段以適當的組合所得到的實施形態,也被包含在本發明之技術的範圍中。再者,對不同的實施形態,藉由各個被揭示的技術手段以適當的組 合所得到的實施形態,也可以形成新的技術特徵。
本發明之文件分析系統,其係一種取得記錄在複數個的電腦或者是伺服器中的數位資訊,分析該被包含在所取得的數位資訊中,由複數個的文件所構成的文件資訊,可以使訴訟或者是不實行為調査的利用更加容易之文件分析系統,具備有:一調査基儲資料庫,用來儲存與前述訴訟或者是不實行為調査相關連的資訊;一調査品類輸入接收部,用來接收前述訴訟或者是不實行為調査的品類的輸入;和一調査種類判定部;根據前述調査品類輸入接收部所接收的品類,把作為調査對象的調査品類加以判定,再從前述調査基礎資料庫,將必要的資訊的種類予以抽樣。
前述文件分析系統,更具有一顯示畫面控制部,針對使用者,有一顯示畫面來提示前述調査種類判定部所抽樣後的資訊的種類,顯示畫面控制部係用來控制該顯示畫面。
前述文件分析系統,其特徵在於:更具有一輸入接收部,對應於在前述顯示畫面控制部中所提示的資訊的種類,接收由使用者所輸入的關鍵字以及/或者是文章。
前述文件分析系統,其特徵在於:更具有一資訊抽樣部,自前述調査基礎資料庫,對應於前述調査種類判定部所抽樣的資訊的種類,將關鍵字以及/或者是文章予以抽樣。
前述文件分析系統,其特徵在於:更具有一檢索部,將前述關鍵字以及/或者是文章,自前述文件中檢索出來。
前述文件分析系統,其特徵在於:更具有一自動區別符號付與部,對前述文件,自動地加上區別符號.前述關鍵字以及/或者是文章,可以利用這一點,把前述區別符號加上去。
本發明更提供一種文件分析方法,其係一種取得被記錄在複數個的電腦或者是伺服器中的資訊,包含在該當被取得的資訊中,對從複數個的文件所構成的文件資訊加以分析,使訴訟或者是對不實行為調 查的使用會更加容易之文件分析方法,該文件分析方法包含下列步驟:一調查品類接收步驟,把前述訴訟或不實行為調查的品類的輸入加以接收;和一調查種類判定步驟,根據前述調查品類輸入接收步驟,依據所接收的品類,把作為調查對象的調查品類加以判定,從儲存前述訴訟或者是不實行為調查有關的資訊的調查基礎資料庫中,把必要的資訊的種類加以抽出。
本發明更提供一種文件分析程式,其係一種取得被記錄在複數個的電腦或者是伺服器中的資訊,包含在該當被取得的資訊中,對從複數個的文件所構成的文件資訊加以分析,使訴訟或者是對不實行為調查的使用會更加容易之文件分析程式,該程式,係於電腦中,執行:一調查品類接收機能,把前述訴訟或不實行為調查的品類的輸入加以接收;和一調查種類判定機能,根據前述調查品類輸入接收機能,係依據所接收的品類,把作為調查對象的調查品類加以判定,從儲存前述訴訟或者是不實行為調查有關的資訊的調查基礎資料庫中,把必要的資訊的種類加以抽出。
1‧‧‧文件分析系統
201‧‧‧第1自動區別部
301‧‧‧第2自動區別部
401‧‧‧第3自動區別部
501‧‧‧品質檢査部
601‧‧‧學習部
701‧‧‧評分報告部
902‧‧‧資訊收納裝置
100‧‧‧資料儲存部
101‧‧‧數位資訊儲存領域
103‧‧‧調査基礎資料庫
104‧‧‧關鍵字資料庫
105‧‧‧關連用語資料庫
106‧‧‧評分算出資料庫
107‧‧‧報告作成資料庫
109‧‧‧資料庫管理部
112‧‧‧文件抽樣部
114‧‧‧字彙檢索部
116‧‧‧評分算出部
118‧‧‧文件解析部
120‧‧‧語言判定部
122‧‧‧翻譯部
124‧‧‧傾向資訊生成部
130‧‧‧文件顯示部
131‧‧‧區別符號接收付與部
133‧‧‧律師校閱接收部

Claims (8)

  1. 一種文件分析系統,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析系統,其特徵在於:具備有:一評分算出部,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告部,對應於由前述評分算出部所計算出來的評分,將該當評分,報告給使用者。
  2. 如申請專利範圍第1項所述之文件分析系統,其中,前述評分報告部是,當用前述評分算出部所算出的評分,超過設定的界限值時,即將該當評分提出報告。
  3. 如申請專利範圍第1或2項所述之文件分析系統,其中,前述評分報告部,把由前述評分算出部所算出來的評分,顯示成可由人工觀視確認。
  4. 如申請專利範圍第1項所述之文件分析系統,其中,更具有一文件抽樣部,把前述評分報告部所報告的有評分的文件,由前述文件資訊中,予以抽樣。
  5. 如申請專利範圍第4項所述之文件分析系統,其中,前述文件抽樣部是,把被包含在前述文件資訊中的關鍵字以及/或者是文章,作為前述訴訟或者是不實行為調査相關連的資訊,從該當文件資訊中,予以 抽樣。
  6. 如申請專利範圍第5項所述之文件分析系統,其中,更具有一字彙檢索部,將前述關鍵字以及/或者是文章,由前述複數個的文件中,予以檢索。
  7. 一種文件分析系統,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其特徵在於:包含有:一評分算出步驟,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告步驟,對應於由前述評分算出部所計算出來的評分,將該當評分報告給使用者。
  8. 一種文件分析程式,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其特徵在於:在電腦中,具有:一評分算出機能,被包含在前述文件資訊中的文件,與顯示前述文件資訊和訴訟或者是不實行為調査之間的的關連度之區別符號相結合,顯示其結合的強度,對此強度算出其評分;和一評分報告機能,對應於由前述評分算出部所計算出來的評分,將該當評分報告給使用者。
TW104103852A 2014-02-04 2015-02-04 文件分析系統、文件分析方法、以及文件分析程式 TW201543237A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052582 WO2015118620A1 (ja) 2014-02-04 2014-02-04 文書分析システム、文書分析方法、および、文書分析プログラム

Publications (1)

Publication Number Publication Date
TW201543237A true TW201543237A (zh) 2015-11-16

Family

ID=52684931

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104103852A TW201543237A (zh) 2014-02-04 2015-02-04 文件分析系統、文件分析方法、以及文件分析程式

Country Status (5)

Country Link
US (1) US9977825B2 (zh)
JP (1) JP5683749B1 (zh)
KR (1) KR101911304B1 (zh)
TW (1) TW201543237A (zh)
WO (1) WO2015118620A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9910994B1 (en) * 2015-08-27 2018-03-06 Amazon Technologies, Inc. System for assuring security of sensitive data on a host
US20180300323A1 (en) * 2017-04-17 2018-10-18 Lee & Hayes, PLLC Multi-Factor Document Analysis
KR102472200B1 (ko) * 2019-10-02 2022-11-29 (주)디앤아이파비스 단어의 출현 비율을 이용한 중요도 스코어 산출 방법
KR20210051218A (ko) 2019-10-30 2021-05-10 두산중공업 주식회사 이메일 기반의 개인실적관리 서비스를 제공하는 방법, 이를 위한 장치 및 저장 매체
KR102497436B1 (ko) * 2022-09-16 2023-02-08 주식회사 액션파워 음성 신호를 포함하는 컨텐츠를 기반으로 타겟 단어와 관련된 정보를 획득하는 방법

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4434897B2 (ja) 2004-09-17 2010-03-17 株式会社野村総合研究所 電子メール監査システム、方法およびプログラム
US20090070101A1 (en) 2005-04-25 2009-03-12 Intellectual Property Bank Corp. Device for automatically creating information analysis report, program for automatically creating information analysis report, and method for automatically creating information analysis report
JP4987434B2 (ja) 2006-11-15 2012-07-25 株式会社日立製作所 電文データの監査用保管・検索システム、電文データの監査用保管・検索方法、および電文データの監査用保管・検索プログラム
JP5481965B2 (ja) 2009-06-26 2014-04-23 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5252588B2 (ja) 2010-03-11 2013-07-31 キヤノンマーケティングジャパン株式会社 電子メール監査装置、その制御方法及びプログラム
JP4868191B2 (ja) * 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
WO2011152053A1 (ja) * 2010-06-04 2011-12-08 パナソニック株式会社 画像処理装置、画像処理方法、集積回路、プログラム
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US20120244510A1 (en) 2011-03-22 2012-09-27 Watkins Jr Robert Todd Normalization and Cumulative Analysis of Cognitive Educational Outcome Elements and Related Interactive Report Summaries
JP5530476B2 (ja) 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
US20150081880A1 (en) * 2013-09-17 2015-03-19 Stackdriver, Inc. System and method of monitoring and measuring performance relative to expected performance characteristics for applications and software architecture hosted by an iaas provider

Also Published As

Publication number Publication date
US20170075986A1 (en) 2017-03-16
US9977825B2 (en) 2018-05-22
JP5683749B1 (ja) 2015-03-11
WO2015118620A1 (ja) 2015-08-13
JPWO2015118620A1 (ja) 2017-03-23
KR101911304B1 (ko) 2018-10-24
KR20160111022A (ko) 2016-09-23

Similar Documents

Publication Publication Date Title
US10891699B2 (en) System and method in support of digital document analysis
JP5627820B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
US20160170981A1 (en) Document analysis system, document analysis method, and document analysis program
TW201543237A (zh) 文件分析系統、文件分析方法、以及文件分析程式
JP5627750B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
TW201545104A (zh) 資料分析系統、資料分析方法、及資料分析程式
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
TWI518631B (zh) File classification survey system, document classification survey method and file classification survey program
TW201539217A (zh) 文件分析系統、文件分析方法、以及文件分析程式
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5815911B1 (ja) 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム
JP5829768B2 (ja) 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
TW201606534A (zh) 文件分析系統、文件分析方法、以及文件分析程式
JP5990562B2 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5851007B2 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP2015056185A (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム