TW201539217A - 文件分析系統、文件分析方法、以及文件分析程式 - Google Patents

文件分析系統、文件分析方法、以及文件分析程式 Download PDF

Info

Publication number
TW201539217A
TW201539217A TW104103850A TW104103850A TW201539217A TW 201539217 A TW201539217 A TW 201539217A TW 104103850 A TW104103850 A TW 104103850A TW 104103850 A TW104103850 A TW 104103850A TW 201539217 A TW201539217 A TW 201539217A
Authority
TW
Taiwan
Prior art keywords
information
file
investigation
unit
litigation
Prior art date
Application number
TW104103850A
Other languages
English (en)
Inventor
Masahiro Morimoto
Hideki Takeda
Kazumi Hasuko
Akiteru HANATANI
Nanako Yoshida
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Publication of TW201539217A publication Critical patent/TW201539217A/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]

Abstract

本發明提供一種對使用於訴訟中的文件資訊更容易進行分析的手段。本發明之文件分析系統,具備有:一調査基礎資料庫,係把訴訟或者是成為不實行為調査的原因之設定的行為,所產生的生成過程模式,因應該當設定的行為的進展而分類之相位,逐個加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬之品類以及前述每個生成過程模式進一步加以儲存,把顯示前述相位的時間序列之時間序列資訊進一步加以儲存;和一算出部,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊所成的前述文件資訊加以分析,把前述設定行為所產生的顯示可能性的指標,從該當分析後的結果加以算出。

Description

文件分析系統、文件分析方法、以及文件分析程式
發明係關於一種文件分析系統,文件分析方法,以及文件分析程式。
以往,非法存取或是機密資訊洩漏等等關於電腦的犯罪或法律紛爭產生之際,在原因究明或者是在搜査上,都會將必要的機器或資料,以及電子記錄加以取集‧分析,在此,本發明提供一種作為法律上明顯的證據性的手段或技術的提案。
特別是,在美國民事訴訟當中,都被要求進行eDiscovery(電子證據開示),無論是該當訴訟的原告以及被告,任何另一方面都負有將相關的數位資訊作為證據加以提出的責任。因此,必須把記錄在電腦‧伺服器中的數位資訊作為證據,加以提出。
另一方面,隨著資訊科技的急速發達與普及,今日的商業世界中幾乎所有的資訊都是用電腦作成的,即使是在同一企業內,也泛濫著許多的數位資訊。
因此,在進行對法庭提出證據資料的準備作業的過程中,就連與該當訴訟不見得有關係的機密的數位資訊,也容易會有被當作證據資料而提出去的失誤。還有,把與該當訴訟沒關係的機密文件資訊提出去, 會造成問題。
近年,與法庭立證系統中的文件資訊有關的技術,在專利文獻1到專利文獻3中曾被提案。在專利文獻1中,從利用者資訊中所包含的至少1人以上的利用者中,指定識別的人,根據被指定的識別的人的相關存取履歴資訊,只針對識別的人所存取的數位文件資訊來進行抽樣,被抽樣的數位文件資訊的文件檔案,逐一分別地,對顯示是否與訴訟相關連的付帶資訊加以設定,根據付帶資訊,把與訴訟相關連的文件檔案加以輸出,所開示的一種法庭立證系統。
還有,在專利文獻2中,顯示其所儲存的數位資訊,對複數個的文件檔案中的毎個檔案,利用者資訊所包含的利用者之中,顯示其是否與任一利用者相關連之利用者識別資訊,對此加以設定,再將該設定的利用者識別資訊,設定成儲存在記憶部中,指定至少一人以上的利用者,對應於被指定的利用者之利用者識別資訊,對其所設定的文件檔案加以檢索,透過顯示部,被檢索的文件檔案,對顯示是否與訴訟相關連的付帶資訊加以設定,根據付帶資訊,把與訴訟相關連的文件檔案加以輸出,所開示的一種法庭立證系統。
還有,在專利文獻3中,接收該數位文件資訊中所包含的至少1個以上的文件檔案的指定,接收其把被指定的文件檔案翻譯成任一語言之指定,把接收該指定的文件檔案,翻譯成接收該指定的語言,從儲存在儲存部中的數位文件資訊,將被指定的文件檔案和顯示相同內容的共通文件檔案予以抽樣,被抽樣的共通文件檔案,把翻譯後的文件的翻譯內容,藉由援用,來生成其所顯示的翻譯後的翻譯關連資訊,根據翻譯關連資訊,把與訴訟相關連的文件檔案加以輸出,該文獻揭示了這樣的法庭立證系統。
(先行技術文獻)
(專利文獻1)特開2011-209930號公報
(專利文獻2)特開2011-209931號公報
(專利文獻3)特開2012-32859號公報
可是,例如,在如專利文獻1~3的法庭立證系統中,就有使用複數個的電腦‧伺服器來收集使用者的巨大的文件資訊。
像這樣把被數位化的巨大的文件資訊,當作是訴訟的證據資料,來區別是否妥當的作業,要靠著被稱之為校正者的使用者以人力目視來確認,必須把該當文件資訊一個一個的加以區別,會有花費極大的勞力和費用的問題。
本發明的目的在於提供一種,使在訴訟中所利用的文件資訊的分析更為容易之文件分析系統,文件分析方法,以及文件分析程式。
本發明之文件分析系統,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析系統,其特徵在於:具備有: 一調査基礎資料庫,係把訴訟或者是成為不實行為調査的原因之設定的行為,所產生的生成過程模式,因應該當設定的行為的進展而分類之相位,逐個加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬之品類以及前述每個生成過程模式進一步加以儲存,把顯示前述相位的時間序列之時間序列資訊進一步加以儲存;和一算出部,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊所成的前述文件資訊加以分析,把前述設定行為所產生的顯示可能性的指標,從該當分析後的結果加以算出。
上述文件分析系統,更具有:一調査品類輸入接收部,用來接收前述訴訟或者是不實行為調査的品類的輸入;和一調査種類判定部,根 據由前述調査品類輸入接收部所接收的品類,判定其為作為調査的對象之前述品類,由前述調査基礎資料庫中,將必要的資訊的種類予以抽樣。
上述文件分析系統,更具備一資訊抽樣部,把前述文件資訊中所包含的關鍵字以及/或者是文章,作為與前述訴訟或者是不實行為調査相關連的資訊,從該當文件資訊中予以抽樣。
上述文件分析系統,更具備一檢索部,將前述關鍵字以及/或者是文章,由前述複數個的文件中,進行檢索。
上述文件分析系統,更具備一自動區別符號付與部,針對前述複數個的文件,各自各別地,自動地加上區別符號;前述關鍵字以及/或者是文章,會被加上前述區別符號而加以利用。
本發明之文件分析方法,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其特徵在於:包含有一算出步驟:造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
本發明之文件分析程式,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析程式,其特徵在於:在電腦中,執行一算出機能: 造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
藉由本發明的文件分析系統,文件分析方法,以及文件分析程式,可使在訴訟中所利用的文件資訊的分析更為容易。
1‧‧‧文件分析系統
201‧‧‧第1自動區別部
301‧‧‧第2自動區別部
401‧‧‧第3自動區別部
501‧‧‧品質檢査部
601‧‧‧學習部
701‧‧‧報告作成部
100‧‧‧資料儲存部
101‧‧‧數位資訊儲存領域
103‧‧‧調査基礎資料庫
104‧‧‧關鍵字資料庫
105‧‧‧關連用語資料庫
106‧‧‧評分算出資料庫
107‧‧‧報告作成資料庫
109‧‧‧資料庫管理部
116‧‧‧評分算出部
118‧‧‧文件解析部
120‧‧‧語言判定部
122‧‧‧翻譯部
124‧‧‧傾向資訊生成部
130‧‧‧文件顯示部
131‧‧‧區別符號接收付與部
133‧‧‧律師校閱接收部
11‧‧‧文件顯示畫面
20‧‧‧調査品類輸入接收部
22‧‧‧調査種類判定部
24‧‧‧資訊抽樣部
26‧‧‧分析部
28‧‧‧算出部
30‧‧‧檢索部
32‧‧‧自動區別符號付與部
第1圖 本發明之實施形態相關的文件分析系統,顯示要部結構之功能方塊圖
第2圖 本實施形態中所想定的可能相位一覽表
第3圖 (a)是,上述設定的行為產生的過程,對每個相位,顯示其作為上述生成過程模式而模式化的模式圖,(b)是顯示,與上述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬的品類,以及上述生成過程模式逐一儲存的模式圖
第4圖 本發明之實施形態相關的文件分析系統的詳細的結構圖
第5圖 本發明之實施形態相關的文件分析方法,顯示其處理的流程之流程圖
第6圖 本發明之實施形態相關的文件分析方法中,顯示其詳細的處理流程之流程圖
第7圖 本發明之實施形態相關的文件分析方法中,因應調査種類,顯示其調査以及區別處理流程之流程圖
第8圖 本發明之實施形態相關的文件分析方法中,顯示因應調査種類之預測編碼流程之流程圖
第9圖 實施形態中,顯示每個階段的處理流程之流程圖
第10圖 實施形態中,顯示關鍵字資料庫的處理流程之流程圖
第11圖 本實施形態中,關連用語資料庫的處理流程圖
第12圖 本實施形態中,第1自動區別部的處理流程圖
第13圖 本實施形態中,第2自動區別部的處理流程圖
第14圖 本實施形態中,區別符號接收付與部的處理流程圖
第15圖 本實施形態中,文件解析部的處理流程圖
第16圖 本實施形態中,顯示在文件解析部的解析結果之圖表
第17圖 本實施形態之一實施例中,第3自動區別部的處理流程圖
第18圖 本實施形態之其他的實施例中,第3自動區別部的處理流程圖
第19圖 本實施形態中,品質檢査部的處理流程圖
第20圖 本實施形態中,文件顯示畫面
第1圖是,本發明之實施形態相關的文件分析系統1,顯示要部結構之功能方塊圖。文件分析系統1是,取得在設定的電腦或者是伺服器中所儲存的資訊,對該當被取得的資訊中所包含的,由複數個的文件所構成的文件資訊,加以分析的系統。如第1圖所示,上述文件分析系統1係具備有:調査品類輸入接收部20,調査種類判定部22,資訊抽樣部24,調査基礎資料庫103,分析部26,算出部28,檢索部30,以及,自動區別符號付與部32。
調査品類輸入接收部20是,把由使用者所造成的訴訟或者是不實行為調査的品類的輸入,加以接收的手段。在這裡,上述訴訟或者是不實行為調査的品類是,用來表示該當訴訟或者是不實行為調査相關連的事件的性質,例如,反壟斷,專利,海外賄賂禁止(FCPA),製造物責任(PL),資訊洩漏,虛構的請求等等。當品類被輸入的時候,調査品類輸入接收部20,會將該當品類輸出到調査種類判定部22。
調査種類判定部22是,根據上述調査品類輸入接收部20所接收的品類,判定其作為調査的對象之品類,由調査基礎資料庫103,將必要的資訊的種類予以抽樣。例如,上述文件資訊是,電子郵件,簡報資料,表計算資料,協商資料,契約書,組織圖,或者是事業計畫書之任一種資訊的話,調査種類判定部22會將電子郵件作為上述必要的資訊的種類,輸出到資訊抽樣部24。
資訊抽樣部24會對文件資訊中的複數個的文件予以抽樣。具體而言,資訊抽樣部24是,由上述調査種類判定部22所輸入的資訊(例如,電子郵件,簡報資料,表計算資料,協商資料,契約書,組織圖,事業計畫書等等),把該當資訊中所包含的關鍵字以及/或者是文章,作為訴訟或者是不實行為調査相關連的資訊,來加以抽樣,再把該當抽樣後的結果,儲存在調査基礎資料庫103中。
調査基礎資料庫103,係把訴訟或者是成為不實行為調査的原因之設定的行為,所產生的生成過程模式,因應該當設定的行為的進展而分類之相位,逐個加以儲存。在這裡,上述訴訟可以是,例如,反壟斷,專利,海外賄賂禁止(FCPA),製造物責任(PL)等等相關的訴訟。還有,上述不實行為調査可以是,資訊洩漏,虛構的請求等等相關的調査。再者,上述設定的行為可以是,例如,反壟斷,專利,海外賄賂禁止,製造物責任,資訊洩漏,虛構的請求等等的不正當的行為(例如,參加同業的價格調整會議等等)。
第2圖是,本實施形態中所想定的可能相位一覽表。如前所述,上述相位是,表示上述設定的行為所進展的各個階段(因應上述設定的行為的進展來加以分類)的指標。例如,所謂「Relationship Building」(關係構築)的相位是,以所謂Competition(競爭)的相位為前提之階段,可以說是構築其顧客‧同業之間的關係的階段。還有,所謂「Preparation」(準備)的相位是,與其他同業公司(也可以說是第三者)交換競爭之相關資訊的階段。再者,所謂「Competition」(競爭)的相位是,對顧客提示價格,得到回饋意見,關於該當回饋意見,與同業取得溝通意見的階段。
在這裡,上述所謂「Relationship Building」(關係構築)的相位中,產生所謂「由顧客見證」的行為(成為訴訟或者是不實行為調査的原因之設定行為),會是很普通的狀況。還有,上述所謂「Preparation」(準備)的相位中,會產生很多所謂「得知同業的生產狀況」的行為(成為訴訟或者是不實行為調査的原因之設定的行為)。其他的,如分別對應於上述相位,會變成訴訟或者是不實行為調査的原因的一般性的行為,會變得更明顯。
上述生成過程模式是,因應於訴訟或者是不實行為調査相關連的資訊(例如,由文件資訊所抽樣的關鍵字),設定的行動主體(個人或者是複數人所構成的組織),達到上述設定的行為的過程所相關的模式。上述生成過程模式包含有,例如,性格類型模式,行動類型模式,群組類型模式等等。
第3圖(a)是,上述設定的行為產生的過程,對每個相位,顯示其作為上述生成過程模式而模式化的模式圖。如前所述,調査基礎資料庫103,會將上述生成過程模式,逐一儲存在上述相位中。例如,對於上述所謂「Relationship Building」(關係構築)的相位,會對應到一個生成過程模式,對於上述所謂「Preparation」(準備)的相位,會對應到另一個生成過程模式。亦即,上述設定的行為產生的過程中,每個相位會作為上述 生成過程模式,而被模式化。
調査基礎資料庫103,係把訴訟或者是成為不實行為調査的原因之設定的行為,所產生的生成過程模式,因應該當設定的行為的進展而分類之相位,逐個再度加以儲存,在這裡,訴訟或者是不實行為調査相關連的資訊可以是,藉由資訊抽樣部24,從文件資訊所抽樣的關鍵字,關鍵字的組合,或者是中介資訊等等。還有,上述中介資訊是,顯示上述文件資訊所具有的設定的屬性的資訊,例如,該當文件資訊是電子郵件的話,可以是該當電子郵件其送收信的日期時間。
第3圖(b)是顯示與上述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬的品類,以及上述生成過程模式逐一儲存的模式圖。如前所述,調査基礎資料庫103是把上述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬的品類以及上述生成過程模式,逐一地加以儲存。例如,對於所謂「反壟斷」的品類,和其一個生成過程模式,將上述訴訟或者是不實行為調査相關連的資訊,儲存在調査基礎資料庫103中。
還有,調査基礎資料庫103,可以把時間序列資訊進一步加以儲存。上述時間序列資訊是,顯示上述相位的時間性的序列的資訊。以第2圖所示為例,上述時間序列資訊可以是,由所謂「Relationship Building」(關係構築)的相位,經過所謂「Preparation」(準備)的相位,發展至所謂「Competition」(競爭)的相位,顯示其一連串的遷移的資訊。
分析部26是,根據上述訴訟或者是不實行為調査相關連的資訊,上述生成過程模式,以及上述時間序列資訊,來分析上述文件資訊。具體而言,分析部26是,將上述訴訟或者是不實行為調査相關連的資訊,上述生成過程模式,以及上述時間序列資訊,由調査基礎資料庫103中讀取出來,來進行調査對象資料的形態素解析以及關鍵字分析,藉此,對該當於上述設定的行為的行動進行抽樣。分析部26是,把該當分析後的結果(抽 樣後的設定的行為)輸出到算出部28。
算出部28是,把顯示上述設定的行為發生的可能性的指標(案件索引),由上述分析後的結果計算出來。具體而言,會成為訴訟或者是不實行為調査的原因之設定的行為,可以各別分別地,任意設定指標的加分,算出部28是,把對應於被抽樣後的設定的行為之上述指標,增加到上述加分中。例如,所謂「Relationship Building」(關係構築)的相位所屬的設定的行為如果被抽樣的話,算出部28,可以把對應於該當設定的行為的上述指標,加1分。還有,在第2圖所示的例中,對任意的行為的指標的加分,雖然被設定成加「1」分,但是該當加分是可以被任意設定的。還有,上述指標的上限值,也可以被設定成例如10。
檢索部30是,將資料庫所儲存的關鍵字或者是關連用語,由文件資訊中,加以檢索。亦即,檢索部30是,將關鍵字(例如,「侵權」,「訴訟」等等的語)以及/或者是文章,由上述複數個的文件中,加以檢索。
自動區別符號付與部32是,分別對應於上述複數個的文件,自動地加上區別符號。這時候,上述關鍵字以及/或者是文章,就可以利用上述加上去的區別符號。
以往的法庭立證系統中,對於訴訟的發展過程中的疑慮(例如,資訊洩漏的危險程度等等)是無法數值化的。因此,對於有可能發生的危機無法客觀的加以掌握。
利用文件分析系統1,把會成為訴訟或者是不實行為調査的原因的設定的行為(例如,不實行為等等),其所發生的疑慮,予以指標化,就可以客觀地掌握該當設定的行為的危險程度。藉此,因應該當指標的動向,利用進行報告等等,就可以監視上述設定的行為。因此,文件分析系統1,可以使利用於訴訟中的文件資訊,更容易分析。
接著,關於本發明之文件分析系統的詳細,參照圖面,具體地加以說明。還有,以下用來說明的例子只是其中一例,本發明並不 限定於該例。
第4圖是,本發明之實施形態相關的文件分析系統1的詳細的結構圖。
如第4圖所示,本實施形態相關的文件分析系統1可以具有一用來儲存資訊以及資料的資料儲存部100。該資料儲存部100是,用來進行訴訟或者是不實行為調査的解析,把由複數個的電腦或者是伺服器中所取得的數位資訊,儲存在數位資訊儲存領域101中。
然後,資料儲存部100儲存有:一調査基礎資料庫103,把例如,包含反壟斷,專利,FCPA,PL之訴訟案件或者是包含資訊洩漏,虛構的請求之不實行為調査的任一品類所屬之品類屬性,公司名,負責人,監督管理員,以及調査或者是區別輸入畫面的結構,加以儲存;一關鍵字資料庫104,把被包含在所取得的數位資訊中文件的識別的區別符號,與該識別的區別符號有密切連接的關係之關鍵字,以及顯示該識別的區別符號與該關鍵字的對應關係之關鍵字對應資訊,予以登錄;一關連用語資料庫105,把設定的區別符號,和該設定的區別符號所加上去的文件中,由出現頻率高的單字所構成的關連用語,和顯示該設定的區別符號和關連用語的對應關係之關連用語對應資訊,予以登錄;和一評分算出資料庫106,用來將顯示文件和區別符號的結合強度之評分加以算出,把該文件中所包含的字彙的加權,予以登錄。
還有,如前所述,上述調査基礎資料庫103是,把成為訴訟或者是不實行為調査的原因的設定的行為所發生的生成過程模式,對應於該當設定的行為的進展,逐一儲存在分類的相位中。還有,上述調査基礎資料庫103,也儲存用來顯示上述相位的時間序列之時間序列資訊儲存
再者,資料儲存部100,會因應品類,監督管理員,區別作業的內容,把確定的報告書的形式加以登錄,儲存到報告作成資料庫107中。 該資料儲存部100,如第4圖所示,可以被設置在文件分析系統1內,也可以作為其他個的儲存器裝置,來設置在文件分析系統1的外部。
本發明之實施形態相關的文件分析系統1具備有:調査基礎資料庫103,關鍵字資料庫104,關連用語資料庫105,評分算出資料庫106,以及將報告作成資料庫107的資料內容的更新予以管理之資料庫管理部109。
資料庫管理部109,可以透過專用連接線或者是網際網路回線901,連結到資訊儲存裝置902。然後,資料庫管理部109,可以根據資訊儲存裝置902中所儲存的資料內容,來更新調査基礎資料庫103,關鍵字資料庫104,關連用語資料庫105,評分算出資料庫106,以及報告作成資料庫107的資料內容。
本發明之實施形態相關的文件分析系統1,如前所述,具備有:調査品類輸入接收部20,調査種類判定部22,資訊抽樣部24,分析部26,算出部28,以及檢索部30。還有,自動區別符號付與部32,是以第1自動區別部201,第2自動區別部,以及第3自動區別部401,來進行執行的。
本發明之實施形態相關的文件分析系統1具有:把顯示文件和區別符號相結合的強度之評分予以算出之評分算出部116;利用檢索部30,對關鍵字資料庫104中所儲存的關鍵字進行檢索,把包含有關鍵字的文件,從文件資訊中加以抽樣,對該抽樣後的文件,根據關鍵字對應資訊,自動地加上識別的區別符號之第1自動區別部201;由文件資訊,對關連用語資料庫中所儲存的包含有關連用語的文件進行抽樣,根據該抽樣後的文件所包含的關連用語的評價值以及該關連用語的數量,算出評分,在包含有關連用語的文件當中,對於該評分超過一定值的文件,根據評分以及關連用語對應資訊,自動地加上設定的區別符號之第2自動區別部301。
還有,實施形態相關的文件分析系統1具備有:把由文件資訊中抽樣出來的複數個的文件,顯示在畫面上之文件顯示部130;對於由文 件資訊中抽樣出來的沒有加上區別符號的複數個的文件,使用者根據其與訴訟的關連性,接收其加上去的區別符號,然後加上區別符號之區別符號接收付與部131;藉由區別符號接收付與部131,來解析被加上區別符號的文件之文件解析部118;和對於由文件資訊中抽樣出來的複數個的文件,藉由區別符號接收付與部131,把加上區別符號後的文件,根據用文件解析部118所解析後的解析結果,自動地加上區別符號之第3自動區別部401。
還有,本發明之實施形態相關的文件分析系統1可以具備有:把抽樣後的文件的語言的種類加以判定之語言判定部120;和接收使用者的指定,或者是,自動地,把抽樣後的文件加以翻譯之翻譯部122。為了可以對應於1文字多語言的複合語言,可以把語言判定部120中的語言的小段落定得比1文字更小。再者,也可以把HTML的標頭等,從翻譯的對象中加以排除。
還有,本發明之實施形態相關的文件分析系統1,可以具備一傾向資訊生成部124,用來產生傾向資訊.由於是用文件解析部118來進行解析,根據各文件所包含的單字的種類,出現數,單字的評價值,來表示各文件所具有的區別符號與其所加上去的文件之間的類似的比例之傾向資訊。
還有,本發明之實施形態相關的文件分析系統1,可以具備有一品質檢査部501,用來把區別符號接收付與部131所接收到的區別符號,和在文件解析部118中用傾向資訊所加上去的區別符號,兩者加以比較,藉以檢證區別符號接收付與部131所接收到的區別符號的妥當性。
再者,本發明之實施形態相關的文件分析系統1,可以具備有一學習部601,依據文件分析處理的結果,來學習各關鍵字或者是關連用語的加權。
本發明之實施形態相關的文件分析系統1,可以具備有一報告作成部701,依據文件分析處理的結果,對照訴訟案件或者是不實行為調 査的調査種類,來輸出最適當的調査報告。訴訟案件包含有:例如,反壟斷(聯合壟斷),專利,海外賄賂禁止(FCPA),或者是製造物責任(PL)。還有,不實行為調査包含有:例如,資訊洩漏,虛構的請求。
本發明之實施形態相關的文件分析系統1,可以具備有:一律師校閱接收部133,為了提高區別調査和報告的品質,例如,接收主任律師或者是主任專利師的校閱。
為了讓本發明之實施形態相關的文件分析系統1可以容易理解,實施形態中所特有的用語,記載如下。
所謂「區別符號」,是指在把文件進行分類之際,所使用的識別子,為了在訴訟上的利用更為容易,而顯示與訴訟之間的關連度。例如,在訴訟中,把文件資訊作為證據來使用之際,就可以因應證據的種類,把它加上去。
所謂「文件」是指,包含一個以上的單字的資料。「文件」舉例而言,像是電子郵件,簡報資料,表計算資料,協商資料,契約書,組織圖,事業計畫書等。
所謂「單字」是指,具有意義的最少文字列的群集。例如,「所謂文件,是指包含一個以上的單字的資料。」這樣的句子中,包含了「文件」「一個」「以上」「單字」「包含」「資料」「所謂」這些單字。
所謂「關鍵字」是指,在某一種語言中,具有一定的意義的文字列的群集。例如,從「把文件加以區別」這樣的句子中,選定關鍵字的話,可以把「文件」「區別」等等作為關鍵字。實施形態中,可以重點式地選定像是「侵權」或「訴訟」,「專利公報○○號」來作為關鍵字。
本實施形態中,關鍵字中,包含有形態素。
還有,所謂「關鍵字對應資訊」是指,顯示關鍵字與識別的區別符號之間的對應關係的資訊。例如,在訴訟中,顯示重要的文件之「重要」的區別符號,與「侵權者」這樣子的關鍵字之間,如果有密切連接的 關係的話,上述「關鍵字對應資訊」可以說就是把區別符號「重要」和關鍵字「侵權者」兩者繫合,加以管理的資訊。
所謂「關連用語」是指,設定的區別符號所加上去的文件其共同出現頻率高的單字當中,評價值在一定值以上的用語。例如,出現頻率是指,在一個文件中登場的單字的總數當中,關連用語所出現的比例。
還有,「評價值」是指,各單字在某個文件中,所發揮的資訊量。「評價值」也可以把傳達資訊量當作基準加以計算出來。例如,把設定的商品名作為區別符號加上去的話,上述「關連用語」可以是指,該商品所屬的技術領域的名稱,該商品的販賣國,該商品的類似商品名等。具體而言,把進行畫像符號化處理的裝置的商品名,作為區別符號來加上去的話,其「關連用語」可以是:「符號化處理」,「日本」,「編碼器」等。
所謂「關連用語對應資訊」是指,用來顯示關連用語與區別符號之間的對應關係的資訊。例如,與訴訟相關的商品名為「製品A」之區別符號是製品A的機能,如果是有「畫像符號化」這樣的關連用語的話,「關連用語對應資訊」可以說是,把區別符號「製品A」和關連用語「畫像符號化」相繫合,而加以管理的資訊。
所謂「評分」,在某個文件中,把與識別的區別符號相結合的強度,以定量地加以評價的手段。本發明之各實施形態中,例如,把評分用以下的式(1),對文件中出現的單字,利用各單字所具有的評價值,加以算出。
Scr:文件的評分
mi:第i個關鍵字或者是關連用語的出現頻率
:第i個關鍵字或者是關連用語的權重
還有,本發明之實施形態相關的文件分析系統1,也可以對 使用者所加上去的區別符號,在共通的某文件中頻頻出現的單字,進行抽樣。然後,在每個文件中所包含的,該抽樣後的單字的種類,各單字所具有的評價值,以及出現數的傾向資訊,對每個文件逐一加以解析,至於由區別符號接收付與部131,沒有接收區別符號的文件當中,對於和解析解析後的傾向資訊有相同傾向的文件,也可以加上共通的區別符號。
在這裡,所謂「傾向資訊」是指,各文件所具有的,顯示其與被加上區別符號後的文件之間的類似的比例,根據各文件所包含的單字的種類,出現數,單字的評價值,來表示其與設定的區別符號之間的關連度。例如,各文件,其被加上設定的區別符號之文件,與該設定的區別符號之間的關連度如果是類似的話,該2個文件就具有相同的傾向資訊。還有,即使所包含的單字的種類不同,對於把評價值相同的單字,用相同的出現數來包含的文件,也可以當作是具有相同傾向的文件。
接下來,針對本發明之文件分析方法,加以說明
第5圖是,本發明之實施形態相關的文件分析方法(文件分析系統的控制方法),顯示其處理的流程之流程圖。
一開始,分析部26,會將上述訴訟或者是不實行為調査相關連的資訊,上述生成過程模式,以及上述時間序列資訊,從調査基礎資料庫103中讀取出來(步驟41,以下將「步驟」略記為「S」)。接下來,分析部26,會藉由調査對象資料的形態素解析以及關鍵字分析的進行(S42),將該當於上述設定的行為之行動,進行抽樣(S43)。然後,算出部28,把顯示上述設定的行為發生的可能性的指標(案件索引),由上述分析後的結果中,計算出來(S44,算出步驟)。
接著,關於本發明之文件分析方法的詳細,參照圖面,具體加以說明。還有,以下說明的例子為其中一例而已,本發明並未被限定於該例。
第6圖是,本發明之實施形態相關的文件分析方法中,顯示 其詳細的處理流程之流程圖。還有,第5圖中所示的流程,可以是從第6圖所示流程中獨立出來處理,第6圖中所示流程的任一個地方,也可以用內部涵蓋的處理,來予以執行。
因應顯示部的顯示畫面的顯示,由使用者接收引數的指定,例如,包含有反壟斷,專利,FCPA,PL的訴訟案件,或者是包含有資訊洩漏,虛構的請求之不實行為調査,可以識別其所對應的品類(S11)。
對應於被識別的品類,可以識別其調査基礎資料庫,文件分析資料庫等的使用資料庫(S12)。
為了確認使用資料庫是不是最新的狀態,可以對儲存在最新資料庫中的資訊儲存裝置,r進行存取。資訊儲存裝置,有時是被設置在實施區別的組織的內部,有時是被設置在組織的外部。資訊儲存裝置如果是被設置在組織的外部的話,例如,可以被設置在合作的法律事務所或者是專利事務所中。
對資訊儲存裝置進行存取時,為了保持安全性,可以藉由ID以及密碼進行認證(S13)。
在進行認證之後,允許對資訊儲存裝置進行存取,也可以對調査基礎資料庫,文件分析資料庫等的使用資料庫之指標性的資料庫進行更新(S14)。
對更新後的調査基礎資料庫,進行檢索(S15),可以在顯示裝置的畫面上,提示公司名,負責人,監督管理員的名字(S16)。
顯示裝置的畫面上所顯示的負責人和監督管理員的名字,如果和實際的負責人和監督管理員的名字不同的話,使用者就可以用顯示裝置的畫面,來修正負責人和監督管理員的名字。文件分析系統,可以接收使用者的修正輸入,來識別實際的負責人和監督管理員的名字(S17)。
接下來,為了實施文件分析作業,可以對數位文件資訊進行抽樣(S18)。
作為更新後的文件分析資料庫,對於更新後的關鍵字資料庫,關連用語資料庫,以及評分算出資料庫,進行檢索(S19),可以對抽樣文件資訊加上區別符號(S20)。
還有,由校閱者來接收的區別符號,可以把區別符號加在抽樣文件資訊上(S21)。
把區別結果作為指引資料,來檢索資料庫,可以在抽樣文件資訊上,加上區別符號(S22)。
可以接收由主任律師或者是專利師所作成的校閱(S23)。藉此,可以提高調査的品質。
藉由使用者的引數指定,來識別品類(S24),對應於被識別的品類,可以識別其報告作成資料庫(S25)。可以藉由被識別的報告作成資料庫,來決定報告書的形式,自動地輸出報告書(S26)。
第7圖是,本發明之實施形態相關的文件分析方法中,因應調査種類,顯示其調査以及區別處理流程之流程圖。
一開始,可以輸入調査種類(S31)。亦即,對應於顯示畫面的顯示,使用者可以輸入,例如,包含有反壟斷,專利,海外賄賂禁止(FCPA),製造物責任(PL)之訴訟案件或者是包含有資訊洩漏,虛構的請求之不實行為調査,欲實施的調査以及與區別作業對應品類。文件分析系統,可以接收使用者的品類的輸入,識別成為調査對象的品類。
對應於被識別的品類,可以判定調査以及文件分析處理的種類,和使用的資料庫的種類(S32)。
對應於被識別的品類,可以存取其儲存在調査基礎資料庫,文件分析資料庫等的使用資料庫中,所儲存的資訊(S33)。
對應於被識別的品類,對調査基礎資料庫進行存取,可以顯示其對應於被識別的品類之各關鍵字輸入畫面(S34)。
對應於被識別的品類,對調査基礎資料庫進行存取,可以顯 示其對應於被識別的品類之各文章輸入畫面(S35)
對應於被識別的品類,對調査基礎資料庫進行存取,對應於被識別的品類,可以將關鍵字或者是文件進行抽樣(S36)。
藉由執行上述的處理,可以對自動區別符號付與(預測編碼Predictive Coding)的指引資料,進行加權的追加(S37)。
藉由將文件分析資料庫進行關鍵字檢索,可以縮小抽樣文件以及資訊的範圍(S38)。
第8圖是,本發明之實施形態相關的文件分析方法中,顯示因應調査種類之預測編碼流程之流程圖。
本發明之實施形態相關的文件分析方法中,一開始,文件分析系統會因應調査的種類,要求使用者輸入,可以接收使用者對此的輸入。例如,和反壟斷法相關連,關於聯合壟斷,針對對象製品,關係者(姓名和電子郵件位址),關係組織(名稱和部門)以及時期,要求使用者進行輸入,可以接收使用者對此的輸入。其他的,關於關係組織是指,關於競爭對企業和顧客企業,要求使用者進行輸入,可以接收使用者對此的輸入(S51)。
接下來,利用輸入關鍵字,可以對加上區別符號進行加權(S52)。然後,可以進行預測編碼(S53)。
本發明之實施形態中,作為其中一例,如第9圖所示之流程圖,在第1階段~第5階段,進行登錄處理,區別處理,以及檢査處理。
第1階段中,使用過去的區別處理的結果,事先進行關鍵字和關連用語的更新登錄(STEP100)。這時候,關鍵字以及關連用語,區別符號和關鍵字或者是關連用語的對應資訊也就是關鍵字對應資訊,以及關連用語對應資訊,可以同時一併更新登錄。
在第2階段中,於第1階段所被包含更新登錄後的關鍵字之文件,由全文件資訊中加以抽樣,如果發現該文件,則參照第1階段中所儲存 的更新關鍵字對應資訊,加上對應於該關鍵字之區別符號,進行第1區別處理(STEP200)。
在第3階段中,於第1階段所包含的被更新登錄後的關連用語之文件,在第2階段中,從沒有被加上區別符號的文件資訊中加以抽樣,算出其包含有該關連用語的文件的評分。該算出後的評分,參照在第1階段中被更新登錄後的關連用語對應資訊,加上區別符號,進行第2區別處理(STEP300)。
在第4階段中,對於到了第3階段仍然沒被加上區別符號的文件資訊,使用者接收加上去的區別符號,對於該文件資訊,加上由使用者所接收到的區別符號。接下來,由使用者所接收到的區別符號,對被加上該區別符號的文件資訊予以解析,根據解析結果,對沒有加上區別符號的文件進行抽樣,對抽樣後的文件,加上區別符號,進行第3區別處理。例如,該使用者所加上的區別符號在共通的文件中頻頻出現的文件予以抽樣,把每個文件中所包含的,抽樣後的單字的種類,各單字所具有的評價值以及出現數的傾向資訊,對每個文件逐一解析,對於具有與該傾向資訊相同傾向的文件,則加上共同的區別符號(STEP400)。
在第5階段中,對於在第4階段中使用者加上區別符號後的文件,根據解析後的傾向資訊,決定其應該加上去的區別符號,把該決定後的區別符號,和使用者所加上去的區別符號,作一比較,來檢證區別處理的妥當性(STEP500)。還有,如果必要,也可以根據文件分析處理的結果,來進行學習處理。
在第4階段以及第5階段的處理中所使用的傾向資訊是指,顯示出各文件所具有,與被加上區別符號的文件之間的類似的比例,根據各文件所包含的單字的種類,出現數,單字的評價值,所成的資訊。例如,各文件中,被加上設定的區別符號的文件,與該設定的區別符號之間的關連度相類似的話,該兩個文件就可以是有相同的傾向資訊。還有,所包含 的單字的種類即使不同,對於評價值相同的單字包含相同的出現數之文件,也可以說是具有相同的傾向。
從第1階段到第5階段的各階段中的詳細的處理流程,說明如下。
<第1階段(STEP100)>
第1階段中的關鍵字資料庫104的詳細的處理流程,用第10圖來說明。
關鍵字資料庫104是,在過去的訴訟中,依照把文件進行區別後的結果,對每個各自各別的區別符號,作成管理用的一覽表,以識別其對應於各區別符號的關鍵字(STEP111)。該識別是,在本發明之實施形態中,解析各個被加上區別符號的文件,雖然可以使用在該文件中的各關鍵字的出現數以及評價值來進行,不過,使用關鍵字所具有的傳達資訊量這種方法,或者是使用者用手動來選擇的方法等亦無妨。
在本發明之實施形態中,例如,當區別符號以「重要」作為關鍵字,而「侵權」以及「專利師」這樣的關鍵字被識別的時候,「侵權」以及「專利師」就會和區別符號「重要」成為具有密切連接的關係的關鍵字,作成顯示此連接關係的關鍵字對應資訊(STEP112)。然後,把被識別的關鍵字,登錄在關鍵字資料庫104中。此時,把被識別的關鍵字和關鍵字對應資訊,兩者之間的關係連接起來,儲存在關鍵字資料庫104的區別符號「重要」的管理一覽表中(STEP113)。
接下來,關連用語資料庫105的詳細的處理流程,用第11圖來加以說明。關連用語資料庫105是,依據在過去的訴訟中,區別文件後的結果,對各自各別的每個區別符號,作成管理用的一覽表,把對應於各區別符號的關連用語加以登錄(STEP121)。在本發明之實施形態中,例如,作為「製品A」的關連用語,登錄「符號化處理」以及「製品a」,連同作為「製品B」的關連用語,登錄「解碼」以及「製品b」。
登錄後的各自各別的關連用語會對應到怎麼樣的區別符 號,作成顯示此對應之關連用語對應資訊(STEP122),儲存在各管理一覽表中(STEP123)。這時候,在關連用語對應資訊中,各關連用語所具有的評價值,以及對決定區別符號所要成為的必要的評分之界限值,也會一併加以儲存。
實際上,在進行區別作業之前,關鍵字和關鍵字對應資訊,以及關連用語和關連用語對應資訊,都會更新登錄成最新的態樣(STEP113,STEP123)。
<第2階段(STEP200)>
第2階段中的第1自動區別部201的詳細的處理流程,用第12圖來加以說明。本發明之實施形態中,第2階段係藉由第1自動區別部201,把區別符號「重要」,加在文件上。
在第1自動區別部201中,在第1階段(STEP100)中把登錄在關鍵字資料庫104中包含有關鍵字「侵權」以及「專利師」的文件,從文件資訊中進行抽樣(STEP211)。對於該抽樣後的文件,由關鍵字對應資訊,參照儲存該關鍵字的管理一覽表参照(STEP212),加上「重要」這樣子的區別符號(STEP213)。
<第3階段(STEP300)>
第3階段中的第2自動區別部301的詳細的處理流程,用第13圖來加以說明
本發明之實施形態中,第2自動區別部301,對於在第2階段(STEP200)中沒有加上區別符號的文件資訊,進行加上「製品A」以及「製品B」這樣的區別符號之處理。
第2自動區別部301是,由該文件資訊,在第1階段儲存在關連用語資料庫105中包含有關連用語「符號化處理」,「製品a」,「解碼」以及「製品b」的文件,對該文件進行抽樣(STEP311)。對該抽樣後的文件,儲存後的這四個關連用語的出現頻率,根據評價值,使用式(1),用評分 算出部116來算出其評分(STEP312)。該評分係表示各文件與區別符號「製品A」以及「製品B」之間的關連度。
如果該評分超過界限值的話,則參照關連用語對應資訊(STEP313),加上適當的區別符號(STEP314)。
例如,在某文件中,如果關連用語「符號化處理」以及「製品a」的出現頻率連同關連用語「符號化處理」所具有的評價值高,且顯示其與區別符號「製品A」的關連度之評分超過界限值之際,則對該文件加上區別符號「製品A」。
這時候,如果對該文件而言關連用語「製品b」的出現頻率既高,顯示其與區別符號「製品B」的關連度之評分也超過界限值的話,則對該文件既加上區別符號「製品A」,也加上「製品B」。另一方面,如果對該文件而言關連用語「製品b」的出現頻率低,顯示其與區別符號「製品B」的關連度之評分沒有超過界限值的話,則在該文件上,只要加上區別符號「製品A」就可以了。
在第2自動區別部301中,於第4階段的STEP432,使用計算出來的評分,由以下所示的式(2),重新計算關連用語的評價值,然後進行該評價值的加權(STEP315)。
wgti,0:學習前的第i個選定關鍵字的權重(初始值)
wgti,L:第L回學習後的第i個選定關鍵字的權重
γL:第L回學習中的學習參數
θ:學習效果的界限值
例如,當「解碼」的出現頻率雖然非常高,評分卻比某一定值以上更低,像這樣的文件發生某一定次數以上的話,就將關連用語「解 碼」的評價值降低,然後再儲存在關連用語對應資訊中。
<第4階段(STEP400)>
第4階段,如第14圖所示,在第3階段之前的處理,對於由沒有被加上區別符號的文件資訊中,所抽樣的一定的比例的文件資訊,接收由校閱者所加上的區別符號,對該當文件資訊加上所接收到的區別符號。接下來,如第15圖所示,由校閱者所接收到的區別符號,對加上該區別符號的文件資訊進行解析,根據該解析結果,對沒有被加上區別符號的文件資訊,加上區別符號。還有,在本發明之實施形態中,對於該文件資訊,在第4階段中,例如,進行加上「重要」,「製品A」以及「製品B」之類的區別符號的處理。針對第4階段,進一步記載如下。
第4階段中的區別符號接收付與部131的詳細的處理流程,使用第14圖來加以說明。從在第4階段中成為處理對象的文件資訊開始,首先,資訊抽樣部24,會隨機地採樣文件,然後在文件顯示部130上顯示出來。本發明之實施形態中,把成為處理對象的文件資訊當中2成的文件,予以隨機地抽樣,由校閱者決定區別對象。採樣是,文件的作成日期時間順序,或者是依照名稱順序,排列文件,從上面開始選擇3成的文件,像這樣的抽樣的做法亦無妨。
使用者閱覽了文件顯示部130上所顯示的,第20圖所示的顯示用畫面11,對各文件選擇其所要加上去的區別符號。區別符號接收付與部131,是用來接收該使用者所選擇的區別符號(STEP411),根據所被加上去的區別符號來進行區別(STEP412)。
接下來,文件解析部118的詳細的處理流程,用第15圖來加以說明。文件解析部118中,區別符號接收付與部131中,針對每個區別符號所被區別後的文件,把共同的頻頻出現的單字予以抽樣(STEP421)。把抽樣後的共通的單字的評價值,用式(2)來進行解析(STEP422),解析該共通的單字在文件中的出現頻率(STEP423)。
接著,依照STEP422以及STEP423所解析後的結果,對加上「重要」的區別符號的文件的傾向資訊,進行解析(STEP424)。
第16圖是,利用STEP424,把被加上「重要」的區別符號的文件所共通的頻頻出現的單字,予以解析後的結果的圖表。
在第16圖中,縱軸R_hot是,在由使用者所加上區別符號為「重要」的全文件當中,顯示其包含作為加上區別符號「重要」的單字而被選定的單字,且被加上區別符號「重要」的文件的比例。横軸是,使用者在執行區別處理的全文件當中,藉由區別符號接收付與部131,顯示其於STEP421中所包含被抽樣的單字之文件的比例。
本發明之實施形態中,區別符號接收付與部131是,把位於直線R_hot=R_all的上部,將其所被繪製的單字,作為區別符號「重要」中的共通的單字,來予以抽樣。
把STEP421到STEP424的處理,針對那些加上「製品A」以及「製品B」的區別符號的文件,予以執行,解析該文件的傾向資訊。
接下來,第3自動區別部401的詳細的處理流程,用第17圖來加以說明。第3自動區別部401是,在第4階段的處理對象的文件資訊當中,於STEP411以區別符號接收付與部131對那些沒有接收到加上區別符號的文件所進行的處理。第3自動區別部401中,從這樣的文件開始,在STEP424進行解析,對於被加上區別符號為「重要」,「製品A」以及「製品B」文件的傾向資訊,和具有相同的傾向資訊的文件,進行抽樣(STEP431),針對抽樣後的文件,依據傾向資訊,使用式(1)來算出評分(STEP432)。還有,對於在STEP431所抽樣後的文件,根據傾向資訊,加上適當的區別符號(STEP433)。
第3自動區別部401中,進一步,使用STEP432中所算出的評分,把區別結果反映在各資料庫中(STEP434)。具體而言,可以進行把評分低的文件中所包含的關鍵字以及關連用語的評價值予以調降,把評分高 的文件中所包含的關鍵字以及關連用語的評價值予以提高。
進一步,第3自動區別部401的詳細的處理流程的其中一例,用第18圖來加以說明。第3自動區別部401中,第4階段的處理對象的文件資訊當中,對於在STEP411中以區別符號接收付與部131仍無法接收其加上區別符號的文件,仍可以進行區別處理。在第3自動區別部401中,如果沒有給與引數的話(STEP441:無),則從該文件開始,用STEP424來進行解析,把被加上區別符號「重要」的文件的傾向資訊,和具有相同的傾向資訊的文件,進行抽樣(STEP442),針對抽樣後的文件,依據傾向資訊,使用式(1)來算出評分(STEP443)。還有,對於STEP442中抽樣後的文件,根據傾向資訊,加上適當的區別符號(STEP444)。
第3自動區別部401中,會進一步,使用STEP443所算出來的評分,將區別結果反映在各資料庫(STEP445)。具體而言,評分低的文件所包含的關鍵字以及關連用語的評價值會被調降,另一方面,評分高的文件所包含的關鍵字以及關連用語的評價值,則會被提高。
如上所述,由第2自動區別部301和第3自動區別部401兩者算出評分,如果評分算出的回數多的話,就可以把用來評分算出的資料,總括起來,儲存在評分算出資料庫106中。
<第5階段(STEP500)>
第5階段中的品質檢査部501的詳細的處理流程,用第19圖來加以說明。品質檢査部501中,區別符號接收付與部131,對於在STEP411所接收到的文件,會根據文件解析部118在STEP424所解析後的傾向資訊,決定其所應該加上去的區別符號(STEP511)。
區別符號接收付與部131所接收的區別符號,和STEP511中所決定的區別符號,兩者比較(STEP512),在STEP411中,檢證接收到的區別符號的妥當性(STEP513)。
本發明之實施形態相關的文件分析系統1,也可以具備一學 習部601。學習部601是,依據從第1到第4的處理結果,把各關鍵字或者是關連用語的加權,用式(2)來進行學習。該學習的結果,可以反映在關鍵字資料庫104,關連用語資料庫105,或者是評分算出資料庫106上。
本發明之實施形態相關的文件分析系統1可以具備有一報告作成部701,依據文件分析處理的結果,配合訴訟案件(例如,訴訟的話,有聯合壟斷‧專利‧FCPA‧PL等等)或者是不實行為調査(例如,資訊洩漏,虛構的請求等等)的調査種類,輸出最適當的調査報告。
對於不同的調査種類,調査的內容會不一樣。
例如,如果是聯合壟斷案件的話,
1.同業的負責人對於聯合壟斷相關連的默契(價格的調整),是何時‧如何取得的呢?
2.關係者是怎麼樣的組織中的誰呢?
這些都是檢核要點。
還有,如果是專利侵權的話,
1.與成為侵權的對象的技術內容相同嗎?
2.是誰?何時?具有什麼樣的意圖(或不具意圖)來侵權的呢?或者是未侵權呢?
這些都會成為檢核的要點。
關於本發明之實施形態的其他的實施例,記載如下。
本發明之實施形態的其他的實施例係,對應於類似的檢索資訊,解析那些已經加上區別符號的文件,根據解析的結果,來調整其加上區別符號的範圍,所使用的方法。
有對應於類似的檢索資訊,作為調整其加上區別符號的範圍的方法;和對應於類似的檢索資訊,把類似的檢索資訊予以群聚,調整其加上區別符號的範圍的方法;還有學習區別結果,來進行預測區別的方法。對應於類似的檢索資訊,群聚類似的檢索資訊,調整其加上區別符號的範圍 的方法中,例如,特別注意元資料(metadata)的共通性,在原文件,原文件的回信文件,原文件的回信文件的回信文件上,有時會加上共通的區別符號。這種用學習區別結果來進行預測區別的方法,會針對區別結果,統合類似的檢索資訊來進行學習,藉此,針對類似的檢索資訊,加上同一或者是類似的區別符號。
在本發明之實施形態的其他的實施例中,藉由成為解析的對象的文件的件數,解析結果的信頼性也會產生變化。對於成為區別的對象的文件的總件數,加上統計的手法,也可以在特定的時間點,對全文件的特定的比例,根據解析結果,來調整其加上區別符號的範圍。
本發明之實施形態的其他的實施例中,可以是對應於類似的檢索資訊,調整其加上區別符號的範圍之方法,也可以是對應於類似的檢索資訊,把檢索資訊予以群聚,調整其加上區別符號的範圍之方法,更可以是學習區別結果,進行預測區別的方法,執行兩者,調整其加上區別符號的文件的範圍。藉此,在本發明之實施形態的其他的實施例中,可以迅速確實地加上區別符號,同時可以減輕區別作業所伴隨而來的負担。
本發明之實施形態的其他的實施例中,具有一顯示畫面控制部,針對使用者,有一顯示畫面來提示前述調査種類判定部所抽樣後的資訊的種類,顯示畫面控制部係用來控制該顯示畫面。
在本發明之實施形態的其他的實施例中,可以具備一輸入接收部,對應於由顯示畫面控制部所提示的資訊的種類,接收由使用者所輸入的關鍵字以及/或者是接收文章的輸入。
本發明之文件分析程式,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析程式,其特徵在於:在電腦中,執行一算出機能:造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程 模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
上述算出機能,可以由上述算出部來加以執行。詳細內容如上所述。
本發明之實施形態,係針對訴訟案件或者是不實行為調査案件的品類,依據其所接收到的使用者的輸入,對應於品類,自動地更新資料庫。藉此,可以減輕輸入如負責人,監督管理員的姓名等的事務作業的負担。還有,因應品類,利用可自動地更新的資料庫,調整其檢索字彙,使用被調整後的檢索字彙,對該當文件資訊自動地加上區別符號。藉此,在訴訟或者是不實行為調査案件中,所利用的文件資訊的區別作業的負担,就可以被減輕了。
亦即,藉由本發明,可以讓利用於訴訟中的文件資訊的分析變得容易。
文件分析系統1的控制功能方塊,可以是藉由積體電路(IC晶片)等中所形成的邏輯電路(硬體)來執行,也可以是以CPU(Central Processing Unit),利用軟體來執行。如果是後者的話,文件分析系統1是,執行各機能的軟體也就是程式(控制程式)的命令之CPU,把上述程式以及各種資料,用電腦(或者是CPU)以可讀取的方式加以儲存在ROM(Read Only Memory)或者是記憶裝置(這些稱之為「儲存媒體」),展開上述程式之RAM(Random Access Memory)等等。然後,電腦(或者是CPU)執行 將上述程式由上述儲存媒體中讀取後執行,來達成本發明之目的。作為上述儲存媒體,可以是「非暫時性的有形的媒體」,例如,可以使用:卡帶,光碟片,磁卡,半導體記憶體,可程式化的邏輯電路等。還有,上述程式也可以透過可傳送的任意的傳送媒體(通信網路或廣播等),傳送到上述電腦中。本發明可以把上述程式利用電子式的傳送來具體實現,也可以用載波的資料信號的形態來執行。
本發明並不受上述各自各別的實施形態所限定,專利申請範為中所示的範圍可以有各種的變化,對不同的實施形態,各個被揭示的技術手段以適當的組合所得到的實施形態,也被包含在本發明之技術的範圍中。再者,對不同的實施形態,藉由各個被揭示的技術手段以適當的組合所得到的實施形態,也可以形成新的技術特徵。
一種文件分析系統,係取得複數個的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析系統,其特徵在於:具備有:一調査基礎資料庫,係把訴訟或者是成為不實行為調査的原因之設定的行為,所產生的生成過程模式,因應該當設定的行為的進展而分類之相位,逐個加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬之品類以及前述每個生成過程模式進一步加以儲存,把顯示前述相位的時間序列之時間序列資訊進一步加以儲存;和一算出部,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊所成的前述文件資訊加以分析,把前述設定行為所產生的顯示可能性的指標,從該當分析後的結果加以算出。
前述文件分析系統,更具有一顯示畫面控制部,針對使用者,有一顯示畫面來提示前述調査種類判定部所抽樣後的資訊的種類,顯示畫面控制部係用來控制該顯示畫面。
前述文件分析系統,更具有:一調査品類輸入接收部,用來 接收前述訴訟或者是不實行為調査的品類的輸入;和一調査種類判定部,根據由前述調査品類輸入接收部所接收的品類,判定其為作為調査的對象之前述品類,由前述調査基礎資料庫中,將必要的資訊的種類予以抽樣。
前述文件分析系統,更具備一資訊抽樣部,把前述文件資訊中所包含的關鍵字以及/或者是文章,作為與前述訴訟或者是不實行為調査相關連的資訊,從該當文件資訊中予以抽樣。
前述文件分析系統,更具備一檢索部,將前述關鍵字以及/或者是文章,由前述複數個的文件中,進行檢索。
前述文件分析系統,更具備一自動區別符號付與部,針對前述複數個的文件,各自各別地,自動地加上區別符號;前述關鍵字以及/或者是文章,會被加上前述區別符號而加以利用。
本發明提供一種文件分析方法,係取得複數個的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其特徵在於:包含有一算出步驟:造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
本發明提供一種文件分析方法,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構 成的文件資訊,加以分析之文件分析方法,其特徵在於:包含有一算出步驟:造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
1‧‧‧文件分析系統
103‧‧‧調査基礎資料庫
20‧‧‧調査品類輸入接收部
22‧‧‧調査種類判定部
24‧‧‧資訊抽樣部
26‧‧‧分析部
28‧‧‧算出部
30‧‧‧檢索部
32‧‧‧自動區別符號付與部

Claims (7)

  1. 一種文件分析系統,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析系統,其特徵在於:具備有:一調査基礎資料庫,係把訴訟或者是成為不實行為調査的原因之設定的行為,所產生的生成過程模式,因應該當設定的行為的進展而分類之相位,逐個加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,該當訴訟或者是不實行為調査所屬之品類以及前述每個生成過程模式進一步加以儲存,把顯示前述相位的時間序列之時間序列資訊進一步加以儲存;和一算出部,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊所成的前述文件資訊加以分析,把前述設定行為所產生的顯示可能性的指標,從該當分析後的結果加以算出。
  2. 如申請專利範圍第1項所述之文件分析系統,其中,更具有:一調査品類輸入接收部,用來接收前述訴訟或者是不實行為調査的品類的輸入;和一調査種類判定部,根據由前述調査品類輸入接收部所接收的品類,判定其為作為調査的對象之前述品類,由前述調査基礎資料庫中,將必要的資訊的種類予以抽樣。
  3. 如申請專利範圍第1或2項所述之文件分析系統,其中,更具備一資訊抽樣部,把前述文件資訊中所包含的關鍵字以及/或者是文章,作為與前述訴訟或者是不實行為調査相關連的資訊,從該當文件資訊中予以 抽樣。
  4. 如申請專利範圍第3項所述之文件分析系統,其中,更具備一檢索部,將前述關鍵字以及/或者是文章,由前述複數個的文件中,進行檢索。
  5. 如申請專利範圍第3項所述之文件分析系統,其中,更具備一自動區別符號付與部,針對前述複數個的文件,各自各別地,自動地加上區別符號;前述關鍵字以及/或者是文章,會被加上前述區別符號而加以利用。
  6. 一種文件分析方法,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加以分析之文件分析方法,其特徵在於:包含有一算出步驟:造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
  7. 一種文件分析方法,係取得設定的電腦或者是伺服器中所儲存的資訊,把包含有該當被取得的資訊,之複數個的文件所構成的文件資訊,加 以分析之文件分析方法,其特徵在於:包含有一算出步驟:造成訴訟或者是不實行為調査的原因之設定的行為,將其產生的生成過程模式,因應於該當設定的行為的進展所分類的每個相位,逐一加以儲存,同時,把前述訴訟或者是不實行為調査相關連的資訊,對應於每個該當訴訟或者是不實行為調査所屬的品類以及前述生成過程模式,再度加以儲存,更具有一調査基礎資料庫,將顯示前述相位的時間序列之時間序列資訊再度加以儲存,藉由參照該調査基礎資料庫,將前述訴訟或者是不實行為調査相關連的資訊,前述生成過程模式,以及根據前述時間序列資訊,形成一文件資訊,分析前述文件資訊,把顯示前述設定的行為所可能產生的指標,由該當分析後的結果加以算出。
TW104103850A 2014-02-04 2015-02-04 文件分析系統、文件分析方法、以及文件分析程式 TW201539217A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052581 WO2015118619A1 (ja) 2014-02-04 2014-02-04 文書分析システム及び文書分析方法並びに文書分析プログラム

Publications (1)

Publication Number Publication Date
TW201539217A true TW201539217A (zh) 2015-10-16

Family

ID=53777454

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104103850A TW201539217A (zh) 2014-02-04 2015-02-04 文件分析系統、文件分析方法、以及文件分析程式

Country Status (2)

Country Link
TW (1) TW201539217A (zh)
WO (1) WO2015118619A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI742549B (zh) * 2020-03-02 2021-10-11 如如研創股份有限公司 多維度模板之報告書產出方法與系統

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598988A (zh) * 2019-08-14 2019-12-20 中国平安财产保险股份有限公司 统计数据处理方法、装置及存储介质
CN114995691B (zh) * 2021-03-01 2024-03-08 北京字跳网络技术有限公司 一种文档处理方法、装置、设备和介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5077711B2 (ja) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 時系列分析装置、時系列分析方法、及びプログラム
JP2012038135A (ja) * 2010-08-09 2012-02-23 Hitachi Solutions Ltd トレンド推移判定装置またはその方法
JP5735403B2 (ja) * 2011-11-22 2015-06-17 株式会社野村総合研究所 文書管理装置
JP5567049B2 (ja) * 2012-02-29 2014-08-06 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5530476B2 (ja) * 2012-03-30 2014-06-25 株式会社Ubic 文書分別システム及び文書分別方法並びに文書分別プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI742549B (zh) * 2020-03-02 2021-10-11 如如研創股份有限公司 多維度模板之報告書產出方法與系統

Also Published As

Publication number Publication date
WO2015118619A1 (ja) 2015-08-13

Similar Documents

Publication Publication Date Title
US8769708B2 (en) Privileged document identification and classification system
JP5627820B1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
US20160170981A1 (en) Document analysis system, document analysis method, and document analysis program
US20200090058A1 (en) Model variable candidate generation device and method
CN109492097B (zh) 一种企业新闻数据风险分类方法
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP7409061B2 (ja) 文書管理装置及び文書管理プログラム
JP5683749B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015030112A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
TW201539217A (zh) 文件分析系統、文件分析方法、以及文件分析程式
TWI518631B (zh) File classification survey system, document classification survey method and file classification survey program
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP5669904B1 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5829768B2 (ja) 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム
JP5990562B2 (ja) 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム
JP5851007B2 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
TW201606534A (zh) 文件分析系統、文件分析方法、以及文件分析程式