TW201610727A

TW201610727A - 資料分析裝置、資料分析裝置的控制方法、以及資料分析裝置的控制程式

Info

Publication number: TW201610727A
Application number: TW104124167A
Authority: TW
Inventors: 守本正宏; 武田秀樹; 蓮子和巳
Original assignee: Ubic股份有限公司
Priority date: 2014-07-30
Filing date: 2015-07-24
Publication date: 2016-03-16
Also published as: JP6441930B2; JPWO2016016974A1; WO2016016974A1

Abstract

擷取與指定的案件有關的資料。本發明係包含：一閾值辨認部，在重新擷取到尚未被判斷出是否與該指定的案件有關之未判斷資料的情況時，則就已由使用者判斷出是否與該指定的案件有關之既判斷資料，從分別計算出之作為代表與該指定的案件之關係性的強度之指標的評分之中辨認出作為對該未判斷資料之該判斷之基礎的閾值；及一資料設定部，根據比較由該閾值辨認部所辨認出的閾值、與就該未判斷資料所計算出的評分後的結果，而將該未判斷資料設定為應向使用者報告之資料。

Description

資料分析裝置、資料分析裝置的控制方法、以及資料分析裝置的控制程式

本發明係關於一種資料分析裝置等，能夠從重新擷取到的資料之中擷取與指定的案件有關的資料。

從企業的法律風險增大的背景，例如由於價格卡特爾(Cartel)之共謀嫌疑而企業被追查違反反壟斷法(反托拉斯法)、或是由於內部人的引導而洩漏機密訊息等來看，人們期望有檢測如上所述之非法行為的系統。例如，專利文獻1係揭露一種文件分類系統，其分析為了在訴訟中作為證據提出而收集、數位化之文件訊息，並分類該文件訊息以在訴訟中容易利用。

另一方面，記錄關於電腦使用之行為(如存取了哪個檔案等)的技術也從以前持續被提出。例如，專利文獻2係揭露一種顯示方法，用以把握訊息網絡之使用者的行動，並檢測對於預防訊息洩漏有幫助的訊息檔案洩漏。

〔專利文獻〕

〔專利文獻1〕日本專利公開公報第2013-182338號

〔專利文獻2〕日本專利公開公報第2007-304943號

專利文獻1中揭露的習知的系統無法，例如，從網絡上每天流通的電子郵件之中檢測上述非法行為的預兆。因為該系統係分析在該非法行為發生後提起之訴訟中應提出之關聯文件，因此係以作為該分析對象之全部文件在事前即存在作為前提。

作為擷取進行中之非法行為的方法，可以是例如，如在專利文獻2中揭露的顯示方法所示，記錄使用者的行為，在發現被視為有問題的指定行為(作為「非法行為」而定義的行為)的情況下，對管理者發出警告的方法。然而，在上述方法中，有以下的問題：(a)在發現上述指定行為時大多係在已經發生非法行為之後；以及(b)為了事先檢測非法行為，愈放鬆警告的條件則造成警告頻繁發生，使得監視變成無實效。

又，由於專利文獻1或2中所揭露的習知技術僅僅為專門針對特定的非法行為，並無汎用性，因此無法適用於特定的非法行為以外的案件。

本發明係有鑑於上述問題點而成，目的為提供資料分析裝置等，藉由基於過去的資料的分析結果而分析現在的資料，能夠擷取與指定的案件有關的資料。

為了解決上述問題，根據本發明之一樣態的資料分析裝置，其能夠從重新擷取到的資料之中擷取與指定的案件有關的資料，包含：一閾值辨認部，在重新擷取到尚未被判斷出是否與該指定的案件有關之未判斷資料的情況時，則就已由使用者判斷出是否與該指定的案件有關之既判斷資料，從分別計算出之作為代表與該指定的案件之關係性的強度之指標的評分之中辨認出作為對該未判斷資料之該判斷之基礎的閾值；及一資料設定部，根據比較由該閾值辨認部所辨認出的閾值、與就該未判斷資料所計算出的評分後的結果，而將該未判斷資料設定為應向使用者報告之資料。

又，根據本發明之一樣態的資料分析裝置，其中該閾值辨認部係從就該既判斷資料所分別計算出的評分當中，辨認出可能超過對於關聯比設定的目標值之評分，作為該閾值。

又，根據本發明之一樣態的資料分析裝置，可更包含：一超過判斷部，藉由比較就該未判斷資料所計算出的評分、與由該閾值辨認部所辨認出的閾值，而判斷該評分是否超過了該閾值，其中，在該超過判斷部判斷出超過的情況時，該資料設定部係能夠將該未判斷資料設定為應向使用者報告之資料。

又，根據本發明之一樣態的資料分析裝置，可更包含：一要件評估部，基於指定的基準而分別評估該既判斷資料之中包含的資料要件；及一評分計算部，基於由該要件評估部所評估結果而計算該評分。

又，根據本發明之一樣態的資料分析裝置，其中該要件評估部係將代表該資料要件、與由該使用者對於包含該資料要件之既判斷資料所判斷出的結果之相依性的傳輸訊息量作為該指定的基準之其中一個，而評估該資料要件。

又，根據本發明之一樣態的資料分析裝置，可更包含：一結果取得部，其經由指定的輸入部而從使用者取得該使用者對由該資料設定部所設定的資料是否與指定的案件有關所判斷出的結果，且要件評估部能夠基於由該結果取得部所取得之資料要件，而分別評估由該資料設定部所設定的資料之中包含的資料要件。

又，根據本發明之一樣態的資料分析裝置，可更包含：一儲存部，其設定由該要件評估部所評估出的資料要件、與對該資料要件所評估出的結果之關聯性，並將其儲存在指定的記憶部之中。

又，根據本發明之一樣態的資料分析裝置，其中未判斷資料可分別包含可分別辨認複數之人士或組織的固有資料要件，且資料設定部係藉由從該未判斷資料分別抽取該固有資料要件，並估測第一固有資料要件及與該第一固有資料要件不同的第二固有資料要件的對應關係，而能夠將該複數之人士或組織之間的聯繫的強度可視化。

又，根據本發明之一樣態的資料分析裝置，更包含：一既判斷資料取得部，其藉由經由指定的輸入部從該使用者取得由該使用者判斷從指定的資料群中抽取出的資料是否與該指定的案件有關的結果，以取得該既判斷資料。

又，根據本發明之一樣態的資料分析裝置，更包含：一關係賦予部，其對由該資料設定部所設定的資料，賦予代表該資料與該指定的案件有關的關係性訊息。

又，根據本發明之一樣態的資料分析裝置，其中資料可為電腦可處理之數位化的文件，且資料要件可為文件之中所包含的關鍵字。

又，根據本發明之一樣態的資料分析裝置，其中資料係電腦可處理之數位化的聲音，且資料要件可為聲音之中所包含的部分聲音。

為了解決上述問題，根據本發明之一樣態的資料分析裝置的控制方法，能夠從重新擷取到的資料之中擷取與指定的案件有關的資料，包含以下步驟：一閾值辨認步驟，在重新擷取到尚未被判斷出是否與該指定的案件有關之未判斷資料的情況時，則就已由使用者判斷出是否與該指定的案件有關之既判斷資料，從分別計算出之作為代表與該指定的案件之關係性的強度之指標的評分之中辨認出作為對該未判斷資料之該判斷之基礎的閾值；及一資料設定步驟，根據比較由該閾值辨認部所辨認出的閾值、與就該未判斷資料所計算出的評分後的結果，而將該未判斷資料設定為應向使用者報告之資料。

為了解決上述問題，根據本發明之一樣態的資料分析裝置的控制程式，能夠從重新擷取到的資料之中擷取與指定的案件有關的資料，包含使電腦實行以下功能：一閾值辨認功能，在重新擷取到尚未被判斷出是否與該指定的案件有關之未判斷資料的情況時，則就已由使用者判斷出是否與該指定的案件有關之既判斷資料，從分別計算出之作為代表與該指定的案件之關係性的強度之指標的評分之中辨認出作為對該未判斷資料之該判斷之基礎的閾值；及一資料設定功能，根據比較由該閾值辨認部所辨認出的閾值、與就該未判斷資料所計算出的評分後的結果，而將該未判斷資料設定為應向使用者報告之資料。

根據本發明之一態樣，資料分析裝置、資料分析裝置的控制方法、及資料分析裝置的控制程式係在重新擷取到尚未被判斷出是否與該指定的案件有關之未判斷資料的情況時，則就已由使用者判斷出是否與該指定的案件有關之既判斷資料，從分別計算出之作為代表與該指定的案件之關係性的強度之指標的評分之中辨認出作為對該未判斷資料之該判斷之基礎的閾值；及依據比較該閾值、與就該未判斷資料所計算出的評分後的結果，而將該未判斷資料設定為應向使用者報告之資料。

藉由上述結構，上述資料分析裝置等係基於對過去的資料分析後的結果，而藉由分析現在的資料，俾能達成抽取與指定的案件有關之資料的效果。

1a、1b‧‧‧文件

5a‧‧‧覆查結果

5b‧‧‧結果一覽表

5c‧‧‧關鍵字訊息

5d、5e‧‧‧評分

5f‧‧‧判斷結果

5g‧‧‧設定訊息

6‧‧‧關聯閾值

10‧‧‧控制部

11‧‧‧資料抽取部

12‧‧‧結果取得部

13‧‧‧要件評估部

14‧‧‧評分計算部

15‧‧‧評分辨認部(閾值辨認部)

16‧‧‧超過判斷部

17‧‧‧資料設定部

18‧‧‧關係賦予部

19‧‧‧儲存部

20‧‧‧接收部

30‧‧‧記憶部

40‧‧‧輸入部

50‧‧‧顯示部

100‧‧‧文件分析系統(資料分析裝置)

圖1係顯示出根據本發明之一實施態樣的文件分析系統之主要部分的結構之方塊圖

圖2係概略顯示上述文件分析系統之一例的模式圖。

圖3係顯示相對於被賦予覆查結果之文件數的最小評分的表，其中(a)顯示將目標關聯比設為100%的情況，(b)顯示將目標關聯比設為90%的情況。

圖4係顯示上述文件分析系統所執行的處理之一例子的流程圖。

以下基於圖1至圖4說明本發明之一實施態樣。

〔文件分析系統100之概要〕

文件分析系統(資料分析裝置)100係訊息處理系統，其能夠藉由分析數位文件，而從重新擷取到的文件擷取與指定的案件有關的文件。文件分析系統100可以包含以下說明的可執行處理的電腦，例如，可以利用伺服器裝置、個人電腦、電腦主機、工作站、其他的電子機器等予以實現。

圖2係概略顯示文件分析系統100之一例的模式圖。如圖2所示，覆查員(使用者)判斷文件是否與指定的案件有關，並將該判斷結果(覆查結果5a)輸入文件分析系統100中。

在此，上述「文件」係可以藉由電腦處理的數位化資料，例如，可以廣泛地包含電子郵件、技術文件、簡報資料、表計算資料、財務報表、會議資料、契約書、組織圖、事業計畫書等。圖2係顯示文件分析系統100獲取每天在網絡上流通的電子郵件，並分析該電子郵件之中所包含之文件的例子。

又，上述「指定的案件」包含在組織中由於利用上述文件的一般使用者進行非法行為、及/或其予備行為所發生的事件，例如，廣泛地包含對外部洩漏機密訊息的事件、與其他公司串通投標的事件、美化財務業績的事件、對交易企業虛假請款並挪用款項的事件、以及其他對於企業而言不利的事件等，該組織想要在事前防止其發生的案件。但是，上述指定的案件並不限定於上述例子，可以廣泛地包含可以生成關聯資料(例如，文件、聲音、影像等)的一般案件。

文件分析系統100基於上述覆查結果5a，將上述文件(既判斷資料)之中包含的關鍵字(資料要件)，基於指定的基準(例如，傳輸訊息量)分別評估。而且，文件分析系統100基於該評估結果，就上述文件分別計算評分，該評分係代表與上述指定的案件之關係性的強度；該文件分析系統100並辨認可能超過對於關聯比(被判斷為與上述指定的案件有關的文件，在包含預定數量的文件的文件群中所佔的比例)所設定的目標值(目標關聯比)的最小的評分，作為關聯閾值。

亦即，文件分析系統100係基於覆查員所賦予的覆查結果5a(人對於過去的資料所判斷的結果)設定上述關聯閾值，並且能夠將結果一覽表5b(該文件一覧能夠呈現給覆查員的訊息)回報給覆查員，其中僅以該具有超過該關聯閾值之評分的文件作為與上述指定的案件有關的可能性高的文件。換言之，文件分析系統100係藉由基於過去的資料的分析結果分析現在的資料，而能夠抽取與指定的案件有關的資料。藉此，文件分析系統100係例如，能夠檢測發生非法行為的預兆。

〔文件分析系統100之結構〕

圖1係顯示出文件分析系統100之主要部分的結構之方塊圖。如圖1所示，文件分析系統100係包含控制部10、資料抽取部11、結果取得部12、要件評估部13、評分計算部14、評分辨認部15、超過判斷部16、資料設定部17、關係賦予部18、儲存部19、接收部20、輸入部40、顯示部50、及記憶部30。

控制部10係總體地控制文件分析系統100所具有的各種功能。控制部10係包含資料抽取部11、結果取得部12、要件評估部13、評分計算部14、評分辨認部15、超過判斷部16、資料設定部17、關係賦予部18、及儲存部19。

資料抽取部(既判斷資料取得部)11係從指定的文件群(資料群)之中僅抽取預定數量之應受覆查員判斷其是否與指定的案件有關之文件1a。該文件群可以是散佈於網絡上的資料，也可以是預先儲存於記憶部30之中的資料。

資料抽取部11係藉由將抽取出的文件1a輸出到顯示部50，而能夠將該文件1a呈現給覆查員。藉此，例如，覆查員係能夠將代表文件1a為「與指定的案件有關」或「與指定的案件無關」之覆查結果5a分別賦予給該文件1a。又，資料抽取部11係將該文件1a輸出到結果取得部12及要件評估部13。

在從資料抽取部11輸入文件1a的情況時，結果取得部(既判斷資料取得部)12係經由輸入部40而取得覆查員就該文件1a是否與指定的案件有關所判斷出的結果(覆查結果5a)，並將該覆查結果5a輸出到要件評估部13及評分辨認部15。

要件評估部13係基於指定的基準而分別對覆查員對其是否與指定的案件有關進行判斷的文件1a之中包含的關鍵字(資料要件)加以評估。要件評估部13係，例如，藉由計算該關鍵字的加權值而將代表上述關鍵字、與由覆查員對包含該關鍵字之文件1a所判斷出的結果(覆查結果5a)之相依性的傳輸訊息量作為上述指定的基準的其中一個，俾能評估該關鍵字。藉此，由於文件分析系統100能夠正確地評估關鍵字，故能夠正確地抽取與指定的案件有關的資料。

或者，要件評估部13也可藉由分割上述關鍵字之指定的加權值，而評估該關鍵字。在此情況下，要件評估部13係，例如，能夠將上述關鍵字之「1」的加權值加以分割。

此外，上述「關鍵字」為具有意義的字串(詞素)。例如，在「將文件分類」的句子之中，包含著「文件」及「分類」之關鍵字。要件評估部13係將上述關鍵字與該關鍵字之加權值所構成之配對的關鍵字訊息5c輸出到評分計算部14及儲存部19。

評分計算部14係基於由要件評估部13所評估出的結果(關鍵字訊息5c)，而就文件1a分別計算代表與指定的案件之關係性的強度之評分5d，並將該評分5d輸出到評分辨認部15。又，在藉由接收部20重新接收到文件1b(尚未被判斷出是否與指定的案件有關之資料)的情況時，評分計算部14係就該文件1b而計算評分5e，並將該評分5e輸出到超過判斷部16。

評分計算部14能夠藉由合計文件之中所出現之關鍵字的加權值，而計算該文件的評分。例如，由於在文件中包含「調整價格」之句子，則「價格」及「調整」之關鍵字被要件評估部13分別評估的結果，設定成「1.2」及「2.2」之加權值的情況下，則評分計算部14能夠計算該文件的評分為「3.4」(1.2+2.2)。

具體而言，評分計算部14生成關鍵字向量，其係代表文件之中是否包含指定的關鍵字。藉由使上述關鍵字向量中各別的要件為「0」或「1」的值，使該向量代表上述文件之中是否包含與該要件關聯的指定的關鍵字。例如，在上述文件中包含「價格」之關鍵字的情況下，則評分計算部14將與上述關鍵字向量之上述「價格」對應的要件從「0」變更為「1」。然後，評分計算部14藉由，如下式所示，計算上述關鍵字向量(縱向量)與加權值向量(將對各關鍵字的加權值作為要件的縱向量)之內積，而計算上述文件的評分S。

〔數學式1〕 S=w^T‧S

在此，S代表關鍵字向量，而W代表加權值向量。此外，T代表將矩陣‧向量轉換(將行與列替換)。

或者，評分計算部14也可以依照下式計算評分S。

在此，m_j代表第j個關鍵字的出現頻度，而w_i代表第i個關鍵字的加權值。此外，評分計算部14可以基於文件1a及/或文件1b之中包含的第一關鍵字被評估的結果(第一關鍵字的加權值)、以及該文件1a及/或文件1b之中包含的第二關鍵字被評估的結果(第二關鍵字的加權值)，計算評分5d及/或評分5e。又，評分計算部14可以對文件1a及/或文件1b中分別包含的每個句子計算評分5d及/或5e(均於後文詳細說明)。

評分辨認部(閾值辨認部)15辨認可能超過目標關聯比的最小的評分，作為關聯閾值6，其中目標關聯比係相對於關聯比而設定，而關聯比係代表被判斷出與指定的案件有關的文件1a在包含預定數量之文件的文件群中所佔的比例。具體而言，在從評分計算部14輸入評分5d的情況下，評分辨認部15將該評分5d依降序排序。接著，評分辨認部15從具有最大的評分5d(評分的排名為第1位)的文件1a 依序檢視該文件1a被賦予的覆查結果5a，連續計算被賦予「與指定的案件有關」之覆查結果5a的文件數在現時點已檢視完成之文件數中所佔的比例(關聯比)。

例如，在被賦予覆查結果5a之文件1a的數字為100的情況時，當完成對評分排名第1位到第20位之文件的檢視的時候，則在被賦予「與指定的案件有關」之覆查結果5a之文件的數字為18的情況時，評分辨認部15係計算出關聯比為0.9(18/20)。或者，當完成對評分排名第1位到第40位之文件的檢視的時候，在被賦予「與指定的案件有關」之覆查結果5a之文件的數字為35的情況時，評分辨認部15係計算出關聯比為0.875(35/40)。

評分辨認部15係對文件1a計算全部的關聯比，並辨認可能超過目標關聯比之最小的評分。具體而言，評分辨認部15係從具有最小的評分5d(評分的排名為第100位)之文件1a起依序地檢視對該文件1a所計算出的關聯比，而在該關聯比超過目標關聯比的情況時，就將相對於該關聯比的評分作為可能保持上述目標關聯比的最小評分(關聯閾值6)，而將其輸出到超過判斷部16及儲存部19。

超過判斷部16係基於由要件評估部13所評估出的結果(關鍵字訊息5c)，而就尚未被判斷出其是否與指定的案件有關之文件1b所計算出的評分5e是否超過了關聯閾值6加以判斷，並將該判斷出的結果(判斷結果5f)輸出到資料設定部17。

在由超過判斷部16判斷出超過的情況時，資料設定部17則將該文件1b設定為應向覆查員報告的文件。資料設定部17係，例如，藉由將上述超過關聯閾值6之文件1h 標識出來，而將該文件1b設定為應向覆查員報告的文件。資料設定部17係將設定的文件作為可辨認的設定訊息5g而輸出到關係賦予部18。

關係賦予部18係對由資料設定部17所設定的文件1b賦予代表該文件1b與指定的案件有關之關係性訊息(藉由文件分析系統100所得之覆查結果)。關係賦予部(表示處理部)18係藉由將結果一覽表5b輸出到顯示部50，而能夠一覽無遺地顯示出由資料設定部17所設定的文件1b(由文件分析系統100判斷出與指定的案件有關之文件)。

在從要件評估部13輸入關鍵字訊息5c的情況時，儲存部19係設定該關鍵字訊息5c之中包含的關鍵字、與該關鍵字之評估結果(加權值)的關聯性，並將其儲存於記憶部30之中。藉此，文件分析系統100係基於對過去的資料所分析後的結果(作為關鍵字之評估結果的加權值)，而藉由分析現在的資料，俾能夠抽取與指定的案件有關之資料。又，在從評分辨認部15輸入關聯閾值6的情況時，儲存部19係將該關聯閾值6儲存於記憶部30之中。

輸入部(指定的輸入部)40係接收來自覆查員的輸入(覆查結果5a)。雖然圖1顯示出文件分析系統100具有輸入部40之結構(例如，作為輸入部40之鍵盤、滑鼠等的連接結構)，該輸入部40也可以是能夠與該文件分析系統100進行通訊而連接之外部的輸入裝置(例如，使用者終端機)。

接收部20經由按照指定的通訊方式的通訊網，從網絡接收文件1a及/或文件1b。只要在接收部20中配備有可以實現與外界的機器(例如，一般使用者所使用的終端機)之通訊的本質性的功能即可，並不限制於通訊線路、通訊方式、或通訊媒介等。接收部20能夠由例如乙太網路(註冊商標)連接器等機器構成。又，接收部20能夠利用例如IEEE802.11無線通訊、藍芽(Bluetooth，註冊商標)等通訊方式與通訊媒介。

顯示部50係顯示可由覆查員操作的介面畫面的裝置。圖1顯示文件分析系統100具有顯示部50的結構(例如，連接液晶顯示裝器等作為顯示部50的結構)，然而該顯示部50也可以是與該文件分析系統100通訊可能地連接的外界的顯示裝置(例如，使用者終端機)。

記憶部(指定的記憶部)30係例如，由硬碟、SSD(silicon state drive)、半導體記憶體、DVD等任意的記錄媒體所構成之記憶機器，其記憶文件1a、關鍵字訊息5c、關聯閾值6、及/或可以控制文件分析系統100的控制程式。此外，圖1顯示文件分析系統100有內建的記憶部30的結構，然而該記憶部30也可以是與該文件分析系統100通訊可能地連接的外界的記憶裝置。

〔文件分析系統100的性能驗證〕

圖3係顯示對應於被賦予覆查結果5a之文件數的最小評分的表，其中(a)代表將目標關聯比設為100%的情況，而(b)代表將目標關聯比設為90%的情況。

如圖3(a)之例子所示，在由覆查員判斷是否與指定的案件有關的文件數為100的情況下(參考同圖之表中「樣品數」為「100」的行)，可能達成目標關聯比100%之最下位的排名為11位，而對應於該排名的評分(可能達成關聯比100%的最小評分)係0.110。文件分析系統100設定上述最小評分作為關聯閾值，將具有超過該關聯閾值之評分的文件1b視為可能保持關聯比100%的文件(亦即，與指定的案件有關的文件)。

為了驗證上述關聯閾值的有效性，從被覆查員賦予覆查結果5a的7994件文件中，取出具有超過上述關聯閾值之評分的文件。此外，上述文件係為了驗證文件分析系統100之性能而準備的特別的文件，需注意該文件分析系統100作為分析目的的文件當然是尚未被判斷出是否與指定的案件有關的文件1b。

上述之結果如下：766件文件超過上述關聯閾值，其中605件文件被賦予「與指定的案件有關」之覆查結果5a。亦即，定量性地証明了僅僅對於100件賦予文件覆查結果5a，文件分析系統100即能夠對於約8000件文件以79%(605/766=0.790)的準確度(關聯比)抽取與指定的案件有關文件。

如圖3(a)所示，可以理解由覆查員判斷出是否與指定的案件有關的文件數愈多，則愈提升文件分析系統100的準確度(關聯比)，且接近目標關聯比(參考同圖之「全體樣品」中所包含的「關聯比」的列)。如圖3(b)所示，即使在將目標關聯比降低至90%的情況下，上述趨勢也成立。

如上所述，文件分析系統100係只要對無法確定全體樣品數之任意文件的一部分賦予由覆查員判斷出的結果(覆查結果5a)，即能夠以高的準確度將剩餘的大部分的文件分類。亦即，文件分析系統100係藉由基於過去的資料的分析結果分析現在的資料而能夠抽取與指定的案件有關資料。藉此，文件分析系統100係能夠在不利用人手之下檢測例如，將機密訊息向外部洩漏、向其他公司提出串通投標等增加法律風險的預兆。

〔文件分析系統100所執行的處理〕

圖4係顯示文件分析系統100所執行的處理之一例子的流程圖。此外，以下說明中，括號之中的「某步驟」係代表資料分析裝置的控制方法之中包含的各步驟。

首先，資料抽取部11係從指定的文件群之中僅抽取預定數量之應受覆查員判斷其是否與指定的案件有關之文件1a(步驟1，以下將「步驟」縮寫成「S」)。接著，結果取得部12係經由輸入部40而取得覆查員就文件1a是否與指定的案件有關所判斷出的結果(覆查結果5a)(S2)。接著，要件評估部13係基於指定的基準而分別對受到了覆查員判斷其是否與上述指定的案件有關之文件之中包含的關鍵字加以評估(S3)。然後，評分計算部14係基於由要件評估部13所評估出的結果(關鍵字訊息5c)，而就文件1a分別計算代表其與上述指定的案件之關係性的強度之評分5d(S4)；評分辨認部15辨認可能超過目標值(目標關聯比)的最小的評分作為關聯閾值6，其中目標值係相對於關聯比所設定，而關聯比係代表被判斷為與上述指定的案件有關的文件1a在包含預定數量的文件的文件群中所佔的比例(S5，閾值辨認步驟)。

接著，評分計算部14係基於由要件評估部13所評估出的結果(關鍵字訊息5c)，而就文件1b分別計算代表與上述指定的案件之關係性的強度之評分5e(S6)。超過判斷部16係基於由要件評估部13所評估出的結果(關鍵字訊息5c)，而就其是否與上述指定的案件有關之尚未被判斷出的文件1b所計算出的評分5e，是否超過了關聯閾值6加以判斷(S7)；在判斷成超過的情況時(S7之中的「是」)，資料設定部17就將該文件1b設定為應向覆查員報告之文件(S8，資料設定步驟)。最後，關係賦予部18對由資料設定部17所設定的文件1b賦予代表該文件1b與指定的案件有關之關係性訊息(藉由文件分析系統100所得之覆查結果)(S9)。

此外，上述控制方法係非僅如圖4所示之上述流程而已，也可包含控制部10之中包含的各部分所執行的任一流程。

〔基於共生的評分計算〕

如上所述，評分計算部14係能夠基於對文件之中包含的第一關鍵字所評估出的結果、與對該文件之中包含的第二關鍵字所評估出的結果而計算出評分。亦即，在第一關鍵字於文件之中出現的情況時，評分計算部14係能夠考量該文件之中第二關鍵字的出現頻度(亦即，第一關鍵字與第二關鍵字之相關性，也稱為共生)，而計算文件的評分。

在此情況下，評分計算部14能夠使用代表第一關鍵字與第二關鍵字之相關性(共生)的相關性矩陣(共生矩陣)C，依照下式(而非上述〔數學式1〕)計算評分S。

〔數學式3〕S=w^T‧(C‧s)

此外，上述相關性矩陣C係已利用僅包含預定數量之指定的文件的學習用資料集預先進行最適化。例如，在某文件中出現「價格」之關鍵字的情況下，將其他的關鍵字相對於該關鍵字的出現數標準化成0~1之間的值(亦即，最大概似估計值)儲存在上述相關性矩陣C之分別的元素中(因此，對於上述相關性矩陣C之各列的總和為1)。

如上所述，由於文件分析系統100能夠考量關鍵字間的相關關係而計算評分，因此能夠以更高的準確度抽取與指定的案件有關的資料。

〔每一句子之評分計算〕

如上所述，評分計算部14能夠針對文件中分別包含的每一句子計算評分。在此情況下，評分計算部14對該每一句子生成關鍵字向量，該關鍵字向量代表文件之中包含的句子中是否包含指定的關鍵字。然後，評分計算部14依照下式計算每一文件的評分。

在此，S_S係對應於第S個句子的關鍵字向量。此外，依照上述〔數學式4〕計算評分時，需注意其中有考量共生(有利用相關性矩陣C)。

TF_norm係能夠如以下〔數學式5〕所示般地加以計算。

在此，上述〔數學式5〕中，TF_i代表第i個關鍵字的出現頻度(Term Frequency)；S_ji代表上述第i個關鍵字向量的第j個元素；而c_ji代表相關性矩陣C之j行i列的元素。

歸納上述〔數學式4〕及〔數學式5〕的話，則評分計算部14係藉由計算以下的〔數學式6〕而計算每一文件的上述評分。

在此，在上述〔數學式6〕中，w_i係上述加權值向量w的第i個元素。

如上所述，由於文件分析系統100能夠計算正確反映句子之文意的評分，因此能夠以更高的準確度抽取與指定的案件有關的資料。

〔時期(phase)分析〕

文件分析系統100能夠估測指定的案件所屬的時期(phase)，並根據該時期計算評分。在此，上述「時期」代表上述指定的案件進展的各階段(根據上述指定的案件之進展而分類)的指標。

例如，上述指定的案件為「與其他公司串通投標」之非法行為事件，而文件分析系統100的目的在於藉由判斷每天在網絡上流通的電子郵件是否與該非法行為事件有關，以檢測該非法行為事件的預兆的情況下，上述時期可以包含「收集關於其他公司與競爭同業的訊息的準備時期」、「與顧客‧競爭同業構築關係的關係構築時期」、「向顧客提報價格、得到回饋、關於該回饋與競爭同業溝通的競爭時期」等。

又，時間序列訊息及生成過程訊息係儲存於記憶部30中。在此，上述「時間序列訊息」係代表上述時期的時間性序列的訊息，例如，可以是代表從「準備時期」經過「關係構築時期」到「競爭時期」的時間發展模式。又，上述「生成過程訊息」係將在某個時期中各關鍵字被生成的過程模式化後的訊息，例如，可以是針對每一時期定義的多項分佈模式。

結果取得部12取得覆查員就文件1a是否與指定的案件有關的判斷結果、以及針對該文件1a屬於上述指定的案件的哪一時期所判斷的結果，作為覆查結果5a，而要件評估部13依照每個上述時期分別評估文件1a中包含的關鍵字(決定各關鍵字的加權值)。

評分計算部14在對於文件1b計算評分5e的情況下，基於上述生成過程訊息估測該文件1係哪一時期。具體而言，基於該生成過程訊息對於各時期計算概度，估測該概度最大化的時期作為該文件1b的時期。然後，評分計算部14利用對應於估測出之時期的加權值，分別計算文件1b的評分。此時，評分計算部14也可以利用對應於該時期的相關性矩陣C。

關係賦予部18可以一覧顯示由資料設定部17所設定的文件1b，並且能夠顯示上述估測出的時期。此時，關係賦予部18可以基於上述時間序列訊息，予測該估測出的時期發展至下一時期的可能性與時期等，並同時顯示該予測的結果。

如上所述，由於文件分析系統100能夠根據時期正確計算評分，因此能夠以更高的準確度抽取與指定的案件有關資料。

〔加權值的再計算〕

由關係賦予部18以一覧顯示由資料設定部17所設定的文件1b(由文件分析系統100判斷為與指定的案件有關的文件)之後，結果取得部12能夠接收來自覆查員對於該判斷的回饋。亦即，覆查員能夠對由文件分析系統100判斷出的結果是否妥當分別輸入，作為上述回讀。然後，要件評估部13能夠基於上述回饋再評估各關鍵字。

換言之，要件評估部13能夠基於對於文件分析系統100之判斷而重新得到的回饋再計算加權值。藉此，由於文件分析系統100能夠取得適合於作為分析對象之文件的加權值，並基於該加權值正確計算評分，因此能夠以更高的準確度抽取與指定的案件有關的資料。

〔與人士或組織相關的顯示〕

資料設定部17藉由抽取在文件1b中出現的固有名詞(例如，人名、企業名、地點名等固有資料要件)，並估測指定的固有名詞(第一固有資料要件)與其他的固有名詞(第二固有資料要件)的對應關係，而能夠將複數之人士或組織之間的聯繫強度可視化。

例如，將從人士A發送給人士B的電子郵件作為文件1b進行分析的結果，發現在該文件1b中包含「由我來與C先生聯絡」之句子的情況下，資料設定部17能夠抽取「人士A」、「人士B」、及「人士C」，並顯示從代表「人士A」之節點以箭頭分別連接代表「人士B」之節點及代表「人士C」之節點的圖表。在此情況下，資料設定部17可以根據人士或組織間的相關強度而以不同粗細的箭頭顯示上述圖表。

如上所述，由於文件分析系統100能夠基於對文件分析後的結果而以容易把握的方式顯示人士或組織間的相關關係，因此能夠不遺漏地識別使非法行為事件發生的主體。

〔發揮伺服器裝置之一部分或者全部之功能的結構〕

以上說明了：能夠發揮分析資料之功能的控制程式(資料分析裝置的控制程式)係主要在文件分析系統100(資料分析裝置)之中執行的結構(獨立結構)。另一方面，也可以是以下之結構：該控制程式的一部分或者全部都在伺服器裝置之中執行，而將該執行後的處理結果反饋回該文件分析系統100(使用者終端機)(雲端結構)。亦即，本發明之資料分析裝置係能夠經由網路與使用者終端機呈可通訊地相連而作為伺服器裝置之功能。藉此，在該文件分析系統100發揮伺服器裝置之功能的情況時，該文件分析系統100係能夠達成相同的效果。

〔藉由軟體加以執行的例子〕

文件分析系統100的控制方塊(尤其是，控制部10)係可藉由形成在積體電路(IC晶片)等之中的邏輯電路(硬體)加以執行，也可利用CPU(Central Processing Unit)而藉由軟體加以執行。在後者的情況時，文件分析系統100係包括：CPU，執行各功能之控制程式用的軟體之指令；唯讀記憶體(Read Only Memory，ROM)或者記憶裝置(以下將其所謂「儲存媒體」)，可供電腦(或者CPU)讀取該儲存在其中的控制程式及各種資料；及隨機存取記憶體(Random Access Memory，RAM)等，用以展開該控制程式。然後，藉由電腦(或者CPU)從該儲存媒體讀取並執行該控制程式，而可達成本發明之目的。可作為該儲存媒體的是：「非暫時性的有形的媒體」，例如，碟帶，碟片，插卡，半導體記憶體，可程式化之邏輯電路等。又，該控制程式也可以是經由能傳送該控制程式的任意傳送媒體(通訊網路或者播放信號等)供給至該電腦。在本發明中，該控制程式也可以是以藉由電子格式的傳送所具體執行之嵌埋於載波之中的資料信號的格式。

此外，上述控制程式係可利用，例如，Python語言、ActionScript語言、JavaScript語言(註冊商標)等Script語言，Objective-C、Java(註冊商標)等物件導向程式設計語言，HTML5等標記式語言等而可加以執行。又，包含具備用以實現藉由上述控制程式而實現的各功能的各部分的訊息處理裝置(例如，文件分析系統100)、以及具備用以實現與上述各功能不同的其餘的功能的各部分的伺服器裝置的分析系統也落入本發明之範疇內。

〔運用於文件以外之資料的例子〕

作為實施本發明之資料分析裝置的一形態，已說明了用以分析文件的文件分析系統100，然而該資料分析裝置也能夠分析文件以外的資料。

例如，本發明之資料分析裝置也能夠以分析聲音的聲音分析系統的形態實施。在此情況下，上述聲音分析系統可以(1)藉由辨識聲音並將該聲音之中包含的對話內容變換成文字(文件資料)，並與上述文件分析系統100同樣地處理該文件資料；或者(2)直接以聲音資料的方式處理。

在上述(1)的情況下，上述聲音分析系統藉由利用任意的聲音辨識運算(例如，利用隱馬爾可夫模式的辨識方法等)，將聲音資料變換成文件資料，並對於該文件資料執行與文件分析系統100所執行的處理同樣的處理。藉此，上述聲音分析系統達成與上述文件分析系統100同樣的效果。

在上述(2)的情況下，上述聲音分析系統能夠藉由抽取聲音資料之中包含的部分聲音，而將該聲音資料是否與指定的案件有關分類。例如，在得到「調整價格」之聲音資料的情況下，聲音分析系統能夠從該聲音資料之中抽取「價格」及「調整」之部分聲音，並基於對該部分聲音評估出的結果，對未分類的聲音資料給予關聯性訊息。在此情況下，聲音分析系統能夠利用時間序列資料的分類運算(例如，隱馬爾可夫模式、卡爾曼濾波、神經網絡等)將聲音資料分類。藉此，上述聲音分析系統達成與上述文件分析系統100同樣的效果。

或者，本發明之資料分析裝置也能夠以分析影像(動畫)的影像分析系統的形態實施。在此情況下，上述影像分析系統能夠藉由抽取影像資料之中包含的框影像，並利用任意的人臉辨識技術，而識別該框影像之中包含的人士。又，上述影像分析系統係藉由利用任意的動作辨識技術(例如，也可以是應用圖形比對技術者)，而能夠從上述影像資料之中所含的部分影像(含有上述影像之中所含的全畫面影像之中的一部分之影像)抽取上述人士的動作。然後，上述影像分析系統係基於上述人士及/或動作，而能夠將上述影像資料加以分類。藉此，上述影像分析系統係能達成與上述文件分析系統100相同的效果。

亦即，本發明之資料分析裝置係能夠分析依時序進展之訊息的數位資料(文件、聲音、影像等)。藉此，上述資料分析裝置係基於對過去的資料(文件、聲音、影像等)分析後的結果，而藉由分析現在的資料，俾能達成抽取與指定的案件有關之資料的效果(例如，能夠檢知非法行為發生時的預兆)。

〔附記事項〕

本發明並非僅限於上述之各實施形態，在申請專利範圍所主張之範圍內，吾人可對其進行各種變更，且即使將不同的實施形態之中所分別所敘述的技術手段適當地而獲得之實施形態，也應被視為在本發明之技術範圍之中。再者，藉由組合各實施形態之中的各技術手段，將可產生新的技術的特徵。

例如，本發明能夠呈現為以下之型態。亦即，一種資料分析裝置，包含：一要件評估部，基於指定的基準而分別就由使用者對其是否與指定的案件有關而進行判斷的資料之中所含的資料要件加以評估；一評分計算部，基於由要件評估部所評估出的結果，而就資料分別計算代表與指定的案件之關係性的強度之評分；一評分辨認部，對於代表被判斷出與指定的案件有關之資料之佔含有預定數量的資料之資料群的比例之關聯比，將可能超過設定成的目標值之最小的評分辨認成關聯閾值；一超過判斷部，基於由要件評估部所評估出的結果，而就尚未被判斷出其是否與指定的案件有關之資料所計算出的評分是否超過了關聯閾值進行判斷；及一資料設定部，在由超過判斷部判斷出超過的情況時，則將該資料設定為應向使用者報告之資料。

或者，本發明能夠呈現為以下之型態。亦即，一種資料分析裝置，包含：一評分辨認部，作為代表與指定的案件之關係性的強度之指標，從分別就由使用者所判斷出之其是否與該指定的案件有關之既判斷資料所計算出的評分當中，辨認出可能超過相對於關聯比所設定成的目標值之最小的評分；一超過判斷部，在重新擷取到尚未被判斷出其是否與指定的案件有關之未判斷資料的情況時，則就該未判斷資料所計算出的評分，是否超過了由評分辨認部所辨認出的最小的評分進行判斷；及一資料設定部，在由超過判斷部判斷出超過的情況時，則將未判斷資料設定為應向使用者報告之資料。

或者，本發明能夠呈現為以下之型態。亦即，一種資料分析裝置，包含：一訊息辨認部，在重新擷取到尚未被判斷出其是否與指定的案件有關之未判斷資料的情況時，從由使用者就是否與該指定的案件有關所判斷出的既判斷資料之中辨認相對於該未判斷資料而作為該判斷的基礎之基礎訊息；及一資料設定部，基於由該訊息辨認部所辨認出的基礎訊息，而將未判斷資料設定為應向使用者報告之資料。

又，在上述資料分析裝置之中，評分計算部係基於由要件評估部所評估出的結果，分別就由使用者判斷其是否與該指定的案件有關之文件之中所含的每一句子計算代表與指定的案件之關係性的強度之評分，而超過判斷部係基於由要件評估部所評估出的結果，而能夠分別就尚未被判斷出其是否與指定的案件有關之文件之中所含的句子所計算出的評分，是否超過了關聯閾值進行判斷。

本發明能夠廣泛地運用於個人電腦、伺服器裝置、電腦主機、工作站、或其他的電子機器。