TWI598755B - 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體 - Google Patents

資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體 Download PDF

Info

Publication number
TWI598755B
TWI598755B TW105109780A TW105109780A TWI598755B TW I598755 B TWI598755 B TW I598755B TW 105109780 A TW105109780 A TW 105109780A TW 105109780 A TW105109780 A TW 105109780A TW I598755 B TWI598755 B TW I598755B
Authority
TW
Taiwan
Prior art keywords
data
majority
object data
data analysis
reference material
Prior art date
Application number
TW105109780A
Other languages
English (en)
Other versions
TW201706884A (zh
Inventor
守本正宏
白井喜勝
武田秀樹
蓮子和巳
花谷彰晃
賈可 豪斯可夫
吉田菜菜子
Original Assignee
Ubic股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic股份有限公司 filed Critical Ubic股份有限公司
Publication of TW201706884A publication Critical patent/TW201706884A/zh
Application granted granted Critical
Publication of TWI598755B publication Critical patent/TWI598755B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體
本發明係關於用以分析資料的資料分析系統等。
因為電腦的急速發展使得社會資訊化進展,結果在企業、個人的活動上形成龐大數量的資訊(大數據)變得相關。因此,會重視自大數據之中分辨期望資訊的必要性。
就自大數據提取期望資訊的方式(approach)而言,例如有藉由將資料預先分類而提取期望資料之方式、根據單純的文字搜尋而能提取期望資料之方式、根據自然語言處理而提取期望資料之方式等。
例如,下述專利文獻1中,提案有一種裝置,目的在於提供為了自大數據提取資訊,而可根據文件集合中的提取關鍵字間之關係,將關聯性較深的提取關鍵字彈性地靠近配置之機制,對於經過領域分類的文件所含的關鍵字計算出用於與其他文件進行辨別的貢獻度,並根據該計算出的貢獻度而採用自我組織圖將該文件分類成單元加以表示之後,自該單元中的該文件所含之關鍵字的出現頻度計算出該關鍵字之配置資訊,配合單元而加以表示。
(先前技術文獻) (專利文獻)
專利文獻1:日本特開2014-056516號公報
雖然為了自大數據之中確切地找出對於用戶而言為必須的資訊,必須顧慮到用戶之意圖或搜尋之目的,甚至對於用戶而言的資料全體之印象等無法僅藉由關鍵字或符號來掌握的因子,但是上述習知手法終究不足,就結果而言,用戶必須一個個地分辨龐大的資訊,無法避免耗費莫大的勞力及時間。
所以,本發明目的在於提供一種資料分析技術,能有效率地發現對於用戶而言為必須的資訊。
本發明係關於將對象資料加以評量的資料分析之發明,評量多數之對象資料,該評量可係例如對應於各對象資料與既定事案之關聯性。又,藉由該評量而產生能使該多數之對象資料序列化的指標,該指標係根據用戶所給予的輸入而變化。
該多數之對象資料之序列例如因應於根據該輸入而變化的該指標來變化。該輸入例如將與該多數之對象資料不同的參照資料,根據該參照資料與該既定事案之關聯性而加以分類。該分類係例如因應於該參照資料的內容而分成多數之分類資訊,該多數之分類資訊之中的至少1者係由該輸入賦予至該參照資料。
本發明例如對於該參照資料所含的多數之構成要素,藉由將分別貢獻於由該輸入控制裝置提供的組合之程度加以評量,而自該參照資料提取因應於由該輸入所賦予的分類資訊而將該參照資料加以特徵化而成的模式。
本發明例如根據該提取到的模式,將該對象資料與該既定事案之關聯性加以而決定該指標,將該已決定的指標設定至該對象資料,並因應於該指標而將該多數之對象資料加以序列化,將該經序列化的多數之對象資料向用戶報知。
藉由經序列化的多數之對象資料,用戶能得知例如多數之對象資料之間與該既定事案之關聯性大小。用戶不同意多數之對象資料間之關聯性大小時,只要變更賦予至參照資料的分類資訊,該變更使得指標變化,進而由經變化的指標使得多數之對象資料的序列改變。用戶例如將參照資料全體的內容加以理解之後,因應於其內容而決定賦予至參照資料的分類資訊。用戶有可能由於參照資料的內容影響,而煩惱多數存在的分類資訊之中哪個分類資訊最適於參照資 料。用戶能例如藉由該已序列化的多數之對象資料而決定應將哪個分類資訊賦予至參照資料。
本發明能發揮以下效果:能有效率地發現對於用戶而言為必須的資訊。
10‧‧‧客戶端裝置
12‧‧‧管理計算機
14‧‧‧業務伺服器
16‧‧‧連接
18‧‧‧儲存系統
20‧‧‧通信機構
22‧‧‧資料庫
102‧‧‧參照資料提供部
103‧‧‧表示處理部
104‧‧‧分類資訊接受部
105‧‧‧學習部
106‧‧‧探索部
107‧‧‧運算部
108‧‧‧分類部
201‧‧‧記憶執行部
300‧‧‧提取要求
302‧‧‧提取命令
304‧‧‧提取參照資料
312‧‧‧送至特定的客戶端裝置
314‧‧‧送至業務伺服器
316‧‧‧提取構成要素
318‧‧‧計算評量
320‧‧‧探索構成要素
322‧‧‧計算出指標
500‧‧‧清單
502‧‧‧核取方塊
506‧‧‧(內容)細節
510‧‧‧ID
512‧‧‧名稱
圖1係顯示資料分析系統之硬體構成的一例之方塊圖。
圖2係顯示業務伺服器之功能構成的一例之功能方塊圖。
圖3係顯示資料分析系統的動作例之流程圖。
圖4係顯示用來輸入對於參照資料的分類之介面(輸入畫面)的一例之示意圖。
圖5係顯示用來輸入對於參照資料的分類之介面(輸入畫面)的其它例之示意圖。
圖6係存放對象資料之管理表格的一例。
圖7係顯示將對象資料加以迴歸分析而獲得的指數函數模型之特性例的圖表。
圖8係顯示將指數函數模型加以再度評量而獲得的上述指數函數模型之特性例的圖表。
圖9係顯示資料分析系統之管理畫面的一例之示意圖。
圖10係顯示多數之節點間的相關關係之畫面的一例。
圖11(A)係對象資料的摘要製作概念圖,(B)係顯示分類結果之表示形式的一例之略線圖。
圖12係供對象概念說明之概念圖。
(實施發明之較佳形態)
以下根據圖式來說明本發明之實施形態。
[資料分析系統之構成]
圖1係顯示資料分析系統之硬體構成的一例之方塊圖。如圖1所舉例顯示,資料分析系統例如,包含:業務伺服器14,可執行資料分析之主要處理;一或多數之客戶端裝置10,可執行該資料分析之關聯處理;儲存系統18,其具有將作為資料分析對象的對象資料及該對於對象資料之評量、分類的結果加以記錄之資料庫22;以及管理計算機12,提供用來對於客戶端裝置10及業務伺服器14進行資料分析之管理功能。
另,在本實施形態中,「資料」宜係以資料分析系統所能處理的形式來表現的任意資料。此時,上述資料宜係例如至少一部分為結構定義不完全的非結構化資料,廣泛包含至少一部分含有藉由自然語言來描述的文句之文件資料(例如,電子郵件(包含附加檔案、標頭資訊)、技術文件(廣泛包含例如學術論文、專利公報、產品規格書、設計圖等說明技術性事項的文件)、簡報資料、試算表資料、決算報告書、會議資料、報告書、營業資料、契約書、組織圖、事業計畫書等)、聲音資料(例如將會話、音楽等加以錄音的資料)、圖像資料(例如由多數之畫素或向量資訊構成的資料)、動態影像資料(例如由多數之影格圖像構成的資料)等。此時,資料之「構成要素」宜係構成上述資料之至少一部分的部分資 料,例如宜係構成文件的形態元素、關鍵字、語句、及/或段落,構成聲音的部分聲音、音量(增益)資訊、及/或音色資訊,構成圖像的部分圖像、部分畫素、及/或輝度資訊,構成動態影像的影格圖像、動作資訊、及/或3維資訊。
客戶端裝置10向具有將資料加以評量、分類之權限的用戶(評量權限用戶)提供參照資料。上述評量權限用戶可經由客戶端裝置10而進行用於將該參照資料加以評量、分類的輸入。另,在本實施形態中,上述「參照資料」亦可係例如由用戶使分類資訊相對應的資料(已分類資料)。另一方面,「對象資料」亦可係未使該分類資訊相對應的資料(未向用戶提示為參照資料,對於用戶而言係未經分類的未分類資料)。在此,上述「分類資訊」亦可係用於將參照資料加以分類的識別標籤。分類資訊可係例如為顯示參照資料就整體而言與既定事案有關係的「Related(相關)」標籤、顯示兩者尤其有關的「High(高)」標籤及顯示兩者無關的「Non-Related(不相關)」標籤,將該參照資料分類成3者的分類資訊,或是如「佳」、「尚可」、「普通」、「略差」及「差」,將該參照資料分類成5者等多數之類型的資訊。
又,上述「既定事案」廣泛包含資料分析系統所評量與資料之關聯性的對象,其範圍不受制限。例如,既定事案在資料分析系統係作為探索支援系統來實現之情形,可係要求探索手續的本訴訟案,作為犯罪搜查支援(鑑識科學)系統來實現之情形,可係成為搜查對象的犯罪,作為電子郵件監視系統來實現之情形,可係不法行為(例如,洩密、圍標等),作為醫療應用系統(例如,藥物主動監視支援系統、臨床試驗效率化系統、醫療避險系統、跌倒預測(跌倒防止)系統、癒後預測系統、診斷支援系統等)來實現之情形,可係關於醫薬之事例、事案,作為網際網路應用系統(例如,智慧型郵件系統、資訊聚集(彙整,Curation)系統、 用戶監視系統、社群媒體營運系統等)來實現之情形,可係關於網際網路之事例、事案,作為計畫評量系統來實現之情形,可係過去已遂的計畫,作為行銷支援系統來實現之情形,可係成為行銷對象的商品、服務,作為智財評量系統來實現之情形,可係成為評量對象的智慧財產,作為違法交易監視系統來實現之情形,可係違法金融交易,作為電話客服中心往上提報系統來實現之情形,可係過去應對事例,作為徵信系統來實現之情形,可係徵信之對象,作為駕駛支援系統來實現之情形,可係關於車輛運轉事項,做為營業支援系統來實現之情形,可係營業成績。
客戶端裝置10具有公知的電腦硬體資源,可包含例如記憶體(例如,硬碟,快閃記憶體等)、控制器(CPU;Central Processing Unit)、匯流排、輸入輸出介面(例如,鍵盤,顯示器等)、通信介面。客戶端裝置10藉由LAN等通信機構20而與業務伺服器14及管理計算機12連接成可藉由上述通信介面而通信。又,上述記憶體記憶有使客戶端裝置10發揮功能的應用程式等,上述控制器藉由執行該應用程式,使得評量權限用戶能進行分類、評量之處理所須的輸入輸出。
業務伺服器14根據對於參照資料之分類結果,自該參照資料將模式(pattern,廣泛指稱資料所含的抽象性規則、意義、概念、樣式、分布、樣本等,不限定於所謂的「特定模式」)加以學習,並根據該模式來評量對象資料。亦即,業務伺服器14係向用戶提示參照資料,容許該用戶對於該參照資料的分類資訊之輸入,根據用戶之輸入結果將模式加以學習,而能根據學習結果來進行對於對象資料之評量,藉而得以自多數之對象資料中分辨出用戶所期望的資料。業務伺服器14就硬體資源而言,可與客戶端裝置10同樣地包含例如記憶體、控制器、匯流排、輸入輸出介面及通信介面。又,上述記憶體記憶有使業務伺服器 14發揮功能的應用程式,上述控制器係根據該應用程式而執行用於資料分析之處理。
管理計算機12對於客戶端裝置10、儲存系統18及業務伺服器14執行既定管理處理。管理計算機12就硬體資源而言,可與客戶端裝置10同樣地包含例如記憶體、控制器、匯流排、輸入輸出介面及通信介面。又,管理計算機12之記憶體記憶有例如上述控制器用於執行管理處理之應用程式。
儲存系統18例如由磁碟陣列系統構成,可具有:資料庫22,將對象資料與對於該對象資料的評量、分類之結果加以記錄。業務伺服器14與儲存系統18係藉由DAS(Direct Attached Storage,直接附加儲存)方式,或,SAN(Storage Area Network,儲存區域網路)而連接(16)。
另,圖1所示的硬體構成,終究僅係例示,資料分析系統藉由其它硬體構成亦能實現。例如,可將業務伺服器14中執行的處理的一部分或全部在客戶端裝置10中執行的構成,亦可係將儲存系統18內置於業務伺服器14的構成。通常知識者能理解,存在有多種可將資料分析系統加以實現的硬體構成,不限定於某一構成(例如,圖1所例示的構成)。
[資料分析系統之功能]
圖2係顯示業務伺服器14之功能構成的一例之功能方塊圖。如圖2所例示,業務伺服器14可包含例如:參照資料提供部102,自保存在資料庫22的對象資料,依據既定基準(例如隨機地)而多數取樣出一部分的對象資料,並將其提供作為參照資料;表示處理部103,將對於參照資料之分類,對於參照資料以外之資 料的序列化、用於分類之資訊等,輸出至客戶端裝置10的表示機構;分類資訊接受部104,對於參照資料,接受來自擁有評量者權限的用戶之分類資訊設定(貼標籤);學習部105,根據分類資訊,將多數之參照資料分類至每一分類資訊,並將每一分類資訊之參照資料所含的模式加以學習。
業務伺服器14亦可更包含例如:記憶執行部201,使資料庫22將資料之構成要素及該構成要素之評量值加以記憶;探索部106,進行對於資料庫22之搜尋處理,自參照資料以外的對象資料探索出模式;運算部107,依每一對象資料而計算出顯示對象資料與既定事案之關聯性高低的指標,並根據該指標而將多數之對象資料加以序列化;分類部108,根據將對象資料加以序列化的結果,對於該對象資料賦予分類資訊。
另,上述中,標示為****部的構成係藉由業務伺服器14具有的控制器執行程式(資料分析程式)而實現的功能構成,所以亦可將****部換而言之為****處理或****功能。又,因為亦可將****部藉由硬體資源來代替,所以通常知識者能以解此等功能方塊可藉由僅有硬體、僅有軟體或此等之組合而以多種形式來實現,並不限定於某一者。
[資料分析系統之動作]
圖3係顯示資料分析系統的動作例之流程圖。具有管理者權限的管理用戶,將提取(取樣)參照資料之要求(提取要求300),給予管理計算機12。提取要求300可係如下要求,例如:自資料庫22所記錄的資料之中將既定數量的資料隨機性取樣作為參照資料;或將自既定範圍之資料(例如,資料之更新日期時間係3日以 內者)將既定數量的資料取樣作為參照資料。另,提取作為參照資料的資料之比例或數量,管理用戶可適當設定。
管理計算機12根據提取要求300而產生提取命令302,將該提取命令302傳送至業務伺服器14。業務伺服器14具有的參照資料提供部102根據來自管理計算機12之提取命令302而自資料庫22提取既定數量的參照資料(304)。
業務伺服器14之參照資料提供部102,將提取到的參照資料送至特定的客戶端裝置10(提取命令302所確認出的客戶端裝置)(312)。該特定的客戶端裝置10啟動評量分類輸入介面,並向評量權限用戶提示評量分類輸入畫面。圖4係該評量分類輸入畫面的一例。評量分類輸入畫面例如可含有參照資料的清單500及顯示每一對象資料之分類資訊的核取方塊502。
評量權限用戶自可一覽多數之參照資料的清單選擇1個參照資料時,如圖5所示,表示出例如該受選擇的對象資料之細節506。參照資料之細節506可例如由資料的ID510、資料的名稱512及對象資料之內容(文件資料的文字等)506所構成。
評量權限用戶將參照資料之細節506加以參照而掌握參照資料之內容後,可藉由在顯示每一參照資料之標籤的核取方塊打勾,而將該參照資料加以分類。例如,評量權限用戶認為資料係與既定事案有關係時,在顯示「Related」之核取方塊打勾,認為尤其有關係時,在顯示「High」的核取方塊打勾,認為無關係時,在顯示「Non-Related」的核取方塊打勾。在核取方塊打勾後,會將該資 訊送至業務伺服器(314),業務伺服器14將分類資訊與參照資料之組合記錄資料庫22。
業務伺服器14具有的學習部105參照記錄於資料庫22的上述組合,依每一分類資訊而自參照資料之集合提取構成要素(316)。學習部105,能例如在標有相同分類資訊的多數之參照資料中以既定頻度以上出現的詞素(關鍵字)提取作為構成要素。
又,學習部105能根據既定之評量基準(例如,傳達資訊量)而評量提取到的構成要素(318:計算出評量值)。例如,學習部105自文件資料(文字資料)提取關鍵字作為構成要素時,係根據上述既定評量基準而計算出該關鍵字之評量值,藉以評量該關鍵字。在此,上述「評量值」可係例如顯示該關鍵字對於參照資料與分類資訊之組合所貢獻的程度(構成要素出現於各資料的分布、頻度所因應於分類資訊的側重)之特徵量。藉此,學習部105能根據用戶對於參照資料之輸入而自該參照資料取得模式作為學習的結果。
業務伺服器14具有的記憶執行部201將學習部105所提取到的構成要素、該構成要素之評量值及閾值記憶於資料庫22。其次,業務伺服器14將構成要素與對象資料加以比較,評量對象資料與既定事案之關聯性高低,將對象資料序列化。具體而言,探索部106自資料庫22依序取入多數之對象資料,依序讀入該對象資料所含的多數之構成要素,探索各構成要素是否出現於該對象資料(320:探索構成要素)。該構成要素出現於對象資料時,運算部107根據該構成要素之評量值而計算出對象資料之指標,藉以將多數之對象資料根據該指標大小來序列化 (322:計算出指標)。在此,序列化係指可例如使對象資料與對於該對象資料計算出的指標相對應。
在該處理中,運算部107產生表現對象資料所含的構成要素有無之向量(所謂的「詞袋(Bag-of-words)」)。例如,對象資料含有「價格」這個關鍵字時,運算部107將對應「價格」的該向量之維度設置為「1」。運算部107計算該向量與各構成要素的評量值(評量值)之內積(下式),藉以計算出上述指標。
【數學式1】S=w T˙s
其中,s係表示上述向量,w係表示評量值向量,T係表示轉置。
另,運算部107可如上述所述依每一對象資料計算出1個指標,亦可依將對象資料分成既定區段(例如,語句、段落、以既定長度分割的部分聲音、包含既定數量的影格之部分動畫等)的每一單位計算出1個指標(細節後述)。又,運算部107可將例如對象資料之中,不含事前登錄於資料庫22的關鍵字、關聯用語、或學習部105所選定的構成要素之對象資料,事前自指標計算出的對象中排除。
分類部108根據顯示對象資料與既定事案之關聯性的指標(可根據該關聯性而將多數之對象資料加以序列化的指標)對於對象資料設定分類資訊。例如,分類部108能於對象資料之指標係在既定閾值以上時,對於該對象資料設定分類資訊。
分類部108可例如向用戶分別提示經序列化的多數之對象資料,容許該用戶將分類資訊分別設定至該多數之對象資料的輸入,用戶確認經自動分類的分類資訊,或能加以變更。此係因為,指標排行較高則對象資料與既定事案有關聯的期待度較高,對象資料設定有「Related」或「High」之標籤(分類資訊)的可能性較高,但例如有時對象資料的內容有加以妨礙之資訊(例如,特定片語)之情形,對象資料不該設定「Related」之標籤。
業務伺服器14將對象資料之管理表格登錄至資料庫22。圖6係存放對象資料之管理表格的一例。對於各對象資料(資料1、2、3、......)記錄有例如對象資料ID、對象資料的名稱、指標、分類資訊等。業務伺服器14中對於對象資料的評量包含關於多數之對象資料與既定事案之關聯性高低的既定運算處理,例如計算對象資料的指標、根據指標而將標籤設定至多數之對象資料中的各對象資料、或使其能根據指標的大小來識別多數之對象資料等。
業務伺服器14將存放於資料庫22的管理表格傳送至客戶端裝置10。客戶端裝置10依指標較大起之順序,將對象資料排序表示。客戶端裝置10可例如提示自動或手動進行對於對象資料賦予分類資訊之輸入欄。用戶選擇手動賦予時,評量權限用戶能對於各對象資料輸入「Related」、「High」或「Non-Related」的標籤。管理者亦能例如對於經序列化的全對象資料的排行前既定數量,或既定百分比的對象資料設定用於分類的標籤。
[學習的執行模式]
管理者可將學習的執行模式預先設定於學習部105。該執行模式具有多數之態樣,例如以下等態樣:(1)第1態樣,將分類資訊輸入至參照資料提供部102所 提取的參照資料的全部之後,業務伺服器14學習參照資料之模式,根據該模式而對於全部的對象資料計算出指標;(2)第2態樣,業務伺服器14於每次將分類資訊輸入至多數之參照資料中的各參照資料時進行學習,每次該學習時計算出對象資料之指標(亦即,根據參照資料一個一個的分類而逐次更新上述模式,並且計算出對象資料的指標);及(3)第3態樣,客戶端裝置10將參照資料提供部102所提取的參照資料以外之資料與分類資訊之組合供給至學習部105,業務伺服器14逐次更新上述模式並且計算出對象資料的指標(例如,評量權限用戶已將分類資訊設定於對象資料之情形,將該對象資料與分類資訊之組合迴授至學習部105並更新上述模式)。在上述第2態樣中,每當對於參照資料一個一個賦予分類資訊時,因為對象資料之序列受到變更,所以具有分類權限的用戶能確認對象資料的序列之更動變遷。在上述第3態樣中,因為將對象資料加以分類的結果逐次反映至學習部105所獲得的模式,所以亦能發揮逐次提昇評量資料之精度的附加性效果。
[構成要素的再度評量]
如前所述,學習部105將構成參照資料之至少一部分的多數之構成要素,在參照資料集(多數含有參照資料與將該參照資料加以分類的分類資訊之組合的資料集)中對於該組合的貢獻程度,根據既定基準(例如,傳達資訊量)而評量作為上述評量值。
此時,學習部105可選定構成要素並且重複評量該構成要素之評量值,修正該構成要素之評量值,直到設定有「Related」或「High」的標籤之資料的指標大於未設定有此等標籤之資料的指標。藉此,資料分析系統可找到出現於標有「Related」或「High」之分類資訊的多數之資料並對於資料與標籤之組合有影 響的構成要素。另,傳達資訊量係使用例如既定片語的出現機率與既定分類資訊的出現機率而自既定定義式中計算出。具體而言,學習部105例如使用下式來計算出構成要素的評量值wgt。
其中,wgt係顯示學習前第i個選定關鍵字之評量值的初始值。又,wgt係顯示第L次學習後的第i個選定關鍵字之評量值。γ係意指第L次學習中的學習參數,θ係意指學習效果之閾值。藉此,學習部105能將例如計算出的傳達資訊量之值越大,評量作為構成要素越能表示既定分類資訊之特徵。
又,學習部105能將設定有「Related」的參照資料之指標的最低值,與設定有「Non-Related」的參照資料之指標的最高值之中間值,定為對於對象資料自動判定有無「Related」設定之際的閾值(既定基準值)。
學習部105亦可持續進行評量值之再度評量直到例如重現率成為既定目標值。在此,重現率係指顯示待發現的資料相對於既定數量的資料而言所佔的比例(網羅性)之指標,例如,對於全資料的30%而言重現率係80%時,係顯示待發現的資料(例如,訴訟關聯資料)的80%係包含在指標排行前30%的資料之中。不使用資料分析系統,人全選資料(線性瀏覽)時,因為待發現的資料之量係與人所瀏覽的量成正比,所以距該比例的偏差越大,則系統的資料分析性能越佳。運算部107可具有:重現率計算出功能,根據資料之指標而計算出與判斷資料與既 定事案之關聯性有關的重現率;及再度選定功能,自參照資料再度選定構成要素。
學習部105在經序列化的對象資料之重現率低於目標值時,運算部107自參照資料再度選定構成要素,根據再度選定的構成要素而再度執行對象資料的序列化,並重複直到重現率超過目標值。再度選定構成要素時,可選定已將前一次選定的構成要素加以排除的構成要素,亦可將前一次選定之構成要素的一部取代成新的構成要素。又,運算部107以再度選定的構成要素計算對象資料之指標時,亦可變更一個或多數之構成要素的評量值。又,運算部107亦可使用再度選定的構成要素與其評量值而計算出各資料的指標(第2指標),並由構成要素之再度選定前獲得的第1指標與第2指標而重新計算重現率。
其次說明再度計算重現率之處理的具體例。首先,參照資料提供部102自資料庫22的對象資料隨機性取樣出用於向評覽者(評量權限用戶)提示的參照資料。其次,表示處理部103將提取到的參照資料輸出至客戶端裝置10的畫面表示部。評覽者瀏覽畫面表示部所表示的參照資料,對於參照資料賦予分類資訊。學習部105分析參照資料並選定構成要素。具體而言,學習部105提取N個在賦予有共通分類資訊的參照資料中共通出現的構成要素,對於提取到的各構成要素計算出評量值。例如,將第一個提取到的構成要素之評量值定為Wgt1、第二個定為Wgt2、第N個定為Wgtn。學習部105使用自此Wgt1至Wgtn的評量值來選定詞素。自評量值之排行前起依序選擇m個詞素(構成要素),將構成要素依評量值之降冪重新排列,代入以下公式,直到其總和到達目標值(定為K:K係任意常數)為止。
【數學式3】
其中K:固有目標值
wgti:第i個詞素的評量值
其次,運算部107將自對象資料提取選定的含有m個構成要素之資料,並根據該對象資料所含的構成要素之評量值,計算出各對象資料之指標。運算部107依指標的降冪將資料序列化,決定全資料之指標排行前A%(A係任意常數)的資料。運算部107確認出A%所含的資料之中「具有既定基準值以上之指標並設定有與參照資料相同的「Related」或「High」之標籤(分類資訊)的資料」,自A%所含的資料數與設定有標籤的資料數之比計算出重現率X1(Xn:第n次計算出的重現率)。
其次,運算部107判定重現率X1是否計算出目標值K以上。判定為計算出時,結束處理。否則,學習部105再度選定構成要素。具體而言,自方才選定的N個構成要素排除該m個構成要素後的構成要素,自評量值之排行前起依序選擇i個構成要素,代入下式,直到該總和到達目標值為止。
其中,K:固有目標值
Wi:第i個詞素:構成要素
Xn:第n個重現率
運算部107提取含有再度選定的構成要素之資料,計算各資料的第2指標S1r,使用初次計算的指標S1與第2指標S1r之殘差△1(△1=S1r-S1),自下式計算出各文件的合成指標S2。
其中
Si=第i個指標
Sir=第i個第2指標
i=第i個指標、第i個第2指標的合成指標
運算部107使用合成指標S2再度計算出重現率,並重複重現率之再度計算直到超過目標值K為止。藉此,能提升資料序列化中的精度直到目標重現率為止。
另,在上述說明為「重現率」之處亦可係符合率。在此,「符合率」(Precision Rate)係如下的指標:顯示相對於由資料分析系統所發現的資料而言,真正待發現的資料所佔的比例(正確性)。例如,表現為「將全資料處理30%的時間點,符合率為80%」時,係顯示對於指標排行前30%的資料而言,待發現的資料所佔比例係80%。又,資料分析系統能根據例如對於對象資料計算出的重現率與指標的順位(例如亦可係將該順位除以資料數而成的正規化順位)之關係,計算出用戶確認該對象資料之際所須的資料數。
[考慮到構成要素間之相關的指標計算]
運算部107亦可考慮對象資料所含的第1構成要素之評量值(第1構成要素之評量值)與該對象資料所含的第2構成要素之評量值(第2構成要素之評量值)之相關(共現)來決定對象資料之指標。例如,第1構成要素與第2構成要素之綑綁性強時,運算部107能在第1構成要素出現於對象資料時,考慮第2構成要素出現於該對象資料中的頻度而計算指標。就此種相關關係而言,例如,設想圍標、聯合壟斷等的調查違法作為既定事案時,因為經驗上得知投標、價格、調整之類的各關鍵字容易出現在同個通信記錄資料,所以只要在將各關鍵字各自的評量值相加之值,以加上根據此等資料之組合的既定值等方式,增加對象資料之指標即可。藉此,資料分析系統因為還能考慮到多數之構成要素間的相關關係來計算出指標,所以能以更高精度提取與既定事案有關聯的對象資料。
運算部107能藉由在構成要素的出現資訊反映出該構成要素與其它構成要素之相關(共現等)而計算出對象資料之指標。運算部107例如將構成要素的出現管理向量乘以顯示與其它構成要素之相關的相關矩陣。相關矩陣,例如,「價格」這個關鍵字出現於對象資料時,將對於「價格」而言其它關鍵字(例如「調整」)的出現容易性(亦即,相關),以相關矩陣的資訊加以表示的方陣。
相關矩陣可根據參照資料而最佳化。例如,對象資料出現「價格」這個關鍵字時,將其它關鍵字(「調整」)的出現數正規化至0~1之間的值(亦即,最大似然估計值)存放於相關矩陣。所以,資料分析系統能獲得用於將多數之構成要素的相關在資料之指標中加以反映的相關向量。
運算部107例如下式所示,根據全部的相關向量總計之值,計算出資料之指標。更具體而言,運算部107能以下式所示代替前述式,計算出相關向量之總計值與對於關鍵字之評量值的向量W之內積,藉以計算出對象資料之指標。
在此,C係表示相關矩陣,ss係表示第s個的關鍵字向量。又,TFnorm(總計值)係如下式計算。
在此,TFi係表示第i個關鍵字的出現頻度(TermFrequency),sjs係表示第s個關鍵字向量的第j個要素。
整理上式,運算部107可藉由計算下式而依每一對象資料計算出指標。
其中,wi係評量值向量W的第i個要素。
[對於部分分割的各部分資料之指標計算]
運算部107不僅藉由計算出對象資料全體的指標而將資料序列化,亦例如將對象資料分割成多數之零件(例如,資料所含的語句或段落(部分對象資料)),根據學習到的模式而評量各部分資料(亦即,計算出部分對象資料的指標),並將該部分對象資料序列化。並且,運算部107亦能將多數之部分對象資料之指標加以整合(例如,自多數之部分對象資料的指標之中提取最大值而定為全體資料的指標,獲將多數之部分對象資料的指標之平均定為全體資料的指標,或將多數之部分對象資料的指標依降序選擇既定數量並總計而定為全體資料的指標等),將該經整合的指標定為對象資料的評量結果。藉此,資料分析系統能自對象資料之中更確切地選擇出適於運用目的之有用資料。
[時期分析]
資料分析系統能將顯示既定事案之進展的各階段之時期(phase)加以分析。例如,既定事案係圍標行為時,因為該圍標行為通常依序為關係構築時期(與競爭對手構築關係的階段)、準備時期(與競爭對手交換有關於競爭之資訊的階段)、競爭時期(向顧客提示價格、獲得迴授、與競爭對手取得交流的階段)(經驗上、理論上已知),所以上述時期可設定上述3個時期。資料分析系統能藉由自對於預先設定的多數之時期分別準備的多數種類之參照資料,分別學習對應於該多數之時期的多數之模式,並分別根據該多數之時期而分析對象資料,而確認出例如「分析對象之組織現在處於哪個時期」。
以下詳細地說明資料分析系統確認出時期之流程。首先,資料分析系統參照分別對於預先設定的多數之時期而準備的多數種類之參照資料,評量該多數種類之參照資料分別含有的構成要素,使該構成要素與將該構成要素加以評量的結果(例如,評量值)相對應,依每一時期存放於資料庫22(亦即,分別學習對應於該多數之時期的多數之模式)。所以,例如,在「關係構築時期」(時期1)中,使「日程」、「調整」等的關鍵字評量值大於「執行時期」(時期3),在「準備時期」(時期2)中,「競爭產品」、「調查」等關鍵字評量值大於「關係構築時期」(時期1)。又,亦有依每一進度(stage)設定不同關鍵字之情形。
其次,資料分析系統根據上述每一時期學習到的模式而分析對象資料,藉以對於多數之時期分別計算出指標。並且,資料分析系統判定該指標是否滿足對於各時期預先設定的既定判定基準(例如,閾值)(例如,該指標是否超過該閾值),判定為滿足時,將對應於該時期的計數值增加。最後,資料分析系統根據該計數值而確認出現在的時期(例如,將具有最大計數值的時期定為現在的時期)。或,判定為每一時期計算出的指標滿足設定至該時期的既定判定基準時,資料分析系統亦可將該時期確認為現在的時期。
資料分析系統能將預先設定的既定判定基準(例如,閾值)資料適應性地再度設定。此時,運算部107利用將多數之對象資料序列化的結果。運算部107能例如將對象資料的指標與該指標的排行(亦即,將指標以昇冪排列時的順位)之關係進行迴歸分析,並根據該迴歸分析的結果而決定閾值。
運算部107能使用例如屬於指數型分布族的函數(y=eαx+β(e係自然對數的底,α及β係實數))而進行上述迴歸分析。運算部107根據對於多數之對象資料計 算出的指標與該指標的排行而決定(例如藉由最小平方法)上述α及β之值。另,申請人對於使用此上述函數的模型進行使用決定係數、F檢定、及t檢定的驗證,確認該模型的妥當性、最適性。
圖7係顯示根據指標與排行進行迴歸分析所獲得的指數函數模型之特性例的圖表。圖8係顯示將指數函數模型加以再度評量而獲得的上述指數函數模型之特性例的圖表。圖7及圖8中橫軸顯示指標,縱軸以對數尺度顯示排行。所以,使用指數函數的擬合曲線(迴歸曲線)在圖7及圖8中以直線顯示,於縱軸較下則排行較高,較上則排行較低。
管理者對於排行預先設定好閾值。例如,在圖7中,管理者在運算部107設定好1.E-03(=0.001=0.1%)作為閾值。運算部107能藉由確認出對應於該閾值的由指數函數所顯示的指標,將該指標設定做為某個時期中的閾值(既定判定基準),而變更對於該時期預先設定的閾值。如此,資料分析系統能將經序列化的對象資料藉由迴歸分析而加以再度評量,將對於每一時期計算出的指標之閾值(既定判定基準)動態地變更,以適合根據學習所獲得的模式而評量對象資料的結果。又,資料分析系統亦能藉由持續性監控對象資料的資料影像而持續性監視時期的進行。
再者,資料分析系統能在已由評量權限用戶將評量對象資料的結果加以驗證時,根據該驗證結果,調整學習部105所執行的學習處理。例如,評量權限用戶將由資料分析系統給予高的指標之對象資料加以驗證之際,判斷為不應將高的指標給予該對象資料時,該評量權限用戶將「Non-Related」的標籤賦予至該對象資料。學習部105將該對象資料迴授作為參照資料,例如,增減該參照資料 所含的構成要素之評量值,或進行構成要素之追加、刪除,而執行再度學習將模式加以更新。
並且,學習部105根據更新的模式而再度計算出對象資料的指標與排行,並對於該計算出結果進行再度迴歸分析(圖8)。學習部105根據新的迴歸分析之結果,執行與圖7中的說明相同的處理,藉以設定已依每一時期修正的閾值。
[使用時間數列資訊的分析]
(1)根據預測模型的時期進展預測
資料分析系統,能根據可將與既定事案有關係的既定行為之進展加以預測的模型,而自藉由評量多數之對象資料來決定的指標,預測、提示下一行為。資料分析系統,能例如假設以對於第1時期(例如,關係構築時期)計算出的指標,與對於第2時期(例如,準備時期)計算出的指標定為變數的迴歸模型,並根據預先最佳化的迴歸係數而預測前進至第3時期(例如,競爭時期)的可能性(例如,機率)。
(2)每一既定時間間隔的學習
將性質會隨著經過每一既定時間間隔的學習時間而變化的資料(例如將隨著時間經過而進行之病狀加以記錄的電子病歷等)加以分析時,資料分析系統能自依每一既定時間間隔而區分的參照資料(例如,第1區間的對象資料、第2區間的對象資料...)分別學習模式(亦即,於每一該既定時間間隔取得構成要素與評量該構成要素的結果),並分別根據該模式而分析對象資料。
[根據資料結構之分析]
運算部107能分析對象資料之結構,將該分析的結果反映至對象資料之評量。例如,對象資料在至少一部分含有文件資料時,運算部107能分析文件資料的語句之表現形態(例如,該語句係肯定句、否定句或消極句等)而將分析結果反映至對象資料之指標。在此,肯定句係指例如語句之述語係「美味」,否定句係指「難吃」或「不好吃」,消極句係指「稱不上美味」或「稱不上難吃」等。
運算部107能例如於肯定句設定「+α」,於否定句設定「-β」,於消極句設定「+θ」(α、β、θ:可係相同或不同之數值),使用此等參數,調整分別對於對象資料計算出的指標。或,運算部107能在偵測到對象資料所含的語句係否定句時,例如,藉由刪除該語句而不將該語句所含的構成要素作為指標計算出之基礎(不考慮該構成要素)。藉此,資料分析系統因未能將資料結構分析結果反映至指標,所以能以更高精度評量資料。
運算部107就對象資料結構而言,能分析語句的構文,將其分析結果反映至對象資料之指標。運算部107亦可藉由例如詞素(構成要素)位於語句的主語、目的語、述語之何處而於該詞素之評量值設置優劣。詞素在構文中的位置只要藉由向量控制即可,因應係主語、目的語或述語而於詞素之評量值標註優劣。運算部107能在自詞素的出現向量與評量值計算出對象資料的指標之際,配合詞素的構文中的位置之控制向量,求取對象資料的指標。
[感情分析]
資料分析系統能自對象資料提取用戶的感情。一般而言,在線上商品網站或餐廳指南等中,多與用戶的評語一併記載有該用戶對於商品、服務之評量。所以,資料分析系統能根據評語與評量而製作參照資料,並根據該參照資料而 評量對象資料,藉以推測用戶是否對於商品、服務抱持好印象。就概念而言,因為對於該評量高的商品、服務之評語,多使用好感的片語(例如,「很好」、「愉快」等),對於該評量低的商品、服務之評語,多使用惡感的片語(例如,「差勁」,「無趣」等),所以資料分析系統能從由評語與評量之組合而成的參照資料學習模式,並根據該模式而自僅由評語構成的對象資料提取產生該評語的用戶之感情作為感情指標。
首先,分類部108將參照資料根據感情優劣加以分類。例如,分類部108在消費者的評量為5階段進行時,因應於階段評量而將分類資訊(例如,可係顯示「好印象」或「壞印象」2分類的標籤,或係顯示「佳」、「尚可」、「普通」、「略差」、「差」5分類的標籤)設定至參照資料。其次,學習部105自設定有分類資訊的參照資料提取構成要素。尤其,學習部105能提取顯示感情表現的構成要素(例如,對應於形容詞、形容動詞、副詞等的詞素)。
並且,學習部105以下述方式產生對於顯示感情表現的構成要素之感情標記(感情評量資訊,顯示用戶抱持好印象或壞印象的指標)。亦即,學習部105在分類為好印象的1以上之參照資料中,將顯示感情表現的構成要素(構成要素A)所出現之次數AF加以計數。並且,學習部105計算出構成要素A出現在該參照資料中的頻度RFP
在此,NP係分類至好印象的參照資料所含的全構成要素數量。
其次學習部105將構成要素A在分類至壞印象的參照資料中出現的次數AN加以計數,計算出構成要素A在參照資料中出現的頻度RFN
在此,NN係分類至壞印象的參照資料所含的全構成要素數量。
並且,學習部105使用以上述二式而計算出的頻度,而如下方式地計算出構成要素A的感情標記(感情判定指標值P(A))。
再者,學習部105在感情判定指標值P(A)大於1時,將構成要素A當成多用於抱持好印象的資料之構成要素,而將「+1」指定作為其感情標記,並於感情判定指標值P(A)小於1時,將構成要素A作為多用於抱持壞印象的資料之構成要素,而將「-1」指定作為其感情標記,並存放於資料庫22。例如,「佳」、「漂亮」、「美味」之類的用語容易有「+1」,「差」、「髒」、「糟糕」之類的用語則有設定為「-1」的傾向。
運算部107自對象資料提取設定有感情標記的構成要素,取得提取到的構成要素各自之感情標記值。運算部107依構成要素出現於對象資料的次數加計感情標記值。例如,對於「佳」這個構成要素設定的感情標記係「+1」,於未分類資料出現5次時,將未分類資料的根據「佳」這個構成要素之感情指標定為「5」。 又,例如,對於「差」這個構成要素設定的感情標記係「-1」,於未分類資料出現3次時,則將未分類資料的根據「差」這個構成要素的感情指標定為「-3」。
運算部107判定構成要素是否存在有否定表現或誇張表現並計算出感情指標。否定表現係指將構成要素加以否定的表現,例如,「不佳」、「不美味」之類的表現。具有此種表現實,將此等作為相反的表現來對待,例如,若為「不佳」則作為「差」,若為「不美味」則作為「糟糕」來對待。另,在此係作為相反的表現來對待,但亦可定為例如在對於「佳」這個表現設定有「+1」的感情標記時,使其為負值。或者,亦可定為將設定作為感情標記的值減少既定量(例如,1.5)。又,再者,亦可定為偵測是否有將否定加以否定的表現,亦即雙重否定表現,並於具有雙重否定表現時,將構成要素判斷為肯定性。
又,誇張表現係指將構成要素更加誇張(強調)的表現,例如,「非常」、「驚人」、「霹靂」之類的表現。此種誇張表現牽涉到構成要素時,使該感情標記值成為既定倍(例如,2倍)並計算出感情指標。例如,具有「非常美味」這個表現時,「美味」的感情標記值係「+1」,則將對於該表現的感情指標定為「+2」(增大)。另,成為既定倍的構成要素,僅有牽涉到誇張表現的構成要素。
如此,運算部107如下式所示地,根據全部的構成要素而計算出感情指標,並加以總計而計算出對象資料的指標S。
其中,si係第i個構成要素的感情標記。
運算部107根據感情指標將對象資料序列化。指標大於0時,將對象資料判定為容易抱持好印象,指標未滿0時,將對象資料判定為抱持判定為容易抱持壞印象。並將經序列化的多數之對象資料向用戶提示。
[熱量圖之表示]
資料分析系統具有既定的管理功能。該管理功能係藉由管理計算機12的管理程式而執行。就管理功能的一例而言,有以下形態:有多位評量權限用戶時,藉由管理畫面而表示各人的分類精度。
圖9係顯示資料分析系統之管理畫面的一例之示意圖。該管理畫面係由表示處理部103自運算部107的資料之指標而製作。表示處理部103將表示畫面260輸出至管理計算機12的監視器。表示畫面260具有例如,分別與指標之預先決定的各範圍各自相對應的多數之區塊,及,表示比率的表示區域262。比率係指標範圍所含的對象資料之總數量,與對象資料的總數量之中與既定事案有關而由評量權限用戶設定有「Related」標籤的對象資料數量之比。
區塊例如以指標為0~999、1000~1999的方式每1000而區分設定,各區塊,例如指標為每200而細分化。各細分化的每一小區塊,藉由色調等附加資訊的形態變化(漸次變化)來表現比率。例如,色調較為冷色系顯示比率較低,亦即,對象資料由評覽者設定「Related」標籤之率較低(為Non-Related之率較高),較為暖色系則顯示由評覽者設定「Related」標籤之率較高。例如,表示區域262的縱向具有評量權限用戶的識別欄266,關聯性指標欄268依每一評量權限用戶來區別。資料分析系統能使用因應於已與既定分類資訊(標籤)相對應的資料相對於全 部資料而言所佔的比例之漸次變化,將對於分別評量多數之資料的結果而言之該比例的分布以可目視方式顯示。
管理權限用戶藉由參照表示於表示畫面260的各小區塊之顏色,而容易掌握各評量權限用戶的分類精度適當與否。例如,某個評量權限用戶即使在指標較小的區域亦設定「Related」旗標的比例高,另一方面,某個評量權限用戶即使在指標高的區域亦設定「Non-Related」旗標的比例高,即表示此等評量權限用戶所進行的分類為精度較低。
[網路分析]
資料分析系統能將多數之節點(人、組織、電腦)間的相互關係(資料的傳送接收或交換等)可視化。此時,表示處理部103例如根據運算部107所進行的資料之序列化結果,將與既定事案有關聯的多數之人物之關係性,以能明白該關聯性之程度的方式表示在客戶端裝置10。
如圖10所示,於表示處理部103將各節點表示成圓形,並且一個節點與其它節點之間具有關係性時,將該節點與該其它節點之間以箭頭結合表示。各節點的大小係顯示節點間的關係性大小。亦即,節點大小較大者顯示與節點30之關係性較高。在圖10之例中,依節點31、節點36、節點35、節點32、節點33、節點34之順序,節點變小。所以,在圖10之例依節點31、節點36、節點35、節點32,節點33,節點34之順序顯示出與節點30之關係性高低。根據關係性的大小、資料指標的大小或標籤的優劣而決定。亦可改變將節點間加以結合的箭頭或線段的粗度或顏色等來代替節點大小,或者併用。
節點亦可藉由URL或電郵位址而確認出。圖10係以節點30為中心的相關關係表示,但表示處理部103亦可變更中心節點。又,表示處理部亦能於一個畫面將多數之節點設定作為中心節點。又,亦可將資料的時間戳印、傳送時刻、來電時刻、更新時刻等時間資訊以能得知節點間之相關關係的方式加以表示。只要節點間的相關關係之發生較現在時刻較近則較加改變節點間的連結表示之形態(色調)即可。
又,資料分析系統判定資料是否含有表是既定動作的第1構成要素,並於判定為含有時,確認出表示該既定動作的對象之第2構成要素。例如,上述資料含有「確定規格」這個文句時,自該文句提取「規格」及「確定」這個構成要素(片語),確認出表示「確定」這個既定動作的第1構成要素(動詞)之對象,即「規格」這個第2構成要素(目的語)。其次,上述資料分析系統使將含有上述第1構成要素及第2構成要素的資料之屬性(性質、特徵)加以顯示的元(meta)資訊(屬性資訊)與該第1構成要素及第2構成要素相關聯。在此,上述元資訊係將資料所具有的既定屬性加以顯示的資訊,例如,上述資料係電子郵件時,可係傳送該電子郵件的人物的姓名、收信的人物的姓名、郵件位址、傳送接收的日期時間等。並且,資料分析系統使2個構成要素與元資訊相對應,表示於客戶端裝置10。
例如,電子郵件(資料,通信資訊)含有「交流技術」這個文句,提取到「技術」(第2構成要素)及「交流」(第1構成要素)這個片語時,資料分析系統將上述「技術」及「交流」,與傳送接收上述電子郵件的人物的姓名(例如「人物A」及「人物B」)相關聯並加以表示。藉此,能推測「人物A」與「人物B」企圖進行關於某個「技術」的「交流」。再者,例如,附加於上述電子郵件的簡報資料含有「確定規格」這個文句,並提取到「規格」(第2構成要素)及「確定」(第 1構成要素)這個片語時,資料分析系統使上述「規格」及「確定」與製作上述簡報資料的日期時間(例如2015年3月30日16點30分)相關聯並加以表示。藉此,可推測「人物A」與「人物B」在企圖進行針對某個「技術」的「交流」中,於2015年3月30日16點30分的時間點,欲「確定」該「技術」的「規格」。
雖然藉由本發明之資料分析系統將多數之對象資料加以序列化,但是過目全部對象資料內容需要時間,原本即非易事。所以,資料分析系統能實現:支援功能,用於使用戶能夠以短時間掌握對象資料的內容。
[概念之提取]
運算部107執行話題(語境)偵測功能。運算部107如圖11(A)所示,自對象資料之中提取含有預先選定的概念之下位概念的構成要素的資料,並以適度的抽象度分別製作提取到的各對象資料(電子郵件等)的內容之摘要,並根據製作的摘要而將對象資料加以集群分析(clustering),用以使得對象資料的內容能夠確認,並將對象資料的集群分析結果以例如圖11(B)的形式向用戶提示。
此種話題偵測功能藉由準備時期及應用時期的2階段時期來實現。準備時期,係預先提取由用戶所設定的各對象概念之下位概念的關鍵字,用於製作使提取到的關鍵字分別與對應的對象概念相對應而成的上述對象概念提取用資料庫之時期。又,應用時期係利用準備時期中製作的對象概念提取用資料庫而製作將相應的對象資料之內容以排行較前的概念加以表現的摘要,並根據製作的摘要而將相應的對象資料加以集群分析並因應於來自用戶的要求而表示結果的時期。
在準備時期中,首先,用戶選定與欲自對象資料偵測的話題(話題)因應的數個對象概念,將選定的對象概念登錄至預先資料分析系統。例如,欲偵測的話題係「不當」及「不滿」時,如圖12所示,將概念的目錄分類分成「行動」、「感情」、「性質或狀態」、「風險」及「金錢」5者,例如對於「行動」而言為「報復」及「輕蔑」等,對於「感情」而言為「痛苦」及「憤怒」等,對於「性質或狀態」而言為「遲鈍」及「心腸或態度差」等,對於「風險」而言為「威脅」及「欺騙」等,對於「金錢」而言「對於人的勞動支付的錢財」等概念,將其分別設定作為對象概念。
運算部107於如此進行而設定對象概念後,於每一已登錄的對象概念,在資料庫22的字典上搜尋表示其下位概念的關鍵字,並製作使該搜尋所偵測到的各個關鍵字分別與對應的對象概念相對應而成的上述對象概念提取用資料庫。
另一方面,在應用時期中,運算部107利用如上述方式製作的對象概念提取用資料庫,自對象資料之中,提取文字內含有登錄於對象概念提取用資料庫之關鍵字的對象資料。又,運算部107對於如此進行而提取到的對象資料,製作使用當時偵測到的關鍵字之排行較前的概念來將該文字的內容加以表示的摘要。
例如圖11之情形,如(A)所示,因為對於「電子郵件_1」,自「監視系統受注」之處提取「系統」、「販賣」及「進行」這些對象概念,對於「電子郵件_2」,自「會計系統導入」之處提取「系統」、「販賣」及「進行」這些排行較前的概念,所以對於此等「電子郵件_1」及「電子郵件_2」,均會製作出「進行系統販賣」這個摘要。
並且,表示處理部103於其後有來自用戶之要求時,根據如此製作的相應對象資料之摘要,將對象資料加以集群分析並向用戶提示其結果。
例如,圖11之情形,因為如上所述地對於「電子郵件_1」及「電子郵件_2」製作出「進行系統販賣」這個相同摘要,所以將此等「電子郵件_1」及「電子郵件_2」分類至同一群組。並且,將其分類結果例如(B)地以將摘要定為「內容」的形式來表示。如此,用戶能掌握對象資料的內容。
[其它構成]
藉由分類資訊接受部104,對於多數之分類資訊中的各分類資訊設定參照資料與分類資訊之組合。亦即,多數設定分類資訊與參照資料之組合。又,學習部105將例如共通出現於標註有同一分類資訊的多數之參照資料的構成要素,考慮對於參照資料與分類資訊之組合的貢獻程度而加以評量,將評量結果(評量值)在既定以上的構成要素,選定作為共通於多數之參照資料的模式之一。另,因為對於參照資料的評量、分類方針、基準,會有依每一評量者而異之情形,所以資料分析系統亦可在對於參照資料的評量、分類容許多數之評量者的參加。
資料分析系統可根據用戶進行的輸入而將分類資訊設定至經序列化的對象資料。或,資料分析系統亦可因應對於對象資料的評量結果(例如,對象資料的指標滿足該既定評量基準(例如,指標是否超過既定閾值)時),將分類資訊給予該對象資料,而無須用戶之輸入。上述評量基準可由具有管理權限的用戶來設定,亦可將參照資料或對象資料之測定結果加以迴歸分析並根據結果而由資料分析系統來設定。又,資料分析系統能例如自依據既定分類資訊來分類並標註有相同分類資訊的多數之對象資料提取有用的構成要素,並根據該構成要素而 分析能否將對象資料以與參照資料同樣的方式加以分類。構成要素之提取可例如於每一以多數之分類資訊中的各分類資訊所群組化的對象資料而進行。
如前所述,將學習部105所選定的、如詞素等的構成要素,記錄於資料庫22。又,業務伺服器14亦能自過去的分類處理之結果中,將與既定事案優劣之關聯性高,只要包含於對象資料即能分類為「有關係」的構成要素,事先登錄於資料庫22。
又,亦能自過去的分類處理之結果,先將和賦予有與既定事案之關聯性的符號之對象資料的關聯性高的構成要素登錄於資料庫22。曾經登錄於資料庫22的詞素,係依據資料分析系統進行的學習結果而增減,此外亦能藉由手動追加登錄及刪除。
資料分析系統能學習多數之模式(資料的構成要素與評量該構成要素的結果之組合),並保持於資料庫22。例如,資料分析系統能依每一既定事案的種類保持上述組合。藉此,例如,將資料分析系統作為犯罪搜查支援系統來實現,對於能成為犯罪證據的資料加以分析時,與將資料分析系統作為網際網路應用系統來實現,對於網頁加以分析時,資料分析系統保持有互為不同的多數之模式。此時,用戶輸入該既定事案的種類,資料分析系統能根據因應該種類的模式而處理對象資料。
資料分析系統能在計算參照資料所含的構成要素之評量值時,計算出全部的構成要素之暫時評量值,其後將該構成要素以外的構成要素之暫時評量值添加至計算出評量值的對象構成要素之暫時評量值,而計算出最終的評量值。具 體而言,資料分析系統對於多數之構成要素中的各構成要素計算出評量值(亦即,分別評量該多數之構成要素),並在對於該多數之構成要素之中的一者即第1構成要素計算出的評量值中,反映出對於該多數之構成要素之中另一者即第2構成要素計算出的評量值,藉以更新對於該第1構成要素計算出的評量值,並使該經更新的評量值與該第1構成要素相對應,存放於資料庫22作為該第1構成要素的評量值。藉此,因為資料分析系統能在亦考慮到與其它構成要素之關聯性的情況下計算出用於評量資料的構成要素之評量值,所以能以更高的精度來分析資料。
資料分析系統將參照資料所含的構成要素分別根據既定基準(例如,傳達資訊量)來評量,並根據該經評量的結果而對於對象資料分別計算出顯示與既定事案之關聯性高低的正指標(主指標)。其次,資料分析系統自上述正指標低的對象資料(例如,該正指標幾乎為零的資料)之中選出既定數量的資料(例如,隨機性地)作為部分資料,將該經選出的資料所含的構成要素根據上述既定基準而分別加以評量。並且,資料分析系統根據該評量的結果,對於該對象資料計算出顯示對象資料與上述既定事案之關聯性薄弱度的負指標(副指標)。最後,資料分析系統依據上述正指標及負指標提取對象資料(例如將資料全體序列化,而自正指標高、負指標低的資料起依序排列)。
如上述方式,資料分析系統不僅倒出顯示與既定事案有關聯的指標(正指標),亦依據該正指標而導出顯示與該既定事案無關聯(與該既定事案之關聯性低)的指標(負指標)。藉此,資料分析系統能以更高精度分析資料。
[資料分析系統之應用例]
資料分析系統例如能作為資訊資產活用系統(計畫評量系統)來實現。亦即,此資料分析系統能作為因應狀況而(動態地)提取企業、熟練者所具有的資訊資產(資料)並可活用該資訊資產的系統來實現。藉此,例如能(1)為使期望開發期間縮短的開發現場有效率化,因應該開發的要件而再度利用與過去開發的產品有關的資訊,或(2)根據熟練技術者所具有的專業知識而確認出有用的資訊資產。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊(過去的資訊資產)。
資料分析系統可例如作為網際網路應用系統(例如,智慧型郵件系統、資訊聚集(彙整)系統、用戶監視系統、社群媒體營運系統等)來實現。此時,該資料分析系統能根據既定評量基準(例如,該用戶的喜好與其它用戶的喜好是否類似,該用戶的喜好與餐廳的屬性是否一致等)而評量資料(例如,用戶投稿至SNS的訊息,刊載於網站的推薦資訊、用戶或團體的簡介等),藉以例如一覽表示與該用戶可能意氣相投的其它用戶,提示符合該用戶喜好的餐廳之資訊,或者將難免危害該用戶的團體加以警告。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能例如作為駕駛支援系統來實現。此時,該資料分析系統能根據既定評量基準(例如,是否為熟練駕駛進行運轉中、該熟練駕駛所著眼的資訊等)而評量資料(例如,自車載感測器、攝影機、麥克風等取得的資料),藉以例如自動地提取能使運轉安全、舒適的有用資訊。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能例如作為金融系統(例如,違法交易監視系統,股價預測系統等)來實現。此時,該資料分析系統能根據既定評量基準(例如,是否有不當目的之虞、股價是否上昇等)而評量資料(例如,對銀行提出的文件、股價的現值等),藉以例如將具有不當目的之提出加以舉發、預測將來的股價。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為醫療應用系統(例如,醫藥安全性監管支援系統、臨床試驗效率化系統、醫療避險系統、跌倒預測(跌倒防止)系統、癒後預測系統、診斷支援系統等)來實現。此時,該資料分析系統能根據既定評量基準(例如,患者是否採取特定的危險行動,某個薬劑是否有對於疾病發揮效能等)而評量資料(例如,電子病歷,看護記錄,患者日記等),藉以例如預測患者陷入危險狀態(例如,跌倒等)、或客觀地評量薬劑效能。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如郵件控制系統(智慧型郵件系統)來實現。此時,該資料分析系統能根據既定評量基準(例如,是否有回覆該電子郵件之必要等)而評量資料(例如,電子郵件、附加檔案等),而自例如大量的郵件之中提取重要的郵件(須有動作的郵件)。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如探索支援系統來實現。此時,該資料分析系統根據既定評量基準(例如,在本訴訟案中的探索手續中是否應提出該資料等)而評量資料(例如,文件、電子郵件、試算表資料等),藉以例如僅將與本訴訟案 有關聯的文件向法庭提出。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如鑑識科學支援系統來實現。此時,該資料分析系統根據既定評量基準(例如,該資料是否係能證明犯罪行為的證據等)而評量資料(例如,文件、電子郵件、試算表資料等),藉以例如提取證明該犯罪行為的證據。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如郵件監視系統(郵件監查支援系統)來實現。此時,該資料分析系統能根據既定評量基準(例如,傳送接收該電子郵件的用戶是否欲進行不法行為等)而評量資料(例如,電子郵件,附加檔案等),藉以例如發現洩密、圍標等不法行為的預兆。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如智財評量系統來實現。此時,該資料分析系統能根據既定評量基準(例如,該專利公報是否能成為將系爭專利加以核駁、舉發的證據等)而評量資料(例如,專利公報、摘要發明之文件、學術論文等),藉以例如自大量文獻(例如,專利公報、學術論文、刊載於網際網路的文章)之中提取舉發資料。此時,資料分析系統能例如取得作為舉發對象的專利之各請求項與「Related」標籤(分類資訊)之組合,及,與該專利不同的無關專利之各請求項與「Non-Related」標籤(分類資訊)之組合作為參照資料,並自該參照資料學習模式,而對於大量文獻(對象資料)計算出指標(例如,於專利公報的每一段落計算出指標,將自該指標的排行前起的既定數量分加以總計,藉以定為該專利公報 的指標),藉以評量該對象資料。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如電話客服中心往上提報系統來實現。此時,該資料分析系統能根據既定評量基準(例如,是否與過去的應對事例類似等)而評量資料(例如,電話的通話歷程、錄下的聲音等),藉以例如自過去的應對事例之中提取最適於現在狀況的應對方法。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能例如作為行銷支援系統來實現。此時,該資料分析系統能根據既定評量基準(例如,該個人係男性或女性,消費者對於產品是否抱持好感等)而評量資料(例如,企業、個人簡介、產品資訊等),藉以例如提取對於某個產品的市場評量。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
又,資料分析系統能作為例如徵信系統來實現。此時,該資料分析系統能根據既定評量基準(例如,該企業是否破產、該企業是否成長等)而評量資料(例如,企業簡介、關於企業業績之資訊、關於股價之資訊、新聞發布等),藉以例如預測企業的成長、破產。亦即,資料分析系統能有效率地發現對於用戶而言為必須的資訊。
如此,本發明之資料分析系統可作為探索支援系統、犯罪搜查支援系統、電子郵件監視系統、醫療應用系統、網際網路應用系統、資訊資產活用系統、行銷支援系統、智財評量系統、電話客服中心往上提報系統、徵信系統、營業 支援系統、駕駛支援系統等,根據既定評量基準(是否與既定事案有關聯)而評量資料,藉以有效率地發現對於用戶而言為必須的資訊之任意系統來實現。尤其,本發明的資料分析系統將含有多數之資料的資料群視為「人類之思考及行動的結果所致的資料之集合體」,並進行例如與人類行動有關聯的分析、預測人類行動的分析、偵測人類特定行動的分析、抑制人類特定行動的分析等,藉以自資料中提取模式,並藉由將該模式與既定事案之關聯性加以評量,而能有效率地發現對於用戶而言為必須的資訊。
另,宜依據本發明的資料分析系統所應用的領域,考量該領域中特有的事情,例如對於資料施加前處理(例如,自該資料擷取重要處,僅將該重要處定為資料分析對象等),或改變表示資料分析結果的態樣。通常知識者會理解如此變形例可多樣地存在,全部的變形例均落入本發明之範疇。
[資料分析系統處理文件資料以外的資料之例]
在上述實施形態中,主要說明資料分析系統分析文件資料之例,但該資料分析系統亦能分析文件資料以外的資料(例如,聲音資料、圖像資料、動態影像資料等)。
例如,分析聲音資料時,資料分析系統可將該聲音資料本身定為分析對象,亦可藉由聲音辨識將該聲音資料轉換成文件資料,並將轉換後的文件資料定為分析對象。前者之情形,資料分析系統能例如將聲音資料分割成既定長度的部分聲音並定為構成要素,利用任意的聲音分析手法(例如,隱馬可夫模型、卡門濾波器等)來識別該部分聲音,藉以分析該聲音資料。後者之情形,能使用任意 的聲音辨識演算法(例如使用隱馬可夫模型的辨識方法等)來辨識聲音,並對於辨識後的資料,以與在實施形態中說明的程序同樣的程序加以分析。
又,分析圖像資料時,資料分析系統能例如將圖像資料分割成既定大小的部分圖像並定為構成要素,利用任意的圖像辨識手法(例如,模式匹配、支援向量機、類神經網路等)來識別該部分圖像,藉以分析該圖像資料。
再者,分析動態影像資料時,資料分析系統能例如將動態影像資料所含的多數之影格圖像分別分割成既定大小的部分圖像並定為構成要素,利用任意的圖像辨識手法(例如,模式匹配、支援向量機、類神經網路等)來識別該部分圖像,藉以分析該動態影像資料。
[利用軟體、硬體之實現例]
資料分析系統的控制方塊可藉由形成於積體電路(IC晶片)等的邏輯電路(硬體)來實現,亦可使用CPU(Central Processing Unit,中央處理單元)並藉由軟體來實現。後者之情形,資料分析系統包含:CPU,執行實現各功能的軟體即程式(資料分析系統之控制程式);ROM(Read Only Memory,唯讀記憶體)或記憶裝置(此等稱為「記錄媒體」),將該程式及各種資料記憶為電腦(或CPU)可讀取;及RAM(Random Access Memory,隨機存取記憶體)等,展開該程式。並且,藉由電腦(或CPU)自上述記錄媒體讀取上述程式並執行而達成本發明之目的。就上述記錄媒體而言,可使用「非暫時性的有形媒體」,例如卡帶、碟片、卡片、半導體記憶體、可程式化的邏輯電路等。又,上述程式亦可藉由能傳輸該程式的任意傳輸媒體(通信網路或廣播電波等)而供給至上述電腦。本發明亦能利用將上述程式藉由電子性傳輸而具現化的、嵌入於載波的資料信號之形態而實現。另, 上述程式可藉由任意的程式語言而實作,例如,Python、ActionScript、JavaScript(註冊商標)等腳本語言,Objective-C、Java(註冊商標)等物件導向程式語言,HTML5等標記語言等而實作。又,記錄有上述程式的任意記錄媒體(電腦可讀取的記錄媒體)亦落入本發明的範疇。
[統整]
本發明之第1態樣之資料分析系統,係將對象資料加以評量,其包含:記憶體;輸入控制裝置;及控制器;且該控制器,評量多數之對象資料,該評量係對應於各對象資料與既定事案之關聯性,並藉由該評量而產生能使該多數之對象資料序列化的指標,能根據用戶經由該輸入控制裝置而給予的輸入來改變該指標,該記憶體,至少暫時性地記憶該控制器所評量的該多數之對象資料,該輸入控制裝置容許該用戶進行該控制器用於將該多數之對象資料加以序列化的輸入,該多數之對象資料的序列係因應於根據該輸入而變化的該指標來變化,該輸入係將與該多數之對象資料不同的參照資料根據該參照資料與該既定事案之關聯性而加以分類,該分類係因應於該參照資料之內容而分成多數之分類資訊,該多數之分類資訊之中的至少1者係由該輸入賦予至該參照資料,向該用戶提示該參照資料,並將由該用戶的輸入所給予該提示出的參照資料之該至少1個分類資訊與該參照資料之組合,提供至該控制器,該控制器藉由對於該參照資料所含的多數之構成要素所分別貢獻於自該輸入控制裝置提供的組合的程度加以評量,而自該參照資料提取因應於該輸入所賦予的分類資訊而將該參照資料加以特徵化而成的模式,並根據該提取到的模式,評量該對象資料與該既定事案之關聯性而決定該指標,將該已決定的指標設定至該對象資料,並因應於該指標而將該多數之對象資料加以序列化,將該已序列化的多數之對象資料向用戶報知。
又,本發明第2態樣之資料分析系統係於上述第1態樣中,該控制器比較該指標與既定閾值,並根據該比較的結果而將與該既定事案有關聯的分類資訊設定至該多數之對象資料中的各對象資料。
又,本發明第3態樣之資料分析系統係於上述第1~2態樣中,該控制器判定該多數之對象資料是否滿足既定判定基準,並自判定為滿足該既定判定基準的多數之對象資料選出既定數量的對象資料,根據該模式而分別再度評量該既定數量的對象資料,根據該再度評量的結果而變更該既定判定基準。
又,本發明第4態樣之資料分析系統於上述第1~3態樣中,該控制器更取得新的參照資料與賦予該新的參照資料的該分類資訊之組合,將該新的參照資料之至少一部分的構成要素,對該新的參照資料與分類資訊之組合所貢獻的程度加以評量,藉以更新該模式,並根據該更新的模式,評量該對象資料與該既定事案之關聯性而決定該指標。
又,本發明第5態樣之資料分析系統係於上述第1~4態樣中,該控制器根據評量該多數之對象資料的結果而計算出重現率,自該參照資料重複提取該模式以使該重現率上昇。
又,本發明第6態樣之資料分析系統係於上述第1~5態樣中,該控制器於每次由該輸入控制裝置提供該組合時,將對應於該分類資訊的該參照資料之至少一部分的構成要素所貢獻於該組合的程度加以評量,藉以逐次更新該模式。
又,本發明第7態樣之資料分析系統,係於上述第1~6態樣中,該控制器將與該對象資料的至少一部分之構成要素對應的概念,藉由參照使該構成要素與該概念相對應而成的資料庫來加以提取,並根據該提取到的概念而輸出該多數之對象資料之摘要。
又,本發明第8態樣之資料分析系統係於上述第1~7態樣中,該控制器依該多數之對象資料共通含有的每一主題將該多數之對象資料加以集群分析。
又,本發明第9態樣之資料分析系統係於上述第1~8態樣中,該對象資料至少含用戶對於該既定事案的評量資訊,該控制器自該對象資料提取產生該對象資料的用戶之感情,且係根據該評量資訊而產生的對於該既定事案之感情。
又,本發明第10態樣之資料分析系統係於上述第1~9態樣中,該控制器使用因應於已與該分類資訊相對應的對象資料相對於全部對象資料而言的比例之漸次變化,將對於分別評量該多數之對象資料的結果而言之該比例的分布以可目視方式顯示。
又,本發明第11態樣之資料分析系統係於上述第1~10態樣中,該多數之對象資料係在多數之計算機間傳送接收的資訊,該控制器根據將該經傳送接收的資訊加以分析的結果而使該多數之計算機間的緊密度可視化。
又,本發明第12態樣之資料分析系統係於上述第1~11態樣中,該模式係能因應於時間經過而變化,該控制器於每一既定時間間隔取得該參照資料,並自於每一該既定時間間隔取得到的多數之參照資料中的各參照資料提取該模式, 根據該模式,於每一該既定時間間隔評量該多數之對象資料中的各參照資料而決定該指標。
又,本發明第13態樣之資料分析系統係於上述第1~12態樣中,該控制器藉由分割該對象資料而產生多數構成該對象資料的至少一部分之部分對象資料,並根據該提取到的模式而分別評量該多數之部分對象資料,且將評量該多數之部分對象資料而獲得的該指標加以整合,使用該已整合的指標而分別評量該多數之對象資料。
又,本發明第14態樣之資料分析系統係於上述第1~13態樣中,該控制器根據該構成要素與將含有該構成要素的參照資料加以分類的該分類資訊之關係的強度,計算出對於該構成要素的評量值作為評量該程度之結果,並根據對於該對象資料的至少一部分之構成要素而計算出的評量值,決定該指標以顯示該對象資料與該既定事案之關聯性高低,藉以評量該多數之對象資料。
又,本發明第15態樣之資料分析系統係於上述第1~14態樣中,該控制器根據該構成要素及與該構成要素不同的其它構成要素所出現於同一參照資料的至少一部分之頻度而評量該構成要素與該其它構成要素之相關,更根據該相關而分別評量該多數之對象資料。
又,本發明第16態樣之資料分析系統係於上述第1~15態樣中,該控制器根據可將與該既定事案有關係的既定行為之進展加以預測的模型,而自藉由評量該多數之對象資料來決定的指標,提示下一行為。
又,本發明第17態樣之資料分析系統係於上述第1~16態樣中,該控制器於每一顯示既定行為所進展的各階段之指標即每一時期,評量該多數之對象資料,並自藉由評量該多數之對象資料而於每一該時期決定的指標來確認出現在的時期。
又,本發明第18態樣之資料分析系統係於上述第1~17態樣中,該對象資料係至少一部分含有1以上的語句之文件資料,該控制器分析該語句所具有的結構,並根據該分析的結果而將該指標決定至該對象資料。
又,本發明第19態樣之資料分析系統係於上述第18態樣中,該控制器根據分析該語句所具有的結構之結果而判定該語句的表現形態,並根據該判定的結果而評量該對象資料。
又,本發明第1態樣之資料分析方法係將對象資料加以評量,其包含:多數之對象資料,根據評量基準而分別評量多數之對象資料,該評量基準係對應於各對象資料與既定事案之關聯性;第2步驟,藉由該評量而產生能使該多數之對象資料序列化的指標,並能因應於用戶所給予的輸入而改變該指標;第3步驟,至少暫時性地記憶該第1步驟中受到評量的該多數之對象資料;第4步驟,容許該用戶進行用於將該多數之對象資料加以序列化的輸入,該多數之對象資料之序列係因應於根據該輸入而變化的該指標來變化,該輸入係將與該多數之對象資料不同的參照資料,根據該參照資料與該既定事案之關聯性而加以分類,該分類係因應於該參照資料的內容而分成多數之分類資訊,該多數之分類資訊之中的至少1者係由該輸入賦予至該參照資料;第5步驟,向該用戶提示該參照資料;第6步驟,提供由該用戶的輸入而給予該提示出的參照資料之該至少1個分 類資訊與該參照資料之組合;第7步驟,藉由將該參照資料所含的多數之構成要素分別對於該提供的組合所貢獻之程度加以評量,而自該參照資料提取因應於由該輸入所賦予的分類資訊而將該參照資料加以特徵化而成的模式;第8步驟,將該已提取的模式定為該評量基準,並根據該模式,評量該對象資料與該既定事案之關聯性而決定該指標;第9步驟,將該已決定的指標設定至該對象資料;第10步驟,執行因應於該指標的該多數之對象資料的序列化;及第11步驟,將該已序列化的多數之對象資料向用戶報知。
又,本發明第1態樣之資料分析程式係使電腦執行上述第1態樣之資料分析方法的各步驟。
又,本發明第1態樣之記錄媒體係記錄有上述第1態樣之資料分析程式。
又,本發明另一態樣之資料分析系統包含:記憶體;及1以上的控制器,可執行存放於該記憶體的1以上之程式;且將記憶於該記憶體之資料集所含的多數之資料分別加以評量,該控制器取得含有多數參照資料與將該參照資料加以分類的分類資訊之組合的資料集並作為參照資料集,分別評量構成該參照資料的至少一部之多數之構成要素貢獻於該取得到的參照資料集所含的多數之組合的程度,藉以學習該參照資料所含的模式,並根據該學習到的模式將多數之對象資料加以序列化,藉以分別評量該多數之對象資料,根據將該多數之對象資料分別評量的結果,將該多數之對象資料經由既定表示介面向用戶提示。
(產業利用性)
本發明可廣泛應用於個人電腦、伺服器、工作站、大型主機等任意電腦。
10‧‧‧客戶端裝置
12‧‧‧管理計算機
14‧‧‧業務伺服器
16‧‧‧連接
18‧‧‧儲存系統
20‧‧‧通信機構
22‧‧‧資料庫

Claims (21)

  1. 一種資料分析系統,用以評量對象資料與既定事案之關聯性,其包含記憶體及控制器;其中該記憶體至少暫時性地儲存多數之對象資料;其中該控制器:產生能使該多數之對象資料序列化的指標,能根據用戶的輸入而改變該指標,向該用戶提示參照資料,及容許該用戶進行該輸入,以使該控制器將該多數之對象資料序列化;其中將該多數之對象資料序列化係因應於根據該輸入而變化的該指標來變化,該輸入將與該多數之對象資料不同的參照資料根據該參照資料與該既定事案之該關聯性而加以分類;其中該分類係因應於根據該參照資料之內容的多數之分類資訊而加以執行;且其中該多數之分類資訊之中的至少1者係藉由該輸入的進行而賦予至該參照資料或該對象資料,其中該控制器更進一步:設定該多數之分類資訊之中的至少1者與該參照資料之組合,而該多數之分類資訊之中的至少1者係藉由該用戶之該輸入而賦予至所提示之該參照資料;藉由評量「該參照資料所含的多數之構成要素」分別對於該組合的貢獻程度,而自該參照資料提取「因應於該輸入所賦予的該分類資訊而將該參照資料加以特徵化」所成的模式;根據該模式,針對該多數之對象資料其中每一者而設定該指標; 基於該資料的指標來計算重現率,該分類資訊係針對該資料的指標而設定;當該重現率低於預定目標值時,重複評量「該參照資料所含的多數之構成要素」的貢獻程度,並自該參照資料重複提取該模式,直到該重現率至少達到該預定目標值為止;因應於根據該模式所設定之該指標而將該多數之對象資料加以序列化;及將該已序列化的多數之對象資料向該用戶報知。
  2. 如申請專利範圍第1項之資料分析系統,其中,該控制器比較該指標與既定閾值,根據該比較的結果而將與該既定事案有關聯的分類資訊設定至該多數之對象資料中的各對象資料。
  3. 如申請專利範圍第1項之資料分析系統,其中,該控制器,判定該多數之對象資料是否滿足既定之判定基準,並自判定為滿足該既定判定基準的多數之對象資料選出既定數量的對象資料,根據該模式而分別再度評量該既定數量的對象資料,根據該再度評量的結果而變更該既定判定基準。
  4. 如申請專利範圍第1項之資料分析系統,其中,該控制器,更取得新的參照資料與賦予至該新的參照資料的該分類資訊之組合,並將該新的參照資料之至少一部分的構成要素對該新的參照資料與分類資訊之組合所貢獻的程度加以評量,藉以更新該模式, 並根據該更新的模式,評量該對象資料與該既定事案之關聯性而決定該指標。
  5. 如申請專利範圍第1項之資料分析系統,其中,當該控制器於每次接收該組合時,該控制器將「對應於該分類資訊的該參照資料之至少一部分的構成要素」所貢獻於該組合的程度加以評量,藉以逐次更新該模式。
  6. 如申請專利範圍第1項之資料分析系統,其中,該控制器,將與該對象資料的至少一部分之構成要素對應的概念,藉由參照使該構成要素與該概念相對應而成的資料庫來加以提取,並根據該提取到的概念而輸出該多數之對象資料之摘要。
  7. 如申請專利範圍第1項之資料分析系統,其中,該控制器,依該多數之對象資料共通含有的每一主題,將該多數之對象資料加以集群分析。
  8. 如申請專利範圍第1項之資料分析系統,其中,該對象資料,至少含有用戶對於該既定事案的評量資訊,該控制器,自該對象資料提取產生該對象資料的用戶之感情,且係根據該評量資訊而產生的對於該既定事案之感情。
  9. 如申請專利範圍第1項之資料分析系統,其中,該控制器,使用因應於「已與該分類資訊相對應的對象資料」相對於「全部的對象資料」之比例的漸次變化,將對於「分別評量該多數之對象資料的結果而言之該比例的分布」以可目視方式顯示。
  10. 如申請專利範圍第1項之資料分析系統,其中,該多數之對象資料,係在多數之計算機間傳送接收的資訊,該控制器,根據將該經傳送接收的資訊加以分析的結果而使該多數之計算機間的緊密度可視化。
  11. 如申請專利範圍第1項之資料分析系統,其中,該模式係能因應於時間經過而變化,該控制器,於每一既定時間間隔取得該參照資料,並自於每一該既定時間間隔取得到的多數之參照資料中的各參照資料提取該模式,根據該模式,於每一該既定時間間隔評量該多數之對象資料中的各對象資料而決定該指標。
  12. 如申請專利範圍第1項之資料分析系統,其中,該控制器, 藉由分割該對象資料而產生多數之「構成該對象資料的至少一部分之部分對象資料」,並根據該提取到的模式而分別評量該多數之部分對象資料,且將評量該多數之部分對象資料而獲得的該指標加以整合,使用該已整合的指標而分別評量該多數之對象資料。
  13. 如申請專利範圍第1項之資料分析系統,其中,該控制器,根據該構成要素與「將含有該構成要素的參照資料加以分類而得的該分類資訊」之關係的強度,計算出對於該構成要素的評量值作為評量該程度之結果,並根據「對於該對象資料的至少一部分之構成要素而計算出的評量值」,決定該指標以顯示該對象資料與該既定事案之關聯性高低,藉以評量該多數之對象資料。
  14. 如申請專利範圍第1項之資料分析系統,其中,該控制器,根據「該構成要素及與該構成要素不同的其它構成要素所出現於同一參照資料的至少一部分之頻度」而評量該構成要素與該其它構成要素之相關,更根據該相關而分別評量該多數之對象資料。
  15. 如申請專利範圍第1項之資料分析系統,其中,該控制器,根據「可將與該既定事案有關係的既定行為之進展加以預測的模型」,而自「藉由評量該多數之對象資料所決定出的指標」,提示下一行為。
  16. 如申請專利範圍第15項之資料分析系統,其中,該控制器,於顯示既定行為所進展的各階段之每一指標即每一時期,評量該多數之對象資料,並自「藉由評量該多數之對象資料而於每一該時期決定的指標」,來確認出現在的時期。
  17. 如申請專利範圍第1項之資料分析系統,其中,該對象資料,係於其至少一部分含有1以上的語句之文件資料,該控制器,分析該語句所具有的結構,並根據該分析出的結果而將該指標決定至該對象資料。
  18. 如申請專利範圍第17項之資料分析系統,其中,該控制器,根據分析該語句所具有的結構之結果而判定該語句的表現形態,並根據該判定的結果而評量該對象資料。
  19. 一種資料分析方法,用以將對象資料加以評量,其包含:根據評量基準而分別評量多數之對象資料,該評量基準係對應於各對象資料與既定事案之關聯性;產生能使該多數之對象資料序列化的指標,該指標能因應於用戶的輸入而改變; 至少暫時性地儲存該多數之對象資料;向該用戶提示參照資料;容許該用戶進行用於將該多數之對象資料加以序列化的輸入,其中該多數之對象資料之序列係因應於根據該輸入而變化的該指標來變化,該輸入將與該多數之對象資料不同的參照資料根據該參照資料與該既定事案之關聯性而加以分類,其中該分類係因應於該參照資料的內容而分成多數之分類資訊,且其中該多數之分類資訊之中的至少1者係藉由該輸入賦予至該對象資料的該參照資料;設定「藉由該用戶的輸入而給予該提示出的參照資料之該至少1個分類資訊」與「該參照資料」之組合;藉由將「該參照資料所含的多數之構成要素分別對於該提供的組合所貢獻之程度」加以評量,而自該參照資料提取「因應於由該輸入所賦予的分類資訊以將該參照資料加以特徵化而成的模式」;根據該模式,針對該多數之對象資料其中每一者而設定該指標;基於該資料的指標來計算重現率,該分類資訊係針對該資料的指標而設定;當該重現率低於預定目標值時,重複評量「該參照資料所含的多數之構成要素」的貢獻程度,並自該參照資料重複提取該模式,直到該重現率至少達到該預定目標值為止;因應於根據該模式所設定之該指標而將該多數之對象資料加以序列化;及將該已序列化的多數之對象資料向該用戶報知。
  20. 一種內儲資料分析程式的電腦程式產品,當電腦載入該程式並執行後,可完成如申請專利範圍第19項記載之資料分析方法。
  21. 一種內儲資料分析程式的電腦可讀取的記錄媒體,當電腦載入該程式並執行後,可完成如申請專利範圍第19項之資料分析方法。
TW105109780A 2015-03-31 2016-03-29 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體 TWI598755B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/060299 WO2016157467A1 (ja) 2015-03-31 2015-03-31 データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体

Publications (2)

Publication Number Publication Date
TW201706884A TW201706884A (zh) 2017-02-16
TWI598755B true TWI598755B (zh) 2017-09-11

Family

ID=57004108

Family Applications (1)

Application Number Title Priority Date Filing Date
TW105109780A TWI598755B (zh) 2015-03-31 2016-03-29 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體

Country Status (7)

Country Link
US (2) US9563652B2 (zh)
EP (1) EP3279804A4 (zh)
JP (1) JP6182279B2 (zh)
KR (1) KR101981075B1 (zh)
CN (1) CN107851097B (zh)
TW (1) TWI598755B (zh)
WO (1) WO2016157467A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI733453B (zh) * 2019-05-17 2021-07-11 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
TWI748566B (zh) * 2019-08-26 2021-12-01 南韓商韓領有限公司 動態聚集資料及資料損失最小化的系統以及方法
TWI767192B (zh) * 2020-02-26 2022-06-11 傑睿資訊服務股份有限公司 智慧分析系統之應用方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10237267B2 (en) * 2014-04-15 2019-03-19 Huawei Technologies Co., Ltd. Rights control method, client, and server
KR102114564B1 (ko) * 2015-10-30 2020-05-22 가부시키가이샤 모르포 학습 시스템, 학습 장치, 학습 방법, 학습 프로그램, 교사 데이터 작성 장치, 교사 데이터 작성 방법, 교사 데이터 작성 프로그램, 단말 장치 및 임계치 변경 장치
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
WO2017168524A1 (ja) * 2016-03-28 2017-10-05 株式会社日立製作所 分析用サーバ装置、データ解析システム、及びデータ解析方法
JP6638537B2 (ja) 2016-04-21 2020-01-29 株式会社島津製作所 試料解析システム
WO2018080522A1 (en) * 2016-10-28 2018-05-03 Hewlett-Packard Development Company, L.P. Target class feature model
US10768910B2 (en) * 2016-10-31 2020-09-08 Teletracking Technologies, Inc. Systems and methods for generating interactive hypermedia graphical user interfaces on a mobile device
JP6683111B2 (ja) * 2016-11-28 2020-04-15 株式会社島津製作所 試料解析システム
JP6784612B2 (ja) * 2017-03-02 2020-11-11 株式会社日立製作所 分析ソフトウェア管理システム及び分析ソフトウェア管理方法
JP6932956B2 (ja) * 2017-03-16 2021-09-08 富士通株式会社 生成プログラム、生成方法および生成装置
TWI649660B (zh) * 2017-05-05 2019-02-01 張漢威 資料分析系統及其分析方法
US20180330325A1 (en) 2017-05-12 2018-11-15 Zippy Inc. Method for indicating delivery location and software for same
CN108363709A (zh) * 2017-06-08 2018-08-03 国云科技股份有限公司 一种基于用户使用主成分的图表推荐系统及方法
JP6842405B2 (ja) * 2017-12-18 2021-03-17 株式会社日立製作所 分析支援方法、分析支援サーバ及び記憶媒体
DE112018007197T5 (de) * 2018-03-30 2021-02-18 Mitsubishi Electric Corporation Lernverarbeitunsgerät, datenanalysegerät, analyseprozedur-auswahlverfahren und analyseprozedurauswahlprogramm
CN109166069B (zh) * 2018-07-17 2020-09-08 华中科技大学 基于马尔科夫逻辑网络的数据关联方法、系统及设备
CN109036553B (zh) * 2018-08-01 2022-03-29 北京理工大学 一种基于自动抽取医疗专家知识的疾病预测方法
JP7020345B2 (ja) * 2018-08-27 2022-02-16 日本電信電話株式会社 評価装置、方法、及びプログラム
JP7063292B2 (ja) 2019-03-15 2022-05-09 オムロン株式会社 制御システム、設定装置、および設定プログラム
JP6607589B1 (ja) * 2019-03-29 2019-11-20 株式会社 情報システムエンジニアリング 情報提供システム及び情報提供方法
CN110008255A (zh) * 2019-04-03 2019-07-12 平安信托有限责任公司 业务数据分析方法、装置、计算机设备和存储介质
JP6890671B2 (ja) * 2019-05-28 2021-06-18 リンカーズ株式会社 検索システム、検索方法及び検索アプリケーションソフトウェア
JP7353851B2 (ja) * 2019-08-02 2023-10-02 キヤノン株式会社 システム、方法、及びプログラム
JP2021043818A (ja) * 2019-09-12 2021-03-18 花王株式会社 包装袋の資源活用の選択を支援する選択支援システム
TWI723602B (zh) * 2019-10-30 2021-04-01 國立中央大學 社群式學習創建系統與電腦程式產品
KR102120232B1 (ko) * 2019-11-04 2020-06-16 (주)유엠로직스 칼만필터 알고리즘을 이용한 사이버 표적공격 탐지 시스템 및 그 탐지 방법
JP7219701B2 (ja) 2019-12-24 2023-02-08 株式会社日立製作所 評価装置および評価方法
KR102091986B1 (ko) * 2019-12-26 2020-03-20 한국생산성본부 고객의 여정 분석 정보에 기반하는 인공지능 마케팅 시스템
JP7480536B2 (ja) * 2020-03-12 2024-05-10 富士フイルムビジネスイノベーション株式会社 文書処理装置及びプログラム
JP7298522B2 (ja) * 2020-03-17 2023-06-27 横河電機株式会社 評価システム及び評価方法
WO2021192190A1 (ja) * 2020-03-27 2021-09-30 日本電気株式会社 人流予測システム、人流予測方法およびプログラム記録媒体
US20230084216A1 (en) * 2020-03-30 2023-03-16 Nec Corporation Crime investigation assisting system, crime investigation assisting device, crime investigation assisting method, and recording medium in which crime investigation assisting program is stored
JP7419955B2 (ja) * 2020-04-27 2024-01-23 横河電機株式会社 データ解析システム、データ解析方法、およびプログラム
KR20210143464A (ko) * 2020-05-20 2021-11-29 삼성에스디에스 주식회사 데이터 분석 장치 및 그것의 데이터 분석 방법
CN111797686B (zh) * 2020-05-29 2024-04-02 中南大学 基于时间序列相似性分析的泡沫浮选生产过程运行状态稳定度评估方法
KR102244699B1 (ko) * 2020-06-15 2021-04-27 주식회사 크라우드웍스 인공지능 학습데이터 생성을 위한 크라우드소싱 기반 프로젝트의 문장 유사도를 이용한 감정 라벨링 방법
CN112015912B (zh) * 2020-08-25 2023-07-04 杭州指令集智能科技有限公司 一种基于知识图谱的指标智能可视化方法及装置
CN112699249B (zh) * 2020-12-31 2022-11-15 上海浦东发展银行股份有限公司 基于知识图谱的信息处理方法、装置、设备及存储介质
JP7049010B1 (ja) 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
KR102410415B1 (ko) * 2021-06-23 2022-06-22 주식회사 셀타스퀘어 지능형 약물감시 플랫폼을 제공하기 위한 방법 및 장치
CN113673958A (zh) * 2021-08-23 2021-11-19 广东电网有限责任公司 一种适用于供电所的信息提取分配方法及设备
JP2023118523A (ja) * 2022-02-15 2023-08-25 富士通株式会社 均衡解探索プログラム、均衡解探索方法および情報処理装置
CN117610990A (zh) * 2023-11-13 2024-02-27 中国通信建设集团有限公司数智科创分公司 一种基于大数据的司法案例质量智能评价系统及方法

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606659B1 (en) * 2000-01-28 2003-08-12 Websense, Inc. System and method for controlling access to internet sites
US20140122110A1 (en) * 2000-08-01 2014-05-01 Logical Images, Inc. System and method for problem-oriented patient-contextualized medical search and clinical decision support to improve diagnostic, management, and therapeutic decisions
US6622140B1 (en) * 2000-11-15 2003-09-16 Justsystem Corporation Method and apparatus for analyzing affect and emotion in text
JP3701197B2 (ja) 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
CN1291337C (zh) 2001-05-22 2006-12-20 鸿富锦精密工业(深圳)有限公司 线上资料撷取分析的代理服务系统及方法
WO2003014975A1 (en) * 2001-08-08 2003-02-20 Quiver, Inc. Document categorization engine
US20040205482A1 (en) * 2002-01-24 2004-10-14 International Business Machines Corporation Method and apparatus for active annotation of multimedia content
GB2390704A (en) 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US7203707B2 (en) 2004-02-13 2007-04-10 Taiwan Semiconductor Manufacturing Co., Ltd. System and method for knowledge asset acquisition and management
JP4757016B2 (ja) * 2005-12-21 2011-08-24 富士通株式会社 文書分類プログラム、文書分類装置、および文書分類方法
US7756845B2 (en) * 2006-12-28 2010-07-13 Yahoo! Inc. System and method for learning a weighted index to categorize objects
US7711747B2 (en) * 2007-04-06 2010-05-04 Xerox Corporation Interactive cleaning for automatic document clustering and categorization
CN101377776B (zh) * 2007-08-29 2010-06-30 中国科学院自动化研究所 一种交互式图像检索方法
JP2009251825A (ja) * 2008-04-03 2009-10-29 Nec Corp 文書クラスタリングシステム、その方法及びプログラム
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US9245243B2 (en) * 2009-04-14 2016-01-26 Ureveal, Inc. Concept-based analysis of structured and unstructured data using concept inheritance
CN101833565B (zh) * 2010-03-31 2011-10-19 南京大学 一种主动选择代表性图像的相关反馈方法
CN102508909B (zh) * 2011-11-11 2014-08-20 苏州大学 一种基于多智能算法及图像融合技术的图像检索方法
US8543576B1 (en) * 2012-05-23 2013-09-24 Google Inc. Classification of clustered documents based on similarity scores
US20140006338A1 (en) 2012-06-29 2014-01-02 Applied Materials, Inc. Big data analytics system
JP5700007B2 (ja) 2012-09-13 2015-04-15 キヤノンマーケティングジャパン株式会社 情報処理装置、方法、およびプログラム
JP5823942B2 (ja) * 2012-10-09 2015-11-25 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP5526209B2 (ja) * 2012-10-09 2014-06-18 株式会社Ubic フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
US9256836B2 (en) * 2012-10-31 2016-02-09 Open Text Corporation Reconfigurable model for auto-classification system and method
CN103150369A (zh) * 2013-03-07 2013-06-12 人民搜索网络股份公司 作弊网页识别方法及装置
US9122681B2 (en) * 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques
JP6043277B2 (ja) * 2013-08-23 2016-12-14 株式会社Ubic 表示システム、表示方法、プログラム、及び、記録媒体
TW201508525A (zh) * 2013-08-29 2015-03-01 Ubic Inc 文件分類系統、文件分類方法及文件分類程式
CN103514369B (zh) * 2013-09-18 2016-07-06 上海交通大学 一种基于主动学习的回归分析系统及方法
JP5572255B1 (ja) * 2013-10-11 2014-08-13 株式会社Ubic デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI733453B (zh) * 2019-05-17 2021-07-11 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
TWI806069B (zh) * 2019-05-17 2023-06-21 日商愛酷賽股份有限公司 集群分析方法、集群分析系統、及集群分析程式
TWI748566B (zh) * 2019-08-26 2021-12-01 南韓商韓領有限公司 動態聚集資料及資料損失最小化的系統以及方法
US11579999B2 (en) 2019-08-26 2023-02-14 Coupang Corp. Systems and methods for dynamic aggregation of data and minimization of data loss
TWI767192B (zh) * 2020-02-26 2022-06-11 傑睿資訊服務股份有限公司 智慧分析系統之應用方法

Also Published As

Publication number Publication date
EP3279804A4 (en) 2018-10-31
TW201706884A (zh) 2017-02-16
JP6182279B2 (ja) 2017-08-16
US10204153B2 (en) 2019-02-12
US20160292197A1 (en) 2016-10-06
CN107851097A (zh) 2018-03-27
CN107851097B (zh) 2021-10-01
US9563652B2 (en) 2017-02-07
US20170097983A1 (en) 2017-04-06
JPWO2016157467A1 (ja) 2017-04-27
KR101981075B1 (ko) 2019-05-22
KR20170130604A (ko) 2017-11-28
EP3279804A1 (en) 2018-02-07
WO2016157467A1 (ja) 2016-10-06

Similar Documents

Publication Publication Date Title
TWI598755B (zh) 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體
US11615341B2 (en) Customizable machine learning models
Kenett et al. Information quality: The potential of data and analytics to generate knowledge
US10642975B2 (en) System and methods for automatically detecting deceptive content
JP6369053B2 (ja) マッチング装置、マッチング方法及びプログラム
JP5885875B1 (ja) データ分析システム、データ分析方法、プログラム、および、記録媒体
Naik et al. Using neural networks to predict MBA student success
JP6144427B2 (ja) データ分析システムおよびデータ分析方法並びにデータ分析プログラム
Li et al. Extraction of affective responses from customer reviews: an opinion mining and machine learning approach
Kang et al. A study on the influence of online reviews of new products on consumers’ purchase decisions: An empirical study on JD. com
Abrahams et al. Audience targeting by B-to-B advertisement classification: A neural network approach
WO2016203652A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
Al Mazidi et al. Study of general education diploma students’ performance and prediction in Sultanate of Oman, based on data mining approaches
Amirhajlou et al. Application of data mining techniques for predicting residents' performance on pre-board examinations: A case study
WO2016189605A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
JP2017201543A (ja) データ分析システム、データ分析方法、データ分析プログラム、および、記録媒体
JP5933863B1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
JP6178480B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Miano et al. Disparities in Forensic Science Adoption for Crime Investigation in Kenya: The Role of Police Demographics
Shanmugarajah et al. WoKnack–A Professional Social Media Platform for Women Using Machine Learning Approach
Makridis et al. Towards a unified multidimensional explainability metric: Evaluating trustworthiness in ai models
Liern Sandra E. Parada, Olga Blasco-Blasco &
Zhang Consumer choice modeling: comparing and contrasting the MAAM, AHP, TOPSIS and AHP-TOPSIS methodologies
Rahmanian et al. Crowdsourcing, cognitive load, and user interface design
McNee et al. Process and Productivity in Visual Analytics: Reflections on E-Discovery