TWI559158B - 於商業分析中之關係發現之方法、電腦系統及電腦程式產品 - Google Patents

於商業分析中之關係發現之方法、電腦系統及電腦程式產品 Download PDF

Info

Publication number
TWI559158B
TWI559158B TW102125980A TW102125980A TWI559158B TW I559158 B TWI559158 B TW I559158B TW 102125980 A TW102125980 A TW 102125980A TW 102125980 A TW102125980 A TW 102125980A TW I559158 B TWI559158 B TW I559158B
Authority
TW
Taiwan
Prior art keywords
dimensional
tables
interaction
dimensional table
dimensions
Prior art date
Application number
TW102125980A
Other languages
English (en)
Other versions
TW201423452A (zh
Inventor
朱雅珍
韓四兒
薛金勇
戴蜜爾 史普席克
張雪英
Original Assignee
萬國商業機器公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 萬國商業機器公司 filed Critical 萬國商業機器公司
Publication of TW201423452A publication Critical patent/TW201423452A/zh
Application granted granted Critical
Publication of TWI559158B publication Critical patent/TWI559158B/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

於商業分析中之關係發現之方法、電腦系統及電腦程式產品
本發明之實施例係關於商業分析中之關係發現。
資料倉儲通常含有可用於分析之兩種主要類型的資料元素:維度(dimension)及度量(measure)。每一維度與分類屬性(諸如,產品、市場、時間、管道(channel)、情境、客戶,等等)有關。在給定維度的情況下,資料集中之每一項可根據其維度來分類。維度可被描述為分類屬性或分類欄位。度量表示與特定維度分類(亦即,維度值)相關聯且可用於計算(諸如求和及平均)之資料欄位。度量可被描述為連續目標。例如,可基於客戶花費之金額及商店維度來計算客戶在給定商店花費的平均金額。
現今,資料分析者必須處理數量日益增大的資料。試圖在於分類屬性之間具有許多可能組合的大量資料(例如,太位元組、千兆兆位元組(petabyte),等)中獲得洞察(insight)係一困難的任務。常見商業情境為識別由分類欄位或分類屬性產生的維度之關係及其對連續目標的影響。資料分析者之目標係判定該等維度中之哪些與度量有關,且在相關的彼等維度當中,鑑別其影響的量值。最後,目標係產生說明度量-維度關係的一系列彙總之表格式報告。
以下為實例2維表:
在實例2維表中,假定維度X 1具有R個分類(1,......,R)且維度X 2具有S個分類(1,......,S)。對於2維表,第一欄中之資料格及第一列中之資料格可分別被描述為維度X 1及維度X 2之「維度資料格」。分類可被描述為維度資料格之值或標籤。另一方面,來自此等兩個維度之元素(亦即,表中之剩餘資料格)可被描述為「表資料格」且將含有關於具有兩個維度之連續目標的統計資料。
亦即,可將維度資料格稱為對應於具有匹配分類屬性之分類,而可將表資料格稱為對應於來自匹配不同維度之分類屬性之分類的組合。
分析者根據維度與度量之間的關係而推導出對其商業的洞察。挑戰係試圖瀏覽分析可能數以千計的報告,每一報告都表示一可能的度量-維度組合。
探索資料以偵測重要維度係困難且乏味的。即使使用現有工具,資料分析者仍需要熟練掌握統計分析及資料採擷。即使對於專家而言,資料的量仍加重了問題。各種組織已在資料擷取及儲存技術方面投入甚巨,且該等組織理解資料之價值且相信商業分析事業的前景。然而,缺少能夠根據統計分析界定、執行並提取有價值資訊的個人。
提供一種方法、電腦程式產品及系統,其用於:接收(k-1)維表之子集,其中k大於1;藉由組合(k-1)維表中之每一者與對應於1維表之未包括的維度而建立k維表之集合;及計算k維表之所建立集合的互 動之有效度及互動效應大小以判定維度與度量互動。
10‧‧‧雲端計算節點
12‧‧‧電腦系統/伺服器
14‧‧‧外部器件
16‧‧‧處理器
18‧‧‧匯流排
20‧‧‧網路配接器
22‧‧‧輸入/輸出(I/O)介面
24‧‧‧顯示器
28‧‧‧系統記憶體
30‧‧‧隨機存取記憶體(RAM)
32‧‧‧快取記憶體
34‧‧‧儲存系統
40‧‧‧程式/公用程式
42‧‧‧程式模組
50‧‧‧雲端計算環境
54A‧‧‧蜂巢式電話
54B‧‧‧桌上型電腦
54C‧‧‧膝上型電腦
54N‧‧‧汽車電腦系統
60‧‧‧硬體及軟體層
62‧‧‧虛擬化層
64‧‧‧管理層
66‧‧‧工作負載層
400‧‧‧計算器件
410‧‧‧關係發現引擎
450‧‧‧資料儲存器
460‧‧‧資料集
500‧‧‧記錄資料
510‧‧‧資料彙總層
520‧‧‧搜尋層
522‧‧‧1維表搜尋單元
524‧‧‧2維表搜尋單元
526‧‧‧K維表搜尋單元
530‧‧‧洞察建構層
532‧‧‧互動評估單元
534‧‧‧報告設定檔建構單元
600‧‧‧表
700‧‧‧表
1100‧‧‧表
1200‧‧‧表
1400‧‧‧報告設定檔範本
1500‧‧‧表
1600‧‧‧熱圖
1800‧‧‧1維表
1810‧‧‧1維表
1820‧‧‧1維表
1900‧‧‧2維表
2000‧‧‧3維表
現參看諸圖式,其中類似參考數字始終表示相應部分:圖1描繪根據某些實施例之雲端計算節點。
圖2描繪根據某些實施例之雲端計算環境。
圖3描繪根據某些實施例之抽象模型層。
圖4說明根據某些實施例之計算環境。
圖5說明根據某些實施例之用於關係發現的框架及功能流程圖。
圖6說明根據某些實施例之搜尋層彙總輸入統計資料之表。
圖7說明根據某些實施例之依據自彙總輸入統計資料推導出之摘要來指定搜尋指數的表。
圖8以一流程圖說明根據某些實施例之對1維表執行的操作。
圖9以一流程圖說明根據某些實施例之用以建立2維表的操作。圖9係由圖9A及圖9B形成。
圖10說明根據某些實施例之用以建立3維表的操作。
圖11說明根據某些實施例之依據自彙總輸入統計資料推導出之各種摘要來指定互動指數的表。
圖12說明含有根據某些實施例之用於計算較多所涉及互動摘要(亦即,平方和)的程序之描述的表。
圖13以流程圖說明根據某些實施例之由互動評估單元執行的處理。
圖14說明根據某些實施例之報告設定檔範本。
圖15說明描述根據某些實施例之一有影響資料格偵測程序之表。
圖16說明根據某些實施例之總的客戶滿意度之熱圖(heat map)。
圖17說明根據某些實施例之對k維表執行之操作。圖17係由圖 17A、圖17B及圖17C形成。
圖18A、圖18B及圖18C說明根據某些實施例之實例1維表。
圖19說明根據某些實施例之實例2維表。
圖20說明根據某些實施例之實例3維表。
已為說明之目的而呈現本發明之各種實施例的描述,但該等描述不意欲為詳盡的或限於所揭示之實施例。許多修改及改變在不偏離所描述的實施例之範疇及精神的情況下對一般熟習此項技術者而言將顯而易見。本文中使用的術語經選擇以最好地解釋實施例之原理、相對於市場上所發現技術的實際應用或技術改良,或使其他一般熟習此項技術者能夠理解本文中揭示之實施例。
應預先理解,儘管本發明包括關於雲端計算之詳細描述,但本文中所敍述之教示的實施不限於雲端計算環境。實情為,本發明之實施例能夠結合現已知或以後開發的任何其他類型之計算環境來實施。
雲端計算為允許實現對可組態計算資源(例如,網路、網路頻寬、伺服器、處理、記憶體、儲存器、應用程式、虛擬機及服務)的共用集區之便利隨選網路存取的服務遞送模型,其可在最小的管理努力或與服務提供者之互動的情況下被快速佈建及釋放。此雲端模型可包括至少五個特性、至少三個服務模型及至少四個部署模型。
特性為如下:隨選自助服務:雲端消費者可在不需要與服務提供者進行人為互動的情況下根據需要自動地單方面佈建計算能力(諸如伺服器時間及網路儲存)。
寬網路存取:能力在網路上可用,且可經由促進由異質精簡型用戶端平台或複雜型用戶端平台(例如,行動電話、膝上型電腦及PDA)來使用的標準機制來存取該等能力。
資源集區(pooling):提供者之計算資源被集區以使用多租用戶模型來伺服多個消費者,其中根據需要動態地指派及重新指派不同實體及虛擬資源。存在位置獨立感,此係因為:消費者通常不具有對所提供資源之確切位置的控制或知識,但可能能夠指定在較高抽象層級(例如,國家、州或資料中心)處之位置。
快速彈性:能力可被快速地及彈性地(在一些狀況下,自動地)佈建以迅速地按比例放大(scale out)並被快速地釋放以迅速地按比例縮小(scale in)。對於消費者而言,可用於佈建之能力常常看來似乎係無限的且可在任何時間以任何數量來購買。
經量測之服務:雲端系統藉由在對於某類型之服務(例如,儲存、處理、頻寬及作用中使用者賬戶)恰當之某抽象層級處利用計量能力來自動地控制及最佳化資源使用。可監視、控制及報告資源使用,從而向所利用服務之提供者及消費者均提供透通性。
服務模型為如下:軟體即服務(Software as a Service,SaaS):提供給消費者之能力為使用在雲端基礎架構上執行之提供者的應用程式。可經由精簡型用戶端介面(諸如,網頁瀏覽器(例如,以網路為基礎之電子郵件))而自各種用戶端器件存取該等應用程式。消費者並不管理或控制包括網路、伺服器、作業系統、儲存器,或甚至個別應用程式能力的底層雲端基礎架構,其中可能的例外為有限的使用者特定之應用程式組態設定。
平台即服務(Platform as a Service,PaaS):提供給消費者之能力為將使用由提供者支援之程式化語言及工具建立之消費者建立或獲取的應用程式部署於雲端基礎架構上。消費者不管理或控制底層雲端基礎架構(包括網路、伺服器、作業系統或儲存器),但具有對已部署應用程式及(可能地)應用程式主控環境組態之控制。
基礎架構即服務(Infrastructure as a Service,IaaS):提供給消費者之能力為佈建消費者能夠藉以部署及執行任意軟體(其可包括作業系統及應用程式)的處理、儲存器、網路及其他基本計算資源。消費者並不管理或控制底層雲端基礎架構,但具有對作業系統、儲存器、所部署應用程式之控制,且可能地具有對所選擇的網路組件(例如,主機防火牆)之有限控制。
部署模型為如下:私人雲端:單獨地針對一組織來操作雲端基礎架構。該雲端基礎架構可由該組織或第三方來管理且可內部部署(on-premises)或外部部署(off-premises)地存在。
社區雲端:該雲端基礎架構由若干組織共用且支援具有共同關注問題(例如,任務、安全性要求、原則及依從性考慮)之特定社區。該雲端基礎架構可由該等組織或第三方來管理且可內部部署或外部部署地存在。
公用雲端:該雲端基礎架構對於一般公眾或大型工業團體可用,且由銷售雲端服務之組織擁有。
混合雲端:該雲端基礎架構為兩個或兩個以上雲端(私用、社區或公用)之組合體,該等雲端仍為具唯一性之實體,但藉由允許實現資料及應用程式可攜性之標準化或專屬技術(例如,用於在雲端之間進行負載平衡之雲端叢發)而繫結在一起。
雲端計算環境為服務導向的,致力於無國界、低耦合、模組性及語意互通性。雲端計算之核心為包含互連節點之網路的基礎架構。
現參看圖1,展示雲端計算節點的實例之示意圖。雲端計算節點10僅為適宜雲端計算節點之一實例,且不意欲暗示關於本文中所描述的本發明之實施例的使用範疇或功能性之任何限制。無論如何,雲端計算節點10能夠被實施及/或執行在上文中所闡述的功能性中之任一 者。
在雲端計算節點10中,存在電腦系統/伺服器12,電腦系統/伺服器12可與眾多其他通用或專用計算系統環境或組態一起操作。可適宜於與電腦系統/伺服器12一起使用之熟知計算系統、環境及/或組態之實例包括(但不限於)個人電腦系統、伺服器電腦系統、精簡型用戶端、複雜型用戶端、手持型或膝上型器件、多處理器系統、基於微處理器之系統、機上盒、可程式化消費型電子器件、網路PC、迷你電腦系統、大型電腦系統,及包括上述系統或器件中之任一者的分散式雲端計算環境,及其類似者。
可在正由電腦系統執行之電腦系統可執行指令(諸如程式模組)之一般內容脈絡中描述電腦系統/伺服器12。大體言之,程式模組可包括執行特定任務或實施特定抽象資料類型之常式、程式、物件、組件、邏輯、資料結構等等。可在任務由經由通信網路鏈接之遠端處理器件執行的分散式雲端計算環境中實踐電腦系統/伺服器12。在分散式雲端計算環境中,程式模組可位於包括記憶體儲存器件之本端電腦系統儲存媒體及遠端電腦系統儲存媒體兩者中。
如在圖1中展示,展示了雲端計算節點10中的呈通用計算器件之形式之電腦系統/伺服器12。電腦系統/伺服器12之組件可包括(但不限於)一或多個處理器16或處理單元、系統記憶體28及匯流排18,匯流排18將包括系統記憶體28之各種系統組件耦接至處理器16。
匯流排18表示具有若干類型匯流排結構中之任一結構的一或個匯流排,包括記憶體匯流排或記憶體控制器、周邊匯流排、加速圖形埠,及使用多種匯流排架構中之任一者的處理器或區域匯流排。作為實例而非限制,此等架構包括工業標準架構(ISA)匯流排、微通道架構(MCA)匯流排、增強型ISA(EISA)匯流排、視訊電子標準協會(VESA)區域匯流排及周邊組件互連(PCI)匯流排。
電腦系統/伺服器12通常包括多種電腦系統可讀媒體。此類媒體可為可由電腦系統/伺服器12存取之任何可用媒體,且其包括揮發性媒體及非揮發性媒體以及可卸除式媒體及不可卸除式媒體。
系統記憶體28可包括呈揮發性記憶體形式之電腦系統可讀媒體(諸如隨機存取記憶體(RAM)30及/或快取記憶體32)。電腦系統/伺服器12可另外包括其他可卸除式/不可卸除式、揮發性/非揮發性電腦系統儲存媒體。僅作為實例,可提供儲存系統34以用於自不可卸除式、非揮發性磁性媒體(未圖示且通常稱為「硬碟機」)讀取及寫入至不可卸除式、非揮發性磁性媒體。儘管未展示,但可提供用於自可卸除式、非揮發性磁碟(例如,「軟性磁碟」)讀取及寫入至可卸除式、非揮發性磁碟的磁碟機及用於自可卸除式、非揮發性光碟(諸如,CD-ROM、DVD-ROM或其他光學媒體)讀取或寫入至可卸除式、非揮發性光碟的光碟機。在此等情況中,各媒體可藉由一或多個資料媒體介面而連接至匯流排18。如下文進一步描繪及描述,記憶體28可包括至少一程式產品,該至少一程式產品具有經組態以實行本發明的實施例之功能的程式模組之集合(例如,至少一個程式模組)。
作為實例而非限制,具有程式模組42之集合(至少一程式模組)的程式/公用程式40以及作業系統、一或多個應用程式、其他程式模組及程式資料可儲存於記憶體28中。作業系統、一或多個應用程式、其他程式模組及程式資料中之每一者或其某一組合可包括網路環境之實施。程式模組42大體上實行如本文中所描述的本發明之實施例的功能及/或方法。
電腦系統/伺服器12亦可與諸如鍵盤、指標器件、顯示器24等之一或多個外部器件14、使使用者能夠與電腦系統/伺服器12互動的一或多個器件及/或使電腦系統/伺服器12能夠與一或多個其他計算器件通信的任何器件(例如,網路卡、數據機等)通信。此通信可經由輸入/ 輸出(I/O)介面22而發生。另外,電腦系統/伺服器12可經由網路配接器20而與諸如區域網路(LAN)、通用廣域網路(WAN)及/或公用網路(例如,網際網路)之一或多個網路通信。如所描繪,網路配接器20經由匯流排18而與電腦系統/伺服器12之其他組件通信。應理解,儘管未展示,但其他硬體及/或軟體組件可與電腦系統/伺服器12相結合使用。實例包括(但不限於):微碼、器件驅動程式、冗餘處理單元、外部磁碟機陣列、RAID系統、磁帶機,及資料存檔儲存系統等。
現參看圖2,其描繪了說明性雲端計算環境50。如展示,雲端計算環境50包含一或多個雲端計算節點10,該一或多個雲端計算節點10可與雲端消費者所使用之本端計算器件通信,該等本端計算器件諸如個人數位助理(PDA)或蜂巢式電話54A、桌上型電腦54B、膝上型電腦54C及汽車電腦系統54N。節點10可彼此通信。節點10可在一或多個網路(諸如,如上文描述之私人、社區、公用或混合雲端,或其組合)中實體地或虛擬地分群(未圖示)。此允許雲端計算環境50提供基礎架構、平台及/或軟體來作為服務,雲端消費者不需要針對該等服務在本端計算器件上維護資源。應理解,圖2中所示之計算器件54A至54N的類型僅意欲為說明性的,且計算節點10及雲端計算環境50可經由任何類型之網路及/或網路可定址連接(例如,使用網頁瀏覽器)來與任何類型之電腦化器件通信。
現參看圖3,展示由雲端計算環境50(圖2)所提供之功能抽象層集合。應預先理解,圖3中所示之組件、層及功能僅意欲為說明性的,且本發明之實施例不限於此。如所描繪,提供以下層及對應功能: 硬體及軟體層60包括硬體及軟體組件。硬體組件之實例包括:大型電腦,在一項實例中為IBM® zSeries®系統;基於RISC(精簡指令集電腦)架構之伺服器,在一項實例中為IBM pSeries®系統;IBM xSeries®系統;IBM BladeCenter®系統;儲存器件;網路及網路組 件。軟體組件之實例包括:網路應用伺服器軟體,在一項實例中為IBM WebSphere®應用伺服器軟體;及資料庫軟體,在一項實例中為IBM DB2®資料庫軟體。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere及DB2為International Business Machines Corporation(國際商用機器公司)在全球許多行政轄區中註冊之商標)。
虛擬化層62提供一抽象層,自該抽象層可提供虛擬實體之下列實例:虛擬伺服器、虛擬儲存器、虛擬網路(包括虛擬私人網路)、虛擬應用程式及作業系統,及虛擬用戶端。
在一實例中,管理層64可提供下文所描述之功能。資源佈建提供用以在雲端計算環境內執行任務之計算資源及其他資源的動態採購。計量及定價提供隨著在雲端計算環境內利用資源的成本追蹤,及針對此等資源之消耗的記帳或發票。在一實例中,此等資源可包含應用軟體授權。安全性提供針對雲端消費者及任務之身分驗證,以及針對資料及其他資源之保護。使用者入口為消費者及系統管理員提供對雲端計算環境之存取。服務等級管理提供雲端計算資源分配及管理,使得滿足所要求之服務等級。服務等級協議(SLA)規劃及履行提供對雲端計算資源的預配置及採購,該等雲端計算資源係根據SLA預期未來會要求的資源。
工作負載層66提供雲端計算環境可用於之功能性的實例。可自此層提供的工作負載及功能之實例包括:映射及導覽;軟體開發及生命週期管理;虛擬教室教育遞送;資料分析處理;異動處理及關係發現。
因此,在某些實施例中,實施根據本文中描述之實施例的關係發現的軟體被提供作為雲端環境中之服務。
圖4說明根據某些實施例之計算環境。計算器件400包括一關係發現引擎410。計算器件400耦接至資料儲存器450。資料儲存器450儲 存資料集460,且資料集中之每一者包括記錄資料,該記錄資料包括關注之度量(亦即,連續目標)及多個維度(亦即,分類屬性或分類欄位)。
雖然該等實施例與資料倉儲無關,但實施例使用維度及度量作為熟悉的術語以區分在資料結構中可用的分類屬性與連續目標。
在某些實施例中,計算器件400具有計算節點10之架構。在某些實施例中,計算器件400為雲端環境之部分。在某些替代實施例中,計算器件400並非雲端環境之部分。
給定資料集及關注之度量,關係發現引擎410基於維度之子集產生許多彙總表格式報告。關係發現引擎410提供一基於模型且可縮放之程序以用於產生展現強維度互動之報告。互動描述兩個維度對度量之同時影響並非累加性之情形。
對於每一彙總報告之分析係基於統計模型,該統計模型包括對應度量及判定表維度之維度。將基於模型之統計資料用於分析度量值在表資料格當中的總散佈及偵測維度互動。所偵測之維度互動被根據其強度而分級並報告給使用者(例如,資料分析者或系統管理員)。
在某些實施例(例如,對於具有大量維度之資料集)中,關係發現引擎410(甚至在具有少量維度的情況下)不產生並分析所有可能之彙總表。舉例而言,具有100個維度之資料將產生總計166,750個具有三個或更少維度之表。
在某些實施例中,關係發現引擎410應用一結構化搜尋,在該結構化搜尋中,首先考慮具有單一維度之表。基於對較低維度之相應表的分析,選擇性地考慮具有兩個或三個維度之表。此確保產生及分析該等表所需的計算工作量推導出限制。由於導致偵測較大數目之相關表而非進行相當大小之隨機搜尋,其亦為有效的。
關係發現引擎410藉由偵測對有效互動效應有大的貢獻的任何資 料格而進一步分析頂部表。總的基於模型之摘要以及逐資料格分析之結果可用於向使用者輸出。
圖5說明根據某些實施例之用於關係發現的框架及功能流程圖。在圖5中,記錄資料500含有關注之度量及可能大量的維度。在某些實施例中,關係發現引擎410包括一資料彙總層510、一搜尋層520及一洞察建構層530。資料彙總層510處理來自記錄資料500之記錄並產生用於維度之組合的彙總報告表中的彙總輸入統計資料(例如,對於1維表、對於2維表...對於K維表,其中K可為任一正整數)。1維表可經描述為對應於一個維度之分類的資料格之表;2維表可經描述為對應於來自兩個維度之分類之組合的資料格之表;且k維表可經描述為對應於來自k個維度之分類之組合的資料格之表。資料彙總層510在記錄資料500之單個處理中產生針對多個表的彙總輸入統計資料。彙總輸入統計資料可經描述為彙總對應於每一表資料格之度量值的統計資料(諸如圖6中之統計資料)。
搜尋層520建立有限數目個表的連續清單,由資料彙總層510產生針對該等表之彙總輸入統計資料。在記錄資料500之單個處理期間彙總在每一清單中產生的表。詳言之,搜尋層520包括1維表搜尋單元522、2維表搜尋單元524...K維表搜尋單元526。每一表搜尋單元對針對不同維度產生的特定(例如,1維、2維或K維)表執行搜尋。
至搜尋層520之輸入為多達K個維度之資料彙總報告表中的彙總輸入統計資料。在某些實施例中,至搜尋層520之輸入為多達3個維度之資料彙總報告表中的彙總輸入統計資料。每一表維度係由有可能影響度量的不同維度形成。
圖6說明根據某些實施例之搜尋層520彙總輸入統計資料之表600。彙總輸入統計資料包含計數(其為對應於每一表資料格之記錄的數目)、平均值(其為對應於每一表資料格之記錄之度量的平均值),及 方差(其為對應於每一表資料格之記錄之度量的中心平方和除以記錄數減一)。在某些實施例中,中心平方和可藉由在取得度量之平方之前自每一度量中減去資料格平均值來計算。
在自資料彙總層510接收到針對1維表的彙總輸入統計資料時,1維表搜尋單元522執行1維表搜尋以找到用於輸出及擴展之最關注之1維表。在某些實施例中,針對所有1維表接收彙總輸入統計資料。擴展可被描述為以額外維度擴增表的程序。舉例而言,區塊902(圖9)及1002(圖10)藉由添加維度而「擴展」1維及2維表。
搜尋層520接著基於來自1維表搜尋單元522的輸出而發送一針對2維表的彙總輸入統計資料之請求至資料彙總層510。在接收到用於2維表的彙總輸入統計資料時,2維表搜尋單元524執行2維表搜尋以找到用於輸出及擴展的最關注之2維表。
隨著此處理繼續,搜尋層520基於來自2維表搜尋單元524之輸出發送一針對3維表之彙總輸入統計資料的請求至資料彙總層510。在接收到用於3維表之彙總輸入統計資料時,3維表搜尋單元執行3維表搜尋以找到用於輸出及視情況用於擴展的最關注之3維表。此處理可針對K個維度繼續。
在資料彙總層510與搜尋層520之間的此處理可針對K個維度繼續。在某些實施例中,使用者識別維度之最高數目K。
在某些實施例中,在1,2,...k維表搜尋單元522、524...526中使用的搜尋及排序策略依賴於基於ANOVA模型之搜尋指數適合度。適合度可被描述為基於模型之摘要統計資料,其評估模型描述給定資料之總能力。圖7說明根據某些實施例之依據自彙總輸入統計資料推導出的摘要(亦即,摘要統計資料)指定搜尋指數的表700。表700描述用於使用度量Y之總平方和及度量Y之平方和差(error of sum squares)來計算適合度R2的計算程序。
圖8以一流程圖說明根據某些實施例之對1維表執行的操作。控制在區塊800處以1維表搜尋單元522自資料彙總層510接收用於1維表的彙總輸入統計資料開始。在某些實施例中,至1維表搜尋單元522之輸入為在表600(圖6)中針對每一表列出之彙總輸入統計資料。在區塊802中,1維表搜尋單元522使用自所接收之彙總輸入統計資料推導出的摘要來計算1維表之適合度值。根據某些實施例,遵照用於1維表之方差分析(ANOVA)模型,使用參看表700描述之公式來計算適合度值。ANOVA可被描述為用於給定度量及維度集合的一類型之統計模型。在區塊804中,1維表搜尋單元522按所計算之適合度值來排序1維表。在區塊806中,1維表搜尋單元522基於適合度值選擇頂部L個1維表(其中L可為任一正整數)。在某些實施例中,頂部L個1維表具有超過一第一臨限值之適合度值。本文中參考了各種臨限值,且在各種實施例中,此等臨限值可具有相同或不同值。在區塊808中,1維表搜尋單元522將對應於頂部L個1維表之L個單一維度(亦即,頂部維度)之一排序清單輸出至2維表搜尋單元524。
對應於頂部L個1維表之維度之排序清單被發送至2維表搜尋單元524。在某些實施例中,數字L經選擇(例如,由使用者),使得所考慮表之數目保持有限以節省時間及記憶體,但數字L為了準確度之目的而儘可能大。
圖9以流程圖說明根據某些實施例之用以建立2維表的操作。圖9係由圖9A及圖9B形成。控制在區塊900處以2維表搜尋單元524自1維表搜尋單元522接收L個單一維度之排序清單開始。在區塊902中,2維表搜尋單元524藉由組合頂部M個維度中之每一者與未包括之L個單一維度中之每一者而建立2維表(其中M可為任一正整數)。在某些實施例中,頂部M個維度對應於具有超過第二臨限值之適合度值的1維表。在某些實施例中,數字M小於L,且經選擇使得所建立表之總數為有 限的以節省計算資源。在區塊904中,2維表搜尋單元524向資料彙總層510請求用於所建立之2維表的彙總輸入統計資料。在某些實施例中,彙總輸入統計資料為針對每一2維表的在表600(圖6)中列出的彼等彙總輸入統計資料。在區塊906中,2維表搜尋單元524自資料彙總層510接收用於所建立之2維表的彙總輸入統計資料。在區塊908中,2維表搜尋單元524使用自所接收彙總輸入統計資料推導出的摘要來計算所建立的2維表之適合度值。根據某些實施例,使用參看表700(圖7)描述之公式而計算適合度值。自區塊908(圖9A),處理同時繼續至區塊910(圖9A)及區塊912(圖9B)。在區塊910中,2維表搜尋單元524將具有彙總輸入統計資料的所建立之2維表(亦即,初始被建立且接著被彙總及處理的表)輸出至洞察建構層530。在區塊912中,2維表搜尋單元524根據計算之適合度值來排序2維表。在區塊914中,2維表搜尋單元524基於適合度值選擇頂部N個2維表(其中N可為任一正整數)。在某些實施例中,頂部N個2維表具有超過第三臨限值之適合度值。在某些實施例中,數字N經選擇,使得所考慮的3維表之數目保持有限。在區塊916中,2維表搜尋單元524將對應於頂部N個2維表的N個維度對之排序清單及L個單一維度之排序清單輸出至3維搜尋單元。
圖10說明根據某些實施例之用以建立3維表之操作。控制在區塊1000處以3維表搜尋單元自2維表搜尋單元接收用於1維表的L個單一維度之排序清單及N個維度對之排序清單開始。在區塊1002中,3維表搜尋單元藉由組合N個維度對中之每一者與未包括之L個單一維度中之每一者來建立3維表。未包括之維度為尚不在2維表中的維度。建立3維表包括界定3維表中之每一者的維度。在區塊1004中,3維表搜尋單元向資料彙總層510請求用於所建立之3維表的彙總輸入統計資料。在某些實施例中,彙總輸入統計資料為用於每一3維表之在表600(圖6)中列出的彼等彙總輸入統計資料。在區塊1006中,3維表搜尋單元 自資料彙總層510接收用於所建立之3維表的彙總輸入統計資料。在區塊1008中,對於多達3維的表,3維表搜尋單元將具有彙總輸入統計資料的所建立之3維表(亦即,初始已建立且接著被彙總及處理的表)輸出至洞察建構層530。
雖然互動效應大小為最終關注量,但將適合度值用以建立候選k維表。實施例避免計算所有可能表之互動效應大小。
洞察建構層530包括一互動評估單元532及一報告設定檔建構單元534。互動指數可被描述為模型中之互動效應之存在及強度的度量。在某些實施例中,用於互動評估單元532中之互動指數為基於ANOVA模型之指數:互動之有效度及互動效應大小。互動之有效度及互動效應大小經計算並應用於在洞察建構層530中考慮的2維表及3維表。互動之有效度可被描述為在將互動效應包括於模型中時其關聯性之統計指示。互動效應大小可被描述為互動效應相對於總體模型之相對大小的統計指示。圖11說明根據某些實施例之依據自彙總輸入統計資料推導出的各種摘要來指定互動指數之表1100。圖12說明含有根據某些實施例之用於計算更多涉及之互動摘要(亦即,平方和)的程序之描述的表1200。參看表700在表1100及1200中描述計算互動之有效度及互動效應大小的程序。表1100為一使用ANOVA組件之標準計算。表1200呈現一用於計算某些ANOVA模型組件的較舊及稀有技術。因為此技術允許基於彙總輸入統計資料計算所需模型組件,所以使用此技術。
圖13以流程圖說明根據某些實施例之由互動評估單元532針對2維及3維表執行的處理。控制以互動評估單元532自2維表搜尋單元接收具有彙總輸入統計資料之所建立之2維表(區塊1300)及自3維表搜尋單元接收具有彙總輸入統計資料之所建立之3維表(區塊1302)開始。在區塊1304中,互動評估單元532計算2維及3維表的互動之有效度及 互動效應大小。在區塊1306中,互動評估單元532根據互動效應大小排序具有有效互動效應之2維及3維表。在區塊1308中,互動評估單元532將頂部P個2維及3維表之排序清單輸出至報告設定檔建構單元534。詳言之,在區塊1304中計算互動之有效度指代判定互動效應是有效的還是不有效的。接著,在區塊1306中排序具有有效互動效應之表。
在某些實施例中,報告設定檔建構單元534產生設定檔統計資料及具有對頂部2維及3維表之洞察的解譯。圖14說明根據某些實施例之報告設定檔範本1400。
圖15說明描述根據某些實施例之有影響資料格偵測程序之表1500。有影響資料格偵測程序使用一基於每一資料格中之互動平方和的卡方測試來判定資料格對互動效應之貢獻等級。若p值統計資料小於給定臨限值,則資料格被偵測為有影響。在各種實施例中,臨限值可具有一可由系統管理員或其他使用者設定或可藉由實驗校準的預設值(例如,0.05)。
關係發現引擎410將兩個基於ANOVA模型之指數用於給定表格式報告:適合度及互動效應大小。適合度可被描述為包括主效應以及互動效應之總模型適合性之指數,且互動效應大小被用以直接評定互動效應之大小。
關係發現引擎410依賴於搜尋層520內之適合度。藉由一具有作為1維表的高適合度的維度擴展一具有高適合度指數之表導致具有高適合度之新表。此性質可用於搜尋目的,此係因為其允許分析較低維度之表並有效地預測哪些較高維度之表具有高適合度。又,適合度指數之另一性質為具有高互動效應大小之表在具有高適合度之表中更常見。
關係發現引擎410利用適合度指數之兩種性質,以便提供對具有 高互動效應大小之表的可縮放及有效發現。發現具有高互動效應大小之許多表對於資料分析者獲得關於給定資料集中之度量與維度之間的不明顯關係的洞察係有用的。
圖16說明根據某些實施例之總客戶滿意度之熱圖1600。依客戶之樣本評估食品。每一客戶品嘗單一食品且在1至100的標度上記錄客戶對所提供之食品的總體滿意度得分。亦記錄每一客戶在任一先前時機已品嘗該食品之次數。食品與品嘗食品之次數之間的互動效應係弱的。互動之效應大小為0.022。然而,歸因於相當大的客戶樣本,互動效應之p值為0.001。先前被品嘗1次的食品B之資料格係有影響的,且其對總互動效應之貢獻具有p值0.01。
圖17說明根據某些實施例之對k維表執行之操作。圖17係由圖17A、圖17B及圖17C形成。將僅參考圖17中執行之操作來提供實例以增強對實施例之理解。對於此實例,考慮以下維度之集合:A,B,C,D,......,X,Y,Z,其中每一維度對應於資料集中之分類資料屬性。
控制在區塊1700處以1維表搜尋單元輸出對應於1維表之維度開始。在某些實施例中,該等維度為頂部維度之排序清單,其中排序係根據適合度值。
對於該實例,令T(1)=5(亦即,1維搜尋單元之輸出含有按適合度值(例如,R平方值)排序之5個維度)。以下為T(1)個單一維度之排序清單之實例:
對於此實例,資料集中的1維表之剩餘者全部具有小於0.45之R平方值。
在區塊1702中,選擇下一k維表搜尋單元,以第一k維表搜尋單元開始。繼續該實例,假定選擇k=4的k維搜尋單元。
在區塊1704中,所選k維表搜尋單元接收(k-1)維表之子集及對應於1維表之維度,其中k大於1。在某些實施例中,(k-1)維表之子集及對應於1維表之維度係自前一(k-1)維搜尋單元輸出。在某些實施例中,子集為頂部(k-1)維表之排序清單,其中排序係根據適合度值。
繼續該實例,4維表搜尋單元接收來自3維表搜尋單元之輸出。在此實例中,輸出含有兩個3維表,一個具有維度B、D及E之3維表及另一個具有維度A、B及D之3維表。以下提供用於此等3維表之R平方值。
3維搜尋單元中之3維表的剩餘者具有小於0.65之R平方值。
在區塊1706中,選定之k維表搜尋單元藉由組合(k-1)維表中之每一者與對應於1維表之未包括的維度而建立k維表之集合。
繼續該實例,藉由組合維度三元組與單一維度而建立如下的4維表之集合:(A,B,D,E)、(B,C,D,E)及(A,B,C,D)。
在區塊1708中,選定之k維表搜尋單元向資料彙總層請求用於k維表之所建立集合的彙總輸入統計資料並進行接收。自區塊1708(圖17A),處理繼續至區塊1710(圖17B)。
在區塊1710中,選定之k維表搜尋單元使用自所接收彙總輸入統計資料推導出的摘要來計算k維表之所建立集合的適合度值。自區塊1710,處理同時地繼續至區塊1712及區塊1718(圖17C)。
繼續該實例,以下為4維表之適合度值:
在區塊1712中,選定之k維表搜尋單元根據所計算之適合度值來排序k維表之所建立集合。在區塊1714中,選定之k維表搜尋單元輸出 自所建立集合中選擇的經排序k維表之子集。在某些實施例中,子集為頂部(k)維表之排序清單。在區塊1716中,判定是否在彼處已選擇所有表搜尋單元。若已選擇,則處理繼續至區塊1718(圖17C),否則,處理迴圈回到區塊1702(圖17A)。
在區塊1718中,互動評估單元532計算k維表之所建立集合的互動之有效度及互動效應大小以判定維度與度量互動。在某些實施例中,使用依據自彙總度量值之彙總輸入統計資料推導出的摘要的互動指數針對k維表之所建立集合而計算互動之有效度及互動效應大小。
繼續該實例,以下為4維表之互動之有效度及互動效應大小:
在區塊1720中,互動評估單元532按互動效應大小來排序具有有效互動效應的k維表之所建立集合。繼續該實例,以下為根據互動效應大小排序的具有有效互動效應之4維表的清單:(A,B,D,E),(A,B,C,D)。注意表(B,C,D,E)不包括於清單中,此係因為此表(B,C,D,E)在0.05的臨限值處不有效。
在區塊1722中,互動評估單元532輸出經排序k維表之子集至一用於產生一或多個報告的報告設定檔建構單元。在某些實施例中,該子集為具有一超過第四臨限值之互動效應大小的頂部k維表之經排序清單。詳言之,在區塊1718中計算互動之有效度指代判定互動效應是有效的還是不有效的。接著,在區塊1720中排序具有有效互動效應之表。
在某些實施例中,根據所述排序準則來選擇頂部維度。存在兩個用於排序之指數:適合度及互動效應大小。對於所有k,使用適合度選擇頂部T(k)表。在報告設定檔建構之前,作為最終步驟在互動評 估單元中計算選定表之互動效應大小。
舉例而言,在圖17中,在區塊1700、1704、1712、1714中的操作按適合度值排序k維表並根據適合度值自此等排序清單中選擇頂部k維表。在區塊1720、1722中的操作根據互動效應大小排序k維表並根據k維表之互動效應大小自此等排序之清單中選擇頂部k維表。
圖18A、圖18B及圖18C說明根據某些實施例之實例1維表1800、1810、1820。儘管僅展示三項實例1維表以增強對實施例之理解,但在各種實施例中可存在任何數目個1維表。在圖18A中,對於實例1維表1800,以下為維度、維度分類、度量及彙總輸入統計資料:維度:索賠類型(Claim Type)
索賠類型維度分類:風/冰雹、水損、火災/煙、污染及盜竊/破壞行為
度量:以千計的索賠成本
彙總輸入統計資料:(計數、平均值、方差)
在圖18B中,對於實例1維表1810,以下為維度、維度分類、度量及彙總輸入統計資料:維度:財產情況
財產情況維度分類:可居住及不可居住
度量:以千計的索賠成本
彙總輸入統計資料:(計數、平均值、方差)
在圖18C中,對於實例1維表1820,以下為維度、維度分類、度量及彙總輸入統計資料:維度:財產類型
財產類型維度分類:商用及住宅
度量:以千計的索賠成本
彙總輸入統計資料:(計數、平均值、方差)
圖19說明根據某些實施例之實例2維表1900。儘管僅展示一項實例2維表以增強對實施例之理解,但在各種實施例中可存在許多2維表。實例2維表1900係藉由組合實例1維表1800與對應於1維表1800的未包括之維度「財產情況」而建立。對於實例2維表1900,以下為維度、維度分類、度量及彙總輸入統計資料:維度:索賠類型、財產情況
索賠類型維度分類:風/冰雹、水損、火災/煙、污染及盜竊/破壞行為
財產情況維度分類:可居住及不可居住
度量:以千計的索賠成本
彙總輸入統計資料:(計數、平均值、方差)
圖20說明根據某些實施例之實例3維表2000。儘管僅展示一項實例3維表以增強對實施例之理解,但在各種實施例中可存在許多3維表。實例3維表2000係藉由組合實例2維表1900與對應於1維表1820的又一未包括之維度「財產類型」而建立。對於實例3維表2000,以下為維度、維度分類、度量及彙總輸入統計資料:維度:索賠類型、財產情況、財產類型
度量:以千計的索賠成本
索賠類型維度分類:風/冰雹、水損、火災/煙、污染及盜竊/破壞行為
財產情況維度分類:可居住及不可居住
財產類型維度分類:商用及住宅
彙總輸入統計資料:(計數、平均值、方差)
因此,在給定一資料集及一關注之度量的情況下,關係發現引擎410提供基於維度子集的對許多所有可能的維度彙總表格式報告中的互動之可縮放搜尋。
關係發現引擎410允許實現在任何數目之預定維度中的有引導的搜尋。又,關係發現引擎410評估影響度量值的維度之不同組合的總相關性。關係發現引擎提供一用於在含有大量維度之資料集中搜尋關於給定度量的重要維度及其組合的綜合技術。
因此,在某些實施例中,關係發現引擎410藉由以下操作而提供對具有大量維度之大資料集中的最強互動效應之高效發現:產生用於分析具有兩個或兩個以上維度及目標彙總輸入統計資料的彙總表之統計模型(ANOVA);應用基於模型之適合度以選擇最好的候選表並產生具有額外維度之表;及關於目標度量在表維度當中高效地計算基於模型之互動效應大小。
關係發現引擎410不僅涵蓋維度減少,而且基於基於模型之適合度統計資料來偵測互動效應。在某些實施例中,關係發現引擎410集中於在不取決於另一變數的情況下基於兩個或兩個以上變數的互動效應。關係發現引擎410使用基本統計資料來對彙總表實行分析。
額外實施例細節
如熟習此項技術者將瞭解,本發明之態樣可體現為系統、方法或電腦程式產品。因此,本發明之態樣可採用完全硬體實施例、完全軟體實施例(包括韌體、常駐軟體、微碼等)或組合軟體與硬體態樣之實施例的形式,該等實施例在本文中均可大體上被稱作「電路」、「模組」或「系統」。此外,本發明之態樣可採用體現於一或多個電腦可讀媒體中之電腦程式產品之形式,該一或多個電腦可讀媒體上體現有電腦可讀程式碼。
可利用一或多個電腦可讀媒體之任何組合。電腦可讀媒體可為電腦可讀信號媒體或電腦可讀儲存媒體。舉例而言,電腦可讀儲存媒體可為(但不限於)電子、磁性、光學、電磁、紅外線或半導體系統、裝置或器件,或前述系統、裝置或器件的任何合適組合。電腦可讀儲 存媒體之較具體實例(非詳盡清單)將包括以下各者:具有一或多條導線之電連接件、攜帶型電腦磁片、硬碟、隨機存取記憶體(RAM)、唯讀記憶體(ROM)、可抹除可程式化唯讀記憶體(EPROM或快閃記憶體)、光纖、攜帶型光碟唯讀記憶體(CD-ROM)、光學儲存器件、磁性儲存器件、固態記憶體、磁帶,或前述各者之任何合適組合。在本文件之內容脈絡中,電腦可讀儲存媒體可為可含有或儲存供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何有形媒體。
電腦可讀信號媒體可包括經傳播之資料信號,該經傳播之資料信號具有體現於其中(例如,在基頻中或作為載波之部分)之電腦可讀程式碼。此傳播信號可採用各種形式中之任一者,包括(但不限於)電磁、光學或其任何合適組合。電腦可讀信號媒體可為並非電腦可讀儲存媒體且可傳達、傳播或輸送供指令執行系統、裝置或器件使用或結合指令執行系統、裝置或器件而使用之程式的任何電腦可讀媒體。
可使用任何適當媒體來傳輸體現於電腦可讀媒體上之程式碼,適當媒體包括(但不限於)無線、有線、光纖纜線、RF等或前述各者之任何合適組合。
可以一或多種程式設計語言之任何組合來撰寫用於執行本發明之態樣之操作的電腦程式碼,該一或多種程式設計語言包括諸如Java、Smalltalk、C++或其類似者之物件導向式程式設計語言及諸如「C」程式設計語言或類似程式設計語言之習知程序性程式設計語言。程式碼可完全在使用者之電腦上執行,部分地在使用者之電腦上執行,作為獨立套裝軟體而執行,部分地在使用者之電腦上執行且部分地在遠端電腦上執行,或完全在遠端電腦或伺服器上執行。在完全在遠端電腦或伺服器上執行的情境中,遠端電腦可經由任何類型之網路(包括區域網路(LAN)或廣域網路(WAN))連接至使用者之電腦,或 可連接至外部電腦(例如,使用網際網路服務提供者,經由網際網路)。
下文參看根據本發明之實施例的方法、裝置(系統)及電腦程式產品之流程圖說明及/或方塊圖來描述本發明之實施例的態樣。應理解,可藉由電腦程式指令來實施該等流程圖說明及/或方塊圖之每一區塊及該等流程圖說明及/或方塊圖中之區塊的組合。可將此等電腦程式指令提供至通用電腦、專用電腦或其他可程式化資料處理裝置之一處理器以產生一機器,以使得經由該電腦或其他可程式化資料處理裝置之該處理器而執行之指令建立用於實施在該或該等流程圖及/或方塊圖區塊中所指定之功能/動作之構件。
亦可將此等電腦程式指令儲存於一電腦可讀媒體中,其可指導電腦、其他可程式化資料處理裝置或其他器件以特定方式發揮作用,使得儲存於該電腦可讀媒體中之指令產生一製品,該製品包括實施在該或該等流程圖及/或方塊圖區塊中所指定之功能/動作的指令。
亦可將該等電腦程式指令載入至電腦、其他可程式化資料處理裝置或其他器件上,以使一系列操作處理(例如,操作或步驟)在該電腦、其他可程式化裝置或其他器件上執行以產生一電腦實施的程序,使得在該電腦或其他可程式化裝置上執行之指令提供用於實施在該或該等流程圖及/或方塊圖區塊中所指定之功能/動作的程序。
實施所描述操作之程式碼可進一步實施於硬體邏輯或電路(例如,積體電路晶片、可程式化閘陣列(PGA)、特殊應用積體電路(ASIC)等)中。該硬體邏輯可耦接至一處理器以執行操作。
除非另有明確規定,否則彼此通信之器件無需彼此連續通信。另外,彼此通信之器件可直接地或經由一或多個中間物間接地通信。
對具有彼此通信之若干組件的實施例之描述並不暗示需要所有此等組件。相反,描述了各種任選組件以說明本發明之多種可能實施 例。
此外,儘管可能按一順序次序描述程序步驟、方法步驟、演算法或其類似者,但此等程序、方法及演算法可經組態以按交替次序工作。換言之,可能被描述之任何步驟序列或次序未必指示要求以此次序來執行該等步驟。可以任何實用之次序來執行本文中所描述之程序的步驟。此外,可同時執行一些步驟。
當在本文中描述單一器件或物品時,將易於顯而易見,可使用一個以上器件/物品(無論其是否合作)來代替單一器件/物品。類似地,當在本文中描述一個以上之器件或物品(無論其是否合作)時,將易於顯而易見,可使用單一器件/物品來取代該一個以上器件或物品,或可使用不同數目之器件/物品來替代所示數目之器件或程式。器件之功能性及/或特徵可替代性地由未被明確描述為具有此功能性/此等特徵的一或多個其他器件來實施。因此,本發明之其他實施例無需包括該器件本身。
流程圖之所說明操作展示以特定次序發生的某些事件。在替代性實施例中,可以不同次序執行某些操作,修改或移除某些操作。此外,操作可被添加至上述邏輯且仍符合所述實施例。此外,本文中所描述之操作可順序地發生或某些操作可被並行處理。此外,操作可由單個處理單元或由分散式處理單元執行。
本文中使用之術語僅係用於描述特定實施例之目的,且並不意欲限制本發明。如本文中所使用,單數形式「一」及「該」意欲亦包括複數形式,除非上下文另有清晰指示。應進一步理解,術語「包含」在用於本說明書中時指定所陳述之特徵、整體、步驟、操作、元件及/或組件之存在,但不排除一或多個其他特徵、整體、步驟、操作、元件、組件及/或其群組之存在或添加。
除非另有明確規定,否則術語「一實施例」、「實施例」、「該實 施例」、「該等實施例」、「一或多項實施例」、「一些實施例」及「一項實施例」意謂「本發明之一或多個(但並非全部)實施例」。
除非另外明確規定,否則術語「包括」、「包含」、「具有」及其變型意謂「包括但不限於」。
除非另有明確規定,否則所列舉之項目列表並不暗示項目中之任何或所有者相互排斥。
以下申請專利範圍中之所有手段或步驟加功能要素之對應結構、材料、動作及等效物意欲包括用於與如具體所主張之其他所主張元件組合地執行功能的任何結構、材料或動作。已呈現本發明之實施例的描述以用於達成說明及描述之目的,但其並不意欲為詳盡的或限於所揭示之形式的本發明。在不脫離本發明之範疇及精神之情況下,許多修改及變化對於一般熟習此項技術者將顯而易見。選擇且描述了該等實施例,以便最好地解釋本發明之原理及實際應用,且使一般熟習此項技術者能夠理解本發明之具有適合於所考量之特定用途之各種修改的各種實施例。
諸圖中之流程圖及方塊圖說明根據本發明之各種實施例之系統、方法及電腦程式產品之可能實施的架構、功能性及操作。就此而言,流程圖或方塊圖中之每一區塊可表示程式碼之一模組、區段或部分,其包含用於實施指定之邏輯功能的一或多個可執行指令。亦應注意,在一些替代實施中,區塊中所提到之功能可能不以諸圖中所提到之次序發生。舉例而言,取決於所涉及之功能性,連續展示之兩個區塊實際上可實質上同時執行,或該等區塊有時可以相反次序執行。亦應注意,可藉由執行指定之功能或動作的基於專用硬體之系統或專用硬體及電腦指令之組合來實施方塊圖及/或流程圖說明之每一區塊及方塊圖及/或流程圖說明中之區塊的組合。
已出於說明及描述之目的而呈現本發明之實施例的先前描述。 其不欲為詳盡的或將該等實施例限於所揭示之精確形式。依據以上教示,許多修改及變化係可能的。意欲該等實施例之範疇並非受此詳細描述限制而是受隨附於本文之申請專利範圍限制。上述說明書、實例及資料提供對該等實施例之組合體之製造及使用的完整描述。因為可在不脫離本發明之精神及範疇的情況下進行許多實施例,所以該等實施例屬於下文隨附之申請專利範圍或任何隨後申請之申請專利範圍及其均等物。
10‧‧‧雲端計算節點
12‧‧‧電腦系統/伺服器
14‧‧‧外部器件
16‧‧‧處理器
18‧‧‧匯流排
20‧‧‧網路配接器
22‧‧‧輸入/輸出(I/O)介面
24‧‧‧顯示器
28‧‧‧系統記憶體
30‧‧‧隨機存取記憶體(RAM)
32‧‧‧快取記憶體
34‧‧‧儲存系統
40‧‧‧程式/公用程式
42‧‧‧程式模組

Claims (11)

  1. 一種在商業分析中之關係發現的方法,其包含:接收(k-1)維表之一子集,其中k大於1,其中基於超過第一臨限值之適合度值,選擇該(k-1)維表之一子集,其中該適合度值為評估模型描述數據之能力的統計;藉由組合該等(k-1)維表中之每一者與對應於一1維表的一未包括之維度而建立k維表之一集合;輸出從在建立(k-1)維表中使用之k維表之該所建立集合中選擇的k維表之一子集,其中基於超過第二臨限值之適合度值,選擇該k維表之一子集,並且其中該建立之k維表根據該適合度值排序;及計算k維表之該所建立集合的互動之有效度及互動效應大小以判定維度與度量互動。
  2. 如請求項1之方法,其進一步包含:其中該等建立的k維表係根據所計算之適合度值來排序。
  3. 如請求項1之方法,其進一步包含:根據該互動效應大小來排序具有有效互動效應的k維表之該所建立集合。
  4. 如請求項3之方法,其進一步包含:使用具有超過一臨限值的互動效應大小的該等排序之k維表之一子集來產生一或多個報告。
  5. 如請求項1之方法,其中使用依據自彙總度量值之彙總輸入統計資料推導出的摘要的互動指數而計算所建立之k維表的該集合的互動之該有效度及該互動效應大小。
  6. 如請求項1之方法,其進一步包含: 接收1維表的彙總輸入統計資料;計算該等1維表中之每一者的適合度值;及根據該等計算之適合度值來排序該等1維表。
  7. 如請求項1之方法,其中(k-1)維表之該子集包含基於該等適合度值選擇的頂部(k-1)維表。
  8. 如請求項1之方法,其進一步包含:使用一方差分析(ANOVA)模型來計算該等適合度值。
  9. 如請求項1之方法,其中提供一軟體即服務(SaaS)以執行該方法。
  10. 一種電腦系統,其包含:一處理器;及連接至該處理器之一儲存器件,其中該儲存器件上儲存有一程式,其中該處理器經組態以執行該程式的指令以執行如請求項1至9中之任一項的在商業分析中進行關係發現的方法。
  11. 一種電腦程式產品,其包含:一電腦可讀儲存媒體,其體現有電腦可讀程式碼,其中該電腦可讀程式碼在由至少一處理器執行時經組態以執行如請求項1至9中之任一項的在商業分析中進行關係發現的方法。
TW102125980A 2012-07-30 2013-07-19 於商業分析中之關係發現之方法、電腦系統及電腦程式產品 TWI559158B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US13/562,201 US8965895B2 (en) 2012-07-30 2012-07-30 Relationship discovery in business analytics

Publications (2)

Publication Number Publication Date
TW201423452A TW201423452A (zh) 2014-06-16
TWI559158B true TWI559158B (zh) 2016-11-21

Family

ID=49995913

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102125980A TWI559158B (zh) 2012-07-30 2013-07-19 於商業分析中之關係發現之方法、電腦系統及電腦程式產品

Country Status (2)

Country Link
US (2) US8965895B2 (zh)
TW (1) TWI559158B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9338218B1 (en) * 2011-12-21 2016-05-10 Emc Corporation Distributed platform as a service
US11995667B2 (en) 2012-07-25 2024-05-28 Prevedere Inc. Systems and methods for business analytics model scoring and selection
US9043327B1 (en) 2013-06-13 2015-05-26 Amazon Technologies, Inc. Performing flexible pivot querying of monitoring data using a multi-tenant monitoring system
US9817864B1 (en) * 2013-06-13 2017-11-14 Amazon Technologies, Inc. Flexible pivot querying of monitoring data with zero setup
US9104392B1 (en) * 2013-06-13 2015-08-11 Amazon Technologies, Inc. Multitenant monitoring system storing monitoring data supporting flexible pivot querying
US11093664B2 (en) * 2014-07-30 2021-08-17 SIOS Technology Corp. Method and apparatus for converged analysis of application, virtualization, and cloud infrastructure resources using graph theory and statistical classification
US10635667B2 (en) 2015-06-29 2020-04-28 Microsoft Technology Licensing, Llc Automatic insights for multi-dimensional data
US10990990B2 (en) * 2018-04-24 2021-04-27 Adp, Llc Market analysis system
US20190325363A1 (en) * 2018-04-24 2019-10-24 Adp, Llc Business insight generation system
WO2021138216A1 (en) * 2019-12-30 2021-07-08 Prevedere, Inc. Systems and methods for business analytics model scoring and selection

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1195694A2 (en) * 2000-10-06 2002-04-10 International Business Machines Corporation Automatic determination of OLAP Cube dimensions
US20040220972A1 (en) * 2003-04-29 2004-11-04 International Business Machines Corporation System and method for space management of multidimensionally clustered tables
US20100250712A1 (en) * 2009-03-31 2010-09-30 Brian Lee Ellison Centrally managing and monitoring software as a service (saas) applications
WO2011038445A1 (en) * 2009-09-29 2011-04-07 Zap Holdings Ldt A content based approach to extending the form and function of a business intelligence system

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940818A (en) * 1997-06-30 1999-08-17 International Business Machines Corporation Attribute-based access for multi-dimensional databases
US6094651A (en) 1997-08-22 2000-07-25 International Business Machines Corporation Discovery-driven exploration of OLAP data cubes
WO1999046659A2 (en) 1998-03-10 1999-09-16 Management Dynamics, Inc. Statistical comparator interface
US6317517B1 (en) 1998-11-30 2001-11-13 Regents Of The University Of California Statistical pattern recognition
US6691140B1 (en) * 1999-07-30 2004-02-10 Computer Associates Think, Inc. Method and system for multidimensional storage model with interdimensional links
US6829621B2 (en) 2000-10-06 2004-12-07 International Business Machines Corporation Automatic determination of OLAP cube dimensions
US7406384B2 (en) 2001-12-26 2008-07-29 The Regents Of The University Of California System and method for identifying networks or ternary relationships in complex data systems
US7194465B1 (en) * 2002-03-28 2007-03-20 Business Objects, S.A. Apparatus and method for identifying patterns in a multi-dimensional database
US20040193633A1 (en) 2003-03-28 2004-09-30 Cristian Petculescu Systems, methods, and apparatus for automated dimensional model definitions and builds utilizing simplified analysis heuristics
US20090006156A1 (en) * 2007-01-26 2009-01-01 Herbert Dennis Hunt Associating a granting matrix with an analytic platform
JP2005250980A (ja) * 2004-03-05 2005-09-15 Oki Electric Ind Co Ltd 文書検索システム、検索条件入力装置、検索実行装置、文書検索方法、および文書検索プログラム
US7958063B2 (en) 2004-11-11 2011-06-07 Trustees Of Columbia University In The City Of New York Methods and systems for identifying and localizing objects based on features of the objects that are mapped to a vector
US7418438B2 (en) * 2004-11-30 2008-08-26 International Business Machines Corporation Automated default dimension selection within a multidimensional enterprise software system
US20070061287A1 (en) 2005-09-09 2007-03-15 Jian Le Method, apparatus and program storage device for optimizing a data warehouse model and operation
WO2008092147A2 (en) 2007-01-26 2008-07-31 Information Resources, Inc. Analytic platform
US20080228699A1 (en) * 2007-03-16 2008-09-18 Expanse Networks, Inc. Creation of Attribute Combination Databases
JP5063151B2 (ja) * 2007-03-19 2012-10-31 株式会社リコー 情報検索システム及び情報検索方法
US8380748B2 (en) * 2008-03-05 2013-02-19 Microsoft Corporation Multidimensional data cubes with high-cardinality attributes
US8949233B2 (en) * 2008-04-28 2015-02-03 Alexandria Investment Research and Technology, Inc. Adaptive knowledge platform
US8374795B2 (en) * 2008-05-13 2013-02-12 Roche Molecular Systems, Inc. Systems and methods for step discontinuity removal in real-time PCR fluorescence data
WO2009146558A1 (en) * 2008-06-05 2009-12-10 Gss Group Inc. System and method for building a data warehouse
US8399206B2 (en) 2008-07-10 2013-03-19 Nodality, Inc. Methods for diagnosis, prognosis and methods of treatment
GB2484644B (en) * 2009-07-22 2016-05-18 Univ Of Ontario Inst Of Tech System, method and computer program for multi-dimensional temporal data mining
WO2011085819A1 (en) 2010-01-15 2011-07-21 Zenrobotics Ltd. A machine-learning system and a method for determining different operating points in such a system
US8880600B2 (en) 2010-03-31 2014-11-04 Facebook, Inc. Creating groups of users in a social networking system
US8825649B2 (en) * 2010-07-21 2014-09-02 Microsoft Corporation Smart defaults for data visualizations
US8396828B2 (en) * 2010-09-14 2013-03-12 Microsoft Corporation Providing lightweight multidimensional online data storage for web service usage reporting
US8442988B2 (en) 2010-11-04 2013-05-14 International Business Machines Corporation Adaptive cell-specific dictionaries for frequency-partitioned multi-dimensional data
US9299173B2 (en) * 2011-06-07 2016-03-29 International Business Machines Corporation Automatic selection of different visualizations for the organization of multivariate data
US10685005B2 (en) 2011-11-11 2020-06-16 Qliktech International Ab Alternate states in associative information mining and analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1195694A2 (en) * 2000-10-06 2002-04-10 International Business Machines Corporation Automatic determination of OLAP Cube dimensions
US20040220972A1 (en) * 2003-04-29 2004-11-04 International Business Machines Corporation System and method for space management of multidimensionally clustered tables
US20100250712A1 (en) * 2009-03-31 2010-09-30 Brian Lee Ellison Centrally managing and monitoring software as a service (saas) applications
WO2011038445A1 (en) * 2009-09-29 2011-04-07 Zap Holdings Ldt A content based approach to extending the form and function of a business intelligence system

Also Published As

Publication number Publication date
TW201423452A (zh) 2014-06-16
US8965895B2 (en) 2015-02-24
US9053170B2 (en) 2015-06-09
US20140032553A1 (en) 2014-01-30
US20140032611A1 (en) 2014-01-30

Similar Documents

Publication Publication Date Title
TWI559158B (zh) 於商業分析中之關係發現之方法、電腦系統及電腦程式產品
US8843423B2 (en) Missing value imputation for predictive models
US10019442B2 (en) Method and system for peer detection
KR101939554B1 (ko) 일시적 거래 한도 결정
US11238045B2 (en) Data arrangement management in a distributed data cluster environment of a shared pool of configurable computing resources
US11176187B2 (en) Data insight discovery using a clustering technique
CN104077723B (zh) 一种社交网络推荐系统及方法
US20210273908A1 (en) Predicting user-file interactions
US11727142B2 (en) Identifying sensitive data risks in cloud-based enterprise deployments based on graph analytics
CN115461724A (zh) 应用的多对象优化
US20130325863A1 (en) Data Clustering for Multi-Layer Social Link Analysis
US9460393B2 (en) Inference of anomalous behavior of members of cohorts and associate actors related to the anomalous behavior based on divergent movement from the cohort context centroid
US20160063394A1 (en) Computing Device Classifier Improvement Through N-Dimensional Stratified Input Sampling
US12093245B2 (en) Temporal directed cycle detection and pruning in transaction graphs
Wang et al. Turbo: Dynamic and decentralized global analytics via machine learning
US11741099B2 (en) Supporting database queries using unsupervised vector embedding approaches over unseen data
US11475032B2 (en) Analyzing multidimensional process traces under edit-distance constraint
CN110992109B (zh) 基于关联规则的房地产客户分析方法、装置及存储介质
US10409871B2 (en) Apparatus and method for searching information
US10248924B2 (en) Network change auditing system
US11500933B2 (en) Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system
Radha et al. A study on big data techniques and applications
Alim et al. A solution approach to big data regarding parameter estimation problems in predictive analytics model
SANJALAWE et al. MESURING THE EFFICENY OF USING HADOOP TO ANALYZE BIG DATA-A CASE STUDY ON TWITTER DATA SET.
Sourav et al. Performance evaluation of big data by applying ant colony optimization techniques