TW202006617A - 雲端自助分析平台與其分析方法 - Google Patents

雲端自助分析平台與其分析方法 Download PDF

Info

Publication number
TW202006617A
TW202006617A TW107124789A TW107124789A TW202006617A TW 202006617 A TW202006617 A TW 202006617A TW 107124789 A TW107124789 A TW 107124789A TW 107124789 A TW107124789 A TW 107124789A TW 202006617 A TW202006617 A TW 202006617A
Authority
TW
Taiwan
Prior art keywords
data
analysis
rule
rules
resource pool
Prior art date
Application number
TW107124789A
Other languages
English (en)
Other versions
TWI684147B (zh
Inventor
陳昱全
范登凱
Original Assignee
中華電信股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中華電信股份有限公司 filed Critical 中華電信股份有限公司
Priority to TW107124789A priority Critical patent/TWI684147B/zh
Application granted granted Critical
Publication of TWI684147B publication Critical patent/TWI684147B/zh
Publication of TW202006617A publication Critical patent/TW202006617A/zh

Links

Images

Abstract

本發明提出一種雲端自助分析平台與其分析方法,該分析方法包括依據所接收之資料分析任務至儲存多筆既有資料擷取規則之共享資源池中搜尋出適用於該資料分析任務之該既有資料擷取規則;分析該資料分析任務與所取得適用於該資料分析任務之該既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則;依據該最終資料擷取規則產生擷取腳本,以進行所需資料之蒐集;以及根據分析任務優先順序將分析演算法及所蒐集之該所需資料分配至運算資源池進行運算,以產生最終分析結果。

Description

雲端自助分析平台與其分析方法
本發明係有關多人協同資訊分享技術,詳而言之,係關於一種雲端自助分析平台與其分析方法。
一般而言,資料分析專案的檔案大多為高容量,且一份檔案常常具有許多不同型態或屬性,當資料分析師面對第一次接觸的資料時,常採取嘗試錯誤方法來設定資料擷取規則,藉此取得該資料有意義的輪廓,舉例來說:每天統計屬性值A出現的次數、每天統計某欄位值大於設定值的次數...等。相反地,倘若資料分析師熟悉該檔案結構或掌握前人分享經驗,則分析任務將變成件容易的事,因而透過數據歸類整理藉以達到高效率分析成為眾所努力的目的。在現行雲端自助分析的議題中,重覆資料是一項重要的議題,簡單來說,一位資料分析師建立一個分析準則,另外一位資料分析師與其不同研究屬性,但前述分析準則仍可適用(僅些許差異),但在缺乏多人協同分享的概念,會導致重覆資料的情況,即兩位資料分析師各建立一套分析準則,但兩者明顯近似且通用,故現行雲端自助分析的 領域中,無論是原始分析資料或是透過資料擷取規則產生的衍生性資料,常因為缺乏資訊分享機制,進而造成資料重覆存放且浪費運算資源,導致自助分析效率較差。
由上可知,若能找出一種多人協同資訊分享技術,特別是,適用於雲端自助分析平台,讓資料分析師在進行資料分析時,有機會參考到前人建立的分析準則,藉此提升分析效率且避免運算資源浪費,此將成為目前本技術領域人員急欲解決之技術問題。
本發明之目的係提出一種基於多人協同資訊分享來提昇雲端自助分析效率的機制與服務,透過參酌前人分享的資料擷取規格,藉此達到分析效率之提升以及避免重複資料的運算資源浪費。
為了達成上述或其他目的,本發明提出一種雲端自助分析平台,包括:共享資源池,係儲存多筆既有資料擷取規則;資料擷取規則設定模組,係連接該共享資源池且用於接收外部所輸入之資料分析任務,以透過該資料分析任務至該共享資源池進行搜尋以取得適用於該資料分析任務之該既有資料擷取規則;資料擷取規則分析模組,係連接該資料擷取規則設定模組且用於分析該資料分析任務與該資料擷取規則設定模組所取得之該既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則;資料集蒐集模組,係連接該資料擷取規則分析模組及該共享資源池,該資料集蒐集模組用於依據該最終資料擷取規則產生擷取腳 本,以進行所需資料之蒐集;以及分析任務排程器,係連接該資料集蒐集模組且用於根據分析任務優先順序將分析演算法及所蒐集之該所需資料分配至運算資源池進行運算,以產生最終分析結果。
於上述系統中,更包括連接至該資料擷取規則分析模組及該共享資源池之視覺化呈現模組,係用於透過圖形或表格呈現資料統計分佈。
於上述系統中,更包括連接至該視覺化呈現模組之分析演算法選取模組,係用於供使用者選擇該分析演算法以及設定相關參數。
於一實施例中,該資料集蒐集模組係於該所需資料存在於該共享資源池時,自該共享資源池取得該資源集以作為該所需資料。
於另一實施例中,於該資料擷取規則分析模組分析該資料分析任務與該既有資料擷取規則存在衝突時產生警告訊息,且選擇延用該既有資料擷取規則或建立新的資料擷取規則的其中一者作為該最終資料擷取規則。
於又一實施例中,該資料擷取規則設定模組更於未取得適用於該資料分析任務之該既有資料擷取規則時,由使用者自行建立新的資料擷取規則以作為該最終資料擷取規則。
本發明復提出一種雲端自助分析方法,係包括下列步驟:依據所接收之資料分析任務至儲存多筆既有資料擷取規則之共享資源池中搜尋出適用於該資料分析任務之該既 有資料擷取規則;分析該資料分析任務與所取得適用於該資料分析任務之該既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則;依據該最終資料擷取規則產生擷取腳本,以進行所需資料之蒐集;以及根據分析任務優先順序將分析演算法及所蒐集之該所需資料分配至運算資源池進行運算,以產生最終分析結果。
於上述方法中,進行所需資料之蒐集更包括於該所需資料存在於該共享資源池時,自該共享資源池取得資源集以作為該所需資料。
於上述方法中,於該資料分析任務與該既有資料擷取規則存在衝突時產生警告訊息,且選擇延用該既有資料擷取規則或建立新的資料擷取規則的其中一者作為該最終資料擷取規則。
於上述方法中,於未取得適用於該資料分析任務之該既有資料擷取規則時,由使用者自行建立新的資料擷取規則以作為該最終資料擷取規則。
相較於現有技術,本發明提出的雲端自助分析平台與其分析方法,於接收使用者提出的資料分析任務時,透過資料擷取規則設定模組從共享資源池內推薦高度相關規則,配合視覺化呈現,使用者可快速掌握資料輪廓,藉此提升雲端自助分析效能,且在使用者選擇或自行建立資料擷取規則後,資料擷取規則分析模組會確認是否衝突於現有資料擷取規則,最後資料集蒐集模組負責整備所需資料,其中,資料集蒐集模組會先比對共享資源池內現有資料集, 並不會重新擷取重覆資料,以節省運算資源。
100‧‧‧雲端自助分析平台
101‧‧‧共享資源池
102‧‧‧資料擷取規則設定模組
103‧‧‧資料擷取規則分析模組
104‧‧‧資料集蒐集模組
105‧‧‧分析任務排程器
106‧‧‧運算資源池
107‧‧‧視覺化呈現模組
108‧‧‧分析演算法選取模組
200‧‧‧資料分析任務
401~411‧‧‧流程
501~509‧‧‧流程
601~609‧‧‧流程
701~707‧‧‧流程
S301~S304‧‧‧步驟
第1圖為本發明之雲端自助分析平台的系統架構圖;第2圖為本發明之雲端自助分析平台一具體實施例的系統架構圖;第3圖為本發明之雲端自助分析方法的步驟圖;第4圖為本發明一實施例中雲端自助分析方法的執行流程圖;第5圖為本發明之雲端自助分析方法有關資料擷取規則設定的執行流程圖;第6圖為本發明之雲端自助分析方法有關資料擷取規則分析的執行流程圖;以及第7圖為本發明之雲端自助分析方法有關資料集蒐集的執行流程圖。
以下藉由特定的具體實施形態說明本發明之技術內容,熟悉此技藝之人士可由本說明書所揭示之內容輕易地瞭解本發明之優點與功效。然本發明亦可藉由其他不同的具體實施形態加以施行或應用。
第1圖說明本發明之雲端自助分析平台的系統架構圖。如圖所示,雲端自助分析平台100可供資料分析專家透過具備瀏覽器之工作站提交資料分析任務200至雲端自助分析平台100,藉此平台提供資料蒐集規則的協助,以於節省運算資源下找出所需資料,其中,雲端自助分析平台100 包括共享資源池101、資料擷取規則設定模組102、資料擷取規則分析模組103、資料集蒐集模組104、分析任務排程器105及運算資源池106。
共享資源池101用於儲存多筆既有資料擷取規則。前述既有資料擷取規則即為先前所設定的各種資料擷取規則,因而本案及提供參考先前資料擷取規則,藉此達到節省運算資源和避免資料重複存放的情況。
資料擷取規則設定模組102連接共享資源池101且用於接收外部所輸入之資料分析任務200,藉以透過資料分析任務200至共享資源池101進行搜尋以取得適用於該資料分析任務200之既有資料擷取規則。雲端自助分析平台100收到資料分析任務200後,會驅動資料擷取規則設定模組102進行資料庫查詢,判定此分析檔案是否存在之前的資料擷取規則,若該檔案已被分析過,則可以推薦先前存在的既有資料擷取規則,或者進行新的資料擷取規則制定,使用者可直接透過介面設定規則,或由平台系統根據屬性型態推薦適用的資料擷取規則,也就是說,當資料擷取規則設定模組102未取得適用於資料分析任務200之既有資料擷取規則時,則由使用者自行建立新的資料擷取規則以作為最終資料擷取規則。
資料擷取規則分析模組103連接資料擷取規則設定模組102且用於分析該資料分析任務200與該資料擷取規則設定模組102所取得之既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則。資料擷取規則分析模組 103會確認資料分析任務200是否衝突於現有資料擷取規則,若有衝突則提示警告,使用者最後仍可以決定是否要新增此資料結擷取規則,也就是說,當資料擷取規則分析模組103分析資料分析任務200與既有資料擷取規則存在衝突時會產生警告訊息,此時將延用既有資料擷取規則或建立新的資料擷取規則的其中擇一作為最終資料擷取規則。
資料集蒐集模組104連接資料擷取規則分析模組103及共享資源池101,該資料集蒐集模組104用於依據該最終資料擷取規則產生擷取腳本,以進行所需資料之蒐集。資料集蒐集模組104會根據輸入的資料擷取規則產生擷取腳本,並將此腳本提交至分析任務排程器105進行資料擷取任務。
分析任務排程器105連接資料集蒐集模組104且用於根據分析任務優先順序將分析演算法及所蒐集之該資料分配至運算資源池106進行運算,以產生最終分析結果。當資料蒐集完成時會觸發分析任務排程器105,分析任務排程器105會根據分析任務優先順序,將分析演算法及資料集分配至運算資源池106內進行運算,最後將結果儲存至共享資源池101內,共享資源池101內儲存最後分析結果外,也會將前步驟產生的資料集、資料擷取規則等資訊一併儲存。
於一實施例中,倘若所需資料存在於共享資源池101時,資料集蒐集模組104可自共享資源池101取得該資源 集以作為該所需資料。
透過上述方式,資料分析專家可將資料分析任務200送至雲端自助分析平台100,雲端自助分析平台100會依據任務內容搜尋適用的資料擷取規則給資料分析專家參考,資料分析專家可沿用既有的資料擷取規則,也可建立新的資料擷取規則,並判斷是否存在衝突。最後在選定資料擷取規則後,資料集蒐集模組104進行資料蒐集,並由分析任務排程器105考量任務優先順序、分析演算法等進行排程,並至運算資源池106進行運算,最終得到分析結果。
第2圖說明本發明之雲端自助分析平台一具體實施例的系統架構圖。如圖所示,雲端自助分析平台100之共享資源池101、資料擷取規則設定模組102、資料擷取規則分析模組103、資料集蒐集模組104、分析任務排程器105及運算資源池106與第1圖所述相同,故不再贅述。於本實施例中,雲端自助分析平台100更包括視覺化呈現模組107和分析演算法選取模組108。
視覺化呈現模組107連接至資料擷取規則分析模組103及共享資源池101,可用於透過圖形或表格呈現資料統計分佈。具體來說,視覺化呈現模組107可透過不同圖形(例如圓餅圖、長條圖等)、表格呈現資料統計分佈,以方便使用者知悉要選擇的資料擷取規則內容為何、機率排序等資訊。
分析演算法選取模組108連接至視覺化呈現模組107,可用於供使用者選擇所要採用之分析演算法以及設定相關 參數。具體來說,當確定資料擷取規則後,透過分析演算法選取模組108挑選分析演算法,(例如支援向量機、決策數、迴歸分析等,並設定相關參數,之後選定的分析演算法會供分析任務排程器105進行排程並於運算資源池106進行運算。
另外,雲端自助分析平台100除了上述元件模組外,更掌握分析任務的提交/暫停/回復/刪除等功能,最後回報分析任務結果給資料分析專家。
第3圖說明本發明之本發明之雲端自助分析方法的步驟圖。如圖所示,於步驟S301中,依據所接收之資料分析任務至儲存多筆既有資料擷取規則之共享資源池中搜尋出適用於該資料分析任務之該既有資料擷取規則。具體來說,當收到資料分析任務時,會先至共享資源池中搜尋是否有適用之既有資料擷取規則,若有使用者可選擇套用,藉此減少計算資源的浪費。
於一實施例中,於未取得適用於該資料分析任務之該既有資料擷取規則時,由使用者自行建立新的資料擷取規則以作為最終資料擷取規則。
於步驟S302中,分析該資料分析任務與所取得適用於該資料分析任務之該既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則。簡言之,不論是套用既有資料擷取規則或者是建立新的資料擷取規則,都需與現有資料擷取規則進行分析,判斷是否存在衝突,藉此避免往後計算出現不同結果。
於一實施例中,於該資料分析任務與該既有資料擷取規則存在衝突時產生警告訊息,且選擇延用該既有資料擷取規則或建立新的資料擷取規則的其中一者作為該最終資料擷取規則。
於步驟S303中,依據該最終資料擷取規則產生擷取腳本,以進行所需資料之蒐集。當選定最終資料擷取規則後,則開始進行資料蒐集,特別是,在進行所需資料之蒐集時,若該所需資料存在於共享資源池時,自共享資源池取得資源集以作為該所需資料。最後,所蒐集資料會被送至排程器進行運算排程。
於步驟S304中,根據分析任務優先順序將分析演算法及所蒐集之該所需資料分配至運算資源池進行運算,以產生最終分析結果。排程器會根據分析任務優先順序,將選定的分析演算法及前步驟蒐集到的資料集分配至運算資源池內進行運算,以產生最終分析結果。另外,運算資源池最終分析結果與相關資料(資料集、資料擷取規則等),會回存至共享資源池,以供後續分析時可參考利用。
第4圖為本發明一實施例中雲端自助分析方法的執行流程圖,其說明本發明的核心方法流程圖。如圖所示,於流程401中,使用者透過介面選定分析資料後,開始設定資料擷取規則,接著使用者可採取下列不同方式進行規則設定,例如流程402中,挑選平台系統推薦的資料擷取規則,其中,平台系統會根據資料屬性進行推薦,另外於流程403中,當無適合的推薦規則時,使用者可自行建立資 料擷取規則。
當完成資料規則集設定後,進入流程404,提交資料擷取規則至資料擷取規則分析模組進行分析作業,於流程405中,資料擷取規則分析模組根據相似度判斷是否存在衝突的資料擷取規則,若存在衝突規則,則進入流程406,使用者可依據平台系統提示,嘗試解決該衝突規則,若無衝突規則,則進入流程407,使用者可將資料擷取規則集提交至資料蒐集模組進行蒐集任務。
於流程408中,資料蒐集模組會先確認共享資源池內是否存在相對應資料集,若存在則進入流程409,直接從共享資源池中取得該資料集,若不存在則進入流程410,開始進行資料集蒐集任務,最後進入流程411,將資料集存入共享資源池,即完成資料整備任務。
第5圖為本發明之雲端自助分析方法有關資料擷取規則設定的執行流程圖,即說明第1、2圖中資料擷取規則設定模組102的運作。使用者可透過網頁介面上傳分析資料(資料分析任務),或者選擇雲端自助分析平台上現存資料,此時,資料擷取規則設定模組除了推薦使用者高度相關的資料擷取規則外,亦可以讓使用者自行建立規則。
於流程501中,當選定欲分析資料後,使用者與資料擷取規則模組進行互動,即依據選定的資料檔案,查詢共享資源池是否已存在相對應的資料擷取規則,若有則可直接選用既有資料擷取規則。接著,於流程502中,無論前一步驟是否有挑選既有資料擷取規則,在本流程中皆可指 定任一資料欄位屬性(稱目標屬性ta),進行相關規則推薦。
於流程503中,首先根據資料欄位屬性推薦資料擷取,利用同義字字典篩選出與目標屬性名稱相近之字詞,連同目標屬性本身形成候選詞集合C,例如:目標屬性名稱為“住家位置”,同義字典中發現“地址”、“住址”、“位置”、“郵遞區號”為同義字,此時候選詞集合C包含{“住家位置”,“地址”,“住址”,“位置”,“郵遞區號”}。於流程504中,過濾與目標屬性的不同資料型態之同義字詞,例如:目標屬性“住家位置”資料型別為“字串”,然而同義字“位置”的屬性為“整數”與資料型別“字串”不同,故從候選詞集合C中剔除“位置”字詞,此時候選詞集合C包含{“住家位置”,“地址”,“住址”,“郵遞區號”}。接下來,於流程505中,根據前步驟過濾的候選詞集合C,過濾屬性值域互斥且獨立之同義字,如下表一所示:
Figure 107124789-A0101-12-0012-27
於上表一中,“郵遞區號”與目標屬性“住家地址”彼此間的值域互斥且獨立,因此從候選詞集合C中剔除“郵遞區號”,候選詞集合僅存{“住家位置”,“地址”,“住址”}。最 後,於流程506中,根據同義字屬性值域交集機率排序推薦,如下表二所示:
Figure 107124789-A0101-12-0013-2
除原本目標屬性“住家地址”外,依序為“地址”、“住址”,流程506會從共享資源池中取出同義詞相對應的資料擷取規則,並以機率大小排序。接著,於流程507中,使用者可挑選適當的資料擷取規則。當使用者發現沒有適合的規則時,亦可透過流程508自行建立資料擷取規則。使用者可重覆操作流程502~508,針對一個或多個目標屬性建立數個規則。最後,流程509即將流程507、508所產生的資料擷取規則傳送至資料擷取規則分析模組,並且完成資料擷取規則制定。
第6圖說明本發明之雲端自助分析方法有關資料擷取規則分析的執行流程圖,即說明第1、2圖中資料擷取規則分析103模組的運作,此模組主要目的是分析是否有衝突規則存在。當提交資料擷取規則後,於流程601中,使用者與資料擷取規則分析模組進行互動,根據欲新增資料擷取規則與現有規則計算距離(相似度),方法即將輸入的資料擷取規則進行模型化。於流程602中,主要透過空間向 量模型(Vector Space Model)表示每一個屬性,並利用流程603、604計算相似度。舉例來說,如下表三所示,假設共享資源池中存在三條資料擷取規則,每條規則均包含四個可設定條件之屬性{“住家地址”,“年收入”,“性別”,“房屋興建日期”},其資料型態分別為“字串”,“整數”,“布林”,“日期”。而新增的規則希望擷取的資料必須符合:“住家地址”出現[中正路或中山路],且“年收入”大於500,且“性別”為男性,且“房屋興建日期”為2002年。
Figure 107124789-A0101-12-0014-28
流程603首先會計算數字、日期、時間、布林及位元資料型態向量距離,透過準則計算欲新增規則與現有規則之距離,準則包括(1)計算兩數值絕對值後開根號;(2)若兩規則運算元不一致,則將上述值放大,這裡取最大值後加1。若運算元一致記錄是否符合涵蓋條件,例如:規則“>400” 涵蓋規則“>500”。經過流程603後,現有規則與欲新增規則的相似度如下表四所示:
Figure 107124789-A0101-12-0015-4
於上表中,現有規則3的運算元與新增規則運算元相左,因此擴增兩規則的向量距離。接著流程604會計算字元、字串、列舉及文字資料型態向量距離,並透過準則計算欲新增規則與現有規則之距離,準則包括(1)判斷兩文字是否相同,相同取0,相反取1;(2)若兩規則運算元不一致,將上個步驟值加1,反之多記錄是否符合涵蓋條件。經過流程604後,現有規則與欲新增規則的相似度如下表五所示:
Figure 107124789-A0101-12-0016-5
最後流程605依據向量距離排序顯示,並透過流程606判斷是否存在衝突的資料擷取規則,當距離為0時表示已存在完全相同設定條件的資料存取規則。而當某規則所有涵蓋條件均成立時,也視為衝突,例如:現有規則1雖然與新增規則距離甚遠,但其條件均涵蓋新增規則之設定。當有衝突規則成立時,流程607會顯示資料擷取規則衝突警告,使用者可透過流程608修改衝突資料擷取規則,操作包含有:採用現有的規則、修改新增規則、刪除新增規則。倘若沒有出現衝突規則時,則進入流程609,即完成資料擷取規則建立。
第7圖說明本發明之雲端自助分析方法有關資料集蒐集的執行流程圖,即說明第1、2圖中資料集蒐集模組104的運作,此模組主要目的是當接收資料擷取規則組合後,根據規則設定實際去產生相對應的資料集。於流程701中,即接收資料擷取規則組合,以根據規則設定實際去產生相對應的資料集。於流程702中,會確認資源池是否存在對應資料擷取規則之資料集,若存在則流程703直接從共享 資源池取得資料集,不用重覆產生資料,若共享資源池不存在該資料集時,則進入流程704,資料集蒐集模組會產生資料擷取腳本,此腳本可以於命令列直接執行,透過標準格式存在,如xml、json、yml等,主要內容包含有(1)資料來源;(2)資料擷取規則;(3)資料集名稱;(4)資料集儲存位置;(5)優先權重等,而Meta資訊包含:建立者、建立時間、版本等。
當腳本建立完成後,進入流程705,排程器根據目前可用運算資源及資料擷取腳本優先權,依序排程器執行資料擷取腳本來產生資料集。接著,流程706中,將產生的資料集及腳本相關資訊儲存至共享資源池內,最後進入流程707,即完成資料集整備任務。
下面舉一實施案例,說明本發明如何於多人協同資訊分享來提昇雲端自助分析效率的機制與服務。基於本案所述建置客戶旅程(Customized Customer Journey)平台,而資料集以電信業資料輔以說明,此平台透過建置機器學習以供行銷部門、資料分析師等使用,目地在於利用此服務幫助客服、行銷部門增強客戶服務體驗,例如:偵測客戶有離網意圖或是曾高頻率接收競業簡單,以於客戶真正離網前提供促銷方案或是相關的挽回策略和提高銷售的機會,藉本案所提出之架構,資料分析專家可以統整不同資料源、及自訂不同事件屬性、並共享機器學習模型及分析資料。
下面一併參考第1、5和7圖進行說明。假定欲分析資料已整備結構性原始電信用戶的資料集,這些原始資料 來自不同業務及資料源(data channel)。資料集舉例如下:客戶行動電話撥打及收話記錄、市話撥打及收話記錄、客戶影視租用記錄、客戶申訴客服資料、客戶固網寬頻租用資料、4G LTE網路品質等。如下表六所示:
Figure 107124789-A0101-12-0018-6
各項資料集均帶有唯一用戶識別屬性(unique identifier)供辨識不用資料來源的客戶,以進行用戶歸戶。而每項資料集擁有不同屬性例如客戶申訴客服資料帶有“申訴原因”屬性、4G LTE網路品質帶有“基地台位置”屬性、客戶接收簡訊資料帶有“簡訊內容長度”。上述這類原始資料集整備並以結構化資料儲存於共享資源池101。
原始資料集整備完成即可進行資料分析任務,以下以資料分析專家代稱行銷人員或使用者,資料分析專家選擇欲進行資料分析,需要組合資料分析所需的屬性,這些屬 性在此以事件擷取規則代稱,這些事件擷取規則來自選定分析資料,而資料來自不同資料源,參考資料分析任務200。如第1圖所示,由資料擷取規則設定模組102選定資料集後,接著參考第5圖,如流程501透過使用者與資料擷取規則設定模組互動,選定欲組合事件擷取規則的資料欄位,例如選擇了客戶行動電話撥打及收話資料集及4G LTE網路品質資料集及客戶申訴客服資料集三份不同資料源,欲建立新資料擷取規則名稱為4G行動用戶離網意圖r1。透過流程502指定資料欄位,在客戶行動電話撥打及收話資料集選擇目標屬性“行銷專線”,系統於流程503利用同義字字典篩選名稱相近之屬性,例如是否接受競業行銷電話、促銷電話、行銷專線、是否主動撥打競業行銷號碼、行銷時間、疑似行銷簡訊等相似資料擷取規則。系統經流程504過濾不同資料型態之資料擷取規則及流程505剔除值域互斥且獨立於目標屬性,如下表七所示:
Figure 107124789-A0101-12-0019-8
候選詞集合為{“促銷電話”,“行銷專線”,“疑似行銷簡訊號碼”},並經由流程506根據屬性值域交集機率排序推薦,候選詞值域如下表八所示:
Figure 107124789-A0101-12-0020-9
經屬性值域交集計算推薦機率,計算方法如下式一所示,以促銷電話屬性舉例計算如式二所示。
Figure 107124789-A0101-12-0020-10
Figure 107124789-A0101-12-0020-29
最後,可得到各屬性交集機率排序推薦,如下面表九,推薦資料分析專家以下資料擷取規則,依序為:行銷專線、促銷電話、疑似行銷簡訊。經推薦機率幫助資料分析專家可快速進行增減或是從優選擇適合資料擷取規則。
Figure 107124789-A0101-12-0020-14
再參考第5圖,資料分析專家在使用者挑選資料擷取規則(流程507)下選定合適的資料擷取規則,例如流程506推薦中選擇:促銷電話、疑似行銷簡訊,或是於流程502中直接指定既有之資料欄位並建立資料規則,即進入流程508,例如客戶行動電話撥打及收話資料集選擇例如通話時間、撥打對象族群為外網比例等欄位,在4G LTE網路品質資料集選擇連線品質分數、經常品質不良重新連線次數等屬性,而再客戶申訴客服資料集選擇申訴事件、客訴次數等屬性。上述均為不同資料源或是資料擷取規則,並由唯一用戶識別屬性串接相同用戶。資料分析專家於流程507或508挑選資料擷取規則後並設定各項屬性門檻值(篩選值域),例如撥打對象族群為外網比例大於50%、連線品質低於50分或客訴次數每個月大於3次等,如下表十所示。設定完成資料擷取規則及篩選值後,該項新規則名稱4G行動用戶離網意圖r1及資料擷取規則將進行提交,即流程509,並傳送至資料擷取規則分析模組103。
Figure 107124789-A0101-12-0022-15
回到第1圖,資料擷取規則分析模組103將欲新增資料規則以空間向量空間(vector space model)表示,每項維度代表屬性及篩選值域,接著參考第6圖的流程602,並與存在規則計算是否衝突,如下面表十一所示。
Figure 107124789-A0101-12-0023-16
屬性型態可分為二大類,第一類為數值、日期、時間、布林及位元,以向量相似度概念,計算欲新增規則與現有規則之距離,參考流程603,步驟如下:(1)計算兩數值相差後取平方值;(2)若兩規則運算元不一致,將平方值加1。屬性型態第二類為字元、字串、列舉及文字,參考流程604,計算相似度步驟如下:(1)判斷兩文字是否相同,相同取0,相反取1;(2)若兩規則運算元不一致,將上個步驟值加1,反之多記錄是否符合涵蓋條件。兩類屬性型態計算完成後,得到相似距離矩陣並計算規則相似度:
Figure 107124789-A0101-12-0023-17
在流程605,根據上述流程603與流程604數值總和排序顯示,在流程606,判斷是否存在規則具高度相似及 衝突,當距離為0時表示已存在完全相同設定條件的資料存取規則。若不具衝突,則進入流程609,成功建立新資料規則及存入規則r1至共享資源池101,存入資訊包括屬性值及建立規則的資料分析專家的資訊。反之,若具規則衝突,則進入流程607和流程608,系統發出規則衝突警告及觸發修改衝突資料擷取規則,讓資料分析專家重新修改。
參考第7圖,在流程701中,當完成規則建置後,系統接收資料擷取規則組合,在流程702中,系統開始確認共享資源池101是否存在對應資料擷取規則之資料集,若共享資源池101已存在資料集,則進入流程703,系統根據該事件規則的各項屬性篩選值域進行資料擷取,資料擷取完成後存放至共享資源池101,進入流程707,即完成資料集整備任務,反之,若共享資源池101不存在資料集,進入流程704,資料分析專家可產生資料擷取腳本,接著流程705,根據資料分析專家可擁有的系統資源設定不同資料源擷取排程,接著流程706,系統依各項屬性篩選值域進行資料擷取並存入資源池,最後進入流程707,完成資料集整備任務。
請一併參考第2圖,資料分析專家建立完資料規則後,可經圖形化介面進行資料分析,即由視覺化呈現模組107選定原始資料集或是上述由資料規則產生已符合規則之資料集進行資料分析,及選定合適演算法,參考分析演算法選取模組108,可整合常用的學習模型,例如支援向量機、 決策樹、隨機森林分類、K-means分群、類神經、迴歸分析、PCA分析、頻繁樣式探勘等模型。選定模型及資料集後,資料集蒐集模組104開始由共享資源池101擷取選定的原始資料集或是已符合規則之資料集,資料擷取程序成功後,資料分析專家透過分析任務排程器105設定訓練模型迭代次數、調整模型分析參數,藉此開始訓練任務排程並將模型提交至運算資源池106,並根據資料分析專家所能使用之運算資源開始訓練模型並產生結果。運算資源池106將訓練資料集、資料分析專家使用者資料、選定模型、訓練模型參數及分析結果等資訊存入共享資源池101中。
本案所述平台具備專案管理功能。請參考第1圖,於視覺化呈現模組107中,相同專案使用者也可透過此模組擷取其他使用者建立的資料規則、原始資料集、已整備符合規則之資料集。舉例來說,使用者a透過資料規則r1、r2、r3,產生已符合規則之資料集m1、m2、m3,使用者b可於視覺化呈現模組107中選擇合適協助分析之資料,像是選擇r2對應產生的m2及其他原始資料,系統將於共享資源池101擷取m2及相關資料至運算資源池106提交演算法並分配運算資源供使用者b使用系統資源訓練模型,或者是,使用者b參考使用者a建立的事件規則,發現r1和r2相似於欲建立的事件規則,此時使用者b可擷取r1和r2複本並自行修改規則內屬性,完成後由資料擷取規則分析模組103進行判別,建立屬於使用者b的r1’和r2’,並抽取符合事件規則的資料集m1’和m2’,舉例來說,上 述使用者a建立離網意圖規則r1,包含接受競業行銷電話、通話時間、撥打對象族群為外網比例、連線品質分數、申訴事件、客訴次數等屬性及相對應之值域,而使用者b欲建立一個事件規則“客戶忠誠度”,使用者b便可參考r1,修改組合出合適的屬性,像是由客戶資費資訊挑選每月資費方案屬性,並設定值域大於1300元加入r1中,刪除通話時間屬性,修改並降低撥打對象族群為外網比例的值域為20%,如下表十二所示,使用者b完成增修後並提交至資料擷取規則分析模組103進行判別,若確認無其他事件規則衝突後便能建立新規則r2及抽取符合事件規則的資料集m2,而屬於相同專案的使用者a也能共享使用者b建立完成的r2及m2。
Figure 107124789-A0101-12-0026-30
另外,使用者a建立模型後,使用者b也能在視覺化呈現模組107選擇使用者a建立的模型及選用的模型參數進行使用,亦即使用者可透過資料擷取規則分析模組103協同作加業加速模型優化。專案管理功能也具分析資料共享功能,供不同使用者間接使用資料,例如使用者a建立預測行動上網離網至競業模型,並產生預測相對應之預測高機率離網至競業客戶資料集,該資料集已存於共享資源池101中,當下次使用者b欲建立未來固網寬頻離網至遠傳大寬頻模型時,於視覺化呈現模組107中選擇該預測高機率離網至競業客戶資料集,可減少直接分析所有客戶群耗費的時間,抑或是比較客戶群及高機率離網至競業客戶對於未來固網寬頻離網至遠傳大寬頻模型預測結果差異性,有助減少分析人員整備資料時間及模型重工問題。
本案分析結果可以視覺化呈現,視覺化呈現模組107可以常見的統計圖表呈現,包括長條圖、散佈圖、圓餅圖、氣泡圖及熱力圖等,協助使用者分析大量資料,例如(1)以原始資料進行分析,資料分析專家可以從原始資料統計用戶瀏覽某個特定網站的圓餅圖、用戶撥打/接收特定電話的長條圖;(2)或是由已符合規則之資料集進行資料統計,上述實施例中的離網意圖規則,以折線圖觀察用戶未來離網意圖的變化程度,資料分析專家便可針對此項資訊,裁定適合之促銷優惠方案,以提高客戶挽回率;(3)抑或是模型產生的結果,例如由行動定位、客戶資料、發話基地台等事件規則,訓練人潮移動預測模型,以地圖熱力圖的方 式呈現客戶頻繁移動地點及客戶數,以有效提供擴店選址的參考依據,增加客觸的行銷機會。
由上可知,本發明揭露一種基於多人協同資訊分享來提昇雲端自助分析效率的機制與服務,所述服務主要包含資料擷取規則設定、資料擷取規則分析及資料集蒐集,並以此來支撐雲端自助分析作業核心流程,包括(1)使用者提交欲分析檔案至雲端自助分析平台,或選擇遠端既有的檔案;(2)產生訓練資料集;(3)選定機器學習演算法並設定演算法相關參數;(4)提交模型訓練任務;(5)模型訓練任務於雲端環境運行;(6)訓練模型存放至雲端平台或下載至本地端。相較於現有自助分析在模型訓練時,常因為相同資料源,僅每個專家領域觀點不同,而重覆上傳資料,缺乏有效資訊分享機制,導致自助分析效率較差。另外,不同分析應用,如果可以彼此取長補短,將會是一項利多,本發明提出於雲端自主分析系統內導入共享資源池概念,結合資料擷取規則設定模組及資料擷取規則分析模組,除過濾已存在之規則外,並建議相關之規則,最後由資料集蒐集模組負責整備所需資料,藉此提升自助分析效能,倘若雲端自助分析平台已存在相對應規則之資料集,則不用重覆整備,以節省運算資源。
上述實施形態僅例示性說明本發明之原理及其功效,而非用於限制本發明。任何熟習此項技藝之人士均可在不違背本發明之精神及範疇下,對上述實施形態進行修飾與改變。因此,本發明之權利保護範圍,應如後述之申請專 利範圍所列。
100‧‧‧雲端自助分析平台
101‧‧‧共享資源池
102‧‧‧資料擷取規則設定模組
103‧‧‧資料擷取規則分析模組
104‧‧‧資料集蒐集模組
105‧‧‧分析任務排程器
106‧‧‧運算資源池
200‧‧‧資料分析任務

Claims (10)

  1. 一種雲端自助分析平台,包括:共享資源池,係儲存多筆既有資料擷取規則;資料擷取規則設定模組,係連接該共享資源池且用於接收外部所輸入之資料分析任務,以透過該資料分析任務至該共享資源池進行搜尋以取得適用於該資料分析任務之該既有資料擷取規則;資料擷取規則分析模組,係連接該資料擷取規則設定模組且用於分析該資料分析任務與該資料擷取規則設定模組所取得之該既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則;資料集蒐集模組,係連接該資料擷取規則分析模組及該共享資源池,該資料集蒐集模組用於依據該最終資料擷取規則產生擷取腳本,以進行所需資料之蒐集;以及分析任務排程器,係連接該資料集蒐集模組且用於根據分析任務優先順序將分析演算法及所蒐集之該所需資料分配至運算資源池進行運算,以產生最終分析結果。
  2. 如申請專利範圍第1項所述之雲端自助分析平台,更包括連接至該資料擷取規則分析模組及該共享資源池之視覺化呈現模組,係用於透過圖形或表格呈現資料統計分佈。
  3. 如申請專利範圍第2項所述之雲端自助分析平台,更包 括連接至該視覺化呈現模組之分析演算法選取模組,係用於供使用者選擇該分析演算法以及設定相關參數。
  4. 如申請專利範圍第1項所述之雲端自助分析平台,其中,該資料集蒐集模組係於該所需資料存在於該共享資源池時,自該共享資源池取得資源集以作為該所需資料。
  5. 如申請專利範圍第1項所述之雲端自助分析平台,其中,於該資料擷取規則分析模組分析該資料分析任務與該既有資料擷取規則存在衝突時產生警告訊息,且選擇延用該既有資料擷取規則或建立新的資料擷取規則的其中一者作為該最終資料擷取規則。
  6. 如申請專利範圍第1項所述之雲端自助分析平台,其中,該資料擷取規則設定模組更於未取得適用於該資料分析任務之該既有資料擷取規則時,由使用者自行建立新的資料擷取規則以作為該最終資料擷取規則。
  7. 一種雲端自助分析方法,係包括下列步驟:依據所接收之資料分析任務至儲存多筆既有資料擷取規則之共享資源池中搜尋出適用於該資料分析任務之該既有資料擷取規則;分析該資料分析任務與所取得適用於該資料分析任務之該既有資料擷取規則是否存在衝突,以據此產生最終資料擷取規則;依據該最終資料擷取規則產生擷取腳本,以進行所需資料之蒐集;以及根據分析任務優先順序將分析演算法及所蒐集之 該所需資料分配至運算資源池進行運算,以產生最終分析結果。
  8. 如申請專利範圍第7項所述之雲端自助分析方法,其中,進行所需資料之蒐集更包括於該所需資料存在於該共享資源池時,自該共享資源池取得資源集以作為該所需資料。
  9. 如申請專利範圍第7項所述之雲端自助分析方法,其中,於該資料分析任務與該既有資料擷取規則存在衝突時產生警告訊息,且選擇延用該既有資料擷取規則或建立新的資料擷取規則的其中一者作為該最終資料擷取規則。
  10. 如申請專利範圍第7項所述之雲端自助分析方法,其中,於未取得適用於該資料分析任務之該既有資料擷取規則時,由使用者自行建立新的資料擷取規則以作為該最終資料擷取規則。
TW107124789A 2018-07-18 2018-07-18 雲端自助分析平台與其分析方法 TWI684147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW107124789A TWI684147B (zh) 2018-07-18 2018-07-18 雲端自助分析平台與其分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW107124789A TWI684147B (zh) 2018-07-18 2018-07-18 雲端自助分析平台與其分析方法

Publications (2)

Publication Number Publication Date
TWI684147B TWI684147B (zh) 2020-02-01
TW202006617A true TW202006617A (zh) 2020-02-01

Family

ID=70412861

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107124789A TWI684147B (zh) 2018-07-18 2018-07-18 雲端自助分析平台與其分析方法

Country Status (1)

Country Link
TW (1) TWI684147B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787221A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像采集方法、装置、系统、设备和计算机存储介质
TWI794031B (zh) * 2022-03-01 2023-02-21 中華電信股份有限公司 公有雲計費系統及其方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9177124B2 (en) * 2006-03-01 2015-11-03 Oracle International Corporation Flexible authentication framework
US20080201634A1 (en) * 2007-02-20 2008-08-21 Gibb Erik W System and method for customizing a user interface
US20130312046A1 (en) * 2012-05-15 2013-11-21 Mark Robertson Smart stream delivery server, system and methods for assembling a mix of services to be delivered to a subscriber's premises

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111787221A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 图像采集方法、装置、系统、设备和计算机存储介质
TWI794031B (zh) * 2022-03-01 2023-02-21 中華電信股份有限公司 公有雲計費系統及其方法

Also Published As

Publication number Publication date
TWI684147B (zh) 2020-02-01

Similar Documents

Publication Publication Date Title
US9348934B2 (en) Systems and methods for facilitating open source intelligence gathering
CN103593350B (zh) 一种推荐推广关键词价格参数的方法和装置
CN110292775B (zh) 获取差异数据的方法及装置
US20150134401A1 (en) In-memory end-to-end process of predictive analytics
CN104077407B (zh) 一种智能数据搜索系统及方法
CN105281925B (zh) 网络业务用户群组划分的方法和装置
CN102096717A (zh) 搜索方法及搜索引擎
CN103646092A (zh) 基于用户参与的搜索引擎排序方法
CN111723292B (zh) 基于图神经网络的推荐方法、系统、电子设备及存储介质
CN110019616A (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
WO2016045567A1 (zh) 网页数据分析方法及装置
CN111708774B (zh) 一种基于大数据的产业分析系统
CN104794242A (zh) 一种搜索方法
CN102279963B (zh) 两级预算合理性检查提醒及自动优化的方法、设备和系统
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN103177066A (zh) 分析和表示人际关系
CN111143689A (zh) 根据用户需求和用户画像构建推荐引擎的方法
TWI684147B (zh) 雲端自助分析平台與其分析方法
CN114860916A (zh) 知识检索方法及装置
JP6884435B2 (ja) 協力会社サプライチェーンリスク分析方法
US20180329926A1 (en) Image-based semantic accommodation search
CN112765374A (zh) 一种用于信息推送的教育资源筛选系统及其方法
KR101650888B1 (ko) 컨텐츠 수집, 추천 시스템 및 방법
US7716209B1 (en) Automated advertisement publisher identification and selection