TWI776379B - 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介 - Google Patents
一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介 Download PDFInfo
- Publication number
- TWI776379B TWI776379B TW110103262A TW110103262A TWI776379B TW I776379 B TWI776379 B TW I776379B TW 110103262 A TW110103262 A TW 110103262A TW 110103262 A TW110103262 A TW 110103262A TW I776379 B TWI776379 B TW I776379B
- Authority
- TW
- Taiwan
- Prior art keywords
- user
- residence
- estimation result
- clusters
- predetermined period
- Prior art date
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Testing Of Coins (AREA)
Abstract
本發明係提供一種用於特徵挖掘之裝置及方法,係藉由採用無線電接入網路記錄以分析用戶之位置資訊,再利用二階段之密度分群演算法運算以推算用戶之居住地及工作地,故能改善先前技術定位不夠精準、用戶短期出差或請假出遊造成之誤判、以及以固定時段區分居住地及工作地之不彈性且不合理作法等缺陷,進而提升用戶之居住地及工作地之推算的效能及精準度。本發明復提供一種電腦可讀儲存媒介,係用於執行本發明之用於特徵挖掘之方法。
Description
本發明係關於數據分析與預測技術,特別是關於一種用於用戶特徵挖掘之裝置、方法及電腦可讀儲存媒介。
現今銀行對於申請業務(例如,貸款業務)之客戶一般須通過一系列審核方式確認客戶之身分資訊,以避免客戶透過假地址進行業務申請。惟,現今銀行使用的審核方式仍存在許多缺失。
舉例來說,人工作業的業務審核一般藉由銀行業務員分別撥通客戶之工作地電話以確認工作地資料,並撥通客戶之居住地電話以確認居住地資料來完成,此種審核方式往往需要三至七工作日的流程,對急需資金的客戶及銀行本身而言皆是人力與時間成本的浪費。
另一方面,自動作業的業務審核一般係使用客戶個人手機所安裝特定應用程式所記錄的GPS(Global Positioning System)位置或所使用電信公司核心網路通信位置進行客戶之居住地及工作地的分析與預測。惟前者需客戶在個人手機上安裝特定應用程式並在應用程式開啟狀態下才得以記錄其位置資訊,故資料量少且不客觀;而後者僅能記錄客戶個人手機所連線電信公司之基地台位
置,故存在客戶實際位置與基地台距離成正比之誤差值(例如,三百至五百公尺的誤差值)。因而現行自動作業的業務審核之定位精準度較不準確。
另外,上述自動作業的業務審核方式往往以預設之固定時段來區分客戶所在位置與居住地及工作地之關係。例如,設定將客戶於早上八點至下午五點所在位置判斷為工作地,並設定將客戶於晚上六點至隔日早上六點所在位置判斷為居住地。此種判斷方式不僅缺乏彈性且無法反映所有客戶之實際生活情況。
因此,亟需一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介,以解決上述各類問題。
至少為解決上述問題,本發明提供一種用於特徵挖掘之方法,包括:取得一預定期間中用戶之位置資訊;根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算,以獲得該用戶於該預定期間之第一資料推算結果,其中,該第一資料推算結果係包括該用戶於該預定期間之居住地推算結果及工作地推算結果;累計該用戶於一固定時間段之該第一資料推算結果;以及將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算,以獲得該用戶於該固定時間段之第二資料推算結果,其中,該第二資料推算結果係包括該用戶之居住地與工作地。
在上述之方法中,該位置資訊係該用戶於該預定期間中每個週期隨機取樣之無線電接入網路記錄之集合。
在上述之方法中,該根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算之步驟係包括以下子步驟:將各該位置資訊依據地圖
上第一檢視範圍半徑之圓內之第一檢視區域內最少點數進行分群,以獲得第一有效群聚數量上限值的群聚,並將各該位置資訊中未被分群者排除;將該第一有效群聚數量上限值的各該群聚中,於該地圖上所對應活動範圍於該預定期間中出現第一預設值以上且彼此重疊率超過第二預設值者之中心點推算為該居住地推算結果;以及將各該群聚中非屬於該居住地推算結果者於該地圖上所對應活動範圍之中心點推算為該工作地推算結果。
在上述之方法中,該將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算之步驟係包括以下子步驟:將該固定時間段累計之各該居住地推算結果依據地圖上之第二檢視範圍半徑之圓內之第二檢視區域內最少點數進行分群,以獲得第二有效群聚數量上限值的群聚,並將各該居住地推算結果中未被分群者排除;以及將該第二有效群聚數量上限值的各該群聚中,所包含各該居住地推算結果最高者於該地圖上所對應活動範圍之中心點推算為該用戶之該居住地。
在上述之方法中,該將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算之步驟復包括以下子步驟:將該固定時間段累計之各該工作地推算結果依據該地圖上之第三檢視範圍半徑之圓內之第三檢視區域內最少點數進行分群,以獲得第三有效群聚數量上限值的群聚,並將各該工作地推算結果中未被分群者排除;以及將該第三有效群聚數量上限值的各該群聚中,所包含各該工作地推算結果最高之至少二者於該地圖上所對應活動範圍之中心點推算為該用戶之該工作地。
在上述之方法中,復包括:比較各該用戶之該第二資料推算結果之該居住地與該工作地分別與各該用戶之實際居住地與實際工作地之差異;以及統計各該居住地中與所對應各該實際居住地相差於誤差值內者之比例,並統計各該工作地中與所對應各該實際工作地分別相差於該誤差值內者之比例。
本發明復提供一種用於特徵挖掘之電腦可讀儲存媒介,應用於計算裝置或電腦中,係儲存有指令,以執行上述之方法。
本發明另提供一種用於特徵挖掘之裝置,包括:接收模組,係用於取得一預定期間中用戶之位置資訊;運算模組,係用於根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算,以獲得該用戶於該預定期間之第一資料推算結果,該第一資料推算結果係包括該用戶於該預定期間之居住地推算結果及工作地推算結果,並累計該用戶於一固定時間段之該第一資料推算結果,以將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算,俾獲得該用戶於該固定時間段之第二資料推算結果,該第二資料推算結果係包括該用戶之居住地與工作地。
綜上所述,本發明之用於特徵挖掘之裝置、方法及電腦可讀儲存媒介係藉由採用定位精準度較佳之無線電接入網路記錄以分析用戶之位置資訊,再利用二階段之密度分群演算法運算以推算用戶之居住地及工作地,故能改善先前技術定位不夠精準、用戶短期出差或請假出遊造成之誤判、以及以固定時段區分居住地及工作地之不彈性且不合理作法等缺陷,進而提升用戶之居住地及工作地之推算的效能及精準度。
S11~S14:步驟
S100~S600:步驟
S301~S307:步驟
S501~S509:步驟
701:實際工作地
702:中心點
703:群聚
704:中心點
800:用於特徵挖掘之裝置
801:接收模組
802:運算模組
A、B、C、N:點
r:半徑
本案揭露之具體實施例將搭配下列圖式詳述,這些說明顯示在下列圖式:
圖1係本發明之用於特徵挖掘之方法之一實施例示意圖;
圖2係本發明之用於特徵挖掘之方法之另一實施例示意圖;
圖3係本發明之用於特徵挖掘之方法之步驟流程圖;
圖4係本發明之用於特徵挖掘之方法之局部實施態樣;
圖5係本發明之用於特徵挖掘之方法之局部步驟流程圖;
圖6係本發明之用於特徵挖掘之方法之局部步驟流程圖;
圖7A至7D係本發明之用於特徵挖掘之方法之實施態樣;以及
圖8係本發明之用於特徵挖掘之裝置之一實施例示意圖。
以下藉由特定的實施例說明本發明之實施方式,熟習此項技藝之人士可由本文所揭示之內容輕易地瞭解本案之其他優點及功效。本說明書所附圖式所繪示之結構、比例、大小等均僅用於配合說明書所揭示之內容,以供熟悉此技藝之人士之瞭解與閱讀,非用於限定本發明可實施之限定條件,故任何修飾、改變或調整,在不影響本案所能產生之功效及所能達成之目的下,均應仍落在本發明所揭示之技術內容得能涵蓋之範圍內。
由圖1可觀察本發明之用於特徵挖掘之方法的實施例示意圖。有別於傳統銀行以人工作業進行之業務審核方式,銀行業者及客戶可藉由本發明於線上即時進行業務(本文係以銀行申貸為例,惟本文並不以此為限)之申辦及審核。舉例來說,客戶可透過網路向銀行申辦貸款(步驟S11)。此時,銀行將藉由本發明根據客戶所提交之身分資訊即時於線上核對其居住地及工作地資訊(步驟S12及S13),並在審核通過之情況下才撥款予客戶(步驟S14)。如此一來,銀行可即時驗證客戶所提交身分資訊的正確性,進而加快資料審核時間並避免客戶以假資料申請銀行貸款業務。
進一步地,相對於以往藉由客戶之個人手機所記錄GPS位置或使用電信公司核心網路之通信位置進行居住地及工作地之分析與審核,本發明復包括利用電信業者之電信資料庫中儲存之無線電接入網路(RAN,Radio Access Network)記錄以分析客戶之個人手機的通信位置記錄。所述RAN記錄係更接近客戶使用個人手機時之實際位置的定位資料,故能更精準地對客戶之居住地及工作地進行分析及審核。然而,本發明並不侷限於RAN記錄之應用,舉例來說,可整合客戶之個人手機所記錄GPS位置及/或使用電信公司核心網路之通信位置以及電信資料庫中之RAN記錄以推算客戶之居住地及工作地資訊,或利用具有相同或更佳定位精準度之資料推算客戶之居住地及工作地資訊。
又,本發明除使用RAN記錄加強客戶之居住地及工作地資訊之推算外,亦基於密度分群演算法(DBSCAN)針對客戶之位置資訊(即,RAN記錄或類似者)進行居住地及工作地資訊之推算。所述密度分群演算法(DBSCAN)係以客戶之位置資訊在一空間分布的密集程度決定位置資訊是否屬於同一群聚。
圖2之示意圖係揭示密度分群演算法(DBSCAN)之原理。舉例來說,以某客戶之RAN記錄在一空間的分布情況來看,係先任選一資料點為圓心(如圖2所示點A)畫一固定半徑(例如,圖2所示半徑r)之圓,並將此圓內的點視為同一群聚。接著將此圓內的各資料點逐一當作圓心進行畫圓以納入此群聚中,以界定此群聚的範圍。此時,可看出點A、B及C及其間的點皆可被彼此的圓納入,故被視為同一群聚;而點N無法被納入此群聚中任一點之畫圓範圍內組成群聚的條件,故被當作雜訊點而被捨棄。由此可知,密度分群演算法(DBSCAN)在處理資料分群時不需預先指定分群的資料數量,且因非所有資料皆會被強制參加分群,故可去除雜訊,因而利用密度分群演算法(DBSCAN)於本發明中係有助於去除雜訊(例
如,排除客戶短期出差或請假出遊所產生之位置資訊)並更加準確地推算客戶之居住地與工作地。
圖3係揭示本發明之用於特徵挖掘之方法的步驟流程圖,所述步驟流程之各步驟可結合圖4至6及以下描述清楚了解。
在步驟S100處,首先係讀取電信資料庫中客戶的RAN記錄以獲得其位置資訊,在此步驟中,由於一預定期間(如每日)儲存於電信資料庫中RAN記錄的資料量十分龐大(例如,經統計984萬電信用戶每日平均產生110億筆RAN記錄,故平均每位電信用戶於每日產生之RAN記錄多達1118萬筆),故步驟S100最佳為針對客戶每日的RAN記錄進行每個週期(如每小時)的隨機取樣(例如,每小時一千筆為限,隨機取用客戶每日最多二萬四千筆RAN記錄)以作為客戶之位置資訊,以便於後續步驟可正常運作。
在步驟S200處,係針對客戶一預定期間(如每日)之位置資訊進行前處理以將原始資料(即,RAN記錄之原始格式)進行資料型態轉換(例如,將RAN記錄中之經緯度欄位以浮點數呈現並保留至小數後第6位)以及排除異常值(例如,排除來自外網或經緯度不在特定範圍(如台灣、台北、高雄等)內之電信用戶的RAN記錄)。圖4係示意客戶「用戶1」之位置資訊於步驟S200處進行前處理後的資料格式,其主要包括有客戶「用戶1」之RAN記錄中的座標位置(緯度、經度)及時間(起始時間)二屬性。須知者為,圖4所示的資料格式僅做示意用,並非用於侷限本發明之內容。
在步驟S300處,係針對客戶經前處理後的位置資訊進行第一階段日資料停留點推算,以推算客戶每日的居住地及工作地。對於步驟S300,主要考量一般人於正常工作日期間係自居住地前往工作地上班,並在下班後回到居住
地休息,因此步驟S300的推算原則係將客戶於單日中的位置資訊經密度分群演算法(DBSCAN)運算後所得之活動區域中出現次數第一預設值(如二次)或以上且面積重疊率大於第二預設值(如八成)者推算為此客戶於當日可能的居住地(日居住地),並將其餘活動區域推算為此客戶當日可能的工作地(日工作地)。
可參考圖5理解步驟S300之詳細步驟流程。
首先,可於步驟S301進行參數設定,包括設定將客戶一預定期間(如單日)之位置資訊進行密度分群演算法(DBSCAN)運算時的檢視範圍半徑(Eps)、檢視區域內最少點數(MinPts)及分群結果的有效群聚數量上限值。在本實施例中,步驟S301所設定參數最佳是Eps為0.0003、MinPts為2、且分群結果的有效群聚數量上限值為10,其中,Eps為0.0003係對應實際距離約50公尺,亦及,密度分群演算法(DBSCAN)之運算係將地圖上半徑50公尺的圓圈內出現至少2個以上之位置資訊分為同一群,並持續以此圓圈內的各位置資訊向外畫圓直到圓圈內納入之位置資訊不足2個為止並作為一群聚,而有效的群聚數量係設定將群聚內位置資訊數量由多至少排序的前十名群聚為分析對象。
接著,可於步驟S302處依據所設定之參數進行客戶一預定期間(如單日)之位置資訊的密度分群演算法(DBSCAN)運算(如圖2所示),再依據所設定分群結果的有效群聚數量上限值篩選出有效的群聚。
接著,上述步驟S302之運算期間未被成功分群的位置資訊將被視為雜訊點,並於步驟S303處被剔除。
接著,步驟S304係將所篩選有效之群聚中位置資訊所對應地圖上之活動區域的面積進行比對以計算面積重疊率。
接著,可於步驟S305處依據各活動區域的面積重疊率區分此客戶之居住地及工作地。舉例來說,當日出現次數第一預設值(如二次)或以上且彼此面積重疊率大於第二預設值(如80%)的活動區域可被區分為此客戶當日可能的居住地範圍;而其餘活動區域則區分為此客戶當日可能的工作地範圍。
接著,步驟S306及步驟S307可分別依據所區分活動區域推算此客戶可能的日居住地與日工作地。例如,步驟S306處係自區分為居住地範圍的活動區域中找出各自之中心點並推算為可能的日居住地;而步驟S307處係自區分為工作地範圍的活動區域中找出各自之中心點並推算為可能的日工作地。須知,此二步驟係可依作業需求以特定順序或平行地進行,在本文中並不特別限定。
經上述說明後,可知圖3之步驟S300僅推算客戶於單日可能的工作地及居住地,就代表性上並不客觀,故進一步執行圖3之步驟S400,以累計此客戶近三十天之日工作地、日居住地推算結果並作為步驟S500第二階段月資料停留點推算之基礎。此時,所述累計的時間範圍可依實際作業需求進行調整,例如,將三十天調整為六十天,在本文中並不特別限定。
繼續於步驟S500處,係進行第二階段月資料停留點推算以進一步預測此客戶的居住地及工作地。在步驟S500中,主要將步驟S300處所推算客戶於近三十天內之日居住地及日工作地推算結果再進行一次密度分群演算法(DBSCAN)運算,類似地,無法被分群的日居住地及日工作地推算結果將被視為雜訊點並予以剔除,而其餘日居住地及日工作地推算結果經再次分群所得之群聚即可推算為此客戶之月居住地及月工作地,即此客戶(經較長時間之位置資訊之推算)最有可能之居住地及工作地。因此,此三十天內由於客戶出差或請假出
遊所造成誤判之日居住地及日工作地推算結果將被排除,並更明確此客戶居住地及工作地之預測。
可參考圖6理解步驟S500之詳細步驟流程。
首先,步驟S501係將近三十天累計之日工作地、日居住地推算結果區分開以個別進行分析。其中,近三十天之日居住地推算結果將以步驟S502至S505進行處理,而近三十天之日工作地推算結果將以步驟S506至S509進行處理。進一步地,上述步驟S502至S505及步驟S506至S509可依作業需求以特定順序或平行地進行,在本文中並不特別限定。
有關於近三十天所累計之日居住地推算結果的處理流程,首先係於步驟S502處進行居住地參數設定,類似於步驟S302的做法,步驟S502係用於設定近三十天之日居住地推算結果之密度分群演算法(DBSCAN)運算所需的檢視範圍半徑(Eps)、檢視區域內最少點數(MinPts)及分群結果的有效群聚數量上限值。在本實施例中,步驟S502所設定參數最佳是Eps為0.0003(即,50公尺)、MinPts為2、且分群結果的有效群聚數量上限值為1。惟,此處所設定之參數數值依據作業需求可與上述步驟S302之設定相同或不相同,在本文中並不特別限定。
接著,步驟S503係基於所設定之參數進行近三十天之日居住地推算結果的密度分群演算法(DBSCAN)運算,再依據所設定分群結果的有效群聚數量上限值篩選出有效的群聚。
接著,上述步驟S503之運算期間未被成功分群的日居住地推算結果將被視為雜訊點,並於步驟S504處被剔除。
接著,步驟S505係分析有效的群聚中具有資料量(即,日居住地推算結果相近者)最多的群聚,以取得此群聚所對應地圖上之活動範圍的中心點作
為客戶的月居住地,即本發明之方法所預測此客戶最有可能的居住地。須知,此處所設定取用群聚數量係考量一般人的日常中擁有居住地的實際情況,惟此處為進行分析所取用群聚數量亦可視操作需求而調整為任一大於零之數值,在本文中並不特別限定。
另一方面,有關於近三十天所累計之日工作地推算結果的處理流程,相似地,首先於步驟S506設定近三十天之日工作地推算結果之密度分群演算法(DBSCAN)運算所需的檢視範圍半徑(Eps)、檢視區域內最少點數(MinPts)及分群結果的有效群聚數量上限值。在本實施例中,步驟S506所設定參數最佳是Eps為0.0003(即,50公尺)、MinPts為2、且分群結果的有效群聚數量上限值為2。惟,此處所設定之參數數值依據作業需求可與上述步驟S302及/或步驟S502之設定相同或不相同,在本文中並不特別限定。
接著,步驟S507係基於所設定之參數進行近三十日之日工作地推算結果的密度分群演算法(DBSCAN)運算,再依據所設定分群結果的有效群聚數量上限值篩選出有效的群聚。
接著,上述步驟S507之運算期間未被成功分群的日工作地推算結果將被視為雜訊點,並於步驟S508處被剔除。
接著,步驟S509係分析有效的群聚中具有資料量(即,日工作地推算結果相近者)最多的至少前二群聚,以取得此至少前二群聚對應之活動範圍的中心點作為客戶的月工作地,即本發明之方法所預測此客戶最有可能的工作地。須知,此處所設定取用之至少前二群聚係考量一般人的日常中可能存在多個工作地的實際情況,惟此處為分析所取用群聚數量亦可視操作需求而調整為任一大於零之數值(例如,至少前一群聚,或前二群聚),在本文中並不特別限定。
回到圖3,經由步驟S500所預測客戶之月工作地及月居住地推算結果將於步驟S600處進行評估。此時,考量客戶居住地或工作地的地點座標和實際地址所在之座標可能會有誤差(例如,實際辦公地點到公司門口的距離或實際住家地點到社區門口的距離等),因此可設置一誤差值(例如,150公尺)以對預測結果進行驗證。
舉例來說,針對月居住地之推算結果的驗證,可使用登錄於電信資料庫中用戶之真實帳址座標及所述用戶對應之RAN記錄執行前述之步驟S100至S500,並將步驟S500處獲得之各用戶的月居住地推算結果與所述真實帳址座標比對,在排除各用戶的舊帳址及未居住之帳址的情形下,計算所推算月居住地與真實帳址座標差距小於預定誤差值(例如,150公尺)之用戶數量占總用戶數量的比例,進而確認本發明之方法對用戶之居住地之推算的準確率。
另一方面,針對月工作地之推算結果的驗證,可使用電信業者自身之員工的上班地點進行驗證,在將所述員工之RAN記錄執行前述之步驟S100至S500後,將步驟S500處獲得之各員工的月工作地推算結果與所述上班地點比對並計算所推算月工作地與真實工作地點差距小於預定誤差值(例如,150公尺)之員工數量佔總員工數量的比例,進而確認本發明之方法對用戶之工作地推算的準確率。
經上述步驟S600之實際驗證下,已知本發明之方法用於推算客戶居住地之準確率達80%,遠優於先前技術中僅使用GPS位置或所使用電信公司核心網路通信位置進行推算的準確率39%;而本發明之方法用於推算客戶工作地之準確率達91%,遠優於先前技術中僅使用GPS位置或所使用電信公司核心網路通信位置進行推算的準確率81%。
進一步地,即便步驟S600處發現月工作地及月居住地推算結果的準確率不如預期,亦可調整圖3中各步驟所使用之參數數值(例如,步驟S100處對RAN記錄進行隨機取樣之數量、步驟S300及/或步驟S500處進行密度分群演算法(DBSCAN)運算時使用的檢視範圍半徑(Eps)、檢視區域內最少點數(MinPts)及分群結果的有效群聚數量上限值、或步驟S400處日工作地、日居住地推算結果之累計時間範圍等)並再次執行各步驟S100至S500,並在步驟S600處確認預測準確率達到標準後,再交由需要之廠商(例如,銀行業者)使用。
圖7A至7D係將本發明之方法用於預測一客戶(本實施例中係以「用戶1」稱之)之工作地的實施態樣。
圖7A係示意用戶1於一預定期間(如單日)之RAN記錄呈現於地圖上的座標點,其中圖7A亦標示有用戶1之實際工作地701,以便於後續階段觀察本發明之方法進行實際預測的準確率。另外,藉由圖7A中其他座標點可觀察用戶1之生活軌跡,例如,用戶1移動期間之RAN記錄將會貼合於地圖中的道路上,而用戶1於靜止期間之RAN記錄將以圓弧狀分布。
圖7B係示意將用戶1於一預定期間(如單日)之RAN記錄執行第一階段日資料停留點推算(如上述步驟S300),此時經由密度分群演算法(DBSCAN)運算得到的有效群聚有四個,而此四個有效群聚之中心點702即本發明之方法所推算用戶1一預定期間(如單日)中可能之日工作地。
圖7C及圖7D係示意將累計用戶1三十天之日工作地推算結果並進行第二階段月資料停留點推算的態樣。圖7C係揭示將日工作地推算結果經由密度分群演算法(DBSCAN)運算得到的有效群聚(如元件符號703所示,在本實施例中共有四個有效群聚)。圖7D係揭示將有效群聚703中包含最多日工作地推算結果
的至少二者(在其他實施例中,可為至少一者,或二者)挑出並分別計算其中心點704以作為用戶1之月工作地,而所述月工作地即本發明之方法所預測用戶1最有可能之工作地。
由上述圖7A至7D可看出本發明之方法所預測用戶1之工作地(中心點704)與其實際工作地701十分接近,其中,所推算最接近實際工作地的月工作地(圖7D左側之中心點704)相距實際工作地701僅42公尺,係於本實施例所設定誤差值150公尺內,可知本發明之方法關於用戶1之工作地之推算是準確的,並可提升其推算的效能。
本發明另提供一種電腦可讀儲存媒介,應用於具有處理器及/或記憶體的電腦或計算裝置中,係儲存有指令,電腦或計算裝置透過處理器(例如,CPU、GPU等)及/或記憶體透過指令執行如上所述之用於特徵挖掘之方法。
本發明又提供一種用於特徵挖掘之裝置800,以執行如上所述之用於特徵挖掘之方法,至少包括接收模組801與運算模組802,其中,各模組均可為軟體、硬體或韌體,且可整合為一體或各自獨立;若為硬體,則可為具有資料處理與運算能力之處理單元、處理器、電腦或伺服器;若為軟體或韌體,則可包括處理單元、處理器、電腦或伺服器可執行之指令。
在一實施例中,該接收模組801係用於取得一預定期間(如單日)中用戶之位置資訊;該運算模組802係用於根據該預定期間中該用戶之該位置資訊進行第一密度分群演算法之運算,以獲得該用戶於該預定期間之第一資料推算結果(如日資料推算結果),該第一資料推算結果係包括該用戶於該預定期間之居住地推算結果及工作地推算結果,並累計該用戶於一固定時間段之該第一資料推算結果,以將該用戶於該固定時間段之累計結果進行第二密度分群演算
法之運算,俾獲得該用戶於該固定時間段之第二資料推算結果(如月資料推算結果),該第二資料推算結果係包括該用戶之居住地與工作地。
綜上所述,本發明之用於特徵挖掘之裝置、方法及電腦可讀儲存媒介係藉由採用定位精準度較佳之無線電接入網路記錄以分析用戶之位置資訊,再利用二階段之密度分群演算法運算以推算用戶之居住地及工作地,故能改善先前技術定位不夠精準、用戶短期出差或請假出遊造成之誤判、以及以固定時段區分居住地及工作地之不彈性且不合理作法等缺陷,進而提升用戶之居住地及工作地之推算的效能及精準度。
S100~S600:步驟
Claims (10)
- 一種用於特徵挖掘之方法,包括:取得一預定期間中用戶之位置資訊;根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算,以獲得該用戶於該預定期間之第一資料推算結果,其中,該第一資料推算結果係包括該用戶於該預定期間之居住地推算結果及工作地推算結果;累計該用戶於一固定時間段之該第一資料推算結果;以及將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算,以獲得該用戶於該固定時間段之第二資料推算結果,其中,該第二資料推算結果係包括該用戶之居住地與工作地,其中,該將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算之步驟係包括以下子步驟:將該固定時間段累計之各該居住地推算結果依據地圖上之第二檢視範圍半徑之圓內之第二檢視區域內最少點數進行分群,以獲得第二有效群聚數量上限值的群聚,並將各該居住地推算結果中未被分群者排除;及將該第二有效群聚數量上限值的各該群聚中,所包含各該居住地推算結果最高者於該地圖上所對應活動範圍之中心點推算為該用戶之該居住地。
- 如請求項1所述之方法,其中,該位置資訊係該用戶於該預定期間中每個週期隨機取樣之無線電接入網路記錄之集合。
- 如請求項1所述之方法,其中,該根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算之步驟係包括以下子步驟: 將各該位置資訊依據地圖上第一檢視範圍半徑之圓內之第一檢視區域內最少點數進行分群,以獲得第一有效群聚數量上限值的群聚,並將各該位置資訊中未被分群者排除;將該第一有效群聚數量上限值的各該群聚中,於該地圖上所對應活動範圍於該預定期間中出現第一預設值以上且彼此重疊率超過第二預設值者之中心點推算為該居住地推算結果;以及將各該群聚中非屬於該日居住地推算結果者於該地圖上所對應活動範圍之中心點推算為該工作地推算結果。
- 如請求項1所述之方法,其中,該預定期間為單日,該第一資料推算結果為日資料推算結果,該第二資料推算結果為月資料推算結果。
- 如請求項1所述之方法,其中,該將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算之步驟復包括以下子步驟:將該固定時間段累計之各該工作地推算結果依據該地圖上之第三檢視範圍半徑之圓內之第三檢視區域內最少點數進行分群,以獲得第三有效群聚數量上限值的群聚,並將各該工作地推算結果中未被分群者排除;以及將該第三有效群聚數量上限值的各該群聚中,所包含各該工作地推算結果最高之至少二者於該地圖上所對應活動範圍之中心點推算為該用戶之該工作地。
- 一種用於特徵挖掘之方法,包括:取得一預定期間中用戶之位置資訊; 根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算,以獲得該用戶於該預定期間之第一資料推算結果,其中,該第一資料推算結果係包括該用戶於該預定期間之居住地推算結果及工作地推算結果;累計該用戶於一固定時間段之該第一資料推算結果;以及將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算,以獲得該用戶於該固定時間段之第二資料推算結果,其中,該第二資料推算結果係包括該用戶之居住地與工作地;比較各該用戶之該第二資料推算結果之該居住地與該工作地分別與各該用戶之實際居住地與實際工作地之差異;以及統計各該居住地中與所對應各該實際居住地相差於誤差值內者之比例,並統計各該工作地中與所對應各該實際工作地分別相差於該誤差值內者之比例。
- 如請求項6所述之方法,其中,該預定期間為單日,該第一資料推算結果為日資料推算結果,該第二資料推算結果為月資料推算結果。
- 如請求項2所述之方法,其中,該每個週期為每小時。
- 一種用於特徵挖掘之電腦可讀儲存媒介,應用於電腦中,係儲存有指令,以執行如請求項1至8中任一項所述之用於特徵挖掘之方法。
- 一種用於特徵挖掘之裝置,包括:接收模組,係用於取得一預定期間中用戶之位置資訊;以及運算模組,係用於根據該預定期間中該用戶之位置資訊進行第一密度分群演算法之運算,以獲得該用戶於該預定期間之第一資料推算結果,該第一資料推算結果係包括該用戶於該預定期間之居住地推算結果及工作地推算結果,並累計該用戶於一固定時間段之該第一資料推算結果,以將該用戶於該固定時間段 之累計結果進行第二密度分群演算法之運算,俾獲得該用戶於該固定時間段之第二資料推算結果,該第二資料推算結果係包括該用戶之居住地與工作地,其中,該運算模組將該用戶於該固定時間段之累計結果進行第二密度分群演算法之運算之步驟係包括以下子步驟:將該固定時間段累計之各該居住地推算結果依據地圖上之第二檢視範圍半徑之圓內之第二檢視區域內最少點數進行分群,以獲得第二有效群聚數量上限值的群聚,並將各該居住地推算結果中未被分群者排除;及將該第二有效群聚數量上限值的各該群聚中,所包含各該居住地推算結果最高者於該地圖上所對應活動範圍之中心點推算為該用戶之該居住地。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110103262A TWI776379B (zh) | 2021-01-28 | 2021-01-28 | 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW110103262A TWI776379B (zh) | 2021-01-28 | 2021-01-28 | 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202230252A TW202230252A (zh) | 2022-08-01 |
TWI776379B true TWI776379B (zh) | 2022-09-01 |
Family
ID=83782569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110103262A TWI776379B (zh) | 2021-01-28 | 2021-01-28 | 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI776379B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9320006B2 (en) * | 2013-06-28 | 2016-04-19 | T-Mobile Usa, Inc. | Categorized location identification based on historical locations of a user device |
CN109034187A (zh) * | 2018-06-12 | 2018-12-18 | 上海中通吉网络技术有限公司 | 一种用户家庭工作地址挖掘流程 |
CN109086323A (zh) * | 2018-06-28 | 2018-12-25 | 上海中通吉网络技术有限公司 | 用户家庭和工作地址的确定方法和系统 |
TWI665627B (zh) * | 2014-09-17 | 2019-07-11 | 香港商阿里巴巴集團服務有限公司 | 結合終端地理位置推送資訊的方法及伺服器 |
CN110324787A (zh) * | 2019-06-06 | 2019-10-11 | 东南大学 | 一种手机信令数据的职住地获取方法 |
CN111178932A (zh) * | 2019-11-26 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用户地理画像生成方法、装置、计算机设备和存储介质 |
-
2021
- 2021-01-28 TW TW110103262A patent/TWI776379B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9320006B2 (en) * | 2013-06-28 | 2016-04-19 | T-Mobile Usa, Inc. | Categorized location identification based on historical locations of a user device |
TWI665627B (zh) * | 2014-09-17 | 2019-07-11 | 香港商阿里巴巴集團服務有限公司 | 結合終端地理位置推送資訊的方法及伺服器 |
CN109034187A (zh) * | 2018-06-12 | 2018-12-18 | 上海中通吉网络技术有限公司 | 一种用户家庭工作地址挖掘流程 |
CN109086323A (zh) * | 2018-06-28 | 2018-12-25 | 上海中通吉网络技术有限公司 | 用户家庭和工作地址的确定方法和系统 |
CN110324787A (zh) * | 2019-06-06 | 2019-10-11 | 东南大学 | 一种手机信令数据的职住地获取方法 |
CN111178932A (zh) * | 2019-11-26 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用户地理画像生成方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
TW202230252A (zh) | 2022-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108446281B (zh) | 确定用户亲密度的方法、装置及存储介质 | |
US20180082368A1 (en) | System and method for detecting fraudulent account access and transfers | |
US8046306B2 (en) | System, method, and apparatus for property appraisals | |
US20200242615A1 (en) | First party fraud detection | |
US20130290200A1 (en) | Systems and methods of compliance tracking | |
CA2756619A1 (en) | Method and system for computerized tracking, analyzing and reporting of information specific to residential and commercial tenancy histories | |
CN108256993A (zh) | 一种信用分评估方法及信用分评估平台 | |
WO2009010950A1 (en) | System and method for predicting a measure of anomalousness and similarity of records in relation to a set of reference records | |
CN110728301A (zh) | 一种个人用户的信用评分方法、装置、终端及存储介质 | |
CN111611519A (zh) | 一种个人异常行为检测方法及装置 | |
CN110516713A (zh) | 一种目标群体识别方法、装置及设备 | |
CN110246002A (zh) | 理财推荐信息的推送方法、装置及计算机设备 | |
TWI776379B (zh) | 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介 | |
JP7071948B2 (ja) | 対象地域の不動産の稼働率を推定するプログラム、装置及び方法 | |
CN109711984B (zh) | 一种基于催收的贷前风险监控方法及装置 | |
US20100042446A1 (en) | Systems and methods for providing core property review | |
CN107608979A (zh) | 识别用户潜在求助的知识点的方法及装置 | |
CN113516302B (zh) | 业务风险分析方法、装置、设备及存储介质 | |
US20220374809A1 (en) | Computer-based tracking and determining impact of events on contact center operations | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
US20150019401A1 (en) | Integrated credit decision platform | |
US11016976B1 (en) | Database file management and data structures for creating and/or modifying a database management system to reduce storage requirements | |
CN111447082B (zh) | 关联账号的确定方法、装置和关联数据对象的确定方法 | |
CN111126736B (zh) | 企业客流量确定方法、装置、服务器及存储介质 | |
US20170221167A1 (en) | System and Network for Detecting Unauthorized Activity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent |