TW201734872A - 資料伴隨分析方法及裝置 - Google Patents
資料伴隨分析方法及裝置 Download PDFInfo
- Publication number
- TW201734872A TW201734872A TW106105359A TW106105359A TW201734872A TW 201734872 A TW201734872 A TW 201734872A TW 106105359 A TW106105359 A TW 106105359A TW 106105359 A TW106105359 A TW 106105359A TW 201734872 A TW201734872 A TW 201734872A
- Authority
- TW
- Taiwan
- Prior art keywords
- target number
- data
- time
- trajectory
- dimensional spatial
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01P—MEASURING LINEAR OR ANGULAR SPEED, ACCELERATION, DECELERATION, OR SHOCK; INDICATING PRESENCE, ABSENCE, OR DIRECTION, OF MOVEMENT
- G01P13/00—Indicating or recording presence, absence, or direction, of movement
- G01P13/02—Indicating direction only, e.g. by weather vane
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本發明提供了一種資料伴隨分析方法及裝置,透過將目標號碼原始資料中二維空間資料進行降維處理成目標號碼的一維空間資料,將目標號碼的一維空間資料和原始資料中的時間資料轉換成可比較的目標號碼的軌跡佇列,基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。本發明中,透過降維處理簡化原始資料,不再透過數學模型進行擬合處理,降低複雜度,提高伴隨分析的時效性。
Description
本發明屬資料處理分析計算領域,尤其關於一種資料伴隨分析方法及裝置。
在移動大數據中,有很多有用的定位資料。為從移動大數據中挖掘這些有用的定位資料,可以透過號碼伴隨分析獲取某時間段內目標號碼經歷的地點組成的一段軌跡,然後將該目標號碼的軌跡與其他號碼的軌跡進行比較,計算出這些號碼之間的伴隨相似度,該伴隨相似度可以為號碼間的親密度判斷提高十分有利的依據。
移動大數據的資料密度非常高,而在交互應用中對於號碼伴隨分析的時效性要求較高。目前先擬合軌跡再計算號碼之間的伴隨相似度,由於用於描述號碼的軌跡的原始資料的離散偏離幅度大,需要建構複雜的非線性數學模型進行擬合處理,複雜度較高且耗時較長。
本發明提供一種資料伴隨分析方法及裝置,用於解決
現有透過先擬合軌跡再計算伴隨相似度存在複雜度高耗時長的問題。
為了實現上述目的,本發明提供了一種資料伴隨分析方法,包括:對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間資料;將該目標號碼的一維空間資料和時間資料轉換成可比較的該目標號碼的軌跡佇列;基於該目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
為了實現上述目的,本發明提供了一種資料伴隨分析裝置,包括:降維模組,用於對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間資料;資料轉換模組,用於將該目標號碼的一維空間資料和時間資料轉換成可比較的該目標號碼的軌跡佇列;計算模組,用於基於該目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
本發明提供的資料伴隨分析方法及裝置,透過將目標號碼原始資料中二維空間資料進行降維處理成目標號碼的一維空間資料,將目標號碼的一維空間資料和原始資料中的時間資料轉換成可比較的目標號碼的軌跡佇列,基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。本發明中,透過降維處理簡化原始資料,不再透過數學模型
進行擬合處理,降低複雜度,提高伴隨分析的時效性。
101~103‧‧‧步驟
201~204‧‧‧步驟
300~307‧‧‧步驟
400~410‧‧‧步驟
11‧‧‧降維模組
12‧‧‧資料轉換模組
13‧‧‧計算模組
14‧‧‧接收模組
15‧‧‧可信區間獲取模組
16‧‧‧查找模組
121‧‧‧軌跡記錄單元
122‧‧‧軌跡佇列單元
1221‧‧‧獲取子單元
1222‧‧‧位數調整子單元
1223‧‧‧排序子單元
1224‧‧‧時間調整子單元
131‧‧‧地理分層單元
132‧‧‧預設單元
133‧‧‧比較單元
134‧‧‧判斷單元
135‧‧‧權重計算單元
136‧‧‧相似度計算單元
圖1為本發明實施例一的資料伴隨分析方法的流程示意圖;圖2為本發明實施例二的資料伴隨分析方法的流程示意圖;圖3為本發明實施例三的資料伴隨分析方法的流程示意圖;圖4為本發明實施例四的資料伴隨分析方法的流程示意圖;圖5為本發明實施例四的資料伴隨分析裝置的結構示意圖;圖6為本發明實施例五的資料伴隨分析裝置的結構示意圖。
下面結合圖式對本發明實施例提供的資料伴隨分析方法及裝置進行詳細描述。
如圖1所示,其為本發明實施例一的資料伴隨分析方法的流程示意圖。該資料伴隨分析方法包括以下步驟:
S101、對目標號碼的原始資料中二維空間資料進行降
維處理以得到目標號碼的一維空間資料。
在號碼移動的過程中,會產生很多的定位資料,一般情況下,這些定位資料包括用於表示位置資訊的空間維度的資料和用於表示時間的時間維度的資料,其中,空間維度的資料由經度和緯度資料構成。本實施例中,將號碼移動過程中產生的定位資料定義為原始資料,透過原始資料可以表示該號碼在不同時刻所處的位置。
為了減低原始資料的維度,來簡化定位資料,本實施例中,將目標號碼的原始資料中二維空間資料降維成一維空間資料,具體地,對目標資料的二維空間資料即經緯度資料進行空間hash化處理,將二維空間資料映射成一元的geohash編碼,即將經緯度依次迭代映射成32進制的編碼中。本實施例中,該一元geohash編碼就是該目標號碼的一維空間資料,此時就可以透過該geohash編碼表示目標號碼所處的位置。
S102、將目標號碼的一維空間資料和時間資料轉換成可比較的目標號碼的軌跡佇列。
原始資料中的二維空間資料轉換成一維空間資料後,其對應的時間資料不會發生變化。在獲取到目標號碼的一維空間資料後,與原始資料中與該一維空間資料對應的時間資料結合,就能夠構成該目標號碼的軌跡記錄。本實施例中,該目標號碼的軌跡記錄能夠表示出該目標號碼在不同時間點所處的位置,時間點對應原始資料中的時間資料。所處位置用一位空間資料表示。
目標號碼的軌跡記錄是一種時間點的記錄,為了能夠將目標號碼的資料進行比較,進一步地,需要對目標號碼的軌跡記錄進行資料規整,以得到目標號碼的軌跡佇列,即將目標號碼的軌跡記錄從時間點的記錄方式轉換成時間段的記錄方式。
S103、基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
在獲取到目標號碼的軌跡佇列後,可以用相同的過程獲取其他號碼的軌跡佇列,然後將基於目標號碼的軌跡佇列和其他號碼的軌跡佇列進行比較,基於預設的伴隨相似度策略獲取目標號碼和其他號碼之間的伴隨相似度,本實施例中,其他號碼可以為一個也可以是多個。可選地,其他號碼可以用戶輸入,也可以根據目標號碼查詢到的軌跡相似的號碼。
本實施例提供的資料伴隨分析方法,透過將目標號碼原始資料中二維空間資料進行降維處理成目標號碼的一維空間資料,將目標號碼的一維空間資料和原始資料中的時間資料轉換成可比較的目標軌跡佇列,基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。本實施例中,透過降維處理簡化原始資料,不再透過數學模型進行擬合處理,降低複雜度,提高伴隨分析的時效性。
如圖2所示,其為本發明實施例二的資料伴隨分析方
法的流程示意圖。該資料伴隨分析方法包括以下步驟:
S201、對目標號碼的原始資料中二維空間資料進行降維處理以得到目標號碼的一維空間資料。
為了減低原始資料的維度,來簡化定位資料,本實施例中,將目標號碼的原始資料中二維空間資料降維成一維空間資料,具體地,對目標資料的二維空間資料即經緯度資料進行空間hash化處理,將二維空間資料映射成一元的geohash編碼,即將經緯度依次迭代映射成32進制的編碼中。本實施例中,該一元geohash編碼就是該目標號碼的一維空間資料,此時就可以透過該geohash編碼表示目標號碼所處的位置。
S202、利用目標號碼的一維空間資料和原始資料中的時間資料產生目標號碼的軌跡記錄。
原始資料中的二維空間資料轉換成一維空間資料後,其對應的時間資料不會發生變化。在獲取到目標號碼的一維空間資料後,與原始資料中與該一維空間資料對應的時間資料結合,就能夠構成該目標號碼的軌跡記錄。本實施例中,該目標號碼的軌跡記錄能夠表示出該目標號碼在不同時間點所處的位置,時間點對應原始資料中的時間資料。所處位置用一位空間資料表示。
S203、對目標號碼的軌跡記錄進行資料規整,以得到目標號碼的軌跡佇列。
目標號碼的軌跡記錄是一種時間點的記錄,為了能夠將目標號碼的資料進行比較,進一步地,需要對目標號碼
的軌跡記錄進行資料規整,以得到目標號碼的軌跡佇列,即將目標號碼的軌跡記錄從時間點的記錄方式轉換成時間段的記錄方式。
具體地,針對目標號碼的軌跡記錄中連續時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,得到該相同位置對應的軌跡。其中,目標號碼連續時間點處在相同位置,說明目標號碼在一段時間內處於該相同位置上,並未在該時間段內離開該相同位置。實際應用中,原始資料的資料密度大,不宜直接處理,本實施例中將位置相同的記錄基於時間點進行合併後,可以先去除重複的記錄,能夠起到簡化資料的作用。
針對目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結束時間,得到該不同位置對應的軌跡。
在完成從時間點的記錄格式轉換到時間段的記錄格式後,各軌跡的時間段之間是不連續的。為了能夠將目標號碼的軌跡進行比較,需要將不連續的時間段進行連續化處理。具體地,將軌跡佇列中每條記錄中的geohash編碼的位數調整到預設的位數,然後需要對軌跡的時間段的端點進行調整,以建構可進行比較的目標號碼的軌跡佇列。首先,將目標號碼的所有軌跡按照開始時間從早到晚進行排序,按序對目標號碼中相鄰的軌跡的時間段的端點進行調整,以使相鄰的軌跡的時間段的端點重合,在完成所有的
軌跡的時間段端點的調整後,得到目標號碼的軌跡佇列。其中,本實施例中,時間段的端點就是時間段的開始時間和結束時間。例如,當前軌跡的時間段的上端點即開始時間為上一個軌跡的結束時間和自身開始時間的中間值,當前軌跡的時間段的下端點即結束時間為自身的結束時間與下一個軌跡的開始時間的中間值。例如,將當前軌跡的時間段的下端點維持不變,而將下一個軌跡的時間段的上端點值調整為當前軌跡的時間段的上端點值,使得相鄰的軌跡的時間段的端點重合。
下面舉例對S101~S103進行解釋說明:目標號碼為155****2623,該號碼的原始資料如下:
155****2623 150406 184822 121.83593 30.06664
155****2623 150406 185058 121.83593 30.06664
155****2623 150406 184513 121.83523 30.06364
155****2623 150406 193049 121.83593 30.06364
155****2623 150406 182333 121.84594 30.06164
155****2623 150406 182545 121.87593 30.06164
經過S101和S102之後得到目標號碼的軌跡記錄如下:
155****2623 150406 184822 wtqej57qg
155****2623 150406 185222 wtqej57qg
155****2623 150406 184513 wtqej37qg
155****2623 150406 184622 wtqej37qg
155****2623 150406 193049 wtqej56qg
155****2623 150406 182333 wtqej90qg
155****2623 150406 182545 wtqej23qg
在S103的處理過程中,目標號碼的軌跡如下:
155****2623 150406184822-150406185222 wtqej57qg
150406184513-150406184622 wtqej37qg
150406193049-150406193049 wtqej56qg
150406182333-150406182333 wtqej90qg
150406182545-150406182545 wtqej23qg
在對目標號碼需要對第一佇列進規整,按照預設位數對geohash編碼的部分位數進行捨棄,然後將對相鄰記錄的時段段的端點進行調整,使相鄰的記錄在時間段上連續:目標號碼的軌跡佇列如下:
155****2623 150406182333-150406182439wtqej90 1con1
150406182439-150406183544 wtqej23 1con2
150406183544-150406184722 wtqej37 1con3
150406184722-150406191135 wtqej57 1con4
150406191135-150406193049 wtqej56 1con5
S204、基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
在獲取到目標號碼的軌跡佇列後,可以用相同的過程獲取其他號碼的軌跡佇列,然後將基於目標號碼的軌跡佇列和其他號碼的軌跡佇列進行比較,基於預設的伴隨相似度策略獲取目標號碼和其他號碼之間的伴隨相似度,本實施例中,其他號碼可以為一個也可以是多個。可選地,其他號碼可以用戶輸入,也可以根據目標號碼查詢到的軌跡相似的號碼。
基於預設的伴隨相似度計算策略獲取目標號碼和其他號碼之間的伴隨相似度的過程包括:首先對預設位數的Geohash編碼進行地理分層,並且預設為每個層次設置不同的權重。將目標號碼軌跡佇列中每一條記錄與其他號碼中每一條記錄進行比較,判斷相互比較的兩條記錄的時間段在時間上是否存在交集,存在交集說明兩者的時間段存在時間重疊,例如,目標號碼的一條記錄的起始時間在其他號碼的一條記錄的時間段範圍內,說明兩者在時間上存在交集。
本實施例中,當存在交集時,獲取相互比較的兩條記錄中的表示位置的geohash編碼之間的重複的層次,獲取與該重複的層次對應的預設的權重,將預設的權重和預設的交集基數相乘得到一個交集數值。將所有在時間上存在交集的次數,以及每次交集時獲取到的交集數值,將所有交集數值相加後與交集的次數做比值,該比值作為目標號碼與其他號碼之間的伴隨相似度。本實施例中,不再利用三維歐式距離來獲取伴隨相似度,而是基於上述預設的伴隨分析策略獲取伴隨相似度的方式,減少計算難度,提高伴隨分析的效率。
例如,可以將geohash編碼選擇保留7位,其中,設定該編碼中第5位、第6位和第7位參與伴隨相似度的計算。權重的設置規則:存在交集時的基數設為1。Geohash 7位全相同,權重為1,Geohash前6位相同,第7位不同,權重為0.5,Geohash前5位相同,第6位不
同,權重為0.25,Geohash前5位都不同,或者時間上無交集權重都為0。伴隨相似度的計算公式:所有的交集資料之和/時間上有交集的次數。
本實施例提供的資料伴隨分析方法,透過將目標號碼原始資料中二維空間資料進行降維處理成目標號碼的一維空間資料,利用目標號碼的一維空間資料和原始資料中的時間資料構成目標號碼的軌跡記錄,透過資料規則處理將目標號碼的軌跡記錄轉換成可比較的目標軌跡佇列,基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。本實施例中,透過降維處理簡化原始資料,不再透過數學模型進行擬合處理,降低複雜度,提高伴隨分析的時效性。
如圖3所示,其為本發明實施例三的資料伴隨分析方法的流程示意圖。該資料伴隨分析方法包括以下步驟:
S300、接收用戶輸入的查詢資訊。
其中查詢資訊中包括查詢號碼和查詢時間段,其中,查詢號碼個數為1,將查詢號碼作為目標號碼。
當用戶試圖對目標號碼進行伴隨分析時,可以透過查詢界面輸入查詢資訊,其中,查詢資訊包括查詢號碼和查詢時間段。查詢號碼的個數可以為1個也可以為多個,本實施例中,以已知目標號碼和與該目標號碼進行比較的其他號碼作為一種應用場景進行說明,在該應用場景下查詢
號碼中的一個作為目標號碼,剩餘的查詢號碼作為其他號碼,其他號碼均與目標號碼進行比較,目標號碼之間不進行相互比較。
S301、對目標號碼的原始資料中二維空間資料進行降維處理以得到目標號碼的一維空間資料。
在接收到用戶輸入的查詢資訊後執行S301,S301的具體內容可參見上述實施例一S101中的記載,此次不再贅述。
S302、利用目標號碼的一維空間資料和原始資料中的時間資料產生目標號碼的軌跡記錄。
其中,目標號碼的軌跡記錄用於記錄目標號碼在不同時間點上所處的位置,時間點對應原始資料中的時間資料;所處的位置用一維空間資料表示。
S303、對目標號碼的軌跡記錄進行資料規整,以得到目標號碼的軌跡佇列。
其中,目標號碼的軌跡佇列用於記錄目標號碼在不同時間段內所處的位置,該時間段由目標號碼的軌跡記錄中的時間點產生。
S304、對其他號碼原始資料中二維空間資料進行降維處理以得到其他號碼的一維空間資料。
S305、利用其他號碼的一維空間資料和原始資料中的時間資料產生其他號碼的軌跡記錄。
S306、對其他號碼的軌跡記錄進行資料規整,以得到其他號碼的軌跡佇列。
採用目標號碼S301~S303的處理過程對其他號碼進行操作,以得到其他號碼的軌跡佇列。具體處理過程參見上述實施例中相關內容的記載,此次不再贅述。其中S301~S303與可以同步進行,也可以先執行S301~S303,再執行S304~S306。
S307、基於預設的伴隨相似度計算策略以及目標號碼的軌跡佇列和其他號碼的軌跡佇列,計算目標號碼與每個其他號碼之間的伴隨相似度。
將目標號碼的軌跡佇列中每一條記錄分別與每個其他號碼的軌跡佇列中每一條記錄進行比較,然後基於預設的伴隨相似度計算策略,計算目標號碼與每個其他號碼之間的伴隨相似度。其中,伴隨相似度計算策略,參見上述實施例一中相關內容的記載,此次不再贅述。
為了更好地理解本實施例提供的資料伴隨分析方法,下面一個具體的例子進行解釋說明:用戶輸入的查詢資訊包括查詢號碼,其中查詢號碼中包括目標號碼和與該目標號碼進行比較的其他號碼。在該示例中查詢資訊中攜帶兩個查詢,目標號碼為查詢號碼1(ID1),待比較的其他號碼為查詢號碼2(ID2),ID1:155****2623,ID2:150****8803;查詢時間段(Time):2015-04-01_00:00:00--2015-04-06_23:59:59
ID1在2015-04-01_00:00:00--2015-04-06_23:59:59內的所有的原始資料:
155****2623 150406 184822 121.83593 30.06664
155****2623 150406 185058 121.83593 30.06664
155****2623 150406 184513 121.83523 30.06364
155****2623 150406 193049 121.83593 30.06364
155****2623 150406 182333 121.84594 30.06164
155****2623 150406 182545 121.87593 30.06164
ID2在2015-04-01_00:00:00--2015-04-06_23:59:59內的所有原始資料:
150****8803 150406 195323 121.83516 30.06264
150****8803 150406 195308 121.83504 30.02664
150****8803 150406 195239 121.83583 30.06064
150****8803 150406 135325 121.83572 30.06264
150****8803 150406 104159 121.83543 30.16364
150****8803 150406 064003 121.83598 30.06663
150****8803 150406 064003 121.83598 30.06663
對查詢號碼原始資料中的二維資料進行降維處理以得到一維空間資料,然後利用一維空間資料與原始資料中的時間資料產生查詢號碼的軌跡記錄。
ID1的軌跡記錄如下:
155****2623 150406 184822 wtqej57qg
155****2623 150406 185222 wtqej57qg
155****2623 150406 184513 wtqej37qg
155****2623 150406 184622 wtqej37qg
155****2623 150406 193049 wtqej56qg
155****2623 150406 182333 wtqej90qg
155****2623 150406 182545 wtqej23qg
ID2的軌跡記錄如下:
150****8803 150406 195323 wtqej27qg
150****8803 150406 195623 wtqej27qg
150****8803 150406 195308 wtqej87qg
150****8803 150406 195239 wtqej87qg
150****8803 150406 135325 wtqej37qg
150****8803 150406 104159 wtqej72qg
150****8803 150406 064003 wtqej45qg
對查詢號碼的軌跡記錄進行資料去重和稀疏處理後,得到查詢號碼的軌跡。具體地,對查詢號碼的軌跡記錄進行資料去重和稀疏處理的過程:將連續時間點處在位置相同的記錄合併,將表示最早時間的時間點作為該位置的開始時間,將表示最晚時間的時間點作為該位置的結束時間,對於不同位置的記錄,以該位置對應的時間點作為對應時間段的開始時間和結束時間,也就是說,時間段的開始和結束時間可以相同。
對ID1的軌跡記錄進行相同的資料去重和稀疏處理過程,得到ID1的軌跡如下:
155****2623 150406184822-150406185222 wtqej57qg
150406184513-150406184622 wtqej37qg
150406193049-150406193049 wtqej56qg
150406182333-150406182333 wtqej90qg
150406182545-150406182545 wtqej23qg
對ID2的軌跡記錄進行相同的資料去重和稀疏處理過程,得到ID2的軌跡如下:
150****8803 150406195323-150406195623 wtqej27qg
150406195239-150406195308 wtqej87qg
150406135325-150406135325 wtqej37qg
150406104159-150406104159 wtqej72qg
150406064003-150406064003 wtqej45qg
對目標號碼中每條軌跡的geohash編碼調整到預設位數,對目標號碼的軌跡進行排序,調整軌跡的時間段的端點,使得相鄰的兩條軌跡的時間段的端點能夠重合,得到查詢號碼的軌跡佇列。具體地,按照開始時間從早到晚進行排序,排序後按照順序對相鄰的軌跡的時間段的端點進行調整,例如,將前一段的結束時間與後一段的開始時間的中間值分別作為前一段的結束時間和後一段的開始時間,使得相鄰的軌跡的時間段的端點重合,使得時間上可以對接起來,構成一個可比較的軌跡佇列。
ID1的軌跡佇列如下:
155****2623 150406182333-150406182439 wtqej90 1con1
150406182439-150406183544 wtqej23 1con2
150406183544-150406184722 wtqej37 1con3
150406184722-150406191135 wtqej57 1con4
150406191135-150406193049 wtqej56 1con5
ID2的軌跡佇列如下:
150****8803 150406064003-150406084101 wtqej45 2con1
150406084101-150406121712 wtqej72 2con2
150406121712-150406165302 wtqej37 2con3
150406165302-150406195315 wtqej87 2con4
150406195315-150406195623 wtqej27 2con5
根據預設的伴隨相似度計算策略,計算兩個查詢號碼之間的伴隨相似度。
Geohash選擇保留7位,其中第5、6、7三位參與伴隨相似度的計算。首先判斷時間上有無交集,時間段是否有重疊,如1con1的起始時間在2conN的時間段範圍內,那1con1與2conN有時間交集。
不同的重複位對應不同的權重:設置的交集基數為1。Geohash 7位全相同,權重為1,Geohash前6位相同,第7位不同,權重為0.5,Geohash前5位相同,第6位不同,權重為0.25,Geohash前5位都不同,或者時間上無交集權重都為為0。
將1con1分別與2con1~2con5相比較,其中,1con1與2con1、2con2、2con3以及2con5在時間上無交集;1con1與2con4時間上有交集,Geohash前5位相同,第6位不同,交集數值=1*0.25;類似地,將1con2分別與2con1~2con5相比較,其中,1con2與2con1、2con2、2con3以及2con5在時間上無交集,1con2與2con4時間上有交集,Geohash前5位相同,第6位不同,交集數值=1*0.25;將1con3與2con1~2con5相比較,其中,1con3與2con1、2con2、2con3以及2con5在時間上無交集,1con3與2con4時間上有交集,Geohash前5位相同,第6位不同,交集數值=1*0.25;將1con4分別與2con1~2con5相比較,其中,1con4
與2con1、2con2、2con3以及2con5在時間上無交集,1con4與2con4時間上有交集,Geohash前5位相同,第6位不同,交集數值=1*0.25;1con5分別與2con1~2con5相比較,其中,1con4與2con1、2con2、2con3以及2con5在時間上無交集,1con5與2con4時間上有交集,Geohash前5位相同,第6位不同,交集數值=1*0.25;則目標號碼與其他號碼之間的伴隨相似度為:(+1*0.25+....+1*0.25)/(時間上有交集的次數)=0.25。
在上述示例中,用戶可以指定兩個號碼進行比較,在經過將二維空間資料降維後獲取到一維空間資料,然後基於一維空間資料和時間資料構成可比較的軌跡序列,使用預設的伴隨相似度計算策略,獲取兩個號碼之間的伴隨相似度。
如圖4所示,其為本發明實施例四的資料伴隨分析方法的流程示意圖。該資料伴隨分析方法包括以下步驟:
S400、接收用戶輸入的查詢資訊。
其中查詢資訊中包括查詢號碼和查詢時間段,其中,查詢號碼個數為1,將查詢號碼作為目標號碼。
當用戶試圖對目標號碼進行伴隨分析時,可以透過查詢界面輸入查詢資訊,其中,查詢資訊包括查詢號碼、查詢時間段和返回與目標號碼相似的潛在號碼的個數。本實
施例中,以透過目標號碼獲取與該目標號碼相似軌跡的潛在號碼作為一種應用場景,此時查詢號碼的個數為1,在該應用場景下,將查詢號碼作為目標號碼。
S401、對目標號碼的原始資料中二維空間資料進行降維處理以得到目標號碼的一維空間資料。
在接收到用戶輸入的查詢資訊後執行S401,S401的具體內容可參見上述實施例一S101中的記載,此次不再贅述。
S402、利用目標號碼的一維空間資料和原始資料中的時間資料產生目標號碼的軌跡記錄。
其中,目標號碼的軌跡記錄用於記錄目標號碼在不同時間點上所處的位置,時間點對應原始資料中的時間資料;所處的位置用一維空間資料表示。
S403、對目標號碼的軌跡記錄進行資料規整,以得到目標號碼的軌跡佇列。
其中,目標號碼的軌跡佇列用於記錄目標號碼在不同時間段內所處的位置,該時間段由目標號碼的軌跡記錄中的時間點產生。
S302~S303的具體內容可參見上述實施例一S102~S103中的記載,此次不再贅述。
S404、從目標號碼的軌跡佇列中獲取目標號碼的可信區間。
本實施例中,目標號碼的軌跡佇列用於記錄目標號碼在不同時間段內所處的位置,根據目標號碼的軌跡佇列,
可以獲取到該目標號碼的可信區間,其中,可信區間包括可信時間域和可信空間域,其中可信時間閾為軌跡佇列中每條記錄中的時間段,可信空間域的具體過程:將軌跡佇列中每條記錄中所處位置進行閾值的修正,將修正後的位置作為可信空間域。例如,將每一個位置的geohash編碼中相同的前5位可以作為可信空間域。例如,geohash編碼中前五位表示北京,在前五位的基礎上加上四位可以表示到所處北京的具體區/縣。為了保證空間的可信度,將geohash編碼中的前5位作為可信空間域。
S405、根據可信區間獲取與目標號碼的軌跡記錄相似的潛在號碼。
在獲取到可信區間,根據該目標號碼的可信區間在查詢時間段內,查找與該目標號碼的軌跡記錄相似的潛在號碼。
S406、對潛在號碼的原始資料中二維空間資料進行降維處理以得到潛在號碼的一維空間資料。
S407、利用潛在號碼的一維空間資料和原始資料中的時間資料產生潛在號碼的軌跡記錄。
S408、對潛在號碼的軌跡記錄進行資料規整,以得到潛在號碼的軌跡佇列。
採用目標號碼S401~S403的處理過程對潛在號碼進行操作,以得到潛在號碼的軌跡佇列。具體處理過程參見上述實施例中相關內容的記載,此次不再贅述。
S409、將潛在號碼作為其他號碼,基於預設的伴隨相
似度計算策略以及目標號碼的軌跡佇列和其他號碼的軌跡佇列,計算目標號碼與每個其他號碼之間的伴隨相似度。
在獲取到潛在號碼後,將潛在號碼作為其他號碼,將目標號碼的軌跡佇列中每一條記錄分別與每個其他號碼的軌跡佇列中每一條記錄進行比較,然後基於預設的伴隨相似度計算策略,計算目標號碼與每個其他號碼之間的伴隨相似度。
其中,伴隨相似度計算策略,參見上述實施例一中相關內容的記載,此次不再贅述。
S410、將目標號碼與每個潛在號碼之間的伴隨相似度進行排序,以得到目標號碼的伴隨相似度列表。
在獲取到目標號碼與每個潛在號碼之間的伴隨相似度後,可以將這些伴隨相似度按照從大到小的順序進行排序,按照順序產生該目標號碼的伴隨相似度列表。本實施例中,從排序後的所有伴隨相似度中選取前幾位產生該目標號碼的伴隨相似度列表。
為了更好地理解本實施例提供的資料伴隨分析方法,下面一個具體的例子進行解釋說明:用戶輸入的查詢資訊包括查詢號碼:155****2623;查詢時間段:Time:2015-04-01_00:00:00--2015-04-06_23:59:59;返回與目標號碼相似的潛在號碼個數:TopN:3;其中,查詢號碼即目標號碼。
目標號碼在查詢時間段內的原始資料記錄:
155****2623 150406 184822 121.83593 30.06664
155****2623 150406 184513 121.83523 30.06364
155****2623 150406 193049 121.83593 30.06364
155****2623 150406 182333 121.84594 30.06164
155****2623 150406 182545 121.87593 30.06164
目標號碼經過降維處理以及資料規整後,得到目標號碼ID的軌跡佇列如下。其中關於對目標號碼降維處理以及資料規整的過程,可參見上述實施例二中相關示例中的記載,此處不再贅述。
155****2623 150406182333-150406182439wtqej90 1con1
150406182439-150406183544 wtqej23 1con2
150406183544-150406184722 wtqej37 1con3
150406184722-150406191135 wtqej57 1con4
150406191135-150406193049 wtqej56 1con5
從目標號碼的軌跡佇列中獲取可信區間,該可信區間包括時間可信區間和空間可信區間;即目標號碼軌跡佇列中包括的時間段以及位置。
根據可信區間獲取與目標號碼的軌跡記錄相似的潛在號碼。具體地,.查詢與目標號碼軌跡佇列中每一個記錄1coni(i=1,2,3,...5)相似軌跡記錄:查找相似軌跡,從原始資料中找出與1coni有時間交集並且geohash前5位全部相同的記錄。
1con1:150406182333-150406182439 wtqej90
155****2623 150406 184822 wtqej57qg
151****1306 150406 183539 wtqej31qg
1con2:150406182439-150406183544 wtqej23
155****2623 150406 182545 wtqej23qg
152****8808 150406 182952 wtqej54qg
1con3:150406183544-150406184722 wtqej37
155****2623 150406 184513 wtqej37qg
155****2623 150406 184622 wtqej37qg
152****8808150406 184112wtqej31qg
151****1306 150406 184537 wtqej90qg
1con4:150406184722-150406191135 wtqej57
155****2623 150406 184822 wtqej57qg
152****8808150406 190253wtqej29qg
152****3889 150406 185742 wtqej46qg
151****1306 150406 191023 wtqej72qg
1con5:150406191135-150406193049 wtqej56
155****2623 150406 193049 wtqej56qg
152****3889 150406 192516 wtqej36qg
153****5666 150406 191756 wtqej69qg
在查找完成後,將與目標號碼每一條記錄命中的個數取3個號碼作為潛在號碼,其中,潛在號碼中不包括目標號碼本身。
潛在號碼按照命中次數排序為:
151****1306 4個
152****8808 3個
152****3889 2個
153****5666 1個
則選取151****1306、152****8808和152****3889作為潛在號碼,然後分別計算目標號碼與選中的三個潛在號碼的伴隨相似度,計算過程與上述實施例二中計算兩個已知查詢號碼的伴隨相似度類似,此次不再贅述。
對目標號碼的伴隨相似度進行排序後,取前三位潛在號碼以及伴隨相似度產生目標號碼的伴隨相似度列表,該列表如下所示:
號碼 相似度
151****1306 0.72
152****8808 0.62
152****3889 0.33
在該示例中個,用戶可以指定一個目標號碼,然後基於目標號碼的軌跡查找到軌跡相似的潛在號碼作為其他號碼,基於目標號碼與潛在號碼的軌跡序列,使用預設的伴隨相似度計算策略,獲取兩個號碼之間的伴隨相似度。
如圖5所示,其為本發明實施例五的資料伴隨分析方法的流程示意圖。該資料伴隨分析裝置包括:降維模組11、資料轉換模組12和計算模組13。
其中,降維模組11,用於對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間
資料。
在號碼移動的過程中,會產生很多的定位資料,一般情況下,這些定位資料包括用於表示位置資訊的空間維度的資料和用於表示時間的時間維度的資料,其中,空間維度的資料由經度和緯度資料構成。本實施例中,將號碼移動過程中產生的定位資料定義為原始資料,透過原始資料可以表示該號碼在不同時刻所處的位置。
為了減低原始資料的維度,來簡化定位資料,本實施例中,降維模組11將目標號碼的原始資料中二維空間資料降維成一維空間資料,具體地,降維模組11對目標資料的二維空間資料即經緯度資料進行空間hash化處理,將二維空間資料映射成一元的geohash編碼,即將經緯度依次迭代映射成32進制的編碼中。本實施例中,該一元geohash編碼就是該目標號碼的一維空間資料,此時就可以透過該geohash編碼表示目標號碼所處的位置。
資料轉換模組12,用於將目標號碼的一維空間資料和時間資料轉換成可比較的目標號碼的軌跡佇列。
具體地,資料轉換模組12利用該目標號碼的一維空間資料和該原始資料中的時間資料產生該目標號碼的軌跡記錄。
其中該目標號碼的軌跡記錄用於記錄該目標號碼在不同時間點上所處的位置,時間點對應原始資料中的時間資料;所處的位置用一維空間資料表示。
原始資料中的二維空間資料轉換成一維空間資料後,
其對應的時間資料不會發生變化。在獲取到目標號碼的一維空間資料後,資料轉換模組12將該一維空間資料與原始資料中與該一維空間資料對應的時間資料結合,就能夠構成該目標號碼的軌跡記錄。本實施例中,該目標號碼的軌跡記錄能夠表示出該目標號碼在不同時間點所處的位置,時間點對應原始資料中的時間資料。所處位置用一位空間資料表示。
進一步地,資料轉換模組12對該目標號碼的軌跡記錄進行資料規整,以得到該目標號碼的軌跡佇列。
其中,該目標號碼的軌跡佇列用於記錄該目標號碼在不同時間段內所處的位置,其中,該時間段由該目標號碼的軌跡記錄中的時間點產生。
目標號碼的軌跡記錄是一種時間點的記錄,進一步地,資料轉換模組12對目標號碼的軌跡記錄進行資料規整,將目標號碼的軌跡記錄從時間點的記錄方式轉換成時間段的記錄方式。具體地,針對目標號碼的軌跡記錄中不同時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,得到該相同位置對應的軌跡。實際應用中,原始資料的資料密度大,不宜直接處理,本實施例中將位置相同的記錄基於時間點進行合併後,可以先去除重複的記錄,能夠起到簡化資料的作用。
資料轉換模組12對該目標號碼的軌跡記錄進行資料規整,以得到該目標號碼的軌跡佇列的具體地過程如下:
針對目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結束時間,得到該不同位置對應的軌跡。
在完成從時間點的記錄格式轉換到時間段的記錄格式後,各軌跡的時間段之間是不連續的。為了能夠將目標號碼的軌跡進行比較,需要將不連續的時間段進行連續化處理。具體地,首先將目標號碼的所有軌跡中geohash編碼調整成預設位置,然後需要對軌跡的時間段的端點進行調整,以建構可進行比較的目標號碼的軌跡佇列。首先,將目標號碼的所有軌跡按照開始時間從早到晚進行排序,按序對目標號碼中相鄰的軌跡的時間段的端點進行調整,以使相鄰的軌跡的時間段的端點重合,在完成所有的軌跡的時間段端點的調整後,得到目標號碼的軌跡佇列。其中,本實施例中,時間段的端點就是時間段的開始時間和結束時間。例如,當前軌跡的時間段的上端點即開始時間為上一個軌跡的結束時間和自身開始時間的中間值,當前軌跡的時間段的下端點即結束時間為自身的結束時間與下一個軌跡的開始時間的中間值。例如,將當前軌跡的時間段的下端點維持不變,而將下一個軌跡的時間段的上端點值調整為當前軌跡的時間段的上端點值,使得相鄰的軌跡的時間段的端點重合。
計算模組13,用於基於該目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
在獲取到目標號碼的軌跡佇列後,可以用相同的過程
獲取其他號碼的軌跡佇列,計算模組13將基於目標號碼的軌跡佇列和其他號碼的軌跡佇列進行比較,基於預設的伴隨相似度策略獲取目標號碼和其他號碼之間的伴隨相似度,本實施例中,其他號碼可以為一個也可以是多個。可選地,其他號碼可以用戶輸入,也可以根據目標號碼查詢到的軌跡相似的號碼。
關於預設的伴隨相似度計算策略可參見上述實施例中相關內容的記載,此處不再贅述。
本實施例提供的資料伴隨分析裝置,透過將目標號碼原始資料中二維空間資料進行降維處理成目標號碼的一維空間資料,利用目標號碼的一維空間資料和原始資料中的時間資料構成目標號碼的軌跡記錄,透過資料規則處理將目標號碼的軌跡記錄轉換成可比較的目標軌跡佇列,基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。本實施例中,透過降維處理簡化原始資料,不再透過數學模型進行擬合處理,降低複雜度,提高伴隨分析的時效性。
如圖6所示,其為本發明實施例五的資料伴隨分析方法的流程示意圖。該資料伴隨分析裝置除了包括上述實例四中的降維模組11、資料轉換模組12和計算模組13之外,還包括接收模組14、可信區間獲取模組15和查找模組16。
其中,降維模組11,具體用於對該目標號碼的原始資料中二維空間資料進行二維空間雜湊Hash化,以得到一元Geohash編碼作為該目標號碼的一維空間資料。
本實施例中,資料轉換模組12的一種可選地結構方式,包括:軌跡記錄單元121和軌跡佇列單元122。
軌跡記錄單元121,用於利用該目標號碼的一維空間資料和該原始資料中的時間資料產生該目標號碼的軌跡記錄;其中該目標號碼的軌跡記錄用於記錄該目標號碼在不同時間點上所處的位置,時間點對應原始資料中的時間資料;所處的位置用一維空間資料表示。
軌跡佇列單元122,用於對該目標號碼的軌跡記錄進行資料規整,以得到該目標號碼的軌跡佇列;其中,該目標號碼的軌跡佇列用於記錄該目標號碼在不同時間段內所處的位置,其中,該時間段由該目標號碼的軌跡記錄中的時間點產生。
本實施例中,軌跡佇列單元122的一種可選地結構方法,包括:獲取子單元1221、位數調整子單元1222、排序子單元1223和時間調整子單元1224。
獲取子單元1221,用於針對該目標號碼的軌跡記錄中不同時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,得到該相同位置對應的軌跡,以及針對該目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結
束時間,得到該不同位置對應的軌跡。
位數調整子單元1222,用於將該目標號碼中每條軌跡中該geohash編碼的位數調整到預設位數。
排序子單元1223,用於將該目標號碼的所有軌跡按照開始時間從早到晚進行排序。
時間調整子單元1224,用於對該目標號碼中相鄰的軌跡的時間段的端點進行調整,以使相鄰的軌跡的時間段的端點重合,得到該目標號碼的軌跡佇列。
接收模組14,用於接收用戶輸入的查詢資訊,該查詢資訊中包括查詢號碼和查詢時間段,其中,該查詢號碼個數為1,將該查詢號碼作為該目標號碼。
可信區間獲取模組15,用於根據該目標號碼的軌跡佇列獲取該目標號碼的可信區間。
查找模組16,用於根據該可信區間獲取與該目標號碼的軌跡記錄相似的潛在號碼。
進一步地,降維模組11,還用於對該潛在號碼的原始資料中二維空間資料進行降維處理以得到該潛在號碼的一維空間資料。
軌跡記錄單元121,還用於利用該潛在號碼的一維空間資料和該原始資料中的時間資料產生該潛在號碼的軌跡記錄。
軌跡佇列單元122,還用於對該潛在號碼的軌跡記錄進行資料規整,以得到該潛在號碼的軌跡佇列。
計算模組13,具體用於將該潛在號碼作為該其他號
碼,基於預設的伴隨相似度計算策略,計算該目標號碼與每個該其他號碼之間的伴隨相似度。
計算模組13,還用於將該目標號碼與每個該潛在號碼之間的伴隨相似度進行排序,以得到該目標號碼的伴隨相似度列表。
進一步地,接收模組15,還用於接收用戶輸入的查詢資訊,該查詢資訊中包括查詢號碼和查詢時間段,其中,該查詢號碼個數至少為2,將其中一個查詢號碼作為該目標號碼,剩餘查詢號碼作為該其他號碼。
進一步地,降維模組11,還用於對該潛在號碼的原始資料中二維空間資料進行降維處理以得到該潛在號碼的一維空間資料;軌跡記錄單元121,還用於利用該潛在號碼的一維空間資料和該原始資料中的時間資料產生該潛在號碼的軌跡記錄;軌跡佇列單元122,還用於對該潛在號碼的軌跡記錄進行資料規整,以得到該潛在號碼的軌跡佇列。
計算模組13,具體用於基於預設的伴隨相似度計算策略,計算該目標號碼與每個該其他號碼之間的伴隨相似度。
本實施例中,計算模組13的一種可選地結構方法,包括:地理分層單元131、預設單元132、比較單元133、判斷單元134和權重計算單元135、相似度計算單元136。
其中,地理分層單元131,用於對預設位數的該geohash編碼進行地理分層。
預設單元132,用於為該geohash編碼的每個層次設置不同的權重。
比較單元133,用於將目標號碼軌跡佇列中每一條記錄與其他號碼中每一條記錄進行比較。
判斷單元134,用於判斷相互比較的兩條記錄在時間上是否存在交集。
權重計算單元135,用於如果判斷存在交集,獲取相互比較的兩條記錄中該geohash編碼之間的重複的層次,以及根據與該重複的層次對應的權重以及預設的交集基數獲取交集數值。
相似度計算單元136,用於將所有交集數值相加後與交集的次數做比值,將該比值作為該目標號碼與該其他號碼之間的伴隨相似度。
本實施例提供的資料伴隨分析裝置,透過將目標號碼原始資料中二維空間資料進行降維處理成目標號碼的一維空間資料,利用目標號碼的一維空間資料和原始資料中的時間資料構成目標號碼的軌跡記錄,透過資料規則處理將目標號碼的軌跡記錄轉換成可比較的目標軌跡佇列,基於目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。本實施例中,透過降維處理簡化原始資料,不再透過數學模型進行擬合處理,降低複雜度,提高伴隨分析的時效性。
本領域普通技術人員可以理解:實現上述各方法實施例的全部或部分步驟可以透過程式指令相關的硬件來完成。前述的程式可以儲存於一計算機可讀取儲存介質中。該程式在執行時,執行包括上述各方法實施例的步驟;而前述的儲存介質包括:ROM、RAM、磁碟或者光碟等各種可以儲存程式代碼的介質。
最後應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;儘管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本發明各實施例技術方案的範圍。
Claims (24)
- 一種資料伴隨分析方法,其特徵在於,包括:對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間資料;將該目標號碼的一維空間資料和時間資料轉換成可比較的該目標號碼的軌跡佇列;基於該目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
- 根據申請專利範圍第1項所述的方法,其中,該對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間資料,包括:對該目標號碼的原始資料中二維空間資料進行二維空間雜湊Hash化,以得到一元Geohash編碼作為該目標號碼的一維空間資料。
- 根據申請專利範圍第1項所述的方法,其中,該將該目標號碼的一維空間資料和時間資料轉換成可比較的該目標號碼的軌跡佇列,包括:利用該目標號碼的一維空間資料和該原始資料中的時間資料產生該目標號碼的軌跡記錄;其中該目標號碼的軌跡記錄用於記錄該目標號碼在不同時間點上所處的位置,時間點對應原始資料中的時間資料;所處的位置用一維空間資料表示;對該目標號碼的軌跡記錄進行資料規整,以得到該目標號碼的軌跡佇列;其中,該目標號碼的軌跡佇列用於記 錄該目標號碼在不同時間段內所處的位置,其中,該時間段由該目標號碼的軌跡記錄中的時間點產生。
- 根據申請專利範圍第3項所述的方法,其中,該對該目標號碼的軌跡記錄進行資料規整,以得到該目標號碼的軌跡佇列,包括:針對該目標號碼的軌跡記錄中連續時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,得到該相同位置對應的軌跡;針對該目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結束時間,得到該不同位置對應的軌跡;將該目標號碼的所有軌跡按照開始時間從早到晚進行排序;將該目標號碼中每條軌跡中該geohash編碼的位數調整到預設位數;對該目標號碼中相鄰的軌跡的時間段的端點進行調整,以使相鄰的軌跡的時間段的端點重合,得到該目標號碼的軌跡佇列。
- 根據申請專利範圍第4項所述的方法,其中,該對目標號碼的原始資料進行降維處理以得到降維資料之前,包括:接收用戶輸入的查詢資訊,該查詢資訊中包括查詢號碼和查詢時間段,其中,該查詢號碼個數為1,將該查詢 號碼作為該目標號碼。
- 根據申請專利範圍第5項所述的方法,其中,該基於該目標號碼的軌跡序列計算與其他號碼之間的伴隨相似度之前,還包括:根據該目標號碼的軌跡佇列獲取該目標號碼的可信區間;根據該可信區間獲取與該目標號碼的軌跡記錄相似的潛在號碼;對該潛在號碼的原始資料中二維空間資料進行降維處理以得到該潛在號碼的一維空間資料;利用該潛在號碼的一維空間資料和該原始資料中的時間資料產生該潛在號碼的軌跡記錄;對該潛在號碼的軌跡記錄進行資料規整,以得到該潛在號碼的軌跡佇列。
- 根據申請專利範圍第6項所述的方法,其中,該基於該目標號碼的軌跡序列計算與其他號碼之間的伴隨相似度,包括:將該潛在號碼作為該其他號碼;基於預設的伴隨相似度計算策略,計算該目標號碼與每個該其他號碼之間的伴隨相似度。
- 根據申請專利範圍第7項所述的方法,其中,該基於預設的伴隨相似度計算策略,計算該目標號碼與每個該潛在號碼之間的伴隨相似度之後,包括:將該目標號碼與每個該潛在號碼之間的伴隨相似度進 行排序,以得到該目標號碼的伴隨相似度列表。
- 根據申請專利範圍第4項所述的方法,其中,該對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間資料之前,包括:接收用戶輸入的查詢資訊,該查詢資訊中包括查詢號碼和查詢時間段,其中,該查詢號碼個數至少為2,將其中一個查詢號碼作為該目標號碼,剩餘查詢號碼作為該其他號碼。
- 根據申請專利範圍第9項所述的方法,其中,該基於該目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度之前,還包括:對該潛在號碼的原始資料中二維空間資料進行降維處理以得到該潛在號碼的一維空間資料;利用該潛在號碼的一維空間資料和該原始資料中的時間資料產生該潛在號碼的軌跡記錄;對該潛在號碼的軌跡記錄進行資料規整,以得到該潛在號碼的軌跡佇列。
- 根據申請專利範圍第10項所述的方法,其中,該基於該目標號碼的軌跡序列計算與其他號碼之間的伴隨相似度,包括:基於預設的伴隨相似度計算策略,計算該目標號碼與每個該其他號碼之間的伴隨相似度。
- 根據申請專利範圍第7或11項所述的方法,其中,該基於預設的伴隨相似度計算策略,計算該目標號碼 與每個該其他號碼之間的伴隨相似度,包括:對預設位數的該geohash編碼進行地理分層;為該geohash編碼的每個層次設置不同的權重;將目標號碼軌跡佇列中每一條記錄與其他號碼中每一條記錄進行比較;判斷相互比較的兩條記錄在時間上是否存在交集;如果判斷存在交集,獲取相互比較的兩條記錄中該geohash編碼之間的重複的層次;根據與該重複的層次對應的權重以及預設的交集基數獲取交集數值;將所有交集數值相加後與交集的次數做比值,將該比值作為該目標號碼與該其他號碼之間的伴隨相似度。
- 一種資料伴隨分析裝置,其特徵在於,包括:降維模組,用於對目標號碼的原始資料中二維空間資料進行降維處理以得到該目標號碼的一維空間資料;資料轉換模組,用於將該目標號碼的一維空間資料和時間資料轉換成可比較的該目標號碼的軌跡佇列;計算模組,用於基於該目標號碼的軌跡佇列計算與其他號碼之間的伴隨相似度。
- 根據申請專利範圍第13項所述的裝置,其中,該降維模組,具體用於對該目標號碼的原始資料中二維空間資料進行二維空間雜湊Hash化,以得到一元Geohash編碼作為該目標號碼的一維空間資料。
- 根據申請專利範圍第14項所述的裝置,其中,該 資料轉換模組,包括:軌跡記錄單元,用於利用該目標號碼的一維空間資料和該原始資料中的時間資料產生該目標號碼的軌跡記錄;其中該目標號碼的軌跡記錄用於記錄該目標號碼在不同時間點上所處的位置,時間點對應原始資料中的時間資料;所處的位置用一維空間資料表示;軌跡佇列單元,用於對該目標號碼的軌跡記錄進行資料規整,以得到該目標號碼的軌跡佇列;其中,該目標號碼的軌跡佇列用於記錄該目標號碼在不同時間段內所處的位置,其中,該時間段由該目標號碼的軌跡記錄中的時間點產生。
- 根據申請專利範圍第15項所述的裝置,其中,該軌跡佇列單元,包括:獲取子單元,用於針對該目標號碼的軌跡記錄中連續時間點處在相同位置的記錄,將表示最早時間的時間點作為該相同位置的開始時間,將表示最晚時間的時間點作為該相同位置的結束時間,以得到該相同位置對應的軌跡,以及針對該目標號碼的軌跡記錄中不同時間點處在不同位置的記錄,將時間點作為該不同位置的開始時間和結束時間,得到該不同位置對應的軌跡;位數調整子單元,用於將該目標號碼中每條軌跡中該geohash編碼的位數調整到預設位數;排序子單元,用於將該目標號碼的所有軌跡按照開始時間從早到晚進行排序; 時間調整子單元,用於對該目標號碼中相鄰的軌跡的時間段的端點進行調整,以使相鄰的軌跡的時間段的端點重合,得到該目標號碼的軌跡佇列。
- 根據申請專利範圍第16項所述的裝置,其中,還包括:接收模組,用於接收用戶輸入的查詢資訊,該查詢資訊中包括查詢號碼和查詢時間段,其中,該查詢號碼個數為1,將該查詢號碼作為該目標號碼。
- 根據申請專利範圍第17項所述的裝置,其中,還包括:可信區間獲取模組,用於根據該目標號碼的軌跡佇列獲取該目標號碼的可信區間;查找模組,用於根據該可信區間獲取與該目標號碼的軌跡記錄相似的潛在號碼;該降維模組,還用於對該潛在號碼的原始資料中二維空間資料進行降維處理以得到該潛在號碼的一維空間資料;該軌跡記錄單元,還用於利用該潛在號碼的一維空間資料和該原始資料中的時間資料產生該潛在號碼的軌跡記錄;該軌跡佇列單元,還用於對該潛在號碼的軌跡記錄進行資料規整,以得到該潛在號碼的軌跡佇列。
- 根據申請專利範圍第18項所述的裝置,其中,該計算模組,具體用於將該潛在號碼作為該其他號碼,基於 預設的伴隨相似度計算策略,計算該目標號碼與每個該其他號碼之間的伴隨相似度。
- 根據申請專利範圍第19項所述的裝置,其中,該計算模組,還用於將該目標號碼與每個該潛在號碼之間的伴隨相似度進行排序,以得到該目標號碼的伴隨相似度列表。
- 根據申請專利範圍第16項所述的裝置,其中,該接收模組,還用於接收用戶輸入的查詢資訊,該查詢資訊中包括查詢號碼和查詢時間段,其中,該查詢號碼個數至少為2,將其中一個查詢號碼作為該目標號碼,剩餘查詢號碼作為該其他號碼。
- 根據申請專利範圍第21項所述的裝置,其中,該降維模組,還用於對該潛在號碼的原始資料中二維空間資料進行降維處理以得到該潛在號碼的一維空間資料;該軌跡記錄單元,還用於利用該潛在號碼的一維空間資料和該原始資料中的時間資料產生該潛在號碼的軌跡記錄;該軌跡記錄單元,還用於對該潛在號碼的軌跡記錄進行資料規整,以得到該潛在號碼的軌跡佇列。
- 根據申請專利範圍第22項所述的裝置,其中,該計算模組,具體用於基於預設的伴隨相似度計算策略,計算該目標號碼與每個該其他號碼之間的伴隨相似度。
- 根據申請專利範圍第22項所述的裝置,其中,該該計算模組包括: 地理分層單元,用於對預設位數的該geohash編碼進行地理分層;預設單元,用於為該geohash編碼的每個層次設置不同的權重;比較單元,用於將目標號碼軌跡佇列中每一條記錄與其他號碼中每一條記錄進行比較;判斷單元,用於判斷相互比較的兩條記錄在時間上是否存在交集;權重計算單元,用於如果判斷存在交集,獲取相互比較的兩條記錄中該geohash編碼之間的重複的層次,以及根據與該重複的層次對應的權重以及預設的交集基數獲取交集數值;相似度計算單元,用於將所有交集數值相加後與交集的次數做比值,將該比值作為該目標號碼與該其他號碼之間的伴隨相似度。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610179784.8A CN107229940A (zh) | 2016-03-25 | 2016-03-25 | 数据伴随分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW201734872A true TW201734872A (zh) | 2017-10-01 |
Family
ID=59899224
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106105359A TW201734872A (zh) | 2016-03-25 | 2017-02-17 | 資料伴隨分析方法及裝置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20190056423A1 (zh) |
CN (1) | CN107229940A (zh) |
TW (1) | TW201734872A (zh) |
WO (1) | WO2017162084A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI720390B (zh) * | 2017-12-29 | 2021-03-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 最佳化空間大數據分區的系統、方法和非暫時性電腦可讀取媒體 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109657703B (zh) * | 2018-11-26 | 2023-04-07 | 浙江大学城市学院 | 基于时空数据轨迹特征的人群分类方法 |
CN111666358A (zh) * | 2019-03-05 | 2020-09-15 | 上海光启智城网络科技有限公司 | 一种轨迹碰撞方法及系统 |
CN109947793B (zh) * | 2019-03-20 | 2022-05-31 | 深圳市北斗智能科技有限公司 | 伴随关系的分析方法、装置和存储介质 |
CN110334171A (zh) * | 2019-07-05 | 2019-10-15 | 南京邮电大学 | 一种基于Geohash的时空伴随对象挖掘方法 |
CN112689238A (zh) * | 2019-10-18 | 2021-04-20 | 西安光启未来技术研究院 | 一种基于区域的轨迹碰撞方法、系统、存储介质及处理器 |
CN110796494B (zh) * | 2019-10-30 | 2022-09-27 | 北京爱笔科技有限公司 | 一种客群识别方法及装置 |
CN110909009B (zh) * | 2019-11-20 | 2022-07-15 | 厦门市美亚柏科信息股份有限公司 | 基于话单的轨迹伴随行为分析方法、终端设备及存储介质 |
CN110944296A (zh) * | 2019-11-27 | 2020-03-31 | 智慧足迹数据科技有限公司 | 运动轨迹的伴随确定方法、装置和服务器 |
CN111294742B (zh) * | 2020-02-10 | 2020-11-10 | 邑客得(上海)信息技术有限公司 | 基于信令cdr数据识别伴随手机号码的方法与系统 |
CN111300417B (zh) * | 2020-03-12 | 2021-12-10 | 福建永越智能科技股份有限公司 | 焊接机器人的焊接路径控制方法及装置 |
CN112040414B (zh) * | 2020-08-06 | 2023-04-07 | 杭州数梦工场科技有限公司 | 相似轨迹计算方法、装置及电子设备 |
CN112000736B (zh) * | 2020-08-14 | 2023-03-24 | 济南浪潮数据技术有限公司 | 时空轨迹伴随分析方法、系统及电子设备和存储介质 |
CN112561948B (zh) * | 2020-12-22 | 2023-11-21 | 中国联合网络通信集团有限公司 | 基于时空轨迹的伴随轨迹识别方法、设备及存储介质 |
CN113449158A (zh) * | 2021-06-22 | 2021-09-28 | 中国电子进出口有限公司 | 一种多源数据间的伴随分析方法和系统 |
CN113704342A (zh) * | 2021-07-30 | 2021-11-26 | 济南浪潮数据技术有限公司 | 一种轨迹伴随分析的方法、系统、设备和存储介质 |
CN113607170B (zh) * | 2021-07-31 | 2023-12-12 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 空海目标航迹偏离行为实时检测方法 |
CN113704378A (zh) * | 2021-09-02 | 2021-11-26 | 北京锐安科技有限公司 | 一种伴随信息的确定方法、装置、设备及存储介质 |
CN113780407A (zh) * | 2021-09-09 | 2021-12-10 | 恒安嘉新(北京)科技股份公司 | 一种数据检测方法、装置、电子设备及存储介质 |
CN117177185B (zh) * | 2023-11-02 | 2024-03-26 | 中国信息通信研究院 | 一种基于手机通信数据的号码伴随辅助识别方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101571591B (zh) * | 2009-06-01 | 2012-11-07 | 民航数据通信有限责任公司 | 基于雷达航迹的拟合分析方法 |
US8462987B2 (en) * | 2009-06-23 | 2013-06-11 | Ut-Battelle, Llc | Detecting multiple moving objects in crowded environments with coherent motion regions |
CN101944292B (zh) * | 2010-09-16 | 2012-05-23 | 公安部交通管理科学研究所 | 基于轨迹碰撞的嫌疑车辆分析方法 |
CN103593361B (zh) * | 2012-08-14 | 2017-02-22 | 中国科学院沈阳自动化研究所 | 感应网络环境下移动时空轨迹分析方法 |
CN103237201B (zh) * | 2013-04-28 | 2016-01-06 | 江苏物联网研究发展中心 | 一种基于社会化标注的案件视频研判方法 |
US10102259B2 (en) * | 2014-03-31 | 2018-10-16 | International Business Machines Corporation | Track reconciliation from multiple data sources |
CN104462236A (zh) * | 2014-11-14 | 2015-03-25 | 浪潮(北京)电子信息产业有限公司 | 一种基于大数据的伴随车辆识别方法和装置 |
CN104778245B (zh) * | 2015-04-09 | 2018-11-27 | 北方工业大学 | 基于海量车牌识别数据的相似轨迹挖掘方法及装置 |
CN105243148A (zh) * | 2015-10-25 | 2016-01-13 | 西华大学 | 一种基于签到数据的时空轨迹相似性度量方法及系统 |
-
2016
- 2016-03-25 CN CN201610179784.8A patent/CN107229940A/zh active Pending
-
2017
- 2017-02-17 TW TW106105359A patent/TW201734872A/zh unknown
- 2017-03-16 US US16/078,278 patent/US20190056423A1/en not_active Abandoned
- 2017-03-16 WO PCT/CN2017/076875 patent/WO2017162084A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI720390B (zh) * | 2017-12-29 | 2021-03-01 | 大陸商北京嘀嘀無限科技發展有限公司 | 最佳化空間大數據分區的系統、方法和非暫時性電腦可讀取媒體 |
Also Published As
Publication number | Publication date |
---|---|
CN107229940A (zh) | 2017-10-03 |
US20190056423A1 (en) | 2019-02-21 |
WO2017162084A1 (zh) | 2017-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW201734872A (zh) | 資料伴隨分析方法及裝置 | |
CN104462190B (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
CN112182410B (zh) | 基于时空轨迹知识图谱的用户出行模式挖掘方法 | |
Tang et al. | Retrieving k-nearest neighboring trajectories by a set of point locations | |
CN110414732B (zh) | 一种出行未来轨迹预测方法、装置、储存介质及电子设备 | |
CN110234085B (zh) | 基于对抗迁移网络的室内位置指纹地图生成方法及系统 | |
KR20140043393A (ko) | 위치 기반 인식 기법 | |
CN110543539B (zh) | 一种分布式的路网环境下移动对象轨迹相似性查询方法 | |
CN111292356B (zh) | 运动轨迹与道路的匹配方法及装置 | |
CN110443285A (zh) | 相似轨迹的确定方法、装置及计算机存储介质 | |
CN115080801A (zh) | 基于联邦学习和数据二进制表示的跨模态检索方法及系统 | |
WO2021196743A1 (zh) | 热带气旋强度预报信息的生成方法及系统 | |
CN110532340A (zh) | 空间信息时空元数据构建方法 | |
JP2015132539A (ja) | 日照量計算装置、経路提案装置および日照量計算方法 | |
CN109885638B (zh) | 一种三维立体空间索引方法及系统 | |
Abbasifard et al. | Efficient indexing for past and current position of moving objects on road networks | |
CN107590260B (zh) | 点云数据实时检索方法及其系统 | |
KR102215100B1 (ko) | 공간 지식 그래프를 이용하여 공간 엔티티의 지역 유사성을 측정하는 장치 및 방법 | |
Sankararaman et al. | Computing similarity between a pair of trajectories | |
US20210004378A1 (en) | K-Nearest Neighbour Spatial Queries on a Spatial Database | |
Sayed et al. | Point clouds reduction model based on 3D feature extraction | |
Yi et al. | Cloud-Based Positioning Method with Visualized Signal Images | |
Zhao et al. | Efficient semantic enrichment process for spatiotemporal trajectories | |
Wang et al. | A Deep Spatiotemporal Trajectory Representation Learning Framework for Clustering | |
Cavojsky et al. | Search by pattern in gps trajectories |