WO2017162084A1 - 数据伴随分析方法及装置 - Google Patents

数据伴随分析方法及装置 Download PDF

Info

Publication number
WO2017162084A1
WO2017162084A1 PCT/CN2017/076875 CN2017076875W WO2017162084A1 WO 2017162084 A1 WO2017162084 A1 WO 2017162084A1 CN 2017076875 W CN2017076875 W CN 2017076875W WO 2017162084 A1 WO2017162084 A1 WO 2017162084A1
Authority
WO
WIPO (PCT)
Prior art keywords
target number
data
time
track
dimensional spatial
Prior art date
Application number
PCT/CN2017/076875
Other languages
English (en)
French (fr)
Inventor
丁先树
罗毅
韩陆
吴林强
Original Assignee
阿里巴巴集团控股有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 阿里巴巴集团控股有限公司 filed Critical 阿里巴巴集团控股有限公司
Priority to US16/078,278 priority Critical patent/US20190056423A1/en
Publication of WO2017162084A1 publication Critical patent/WO2017162084A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01PMEASURING LINEAR OR ANGULAR SPEED, ACCELERATION, DECELERATION, OR SHOCK; INDICATING PRESENCE, ABSENCE, OR DIRECTION, OF MOVEMENT
    • G01P13/00Indicating or recording presence, absence, or direction, of movement
    • G01P13/02Indicating direction only, e.g. by weather vane
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Definitions

  • the invention belongs to the field of data processing analysis and calculation, and particularly relates to a data accompanying analysis method and device.
  • a trajectory composed of the location of the target number in a certain period of time can be obtained by number companion analysis, and then the trajectory of the target number is compared with the trajectory of other numbers, and the calculation is calculated.
  • the companion similarity between these numbers can be a very favorable basis for judging the intimacy between numbers.
  • the data density of mobile big data is very high, and the timeliness of number companion analysis is high in interactive applications.
  • the trajectory is first fitted to calculate the companion similarity between the numbers. Since the discrete deviation of the original data used to describe the trajectory of the number is large, it is necessary to construct a complex nonlinear mathematical model for fitting processing, which is high in complexity and consumes. It is longer.
  • the invention provides a data accompanying analysis method and device, which is used for solving the problem that the existing complexity is time-consuming and long-distance with the similarity by first fitting the trajectory.
  • the present invention provides a data companion analysis method, including:
  • a trajectory queue based on the target number calculates a companion similarity with other numbers.
  • the present invention provides a data accompanying analysis apparatus, including:
  • a dimension reduction module configured to perform dimensionality reduction processing on the two-dimensional spatial data in the original data of the target number to obtain one-dimensional spatial data of the target number
  • a data conversion module configured to convert one-dimensional spatial data and time data of the target number into a comparable a track queue of the target number
  • a calculation module configured to calculate a companion similarity between the other numbers based on the track queue of the target number.
  • the data accompanying analysis method and device divides the two-dimensional spatial data in the original data of the target number into one-dimensional spatial data of the target number, and the one-dimensional spatial data of the target number and the time data in the original data.
  • a track queue converted into a comparable target number, and a tracked queue based on the target number calculates the companion similarity with other numbers.
  • the original data is simplified by the dimensionality reduction processing, and the fitting process is no longer performed by the mathematical model, thereby reducing the complexity and improving the timeliness of the accompanying analysis.
  • FIG. 1 is a schematic flowchart of a data accompanying analysis method according to Embodiment 1 of the present invention.
  • FIG. 2 is a schematic flowchart of a data accompanying analysis method according to Embodiment 2 of the present invention.
  • FIG. 3 is a schematic flowchart of a data accompanying analysis method according to Embodiment 3 of the present invention.
  • FIG. 4 is a schematic flowchart of a data accompanying analysis method according to Embodiment 4 of the present invention.
  • FIG. 5 is a schematic structural diagram of a data accompanying analysis apparatus according to Embodiment 4 of the present invention.
  • FIG. 6 is a schematic structural diagram of a data accompanying analysis apparatus according to Embodiment 5 of the present invention.
  • FIG. 1 is a schematic flowchart diagram of a data accompanying analysis method according to Embodiment 1 of the present invention.
  • the data accompanying analysis method includes the following steps:
  • the positioning data includes data for representing a spatial dimension of position information and data for representing a time dimension of time, wherein the data of the spatial dimension is Longitude and latitude data.
  • the positioning data generated during the number movement process is defined as the original data, and the original data can indicate the position of the number at different times.
  • the positioning data is simplified.
  • the two-dimensional spatial data in the original data of the target number is reduced to one-dimensional spatial data, specifically, the two-dimensional spatial data of the target data, that is, the latitude and longitude data.
  • Spatial hash processing mapping two-dimensional spatial data into one-dimensional geohash coding, that is, latitude and longitude
  • the generation is mapped into a 32-ary code.
  • the unary geohash code is one-dimensional spatial data of the target number, and the location where the target number is located can be represented by the geohash code.
  • the trajectory record of the target number can indicate the location of the target number at different time points, and the time point corresponds to the time data in the original data. The location is represented by a single spatial data.
  • the track record of the target number is a record of the time point. In order to compare the data of the target number, further, it is necessary to perform data regularization on the track record of the target number to obtain a track queue of the target number, that is, the track of the target number. Record the recording method from the time point of recording to the time period.
  • the same process can be used to obtain the track queue of other numbers, and then the track number based on the target number is compared with the track queue of other numbers, and the target number is obtained based on the preset companion similarity strategy.
  • the other numbers may be one or more.
  • other numbers may be input by the user, or may be queried according to the target number.
  • the data companion analysis method provided by the embodiment converts the two-dimensional spatial data in the original data of the target number into one-dimensional spatial data of the target number, and converts the one-dimensional spatial data of the target number and the time data in the original data.
  • a comparable target trajectory queue based on the trajectory queue of the target number, calculates the companion similarity with other numbers.
  • the original data is simplified by the dimensionality reduction processing, and the fitting process is no longer performed by the mathematical model, thereby reducing the complexity and improving the timeliness of the accompanying analysis.
  • FIG. 2 is a schematic flowchart diagram of a data accompanying analysis method according to Embodiment 2 of the present invention.
  • the data accompanying analysis method includes the following steps:
  • the positioning data is simplified.
  • the two-dimensional spatial data in the original data of the target number is reduced to one-dimensional spatial data, specifically, the two-dimensional spatial data of the target data, that is, the latitude and longitude data.
  • Spatial hash processing mapping two-dimensional spatial data into one-dimensional geohash coding, that is, latitude and longitude
  • the generation is mapped into a 32-ary code.
  • the unary geohash code is one-dimensional spatial data of the target number, and the location where the target number is located can be represented by the geohash code.
  • the trajectory record of the target number can indicate the location of the target number at different time points, and the time point corresponds to the time data in the original data. The location is represented by a single spatial data.
  • the track record of the target number is a record of the time point. In order to compare the data of the target number, further, it is necessary to perform data regularization on the track record of the target number to obtain a track queue of the target number, that is, the track of the target number. Record the recording method from the time point of recording to the time period.
  • the time point indicating the earliest time is taken as the start time of the same position
  • the time point indicating the latest time is taken as the end time of the same position.
  • the trajectory corresponding to the same position is obtained.
  • the target number consecutive time points are in the same position, indicating that the target number is in the same position for a period of time, and does not leave the same position within the time period.
  • the data density of the original data is large, and it is not suitable for direct processing.
  • the duplicate records can be removed first, which can simplify the data.
  • the time point is used as the start time and the end time of the different position, and the trajectory corresponding to the different position is obtained.
  • the time periods of the respective tracks are discontinuous.
  • the number of geohash coded bits in each record in the track queue is adjusted to a preset number of bits, and then the endpoints of the time period of the track need to be adjusted to construct a track queue of the target numbers that can be compared.
  • the trajectories of the target number are sorted from the start time to the start time, and the end points of the time segments of the adjacent trajectories in the target number are sequentially adjusted so that the end points of the time segments of the adjacent trajectories coincide.
  • the track queue of the target number is obtained.
  • the end point of the time period is the start time and the end time of the time period.
  • the upper end of the time period of the current trajectory is the intermediate value of the end time of the previous trajectory and the start time of the self trajectory
  • the lower end point of the time period of the current trajectory is the end time is The middle of the end time of the body and the start time of the next track.
  • the lower end point of the time period of the current track is maintained unchanged, and the upper end point value of the time period of the next track is adjusted to the upper end point value of the time period of the current track, so that the end points of the time segments of the adjacent track overlap .
  • the target number is 155****2623.
  • the original data of this number is as follows:
  • the track record of the target number after S101 and S102 is as follows:
  • the trajectory of the target number is as follows:
  • the target number needs to be normalized to the first queue, and the number of digits encoded by geohash is discarded according to the preset number of bits, and then the endpoints of the period of the adjacent record are adjusted so that the adjacent records are on the time period.
  • the track queue of the target number is as follows:
  • the track number based on the target number calculates a companion similarity with other numbers.
  • the same process can be used to obtain the track queue of other numbers, and then the track number based on the target number is compared with the track queue of other numbers, and the target number is obtained based on the preset companion similarity strategy.
  • the other numbers may be one or more.
  • other numbers may be input by the user, or may be queried according to the target number.
  • the process of obtaining the companion similarity between the target number and other numbers based on the preset companion similarity calculation strategy includes:
  • the geohash encoding of the preset number of bits is first geographically layered, and presets are set with different weights for each level. Comparing each record in the target number track queue with each record of the other numbers, judging whether there is an intersection of the time segments of the two records that are compared with each other in time, and there is an overlap between the time segments of the intersection description, for example, The start time of one record of the target number is within the time period of one record of the other number, indicating that there is an intersection between the two in time.
  • the overlapping levels between the geohash codes representing the positions in the two records that are compared with each other are acquired, and the preset weights corresponding to the repeated layers are acquired, and the preset weights are
  • the preset intersection base is multiplied to obtain an intersection value.
  • the number of all intersections in time and the intersection value obtained at each intersection is added, and all the intersection values are added and compared with the number of intersections, which is used as the accompanying similarity between the target number and other numbers.
  • the three-dimensional Euclidean distance is no longer used to obtain the companion similarity, but the manner of acquiring the similarity is obtained based on the preset companion analysis strategy, which reduces the calculation difficulty and improves the efficiency of the accompanying analysis.
  • the geohash code selection may be reserved for 7 bits, wherein the 5th, 6th, and 7th bits in the code are set to participate in the calculation of the companion similarity.
  • Weight setting rule The cardinality when the intersection exists is set to 1. The geohash 7 digits are all the same, the weight is 1, the first 6 digits of geohash are the same, the 7th digit is different, the weight is 0.5, the first 5 digits of geohash are the same, the 6th digit is different, the weight is 0.25, the first 5 digits of geohash are different, or the time is No intersection weights are 0.
  • the formula for calculating the similarity the sum of all the intersection data/the number of times there is an intersection.
  • the data companion analysis method reduces the dimensionality of the two-dimensional spatial data in the original data of the target number into one-dimensional spatial data of the target number, and uses the one-dimensional spatial data of the target number and the time data in the original data to form Track record of the target number, and convert the track record of the target number into comparable by data rule processing
  • the lower target track queue based on the target number of the track queue, calculates the companion similarity with other numbers.
  • the original data is simplified by the dimensionality reduction processing, and the fitting process is no longer performed by the mathematical model, thereby reducing the complexity and improving the timeliness of the accompanying analysis.
  • FIG. 3 is a schematic flowchart diagram of a data accompanying analysis method according to Embodiment 3 of the present invention.
  • the data accompanying analysis method includes the following steps:
  • S300 Receive query information input by a user.
  • the query information includes the query number and the query time period, wherein the number of the query number is 1, and the query number is used as the target number.
  • the query information may be input through the query interface, where the query information includes the query number and the query time period.
  • the number of the queried number may be one or more.
  • the known target number and other numbers compared with the target number are used as an application scenario, and the number is queried in the application scenario. One of them is used as the target number, and the remaining inquiry numbers are used as other numbers. The other numbers are compared with the target number, and the target numbers are not compared with each other.
  • the S301 is performed.
  • the description in the first embodiment S101 and details are not described herein again.
  • the track record of the target number is used to record the position of the target number at different time points, and the time point corresponds to the time data in the original data; the position is represented by one-dimensional spatial data.
  • the track queue of the target number is used to record the location of the target number in different time periods, and the time period is generated by the time point in the track record of the target number.
  • the other numbers are operated by the process of the target numbers S301 to S303 to obtain a track queue of other numbers.
  • S301 to S303 may be synchronized, or S301 to S303 may be executed first, and then S304 to S306 may be executed.
  • the query information input by the user includes an inquiry number, wherein the inquiry number includes a target number and other numbers compared with the target number.
  • the query information carries two queries, the target number is the query number 1 (ID1), and the other numbers to be compared are the query number 2 (ID2), ID 1: 155, 2623, ID 2: 150 *** *8803; query time period (Time): 2015-04-01_00:00:00 -2015-04-06_23:59:59
  • the track record of ID1 is as follows:
  • the track record of ID2 is as follows:
  • the track of the query number is obtained. Specifically, the process of data deduplication and sparse processing is performed on the trajectory record of the query number: the records with the same position at the continuous time point are merged, and the time point indicating the earliest time is taken as the start time of the position, which will represent the latest time. The time point is used as the end time of the position. For the records of different positions, the time point corresponding to the position is used as the start time and the end time of the corresponding time period, that is, the start and end time of the time period may be the same.
  • the geohash code of each track in the target number is adjusted to a preset number of bits, the track of the target number is sorted, and the end points of the time period of the track are adjusted, so that the end points of the time segments of the adjacent two tracks can be coincident, and the query is obtained.
  • the track queue for the number Specifically, the starting time is sorted from early to late, and the end points of the time segments of the adjacent tracks are adjusted in order, for example, the intermediate values of the ending time of the previous segment and the starting time of the subsequent segment are respectively taken as the front. The end time of one segment and the start time of the latter segment make the endpoints of the time segments of adjacent tracks coincide, so that the time can be docked to form a comparable track queue.
  • the track queue for ID1 is as follows:
  • the track queue for ID2 is as follows:
  • the companion similarity between the two query numbers is calculated according to a preset companion similarity calculation strategy.
  • Gehash chose to retain 7 digits, of which 5, 6, and 7 participated in the calculation of the similarity. First, it is judged whether there is an intersection in time, and whether there is overlap in the time period. For example, the start time of 1con1 is within the range of 2conN, and 1con1 and 2conN have time intersection.
  • the set intersection base is 1.
  • the geohash 7 digits are all the same, the weight is 1, the first 6 digits of geohash are the same, the 7th digit is different, the weight is 0.5, the first 5 digits of geohash are the same, the 6th digit is different, the weight is 0.25, the first 5 digits of geohash are different, or the time is The non-intersection weights are all zero.
  • 1con5 is compared with 2con1 ⁇ 2con5 respectively, wherein 1con4 and 2con1, 2con2, 2con3 and 2con5 have no intersection in time, 1con5 and 2con4 have time intersection, the first 5 digits of geohash are the same, the 6th digit is different, the intersection value is 1* 0.25;
  • the user can specify two numbers for comparison, obtain one-dimensional spatial data after dimension reduction of the two-dimensional spatial data, and then form a comparable trajectory sequence based on the one-dimensional spatial data and the time data, using the preset.
  • a companion similarity calculation strategy acquires the companion similarity between two numbers.
  • FIG. 4 is a schematic flowchart diagram of a data accompanying analysis method according to Embodiment 4 of the present invention.
  • the data accompanying analysis method includes the following steps:
  • S400 Receive query information input by a user.
  • the query information includes the query number and the query time period, wherein the number of the query number is 1, and the query number is used as the target number.
  • the query information may be input through the query interface, wherein the query information includes the query number, the query time period, and the number of potential numbers that are similar to the target number.
  • the potential number of the trajectory similar to the target number is obtained as the target scenario.
  • the number of the query number is 1. In this application scenario, the query number is used as the target number.
  • the S401 After the query information input by the user is received, the S401 is performed. For the specific content of the S401, refer to the description in the first embodiment S101, and details are not described herein again.
  • the track record of the target number is used to record the position of the target number at different time points, and the time point corresponds to the time data in the original data; the position is represented by one-dimensional spatial data.
  • the track queue of the target number is used to record the location of the target number in different time periods, and the time period is generated by the time point in the track record of the target number.
  • the track queue of the target number is used to record the location of the target number in different time segments
  • the trusted interval of the target number may be obtained according to the track queue of the target number, wherein the trusted interval includes The time domain and the trusted space domain, wherein the trusted time threshold is the time period in each record in the track queue, and the specific process of the trusted space domain: the threshold value is corrected in the position of each record in the track queue, Use the corrected location as the trusted spatial domain.
  • the same top 5 bits in the geohash code for each location can be used as the trusted spatial domain.
  • the top five in the geohash code represent Beijing, and four of the top five are added to represent the specific district/county in Beijing.
  • the first 5 bits in the geohash coding are used as the trusted spatial domain.
  • the trusted interval corresponding to the target number is searched for a potential number similar to the trajectory record of the target number according to the trusted interval of the target number.
  • the potential number is operated by the process of the target numbers S401 to S403 to obtain a track queue of potential numbers.
  • the process of the target numbers S401 to S403 to obtain a track queue of potential numbers.
  • the potential number is used as another number, each record in the track queue of the target number is compared with each record in the track queue of each other number, and then the strategy is calculated based on the preset companion similarity degree. , calculating the companion similarity between the target number and each of the other numbers.
  • the accompanying similarities may be sorted in descending order, and the accompanying similarity list of the target number is generated in order.
  • the first few bits of all the companion similarities after sorting are selected to generate a companion similarity list of the target number.
  • the query information input by the user includes the inquiry number: 155****2623; the query time period: Time:2015-04-01_00:00:00-2015-04-06_23:59:59; returning a potential similar to the target number Number of numbers: TopN: 3; where the inquiry number is the target number.
  • the track queue of the target number ID is obtained as follows.
  • the process of the dimension reduction processing and the data regularization of the target number refer to the description in the related example in the foregoing Embodiment 2, and details are not described herein again.
  • the trusted interval is obtained from the track queue of the target number, and the trusted interval includes a time trusted interval and a spatial trusted interval; that is, a time segment and a position included in the target number track queue.
  • the number of each record hit with the target number is taken as the potential number, wherein the target number itself is not included in the potential number.
  • the potential numbers are sorted by number of hits as:
  • the first three potential numbers and the accompanying similarity list with the similarity generating target numbers are taken, and the list is as follows:
  • the user can specify a target number, and then find a potential number with similar trajectory as another number based on the trajectory of the target number, based on the trajectory sequence of the target number and the potential number, using a preset companion similarity calculation strategy, Get the companion similarity between the two numbers.
  • FIG. 5 is a schematic flowchart diagram of a data accompanying analysis method according to Embodiment 5 of the present invention.
  • the data companion analysis device includes a dimension reduction module 11, a data conversion module 12, and a calculation module 13.
  • the dimension reduction module 11 is configured to perform dimensionality reduction processing on the two-dimensional spatial data in the original data of the target number to obtain one-dimensional spatial data of the target number.
  • the positioning data includes data for representing a spatial dimension of position information and data for representing a time dimension of time, wherein the data of the spatial dimension is Longitude and latitude data.
  • the positioning data generated during the number movement process is defined as the original data, and the original data can indicate the position of the number at different times.
  • the dimension reduction module 11 reduces the two-dimensional spatial data in the original data of the target number into one-dimensional spatial data. Specifically, the dimension reduction module 11 targets the target data.
  • the two-dimensional spatial data that is, the latitude and longitude data
  • the two-dimensional spatial data is mapped into a one-dimensional geohash code, that is, the latitude and longitude are sequentially iteratively mapped into a 32-ary code.
  • the unary geohash code is one-dimensional spatial data of the target number, and the location where the target number is located can be represented by the geohash code.
  • the data conversion module 12 is configured to convert the one-dimensional spatial data and the time data of the target number into a track queue of the comparable target numbers.
  • the data conversion module 12 generates a trajectory record of the target number by using one-dimensional spatial data of the target number and time data in the original data.
  • the track record of the target number is used to record the position of the target number at different time points, and the time point corresponds to time data in the original data; the position is represented by one-dimensional spatial data.
  • the data conversion module 12 After the two-dimensional spatial data in the original data is converted into one-dimensional spatial data, the corresponding time data does not change.
  • the data conversion module 12 After acquiring the one-dimensional spatial data of the target number, the data conversion module 12 combines the one-dimensional spatial data with the time data corresponding to the one-dimensional spatial data in the original data to construct a trajectory record of the target number.
  • the trajectory record of the target number can indicate the location of the target number at different time points, and the time point corresponds to the time data in the original data. The location is represented by a single spatial data.
  • the data conversion module 12 performs data normalization on the trajectory record of the target number to obtain a trajectory queue of the target number.
  • the track queue of the target number is used to record the location of the target number in different time periods, wherein the time period is generated by a time point in the track record of the target number.
  • the track record of the target number is a record of the time point. Further, the data conversion module 12 performs data normalization on the track record of the target number, and converts the track record of the target number from the record mode at the time point to the record mode of the time segment. Specifically, for the record at the same position at different time points in the trajectory record of the target number, the time point indicating the earliest time is taken as the start time of the same position, and the time point indicating the latest time is taken as the end time of the same position. , the trajectory corresponding to the same position is obtained. In practical applications, the data density of the original data is large, and it is not suitable for direct processing. In this embodiment, after the records with the same location are combined based on the time points, the duplicate records can be removed first, which can simplify the data.
  • the specific process of the data conversion module 12 performing data normalization on the trajectory record of the target number to obtain the trajectory queue of the target number is as follows:
  • the time point is used as the start time and the end time of the different position, and the trajectory corresponding to the different position is obtained.
  • the time periods of the respective tracks are discontinuous.
  • the geohash code of all the tracks of the target number is first adjusted to the preset position, and then the end points of the time period of the track need to be adjusted to construct a track queue of the target numbers that can be compared.
  • all the trajectories of the target number are sorted from the start time to the start time, and the end points of the time segments of the adjacent trajectories in the target number are sequentially adjusted so that the end points of the time segments of the adjacent trajectories coincide.
  • the track queue of the target number is obtained.
  • the end point of the time period is the start time and the end time of the time period.
  • the upper end of the time period of the current track is the start time of the previous track.
  • the intermediate value of the end time and the start time of the self, the lower end of the time period of the current trajectory, that is, the end time is the intermediate value between the end time of the own trajectory and the start time of the next trajectory.
  • the lower end point of the time period of the current track is maintained unchanged, and the upper end point value of the time period of the next track is adjusted to the upper end point value of the time period of the current track, so that the end points of the time segments of the adjacent track overlap .
  • the calculation module 13 is configured to calculate a companion similarity with other numbers based on the trajectory queue of the target number.
  • the same process can be used to obtain the track queue of other numbers, and the calculation module 13 compares the track queue based on the target number with the track queue of other numbers, and acquires based on the preset companion similarity strategy.
  • the accompanying similarity between the target number and the other numbers may be one or more in the embodiment.
  • other numbers may be input by the user, or may be queried according to the target number.
  • the data companion analyzing apparatus reduces the dimensionality of the two-dimensional spatial data in the original data of the target number into one-dimensional spatial data of the target number, and uses the one-dimensional spatial data of the target number and the time data in the original data to form
  • the track record of the target number is converted into a comparable target track queue by the data rule processing, and the accompanying similarity between the number and the other number is calculated based on the track number of the target number.
  • the original data is simplified by the dimensionality reduction processing, and the fitting process is no longer performed by the mathematical model, thereby reducing the complexity and improving the timeliness of the accompanying analysis.
  • FIG. 6 is a schematic flowchart diagram of a data accompanying analysis method according to Embodiment 5 of the present invention.
  • the data companion analyzing device includes a receiving module 14, a trusted interval obtaining module 15, and a searching module 16 in addition to the dimensionality reducing module 11, the data conversion module 12, and the computing module 13 in the above fourth example.
  • the dimension reduction module 11 is specifically configured to perform two-dimensional spatial hashing on the two-dimensional spatial data in the original data of the target number to obtain one-dimensional geohash coding as one-dimensional spatial data of the target number.
  • an optional configuration manner of the data conversion module 12 includes: a track record unit 121 and a track queue unit 122.
  • a track record unit 121 configured to generate a track record of the target number by using one-dimensional spatial data of the target number and time data in the original data; wherein the track record of the target number is used to record the target number At the different locations, the time points correspond to the time data in the original data; the location is represented by one-dimensional spatial data.
  • the track queue unit 122 is configured to perform data normalization on the track record of the target number to obtain a track queue of the target number; wherein the track queue of the target number is used to record the target number in different time periods The location in which the time period is generated from a point in time in the track record of the target number.
  • an optional structural method of the track queue unit 122 includes: an obtaining subunit 1221, a bit adjustment subunit 1222, a sorting subunit 1223, and a time adjusting subunit 1224.
  • the obtaining sub-unit 1221 is configured to record at the same position at different time points in the trajectory record of the target number, and use the time point indicating the earliest time as the start time of the same position, and the time point indicating the latest time As the end time of the same position, a trajectory corresponding to the same position is obtained, and records at different positions in different trajectories in the trajectory record of the target number are obtained, and a time point is used as a start time of the different position and At the end time, the trajectory corresponding to the different positions is obtained.
  • the bit adjustment subunit 1222 is configured to adjust the number of digits encoded by the geohash in each of the target numbers to a preset number of bits.
  • the sorting sub-unit 1223 is configured to sort all the trajectories of the target number from the start time to the morning.
  • the time adjustment sub-unit 1224 is configured to adjust end points of the time segments of the adjacent tracks in the target number to overlap the end points of the time segments of the adjacent tracks to obtain a track queue of the target number.
  • the receiving module 14 is configured to receive the query information input by the user, where the query information includes an inquiry number and a query time period, wherein the number of the query number is 1, and the query number is used as the target number.
  • the trusted interval obtaining module 15 is configured to obtain a trusted interval of the target number according to the track queue of the target number.
  • the searching module 16 is configured to acquire a potential number similar to the track record of the target number according to the trusted interval.
  • the dimension reduction module 11 is further configured to perform dimensionality reduction processing on the two-dimensional spatial data in the original data of the potential number to obtain one-dimensional spatial data of the potential number.
  • the trajectory recording unit 121 is further configured to generate a trajectory record of the potential number by using one-dimensional spatial data of the potential number and time data in the original data.
  • the track queue unit 122 is further configured to perform data regularization on the track record of the potential number to obtain a track queue of the potential number.
  • the calculating module 13 is specifically configured to use the potential number as the other number, and calculate a companion similarity between the target number and each of the other numbers based on a preset companion similarity calculation strategy.
  • the calculating module 13 is further configured to: rank the accompanying similarity between the target number and each of the potential numbers Order to obtain a list of companion similarities of the target number.
  • the receiving module 15 is further configured to receive the query information input by the user, where the query information includes an inquiry number and a query time period, wherein the number of the query numbers is at least 2, and one of the query numbers is used as the The target number, the remaining inquiry number is used as the other number.
  • the dimension reduction module 11 is further configured to perform dimensionality reduction processing on the two-dimensional spatial data in the original data of the potential number to obtain one-dimensional spatial data of the potential number;
  • the trajectory recording unit 121 is further configured to generate a trajectory record of the potential number by using one-dimensional spatial data of the potential number and time data in the original data;
  • the track queue unit 122 is further configured to perform data regularization on the track record of the potential number to obtain a track queue of the potential number.
  • the calculating module 13 is specifically configured to calculate a companion similarity between the target number and each of the other numbers based on a preset companion similarity calculation strategy.
  • an optional structural method of the computing module 13 includes: a geographic layering unit 131, a preset unit 132, a comparing unit 133, a determining unit 134, a weight calculating unit 135, and a similarity calculating unit 136.
  • the geographic layering unit 131 is configured to perform geographic layering on the geohash code of the preset number of bits.
  • the preset unit 132 is configured to set different weights for each level of the geohash encoding.
  • the comparing unit 133 is configured to compare each record in the target number track queue with each of the other numbers.
  • the determining unit 134 is configured to determine whether there is an intersection between the two records that are compared with each other in time.
  • the weight calculation unit 135 is configured to: if it is determined that there is an intersection, acquire a hierarchy of repetitions between the geohash codes in the two records that are compared with each other, and obtain an intersection according to the weight corresponding to the repeated hierarchy and the preset intersection base Value.
  • the similarity calculation unit 136 is configured to add all the intersection values and compare the number of intersections with the number of intersections, and use the ratio as the accompanying similarity between the target number and the other numbers.
  • the data companion analyzing apparatus reduces the dimensionality of the two-dimensional spatial data in the original data of the target number into one-dimensional spatial data of the target number, and uses the one-dimensional spatial data of the target number and the time data in the original data to form
  • the track record of the target number is converted into a comparable target track queue by the data rule processing, and the accompanying similarity between the number and the other number is calculated based on the track number of the target number.
  • the original data is simplified by the dimensionality reduction processing, and the fitting process is no longer performed by the mathematical model, thereby reducing the complexity and improving the timeliness of the accompanying analysis.
  • the aforementioned program can be stored in a computer readable storage medium.
  • the program when executed, performs the steps including the foregoing method embodiments; and the foregoing storage medium includes various media that can store program codes, such as a ROM, a RAM, a magnetic disk, or an optical disk.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据伴随分析方法及装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,将目标号码的一维空间数据和原始数据中的时间数据转换成可比较的目标号码的轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本发明中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。

Description

数据伴随分析方法及装置
本申请要求2016年3月25日递交的申请号为201610179784.8、发明名称为“数据伴随分析方法及装置”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明属于数据处理分析计算领域,尤其涉及一种数据伴随分析方法及装置。
背景技术
在移动大数据中,有很多有用的定位数据。为从移动大数据中挖掘这些有用的定位数据,可以通过号码伴随分析获取某时间段内目标号码经历的地点组成的一段轨迹,然后将该目标号码的轨迹与其他号码的轨迹进行比较,计算出这些号码之间的伴随相似度,该伴随相似度可以为号码间的亲密度判断提高十分有利的依据。
移动大数据的数据密度非常高,而在交互应用中对于号码伴随分析的时效性要求较高。目前先拟合轨迹再计算号码之间的伴随相似度,由于用于描述号码的轨迹的原始数据的离散偏离幅度大,需要构建复杂的非线性数学模型进行拟合处理,复杂度较高且耗时较长。
发明内容
本发明提供一种数据伴随分析方法及装置,用于解决现有通过先拟合轨迹再计算伴随相似度存在复杂度高耗时长的问题。
为了实现上述目的,本发明提供了一种数据伴随分析方法,包括:
对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
为了实现上述目的,本发明提供了一种数据伴随分析装置,包括:
降维模块,用于对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
数据转换模块,用于将所述目标号码的一维空间数据和时间数据转换成可比较的所 述目标号码的轨迹队列;
计算模块,用于基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
本发明提供的数据伴随分析方法及装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,将目标号码的一维空间数据和原始数据中的时间数据转换成可比较的目标号码的轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本发明中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
附图说明
图1为本发明实施例一的数据伴随分析方法的流程示意图;
图2为本发明实施例二的数据伴随分析方法的流程示意图;
图3为本发明实施例三的数据伴随分析方法的流程示意图;
图4为本发明实施例四的数据伴随分析方法的流程示意图;
图5为本发明实施例四的数据伴随分析装置的结构示意图;
图6为本发明实施例五的数据伴随分析装置的结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的数据伴随分析方法及装置进行详细描述。
实施例一
如图1所示,其为本发明实施例一的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S101、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
在号码移动的过程中,会产生很多的定位数据,一般情况下,这些定位数据包括用于表示位置信息的空间维度的数据和用于表示时间的时间维度的数据,其中,空间维度的数据由经度和纬度数据构成。本实施例中,将号码移动过程中产生的定位数据定义为原始数据,通过原始数据可以表示该号码在不同时刻所处的位置。
为了减低原始数据的维度,来简化定位数据,本实施例中,将目标号码的原始数据中二维空间数据降维成一维空间数据,具体地,对目标数据的二维空间数据即经纬度数据进行空间hash化处理,将二维空间数据映射成一元geohash编码,即将经纬度依次迭 代映射成32进制的编码中。本实施例中,该一元geohash编码就是该目标号码的一维空间数据,此时就可以通过该geohash编码表示目标号码所处的位置。
S102、将目标号码的一维空间数据和时间数据转换成可比较的目标号码的轨迹队列。
原始数据中的二维空间数据转换成一维空间数据后,其对应的时间数据不会发生变化。在获取到目标号码的一维空间数据后,与原始数据中与该一维空间数据对应的时间数据结合,就能够构成该目标号码的轨迹记录。本实施例中,该目标号码的轨迹记录能够表示出该目标号码在不同时间点所处的位置,时间点对应原始数据中的时间数据。所处位置用一位空间数据表示。
目标号码的轨迹记录是一种时间点的记录,为了能够将目标号码的数据进行比较,进一步地,需要对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列,即将目标号码的轨迹记录从时间点的记录方式转换成时间段的记录方式。
S103、基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。
在获取到目标号码的轨迹队列后,可以用相同的过程获取其他号码的轨迹队列,然后将基于目标号码的轨迹队列和其他号码的轨迹队列进行比较,基于预设的伴随相似度策略获取目标号码和其他号码之间的伴随相似度,本实施例中,其他号码可以为一个也可以是多个。可选地,其他号码可以用户输入,也可以根据目标号码查询到的轨迹相似的号码。
本实施例提供的数据伴随分析方法,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,将目标号码的一维空间数据和原始数据中的时间数据转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
实施例二
如图2所示,其为本发明实施例二的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S201、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
为了减低原始数据的维度,来简化定位数据,本实施例中,将目标号码的原始数据中二维空间数据降维成一维空间数据,具体地,对目标数据的二维空间数据即经纬度数据进行空间hash化处理,将二维空间数据映射成一元geohash编码,即将经纬度依次迭 代映射成32进制的编码中。本实施例中,该一元geohash编码就是该目标号码的一维空间数据,此时就可以通过该geohash编码表示目标号码所处的位置。
S202、利用目标号码的一维空间数据和原始数据中的时间数据生成目标号码的轨迹记录。
原始数据中的二维空间数据转换成一维空间数据后,其对应的时间数据不会发生变化。在获取到目标号码的一维空间数据后,与原始数据中与该一维空间数据对应的时间数据结合,就能够构成该目标号码的轨迹记录。本实施例中,该目标号码的轨迹记录能够表示出该目标号码在不同时间点所处的位置,时间点对应原始数据中的时间数据。所处位置用一位空间数据表示。
S203、对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列。
目标号码的轨迹记录是一种时间点的记录,为了能够将目标号码的数据进行比较,进一步地,需要对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列,即将目标号码的轨迹记录从时间点的记录方式转换成时间段的记录方式。
具体地,针对目标号码的轨迹记录中连续时间点处在相同位置的记录,将表示最早时间的时间点作为该相同位置的开始时间,将表示最晚时间的时间点作为该相同位置的结束时间,得到该相同位置对应的轨迹。其中,目标号码连续时间点处在相同位置,说明目标号码在一段时间内处于该相同位置上,并未在该时间段内离开该相同位置。实际应用中,原始数据的数据密度大,不宜直接处理,本实施例中将位置相同的记录基于时间点进行合并后,可以先去除重复的记录,能够起到简化数据的作用。
针对目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为该不同位置的开始时间和结束时间,得到该不同位置对应的轨迹。
在完成从时间点的记录格式转换到时间段的记录格式后,各轨迹的时间段之间是不连续的。为了能够将目标号码的轨迹进行比较,需要将不连续的时间段进行连续化处理。具体地,将轨迹队列中每条记录中的geohash编码的位数调整到预设的位数,然后需要对轨迹的时间段的端点进行调整,以构建可进行比较的目标号码的轨迹队列。首先,将目标号码的所有轨迹按照开始时间从早到晚进行排序,按序对目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,在完成所有的轨迹的时间段端点的调整后,得到目标号码的轨迹队列。其中,本实施例中,时间段的端点就是时间段的开始时间和结束时间。例如,当前轨迹的时间段的上端点即开始时间为上一个轨迹的结束时间和自身开始时间的中间值,当前轨迹的时间段的下端点即结束时间为自 身的结束时间与下一个轨迹的开始时间的中间值。例如,将当前轨迹的时间段的下端点维持不变,而将下一个轨迹的时间段的上端点值调整为当前轨迹的时间段的上端点值,使得相邻的轨迹的时间段的端点重合。
下面举例对S101~S103进行解释说明:
目标号码为155****2623,该号码的原始数据如下:
Figure PCTCN2017076875-appb-000001
经过S101和S102之后得到目标号码的轨迹记录如下:
Figure PCTCN2017076875-appb-000002
在S103的处理过程中,目标号码的轨迹如下:
Figure PCTCN2017076875-appb-000003
在对目标号码需要对第一队列进规整,按照预设位数对geohash编码的部分位数进行舍弃,然后将对相邻记录的时段段的端点进行调整,使相邻的记录在时间段上连续:目标号码的轨迹队列如下:
Figure PCTCN2017076875-appb-000004
Figure PCTCN2017076875-appb-000005
S204、基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。
在获取到目标号码的轨迹队列后,可以用相同的过程获取其他号码的轨迹队列,然后将基于目标号码的轨迹队列和其他号码的轨迹队列进行比较,基于预设的伴随相似度策略获取目标号码和其他号码之间的伴随相似度,本实施例中,其他号码可以为一个也可以是多个。可选地,其他号码可以用户输入,也可以根据目标号码查询到的轨迹相似的号码。
基于预设的伴随相似度计算策略获取目标号码和其他号码之间的伴随相似度的过程包括:
首先对预设位数的geohash编码进行地理分层,并且预设为每个层次设置不同的权重。将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较,判断相互比较的两条记录的时间段在时间上是否存在交集,存在交集说明两者的时间段存在时间重叠,例如,目标号码的一条记录的起始时间在其他号码的一条记录的时间段范围内,说明两者在时间上存在交集。
本实施例中,当存在交集时,获取相互比较的两条记录中的表示位置的geohash编码之间的重复的层次,获取与该重复的层次对应的预设的权重,将预设的权重和预设的交集基数相乘得到一个交集数值。将所有在时间上存在交集的次数,以及每次交集时获取到的交集数值,将所有交集数值相加后与交集的次数做比值,该比值作为目标号码与其他号码之间的伴随相似度。本实施例中,不再利用三维欧式距离来获取伴随相似度,而是基于上述预设的伴随分析策略获取伴随相似度的方式,减少计算难度,提高伴随分析的效率。
例如,可以将geohash编码选择保留7位,其中,设定该编码中第5位、第6位和第7位参与伴随相似度的计算。权重的设置规则:存在交集时的基数设为1。geohash 7位全相同,权重为1,geohash前6位相同,第7位不同,权重为0.5,geohash前5位相同,第6位不同,权重为0.25,geohash前5位都不同,或者时间上无交集权重都为0。伴随相似度的计算公式:所有的交集数据之和/时间上有交集的次数。
本实施例提供的数据伴随分析方法,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,利用目标号码的一维空间数据和原始数据中的时间数据构成目标号码的轨迹记录,通过数据规则处理将目标号码的轨迹记录转换成可比 较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
实施例三
如图3所示,其为本发明实施例三的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S300、接收用户输入的查询信息。
其中查询信息中包括查询号码和查询时间段,其中,查询号码个数为1,将查询号码作为目标号码。
当用户试图对目标号码进行伴随分析时,可以通过查询界面输入查询信息,其中,查询信息包括查询号码和查询时间段。查询号码的个数可以为1个也可以为多个,本实施例中,以已知目标号码和与该目标号码进行比较的其他号码作为一种应用场景进行说明,在该应用场景下查询号码中的一个作为目标号码,剩余的查询号码作为其他号码,其他号码均与目标号码进行比较,目标号码之间不进行相互比较。
S301、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
在接收到用户输入的查询信息后执行S301,S301的具体内容可参见上述实施例一S101中的记载,此次不再赘述。
S302、利用目标号码的一维空间数据和原始数据中的时间数据生成目标号码的轨迹记录。
其中,目标号码的轨迹记录用于记录目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
S303、对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列。
其中,目标号码的轨迹队列用于记录目标号码在不同时间段内所处的位置,所述时间段由目标号码的轨迹记录中的时间点生成。
S304、对其他号码原始数据中二维空间数据进行降维处理以得到其他号码的一维空间数据。
S305、利用其他号码的一维空间数据和原始数据中的时间数据生成其他号码的轨迹记录。
S306、对其他号码的轨迹记录进行数据规整,以得到其他号码的轨迹队列。
采用目标号码S301~S303的处理过程对其他号码进行操作,以得到其他号码的轨迹队列。具体处理过程参见上述实施例中相关内容的记载,此次不再赘述。其中S301~S303与可以同步进行,也可以先执行S301~S303,再执行S304~S306。
S307、基于预设的伴随相似度计算策略以及目标号码的轨迹队列和其他号码的轨迹队列,计算目标号码与每个其他号码之间的伴随相似度。
将目标号码的轨迹队列中每一条记录分别与每个其他号码的轨迹队列中每一条记录进行比较,然后基于预设的伴随相似度计算策略,计算目标号码与每个其他号码之间的伴随相似度。其中,伴随相似度计算策略,参见上述实施例一中相关内容的记载,此次不再赘述。
为了更好地理解本实施例提供的数据伴随分析方法,下面一个具体的例子进行解释说明:
用户输入的查询信息包括查询号码,其中查询号码中包括目标号码和与该目标号码进行比较的其他号码。在该示例中查询信息中携带两个查询,目标号码为查询号码1(ID1),待比较的其他号码为查询号码2(ID2),ID1:155****2623,ID2:150****8803;查询时间段(Time):2015-04-01_00:00:00——2015-04-06_23:59:59
ID1在2015-04-01_00:00:00——2015-04-06_23:59:59内的所有的原始数据:
Figure PCTCN2017076875-appb-000006
ID2在2015-04-01_00:00:00——2015-04-06_23:59:59内的所有原始数据:
Figure PCTCN2017076875-appb-000007
对查询号码原始数据中的二维数据进行降维处理以得到一维空间数据,然后利用一 维空间数据与原始数据中的时间数据生成查询号码的轨迹记录。
ID1的轨迹记录如下:
Figure PCTCN2017076875-appb-000008
ID2的轨迹记录如下:
Figure PCTCN2017076875-appb-000009
对查询号码的轨迹记录进行数据去重和稀疏处理后,得到查询号码的轨迹。具体地,对查询号码的轨迹记录进行数据去重和稀疏处理的过程:将连续时间点处在位置相同的记录合并,将表示最早时间的时间点作为该位置的开始时间,将表示最晚时间的时间点作为该位置的结束时间,对于不同位置的记录,以该位置对应的时间点作为对应时间段的开始时间和结束时间,也就是说,时间段的开始和结束时间可以相同。
对ID1的轨迹记录进行相同的数据去重和稀疏处理过程,得到ID1的轨迹如下:
Figure PCTCN2017076875-appb-000010
对ID2的轨迹记录进行相同的数据去重和稀疏处理过程,得到ID2的轨迹如下:
Figure PCTCN2017076875-appb-000011
Figure PCTCN2017076875-appb-000012
对目标号码中每条轨迹的geohash编码调整到预设位数,对目标号码的轨迹进行排序,调整轨迹的时间段的端点,使得相邻的两条轨迹的时间段的端点能够重合,得到查询号码的轨迹队列。具体地,按照开始时间从早到晚进行排序,排序后按照顺序对相邻的轨迹的时间段的端点进行调整,例如,将前一段的结束时间与后一段的开始时间的中间值分别作为前一段的结束时间和后一段的开始时间,使得相邻的轨迹的时间段的端点重合,使得时间上可以对接起来,构成一个可比较的轨迹队列。
ID1的轨迹队列如下:
Figure PCTCN2017076875-appb-000013
ID2的轨迹队列如下:
Figure PCTCN2017076875-appb-000014
根据预设的伴随相似度计算策略,计算两个查询号码之间的伴随相似度。
geohash选择保留7位,其中第5、6、7三位参与伴随相似度的计算。首先判断时间上有无交集,时间段是否有重叠,如1con1的起始时间在2conN的时间段范围内,那1con1与2conN有时间交集。
不同的重复位对应不同的权重:设置的交集基数为1。geohash 7位全相同,权重为1,geohash前6位相同,第7位不同,权重为0.5,geohash前5位相同,第6位不同,权重为0.25,geohash前5位都不同,或者时间上无交集权重都为为0。
将1con1分别与2con1~2con5相比较,其中,1con1与2con1、2con2、2con3以及2con5在时间上无交集;1con1与2con4时间上有交集,geohash前5位相同,第6位不 同,交集数值=1*0.25;
类似地,将1con2分别与2con1~2con5相比较,其中,1con2与2con1、2con2、2con3以及2con5在时间上无交集,1con2与2con4时间上有交集,geohash前5位相同,第6位不同,交集数值=1*0.25;
将1con3与2con1~2con5相比较,其中,1con3与2con1、2con2、2con3以及2con5在时间上无交集,1con3与2con4时间上有交集,geohash前5位相同,第6位不同,交集数值=1*0.25;
将1con4分别与2con1~2con5相比较,其中,1con4与2con1、2con2、2con3以及2con5在时间上无交集,1con4与2con4时间上有交集,geohash前5位相同,第6位不同,交集数值=1*0.25;
1con5分别与2con1~2con5相比较,其中,1con4与2con1、2con2、2con3以及2con5在时间上无交集,1con5与2con4时间上有交集,geohash前5位相同,第6位不同,交集数值=1*0.25;
则目标号码与其他号码之间的伴随相似度为:(+1*0.25+….+1*0.25)/(时间上有交集的次数)=0.25。
在上述示例中,用户可以指定两个号码进行比较,在经过将二维空间数据降维后获取到一维空间数据,然后基于一维空间数据和时间数据构成可比较的轨迹序列,使用预设的伴随相似度计算策略,获取两个号码之间的伴随相似度。
实施例四
如图4所示,其为本发明实施例四的数据伴随分析方法的流程示意图。该数据伴随分析方法包括以下步骤:
S400、接收用户输入的查询信息。
其中查询信息中包括查询号码和查询时间段,其中,查询号码个数为1,将查询号码作为目标号码。
当用户试图对目标号码进行伴随分析时,可以通过查询界面输入查询信息,其中,查询信息包括查询号码、查询时间段和返回与目标号码相似的潜在号码的个数。本实施例中,以通过目标号码获取与该目标号码相似轨迹的潜在号码作为一种应用场景,此时查询号码的个数为1,在该应用场景下,将查询号码作为目标号码。
S401、对目标号码的原始数据中二维空间数据进行降维处理以得到目标号码的一维空间数据。
在接收到用户输入的查询信息后执行S401,S401的具体内容可参见上述实施例一S101中的记载,此次不再赘述。
S402、利用目标号码的一维空间数据和原始数据中的时间数据生成目标号码的轨迹记录。
其中,目标号码的轨迹记录用于记录目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
S403、对目标号码的轨迹记录进行数据规整,以得到目标号码的轨迹队列。
其中,目标号码的轨迹队列用于记录目标号码在不同时间段内所处的位置,所述时间段由目标号码的轨迹记录中的时间点生成。
S302~S303的具体内容可参见上述实施例一S102~S103中的记载,此次不再赘述。
S404、从目标号码的轨迹队列中获取目标号码的可信区间。
本实施例中,目标号码的轨迹队列用于记录目标号码在不同时间段内所处的位置,根据目标号码的轨迹队列,可以获取到该目标号码的可信区间,其中,可信区间包括可信时间域和可信空间域,其中可信时间阈为轨迹队列中每条记录中的时间段,可信空间域的具体过程:将轨迹队列中每条记录中所处位置进行阈值的修正,将修正后的位置作为可信空间域。例如,将每一个位置的geohash编码中相同的前5位可以作为可信空间域。例如,geohash编码中前五位表示北京,在前五位的基础上加上四位可以表示到所处北京的具体区/县。为了保证空间的可信度,将geohash编码中的前5位作为可信空间域。
S405、根据可信区间获取与目标号码的轨迹记录相似的潜在号码。
在获取到可信区间,根据该目标号码的可信区间在查询时间段内,查找与该目标号码的轨迹记录相似的潜在号码。
S406、对潜在号码的原始数据中二维空间数据进行降维处理以得到潜在号码的一维空间数据。
S407、利用潜在号码的一维空间数据和原始数据中的时间数据生成潜在号码的轨迹记录。
S408、对潜在号码的轨迹记录进行数据规整,以得到潜在号码的轨迹队列。
采用目标号码S401~S403的处理过程对潜在号码进行操作,以得到潜在号码的轨迹队列。具体处理过程参见上述实施例中相关内容的记载,此次不再赘述。
S409、将潜在号码作为其他号码,基于预设的伴随相似度计算策略以及目标号码的轨迹队列和其他号码的轨迹队列,计算目标号码与每个其他号码之间的伴随相似度。
在获取到潜在号码后,将潜在号码作为其他号码,将目标号码的轨迹队列中每一条记录分别与每个其他号码的轨迹队列中每一条记录进行比较,然后基于预设的伴随相似度计算策略,计算目标号码与每个其他号码之间的伴随相似度。
其中,伴随相似度计算策略,参见上述实施例一中相关内容的记载,此次不再赘述。
S410、将目标号码与每个潜在号码之间的伴随相似度进行排序,以得到目标号码的伴随相似度列表。
在获取到目标号码与每个潜在号码之间的伴随相似度后,可以将这些伴随相似度按照从大到小的顺序进行排序,按照顺序生成该目标号码的伴随相似度列表。本实施例中,从排序后的所有伴随相似度中选取前几位生成该目标号码的伴随相似度列表。
为了更好地理解本实施例提供的数据伴随分析方法,下面一个具体的例子进行解释说明:
用户输入的查询信息包括查询号码:155****2623;查询时间段:Time:2015-04-01_00:00:00——2015-04-06_23:59:59;返回与目标号码相似的潜在号码个数:TopN:3;其中,查询号码即目标号码。
目标号码在查询时间段内的原始数据记录:
Figure PCTCN2017076875-appb-000015
目标号码经过降维处理以及数据规整后,得到目标号码ID的轨迹队列如下。其中关于对目标号码降维处理以及数据规整的过程,可参见上述实施例二中相关示例中的记载,此处不再赘述。
Figure PCTCN2017076875-appb-000016
从目标号码的轨迹队列中获取可信区间,该可信区间包括时间可信区间和空间可信区间;即目标号码轨迹队列中包括的时间段以及位置。
根据可信区间获取与目标号码的轨迹记录相似的潜在号码。具体地,.查询与目标号码轨迹队列中每一个记录1coni(i=1,2,3,…5)相似轨迹记录:查找相似轨迹,从原始数据中找出与1coni有时间交集并且geohash前5位全部相同的记录。
Figure PCTCN2017076875-appb-000017
在查找完成后,将与目标号码每一条记录命中的个数取3个号码作为潜在号码,其中,潜在号码中不包括目标号码本身。
潜在号码按照命中次数排序为:
Figure PCTCN2017076875-appb-000018
则选取151****1306、152****8808和152****3889作为潜在号码,然后分别计算目 标号码与选中的三个潜在号码的伴随相似度,计算过程与上述实施例二中计算两个已知查询号码的伴随相似度类似,此次不再赘述。
对目标号码的伴随相似度进行排序后,取前三位潜在号码以及伴随相似度生成目标号码的伴随相似度列表,该列表如下所示:
Figure PCTCN2017076875-appb-000019
在该示例中个,用户可以指定一个目标号码,然后基于目标号码的轨迹查找到轨迹相似的潜在号码作为其他号码,基于目标号码与潜在号码的轨迹序列,使用预设的伴随相似度计算策略,获取两个号码之间的伴随相似度。
实施例五
如图5所示,其为本发明实施例五的数据伴随分析方法的流程示意图。该数据伴随分析装置包括:降维模块11、数据转换模块12和计算模块13。
其中,降维模块11,用于对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据。
在号码移动的过程中,会产生很多的定位数据,一般情况下,这些定位数据包括用于表示位置信息的空间维度的数据和用于表示时间的时间维度的数据,其中,空间维度的数据由经度和纬度数据构成。本实施例中,将号码移动过程中产生的定位数据定义为原始数据,通过原始数据可以表示该号码在不同时刻所处的位置。
为了减低原始数据的维度,来简化定位数据,本实施例中,降维模块11将目标号码的原始数据中二维空间数据降维成一维空间数据,具体地,降维模块11对目标数据的二维空间数据即经纬度数据进行空间hash化处理,将二维空间数据映射成一元geohash编码,即将经纬度依次迭代映射成32进制的编码中。本实施例中,该一元geohash编码就是该目标号码的一维空间数据,此时就可以通过该geohash编码表示目标号码所处的位置。
数据转换模块12,用于将目标号码的一维空间数据和时间数据转换成可比较的目标号码的轨迹队列。
具体地,数据转换模块12利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录。
其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
原始数据中的二维空间数据转换成一维空间数据后,其对应的时间数据不会发生变化。在获取到目标号码的一维空间数据后,数据转换模块12将该一维空间数据与原始数据中与该一维空间数据对应的时间数据结合,就能够构成该目标号码的轨迹记录。本实施例中,该目标号码的轨迹记录能够表示出该目标号码在不同时间点所处的位置,时间点对应原始数据中的时间数据。所处位置用一位空间数据表示。
进一步地,数据转换模块12对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列。
其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
目标号码的轨迹记录是一种时间点的记录,进一步地,数据转换模块12对目标号码的轨迹记录进行数据规整,将目标号码的轨迹记录从时间点的记录方式转换成时间段的记录方式。具体地,针对目标号码的轨迹记录中不同时间点处在相同位置的记录,将表示最早时间的时间点作为该相同位置的开始时间,将表示最晚时间的时间点作为该相同位置的结束时间,得到该相同位置对应的轨迹。实际应用中,原始数据的数据密度大,不宜直接处理,本实施例中将位置相同的记录基于时间点进行合并后,可以先去除重复的记录,能够起到简化数据的作用。
数据转换模块12对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列的具体地过程如下:
针对目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为该不同位置的开始时间和结束时间,得到该不同位置对应的轨迹。
在完成从时间点的记录格式转换到时间段的记录格式后,各轨迹的时间段之间是不连续的。为了能够将目标号码的轨迹进行比较,需要将不连续的时间段进行连续化处理。具体地,首先将目标号码的所有轨迹中geohash编码调整成预设位置,然后需要对轨迹的时间段的端点进行调整,以构建可进行比较的目标号码的轨迹队列。首先,将目标号码的所有轨迹按照开始时间从早到晚进行排序,按序对目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,在完成所有的轨迹的时间段端点的调整后,得到目标号码的轨迹队列。其中,本实施例中,时间段的端点就是时间段的开始时间和结束时间。例如,当前轨迹的时间段的上端点即开始时间为上一个轨迹的 结束时间和自身开始时间的中间值,当前轨迹的时间段的下端点即结束时间为自身的结束时间与下一个轨迹的开始时间的中间值。例如,将当前轨迹的时间段的下端点维持不变,而将下一个轨迹的时间段的上端点值调整为当前轨迹的时间段的上端点值,使得相邻的轨迹的时间段的端点重合。
计算模块13,用于基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
在获取到目标号码的轨迹队列后,可以用相同的过程获取其他号码的轨迹队列,计算模块13将基于目标号码的轨迹队列和其他号码的轨迹队列进行比较,基于预设的伴随相似度策略获取目标号码和其他号码之间的伴随相似度,本实施例中,其他号码可以为一个也可以是多个。可选地,其他号码可以用户输入,也可以根据目标号码查询到的轨迹相似的号码。
关于预设的伴随相似度计算策略可参见上述实施例中相关内容的记载,此处不再赘述。
本实施例提供的数据伴随分析装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,利用目标号码的一维空间数据和原始数据中的时间数据构成目标号码的轨迹记录,通过数据规则处理将目标号码的轨迹记录转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
实施例六
如图6所示,其为本发明实施例五的数据伴随分析方法的流程示意图。该数据伴随分析装置除了包括上述实例四中的降维模块11、数据转换模块12和计算模块13之外,还包括接收模块14、可信区间获取模块15和查找模块16。
其中,降维模块11,具体用于对所述目标号码的原始数据中二维空间数据进行二维空间哈希Hash化,以得到一元geohash编码作为所述目标号码的一维空间数据。
本实施例中,数据转换模块12的一种可选地结构方式,包括:轨迹记录单元121和轨迹队列单元122。
轨迹记录单元121,用于利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录;其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示。
轨迹队列单元122,用于对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列;其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
本实施例中,轨迹队列单元122的一种可选地结构方法,包括:获取子单元1221、位数调整子单元1222、排序子单元1223和时间调整子单元1224。
获取子单元1221,用于针对所述目标号码的轨迹记录中不同时间点处在相同位置的记录,将表示最早时间的时间点作为所述相同位置的开始时间,将表示最晚时间的时间点作为所述相同位置的结束时间,得到所述相同位置对应的轨迹,以及针对所述目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为所述不同位置的开始时间和结束时间,得到所述不同位置对应的轨迹。
位数调整子单元1222,用于将所述目标号码中每条轨迹中所述geohash编码的位数调整到预设位数。
排序子单元1223,用于将所述目标号码的所有轨迹按照开始时间从早到晚进行排序。
时间调整子单元1224,用于对所述目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,得到所述目标号码的轨迹队列。
接收模块14,用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数为1,将所述查询号码作为所述目标号码。
可信区间获取模块15,用于根据所述目标号码的轨迹队列获取所述目标号码的可信区间。
查找模块16,用于根据所述可信区间获取与所述目标号码的轨迹记录相似的潜在号码。
进一步地,降维模块11,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据。
轨迹记录单元121,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录。
轨迹队列单元122,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
计算模块13,具体用于将所述潜在号码作为所述其他号码,基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
计算模块13,还用于将所述目标号码与每个所述潜在号码之间的伴随相似度进行排 序,以得到所述目标号码的伴随相似度列表。
进一步地,接收模块15,还用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数至少为2,将其中一个查询号码作为所述目标号码,剩余查询号码作为所述其他号码。
进一步地,降维模块11,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
轨迹记录单元121,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
轨迹队列单元122,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
计算模块13,具体用于基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
本实施例中,计算模块13的一种可选地结构方法,包括:地理分层单元131、预设单元132、比较单元133、判断单元134和权重计算单元135、相似度计算单元136。
其中,地理分层单元131,用于对预设位数的所述geohash编码进行地理分层。
预设单元132,用于为所述geohash编码的每个层次设置不同的权重。
比较单元133,用于将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较。
判断单元134,用于判断相互比较的两条记录在时间上是否存在交集。
权重计算单元135,用于如果判断存在交集,获取相互比较的两条记录中所述geohash编码之间的重复的层次,以及根据与所述重复的层次对应的权重以及预设的交集基数获取交集数值。
相似度计算单元136,用于将所有交集数值相加后与交集的次数做比值,将所述比值作为所述目标号码与所述其他号码之间的伴随相似度。
本实施例提供的数据伴随分析装置,通过将目标号码原始数据中二维空间数据进行降维处理成目标号码的一维空间数据,利用目标号码的一维空间数据和原始数据中的时间数据构成目标号码的轨迹记录,通过数据规则处理将目标号码的轨迹记录转换成可比较的目标轨迹队列,基于目标号码的轨迹队列计算与其他号码之间的伴随相似度。本实施例中,通过降维处理简化原始数据,不再通过数学模型进行拟合处理,降低复杂度,提高伴随分析的时效性。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (24)

  1. 一种数据伴随分析方法,其特征在于,包括:
    对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
    将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
    基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
  2. 根据权利要求1所述的方法,其特征在于,所述对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据,包括:
    对所述目标号码的原始数据中二维空间数据进行二维空间哈希Hash化,以得到一元geohash编码作为所述目标号码的一维空间数据。
  3. 根据权利要求1所述的方法,其特征在于,所述将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列,包括:
    利用所述目标号码的一维空间数据和所述原始数据中的时间数据生成所述目标号码的轨迹记录;其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示;
    对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列;其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
  4. 根据权利要求3所述的方法,其特征在于,所述对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列,包括:
    针对所述目标号码的轨迹记录中连续时间点处在相同位置的记录,将表示最早时间的时间点作为所述相同位置的开始时间,将表示最晚时间的时间点作为所述相同位置的结束时间,得到所述相同位置对应的轨迹;
    针对所述目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为所述不同位置的开始时间和结束时间,得到所述不同位置对应的轨迹;
    将所述目标号码的所有轨迹按照开始时间从早到晚进行排序;
    将所述目标号码中每条轨迹中geohash编码的位数调整到预设位数;
    对所述目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,得到所述目标号码的轨迹队列。
  5. 根据权利要求4所述的方法,其特征在于,所述对目标号码的原始数据进行降维处理以得到降维数据之前,包括:
    接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数为1,将所述查询号码作为所述目标号码。
  6. 根据权利要求5所述的方法,其特征在于,所述基于所述目标号码的轨迹序列计算与其他号码之间的伴随相似度之前,还包括:
    根据所述目标号码的轨迹队列获取所述目标号码的可信区间;
    根据所述可信区间获取与所述目标号码的轨迹记录相似的潜在号码;
    对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
    利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
    对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
  7. 根据权利要求6所述的方法,其特征在于,所述基于所述目标号码的轨迹序列计算与其他号码之间的伴随相似度,包括:
    将所述潜在号码作为所述其他号码;
    基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
  8. 根据权利要求7所述的方法,其特征在于,所述基于预设的伴随相似度计算策略,计算所述目标号码与每个所述潜在号码之间的伴随相似度之后,包括:
    将所述目标号码与每个所述潜在号码之间的伴随相似度进行排序,以得到所述目标号码的伴随相似度列表。
  9. 根据权利要求4所述的方法,其特征在于,所述对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据之前,包括:
    接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数至少为2,将其中一个查询号码作为所述目标号码,剩余查询号码作为所述其他号码。
  10. 根据权利要求9所述的方法,其特征在于,所述基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度之前,还包括:
    对潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维 空间数据;
    利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
    对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
  11. 根据权利要求10所述的方法,其特征在于,所述基于所述目标号码的轨迹序列计算与其他号码之间的伴随相似度,包括:
    基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
  12. 根据权利要求7或11所述的方法,其特征在于,所述基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度,包括:
    对预设位数的所述geohash编码进行地理分层;
    为所述geohash编码的每个层次设置不同的权重;
    将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较;
    判断相互比较的两条记录在时间上是否存在交集;
    如果判断存在交集,获取相互比较的两条记录中所述geohash编码之间的重复的层次;
    根据与所述重复的层次对应的权重以及预设的交集基数获取交集数值;
    将所有交集数值相加后与交集的次数做比值,将所述比值作为所述目标号码与所述其他号码之间的伴随相似度。
  13. 一种数据伴随分析装置,其特征在于,包括:
    降维模块,用于对目标号码的原始数据中二维空间数据进行降维处理以得到所述目标号码的一维空间数据;
    数据转换模块,用于将所述目标号码的一维空间数据和时间数据转换成可比较的所述目标号码的轨迹队列;
    计算模块,用于基于所述目标号码的轨迹队列计算与其他号码之间的伴随相似度。
  14. 根据权利要求13所述的装置,其特征在于,所述降维模块,具体用于对所述目标号码的原始数据中二维空间数据进行二维空间哈希Hash化,以得到一元geohash编码作为所述目标号码的一维空间数据。
  15. 根据权利要求14所述的装置,其特征在于,所述数据转换模块,包括:
    轨迹记录单元,用于利用所述目标号码的一维空间数据和所述原始数据中的时间数 据生成所述目标号码的轨迹记录;其中所述目标号码的轨迹记录用于记录所述目标号码在不同时间点上所处的位置,时间点对应原始数据中的时间数据;所处的位置用一维空间数据表示;
    轨迹队列单元,用于对所述目标号码的轨迹记录进行数据规整,以得到所述目标号码的轨迹队列;其中,所述目标号码的轨迹队列用于记录所述目标号码在不同时间段内所处的位置,其中,所述时间段由所述目标号码的轨迹记录中的时间点生成。
  16. 根据权利要求15所述的装置,其特征在于,所述轨迹队列单元,包括:
    获取子单元,用于针对所述目标号码的轨迹记录中连续时间点处在相同位置的记录,将表示最早时间的时间点作为所述相同位置的开始时间,将表示最晚时间的时间点作为所述相同位置的结束时间,以得到所述相同位置对应的轨迹,以及针对所述目标号码的轨迹记录中不同时间点处在不同位置的记录,将时间点作为所述不同位置的开始时间和结束时间,得到所述不同位置对应的轨迹;
    位数调整子单元,用于将所述目标号码中每条轨迹中所述geohash编码的位数调整到预设位数;
    排序子单元,用于将所述目标号码的所有轨迹按照开始时间从早到晚进行排序;
    时间调整子单元,用于对所述目标号码中相邻的轨迹的时间段的端点进行调整,以使相邻的轨迹的时间段的端点重合,得到所述目标号码的轨迹队列。
  17. 根据权利要求16所述的装置,其特征在于,还包括:
    接收模块,用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数为1,将所述查询号码作为所述目标号码。
  18. 根据权利要求17所述的装置,其特征在于,还包括:
    可信区间获取模块,用于根据所述目标号码的轨迹队列获取所述目标号码的可信区间;
    查找模块,用于根据所述可信区间获取与所述目标号码的轨迹记录相似的潜在号码;
    所述降维模块,还用于对所述潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
    所述轨迹记录单元,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
    所述轨迹队列单元,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述 潜在号码的轨迹队列。
  19. 根据权利要求18所述的装置,其特征在于,所述计算模块,具体用于将所述潜在号码作为所述其他号码,基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
  20. 根据权利要求19所述的装置,其特征在于,所述计算模块,还用于将所述目标号码与每个所述潜在号码之间的伴随相似度进行排序,以得到所述目标号码的伴随相似度列表。
  21. 根据权利要求17所述的装置,其特征在于,所述接收模块,还用于接收用户输入的查询信息,所述查询信息中包括查询号码和查询时间段,其中,所述查询号码个数至少为2,将其中一个查询号码作为所述目标号码,剩余查询号码作为所述其他号码。
  22. 根据权利要求21所述的装置,其特征在于,所述降维模块,还用于对潜在号码的原始数据中二维空间数据进行降维处理以得到所述潜在号码的一维空间数据;
    所述轨迹记录单元,还用于利用所述潜在号码的一维空间数据和所述原始数据中的时间数据生成所述潜在号码的轨迹记录;
    所述轨迹记录单元,还用于对所述潜在号码的轨迹记录进行数据规整,以得到所述潜在号码的轨迹队列。
  23. 根据权利要求22所述的装置,其特征在于,所述计算模块,具体用于基于预设的伴随相似度计算策略,计算所述目标号码与每个所述其他号码之间的伴随相似度。
  24. 根据权利要求22所述的装置,其特征在于,所述所述计算模块包括:
    地理分层单元,用于对预设位数的所述geohash编码进行地理分层;
    预设单元,用于为所述geohash编码的每个层次设置不同的权重;
    比较单元,用于将目标号码轨迹队列中每一条记录与其他号码中每一条记录进行比较;
    判断单元,用于判断相互比较的两条记录在时间上是否存在交集;
    权重计算单元,用于如果判断存在交集,获取相互比较的两条记录中所述geohash编码之间的重复的层次,以及根据与所述重复的层次对应的权重以及预设的交集基数获取交集数值;
    相似度计算单元,用于将所有交集数值相加后与交集的次数做比值,将所述比值作为所述目标号码与所述其他号码之间的伴随相似度。
PCT/CN2017/076875 2016-03-25 2017-03-16 数据伴随分析方法及装置 WO2017162084A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/078,278 US20190056423A1 (en) 2016-03-25 2017-03-16 Adjoint analysis method and apparatus for data

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610179784.8A CN107229940A (zh) 2016-03-25 2016-03-25 数据伴随分析方法及装置
CN201610179784.8 2016-03-25

Publications (1)

Publication Number Publication Date
WO2017162084A1 true WO2017162084A1 (zh) 2017-09-28

Family

ID=59899224

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/076875 WO2017162084A1 (zh) 2016-03-25 2017-03-16 数据伴随分析方法及装置

Country Status (4)

Country Link
US (1) US20190056423A1 (zh)
CN (1) CN107229940A (zh)
TW (1) TW201734872A (zh)
WO (1) WO2017162084A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657703A (zh) * 2018-11-26 2019-04-19 浙江大学城市学院 基于时空数据轨迹特征的人群分类方法
CN110909009A (zh) * 2019-11-20 2020-03-24 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN111294742A (zh) * 2020-02-10 2020-06-16 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与系统
CN113607170A (zh) * 2021-07-31 2021-11-05 西南电子技术研究所(中国电子科技集团公司第十研究所) 空海目标航迹偏离行为实时检测方法
CN113704342A (zh) * 2021-07-30 2021-11-26 济南浪潮数据技术有限公司 一种轨迹伴随分析的方法、系统、设备和存储介质
CN113780407A (zh) * 2021-09-09 2021-12-10 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127314A1 (en) * 2017-12-29 2019-07-04 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for indexing big data
CN111666358A (zh) * 2019-03-05 2020-09-15 上海光启智城网络科技有限公司 一种轨迹碰撞方法及系统
CN109947793B (zh) * 2019-03-20 2022-05-31 深圳市北斗智能科技有限公司 伴随关系的分析方法、装置和存储介质
CN110334171A (zh) * 2019-07-05 2019-10-15 南京邮电大学 一种基于Geohash的时空伴随对象挖掘方法
CN112689238A (zh) * 2019-10-18 2021-04-20 西安光启未来技术研究院 一种基于区域的轨迹碰撞方法、系统、存储介质及处理器
CN110796494B (zh) * 2019-10-30 2022-09-27 北京爱笔科技有限公司 一种客群识别方法及装置
CN110944296A (zh) * 2019-11-27 2020-03-31 智慧足迹数据科技有限公司 运动轨迹的伴随确定方法、装置和服务器
CN111300417B (zh) * 2020-03-12 2021-12-10 福建永越智能科技股份有限公司 焊接机器人的焊接路径控制方法及装置
CN112040414B (zh) * 2020-08-06 2023-04-07 杭州数梦工场科技有限公司 相似轨迹计算方法、装置及电子设备
CN112000736B (zh) * 2020-08-14 2023-03-24 济南浪潮数据技术有限公司 时空轨迹伴随分析方法、系统及电子设备和存储介质
CN112561948B (zh) * 2020-12-22 2023-11-21 中国联合网络通信集团有限公司 基于时空轨迹的伴随轨迹识别方法、设备及存储介质
CN113449158A (zh) * 2021-06-22 2021-09-28 中国电子进出口有限公司 一种多源数据间的伴随分析方法和系统
CN113704378A (zh) * 2021-09-02 2021-11-26 北京锐安科技有限公司 一种伴随信息的确定方法、装置、设备及存储介质
CN117177185B (zh) * 2023-11-02 2024-03-26 中国信息通信研究院 一种基于手机通信数据的号码伴随辅助识别方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944292A (zh) * 2010-09-16 2011-01-12 公安部交通管理科学研究所 基于轨迹碰撞的嫌疑车辆分析方法
CN104462236A (zh) * 2014-11-14 2015-03-25 浪潮(北京)电子信息产业有限公司 一种基于大数据的伴随车辆识别方法和装置
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101571591B (zh) * 2009-06-01 2012-11-07 民航数据通信有限责任公司 基于雷达航迹的拟合分析方法
US8462987B2 (en) * 2009-06-23 2013-06-11 Ut-Battelle, Llc Detecting multiple moving objects in crowded environments with coherent motion regions
CN103593361B (zh) * 2012-08-14 2017-02-22 中国科学院沈阳自动化研究所 感应网络环境下移动时空轨迹分析方法
CN103237201B (zh) * 2013-04-28 2016-01-06 江苏物联网研究发展中心 一种基于社会化标注的案件视频研判方法
US10102259B2 (en) * 2014-03-31 2018-10-16 International Business Machines Corporation Track reconciliation from multiple data sources
CN105243148A (zh) * 2015-10-25 2016-01-13 西华大学 一种基于签到数据的时空轨迹相似性度量方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944292A (zh) * 2010-09-16 2011-01-12 公安部交通管理科学研究所 基于轨迹碰撞的嫌疑车辆分析方法
CN104462236A (zh) * 2014-11-14 2015-03-25 浪潮(北京)电子信息产业有限公司 一种基于大数据的伴随车辆识别方法和装置
CN104778245A (zh) * 2015-04-09 2015-07-15 北方工业大学 基于海量车牌识别数据的相似轨迹挖掘方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LU SHUAI: "The Study on similar track query method of moving object data flow", CMFD, 15 August 2015 (2015-08-15), pages 12 - 16 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657703A (zh) * 2018-11-26 2019-04-19 浙江大学城市学院 基于时空数据轨迹特征的人群分类方法
CN109657703B (zh) * 2018-11-26 2023-04-07 浙江大学城市学院 基于时空数据轨迹特征的人群分类方法
CN110909009A (zh) * 2019-11-20 2020-03-24 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN110909009B (zh) * 2019-11-20 2022-07-15 厦门市美亚柏科信息股份有限公司 基于话单的轨迹伴随行为分析方法、终端设备及存储介质
CN111294742A (zh) * 2020-02-10 2020-06-16 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与系统
CN111294742B (zh) * 2020-02-10 2020-11-10 邑客得(上海)信息技术有限公司 基于信令cdr数据识别伴随手机号码的方法与系统
CN113704342A (zh) * 2021-07-30 2021-11-26 济南浪潮数据技术有限公司 一种轨迹伴随分析的方法、系统、设备和存储介质
CN113607170A (zh) * 2021-07-31 2021-11-05 西南电子技术研究所(中国电子科技集团公司第十研究所) 空海目标航迹偏离行为实时检测方法
CN113607170B (zh) * 2021-07-31 2023-12-12 西南电子技术研究所(中国电子科技集团公司第十研究所) 空海目标航迹偏离行为实时检测方法
CN113780407A (zh) * 2021-09-09 2021-12-10 恒安嘉新(北京)科技股份公司 一种数据检测方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107229940A (zh) 2017-10-03
US20190056423A1 (en) 2019-02-21
TW201734872A (zh) 2017-10-01

Similar Documents

Publication Publication Date Title
WO2017162084A1 (zh) 数据伴随分析方法及装置
WO2018040503A1 (zh) 获取搜索结果的方法和装置
Zheng et al. Approximate keyword search in semantic trajectory database
Yang et al. T3s: Effective representation learning for trajectory similarity computation
CN112182410B (zh) 基于时空轨迹知识图谱的用户出行模式挖掘方法
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
US11954879B2 (en) Methods, systems and apparatus to optimize pipeline execution
US7634465B2 (en) Indexing and caching strategy for local queries
CN105740312B (zh) 使数据库查询形成聚类以用于运行时间预测
Tang et al. Retrieving k-nearest neighboring trajectories by a set of point locations
WO2016095749A1 (zh) 电子地图中查询空间对象和建立空间索引的方法及装置
KR20140043393A (ko) 위치 기반 인식 기법
CN112685407A (zh) 一种基于GeoSOT全球剖分网格编码的空间数据索引方法
CN104123375B (zh) 数据搜索方法及系统
CN104112005B (zh) 分布式海量指纹识别方法
CN115080801B (zh) 基于联邦学习和数据二进制表示的跨模态检索方法及系统
CN110543539B (zh) 一种分布式的路网环境下移动对象轨迹相似性查询方法
CN102867066A (zh) 数据汇总装置和数据汇总方法
US10915586B2 (en) Search engine for identifying analogies
CN104794221A (zh) 一种基于业务对象的多维数据分析系统
CN106844524A (zh) 一种基于深度学习和Radon变换的医学图像检索方法
CN102208033A (zh) 基于数据聚类的鲁棒sift特征匹配方法
CN108345607B (zh) 搜索方法和装置
Lv et al. A trajectory compression algorithm based on non-uniform quantization
CN106649489B (zh) 一种地理文本信息数据中的连续skyline查询处理机制

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17769361

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 17769361

Country of ref document: EP

Kind code of ref document: A1