WO2011142225A1 - 特徴点検出システム、特徴点検出方法、及びプログラム - Google Patents

特徴点検出システム、特徴点検出方法、及びプログラム Download PDF

Info

Publication number
WO2011142225A1
WO2011142225A1 PCT/JP2011/059790 JP2011059790W WO2011142225A1 WO 2011142225 A1 WO2011142225 A1 WO 2011142225A1 JP 2011059790 W JP2011059790 W JP 2011059790W WO 2011142225 A1 WO2011142225 A1 WO 2011142225A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
area
cluster
extracted
data points
Prior art date
Application number
PCT/JP2011/059790
Other languages
English (en)
French (fr)
Inventor
伸治 加美
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2012514747A priority Critical patent/JP5534007B2/ja
Priority to US13/696,765 priority patent/US8938357B2/en
Publication of WO2011142225A1 publication Critical patent/WO2011142225A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Definitions

  • the present invention relates to a feature point detection system, a feature point detection method, and a program in GPS log data.
  • GPS Global Positioning System
  • a going-out trajectory is displayed using a computer program that maps the acquired GPS data on a map, and is uploaded to a blog or the like for publication.
  • log data is uploaded to a server using package software in which map information has already been registered, ISP (Internet Service Provider), various APIs (Application Program Interface), etc., and a web browser
  • ISP Internet Service Provider
  • APIs Application Program Interface
  • web browser There are various forms, such as displaying a trajectory on a map using. All of these softwares display geodetic coordinate data and time data (hereinafter referred to as GPS log data) acquired using the GPS system as visual information such as a map.
  • GPS log data is data that is mechanically acquired according to a certain rule, such as being acquired at a certain time interval, and each data point itself has only a meaning as a single point. Even if it is displayed on the screen, the locus of the acquired data point can only be displayed. Therefore, when using GPS log data, the user often needs to process the data.
  • processing data when publishing information on a user's trip on a blog, compared to other places such as places visited, restaurants visited on the way, landmarks that took pictures, etc.
  • An important place hereinafter referred to as a waypoint
  • a waypoint may be particularly emphasized on a map, or a link may be added to the point to add related information.
  • Conventional methods for reprocessing GPS log data include manual editing by a user and automatic processing by a computer program.
  • the manual editing by the user is to add and edit waypoints intuitively by selecting a corresponding place on the map with a mouse pointer using a GUI interface, for example.
  • the user can freely create waypoints based on his / her memory while viewing the map on which the locus of the GPS log data is plotted.
  • automatic processing by a computer program includes, for example, linkage with a database.
  • Spots that are candidates for waypoints such as restaurants and tourist spots are registered in the database in advance, and an area close to the registered spot is extracted as a candidate from the locus of GPS log data.
  • some candidates are displayed from the extracted candidates and are selected by the user. For example, a method may be considered in which each spot is arranged in order of popularity and the top N are displayed.
  • Non-Patent Documents 1 to 3 there is a method of detecting and displaying a point where the speed or acceleration has greatly changed. According to this method, for example, it is possible to detect a point that has changed from walking to moving by car or train, so it is possible to display traffic points, shopping centers, and the like.
  • the place that can become a waypoint differs depending on the user, and the place where the same user has an important meaning sometimes varies, so the user uses a database in which waypoint candidates are registered in advance. It is difficult to select an appropriate waypoint for each. Therefore, the waypoint detection accuracy is not always high.
  • the calculation cost is very high. Although it is conceivable to reduce the amount of calculation by first detecting the range of the locus of GPS log data and limiting the search range to that range, or narrowing the search range based on user preference information, etc. Since the calculation amount increases nonlinearly with respect to the increase, it is expected that processing time will be required when a large scale database or GPS log data is targeted.
  • An object of the present invention is to provide a feature point detection system, a feature point detection method, and a program capable of accurately detecting an appropriate waypoint from GPS log data with high responsiveness.
  • the feature point detection system performs clustering based on the distribution of data points included in the user's GPS log data, and indicates the user's dwell time in the cluster based on the number of data points included in each cluster
  • a retention area detection unit that extracts one or more clusters based on the index and forms a user retention area based on the extracted clusters, wherein the probability that the cluster is higher as the retention time is longer
  • From the stay area detection unit extracted in step 1 and each extracted stay area a representative point of the stay area is extracted one by one, and based on the density of the data points in each stay area
  • a representative point ranking unit that outputs a list that ranking representative points, but with the.
  • an appropriate waypoint can be detected from GPS log data with high accuracy and high responsiveness.
  • FIG. 1 is a block diagram showing the configuration of a feature point detection system 100 for GPS log data according to an embodiment of the present invention.
  • the feature point detection system 100 includes an input unit 1002, a stay area detection unit 1003, a representative point extraction unit 1004, and an output unit 1005.
  • An input unit 1002, a stay area detection unit 1003, a representative point extraction unit 1004, and an output unit 1005 represent modules of operations performed by a computer processor according to a program.
  • the input unit 1002 acquires information on each data point including position information and time information (hereinafter referred to as data point information) from the input GPS log data 1001, and converts it into a format that can be processed.
  • GPS log data 1001 is data described in a data format such as GPGGA acquired via the GPS system.
  • the GPS log data includes at least position information and time information. More preferably, the GPS log data 1001 is a set of data including at least latitude, longitude, altitude, and measurement time information measured by the GPS system.
  • the stay area detection unit 1003 performs clustering based on the distribution of the converted data points, determines an index indicating the stay time of the user in the cluster based on the number of data points included in each cluster, and based on the index One or more clusters are extracted, and a staying area for the user is formed based on the extracted clusters. The longer the staying time, the higher the probability that the cluster will be extracted. An area where the user can be regarded as having stayed for a certain period of time (hereinafter referred to as a staying area) is detected with a higher probability as the data point density is higher because the data points are dense in time and space.
  • the representative point extracting unit 1004 extracts a point representing the staying area as a waypoint from the staying areas detected by the staying area detecting unit 1003.
  • the representative point is typically the most central point in the area.
  • the representative point extraction unit 1004 selects a point having the lowest sum of squares of the distances to all data points in the area. This point is an average value of all data points in the area, and a data point does not always exist at that position.
  • the representative point extraction unit 1004 may select the data point closest to the average value.
  • the representative point extraction unit 1004 calculates the score of the selected waypoint.
  • the score is set so that the higher the density of data points in the area, the higher the score.
  • the representative point extraction unit 1004 sets a higher score for a waypoint with a larger number of data points in the area. Furthermore, based on the sum (or average) of the square distances from the waypoints to all the data points in the area, the higher the density (the smaller the sum of square distances), the same the number of data points in the area. Set a higher score.
  • the output unit (representative point ordering unit) 1005 outputs a list of waypoints (WPT list 1006) ranked based on the score calculated by the representative point extracting unit 1004.
  • the WPT list 1006 is a list of waypoints generated in accordance with a computer program that uses the WPT list 1006, such as the map application 1007.
  • the WPT list 1006 is described in a markup language such as HTML and XML, for example, and includes data in a format defined by tags and data in a format such as CSV.
  • the map application 1007 is a software program that generates output data 1008 for performing image display on the map by combining the trajectory information obtained from the GPS log data 1001 and the waypoint information obtained from the WPT list 1006.
  • the map application 1007 may use an API provided through the Internet or the like as necessary.
  • the output data 1008 is graphic data generated so that the user can visually recognize the waypoint.
  • the output data 1008 is for displaying, for example, the trajectory data obtained from the GPS log data 1001 on a map, and highlighting the waypoints included in the WPT list 1006 on the trajectory.
  • the stay area detection unit 1003 will be described in detail.
  • a three-dimensional space consisting of latitude, longitude, and altitude is considered here, the number of dimensions is not limited to this.
  • the dimension may be increased if the proximity of the distance between two points in the space can be associated with the density of the points, such as expanding to a four-dimensional space with time added.
  • being close in time is important in terms of staying, and it is possible to consider a time axis by converting a time difference into a spatial distance difference.
  • FIG. 2 is a block diagram illustrating a configuration of the stay area detection unit 1003.
  • the staying area detecting unit 1003 includes a probabilistic histogram forming unit 2001, a clustering unit 2002, and a reconstruction / grouping unit 2003.
  • the probabilistic histogram generation unit 2001 includes a connected histogram creation unit 2004 and a multiplexed label calculation unit 2005.
  • the multiplexed label calculation unit 2005 includes a plurality of label calculation units 2006.
  • the reconstruction / grouping unit 2003 includes a sampling unit 3001 and a grouping unit 3002.
  • the stay area detection operation by the stay area detection unit 1003 will be described in detail with reference to FIG.
  • the probabilistic histogram generation unit 2001 calculates a connection histogram 2007 for the input of the GPS log data 1001.
  • the probabilistic histogram generation unit 2001 classifies the data so as to be registered in the same bin (class) with a higher probability as the distance between the data points is closer, and generates a histogram. As a result, data points belonging to an area where data points are densely registered are registered in the same bin with a higher probability. Therefore, data points are densely sampled in order from the bin with the highest frequency of data point registration. It is possible to extract the area efficiently.
  • the stochastic histogram forming unit 2001 since the stochastic histogram forming unit 2001 only calculates which bin is registered for each data point, at most, the calculation amount can be reduced to about the number of data points, and a drastic reduction in calculation time can be expected. .
  • the label calculation unit 2006 calculates a multiplexed label 2008 for each data point. Each label calculation unit 2006 calculates a numerical value to be assigned to one bit of the label 2009. The number of bits of the label 2009 corresponds to the number of the label calculation unit 2006 (4 bits in the example of FIG. 3).
  • the data point to be input is one point in the D-dimensional vector space
  • the label calculation unit 2006 uses an integer value from the D-dimensional Euclidean space using LSH (Locality Sensitive Hashing) as shown in Equation (1).
  • R is a real number
  • [y] is an integer value not exceeding y
  • a ⁇ R D represents a D-dimensional vector composed of random numbers in which each component follows an independent standard normal distribution N (0,1)
  • r ⁇ U [0, W) represents a random number according to the uniform distribution in U [0, W).
  • W ⁇ R D is the window width
  • C is the radix (an integer of 2 or more), a parameter set by the administrator.
  • a label 2009 obtained by converting this into B bits is defined by Expression (2).
  • collision probability When two arbitrary data points are given, the probability that they have the same label (hereinafter referred to as collision probability) is given by equation (3).
  • the multiplexed label 2008 is defined by Expression (4) obtained by multiplexing the result of performing this label operation M times independently.
  • a histogram can be generated for a given data set by verifying the collision of multiplexed labels defined by Equation (5).
  • One method is that for a data point x, for all histogram bins where one or more data points are registered, the multiplexed labels of the already registered data points and the equation (5) A comparison operation is performed, and if one of them collides, it is newly registered in that bin. If there is no corresponding bin, a new bin is created and registered there.
  • This process ensures that data points registered in the same bin have a common label with at least one other data point.
  • data points are not always registered in one bin, but may generally belong to a plurality of bins.
  • the number of bins to be sampled can be set arbitrarily. For example, it may be the total number of data points to be extracted, or may be specified based on the number of bins. It is also possible to determine from a frequency distribution such as bins with an average frequency or higher.
  • connection histogram 2007 is obtained as a result of repeating the above process N times independently, and improves the accuracy by concatenating and considering the results of multiple independent trials. Specifically, out of N trials, data points that are registered in bins that are frequently registered many times can be judged to belong to areas with higher density, and areas that are not so crowded due to accidental collision. It is possible to distinguish from data points belonging to.
  • One method is to have a stay area for each bin.
  • data points that are close in distance are not likely to belong to the same bin, but are likely to belong to the peripheral bins.
  • the label difference is small, such as 3 being 1 for only 1 bit of the label.
  • area classification in bin units may not be appropriate.
  • a predetermined number of data points belonging to those bins are extracted in descending order from the histogram obtained by each trial by the reconstruction / grouping unit 2003, and some of them are extracted.
  • bins with a high frequency are classified into a high group, and other bins are classified into a low group.
  • the clustering unit 2002 constructs a cluster (second clustering) from the data classified into the high group and the low group so as to satisfy the specified size, mutual distance relationship, and the like. Specify an area.
  • the sampling unit 3001 of the reconstruction / grouping unit 2003 selects bins having a high registration frequency by a predetermined number K of bins for each of N independent histogram 7001 inputs.
  • the grouping unit 3002 classifies bins sampled from each histogram into two types of high and low groups based on a predetermined threshold.
  • the threshold is typically an average frequency, but is not necessarily limited thereto.
  • bins having a frequency higher than the average frequency are classified as high and bins having a smaller frequency than the average frequency are classified as low.
  • the grouping unit 3002 registers the data points registered in each bin in the high group 7004 and the low group 7005. At this time, the same data is generally present from the histograms of different trial numbers, but if they overlap, they may be deleted, and the number of overlaps suggests sampling from a more dense area, so registration is allowed to allow duplicates. You may do it.
  • the operation of the clustering unit 2002 is roughly divided into a first half process and a second half process.
  • clustering is performed by cluster analysis using data points belonging to the high group to create a basic colony.
  • data points belonging to the low group are newly registered for the basic colony.
  • the cluster analysis process is not performed using all data points, but is divided into two stages as in this embodiment, so that only high groups that are data sampled from areas with higher density are used.
  • the first half process is intended to form a colony by performing a cluster analysis process on the data points of the high group.
  • l th for defining the radius of the staying area to be finally formed and D th for defining the minimum distance between the staying areas are set in advance.
  • the clustering unit 2002 creates an initial cluster set using all data points registered in the high group.
  • the initial cluster set is formed so that each cluster contains only one data point.
  • the clustering unit 2002 calculates a distance matrix D having square distance information between the initial cluster sets.
  • the square distance between the initial clusters is the square of the Euclidean distance between the data points.
  • Step A8103 clustering section 2002, the number of clusters proceeds to step A8106 if either only one, or the relationship of the minimum inter-cluster distance Min (D) and D th is a Min (D)> D th. Otherwise, the process proceeds to step A8104.
  • Step A8104 The clustering unit 2002 integrates two clusters that are closest to each other to create a new cluster. With this operation, the total number of clusters decreases by one.
  • the clustering unit 2002 calculates a distance matrix D for a new cluster set reduced by one.
  • Typical methods include the Ward method and the centroid method. Assuming that the cluster before integration is p and q, and the cluster after integration is t, the distance D tr 2 between the cluster t and the other cluster r is calculated using the inter-cluster distances D pr 2 , D qr 2 , and D pq 2. , (6) (Ward method) or (7) (centroid method).
  • n X is the number of data points in cluster x.
  • the update rule of the distance matrix is not limited to the Ward method or the centroid method.
  • the clustering unit 2002 outputs the cluster set as a colony set.
  • This colony set forms the backbone part of the staying area, and the distance between the nearest clusters is at least Dth or more, or only one cluster is included. If only one cluster is included, all data points are considered data points belonging to the same staying area.
  • each data point belonging to the low group belongs to one of the clusters set for the cluster set formed in the first half process, it is added to the corresponding cluster and belongs to any cluster. If it is determined not to do so, a new cluster is created and a process for updating the cluster set is performed to form a final staying area.
  • the clustering unit 2002 first sets the colony set, which is the output of the first half process, to the initial value of the cluster set 8001.
  • Step A8202 The clustering unit 2002 checks whether there are any unexamined data points in the Low group. If not, the process proceeds to step A8209, and if there is, the process proceeds to step A8203.
  • Step A8203 The clustering unit 2002 acquires a data point x that has not yet been inspected from the Low group.
  • the clustering unit 2002 selects the cluster c that is closest to the data point x from the clusters in the cluster set 8001.
  • the distance l (x, c) between the data point x and the cluster c is the Euclidean distance between the central position of the cluster c (the average position or the position of the data point closest to the average position) and the data point x.
  • various other distances such as the distance x from the data point closest to the data point in the cluster c and the distance x from the farthest data point may be used.
  • Step A8205 The clustering unit 2002 compares l (x, c) with preset l th , and if l (x, c) ⁇ l th , x is determined to be a data point sampled from the same staying area. Then, the process proceeds to Step A8206. Otherwise, it is determined as a data point sampled from a different staying area, and the process proceeds to step A8207.
  • Step A8206 The clustering unit 2002 adds the data point x to the cluster c.
  • Step A8207 The clustering unit 2002 creates a new cluster u and registers the data point x.
  • Step A8208 The clustering unit 2002 updates the cluster set 8001. Thereafter, the process returns to step A8202, and the same processing is repeated until there are no unexamined data points.
  • Step A8209 The clustering unit 2002 outputs the cluster set 8001.
  • a set of clusters in which the cluster radius and the distance between clusters are limited is output, and each cluster can be considered as a candidate area for GPS log data.
  • the representative point extraction unit 1004 extracts representative points for these clusters by the above-described method, calculates the score of the extracted representative points, and ranks the waypoints of all the staying areas based on the scores.
  • a place where the user is interested tends to have a longer residence time than other places.
  • the feature points unique to the GPS log data are efficiently extracted and presented to the user by ordering according to the degree of congestion, locations that are likely to be important at that time are automatically selected for the user. Can be extracted and displayed.
  • the user efficiently extracts points having important meaning for the user from the GPS log data without linking with the landmark spot information database or linking with the user profile information. be able to. For this reason, the cost at the time of processing and editing GPS log data can be significantly reduced.
  • the stay area can be determined by the density of data points, a simpler method is to consider the minimum area where all the points of GPS log data can fit, and divide the area into fixed small cells, You may make it produce the histogram which made each cell one bin. Even with this method, a certain effect can be obtained, but the influence of the cell size on the result is large, and there is a dependency on how to take cell boundaries. For this reason, good results are not always obtained without considering the nature (range, degree of congestion, etc.) of GPS log data. On the other hand, if the width of each cell is set at random, it takes time to calculate the staying area.
  • the clustering unit 2002 since the clustering unit 2002 performs sampling at a higher probability from an area with high density, it does not require information such as matching with a database or the distance relationship between all data points. The amount of calculation can be suppressed against an increase in. For this reason, when automatically detecting waypoints, the calculation cost can be kept low even if the amount of data increases. For this reason, the response to the user is high, and the user can obtain waypoint candidates without stress.
  • the main process for determining the calculation time is the process of the staying area detection unit 1003, and more specifically, the process of the probabilistic histogram forming unit 2001 and the first half process of the clustering unit 2002.
  • the calculation time of the clustering unit 2002 can be adjusted by limiting the number of data points of the high group according to the capability of the computer.
  • the calculation time of the probabilistic histogram generation unit 2001 when the number of input data is very large, it is possible to adjust the calculation time by first performing random sampling and narrowing the number of data points to a number that matches the capability of the computer. . More desirably, the accuracy can be further improved by dividing the area into larger fixed cells as preprocessing and performing random sampling with higher probability from cells with a large number of data points. is there.
  • the former should be detected preferentially. Therefore, for example, by calculating the landmark spot labels in advance and increasing the weight of one data point for the data point bin that collided with the data, even if the number of data is the same, the bin height (weighted) By increasing the frequency), detection can be performed with priority.
  • user-specific preference information can be taken into account by incorporating user preference information from a user profile or the like and weighting the data points registered in the same bin as the spot that the user has determined more favorably in the past. According to this method, while the conventional method requires a long calculation time for database linkage and user profile linkage, it is possible to extract a stay area while linking with the database and user profile information in the same online processing time. .
  • FIG. 10 is a diagram showing a configuration of a computer system including a server 9004 in which a feature point detection system according to the present invention is applied to a waypoint detection unit 9007.
  • a recording device 9001 for recording the user's GPS log data, a computer 9002 for uploading GPS log data or displaying the result of processed data, and a server 9004 include a network 9003. Connected through.
  • the server 9004 includes a user session management unit 9005, a user data management unit 9006, a waypoint detection unit 9007, a map application 9008, and an output unit 9009, and a data format represented by xml or html for user GPS log data input.
  • the output data 9010 described in the above is generated.
  • a user can view the output data 9010 via a network using a software program such as a web browser operating on the computer 9002.
  • the server 9004 uses the user session management unit 9005 to perform user authentication and connection management with the user.
  • the user data management unit 9006 manages page information customized for each user, and stores information uploaded in the past in a time series in a calendar so that the user can easily browse.
  • a user data database and the like are provided as necessary.
  • the user data management unit 9006 calls the waypoint detection unit 9007 for uploading new GPS log data by the user, and creates a waypoint list.
  • the GPS log data and the calculated waypoint list are input to the map application 9008, and the locus of the GPS log data and the waypoints on the locus are displayed on the map.
  • the output data 9010 is, for example, as shown in an output data display image 9011, in which waypoints indicated by pins are displayed superimposed on the locus of data points of GPS log data. A list of detailed waypoint information may also be displayed. A user can use the computer 9002 to acquire and browse the output data 9010 via the network 9003. This series of processing can realize high responsiveness by processing of the waypoint detection unit 9007 of the server 9004.
  • Clustering is performed based on the distribution of data points included in the user's GPS log data, and an index indicating the user's dwell time in the cluster is determined based on the number of data points included in each cluster.
  • a retention area detecting unit that extracts one or more clusters based on the extracted cluster and forms a user retention area based on the extracted clusters, wherein the retention time is extracted with higher probability as the retention time is longer
  • An area detector One representative point of the staying area is extracted from each of the extracted staying areas, and the score of each representative point is determined based on the density of the data points in each staying area.
  • a representative point extraction unit, And a representative point ordering unit that outputs a list in which the representative points are ordered based on the score.
  • the said stay area detection part is A histogram is generated by classifying the first data point and the second data point such that the shorter the distance between the two data points, the higher the probability that the first and second points belong to the same class.
  • the feature point detection system according to supplementary note 1, further comprising a probabilistic histogram forming unit that associates each class of the histogram with the cluster and determines a frequency of each class as an index indicating the residence time.
  • the said stay area detection part is Extracting a class corresponding to the cluster having a long residence time from each class of the histogram generated by the probabilistic histogramming unit, and performing a second clustering on the data points belonging to the extracted class.
  • the said stay area detection part is Of each class of the histogram generated by the probabilistic histogram generation unit, a class corresponding to the cluster having a long residence time is extracted, and the extracted class is divided into two groups based on the length of the residence time. , Reconfiguration / grouping department, After forming a stay area using data points belonging to the class of the group having the longer stay time of the two groups, a data point belonging to the class of the other group is added to the stay area or newly
  • the feature point detection system according to appendix 2 further comprising: a clustering unit that forms a stagnation area and forms a stagnation area.
  • the stochastic histogram conversion unit The feature point detection system according to any one of appendices 2 to 4, wherein a label assigned to each data point using LSH (Locality Sensitive Hashing) is used to determine a class to which each data point belongs.
  • LSH Location Sensitive Hashing
  • the stay area detection unit The clustering is performed on at least one of the data point corresponding to the spot corresponding to the landmark and the data point corresponding to the user's preference, and the probability that the cluster including the data point is extracted is high.
  • the feature point detection system according to any one of appendices 1 to 5, wherein weighting is performed so that
  • the stay area detection unit The feature point detection system according to any one of appendices 1 to 6, wherein the GPS log data is randomly sampled to reduce the number of data points and then the stay area is extracted.
  • the stay area detection unit The entire area defined by the minimum range including all data points included in the GPS log data is divided into a plurality of fixed areas, and for each of the fixed areas, the fixed area having a larger number of data points belonging to the fixed area.
  • Clustering is performed based on the distribution of data points included in the user's GPS log data, and an index indicating the user's dwell time in the cluster is determined based on the number of data points included in each cluster. Extracting one or more clusters based on, forming a user's residence area based on the extracted clusters, and extracting the clusters with higher probability as the residence time is longer; One representative point of the staying area is extracted from each of the extracted staying areas, and the score of each representative point is determined based on the density of the data points in each staying area. And a process of Outputting a list in which each representative point is ranked based on the score, and a feature point detecting method.
  • Clustering is performed based on the distribution of data points included in the GPS log data of the user, an index indicating the user's residence time in the cluster is determined based on the number of data points included in each cluster, and 1 based on the index.
  • a staying area detection unit that extracts the above cluster and forms a staying area of a user based on the extracted cluster, and the staying area detection unit that is extracted with higher probability as the staying time is longer; ,
  • One representative point of the staying area is extracted from each of the extracted staying areas, and the score of each representative point is determined based on the density of the data points in each staying area.
  • a representative point extraction unit A program that functions as a representative point ordering unit that outputs a list in which each representative point is ordered based on the score.
  • the present invention is suitable for accurately detecting an appropriate waypoint from GPS log data with high responsiveness.
  • 100 feature point detection system 1001 input data, 1002 input unit, 1003 stagnant area detection unit, 1004 representative point extraction unit, 1005 output unit, 1006 WPT list, 1007 map application, 1008 output data, 2001 probabilistic histogram conversion unit, 2002 Clustering unit, 2003 Reconfiguration / grouping unit, 2004 Concatenated histogram creation unit, 2005 Multiplex label calculation unit, 2006 Label calculation unit, 2007 Concatenation histogram, 2008 Multiplex label, 2009 label, 3001 Sampling unit, 3002 Grouping unit , 7001 N independent histograms, 7004 high group, 7005 low group, 9001 recording device, 9002 computer, 9003 Network, 9004 server, 9005 user session managing unit, 9006 a user data management section, 9007 waypoints detector, 9008 a map application, 9009 output section, 9010 output data 9011 displayed image

Landscapes

  • Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Traffic Control Systems (AREA)

Abstract

 ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、指標に基づいて1以上のクラスターを抽出し、抽出したクラスターに基づいてユーザの滞留エリアを形成し、滞留時間が長いほどそのクラスターが高い確率で抽出される、滞留エリア検出部1003と、抽出された各々の滞留エリアから、滞留エリアの代表点を1つずつ抽出すると共に、各々の滞留エリア内のデータポイントの密集度に基づいて、各々の代表点のスコアを決定する代表点抽出部1004と、スコアに基づいて、各々の代表点を序列化したリストを出力する出力部1005と、を備える。

Description

特徴点検出システム、特徴点検出方法、及びプログラム
 本発明は、GPSログデータにおける特徴点検出システム、特徴点検出方法、及びプログラムに関する。
 近年、スマートフォンやGPSロガーなどの普及により、ユーザが外出の際、容易にGPS(Global Positioning System)データを取得することができるようになった。また、取得したGPSデータを地図上にマップするコンピュータプログラムを用いて外出の軌跡を表示し、ブログなどにアップロードして公開するといったことも行われている。このようなプログラムとしては、地図情報がすでに登録されたパッケージソフトウェアや、ISP(Internet Service Provider)や各種提供されているAPI(Application Program Interface)などを用いてサーバにログデータをアップロードし、Webブラウザを用いて地図上に軌跡を表示するものなど様々な形態が存在する。これらのソフトウェアはいずれもGPSシステムを用いて取得された測地座標データ及び時刻などのデータ(以後、GPSログデータと記す。)を地図などの視覚的情報として表示するものである。
 しかし、一般にGPSログデータは、一定の時間間隔で取得する等、一定のルールに従って機械的に取得されたデータであり、各データポイント自体は一地点としての意味しか持たないため、それらを地図上に表示しても取得されたデータポイントの軌跡を表示できるにすぎない。そのため、GPSログデータを利用する場合、ユーザはデータを加工する必要があることが多い。データを加工する典型的な例として、ユーザが旅行したときの情報をブログで公開する場合、訪問した先や、道中で立ち寄ったレストランや、写真を撮ったランドマーク等、他の場所に比べて重要な意味を持つ場所(以後、ウェイポイントと記す。)を、地図上で特に強調したり、そのポイントにリンクを張って関連情報を追加したりする場合がある。
 GPSログデータを再加工するための従来の方法として、ユーザによる手動編集とコンピュータプログラムによる自動処理がある。ユーザによる手動編集は、例えばGUIインターフェースを用いて地図上の該当する場所をマウスポインタなどで選択し、直感的にウェイポイントの追加や編集を行うものである。これにより、ユーザはGPSログデータの軌跡がプロットされた地図を見ながら、自分の記憶をもとに自由にウェイポイントを作成することができる。
 また、コンピュータプログラムによる自動処理としては、例えばデータベースとの連携がある。データベースにレストランや観光スポットなどのウェイポイントの候補となるスポットをあらかじめ登録しておき、GPSログデータの軌跡の中から、登録されているスポットと距離的に近い領域を候補として抽出する。さらに、何らかのポリシーに基づいて、抽出された候補の中からいくつかの候補を表示してユーザに選択させる。例えば、各スポットを人気順で序列化しておいて上位N個を表示するといった方法が考えられる。
 また、コンピュータプログラムによる自動処理の他の例としては、速度や加速度が大きく変化した地点を検出して表示する方法もある(非特許文献1~3)。この方法によれば、例えば徒歩での移動から車や電車での移動に変わった地点を検出することができるので、交通要所やショッピングセンターなどを表示させることが可能である。
D. Ashbrook and T. Starner, "Using GPS to learn significant locations and predict movement across multiple users", Personal and Ubiquitous Computing, 7(5), 2003 Hariharan, R., Toyama, K., "Project Lachesis: parsing and modeling location histories", M.J. Egenhofer, C.Freksa, and H.J. Miller (Eds.): Geographic Information Science 2004, LNCS 3234, pp106-124 Yu Zheng and Xing Xie, "Learning Transportation Mode from Raw GPS Data for Geographic Application on the Web", Association for Computing Machinery, Inc., 20 April 2008
 しかし、従来の方法では、効率的かつ応答性に優れた精度の高いウェイポイントの表示は困難である。ユーザによる手動編集では、ユーザの記憶をもとに該当する場所を地図上の軌跡から抽出する必要があるが、一般にそれは煩雑な作業である。なぜならば、立ち寄った全ての場所を地図上で正確に位置付けることは簡単なことではないからである。
 また、データベースとの連携による方法においても、ウェイポイントとなりうる場所はユーザによって異なり、また同じユーザでもその時々で重要な意味を持つ場所は異なるため、予めウェイポイント候補を登録したデータベースを用いてユーザ毎に適切なウェイポイントを選択することは困難である。そのため、ウェイポイントの検出精度は必ずしも高いとは限らない。
 さらに、原理的にはGPSログデータの全てのポイントとデータベースに登録されている全てのポイントについて両者の距離を計算しなくてはいけないため非常に計算コストがかかる。GPSログデータの軌跡の範囲を最初に検出してその範囲に検索範囲を限定する、ユーザの趣向情報などに基づいて検索範囲を絞る、など計算量を削減する方法も考えられるが、データ量の増大に対して計算量が非線形的に増大していくため、規模の大きいデータベースやGPSログデータを対象とする場合には処理時間がかかることが予想される。
 また、速度や加速度の変化点を検出する手法では、一般に閾値を用いて変化が大きいか否かを判定するが、様々なGPSログデータに対応した適切な閾値を見つけることは一般に困難であり、ノイズの影響なども受けやすい。より精度を高くするためには、閾値を用いた判定処理の後、さらに候補の絞り込み処理などが必要となり、処理が複雑化する。
 本発明の目的は、GPSログデータから、適切なウェイポイントを精度良く高い応答性で検出することが可能な特徴点検出システム、特徴点検出方法、及びプログラムを提供することである。
 本発明に係る特徴点検出システムは、ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成する滞留エリア検出部であって、前記滞留時間が長いほどそのクラスターが高い確率で抽出される、滞留エリア検出部と、抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する代表点抽出部と、前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する代表点序列化部と、を備えたものである。
 本発明によれば、GPSログデータから、適切なウェイポイントを精度良く高い応答性で検出することができる。
本発明の実施の形態によるGPSログデータの特徴点検出システムの構成を示すブロック図。 本発明の実施の形態による滞留エリア検出部の構成を示すブロック図。 本発明の実施の形態による滞留エリア検出部による滞留エリア検出動作を説明する図。 2つのデータポイントが衝突する確率を示したグラフ。 2つのデータポイントが衝突する確率を示したグラフ。 本発明の実施の形態による本発明の多重化ラベルの比較演算を説明する図。 本発明の実施の形態による滞留エリア検出手法を説明する図。 本発明の実施の形態によるデータポイントの再構成・グループ化処理を説明する図。 本発明の実施の形態によるクラスター化部の動作のフローチャート。 本発明の実施例の構成を示すブロック図。
 次に、本発明を実施するための形態について、図面を参照して詳細に説明する。
 図1は、本発明の実施の形態によるGPSログデータの特徴点検出システム100の構成を示すブロック図である。図1に示すように、特徴点検出システム100は、入力部1002、滞留エリア検出部1003、代表点抽出部1004、及び出力部1005を備えている。入力部1002、滞留エリア検出部1003、代表点抽出部1004、及び出力部1005は、プログラムに従ってコンピュータのプロセッサが行う動作のモジュールを表している。
 入力部1002は、入力されたGPSログデータ1001から位置情報と時間情報を含む各データポイントの情報(以後、データポイント情報と記す。)を取得し、演算処理が可能な形式に変換する。
 GPSログデータ1001は、GPSシステムを介して取得した、GPGGAなどのデータ形式で記述されたデータである。GPSログデータは、少なくとも位置情報と時間情報を含む。さらに好ましくは、GPSログデータ1001は、GPSシステムによって測定された少なくとも緯度、経度、高度、及び測定時間情報を含むデータの集合である。
 滞留エリア検出部1003は、変換後のデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、指標に基づいて1以上のクラスターを抽出し、抽出したクラスターに基づいてユーザの滞留エリアを形成するものであって、滞留時間が長いほどそのクラスターが高い確率で抽出される。ユーザが一定時間滞留したとみなせるエリア(以後、滞留エリアと記す。)は、データポイントが時間的空間的に密集しているため、データポイントの密度が高いエリアほど高い確率で検出される。
 代表点抽出部1004は、滞留エリア検出部1003によって検出された滞留エリアの中から、その滞留エリアを代表する点をウェイポイントとして抽出する。代表点は、典型的には、エリア内で一番中心にあるポイントである。例えば、代表点抽出部1004は、エリア内の全てのデータポイントまでの距離の平方和が最低になる点を選ぶ。このポイントはエリア内の全データポイントの平均値であり、その位置に実際にデータポイントが存在するとは限らない。実際に存在するデータポイントの中から選ぶ場合は、代表点抽出部1004は平均値から一番近いデータポイントを選べばよい。
 また、代表点抽出部1004は、選択したウェイポイントのスコアを計算する。スコアは、エリア内のデータポイントの密集度合いが高いほど高いスコアとなるように設定する。
 スコア算出方法の例について説明する。まず代表点抽出部1004は、エリア内のデータポイント数が多いウェイポイントほど高いスコアを設定する。さらに、ウェイポイントからエリア内の全てのデータポイントへの平方距離の和(もしくは平均)に基づいて、エリア内のデータポイント数が同じでも、密集度が高い(平方距離の和が小さい)ものほど、より高いスコアを設定する。
 出力部(代表点序列化部)1005は、代表点抽出部1004によって算出されたスコアに基づいて序列化されたウェイポイントのリスト(WPTリスト1006)を出力する。
 WPTリスト1006は、地図アプリケーション1007など、WPTリスト1006を利用するコンピュータプログラムに合わせて生成されたウェイポイントのリストである。WPTリスト1006は、例えばHTMLやXMLなどのマークアップ言語で記述され、タグによって定義されたフォーマットのデータや、CSVなどのフォーマットのデータを含んでいる。
 地図アプリケーション1007は、地図上に、GPSログデータ1001から得られる軌跡情報とWPTリスト1006から得られるウェイポイント情報を合わせた画像表示を行うための出力データ1008を生成するソフトウェアプログラムである。地図アプリケーション1007は、必要に応じて、インターネットなどを通して提供されているAPIを用いてもよい。
 出力データ1008は、ユーザがウェイポイントを視覚的に認識できるように生成されたグラフィックデータである。出力データ1008は、例えばGPSログデータ1001から得られた軌跡データを地図上に表示し、その軌跡上にWPTリスト1006に含まれるウェイポイントを強調して表示するためのものである。
 次に、滞留エリア検出部1003について詳細に説明する。
 なお、ここでは緯度、経度、高度からなる3次元空間を考えるが、次元数はこれに限られない。例えば、時間を加えた4次元空間に拡張するなど、その空間における2点間の距離の近さを点の密集度と対応付けられるならば、次元を増やしてもよい。特に、時間的に近いことは滞留という意味では重要であり、時間の差を空間的な距離の差に変換して時間軸を考慮することが可能である。
 図2は、滞留エリア検出部1003の構成を示すブロック図である。図に示すように、滞留エリア検出部1003は、確率的ヒストグラム化部2001、クラスター化部2002、再構成・グループ化部2003を備えている。確率的ヒストグラム化部2001は、連結ヒストグラム作成部2004、及び多重化ラベル計算部2005を備えている。多重化ラベル計算部2005は、複数のラベル計算部2006を備える。再構成・グループ化部2003は、サンプリング部3001とグループ化部3002を備える。
 図3を用いて、滞留エリア検出部1003による滞留エリア検出動作を詳細に説明する。
 確率的ヒストグラム化部2001は、GPSログデータ1001の入力に対して、連結ヒストグラム2007を計算する。
 確率的ヒストグラム化部2001は、データポイント同士の距離が近いほど高い確率で同じビン(階級)に登録されるようにデータを分類し、ヒストグラム化する。これにより、データポイントが密集するエリアに属するデータポイントがより高い確率で同じビンに登録されるため、データポイントが登録される頻度の高いビンから順にサンプリングしていくことで、データポイントが密集するエリアを効率的に抽出することが可能である。
 また、確率的ヒストグラム化部2001は、各データポイントについてどのビンに登録されるかを計算するだけなので、多くてもデータポイント数程度の計算量で抑えられ、計算時間の大幅な低減が期待できる。
 ラベル計算部2006は、各々1つのデータポイントに対し、多重化ラベル2008を計算する。各々のラベル計算部2006は、ラベル2009の1つのビットに代入する数値を計算する。ラベル2009のビット数は、ラベル計算部2006の数と対応する(図3の例では4ビット)。
 ここで、入力するデータポイントはD次元ベクトル空間の1点であり、ラベル計算部2006は、式(1)に示すように、LSH(Locality Sensitive Hashing)を用いて、D次元ユークリッド空間から整数値への写像で定義される。
Figure JPOXMLDOC01-appb-M000001
 ただし、Rは実数、[y]はyを超えない整数値、a∈Rは各成分が独立な標準正規分布N(0,1)に従うランダム数で構成されるD次元ベクトルを表し、r~U[0,W)は、U[0,W)における一様分布に従うランダム数を表す。また、W∈Rはウィンドウ幅、Cは基数(2以上の整数)であり、管理者が設定するパラメータである。この写像により、任意の2点のデータポイントは、その距離が近いほど高い確率で同一の値をもつことになる。
 これをBビット化したものがラベル2009であり、式(2)で定義される。
Figure JPOXMLDOC01-appb-M000002
 任意の2点のデータポイントが与えられた時、それらが同一のラベルを持つ確率(以後、衝突確率と記す。)は式(3)で与えられる。
Figure JPOXMLDOC01-appb-M000003
 ただし、Zは整数である。図4および5は、2点間の距離dの2つのデータポイントが衝突する確率を、Wで正規化した距離に対してプロットしたグラフを示す。図に示すように、距離dがゼロ付近ではほぼ線形に距離の増加に対して衝突確率が減少していくが、d/Wが1を超えたあたりから一定の値C-Bに収束する。
 多重化ラベル2008は、このラベル演算をM回独立に行った結果を多重化した式(4)で定義される。
Figure JPOXMLDOC01-appb-M000004
 ここで、図6に示す比較演算を式(5)によって定義し、多重化ラベル2008同士の衝突を定義する。
Figure JPOXMLDOC01-appb-M000005
 これは、多重化ラベル2008を構成するラベルのうち、1つでも同じラベルが含まれていれば1を返し(多重化ラベル衝突)、そうでなければ0を返す(多重化ラベル非衝突)、という演算である。なお、ここでは1つでも同じラベルが含まれていれば衝突と定義しているが、これはM回の試行のうち一度でも同一のラベルを持てばそれは両者の距離が近い可能性が高い、という事実を反映させたものである。管理者のポリシーによって、全てのラベルが衝突しなくては多重化ラベルの衝突とみなさない、といったさらに厳しい条件に変更することも可能である。
 式(5)で定義される多重化ラベルの衝突を検証することにより、与えられたデータセットに対してヒストグラムを生成することができる。1つの方法は、あるデータポイントxに対して、1つ以上のデータポイントが登録されている全てのヒストグラムのビンに対して、既に登録されているデータポイントの多重化ラベルと式(5)の比較演算を行い、その中で1つでも衝突していたらそのビンに新たに追加登録する。該当するビンがなければ新規にビンを作成しそこに登録する。
 このような処理により、同じビンに登録されたデータポイントは少なくともどれか1つの他のデータポイントと共通のラベルを有していることが保障される。また、データポイントが登録されるのは1つのビンだけとは限らず、一般に複数のビンに属する可能性がある。
 さらに、より厳しい条件として、ビン内の全てのデータポイントと多重化ラベルが衝突した場合にのみ、そのビンに追加することも可能である。この場合は、同じビンに登録されている全てのデータポイントは、少なくとも1つの共通のラベルを共有していることになる。これはM回の試行のうち、少なくとも一度は全てのデータポイントが同じラベルを割り当てられたことを意味する。
 上記の衝突・ヒストグラム化ポリシーによって、量的な差異はあるものの、同じビンに属するデータは互いに近い距離にある確率が高いことになり、滞留エリアに属するデータポイントは他のエリアのデータポイントに比べて同じビンに属する可能性が高くなる。この性質を利用することで、データポイントが登録される頻度の高いビンのデータポイントから順にサンプリングしていくことで、より密集度の高いエリアから優先的にデータポイントを選択することが可能となる。
 なお、サンプリングするビンの数は任意に設定することができる。例えば、抽出する総データポイント数としてもよいし、ビンの数に基づいて指定してもよい。また、平均頻度以上のビンなど頻度の分布からきめることも可能である。
 連結ヒストグラム2007は、上記の処理を独立にN回繰り返した結果得られ、複数回の独立試行による結果を連結して考慮することで精度向上を図ったものである。具体的には、N回の試行のうち、何度も登録頻度の高いビンに登録されるデータポイントは、より密集度の高いエリアに属すると判断でき、偶然衝突したそれほど密集度の高くないエリアに属するデータポイントと区別することが可能となる。
 上記の処理によりサンプリングしたデータポイント群を滞留エリアに分類する。1つの方法は、ビンごとに滞留エリアとすることである。しかし、上記の方法では、距離的に近いデータポイントは同じビンでないにしても、周辺のビンに属する可能性が高い。例えば、ラベルのうち1ビットだけ3が2になる、などラベルの差異が小さい場合などが考えられる。その場合、同じ滞留エリアとみなせる領域のデータポイントが異なるビンに属する可能性があるため、ビン単位でのエリア分類は適切でない可能性がある。
 そのため、図7に示すように、再構成・グループ化部2003によって各試行で得られたヒストグラムのうち頻度が多い順に所定の数だけ、それらのビンに属するデータポイントを取り出し、そのうちの一部の特に頻度の多いビンをhighグループ、それ以外をlowグループに分類する。さらに、クラスター化部2002によって、highグループとlowグループに分類されたデータから、指定されたサイズや互いの距離関係などを満たすようにクラスターを構成(第2のクラスタリング)していくことで、滞留エリアを指定する。
 まず、図8を参照して、サンプリングしたデータポイントの再構成・グループ化処理について詳細に説明する。
 再構成・グループ化部2003のサンプリング部3001は、N個の独立したヒストグラム7001の入力のそれぞれに対して、あらかじめ定められたビンの数Kだけ、登録頻度の多いビンを選択する。グループ化部3002は、所定の閾値に基づいて、各ヒストグラムからサンプリングされたビンをhighとlowの二種類のグループに分類する。
 ここで、閾値は典型的には平均頻度などであるが必ずしもこれに限るものではない。図の例では平均頻度をもとに、平均頻度より頻度が多いビンをhighに、少ないビンをlowに分類している。またその分類をもとに、グループ化部3002は、各ビンに登録されているデータポイントをhighグループ7004およびlowグループ7005に登録する。このとき、一般に異なる試行番号のヒストグラムから同じデータが存在するが、重複した場合は削除してもよいし、重複回数はより密集度の高いエリアからのサンプリングを示唆するため、重複を許して登録しても良い。
 次に、図9を参照してクラスター化部2002の動作について説明する。クラスター化部2002の動作は、大きく前半処理と後半処理に分かれており、前半処理では、highグループに属するデータポイントを用いてクラスター分析によるクラスター化を行い、基本コロニーを作成する。後半処理では、lowグループに属するデータポイントを基本コロニーに対して新規追加登録していく。
 一般に、クラスター分析処理は、データ数の増大に対して計算時間が爆発的に増大しがちである。そのため、クラスター分析処理を全てのデータポイントを用いて行うのではなく、本実施の形態のように2段階に分けることで、より密集度の高いエリアからサンプリングしたデータであるhighグループのみを用いて、効率的に滞留エリアの基幹部分を作成し、比較的密集度の低いエリアからサンプリングされたlowグループのデータポイントをその基幹部分に追加していくことができる。これにより、計算時間の増大を抑えたまま望ましいクラスターを形成することが可能となる。計算時間に問題がない程度のデータポイント数の場合は、全てのデータポイントをhighグループに登録し、前半処理のみを行うようにしてもよい。
 以下、前半処理について詳細に説明する。
 前半処理は、クラスター分析処理をhighグループのデータポイントに対して行い、コロニーを形成することを目的としている。ここで、最終的に形成したい滞留エリアの半径を規定するlth、滞留エリア間の最小距離を規定するDthをあらかじめ設定しておく。
 (ステップA8101)クラスター化部2002は、highグループに登録されている全データポイントを用いて初期クラスターセットを作成する。初期クラスターセットは各クラスターに1つのデータポイントのみが含まれるように形成される。
 (ステップA8102)クラスター化部2002は、初期クラスターセット間の平方距離情報を有する距離行列Dを計算する。ここで、初期クラスター間の平方距離はデータポイント間のユークリッド距離の平方とする。
 (ステップA8103)クラスター化部2002は、クラスター数が1つしかないか、もしくは最小クラスター間距離Min(D)とDthの関係がMin(D)>DthであればステップA8106に進む。そうでなければステップA8104に進む。
 (ステップA8104)クラスター化部2002は、もっとも距離の近い2つのクラスターを統合して新しいクラスターを作る。この操作に伴い全体のクラスター数は1つ減る。
 (ステップA8105)クラスター化部2002は、1つ減った新しいクラスターセットに対する距離行列Dを計算する。ここで、クラスター間の平方距離の定義は様々な方法があるが、代表的なものとしてはWard法や重心法がある。統合前のクラスターをp、q、統合後のクラスターをtとすると、クラスターtと、その他のクラスターrとの距離Dtr はクラスター間距離Dpr 、Dqr 、Dpq を用いて、式(6)(Ward法)もしくは式(7)(重心法)によって計算される。
Figure JPOXMLDOC01-appb-M000006
Figure JPOXMLDOC01-appb-M000007
 ただし、nはクラスターxのデータポイント数である。また距離行列の更新ルールはWard法や重心法に限るものではない。
 (ステップA8106)クラスター化部2002は、クラスターセットをコロニーセットとして出力する。このコロニーセットは滞留エリアの基幹部分を形成し、互いにもっとも近いクラスター間の距離が少なくともDth以上であるか、もしくは1つのクラスターしか含まれない。1つのクラスターしか含まれない場合は、全てのデータポイントは同一の滞留エリアに属するデータポイントとみなされる。
 次に後半処理について説明する。
 後半処理は、前半処理で形成したクラスターセットに対して、lowグループに属する各データポイントが、そのどれか1つのクラスターに属すると判断された場合は該当するクラスターに追加し、どのクラスターにも属しないと判断された場合は新規クラスターを作成し、クラスターセットを更新する処理を行うことで、最終的な滞留エリアを形成する。
 (ステップA8201)クラスター化部2002は、まず前半処理の出力であるコロニーセットをクラスターセット8001の初期値に設定する。
 (ステップA8202)クラスター化部2002は、Lowグループのデータポイントのうちまだ未検査のものがあるかチェックする。なければステップA8209に進み、あればステップA8203に進む。
 (ステップA8203)クラスター化部2002は、Lowグループからまだ未検査のデータポイントxを取得する。
 (ステップA8204)クラスター化部2002は、クラスターセット8001のクラスターの中で、データポイントxに一番距離が近いクラスターcを選択する。ここでは、このデータポイントxとクラスターcの距離l(x、c)はクラスターcの中心的な位置(平均位置もしくは平均位置に一番近いデータポイントの位置)とデータポイントxのユークリッド距離とする。あるいは、クラスターcの中で一番データポイントに近いデータポイントとxの距離や、一番遠いデータポイントとxの距離、など他の様々な距離としてもよい。
 (ステップA8205)クラスター化部2002は、l(x、c)とあらかじめ設定したlthを比較し、l(x、c)<lthならばxは同一滞留エリアからサンプリングされたデータポイントと判断し、ステップA8206に進む。そうでなければ、異なる滞留エリアからサンプリングされたデータポイントと判断し、ステップA8207に進む。
 (ステップA8206)クラスター化部2002は、データポイントxをクラスターcに追加する。
 (ステップA8207)クラスター化部2002は、新規クラスターuを作成し、データポイントxを登録する。
 (ステップA8208)クラスター化部2002は、クラスターセット8001を更新する。その後ステップA8202に戻り、未検査のデータポイントがなくなるまで同じ処理を繰り返す。
 (ステップA8209)クラスター化部2002は、クラスターセット8001を出力する。
 以上の処理によって、クラスター半径やクラスター間距離が制限されたクラスターの集合が出力され、各クラスターはGPSログデータの滞留エリア候補として考えることができる。
 代表点抽出部1004は、これらのクラスターに対して、前述の方法によって代表点を抽出し、抽出した代表点のスコアを計算し、スコアに基づいて全滞留エリアのウェイポイントを序列化する。
 以上のように、本実施形態によれば、GPSログデータ上で、ユーザが関心を持った場所は他の場所に比べ滞留時間が長くなる傾向があるため、その場所をウェイポイントの候補とし、かつその密集度合いにより序列化することで、GPSログデータに固有の特徴点を効率的に抽出しユーザへ提示するようにしたので、ユーザにとって、その時点で重要である可能性の高い場所を自動的に抽出し、表示することができる。この結果、ユーザは、GPSログデータの中から、ランドマーク的なスポット情報のデータベースとの連携やユーザプロファイル情報との連携をせずに、ユーザにとって重要な意味を持つポイントを効率的に抽出することができる。このため、GPSログデータを加工、編集して利用する際のコストを大幅に削減することができる。
 なお、滞留エリアはデータポイントの密度によって決定することができるので、より簡易な方法としては、GPSログデータの全ての点が収まる最小領域を考え、その領域を固定的な小さいセルに分割し、各セルを1つのビンとしたヒストグラムを作るようにしてもよい。この方法でも一定の効果は得られるが、セルの大きさの結果への影響が大きく、またセルの境界の取り方への依存性がある。このため、GPSログデータの性質(範囲や密集度合いなど)を考慮しないとよい結果を得られるとは限らない。一方、各セルの幅をランダムに設定すると、滞留エリアの計算に時間がかかる。
 また、例えばデータポイントをランダムに抽出しても、滞留エリアのほうがその他のエリア(単なる通過エリア)よりもサンプリング対象となる確率が高いことを利用して滞留エリアを抽出する方法も考えられるが、その場合でも、滞留エリアと通過エリアのデータポイント数の差が大きくないと精度は低くなる。本実施形態では、データポイントの密集度合いを計算するにあたっては、個々のデータポイントの絶対的な座標値は問題ではなく、他のデータポイントとの距離関係のみが重要であることを利用し、互いの距離の近いデータポイント数が多いほど、滞留エリアとして抽出されやすい確率的サンプリング手法を用いているため、適切なウェイポイントを精度良く効率的に抽出することができる。
 また、クラスター化部2002が密集度の高いエリアからより高い確率でサンプリングするようにしたので、データベースなどとのマッチングや、全てのデータポイント間の距離関係などの情報を必要としないことからデータ量の増加に対して計算量を抑えることができる。このため、ウェイポイントの自動検出に際し、データ量が増大しても計算コストを低く抑えることができる。このため、ユーザへのレスポンスが高く、ユーザはストレスなくウェイポイント候補を得ることができる。
 本実施形態において、計算時間をきめる主要な処理は、滞留エリア検出部1003の処理であり、さらに詳しくは、確率的ヒストグラム化部2001の処理、及びクラスター化部2002の前半処理である。クラスター化部2002の計算時間はhighグループのデータポイント数を計算機の能力に合わせて制限することで調整が可能である。確率的ヒストグラム化部2001の計算時間に関しては、入力データ数が非常に多い時は、まずランダムサンプリングを行い、計算機の能力に合わせた数までデータポイント数を絞り込むことで計算時間を調整可能である。さらに望ましくは、前処理として領域を大きめの固定セルで分割しておき、データポイント数の多いセルからより高い確率でランダムサンプリングするなどの方法を取ることによって、さらに精度を向上させることも可能である。
 さらに、滞留エリアと判定されたものの中でも、意味があって滞留した場所と、信号待ちなどあまり意味のない理由で滞留した場所がありうるが、前者を優先的に検出すべきである。そのため、例えば、あらかじめランドマーク的なスポットのラベルを計算しておき、そのデータと衝突したデータポイントのビンはデータポイント1点の重みを上げることにより、同じデータ数でもビンの高さ(重み付き頻度)が高くなるようにすることで、優先的に検出することができる。
 また、ユーザプロファイルなどからユーザの趣向情報を取り入れ、ユーザが過去により好ましく判断したスポットと同じビンに登録されたデータポイントに重みをつけることで、ユーザ固有の趣向情報も加味することができる。この方法によれば、従来の方法ではデータベース連携やユーザプロファイル連携に長い計算時間を要したのに対し、同一のオンライン処理時間でデータベースやユーザプロファイル情報と連携しながら滞留エリアを抽出することができる。
 次に、図10を用いて本発明の実施例について説明する。
 図10は本発明による特徴点検出システムをウェイポイント検出部9007に適用したサーバ9004を含む、コンピュータシステムの構成を示す図である。図に示すように、ユーザのGPSログデータを記録する記録デバイス9001と、GPSログデータをアップロードしたり、加工したデータの結果を表示したりするためのコンピュータ9002と、サーバ9004とが、ネットワーク9003を介して接続されている。
 サーバ9004は、ユーザセッション管理部9005、ユーザデータ管理部9006、ウェイポイント検出部9007、地図アプリケーション9008、出力部9009を備え、ユーザのGPSログデータ入力に対し、xmlやhtmlに代表されるデータフォーマットで記述された出力データ9010を生成する。ユーザはコンピュータ9002で動作するウェブブラウザ等のソフトウェアプログラムを用いてネットワーク経由で出力データ9010を閲覧することができる。
 サーバ9004は、ユーザセッション管理部9005によって、ユーザ認証や、ユーザとのコネクション管理を行う。ユーザデータ管理部9006は、ユーザ特有にカスタマイズされたページ情報を管理し、例えば過去にアップロードした情報などを、カレンダーに時系列に整理しユーザが閲覧しやすい形で保存しておく。また、図中には記載されていないが、ユーザデータのデータベースなども必要に応じて備えている。
 ユーザデータ管理部9006は、ユーザによる新規GPSログデータのアップロードに対してウェイポイント検出部9007を呼び出し、ウェイポイントリストを作成する。GPSログデータと計算したウェイポイントリストは、地図アプリケーション9008に入力され、地図上にGPSログデータの軌跡と、軌跡上のウェイポイントを表示する。
 出力データ9010は、例えば出力データ表示イメージ9011に示すように、GPSログデータのデータポイントの軌跡上に、ピンで示されたウェイポイントが重ねて表示されたものである。またウェイポイントの詳細情報の一覧などが合わせて表示されてもよい。ユーザはコンピュータ9002を用いて、出力データ9010をネットワーク9003を介して取得し、閲覧することができる。この一連の処理は、サーバ9004のウェイポイント検出部9007の処理により、高い応答性を実現することができる。
 この出願は、2010年5月12日に出願された日本出願特願2010-110361を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 上記の実施の形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成する滞留エリア検出部であって、前記滞留時間が長いほどそのクラスターが高い確率で抽出される、滞留エリア検出部と、
 抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する代表点抽出部と、
 前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する代表点序列化部と、を備えた特徴点検出システム。
(付記2)前記滞留エリア検出部は、
 第1のデータポイントと第2のデータポイントを、2つのデータポイント間の距離が短いほど高い確率で前記第1及び第2のポイントが同一の階級に属するように分類することによりヒストグラムを生成し、前記ヒストグラムの各階級を前記クラスターに対応させて、各階級の頻度を前記滞留時間を示す指標として決定する確率的ヒストグラム化部を備えた付記1に記載の特徴点検出システム。
(付記3)前記滞留エリア検出部は、
 前記確率的ヒストグラム化部によって生成された前記ヒストグラムの各階級のうち、前記滞留時間の長いクラスターに対応する階級を抽出し、前記抽出した階級に属するデータポイントに対して第2のクラスタリングを行うことにより前記滞留エリアを形成する、付記2に記載の特徴点検出システム。
(付記4)前記滞留エリア検出部は、
 前記確率的ヒストグラム化部によって生成された前記ヒストグラムの各階級のうち、前記滞留時間の長いクラスターに対応する階級を抽出し、前記抽出した階級を前記滞留時間の長短に基づいて2つのグループに分ける、再構成・グループ化部と、
 前記2つのグループのうち、前記滞留時間の長い方のグループの階級に属するデータポイントを用いて滞留エリアを形成した後、他方のグループの階級に属するデータポイントを前記滞留エリアに付加し、または新たな滞留エリアを形成して、滞留エリアを形成するクラスター化部と、を備えた付記2に記載の特徴点検出システム。
(付記5)前記確率的ヒストグラム化部は、
 各データポイントに対してLSH(Locality Sensitive Hashing)を用いて付与されるラベルを用いて、各々のデータポイントが属する階級を決定する付記2から4のいずれかに記載の特徴点検出システム。
(付記6)前記滞留エリア検出部は、
 ランドマークに対応する地点に対応するデータポイント、及びユーザの嗜好に合った地点に対応するデータポイントの少なくとも一方に対して前記クラスタリングを行い、そのデータポイントが含まれるクラスターが抽出される確率が高くなるように重み付けをする、付記1から5のいずれかに記載の特徴点検出システム。
(付記7)前記滞留エリア検出部は、
 前記GPSログデータをランダムにサンプリングしてデータポイント数を削減してから前記滞留エリアの抽出を行う、付記1から6のいずれかに記載の特徴点検出システム。
(付記8)前記滞留エリア検出部は、
 前記GPSログデータに含まれる全てのデータポイントを含む最小範囲で定義される全体領域を複数の固定領域に分割し、各々の前記固定領域について、前記固定領域に属するデータポイント数が多い固定領域ほど高い確率でデータポイントを抽出し、抽出したデータポイントを用いてクラスタリングを行う請求項1から7のいずれかに記載の特徴点検出システム。
(付記9)ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成し、前記滞留時間が長いほどそのクラスターが高い確率で抽出される工程と、
 抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する工程と、
 前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する工程と、を備えた特徴点検出方法。
(付記10)コンピュータを、
 ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成する滞留エリア検出部であって、前記滞留時間が長いほどそのクラスターが高い確率で抽出される、滞留エリア検出部と、
 抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する代表点抽出部と、
 前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する代表点序列化部と、して機能させるプログラム。
 本発明は、GPSログデータから、適切なウェイポイントを精度良く高い応答性で検出することに適している。
 100 特徴点検出システム、1001 入力データ、1002 入力部、1003 滞留エリア検出部、1004 代表点抽出部、1005 出力部、1006 WPTリスト、1007 地図アプリケーション、1008 出力データ、2001 確率的ヒストグラム化部、2002 クラスター化部、2003 再構成・グループ化部、2004 連結ヒストグラム作成部、2005 多重化ラベル計算部、2006 ラベル計算部、2007 連結ヒストグラム、2008 多重化ラベル、2009 ラベル、3001 サンプリング部、3002 グループ化部、7001 N個の独立したヒストグラム、7004 highグループ、7005 lowグループ、9001 記録デバイス、9002 コンピュータ、9003 ネットワーク、9004 サーバ、9005 ユーザセッション管理部、9006 ユーザデータ管理部、9007 ウェイポイント検出部、9008 地図アプリケーション、9009 出力部、9010 出力データ、9011 表示イメージ

Claims (10)

  1.  ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成する滞留エリア検出部であって、前記滞留時間が長いほどそのクラスターが高い確率で抽出される、滞留エリア検出部と、
     抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する代表点抽出部と、
     前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する代表点序列化部と、を備えた特徴点検出システム。
  2.  前記滞留エリア検出部は、
     第1のデータポイントと第2のデータポイントを、2つのデータポイント間の距離が短いほど高い確率で前記第1及び第2のポイントが同一の階級に属するように分類することによりヒストグラムを生成し、前記ヒストグラムの各階級を前記クラスターに対応させて、各階級の頻度を前記滞留時間を示す指標として決定する確率的ヒストグラム化部を備えた請求項1に記載の特徴点検出システム。
  3.  前記滞留エリア検出部は、
     前記確率的ヒストグラム化部によって生成された前記ヒストグラムの各階級のうち、前記滞留時間の長いクラスターに対応する階級を抽出し、前記抽出した階級に属するデータポイントに対して第2のクラスタリングを行うことにより前記滞留エリアを形成する、請求項2に記載の特徴点検出システム。
  4.  前記滞留エリア検出部は、
     前記確率的ヒストグラム化部によって生成された前記ヒストグラムの各階級のうち、前記滞留時間の長いクラスターに対応する階級を抽出し、前記抽出した階級を前記滞留時間の長短に基づいて2つのグループに分ける、再構成・グループ化部と、
     前記2つのグループのうち、前記滞留時間の長い方のグループの階級に属するデータポイントを用いて滞留エリアを形成した後、他方のグループの階級に属するデータポイントを前記滞留エリアに付加し、または新たな滞留エリアを形成して、滞留エリアを形成するクラスター化部と、を備えた請求項2に記載の特徴点検出システム。
  5.  前記確率的ヒストグラム化部は、
     各データポイントに対してLSH(Locality Sensitive Hashing)を用いて付与されるラベルを用いて、各々のデータポイントが属する階級を決定する請求項2から4のいずれかに記載の特徴点検出システム。
  6.  前記滞留エリア検出部は、
     ランドマークに対応する地点に対応するデータポイント、及びユーザの嗜好に合った地点に対応するデータポイントの少なくとも一方に対して前記クラスタリングを行い、そのデータポイントが含まれるクラスターが抽出される確率が高くなるように重み付けをする、請求項1から5のいずれかに記載の特徴点検出システム。
  7.  前記滞留エリア検出部は、
     前記GPSログデータをランダムにサンプリングしてデータポイント数を削減してから前記滞留エリアの抽出を行う、請求項1から6のいずれかに記載の特徴点検出システム。
  8.  前記滞留エリア検出部は、
     前記GPSログデータに含まれる全てのデータポイントを含む最小範囲で定義される全体領域を複数の固定領域に分割し、各々の前記固定領域について、前記固定領域に属するデータポイント数が多い固定領域ほど高い確率でデータポイントを抽出し、抽出したデータポイントを用いてクラスタリングを行う請求項1から7のいずれかに記載の特徴点検出システム。
  9.  ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成し、前記滞留時間が長いほどそのクラスターが高い確率で抽出される工程と、
     抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する工程と、
     前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する工程と、を備えた特徴点検出方法。
  10.  コンピュータを、
     ユーザのGPSログデータに含まれるデータポイントの分布に基づいてクラスタリングを行い、各クラスターに含まれるデータポイント数に基づいてそのクラスターにおけるユーザの滞留時間を示す指標を決定し、前記指標に基づいて1以上のクラスターを抽出し、前記抽出したクラスターに基づいてユーザの滞留エリアを形成する滞留エリア検出部であって、前記滞留時間が長いほどそのクラスターが高い確率で抽出される、滞留エリア検出部と、
     抽出された各々の前記滞留エリアから、前記滞留エリアの代表点を1つずつ抽出すると共に、各々の前記滞留エリア内の前記データポイントの密集度に基づいて、各々の前記代表点のスコアを決定する代表点抽出部と、
     前記スコアに基づいて、各々の前記代表点を序列化したリストを出力する代表点序列化部と、して機能させるプログラム。
PCT/JP2011/059790 2010-05-12 2011-04-21 特徴点検出システム、特徴点検出方法、及びプログラム WO2011142225A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012514747A JP5534007B2 (ja) 2010-05-12 2011-04-21 特徴点検出システム、特徴点検出方法、及びプログラム
US13/696,765 US8938357B2 (en) 2010-05-12 2011-04-21 Characteristic point detection system, characteristic point detection method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010110361 2010-05-12
JP2010-110361 2010-05-12

Publications (1)

Publication Number Publication Date
WO2011142225A1 true WO2011142225A1 (ja) 2011-11-17

Family

ID=44914281

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/059790 WO2011142225A1 (ja) 2010-05-12 2011-04-21 特徴点検出システム、特徴点検出方法、及びプログラム

Country Status (3)

Country Link
US (1) US8938357B2 (ja)
JP (1) JP5534007B2 (ja)
WO (1) WO2011142225A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137738A (ja) * 2011-11-29 2013-07-11 Colopl Inc 情報処理方法及び装置
CN103634829A (zh) * 2013-12-18 2014-03-12 中国联合网络通信集团有限公司 一种基于路测信息的路段筛选方法和设备
US20140137203A1 (en) * 2012-11-15 2014-05-15 International Business Machines Corporation Automatically generating challenge questions inferred from user history data for user authentication
JP2017033404A (ja) * 2015-08-04 2017-02-09 日本電信電話株式会社 滞在確率密度推定装置、方法、及びプログラム
JP2017531219A (ja) * 2014-06-02 2017-10-19 クアルコム,インコーポレイテッド 重複するロケーションデータからの関係の導出
JP2017535834A (ja) * 2014-09-17 2017-11-30 アリババ グループ ホウルディング リミテッド ユーザ端末に情報を伝達するための方法およびサーバ
CN109325082A (zh) * 2018-08-02 2019-02-12 武汉中海庭数据技术有限公司 基于多源传感器log文件截取的方法
CN116738073A (zh) * 2022-09-21 2023-09-12 荣耀终端有限公司 常驻地的识别方法、设备及存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886082B (zh) * 2014-03-26 2017-02-08 百度在线网络技术(北京)有限公司 对兴趣点的位置信息进行校验的方法和设备
JP6546385B2 (ja) * 2014-10-02 2019-07-17 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
CN105307121B (zh) * 2015-10-16 2019-03-26 上海晶赞科技发展有限公司 一种信息处理方法及装置
CN106897420B (zh) * 2017-02-24 2020-10-02 东南大学 一种基于手机信令数据的用户出行驻留行为识别方法
CN111295697B (zh) * 2017-11-06 2022-08-09 本田技研工业株式会社 移动体分布状况预测装置和移动体分布状况预测方法
CN108388538B (zh) * 2017-12-29 2021-04-27 杭州后博科技有限公司 一种生成书包减重建议的系统及方法
CN108875032B (zh) * 2018-06-25 2022-02-25 讯飞智元信息科技有限公司 区域类型确定方法及装置
CN111046895B (zh) * 2018-10-15 2023-11-07 北京京东振世信息技术有限公司 一种确定目标区域的方法和装置
CN110503485B (zh) * 2019-08-27 2020-09-01 北京京东智能城市大数据研究院 地理区域分类方法及装置、电子设备、存储介质
CN113190696A (zh) * 2021-05-12 2021-07-30 百果园技术(新加坡)有限公司 一种用户筛选模型的训练、用户推送方法和相关装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044512A (ja) * 2001-07-27 2003-02-14 Dainippon Printing Co Ltd 行動エリア探索サーバおよび情報推薦サーバ
JP2006023793A (ja) * 2004-07-06 2006-01-26 Sony Corp 情報処理装置,プログラム,プログラム提供サーバ
WO2006040901A1 (ja) * 2004-10-14 2006-04-20 Matsushita Electric Industrial Co., Ltd. 移動先予測装置および移動先予測方法
JP2007148517A (ja) * 2005-11-24 2007-06-14 Fujifilm Corp 画像処理装置、画像処理方法、および画像処理プログラム
JP2009139231A (ja) * 2007-12-06 2009-06-25 Denso Corp 位置範囲設定装置、移動物体搭載装置の制御方法および制御装置、ならびに車両用空調装置の制御方法および制御装置
JP2009230514A (ja) * 2008-03-24 2009-10-08 Nec Corp 行き先情報推薦システム、行き先情報推薦装置、携帯端末および行き先情報推薦方法
JP2010072828A (ja) * 2008-09-17 2010-04-02 Olympus Corp 情報提示システム、情報処理システム、プログラム及び情報記憶媒体
JP2010096890A (ja) * 2008-10-15 2010-04-30 Zenrin Co Ltd 電子地図整備システム、電子地図整備方法およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400690B1 (en) * 1998-10-15 2002-06-04 International Business Machines Corporation Dual map system for navigation and wireless communication
US6975939B2 (en) * 2002-07-29 2005-12-13 The United States Of America As Represented By The Secretary Of The Army Mapping patterns of movement based on the aggregation of spatial information contained in wireless transmissions
US7747625B2 (en) * 2003-07-31 2010-06-29 Hewlett-Packard Development Company, L.P. Organizing a collection of objects
US7353109B2 (en) * 2004-02-05 2008-04-01 Alpine Electronics, Inc. Display method and apparatus for navigation system for performing cluster search of objects
EP2145496B1 (en) * 2007-03-27 2015-05-06 Telefonaktiebolaget LM Ericsson (publ) Adaptive polygon computation in adaptive enhanced cell identity positioning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003044512A (ja) * 2001-07-27 2003-02-14 Dainippon Printing Co Ltd 行動エリア探索サーバおよび情報推薦サーバ
JP2006023793A (ja) * 2004-07-06 2006-01-26 Sony Corp 情報処理装置,プログラム,プログラム提供サーバ
WO2006040901A1 (ja) * 2004-10-14 2006-04-20 Matsushita Electric Industrial Co., Ltd. 移動先予測装置および移動先予測方法
JP2007148517A (ja) * 2005-11-24 2007-06-14 Fujifilm Corp 画像処理装置、画像処理方法、および画像処理プログラム
JP2009139231A (ja) * 2007-12-06 2009-06-25 Denso Corp 位置範囲設定装置、移動物体搭載装置の制御方法および制御装置、ならびに車両用空調装置の制御方法および制御装置
JP2009230514A (ja) * 2008-03-24 2009-10-08 Nec Corp 行き先情報推薦システム、行き先情報推薦装置、携帯端末および行き先情報推薦方法
JP2010072828A (ja) * 2008-09-17 2010-04-02 Olympus Corp 情報提示システム、情報処理システム、プログラム及び情報記憶媒体
JP2010096890A (ja) * 2008-10-15 2010-04-30 Zenrin Co Ltd 電子地図整備システム、電子地図整備方法およびプログラム

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013137738A (ja) * 2011-11-29 2013-07-11 Colopl Inc 情報処理方法及び装置
US20140137203A1 (en) * 2012-11-15 2014-05-15 International Business Machines Corporation Automatically generating challenge questions inferred from user history data for user authentication
US20140137219A1 (en) * 2012-11-15 2014-05-15 International Business Machines Corporation Automatically generating challenge questions inferred from user history data for user authentication
US8955058B2 (en) * 2012-11-15 2015-02-10 International Business Machines Corporation Automatically generating challenge questions inferred from user history data for user authentication
CN103634829A (zh) * 2013-12-18 2014-03-12 中国联合网络通信集团有限公司 一种基于路测信息的路段筛选方法和设备
JP2017531219A (ja) * 2014-06-02 2017-10-19 クアルコム,インコーポレイテッド 重複するロケーションデータからの関係の導出
JP2017535834A (ja) * 2014-09-17 2017-11-30 アリババ グループ ホウルディング リミテッド ユーザ端末に情報を伝達するための方法およびサーバ
JP2017033404A (ja) * 2015-08-04 2017-02-09 日本電信電話株式会社 滞在確率密度推定装置、方法、及びプログラム
CN109325082A (zh) * 2018-08-02 2019-02-12 武汉中海庭数据技术有限公司 基于多源传感器log文件截取的方法
CN109325082B (zh) * 2018-08-02 2021-04-09 武汉中海庭数据技术有限公司 基于多源传感器log文件截取的方法
CN116738073A (zh) * 2022-09-21 2023-09-12 荣耀终端有限公司 常驻地的识别方法、设备及存储介质
CN116738073B (zh) * 2022-09-21 2024-03-22 荣耀终端有限公司 常驻地的识别方法、设备及存储介质

Also Published As

Publication number Publication date
JPWO2011142225A1 (ja) 2013-07-22
JP5534007B2 (ja) 2014-06-25
US20130054602A1 (en) 2013-02-28
US8938357B2 (en) 2015-01-20

Similar Documents

Publication Publication Date Title
JP5534007B2 (ja) 特徴点検出システム、特徴点検出方法、及びプログラム
CN106255968B (zh) 自然语言图像搜索
JP4861154B2 (ja) 情報サービス提供システム、対象行動推定装置、対象行動推定方法
Touya et al. Detecting level-of-detail inconsistencies in volunteered geographic information data sets
US11216499B2 (en) Information retrieval apparatus, information retrieval system, and information retrieval method
Jonietz et al. Defining fitness-for-use for crowdsourced points of interest (POI)
JP2016162423A (ja) 物体認識装置、物体認識方法、およびプログラム
JP4950508B2 (ja) 施設情報管理システム、施設情報管理装置、施設情報管理方法および施設情報管理プログラム
JP2010128806A (ja) 情報分析装置
Möller et al. A framework for the geometric accuracy assessment of classified objects
JP2009193571A (ja) ウェブ・ページ・コンテンツを抽出するために用いられる方法および装置
CN107251049A (zh) 基于语义指示检测移动装置的位置
KR20150059208A (ko) 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법
JP2017191357A (ja) 単語判定装置
EP3408797B1 (en) Image-based quality control
Dutta et al. Performance evaluation of south Esk hydrological sensor web: unsupervised machine learning and semantic linked data approach
KR20170035694A (ko) 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
JP7187597B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
KR20190000061A (ko) 키워드 속성을 기준으로 관련 있는 키워드를 제공하는 방법 및 시스템
Deeksha et al. A spatial clustering approach for efficient landmark discovery using geo-tagged photos
JP7145247B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2020046853A (ja) 物件情報提示装置、物件情報提示プログラム、物件情報提示方法、及び情報提供システム
JP7159373B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP7212665B2 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20230044871A1 (en) Search Results With Result-Relevant Highlighting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11780482

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012514747

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13696765

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11780482

Country of ref document: EP

Kind code of ref document: A1