WO2011102076A1 - 情報整理システム及び情報整理方法 - Google Patents

情報整理システム及び情報整理方法 Download PDF

Info

Publication number
WO2011102076A1
WO2011102076A1 PCT/JP2011/000210 JP2011000210W WO2011102076A1 WO 2011102076 A1 WO2011102076 A1 WO 2011102076A1 JP 2011000210 W JP2011000210 W JP 2011000210W WO 2011102076 A1 WO2011102076 A1 WO 2011102076A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
log data
extended
reference information
data
Prior art date
Application number
PCT/JP2011/000210
Other languages
English (en)
French (fr)
Inventor
伸治 加美
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/577,409 priority Critical patent/US9116916B2/en
Priority to JP2012500481A priority patent/JP5900323B2/ja
Publication of WO2011102076A1 publication Critical patent/WO2011102076A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Definitions

  • the present invention relates to an information organizing system and information organizing method for analyzing and organizing a large amount of information, and more particularly to an information organizing system and an information organizing method capable of efficiently extracting and displaying information of high importance for a user.
  • FIG. 10 is a diagram illustrating an example of a general data format of GPS log data.
  • a point group obtained by thinning out corresponding points on the map at appropriate intervals based on data such as geodetic coordinates periodically collected by the GPS logger, Can be displayed as a set of line segments.
  • a user can utilize such route information, for example, when recording and creating a travel book etc.
  • a technology for displaying a photograph taken by a user on a map in association with the shooting location as background technology.
  • a function equivalent to the GPS logger can be given to the camera, and geodetic coordinate information can be given to the photo data. It is also possible to search for a point of GPS log data recorded at the time closest to the photo shooting time using the photo shooting time information and GPS log data, and display the photo as if it was taken at that point. it can.
  • Fig. 11 shows an information organization system related to such background technology.
  • the information organization system includes a user device 201, a data reading device 202, a server 203, and a user terminal 204.
  • GPS log data from a GPS logger, photo data of a digital camera, and the like are uploaded from the user device 201 to the server 203 via the data reader 202.
  • the server 203 automatically performs processing such as association with map information, creates a corresponding file (for example, html format), and outputs it to the user terminal 204.
  • the user displays and confirms the file 205 created by the server 203 using the user terminal 204.
  • the server 203 can also use a third-party API (Application Programming Interface) providing a map utility when realizing such a function.
  • a third-party API Application Programming Interface
  • the user can automatically blog or the like without performing complicated operations such as analysis of GPS log data, editing of corresponding map information, and mapping and display of corresponding photo data. Can be created.
  • GPS log data and photo data results in an enormous amount of data, so it is necessary to select information and items necessary for display.
  • the redundant part of the GPS log data is automatically thinned out, all the pictures taken are displayed, or a predetermined rule (for example, a predetermined number is displayed).
  • a predetermined rule for example, a predetermined number is displayed.
  • the template does not explicitly include the log data, for example, the data that the user is interested in among the nearby sights is automatically displayed, the information value increases.
  • a database of sights that can generally become features is prepared, and user preference information is registered in advance. Then, in order to select the relationship with the log data, the relationship between the N log data (log data appropriately thinned out in some cases) and the M landmarks registered in the landmark database is calculated. To do. Then, the calculation for extracting the relationship can be automated by carrying out according to a rule or a criterion determined manually in advance.
  • a physical distance from a famous place is extracted using GPS log data, and a candidate within a certain radius is selected as a candidate.
  • user preference information for example, category information such as a genre of interest
  • Etc. to narrow down those that are judged to be highly relevant.
  • an index quantified by some method is obtained by rigorous calculation of N ⁇ M times, sorted, and further, a plurality of types of operations are performed to narrow down based on user preference information. This is possible.
  • Patent Document 1 the user's preference is dynamically read based on the log data without complicated operations such as input / change of information related to the preference by the user, and the optimum information at the time of information distribution is obtained.
  • a technique for delivering quickly and efficiently is disclosed.
  • the CM content recommendation server receives predetermined information from the user terminal via the distribution management server, the user is identified by the user ID, and the log data is accumulated. Information related to the user's preference is detected while referring to the DB, and a distribution schedule is created so that CM content suitable for the user is transmitted to the user terminal side based on the information related to the preference. Then, the CM content is read from the CM content storage DB based on the distribution schedule by the streaming distribution server and distributed to the user terminal.
  • the information organizing system has a problem that it is difficult to quickly and automatically display summary information by selecting information that is highly important to the user and is considered characteristic from a large amount of log data. .
  • the reason for this is that the superiority or inferiority of each content data is not included in the log data, and it is difficult for the user to determine the superiority or inferiority of importance until the end of log collection. Because it is difficult to enter.
  • a group of information that can be candidates for characteristic information is stored in a database in advance and highly relevant information is extracted in consideration of superiority or inferiority information that is different for each user, This is because there are many difficult to display quickly.
  • an object of the present invention is to select an information that is highly important for a user from a large amount of log data and select information considered to be characteristic, and to automatically display summary information and information. It is to provide an arrangement method.
  • An information organization system includes a reference information database that holds reference information, generalized expression means for mapping metric and nonmetric data to a space so that the distance between them becomes closer to each other, and the reference
  • An extended reference information database that holds extended reference information generated by extending and expressing information using the generalized expression means, and an extension generated by expanding and expressing log data using the generalized expression means.
  • the relevance of log data, and the strength of the relevance between the extended reference information and the extended log data is measured based on the distance in the mapped space, and the extended reference information that is deeply related to the extended log data is detected.
  • Create a predetermined template that summarizes the log data using the detection means and the extended reference information detected by the association detection means Has a template creating means that, a.
  • the information organizing method extends log reference data by using a generalized expression means for registering log data and mapping the metric and non-metric data to a space so that the distance between them becomes closer to each other.
  • the extended reference information is generated by the expression
  • the extended log data is generated by the extended expression of the log data using the generalized expression means, and the relationship between the extended reference information and the extended log data is strengthened.
  • a predetermined template that summarizes the log data using the detected extended reference information, and detects extended reference information that is closely related to the extended log data. create.
  • a program for causing a computer to execute a process of creating a predetermined template from registered log data maps the metric and non-metric data to a space so that the distance between them becomes closer to each other as they are similar to each other.
  • the extended reference information is generated by expanding the reference information using the generalized expression means, the extended log data is generated by expressing the log data using the generalized expression means, and the extended reference information is generated. And the extended log data are measured based on the distance in the mapped space, the extended reference information deeply related to the extended log data is detected, and the detected extended reference information is used.
  • a program for causing a computer to execute a process of creating a predetermined template that summarizes the log data.
  • an information organization system and an information organization method capable of selecting information considered to be highly important and characteristic from a large amount of log data and displaying summary information quickly and automatically. Can do.
  • FIG. 1 is a block diagram showing an information organizing system according to the present embodiment.
  • the information organization system includes a reference information database 1 including feature points and feature point information related to the feature points (hereinafter also referred to as reference information), and a generalization.
  • the expression means 2 the extended reference information database 3 generalized and expressed by the generalized expression means 2, the probabilistic indexing means 4, and the index table 5 that indexes the extended reference information using the probabilistic indexing means 4 And comprising.
  • the log data 6 uploaded by the upload device from the user is expanded log data 7 expressed as a space (typically one point on the vector space) in which the distance is defined using the generalized expression means 2;
  • the relevance detecting means 8 probabilistically detects the extended reference information deeply related to the extended log data 7 among the extended reference information registered in the index table 5.
  • reference information and extended reference information may be simply expressed as feature points.
  • the information organizing system further includes a related feature point set 9 which is a set of extended reference information detected by the relevance detecting unit 8 and scoring for ranking the feature points (extended reference information).
  • a related feature point set 9 which is a set of extended reference information detected by the relevance detecting unit 8 and scoring for ranking the feature points (extended reference information).
  • an ordering means 10 that ranks the related feature point set 9 described above according to its superiority / inferiority / importance, a feature point list 12 that is ranked by the ordering means 10
  • Template creation means 13 for creating a template 14 composed of log data 6 and feature point information deeply related thereto based on the feature point list 12;
  • the template 14 is document information represented by html data such as a blog.
  • the reference information database 1 is a database of information that is generally useful when a user such as a famous place or a transportation point creates summarized information such as a travel note from log data.
  • the information stored in the reference information database 1 includes feature points and feature point information (information including the amount of information as features) that is information related to the feature points.
  • Each feature point includes basic information about each feature point, such as its name, geodetic coordinate information, and the type (category) information of that famous place, and detailed information (feature point information) represented by the feature description and user review comments. Are associated with each other.
  • the feature point information describes metric information expressed by quantification in a metric vector space such as geodetic coordinates (for example, a three-dimensional space of latitude, longitude, and altitude) and features of the feature points.
  • metric information for example, category information.
  • the generalized representation means 2 appropriately combines the features of the feature point information such as metric information (eg, geodetic coordinates) and non-metric information (eg, category information). It is quantified to express and expressed as a point in a multidimensional vector space. For example, feature points having non-metric features similar to each other are expressed so as to be arranged at a closer distance in space.
  • the generalized vector space is represented by the direct sum of the vector space used for the above-described representation of metric information and the vector space for the metric representation of nonmetric information, and its dimension is (metric The dimension of the vector space) + (the dimension of the vector space obtained by quantifying nonmetric information).
  • the present invention is not necessarily limited to this, and feature points having similar features are represented at the same positions in the vector space, and the relationship between the feature points depends on the spatial positional relationship. Any means may be used as long as it is reflected.
  • the extended reference information database 3 is a database of detailed information of feature points that have been quantified by the generalized expression means 2 and replaced with generalized expressions for each feature point registered in the reference information database 1. .
  • This is a registered generalized expression corresponding to a feature point for ID information (or name) of the feature point.
  • the probabilistic indexing means 4 uses the probabilistic neighborhood detecting means designed so that the feature points registered in the extended reference information database 3 are given the same ID table entry ID with a higher probability as they are closer to each other. It is a means to change.
  • an approximate neighborhood point search method LSH: Locality Sensitive Hashing
  • LSH will be described as a representative example of the probabilistic proximity detection means.
  • any method other than LSH may be used as long as the method realizes the same function as LSH.
  • LSH is a function and method for associating one point on the vector space with the ID (label) of the entry on the hash table.
  • LSH is a method that is designed such that two points that are close to each other are more likely to be hashed to the same entry as the distance is close.
  • LSH is applied to the neighborhood detection problem (problem to detect a vector near the Query vector when a certain vector that is a Query is given) and the like. Details of the algorithm include, for example, Mayur Datar, Nicole Immorlica, Piotr Indyk, Vahab S. Mirrokni, , Brooklyn, New York, USA.
  • the index table 5 is an information table in which a plurality of feature points are registered for an entry having each entry ID.
  • the entry ID is designated as a key, the pointer of the feature point information registered therein and the entity detailed information thereof Is designed to be referenced.
  • an entry ID (a set of hash values) is a key, and feature point information registered in the entry can be referred to.
  • it may be designed so that points having a short distance in the generalized vector space are registered in the same entry based on strict distance calculation.
  • One example is a technique based on Voronoi division.
  • the log data 6 is information acquired by a user and uploaded to a server, such as GPS geodetic coordinate information acquired by a GPS logger or photograph data taken by a digital camera.
  • the extended log data 7 is data obtained by measuring and generalizing the log data 6 by the generalized expression means 2 in the same manner as the extended reference information database 3 described above.
  • preference information such as user-specific information (for example, category information with strong user interest)
  • the category information that is of great interest to the user is expanded in addition to the GPS data, and the generalized representation of the log data 6 is It should be placed close to the generalized representation of the feature points that are of interest.
  • a method of setting a predetermined initial value is used.
  • the relevance detection means 8 extracts the extended feature point information registered in the index table 5 and has a deep relationship with the extended log data 7 and outputs a related feature point set 9. For example, the relevance detection means 8 can extract the closeness of the spatial distance as a highly relevant feature point using LSH. Specifically, the extended log data 7 is input to the LSH, the output entry ID (a set of hash values) is checked, and the feature point information registered in the index table 5 is stored using the entry ID as a key. Extract. As a feature of the index table 5, it is highly possible that items having a short distance in the generalized vector space, that is, highly related items are registered in entries having the same table label. Therefore, it can be said that the feature points registered in the entry having the table label of a certain data point in the extended log data 7 are highly related to each other.
  • the relevance detection means 8 is not necessarily limited to the case where LSH is used. Among the feature points registered in the index table 5, the relevance detection means 8 is deeply related to the extended log data 7. Any method that can extract and output the related feature point set 9 may be used.
  • the series of feature point detection methods described above does not extract feature points using simple physical proximity between the log data 6 and the geodetic coordinates of the feature points, but considers user preference information.
  • the closeness to the feature point including user context information such as user preference information is expressed as the strength of relevance, and the higher the relevance (closer in the generalized vector space), the higher the probability for the user.
  • Feature points can be extracted as highly interesting and valuable information.
  • the reason why the probabilistic indexing means 4 using the LSH is used is mainly due to the reduction in calculation cost with an emphasis on its high speed, and if there is no problem in the calculation cost, the neighborhood by strict distance calculation is used.
  • Other neighboring point detection methods such as calculation and Voronoi division can also be used.
  • the scoring policy 11 is defined and provided for each user, and describes information, rules, and the like for giving priority to the importance of the extracted feature points.
  • the number of feature points to be extracted can be freely set. However, if the amount is too small, it is difficult to extract feature points that meet the user's taste. In addition, if it is too much, it takes time to calculate and information that is not so important is included, which reduces usefulness. Therefore, in this embodiment, it is desirable to extract a suitable number according to the calculation cost and display it as important information in order from the top by scoring.
  • the scoring policy 11 emphasizes prior knowledge about important feature point information (for example, feature points with a high rating of many other users, or feature points belonging to a category in which the user has been strongly interested in the past) Etc.), a rule for rating the feature points to the top is described based on this.
  • data collected by the user such as digital camera photo data, is not limited to the vicinity of feature points (not only compared with distances in the generalized vector space, but also in terms of GPS geodetic coordinates and shooting time, for example). If it is in the vicinity), it is possible to describe a rule of rating the feature point to the top as evidence that the user is more interested.
  • Such a description example of the scoring policy 11 is an example, and can be arbitrarily described based on the management policy of the administrator.
  • the ordering means 10 based on importance ranks the related feature point set 9 using the scoring policy 11 described above, and outputs it as a feature point list 12. If necessary, it is possible to set an upper limit of the number of selections such as selecting the top ten, for example.
  • the template creation means 13 creates a template 14 according to a predetermined format based on the feature point list 12.
  • the template 14 is, for example, document information described in a markup language represented by xml or html.
  • the template 14 includes feature points extracted as a basic structure based on user log data along a temporal transition.
  • there is a travel record that describes characteristic sights passing from the start point to the end point and connection information (transportation means, required time, etc.) between the sight points from GPS data input by the user. .
  • the user can further edit this template 14.
  • feature point information extracted from the log data 6 as having high relevance but not displayed as a result of ranking by the scoring policy 11 and data closely related thereto are further reconstructed using this template 14. By doing so, it is possible to facilitate the user's editing work.
  • the reference information (information on feature points such as sights) is indexed in advance by offline processing by the generalized expression means 2 in advance, and the extended reference information is registered in the index table 5. It shall be.
  • the client-side user process and the server-side process are as follows.
  • the user logs in to the server system as necessary, and uploads log data of various devices typified by a GPS logger to the server using a data reader or the like (step S1).
  • the uploaded log data is processed upon user upload, and the generalized representation means 2 is used to obtain the generalized representation of the extended log data 7 (step S2).
  • data processing is a series of data processing processing performed in accordance with predetermined rules necessary for the subsequent processing. For example, unnecessary GPS data thinning processing, dimensional compression or dimensionality for matching dimensions, and the like. Processing such as expansion. Such processing is merely an example, and data processing can be arbitrarily determined.
  • the extended log data 7 is described in a format in which the entry ID of the corresponding index table 5 can be calculated.
  • step S3 the entry ID of the index table 5 to which the extended log data 7 is mapped is calculated through the above-described probabilistic index means (step S3).
  • step S4 feature points deeply related to each extended log data 7 are detected from the entry ID obtained in step S3 (step S4).
  • the feature point registered in the table entry having the entry ID is the highest relevance.
  • feature points with the next highest relevance are extracted, such as searching the neighborhood table as necessary, and a predetermined number of feature points are extracted.
  • the number of feature points to be extracted is generally a number determined by a predetermined rule depending on the indexing means, for example, a number determined by setting a lower limit and an upper limit.
  • the rule for determining the number of feature points to be extracted is not limited to this, and can be arbitrarily determined.
  • the extracted feature point set is ranked according to the scoring policy 11 (importance and priority) corresponding to the user (step S5).
  • the scoring policy 11 can be defined based on various rules such as preference information such as user preferences and reputations of other users, in addition to the importance of feature points such as traffic points.
  • preference information such as user preferences and reputations of other users, in addition to the importance of feature points such as traffic points.
  • the user's preference information can be defined from a behavior history such as past behavior patterns and rating information in addition to the user's profile.
  • the user's preference information can be arbitrarily defined.
  • a template expressing summary information of log data is created according to a predetermined process based on the ordered feature point set (step S6).
  • a predetermined process based on the ordered feature point set (step S6).
  • it is GPS data at the time of a user going for a trip, it will come to show, for example in FIG. In FIG. 3, a predetermined number of feature points 21, 22, and 23 closely related to the trajectory are extracted and displayed in time series based on the GPS data of the trip as a template.
  • feature point information 31, 32, 33 corresponding to each feature point 21, 22, 23 is displayed.
  • the output example shown in FIG. 3 is an example, and a template expressing summary information of log data can be arbitrarily determined.
  • feature points other than the feature points used for display and related information can be reconfigured so that the user can easily edit them.
  • the template to be displayed is merely a template, and the user can increase or delete the feature points to be displayed based on the template information.
  • right-clicking on the connection information may display information closely related to the connection information using a pull-down menu or the like.
  • the information closely related to the connection information is, for example, information that belongs to the connection section but is not selected as a result of the ranking in step S5.
  • the data is grouped again and associated with each feature point and connection information (hereinafter, feature points and connection information are referred to as display objects) so that information closely related to the connection information can be displayed according to the priority order. Keep it.
  • the data can be further edited and additional information can be easily posted.
  • the associated data includes, for example, comments and photographs previously associated with the feature point information registered in the reference information database 1. Detailed information such as can be added.
  • photo data and comment information from the user's digital camera can be registered in the index table according to the relevance by the same method as described above from the creation time and place, and can be reconstructed by the same method. Is possible.
  • the template information 40 including the feature points 41, 42, 43, and 44 and the connection information 45, 46, and 47 between the feature points shown in FIG. 4 is extracted from the feature point information 51 and the general information associated with the feature points. It is automatically generated based on information group 50 such as information 52 and log data 53. In this example, according to the structure of the template information 40, the information group 50 is disassembled and reconfigured according to the relevance between the feature points 41, 42, 43, 44 and the connection information 45, 46, 47.
  • connection information 45 includes information 60 including a related feature point sub-set 61, a log data candidate sub-set 62, and a general data candidate sub-set 63, which are associated and reconfigured.
  • the feature point 42 is reconstructed in association with information 70 including a log data candidate sub-set 71 and a general data candidate sub-set 72.
  • the detailed information of the display object can be automatically displayed as the detailed information of the display object using the detailed information prepared in advance according to a predetermined rule.
  • a note 48 such as text information or photographic information describing the feature point 43 in detail is automatically created from general information related to the extracted feature point, and is associated with the feature point 43, and automatically according to the importance level. It is also possible to perform automatic display processing according to a rule such as displaying on the screen.
  • the created template information is transferred to the client side through the network (step S7).
  • the user displays and confirms the template information transferred from the server using the user terminal (step S8). Further, the user can edit the template information by using the displayed template information and the log data reconstructed by the above method (steps S9 and S10). Then, the editing of the template information by the user is completed, and the template creation work is finished (step S11).
  • the information organization system and information organization method according to the present embodiment it is not directly included in the user log data, but is highly relevant to the user log data and highly important for the user.
  • related information that has a high possibility of showing high interest can be displayed in association with the summary display of the log data.
  • template information is created using the information organization system and the information organization method according to the above-described embodiment.
  • a system capable of automatically outputting a travel template by uploading GPS data collected when a user goes on a trip will be described.
  • FIG. 5 is a block diagram showing a specific example of the information organization system 80 according to the present embodiment.
  • the information organization system 80 includes a user terminal 81, a web server 82, an application server 83, and a database server 84.
  • the user has the GPS logger 85 as a user device.
  • the user terminal 81 is connected to the web server 82 via a network and can exchange data with each other.
  • the user accesses the web server 82 from the user terminal 81, logs in using an account unique to the user through the web page 86, for example, and uploads log data created and recorded during the trip to the web server 82.
  • the application server 83 includes a template creation application 83_1, indexing means 83_2, policy information 83_3, and reconfiguration data 83_4.
  • the database server 84 includes an index table 84_1, user information 84_2, and a reference information database 84_3.
  • the reference information database 84_3 of the database server 84 for example, data on feature points shown in FIG. 6 is registered. Each feature point is expanded to a generalized expression, and the closeness of the spatial distance is extracted as a highly relevant feature point using LSH and stored in the index table 84_1.
  • the database server 84 performs such processing as offline processing in advance.
  • feature points, geodetic coordinate values, category information, and rating information are registered in the reference information database 84_3.
  • This generalized vector space is expressed as a direct sum of a three-dimensional physical geodetic coordinate space and a vector space expressing category information.
  • the category information space can generally be expressed in a K-dimensional space for a certain positive integer K.
  • K the number of categories
  • feature point A is (a1, a2, 1)
  • feature point B is (b1, b2, ⁇ 1)
  • feature point C is (c1, c2, 1)
  • feature point D Becomes (d1, d2, 1), which are respectively located at point 91, point 92, point 93, and point 94 in the three-dimensional vector space shown in FIG.
  • a1, a2, b1, b2, c1, c2, d1, and d2 are component values in a two-dimensional space ignoring the height direction of the geodetic coordinates of the feature points A, B, C, and D.
  • These feature points are registered in an index table 84_1 stored in the database server 84.
  • the index table 84_1 may be stored in the application server 83.
  • the rating information of other users can also be designated in advance as real numbers in the range [0, 1] for these feature points.
  • the larger the rating information value the higher the evaluation (higher popularity).
  • the feature point A is 0.8
  • the feature point B is 0.7
  • the feature point C is 0.5
  • the feature point D is 0.9.
  • the GPS log data input by the user is discrete data in which geodetic coordinates from point X (x1, x2) to point Y (y1, y2) are arranged at appropriate time intervals.
  • This GPS log data forms a straight locus (trajectory 98) from the point X (x1, x2) to the point Y (y1, y2).
  • this information is expressed by a vector component on the generalized vector. This can be determined, for example, from the category information of photo data uploaded in the past (many pictures of mountains, etc.).
  • the component value related to the user's interest category is 0.8
  • the representation of the locus of the GPS log data on the generalized vector space is a two-dimensional physical geodetic coordinate space as shown in FIG.
  • the category information space is expanded to a trajectory in a three-dimensional space, resulting in a trajectory 99 on the surface 95.
  • the representation of the user's GPS log data in the generalized vector space (hereinafter referred to as a generalized locus) is on a straight line from (x1, x2, 0.8) to (y1, y2, 0.8).
  • a set of points The geometric positions of the start point and end point of the generalized trajectory are represented by points 96 and 97 in FIG. 7, respectively, and the generalized trajectory is represented by a trajectory 99 with respect to the trajectory 98 of the geodetic coordinates. That is, the extended log data obtained by expanding and expressing the trace 98 that is log data using the generalized expression means becomes the trace 99.
  • the web server 82 issues a template file creation request to the application server 83.
  • an application 83_1 for creating a template from user log data is installed.
  • the application server 83 acquires the log data uploaded from the web server 82, the extended log data is created by processing the data as described above in accordance with the user preference information and converting it into a generalized expression.
  • the application server 83 inputs the created extended log data into the LSH, examines the entry ID that is output, and uses the entry ID as a key to find a deeply related feature point set from the index table 84_1 in the database server 84.
  • the number of the predetermined range is extracted. At this time, if the number of extracted data does not reach the number of the predetermined range, the data is acquired in order from the neighboring table entries, and the data is acquired when the number of the predetermined range is reached. Cancel.
  • the number of feature points to be extracted is two.
  • the feature point A and the feature point C are extracted because they are adjacent in the generalized expression.
  • the feature point B has a distance in the category information axis, it is not detected as the vicinity of the generalized locus. This result reflects that this user is more interested in the mountains than the theme park.
  • the feature point D is not extracted because it is determined to be irrelevant to the log data because the physical distance is away from the user's trajectory.
  • the feature points are ordered based on the user information 84_2 stored in the database server 84 and the policy information 83_3 stored in the application server 83. Decide which objects to display. Although various types of policy information are determined, it is assumed in this embodiment that rating information of other users is used for simplicity. Then, the feature point A having high rating information is sorted so as to be higher than the feature point C. Thereby, the feature point A is used preferentially over the feature point C.
  • the template (travel book) shown in FIG. 8 has a start point X and an end point Y.
  • the start point X displays information 101 of the start point X
  • the end point Y displays information 103 of the end point Y.
  • the extracted feature point A is a feature point that seems to be most relevant to the user in the path from the start point X to the end point Y, and information 102 about the feature point A is automatically displayed.
  • connection information 104 of the route XA and the connection information 105 of the route AY are automatically created at the same time, and information such as elapsed time can be displayed.
  • the information of the feature point C which is another detected feature point, is reconfigured so as to be associated with the connection information object between the feature point A and the end point Y.
  • the connection information AY when the user selects the connection information AY and edits to add new information, the information can be preferentially displayed.
  • the data set in the present embodiment is merely a simplified example.
  • generalized expressions can add measurement data such as time information in addition to GPS information. It is also possible to express more complex information including category information and other non-metric data, with higher dimensions.
  • the generalized trajectory need not be a trajectory in a fixed plane, and it has been expanded to be expressed by a curved surface that depends on the location, etc., and expressed by multiple generalized trajectories that are probabilistically weighted. May be.
  • the information organizing system and information organizing method according to the present invention described above, it is possible to automatically create a travel record, an action record, etc. while having excellent responsiveness by uploading log data to a server. It becomes.
  • the information organization system and information organization method according to the present invention recommends relevant information such as highly relevant shops and tourist spots from the user's behavior pattern based on the log data, or an advertisement including closely related information. It is also applicable to uses such as displaying
  • the information organizing system according to the present embodiment is a generalized expression that maps the reference information database 1 that holds reference information and the space so that the distance between the reference information database 1 and the metric and non-metric data becomes closer to each other as they become similar to each other.
  • Means 2 extended reference information database 3 that holds extended reference information generated by extended expression of reference information using generalized expression means, and log data 6 is extendedly expressed using generalized expression means 2 Measure the strength of the relationship between the expanded log data 7 generated and the expanded reference information and the expanded log data based on the distance in the mapped space, and expand the expanded reference information closely related to the expanded log data.
  • each component shown in FIG. 9 has already been described with reference to FIG. 1, detailed description thereof will be omitted.
  • the program for causing a computer to execute processing for creating a predetermined template from registered log data causes the computer to execute the following steps.
  • Generating extended reference information by expanding the reference information using generalized expression means for mapping the metric and non-metric data to a space so that the distance between the metric data and the non-metric data becomes closer to each other.
  • a step of generating extended log data by extendedly expressing the log data registered using the generalized expression means. Measuring the strength of the relationship between the extended reference information and the extended log data based on the distance in the mapped space, and detecting the extended reference information having a deep relationship with the extended log data. Creating a predetermined template that summarizes log data using the detected extended reference information;
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic recording media (eg, flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg, magneto-optical disks), CD-ROM (Read Only Memory) CD-R, CD -R / W, including semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • the program may be supplied to the computer by various types of temporary computer readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
  • the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明にかかる情報整理システムは、参照情報を保持する参照情報データベース1と、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段2と、参照情報を一般化表現手段を用いて拡張表現した拡張参照情報データベース3と、ログデータ6を一般化表現手段を用いて拡張表現した拡張ログデータ7と、拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段8と、検出された拡張参照情報を用いてログデータ6を要約した所定のテンプレート14を作成するテンプレート作成手段13と、を有する。本発明により、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが可能な情報整理システムを提供することができる。

Description

情報整理システム及び情報整理方法
 本発明は膨大な情報を分析し整理する情報整理システム及び情報整理方法に関し、特にユーザにとって重要度の高い情報を効率よく抽出し表示することができる情報整理システム及び情報整理方法に関する。
 自動的にログデータを分析し整理する技術の一つに、GPSロガー等の測地座標データを収集するデバイスのログを、ユーザが実際に通った地図上の経路に表示する技術がある。図10は、GPSログデータの一般的なデータフォーマットの一例を示す図である。図10に示すGPSログデータを用いることで、GPSロガーが定期的に収集した測地座標などのデータに基づき、対応する地図上の点を視認性を考慮した適当な間隔で間引いた点群やその間の線分の集合として表示することができる。そして、ユーザは例えば旅行記などを記録・作成する際にこのような経路情報を活用することができる。
 さらに、背景技術としてユーザが撮影した写真をその撮影場所と対応付けて地図上に表示する技術がある。この場合、撮影場所と写真データとを対応づけるためにカメラにGPSロガーと同等の機能を付与し、写真データに測地座標情報を付与することができる。また、写真の撮影時間情報とGPSログデータを用いて、写真の撮影時間と最も近い時間に記録されたGPSログデータの点をサーチし、その点で撮影されたものとして写真を表示することもできる。
 このような背景技術にかかる情報整理システムを図11に示す。図11に示すように、背景技術にかかる情報整理システムは、ユーザデバイス201、データ読み取り装置202、サーバ203、およびユーザ端末204から構成されている。GPSロガーからのGPSログデータやデジタルカメラの写真データなどがユーザデバイス201からデータ読み取り装置202を経由してサーバ203にアップロードされる。サーバ203は地図情報との対応付けなどの処理を自動的に行い、対応するファイル(例えば、html形式)を作成しユーザ端末204に出力する。ユーザはサーバ203が作成したファイル205を、ユーザ端末204を用いて表示し確認する。
 サーバ203はこのような機能を実現する際に、地図ユーティリティを提供しているサードパーティのAPI(Application Programming Interface)を利用することもできる。つまり、APIに合わせた形で情報を加工して入力し、取得した出力情報を加工してユーザ向けhtmlファイルやブログ等を作成することも可能である。上記の背景技術にかかる情報整理システムにおいても、ユーザはたとえばGPSログデータの分析、対応する地図情報の編集、対応する写真データのマッピングや表示といった煩雑な作業をすることなく、自動的にブログなどを作成することが可能となる。
 一般的に、GPSログデータや写真データをそのまま表示すると膨大なデータ量となるため、表示に必要な情報やアイテムを選択する必要がある。簡単には、GPSログデータのうち冗長な部分を自動的に間引く方法や、撮影した写真をすべて表示するか、予め決めておいたルール(例えば、予め決めておいた数だけ表示する等)に従って膨大なデータを圧縮する方法がある。しかし、これだけではログデータからその概略を要約したような視認性の高い情報を出力することは難しい。例えば旅行に関するログデータであったら、交通要所、観光名所などを抽出し、その間は移動情報として扱った旅行記のようなテンプレートを作成することが望ましい。また、そのテンプレートには、例えばログデータには明示的に含まれていなくとも、近くにある名所のうちユーザが興味をもつデータなどが自動的に表示されると情報価値が高まる。
 これらの目的を達成するためには、一般的に特徴となりうる名所などのデータベースを用意し、さらに予めユーザの趣向情報を登録しておく。そして、ログデータとの関連性を選択するために、N個のログデータ(場合によっては適当に間引かれたログデータ)と名所データベースに登録してあるM個の名所との関係性を演算する。そして、この関係性を抽出するための演算をマニュアル的に予め決めておいたルールや判断基準に従い実施することで自動化することができる。
 例えば、GPSログデータを用いて名所からの物理的距離を抽出し、ある半径内に入ったものを候補として選択し、さらに、そこからユーザの趣向情報(例えば、興味のあるジャンルなどのカテゴリ情報等)と比較し、関係性が高いと判断されたものを絞り込むという作業を行う。関係性の判断は、なんらかの方法で定量化された指標をN×M回の厳密な計算で求めてそれをソートし、さらにユーザの趣向情報をもとに絞りこむという複数種類の演算を実行することで可能となる。
 一方、特許文献1にはユーザによる嗜好性に係る情報の入力/変更といった煩雑な作業を伴うことなく、ログデータに基づいてユーザの嗜好をダイナミックに読み取り、情報配信を行う時点で最適な情報を迅速且つ高効率に配信する技術が開示されている。特許文献1にかかる情報配信システム及び情報配信方法では、CMコンテンツリコメンドサーバが、配信管理サーバを介してユーザ端末からの所定情報を受信した場合には、ユーザIDによりユーザを特定し、ログデータ蓄積DBを参照しつつユーザの嗜好性に係る情報を検出し、嗜好性に係る情報に基づいてユーザに好適なCMコンテンツをユーザ端末側に送信するように配信スケジュールを作成する。そして、ストリーミング配信サーバにより、配信スケジュールに基づいてCMコンテンツがCMコンテンツ蓄積DBから読み出され、ユーザ端末に配信される。
特開2003-242069号公報
 上記背景技術にかかる情報整理システムでは、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが困難であるという問題がある。この理由は、各コンテンツデータの優劣はログデータに含まれておらず、またユーザはログ収集の最後になるまで重要度の優劣を決めることが難しく、情報量が大量の場合マニュアル的に優劣情報を入力することが困難だからである。また、背景技術で説明したように、特徴的な情報として候補となりうる情報群をあらかじめデータベース化しておき、ユーザごとに異なる優劣情報も考慮して関連性の高い情報を抽出する場合は、計算量が多く迅速に表示することが困難だからである。
 上記課題に鑑み本発明の目的は、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが可能な情報整理システム及び情報整理方法を提供することである。
 本発明にかかる情報整理システムは、参照情報を保持する参照情報データベースと、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段と、前記参照情報を前記一般化表現手段を用いて拡張表現することで生成された拡張参照情報を保持する拡張参照情報データベースと、ログデータを前記一般化表現手段を用いて拡張表現することで生成された拡張ログデータと、前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段と、前記関連性検出手段により検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成するテンプレート作成手段と、を有する。
 本発明にかかる情報整理方法は、ログデータを登録し、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、前記一般化表現手段を用いて前記ログデータを拡張表現することで拡張ログデータを生成し、前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する。
 本発明にかかる、登録されたログデータから所定のテンプレートを作成する処理をコンピュータに実行させるプログラムは、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、前記一般化表現手段を用いて前記ログデータを拡張表現することで拡張ログデータを生成し、前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する処理をコンピュータに実行させるプログラムである。
 本発明により、膨大なログデータのうち、ユーザにとって重要度が高く、かつ特徴的と考える情報を選択し要約情報を迅速に自動表示することが可能な情報整理システム及び情報整理方法を提供することができる。
実施の形態にかかる情報整理システムを示すブロック図である。 実施の形態にかかる情報整理システムの動作を説明するためのフローチャートである。 実施の形態にかかる情報整理システムを用いて出力されるテンプレートの一例を示す図である。 実施の形態にかかる情報整理システムを用いて出力されたテンプレートを編集可能に再構成した場合の一例を示す図である。 実施の形態にかかる情報整理システムの一例を示すブロック図である。 実施の形態にかかる情報整理システムの特徴点情報の一例を示す図である。 実施の形態にかかる情報整理システムを用いてテンプレートを作成する場合に用いる3次元ベクトル空間を示す図である。 実施の形態にかかる情報整理システムを用いて出力されるテンプレートの一例を示す図である。 実施の形態にかかる情報整理システムを示すブロック図である。 GPSログデータの一般的なデータフォーマットの一例を示す図である。 背景技術にかかる情報整理システムを説明するための図である。
 以下、図面を参照して本発明の実施の形態について説明する。図1は、本実施の形態にかかる情報整理システムを示すブロック図である。図1に示すように、本実施の形態にかかる情報整理システムは、特徴点および当該特徴点に関連する特徴点情報(以下、これらを参照情報ともいう)を含む参照情報データベース1と、一般化表現手段2と、一般化表現手段2によって一般化表現された拡張参照情報データベース3と、確率的インデックス化手段4と、確率的インデックス化手段4を用いて拡張参照情報をインデックス化したインデックステーブル5と、を備える。更に、ユーザからアップロードデバイスによってアップロードされたログデータ6を、一般化表現手段2を用いて距離の定義がされた空間(典型的にはベクトル空間上の一点)として表現された拡張ログデータ7と、インデックステーブル5に登録された拡張参照情報の中で、拡張ログデータ7と関連性の深い拡張参照情報を確率的に検出する関連性検出手段8と、を備える。なお、以下では参照情報や拡張参照情報を単に特徴点と表現する場合もある。
 本実施の形態にかかる情報整理システムは更に、関連性検出手段8によって検出された拡張参照情報の集合である関連特徴点集合9と、特徴点(拡張参照情報)を序列化するためのスコアリングポリシー11と、スコアリングポリシー11を用いて、上述の関連特徴点集合9をその優劣・重要度によって序列化する序列化手段10と、序列化手段10で序列化された特徴点リスト12と、特徴点リスト12に基づきログデータ6およびそれと関連の深い特徴点情報から構成されるテンプレート14を作成するテンプレート作成手段13と、を備える。ここで、テンプレート14は例えばブログなどのhtmlデータに代表されるドキュメント情報である。
 参照情報データベース1は、例えば名所や交通要所といったユーザがログデータから旅行記のようなサマライズされた情報を作成する上で一般的に有用な情報のデータベースである。参照情報データベース1が蓄積する情報は、特徴点と、当該特徴点に関連する情報である特徴点情報(特徴としての情報量を含んだ情報)を含んでいる。その名称、測地座標情報、その名所の種別(カテゴリ)情報など各特徴点に関する基本情報と、その特徴の記述やユーザのレビューコメントなどに代表される詳細情報(特徴点情報)が各特徴点に対して関連付けられている。ここで、特徴点情報は、測地座標などの計量ベクトル空間(たとえば緯度、経度、高度の3次元空間)で直接的に計量化されて表現された計量的な情報と、特徴点の特徴を記述する非計量的な情報(たとえばカテゴリ情報など)とを含んでいる。
 一般化表現手段2は、上記特徴点情報のうちの計量的な情報(例えば、測地座標等)と、非計量的な情報(例えば、カテゴリ情報等)とを、その特徴の相互関係を適切に表現するように計量化し、多次元ベクトル空間の一点として表現する。例えば、互いに類似する非計量的な特徴を有する特徴点同士はより空間的に近い距離に配置されるように表現される。この場合、一般化ベクトル空間は上記の計量的な情報の表現に用いられるベクトル空間と非計量的情報の計量化表現のためのベクトル空間との直和で表わされ、その次元は(計量的ベクトル空間の次元)+(非計量的情報を計量化したベクトル空間の次元)となる。非計量的情報の計量化の一例としては多次元尺度法などを用いる方法がある。しかし、本実施の形態では、必ずしもこれに限られるものではなく、同じような特徴をもつ特徴点がベクトル空間上の同じような位置に表現され、特徴点同士の関係がその空間的位置関係によって反映されるような手段であれば、どのような手段を用いてもよい。
 拡張参照情報データベース3は、参照情報データベース1に登録された各特徴点に対して、一般化表現手段2によって計量化され一般化表現に置き換えられた特徴点の詳細情報をデータベース化したものである。これは特徴点のID情報(もしくは名称)に対して、その特徴点に対応する一般化表現が登録されたものである。
 確率的インデックス化手段4は、拡張参照情報データベース3に登録された特徴点を、互いに近傍にあるほど高い確率で同一インデックステーブルのエントリIDが与えられるように設計された確率的近傍検出手段によってインデックス化する手段である。この場合は、例えば近似近傍点探索手法(LSH:Locality Sensitive Hashing)を用いることができる。以後の説明では、確率的近傍検出手段の代表例としてLSHを用いて説明するが、LSHと同様の機能を実現する手法であればLSH以外の手法を用いてもよい。
 LSHは、ベクトル空間上の1点とハッシュテーブル上のエントリのID(ラベル)とを対応させる関数およびその方法である。LSHは、距離が近い2点はその距離が近いほど同じエントリにハッシュされる確率が高くなるように設計される手法である。LSHは、近傍検出問題(Queryとなるあるベクトルが与えられた時、そのQueryベクトルの近くにあるベクトルを検出する問題)などに応用されている。そのアルゴリズム詳細については例えば、Mayur Datar , Nicole Immorlica , Piotr Indyk , Vahab S. Mirrokni, Locality-sensitive hashing scheme based on p-stable distributions, Proceedings of the twentieth annual symposium on Computational geometry, pp. 253-262, 2004, Brooklyn, New York, USAを参照されたい。
 インデックステーブル5は、各エントリIDをもつエントリに対して複数の特徴点が登録された情報テーブルであり、エントリIDをキーに指定すると、そこに登録された特徴点情報のポインタおよびその実体詳細情報が参照できるように設計されている。上述のLSHを用いた場合は、エントリID(ハッシュ値の組)がキーであり、そのエントリに登録された特徴点情報を参照することができる。計算時間に問題がない場合は、厳密な距離計算に基づいて一般化ベクトル空間上での距離が近い点同士が同じエントリに登録されるように設計されていてもよい。一例としてボロノイ分割などによる手法がある。
 ログデータ6は、例えばGPSロガーによって取得されたGPS測地座標情報やデジタルカメラによって撮影された写真データなどに代表される、ユーザが取得しサーバにアップロードした情報である。
 拡張ログデータ7は、上述の拡張参照情報データベース3と同様に、ログデータ6を一般化表現手段2によって計量化し一般化表現されたデータである。このとき、特徴点の一般化表現手段で表現されるベクトル空間(拡張参照情報データベース3)と次元を合致させるために、ユーザ固有の情報(例えば、ユーザの興味が強いカテゴリ情報などのプレファランス情報)をもとに次元を拡張しておく。例えば、特徴点の物理的な測地座標の他に、その属するカテゴリ情報を含んでいた場合、ユーザの興味の強いカテゴリ情報もGPSデータに加えて次元を拡張し、ログデータ6の一般化表現がその興味の近い特徴点の一般化表現と近く配置されるようにする。一方、ユーザの興味の強いカテゴリ情報がない場合は、例えば予め決めておいた初期値を設定する等の方法を用いる。
 関連性検出手段8は、インデックステーブル5に登録してある拡張特徴点情報のなかで拡張ログデータ7と関連性の深いものを抽出し関連特徴点集合9を出力する。例えば、関連性検出手段8はLSHを用いて空間的距離の近さを関連性の高い特徴点として抽出できる。具体的には、拡張ログデータ7をLSHに入力して、出力されるエントリID(ハッシュ値の組)を調べ、そのエントリIDをキーにして、インデックステーブル5に登録されている特徴点情報を抽出する。インデックステーブル5の特徴として、一般化ベクトル空間において距離の近い、つまり関連性の高いもの同士は同じテーブルラベルを持つエントリに登録されている可能性が高い。このため、拡張ログデータ7のあるデータ点のテーブルラベルをもつエントリに登録された特徴点は互いに関連性が高いといえる。
 また、その近傍(例えば、隣のテーブルラベルを持つエントリ)も次に関連性が高い特徴点が登録されている可能性が高いので、近傍のテーブルエントリを検索することで同様の手続きによって関連性の高い特徴点を必要な特徴点の数になるまでさらに検索することができる。なお、本実施の形態において関連性検出手段8は必ずしもLSHを用いる場合に限定されることはなく、インデックステーブル5に登録してある特徴点のなかで拡張ログデータ7と関連性の深いものを抽出し関連特徴点集合9を出力することができる方法であればどのようなものであってもよい。
 上記で説明した一連の特徴点検出手法は、ログデータ6と特徴点の測地座標との単なる物理的な近さを用いて特徴点を抽出しているのではなく、ユーザの趣向情報を考慮して特徴点を抽出している。つまり、ユーザの趣向情報などのユーザコンテキスト情報を含んだ特徴点との近さを関連性の強さとして表現し、関連性が強い(一般化ベクトル空間上で近い)ほど高い確率で、ユーザにとって興味が強く価値がある情報として特徴点を抽出することができる。ここで、LSHを利用した確率的インデックス化手段4を用いたのは、その高速性を重視した計算コストの削減が主たる理由であり、計算コストに問題がない場合は、厳密な距離計算による近傍計算やボロノイ分割をはじめ、その他の近傍点検出手法を使うことも可能である。
 スコアリングポリシー11は、ユーザごとに定義・提供され、抽出された特徴点の重要度に対する優劣をつけるための情報、ルールなどが記述されたものである。抽出する特徴点の数は自由に設定可能である。しかし、少なすぎると十分にユーザの趣向にあった特徴点を抽出することが困難である。また、多すぎると計算に時間がかかるほか、それほど重要度の高くない情報も含まれることになり、有用性が薄れる。そのため、本実施の形態では計算コストに合わせて適当な数を抽出し、スコアリングすることで上から順に重要な情報として表示する方法が望ましい。
 スコアリングポリシー11としては、重視する特徴点情報に関する事前知識(例えば、他の多くのユーザのレーティングが高い特徴点や、過去にユーザが強く興味を示したカテゴリに属している特徴点を重視する等)がある場合には、これに基づきその特徴点を上位にレーティングするというルールを記述しておく。また、例えばデジタルカメラなどの写真データのようにユーザが収集したデータが特徴点の近傍(単に一般化ベクトル空間での距離での比較だけではなく、例えばGPS測地座標や撮影時間などの観点での近傍であってもよい)にある場合は、ユーザがより強い興味を示している証拠として、その特徴点を上位にレーティングするというルールを記述しておくことができる。このようなスコアリングポリシー11の記述例は一例であり、管理者の管理ポリシーに基づいて任意に記述することができる。
 重要度による序列化手段10は、上述のスコアリングポリシー11を用いて関連特徴点集合9を序列化し、特徴点リスト12として出力する。必要に応じて、例えば上位10個を選択する等の選択数の上限を設定することも可能である。
 テンプレート作成手段13は、特徴点リスト12に基づき予め決められたフォーマットに従ってテンプレート14を作成する。ここで、テンプレート14としては例えばxmlやhtmlに代表されるマークアップ言語などで記述されたドキュメント情報などである。このテンプレート14は、例えばユーザのログデータをもとに基本構造として抽出した特徴点を時間的な推移に沿って構成されるものである。典型的な例としては、ユーザが入力したGPSデータなどから、始点から終点までに経由した特徴的な名所およびその名所間の接続情報(交通手段、所要時間など)を記載した旅行記等がある。
 ユーザはこのテンプレート14をさらに編集することができる。この際、ログデータ6から関連が高いとして抽出されたがスコアリングポリシー11による序列化の結果、表示されなかった特徴点情報や、それに関係の深いデータをこのテンプレート14を用いて更に再構成しておくことで、ユーザの編集作業を容易にすることが可能である。
 次に、本実施の形態にかかる情報整理システムの動作を図2を用いて説明する。なお、図2に示す動作では、参照情報(名所などの特徴点の情報)は、予め上述の一般化表現手段2によってすべてオフライン処理によりインデックス化され、拡張参照情報がインデックステーブル5に登録されているものとする。クライアント側のユーザ処理および、サーバ側の処理プロセスは以下に示すとおりである。
 図2に示すように、ユーザは必要に応じてサーバのシステムにログインし、GPSロガーに代表される各種デバイスのログデータをデータ読み取り装置などを用いてサーバにアップロードする(ステップS1)。
 次に、サーバ側において、ユーザのアップロードを契機に、アップロードされたログデータを加工し、一般化表現手段2を用いて、その一般化表現された拡張ログデータ7を得る(ステップS2)。ここで、データの加工とは、その後の処理に必要な予め決められたルールで行う一連のデータ加工処理であり、例えば不必要なGPSデータの間引き処理や、次元を合わせるための次元圧縮や次元拡張などの処理である。なお、このような処理は一例であり、データの加工については任意に決定することができる。また、拡張ログデータ7は、対応するインデックステーブル5のエントリIDを計算することができるフォーマットで記述されている。
 次に、上述の確率的インデックス手段を通して、拡張ログデータ7が写像されるインデックステーブル5のエントリIDを計算する(ステップS3)。
 次に、関連性抽出手段8を用いて、ステップS3で求めたエントリIDから各拡張ログデータ7に関連の深い特徴点を検出する(ステップS4)。典型的には、そのエントリIDを有するテーブルエントリに登録された特徴点を最高の関連性とする。そして、必要に応じてその近傍テーブルを検索するなど次に関連性の高い特徴点を抽出し、所定の数の特徴点を抽出する。抽出される特徴点の数は、一般的にはインデックス化手段に依存した予め決められたルールで決定される数であり、例えば下限、上限を定めることで決定される数である。なお、抽出される特徴点の数を決定するルールはこれに限定されるものではなく、任意に決定することができる。
 次に、序列化手段10を用いて、抽出した特徴点集合をユーザに応じたスコアリングポリシー11(重要度や優先度)に従って序列化する(ステップS5)。スコアリングポリシー11は、例えば交通要所など特徴点自体が持つ重要性に加えて、ユーザの趣向などのプレファランス情報や、他のユーザの評判など様々なルールに基づき規定することができる。ここで、例えばユーザのプレファランス情報はユーザのプロフィールに加え、過去の行動パタンやレーティング情報などの行動履歴等から規定することができる。なお、ユーザのプレファランス情報は任意に規定することができる。
 次に、テンプレート作成手段13を用いて、序列化された特徴点集合に基づき予め決められた処理に従って、ログデータのサマリー情報を表現するテンプレートを作成する(ステップS6)。典型的にはhtmlなどで記述されるがこれに限定されるものではない。ユーザが旅行に行った際のGPSデータであれば、例えば図3に示すようになる。図3では、テンプレートとしてその旅行の道中のGPSデータに基づき、その軌跡と関連の深い特徴点21、22、23を予め決められた数だけ抽出し時系列的に表示している。また、各特徴点21、22、23にはそれぞれに対応する特徴点情報31、32、33が表示されている。また、各特徴点21、22、23間の経路24、25に対応する接続情報34、35として、例えば移動にかかった時間や前後の特徴点および移動所要時間などから推察される交通手段などの移動情報を表示することができる。なお、図3に示した出力例は一例であり、ログデータのサマリー情報を表現するテンプレートは任意に決定することができる。
 また、表示に利用された特徴点以外の特徴点や関連する情報などは、ユーザが編集しやすいように再構成することができる。表示するテンプレートはあくまでテンプレートであり、ユーザはそのテンプレート情報に基づき、表示する特徴点を増やしたり逆に削除したりすることができる。その際に、例えば特徴点を増やす時は、接続情報を右クリックすることで、その接続情報と関連の深い情報をプルダウンメニューなどで表示できるようにしてもよい。ここで、その接続情報と関連の深い情報とは、例えば、その接続区間に属しているが、ステップS5の序列化の結果選択されなかった情報である。この場合、接続情報に関連の深い情報を優先順位に従い表示できるように、データを各特徴点や接続情報(以下、特徴点や接続情報を表示オブジェクトという)に対して再度グループ化して関連付けし序列化しておく。
 また、表示オブジェクトに選択された特徴点と関連の深いデータ(写真データや特徴を記述したテキストデータなど)を関連付けておくことで、データをさらに編集し、追加的情報を容易に掲載することが可能である。なお、この関連付けるデータには、関連性検出手段8によって検出された関連性の高い特徴点情報以外にも、例えば、予め参照情報データベース1に登録された特徴点情報に関連付けておいたコメントや写真などの詳細情報を加えることができる。更に、例えばユーザのデジタルカメラによる写真データやコメント情報なども、その作成時間・場所から上述の手法と同様の手法により関連性に応じてインデックステーブルに登録でき、同様の手法で再構成することが可能である。
 ここで再構成の一例を図4を用いて説明する。図4に示すように、表示するテンプレート40を構成する特徴点41、42、43、44や接続情報45、46、47に対して、これらの表示オブジェクト以外の特徴点情報や接続情報に関連の深い補助的な各種情報を次のような手法により各表示オブジェクトに関連付けることができる。
 図4に示す特徴点41、42、43、44、各特徴点間の接続情報45、46、47で構成されるテンプレート情報40は、抽出された特徴点情報51、特徴点と関連づけられた一般情報52、ログデータ53などの情報群50に基づき自動生成される。この例では、テンプレート情報40の構造に従って、情報群50を各特徴点41、42、43、44および接続情報45、46、47との関連性に応じて分解し再構成している。
 また、例えば接続情報45には、関連特徴点サブ集合61、ログデータ候補サブ集合62、一般データ候補サブ集合63を含む情報60が関連づけられ再構成されている。また、特徴点42には、ログデータ候補サブ集合71、一般データ候補サブ集合72を含む情報70が関連づけられ再構成されている。さらに、表示オブジェクトの詳細情報は予め決められたルールに従い、予め用意された詳細情報を使用して表示オブジェクトの詳細情報として自動的に表示することも可能である。例えば、特徴点43を詳細に記述するテキスト情報や写真情報などのノート48を抽出された特徴点に関連する一般情報から自動作成し特徴点43に関連付けておき、その重要度に応じて自動的に表示する等のルールによって自動表示処理することも可能である。
 次に、作成されたテンプレート情報がネットワークを通してクライアント側に転送される(ステップS7)。ユーザはユーザ端末を用いてサーバから転送されてきたテンプレート情報を表示し、確認する(ステップS8)。また、ユーザは表示されたテンプレート情報を用いて、上記の手法により再構成されたログデータを用いてテンプレート情報を編集することができる(ステップS9、S10)。そして、ユーザによるテンプレート情報の編集が完了し、テンプレート作成作業が終了する(ステップS11)。
 以上で説明した本実施の形態にかかる情報整理システム及び情報整理方法を用いることで、膨大なログデータの中から不必要な細部を省略し、ユーザにとって重要度が高い部分を優先的に要約した情報を高速に表示できることが可能になる。その理由は、特徴的な情報となる可能性の高い情報群を集めたデータベースとユーザのプロファイル情報を用いることで、重要度の高い情報をログデータの中から高速に抽出することができるためである。
 また、本実施の形態にかかる情報整理システム及び情報整理方法を用いることで、ユーザのログデータに直接含まれてはいないが、ユーザのログデータと関連性が高く、ユーザにとって重要度が高い、もしくは高い関心を示す可能性の高い関連情報を、ログデータの要約表示に関連付けてあわせて表示することができる。
 次に、上記の本実施の形態にかかる情報整理システム及び情報整理方法を用いてテンプレート情報を作成した場合の具体例について説明する。具体例として、ユーザが旅行に行った際に収集したGPSデータをアップロードすることで、自動的に旅行記テンプレートを出力することが可能なシステムについて説明する。
 図5は本実施の形態にかかる情報整理システム80の具体例を示すブロック図である。図5に示すように、情報整理システム80はユーザ端末81、ウェブサーバ82、アプリケーションサーバ83、データベースサーバ84を備える。ユーザはGPSロガー85をユーザデバイスとして有する。ユーザ端末81はネットワークを介してウェブサーバ82と接続されており、相互にデータの交換が可能である。ユーザはユーザ端末81からウェブサーバ82にアクセスし、例えばウェブページ86を通してユーザに固有のアカウントを用いてログインし、旅行中に作成・記録したログデータをウェブサーバ82にアップロードする。
 アプリケーションサーバ83は、テンプレート作成アプリケーション83_1、インデックス化手段83_2、ポリシー情報83_3、再構成データ83_4を備える。また、データベースサーバ84は、インデックステーブル84_1、ユーザ情報84_2、参照情報データベース84_3を備える。
 データベースサーバ84の参照情報データベース84_3は、例えば図6に示す特徴点に関するデータが登録されている。各特徴点は一般化表現に拡張され、LSHを用いて空間的距離の近さを関連性の高い特徴点として抽出し、インデックステーブル84_1に格納されている。データベースサーバ84は、このような処理を予めオフライン処理として実施する。ここで、参照情報データベース84_3には、特徴点、測地座標値、カテゴリ情報、レーティング情報が登録されている。
 この一般化ベクトル空間は、3次元の物理的な測地座標空間とカテゴリ情報を表現するベクトル空間の直和として表現される。カテゴリ情報空間は一般的にはある正の整数Kに対して、K次元空間で表現することが可能である。しかし、本実施の形態では簡単のためにカテゴリを「山」と「テーマパーク」の2つとし、1次元上の2点(1は「山」、-1は「テーマパーク」とする)で表現する。
 また、測地座標空間も高さ方向を無視した2次元で簡略化すると、一般化ベクトル空間上での表現は2次元の物理的な測地座標空間+1次元のカテゴリ情報空間=3次元ベクトル空間上の点となる。例えば、「特徴点A」は(a1、a2、1)、「特徴点B」は(b1、b2、-1)、「特徴点C」は(c1、c2、1)、「特徴点D」は(d1、d2、1)となり、それぞれ図7に示す3次元ベクトル空間の点91、点92、点93、点94に位置する。ただし、a1、a2、b1、b2、c1、c2、d1、d2は特徴点A、B、C、Dの測地座標の高さ方向を無視した2次元空間での成分値とする。これらの特徴点は、データベースサーバ84において保存されるインデックステーブル84_1に登録される。なお、このインデックステーブル84_1はアプリケーションサーバ83で保存しておいてもよい。
 さらに、これらの特徴点に対して、事前に他のユーザのレーティング情報も[0、1]の範囲の実数で指定することもできる。ここで、レーティング情報の値が大きいほどその評価が高い(人気が高い)とする。この例では特徴点Aは0.8、特徴点Bは0.7、特徴点Cは0.5、特徴点Dは0.9とする。
 ユーザが入力するGPSログデータは、地点X(x1、x2)から地点Y(y1、y2)までの測地座標が適当な時間間隔で配置された離散データとする。このGPSログデータは、地点X(x1、x2)から地点Y(y1、y2)までの直線軌跡(軌跡98)を形成する。またユーザは過去の履歴からユーザの趣向に関する情報として、山に強い興味がありテーマパークには興味がほとんどない、と設定されているとする。この情報は一般化ベクトル上のベクトル成分で表現されているとする。これは、例えば過去にアップロードした写真データのカテゴリ情報(山の写真が多い等)から決定することができる。
 本実施の形態では簡単のために、カテゴリ情報空間である1次元ベクトル空間の一点(例えば山の写真が9枚、テーマパークの写真が1枚なら、(9×1+1×(-1))/10=0.8のように-1から1までの内分点)で表現する。この場合、このユーザの興味カテゴリに関する成分値は0.8となり、GPSログデータの軌跡の一般化ベクトル空間上での表現は、図7に示すような2次元の物理的な測地座標空間+1次元のカテゴリ情報空間=3次元空間の軌跡に拡張され、面95上の軌跡99となる。
 このユーザのGPSログデータの一般化ベクトル空間上の表現(以後、一般化軌跡と呼ぶ)は、(x1、x2、0.8)から(y1、y2,0.8)までの直線上にある点の集合となる。この一般化軌跡の始点および終点の幾何的な位置は、それぞれ図7における点96および点97で表わされ、一般化軌跡はその測地座標の軌跡98に対して、軌跡99で表わされる。すなわち、ログデータである軌跡98を一般化表現手段を用いて拡張表現した拡張ログデータが軌跡99となる。
 ユーザがGPSログデータをアップロードすると、ウェブサーバ82は、アプリケーションサーバ83にテンプレートファイルの作成要求を発行する。アプリケーションサーバ83にはユーザのログデータからテンプレートを作成するアプリケーション83_1がインストールされている。アプリケーションサーバ83は、ウェブサーバ82からアップロードされたログデータを取得すると、ユーザの趣向情報を合わせて上述のようにデータを加工し一般化表現に変換することで拡張ログデータを作成する。
 また、アプリケーションサーバ83は、作成された拡張ログデータをLSHに入力して出力されるエントリIDを調べ、そのエントリIDをキーにしてデータベースサーバ84にあるインデックステーブル84_1から関連の深い特徴点集合を予め決められた範囲の数だけ抽出する。このとき、抽出されたデータの数が予め決められた範囲の数に達しない場合は、その近傍のテーブルエントリから順にデータを取得し、予め決められた範囲の数に達したところでデータの取得を中止する。
 本実施の形態では抽出する特徴点の数を2つとする。この場合、図7に示すように特徴点Aおよび特徴点Cはそれぞれ一般化表現で近傍となるので抽出される。しかし、特徴点Bはカテゴリ情報軸において距離があるため、一般化軌跡の近傍として検出されない。この結果は、このユーザがテーマパークよりも山へ興味を示していることを反映している。また、特徴点Dは物理的な距離がユーザの軌跡から離れているためこのログデータには無関係と判断され抽出されない。
 関連の深い特徴点の集合(特徴点AおよびC)が得られると、データベースサーバ84に保存されているユーザ情報84_2やアプリケーションサーバ83に保持されているポリシー情報83_3に基づき、特徴点を序列化し表示するオブジェクトを決定する。ポリシー情報は様々決められるが、本実施の形態では簡単のため、他のユーザのレーティング情報を用いるとする。すると、レーティング情報が高い特徴点Aが特徴点Cよりも上位になるようにソートされる。これにより、特徴点Aが特徴点Cよりも優先的に用いられることになる。
 この結果を用いてhtmlなどのウェブブラウザで表示可能なフォーマットで記述されたテンプレートを作成する。本実施の形態では簡単のため、例えば一つの特徴点のみを表示するように設定しているので、特徴点Aが選ばれることになる。このとき、上述したように、各表示オブジェクト(始点X、終点Y、特徴点A、X-Aの接続情報、A-Yの接続情報)に対して、関係の深い特徴点情報およびそれに関連付けられた詳細情報などのデータを再構成し、この再構成データ83_4をアプリケーションサーバ83に保持しておく。
 この結果、図8に示すようなテンプレート(旅行記)が作成される。図8に示すテンプレート(旅行記)は、始点Xと終点Yを有し、始点Xには始点Xの情報101が、また終点Yには終点Yの情報103が表示される。また、抽出された特徴点Aは、始点Xから終点Yまでの道中でユーザに一番関係が高いと思われる特徴点であり、特徴点Aに関する情報102が自動的に表示される。
 また、経路X-Aの接続情報104と経路A-Yの接続情報105も同時に自動的に作成され、例えば経過時間などの情報を表示することができる。なお、検出されたその他の特徴点である特徴点Cの情報は、特徴点Aと終点Yとの間の接続情報オブジェクトに関連付けるように再構成しておく。これにより、例えばユーザが接続情報A-Yを選択し、更に新たな情報を追加する編集をする際に、優先的に表示することが可能となる。
 なお、本実施の形態において設定したデータはあくまで簡略化された例であり、例えば一般化表現は、GPS情報以外にも時間情報などの計量データを追加することができる。また、カテゴリ情報をはじめその他の非計量データで構成される情報を含めてより複雑な情報をさらに高次元化して表現することも可能である。また、一般化軌跡も固定的平面内の軌跡である必要はなく、場所などに依存する曲面で表現する、確率的に重みが決められた複数の一般化軌跡で表現する、などの拡張を加えてもよい。
 以上で説明した本発明にかかる情報整理システム及び情報整理方法により、ログデータをサーバにアップロードすることでリアルタイム性に優れたレスポンス性を有しながら旅行記、行動記録等を自動作成することが可能となる。また、本発明にかかる情報整理システム及び情報整理方法は、ログデータをもとに利用者の行動パタンから関連の高い店や観光地などの関連情報を推薦する、または関連の深い情報を含む広告などを表示するといった用途にも適用可能である。
 なお、本実施の形態にかかる情報整理システムは少なくとも図9に示す構成要素を備えていればよい。つまり、本実施の形態にかかる情報整理システムは、参照情報を保持する参照情報データベース1と、計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段2と、参照情報を一般化表現手段を用いて拡張表現することで生成された拡張参照情報を保持する拡張参照情報データベース3と、ログデータ6を一般化表現手段2を用いて拡張表現することで生成された拡張ログデータ7と、拡張参照情報と拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段8と、関連性検出手段8により検出された拡張参照情報を用いてログデータを要約した所定のテンプレート14を作成するテンプレート作成手段13と、を有することで上記効果を得ることができる。ここで、図9に示す各構成要素については図1で既に説明したので詳細な説明を省略する。
 また、本実施の形態にかかる、登録されたログデータから所定のテンプレートを作成する処理をコンピュータに実行させるプログラムは、次のステップをコンピュータに実行させる。
 計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成するステップ。
 一般化表現手段を用いて登録されたログデータを拡張表現することで拡張ログデータを生成するステップ。
 拡張参照情報と拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、拡張ログデータと関連性の深い拡張参照情報を検出するステップ。
 検出された拡張参照情報を用いてログデータを要約した所定のテンプレートを作成するステップ。
 また、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
 以上、実施の形態を参照して本願発明を説明したが、本願発明は上記によって限定されるものではない。本願発明の構成や詳細には、発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2010年2月16日に出願された日本出願特願2010-031533を基礎とする優先権を主張し、その開示の全てをここに取り込む。
1 参照情報データベース
2 一般化表現手段
3 拡張参照情報データベース
4 確率的インデックス化手段
5 インデックステーブル
6 ログデータ
7 拡張ログデータ
8 関連性検出手段
9 関連特徴点集合
10 序列化手段
11 スコアリングポリシー
12 特徴点リスト
13 テンプレート作成手段
14 テンプレート
21、22、23 特徴点
24、25 経路
31、32、33 特徴点情報
34、35 接続情報
40 テンプレート情報
41、42、43、44 特徴点
45、46、47 接続情報
48 特徴点のノート
50 情報群
51 抽出された特徴点情報
52 特徴点と関連づけられた一般情報
53 ログデータ
60 接続情報に関連づけられた情報
61 関連特徴点サブ集合
62 ログデータ候補サブ集合
63 一般データ候補サブ集合
70 特徴点に関連づけられた情報
71 ログデータ候補サブ集合
72 一般データ候補サブ集合
80 情報整理システム
81 ユーザ端末
82 ウェブサーバ
83 アプリケーションサーバ
83_1 テンプレート作成アプリケーション
83_2 インデックス化手段
83_3 ポリシー情報
83_4 再構成データ
84 データベースサーバ
84_1 インデックステーブル
84_3 参照情報データベース
84_2 ユーザ情報
85 GPSロガー
86 ウェブページ

Claims (10)

  1.  参照情報を保持する参照情報データベースと、
     計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段と、
     前記参照情報を前記一般化表現手段を用いて拡張表現することで生成された拡張参照情報を保持する拡張参照情報データベースと、
     ログデータを前記一般化表現手段を用いて拡張表現することで生成された拡張ログデータと、
     前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出する関連性検出手段と、
     前記関連性検出手段により検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成するテンプレート作成手段と、
     を有する情報整理システム。
  2.  前記拡張参照情報を互いに近傍にあるほど高い確率で同一インデックステーブルに登録する確率的インデックス化手段を更に備える、請求項1に記載の情報整理システム。
  3.  前記関連性検出手段は、前記拡張ログデータに基づき求められたエントリIDを用いて前記インデックステーブルに登録されている拡張参照情報を検出する、請求項2に記載の情報整理システム。
  4.  前記拡張参照情報の次元と前記拡張ログデータの次元とが同一の次元となるように、前記拡張ログデータの次元を拡張する、請求項1乃至3のいずれか一項に記載の情報整理システム。
  5.  前記関連性検出手段により検出された拡張参照情報を、予め定められたスコアリングポリシーに基づき序列化する序列化手段を更に備える、請求項1乃至4のいずれか一項に記載の情報整理システム。
  6.  前記拡張参照情報および前記拡張ログデータの少なくとも一つを前記テンプレート作成手段が作成したテンプレートに関連付けて再構成する、請求項1乃至5のいずれか一項に記載の情報整理システム。
  7.  前記参照情報データベースは、特徴点および当該特徴点に関連する情報である特徴点情報を含み、前記特徴点情報は計量的な情報および非計量的な情報を含む、請求項1乃至6のいずれか一項に記載の情報整理システム。
  8.  前記ログデータは、ユーザが作成したデータ、ユーザが測定したデータ、及びこれらのデータに関連する場所や時間の情報が付加されたデータの集合である、請求項1乃至7のいずれか一項に記載の情報整理システム。
  9.  ログデータを登録し、
     計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、
     前記一般化表現手段を用いて前記ログデータを拡張表現することで拡張ログデータを生成し、
     前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、
     前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する、
     情報整理方法。
  10.  計量的および非計量的データを互いに類似するほどその距離が近くなるように空間にマッピングする一般化表現手段を用いて、参照情報を拡張表現することで拡張参照情報を生成し、
     前記一般化表現手段を用いて登録されたログデータを拡張表現することで拡張ログデータを生成し、
     前記拡張参照情報と前記拡張ログデータとの関連性の強さをマッピングされた空間内における距離に基づき測定し、前記拡張ログデータと関連性の深い拡張参照情報を検出し、
     前記検出された拡張参照情報を用いて前記ログデータを要約した所定のテンプレートを作成する処理をコンピュータに実行させる非一時的なコンピュータ可読媒体。
PCT/JP2011/000210 2010-02-16 2011-01-18 情報整理システム及び情報整理方法 WO2011102076A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/577,409 US9116916B2 (en) 2010-02-16 2011-01-18 Information organizing sytem and information organizing method
JP2012500481A JP5900323B2 (ja) 2010-02-16 2011-01-18 情報整理システム及び情報整理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010031533 2010-02-16
JP2010-031533 2010-12-28

Publications (1)

Publication Number Publication Date
WO2011102076A1 true WO2011102076A1 (ja) 2011-08-25

Family

ID=44482685

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/000210 WO2011102076A1 (ja) 2010-02-16 2011-01-18 情報整理システム及び情報整理方法

Country Status (3)

Country Link
US (1) US9116916B2 (ja)
JP (1) JP5900323B2 (ja)
WO (1) WO2011102076A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162498A (ja) * 2017-05-08 2017-09-14 株式会社ニコン 画像評価サーバ

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785883B2 (en) 2012-04-27 2017-10-10 Excalibur Ip, Llc Avatars for use with personalized generalized content recommendations
US8996530B2 (en) * 2012-04-27 2015-03-31 Yahoo! Inc. User modeling for personalized generalized content recommendations
US9836545B2 (en) 2012-04-27 2017-12-05 Yahoo Holdings, Inc. Systems and methods for personalized generalized content recommendations
US9804737B2 (en) 2014-01-27 2017-10-31 Groupon, Inc. Learning user interface

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290727A (ja) * 2000-04-06 2001-10-19 Nec Corp 情報提供システムおよび情報提供方法
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出
JP2002278993A (ja) * 2001-03-16 2002-09-27 Nippon Telegr & Teleph Corp <Ntt> 画像データ登録・再生方法、システム、プログラムおよびその記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003242069A (ja) 2002-02-20 2003-08-29 Japan Telecom Co Ltd 情報配信システム及び情報配信方法
JP2003288354A (ja) 2002-03-28 2003-10-10 Seiko Epson Corp 行動記録の自動作成方法、情報記録媒体、及び行動記録自動作成システム
KR100724639B1 (ko) * 2006-06-19 2007-06-04 삼성전자주식회사 위치등록 및 알림 기능이 구비된 디지털 멀티미디어 방송수신기와, 그 등록 및 알림 방법
US20080208847A1 (en) * 2007-02-26 2008-08-28 Fabian Moerchen Relevance ranking for document retrieval
US20090048929A1 (en) * 2007-08-15 2009-02-19 Paul Im Authenticated travel record
US20090100063A1 (en) * 2007-10-10 2009-04-16 Henrik Bengtsson System and method for obtaining location information using a networked portable electronic device
US20100179754A1 (en) * 2009-01-15 2010-07-15 Robert Bosch Gmbh Location based system utilizing geographical information from documents in natural language
US20110035329A1 (en) * 2009-08-07 2011-02-10 Delli Santi James W Search Methods and Systems Utilizing Social Graphs as Filters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001290727A (ja) * 2000-04-06 2001-10-19 Nec Corp 情報提供システムおよび情報提供方法
JP2002245061A (ja) * 2001-02-14 2002-08-30 Seiko Epson Corp キーワード抽出
JP2002278993A (ja) * 2001-03-16 2002-09-27 Nippon Telegr & Teleph Corp <Ntt> 画像データ登録・再生方法、システム、プログラムおよびその記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MAYUR DATAR ET AL.: "Locality-Sensitive Hashing Scheme Based on p-Stable Distributions", SCG '04 PROCEEDINGS OF THE TWENTIETH ANNUAL SYMPOSIUM ON COMPUTATIONAL GEOMETRY, ACM, 2004, 2004, pages 253 - 262, Retrieved from the Internet <URL:http://portal.acm.org/ft_gateway.cfm?id=997857&type=pdf> [retrieved on 20110204] *
TETSUO ISHIBASHI ET AL.: "Approximate Hierarchical Clustering Algorithm Using Locality-Sensitive Hashing, 2003-CVIM-141", IPSJ SIG NOTES, vol. 2003, no. 109, 7 November 2003 (2003-11-07), pages 57 - 62 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162498A (ja) * 2017-05-08 2017-09-14 株式会社ニコン 画像評価サーバ

Also Published As

Publication number Publication date
JP5900323B2 (ja) 2016-04-06
JPWO2011102076A1 (ja) 2013-06-17
US20120310938A1 (en) 2012-12-06
US9116916B2 (en) 2015-08-25

Similar Documents

Publication Publication Date Title
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
JP6190887B2 (ja) 画像検索システムおよび情報記録媒体
JP5534007B2 (ja) 特徴点検出システム、特徴点検出方法、及びプログラム
Shen et al. Automatic tag generation and ranking for sensor-rich outdoor videos
JP6440650B2 (ja) ユーザレビュー提供方法、その装置及びそのコンピュータプログラム
CN103914498A (zh) 一种地图搜索的搜索建议方法和装置
JP5900323B2 (ja) 情報整理システム及び情報整理方法
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
CN105874452B (zh) 从社交摘要中标记兴趣点
JP4896268B2 (ja) 情報価値を反映した情報検索方法及びその装置
Spyrou et al. A survey on Flickr multimedia research challenges
JP2015106347A (ja) レコメンド装置およびレコメンド方法
Trad et al. Large scale visual-based event matching
KR101747532B1 (ko) 여행성 질의에 대응하는 검색 결과로 코스를 추천하는 방법 및 시스템
Yin et al. On generating content-oriented geo features for sensor-rich outdoor video search
JP2004118290A (ja) 移動軌跡データ検索用インデックス生成装置及びその方法と、移動軌跡データ検索装置及びその方法と、移動軌跡データ検索用インデックス生成プログラム及びそのプログラムを記録した記録媒体と、移動軌跡データ検索プログラム及びそのプログラムを記録した記録媒体
CN107423294A (zh) 一种社群图像检索方法及系统
KR101823463B1 (ko) 연구자 검색 서비스 제공 장치 및 그 방법
Deeksha et al. A spatial clustering approach for efficient landmark discovery using geo-tagged photos
CN103744876A (zh) 一种用于提供搜索结果的方法与设备
Ardizzone et al. Extracting touristic information from online image collections
TWI524281B (zh) 地名排序方法及地名排序系統與電腦可讀取記錄媒體
KR101810189B1 (ko) 사용자 리뷰 제공 방법, 장치 및 컴퓨터 프로그램
JP6167531B2 (ja) 領域検索方法、領域インデックス構築方法および領域検索装置
JP5670944B2 (ja) 文書要約装置及び方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11744371

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2012500481

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13577409

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11744371

Country of ref document: EP

Kind code of ref document: A1