WO2015049802A1 - データベース生成装置およびその生成方法 - Google Patents
データベース生成装置およびその生成方法 Download PDFInfo
- Publication number
- WO2015049802A1 WO2015049802A1 PCT/JP2013/077155 JP2013077155W WO2015049802A1 WO 2015049802 A1 WO2015049802 A1 WO 2015049802A1 JP 2013077155 W JP2013077155 W JP 2013077155W WO 2015049802 A1 WO2015049802 A1 WO 2015049802A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- behavior
- data
- database
- behavior model
- model
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
Definitions
- the present invention relates to a database generation device that generates a resident database by complementing a resident behavior model and a generation method thereof.
- the life pattern modeling technology disclosed in Patent Document 1 can be used.
- the technology extracts life scenes such as “sleep” and “go out” from the activity log of residents measured by an acceleration sensor, and characterizes a day based on the appearance pattern of the life scene, thereby improving the lives of the residents.
- life scenes such as “sleep” and “go out” from the activity log of residents measured by an acceleration sensor
- characterizes a day based on the appearance pattern of the life scene thereby improving the lives of the residents.
- a number of typical days that appear frequently for example, “normally going to work” or “days to work overtime late”
- the occurrence pattern of these typical days is described statistically, It is a technology that abstracts and expresses the life of people.
- the relationship between how to spend the day, such as “day of overtime” is likely to come after “day of overtime until late”, so if it is in a range that can be inferred from acceleration data It is possible to reproduce the behavior of the residents for a week in a way that is realistic.
- purchase data is available in addition to the residents' data, for example, acceleration data of the residents, buy dinner at a convenience store between 6:00 pm and 8:00 pm on a "day of overtime until late”
- a purchase behavior rule behavior model
- Patent Document 2 discloses a technique for merging a plurality of databases by using the coincidence and distance of demographic data such as age and occupation common to a plurality of databases related to television viewing and the like. Has been.
- Non-Patent Document 1 discloses a technique related to matching of graphs.
- Patent Document 1 can be used for simulations useful for city and infrastructure design when multifaceted data about residents (for example, both acceleration data and purchase data for the same residents) can be obtained.
- this assumption is not realistic.
- the techniques disclosed in Patent Document 2 and Non-Patent Document 1 are applied, the matching items sufficient to link the target person of the moving data and the target person of the purchasing data are the moving data and the purchasing data. Required for both and not realistic.
- the data that can be actually obtained is a fragmentary database of residents composed of, for example, “residents with only acceleration data” and “residents with only purchase data”. Can not be used as it is, it could not be the information to build a simulation useful for city and infrastructure design.
- the present invention has been made in view of the above problem, and by identifying similar residents based on a database including residents whose acquisition data is fragmented, and supplementing with data of similar residents
- the purpose is to generate a resident database.
- a database generation device is a database generation device that records a plurality of types of measured behavior data of a plurality of residents and generates a resident database, and a database that records data including the plurality of types of behavior data
- a life pattern generation unit that generates a life pattern of the inhabitants in which the first or second behavior data recorded in the database recording unit is measured based on the first or second behavior data
- the behavior model generation unit that generates the first behavior model of the inhabitants in which the first behavior data recorded in the database recording unit is measured based on the first behavior data, and the first behavior data includes A life pattern similar to the life pattern of the second inhabitant in which the second behavior data is measured without being measured is generated.
- the first population of behavior models complement as the behavior model of the second population, it is characterized in that and a behavior model compensating unit that records to the database record unit as the data.
- the database generation device is the lifestyle pattern generation unit, which generates one or more typical days representing typical ways of spending the day of the residents from the first or second behavior data.
- a life pattern generation unit that generates a typical day occurrence pattern as the life pattern, and the behavior model complement unit, and when there are a plurality of typical days, the occurrence probability of the typical day and the transition of the typical day
- a behavior model complementing unit that evaluates the similarity of the life pattern based on at least one similarity among the probabilities or the occurrence probability of the typical day depending on the repetition period such as a day of the week or the month .
- the database generation device includes the database recording unit, the database recording unit for recording the first behavior data related to the purchase behavior of the first resident, and the behavior model generation unit. And calculating the statistics of data related to at least one of the purchase price, purchase details, purchase location, and purchase behavior in the purchase behavior in each time zone of each typical day, and generating the behavior model as the behavior model And a model generation unit.
- the present invention is grasped as a method for generating a resident database.
- behavior model supplementation will be described first based on data generated for behavior model supplementation, and then a database generation device that supplements the behavior model to generate a resident database and its generation procedure will be described.
- Anonymized location information log collected every five minutes collected from residents (resident group A) in this city
- Purchase log purchase store location, amount, contents, etc.
- the data (a) is base station cell data of a mobile terminal held by a mobile phone company
- (b) is purchase data held by a point card company.
- the technology disclosed heretofore it was impossible to build a purchase behavior model of the residents (resident group A) of the city with only these two data, and it was impossible to accurately predict the demand of the store.
- the following processes (1) to (4) are performed, and finally a highly accurate purchasing behavior model can be constructed for each inhabitant.
- the position information log measured every five minutes for the inhabitant group A includes data of latitude y longitude x at which the inhabitant was present at a certain time t when attention is paid to a certain inhabitant (t, x, y). ) Of point cloud data.
- FIG. 9A shows an example of position data collected for a certain period. Each point in this figure represents the position of the inhabitant at a certain time, and it can be seen that the point is particularly concentrated at the place where the inhabitant frequently visits.
- FIG. 9B shows an example in which two places in the lives of the residents are calculated. Although not important, “place 1” corresponds to the home of this resident and “place 2” corresponds to the place of work of the resident.
- FIG. 9C the life of the inhabitant is visualized as shown in FIG. 9C, for example.
- the daily stay history on the horizontal axis is represented, and each day is arranged on the vertical axis. Looking at this life, it can be seen that the days of working from about 6 o'clock to past 18 o'clock are typical, and there are days when working late and sometimes returning early.
- Patent Document 1 there are many days that are relatively similar to the way of spending a day in a person's life, and a person's life is a few typical ways of spending a day in the life, That is, it can be represented by “typical day”.
- typical days in the life are extracted by clustering days having similar ways of spending to create a life pattern.
- the similarity measure of the way of spending here may be any similarity measure that can be quantified, for example, whether the time to start working or the time to go home is similar.
- FIG. 9D shows an example in which three typical days are extracted from the life.
- the central typical day A represents March 5, March 7, March 8 (that is, the days that work from about 6 o'clock to about 18 o'clock), and the other two typical days represent other days Yes.
- the thickness of the arrow drawn during the typical day represents the strength of the transition probability during the typical day. In this case, the day after the typical day A is often the typical day A again, and the typical day C rarely comes the day after the typical day B.
- This transition diagram is called a life pattern and represents the lifestyle of this inhabitant.
- the life is clearly different from the disjoint life where the way of spending the day irregularly or the typical day changing regularly according to the day. It is shown that.
- a lifestyle pattern model is constructed in the same way for purchase data obtained from the resident group B.
- Various methods are conceivable for this processing, but examples are shown below.
- the purchase data of a certain inhabitant is an enumeration of information composed of (purchase time, purchase price, purchase store, purchased product), and FIG. It shows that the purchase action was performed at the time indicated by the broken line. In this way, if you look at purchases in chronological order, you can ask the aspect of life as well as location information. For example, a life pattern can be extracted by a process similar to that of position information, and a life pattern viewed from the viewpoint of consumers' purchase can be extracted as shown in FIG. (3) Building a purchasing behavior model for group B
- a model of purchasing behavior of the resident group B is constructed.
- the purpose of this step is to extract the behavioral principle of each resident's purchase behavior in the resident group B, and to enable the purchase behavior to be reproduced in a simulation of the subsequent processing.
- statistics such as the number of purchases per day and the average value and standard deviation of the purchase amount of one purchase are calculated.
- the behavior model calculated here may be any behavior model as long as the behavior of the residents can be simulated later based on this behavior model. For example, if there are the number of purchases and the purchase price given in the above example, the number of purchases is sampled based on the statistics of the number of purchases when scheduling the daily behavior of the agent (resident) in the multi-agent simulation.
- the behavior model is complemented by referring to each resident of the resident group A from the resident group B who has the most similar life pattern.
- the shape of the transition diagram of the life pattern is the same (that is, the so-called graph isomorphism disclosed in Non-Patent Document 1, etc.) ), It may be recognized as similar, and otherwise it may be dissimilar.
- the typical days are arranged in the order of appearance frequency
- the transition probability r (i, j) between the typical days i and j is calculated, and the distance between the two lives A and B is represented by ⁇ i, j ⁇
- the resident group A does not have a (purchasing) behavior model
- the resident group B has a behavior model. Therefore, the supplement is assigned to each resident of the resident group A according to the above scale (the same pattern in the life pattern P).
- the behavior model of the resident of the resident group B that is, the statistical quantity of the number of purchases on each typical day, for example, can be complemented only by assigning the resident group B to the resident of the resident group A.
- the behavior models of both may be synthesized by a weighted average with the reliability scale as a weight.
- the behavior model of all inhabitants of the inhabitant group B may be synthesized by a weighted average weighted by similarity, or the most similar arbitrary A weighted average of behavior models of a constant number of residents may be synthesized.
- a purchase behavior model that matches the reality is added to each inhabitant of the inhabitant group A whose purchase behavior model has been unknown so far.
- a new convenience store is opened in the town of the resident group A by using the model of the resident group A purchasing behavior, it is used to perform a multi-agent simulation of the behavior and purchasing behavior of the resident group A.
- a database that can be obtained.
- FIG. 1 is a diagram showing an example of the configuration of a resident database device.
- a PC (personal computer) 101 constituting the main body of the database generation device includes a processor 102, a memory 103, and a recording device 110.
- the recording device 110 records various programs 111, 112, and 113, which will be described later, and various data tables 114, 115, and 116 that constitute a database, such as a hard disk drive, an optical disk drive, and a flash memory.
- Various programs and various data tables may be divided and recorded in a plurality of recording devices.
- the user accumulates resident behavior data measured by means (not shown), that is, measurement data, in the measurement data table 116 of the recording device 110.
- the PC 101 is connected by an I / F (interface) 104 to a display device 105 that displays various types of information and an input device 106 that allows various information to be input by user operations.
- the display device 105 may be a display terminal such as a liquid crystal display or a CRT display, or a printer or an image file output.
- the input device 106 is an input device such as a keyboard and a mouse.
- the display device 105 and the input device 106 may be a single device having both functions, such as a touch panel display.
- the processor 102 implements various functions by reading various programs recorded in the recording device 110 into the memory 103 and executing them. Specifically, by executing the life pattern generation program 111, a life pattern is generated from the measurement data of each subject stored in the measurement data table 116 and stored in the life pattern data table 114. In addition, by executing the behavior model generation program 112, a behavior model is generated from the life patterns of each subject stored in the life pattern generation program and the measurement data of each subject stored in the measurement data table 116. Store in the behavior model data table 115. In addition, by executing the behavior model complementing program 113, the behavior models of subjects similar to the lifestyle pattern model stored in the lifestyle pattern data table 114 are complemented and stored in the behavior model data table 115.
- various functions obtained by the processor 102 executing various programs may be realized by different hardware.
- the PC 101 displays the life pattern generation program 111, the behavior model generation program 112, and the behavior model integration program 113 on the display device 105 on a regular basis, operation of the input device 106, or activation of the PC 101.
- the behavior model complementing program 113 is a program that searches for lifestyle patterns that can be complemented each time execution is performed and supplements the behavior model. There are cases where behavioral models can be complemented. Therefore, the behavior model supplement program 113 may be automatically executed repeatedly until no new supplement is performed.
- a server computer may have functions corresponding to the processor 102, the memory 103, and the recording device 110, and may be connected via a network.
- FIG. 2 is a diagram showing the overall processing flow of the resident database device.
- the PC 101 executes the life pattern model generation program 111 to generate a life pattern model from the measurement data of each subject stored in the measurement data table 116, and the life pattern data table 114 of the recording device 110.
- the life pattern model generation program 111 may be executed every predetermined cycle (for example, 5 minutes), or may be executed due to the addition of new data to the measurement data table 116, You may perform it by operation of the input device 106 as a cause.
- step 202 the PC 101 executes the behavior model generation program 112, and based on each subject's life pattern accumulated in the life pattern data table 114 and each subject's measurement data stored in the measurement data table 116, A behavior model is generated for each measurement data and stored in the behavior model data table 115.
- the behavior model generation program 112 may be executed every predetermined cycle (for example, 5 minutes), or may be executed due to the end of execution of the life pattern generation program 111.
- the PC 101 executes the behavior model complementing program 113, and based on the life patterns of each subject stored in the life pattern data table 114 and the behavior models of each subject stored in the behavior model data table 115, The subjects whose life patterns are similar are complemented, and the behavior model as a complement result is accumulated in the behavior model data table 115 again.
- the behavior model supplement program 113 may be executed every predetermined cycle (for example, 5 minutes), or may be executed due to the end of the execution of the behavior model generation program 112. In addition, since the behavior model supplement program 113 may be newly supplemented every time it is executed a plurality of times, the behavior model supplement program 113 is repeatedly executed until a new supplement is not performed or a predetermined number of times is continuously executed. Is desirable (step 204).
- step 205 the life pattern stored in the life pattern data table 114 and the behavior model stored in the behavior model data table 115 are displayed on the display unit 105 of the PC 101.
- FIG. 3 is a diagram illustrating an example of a processing flow performed for one target person in the life pattern generation program 111 of the PC 101. By repeating the processing shown in FIG. 3, processing is performed for all the target persons stored in the measurement data table 116.
- the life pattern generation program 111 generates a life pattern of the target person based on the measurement data group stored for each target person accumulated in the measurement data table 116.
- the processing performed at this time differs depending on the type of measurement data.
- the measurement data may be added to the processing flow of FIG. For example, it may include measurement data related to daily activities such as sleep and walking of residents or power use.
- step 301 it is determined whether or not position data is measured for the subject. If it is measured, the process proceeds to step 302. If not, the process relating to the position data is skipped and the process proceeds to step 304.
- Steps 302 and 303 are processes in the case where position data is measured for the target person.
- the position measurement data stored for the target person is extracted from the measurement data table 116 (step 302).
- Are clustered to extract a plurality of places frequently visited by the subject (step 303), and how to spend each day that is a measurement period in the subject's life is shown in FIG. 9C, for example. As shown, it is converted into features by expressing it in time series.
- step 304 it is determined whether or not purchase data is measured for the target person, and if it is measured, the process proceeds to step 305. If not, the process relating to purchase data is skipped, and the process proceeds to step 307.
- Steps 305 and 306 are processes when purchase data is measured for the target person, and purchase measurement data stored for the target person is extracted from the measurement data table 116 (step 305), and further purchase information is acquired.
- step 307 similar days are clustered based on the result of characterizing the way of spending each day in the life of the subject from a plurality of or one viewpoint extracted in the previous steps.
- a method used for clustering at this time for example, a k-means method may be used.
- the similar day may be regarded as being similar if the positions of the time periods of two days coincide with each other. For example, when a plurality of measurement data is calculated for the target person, the difference between the feature values of how to spend the day indicated by each measurement data (for example, square error) It may be regarded as similarity.
- a feature amount relating to the extracted typical day appearance pattern is calculated. This preferably includes, for example, the probability of transition from a typical day to a typical day (transition probability), and the appearance probability of each typical day on each day of the week.
- step 309 the calculated typical day and the feature quantity related to the typical day appearance pattern are stored in the life pattern data table 114 as a life pattern.
- FIG. 4 is a diagram illustrating an example of the format of the life pattern data table 114, and includes a user ID 401 that stores the identifier of the subject, a typical number of days 402 that accumulates the number of typical days calculated for the subject, and a typical day. Transition probability (for example, if the number of typical days 402 is three days A, B, and C, the transition source is assumed to be three typical days A, B, and C, and the transition source is changed to three typical days A, B, and C. One entry is formed from the transition matrix 403 that stores (transition probabilities).
- the format of the data table shown in FIG. 4 is an example, and the breakdown of the subject's typical day (average way of spending on each typical day from the viewpoint of each measurement data) and typical date Any format may be used as long as it can store information on the appearance pattern.
- FIG. 5 is a diagram illustrating an example of a processing flow performed for one target person by the behavior model generation program 112 of the PC 101. By repeating the process shown in FIG. 5, the process is performed for all the target persons stored in the measurement data table 116.
- the behavior model generation program 112 generates a behavior model of the target person based on the measurement data group stored for each target person accumulated in the measurement data table 116.
- the processing performed at this time differs depending on the type of measurement data, and the description using FIG. 5 will explain the case where two types of data, namely position data and purchase data, can be measured for each inhabitant.
- a process for extracting the behavior model from the measurement data may be added to the processing flow of FIG. For example, it may include measurement data related to daily activities such as sleep and walking of residents or power use.
- step 501 it is determined whether or not position data is measured for the subject. If it is measured, the process proceeds to step 502. If not, the process related to position information is skipped, and the process proceeds to step 504.
- Steps 502 and 503 are processes when position data is measured for the subject. For example, the expected value of the position information for each time zone of each typical day calculated for the subject by the life pattern generation program 111. (I.e., the place where the person is most likely to live) is calculated and used as the position behavior model of the subject person (the behavior model governing the whereabouts of the subject person).
- step 504 it is determined whether or not purchase data is measured for the target person. If it is measured, the process proceeds to step 505. If not, the process related to purchase information is skipped, and the process proceeds to step 507.
- Steps 505 and 506 are processes when purchase data is measured for the target person. For example, the average purchase amount and the average number of purchases on each typical day calculated for the target person by the life pattern generation program 111. The basic statistic relating to purchase is calculated, and this is used as the purchase behavior model of the subject person (the behavior model governing the purchase of the subject person).
- step 507 the calculated behavior models are stored in the behavior model data table 115.
- the behavior model that could not be generated because there is no measurement data is stored in the behavior model data table 115 as an empty field.
- FIG. 6 is a diagram showing an example of the format of the behavior model data table 115, and shows an example including one field of data related to the purchase behavior model. However, a plurality of fields may be used and calculated by the behavior model generation program 112. All information regarding the behavior model to be performed is stored.
- the behavior model data table 115 stores a user ID 601 that stores the identifier of the subject person, a typical day ID 602 that stores an identifier indicating one of the typical days that are targets of the behavior model, and a time that is the target of the behavior model.
- Time zone 603 for storing an average position 604 for storing an average position (for example, most likely place) in the time zone 603 that is a part of the position behavior model, and an average purchase in the time zone 603 that is a part of the purchase behavior model
- One entry is composed of the purchase amount 605 for storing the amount.
- a target person whose purchase data is not measured is illustrated as 1003 of the user ID 601, but in this case, since the purchase behavior model is not constructed, the field of this target person of the purchase amount 605 is emptied, The model is missing. If the behavior model supplement program 113 to be described below is similar to the life pattern of another subject who has a purchase behavior model, the behavior model supplement program 113 causes the subject of the purchase amount 605 to be purchased. The person's field is filled.
- FIG. 7 is a diagram illustrating an example of a processing flow performed for one target person in the behavior model supplement program 113 of the PC 101. By repeating the process shown in FIG. 7, the process is performed for all the target persons stored in the measurement data table 116.
- step 701 the life pattern and behavior model calculated for the one target person are acquired from the life pattern data table 114 and the behavior model data table 115 of the recording device 110. At this time, if there is no missing behavior model, the process may be terminated.
- the life patterns and behavior models of all the subjects who possess the behavior model lacking the one subject are obtained from the life pattern data table 114 and the behavior model data table 115, and each subject.
- the similarity of life patterns with the elderly may be regarded as similar when the transition graph of the typical day is the same type of graph, or may be obtained by integrating the square error of each item of the transition matrix, for example. In this way, the similarity with each subject is evaluated.
- the behavior model lacking the subject is supplemented using the behavior model possessed by each subject based on the calculated similarity.
- the behavior model of the most similar subject may be employed as it is, or the behavior models of any of the most similar subjects may be employed, for example, by weighted averaging.
- step 704 the supplemented behavior model is stored in the behavior model data table 115.
- an action model can be constructed for measurement data that cannot be measured using other subjects with similar life patterns.
- a flag for recording that the behavior model is complemented may be added to the field of each behavior model. good.
- the reliability of the similarity can be further improved by adding a process such as underestimating the comparison between the complemented behavior models.
- FIG. 8 is a screen image of the resident data display screen 801 displayed on the display unit 105 of the PC 101.
- the display of the resident data display screen 801 by the PC 101 may be caused by accepting a display request from a user via the input device 106 or may be caused by the end of execution of the behavior model complementing program 113.
- an application that runs on the PC 101 an application that runs alone may directly display the resident data display screen 801.
- the PC 101 is used as a client computer, and a life pattern generation program 111 and behavior model generation are performed on a server computer (not shown).
- the program 112 and the behavior model supplement program 113 may be executed and displayed on the browser of the PC 101.
- the resident data display screen 801 is an example of a screen that integrates information about resident data that has been supplemented and presents it to the user. This is a screen for presenting information about one resident accumulated in the behavior model data table 115 to the user, a demography display area 802 for displaying demographic information, and a purchase behavior model. Purchase action model display area 803 and a position action model display area 804 for displaying a position action model.
- Various data displayed on the resident data display screen 801 are displayed by distinguishing information directly based on data actually measured from the resident and information estimated by the behavior model complementing program 113. For example, in the demography display area 802, age is represented by a solid line because it is acquired information, and gender is estimated, and is represented by a broken line.
- the purchase behavior model display area 803 is an area for displaying an action model related to the inhabitant. For example, a transition diagram showing a life pattern calculated for the inhabitant and parameters of the purchase action model calculated for each typical day are displayed. The display is as shown in FIG. In the example shown in FIG. 8, since the purchase behavior model is supplemented from other resident data, it is represented that the behavior model is estimated by a broken line.
- the position / behavior model display area 804 is an area for displaying a position / behavior model related to the inhabitant, for example, a transition diagram representing a life pattern calculated for the inhabitant, and a position / behavior model for each typical day The most likely position distribution with different colors and the like for each time zone is displayed as shown in the figure.
- the position behavior model is surrounded by a solid line for the resident.
- the contents of the resident database can be notified to the user by distinguishing between the behavior model based on the measured data and the supplemented estimated behavior model, and the user can quickly collect it. You can understand the residents data.
- a means for the user to delete or update the behavior model may be prepared by a control (not shown).
- the deletion / update contents are reflected in the behavior model table 115.
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
複数の住民の複数種類の計測された行動データを記録し、住民データベースを構築するデータベース生成装置であって、前記複数種類の行動データを含むデータを記録するデータベース記録部と、前記データベース記録部に記録された第1あるいは第2の前記行動データが計測された前記住民の生活パターンを前記第1あるいは第2の行動データに基づき生成する生活パターン生成部と、前記データベース記録部に記録された前記第1の行動データが計測された第1の前記住民の行動モデルを前記第1の行動データに基づき生成する行動モデル生成部と、前記第1の行動データが計測されず前記第2の行動データが計測された前記第2の住民の前記生活パターンと類似する生活パターンが生成された前記第1の住民の行動モデルを前記第2の住民の前記行動モデルとして補完し、前記データとして前記データベース記録部へ記録する行動モデル補完部と、を備える。
Description
本発明は、住民の行動モデルを補完して住民のデータベースを生成するデータベース生成装置およびその生成方法に関するものである。
電力システム、水道、交通網、物流網など、都市の最低化や都市を支える社会インフラシステムの最適化のためにはエンドユーザー(住民)の行動を正確に知る事が有用である。例えば自治体が都市の再開発を行うに当たって「最も都市経済を活性化しやすい位置に商業地域を設定したい」という目的を達成したい場合を考える。もし多くの住民から、ある一定期間内の移動の記録、購買履歴、生活行動(睡眠や運動など)の記録、をセンサなどにより測定することができれば、これらのデータに基づき各住民の行動原理をルール化した「生活モデル」を抽出し、この生活モデルに基づいたマルチエージェントシミュレーションを構築することで、最も活性化しやすい商業地域を設定することが可能となる。
上記における生活モデルの抽出のためには、例えば特許文献1で開示される生活パターンのモデル化技術が活用できる。当該技術は、加速度センサにより測定した住民の活動ログから「睡眠」「外出」などの生活シーンを抽出し、ある一日を、生活シーンの出現パターンにより特徴量化することで、当該住民の生活に頻出する代表的な日を複数抽出し(例えば、「普通に会社に行く日」「遅くまで残業する日」など)、これら代表的な日の発生パターンを統計的に記述することで、当該住民の生活を抽象化して表現する技術である。これによれば、例えば「遅くまで残業する日」の次は「寝坊する日」が来やすい、といった日の過ごし方同士の関係性がルール化されるため、加速度データから類推できる範囲であれば、住民のある一週間の行動を現実に即した形で再現する事が可能となる。更にこの技術の拡張として、この住民の複数のデータ、例えばこの住民の加速度データに加えて購買データも入手できれば、「遅くまで残業する日」においては午後6時~8時の間にコンビニで夕飯を買う確率が高い、といった生活シーンに条件づけられた購買行動のルール(行動モデル)を抽出することも容易である。この行動モデルに基づいたマルチエージェントシミュレーションを構築することで、上記した「最も都市経済を活性化しやすい位置に商業地域を設定する」といった目的を達成することが可能である。
また、複数のデータの対応付けに関して、特許文献2にはテレビ視聴などに関する複数のデータベースに共通する年齢や職業などのデモグラフィックデータの一致や距離を利用して複数のデータベースを融合する技術が開示されている。非特許文献1にはグラフの一致に関する技術が開示されている。
Minsu Cho, Jungmin Lee, Kyoung Mu Lee, "Reweighted Random Walks for Graph Matching", Computer Vision ECCV 2010, Lecture Notes in Computer Science Volume 6315, 2010, pp 492-505
上記のように特許文献1に開示された技術は、住民に関する多面的なデータ(例えば同じ住民に対する加速度データと購買データの両方)が入手できる場合、都市やインフラ設計に有用なシミュレーションに利用できる。しかし、この想定は現実的ではない。新たな実験により住民から多面的なデータを収集することも考えられるが、金銭的コストが多くかかってしまう。また、多面的な住民データを収集することはプライバシーの観点から望ましくない。他の方法として例えば携帯電話事業者が保有する携帯電話の移動データや、大手POSポイントカード事業者の保有する購買データを借用することも考えられるが、こういったデータは個人情報保護の観点から匿名化されており、移動データにおける個々の対象者と購買データにおける個々の対象者とを結びつけることは通常不可能である。ここで、特許文献2や非特許文献1に開示された技術を適用するとしても、移動データの対象者と購買データの対象者とを結びつけるに十分な一致する項目が移動データと購買データとの両方に必要であり、現実的ではない。
このように、現実的に入手可能なデータとは、例えば「加速度データのみの住民」と「購買データのみの住民」で構成された住民の断片的なデータベースであったため、上記したモデル化技術などをそのまま用いることが不可能であり、都市やインフラ設計に役立つシミュレーションを構築する情報とはなり得なかった。
そこで、本発明は、上記課題に鑑みてなされたものであり、入手データが断片的である住民を含むデータベースを基にして類似した住民を特定し、類似した住民同士のデータで補完することにより、住民データベースを生成することを目的とする。
本発明にかかるデータベース生成装置は、複数の住民の複数種類の計測された行動データを記録し、住民データベースを生成するデータベース生成装置であって、前記複数種類の行動データを含むデータを記録するデータベース記録部と、前記データベース記録部に記録された第1あるいは第2の前記行動データが計測された前記住民の生活パターンを前記第1あるいは第2の行動データに基づき生成する生活パターン生成部と、前記データベース記録部に記録された前記第1の行動データが計測された第1の前記住民の行動モデルを前記第1の行動データに基づき生成する行動モデル生成部と、前記第1の行動データが計測されず前記第2の行動データが計測された前記第2の住民の前記生活パターンと類似する生活パターンが生成された前記第1の住民の行動モデルを前記第2の住民の前記行動モデルとして補完し、前記データとして前記データベース記録部へ記録する行動モデル補完部と、を備えたことを特徴とする。
また、本発明にかかるデータベース生成装置は、前記生活パターン生成部であって、前記第1あるいは第2の行動データから前記住民の典型的な一日の過ごし方を表す典型日を一つ以上生成し、典型日の発生パターンを前記生活パターンとして生成する生活パターン生成部と、前記行動モデル補完部であって、前記典型日が複数の場合に、前記典型日の発生確率、前記典型日間の遷移確率、あるいは曜日や月などの繰り返し周期に依存した前記典型日の発生確率のうち少なくとも一つの類似性に基づき生活パターンの類似性を評価する行動モデル補完部と、を備えたことを特徴とする。
また、本発明にかかるデータベース生成装置は、前記データベース記録部であって、前記第1の住民の購買行動に関わる前記第1の行動データを記録するデータベース記録部と、前記行動モデル生成部であって、前記各典型日の各時間帯における前記購買行動の中の購買金額、購買内容、購買場所、購買行為のうち少なくとも一つに関わるデータの統計量を算出して前記行動モデルとして生成する行動モデル生成部と、を備えたことを特徴とする。
また、本発明は住民データベースの生成方法としても把握される。
本発明によれば、入手データが断片的である住民を含むデータベースしか入手できない場合でも、多面的な住民データベースを生成することができる。
以下では、まず行動モデル補完のために生成されるデータに基づき行動モデル補完の概要を説明し、その後に行動モデルを補完して住民のデータベースを生成するデータベース生成装置とその生成手順を説明する。
住民の行動に関して違う観点から収集された行動データ(例えば、位置情報と購買ログなど)でも、「生活パターン」という抽象化された概念に落とせば、同じような生活を送る住民同士は同じように評価できるという着眼に基づき、特に、同じような生活パターン(例えば、非常に規則正しい生活など)を持つ住民同士は、購買行動や移動行動についても似た原理で行動するため、他人の行動モデルであっても似た生活パターンの持ち主同士であれば、高い精度で行動を予測できるという発見に基づき、行動モデルを補完する。言い換えると、複数種類の行動データの中の一部の行動データが計測されていない対象者(住民)に対しても、生活パターンが似ている他の対象者から計測された行動データに基づく行動モデルを適用することで、断片的に計測された行動データしか含まれないデータベースから現実に即した行動モデルを補完する。実際に、我々の実験によると、年齢や性別などの従来考えられるような情報が類似した対象者の行動モデルで補完するよりも、生活パターンの類似した対象者の行動モデルで補完したほうが、有意に高い精度での補完が行えた。
ある街に新規のコンビニ店舗を開店する場合に、ある候補地に店舗を設置した場合の利用額や客数、購入商品などを予測したいため、この街の住民の購買行動モデルが必要であるが、以下の2種類のデータしか用いることができないとする。
(a)この街の住民(住民群A)から収集された、匿名化済みの5分毎の位置情報ログ
(b)別の街の住民(住民群B)から収集された、匿名化済みの購買ログ(購買の店舗位置や、金額、内容など)
(a)この街の住民(住民群A)から収集された、匿名化済みの5分毎の位置情報ログ
(b)別の街の住民(住民群B)から収集された、匿名化済みの購買ログ(購買の店舗位置や、金額、内容など)
例えば(a)のデータは携帯電話会社が保有する携帯端末の基地局セルデータであり、(b)はポイントカード会社が保有する購買データであるとする。従来開示されている技術では、この2つのデータのみでは当該街の住民(住民群A)の購買行動モデルを構築することができず、店舗の需要予測を精度良く行うことは不可能であった。これに対し、行動モデルの補完では以下のように(1)~(4)の処理を行い、最終的に精度の良い購買行動モデルを住民毎に構築できる。
(1)住民群Aの生活パターン構築
(1)住民群Aの生活パターン構築
まず、住民群Aの位置データに使用して住民群Aの生活の様相を表す抽象化された概念、すなわち生活パターンを構築する。生活パターンの構築のためには様々な方法や観点が考えられるが、例えば特許文献1に開示されたような手法があり、簡単に説明する。
住民群Aについて計測される5分毎の位置情報ログとは、ある一人の住民に着目した場合に、ある時間tに当該住民が居た緯度y経度xのデータを含む(t、x、y)の羅列から構成される点群データである。図9(a)にはある期間について収集された位置データの例が図示されている。この図における各点はある時間における住民の位置を表しており、当該住民が頻繁に訪れる場所には特に点が集中していることが分かる。
このデータを、例えばk-meansのような手法でクラスタリングをすると、この住民の生活における「よく訪れる場所」を抽出することができる。図9(b)では、この住民の生活における二つの場所が算出された例を示している。重要ではないが、「場所1」がこの住民の家、「場所2」がこの住民の勤務地に対応している。
更に、よく訪れる場所に滞在した履歴を時系列で見ると、例えば図9(c)のように、当該住民の生活が可視化される。この図9(c)では、横軸にある一日の滞在履歴が表され、縦軸に各日が並べられている。この生活を見ると、6時ぐらいから18時過ぎまで働いている日が典型的であり、たまに遅くまで働く日や、早く帰る日も存在することが分かる。特許文献1でも説明される通り、人の生活における一日の過ごし方とは比較的似ている日が多く、ある人間の生活は、その生活における少数個の代表的な一日の過ごし方、即ち「典型日」で表すことができる。
次のステップとして、過ごし方が類似している日をクラスタリングにより纏めることで、当該生活における典型日を抽出し、生活パターンを作成する。ここでいう過ごし方の類似性の尺度とは、例えば働き始める時間や帰宅する時間が似ているか、といった数値化できる類似性尺度であれば何でも良い。図9(d)では、当該生活から3つの典型日が抽出された例を示している。中央の典型日Aは3月5日、3月7日、3月8日(すなわち、6時ぐらいから18時ぐらいまで働く日)を表し、その他の2つの典型日はその他の日を表している。また典型日の間に描かれた矢印の太さは典型日間の遷移確率の強弱を表している。この場合であれば典型日Aの次の日は再び典型日Aであることが一番多く、また典型日Bの次の日に典型日Cが来ることは滅多にないことがわかる。この遷移図を生活パターンと呼び、この住民の生活の様相を表している。図9(e)や(f)に示した別の住民の生活パターンでは、不規則に日の過ごし方が変わるばらばらな生活や、日によって典型日が規則的に変わる生活とは明らかに違う生活であることが示される。
(2)住民群Bの生活パターン構築
(2)住民群Bの生活パターン構築
また、住民群Bから得る購買データに関しても、同じように生活パターンモデルを構築する。この処理のためには様々な方法が考えられるが、以下に例を示す。
ある一人の住民の購買データとは、(購入時間、購入金額、購入店舗、購入商品)で構成される情報の羅列であり、図10(a)にはそのような購買データの中で、縦の破線で示した時間に購入行為を行ったことを示す。このように購買も時系列的に見れば、位置情報と同じように生活の様相が伺える。これを、例えば位置情報と同じような処理により生活パターンを抽出し、図10(b)のように生活者の購買の観点から見た生活パターンを抽出することができる。
(3)住民群Bの購買行動モデル構築
(3)住民群Bの購買行動モデル構築
次に、住民群Bの購買行動のモデルを構築する。このステップの目的は住民群Bにおける各住民の購買行動の行動原理を抽出することであり、後の処理のシミュレーションにおいて購買行動を再現できるようにすることである。当該住民の購買データを用いて、各典型日毎に、日ごとの購買回数や、一度の購買の購入金額などの平均値や標準偏差などの統計量を算出する。ここで算出する行動モデルは、後でこの行動モデルに基づき住民の行動のシミュレーションが行えれば、どのような行動モデルでも良い。例えば上記例であげた購買回数や購入金額があれば、マルチエージェントシミュレーションにおいてエージェント(住民)の一日の行動をスケジューリングする際に購買回数を上記購買回数の統計量の基づきサンプリングし、更に各購買の際の消費金額を上記購入金額の統計量に基づきサンプリングすることで、住民の購買行動をシミュレーションすることが考えられる。また、ここでは簡単のため購買回数や購入金額などの情報しか扱わなかったが、例えば時間帯毎や、店舗種別毎や、商品分類に条件づけられた確率密度関数を学習することなどでも良い。
(4)生活パターンに応じた行動モデルの補完
(4)生活パターンに応じた行動モデルの補完
次に、図11に示すように、住民群Aの各住民へ、住民群Bから生活パターンの最も類似した住民を参照し、行動モデルを補完する。生活パターンの類似性の評価方法は様々な方法が考えられるが、簡単な方法として、例えば生活パターンの遷移図の形が同一(すなわち、非特許文献1などにも開示されている、いわゆるグラフ同型)である場合は類似、それ以外の場合は非類似であると認識しても良い。また別の方法としては、典型日を出現頻度順に並べ、典型日iとj間の遷移確率r(i、j)を算出し、二つの生活AとBの距離をΣi、j・|rA(i、j)-rB(i、j)|、すなわち遷移確率の誤差平均と定義しても良い。どちらの方法であっても、精度の良い類似評価が行える。
この例では、住民群Aは(購買)行動モデルを持たず、住民群Bは行動モデルを持つため、補完とは住民群Aの各住民について上記尺度(生活パターンPでグラフ同型)により割り当てられた最も類似した住民群Bの住民の行動モデル、すなわち例えば各典型日における購買回数の統計量などを、住民群Aの住民に割り当てるのみで補完できる。他に考えられる状況として、例えば住民群Aの住民のうち何割かは自らの行動モデルを持っている場合は、行動モデルを持っていない住民のみを補完しても良いし、例えば行動モデルの信頼性尺度が存在する場合は信頼性尺度を重み付けとした加重平均で両者の行動モデルを合成しても良い。また、ここでは最も類似した住民のみを用いる場合を説明したが、例えば住民群Bの全住民の行動モデルを、類似性を重み付けとした加重平均で合成しても良いし、最も類似した任意の定数人の住民の行動モデルの加重平均を合成しても良い。
何れかのようにして、これまで購買行動のモデルが不明であった住民群Aの各住民に、現実に即した購買行動モデルが付加される。このように住民群Aの購買行動のモデルが得られることにより、住民群Aの街に新規のコンビニ店舗を開店する場合に、住民群Aの移動行動と購買行動をマルチエージェントシミュレーションするために利用できるデータベースを得ることができる。
以上、行動モデル補完の概要を説明した。以下では行動モデルを補完して住民のデータベースを生成するデータベース生成装置およびその生成手順について、図面を参照しながら説明する。
図1は、住民データベース装置の構成の例を示す図である。データベース生成装置の本体を成すPC(パーソナルコンピュータ)101は、プロセッサ102と、メモリ103及び記録装置110を備える。記録装置110は、後で説明する各種プログラム111、112、113、データベースを構成する各種データテーブル114、115、116を記録するものであり、例えば、ハードディスクドライブや光ディスクドライブ、フラッシュメモリなどである。なお、複数の記録装置に各種プログラム、各種データテーブルを分割して記録するようにしても良い。利用者は、図示しない手段で計測した住民の行動データすなわち計測データを、記録装置110の計測データテーブル116に蓄積する。
また、PC101は、各種情報を表示する表示装置105と利用者の操作によって様々な情報の入力を可能とする入力装置106にI/F(インターフェイス)104で接続される。表示装置105は液晶ディスプレイやCRTディスプレイなどの表示端末のほか、プリンタや画像ファイル出力でも良い。入力装置106はキーボード、マウスなどの入力用機器である。また、表示装置105と入力装置106はタッチパネル式ディスプレイのような、両方の機能を備える単体の機器でも良い。
プロセッサ102は、記録装置110に記録されている各種プログラムをメモリ103に読み出して実行することにより各種機能を実現する。具体的には、生活パターン生成プログラム111を実行することにより、計測データテーブル116に格納された各対象者の計測データから生活パターンを生成し、生活パターンデータテーブル114に格納する。また、行動モデル生成プログラム112を実行することにより、生活パターン生成プログラムに格納された各対象者の生活パターン、および計測データテーブル116に格納された各対象者の計測データから行動モデルを生成し、行動モデルデータテーブル115に格納する。また行動モデル補完プログラム113を実行することにより、生活パターンデータテーブル114に格納された生活パターンモデルの類似した対象者同士の行動モデルを相互補完し、行動モデルデータテーブル115に格納する。ここで、プロセッサ102が各種プログラムを実行することにより得られる各種機能をそれぞれ別のハードウェアで実現しても良い。
なお、以下では、PC101が、生活パターン生成プログラム111と行動モデル生成プログラム112と行動モデル統合プログラム113を定期的に、もしくは入力装置106の操作、もしくはPC101の起動を起因として表示装置105に表示データを提示する例を示す。また行動モデル補完プログラム113は、実行のたびに補完できる生活パターンを探索し行動モデルを補完するプログラムであるため、一度実行した直後に再度実行すると、前回の実行では補完できなかった生活パターン同士の行動モデルを補完できる場合も存在する。そのため行動モデル補完プログラム113は新たな補完が行われなくなるまで繰り返し自動的に実行されても良い。
また、PC101をクライアント計算機として、図示しないサーバ計算機にプロセッサ102、メモリ103、記録装置110に相当する機能を備え、ネットワークで接続してもよい。
図2は、住民データベース装置の全体的な処理フローを示す図である。まず、ステップ201では、PC101が生活パターンモデル生成プログラム111を実行して、計測データテーブル116に蓄積された各対象者の計測データから生活パターンモデルを生成し、記録装置110の生活パターンデータテーブル114に蓄積する。なお、生活パターンモデル生成プログラム111を所定の周期(例えば、5分間)毎に実行しても良いし、新たなデータが計測データテーブル116に追加されたことを起因に実行しても良いし、入力装置106の操作を起因として実行しても良い。
ステップ202では、PC101は行動モデル生成プログラム112を実行し、生活パターンデータテーブル114に蓄積された各対象者の生活パターンと、計測データテーブル116に格納された各対象者の計測データに基づき、各計測データ毎に行動モデルを生成し、行動モデルデータテーブル115に蓄積する。なお、行動モデル生成プログラム112を所定の周期(例えば、5分間)毎に実行しても良いし、生活パターン生成プログラム111の実行終了を起因として実行しても良い。
ステップ203では、PC101は行動モデル補完プログラム113を実行し、生活パターンデータテーブル114に蓄積された各対象者の生活パターンと、行動モデルデータテーブル115に格納された各対象者の行動モデルに基づき、生活パターンが類似した対象者同士を補完し、補完結果である行動モデルを行動モデルデータテーブル115に再度蓄積する。なお、行動モデル補完プログラム113を所定の周期(例えば、5分間)毎に実行しても良いし、行動モデル生成プログラム112の実行終了を起因として実行しても良い。また、行動モデル補完プログラム113は複数回実行するたびに新たな補完が行われる場合があるため、新たな補完が行われなくなるまで、または所定の回数連続して実行するまで、繰り返し実行されることが望ましい(ステップ204)。
次に、ステップ205では、生活パターンデータテーブル114に格納された生活パターン、および行動モデルデータテーブル115に格納された行動モデルをPC101の表示部105に表示する。
図3は、PC101の生活パターン生成プログラム111で一人の対象者について行われる処理フローの例を示す図である。図3に示した処理を繰り返すことにより、計測データテーブル116に格納されている全ての対象者について処理する。
生活パターン生成プログラム111は、計測データテーブル116に蓄積された、各対象者について格納されている計測データ群に基づいて、当該対象者の生活パターンを生成する。この際に行われる処理とは計測データの種別によって異なるものであり、図3を用いた説明では位置データ、購買データの2種類のデータが各住民について計測されうる場合について説明するが、それ以外の計測データも計測される場合は、その計測データについても図3の処理フローへ追加すれば良い。例えば住民の睡眠や歩行などの生活行動あるいは電力利用に関わる計測データなどを含んでも良い。
まず、ステップ301では、当該対象者について位置データが計測されているか判断し、計測されている場合はステップ302に進む。そうでない場合は位置データに関する処理を飛ばし、ステップ304に進む。
ステップ302、303は、当該対象者について位置データが計測されている場合の処理であり、計測データテーブル116から当該対象者について格納されている位置計測データを抽出し(ステップ302)、さらに位置情報をクラスタリングすることで、当該対象者が頻繁に訪れる複数個の場所を抽出し(ステップ303)、当該対象者の生活における計測期間となった各日の過ごし方を、例えば図9(c)に示したように時系列的に表現することで特徴量化する。
また、ステップ304では、当該対象者について購買データが計測されているか判断し、計測されている場合はステップ305に進む。そうでない場合は購買データに関する処理を飛ばし、ステップ307に進む。
ステップ305、306は、当該対象者について購買データが計測されている場合の処理であり、計測データテーブル116から当該対象者について格納されている購買計測データを抽出し(ステップ305)、さらに購買情報をクラスタリングすることで、当該対象者の購買に関する情報を抽出し(S16)、当該対象者の生活における計測期間となった各日の過ごし方を、例えば図10(a)に示したように時系列的に表現する。これは購買の時間のみに着目した簡易的な処理の例であるが、例えば購買店舗の種類や、利用金額、購入商品などに基づき一日の過ごし方を特徴量化しても良い。
ステップ307では、これまでのステップで抽出された複数、または一つの観点からの、当該対象者の生活における各日の過ごし方を特徴量化した結果に基づき、類似した日同士をクラスタリングする。この時クラスタリングに用いる手法は、例えばk-means法を用いれば良い。また類似した日とは、例えば当該対象者が位置データしか計測されていない対象者であれば、二つの日の時間帯毎の位置が多く一致していれば類似しているとみなせば良いし、例えば当該対象者について複数の計測データが算出されている場合は、それぞれの計測データが示す日の過ごし方の特徴量の間の誤差(例えば、二乗誤差)の少なさを、二つの日の類似性と見なしても良い。この処理により、当該対象者の生活において頻繁に現れる日の過ごし方(典型日)が少数個抽出される。例えば会社員であれば「7時に家を出て19時に帰宅し、昼頃は社食で昼食を購入する日」や「一日中家に居てよる10時頃近所のコンビニでなにかしら購入する日」といった典型日が算出されても良い。
ステップ308では、前記抽出した典型日の出現パターンに関する特徴量を算出する。これは例えばある典型日から典型日に遷移する確率(遷移確率)や、各典型日の各曜日における出現確率を含むことが望ましい。
ステップ309では、前記算出した典型日、および典型日の出現パターンに関する特徴量を、生活パターンとして生活パターンデータテーブル114に蓄積する。
図4は、生活パターンデータテーブル114のフォーマットの例を示す図であり、対象者の識別子を格納するユーザID401と、対象者について算出された典型日の数を蓄積する典型日数402と、典型日間の遷移確率(例えば典型日数402がA、B、Cの3日であれば、遷移元をA、B、Cの3つの典型日として遷移元からA、B、Cという3つの典型日への遷移確率)を格納する遷移マトリクス403とから一つのエントリを構成する。なお、図4に示したデータテーブルのフォーマットは一つの例であり、対象者の典型日の内訳(各計測データの観点からの、各典型日における平均的な日の過ごし方)や、典型日の出現パターンに関する情報が格納できればどのようなフォーマットでも良い。
図5は、PC101の行動モデル生成プログラム112で一人の対象者について行われる処理フローの例を示す図である。図5に示した処理を繰り返すことにより、計測データテーブル116に格納されている全ての対象者について行われる。
行動モデル生成プログラム112は、計測データテーブル116に蓄積された、各対象者について格納されている計測データ群に基づいて、当該対象者の行動モデルを生成する。この際に行われる処理とは計測データの種別によって異なるものであり、図5を用いた説明では位置データ、購買データの2種類のデータが各住民について計測されうる場合について説明するが、それ以外の計測データも計測される場合は、その計測データから行動モデルを抽出する処理を図5の処理フローに追加すれば良い。例えば住民の睡眠や歩行などの生活行動あるいは電力利用に関わる計測データなどを含んでも良い。
まず、ステップ501では、当該対象者について位置データが計測されているか判断し、計測されている場合はステップ502に進む、そうでない場合は位置情報に関する処理を飛ばし、ステップ504へ進む。
ステップ502、503は、当該対象者について位置データが計測されている場合の処理であり、例えば生活パターン生成プログラム111により当該対象者について算出された各典型日の時間帯毎における位置情報の期待値(すなわち、最も居そうな場所)を算出し、これを当該対象者の位置行動モデル(対象者の居場所を司る行動モデル)とする。
また、ステップ504では、当該対象者について購買データが計測されているか判断し、計測されている場合はステップ505に進む、そうでない場合は購買情報に関する処理を飛ばし、ステップ507へ進む。
ステップ505、506は、当該対象者について購買データが計測されている場合の処理であり、例えば生活パターン生成プログラム111により当該対象者について算出された各典型日における平均購入金額や、平均購買回数などの、購買に関する基本統計量を算出し、これを当該対象者の購買行動モデル(対象者の購買を司る行動モデル)とする。
ステップ507では、前記算出した各行動モデルを行動モデルデータテーブル115に蓄積する。計測データが存在しないために生成が可能でなかった行動モデルは、空のフィールドとして行動モデルデータテーブル115に格納される。
図6は、行動モデルデータテーブル115のフォーマットの例を示す図であり、購買行動モデルに関するデータを1フィールド含む例を示しているが、複数フィールドであっても良く、行動モデル生成プログラム112で算出される行動モデルに関する情報は全て格納される。行動モデルデータテーブル115は、対象者の識別子を格納するユーザID601と、行動モデルの対象となる典型日のうち一つを示す識別子を格納する典型日ID602と、行動モデルの対象となる時間を格納する時間帯603と、位置行動モデルの一部である時間帯603における平均位置(例えば最も居そうな場所)を格納する平均位置604と、購買行動モデルの一部である時間帯603における平均購入金額を格納する購入金額605とから一つのエントリを構成する。
また、例えば購買データが計測されていない対象者がユーザID601の1003として図示されているが、その場合は購買行動モデルが構築されないため、購入金額605のこの対象者のフィールドは空にされ、行動モデルが欠損する。次に説明する行動モデル補完プログラム113により、この対象者の生活パターンが購買行動モデルを持つ他の対象者の生活パターンと類似している場合は、行動モデル補完プログラム113により購入金額605のこの対象者のフィールドが埋められる。
図7は、PC101の行動モデル補完プログラム113で一人の対象者について行われる処理フローの例を示す図である。図7に示した処理を繰り返すことにより、計測データテーブル116に格納されている全ての対象者について行われる。
まず、ステップ701では、当該一人の対象者について算出された生活パターン、行動モデルを記録装置110の生活パターンデータテーブル114、行動モデルデータテーブル115から取得する。この時、欠損している行動モデルが存在しなければ、処理を終了しても良い。
次に、ステップ702では、当該一人の対象者が欠損している行動モデルを保有する全ての対象者の生活パターンと行動モデルを生活パターンデータテーブル114および行動モデルデータテーブル115から取得し、各対象者との生活パターンの類似性を評価する。この類似性の評価には、例えば典型日の遷移グラフがグラフ同型である場合に類似と見なしても良いし、例えば遷移マトリックスの各項目の二乗誤差を積算したものでも良い。このようにして、各対象者との類似性を評価する。
ステップ703では、当該対象者が欠損している行動モデルを、前記算出した類似性に基づき、各対象者の持つ行動モデルを用いて補完する。この補完は例えば最も類似している対象者の行動モデルをそのまま採用しても良いし、最も類似した任意の複数の対象者の行動モデルを例えば加重平均して採用しても良い。
ステップ704では、前記補完した行動モデルを行動モデルデータテーブル115に蓄積する。以上のステップにより、生活パターンが類似した他の対象者を用いて、計測できていない計測データに関しても行動モデルを構築することができる。
なお、補完後に行動モデルデータテーブル115に蓄積された行動モデルが補完されたものであることを記録するために、各行動モデルのフィールドに補完である旨を記録するためのフラグを付加しても良い。これにより、例えば生活パターンの類似性の評価において、補完された行動モデル間の比較は過小評価するなどの処理を加えることで、より類似性の信頼性を上げることができる。
また、以上の説明では計測データのみを用いて生活パターンの類似性を評価する例を示したが、図示しないデータテーブルに格納された各対象者のデモグラフィー情報(性別、年齢など)も類似性の評価に加えて、これらの類似性も総合的な生活の類似性評価に含めても良い。逆に、デモグラフィー情報が欠損している対象者についても、行動モデルの補完と同じように、類似した対象者のデモグラフィー情報を採用することで、補完しても良い。
図8は、PC101の表示部105に表示される住民データ表示画面801の画面イメージである。PC101が住民データ表示画面801を表示させるのは、入力装置106を介した利用者からの表示要求を受け付けたことを起因としても良いし、行動モデル補完プログラム113の実行終了を起因としても良い。なお、PC101で稼働するアプリケーションとしては、単独で稼働するアプリケーションが直接住民データ表示画面801を表示しても良いし、PC101をクライアント計算機として、図示しないサーバ計算機で生活パターン生成プログラム111、行動モデル生成プログラム112、行動モデル補完プログラム113を実行し、PC101のブラウザで表示しても良い。
住民データ表示画面801は、補完ざれた住民データに関する情報を統合して利用者に提示する画面の一例である。これは、行動モデルデータテーブル115に蓄積された一人の住民に関する情報を利用者に提示するための画面であり、デモグラフィー情報を表示するためのデモグラフィー表示領域802、購買行動モデルを表示するための購買行動モデル表示領域803、位置行動モデルを表示するための位置行動モデル表示領域804から構成される。住民データ表示画面801に表示される種々のデータは、当該住民から実際に計測されたデータに直接的に基づく情報と、行動モデル補完プログラム113により推定された情報を区別して表示する。例えば、デモグラフィー表示領域802では年齢は取得されている情報であるため実線で表され、性別は推定されているものであるため破線で表されている。
購買行動モデル表示領域803は当該住民に関する行動モデルを表示するための領域であり、例えば当該住民に関して算出された生活パターンを表す遷移図と、各典型日において算出された購買行動モデルの各パラメータを図8のように表示する。図8に示す例では、購買行動モデルが他の住民データより補完されたものであるため破線で推定された行動モデルである旨が表されている。
また位置行動モデル表示領域804は同様に、当該住民に関する位置行動モデルを表示するための領域であり、例えば当該住民に関して算出された生活パターンを表す遷移図と、各典型日における位置行動モデルとしての各時間帯毎に色等を変えた最も居そうな位置分布を図示のように表示する。図示された例では、位置行動モデルが当該住民本人のため、実線で囲われている。
以上のような画面を表示することで、利用者に対して住民データベースの内容を、実測データに基づく行動モデルと補完された推定行動モデルを区別して通知することができ、利用者が迅速に収集した住民データを理解する事ができる。
また図示しないコントロールにより、利用者が行動モデルを削除したり、更新したりする手段を用意しても良い。その場合は削除・更新内容は行動モデルテーブル115に反映される。
以上で説明したように、行動データをすべては計測できず、行動モデルを構築できない住民がいても、他の住民の行動モデルで補完できる。特に、他の住民と共通の行動データが計測されていない場合でも、各住民の計測された行動データを生活パターンへ抽象化し、生活パターンの類似性を判定することにより、補完元にできる住民を特定して行動モデルを補完できる。
101 PC
102 プロセッサ
103 メモリ
104 I/F
105 表示装置
106 入力装置
110 記録装置
111 生活パターン生成プログラム
112 行動モデル生成プログラム
113 行動モデル補完プログラム
114 生活パターンデータテーブル
115 行動モデルデータテーブル
116 計測データテーブル
102 プロセッサ
103 メモリ
104 I/F
105 表示装置
106 入力装置
110 記録装置
111 生活パターン生成プログラム
112 行動モデル生成プログラム
113 行動モデル補完プログラム
114 生活パターンデータテーブル
115 行動モデルデータテーブル
116 計測データテーブル
Claims (10)
- 複数の住民の複数種類の計測された行動データを記録し、住民データベースを生成するデータベース生成装置であって、
前記複数種類の行動データを含むデータを記録するデータベース記録部と、
前記データベース記録部に記録された第1あるいは第2の前記行動データが計測された前記住民の生活パターンを前記第1あるいは第2の行動データに基づき生成する生活パターン生成部と、
前記データベース記録部に記録された前記第1の行動データが計測された第1の前記住民の行動モデルを前記第1の行動データに基づき生成する行動モデル生成部と、
前記第1の行動データが計測されず前記第2の行動データが計測された前記第2の住民の前記生活パターンと類似する生活パターンが生成された前記第1の住民の行動モデルを前記第2の住民の前記行動モデルとして補完し、前記データとして前記データベース記録部へ記録する行動モデル補完部と、
を備えたことを特徴とするデータベース生成装置。 - 前記生活パターン生成部であって、前記第1あるいは第2の行動データから前記住民の典型的な一日の過ごし方を表す典型日を一つ以上生成し、典型日の発生パターンを前記生活パターンとして生成する生活パターン生成部と、
前記行動モデル補完部であって、前記典型日が複数の場合に、前記典型日の発生確率、前記典型日間の遷移確率、あるいは曜日や月などの繰り返し周期に依存した前記典型日の発生確率のうち少なくとも一つの類似性に基づき生活パターンの類似性を評価する行動モデル補完部と、
を備えたことを特徴とする請求項1に記載のデータベース生成装置。 - 前記データベース記録部であって、前記第1の住民の購買行動に関わる前記第1の行動データを記録するデータベース記録部と、
前記行動モデル生成部であって、前記各典型日の各時間帯における前記購買行動の中の購買金額、購買内容、購買場所、購買行為のうち少なくとも一つに関わる行動データの統計量を算出して前記行動モデルとして生成する行動モデル生成部と、
を備えたことを特徴とする請求項2に記載のデータベース生成装置。 - 前記データベース記録部であって、前記住民の位置に関わる前記行動データを記録するデータベース記録部と、
前記行動モデル生成部であって、前記位置の集中度の高い場所を抽出して場所情報へ変換し、前記各典型日の各時間帯における前記各場所での存在確率に関わる統計量を前記場所情報から算出して行動モデルとして生成する行動モデル生成部と、
を備えたことを特徴とする請求項2または3のいずれかに記載のデータベース生成装置。 - 前記データベース記録部であって、前記住民の睡眠や歩行などの生活行動あるいは電力利用に関わる前記行動データを記録するデータベース記録部と、
前記行動モデル生成部であって、前記生活行動あるいは電力利用に関わる統計量を算出して行動モデルとして生成する行動モデル生成部と、
を備えたことを特徴とする請求項2~4のいずれか1項に記載のデータベース生成装置。 - 前記行動モデル補完部であって、前記類似する生活パターンが生成された第1の住民の行動モデルをそのまま前記第2の住民の前記行動モデルとして採用することにより補完する、あるいは前記類似する生活パターンが生成された第1の住民の中で類似性の高い上位n人(nは2以上の自然数)の行動モデルを前記生活パターンの類似性に基づき加重平均することにより補完する行動モデル補完部、
を備えたことを特徴とする請求項2~5のいずれか1項に記載のデータベース生成装置。 - 前記行動モデル補完部であって、前記第1の行動データに基づき生成した前記行動モデルと前記補完による前記データとを識別可能に記録する行動モデル補完部と、
前記第1の行動データに基づき生成した前記行動モデルと前記補完による前記データとを識別可能に表示する表示装置と、
を備えたことを特徴とする請求項2~6のいずれか1項に記載のデータベース生成装置。 - 複数の住民の複数種類の計測された行動データに基づく住民データベースの生成方法であって、
前記複数種類の行動データを含むデータを記録する住民データベースにおける第1あるいは第2の前記行動データが計測された前記住民の生活パターンを前記第1あるいは第2の行動データに基づき生成する生活パターン生成ステップと、
前記住民データベースにおける前記第1の行動データが計測された第1の前記住民の行動モデルを前記第1の行動データに基づき生成する行動モデル生成ステップと、
前記第1の行動データが計測されず前記第2の行動データが計測された前記第2の住民の前記生活パターンと類似する生活パターンが生成された前記第1の住民の行動モデルを前記第2の住民の前記行動モデルとして補完する行動モデル補完ステップと、
前記補完した行動モデルを前記データとして前記住民データベースへ記録する行動モデル記録ステップと、
を含むことを特徴とする住民データベースの生成方法。 - 前記生活パターン生成ステップは、前記第1あるいは第2の行動データから前記住民の典型的な一日の過ごし方を表す典型日を一つ以上生成し、典型日の発生パターンを前記生活パターンとして生成し、
前記行動モデル補完ステップは、前記典型日が複数の場合に、前記典型日の発生確率、前記典型日間の遷移確率、あるいは曜日や月などの繰り返し周期に依存した前記典型日の発生確率のうち少なくとも一つの類似性に基づき生活パターンの類似性を評価する
ことを特徴とする請求項8に記載の住民データベースの生成方法。 - 前記行動モデル生成ステップは、前記住民データベースにおける前記第1の住民の購買行動に関わる前記第1の行動データに基づき前記各典型日の各時間帯における購買金額、購買内容、購買場所、購買行為のうち少なくとも一つに関わる行動データの統計量を算出して行動モデルとして生成する
ことを特徴とする請求項9に記載の住民データベースの生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/077155 WO2015049802A1 (ja) | 2013-10-04 | 2013-10-04 | データベース生成装置およびその生成方法 |
JP2015540356A JP6145171B2 (ja) | 2013-10-04 | 2013-10-04 | データベース生成装置およびその生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/077155 WO2015049802A1 (ja) | 2013-10-04 | 2013-10-04 | データベース生成装置およびその生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2015049802A1 true WO2015049802A1 (ja) | 2015-04-09 |
Family
ID=52778410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2013/077155 WO2015049802A1 (ja) | 2013-10-04 | 2013-10-04 | データベース生成装置およびその生成方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6145171B2 (ja) |
WO (1) | WO2015049802A1 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097726A (ja) * | 2016-12-15 | 2018-06-21 | ヤフー株式会社 | 決定装置、決定方法、決定プログラム、生成装置、生成方法、及び生成プログラム |
JP2019020930A (ja) * | 2017-07-13 | 2019-02-07 | ヤフー株式会社 | 学習装置、学習方法、学習プログラム、学習用データ及びモデル |
JP2022522278A (ja) * | 2019-02-22 | 2022-04-15 | ビ-エイイ- システムズ パブリック リミテッド カンパニ- | ビスポークな検出モデル |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003643A (ja) * | 2011-06-13 | 2013-01-07 | Sony Corp | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5785869B2 (ja) * | 2011-12-22 | 2015-09-30 | 株式会社日立製作所 | 行動属性分析プログラムおよび装置 |
JP2014182611A (ja) * | 2013-03-19 | 2014-09-29 | Univ Of Tokyo | 情報処理装置、情報処理方法及びプログラム |
-
2013
- 2013-10-04 JP JP2015540356A patent/JP6145171B2/ja not_active Expired - Fee Related
- 2013-10-04 WO PCT/JP2013/077155 patent/WO2015049802A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013003643A (ja) * | 2011-06-13 | 2013-01-07 | Sony Corp | 情報処理装置、情報処理方法およびプログラム |
Non-Patent Citations (1)
Title |
---|
KEN KAWAMOTO ET AL.: "A Study on Sensor Based 'Life-Pattern' Evaluation", TECHNICAL REPORT OF IEICE, vol. 110, no. 207, 14 September 2010 (2010-09-14), pages 19 - 24 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018097726A (ja) * | 2016-12-15 | 2018-06-21 | ヤフー株式会社 | 決定装置、決定方法、決定プログラム、生成装置、生成方法、及び生成プログラム |
JP2019020930A (ja) * | 2017-07-13 | 2019-02-07 | ヤフー株式会社 | 学習装置、学習方法、学習プログラム、学習用データ及びモデル |
JP2022522278A (ja) * | 2019-02-22 | 2022-04-15 | ビ-エイイ- システムズ パブリック リミテッド カンパニ- | ビスポークな検出モデル |
JP7247358B2 (ja) | 2019-02-22 | 2023-03-28 | ビ-エイイ- システムズ パブリック リミテッド カンパニ- | ビスポークな検出モデル |
Also Published As
Publication number | Publication date |
---|---|
JP6145171B2 (ja) | 2017-06-07 |
JPWO2015049802A1 (ja) | 2017-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11972455B2 (en) | Adaptive real time modeling and scoring | |
US20180310121A1 (en) | Branching mobile-device to system-namespace identifier mappings | |
CN105574644A (zh) | 基于三维评价与时域追溯的质量感知信息管理方法和系统 | |
Wang et al. | Evaluating trade areas using social media data with a calibrated huff model | |
US20190303709A1 (en) | Feature information extraction method, apparatus, server cluster, and storage medium | |
Chang-Martínez et al. | Modeling historical land cover and land use: a review from contemporary modeling | |
Pramanik et al. | Analysis of big data | |
US11727420B2 (en) | Time series clustering analysis for forecasting demand | |
EP2713332A1 (en) | Guided analytics | |
US20110202326A1 (en) | Modeling social and cultural conditions in a voxel database | |
CN106776928A (zh) | 基于内存计算框架、融合社交环境及时空数据的位置推荐方法 | |
KR102111672B1 (ko) | 소셜미디어 컨텐츠 기반 감정 분석 방법, 시스템 및 컴퓨터-판독가능 매체 | |
CN108885628A (zh) | 数据分析方法候选决定装置 | |
Ballantyne et al. | Integrating the who, what, and where of US retail center geographies | |
Hemalatha | Market basket analysis–a data mining application in Indian retailing | |
Lihu et al. | A multi-agent model of changes in urban safety livability | |
JP6145171B2 (ja) | データベース生成装置およびその生成方法 | |
Cervigni et al. | Describing and mapping diversity and accessibility of the urban food environment with open data and tools | |
Wallentin et al. | A framework for uncertainty assessment in simulation models | |
Carbajal | Customer segmentation through path reconstruction | |
Simons et al. | A cross-disciplinary technology transfer for search-based evolutionary computing: from engineering design to software engineering design | |
Sato | Applied data-centric social sciences | |
CN111177657B (zh) | 需求确定方法、系统、电子设备及存储介质 | |
Smith | Simulating spatial health inequalities | |
CN115796984A (zh) | 物品推荐模型的训练方法、存储介质及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 13895001 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2015540356 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 13895001 Country of ref document: EP Kind code of ref document: A1 |