WO2018198323A1 - 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム - Google Patents

行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム Download PDF

Info

Publication number
WO2018198323A1
WO2018198323A1 PCT/JP2017/016948 JP2017016948W WO2018198323A1 WO 2018198323 A1 WO2018198323 A1 WO 2018198323A1 JP 2017016948 W JP2017016948 W JP 2017016948W WO 2018198323 A1 WO2018198323 A1 WO 2018198323A1
Authority
WO
WIPO (PCT)
Prior art keywords
selection
option
behavior
action
user
Prior art date
Application number
PCT/JP2017/016948
Other languages
English (en)
French (fr)
Inventor
拓郎 池田
阿南 泰三
北川 英志
ヴィシャル シャーマ
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2017/016948 priority Critical patent/WO2018198323A1/ja
Priority to JP2019515027A priority patent/JP6795090B2/ja
Publication of WO2018198323A1 publication Critical patent/WO2018198323A1/ja
Priority to US16/575,465 priority patent/US11449770B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2115Selection of the most significant subset of features by evaluating different subsets according to an optimisation criterion, e.g. class separability, forward selection or backward elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Definitions

  • the present invention relates to an action selection learning device, an action selection learning program, an action selection learning method, and an action selection learning system.
  • an information providing service a service that provides information indicating transfer guidance, operation status, congestion status, etc. of public transportation is known.
  • a service that provides information indicating a menu of a restaurant or a congestion situation around a place where a user is staying is known.
  • the conventional service described above provides uniform information to an unspecified number of users, and does not take into account the ease of accepting options among individual users.
  • the disclosed technology is intended to present options for actions that are easy for users to accept.
  • the disclosed technology includes a reference model generation unit that generates a reference model that is a set of model parameter vectors indicating the degree of influence for each factor that affects selection of an action option, and each of the model parameter vectors for each action option.
  • a reference model generation unit that generates a reference model that is a set of model parameter vectors indicating the degree of influence for each factor that affects selection of an action option, and each of the model parameter vectors for each action option.
  • a selection probability calculation unit that calculates a selection probability, a selection probability for each action option, and a selection history of the action option by a user
  • An action generation unit that calculates a model parameter vector for each user, and an option generation unit that generates the action options based on the model parameter vector for each user and transmits the action options to the terminal device. It is a selective learning device.
  • the above units may be a computer-readable recording medium storing a program or a method for causing a computer to execute each process realizing the above units as a procedure.
  • FIG. 1 is a diagram illustrating presentation of action options by the action selection learning system of the first embodiment.
  • the behavior selection learning system 100 of the present embodiment includes a behavior selection learning device 200 and a terminal device 300.
  • the action selection learning device 200 When the action selection learning device 200 according to the present embodiment receives a request for presentation of action options from the terminal device 300, the action selection learning device 200 refers to a database in which information around the terminal device 300 is accumulated, generates action option candidates, and generates a terminal device 300 is displayed.
  • the factor that affects the satisfaction obtained by the user's behavior selection using the behavior option selection history in the terminal device 300 and the degree of the influence are obtained.
  • a model parameter vector shown is generated for each user.
  • the action selection learning apparatus 200 of this embodiment updates a model parameter vector, whenever the terminal device 300 receives selection of an action option.
  • a user generates a number of reference models including various parameters indicating factors that affect the satisfaction level obtained by selecting an action and the degree of influence, and the user selects an action option. Each time is selected, the reference model is clustered (divided) based on the selected action option.
  • the factor that affects the satisfaction obtained by the selection of the user's behavior, and the degree of influence are calculated.
  • the model parameter vector shown is calculated.
  • a complicated procedure of presenting and selecting various action options to the user is unnecessary, and a model parameter vector for each user can be generated with a simple procedure.
  • the action selection learning device 200 when the action selection learning device 200 according to the present embodiment receives a request for presentation of action options, the action selection learning apparatus 200 generates action options based on the model parameter vector of the user who has made the presentation request. It is possible to present an action option that is easy to accept.
  • the action selection learning device 200 acquires information on commercial facilities and public transportation around the terminal devices 300-1 and 300-2 from position information indicating the current location of the terminal device 300-1. .
  • the behavior selection learning device 200 and the model parameter vector corresponding to the user of the terminal device 300-1 and the periphery of the terminal device 300-1 Action options are generated from the information and displayed on the terminal device 300-1.
  • the terminal device 300-1 presents a coupon for a time sale at a shopping center as one of action options.
  • model parameter vector of the user of the terminal device 300-1 indicates that the user is more satisfied with shopping using a coupon than the satisfaction with returning home quickly. Because it was shown.
  • this action option is an action option that is easily accepted by the user of the terminal device 300-1.
  • the action options presented to the terminal device 300-1 can be said to be action options that are likely to be selected by the user of the terminal device 300-1.
  • the behavior selection learning apparatus 200 of the present embodiment when the behavior option “going to the time sale at the shopping center” is selected in the terminal device 300-1, the terminal device 300-1 is used using the selection result.
  • the model parameter vector of the user is updated.
  • the behavior selection learning device 200 and the model parameter vector of the user of the terminal device 300-2 and the surroundings of the terminal device 300-2 are displayed.
  • Action options are extracted from the information and displayed on the terminal device 300-2.
  • the terminal device 300-2 is presented as one of the action options, taking a taxi with a waiting time of less than 5 minutes and moving.
  • this action option is an action option that is easy for the user of the terminal device 300-2 to accept and has a high possibility of being selected.
  • the behavior selection learning device 200 of the present embodiment when the behavior option “get on a taxi with a waiting time of less than 5 minutes and move” is selected in the terminal device 300-2, the selection result is used.
  • the model parameter vector of the user of the terminal device 300-2 is updated.
  • the behavior option is presented to the user based on the model parameter vector that is updated every time the user selects the behavior option. Therefore, every time the user selects the behavior option. The possibility that the presented action option is selected by the user can be increased.
  • such a model parameter vector is generated for each user, and the behavior parameter is presented to the user using the model parameter vector for each user, so that the probability of changing the user's behavior is increased. Is possible. For this reason, according to the present embodiment, even when congestion occurs in a specific area, such as immediately after the end of an event, the probability of changing the user's behavior can be increased. Can contribute to mitigation.
  • FIG. 2 is a diagram illustrating an example of a system configuration of the action selection learning system according to the first embodiment.
  • the behavior selection learning system 100 includes a behavior selection learning device 200 and a terminal device 300.
  • the behavior selection learning device 200 and the terminal device 300 are connected via a network.
  • the behavior selection learning apparatus 200 of this embodiment includes a user database 210, a selection history database 220, a location information database 230, a traffic operation database 240, an event database 250, a store database 260, and a behavior selection learning processing unit 270.
  • the user database 210 of this embodiment stores parameters for each user used when calculating the utility for each action option by the user.
  • the utility of the action option for each user is calculated using the parameters stored in the user database 210 by the process of the action selection learning processing unit 270 described later.
  • “Utility of action options” is a concept used in the field of microeconomics, and represents the level of satisfaction obtained by users by selecting action options. Details of the user database 210 and utility calculation will be described later.
  • the behavior selection learning processing unit 270 receives a behavior option presentation request from the terminal device 300 and displays the behavior option displayed on the terminal device 300 and the selection result selected by the terminal device 300. Are stored in association with the action options.
  • the selection history database 220 of the present embodiment is referred to when the reference model is clustered by the action selection learning processing unit 270. Details of the selection history database 220 will be described later.
  • the position information database 230 of the present embodiment stores the position information indicating the position of the terminal device 300 in association with the date and time when the position information is acquired. Details of the position information database 230 will be described later.
  • information related to operation for each means of transportation is stored.
  • the information regarding the operation for each means of transportation includes, for example, the position of a boarding / exiting point such as a station or a bus stop, information about a route connecting the boarding / alighting point, and information about transfer between routes.
  • information related to operation for each means of transportation includes information related to charges such as fares, timetable information indicating at which departure time each vehicle arrives and gets off, and the number of passengers on the vehicle.
  • the event database 250 of the present embodiment stores information related to events held in each region.
  • the information related to the event includes, for example, the type of event, the date and time of the event, and the venue.
  • the region is, for example, a region around the position indicated by the position information acquired from the terminal device 300.
  • the store database 260 of this embodiment stores information about stores in each region.
  • the information regarding the store is, for example, the type of store, business hours, location, and the like.
  • the store type may be, for example, a restaurant, a jewelry store, a general store, a bookstore, or the like.
  • the region is, for example, a region around the position indicated by the position information acquired from the terminal device 300.
  • each database is provided in the action selection learning device 200, but the present invention is not limited to this.
  • the traffic operation database 240, the event database 250, the store database 260, and the like of the present embodiment may be provided in a storage device outside the behavior selection learning device 200.
  • the behavior selection learning processing unit 270 generates a model parameter vector indicating a factor that affects the satisfaction obtained by selecting a behavior and the degree of influence for each user of the terminal device 300.
  • the action selection learning processing unit 270 of the present embodiment receives a request for presentation of action options from the terminal device 300, the action options to be displayed on the terminal device 300 based on the model parameter vector corresponding to the user of the terminal device 300. Is generated. Details of the action selection learning processing unit 270 will be described later.
  • FIG. 3 is a diagram illustrating an example of a hardware configuration according to the first embodiment.
  • the action selection learning device 200 includes an input device 21, an output device 22, a drive device 23, an auxiliary storage device 24, a memory device 25, an arithmetic processing device 26, and an interface device 27 that are connected to each other via a bus B.
  • the input device 21 is a device used for inputting various signals and displaying various information, and is, for example, a mouse or a keyboard.
  • the output device 22 is a device used for outputting various kinds of information, and is, for example, a display.
  • the interface device 27 includes a modem, a LAN card, etc., and is used for connecting to a network.
  • the action selection learning program is at least a part of various programs that control the action selection learning apparatus 200.
  • the action selection learning program is provided by, for example, distribution of the recording medium 28 or downloading from a network.
  • the recording medium 28 on which the action selection learning program is recorded is a recording medium such as a CD-ROM, a flexible disk, a magneto-optical disk, etc. for recording information optically, electrically or magnetically, a ROM, a flash memory, etc.
  • Various types of recording media such as a semiconductor memory for electrically recording information can be used.
  • the action selection learning program is installed from the recording medium 28 into the auxiliary storage device 24 via the drive device 23.
  • the action selection learning program downloaded from the network is installed in the auxiliary storage device 24 via the interface device 27.
  • the auxiliary storage device 24 stores the installed action selection learning program and also stores necessary files, data, and the like.
  • the memory device 25 reads and stores the action selection learning program from the auxiliary storage device 24 when the computer is activated.
  • the arithmetic processing unit 26 implements various processes as described later according to the behavior selection learning program stored in the memory device 25.
  • the terminal device 300 is a general tablet computer, a smartphone, or the like, and the hardware configuration thereof is a congestion management device except that a display operation device is provided instead of the input device and the output device. Since it is the same as that of FIG. Note that the terminal device 300 may be a terminal device other than a tablet computer or a smartphone. Specifically, the terminal device 300 may be, for example, a notebook computer or a general desktop computer.
  • FIG. 4 is a diagram illustrating an example of a user database according to the first embodiment.
  • the user database 210 of this embodiment has user ID, ASC RAIL , ASC BUS , ASC TAXI , ⁇ F , ⁇ TT , ⁇ DT , ⁇ CG , and ⁇ WT as information items.
  • the item “user ID” is associated with the values of other items, and information including the item “user ID” and the values of other items is Called user information.
  • each parameter associated with the user ID in the user information is referred to as a model parameter vector.
  • the item “user ID” is associated with each parameter, but the present invention is not limited to this.
  • the user's name, age, sex, and the like may be associated with the user ID.
  • the value of the item “user ID” is identification information for identifying the user.
  • the value of the item “user ID” in the present embodiment is the identification information for specifying the terminal device 300 as the user ID, for example, when the terminal device 300 is used only by a specific user. Also good.
  • the value of the item “ASC RAIL ” indicates the level of satisfaction of the user by selecting the railway R.
  • the value of the item “ASC BUS ” indicates the level of user satisfaction by selecting the bus B.
  • the value of the item “ASC TAXI ” indicates the level of satisfaction of the user by selecting the taxi T.
  • the value of the item “ ⁇ F ” indicates a weight for a fee generated by selecting an action option.
  • the value of the item “ ⁇ F ” indicates the degree to which the fee contributes to the satisfaction when the user selects an action option.
  • the value of the item “ ⁇ TT ” indicates a weight for the travel time.
  • the value of the item “ ⁇ TT ” indicates the degree to which the travel time contributes to the satisfaction when the user selects an action option.
  • the value of the item “ ⁇ DT ” indicates a weight for the departure extension time.
  • the departure extension time is the time from the scheduled departure time to the actual start time of movement.
  • the value of the item “ ⁇ DT ” indicates the extent to which the extended time in which the actual departure is extended from the scheduled departure time contributes to the satisfaction when the user selects the action option.
  • the value of the item “ ⁇ CG ” indicates a weight for the degree of congestion with respect to the action corresponding to the selected action option.
  • the value of the item “ ⁇ CG ” indicates the degree to which the degree of congestion contributes to the satisfaction when the user selects an action option.
  • the degree of congestion indicates, for example, the degree of congestion of action options when the action corresponding to the selected action option is movement.
  • the congestion degree indicates, for example, the congestion degree of a store that performs shopping when the action corresponding to the selected action option is shopping. That is, the degree of congestion in the present embodiment indicates the degree of congestion encountered when an action corresponding to the action option is performed.
  • the value of the item “ ⁇ WT ” indicates a weight for the waiting time.
  • the waiting time is the time from the time when the action is waited to the time when the action is started. Also, the waiting time is, for example, the time from getting on the queue until getting on the taxi when the action option is moving by taxi. Alternatively, the waiting time is the time from queuing to entering a store when the action option is a meal at a restaurant.
  • the value of the item “ ⁇ WT ” indicates the degree to which the waiting time until the action is performed contributes to the satisfaction when the user selects the action option.
  • the value of the item “ ⁇ WT ” indicates a weight for the waiting time until the movement is started, a weight for the waiting time until the target shopping is started, and the like.
  • the user with the user ID “001” is “ ⁇ 2” having the smallest value of the item “ ⁇ CG ” among the items indicating the weight. From this, it can be seen that the user with the user ID “001” is a user who tends to dislike congestion.
  • an item “ASC” for each type (category) of the store may be included as a constant determined uniquely for each action option.
  • the value of the item “ASC” may be determined according to the type of food in the store.
  • the value of the item “ASC” may be determined according to the type of store (restaurant, home appliance store, bookstore, etc.).
  • the fact that the weight is given by the model parameter vector is a factor that affects the satisfaction obtained by the selection of the user's behavior. Therefore, in the present embodiment, the value indicating the degree of influence on the satisfaction level by selecting an action option for each user is the user's model parameter vector. That is, in the example of FIG. 4, factors that are weighted by the model parameter vector included in the user information include a fee, travel time, departure extended time, congestion degree, and waiting time generated by selecting an action. .
  • FIG. 5 is a diagram illustrating an example of the selection history database according to the first embodiment.
  • the action option presented to the terminal device 300 and the action option selected by the terminal device 300 are associated with each other.
  • the selection history database 220 of the present embodiment may be provided for each user ID.
  • the action option presented on the terminal device 300 of the user with the user ID “001” is associated with the action option selected on the terminal device 300 of the user with the user ID “001”.
  • An example is shown.
  • the selection history database 220 of this embodiment has date and time, action options, and selection results as information items.
  • information including the value of each item in the selection history database 220 is referred to as selection history information.
  • the value of the item “date and time” indicates the date and time when the action option received the selection result from the terminal device 300.
  • the item “action option” includes a plurality of items “option 1” to “option 3” indicating a plurality of action options presented to the terminal device 300.
  • the value of the item “selection result” indicates the action option selected in the terminal device 300 from the items “option 1” to “option 3” included in the item “action option”.
  • FIG. 6 is a diagram illustrating an example of the position information database according to the first embodiment.
  • the location information database 230 of this embodiment is provided for each user ID, like the selection history database 220.
  • FIG. 6 shows the location information database 230 of the user with the user ID “001”.
  • the position information database 230 of this embodiment includes date, time, latitude, and longitude as information items.
  • the values of the items “date” and “time” indicate the date and time when the position information is acquired.
  • the values of the items “latitude” and “longitude” indicate the latitude and longitude of the terminal device 300.
  • position information information including values of items “date”, “time”, “latitude”, and “longitude” is referred to as position information.
  • FIG. 7 is a diagram for explaining the functions of the devices included in the behavior selection learning system according to the first embodiment.
  • the behavior selection learning device 200 includes a behavior selection learning processing unit 270.
  • the behavior selection learning processing unit 270 of the present embodiment is realized by the arithmetic processing device 26 of the behavior selection learning device 200 executing a behavior selection learning program installed in the behavior selection learning device 200.
  • the action selection learning processing unit 270 of the present embodiment includes a request reception unit 271, an option generation unit 272, an option acquisition unit 273, a reference model generation unit 274, a reference model storage unit 275, a selection probability calculation unit 276, and a reference model selection determination unit. 277, a clustering unit 278, a model parameter vector calculating unit 279, a validity determining unit 280, and a position information receiving unit 281.
  • the request receiving unit 271 receives a presentation request or the like transmitted from the terminal device 300.
  • the presentation request includes designation of conditions such as user ID, action date, desired action start time or desired action end time, action start location, and the like.
  • the requested action option is, for example, an action option indicating how to move by transportation
  • the presentation request includes the user ID, the use date of the transportation, and the desired departure.
  • the time or desired arrival time, departure point and destination may be included.
  • the option generation unit 272 generates a behavior option using the model parameter vector of the user ID corresponding to the terminal device 300 that has requested the presentation of the behavior option, and the behavior option generated to the terminal device 300 that has made the presentation request.
  • the action options of the present embodiment include, for example, moving action such as available transportation means, purchasing action options such as information on nearby stores that can be visited before returning home, and the like.
  • the option acquisition unit 273 receives and acquires the action option selected by the user in the terminal device 300 from the action options presented in the terminal device 300.
  • the reference model generation unit 274 generates a reference model that is a set of model parameter vectors. Details of the reference model will be described later.
  • the reference model storage unit 275 stores the reference model generated by the reference model generation unit 274. Further, the reference model storage unit 275 stores the extracted reference model after clustering by the clustering unit 278.
  • the selection probability calculation unit 276 calculates the selection probability of each action option based on the model parameter vector. More specifically, the selection probability calculation unit 276 calculates the selection probability of each action option presented to the terminal device 300 for each model parameter vector included in the reference model. Details of the selection probability calculation will be described later.
  • the reference model selection determination unit 277 determines an action option to be selected from the action options presented to the terminal device 300 based on the calculated selection probability of each action option for each model parameter vector. Specifically, the reference model selection determination unit 277 determines the action option having the highest calculated selection probability among the action options as the action option selected in the model parameter vector.
  • the clustering unit 278 extracts, from the reference model, a model parameter vector in which the behavior option selected by the reference model selection determination unit 277 matches the behavior option selected by the user of the terminal device 300 from the reference model. Is generated.
  • the extracted reference model is a part (subset) of the reference model, and is a set of model parameter vectors.
  • the model parameter vector calculation unit 279 calculates the model parameter vector of the user of the terminal device 300 from the extracted reference model, and stores the calculated model parameter vector in the user database 210 as user information. Details of the calculation of the model parameter vector of this embodiment will be described later.
  • the validity determination unit 280 determines whether or not the model parameter vector calculated by the model parameter vector calculation unit 279 is valid. Specifically, the validity determination unit 280 calculates an action option having the highest selection probability from the action options presented to the terminal device 300 using the calculated model parameter vector. Then, the validity determination unit 280 determines that the calculated model parameter vector is valid when the behavior option having the highest selection probability matches the behavior option selected by the user in the terminal device 300.
  • the location information receiving unit 281 receives the location information of the terminal device 300 from the terminal device 300 and stores it in the location information database 230 for each terminal device 300.
  • the terminal device 300 includes a presentation processing unit 310.
  • the presentation processing unit 310 of the present embodiment includes an input control unit 311, an output control unit 312, a presentation request unit 313, a presentation reception unit 314, a selection transmission unit 315, and a GPS (Global Positioning System) unit 316.
  • Each of these units is realized by a program installed in the terminal device 300 being executed by the arithmetic processing device of the terminal device 300.
  • the input control unit 311 of this embodiment accepts input of various types of information.
  • the output control unit 312 outputs various types of information. Specifically, the output control unit 312 displays the action options received by the presentation receiving unit 314 on a display operation device or the like.
  • the presentation request unit 313 requests the action selection learning device 200 to present action options.
  • the presentation request unit 313 of the present embodiment transmits conditions such as a user ID, an action date, a desired action start time or a desired action end time, and an action start location to the action selection learning device 200 together with the presentation request.
  • the presentation receiving unit 314 receives a response to the presentation request transmitted by the presentation request unit 313. Specifically, the presentation receiving unit 314 receives information indicating action options transmitted from the action selection learning device 200.
  • the selection transmission unit 315 selects the selected action option. Is transmitted to the action selection learning device 200. Specifically, the selection transmission unit 315 may transmit information specifying the selected action option to the action selection learning device 200, or information indicating the selected action option itself to the action selection learning device 200. You may send it.
  • the GPS unit 316 acquires position information indicating the current position of the terminal device 300 based on the GPS signal received by the terminal device 300. Further, the GPS unit 316 transmits the acquired position information to the action selection learning device 200.
  • the request transmission unit 320 may transmit the position information acquired by the GPS unit 316 to the action selection learning device 200 together with the presentation request instead of the departure place.
  • the selection of the action option by the user can be calculated using a multinomial logit model (MNL) as shown in the following formula (1).
  • MNL multinomial logit model
  • Prob i is the selection probability of the action option i when a set A of action options is presented.
  • Vi is the utility of action option i.
  • the utility Vi represents the level of satisfaction obtained by selecting an action option.
  • the utility Vi can be calculated by the following equation (2), for example.
  • Each variable x k in the equation is a factor that affects utility, and ⁇ k is a model parameter that represents the degree of influence.
  • the vector ⁇ including a plurality of model parameters is referred to as a model parameter vector.
  • the utility Vi related to the moving action among the action options can be calculated by the following expression (3).
  • a charge, a travel time, a departure extended time, a waiting time, and a traffic congestion degree are included as variables.
  • the utility Vi shown in Expression (3) includes option-specific constants relating to transportation means.
  • the model parameter vector ⁇ indicates the degree of influence on the satisfaction obtained by selecting the action option for each factor.
  • each parameter associated with the user ID indicates a model parameter vector ⁇ for each user (FIG. 4). reference).
  • FIG. 8 is a diagram illustrating a reference model according to the first embodiment.
  • the reference model 80 of the present embodiment is a set of model parameter vectors ⁇ obtained by discretely setting the values of each parameter included in the model parameter vector ⁇ and obtaining all possible combinations.
  • ⁇ 1 , ⁇ 2 ,..., ⁇ k shown in Equation (2) are set as ⁇ F , ⁇ TT , ⁇ DT , ⁇ CG , ⁇ WT, and the values of the parameters are set. This is an example generated by changing.
  • a model ID and a model parameter vector ⁇ may be associated with each other, and one record corresponding to the model ID becomes one model parameter vector ⁇ .
  • the option specific constant ASC may also be included in the model parameter vector.
  • FIG. 9 is a diagram for explaining the outline of the processing by the action selection learning processing unit of the first embodiment.
  • the reference model 80 is already generated. Note that the dolls shown in FIG. 9 show different model parameter vectors.
  • the behavior selection learning processing unit 270 upon receiving a presentation request from the terminal device 300, the behavior selection learning processing unit 270 generates a behavior option based on the presentation request and transmits it to the terminal device 300 (step S ⁇ b> 901).
  • the action options transmitted here are the action options 1 to 3.
  • the terminal device 300 In the terminal device 300, options 1 to 3 are displayed. In FIG. 9, it is assumed that the option 3 is selected by the user A of the terminal device 300. In this case, the terminal device 300 notifies the behavior selection learning processing unit 270 that option 3 has been selected (step S902).
  • the action selection learning processing unit 270 gives selection history information including options 1 to 3 and a selection result to the reference model 80, and selects the options 1 to 3 for each model parameter vector ⁇ included in the reference model 80.
  • the probability is calculated (step S903).
  • the action selection learning processing unit 270 extracts a cluster (set) 91 of model parameter vectors ⁇ having the highest selection probability of the option 3 which is the selection result included in the selection history information (step S904). That is, the cluster 91 is a set of model parameter vectors ⁇ that has the highest probability of selecting the same option as the user A in the reference model 80.
  • the action selection learning processing unit 270 determines a set of model parameter vectors ⁇ having the highest selection probability of option 1 and a set of model parameter vectors ⁇ having the highest selection probability of option 2 as user A and Are classified as models for different selections (steps S905 and S906).
  • the behavior selection learning processing unit 270 calculates the model parameter vector of the user A of the terminal device 300 from the model parameter vector ⁇ included in the cluster 91, and the user corresponding to the user A of the user database 210. Information is updated (step S907).
  • the behavior selection learning processing unit 270 when the behavior selection learning processing unit 270 next receives a request for presentation of behavior options from the terminal device 300, the behavior selection (options 1 to 3) based on the user information (model parameter vector) updated in step S907. Is transmitted to the terminal device 300 (step S908).
  • the terminal device 300 it is assumed that the option 2 is selected by the user A. Therefore, the terminal device 300 notifies the action selection learning processing unit 270 that the option 2 has been selected (step S909).
  • the action selection learning processing unit 270 gives selection history information including options 1 to 3 and a selection result to the cluster 91 clustered by the previous selection, and for each model parameter vector ⁇ included in the cluster 91, options 1 to The selection probability for 3 is calculated (step S910).
  • the behavior selection learning processing unit 270 extracts from the cluster 91 the cluster 92 of the model parameter vector ⁇ that has the highest selection probability of the option 2 as the selection result (step S911).
  • the cluster 92 is a set of model parameter vectors ⁇ having the highest probability of selecting the same option as the user A in the cluster 91.
  • the action selection learning processing unit 270 determines a set of model parameter vectors ⁇ having the highest selection probability of option 1 and a set of model parameter vectors ⁇ having the highest selection probability of option 3 as the user A. It classifies as a model which performs a different selection (step S912, 913).
  • the behavior selection learning processing unit 270 calculates the model parameter vector of the user A of the terminal device 300 from the model parameter vector ⁇ included in the cluster 92, and corresponds to the user A of the user database 210.
  • User information is updated (step S914).
  • the process of extracting the set of model parameter vectors ⁇ whose selection probabilities match the selection result by the user A from the reference model 80 is repeated.
  • the model parameter vector ⁇ of the user A calculated by this cluster is determined. . That is, the modeling of the expected value of the profit or the expected value of the utility for the user A is completed.
  • FIG. 10 is a flowchart for explaining processing of the terminal device according to the first embodiment.
  • the input control unit 311 receives an input of an action option presentation request from a user of the terminal device 300 (step S1001).
  • the input control unit 311 may accept input of a user ID, a date of use of transportation, a desired departure time or desired arrival time, a departure place, a destination, and the like together with the presentation request.
  • the terminal device 300 transmits the input presentation request to the behavior selection learning device 200 by the presentation request unit 313 (step S1002).
  • the terminal device 300 receives the behavior option from the behavior selection learning device 200 by the presentation receiving unit 314, and causes the output control unit 312 to display the behavior option on the display operation device of the terminal device 300 (step S1003).
  • the terminal device 300 transmits the selected action option to the action selection learning device 200 via the selection transmission unit 315 (step S1004), and ends the process.
  • the selection transmission unit 315 may transmit information indicating the selected action option to the action selection learning device 200, or transmit information such as an identifier for identifying the selected action option to the action selection learning device 200. You may do it.
  • FIG. 11 is a first flowchart illustrating the process of the action selection learning device according to the first embodiment.
  • the behavior selection learning processing unit 270 of the behavior selection learning device 200 of the present embodiment receives a request for presentation of behavior options from the terminal device 300 by the request reception unit 271 (step S1201).
  • the action selection learning processing unit 270 uses the option generation unit 272 to generate action options (step S1102). Specifically, the option generation unit 272 determines the user information in the user database 210 based on the transportation use date, the desired departure time or the expected arrival time, the departure place, the destination, etc. received together with the presentation request. The action options may be generated with reference to the traffic operation database 240, the event database 250, the store database 260, and the like.
  • the action selection learning processing unit 270 causes the option generation unit 272 to transmit the generated action option to the terminal device 300 (step S1103).
  • the action choices generated here are stored in the selection history database 220 as selection history information associated with the user ID of the terminal device 300 that has made the presentation request.
  • the action selection learning processing unit 270 receives the action option selected in the terminal device 300 by the option acquisition unit 273. Then, the option acquisition unit 273 stores the received action option in the selection history database 220 in association with this action option as a selection result for the action option transmitted in step S1103 (step S1104).
  • the action selection learning processing unit 270 performs a process for updating the model parameter vector of the user (step S1105) and ends the process.
  • FIG. 12 is a second flowchart illustrating the process of the action selection learning device according to the first embodiment.
  • FIG. 12 shows details of the process of updating the model parameter vector of the user shown in step S1105 of FIG.
  • the action selection learning processing unit 270 determines whether or not the user's model parameter vector needs to be updated (step S1201). Specifically, the behavior selection learning processing unit 270 does not need to update the model parameter vector when the user's model parameter vector has not been updated at the time of presentation of the previous behavior option. You may judge.
  • Information indicating whether or not the model parameter vector has been updated may be held in, for example, the user database 210 or the selection history database 220.
  • step S1201 If it is determined in step S1201 that the model parameter vector does not need to be updated, the action selection learning processing unit 270 ends the process.
  • step S1201 If it is determined in step S1201 that the model parameter vector needs to be updated, the behavior selection learning processing unit 270 determines whether or not a reference model is stored in the reference model storage unit 275 (step S1202).
  • the case where the reference model is not stored is when the behavior selection learning device 200 receives the behavior option selected in the terminal device 300 from the terminal device 300 for the first time.
  • the reference model generation unit 274 If the reference model is not stored in step S1202, the reference model generation unit 274 generates a cluster C 0 (reference model) and stores it in the reference model storage unit 275 (step S1203).
  • step S1202 when the reference model is stored, the action selection learning processing unit 270 performs the selection probability calculation unit 276 for each model parameter vector ⁇ included in the reference model (cluster C i-1 ) generated last time. The selection probability for each action option is calculated (step S1204).
  • the action option whose selection probability is calculated is the action option stored in the selection history database 220 in step S1103.
  • the action options for which the selection probability is calculated are all action options presented to the terminal device 300.
  • the reference model stored in the reference model storage unit 275 is an extracted reference model clustered by the clustering unit 278 when the previous action option was presented.
  • the behavior selection learning processing unit 270 determines, for each model parameter vector ⁇ , the behavior option having the highest selection probability as the behavior option to be selected for each model parameter vector ⁇ by the reference model selection determination unit 277 (step S1205).
  • the behavior selection learning processing unit 270 causes the clustering unit 278 to extract the model parameter vector ⁇ having the highest selection probability of the behavior option selected by the user in the terminal device 300 (step S1206).
  • the clustering unit 278 extracts the model parameter vector ⁇ in which the action option determined by the reference model selection determining unit 277 matches the action option of the selection result received from the terminal device 300.
  • the behavior selection learning processing unit 270 stores the set of model parameter vectors ⁇ extracted by the clustering unit 278 by the reference model storage unit 275 as a cluster C i (reference model) (step S1207).
  • Cluster C i is a subset included in cluster C 0 .
  • the action selection learning processing unit 270 determines whether or not the cluster C i extracted in step S1206 matches the cluster C i ⁇ 1 by the clustering unit 278 (step S1208).
  • step S1208 If the two match in step S1208, the cluster C i indicates that it is similar to the model parameter vector ⁇ of the user of the terminal device 300, and thus the action selection learning processing unit 270 ends the process.
  • step S1208 if they do not match, action selection learning processing unit 270, a model parameter vector calculation unit 279, based on the cluster C i, to calculate the model parameter vector ⁇ of the user (step S1209). Details of calculation of the model parameter vector ⁇ of the user by the model parameter vector calculation unit 279 will be described later.
  • the behavior selection learning processing unit 270 determines whether or not the model parameter vector ⁇ of the user calculated in step S1209 is valid by the validity determination unit 280 (step S1210).
  • the validity determination unit 280 calculates the selection probability for each action option presented to the terminal device 300 using the calculated model parameter vector ⁇ of the user, and the action option having the highest selection probability is calculated. It is determined whether or not it matches the action option of the selection result.
  • the behavior selection learning processing unit 270 determines that the behavior option having the highest selection probability is the behavior of the selection result when the validity determination unit 280 determines that the calculated model parameter vector ⁇ is not valid (step S1211). If it does not match the option, the process is terminated as it is.
  • the behavior selection learning processing unit 270 determines that the calculated model parameter vector ⁇ is determined to be valid in step S1211, that is, the behavior option having the highest selection probability matches the behavior option of the selection result.
  • the user's model parameter vector is updated (step S1212), and the process ends. Specifically, the behavior selection learning processing unit 270 rewrites the value of each parameter corresponding to the user ID of the terminal device 300 in the user database 210 to the value of each parameter included in the calculated model parameter vector ⁇ . .
  • the parameters included in the model parameter vector ⁇ are described as two parameters ⁇ 1 and ⁇ 2 .
  • FIG. 13 is a first diagram illustrating the processing of the action selection learning processing unit of the first embodiment.
  • FIG. 14 is a second diagram illustrating the process of the action selection learning processing unit of the first embodiment.
  • the behavior selection learning processing unit 270 first receives a behavior option as a selection result from the terminal device 300 and a case where the behavior selection learning processing unit 270 receives a selection result from the terminal device 300 for the second time are illustrated.
  • the behavior selection learning processing unit 270 receives the third selection result, and as a result, the user does not need to update the model parameter vector.
  • the behavior selection learning processing unit 270 When the selection result is received from the terminal device 300 for the first time, the behavior selection learning processing unit 270 generates a cluster C 0 as a reference model. Then, the behavior selection learning processing unit 270, the cluster C 0, give the first round of selection history information.
  • the action selection learning processing unit 270 extracts a set of model parameter vectors ⁇ with the highest selection probability of the option 1 for each model parameter vector ⁇ included in the cluster C 0 and sets it as the cluster C 1 .
  • a cluster C 1 including the model parameter vector ⁇ A (0) of the user A stored in the user database 210 is generated. This cluster C 1 is stored in the reference model storage unit 275.
  • the behavior selection learning processing unit 270 uses the model parameter vector calculation unit 279 to convert the model parameter vector ⁇ A (0) based on the cluster C 1 .
  • the calculated model parameter vector ⁇ A (1) is updated.
  • the model parameter vector calculation unit 279 of the present embodiment calculates the model parameter vector ⁇ of the user A by the following equation (4).
  • the model parameter vector ⁇ of the user A calculated here is a value obtained by weighting the average of the parameters of the model parameter vector ⁇ included in the cluster C 1 based on the selection probability.
  • Equation (4) the parameters included in the model parameter vector ⁇ of the user A are ⁇ 1, A , ⁇ 2, and A. Moreover, in Formula (4), C is a cluster.
  • pi is the highest selection probability among the selection probabilities of the same action options as the user, calculated based on the i-th model parameter vector ⁇ included in the reference model or the extracted reference model. Indicates the value.
  • the behavior selection learning processing unit 270 receives, from the terminal device 300, option 4 of the presented behavior options as a selection result.
  • the action selection learning processing unit 270 an option 4 the result selection, giving a presentation behavioral choice, a second selection history information including the cluster C 1.
  • the action selection learning processing unit 270 extracts a set of model parameter vectors ⁇ with the highest selection probability of the option 4 for each model parameter vector ⁇ included in the cluster C 1 and sets it as a cluster C 2 .
  • a cluster C 2 including the model parameter vector ⁇ A (1) of the user A is generated.
  • the cluster C 2 is stored by the reference model storage unit 275.
  • the behavior selection learning processing unit 270 calculates the model parameter vector ⁇ A (1) based on the cluster C 2 by the model parameter vector calculation unit 279. Updated to the model parameter vector ⁇ A (2) .
  • the behavior selection learning processing unit 270 receives the option 10 of the presented behavior options as a selection result from the terminal device 300 in the third behavior option presentation.
  • the action selection learning processing unit 270 provides the cluster C 2 with the third selection history information including the option 10 as the selection result and the presented action option.
  • the action selection learning processing unit 270 extracts a set of model parameter vectors ⁇ with the highest selection probability of the option 10 for each model parameter vector ⁇ included in the cluster C 2 and sets it as a cluster C 3 .
  • a cluster C 3 including the model parameter vector ⁇ A (2) of the user A is generated. This cluster C 3 is stored in the reference model storage unit 275.
  • behavior selection learning processing unit 270 does not update the model parameter vector ⁇ A (2), the value of each parameter included in the model parameter vector ⁇ A (2), stored in the user database 210.
  • FIG. 15 is a third diagram illustrating the process of the action selection learning processing unit of the first embodiment.
  • FIG. 15 shows a case where the model parameter vector ⁇ A of the user A calculated by the model parameter vector calculation unit 279 is determined to be invalid by the determination by the validity determination unit 280.
  • a cluster C 0 is generated as a reference model. Then, the behavior selection learning processing unit 270, the cluster C 0, give the first round of selection history information.
  • the selection result included in this selection history information is option 3.
  • the behavior selection learning processing unit 270 extracts the model parameter vector ⁇ that has the highest selection probability of the option 3 for each model parameter vector ⁇ included in the cluster C 0 and sets it as the cluster C 1A . Also, the behavior selection learning processing unit 270 calculates the model parameter vector ⁇ A (3) of the user A using the cluster C 1A .
  • an action option having the highest selection probability is obtained from the action options included in the selection history information given to the cluster C 0 , and the user A's It is determined whether or not the selection result matches.
  • the action selection learning processing unit 270 ends the process without updating the user database 210 with the model parameter vector ⁇ A (3) .
  • a model parameter vector indicating the degree of influence is generated.
  • an action option is generated and presented to the user. Therefore, according to the present embodiment, it is possible to present action options that are easy for the user to accept in a simple procedure.
  • the option generation unit 272 of this embodiment receives a request for presentation of action options from the terminal device 300
  • the option generation unit 272 generates action options that can be taken from the traffic operation database 240, the event database 250, the store database 260, and the like.
  • the option generation unit 272 calculates selection probabilities for the generated action options based on the model parameter vector ⁇ of the user, selects action options to be presented to the user in descending order of selection probability, and the terminal device 300 May be sent to
  • the model parameter vector ⁇ referred to at this time is individual for each user, it is possible to present an action option that is easy for the user to accept and change the behavior of each user. The possibility of making it increase can be increased.
  • FIG. 16 is a diagram illustrating an example of a screen on which action options are displayed on the terminal device according to the first embodiment.
  • the screen 301 shown in FIG. 16 has a display field 304 and a display field 305, and a combination of a moving means and a store for each time zone is displayed as an action option.
  • the display field 304 displays a combination of the moving means n and the time zone l as action options.
  • the display field 305 displays store information associated with the combination of the moving means n and the time zone l as action options.
  • the display column 304 shows a case where a combination of “moving from the landing A to 17:30 to 17:44 by taxi T” is selected by the user.
  • the store information 307 of the store associated with this combination is displayed in the display field 305.
  • Store information 307 may include a URL (Uniform Resource Locator) of a screen on which a coupon is displayed when the presence or absence of the coupon at the corresponding store is “present” in the store database 260, for example. Further, the store information 307 may display the URL of the homepage of the corresponding store.
  • URL Uniform Resource Locator
  • the coupon button 307a when the coupon button 307a is operated in the store information 307, the coupon may be displayed on the screen 301.
  • the details button 307 b when the details button 307 b is operated in the store information 307, the home page of the store K may be displayed on the screen 301.
  • information indicating the congestion status of the moving means is displayed and information indicating the congestion status of the store is not displayed.
  • the present invention is not limited to this.
  • the stop is a facility with a limited number of seats such as a movie theater or a restaurant
  • information indicating the congestion status corresponding to the congestion level for each facility stored in the store database 260 may be displayed. good.
  • a model parameter vector ⁇ in which the option having the highest selection probability matches the option selected by the user is equal to or greater than a certain value is similar to the user. It is regarded as a model parameter vector indicating the action taken.
  • FIG. 17 is a diagram illustrating clustering according to the second embodiment.
  • the user selects a series of action options three times, and the option with the highest selection probability is clustered from the model parameter vector ⁇ with a ratio of 60% or more matching the option selected by the user.
  • the action selection learning processing unit 270 extracts a set of model parameter vectors ⁇ in which the option having the highest selection probability matches the option selected by the user at least twice, and generates a cluster.
  • the behavior selection learning processing unit 270 generates a reference model (cluster C 0 ). Then, from the model parameter vector ⁇ included in the cluster C 0 , a set of model parameter vectors ⁇ with the highest selection probability of the option 1 is extracted as the cluster C 1 in the first selection.
  • the behavior selection learning processing unit 270 selects a set of model parameter vectors ⁇ having the highest selection probability of the option 2 in the cluster C 0 from the model parameter vector ⁇ included in the cluster C 0. Extract as 2 .
  • the behavior selection learning processing unit 270 clusters a set of model parameter vectors ⁇ having the highest selection probability of the option 3 in the behavior option of the third selection from the model parameter vector ⁇ included in the cluster C 0. It is extracted as C 3.
  • the action selection learning processing unit 270 selects a model parameter vector in which the option having the highest selection probability in the extracted cluster C 1 , cluster C 2 , and cluster C 3 matches the option selected by the user at least twice.
  • a set of ⁇ is extracted as an extracted reference model (cluster), and a model parameter vector ⁇ is calculated based on the extracted reference model.
  • the model parameter vector ⁇ can be updated.
  • model parameter vector similar to the model parameter vector ⁇ of the user is extracted by the above-described method, for example, the number of selections going back in the past is specified in advance. For example, when going back to the past 10 selections, in the past 10 selections, the number of times that the selection result of the user matches the option having the highest selection probability among the action options in each selection is 6 times.
  • the model parameter vector as described above may be extracted to generate a cluster.
  • FIG. 18 is a flowchart for explaining processing of the action selection learning device according to the second embodiment.
  • FIG. 18 shows details of the updating process of the model parameter vector of the user in the present embodiment.
  • the behavior selection learning processing unit 270 of the present embodiment generates a reference model by the reference model generation unit 274 and stores the reference model in the reference model storage unit 275 (step S1801).
  • the action selection learning processing unit 270 calculates a selection probability for each action option for each model parameter vector ⁇ included in the reference model in the selection history information for a predetermined number of times (step S1802).
  • the behavior selection learning processing unit 270 uses the clustering unit 278 to select a model parameter in which the ratio of the option having the highest selection probability in the selection history information for a predetermined number of times matches the selection result is equal to or greater than a predetermined value.
  • Vector ⁇ is extracted (step S1803).
  • the predetermined value at this time may be about 90%, for example, or may be set in advance.
  • the action selection learning processing unit 270 causes the clustering unit 278 to store the extracted set of model parameter vectors ⁇ in the reference model storage unit 275 as an extracted reference model (cluster) (step S1804).
  • the action selection learning processing unit 270 calculates the model parameter vector ⁇ of the user based on the model parameter vector ⁇ included in the extracted reference model (step S1805), and the process proceeds to step S1806.
  • step S1806 to step S1808 is the same as the processing from step S1210 to step S1212 in FIG.
  • the set of model parameter vectors ⁇ having a certain ratio or more of the selection result in the action options and the option having the highest selection probability is set as the extraction reference model.
  • the present invention is not limited to this. Not.
  • a set of model parameter vectors ⁇ having a probability that the selection result of the action option by the user N times in the past matches the option with the highest selection probability is equal to or higher than a threshold is used as an extraction reference model. Also good.
  • an extraction reference model is generated from a model parameter vector ⁇ satisfying the condition shown in the following formula (5) with the probability of selecting the same option as the user in the past N consecutive times, and the model parameter vector of the user is Update it.
  • P is a threshold value.
  • the third embodiment will be described below with reference to the drawings.
  • the third embodiment is different from the first embodiment in that when the action options are presented, the user only browses the presented action options and does not perform the selection operation. To do. Therefore, in the following description of the third embodiment, only differences from the first embodiment will be described, and those having the same functional configuration as the first embodiment will be described for the first embodiment.
  • FIG. 19 is a diagram for explaining the function of each device included in the action selection learning system of the third embodiment.
  • the action selection learning system 100A of this embodiment includes an action selection learning device 200A and a terminal device 300.
  • the behavior selection learning device 200A of the present embodiment includes a behavior selection learning processing unit 270A.
  • the behavior selection learning processing unit 270A of the present embodiment includes a selection behavior estimation unit 282 in addition to the units included in the behavior selection learning processing unit 270 of the first embodiment.
  • the selection behavior estimation unit 282 of the present embodiment estimates the behavior option selected by the user of the terminal device 300 based on the location information received by the location information reception unit 281 from the terminal device 300. For example, the behavior selection learning processing unit 270A considers a case where the terminal device 300 is presented with three behavior options using a bus, a behavior option using a railroad, and a behavior option using a taxi. In this case, even if the action selection learning processing unit 270 does not receive the selection result, it can be estimated that the action option is selected when the location indicated by the position information of the terminal device 300 is near the bus stop.
  • FIG. 20 is a flowchart for explaining processing of the action selection learning device according to the third embodiment.
  • step S2001 to step S2003 in FIG. 20 is the same as the processing from step S1101 to step S1103 in FIG.
  • the option acquisition unit 273 of the behavior selection learning processing unit 270A determines whether or not the selection result has been received within a predetermined time after transmitting the behavior option (step S2004).
  • step S2004 when the selection result is not received within the predetermined time, the action selection learning processing unit 270 is selected by the selection action estimating unit 282 in the terminal device 300 based on the position information received by the position information receiving unit 281.
  • the behavior is estimated (step S2005).
  • the selected behavior estimation unit 282 of the present embodiment may store the estimated behavior options in the selection result of the selection history database 220.
  • step S2004 when the selection result is received within the predetermined time, the action selection learning processing unit 270A proceeds to step S2006.
  • the processing in step S2006 is the same as the processing in step S1105 in FIG.
  • the present embodiment it is possible to estimate the action selected by the user of the terminal device 300 without performing an operation for the user to select an action option in the terminal device 300. Therefore, according to the present embodiment, even when the user of the terminal device 300 selects an action with reference to the presented action option, the action is reflected in the model parameter vector ⁇ for each user. be able to.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習装置である。

Description

行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム
 本発明は、行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システムに関する。
 近年では、インターネット等の発達により、様々な情報提供サービスが普及しており、情報提供サービスの利用者が、提供される情報を参照して行動する場面が増えつつある。
 例えば、従来では、情報提供サービスとして、公共の交通機関の乗換案内や運行状況、混雑状況等を示す情報を提供するサービスが知られている。また、従来では、利用者が滞在している場所の周辺にある飲食店のメニューや混雑状況等を示す情報を提供するサービスが知られている。
 さらに、従来では、利用者に提示される交通機関の組み合わせの選択に際し、利益又は効用の期待値に基づいて、利益の期待値又は効用の期待値が最大化される組み合わせを提示する技術が知られている。
特開2001-337967号公報 特開2014-104764号公報 特開2016-85734号公報
 上述した従来のサービスは、画一的な情報を不特定多数の利用者に提供するものであり、個々の利用者における選択肢の受け容れ易さ等については考慮されていない。
 また、要因に対する利益及び効用の期待値に基づき選択肢を提示する場合において、個々の利用者に対する選択肢の受け容れ易さを考慮するためには、要因に対する利益の期待値又は効用の期待値等を利用者毎にモデル化する必要がある。しかしながら、利用者毎にモデルを用意するためには、各利用者に対して様々な行動の選択肢を提示して選択させ、その結果に基づきパラメータを調整するという、膨大な時間と手間がかかる工程が必要であり、実現することは困難を極める。
 開示の技術は、利用者が受け容れ易い行動の選択肢を提示することを目的としている。
 開示の技術は、行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習装置である。
 上記各部は、上記各部を実現する各処理を手順としてコンピュータにより実行させる方法、プログラムを記憶したコンピュータ読み取り可能な記録媒体とすることもできる。
 利用者が受け容れ易い行動の選択肢を提示できる。
第一の実施形態の行動選択学習システムによる行動選択肢の提示について説明する図である。 第一の実施形態の行動選択学習システムのシステム構成の一例を示す図である。 第一の実施形態のハードウェア構成の一例を示す図である。 第一の実施形態の利用者データベースの一例を示す図である。 第一の実施形態の選択履歴データベースの一例を示す図である。 第一の実施形態の位置情報データベースの一例を示す図である。 第一の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。 第一の実施形態の参照モデルを説明する図である。 第一の実施形態の行動選択学習処理部による処理の概略を説明する図である。 第一の実施形態の端末装置の処理を説明するフローチャートである。 第一の実施形態の行動選択学習装置の処理を説明する第一のフローチャートである。 第一の実施形態の行動選択学習装置の処理を説明する第二のフローチャートである。 第一の実施形態の行動選択学習処理部の処理を説明する第一の図である。 第一の実施形態の行動選択学習処理部の処理を説明する第二の図である。 第一の実施形態の行動選択学習処理部の処理を説明する第三の図である。 第一の実施形態の端末装置に行動選択肢が表示された画面の例を示す図である。 第二の実施形態のクラスタリングについて説明する図である。 第二の実施形態の行動選択学習装置の処理を説明するフローチャートである。 第三の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。 第三の実施形態の行動選択学習装置の処理を説明するフローチャートである。
 (第一の実施形態)
 以下に図面を参照して第一の実施形態について説明する。図1は、第一の実施形態の行動選択学習システムによる行動選択肢の提示について説明する図である。
 本実施形態の行動選択学習システム100は、行動選択学習装置200と、端末装置300とを有する。
 本実施形態の行動選択学習装置200は、端末装置300から行動選択肢の提示要求を受け付けると、端末装置300の周辺の情報が蓄積されたデータベースを参照し、行動選択肢の候補を生成して端末装置300に表示させる。
 また、本実施形態の行動選択学習装置200では、端末装置300における行動選択肢の選択の履歴を用いて、利用者の行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを、利用者毎に生成する。そして、本実施形態の行動選択学習装置200は、端末装置300において、行動選択肢の選択を受け付ける度に、モデルパラメータベクトルを更新していく。
 より具体的には、本実施形態では、行動の選択により得られる満足度に影響を与える要因と、その影響度とを示す様々なパラメータを含む多数の参照モデルを生成し、利用者が行動選択肢を選択する度に、選択された行動選択肢に基づき参照モデルをクラスタリング(分割)していく。
 そして、本実施形態では、クラスタリングした後のパラメータ群に変化がなくなったとき、このパラメータ群に基づき、この利用者の行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを算出する。
 したがって、本実施形態によれば、利用者に対して様々な行動の選択肢を提示して選択させるといった煩雑な手順が不要となり、簡素な手順で利用者毎のモデルパラメータベクトルを生成できる。
 さらに、本実施形態の行動選択学習装置200は、行動選択肢の提示要求を受け付けると、提示要求を行った利用者のモデルパラメータベクトルに基づき、行動選択肢を生成するため、端末装置300の利用者にとって、受け容れ易い行動選択肢を提示できる。
 図1の例では、地点Aに端末装置300-1の利用者が滞在し、地点Bに端末装置300-2の利用者が滞在している。この場合、行動選択学習装置200は、端末装置300-1の現在地を示す位置情報から、端末装置300-1、300-2の周辺にある商業施設や公共の交通機関に関する情報を取得している。
 また、行動選択学習装置200は、端末装置300-1の利用者が行動選択肢の提示要求を行った場合、端末装置300-1の利用者と対応したモデルパラメータベクトルと端末装置300-1の周辺の情報から、行動選択肢を生成し、端末装置300-1に表示させる。図1の例では、端末装置300-1には、行動選択肢の1つとして、ショッピングセンタのタイムセールのクーポンが提示されている。
 これは、端末装置300-1の利用者のモデルパラメータベクトルによって、この利用者は、速く帰宅することに対する満足度よりも、クーポン券を使って買い物をすることに対する満足度の方が大きいことが示されたからである。
 したがって、この行動選択肢は、端末装置300-1の利用者にとって、受け容れ易い行動選択肢と言える。言い換えれば、端末装置300-1に提示された行動選択肢は、端末装置300-1の利用者に選択される可能性が高い行動選択肢と言える。
 また、本実施形態の行動選択学習装置200では、端末装置300-1において、「ショッピングセンタのタイムセールに向かう」という行動選択肢が選択されると、この選択結果を用いて、端末装置300-1の利用者のモデルパラメータベクトルを更新する。
 また、行動選択学習装置200は、端末装置300-2の利用者が、行動選択肢の提示要求を行った場合、端末装置300-2の利用者のモデルパラメータベクトルと端末装置300-2の周辺の情報から、行動選択肢を抽出し、端末装置300-2に表示させる。図1では、端末装置300-2には、行動選択肢の1つとして、待ち時間が5分未満であるタクシーに乗車して移動することが提示されている。
 これは、端末装置300-2の利用者のモデルパラメータベクトルによって、この利用者は、例えば、運賃が安い交通手段を利用することに対する満足度よりも、待ち時間が少なく速やかに移動することに対する満足度の方が大きいことが示されたからである。
 したがって、この行動選択肢は、端末装置300-2の利用者にとって、受け容れ易く、選択される可能性が高い行動選択肢と言える。
 本実施形態の行動選択学習装置200では、端末装置300-2において、「待ち時間が5分未満であるタクシーに乗車して移動する」という行動選択肢が選択されると、この選択結果を用いて、端末装置300-2の利用者のモデルパラメータベクトルを更新する。
 このように、本実施形態では、利用者が行動選択肢を選択する度に更新されるモデルパラメータベクトルに基づき、利用者に対して行動選択肢を提示するため、利用者が行動選択肢を選択する度に、提示した行動選択肢が利用者に選択される可能性を高めることができる。
 本実施形態では、このようなモデルパラメータベクトルを利用者毎に生成し、利用者毎のモデルパラメータベクトルを用いて利用者に行動選択肢を提示するため、利用者の行動を変化させる確率を高めることが可能となる。このため、本実施形態によれば、例えば、イベントの終了直後等のように、特定のエリアで混雑が発生した場合等においても、利用者の行動を変化させる確率を高めることができ、混雑の緩和に貢献することができる。
 以下に、本実施形態の行動選択学習システム100について説明する。図2は、第一の実施形態の行動選択学習システムのシステム構成の一例を示す図である。
 本実施形態の行動選択学習システム100は、行動選択学習装置200と、端末装置300と、を有する。行動選択学習システム100において、行動選択学習装置200と、端末装置300とは、ネットワークを介して接続されている。
 本実施形態の行動選択学習装置200は、利用者データベース210、選択履歴データベース220、位置情報データベース230、交通運行データベース240、イベントデータベース250、店舗データベース260、行動選択学習処理部270を有する。
 本実施形態の利用者データベース210は、利用者による行動選択肢毎の効用を算出する際に用いられる利用者毎のパラメータが格納されている。本実施形態では、後述する行動選択学習処理部270の処理により、利用者データベース210に格納されたパラメータを用いて、利用者毎の行動選択肢の効用が算出される。
 行動選択肢の効用とは、ミクロ経済学の分野で用いられる概念であり、行動選択肢を選択することで利用者が得られる満足度の水準を表す。利用者データベース210と、効用の算出の詳細は後述する。
 本実施形態の選択履歴データベース220は、行動選択学習処理部270が端末装置300から行動選択肢の提示要求を受けて、端末装置300に表示させた行動選択肢と、端末装置300において選択された選択結果の行動選択肢とが対応付けられて格納される。本実施形態の選択履歴データベース220は、行動選択学習処理部270による参照モデルのクラスタリングの際に参照される。選択履歴データベース220の詳細は後述する。
 本実施形態の位置情報データベース230は、端末装置300の位置を示す位置情報が、位置情報を取得した日時と対応付けられて格納される。位置情報データベース230の詳細は後述する。
 本実施形態の交通運行データベース240は、交通手段毎の運行に関する情報が格納されている。交通手段毎の運行に関する情報は、例えば、駅やバス停など乗降地点の位置、乗降地点を結ぶ路線の情報、路線間の乗換に関する情報を含む。また、交通手段毎の運行に関する情報は、運賃等の料金の関する情報や、各車両がどの乗降地点に何時に発着するかという時刻表情報、車両の乗車定員等を含む。
 本実施形態のイベントデータベース250は、各地域において開催されるイベントに関する情報が格納されている。イベントに関する情報とは、例えば、イベントの種類、イベントの開催日時と開催場所等である。尚、地域とは、例えば、端末装置300から取得される位置情報が示す位置の周辺の地域である。
 本実施形態の店舗データベース260は、各地域の店舗に関する情報が格納されている。店舗に関する情報とは、例えば、店舗の種類、営業時間、所在地等である。店舗の種類とは、例えば、飲食店、宝飾店、雑貨店、書店等であって良い。地域とは、例えば、端末装置300から取得される位置情報が示す位置の周辺の地域である。
 尚、図2の例では、各データベースが行動選択学習装置200に設けられるものとしたが、これに限定されない。特に、本実施形態の交通運行データベース240、イベントデータベース250、店舗データベース260等は、行動選択学習装置200の外部の記憶装置に設けられていても良い。
 本実施形態の行動選択学習処理部270は、端末装置300の利用者毎に、行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを生成する。また、本実施形態の行動選択学習処理部270は、端末装置300から行動選択肢の提示要求を受けると、端末装置300の利用者と対応するモデルパラメータベクトルに基づき、端末装置300に表示させる行動選択肢を生成する。行動選択学習処理部270の詳細は後述する。
 次に、図3を参照して、本実施形態の行動選択学習装置200のハードウェア構成について説明する。図3は、第一の実施形態のハードウェア構成の一例を示す図である。
 本実施形態の行動選択学習装置200は、それぞれバスBで相互に接続されている入力装置21、出力装置22、ドライブ装置23、補助記憶装置24、メモリ装置25、演算処理装置26及びインターフェース装置27を有する。
 入力装置21は、各種信号の入力と各種情報の表示をするために用いられる装置であり、例えばマウスやキーボード等である。出力装置22は、各種の情報を出力するために用いられる装置であり、例えばディスプレイ等である。
 インターフェース装置27は、モデム,LANカード等を含み、ネットワークに接続する為に用いられる。
 行動選択学習プログラムは、行動選択学習装置200を制御する各種プログラムの少なくとも一部である。行動選択学習プログラムは例えば記録媒体28の配布やネットワークからのダウンロードなどによって提供される。行動選択学習プログラムを記録した記録媒体28は、CD-ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的、電気的あるいは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
 また、行動選択学習プログラムを記録した記録媒体28がドライブ装置23にセットされると、行動選択学習プログラムは記録媒体28からドライブ装置23を介して補助記憶装置24にインストールされる。ネットワークからダウンロードされた行動選択学習プログラムは、インターフェース装置27を介して補助記憶装置24にインストールされる。
 補助記憶装置24は、インストールされた行動選択学習プログラムを格納すると共に、必要なファイル、データ等を格納する。メモリ装置25は、コンピュータの起動時に補助記憶装置24から行動選択学習プログラムを読み出して格納する。そして、演算処理装置26はメモリ装置25に格納された行動選択学習プログラムに従って、後述するような各種処理を実現している。
 尚、本実施形態の端末装置300は、一般的なタブレット型コンピュータや、スマートフォン等であり、そのハードウェア構成は、入力装置と出力装置の代わりに、表示操作装置を有する点以外は混雑マネジメント装置と同様であるため、説明を省略する。尚、端末装置300は、タブレット型コンピュータやスマートフォン以外の端末装置であっても良い。具体的には、端末装置300は、例えばノート型のコンピュータであっても良いし、一般的なデスクトップ型のコンピュータであっても良い。
 次に、本実施形態の行動選択学習装置200の有する各データベースについて説明する。
 図4は、第一の実施形態の利用者データベースの一例を示す図である。本実施形態の利用者データベース210は、情報の項目として、利用者ID、ASCRAIL、ASCBUS、ASCTAXI、β、βTT、βDT、βCG、βWTを有する。
 本実施形態の利用者データベース210において、項目「利用者ID」と、その他の項目の値とは対応付けられており、項目「利用者ID」と、その他の項目の値とを含む情報を、利用者情報と呼ぶ。また、本実施形態では、利用者情報において、利用者IDと対応付けられた各パラメータを、モデルパラメータベクトルと呼ぶ。
 尚、図4の利用者データベース210では、項目「利用者ID」と各パラメータと対応付けられるものとしたが、これに限定されない。利用者データベース210では、利用者IDに、各パラメータに加えて、利用者の氏名、年齢、性別等が対応付けられていても良い。
 項目「利用者ID」の値は、利用者を特定する識別情報である。尚、本実施形態の項目「利用者ID」の値は、例えば端末装置300が特定の利用者にのみ利用される場合等には、端末装置300を特定するための識別情報を利用者IDとしても良い。
 項目「ASCRAIL」の値は、鉄道Rを選択することによる、利用者の満足度の水準を示す。項目「ASCBUS」の値は、バスBを選択することによる、利用者の満足度の水準を示す。項目「ASCTAXI」の値は、タクシーTを選択することによる、利用者の満足度の水準を示す。
 項目「ASCRAIL」、「ASCBUS」、「ASCTAXI」それぞれの値は、行動選択肢毎に、固有に決められた定数である。
 項目「β」の値は、行動選択肢を選択したことにより発生する料金に対する重みを示す。言い換えれば、項目「β」の値は、利用者が行動選択肢を選択した際の満足度に対し、料金が寄与する程度を示す。
 項目「βTT」の値は、移動時間に対する重みを示す。言い換えれば、項目「βTT」の値は、利用者が行動選択肢を選択した際の満足度に対し、移動時間が寄与する程度を示す。
 項目「βDT」の値は、出発延長時間に対する重みを示す。出発延長時間とは、出発予定の時刻から、実際に移動を開始する時刻までの時間である。項目「βDT」の値は、言い換えれば、利用者が行動選択肢を選択した際の満足度に対し、出発予定の時刻から実際の出発が延長された延長時間が寄与する程度を示す。
 項目「βCG」の値は、選択した行動選択肢と対応する行動に対する混雑度に対する重みを示す。項目「βCG」の値は、利用者が行動選択肢を選択した際の満足度に対し、混雑度が寄与する程度を示す。混雑度とは、例えば選択した行動選択肢と対応する行動が、移動であった場合には、行動選択肢の混雑度を示す。また、混雑度とは、例えば選択した行動選択肢と対応する行動が、ショッピングであった場合には、ショッピングを行う店舗の混雑度を示す。つまり、本実施形態の混雑度は、行動選択肢と対応する行動を行った場合に遭遇する混雑度を示す。
 項目「βWT」の値は、待ち時間に対する重みを示す。待ち時間とは、行動の待ち状態になった時刻から、行動を開始する時刻までの時間である。また、待ち時間とは、例えば、行動選択肢がタクシーでの移動だった場合、待ち行列に並んでからタクシーに乗車するまでの時間である。もしくは、待ち時間とは、行動選択肢がレストランでの食事だった場合、待ち行列に並んでから入店するまでの時刻である。
 項目「βWT」の値は、言い換えれば、利用者が行動選択肢を選択した際の満足度に対し、行動を行うまでの待ち時間が寄与する程度を示す。具体的には、例えば、項目「βWT」の値は、移動を開始するまでの待ち時間に対する重みや、目的とする買い物を始めるまでの待ち時間に対する重み等を示す。
 図4では、利用者ID「001」の利用者は、重みを示す各項目のうち、項目「βCG」の値が最も小さい「-2」である。このことから、利用者ID「001」の利用者は、混雑を嫌う傾向がある利用者であることがわかる。
 尚、図4の例では、利用者IDと対応付けられたパラメータを、交通機関に関連するパラメータとして説明したが、これに限定されない。また、本実施形態では、例えば、行動選択肢毎に、固有に決められた定数として、例えば、店舗の種類(カテゴリ)毎の項目「ASC」を含んでいても良い。具体的には、例えば、飲食店については、店舗の料理の種類等に応じて、項目「ASC」の値が決められていても良い。また、例えば、店舗の種類(飲食店、家電店、書店等)に応じて、項目「ASC」の値が決められていても良い。
 このように、本実施形態では、モデルパラメータベクトルによって重みが付与される事柄を、利用者の行動の選択により得られる満足度に影響を与える要因とする。したがって、本実施形態では、利用者毎に、行動選択肢を選択することによる満足度に与える影響の度合いを、要因毎に示した値が、利用者のモデルパラメータベクトルである。つまり、図4の例では、利用者情報に含まれるモデルパラメータベクトルによって重みが付与される要因は、行動を選択したことにより発生する料金、移動時間、出発延長時間、混雑度、待ち時間を含む。
 次に、図5を参照して、本実施形態の選択履歴データベース220について説明する。図5は、第一の実施形態の選択履歴データベースの一例を示す図である。
 本実施形態の選択履歴データベース220では、端末装置300に提示された行動選択肢と、端末装置300において選択された行動選択肢とが対応付けられている。また、本実施形態の選択履歴データベース220は、利用者ID毎に設けられていても良い。
 図5では、利用者ID「001」の利用者の端末装置300に提示された行動選択肢と、利用者ID「001」の利用者の端末装置300において選択された行動選択肢とが対応付けられた例を示している。
 本実施形態の選択履歴データベース220は、情報の項目として、日時、行動選択肢、選択結果を有する。以下の説明では、選択履歴データベース220において、各項目の値を含む情報を、選択履歴情報と呼ぶ。
 項目「日時」の値は、行動選択肢が端末装置300から、選択結果を受信した日時を示す。項目「行動選択肢」は、端末装置300に提示された複数の行動選択肢を示す複数の項目「選択肢1」~「選択肢3」を含む。項目「選択結果」の値は、項目「行動選択肢」に含まれる項目「選択肢1」~「選択肢3」から、端末装置300において選択された行動選択肢を示す。
 図5の例では、利用者ID「001」の利用者は、2017/2/20の17:30に、端末装置300において提示された「バス/移動時間10分/座れる」、「鉄道/ラッシュ/遅延なし」、「タクシー/待ち時間5分未満」の3つの行動選択肢から、3つ目の行動選択肢「タクシー/待ち時間5分未満」を選択したことがわかる。
 尚、図5の例では、利用者ID「001」の利用者に対して提示された行動選択肢は、3つとしているが、これに限定されない。利用者に対して提示される行動選択肢の数は、任意の数であって良い。
 また、図5の例では、交通機関に関する選択肢が示されているが、本実施形態では、交通機関に関する行動選択肢以外にも、イベントデータベース250や店舗データベース260等に基づき様々な行動選択肢が提示される。
 次に、図6を参照して、位置情報データベース230について説明する。図6は、第一の実施形態の位置情報データベースの一例を示す図である。
 本実施形態の位置情報データベース230は、選択履歴データベース220と同様に、利用者ID毎に設けられる。図6では、利用者ID「001」の利用者の位置情報データベース230を示している。
 本実施形態の位置情報データベース230は、情報の項目として、日付、時刻、緯度、経度を含む。項目「日付」、「時刻」の値は、位置情報を取得した日付と時刻を示す。項目「緯度」、「経度」の値は、端末装置300の緯度と経度を示す。以下の説明では、項目「日付」、「時刻」、「緯度」、「経度」の値を含む情報を、位置情報と呼ぶ。
 次に、図7を参照して、本実施形態の行動選択学習システム100の有する各装置の機能について説明する。図7は、第一の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。
 はじめに、行動選択学習装置200の機能について説明する。本実施形態の行動選択学習システム100において、行動選択学習装置200は、行動選択学習処理部270を有する。本実施形態の行動選択学習処理部270は、行動選択学習装置200の演算処理装置26が、行動選択学習装置200にインストールされた行動選択学習プログラムを実行することにより実現される。
 本実施形態の行動選択学習処理部270は、要求受付部271、選択肢生成部272、選択肢取得部273、参照モデル生成部274、参照モデル記憶部275、選択確率算出部276、参照モデル選択決定部277、クラスタリング部278、モデルパラメータベクトル算出部279、妥当性判定部280、位置情報受信部281を有する。
 本実施形態の要求受付部271は、端末装置300から送信される提示要求等を受信する。提示要求には、利用者ID、行動日、希望する行動開始時刻又は希望する行動終了時刻、行動開始場所等の条件の指定を含む。また、本実施形態では、要求された行動選択肢が、例えば、交通機関による移動の仕方を示す行動選択肢である場合には、提示要求には、利用者ID、交通機関の利用日、希望する出発時刻又は希望する到着予定時刻、出発地及び目的地が含まれても良い。
 選択肢生成部272は、行動選択肢の提示要求を行った端末装置300と対応する利用者IDのモデルパラメータベクトルを用いて、行動選択肢を生成し、提示要求を行った端末装置300へ生成した行動選択肢を送信する。本実施形態の行動選択肢は、例えば、利用可能な交通手段などの移動行動、帰宅前に立ち寄れる周辺の店舗の情報などの購買行動の選択肢等が含まれる。
 選択肢取得部273は、端末装置300において提示された行動選択肢の中から、端末装置300において利用者により選択された行動選択肢を受信し、取得する。
 参照モデル生成部274は、モデルパラメータベクトルの集合である参照モデルを生成する。参照モデルの詳細は後述する。参照モデル記憶部275は、参照モデル生成部274が生成した参照モデルを記憶する。また、参照モデル記憶部275は、クラスタリング部278によりクラスタリング後の抽出参照モデルを記憶する。
 選択確率算出部276は、モデルパラメータベクトルに基づき、各行動選択肢の選択確率を算出する。より具体的には、選択確率算出部276は、参照モデルに含まれるモデルパラメータベクトル毎に、端末装置300に提示された各行動選択肢の選択確率を算出する。選択確率の算出の詳細は後述する。
 参照モデル選択決定部277は、モデルパラメータベクトル毎に、算出された各行動選択肢の選択確率に基づき、端末装置300に提示された行動選択肢の中から選択する行動選択肢を決定する。具体的には、参照モデル選択決定部277は、行動選択肢のうち、算出された選択確率が最も高い行動選択肢を、モデルパラメータベクトルにおいて選択される行動選択肢に決定する。
 クラスタリング部278は、参照モデル選択決定部277が選択した行動選択肢が、端末装置300の利用者が、端末装置300において選択した行動選択肢と一致するモデルパラメータベクトルを参照モデルから抽出し、抽出参照モデルを生成する。本実施形態では、抽出参照モデルは、参照モデルの一部(部分集合)であり、モデルパラメータベクトルの集合である。
 モデルパラメータベクトル算出部279は、抽出参照モデルから、端末装置300の利用者のモデルパラメータベクトルを算出し、算出したモデルパラメータベクトルを利用者情報として、利用者データベース210に格納する。本実施形態のモデルパラメータベクトルの算出の詳細は後述する。
 妥当性判定部280は、モデルパラメータベクトル算出部279により算出されたモデルパラメータベクトルが、妥当であるか否かの判定を行う。具体的には、妥当性判定部280は、算出されたモデルパラメータベクトルを用いて、端末装置300に提示された行動選択肢から最も選択確率が高くなる行動選択肢を算出する。そして、妥当性判定部280は、最も選択確率が高くなる行動選択肢が、端末装置300において利用者が選択した行動選択肢と一致した場合に、算出されたモデルパラメータベクトルを妥当と判定する。
 位置情報受信部281は、端末装置300から、端末装置300の位置情報を受信し、端末装置300毎に位置情報データベース230に格納する。
 次に、端末装置300の機能について説明する。本実施形態の端末装置300は、提示処理部310を有する。
 本実施形態の提示処理部310は、入力制御部311、出力制御部312、提示要求部313、提示受信部314、選択送信部315、GPS(Global Positioning System)部316を有する。これら各部は、端末装置300にインストールされたプログラムが、端末装置300の演算処理装置により実行されることで実現される。
 本実施形態の入力制御部311は、各種の情報の入力を受け付ける。出力制御部312は、各種の情報を出力する。具体的には、出力制御部312は、提示受信部314により受信した行動選択肢を表示操作装置等に表示させる。
 提示要求部313は、行動選択学習装置200に対して、行動選択肢の提示要求を行う。本実施形態の提示要求部313は、提示要求と共に、利用者ID、行動日、希望する行動開始時刻又は希望する行動終了時刻、行動開始場所等の条件を行動選択学習装置200に送信する。
 提示受信部314は、提示要求部313によって送信された提示要求に対する応答を受信する。具体的には、提示受信部314は、行動選択学習装置200から送信される行動選択肢を示す情報を受信する。
 選択送信部315は、提示受信部314によって受信された行動選択肢が、出力制御部312により表示操作装置に表示され、端末装置300の利用者により行動選択肢が選択されると、選択された行動選択肢を行動選択学習装置200へ送信する。具体的には、選択送信部315は、選択された行動選択肢を特定する情報を行動選択学習装置200へ送信しても良いし、選択された行動選択肢そのものを示す情報を行動選択学習装置200へ送信しても良い。
 GPS部316は、端末装置300が受信するGPS信号に基づいて、端末装置300の現在位置を示す位置情報を取得する。また、GPS部316は、取得した位置情報を行動選択学習装置200へ送信する。
 本実施形態の端末装置300では、要求送信部320において、出発地の代わりに、GPS部316により取得した位置情報を提示要求と共に行動選択学習装置200に送信しても良い。
 次に、本実施形態の選択確率算出部276による選択確率の算出の仕方について説明する。
 実施形態では、利用者による行動選択肢の選択は、以下の式(1)に示すような、多項ロジットモデル(Multinomial Logit Model, MNL)を用いて計算することができる。
Figure JPOXMLDOC01-appb-M000001
 上記の式において、Probは、ある行動選択肢の集合Aを提示した場合の、行動選択肢iの選択確率である。ここで、Viは、行動選択肢iの効用である。効用Viは、行動選択肢を選択することで得られる満足度の水準を表す。
 効用Viは、例えば、以下の式(2)で算出することができる。式中の各変数xは、効用に影響を与える要因であり、βは与える影響の度合いを表すモデルパラメータである。本実施形態では、複数のモデルパラメータを含むベクトルβを、モデルパラメータベクトルと呼ぶ。
Figure JPOXMLDOC01-appb-M000002
 例えば、行動選択肢のうち、移動する行動に関する効用Viは、以下の式(3)で算出することができる。
Figure JPOXMLDOC01-appb-M000003
 式(3)では、効用Viに影響を与える要因として、料金、旅行時間、出発延長時間、待ち時間、交通手段の混雑度が変数として含まれている。また、式(3)に示す効用Viには、交通手段に関する選択肢固有定数を含む。
 つまり、本実施形態では、要因毎に、行動選択肢を選択することで得られる満足度に対する影響の度合いを示したものが、モデルパラメータベクトルβである。
 本実施形態の利用者データベース210に格納された利用者毎の利用者情報において、利用者IDと対応付けられた各パラメータは、利用者毎のモデルパラメータベクトルβを示したものである(図4参照)。
 次に、図8を参照して、本実施形態の参照モデルについて説明する。図8は、第一の実施形態の参照モデルを説明する図である。
 本実施形態の参照モデル80は、モデルパラメータベクトルβに含まれる各パラメータの値を離散的に値に設定し、取り得る全ての組み合わせを求めたモデルパラメータベクトルβの集合である。
 図8に示す参照モデル80では、式(2)に示すβ、β、・・・、βを、β、βTT、βDT、βCG、βWTとし、各パラメータの値を変化させて、生成した例である。
 図8に示す参照モデル80では、例えば、モデルIDと、モデルパラメータベクトルβとが対応付けられていても良く、モデルIDと対応する1つのレコードが、1つのモデルパラメータベクトルβとなる。尚、図8には示していないが、選択肢固有定数ASCもモデルパラメータベクトルに含めても良い。
 次に、本実施形態の行動選択学習装置200及び端末装置300の処理の説明に先立ち、本実施形態の行動選択学習処理部270による処理の概略について説明する。
 図9は、第一の実施形態の行動選択学習処理部による処理の概略を説明する図である。尚、図9では、参照モデル80は既に生成された状態であるものとした。尚、図9に示す人形は、それぞれが異なるモデルパラメータベクトルを示している。
 図9において、行動選択学習処理部270は、端末装置300からの提示要求を受けると、この提示要求に基づき行動選択肢を生成し、端末装置300に送信する(ステップS901)。ここで送信された行動選択肢は、選択肢1~3の行動選択肢とした。
 端末装置300では、選択肢1~3が表示される。図9では、端末装置300の利用者Aにより、選択肢3が選択されたものとする。この場合、端末装置300は、選択肢3が選択されたことを行動選択学習処理部270へ通知する(ステップS902)。
 すると、行動選択学習処理部270は、参照モデル80に対し、選択肢1~3と選択結果を含む選択履歴情報を与え、参照モデル80に含まれるモデルパラメータベクトルβ毎に、選択肢1~3に対する選択確率を算出する(ステップS903)。
 そして、行動選択学習処理部270は、選択履歴情報に含まれる選択結果である選択肢3の選択確率が最も高くなるモデルパラメータベクトルβのクラスタ(集合)91を抽出する(ステップS904)。つまり、クラスタ91は、参照モデル80において、利用者Aと同じ選択肢を選択する確率が最も高くなるモデルパラメータベクトルβの集合である。
 また、行動選択学習処理部270は、選択肢1の選択確率が最も高くなるモデルパラメータベクトルβの集合と、選択肢2の選択確率が最も高くなるモデルパラメータベクトルβの集合と、を、利用者Aとは異なる選択を行うモデルとして分類する(ステップS905、906)。
 次に、行動選択学習処理部270は、クラスタ91に含まれるモデルパラメータベクトルβから、端末装置300の利用者Aのモデルパラメータベクトルを算出し、利用者データベース210の利用者Aと対応する利用者情報を更新する(ステップS907)。
 次に、行動選択学習処理部270は、次に端末装置300から行動選択肢の提示要求を受けると、ステップS907で更新した利用者情報(モデルパラメータベクトル)に基づき、行動選択肢(選択肢1~3)を生成し、端末装置300へ送信する(ステップS908)。
 ここで、端末装置300では、利用者Aにより、選択肢2が選択されたものとする。よって、端末装置300は、選択肢2が選択されたことを行動選択学習処理部270へ通知する(ステップS909)。
 行動選択学習処理部270は、前回の選択でクラスタリングされたクラスタ91に対し、選択肢1~3と選択結果を含む選択履歴情報を与え、クラスタ91に含まれるモデルパラメータベクトルβ毎に、選択肢1~3に対する選択確率を算出する(ステップS910)。
 そして、行動選択学習処理部270は、クラスタ91から、選択結果である選択肢2の選択確率が最も高くなるモデルパラメータベクトルβのクラスタ92を抽出する(ステップS911)。クラスタ92は、クラスタ91において、利用者Aと同じ選択肢を選択する確率が最も高くなるモデルパラメータベクトルβの集合である。
 また、行動選択学習処理部270は、選択肢1の選択確率が最も高くなるモデルパラメータベクトルβの集合と、選択肢3の選択確率が最も高くなるモデルパラメータベクトルβの集合とを、利用者Aとは異なる選択を行うモデルとして分類する(ステップS912、913)。
 次に、行動選択学習処理部270は、において、クラスタ92に含まれるモデルパラメータベクトルβから、端末装置300の利用者Aのモデルパラメータベクトルを算出し、利用者データベース210の利用者Aと対応する利用者情報を更新する(ステップS914)。
 本実施形態では、このようにして、参照モデル80から、選択確率が、利用者Aによる選択結果と一致するモデルパラメータベクトルβの集合を抽出する処理を繰り返す。そして、本実施形態では、選択履歴情報を与える前のクラスタと、選択履歴情報を与えた後のクラスタと、が一致したとき、このクラスタにより算出された利用者Aのモデルパラメータベクトルβを確定させる。つまり、利用者Aに対する、要因に対する利益の期待値又は効用の期待値のモデル化が完了する。
 以下に、図10乃至図12を参照して、本実施形態の行動選択学習システム100の各装置の処理を説明する。はじめに、図10を参照して、端末装置300の処理について説明する。
 図10は、第一の実施形態の端末装置の処理を説明するフローチャートである。本実施形態の端末装置300は、入力制御部311により、端末装置300の利用者からの行動選択肢の提示要求の入力を受け付ける(ステップS1001)。尚、このとき、入力制御部311は、提示要求と共に、利用者ID、交通機関の利用日、希望する出発時刻又は希望する到着予定時刻、出発地及び目的地等の入力を受け付けても良い。
 続いて、端末装置300は、提示要求部313により、入力された提示要求を行動選択学習装置200へ送信する(ステップS1002)。
 次に、端末装置300は、提示受信部314により、行動選択学習装置200から行動選択肢を受信し、出力制御部312により、行動選択肢を端末装置300の表示操作装置に表示させる(ステップS1003)。
 続いて、端末装置300は、入力制御部311により、行動選択肢に対する選択を受け付けると、選択送信部315により、選択された行動選択肢を行動選択学習装置200に送信し(ステップS1004)、処理を終了する。尚、選択送信部315は、選択された行動選択肢を示す情報を行動選択学習装置200に送信しても良いし、選択された行動選択肢を特定する識別子等の情報を行動選択学習装置200に送信しても良い。
 次に、図11を参照して、本実施形態の行動選択学習装置200の処理を説明する。図11は、第一の実施形態の行動選択学習装置の処理を説明する第一のフローチャートである。
 本実施形態の行動選択学習装置200の行動選択学習処理部270は、要求受付部271により、端末装置300からの行動選択肢の提示要求を受け付ける(ステップS1201)。
 続いて、行動選択学習処理部270は、選択肢生成部272により、行動選択肢を生成する(ステップS1102)。具体的には、選択肢生成部272は、提示要求と共に受け付けた交通機関の利用日、希望する出発時刻又は希望する到着予定時刻、出発地及び目的地等に基づき、利用者データベース210の利用者情報と、交通運行データベース240、イベントデータベース250、店舗データベース260等を参照して、行動選択肢を生成しても良い。
 次に、行動選択学習処理部270は、選択肢生成部272により、生成した行動選択肢を端末装置300に送信する(ステップS1103)。尚、ここで生成した行動選択肢は、提示要求を行った端末装置300の利用者IDと対応付けられた選択履歴情報として、選択履歴データベース220に格納される。
 続いて、行動選択学習処理部270は、選択肢取得部273により、端末装置300において選択された行動選択肢を受信する。そして、選択肢取得部273は、受信した行動選択肢を、ステップS1103で送信した行動選択肢に対する選択結果として、この行動選択肢と対応付けて選択履歴データベース220に格納する(ステップS1104)。
 次に、行動選択学習処理部270は、利用者のモデルパラメータベクトルの更新処理を行い(ステップS1105)、処理を終了する。
 次に、図12を参照して、利用者のモデルパラメータベクトルの更新処理について説明する。図12は、第一の実施形態の行動選択学習装置の処理を説明する第二のフローチャートである。図12では、図11のステップS1105に示す利用者のモデルパラメータベクトルの更新処理の詳細を示している。
 本実施形態の行動選択学習処理部270は、利用者のモデルパラメータベクトルの更新が必要か否かを判定する(ステップS1201)。具体的には、行動選択学習処理部270は、前回の行動選択肢の提示の際に、利用者のモデルパラメータベクトルの更新が行われていない場合には、モデルパラメータベクトルの更新が不要であると判定しても良い。
 尚、モデルパラメータベクトルが更新されたか否かを示す情報は、例えば、利用者データベース210や、選択履歴データベース220等において保持されていても良い。
 ステップS1201において、モデルパラメータベクトルの更新が不要と判定された場合、行動選択学習処理部270は、処理を終了する。
 ステップS1201において、モデルパラメータベクトルの更新が必要と判定された場合、行動選択学習処理部270は、参照モデル記憶部275に参照モデルが記憶されているか否かを判定する(ステップS1202)。
 本実施形態において、参照モデル記憶部275に参照モデルが記憶されていない場合とは、行動選択学習装置200が端末装置300において選択された行動選択肢を受信した回数をiとした場合に、i=1の場合である。言い換えれば、参照モデルが記憶されていない場合とは、行動選択学習装置200が初めて、端末装置300から、端末装置300において選択された行動選択肢を受信したときである。
 ステップS1202において、参照モデルが記憶されていない場合、参照モデル生成部274は、クラスタC(参照モデル)を生成し、参照モデル記憶部275に記憶させる(ステップS1203)。
 ステップS1202において、参照モデルが記憶されている場合、行動選択学習処理部270は、選択確率算出部276により、前回生成された参照モデル(クラスタCi-1)に含まれるモデルパラメータベクトルβ毎に、行動選択肢毎の選択確率を算出する(ステップS1204)。
 ここで、選択確率が算出される行動選択肢とは、ステップS1103において選択履歴データベース220に格納された行動選択肢である。言い換えれば、選択確率が算出される行動選択肢とは、端末装置300に提示された全ての行動選択肢である。また、このとき、参照モデル記憶部275に記憶されている参照モデルは、前回の行動選択肢の提示の際においてクラスタリング部278によるクラスタリングされた抽出参照モデルである。
 続いて、行動選択学習処理部270は、参照モデル選択決定部277により、モデルパラメータベクトルβ毎に、行動選択肢において、最も選択確率の高い行動選択肢を、選択する行動選択肢に決定する(ステップS1205)。
 続いて、行動選択学習処理部270は、クラスタリング部278により、端末装置300において利用者が選択した行動選択肢の選択確率が最も高いモデルパラメータベクトルβを抽出する(ステップS1206)。言い換えれば、クラスタリング部278は、参照モデル選択決定部277により決定された行動選択肢が、端末装置300から受信した選択結果の行動選択肢と一致するモデルパラメータベクトルβを抽出する。
 続いて、行動選択学習処理部270は、参照モデル記憶部275により、クラスタリング部278により抽出されたモデルパラメータベクトルβの集合を、クラスタC(参照モデル)として保持する(ステップS1207)。クラスタCは、クラスタCに含まれる部分集合である。
 次に、行動選択学習処理部270は、クラスタリング部278により、ステップS1206で抽出したクラスタCと、クラスタCi-1とが一致するか否かを判定する(ステップS1208)。
 ステップS1208において、両者が一致する場合、クラスタCは、端末装置300の利用者のモデルパラメータベクトルβと類似していることを示すため、行動選択学習処理部270は、処理を終了する。
 ステップS1208において、両者が一致しない場合、行動選択学習処理部270は、モデルパラメータベクトル算出部279により、クラスタCに基づき、利用者のモデルパラメータベクトルβを算出する(ステップS1209)。尚、モデルパラメータベクトル算出部279による利用者のモデルパラメータベクトルβの算出の詳細は後述する。
 続いて、行動選択学習処理部270は、妥当性判定部280により、ステップS1209で算出した利用者のモデルパラメータベクトルβが妥当であるか否かを判定する(ステップS1210)。
 具体的には、妥当性判定部280は、算出された利用者のモデルパラメータベクトルβを用いて、端末装置300に提示した行動選択肢毎の選択確率を算出し、選択確率が最も高い行動選択肢が、選択結果の行動選択肢と一致するか否かを判定している。
 行動選択学習処理部270は、妥当性判定部280により、算出されたモデルパラメータベクトルβが妥当でないと判定された場合(ステップS1211)、つまり、選択確率が最も高い行動選択肢が、選択結果の行動選択肢と一致しない場合、そのまま処理を終了する。
 また、行動選択学習処理部270は、ステップS1211において、算出されたモデルパラメータベクトルβが妥当と判定された場合、つまり、選択確率が最も高い行動選択肢が、選択結果の行動選択肢と一致する場合、利用者のモデルパラメータベクトルを更新すし(ステップS1212)、処理を終了する。具体的には、行動選択学習処理部270は、利用者データベース210における端末装置300の利用者IDと対応する各パラメータの値を、算出されたモデルパラメータベクトルβに含まれる各パラメータの値に書き換える。
 以下に、図13乃至図15を参照して、本実施形態の行動選択学習処理部270の処理について、さらに説明する。
 尚、図13乃至図15では、説明の便宜上、モデルパラメータベクトルβに含まれるパラメータをβ、βの2つとして説明する。
 図13は、第一の実施形態の行動選択学習処理部の処理を説明する第一の図である。図14は、第一の実施形態の行動選択学習処理部の処理を説明する第二の図である。図13の例では、行動選択学習処理部270が初めて端末装置300から選択結果の行動選択肢を受信した場合と、2回目に端末装置300から選択結果を受信した場合と、を示している。図14の例では、行動選択学習処理部270が3回目の選択結果を受信した結果、利用者のモデルパラメータベクトルの更新が不要となった場合を示している。
 行動選択学習処理部270は、初めて端末装置300から選択結果を受信した場合は、参照モデルとして、クラスタCを生成する。そして、行動選択学習処理部270は、クラスタCに、1回目の選択履歴情報を与える。
 ここでは、端末装置300の利用者Aは、提示された行動選択肢の中から、選択肢1を選択したものとして説明する。
 この場合、行動選択学習処理部270は、クラスタCに含まれる各モデルパラメータベクトルβについて、選択肢1の選択確率が最も高くなるモデルパラメータベクトルβの集合を抽出し、クラスタCとする。図13の例では、利用者データベース210に格納されている利用者Aのモデルパラメータベクトルβ (0)を含むクラスタCが生成される。このクラスタCは、参照モデル記憶部275により記憶される。
 また、このとき、クラスタCとクラスタCとは、一致しないため、行動選択学習処理部270は、モデルパラメータベクトル算出部279により、モデルパラメータベクトルβ (0)を、クラスタCに基づき算出されたモデルパラメータベクトルβ (1)に更新する。
 ここで、本実施形態のモデルパラメータベクトル算出部279による、利用者Aのモデルパラメータベクトルβの算出について説明する。
 本実施形態のモデルパラメータベクトル算出部279は、以下の式(4)により、利用者Aのモデルパラメータベクトルβを算出する。ここで算出される利用者Aのモデルパラメータベクトルβは、クラスタCに含まれるモデルパラメータベクトルβの各パラメータの平均を、選択確率に基づき重み付けをした値である。
Figure JPOXMLDOC01-appb-M000004
 尚、式(4)において、利用者Aのモデルパラメータベクトルβに含まれるパラメータは、β1、A、β2、Aである。また、式(4)において、Cは、クラスタである。
 また、式(4)において、piは、参照モデル又は抽出参照モデルに含まれるi番目のモデルパラメータベクトルβに基づき算出された、利用者と同じ行動選択肢の選択確率のうち、最も高い選択確率の値を示す。
 次に、行動選択学習処理部270は、端末装置300から、提示された行動選択肢のうちの選択肢4を選択結果として受信する。
 この場合、行動選択学習処理部270は、選択結果である選択肢4と、提示された行動選択肢と、を含む2回目の選択履歴情報をクラスタCに与える。
 すると、行動選択学習処理部270は、クラスタCに含まれる各モデルパラメータベクトルβについて、選択肢4の選択確率が最も高くなるモデルパラメータベクトルβの集合を抽出し、クラスタCとする。図13の例では、利用者Aのモデルパラメータベクトルβ (1)を含むクラスタCが生成される。このクラスタCは、参照モデル記憶部275により記憶される。
 また、このとき、クラスタCとクラスタCとは一致しないため、行動選択学習処理部270は、モデルパラメータベクトル算出部279により、モデルパラメータベクトルβ (1)をクラスタCに基づき算出されたモデルパラメータベクトルβ (2)に更新する。
 次に、図14を参照する。
 行動選択学習処理部270は、3回目の行動選択肢の提示において、端末装置300から、提示された行動選択肢のうちの選択肢10を選択結果として受信する。
 この場合、行動選択学習処理部270は、選択結果である選択肢10と、提示された行動選択肢と、を含む3回目の選択履歴情報をクラスタCに与える。
 すると、行動選択学習処理部270は、クラスタCに含まれる各モデルパラメータベクトルβについて、選択肢10の選択確率が最も高くなるモデルパラメータベクトルβの集合を抽出し、クラスタCとする。図14の例では、利用者Aのモデルパラメータベクトルβ (2)を含むクラスタCが生成される。このクラスタCは、参照モデル記憶部275により記憶される。
 ここで、図14の例では、クラスタCとクラスタCとは一致する。したがって、行動選択学習処理部270は、モデルパラメータベクトルβ (2)を更新せず、このモデルパラメータベクトルβ (2)に含まれる各パラメータの値を、利用者データベース210に格納する。
 図15は、第一の実施形態の行動選択学習処理部の処理を説明する第三の図である。図15では、妥当性判定部280による判定により、モデルパラメータベクトル算出部279により算出された利用者Aのモデルパラメータベクトルβが、妥当ではない、判定される場合について示している。
 図15において、初めて端末装置300から選択結果を受信した場合は、参照モデルとして、クラスタCを生成する。そして、行動選択学習処理部270は、クラスタCに、1回目の選択履歴情報を与える。この選択履歴情報に含まれる選択結果は選択肢3である。
 この場合、行動選択学習処理部270は、クラスタCに含まれる各モデルパラメータベクトルβについて、選択肢3の選択確率が最も高くなるモデルパラメータベクトルβを抽出し、クラスタC1Aとする。また、行動選択学習処理部270は、クラスタC1Aを用いて、利用者Aのモデルパラメータベクトルβ (3)が算出される。
 このとき、本実施形態では、モデルパラメータベクトルβ (3)に基づき、クラスタCに与えた選択履歴情報に含まれる行動選択肢のうち、選択確率が最も高くなる選択肢を求め、利用者Aの選択結果と、一致するか否かを判定する。図15の場合、両者が一致しないため、行動選択学習処理部270は、利用者データベース210をモデルパラメータベクトルβ (3)により更新せずに、処理を終了する。
 本実施形態では、以上のようにして、端末装置300の利用者毎に、利用者による行動選択肢の選択履歴に基づきの利用者の行動の選択により得られる満足度に影響を与える要因と、その影響度とを示すモデルパラメータベクトルを生成する。そして、本実施形態では、利用者毎のモデルパラメータベクトルに基づき、行動選択肢を生成し、利用者に提示する。したがって、本実施形態によれば、簡素な手順で利用者が受け容れ易い行動の選択肢を提示することができる。
 尚、本実施形態の選択肢生成部272は、端末装置300から行動選択肢の提示要求を受け付けると、交通運行データベース240、イベントデータベース250、店舗データベース260等から取り得る行動選択肢を生成する。そして、選択肢生成部272は、生成された行動選択肢について、利用者のモデルパラメータベクトルβに基づき選択確率を算出し、選択確率が高い順に、利用者に提示する行動選択肢を選択し、端末装置300へ送信しても良い、
 本実施形態では、このとき参照されるモデルパラメータベクトルβが、利用者個々のものであるため、利用者に取って受け容れ易い行動選択肢を提示することができ、個々の利用者の行動を変化させる可能性を高めることができる。
 次に、図16を参照して、行動選択肢が端末装置300に表示された例について説明する。図16は、第一の実施形態の端末装置に行動選択肢が表示された画面の例を示す図である。
 図16に示す画面301は、表示欄304と表示欄305を有し、行動選択肢として、時間帯毎の移動手段と店舗の組合せが表示されている。
 画面301では、表示欄304には、行動選択肢として、移動手段nと時間帯lの組合せが表示される。また、画面301では、表示欄305には、行動選択肢として、移動手段nと時間帯lの組合せに対応付けられた店舗の情報が表示されている。
 図16の例では、表示欄304において、「乗り場Aから、タクシーTで17:30~17:44に移動」という組合せが利用者により選択された場合を示している。この場合、表示欄305には、この組合せと対応付けられた店舗の店舗情報307が表示される。
 店舗情報307は、例えば店舗データベース260において、該当する店舗のクーポン有無が「有」の場合は、クーポンが表示される画面のURL(Uniform Resource Locator)が含まれても良い。また、店舗情報307には、該当する店舗のホームページのURLが表示されていても良い。
 図16の例では、店舗情報307において、クーポンボタン307aが操作されると、クーポンが画面301に表示されても良い。また、図16の例では、店舗情報307において、詳細ボタン307bが操作されると、店舗Kのホームページが画面301に表示されても良い。
 尚、図16の例では、移動手段の混雑状況を示す情報が表示され、店舗の混雑状況を示す情報については表示されないものとしたが、これに限定されない。例えば立ち寄り先が映画館や飲食店等の座席数に制限がある施設である場合には、店舗データベース260に格納された施設毎の混雑度レベルに応じた混雑状況を示す情報を表示させても良い。
 (第二の実施形態)
 以下に図面を参照して、第二の実施形態について説明する。第二の実施形態は、行動選択学習処理部270におけるクラスタリングの方法が第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
 本実施形態では、利用者による一連の行動選択肢の選択において、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と一致する割合が一定以上であるモデルパラメータベクトルβを、利用者と類似した行動を示すモデルパラメータベクトルと見なす。
 以下に、図17を参照して、本実施形態のクラスタリング部278によるクラスタリングについて説明する。図17は、第二の実施形態のクラスタリングについて説明する図である。
 尚、図17では、利用者による一連の行動選択肢の選択を3回とし、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と一致する割合が6割以上のモデルパラメータベクトルβからクラスタを生成する例を示す。
 図17において、1回目の行動選択肢の提示において、利用者が行動選択肢のうち、選択肢1が選択され、2回目の行動選択肢の提示において、利用者が行動選択肢のうち、選択肢2が選択され、3回目の行動選択肢の提示において、利用者が行動選択肢のうち、選択肢3が選択されたとする。
 この場合、行動選択学習処理部270は、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と2回以上一致するモデルパラメータベクトルβの集合を抽出し、クラスタを生成する。
 例えば、行動選択学習処理部270は、参照モデル(クラスタC)を生成する。そして、クラスタCに含まれるモデルパラメータベクトルβから、1回目の選択において、選択肢1の選択確率が最も高くなるモデルパラメータベクトルβの集合をクラスタCとして抽出する。
 次に、行動選択学習処理部270は、クラスタCに含まれるモデルパラメータベクトルβから、2回目の選択の行動選択肢において、選択肢2の選択確率が最も高くなるモデルパラメータベクトルβの集合をクラスタCとして抽出する。
 同様にして、行動選択学習処理部270は、クラスタCに含まれるモデルパラメータベクトルβから、3回目の選択の行動選択肢において、選択肢3の選択確率が最も高くなるモデルパラメータベクトルβの集合をクラスタCとして抽出する。
 そして、行動選択学習処理部270は、抽出されたクラスタC、クラスタC、クラスタCにおいて、選択確率が最も高くなる選択肢が、利用者の選択した選択肢と2回以上一致するモデルパラメータベクトルβの集合を抽出参照モデル(クラスタ)として抽出し、抽出参照モデルに基づき、モデルパラメータベクトルβを算出する。
 本実施形態では、このようにして、利用者のモデルパラメータベクトルβの算出の元となるクラスタを生成することで、利用者のモデルパラメータベクトルβと類似したモデルパラメータベクトルを含めて、利用者のモデルパラメータベクトルβを更新できる。
 尚、上述した方法により、利用者のモデルパラメータベクトルβと類似したモデルパラメータベクトルを抽出する場合、例えば、過去に遡る選択の回数が予め指定されているものとした。例えば、過去10回の選択について遡る場合には、過去10回の選択において、利用者の選択結果と、各選択における行動選択肢のうち、選択確率が最も高くなる選択肢とが一致する回数が6回以上となるモデルパラメータベクトルを抽出し、クラスタを生成すれば良い。
 以下に、図18を参照して、本実施形態における行動選択学習処理部270の処理について説明する。図18は、第二の実施形態の行動選択学習装置の処理を説明するフローチャートである。図18では、本実施形態における利用者のモデルパラメータベクトルの更新処理の詳細を示している。
 本実施形態の行動選択学習処理部270は、参照モデル生成部274により、参照モデルを生成し、参照モデル記憶部275に記憶させる(ステップS1801)。
 続いて、行動選択学習処理部270は、所定回数分の選択履歴情報において、各行動選択肢について、参照モデルに含まれるモデルパラメータベクトルβ毎に、選択確率を算出する(ステップS1802)。
 続いて、行動選択学習処理部270は、クラスタリング部278により、所定回数分の選択履歴情報において、選択確率が最も高くなる選択肢が、選択結果と一致する割合が、所定の値以上であるモデルパラメータベクトルβを抽出する(ステップS1803)。このときの所定の値は、例えば、9割程度であっても良く、予め設定されていても良い。
 続いて、行動選択学習処理部270は、クラスタリング部278により、抽出したモデルパラメータベクトルβの集合を、抽出参照モデル(クラスタ)として参照モデル記憶部275に記憶させね(ステップS1804)。
 次に、行動選択学習処理部270は、抽出参照モデルに含まれるモデルパラメータベクトルβに基づき、利用者のモデルパラメータベクトルβを算出し(ステップS1805)、ステップS1806へ進む。
 ステップS1806からステップS1808の処理は、図12のステップS1210からステップS1212の処理と同様であるから、説明を省略する。
 尚、本実施形態では、行動選択肢における選択結果と、選択確率が最も高くなる選択肢とが一致する割合が一定以上のモデルパラメータベクトルβの集合を抽出参照モデルとするものとしたが、これに限定されない。
 本実施形態では、例えば、過去N回の利用者による行動選択肢の選択結果と、選択確率が最も高くなる選択肢と、が一致する確率が閾値以上のモデルパラメータベクトルβの集合を、抽出参照モデルとしても良い。
 ここで、例えば、利用者が過去k回目の選択において選択しただ選択肢をiであった場合、選択肢iの選択確率をProbikとする。この場合、過去N回連続で利用者と同じ選択肢を選択する確率が、以下の式(5)に示す条件を満たすモデルパラメータベクトルβから、抽出参照モデルを生成し、利用者のモデルパラメータベクトルを更新すれば良い。尚、Pは閾値である。
Figure JPOXMLDOC01-appb-M000005
 (第三の実施形態)
 以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、行動選択肢が提示された際に、利用者が提示された行動選択肢を閲覧するのみで、選択する操作を行わない場合を考慮した点が、第一の実施形態と相違する。よって、以下の第三の実施形態の説明では、第一の実施形態との相違点についてのみ説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
 図19は、第三の実施形態の行動選択学習システムの有する各装置の機能について説明する図である。
 本実施形態の行動選択学習システム100Aは、行動選択学習装置200Aと、端末装置300と、有する。本実施形態の行動選択学習装置200Aは、行動選択学習処理部270Aを有する。
 本実施形態の行動選択学習処理部270Aは、第一の実施形態の行動選択学習処理部270の有する各部に加え、選択行動推定部282を有する。
 本実施形態の選択行動推定部282は、位置情報受信部281が端末装置300から受信する位置情報に基づき、端末装置300の利用者が選択した行動選択肢を推定する。例えば、行動選択学習処理部270Aは、端末装置300に対して、バスを用いる行動選択肢、鉄道を用いる行動選択肢、タクシーを用いる行動選択肢の3つを提示した場合について考える。この場合、行動選択学習処理部270は、選択結果を受信しなくても、端末装置300の位置情報が示す場所がバス停の近辺である場合には、行動選択肢が選択されたものと推定できる。
 以下に、図20を参照して、本実施形態の行動選択学習装置200Aの処理について説明する。図20は、第三の実施形態の行動選択学習装置の処理を説明するフローチャートである。
 図20のステップS2001からステップS2003の処理は、図11のステップS1101からステップS1103までの処理と同様であるから、説明を省略する。
 行動選択学習処理部270Aの選択肢取得部273は、行動選択肢を送信してから、所定時間内に選択結果を受信したか否かを判定する(ステップS2004)。
 ステップS2004において、所定時間内に選択結果を受信しない場合、行動選択学習処理部270は、位置情報受信部281が受信した位置情報に基づき、選択行動推定部282により、端末装置300において選択された行動を推定する(ステップS2005)。このとき、本実施形態の選択行動推定部282は、推定した結果の行動選択肢を、選択履歴データベース220の選択結果に格納しても良い。
 ステップS2004において、所定時間内に選択結果を受信した場合、行動選択学習処理部270Aは、ステップS2006へ進む。ステップS2006の処理は、図11のステップS1105の処理と同様であるから、説明を省略する。
 以上のように、本実施形態によれば、端末装置300において、利用者が行動選択肢を選択する操作を行わなくても、端末装置300の利用者が選択した行動を推定することができる。したがって、本実施形態によれば、端末装置300の利用者が、提示された行動選択肢を参照して行動を選択した場合であっても、利用者毎のモデルパラメータベクトルβにその行動を反映させることができる。
 本発明は、具体的に開示された実施形態に限定されるものではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。
 100、100A 行動選択学習システム
 200、200A 行動選択学習装置
 210 利用者データベース
 220 選択履歴データベース
 230 位置情報データベース
 240 交通運行データベース
 250 イベントデータベース
 260 店舗データベース
 270、270A 行動選択学習処理部
 271 要求受付部
 272 選択肢生成部
 273 選択肢取得部
 274 参照モデル生成部
 275 参照モデル記憶部
 276 選択確率算出部
 277 参照モデル選択決定部
 278 クラスタリング部
 279 モデルパラメータベクトル算出部
 280 妥当性判定部
 281 位置情報受信部
 282 選択行動推定部
 300 端末装置
 310 提示処理部

Claims (13)

  1.  行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、
     前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、
     前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、
     前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習装置。
  2.  前記行動選択肢毎の選択確率が最も高い行動選択肢を、前記モデルパラメータベクトルにおいて選択される行動選択肢とする選択決定部を有する請求項1記載の行動選択学習装置。
  3.  前記参照モデルから前記部分集合を抽出するクラスタリング部を有し、
     前記クラスタリング部は、
     前記行動選択肢毎の選択確率が最も高い行動選択肢が、前記利用者により選択された行動選択肢と一致する前記モデルパラメータベクトルを抽出する、請求項2記載の行動選択学習装置。
  4.  前記クラスタリング部は、
     前記行動選択肢毎の選択確率が最も高い行動選択肢が、前記利用者により選択された行動選択肢と一致した割合が、所定の割合以上の前記モデルパラメータベクトルを抽出する、請求項3記載の行動選択学習装置。
  5.  前記クラスタリング部は、
     前記行動選択肢毎の選択確率が最も高い行動選択肢が、前記利用者により選択された行動選択肢と一致する確率が、所定の確率以上の前記モデルパラメータベクトルを抽出する、請求項3又は4記載の行動選択学習装置。
  6.  前記モデルパラメータベクトル算出部は、
     前記部分集合に含まれるモデルパラメータベクトルそれぞれについて算出された、行動選択肢毎の選択確率に基づき算出される、請求項1乃至5の何れか一項に記載の行動選択学習装置。
  7.  前記端末装置において選択された行動選択肢を取得する選択肢取得部と、
     前記選択肢生成部により生成された行動選択肢と、前記選択肢取得部により取得された行動選択肢と、を対応付けた選択履歴情報を格納する選択履歴記憶部と、を有する請求項1乃至6の何れか一項に記載の行動選択学習装置。
  8.  前記端末装置の位置情報を受信する位置情報受信部と、
     前記位置情報に基づき、前記端末装置の利用者が選択した行動選択肢を推定する選択行動推定部と、を有し、
     前記選択行動推定部により推定された行動選択肢が、前記選択肢生成部により生成された行動選択肢と対応付けられて前記選択履歴記憶部に格納される、請求項7記載の行動選択学習装置。
  9.  前記利用者毎のモデルパラメータベクトルが格納された利用者情報記憶部と、
     前記利用者情報記憶部に格納された前記利用者毎のモデルパラメータベクトルを、前記モデルパラメータベクトル算出部により算出された利用者毎のモデルパラメータベクトルに更新するか否かを判定する妥当性判定部と、を有し、
     前記妥当性判定部は、
     前記モデルパラメータベクトル算出部により算出された利用者毎のモデルパラメータベクトルについて算出された行動選択肢毎の選択確率のうち、最も選択確率が高い行動選択肢と、前記選択履歴が示す行動選択肢とが一致する場合に、前記利用者情報記憶部に格納された前記利用者毎のモデルパラメータベクトルを更新する、と判定する、請求項1乃至8の何れか一項に記載の行動選択学習装置。
  10.  前記行動選択肢の選択に影響を与える要因は、利用者が行動選択肢の選択により得られる満足度に影響を与える要因である、請求項1乃至9の何れか一項に記載の行動選択学習装置。
  11.  行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する処理と、
     前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する処理と、
     前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出する処理と、
     前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する処理と、をコンピュータに実行させる行動選択学習プログラム。
  12.  コンピュータによる行動選択学習方法であって、該コンピュータが、
     行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成し、
     前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出し、
     前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出し、
     前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する、行動選択学習方法。
  13.  端末装置と、行動選択学習装置とを有する行動選択学習システムであって、
     前記行動選択学習装置、
     行動選択肢の選択に影響を与える要因毎の影響度を示すモデルパラメータベクトルの集合である参照モデルを生成する参照モデル生成部と、
     前記モデルパラメータベクトルのそれぞれについて、行動選択肢毎の選択確率を算出する選択確率算出部と、
     前記行動選択肢毎の選択確率と、利用者による前記行動選択肢の選択履歴と、に基づき、前記参照モデルから抽出されたモデルパラメータベクトルの部分集合を用いて、前記利用者毎のモデルパラメータベクトルを算出するモデルパラメータベクトル算出部と、
     前記利用者毎のモデルパラメータベクトルに基づき、前記行動選択肢を生成して端末装置に送信する選択肢生成部と、を有する行動選択学習システム。
PCT/JP2017/016948 2017-04-28 2017-04-28 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム WO2018198323A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2017/016948 WO2018198323A1 (ja) 2017-04-28 2017-04-28 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム
JP2019515027A JP6795090B2 (ja) 2017-04-28 2017-04-28 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム
US16/575,465 US11449770B2 (en) 2017-04-28 2019-09-19 Action selection learning device, action selection learning method, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2017/016948 WO2018198323A1 (ja) 2017-04-28 2017-04-28 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/575,465 Continuation US11449770B2 (en) 2017-04-28 2019-09-19 Action selection learning device, action selection learning method, and storage medium

Publications (1)

Publication Number Publication Date
WO2018198323A1 true WO2018198323A1 (ja) 2018-11-01

Family

ID=63918105

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/016948 WO2018198323A1 (ja) 2017-04-28 2017-04-28 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム

Country Status (3)

Country Link
US (1) US11449770B2 (ja)
JP (1) JP6795090B2 (ja)
WO (1) WO2018198323A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201435A1 (ja) * 2021-03-25 2022-09-29 日本電信電話株式会社 情報処理装置、推定方法およびプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7079445B2 (ja) * 2018-09-25 2022-06-02 本田技研工業株式会社 モデルパラメータ学習装置、制御装置及びモデルパラメータ学習方法
JP6770154B1 (ja) * 2019-08-28 2020-10-14 和則 藤沢 配車用ユーザ端末および配車システム並びにこれらで実行されるプログラム
US12014310B2 (en) 2021-06-28 2024-06-18 Oracle International Corporation Artificial intelligence based hotel demand model
US20230376861A1 (en) * 2022-05-17 2023-11-23 Oracle International Corporation Artificial Intelligence Based Upsell Model
JP2023174235A (ja) * 2022-05-27 2023-12-07 富士通株式会社 価値算出モデルの学習方法及びプログラム、並びに選択確率推定方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014222474A (ja) * 2013-05-14 2014-11-27 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム
JP2014238831A (ja) * 2013-06-05 2014-12-18 富士通株式会社 輸送サービス予約方法、輸送サービス予約装置、及び輸送サービス予約プログラム
JP2015001884A (ja) * 2013-06-17 2015-01-05 新日鉄住金ソリューションズ株式会社 候補提示装置、候補提示方法及びプログラム
JP2015097036A (ja) * 2013-11-15 2015-05-21 日本電信電話株式会社 推薦画像提示装置及びプログラム
JP2016085734A (ja) * 2014-10-28 2016-05-19 富士通株式会社 輸送サービス予約方法、輸送サービス予約装置、及び輸送サービス予約プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337967A (ja) 2000-05-25 2001-12-07 Hitachi Ltd 交通機関の情報提示システム
JP5520886B2 (ja) 2011-05-27 2014-06-11 日本電信電話株式会社 行動モデル学習装置、方法、及びプログラム
JP5879899B2 (ja) 2011-10-12 2016-03-08 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US9219668B2 (en) * 2012-10-19 2015-12-22 Facebook, Inc. Predicting the future state of a mobile device user
JP2014104764A (ja) 2012-11-22 2014-06-09 Toshiba Corp 列車混雑緩和支援装置及び列車混雑緩和支援方法
JP2014106661A (ja) 2012-11-27 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> ユーザ状態予測装置及び方法及びプログラム
US10274330B2 (en) * 2014-12-30 2019-04-30 Here Global B.V. Method and apparatus for providing a navigation route
US10527437B2 (en) * 2017-03-27 2020-01-07 International Business Machines Corporation Cognitive journey companion system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014222474A (ja) * 2013-05-14 2014-11-27 Necパーソナルコンピュータ株式会社 情報処理装置、方法及びプログラム
JP2014238831A (ja) * 2013-06-05 2014-12-18 富士通株式会社 輸送サービス予約方法、輸送サービス予約装置、及び輸送サービス予約プログラム
JP2015001884A (ja) * 2013-06-17 2015-01-05 新日鉄住金ソリューションズ株式会社 候補提示装置、候補提示方法及びプログラム
JP2015097036A (ja) * 2013-11-15 2015-05-21 日本電信電話株式会社 推薦画像提示装置及びプログラム
JP2016085734A (ja) * 2014-10-28 2016-05-19 富士通株式会社 輸送サービス予約方法、輸送サービス予約装置、及び輸送サービス予約プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022201435A1 (ja) * 2021-03-25 2022-09-29 日本電信電話株式会社 情報処理装置、推定方法およびプログラム

Also Published As

Publication number Publication date
JP6795090B2 (ja) 2020-12-02
US20200012956A1 (en) 2020-01-09
US11449770B2 (en) 2022-09-20
JPWO2018198323A1 (ja) 2020-03-05

Similar Documents

Publication Publication Date Title
JP6795090B2 (ja) 行動選択学習装置、行動選択学習プログラム、行動選択学習方法及び行動選択学習システム
CN104731917B (zh) 一种推荐方法及装置
US11055637B2 (en) Information processing apparatus, information processing method and storage medium
US20180172458A1 (en) Travel planning system, travel planning method, and program
JP7285583B2 (ja) 情報処理システム
Nuzzolo et al. Individual utility‐based path suggestions in transit trip planners
CN104756143A (zh) 获得事件评论
JP5356100B2 (ja) 情報処理システム及び方法
JP2016091546A (ja) 旅行プランナーのための旅行再ランキング
JP6631695B2 (ja) 混雑マネジメント装置、混雑マネジメントプログラム及び混雑マネジメント方法
US20160131491A1 (en) Interactively Scheduling an Itinerary
WO2020228626A1 (en) Method and system for recommending multi-modal itineraries
Gavalas et al. A personalized multimodal tourist tour planner
WO2018172906A1 (ja) 行動管理方法、行動管理装置、並びに決済補助コンピュータ
JP2014190952A (ja) ナビゲーションシステム、ナビゲーション方法、及びナビゲーションプログラム
JP6745925B2 (ja) データ処理装置、データ処理方法およびプログラム
JP6048196B2 (ja) ナビゲーションシステム、ナビゲーション方法、及びナビゲーションプログラム
JP6345212B2 (ja) 情報処理サーバ、プログラム、および情報処理方法
JP7470919B2 (ja) 情報処理方法、情報処理プログラム及び情報処理システム
JP7158430B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP7335121B2 (ja) 提案装置、提案方法及び提案プログラム
JP7075990B2 (ja) 情報分析装置及び情報分析方法
JP5704210B1 (ja) 情報処理装置、システム、及びプログラム
Osswald et al. Taxi Checker: A Mobile Application for Real-Time Taxi Fare Analysis
JP7510458B2 (ja) 周辺情報表示装置、その方法及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17907138

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019515027

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17907138

Country of ref document: EP

Kind code of ref document: A1