WO2018207878A1 - 需要予測装置 - Google Patents

需要予測装置 Download PDF

Info

Publication number
WO2018207878A1
WO2018207878A1 PCT/JP2018/018148 JP2018018148W WO2018207878A1 WO 2018207878 A1 WO2018207878 A1 WO 2018207878A1 JP 2018018148 W JP2018018148 W JP 2018018148W WO 2018207878 A1 WO2018207878 A1 WO 2018207878A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
statistic
prediction
demand
learning
Prior art date
Application number
PCT/JP2018/018148
Other languages
English (en)
French (fr)
Inventor
慎 石黒
悠 菊地
佑介 深澤
健 榎園
Original Assignee
株式会社Nttドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Nttドコモ filed Critical 株式会社Nttドコモ
Priority to JP2019517694A priority Critical patent/JP6802916B2/ja
Priority to US16/347,437 priority patent/US20190332977A1/en
Publication of WO2018207878A1 publication Critical patent/WO2018207878A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q50/40
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/20Monitoring the location of vehicles belonging to a group, e.g. fleet of vehicles, countable or determined number of vehicles
    • G08G1/205Indicating the location of the monitored vehicles as destination, e.g. accidents, stolen, rental
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Definitions

  • One aspect of the present invention relates to a demand prediction apparatus.
  • Patent Document 1 describes a demand prediction system that predicts taxi demand (the number of passengers) of a certain mesh (area). The system first generates a first regression equation for each of a plurality of meshes based on actual demand values for each mesh, and uses the first regression equation to generate an intermediate demand forecast value (for each mesh). (Estimated number of rides) is calculated. Subsequently, the system selects one of the plurality of meshes as a prediction target area, extracts a mesh having a correlation with the prediction target area as a correlation area, and based on the actual demand value of the correlation area. 2 is generated, and the final demand prediction value of the prediction target area is calculated using the second regression expression.
  • Patent Document 1 generates an individual prediction model (first regression equation) for each of a plurality of areas, and also generates an individual prediction model (second regression equation) for each prediction target area. ) Is generated.
  • first regression equation first regression equation
  • second regression equation second regression equation
  • the common prediction model can be used for multiple prediction target areas, the above problem can be avoided. Even when a common prediction model is used, the prediction accuracy can be improved by performing demand prediction based on statistical data of areas other than the prediction target area, as described in Patent Document 1 above. .
  • the prediction target area for example, a mesh positioned in a specific direction (for example, upper right) with respect to the prediction target mesh
  • the following problems can occur. In other words, there is a variation in prediction accuracy for each area, such as demand can be accurately predicted for areas correlated with the upper right mesh, but demand cannot be predicted accurately for areas not correlated with the upper right mesh. obtain.
  • an object of one aspect of the present invention is to provide a demand prediction apparatus that can suppress variations in prediction accuracy for each area when a common prediction model is used for a plurality of areas.
  • a demand prediction device includes a first statistic acquisition unit that acquires a first statistic representing a feature associated with a past period for a prediction target area that is a prediction target of demand for a predetermined service; An area extraction unit that extracts at least one related area that is different in size from the prediction target area and surrounds the prediction target area, and a second statistic acquisition unit that acquires a second statistic representing the characteristics of the related area, And a demand prediction unit that obtains a demand prediction value of the prediction target area by inputting the first statistic and the second statistic into a prediction model prepared in advance.
  • the demand prediction device has a statistic (second statistic) of a related area surrounding a prediction target area, the size being different from the prediction target area, together with a statistic (first statistic) of the prediction target area. Based on the (statistic), a demand forecast value of the prediction target area is calculated.
  • a second statistic of the related area can be useful data for increasing the accuracy of demand prediction in the prediction target area regardless of which area is selected as the prediction target area. Therefore, according to the said demand prediction apparatus, when a common prediction model is used for several areas, the variation in the prediction precision for every area can be suppressed.
  • a demand prediction device that can suppress variations in prediction accuracy for each area when a common prediction model is used for a plurality of areas.
  • FIG. 1 is a diagram illustrating a functional configuration of a server 10 including a demand prediction device according to an embodiment.
  • the server 10 is a computer system that predicts demand in a prediction target area that is selected as a target for forecasting demand for a predetermined service.
  • the server 10 predicts taxi demand (the number of taxi passengers) in the prediction target area. More specifically, as an example, the server 10 calculates a predicted value of taxi demand generated in the prediction target area for 30 minutes from the current time (the time when the demand prediction is executed).
  • the server 10 includes a storage unit 11, a model generation unit 12, a first statistic acquisition unit 13, an area extraction unit 14, a second statistic acquisition unit 15, and a demand prediction unit. 16.
  • the storage unit 11 stores various information necessary for processing of the server 10.
  • the storage unit 11 stores a statistical data management table (see FIG. 2) that stores various statistical data for each mesh.
  • the mesh is a preset geographical section, for example, a square area of 500 m square.
  • Various types of information stored in the storage unit 11 can be accessed from the model generation unit 12, the first statistic acquisition unit 13, the area extraction unit 14, the second statistic acquisition unit 15, and the demand prediction unit 16.
  • the model generation unit 12 generates a prediction model for predicting taxi demand in the prediction target area.
  • the model generation unit 12 includes a first learning statistic acquisition unit 121, a second area extraction unit 122, a second learning statistic acquisition unit 123, and a generation unit 124.
  • the first learning statistic acquisition unit 121 includes, for at least one first area, a first learning statistic that represents the characteristics of the first area associated with a predetermined target period, and a period after the target period.
  • the demand actual value of the 1st area with which it is related is acquired.
  • the first learning statistic corresponds to the explanatory variable of the prediction model.
  • the actual demand value in the first area corresponds to the objective variable of the prediction model.
  • the first learning statistic acquisition unit 121 acquires the first learning statistic and the actual demand value by referring to a statistical data management table (FIG. 2) that stores various statistical data for each mesh.
  • the first area is, for example, a region for one mesh.
  • FIG. 2 shows an example of a statistical data management table that stores various statistical data for a certain mesh.
  • the statistical data ST stored in the statistical data management table includes various statistical information for each unit period (here, 30 minutes) in which the aggregation start time is shifted every 10 minutes.
  • the statistical data ST includes population data ST1, weather data ST2, and taxi data ST3.
  • the population data ST1 is statistical information regarding the staying population in the mesh (for example, the average population within a unit period).
  • the population data ST1 includes information such as the total population (“population” column) and a population component due to seasonality (“population seasonal component” column).
  • the fluctuation factors of the population can be decomposed into, for example, a trend variation component (Trend), a circulation variation component (Cycle), a seasonal variation component (Seasonal), an irregular variation component (Irregular, Noise), and the like.
  • Such factorization can be performed by, for example, a known algorithm.
  • the trend variation component is a numerical value that periodically varies in a relatively long cycle.
  • the circulation variation component is a numerical value that periodically varies in a relatively short cycle.
  • the seasonal variation component is a numerical value that varies depending on events such as large holidays and New Year holidays.
  • the irregular variation component is a component that is not included in the trend variation component, the circulation variation component, and the seasonal variation component, and is a numerical value that varies irregularly.
  • the population seasonal component included in the population data ST1 corresponds to the above-described seasonal variation component.
  • the breakdown of the population data ST1 is not limited to the above example.
  • the population data ST1 may include various information regarding population such as population by gender, population by age, and population by residence.
  • the population data ST1 may include the above-described trend variation component, circulation variation component, irregular variation component, and the like.
  • Weather data ST2 is statistical information regarding the weather in the mesh.
  • the weather data ST2 includes information such as rainfall and air volume.
  • the breakdown of the weather data ST2 is not limited to the above example.
  • the weather data ST2 may include information such as temperature, humidity, air volume, wind direction, and atmospheric pressure.
  • Taxi data ST3 is statistical information on taxi usage in the mesh.
  • the taxi data ST3 includes information such as the number of boarding and the number of getting off.
  • the breakdown of the taxi data ST3 is not limited to the above example.
  • the taxi data ST3 may include information such as the number of empty taxis.
  • the number of empty vehicles (empty vehicle amount) is the number of taxis that have passed through the mesh in an empty state in a unit period.
  • the first learning statistic acquisition unit 121 sets the first area and the target period by receiving an input from an operator, for example.
  • the target period may be an arbitrary period (for example, 6 hours from 10:00 on August 2, 2015 to 16:00 on the same day). Then, the first learning statistic acquisition unit 121 acquires the statistical data ST of the target period as the first learning statistic by referring to the statistical data ST of the first area.
  • the first learning statistic acquisition unit 121 is the number of rides in a period later than the target period (for example, 30 minutes from 16:00 on August 2, 2015 to 16:30 on the same day). ("2" in the example of FIG. 2) is acquired as the actual demand value of the first area.
  • the first area does not necessarily have to be an area composed of one mesh.
  • the first area may be a circular area (see a first area A1 in FIG. 4B described later).
  • the first learning statistic acquisition unit 121 may acquire the statistical data ST of the mesh included in the first area as the first learning statistic.
  • the first learning statistic acquisition unit 121 determines the statistic associated with the same period and the same type for each statistical data ST of the plurality of meshes.
  • a predetermined operation for example, an operation for obtaining a sum or an average may be performed.
  • the first learning statistic acquisition unit 121 may acquire the statistic (for example, sum and average value) obtained by the calculation as the first learning statistic corresponding to each period and each type. Good.
  • the first learning statistic acquisition unit 121 may specify only meshes that are completely included in the first area as meshes included in the first area.
  • the first learning statistic acquisition unit 121 for meshes that are not completely included in the first area, for example, the ratio of the mesh portion included in the first area to the area of the entire mesh (the mesh included in the first area
  • the above calculation may be performed using a value obtained by multiplying each value of the statistical data ST related to the mesh by (area of the part / area of the entire mesh).
  • the second area extraction unit 122 extracts at least one second area that is different in size from the first area and surrounds the first area.
  • the first to third extraction examples are examples in which the second area is extracted based on the distance from the first area.
  • the fourth extraction example is an example in which the second area is extracted based on the movement time required for movement to and from the first area.
  • the first area is an area corresponding to one mesh preset as a geographical division
  • the second area extraction unit 122 may extract an area including a plurality of meshes as the second area.
  • FIG. 3A shows one first area A1 selected from a plurality of areas A (mesh).
  • FIG. 3B shows a first second area A21 corresponding to the first area A1, and
  • FIG. 3C shows a second second area corresponding to the first area A1.
  • A22 is shown.
  • the second area extraction unit 122 may extract, as the second area A2, an area in which mesh groups having the same distance from the first area A1 are grouped.
  • the “distance” here can be expressed by the number of meshes existing between the first area A1.
  • the second area A21 is a rectangular frame-shaped area composed of eight meshes adjacent to the first area A1 (an area in which meshes having a mesh count of 0 existing between the first area A1 and the first area A1 are combined).
  • the second area A22 is a square frame-shaped area surrounding the outside of the second area A21 (an area in which sixteen meshes having one mesh existing between the first area A1 and one are grouped together).
  • the number of second areas A2 to be extracted may be one, or may be three or more.
  • the second area extraction unit 122 increases the number of meshes existing between the first area A1 and increases the number of meshes corresponding to each mesh number (for example, an area composed of 24 meshes and 32 An area composed of individual meshes) may be extracted as the second area A2.
  • the second area extracting unit 122 forms a group of meshes (here, formed in a frame shape).
  • the second area A2 may be extracted so that the frame width of the area to be increased).
  • the second area A22 (A2) having a mesh number of 1 between the first area A1 and the first area A1 is a square frame having a frame width of two meshes.
  • a shaped area may be used.
  • the area farther from the first area A1 tends to have a lower correlation with the first area A1.
  • the statistical data ST regarding more meshes is considered,
  • the number of two areas A2 can be reduced.
  • the number of explanatory variables required for demand prediction specifically, the number of dimensions of the second learning statistic described later
  • the first area A1 and the second area A2 do not have to be mesh-shaped.
  • the first area A1 may be set as a circular area.
  • the second area extraction unit 122 may extract a ring-shaped region whose distance from the center of the first area A1 is within a predetermined range as the second area A2. For example, consider a case where a circular area having a radius of 500 m is set as the first area A1.
  • the second area extraction unit 122 may extract, as the second area A21, a ring-shaped area in which the distance d from the center of the first area A1 falls within the range of “500 m ⁇ d ⁇ 1000 m”.
  • the second area extraction unit 122 may extract a ring-shaped area in which the distance d from the center falls within the range of “1000 m ⁇ d ⁇ 1500 m” as the second area A22.
  • the second area extraction unit 122 may extract the second area based on the movement time required for movement with the first area A1.
  • the “movement time required for moving to and from the first area A1” is, for example, an assumed moving means (for example, a car, a train, This is the time required to reach the representative position using a foot or the like.
  • the “movement time required for movement to and from the first area A1” is reached from the representative position of the first area A1 using the assumed moving means starting from the representative position of the first area A1. It may be the time required for
  • the second area extraction unit 122 refers to these pieces of information and executes a known shortest path search algorithm or the like to thereby execute a shortest path (including moving means) between the representative position of the first area A1 and an arbitrary position. ), And the time required for movement of the shortest path may be calculated.
  • a known shortest path search algorithm or the like executes a known shortest path search algorithm or the like to thereby execute a shortest path (including moving means) between the representative position of the first area A1 and an arbitrary position.
  • the time required for movement of the shortest path may be calculated.
  • an area where the time td required to reach the representative position of the first area A1 falls within the range of “10 minutes ⁇ td ⁇ 20 minutes” is extracted as the second area A21.
  • An area in which the time td falls within the range of “20 minutes ⁇ td ⁇ 30 minutes” can be extracted as the second area A22.
  • FIG. 5 is a diagram illustrating an example of the two second areas A21 and A22 extracted as described above.
  • the shape of the second area A2 extracted based on the travel time is the status of the equipment around the first area A1 (such as the type of road provided and the legal speed, as well as from the station). Depending on the distance and the service interval of the route).
  • the second learning statistic acquisition unit 123 acquires a second learning statistic that represents the feature of the second area A2.
  • the second learning statistic corresponds to the explanatory variable of the prediction model, similarly to the first learning statistic described above.
  • the second learning statistic acquisition unit 123 includes a target period (this book) set as the acquisition period of the first learning statistic among the statistical data ST associated with each of the plurality of meshes included in the second area A2.
  • target period this book
  • statistical data ST for the same period as 6 hours from 10:00 on August 2, 2015 to 16:00 on the same day may be acquired.
  • the second learning statistic acquisition unit 123 is obtained by performing a predetermined calculation on the statistic associated with the same period and the same type for each statistical data ST of the plurality of meshes.
  • the above statistics are acquired as the second learning statistics for each period.
  • the one or more statistics are values obtained by a predetermined calculation such as an average value, a maximum value, a minimum value, a median value, and a variance. Note that the statistical data ST of the mesh partially included in the second area A2 is handled in the statistical data ST of the mesh partially included in the first area A1 in the above-described process of acquiring the first learning statistic. It is the same as the handling of.
  • the second learning statistic acquisition unit 123 acquires, as a second learning statistic, a statistic for a period having a predetermined time difference from the target period set as the acquisition target period of the first learning statistic. Also good. Specifically, the second learning statistic acquisition unit 123 determines the movement time required for movement between the first area A1 and the second area A2 (similar to the movement time described in the fourth extraction example). Based on this, a predetermined time difference may be determined. There is a possibility that a person staying in the second area A2 at a certain time may take a taxi in the first area A1 (that is, the staying population in the second area A2 at a certain time has an influence on the taxi demand in the first area A1.
  • the second learning statistic acquisition unit 123 may determine 30 minutes as the predetermined time difference for the second area A21.
  • the second learning statistic acquisition unit 123 uses the time zone (30 minutes before the target period of the statistical data ST associated with each of the plurality of meshes included in the second area A21 ( In the present embodiment, statistical data ST for 6 hours from 09:30 on August 2, 2015 to 15:30 on the same day may be acquired.
  • the processing after acquiring the statistical data ST associated with each of the plurality of meshes included in the second area A21 is the same as in the first acquisition example described above.
  • the process of the second acquisition example described above is executed individually for each second area A2.
  • the second learning statistic acquisition unit 123 may determine a predetermined time difference based on the relationship between the actual demand value of the first area A1 and the staying population of the second area A2.
  • the staying population in the second area A2 at a certain point in time does not necessarily affect the taxi demand in the first area A1 after the moving time from that point. Therefore, the second learning statistic acquisition unit 123, based on the past actual value (statistical data ST), the actual demand value (the number of rides) in the first area A1 and the staying population in the second area A2 (this embodiment). Then, the time difference that maximizes the correlation with the population difference from the previous time zone is obtained.
  • FIG. 6 shows an example of the difference in the number of passengers in the first area A1, the staying population in the second area A2, and the population difference from the previous time zone in the second area A2, for each time zone divided every hour. Yes.
  • Such data is obtained from the statistical data ST of each mesh included in the first area A1 and the statistical data ST of each mesh included in the second area A2.
  • the second learning statistic acquisition unit 123 determines, as a predetermined time difference, a time difference ⁇ that maximizes the correlation ⁇ expressed by the following equation.
  • y [k] is the population difference of the second area A2 in the time zone k.
  • the processing after acquiring the statistical data ST associated with each of the plurality of meshes included in the second area A21 is the same as in the first acquisition example described above. When there are a plurality of second areas A2, the process of the third acquisition example described above is executed individually for each second area A2.
  • an event period for example, a concert, a sporting event, etc. held in the second area A2 (eg Consider a case where the start time and the end time are known in advance.
  • the time when the travel time described in the second acquisition example has elapsed from the end time of the event is included in the acquisition target period of the actual demand value of the first area A1 by the first learning statistic acquisition unit 121. Think about the case.
  • the actual demand value in the first area A1 is considered to have a correlation with the number of customers due to the event (that is, the population increase in the second area A2 at the start of the event). Therefore, in such a case, the second learning statistic acquisition unit 123 calculates the time difference obtained by the sum of the event holding time (for example, 2 hours) from the start of the event to the end of the event and the travel time as a predetermined time difference. It is good.
  • the learning data necessary for generating the prediction model is generated by the processing of the first learning statistic acquisition unit 121, the second area extraction unit 122, and the second learning statistic acquisition unit 123 described above.
  • One learning data is data having the first learning statistic and the second learning statistic as explanatory variables and the demand actual value in the first area A1 as an objective variable.
  • the first learning statistic acquisition unit 121, the second area extraction unit 122, and the second learning statistic acquisition unit 123 have a plurality of areas and a plurality of target periods (first learning statistic acquisition target periods). You may perform the above-mentioned process about a combination. Thereby, learning data of various variations can be obtained.
  • a plurality of learning data including explanatory variables acquired by the same standard can be used. That is, the plurality of learning data used for generating one learning data is learning data obtained by using a common method in both the extraction of the second area A2 and the acquisition of the second learning statistic. It is.
  • the generation unit 124 generates a prediction model by performing machine learning using, as learning data, data in which the first learning statistic and the second learning statistic are associated with the actual demand value of the first area A1. To do.
  • the generation unit 124 generates a prediction model by using the plurality of learning data generated as described above.
  • the prediction model receives input data corresponding to the first learning statistic and the second learning statistic for the prediction target area corresponding to the first area as an explanatory variable, the prediction model calculates the demand predicted value of the prediction target area. This model is output as an objective variable.
  • the prediction model generated by the generation unit 124 is stored in the storage unit 11.
  • the specific method of machine learning used for generating the prediction model is not limited, but the generation unit 124 may generate the prediction model by using a so-called deep learning method, for example.
  • a prediction model includes, for example, a stacked self-encoder (Stacked Auto-Encoder) that performs abstraction of feature quantities (explanatory variables) as a preceding process in addition to a conventional neural network that performs prediction processing. obtain.
  • a prediction model for predicting taxi demand (number of passengers) in the prediction target area is prepared by the processing of the model generation unit 12 described above. Next, functional elements for actually performing demand prediction using the prediction model will be described.
  • the first statistic acquisition unit 13 acquires a first statistic representing a feature associated with a past period for a prediction target area that is a prediction target of demand for a predetermined service (taxi demand in the present embodiment). For example, the first statistic acquisition unit 13 grasps a prediction target area (for example, 1 mesh) by receiving an input from an operator. And the 1st statistic acquisition part 13 acquires the 1st statistic required in order to estimate the taxi demand for 30 minutes from the present time of the said prediction object area.
  • a prediction target area for example, 1 mesh
  • the prediction target area and the first statistic correspond to the first area and the first learning statistic handled by the model generation unit 12. Therefore, the first statistic acquisition unit 13 performs the first process on the prediction target area by the same process as the process of acquiring the first learning statistic for the first area (the process of the first learning statistic acquisition unit 121). Statistics can be obtained. For example, in the present embodiment, mesh statistical data ST included in the first area for the six hours immediately before the period corresponding to the actual demand value in the first area is acquired as the first learning statistic. In this case, the first statistic acquisition unit 13 acquires, as the first statistic, the mesh statistical data ST included in the prediction target area for the last 6 hours immediately before the generation of the prediction model. That's fine.
  • the area extraction unit 14 extracts at least one related area that is different in size from the prediction target area and surrounds the prediction target area.
  • the related area corresponds to the second area handled by the model generation unit 12. Therefore, the area extraction unit 14 can acquire the related area for the prediction target area by the same process as the process for extracting the second area for the first area (the process of the second area extraction unit 122). For example, in the first extraction example described above, for the first area A1 composed of one mesh, the second area A21 composed of 8 mesh and the A22 composed of 16 mesh surrounding the first area A1 were extracted. . When a prediction model generated using learning data obtained by such an extraction method is used, the area extraction unit 14 surrounds a prediction target area configured by one mesh, similarly to the processing at the time of prediction model generation. The related area consisting of 8 meshes and the related area consisting of 16 meshes may be extracted.
  • the area extraction unit 14 performs the processing by the second area extraction unit 122 described above. Similarly, the related area is extracted based on the distance from the prediction target area.
  • the area extraction unit 14 is similar to the processing by the second area extraction unit 122 described above. Then, the related area is extracted based on the moving time required for moving to the prediction target area.
  • the second statistic acquisition unit 15 acquires a second statistic representing the characteristics of the related area.
  • the second statistic corresponds to the second learning statistic handled by the model generation unit 12. Therefore, the second statistic acquisition unit 15 performs the second statistic on the related area by the same process as the process of acquiring the second learning statistic for the second area (the process of the second learning statistic acquisition unit 123). You can get the quantity.
  • the second statistic acquisition unit 15 is a statistic for a period having a predetermined time difference from the past period (the period in which the first statistic is acquired), and information on the staying population in the related area. The included statistic is acquired as the second statistic. Specifically, the second statistic acquisition unit 15 determines a predetermined time difference based on the travel time required for travel to the prediction target area. In this case, in the second acquisition example described above, the second statistic acquisition unit 15 converts the first learning statistic, the second learning statistic, the first area, and the second area into the first statistic, What is necessary is just to perform the process at the time of replacing with the 2nd statistics, a prediction object area, and a related area.
  • the second statistic acquisition unit 15 determines a predetermined time difference based on the relationship between the actual demand value in the prediction target area and the stay population in the related area.
  • the second statistic acquisition unit 15 converts the second learning statistic, the first area, and the second area into the second statistic, the prediction target area, and the related area. It is sufficient to execute the processing when it is read as.
  • the second statistic acquisition unit 15 sets the second learning statistic, the first area, and the second area as the second statistic, the prediction target area, and the related area. It is sufficient to execute the processing when it is read as.
  • the demand prediction unit 16 inputs a first statistic and a second statistic into a prediction model prepared in advance (a prediction model generated by the model generation unit 12), whereby a demand prediction value (taxi) of the prediction target area. (Predicted number of passengers). Specifically, the demand prediction unit 16 acquires the output result of the prediction model as the demand prediction value of the prediction target area.
  • the demand forecast value acquired in this way can be used for various purposes. For example, the demand prediction unit 16 may present the prediction result to the operator by displaying the demand prediction value on a display or the like.
  • the 1st statistics acquisition part 13, the area extraction part 14, the 2nd statistics acquisition part 15, and the demand prediction part 16 which were mentioned above may perform a process about a several different prediction object area.
  • the demand forecast value of each area obtained in this case may be used for, for example, vehicle allocation control for realizing efficient vehicle allocation to each area of a taxi.
  • step S1 the first learning statistic acquisition unit 121 sets the first area and the target period, for example, by accepting an input by the operator.
  • the target period is a period arbitrarily extracted from the period in which the statistical data ST is stored (for example, 6 hours).
  • step S2 the first learning statistic acquisition unit 121 acquires the first learning statistic in the target period of the first area A1. Further, the first learning statistic acquisition unit 121 acquires the actual demand value (the number of rides) of the first area A1 associated with a period later than the target period (for example, 30 minutes from the end of the target period). .
  • step S3 the second area extraction unit 122 extracts at least one second area A2 that is different in size from the first area A1 and surrounds the first area A1.
  • the second area extraction unit 122 extracts the second area A2 by any one of the above-described first to fourth extraction examples, for example.
  • step S4 the second learning statistic acquisition unit 123 acquires the second learning statistic in the second area A2.
  • the second learning statistic acquisition unit 123 performs the second learning statistic acquisition target period (the first learning statistic acquisition target period by, for example, any one of the first to fourth acquisition examples described above. The same period as the target period or a period before the target period).
  • step S5 the model generation unit 12 sets a set of learning data (first learning statistic and second variable as explanatory variables) based on the first learning statistic, the actual demand value, and the second learning statistic. Data including learning statistics and actual demand values of the first area A1 as objective variables).
  • step S6 the model generation unit 12 determines whether to generate other learning data. For example, the model generation unit 12 performs learning data generation processing (steps S1 to S5) until it can be determined that an appropriate number (for example, a number set in advance by an operator) of learning data has been obtained to generate a prediction model. May be repeatedly executed (step S6: NO). On the other hand, when the model generation unit 12 determines that an appropriate number of learning data has been obtained (step S6: YES), the model generation unit 12 proceeds to the process of step S7.
  • learning data generation processing steps S1 to S5
  • an appropriate number for example, a number set in advance by an operator
  • step S7 the generation unit 124 generates a prediction model by executing machine learning using the learning data generated in step S5.
  • the generated prediction model is stored in the storage unit 11, for example.
  • step S11 the first statistic acquisition unit 13 selects a prediction target area to be a target of demand prediction, for example, by receiving an input by an operator.
  • the first statistic acquisition unit 13 acquires a first statistic representing a feature associated with a past period (six hours immediately before the current time) of the prediction target area. More specifically, the first statistic acquisition unit 13 performs prediction by a process similar to the process of acquiring the first learning statistic for the first area A1 (the process of the first learning statistic acquisition unit 121). The first statistic for the target area is acquired.
  • step S13 the area extraction unit 14 extracts at least one related area that is different in size from the prediction target area and surrounds the prediction target area. More specifically, the area extraction unit 14 acquires a related area for the prediction target area by a process similar to the process for extracting the second area A2 for the first area A1 (the process of the second area extraction unit 122). .
  • step S14 the second statistic acquisition unit 15 acquires the second statistic of the related area. More specifically, the second statistic acquisition unit 15 performs the related area by the same process as the process of acquiring the second learning statistic for the second area (the process of the second learning statistic acquisition unit 123). Get a second statistic for.
  • step S ⁇ b> 15 the demand prediction unit 16 inputs the first statistic and the second statistic into a prepared prediction model (a prediction model generated by the model generation unit 12), so that the demand in the prediction target area. Get the predicted value.
  • the server 10 described above is used as a statistic (second statistic) of the related area that is different in size from the prediction target area and surrounds the prediction target area, together with the statistic of the prediction target area (first statistic). Based on this, the demand forecast value of the prediction target area is calculated.
  • Such a second statistic of the related area can be useful data for increasing the accuracy of demand prediction in the prediction target area regardless of which area is selected as the prediction target area. Therefore, according to the server 10, when a common prediction model is used for a plurality of areas, variations in prediction accuracy for each area can be suppressed. As a result, the accuracy of demand prediction in each prediction target area can be improved, and service provision (appropriate taxi dispatch in this embodiment) in each prediction target area can be performed smoothly.
  • the prediction target area may be an area for one mesh preset as a geographical division
  • the related area may be an area composed of a plurality of meshes.
  • the prediction target area and the related area may be set similarly to the first area A1 and the second area A2 in the first or second extraction example described above. In this way, by setting a region obtained by grouping a plurality of meshes around the prediction target area as a related area, the above-described effects can be obtained, and explanatory variables (second statistics) can be compared with a case where each mesh is handled individually. Amount) can be reduced.
  • the area extraction unit 14 may extract the related area based on the distance from the prediction target area.
  • the area extraction unit 14 may extract a related area by a process similar to the process in the first to third extraction examples described above.
  • the related area can be set based on the degree of influence on the future demand of the prediction target area (that is, the degree of influence is greater as the distance is closer).
  • the area extraction unit 14 may extract a related area based on a movement time required for movement to and from the prediction target area.
  • the area extraction unit 14 may extract a related area by a process similar to the process in the fourth extraction example described above.
  • the related area can be set based on the degree of influence on the future demand of the prediction target area (that is, the degree of influence is greater as the travel time is shorter).
  • the second statistic acquisition unit 15 may acquire, as the second statistic, a statistic that is a statistic for a period having a predetermined time difference from the past period and includes information related to the staying population in the related area.
  • the second statistic acquisition unit 15 may determine a predetermined time difference based on the movement time required for movement between the prediction target area and the related area.
  • the predetermined time difference may be determined by a process similar to the process in the second acquisition example described above. In this way, in consideration of the time difference until the staying population in the related area affects the taxi demand in the prediction target area, the acquisition target period of the second statistic is shifted in the past from the acquisition target period of the first statistic.
  • more meaningful (useful) data can be used as an explanatory variable.
  • the second statistic acquisition unit 15 may determine a predetermined time difference based on the relationship between the actual demand value in the prediction target area and the stay population in the related area.
  • the predetermined time difference may be determined by a process similar to the process in the third acquisition example described above.
  • the correlation between the actual demand value and the population difference it is more meaningful.
  • Certain (useful) data can be used as explanatory variables.
  • the server 10 includes a model generation unit 12.
  • the model generation unit 12 includes, for at least one first area A1, a first learning statistic that represents a feature of the first area A1 associated with a predetermined target period, and a first period associated with a period later than the target period.
  • the first learning statistic acquisition unit 121 that acquires the actual demand value of the area A1 is different from the first area A1 and extracts at least one second area A2 that surrounds the first area A1.
  • a model generation unit 12 can generate a prediction model that can suppress variations in prediction accuracy for each area.
  • the explanatory variable of the prediction model may include a feature quantity other than the statistic exemplified above.
  • feature quantities that do not depend on the period such as the number of facilities (for example, stations) included in the area, may be added to the explanatory variables.
  • a feature amount based on a periodic relationship that is repeated periodically such as an average demand on the same day and the same time zone (average number of taxi rides), may be added to the explanatory variable.
  • the demand used as the prediction object is not limited to this, This invention is applicable to the prediction of the demand of various services.
  • the present invention can also be applied to the prediction of product sales (the objective variable is the number or amount of sales) or the like.
  • each functional block may be realized by one device physically and / or logically coupled, and two or more devices physically and / or logically separated may be directly and / or indirectly. (For example, wired and / or wirelessly) and may be realized by these plural devices.
  • the server 10 in the above embodiment may function as a computer that performs processing of the server 10 in the above embodiment.
  • FIG. 9 is a diagram illustrating an example of a hardware configuration of the server 10 according to the present embodiment.
  • the server 10 described above may be physically configured as a computer device including a processor 1001, a memory 1002, a storage 1003, a communication device 1004, an input device 1005, an output device 1006, a bus 1007, and the like.
  • the term “apparatus” may be read as a circuit, a device, a unit, or the like.
  • the hardware configuration of the server 10 may be configured to include one or a plurality of devices illustrated in FIG. 9, or may be configured not to include some devices.
  • Each function in the server 10 is performed by reading predetermined software (program) on hardware such as the processor 1001 and the memory 1002, so that the processor 1001 performs an operation and performs communication by the communication device 1004, data in the memory 1002 and storage 1003. This is realized by controlling reading and / or writing.
  • the processor 1001 controls the entire computer by operating an operating system, for example.
  • the processor 1001 may be configured by a central processing unit (CPU) including an interface with peripheral devices, a control device, an arithmetic device, a register, and the like.
  • CPU central processing unit
  • the processor 1001 reads a program (program code), a software module, and / or data from the storage 1003 and / or the communication device 1004 to the memory 1002, and executes various processes according to these.
  • a program program code
  • the demand prediction unit 16 of the server 10 may be realized by a control program that is stored in the memory 1002 and operates on the processor 1001, and may be realized similarly for the other functional blocks illustrated in FIG. 1.
  • the above-described various processes have been described as being executed by one processor 1001, they may be executed simultaneously or sequentially by two or more processors 1001.
  • the processor 1001 may be implemented by one or more chips. Note that the program may be transmitted from a network via a telecommunication line.
  • the memory 1002 is a computer-readable recording medium, and includes, for example, at least one of ROM (Read Only Memory), EPROM (Erasable Programmable ROM), EEPROM (Electrically Erasable Programmable ROM), RAM (Random Access Memory), and the like. May be.
  • the memory 1002 may be referred to as a register, a cache, a main memory (main storage device), or the like.
  • the memory 1002 can store a program (program code), a software module, and the like that can be executed to implement the information processing method according to the above-described embodiment (the procedure shown in the flowchart of FIG. 7 or 8).
  • the storage 1003 is a computer-readable recording medium such as an optical disc such as a CD-ROM (Compact Disc ROM), a hard disc drive, a flexible disc, a magneto-optical disc (eg, a compact disc, a digital versatile disc, a Blu-ray). (Registered trademark) disk, smart card, flash memory (for example, card, stick, key drive), floppy (registered trademark) disk, magnetic strip, and the like.
  • the storage 1003 may be referred to as an auxiliary storage device.
  • the storage medium described above may be, for example, a database, a server, or other suitable medium including the memory 1002 and / or the storage 1003.
  • the communication device 1004 is hardware (transmission / reception device) for performing communication between computers via a wired and / or wireless network, and is also referred to as a network device, a network controller, a network card, a communication module, or the like.
  • the input device 1005 is an input device (for example, a keyboard, a mouse, a microphone, a switch, a button, a sensor, etc.) that accepts an external input.
  • the output device 1006 is an output device (for example, a display, a speaker, an LED lamp, etc.) that performs output to the outside.
  • the input device 1005 and the output device 1006 may have an integrated configuration (for example, a touch panel).
  • the devices such as the processor 1001 and the memory 1002 are connected by a bus 1007 for communicating information.
  • the bus 1007 may be configured with a single bus or may be configured with different buses between apparatuses.
  • the server 10 includes hardware such as a microprocessor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a programmable logic device (PLD), and a field programmable gate array (FPGA). Some or all of the functional blocks may be realized by the hardware. For example, the processor 1001 may be implemented by at least one of these hardware.
  • DSP digital signal processor
  • ASIC application specific integrated circuit
  • PLD programmable logic device
  • FPGA field programmable gate array
  • the input / output information or the like may be stored in a specific location (for example, a memory) or may be managed by a management table. Input / output information and the like can be overwritten, updated, or additionally written. The output information or the like may be deleted. The input information or the like may be transmitted to another device.
  • the determination may be performed by a value represented by 1 bit (0 or 1), may be performed by a true / false value (Boolean: true or false), or may be compared with a numerical value (for example, a predetermined value) Comparison with the value).
  • notification of predetermined information is not limited to explicitly performed, and may be performed implicitly (for example, notification of the predetermined information is not performed). Good.
  • software, instructions, etc. may be transmitted / received via a transmission medium.
  • software may use websites, servers, or other devices using wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave.
  • wired technology such as coaxial cable, fiber optic cable, twisted pair and digital subscriber line (DSL) and / or wireless technology such as infrared, wireless and microwave.
  • DSL digital subscriber line
  • wireless technology such as infrared, wireless and microwave.
  • system and “network” used in this specification are used interchangeably.
  • information, parameters, and the like described in this specification may be represented by absolute values, may be represented by relative values from predetermined values, or may be represented by other corresponding information. .
  • determining may encompass a wide variety of actions. “Determining” is, for example, calculating, computing, processing, deriving, investigating, looking up (eg, in a table, database, or another data structure Search), ascertaining what has been confirmed, and so on. Also, “determining” includes receiving (eg, receiving information), transmitting (eg, transmitting information), input (input), output (output), access (accessing) ( For example, it may include “determining” that the data in the memory has been accessed. Also, “determining” may include resolving, selecting, selecting, establishing, comparing, and the like as “determined”. In other words, “determining” can include considering some action as “determining”.
  • the phrase “based on” does not mean “based only on”, unless expressly specified otherwise. In other words, the phrase “based on” means both “based only on” and “based at least on.”
  • any reference to elements using designations such as “first”, “second”, etc. as used herein does not generally limit the amount or order of those elements. These designations can be used herein as a convenient way to distinguish between two or more elements. Thus, a reference to the first and second elements does not mean that only two elements can be employed there, or that in some way the first element must precede the second element.

Abstract

一実施形態に係るサーバ10は、予測対象エリアについての過去期間に関連付けられる特徴を表す第1統計量を取得する第1統計量取得部13と、予測対象エリアとは大きさが異なり、予測対象エリアを包囲する、少なくとも1つの関連エリアを抽出するエリア抽出部14と、関連エリアの特徴を表す第2統計量を取得する第2統計量取得部15と、第1統計量と第2統計量とを予め用意された予測モデルに入力することにより、予測対象エリアの需要予測値を取得する需要予測部16と、を備える。

Description

需要予測装置
 本発明の一側面は、需要予測装置に関する。
 特許文献1には、あるメッシュ(エリア)のタクシー需要(乗車数)を予測する需要予測システムが記載されている。上記システムは、まず、複数のメッシュの各々について、メッシュ毎の需要実績値に基づいて第1の回帰式を生成し、当該第1の回帰式を用いて中間的な需要予測値(メッシュ毎の予測乗車数)を算出する。続いて、上記システムは、当該複数のメッシュのうちの1つを予測対象エリアとして選択し、予測対象エリアと相関のあるメッシュを相関エリアとして抽出し、当該相関エリアの需要実績値に基づいて第2の回帰式を生成し、当該第2の回帰式を用いて予測対象エリアの最終的な需要予測値を算出する。
特開2012-050241号公報
 上記特許文献1に記載されている手法は、複数のエリアの各々について個別の予測モデル(第1の回帰式)を生成するとともに、予測対象エリア毎にも個別の予測モデル(第2の回帰式)を生成する。このようにエリア毎に個別に予測モデルを生成する場合、予測対象となるエリアの数が増える程処理が煩雑となり得る。
 複数の予測対象エリアに対して共通の予測モデルを利用できれば、上記問題の発生を回避し得る。また、共通の予測モデルを用いる場合においても、上記特許文献1に記載されているように、予測対象エリア以外のエリアの統計データにも基づいて需要予測を行うことにより、予測精度を向上させ得る。しかしながら、このような統計データとして、予測対象エリアとの単純な位置関係を有するエリア(例えば予測対象メッシュに対して特定の方向(例えば右上)に位置するメッシュ等)の統計データを利用した場合、以下のような問題を生じ得る。すなわち、右上のメッシュと相関のあるエリアについては需要を精度良く予測できる一方で、右上のメッシュと相関のないエリアについては需要を精度良く予測できないといったように、エリア毎の予測精度のバラツキが生じ得る。
 そこで、本発明の一側面は、複数のエリアに共通の予測モデルを用いた場合において、エリア毎の予測精度のバラツキを抑制できる需要予測装置を提供することを目的とする。
 本発明の一側面に係る需要予測装置は、所定のサービスの需要の予測対象となる予測対象エリアについての過去期間に関連付けられる特徴を表す第1統計量を取得する第1統計量取得部と、予測対象エリアとは大きさが異なり、予測対象エリアを包囲する、少なくとも1つの関連エリアを抽出するエリア抽出部と、関連エリアの特徴を表す第2統計量を取得する第2統計量取得部と、第1統計量と第2統計量とを予め用意された予測モデルに入力することにより、予測対象エリアの需要予測値を取得する需要予測部と、を備える。
 本発明の一側面に係る需要予測装置は、予測対象エリアの統計量(第1統計量)と共に、予測対象エリアとは大きさが異なり、予測対象エリアを包囲する関連エリアの統計量(第2統計量)に基づいて、当該予測対象エリアの需要予測値を算出する。このような関連エリアの第2統計量は、どのエリアを予測対象エリアとして選択するかによらず、予測対象エリアの需要予測の精度を高めるために有用なデータとなり得る。したがって、上記需要予測装置によれば、複数のエリアに共通の予測モデルを用いた場合において、エリア毎の予測精度のバラツキを抑制できる。
 本発明の一側面によれば、複数のエリアに共通の予測モデルを用いた場合において、エリア毎の予測精度のバラツキを抑制できる需要予測装置を提供することができる。
一実施形態に係る需要予測装置を含むサーバの機能構成を示す図である。 メッシュ(エリア)毎の統計データの一例を示す図である。 第1メッシュ及び第2メッシュの例を表す図である。 第1メッシュ及び第2メッシュの例を表す図である。 第1メッシュ及び第2メッシュの例を表す図である。 相関分析により決定される時間差について説明するための図である。 図1のサーバが予測モデルを生成するための処理手順を示すフローチャートである。 図1のサーバが予測対象エリアの需要予測値を取得するための処理手順を示すフローチャートである。 図1のサーバのハードウェア構成を示す図である。
 以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。
 図1は、一実施形態に係る需要予測装置を含むサーバ10の機能構成を示す図である。サーバ10は、所定のサービスの需要の予測対象として選択される予測対象エリアの需要を予測するコンピュータシステムである。本実施形態では、サーバ10は、予測対象エリアにおけるタクシー需要(タクシーの乗客数)を予測する。より具体的には、一例として、サーバ10は、現時点(需要予測の実行時点)から30分間に予測対象エリアで発生するタクシー需要の予測値を算出する。
 図1に示されるように、サーバ10は、記憶部11と、モデル生成部12と、第1統計量取得部13と、エリア抽出部14と、第2統計量取得部15と、需要予測部16と、を備える。
 記憶部11は、サーバ10の処理に必要となる各種情報を記憶する。例えば、記憶部11は、メッシュ毎の各種統計データを格納する統計データ管理テーブル(図2参照)を記憶する。メッシュは、予め設定された地理的な区画であり、例えば500m四方の正方形状の領域である。記憶部11に記憶された各種情報は、モデル生成部12、第1統計量取得部13、エリア抽出部14、第2統計量取得部15、及び需要予測部16からアクセス可能となっている。
 モデル生成部12は、予測対象エリアのタクシー需要を予測するための予測モデルを生成する。モデル生成部12は、第1学習用統計量取得部121と、第2エリア抽出部122と、第2学習用統計量取得部123と、生成部124と、を有する。
 第1学習用統計量取得部121は、少なくとも1つの第1エリアについて、所定の対象期間に関連付けられる第1エリアの特徴を表す第1学習用統計量と、上記対象期間よりも後の期間に関連付けられる第1エリアの需要実績値とを取得する。第1学習用統計量は、予測モデルの説明変数に対応する。第1エリアの需要実績値は、予測モデルの目的変数に対応する。例えば、第1学習用統計量取得部121は、メッシュ毎の各種統計データを格納する統計データ管理テーブル(図2)を参照することにより、第1学習用統計量及び需要実績値を取得する。第1エリアは、例えばメッシュ1つ分の領域である。
 図2は、あるメッシュについての各種統計データを格納する統計データ管理テーブルの一例を表す。この例では、統計データ管理テーブルに格納される統計データSTは、集計開始時刻が10分毎ずらされた単位期間(ここでは30分)毎の各種統計情報を含んでいる。本実施形態では、統計データSTは、人口データST1、天候データST2、及びタクシーデータST3を含んでいる。
 人口データST1は、メッシュ内の滞在人口(例えば単位期間内の平均人口)に関する統計情報である。人口データST1は、全体人口(「人口」列)及び季節性に起因する人口成分(「人口季節成分」列)等の情報を含んでいる。人口の変動要因は、例えば、傾向変動成分(Trend)、循環変動成分(Cycle)、季節変動成分(Seasonal)、及び不規則変動成分(Irregular,Noise)等に分解され得る。このような要因分解は、例えば公知のアルゴリズム等により実行され得る。傾向変動成分は、比較的長いサイクルで周期的に変動する数値である。循環変動成分は、比較的短いサイクルで周期的に変動する数値である。季節変動成分は、大型連休及び正月等のイベントによって変動する数値である。不規則変動成分は、傾向変動成分、循環変動成分、及び季節変動成分には含まれない成分であり、不定期に変動する数値である。人口データST1に含まれる人口季節成分は、上述した季節変動成分に相当する。ただし、人口データST1の内訳は上記例に限られない。例えば、人口データST1は、男女別人口、年代別人口、及び居住地別人口等の人口に関する様々な情報を含んでもよい。また、人口データST1は、上述した傾向変動成分、循環変動成分、及び不規則変動成分等を含んでもよい。
 天候データST2は、メッシュ内の天候に関する統計情報である。天候データST2は、雨量及び風量等の情報を含んでいる。ただし、天候データST2の内訳は上記例に限られない。例えば、天候データST2は、気温、湿度、風量、風向、及び気圧等の情報を含んでもよい。
 タクシーデータST3は、メッシュ内のタクシー利用に関する統計情報である。タクシーデータST3は、乗車数及び降車数等の情報を含んでいる。ただし、タクシーデータST3の内訳は上記例に限られない。例えば、タクシーデータST3は、タクシーの空車数等の情報を含んでもよい。空車数(空車量)は、単位期間においてメッシュ内を空車状態で通過したタクシーの台数である。
 まず、第1学習用統計量取得部121は、例えばオペレータによる入力を受け付けることにより、第1エリア及び対象期間を設定する。対象期間は、任意の期間(例えば2015年8月2日10時00分から同日16時00分までの6時間)であってよい。そして、第1学習用統計量取得部121は、第1エリアの統計データSTを参照することにより、対象期間の統計データSTを、第1学習用統計量として取得する。
 第1学習用統計量取得部121は、対象期間よりも後の期間(例えば対象期間の終了時点である2015年8月2日16時00分から同日16時30分までの30分間)の乗車数(図2の例では「2」)を、第1エリアの需要実績値として取得する。
 なお、第1エリアは、必ずしも1つのメッシュからなる領域でなくてもよい。例えば、第1エリアは、円形領域(後述する図4の(B)の第1エリアA1参照)等であってもよい。この場合、第1学習用統計量取得部121は、第1エリアに含まれるメッシュの統計データSTを第1学習用統計量として取得してもよい。第1エリアに複数のメッシュが含まれる場合、第1学習用統計量取得部121は、当該複数のメッシュの各々の統計データSTに対して同じ期間及び同じ種類に関連付けられる統計量同士に対して所定の演算(例えば和又は平均を求める演算)を行ってもよい。そして、第1学習用統計量取得部121は、当該演算により得られた統計量(例えば和及び平均値等)を、各期間及び各種類に対応する第1学習用統計量として取得してもよい。このとき、第1学習用統計量取得部121は、第1エリアに完全に含まれるメッシュのみを第1エリアに含まれるメッシュとして特定してもよい。或いは、第1学習用統計量取得部121は、第1エリアに完全に含まれないメッシュについては、例えばメッシュ全体の面積に対する第1エリアに含まれるメッシュ部分の割合(第1エリアに含まれるメッシュ部分の面積/メッシュ全体の面積)を当該メッシュに関する統計データSTの各値に乗じた値を用いて、上述の計算を行ってもよい。
 第2エリア抽出部122は、第1エリアとは大きさが異なり、第1エリアを包囲する、少なくとも1つの第2エリアを抽出する。以下、第1エリア及び第2エリアのいくつかの例について説明する。第1~第3の抽出例は、第1エリアからの距離に基づいて第2エリアを抽出する例である。また、第4の抽出例は、第1エリアとの間の移動に要する移動時間に基づいて第2エリアを抽出する例である。
(第1の抽出例)
 第1エリアは、地理的な区画として予め設定されたメッシュ1つ分の領域であり、第2エリア抽出部122は、複数のメッシュからなる領域を第2エリアとして抽出してもよい。図3の(A)は、複数のエリアA(メッシュ)のうちから選択された1つの第1エリアA1を表している。図3の(B)は、第1エリアA1に対応する1つ目の第2エリアA21を表しており、図3の(C)は、第1エリアA1に対応する2つ目の第2エリアA22を表している。図3に示されるように、第2エリア抽出部122は、第1エリアA1からの距離が等しいメッシュ群をひとまとめにしたエリアを、第2エリアA2として抽出してもよい。ここでの「距離」は、第1エリアA1との間に存在するメッシュ数により表現され得る。第2エリアA21は、第1エリアA1に隣接する8個のメッシュからなる四角枠状のエリア(第1エリアA1との間に存在するメッシュ数が0であるメッシュをひとまとめにしたエリア)である。第2エリアA22は、第2エリアA21の外側を囲う四角枠状のエリア(第1エリアA1との間に存在するメッシュ数が1である16個のメッシュをひとまとめにしたエリア)である。抽出される第2エリアA2の個数は1つでもよいし、3つ以上であってもよい。例えば、第2エリア抽出部122は、第1エリアA1との間に存在するメッシュ数を1つずつ増やしていき、それぞれのメッシュ数に対応するエリア(例えば24個のメッシュからなるエリア、及び32個のメッシュからなるエリア等)を第2エリアA2として抽出してもよい。
(第2の抽出例)
 第2エリア抽出部122は、第1エリアA1からの距離(すなわち、第1エリアA1との間に存在するメッシュの数)が多くなる程、ひとまとめにするメッシュ数(ここでは、枠状に形成されるエリアの枠幅)が多くなるように、第2エリアA2を抽出してもよい。例えば、図4の(A)に示されるように、第1エリアA1との間に存在するメッシュ数が1である第2エリアA22(A2)は、メッシュ2つ分の枠幅を有する四角枠状のエリアであってもよい。一般に、第1エリアA1から離れたエリアほど、第1エリアA1との相関が低くなる傾向がある。したがって、この例によれば、第1エリアA1との関係において重要度がそれほど高くない第2エリアA2に含まれるメッシュ数を増やすことにより、より多くのメッシュに関する統計データSTを考慮しつつ、第2エリアA2の個数を減らすことができる。その結果、需要予測のために必要となる説明変数の個数(具体的には後述する第2学習用統計量の次元数)を削減し得る。このように説明変数の個数を減らすことにより、計算量の削減及びメモリ使用量の低減等を図ることができる。すなわち、プロセッサ、メモリ等のハードウェア資源の処理負荷及び使用料を低減できる。
(第3の抽出例)
 第1エリアA1及び第2エリアA2は、メッシュ状でなくてもよい。例えば、図4の(B)に示されるように、第1エリアA1は、円形領域として設定されてもよい。この場合、第2エリア抽出部122は、第1エリアA1の中心からの距離が所定範囲内に含まれるリング状の領域を、第2エリアA2として抽出してもよい。例えば、半径500mの円形領域が第1エリアA1として設定されている場合について考える。この場合、第2エリア抽出部122は、第1エリアA1の中心からの距離dが「500m≦d≦1000m」の範囲に収まるリング状のエリアを第2エリアA21として抽出してもよい。また、第2エリア抽出部122は、上記中心からの距離dが「1000m≦d≦1500m」の範囲に収まるリング状のエリアを第2エリアA22として抽出してもよい。
(第4の抽出例)
 第2エリア抽出部122は、第1エリアA1との間の移動に要する移動時間に基づいて、第2エリアを抽出してもよい。ここで、「第1エリアA1との間の移動に要する移動時間」とは、例えば、第1エリアA1の代表位置(例えば重心)を終点として、想定される移動手段(例えば、車、電車、徒歩等)を用いて上記代表位置に到達するために必要な時間である。或いは、「第1エリアA1との間の移動に要する移動時間」は、第1エリアA1の代表位置を起点として、上記想定される移動手段を用いて第1エリアA1の代表位置から到達するために必要な時間であってもよい。
 例えば、第1エリアA1及び第2エリアA2に設けられた道路、路線、及び駅等の情報は、記憶部11に予め記憶されている。第2エリア抽出部122は、これらの情報を参照し、公知の最短経路検索アルゴリズム等を実行することにより、第1エリアA1の代表位置と任意の位置との間の最短経路(移動手段を含む)、及び当該最短経路の移動にかかる時間を算出してもよい。このような処理によれば、例えば、第1エリアA1の代表位置に到達するまでに必要な時間tdが「10分≦td≦20分」の範囲に収まるエリアを第2エリアA21として抽出し、時間tdが「20分≦td≦30分」の範囲に収まるエリアを第2エリアA22として抽出すること等が可能となる。
 図5は、上述のように抽出された2つの第2エリアA21,A22の例を表す図である。図5に示されるように、移動時間に基づいて抽出される第2エリアA2の形状は、第1エリアA1の周辺の設備の状況(設けられている道路の種別及び法定速度等、並びに駅からの距離及び路線の運行間隔等)に応じて異なり得る。
 第2学習用統計量取得部123は、第2エリアA2の特徴を表す第2学習用統計量を取得する。以下、第2学習用統計量のいくつかの取得例について説明する。第2学習用統計量は、上述した第1学習用統計量と同様に、予測モデルの説明変数に対応する。
(第1の取得例)
 第2学習用統計量取得部123は、第2エリアA2に含まれる複数のメッシュの各々に関連付けられる統計データSTのうち、第1学習用統計量の取得対象期間として設定された対象期間(本実施形態では、2015年8月2日10時00分から同日16時00分までの6時間)と同じ期間についての統計データSTを取得してもよい。
 そして、第2学習用統計量取得部123は、当該複数のメッシュの各々の統計データSTに対して同じ期間及び同じ種類に関連付けられる統計量同士に対して所定の演算を行うことで得られる一以上の統計量を、各期間についての第2学習用統計量として取得する。一以上の統計量は、例えば、平均値、最大値、最小値、中央値、及び分散等の所定の演算により得られる値である。なお、第2エリアA2に部分的に含まれるメッシュの統計データSTの取扱いは、上述した第1学習用統計量を取得する処理における、第1エリアA1に部分的に含まれるメッシュの統計データSTの取扱いと同様である。
(第2の取得例)
 第2学習用統計量取得部123は、第1学習用統計量の取得対象期間として設定された対象期間と所定の時間差を有する期間についての統計量を、第2学習用統計量として取得してもよい。具体的には、第2学習用統計量取得部123は、第1エリアA1と第2エリアA2との間の移動に要する移動時間(上記第4の抽出例において説明した移動時間と同様)に基づいて、所定の時間差を決定してもよい。ある時点に第2エリアA2に滞在する人が第1エリアA1でタクシーに乗る可能性があるのは(すなわち、ある時点の第2エリアA2の滞在人口が第1エリアA1のタクシー需要に影響を及ぼす可能性があるのは)、当該時点から少なくとも上記移動時間後であると考えられる。したがって、第2エリアA2についての統計データSTの取得対象期間を、対象期間(第1エリアA1の統計データSTの取得対象期間)よりも上記移動時間だけ前にずらすことにより、第1エリアA1のタクシー需要を予測する上で、より意味のある(有益な)データを説明変数とすることが可能となる。
 例えば、図3の(B)に示される第2エリアA21から第1エリアA1の代表位置に到達するまでに必要な移動時間の平均値が30分である場合、第2学習用統計量取得部123は、第2エリアA21に関して、30分を所定の時間差として決定してもよい。この場合、第2学習用統計量取得部123は、第2エリアA21に含まれる複数のメッシュの各々に関連付けられる統計データSTのうち、上記対象期間よりも30分だけ前にずらした時間帯(本実施形態では、2015年8月2日09時30分から同日15時30分までの6時間)についての統計データSTを取得してもよい。第2エリアA21に含まれる複数のメッシュの各々に関連付けられる統計データSTを取得した後の処理は、上述した第1の取得例と同様である。第2エリアA2が複数存在する場合には、上述した第2の取得例の処理は、各第2エリアA2について個別に実行される。
(第3の取得例)
 第2学習用統計量取得部123は、第1エリアA1の需要実績値と第2エリアA2の滞在人口との関係に基づいて、所定の時間差を決定してもよい。ある時点の第2エリアA2の滞在人口が第1エリアA1のタクシー需要に影響を及ぼすのは、必ずしも当該時点から上記移動時間後とは限らない。そこで、第2学習用統計量取得部123は、過去の実績値(統計データST)に基づいて、第1エリアA1の需要実績値(乗車数)と第2エリアA2の滞在人口(本実施形態では、前時間帯からの人口差分)との相関が最大となるような時間差を求める。
 図6は、1時間毎に区切られた時間帯毎の、第1エリアA1の乗車数、第2エリアA2の滞在人口、及び第2エリアA2の前時間帯からの人口差分の例を表している。このようなデータは、第1エリアA1に含まれる各メッシュの統計データST及び第2エリアA2に含まれる各メッシュの統計データSTから得られる。第2学習用統計量取得部123は、下記式により表される相関φが最大となる時間差τを所定の時間差として決定する。
Figure JPOXMLDOC01-appb-M000001
 x[k]は時間帯k(例えば15時から16時までの時間帯についてはk=15)における第1エリアA1の乗車数である。y[k]は時間帯kにおける第2エリアA2の人口差分である。図6の例では、「τ=-2(時間)」のときに相関φは最大となるため、第2学習用統計量取得部123は、2時間を所定の時間差として決定する。すなわち、第2学習用統計量取得部123は、第2エリアA2についての統計データSTの取得対象期間を、上記対象期間よりも2時間だけ前にずらす。第2エリアA21に含まれる複数のメッシュの各々に関連付けられる統計データSTを取得した後の処理は、上述した第1の取得例と同様である。第2エリアA2が複数存在する場合には、上述した第3の取得例の処理は、各第2エリアA2について個別に実行される。
(第4の取得例)
 例えば、各時間帯の人口差分(前時間帯からの人口差分)を説明変数として用いる場合であって、第2エリアA2で開催されるイベント(例えば、コンサート及びスポーツ観戦等)の開催期間(例えば開始時刻及び終了時刻)が予め把握されている場合について考える。ここでは特に、イベントの終了時刻から第2の取得例で説明した移動時間だけ経過した時刻が、第1学習用統計量取得部121が第1エリアA1の需要実績値の取得対象期間に含まれる場合について考える。この場合、第1エリアA1の需要実績値は、イベントによる集客数(すなわち、イベント開始時における第2エリアA2の人口増分)と相関があると考えられる。したがって、このような場合には、第2学習用統計量取得部123は、イベント開始からイベント終了までのイベント開催時間(例えば2時間)と上記移動時間との和による求まる時間差を、所定の時間差としてもよい。
 上述した第1学習用統計量取得部121、第2エリア抽出部122、及び第2学習用統計量取得部123の処理により、予測モデルを生成するために必要な学習データが生成される。1つの学習データは、第1学習用統計量及び第2学習用統計量を説明変数とし、第1エリアA1の需要実績値を目的変数とするデータである。第1学習用統計量取得部121、第2エリア抽出部122、及び第2学習用統計量取得部123は、複数のエリア及び複数の対象期間(第1学習用統計量の取得対象期間)の組み合わせについて、上述の処理を実行してもよい。これにより、様々なバリエーションの学習データが得られる。なお、1つの予測モデルを生成する際には、同一の基準によって取得された説明変数を含む複数の学習データが利用され得る。すなわち、1つの学習データを生成するために利用される複数の学習データは、第2エリアA2の抽出及び第2学習用統計量の取得の両方において共通の手法を用いることにより得られた学習データである。
 生成部124は、第1学習用統計量及び第2学習用統計量と第1エリアA1の需要実績値とを関連付けたデータを学習データとして用いた機械学習を実行することにより、予測モデルを生成する。生成部124は、上述のように生成された複数の学習データを用いることにより、予測モデルを生成する。予測モデルは、第1エリアに対応する予測対象エリアについての第1学習用統計量及び第2学習用統計量に対応する入力データを説明変数として受け付けた場合に、予測対象エリアの需要予測値を目的変数として出力するモデルである。生成部124により生成された予測モデルは、記憶部11に記憶される。
 予測モデルの生成に用いられる機械学習の具体的な手法は限定されないが、生成部124は、例えば、所謂ディープラーニングの手法を用いることにより、予測モデルを生成してもよい。このような予測モデルは、例えば予測処理を行う従来のニューラルネットワークに加えて、その前段の処理として特徴量(説明変数)の抽象化を実行する積層自己符号器(Stacked Auto-Encoder)等を含み得る。
 以上説明したモデル生成部12の処理により、予測対象エリアのタクシー需要(乗客数)を予測するための予測モデルが用意される。続いて、当該予測モデルを用いて実際に需要予測を行うための各機能要素について説明する。
 第1統計量取得部13は、所定のサービスの需要(本実施形態ではタクシー需要)の予測対象となる予測対象エリアについての過去期間に関連付けられる特徴を表す第1統計量を取得する。例えば、第1統計量取得部13は、オペレータからの入力を受け付けることにより、予測対象エリア(例えば1メッシュ)を把握する。そして、第1統計量取得部13は、当該予測対象エリアの現時点から30分間のタクシー需要を予測するために必要な第1統計量を取得する。
 ここで、予測対象エリア及び第1統計量は、モデル生成部12により扱われる第1エリア及び第1学習用統計量に対応する。したがって、第1統計量取得部13は、第1エリアに対する第1学習用統計量を取得する処理(第1学習用統計量取得部121の処理)と同様の処理により、予測対象エリアに対する第1統計量を取得できる。例えば本実施形態では、第1学習用統計量として、第1エリアの需要実績値に対応する期間の直前6時間分についての第1エリアに含まれるメッシュの統計データSTが取得される。この場合、第1統計量取得部13は、予測モデル生成時における処理と同様に、現時点の直前6時間分についての予測対象エリアに含まれるメッシュの統計データSTを、第1統計量として取得すればよい。
 エリア抽出部14は、予測対象エリアとは大きさが異なり、予測対象エリアを包囲する、少なくとも1つの関連エリアを抽出する。
 ここで、関連エリアは、モデル生成部12により扱われる第2エリアに対応する。したがって、エリア抽出部14は、第1エリアに対する第2エリアを抽出する処理(第2エリア抽出部122の処理)と同様の処理により、予測対象エリアに対する関連エリアを取得できる。例えば上述した第1の抽出例では、1メッシュにより構成される第1エリアA1に対して、当該第1エリアA1を包囲する8メッシュからなる第2エリアA21及び16メッシュからなるA22が抽出された。このような抽出手法により得られた学習データを用いて生成された予測モデルを用いる場合、エリア抽出部14は、予測モデル生成時における処理と同様に、1メッシュにより構成される予測対象エリアを包囲する8メッシュからなる関連エリア及び16メッシュからなる関連エリアを抽出すればよい。すなわち、予測モデルを生成する際の第2エリアA2の抽出手法として上述した第1~第3の抽出例が採用されている場合、エリア抽出部14は、上述した第2エリア抽出部122による処理と同様に、予測対象エリアからの距離に基づいて関連エリアを抽出する。一方、予測モデルを生成する際の第2エリアA2の抽出手法として上述した第4の抽出例が採用されている場合、エリア抽出部14は、上述した第2エリア抽出部122による処理と同様に、予測対象エリアとの間の移動に要する移動時間に基づいて関連エリアを抽出する。
 第2統計量取得部15は、関連エリアの特徴を表す第2統計量を取得する。
 ここで、第2統計量は、モデル生成部12により扱われる第2学習用統計量に対応する。したがって、第2統計量取得部15は、第2エリアに対する第2学習用統計量を取得する処理(第2学習用統計量取得部123の処理)と同様の処理により、関連エリアに対する第2統計量を取得できる。
 予測モデルについて上述した第2の取得例が採用されている場合について考える。この場合、第2統計量取得部15は、過去期間(第1統計量の取得対象とされた期間)と所定の時間差を有する期間についての統計量であって、関連エリアの滞在人口に関する情報を含む統計量を、第2統計量として取得する。具体的には、第2統計量取得部15は、予測対象エリアとの間の移動に要する移動時間に基づいて、所定の時間差を決定する。この場合、第2統計量取得部15は、上述した第2の取得例において、第1学習用統計量、第2学習用統計量、第1エリア、及び第2エリアを、第1統計量、第2統計量、予測対象エリア、及び関連エリアと読み替えた場合の処理を実行すればよい。
 予測モデルについて上述した第3の取得例が採用されている場合について考える。この場合、第2統計量取得部15は、予測対象エリアの需要実績値と関連エリアの滞在人口との関係に基づいて、所定の時間差を決定する。この場合、第2統計量取得部15は、上述した第3の取得例において、第2学習用統計量、第1エリア、及び第2エリアを、第2統計量、予測対象エリア、及び関連エリアと読み替えた場合の処理を実行すればよい。
 予測モデルについて上述した第4の取得例が採用されている場合について考える。この場合、第2統計量取得部15は、上述した第4の取得例において、第2学習用統計量、第1エリア、及び第2エリアを、第2統計量、予測対象エリア、及び関連エリアと読み替えた場合の処理を実行すればよい。
 需要予測部16は、第1統計量と第2統計量とを予め用意された予測モデル(モデル生成部12により生成された予測モデル)に入力することにより、予測対象エリアの需要予測値(タクシー乗客数の予測値)を取得する。具体的には、需要予測部16は、予測モデルによる出力結果を、予測対象エリアの需要予測値として取得する。このようにして取得された需要予測値は様々な用途に用いられ得る。例えば、需要予測部16は、需要予測値をディスプレイ等に表示することで、オペレータに予測結果を提示してもよい。また、上述した第1統計量取得部13、エリア抽出部14、第2統計量取得部15、及び需要予測部16は、複数の異なる予測対象エリアについて処理を実行してもよい。この場合に得られる各エリアの需要予測値は、例えばタクシーの各エリアへの効率的な配車を実現するための配車制御等に利用されてもよい。
 図7に示されるフローチャートを参照して、モデル生成部12の処理手順について説明する。
 ステップS1において、第1学習用統計量取得部121は、例えばオペレータによる入力を受け付けることにより、第1エリア及び対象期間を設定する。例えば、メッシュ1つ分のエリアが第1エリアとして設定され得る。対象期間は、統計データSTが記憶されている期間のうちから任意に抽出された期間(例えば6時間)である。
 ステップS2において、第1学習用統計量取得部121は、第1エリアA1の対象期間における第1学習用統計量を取得する。また、第1学習用統計量取得部121は、対象期間よりも後の期間(例えば対象期間の終了時点から30分間)に関連付けられた第1エリアA1の需要実績値(乗車数)を取得する。
 ステップS3において、第2エリア抽出部122は、第1エリアA1とは大きさが異なり、第1エリアA1を包囲する、少なくとも1つの第2エリアA2を抽出する。第2エリア抽出部122は、例えば上述した第1~第4の抽出例のいずれかの手法により、第2エリアA2を抽出する。
 ステップS4において、第2学習用統計量取得部123は、第2エリアA2の第2学習用統計量を取得する。第2学習用統計量取得部123は、例えば上述した第1~第4の取得例のいずれかの手法により、第2学習用統計量の取得対象期間(第1学習用統計量の取得対象期間である対象期間と同一又は対象期間よりも前の期間)を決定する。
 ステップS5において、モデル生成部12は、第1学習統計量及び需要実績値と第2学習用統計量とに基づいて、一組の学習データ(説明変数としての第1学習用統計量及び第2学習用統計量と目的変数としての第1エリアA1の需要実績値とを含むデータ)を生成する。
 ステップS6において、モデル生成部12は、他の学習データを生成するか否かを判定する。例えば、モデル生成部12は、予測モデルを生成するために適切な数(例えば予めオペレータにより設定される数)の学習データが得られたと判定できるまで、学習データの生成処理(ステップS1~S5)を繰り返し実行してもよい(ステップS6:NO)。一方、モデル生成部12は、適切な数の学習データが得られたと判定できた場合(ステップS6:YES)、ステップS7の処理に進む。
 ステップS7において、生成部124は、ステップS5において生成された学習データを用いた機械学習を実行することにより、予測モデルを生成する。生成された予測モデルは、例えば記憶部11に記憶される。
 図8に示されるフローチャートを参照して、予測対象エリアの需要予測値を実際に予測するための処理手順について説明する。
 ステップS11において、第1統計量取得部13は、例えばオペレータによる入力を受け付けることにより、需要予測の対象となる予測対象エリアを選択する。
 ステップS12において、第1統計量取得部13は、予測対象エリアについての過去期間(現時点の直前6時間)に関連付けられる特徴を表す第1統計量を取得する。より具体的には、第1統計量取得部13は、第1エリアA1に対する第1学習用統計量を取得する処理(第1学習用統計量取得部121の処理)と同様の処理により、予測対象エリアに対する第1統計量を取得する。
 ステップS13において、エリア抽出部14は、予測対象エリアとは大きさが異なり、予測対象エリアを包囲する、少なくとも1つの関連エリアを抽出する。より具体的には、エリア抽出部14は、第1エリアA1に対する第2エリアA2を抽出する処理(第2エリア抽出部122の処理)と同様の処理により、予測対象エリアに対する関連エリアを取得する。
 ステップS14において、第2統計量取得部15は、関連エリアの第2統計量を取得する。より具体的には、第2統計量取得部15は、第2エリアに対する第2学習用統計量を取得する処理(第2学習用統計量取得部123の処理)と同様の処理により、関連エリアに対する第2統計量を取得する。
 ステップS15において、需要予測部16は、第1統計量と第2統計量とを予め用意された予測モデル(モデル生成部12により生成された予測モデル)に入力することにより、予測対象エリアの需要予測値を取得する。
 以上述べたサーバ10は、予測対象エリアの統計量(第1統計量)と共に、予測対象エリアとは大きさが異なり、予測対象エリアを包囲する、関連エリアの統計量(第2統計量)に基づいて、当該予測対象エリアの需要予測値を算出する。このような関連エリアの第2統計量は、どのエリアを予測対象エリアとして選択するかによらず、予測対象エリアの需要予測の精度を高めるために有用なデータとなり得る。したがって、サーバ10によれば、複数のエリアに共通の予測モデルを用いた場合において、エリア毎の予測精度のバラツキを抑制できる。その結果、各予測対象エリアの需要予測の精度を向上させることができ、各予測対象エリアにおけるサービス提供(本実施形態では、タクシーの適切な配車)を円滑に行うことが可能となる。
 予測対象エリアは、地理的な区画として予め設定されたメッシュ1つ分の領域であり、関連エリアは、複数のメッシュからなる領域であってもよい。例えば、予測対象エリア及び関連エリアは、上述した第1又は第2の抽出例における第1エリアA1及び第2エリアA2と同様に設定されてもよい。このように予測対象エリアの周囲の複数のメッシュをひとまとめにした領域を関連エリアとして設定することにより、上述した効果を奏すると共に、各メッシュを個別に扱う場合と比較して説明変数(第2統計量)を削減することができる。
 エリア抽出部14は、予測対象エリアからの距離に基づいて、関連エリアを抽出してもよい。例えば、エリア抽出部14は、上述した第1~第3の抽出例における処理と同様の処理により、関連エリアを抽出してもよい。この場合、予測対象エリアの将来需要に与える影響度(すなわち、距離が近い程影響度が大きい)に基づいて、関連エリアを設定できる。
 エリア抽出部14は、予測対象エリアとの間の移動に要する移動時間に基づいて、関連エリアを抽出してもよい。例えば、エリア抽出部14は、上述した第4の抽出例における処理と同様の処理により、関連エリアを抽出してもよい。この場合、予測対象エリアの将来需要に与える影響度(すなわち、移動時間が短い程影響度が大きい)に基づいて、関連エリアを設定できる。
 第2統計量取得部15は、過去期間と所定の時間差を有する期間についての統計量であって、関連エリアの滞在人口に関する情報を含む統計量を、第2統計量として取得してもよい。第2統計量取得部15は、予測対象エリアと関連エリアとの間の移動に要する移動時間に基づいて、所定の時間差を決定してもよい。例えば、所定の時間差は、上述した第2の取得例における処理と同様の処理により決定されてもよい。このように、関連エリアの滞在人口が予測対象エリアにおけるタクシー需要に影響を与えるまでの時間差を考慮して、第2統計量の取得対象期間を第1統計量の取得対象期間より過去にずらすことにより、より意味のある(有益な)データを説明変数とすることが可能となる。
 第2統計量取得部15は、予測対象エリアの需要実績値と関連エリアの滞在人口との関係に基づいて、所定の時間差を決定してもよい。例えば、所定の時間差は、上述した第3の取得例における処理と同様の処理により決定されてもよい。このように、予測対象エリアの需要実績値と関連エリアの滞在人口との関係(本実施形態では、需要実績値と人口差分との相関)に基づいて時間差を決定することにより、より一層意味のある(有益な)データを説明変数とすることが可能となる。
 サーバ10は、モデル生成部12を備える。モデル生成部12は、少なくとも1つの第1エリアA1について、所定の対象期間に関連付けられる第1エリアA1の特徴を表す第1学習用統計量と、対象期間よりも後の期間に関連付けられる第1エリアA1の需要実績値とを取得する第1学習用統計量取得部121と、第1エリアA1とは大きさが異なり、第1エリアA1を包囲する、少なくとも1つの第2エリアA2を抽出する第2エリア抽出部122と、第2エリアA2の特徴を表す第2学習用統計量を取得する第2学習用統計量取得部123と、第1学習用統計量及び第2学習用統計量と第1エリアA1の需要実績値とを関連付けたデータを学習データとして用いた機械学習を実行することにより、予測モデルを生成する生成部124と、を有する。このようなモデル生成部12により、エリア毎の予測精度のバラツキを抑制できる予測モデルを生成できる。
 なお、本発明は上記実施形態に限定されない。例えば、予測モデルの説明変数には、上記例示した統計量以外の特徴量が含まれてもよい。例えば、エリア内に含まれる施設(例えば駅等)の個数等の、期間に依存しない特徴量が、説明変数に加えられてもよい。また、同一曜日かつ同一時間帯の平均需要(タクシー乗車数の平均)等の、周期的に繰り返される時期的な関連性に基づく特徴量が、説明変数に加えられてもよい。また、上記実施形態では、タクシーの乗客数を予測対象としたが、予測対象となる需要はこれに限定されず、本発明は様々なサービスの需要の予測に適用可能である。例えば、本発明は商品の売上の予測(目的変数は売上の個数又は金額)等にも適用可能である。
 なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック(構成部)は、ハードウェア及び/又はソフトウェアの任意の組み合わせによって実現される。また、各機能ブロックの実現手段は特に限定されない。すなわち、各機能ブロックは、物理的及び/又は論理的に結合した1つの装置により実現されてもよいし、物理的及び/又は論理的に分離した2つ以上の装置を直接的及び/又は間接的に(例えば、有線及び/又は無線で)接続し、これら複数の装置により実現されてもよい。
 例えば、上記実施形態におけるサーバ10は、上記実施形態のサーバ10の処理を行うコンピュータとして機能してもよい。図9は、本実施形態に係るサーバ10のハードウェア構成の一例を示す図である。上述のサーバ10は、物理的には、プロセッサ1001、メモリ1002、ストレージ1003、通信装置1004、入力装置1005、出力装置1006、及びバス1007等を含むコンピュータ装置として構成されてもよい。
 なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニット等に読み替えてもよい。サーバ10のハードウェア構成は、図9に示された各装置を1つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。
 サーバ10における各機能は、プロセッサ1001、メモリ1002等のハードウェア上に所定のソフトウェア(プログラム)を読み込ませることで、プロセッサ1001が演算を行い、通信装置1004による通信、メモリ1002及びストレージ1003におけるデータの読み出し及び/又は書き込みを制御することで実現される。
 プロセッサ1001は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ1001は、周辺装置とのインターフェース、制御装置、演算装置、レジスタ等を含む中央処理装置(CPU:Central Processing Unit)で構成されてもよい。
 また、プロセッサ1001は、プログラム(プログラムコード)、ソフトウェアモジュール、及び/又はデータを、ストレージ1003及び/又は通信装置1004からメモリ1002に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、サーバ10の需要予測部16は、メモリ1002に格納され、プロセッサ1001で動作する制御プログラムによって実現されてもよく、図1に示した他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、1つのプロセッサ1001で実行される旨を説明してきたが、2以上のプロセッサ1001により同時又は逐次に実行されてもよい。プロセッサ1001は、1以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されてもよい。
 メモリ1002は、コンピュータ読み取り可能な記録媒体であり、例えば、ROM(Read Only Memory)、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)、RAM(Random Access Memory)等の少なくとも1つで構成されてもよい。メモリ1002は、レジスタ、キャッシュ、メインメモリ(主記憶装置)等と呼ばれてもよい。メモリ1002は、上記実施形態に係る情報処理方法(図7又は図8のフローチャートに示される手順等)を実施するために実行可能なプログラム(プログラムコード)、ソフトウェアモジュール等を保存できる。
 ストレージ1003は、コンピュータ読み取り可能な記録媒体であり、例えば、CD-ROM(Compact Disc ROM)等の光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Blu-ray(登録商標)ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー(登録商標)ディスク、磁気ストリップ等の少なくとも1つで構成されてもよい。ストレージ1003は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ1002及び/又はストレージ1003を含むデータベース、サーバ、その他の適切な媒体であってもよい。
 通信装置1004は、有線及び/又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア(送受信デバイス)であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュール等ともいう。
 入力装置1005は、外部からの入力を受け付ける入力デバイス(例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサ等)である。出力装置1006は、外部への出力を実施する出力デバイス(例えば、ディスプレイ、スピーカー、LEDランプ等)である。なお、入力装置1005及び出力装置1006は、一体となった構成(例えば、タッチパネル)であってもよい。
 また、プロセッサ1001及びメモリ1002等の各装置は、情報を通信するためのバス1007で接続される。バス1007は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。
 また、サーバ10は、マイクロプロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、PLD(Programmable Logic Device)、FPGA(Field Programmable Gate Array)等のハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ1001は、これらのハードウェアの少なくとも1つで実装されてもよい。
 以上、本発明について詳細に説明したが、当業者にとっては、本発明が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本発明は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更された態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本発明に対して何ら制限的な意味を有するものではない。
 本明細書で説明した各態様/実施形態の処理手順、フローチャート等は、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。
 入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理されてもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。
 判定は、1ビットで表される値(0か1か)によって行われてもよいし、真偽値(Boolean:true又はfalse)によって行われてもよいし、数値の比較(例えば、所定の値との比較)によって行われてもよい。
 本明細書で説明した各態様/実施形態は単独で用いられてもよいし、組み合わせて用いられてもよいし、実行に伴って切り替えて用いられてもよい。また、所定の情報の通知(例えば、「Xであること」の通知)は、明示的に行うものに限られず、暗黙的(例えば、当該所定の情報の通知を行わない)によって行われてもよい。
 ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能等を意味するよう広く解釈されるべきである。
 また、ソフトウェア、命令等は、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線(DSL)等の有線技術及び/又は赤外線、無線及びマイクロ波等の無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び/又は無線技術は、伝送媒体の定義内に含まれる。
 本明細書で説明した情報及び信号等は、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップ等は、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。
 なお、本明細書で説明した用語及び/又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。
 本明細書で使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。
 また、本明細書で説明した情報、パラメータ等は、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。
 上述したパラメータに使用される名称はいかなる点においても限定的なものではない。さらに、これらのパラメータを使用する数式等は、本明細書で明示的に開示したものと異なる場合もある。
 本明細書で使用する「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「決定」は、例えば、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up)(例えば、テーブル、データベースまたは別のデータ構造での探索)、確認(ascertaining)した事を「決定」したとみなす事などを含み得る。また、「決定」は、受信(receiving)(例えば、情報を受信すること)、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)(例えば、メモリ中のデータにアクセスすること)した事を「決定」したとみなす事などを含み得る。また、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「決定」したとみなす事を含み得る。つまり、「決定」は、何らかの動作を「決定」したとみなす事を含み得る。
 本明細書で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」との両方を意味する。
 本明細書で使用する「第1の」、「第2の」等の呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定するものではない。これらの呼称は、2つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第1及び第2の要素への参照は、2つの要素のみがそこで採用され得ること、又は何らかの形で第1の要素が第2の要素に先行しなければならないことを意味しない。
 「含む(including)」、「含んでいる(including)」、及びそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「又は(or)」は、排他的論理和ではないことが意図される。
 本明細書において、文脈又は技術的に明らかに1つのみしか存在しない装置であることが示されていなければ、複数の装置をも含むものとする。
 本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。
 10…サーバ、11…記憶部、12…モデル生成部、13…第1統計量取得部、14…エリア抽出部、15…第2統計量取得部、16…需要予測部、121…第1学習用統計量取得部、122…第2エリア抽出部、123…第2学習用統計量取得部、124…生成部、1001…プロセッサ、1002…メモリ、1003…ストレージ、1004…通信装置、1005…入力装置、1006…出力装置。

Claims (8)

  1.  所定のサービスの需要の予測対象となる予測対象エリアについての過去期間に関連付けられる特徴を表す第1統計量を取得する第1統計量取得部と、
     前記予測対象エリアとは大きさが異なり、前記予測対象エリアを包囲する、少なくとも1つの関連エリアを抽出するエリア抽出部と、
     前記関連エリアの特徴を表す第2統計量を取得する第2統計量取得部と、
     前記第1統計量と前記第2統計量とを予め用意された予測モデルに入力することにより、前記予測対象エリアの需要予測値を取得する需要予測部と、
    を備える、需要予測装置。
  2.  前記予測対象エリアは、地理的な区画として予め設定されたメッシュ1つ分の領域であり、
     前記関連エリアは、複数の前記メッシュからなる領域である、
    請求項1に記載の需要予測装置。
  3.  前記エリア抽出部は、前記予測対象エリアからの距離に基づいて、前記関連エリアを抽出する、
    請求項1又は2に記載の需要予測装置。
  4.  前記エリア抽出部は、前記予測対象エリアとの間の移動に要する移動時間に基づいて、前記関連エリアを抽出する、
    請求項1又は2に記載の需要予測装置。
  5.  前記第2統計量取得部は、前記過去期間と所定の時間差を有する期間についての統計量であって、前記関連エリアの滞在人口に関する情報を含む前記統計量を、前記第2統計量として取得する、
    請求項1~4のいずれか一項に記載の需要予測装置。
  6.  前記第2統計量取得部は、前記予測対象エリアと前記関連エリアとの間の移動に要する移動時間に基づいて、前記所定の時間差を決定する、
    請求項5に記載の需要予測装置。
  7.  前記第2統計量取得部は、前記予測対象エリアの需要実績値と前記滞在人口との関係に基づいて、前記所定の時間差を決定する、
    請求項5に記載の需要予測装置。
  8.  前記予測モデルを生成するモデル生成部を更に備え、
     前記モデル生成部は、
     少なくとも1つの第1エリアについて、所定の対象期間に関連付けられる前記第1エリアの特徴を表す第1学習用統計量と、前記対象期間よりも後の期間に関連付けられる前記第1エリアの需要実績値とを取得する第1学習用統計量取得部と、
     前記第1エリアとは大きさが異なり、前記第1エリアを包囲する、少なくとも1つの第2エリアを抽出する第2エリア抽出部と、
     前記第2エリアの特徴を表す第2学習用統計量を取得する第2学習用統計量取得部と、
     前記第1学習用統計量及び前記第2学習用統計量と前記第1エリアの前記需要実績値とを関連付けたデータを学習データとして用いた機械学習を実行することにより、前記予測モデルを生成する生成部と、
    を有する、請求項1~7のいずれか一項に記載の需要予測装置。
PCT/JP2018/018148 2017-05-11 2018-05-10 需要予測装置 WO2018207878A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019517694A JP6802916B2 (ja) 2017-05-11 2018-05-10 需要予測装置
US16/347,437 US20190332977A1 (en) 2017-05-11 2018-05-10 Demand forecast device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017094966 2017-05-11
JP2017-094966 2017-05-11

Publications (1)

Publication Number Publication Date
WO2018207878A1 true WO2018207878A1 (ja) 2018-11-15

Family

ID=64105073

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/018148 WO2018207878A1 (ja) 2017-05-11 2018-05-10 需要予測装置

Country Status (3)

Country Link
US (1) US20190332977A1 (ja)
JP (1) JP6802916B2 (ja)
WO (1) WO2018207878A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612183A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
JP2020166739A (ja) * 2019-03-29 2020-10-08 国立大学法人京都大学 位置情報に関連付けられたデータを利用してメッシュ統計を生成するためのシステム、方法、およびプログラム
WO2020213612A1 (ja) * 2019-04-16 2020-10-22 株式会社Nttドコモ 需要予測装置
JP2021082045A (ja) * 2019-11-20 2021-05-27 本田技研工業株式会社 将来性評価装置及び将来性評価方法
US11694554B2 (en) 2020-03-27 2023-07-04 Toyota Iidosha Kabushiki Kaisha Information processing apparatus, information processing method, and information processing system

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11394774B2 (en) * 2020-02-10 2022-07-19 Subash Sundaresan System and method of certification for incremental training of machine learning models at edge devices in a peer to peer network
US20210295224A1 (en) * 2020-03-23 2021-09-23 Lyft, Inc. Utilizing a requestor device forecasting model with forward and backward looking queue filters to pre-dispatch provider devices
CN112330215B (zh) * 2020-11-26 2024-02-02 长沙理工大学 一种城市用车需求量预测方法、设备及存储介质
CN113865603A (zh) * 2021-08-30 2021-12-31 东风柳州汽车有限公司 共享无人车路径规划方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736854A (ja) * 1993-07-21 1995-02-07 Tokyu Constr Co Ltd 需要予測装置及び方法
JP2011113141A (ja) * 2009-11-24 2011-06-09 Ntt Docomo Inc 需要予測装置及び需要予測方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736854A (ja) * 1993-07-21 1995-02-07 Tokyu Constr Co Ltd 需要予測装置及び方法
JP2011113141A (ja) * 2009-11-24 2011-06-09 Ntt Docomo Inc 需要予測装置及び需要予測方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111612183A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
JP2020166739A (ja) * 2019-03-29 2020-10-08 国立大学法人京都大学 位置情報に関連付けられたデータを利用してメッシュ統計を生成するためのシステム、方法、およびプログラム
JP7328650B2 (ja) 2019-03-29 2023-08-17 彰洋 佐藤 位置情報に関連付けられたデータを利用してメッシュ統計を生成するためのシステム、方法、およびプログラム
WO2020213612A1 (ja) * 2019-04-16 2020-10-22 株式会社Nttドコモ 需要予測装置
JP7478140B2 (ja) 2019-04-16 2024-05-02 株式会社Nttドコモ 需要予測装置
JP2021082045A (ja) * 2019-11-20 2021-05-27 本田技研工業株式会社 将来性評価装置及び将来性評価方法
JP7175873B2 (ja) 2019-11-20 2022-11-21 本田技研工業株式会社 将来性評価装置及び将来性評価方法
US11694554B2 (en) 2020-03-27 2023-07-04 Toyota Iidosha Kabushiki Kaisha Information processing apparatus, information processing method, and information processing system

Also Published As

Publication number Publication date
JPWO2018207878A1 (ja) 2019-06-27
JP6802916B2 (ja) 2020-12-23
US20190332977A1 (en) 2019-10-31

Similar Documents

Publication Publication Date Title
WO2018207878A1 (ja) 需要予測装置
CN106471851B (zh) 基于学习模型的设备定位
CN111563521B (zh) 特定于场所的异常检测
JP6810786B2 (ja) 需要予測装置
US11507580B2 (en) Methods and apparatus to partition data
CN110443657B (zh) 客户流量数据处理方法、装置、电子设备及可读介质
JP6842533B2 (ja) 需要予測装置
US20210174270A1 (en) Rideshare vehicle demand forecasting device, method for forecasting rideshare vehicle demand, and storage medium
CN109978619B (zh) 机票定价策略筛选的方法、系统、设备以及介质
JP2012050241A (ja) 需要予測システム及び需要予測方法
CN111724184A (zh) 一种转化概率预测方法及装置
CN112396231A (zh) 针对时空数据的建模方法、装置、电子设备及可读介质
JP7033515B2 (ja) 交通状況予測装置
CN111123778B (zh) 监控车辆使用状况的方法、装置及电子设备
Nicoletta et al. Bayesian spatio-temporal modelling and prediction of areal demands for ambulance services
JP6946542B2 (ja) 学習システム、推定システム及び学習済モデル
CN111325614B (zh) 电子对象的推荐方法、装置和电子设备
JPWO2019167684A1 (ja) 在宅予測装置
US20220399021A1 (en) Interaction assistance device
CN111339432A (zh) 电子对象的推荐方法、装置和电子设备
CN112906723A (zh) 一种特征选择的方法和装置
CN111861538A (zh) 信息推送方法、装置、电子设备和存储介质
CN114091625B (zh) 一种基于故障代码序列的车辆零件失效预测方法及系统
CN113095756B (zh) 异常运单特征确定方法、装置、设备和计算机可读介质
WO2020230735A1 (ja) 需要予測装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18798741

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019517694

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18798741

Country of ref document: EP

Kind code of ref document: A1