WO2022118428A1 - 行動予測方法、行動予測装置及びプログラム - Google Patents

行動予測方法、行動予測装置及びプログラム Download PDF

Info

Publication number
WO2022118428A1
WO2022118428A1 PCT/JP2020/045032 JP2020045032W WO2022118428A1 WO 2022118428 A1 WO2022118428 A1 WO 2022118428A1 JP 2020045032 W JP2020045032 W JP 2020045032W WO 2022118428 A1 WO2022118428 A1 WO 2022118428A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
time
person
action
certain
Prior art date
Application number
PCT/JP2020/045032
Other languages
English (en)
French (fr)
Inventor
健 倉島
浩之 戸田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US18/250,089 priority Critical patent/US20230394363A1/en
Priority to JP2022566576A priority patent/JP7476984B2/ja
Priority to PCT/JP2020/045032 priority patent/WO2022118428A1/ja
Publication of WO2022118428A1 publication Critical patent/WO2022118428A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a behavior prediction method, a behavior prediction device, and a program.
  • hyperparameters for example, the number of layers in deep learning and the number of nodes (neurons) in each layer. I had to spend a lot of time tuning.
  • the present invention has been made in view of the above points, and an object of the present invention is to improve the efficiency of behavior prediction.
  • the first extraction procedure for extracting the first feature amount indicating the effort of the certain person until the numerical value exceeds the threshold value, and from the first action history, the certain person by the certain time point.
  • a second extraction procedure for extracting a second feature amount indicating the degree of acclimatization to the state indicated by the threshold, the first feature amount, the second feature amount, and the first action history.
  • the person in a situation where a person given a rating indicating a status (state) changes his / her rating probabilistically according to the result of taking a certain action, the person takes the next action.
  • the behavior prediction device 10 that predicts the time from the behavior history is disclosed (for example, a person can participate in some game, and the rating indicating the game skill of the person changes according to the result).
  • the rating for example, when the rating of a person exceeds a certain value, some title is given).
  • rating is a general term that means a numerical value of a person's status in a broad sense, such as a person's evaluation points and the amount of money owned.
  • the operation is described as the case where the higher the rating, the better the evaluation, but even if the opposite is true, the operation is performed by reversing the operation.
  • the reference point is a person such as a rounding value in the rating (a numerical value divisible by 100, etc.), a maximum value (minimum value) of the rating recorded in the past, a rating value that is a boundary (stage) to which a title is given, and the like. It is a general term that means a numerical value that is used as a reference when judging value.
  • FIG. 1 is a diagram showing a hardware configuration example of the behavior prediction device 10 according to the embodiment of the present invention.
  • the behavior prediction device 10 of FIG. 1 includes a drive device 100, an auxiliary storage device 102, a memory device 103, a processor 104, an interface device 105, and the like, which are connected to each other by a bus B, respectively.
  • the program that realizes the processing in the behavior prediction device 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed in the auxiliary storage device 102 from the recording medium 101 via the drive device 100.
  • the program does not necessarily have to be installed from the recording medium 101, and may be downloaded from another computer via the network.
  • the auxiliary storage device 102 stores the installed program and also stores necessary files, data, and the like.
  • the memory device 103 reads a program from the auxiliary storage device 102 and stores it when there is an instruction to start the program.
  • the processor 104 is a CPU or GPU (Graphics Processing Unit), or a CPU and GPU, and executes a function related to the behavior prediction device 10 according to a program stored in the memory device 103.
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 2 is a diagram showing a functional configuration example of the behavior prediction device 10 according to the embodiment of the present invention.
  • the behavior prediction device 10 includes an operation unit 11, an output unit 12, a labor degree extraction unit 13, a habituation degree extraction unit 14, a prediction model construction unit 15, and a time prediction unit 16. Each of these parts is realized by a process of causing the processor 104 to execute one or more programs installed in the behavior prediction device 10.
  • the behavior prediction device 10 also utilizes the prediction model storage unit 17.
  • the prediction model storage unit 17 can be realized by using, for example, an auxiliary storage device 102, a storage device that can be connected to the behavior prediction device 10 via a network, or the like.
  • the labor degree extraction unit 13, the habituation degree extraction unit 14, and the prediction model construction unit 15 are connected to an external reference point / action history storage unit 20.
  • the reference point / action history storage unit 20 is shown outside the behavior prediction device 10, but the behavior prediction device 10 may have the reference point / behavior history storage unit 20.
  • the reference point / action history storage unit 20 stores information indicating the reference point (reference point information) and action history information of each of the plurality of persons.
  • the reference point / action history storage unit 20 reads the reference point information and the action history information of the person in accordance with the request from the action prediction device 10, and transmits these information to the action prediction device 10.
  • Each element of the action history information indicates an action event, where t indicates the time when the action was taken (timing such as time) and s indicates the rating of the person after the action was taken.
  • the reference point / action history storage unit 20 stores such action history information regarding a plurality of persons.
  • the operation unit 11 receives an operation related to execution of the prediction model construction from the user of the behavior prediction device 10. When the operation unit 11 receives such an operation, the operation unit 11 transmits an execution command regarding the construction of the prediction model to the labor degree extraction unit 13 and the habituation degree extraction unit 14. When the operation unit 11 also receives the action history information of the person who wants to perform the prediction (the person to be predicted) (the format of the action history information is as described above), the operation unit 11 transfers the action history information to the time prediction unit 16. Send.
  • the hardware for the operation unit 11 to receive the input is not limited to a predetermined one such as a keyboard, a mouse, a menu screen, and a touch panel.
  • the operation unit 11 is realized by, for example, a device driver of an input means such as a mouse or a process of causing the processor 104 to execute the control software of the menu screen.
  • the output unit 12 receives and outputs the prediction result transmitted from the time prediction unit 16.
  • the output is a concept including display on a display, printing on a printer, sound output, transmission to an external device, and the like.
  • the output unit 12 is, for example, a process in which the driver software of the output device, the driver software of the output device, the output device, or the like causes the processor 104 to execute.
  • the effort extraction unit 13 exceeds the previous reference point r i-1 for a person who has exceeded a certain reference point r i (in a positive direction) at a certain point in time due to a change in rating due to a certain action event.
  • the feature amount (hereinafter referred to as "labor degree") indicating the degree of effort (how much effort is devoted) of the person from the time until the next reference point ri is exceeded is the behavior history information of the person and the person's behavior history information. Extract from reference point information.
  • the effort level extraction unit 13 for example, how many action events a person has performed from the time when the previous reference point r i-1 is crossed to the time when the next reference point r i is crossed, or the time.
  • the labor degree extraction unit 13 transmits the extracted feature amount as the labor degree to the prediction model construction unit 15.
  • the habituation degree extraction unit 14 has set the reference point ri (in a good direction) in the past for a person who has exceeded a reference point ri (in a good direction) at a certain point in time due to a change in rating due to a certain behavior event. ) Characteristic amount indicating how many times the person has exceeded the experience (characteristic amount indicating the degree (or degree) that the person is accustomed to the reference point ri) (hereinafter referred to as "acclimation degree”) Is extracted from the behavior history information and reference point information of the person concerned. The acclimation degree extraction unit 14 transmits the extracted feature amount as the habituation degree to the prediction model construction unit 15.
  • the prediction model building unit 15 builds (learns) a prediction model that predicts the time information that the person will take the next action based on the information about the person and the action history of the person.
  • the information about the person is a basic feature amount calculated from the action history information transmitted from the reference point / action history storage unit 20 (average value for each person at the time interval of the action event, average value for each person in the rating). Etc.).
  • the prediction model construction unit 15 also uses the labor degree and the habituation degree transmitted from the labor degree extraction unit 13 or the habituation degree extraction unit 14 as information about the person.
  • any supervised learning device such as a regression tree may be used.
  • the prediction model is common to a plurality of people. That is, the prediction model construction unit 15 learns the prediction model by using the information about the plurality of persons and the action history of the plurality of persons as learning data.
  • the prediction model storage unit 17 stores various information related to the prediction model transmitted from the prediction model construction unit 15.
  • the predictive model storage unit 17 may be anything as long as this information is stored and can be restored.
  • the information is stored in a database or a specific area of a general-purpose storage device (memory or hard disk device) provided in advance.
  • the time prediction unit 16 receives the prediction target behavior history information which is the behavior history information of the prediction target person transmitted from the operation unit 11, and the basic feature amount calculated from the prediction target behavior history information (behavior related to the person).
  • the average value of the time interval of the event, the average value of the rating related to the person concerned, etc.) and the effort level and the degree of acclimatization calculated from the predicted behavior history information by the effort level extraction unit 13 or the familiarity level extraction unit 14 are used as information on the person.
  • Time information (timing such as time) when the person to be predicted takes the next action using the information and the prediction model stored in the prediction model storage unit 17 (applying the prediction model to the information). Calculate the predicted value of.
  • FIG. 3 is a diagram for explaining the processing executed by each of the labor degree extraction unit 13 and the habituation degree extraction unit 14.
  • FIG. 3 shows the time-series changes in the ratings of the two persons (person A and person B).
  • the horizontal axis is time
  • the vertical axis is rating
  • the black circles are each action event.
  • the rating r 1 and the rating r 2 serving as reference points are shown by dotted lines.
  • the labor level extraction unit 13 showed that the person A exceeded the previous rating r1 three times. Since we have gone through an action event, we will extract these three times as the degree of effort.
  • the labor degree extraction unit 13 may extract delta1 at the time interval as the labor degree.
  • the habituation degree extraction unit 14 extracts 1 as the habituation degree because it is the first time that the person A has exceeded the rating r2 as a result of the rating increase.
  • the labor degree extraction unit 13 extracts the labor degree three times or delta3 as the labor degree. Since the experience of exceeding the rating r2 in a good direction is the second time, the habituation degree extraction unit 14 extracts 2 as the habituation degree of the person B.
  • the rating between r 1 and r 2 may be counted as 2 times after exceeding r 1 . .. Further, the count may be cleared at the timing of the case where the rating r 2 is exceeded for the first time, and then the number of times (1 time) of the rating between r 1 and r 2 may be used.
  • the prediction model construction unit 15 in the case of person A, the degree of effort (3 times or delta1), the degree of habituation (1 time), and the basic feature amount of person A (up to the i-th action event of person A). Generate a combination of data with delta2, which is the time interval until the i + 1th action event, as the explanatory variable, with the average value of the time interval, the average value of the rating up to the i-th action event of person A, etc.) as the explanatory variables. Then, based on these data, a prediction model is constructed (learned) using supervised learning techniques. Similarly, the prediction model construction unit 15 learns the prediction model based on the information about the person B. Such a prediction model can be used, for example, to predict the next behavior of person C (provided that it may be used for the next prediction of person A or person B).
  • the labor level is an example of the first feature amount.
  • the degree of acclimation is an example of the second feature amount.
  • the labor level extraction unit 13 is an example of the first extraction unit.
  • the acclimation degree extraction unit 14 is an example of the second extraction unit.
  • the prediction model construction unit 15 is an example of a learning unit.
  • the time prediction unit 16 is an example of the prediction unit.
  • the reference point is an example of the threshold value.
  • Behavior prediction device 11 Operation unit 12 Output unit 13 Labor level extraction unit 14 Familiarity extraction unit 15 Prediction model construction unit 16 Time prediction unit 17 Prediction model storage unit 20 Reference point / action history storage unit 100 Drive device 101 Recording medium 102 Auxiliary Storage device 103 Memory device 104 Processor 105 Interface device B Bus

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第1の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第1の特徴量を抽出する第1の抽出手順と、前記第1の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第2の特徴量を抽出する第2の抽出手順と、前記第1の特徴量及び前記第2の特徴量と、前記第1の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第1の特徴量及び前記第2の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習手順と、をコンピュータが実行することで、行動の予測を効率化する。

Description

行動予測方法、行動予測装置及びプログラム
 本発明は、行動予測方法、行動予測装置及びプログラムに関する。
 従来、人物に関する過去の履歴情報をもとに、深層学習技術を用いて人物が次の行動を起こす時間を予測する方法がある。例えば、時系列データの扱いに特化したLSTM(Long short-term memory)などのリカレントニューラルネットワークを使うことで、時系列データに存在する規則性又はパターンを自動的に抽出して、次に行動が起きる時間を予測することができる(例えば、非特許文献1)。
Hochreiter, Sepp and Schmidhuber, Jurgen. "Long short-term memory." Neural computation 9.8 (1997): 1735-1780.
 しかしながら、従来技術では、人物に関する過去の履歴情報から自動的に規則性又はパターンが抽出及び学習される。つまり、従来技術では、どのような特徴量を重視すべきか、どういった数式で予測を行うか、といったことを無数にある可能性の中から探し出す処理が行われる。したがって、従来技術を適用するためには大量のデータを用意する必要があり、大量のデータを用意ができない状況においては正確な予測が困難であった。
 また、従来技術においては、大量のデータが存在する状況においても、ハイパーパラメータと呼ばれる数値(例えば、深層学習における層数や各層におけるノード(ニューロン)数など)を人手で設定する必要があり、そのチューニングに多くの時間を割く必要があった。
 本発明は、上記の点に鑑みてなされたものであって、行動の予測を効率化することを目的とする。
 そこで上記課題を解決するため、或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第1の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第1の特徴量を抽出する第1の抽出手順と、前記第1の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第2の特徴量を抽出する第2の抽出手順と、前記第1の特徴量及び前記第2の特徴量と、前記第1の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第1の特徴量及び前記第2の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習手順と、をコンピュータが実行する。
 行動の予測を効率化することができる。
本発明の実施の形態における行動予測装置10のハードウェア構成例を示す図である。 本発明の実施の形態における行動予測装置10の機能構成例を示す図である。 労力度抽出部13及び馴化度抽出部14のそれぞれが実行する処理を説明するための図である。
 本実施の形態では、ステータス(状態)を示すレーティングが与えられた人物が、或る行動を起こした結果に応じて自身のレーティングが確率的に変化する状況において、その人物が次の行動を起こす時間を行動履歴から予測する行動予測装置10が開示される(例えば、人物は何らかのゲームに参加することができ、その結果に応じて人物のゲームスキルを示すレーティングが変化する。)。また、レーティングに関して何らかの参照点が存在する状況が想定される(例えば、人物のレーティングがある一定値以上になると、何らかの称号が与えられる状況など。)。
 なお、レーティングとは、人物の評価点、所有する金額など、広義の意味で人物のステータスを数値化したものを意味する総称をいう。本実施の形態では、レーティングが高いほど良い評価である場合として動作を述べるが、その逆であっても動作を逆転することで動作する。
 また、参照点とは、レーティングにおける丸め値(100で割り切れる数値など)、自身が過去に記録したレーティングの最大値(最小値)、称号が与えられる境目(段階)となるレーティング値など、人物が価値を判断する際に基準とする数値を意味する総称をいう。
 以下、図面に基づいて本発明の実施の形態を説明する。図1は、本発明の実施の形態における行動予測装置10のハードウェア構成例を示す図である。図1の行動予測装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
 行動予測装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従って行動予測装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図2は、本発明の実施の形態における行動予測装置10の機能構成例を示す図である。図2において、行動予測装置10は、操作部11、出力部12、労力度抽出部13、馴化度抽出部14、予測モデル構築部15及び時間予測部16を有する。これら各部は、行動予測装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。行動予測装置10は、また、予測モデル記憶部17を利用する。予測モデル記憶部17は、例えば、補助記憶装置102、又は行動予測装置10にネットワークを介して接続可能な記憶装置等を用いて実現可能である。なお、行動予測装置10の構成要素のうち、労力度抽出部13、馴化度抽出部14、予測モデル構築部15は外部の参照点・行動履歴記憶部20と接続される。図2において、参照点・行動履歴記憶部20は、行動予測装置10の外部に示されているが、行動予測装置10が参照点・行動履歴記憶部20を有してもよい。
 参照点・行動履歴記憶部20は、参照点を示す情報(参照点情報)と、複数の人物それぞれの行動履歴情報を記憶している。参照点・行動履歴記憶部20は、行動予測装置10からの要求に従って、参照点情報、人物の行動履歴情報を読み出し、これらの情報を行動予測装置10に送信する。M個の参照点は、
R=<r,r,…,r
と表現できる。rは特定のレーティングを示す数値であり、数値の昇順(r<ri+1)にソートされているとする。
 人物uの行動履歴情報は、
Hu={(su1,tu1),…,(sun,tun)}
と表現できる。行動履歴情報の各要素が行動イベントを示しており、tが行動を起こした時間(時刻等のタイミング)、sが行動を起こした後の人物のレーティングを示す。参照点・行動履歴記憶部20には、複数人物に関してのこのような行動履歴情報が記憶されている。
 操作部11は、行動予測装置10の利用者から、予測モデル構築の実行に関する操作を受け付ける。操作部11は、斯かる操作を受け付けると、予測モデルの構築に関する実行指令を労力度抽出部13及び馴化度抽出部14へ送信する。操作部11は、また、予測を実施したい人物(予測対象の人物)の行動履歴情報を受け付けると(行動履歴情報の形式は上記した通りである。)、当該行動履歴情報を時間予測部16に送信する。操作部11が入力を受け付けるためのハードウェアは、キーボードやマウスやメニュー画面やタッチパネル等、所定のものに限定されない。操作部11は、例えば、マウス等の入力手段のデバイスドライバや、メニュー画面の制御ソフトウェアがプロセッサ104に実行させる処理により実現される。
 出力部12は、時間予測部16から送信される予測結果を受け取り出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部装置への送信等を含む概念である。出力部12は、例えば、出力デバイスのドライバソフト、又は出力デバイスのドライバソフトと出力デバイス等がプロセッサ104に実行させる処理によりされる。
 労力度抽出部13は、或る行動イベントによるレーティングの変化により、或る時点において或る参照点rを(良い方向に)超えた人物に関して、一つ前の参照点ri-1を超えてから次の参照点rを超えるまでの当該人物の労力の度合い(どの程度労力を割いたか)を示す特徴量(以下、「労力度」という。))を当該人物の行動履歴情報及び参照点情報から抽出する。労力度抽出部13は、例えば、或る人物が、一つ前の参照点ri-1を超えてから次の参照点rを超えるまでに何回の行動イベントを行ったか、又は時間がどの程度かかったか(参照点ri-1を超えてから参照点rを超えるまでの経過時間)を数値化した値を労力度として、当該人物の行動履歴情報及び参照点情報に基づいて抽出する。労力度抽出部13は、抽出した労力度としての特徴量を予測モデル構築部15に送信する。
 馴化度抽出部14は、或る行動イベントによるレーティングの変化により、或る時点において或る参照点rを(良い方向に)超えた人物に関して、過去にその参照点rを(良い方向に)超えた経験を何度行ったことがあるかを示す特徴量(参照点rに当該人物が馴化している度合い(又は程度)を示す特徴量)(以下、「馴化度」という。)を当該人物の行動履歴情報及び参照点情報から抽出する。馴化度抽出部14は、抽出した馴化度としての特徴量を予測モデル構築部15に送信する。
 予測モデル構築部15は、人物に関する情報と当該人物の行動履歴に基づいて、当該人物が次に行動を起こす時間情報を予測する予測モデルを構築(学習)する。人物に関する情報は、参照点・行動履歴記憶部20から送信されてくる行動履歴情報から計算される基本的な特徴量(行動イベントの時間間隔の人物毎の平均値、レーティングの人物毎の平均値など)である。予測モデル構築部15は、更に、労力度抽出部13又は馴化度抽出部14から送信された労力度及び馴化度も人物に関する情報として用いる。予測モデルのパラメータ推定に用いる機械学習器は、回帰木など教師あり学習器であれば何を用いても良い。予測モデル構築部15によって構築した予測モデルに関する各種情報(例えば、予測モデルのパラメータ等)は予測モデル記憶部17に送信される。なお、予測モデルは、複数の人物に対して共通である。すなわち、予測モデル構築部15は、複数の人物に関する情報と、当該複数の人物の行動履歴を学習データとして、予測モデルを学習する。
 予測モデル記憶部17は、予測モデル構築部15から送信されてきた予測モデルに関する各種情報を記憶する。予測モデル記憶部17はこれらの情報が保存され、復元可能なものであればなんでもよい。例えば、当該情報は、データベースや、予め備えられた汎用的な記憶装置(メモリやハードディスク装置)の特定領域に記憶される。
 時間予測部16は、操作部11から送信された予測対象の人物の行動履歴情報である予測対象行動履歴情報を受け付け、予測対象行動履歴情報から計算される基本的な特徴量(当該人物に関する行動イベントの時間間隔の平均値、当該人物に関するレーティングの平均値など)と、労力度抽出部13又は馴化度抽出部14が予測対象行動履歴情報から計算した労力度及び馴化度とを人物に関する情報とし、当該情報と予測モデル記憶部17に記憶された予測モデルとを用いて(当該情報に当該予測モデルを適用して)、予測対象の人物が次に行動を起こす時間情報(時刻等のタイミング)の予測値を計算する。
 以下、具体的な例を用いて労力度抽出部13及び馴化度抽出部14のそれぞれが実行する処理について説明する。図3は、労力度抽出部13及び馴化度抽出部14のそれぞれが実行する処理を説明するための図である。図3には、2人の人物(人物A、人物B)のレーティングの時系列変化が示されている。横軸が時間、縦軸がレーティングであり、黒丸が各行動イベントである。また、参照点となるレーティングrとレーティングrが点線によって示されている。
 図中左側の人物Aのi番目の行動イベント(その結果、レーティングrを超えた)について、労力度抽出部13は、人物Aが、一つ前のレーティングrを超えてから3回の行動イベントを経ているため、この3回を労力度として抽出する。又は、労力度抽出部13は、時間間隔のdelta1を労力度として抽出しもよい。馴化度抽出部14は、レーティング上昇の結果、人物Aがレーティングrを超えた経験は初めてであるため、馴化度として1を抽出する。
 一方、図中右側の人物Bに関して、労力度抽出部13は、3回、又はdelta3を労力度として抽出する。馴化度抽出部14は、レーティングrを良い方向に超えた経験が2回目であるため、人物Bの馴化度として2を抽出する。なお、人物Bの労力のカウント方法だが、レーティングrを初めて超えたケースを除き、rを超えてからrとrの間のレーティングを記録した回数として2回とカウントしてもよい。また、レーティングrを初めて超えたケースのタイミングでカウントをクリアし、その後にrとrの間のレーティングだった回数(1回)を用いてもよい。
 予測モデル構築部15においては、人物Aのケースにおいては、労力度(3回又はdelta1)、馴化度(1回)、人物Aの基本的な特徴量(人物Aのi番目の行動イベントまでの時間間隔の平均値、人物Aのi番目の行動イベントまでのレーティングの平均値など)を説明変数として、i+1番目の行動イベントまでの時間間隔であるdelta2を被説明変数としたデータの組み合わせを生成し、これらのデータに基づいて予測モデルを教師あり学習技術を用いて構築(学習)する。予測モデル構築部15は、同様に、人物Bに関する情報にも基づいて予測モデルを学習する。斯かる予測モデルは、例えば、人物Cの次の行動の予測に用いることができる(但し、人物A又は人物Bの次の予測に用いられてもよい。)。
 上述したように、本実施の形態によれば、人間の行動を予測する上で重要な特徴・特徴量を明示的に指定し、どのような特徴量を重視すべきか、どういった数式で予測を行うか、についての無数にある可能性を適切に絞り込むことで、予測のためにデータから学習すべき事項を効率的に減らすことができる。そのため、少量のデータしか存在しない場合でも高精度な予測が可能となる。また、従来技術で必要としていたパラメータチューニングのコストを減らすこともできる。よって、行動の予測を効率化することができる。
 なお、本実施の形態において、労力度は、第1の特徴量の一例である。馴化度は、第2の特徴量の一例である。労力度抽出部13は、第1の抽出部の一例である。馴化度抽出部14は、第2の抽出部の一例である。予測モデル構築部15は、学習部の一例である。時間予測部16は、予測部の一例である。参照点は、閾値の一例である。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10     行動予測装置
11     操作部
12     出力部
13     労力度抽出部
14     馴化度抽出部
15     予測モデル構築部
16     時間予測部
17     予測モデル記憶部
20     参照点・行動履歴記憶部
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    プロセッサ
105    インタフェース装置
B      バス

Claims (7)

  1.  或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第1の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第1の特徴量を抽出する第1の抽出手順と、
     前記第1の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第2の特徴量を抽出する第2の抽出手順と、
     前記第1の特徴量及び前記第2の特徴量と、前記第1の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第1の特徴量及び前記第2の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習手順と、
    をコンピュータが実行することを特徴とする行動予測方法。
  2.  前記閾値は複数の段階を有し、
     前記第1の抽出手順は、前記或る時点において超えた第1の段階より一つ下の第2の段階を超えた時点から前記第1の段階を超えるまでの前記或る人の労力を示す第1の特徴量を抽出し、
     前記第2の抽出手順は、前記或る時点までに前記或る人が前記第1の段階に馴化している度合いを示す前記第2の特徴量を抽出する、
    ことを特徴とする請求項1記載の行動予測方法。
  3.  前記予測モデルを用いて、第2の行動履歴の次の行動の時間を予測する予測手順、
    をコンピュータが実行することを特徴とする請求項1又は2記載の行動予測方法。
  4.  或る人の複数の行動のそれぞれについて当該行動の時間と当該行動の後の前記或る人の状態を示す数値とを含む第1の行動履歴から、或る時点において前記数値が閾値を超えるまでの前記或る人の労力を示す第1の特徴量を抽出する第1の抽出部と、
     前記第1の行動履歴から、前記或る時点までに前記或る人が前記閾値の示す状態に馴化している度合いを示す第2の特徴量を抽出する第2の抽出部と、
     前記第1の特徴量及び前記第2の特徴量と、前記第1の行動履歴における或る時点の行動から次の行動までの時間間隔とに基づいて、前記第1の特徴量及び前記第2の特徴量を説明変数とし、前記時間間隔を被説明変数とする予測モデルを学習する学習部と、
    を有することを特徴とする行動予測装置。
  5.  前記閾値は複数の段階を有し、
     前記第1の抽出部は、前記或る時点において超えた第1の段階より一つ下の第2の段階を超えた時点から前記第1の段階を超えるまでの前記或る人の労力を示す第1の特徴量を抽出し、
     前記第2の抽出部は、前記或る時点までに前記或る人が前記第1の段階に馴化している度合いを示す前記第2の特徴量を抽出する、
    ことを特徴とする請求項4記載の行動予測装置。
  6.  前記予測モデルを用いて、第2の行動履歴の次の行動の時間を予測する予測部、
    を有することを特徴とする請求項4又は5記載の行動予測装置。
  7.  請求項1乃至3いずれか一項記載の行動予測方法をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2020/045032 2020-12-03 2020-12-03 行動予測方法、行動予測装置及びプログラム WO2022118428A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/250,089 US20230394363A1 (en) 2020-12-03 2020-12-03 Behavior prediction method, behavior prediction apparatus and program
JP2022566576A JP7476984B2 (ja) 2020-12-03 2020-12-03 行動予測方法、行動予測装置及びプログラム
PCT/JP2020/045032 WO2022118428A1 (ja) 2020-12-03 2020-12-03 行動予測方法、行動予測装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/045032 WO2022118428A1 (ja) 2020-12-03 2020-12-03 行動予測方法、行動予測装置及びプログラム

Publications (1)

Publication Number Publication Date
WO2022118428A1 true WO2022118428A1 (ja) 2022-06-09

Family

ID=81853065

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/045032 WO2022118428A1 (ja) 2020-12-03 2020-12-03 行動予測方法、行動予測装置及びプログラム

Country Status (3)

Country Link
US (1) US20230394363A1 (ja)
JP (1) JP7476984B2 (ja)
WO (1) WO2022118428A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250555A1 (en) * 2019-01-31 2020-08-06 Electronics And Telecommunications Research Institute Method and system for creating a game operation scenario based on gamer behavior prediction model

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250555A1 (en) * 2019-01-31 2020-08-06 Electronics And Telecommunications Research Institute Method and system for creating a game operation scenario based on gamer behavior prediction model

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HASHIMOTO KOHJIRO, DOKI KAE, DOKI SHINJI, OKUMA SHIGERU, TORII AKIHIRO: "Human behavior modeling method based on the causality between the situation and the behavior", IEEJ TRANSACTIONS ON ELECTRONICS, INFORMATION AND SYSTEMS, vol. 131, no. 3, 2011, pages 635 - 643, XP055943240, ISSN: 0385-4221 *

Also Published As

Publication number Publication date
JP7476984B2 (ja) 2024-05-01
JPWO2022118428A1 (ja) 2022-06-09
US20230394363A1 (en) 2023-12-07

Similar Documents

Publication Publication Date Title
KR101700140B1 (ko) 스파이킹 뉴럴 연산을 위한 방법들 및 장치
CN106471525A (zh) 增强神经网络以生成附加输出
KR20140128384A (ko) 스파이킹 뉴럴 연산을 위한 방법들 및 장치
WO2020155300A1 (zh) 一种模型预测方法及装置
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN111652453A (zh) 用于零件设计、仿真和制造的智能工作流程顾问
JP7279821B2 (ja) 意図特徴量抽出装置、学習装置、方法およびプログラム
CN111897960B (zh) 动态法律事件间的推理方法、装置、设备和存储介质
US10279267B2 (en) Monitoring game activity to detect a surrogate computer program
Yusupbekov et al. APC fuzzy model of estimation of cost of switches at designing and modernizations of data-computing networks
WO2022118428A1 (ja) 行動予測方法、行動予測装置及びプログラム
JPWO2021130916A5 (ja)
Chen et al. Model transferability with responsive decision subjects
Spenrath et al. Predicting business process bottlenecks in online events streams under concept drifts
CN112274935B (zh) Ai模型训练方法、使用方法、计算机设备及存储介质
JP6828834B2 (ja) 論理計算装置、論理計算方法、およびプログラム
CN113673811B (zh) 一种基于session的在线学习绩效评估方法及装置
de Heer et al. Predictive analytics for leadership assessment
JPWO2021095361A5 (ja)
Floyd et al. Building learning by observation agents using jloaf
CN113159504A (zh) 基于大数据分析的风险评估方法、计算机装置及可读存储介质
JP2020166645A (ja) 予測モデル評価システム、予測モデル評価方法
CN110348190A (zh) 基于用户操作行为的用户设备归属判断方法及装置
Elliott et al. Using supervised training signals of observable state dynamics to speed-up and improve reinforcement learning
WO2022259487A1 (ja) 予測装置、予測方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20964281

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022566576

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20964281

Country of ref document: EP

Kind code of ref document: A1