WO2022044315A1 - 学習装置、学習方法および学習プログラム - Google Patents

学習装置、学習方法および学習プログラム Download PDF

Info

Publication number
WO2022044315A1
WO2022044315A1 PCT/JP2020/032849 JP2020032849W WO2022044315A1 WO 2022044315 A1 WO2022044315 A1 WO 2022044315A1 JP 2020032849 W JP2020032849 W JP 2020032849W WO 2022044315 A1 WO2022044315 A1 WO 2022044315A1
Authority
WO
WIPO (PCT)
Prior art keywords
objective function
learning
parameter
input
extended
Prior art date
Application number
PCT/JP2020/032849
Other languages
English (en)
French (fr)
Inventor
力 江藤
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2022545247A priority Critical patent/JP7456512B2/ja
Priority to PCT/JP2020/032849 priority patent/WO2022044315A1/ja
Priority to US18/023,532 priority patent/US20230316132A1/en
Publication of WO2022044315A1 publication Critical patent/WO2022044315A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program for performing reverse reinforcement learning.
  • Non-Patent Document 1 describes maximum entropy reverse reinforcement learning, which is one of reverse reinforcement learning.
  • R (s, a) ⁇ ⁇ f (s, a).
  • Algorithms used in machine learning including inverse reinforcement learning as described in Non-Patent Document 1 generally maximize or minimize the objective function at the time of learning, such as maximizing likelihood and minimizing error function. The calculation is done. However, there are cases where the objective function at the time of learning does not always sufficiently express the intended action.
  • an object of the present invention is to provide a learning device, a learning method, and a learning program that can learn the degree to which the discrimination result is biased.
  • the learning device accepts an input of an extended objective function obtained by multiplying each term indicating the score of each discrimination result in the objective function of the discrimination analysis by a bias parameter which is a parameter indicating the degree of bias of the score of the discrimination result.
  • a bias parameter which is a parameter indicating the degree of bias of the score of the discrimination result.
  • the learning method according to the present invention is an extended objective function in which a computer multiplies each term indicating the score of each discrimination result in the objective function of the discrimination analysis by a bias parameter which is a parameter indicating the degree of bias of the score of each discrimination result.
  • the computer optimizes the weights of the logistic regression of the extended objective function, and the computer estimates the biased parameters by inverse reinforcement learning using the extended objective function of the logistic regression with the optimized weights set. It is characterized by doing.
  • the learning program according to the present invention is an extended objective function in which a computer is multiplied by a biased parameter, which is a parameter indicating the degree of bias of the score of each discrimination result, with each term indicating the score of each discrimination result in the objective function of the discrimination analysis.
  • Overweight parameters by inverse reinforcement learning using input processing that accepts input, optimization processing that optimizes the weights of logistic regression of the extended objective function, and extended objective function of logistic regression with optimized weights set. It is characterized in that an estimation process for estimating is executed.
  • the model is quantitatively constructed based on the training data.
  • the cross entropy error function is known as an objective function used when learning a model for performing binary discrimination.
  • the cross entropy error function is represented by, for example, Equation 1 illustrated below.
  • Equation 1 a i is a prediction model (output of the prediction model) for discrimination, and y i is correct answer data indicating a binary discrimination result such as abnormal or normal.
  • the first term in ⁇ on the right side is a term indicating a score that increases when an abnormality is determined to be abnormal
  • the second term in ⁇ on the right side increases when normal is determined to be normal. It is a term indicating the score to be performed.
  • the "score for determining an abnormality as an abnormality” and the "score for determining a normality as normal” are treated equally.
  • bias parameter a parameter indicating the degree of bias of the score of each discrimination result
  • This bias parameter is different from the existing hyperparameters that indicate the weight of the score itself of the discrimination result, and is a parameter that indicates the degree to which the discrimination result is emphasized.
  • the introduced biased parameter is estimated by reverse reinforcement learning.
  • FIG. 1 is a block diagram showing a configuration example of an embodiment of the learning device according to the present invention.
  • the learning device 100 of the present embodiment is a device that performs reverse reinforcement learning that estimates a reward (function) from the behavior of a subject.
  • the learning device 100 includes a storage unit 10, an input unit 20, a learning unit 30, and an output unit 40.
  • the storage unit 10 stores information necessary for the learning device 100 to perform various processes.
  • the storage unit 10 may store the decision-making history data (sometimes referred to as trajectory) of an expert used for learning by the learning unit 30, which will be described later, an objective function used for learning, and a prediction model.
  • the aspects of the objective function and the prediction model are predetermined.
  • an objective function obtained by multiplying each discriminant result term by a biased parameter is illustrated based on the cross entropy error function which is the objective function of the binary discriminant analysis.
  • the objective function into which the weight loss parameter is introduced (hereinafter, may be referred to as an extended objective function) is represented by the following equation 2.
  • Equation 2 exemplified below is the first term for calculating the score based on the first discriminant result in the objective function of the binary discriminant analysis, and the second term for calculating the score based on the second discriminant result, respectively. Shows an extended objective function multiplied by the discriminant parameters ⁇ 1 and ⁇ 2 .
  • logistic regression is exemplified as a prediction model.
  • Logistic regression is represented by Equation 3 exemplified below.
  • x i is a feature vector and w is a weight for each feature.
  • the decision-making history data used for reverse reinforcement learning includes, for example, address and gender, whether or not a specific product was purchased in the past, annual income, whether or not a family member is married, whether or not a specific commercial is viewed, and so on. Data including features such as the presence or absence of an Internet environment is used.
  • the aspect of the objective function (that is, the extended objective function) in which the bias parameter is introduced is not limited to the function based on the cross entropy error function as exemplified in the above equation 2, and the aspect of the prediction model is also included.
  • the logistic regression exemplified in Equation 3 above That is, if the objective function includes a weighting parameter that weights each score calculated according to the error from each prediction result (classification result) by the prediction model, the mode of the function is arbitrary.
  • a parameter biased weight indicating the degree of bias of the score of each discriminant result is added to each term indicating the score of each discriminant result in the objective function of the discriminant analysis (here, the cross entropy error function).
  • An extended objective function multiplied by the parameter is used.
  • the storage unit 10 may store a mathematical optimization solver for realizing the learning unit 30 described later.
  • the content of the mathematical optimization solver is arbitrary and may be determined according to the environment and the device to be executed.
  • the storage unit 10 is realized by, for example, a magnetic disk or the like.
  • the input unit 20 receives input of information necessary for the learning device 100 to perform various processes.
  • the input unit 20 may accept, for example, the input of the above-mentioned decision-making history data. Further, the input unit 20 accepts the input of the objective function used for learning by the learning unit 30 described later. The contents of the objective function will be described later.
  • the input unit 20 may accept the input of the objective function by reading the objective function stored in the storage unit 10.
  • the learning unit 30 estimates the objective function (reward function) by performing reverse reinforcement learning based on the input decision-making history data. Specifically, the learning unit 30 of the present embodiment sets a logistic regression problem having an objective function as an extended objective function as an forward problem of inverse reinforcement learning, and estimates a biased parameter as the inverse problem.
  • the learning unit 30 when the input unit 20 receives the extended objective function, the learning unit 30 generates an objective function in which a value is set in the biased parameter.
  • the extended objective function the learning unit 30 uses an extended objective function obtained by multiplying each term indicating the score of each discrimination result in the cross entropy error function by a biased parameter.
  • the learning unit 30 learns the prediction model by fixing the bias parameter. Specifically, the learning unit 30 fixes the bias parameter ⁇ and optimizes the set logistic regression problem.
  • the learning unit 30 may update the logistic regression weight w by, for example, the gradient descent method using the partial differential of the logistic regression weight using the equation 4 illustrated below (specifically, the logistic regression weight w may be updated.
  • the learning unit 30 estimates the decision-making content based on the generated prediction model. Specifically, the learning unit 30 applies the input decision-making history data to the optimized logistic regression to estimate the decision-making content of the expert.
  • the learning unit 30 estimates the biased parameter so as to bring the estimated decision-making content closer to the decision-making history data, and updates the extended objective function. Since the method of bringing the decision-making content closer to the decision-making history data is the same as the method used in general reverse reinforcement learning, detailed description thereof will be omitted.
  • the learning unit 30 After that, the learning unit 30 generates a final objective function (extended objective function) by repeating the learning of the prediction model and the update process of the bias parameter until a predetermined condition is satisfied.
  • the output unit 40 outputs information about the generated objective function.
  • the output unit 40 may output the generated objective function itself, or may output a biased parameter set according to the prediction result.
  • the input unit 20, the learning unit 30, and the output unit 40 are realized by a computer processor (for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit)) that operates according to a program (learning program).
  • a computer processor for example, a CPU (Central Processing Unit), a GPU (Graphics Processing Unit)
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the program may be stored in the storage unit 10 included in the learning device 100, and the processor may read the program and operate as the input unit 20, the learning unit 30, and the output unit 40 according to the program.
  • the function of the learning device 100 may be provided in the SaaS (Software as a Service) format.
  • the input unit 20, the learning unit 30, and the output unit 40 may each be realized by dedicated hardware. Further, a part or all of each component of each device may be realized by a general-purpose or dedicated circuit (circuitry), a processor, or a combination thereof. These may be composed of a single chip or may be composed of a plurality of chips connected via a bus. A part or all of each component of each device may be realized by the combination of the circuit or the like and the program described above.
  • each component of the learning device 100 when a part or all of each component of the learning device 100 is realized by a plurality of information processing devices and circuits, the plurality of information processing devices and circuits may be centrally arranged or distributed. It may be arranged.
  • the information processing device, the circuit, and the like may be realized as a form in which each is connected via a communication network, such as a client-server system and a cloud computing system.
  • FIG. 2 is a flowchart showing an operation example of the learning device 100 of the present embodiment.
  • the input unit 20 accepts the input of the extended objective function (step S11).
  • the learning unit 30 optimizes the weight of the logistic regression of the extended objective function (step S12), and uses the extended objective function of the logistic regression in which the optimized weight is set, and performs the biased parameter by reverse reinforcement learning. Is estimated (step S13). If the predetermined condition is not satisfied (Yes in step S14), the processes of steps S12 to S13 are repeated. On the other hand, when the predetermined condition is satisfied, the output unit 40 outputs information regarding the final extended objective function (step S15).
  • the input unit 20 accepts the input of the extended objective function
  • the learning unit 30 optimizes the weight of the logistic regression of the extended objective function, and the optimized weight is set for the logistic regression. Estimate the bias parameter by inverse reinforcement learning using the extended objective function of. Therefore, it is possible to learn the degree to which the discrimination result is biased.
  • FIG. 3 is a block diagram showing an outline of the learning device according to the present invention.
  • the learning device 80 for example, the learning device 100
  • the learning device 80 has each item indicating the score of each discriminant result in the objective function (for example, the cross entropy error function) of the discriminant analysis (for example, binary discriminant analysis).
  • An input means 81 for example, an objective function shown in the above equation 2) that accepts an input of an extended objective function (for example, the objective function shown in the above equation 2) multiplied by a biased parameter (for example, ⁇ 1 , ⁇ 2 ) which is a parameter indicating the degree of bias of the score of the discrimination result.
  • a biased parameter for example, ⁇ 1 , ⁇ 2
  • the input unit 20 the optimization means 82 (for example, the learning unit 30) that optimizes the weight (for example, wT in the above equation 3) of the logistic regression of the extended objective function (for example, the above equation 3), and the optimization. It is provided with an estimation means 83 (for example, a learning unit 30) for estimating a biased parameter by inverse reinforcement learning using an extended objective function of logistic regression with a set weight.
  • the input means 81 has a term for calculating a score based on the first discriminant result in the objective function of the binary discriminant analysis (for example, the first term in Equation 2) and a second discriminant result.
  • the input of the extended objective function obtained by multiplying each of the terms for calculating the score based on (for example, the second term in Equation 2) by the discriminant parameter may be accepted.
  • the input means 81 inputs, as an extended objective function, an extended objective function (for example, Equation 3 shown above) obtained by multiplying each term indicating the score of each discrimination result in the cross entropy error function by a biased parameter. You may accept it.
  • an extended objective function for example, Equation 3 shown above
  • the optimization means 82 updates the weight of the logistic regression of the extended objective function by the gradient descent method using the partial derivative of the weight of the logistic regression, and optimizes it (for example, by using the equation 4 shown above). May be.
  • the estimation means 83 may estimate the decision-making content from the decision-making history data, and estimate the biased parameter so that the estimated decision-making content approaches the decision-making history data by reverse reinforcement learning.
  • FIG. 4 is a schematic block diagram showing a configuration of a computer according to at least one embodiment.
  • the computer 1000 includes a processor 1001, a main storage device 1002, an auxiliary storage device 1003, and an interface 1004.
  • the learning device 80 described above is mounted on the computer 1000.
  • the operation of each of the above-mentioned processing units is stored in the auxiliary storage device 1003 in the form of a program (learning program).
  • the processor 1001 reads a program from the auxiliary storage device 1003, expands it to the main storage device 1002, and executes the above processing according to the program.
  • the auxiliary storage device 1003 is an example of a non-temporary tangible medium.
  • non-temporary tangible media include magnetic disks, magneto-optical disks, CD-ROMs (Compact Disc Read-only memory), DVD-ROMs (Read-only memory), which are connected via interface 1004. Examples include semiconductor memory.
  • the program may be for realizing a part of the above-mentioned functions. Further, the program may be a so-called difference file (difference program) that realizes the above-mentioned function in combination with another program already stored in the auxiliary storage device 1003.
  • difference file difference program
  • the biased parameter is estimated by inverse reinforcement learning using the optimization means for optimizing the weight of the logistic regression of the extended objective function and the extended objective function of the logistic regression with the optimized weight set.
  • a learning device characterized by having an estimation means.
  • the input means is provided in each of the term for calculating the score based on the first discriminant result and the term for calculating the score based on the second discriminant result in the objective function of the binary discriminant analysis.
  • the learning device according to Appendix 1 which accepts an input of an extended objective function multiplied by a discriminant parameter.
  • Appendix 3 The learning device according to Appendix 1 or Appendix 2, wherein the input means receives the input of the extended objective function as the extended objective function, in which each term indicating the score of each discrimination result in the cross entropy error function is multiplied by the bias parameter.
  • the optimization means is any one of Appendix 1 to Appendix 3 that updates and optimizes the weight of the logistic regression of the extended objective function by the gradient descent method using the partial differential of the weight of the logistic regression.
  • the estimation means estimates the decision-making content from the decision-making history data, and estimates the biased parameter so that the estimated decision-making content approaches the decision-making history data by reverse reinforcement learning.
  • the learning device according to any one of 4.
  • the computer accepts the input of an extended objective function obtained by multiplying each term indicating the score of each discrimination result in the objective function of the discrimination analysis by the bias parameter which is a parameter indicating the degree of bias of the score of the discrimination result.
  • the computer optimizes the weights of the logistic regression of the extended objective function, and the computer uses the extended objective function of the logistic regression set with the optimized weights, and the biased parameters are subjected to inverse reinforcement learning.
  • a learning method characterized by estimating.
  • Appendix 7 As an extended objective function, the computer calculates the score based on the first discriminant result in the objective function of the binary discriminant analysis, and the term for calculating the score based on the second discriminant result.
  • the computer accepts the input of the extended objective function obtained by multiplying each term indicating the score of each discrimination result in the objective function of the discrimination analysis by the bias parameter which is a parameter indicating the degree of bias of the score of the discrimination result.
  • the optimization processing for optimizing the weights of the logistic regression of the extended objective function, and the extended objective function of the logistic regression with the optimized weights set are subjected to inverse reinforcement learning.
  • a program storage medium that stores a learning program for executing estimation processing.
  • Appendix 9 A term for calculating a score based on the first discrimination result in the objective function of binary discrimination analysis and a term for calculating a score based on the second discrimination result as extended objective functions in computer input processing.
  • the program storage medium according to Appendix 8 for storing a learning program for accepting an input of an extended objective function multiplied by a biased parameter in each of the above.
  • the computer accepts an input of an extended objective function obtained by multiplying each term indicating the score of each discrimination result in the objective function of the discrimination analysis by the bias parameter which is a parameter indicating the degree of bias of the score of the discrimination result.
  • the optimization processing for optimizing the weights of the logistic regression of the extended objective function, and the extended objective function of the logistic regression with the optimized weights set are subjected to inverse reinforcement learning.
  • a learning program for executing an estimation process that estimates.
  • Appendix 11 A term for calculating a score based on the first discriminant result in the objective function of binary discriminant analysis and a term for calculating a score based on the second discriminant result as extended objective functions in computer input processing.
  • the learning program according to Appendix 10 in which each of the above is accepted for input of an extended objective function multiplied by a discriminant parameter.
  • Storage unit 20 Input unit 30 Learning unit 40 Output unit 100 Learning device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

入力手段81は、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける。最適化手段82は、拡張目的関数のロジスティック回帰の重みを最適化する。推定手段83は、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する。

Description

学習装置、学習方法および学習プログラム
 本発明は、逆強化学習を行う学習装置、学習方法および学習プログラムに関する。
 機械学習の分野において、逆強化学習の技術が知られている。逆強化学習では、熟練者の意思決定履歴データを利用して、目的関数における特徴量ごとの重み(パラメータ)を学習する。
 非特許文献1には、逆強化学習の一つである最大エントロピー逆強化学習について記載されている。非特許文献1に記載された方法では、熟練者のデータD={τ,τ,…τ}(ただし、τ=((s,a),(s,a),…,(s,a)))からただ1つの報酬関数R(s,a)=θ・f(s,a)を推定する。この推定されたθを用いることで、熟練者の意思決定を再現できる。
B. D. Ziebart, A. Maas, J. A. Bagnell, and A. K. Dey, "Maximum entropy inverse reinforcement learning", In AAAI, AAAI’08, 2008.
 非特許文献1に記載されたような逆強化学習を含む機械学習で用いられるアルゴリズムでは、例えば、尤度最大化や誤差関数最小化など、一般に、学習時の目的関数を最大化または最小化する計算が行われる。しかし、学習時の目的関数が、必ずしも、意図する行為を十分に表しきれていない場合も存在する。
 例えば、正常と異常などの二値判別を行う状況を想定する。一般的な方法で収集されたデータに基づいて判別方法を学習する状況において、正常のデータを正常と判別する場合と、異常のデータを異常と判別する場合とは、通常、平等に扱われる。一方、熟練者などの観点から、判別結果を意図的にいずれかの結果に偏重させたい状況も考えられる。しかし、判別結果に対してどの程度の偏重を持たせるかを考慮して目的関数を設計することは困難である。
 そこで、本発明は、判別結果を偏重させる度合いを学習できる学習装置、学習方法および学習プログラムを提供することを目的とする。
 本発明による学習装置は、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段とを備えたことを特徴とする。
 本発明による学習方法は、コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、コンピュータが、拡張目的関数のロジスティック回帰の重みを最適化し、コンピュータが、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定することを特徴とする。
 本発明による学習プログラムは、コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定処理を実行させることを特徴とする。
 本発明によれば、判別結果を偏重させる度合いを学習できる。
本発明による学習装置の一実施形態の構成例を示すブロック図である。 学習装置の動作例を示すフローチャートである。 本発明による学習装置の概要を示すブロック図である。 少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。
 はじめに、本発明で想定する状況を説明する。通常、判別を行うモデルを構築する場合、学習データに基づいて定量的にモデルが構築される。例えば、二値判別を行うモデルを学習する際に用いられる目的関数として、交差エントロピー誤差関数が知られている。交差エントロピー誤差関数は、例えば、以下に例示する式1で表わされる。
Figure JPOXMLDOC01-appb-M000001
 式1において、aは、判別を行う予測モデル(予測モデルの出力)であり、yは、異常または正常などの二値判別結果を示す正解データである。上記式1に示す例では、右辺のΣ内の第一項が、異常を異常と判定すると上昇するスコアを示す項であり、右辺のΣ内の第二項が、正常を正常と判定すると上昇するスコアを示す項である。式1に示すように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」とを平等に扱う。
 一方、このような判別に際し、どちらか一方の判別精度を向上させたい状況(すなわち、判別結果を意図的にいずれかの結果に偏重させたい状況)が考えられる。例えば、「異常」と「正常」の二値を判別する場合、どちらかの結果を他方の結果より優遇したい場合がある。
 例えば、感染症の診断を行うような場合、熟練者であれば、正常のデータを正常と判定する精度よりも、異常のデータを異常と判定する精度を向上させたいと考えることが通常である。しかし、上述するように、一般的な方法では、「異常を異常と判定するスコア」と「正常を正常と判定するスコア」を平等に扱ってしまうため、判別結果を意図的にいずれかの結果に偏重させることは難しい。
 例えば、異常を異常と判定するスコアの算出精度を向上させるため、正常のデータを除外することで異常と正常の学習データの数を偏重させ、異常を示す学習データを多くすることも考えられる。しかし、学習データを偏重させることも意図的であり、例えば、どの正常データを学習データから除外して学習すべきか判断することは困難である。そのため、サンプル数に基づいて二値判別の結果を偏重させることも困難である。
 そこで、本実施形態では、最適化に用いる目的関数に、各判別結果のスコアの偏重度合いを示すパラメータ(以下、偏重パラメータと記す。)を導入する。この偏重パラメータは、判別結果のスコアそのものの重みを示す既存のハイパーパラメータとは異なり、判別結果を重視する度合いを示すパラメータである。
 また、いわゆる熟練者の観点での判別結果の重視度合いを推定するため、本実施形態では、逆強化学習により、導入した偏重パラメータを推定する。
 以下、本発明の実施形態を図面を参照して説明する。
 図1は、本発明による学習装置の一実施形態の構成例を示すブロック図である。本実施形態の学習装置100は、対象者の行動から報酬(関数)を推定する逆強化学習を行う装置である。学習装置100は、記憶部10と、入力部20と、学習部30と、出力部40とを備えている。
 記憶部10は、学習装置100が各種処理を行うために必要な情報を記憶する。記憶部10は、後述する学習部30が学習に用いる熟練者の意思決定履歴データ(トラジェクトリと言うこともある。)や、学習に用いる目的関数、予測モデルを記憶していてもよい。目的関数および予測モデルの態様は予め定められる。
 本実施形態では、二値判別分析の目的関数である交差エントロピー誤差関数をベースとし、偏重パラメータを各判別結果の項に対して乗じた目的関数を例示する。具体的には、偏重パラメータをλおよびλとした場合、偏重パラメータを導入した目的関数(以下、拡張目的関数と記すこともある。)は、以下に例示する式2で表わされる。以下に例示する式2は、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する第一の項と、第二の判別結果に基づくスコアを算出する第二の項のそれぞれに、偏重パラメータλおよびλを乗じた拡張目的関数を示す。
Figure JPOXMLDOC01-appb-M000002
 また、本実施形態では、予測モデルとして、ロジスティック回帰を例示する。ロジスティック回帰は、以下に例示する式3で表わされる。式3において、xは、特徴量ベクトルであり、wは各特徴量に対する重みである。
Figure JPOXMLDOC01-appb-M000003
 例えば、二値判別問題の一例として、有望な顧客判定が挙げられる。これは、顧客データを入力として、特定の製品を購入するか否か判定する問題である。この場合、購入の可能性が少しでもある顧客については、より注視して判定することが好ましいと言える。この場合、逆強化学習に用いる意思決定履歴データには、例えば、住所や性別、過去に特定の製品を購入したか否か、年収、家族の有無、既婚の有無、特定のコマーシャルの視聴有無、インターネット環境の有無、などの特徴量を含むデータが用いられる。
 ただし、偏重パラメータを導入した目的関数(すなわち、拡張目的関数)の態様は、上記式2に例示するような、交差エントロピー誤差関数をベースとした関数に限定されず、また、予測モデルの態様も、上記式3に例示するロジスティック回帰に限定されない。すなわち、予測モデルによる各予測結果(分類結果)との誤差に応じて算出されるスコアそれぞれ対して重み付けを行う偏重パラメータが含まれる目的関数であれば、その関数の態様は任意である。具体的には、拡張目的関数として、判別分析の目的関数(ここでは、交差エントロピー誤差関数)における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータ(偏重パラメータ)を乗じた拡張目的関数が用いられる。
 また、記憶部10は、後述する学習部30を実現するための数理最適化ソルバを記憶していてもよい。なお、数理最適化ソルバの内容は任意であり、実行する環境や装置に応じて決定されればよい。記憶部10は、例えば、磁気ディスク等により実現される。
 入力部20は、学習装置100が各種処理を行うために必要な情報の入力を受け付ける。入力部20は、例えば、上述する意思決定履歴データの入力を受け付けてもよい。また、入力部20は、後述する学習部30が学習に用いる目的関数の入力を受け付ける。なお、目的関数の内容は後述される。入力部20は、記憶部10に記憶されている目的関数を読み取ることにより、目的関数の入力を受け付けてもよい。
 学習部30は、入力された意思決定履歴データに基づいて逆強化学習を行うことにより、目的関数(報酬関数)を推定する。具体的には、本実施形態の学習部30は、逆強化学習の順問題として、目的関数を拡張目的関数とするロジスティック回帰問題を設定し、その逆問題として、偏重パラメータを推定する。
 まず、学習部30は、入力部20が拡張目的関数を受け付けると、偏重パラメータに値を設定した目的関数を生成する。初期状態では、学習部30は、任意の値の偏重パラメータλ(例えば、λ=1)を目的関数に設定すればよい。ここでは、学習部30は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数を用いるものとする。
 次に、学習部30は、偏重パラメータを固定して予測モデルを学習する。具体的には、学習部30は、偏重パラメータλを固定し、設定されたロジスティック回帰問題について最適化する。学習部30は、例えば、以下に例示する式4を用いた(具体的には、ロジスティック回帰の重みの偏微分を用いた勾配降下法により、ロジスティック回帰の重みwを更新してもよい。
Figure JPOXMLDOC01-appb-M000004
 そして、学習部30は、生成された予測モデルに基づいて意思決定内容を推定する。具体的には、学習部30は、入力された意思決定履歴データを最適化されたロジスティック回帰に適用して、熟練者の意思決定内容を推定する。
 その後、学習部30は、意思決定履歴データに、推定した意思決定内容を近づけるように偏重パラメータを推定して、拡張目的関数を更新する。なお、意思決定履歴データに意思決定内容を近づける方法は、一般的な逆強化学習で用いる方法と同様であるため、詳細な説明は省略する。
 以降、学習部30は、予測モデルの学習および偏重パラメータの更新処理を、予め定めた条件を満たすまで繰り返すことで、最終的な目的関数(拡張目的関数)を生成する。
 出力部40は、生成された目的関数に関する情報を出力する。出力部40は、生成された目的関数そのものを出力してもよく、予測結果に応じて設定された偏重パラメータを出力してもよい。
 入力部20と、学習部30と、出力部40とは、プログラム(学習プログラム)に従って動作するコンピュータのプロセッサ(例えば、CPU(Central Processing Unit )、GPU(Graphics Processing Unit))によって実現される。
 例えば、プログラムは、学習装置100が備える記憶部10に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、入力部20、学習部30および出力部40として動作してもよい。また、学習装置100の機能がSaaS(Software as a Service )形式で提供されてもよい。
 また、入力部20と、学習部30と、出力部40とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路(circuitry )、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。
 また、学習装置100の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
 次に、本実施形態の学習装置100の動作を説明する。図2は、本実施形態の学習装置100の動作例を示すフローチャートである。
 まず、入力部20は、拡張目的関数の入力を受け付ける(ステップS11)。次に、学習部30は、拡張目的関数のロジスティック回帰の重みを最適化し(ステップS12)、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する(ステップS13)。予め定めた条件が満たされない場合(ステップS14におけるYes)、ステップS12からステップS13の処理が繰り返される。一方、予め定めた条件を満たす場合、出力部40は、最終的な拡張目的関数に関する情報を出力する(ステップS15)。
 以上のように、本実施形態では、入力部20が拡張目的関数の入力を受け付け、学習部30が、拡張目的関数のロジスティック回帰の重みを最適化し、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する。よって、判別結果を偏重させる度合いを学習できる。
 次に、本発明の概要を説明する。図3は、本発明による学習装置の概要を示すブロック図である。本発明による学習装置80(例えば、学習装置100)は、判別分析(例えば、二値判別分析)の目的関数(例えば、交差エントロピー誤差関数)における各判別結果のスコアを示す各項に、その各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータ(例えば、λ,λ)を乗じた拡張目的関数(例えば、上記式2に示す目的関数)の入力を受け付ける入力手段81(例えば、入力部20)と、拡張目的関数のロジスティック回帰(例えば、上記式3)の重み(例えば、上記式3におけるw)を最適化する最適化手段82(例えば、学習部30)と、最適化された重みが設定されたロジスティック回帰の拡張目的関数を用いて、逆強化学習により、偏重パラメータを推定する推定手段83(例えば、学習部30)とを備えている。
 そのような構成により、判別結果を偏重させる度合いを学習できる。
 また、入力手段81は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項(例えば、式2における第一の項)と、第二の判別結果に基づくスコアを算出する項(例えば、式2における第二の項)のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けてもよい。
 具体的には、入力手段81は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数(例えば、上記に示す式3)の入力を受け付けてもよい。
 また、最適化手段82は、拡張目的関数のロジスティック回帰の重みを、そのロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して(例えば、上記に示す式4を用いて)最適化してもよい。
 また、推定手段83は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を意思決定履歴データに近づけるように偏重パラメータを推定してもよい。
 図4は、少なくとも1つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ1000は、プロセッサ1001、主記憶装置1002、補助記憶装置1003、インタフェース1004を備える。
 上述の学習装置80は、コンピュータ1000に実装される。そして、上述した各処理部の動作は、プログラム(学習プログラム)の形式で補助記憶装置1003に記憶されている。プロセッサ1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、当該プログラムに従って上記処理を実行する。
 なお、少なくとも1つの実施形態において、補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD-ROM(Compact Disc Read-only memory )、DVD-ROM(Read-only memory)、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000が当該プログラムを主記憶装置1002に展開し、上記処理を実行してもよい。
 また、当該プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、当該プログラムは、前述した機能を補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えたことを特徴とする学習装置。
(付記2)入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記1記載の学習装置。
(付記3)入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記1または付記2記載の学習装置。
(付記4)最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する付記1から付記3のうちのいずれか1つに記載の学習装置。
(付記5)推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する付記1から付記4のうちのいずれか1つに記載の学習装置。
(付記6)コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定することを特徴とする学習方法。
(付記7)コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける付記6記載の学習方法。
(付記8)コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラムを記憶するプログラム記憶媒体。
(付記9)コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる学習プログラムを記憶する付記8記載のプログラム記憶媒体。
(付記10)コンピュータに、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理を実行させるための学習プログラム。
(付記11)コンピュータに、入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる付記10記載の学習プログラム。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 10 記憶部
 20 入力部
 30 学習部
 40 出力部
 100 学習装置

Claims (9)

  1.  判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力手段と、
     前記拡張目的関数のロジスティック回帰の重みを最適化する最適化手段と、
     最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定手段とを備えた
     ことを特徴とする学習装置。
  2.  入力手段は、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
     請求項1記載の学習装置。
  3.  入力手段は、拡張目的関数として、交差エントロピー誤差関数における各判別結果のスコアを示す各項に偏重パラメータを乗じた拡張目的関数の入力を受け付ける
     請求項1または請求項2記載の学習装置。
  4.  最適化手段は、拡張目的関数のロジスティック回帰の重みを、当該ロジスティック回帰の重みの偏微分を用いた勾配降下法で更新して最適化する
     請求項1から請求項3のうちのいずれか1項に記載の学習装置。
  5.  推定手段は、意思決定履歴データから意思決定内容を推定し、逆強化学習により、推定された意思決定内容を前記意思決定履歴データに近づけるように偏重パラメータを推定する
     請求項1から請求項4のうちのいずれか1項に記載の学習装置。
  6.  コンピュータが、判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付け、
     前記コンピュータが、前記拡張目的関数のロジスティック回帰の重みを最適化し、
     前記コンピュータが、最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する
     ことを特徴とする学習方法。
  7.  コンピュータが、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付ける
     請求項6記載の学習方法。
  8.  コンピュータに、
     判別分析の目的関数における各判別結果のスコアを示す各項に、当該各判別結果のスコアの偏重度合いを示すパラメータである偏重パラメータを乗じた拡張目的関数の入力を受け付ける入力処理、
     前記拡張目的関数のロジスティック回帰の重みを最適化する最適化処理、および、
     最適化された重みが設定された前記ロジスティック回帰の拡張目的関数を用いて、逆強化学習により、前記偏重パラメータを推定する推定処理
     を実行させるための学習プログラムを記憶するプログラム記憶媒体。
  9.  コンピュータに、
     入力処理で、拡張目的関数として、二値判別分析の目的関数における第一の判別結果に基づくスコアを算出する項と、第二の判別結果に基づくスコアを算出する項のそれぞれに、偏重パラメータを乗じた拡張目的関数の入力を受け付けさせる学習プログラムを記憶する
     請求項8記載のプログラム記憶媒体。
PCT/JP2020/032849 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム WO2022044315A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022545247A JP7456512B2 (ja) 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム
PCT/JP2020/032849 WO2022044315A1 (ja) 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム
US18/023,532 US20230316132A1 (en) 2020-08-31 2020-08-31 Learning device, learning method, and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/032849 WO2022044315A1 (ja) 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム

Publications (1)

Publication Number Publication Date
WO2022044315A1 true WO2022044315A1 (ja) 2022-03-03

Family

ID=80354994

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/032849 WO2022044315A1 (ja) 2020-08-31 2020-08-31 学習装置、学習方法および学習プログラム

Country Status (3)

Country Link
US (1) US20230316132A1 (ja)
JP (1) JP7456512B2 (ja)
WO (1) WO2022044315A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102132375B1 (ko) * 2019-07-05 2020-07-09 한국과학기술원 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법
WO2020158609A1 (ja) * 2019-01-31 2020-08-06 国立大学法人東京工業大学 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020158609A1 (ja) * 2019-01-31 2020-08-06 国立大学法人東京工業大学 立体構造判定装置、立体構造判定方法、立体構造の判別器学習装置、立体構造の判別器学習方法及びプログラム
KR102132375B1 (ko) * 2019-07-05 2020-07-09 한국과학기술원 딥 러닝 모델을 활용한 영상 진단 장치 및 그 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IMAI, TAKUJI: "NEC changes from one-off decision-making problem to practical use by reverse reinforcement learning of imitation learning that understands the intention of experts", NEC NIKKEI ROBOTICS, vol. 51, 10 September 2019 (2019-09-10), pages 22 - 26, ISSN: 2189-5783 *

Also Published As

Publication number Publication date
US20230316132A1 (en) 2023-10-05
JPWO2022044315A1 (ja) 2022-03-03
JP7456512B2 (ja) 2024-03-27

Similar Documents

Publication Publication Date Title
TWI631518B (zh) 具有一或多個計算裝置的電腦伺服系統及訓練事件分類器模型的電腦實作方法
Dejaeger et al. Data mining techniques for software effort estimation: a comparative study
WO2017159403A1 (ja) 予測システム、方法およびプログラム
US12066918B2 (en) System to track and measure machine learning model efficacy
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
US20200265307A1 (en) Apparatus and method with multi-task neural network
CN113761388B (zh) 一种推荐方法、装置、电子设备及存储介质
WO2014209484A1 (en) Methods and systems for evaluating predictive models
CN112308623A (zh) 基于监督学习的优质客户流失预测方法、装置及存储介质
WO2018088277A1 (ja) 予測モデル生成システム、方法およびプログラム
JP7207540B2 (ja) 学習支援装置、学習支援方法、及びプログラム
Rath et al. Modern approach for loan sanctioning in banks using machine learning
JP2021072057A (ja) 情報処理装置および情報処理方法
JP4421971B2 (ja) 解析エンジン交換型システム及びデータ解析プログラム
WO2022044315A1 (ja) 学習装置、学習方法および学習プログラム
JP2019160089A (ja) 情報処理装置、情報処理方法及び情報処理プログラム
Cui et al. Model selection for direct marketing: performance criteria and validation methods
JP7532300B2 (ja) 情報処理方法、プログラム及び情報処理装置
Wang et al. A cross-entropy based feature selection method for binary valued data classification
Reyes et al. FairPRS: adjusting for admixed populations in polygenic risk scores using invariant risk minimization
CN115718740A (zh) 用于稀疏时间序列数据集的数据插补的方法和装置
JP2021174330A (ja) 異種機械学習のアンサンブル学習による予測装置
JP6947229B2 (ja) 最適化装置、最適化方法および最適化プログラム
JP2022070561A (ja) 判断結果提示プログラム、判断結果提示方法、及び、判断結果提示装置
JP7283548B2 (ja) 学習装置、予測システム、方法およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20951564

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022545247

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20951564

Country of ref document: EP

Kind code of ref document: A1