WO2021157669A1

WO2021157669A1 - 回帰分析装置、回帰分析方法及びプログラム

Info

Publication number: WO2021157669A1
Application number: PCT/JP2021/004178
Authority: WO
Inventors: 岡本　洋; 麻里奈高橋; 修二篠原; 光吉　俊二; 英俊小園; 真浩灰塚; 史浩三好
Original assignee: 国立大学法人東京大学; 株式会社ダイセル
Priority date: 2020-02-04
Filing date: 2021-02-04
Publication date: 2021-08-12
Also published as: CN115053216A; US20230059056A1; EP4102420A1; JPWO2021157669A1; EP4102420A4

Abstract

説明変数の変動と目的変数の変動とに対応関係を有する回帰モデルを構築する。回帰分析装置は、回帰モデルの目的変数及び説明変数として用いられる訓練データと、目的変数を正又は負の方向に変動させるために、説明変数を正及び負のいずれに変動させるべきかを予め定義する制約条件とを格納する記憶装置から、訓練データ及び制約条件を読み出すデータ取得部と、制約条件に反する場合にコストを増大させる正則化項を含むコスト関数を最小化させるように、訓練データを用いて、回帰モデルにおける説明変数の係数を繰り返し更新する係数更新部とを備える。

Description

回帰分析装置、回帰分析方法及びプログラム

　本開示は、回帰分析装置、回帰分析方法及びプログラムに関する。

　従来、回帰モデルのパラメータを最小二乗法で推定するとき、例えばデータのサンプル数が少ないと最小二乗推定量が求められないという問題があった。そこで、Ｌ１ノルムと呼ばれる制約条件を与える手法が提案されていた（例えば、非特許文献１）。Ｌ１ノルムを制約条件とするパラメータ推定手法であるＬＡＳＳＯ（Least Absolute Shrinkage and Selection Operator）によれば、目的変数を説明するために適した説明変数の選択及び係数の決定が併せて行われる。

　また、ＬＡＳＳＯに関して、相関の高い説明変数を予めグループ化したり、クラスタリングしたりするような、様々な改良手法が提案されている。

Robert Tibshirani, "Regression Shrinkage and Selection via the Lasso", Journal of the Royal Statistical Society. Series B (Methodological) Vol. 58, No. 1 (1996), pp. 267-288

　従来、例えば所望の結果が得られるように制御を行う場合、予測モデルを用いて逆問題を解いても適切な結果が得られないことがあった。すなわち、予測モデルによる推定値を所望の値に近づけるために、説明変数の値をどのように変更すべきかがわからない。しかしながら、説明変数の組合せを変更してシミュレーションを繰り返す手法では計算コストがかかる。そこで、本技術は、説明変数の変動と目的変数の変動とに対応関係を有する回帰モデルを構築することを目的とする。

　回帰分析装置は、回帰モデルの目的変数及び説明変数として用いられる訓練データと、目的変数を正又は負の方向に変動させるために、説明変数を正及び負のいずれに変動させるべきかを予め定義する制約条件とを格納する記憶装置から、訓練データ及び制約条件を読み出すデータ取得部と、制約条件に反する場合にコストを増大させる正則化項を含むコスト関数を最小化させるように、訓練データを用いて、回帰モデルにおける説明変数の係数を繰り返し更新する係数更新部とを備える。

　上記のような正則化項により、制約条件に反するような係数は選択されず、目的変数を正又は負の方向に変動させるために、説明変数を正及び負のいずれに変動させればよいかがわかる回帰モデルを作成することができる。すなわち、説明変数の変動と目的変数の変動とに対応関係を有する回帰モデルを構築することができる。

　また、正則化項は、係数が、制約条件に応じた正又は負である区間において、係数の絶対値の和に応じてコストを増大させるようにしてもよい。例えば、係数が正又は負の片側において、Ｌ１正則化を用いた回帰モデルの構築を行ってもよい。また、正則化項は、係数が、制約条件に応じた正又は負である区間の一方において、係数の絶対値の和に応じてコストを増大させ、他方においてコストを無限大にするようにしてもよい。

　また、係数更新部は、係数が制約条件を満たす値に収束しない場合、係数をゼロにするようにしてもよい。このようにすれば、上述した制約条件の下で目的変数に寄与しない説明変数を回帰モデルから削除でき、スパースモデリングが実現される。

　また、係数更新部は、近接勾配法により前記係数を更新するようにしてもよい。このようにすれば、収束計算において、正則化項の微分不可能点を通過することが回避される。したがって、収束に要する時間を短縮することができる。

　なお、課題を解決するための手段に記載の内容は、本開示の課題や技術的思想を逸脱しない範囲で可能な限り組み合わせることができる。また、課題を解決するための手段の内容は、コンピュータ等の装置若しくは複数の装置を含むシステム、コンピュータが実行する方法、又はコンピュータに実行させるプログラムとして提供することができる。なお、プログラムを保持する記録媒体を提供するようにしてもよい。

　開示の技術によれば、説明変数の変動と目的変数の変動とに対応関係を有する回帰モデルを構築することができる。

図１は、回帰式の作成に用いる訓練データの一例を示す図である。図２Ａは、回帰係数に課せられる制約を説明するための模式的な図である。図２Ｂは、回帰係数に課せられる制約を説明するための模式的な図である。図３は、パラメータｗの更新を説明するための図である。図４は、パラメータηの更新を説明するための図である。図５は、上述した回帰分析を行う回帰分析装置１の構成の一例を示すブロック図である。図６は、回帰分析装置が実行する回帰分析処理の一例を示す処理フロー図である。図７Ａは、制約の強さを表すパラメータαと相関係数ｒとの関係を示す図である。図７Ｂは、制約の強さを表すパラメータαと相関係数ｒとの関係を示す図である。図８は、制約の強さを表すパラメータαと決定係数Ｅとの関係を示す図である。図９は、学習に用いるデータ数Ｔと相関係数ｒとの関係を示す図である。図１０は、学習に用いるデータ数Ｔと決定係数Ｅとの関係を示す図である。図１１Ａは、回帰係数に課せられる制約を説明するための模式的な図である。図１１Ｂは、回帰係数に課せられる制約を説明するための模式的な図である。図１２は、パラメータβと相関係数ｒとの関係を示す図である。図１３は、パラメータβと決定係数Ｒ^２との関係を示す図である。図１４は、パラメータβとＲＭＳＥとの関係を示す図である。

　以下、図面を参照しつつ回帰分析装置の実施形態について説明する。

＜実施形態＞
　本実施形態に係る回帰分析装置は、１以上の説明変数（独立変数）と、１つの目的変数（従属変数）との関係を表す回帰式（回帰モデル）を構築する。このとき、説明変数の少なくともいずれかには、当該説明変数の変動の、正又は負の方向と、目的変数の変動の、正又は負の方向とに、一定の対応関係を有するような制約（「符号制約」と呼ぶ）を課して回帰式を作成する。

　図１は、回帰式の作成に用いる観測値（訓練データ）の一例を示す図である。図１の表は、Ｋ種類の入力ｘ（ｘ_１～ｘ_Ｋ）の列と、出力ｙの列とを含む。入力ｘは説明変数に相当し、出力ｙは目的変数に相当する。また、訓練データの個々の標本であるデータポイントｔ（ｔ_１～ｔ_Ｔ，・・・）を表す複数のレコードのうち、Ｔ個のレコードを用いて回帰式を作成するものとする。また、Ｋ種の入力ｘの少なくとも一部に対して正又は負の符号（本実施形態に係る制約条件を表す情報であり、「制約符号」と呼ぶものとする）が対応付けられているものとする。各入力ｘに対応付けられた制約符号は、構築する回帰式において、出力ｙを正の方向に変動させるために、当該入力ｘを正又は負のうちいずれの方向に変動させればよいかを予め定義するための情報である。

　回帰式は、例えば次の式（１）で表される。

なお、ｗ_ｋは回帰係数、ｗ_０は定数項である。また、ｗ_ｋは、予め定められた制約符号に従って決定される。

　回帰係数及び定数項の決定には、次の式（２）で表されるコスト関数を用いることができる。コスト関数Ｅ（ｗ）を最小化するような係数ｗ_ｋを選択することで、回帰式が決定される。

αＲは正則化項（罰則項）であり、その係数αは制約の強さを表すパラメータである。図１のテーブルにおいてｘ_ｋの制約符号が正の場合、Ｒ_＋（ｗ）の値をとり、制約符号が負の場合、Ｒ_－（ｗ）の値をとる。このように、本実施形態に係る正則化項αＲは、正又は負の片側でＬ１型正則化による符号制約を課す。すなわち、正則化項は、係数ｗ_ｋが、制約符号に応じた正及び負のいずれか一方の区間において、係数の絶対値の和に応じてコストを増大させる。

　図２Ａ及び図２Ｂは、１つの回帰係数ｗに課せられる制約を説明するための模式的な図である。図２Ａのグラフは、縦軸がＲ_＋（ｗ）を、横軸がｗを表す。また、矢印は、ｗが負である区間において、αの値が大きくなるほどＲ_＋（ｗ）の値をさらに大きくするように正則化項が定義されていることを模式的に表す。上述の式（２）は、入力ｘ_ｋに対応付けられた制約符号が正の場合であって、入力ｘ_ｋの係数ｗ_ｋがゼロ以上のときはＲ_＋（ｗ）＝０であり、Ｅ（ｗ）を増加させない。一方、入力ｘ_ｋの係数ｗ_ｋがゼロ未満のときはＲ_＋（ｗ）＝－ｗでありＥ（ｗ）を増加させる。ここで、係数ｗ_ｋがゼロ以上のときは、式（１）に示した回帰式の入力ｘ_ｋが増加するほど回帰式による予測値μも増加する。すなわち、ｘ_ｋに対応付けられた制約符号が正の場合は、入力ｘ_ｋの値が増加するほど予測値μの値も増加するときに正則化項が小さく、入力ｘ_ｋの値が増加するほど予測値μの値が減少するときに正則化項が大きくなるように、コスト関数が定義されている。

　図２Ｂのグラフは、縦軸がＲ_－（ｗ）を、横軸がｗを表す。また、矢印は、ｗが正である区間において、αの値が大きくなるほどＲ_－（ｗ）の値をさらに大きくするように正則化項が定義されていることを模式的に表す。上述の式（２）は、入力ｘ_ｋの制約符号が負の場合であって、入力ｘ_ｋの係数ｗ_ｋがゼロ以上のときはＲ_－（ｗ）＝ｗでありＥ（ｗ）を増加させる。一方、入力ｘ_ｋの係数ｗ_ｋがゼロ未満のときはＲ_－（ｗ）＝０でありＥ（ｗ）を増加させない。ここで、係数ｗ_ｋがゼロ未満のときは、式（１）に示した回帰式の入力ｘ_ｋが増加するほど回帰式による予測値μは減少する。すなわち、入力ｘ_ｋに対応付けられた制約符号が負の場合は、入力ｘ_ｋの値が増加するほど予測値μの値が減少するときに正則化項が小さく、入力ｘ_ｋの値が増加するほど予測値μの値も増加するときに正則化項が大きくなるようにコスト関数が定義されている。

　以上のような正則化項により、説明変数の変動の、正又は負の方向と、目的変数の変動の、正又は負の方向とに、一定の対応関係を有するような制約を課して回帰分析を行う。

　また、コスト関数Ｅ（ｗ）の変数ｗについての偏微分は、以下の式（３）で表される。

　Ｅ（ｗ）を最小化するようなパラメータｗの更新は、例えば勾配法により、次の式（４）を用いて行うようにしてもよい。

図３は、パラメータｗの更新を説明するための図である。あるステップｓにおけるコスト関数Ｅ（ｗ）の変数ｗについての勾配に基づいて、後のステップｓ＋１における変数ｗを更新し、このような処理をｗが収束するまで繰り返す。

　ただし、式（３）に示したように、入力ｘ_ｋに対応付けられた制約符号がいずれの場合も、ｗ＝０で微分不可能である。例えば、入力ｘ_ｋごとに制約符号に応じた値を算出し、その総和を正則化項として最急降下法による回帰を行ってもよいが、計算が不安定になる。そこで、例えば近接勾配法を用いるようにしてもよい。近接勾配法においても、例えば上述した式（２）を最小化するｗを求める。式（２）の二乗和誤差をｆ（ｘ）とおき、正則化項をｇ（ｗ）とおくと、ｗの更新式は、次の式（５）で表される。

ηは１ステップ（１反復）において係数ｗを更新する大きさを決めるステップ幅である。∇ｆ（Ｗ（ｔ））は、勾配である。勾配が充分ゼロに近づくまで更新が繰り返され、勾配が充分ゼロに近づいた場合は収束したと判断して更新は終了される。

　より具体的には、ｗの更新式は、次の式（６）で表される。

制約符号が正の場合、次の式（７）のように計算できる。

制約符号が負の場合、次の式（８）のように計算できる。

以上のような処理によって、係数ｗを決定することができる。係数ｗは、符号制約を満たし、且つ目的変数に寄与する値に収束し、そのような値がなければ係数ｗはゼロに近づいてゆく。すなわち、符号制約を満たす値がない場合は、図２Ａ及び図２Ｂに示したように正則化による罰則効果がはたらいて符号制約に反する値を引き戻すことにより、結果的にゼロに収束してゆく。よって、いわゆるＬＡＳＳＯと同様に回帰係数の一部をゼロと推定し得る。

　なお、ηの値も、係数を更新する処理において繰り返される各ステップにおいて適宜更新するようにしてもよい。図４は、適切なηを探索するための模式的なコードの一例を示す。例えば図４に示すような処理が、各ステップにおいて実行される。η_０は予め定められた初期値である。βは、例えば１より小さい正の値であり、ηを減少させるように更新する。このように係数ｗを更新するステップ幅であるηを調整することで、係数ｗを適切に収束させることができる。

＜装置構成＞
　図５は、上述した回帰分析を行う回帰分析装置１の構成の一例を示すブロック図である。回帰分析装置１は、一般的なコンピュータであり、通信インターフェース（Ｉ／Ｆ）１１と、記憶装置１２と、入出力装置１３と、プロセッサ１４とを備えている。通信Ｉ／Ｆ１１は、例えばネットワークカードや通信モジュールであってもよく、所定のプロトコルに基づき、他のコンピュータと通信を行う。記憶装置１２は、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）等の主記憶装置、及びＨＤＤ（Hard-Disk Drive）やＳＳＤ（Solid State Drive）、フラッシュメモリ等の補助記憶装置（二次記憶装置）であってもよい。主記憶装置は、プロセッサ１４が読み出すプログラムや当該プログラムが処理する情報を一時的に記憶する。補助記憶装置は、プロセッサ１４が実行するプログラムや当該プログラムが処理する情報等を記憶する。本実施形態では、記憶装置１２には、訓練データ及び制約条件を表す情報が、一時的に又は永続的に記憶されているものとする。入出力装置１３は、例えば、キーボード、マウス等の入力装置、モニタ等の出力装置、タッチパネルのような入出力装置等のユーザインターフェースである。プロセッサ１４は、ＣＰＵ（Central Processing Unit）等の演算処理装置であり、プログラムを実行することにより本実施形態に係る各処理を行う。図１の例では、プロセッサ１４内に機能ブロックを示している。すなわち、プロセッサ１４は、所定のプログラムを実行することにより、データ取得部１４１、係数更新部１４２、収束判定部１４３、検証処理部１４４及び運用処理部１４５として機能する。

　データ取得部１４１は、記憶装置１２から、訓練データ及び制約条件を表す情報を取得する。係数更新部１４２は、上述した制約条件の下で回帰式の係数を更新する。また、収束判定部１４３は、更新された係数の値が収束したか判定する。なお、収束していないと判定された場合、係数更新部１４２は、係数の更新を繰り返す。収束したと判定された場合、例えば係数更新部１４２は、最終的に生成される係数を記憶装置１２に記憶させる。また、検証処理部１４４は、所定の評価指標に基づいて作成された回帰式を評価する。運用処理部１４５は、作成された回帰式と例えば新たに取得される観測値とを用いて、予測値を算出する。また、運用処理部１４５は、作成された回帰式と任意の値とを用いて、条件を変更した場合の予測値を算出してもよい。ここで、任意の値は、例えば通信Ｉ／Ｆ１１又は入出力装置１３を介してユーザが入力する値であってもよい。本実施形態において作成される回帰式は、説明変数の変動の方向と目的変数の変動の方向とに一定の対応関係を有するため、例えば予測値を所望の値に近づけるために入力値を増加させればよいか減少させればよいか、ユーザは容易に推定できる。したがって、たとえば推定値に基づいて何らかの制御を行う場合に、本実施形態に係る回帰式は有効である。

　以上のような構成要素が、バス１５を介して接続されている。

＜回帰分析処理＞
　図６は、回帰分析装置が実行する回帰分析処理の一例を示す処理フロー図である。回帰分析装置１のデータ取得部１４１は、訓練データと制約条件を表す情報と記憶装置１２から読み出す（図６：Ｓ１１）。本ステップでは、例えば図１に示したような入力ｘ及び出力ｙの値が訓練データとして読み出される。なお、入力ｘを説明変数として扱い、出力ｙを目的変数として扱うものとする。また、図１において、入力ｘに対応付けて登録されている正又は負の符号が、制約条件を表す情報として読み出される。回帰分析装置１は、読み出される符号を、上述した制約符号として用いる。なお、本実施形態では、式（１）に示したような回帰式を用いる。

　また、回帰分析装置１の係数更新部１４２は、上述した符号制約の下で回帰係数を更新する（図６：Ｓ１２）。本ステップでは、係数更新部１４２は、例えば図３において上側の矢印で示したように、式（２）に示したコスト関数Ｅ（ｗ）を最小化するように係数ｗを更新する。具体的には、係数更新部１４２は、式（６）～式（８）に基づいて係数ｗを更新することができる。

　本実施形態に係るコスト関数Ｅ（ｗ）の正則化項は、Ｓ１１で取得した制約条件を満たさない場合にコストが増加するように定義されている。すなわち、正則化項は、説明変数の変動の、正又は負の方向と、目的変数の変動の、正又は負の方向とが、予め定められた対応関係を有するときにコスト関数Ｅ（ｗ）の値を減少させるものである。また、係数更新部１４３は、係数が制約条件を満たす値に収束しない場合、係数をゼロにする。

　また、回帰分析装置１の収束判定部１４３は、係数ｗが収束したか又は係数ｗがゼロにされたか判定する（図６：Ｓ１３）。本ステップでは、収束判定部１４３は、更新される係数ｗの勾配が充分ゼロに近づいた場合に収束したと判断する。具体的には、収束判定部１４３は、式（７）又は式（８）において係数ｗの値が変化しなくなったときに、収束したと判断する。

　係数ｗが収束しておらず、ゼロにされてもいないと判定された場合（Ｓ１３：ＮＯ）、Ｓ１２に戻って処理を繰り返す。一方、係数ｗが収束した、又はゼロにされたと判定された場合（Ｓ１３：ＹＥＳ）、収束判定部１４３は、回帰式を記憶装置１２に格納する（図６：Ｓ１４）。本ステップでは、収束判定部１４３は、更新後の係数ｗを記憶装置１２に記憶させる。

　また、回帰分析装置１の検証処理部１４４は、作成された回帰式の精度を検証するようにしてもよい（図６：Ｓ２０）。本ステップでは、検証処理部１４４は、例えば交差検証により、テストデータを用いて回帰式の精度を検証する。また、検証処理部１４４は、相関係数や所定の決定係数等、所定の評価指標に基づいて検証することができる。なお、後述するように、本ステップは省略してもよい。

　そして、回帰分析装置１の運用処理部１４５は、作成された回帰式を用いて、運用処理を行う（図６：Ｓ３０）。本ステップでは、運用処理部１４５は、例えば図１に示したデータ番号がｔ_Ｔ＋１のレコードのように、新たな入力ｘに対する出力ｙの予測値を算出する。なお、本ステップは、Ｓ１４で記憶された回帰式を用いて、回帰分析装置１以外の装置（図示せず）が行うようにしてもよい。

＜実施例＞
　生産プラントから得られるセンシングデータを用いて回帰式を構築し、精度を評価した。図１に示した入力及び出力の各々として、異なるセンサの出力値を用いた。また、センサから継続的に出力されるセンシングデータについて、直近のデータ数Ｔを学習区間とした。また、制約符号は、生産プラントに関する知見に基づいて予め設定された。

　評価指標として用いる相関係数ｒは、次の式（９）で求められる。

すなわち、式（９）の分子は、予測値μと訓練データの実測値ｙとの共分散である。式（９）の分母は、予測値μの標準偏差と訓練データの実測値ｙの標準偏差との積である。

　また、他の評価指標として用いる決定係数Ｅは、次の式（１０）で求められる。

決定係数Ｅは、観測値の分布に対する予測値の分布の大きさを表す値である。標準化により、観測値の分布と予測値の分布と一致する場合、Ｅ＝１となる。また、観測値の分布に対して予測値の分布が狭い場合、Ｅ＜１となる。そして、観測値の分布に対して予測値の分布が広い場合、Ｅ＞１となる。

　図７Ａ及び図７Ｂは、複数の手法で構築されたモデルについて、制約の強さを表すパラメータαと相関係数ｒとの関係を示す図である。図８は、複数の手法で構築されたモデルについて、制約の強さを表すパラメータαと決定係数Ｅとの関係を示す図である。図７Ａ及び図７Ｂの折れ線グラフは横軸がパラメータαを表し、縦軸が相関係数ｒを表す。図７Ａ及び図７Ｂは、横軸のスケールが異なる。また、図８の折れ線グラフは、横軸がαを表し、縦軸が決定係数Ｅを表す。実線は実施形態に開示の手法、破線は実施形態の符号制約の一部をランダムに選択して正負を逆にした比較例、一点鎖線はＬ１正則化（ＬＡＳＳＯ）、二点鎖線は正則化なしの各結果を表す。なお、各手法においてデータ数Ｔを４０としてモデルの構築を行った。また、上述の通り制約符号は生産プラントに関する知見に基づいて予め設定されたものであるが、一般的には不適切な設定を含み得るものである。比較例は、誤りのある符号制約をシミュレートしたものといえる。

　図７Ａ及び図７Ｂに示すように、相関係数ｒは、本開示の手法、比較例、ＬＡＳＳＯ、制約なしの順に値が高かった。また、図８に示すように、決定係数Ｅは、ＬＡＳＳＯ、本開示の手法及び比較例、制約なしの順に値が１に近かった。図７Ａ及び図７Ｂからもわかるように、一般的なＬＡＳＳＯでは、パラメータαを大きくし過ぎると精度は低下する。すなわち、ＬＡＳＳＯにおいてαはいわゆるハイパーパラメータであり、交差検証による調整が必要である。一方、本開示の手法によれば、αを充分大きくとることで精度を向上させることができた。これは、人手によるパラメータ調整を不要にし得るという効果がある。また、比較例のように符号制約をランダムに与えた場合、例えば相関係数ｒは、実施形態に係る手法よりも低下した。すなわち、実施形態に係る手法は、分析対象とするデータが、説明変数の変動と目的変数の変動とに一定の対応関係を有し、これに合致した符号制約を与えた場合に、特に当てはまりのよいモデルを作成し得るといえる。また、図７Ａおよび図７Ｂからわかるように、破線で示す、符号制約をランダムに与えた比較例の場合であっても、二点鎖線で示す正則なしの場合よりも相関係数が高い。このことは、一部の説明変数について適切でない符号制約が課されたとしても、依然当てはまりのよいモデルを作成し得ることを示す。現実には、説明変数の変動と目的変数の変動との対応関係に関する知識が必ずしも完全でない場合が往々にしてある。そのような場合においても、実施形態に係る手法によれば、正則化なしの場合よりも当てはまりのよいモデルを作成し得るという効果を発揮する。

　図９は、複数の手法で構築されたモデルについて、学習に用いるデータ数Ｔと相関係数ｒとの関係を示す図である。図１０は、複数の手法で構築されたモデルについて、学習に用いるデータ数Ｔと決定係数Ｅとの関係を示す図である。図９に示すように、例えばデータ数Ｔが４０以下の場合においては、相関係数ｒは、本開示の手法、比較例、ＬＡＳＳＯ、制約なしの順に値が高かった。また、図１０に示すように、決定係数Ｅは、ＬＡＳＳＯ、本開示の手法及び比較例、制約なしの順に値が１に近かった。このように、本開示の手法は、訓練データが比較的少ない場合において有効といえる。すなわち、データが充分に収集できていない場合や、予測モデルは時々刻々と変化するがデータのみからは観測できない状態の変化がある等の理由で直近のデータしか使えないような場合にも有用である。

＜効果＞
　本開示の手法によれば、説明変数の変動の、正又は負の方向と、目的変数の変動の、正又は負の方向とに、一定の対応関係を有するような制約を満たす回帰式を生成することができる。したがって、ユーザは、回帰式を用いて、予測値μを所望の値に近づけるために、入力ｘ_ｋの値を正又は負のいずれに変動させればよいかがわかるようになる。また、図７Ａ及び図７Ｂを用いて説明したように、制約の強さを表すパラメータαの調整が不要になるという利点もある。また、図９及び図１０を用いて説明したように、本開示の手法は、訓練データが比較的少ない場合において特に有効である。

　以下、効果について補足する。ここで、式（２）の正則化項に関して、次のことがいえる。

　そして、例えば制約符号が正（Ｒ_＋（ｗ））のとき、式（２）のコスト関数Ｅ（ｗ）のｗ_ｋに関する劣微分は次のように求められる。

なお、ここでは複数の入力ｘ_kの間には相関がないものと仮定し、δ_kk’は単位行列を表すものとする。

　そして、ｗ_ｋは以下のように求められる。

また、これを解き直すと、次のように求められる。

ここで、αが充分大きいとすれば、下段の場合を考慮せずに、ｗ_ｋは次の式（１１）で表すことができる。

　式（１１）の上段の場合は、最小二乗法と同じ解である。一方、一般的な最小二乗法においては符号制約が課されないため、例えばデータ数Ｔが比較的小さい場合においては、式（１１）の下段に相当するケースにおいても式（１１）の上段と同じ解が得られることがある。この場合、回帰式の出力を所望の値に近づけるために、説明変数の値をどのように変更すべきかがわからないことになる。一方、このような場合、本開示の技術によれば、式（１１）の下段に示すように係数ｗ_ｋをゼロにする。すなわち、制約を満たすことができない説明変数ｘ_ｋについては、作成される回帰式に用いられない。よって、説明変数の変動の、正又は負の方向と、目的変数の変動の、正又は負の方向とに、一定の対応関係を有するような制約を満たす回帰式を生成することができる。また、パラメータαの値は充分に大きな値とすることができ、調整は不要といえる。

　また、一般的なＬＡＳＳＯにおいては、例えば以下のようにｗ_ｋが求められる。

すなわち、本来収束すべき値からαだけ小さくなるようバイアスして推定される。このようなバイアスは、二乗誤差を大きくするように作用する。一方、本開示の技術によればこのようなバイアスは生じないため、回帰式の精度が向上するといえる。

　また、式（１１）によれば、オラクル性質（Oracle property, Fan and Li, 2001）が満たされる。すなわち、標本サイズが大きくなるとき、モデルに用いられる説明変数が正しく選択される確率が１に収束する（変数選択の一致性）。また、説明変数に対する推定量は漸近正規性を有する。

＜実施形態２＞
　本実施形態は、回帰係数に上述した符号制約を課すとともに、スパース化の性能を向上させることができる。また、正則化の強さを制御するためのパラメータβは、いわゆるハイパーパラメータとする。すなわち、図６に示した処理に加え、既存の交差検証を用いた手法により係数の最適値を決定する。本実施形態では、式（２）に示したコスト関数に代えて、次の式（１２）に示すコスト関数を用いる。なお、回帰式は式（１）に示したものと同じである。

βは正則化の強さを制御するためのパラメータであり、ゼロ以上の値をとる。また、βは、交差検証を用いた既存の手法により最適値が決定される。本実施形態に係る正則化項βＲ_ＳＬ（ｗ）も、正又は負の片側で符号制約を課す。具体的には、図１のテーブルにおいてｘ_ｋの制約符号が正の場合、Ｒ_ＳＬ＋（ｗ）の値をとり、制約符号が負の場合、Ｒ_ＳＬ－（ｗ）の値をとる。すなわち、正則化項は、係数ｗ_ｋが、制約符号に応じた正及び負のいずれか一方の区間において、係数の絶対値の和に応じてコストを増大させ、他方の区間においてはコストを無限大にする。換言すれば、制約符号と一致しない場合はコストを無限大にする（すなわち、式（２）のαを無限大にする場合に相当）だけでなく、制約符号と一致する場合もβ及びｗに応じてコストを増大させる。

　図１１Ａ及び図１１Ｂは、回帰係数ｗに課せられる制約を説明するための模式的な図である。図１１Ａのグラフは、縦軸がβＲ_ＳＬ＋（ｗ）を、横軸がｗを表す。上述の式（１２）は、入力ｘ_ｋに対応付けられた制約符号が正の場合であって、入力ｘ_ｋの係数ｗ_ｋがゼロ以上のときはＲ_ＳＬ＋（ｗ）＝ｗであり、ｗの増加に応じてＥ（ｗ）も増加させる。一方、入力ｘ_ｋの係数ｗ_ｋがゼロ未満のときはＲ_ＳＬ＋（ｗ）＝＋∞でありコストを正の無限大に発散させる。これは、図２Ａに示したαが十分に大きな値である場合に予測性能が最大化されることに基づいて、無限大としたものである。すなわち、本実施形態の正則化項は、制約符号と一致しない区間においてはコストを無限大にし、制約符号と一致する区間においても回帰係数ｗとパラメータβの大きさに応じてコストを増大させる。ここで、係数ｗ_ｋがゼロ以上のときは、式（１）に示した回帰式の入力ｘ_ｋが増加するほど回帰式による予測値μも増加する。すなわち、ｘ_ｋに対応付けられた制約符号が正の場合は、入力ｘ_ｋの値が増加するほど予測値μの値も増加するときに正則化項が小さく、入力ｘ_ｋの値が増加するほど予測値μの値が減少するときに正則化項が大きくなるように、コスト関数が定義されている。

　図１１Ｂのグラフは、縦軸がβＲ_ＳＬ－（ｗ）を、横軸がｗを表す。上述の式（１２）は、入力ｘ_ｋに対応付けられた制約符号が負の場合であって、入力ｘ_ｋの係数ｗ_ｋがゼロ以上のときはＲ_ＳＬ－（ｗ）＝＋∞でありコストを正の無限大に発散させる。これは、図２Ｂに示したαが十分に大きな値である場合に予測性能が最大化されることに基づいて無限大としたものであり、十分大きな値を意図したものである。一方、入力ｘ_ｋの係数ｗ_ｋがゼロ未満のときはＲ_ＳＬ－（ｗ）＝－ｗであり、ｗの減少に応じてＥ（ｗ）を増加させる。ここで、係数ｗ_ｋがゼロ未満のときは、式（１）に示した回帰式の入力ｘ_ｋが増加するほど回帰式による予測値μは減少する。すなわち、ｘ_ｋに対応付けられた制約符号が負の場合は、入力ｘ_ｋの値が増加するほど予測値μの値が減少するときに正則化項が小さく、入力ｘ_ｋの値が増加するほど予測値μの値が増加するときに正則化項が大きくなるように、コスト関数が定義されている。

＜効果＞
　Leave-one-out法による交差検証により、本実施形態に係る手法と、既存のＬ１正則化（ＬＡＳＳＯ）性能評価を行った。学習データ数Ｎは１０であり、特徴数Ｋは１１とした。図１２は、パラメータβと相関係数ｒとの関係を示す図である。図１２の折れ線グラフは横軸がパラメータβを表し、縦軸が相関係数ｒを表す。また、実線は、本実施形態に係る手法による結果を表し、破線は、既存のＬ１正則化（ＬＡＳＳＯ）による結果を表す。相関係数ｒは、特にβが０．００１よりも小さい範囲において、本実施形態に係る手法の結果の方が既存のＬＡＳＳＯの結果よりも高くなった。図１３は、パラメータβと決定係数Ｒ^２との関係を示す図である。図１３の折れ線グラフは、横軸がパラメータβを表し、縦軸が決定係数Ｒ^２を表す。また、実線は、本実施形態に係る手法による結果を表し、破線は、既存のＬ１正則化（ＬＡＳＳＯ）による結果を表す。決定係数Ｒ^２も、特にβが０．００１よりも小さい範囲において、本実施形態に係る手法の結果の方が既存のＬＡＳＳＯの結果よりも高くなった。図１４は、パラメータβとＲＭＳＥ（Root Mean Square Error）との関係を示す図である。図１４の折れ線グラフは、横軸がパラメータβを表し、縦軸がＲＭＳＥを表す。また、実線は、本実施形態に係る手法による結果を表し、破線は、既存のＬ１正則化（ＬＡＳＳＯ）による結果を表す。ＲＭＳＥも、特にβが０．００１よりも小さい範囲において、本実施形態に係る手法の結果の方が既存のＬＡＳＳＯの結果よりも低くなった。一般的に、説明変数の数が学習データの数よりも大きい場合には、方程式の数が解くべき変数の数より少なくなるため、何らかの正則化を施さなければ回帰係数を一意に定めることができない。図１２から図１４に示すように、本実施形態に係る手法により正則化を行えば、説明変数の数が学習データの数よりも大きい場合にも回帰係数を決定することができ、さらに、既存のＬＡＳＳＯと比較して予測性能（汎化性能）を向上させることができる。

＜変形例＞
　各実施形態における各構成及びそれらの組み合わせ等は、一例であって、本発明の主旨から逸脱しない範囲内で、適宜、構成の付加、省略、置換、及びその他の変更が可能である。本開示は、実施形態によって限定されることはなく、クレームの範囲によってのみ限定される。また、本明細書に開示された各々の態様は、本明細書に開示された他のいかなる特徴とも組み合わせることができる。

　図５に示したコンピュータの構成は一例であり、このような例には限定されない。例えば、回帰分析装置１の機能の少なくとも一部は、複数の装置に分散して実現するようにしてもよいし、同一の機能を複数の装置が並列に提供するようにしてもよい。また、回帰分析装置１の機能の少なくとも一部は、いわゆるクラウド上に設けるようにしてもよい。また、回帰分析装置１は、例えば検証処理部１４４等、一部の構成を備えていなくてもよい。

　また、式（２）に示したコスト関数は、正又は負の片側でＬ１正則化を行うものとしたが、Ｌ２ノルムやその他の凸関数によっても動作する。すなわち、係数の絶対値の和に代えて、正又は負の片側で係数の二乗和やその他のペナルティを課す項を用いるようにしてもよい。

　また、回帰分析装置１によって分析されるデータの内容は、特に限定されない。実施例で述べた製造業における品質等の特性値の予測のほか、非製造業やその他の様々な分野に適用できる。

　また、本開示は、上述した処理を実行する方法やコンピュータプログラム、当該プログラムを記録した、コンピュータ読み取り可能な記録媒体を含む。当該プログラムが記録された記録媒体は、プログラムをコンピュータに実行させることにより、上述の処理が可能となる。

　ここで、コンピュータ読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的、または化学的作用によって蓄積し、コンピュータから読み取ることができる記録媒体をいう。このような記録媒体のうちコンピュータから取り外し可能なものとしては、フレキシブルディスク、光磁気ディスク、光ディスク、磁気テープ、メモリカード等がある。また、コンピュータに固定された記録媒体としては、ＨＤＤやＳＳＤ（Solid State Drive）、ＲＯＭ等がある。

１：　回帰分析装置
１１：　通信Ｉ／Ｆ
１２：　記憶装置
１３：　入出力装置
１４：　プロセッサ
１４１：　データ取得部
１４２：　係数更新部
１４３：　収束判定部
１４４：　検証処理部
１４５：　運用処理部

Claims

　回帰モデルの目的変数及び説明変数として用いられる訓練データと、前記目的変数を正又は負の方向に変動させるために、前記説明変数を正及び負のいずれに変動させるべきかを予め定義する制約条件とを格納する記憶装置から、前記訓練データ及び前記制約条件を読み出すデータ取得部と、
　前記制約条件に反する場合にコストを増大させる正則化項を含むコスト関数を最小化させるように、前記訓練データを用いて、前記回帰モデルにおける説明変数の係数を繰り返し更新する係数更新部と
　を備える回帰分析装置。
　前記正則化項は、前記係数が、前記制約条件に応じた正又は負である区間において、前記係数の絶対値の和に応じて前記コストを増大させる
　請求項１に記載の回帰分析装置。
　前記係数更新部は、前記係数が前記制約条件を満たす値に収束しない場合、前記係数をゼロにする
　請求項１又は２に記載の回帰分析装置。
　前記係数更新部は、近接勾配法により前記係数を更新する
　請求項１から３のいずれか一項に記載の回帰分析装置。
　コンピュータが、
　回帰モデルの目的変数及び説明変数として用いられる訓練データと、前記目的変数を正又は負の方向に変動させるために、前記説明変数を正及び負のいずれに変動させるべきかを予め定義する制約条件とを格納する記憶装置から、前記訓練データ及び前記制約条件を読み出し、
　前記制約条件に反する場合にコストを増大させる正則化項を含むコスト関数を最小化させるように、前記訓練データを用いて、前記回帰モデルにおける説明変数の係数を繰り返し更新する
　回帰分析方法。
　コンピュータに、
　回帰モデルの目的変数及び説明変数として用いられる訓練データと、前記目的変数を正又は負の方向に変動させるために、前記説明変数を正及び負のいずれに変動させるべきかを予め定義する制約条件とを格納する記憶装置から、前記訓練データ及び前記制約条件を読み出させ、
　前記制約条件に反する場合にコストを増大させる正則化項を含むコスト関数を最小化させるように、前記訓練データを用いて、前記回帰モデルにおける説明変数の係数を繰り返し更新させる
　プログラム。