WO2017073446A1

WO2017073446A1 - 説明変数値を算出する装置、方法及びプログラム

Info

Publication number: WO2017073446A1
Application number: PCT/JP2016/081072
Authority: WO
Inventors: 康高野; 佐藤　隆一; 辰郎石島; 一慶吉野
Original assignee: みずほ第一フィナンシャルテクノロジー株式会社
Priority date: 2015-10-30
Filing date: 2016-10-20
Publication date: 2017-05-04
Also published as: JP6063544B1; JP2017084273A; US20190050373A1

Abstract

統計モデルの精度と分かり易さを両立させるための説明変数値を算出する。　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムは、前記原変数の値と、前記応答変数が特定の値をとる確率である応答確率の推定値との関係を定めた応答確率推定用データを取得する応答確率推定用データ取得ステップ（Ｓ２０１）と、前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップ（Ｓ２０２）と、前記原変数の実現値と、前記応答確率推定用データとを用いて、前記原変数の実現値から前記応答確率の推定値を算出し、該推定値を所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出する説明変数値算出ステップ（Ｓ２０３，Ｓ２０４）とをコンピュータに実行させる。

Description

説明変数値を算出する装置、方法及びプログラム

　本発明は、説明変数値を算出する装置、方法及びプログラムに関する。

　自然現象、社会現象といった様々な現象の解明及び予測を行うために統計モデルが用いられる。例えば、以下のような統計モデルがある。

　ただし、ｘ_１、ｘ_２、・・・は、説明変数と呼ばれる変数である。β_１、β_２、・・・は、説明変数ｘ_１、ｘ_２、・・・にそれぞれ対応する係数であり、αは定数項である。式（１）において、説明変数と係数との線形結合と定数項αとの和により表されるＺは、線形予測子と呼ばれる。Ｙは応答変数と呼ばれる変数である。式（２）に示したように、応答変数Ｙの期待値Ｅ［Ｙ］と線形予測子Ｚとの関係は、関数Ｆにより表される。

　例えば、体重を応答変数とし、身長、ウエストなどを説明変数とすることができる。

　このような統計モデルの例として、一般化線形モデル（generalized linear model）が挙げられる。さらに、一般化線形モデルの例として、線形回帰モデル、二項ロジットモデル、順序ロジットモデルが挙げられる。

　統計モデルにおける説明変数となり得るデータ（財務指標、個人属性など）は、分布が大きく偏っている場合がある。また、単調性のないデータも多い。分布が大きく偏ったデータ又は単調性のないデータをそのまま説明変数値として用いると、精度の高い統計モデルが得られないことが多い。

　そのため、説明変数となり得るデータに何らかの加工を行い、その加工後のデータを説明変数値とすることが行われる。このような加工の例として、非特許文献１には対数変換が記載されている。

竹内啓ら編、「統計学辞典」、東洋経済新報社、１９８９年１２月、ｐ．４１９

　ニューラルネットワーク等の手法でも統計モデルの構築は可能だが、このような複雑な手法では、統計モデルの分かり易さが失われる。そのため、実務上は、分かり易い上記のようなモデル式が得られる統計モデルを利用することが多い。その一方で、このような単純な統計分析手法は分析の自由度が低いことから、精度を向上させるためには、分析に用いる説明変数値を算出する際に工夫を凝らすことが重要である。

　本発明はこのような実状に鑑みてなされたものであって、その目的は、統計モデルの精度と分かり易さを両立させるための説明変数値を算出することにある。

　上記目的を達成するために、本発明によれば、応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムが提供される。本プログラムは、前記原変数の値と、前記応答変数が特定の値をとる確率である応答確率の推定値との関係を定めた応答確率推定用データを取得する応答確率推定用データ取得ステップと、前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、前記原変数の実現値と、前記応答確率推定用データとを用いて、前記原変数の実現値から前記応答確率の推定値を算出し、該推定値を所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出する説明変数値算出ステップとをコンピュータに実行させる。

　別の実施形態によれば、応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムであって、前記原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを取得する原変数スコア算出用データ取得ステップであって、前記原変数スコアは、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出されたものである、原変数スコア算出用データ取得ステップと、前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、前記原変数の実現値と、前記原変数スコア算出用データとを用いて、前記原変数の実現値から得られる原変数スコアを説明変数値として算出する説明変数値算出ステップとをコンピュータに実行させるプログラムが提供される。

　さらに別の実施形態によれば、応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムであって、前記原変数の値と説明変数値との関係を定めた説明変数値算出用データを取得する説明変数値算出用データ取得ステップであって、前記説明変数値は、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出される原変数スコアを、一次式で変換することによって算出されたものである、説明変数値算出用データ取得ステップと、前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、前記原変数の実現値と、前記説明変数値算出用データとを用いて、前記原変数の実現値から説明変数値を算出する説明変数値算出ステップとをコンピュータに実行させるプログラムが提供される。

　上述の如く、本発明によれば、統計モデルの精度と分かり易さを両立させるための説明変数値を算出することができる。

応答確率推定用データ作成装置の機能構成例を示す説明図である。応答確率推定用データ作成装置のハードウェア構成例を示す説明図である。応答確率推定用データ作成装置が行う処理のフローチャートの一例である。説明変数値算出装置の機能構成例を示す説明図である。説明変数値算出装置が行う処理のフローチャートの一例である。説明変数値のグラフである。近似折線グラフである。

　以下に本発明の実施形態を説明する。ただし、本発明は、以下に説明する実施の形態によって限定されるものではない。

　［第１の実施形態：　ロジスティック回帰分析による信用評価モデルの構築］
　企業又は個人のデフォルトすなわち債務不履行のしやすさを評価する統計モデルを信用評価モデルと呼ぶ。デフォルトしにくいと評価されれば、当該企業又は個人は信用力が高いといえる。

　企業を対象とした信用評価モデルにおいては、貸借対照表、損益計算書から計算される財務指標を説明変数として用いることが多い。この場合の財務指標の例としては、自己資本比率、債務償還年数、経常収支比率、売上債権回転日数などが挙げられる。

　また、個人を対象とした信用評価モデルにおいては、個人の属性に関する情報を説明変数として用いることが多い。このような情報の例として、個人の年齢、世帯人数、年収、勤続年数などが挙げられる。

　以下、企業の財務指標、個人の属性といった、信用力に関係する情報を「指標」とも呼ぶ。この指標が、説明変数を算出する元となる原変数である。

　また、決算後一定期間内にデフォルトしていれば１、デフォルトしていなければ０をとる２値変数をデフォルトフラグと呼ぶ。このデフォルトフラグを、信用評価モデルにおける応答変数として用いることが多い。これは、信用評価モデルの対象が企業であるか個人であるかを問わない。

　以上のような説明変数及び応答変数を用いて、ロジスティック回帰分析等の統計分析により、信用評価モデルを構築する。信用評価モデルのアウトプットは、用いる統計分析手法によって異なるが、信用スコア、デフォルト率、格付などの、企業又は個人の信用力を表象する情報である。アウトプットに応じて、信用スコアリングモデル、デフォルト率推定モデルなどの様々な呼び方があるが、本明細書においてはこれらをまとめて信用評価モデルと呼ぶ。

　信用評価モデルの構築においては、ロジスティック回帰分析と呼ばれる分析手法が多く使われる。このロジスティック回帰分析においては、説明変数と、応答変数すなわちデフォルトフラグが１となる確率ｐ（デフォルト率ｐとも呼ぶ）との関係を次式で表現する。

ただし、Ｘ_ｋ（ｋ＝１，２，・・・）は、説明変数である。β_ｋは、説明変数Ｘ_ｋにそれぞれ対応する係数であり、αは定数項である。ｌｏｇｉｔ（ｐ）は、デフォルト率ｐのロジットと呼ばれる。

　そして、企業ｉ（ｉは企業ＩＤである）の第ｋ番目の指標値（第ｋ番目の原変数値とも呼ぶ）から、企業ｉの第ｋ番目の指標に関する説明変数値Ｘ_ｉ ^ｋを以下のように算出する。
ただし、ｐ_ｉ ^ｋは、企業ｉの第ｋ番目の指標値から推定された企業ｉのデフォルト率である。Ｆは、何らかの確率分布の分布関数である。Ｆ^－１は、関数Ｆの逆関数である。

　関数Ｆを次式のようにロジスティック分布の分布関数とすることによって、説明変数値Ｘ_ｉ ^ｋとｌｏｇｉｔ（ｐ_ｉ ^ｋ）は、式（３）の関係を満たすこととなる。

　このように、説明変数Ｘ_ｋとデフォルト率ｐとの関係が信用評価モデルの仮定に従うものとなるように、説明変数値Ｘ_ｉ ^ｋを算出することにより、より精度の高い信用評価モデルを構築できることが期待される。

　このようにして算出される説明変数値Ｘ_ｉ ^ｋは、第ｋ番目の原変数値により企業ｉの信用力を数値化したものである。企業の様々な原変数値から算出される説明変数値を見ることにより、それぞれの指標で評価した信用力の高低が容易に把握できるようになる。推定デフォルト率ｐ_ｉ ^ｋを算出する方法としては任意の方法を用いることができる。本実施形態では、後述するように離散化による方法を用いる。

　なお、次式で計算される説明変数の線形結合Ｚを、Ｚスコアと呼ぶ。

このＺスコアは、信用評価モデルに取り込まれている説明変数を全て考慮した場合の企業の信用力を表している。

　以下、説明変数値Ｘ_ｉ ^ｋを算出するために必要となる応答確率推定用データ作成について説明する。続いて、応答確率推定用データを用いた説明変数値Ｘ_ｉ ^ｋの算出について説明する。

　［応答確率推定用データ作成］
　応答確率推定用データの作成は、図１に示す応答確率推定用データ作成装置１が行う。応答確率推定用データ作成装置１は、モデル構築用データ取得部１２と、応答確率推定用データ作成部１４とを備えている。各機能部の詳細は後述する。

　図２は、応答確率推定用データ作成装置１のコンピュータハードウェア構成例を示している。応答確率推定用データ作成装置１は、ＣＰＵ５１と、インタフェース装置５２と、表示装置５３と、入力装置５４と、ドライブ装置５５と、補助記憶装置５６と、メモリ装置５７とを備えており、これらがバス５８により相互に接続されている。

　応答確率推定用データ作成装置１の機能を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体５９によって提供される。プログラムを記録した記録媒体５９がドライブ装置５５にセットされると、プログラムが記録媒体５９からドライブ装置５５を介して補助記憶装置５６にインストールされる。あるいは、プログラムのインストールは必ずしも記録媒体５９により行う必要はなく、ネットワークを介して他のコンピュータからダウンロードすることもできる。補助記憶装置５６は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置５７は、プログラムの起動指示があった場合に、補助記憶装置５６からプログラムを読み出して格納する。ＣＰＵ５１は、メモリ装置５７に格納されたプログラムにしたがって応答確率推定用データ作成装置１の機能を実現する。インタフェース装置５２は、ネットワークを通して他のコンピュータに接続するためのインタフェースとして用いられる。表示装置５３はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置５４はキーボード及びマウス等である。

　図３は、応答確率推定用データ作成装置１が行う処理を示している。まず、ステップＳ１０１において、モデル構築用データ取得部１２がモデル構築用データを読み込む。モデル構築用データの例を表１に示す。

　モデル構築用データは、複数のサンプルを有している。各サンプルが一つの企業に関する情報を表している。また、「デフォルトフラグ」とは、先に述べたように、決算後一定期間内にデフォルトしていれば１、デフォルトしていなければ０をとる２値変数である。

　表１における「財務指標」は、各企業の貸借対照表、損益計算書等といった決算情報から算出される。例えば、「売上高・対数」は、決算情報から算出される売上高を対数変換した情報である。「自己資本比率」、「債務償還年数」、「流動比率」、「売上高金利負担率」は、それぞれ、決算情報から算出されるものである。これらの指標が、算出対象である説明変数の元になる原変数である。なお、「ｋ」は、原変数の番号である。

　例えば、企業ＩＤが「１」である「企業Ａ」の「自己資本比率」の値は「４６．８２％」である。この値を、「自己資本比率」という原変数の実現値と呼ぶ。そして、「デフォルトフラグ」という応答変数の実現値は「０」である。このように、表１は、複数のサンプルを有し、各サンプルは、複数の原変数の実現値と応答変数の実現値とを含んでいる。なお、原変数の個数に制限はなく、複数あればよい。

　ステップＳ１０２において、応答確率推定用データ作成部１４が、「自己資本比率」（ｋ＝２）という原変数に関して、表２に示すような応答確率推定用データを作成する。本実施形態では、応答確率（応答変数が特定の値をとる確率のこと）がデフォルト率であるため、応答確率推定用データをデフォルト率推定用データとも呼ぶ。

　表２の「階級番号」は、連続的な指標である自己資本比率の値の存在範囲を複数の階級に離散化したことにより得られる階級の番号である。「自己資本比率」の「下限値」及び「上限値」は、各階級の下限値及び上限値を示している。そして、「サンプル数」における「非デフォルト数」は、各階級において、表１の「デフォルトフラグ」が０となっているサンプルの数である。また、「サンプル数」における「デフォルト数」は、各階級において、表１の「デフォルトフラグ」が１となっているサンプルの数である。「非デフォルト数」及び「デフォルト数」は、応答確率推定用データ作成部１４が表１のモデル構築用データを参照して数え上げることにより得られる。

　さらに、表２の「推定デフォルト率」は、応答確率推定用データ作成部１４により、階級毎に以下のようにして計算される。
　　（推定デフォルト率）＝（デフォルト数）／（（非デフォルト数）＋（デフォルト数））
なお、推定デフォルト率を「応答確率の推定値」とも呼ぶ。

　以上のようにして、「自己資本比率」という原変数に関する応答確率推定用データが作成される。「自己資本比率」以外の原変数についても同様に応答確率推定用データを作成することができる。

　このように、応答確率推定用データは、原変数の値と応答確率の推定値（推定デフォルト率）との関係を定めたデータである。

　［説明変数値の算出］
　続いて、応答確率推定用データを用いた説明変数値Ｘ_ｉ ^ｋの算出と、それに続く統計モデルの構築とについて説明する。説明変数値の算出は、図４に示す説明変数値算出装置２により行われる。説明変数値算出装置２は、応答確率推定用データ取得部２２と、原変数データ取得部２４と、原変数スコア算出部２６と、説明変数値算出部２８とを備えている。各機能部の詳細は後述する。説明変数値算出装置２も、図２に示したようなコンピュータハードウェア構成を有している。説明変数値算出装置２が行う処理の流れを図５に示している。

　まず、ステップＳ２０１において、応答確率推定用データ取得部２２は、表２に示したような応答確率推定用データを応答確率推定用データ作成装置１から読み込む。

　ステップＳ２０２において、原変数データ取得部２４は、表１に示したモデル構築用データを応答確率推定用データ作成装置１から読み込む。上述したように、モデル構築用データは原変数の実現値を含んでいることから、本実施例では、モデル構築用データを原変数データとして使用する。ただし、原変数データは必ずしもモデル構築用データと同じである必要はなく、原変数の実現値が含まれているデータであればよい。

　ステップＳ２０３において、原変数スコア算出部２６は、応答確率推定用データ（表２）及び原変数データ（表１）を用いて、「自己資本比率」という原変数（ｋ＝２）に関する推定デフォルト率を算出する。例えば、「企業Ａ」（ｉ＝１）であれば、自己資本比率の実現値は「４６．８２％」であることから、表２の階級番号８を参照することにより、推定デフォルト率ｐ_ｉ ^ｋが「０．９６％」と算出される。このような自己資本比率に関する推定デフォルト率の算出を全ての企業について行う。

　ステップＳ２０４において、原変数スコア算出部２６は、ステップＳ２０３で算出された推定デフォルト率ｐ_ｉ ^ｋから、次式により原変数スコアと呼ばれる値を算出する。

先に述べたように、関数Ｆはロジスティック分布の分布関数である。

　ステップＳ２０５では、説明変数値算出部２８が説明変数値Ｘ_ｉ ^ｋを算出する。説明変数値Ｘ_ｉ ^ｋの算出は次式により行われる。

　このように、説明変数値は、原変数スコアを－１倍した値である。もちろん、これに限られず、説明変数値は、原変数スコアを一次式により変換した値とすることができる。以上が、自己資本比率に関する説明変数値算出までの流れである。

　その後、自己資本比率（ｋ＝２）以外の原変数についても同様に説明変数値を算出することができる。そして、全ての原変数に関する説明変数値と、応答変数であるデフォルトフラグを用いて、ロジスティック回帰分析による統計モデル構築を行うことができる（ステップＳ２０６）。なお、統計モデル構築にあたっては、任意の説明変数の選択方法を用いることができる。

　表３は、統計モデル構築におけるパラメータの推定結果の例である。パラメータとは、式（３）の定数項及び係数の総称である。

　係数は、「説明変数値が１点違うと、Ｚスコアが何点異なるか」を表している。係数の値が大きいほど、その係数に対応する指標すなわち原変数の影響が大きく評価されていることになる。

　表３の例では、債務償還年数と自己資本比率が、影響の大きな指標であることがわかる。このように、本実施形態によれば、指標値（原変数値）から算出された説明変数値に対するパラメータの値から、当該指標の影響の大きさをすぐに読み取ることができる。

　表４は、本実施形態で得られた信用評価モデルを用いて、ある企業（Ａ社とする）の信用評価を実施した結果を示したものである。

　表４における「パラメータ推定値」は、表３に既に示したものである。「説明変数値」は、Ａ社の指標値から上述の方法により算出された説明変数値である。「スコア寄与」は、各指標に対するパラメータと説明変数値の積である。定数項と、全ての指標についてのスコア寄与との和が、Ａ社のＺスコアとなる。Ａ社の推定ＰＤは、Ｚスコアから算出することができる。推定ＰＤとは、Ｚスコアに基づく推定デフォルト率のことである。

　図６は、Ａ社に対する各指標の説明変数値を示したグラフである。このグラフから、Ａ社は、棚卸資産回転日数に問題がある可能性が見てとれる。このように、本実施形態では、最終的な評価だけでなく、各指標による評価も容易に把握でき、それらを比較することもできる。

　また、連続的な指標である自己資本比率について主に説明したが、カテゴリカルな指標についても同様に、カテゴリーごとにデフォルトサンプル数と非デフォルトサンプル数を集計することにより、カテゴリーごとの推定デフォルト率を得ることができる。欠損値や特異値（指標の分母が０になる場合など）を伴うサンプルについても、同様な方法により、そうしたサンプルの推定デフォルト率を得ることができる。さらに、２つの指標のクロス表からデフォルト率を算出し、交差変数を作成することもできる。

　［参考例］
　以下に、通常の信用評価モデルによる評価結果の例を示す。通常の信用評価モデルでは、原変数の値をそのまま説明変数値とするか、又は原変数の値を対数変換した値を説明変数値とすることが多い。表５は、通常の信用評価モデルで企業を評価した結果を示している。

　表５の「説明変数値」は、指標値そのものである。ただし、売上高及び棚卸資産回転日数について対数変換を行っている。「スコア寄与」とは、各指標に対するパラメータと説明変数値との積である。

　指標値の水準は指標毎に大きく異なるため、表５のパラメータを見ただけでは、どの指標が重視されているのか分からない。また、スコア寄与が高い指標があったとしても、「指標値」が良い値であるからなのか、パラメータが大きい（重視されている）からなのかが分からない。例えば、「売上高・対数」のスコア寄与が比較的大きいが、これは売上高の評価が良いためなのか、売上高の評価は標準的であるものの、重要な指標であるためスコア寄与が大きくなっているからなのかは、すぐには峻別できない。このように、通常の信用評価モデルの場合は、評価結果の解釈が難しくなる。

　［変形例］
　上述したように、応答確率推定用データ（表２）から、式（７）により原変数スコアが得られ、その原変数スコアから式（８）により説明変数値が得られる。そこで、上記応答確率推定用データに代えて、原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを用いてもよい。この原変数スコア算出用データは、応答確率推定用データ作成装置１に類似する原変数スコア算出用データ作成装置（不図示）により作成される。原変数スコア算出用データ作成装置は、応答確率推定用データ作成部１４に代えて、原変数スコア算出用データ作成部（不図示）を有している。この原変数スコア算出用データ作成部は、原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを作成する。

　続いて、原変数スコア算出用データは、説明変数値算出装置２内の応答確率推定用データ取得部２２に代わる原変数スコア算出用データ取得部（不図示）により取得される。そして、原変数スコア算出部２６が原変数スコア算出用データを用いて原変数スコアを算出する。

　あるいは、上記応答確率推定用データに代えて、原変数の値と説明変数値との関係を定めた説明変数値算出用データを用いてもよい。この説明変数値算出用データは、応答確率推定用データ作成装置１に類似する説明変数値算出用データ作成装置（不図示）により作成される。説明変数値算出用データ作成装置は、応答確率推定用データ作成部１４に代えて、説明変数値算出用データ作成部（不図示）を有している。この説明変数値算出用データ作成部は、原変数の値と説明変数値との関係を定めた説明変数値算出用データを作成する。

　続いて、説明変数値算出用データは、説明変数値算出装置２内の応答確率推定用データ取得部２２に代わる説明変数値算出用データ取得部（不図示）により取得される。この場合、原変数スコア算出部２６は設けられておらず、説明変数値算出部２８が説明変数値算出用データを用いて説明変数値を算出する。

　［第２の実施形態：　近似式を用いる場合］
　本実施形態では、原変数値から推定デフォルト率ｐ_ｉ ^ｋを算出するにあたり、原変数値と推定デフォルト率ｐ_ｉ ^ｋとの関係を表す近似式を用いる。

　近似式の構築方法は様々なものが考えられるが、本実施形態では、区分線形回帰（segmented linear regression）を用いる。区分線形回帰とは、原変数の存在範囲をいくつかの区間に分割し、各区間内で原変数と推定デフォルト率との関係を線形式で近似する方法である。財務指標などの原変数の値と推定デフォルト率との関係は複雑であるため、単純な線形回帰では誤差が非常に大きくなることが多いが、区分線形回帰を用いることにより近似精度の向上が期待できる。

　図７は、原変数の一つである有利子負債利子率について、区分線形回帰によって原変数の値と推定デフォルト率との関係を表す近似折線グラフである。四角形で示した各点は、原変数を離散化して算出した推定デフォルト率を示している。また、実線は、区分線形回帰によって得られた近似折線である。この近似折線を用いて推定デフォルト率を算出することにより、連続的な推定デフォルト率が得られる。その結果、連続的な説明変数値が得られる。

　表６は、有利子負債利子率と推定デフォルト率との関係を表す近似式を、区分線形回帰によって計算した例である。

　区分線形回帰では、表６に示したように、各区間の閾値（原変数の値の最大値及び最小値）と、各区間の傾き及び切片の情報が得られる。傾き及び切片を関数のパラメータとも呼ぶ。そして、閾値と関数のパラメータから、各区間の推定デフォルト率の最大値及び最小値が得られる。この推定デフォルト率の最大値及び最小値を、式（７）により関数Ｆの逆関数Ｆ^－１を用いて変換することにより、原変数スコアの最大値及び最小値が得られる。さらに、式（８）により原変数スコアの最大値及び最小値を一次式で変換することにより、説明変数値の最大値及び最小値が得られる。なお、表６においては、原変数スコアの最大値及び最小値を省略している。

　表６のうち、「区間Ｎｏ．」と「有利子負債利子率」と「関数のパラメータ」とからなるデータが、本実施形態における応答確率推定用データである。この応答確率推定用データは、原変数である「有利子負債利子率」の値と、推定デフォルト率との関係を定めたものである。応答確率推定用データは、第１の実施形態と同様に、応答確率推定用データ作成装置１により作成される（図１及び図３）。

　本実施形態における説明変数値の算出も、図５に示したような流れで行われる。すなわち、ステップＳ２０１にて上記応答確率推定用データが読み込まれる。ステップＳ２０２では、モデル構築用データ（表１）が読み込まれる。ステップＳ２０３では、上記応答確率推定用データと、モデル構築用データとから、各サンプルの原変数の実現値が上記応答確率推定用データどの区間に含まれるかが読み取られる。続いて、該当する区間の関数のパラメータが読み取られる。同ステップではさらに、推定デフォルト率が次式により算出される。
　　（推定デフォルト率）＝（傾き）×（原変数の実現値）＋（切片）

　ステップＳ２０４では、式（７）により原変数スコアが算出される。ステップＳ２０５では、式（８）により説明変数値が算出される。

　有利子負債がゼロの場合、有利子負債利子率を算出することができない。また、有利子負債利子率が欠損値である場合もある。従来のモデル構築では、説明変数を連続変数とする場合には、欠損値等のサンプルには「最悪値を割り当てる」といったアドホックな対応がとられていた。

　このような有利子負債利子率の実現値を得ることができないサンプルについても、本実施形態では、実施形態１と同様に、非デフォルトサンプルとデフォルトサンプルを数え上げることによってそれらのサンプルの推定デフォルト率を算出し、その推定デフォルト率から説明変数値を算出する。このように、有利子負債利子率の実現値を得ることができないサンプルについても、通常のサンプルと同じ考え方で推定デフォルト率に見合った説明変数値が得られるため、統計モデルの精度向上が期待できる。

　有利子負債利子率以外の指標も上述と同様に説明変数値を算出し、それらを説明変数、デフォルトフラグを応答変数としてパラメータ（定数項及び係数）の推定を行うことで、連続的な説明変数を持つ信用評価モデルを構築することができる（ステップＳ２０６）。連続変数でモデルを構築した場合にも、離散化変数の場合と同様に指標別の評価等を実施することができる。

　近似式を得るための方法として、区分線形回帰に限らず、任意の方法を用いることができる。例えば、多項式回帰、対数回帰、Ｂ－スプラインが挙げられる。

　また、指標の分母が正の領域ではＢ－スプライン、分母が負の領域では分母と分子の指標のクロス集計表で推定デフォルト率を与えることも可能である。このように、説明変数値算出を様々な方法で行うことができる。

　本実施形態においても、応答確率推定用データに代えて、原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを用いてもよい。あるいは、応答確率推定用データに代えて、原変数の値と説明変数値との関係を定めた説明変数値算出用データを用いてもよい。

　［第３の実施形態：　プロビット回帰による信用評価モデルの構築］
　プロビット回帰は、ロジスティック回帰と同様に、信用評価モデルの構築に良く用いられる手法であり、説明変数とデフォルト率との関係を以下の式で表現する。

ただし、Φは、標準正規分布の分布関数である。このΦは、上記第１の実施形態における関数Ｆである。そして、関数Φの逆関数Φ^－１を用いて式（７）により原変数スコアを算出することができる。

　本実施形態は、関数Ｆを除いて上記第１の実施形態と同様である。

　パラメータ推定に用いる統計分析手法と指標スコア算出時に用いる分布関数は必ずしも特定の組み合わせに限られるものではない。例えば、説明変数値の算出にあたって標準正規分布の分布関数を用い、得られた説明変数値を用いてロジスティック回帰分析でパラメータを推定することも可能である。

　［第４の実施形態：　業種別に信用評価モデルを構築］
　業種によって財務上の特徴は異なるため、信用評価の実務では業種別に信用評価モデルを構築することがしばしば行われる。本実施形態では、業種別に信用評価モデルを構築する。

　まずステップＳ１０１において、モデル構築用データが読み込まれる。このときのモデル構築用データは、表１に示しているように、「業種」という情報をも含んでいる。そして、ステップＳ１０２において、変数の値と応答確率の推定値（推定デフォルト率）との関係を表す応答確率推定用データを業種毎に作成することができる。例えば、区分線形回帰を用いる場合は、表６のようなテーブルが、業種毎に作られることとなる。そして、ステップＳ２０１～Ｓ２０５を業種毎に行った上で、ステップＳ２０６において、業種別の信用評価モデルを構築することができる。

　なお、業種はセグメント情報の一種である。セグメント情報とは、統計モデルの分析対象である母集団を分割する際に参照される情報である。セグメント情報に基づいて母集団を分割して得られる各々の集団をセグメントと呼ぶ。信用評価モデルの構築では、本実施形態のように、財務的な特徴を共有すると考えられるいくつかのセグメントに母集団を分割し、セグメント毎にモデルを構築することがしばしば行われる。

　［効果］
　上記のように算出された説明変数値を用いて信用評価モデルを構築することにより、評価プロセスが非常に分かり易く、かつ精度の高いモデルを構築することができる。また、算出された説明変数値は、全ての指標で「単一指標で評価した信用力の絶対水準」という共通の意味を持つため、指標毎の評価の高低が容易に把握できるとともに、指標ごとの評価の比較も行える。

　さらに、第４の実施形態のように、業種別にモデル化する場合には、異なる業種間で指標別の評価を比較することができる。例えば、売上高営業利益率の水準は業種によって異なるため、「売上高営業利益率が１１％の小売業のＡ社」と、「同１７％のサービス業のＢ社」とで、どちらが信用力が高いと考えられるかはすぐには分からない。これに対し、本発明によって得られる説明変数の値は、原変数の値から推定したデフォルト率の水準を表わしているため、異なる業種間であっても比較が可能である。先程の例では、売上高営業利益率に対応する説明変数の値を両社で比較することにより、売上高営業利益率という視点から見た場合、どちらの信用力が高いと考えられるか、という疑問に容易に答えることができる。

　信用力と指標値が単調でない指標でも、問題なく統計モデルに取り入れることができる。例えば、指標によっては、大きすぎても小さすぎても信用力が低く（デフォルト率が高く）なるものがある。第１もしくは第２の実施形態によれば、こうした指標は、指標値が大きい場合や小さい場合に説明変数が小さい値となり、中庸な場合に大きい値となる。その結果、説明変数の値と信用力の関係は単調になり、様々な統計モデルに取り込みやすくなる。

　また、指標値からの推定デフォルト率の算出方法は特に限定されないことから、柔軟に指標を加工することが可能である。先に述べたように、２つ以上の指標のクロス集計表を用いて交差変数を作成したり、指標の分母の値に応じて、推定デフォルト率の算出方法を異なるものとしたりすることが可能である。

　原変数スコア算出時に用いる分布関数Ｆとして、モデル構築に用いる統計分析手法に合わせた確率分布を用いることにより、モデル精度の向上が見込まれる。一般に統計モデルでは、説明変数と応答変数が一定の関係性を満たすことを仮定しており、両者の関係がその仮定を満たさなければ、精度の高いモデルは得られない。例えば、ロジスティック回帰分析によるデフォルト率のモデル化では、デフォルト率のロジットが、説明変数の一次式で表されることが仮定されている（式（３））。モデル構築に用いる統計分析手法に合わせた確率分布を用いることにより、説明変数ごとにモデルの仮定が満たされる説明変数値が得られるため、精度向上が見込まれる。プロビットモデルによるデフォルト率のモデル化では、関数Ｆとして標準正規分布の分布関数を用いることにより、モデルの仮定に適合した説明変数値が得られる。

　一つの統計モデルの中で、離散化によって得られる離散化変数と、近似式を用いて得られる連続変数の両者を用いることもできる。説明変数が離散化変数であるか連続変数であるかに関わらず、算出される説明変数値の意味が同じであるため、説明変数値間での比較評価が可能である。

　［その他］
　本明細書に開示した実施形態は、装置としての側面だけではなく、方法としての側面及びコンピュータプログラムとしての側面をも有している。

　応答確率推定用データは、応答確率推定用データ作成装置１内の補助記憶装置５６又は外部の任意の記憶装置に記憶することができる。原変数スコア算出用データ及び説明変数値算出用データについても同様である。

　説明変数値算出装置２により算出された説明変数値は、説明変数値算出装置２内の補助記憶装置又は外部の任意の記憶装置に記憶することができる。

　応答確率推定用データ作成装置１と説明変数値算出装置２とを一体の装置としてもよい。

　ステップＳ１０１において読み込まれるモデル構築用データと、ステップＳ２０２において読み込まれるモデル構築用データとが異なっていてもよい。

　原変数スコアを一次式で変換することなく、そのまま説明変数値としてもよい。

　本発明は、式（１）及び（２）で表されるような統計モデルだけでなく、応答変数が２値変数である統計モデルに対して、幅広く適用することができる。

　以上、本発明の実施の形態につき述べたが、本発明は既述の実施の形態に限定されるものではなく、本発明の技術的思想に基づいて各種の変形及び変更が可能である。

１　　　応答確率推定用データ装置
１２　　モデル構築用データ取得部
１４　　応答確率推定用データ作成部

２　　　説明変数値算出装置
２２　　応答確率推定用データ取得部
２４　　原変数データ取得部
２６　　原変数スコア算出部
２８　　説明変数値算出部

５１　　ＣＰＵ
５２　　インタフェース装置
５３　　表示装置
５４　　入力装置
５５　　ドライブ装置
５６　　補助記憶装置
５７　　メモリ装置
５８　　バス
５９　　記録媒体

Claims

　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムであって、
　前記原変数の値と、前記応答変数が特定の値をとる確率である応答確率の推定値との関係を定めた応答確率推定用データを取得する応答確率推定用データ取得ステップと、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、
　前記原変数の実現値と、前記応答確率推定用データとを用いて、前記原変数の実現値から前記応答確率の推定値を算出し、該推定値を所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出する説明変数値算出ステップと
　をコンピュータに実行させるプログラム。
　前記応答確率推定用データが、前記関係を表す連続的な関数のパラメータを含むものである、請求項１に記載のプログラム。
　前記応答確率推定用データが、前記原変数の値の存在範囲を離散化することにより得られる複数の階級と、前記複数の階級の各々に関係付けられた応答確率の推定値とを含むものである、請求項１に記載のプログラム。
　前記応答確率推定用データが、セグメント毎に、前記原変数の値と前記応答確率の推定値との関係を定めたものであり、
　前記原変数データが、セグメント情報をさらに含むものであり、
　前記説明変数値算出ステップが、前記セグメント情報と前記原変数の実現値と前記応答確率推定用データとを用いて、前記応答確率の推定値を算出し、該推定値を前記所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出するステップである、請求項１～３のいずれか一項に記載のプログラム。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムであって、
　前記原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを取得する原変数スコア算出用データ取得ステップであって、前記原変数スコアは、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出されたものである、原変数スコア算出用データ取得ステップと、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、
　前記原変数の実現値と、前記原変数スコア算出用データとを用いて、前記原変数の実現値から得られる原変数スコアを説明変数値として算出する説明変数値算出ステップと
　をコンピュータに実行させるプログラム。
　前記原変数スコア算出用データが、前記関係を表す連続的な関数のパラメータを含むものである、請求項５に記載のプログラム。
　前記原変数スコア算出用データが、前記原変数の値の存在範囲を離散化することにより得られる複数の階級と、前記複数の階級の各々に関係付けられた原変数スコアとを含むものである、請求項５に記載のプログラム。
　前記原変数スコア算出用データが、セグメント毎に、前記原変数の値と前記原変数スコアとの関係を定めたものであり、
　前記原変数データが、セグメント情報をさらに含むものであり、
　前記説明変数値算出ステップが、前記セグメント情報と前記原変数の実現値と前記原変数スコア算出用データとを用いて得られる前記原変数スコアを説明変数値として算出するステップである、請求項５～７のいずれか一項に記載のプログラム。
　前記説明変数値算出ステップが、前記原変数スコアを一次式で変換した値を説明変数値として算出するステップである、請求項１～８のいずれか一項に記載のプログラム。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出するプログラムであって、
　前記原変数の値と説明変数値との関係を定めた説明変数値算出用データを取得する説明変数値算出用データ取得ステップであって、前記説明変数値は、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出される原変数スコアを、一次式で変換することによって算出されたものである、説明変数値算出用データ取得ステップと、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、
　前記原変数の実現値と、前記説明変数値算出用データとを用いて、前記原変数の実現値から説明変数値を算出する説明変数値算出ステップと
　をコンピュータに実行させるプログラム。
　前記説明変数値算出用データが、前記関係を表す連続的な関数のパラメータを含むものである、請求項１０に記載のプログラム。
　前記説明変数値算出用データが、前記原変数の値の存在範囲を離散化することにより得られる複数の階級と、前記複数の階級の各々に関係付けられた説明変数値とを含むものである、請求項１０に記載のプログラム。
　前記説明変数値算出用データが、セグメント毎に、前記原変数の値と前記説明変数値との関係を定めたものであり、
　前記原変数データが、セグメント情報をさらに含むものであり、
　前記説明変数値算出ステップが、前記セグメント情報と前記原変数の実現値と前記説明変数値算出用データとを用いて前記説明変数値を算出するステップである、請求項１０～１２のいずれか一項に記載のプログラム。
　前記所定の確率分布がロジスティック分布である、請求項１～１３のいずれか一項に記載のプログラム。
　前記所定の確率分布が標準正規分布である、請求項１～１３のいずれか一項に記載のプログラム。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出する装置であって、
　前記原変数の値と、前記応答変数が特定の値をとる確率である応答確率の推定値との関係を定めた応答確率推定用データを取得する応答確率推定用データ取得部と、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得部と、
　前記原変数の実現値と、前記応答確率推定用データとを用いて、前記原変数の実現値から前記応答確率の推定値を算出し、該推定値を所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出する説明変数値算出部と
　を備えた装置。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出する装置であって、
　前記原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを取得する原変数スコア算出用データ取得部であって、前記原変数スコアは、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出されたものである、原変数スコア算出用データ取得部と、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得部と、
　前記原変数の実現値と、前記原変数スコア算出用データとを用いて、前記原変数の実現値から得られる原変数スコアを説明変数値として算出する説明変数値算出部と
　を備えた装置。
　前記説明変数値算出部が、前記原変数スコアを一次式で変換した値を説明変数値として算出する、請求項１６又は１７に記載の装置。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出する装置であって、
　前記原変数の値と説明変数値との関係を定めた説明変数値算出用データを取得する説明変数値算出用データ取得部であって、前記説明変数値は、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出される原変数スコアを、一次式で変換することによって算出されたものである、説明変数値算出用データ取得部と、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得部と、
　前記原変数の実現値と、前記説明変数値算出用データとを用いて、前記原変数の実現値から説明変数値を算出する説明変数値算出部と
　を備えた装置。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出する方法であって、
　前記原変数の値と、前記応答変数が特定の値をとる確率である応答確率の推定値との関係を定めた応答確率推定用データを取得する応答確率推定用データ取得ステップと、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、
　前記原変数の実現値と、前記応答確率推定用データとを用いて、前記原変数の実現値から前記応答確率の推定値を算出し、該推定値を所定の確率分布の分布関数の逆関数に代入することによって得られる値である原変数スコアを説明変数値として算出する説明変数値ステップと
　を含む方法。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出する方法であって、
　前記原変数の値と原変数スコアとの関係を定めた原変数スコア算出用データを取得する原変数スコア算出用データ取得ステップであって、前記原変数スコアは、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出されたものである、原変数スコア算出用データ取得ステップと、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、
　前記原変数の実現値と、前記原変数スコア算出用データとを用いて、前記原変数の実現値から得られる原変数スコアを説明変数値として算出する説明変数値算出ステップと
　を含む方法。
　前記説明変数値算出ステップが、前記原変数スコアを一次式で変換した値を説明変数値として算出するステップである、請求項２０又は２１に記載の方法。
　応答変数が２値変数である統計モデルにおける説明変数値を、原変数の値から算出する方法であって、
　前記原変数の値と説明変数値との関係を定めた説明変数値算出用データを取得する説明変数値算出用データ取得ステップであって、前記説明変数値は、前記原変数の値から推定される、前記応答変数が特定の値をとる確率である応答確率を、所定の確率分布の分布関数の逆関数に代入することによって算出される原変数スコアを、一次式で変換することによって算出されたものである、説明変数値算出用データ取得ステップと、
　前記原変数の実現値を含む原変数データを取得する原変数データ取得ステップと、
　前記原変数の実現値と、前記説明変数値算出用データとを用いて、前記原変数の実現値から説明変数値を算出する説明変数値算出ステップと
　を含む方法。