WO2011074509A1

WO2011074509A1 - 情報処理装置、情報処理方法および記録媒体

Info

Publication number: WO2011074509A1
Application number: PCT/JP2010/072311
Authority: WO
Inventors: 健児青木; 貴之中田
Original assignee: 日本電気株式会社
Priority date: 2009-12-15
Filing date: 2010-12-07
Publication date: 2011-06-23
Also published as: EP2515260A4; US9104641B2; JPWO2011074509A1; US20120331024A1; EP2515260A1; JP5692091B2; CN102656581B; CN102656581A; KR101303417B1; KR20120093363A

Abstract

情報処理装置は、目的変数の平均および分散が連続値を取る説明変数に依存している場合、正確な回帰分析ができない。　説明変数と、該説明変数に対して観測された値であり平均および分散が該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、該説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、該目的変数の平均および分散を算出し、該観測データと、該算出された目的変数の平均および分散と、に基づいて該分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定し、該特定された分割候補に基づいて特定される各領域における該算出された平均および分散に基づいて、該説明変数の定義域における該目的変数の平均および分散をそれぞれ示す滑らかな関数をそれぞれ算出する。

Description

情報処理装置、情報処理方法および記録媒体

　本発明は、説明変数が与えられたもとでの目的変数の平均および分散を推定する情報処理装置、情報処理方法および記録媒体に関する。

　ある確率変数ｙが他の確率変数ｘに依存すると想定される場合に、回帰モデルを用いてその依存性を分析する方法がある。この方法は、回帰分析とも呼ばれる。回帰分析において、前述の確率変数ｙは、目的変数または従属変数と呼ばれる。また前述の確率変数ｘは、説明変数または独立変数と呼ばれる。
　この回帰分析の一例が非特許文献１に記載されている。非特許文献１における回帰分析は、目的変数ｙの分散が説明変数ｘの値によらずに一定であること、すなわち目的変数の分散が説明変数の定義域において均一であることを仮定している。
　また、ある確率変数ｙの平均と分散との両方がｙの観測時刻ｔに依存すると想定される場合に、一般状態空間モデルを用いてその依存性を分析する方法がある。この一般状態空間モデルは、目的変数ｙの平均と分散との両方が目的変数ｙを観測した観測時刻ｔに依存するような時系列データに対して、目的変数ｙの平均と分散との依存性が表現されるモデルである。
　この分析の一例が、非特許文献２に記載されている。

小西貞則、北川源四郎著「情報量規準シリーズ・予測と発見の科学２」朝倉書店、２００４年９月２５日、ｐｐ．１６−２２、３５−３７森下真一、宮野悟編「ｂｉｔ別冊　発見とデータマイニング」共立出版株式会社、２０００年５月５日、ｐｐ．１５９−１６８

　非特許文献１に記載の技術は、目的変数の平均および分散が説明変数の定義域において均一であることを仮定している。したがって、非特許文献１に記載の技術は、目的変数の平均および分散が、説明変数に依存している場合、目的変数の平均および分散を推定することができない。すなわち、非特許文献１に記載の技術は、正確な回帰分析ができないという問題点があった。
　また、非特許文献２に記載の技術は、所定の時刻毎に観測される離散的な時系列データを対象として分析を行う。したがって、非特許文献２に記載の技術は、目的変数の平均および分散が、連続値を取る説明変数に依存している場合、目的変数の平均および分散を推定することができない。すなわち、非特許文献２に記載の技術は、正確な回帰分析ができないという問題点があった。
　本発明の目的の一例は、上述の課題を解決するための情報処理装置、情報処理方法および記録媒体を提供することにある。

　本発明の第一の情報処理装置は、説明変数と、前記説明変数に対して観測された値であり平均および分散が当該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、前記説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出するパラメータ推定部と、前記観測データと、前記算出された目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定する最適分割特定部と、前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に基づいて、前記説明変数の定義域における前記目的変数の平均を示す滑らかな関数および前記説明変数の定義域における前記目的変数の分散を示す滑らかな関数をそれぞれ算出する平滑化部と、を備える。
　本発明の第一の情報処理方法は、説明変数と、前記説明変数に対して観測された値であり平均および分散が当該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、前記説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出し、前記観測データと、前記算出された目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定し、前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に基づいて、前記説明変数の定義域における前記目的変数の平均を示す滑らかな関数および前記説明変数の定義域における前記目的変数の分散を示す滑らかな関数をそれぞれ算出する、工程を備える。
　本発明の第一の記録媒体は、コンピュータに、説明変数と、前記説明変数に対して観測された値であり平均および分散が当該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、前記説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出するパラメータ推定処理と、前記観測データと、前記算出された目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定する最適分割特定処理と、前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に基づいて、前記説明変数の定義域における前記目的変数の平均を示す滑らかな関数および前記説明変数の定義域における前記目的変数の分散を示す滑らかな関数をそれぞれ算出する平滑化処理と、を実行させるプログラムを記録する。

　本発明は、目的変数の平均および分散が連続値を取る説明変数に依存している場合においても、正確な回帰分析ができる。

図１は、本発明の第一の実施の形態の情報処理装置の構成を示したブロック図である。図２は、説明変数ｘの位置および散らばりと、関数ｗ_ｉ（ｘ）との関係を示した図である。図３は、本発明の第一の実施の形態の情報処理装置の動作を示したフローチャートである。図４は、シミュレーションにより発生させた擬似データにおける、仰角と信号誤差との関係を示した一例である。図５は、第二の実施の形態の情報処理装置の動作を示したフローチャートである。図６は、第二の実施の形態における信号誤差の分散の推定を行った結果の一例である。図７は、第三の実施の形態の情報処理装置の構成を示したブロック図である。

　次に本発明の実施の形態について、図面を参照した詳細な説明がなされる。
　本発明の実施の形態についての説明の前に、一般的な回帰モデルにおける、回帰モデルのパラメータを推定する方法についての説明がなされる。
　目的変数ｙと説明変数ｘとに関するｎ組の観測データのそれぞれが（ｙ_α，ｘ_α）と表されるとき、回帰モデルにおける、ｙ_αのｘ_αに対する依存性は、［数１］のように表される。ただし、αは、１以上ｎ以下の整数である。ｕ（ｘ_α；ｗ）は、回帰関数を示す。ｗは、回帰関数のパラメータを示す。ε_αは、誤差項を示す。

　また、回帰モデルでは、一般に誤差項ε_αは、平均０、分散σ^２の正規分布Ｎ（０，σ^２）に独立に従うものと仮定される。この場合、説明変数Ｘ＝（ｘ_１，．．．，ｘ_ｎ）’が与えられたもとでの目的変数ｙ_１：ｎ＝（ｙ_１，．．．，ｙ_ｎ）’の確率密度関数ｆは、［数２］のように表される。

　回帰モデルにおけるパラメータ（ｗ’，σ^２）’を観測データから推定するための手法として、最尤推定法がある。最尤推定法では、確率密度関数ｆに対して、［数３］で表される対数尤度関数ｌｏｇ　ｆを最大にするパラメータの値が、所望の推定値となる。

　以下は、発明を実施するための形態についての詳細な説明である。なお、各図面および本明細書記載の各実施の形態において、同様の機能を備える構成要素には同一の符号が与えられている。
　［第一の実施の形態］
　図１は、本発明の第一の実施の形態の構成を示すブロック図である。
　図１を参照すると、本発明の第一の実施の形態における情報処理装置１１は、入力部１０１と、分割候補管理部１０２と、パラメータ推定部１０３と、最適分割特定部１０４と、平滑化部１０５と、を備える。
　入力部１０１は、パラメータ推定部１０３と、最適分割特定部１０４と、平滑化部１０５と、それぞれ接続されている。分割候補管理部１０２は、パラメータ推定部１０３と接続されている。パラメータ推定部１０３は、入力部１０１と、分割候補管理部１０２と、最適分割特定部１０４と、平滑化部１０５とそれぞれ接続されている。最適分割特定部１０４は、入力部１０１と、パラメータ推定部１０３と、平滑化部１０５とそれぞれ接続されている。平滑化部１０５は、入力部１０１と、パラメータ推定部１０３と、最適分割特定部１０４と、平滑化部１０５とそれぞれ接続されている。
　＝＝＝入力部１０１＝＝＝
　入力部１０１は、目的変数ｙと説明変数ｘとのｎ組の観測データ（ｙ_α，ｘ_α）の入力を受ける。ここでαは、１以上ｎ以下の整数である。本実施の形態では、説明変数ｘは、ｐ次元ベクトルｘ＝（ｘ^（１），．．．，ｘ^（ｐ））’であるものとする。ただしｐは、１以上の整数である。これは、例示であって、説明変数ｘは、スカラーであってもよい。
　なお、入力部１０１は、データの入出力のためのインターフェース回路を含む。観測データ（ｙ_α，ｘ_α）の入力のための入力部は、連続的に発生する観測データ（ｙ_α，ｘ_α）を検出および受信するセンサ入力手段や通信手段であっても良い。
　＝＝＝分割候補管理部１０２＝＝＝
　分割候補管理部１０２は、ｘの定義域Ｒを複数の領域に分割する情報である分割候補をメモリに記憶する。
　分割候補管理部１０２は、ｘの定義域Ｒを示す情報、Ｒを分割する際の分割数の最大値Ｍ、および、各領域の最小単位Δｘに基づいて、分割候補を算出する第１の演算回路を備え、その算出結果をメモリに記憶してもよい。Ｍは、２以上の整数である。ｘがｐ次元ベクトルである場合、Δｘは、ｘ＝（Δｘ^（１），．．．，Δｘ^（ｐ））’と表される。例えば、説明変数ｘが角度であった場合、Δｘは、１度あるいは５度といった値をとってもよい。
　この情報処理装置１１のユーザは、あらかじめＲ、ＭおよびΔｘを分割候補管理部１０２の内部に設定してもよい。あるいは、分割候補管理部１０２は、Ｒ、ＭおよびΔｘをそれぞれ示す情報を外部から受信してもよい。または分割候補管理部１０２は、入力部１０１を介してＲ、ＭおよびΔｘを受信してもよい。いずれの場合にも、分割候補管理部１０２の第１の演算回路は、設定された、あるいは受信した情報に基づいて、Ｒの分割候補Ｒ_ｃを算出する。
　ここで、分割候補Ｒ_ｃについてさらに説明がなされる。
　分割候補Ｒ_ｃは、分割される領域の数がＭ以下かつ各領域の境界面がΔｘの各成分を定数倍した空間で表現できる、Ｒの分割のことを指す。分割候補Ｒ_ｃに基づいて特定される各領域がｒ_ｉ ^（ｃ）と示されると仮定すると、Ｒの各分割候補Ｒ_ｃは、［数４］のように示される。ただし、ｒ_ｉ ^（ｃ）中のｉは、１以上ｍ^（ｃ）以下の整数である。また、Ｃは、Ｒの分割候補の個数を示す。ｍ^（ｃ）およびＭは、ｍ^（ｃ）≦Ｍなる関係を満たす。ただし、ｃは、１以上Ｃ以下の整数である。

　例えば、説明変数ｘが角度であり、Δｘが５度である場合、各領域ｒ_ｉ ^（ｃ）における角度の範囲は、Δｘの整数倍、すなわち５の倍数である。
　なお、分割候補管理部１０２は、分割候補Ｒ_ｃに基づいて特定される各領域ｒ_ｉ ^（ｃ）を示す情報と、各分割候補Ｒ_ｃとを対応付けてメモリに記憶するものとする。
　＝＝＝パラメータ推定部１０３＝＝＝
　パラメータ推定部１０３は、分割候補管理部１０２よりＲの分割候補Ｒ_ｃを読み取る。そしてパラメータ推定部１０３は、各分割候補Ｒ_ｃに含まれる領域ｒ_ｉ ^（ｃ）毎に、その各領域における目的変数ｙの平均および分散の推定値をそれぞれ算出する。具体的には、パラメータ推定部１０３は、入力部１０１が入力を受ける観測データ（ｙ_α，ｘ_α）と、Ｒの各分割候補Ｒ_ｃに基づいて、各領域ｒ_ｉ ^（ｃ）の目的変数ｙの平均および分散の推定値をそれぞれ算出し出力する第２の演算回路を備える。
　また、パラメータ推定部１０３の第２の演算回路は、各領域ｒ_ｉ ^（ｃ）における目的変数ｙの平均および分散が定数であるとみなし、それぞれの推定値を最尤推定法によって求める。
　本実施の形態における回帰モデルでは、ある分割候補Ｒ_ｃにおける、説明変数Ｘ＝（ｘ_１，．．．，ｘ_ｎ）’が与えられたもとでの目的変数ｙ_１：ｎ＝（ｙ_１，．．．，ｙ_ｎ）’の確率密度関数ｆ_ｃは、以下の［数５］のように表される。

　ただし、μ_ｉ ^（ｃ）は、各領域ｒ_ｉ ^（ｃ）における目的変数ｙの平均であり、（σ_ｉ ^（ｃ））^２は、各領域ｒ_ｉ ^（ｃ）における目的変数ｙの分散である。また、μ^（ｃ）は、μ^（ｃ）＝（μ_１ ^（ｃ），．．．，μ_ｍ ^（ｃ））’なる関係を満たす。（σ^（ｃ））^２は、（σ^（ｃ））^２＝（（σ_１ ^（ｃ））^２，．．．，（σ_ｍ ^（ｃ））^２）’なる関係を満たす。
　［数５］は、領域ｒ_ｉ ^（ｃ）毎に［数２］が適用されていること、各領域において観測データの分布が独立であることをそれぞれ示している。
　第一に、パラメータ推定部１０３は、分割候補Ｒ_ｃ毎に、説明変数Ｘ＝（ｘ_１，．．．，ｘ_ｎ）’が与えられたもとでの目的変数ｙ_１：ｎ＝（ｙ_１，．．．，ｙ_ｎ）’の確率密度関数ｆ_ｃを［数５］に基づいて特定する。
　第二に、パラメータ推定部１０３は、［数６］で表される対数尤度関数ｌｏｇ　ｆ_ｃを最大にするパラメータμ、σ^２の値を、所望の推定値として特定する。

　具体的には、パラメータ推定部１０３は、分割候補Ｒ_ｃ毎に所望の推定値をそれぞれ［数７］で示される数式に基づいて推定する。

　＝＝＝最適分割特定部１０４＝＝＝
　最適分割特定部１０４は、分割候補Ｒ_ｃの中から最適な分割候補Ｒ_＊を特定する。具体的には、最適分割特定部１０４は、パラメータ管理部１０３が出力する目的変数ｙの平均および分散の推定値に基づいて、分割候補Ｒ_ｃごとにそれぞれの情報量規準を算出する第３の演算回路を含む。そして、最適分割特定部１０４は、もっとも小さな情報量規準に対応する分割候補Ｒ_＊を最適な分割として特定する。
　第３の演算回路が算出のために適用する情報量規準として、例えば、以下の［数８］で表されるＡＩＣ（Ａｋａｉｋｅ’ｓ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｃｒｉｔｅｒｉｏｎ；赤池情報量規準）がある。さらに別の情報量規準として、例えば、［数９］で表されるＢＩＣ（Ｂａｙｅｓｉａｎ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｃｒｉｔｅｒｉｏｎ；ベイズ情報量規準）がある。これらは例示であって、モデルの正確性を示すあらゆる評価基準が、本実施の形態に適用されうる。

　最適分割特定部１０４は、上述の情報量規準に基づき、もっとも小さな情報量規準に対応する分割候補Ｒ_＊を最適な分割として特定する。
　＝＝＝平滑化部１０５＝＝＝
　平滑化部１０５は、パラメータ推定部１０３が推定する目的変数ｙの平均の推定値を利用して、説明変数ｘの定義域Ｒ上における、目的変数ｙの平均の推定値を示す滑らかな関数を算出する。さらに、平滑化部１０５は、パラメータ推定部１０３が推定する目的変数ｙの分散の推定値を利用して、説明変数ｘの定義域Ｒ上における、目的変数ｙの分散の推定値を示す滑らかな関数を算出する。具体的には、平滑化部１０５は、最適な分割Ｒ_＊の各領域ｒ_ｉ’ ^（＊）にそれぞれ含まれる説明変数ｘ_αの各領域における位置とその説明変数ｘ_αの散らばりとに基づいて、前述の滑らかな関数を算出する第４の演算回路を含む。ただし、ｉ’は、１以上ｍ^（＊）以下の整数である。たとえば、平滑化部１０５の第４の演算回路は、以下の［数１０］で表されるＲ上の滑らかな関数を算出する。この滑らかな関数とは、各領域における平均の推定値または分散の推定値を滑らかにつなぐように近似することで得られる、Ｒ上での連続関数である。

　ただし、［数１０］に含まれる各変数は、それぞれ［数１１］で示される関係を満たす。

　［数１０］は、目的変数ｙの平均の推定値と分散の推定値とが、最適な分割Ｒ_＊の各領域ｒ_ｉ’ ^（＊）における平均の推定値と分散の推定値とのパラメータｗ_ｉ’（ｘ）を重みとした、重みつき平均で表されることを示している。［数１１］は、各領域ｒ_ｉ’ ^（＊）の重みを表す関数ｗ_ｉ’（ｘ）が、その領域内の説明変数ｘ_α（ｘ_α∈ｒ_ｉ’ ^（＊））の位置とその説明変数ｘ_αの散らばりＳ_ｉ’とに基づいて特定されることを示している。なお、本実施の形態では、その領域内の説明変数ｘ_αの位置とは、その領域内の説明変数ｘ_αの平均で表現されている。また、本実施の形態では説明変数ｘ_αの散らばりとは、説明変数ｘ_αの分散で表現されている。これらは、例示であって、説明変数ｘ_αの位置と説明変数ｘ_αの散らばりとは、それぞれを示す任意の指標が適用されうる。
　図２は、説明変数ｘの位置および散らばりと、関数ｗ_ｉ’（ｘ）との関係を示したものである。図２では、説明変数ｘの位置として説明変数ｘの平均が、説明変数ｘの散らばりとして説明変数ｘの分散が、それぞれ用いられている。図２において、縦軸方向は、関数の重みを示し、横軸方向は、説明変数の定義域を示している。また、図２において、線グラフは、関数ｗ_ｉ’（ｘ）を示し、複数の点は、各説明変数の定義域上の位置を示している。
　図２によれば、説明変数ｘの値が平均に近いほど関数ｗ_ｉ’（ｘ）の値が大きくなることを示している。また、図２によれば、説明変数ｘの分散が小さいほど関数ｗ_ｉ’（ｘ）の値が説明変数ｘの平均付近で急激に大きくなることを示している。
　また、［数１０］は、目的変数ｙの平均の推定値と分散の推定値とがカーネル密度推定と同様の算出方法によって算出されることを示している。この算出方法とは、例えば、カーネル関数を用いた分析手法が挙げられる。なお、カーネル密度推定とは、確率変数の確率密度関数を推定する手法の一つである。
　以上のように、平滑化部１０５は、説明変数ｘの定義域Ｒ上における、目的変数ｙの平均の推定値を示す滑らかな関数を出力する。さらに平滑化部１０５は、説明変数ｘの定義域Ｒ上における、目的変数ｙの分散の推定値を示す滑らかな関数を出力する。また、平滑化部１０５は、各領域ｒ_ｉ’ ^（＊）内の説明変数ｘ_α（ｘ_α∈ｒ_ｉ’ ^（＊））の位置とその説明変数ｘ_αの散らばりＳ_ｉ’と説明変数Ｘ＝（ｘ_１，．．．，ｘ_ｎ）’とを出力する。ここで、平滑化部１０５は、上述の各情報を図示しない出力部に渡し、その出力部が、受け取った各情報を出力してもよい。
　前述した分割候補管理部１０２における第１の演算回路は、１つまたは２つ以上のＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）とメモリとによるプログラム制御によって算出処理を実行してもよい。同様に、前述したパラメータ推定部１０３における第２の演算回路は、１つまたは２つ以上のＣＰＵとメモリとによるプログラム制御によって算出処理を実行してもよい。前述の最適分割特定部１０４における第３の演算回路は、１つまたは２つ以上のＣＰＵとメモリとによるプログラム制御によって算出処理を実行してもよい。前述の平滑化部１０５における第４の演算回路は、１つまたは２つ以上のＣＰＵとメモリとによるプログラム制御によって算出処理を実行してもよい。
　図３は、本発明の第一の実施の形態における情報処理装置１１の動作の概要の一例を示すフローチャートである。
　入力部１０１は、目的変数ｙと説明変数ｘとのｎ組の観測データ（ｙ_α，ｘ_α）の入力を受ける。また、入力部１０１は、ｘの定義域Ｒに関する情報、Ｒを分割する際の分割数の最大値Ｍ、および、各領域の最小単位Δｘを受け取る（ステップＳ２０１）。分割候補管理部１０２は、ｘの定義域Ｒに関する情報、Ｒを分割する際の分割数の最大値Ｍ、および、各領域の最小単位Δｘに基づいて、分割候補を算出する（ステップＳ２０２）。
　パラメータ推定部１０３は、観測データ（ｙ_α，ｘ_α）と、Ｒの各分割候補Ｒ_ｃに基づいて、領域ｒ_ｉ ^（ｃ）毎にその領域における目的変数ｙの平均の推定値を算出する（ステップＳ２０３）。また、パラメータ推定部１０３は、観測データ（ｙ_α，ｘ_α）と、Ｒの各分割候補Ｒ_ｃに基づいて、領域ｒ_ｉ ^（ｃ）毎にその領域における目的変数ｙの分散の推定値を算出する（ステップＳ２０４）。
　最適分割特定部１０４は、パラメータ管理部１０３が出力する目的変数ｙの平均の推定値および分散の推定値に基づいて、分割候補Ｒ_ｃごとにそれぞれの情報量規準を算出する。そして、最適分割特定部１０４は、もっとも小さな情報量規準に対応する分割候補Ｒ_＊を最適な分割として特定する（ステップＳ２０５）。
　平滑化部１０５は、説明変数ｘの定義域Ｒ上における、目的変数ｙの平均の推定値の滑らかな関数を算出する（ステップＳ２０６）。また、平滑化部１０５は、説明変数ｘの定義域Ｒ上における、目的変数ｙの分散の推定値の滑らかな関数を算出する（ステップＳ２０７）。具体的には、平滑化部１０５は、最適な分割Ｒ_＊の各領域ｒ_ｉ’ ^（＊）にそれぞれ含まれる説明変数ｘ_αの各領域における位置とその説明変数ｘ_αの散らばりとに基づいて、所望の滑らかな関数を算出する。
　平滑化部１０５は、説明変数ｘの定義域Ｒ上における、目的変数ｙの平均の推定値の滑らかな関数を出力する。また、平滑化部１０５は、説明変数ｘの定義域Ｒ上における、目的変数ｙの分散の推定値の滑らかな関数を出力する。また、平滑化部１０５は、各領域ｒ_ｉ ^（＊）内の説明変数ｘ_α（ｘ_α∈ｒ_ｉ ^（＊））の位置とその説明変数ｘ_αの散らばりＳ_ｉと説明変数Ｘ＝（ｘ_１，．．．，ｘ_ｎ）’とを出力する（ステップＳ２０８）。
　本実施の形態の情報処理装置１１は、説明変数の定義域を複数の領域に分割し、その領域毎に目的変数の平均および分散を容易な計算によって特定できるモデルによって所望の平均および分散を推定する。したがって、目的変数の平均および分散が連続値を取る説明変数に依存している場合であっても、本実施の形態の情報処理装置１１は、簡単に目的変数の平均および分散を推定することができる。そして本実施の形態の情報処理装置１１は、目的変数の平均と分散とを同時に推定することができる。また、目的変数の平均および分散が非線形もしくは不連続な関数である場合、すなわち複雑な変化をする場合、これらの関数は単純なモデルの組み合わせにより表現されうる。したがって、本実施の形態の情報処理装置１１は、容易にかつ適切に目的変数の平均および分散を推定することができる。
　本実施の形態の情報処理装置１１は、目的変数の平均および分散が連続値を取る説明変数に依存している場合においても、目的変数の平均および分散を推定することができるので、正確な回帰分析ができる。
　例えば、本実施の形態の情報処理装置１１は、説明変数が、幾何学空間における物理的な座標を示す情報である場合、その座標に応じて値が変化する事象を正確に回帰分析することが可能である。また、本実施の形態の情報処理装置１１は、説明変数が、時刻を示す情報である場合、その時刻に応じて値が変化する事象を正確に回帰分析することが可能である。特に本実施の形態の情報処理装置１１は、以上の理由により、航空機の着陸誘導といったデータの正確性が要求される分野においても適用可能である。
　本実施の形態の情報処理装置１１は、目的変数の平均および分散を滑らかな関数として定式化する。したがって複雑な計算を必要とせず、回帰分析にかかる計算量あるいは計算時間を減らすことが可能となる。
　一般的な回帰モデルでは、目的変数ｙの分散が、説明変数ｘの値によらず一定であることが仮定されている。すなわち一般的な回帰モデルでは、目的変数の分散の均一性が、仮定されている。その理由は、回帰分析の対象とするデータに対して回帰関数ｕ（ｘ；ｗ）が適切な関数である場合、各目的変数における誤差の大きさは一定であると仮定するのが自然だからである。また、一般的な回帰モデルでは、目的変数の平均と分散とがそれぞれ説明変数に依存する場合、それぞれのパラメータの推定が非常に困難になる、という数学的な理由がある。したがって目的変数の分散が均一でないデータに基づいた回帰分析において、分散の均一性を前提とする回帰モデルが適用されることは適切ではない。
　目的変数の分散が均一でない場合における一般的な回帰分析の方法として、例えば加重最小二乗法やＢｏｘ−Ｃｏｘ変換がある。これらの方法では、情報処理装置は、目的変数の分散の均一性が満たされるようにデータを変換し、変換したデータについて通常の回帰モデルを当てはめるものである。したがって、これらの方法では、目的変数と説明変数との依存関係を示す情報をあらかじめ情報処理装置のユーザが知っていなければ分析することができない。なぜなら、これらの方法では情報処理システムは目的変数の分散の不均一性の構造に関する知識に基づいてデータを変換するからである。
　本実施の形態における情報処理装置１１は、回帰分析の際、目的変数の分散の均一性を仮定しない。したがって、情報処理装置１１は、目的変数の分散が均一でないデータに基づいて回帰分析することができる。また、本実施の形態における情報処理装置１１は、目的変数の分散の依存性そのものをも分析する。したがって、目的変数と説明変数との依存関係を示す情報をあらかじめ情報処理装置１１のユーザが知る必要はない。
［第二の実施の形態］
　第二の実施の形態は、第一の実施の形態の情報処理装置１１の具体的な動作を示した一例である。第二の実施の形態における情報処理装置１１の構成は、第一の実施の形態の構成と同様である。したがって説明は、省略される。なお、第二の実施の形態は、情報処理装置１１が説明変数としての仰角が与えられたもとでの目的変数としての信号誤差の分散を推定する具体的な一例である。
　現在、航空機の高精度の着陸を可能とするために、ＧＰＳ（Ｇｌｏｂａｌ　Ｐｏｓｉｔｉｏｎｉｎｇ　Ｓｙｓｔｅｍ）などの人工衛星を利用した着陸誘導システムが研究されている。より安全な着陸誘導システムを構築するために、この着陸誘導システムは、人工衛星信号の誤差の大きさ（分散）を正確に測ることが求められる。一方、信号誤差は、地上から見た人工衛星の仰角に大きく依存する。
　図４は、シミュレーションにより発生させた擬似的な観測データにおける、信号誤差と仰角との関係を示した図である。図４において、縦軸は信号誤差を、横軸は仰角を、それぞれ示している。本実施の形態では、信号誤差は、平均が０となるように正規化されている。また仰角は、０度から９０度までの範囲の値を取るものとする。
　本実施の形態の情報処理装置１１は、説明変数としての仰角が与えられたもとでの目的変数としての信号誤差の大きさ、すなわち信号誤差の分散を観測データから推定することができる。
　図５は、本発明の第二の実施の形態における情報処理装置１１の動作の概要を示すフローチャートである。
　入力部１０１は、図示されない地上受信機から、各人工衛星の仰角ｘを示す情報と信号誤差ｙを示す情報とを対応付けて観測データとして受信する。なお、以下では地上受信機は一つ存在するものと仮定されるが、地上受信機の個数は一つに限定されない。地上受信機が複数ある場合には、一つの地上受信機が以下に示す各情報処理を行ってもよい。あるいは、複数の地上受信機が以下に示す各情報処理を行い、それぞれが出力する情報処理の結果に基づいて、地上受信機または他の装置が一つの結果を出力してもよい。
　具体的には、入力部１０１は以下に示す情報を受信する。第一に入力部１０１は、地上受信機から見た各人工衛星の仰角を示す情報をその地上受信機から受信する。なお、地上受信機は、入力部１０１の構成要素の一部であっても良い。あるいは、地上受信機は情報処理装置１１とは異なる装置に備えられていてもよい。第二に入力部１０１は、その地上受信機が測定した、各人工衛星と当該地上受信機との幾何学距離を示す情報を受信する。第三に入力部１０１は、この地上受信機が人工衛星から受信するＧＰＳ信号の搬送波位相から計算される擬似距離を示す情報を受信する。入力部１０１は、この幾何学距離と擬似距離との差に基づいて信号誤差ｙを算出する（ステップＳ３０１）。これにより、入力部１０１は、仰角ｘを示す情報と、誤差ｙを示す情報とを含む観測データ（ｙ_α，ｘ_α）を生成する。
　情報処理装置１１のユーザは、あらかじめ仰角の定義域Ｒ、仰角の定義域Ｒを分割する際の分割数の最大値Ｍ、および、各領域の最小単位Δｘを入力部１０１または分割候補管理部１０２において設定しておく。本実施の形態では、Ｒ＝９０度、Ｍ＝９０、Δｘ＝１度が成立すると仮定される。これは、例示であってそれぞれの値が限定されるものではない。
　分割候補管理部１０２は、ｘの定義域Ｒに関する情報、Ｒを分割する際の分割数の最大値Ｍ、および、各領域の最小単位Δｘに基づいて、分割候補Ｒ_ｃを算出する（ステップＳ３０２）。パラメータ推定部１０３は、観測データ（ｙ_α，ｘ_α）と、Ｒの各分割候補Ｒ_ｃに基づいて、領域ｒ_ｉ ^（ｃ）毎にその領域における信号誤差ｙの分散の推定値を算出する（ステップＳ３０３）。
　最適分割特定部１０４は、分割候補Ｒ_ｃごとにそれぞれの情報量規準を算出する。そして、最適分割特定部１０４は、もっとも小さな情報量規準に対応する分割候補Ｒ_＊を最適な分割として特定する（ステップＳ３０４）。
　平滑化部１０５は、仰角ｘの定義域Ｒ上における、信号誤差ｙの分散の推定値の滑らかな関数を算出する（ステップＳ３０５）。具体的には、平滑化部１０５は、最適な分割Ｒ_＊の各領域ｒ_ｉ’ ^（＊）にそれぞれ含まれる仰角ｘ_αの各領域における位置とその仰角ｘ_αの散らばりとに基づいて、所望の滑らかな関数を算出する。そして、平滑化部１０５は、仰角ｘの定義域Ｒ上における、信号誤差ｙの分散の推定値の滑らかな関数を出力する。また、平滑化部１０５は、各領域ｒ_ｉ’ ^（＊）内の仰角ｘ_α（ｘ_α∈ｒ_ｉ’ ^（＊））の位置とその仰角ｘ_αの散らばりＳ_ｉと仰角Ｘ＝（ｘ_１，．．．，ｘ_ｎ）’とを出力する（ステップＳ３０６）。平滑化部１０５は、この情報処理装置１１のユーザが指定したフォーマットによりこれらの情報を出力してもよい。このフォーマットは、通常、特定のプログラミング言語の関数の形式である。
　図６は、本実施の形態における情報処理装置１１による推定結果を表わしている。図６中の、横軸に関して線対称に書かれた線が、信号誤差の標準偏差（分散の正の平方根）の推定値を表わす関数である。図６は、低仰角ほど信号誤差の分散が大きくなることを示している。すなわち図６は、信号誤差の仰角に対する依存性を示している。
［第三の実施の形態］
　図７は、本発明の第三の実施の形態における情報処理装置４１の構成例を示すブロック図である。
　情報処理装置４１は、パラメータ推定部４０３と、最適分割特定部４０４と、平滑化部４０５とを備える。
　パラメータ推定部４０３は、最適分割特定部４０４と、平滑化部４０５とそれぞれ接続されている。最適分割特定部４０４は、パラメータ推定部４０３と、平滑化部４０５とそれぞれ接続されている。平滑化部４０５は、パラメータ推定部４０３と、最適分割特定部４０４と、平滑化部４０５とそれぞれ接続されている。
　パラメータ推定部４０３は、観測データに基づいて、説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、目的変数の平均および分散を算出する。観測データは、説明変数と、その説明変数に対して観測された値であり、平均および分散がその説明変数に依存するような目的変数と、をそれぞれ示す情報の組である。
　最適分割特定部４０４は、前述の観測データと、パラメータ推定部４０３が算出した目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出する。そして、最適分割特定部４０４は、算出した情報量規準に基づいて一つの分割候補Ｒ_＊を最適な分割として特定する。
　平滑化部４０５は、分割候補Ｒ_＊に基づいて特定される各領域における、パラメータ推定部４０３が算出した平均に基づいて、説明変数の定義域における目的変数の平均を示す滑らかな関数を算出する。さらに平滑化部４０５は、分割候補Ｒ_＊に基づいて特定される各領域における、パラメータ推定部４０３が算出した分散に基づいて、説明変数の定義域における目的変数の分散を示す滑らかな関数をそれぞれ算出する。
　図７に示される情報処理装置４１の動作は、本発明の第一の形態に示された情報処理装置１１と同様である。情報処理装置４１は、説明変数の定義域を複数の領域に分割し、その領域毎に目的変数の平均および分散を容易な計算によって特定できるモデルによって所望の平均および分散を推定する。したがって、本発明の第三の実施の形態の情報処理装置４１は、第一の実施の形態の情報処理装置１１と同様の効果を奏することができる。
　以上、これまで述べてきた各実施の形態は、本発明の好適な実施形態であり、上記実施の形態のみに本発明の範囲を限定するものではない。各実施の形態は、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。
　また、本発明の各実施の形態における各構成要素は、その機能をハードウェア的に実現することはもちろん、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリなどのコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られる。この読み取られたプログラムは、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態における構成要素として機能させる。
　本発明の効果の一例は、目的変数の平均および分散が連続値を取る説明変数に依存している場合においても、正確な回帰分析ができることである。
　この出願は、２００９年１２月１５日に出願された日本出願特願２００９−２８４３０４を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

　各実施の形態による情報処理装置は、目的変数の平均および分散が、説明変数に依存している場合において、目的変数の平均および分散を推定する回帰分析に適用できる。
　説明変数が、幾何学空間における物理的な座標を示す情報である場合、例えば、各実施の形態による情報処理装置は、次のような技術に適用できる。
・携帯電話の電波の強さの分析
・無線を用いたセンサの誤差の分析
・地質（土壌の成分）の成分分析
・川や海における水質データの分析
・地価の分布の解析
・交通量の変化の調査
　また、説明変数が、時刻を示す情報である場合、例えば、各実施の形態による情報処理装置は、次のような技術に適用できる。
・工業製品の製造工程における部品の温度や硬度の解析
・自動車やオートバイの衝突実験での衝突後からの加速度の分析

　１１　　情報処理装置
　４１　　情報処理装置
　１０１　　入力部
　１０２　　分割候補管理部
　１０３　　パラメータ推定部
　１０４　　分割特定部
　１０５　　平滑化部
　４０３　　パラメータ推定部
　４０４　　分割特定部
　４０５　　平滑化部

Claims

　説明変数と、前記説明変数に対して観測された値であり平均および分散が当該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、前記説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出するパラメータ推定部と、
　前記観測データと、前記算出された目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定する最適分割特定部と、
　前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に基づいて、前記説明変数の定義域における前記目的変数の分散を示す滑らかな関数および前記説明変数の定義域における前記目的変数の平均を示す滑らかな関数をそれぞれ算出する平滑化部と、
　を備える、情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記パラメータ推定部は、前記分割候補で特定される各領域における平均および分散は正規分布に従うと仮定して、前記各領域毎に前記目的変数の平均および分散を算出する、情報処理装置。
　請求項１または２に記載の情報処理装置であって、
　前記最適分割特定部は、前記算出された情報量規準の最も小さい分割候補を特定する、情報処理装置。
　請求項１ないし３のいずれか１項に記載の情報処理装置であって、
　前記平滑化部は、前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散と、当該各領域に含まれる前記説明変数の当該領域上の位置と、に基づいて各滑らかな関数をそれぞれ算出する、情報処理装置。
　請求項１ないし４のいずれか１項に記載の情報処理装置であって、
　前記平滑化部は、前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散と、当該各領域に含まれる前記説明変数の散らばりと、に基づいて各滑らかな関数をそれぞれ算出する、情報処理装置。
　請求項１ないし５のいずれか１項に記載の情報処理装置であって、
　前記平滑化部は、前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に対しカーネル関数を算出し、当該カーネル関数に基づき各滑らかな関数をそれぞれ算出する、情報処理装置。
　請求項１ないし６のいずれか１項に記載の情報処理装置であって、
　前記観測データと、前記説明変数の定義域を示す情報と、前記説明変数の定義域を分割する際の領域の数の最大値と、当該各領域の最小単位と、に基づいて前記分割候補を算出する分割候補管理部を備え、
　前記パラメータ推定部は、前記算出された分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出する、情報処理装置。
　請求項１ないし７のいずれか１項に記載の情報処理装置であって、
　前記情報量規準は、赤池情報量規準またはベイズ情報量規準のいずれかである、情報処理装置。
　説明変数と、前記説明変数に対して観測された値であり平均および分散が当該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、前記説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出し、
　前記観測データと、前記算出された目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定し、
　前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に基づいて、前記説明変数の定義域における前記目的変数の分散を示す滑らかな関数および前記説明変数の定義域における前記目的変数の平均を示す滑らかな関数をそれぞれ算出する、工程を備える、情報処理方法。
　コンピュータに、
　説明変数と、前記説明変数に対して観測された値であり平均および分散が当該説明変数に依存する目的変数と、をそれぞれ示す情報を含む観測データに基づいて、前記説明変数の定義域を複数の領域に分割する情報である分割候補に基づいて特定される領域毎に、前記目的変数の平均および分散を算出するパラメータ推定処理と、
　前記観測データと、前記算出された目的変数の平均および分散と、に基づいて前記分割候補の情報量規準を算出し、算出された情報量規準に基づいて一つの分割候補を特定する最適分割特定処理と、
　前記特定された分割候補に基づいて特定される各領域における前記算出された平均および分散に基づいて、前記説明変数の定義域における前記目的変数の平均を示す滑らかな関数および前記説明変数の定義域における前記目的変数の分散を示す滑らかな関数をそれぞれ算出する平滑化処理と、を実行させるためのプログラムを記録した記録媒体。