WO2023139640A1

WO2023139640A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2023139640A1
Application number: PCT/JP2022/001574
Authority: WO
Inventors: 佳祐鈴木; 剛範辻川
Original assignee: 日本電気株式会社
Priority date: 2022-01-18
Filing date: 2022-01-18
Publication date: 2023-07-27

Abstract

情報処理装置１０は、推定量分布を正規分布で近似する近似処理を行う正規近似部と、近似処理で発生するずれを評価するずれ評価部と、近似処理の結果とずれとから推定量の算出に関するデータを評価するデータ評価部とを含む。

Description

情報処理装置および情報処理方法

　本発明は、情報処理装置および情報処理方法に関する。

　サンプルサイズ決定方法の一例が、非特許文献１に記載されている。その方法では、指定された誤差ε_１，ε_２（＞０）、信頼率（信頼度）１－δ、分散σ^２に関して、有限サンプルｘ_１，・・・，ｘ_ｎが平均μと分散σ^２をもつ正規分布から生じているとする。そして、その方法は、（１）式で示される標本平均が１－δ以上の確率で（２）式で表される不等式を満たすために必要なサンプルサイズｎを、（３）式で表される値以上の最小の自然数と決定する。ｚ_δ／２は、標準正規分布の上側δ／２点である。ｍｉｎ｛ε_１，ε_２｝は、ε_１，ε_２の最小値である。

永田靖著、「サンプルサイズの決め方」朝倉書店、２００３年９月２０日、１８２－１８３頁

　非特許文献１に記載されたサンプルサイズ決定方法の適用範囲は、正規分布のみに限定される。その理由は、再生性をはじめとする、正規分布に固有の性質を仮定できない場合、推定量の分布が、サンプルサイズｎをパラメータに持つ既知の分布へと帰着されないためである。

　本発明は、正規性を仮定できない場合でも、サンプルサイズの決定等を行える情報処理装置および情報処理方法を提供することを目的とする。

　本発明の一態様の情報処理装置は、推定量分布を正規分布で近似する近似処理を行う正規近似手段と、近似処理で発生するずれを評価するずれ評価手段と、近似処理の結果とずれとから推定量の算出に関するデータを評価するデータ評価手段とを含む。

　本発明の一態様の情報処理方法は、推定量分布を正規分布で近似する近似処理を行い、近似処理で発生するずれを評価し、近似処理の結果とずれとから推定量の算出に関するデータを評価する。

　本発明の一態様の情報処理プログラムは、コンピュータに、推定量分布を正規分布で近似する近似処理を行わせ、近似処理で発生するずれを評価させ、近似処理の結果とずれとから推定量の算出に関するデータを評価させる。

　本発明によれば、正規分布に限らない一般の分布に対して、推定量算出に必要なサンプルサイズの決定等を行うことができる。その理由は、正規近似とずれ評価によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能となるためである。

サンプルサイズ決定装置の構成例を示すブロック図である。サンプルサイズ決定装置の動作を示すフローチャートである。信頼率決定装置の構成例を示すブロック図である。信頼率決定装置の動作を示すフローチャートである。誤差決定装置の構成例を示すブロック図である。誤差決定装置の動作を示すフローチャートである。第１の実施例を示すブロック図である。第２の実施例を示すブロック図である。第３の実施例を示すブロック図である。第４の実施例を示すブロック図である。第５の実施例を示すブロック図である。ＣＰＵを有するコンピュータの一例を示すブロック図である。情報処理装置の主要部を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

［第１の実施形態］
［構成の説明］
　図１は、情報処理装置の第１の実施形態としてのサンプルサイズ決定装置の構成例を示すブロック図である。図１に示すように、サンプルサイズ決定装置は、推定量種類判定部１００、左側誤差入力部１１０、右側誤差入力部１１１、信頼率入力部１２０、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、右側分布関数上界入力部１３９、およびサンプルサイズ評価部１４０を備える。

　左側誤差入力部１１０、右側誤差入力部１１１、信頼率入力部１２０、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、右側分布関数上界入力部１３９は、それぞれ、左側誤差、右側誤差、信頼率、標準偏差下界、標準偏差上界、３次積率上界、４次積率下界、４次積率上界、６次積率上界、左側分布関数下界、左側分布関数上界、右側分布関数下界、右側分布関数上界を入力する。

　推定量種類判定部１００は、入力された推定量の種類を判定する。すなわち、推定量種類判定部１００は、算出すべき推定量の種類を判定する。推定量の種類は、標本平均、不偏分散、または標本分位点である。したがって、推定量種類判定部１００には、標本平均、不偏分散、または標本分位点を特定可能なデータが入力される。

　サンプルサイズ評価部１４０は、正規近似部１４１、ずれ評価部１４２とサイズ決定部１４３とを含む。

　固定されたサンプルサイズをもつサンプルから、入力された種類の推定量を算出する場合を想定し、正規近似部１４１は、固定されたサンプルサイズに対して、推定したい値である真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値（以下、「漸近近似確率」ともいう。）を算出する。すなわち、正規近似部１４１は、推定量分布を正規分布で近似する近似処理を実行する。なお、推定量分布は、推定量が従う確率分布である。

　ずれ評価部１４２は、正規近似部１４１による近似処理で発生するずれを評価する。具体的には、固定されたサンプルサイズをもつサンプルから、入力された種類の推定量を算出する場合を想定し、ずれ評価部１４２は、固定されたサンプルサイズに対して、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分（以下、「ずれ」ともいう。）について、絶対値の上界を算出する。

　サイズ決定部１４３は、正規近似部１４１による近似処理の結果すなわち漸近近似確率とずれ評価部１４２によるずれとから推定量の算出に関するデータを評価する。例えば、サイズ決定部１４３は、サンプルサイズｎの初期値を２に設定し、所定の条件を満たすサンプルサイズが決定されるまで以下の手順を繰り返す。具体的には、サンプルサイズｎに対して、正規近似部１４１で算出された値からずれ評価部１４２で算出された値を減じ、この値が信頼率以上であれば、推定量算出に必要なサンプルサイズをそのときのｎに決定する。そうでない場合は、サンプルサイズをｎ＋１に更新する。

［動作の説明］
　次に、図２のフローチャートを参照して本実施形態のサンプルサイズ決定装置の動作を説明する。

　まず、推定量種類判定部１００は、入力された算出推定量（算出対象の推定量）の種類を判定する（ステップＳ１０１）。

　サンプルサイズ評価部１４０は、各パラメータを入力する（ステップＳ１０２）。本実施形態では、ステップＳ１０２の処理で、サンプルサイズ評価部１４０は、左側誤差入力部１１０および右側誤差入力部１１１を介して、左側誤差ε_１および右側誤差ε_２を入力する。また、サンプルサイズ評価部１４０は、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、および右側分布関数上界入力部１３９を介して、標準偏差下界σ_１、標準偏差上界σ_２、３次積率上界Ａ、４次積率下界Ｂ、４次積率上界Ｃ、６次積率上界Ｄ、左側分布関数下界ｌ_１、左側分布関数上界ｕ_１、右側分布関数下界ｌ_２、右側分布関数上界ｕ_２を入力する。

　各パラメータは、以下の条件を満たすように設定される。すなわち、推定量算出に用いられる独立同分布な有限サンプルを発生させる分布に従う乱数Ｘに対して、期待値をμ＝Ｅ［Ｘ］、標準偏差をσ（（４）式参照）、累積分布関数をＦ、Ｆの１００ｐ％点を、ξ_ｐ＝ｉｎｆ｛ｔ｜Ｆ（ｔ）≧ｐ｝と表した場合に、以下の条件が成り立つ。ただし、０＜ｐ＜１である。

　σ_１≦σ≦σ_２　　　　　　　　　　　　　　　　（５）
　Ｅ［|（Ｘ－μ）|^３］≦Ａ　　　　　　　　　　（６）
　Ｂ≦Ｅ［|（Ｘ－μ）^２－σ^２|^２］≦Ｃ　　　　　（７）
　Ｅ［|（Ｘ－μ）^２－σ^２|^３］≦Ｄ　　　　　　　（８）
　ｌ_１≦Ｆ（ξ_ｐ－ε_１）≦ｕ_１　　　　　　　　　　（９）
　ｌ_２≦Ｆ（ξ_ｐ＋ε_２）≦ｕ_２　　　　　　　　　　（１０）

　また、サンプルサイズ評価部１４０は、信頼率入力部１２０を介して信頼率１－δを入力する（ステップＳ１０２）。なお、信頼率１－δは、推定量による真値の十分な推定が発生する確率（割合）に相当する。

　サイズ決定部１４３は、サンプルサイズｎの初期値として２を設定する（ステップＳ１０３）。正規近似部１４１は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値（漸近近似確率）Ｐ_ｎを算出する（ステップＳ１０４）。すなわち、正規近似部１４１は、近似処理を行う。

　推定量種類判定部１００によって算出推定量の種類が標本平均と判定された場合には、本実施形態では、正規近似部１４１は、ステップＳ１０４の処理で、Ｐ_ｎとして、下記の（１１）式を用いる。Φは、標準正規分布の累積分布関数である。

　推定量種類判定部１００によって算出推定量の種類が不偏分散と判定された場合には、本実施形態では、正規近似部１４１は、ステップＳ１０４の処理で、Ｐ_ｎとして、下記の（１２）式を用いる。

　推定量種類判定部１００によって算出推定量の種類が標本分位点の一例である標本の１００ｐ％点と判定された場合には、本実施形態では、正規近似部１４１は、ステップＳ１０４の処理で、Ｐ_ｎとして、下記の（１３）式を用いる。なお、（１１）～（１３）式は、それぞれ、近似式に相当する。

　（１３）式において、下記の記号で表される値は、ｎｐを超えない最大の整数を示す。

　ずれ評価部１４２は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分（ずれ）について、絶対値の上界（以下、「正規近似誤差」ともいう。）Ｅ_ｎを算出する（ステップＳ１０５）。Ｅ_ｎは、正規近似部１４１による近似処理で発生するずれに相当する。Ｅ_ｎを算出する処理を、ずれ評価処理ともいう。

　推定量種類判定部１００によって算出推定量の種類が標本平均と判定された場合には、本実施形態では、ずれ評価部１４２は、ステップＳ１０５の処理で、Ｅ_ｎとして、下記の（１４）式を用いる。

　推定量種類判定部１００によって算出推定量の種類が不偏分散と判定された場合には、本実施形態では、ずれ評価部１４２は、ステップＳ１０５の処理で、Ｅ_ｎとして、下記の（１５）式を用いる。

　推定量種類判定部１００によって算出推定量の種類が標本の１００ｐ％点と判定された場合には、本実施形態では、ずれ評価部１４２は、ステップＳ１０５の処理で、Ｅ_ｎとして、下記の（１６）式を用いる。なお、（１４）～（１６）式は、それぞれ、評価式（ずれ評価式）に相当する。また、（１４）～（１６）式において、Ｃ_０＝０．４７４８である。

　サイズ決定部１４３は、Ｐ_ｎ－Ｅ_ｎの値を算出する（ステップＳ１０６）。Ｐ_ｎ－Ｅ_ｎが信頼率１－δ未満の場合には、サイズ決定部１４３はサンプルサイズの値を１増やし、ステップＳ１０４以降の処理を繰り返す状態に戻る（ステップＳ１０７）。Ｐ_ｎ－Ｅ_ｎが信頼率１－δ以上となった場合には、サイズ決定部１４３は、そのときのサンプルサイズｎを、判定された種類の推定量算出に必要なサンプルサイズとして決定する（ステップＳ１０８）。

［効果の説明］
　本実施形態では、サンプルが従う分布に正規性を仮定することなく、サンプルサイズ決定装置は、推定量算出に必要なサンプルサイズを決定できる。具体的には、サンプルサイズ決定装置は、真値から推定量を減じた値が入力された左側誤差以下、かつ、推定量から真値を減じた値が入力された右側誤差以下となる確率が、入力された信頼率以上となるために必要なサンプルサイズを決定できる。サンプルが従う分布に正規性を仮定しなくてもよい理由は、正規近似部１４１とずれ評価部１４２との処理によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能になるからである。

［第２の実施形態］
［構成の説明］
　次に、情報処理装置の第２の実施形態としての信頼率決定装置を説明する。

　図３は、信頼率決定装置の構成例を示すブロック図である。図３に示すように、第２の実施形態の信頼率決定装置は、推定量種類判定部１００、左側誤差入力部１１０、右側誤差入力部１１１、サンプルサイズ入力部１２１、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、右側分布関数上界入力部１３９、および信頼率評価部１５０を備える。

　推定量種類判定部１００、左側誤差入力部１１０、右側誤差入力部１１１、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、および右側分布関数上界入力部１３９の構成と機能とは、第１の実施形態におけるそれらと同じである。サンプルサイズ入力部１２１は、推定量の算出に利用されるサンプルサイズを入力する。

　信頼率評価部１５０は、正規近似部１５１、ずれ評価部１５２と信頼率決定部１５３とを含む。

　サンプルサイズ入力部１２１に入力されたサンプルサイズに対して、推定量種類判定部１００に入力された種類の推定量が算出された場合を想定し、正規近似部１５１は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値（すなわち、漸近近似確率）を算出する。すなわち、正規近似部１５１は、推定量分布を正規分布で近似する。なお、本実施形態でも、推定量の種類は、標本平均、不偏分散、または標本分位点である。

　ずれ評価部１５２は、正規近似部１５１による近似処理で発生するずれを評価する。具体的には、サンプルサイズ入力部１２１に入力されたサンプルサイズに対して、推定量種類判定部１００に入力された種類の推定量が算出された場合を想定し、ずれ評価部１５２は、真値から推定量を減じた値が左側誤差の値以下、かつ、推定量から真値を減じた値が右側誤差の値以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分（すなわち、ずれ）について、絶対値の上界（すなわち、正規近似誤差）を算出する。信頼率決定部１５３は、正規近似部１５１算出した値からずれ評価部１５２が算出した値を減じた値を信頼率として決定する。

［動作の説明］
　次に、図４のフローチャートを参照して本実施形態の信頼率決定装置の動作を説明する。

　まず、推定量種類判定部１００は、入力された算出推定量の種類を判定する（ステップＳ１０１）。信頼率評価部１５０は、第１の実施形態におけるサンプルサイズ評価部１４０と同様に（図２におけるステップＳ１０２参照）、各パラメータを入力する（ステップＳ１１２）。ただし、第１の実施形態では、サンプルサイズ評価部１４０は、信頼率入力部１２０を介して信頼率１－δを受け取ったが、本実施形態では、信頼率評価部１５０は、ステップＳ１１２の処理で、サンプルサイズ入力部１２１を介して、サンプルサイズを入力する。

　なお、各パラメータが上記の（５）～（１０）式の条件を満たすことは、第１の実施形態と同様である。

　正規近似部１５１は、第１の実施形態における正規近似部１４１と同様に、推定量種類判定部１００が判定した算出推定量の種類に応じて、上記の（１１）式、（１２）式および（１３）式のいずれかを用いて、漸近近似確率Ｐ_ｎを算出する（ステップＳ１０４）。ずれ評価部１５２は、第１の実施形態におけるずれ評価部１４２と同様に、推定量種類判定部１００が判定した算出推定量の種類に応じて、上記の（１４）式、（１５）式および（１６）式のいずれかを用いて、正規近似誤差Ｅ_ｎを算出する（ステップＳ１０５）。なお、本実施形態における正規近似部１５１およびずれ評価部１５２は、第１の実施形態における正規近似部１４１およびずれ評価部１４２とは異なり、サンプルサイズ入力部１２１に入力されたサンプルサイズに対して、漸近近似確率Ｐ_ｎおよび正規近似誤差Ｅ_ｎを算出する。

　信頼率決定部１５３は、正規近似部１５１が算出したＰ_ｎからずれ評価部１５２が算出したＥ_ｎを減じた値を信頼率として決定する（ステップＳ１１６）。

［効果の説明］
　本実施形態では、サンプルが従う分布に正規性を仮定することなく、信頼率決定装置は、推定量を入力されたサンプルサイズのサンプルから算出した場合に、真値から推定量を減じた値が入力された左側誤差以下、かつ、推定量から真値を減じた値が入力された右側誤差以下となる確率の下界を決定できる。サンプルが従う分布に正規性を仮定しなくてもよい理由は、正規近似部１５１とずれ評価部１５２との処理によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能になるからである。

［第３の実施形態］
［構成の説明］
　次に、情報処理装置の第３の実施形態としての誤差決定装置を説明する。

　図５は、誤差決定装置の構成例を示すブロック図である。図５に示すように、第３の実施形態の誤差決定装置は、推定量種類判定部１００、信頼率入力部１２０、サンプルサイズ入力部１２１、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、右側分布関数上界入力部１３９、誤差評価部１６０、左側誤差初期値入力部１６５、右側誤差初期値入力部１６６、左側誤差増加幅入力部１６７、および右側誤差増加幅入力部１６８を備える。

　推定量種類判定部１００、信頼率入力部１２０、サンプルサイズ入力部１２１、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、６次積率上界入力部１３５、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、および右側分布関数上界入力部１３９の構成と機能とは、第１の実施形態または第２の実施形態におけるそれらと同じである。

　左側誤差初期値入力部１６５は、左側誤差の初期値ε_１を入力する。右側誤差初期値入力部１６６は、右側誤差の初期値ε_２を入力する。左側誤差増加幅入力部１６７は、左側誤差の増加幅η_１を入力する。右側誤差の増加幅η_２を入力する。なお、左側誤差は、推定量が真値よりも左側にずれる場合の誤差に相当する。右側誤差は、推定量が真値よりも右側にずれる場合の誤差に相当する。

　誤差評価部１６０は、正規近似部１６１、ずれ評価部１６２および誤差決定部１６３を含む。

　固定された左側誤差および固定された右側誤差に対して、サンプルサイズ入力部１２１に入力されたサンプルサイズのサンプルから推定量種類判定部１００に入力された種類の推定量が算出された場合を想定し、正規近似部１６１は、真値から推定量を減じた値が固定された左側誤差の値以下、かつ、推定量から真値を減じた値が固定された右側誤差の値以下となる確率を推定量分布の漸近正規性により近似した値（すなわち、漸近近似確率）を算出する。すなわち、正規近似部１６１は、推定量分布を正規分布で近似する。なお、本実施形態でも、推定量の種類は、例えば、標本平均、不偏分散、または標本分位点である。

　ずれ評価部１６２は、正規近似部１６１による近似処理で発生するずれを評価する。具体的には、固定された左側誤差および固定された右側誤差に対して、サンプルサイズ入力部１２１に入力されたサンプルサイズのサンプルから推定量種類判定部１００に入力された種類の推定量が算出された場合を想定し、ずれ評価部１６２は、真値から推定量を減じた値が固定された左側誤差以下、かつ、推定量から真値を減じた値が固定された右側誤差以下となる確率と、当該確率を推定量分布の漸近正規性により近似した値との差分（すなわち、ずれ）について、絶対値の上界（すなわち、正規近似誤差）を算出する。

　誤差決定部１６３は、正規近似部１６１が算出した値からずれ評価部１６２が算出した値を減じた値が、信頼率入力部１２０に入力された値以上になるまで、左側誤差の固定値をη_１だけ増加させるとともに、右側誤差の固定値をη_２だけ増加させる。そして、誤差決定部１６３は、所定の条件が満たされたときの左側誤差および右側誤差を誤差として決定する。

［動作の説明］
　次に、図６のフローチャートを参照して本実施形態の誤差決定装置の動作を説明する。

　まず、推定量種類判定部１００は、入力された算出推定量の種類を判定する（ステップＳ１０１）。

　誤差評価部１６０は、各パラメータを入力する（ステップＳ１２２）。本実施形態では、ステップＳ１２２の処理で、誤差評価部１６０は、左側誤差初期値入力部１６５および右側誤差初期値入力部１６６を介して、左側誤差の初期値ε_１および右側誤差の初期値ε_２を入力する。また、誤差評価部１６０は、標準偏差下界入力部１３０、標準偏差上界入力部１３１、３次積率上界入力部１３２、４次積率下界入力部１３３、４次積率上界入力部１３４、および６次積率上界入力部１３５を介して、標準偏差下界σ_１、標準偏差上界σ_２、３次積率上界Ａ、４次積率下界Ｂ、４次積率上界Ｃ、および６次積率上界Ｄを入力する。

　また、誤差評価部１６０は、ステップＳ１２２の処理で、左側誤差初期値入力部１６５、右側誤差初期値入力部１６６、左側誤差増加幅入力部１６７、および右側誤差増加幅入力部１６８を介して、左側誤差の初期値ε_１、右側誤差の初期値ε_２、左側誤差の増加幅η_１、および右側誤差の増加幅η_２を入力する。

　なお、各パラメータは、上記の（５）～（８）式の条件を満たす。

　また、第１の実施形態ではサンプルサイズ評価部１４０は信頼率入力部１２０を介して信頼率１－δを受け取り、第２の実施形態では信頼率評価部１５０はサンプルサイズ入力部１２１を介してサンプルサイズを受け取ったが、本実施形態では、誤差評価部１６０は、ステップＳ１２２の処理で、信頼率１－δとサンプルサイズとの双方を入力する。

　誤差評価部１６０は、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、および右側分布関数上界入力部１３９を介して、左側分布関数下界ｌ_１、左側分布関数上界ｕ_１、右側分布関数下界ｌ_２、右側分布関数上界ｕ_２を入力する（ステップＳ１２３）。

　なお、誤差評価部１６０に、左側分布関数下界入力部１３６、左側分布関数上界入力部１３７、右側分布関数下界入力部１３８、および右側分布関数上界入力部１３９を介して入力される各パラメータに関して、上記の（９）～（１０）式の条件が満たされている。

　正規近似部１６１は、第１の実施形態における正規近似部１４１と同様に、推定量種類判定部１００が判定した算出推定量の種類に応じて、上記の（１１）式、（１２）式および（１３）式のいずれかを用いて、漸近近似確率Ｐ_ｎを算出する（ステップＳ１０４）。

　ずれ評価部１６２は、第１の実施形態におけるずれ評価部１４２と同様に、推定量種類判定部１００が判定した算出推定量の種類に応じて、上記の（１４）式、（１５）式および（１６）式のいずれかを用いて、正規近似誤差Ｅ_ｎを算出する（ステップＳ１０５）。

　誤差決定部１６３は、Ｐ_ｎ－Ｅ_ｎの値を算出する（ステップＳ１０６）。誤差決定部１６３は、Ｐ_ｎ－Ｅ_ｎが信頼率１－δ未満の場合には、左側誤差ε_１と右側誤差ε_２とのそれぞれを、η_１、η_２だけ増加させる。そして、ステップＳ１２３以降の処理を繰り返す状態に戻る（ステップＳ１２７）。Ｐ_ｎ－Ｅ_ｎが信頼率１－δ以上となった場合には、誤差決定部１６３は、そのときの左側誤差ε_１および右側誤差ε_２を、判定された種類の推定量を算出した場合の誤差として決定する（ステップＳ１２８）。

［効果の説明］
　本実施形態では、サンプルが従う分布に正規性を仮定することなく、誤差決定装置は、真値から推定量を減じた値が左側誤差以下、かつ、推定量から真値を減じた値が右側誤差以下となる確率が、信頼率以上となるように左側誤差と右側誤差とを決定できる。サンプルが従う分布に正規性を仮定しなくてもよい理由は、正規近似部１６１とずれ評価部１６２との処理によって、正規分布に固有の性質を用いることなく、推定量の分布が評価可能になるからである。

　次に、具体的な実施例を説明する。

［第１の実施例］
　図７は、第１の実施例を示すブロック図である。第１の実施例は、第１の実施形態の実施例である。

　図７に示すように、第１の実施例の装置は、第１の実施形態におけるサンプルサイズ評価部１４０と、データセット入力部４００と、サンプル利用判定部４１０と、モデル構築部４２０と備える。

　データセット入力部４００は、サンプルサイズが異なり得る複数のサンプルからなるデータセットを入力する。サンプルサイズ評価部１４０は、標本平均、不偏分散または標本分位点の算出に必要なサンプルサイズを決定する。サンプル利用判定部４１０は、サンプルサイズ評価部１４０によって決定されたサンプルサイズ以上である数のサンプルをデータセットから抽出する。

　モデル構築部４２０は、標本平均、不偏分散または標本分位点を特徴量とする、機械学習によるモデル構築を行う。モデル構築部４２０は、特徴量分布の散らばりを低減し頑健な学習を行うために、サンプル利用判定部４１０で抽出された十分なサイズのサンプルのみからなるデータセットをモデルの訓練に使用する。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータの選別にもサンプル利用判定部４１０の結果を利用することができる。

［第２の実施例］
　図８は、第２の実施例を示すブロック図である。第２の実施例は、第２の実施形態の実施例である。

　図８に示すように、第２の実施例の装置は、第２の実施形態における信頼率評価部１５０と、データセット入力部５００と、サンプル利用判定部５１０と、モデル構築部５２０と、しきい値入力部５３０とを備える。

　データセット入力部５００は、サンプルサイズが異なり得る複数のサンプルからなるデータセットを入力する。信頼率評価部１５０は、データセット内の各サンプルから標本平均、不偏分散または標本分位点を算出した場合の信頼率を決定する。サンプル利用判定部５１０は、信頼率を、しきい値入力部５３０に入力されたしきい値と比較する。サンプル利用判定部５１０は、信頼率がしきい値以上であるサンプルのみをデータセットから抽出する。モデル構築部５２０は、標本平均、不偏分散または標本分位点を特徴量とする、機械学習によるモデル構築を行う。モデル構築部５２０は、特徴量分布の散らばりを低減し頑健な学習を行うために、サンプル利用判定部５１０で抽出された十分な信頼率で特徴量抽出が可能なサンプルのみからなるデータセットをモデルの訓練に使用する。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータの選別にもサンプル利用判定部５１０の結果を利用することができる。

［第３の実施例］
　図９は、第３の実施例を示すブロック図である。第３の実施例も、第２の実施形態の実施例である。

　図９に示すように、第３の実施例の装置は、第２の実施形態における信頼率評価部１５０と、データセット入力部５０１と、重み算出部５４０と、モデル構築部５５０とを備える。

　データセット入力部５０１は、サンプルサイズが共通である複数のサンプルからなるデータセットを入力する。信頼率評価部１５０は、データセット内の各サンプルに共通のサンプルサイズに対して、標本平均、不偏分散または標本分位点を算出した場合の信頼率を決定する。重み算出部５４０は、決定された信頼率の高さに応じて各推定量に付与する重みを決定する。モデル構築部５５０は、特徴量である標本平均、不偏分散または標本分位点に重み算出部５４０で決定された重みを付与することによって、信頼率の高い特徴量を重要視したモデル構築を行うことができる。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータ利用時にも重み算出部５４０の結果を利用することができる。

［第４の実施例］
　図１０は、第４の実施例を示すブロック図である。第４の実施例は、第３の実施形態の実施例である。

　図１０に示すように、第４の実施例の装置は、第３の実施形態における誤差評価部１６０と、データセット入力部６００と、サンプル利用判定部６１０と、モデル構築部６２０と、しきい値入力部６３０とを備える。

　データセット入力部６００は、サンプルサイズが異なり得る複数のサンプルからなるデータセットを入力する。誤差評価部１６０は、データセット内の各サンプルについて、そのサンプルから標本平均、不偏分散または標本分位点を算出した場合の誤差を決定する。サンプル利用判定部６１０は、誤差を、しきい値入力部６３０に入力されたしきい値と比較する。サンプル利用判定部６１０は、誤差が閾値以下となるサンプルのみをデータセットから抽出する。モデル構築部６２０は、標本平均、不偏分散または標本分位点を特徴量とする、機械学習によるモデル構築を行う。モデル構築部６２０は、特徴量分布の散らばりを低減し頑健な学習を行うために、サンプル利用判定部６１０で抽出された、真値との誤差が十分小さい特徴量を抽出可能なサンプルのみからなるデータセットをモデルの訓練に使用する。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータの選別にもサンプル利用判定部６１０の結果を利用することができる。

［第５の実施例］
　図１１は、第５の実施例を示すブロック図である。第５の実施例も、第３の実施形態の実施例である。

　図１１に示すように、第５の実施例の装置は、第３の実施形態における誤差評価部１６０と、データセット入力部６０１と、重み算出部６４０と、モデル構築部６５０とを備える。

　データセット入力部６０１は、サンプルサイズが共通である複数のサンプルからなるデータセットを入力する。誤差評価部１６０は、データセット内の各サンプルに共通のサンプルサイズに対して、標本平均、不偏分散または標本分位点を算出した場合の誤差を決定する。重み算出部６４０は、決定された誤差の小ささに応じて各推定量に付与する重みを決定する。モデル構築部６５０は、特徴量である標本平均、不偏分散または標本分位点に重み算出部６４０で決定された重みを付与することによって、真値との誤差が小さい特徴量を重要視したモデル構築を行うことができる。なお、本実施例ではモデルの構築に用いるデータの選別について説明したが、構築したモデルに対するテストデータ利用時にも重み算出部６４０の結果を利用することができる。

　上記の実施例の装置は、標本平均、不偏分散または標本分位点を特徴量に含む機械学習によるモデル構築において、サンプルサイズが不足したサンプルを訓練データセットから除外することによって、モデルの改善を図るといった用途に適用可能である。また、上記の実施形態の情報処理装置は、標本平均、不偏分散または標本分位点のいずれかを用いたデータ分析を行うことが想定される場合に、算出に必要なサンプルサイズを事前に把握し、データ取得のための実験計画の参考とするといった用途にも適用可能である。

　上記の実施形態および実施例における各構成要素は、１つのハードウェアで構成可能であるが、１つのソフトウェアでも構成可能である。また、各構成要素は、複数のハードウェアでも構成可能であり、複数のソフトウェアでも構成可能である。また、各構成要素のうちの一部をハードウェアで構成し、他部をソフトウェアで構成することもできる。

　上記の実施形態における各機能（各処理）を、ＣＰＵ（Central Processing Unit ）等のプロセッサやメモリ等を有するコンピュータで実現可能である。例えば、記憶装置（記憶媒体）に上記の実施形態における方法（処理）を実施するためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをＣＰＵで実行することによって実現してもよい。

　図１２は、ＣＰＵを有するコンピュータの一例を示すブロック図である。コンピュータは、上記の各実施形態および実施例の装置に実装される。ＣＰＵ１０００は、記憶装置１００１に格納されたプログラムに従って処理を実行することによって、上記の実施形態および実施例における各機能を実現する。例えば、ＣＰＵ１０００は、図１，図３，図５に示されたサンプルサイズ決定装置、信頼率決定装置および誤差決定装置の各々における各機能を実現できる。換言すれば、ＣＰＵ１０００は、図１に示されたサンプルサイズ評価部１４０の機能と各入力部の機能を実現できる。また、ＣＰＵ１０００は、図３に示された信頼率決定装置の機能と各入力部の機能を実現できる。さらに、ＣＰＵ１０００は、図５に示された誤差決定装置の機能と各入力部の機能を実現できる。

　また、コンピュータは、上記の各実施例の装置における各機能を実現できる。すなわち、ＣＰＵ１０００は、図７～図１１に示された装置における各ブロックの機能を実現できる。

　記憶装置１００１は、例えば、非一時的なコンピュータ可読媒体（non-transitory computer readable medium ）である。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium ）を含む。非一時的なコンピュータ可読媒体の具体例として、磁気記録媒体（例えば、ハードディスク）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memory ）、ＣＤ－Ｒ（Compact Disc-Recordable ）、ＣＤ－Ｒ／Ｗ（Compact Disc-ReWritable ）、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM ）、フラッシュＲＯＭ）がある。

　また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium ）に格納されてもよい。一時的なコンピュータ可読媒体には、例えば、有線通信路または無線通信路を介して、すなわち、電気信号、光信号または電磁波を介して、プログラムが供給される。

　メモリ１００２は、例えばＲＡＭ（Random Access Memory）で実現され、ＣＰＵ１０００が処理を実行するときに一時的にデータを格納する記憶手段である。メモリ１００２に、記憶装置１００１または一時的なコンピュータ可読媒体が保持するプログラムが転送され、ＣＰＵ１０００がメモリ１００２内のプログラムに基づいて処理を実行するような形態も想定しうる。

　図１３は、情報処理装置の主要部を示すブロック図である。図１３に示す推定量算出のための装置１０は、推定量分布を正規分布で近似する近似処理を行う正規近似手段（正規近似部）１１（実施形態では、正規近似部１４１，１５１，１６１で実現される。）と、近似処理で発生するずれを評価するずれ評価手段（ずれ評価部）１２（実施形態では、ずれ評価部１４２，１５２，１６２で実現される。）と、近似処理の結果とずれとから推定量の算出に関するデータを評価するデータ評価手段（データ評価部）１３（実施形態では、サイズ決定部１４３、信頼率決定部１５３または誤差決定部１６３で実現される。）とを備えている。

　データ評価手段１３は、例えば、推定量の算出のためのサンプルサイズを決定するサンプルサイズ決定手段（実施形態では、サイズ決定部１４３で実現される。）である。サンプルサイズは、推定量の算出に関するデータの一例である。なお、サンプルサイズ決定手段は、例えば、サンプルサイズ探索する繰り返し演算（例えば、第１の実施形態におけるステップＳ１０４～Ｓ１０７の処理）において、Ｐ_ｎ－Ｅ_ｎが信頼率１－δ以上となったときのサンプルサイズを最終的に決定されたサンプルサイズとする。

　データ評価手段１３は、例えば、信頼率を決定する信頼率決定手段（実施形態では、信頼率決定部１５３で実現される。）である。信頼率は、推定量の算出に関するデータの一例である。なお、第２の実施形態では、信頼率決定手段の一例である信頼率決定部１５３は、Ｐ_ｎ－Ｅ_ｎを信頼率とする。

　データ評価手段１３は、例えば、推定量と真値との誤差を決定する誤差決定手段（実施形態では、誤差決定部１６３で実現される。）である。誤差は、推定量の算出に関するデータの一例である。

　上記の実施形態および実施例の一部または全部は、以下の付記のようにも記載され得るが、本発明は、以下の構成に限定されるわけではない。

（付記１）推定量分布を正規分布で近似する近似処理を行う正規近似手段と、
　前記近似処理で発生するずれを評価するずれ評価手段と、
　前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価するデータ評価手段と
　を備えた情報処理装置。

（付記２）前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定するサンプルサイズ決定手段である
　付記１の情報処理装置。

（付記３）前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用し、該パラメータを変化させながら前記近似処理を行い、
　前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用し、該パラメータを変化させながら前記ずれ評価処理を行い、
　前記サンプルサイズ決定手段は、前記近似処理の結果と前記ずれとの差が、信頼率以上になったときのパラメータの値を、サンプルサイズとして決定する
　付記２の情報処理装置。

（付記４）前記データ評価手段は、前記推定量の算出に関するデータとしての信頼率を決定する信頼率決定手段である
　付記１の情報処理装置。

（付記５）前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用して前記近似処理を行い、
　前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用して前記ずれ評価処理を行い、
　前記信頼率決定手段は、前記近似処理の結果と前記ずれとの差を信頼率として決定する
　付記４の情報処理装置。

（付記６）前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する誤差決定手段である
　付記１の情報処理装置。

（付記７）前記正規近似手段は、推定量が真値よりも左側にずれる場合の誤差に相当する左側誤差および推定量が真値よりも右側にずれる場合の誤差に相当する右側誤差を変化させながら前記近似処理を行い、
　前記ずれ評価手段は、前記左側誤差および前記右側誤差を変化させながら前記ずれ評価処理を行い、
　前記誤差決定手段は、前記近似処理の結果と前記ずれとの差が信頼率以上になったときの前記左側誤差および前記右側誤差を、推定量と真値との誤差として決定する
　付記６の情報処理装置。

（付記８）推定量は、標本平均、不偏分散、または標本分位点である
　付記１から付記７のうちのいずれかの情報処理装置。

（付記９）推定量分布を正規分布で近似する近似処理を行い、
　前記近似処理で発生するずれを評価し、
　前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価する
　情報処理方法。

（付記１０）前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定する
　付記９の情報処理方法。

（付記１１）前記推定量の算出に関するデータとしての信頼率を決定する
　付記９の情報処理方法。

（付記１２）前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する
　付記９の情報処理方法。

（付記１３）推定量は、標本平均、不偏分散、または標本分位点である
　付記９から付記１２のうちのいずれかの情報処理方法。

（付記１４）情報処理プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
　前記情報処理プログラムは、コンピュータに、
　推定量分布を正規分布で近似する近似処理を行わせ、
　前記近似処理で発生するずれを評価させ、
　前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価させる
　コンピュータ読み取り可能な記録媒体。

（付記１５）前記情報処理プログラムは、前記コンピュータに、
　前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定させる
　付記１４のコンピュータ読み取り可能な記録媒体。

　以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記の実施形態および実施例に限定されない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　１０　　情報処理装置
　１１　　正規近似手段
　１２　　ずれ評価手段
　１３　　データ評価手段
　１００　推定量種類判定部
　１２０　信頼率入力部
　１２１　サンプルサイズ入力部
　１４０　サンプルサイズ評価部
　１４１，１５１，１６１　正規近似部
　１４２，１５２，１６２　ずれ評価部
　１４３　サイズ決定部
　１５０　信頼率評価部
　１５３　信頼率決定部
　１６０　誤差評価部
　１６３　誤差決定部
　４００　データセット入力部
　４１０　サンプル利用判定部
　４２０　モデル構築部
　５００，５０１　データセット入力部
　５１０　サンプル利用判定部
　５２０，５５０　モデル構築部
　５３０　しきい値入力部
　５４０　重み算出部
　６００，６０１　データセット入力部
　６１０　サンプル利用判定部
　６２０，６５０　モデル構築部
　６３０　しきい値入力部
　６４０　重み算出部
　１０００　ＣＰＵ
　１００１　記憶装置
　１００２　メモリ

Claims

　推定量分布を正規分布で近似する近似処理を行う正規近似手段と、
　前記近似処理で発生するずれを評価するずれ評価処理を行うずれ評価手段と、
　前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価するデータ評価手段と
　を備えた情報処理装置。
　前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定するサンプルサイズ決定手段である
　請求項１に記載の情報処理装置。
　前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用し、該パラメータを変化させながら前記近似処理を行い、
　前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用し、該パラメータを変化させながら前記ずれ評価処理を行い、
　前記サンプルサイズ決定手段は、前記近似処理の結果と前記ずれとの差が、信頼率以上になったときのパラメータの値を、サンプルサイズとして決定する
　請求項２に記載の情報処理装置。
　前記データ評価手段は、前記推定量の算出に関するデータとしての信頼率を決定する信頼率決定手段である
　請求項１に記載の情報処理装置。
　前記正規近似手段は、サンプルサイズをパラメータとして含む近似式を使用して前記近似処理を行い、
　前記ずれ評価手段は、サンプルサイズをパラメータとして含む評価式を使用して前記ずれ評価処理を行い、
　前記信頼率決定手段は、前記近似処理の結果と前記ずれとの差を信頼率として決定する
　請求項４に記載の情報処理装置。
　前記データ評価手段は、前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する誤差決定手段である
　請求項１に記載の情報処理装置。
　前記正規近似手段は、推定量が真値よりも左側にずれる場合の誤差に相当する左側誤差および推定量が真値よりも右側にずれる場合の誤差に相当する右側誤差を変化させながら前記近似処理を行い、
　前記ずれ評価手段は、前記左側誤差および前記右側誤差を変化させながら前記ずれ評価処理を行い、
　前記誤差決定手段は、前記近似処理の結果と前記ずれとの差が信頼率以上になったときの前記左側誤差および前記右側誤差を、推定量と真値との誤差として決定する
　請求項６に記載の情報処理装置。
　推定量は、標本平均、不偏分散、または標本分位点である
　請求項１から請求項７のうちのいずれか１項に記載の情報処理装置。
　推定量分布を正規分布で近似する近似処理を行い、
　前記近似処理で発生するずれを評価し、
　前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価する
　情報処理方法。
　前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定する
　請求項９に記載の情報処理方法。
　前記推定量の算出に関するデータとしての信頼率を決定する
　請求項９に記載の情報処理方法。
　前記推定量の算出に関するデータとしての、推定量と推定したい値である真値との誤差を決定する
　請求項９に記載の情報処理方法。
　推定量は、標本平均、不偏分散、または標本分位点である
　請求項９から請求項１２のうちのいずれか１項に記載の情報処理方法。
　情報処理プログラムが格納されたコンピュータ読み取り可能な記録媒体であって、
　前記情報処理プログラムは、コンピュータに、
　推定量分布を正規分布で近似する近似処理を行わせ、
　前記近似処理で発生するずれを評価させ、
　前記近似処理の結果と前記ずれとから推定量の算出に関するデータを評価させる
　コンピュータ読み取り可能な記録媒体。
　前記情報処理プログラムは、前記コンピュータに、
　前記推定量の算出に関するデータとしての、推定量の算出のためのサンプルサイズを決定させる
　請求項１４に記載のコンピュータ読み取り可能な記録媒体。