WO2019171992A1

WO2019171992A1 - 情報処理装置、情報処理方法、プログラム

Info

Publication number: WO2019171992A1
Application number: PCT/JP2019/006957
Authority: WO
Inventors: 裕貴中山
Original assignee: 日本電気株式会社
Priority date: 2018-03-07
Filing date: 2019-02-25
Publication date: 2019-09-12
Also published as: JP7010363B2; US20210042636A1; JPWO2019171992A1

Abstract

本発明の情報処理装置１００は、複数の属性からなるデータのうち、欠損を含む特定の属性の値と、特定の属性とは異なる他の属性の値と、に基づいて、欠損を補完するルールを複数生成する生成手段１１０と、複数の上記ルールに基づいて上記欠損を補完する値を特定する補完手段１２０と、を備える。

Description

情報処理装置、情報処理方法、プログラム

　本発明は、データの欠損を補完する情報処理装置、情報処理方法、プログラムに関する。

　様々な場面で、入手可能なデータを分析し、モデルを作成して将来を予測することが行われている。ところが、データ分析を行う場合に、分析対象となるデータに欠損があると、精度の高い予測を行うことが困難である。このため、データ欠損を最もらしい値で補完する必要がある。

国際公開第２０１４／１９９９２０号

　ここで、特許文献１に記載されている欠損を補完する方法は、欠損パターン毎に、欠損していない説明変数が共通しているサンプルをまとめて学習し、欠損を補完している。ところが、特許文献１に記載の欠損の補完方法では、欠損パターンが必ずしも他のサンプルと類似するとは限らない。その結果、データの欠損をより適切な値で補完することができない、という問題が生じる。

　このため、本発明の目的は、上述した課題である、データの欠損をより適切な値で補完することができない、という問題を解決することができる情報処理装置、情報処理方法、プログラムを提供することにある。

　本発明の一形態である情報処理装置は、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた、
という構成をとる。

　また、本発明の一形態である情報処理方法は、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する、
という構成をとる。

　また、本発明の一形態であるプログラムは、
　情報処理装置に、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させる、
という構成をとる。

　本発明は、以上のように構成されることにより、複数の属性からなるデータの欠損に対する補完値の精度の向上を図ることができる。

本発明の実施形態１における情報処理装置の構成を示すブロック図である。欠損を含むデータの一例を示す図である。図１に開示した情報処理装置の動作を示すフローチャートである。データの欠損に対する補完処理の様子を説明するための図である。データの欠損に対する補完処理の様子を説明するための図である。データの欠損に対する補完処理の様子を説明するための図である。データの欠損に対する補完処理の様子を説明するための図である。データの欠損を補完したときの様子を示す図である。本発明の実施形態２における情報処理装置の構成を示すブロック図である。

　＜実施形態１＞
　本発明の第１の実施形態を、図１乃至図８を参照して説明する。図１は、情報処理装置の構成を示すブロック図である。図２は、欠損を含むデータの一例を示す図である。図３は、情報処理装置の動作を示すフローチャートである。図４乃至図７は、データの欠損に対する補完処理を説明するための図である。図８は、データの欠損を補完したときの様子を示す図である。

　本実施形態における情報処理装置１は、演算装置や記憶装置を備えた、１台又は複数台の情報処理装置にて構成されている。そして、情報処理装置１は、図１に示すように、演算装置がプログラムを実行することで構築された、ルール生成部１１、補完値候補生成部１２、補完値決定部１３、を備えている。また、情報処理装置１は、記憶装置に形成されたデータ記憶部１５を備えている。以下、情報処理装置１の詳細な構成と動作について説明する。

　上記データ記憶部１５は、図２に示すような分析対象となるデータを記憶している。このデータは、月、天気、気温、湿度、などの複数の属性からなるデータである。具体的に、属性「月」は、２月、８月など、属性「天気」は、晴れ、曇り、雨、などの離散値をとり、属性「気温」と属性「湿度」は連続値をとる。なお、同一行に位置する各属性の値は、同時に観測されたデータである。

　また、データの一部には値が欠損している箇所が存在している。例えば、図２の例では、属性「天気」の２行目の値と、属性「天気」の４行目の値が欠損している。本発明の情報処理装置１は、後述するように、これら欠損を補完する処理を行う。なお、データ記憶部１５に記憶されているデータは、図２に示すものに限定されない。

　上記ルール生成部１１（生成手段）は、まずデータ記憶部１５から欠損を有するデータを読出し（図３のステップＳ１）、上述した欠損を補完するルールを生成する（図３のステップＳ２）。このとき、ルール生成部１１は、１つの欠損（所定の欠損）を補完するためのルールを複数生成する。なお、ルールの具体的な生成方法については後述する。

　続いて、上記補完値候補生成部１２（補完手段）は、ルール生成部１１で生成した複数のルールのそれぞれから、欠損を補完する補完値の候補を生成する（図３のステップＳ３）。つまり、補完値候補生成部１２は、複数のルールから、それぞれ複数の補完値の候補を生成する。

　その後、補完値決定部１３（補完手段）は、補完値候補生成部１２で生成した複数の補完値の候補から補完値を算出して、１つの補完値を特定する（図３のステップＳ４）。そして、補完値決定部１３は、データの欠損に特定した補完値を補完して、データ記憶部１５に記憶する（図３のステップＳ５）。

　ここで、上述した情報処理装置１による欠損を補完する処理の具体例を説明する。まず、図４の点線丸印で示す属性「天気」の２行目の欠損を補完する具体例を説明する。

　はじめに、ルール生成部１１は、欠損を有する属性「天気」（特定の属性）と、他の属性と、の組み合わせを設定する。ここでは、属性「天気」と属性「月」、属性「天気」と属性「気温」、属性「天気」と属性「湿度」、の３つの組み合わせを設定する。そして、組み合わせ毎に、それぞれ欠損を補完するルールを生成する。

　上記属性「天気」と属性「月」との組み合わせでは、まず、属性「天気」の欠損箇所に対応する属性「月」の値を調べると、図４の点線四角形で囲ったように「２月」が対応する。このため、この属性「月」の値「２月」に対する、属性「天気」の欠損以外の値を調べる。すると、本実施形態のデータでは、属性「月」が「２月」で、かつ、属性「天気」が欠損していないデータが１００件あり、属性「天気」の値が、「晴れ」は７０件、「曇り」は６０件、「雨」は６０件、であったとする。

　このことから、ルール生成部１１は、属性「天気」と属性「月」との組み合わせから、「属性「月」の値が「２月」の場合、属性「天気」は「晴れ」７０％、「曇り」２０％、「雨」４０％」、という確率分布からなるルールを生成する。このように、ルール生成部１１は、組み合わせた属性が共に離散値である場合には、欠損に対応する他の属性の値に対する、補完する属性の値の出現頻度に基づいて、ルールを生成する。

　また、上記属性「天気」と属性「気温」との組み合わせでは、まず、属性「天気」の欠損に対応する属性「気温」の値を調べると、図４の点線四角形で囲ったように「６℃」が対応する。このため、この属性「気温」の値「６℃」に対する、属性「天気」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象ではない他の属性「気温」の値が連続値であるため、上記欠損に対応する値「６℃」を含む所定範囲の値を設定して、当該所定範囲の値に対する、補完対象となる属性「天気」の値の出現頻度を調べる。具体的には、他の属性「気温」を階級幅５℃でまとめ、属性「気温」が上記「６℃」を含む「５℃以上１０℃未満」の範囲に対する、補完対象の属性「天気」の出現頻度を調べる。

　すると、本実施形態のデータでは、属性「気温」が「５℃以上１０℃未満」の範囲で、かつ、属性「天気」が欠損していないデータが１５０件あり、属性「天気」の値が、「晴れ」は３０件、「曇り」は６０件、「雨」は６０件、であったとする。このことから、ルール生成部１１は、属性「天気」と属性「気温」との組み合わせから、「属性「気温」の値が「５℃以上１０℃未満」の場合、属性「天気」は「晴れ」２０％、「曇り」４０％、「雨」４０％」、という確率分布からなるルールを生成する。

　また、上記属性「天気」と属性「湿度」との組み合わせでは、まず、属性「天気」の欠損値に対応する属性「湿度」の値を調べると、図４の点線四角形で囲ったように「４３％」が対応する。このため、この属性「湿度」の値「４３％」に対する、属性「天気」の欠損値以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象ではない他の属性「湿度」の値が連続値であるため、上記欠損値に対応する値「４３％」を含む所定範囲の値を設定して、当該所定範囲の値に対する、補完対象となる属性「天気」の値の出現頻度を調べる。具体的には、他の属性「湿度」を階級幅１０％でまとめ、属性「湿度」が上記「４３％」を含む「４０％以上５０％未満」の範囲に対する、補完対象の属性「天気」の出現頻度を調べる。

　すると、本実施形態のデータでは、属性「湿度」が「４０％以上５０％未満」の範囲で、かつ、属性「天気」が欠損していないデータが２００件あり、属性「天気」の値が、「晴れ」は１２０件、「曇り」は７５件、「雨」は５件、であったとする。このことから、ルール生成部１１は、属性「天気」と属性「湿度」との組み合わせから、「属性「湿度」の値が「４０％以上５０％未満」の場合、属性「天気」は「晴れ」６０％、「曇り」３５％、「雨」５％」、という確率分布からなるルールを生成する。

　以上のように、ルール生成部１１は、図４の２行目に示す属性「天気」の欠損を補完するルールとして、以下の３つのルールを生成する。
（ａ１）属性「月」が「２月」の場合、属性「天気」は「晴れ」７０％、「曇り」２０％、「雨」４０％
（ａ２）属性「気温」が「５℃以上１０℃未満」の場合、属性「天気」は「晴れ」２０％、「曇り」４０％、「雨」４０％
（ａ３）属性「湿度」が「４０％以上５０％未満」の場合、属性「天気」は「晴れ」６０％、「曇り」３５％、「雨」５％

　そして、補完値候補生成部１２は、上述した３つのルールから、それぞれ属性「天気」の補完値の候補を生成する。例えば、上記３つのルールそれぞれにおいて、確率が最も高い天気の値を補完値の候補とすると、ルール（ａ１）からは補完値の候補「晴れ」、ルール（ａ２）からは補完値の候補「曇り」、ルール（ａ３）からは補完値の候補「晴れ」、といった３つの補完値の候補が生成される。

　その後、補完値決定部１３は、上記３つのルールから生成された３つの補完値の候補を統合して、属性「天気」の欠損を補完する最終的な補完値を特定する。例えば、補完値の特定は、補完値の候補の数に基づいて行う。この場合、３つのルールのうち、２つから補完値の候補「晴れ」が生成されたため、多数決で補完値を「晴れ」と特定する。但し、補完値の特定は他の方法で行われてもよい。例えば、補完値の候補の平均値としてもよく、補完値の候補に対して属性毎に設定された重み付けを行い、その上で多数決としてもよい。例えば、属性「月」と「湿度」の重みを「１」とし、属性「気温」の重みを「３」とした場合には、上記ルール（ａ２）から生成された補完値の候補「曇り」が多数決で補完値として特定される。

　次に、上述した情報処理装置１による欠損値を補完する処理の具体例として、図５の点線丸印で示す属性「気温」の４行目の欠損を補完する場合を説明する。

　はじめに、ルール生成部１１は、欠損を有する属性「気温」（特定の属性）と、他の属性と、の組み合わせを設定する。ここでは、属性「気温」と属性「月」、属性「気温」と属性「天気」、属性「気温」と属性「湿度」、の３つの組み合わせを設定する。そして、組み合わせ毎に、それぞれ欠損を補完するルールを生成する。

　上記属性「気温」と属性「月」との組み合わせでは、まず、属性「気温」の欠損に対応する属性「月」の値を調べると、図５の点線四角形で囲ったように「２月」が対応する。このため、この属性「月」の値「２月」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象となる属性「気温」の値が連続値であるため、当該属性「気温」の所定範囲の値を設定して、属性「月」の値「２月」に対する、属性「気温」の所定範囲の値の出現頻度を調べる。具体的には、補完対象となる属性「気温」を階級幅５℃でまとめ、当該５℃幅の気温の出現頻度を調べる。

　すると、属性「月」の値「２月」に対する、属性「気温」の５℃幅の出現頻度は、図６の上段に示すヒストグラムにて表される。このことから、ルール生成部１１は、属性「気温」と属性「月」との組み合わせから、「属性「月」の値が「２月」の場合、属性「気温」の頻度は、図６の上段に示す頻度分布にて表される」というルールを生成する。

　また、上記属性「気温」と属性「天気」との組み合わせでは、まず、属性「気温」の欠損値に対応する属性「天気」の値を調べると、図５の点線四角形で囲ったように「曇り」が対応する。このため、この属性「天気」の値「曇り」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象となる属性「気温」の値が連続値であるため、当該属性「気温」の所定範囲の値を設定して、属性「天気」の値「曇り」に対する、属性「気温」の所定範囲の値の出現頻度を調べる。具体的には、補完対象となる属性「気温」を階級幅５℃でまとめ、当該５℃幅の気温の出現頻度を調べる。

　すると、属性「天気」の値「曇り」に対する、属性「気温」の５℃幅の出現頻度は、図６の中段に示すヒストグラムにて表される。このことから、ルール生成部１１は、属性「気温」と属性「天気」との組み合わせから、「属性「天気」の値が「曇り」の場合、属性「気温」の頻度は、図６の中段に示す頻度分布にて表される」というルールを生成する。

　また、上記属性「気温」と属性「湿度」との組み合わせでは、まず、属性「気温」の欠損値に対応する属性「湿度」の値を調べると、図５の点線四角形で囲ったように「８０％」が対応する。このため、この属性「湿度」の値「８０％」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性が両方とも連続値であるため、これらの値の散布図を生成する。つまり、組み合わせた２つの属性の値にて形成される平面上に、同一行に位置する両属性の値からなる点をプロットする。このとき、もちろん属性「気温」が欠損のデータは除かれる。

　すると、属性「気温」の値と属性「湿度」の値との散布図は、図６の下段に示すように表される。このことから、ルール生成部１１は、属性「気温」と属性「湿度」との組み合わせから、「属性「気温」の値と属性「湿度」の値との関係は、図６の下段に示す散布図にて表される」というルールを生成する。

　以上のように、ルール生成部１１は、図５の４行目に示す属性「気温」の欠損を補完するルールとして、図６の頻度分布や散布図といった３つのグラフでそれぞれ表される３つのルールを生成する。

　そして、補完値候補生成部１２は、上述した３つのルールから、それぞれ属性「気温」の補完値の候補を生成する。例えば、図６の上段の頻度分布からは、図７の上段の斜線で示すように、属性「気温」の値が最も多い頻度の「５℃以上１０℃未満」の範囲を選択し、かかる範囲内の数値から「９℃」を補完値の候補として生成する。なお、ここでは、「５℃以上１０℃未満」の範囲から「９℃」をランダムに補完値の候補として選択したが、いかなる方法で補完値の候補を生成してもよい。同様に、図６の中段の頻度分布からは、図７の中段の斜線で示すように、属性「気温」の値が最も多い頻度の「１０℃以上１５℃未満」の範囲を選択し、かかる範囲内の数値から「１６℃」を補完値の候補として生成する。

　また、図６の下段の散布図からは、まず、図７の下段に示すように近似直線を算出する。そして、かかる近似直線から、属性「気温」の欠損と同一行の属性「湿度」の値「８０℃」に対応する属性「気温」の値「１５℃」を選択する。さらに、属性「気温」について、「１５℃」を平均とした正規分布を生成し、かかる正規分布に基づいて「１４℃」を補完値の候補として生成する。なお、上述した散布図から補完値の候補を生成する方法は、上述した方法に限定されず、いかなる方法であってもよい。

　その後、補完値決定部１３は、上記３つのルールから生成された３つの補完値の候補を統合して、属性「気温」の欠損値を補完する最終的な補完値を特定する。例えば、補完値の特定は、補完値の候補の平均を算出して行う。この場合、３つのルールにおいて生成された補完値の候補の平均を取ると、「１３℃」となり、かかる値を補完値として特定する。但し、補完値の特定は他の方法で行われてもよい。例えば、補完値の候補に対して属性毎に設定された重み付けを行い、その上で平均値としてもよい。例えば、属性「月」の重みを「２」とし、属性「湿度」、「天気」の重みを「１」とした場合には、上記補完値の候補の値から、補完値は「１２℃」として特定される。

　そして、特定された補完値は、補完値決定部１３により図８に示すようにデータの欠損箇所に補完され、データ記憶部１５に記憶される。これにより、欠損が補完されたデータを、データ分析に用いることができる。

　以上のように、本発明における情報処理装置１は、データの欠損を補完するルールを複数生成し、かかる複数のルールから補完値を生成している。このため、データの欠損を複数の属性間のあらゆる関連性から予測することができ、より適切な補完値を生成することができる。

　なお、上記では、１つの欠損を複数のルールから補完する場合を例示したが、複数の欠損をまとめて複数のルールから補完してもよい。例えば、複数の欠損がある場合に、各欠損をそれぞれ補完する少なくとも１つのルールを生成することで全体として複数のルールを生成し、これら複数のルールから複数の欠損を補完してもよい。

　＜実施形態２＞
　次に、本発明の第２の実施形態を、図９を参照して説明する。図９は、実施形態２における情報処理装置の構成を示すブロック図である。なお、本実施形態では、実施形態１で説明した情報処理装置の構成の概略を示している。

　図９に示すように、本実施形態における情報処理装置１００は、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成する生成手段１１０と、
　複数の上記ルールに基づいて上記欠損を補完する値を特定する補完手段１２０と、
を備えている。

　なお、上記生成手段１１０と補完手段１２０とは、情報処理装置がプログラムを実行することで実現されるものである。

　そして、上記構成の情報処理装置１００は、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成し、
　複数の上記ルールに基づいて上記欠損を補完する値を特定する、
という処理を実行するよう作動する。

　上記発明によると、データの欠損を補完するルールを複数の属性の値から複数生成し、かかる複数のルールから補完値を生成している。このため、データの欠損を属性間の関連性を表す複数のルールから予測することができ、より適切な補完値を生成することができる。

　＜付記＞
　上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた情報処理装置。

（付記２）
　付記１に記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
　前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。

（付記３）
　付記２に記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理装置。

（付記４）
　付記２又は３に記載の情報処理装置であって、
　前記生成手段は、
　前記特定の属性の値と、前記他の属性である第１の属性の値と、に基づく、前記所定の欠損を補完する第１の前記ルールと、
　前記特定の属性の値と、前記特定の属性及び前記第１の属性とは異なる前記他の属性である第２の属性の値と、に基づく、前記所定の欠損を補完する第２の前記ルールと、
を含む少なくとも２以上の前記ルールを生成する、
情報処理装置。

（付記５）
　付記２乃至４のいずれかに記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。

（付記６）
　付記５に記載の情報処理装置であって、
　前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。

（付記６．１）
　付記５又は６に記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。

（付記７）
　付記５乃至６．１のいずれかに記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
情報処理装置。

（付記８）
　付記２乃至７のいずれかに記載の情報処理装置であって、
　前記補完手段は、複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。

（付記９）
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する、
情報処理方法。

（付記９．１）
　付記９に記載の情報処理方法であって、
　前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
　複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。

（付記９．２）
　付記９．１に記載の情報処理方法であって、
　前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理方法。

（付記９．３）
　付記９．１又は９．２に記載の情報処理方法であって、
　複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。

（付記１０）
　情報処理装置に、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させるためのプログラム。

　なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体（non-transitory computer readable medium）を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体（tangible storage medium）を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば光磁気ディスク）、ＣＤ－ＲＯＭ（Read Only Memory）、ＣＤ－Ｒ、ＣＤ－Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ（Programmable ROM）、ＥＰＲＯＭ（Erasable PROM）、フラッシュＲＯＭ、ＲＡＭ（Random Access Memory））を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体（transitory computer readable medium）によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

　以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

　なお、本発明は、日本国にて２０１８年３月７日に特許出願された特願２０１８－０４０９９１の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。

１０　情報処理装置
１１　ルール生成部
１２　補完値候補生成部
１３　補完値決定部
１５　データ記憶部
１００　情報処理装置
１１０　生成手段
１２０　補完手段

Claims

　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた情報処理装置。
　請求項１に記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
　前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
　請求項２に記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理装置。
　請求項２又は３に記載の情報処理装置であって、
　前記生成手段は、
　前記特定の属性の値と、前記他の属性である第１の属性の値と、に基づく、前記所定の欠損を補完する第１の前記ルールと、
　前記特定の属性の値と、前記特定の属性及び前記第１の属性とは異なる前記他の属性である第２の属性の値と、に基づく、前記所定の欠損を補完する第２の前記ルールと、
を含む少なくとも２以上の前記ルールを生成する、
情報処理装置。
　請求項２乃至４のいずれかに記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
　請求項５に記載の情報処理装置であって、
　前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
　請求項５又は６に記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
　請求項５乃至７のいずれかに記載の情報処理装置であって、
　前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
情報処理装置。
　請求項２乃至８のいずれかに記載の情報処理装置であって、
　前記補完手段は、複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する、
情報処理方法。
　請求項１０に記載の情報処理方法であって、
　前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
　複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
　請求項１１に記載の情報処理方法であって、
　前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理方法。
　請求項１１又は１２に記載の情報処理方法であって、
　複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
　情報処理装置に、
　複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
　複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させるためのプログラム。