WO2023223448A1

WO2023223448A1 - 情報処理装置、情報処理方法及びプログラム

Info

Publication number: WO2023223448A1
Application number: PCT/JP2022/020610
Authority: WO
Inventors: 于洋董; 昌文榎本
Original assignee: 日本電気株式会社
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2023-11-23

Abstract

分析タスクに応じた適切なエラー修正を可能にするために、情報処理装置（１）は、対象データを取得する取得部（１１）と、上記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、上記エラー毎又は上記エラーの属性毎に算出する算出部（１２）と、算出部（１２）が算出した影響度に基づいて、上記対象データから修正するデータを決定する決定部（１３）と、を備える。

Description

情報処理装置、情報処理方法及びプログラム

　本発明は、データを分析するための技術に関する。

　データ分析においてデータの品質が問題になる。ここで、データの品質が問題になる場合としては、例えば、「表記ゆれ」、「欠損値」、「異常値」、「フォーマットずれ」等がある。データに含まれるエラー等を修正する、いわゆるデータクレンジング技術を開示した文献として、例えば特許文献１が挙げられる。特許文献１には、業務システム間でのデータ不整合に適宜に対応して、精度良好なデータ分析を可能とする技術として、各業務システムの間でのオブジェクトに関する業務データのずれに基づいてデータクレンジング処理の内容を特定し、特定した内容でのデータクレンジング処理を行うことが記載されている。

国際公開第２０１８／２０７５０６号

　しかしながら、データクレンジングにおいて、修正すべきエラーは、機械学習における分析タスクの種類によって異なることが知られている。特許文献１に記載の技術では、分析タスクを考慮にいれたエラー修正を行うことができないという課題がある。

　本発明の一態様は、上記の問題に鑑みてなされたものであり、その目的の一例は、分析タスクに応じた適切なエラー修正を可能にすることである。

　本発明の一側面に係る情報処理装置は、対象データを取得する取得手段と、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出手段と、前記算出手段が算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定手段とを備える。

　本発明の一側面に係る情報処理方法は、少なくとも１つのプロセッサが、対象データを取得することと、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出することと、前記算出した影響度に基づいて、前記対象データの中から修正するデータを決定することと、を含む。

　本発明の一側面に係るプログラムは、コンピュータを、対象データを取得する取得手段と、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出手段と、前記算出手段が算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定手段と、として機能させる。

　本発明の一態様によれば、分析タスクに応じた適切なエラー修正を行うことができる。

例示的実施形態１に係る情報処理装置の構成を示すブロック図である。例示的実施形態１に係る情報処理方法の流れを示すフロー図である。例示的実施形態２に係る情報処理装置の構成を示すブロック図である。例示的実施形態２に係る情報処理方法の流れを示すフロー図である。例示的実施形態２に係るエラー検出部が検出するエラーの具体例を示す図である。例示的実施形態２に係るグループ部によるエラーのグループ化の具体例を示す図である。例示的実施形態２に係る評価用データ生成部が生成する評価用データの具体例を示す図である。例示的実施形態２に係る影響度算出部が算出する影響度の具体例を示す図である。例示的実施形態２に係る決定部の決定処理の具体例を示す図である。例示的実施形態２に係るデータクレンジング部によるデータ修正処理の具体例を示す図である。各例示的実施形態に係る各装置の各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータの一例を示す図である。

　〔例示的実施形態１〕
　本発明の第１の例示的実施形態について、図面を参照して詳細に説明する。本例示的実施形態は、後述する例示的実施形態の基本となる形態である。

　（情報処理装置の構成）
　本例示的実施形態に係る情報処理装置１の構成について、図１を参照して説明する。図１は、情報処理装置１の構成を示すブロック図である。情報処理装置１は、取得部１１、算出部１２及び決定部１３を備える。

　取得部１１は、対象データを取得する。算出部１２は、上記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、上記エラー毎又は上記エラーの属性毎に算出する。決定部１３は、算出部１２が算出した影響度に基づいて、上記対象データの中から修正するデータを決定する。

　以上のように、本例示的実施形態に係る情報処理装置１においては、対象データを取得する取得部１１と、上記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、上記エラー毎又は上記エラーの属性毎に算出する算出部１２と、算出部１２が算出した影響度に基づいて、上記対象データの中から修正するデータを決定する決定部１３とを備える構成が採用されている。このため、本例示的実施形態に係る情報処理装置１によれば、分析タスクに応じた適切なエラー修正を行うことができるという効果が得られる。

　（情報処理プログラム）
　上述の情報処理装置１の機能は、プログラムによって実現することもできる。本例示的実施形態に係る情報処理プログラムは、コンピュータを、対象データを取得する取得手段と、上記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、上記エラー毎又は上記エラーの属性毎に算出する算出手段と、上記算出手段が算出した影響度に基づいて、上記対象データの中から修正するデータを決定する決定手段と、として機能させる。

　（情報処理方法の流れ）
　本例示的実施形態に係る情報処理方法Ｓ１の流れについて、図２を参照して説明する。図２は、情報処理方法Ｓ１の流れを示すフロー図である。情報処理方法Ｓ１における各ステップの実行主体は、情報処理装置１が備えるプロセッサであってもよいし、他の装置が備えるプロセッサであってもよく、各ステップの実行主体がそれぞれ異なる装置に設けられたプロセッサであってもよい。

　ステップＳ１１では、少なくとも１つのプロセッサが、対象データを取得する。ステップＳ１２では、少なくとも１つのプロセッサが、上記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、上記エラー毎又は上記エラーの属性毎に算出する。ステップＳ１３では、少なくとも１つのプロセッサが、ステップＳ１２において算出した影響度に基づいて、上記対象データの中から修正するデータを決定する。

　以上のように、本例示的実施形態に係る情報処理方法Ｓ１においては、少なくとも１つのプロセッサが、評価対象である対象データを取得することと、上記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、上記エラー毎又は上記エラーの属性種類毎に算出することと、上記算出した影響度に基づいて、上記対象データの中から修正するデータを決定することと、を含む構成が採用されている。このため、本例示的実施形態に係る情報処理方法Ｓ１によれば、分析タスクに応じた適切なエラー修正を行うことができるという効果が得られる。

　〔例示的実施形態２〕
　本発明の第２の例示的実施形態について、図面を参照して詳細に説明する。なお、例示的実施形態１にて説明した構成要素と同じ機能を有する構成要素については、同じ符号を付し、その説明を繰り返さない。

　＜情報処理装置の構成＞
　図３は、例示的実施形態２に係る情報処理装置１Ａの構成を示すブロック図である。情報処理装置１Ａは、制御部１０Ａ、記憶部２０Ａ、入出力部３０Ａ及び通信部４０Ａを備える。

　（入出力部）
　入出力部３０Ａには、キーボード、マウス、ディスプレイ、プリンタ、タッチパネル等の入出力機器が接続される。入出力部３０Ａは、接続された入力機器から情報処理装置１Ａに対する各種の情報の入力を受け付ける。また、入出力部３０Ａは、制御部１０Ａの制御の下、接続された出力機器に各種の情報を出力する。入出力部３０Ａとしては、例えばＵＳＢ（Universal Serial Bus）などのインタフェースが挙げられる。また、入出力部３０Ａは、表示パネル、スピーカ、キーボード、マウス、タッチパネル等を備えていてもよい。

　（通信部）
　通信部４０Ａは、情報処理装置１Ａの外部の装置と通信回線を介して通信する。通信回線の具体的構成は本例示的実施形態を限定するものではないが、通信回線は一例として、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）、公衆回線網、モバイルデータ通信網、又は、これらの組み合わせである。通信部４０Ａは、制御部１０Ａから供給されたデータを他の装置に送信したり、他の装置から受信したデータを制御部１０Ａに供給したりする。

　（制御部）
　制御部１０Ａは、取得部１１、算出部１２、決定部１３、エラー検出部１４、データクレンジング部１８、評価部１９、及び分析結果出力部２０を備える。また、算出部１２は、グループ部１５、評価用データ生成部１６、及び影響度算出部１７を備える。

　（取得部）
　取得部１１は、対象データＤを取得する。対象データＤは、データ分析の対象であり、一例として、複数のレコードを含むデータである。複数のレコードを含むデータとしては、例えば、テーブルデータ等の構造データ、ＪＳＯＮ（JavaScript Object Notation：登録商標）又はＸＭＬ（Extensible Markup Language）等のデータ記述言語で記述された半構造データ、及び自然言語で記された文書を表す非構造データが挙げられる。レコードは、一例として、テーブルの行であり、テーブルの列に対応する１又は複数の属性名及び属性値のセットを含む。

　本例示的実施形態において、対象データＤは複数のエラーを含む。エラーは、例えば集計ミス、異なるデータの表記ゆれなど、様々な要因により発生する。エラーとしては、例えば、レコードに含まれる属性値のデータ型（数値型、文字型、日付型、等）が異なっている、対象データＤに同一レコードが重複して含まれる、レコードが欠損値を含む、レコードに誤ったデータが含まれる、といったものが挙げられる。

　このようなエラーを含んだ対象データＤをそのまま分析すると、データ分析の精度がよくない、或いは、正しいデータ分析の結果が得られない。そのため、対象データＤがエラーを含む場合、データクレンジングを行うことで分析の精度を上げることができる。

　（エラー検出部）
　エラー検出部１４は、対象データＤに含まれる複数のエラーを検出する。エラー検出部１４がエラーを検出する手法は任意であるが、エラー検出部１４は一例として、ルールベースの検出手法により対象データＤに含まれるエラーを検出してもよく、また、機械学習により生成された学習済モデルを用いた推論によりエラーを検出してもよい。

　ルールベースの検出手法によりエラーを検出する場合、エラー検出部１４は例えば、（ｉ）属性値が欠損している、（ｉｉ）属性値が所定の範囲内でない、（ｉｉｉ）第１の属性名の属性値と、第２の属性名の属性値とが矛盾している、（ｉｖ）属性値のフォーマットが正しくない、といった場合にエラーであると判定してもよい。

　また、学習済モデルを用いた推論によりエラーを検出する場合、学習済モデルの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの２以上の手法が用いられてもよい。学習済モデルの入力は一例として、対象データＤに含まれるレコードを含み、学習済モデルの出力は一例として、レコードに含まれるエラーの有無又はエラーの種類を示すラベルを含む。

　（算出部）
　算出部１２は、対象データＤに含まれるエラーが分析モデルの評価指標に対して及ぼす影響度をエラー毎又はエラーの属性毎に算出する。ここで、分析モデルは、分析タスクに対応する機械学習モデルである。分析タスクとしては例えば、年収予測、売上予測、罹患予測等が挙げられるが、これらに限られない。

　エラーの属性とは、エラーを分類するための指標又はエラーの分類結果を示す情報であり、一例として、エラーの種類、エラーを複数のグループにグループ分けした各グループを識別する情報、等である。エラーを複数のグループにグループ分けする場合、エラーの種類毎にグループ分けされてもよく、また、複数の種類のエラーがひとつのグループに含まれてもよい。換言すると、ひとつの属性に複数の種類が対応付けられてもよい。

　（分析モデル）
　分析モデルは、対象データＤを分析するためのモデルであり、一例として、機械学習により生成される。分析モデルＭＤ_ｉ´は一例として、年収の予測について回帰分析を行う線形モデルであってもよい。分析モデルの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの２以上の手法が用いられてもよい。

　分析モデルの入力は一例として、対象データＤを含む。分析モデルの出力は一例として、年収の推定結果を示す情報を含む。ただし、分析モデルの入力と出力は上述した例に限られず、他の情報を含んでいてもよい。

　（グループ部）
　グループ部１５は、エラー検出部１４が検出した複数のエラーをエラーの特徴に応じてグループ分けする。グループ部１５によるグループ分けの方法は任意であるが、一例として、エラーの種類毎にグループ分けしてもよく、また、複数の種類のエラーをひとつのグループにまとめてもよい。より具体的には、グループ部１５は一例として、エラー検出部１４の検出手法の種類毎（例えば、ルール毎）にグループ分けを行ってもよい。また、グループ部１５は一例として、スペクトラルクラスタリング等のクラスタリング手法を用いて複数のエラーをクラスタリングしてもよい。

　（評価用データ生成部）
　評価用データ生成部１６は、対象データＤに疑似的なエラーを含めた評価用データＤ_ｉ´（ｉ＝１、２、…、ｎ）をエラー毎又はエラーの属性毎に生成する。ここで、ｎは評価用データＤ_ｉ´の数であり、エラー又はエラーの属性の数である。エラーの属性と評価用データＤ_ｉ´とが１対１で対応する場合、評価用データ生成部１６は一例として、各属性のエラーを疑似的に生成して評価用データＤ_ｉ´に含める。また、エラーと評価用データＤ_ｉ´とが１対１で対応する場合、評価用データ生成部１６は一例として、各エラーに類似するエラーを疑似的に生成して評価用データＤ_ｉ´に含める。

　評価用データＤ_ｉ´の生成の方法は任意であるが、一例として、評価用データ生成部１６は、もともとあったデータを欠損させたり、ハイフンを取り除いたりする、といったルールベースの生成手法により評価用データＤ_ｉ´を生成してもよい。また、他の例として、評価用データ生成部１６は、オートエンコーダ、又は敵対的生成ネットワーク（Generative adversarial network：ＧＡＮ）等の生成モデルにより評価用データＤ_ｉ´を生成してもよい。この場合、生成モデルの入力は一例として対象データＤを含み、出力は一例として評価用データＤ_ｉ´を含む。

　（影響度算出部）
　影響度算出部１７は、影響度をエラー毎又はエラーの属性毎に算出する。より具体的には、影響度算出部１７は一例として、グループ部１５がグループ分けした各グループに対応する属性毎に影響度を算出する。この場合、より具体的には、影響度算出部１７は一例として、評価用データＤ_ｉ´を用いて影響度ｓ_ｉを算出する。

　評価用データＤ_ｉ´を用いる場合、影響度算出部１７は一例として、対象データＤを用いて生成された分析モデルＭＤ_initの性能と、評価用データＤ_ｉ´を用いて生成された分析モデルＭＤ_ｉ´のそれぞれの性能との比較結果に基づき、影響度ｓ_ｉを算出する。影響度ｓ_ｉは一例として、分析モデルの性能の変化の度合い（例えば、変化率）を表す値である。影響度算出部１７がｎ個の評価用データＤ_ｉ´のそれぞれについて影響度ｓ_ｉを算出することにより、ｎ個の影響度ｓ_ｉが得られる。以下では、影響度Ｓ＝｛ｓ_１、ｓ_２、…，ｓ_ｎ｝とする。

　（決定部）
　決定部１３は、算出部１２が算出した影響度Ｓ＝｛ｓ_１、ｓ_２、…，ｓ_ｎ｝に基づいて、対象データＤの中から修正するデータを決定する。より具体的には、決定部１３は一例として、算出部１２が算出した影響度Ｓを用いて、対象データＤに含まれる複数の部分データのそれぞれについて、上記評価指標に対して及ぼす第２の影響度を算出し、算出した部分データ毎の第２の影響度に基づいて、修正する部分データを決定する。ここで、部分データは、対象データＤに含まれるデータであり、一例として、複数のレコードを含むテーブルデータに含まれるレコードである。換言すると、対象データＤが複数のレコードを含むテーブルデータである場合、決定部１３は、一例として、エラーの種類毎に算出された影響度Ｓに基づいて、修正するレコードを決定する。

　（データクレンジング部）
　データクレンジング部１８は、決定部１３が決定したデータを修正する。データクレンジング部１８は一例として、ユーザの操作に応じてデータを修正してもよい。より具体的には、データクレンジング部１８は例えば、修正対象であるデータを表示パネル等の出力装置に出力するとともに、ユーザにより操作される入力装置が入力する情報に基づき、データを修正してもよい。

　また、データクレンジング部１８は一例として、機械学習された学習済モデルによる推論により、データ修正を行ってもよい。この場合、学習済モデルの機械学習の手法は限定されず、一例として、決定木ベース、線形回帰、又はニューラルネットワークの手法が用いられてもよく、また、これらのうちの２以上の手法が用いられてもよい。ここで、学習済モデルの入力は一例として、エラーを含むレコードの属性名及び属性値のセットを含む。また、学習済モデルの出力は一例として、修正後の属性値を含む。ただし、データクレンジング部１８が行うデータクレンジングの手法は上述した例に限られず、他の手法であってもよい。例えば、データクレンジング部１８は、ルールベースによるデータ修正を行ってもよい。

　（評価部）
　評価部１９は、データクレンジング部１８によりエラーが修正された修正後データＤ_cleanを用いて分析モデルＭＤ_cleanを生成し、生成した分析モデルＭＤ_cleanの性能を評価する。ここで、評価部１９は、データクレンジング部１８によりエラーが修正された修正後データＤ_cleanを分析モデルＭＤにより評価した結果が所定の条件を満たす場合に、逐次的な決定処理を停止する。所定の条件は、一例として、分析モデルＭＤ_cleanによる予測結果を示す予測値の平均二乗誤差（ＭＳＥ）が所定の閾値未満である、といった条件である。決定部１３及び評価部１９は本明細書に係る決定手段の一例である。

　（分析結果出力部）
　分析結果出力部２０は、分析結果を示す情報を出力する。分析結果を示す情報は、一例として、修正後データＤ_clean、及び分析モデルＭＤ_cleanの少なくともいずれか一方を含む。また、分析結果を示す情報は、算出部１２が算出した影響度Ｓ、及び部分データ毎の第２の影響度の少なくともいずれか一方を含んでもよい。分析結果出力部２０は、通信部４０Ａを介して接続された他の装置へ分析結果を示す情報を送信することにより、上記情報を出力してもよく、また、入出力部３０Ａを介して接続された出力装置に上記情報を出力してもよい。また、分析結果出力部２０は、記憶部２０Ａ又は他の外部記憶装置へ上記情報を書き込むことにより上記情報を出力してもよい。

　（記憶部）
　記憶部２０Ａは、対象データＤ、評価用データＤ_１´，Ｄ_２´，…，Ｄ_ｎ´、修正後データＤ_clean、分析モデルＭＤ_init、分析モデルＭＤ_１´，ＭＤ_２´，…，ＭＤ_ｎ´、分析モデルＭＤ_clean、を記憶する。以下では、分析モデルＭＤ、分析モデルＭＤ_１´，ＭＤ_２´，…，ＭＤ_ｎ´、分析モデルＭＤ_clean、を各々区別する必要がない場合には、これらを単に「分析モデルＭＤ」ともいう。ここで、分析モデルＭＤが記憶部２０Ａに記憶されているとは、分析モデルＭＤを規定するパラメータが記憶部２０Ａに記憶されていることをいう。

　＜情報処理方法の流れ＞
　図４は、例示的実施形態２に係る情報処理方法の一例である情報処理方法Ｓ１Ａの流れについて、図４を参照して説明する。図４は、情報処理方法Ｓ１Ａの流れを示すフロー図である。

　（ステップＳ１０１）
　ステップＳ１０１において、取得部１１は、対象データＤ及び分析タスクを取得する。この例で、対象データＤは、分析モデルの生成に用いられる訓練データＤ_trainと、分析モデルの性能を評価するためのテストデータＤ_testとを含む。取得部１１は、通信部４０Ａを介して他の装置から対象データＤ及び分析タスクを受信してもよく、また、入出力部３０Ａを介して接続された入力装置から対象データＤ及び分析タスクを取得してもよい。また、取得部１１は、記憶部２０Ａ又は他の外部記憶装置から対象データＤ及び分析タスクを読み出すことにより対象データＤ及び分析タスクを取得してもよい。

　（ステップＳ１０２）
　ステップＳ１０２において、エラー検出部１４は、対象データＤに含まれる複数のエラーを検出し、エラーの場所を示すエラーインデックスを出力する。エラー検出部１４は、一例として、ルールベースの検出手法によりエラーを検出する。また、エラー検出部１４は、機械学習により生成された学習済モデルを用いた推論によりエラーを検出してもよい。

　図５は、エラー検出部１４が検出するエラーの具体例を示す図である。図５の例で、エラー検出部１４は例えば、属性値が欠損している、所定の属性名の属性値が所定の範囲内でない、第１の属性名の属性値と、第２の属性名の属性値とが矛盾している、所定の属性名の属性値のフォーマットが正しくない、といった場合にエラーであると判定する。図５の例では、エラー検出部１４は、対象データＤにおいて、エラーＥ１～Ｅ５を検出する。

　（ステップＳ１０３）
　ステップＳ１０３において、グループ部１５は、エラー検出部１４が検出した複数のエラーを複数のグループにグループ分けし、エラーグループの集合Ｇ＝｛ｇ_１，ｇ_２，…，ｇ_ｎ｝を出力する。

　図６は、グループ部１５によるグループ化の具体例を示す図である。図６の例で、グループ部１５は、複数のエラーＥ１～Ｅ５を、欠損値のグループｇ_１、フォーマットエラーのグループｇ_２、矛盾のグループｇ_３、及び外れ値のグループｇ_４、の４つのグループに分類する。

　（ステップＳ１０４）
　ステップＳ１０４において、評価用データ生成部１６は、グループｇ_１，ｇ_２，…，ｇ_ｎのそれぞれについて、そのグループに属するエラーに類似するエラーを増やし、新たな評価用データＤ_ｉ´を生成する。

　図７は、評価用データＤ_ｉ´の具体例を示す図である。図７の例で、評価用データ生成部１６は、対象データＤに含まれるレコードの属性値の一部を欠損値Ｅ１１に置き換えることにより、欠損値のグループｇ_１に対応する評価用データＤ_１´を生成する。また、評価用データ生成部１６は、対象データＤに含まれるレコードの「郵便番号」の属性値をハイフンを削除した属性値Ｅ１２に置き換えることにより、フォーマットエラーのグループｇ_２に対応する評価用データＤ_２´を生成する。

　（ステップＳ１０５）
　ステップＳ１０５において、影響度算出部１７は、ｎ個の評価用データＤ_ｉ´のそれぞれを訓練データとして分析モデルＭＤ_ｉ´を生成し、生成した分析モデルＭＤ_ｉ´を評価する。本動作例において、分析モデルＭＤ_ｉ´及び分析モデルＭＤ_initはステップＳ１０１で取得部１１が取得した分析タスクに対応するモデルであり、これらは分析タスクに対応する共通の生成手法により生成される。

　影響度算出部１７は一例として、分析モデルを評価する関数ｅｖａｌ（）を用いて、生成した分析モデルＭＤ_ｉ´を評価する。ここで、関数ｅｖａｌ（）は、分析モデルを入力とし、その性能を評価するスコアを出力する関数である。この場合、換言すると、影響度ｓ_ｉは、
ｓ_ｉ＝ｅｖａｌ（ＭＤ_ｉ´）
により算出される。分析の性能評価指標は任意であるが、一例として、上記の回帰分析の際に、ＭＳＥ（平均二乗誤差）を算出してもよく、また、元のデータである対象データＤについて算出されたＭＳＥとの差分を算出してもよい。

　図８は、影響度算出部１７が算出する影響度ｓ_ｉの具体例を説明するための図である。図８の例で、横軸は増やしたエラーの数を示し、縦軸は分析モデルの分析性能を示す。図８の例では、評価用データＤ_４´を用いて生成された分析モデルＭＤ_４´は、元のデータである対象データＤを用いて生成された分析モデルＭＤ_initに対し、性能が０．１下がっている。また、評価用データＤ_３´を用いて生成された分析モデルＭＤ_３´は、分析モデルＭＤ_initに対し、性能が０．２下がっている。また、評価用データＤ_１´を用いて生成された分析モデルＭＤ_１´は、分析モデルＭＤ_initに対し、性能が０．３下がっている。また、評価用データＤ_２´を用いて生成された分析モデルＭＤ_２´は、分析モデルＭＤ_initに対し、性能が０．５下がっている。図８の例では、影響度算出部１７は一例として、分析モデルＭＤ_initに対する分析モデルＭＤ_ｉ´の性能の低下量を影響度として算出する。

　（ステップＳ１０６）
　ステップＳ１０６において、決定部１３は、ｎ個の評価結果（影響度ｓ_ｉ）の集合である影響度Ｓ＝｛ｓ_１，ｓ_２，…，ｓ_ｎ｝を用いて、修正するデータを決定する。この例で、決定部１３の入力は、対象データＤと影響度Ｓとを含む。決定部１３の出力は、データレコードの修正の優先順位Ｉを含む。換言すると、本動作例において、決定部１３は、影響度Ｓに基づいて修正するデータの優先順位を決定する。

　修正データの選択方法は任意であるが、決定部１３は一例として、算出部１２が算出した影響度Ｓを用いて、対象データＤに含まれる複数のレコードのそれぞれについて、上記評価指標に対して及ぼす第２の影響度を算出し、算出したレコード毎の第２の影響度に基づいて、修正するレコードを決定する。

　図９は、決定部１３の決定処理の具体例を示す図である。図９の例では、対象データＤは、レコードｒ１～ｒ３を含む。図９の例では、各レコードに含まれるエラーの属性に対応する影響度ｓ_ｉの総和を、各レコードの第２の影響度として算出する。

　図９の例で、グループｇ１の影響度が「０．３」であり、グループｇ２の影響度が「０．２」であり、グループｇ３の影響度が「０．２」であり、グループｇ４の影響度が「０．１」である場合、レコードｒ１～ｒ３の第２の影響度は以下の値となる。レコードｒ１には、グループｇ２のエラーが２つ含まれるため、レコードｒ１の第２の影響度は、０．５＋０．５＝１である。レコードｒ２には、グループｇ１のエラーとグループｇ４のエラーが１つずつ含まれるため、レコードｒ２の第２の影響度は、０．３＋０．１＝０．４である。レコードｒ３には、グループｇ３のエラーが１つ含まれるため、レコードｒ３の第２の影響度は、０．２である。図９の例において、決定部１３は、第２の影響度の高いレコードを修正するレコードとして決定する。

　（ステップＳ１０７）
　ステップＳ１０７において、データクレンジング部１８は、ステップＳ１０６で決定したデータを修正する。ここで、データクレンジング部１８への入力は一例として、対象データＤと、修正対象であるレコードの順番優先順位Ｉとを含む。データクレンジング部１８の出力は一例として、対象データＤにおいて修正対象であるレコードが修正された修正後データＤ_cleanを含む。

　ステップＳ１０７において、データクレンジング部１８が一度に修正するレコードの数が予め設定されていてもよい。この場合、データクレンジング部１８は、修正対象である複数のレコードの中から、予め設定された数のレコードを優先順位Ｉに基づき選択し、選択したレコードを修正する。

　データクレンジング部１８によるデータの修正方法は任意であるが、データクレンジング部１８は一例として、ユーザがデータを修正するための画面をディスプレイに出力し、ユーザの操作内容に応じてデータを修正してもよい。また、データクレンジング部１８はルールベースの修正手法により修正対象のデータを修正してもよい。また、データクレンジング部１８は機械学習により生成された学習済モデルを用いた推論によりデータを修正してもよい。

　図１０は、データクレンジング部１８によるデータ修正処理の具体例を示す図である。図１０の例で、データクレンジング部１８は、対象データＤに含まれるレコードｒ１の「年齢」の属性値及び「年収」の属性値を修正する。修正後データＤ_cleanは、レコードｒ１が修正された修正後レコードｒ１_cleanを含む。

　（ステップＳ１０８）
　ステップＳ１０８において、評価部１９は、修正後データＤ_cleanを用いて分析モデルＭＤ_cleanを生成し、生成した分析モデルＭＤ_cleanの性能を評価する。評価部１９による評価方法は任意であるが、評価部１９は一例として、年収の予測タスクに対して、線形モデルで年収の予測について回帰分析を行い、予測値の平均二乗誤差（ＭＳＥ）で分析の結果を評価してもよい。

　（ステップＳ１０９）
　ステップＳ１０９において、評価部１９は、評価結果が所定の停止条件を満たすかを判定する。提示条件は一例として、ＭＳＥ（予測誤差）が０．２未満である、といった条件である。評価結果が停止条件を満たす場合（ステップＳ１０９にてＹＥＳ）、評価部１９は処理を終了する。一方、評価結果が停止条件を満たさない場合（ステップＳ１０９にてＮＯ）、評価部１９はステップＳ１０６の処理に戻り、データの修正処理を継続する。

　換言すると、ステップＳ１０６～Ｓ１０９において、決定部１３は、上記優先順位を参照して、修正するデータを逐次的に決定し、評価部１９は、対象データＤにおいて決定部１３が決定したデータが修正された修正後データＤ_cleanの評価結果が所定の目標値を満たす場合に、上記逐次的な決定処理を停止する。

　＜情報処理装置の効果＞
　ところで、大規模データにおいて、全てのエラーを修正してからデータ分析を行うことは現実的ではない。なぜなら、大規模データに含まれる全てのエラーを修正することは、膨大な時間及びコストを要するためである。それに対し本例示的実施形態では、分析タスクに影響が大きいエラーを優先的にクレンジングすることにより、コストを抑えつつ、より精度のよいデータ分析を実現することができる。

　また、従来のデータクレンジング技術では、修正可能なエラー及び適用可能な機械学習モデルが限られるという課題がある。また、修正すべきエラーは、機械学習における分析タスクの種類によって異なることが知られており、分析タスクを考慮にいれたエラー修正を行うことができない。それに対し本例示的実施形態に係る情報処理装置１Ａによれば、エラーの種類毎に機械学習モデル（すなわち分析タスク）に基づく影響度を算出し、修正するべきデータを決定している。そのため、本発明は、エラーの種類に関わらず任意の機械学習モデルに対して、分析タスクを考慮したエラー修正が可能になるという効果を奏する。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、算出部１２は、上記複数のエラーをエラーの特徴に応じてグループ分けした各グループに対応する属性毎に影響度ｓ_ｉを算出する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、エラーの特徴に応じてグループ分されたグループ毎の影響度を加味して修正するデータを決定することができる。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、算出部１２は、対象データＤに疑似的なエラーを含めた評価用データＤ_１´、Ｄ_２´、…、Ｄ_ｎ´を上記エラー毎又はエラーの属性毎に生成し、生成した評価用データＤ_１´、Ｄ_２´、…、Ｄ_ｎ´を用いて影響度Ｓを算出する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、エラー毎又はエラーの属性毎に生成した評価用データを用いて影響度を算出することにより、修正するデータをより精度よく決定することができる。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、算出部１２は、対象データＤを用いて生成された分析モデルＭＤの性能と、評価用データＤ_１´、Ｄ_２´、…、Ｄ_ｎ´を用いて生成された分析モデルＭＤ_１´、ＭＤ_２´、…、ＭＤ_ｎ´のそれぞれの性能との比較結果に基づき、影響度Ｓ＝｛ｓ_１、ｓ_２、…、ｓ_ｎ｝を算出する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、疑似的なエラーを含めた評価用データを用いて生成した分析モデルの性能の変化に基づいて影響度を算出することにより、修正するデータをより精度よく決定することができる。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、決定部１３は、算出部１２が算出した影響度Ｓを用いて、対象データＤに含まれる複数のレコードのそれぞれについて、上記評価指標に対して及ぼす第２の影響度を算出し、算出したレコード毎の第２の影響度に基づいて、修正するレコードを決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、複数のレコードの中から修正するレコードをより好適に選択することができる。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、決定部１３は、影響度Ｓに基づいて修正するデータの優先順位を決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、エラーの影響度に基づいて修正するデータの優先順位を決定することにより、優先順位をより好適に決定することができる。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、決定部１３は、上記優先順位を参照して、修正するデータを逐次的に決定する構成が採用されている。このため、本例示的実施形態に係る情報処理装置１Ａによれば、修正するデータを逐次的に決定する処理をより精度よく行うことができる。

　また、本例示的実施形態に係る情報処理装置１Ａにおいては、決定部１３は、決定したデータが修正された修正後データＤ_cleanの評価結果が所定の目標値を満たす場合に、逐次的な決定処理を停止する構成が採用されている。停止条件を満たすまでクレンジングを繰り返し実行することにより、一定のコストの場合におけるデータ分析の精度を従来よりも高くすることができ、また、一定の精度目標を達成するためのコストを従来よりも低くすることができる、という効果を奏する。このように、本例示的実施形態によれば、データクレンジングに係る処理負荷を抑えつつ、対象データの品質が所定の目標値を満たすデータクレンジングを実現することができる。

　〔ソフトウェアによる実現例〕
　情報処理装置１、１Ａの一部又は全部の機能は、集積回路（ＩＣチップ）等のハードウェアによって実現してもよいし、ソフトウェアによって実現してもよい。

　後者の場合、情報処理装置１、１Ａは、例えば、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータによって実現される。このようなコンピュータの一例（以下、コンピュータＣと記載する）を図１１に示す。コンピュータＣは、少なくとも１つのプロセッサＣ１と、少なくとも１つのメモリＣ２と、を備えている。メモリＣ２には、コンピュータＣを情報処理装置１、１Ａとして動作させるためのプログラムＰが記録されている。コンピュータＣにおいて、プロセッサＣ１は、プログラムＰをメモリＣ２から読み取って実行することにより、情報処理装置１、１Ａの各機能が実現される。

　プロセッサＣ１としては、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphic Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＭＰＵ（Micro Processing Unit）、ＦＰＵ（Floating point number Processing Unit）、ＰＰＵ（Physics Processing Unit）、マイクロコントローラ、又は、これらの組み合わせなどを用いることができる。メモリＣ２としては、例えば、フラッシュメモリ、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又は、これらの組み合わせなどを用いることができる。

　なお、コンピュータＣは、プログラムＰを実行時に展開したり、各種データを一時的に記憶したりするためのＲＡＭ（Random Access Memory）を更に備えていてもよい。また、コンピュータＣは、他の装置との間でデータを送受信するための通信インタフェースを更に備えていてもよい。また、コンピュータＣは、キーボードやマウス、ディスプレイやプリンタなどの入出力機器を接続するための入出力インタフェースを更に備えていてもよい。

　また、プログラムＰは、コンピュータＣが読み取り可能な、一時的でない有形の記録媒体Ｍに記録することができる。このような記録媒体Ｍとしては、例えば、テープ、ディスク、カード、半導体メモリ、又はプログラマブルな論理回路などを用いることができる。コンピュータＣは、このような記録媒体Ｍを介してプログラムＰを取得することができる。また、プログラムＰは、伝送媒体を介して伝送することができる。このような伝送媒体としては、例えば、通信ネットワーク、又は放送波などを用いることができる。コンピュータＣは、このような伝送媒体を介してプログラムＰを取得することもできる。

　〔付記事項１〕
　本発明は、上述した実施形態に限定されるものでなく、請求項に示した範囲で種々の変更が可能である。例えば、上述した実施形態に開示された技術的手段を適宜組み合わせて得られる実施形態についても、本発明の技術的範囲に含まれる。

　〔付記事項２〕
　上述した実施形態の一部又は全部は、以下のようにも記載され得る。ただし、本発明は、以下の記載する態様に限定されるものではない。
　（付記１）
　対象データを取得する取得手段と、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出手段と、前記算出手段が算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定手段と、を備える情報処理装置。

　（付記２）
　前記算出手段は、前記複数のエラーをエラーの特徴に応じてグループ分けした各グループに対応する属性毎に前記影響度を算出する、付記１に記載の情報処理装置。

　（付記３）
　前記算出手段は、前記対象データに疑似的なエラーを含めた評価用データを前記エラー毎又は前記エラーの属性毎に生成し、生成した評価用データを用いて前記影響度を算出する、付記１又は２に記載の情報処理装置。

　（付記４）
　前記算出手段は、前記対象データを用いて生成された機械学習モデルの性能と、前記評価用データを用いて生成された機械学習モデルのそれぞれの性能との比較結果に基づき、前記影響度を算出する、付記３に記載の情報処理装置。

　（付記５）
　前記決定手段は、前記算出手段が算出した前記影響度を用いて、前記対象データに含まれる複数の部分データのそれぞれについて、前記評価指標に対して及ぼす第２の影響度を算出し、算出した部分データ毎の第２の影響度に基づいて、修正する部分データを決定する、付記１から４のいずれか１つに記載の情報処理装置。

　（付記６）
　前記決定手段は、前記影響度に基づいて修正するデータの優先順位を決定する、付記１から５のいずれか１つに記載の情報処理装置。

　（付記７）
　前記決定手段は、前記優先順位を参照して、修正するデータを逐次的に決定する、付記６に記載の情報処理装置。

　（付記８）
　前記決定手段は、決定したデータが修正された修正後データの評価結果が所定の目標値を満たす場合に、逐次的な決定処理を停止する、付記７に記載の情報処理装置。

　（付記９）
　少なくとも１つのプロセッサが、対象データを取得することと、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出することと、前記算出した影響度に基づいて、前記対象データの中から修正するデータを決定することと、を含む情報処理方法。

　（付記１０）
　コンピュータを、対象データを取得する取得手段と、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出手段と、前記算出手段が算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定手段と、として機能させるプログラム。

　〔付記事項３〕
　上述した実施形態の一部又は全部は、更に、以下のように表現することもできる。
　少なくとも１つのプロセッサを備え、前記プロセッサは、対象データを取得する取得処理と、前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出処理と、前記算出処理において算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定処理とを実行する情報処理装置。

　なお、この情報処理装置は、更にメモリを備えていてもよく、このメモリには、前記取得処理と、前記算出処理と、前記決定処理とを前記プロセッサに実行させるためのプログラムが記憶されていてもよい。また、このプログラムは、コンピュータ読み取り可能な一時的でない有形の記録媒体に記録されていてもよい。

１、１Ａ　情報処理装置
１１　取得部
１２　算出部
１３　決定部

Claims

　対象データを取得する取得手段と、
　前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出手段と、
　前記算出手段が算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定手段と、
を備える情報処理装置。
　前記算出手段は、前記複数のエラーをエラーの特徴に応じてグループ分けした各グループに対応する属性毎に前記影響度を算出する、
請求項１に記載の情報処理装置。
　前記算出手段は、前記対象データに疑似的なエラーを含めた評価用データを前記エラー毎又は前記エラーの属性毎に生成し、生成した評価用データを用いて前記影響度を算出する、
請求項１又は２に記載の情報処理装置。
　前記算出手段は、前記対象データを用いて生成された機械学習モデルの性能と、前記評価用データを用いて生成された機械学習モデルのそれぞれの性能との比較結果に基づき、前記影響度を算出する、
請求項３に記載の情報処理装置。
　前記決定手段は、
　前記算出手段が算出した前記影響度を用いて、前記対象データに含まれる複数の部分データのそれぞれについて、前記評価指標に対して及ぼす第２の影響度を算出し、
　算出した部分データ毎の第２の影響度に基づいて、修正する部分データを決定する、
請求項１又は２に記載の情報処理装置。
　前記決定手段は、前記影響度に基づいて修正するデータの優先順位を決定する、
請求項１又は２に記載の情報処理装置。
　前記決定手段は、前記優先順位を参照して、修正するデータを逐次的に決定する、
請求項６に記載の情報処理装置。
　前記決定手段は、決定したデータが修正された修正後データの評価結果が所定の目標値を満たす場合に、逐次的な決定処理を停止する、
請求項７に記載の情報処理装置。
　少なくとも１つのプロセッサが、
　対象データを取得することと、
　前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出することと、
　前記算出した影響度に基づいて、前記対象データの中から修正するデータを決定することと、
を含む情報処理方法。
　コンピュータを、
　対象データを取得する取得手段と、
　前記対象データに含まれる複数のエラーが機械学習モデルの評価指標に対して及ぼす影響度を、前記エラー毎又は前記エラーの属性毎に算出する算出手段と、
　前記算出手段が算出した影響度に基づいて、前記対象データの中から修正するデータを決定する決定手段と、
として機能させるプログラム。