WO2021200392A1

WO2021200392A1 - データ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置

Info

Publication number: WO2021200392A1
Application number: PCT/JP2021/011944
Authority: WO
Inventors: 鈴木　健二
Original assignee: ソニーグループ株式会社
Priority date: 2020-03-31
Filing date: 2021-03-23
Publication date: 2021-10-07
Also published as: JPWO2021200392A1; US20230115987A1

Abstract

本開示に係るデータ調整システムは、情報処理装置と、端末装置とを有し、情報処理装置は、ニューラルネットワークの学習に用いられた学習データが前記学習に与えた影響度を測定する測定部と、前記影響度が低いと測定されたデータを除外し、前記影響度が高いと測定されたデータに対応する新たなデータである新規データを端末装置、またはデータベースから取得し、取得した前記新規データを追加することにより、前記学習セットを調整する調整部と、を備える。

Description

データ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置

　本開示は、データ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置に関する。

　様々な技術分野において、機械学習（単に「学習」ともいう）を利用した情報処理が活用されており、ニューラルネットワーク等のモデルを学習する技術が提供されてきている。このような学習においては、学習されるニューラルネットワーク等のモデル等の性能に学習に用いるデータが影響するため、学習に用いるデータが重要であり、学習に用いるデータに関する技術が提供されている（例えば、特許文献１参照）。

特開２０１９－１７９４５７号公報

　従来技術によれば、欠落した値を候補値から補完したデータを用いて学習を行う。

　しかしながら、従来技術は、適切なデータを用いて学習することができるとは限らない。例えば、従来技術では、欠落した値は無いが学習に適していないデータが用いられる場合、そのデータがそのまま用いられるため、所望の性能を有するニューラルネットワーク等のモデルを学習することができない場合がある。このように、従来技術では、学習に用いるデータに欠落した値がないかは考慮しているが、学習に用いるデータ自体が学習に適しているかという点については考慮されていない。そのため、学習に用いるデータを調整可能にすることが望まれている。

　そこで、本開示では、学習に用いるデータを調整可能にすることができるデータ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置を提案する。

　上記の課題を解決するために、本開示に係る一形態のデータ調整システムは、情報処理装置と、端末装置とを有し、情報処理装置は、ニューラルネットワークの学習に用いられた学習データが前記学習に与えた影響度を測定する測定部と、前記影響度が低いと測定されたデータを除外し、前記影響度が高いと測定されたデータに対応する新たなデータである新規データを端末装置、またはデータベースから取得し、取得した前記新規データを追加することにより、前記学習データを調整する調整部と、を備える。

本開示の実施形態に係るデータ調整処理の一例を示す図である。本開示の実施形態に係るデータ調整処理の概念図である。本開示の実施形態に係るデータ調整システムの構成例を示す図である。本開示の実施形態に係るデータ調整装置の構成例を示す図である。本開示の実施形態に係るデータ情報記憶部の一例を示す図である。本開示の実施形態に係るモデル情報記憶部の一例を示す図である。本開示の実施形態に係る閾値情報記憶部の一例を示す図である。モデルに対応するネットワークの一例を図である。本開示の実施形態に係る端末装置の構成例を示す図である。本開示の実施形態に係るデータ調整装置の処理を示すフローチャートである。本開示の実施形態に係るデータ調整システムの処理手順を示すシーケンス図である。影響度に基づくデータ調整及び学習の処理の一例を示すフローチャートである。データ調整装置や端末装置等の情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。

　以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、この実施形態により本願にかかるデータ調整システム、データ調整装置、データ調整方法、端末装置及び情報処理装置が限定されるものではない。また、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　以下に示す項目順序に従って本開示を説明する。
　　１．実施形態
　　　１－１．本開示の実施形態に係るデータ調整処理の概要
　　　　１－１－１．背景及び効果
　　　　１－１－２．データ調整システムの概念
　　　　１－１－３．Influence　function（影響関数）
　　　　１－１－４．Bayesian　Deep　Learning
　　　　１－１－５．その他（ＧＡＮ、Ｇｒａｄ－ＣＡＭ、ＬＩＭＥ等）
　　　１－２．実施形態に係るデータ調整システムの構成
　　　１－３．実施形態に係るデータ調整装置の構成
　　　　１－３－１．モデル（ネットワーク）例
　　　１－４．実施形態に係る端末装置の構成
　　　１－５．実施形態に係る情報処理の手順
　　　　１－５－１．データ調整装置に係る処理の手順
　　　　１－５－２．データ調整システムに係る処理の手順
　　　１－６．影響度に基づくデータ調整例
　　　　１－６－１．調整の具体例
　　２．その他の実施形態
　　　２－１．その他の構成例
　　　２－２．その他
　　３．本開示に係る効果
　　４．ハードウェア構成

［１．実施形態］
［１－１．本開示の実施形態に係るデータ調整処理の概要］
　図１は、本開示の実施形態に係るデータ調整処理の一例を示す図である。本開示の実施形態に係るデータ調整処理は、データ調整装置１００や端末装置１０を含むデータ調整システム１によって実現される。図１では、データ調整システム１によって実現されるデータ調整処理の概要を説明する。図１は、本開示の実施形態に係るデータ調整処理の一例を示す図である。

　データ調整装置１００は、機械学習によるモデルの学習に用いられた学習データから所定のデータを除外すること、または、学習データに新たなデータを追加することにより、学習データを調整する情報処理装置である。図１では、データ調整装置１００は、ディープニューラルネットワーク（ＤＮＮ：Deep　Neural　Network）の学習に用いられたデータセットのデータを調整する処理を実行する場合を一例として示す。データ調整装置１００は、画像認識を行うＤＮＮである識別モデル（以下、単に「モデル」ともいう）を、データセットを用いて学習する学習処理を実行する。なお、以下では、ディープニューラルネットワーク（ＤＮＮ）を単にニューラルネットワーク（ＮＮ：Neural　Network）と記載する場合がある。図１では、データ調整装置１００は、笑顔検出に用いるモデルを学習する場合を一例として説明する。なお、データ調整装置１００が学習するモデルの用途は笑顔検出に限らず、データ調整装置１００は、学習するモデルの目的や用途に応じて、例えば物体認識や感動検出等の種々の用途に用いられるモデルを学習する。

　また、図１では、データ調整装置１００の要求に応じてデータ調整装置１００にデータを提供する端末装置１０の一例として、データ調整装置１００の要求に対応するデータを有するデータサーバや、データ調整装置１００の要求に対応するデータ（画像）を撮像するカメラを示す。なお、端末装置１０は、データ調整装置１００が要求するデータをデータ調整装置１００に提供可能であれば、データサーバやカメラに限らず、種々の装置であってもよい。例えば、端末装置１０は、ドローン等のＵＡＶ（Unmanned　Aerial　Vehicle）や自動車等の車両等である移動体や、イメージセンサ（イメージャ）であってもよいが、この点についての詳細は後述する。

　ここから、図１に示す処理の概要を説明する。まず、図１の例では、データ調整装置１００は、データセットＤＳ１を用いて、笑顔検出に用いるニューラルネットワークであるモデルＭ１を学習する（ステップＳ１）。例えば、データ調整装置１００は、データ情報記憶部１２１（図５参照）に記憶されたデータセットＤＳ１を用いて、モデルＭ１を学習する。図１では、データセットＤＳ１中の各マス目がデータ（画像）を示し、データセットＤＳ１には多数のデータ（画像）が含まれることを示す。

　図１の例では、データ調整装置１００は、モデル情報記憶部１２２（図６参照）に記憶されたモデルＭ１に対応するネットワーク（ニューラルネットワーク等）の構造を設計する。データ調整装置１００は、笑顔検出に用いるモデルＭ１のネットワークの構造（ネットワーク構造）を設計する。例えば、データ調整装置１００は、予め記憶部１２０（図４参照）に記憶された各用途に対応するネットワークの構造に関する情報を基に、笑顔検出に用いるモデルＭ１のネットワークの構造を生成してもよい。例えば、データ調整装置１００は、笑顔検出に用いるモデルＭ１のネットワークの構造情報を、外部装置から取得してもよい。

　例えば、データ調整装置１００は、各データ（画像）に笑顔の有無を示す正解ラベルが対応付けられたデータセットＤＳ１を用いて、モデルＭ１を学習する。データ調整装置１００は、データセットＤＳ１を用いて、設定した損失関数（ロス関数）を最小化するように学習処理を行い、モデルＭ１を学習する。データ調整装置１００は、後述する測定処理において各データの影響度が測定可能であれば、種々の関数を損失関数として用いてもよい。なお、Influence　function（影響関数）での損失関数に関しては後述する。

　例えば、データ調整装置１００は、データの入力に対して出力層が正しい値となるように、重みとバイアス等のパラメータを更新することにより、モデルＭ１を学習する。例えば、誤差逆伝播法においては、ニューラルネットワークに対して、出力層の値がどれだけ正しい状態（正解ラベル）から離れているかを示す損失関数を用いて、最急降下法等を用いて、損失関数が最小化するように、重みやバイアスの更新が行われる。例えば、データ調整装置１００は、入力値（データ）をニューラルネットワーク（モデルＭ１）に与え、その入力値を基にニューラルネットワーク（モデルＭ１）が予測値を計算し、予測値と教師データ（正解ラベル）を比較して誤差を評価する。そして、データ調整装置１００は、得られた誤差を基にニューラルネットワーク（モデルＭ１）内の結合荷重（シナプス係数）の値を逐次修正することにより、モデルＭ１の学習および構築を実行する。なお、上記は一例であり、データ調整装置１００は、種々の方法によりモデルＭ１の学習処理を行ってもよい。

　そして、データ調整装置１００は、データセットＤＳ１中の各データがモデルＭ１の学習に与えた影響度を測定する。データ調整装置１００は、影響度を測定する手法（測定手法ＭＭ１）を用いて、データセットＤＳ１中の各データがモデルＭ１の学習に与えた影響度を測定する。ここでいう影響度は、値が大きいほど、そのデータがモデルＭ１の学習に寄与した度合い（寄与度）が高いことを示す。影響度の値が大きい、すなわち影響度が高いほど、モデルＭ１の識別精度の向上に寄与していることを示す。このように、影響度が高いほど、そのデータがモデルＭ１の学習に必要なデータであることを示す。例えば、影響度が高いほど、そのデータがモデルＭ１の学習に有益なデータであることを示す。

　また、影響度は、値が小さいほど、そのデータがモデルＭ１の学習に寄与した度合い（寄与度）が低いことを示す。影響度の値が小さい、すなわち影響度が低いほど、モデルＭ１の識別精度の向上に寄与していないことを示す。このように、影響度が低いほど、そのデータがモデルＭ１の学習に不要なデータであることを示す。例えば、影響度が低いほど、そのデータがモデルＭ１の学習に有害なデータであることを示す。

　図１では、測定手法ＭＭ１の一例として、Influence　function（Influence　functions）が用いられる場合を示すが、Influence　functionについては後述する。なお、データ調整装置１００が影響度の測定に用いる測定手法ＭＭ１は、各データの影響度を示す値が取得可能であれば、Influence　functionに限らずどのような手法が用いられてもよい。例えば時間や処理リソースに余裕がある場合、データ調整装置１００は、データを一つずつ外して再学習する処理により、各データの影響度を測定してもよい。この場合、データ調整装置１００は、データセットＤＳ１から１つのデータ（データＸ）を除外して再学習する処理により、データＸの影響度を測定してもよい。例えば、データ調整装置１００は、データセットＤＳ１全体を用いた場合の学習でのロスと、データセットＤＳ１からデータＸを除いた場合の学習でのロスとの差分を、データＸの影響度をして測定してもよい。なお、上記は一例であり、データ調整装置１００は、Influence　functionや上記の手法以外の他の手法を用いて、各データの影響度をして測定してもよい。

　図１では、データ調整装置１００は、データセットＤＳ１中のデータＤＴ１４がモデルＭ１の学習に与えた影響度を測定する（ステップＳ２）。データ調整装置１００は、測定結果ＲＳ１に示すように、データＤＴ１４がモデルＭ１の学習に与えた影響度を影響度ＩＶ１４と測定する。なお、影響度ＩＶ１４は、具体的な値（例えば０．２等）であるものとする。

　そして、データ調整装置１００は、データＤＴ１４の影響度ＩＶ１４に基づいて、データセットＤＳ１を調整する（ステップＳ３）。まず、データ調整装置１００は、データＤＴ１４の影響度ＩＶ１４に基づいて、データＤＴ１４がモデルＭ１の学習に必要であるかを判別する。例えば、データ調整装置１００は、閾値情報記憶部１２３（図７参照）に記憶された閾値を用いて、データＤＴ１４がモデルＭ１の学習に必要であるかを判別する。

　例えば、データ調整装置１００は、影響度が低い、すなわち寄与度が低いデータ（「第１データ」ともいう）の判別に用いられる閾値（第１閾値ＴＨ１）を用いて、データＤＴ１４がモデルＭ１の学習に必要であるかを判別する。データ調整装置１００は、データＤＴ１４の影響度ＩＶ１４と、第１閾値ＴＨ１とを比較し、影響度ＩＶ１４が第１閾値ＴＨ１よりも低い場合、データＤＴ１４がモデルＭ１の学習に不要であると判別する。

　図１では、データ調整装置１００は、データＤＴ１４の影響度ＩＶ１４が第１閾値ＴＨ１よりも低いため、データＤＴ１４がモデルＭ１の学習に不要であると判別する。そのため、データ調整装置１００は、判別結果ＤＲ１に示すように、データＤＴ１４のモデルＭ１の学習への寄与度が低いと判別して、データＤＴ１４をデータセットＤＳ１から除外すると決定する。そして、データ調整装置１００は、データＤＴ１４をデータセットＤＳ１から除外することにより、データセットＤＳ１を調整する。これにより、データ調整装置１００は、データセットＤＳ１を更新する。

　また、図１では、データ調整装置１００は、データセットＤＳ１中のデータＤＴ３３がモデルＭ１の学習に与えた影響度を測定する（ステップＳ４）。データ調整装置１００は、測定結果ＲＳ２に示すように、データＤＴ３３がモデルＭ１の学習に与えた影響度を影響度ＩＶ３３と測定する。なお、影響度ＩＶ３３は、具体的な値（例えば０．７等）であるものとする。

　そして、データ調整装置１００は、データＤＴ３３の影響度ＩＶ３３に基づいて、データセットＤＳ１を調整する（ステップＳ５）。まず、データ調整装置１００は、データＤＴ３３の影響度ＩＶ３３に基づいて、データＤＴ３３がモデルＭ１の学習に必要であるかを判別する。例えば、データ調整装置１００は、閾値情報記憶部１２３に記憶された閾値を用いて、データＤＴ３３がモデルＭ１の学習に必要であるかを判別する。図１では、データ調整装置１００は、データＤＴ３３の影響度ＩＶ３３が第１閾値ＴＨ１以上であるため、データＤＴ３３がモデルＭ１の学習に不要ではないと判別する。

　そして、データ調整装置１００は、影響度が高い、すなわち寄与度が高いデータ（「第２データ」ともいう）の判別に用いられる閾値（第２閾値ＴＨ２）を用いて、データＤＴ３３がモデルＭ１の学習に必要であるかを判別する。なお、第２閾値ＴＨ２は、第１閾値ＴＨ１よりも大きい値である。データ調整装置１００は、データＤＴ３３の影響度ＩＶ３３と、第２閾値ＴＨ２とを比較し、影響度ＩＶ３３が第２閾値ＴＨ２よりも高い場合、データＤＴ３３がモデルＭ１の学習に必要であると判別する。

　図１では、データ調整装置１００は、データＤＴ３３の影響度ＩＶ３３が第２閾値ＴＨ２よりも高いため、データＤＴ３３がモデルＭ１の学習に必要であると判別する。そのため、データ調整装置１００は、判別結果ＤＲ２に示すように、データＤＴ３３のモデルＭ１の学習への寄与度が高いと判別して、データＤＴ３３に対応するデータをデータセットＤＳ１に追加すると決定する。そして、データ調整装置１００は、データＤＴ３３に対応するデータをデータセットＤＳ１に追加することにより、データセットＤＳ１を調整する。これにより、データ調整装置１００は、データセットＤＳ１を更新する。

　図１では、データ調整装置１００は、データＤＴ３３に対応するデータを端末装置１０に要求する（ステップＳ６）。データ調整装置１００は、データＤＴ３３に対応するデータ（「新規データ」ともいう）を要求する要求情報を端末装置１０へ送信する。データ調整装置１００は、データＤＴ３３に類似する新規データを端末装置１０に要求する。データ調整装置１００は、データＤＴ３３を示す情報を端末装置１０に送信することにより、データＤＴ３３に類似するデータを端末装置１０に要求する。例えば、データ調整装置１００は、データＤＴ３３を端末装置１０に送信することにより、データＤＴ３３に類似するデータを端末装置１０に要求する。

　データ調整装置１００からの要求を受信した端末装置１０は、要求情報に対応するデータを収集する（ステップＳ７）。端末装置１０は、データＤＴ３３に類似するデータを、データ調整装置１００に提供するデータ（「提供用データ」ともいう）として収集する。

　例えば、端末装置１０がデータサーバである場合、端末装置１０は、保有するデータ群から要求情報に対応するデータを抽出することにより、要求情報に対応するデータを収集する。例えば、端末装置１０は、保有するデータベースからデータＤＴ３３に類似するデータを抽出することにより、要求情報に対応するデータを収集する。例えば、端末装置１０は、データＤＴ３３と、データベース中の各データとを比較し、データＤＴ３３との類似度が所定の閾値以内であるデータを提供用データとして抽出する。例えば、端末装置１０は、画像の類似度を出力するモデルを用いて、データＤＴ３３と、データベース中の各データとの類似度を算出し、データＤＴ３３との類似度が所定の閾値以内であるデータを提供用データとして抽出してもよい。

　また、例えば、端末装置１０がカメラである場合、端末装置１０は、撮像したデータのうち、要求情報に対応するデータを抽出することにより、要求情報に対応するデータを収集する。例えば、端末装置１０は、撮像した複数の画像（データ）からデータＤＴ３３に類似するデータを抽出することにより、要求情報に対応するデータを収集する。例えば、端末装置１０は、データＤＴ３３と、撮像した各画像とを比較し、データＤＴ３３との類似度が所定の閾値以内であるデータを提供用データとして抽出する。なお、端末装置１０は、データＤＴ３３に類似する画像を撮像するように制御されてもよい。この場合、端末装置１０は、データＤＴ３３に類似する画像を撮像し、その画像を提供用データとして収集する。

　そして、端末装置１０は、提供用データをデータ調整装置１００へ提供する（ステップＳ８）。端末装置１０は、収集したデータＤＴ３３に類似するデータを、提供用データとしてデータ調整装置１００へ送信する。

　端末装置１０から提供用データを取得したデータ調整装置１００は、取得した提供用データをデータセットＤＳ１に追加する（ステップＳ９）。これにより、データ調整装置１００は、寄与度が高いデータＤＴ３３に類似するデータをデータセットＤＳ１に追加する。

　なお、図１では、データ調整装置１００が端末装置１０から追加する新規データを取得し、データセットＤＳ１に追加する場合を示したが、データ調整装置１００は、どのような手段により取得した新規データをデータセットＤＳ１に追加してもよい。

　例えば、データ調整装置１００は、記憶部１２０からデータＤＴ３３に対応するデータ（新規データ）を取得し、取得したデータセットＤＳ１に追加してもよい。この場合、データ調整装置１００は、データセットＤＳ１に含まれないデータのうち、データＤＴ３３に類似するデータを記憶部１２０から取得（抽出）し、取得（抽出）したデータをデータセットＤＳ１に追加する。このように、データ調整装置１００は、データセットＤＳ１のうち、寄与度が高いデータ（第２データ）に類似するデータを、記憶部１２０から取得し、データセットＤＳ１に追加してもよい。

　また、例えば、データ調整装置１００は、データＤＴ３３に対応するデータを生成し、生成したデータ（新規データ）をデータセットＤＳ１に追加してもよい。この場合、データ調整装置１００は、データＤＴ３３に類似するデータを生成し、生成したデータをデータセットＤＳ１に追加してもよい。例えば、データ調整装置１００は、データ拡張等の種々の技術を適宜用いてデータＤＴ３３に類似するデータを生成し、生成したデータをデータセットＤＳ１に追加する。このように、データ調整装置１００は、データセットＤＳ１のうち、寄与度が高いデータ（第２データ）に類似するデータを生成し、生成したデータをデータセットＤＳ１に追加してもよい。

　なお、図１では、説明のためにデータＤＴ１４、ＤＴ３３の２つのデータに対する処理のみを示すが、データ調整装置１００は、データセットＤＳ１中の全データに対して同様の処理を実行する。例えば、データ調整装置１００は、データセットＤＳ１中の全データについて、影響度を測定する。そして、データ調整装置１００は、寄与度が低いデータをデータセットＤＳ１から除外する。また、データ調整装置１００は、寄与度が高いデータに類似するデータをデータセットＤＳ１に追加する。これにより、データ調整装置１００は、データセットＤＳ１を調整する調整処理を実行する。

　そして、データ調整装置１００は、調整後のデータセットＤＳ１を用いて、モデルＭ１を再度学習する（ステップＳ１０）。例えば、データ調整装置１００は、データＤＴ１４等の寄与度が低いデータが除外され、データＤＴ３３等の寄与度が高いデータに類似するデータが追加された調整後のデータセットＤＳ１を用いて、モデルＭ１を再度学習する。

　上述したように、データ調整装置１００は、寄与度が低いデータをデータセットＤＳ１から除外し、寄与度が高いデータに類似するデータをデータセットＤＳ１に追加することで、データセットＤＳ１を調整する調整処理を実行する。このように、データ調整装置１００は、各データの学習への寄与度に応じて、データの除外や追加を行うことにより、学習に用いるデータを調整することができる。

　また、データ調整装置１００は、寄与度が高いデータに対応するデータを追加する場合、そのデータを端末装置１０に要求する。そして、要求を受けた端末装置１０は、要求に対応するデータを提供用データとしてデータ調整装置１００に提供する。これにより、端末装置１０は、学習に用いるデータを調整可能にすることができる。

　上述のように、データ調整システム１は、寄与度が低いデータをデータセットから除外したり、寄与度が高いデータに対応するデータをデータセットに追加したりすることで、学習に用いるデータを調整可能にすることができる。

［１－１－１．背景及び効果等］
　ここで、上述したデータ調整システム１の背景や効果等について説明する。ディープラーニングによって、人間の能力を超える予測が実現されている。しかしながら、人工知能の判断根拠を知ることができず、ブラックボックスによる判断がされている。ディープラーニングの精度を上げるには、大量のデータを必要とする問題点がある。近年、その判断根拠の解明についての研究が盛んとなってきた。そのディープラーニングの判断理由は、結果から原因を探ることである。このような科学的なアプローチをもって、ディープラーニングの精度の向上に必要なデータとは何かを理解することができる可能性がある。

　従来まで、人工知能は高度な性能を持つが、ブラックボックスと言われてきた。ディープラーニングは、人間のニューロンを模倣した構造を持ち、非常に多くのパラメータを最適化することでモデルが形成され、その複雑さから、説明することは困難である。近年、説明可能な人工知能の研究が盛んになり、様々なアルゴリズムが提案されている。学術レベルでの研究に留まり、実用的なシステムへの展開が遅れている。

　ディープラーニングが判断した結果から原因を探ることによって、必要なデータを選定することができる。有害なデータや有益なデータの選別、未学習によるデータ不足、ノイズによる推定の限界、ミスラベルデータの検出などの技術を用いることによって、ディープラーニングにおけるデータを選別することができる。これらの作業を人間が調整することは非常に大変な作業である。そこで、データ調整システム１のような学習用データを自ら再調整するシステムは、誤判定データからその原因を突き止め、最適な再学習用データセットを自動で準備する。データ調整システム１においては、調整されたデータセットを用いて再学習が実行され、これらがループによって繰り返されることによって、更なる予測精度の向上をすることができる。この点についての説明を、以下で図２を用いて行う。

［１－１－２．データ調整システムの概念］
　図２は、本開示の実施形態に係るデータ調整処理の概念図である。図２中の処理ＰＳは、データ調整システム１により実現される自動データ調整の処理の全体的な概念図を示す。以下に示すデータ調整システム１が処理の主体として記載されている処理については、データ調整装置１００や端末装置１０等のデータ調整システム１に含まれるいずれの装置が行ってもよい。

　まず、図２中の処理ＰＳの全体的な処理概要を説明する。データ調整システム１による処理ＰＳにおいては、図２中の学習ＬＮに示すように、データセットＤＳを用いてニューラルネットワークであるモデルＮＮを学習する処理が行われる。データ調整システム１による処理ＰＳにおいては、図２中の入力ＩＮに示すように、学習されたモデルＮＮにデータＴＤ等のテストデータが入力される。

　そして、データ調整システム１による処理ＰＳにおいては、図２中の出力ＯＵＴに示すように、テストデータの入力に応じて、モデルＮＮから出力（識別結果）が得られる。そして、データ調整システム１による処理ＰＳにおいては、モデルＮＮから出力（識別結果）が誤り（誤認識）である場合、その情報をフィードバックすることにより、学習を行う。

　以下、各処理を個別に説明する。データ調整システム１は、誤判定（誤認識）が起きたデータにおいて、その原因を特定する。例えば、データ調整システム１は、手法ＭＴ１に示すように、Influence　functionによって、有害なデータなのか、有益なデータを振分ける（分類する）。データ調整システム１は、有害なデータを取り除くことによって、ディープラーニングのロス関数を最小化するように演算ループを繰り返す。

　例えば、Influence　functionは、最適なモデルを選定することもできる。データはモデルによって精度が異なる。例えば、有害なデータ分布が少ないモデルを自動的に選択するように、データ調整システム１を構成してもよい。

　例えば、データ調整システム１は、手法ＭＴ２に示すように、Bayesian　DNNによる、データの不足が原因で精度がでていない場合を判別する（知る）ことができる。この場合、データ調整システム１は、必要とするデータを、データレイクから自動的に補充したうえで、再学習することで精度を向上することができる。また、例えば、データ調整システム１は、手法ＭＴ３に示すように、ＧＡＮ（Generative　Adversarial　Network：敵対的生成ネットワーク）によってデータを生成することよってデータを補完することもできる。なお、Bayesian　DNNやＧＡＮについての詳細は、後述する。

　また、Bayesian　DNNは、ノイズなどによって、これ以上学習をしても精度が望めない場合を判別する（知る）ことができる技術である。データ調整システム１は、上記のような学習ループを回すことによって精度がある程度向上した後に、これ以上精度が上がらない限界を人間に通知する（知らせる）ことができる。

　データ調整システム１において、判断の根拠は、Ｇｒａｄ－ＣＡＭ（Gradient-weighted　Class　Activation　Mapping）やＬＩＭＥ（Local　Interpretable　Model-agnostic　Explanations）などにおいて、何が原因となっているのかを可視化することによって、人間が判断理由を知ることができる。なお、Ｇｒａｄ－ＣＡＭやＬＩＭＥについての詳細は、後述する。このように、データ調整システム１は、例えばディープラーニングの学習でデータ自動調整が一体化した自己成長型の学習システムである。

　上述のように、データ調整システム１は、ディープラーニングによって学習されたネットワークへテストデータを入れる。データ調整システム１は、誤判定の場合に、その原因を突き止めることによって、データを自動的に調整するシステムである。データ調整システム１は、調整されたデータによって、再度学習しネットワークを生成する。データ調整システム１は、テストをして、まだ残っている誤判定の原因を解明する。データ調整システム１は、精度が向上にするように、データを自動的に調整し再学習するループを繰り返す。データ調整システム１は、これらの原因解明技術において、Influence　functionやBayesian　DNNなどを用いて、有益・有害データ判定、未学習・限界の特定を行う。このように、データ調整システム１は、データ・ディープラーニングを一体化した点に特徴がある。

　例えば、データ調整システム１によって、大量のデータを必要とするディープラーニングにおいて、品質の良いデータが自動的に選定されて、精度の向上をすることができる。データ調整システム１は、人間がデータを勘で調整することなく、科学的な原因を特定することによって、精度を向上すべきデータを自動選定することができる。データ調整システム１は、ループシステムであるので、人間の作業を介さずに、コンピュータに任せて演算をさせておくことで精度が向上できる。

［１－１－３．Influence　function（影響関数）］
　ここから、データ調整システム１における各手法について記載する。まず、Influence　functionについて記載する。データ調整システム１は、Influence　functionにより、データセット中の各データが生成するモデル（パラメータ）に与える影響を定量的に解析する。例えば、データ調整システム１は、Influence　function（影響関数）を用いて、ある（学習）データの有無がモデルの精度（出力結果）に与える影響を定式化する。例えば、データ調整システム１は、影響の測定対象となる各データを除いたデータセットを用いた再学習無しで、各データが学習に与えた影響度を測定する。以下、Influence　function（影響関数）を用いた影響度の測定について、数式などを用いて記載する。

　Influence　functionは、例えば、機械学習のブラックボックスモデルを説明する方法としても用いられる。

　なお、Influence　functionについては例えば下記の文献に開示されている。
　・Understanding　Black-box　Predictions　via　Influence　Functions,　　Pang　Wei　Kho　and　Percy　Liang　<https://arxiv.org/abs/1703.04730>

　データ調整システム１は、Influence　functionを用いることで、機械学習へのデータの寄与度を計算することができ、あるデータがどのくらいの好影響又は悪影響を与えているのかを測定する（知る）ことができる。例えば、データ調整システム１は、以下に示すように、アルゴリズムやデータ等によって影響度を算出（測定）する。以下では、画像を入力データとする場合を一例として説明する。

　例えば、入力ｘ（画像）、を出力ｙ（ラベル）による機械学習における予測問題として捉える。各画像にはラベルが振られている、すなわち画像と正解ラベルとが対応付けられている。例えばｎ個（ｎは任意の自然数）の画像とラベルのセット（データセット）があるとすると、それぞれのラベル付き画像ｚ（単に「画像ｚ」と記載する場合がある）は、以下の式（１）のようになる。

　ここで、ある点ｚ（画像ｚ）におけるモデルのパラメータθ∈Θでの損失をＬ（ｚ，θ）とすると、全てのｎ個データでの経験損失は、以下の式（２）のように表すことができる。

　そして、この経験損失の最小化は、損失を最小化するパラメータを見つける（決定する）ことを意味するので、以下の式（３）のように表せる。

　例えば、データ調整システム１は、式（３）を用いて損失を最小化するパラメータ（（式（３）の左辺））を算出する。ここで、経験損失は、二階微分が可能であり、パラメータθに対して凸関数であると仮定する。以下、機械学習モデルのトレーニングポイントであるデータの影響度を理解することを目標として、どのように計算をするのかを示していく。仮に、あるトレーニングポイントのデータが無い場合、機械学習モデルにどのような影響を与えるのかを考えていく。

　なお、式（３）の左辺に示す「θ」の上に「＾」（ハット）が付されたパラメータ（変数）のように、ある文字の上に「＾」が付されたパラメータ（変数）は、例えば予測値を示す。以下、式（３）の左辺に示す「θ」の上に「＾」が付されたパラメータ（変数）について文章中で言及する場合、「θ」に続けて「＾」を記載した「θ＾」で表記する。あるトレーニングポイントｚ（画像ｚ）を機械学習モデルから取り除いた場合は、以下の式（４）のように表すことができる。

　例えば、データ調整システム１は、式（４）を用いてある学習データ（画像ｚ）を用いずに学習を行った場合のパラメータ（式（４）の左辺）を算出する。例えば、影響度は、トレーニングポイントｚ（画像ｚ）を取り除いたときと、トレーニングポイントｚを含めて全てのデータポイントがあるときとの差（差分）である。この差分は、以下の式（５）のように示される。

　ここで、画像ｚを取り除いたとき場合について再計算すると、計算コストが非常に高い。そこで、データ調整システム１は、Influence　functionsを用いて、以下に示すように、効果的な近似よって、画像ｚを取り除いた場合を再計算（再学習）することなしに演算をする。

　この考え方は、画像ｚが微小なεによって重みづけられたとして、パラメータの変化を計算していく方法である。ここで、以下の式（６）を用いて、新たなパラメータ（式（６）の左辺）を定義する。

　１９８２年のCookとWeisbergによる先行研究の結果を利用することによって、パラメータθ＾（（式（３）の左辺））での重みづけられた画像ｚの影響度は、以下の式（７）、（８）のように書き表すことができる。

　なお、CookとWeisbergによる先行研究については例えば下記の文献に開示されている。
　・Residuals　and　Influence　in　Regression,　　Cook,　R.D.　and　Weisberg,　S　<https://conservancy.umn.edu/handle/11299/37076>

　例えば、式（７）は、ある画像ｚに対応する影響関数を示す。例えば、式（７）は、微小なεに対するパラメータの変化量を表す。また、例えば、式（８）は、ヘッシアン（ヘッセ行列）を示す。ここで、正定値を持つヘッセ行列であると仮定し、逆行列も存在する。ある点であるデータポイントｚ（画像ｚ）を取り除くことは、「ε＝－１／ｎ」によって重みづけられることと同じであると仮定すると、画像ｚを取り除いたときのパラメータ変化は近似的に、以下の式（９）のように表すことができる。

　つまり、データ調整システム１は、再学習をすることなく、データポイントｚ（画像ｚ）を取り除いたときの影響度を測定する（求める）ことができる。

　次に、データ調整システム１は、以下の式（１０－１）～式（１０－３）を用いて、あるテストポイントｚ_ｔｅｓｔでの損失への影響度を測定する（求める）。

　このように、あるテストポイントｚ_ｔｅｓｔでの重みづけられた画像ｚの影響度を定式化できる。そのため、データ調整システム１は、この演算によって、機械学習モデルにおけるデータの影響度を測定する（求める）ことができる。例えば、式（１０－３）の右辺は、あるデータのロス（損失）に対する勾配、ヘッシアンの逆行列、ある学習データのロスの勾配等からなる。例えば、あるデータがモデルの予測（ロス）に与える影響は、式（１０－３）により求めることができる。なお、上記は一例であり、データ調整システム１は、種々の演算を適宜実行し各画像が学習に与えた影響度を測定してもよい。

［１－１－４．Bayesian　Deep　Learning］
　次に、Bayesian　Deep　Learningについて記載する。データ調整システム１は、例えば、手法ＭＴ２（Bayesian　DNN）によるBayesian　Deep　Learningで、どのような原因でモデルの精度が上がらないのかを推定することができる。このように、データ調整システム１は、Bayesian　Deep　Learningの技術によりモデルの精度に関する判断を行うことができる。以下、前提を記載しつつ、Bayesian　Deep　Learningについて説明する。

　まず、一般的にディープラーニングモデルの推論は、高精度であるが、推論には限界がある。推論ができないという限界を知ることは、ディープラーニングを使いこなす上で、非常に大切である。しかしながら、ディープラーニングの不確実性を完全に排除することはできない。ディープラーニングにおける不確実性とは何であるのかについて以下記載する。

　ディープラーニングにおける不確実性には、２つのタイプが存在する。ディープラーニングにおける不確実性は、偶発的な不確実性（Aleatoric　uncertainty）と、認識における不確実性（Epistemic　uncertainty）とに分けることができる。前者の偶発的な不確実性は、観測によるノイズに起因するものであり、データ不足によるものではない。例えば、隠れて見えない画像（オクルージョン）のような場合がこれ（偶発的な不確実性）に当たる（該当する）。マスクをした人の顔の口元は、そもそもマスクで隠れているのでデータとして観測することができない。一方で、後者の認識における不確実性は、データが不足していることに対する不確実性を表す。もしデータが充分に存在するとしたら、認識における不確実性を改善することができる。しかしながら、一般的に画像分野における認識における不確実性を明らかにすることは困難とされてきた。

　Bayesian　Deep　Learning（ベイジアンディープラーニング）の提案によって、不確実性を明らかにすることができるようになってきた。

　なお、Bayesian　Deep　Learning（ベイジアンディープラーニング）については例えば下記の文献に開示されている。
　・What　Uncertainties　Do　We　Need　in　Bayesian　Deep　Learning　for　Computer　Vison,　NIPS　2017,　Alex　Kendall　and　Yarin　Gal　<https://papers.nips.cc/paper/7141-what-uncertainties-do-we-need-in-bayesian-deep-learning-for-computer-vision.pdf>

　ベイジアンディープラーニングは、ベイズ推定とディープラーニングを結び付けて考えていく。ベイズ推論を使うことで、推定結果がどのようにばらつくのかがわかるので不確実性を評価することができる。

　ベイジアンディープラーニングは、ディープラーニングの学習においてドロップアウトを用いて、推論において得られる分散の結果から推定する手法である。ドロップアウトとは、各層のニューロンの数をランダムに減らすことで、オーバーフィッティングを減らすために非常に良く用いられているテクニックである。

　ベイジアンディープラーニングにおけるドロップアウトの果たす役割についての数学的な理論は、例えば下記の文献に開示されている。
　・Dropout　as　Bayesian　Approximation:　Representing　Model　Uncertainty　in　Deep　Learning,　ICML　2016,　　Yarin　Gal　and　Zoubin　Ghahramani　<https://arxiv.org/pdf/1506.02142.pdf>

　結論から言うと、ディープラーニングにおいてドロップアウトを用いることは、ベイズ学習をしていることである。例えば、データ調整システム１は、学習によって得られる値は確定的ではなく、重みの事後分布をドロップアウトと組み合わせることによって計算ができる。例えば、データ調整システム１は、複数のドロップアウト係数にて、複数の出力を生成したばらつきから、事後分布の分散を推定することができる。

　ベイジアンディープラーニングは、学習時のみならず、推論時にもドロップアウトを利用することで、重みの分布からサンプリングをする。例えば、データ調整システム１は、モンテカルトドロップアウトの手法により、学習時のみならず、推論時にもドロップアウトを利用することで、重みの分布からサンプリングをすることができる。例えば、データ調整システム１は、同じ入力に対して、何回も推論を繰り返すことで、推論結果の不確実性を求めることがきる。ドロップアウトを用いて学習したネットワークは、一部のニューロンが欠損した構造になっている。そこで、データ調整システム１は、入力画像を入れて推論すると、ドロップアウトによって欠損したニューロンを通り、その重みによって特徴付けられた出力を得ることができる。更に、同じ画像を入力すると、ネットワーク内の異なる経路を通り出力するので、その重みづけられた出力はそれぞれ異なる。つまり、ドロップアウトによるネットワークは、同じ入力画像に対して、推論時の異なる出力の分布を得ることができる。出力の分散が大きいということは、モデルの不確実性が大きいということを意味する。複数回の推論による分布の平均は最終的な予測値を意味し、分散は予測値の不確実性を意味する。ベイジアンディープラーニングは、この推論時の出力の分散から不確定性を表す。データ調整システム１は、上述のようなベイジアンディープラーニングによりモデルの不確実性に関する推定（判断）を行うことができる。

［１－１－５．その他（ＧＡＮ、Ｇｒａｄ－ＣＡＭ、ＬＩＭＥ等）］
　データ調整システム１は、上述のInfluence　functionやBayesian　Deep　Learningに限らず、種々の手法を用いてもよい。この点について以下記載する。

　データ調整システム１は、種々の手法を適宜用いて、学習に用いるデータ（学習データ）を自動で生成してもよい。例えば、データ調整システム１は、ＧＡＮにより学習データの（自動）生成してもよい。

　なお、ＧＡＮについては例えば下記の文献に開示されている。
　・Generative　Adversarial　Networks,　Ian　J.　Goodfellow　et　al.　<https://arxiv.org/abs/1406.2661>

　データ調整システム１は、Influence　functionsで影響度が高いと測定されたデータから、Ｇａｎにより、影響度が高いデータを生成してもよい。例えば、データ調整システム１は、影響度が高い画像を識別する識別器（Discriminator）と、影響度が高い画像を生成する生成器（Generator）とを含むＧＡＮのアーキテクチャにより、影響度が高いデータを生成してもよい。なお、データ調整システム１は、上記は一例であり、Ｇａｎの技術を適宜用いて影響度が高いデータを生成してもよい。

　データ調整システム１は、種々の手法を適宜用いて、モデルの出力（判断）に関する根拠を可視化してもよい。例えば、データ調整システム１は、Ｇｒａｄ－ＣＡＭにより、画像の入力後のモデルの出力（判断）に関する根拠を可視化する根拠情報を生成する。データ調整システム１は、Ｇｒａｄ－ＣＡＭにより、笑顔を検出するモデルＭ１が笑顔の有無を判断した根拠を示す根拠情報を生成する。例えば、データ調整システム１は、下記の文献に開示されるようなＧｒａｄ－ＣＡＭに関する処理により、根拠情報を生成する。データ調整システム１は、ＣＮＮが含まれるネットワーク全般に適用可能な可視化手法であるＧｒａｄ－ＣＡＭの技術を用いて、モデルＭ１の出力に関する根拠を示す根拠情報を生成する。例えば、データ調整システム１は、ＣＮＮの最終層から各チャンネルの重みを計算し重みを掛け合わせることで各クラスに影響する部分を可視化することができる。このように、データ調整システム１は、ＣＮＮを含むニューラルネットワークにおいて画像のどの部分に注目して判断がなされたかを可視化することができる。

　・Grad-CAM:　Visual　Explanations　from　Deep　Networks　via　Gradient-based　Localization　<https://arxiv.org/abs/1610.02391>

　なお、Ｇｒａｄ－ＣＡＭの技術についての説明は適宜省略するが、データ調整システム１は、Ｇｒａｄ－ＣＡＭ（上記文献参照）の手法により、根拠情報を生成する。例えば、データ調整システム１は、対象とする種別（クラス）を指定して、指定したクラスに対応する情報（画像）を生成する。例えば、データ調整システム１は、Ｇｒａｄ－ＣＡＭの技術を用いて、逆誤差伝搬（Backpropagation）等の各種処理により、指定したクラスを対象に情報（画像）を生成する。例えば、データ調整システム１は、種別「笑顔」のクラスを指定して、種別「笑顔」に対応する根拠情報に関する画像を生成する。例えば、データ調整システム１は、種別「笑顔」の認識（分類）のために注視している範囲（領域）を、いわゆるヒートマップ（カラーマップ）の形式で示す画像を生成する。

　また、データ調整システム１は、入力となるデータ（画像）と、その判断結果の根拠を示す根拠情報とを対応付けて記憶部１２０（図４参照）にログ（履歴）として格納する。これにより、データ調整システム１がどのような入力に対する判断により、その後の動作を行ったのかを検証可能となる。また、例えば、データ調整システム１は、記憶部１２０に記憶された入力となるデータ（画像）と、その判断結果の根拠を示す根拠情報とのログを、種々の処理に利用してもよい。例えば、データ調整システム１は、入力となるデータ（画像）と、その判断結果の根拠を示す根拠情報とのログを用いて、データを生成してもよい。例えば、データ調整システム１は、根拠情報であるヒートマップが根拠として示す領域の画像を含むように、入力画像を変更した画像を生成してもよい。なお、上記は一例であり、データ調整システム１は、種々の手法を適宜用いて、ログからデータを生成してもよい。

　なお、データ調整システム１が生成する根拠情報は、ヒートマップのような画像に限らず、文字情報、音声情報などの種々の形式の情報であってもよい。また、データ調整システム１は、Ｇｒａｄ－ＣＡＭに限らず、種々の手法を適宜用いて、モデルの出力（判断）に関する根拠を可視化してもよい。例えば、データ調整システム１は、ＬＩＭＥやＴＣＡＶ（Testing　with　Concept　Activation　Vectors）等の手法により、根拠情報を生成してもよい。

　例えば、データ調整システム１は、ＬＩＭＥの技術を用いて、根拠情報を生成してもよい。例えば、データ調整システム１は、下記の文献に開示されるようなＬＩＭＥに関する処理により、根拠情報を生成してもよい。

　・"Why　Should　I　Trust　You?":　Explaining　the　Predictions　of　Any　Classifier　<https://arxiv.org/abs/1602.04938>

　なお、ＬＩＭＥの技術についての説明は適宜省略するが、データ調整システム１は、ＬＩＭＥ（上記文献参照）の手法により、根拠情報を生成する。例えば、データ調整システム１は、モデルがなぜそのような判断を下したのかを理由（根拠）を示すために局所近似する他のモデル（根拠用モデル）を生成する。データ調整システム１は、入力情報とその入力情報に対応する出力結果との組合せを対象に、局所的に近似する根拠用モデルを生成する。そして、データ調整システム１は、根拠用モデルを用いて、根拠情報を生成する。さらに、データ調整システム１は、下記の文献に開示されるようなＴＣＡＶと呼ばれる”Testing　with　Concept　Activation　Vectors”（概念を有効化させる方向性を加味したテスト）などの根拠情報の算出方法（生成方法）を用いてもよい。

　・Interpretability　Beyond　Feature　Attribution:　Quantitative　Testing　with　Concept　Activation　Vectors　(TCAV)　<https://arxiv.org/pdf/1711.11279.pdf>

　例えば、データ調整システム１は、画像等の基となる入力情報（対象入力情報）を複製したり、変更を加えたりした複数の入力情報を生成する。そして、データ調整システム１は、根拠情報の生成対象となるモデル（説明対象モデル）に、複数の入力情報の各々を入力し、各入力情報に対応する複数の出力情報を説明対象モデルから出力させる。そして、データ調整システム１は、複数の入力情報の各々と、対応する複数の出力情報の各々との組合せ（ペア）を学習用データとして、根拠用モデルを学習する。このように、データ調整システム１は、対象入力情報を対象として別の解釈可能なモデル（線形モデルとか）で局所近似する根拠用モデルを生成する。

　このように、データ調整システム１は、ある入力に対するモデルの出力を得た場合に、その出力の根拠（局所的な説明）を示すための根拠用モデルを生成する。例えば、データ調整システム１は、線形モデル等の解釈可能なモデルを根拠用モデルとして生成する。データ調整システム１は、線形モデル等の根拠用モデルの各パラメータなどの情報を基に根拠情報を生成する。例えば、データ調整システム１は、線形モデル等の根拠用モデルの特徴量のうち、重みが大きい特徴量の影響が大きいことを示す根拠情報を生成する。

　上述のように、データ調整システム１は、モデルの入力情報と出力結果とを用いて学習された根拠用モデルに基づいて、根拠情報を生成する。このように、データ調整システム１は、モデルへの入力情報の入力後のモデルの出力結果を含む状態情報に基づいて、根拠情報を生成してもよい。

［１－２．実施形態に係るデータ調整システムの構成］
　図３に示すデータ調整システム１について説明する。データ調整システム１は、学習データを調整する調整処理を実現する情報処理システムである。図３に示すように、データ調整システム１は、データ調整装置１００と、複数の端末装置１０ａ、１０ｂ、１０ｃ、１０ｄとが含まれる。なお、端末装置１０ａ、１０ｂ、１０ｃ、１０ｄ等を区別しない場合、端末装置１０と記載する場合がある。また、図３では、４個の端末装置１０ａ、１０ｂ、１０ｃ、１０ｄを図示するが、データ調整システム１には、４個より多い数（例えば２０個や１００個以上）の端末装置１０が含まれてもよい。端末装置１０と、データ調整装置１００とは所定の通信網（ネットワークＮ）を介して、有線または無線により通信可能に接続される。図３は、実施形態に係るデータ調整システムの構成例を示す図である。なお、図３に示したデータ調整システム１には、複数台のデータ調整装置１００が含まれてもよい。

　データ調整装置１００は、機械学習によるモデルの学習に用いられたデータセットに含まれるデータが前記学習に与えた影響度を測定し、その測定結果に基づいて、データセットを調整する情報処理装置（コンピュータ）である。また、データ調整装置１００は、データセットを用いて学習処理を実行する。また、データ調整装置１００は、データセットに追加するデータを、端末装置１０に要求する。

　端末装置１０は、データ調整装置１００からの要求に応じてデータ調整装置１００にデータを提供するコンピュータである。図３の例では、端末装置１０ａは、データを保有するデータサーバである。端末装置１０ａは、動画や画像や文字情報などのデータを保有するデータサーバであってもよい。例えば、端末装置１０ａは、テレビや映画や音楽などのコンテンツデータを保有するデータサーバであってもよい。

　また、図３の例では、端末装置１０ｂは、撮像機能を有するカメラである。端末装置１０ｂは、動画や画像を撮像し、撮像したデータを保有するカメラである。

　図３の例では、端末装置１０ｃは、撮像機能を有するイメージセンサ（イメージャ）である。例えば、端末装置１０ｃは、データ調整装置１００と通信する機能を有し、撮像した画像や動画をデータ調整装置１００に送信する機能を有する。例えば、端末装置１０ｃは、データ調整装置１００からの要求に応じて、画像や動画を撮像し、撮像した画像や動画をデータ調整装置１００に送信する。

　図３の例では、端末装置１０ｄは、ドローン等のＵＡＶや自動車等の車両等の移動体である。例えば、端末装置１０ｄは、データ調整装置１００と通信する機能を有し、データ調整装置１００からの要求に応じた移動を行ってもよい。端末装置１０ｄは、イメージセンサ（イメージャ）等の撮像機能を有し、データ調整装置１００からの要求に応じた位置まで移動し、その位置で画像や動画を撮像し、撮像した画像や動画をデータ調整装置１００に送信する。

　なお、端末装置１０は、実施形態における処理を実現可能であれば、どのような装置であってもよい。端末装置１０は、例えば、スマートフォンや、タブレット型端末や、ノート型ＰＣ（Personal　Computer）や、デスクトップＰＣや、携帯電話機や、ＰＤＡ（Personal　Digital　Assistant）等の装置であってもよい。端末装置１０は、ユーザが身に着けるウェアラブル端末（Wearable　Device）等であってもよい。例えば、端末装置１０は、腕時計型端末やメガネ型端末等であってもよい。また、端末装置１０は、テレビや冷蔵庫等のいわゆる家電製品であってもよい。例えば、端末装置１０は、スマートスピーカやエンタテインメントロボットや家庭用ロボットと称されるような、人間（ユーザ）と対話するロボットであってもよい。また、端末装置１０は、デジタルサイネージ等の所定の位置に配置される装置であってもよい。

［１－３．実施形態に係るデータ調整装置の構成］
　次に、実施形態に係るデータ調整処理を実行するデータ調整装置の一例であるデータ調整装置１００の構成について説明する。図４は、本開示の実施形態に係るデータ調整装置１００の構成例を示す図である。

　図４に示すように、データ調整装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、データ調整装置１００は、データ調整装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示するための表示部（例えば、液晶ディスプレイ等）を有してもよい。

　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）等によって実現される。そして、通信部１１０は、ネットワークＮ（図３参照）と有線または無線で接続され、端末装置１０等の他の情報処理装置との間で情報の送受信を行う。また、通信部１１０は、端末装置１０との間で情報の送受信を行ってもよい。

　記憶部１２０は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部１２０は、図４に示すように、データ情報記憶部１２１と、モデル情報記憶部１２２と、閾値情報記憶部１２３と、知識情報記憶部１２５とを有する。

　実施形態に係るデータ情報記憶部１２１は、学習に用いるデータに関する各種情報を記憶する。データ情報記憶部１２１は、学習に用いるデータセットを記憶する。図５は、本開示の実施形態に係るデータ情報記憶部の一例を示す図である。例えば、データ情報記憶部１２１は、学習に用いる学習用データや精度評価（測定）に用いる評価用データ等の種々のデータに関する各種情報を記憶する。図５に、実施形態に係るデータ情報記憶部１２１の一例を示す。図５の例では、データ情報記憶部１２１は、「データセットＩＤ」、「データＩＤ」、「データ」といった項目が含まれる。

　「データセットＩＤ」は、データセットを識別するための識別情報を示す。「データＩＤ」は、オブジェクトを識別するための識別情報を示す。また、「データ」は、データＩＤにより識別されるオブジェクトに対応するデータを示す。すなわち、図５の例では、オブジェクトを識別するデータＩＤに対して、オブジェクトに対応するベクトルデータ（データ）が対応付けられて登録されている。

　図５の例では、データセットＩＤ「ＤＳ１」により識別されるデータセット（データセットＤＳ１）には、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される複数のデータが含まれることを示す。例えば、データＩＤ「ＤＩＤ１」、「ＤＩＤ２」、「ＤＩＤ３」等により識別される各データ（学習用データ）は、笑顔検出のモデルの学習に用いられる画像情報等である。

　なお、データ情報記憶部１２１は、上記に限らず、目的に応じて種々の情報を記憶してもよい。データ情報記憶部１２１は、各データに対応する正解情報（正解ラベル）を各データに対応付けて記憶する。例えば、データ情報記憶部１２１は、各データ（画像）に笑顔が含まれるか否かを示す正解情報（正解ラベル）を各データに対応付けて記憶する。

　また、データ情報記憶部１２１は、各データが学習用データであるか、評価用データであるか等を特定可能に記憶してもよい。例えば、データ情報記憶部１２１は、学習用データと評価用データとを区別可能に記憶する。データ情報記憶部１２１は、各データが学習用データや評価用データであるかを識別する情報を記憶してもよい。データ調整装置１００は、学習用データとして用いられる各データと正解情報とに基づいて、モデルを学習する。データ調整装置１００は、評価用データとして用いられる各データと正解情報とに基づいて、モデルの精度を測定する。データ調整装置１００は、評価用データを入力した場合にモデルが出力する出力結果と、正解情報とを比較した結果を収集することにより、モデルの精度を測定する。

　実施形態に係るモデル情報記憶部１２２は、モデルに関する情報を記憶する。例えば、モデル情報記憶部１２２は、モデル（ネットワーク）の構造を示す情報（モデルデータ）を記憶する。図６は、本開示の実施形態に係るモデル情報記憶部の一例を示す図である。図６に、実施形態に係るモデル情報記憶部１２２の一例を示す。図６に示した例では、モデル情報記憶部１２２は、「モデルＩＤ」、「用途」、「モデルデータ」といった項目が含まれる。

　「モデルＩＤ」は、モデルを識別するための識別情報を示す。「用途」は、対応するモデルの用途を示す。「モデルデータ」は、モデルのデータを示す。図６では「モデルデータ」に「ＭＤＴ１」といった概念的な情報が格納される例を示したが、実際には、モデルに含まれるネットワークに関する情報や関数等、そのモデルを構成する種々の情報が含まれる。

　図６に示す例では、モデルＩＤ「Ｍ１」により識別されるモデル（モデルＭ１）は、用途が「画像認識（笑顔検出）」であることを示す。モデルＭ１は、画像認識に用いられるモデルであり、笑顔検出に用いられることを示す。また、モデルＭ１のモデルデータは、モデルデータＭＤＴ１であることを示す。

　なお、モデル情報記憶部１２２は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、モデル情報記憶部１２２は、学習処理により学習（生成）されたモデルのパラメータ情報を記憶する。

　実施形態に係る閾値情報記憶部１２３は、閾値に関する各種情報を記憶する。閾値情報記憶部１２３は、スコアとの比較に用いる閾値に関する各種情報を記憶する。図７は、実施形態に係る閾値情報記憶部の一例を示す図である。図７に示す閾値情報記憶部１２３には、「閾値ＩＤ」、「閾値」といった項目が含まれる。

　「閾値ＩＤ」は、閾値を識別するための識別情報を示す。また、「閾値」は、対応する閾値ＩＤにより識別される閾値の具体的な値を示す。また、各閾値には、その用途を示す情報が対応付けて記憶される。

　図７の例では、閾値ＩＤ「ＴＨ１」により識別される閾値（第１閾値ＴＨ１）は、影響度が低いデータの判別に用いられることを示す情報が対応付けて記憶される。この場合、第１閾値ＴＨ１は、影響度が低いデータ、すなわち除外の対象となるデータを判別するために用いられる。また、第１閾値ＴＨ１の値は、「ＶＬ１」であることを示す。なお、図７の例では、「ＶＬ１」といった抽象的な符号で示すが、第１閾値ＴＨ１の値は具体的な数値（例えば０．３等）である。

　また、閾値ＩＤ「ＴＨ２」により識別される閾値（第２閾値ＴＨ２）は、影響度が高いデータの判別に用いられることを示す情報が対応付けて記憶される。この場合、第２閾値ＴＨ２は、影響度が高いデータ、すなわち新たなデータの追加の対象となるデータを判別するために用いられる。また、第２閾値ＴＨ２の値は、「ＶＬ２」であることを示す。なお、図７の例では、「ＶＬ２」といった抽象的な符号で示すが、第２閾値ＴＨ２の値は具体的な数値（例えば０．７５等）である。

　なお、閾値情報記憶部１２３は、上記に限らず、目的に応じて種々の情報を記憶してもよい。

　図４に戻り、説明を続ける。制御部１３０は、例えば、ＣＰＵ（Central　Processing　Unit）やＭＰＵ（Micro　Processing　Unit）等によって、データ調整装置１００内部に記憶されたプログラム（例えば、本開示に係るデータ調整処理プログラム等の情報処理プログラム）がＲＡＭ（Random　Access　Memory）等を作業領域として実行されることにより実現される。また、制御部１３０は、コントローラ（controller）であり、例えば、ＡＳＩＣ（Application　Specific　Integrated　Circuit）やＦＰＧＡ（Field　Programmable　Gate　Array）等の集積回路により実現される。

　図４に示すように、制御部１３０は、取得部１３１と、学習部１３２と、測定部１３３と、調整部１３４と、送信部１３５とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１３０の内部構成は、図４に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部１３０が有する各処理部の接続関係は、図４に示した接続関係に限られず、他の接続関係であってもよい。

　取得部１３１は、各種情報を取得する。取得部１３１は、外部の情報処理装置から各種情報を取得する。取得部１３１は、端末装置１０から各種情報を取得する。

　取得部１３１は、記憶部１２０から各種情報を取得する。取得部１３１は、データ情報記憶部１２１やモデル情報記憶部１２２や閾値情報記憶部１２３から各種情報を取得する。

　取得部１３１は、学習部１３２が学習した各種情報を取得する。取得部１３１は、測定部１３３が測定した各種情報を取得する。取得部１３１は、調整部１３４が調整した各種情報を取得する。

　学習部１３２は、各種情報を学習する。学習部１３２は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を学習する。学習部１３２は、データ情報記憶部１２１に記憶された情報に基づいて、各種情報を学習する。学習部１３２は、学習により生成したモデルをモデル情報記憶部１２２に格納する。

　学習部１３２は、学習処理を行う。学習部１３２は、各種学習を行う。学習部１３２は、取得部１３１により取得された情報に基づいて、各種情報を学習する。学習部１３２は、モデルを学習（生成）する。学習部１３２は、モデル等の各種情報を学習する。学習部１３２は、学習によりモデルを生成する。学習部１３２は、種々の機械学習に関する技術を用いて、モデルを学習する。例えば、学習部１３２は、モデル（ネットワーク）のパラメータを学習する。学習部１３２は、種々の機械学習に関する技術を用いて、モデルを学習する。

　学習部１３２は、ネットワークのパラメータを学習する。例えば、学習部１３２は、モデルＭ１のネットワークのパラメータを学習する。学習部１３２は、モデルＭ１のネットワークのパラメータを学習する。

　学習部１３２は、データ情報記憶部１２１に記憶された学習用データ（教師データ）に基づいて、学習処理を行う。学習部１３２は、データ情報記憶部１２１に記憶された学習用データを用いて、学習処理を行うことにより、モデルＭ１を生成する。例えば、学習部１３２は、画像認識（笑顔検出）に用いられるモデルを生成する。学習部１３２は、モデルＭ１のネットワークのパラメータを学習することにより、モデルＭ１を生成する。

　学習部１３２による学習の手法は特に限定されないが、例えば、ラベル情報（笑顔有無等）と画像群とを紐づけた学習用データを用意し、その学習用データを多層ニューラルネットワークに基づいた計算モデルに入力して学習してもよい。また、例えばＣＮＮ（Convolutional　Neural　Network）、３Ｄ－ＣＮＮ等のＤＮＮ（Deep　Neural　Network）に基づく手法が用いられてもよい。学習部１３２は、映像等の動画像（動画）のような時系列データを対象とする場合、再帰型ニューラルネットワーク（Recurrent　Neural　Network：ＲＮＮ）やＲＮＮを拡張したＬＳＴＭ（Long　Short-Term　Memory　units）に基づく手法を用いてもよい。

　学習部１３２は、データセットを用いて学習処理を実行する。学習部１３２は、調整部１３４による調整後のデータセットを用いて学習処理を実行する。学習部１３２は、調整部１３４による調整後のデータセットを用いて、学習処理を実行することにより、モデルを更新する。学習部１３２は、調整部１３４による調整後のデータセットを用いて、学習処理を実行することにより、モデルのパラメータを更新する。学習部１３２は、調整部１３４による調整後のデータセットを用いて、学習処理を実行することにより、モデルＭ１を更新する。

　測定部１３３は、各種処理を測定する。測定部１３３は、測定手段として機能する。測定部１３３は、ニューラルネットワークの学習に用いられた学習データが学習に与えた影響度を測定する測定手段として機能する。測定部１３３は、外部の情報処理装置からの情報に基づいて、各種処理を測定する。測定部１３３は、記憶部１２０に記憶された情報に基づいて、各種処理を測定する。測定部１３３は、データ情報記憶部１２１やモデル情報記憶部１２２や閾値情報記憶部１２３に記憶された情報に基づいて、各種処理を測定する。測定部１３３は、処理の測定により各種情報を生成する。

　測定部１３３は、取得部１３１により取得された各種情報に基づいて、各種処理を測定する。測定部１３３は、学習部１３２により学習された各種情報に基づいて、各種処理を測定する。測定部１３３は、取得部１３１により取得された各種情報に基づいて、各種情報を抽出する。測定部１３３は、学習部１３２により学習された各種情報に基づいて、各種情報を抽出する。測定部１３３は、調整部１３４により調整された情報に基づいて、各種情報を抽出する。

　測定部１３３は、各種情報を決定する。測定部１３３は、各種情報を判定する。測定部１３３は、各種情報を判別する。測定部１３３は、各データの影響度に基づいて、各データの要不要を判別する。

　測定部１３３は、機械学習によるモデルの学習に用いられた学習データが学習に与えた影響度を測定する。測定部１３３は、損失関数に基づいて影響度を測定する。測定部１３３は、影響度測定に利用可能な手法により影響度を測定する。測定部１３３は、Influence　functionにより影響度を測定する。測定部１３３は、データセットの場合と、データセットから一のデータを除いた場合との差異に基づいて、一のデータの影響度を測定する。測定部１３３は、ニューラルネットワークの学習に用いられた学習データの影響度を測定する。

　調整部１３４は、各種情報を調整する。調整部１３４は、データセットを調整する調整手段として機能する。調整部１３４は、影響度が低いと測定されたデータをデータセットから除外し、影響度が高いと測定されたデータに対応する新たなデータである新規データを取得し、取得した新規データをデータセットに追加する調整手段として機能する。調整部１３４は、外部の情報処理装置からの情報や記憶部１２０に記憶された情報に基づいて、各種情報を調整する。調整部１３４は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を調整する。調整部１３４は、データ情報記憶部１２１やモデル情報記憶部１２２や閾値情報記憶部１２３に記憶された情報に基づいて、各種情報を調整する。

　調整部１３４は、取得部１３１により取得された各種情報に基づいて、各種情報を調整する。調整部１３４は、学習部１３２により学習された各種情報に基づいて、各種情報を調整する。調整部１３４は、測定部１３３の処理測定により調整された各種情報に基づいて、各種情報を調整する。

　調整部１３４は、測定部１３３による測定結果に基づいて、データセットからデータを除外すること、またはデータセットに新たなデータを追加することにより、データセットを調整する。調整部１３４は、影響度が低い第１データをデータセットから除外する。調整部１３４は、影響度が第１閾値よりも低い第１データをデータセットから除外する。

　調整部１３４は、影響度が高い第２データに対応する新たなデータである新規データをデータセットに追加する。調整部１３４は、影響度が第２閾値よりも高い第２データに対応する新規データをデータセットに追加する。調整部１３４は、外部装置から取得された新規データをデータセットに追加する。調整部１３４は、データを格納する記憶部から取得された新規データをデータセットに追加する。

　調整部１３４は、新規データを生成し、生成した新規データをデータセットに追加する。調整部１３４は、第２データを用いて新規データを生成し、生成した新規データをデータセットに追加する。調整部１３４は、データ拡張（データオーグメンテーション）により新規データを生成し、生成した新規データをデータセットに追加する。調整部１３４は、第２データに類似する新規データを生成し、生成した新規データをデータセットに追加する。例えば、調整部１３４は、第２データを元データとして、その元データに類似する画像をデータ拡張（データオーグメンテーション）により生成する。例えば、調整部１３４は、第２データを元データとして、その元データを縮小したり、その元データの一部を拡大したり、左右に回転させたり、上下左右方向に移動させたりすることで、その元データに類似する画像を生成する。なお、上記は一例であり、調整部１３４は、種々の手法によりデータセットに追加する新規データを生成してもよい。例えば、調整部１３４は、上述したＧＡＮ等の手法によりデータセットに追加する新規データを生成してもよい。

　送信部１３５は、各種情報を送信する。送信部１３５は、外部の情報処理装置へ各種情報を送信する。送信部１３５は、外部の情報処理装置へ各種情報を提供する。例えば、送信部１３５は、端末装置１０等の他の情報処理装置へ各種情報を送信する。送信部１３５は、記憶部１２０に記憶された情報を提供する。送信部１３５は、記憶部１２０に記憶された情報を送信する。

　送信部１３５は、端末装置１０等の他の情報処理装置からの情報に基づいて、各種情報を提供する。送信部１３５は、記憶部１２０に記憶された情報に基づいて、各種情報を提供する。送信部１３５は、データ情報記憶部１２１やモデル情報記憶部１２２や閾値情報記憶部１２３に記憶された情報に基づいて、各種情報を提供する。

　送信部１３５は、新規データを要求する要求情報を外部装置へ送信する。送信部１３５は、新規データを要求する要求情報を端末装置１０へ送信する。送信部１３５は、機械学習モデルにおける学習に対する影響度が所定の基準以上である学習データに類似するデータを要求する要求情報を端末装置１０へ送信する。送信部１３５は、機械学習モデルにおける学習に対する影響度が所定の閾値以上である学習データに類似するデータを要求する要求情報を端末装置１０へ送信する。

［１－３－１．モデル（ネットワーク）例］
　上述したように、データ調整装置１００は、ディープニューラルネットワーク（ＤＮＮ）等のニューラルネットワーク（ＮＮ）の形式のモデル（ネットワーク）を用いてもよい。なお、データ調整装置１００は、ニューラルネットワークに限らず、ＳＶＭ（Support　Vector　Machine）等の回帰モデルや等の種々の形式のモデル（関数）を用いてもよい。このように、データ調整装置１００は、任意の形式のモデル（関数）を用いてもよい。データ調整装置１００は、非線形の回帰モデルや線形の回帰モデル等、種々の回帰モデルを用いてもよい。

　この点について、図８を用いて、モデルのネットワーク構造の一例を説明する。図８は、モデルに対応するネットワークの一例を図である。図８に示すネットワークＮＷ１は、入力層ＩＮＬと出力層ＯＵＴＬとの間に複数（多層）の中間層を含むニューラルネットワークを示す。図８に示すネットワークＮＷ１は、図１中のニューラルネットワークＮＮに対応する。例えば、データ調整装置１００は、図８に示すネットワークＮＷ１のパラメータを学習してもよい。

　図８に示すネットワークＮＷ１は、モデルＭ１のネットワークに対応し、画像認識に用いられるニューラルネットワーク（モデル）を示す概念的な図である。例えば、ネットワークＮＷ１は、入力層ＩＮＬ側から例えば画像が入力された場合に、出力層ＯＵＴＬからその認識結果を出力する。例えば、データ調整装置１００は、ネットワークＮＷ１中の入力層ＩＮＬに情報を入力することにより、出力層ＯＵＴＬから入力に対応する認識結果を出力させる。

　なお、図８では、モデル（ネットワーク）の一例としてネットワークＮＷ１を示すが、ネットワークＮＷ１は、用途等に応じて種々の形式であってもよい。例えば、データ調整装置１００は、図８に示すネットワークＮＷ１の構造を有するモデルＭ１のパラメータ（重み）を学習することにより、モデルＭ１を学習する。

［１－４．実施形態に係る端末装置の構成］
　次に、実施形態に係る情報処理を実行する端末装置の一例である端末装置１０の構成について説明する。図９は、本開示の実施形態に係る端末装置の構成例を示す図である。

　図９に示すように、端末装置１０は、通信部１１と、入力部１２と、出力部１３と、記憶部１４と、制御部１５と、センサ部１６とを有する。なお、端末装置１０は、データを収集し、データ調整装置１００へ提供可能な構成であれば、どのような装置構成であってもよい。例えば、端末装置１０は、データ調整装置１００と通信する通信部１１と、データを収集する処理を行う制御部１５とを有すれば、その他の構成は任意であってもよい。端末装置１０の種別によっては、例えば、端末装置１０は、入力部１２や出力部１３や記憶部１４やセンサ部１６のいずれかを有しなくてもよい。

　例えば、端末装置１０がイメージセンサ（イメージャ）である場合、端末装置１０は、通信部１１と制御部１５とセンサ部１６のみを有する構成であってもよい。例えば、イメージセンサ（イメージャ）に用いられる撮像素子は、ＣＭＯＳ（Complementary　Metal　Oxide　Semiconductor：相補型金属酸化膜半導体）である。なお、イメージセンサ（イメージャ）に用いられる撮像素子は、ＣＭＯＳに限らず、ＣＣＤ（Charge　Coupled　Device：電荷結合素子）等、種々の撮像素子であってもよい。また、例えば、端末装置１０がデータサーバである場合、端末装置１０は、通信部１１と記憶部１４と制御部１５のみを有する構成であってもよい。また、例えば、端末装置１０が移動体である場合、端末装置１０は、駆動部（モータ）等の移動を実現するための機構を有する構成であってもよい。

　通信部１１は、例えば、ＮＩＣや通信回路等によって実現される。通信部１１は、ネットワークＮ（インターネット等）と有線又は無線で接続され、ネットワークＮを介して、データ調整装置１００等の他の装置等との間で情報の送受信を行う。

　入力部１２は、各種入力を受け付ける。入力部１２は、ユーザの操作を受け付ける。入力部１２は、ユーザが利用する端末装置１０への操作（ユーザ操作）をユーザによる操作入力として受け付けてもよい。入力部１２は、通信部１１を介して、リモコン（リモートコントローラー：remote　controller）を用いたユーザの操作に関する情報を受け付けてもよい。また、入力部１２は、端末装置１０に設けられたボタンや、端末装置１０に接続されたキーボードやマウスを有してもよい。

　例えば、入力部１２は、リモコンやキーボードやマウスと同等の機能を実現できるタッチパネルを有してもよい。この場合、入力部１２は、ディスプレイ（出力部１３）を介して各種情報が入力される。入力部１２は、各種センサにより実現されるタッチパネルの機能により、表示画面を介してユーザから各種操作を受け付ける。すなわち、入力部１２は、端末装置１０のディスプレイ（出力部１３）を介してユーザから各種操作を受け付ける。例えば、入力部１２は、端末装置１０のディスプレイ（出力部１３）を介してユーザの操作を受け付ける。

　出力部１３は、各種情報を出力する。出力部１３は、情報を表示する機能を有する。出力部１３は、端末装置１０に設けられ各種情報を表示する。出力部１３は、例えば液晶ディスプレイや有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。出力部１３は、音声を出力する機能を有してもよい。例えば、出力部１３は、音声を出力するスピーカーを有する。

　記憶部１４は、例えば、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１４は、情報の表示に用いる各種情報を記憶する。

　図９に戻り、説明を続ける。制御部１５は、例えば、ＣＰＵやＭＰＵ等によって、端末装置１０内部に記憶されたプログラム（例えば、本開示に係るデータ提供プログラム等の情報処理プログラム）がＲＡＭ等を作業領域として実行されることにより実現される。また、制御部１５は、コントローラであり、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されてもよい。

　図９に示すように、制御部１５は、受信部１５１と、収集部１５２と、送信部１５３とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部１５の内部構成は、図９に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

　受信部１５１は、各種情報を受信する。受信部１５１は、外部の情報処理装置から各種情報を受信する。受信部１５１は、データ調整装置１００等の他の情報処理装置から各種情報を受信する。

　受信部１５１は、機械学習によるモデルの学習に用いられた学習データを有する外部装置が取得を要求するデータを示す要求情報を、外部装置から受信する。受信部１５１は、データ調整装置１００が取得を要求するデータを示す要求情報を、データ調整装置１００から受信する。受信部１５１は、機械学習モデルを有する外部装置（データ調整装置１００等）より当該機械学習に用いられる学習データを要求する要求情報を受信する。受信部１５１は、機械学習モデルにおける学習に対する影響度が所定の基準以上である学習データに類似するデータを要求する要求情報を受信する。

　収集部１５２は、各種情報を収集する。収集部１５２は、各種情報の収集を決定する。収集部１５２は、外部の情報処理装置からの情報に基づいて、各種情報を収集する。収集部１５２は、データ調整装置１００からの情報に基づいて、各種情報を収集する。収集部１５２は、データ調整装置１００からの指示に応じて、各種情報を収集する。収集部１５２は、記憶部１４に記憶された情報に基づいて、各種情報を収集する。

　収集部１５２は、受信部１５１により受信された要求情報に対応するデータを収集する。収集部１５２は、受信部１５１により受信された要求情報に対応するデータを、データ調整装置１００に提供するデータ（提供用データ）として収集する。収集部１５２は、受信部１５１により受信された要求情報に対応するデータを記憶部１４から抽出することにより、提供用データを収集する。収集部１５２は、受信部１５１により受信された要求情報に対応するデータをセンサ部１６により検知することにより、提供用データを収集する。

　送信部１５３は、外部の情報処理装置へ各種情報を送信する。例えば、送信部１５３は、データ調整装置１００等の他の情報処理装置へ各種情報を送信する。送信部１５３は、記憶部１４に記憶された情報を送信する。

　送信部１５３は、データ調整装置１００等の他の情報処理装置からの情報に基づいて、各種情報を送信する。送信部１５３は、記憶部１４に記憶された情報に基づいて、各種情報を送信する。

　送信部１５３は、要求情報に対応するデータとして収集された提供用データを外部装置へ送信する。送信部１５３は、要求情報に対応するデータとして収集された提供用データをデータ調整装置１００へ送信する。送信部１５３は、収集部１５２により収集された提供用データをデータ調整装置１００へ送信する。

　例えば、端末装置１０がセンサ部１６を有する場合、送信部１５３は、センサ部１６により検知されたセンサ情報をデータ調整装置１００へ送信する。送信部１５３は、センサ部１６の画像センサ（イメージセンサ）により検知された画像情報をデータ調整装置１００へ送信する。

　センサ部１６は、種々のセンサ情報を検知する。センサ部１６は、画像を撮像する撮像部としての機能を有する。センサ部１６は、画像センサの機能を有し、画像情報を検知する。センサ部１６は、画像を入力として受け付ける画像入力部として機能する。

　なお、センサ部１６は、上記に限らず、種々のセンサを有してもよい。センサ部１６は、音センサ、位置センサ、加速度センサ、ジャイロセンサ、温度センサ、湿度センサ、照度センサ、圧力センサ、近接センサ、ニオイや汗や心拍や脈拍や脳波等の生体情報を受信のためのセンサ等の種々のセンサを有してもよい。また、センサ部１６における上記の各種情報を検知するセンサは共通のセンサであってもよいし、各々異なるセンサにより実現されてもよい。

［１－５．実施形態に係る情報処理の手順］
　次に、図１０及び図１１を用いて、実施形態に係る各種情報処理の手順について説明する。

［１－５－１．データ調整装置に係る処理の手順］
　まず、図１０を用いて、本開示の実施形態に係るデータ調整装置に係る処理の流れについて説明する。図１０は、本開示の実施形態に係るデータ調整装置の処理を示すフローチャートである。具体的には、図１０は、データ調整装置１００による情報処理の手順を示すフローチャートである。

　図１０に示すように、データ調整装置１００は、機械学習によるモデルの学習に用いたデータセットに含まれる各データが学習に与えた寄与度を測定する（ステップＳ１０１）。そして、データ調整装置１００は、測定結果に基づいて、データセットからデータを除外すること、またはデータセットに新たなデータを追加することにより、データセットを調整する（ステップＳ１０２）。

［１－５－２．データ調整システムに係る処理の手順］
　次に、図１１を用いて、データ調整システムに係る具体的な処理の一例について説明する。図１１は、本開示の実施形態に係るデータ調整システムの処理手順を示すシーケンス図である。

　図１１に示すように、データ調整装置１００は、学習における各データの寄与度を測定する（ステップＳ２０１）。例えば、データ調整装置１００は、機械学習によるモデルの学習に用いられた学習データが学習に与えた寄与度を測定する。

　データ調整装置１００は、寄与度が低いデータを除外する（ステップＳ２０２）。データ調整装置１００は、学習における寄与度が寄与度低の判別用の閾値以下のデータをデータセットから除外する。

　データ調整装置１００は、寄与度が高いデータに対応するデータを追加する（ステップＳ２０３）。データ調整装置１００は、学習における寄与度が寄与度高の判別用の閾値以上のデータに対応するデータを追加する。

　図８の例では、データ調整装置１００は、寄与度が高いデータに対応するデータを端末装置１０に要求する（ステップＳ２０４）。例えば、データ調整装置１００は、寄与度が高いデータに類似するデータを端末装置１０に要求する。

　データが要求された端末装置１０は、要求に対応するデータを収集する（ステップＳ２０５）。そして、端末装置１０は、収集したデータをデータ調整装置１００へ送信する（ステップＳ２０６）。

　端末装置１０からデータを取得したデータ調整装置１００は、取得したデータをデータセットに追加する（ステップＳ２０７）。

［１－６．影響度に基づくデータ調整例］
　ここで、影響度に基づくデータ調整の一例について前提について説明した後に説明する。機械学習においてディープニューラルネットワークへのデータの影響度を知ることは、ネットワークの改善にもつながる。具体的には、良い影響度を与えているデータを増やすことは、機械学習における特性の向上に役立つ。それらのデータを増やす方法として、データを水増しする方法としてデータオグメンテーション（例えば、画像を回転させたりして類似画像を増やす）によって、似たような画像を増やすことができる。また、良い影響を与えているデータに類似したデータをネットワーク上のデータから探し出し、データを増強することができる。それらデータを追加し、ディープニューラルネットワークを再学習することによって、より精度の高いディープニューラルネットワークを構築することができる。この点について、図１２を用いて説明する。図１２は、影響度に基づくデータ調整及び学習の処理の一例を示すフローチャートである。

　図１２に示すように、データ調整装置１００は、ニューラルネットワークの影響度を算出する（ステップＳ３０１）。例えば、データ調整装置１００は、ニューラルネットワークの学習に用いられた学習データが学習に与えた影響度を測定する。

　そして、データ調整装置１００は、良い影響度の高いデータを抽出する（ステップＳ３０２）。例えば、損失を減らす方向が良い影響であり、損失を増やす方向が悪い影響であり、損失を減らす方向への度合いが大きい程良い影響度が大きい。例えば、データ調整装置１００は、良い影響度が所定の基準（閾値等）以上のデータを抽出する。

　そして、データ調整装置１００は、データの追加する（ステップＳ３０３）。データ調整装置１００は、良い影響度の高いデータに類似するデータを学習データに追加する。例えば、データ調整装置１００は、データオグメンテーションにより、良い影響度の高いデータに類似するデータを生成し、生成したデータを学習データに追加してもよい。また、例えば、データ調整装置１００は、ネットワーク上のデータのうち、良い影響度の高いデータに類似するデータを学習データに追加してもよい。

　そして、データ調整装置１００は、データを追加して再学習を行う（ステップＳ３０４）。例えば、データ調整装置１００は、ステップＳ３０３でデータを追加した学習データを用いてモデルの再学習を行う。

　そして、データ調整装置１００は、再学習したモデルへアップデートする（ステップＳ３０５）。例えば、データ調整装置１００は、再学習前のモデルを再学習後のモデルに更新する。例えば、データ調整装置１００は、モデルのパラメータを再学習後のパラメータに更新する。

［１－６－１．調整の具体例］
　上述した図１２の処理の具体的な例として、データ調整装置１００がディープニューラルネットワークによる画像分類機能を搭載したカメラである場合を一例として説明する。この場合、まず、データ調整装置１００は、良い影響度を与えているデータを算出する。そして、データ調整装置１００は、そのデータに類似したデータをデータオグメンテーションにより生成し収集したり、ネットワーク上から収集したりする。データ調整装置１００は、収集したそれらのデータを追加して、元のディープニューラルネットワークを再学習する。その結果、データ調整装置１００は、カメラの画像分類機能の精度を向上させることができる。

　なお、データ増加において、良い影響を与えるデータを自律的に探し出すシステム（データ調整システム１）を構成してもよい。これにより、データ調整システム１は、人手を介することなくデータを探し出し、再学習を自動的に行うことができる。この場合、データ調整システム１は、ディープニューラルネットワークを自律的に進化させていく学習システムとなる。このデータ調整システム１によって、ディープニューラルネットワークは、自ら性能を進化させていくことができる。

［２．その他の実施形態］
　上述した各実施形態に係る処理は、上記各実施形態や変形例以外にも種々の異なる形態（変形例）にて実施されてよい。

［２－１．その他の構成例］
　なお、上記の例では、データ調整装置１００と端末装置１０とが別体である場合を示したが、これらの装置は一体であってもよい。例えば、データ調整装置１００は、学習データを調整する機能とデータを収集する機能とを有する装置であってもよい。例えば、データ調整装置１００は、影響度を基に新たな学習データを取得する情報処理装置である。この場合、データ調整装置１００は、機械学習を用いた学習済みモデルと、機械学習に用いられた学習データの機械学習に対する影響度を測定する測定部と、影響度に基づいて新たな学習データを取得する制御部（取得部等）とを有する。データ調整装置１００は、カメラ、スマホ、テレビ、自動車、ドローン、ロボット等であってもよい。このように、データ調整装置１００は、自律的に影響度の高い学習データを収集する端末装置であってもよい。

［２－２．その他］
　また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

　また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

　また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

［３．本開示に係る効果］
　上述のように、本開示に係るデータ調整システム（実施形態ではデータ調整システム１）は、測定部と、調整部とを備える情報処理装置（実施形態ではデータ調整装置１００）と、端末装置（実施形態では端末装置１０）とを有する。測定部は、ニューラルネットワークの学習に用いられた学習データが学習に与えた影響度を測定する。調整部は、影響度が低いと測定されたデータを除外し、影響度が高いと測定されたデータに対応する新たなデータである新規データを端末装置、またはデータベースから取得し、取得した新規データを追加することにより、学習データを調整する。

　このように、本開示に係るデータ調整システムは、学習データが学習に与えた影響度を用いて、データを除外したり、データを追加したりする。これにより、データ調整システムは、各データの影響度に応じてデータを増減させることで、学習データを調整することにより、学習に用いるデータを調整可能にすることができる。

　上述のように、本開示に係るデータ調整装置（実施形態ではデータ調整装置１００）は、測定部（実施形態では測定部１３３）と、調整部（実施形態では調整部１３４）とを備える。測定部は、機械学習によるモデルの学習に用いられた学習データセットに含まれる各データが学習に与えた影響度を測定する。調整部は、測定部による測定結果に基づいて、学習データから所定のデータを除外すること、または、学習データに新たなデータを追加することにより、学習データを調整する。

　このように、本開示に係るデータ調整装置は、学習データが学習に与えた影響度を用いて、データを除外したり、データを追加したりする。これにより、データ調整システムは、各データの影響度に応じてデータを増減させることで、学習データを調整することにより、学習に用いるデータを調整可能にすることができる。

　また、測定部は、損失関数に基づいて影響度を測定する。このように、データ調整装置は、損失関数に基づいて影響度を測定することで、各データの影響度を精度よく測定することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、測定部は、影響度測定に利用可能な手法により影響度を測定する。このように、データ調整装置は、影響度測定に利用可能な手法により影響度を測定することで、各データの影響度を精度よく測定することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、測定部は、Influence　functionにより影響度を測定する。このように、データ調整装置は、Influence　functionにより影響度を測定することで、各データの影響度を精度よく測定することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、測定部は、学習データの場合と、学習データから所定のデータを除いた場合との差異に基づいて、所定のデータの影響度を測定する。このように、データ調整装置は、学習データからあるデータを除いた場合と除かなかった場合との差異を基に影響度を測定することで、そのデータの影響度を精度よく測定することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、影響度が低い第１データを学習データから除外する。このように、データ調整装置は、影響度が低い第１データを学習データから除外することで、学習に寄与しないデータを学習データから適切に取り除くことができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、影響度が第１閾値よりも低い第１データを学習データから除外する。このように、データ調整装置は、影響度が第１閾値よりも低い第１データを学習データから除外することで、学習に寄与しないデータを学習データから適切に取り除くことができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、影響度が高い第２データに対応する新たなデータである新規データを学習データに追加する。このように、データ調整装置は、影響度が高い第２データに対応する新規データを学習データに追加することで、学習に寄与するデータを学習データに適切に追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、影響度が第２閾値よりも高い第２データに対応する新規データを学習データに追加する。このように、データ調整装置は、影響度が第２閾値よりも高い第２データに対応する新規データを学習データに追加することで、学習に寄与するデータを学習データに適切に追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、本開示に係るデータ調整装置は、送信部（実施形態では送信部１３５）を備える。送信部は、新規データを要求する要求情報を外部装置（実施形態では、データサーバ、カメラ、イメージセンサ、移動体等の端末装置１０）へ送信する。調整部は、外部装置から取得された新規データを学習データに追加する。このように、データ調整装置は、新規データを外部装置に要求し、外部装置から取得した新規データを学習データに追加することで、学習に寄与するデータを学習データに適切に追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、データを格納する記憶部から取得された新規データを学習データに追加する。このように、データ調整装置は、データを格納する記憶部から新規データを取得し、取得した新規データを学習データに追加することで、学習に寄与するデータを学習データに適切に追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、新規データを生成し、生成した新規データを学習データに追加する。このように、データ調整装置は、新規データを生成し、生成した新規データを学習データに追加することで、学習に寄与するデータを学習データに適切に追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、データ拡張により新規データを生成し、生成した新規データを学習データに追加する。このように、データ調整装置は、データ拡張により新規データを生成することで、寄与度が高い第２データのように寄与度が高い新規データを生成し学習データに追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、第２データを用いて新規データを生成し、生成した新規データを学習データに追加する。このように、データ調整装置は、第２データを用いて新規データを生成することで、寄与度が高い第２データのように寄与度が高い新規データを生成し学習データに追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、調整部は、第２データに類似する新規データを生成し、生成した新規データを学習データに追加する。このように、データ調整装置は、第２データに類似する新規データを生成することで、寄与度が高い第２データに類似し、寄与度が高い新規データを生成し学習データに追加することができる。したがって、データ調整装置は、学習に用いるデータを調整可能にすることができる。

　また、測定部は、ニューラルネットワークの学習に用いられた学習データの影響度を測定する。このように、データ調整装置は、ニューラルネットワークの学習に用いられた学習データからデータを除外したり、学習データにデータを追加したりする。これにより、データ調整システムは、各データの影響度に応じて学習データのデータを増減させることで、学習データを調整することにより、ニューラルネットワークの学習に用いるデータを調整可能にすることができる。

　また、本開示に係るデータ調整装置は、学習部（実施形態では学習部１３２）を備える。学習部は、調整部による調整後の学習データを用いて学習処理を実行する。このように、データ調整装置は、調整した学習データを用いて学習処理を実行することで、精度良いモデルが学習可能な学習データを用いて学習を行うことができる。データ調整装置は、学習データの調整処理と、調整した学習データを用いた学習処理とを繰り返すことで、より精度良いモデルが学習可能な学習データを用いてモデルを学習することができる。

　上述のように、本開示に係る端末装置（実施形態では、データサーバ、カメラ、イメージセンサ、移動体等の端末装置１０）は、受信部（実施形態では受信部１５１）と、送信部（実施形態では送信部１５３）とを備える。受信部は、機械学習モデルを有する外部装置（実施形態ではデータ調整装置１００）より当該機械学習に用いられる学習データを要求する要求情報を受信する。送信部は、要求情報に対応するデータとして収集されたデータを外部装置へ送信する。

　このように、本開示に係る端末装置は、機械学習によるモデルの学習に用いられた学習データを有する外部装置からの要求に応じて、その要求に対応するデータを外部装置へ提供する。これにより、学習データを有する外部装置は、端末装置から取得したデータを学習データに追加することで、学習データを調整することができる。したがって、端末装置は、学習に用いるデータを調整可能にすることができる。

　また、本開示に係る要求情報により要求される学習データは、機械学習モデルにおける学習に対する影響度が所定の基準以上である学習データに類似するデータである。このように、影響度が所定の基準以上である学習データに類似するデータを要求することにより、学習に有用なデータを収集し、そのデータを用いて学習処理を実行することで、精度良いモデルが学習可能な学習データを用いて学習を行うことができる。

　上述のように、本開示に係る情報処理装置（実施形態では、データ調整装置１００）は、機械学習を用いた学習済みモデルと、機械学習に用いられた学習データの当該機械学習に対する影響度を測定する測定部と、影響度に基づいて新たな学習データを取得する制御部と、を備える。

　このように、本開示に係る情報処理装置は、学習の影響度を基に新たな学習データを取得することで、学習に有用なデータを収集し、効率的に学習データを調整することができる。したがって、情報処理装置は、学習に用いるデータを調整可能にすることができる。

［４．ハードウェア構成］
　上述してきた各実施形態や変形例に係るデータ調整装置１００や端末装置１０等の情報機器は、例えば図１３に示すような構成のコンピュータ１０００によって実現される。図１３は、データ調整装置１００や端末装置１０等の情報処理装置の機能を実現するコンピュータ１０００の一例を示すハードウェア構成図である。以下、実施形態に係るデータ調整装置１００を例に挙げて説明する。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ（Read　Only　Memory）１３００、ＨＤＤ（Hard　Disk　Drive）１４００、通信インターフェイス１５００、及び入出力インターフェイス１６００を有する。コンピュータ１０００の各部は、バス１０５０によって接続される。

　ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、ＣＰＵ１１００は、ＲＯＭ１３００又はＨＤＤ１４００に格納されたプログラムをＲＡＭ１２００に展開し、各種プログラムに対応した処理を実行する。

　ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

　ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、ＨＤＤ１４００は、プログラムデータ１４５０の一例である本開示に係る情報処理プログラムを記録する記録媒体である。

　通信インターフェイス１５００は、コンピュータ１０００が外部ネットワーク１５５０（例えばインターネット）と接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、通信インターフェイス１５００を介して、他の機器からデータを受信したり、ＣＰＵ１１００が生成したデータを他の機器へ送信したりする。

　入出力インターフェイス１６００は、入出力デバイス１６５０とコンピュータ１０００とを接続するためのインターフェイスである。例えば、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス１６００は、所定の記録媒体（メディア）に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばＤＶＤ（Digital　Versatile　Disc）、ＰＤ（Phase　change　rewritable　Disk）等の光学記録媒体、ＭＯ（Magneto-Optical　disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

　例えば、コンピュータ１０００が実施形態に係るデータ調整装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされた情報処理プログラムを実行することにより、制御部１３０等の機能を実現する。また、ＨＤＤ１４００には、本開示に係る情報処理プログラムや、記憶部１２０内のデータが格納される。なお、ＣＰＵ１１００は、プログラムデータ１４５０をＨＤＤ１４００から読み取って実行するが、他の例として、外部ネットワーク１５５０を介して、他の装置からこれらのプログラムを取得してもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　ニューラルネットワークの学習に用いられた学習データが前記学習に与えた影響度を測定する測定部と、
　前記影響度が低いと測定されたデータを除外し、前記影響度が高いと測定されたデータに対応する新たなデータである新規データを取得し、取得した前記新規データを追加することにより、前記学習データを調整する調整部と、
　を有するデータ調整システム。
（２）
　機械学習によるモデルの学習に用いられた学習データが前記学習に与えた影響度を測定する測定部と、
　前記測定部による測定結果に基づいて、前記学習データからデータを除外すること、または前記学習データに新たなデータを追加することにより、前記学習データを調整する調整部と、
　を備えるデータ調整装置。
（３）
　前記測定部は、
　損失関数に基づいて前記影響度を測定する
　（２）に記載のデータ調整装置。
（４）
　前記測定部は、
　影響度測定に利用可能な手法により前記影響度を測定する
　（２）または（３）に記載のデータ調整装置。
（５）
　前記測定部は、
　Influence　functionにより前記影響度を測定する
　（４）に記載のデータ調整装置。
（６）
　前記測定部は、
　前記学習データの場合と、前記学習データから所定のデータを除いた場合との差異に基づいて、前記所定のデータの前記影響度を測定する
　（２）～（５）のいずれか１つに記載のデータ調整装置。
（７）
　前記調整部は、
　前記影響度が低い第１データを前記学習データから除外する
　（２）～（６）のいずれか１つに記載のデータ調整装置。
（８）
　前記調整部は、
　前記影響度が第１閾値よりも低い前記第１データを前記学習データから除外する
　（７）に記載のデータ調整装置。
（９）
　前記調整部は、
　前記影響度が高い第２データに対応する新たなデータである新規データを前記学習データに追加する
　（２）～（８）のいずれか１つに記載のデータ調整装置。
（１０）
　前記調整部は、
　前記影響度が第２閾値よりも高い前記第２データに対応する前記新規データを前記学習データに追加する
　（９）に記載のデータ調整装置。
（１１）
　前記新規データを要求する要求情報を外部装置へ送信する送信部、
　をさらに備え、
　前記調整部は、
　前記外部装置から取得された前記新規データを前記学習データに追加する
　（９）または（１０）に記載のデータ調整装置。
（１２）
　前記調整部は、
　データを格納する記憶部から取得された前記新規データを前記学習データに追加する
　（９）～（１１）のいずれか１つに記載のデータ調整装置。
（１３）
　前記調整部は、
　前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　（９）～（１２）のいずれか１つに記載のデータ調整装置。
（１４）
　前記調整部は、
　前記第２データを用いて前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　（１３）に記載のデータ調整装置。
（１５）
　前記調整部は、
　データ拡張により前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　（１３）または（１４）に記載のデータ調整装置。
（１６）
　前記調整部は、
　前記第２データに類似する前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　（１３）～（１５）のいずれか１つに記載のデータ調整装置。
（１７）
　前記測定部は、
　ニューラルネットワークの学習に用いられた前記学習データの前記影響度を測定する
　（２）～（１６）のいずれか１つに記載のデータ調整装置。
（１８）
　前記調整部による調整後の前記学習データを用いて学習処理を実行する学習部、
　をさらに備える（２）～（１７）のいずれか１つに記載のデータ調整装置。
（１９）
　機械学習によるモデルの学習に用いられた学習データが前記学習に与えた影響度を測定し、
　測定結果に基づいて、前記学習データからデータを除外すること、または前記学習データに新たなデータを追加することにより、前記学習データを調整する、
　処理を実行するデータ調整方法。
（２０）
　機械学習によるモデルの学習に用いられた学習データを有する外部装置が取得を要求するデータを示す要求情報を、前記外部装置から受信する受信部と、
　前記要求情報に対応するデータとして収集された提供用データを前記外部装置へ送信する送信部と、
　を備える端末装置。
（２１）
　前記要求情報により要求される学習データは、前記機械学習モデルにおける学習に対する影響度が所定の基準以上である学習データに類似するデータであることを特徴とする（２０）記載の端末装置。
（２２）
　情報処理装置において、
　機械学習を用いた学習済みモデルと、
　前記機械学習に用いられた学習データの当該機械学習に対する影響度を測定する測定部と、
　前記影響度に基づいて新たな学習データを取得する制御部と、
　を備えることを特徴とする情報処理装置。

　１　データ調整システム
　１００　データ調整装置（情報処理装置）
　１１０　通信部
　１２０　記憶部
　１２１　データ情報記憶部
　１２２　モデル情報記憶部
　１２３　閾値情報記憶部
　１３０　制御部
　１３１　取得部
　１３２　学習部
　１３３　測定部
　１３４　調整部
　１３５　送信部
　１０　端末装置（データサーバ、カメラ、イメージセンサ、移動体）
　１１　通信部
　１２　入力部
　１３　出力部
　１４　記憶部
　１５　制御部
　１５１　受信部
　１５２　収集部
　１５３　送信部
　１６　センサ部

Claims

　情報処理装置と、端末装置とを有し、
　前記情報処理装置は、
　ニューラルネットワークの学習に用いられた学習データが前記学習に与えた影響度を測定する測定部と、
　前記影響度が低いと測定されたデータを除外し、又は、前記影響度が高いと測定されたデータに対応する新たなデータである新規データを端末装置、またはデータベースから取得し、取得した前記新規データを追加することにより、前記学習データを調整する調整部と、
　を備えるデータ調整システム。
　機械学習によるモデルの学習に用いられた学習データが前記学習に与えた影響度を測定する測定部と、
　前記測定部による測定結果に基づいて、前記学習データから所定のデータを除外すること、または、前記学習データに新たなデータを追加することにより、前記学習データを調整する調整部と、
　を備えるデータ調整装置。
　前記測定部は、
　損失関数に基づいて前記影響度を測定する
　請求項２に記載のデータ調整装置。
　前記測定部は、
　影響度測定に利用可能な手法により前記影響度を測定する
　請求項２に記載のデータ調整装置。
　前記測定部は、
　Influence　functionにより前記影響度を測定する
　請求項４に記載のデータ調整装置。
　前記測定部は、
　前記学習データの場合と、前記学習データから所定のデータを除いた場合との差異に基づいて、前記所定のデータの前記影響度を測定する
　請求項２に記載のデータ調整装置。
　前記調整部は、
　前記影響度が低い第１データを前記学習データから除外する
　請求項２に記載のデータ調整装置。
　前記調整部は、
　前記影響度が第１閾値よりも低い前記第１データを前記学習データから除外する
　請求項７に記載のデータ調整装置。
　前記調整部は、
　前記影響度が高い第２データに対応する新たなデータである新規データを前記学習データに追加する
　請求項２に記載のデータ調整装置。
　前記調整部は、
　前記影響度が第２閾値よりも高い前記第２データに対応する前記新規データを前記学習データに追加する
　請求項９に記載のデータ調整装置。
　前記新規データを要求する要求情報を外部装置へ送信する送信部、
　をさらに備え、
　前記調整部は、
　前記外部装置から取得された前記新規データを前記学習データに追加する
　請求項９に記載のデータ調整装置。
　前記調整部は、
　データを格納する記憶部から取得された前記新規データを前記学習データに追加する
　請求項９に記載のデータ調整装置。
　前記調整部は、
　前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　請求項９に記載のデータ調整装置。
　前記調整部は、
　前記第２データを用いて前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　請求項１３に記載のデータ調整装置。
　前記調整部は、
　データ拡張により前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　請求項１３に記載のデータ調整装置。
　前記調整部は、
　前記第２データに類似する前記新規データを生成し、生成した前記新規データを前記学習データに追加する
　請求項１３に記載のデータ調整装置。
　前記測定部は、
　ニューラルネットワークの学習に用いられた前記学習データに含まれるデータの前記影響度を測定する
　請求項２に記載のデータ調整装置。
　前記調整部による調整後の前記学習データを用いて学習処理を実行する学習部、
　をさらに備える請求項２に記載のデータ調整装置。
　機械学習によるモデルの学習に用いられた学習データに含まれるデータが前記学習に与えた影響度を測定し、
　測定結果に基づいて、前記学習データからデータを除外すること、または、前記学習データに新たなデータを追加することにより、前記学習データを調整する、
　処理を実行するデータ調整方法。
　機械学習モデルを有する外部装置より当該機械学習に用いられる学習データを要求する要求情報を受信する受信部と、
　前記要求情報に対応するデータとして収集されたデータを前記外部装置へ送信する送信部と、
　を備える端末装置。
　前記要求情報により要求される学習データは、前記機械学習モデルにおける学習に対する影響度が所定の基準以上である学習データに類似するデータであることを特徴とする請求項２０に記載の端末装置。
　情報処理装置において、
　機械学習を用いた学習済みモデルと、
　前記機械学習に用いられた学習データの当該機械学習に対する影響度を測定する測定部と、
　前記影響度に基づいて新たな学習データを取得する制御部と、
　を備えることを特徴とする情報処理装置。