WO2021137294A1

WO2021137294A1 - 情報処理方法、および情報処理システム

Info

Publication number: WO2021137294A1
Application number: PCT/JP2020/047284
Authority: WO
Inventors: 智行奥野; 洋平中田; 育規石井
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2019-12-30
Filing date: 2020-12-17
Publication date: 2021-07-08
Also published as: EP4086814A1; US20220327362A1; EP4086814A4; CN114902244A; JPWO2021137294A1

Abstract

第１データを第１モデルに入力して第１結果を取得し（Ｓ１０１）、第１データを第２モデルに入力して第２結果を取得し（Ｓ１０２）、判別モデルに入力された第１結果についての判別情報と、第１モデルの出力であることを示す正解情報との誤差を取得し（Ｓ１０３）、判別モデルに入力された第２結果についての判別情報と、第２モデルの出力であることを示す正解情報との誤差を取得し（Ｓ１０４）、誤差を小さくするように判別モデルを機械学習により訓練し（Ｓ１０５）、第２データを第２モデルに入力して第３結果を取得し（Ｓ１０６）、判別モデルに入力された第３結果についての判別情報と、第１モデルの出力であることを示す正解情報との誤差を取得し（Ｓ１０７）、誤差を小さくするように第２モデルを機械学習により訓練する（Ｓ１０８）。

Description

情報処理方法、および情報処理システム

　本発明は、情報処理方法、および情報処理システムに関する。

　システムの計算リソース及び性能仕様に基づいて機械学習処理のための設定を変更する技術がある（特許文献１参照）。これにより、計算リソース及び性能仕様が制約されても推論性能がある程度維持される。

米国特許出願公開第２０１６／０３２８６４４号明細書

　しかしながら、上記文献で開示される技術では、推論性能は維持されても、設定変更前の機械学習処理により得られる推論モデルによる推論結果と、設定変更後の機械学習処理により得られる推論モデルの推論結果とが異なることがあるという問題がある。

　そこで、本発明は、２つの推論モデルの間に生じる推論結果の差異を小さくする情報処理方法などを提供する。

　本発明の一態様に係る情報処理方法は、プロセッサがメモリを用いて実行する情報処理方法であって、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、前記第２推論モデルを機械学習により訓練する情報処理方法である。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

　本発明の情報処理方法は、２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。

図１は、実施の形態１における処理システムの機能構成を示すブロック図である。図２は、実施の形態１における処理システムにおける判別モデルの訓練を示す説明図である。図３は、実施の形態１における処理システムにおける判別モデルの訓練に用いられる正解情報を示す説明図である。図４は、実施の形態１における処理システムにおける識別モデルの訓練を示す説明図である。図５は、実施の形態１における処理システムにおける識別モデルの訓練に用いられる正解情報を示す説明図である。図６は、実施の形態１における処理システムが実行する処理を示すフロー図である。図７は、実施の形態１における推論システムの機能構成を示すブロック図である。図８は、実施の形態１における推論システムが実行する処理を示すフロー図である。図９は、実施の形態２における処理システムの機能構成を示すブロック図である。図１０は、実施の形態２における処理システムにおける識別モデルの訓練を示す説明図である。図１１は、実施の形態２における処理システムが実行する処理を示すフロー図である。図１２は、実施の形態３における処理システムの機能構成を示すブロック図である。図１３は、実施の形態３における処理システムにおける判別モデルの訓練を示す説明図である。図１４は、実施の形態３における処理システムにおける判別モデルの訓練に用いられる正解情報を示す説明図である。図１５は、実施の形態３における処理システムにおける識別モデルの訓練を示す説明図である。図１６は、実施の形態３における処理システムにおける識別モデルの訓練に用いられる正解情報を示す説明図である。図１７は、実施の形態３における処理システムが実行する処理を示すフロー図である。図１８は、実施の形態４における処理システムの機能構成を示すブロック図である。図１９は、実施の形態４における処理システムの機能構成の別の例を示すブロック図である。図２０は、実施の形態４におけるノイズ付与部が付与するノイズの付与方法を説明するための模式図である。図２１は、実施の形態４における処理システムが実行する処理を示すフロー図である。図２２は、実施の形態４における処理システムが実行する処理の別の例を示すフロー図である。図２３は、実施の形態５における処理システムの機能構成を示すブロック図である。図２４は、実施の形態５におけるノイズ付与部が付与するノイズを説明するための模式図である。図２５は、実施の形態５におけるノイズ付与部が付与するノイズの付与方法を説明するための模式図である。図２６は、実施の形態５における処理システムが実行する処理を示すフロー図である。

　近年、ＩｏＴ機器にＤｅｅｐ　Ｌｅａｒｎｉｎｇ等の機械学習で訓練された推論モデルを組み込むことが検討されている。しかし、当該推論モデルは、コスト及びプライバシーの観点から、クラウドコンピューティング環境又はＧＰＵ（Ｇｒａｐｈｉｃａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）を用いた環境ではなく、演算能力及びメモリ容量などの計算リソースが限られた機器上のプロセッサで動作することが求められる。このような計算リソースが限られたプロセッサ上で推論を行うために、推論モデルを量子化する等の手法を用いて推論モデルを軽量化することが考えられる。

　例えば、上記特許文献１で開示される技術は、システムの計算リソース及び性能仕様に基づいて機械学習処理のための設定を変更する。これにより、計算リソース及び性能仕様が制約されても推論性能がある程度維持される。

　しかし、推論性能が維持されても、軽量化前の推論モデルの振る舞いと、軽量化後の推論モデルの振る舞いとの間に差異が生じることがある。言い換えると、軽量化前の推論モデルの推論結果と、軽量化後の推論モデルの推論結果との間に差異が生じることがある。

　そこで、本発明の一態様に係る情報処理方法は、プロセッサがメモリを用いて実行する情報処理方法であって、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、前記第２推論モデルを機械学習により訓練する情報処理方法である。

　上記態様によれば、上記情報処理方法は、第１推論結果および第２推論結果のどちらであるかを適切に判別できる判別モデルの訓練をしたうえで、訓練されたその判別モデルを用いて第２推論結果が第１推論結果であると判別されるように第２推論モデルを訓練する。その結果、第２推論モデルは、第１推論モデルと同じ推論結果を出力するように訓練される。つまり、上記情報処理方法は、第１推論モデルと第２推論モデルとの間に生じる推論結果の差異を小さくすることができる。したがって、２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。具体的には、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。このように、上記情報処理方法は、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。

　例えば、訓練された前記第２推論モデルに、別の前記第２データを入力して、別の前記第３推論結果を取得し、取得した別の前記第３推論結果に基づいて、前記第２推論モデルをさらに訓練してもよい。

　上記態様によれば、訓練された第２推論モデルを新たな第１データを用いてさらに訓練する（言い換えると訓練を再帰的に繰り返す）ので、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異をより一層小さくすることができる。よって、上記情報処理方法は、２つの推論モデルの間に生じる推論結果の差異をより一層小さくすることができる。

　また、本発明の一態様に係る情報処理方法は、プロセッサがメモリを用いて実行する情報処理方法であって、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、第３推論モデルを機械学習により訓練し、訓練された前記第３推論モデルを変換する変換処理によって、前記第２推論モデルを更新する情報処理方法である。

　上記態様によれば、上記情報処理方法は、第１推論結果および第２推論結果のどちらであるかを適切に判別できる判別モデルの訓練をしたうえで、訓練されたその判別モデルを用いて第２推論結果が第１推論結果であると判別されるように第３推論モデルを訓練する。そして、訓練された第３推論モデルから変換処理により第２推論モデルを得ることで、第２推論モデルを更新する。その結果、第２推論モデルは、第１推論モデルと同じ推論結果を出力するように訓練される。つまり、上記情報処理方法は、第１推論モデルと第２推論モデルとの間に生じる推論結果の差異を小さくすることができる。したがって、２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。具体的には、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。このように、上記情報処理方法は、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。

　例えば、更新された前記第２モデルに、別の前記第２データを入力して、別の前記第３推論結果を取得し、取得した別の前記第３推論結果に基づいて、前記第３推論モデルを機械学習によりさらに訓練し、さらに訓練された前記第３推論モデルの前記変換処理によって前記第２推論モデルをさらに更新してもよい。

　上記態様によれば、訓練された第３推論モデルを新たな第１データを用いてさらに訓練して第２推論モデルを得る（言い換えると訓練を再帰的に繰り返す）ので、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異をより一層小さくすることができる。よって、上記情報処理方法は、２つの推論モデルの間に生じる推論結果の差異をより一層小さくすることができる。

　例えば、前記第１推論モデル、前記第２推論モデル、及び前記第３推論モデルは、ニューラルネットワークモデルであり、前記変換処理は、前記ニューラルネットワークモデルを軽量化する処理を含んでもよい。

　上記態様によれば、第３推論モデルであるニューラルネットワークモデルを軽量化することで第２推論モデルを得る。よって、第１推論モデルに基づいて、軽量化された新たな第２推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。よって、上記情報処理方法は、推論モデルに基づいて、軽量化された新たな推論モデルを得る場合に、上記２つの推論モデルの間に生じる差異を小さくすることができる。したがって、ＩｏＴ機器などの計算リソースが限られた環境においても、推論性能を維持しつつ第１推論モデルの振る舞いに近い第２推論モデルを適用することができる。

　例えば、前記軽量化する処理は、前記ニューラルネットワークモデルを量子化する処理を含んでもよい。

　上記態様によれば、第３推論モデルであるニューラルネットワークモデルを量子化することで第２推論モデルを得る。そのため、ネットワーク構造を変更することなくニューラルネットワークモデルを軽量化でき、軽量化前後の推論性能及び推論結果（振る舞い）の変動を抑制することができる。

　例えば、前記量子化する処理は、前記ニューラルネットワークモデルの係数を浮動小数点形式から固定小数点形式へ変換する処理を含んでもよい。

　上記態様によれば、第３推論モデルであるニューラルネットワークモデルの係数（重み）を浮動小数点形式から固定小数点形式に変換することで第２推論モデルを得る。そのため、推論性能及び推論結果（振る舞い）の変動を抑制しながら、一般的な組込み環境に適応させることができる。

　例えば、前記軽量化する処理は、前記ニューラルネットワークモデルのノードを削減する処理、または、前記ニューラルネットワークモデルのノードの接続を削減する処理を含んでもよい。

　上記態様によれば、第３推論モデルであるニューラルネットワークモデルのノードの削減またはノードの接続の削減をすることで第２推論モデルを得る。そのため、ノード数及びノードの接続の削減は計算量の削減に直結するため、第２推論モデルを計算リソースの制約が厳しい環境に適応させることができる。

　例えば、さらに、前記第１データを前記第１推論モデルに入力することで得られる特徴量を前記判別モデルに入力して第４推論結果を取得し、前記判別モデルの訓練では、さらに前記第１推論結果と前記第４推論結果との差分を示す第４誤差をさらに用いて前記判別モデルを機械学習により訓練してもよい。

　上記態様によれば、第１推論モデルから得られる特徴量に対する判別モデルによる推論結果（第４推論結果）と、第１推論結果との差分をさらに用いて判別モデルを訓練する。これにより、判別モデルの推論結果と第１推論モデルの推論結果との差異を小さくし、これにより、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異をより一層小さくすることができる。よって、上記情報処理方法は、２つの推論モデルの間に生じる推論結果の差異をより一層小さくすることができる。

　例えば、さらに、前記第２推論結果にノイズを付与し、前記第２判別情報の取得では、前記判別モデルに前記ノイズが付与された前記第２推論結果を入力して前記第２判別情報を取得してもよい。

　上記態様によれば、判別モデルが第１推論結果と第２推論結果とを容易に見分けることができるようになることを抑制できる。判別モデルの訓練が進むと、第１推論結果と第２推論結果との判別が容易となり、判別情報を用いた第２推論モデルの訓練が停滞してしまうことがある。しかし、上記態様によれば、少なくとも第２推論結果にノイズが付与されるため、判別モデルによる判別が困難となる。その結果、第２推論モデルの訓練が停滞することを抑制できる。

　例えば、前記ノイズは、前記第２推論結果の離散幅に基づいて決定されてもよい。

　上記態様によれば、推論結果の特徴を残しつつ、判別モデルが推論結果の離散幅を特徴として推論結果を判別してしまうことを抑制できる。

　例えば、前記ノイズは、ガウスノイズを含み、前記ガウスノイズの分布の振幅は、前記ガウスノイズの標準偏差と前記第２推論結果の離散幅とに基づいて決定されてもよい。

　上記態様によれば、離散幅をガウスノイズでカバーする範囲を制御することができる。したがって、判別モデルが判別できない程度にガウスノイズを決定することができ、ノイズの過不足を抑制できる。

　例えば、前記ガウスノイズの分布の振幅は、前記第２推論結果のエレメント成分の所定の範囲ごとに決定されてもよい。

　例えば、前記ガウスノイズの分布の振幅は、前記第２推論結果のチャネル成分の所定の範囲ごとに決定されてもよい。

　上記態様によれば、振幅が各成分の所定の範囲ごとに決定されるため、各成分の所定の範囲ごとにノイズを決定することができる。したがって、各成分の所定の範囲ごとに、判別モデルが判別困難となるようなノイズをそれぞれ付与することができる。

　例えば、前記ノイズは、所定のエレメント成分を有する前記第２推論結果の一部に付与されてもよい。

　例えば、前記ノイズは、所定のチャネル成分を有する前記第２推論結果の一部に付与されてもよい。

　上記態様によれば、各成分の所定の範囲ごとに、判別モデルが判別困難となるようなノイズをそれぞれ付与することができる。

　例えば、さらに、前記第２推論結果にノイズを付与し、前記第２判別情報の取得では、前記判別モデルに前記ノイズが付与された前記第２推論結果を入力して前記第２判別情報を取得し、前記ノイズは、ガウスノイズを含み、前記ガウスノイズは、前記第２推論結果の離散幅に基づいて決定され、前記離散幅は、前記変換処理における変換設定に基づいて決定されてもよい。

　上記態様によれば、変換の内容を考慮して離散幅が決定されノイズが当該離散幅に基づいて決定されるため、変換後の推論モデルが出力する推論結果に適したノイズを付与することができる。したがって、推論モデルの変換により生じる推論結果の離散化による判別モデルの判別処理への影響を効果的に抑制することができる。

　例えば、前記第１データおよび前記第２データは、画像データであってもよい。

　上記態様によれば、画像データに対する推論に用いる推論モデルに基づいて新たな推論モデルを得る場合に、上記２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。

　また、本発明の一態様に係る情報処理システムは、第３データを取得する取得部と、前記取得部が取得した前記第３データを第２推論モデルに入力し、第２推論結果を取得して出力する推論部とを備え、前記第２推論モデルは、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、前記第２判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、前記第２推論モデルを機械学習により訓練する、ことにより得られた第２推論モデルである情報処理システムである。

　上記態様によれば、情報処理システムは、既存の推論モデルに基づいて、推論結果の差異を小さくするように生成された新たな推論モデルを用いて推論処理を実行し、推論結果を出力することができる。

　また、本発明の一態様に係る情報処理システムは、第３データを取得する取得部と、前記取得部が取得した前記第３データを第２推論モデルに入力し、第２推論結果を取得して出力する推論部とを備え、前記第２推論モデルは、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、第３推論モデルを機械学習により訓練し、訓練された前記第３推論モデルを変換する変換処理によって、前記第２推論モデルを更新することにより得られた第２推論モデルである情報処理システムである。

　なお、これらの包括的または具体的な態様は、システム、装置、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。

　（実施の形態１）
　本実施の形態において、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくする情報処理方法および情報処理システムについて説明する。以降において、情報処理方法を単に処理方法ともいい、情報処理システムを単に処理システムともいう。

　図１は、本実施の形態における処理システム１０の機能構成を示すブロック図である。処理システム１０は、既存の推論モデルと同じ推論結果を出力するように構成された新たな推論モデルを得るためのシステムである。

　図１に示されるように、処理システム１０は、識別部１１と、判別部１２と、算出部１３と、判別訓練部１４と、識別訓練部１５とを備える。処理システム１０が備える各機能部は、プロセッサ（例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ））（不図示）が、メモリを用いて所定のプログラムを実行することで実現され得る。なお、処理システム１０は、１つの装置として実現されてもよいし、互いに通信可能な複数の装置によって実現されてもよい。

　識別部１１は、入力されたデータ（入力データともいう）を、推論モデルである識別モデルを用いて識別する機能部である。識別モデルは、例えば、ニューラルネットワークモデルである。入力データは、例えば画像データであり、この場合を例として説明するが、入力データは、マイクロフォンから出力される音声データ、ＬｉＤＡＲ（Ｌｉｇｈｔ　Ｄｅｔｅｃｔｉｏｎ　ａｎｄ　Ｒａｎｇｉｎｇ）等のレーダから出力される点群データ、圧力センサから出力される圧力データ、温度センサ又は湿度センサから出力される温度データ又は湿度データ、または、香りセンサから出力される香りデータなどのような、正解データが取得可能なセンシングデータが用いられ得る。入力データは、第１データおよび第２データに相当する。

　識別部１１は、入力データを識別する識別モデルに用いられるニューラルネットワークとして、ネットワークＡおよびＢを取得する。より具体的には、識別部１１は、ネットワークＡおよびＢそれぞれに含まれる係数を取得する。ネットワークＡを用いた識別モデルが、「既存の推論モデル」に相当し、第１推論モデルともいう。ネットワークＢを用いた識別モデルが、既存の推論モデルと同じ推論結果を出力するように構成される新たな推論モデルに相当し、第２推論モデルともいう。ネットワークＢを用いた識別モデルは、識別訓練部１５によって、ネットワークＡを用いた識別モデルと同じ識別結果を出力するように訓練される（後述）。

　識別部１１は、入力データをネットワークＡを用いた識別モデルで識別した結果を示す識別結果（第１推論結果ともいう）を出力する。また、識別部１１は、入力データをネットワークＢを用いて識別した結果を示す識別結果（第２推論結果ともいう）を出力する。また、識別部１１は、識別訓練部１５によって訓練された、ネットワークＢを用いた識別モデルで、入力データを識別した結果を示す識別結果（第３推論結果ともいう）を出力する。

　上記識別結果は、入力データである画像データを識別した結果を示す情報であり、例えば、画像データに映っている物もしくは状況、または、それらの属性を示す情報を含む。また、上記識別結果は、入力データの特徴を示す情報である特徴量を含んでもよい。また、上記識別結果は、識別モデルの処理の中間データであってもよく、上記特徴量が中間データであってもよい。

　判別部１２は、識別部１１による識別結果を取得し、取得した識別情報が、ネットワークＡを用いた識別モデルで識別した結果であるのか、または、ネットワークＢを用いた識別モデルで識別した結果であるのかを判別する機能部である。判別部１２は、推論モデル（判別モデルともいう）を用いて上記判別を行う。判別モデルは、例えば、ニューラルネットワークモデルである。

　判別部１２は、識別部１１から、ネットワークＡを用いた識別モデルで識別した結果（ネットワークＡによる識別結果ともいう）と、ネットワークＢを用いた識別モデルで識別した結果（ネットワークＢによる識別結果ともいう）とを取得する。判別部１２は、識別部１１から得た識別結果を判別モデルに入力して、入力された識別結果についての判別情報を取得する。判別情報は、入力された識別結果が、ネットワークＡによる識別結果であるか、または、ネットワークＢによる識別結果であるかを示す情報であり、例えば、ネットワークＡによる識別結果であるか、または、ネットワークＢによる識別結果であるかを確率的に示す情報である。

　算出部１３は、判別部１２が出力した判別情報と正解情報との誤差を算出する機能部である。算出部１３は、ネットワークＡによる識別結果に対して判別部１２が判別した結果を示す判別情報と、正解情報との差分を示す誤差情報（第１誤差ともいう）とを取得する。ここで、正解情報は、判別情報がネットワークＡによる識別結果であることを示す情報である。また、誤差情報は、判別情報と正解情報とを用いて、算出部１３が保有している損失関数によって演算することで算出される。損失関数は、例えば、判別情報と正解情報とのそれぞれに含まれる確率の二乗和誤差を利用した関数であり、この場合を例として説明するがこれに限られない。

　また、算出部１３は、ネットワークＢによる識別結果に対して判別部１２が判別した結果を示す判別情報と、正解情報との差分を示す誤差情報（第２誤差ともいう）とを取得する。ここで、正解情報は、判別情報がネットワークＢによる識別結果であることを示す情報である。また、誤差情報については、ネットワークＡを用いる場合と同様である。

　また、算出部１３は、訓練されたネットワークＢによる識別結果（第３推論結果に相当）に対して判別部１２が判別した結果を示す判別情報と、正解情報との差分を示す誤差情報（第３誤差ともいう）を取得する。ここで、正解情報は、判別情報がネットワークＡによる識別結果であることを示す情報である。

　判別訓練部１４は、判別モデルを機械学習により訓練する機能部である。判別訓練部１４は、算出部１３が算出した第１誤差および第２誤差を取得し、第１誤差および第２誤差を小さくするように、判別モデルを機械学習により訓練する。判別訓練部１４は、算出部１３が保有している損失関数を参照し、判別モデルに含まれる係数をどのように調整すれば、第１誤差および第２誤差が小さくなるかを判断し、第１誤差および第２誤差が小さくなるように判別モデルに含まれる係数を更新する。損失関数には、二乗和誤差を用いる方法などの周知技術が採用され得る。

　識別訓練部１５は、ネットワークＢを用いた識別モデルを機械学習により訓練する機能部である。識別訓練部１５は、算出部１３が算出した第３誤差を取得し、第３誤差を小さくするように、ネットワークＢを用いた識別モデルを機械学習により訓練する。識別訓練部１５は、算出部１３が保有している損失関数を参照し、ネットワークＢに含まれる係数をどのように調整すれば、第３誤差が小さくなるかを判断し、第３誤差が小さくなるようにネットワークＢに含まれる係数を更新する。このとき、識別訓練部１５は、判別モデルに含まれる係数を変化させずに固定している。係数の更新によって訓練されたネットワークＢは、識別部１１に入力される。

　さらに、識別部１１は、識別訓練部１５が更新したネットワークＢを用いた識別モデルに、新たな入力データを入力することで、新たな識別結果を取得する。そして、取得された識別結果を上記識別情報として用いることによって、判別部１２、算出部１３、判別訓練部１４および識別訓練部１５が上記と同様の処理を実行することで、処理システム１０は、ネットワークＢをさらに訓練する。

　以降において、処理システム１０によるネットワークＢの更新の概要について説明する。ネットワークＢの更新は、判別モデルの訓練と、ネットワークＢを用いた識別モデルの訓練とが繰り返し実行されることでなされる。以降において、（１）判別モデルの訓練と、（２）ネットワークＢを用いた識別モデルの訓練とについて説明する。

　（１）判別モデルの訓練
　図２は、本実施の形態における処理システム１０における判別モデルの訓練を示す説明図である。図３は、本実施の形態における処理システム１０における判別モデルの訓練に用いられる正解情報を示す説明図である。

　識別部１１は、入力画像が入力されたとき、ネットワークＡを用いた識別モデルと、ネットワークＢを用いた識別モデルとのそれぞれによって画像を識別する識別処理を実行し、識別結果を出力する。識別結果は、例えば、「犬：７０％、猫：３０％」という情報である。上記識別結果は、入力画像に映っている被写体が犬である確率が７０％であり、被写体が猫である確率が３０％であることを意味する。以降でも同様とする。識別部１１が出力した識別結果は、判別部１２に提供される。

　判別部１２は、識別部１１から提供された識別結果が、ネットワークＡを用いた識別モデルによって識別された識別結果であるか、または、ネットワークＢを用いた識別モデルによって識別された識別結果であるかをネットワークＤを用いた判別モデルによって判別する。判別情報は、例えば、「Ａ：７０％、Ｂ：３０％」という情報である。上記識別結果は、ネットワークＡを用いた識別モデルで識別された識別結果である確率が７０％であり、ネットワークＢを用いた識別モデルで識別された識別結果である確率が３０％であることを意味する。

　算出部１３は、ネットワークＡについて、判別部１２が出力した判別情報と、正解情報との誤差を算出する。具体的には、算出部１３は、ネットワークＡを用いた識別モデルでの識別結果に対する判別結果として「Ａ：７０％、Ｂ：３０％」という判別情報が得られた場合、この判別情報と、ネットワークＡを用いた識別モデルでの識別結果を示す正解情報「Ａ：１００％、Ｂ：０％」とを比較する（図３参照）。そして、算出部１３は、判別情報と正解情報とにおけるネットワークＡに係る確率の差（１－０．７）の二乗である０．０９から算出される誤差を得る。

　また、算出部１３は、ネットワークＢについても上記と同様に、判別部１２が出力した判別情報と、正解情報との誤差を算出する。すなわち、算出部１３は、ネットワークＢを用いた識別モデルでの識別結果に対する判別結果として「Ａ：７０％、Ｂ：３０％」という判別情報が得られた場合、ネットワークＢを用いた識別モデルでの識別結果を示す正解情報「Ａ：０％、Ｂ：１００％」とを比較する（図３参照）。そして、算出部１３は、判別情報と正解情報とにおけるネットワークＢに係る確率の差（１－０．３）の二乗である０．４９から算出される誤差を得る。

　判別訓練部１４は、算出部１３によって算出される誤差を小さくするように、ネットワークＤに含まれる係数を調整する。このとき、判別訓練部１４は、損失関数を参照し、係数の調整によって上記誤差が小さくなるように上記係数を調整する。このようにして、判別訓練部１４は、ネットワークＤの係数を調整することによってネットワークＤを更新する。

　（２）ネットワークＢを用いた識別モデルの訓練
　図４は、本実施の形態における処理システム１０における識別モデルの訓練を示す説明図である。図５は、本実施の形態における処理システム１０における識別モデルの訓練に用いられる正解情報を示す説明図である。

　図４に示されるように、識別部１１に入力画像が入力されたとき、識別部１１は、ネットワークＢを用いた識別モデルによって画像を識別する識別処理を実行し、識別結果を出力する。識別結果は、例えば、「犬：８０％、猫：２０％」という情報である。識別部１１が出力した識別結果は、判別部１２に提供される。

　判別部１２は、識別部１１から提供された識別結果が、ネットワークＡを用いた識別モデルによって識別された識別結果であるか、または、ネットワークＢを用いた識別モデルによって識別された識別結果であるかをネットワークＤを用いた判別モデルによって判別する。判別結果は、例えば、「Ａ：２０％、Ｂ：８０％」という判別情報として得られる。

　算出部１３は、判別部１２が出力した判別情報と、正解情報との差分を算出する。具体的には、算出部１３は、ネットワークＢを用いた識別モデルでの識別結果に対する判別結果として「Ａ：２０％、Ｂ：８０％」という判別情報が得られた場合、ネットワークＡを用いた識別モデルでの識別結果を示す正解情報「Ａ：１００％、Ｂ：０％」とを比較する（図５参照）。そして、算出部１３は、判別情報と正解情報とにおけるネットワークＡに係る確率の差（１－０．２）の二乗である０．６４から算出される誤差を得る。

　そして、識別訓練部１５は、算出部１３によって算出される誤差を小さくするように、ネットワークＢに含まれる係数を調整する。このとき、識別訓練部１５は、ネットワークＤに含まれる係数を変化させずに固定している。

　識別訓練部１５がネットワークＢに含まれる係数を調整するときには、損失関数を参照し、係数の調整によって上記誤差を小さくするように上記係数を調整する。このようにして、識別訓練部１５は、ネットワークＢの係数を調整することによってネットワークＢを更新する。

　以上のように構成された処理システム１０が実行する処理について説明する。

　図６は、本実施の形態における処理システム１０が実行する処理（処理方法ともいう）を示すフロー図である。

　ステップＳ１０１において、識別部１１は、ネットワークＡを用いた識別モデルに入力データを入力して、ネットワークＡによる識別結果を取得する。

　ステップＳ１０２において、識別部１１は、ネットワークＢを用いた識別モデルに入力データを入力して、ネットワークＢによる識別結果を取得する。

　ステップＳ１０３において、判別部１２は、ステップＳ１０１で識別部１１が取得したネットワークＡによる識別結果を判別モデルに入力することで判別情報を取得する。また、算出部１３は、判別部１２が取得した判別情報と、正解情報との誤差を算出する。上記正解情報は、入力された識別結果が、ネットワークＡによる識別結果であることを示す情報である。

　ステップＳ１０４において、判別部１２は、ステップＳ１０２で識別部１１が取得したネットワークＢによる識別結果を判別モデルに入力することで判別情報を取得する。また、算出部１３は、判別部１２が取得した判別情報と、正解情報との誤差を算出する。上記正解情報は、入力された識別結果が、ネットワークＢによる識別結果であることを示す情報である。

　ステップＳ１０５において、判別訓練部１４は、ステップＳ１０３およびＳ１０４で算出された誤差を用いて、判別モデルに入力された識別結果がネットワークＡまたはＢのどちらによる識別結果であるかを判別モデルが正しく判別できるように、判別モデルのネットワークの係数を更新する。これにより、判別モデルが訓練される。

　ステップＳ１０６において、識別部１１は、ネットワークＢを用いた識別モデルに入力データを入力して、ネットワークＢによる識別結果を取得する。

　ステップＳ１０７において、判別部１２は、ステップＳ１０６で識別部１１が取得したネットワークＢによる識別結果を判別モデルに入力することで判別情報を取得する。また、算出部１３は、判別部１２が取得した判別情報と、正解情報との誤差を算出する。上記正解情報は、入力された識別結果が、ネットワークＡによる識別結果であることを示す情報である。

　ステップＳ１０８において、識別訓練部１５は、ステップＳ１０７で算出された誤差を用いて、ネットワークＢによる識別結果がネットワークＡの識別結果であると判別部１２により判別されるように、ネットワークＢの係数を更新する。

　以上の一連の処理により、処理システム１０は、ネットワークＡによる識別結果およびネットワークＢによる識別結果のどちらであるかを適切に判別できる判別モデルの訓練をしたうえで、訓練されたその判別モデルを用いて、ネットワークＢによる識別結果がネットワークＡの識別結果であると判別されるようにネットワークＢの係数を更新し、これにより、ネットワークＢを用いた識別モデルを訓練する。その結果、ネットワークＢを用いた識別モデルは、ネットワークＡを用いた識別モデルと同じ推論結果を出力するように訓練される。このように、処理システム１０は、ネットワークＡを用いた識別モデルに基づいて、ネットワークＢを用いた識別モデルを得る場合に生じ得る識別結果の差異を小さくすることができる。

　次に、処理システム１０によって得られたネットワークＢを用いた推論システム２０について説明する。推論システムを情報処理システムともいう。

　図７は、本実施の形態における推論システム２０の機能構成を示すブロック図である。

　図７に示されるように、推論システム２０は、取得部２１と、推論部２２とを備える。推論システム２０が備える各機能部は、プロセッサ（例えばＣＰＵ）（不図示）が、メモリを用いて所定のプログラムを実行することで実現され得る。

　取得部２１は、入力されたデータ（入力データともいう）を取得する機能部である。入力データは、処理システム１０に入力されるデータと同様に、例えば画像データである。取得部２１は、取得した入力データを推論部２２に提供する。入力データは、第３データに相当する。

　推論部２２は、取得部２１が取得した入力データを推論モデル（第２推論モデルに相当）に入力し、推論結果を取得して出力する機能部である。推論部２２が推論結果を得るために用いる推論モデルは、処理システム１０によって訓練された、ネットワークＢを用いた識別モデルである。

　図８は、本実施の形態における推論システム２０が実行する処理を示すフロー図である。

　図８に示されるように、ステップＳ２０１において、取得部２１は、入力データを取得する。

　ステップＳ２０２において、推論部２２は、取得部２１が取得した入力データを推論モデルに入力し、推論結果を取得して出力する。

　このようにして、推論システム２０は、既存の推論モデルに基づいて、推論結果の差異を小さくするように生成された新たな推論モデルを用いて推論処理を実行し、推論結果を出力することができる。

　以上のように、本実施の形態の情報処理方法は、第１推論結果および第２推論結果のどちらであるかを適切に判別できる判別モデルの訓練をしたうえで、訓練されたその判別モデルを用いて第２推論結果が第１推論結果であると判別されるように第２推論モデルを訓練する。その結果、第２推論モデルは、第１推論モデルと同じ推論結果を出力するように訓練される。つまり、上記情報処理方法は、第１推論モデルと第２推論モデルとの間に生じる推論結果の差異を小さくすることができる。したがって、２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。具体的には、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。このように、上記情報処理方法は、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。

　また、訓練された第２推論モデルを新たな第１データを用いてさらに訓練する（言い換えると訓練を再帰的に繰り返す）ので、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異をより一層小さくすることができる。よって、上記情報処理方法は、２つの推論モデルの間に生じる推論結果の差異をより一層小さくすることができる。

　また、画像データに対する推論に用いる推論モデルに基づいて新たな推論モデルを得る場合に、上記２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。

　また、情報処理システムは、既存の推論モデルに基づいて、推論結果の差異を小さくするように生成された新たな推論モデルを用いて推論処理を実行し、推論結果を出力することができる。

　（実施の形態２）
　本実施の形態において、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくする情報処理方法および情報処理システムについて、実施の形態１におけるものとは異なる構成を説明する。なお、実施の形態１におけるものと同じ構成要素については同じ符号を付し、詳細な説明を省略する。

　図９は、本実施の形態における処理システム１０Ａの機能構成を示すブロック図である。本実施の形態の処理システム１０Ａは、既存の推論モデルと同じ推論結果を出力するように構成された新たな推論モデルを得るためのシステムである。

　ここで、既存の推論モデルの形式と、新たな推論モデルの形式とは異なる。具体的には、既存の推論モデルを構成するネットワークの係数は、浮動小数点形式で表現されており、新たな推論モデルを構成するネットワークの係数は固定小数点形式で表現されている。この場合、処理システム１０Ａは、浮動小数点形式で表現された既存の推論モデルを量子化することで、固定小数点形式で表現された新たなネットワークを得るためのシステムであるといえる。

　図９に示されるように、処理システム１０Ａは、識別部１１と、判別部１２と、算出部１３と、判別訓練部１４と、識別訓練部１５Ａと、変換部１６とを備える。処理システム１０Ａが備える各機能部は、実施の形態１におけるものと同様に、プロセッサ（例えばＣＰＵ）（不図示）が、メモリを用いて所定のプログラムを実行することで実現され得る。

　処理システム１０Ａの構成要素のうち、識別部１１と、判別部１２と、算出部１３と、判別訓練部１４とは、実施の形態１の処理システム１０におけるものと同じである。識別訓練部１５Ａと、変換部１６とについて以下で詳細に説明する。

　識別訓練部１５Ａは、ネットワークＢ１を用いた識別モデルを機械学習により訓練する機能部である。識別訓練部１５Ａは、算出部１３が算出した第３誤差を取得し、第３誤差を小さくするように、ネットワークＢ１を用いた識別モデルを機械学習により訓練する。識別訓練部１５Ａは、算出部１３が保有している損失関数を参照し、ネットワークＢ１に含まれる係数をどのように調整すれば、第３誤差が小さくなるかを判断し、第３誤差が小さくなるようにネットワークＢ１に含まれる係数を更新する。このとき、識別訓練部１５Ａは、判別モデルに含まれる係数を変化させずに固定している。識別訓練部１５Ａは、訓練されたネットワークＢ１を変換部１６に提供する。

　変換部１６は、ネットワークＢ１の係数に対して変換処理を行うことでネットワークＢを得る機能部である。変換部１６は、識別訓練部１５Ａによって訓練されたネットワークＢ１を取得し、ネットワークＢ１の係数に所定の変換処理を施すことによってネットワークＢを更新する。

　さらに、識別部１１は、更新された、ネットワークＢを用いた識別モデルに、新たな入力データを入力することで、新たな識別結果を取得する。そして、取得された識別結果を上記識別情報として用いることによって、判別部１２、算出部１３、判別訓練部１４、識別訓練部１５Ａおよび変換部１６が上記と同様の処理を実行することで、処理システム１０Ａは、ネットワークＢをさらに更新する。

　なお、変換処理は、例えば、ネットワークＢ１を軽量化する処理を含む。軽量化する処理は、例えばネットワークＢ１を量子化する処理を含む。例えば、ネットワークＢ１がニューラルネットワークモデルである場合、量子化する処理は、ニューラルネットワークモデルの係数を浮動小数点形式から固定小数点形式へ変換する処理を含んでもよい。また、軽量化する処理は、ニューラルネットワークモデルのノードを削減する処理、または、ニューラルネットワークモデルのノードの接続を削減する処理を含んでもよい。

　図１０は、本実施の形態における処理システム１０Ａにおける識別モデルの訓練を示す説明図である。

　入力画像が識別部１１に入力されてから算出部１３によって誤差が算出されるまでの処理は、実施の形態１における処理システム１０におけるものと同じである。

　算出部１３によって誤差が算出された後に、識別訓練部１５Ａは、算出部１３によって算出される誤差を小さくするように、ネットワークＢ１に含まれる係数を調整する。このとき、識別訓練部１５Ａは、ネットワークＤに含まれる係数を変更することなく、固定している。

　識別訓練部１５ＡがネットワークＢ１に含まれる係数を調整するときには、損失関数を参照し、係数の調整によって上記誤差を小さくするように上記係数を調整する。このようにして、識別訓練部１５Ａは、ネットワークＢ１の係数を調整することによってネットワークＢ１を更新する。

　変換部１６は、識別訓練部１５Ａによって訓練されたネットワークＢ１を取得し、ネットワークＢ１の係数に対する変換処理を行うことで、新たなネットワークＢを得る。

　以上のように構成された処理システム１０Ａが実行する処理について説明する。

　図１１は、本実施の形態における処理システム１０Ａが実行する処理（処理方法ともいう）を示すフロー図である。

　図１１に示されるステップＳ１０１～ステップＳ１０７に含まれる処理は、実施の形態１における処理システム１０の処理と同じである（図６参照）。

　ステップＳ１２１において、識別訓練部１５Ａは、ステップＳ１０７で算出された誤差を用いて、ネットワークＢによる識別結果がネットワークＡの識別結果であると判別部１２により判別されるように、ネットワークＢ１の係数を更新する。

　ステップＳ１２２において、変換部１６は、ステップＳ１２１で識別訓練部１５Ａによって係数が更新されたネットワークＢ１を取得し、ネットワークＢ１の係数を変換することでネットワークＢを取得する。

　ステップＳ１２３において、変換部１６は、ステップＳ１２２において取得したネットワークＢにより、識別部１１に入力されるネットワークＢを更新する。

　以上の一連の処理により、処理システム１０Ａは、ネットワークＡによる識別結果およびネットワークＢによる識別結果のどちらであるかを適切に判別できる判別モデルの訓練をしたうえで、訓練されたその判別モデルを用いて、ネットワークＢによる識別結果がネットワークＡの識別結果であると判別されるようにネットワークＢ１の係数を更新し、これにより、ネットワークＢ１を用いた識別モデルを訓練する。さらに、更新されたネットワークＢ１から変換処理によりネットワークＢを得ることで、ネットワークＢを用いた識別モデルを更新する。その結果、ネットワークＢを用いた識別モデルは、ネットワークＡを用いた識別モデルと同じ推論結果を出力するように訓練される。このように、処理システム１０Ａは、ネットワークＡを用いた識別モデルに基づいて、ネットワークＢを用いた識別モデルを得る場合に生じ得る識別結果の差異を小さくすることができる。

　以上のように、本実施の形態の情報処理方法は、第１推論結果および第２推論結果のどちらであるかを適切に判別できる判別モデルの訓練をしたうえで、訓練されたその判別モデルを用いて第２推論結果が第１推論結果であると判別されるように第３推論モデルを訓練する。そして、訓練された第３推論モデルから変換処理により第２推論モデルを得ることで、第２推論モデルを更新する。その結果、第２推論モデルは、第１推論モデルと同じ推論結果を出力するように訓練される。つまり、上記情報処理方法は、第１推論モデルと第２推論モデルとの間に生じる推論結果の差異を小さくすることができる。したがって、２つの推論モデルの間に生じる推論結果の差異を小さくすることができる。具体的には、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。このように、上記情報処理方法は、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。

　また、訓練された第３推論モデルを新たな第１データを用いてさらに訓練して第２推論モデルを得る（言い換えると訓練を再帰的に繰り返す）ので、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異をより一層小さくすることができる。よって、上記情報処理方法は、２つの推論モデルの間に生じる推論結果の差異をより一層小さくすることができる。

　また、第３推論モデルであるニューラルネットワークモデルを軽量化することで第２推論モデルを得る。よって、第１推論モデルに基づいて、軽量化された新たな第２推論モデルを得る場合に生じ得る推論結果の差異を小さくすることができる。よって、上記情報処理方法は、推論モデルに基づいて、軽量化された新たな推論モデルを得る場合に、上記２つの推論モデルの間に生じる差異を小さくすることができる。したがって、ＩｏＴ機器などの計算リソースが限られた環境においても、推論性能を維持しつつ第１推論モデルの振る舞いに近い第２推論モデルを適用することができる。

　また、第３推論モデルであるニューラルネットワークモデルを量子化することで第２推論モデルを得る。そのため、ネットワーク構造を変更することなくニューラルネットワークモデルを軽量化でき、軽量化前後の推論性能及び推論結果（振る舞い）の変動を抑制することができる。

　また、第３推論モデルであるニューラルネットワークモデルの係数を浮動小数点形式から固定小数点形式に変換することで第２推論モデルを得る。そのため、推論性能及び推論結果（振る舞い）の変動を抑制しながら、一般的な組込み環境に適応させることができる。

　また、第３推論モデルであるニューラルネットワークモデルのノードの削減またはノードの接続の削減をすることで第２推論モデルを得る。そのため、ノード数及びノードの接続の削減は計算量の削減に直結するため、第２推論モデルを計算リソースの制約が厳しい環境に適応させることができる。

　（実施の形態３）
　本実施の形態において、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくする情報処理方法および情報処理システムについて、実施の形態１におけるものとは異なる構成を説明する。なお、実施の形態１におけるものと同じ構成要素については同じ符号を付し、詳細な説明を省略する。

　図１２は、本実施の形態における処理システム１０Ｂの機能構成を示すブロック図である。本実施の形態の処理システム１０Ｂは、既存の推論モデルを参照して、その既存の推論モデルと同じ推論結果を出力する新たな推論モデルを得るためのシステムである。

　図１２は、本実施の形態における処理システム１０Ｂの機能構成を示すブロック図である。

　図１２に示されるように、識別部１１Ｂと、判別部１２Ｂと、第１算出部１３Ｂと、判別訓練部１４Ｂと、識別訓練部１５Ｂと、第２算出部１８とを備える。処理システム１０Ｂが備える各機能部は、プロセッサ（例えばＣＰＵ）（不図示）が、メモリを用いて所定のプログラムを実行することで実現され得る。なお、処理システム１０Ｂは、１つの装置として実現されてもよいし、互いに通信可能な複数の装置によって実現されてもよい。

　識別部１１Ｂは、実施の形態１の識別部１１と同様に、入力データを、推論モデルである識別モデルを用いて識別する機能部であり、ネットワークＡおよびＢによる識別結果（つまり第１推論結果、第２推論結果および第３推論結果）を出力する。

　また、識別部１１Ｂは、ネットワークＡによる識別結果（つまり第１推論結果）を第２算出部１８に提供するとともに、ネットワークＡによる識別結果として得られる特徴マップを判別部１２Ｂに出力する。

　判別部１２Ｂは、実施の形態１の判別部１２と同様に、識別部１１Ｂから得た識別結果を判別モデルに入力して、入力された識別結果についての判別情報を取得する。また、判別部１２Ｂは、識別部１１Ｂが出力した特徴マップを取得し、特徴マップを判別モデルに入力することで出力される識別結果を第２算出部１８に出力する。

　第１算出部１３Ｂは、実施の形態１の算出部１３と同じ機能部である。

　第２算出部１８は、ネットワークＡによる識別結果を識別部１１Ｂから取得し、また、特徴マップを入力とする判別モデルによる識別結果を取得する。そして、第２算出部１８は、取得した２つの識別結果の誤差（第４誤差に相当）を算出する。

　判別訓練部１４Ｂは、実施の形態１の判別訓練部１４と同様に、判別モデルを機械学習により訓練する機能部である。判別訓練部１４Ｂは、算出部１３が算出した第１誤差および第２誤差を取得し、また、第２算出部１８が算出した第３誤差を取得する。そして、判別訓練部１４Ｂは、第１誤差、第２誤差および第３誤差を小さくするように、判別モデルを機械学習により訓練する。

　識別訓練部１５Ｂは、実施の形態１の識別訓練部１５と同様に、識別モデルを機械学習により訓練する機能部である。識別訓練部１５Ｂは、第１算出部１３Ｂが算出した第３誤差を取得し、また、第２算出部１８が算出した第４誤差を取得する。そして、識別訓練部１５Ｂは、第３誤差および第４誤差を小さくするように、ネットワークＢを用いた識別モデルを機械学習により訓練する。

　以降において、処理システム１０ＢによるネットワークＢの更新の概要について説明する。ネットワークＢの更新は、判別モデルの訓練と、ネットワークＢを用いた識別モデルの訓練とが繰り返し実行されることでなされる。以降において、（１）判別モデルの訓練と、（２）ネットワークＢを用いた識別モデルの訓練とについて説明する。

　（１）判別モデルの訓練
　図１３は、本実施の形態における処理システム１０Ｂにおける判別モデルの訓練を示す説明図である。図１４は、本実施の形態における処理システム１０Ｂにおける判別モデルの訓練に用いられる正解情報を示す説明図である。

　識別部１１Ｂは、実施の形態１における識別部１１と同様に、入力画像が入力されたとき、ネットワークＡを用いた識別モデルと、ネットワークＢを用いた識別モデルとのそれぞれによって画像を識別する識別処理を実行し、識別結果を出力する。さらに、識別部１１Ｂは、入力データをネットワークＡを用いて識別した結果として得られる特徴マップを判別部１２Ｂに提供する。

　判別部１２Ｂは、実施の形態１の判別部１２と同様に、識別部１１Ｂから提供された識別結果が、ネットワークＡを用いた識別モデルによって識別された識別結果であるか、または、ネットワークＢを用いた識別モデルによって識別された識別結果であるかをネットワークＤを用いた判別モデルによって判別し、その判別結果を示す判別情報を第１算出部１３Ｂに提供する。さらに、判別部１２Ｂは、識別部１１Ｂから提供された特徴マップを判別モデルに入力して得られる識別結果を第２算出部１８に提供する。上記識別結果は、入力された特徴マップを識別した結果を示す情報であり、例えば、特徴マップの生成の元となった入力データである画像データに映っている物もしくは状況、または、それらの属性を示す情報を含む。

　第１算出部１３Ｂは、実施の形態１の算出部１３と同様に、判別部１２が出力した判別情報と、正解情報との差分（第１誤差及び第２誤差）を算出する。

　第２算出部１８は、ネットワークＡによる識別結果を識別部１１Ｂから取得し、また、特徴マップに対する判別モデルによる識別結果を判別部１２Ｂから取得する。そして、第２算出部１８は、取得した２つの識別結果の誤差（第４誤差に相当）を算出する。ネットワークＡによる識別結果が「犬：９０％、猫：１０％」という情報であり、判別モデルによる識別結果が「犬：８０％、猫：２０％」という情報である場合、（０．９－０．８）の二乗である０．０１から算出される誤差が得られる。ネットワークＡによる識別結果は、判別モデルを訓練するための正解情報として扱われる（図１４を参照）。

　判別訓練部１４Ｂは、判別モデルを機械学習により訓練する機能部である。判別訓練部１４Ｂは、第１算出部１３Ｂおよび第２算出部１８によって算出された誤差（第１誤差、第２誤差、第４誤差）を小さくするように、ネットワークＤに含まれる係数を調整する。このとき、判別訓練部１４Ｂは、損失関数を参照し、係数の調整によって上記誤差を小さくするように上記係数を調整する。このようにして、判別訓練部１４Ｂは、ネットワークＤの係数を調整することで更新することによって、判別モデルを訓練する。

　（２）ネットワークＢを用いた識別モデルの訓練
　図１５は、本実施の形態における処理システム１０Ｂにおける識別モデルの訓練を示す説明図である。図１６は、本実施の形態における処理システム１０Ｂにおける識別モデルの訓練に用いられる正解情報を示す説明図である。

　識別部１１Ｂは、入力画像が入力されたとき、ネットワークＢを用いた識別モデルによって画像を識別する識別処理を実行し、識別結果を出力する。識別結果は、例えば、「犬：８０％、猫：２０％」という情報である。識別部１１Ｂが出力した識別結果は、判別部１２Ｂに提供される。

　判別部１２Ｂは、実施の形態１の識別部１１と同様に、識別部１１Ｂから提供された識別結果が、ネットワークＡを用いた識別モデルによって識別された識別結果であるか、または、ネットワークＢを用いた識別モデルによって識別された識別結果であるかをネットワークＤを用いた判別モデルによって判別する。また、判別部１２Ｂは、識別部１１Ｂから提供された特徴マップを判別モデルに入力して得られる識別結果を第２算出部１８に提供する。

　第１算出部１３Ｂは、判別部１２が出力した判別情報と、正解情報との差分（第３誤差）を算出する。

　第２算出部１８は、ネットワークＡによる識別結果を識別部１１Ｂから取得し、また、特徴マップを入力とする判別モデルによる識別結果を判別部１２Ｂから取得する。そして、第２算出部１８は、取得した２つの識別結果の誤差（第４誤差に相当）を算出する。ネットワークＡによる識別結果が「犬：９０％、猫：１０％」という情報であり、判別モデルによる識別結果が「犬：８０％、猫：２０％」という情報である場合、（０．９－０．８）の二乗である０．０１から算出される誤差が得られる。ネットワークＡによる識別結果は、ネットワークＢを訓練するための正解情報として扱われる（図１６を参照）。

　識別訓練部１５Ｂは、第１算出部１３Ｂおよび第２算出部１８によって算出された誤差（第３誤差、第４誤差）を小さくするように、ネットワークＢに含まれる係数を調整する。このとき、識別訓練部１５Ｂは、ネットワークＤに含まれる係数を変更することなく、固定している。

　識別訓練部１５ＢがネットワークＢに含まれる係数を調整するときには、損失関数を参照し、係数の調整によって上記誤差を小さくするように上記係数を調整する。このようにして、識別訓練部１５Ｂは、ネットワークＢの係数を調整することによってネットワークＢを更新する。

　以上のように構成された処理システム１０Ｂが実行する処理について説明する。

　図１７は、本実施の形態における処理システム１０Ｂが実行する処理を示すフロー図である。

　図１７に示されるステップＳ１０１～ステップＳ１０４に含まれる処理は、実施の形態１における処理システム１０の処理と同じである（図６参照）。

　ステップＳ１４１において、識別部１１Ｂは、ネットワークＡによる識別結果としての特徴マップを取得する。

　ステップＳ１４２において、判別部１２Ｂは、判別モデルに特徴マップを入力して、判別モデルを用いた特徴マップの識別結果を取得する。

　ステップＳ１４３において、第２算出部１８は、ネットワークＡによる識別結果と特徴マップの識別結果との誤差を算出する。

　ステップＳ１０５Ａにおいて、判別訓練部１４Ｂは、ネットワークＡまたはＢのどちらによる識別結果であるかを正しく判別できるように、かつ、判別モデルがネットワークＡと同じ識別をするように、判別モデルのネットワークの係数を更新する。

　ステップＳ１０６およびＳ１０７に含まれる処理は、実施の形態１における処理システム１０の処理と同じである（図６参照）。

　ステップＳ１５１において、識別部１１Ｂは、ネットワークＡによる識別結果としての特徴マップを取得する。

　ステップＳ１５２において、判別部１２Ｂは、判別モデルに特徴マップを入力して、判別モデルを用いた特徴マップの識別結果を取得する。

　ステップＳ１５３において、第２算出部１８は、ネットワークＡによる識別結果と特徴マップの識別結果との誤差を算出する。

　ステップＳ１０８Ａにおいて、識別訓練部１５Ｂは、ネットワークＢによる識別結果が、ネットワークＡの識別結果であると判別されるように、かつ、判別モデルがネットワークＡと同じ判別をするように、ネットワークＢの係数を更新する。

　なお、本実施の形態の処理システム１０Ｂが、さらに、実施の形態２における変換部１６を備えてもよい。

　以上のように、本実施の形態の情報処理方法は、第１推論モデルから得られる特徴量に対する判別モデルによる推論結果（第４推論結果）と、第１推論結果との差分をさらに用いて判別モデルを訓練する。これにより、判別モデルの推論結果と第１推論モデルの推論結果との差異を小さくし、これにより、第１推論モデルに基づいて新たな第２推論モデルを得る場合に生じ得る推論結果の差異をより一層小さくすることができる。よって、上記情報処理方法は、２つの推論モデルの間に生じる推論結果の差異をより一層小さくすることができる。

　なお、上記実施の形態３のネットワークＢを用いた識別モデルの訓練において、ネットワークＡを用いた識別モデルを利用するとしたが、訓練の形態はこれに限られない。例えば、ネットワークＡを用いた識別モデルなしで、ネットワークＢを用いた識別モデルを訓練してもよい。この場合、処理の構成としては実施の形態２のネットワークＢを用いた識別モデルの訓練と実質的に同一となる。なお、判別モデルは、ネットワークＡを用いた識別モデルの識別結果を用いて訓練されている。

　（実施の形態４）
　本実施の形態において、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくする情報処理方法および情報処理システムについて、実施の形態１～３における構成とは異なる構成を説明する。なお、実施の形態１～３における構成と同じ構成要素については同じ符号を付し、詳細な説明を省略する。

　図１８及び図１９は、本実施の形態における処理システム１０Ｃの機能構成を示すブロック図である。処理システム１０Ｃは、識別部１１と、判別部１２と、算出部１３と、判別訓練部１４と、識別訓練部１５とに加えてノイズ付与部１９を備える。

　ノイズ付与部１９は、推論結果にノイズを付与する。例えば、ノイズ付与部１９は、図１８に示したように、ネットワークＡを用いた識別モデルの識別結果及びネットワークＢを用いた識別モデルの識別結果にノイズを付与する。例えば、軽量化する処理が量子化する処理である場合、ノイズは、ガウスノイズであってもよい。また、例えば、軽量化する処理がノードの削減またはノードの接続の削減をする処理の場合は、ノイズは、削除したノードにつながる重みまたは削除した接続に関する重みの一部を復活させることで発生するノイズであってもよい。なお、ノイズの種類は、これに限定されない。ノイズが付与された識別結果が判別部１２に入力される。

　なお、ノイズ付与部１９は、第２推論結果にのみノイズを付与してもよい。例えば、ノイズ付与部１９は、図１９に示したように、ネットワークＢを用いた識別モデルの識別結果にノイズを付与する。ノイズが付与された識別結果が判別部１２に入力される。この場合、第１推論結果すなわちネットワークＡを用いた識別モデルの識別結果は、ノイズが付与されずにそのまま判別部１２に入力される。

　続いて、図２０を参照して、推論結果が特徴量（特徴マップ）である場合におけるノイズの付与方法について説明する。図２０は、本実施の形態におけるノイズ付与部１９が付与するノイズの付与方法を説明するための模式図である。

　ノイズ付与部１９は、推論結果の全体にノイズを付与する。例えば、図２０のＰ１に示したように、推論結果の全てのエレメント成分及びチャネル成分にノイズが付与される。図２０では、エレメント成分は、エレメントＥで示され、エレメントの高さ成分と幅成分は、高さＨと幅Ｗで示され、チャネル成分は、チャネルＣで示される。

　なお、ノイズ付与部１９は、推論結果の一部にノイズを付与してもよい。具体的には、ノイズ付与部１９は、所定のエレメント成分を有する推論結果の一部にノイズを付与してもよい。例えば、図２０のＰ２に示したように、推論結果の所定のエレメント成分に当たる推論結果の一部にノイズが付与される。なお、所定のエレメント成分は、ランダムに決定されてよい。

　また、ノイズ付与部１９は、所定のチャネル成分を有する推論結果の一部にノイズを付与してもよい。例えば、図２０のＰ３に示したように、推論結果の所定のチャネル成分に当たる推論結果の一部にノイズが付与される。なお、所定のチャネル成分は、ランダムに決定されてよい。

　以上のように構成された処理システム１０Ｃが実行する処理について説明する。

　図２１は、本実施の形態における処理システム１０Ｃが実行する処理を示すフロー図である。

　図２１に示されるステップＳ１０１～ステップＳ１０８の処理は、実施の形態１における処理システム１０の処理と同じである（図６参照）。ステップＳ１０２とＳ１０３との間に、新たにステップＳ１６１及びＳ１６２が追加されている。

　ステップＳ１６１において、ノイズ付与部１９は、ネットワークＡを用いた識別モデルの識別結果にノイズを付与する。

　ステップＳ１６２において、ノイズ付与部１９は、ネットワークＢを用いた識別モデルの識別結果にノイズを付与する。

　なお、ネットワークＢを用いた識別モデルの識別結果にのみノイズが付与される場合、図２２に示すように、ステップＳ１６１は省略されてもよい。

　以上のように、本実施の形態の情報処理方法では、第２推論結果にノイズを付与し、第２判別情報の取得では、判別モデルにノイズが付与された第２推論結果を入力して第２判別情報を取得する。これにより、判別モデルが第１推論結果と第２推論結果とを容易に見分けることができるようになることを抑制できる。判別モデルの訓練が進むと、第１推論結果と第２推論結果との判別が容易となり、判別情報を用いた第２推論モデルの訓練が停滞してしまうことがある。しかし、本実施の形態によれば、少なくとも第２推論結果にノイズが付与されるため、判別モデルによる判別が困難となる。その結果、第２推論モデルの訓練が停滞することを抑制できる。

　（実施の形態５）
　本実施の形態において、推論モデルに基づいて新たな推論モデルを得る場合に生じ得る推論結果の差異を小さくする情報処理方法および情報処理システムについて、実施の形態１～４における構成とは異なる構成を説明する。なお、実施の形態１～４における構成と同じ構成要素については同じ符号を付し、詳細な説明を省略する。

　図２３は、本実施の形態における処理システム１０Ｄの機能構成を示すブロック図である。処理システム１０Ｄは、識別部１１と、判別部１２と、算出部１３と、判別訓練部１４と、識別訓練部１５Ａ、変換部１６とに加えてノイズ付与部１９Ｄを備える。

　ノイズ付与部１９Ｄは、第２推論結果にノイズを付与する。ノイズ付与部１９Ｄは、第２推論結果の離散幅に基づいて付与するノイズを決定する。具体的には、ノイズ付与部１９Ｄは、ガウスノイズの標準偏差と離散幅とに基づいてガウスノイズの分布の振幅を決定する。例えば、ノイズ付与部１９Ｄは、ガウスノイズの標準偏差の２倍に相当する値の幅が第２推論結果の離散幅以上であるように、ガウスノイズの分布の振幅を決定する。詳細については、図２４を参照して説明する。図２４は、本実施の形態におけるノイズ付与部１９Ｄが付与するノイズを説明するための模式図である。

　図２４は、第２推論結果の値と、当該値それぞれに対するガウスノイズの分布と、を示す。図２４において、横軸は第２推論結果の値、縦軸は値の数（言い換えると値の出現頻度）である。値の間の距離が離散幅Δである。ガウスノイズの分布の振幅は、例えば２σである。振幅に相当する値の幅を振幅で表現するとすると、ノイズ付与部１９Ｄは、例えば２σ≧Δとなるようにガウスノイズを決定する。なお、上記の振幅は一例であり、判別モデルが第１推論結果と第２推論結果との判別を困難にすることができれば、この値に限定されない。

　さらに、図２５を参照して、推論結果が特徴量（特徴マップ）である場合におけるガウスノイズの分布の振幅の決定方法について説明する。図２５は、本実施の形態におけるノイズ付与部１９Ｄが付与するノイズの付与方法を説明するための模式図である。

　ノイズ付与部１９Ｄは、推論結果の全体に対して振幅を決定する。例えば、推論結果の全てのエレメント成分及びチャネル成分に対して一意に振幅が決定され、決定された振幅を用いて、図２５のＰ４に示したように、ノイズが付与される。図２５では、図２０と同様に、エレメント成分は、エレメントＥで示され、エレメントの高さ成分と幅成分は、高さＨと幅Ｗで示され、チャネル成分は、チャネルＣで示される。

　なお、ノイズ付与部１９Ｄは、推論結果の一部ごとに振幅を決定してもよい。具体的には、ノイズ付与部１９Ｄは、推論結果のエレメント成分の所定の範囲ごとに振幅を決定してもよい。例えば、推論結果のエレメント成分の所定の範囲ごとに決定された振幅を用いて、図２５のＰ５に示したように、エレメント成分の所定の範囲ごとに異なる分布のガウスノイズが付与される。

　また、ノイズ付与部１９Ｄは、推論結果のチャネル成分の所定の範囲ごとに振幅を決定してもよい。例えば、推論結果のチャネル成分の所定の範囲ごとに決定された振幅を用いて、図２５のＰ６に示したように、チャネル成分の所定の範囲ごとに異なる分布のガウスノイズが付与される。

　また、離散幅に基づいて決定されるノイズは、ガウスノイズとは別のノイズであってもよい。具体的には、上述したような、削除したノードにつながる重みまたは削除した接続に関する重みの一部を復活させることで発生するノイズであってもよい。

　なお、ノイズ付与部１９Ｄは、第１推論結果の離散幅が取得可能であれば、上記の方法を用いて第１推論結果にノイズを付与してもよい。また、第１推論結果に付与されるノイズは、離散幅に関わらず決定されるノイズ（例えば、予め設定される振幅のガウスノイズ）が付与されてもよい。

　また、ノイズが付与される範囲は、実施の形態４のように推論結果の全体であってもよいし、所定のエレメント成分を有する推論結果の一部であってもよいし、所定のチャネル成分を有する推論結果の一部であってもよい。

　さらに、ノイズ付与部１９Ｄは、変換部１６の変換処理における変換設定に基づいて離散幅を決定する。具体的には、ノイズ付与部１９Ｄは、軽量化する処理における軽量化設定に基づいて離散幅を決定する。例えば、量子化する処理の場合は、量子化後のビット数に基づいて離散幅が決定される。また、ノードの削減またはノードの接続の削減する処理の場合は、識別モデルにおけるどのノードが削減されたかに基づいて離散幅が決定される。

　以上のように構成された処理システム１０Ｄが実行する処理について説明する。

　図２６は、本実施の形態における処理システム１０Ｄが実行する処理を示すフロー図である。

　図２６に示されるステップＳ１０１～ステップＳ１０７、ステップＳ１２１～Ｓ１２３の処理は、実施の形態２における処理システム１０Ａの処理と同じである（図１１参照）。ステップＳ１０２とＳ１０３との間に、新たにステップＳ１７１が追加され、ステップＳ１２１とＳ１２２との間に、新たにステップＳ１７２が追加されている。

　ステップＳ１７１において、ノイズ付与部１９Ｄは、ネットワークＢを用いた識別モデルの識別結果に決定された振幅のノイズを付与する。後述の振幅の決定処理がまだ実行されていない場合は、初期設定された振幅のノイズが付与される。

　なお、実施の形態４の図１８のフローチャートのステップＳ１６１のように、ネットワークＡを用いた識別モデルの識別結果にノイズが付与されてもよい。

　ステップＳ１７２において、ノイズ付与部１９Ｄは、係数変換の離散幅とノイズの振幅を決定する。具体的には、ノイズ付与部１９Ｄは、変換部１６の変換設定に基づいて離散幅を決定する。また、ノイズ付与部１９Ｄは、決定された離散幅に基づいてノイズの振幅を決定する。このように、ステップＳ１７２において決定されたノイズの振幅がステップＳ１７１において付与されるノイズの振幅として用いられる。

　以上のように、本実施の形態の情報処理方法では、推論結果の離散幅は、変換処理における変換設定に基づいて決定される。これにより、変換の内容を考慮して離散幅が決定されノイズが当該離散幅に基づいて決定されるため、変換後の推論モデルが出力する推論結果に適したノイズを付与することができる。したがって、推論モデルの変換により生じる推論結果の離散化による判別モデルの判別処理への影響を効果的に抑制することができる。

　なお、離散幅は、推論結果から推定されてもよい。例えば、ノイズ付与部１９Ｄは、第２推論結果におけるデータの分布を分析し、当該分布に基づいて離散幅を推定する。この場合、変換設定が入手できなくても推論結果の離散幅に基づいてノイズを決定することができる。

　また、上記実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記実施の形態および上記変形例の情報処理装置などを実現するソフトウェアは、次のようなプログラムである。

　すなわち、このプログラムは、コンピュータに、プロセッサがメモリを用いて実行する情報処理方法であって、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、前記第２推論モデルを機械学習により訓練する情報処理方法を実行させるプログラムである。

　また、このプログラムは、コンピュータに、プロセッサがメモリを用いて実行する情報処理方法であって、第１データを第１推論モデルに入力して、第１推論結果を取得し、前記第１データを第２推論モデルに入力して、第２推論結果を取得し、入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、第２データを前記第２推論モデルに入力して、第３推論結果を取得し、訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、前記第３誤差を小さくするように、第３推論モデルを機械学習により訓練し、訓練された前記第３推論モデルを変換する変換処理によって、前記第２推論モデルを更新する情報処理方法を実行させるプログラムである。

　以上、一つまたは複数の態様に係る情報処理装置などについて、実施の形態に基づいて説明したが、本発明は、この実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。

　本発明は、既存の推論モデルに基づいて新たな推論モデルを生成するシステムに利用可能である。

　１０、１０Ａ、１０Ｂ、１０Ｃ、１０Ｄ　　処理システム
　１１、１１Ｂ　　識別部
　１２、１２Ｂ　　判別部
　１３　　算出部
　１３Ｂ　　第１算出部
　１４、１４Ｂ　　判別訓練部
　１５、１５Ａ、１５Ｂ　　識別訓練部
　１６　　変換部
　１８　　第２算出部
　１９、１９Ｄ　　ノイズ付与部
　２０　　推論システム
　２１　　取得部
　２２　　推論部
　Ａ、Ｂ、Ｂ１、Ｄ　　ネットワーク

Claims

　プロセッサがメモリを用いて実行する情報処理方法であって、
　第１データを第１推論モデルに入力して、第１推論結果を取得し、
　前記第１データを第２推論モデルに入力して、第２推論結果を取得し、
　入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、
　前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、
　前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、
　前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、
　前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、
　第２データを前記第２推論モデルに入力して、第３推論結果を取得し、
　訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、
　前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、
　前記第３誤差を小さくするように、前記第２推論モデルを機械学習により訓練する
　情報処理方法。
　訓練された前記第２推論モデルに、別の前記第２データを入力して、別の前記第３推論結果を取得し、
　取得した別の前記第３推論結果に基づいて、前記第２推論モデルをさらに訓練する
　請求項１に記載の情報処理方法。
　プロセッサがメモリを用いて実行する情報処理方法であって、
　第１データを第１推論モデルに入力して、第１推論結果を取得し、
　前記第１データを第２推論モデルに入力して、第２推論結果を取得し、
　入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、
　前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、
　前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、
　前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、
　前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、
　第２データを前記第２推論モデルに入力して、第３推論結果を取得し、
　訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、
　前記第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、
　前記第３誤差を小さくするように、第３推論モデルを機械学習により訓練し、
　訓練された前記第３推論モデルを変換する変換処理によって、前記第２推論モデルを更新する
　情報処理方法。
　更新された前記第２推論モデルに、別の前記第２データを入力して、別の前記第３推論結果を取得し、
　取得した別の前記第３推論結果に基づいて、前記第３推論モデルを機械学習によりさらに訓練し、
　さらに訓練された前記第３推論モデルの前記変換処理によって前記第２推論モデルをさらに更新する
　請求項３に記載の情報処理方法。
　前記第１推論モデル、前記第２推論モデル、及び前記第３推論モデルは、ニューラルネットワークモデルであり、
　前記変換処理は、前記ニューラルネットワークモデルを軽量化する処理を含む
　請求項３又は４に記載の情報処理方法。
　前記軽量化する処理は、前記ニューラルネットワークモデルを量子化する処理を含む
　請求項５に記載の情報処理方法。
　前記量子化する処理は、前記ニューラルネットワークモデルの係数を浮動小数点形式から固定小数点形式へ変換する処理を含む
　請求項６に記載の情報処理方法。
　前記軽量化する処理は、前記ニューラルネットワークモデルのノードを削減する処理、または、前記ニューラルネットワークモデルのノードの接続を削減する処理を含む
　請求項５～７のいずれか１項に記載の情報処理方法。
　さらに、
　前記第１データを前記第１推論モデルに入力することで得られる特徴量を前記判別モデルに入力して第４推論結果を取得し、
　前記判別モデルの訓練では、さらに前記第１推論結果と前記第４推論結果との差分を示す第４誤差をさらに用いて前記判別モデルを機械学習により訓練する
　請求項１～８のいずれか１項に記載の情報処理方法。
　さらに、前記第２推論結果にノイズを付与し、
　前記第２判別情報の取得では、前記判別モデルに前記ノイズが付与された前記第２推論結果を入力して前記第２判別情報を取得する、
　請求項１～９のいずれか１項に記載の情報処理方法。
　前記ノイズは、前記第２推論結果の離散幅に基づいて決定される
　請求項１０に記載の情報処理方法。
　前記ノイズは、ガウスノイズを含み、
　前記ガウスノイズの分布の振幅は、前記ガウスノイズの標準偏差と前記第２推論結果の離散幅とに基づいて決定される
　請求項１１に記載の情報処理方法。
　前記ガウスノイズの分布の振幅は、前記第２推論結果のエレメント成分の所定の範囲ごとに決定される
　請求項１２に記載の情報処理方法。
　前記ガウスノイズの分布の振幅は、前記第２推論結果のチャネル成分の所定の範囲ごとに決定される
　請求項１２又は１３に記載の情報処理方法。
　前記ノイズは、所定のエレメント成分を有する前記第２推論結果の一部に付与される
　請求項１０～１４のいずれか１項に記載の情報処理方法。
　前記ノイズは、所定のチャネル成分を有する前記第２推論結果の一部に付与される
　請求項１０～１５のいずれか１項に記載の情報処理方法。
　さらに、前記第２推論結果にノイズを付与し、
　前記第２判別情報の取得では、前記判別モデルに前記ノイズが付与された前記第２推論結果を入力して前記第２判別情報を取得し、
　前記ノイズは、ガウスノイズを含み、
　前記ガウスノイズは、前記第２推論結果の離散幅に基づいて決定され、
　前記離散幅は、前記変換処理における変換設定に基づいて決定される
　請求項３～８のいずれか１項に記載の情報処理方法。
　前記第１データおよび前記第２データは、画像データである
　請求項１～１７のいずれか１項に記載の情報処理方法。
　第３データを取得する取得部と、
　前記取得部が取得した前記第３データを第２推論モデルに入力し、第２推論結果を取得して出力する推論部とを備え、
　前記第２推論モデルは、
　　第１データを第１推論モデルに入力して、第１推論結果を取得し、
　　前記第１データを第２推論モデルに入力して、第２推論結果を取得し、
　　入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、
　前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、
　　前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、
　前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、
　　前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、
　　第２データを前記第２推論モデルに入力して、第３推論結果を取得し、
　　訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、
　前記第２判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、
　　前記第３誤差を小さくするように、前記第２推論モデルを機械学習により訓練する、
　ことにより得られた第２推論モデルである
　情報処理システム。
　第３データを取得する取得部と、
　前記取得部が取得した前記第３データを第２推論モデルに入力し、第２推論結果を取得して出力する推論部とを備え、
　前記第２推論モデルは、
　　第１データを第１推論モデルに入力して、第１推論結果を取得し、
　　前記第１データを第２推論モデルに入力して、第２推論結果を取得し、
　　入力された情報が前記第１推論モデルの出力であるか、または、前記第２推論モデルの出力であるかを判別した判別情報を出力する判別モデルに、前記第１推論結果を入力して、入力された前記第１推論結果についての前記判別情報である第１判別情報を取得し、
　前記第１判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第１誤差を取得し、
　　前記判別モデルに前記第２推論結果を入力して、入力された前記第２推論結果についての前記判別情報である第２判別情報を取得し、
　　前記第２判別情報と、前記第２推論モデルの出力であることを示す正解情報との差分を示す第２誤差を取得し、
　　前記第１誤差、および、前記第２誤差を小さくするように、前記判別モデルを機械学習により訓練し、
　　第２データを前記第２推論モデルに入力して、第３推論結果を取得し、
　　訓練された前記判別モデルに前記第３推論結果を入力して、入力された前記第３推論結果についての前記判別情報である第３判別情報を取得し、
　第３判別情報と、前記第１推論モデルの出力であることを示す正解情報との差分を示す第３誤差を取得し、
　　前記第３誤差を小さくするように、第３推論モデルを機械学習により訓練し、
　　訓練された前記第３推論モデルを変換する変換処理によって、前記第２推論モデルを更新する
　ことにより得られた第２推論モデルである
　情報処理システム。