WO2021111831A1

WO2021111831A1 - 情報処理方法、情報処理システム及び情報処理装置

Info

Publication number: WO2021111831A1
Application number: PCT/JP2020/042078
Authority: WO
Inventors: 育規石井; 洋平中田; 智行奥野
Original assignee: パナソニックインテレクチュアルプロパティコーポレーションオブアメリカ
Priority date: 2019-12-06
Filing date: 2020-11-11
Publication date: 2021-06-10
Also published as: US20220292370A1; EP4071671A1; CN114730393A; EP4071671A4; JPWO2021111831A1

Abstract

情報処理方法は、第１種類に属する第１データと、第１種類と異なる第２種類に属する第２データと、を取得し（Ｓ１１）、第１データを第１推論モデルに入力して第１推論結果を算出し（Ｓ１２）、第１データを第２推論モデルに入力して第２推論結果を算出し（Ｓ１３）、第２データを第２推論モデルに入力して第３推論結果を算出し（Ｓ１４）、第１推論結果と第２推論結果との第１誤差を算出し（Ｓ１５）、第２推論結果と第３推論結果との第２誤差を算出し（Ｓ１６）、第１誤差と第２誤差とに基づいて第２推論モデルを機械学習により訓練する（Ｓ１７）処理を含む。

Description

情報処理方法、情報処理システム及び情報処理装置

　本開示は、推論モデルを機械学習により訓練するための情報処理方法、情報処理システム及び情報処理装置に関する。

　近年、エッジ端末でＤｅｅｐ　Ｌｅａｒｎｉｎｇを実行する際に、処理の軽量化のために、推論モデルを軽量な推論モデルに変換することがなされている。例えば、特許文献１には、推論モデルの変換前後で推論性能をなるべく維持したまま、推論モデルの変換を行う技術が開示されている。この文献では、推論性能が落ちないように推論モデルの変換（例えば第１推論モデルから第２推論モデルへの変換）が実施される。

米国特許公開２０１６／０３２８６４４号明細書

　しかしながら、上記特許文献１に開示された技術では、第１推論モデルと第２推論モデルとで推論性能（例えば認識率などの認識性能）が同じでも、ある推論対象について、第１推論モデルの振る舞い（例えば正解／不正解）と第２推論モデルの振る舞いとが異なる場合がある。つまり、第１推論モデルと第２推論モデルとで、統計的な推論結果は同じであっても、個別的な推論結果が異なる場合がある。この差異が問題を引き起こすおそれがある。

　そこで、本開示は、第１推論モデルの振る舞いと第２推論モデルの振る舞いとを近づけることができる情報処理方法等を提供する。

　本開示に係る情報処理方法は、コンピュータにより実行される方法であって、第１種類に属する第１データと、前記第１種類と異なる第２種類に属する第２データと、を取得し、前記第１データを第１推論モデルに入力して第１推論結果を算出し、前記第１データを第２推論モデルに入力して第２推論結果を算出し、前記第２データを前記第２推論モデルに入力して第３推論結果を算出し、前記第１推論結果と前記第２推論結果との第１誤差を算出し、前記第２推論結果と前記第３推論結果との第２誤差を算出し、前記第１誤差と前記第２誤差とに基づいて前記第２推論モデルを機械学習により訓練する処理を含む。

　なお、これらの包括的又は具体的な態様は、システム、方法、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。

　本開示の一態様に係る情報処理方法等によれば、第１推論モデルの振る舞いと第２推論モデルの振る舞いとを近づけることができる。

図１は、比較例に係る情報処理システムの一例を示すブロック図である。図２は、比較例における第１推論モデルでの識別層直前の特徴量空間と第２推論モデルでの識別層直前の特徴量空間との一例を示す図である。図３は、実施の形態に係る情報処理システムの一例を示すブロック図である。図４は、実施の形態に係る情報処理方法の一例を示すフローチャートである。図５は、実施の形態における第１推論モデルでの識別層直前の特徴量空間と第２推論モデルでの識別層直前の特徴量空間との一例を示す図である。図６は、その他の実施の形態に係る情報処理装置の一例を示すブロック図である。

　従来技術では、推論性能が落ちないように推論モデルの変換が実施されるが、第１推論モデルと第２推論モデルとで推論性能が同じでも、ある推論対象について、第１推論モデルでの振る舞いと第２推論モデルでの振る舞いとが異なる場合がある。ここで、振る舞いは、複数の入力のそれぞれに対する推論モデルの出力である。つまり、第１推論モデルと第２推論モデルとで、統計的な推論結果は同じであっても、個別的な推論結果が異なる場合がある。この差異が問題を引き起こすおそれがある。例えば、ある推論対象について、第１推論モデルでは推論結果が正解で、第２推論モデルでは推論結果が不正解となる場合があったり、第１推論モデルでは推論結果が不正解で、第２推論モデルでは推論結果が正解となる場合があったりする。

　このように、第１推論モデルと第２推論モデルとで振る舞いが異なると、例えば、第１推論モデルの推論性能が改善され、改善後の第１推論モデルから第２推論モデルが生成された場合であっても、第２推論モデルの推論性能が改善されない又は劣化することがある。また、例えば、推論モデルの推論結果を用いた後続の処理において、同じ入力に対して第１推論モデルと第２推論モデルとで異なる処理結果が出力されるおそれもある。特に、当該処理が安全に関わる処理（例えば車両における物体認識処理）である場合は、上記振る舞いの差異は危険をもたらすおそれがある。

　これに対して、本開示の一態様に係る情報処理方法は、コンピュータにより実行される方法であって、第１種類に属する第１データと、前記第１種類と異なる第２種類に属する第２データと、を取得し、前記第１データを第１推論モデルに入力して第１推論結果を算出し、前記第１データを第２推論モデルに入力して第２推論結果を算出し、前記第２データを前記第２推論モデルに入力して第３推論結果を算出し、前記第１推論結果と前記第２推論結果との第１誤差を算出し、前記第２推論結果と前記第３推論結果との第２誤差を算出し、前記第１誤差と前記第２誤差とに基づいて前記第２推論モデルを機械学習により訓練する処理を含む。

　これによれば、第１推論モデルと第２推論モデルとに同じ第１データを入力することで算出される第１推論結果と第２推論結果との第１誤差だけでなく、第２推論モデルに異なる種類の第１データと第２データとを入力することで算出される第２推論結果と第３推論結果との第２誤差も用いて第２推論モデルが機械学習により訓練される。そのため、第１推論モデルの振る舞いと第２推論モデルの振る舞いとを近づけることができる。また、合わせて、第１推論モデルの認識性能と第２推論モデルの認識性能との差を維持又は小さくしたり、差が開くことを抑制したりすることができる。

　また、前記第１種類及び前記第２種類はクラスであってもよい。

　このように、種類は、データが属するクラスであってもよい。

　また、前記第１推論モデルの構成と前記第２推論モデルの構成は異なっていてもよい。

　これによれば、それぞれ異なる構成（例えばネットワーク構成）である第１推論モデル及び第２推論モデルについて、それぞれの振る舞いを近づけることができる。

　また、前記第１推論モデルの処理精度と前記第２推論モデルの処理精度は異なっていてもよい。

　これによれば、それぞれ異なる処理精度（例えばビット精度）である第１推論モデル及び第２推論モデルについて、それぞれの振る舞いを近づけることができる。

　また、前記第２推論モデルは、前記第１推論モデルの軽量化により得られてもよい。

　これによれば、第１推論モデルの振る舞いと、軽量化された第２推論モデルの振る舞いとを近づけることができる。

　また、前記訓練では、前記第１誤差が小さくなり、かつ、前記第２誤差が大きくなるように、訓練パラメタを算出し、算出した前記訓練パラメタを用いて前記第２推論モデルを更新してもよい。

　これによれば、同じ第１データを異なる第１推論モデルと第２推論モデルとに入力することで算出される第１推論結果と第２推論結果とが一致するように（つまり第１誤差が小さくなるように）、かつ、異なる種類の第１データと第２データとを同じ第２推論モデルに入力することで算出される第２推論結果と第３推論結果とが一致しないように（つまり第２誤差が大きくなるように）算出される訓練パラメタを用いて第２推論モデルを更新することで、第１推論モデルの振る舞いと第２推論モデルの振る舞いとの一致率を向上させることができる。

　また、前記第１推論モデル及び前記第２推論モデルは、ニューラルネットワークモデルであってもよい。

　このように、それぞれニューラルネットワークモデルである第１推論モデル及び第２推論モデルについて、それぞれの振る舞いを近づけることができる。

　本開示の一態様に係る情報処理システムは、第１種類に属する第１データと、前記第１種類と異なる第２種類に属する第２データと、を取得する取得部と、前記第１データを第１推論モデルに入力して第１推論結果を算出し、前記第１データを第２推論モデルに入力して第２推論結果を算出し、前記第２データを前記第２推論モデルに入力して第３推論結果を算出する推論結果算出部と、前記第１推論結果と前記第２推論結果との第１誤差を算出する第１誤差算出部と、前記第２推論結果と前記第３推論結果との第２誤差を算出する第２誤差算出部と、前記第１誤差と前記第２誤差とに基づいて前記第２推論モデルを機械学習により訓練する訓練部と、を備える。

　これによれば、第１推論モデルの振る舞いと第２推論モデルの振る舞いとを近づけることができる情報処理システムを提供できる。

　本開示の一態様に係る情報処理装置は、センシングデータを取得する取得部と、前記センシングデータを第２推論モデルに入力して推論結果を取得する制御部と、取得された前記推論結果に基づくデータを出力する出力部と、を備え、前記第２推論モデルは、第１誤差と第２誤差とに基づいて機械学習により訓練され、前記第１誤差は、第１推論結果と第２推論結果との誤差であり、前記第２誤差は、前記第２推論結果と第３推論結果との誤差であり、前記第１推論結果は、第１データを第１推論モデルに入力して算出され、前記第２推論結果は、前記第１データを前記第２推論モデルに入力して算出され、前記第３推論結果は、第２データを前記第２推論モデルに入力して算出され、前記第１データは、第１種類に属するデータであり、前記第２データは、前記第１種類と異なる第２種類に属するデータである。

　これによれば、第１推論モデルの振る舞いに近づけられた第２推論モデルを装置に用いることができる。これにより、組込み環境における推論モデルを用いた推論処理の性能を向上させることができる。

　以下、実施の形態について、図面を参照しながら具体的に説明する。

　なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。

　（実施の形態）
　以下、実施の形態に係る情報処理システムについて説明するが、その前に、比較例に係る情報処理システムについて図１及び図２を用いて説明する。

　図１は、比較例に係る情報処理システム１ａの一例を示すブロック図である。情報処理システム１ａは、取得部１０ａ、推論結果算出部２０ａ、第１推論モデル２１、第２推論モデル２２、第１誤差算出部３０、訓練部５０ａ及び学習データ１００を備える。

　情報処理システム１ａは、第２推論モデル２２を機械学習により訓練するためのシステムであり、機械学習の際に学習データ１００を用いる。例えば、第２推論モデル２２は、第１推論モデル２１の軽量化により得られるモデルである。例えば、第１推論モデル２１は浮動小数点モデルであり、第２推論モデル２２は固定小数点モデルである。情報処理システム１ａは、軽量化された第２推論モデル２２であっても、第１推論モデル２１と同程度の認識性能となるように第２推論モデル２２を機械学習により訓練する。

　学習データ１００には、数多くの種類のデータが含まれており、例えば、画像認識をさせる推論モデルを機械学習により訓練する場合、学習データ１００には、画像データが含まれる。なお、画像は、撮像画像であってもよく、生成画像であってもよい。

　取得部１０ａは、第１種類に属する第１データを取得する。第１種類は、例えば、クラスである。

　推論結果算出部２０ａは、第１データを第１推論モデル２１に入力して第１推論結果を算出する。また、推論結果算出部２０ａは、第１データを第２推論モデル２２に入力して第２推論結果を算出する。つまり、推論結果算出部２０ａは、同じ第１データを第１推論モデル２１と第２推論モデル２２とに入力することで、第１推論結果と第２推論結果とを算出する。

　第１誤差算出部３０は、第１推論結果と第２推論結果との第１誤差を算出する。第１誤差は、同じ第１データを異なる第１推論モデル２１と第２推論モデル２２とに入力したときに算出される第１推論結果と第２推論結果との誤差である。

　訓練部５０ａは、第１誤差に基づいて第２推論モデル２２を機械学習により訓練する。訓練部５０ａは、パラメタ算出部５１ａ及び更新部５２ａを有する。パラメタ算出部５１ａは、第１誤差が小さくなるように訓練パラメタを算出し、更新部５２ａは、算出した訓練パラメタを用いて第２推論モデル２２を更新する。第１誤差が小さくなるとは、異なる第１推論モデル２１及び第２推論モデル２２に同じ種類の第１データを入力したときに得られる第１推論結果及び第２推論結果が近い推論結果となることを意味する。第１誤差が小さい場合、例えば、同じ画像を第１推論モデル２１及び第２推論モデル２２に入力したときに、第１推論結果及び第２推論結果がそれぞれ同じような認識結果となる。

　ここで、比較例における第１推論モデル２１での特徴量空間と第２推論モデル２２での特徴量空間について図２を用いて説明する。

　図２は、比較例における第１推論モデル２１での識別層直前の特徴量空間と第２推論モデル２２での識別層直前の特徴量空間との一例を示す図である。各特徴量空間に示される６つの丸は、各推論モデルに入力されたデータの特徴量を示し、３つの白丸はそれぞれ同じ種類（例えばクラスＸ）のデータの特徴量であり、３つのドットが付された丸はそれぞれ同じ種類（例えばクラスＹ）のデータの特徴量である。クラスＸとクラスＹとは異なるクラスである。例えば、各推論モデルについて、特徴量空間において特徴量が識別面より左側にあるデータの推論結果はクラスＸを示し、特徴量が識別面より右側にあるデータの推論結果はクラスＹを示すとする。

　第１推論モデル２１は、例えば、浮動小数点モデルであり、表現力の高い（言い換えるとパラメタ数の多い）モデルとなっている。このため、第１推論モデル２１での特徴量空間では、クラスＸのデータとクラスＹのデータについて、クラス間距離は離れており、クラスＸの３つのデータ及びクラスＹの３つのデータをそれぞれ識別できている。

　一方で、第２推論モデル２２は、例えば、軽量化された固定小数点モデルであり、表現力の低い（言い換えるとパラメタ数の少ない）モデルとなっている。第１推論モデル２１及び第２推論モデル２２に同じクラスＸのデータ及び同じクラスＹのデータ等を入力したときに得られる第１推論結果と第２推論結果との第１誤差を考慮して第２推論モデル２２を訓練しても、第２推論モデル２２でのクラス間距離は離れず、認識クラスの変更に限界がある。例えば、第１誤差を考慮した訓練では、第１推論モデル２１と第２推論モデル２２との識別性能を同じにすることはできる。具体的には図２の例では、第２推論モデル２２は、第１推論モデル２１と同じように、６つのデータに対して３つのデータをクラスＸと識別し、３つのデータをクラスＹと識別できている。しかし、第１誤差を考慮した訓練では、第１推論モデル２１の振る舞いと第２推論モデル２２の振る舞いとを近づけることは難しい。具体的には図２の例では、同じクラスのデータについて、第１推論モデル２１ではクラスＸと識別しているのに対して第２推論モデル２２ではクラスＹと識別し、また、別の同じクラスのデータについて、第１推論モデル２１ではクラスＹと識別しているのに対して第２推論モデル２２ではクラスＸと識別している。

　このように、比較例での第１誤差に基づく第２推論モデル２２の訓練では、クラス間距離が離れず、第２推論モデル２２の振る舞いを第１推論モデル２１の振る舞いに近づけることは難しい。

　これに対して、実施の形態に係る情報処理システムでは、第１推論モデル２１の振る舞いと第２推論モデル２２の振る舞いとが近づくように第２推論モデル２２を機械学習により訓練することができる。これについて、以下説明する。

　図３は、実施の形態に係る情報処理システム１の一例を示すブロック図である。情報処理システム１は、取得部１０、推論結果算出部２０、第１推論モデル２１、第２推論モデル２２、第１誤差算出部３０、第２誤差算出部４０、訓練部５０及び学習データ１００を備える。

　情報処理システム１は、第２推論モデル２２を機械学習により訓練するためのシステムであり、機械学習の際に学習データ１００を用いる。情報処理システム１は、プロセッサ及びメモリ等を含むコンピュータである。メモリは、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）及びＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等であり、プロセッサにより実行されるプログラムを記憶することができる。取得部１０、推論結果算出部２０、第１誤差算出部３０、第２誤差算出部４０及び訓練部５０は、メモリに格納されたプログラムを実行するプロセッサ等によって実現される。

　例えば、情報処理システム１は、サーバであってもよい。また、情報処理システム１を構成する構成要素は、複数のサーバに分散して配置されてもよい。

　学習データ１００には、数多くの種類のデータが含まれており、例えば、画像認識をさせるモデルを機械学習により訓練する場合、学習データ１００には、画像データが含まれる。学習データ１００には、第１種類に属する第１データ及び第１種類と異なる第２種類に属する第２データが含まれる。第１種類及び第２種類は、例えばクラスである。

　第１推論モデル２１及び第２推論モデル２２は、例えば、ニューラルネットワークモデルであり、入力されたデータに対して推論を行う。推論は、ここでは例えば分類とするが、物体検出、セグメンテーション又はカメラから被写体までの距離の推定等であってもよい。なお、振る舞いは、推論が分類の場合、正解／不正解又はクラスであってよく、推論が物体検出の場合、正解／不正解又はクラスに代えて又はそれと共に検出枠の大きさ又は位置関係であってよく、推論がセグメンテーションの場合、領域のクラス、大きさ又は位置関係であってよく、推論が距離推定である場合、推定距離の長さであってよい。

　例えば、第１推論モデル２１の構成と第２推論モデル２２の構成は異なっていてもよく、また、第１推論モデル２１の処理精度と第２推論モデル２２の処理精度は異なっていてもよく、第２推論モデル２２は、第１推論モデル２１の軽量化により得られる推論モデルであってもよい。例えば、第１推論モデル２１の構成と第２推論モデル２２の構成が異なる場合、第２推論モデル２２は、第１推論モデル２１よりも枝数が少ない又はノード数が少ない。例えば、第１推論モデル２１の処理精度と第２推論モデル２２の処理精度が異なる場合、第２推論モデル２２は、第１推論モデル２１よりもビット精度が低い。具体的には、第１推論モデル２１は浮動小数点モデルであり、第２推論モデル２２は固定小数点モデルであってもよい。なお、第１推論モデル２１の構成と第２推論モデル２２の構成が異なり、かつ、第１推論モデル２１の処理精度と第２推論モデル２２の処理精度が異なっていてもよい。

　取得部１０は、学習データ１００から、第１種類に属する第１データと、第１種類と異なる第２種類に属する第２データと、を取得する。

　推論結果算出部２０は、取得部１０が取得したデータから第１データを選択し、第１データを第１推論モデル２１及び第２推論モデル２２に入力して第１推論結果及び第２推論結果を算出する。また、推論結果算出部２０は、取得部１０が取得したデータから第２データを選択し、第２データを第２推論モデル２２に入力して第３推論結果を算出する。

　第１誤差算出部３０は、第１推論結果と第２推論結果との第１誤差を算出する。

　第２誤差算出部４０は、第２推論結果と第３推論結果との第２誤差を算出する。

　訓練部５０は、第１誤差と第２誤差とに基づいて第２推論モデル２２を機械学習により訓練する。例えば、訓練部５０は、パラメタ算出部５１及び更新部５２を機能構成要素として有する。パラメタ算出部５１は、第１誤差が小さくなり、かつ、第２誤差が大きくなるように、訓練パラメタを算出する。更新部５２は、算出した訓練パラメタを用いて第２推論モデル２２を更新する。

　情報処理システム１の動作について図４を用いて説明する。

　図４は、実施の形態に係る情報処理方法の一例を示すフローチャートである。情報処理方法は、コンピュータ（情報処理システム１）により実行される方法である。このため、図４は、実施の形態に係る情報処理システム１の動作の一例を示すフローチャートでもある。すなわち、以下の説明は、情報処理システム１の動作の説明でもあり、情報処理方法の説明でもある。

　まず、取得部１０は、第１データと第２データとを取得する（ステップＳ１１）。例えば、第１データ及び第２データを画像とすると、取得部１０は、それぞれクラスの異なる物体が写る第１データと第２データとを取得する。

　次に、推論結果算出部２０は、第１データを第１推論モデル２１に入力して第１推論結果を算出し（ステップＳ１２）、第１データを第２推論モデル２２に入力して第２推論結果を算出し（ステップＳ１３）、第２データを第２推論モデル２２に入力して第３推論結果を算出する（ステップＳ１４）。つまり、推論結果算出部２０は、同じ第１データを第１推論モデル２１と第２推論モデル２２とに入力することで、第１推論結果と第２推論結果とを算出し、異なる種類（例えば異なるクラス）の第１データと第２データとを同じ第２推論モデル２２に入力することで、第２推論結果と第３推論結果とを算出する。なお、ステップＳ１２、ステップＳ１３及びステップＳ１４は、この順序で実行されなくてもよく、また、並行して実行されてもよい。

　次に、第１誤差算出部３０は、第１推論結果と第２推論結果との第１誤差を算出し（ステップＳ１５）、第２誤差算出部４０は、第２推論結果と第３推論結果との第２誤差を算出する（ステップＳ１６）。第１誤差は、同じ第１データを異なる第１推論モデル２１と第２推論モデル２２とに入力したときに算出される第１推論結果と第２推論結果との誤差である。第２誤差は、異なる種類の第１データと第２データとを同じ第２推論モデル２２に入力したときに算出される第２推論結果と第３推論結果との誤差である。なお、ステップＳ１４及びステップＳ１５は、この順序で実行されなくてもよく、また、並行して実行されてもよい。また、ステップＳ１２及びステップＳ１３が実行された後に、ステップＳ１５が実行され、その後にステップＳ１４が実行され、そしてステップＳ１６が実行されてもよい。或いは、ステップＳ１３及びステップＳ１４が実行された後に、ステップＳ１６が実行され、その後にステップＳ１２が実行され、そしてステップＳ１５が実行されてもよい。

　そして、訓練部５０は、第１誤差と第２誤差とに基づいて第２推論モデル２２を機械学習により訓練する（ステップＳ１７）。具体的には、訓練部５０の訓練では、パラメタ算出部５１は、第１誤差が小さくなり、かつ、第２誤差が大きくなるように、訓練パラメタを算出し、更新部５２は、訓練パラメタを用いて第２推論モデル２２を更新する。第１誤差が小さくなるとは、異なる第１推論モデル２１及び第２推論モデル２２に同じ第１データを入力したときに得られる第１推論結果及び第２推論結果が近い推論結果となることを意味する。第１誤差は、第１推論結果と第２推論結果との距離が近いほど小さくなる。推論結果の距離は、例えば、クロスエントロピーによって求めることができる。第２誤差が大きくなるとは、同じ第２推論モデル２２に異なる種類の第１データと第２データとを入力したときに得られる第２推論結果及び第３推論結果が遠い推論結果となることを意味する。第２誤差は、第２推論結果と第３推論結果との距離が近いほど大きくなる。パラメタ算出部５１は、第１誤差と第２誤差とをそれぞれ任意の係数で重みづけした後に加算することで、訓練パラメタを算出する。例えば、第２推論モデル２２の訓練には、第１誤差と第２誤差の重み付け和が用いられてもよいし、或いは、新たな定数αを定義してＴｒｉｐｌｅｔ　Ｌｏｓｓが用いられてもよい。

　ここで、実施の形態における第１推論モデル２１での特徴量空間と第２推論モデル２２での特徴量空間について図５を用いて説明する。

　図５は、実施の形態における第１推論モデル２１での識別層直前の特徴量空間と第２推論モデル２２での識別層直前の特徴量空間との一例を示す図である。各特徴量空間における６つの丸は、各推論モデルに入力されたデータの特徴量を示し、３つの白丸はそれぞれ同じ種類（例えばクラスＸ）のデータの特徴量であり、３つのドットが付された丸はそれぞれ同じ種類（例えばクラスＹ）のデータの特徴量である。クラスＸとクラスＹとは異なるクラスである。例えば、各推論モデルについて、特徴量空間において特徴量が識別面より左側にあるデータの推論結果はクラスＸを示し、特徴量が識別面より右側にあるデータの推論結果はクラスＹを示すとする。

　第１推論モデル２１は、表現力の高い（言い換えるとパラメタ数の多い）モデルとなっている。このため、第１推論モデル２１での特徴量空間では、クラスＸのデータとクラスＹのデータについて、クラス間距離は離れており、クラスＸの３つのデータ及びクラスＹの３つのデータをそれぞれ識別できている。

　一方で、第２推論モデル２２は、例えば、軽量化されて表現力の低い（言い換えるとパラメタ数の少ない）モデルとなっている。比較例は、第１誤差のみを考慮して第２推論モデル２２を訓練する例であり、当該訓練では第２推論モデル２２でのクラス間距離は離れない。しかし、実施の形態では、第１誤差だけでなく、第２誤差も考慮して第２推論モデル２２の訓練が行われる。つまり、異なる第１推論モデル２１及び第２推論モデル２２間の第１誤差だけではなく、同じ第２推論モデル２２における第２誤差も考慮することで、第１推論モデル２１と同じように、第２推論モデル２２においてもクラス間距離を離すことができる。したがって、第１誤差及び第２誤差を考慮した訓練では、第１推論モデル２１と第２推論モデル２２との識別性能を同程度にし、かつ、第１推論モデル２１の振る舞いと第２推論モデル２２の振る舞いとを近づけることができる。具体的には図５の例では、第２推論モデル２２は、第１推論モデル２１と同じように、６つのデータに対して３つのデータをクラスＸと識別し、３つのデータをクラスＹと識別できている。さらに、第１推論モデル２１においてクラスＸと識別しているデータについて、第２推論モデル２２においても全てクラスＸと識別できており、第１推論モデル２１においてクラスＹと識別しているデータについて、第２推論モデル２２においても全てクラスＹと識別できている。

　このように、実施の形態での第１誤差及び第２誤差に基づく第２推論モデル２２の訓練では、クラス間距離を離すことができ、第２推論モデル２２の振る舞いを第１推論モデル２１の振る舞いに近づけることができる。

　以上説明したように、第１推論モデル２１と第２推論モデル２２とに同じ第１データを入力することで算出される第１推論結果と第２推論結果との第１誤差だけでなく、第２推論モデル２２に異なる種類の第１データと第２データとを入力することで算出される第２推論結果と第３推論結果との第２誤差も用いて第２推論モデル２２が機械学習により訓練される。そのため、第１推論モデル２１の振る舞いと第２推論モデル２２の振る舞いとを近づけることができる。また、合わせて、第１推論モデル２１の認識性能と第２推論モデル２２の認識性能との差を維持又は小さくしたり、差が開くことを抑制したりすることができる。

　例えば、同じ第１データを異なる第１推論モデル２１と第２推論モデル２２とに入力することで算出される第１推論結果と第２推論結果との第１誤差が小さくなるように、かつ、異なる種類の第１データと第２データとを同じ第２推論モデル２２に入力することで算出される第２推論結果と第３推論結果との第２誤差が大きくなるように算出される訓練パラメタを用いて第２推論モデル２２を更新することで、第１推論モデル２１の振る舞いと第２推論モデル２２の振る舞いとの一致率を向上させることができる。

　（その他の実施の形態）
　以上、本開示の一つ又は複数の態様に係る情報処理方法及び情報処理システム１について、実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の趣旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

　例えば、上記実施の形態では、第２推論モデル２２が、第１推論モデル２１の軽量化により得られる例について説明したが、第２推論モデル２２は、第１推論モデル２１の軽量化により得られるモデルでなくてもよい。

　例えば、上記実施の形態では、第１データ及び第２データが画像である例を説明したが、他のデータであってもよい。具体的には、画像以外のセンシングデータであってもよい。例えば、マイクロフォンから出力される音声データ、ＬｉＤＡＲ等のレーダから出力される点群データ、圧力センサから出力される圧力データ、温度センサ湿度センサから出力される温度データ湿度データ、香りセンサから出力される香りデータなどの正解データが取得可能なセンシングデータであれば、処理の対象とされてよい。

　例えば、上記実施の形態に係る訓練後の第２推論モデル２２は、装置に組み込まれてもよい。これについて、図６を用いて説明する。

　図６は、その他の実施の形態に係る情報処理装置３００の一例を示すブロック図である。なお、図６には、情報処理装置３００の他にセンサ４００も示している。

　図６に示されるように、情報処理装置３００は、センシングデータを取得する取得部３１０と、上記第１誤差と上記第２誤差とに基づいて機械学習により訓練された第２推論モデル２２にセンシングデータを入力して推論結果を取得する制御部３２０と、取得された推論結果に基づくデータを出力する出力部３３０と、を備える。このように、センシングデータをセンサ４００から取得する取得部３１０と、訓練後の第２推論モデル２２を用いた処理を制御する制御部３２０と、第２推論モデル２２の出力である推論結果に基づくデータを出力する出力部３３０と、を備える情報処理装置３００が提供されてよい。なお、情報処理装置３００にセンサ４００が含まれてもよい。また、取得部３１０は、センシングデータが記録されたメモリからセンシングデータを取得してもよい。

　例えば、本開示は、情報処理方法に含まれるステップを、プロセッサに実行させるためのプログラムとして実現できる。さらに、本開示は、そのプログラムを記録したＣＤ－ＲＯＭ等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。

　例えば、本開示が、プログラム（ソフトウェア）で実現される場合には、コンピュータのＣＰＵ、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、ＣＰＵがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。

　なお、上記実施の形態において、情報処理システム１に含まれる各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、ＣＰＵ又はプロセッサなどのプログラム実行部が、ハードディスク又は半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。

　上記実施の形態に係る情報処理システム１の機能の一部又は全ては典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

　さらに、本開示の主旨を逸脱しない限り、本開示の各実施の形態に対して当業者が思いつく範囲内の変更を施した各種変形例も本開示に含まれる。

　本開示は、例えば、エッジ端末でＤｅｅｐ　Ｌｅａｒｎｉｎｇを実行する際に用いられる推論モデルの開発に適用できる。

　１、１ａ　情報処理システム
　１０、１０ａ、３１０　取得部
　２０、２０ａ　推論結果算出部
　２１　第１推論モデル
　２２　第２推論モデル
　３０　第１誤差算出部
　４０　第２誤差算出部
　５０、５０ａ　訓練部
　５１、５１ａ　パラメタ算出部
　５２、５２ａ　更新部
　１００　学習データ
　３００　情報処理装置
　３２０　制御部
　３３０　出力部

Claims

　コンピュータにより実行される方法であって、
　第１種類に属する第１データと、前記第１種類と異なる第２種類に属する第２データと、を取得し、
　前記第１データを第１推論モデルに入力して第１推論結果を算出し、
　前記第１データを第２推論モデルに入力して第２推論結果を算出し、
　前記第２データを前記第２推論モデルに入力して第３推論結果を算出し、
　前記第１推論結果と前記第２推論結果との第１誤差を算出し、
　前記第２推論結果と前記第３推論結果との第２誤差を算出し、
　前記第１誤差と前記第２誤差とに基づいて前記第２推論モデルを機械学習により訓練する
　情報処理方法。
　前記第１種類及び前記第２種類はクラスである
　請求項１に記載の情報処理方法。
　前記第１推論モデルの構成と前記第２推論モデルの構成は異なる
　請求項１又は２に記載の情報処理方法。
　前記第１推論モデルの処理精度と前記第２推論モデルの処理精度は異なる
　請求項１～３のいずれか１項に記載の情報処理方法。
　前記第２推論モデルは、前記第１推論モデルの軽量化により得られる
　請求項３又は４に記載の情報処理方法。
　前記訓練では、
　前記第１誤差が小さくなり、かつ、前記第２誤差が大きくなるように、訓練パラメタを算出し、
　算出した前記訓練パラメタを用いて前記第２推論モデルを更新する
　請求項１～５のいずれか１項に記載の情報処理方法。
　前記第１推論モデル及び前記第２推論モデルは、ニューラルネットワークモデルである
　請求項１～６のいずれか１項に記載の情報処理方法。
　第１種類に属する第１データと、前記第１種類と異なる第２種類に属する第２データと、を取得する取得部と、
　前記第１データを第１推論モデルに入力して第１推論結果を算出し、前記第１データを第２推論モデルに入力して第２推論結果を算出し、前記第２データを前記第２推論モデルに入力して第３推論結果を算出する推論結果算出部と、
　前記第１推論結果と前記第２推論結果との第１誤差を算出する第１誤差算出部と、
　前記第２推論結果と前記第３推論結果との第２誤差を算出する第２誤差算出部と、
　前記第１誤差と前記第２誤差とに基づいて前記第２推論モデルを機械学習により訓練する訓練部と、を備える
　情報処理システム。
　センシングデータを取得する取得部と、
　前記センシングデータを第２推論モデルに入力して推論結果を取得する制御部と、
　取得された前記推論結果に基づくデータを出力する出力部と、を備え、
　前記第２推論モデルは、第１誤差と第２誤差とに基づいて機械学習により訓練され、
　前記第１誤差は、第１推論結果と第２推論結果との誤差であり、
　前記第２誤差は、前記第２推論結果と第３推論結果との誤差であり、
　前記第１推論結果は、第１データを第１推論モデルに入力して算出され、
　前記第２推論結果は、前記第１データを前記第２推論モデルに入力して算出され、
　前記第３推論結果は、第２データを前記第２推論モデルに入力して算出され、
　前記第１データは、第１種類に属するデータであり、
　前記第２データは、前記第１種類と異なる第２種類に属するデータである
　情報処理装置。