WO2021095361A1

WO2021095361A1 - 演算装置および学習済みモデル

Info

Publication number: WO2021095361A1
Application number: PCT/JP2020/035254
Authority: WO
Inventors: 佑樹前; 敬文金森
Original assignee: 株式会社デンソー; 国立大学法人東京工業大学
Priority date: 2019-11-11
Filing date: 2020-09-17
Publication date: 2021-05-20
Also published as: JP7386462B2; JPWO2021095361A1

Abstract

演算装置は、重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、データを入力する入力部と、ニューラルネットワークモデルによる推論により、入力部にて入力されたデータを分析する推論部と、推論部による分析結果を出力する出力部とを備える。

Description

演算装置および学習済みモデル

　本開示は、ニューラルネットワークの学習済みモデルを有する演算装置に関する。

関連出願への相互参照

　本出願は、２０１９年１１月１１日に日本国に出願した特願２０１９－２０３９８８号に基づくものであって、その優先権の利益を主張するものであり、その特許出願のすべての内容が、参照により本明細書に組み入れられる。

　近年、ニューラルネットワークの研究が進み、画像認識や音声認識等、ニューラルネットワークを用いた様々なアプリケーションが開発されている。ニューラルネットワークは、脳のしくみをコンピュータ上で表現するために作られた数理的モデルであり、入力層、中間層、出力層から構成され、各層の間は、ニューロン同士のつながりの強さを示す重み係数が規定される。この重み係数は学習によって決定される。

　現在、よく用いられるニューラルネットワークでは、ニューロン同士のつながりの重み係数は、学習によって確定的に決定される。このため、ニューラルネットワークによる推論結果は点推定であり、間違った結果であっても確定的に出力してしまうことがあった。

　推論結果に確率的な情報を持たせたニューラルネットワークとして、ベイジアンニューラルネットワークが知られている。ベイジアンニューラルネットワークは、ニューロン同士のつながりの重み係数を確率分布で持つことにより、推論結果を確率的に求めることができる。ベイジアンニューラルネットワークは、ベイズ深層学習の近似方法の一つであるモンテカルロドロップアウト（Monte Carlo Dropout）を用いることで予測分布を求めることができる。

　また、複数のニューラルネットワークモデルの推論結果を総合するモデルアンサンブルという手法も知られている（特許文献１）。複数のニューラルネットワークモデルの結果を総合することは、推論結果を確率的に求めることとほぼ同じであり、この方法によっても推論結果の信頼性を高めることができる。

特開２０１９－１１４２３０号公報

J. Postels, F. Ferroni, H. Coskun, N. Navab and F. Tombari、「Sampling-Free Epistemic Uncertainty Estimation Using Approximated Variance Propagation」 The IEEE International Conference on Computer Vision (ICCV) (2019).

　上記したベイジアンニューラルネットワークは、通常のニューラルネットワークに比べて計算負荷が非常に大きい。モンテカルロドロップアウトは、モンテカルロ法によるサンプリングを数十回から数百回行う必要があり、計算負荷が非常に大きい。また、特許文献１に記載した方法も、複数のニューラルネットワークの計算を行うので、その個数分だけ計算時間とメモリ容量が必要である。研究目的ではそのような計算を行うことはできても、例えば、自動運転車両のように高速で判断を行うことが必要なエッジ機器に適用することは困難である。

　複数回のサンプリングを行わずに一回のフィードフォワードで、ベイジアンニューラルネットワークの予測分布を得る方法として、一次のテイラー展開で各層の関数を近似して、その関数の期待値と分散の解析解を伝播する方法が提案されている（非特許文献１）。一次のテイラー展開で各層の関数を近似してその関数の期待値と分散の解析解を伝播すれば、ガウス分布とみなした予測分布が一回のフィードフォワードで高速に得られる。期待値と分散の伝播により高速に不確実性を得られるようになるものの、一次のテイラー展開による近似のために、非活性化関数の期待値に入力の分散が反映されないという問題や、関数の期待値や分散の近似精度が低いという問題があった。

　本開示は、上記背景に鑑み、省メモリかつ高速に、確率的な推論を行うことができるニューラルネットワークモデルを備えた演算装置を提供する。

　本開示は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲に記載した括弧内の符号は、ひとつの態様として後述する実施の形態に記載の具体的手段との対応関係を示す一例であって、本開示の技術的範囲を限定するものではない。

　本開示の演算装置は、重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、データを入力する入力部と、前記ニューラルネットワークモデルによる推論により、前記入力部にて入力されたデータを分析する推論部と、前記推論部による分析結果を出力する出力部とを備える。

　本開示の学習済みモデルは、入力されたデータを分析するようにコンピュータを機能させるためのニューラルネットワークの学習済みモデルであって、重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、ニューラルネットワークモデルにより構成され、入力されたデータを前記ニューラルネットワークモデルに適用したときに、出力層に伝播された出力値の確率分布の平均と分散に基づいて、入力されたデータを分析する構成を有する。

　本開示の構成により、省メモリかつ高速に、確率的な推論を行うことができる。

図１は、実施の形態の演算装置の構成を示す図である。図２は、ニューラルネットワークモデルの一例を示す図である。図３は、図２に示すニューラルネットワークモデルの変換前のニューラルネットワークモデルである。図４は、全結合、ドロップアウト、ＲｅＬＵ、Ｓｉｇｍｏｉｄの処理において、期待値と分散を伝播する計算式を示す図である。図５は、学習器が全結合の場合の分散モードと上界モードの期待値および分散の計算式を示す図である。図６Ａは、本実施の形態のニューラルネットワークモデルの構成を示す図である。図６Ｂは、ニューラルネットワークモデルの出力ｙの計算式である。図７Ａは、期待値μと分散σ^２を求める計算式である。図７Ｂは、回帰分析結果である期待値μと分散σ^２を用いて、２クラス分類を行ったときの期待値と分散の計算式を示す図である。図８Ａは、出力が多次元のニューラルネットワークモデルの構成を示す図である。図８Ｂは、出力が多次元のニューラルネットワークモデルの出力ｙの計算式である。図９Ａは、期待値μと分散σ^２を求める計算式である。図９Ｂは、回帰分析結果である期待値μと分散σ^２を用いて、多クラス分類を行ったときの期待値と分散の計算式を示す図である。図１０は、本実施の形態の演算装置の適用例を示す図である。

　以下、本開示の実施の形態の演算装置について、図面を参照して説明する。
（第１の実施の形態）
　図１は、本実施の形態の演算装置１の構成を示す図である。演算装置１は、入力部１０と、推論部１１と、記憶部１２と、出力部１３とを有している。入力部１０は、分析対象となるデータの入力を受け付ける機能を有する。分析対象のデータは、例えば、画像データ、音声データ、テキストデータ等であるが、これらに限定されるものではない。入力部１０のハードウェアは、例えば、カメラやマイク等の他のセンサ類からのデータの入力を受け付ける通信インターフェースである。

　記憶部１２は、学習済みのニューラルネットワークモデルを記憶している。推論部１１は、記憶部１２に記憶された学習済みモデルを読み出し、入力部１０から入力されたデータを学習済みモデルに適用して推論を行う。推論部１１のハードウェアは、ＣＰＵ、ＲＡＭ等の装置である。

　本実施の形態の演算装置１は、回帰分析、分類のいずれにも適用することができる。出力部１３は、推論部１１による分析結果を出力する機能を有する。出力部１３のハードウェアは、例えば、推論結果にかかるデータを他のアプリケーションに送信する通信インターフェースである。

　図２は、記憶部１２に記憶されたニューラルネットワークモデルの一例を示す図である。図において上が入力層Ｌ１であり、上から畳込層Ｌ２、畳込層Ｌ３、マックスプーリング層Ｌ４、ドロップアウト層Ｌ５、Ｆｌａｔｔｅｎ層Ｌ６、全結合層Ｌ７、ドロップアウト層Ｌ８、全結合層Ｌ９を有し、期待値と分散が出力される（Ｌ１０）。この構造において、ドロップアウト層Ｌ５で分散を発生させ、その後、期待値と分散を伝播している。

　本実施の形態では、分散を伝播する層を２入力２出力というインターフェースで実装している。このため、分散を発生させるドロップアウト層Ｌ５が入力として分散を受け取れるように、分散０を発生させる層Ｌ_ｖ０を含んでいる。ドロップアウト層Ｌ５以降は、前の層から出力される期待値μと分散σ^２の２つを入力として受け取って、図４のＢＮＮの欄に示した計算式を用いて期待値μと分散σ^２を出力する。なお、図２に示すニューラルネットワークモデルは、図３に示すニューラルネットワークモデルを、期待値と分散を伝播できるように変換したものである。

　図４は、全結合、ドロップアウト、ＲｅＬＵ、Ｓｉｇｍｏｉｄの処理において、期待値としてμのハットを、分散としてσのハットの２乗を出力する計算式を示す図である。最初に、図４で用いられている記号について説明する。
x: 層の入力 (１入力１出力である通常のNNの層の入力)
y: 層の出力 (１入力１出力である通常のNNの層の出力)
μ: xの期待値
σの2乗: xの分散
μのハット: yの期待値
σのハットの2乗: yの分散

　図４では、１入力１出力の通常のニューラルネットワーク（ＮＮ）の計算式を並べて記載している。全結合層のようなアフィン層では、入力を確率変数と捉えて、期待値と分散の解析解を計算する。これに対し、ドロップアウトやＲｅＬＵ、Ｓｉｇｍｏｉｄ等のような非線形層では、ガウス近似等の近似ベイズ推論を行う。このように各層を非線形関数のまま積分することで、高速かつ高精度に予測分布を得ることができる。なお、図４では、ニューラルネットワークで用いられる層の一部を取り上げて説明したが、例えば、BatchNormalization層やtanh層の他の層についても、アフィン層であれば解析解を計算する方法、非線形層であれば近似ベイズ推論を行うことで、上記と同様に、期待値と分散を求めることができる。

　本実施の形態の演算装置は、分散を伝播させる２つのモードを有している。第１のモードは、入力される値が独立であると仮定して出力する分散を計算する独立分散伝播のモード（以下、「独立モード」という）であり、第２のモードは、入力される値が非独立であると仮定して出力する分散を計算する上界分散伝播のモード（以下、「上界モード」という）である。

　図５は、学習器が全結合の場合の独立モードと上界モードの期待値および分散の計算式を示す図である。基本的には、入力値が独立であると仮定して独立モードで計算を行う。したがって、独立モードでの期待値及び分散の計算式は、図４で示した計算式と同じである。上界モードの場合には、分散と重みの積を合計した値を２乗しているので、独立モードよりも分散が大きくなる。

　独立性の仮定が正しくないときに独立分散伝播を行うと分散が過小評価されて自信過剰になってしまうので、独立性の仮定が正しくないときには、上界モードで計算することで、自信過剰になるのを防げる。独立性の仮定が正しいときに上界分散伝播を行うと、分散が過大評価されて自信不足になってしまうが、独立分散伝播だと自信不足になるのを防げる。このように、独立モードと上界モードは異なる特徴を有する。

　安全性を重視するアプリケーションでは、自信過剰になることを防ぐことが望ましいため上界モードが有用であり、安全性をそれほど重視しないアプリケーションでは、独立モードが有用である。演算装置は、アプリケーションによって、分散伝播のモードを切り換えることとしてもよい。

（第２の実施の形態）
　第２の実施の形態の演算装置の基本的な構成は、第１の実施の形態の演算装置１（図１参照）と同じである。第２の実施の形態の演算装置は、記憶部１２に記憶されたニューラルネットワークモデルの構成が第１の実施の形態とは異なる。第２の実施の形態においては、ニューラルネットワークに含まれる確率層を１層だけとすることにより、計算負荷を低減させる。

　図６Ａは、記憶部１２に記憶されたニューラルネットワークモデルの構成を示す図である。ニューラルネットワークモデルは、入力層と、中間層と、出力層とを有している。図６Ａに示す例では、中間層として３つの層を有しているが、中間層の数は３層に限らず、４層以上であってもよいし、２層または１層でもよい。

　本実施の形態のニューラルネットワークモデルは、３つの中間層のうち出力層に近い方の層が重み係数を確率論的（stochastic）に有する確率層を構成している。確率層は、ベルヌーイ分布と重み係数を組み合わせることで、重み係数を確率論的に規定している。ニューラルネットワークモデルの他の層は、重み係数を決定論的（deterministic）に規定している。

　次に、このニューラルネットワークモデルを用いた推論について説明する。推論部１１は、入力部１０にて入力された分析対象のデータを入力層に入力し、ニューラルネットワークモデルの重み係数にしたがって計算を行う。本実施の形態の推論部１１は、出力層に現れる値ではなく、確率層に現れる値を用いて、入力されたデータの分析を行う。

　図６Ｂは、図６Ａに示すニューラルネットワークモデルの出力値ｙの計算式である。図６Ｂに示すように、確率層に現れた値ｚ_ｋに、ベルヌーイ分布から定まるｄ_ｋと重み係数ｗ_ｋを乗じた値の総和に、重みｗ_０を加えた値がニューラルネットワークモデルの出力として求められる。ここは、重みｗ_０は、切片を意味するバイアス項である。本実施の形態では、所与の確率分布としてベルヌーイ分布を与えているが、所与の確率分布はベルヌーイ分布に限られず、例えば、ガウス分布等の別の確率分布を用いてもよい。

　図７Ａは、推論部１１にて求める期待値と分散を示す計算式を示す図である。期待値μは、確率層に現れた値ｚ_ｋに、ベルヌーイ分布から定まるｄ_ｋと重み係数ｗ_ｋを乗じた値の総和に、重みｗ_０を加えた値である。本実施の形態の推論部１１は、確率分布ｐを用いて求められる分散σ^２を不確実性を示す指標として求める。図７Ａに示しているのは、分析対象のデータの回帰分析の結果であるが、図７Ｂは回帰分析結果である期待値μと分散σ^２を用いて、２クラス分類を行ったときの期待値と分散の計算式を示す図である。分散σ^２が小さいほど、期待値μの信頼性が高い。これらの計算式を用いて計算を行うことで、推論部１１は、クラス分類を行うことができる。

　上記した図６Ａ、図６Ｂ及び図７Ａ、図７Ｂでは、出力ｙが１次元の場合について記載をしているが、出力ｙが多次元の場合には、図８Ａ、図８Ｂ及び図９Ａ、図９Ｂのようになる。すなわち、図８Ａは出力が多次元のニューラルネットワークモデルの構成を示す図、図８Ｂは出力が多次元のニューラルネットワークモデルの出力ｙの計算式である。図９Ａは、出力が多次元の場合の期待値μと分散σ^２を求める計算式、図９Ｂは回帰分析結果である期待値μと分散σ^２を用いて、多クラス分類を行ったときの期待値と分散の計算式を示す図である。

　次に、図６Ａに示すニューラルネットワークモデルの生成方法について説明をする。ニューラルネットワークモデルの学習は、教師データを用いて行う。入力部１０にデータを入力して得られた推論結果と正解ラベルとの誤差を求め、誤差が最小となるように誤差逆伝播法により、ニューラルネットワークモデルの重み係数を更新していく。この際に、確率層を構成する確率分布は所与であるので更新せず、重み係数を更新することで確率層を更新する。このように、学習を行う際には、出力層に現れる値を用いて学習を行う。

　以上、本実施の形態の演算装置１の構成について説明したが、上記に説明した学習済みモデルも本開示の範囲に含まれる。なお、本実施の形態では、出力層に最も近い位置に確率層を配置した例を挙げたが、確率層の配置は、出力層に最も近い位置でなくてもよい。ただし、その場合も、ニューラルネットワークモデルの中で確率層は１層である。このように、確率層を１層とすることにより、図７Ａで示した計算が可能となる。なお、上記した実施の形態では、確率層を、所与の確率分布と重み係数の組合せで構成する例をあげたが、学習によって確率分布自体を更新することとしてもよい。

（適用例）
　図１０は、第１の実施の形態及び第２の実施の形態の演算装置の適用例を示す図である。図１０に示す例では、自動運転車両のＥＣＵ２（Engine Control Unit）が演算装置１に該当する。ＥＣＵ２は、図１で示す演算装置１と同じ構成を有する。ＥＣＵ２は、自動運転車両のカメラ２０で撮影された映像の入力を受け、映像に映る物体をクラス（例えば、トラック、乗用車、バイク、人等）に分類すると共に、分類されたクラスの信頼性を推論する。そして、ＥＣＵ２は、推論された結果を自動運転車両の車両制御部２１に送信する。車両制御部２１は、ＥＣＵ２から送信されたデータに基づいて、車両を制御する。

　すなわち、演算装置は、車両に搭載されたカメラで撮影した映像に基づいて物体を検出する装置であって、重み係数が確率分布によって規定され、出力ベクトルの確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、自動運転車両のカメラで撮影された映像を入力する入力部と、ニューラルネットワークモデルによる推論により、映像に映る物体をクラスに分類すると共にその信頼性を推論する推論部と、推論部にて推論した物体のクラスと信頼性のデータとを車両制御部に対して出力する出力部とを備える。車両制御部は、演算装置から受信したデータに基づいて、自動運転車両の制御を行う。車両制御部は、信頼性のデータも受信するので、例えば、推論結果の信頼性が低い場合には、推論結果を利用した制御を行いつつ、車速を落とす等の制御を行うことができる。

　また、演算装置は、車両に搭載されたカメラで撮影した映像に基づいて物体を検出する装置であって、重み係数が確率分布によって規定され、出力ベクトルの確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、自動運転車両のカメラで撮影された映像を入力する入力部と、ニューラルネットワークモデルによる推論により、映像内の各画素に対する距離を推定してデプス画像を生成すると共にその信頼性を推論する推論部と、推論部にて推論したデプス画像と信頼性のデータとを車両制御部に対して出力する出力部とを備えてもよい。車両制御部は、演算装置から受信したデータに基づいて、自動運転車両の制御を行う。

　自動運転車両はセーフティクリティカルな自律システムであるので、データの分析結果の信頼性の情報を提供することが有用である。また、自動運転車両では、事故を回避するために、瞬時に状況を認知する必要があるので、時間のかかる処理を行うことができない。本実施の形態のＥＣＵ２は、省メモリかつ高速に、確率的な推論を行うことができるので、自動運転車両の制御に好適に用いることができる。

（他の用途）
　本実施の形態の演算装置１は、自動運転車両の制御以外にも適用することができる。例えば、医療の分野では、内視鏡を用いた検査において腫瘍を見つけた場合に、その場で良性か悪性か等の判断をしなければならない場面が考えられるが、内視鏡の映像から対象物を良性／悪性の２クラス分類するとともにその信頼性の指標を求めたり、腫瘍の種類を多クラス分類するとともにその信頼性の指標を求めることとしてもよい。

　また、セキュリティの分野において、人物の認証を行うときに、顔の画像から、その人が真正な権限を有する人かどうかを認証すると共に、その信頼性の指標を求めてもよい。あるいは、メールのテキストを入力し、メールがスパムメールか否かを分類するとともに、その信頼性の指標を求めてもよい。

　以上のように、本開示の演算装置は、様々な場面に適用することができる。上述したとおり、本開示は、省メモリのエッジ機器の上で推論を実行する際に、特に有用である。

Claims

　重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部（１２）と、
　データを入力する入力部（１０）と、
　前記ニューラルネットワークモデルによる推論により、前記入力部にて入力されたデータを分析する推論部（１１）と、
　前記推論部による分析結果を出力する出力部（１３）と、
　を備える演算装置（１）。
　確率分布の平均と分散が入力される層では、前層から入力される値が独立であると仮定して出力する分散を計算する第１のモードと、前層から入力される値が非独立であると仮定して出力する分散を計算する第２のモードとを備える請求項１に記載の演算装置。
　学習済みのニューラルネットワークモデルを記憶した記憶部（１２）と、
　データを入力する入力部（１０）と、
　前記ニューラルネットワークモデルによる推論により、前記入力部にて入力されたデータを分析する推論部（１１）と、
　前記推論部による分析結果を出力する出力部（１３）と、
　を備え、
　前記ニューラルネットワークモデルは、重み係数を確率分布で規定した１つの確率層を有するとともに、その他の層は重み係数を確定値で規定しており、
　前記推論部は、前記入力部にて入力されたデータを前記ニューラルネットワークモデルに適用したときに、前記確率層に現れた値と前記重み係数の確率分布とに基づいて、入力されたデータの分析を行う演算装置（１）。
　前記確率層は、出力層に最も近い位置に配置されている請求項３に記載の演算装置。
　前記確率層は、所与の確率分布と学習によって設定された重み係数の組み合わせによって構成される請求項３または４に記載の演算装置。
　前記入力部は、画像データ、音声データまたはテキストデータを入力し、
　前記推論部は、前記画像データ、音声データまたはテキストデータを複数のクラスに分類すると共に、そのクラスに分類される信頼性を求める請求項１から５のいずれか１項に記載の演算装置。
　前記入力部は、自動運転車両のカメラ（２０）で撮影された映像を入力し、
　前記推論部は前記映像に映る物体をクラスに分類すると共にその信頼性を推論し、
　前記出力部は、物体のクラスと信頼性のデータとを車両制御部（２１）に対して出力する請求項１から５のいずれか１項に記載の演算装置（２）。
　入力されたデータを分析するようにコンピュータを機能させるためのニューラルネットワークの学習済みモデルであって、
　重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、ニューラルネットワークモデルにより構成され、
　入力されたデータを前記ニューラルネットワークモデルに適用したときに、出力層に伝播された出力値の確率分布の平均と分散に基づいて、入力されたデータを分析する学習済みモデル。
　入力されたデータを分析するようにコンピュータを機能させるためのニューラルネットワークの学習済みモデルであって、
　重み係数を確率分布で規定した１つの確率層を有するとともに、その他の層は重み係数を確定値で規定したニューラルネットワークモデルにより構成され、
　入力されたデータを前記ニューラルネットワークモデルに適用したときに、前記確率層に現れた値と前記重み係数の確率分布とに基づいて、入力されたデータの分析を行う学習済みモデル。