JPWO2016194248A1 - 推論装置及び推論方法 - Google Patents
推論装置及び推論方法 Download PDFInfo
- Publication number
- JPWO2016194248A1 JPWO2016194248A1 JP2016548332A JP2016548332A JPWO2016194248A1 JP WO2016194248 A1 JPWO2016194248 A1 JP WO2016194248A1 JP 2016548332 A JP2016548332 A JP 2016548332A JP 2016548332 A JP2016548332 A JP 2016548332A JP WO2016194248 A1 JPWO2016194248 A1 JP WO2016194248A1
- Authority
- JP
- Japan
- Prior art keywords
- node
- layer
- intermediate layer
- activity
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 39
- 230000000694 effects Effects 0.000 claims abstract description 424
- 238000004364 calculation method Methods 0.000 claims abstract description 242
- 230000015654 memory Effects 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims description 135
- 230000006870 function Effects 0.000 claims description 31
- 230000004913 activation Effects 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000011176 pooling Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 239000004065 semiconductor Substances 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 230000002787 reinforcement Effects 0.000 description 7
- 230000007423 decrease Effects 0.000 description 5
- 241000282326 Felis catus Species 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009118 appropriate response Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012421 spiking Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
ニューラルネットワークの構造の1つとして、階層型ニューラルネットワークがあり、学習手法として、主に教師あり学習と、教師なし学習の二種類がある。
教師あり学習は、複数の学習例の入力データと目標出力を与え、実際の出力と目標出力が一致するように、ニューラルネットワークの結合状態を調整する手法である。また、教師なし学習は、目標出力を与えずに、学習例が有する本質的な特徴を抽出できるように、ニューラルネットワークの結合状態を調整する手法である。
上記の問題を解決するために、例えば、自己符号化器(Autoencoder)や制約ボルツマンマシン(Restrict Boltzmann Machine)などの教師なし学習を用いて層毎の事前学習(Pre−training)を実施することで、ニューラルネットワークの結合状態の初期値を決定し、その後、誤差逆伝播法を用いて、ニューラルネットワークの結合状態を調整(Fine−tuning)するようにしているものがある。
これにより、学習結果が収束しなくなる問題の発生を招くことなく、実際の出力と目標出力が一致するように、ニューラルネットワークの結合状態を調整することができる。
各エッジには、繋いだ2つのノード間の結合度合を示すパラメータが存在し、そのパラメータは、エッジ重みと呼ばれている。
例えば、入力層のノード数がN、第1中間層のノード数がM1、第2中間層のノード数がM2、出力層のノード数が1である場合には、入力層と第1中間層の間のエッジ数がN×M1、第1中間層と第2中間層の間のエッジ数がM1×M2、第2中間層と出力層の間のエッジ数がM2となるため、学習または推論を行う際の計算量及びメモリ量が、(N×M1+M1×M2+M2)に比例する。
以下の特許文献1には、複数の入力データの相関関係に基づいて、複数の入力データをグループ化することで、入力層と中間層の間のエッジ数や、中間層と出力層の間のエッジ数を削減している。
図1はこの発明の実施の形態1による推論装置を示す構成図であり、図2はこの発明の実施の形態1による推論装置を示すハードウェア構成図である。
図1では、複数のノードが、入力層、第1中間層、第2中間層、第3中間層、出力層で階層化されている5層の階層型ニューラルネットワークを用いる推論装置の例を示している。また、図1の例では、入力層に与えられるデータが画像データである例を示している。
ここでは、5層の階層型ニューラルネットワークを用いる例を示しているが、5層の階層型ニューラルネットワークに限るものではなく、3層や4層、あるいは、6層以上の階層型ニューラルネットワークを用いるものであってもよい。
因みに、3層の階層型ニューラルネットワークを用いる場合、中間層は第1中間層だけになり、後述する第2中間層記憶部3、第3中間層記憶部4、第2中間層活性度算出部6及び第3中間層活性度算出部7が不要になる。
中間層記憶部である第2中間層記憶部3は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、第2中間層の各ノードと第1中間層の各ノードとの接続関係を示すインデックスと、第2中間層のノードと第1中間層のノードとを接続している各エッジの重みと、第2中間層の各ノードに与えられているバイアス値とを記憶している。
中間層記憶部である第3中間層記憶部4は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、第3中間層の各ノードと第2中間層の各ノードとの接続関係を示すインデックスと、第3中間層のノードと第2中間層のノードとを接続している各エッジの重みと、第3中間層の各ノードに与えられているバイアス値とを記憶している。
出力層活性度算出部9は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている出力層活性度算出回路15で実現されるものであり、出力層記憶部8に記憶されているインデックスを参照して、第3中間層活性度算出部7により算出された第3中間層の各ノードでの活性度と出力層記憶部8に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある第3中間層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第3中間層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出する処理を実施する。
図3は推論装置がコンピュータで構成される場合のハードウェア構成図である。
推論装置がコンピュータで構成される場合、第1中間層記憶部2、第2中間層記憶部3、第3中間層記憶部4及び出力層記憶部8をコンピュータのメモリ21上に構成するとともに、入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7及び出力層活性度算出部9の処理内容を記述しているプログラムをコンピュータのメモリ21に格納し、当該コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行するようにすればよい。
図4はこの発明の実施の形態1による推論装置の処理内容である推論方法を示すフローチャートであり、図5は入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7及び出力層活性度算出部9の処理内容を示すフローチャートである。
図6の階層型ニューラルネットワークは、複数のノードが、入力層、第1中間層、第2中間層、第3中間層、出力層で階層化されている5層の階層型ニューラルネットワークである。
図7はインデックス、エッジ重み及びバイアス値の一例を示す説明図である。
図7では、ノードの接続情報であるインデックスが、例えば、第1中間層における“N”のノードは、入力層における“0”,“3”,“5”のノードと接続されている旨を示している。
また、図7では、例えば、第1中間層における“N”のノードと、入力層における“0”のノードとを接続しているエッジの重みが“0.2”、第1中間層における“N”のノードと、入力層における“3”のノードとを接続しているエッジの重みが“−0.5”、第1中間層における“N”のノードと、入力層における“5”のノードとを接続しているエッジの重みが“0.1”である旨を示している。
さらに、図7では、例えば、第1中間層における“N”のノードのバイアス値が“1.8”である旨を示している。
入力層活性度算出部1は、階層型ニューラルネットワークを構成している入力層の各ノードに画像データが与えられると、その画像データから入力層の各ノードでの活性度AINを算出する(図4のステップST1)。
入力層活性度算出部1に与えられる画像データが、例えば、0〜255の画素値Pを有するピクセルからなる画像を示すデータであり、各ピクセルの画素値Pが入力層の各ノードに与えられる場合、入力層の各ノードでの活性度AINは、下記の式(1)のように算出することができる。
ここでは、画像データが入力される場合を想定し、各ピクセルの画素値Pを255で除算することで正規化して、浮動小数点値(0.0〜1.0)を入力層の各ノードでの活性度AINとする例を示しているが、単なる正規化のみでなく、入力されるデータの種類に応じて、データ間引き、量子化、変換等の処理を実施するようにしてもよい。
例えば、第1中間層における“N”のノードの場合、第1中間層記憶部2に記憶されているインデックスが、入力層における“0”,“3”,“5”のノードと接続されている旨を示しているので、入力層活性度算出部1により算出された入力層の各ノードでの活性度AINのうち、入力層における“0”,“3”,“5”のノードでの活性度AIN−0,AIN−3,AIN−5を取得する。
例えば、第1中間層における“N”のノードの場合、第1中間層記憶部2に記憶されているインデックスが、入力層における“0”,“3”,“5”のノードと接続されている旨を示しているので、第1中間層における“N”のノードと、入力層における“0”のノードとを接続しているエッジの重みwN−0として“0.2”を取得し、第1中間層における“N”のノードと、入力層における“3”のノードとを接続しているエッジの重みwN−3として“−0.5”を取得する。また、第1中間層における“N”のノードと、入力層における“5”のノードとを接続しているエッジの重みwN−5として“0.1”を取得する。
例えば、第1中間層における“N”のノードの場合、バイアス値B1M−Nとして“1.8”を取得する。
以下、第1中間層における“N”のノードの活性度A1M−Nの算出例を具体的に説明する。
次に、第1中間層活性度算出部5は、下記の式(2)に示すように、入力層における“0”,“3”,“5”のノードでの活性度AIN−0,AIN−3,AIN−5と、エッジの重みwN−0,wN−3,wN−5との積和演算を実施する(ステップST13)。
MADD
=AIN−0×wN−0+AIN−3×wN−3+AIN−5×wN−5 (2)
次に、第1中間層活性度算出部5は、下記の式(3)に示すように、積和演算の演算結果MADDと第1中間層における“N”のノードのバイアス値B1M−Nとを加算する(ステップST14)。
ADD=MADD+B1M−N (3)
A1M−N=F(ADD) (4)
ここでは、第1中間層における“N”のノードの活性度A1M−Nの算出例を示したが、第1中間層における他のノードの活性度A1Mについても同様に算出する。
第2中間層活性度算出部6による第2中間層の各ノードでの活性度A2Mの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、第2中間層活性度算出部6は、第2中間層記憶部3に記憶されているインデックスを参照して、第2中間層のノード毎に、当該ノードに接続されている第1中間層の各ノードを確認して、その第1中間層の各ノードでの活性度A1Mを取得する。
また、第2中間層活性度算出部6は、第2中間層記憶部3に記憶されているインデックスを参照して、第2中間層のノード毎に、当該ノードに接続されているエッジを確認して、第2中間層記憶部3からそのエッジの重みwを取得する。
第2中間層活性度算出部6は、第2中間層のノード毎に、第1中間層の各ノードでの活性度A1M、エッジの重みw、バイアス値B2Mを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A1M、エッジの重みw、バイアス値B2Mを用いて、第2中間層のノード毎の活性度A2Mを算出する。
第3中間層活性度算出部7による第3中間層の各ノードでの活性度A3Mの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、第3中間層活性度算出部7は、第3中間層記憶部4に記憶されているインデックスを参照して、第3中間層のノード毎に、当該ノードに接続されている第2中間層の各ノードを確認して、その第2中間層の各ノードでの活性度A2Mを取得する。
また、第3中間層活性度算出部7は、第3中間層記憶部4に記憶されているインデックスを参照して、第3中間層のノード毎に、当該ノードに接続されているエッジを確認して、第3中間層記憶部4からそのエッジの重みwを取得する。
第3中間層活性度算出部7は、第3中間層のノード毎に、第2中間層の各ノードでの活性度A2M、エッジの重みw、バイアス値B3Mを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A2M、エッジの重みw、バイアス値B3Mを用いて、第3中間層のノード毎の活性度A3Mを算出する。
出力層活性度算出部9による出力層の各ノードでの活性度AOUTの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、出力層活性度算出部9は、出力層記憶部8に記憶されているインデックスを参照して、出力層のノード毎に、当該ノードに接続されている第3中間層の各ノードを確認して、その第3中間層の各ノードでの活性度A3Mを取得する。
また、出力層活性度算出部9は、出力層記憶部8に記憶されているインデックスを参照して、出力層のノード毎に、当該ノードに接続されているエッジを確認して、出力層記憶部8からそのエッジの重みwを取得する。
出力層活性度算出部9は、出力層のノード毎に、第3中間層の各ノードでの活性度A3M、エッジの重みw、バイアス値BOUTを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A3M、エッジの重みw、バイアス値BOUTを用いて、出力層のノード毎の活性度AOUTを算出する。
例えば、画像に映っているものが人、犬、猫、自動車のいずれであるかを識別する場合、出力層は、4つのノードから構成され、各ノードの活性度が、それぞれ人、犬、猫、自動車である可能性を示す値になるように学習される。
推論時は、出力層の中で一番活性度が大きいノードを選び、例えば、それが猫である可能性を出力するノードであれば、猫という推論結果を出力する。単なる識別結果のみでなく、活性度を用いた信頼度の算出や回帰予測値出力等の処理を実施してもよい。
即ち、第1中間層活性度算出部5では、第1中間層の各ノードと接続関係がある入力層の各ノードについてだけ計算を行えばよいため、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
また、第3中間層活性度算出部7についても、第3中間層の各ノードと接続関係がある第2中間層の各ノードについてだけ計算を行えばよいため、第1中間層活性度算出部5と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
さらに、出力層活性度算出部9についても、出力層の各ノードと接続関係がある第3中間層の各ノードについてだけ計算を行えばよいため、第1中間層活性度算出部5と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
上記実施の形態1では、推論装置が適用するニューラルネットワークを構成している各層の各ノードが、前段又は後段の層の全てのノードとは接続されておらず、一部のノードと接続されているものを示している。
各層の各ノードが、前段又は後段の層の一部のノードと接続される場合でも、ノード間の接続形態によっては、ノード間を接続する複数のエッジによってループが形成されることがある。
ここで、ニューラルネットワークにおいて、或るノードから同じエッジを一度しか通らないように辿って元のノードに戻る経路をループと称し、ループを構成するエッジの本数をループの長さと称する。
図8(a)(b)は4本のエッジによって形成されるループの例を示し、図8(c)は6本のエッジによって形成されるループの例を示し、図8(d)は8本のエッジによって形成されるループの例を示している。
例えば、階層型ニューラルネットワークでは、最短で長さ4のループが生じ得るが、特に、長さ4のループは学習時の逆誤差伝播法で伝播する勾配計算情報が容易に循環するため、推論精度低下の要因になる。また、ベイジアンネットの確率伝播法のように双方向に情報伝播することで推論するモデルでも、短いループの存在によって伝播情報が循環してしまって推論精度低下の要因となる。
したがって、この実施の形態2では、図8(a)(b)に示すように4本のエッジによってループが形成されているニューラルネットワークは、推論装置の適用対象とならないが、図8(c)(d)に示すように6本又は8本のエッジによってループが形成されているニューラルネットワークは、推論装置の適用対象となる。
これにより、ニューラルネットワーク内に存在する長さの短いループに伴う推論精度の低下を抑制することができる効果を奏する。即ち、推論精度を維持したまま計算量及びメモリ量を削減することができる。
上記実施の形態1では、推論装置が適用するニューラルネットワークを構成している各層の各ノードが、前段又は後段の層の全てのノードとは接続されておらず、一部のノードと接続されているものを示している。
このとき、第1中間層の各ノードは、入力層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよい。
同様に、第2中間層の各ノードは、第1中間層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよく、また、第3中間層の各ノードは、第2中間層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよい。
また、同様に、出力層の各ノードは、第3中間層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよい。
あるいは、各層(出力層、第3中間層、第2中間層、第1中間層)の各ノード当りの前段の層(第3中間層、第2中間層、第1中間層、入力層)のノードとの平均接続本数が前段の層のノードの個数の10分の1以下であるという条件を課してもよい。
上記実施の形態1では、推論装置が適用するニューラルネットワークを構成している各層の各ノードが、前段又は後段の層の全てのノードとは接続されておらず、一部のノードと接続されているものを示している。
このとき、第1中間層の各ノードは、入力層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよい。
同様に、第2中間層の各ノードは、第1中間層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよく、また、第3中間層の各ノードは、第2中間層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよい。
また、同様に、出力層の各ノードは、第3中間層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよい。
例えば、第1中間層における“N”のノードの場合、入力層における“0”のノードと、“3”のノードとは隣接していないため、第1中間層における“N”のノードは、入力層における“0”,“3”のノードと接続される形態が許容されるが、入力層における“0”のノードと、“1”のノードとは隣接しているため、第1中間層における“N”のノードは、入力層における“0”,“1”のノードと接続される形態が許容されない。
あるいは、各層(出力層、第3中間層、第2中間層、第1中間層)の各ノード当りの前段の層(第3中間層、第2中間層、第1中間層、入力層)のノードとの平均接続本数が前段の層のノードの個数の10分の1以下であるという条件を課してもよい。
上記の条件を課することで、長さの短いループの発生確率を低下させて、推論精度の低下を抑制することができるとともに、計算量及びメモリ量を削減することができる。
上記実施の形態1〜4では、推論装置が適用するニューラルネットワークとして、3つの中間層をもつ階層型フィードフォワードのニューラルネットワークを例に挙げているが、中間層は3つより多くても少なくてもよい。また、中間層がないロジスティック回帰モデルのような構造であってもよい。
また、層間のノードを全結合する層や、畳み込みニューラルネットワークのような畳み込み層およびプーリング層や、リカレントニューラルネットワークにおけるLSTM(長期短期記憶)ブロックなど、ニューラルネットワークの従来手法と組み合わせてもよい。
ここで、畳み込みニューラルネットワークは、畳み込み層とプーリング層が繰り返された構造になっている。例えば、畳み込み層は、画像の局所的な特徴抽出を担う層であり、プーリング層は、局所毎に特徴をまとめあげる層である。
また、自己組織化マップ(SOM)、連想記憶モデル、ホップフィールドネットワーク、ボルツマンマシンなど、他のグラフを用いて推論するニューラルネットワークであってもよい。さらに、ニューラルネットワークに限らず、ベイジアンネットワークなど、他のグラフを用いて推論するモデルでもよい。
上記実施の形態1〜4では、各ノードにおける活性度の計算過程を順に記載しているが、互いに依存しない計算を複数のCPUやGPUを用いて並列化し、さらに高速化することも可能である。
例えば、画像を入力して検知したい物体領域の位置や大きさを出力してもよいし、画像を入力して、その画像を説明するテキストを出力してもよいし、ノイズが入った画像を入力して、ノイズを除去した画像を出力してもよいし、画像とテキストを入力して、画像をテキストに従って変換してもよい。
また、音声を入力して音素や単語を出力してもよいし、音声を入力して次に発話される単語を予測してもよいし、音声を入力して、それに対する適切な応答音声を出力してもよいし、テキストを入力して別の言語のテキストを出力してもよいし、時系列を入力して将来の時系列を予測してもよいし、時系列を入力して時系列の状態を推定してもよい。
上記実施の形態1〜4では、推論装置が、図示せぬデータ入力装置から画像データを与えられて、第1中間層の各ノードでの活性度を算出する例を示したが、図示せぬデータ入力装置が、第1中間層の各ノードでの活性度を算出し、推論装置が、第2及び第3中間層及び出力層の各ノードでの活性度を算出するようにしてもよい。データ入力装置の出力の次元数が入力の次元数よりも少ない場合、データ入力装置がデータ圧縮の機能も併せ持つことになる。
上記実施の形態1〜4では、各ノードに対して一度だけ活性度を算出する例を挙げているが、ベイジアンネットワークの確率伝播法のようにノード間で繰り返し何度も情報交換して推論精度を向上させてもよい。
上記実施の形態1〜4では、推論装置が適用するニューラルネットワークとして、入力層を除く全ての層で枝接続のインデックスを保持している例を挙げているが、一部の層だけが枝接続のインデックスを保持し、他の層では通常のニューラルネットワークと同様の枝接続であるものでもあってもよい。
ここで、枝接続のインデックスとは、図7に示すようなインデックスであり、エッジ重みやバイアス値を含む概念である。
また、通常のニューラルネットワークと同様の枝接続とは、接続先の層における全てのノードと接続されてる枝接続(全接続層の枝接続)を意味するほか、接続先の層における或るノード及び当該ノードの周辺ノードと接続されている畳み込み層やプーリング層などの公知のニューラルネットワークの枝接続を意味する。
図9は例では、入力層と出力層の間に5つの中間層、即ち、第1中間層、第2中間層、第3中間層、第4中間層及び第5中間層が接続されている。
また、図9は例では、入力層から第1中間層が畳み込み層31、第1中間層から第2中間層がプーリング層32、第2中間層から第3中間層が畳み込み層33、第3中間層から第4中間層がプーリング層34、第4中間層から第5中間層が上記実施の形態1〜4で示しているインデックスを保持する層35、第5中間層から出力層が全接続層36である。
このため、第5中間層における各ノードは、図7に示している第1中間層と同様に、第4中間層における接続元のノードを示すインデックスと、その接続に対応するエッジ重み及びバイアス値を保持している。
このとき、例えば、入力層から第1中間層への畳み込み層31のフィルタサイズが5×5×1、この畳み込み層31でのマップ数が100、第1中間層から第2中間層へのプーリング層32及び第3中間層から第4中間層へのプーリング層34がフィルタサイズ2×2×1の最大値プーリングである場合、第1中間層のサイズが56×56×100(=(60−5+1)×(60−5+1)×100)、第2中間層のサイズが28×28×100(=(56/2)×(56/2)×100)となる。
また、第3中間層のサイズが24×24×200(=(28−5+1)×(28−5+1)×200、第4中間層のサイズが12×12×200(=(24/2)×(24/2)×200)、第5中間層のサイズが1×1×1000、出力層のノード数が1×1×10となる。
また、第4中間層から第5中間層へのインデックスを保持する層によって、上記実施の形態1〜4と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
また、この実施の形態6では、入力層に与えられる画像データを10種のクラスに識別する例を示しているが、ニューラルネットワークを構成している出力層を変更することで、画像データのクラスを識別する推論以外の推論を行うようにしてもよい。
例えば、画像データのノイズを取り除くデノイジング、回帰予測や尤度算出などの推論を行うようにしてもよい。
また、推論の目的に合わせて、各層のノード数やフィルタサイズを変えてもよい。
実施の形態1〜6では、推論装置が適用しているニューラルネットワークが有向ループをなしていないフィードフォワードニューラルネットワーク(FFNN)である例を挙げているが、推論装置が、ネットワークの一部が有向ループをなしているリカレントニューラルネットワーク(RNN)を適用し、そのリカレントニューラルネットワークの一部の層が、上記実施の形態1〜4に示すインデックスを保持する層であるものであってもよい。
図10のエルマンネットワークでは、第2中間層(文脈層)のノード数が、第1中間層のノード数と等しいものとする。
中間層活性度算出部である第2中間層活性度算出部41は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第1中間層の各ノードの活性度を第2中間層(文脈層)の各ノードの活性度としてコピーする処理を実施する。
この実施の形態7では、第2中間層活性度算出部41が、第1中間層の各ノードの活性度を第2中間層(文脈層)の各ノードの活性度としてコピーする例を想定しているが、これは一例に過ぎず、例えば、入力層活性度算出部1と同様に、式(1)によって第2中間層(文脈層)の各ノードの活性度を算出するようにしてもよい。
中間層活性度算出部である第1中間層活性度算出部43は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第1中間層記憶部42に記憶されているインデックスを参照して、第2中間層活性度算出部41により求められた第2中間層(文脈層)の各ノードでの活性度と第1中間層記憶部42に記憶されている各エッジの重み及びバイアス値の中から、第1中間層の各ノードと接続関係がある第2中間層(文脈層)の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第2中間層(文脈層)の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第1中間層の各ノードでの活性度を算出する処理を実施する。
推論装置がコンピュータで構成される場合、第1中間層記憶部2、第1中間層記憶部42及び出力層記憶部8を図3に示すコンピュータのメモリ21上に構成するとともに、入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部41、第1中間層活性度算出部43及び出力層活性度算出部9の処理内容を記述しているプログラムを図3に示すコンピュータのメモリ21に格納し、当該コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行するようにすればよい。
ただし、第2中間層活性度算出部41、第1中間層記憶部42及び第1中間層活性度算出部43以外は、上記実施の形態1と同様であるため、ここでは、第2中間層活性度算出部41、第1中間層記憶部42及び第1中間層活性度算出部43についてのみ説明する。
第2中間層活性度算出部41は、第1中間層活性度算出部5が上記実施の形態1と同様に、入力層活性度算出部1により算出された入力層の各ノードの活性度を用いて、第1中間層の各ノードの活性度A1Mを算出すると、第1中間層の各ノードの活性度A1Mを第2中間層(文脈層)の各ノードの活性度A2Mとしてコピーする。
これにより、ある時刻tにおける第2中間層の各ノードの活性度A2Mは、時刻tにおける第1中間層の各ノードの活性度A1Mと同じになる。
第1中間層活性度算出部43による第1中間層の各ノードでの活性度A’1Mの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、第1中間層活性度算出部43は、第1中間層記憶部42に記憶されているインデックスを参照して、第1中間層のノード毎に、当該ノードに接続されている第2中間層(文脈層)の各ノードを確認して、第2中間層(文脈層)の各ノードでの活性度A2Mを取得する。
また、第1中間層活性度算出部43は、第1中間層記憶部42に記憶されているインデックスを参照して、第1中間層のノード毎に、当該ノードに接続されているエッジ(第2中間層のノードと接続されているエッジ)を確認して、第1中間層記憶部42からそのエッジの重みwを取得する。
第1中間層活性度算出部43は、第1中間層のノード毎に、第2中間層(文脈層)の各ノードでの活性度A2M、エッジの重みw、バイアス値B1Mを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A2M、エッジの重みw、バイアス値B1Mを用いて、第1中間層のノード毎の活性度A’1Mを算出する。
出力層活性度算出部9は、第1中間層活性度算出部43が第1中間層の各ノードでの活性度A’1Mを算出すると、第1中間層の各ノードでの活性度A’1Mを用いて、出力層の各ノードでの活性度AOUTを算出する。
出力層活性度算出部9による出力層の各ノードでの活性度AOUTの算出方法は上記実施の形態1と同様である。
即ち、第1中間層活性度算出部43では、第1中間層の各ノードと接続関係がある第2中間層(文脈層)の各ノードについてだけ計算を行えばよいため、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
ただし、この実施の形態7では、いずれのリカレントニューラルネットワークを適用する場合でも、一部の層で枝接続のインデックスを保持するものとする。
上記実施の形態1〜7では、推論装置が適用するニューラルネットワークとして、同じ層のノード同士の枝接続や自己接続が無いフィードフォワードニューラルネットワーク(FFNN)やリカレントニューラルネットワーク(RNN)である例に挙げているが、同じ層のノード同士の枝接続や、接続元ノードと接続先ノードが同一のノードである自己接続が有るフィードフォワードニューラルネットワーク(FFNN)やリカレントニューラルネットワーク(RNN)を適用するようにしてもよい。また、層を飛ばした接続があるフィードフォワードニューラルネットワーク(FFNN)やリカレントニューラルネットワーク(RNN)を適用するようにしてもよい。
図12において、中間層のノード同士の枝接続や自己接続は、中間層から中間層への枝接続とみなすことができるため、Echo State Networkは、層単位では図13のように表すことができる。
中間層記憶部51は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、中間層の各ノードと入力層又は出力層の各ノードとの接続関係を示すインデックスと、中間層のノードと入力層又は出力層のノードとを接続している各エッジの重みと、中間層の各ノードに与えられているバイアス値とを記憶している。
また、中間層記憶部51は中間層のノード同士の枝接続や自己接続の関係を示すインデックスと、中間層のノード同士の枝接続や自己接続している各エッジの重みと、中間層の各ノードに与えられているバイアス値とを記憶している。
また、中間層活性度算出部52は中間層記憶部51に記憶されているインデックスを参照して、中間層における算出済みの各ノードでの活性度と中間層記憶部51に記憶されている各エッジの重み及びバイアス値の中から、中間層における接続先の各ノードと接続関係がある中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、中間層における接続先の各ノードでの活性度を算出する処理を実施する。
ここで、中間層における接続先のノードとは、中間層における他のノードと接続されているノード、あるいは、中間層において、自己のノードと接続されているノードを意味する。
また、中間層における接続元のノードとは、接続先のノードと接続されている中間層における他のノード、あるいは、中間層における自己接続のノードを意味する。
また、出力層記憶部53は出力層のノードが入力層のノードと接続されていれば、出力層のノードと入力層のノードとを接続している各エッジの重みと、入力層のノードと接続されている出力層のノードに与えられているバイアス値とを記憶している。
また、出力層記憶部53は出力層のノードが中間層のノードと接続されていれば、出力層のノードと中間層のノードとを接続している各エッジの重みと、中間層のノードと接続されている出力層のノードに与えられているバイアス値とを記憶している。
また、出力層活性度算出部54は取得した入力層又は中間層のノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出する処理を実施する。
推論装置がコンピュータで構成される場合、中間層記憶部51及び出力層記憶部53を図3に示すコンピュータのメモリ21上に構成するとともに、入力層活性度算出部1、中間層活性度算出部52及び出力層活性度算出部54の処理内容を記述しているプログラムを図3に示すコンピュータのメモリ21に格納し、当該コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行するようにすればよい。
中間層活性度算出部52は、入力層活性度算出部1が上記実施の形態1と同様に入力層の各ノードの活性度を算出すると、中間層記憶部51に記憶されているインデックスを参照して、中間層の各ノードのうち、入力層のノードと接続関係があるノードを確認するとともに、出力層のノードと接続関係があるノードを確認する。
中間層活性度算出部52は、中間層の各ノードのうち、入力層のノードと接続関係があるノードの活性度については、図1の第1中間層活性度算出部5と同様に、入力層の各ノードの活性度を用いて算出する。
また、中間層の各ノードのうち、出力層のノードと接続関係があるノードの活性度については、出力層活性度算出部54により算出された出力層の活性度を用いて算出する。
中間層活性度算出部52による出力層のノードと接続関係があるノードの活性度の算出方法は、入力層のノードと接続関係があるノードの活性度の算出方法と同様であり、活性度算出対象のノードが接続されているノードが、入力層のノードではなく、出力層のノードである点だけが相違している。
中間層活性度算出部52は、接続先のノードと接続関係がある接続元のノードを確認すると、中間層における算出済みの各ノードでの活性度と中間層記憶部51に記憶されている各エッジの重み及びバイアス値の中から、中間層における接続先の各ノードと接続関係がある中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを取得する。
中間層における接続元のノードが、入力層又は出力層のノードと接続関係がある中間層のノードであれば、先に説明したように既に算出済みである。このため、入力層又は出力層のノードと接続関係がある中間層のノードに近いノードから順番に、活性度算出対象のノード(接続先のノード)とすればよい。
中間層活性度算出部52による中間層における接続先のノードでの活性度の算出方法は、入力層のノードと接続関係があるノードの活性度の算出方法と同様であり、接続元のノードが、入力層のノードではなく、中間層のノードである点だけが相違している。
出力層活性度算出部54は、出力層のノードと接続されているノードが入力層のノードであれば、入力層活性度算出部1により算出された入力層の各ノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得する。一方、出力層のノードと接続されているノードが中間層のノードであれば、中間層活性度算出部52により算出された中間層のノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある中間層のノードでの活性度と各エッジの重みとバイアス値とを取得する。
出力層活性度算出部54は、入力層又は中間層のノードでの活性度と各エッジの重みとバイアス値とを取得すると、その取得した入力層又は中間層のノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出する。
ただし、この実施の形態8では、いずれのニューラルネットワークを適用する場合でも、一部の層で枝接続のインデックスを保持するものとする。
上記実施の形態1〜6では、推論装置が適用しているニューラルネットワークがフィードフォワードニューラルネットワーク(FFNN)である例を挙げ、上記実施の形態7,8では、推論装置が適用しているニューラルネットワークがリカレントニューラルネットワーク(RNN)である例を挙げているが、これは一例に過ぎず、推論装置が下記に示すようなニューラルネットワークを適用するものであってもよい。ただし、いずれのニューラルネットワークを適用する場合でも、一部の層で枝接続のインデックスを保持するものとする。
上記実施の形態1〜9では、推論装置の学習手法が、データと対応する教師信号を用いる教師あり学習、教師信号のないデータを用いる教師なし学習、あるいは、半教師あり学習である例を挙げているが、推論装置の学習手法が、強化学習であってもよい。
ここで、強化学習とは、ある環境下におけるエージェントが、現在の状態を観測し、取るべき行動を決定するためのモデルを学習する手法である。エージェントは、コンピュータのユーザが連続した操作をしなくても、自律的に情報収集や状況判断を行って適切な処理動作を実行する機能を意味する。
エージェントが行動を選択すると、環境から報酬を得るが、強化学習では、一連の行動で報酬を最大化できるようなポリシーを学習する。
推論装置の学習手法が強化学習である場合、状態sを入力として、状態価値関数V(s)や行動価値関数Q(s,a)を出力するニューラルネットワークを学習し、これらを用いてTD学習することになる。即ち、一部の層で枝接続のインデックスを保持するようしたニューラルネットワークを用いて、状態価値関数V(s)や行動価値関数Q(s,a)を計算して、強化学習を行う。
Claims (19)
- ニューラルネットワークを構成している入力層の各ノードにデータが与えられると、前記データから前記入力層の各ノードでの活性度を算出する入力層活性度算出部と、
前記ニューラルネットワークを構成している中間層のノードと前記入力層のノードとを接続している各エッジの重みを記憶している中間層記憶部と、
前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記中間層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記取得した入力層の各ノードでの活性度と各エッジの重みとを用いて、前記中間層の各ノードでの活性度を算出する中間層活性度算出部と、
前記中間層活性度算出部により算出された中間層の各ノードでの活性度を用いて、前記ニューラルネットワークを構成している出力層の各ノードでの活性度を算出する出力層活性度算出部と
を備えた推論装置。 - 前記ニューラルネットワークを構成している中間層が複数存在しており、
前記中間層記憶部は、前記ニューラルネットワークを構成している中間層毎に、当該中間層のノードが前記入力層のノードと接続されていれば、当該中間層のノードと前記入力層のノードとを接続している各エッジの重みを記憶し、当該中間層のノードが他の中間層のノードと接続されていれば、当該中間層のノードと他の中間層のノードとを接続している各エッジの重みを記憶しており、
前記中間層活性度算出部は、前記ニューラルネットワークを構成している中間層のノードと接続されているノードが前記入力層のノードであれば、前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記ニューラルネットワークを構成している中間層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記ニューラルネットワークを構成している中間層のノードと接続されているノードが他の中間層のノードであれば、他の中間層のノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記ニューラルネットワークを構成している中間層の各ノードと接続関係がある他の中間層のノードでの活性度と各エッジの重みとを取得し、前記取得した入力層又は他の中間層のノードでの活性度と各エッジの重みとを用いて、前記ニューラルネットワークを構成している中間層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。 - 前記出力層のノードと前記中間層のノードとを接続している各エッジの重みを記憶している出力層記憶部を備え、
前記出力層活性度算出部は、前記中間層活性度算出部により算出された中間層の各ノードでの活性度及び前記出力層記憶部に記憶されている各エッジの重みの中から、前記出力層の各ノードと接続関係がある前記中間層の各ノードでの活性度と各エッジの重みとを取得し、前記取得した中間層の各ノードでの活性度と各エッジの重みとを用いて、前記出力層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。 - 前記出力層のノードが前記入力層のノードと接続されていれば、前記出力層のノードと前記入力層のノードとを接続している各エッジの重みを記憶し、前記出力層のノードが前記中間層のノードと接続されていれば、前記出力層のノードと前記中間層のノードとを接続している各エッジの重みを記憶している出力層記憶部を備え、
前記出力層活性度算出部は、前記出力層のノードと接続されているノードが前記入力層のノードであれば、前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記出力層記憶部に記憶されている各エッジの重みの中から、前記出力層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記出力層のノードと接続されているノードが前記中間層のノードであれば、前記中間層活性度算出部により算出された中間層のノードでの活性度及び前記出力層記憶部に記憶されている各エッジの重みの中から、前記出力層の各ノードと接続関係がある中間層のノードでの活性度と各エッジの重みとを取得し、前記取得した入力層又は中間層のノードでの活性度と各エッジの重みとを用いて、前記出力層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。 - 前記中間層記憶部は、前記各エッジの重みのほかに、前記中間層の各ノードに与えられているバイアス値を記憶しており、
前記中間層活性度算出部は、前記入力層の各ノードでの活性度と各エッジの重みと前記バイアス値とを用いて、前記中間層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。 - 前記中間層活性度算出部は、前記中間層のノード毎に、当該ノードと接続関係がある前記入力層の各ノードでの活性度と、前記中間層の当該ノードと前記入力層の各ノードを接続している各エッジの重みとの積和演算を実施して、前記積和演算の演算結果と前記中間層の当該ノードのバイアス値を加算し、その加算した結果を前記ニューラルネットワークの活性化関数の引数として用いることで、前記中間層の当該ノードの活性度として、前記活性化関数の関数値を算出することを特徴とする請求項5記載の推論装置。
- 前記出力層記憶部は、前記各エッジの重みのほかに、前記出力層の各ノードに与えられているバイアス値を記憶しており、
前記出力層活性度算出部は、前記中間層の各ノードでの活性度と各エッジの重みと前記バイアス値とを用いて、前記出力層の各ノードでの活性度を算出することを特徴とする請求項3記載の推論装置。 - 前記出力層活性度算出部は、前記出力層のノード毎に、当該ノードと接続関係がある前記中間層の各ノードでの活性度と、前記出力層の当該ノードと前記中間層の各ノードを接続している各エッジの重みとの積和演算を実施して、前記積和演算の演算結果と前記出力層の当該ノードのバイアス値を加算し、その加算した結果を前記ニューラルネットワークの活性化関数の引数として用いることで、前記出力層の当該ノードの活性度として、前記活性化関数の関数値を算出することを特徴とする請求項7記載の推論装置。
- 前記ニューラルネットワークを構成している入力層及び中間層のノードを接続している複数のエッジ、あるいは、前記ニューラルネットワークを構成している中間層及び出力層のノードを接続している複数のエッジがループをなしており、前記ループが6本以上のエッジで形成されていることを特徴とする請求項1記載の推論装置。
- 前記ニューラルネットワークを構成している複数の中間層のノードを接続している複数のエッジがループをなしており、前記ループが6本以上のエッジで形成されていることを特徴とする請求項2記載の推論装置。
- 前記ニューラルネットワークを構成している中間層の各ノードは、前記入力層における全ノードのうち、ランダムに選択された一部のノードと接続されており、
前記ニューラルネットワークを構成している出力層の各ノードは、前記中間層における全ノードのうち、ランダムに選択された一部のノードと接続されていることを特徴とする請求項1記載の推論装置。 - 前記ニューラルネットワークを構成している中間層の各ノードは、前記入力層又は他の中間層における全ノードのうち、ランダムに選択された一部のノードと接続されていることを特徴とする請求項2記載の推論装置。
- 前記ニューラルネットワークを構成している中間層の各ノードは、前記入力層における全ノードのうち、隣接していない一部のノードと接続されており、
前記ニューラルネットワークを構成している出力層の各ノードは、前記中間層における全ノードのうち、隣接していない一部のノードと接続されていることを特徴とする請求項1記載の推論装置。 - 前記ニューラルネットワークを構成している複数の中間層の各ノードは、前記入力層又は他の中間層における全ノードのうち、隣接していない一部のノードと接続されていることを特徴とする請求項2記載の推論装置。
- 前記ニューラルネットワークを構成している中間層の各ノード当りの前記入力層のノードとの平均接続本数が50本以下であり、
前記ニューラルネットワークを構成している出力層の各ノード当りの前記中間層のノードとの平均接続本数が50本以下であることを特徴とする請求項1記載の推論装置。 - 前記ニューラルネットワークを構成している複数の中間層の各ノード当りの前記入力層又は他の中間層のノードとの平均接続本数が50本以下であることを特徴とする請求項2記載の推論装置。
- 前記ニューラルネットワークを構成している中間層の各ノード当りの前記入力層のノードとの平均接続本数が前記入力層のノードの個数の10分の1以下であり、
前記ニューラルネットワークを構成している出力層の各ノード当りの前記中間層のノードとの平均接続本数が前記中間層のノードの個数の10分の1以下であることを特徴とする請求項1記載の推論装置。 - 前記ニューラルネットワークを構成している複数の中間層の各ノード当りの前記入力層又は他の中間層のノードとの平均接続本数が前記入力層又は他の中間層のノードの個数の10分の1以下であることを特徴とする請求項2記載の推論装置。
- 中間層記憶部が、ニューラルネットワークを構成している中間層のノードと入力層のノードとを接続している各エッジの重みを記憶しており、
入力層活性度算出部が、前記ニューラルネットワークを構成している入力層の各ノードにデータが与えられると、前記データから前記入力層の各ノードでの活性度を算出し、
中間層活性度算出部が、前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記中間層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記取得した入力層の各ノードでの活性度と各エッジの重みとを用いて、前記中間層の各ノードでの活性度を算出し、
出力層活性度算出部が、前記中間層活性度算出部により算出された中間層の各ノードでの活性度を用いて、前記ニューラルネットワークを構成している出力層の各ノードでの活性度を算出する
推論方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015113440 | 2015-06-03 | ||
JP2015113440 | 2015-06-03 | ||
PCT/JP2015/074720 WO2016194248A1 (ja) | 2015-06-03 | 2015-08-31 | 推論装置及び推論方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6054005B1 JP6054005B1 (ja) | 2016-12-27 |
JPWO2016194248A1 true JPWO2016194248A1 (ja) | 2017-06-22 |
Family
ID=57440303
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016548332A Active JP6054005B1 (ja) | 2015-06-03 | 2015-08-31 | 推論装置及び推論方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20180053085A1 (ja) |
EP (1) | EP3306534B1 (ja) |
JP (1) | JP6054005B1 (ja) |
KR (1) | KR102084930B1 (ja) |
CN (1) | CN107615306A (ja) |
ES (1) | ES2883376T3 (ja) |
TW (1) | TWI584206B (ja) |
WO (1) | WO2016194248A1 (ja) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10140979B2 (en) * | 2016-08-10 | 2018-11-27 | Conduent Business Services, Llc | Modeling a class posterior probability of context dependent phonemes in a speech recognition system |
US10748057B1 (en) * | 2016-09-21 | 2020-08-18 | X Development Llc | Neural network modules |
WO2018088804A1 (en) | 2016-11-08 | 2018-05-17 | Samsung Electronics Co., Ltd. | Electronic apparatus and control method thereof |
JP7235269B2 (ja) * | 2017-03-13 | 2023-03-08 | 日本電気株式会社 | データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法 |
TWI643137B (zh) * | 2017-04-21 | 2018-12-01 | 潘品睿 | 物件辨識方法及物件辨識系統 |
CA3076181A1 (en) * | 2017-09-15 | 2019-03-21 | Saudi Arabian Oil Company | Inferring petrophysical properties of hydrocarbon reservoirs using a neural network |
US11522671B2 (en) | 2017-11-27 | 2022-12-06 | Mitsubishi Electric Corporation | Homomorphic inference device, homomorphic inference method, computer readable medium, and privacy-preserving information processing system |
JP6919997B2 (ja) * | 2018-02-06 | 2021-08-18 | 株式会社日立製作所 | 制御装置、制御方法、および制御プログラム |
JP7082795B2 (ja) * | 2018-02-22 | 2022-06-09 | 富士電子工業株式会社 | 熱処理システム |
US11544564B2 (en) * | 2018-02-23 | 2023-01-03 | Intel Corporation | Method, device and system to generate a Bayesian inference with a spiking neural network |
US11593068B2 (en) * | 2018-02-27 | 2023-02-28 | New York University | System, method, and apparatus for recurrent neural networks |
US11169514B2 (en) * | 2018-08-27 | 2021-11-09 | Nec Corporation | Unsupervised anomaly detection, diagnosis, and correction in multivariate time series data |
US11423284B2 (en) * | 2018-09-07 | 2022-08-23 | Black Sesame Technologies, Inc | Subgraph tile fusion in a convolutional neural network |
CN112955907A (zh) * | 2018-10-30 | 2021-06-11 | 谷歌有限责任公司 | 量化训练的长短期记忆神经网络 |
JP7167668B2 (ja) * | 2018-11-30 | 2022-11-09 | コニカミノルタ株式会社 | 学習方法、学習装置、プログラムおよび記録媒体 |
US20210374403A1 (en) * | 2018-12-21 | 2021-12-02 | Hitachi High-Tech Corporation | Image recognition device and method |
KR102251961B1 (ko) * | 2019-01-15 | 2021-05-21 | 한국과학기술원 | 양방향 예측이 가능한 양방향 계층형 시간적 메모리 방법 및 장치 |
JP7271216B2 (ja) * | 2019-02-19 | 2023-05-11 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
US10831691B1 (en) | 2019-05-24 | 2020-11-10 | International Business Machines Corporation | Method for implementing processing elements in a chip card |
TWI704578B (zh) * | 2019-06-19 | 2020-09-11 | 中華電信股份有限公司 | 一種疾病風險評估之系統與方法 |
US11443137B2 (en) | 2019-07-31 | 2022-09-13 | Rohde & Schwarz Gmbh & Co. Kg | Method and apparatus for detecting signal features |
JP2021043791A (ja) * | 2019-09-12 | 2021-03-18 | 富士通株式会社 | リザーバコンピュータ、リザーバ設計方法及びリザーバ設計プログラム |
WO2021066816A1 (en) * | 2019-10-01 | 2021-04-08 | Visa International Service Association | Graph learning and automated behavior coordination platform |
EP3910358A1 (en) * | 2020-05-15 | 2021-11-17 | Koninklijke Philips N.V. | Automated adjustment of the undersampling factor |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02236659A (ja) * | 1989-03-09 | 1990-09-19 | Fujitsu Ltd | 半導体情報処理装置 |
JPH0355658A (ja) * | 1989-07-25 | 1991-03-11 | Fujitsu Ltd | 半導体情報処理装置 |
JP3111388B2 (ja) * | 1991-06-03 | 2000-11-20 | 住友大阪セメント株式会社 | ニュ−ラルネットワ−クパタ−ン識別装置 |
JPH0546585A (ja) * | 1991-08-19 | 1993-02-26 | Toyoda Mach Works Ltd | ニユーラルネツトワークの学習方法 |
US5355434A (en) * | 1991-08-19 | 1994-10-11 | Toyoda Koki Kabushiki Kaisha | Method and apparatus for performing learning in a neural network |
US6119112A (en) * | 1997-11-19 | 2000-09-12 | International Business Machines Corporation | Optimum cessation of training in neural networks |
JP2002251601A (ja) * | 2001-02-22 | 2002-09-06 | Fuji Xerox Co Ltd | ニューラルネットワーク処理装置 |
US7747070B2 (en) * | 2005-08-31 | 2010-06-29 | Microsoft Corporation | Training convolutional neural networks on graphics processing units |
US8873813B2 (en) * | 2012-09-17 | 2014-10-28 | Z Advanced Computing, Inc. | Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
WO2014189550A1 (en) * | 2013-05-24 | 2014-11-27 | University Of Maryland | Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions |
-
2015
- 2015-08-31 KR KR1020177027350A patent/KR102084930B1/ko active IP Right Grant
- 2015-08-31 US US15/554,985 patent/US20180053085A1/en not_active Abandoned
- 2015-08-31 WO PCT/JP2015/074720 patent/WO2016194248A1/ja active Application Filing
- 2015-08-31 EP EP15894280.5A patent/EP3306534B1/en active Active
- 2015-08-31 CN CN201580080534.2A patent/CN107615306A/zh active Pending
- 2015-08-31 JP JP2016548332A patent/JP6054005B1/ja active Active
- 2015-08-31 ES ES15894280T patent/ES2883376T3/es active Active
- 2015-12-24 TW TW104143515A patent/TWI584206B/zh active
Also Published As
Publication number | Publication date |
---|---|
EP3306534B1 (en) | 2021-07-21 |
KR102084930B1 (ko) | 2020-03-05 |
KR20170122241A (ko) | 2017-11-03 |
WO2016194248A1 (ja) | 2016-12-08 |
EP3306534A4 (en) | 2019-02-06 |
CN107615306A (zh) | 2018-01-19 |
EP3306534A1 (en) | 2018-04-11 |
ES2883376T3 (es) | 2021-12-07 |
TW201643779A (zh) | 2016-12-16 |
TWI584206B (zh) | 2017-05-21 |
US20180053085A1 (en) | 2018-02-22 |
JP6054005B1 (ja) | 2016-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6054005B1 (ja) | 推論装置及び推論方法 | |
US20210034972A1 (en) | Batch normalization layer training method | |
US11861474B2 (en) | Dynamic placement of computation sub-graphs | |
US20200050935A1 (en) | Deep learning model execution using tagged data | |
JP2019061647A (ja) | 異常セッション感知方法 | |
CN111797895B (zh) | 一种分类器的训练方法、数据处理方法、系统以及设备 | |
CN111782840B (zh) | 图像问答方法、装置、计算机设备和介质 | |
KR20180063189A (ko) | 선택적 역전파 | |
KR20190109121A (ko) | 시계열 데이터의 분석 및 예측을 위한 통합적인 딥러닝 시스템 | |
US11790234B2 (en) | Resource-aware training for neural networks | |
WO2019018533A1 (en) | NEURO-BAYESIAN ARCHITECTURE FOR THE IMPLEMENTATION OF GENERAL ARTIFICIAL INTELLIGENCE | |
CN112633463A (zh) | 用于建模序列数据中长期依赖性的双重递归神经网络架构 | |
KR20210012762A (ko) | 데이터 레이블링 우선순위 결정방법 | |
KR20220069336A (ko) | 객체 검출 방법 및 장치 | |
US20230110925A1 (en) | System and method for unsupervised multi-model joint reasoning | |
US20230058341A1 (en) | Neural network training method and apparatus using trend | |
US20220261644A1 (en) | Method and apparatus for generating task plan based on neural network | |
KR20210103912A (ko) | 뉴럴 네트워크를 학습시키는 학습 방법 및 장치, 뉴럴 네트워크를 이용한 데이터 처리 방법 및 장치 | |
Wołk et al. | Soft dropout method in training of contextual neural networks | |
JP2020181318A (ja) | 最適化装置、最適化方法、及びプログラム | |
US20240127075A1 (en) | Synthetic dataset generator | |
KR102500172B1 (ko) | 장치 간의 메모리 동기화 방법, 제어 장치 및 시스템 | |
US20240104410A1 (en) | Method and device with cascaded iterative processing of data | |
Mayannavar et al. | A Novel ANN Structure for Image Recognition | |
JP7127686B2 (ja) | 仮説推論装置、仮説推論方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161101 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6054005 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |