JPWO2016194248A1 - 推論装置及び推論方法 - Google Patents

推論装置及び推論方法 Download PDF

Info

Publication number
JPWO2016194248A1
JPWO2016194248A1 JP2016548332A JP2016548332A JPWO2016194248A1 JP WO2016194248 A1 JPWO2016194248 A1 JP WO2016194248A1 JP 2016548332 A JP2016548332 A JP 2016548332A JP 2016548332 A JP2016548332 A JP 2016548332A JP WO2016194248 A1 JPWO2016194248 A1 JP WO2016194248A1
Authority
JP
Japan
Prior art keywords
node
layer
intermediate layer
activity
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016548332A
Other languages
English (en)
Other versions
JP6054005B1 (ja
Inventor
松本 渉
渉 松本
玄太 吉村
玄太 吉村
雄心 趙
雄心 趙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP6054005B1 publication Critical patent/JP6054005B1/ja
Publication of JPWO2016194248A1 publication Critical patent/JPWO2016194248A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

第1中間層活性度算出部(5)が、第1中間層記憶部(2)に記憶されているインデックスを参照して、入力層活性度算出部(1)により算出された入力層の各ノードでの活性度と第1中間層記憶部(2)に記憶されている各エッジの重み及びバイアス値の中から、第1中間層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した入力層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第1中間層の各ノードでの活性度を算出する。これにより、推論を行う際の計算量及びメモリ量を削減することができる。また、より高い推論精度を得ることができる。

Description

この発明は、ニューラルネットワークを用いた推論装置及び推論方法に関するものである。
機械学習手法の1つとして、ニューラルネットワークは高い問題解決能力を有し、画像認識、音声認識、異常検知、将来予測などの多くの処理に用いられている。
ニューラルネットワークの構造の1つとして、階層型ニューラルネットワークがあり、学習手法として、主に教師あり学習と、教師なし学習の二種類がある。
教師あり学習は、複数の学習例の入力データと目標出力を与え、実際の出力と目標出力が一致するように、ニューラルネットワークの結合状態を調整する手法である。また、教師なし学習は、目標出力を与えずに、学習例が有する本質的な特徴を抽出できるように、ニューラルネットワークの結合状態を調整する手法である。
例えば、教師あり学習法に属する誤差逆伝播法(バックプロパゲーションアルゴリズム)には、ニューラルネットワークの階層の数が多くなると、学習結果が収束しなくなる問題を発生することがある。
上記の問題を解決するために、例えば、自己符号化器(Autoencoder)や制約ボルツマンマシン(Restrict Boltzmann Machine)などの教師なし学習を用いて層毎の事前学習(Pre−training)を実施することで、ニューラルネットワークの結合状態の初期値を決定し、その後、誤差逆伝播法を用いて、ニューラルネットワークの結合状態を調整(Fine−tuning)するようにしているものがある。
これにより、学習結果が収束しなくなる問題の発生を招くことなく、実際の出力と目標出力が一致するように、ニューラルネットワークの結合状態を調整することができる。
階層型ニューラルネットワークは、複数のノード(節点)及びノード間の結合するエッジ(枝)で構成されるグラフ構造で表すことができるが、例えば、4層のニューラルネットワークでは、複数のノードが入力層、第1中間層、第2中間層、出力層で階層化され、同一階層に属するノード間のエッジは存在せずに、隣接している層の間だけにエッジが存在する。中間層は隠れ層と呼ばれることがある。
各エッジには、繋いだ2つのノード間の結合度合を示すパラメータが存在し、そのパラメータは、エッジ重みと呼ばれている。
階層型ニューラルネットワークを用いて、学習または推論を行う際、その計算量及びメモリ量はエッジ数に比例する。一般的に、各層に属するノードは、隣接している層に属する全てのノードとエッジで接続されているため、計算量及びメモリ量がノード数と直接に関係する。
例えば、入力層のノード数がN、第1中間層のノード数がM、第2中間層のノード数がM、出力層のノード数が1である場合には、入力層と第1中間層の間のエッジ数がN×M、第1中間層と第2中間層の間のエッジ数がM×M、第2中間層と出力層の間のエッジ数がMとなるため、学習または推論を行う際の計算量及びメモリ量が、(N×M+M×M+M)に比例する。
特に、中間層のノード数が入力層のノード数に比例する場合、ノード数がN個の入力層に対して、第1中間層のノード数がM=a×N個、第2中間層のノード数がM=b×N個となる。この場合、ニューラルネットワークにおけるエッジの総数がN×a×N+a×N×b×N+b×N=(a+a×b)×N+b×Nになり、学習または推論を行う際の計算量及びメモリ量が、(a+a×b)×N+b×Nに比例する。
階層型ニューラルネットワークは、以上のような構造を持つことが多く、計算量及びメモリ量が、入力データ数であるNの2乗、即ち、入力層のノード数Nの2乗に比例して増加するため、入力データ数の増大と共に計算量及びメモリ量が飛躍的に増加し、計算機リソース不足、処理遅延、装置コスト増大などの問題が発生する。
以下の特許文献1には、複数の入力データの相関関係に基づいて、複数の入力データをグループ化することで、入力層と中間層の間のエッジ数や、中間層と出力層の間のエッジ数を削減している。
特開2011−54200号公報(図1)
従来の推論装置は以上のように構成されているので、入力層と中間層の間のエッジ数や、中間層と出力層の間のエッジ数を削減することができる。しかし、同一グループに属する入力層と中間層の間では、入力層の各ノードが、中間層の全てのノードと接続されるため、エッジの削減数が限定的であり、依然として、推論を行う際の計算量及びメモリ量が大きくなってしまうという課題があった。
この発明は上記のような課題を解決するためになされたもので、推論を行う際の計算量及びメモリ量を削減することができる推論装置及び推論方法を得ることを目的とする。また、推論精度が高い推論装置及び推論方法を得ることを目的とする。
この発明に係る推論装置は、ニューラルネットワークを構成している入力層の各ノードにデータが与えられると、そのデータから入力層の各ノードでの活性度を算出する入力層活性度算出部と、ニューラルネットワークを構成している中間層のノードと入力層のノードとを接続している各エッジの重みを記憶している中間層記憶部と、入力層活性度算出部により算出された入力層の各ノードでの活性度及び中間層記憶部に記憶されている各エッジの重みの中から、中間層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとを取得し、その取得した入力層の各ノードでの活性度と各エッジの重みとを用いて、中間層の各ノードでの活性度を算出する中間層活性度算出部と、中間層活性度算出部により算出された中間層の各ノードでの活性度を用いて、ニューラルネットワークを構成している出力層の各ノードでの活性度を算出するようにしたものである。
この発明によれば、推論を行う際の計算量及びメモリ量を削減することができる効果がある。また、他の効果として、より高い推論精度を得ることができる。
この発明の実施の形態1による推論装置を示す構成図である。 この発明の実施の形態1による推論装置を示すハードウェア構成図である。 推論装置がコンピュータで構成される場合のハードウェア構成図である。 この発明の実施の形態1による推論装置の処理内容である推論方法を示すフローチャートである。 入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7及び出力層活性度算出部9の処理内容を示すフローチャートである。 この発明の実施の形態1による推論装置が適用する階層型ニューラルネットワークを示す説明図である。 インデックス、エッジ重み及びバイアス値の一例を示す説明図である。 複数のエッジによって形成されるループの例を示す説明図である。 入力層に与えられる画像データを10種のクラスに識別するニューラルネットワークの一例を示す説明図である。 入力層から第1中間層、第1中間層から第2中間層(文脈層)、第2中間層(文脈層)から第1中間層、第1中間層から出力層に枝接続を持っているリカレントニューラルネットワーク(RNN)であるエルマンネット(Elman Network)を示す説明図である。 この発明の実施の形態7による推論装置を示す構成図である。 中間層内でノード同士の枝接続や自己接続が存在するとともに、入力層から中間層を飛ばして出力層へ接続する枝が存在するニューラルネットワークであるEcho State Networkの例を示す説明図である。 図12のEcho State Networkを層単位で表している説明図である。 この発明の実施の形態8による推論装置を示す構成図である。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面にしたがって説明する。
実施の形態1.
図1はこの発明の実施の形態1による推論装置を示す構成図であり、図2はこの発明の実施の形態1による推論装置を示すハードウェア構成図である。
図1では、複数のノードが、入力層、第1中間層、第2中間層、第3中間層、出力層で階層化されている5層の階層型ニューラルネットワークを用いる推論装置の例を示している。また、図1の例では、入力層に与えられるデータが画像データである例を示している。
ここでは、5層の階層型ニューラルネットワークを用いる例を示しているが、5層の階層型ニューラルネットワークに限るものではなく、3層や4層、あるいは、6層以上の階層型ニューラルネットワークを用いるものであってもよい。
因みに、3層の階層型ニューラルネットワークを用いる場合、中間層は第1中間層だけになり、後述する第2中間層記憶部3、第3中間層記憶部4、第2中間層活性度算出部6及び第3中間層活性度算出部7が不要になる。
図1及び図2において、入力層活性度算出部1は例えばCPU(Central Processing Unit)を実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている入力層活性度算出回路11で実現されるものであり、階層型ニューラルネットワークを構成している入力層の各ノードに画像データが与えられると、その画像データから入力層の各ノードでの活性度を算出する処理を実施する。
中間層記憶部である第1中間層記憶部2は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、第1中間層の各ノードと入力層の各ノードとの接続関係を示すインデックス(接続情報)と、第1中間層のノードと入力層のノードとを接続している各エッジの重みと、第1中間層の各ノードに与えられているバイアス値とを記憶している。
中間層記憶部である第2中間層記憶部3は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、第2中間層の各ノードと第1中間層の各ノードとの接続関係を示すインデックスと、第2中間層のノードと第1中間層のノードとを接続している各エッジの重みと、第2中間層の各ノードに与えられているバイアス値とを記憶している。
中間層記憶部である第3中間層記憶部4は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、第3中間層の各ノードと第2中間層の各ノードとの接続関係を示すインデックスと、第3中間層のノードと第2中間層のノードとを接続している各エッジの重みと、第3中間層の各ノードに与えられているバイアス値とを記憶している。
中間層活性度算出部である第1中間層活性度算出部5は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第1中間層記憶部2に記憶されているインデックスを参照して、入力層活性度算出部1により算出された入力層の各ノードでの活性度と第1中間層記憶部2に記憶されている各エッジの重み及びバイアス値の中から、第1中間層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した入力層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第1中間層の各ノードでの活性度を算出する処理を実施する。
中間層活性度算出部である第2中間層活性度算出部6は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第2中間層記憶部3に記憶されているインデックスを参照して、第1中間層活性度算出部5により算出された第1中間層の各ノードでの活性度と第2中間層記憶部3に記憶されている各エッジの重み及びバイアス値の中から、第2中間層の各ノードと接続関係がある第1中間層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第1中間層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第2中間層の各ノードでの活性度を算出する処理を実施する。
中間層活性度算出部である第3中間層活性度算出部7は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第3中間層記憶部4に記憶されているインデックスを参照して、第2中間層活性度算出部6により算出された第2中間層の各ノードでの活性度と第3中間層記憶部4に記憶されている各エッジの重み及びバイアス値の中から、第3中間層の各ノードと接続関係がある第2中間層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第2中間層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第3中間層の各ノードでの活性度を算出する処理を実施する。
出力層記憶部8は例えばRAMやハードディスクなどの記憶媒体からなる出力層記憶装置14で実現されるものであり、出力層の各ノードと第3中間層の各ノードとの接続関係を示すインデックス(接続情報)と、出力層のノードと第3中間層のノードとを接続している各エッジの重みと、出力層の各ノードに与えられているバイアス値とを記憶している。
出力層活性度算出部9は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている出力層活性度算出回路15で実現されるものであり、出力層記憶部8に記憶されているインデックスを参照して、第3中間層活性度算出部7により算出された第3中間層の各ノードでの活性度と出力層記憶部8に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある第3中間層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第3中間層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出する処理を実施する。
図1では、推論装置の構成要素である入力層活性度算出部1、第1中間層記憶部2、第2中間層記憶部3、第3中間層記憶部4、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7、出力層記憶部8及び出力層活性度算出部9のそれぞれが専用のハードウェアで構成されているものを想定しているが、推論装置がコンピュータで構成されていてもよい。
図3は推論装置がコンピュータで構成される場合のハードウェア構成図である。
推論装置がコンピュータで構成される場合、第1中間層記憶部2、第2中間層記憶部3、第3中間層記憶部4及び出力層記憶部8をコンピュータのメモリ21上に構成するとともに、入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7及び出力層活性度算出部9の処理内容を記述しているプログラムをコンピュータのメモリ21に格納し、当該コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行するようにすればよい。
図4はこの発明の実施の形態1による推論装置の処理内容である推論方法を示すフローチャートであり、図5は入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7及び出力層活性度算出部9の処理内容を示すフローチャートである。
図6はこの発明の実施の形態1による推論装置が適用する階層型ニューラルネットワークを示す説明図である。
図6の階層型ニューラルネットワークは、複数のノードが、入力層、第1中間層、第2中間層、第3中間層、出力層で階層化されている5層の階層型ニューラルネットワークである。
図7はインデックス、エッジ重み及びバイアス値の一例を示す説明図である。
図7では、ノードの接続情報であるインデックスが、例えば、第1中間層における“N”のノードは、入力層における“0”,“3”,“5”のノードと接続されている旨を示している。
また、図7では、例えば、第1中間層における“N”のノードと、入力層における“0”のノードとを接続しているエッジの重みが“0.2”、第1中間層における“N”のノードと、入力層における“3”のノードとを接続しているエッジの重みが“−0.5”、第1中間層における“N”のノードと、入力層における“5”のノードとを接続しているエッジの重みが“0.1”である旨を示している。
さらに、図7では、例えば、第1中間層における“N”のノードのバイアス値が“1.8”である旨を示している。
次に動作について説明する。
入力層活性度算出部1は、階層型ニューラルネットワークを構成している入力層の各ノードに画像データが与えられると、その画像データから入力層の各ノードでの活性度AINを算出する(図4のステップST1)。
入力層活性度算出部1に与えられる画像データが、例えば、0〜255の画素値Pを有するピクセルからなる画像を示すデータであり、各ピクセルの画素値Pが入力層の各ノードに与えられる場合、入力層の各ノードでの活性度AINは、下記の式(1)のように算出することができる。
Figure 2016194248
ここでは、画像データが入力される場合を想定し、各ピクセルの画素値Pを255で除算することで正規化して、浮動小数点値(0.0〜1.0)を入力層の各ノードでの活性度AINとする例を示しているが、単なる正規化のみでなく、入力されるデータの種類に応じて、データ間引き、量子化、変換等の処理を実施するようにしてもよい。
第1中間層活性度算出部5は、入力層活性度算出部1が入力層の各ノードでの活性度AINを算出すると、第1中間層記憶部2に記憶されているインデックスを参照して、第1中間層のノード毎に、当該ノードに接続されている入力層の各ノードを確認して、その入力層の各ノードでの活性度AINを取得する。
例えば、第1中間層における“N”のノードの場合、第1中間層記憶部2に記憶されているインデックスが、入力層における“0”,“3”,“5”のノードと接続されている旨を示しているので、入力層活性度算出部1により算出された入力層の各ノードでの活性度AINのうち、入力層における“0”,“3”,“5”のノードでの活性度AIN−0,AIN−3,AIN−5を取得する。
また、第1中間層活性度算出部5は、第1中間層記憶部2に記憶されているインデックスを参照して、第1中間層のノード毎に、当該ノードに接続されているエッジを確認して、第1中間層記憶部2からそのエッジの重みwを取得する。
例えば、第1中間層における“N”のノードの場合、第1中間層記憶部2に記憶されているインデックスが、入力層における“0”,“3”,“5”のノードと接続されている旨を示しているので、第1中間層における“N”のノードと、入力層における“0”のノードとを接続しているエッジの重みwN−0として“0.2”を取得し、第1中間層における“N”のノードと、入力層における“3”のノードとを接続しているエッジの重みwN−3として“−0.5”を取得する。また、第1中間層における“N”のノードと、入力層における“5”のノードとを接続しているエッジの重みwN−5として“0.1”を取得する。
また、第1中間層活性度算出部5は、第1中間層のノード毎に、第1中間層記憶部2から当該ノードのバイアス値B1Mを取得する。
例えば、第1中間層における“N”のノードの場合、バイアス値B1M−Nとして“1.8”を取得する。
第1中間層活性度算出部5は、第1中間層のノード毎に、入力層の各ノードでの活性度AIN、エッジの重みw、バイアス値B1Mを取得すると、活性度AIN、エッジの重みw、バイアス値B1Mを用いて、第1中間層のノード毎の活性度A1Mを算出する(ステップST2)。
以下、第1中間層における“N”のノードの活性度A1M−Nの算出例を具体的に説明する。
まず、第1中間層活性度算出部5は、第1中間層記憶部2に記憶されているインデックスを読み込んで(図5のステップST11)、そのインデックスを参照することで、活性度の算出に用いるパラメータとして、入力層における“0”,“3”,“5”のノードでの活性度AIN−0,AIN−3,AIN−5と、エッジの重みwN−0,wN−3,wN−5と、第1中間層における“N”のノードのバイアス値B1M−Nとを取得する(ステップST12)
次に、第1中間層活性度算出部5は、下記の式(2)に示すように、入力層における“0”,“3”,“5”のノードでの活性度AIN−0,AIN−3,AIN−5と、エッジの重みwN−0,wN−3,wN−5との積和演算を実施する(ステップST13)。
MADD
=AIN−0×wN−0+AIN−3×wN−3+AIN−5×wN−5 (2)
次に、第1中間層活性度算出部5は、下記の式(3)に示すように、積和演算の演算結果MADDと第1中間層における“N”のノードのバイアス値B1M−Nとを加算する(ステップST14)。
ADD=MADD+B1M−N (3)
第1中間層活性度算出部5は、活性度の計算に用いるニューラルネットワークの活性化関数F(activation function)として、線形関数、シグモイド関数、ソフトマックス関数、整流化線形関数(ReLU)などを事前に用意しており、式(3)の加算結果ADDを活性化関数Fの引数とし、下記の式(4)に示すように、第1中間層における“N”のノードの活性度A1M−Nとして、その活性化関数の関数値を算出する(ステップST15)。
1M−N=F(ADD) (4)
ここでは、第1中間層における“N”のノードの活性度A1M−Nの算出例を示したが、第1中間層における他のノードの活性度A1Mについても同様に算出する。
第2中間層活性度算出部6は、第1中間層活性度算出部5が第1中間層の各ノードでの活性度A1Mを算出すると、第2中間層の各ノードでの活性度A2Mを算出する(図4のステップST3)。
第2中間層活性度算出部6による第2中間層の各ノードでの活性度A2Mの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、第2中間層活性度算出部6は、第2中間層記憶部3に記憶されているインデックスを参照して、第2中間層のノード毎に、当該ノードに接続されている第1中間層の各ノードを確認して、その第1中間層の各ノードでの活性度A1Mを取得する。
また、第2中間層活性度算出部6は、第2中間層記憶部3に記憶されているインデックスを参照して、第2中間層のノード毎に、当該ノードに接続されているエッジを確認して、第2中間層記憶部3からそのエッジの重みwを取得する。
また、第2中間層活性度算出部6は、第2中間層のノード毎に、第2中間層記憶部3から当該ノードのバイアス値B2Mを取得する。
第2中間層活性度算出部6は、第2中間層のノード毎に、第1中間層の各ノードでの活性度A1M、エッジの重みw、バイアス値B2Mを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A1M、エッジの重みw、バイアス値B2Mを用いて、第2中間層のノード毎の活性度A2Mを算出する。
第3中間層活性度算出部7は、第2中間層活性度算出部6が第2中間層の各ノードでの活性度A2Mを算出すると、第3中間層の各ノードでの活性度A3Mを算出する(ステップST4)。
第3中間層活性度算出部7による第3中間層の各ノードでの活性度A3Mの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、第3中間層活性度算出部7は、第3中間層記憶部4に記憶されているインデックスを参照して、第3中間層のノード毎に、当該ノードに接続されている第2中間層の各ノードを確認して、その第2中間層の各ノードでの活性度A2Mを取得する。
また、第3中間層活性度算出部7は、第3中間層記憶部4に記憶されているインデックスを参照して、第3中間層のノード毎に、当該ノードに接続されているエッジを確認して、第3中間層記憶部4からそのエッジの重みwを取得する。
また、第3中間層活性度算出部7は、第3中間層のノード毎に、第3中間層記憶部4から当該ノードのバイアス値B3Mを取得する。
第3中間層活性度算出部7は、第3中間層のノード毎に、第2中間層の各ノードでの活性度A2M、エッジの重みw、バイアス値B3Mを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A2M、エッジの重みw、バイアス値B3Mを用いて、第3中間層のノード毎の活性度A3Mを算出する。
出力層活性度算出部9は、第3中間層活性度算出部7が第3中間層の各ノードでの活性度A3Mを算出すると、出力層の各ノードでの活性度AOUTを算出する(ステップST5)。
出力層活性度算出部9による出力層の各ノードでの活性度AOUTの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、出力層活性度算出部9は、出力層記憶部8に記憶されているインデックスを参照して、出力層のノード毎に、当該ノードに接続されている第3中間層の各ノードを確認して、その第3中間層の各ノードでの活性度A3Mを取得する。
また、出力層活性度算出部9は、出力層記憶部8に記憶されているインデックスを参照して、出力層のノード毎に、当該ノードに接続されているエッジを確認して、出力層記憶部8からそのエッジの重みwを取得する。
また、出力層活性度算出部9は、出力層のノード毎に、出力層記憶部8から当該ノードのバイアス値BOUTを取得する。
出力層活性度算出部9は、出力層のノード毎に、第3中間層の各ノードでの活性度A3M、エッジの重みw、バイアス値BOUTを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A3M、エッジの重みw、バイアス値BOUTを用いて、出力層のノード毎の活性度AOUTを算出する。
出力層活性度算出部9により算出された出力層のノード毎の活性度AOUTは、推論装置の推論結果として出力される。
例えば、画像に映っているものが人、犬、猫、自動車のいずれであるかを識別する場合、出力層は、4つのノードから構成され、各ノードの活性度が、それぞれ人、犬、猫、自動車である可能性を示す値になるように学習される。
推論時は、出力層の中で一番活性度が大きいノードを選び、例えば、それが猫である可能性を出力するノードであれば、猫という推論結果を出力する。単なる識別結果のみでなく、活性度を用いた信頼度の算出や回帰予測値出力等の処理を実施してもよい。
以上で明らかなように、この実施の形態1によれば、第1中間層活性度算出部5が、第1中間層記憶部2に記憶されているインデックスを参照して、入力層活性度算出部1により算出された入力層の各ノードでの活性度と第1中間層記憶部2に記憶されている各エッジの重み及びバイアス値の中から、第1中間層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した入力層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第1中間層の各ノードでの活性度を算出するように構成したので、推論を行う際の計算量及びメモリ量を削減することができる効果を奏する。
即ち、第1中間層活性度算出部5では、第1中間層の各ノードと接続関係がある入力層の各ノードについてだけ計算を行えばよいため、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
また、第2中間層活性度算出部6についても、第2中間層の各ノードと接続関係がある第1中間層の各ノードについてだけ計算を行えばよいため、第1中間層活性度算出部5と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
また、第3中間層活性度算出部7についても、第3中間層の各ノードと接続関係がある第2中間層の各ノードについてだけ計算を行えばよいため、第1中間層活性度算出部5と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
さらに、出力層活性度算出部9についても、出力層の各ノードと接続関係がある第3中間層の各ノードについてだけ計算を行えばよいため、第1中間層活性度算出部5と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
この実施の形態1では、第1中間層活性度算出部5、第2中間層活性度算出部6、第3中間層活性度算出部7及び出力層活性度算出部9が、各ノードでの活性度を算出する際、前段の層の各ノードでの活性度とエッジの重みとの積和演算を実施するものを示したが、前段の層の各ノードでの活性度の最大値又は平均値を求め、その最大値又は平均値を式(3)の加算結果ADDの代わりに用いてもよい。
実施の形態2.
上記実施の形態1では、推論装置が適用するニューラルネットワークを構成している各層の各ノードが、前段又は後段の層の全てのノードとは接続されておらず、一部のノードと接続されているものを示している。
各層の各ノードが、前段又は後段の層の一部のノードと接続される場合でも、ノード間の接続形態によっては、ノード間を接続する複数のエッジによってループが形成されることがある。
ここで、ニューラルネットワークにおいて、或るノードから同じエッジを一度しか通らないように辿って元のノードに戻る経路をループと称し、ループを構成するエッジの本数をループの長さと称する。
図8は複数のエッジによって形成されるループの例を示す説明図である。
図8(a)(b)は4本のエッジによって形成されるループの例を示し、図8(c)は6本のエッジによって形成されるループの例を示し、図8(d)は8本のエッジによって形成されるループの例を示している。
例えば、階層型ニューラルネットワークでは、最短で長さ4のループが生じ得るが、特に、長さ4のループは学習時の逆誤差伝播法で伝播する勾配計算情報が容易に循環するため、推論精度低下の要因になる。また、ベイジアンネットの確率伝播法のように双方向に情報伝播することで推論するモデルでも、短いループの存在によって伝播情報が循環してしまって推論精度低下の要因となる。
そこで、この実施の形態2では、ニューラルネットワークを構成している各層のノード間を接続しているエッジ、即ち、第1中間層のノードと入力層のノードとを接続しているエッジ、第2中間層のノードと第1中間層のノードとを接続しているエッジ、第3中間層のノードと第2中間層のノードとを接続しているエッジ、出力層のノードと第3中間層のノードとを接続しているエッジがループを形成する場合、推論装置が適用するニューラルネットワークは、ループが6本以上のエッジで形成されているニューラルネットワークに限るものとする。
したがって、この実施の形態2では、図8(a)(b)に示すように4本のエッジによってループが形成されているニューラルネットワークは、推論装置の適用対象とならないが、図8(c)(d)に示すように6本又は8本のエッジによってループが形成されているニューラルネットワークは、推論装置の適用対象となる。
これにより、ニューラルネットワーク内に存在する長さの短いループに伴う推論精度の低下を抑制することができる効果を奏する。即ち、推論精度を維持したまま計算量及びメモリ量を削減することができる。
実施の形態3.
上記実施の形態1では、推論装置が適用するニューラルネットワークを構成している各層の各ノードが、前段又は後段の層の全てのノードとは接続されておらず、一部のノードと接続されているものを示している。
このとき、第1中間層の各ノードは、入力層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよい。
同様に、第2中間層の各ノードは、第1中間層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよく、また、第3中間層の各ノードは、第2中間層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよい。
また、同様に、出力層の各ノードは、第3中間層における全ノードのうち、ランダムに選択された一部のノードと接続されているものであってもよい。
ランダムに選択される条件として、各層(出力層、第3中間層、第2中間層、第1中間層)の各ノード当りの前段の層(第3中間層、第2中間層、第1中間層、入力層)のノードとの平均接続本数が50本以下であるという条件を課してもよい。
あるいは、各層(出力層、第3中間層、第2中間層、第1中間層)の各ノード当りの前段の層(第3中間層、第2中間層、第1中間層、入力層)のノードとの平均接続本数が前段の層のノードの個数の10分の1以下であるという条件を課してもよい。
各層の各ノードが前段の層における全ノードと接続される形態では、各層のノード数がMで、前段の層のノード数がNである場合、各層での活性度の計算量とメモリ量がN×Mのオーダーになるが、各層の各ノード当りの前段の層のノードの平均接続本数n(n<N)が、50本以下であるという条件、あるいは、前段の層のノードの個数Nの10分の1以下であるという条件を課することで、長さの短いループの発生確率を低下させて、推論精度の低下を抑制することができるとともに、計算量及びメモリ量を削減することができる。
実施の形態4.
上記実施の形態1では、推論装置が適用するニューラルネットワークを構成している各層の各ノードが、前段又は後段の層の全てのノードとは接続されておらず、一部のノードと接続されているものを示している。
このとき、第1中間層の各ノードは、入力層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよい。
同様に、第2中間層の各ノードは、第1中間層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよく、また、第3中間層の各ノードは、第2中間層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよい。
また、同様に、出力層の各ノードは、第3中間層における全ノードのうち、隣接していない一部のノードと接続されているようにしてもよい。
例えば、第1中間層における“N”のノードの場合、入力層における“0”のノードと、“3”のノードとは隣接していないため、第1中間層における“N”のノードは、入力層における“0”,“3”のノードと接続される形態が許容されるが、入力層における“0”のノードと、“1”のノードとは隣接しているため、第1中間層における“N”のノードは、入力層における“0”,“1”のノードと接続される形態が許容されない。
この実施の形態4において、接続される形態が許容される条件として、各層(出力層、第3中間層、第2中間層、第1中間層)の各ノード当りの前段の層(第3中間層、第2中間層、第1中間層、入力層)のノードとの平均接続本数が50本以下であるという条件を課してもよい。
あるいは、各層(出力層、第3中間層、第2中間層、第1中間層)の各ノード当りの前段の層(第3中間層、第2中間層、第1中間層、入力層)のノードとの平均接続本数が前段の層のノードの個数の10分の1以下であるという条件を課してもよい。
上記の条件を課することで、長さの短いループの発生確率を低下させて、推論精度の低下を抑制することができるとともに、計算量及びメモリ量を削減することができる。
実施の形態5.
上記実施の形態1〜4では、推論装置が適用するニューラルネットワークとして、3つの中間層をもつ階層型フィードフォワードのニューラルネットワークを例に挙げているが、中間層は3つより多くても少なくてもよい。また、中間層がないロジスティック回帰モデルのような構造であってもよい。
また、層間のノードを全結合する層や、畳み込みニューラルネットワークのような畳み込み層およびプーリング層や、リカレントニューラルネットワークにおけるLSTM(長期短期記憶)ブロックなど、ニューラルネットワークの従来手法と組み合わせてもよい。
ここで、畳み込みニューラルネットワークは、畳み込み層とプーリング層が繰り返された構造になっている。例えば、畳み込み層は、画像の局所的な特徴抽出を担う層であり、プーリング層は、局所毎に特徴をまとめあげる層である。
上記実施の形態1〜4では、推論装置が適用するニューラルネットワークとして、階層型フィードフォワードのニューラルネットワークを例に挙げているが、層を飛ばした接続があってもよいし、同じ層に属するノード同士で接続があってもよいし、接続先と接続元が同一の自己接続があってもよいし、エッジがループを形成するような循環接続があってもよい(リカレントニューラルネットワーク)。
また、自己組織化マップ(SOM)、連想記憶モデル、ホップフィールドネットワーク、ボルツマンマシンなど、他のグラフを用いて推論するニューラルネットワークであってもよい。さらに、ニューラルネットワークに限らず、ベイジアンネットワークなど、他のグラフを用いて推論するモデルでもよい。
上記実施の形態1〜4では、入力層のノードが0,1,…,N−1、第1中間層のノードがN,N+1,…,N+M−1といったように一次元のインデックスを付けているが、入力層のノードが(0,0)、(0,1)、…、(0,N−1)、第1中間層のノードが(1,0)、(1,1)、…、(1,M−1)といったように二次元のインデックスを付けてもよいし、メモリのアドレスをインデックスとして用いてもよいし、他のインデックスを付けてもよい。
上記実施の形態1〜4では、推論装置が適用するニューラルネットワークとして、エッジの数とエッジ重みの数が一致する例を挙げているが、畳み込みネットワークにおける畳み込みフィルタ係数のように、複数のエッジ重みを共有化するようにしてもよい。
上記実施の形態1〜4では、各ノードにおける活性度の計算過程を順に記載しているが、互いに依存しない計算を複数のCPUやGPUを用いて並列化し、さらに高速化することも可能である。
上記実施の形態1〜4では、画像データを入力して、画像を分類する画像分類システムを例に挙げているが、データと対応する教師信号が準備できており、教師あり学習を行うことができるならば、データの入力に対して何らかの推論結果を出力する推論システム全般に適用可能である。
例えば、画像を入力して検知したい物体領域の位置や大きさを出力してもよいし、画像を入力して、その画像を説明するテキストを出力してもよいし、ノイズが入った画像を入力して、ノイズを除去した画像を出力してもよいし、画像とテキストを入力して、画像をテキストに従って変換してもよい。
また、音声を入力して音素や単語を出力してもよいし、音声を入力して次に発話される単語を予測してもよいし、音声を入力して、それに対する適切な応答音声を出力してもよいし、テキストを入力して別の言語のテキストを出力してもよいし、時系列を入力して将来の時系列を予測してもよいし、時系列を入力して時系列の状態を推定してもよい。
上記実施の形態1〜4では、データと対応する教師信号を用いる教師あり学習によって学習したモデルで推論するシステム例を挙げているが、教師信号のないデータを用いる教師なし学習や半教師あり学習によって学習したモデルで推論するシステムでもよい。
上記実施の形態1〜4では、推論装置が、図示せぬデータ入力装置から画像データを与えられて、第1中間層の各ノードでの活性度を算出する例を示したが、図示せぬデータ入力装置が、第1中間層の各ノードでの活性度を算出し、推論装置が、第2及び第3中間層及び出力層の各ノードでの活性度を算出するようにしてもよい。データ入力装置の出力の次元数が入力の次元数よりも少ない場合、データ入力装置がデータ圧縮の機能も併せ持つことになる。
上記実施の形態1〜4では、各ノードに対して一度だけ活性度を算出する例を挙げているが、ベイジアンネットワークの確率伝播法のようにノード間で繰り返し何度も情報交換して推論精度を向上させてもよい。
実施の形態6.
上記実施の形態1〜4では、推論装置が適用するニューラルネットワークとして、入力層を除く全ての層で枝接続のインデックスを保持している例を挙げているが、一部の層だけが枝接続のインデックスを保持し、他の層では通常のニューラルネットワークと同様の枝接続であるものでもあってもよい。
ここで、枝接続のインデックスとは、図7に示すようなインデックスであり、エッジ重みやバイアス値を含む概念である。
また、通常のニューラルネットワークと同様の枝接続とは、接続先の層における全てのノードと接続されてる枝接続(全接続層の枝接続)を意味するほか、接続先の層における或るノード及び当該ノードの周辺ノードと接続されている畳み込み層やプーリング層などの公知のニューラルネットワークの枝接続を意味する。
図9は入力層に与えられる画像データを10種のクラスに識別するニューラルネットワークの一例を示す説明図である。
図9は例では、入力層と出力層の間に5つの中間層、即ち、第1中間層、第2中間層、第3中間層、第4中間層及び第5中間層が接続されている。
また、図9は例では、入力層から第1中間層が畳み込み層31、第1中間層から第2中間層がプーリング層32、第2中間層から第3中間層が畳み込み層33、第3中間層から第4中間層がプーリング層34、第4中間層から第5中間層が上記実施の形態1〜4で示しているインデックスを保持する層35、第5中間層から出力層が全接続層36である。
このため、第5中間層における各ノードは、図7に示している第1中間層と同様に、第4中間層における接続元のノードを示すインデックスと、その接続に対応するエッジ重み及びバイアス値を保持している。
例えば、入力層に与えられる画像データが、縦60×横60画素の画像データであれば、図9のニューラルネットワークでは、3600個(=60×60×1個)のノードを有する入力層が必要となる。
このとき、例えば、入力層から第1中間層への畳み込み層31のフィルタサイズが5×5×1、この畳み込み層31でのマップ数が100、第1中間層から第2中間層へのプーリング層32及び第3中間層から第4中間層へのプーリング層34がフィルタサイズ2×2×1の最大値プーリングである場合、第1中間層のサイズが56×56×100(=(60−5+1)×(60−5+1)×100)、第2中間層のサイズが28×28×100(=(56/2)×(56/2)×100)となる。
また、第3中間層のサイズが24×24×200(=(28−5+1)×(28−5+1)×200、第4中間層のサイズが12×12×200(=(24/2)×(24/2)×200)、第5中間層のサイズが1×1×1000、出力層のノード数が1×1×10となる。
なお、入力層から第1中間層に情報を伝播する際に伝播値を計算する活性化関数、第2中間層から第3中間層に情報を伝播する際に伝播値を計算する活性化関数や、第4中間層から第5中間層に情報を伝播する際に伝播値を計算する活性化関数として、例えば、ReLU(Rectified Linear Unit)が用いられ、第5中間層から出力層に情報を伝播する際に伝播値を計算する活性化関数として、例えば、正規化指数関数であるソフトマックス関数(Softmax関数)が用いられる。
図9のニューラルネットワークでは、入力層から第4中間層までの畳み込み層31,33とプーリング層32,34によって、入力された画像の位置変化に対してロバストに画像データの特徴量を抽出することができる。
また、第4中間層から第5中間層へのインデックスを保持する層によって、上記実施の形態1〜4と同様に、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
この実施の形態6では、画像データが入力層に与えられる例を示しているが、入力層に与えられるデータは画像データに限るものではなく、例えば、センサにより観測されたデータであるセンサ信号、音声やテキストなどのデータなどであってもよい。
また、この実施の形態6では、入力層に与えられる画像データを10種のクラスに識別する例を示しているが、ニューラルネットワークを構成している出力層を変更することで、画像データのクラスを識別する推論以外の推論を行うようにしてもよい。
例えば、画像データのノイズを取り除くデノイジング、回帰予測や尤度算出などの推論を行うようにしてもよい。
また、推論の目的に合わせて、各層のノード数やフィルタサイズを変えてもよい。
図9のニューラルネットワークでは、畳み込み層31、プーリング層32、畳み込み層33、プーリング層34、インデックスを保持する層35、全接続層36の順序で枝接続している例を示しているが、上記実施の形態1〜4に示すインデックスを保持する層が1つでも接続されていればよく、上記の順序以外の順序で枝接続しているものであってもよい。また、プーリング層32,34が接続されていないものであってもよい。
実施の形態7.
実施の形態1〜6では、推論装置が適用しているニューラルネットワークが有向ループをなしていないフィードフォワードニューラルネットワーク(FFNN)である例を挙げているが、推論装置が、ネットワークの一部が有向ループをなしているリカレントニューラルネットワーク(RNN)を適用し、そのリカレントニューラルネットワークの一部の層が、上記実施の形態1〜4に示すインデックスを保持する層であるものであってもよい。
図10は入力層から第1中間層、第1中間層から第2中間層(文脈層)、第2中間層(文脈層)から第1中間層、第1中間層から出力層に枝接続を持っているリカレントニューラルネットワーク(RNN)であるエルマンネットワーク(Elman Network)を示す説明図である。
図10のエルマンネットワークでは、第2中間層(文脈層)のノード数が、第1中間層のノード数と等しいものとする。
図11はこの発明の実施の形態7による推論装置を示す構成図であり、図11において、図1と同一符号は同一または相当部分を示すので説明を省略する。
中間層活性度算出部である第2中間層活性度算出部41は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第1中間層の各ノードの活性度を第2中間層(文脈層)の各ノードの活性度としてコピーする処理を実施する。
この実施の形態7では、第2中間層活性度算出部41が、第1中間層の各ノードの活性度を第2中間層(文脈層)の各ノードの活性度としてコピーする例を想定しているが、これは一例に過ぎず、例えば、入力層活性度算出部1と同様に、式(1)によって第2中間層(文脈層)の各ノードの活性度を算出するようにしてもよい。
中間層記憶部である第1中間層記憶部42は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、第1中間層の各ノードと第2中間層(文脈層)の各ノードとの接続関係を示すインデックスと、第1中間層のノードと第2中間層のノードとを接続している各エッジの重みと、第1中間層の各ノードに与えられているバイアス値とを記憶している。
中間層活性度算出部である第1中間層活性度算出部43は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、第1中間層記憶部42に記憶されているインデックスを参照して、第2中間層活性度算出部41により求められた第2中間層(文脈層)の各ノードでの活性度と第1中間層記憶部42に記憶されている各エッジの重み及びバイアス値の中から、第1中間層の各ノードと接続関係がある第2中間層(文脈層)の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第2中間層(文脈層)の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第1中間層の各ノードでの活性度を算出する処理を実施する。
図11では、推論装置の構成要素である入力層活性度算出部1、第1中間層記憶部2、第1中間層活性度算出部5、第2中間層活性度算出部41、第1中間層記憶部42、第1中間層活性度算出部43、出力層記憶部8及び出力層活性度算出部9のそれぞれが専用のハードウェアで構成されているものを想定しているが、推論装置がコンピュータで構成されていてもよい。
推論装置がコンピュータで構成される場合、第1中間層記憶部2、第1中間層記憶部42及び出力層記憶部8を図3に示すコンピュータのメモリ21上に構成するとともに、入力層活性度算出部1、第1中間層活性度算出部5、第2中間層活性度算出部41、第1中間層活性度算出部43及び出力層活性度算出部9の処理内容を記述しているプログラムを図3に示すコンピュータのメモリ21に格納し、当該コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行するようにすればよい。
次に動作について説明する。
ただし、第2中間層活性度算出部41、第1中間層記憶部42及び第1中間層活性度算出部43以外は、上記実施の形態1と同様であるため、ここでは、第2中間層活性度算出部41、第1中間層記憶部42及び第1中間層活性度算出部43についてのみ説明する。
第2中間層活性度算出部41は、第1中間層活性度算出部5が上記実施の形態1と同様に、入力層活性度算出部1により算出された入力層の各ノードの活性度を用いて、第1中間層の各ノードの活性度A1Mを算出すると、第1中間層の各ノードの活性度A1Mを第2中間層(文脈層)の各ノードの活性度A2Mとしてコピーする。
これにより、ある時刻tにおける第2中間層の各ノードの活性度A2Mは、時刻tにおける第1中間層の各ノードの活性度A1Mと同じになる。
第1中間層活性度算出部43は、第2中間層活性度算出部41が第2中間層(文脈層)の各ノードの活性度A2Mを求めると、第1中間層の各ノードの活性度A’1Mを算出する。
第1中間層活性度算出部43による第1中間層の各ノードでの活性度A’1Mの算出方法は、第1中間層活性度算出部5による第1中間層の各ノードでの活性度A1Mの算出方法と同様である。
即ち、第1中間層活性度算出部43は、第1中間層記憶部42に記憶されているインデックスを参照して、第1中間層のノード毎に、当該ノードに接続されている第2中間層(文脈層)の各ノードを確認して、第2中間層(文脈層)の各ノードでの活性度A2Mを取得する。
また、第1中間層活性度算出部43は、第1中間層記憶部42に記憶されているインデックスを参照して、第1中間層のノード毎に、当該ノードに接続されているエッジ(第2中間層のノードと接続されているエッジ)を確認して、第1中間層記憶部42からそのエッジの重みwを取得する。
また、第1中間層活性度算出部43は、第1中間層のノード毎に、第1中間層記憶部42から当該ノードのバイアス値B1Mを取得する。
第1中間層活性度算出部43は、第1中間層のノード毎に、第2中間層(文脈層)の各ノードでの活性度A2M、エッジの重みw、バイアス値B1Mを取得すると、第1中間層活性度算出部5と同様の計算方法で、活性度A2M、エッジの重みw、バイアス値B1Mを用いて、第1中間層のノード毎の活性度A’1Mを算出する。
出力層活性度算出部9は、第1中間層活性度算出部43が第1中間層の各ノードでの活性度A’1Mを算出すると、第1中間層の各ノードでの活性度A’1Mを用いて、出力層の各ノードでの活性度AOUTを算出する。
出力層活性度算出部9による出力層の各ノードでの活性度AOUTの算出方法は上記実施の形態1と同様である。
以上で明らかなように、この実施の形態7によれば、第1中間層活性度算出部43が、第1中間層記憶部42に記憶されているインデックスを参照して、第2中間層活性度算出部41により求められた第2中間層(文脈層)の各ノードでの活性度と第1中間層記憶部42に記憶されている各エッジの重み及びバイアス値の中から、第1中間層の各ノードと接続関係がある第2中間層(文脈層)の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した第2中間層(文脈層)の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、第1中間層の各ノードでの活性度を算出するように構成したので、ネットワークの一部が有向ループをなしているリカレントニューラルネットワーク(RNN)を適用する場合であっても、推論を行う際の計算量及びメモリ量を削減することができる効果を奏する。
即ち、第1中間層活性度算出部43では、第1中間層の各ノードと接続関係がある第2中間層(文脈層)の各ノードについてだけ計算を行えばよいため、推論を行う際の計算量及びメモリ量を大幅に削減することができる。
この実施の形態7では、推論装置が適用するリカレントニューラルネットワーク(RNN)がエルマンネットワークである例に挙げているが、これは一例に過ぎず、例えば、Jordan Networkや、LSTM(Long Short Term Memory)ブロックを持つリカレントニューラルネットワーク、階層型のリカレントニューラルネットワーク、双方向のリカレントニューラルネットワーク、連続時間のリカレントニューラルネットワークなどを適用するものであってもよい。
ただし、この実施の形態7では、いずれのリカレントニューラルネットワークを適用する場合でも、一部の層で枝接続のインデックスを保持するものとする。
実施の形態8.
上記実施の形態1〜7では、推論装置が適用するニューラルネットワークとして、同じ層のノード同士の枝接続や自己接続が無いフィードフォワードニューラルネットワーク(FFNN)やリカレントニューラルネットワーク(RNN)である例に挙げているが、同じ層のノード同士の枝接続や、接続元ノードと接続先ノードが同一のノードである自己接続が有るフィードフォワードニューラルネットワーク(FFNN)やリカレントニューラルネットワーク(RNN)を適用するようにしてもよい。また、層を飛ばした接続があるフィードフォワードニューラルネットワーク(FFNN)やリカレントニューラルネットワーク(RNN)を適用するようにしてもよい。
図12は中間層内でノード同士の枝接続や自己接続が存在するとともに、入力層から中間層を飛ばして出力層へ接続する枝が存在するニューラルネットワークであるEcho State Networkの例を示す説明図である。
図12において、中間層のノード同士の枝接続や自己接続は、中間層から中間層への枝接続とみなすことができるため、Echo State Networkは、層単位では図13のように表すことができる。
図14はこの発明の実施の形態8による推論装置を示す構成図であり、図14において、図1と同一符号は同一または相当部分を示すので説明を省略する。
中間層記憶部51は例えばRAMやハードディスクなどの記憶媒体からなる中間層記憶装置12で実現されるものであり、中間層の各ノードと入力層又は出力層の各ノードとの接続関係を示すインデックスと、中間層のノードと入力層又は出力層のノードとを接続している各エッジの重みと、中間層の各ノードに与えられているバイアス値とを記憶している。
また、中間層記憶部51は中間層のノード同士の枝接続や自己接続の関係を示すインデックスと、中間層のノード同士の枝接続や自己接続している各エッジの重みと、中間層の各ノードに与えられているバイアス値とを記憶している。
中間層活性度算出部52は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている中間層活性度算出回路13で実現されるものであり、図1の第1中間層活性度算出部5と同様に、中間層記憶部51に記憶されているインデックスを参照して、入力層活性度算出部1により算出された入力層の各ノードでの活性度又は出力層活性度算出部54により算出された出力層の各ノードでの活性度と中間層記憶部51に記憶されている各エッジの重み及びバイアス値の中から、中間層の各ノードと接続関係がある入力層又は出力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した入力層又は出力層の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、中間層の各ノードでの活性度を算出する処理を実施する。
また、中間層活性度算出部52は中間層記憶部51に記憶されているインデックスを参照して、中間層における算出済みの各ノードでの活性度と中間層記憶部51に記憶されている各エッジの重み及びバイアス値の中から、中間層における接続先の各ノードと接続関係がある中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、中間層における接続先の各ノードでの活性度を算出する処理を実施する。
ここで、中間層における接続先のノードとは、中間層における他のノードと接続されているノード、あるいは、中間層において、自己のノードと接続されているノードを意味する。
また、中間層における接続元のノードとは、接続先のノードと接続されている中間層における他のノード、あるいは、中間層における自己接続のノードを意味する。
出力層記憶部53は例えばRAMやハードディスクなどの記憶媒体からなる出力層記憶装置14で実現されるものであり、出力層の各ノードと入力層又は中間層の各ノードとの接続関係を示すインデックス(接続情報)を記憶している。
また、出力層記憶部53は出力層のノードが入力層のノードと接続されていれば、出力層のノードと入力層のノードとを接続している各エッジの重みと、入力層のノードと接続されている出力層のノードに与えられているバイアス値とを記憶している。
また、出力層記憶部53は出力層のノードが中間層のノードと接続されていれば、出力層のノードと中間層のノードとを接続している各エッジの重みと、中間層のノードと接続されている出力層のノードに与えられているバイアス値とを記憶している。
出力層活性度算出部54は例えばCPUを実装している半導体集積回路、あるいは、ワンチップマイコンなどで構成されている出力層活性度算出回路15で実現されるものであり、出力層のノードと接続されているノードが入力層のノードであれば、入力層活性度算出部1により算出された入力層の各ノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、出力層のノードと接続されているノードが中間層のノードであれば、中間層活性度算出部52により算出された中間層のノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある中間層のノードでの活性度と各エッジの重みとバイアス値とを取得する処理を実施する。
また、出力層活性度算出部54は取得した入力層又は中間層のノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出する処理を実施する。
図14では、推論装置の構成要素である入力層活性度算出部1、中間層記憶部51、中間層活性度算出部52、出力層記憶部53及び出力層活性度算出部54のそれぞれが専用のハードウェアで構成されているものを想定しているが、推論装置がコンピュータで構成されていてもよい。
推論装置がコンピュータで構成される場合、中間層記憶部51及び出力層記憶部53を図3に示すコンピュータのメモリ21上に構成するとともに、入力層活性度算出部1、中間層活性度算出部52及び出力層活性度算出部54の処理内容を記述しているプログラムを図3に示すコンピュータのメモリ21に格納し、当該コンピュータのプロセッサ22がメモリ21に格納されているプログラムを実行するようにすればよい。
次に動作について説明する。
中間層活性度算出部52は、入力層活性度算出部1が上記実施の形態1と同様に入力層の各ノードの活性度を算出すると、中間層記憶部51に記憶されているインデックスを参照して、中間層の各ノードのうち、入力層のノードと接続関係があるノードを確認するとともに、出力層のノードと接続関係があるノードを確認する。
中間層活性度算出部52は、中間層の各ノードのうち、入力層のノードと接続関係があるノードの活性度については、図1の第1中間層活性度算出部5と同様に、入力層の各ノードの活性度を用いて算出する。
また、中間層の各ノードのうち、出力層のノードと接続関係があるノードの活性度については、出力層活性度算出部54により算出された出力層の活性度を用いて算出する。
中間層活性度算出部52による出力層のノードと接続関係があるノードの活性度の算出方法は、入力層のノードと接続関係があるノードの活性度の算出方法と同様であり、活性度算出対象のノードが接続されているノードが、入力層のノードではなく、出力層のノードである点だけが相違している。
中間層活性度算出部52は、入力層又は出力層のノードと接続関係がある中間層のノードの活性度を算出すると、中間層記憶部51に記憶されているインデックスを参照して、中間層の各ノードのうち、接続先のノード(中間層における他のノードと接続されているノード、あるいは、中間層において、自己のノードと接続されているノード)と接続関係がある接続元のノードを確認する。
中間層活性度算出部52は、接続先のノードと接続関係がある接続元のノードを確認すると、中間層における算出済みの各ノードでの活性度と中間層記憶部51に記憶されている各エッジの重み及びバイアス値の中から、中間層における接続先の各ノードと接続関係がある中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを取得する。
中間層における接続元のノードが、入力層又は出力層のノードと接続関係がある中間層のノードであれば、先に説明したように既に算出済みである。このため、入力層又は出力層のノードと接続関係がある中間層のノードに近いノードから順番に、活性度算出対象のノード(接続先のノード)とすればよい。
中間層活性度算出部52は、その取得した中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、中間層における接続先の各ノードでの活性度を算出する。
中間層活性度算出部52による中間層における接続先のノードでの活性度の算出方法は、入力層のノードと接続関係があるノードの活性度の算出方法と同様であり、接続元のノードが、入力層のノードではなく、中間層のノードである点だけが相違している。
出力層活性度算出部54は、出力層記憶部53に記憶されているインデックスを参照して、出力層の各ノードが接続されている入力層又は中間層のノードを確認する。
出力層活性度算出部54は、出力層のノードと接続されているノードが入力層のノードであれば、入力層活性度算出部1により算出された入力層の各ノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得する。一方、出力層のノードと接続されているノードが中間層のノードであれば、中間層活性度算出部52により算出された中間層のノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある中間層のノードでの活性度と各エッジの重みとバイアス値とを取得する。
出力層活性度算出部54は、入力層又は中間層のノードでの活性度と各エッジの重みとバイアス値とを取得すると、その取得した入力層又は中間層のノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出する。
以上で明らかなように、この実施の形態8によれば、中間層活性度算出部52が、中間層記憶部51に記憶されているインデックスを参照して、中間層における算出済みの各ノードでの活性度と中間層記憶部51に記憶されている各エッジの重み及びバイアス値の中から、中間層における接続先の各ノードと接続関係がある中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した中間層における接続元の各ノードでの活性度と各エッジの重みとバイアス値とを用いて、中間層における接続先の各ノードでの活性度を算出するように構成したので、中間層内でノード同士の枝接続や自己接続が存在するニューラルネットワークを適用する場合であっても、推論を行う際の計算量及びメモリ量を削減することができる効果を奏する。
また、この実施の形態8によれば、出力層活性度算出部54が、出力層のノードと接続されているノードが入力層のノードであれば、入力層活性度算出部1により算出された入力層の各ノードでの活性度と出力層記憶部53に記憶されている各エッジの重み及びバイアス値の中から、出力層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとバイアス値とを取得し、その取得した入力層のノードでの活性度と各エッジの重みとバイアス値とを用いて、出力層の各ノードでの活性度を算出するように構成したので、入力層から中間層を飛ばして出力層へ接続する枝が存在するニューラルネットワークを適用する場合であっても、推論を行う際の計算量及びメモリ量を削減することができる効果を奏する。
この実施の形態8では、推論装置が適用するニューラルネットワークがEcho State Networkである例に挙げているが、これは一例に過ぎず、例えば、全結合のリカレントニューラルネットワーク、ホップフィールドネットワーク、ボルツマンマシンなどを適用するものであってもよい。
ただし、この実施の形態8では、いずれのニューラルネットワークを適用する場合でも、一部の層で枝接続のインデックスを保持するものとする。
実施の形態9.
上記実施の形態1〜6では、推論装置が適用しているニューラルネットワークがフィードフォワードニューラルネットワーク(FFNN)である例を挙げ、上記実施の形態7,8では、推論装置が適用しているニューラルネットワークがリカレントニューラルネットワーク(RNN)である例を挙げているが、これは一例に過ぎず、推論装置が下記に示すようなニューラルネットワークを適用するものであってもよい。ただし、いずれのニューラルネットワークを適用する場合でも、一部の層で枝接続のインデックスを保持するものとする。
例えば、推論装置が適用するニューラルネットワークとして、放射基底関数(RBF)ネットワーク、自己組織化マップ(SOM)、学習ベクトル量子化法(LVQ)、モジュールニューラルネットワーク、スパイキングニューラルネットワーク、動的ニューラルネットワーク、カスケードニューラルネットワーク、階層型時間記憶(HTM)等のFFNNやRNN以外のニューラルネットワークが考えられる。
実施の形態10.
上記実施の形態1〜9では、推論装置の学習手法が、データと対応する教師信号を用いる教師あり学習、教師信号のないデータを用いる教師なし学習、あるいは、半教師あり学習である例を挙げているが、推論装置の学習手法が、強化学習であってもよい。
ここで、強化学習とは、ある環境下におけるエージェントが、現在の状態を観測し、取るべき行動を決定するためのモデルを学習する手法である。エージェントは、コンピュータのユーザが連続した操作をしなくても、自律的に情報収集や状況判断を行って適切な処理動作を実行する機能を意味する。
エージェントが行動を選択すると、環境から報酬を得るが、強化学習では、一連の行動で報酬を最大化できるようなポリシーを学習する。
強化学習では、現在の状態、あるいは、行動がどのくらい良いかを計る指標として、状態sの価値を表す状態価値関数V(s)や、状態sのときに行動aを選択することで環境から得られる報酬を表す行動価値関数Q(s,a)を用いる。強化学習のアルゴリズムとしては、SarsaやQ学習(Q−learning)等のTD(Temporal Difference:時間差分)学習が用いられる。
推論装置の学習手法が強化学習である場合、状態sを入力として、状態価値関数V(s)や行動価値関数Q(s,a)を出力するニューラルネットワークを学習し、これらを用いてTD学習することになる。即ち、一部の層で枝接続のインデックスを保持するようしたニューラルネットワークを用いて、状態価値関数V(s)や行動価値関数Q(s,a)を計算して、強化学習を行う。
なお、本願発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る推論装置は、推論を行う際の計算量やメモリ量を削減する必要が高いものに適している。
1 入力層活性度算出部、2 第1中間層記憶部(中間層記憶部)、3 第2中間層記憶部(中間層記憶部)、4 第3中間層記憶部(中間層記憶部)、5 第1中間層活性度算出部(中間層活性度算出部)、6 第2中間層活性度算出部(中間層活性度算出部)、7 第3中間層活性度算出部(中間層活性度算出部)、8 出力層記憶部、9 出力層活性度算出部、11 入力層活性度算出回路、12 中間層記憶装置、13 中間層活性度算出回路、14 出力層記憶装置、15 出力層活性度算出回路、21 メモリ、22 プロセッサ、31 畳み込み層、32 プーリング層、33 畳み込み層、34 プーリング層、35 インデックスを保持する層、36 全接続層、41 第2中間層活性度算出部(中間層活性度算出部)、42 第1中間層記憶部(中間層記憶部)、43 第1中間層活性度算出部(中間層活性度算出部)、51 中間層記憶部、52 中間層活性度算出部、53 出力層記憶部、54 出力層活性度算出部。
この発明に係る推論装置は、ニューラルネットワークを構成している入力層の各ノードにデータが与えられると、そのデータから入力層の各ノードでの活性度を算出する入力層活性度算出部と、ニューラルネットワークを構成している中間層のノードと入力層のノードとを接続している各エッジの重みを記憶している中間層記憶部と、入力層活性度算出部により算出された入力層の各ノードでの活性度及び中間層記憶部に記憶されている各エッジの重みの中から、中間層の各ノードと接続関係がある入力層の各ノードでの活性度と各エッジの重みとを取得し、その取得した入力層の各ノードでの活性度と各エッジの重みとを用いて、中間層の各ノードでの活性度を算出する中間層活性度算出部と、中間層活性度算出部により算出された中間層の各ノードでの活性度を用いて、ニューラルネットワークを構成している出力層の各ノードでの活性度を算出する出力層活性度算出部とを備えており、かつ、中間層の各ノード当りの前記入力層との平均接続本数が50本以下であることを特徴とするようにしたものである。

Claims (19)

  1. ニューラルネットワークを構成している入力層の各ノードにデータが与えられると、前記データから前記入力層の各ノードでの活性度を算出する入力層活性度算出部と、
    前記ニューラルネットワークを構成している中間層のノードと前記入力層のノードとを接続している各エッジの重みを記憶している中間層記憶部と、
    前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記中間層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記取得した入力層の各ノードでの活性度と各エッジの重みとを用いて、前記中間層の各ノードでの活性度を算出する中間層活性度算出部と、
    前記中間層活性度算出部により算出された中間層の各ノードでの活性度を用いて、前記ニューラルネットワークを構成している出力層の各ノードでの活性度を算出する出力層活性度算出部と
    を備えた推論装置。
  2. 前記ニューラルネットワークを構成している中間層が複数存在しており、
    前記中間層記憶部は、前記ニューラルネットワークを構成している中間層毎に、当該中間層のノードが前記入力層のノードと接続されていれば、当該中間層のノードと前記入力層のノードとを接続している各エッジの重みを記憶し、当該中間層のノードが他の中間層のノードと接続されていれば、当該中間層のノードと他の中間層のノードとを接続している各エッジの重みを記憶しており、
    前記中間層活性度算出部は、前記ニューラルネットワークを構成している中間層のノードと接続されているノードが前記入力層のノードであれば、前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記ニューラルネットワークを構成している中間層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記ニューラルネットワークを構成している中間層のノードと接続されているノードが他の中間層のノードであれば、他の中間層のノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記ニューラルネットワークを構成している中間層の各ノードと接続関係がある他の中間層のノードでの活性度と各エッジの重みとを取得し、前記取得した入力層又は他の中間層のノードでの活性度と各エッジの重みとを用いて、前記ニューラルネットワークを構成している中間層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。
  3. 前記出力層のノードと前記中間層のノードとを接続している各エッジの重みを記憶している出力層記憶部を備え、
    前記出力層活性度算出部は、前記中間層活性度算出部により算出された中間層の各ノードでの活性度及び前記出力層記憶部に記憶されている各エッジの重みの中から、前記出力層の各ノードと接続関係がある前記中間層の各ノードでの活性度と各エッジの重みとを取得し、前記取得した中間層の各ノードでの活性度と各エッジの重みとを用いて、前記出力層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。
  4. 前記出力層のノードが前記入力層のノードと接続されていれば、前記出力層のノードと前記入力層のノードとを接続している各エッジの重みを記憶し、前記出力層のノードが前記中間層のノードと接続されていれば、前記出力層のノードと前記中間層のノードとを接続している各エッジの重みを記憶している出力層記憶部を備え、
    前記出力層活性度算出部は、前記出力層のノードと接続されているノードが前記入力層のノードであれば、前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記出力層記憶部に記憶されている各エッジの重みの中から、前記出力層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記出力層のノードと接続されているノードが前記中間層のノードであれば、前記中間層活性度算出部により算出された中間層のノードでの活性度及び前記出力層記憶部に記憶されている各エッジの重みの中から、前記出力層の各ノードと接続関係がある中間層のノードでの活性度と各エッジの重みとを取得し、前記取得した入力層又は中間層のノードでの活性度と各エッジの重みとを用いて、前記出力層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。
  5. 前記中間層記憶部は、前記各エッジの重みのほかに、前記中間層の各ノードに与えられているバイアス値を記憶しており、
    前記中間層活性度算出部は、前記入力層の各ノードでの活性度と各エッジの重みと前記バイアス値とを用いて、前記中間層の各ノードでの活性度を算出することを特徴とする請求項1記載の推論装置。
  6. 前記中間層活性度算出部は、前記中間層のノード毎に、当該ノードと接続関係がある前記入力層の各ノードでの活性度と、前記中間層の当該ノードと前記入力層の各ノードを接続している各エッジの重みとの積和演算を実施して、前記積和演算の演算結果と前記中間層の当該ノードのバイアス値を加算し、その加算した結果を前記ニューラルネットワークの活性化関数の引数として用いることで、前記中間層の当該ノードの活性度として、前記活性化関数の関数値を算出することを特徴とする請求項5記載の推論装置。
  7. 前記出力層記憶部は、前記各エッジの重みのほかに、前記出力層の各ノードに与えられているバイアス値を記憶しており、
    前記出力層活性度算出部は、前記中間層の各ノードでの活性度と各エッジの重みと前記バイアス値とを用いて、前記出力層の各ノードでの活性度を算出することを特徴とする請求項3記載の推論装置。
  8. 前記出力層活性度算出部は、前記出力層のノード毎に、当該ノードと接続関係がある前記中間層の各ノードでの活性度と、前記出力層の当該ノードと前記中間層の各ノードを接続している各エッジの重みとの積和演算を実施して、前記積和演算の演算結果と前記出力層の当該ノードのバイアス値を加算し、その加算した結果を前記ニューラルネットワークの活性化関数の引数として用いることで、前記出力層の当該ノードの活性度として、前記活性化関数の関数値を算出することを特徴とする請求項7記載の推論装置。
  9. 前記ニューラルネットワークを構成している入力層及び中間層のノードを接続している複数のエッジ、あるいは、前記ニューラルネットワークを構成している中間層及び出力層のノードを接続している複数のエッジがループをなしており、前記ループが6本以上のエッジで形成されていることを特徴とする請求項1記載の推論装置。
  10. 前記ニューラルネットワークを構成している複数の中間層のノードを接続している複数のエッジがループをなしており、前記ループが6本以上のエッジで形成されていることを特徴とする請求項2記載の推論装置。
  11. 前記ニューラルネットワークを構成している中間層の各ノードは、前記入力層における全ノードのうち、ランダムに選択された一部のノードと接続されており、
    前記ニューラルネットワークを構成している出力層の各ノードは、前記中間層における全ノードのうち、ランダムに選択された一部のノードと接続されていることを特徴とする請求項1記載の推論装置。
  12. 前記ニューラルネットワークを構成している中間層の各ノードは、前記入力層又は他の中間層における全ノードのうち、ランダムに選択された一部のノードと接続されていることを特徴とする請求項2記載の推論装置。
  13. 前記ニューラルネットワークを構成している中間層の各ノードは、前記入力層における全ノードのうち、隣接していない一部のノードと接続されており、
    前記ニューラルネットワークを構成している出力層の各ノードは、前記中間層における全ノードのうち、隣接していない一部のノードと接続されていることを特徴とする請求項1記載の推論装置。
  14. 前記ニューラルネットワークを構成している複数の中間層の各ノードは、前記入力層又は他の中間層における全ノードのうち、隣接していない一部のノードと接続されていることを特徴とする請求項2記載の推論装置。
  15. 前記ニューラルネットワークを構成している中間層の各ノード当りの前記入力層のノードとの平均接続本数が50本以下であり、
    前記ニューラルネットワークを構成している出力層の各ノード当りの前記中間層のノードとの平均接続本数が50本以下であることを特徴とする請求項1記載の推論装置。
  16. 前記ニューラルネットワークを構成している複数の中間層の各ノード当りの前記入力層又は他の中間層のノードとの平均接続本数が50本以下であることを特徴とする請求項2記載の推論装置。
  17. 前記ニューラルネットワークを構成している中間層の各ノード当りの前記入力層のノードとの平均接続本数が前記入力層のノードの個数の10分の1以下であり、
    前記ニューラルネットワークを構成している出力層の各ノード当りの前記中間層のノードとの平均接続本数が前記中間層のノードの個数の10分の1以下であることを特徴とする請求項1記載の推論装置。
  18. 前記ニューラルネットワークを構成している複数の中間層の各ノード当りの前記入力層又は他の中間層のノードとの平均接続本数が前記入力層又は他の中間層のノードの個数の10分の1以下であることを特徴とする請求項2記載の推論装置。
  19. 中間層記憶部が、ニューラルネットワークを構成している中間層のノードと入力層のノードとを接続している各エッジの重みを記憶しており、
    入力層活性度算出部が、前記ニューラルネットワークを構成している入力層の各ノードにデータが与えられると、前記データから前記入力層の各ノードでの活性度を算出し、
    中間層活性度算出部が、前記入力層活性度算出部により算出された入力層の各ノードでの活性度及び前記中間層記憶部に記憶されている各エッジの重みの中から、前記中間層の各ノードと接続関係がある前記入力層の各ノードでの活性度と各エッジの重みとを取得し、前記取得した入力層の各ノードでの活性度と各エッジの重みとを用いて、前記中間層の各ノードでの活性度を算出し、
    出力層活性度算出部が、前記中間層活性度算出部により算出された中間層の各ノードでの活性度を用いて、前記ニューラルネットワークを構成している出力層の各ノードでの活性度を算出する
    推論方法。
JP2016548332A 2015-06-03 2015-08-31 推論装置及び推論方法 Active JP6054005B1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015113440 2015-06-03
JP2015113440 2015-06-03
PCT/JP2015/074720 WO2016194248A1 (ja) 2015-06-03 2015-08-31 推論装置及び推論方法

Publications (2)

Publication Number Publication Date
JP6054005B1 JP6054005B1 (ja) 2016-12-27
JPWO2016194248A1 true JPWO2016194248A1 (ja) 2017-06-22

Family

ID=57440303

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016548332A Active JP6054005B1 (ja) 2015-06-03 2015-08-31 推論装置及び推論方法

Country Status (8)

Country Link
US (1) US20180053085A1 (ja)
EP (1) EP3306534B1 (ja)
JP (1) JP6054005B1 (ja)
KR (1) KR102084930B1 (ja)
CN (1) CN107615306A (ja)
ES (1) ES2883376T3 (ja)
TW (1) TWI584206B (ja)
WO (1) WO2016194248A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10140979B2 (en) * 2016-08-10 2018-11-27 Conduent Business Services, Llc Modeling a class posterior probability of context dependent phonemes in a speech recognition system
US10748057B1 (en) * 2016-09-21 2020-08-18 X Development Llc Neural network modules
WO2018088804A1 (en) 2016-11-08 2018-05-17 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
JP7235269B2 (ja) * 2017-03-13 2023-03-08 日本電気株式会社 データ項目名推定装置、データ項目名推定プログラム、及びデータ項目名推定方法
TWI643137B (zh) * 2017-04-21 2018-12-01 潘品睿 物件辨識方法及物件辨識系統
CA3076181A1 (en) * 2017-09-15 2019-03-21 Saudi Arabian Oil Company Inferring petrophysical properties of hydrocarbon reservoirs using a neural network
US11522671B2 (en) 2017-11-27 2022-12-06 Mitsubishi Electric Corporation Homomorphic inference device, homomorphic inference method, computer readable medium, and privacy-preserving information processing system
JP6919997B2 (ja) * 2018-02-06 2021-08-18 株式会社日立製作所 制御装置、制御方法、および制御プログラム
JP7082795B2 (ja) * 2018-02-22 2022-06-09 富士電子工業株式会社 熱処理システム
US11544564B2 (en) * 2018-02-23 2023-01-03 Intel Corporation Method, device and system to generate a Bayesian inference with a spiking neural network
US11593068B2 (en) * 2018-02-27 2023-02-28 New York University System, method, and apparatus for recurrent neural networks
US11169514B2 (en) * 2018-08-27 2021-11-09 Nec Corporation Unsupervised anomaly detection, diagnosis, and correction in multivariate time series data
US11423284B2 (en) * 2018-09-07 2022-08-23 Black Sesame Technologies, Inc Subgraph tile fusion in a convolutional neural network
CN112955907A (zh) * 2018-10-30 2021-06-11 谷歌有限责任公司 量化训练的长短期记忆神经网络
JP7167668B2 (ja) * 2018-11-30 2022-11-09 コニカミノルタ株式会社 学習方法、学習装置、プログラムおよび記録媒体
US20210374403A1 (en) * 2018-12-21 2021-12-02 Hitachi High-Tech Corporation Image recognition device and method
KR102251961B1 (ko) * 2019-01-15 2021-05-21 한국과학기술원 양방향 예측이 가능한 양방향 계층형 시간적 메모리 방법 및 장치
JP7271216B2 (ja) * 2019-02-19 2023-05-11 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
US10831691B1 (en) 2019-05-24 2020-11-10 International Business Machines Corporation Method for implementing processing elements in a chip card
TWI704578B (zh) * 2019-06-19 2020-09-11 中華電信股份有限公司 一種疾病風險評估之系統與方法
US11443137B2 (en) 2019-07-31 2022-09-13 Rohde & Schwarz Gmbh & Co. Kg Method and apparatus for detecting signal features
JP2021043791A (ja) * 2019-09-12 2021-03-18 富士通株式会社 リザーバコンピュータ、リザーバ設計方法及びリザーバ設計プログラム
WO2021066816A1 (en) * 2019-10-01 2021-04-08 Visa International Service Association Graph learning and automated behavior coordination platform
EP3910358A1 (en) * 2020-05-15 2021-11-17 Koninklijke Philips N.V. Automated adjustment of the undersampling factor

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02236659A (ja) * 1989-03-09 1990-09-19 Fujitsu Ltd 半導体情報処理装置
JPH0355658A (ja) * 1989-07-25 1991-03-11 Fujitsu Ltd 半導体情報処理装置
JP3111388B2 (ja) * 1991-06-03 2000-11-20 住友大阪セメント株式会社 ニュ−ラルネットワ−クパタ−ン識別装置
JPH0546585A (ja) * 1991-08-19 1993-02-26 Toyoda Mach Works Ltd ニユーラルネツトワークの学習方法
US5355434A (en) * 1991-08-19 1994-10-11 Toyoda Koki Kabushiki Kaisha Method and apparatus for performing learning in a neural network
US6119112A (en) * 1997-11-19 2000-09-12 International Business Machines Corporation Optimum cessation of training in neural networks
JP2002251601A (ja) * 2001-02-22 2002-09-06 Fuji Xerox Co Ltd ニューラルネットワーク処理装置
US7747070B2 (en) * 2005-08-31 2010-06-29 Microsoft Corporation Training convolutional neural networks on graphics processing units
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9916538B2 (en) * 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
WO2014189550A1 (en) * 2013-05-24 2014-11-27 University Of Maryland Statistical modelling, interpolation, measurement and anthropometry based prediction of head-related transfer functions

Also Published As

Publication number Publication date
EP3306534B1 (en) 2021-07-21
KR102084930B1 (ko) 2020-03-05
KR20170122241A (ko) 2017-11-03
WO2016194248A1 (ja) 2016-12-08
EP3306534A4 (en) 2019-02-06
CN107615306A (zh) 2018-01-19
EP3306534A1 (en) 2018-04-11
ES2883376T3 (es) 2021-12-07
TW201643779A (zh) 2016-12-16
TWI584206B (zh) 2017-05-21
US20180053085A1 (en) 2018-02-22
JP6054005B1 (ja) 2016-12-27

Similar Documents

Publication Publication Date Title
JP6054005B1 (ja) 推論装置及び推論方法
US20210034972A1 (en) Batch normalization layer training method
US11861474B2 (en) Dynamic placement of computation sub-graphs
US20200050935A1 (en) Deep learning model execution using tagged data
JP2019061647A (ja) 異常セッション感知方法
CN111797895B (zh) 一种分类器的训练方法、数据处理方法、系统以及设备
CN111782840B (zh) 图像问答方法、装置、计算机设备和介质
KR20180063189A (ko) 선택적 역전파
KR20190109121A (ko) 시계열 데이터의 분석 및 예측을 위한 통합적인 딥러닝 시스템
US11790234B2 (en) Resource-aware training for neural networks
WO2019018533A1 (en) NEURO-BAYESIAN ARCHITECTURE FOR THE IMPLEMENTATION OF GENERAL ARTIFICIAL INTELLIGENCE
CN112633463A (zh) 用于建模序列数据中长期依赖性的双重递归神经网络架构
KR20210012762A (ko) 데이터 레이블링 우선순위 결정방법
KR20220069336A (ko) 객체 검출 방법 및 장치
US20230110925A1 (en) System and method for unsupervised multi-model joint reasoning
US20230058341A1 (en) Neural network training method and apparatus using trend
US20220261644A1 (en) Method and apparatus for generating task plan based on neural network
KR20210103912A (ko) 뉴럴 네트워크를 학습시키는 학습 방법 및 장치, 뉴럴 네트워크를 이용한 데이터 처리 방법 및 장치
Wołk et al. Soft dropout method in training of contextual neural networks
JP2020181318A (ja) 最適化装置、最適化方法、及びプログラム
US20240127075A1 (en) Synthetic dataset generator
KR102500172B1 (ko) 장치 간의 메모리 동기화 방법, 제어 장치 및 시스템
US20240104410A1 (en) Method and device with cascaded iterative processing of data
Mayannavar et al. A Novel ANN Structure for Image Recognition
JP7127686B2 (ja) 仮説推論装置、仮説推論方法、及びプログラム

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161101

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161129

R150 Certificate of patent or registration of utility model

Ref document number: 6054005

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250