WO2021095361A1 - 演算装置および学習済みモデル - Google Patents

演算装置および学習済みモデル Download PDF

Info

Publication number
WO2021095361A1
WO2021095361A1 PCT/JP2020/035254 JP2020035254W WO2021095361A1 WO 2021095361 A1 WO2021095361 A1 WO 2021095361A1 JP 2020035254 W JP2020035254 W JP 2020035254W WO 2021095361 A1 WO2021095361 A1 WO 2021095361A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
input
layer
neural network
data
Prior art date
Application number
PCT/JP2020/035254
Other languages
English (en)
French (fr)
Inventor
佑樹 前
敬文 金森
Original Assignee
株式会社デンソー
国立大学法人東京工業大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社デンソー, 国立大学法人東京工業大学 filed Critical 株式会社デンソー
Priority to JP2021555926A priority Critical patent/JP7386462B2/ja
Publication of WO2021095361A1 publication Critical patent/WO2021095361A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Definitions

  • the present disclosure relates to an arithmetic unit having a trained model of a neural network.
  • a neural network is a mathematical model created to express the mechanism of the brain on a computer. It is composed of an input layer, an intermediate layer, and an output layer, and each layer shows the strength of the connection between neurons. The weighting factor is specified. This weighting factor is determined by learning.
  • the weighting coefficient of the connection between neurons is deterministically determined by learning. For this reason, the inference result by the neural network is point estimation, and even if the result is incorrect, it may be output deterministically.
  • the Bayesian neural network is known as a neural network in which the inference result has probabilistic information.
  • the Bayesian neural network can obtain the inference result stochastically by having the weighting coefficient of the connection between neurons in the probability distribution.
  • the Bayesian neural network can obtain the prediction distribution by using Monte Carlo Dropout, which is one of the approximation methods of Bayesian deep learning.
  • Patent Document 1 a method called a model ensemble that integrates the inference results of a plurality of neural network models is also known (Patent Document 1). Combining the results of a plurality of neural network models is almost the same as obtaining the inference result stochastically, and this method can also improve the reliability of the inference result.
  • the Bayesian neural network described above has a much larger computational load than a normal neural network.
  • the Monte Carlo dropout requires tens to hundreds of samplings by the Monte Carlo method, which is extremely computationally intensive.
  • the method described in Patent Document 1 also calculates a plurality of neural networks, calculation time and memory capacity are required for the number of neural networks. Although such calculations can be performed for research purposes, they are difficult to apply to edge equipment that requires high-speed judgment, such as self-driving vehicles.
  • Non-Patent Document 1 As a method of obtaining the predicted distribution of the Bayesian neural network with one feed forward without performing multiple samplings, the function of each layer is approximated by the first-order Taylor expansion, and the expected value and variance of the function are analyzed. A method of propagation has been proposed (Non-Patent Document 1). If the function of each layer is approximated by the first-order Taylor expansion and the expected value of the function and the analytical solution of the variance are propagated, the predicted distribution regarded as the Gaussian distribution can be obtained at high speed with one feed forward.
  • the present disclosure provides an arithmetic unit provided with a neural network model capable of performing probabilistic inference with low memory and high speed.
  • the arithmetic unit of the present disclosure stores data and a storage unit that stores a trained neural network model, including a probability layer in which the weight coefficient is defined by a probability distribution and propagates the mean and variance of the probability distribution of output values to the subsequent stage. It includes an input unit for input, an inference unit that analyzes the data input in the input unit by inference by the neural network model, and an output unit that outputs the analysis result by the inference unit.
  • the trained model of the present disclosure is a trained model of a neural network for making a computer function to analyze input data, in which a weighting coefficient is defined by a probability distribution and the average of the probability distributions of output values. It is composed of a neural network model including a probability layer that propagates the variance to the subsequent stage, and is based on the average and variance of the probability distribution of the output values propagated to the output layer when the input data is applied to the neural network model. It has a structure to analyze the input data.
  • probabilistic inference can be performed at high speed with low memory.
  • FIG. 1 is a diagram showing a configuration of an arithmetic unit according to an embodiment.
  • FIG. 2 is a diagram showing an example of a neural network model.
  • FIG. 3 is a neural network model before conversion of the neural network model shown in FIG.
  • FIG. 4 is a diagram showing a calculation formula for propagating the expected value and variance in the processing of full coupling, dropout, ReLU, and sigmoid.
  • FIG. 5 is a diagram showing a calculation formula of the expected value and the variance of the dispersion mode and the upper bound mode when the learner is fully connected.
  • FIG. 6A is a diagram showing a configuration of a neural network model of the present embodiment.
  • FIG. 6B is a calculation formula of the output y of the neural network model.
  • FIG. 7A is a calculation formula for obtaining the expected value ⁇ and the variance ⁇ 2.
  • FIG. 7B is a diagram showing a calculation formula of the expected value and the variance when the two-class classification is performed using the expected value ⁇ and the variance ⁇ 2 which are the results of the regression analysis.
  • FIG. 8A is a diagram showing the configuration of a neural network model whose output is multidimensional.
  • FIG. 8B is a calculation formula of the output y of the neural network model whose output is multidimensional.
  • FIG. 9A is a calculation formula for obtaining the expected value ⁇ and the variance ⁇ 2.
  • FIG. 9B is a diagram showing a calculation formula of the expected value and the variance when multiclass classification is performed using the expected value ⁇ and the variance ⁇ 2 which are the results of regression analysis.
  • FIG. 10 is a diagram showing an application example of the arithmetic unit of the present embodiment.
  • FIG. 1 is a diagram showing a configuration of an arithmetic unit 1 according to the present embodiment.
  • the arithmetic unit 1 includes an input unit 10, an inference unit 11, a storage unit 12, and an output unit 13.
  • the input unit 10 has a function of accepting input of data to be analyzed.
  • the data to be analyzed includes, for example, image data, voice data, text data, and the like, but is not limited thereto.
  • the hardware of the input unit 10 is, for example, a communication interface that accepts data input from other sensors such as a camera and a microphone.
  • the storage unit 12 stores the trained neural network model.
  • the inference unit 11 reads the trained model stored in the storage unit 12, applies the data input from the input unit 10 to the trained model, and performs inference.
  • the hardware of the inference unit 11 is a device such as a CPU and RAM.
  • the arithmetic unit 1 of the present embodiment can be applied to both regression analysis and classification.
  • the output unit 13 has a function of outputting the analysis result by the inference unit 11.
  • the hardware of the output unit 13 is, for example, a communication interface for transmitting data related to the inference result to another application.
  • FIG. 2 is a diagram showing an example of a neural network model stored in the storage unit 12.
  • the upper part is the input layer L1, and from the upper part, the folding layer L2, the folding layer L3, the max pooling layer L4, the dropout layer L5, the Flatten layer L6, the fully bonded layer L7, the dropout layer L8, and the fully bonded layer L9.
  • the expected value and variance are output (L10).
  • dispersion is generated in the dropout layer L5, and then the expected value and dispersion are propagated.
  • the layer that propagates the variance is implemented by an interface of 2 inputs and 2 outputs. Therefore, the layer L v0 that generates the dispersion 0 is included so that the dropout layer L5 that generates the dispersion can receive the dispersion as an input.
  • the expected value ⁇ and the variance ⁇ 2 output from the previous layer are received as inputs, and the expected value ⁇ and the variance ⁇ are used by the calculation formula shown in the BNN column of FIG. Output 2
  • the neural network model shown in FIG. 2 is a transformation of the neural network model shown in FIG. 3 so that the expected value and the variance can be propagated.
  • FIG. 4 is a diagram showing a calculation formula that outputs a hat of ⁇ as an expected value and a square of a hat of ⁇ as a variance in the processing of full coupling, dropout, ReLU, and sigmoid.
  • x Layer input (normal NN layer input with 1 input and 1 output)
  • y Layer output (normal NN layer output with 1 input and 1 output)
  • Expected value of x squared: variance of x ⁇ hat: expected value of y squared of ⁇ hat: variance of y
  • FIG. 4 the calculation formulas of a normal neural network (NN) with 1 input and 1 output are shown side by side.
  • an affine layer such as a fully connected layer
  • the input is regarded as a random variable
  • the analytical solution of the expected value and variance is calculated.
  • a non-linear layer such as dropout, ReLU, sigmoid, etc.
  • approximate Bayesian inference such as Gaussian approximation is performed.
  • the expected value and variance can be obtained in the same manner as above by performing approximate Bayesian inference.
  • the arithmetic unit of the present embodiment has two modes for propagating the variance.
  • the first mode is an independent variance propagation mode (hereinafter referred to as "independent mode") that calculates the output variance assuming that the input values are independent, and the second mode is input.
  • This is a mode of upper bound variance propagation (hereinafter referred to as "upper bound mode”) in which the variance to be output is calculated assuming that the values are non-independent.
  • FIG. 5 is a diagram showing the calculation formulas of the expected value and the variance of the independent mode and the upper bound mode when the learner is fully connected. Basically, the calculation is performed in the independent mode assuming that the input values are independent. Therefore, the formulas for calculating the expected value and variance in the independent mode are the same as the formulas shown in FIG. In the upper bound mode, the sum of the products of the variance and the weight is squared, so that the variance is larger than in the independent mode.
  • the independent variance propagation is performed when the independence assumption is incorrect, the variance will be underestimated and overconfident, so when the independence assumption is incorrect, the calculation in the upper bound mode will result in overconfidence. You can prevent it from becoming.
  • upper bound variance propagation is performed when the assumption of independence is correct, the variance will be overestimated and the confidence will be insufficient, but if the independence dispersion propagation is performed, the confidence will be prevented.
  • the independent mode and the upper bound mode have different characteristics.
  • the arithmetic unit may switch the mode of distributed propagation depending on the application.
  • the basic configuration of the arithmetic unit of the second embodiment is the same as that of the arithmetic unit 1 of the first embodiment (see FIG. 1).
  • the arithmetic unit of the second embodiment has a different configuration of the neural network model stored in the storage unit 12 from that of the first embodiment.
  • the calculation load is reduced by limiting the probability layer included in the neural network to only one layer.
  • FIG. 6A is a diagram showing the configuration of the neural network model stored in the storage unit 12.
  • the neural network model has an input layer, an intermediate layer, and an output layer.
  • three layers are provided as intermediate layers, but the number of intermediate layers is not limited to three, and may be four or more layers, or two or one layer.
  • the layer closer to the output layer among the three intermediate layers constitutes a stochastic layer having a weighting coefficient stochastically.
  • the probability layer defines the weighting coefficient stochastically by combining the Bernoulli distribution and the weighting coefficient.
  • Other layers of the neural network model define the weighting factors deterministically.
  • the inference unit 11 inputs the data to be analyzed input by the input unit 10 to the input layer, and performs the calculation according to the weighting coefficient of the neural network model.
  • the inference unit 11 of the present embodiment analyzes the input data by using the value appearing in the probability layer instead of the value appearing in the output layer.
  • FIG. 6B is a calculation formula of the output value y of the neural network model shown in FIG. 6A.
  • the value obtained by adding the weight w 0 to the sum of the values obtained by multiplying the value z k appearing in the probability layer by the d k determined from the Bernoulli distribution and the weight coefficient w k is used as the output of the neural network model.
  • the weight w 0 is a bias term meaning an intercept.
  • the Bernoulli distribution is given as a given probability distribution, but the given probability distribution is not limited to the Bernoulli distribution, and another probability distribution such as the Gaussian distribution may be used.
  • FIG. 7A is a diagram showing a calculation formula showing the expected value and the variance obtained by the inference unit 11.
  • the expected value ⁇ is a value obtained by adding a weight w 0 to the sum of the values obtained by multiplying the value z k appearing in the probability layer by the d k determined from the Bernoulli distribution and the weighting coefficient w k.
  • the inference unit 11 of the present embodiment obtains the variance ⁇ 2 obtained by using the probability distribution p as an index showing uncertainty.
  • FIG. 7A shows the result of regression analysis of the data to be analyzed
  • FIG. 7B shows the expectation when two-class classification is performed using the expected value ⁇ and the variance ⁇ 2 which are the results of regression analysis. It is a figure which shows the calculation formula of a value and a variance. The smaller the variance ⁇ 2, the higher the reliability of the expected value ⁇ . By performing the calculation using these calculation formulas, the inference unit 11 can perform the classification.
  • FIGS. 6A, 6B, 7A, and 7B described above the case where the output y is one-dimensional is described, but when the output y is multidimensional, FIGS. 8A, 8B, and 9A are shown. It looks like 9B. That is, FIG. 8A is a diagram showing the configuration of a neural network model whose output is multidimensional, and FIG. 8B is a calculation formula of the output y of the neural network model whose output is multidimensional.
  • FIG. 9A shows a calculation formula for obtaining the expected value ⁇ and the variance ⁇ 2 when the output is multidimensional, and FIG. 9B shows the multi-class classification using the expected value ⁇ and the variance ⁇ 2 which are the results of regression analysis. It is a figure which shows the calculation formula of an expected value and a variance.
  • the training of the neural network model is performed using the teacher data.
  • the error between the inference result obtained by inputting data to the input unit 10 and the correct label is obtained, and the weighting coefficient of the neural network model is updated by the error backpropagation method so that the error is minimized.
  • the probability distribution constituting the probability layer is given, it is not updated, but the probability layer is updated by updating the weighting coefficient. In this way, when learning is performed, learning is performed using the values that appear in the output layer.
  • the trained model described above is also included in the scope of the present disclosure.
  • the example in which the probability layer is arranged at the position closest to the output layer is given, but the arrangement of the probability layer does not have to be the position closest to the output layer.
  • the probability layer is one layer in the neural network model. By setting the probability layer to one layer in this way, the calculation shown in FIG. 7A becomes possible.
  • the probability layer is composed of a combination of a given probability distribution and a weighting coefficient has been given, but the probability distribution itself may be updated by learning.
  • FIG. 10 is a diagram showing an application example of the arithmetic unit of the first embodiment and the second embodiment.
  • the ECU 2 Engine Control Unit
  • the ECU 2 has the same configuration as the arithmetic unit 1 shown in FIG.
  • the ECU 2 receives the input of the image taken by the camera 20 of the autonomous driving vehicle, classifies the objects reflected in the image into classes (for example, trucks, passenger cars, motorcycles, people, etc.), and determines the reliability of the classified classes. Infer. Then, the ECU 2 transmits the inferred result to the vehicle control unit 21 of the autonomous driving vehicle.
  • the vehicle control unit 21 controls the vehicle based on the data transmitted from the ECU 2.
  • the arithmetic device is a device that detects an object based on the image taken by the camera mounted on the vehicle, the weight coefficient is defined by the probability distribution, and the average and dispersion of the probability distribution of the output vector are propagated to the subsequent stage.
  • a storage unit that stores a learned neural network model, including a probability layer to be used, an input unit that inputs an image taken by a camera of an autonomous driving vehicle, and an object reflected in the image in a class by inference by the neural network model. It includes an inference unit that classifies and infers its reliability, and an output unit that outputs the object class and reliability data inferred by the inference unit to the vehicle control unit.
  • the vehicle control unit controls the self-driving vehicle based on the data received from the arithmetic unit. Since the vehicle control unit also receives reliability data, for example, when the reliability of the inference result is low, it is possible to perform control such as slowing down the vehicle speed while performing control using the inference result.
  • the arithmetic device is a device that detects an object based on an image taken by a camera mounted on a vehicle.
  • the weight coefficient is defined by a probability distribution, and the average and dispersion of the probability distribution of the output vector are propagated to the subsequent stage.
  • the vehicle control unit controls the self-driving vehicle based on the data received from the arithmetic unit.
  • autonomous vehicles are safety-critical autonomous systems, it is useful to provide information on the reliability of data analysis results. Further, in the self-driving vehicle, in order to avoid an accident, it is necessary to instantly recognize the situation, so that it is not possible to perform a time-consuming process. Since the ECU 2 of the present embodiment can perform probabilistic inference with low memory and high speed, it can be suitably used for controlling an autonomous driving vehicle.
  • the arithmetic unit 1 of the present embodiment can be applied to other than the control of the autonomous driving vehicle.
  • the substance may be classified into two classes, benign / malignant, and the index of its reliability may be obtained, or the type of tumor may be classified into multiple classes and the index of its reliability may be obtained.
  • the arithmetic unit of the present disclosure can be applied to various situations.
  • the present disclosure is particularly useful when performing inference on memory-saving edge devices.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

演算装置は、重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、データを入力する入力部と、ニューラルネットワークモデルによる推論により、入力部にて入力されたデータを分析する推論部と、推論部による分析結果を出力する出力部とを備える。

Description

演算装置および学習済みモデル
 本開示は、ニューラルネットワークの学習済みモデルを有する演算装置に関する。
関連出願への相互参照
 本出願は、2019年11月11日に日本国に出願した特願2019-203988号に基づくものであって、その優先権の利益を主張するものであり、その特許出願のすべての内容が、参照により本明細書に組み入れられる。
 近年、ニューラルネットワークの研究が進み、画像認識や音声認識等、ニューラルネットワークを用いた様々なアプリケーションが開発されている。ニューラルネットワークは、脳のしくみをコンピュータ上で表現するために作られた数理的モデルであり、入力層、中間層、出力層から構成され、各層の間は、ニューロン同士のつながりの強さを示す重み係数が規定される。この重み係数は学習によって決定される。
 現在、よく用いられるニューラルネットワークでは、ニューロン同士のつながりの重み係数は、学習によって確定的に決定される。このため、ニューラルネットワークによる推論結果は点推定であり、間違った結果であっても確定的に出力してしまうことがあった。
 推論結果に確率的な情報を持たせたニューラルネットワークとして、ベイジアンニューラルネットワークが知られている。ベイジアンニューラルネットワークは、ニューロン同士のつながりの重み係数を確率分布で持つことにより、推論結果を確率的に求めることができる。ベイジアンニューラルネットワークは、ベイズ深層学習の近似方法の一つであるモンテカルロドロップアウト(Monte Carlo Dropout)を用いることで予測分布を求めることができる。
 また、複数のニューラルネットワークモデルの推論結果を総合するモデルアンサンブルという手法も知られている(特許文献1)。複数のニューラルネットワークモデルの結果を総合することは、推論結果を確率的に求めることとほぼ同じであり、この方法によっても推論結果の信頼性を高めることができる。
特開2019-114230号公報
J. Postels, F. Ferroni, H. Coskun, N. Navab and F. Tombari、「Sampling-Free Epistemic Uncertainty Estimation Using Approximated Variance Propagation」 The IEEE International Conference on Computer Vision (ICCV) (2019).
 上記したベイジアンニューラルネットワークは、通常のニューラルネットワークに比べて計算負荷が非常に大きい。モンテカルロドロップアウトは、モンテカルロ法によるサンプリングを数十回から数百回行う必要があり、計算負荷が非常に大きい。また、特許文献1に記載した方法も、複数のニューラルネットワークの計算を行うので、その個数分だけ計算時間とメモリ容量が必要である。研究目的ではそのような計算を行うことはできても、例えば、自動運転車両のように高速で判断を行うことが必要なエッジ機器に適用することは困難である。
 複数回のサンプリングを行わずに一回のフィードフォワードで、ベイジアンニューラルネットワークの予測分布を得る方法として、一次のテイラー展開で各層の関数を近似して、その関数の期待値と分散の解析解を伝播する方法が提案されている(非特許文献1)。一次のテイラー展開で各層の関数を近似してその関数の期待値と分散の解析解を伝播すれば、ガウス分布とみなした予測分布が一回のフィードフォワードで高速に得られる。期待値と分散の伝播により高速に不確実性を得られるようになるものの、一次のテイラー展開による近似のために、非活性化関数の期待値に入力の分散が反映されないという問題や、関数の期待値や分散の近似精度が低いという問題があった。
 本開示は、上記背景に鑑み、省メモリかつ高速に、確率的な推論を行うことができるニューラルネットワークモデルを備えた演算装置を提供する。
 本開示は上記課題を解決するために以下の技術的手段を採用する。特許請求の範囲に記載した括弧内の符号は、ひとつの態様として後述する実施の形態に記載の具体的手段との対応関係を示す一例であって、本開示の技術的範囲を限定するものではない。
 本開示の演算装置は、重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、データを入力する入力部と、前記ニューラルネットワークモデルによる推論により、前記入力部にて入力されたデータを分析する推論部と、前記推論部による分析結果を出力する出力部とを備える。
 本開示の学習済みモデルは、入力されたデータを分析するようにコンピュータを機能させるためのニューラルネットワークの学習済みモデルであって、重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、ニューラルネットワークモデルにより構成され、入力されたデータを前記ニューラルネットワークモデルに適用したときに、出力層に伝播された出力値の確率分布の平均と分散に基づいて、入力されたデータを分析する構成を有する。
 本開示の構成により、省メモリかつ高速に、確率的な推論を行うことができる。
図1は、実施の形態の演算装置の構成を示す図である。 図2は、ニューラルネットワークモデルの一例を示す図である。 図3は、図2に示すニューラルネットワークモデルの変換前のニューラルネットワークモデルである。 図4は、全結合、ドロップアウト、ReLU、Sigmoidの処理において、期待値と分散を伝播する計算式を示す図である。 図5は、学習器が全結合の場合の分散モードと上界モードの期待値および分散の計算式を示す図である。 図6Aは、本実施の形態のニューラルネットワークモデルの構成を示す図である。 図6Bは、ニューラルネットワークモデルの出力yの計算式である。 図7Aは、期待値μと分散σを求める計算式である。 図7Bは、回帰分析結果である期待値μと分散σを用いて、2クラス分類を行ったときの期待値と分散の計算式を示す図である。 図8Aは、出力が多次元のニューラルネットワークモデルの構成を示す図である。 図8Bは、出力が多次元のニューラルネットワークモデルの出力yの計算式である。 図9Aは、期待値μと分散σを求める計算式である。 図9Bは、回帰分析結果である期待値μと分散σを用いて、多クラス分類を行ったときの期待値と分散の計算式を示す図である。 図10は、本実施の形態の演算装置の適用例を示す図である。
 以下、本開示の実施の形態の演算装置について、図面を参照して説明する。
(第1の実施の形態)
 図1は、本実施の形態の演算装置1の構成を示す図である。演算装置1は、入力部10と、推論部11と、記憶部12と、出力部13とを有している。入力部10は、分析対象となるデータの入力を受け付ける機能を有する。分析対象のデータは、例えば、画像データ、音声データ、テキストデータ等であるが、これらに限定されるものではない。入力部10のハードウェアは、例えば、カメラやマイク等の他のセンサ類からのデータの入力を受け付ける通信インターフェースである。
 記憶部12は、学習済みのニューラルネットワークモデルを記憶している。推論部11は、記憶部12に記憶された学習済みモデルを読み出し、入力部10から入力されたデータを学習済みモデルに適用して推論を行う。推論部11のハードウェアは、CPU、RAM等の装置である。
 本実施の形態の演算装置1は、回帰分析、分類のいずれにも適用することができる。出力部13は、推論部11による分析結果を出力する機能を有する。出力部13のハードウェアは、例えば、推論結果にかかるデータを他のアプリケーションに送信する通信インターフェースである。
 図2は、記憶部12に記憶されたニューラルネットワークモデルの一例を示す図である。図において上が入力層L1であり、上から畳込層L2、畳込層L3、マックスプーリング層L4、ドロップアウト層L5、Flatten層L6、全結合層L7、ドロップアウト層L8、全結合層L9を有し、期待値と分散が出力される(L10)。この構造において、ドロップアウト層L5で分散を発生させ、その後、期待値と分散を伝播している。
 本実施の形態では、分散を伝播する層を2入力2出力というインターフェースで実装している。このため、分散を発生させるドロップアウト層L5が入力として分散を受け取れるように、分散0を発生させる層Lv0を含んでいる。ドロップアウト層L5以降は、前の層から出力される期待値μと分散σの2つを入力として受け取って、図4のBNNの欄に示した計算式を用いて期待値μと分散σを出力する。なお、図2に示すニューラルネットワークモデルは、図3に示すニューラルネットワークモデルを、期待値と分散を伝播できるように変換したものである。
 図4は、全結合、ドロップアウト、ReLU、Sigmoidの処理において、期待値としてμのハットを、分散としてσのハットの2乗を出力する計算式を示す図である。最初に、図4で用いられている記号について説明する。
x: 層の入力 (1入力1出力である通常のNNの層の入力)
y: 層の出力 (1入力1出力である通常のNNの層の出力)
μ: xの期待値
σの2乗: xの分散
μのハット: yの期待値
σのハットの2乗: yの分散
 図4では、1入力1出力の通常のニューラルネットワーク(NN)の計算式を並べて記載している。全結合層のようなアフィン層では、入力を確率変数と捉えて、期待値と分散の解析解を計算する。これに対し、ドロップアウトやReLU、Sigmoid等のような非線形層では、ガウス近似等の近似ベイズ推論を行う。このように各層を非線形関数のまま積分することで、高速かつ高精度に予測分布を得ることができる。なお、図4では、ニューラルネットワークで用いられる層の一部を取り上げて説明したが、例えば、BatchNormalization層やtanh層の他の層についても、アフィン層であれば解析解を計算する方法、非線形層であれば近似ベイズ推論を行うことで、上記と同様に、期待値と分散を求めることができる。
 本実施の形態の演算装置は、分散を伝播させる2つのモードを有している。第1のモードは、入力される値が独立であると仮定して出力する分散を計算する独立分散伝播のモード(以下、「独立モード」という)であり、第2のモードは、入力される値が非独立であると仮定して出力する分散を計算する上界分散伝播のモード(以下、「上界モード」という)である。
 図5は、学習器が全結合の場合の独立モードと上界モードの期待値および分散の計算式を示す図である。基本的には、入力値が独立であると仮定して独立モードで計算を行う。したがって、独立モードでの期待値及び分散の計算式は、図4で示した計算式と同じである。上界モードの場合には、分散と重みの積を合計した値を2乗しているので、独立モードよりも分散が大きくなる。
 独立性の仮定が正しくないときに独立分散伝播を行うと分散が過小評価されて自信過剰になってしまうので、独立性の仮定が正しくないときには、上界モードで計算することで、自信過剰になるのを防げる。独立性の仮定が正しいときに上界分散伝播を行うと、分散が過大評価されて自信不足になってしまうが、独立分散伝播だと自信不足になるのを防げる。このように、独立モードと上界モードは異なる特徴を有する。
 安全性を重視するアプリケーションでは、自信過剰になることを防ぐことが望ましいため上界モードが有用であり、安全性をそれほど重視しないアプリケーションでは、独立モードが有用である。演算装置は、アプリケーションによって、分散伝播のモードを切り換えることとしてもよい。
(第2の実施の形態)
 第2の実施の形態の演算装置の基本的な構成は、第1の実施の形態の演算装置1(図1参照)と同じである。第2の実施の形態の演算装置は、記憶部12に記憶されたニューラルネットワークモデルの構成が第1の実施の形態とは異なる。第2の実施の形態においては、ニューラルネットワークに含まれる確率層を1層だけとすることにより、計算負荷を低減させる。
 図6Aは、記憶部12に記憶されたニューラルネットワークモデルの構成を示す図である。ニューラルネットワークモデルは、入力層と、中間層と、出力層とを有している。図6Aに示す例では、中間層として3つの層を有しているが、中間層の数は3層に限らず、4層以上であってもよいし、2層または1層でもよい。
 本実施の形態のニューラルネットワークモデルは、3つの中間層のうち出力層に近い方の層が重み係数を確率論的(stochastic)に有する確率層を構成している。確率層は、ベルヌーイ分布と重み係数を組み合わせることで、重み係数を確率論的に規定している。ニューラルネットワークモデルの他の層は、重み係数を決定論的(deterministic)に規定している。
 次に、このニューラルネットワークモデルを用いた推論について説明する。推論部11は、入力部10にて入力された分析対象のデータを入力層に入力し、ニューラルネットワークモデルの重み係数にしたがって計算を行う。本実施の形態の推論部11は、出力層に現れる値ではなく、確率層に現れる値を用いて、入力されたデータの分析を行う。
 図6Bは、図6Aに示すニューラルネットワークモデルの出力値yの計算式である。図6Bに示すように、確率層に現れた値zに、ベルヌーイ分布から定まるdと重み係数wを乗じた値の総和に、重みwを加えた値がニューラルネットワークモデルの出力として求められる。ここは、重みwは、切片を意味するバイアス項である。本実施の形態では、所与の確率分布としてベルヌーイ分布を与えているが、所与の確率分布はベルヌーイ分布に限られず、例えば、ガウス分布等の別の確率分布を用いてもよい。
 図7Aは、推論部11にて求める期待値と分散を示す計算式を示す図である。期待値μは、確率層に現れた値zに、ベルヌーイ分布から定まるdと重み係数wを乗じた値の総和に、重みwを加えた値である。本実施の形態の推論部11は、確率分布pを用いて求められる分散σを不確実性を示す指標として求める。図7Aに示しているのは、分析対象のデータの回帰分析の結果であるが、図7Bは回帰分析結果である期待値μと分散σを用いて、2クラス分類を行ったときの期待値と分散の計算式を示す図である。分散σが小さいほど、期待値μの信頼性が高い。これらの計算式を用いて計算を行うことで、推論部11は、クラス分類を行うことができる。
 上記した図6A、図6B及び図7A、図7Bでは、出力yが1次元の場合について記載をしているが、出力yが多次元の場合には、図8A、図8B及び図9A、図9Bのようになる。すなわち、図8Aは出力が多次元のニューラルネットワークモデルの構成を示す図、図8Bは出力が多次元のニューラルネットワークモデルの出力yの計算式である。図9Aは、出力が多次元の場合の期待値μと分散σを求める計算式、図9Bは回帰分析結果である期待値μと分散σを用いて、多クラス分類を行ったときの期待値と分散の計算式を示す図である。
 次に、図6Aに示すニューラルネットワークモデルの生成方法について説明をする。ニューラルネットワークモデルの学習は、教師データを用いて行う。入力部10にデータを入力して得られた推論結果と正解ラベルとの誤差を求め、誤差が最小となるように誤差逆伝播法により、ニューラルネットワークモデルの重み係数を更新していく。この際に、確率層を構成する確率分布は所与であるので更新せず、重み係数を更新することで確率層を更新する。このように、学習を行う際には、出力層に現れる値を用いて学習を行う。
 以上、本実施の形態の演算装置1の構成について説明したが、上記に説明した学習済みモデルも本開示の範囲に含まれる。なお、本実施の形態では、出力層に最も近い位置に確率層を配置した例を挙げたが、確率層の配置は、出力層に最も近い位置でなくてもよい。ただし、その場合も、ニューラルネットワークモデルの中で確率層は1層である。このように、確率層を1層とすることにより、図7Aで示した計算が可能となる。なお、上記した実施の形態では、確率層を、所与の確率分布と重み係数の組合せで構成する例をあげたが、学習によって確率分布自体を更新することとしてもよい。
(適用例)
 図10は、第1の実施の形態及び第2の実施の形態の演算装置の適用例を示す図である。図10に示す例では、自動運転車両のECU2(Engine Control Unit)が演算装置1に該当する。ECU2は、図1で示す演算装置1と同じ構成を有する。ECU2は、自動運転車両のカメラ20で撮影された映像の入力を受け、映像に映る物体をクラス(例えば、トラック、乗用車、バイク、人等)に分類すると共に、分類されたクラスの信頼性を推論する。そして、ECU2は、推論された結果を自動運転車両の車両制御部21に送信する。車両制御部21は、ECU2から送信されたデータに基づいて、車両を制御する。
 すなわち、演算装置は、車両に搭載されたカメラで撮影した映像に基づいて物体を検出する装置であって、重み係数が確率分布によって規定され、出力ベクトルの確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、自動運転車両のカメラで撮影された映像を入力する入力部と、ニューラルネットワークモデルによる推論により、映像に映る物体をクラスに分類すると共にその信頼性を推論する推論部と、推論部にて推論した物体のクラスと信頼性のデータとを車両制御部に対して出力する出力部とを備える。車両制御部は、演算装置から受信したデータに基づいて、自動運転車両の制御を行う。車両制御部は、信頼性のデータも受信するので、例えば、推論結果の信頼性が低い場合には、推論結果を利用した制御を行いつつ、車速を落とす等の制御を行うことができる。
 また、演算装置は、車両に搭載されたカメラで撮影した映像に基づいて物体を検出する装置であって、重み係数が確率分布によって規定され、出力ベクトルの確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部と、自動運転車両のカメラで撮影された映像を入力する入力部と、ニューラルネットワークモデルによる推論により、映像内の各画素に対する距離を推定してデプス画像を生成すると共にその信頼性を推論する推論部と、推論部にて推論したデプス画像と信頼性のデータとを車両制御部に対して出力する出力部とを備えてもよい。車両制御部は、演算装置から受信したデータに基づいて、自動運転車両の制御を行う。
 自動運転車両はセーフティクリティカルな自律システムであるので、データの分析結果の信頼性の情報を提供することが有用である。また、自動運転車両では、事故を回避するために、瞬時に状況を認知する必要があるので、時間のかかる処理を行うことができない。本実施の形態のECU2は、省メモリかつ高速に、確率的な推論を行うことができるので、自動運転車両の制御に好適に用いることができる。
(他の用途)
 本実施の形態の演算装置1は、自動運転車両の制御以外にも適用することができる。例えば、医療の分野では、内視鏡を用いた検査において腫瘍を見つけた場合に、その場で良性か悪性か等の判断をしなければならない場面が考えられるが、内視鏡の映像から対象物を良性/悪性の2クラス分類するとともにその信頼性の指標を求めたり、腫瘍の種類を多クラス分類するとともにその信頼性の指標を求めることとしてもよい。
 また、セキュリティの分野において、人物の認証を行うときに、顔の画像から、その人が真正な権限を有する人かどうかを認証すると共に、その信頼性の指標を求めてもよい。あるいは、メールのテキストを入力し、メールがスパムメールか否かを分類するとともに、その信頼性の指標を求めてもよい。
 以上のように、本開示の演算装置は、様々な場面に適用することができる。上述したとおり、本開示は、省メモリのエッジ機器の上で推論を実行する際に、特に有用である。

 

Claims (9)

  1.  重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、学習済みのニューラルネットワークモデルを記憶した記憶部(12)と、
     データを入力する入力部(10)と、
     前記ニューラルネットワークモデルによる推論により、前記入力部にて入力されたデータを分析する推論部(11)と、
     前記推論部による分析結果を出力する出力部(13)と、
     を備える演算装置(1)。
  2.  確率分布の平均と分散が入力される層では、前層から入力される値が独立であると仮定して出力する分散を計算する第1のモードと、前層から入力される値が非独立であると仮定して出力する分散を計算する第2のモードとを備える請求項1に記載の演算装置。
  3.  学習済みのニューラルネットワークモデルを記憶した記憶部(12)と、
     データを入力する入力部(10)と、
     前記ニューラルネットワークモデルによる推論により、前記入力部にて入力されたデータを分析する推論部(11)と、
     前記推論部による分析結果を出力する出力部(13)と、
     を備え、
     前記ニューラルネットワークモデルは、重み係数を確率分布で規定した1つの確率層を有するとともに、その他の層は重み係数を確定値で規定しており、
     前記推論部は、前記入力部にて入力されたデータを前記ニューラルネットワークモデルに適用したときに、前記確率層に現れた値と前記重み係数の確率分布とに基づいて、入力されたデータの分析を行う演算装置(1)。
  4.  前記確率層は、出力層に最も近い位置に配置されている請求項3に記載の演算装置。
  5.  前記確率層は、所与の確率分布と学習によって設定された重み係数の組み合わせによって構成される請求項3または4に記載の演算装置。
  6.  前記入力部は、画像データ、音声データまたはテキストデータを入力し、
     前記推論部は、前記画像データ、音声データまたはテキストデータを複数のクラスに分類すると共に、そのクラスに分類される信頼性を求める請求項1から5のいずれか1項に記載の演算装置。
  7.  前記入力部は、自動運転車両のカメラ(20)で撮影された映像を入力し、
     前記推論部は前記映像に映る物体をクラスに分類すると共にその信頼性を推論し、
     前記出力部は、物体のクラスと信頼性のデータとを車両制御部(21)に対して出力する請求項1から5のいずれか1項に記載の演算装置(2)。
  8.  入力されたデータを分析するようにコンピュータを機能させるためのニューラルネットワークの学習済みモデルであって、
     重み係数が確率分布によって規定され、出力値の確率分布の平均と分散を後段に伝播させる確率層を含む、ニューラルネットワークモデルにより構成され、
     入力されたデータを前記ニューラルネットワークモデルに適用したときに、出力層に伝播された出力値の確率分布の平均と分散に基づいて、入力されたデータを分析する学習済みモデル。
  9.  入力されたデータを分析するようにコンピュータを機能させるためのニューラルネットワークの学習済みモデルであって、
     重み係数を確率分布で規定した1つの確率層を有するとともに、その他の層は重み係数を確定値で規定したニューラルネットワークモデルにより構成され、
     入力されたデータを前記ニューラルネットワークモデルに適用したときに、前記確率層に現れた値と前記重み係数の確率分布とに基づいて、入力されたデータの分析を行う学習済みモデル。
PCT/JP2020/035254 2019-11-11 2020-09-17 演算装置および学習済みモデル WO2021095361A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021555926A JP7386462B2 (ja) 2019-11-11 2020-09-17 演算装置および学習済みモデル

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019203988 2019-11-11
JP2019-203988 2019-11-11

Publications (1)

Publication Number Publication Date
WO2021095361A1 true WO2021095361A1 (ja) 2021-05-20

Family

ID=75912167

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/035254 WO2021095361A1 (ja) 2019-11-11 2020-09-17 演算装置および学習済みモデル

Country Status (2)

Country Link
JP (1) JP7386462B2 (ja)
WO (1) WO2021095361A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230172428A (ko) 2022-06-15 2023-12-22 가부시키가이샤 야스카와덴키 데이터 분석 시스템, 데이터 분석 방법 및 프로그램

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018104563A2 (en) * 2016-12-09 2018-06-14 Tomtom Global Content B.V. Method and system for video-based positioning and mapping

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018104563A2 (en) * 2016-12-09 2018-06-14 Tomtom Global Content B.V. Method and system for video-based positioning and mapping

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANCONA MARCO, ÖZTIRELI CENGIZ, GROSS MARKUS: "Explaining deep neural networks with a polynomial time algorithm for Shapley values approximation, arXiv:1903.10992v4", ARXIV (CORNELL UNIVERSITY), 21 June 2019 (2019-06-21), pages 1 - 10, XP081162867, Retrieved from the Internet <URL:https://arxiv.org/abs/1903.10992v4> [retrieved on 20201020] *
INOUE, MASAAKI ET AL: "The neural network with q-normal distribution", PROCEEDINGS OF THE 2003 IEICE GENERAL CONFERENCE, 3 March 2003 (2003-03-03) *
WEN, H. L. ET AL.: "Probabilistic wind power forecasting via Bayesian deep learning based prediction intervals", PROCEEDINGS OF THE 2019 IEEE 17TH INTERNATIONAL CONFERENCE ON INDUSTRIAL INFORMATICS (INDIN, 25 July 2019 (2019-07-25), pages 1091 - 1096, XP033700784, ISBN: 978-1-7281-2927-3, DOI: 10.1109/INDIN41052.2019.8972125 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230172428A (ko) 2022-06-15 2023-12-22 가부시키가이샤 야스카와덴키 데이터 분석 시스템, 데이터 분석 방법 및 프로그램

Also Published As

Publication number Publication date
JP7386462B2 (ja) 2023-11-27
JPWO2021095361A1 (ja) 2021-05-20

Similar Documents

Publication Publication Date Title
Ding et al. Multimodal safety-critical scenarios generation for decision-making algorithms evaluation
US10977550B2 (en) Method of converting neural network and recognition apparatus using the same
Sarvestani et al. Predicting breast cancer survivability using data mining techniques
US20200279129A1 (en) Machine vision system
Arnelid et al. Recurrent conditional generative adversarial networks for autonomous driving sensor modelling
JP6742554B1 (ja) 情報処理装置およびそれを備えた電子機器
KR102306658B1 (ko) 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치
Liu et al. Physics-guided Deep Markov Models for learning nonlinear dynamical systems with uncertainty
JP7295338B2 (ja) 証明可能ロバストな深層生成モデルを用いたシステム及び方法
Asemi et al. Adaptive neuro-fuzzy inference system for evaluating dysarthric automatic speech recognition (ASR) systems: a case study on MVML-based ASR
US20210053214A1 (en) Operation control device for robot, robot control system, operation control method, control device, processing device and recording medium
Malikopoulos Separation of learning and control for cyber–physical systems
US6601052B1 (en) Selective attention method using neural network
Jain et al. An automated hyperparameter tuned deep learning model enabled facial emotion recognition for autonomous vehicle drivers
WO2021095361A1 (ja) 演算装置および学習済みモデル
Zec et al. Recurrent conditional gans for time series sensor modelling
Rajeshwar Hybrid particle swarm optimization-gravitational search algorithm based deep belief network: Speech emotion recognition: Hybrid PSO-GSA based DBN
CN112348183A (zh) 一种解释和分析神经网络决策和表征的方法
US11494613B2 (en) Fusing output of artificial intelligence networks
Lim et al. Temporal early exiting with confidence calibration for driver identification based on driving sensing data
US20230394304A1 (en) Method and Apparatus for Neural Network Based on Energy-Based Latent Variable Models
Zhang et al. Network Security Prediction and Situational Assessment Using Neural Network-based Method
KR102545670B1 (ko) 조건부 순환 생성적 적대 신경망을 활용한 질병의 진행 과정 이미지 생성 방법 및 그 장치
US20210350704A1 (en) Alarm device, alarm system including the same, and method of operating the same
KR102243125B1 (ko) 신경망 모델을 이용한 영상의 복합 특성 분류 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20887952

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021555926

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20887952

Country of ref document: EP

Kind code of ref document: A1