WO2020044566A1

WO2020044566A1 - データ処理システムおよびデータ処理方法

Info

Publication number: WO2020044566A1
Application number: PCT/JP2018/032483
Authority: WO
Inventors: 陽一矢口
Original assignee: オリンパス株式会社
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-03-05
Also published as: US20210182678A1; JPWO2020044566A1; JP7000586B2; CN112602097A

Abstract

データ処理システム１００は、ニューラルネットワークにしたがった処理を実行するプロセッサを備える。ニューラルネットワークは、学習データに対してニューラルネットワークにしたがった処理を実行することにより出力される出力データと、学習データに対する理想的な出力データとの比較に基づいて、最適化対象パラメータが最適化されている。プロセッサは、第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、第（Ｍ＋１）中間層の処理において、乗算を実行することにより出力される中間データに対して、プーリング処理を実行することを特徴とするデータ処理システム。

Description

データ処理システムおよびデータ処理方法

　本発明は、データ処理技術に関し、特に、学習された深層ニューラルネットワークを用いたデータ処理技術に関する。

　畳み込みニューラルネットワーク（CNN : Convolutional Neural Network）は、１以上の非線形ユニットを含む数学的モデルであり、入力に対応する出力を予測する機械学習モデルである。多くの畳み込みニューラルネットワークは、入力層と出力層の他に、１以上の中間層（隠れ層）をもつ。各中間層の出力は次の層（中間層または出力層）の入力となる。畳み込みニューラルネットワークの各層は、入力および自身のパラメータに応じて出力を生成する。

Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton、「ImageNet Classification with Deep Convolutional Neural Networks」、NIPS2012_4824

　畳み込みニューラルネットワークは、一般的に、平面方向の縮小を行うプーリング処理を含む。本発明者は、鋭意研究を重ねた結果、一貫学習の利点を活かして入力に応じて適した方法で平面方向の縮小することで、プーリング処理に入力されるデータをより有効に活用するようネットワークが学習され、その結果、未知データに対する予測精度が向上することを認識した。

　本発明はこうした状況に鑑みてなされたものであり、その目的は、未知データに対する予測精度を向上できる技術を提供することにある。

　上記課題を解決するために、本発明のある態様のデータ処理システムは、入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行するプロセッサを備える。ニューラルネットワークは、学習データに対して処理を実行することにより出力される出力データと、学習データに対する理想的な出力データとの比較に基づいて、最適化対象パラメータが最適化されており、プロセッサは、第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、第（Ｍ＋１）中間層において、乗算を実行することにより出力される中間データに対して、プーリング処理を実行する。

　本発明の別の態様もまた、データ処理システムである。このデータ処理システムは、入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行するプロセッサと、ニューラルネットワーク処理部が学習データに対して処理を実行することにより出力される出力データと、学習データに対する理想的な出力データとの比較に基づいて、ニューラルネットワークの最適化対象パラメータを最適化することにより、ニューラルネットワークを学習させる学習部と、を備える。プロセッサは、学習では、第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、第（Ｍ＋１）中間層において、乗算を実行することにより出力される中間データに対して、プーリング処理を実行する。

　本発明のさらに別の態様は、データ処理方法である。この方法は、入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行する。ニューラルネットワークは、学習データに対して処理を実行することにより出力される出力データと、学習データに対する理想的な出力データとの比較に基づいて、最適化対象パラメータが最適化されており、ニューラルネットワークにしたがった処理では、第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、第（Ｍ＋１）中間層において、乗算を実行することにより出力される中間データに対して、プーリング処理を実行する。

　本発明のさらに別の態様もまた、データ処理方法である。この方法は、学習データに対して、入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行することにより、学習データに対応する出力データを出力するステップと、学習データに対応する出力データと、学習データに対する理想的な出力データとの比較に基づいて、ニューラルネットワークの最適化対象パラメータを最適化するステップと、を備える。最適化対象パラメータを最適化するステップでは、第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、第（Ｍ＋１）中間層において、乗算を実行することにより出力される中間データに対して、プーリング処理を実行する。

　なお、以上の構成要素の任意の組み合わせ、本発明の表現を方法、装置、システム、記録媒体、コンピュータプログラムなどの間で変換したものもまた、本発明の態様として有効である。

　本発明によれば、未知データに対する予測精度を向上できる。

実施の形態に係るデータ処理システムの機能および構成を示すブロック図である。ニューラルネットワークの構成の一例を模式的に示す図である。データ処理システムによる学習処理のフローチャートを示す図である。データ処理システムによる適用処理のフローチャートを示す図である。

　以下、本発明を好適な実施の形態をもとに図面を参照しながら説明する。

　以下ではデータ処理装置を画像処理に適用する場合を例に説明するが、当業者によれば、データ処理装置を音声認識処理、自然言語処理、その他の処理にも適用可能であることが理解されよう。

　図１は、実施の形態に係るデータ処理システム１００の機能および構成を示すブロック図である。ここに示す各ブロックは、ハードウェア的には、コンピュータのＣＰＵ（central processing unit）をはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。

　データ処理システム１００は、学習用の画像（学習データ）と、その画像に対する理想的な出力データである正解値とに基づいてニューラルネットワークの学習を行う「学習処理」と、学習済みのニューラルネットワークを未知の画像（未知データ）に適用し、画像分類、物体検出または画像セグメンテーションなどの画像処理を行う「適用処理」と、を実行する。

　学習処理では、データ処理システム１００は、学習用の画像に対してニューラルネットワークにしたがった処理を実行し、学習用の画像に対する出力データを出力する。そしてデータ処理システム１００は、出力データが正解値に近づく方向にニューラルネットワークの最適化（学習）対象のパラメータ（以下、「最適化対象パラメータ」と呼ぶ）を更新する。これを繰り返すことにより最適化対象パラメータが最適化される。

　適用処理では、データ処理システム１００は、学習処理において最適化された最適化対象パラメータを用いて、未知の画像に対してニューラルネットワークにしたがった処理を実行し、その画像に対する出力データを出力する。データ処理システム１００は、出力データを解釈して、画像を画像分類したり、画像から物体検出したり、画像に対して画像セグメンテーションを行ったりする。

　データ処理システム１００は、取得部１１０と、記憶部１２０と、ニューラルネットワーク処理部１３０と、学習部１４０と、解釈部１５０と、を備える。主にニューラルネットワーク処理部１３０と学習部１４０により学習処理の機能が実現され、主にニューラルネットワーク処理部１３０と解釈部１５０により適用処理の機能が実現される。

　取得部１１０は、学習処理においては、一度に複数の学習用の画像と、それら複数の学習用の画像のそれぞれに対応する正解値とを取得する。また取得部１１０は、適用処理においては、処理対象の未知の画像を取得する。なお、画像は、チャンネル数は特に問わず、例えばＲＧＢ画像であっても、また例えばグレースケール画像であってもよい。

　記憶部１２０は、取得部１１０が取得した画像を記憶する他、ニューラルネットワーク処理部１３０、学習部１４０および解釈部１５０のワーク領域や、ニューラルネットワークのパラメータの記憶領域となる。

　ニューラルネットワーク処理部１３０は、ニューラルネットワークにしたがった処理を実行する。ニューラルネットワーク処理部１３０は、ニューラルネットワークの入力層に対応する処理を実行する入力層処理部１３１と、中間層に対応する処理を実行する中間層処理部１３２と、出力層に対応する処理を実行する出力層処理部１３３と、を含む。

　図２は、ニューラルネットワークの構成の一部を模式的に示す図である。
　中間層処理部１３２は、第Ｍ（Ｍは１以上の整数）中間層の処理として、入力データを表す中間データと平面サイズの等しい特徴マップを出力する特徴マップ出力処理を実行する。特徴マップ出力処理では、中間データに対して、最適化対象パラメータからなる畳み込みカーネルによる畳み込み演算を含む演算を適用することにより上述の特徴マップを出力する。本実施の形態では、中間層処理部１３２は、特徴マップ出力処理として、中間データに対して畳み込み演算と活性化処理とを適用する。そして中間層処理部１３２は、第Ｍ中間層に入力されるべき中間データと、当該中間データを第Ｍ中間層に入力することにより出力される中間データとを乗算する乗算処理を実行する。

　特徴マップ出力処理と乗算処理とをまとめて励起処理と呼ぶ。励起処理は、以下の式（１）により与えられる。

　カーネルｗの縦横の大きさは、１より大きい任意の整数である。

　また、中間層処理部１３２は、第（Ｍ＋１）中間層の処理として、乗算処理を実行することにより出力される中間データに対してプーリング処理を実行する。プーリング処理は、以下の式（２）により与えられる。

　学習部１４０は、ニューラルネットワークの最適化対象パラメータを最適化する。学習部１４０は、学習用の画像をニューラルネットワーク処理部１３０に入力することにより得られた出力と、その画像に対応する正解値とを比較する目的関数（誤差関数）により、誤差を算出する。学習部１４０は、算出された誤差に基づいて、勾配逆伝搬法等によりパラメータについての勾配を計算し、モーメンタム法に基づいてニューラルネットワークの最適化対象パラメータを更新する。

　取得部１１０による学習用の画像の取得と、ニューラルネットワーク処理部１３０による学習用画像に対するニューラルネットワークにしたがった処理と、学習部１４０による最適化対象パラメータの更新とを繰り返すことにより、最適化対象パラメータが最適化される。

　また、学習部１４０は、学習を終了すべきか否かを判定する。学習を終了すべき終了条件は、例えば学習が所定回数行われたことや、外部から終了の指示を受けたことや、最適化対象パラメータの更新量の平均値が所定値に達したことや、算出された誤差が所定の範囲内に収まったことである。学習部１４０は、終了条件が満たされる場合、学習処理を終了させる。学習部１４０は、終了条件が満たされない場合、処理をニューラルネットワーク処理部１３０に戻す。

　解釈部１５０は、出力層処理部１３３からの出力を解釈して、画像分類、物体検出または画像セグメンテーションを実施する。

　実施の形態に係るデータ処理システム１００の動作を説明する。
　図３は、データ処理システム１００による学習処理のフローチャートを示す。取得部１１０は、複数枚の学習用の画像を取得する（Ｓ１０）。ニューラルネットワーク処理部１３０は、取得部１１０が取得した複数枚の学習用の画像のそれぞれに対して、ニューラルネットワークにしたがった処理を実行し、それぞれについての出力データを出力する（Ｓ１２）。学習部１４０は、複数枚の学習用の画像のそれぞれについての出力データと、それぞれについての正解値とに基づいて、パラメータを更新する（Ｓ１４）。学習部１４０は、終了条件が満たされるか否かを判定する（Ｓ１６）。終了条件が満たされない場合（Ｓ１６のＮ）、処理はＳ１０に戻される。終了条件が満たされる場合（Ｓ１６のＹ）、処理は終了する。

　図４は、データ処理システム１００による適用処理のフローチャートを示す。取得部１１０は、適用処理の対象の画像を取得する（Ｓ２０）。ニューラルネットワーク処理部１３０は、取得部１１０が取得した画像に対して、最適化対象パラメータが最適化されたすなわち学習済みのニューラルネットワークにしたがった処理を実行し、出力データを出力する（Ｓ２２）。解釈部１５０は、出力データを解釈し、対象の画像を画像分類したり、対象の画像から物体検出したり、対象の画像に対して画像セグメンテーションを行ったりする（Ｓ２４）。

　以上説明した実施の形態に係るデータ処理システム１００によると、理想的な出力データの予測に有効な特徴に重きをおいて縮小できる。これにより、未知データに対する予測精度が向上する。

　以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、その各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

（変形例１）
　実施の形態では、ニューラルネットワーク処理部１３０は、プーリング処理として、乗算処理を実行することにより出力される中間データに対して、平均値プーリングを適用する場合について説明したが、これには限定されず、任意のプーリング処理手法を用いてもよい。

　例えばニューラルネットワーク処理部１３０は、プーリング処理として最大値プーリングを適用してもよい。具体的には、プーリング処理は、以下の式（３）により与えられてもよい。

　また例えばニューラルネットワーク処理部１３０は、プーリング処理としてグリッドプーリングを適用してもよい。具体的には、プーリング処理は、以下の式（４）により与えられてもよい。

　グリッドプーリング関数は例えば、以下の式（５）を満たす画素だけを残す処理である。

　また例えばニューラルネットワーク処理部１３０は、プーリング処理として総和プーリングを適用してもよい。具体的には、プーリング処理は、以下の式（６）により与えられてもよい。この場合、励起されたすべてのデータを活用できる。

（変形例２）
　励起処理には様々な変形例が考えられる。
　例えば励起処理は、以下の式（７）により与えられてもよい。

　また例えば励起処理は、以下の式（８）により与えられてもよい。

　実施の形態および変形例において、データ処理システムは、プロセッサと、メモリー等のストレージを含んでもよい。ここでのプロセッサは、例えば各部の機能が個別のハードウェアで実現されてもよいし、あるいは各部の機能が一体のハードウェアで実現されてもよい。例えば、プロセッサはハードウェアを含み、そのハードウェアは、デジタル信号を処理する回路およびアナログ信号を処理する回路の少なくとも一方を含むことができる。例えば、プロセッサは、回路基板に実装された１又は複数の回路装置（例えばＩＣ等）や、１又は複数の回路素子（例えば抵抗、キャパシター等）で構成することができる。プロセッサは、例えばＣＰＵ（Central Processing Unit）であってもよい。ただし、プロセッサはＣＰＵに限定されるものではなく、ＧＰＵ（Graphics Processing Unit）、あるいはＤＳＰ（Digital Signal Processor）等、各種のプロセッサを用いることが可能である。またプロセッサはＡＳＩＣ（application specific integrated circuit）又はＦＰＧＡ（field-programmable gate array）によるハードウェア回路でもよい。またプロセッサは、アナログ信号を処理するアンプ回路やフィルター回路等を含んでもよい。メモリーは、ＳＲＡＭ、ＤＲＡＭなどの半導体メモリーであってもよいし、レジスターであってもよいし、ハードディスク装置等の磁気記憶装置であってもよいし、光学ディスク装置等の光学式記憶装置であってもよい。例えば、メモリーはコンピュータにより読み取り可能な命令を格納しており、当該命令がプロセッサにより実行されることで、データ処理システムの各部の機能が実現されることになる。ここでの命令は、プログラムを構成する命令セットの命令でもよいし、プロセッサのハードウェア回路に対して動作を指示する命令であってもよい。

　１００　データ処理システム、　１３０　ニューラルネットワーク処理部、　１４０　学習部。

　本発明は、データ処理システムおよびデータ処理方法に関する。

Claims

　入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行するプロセッサを備え、
　前記ニューラルネットワークは、学習データに対して前記処理を実行することにより出力される出力データと、前記学習データに対する理想的な出力データとの比較に基づいて、最適化対象パラメータが最適化されており、
　前記プロセッサは、
　第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、
　第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、
　第（Ｍ＋１）中間層において、前記乗算を実行することにより出力される中間データに対して、プーリング処理を実行することを特徴とするデータ処理システム。
　入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行するプロセッサと、
　前記ニューラルネットワーク処理部が学習データに対して前記処理を実行することにより出力される出力データと、前記学習データに対する理想的な出力データとの比較に基づいて、前記ニューラルネットワークの最適化対象パラメータを最適化することにより、前記ニューラルネットワークを学習させる学習部と、を備え、
　前記プロセッサは、前記学習では、
　第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、
　第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、
　第（Ｍ＋１）中間層において、前記乗算を実行することにより出力される中間データに対して、プーリング処理を実行することを特徴とするデータ処理システム。
　前記畳み込みカーネルは、特徴方向に直交する次元のサイズが１よりも大きいことを特徴とする請求項１または２に記載のデータ処理システム。
　前記プロセッサは、特徴方向の次元が１である特徴マップを出力することを特徴とする請求項１から３のいずれかに記載のデータ処理システム。
　前記プロセッサは、実数値に対して０以上１以下の実数値を出力する演算であることを特徴とする請求項１から３のいずれかに記載のデータ処理システム。
　前記畳み込み演算の出力に対してシグモイド関数を適用した結果を出力することを特徴とする請求項１から４のいずれかに記載のデータ処理システム。
　前記プロセッサは、前記プーリング処理として、前記乗算を実行することにより出力される中間データに対して平均プーリングを適用することを特徴とする請求項１から５のいずれかに記載のデータ処理システム。
　前記プロセッサは、前記プーリング処理として、前記乗算を実行することにより出力される中間データに対して総和プーリングを適用することを特徴とする請求項１から６のいずれかに記載のデータ処理システム。
　入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行するデータ処理方法であって、
　前記ニューラルネットワークは、学習データに対して前記処理を実行することにより出力される出力データと、前記学習データに対する理想的な出力データとの比較に基づいて、最適化対象パラメータが最適化されており、
　前記ニューラルネットワークにしたがった処理では、
　第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、
　第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、
　第（Ｍ＋１）中間層において、前記乗算を実行することにより出力される中間データに対して、プーリング処理を実行することを特徴とするデータ処理方法。
　学習データに対して、入力層、１以上の中間層および出力層を含むニューラルネットワークにしたがった処理を実行することにより、学習データに対応する出力データを出力するステップと、
　学習データに対応する出力データと、前記学習データに対する理想的な出力データとの比較に基づいて、前記ニューラルネットワークの最適化対象パラメータを最適化するステップと、を備え、
　前記最適化対象パラメータを最適化するステップでは、
　第Ｍ（Ｍは１以上の整数）中間層において、第Ｍ中間層への入力データを表す中間データに対して、最適化対象パラメータからなる畳み込みカーネルを用いた畳み込み演算を含む演算を適用することによって、当該中間データと平面サイズの等しい特徴マップを出力し、
　第Ｍ中間層に入力される中間データと、当該中間データを第Ｍ中間層に入力することにより出力される特徴マップの対応する座標同士を乗算し、
　第（Ｍ＋１）中間層において、前記乗算を実行することにより出力される中間データに対して、プーリング処理を実行することを特徴とするデータ処理方法。