WO2024004221A1

WO2024004221A1 - 演算処理装置、演算処理方法、及び演算処理プログラム

Info

Publication number: WO2024004221A1
Application number: PCT/JP2022/026524
Authority: WO
Inventors: 祐輔堀下; 彩希八田; 大祐小林; 優也大森; 健中村; 周平吉田; 宥光飯沼; 寛之鵜澤
Original assignee: 日本電信電話株式会社
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2024-01-04

Abstract

演算処理装置は、ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力する演算部と、演算結果について１又は複数の単位で分割された分割単位ごとに、分割単位に属する演算結果に応じた解析を行い、分割単位ごとに解析結果を出力する解析部と、解析部の出力する分割単位ごと解析結果に基づき、分割単位ごとにダイナミックレンジを示す小数点位置を決定する小数点位置決定部と、演算結果に対し、演算結果が属する分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う量子化部と、を含む。

Description

演算処理装置、演算処理方法、及び演算処理プログラム

　開示の技術は、演算処理装置、演算処理方法、及び演算処理プログラムに関する。

　特許文献１には、装置の小型化と低電力化を実現しながら、データ処理の結果に著しい劣化が生じることを避けるデータ処理装置に関する技術が記載されている。この技術のデータ処理装置は、多層ニューラルネットワークを構成する複数の層のそれぞれに対応して、Ｎビットの固定長データの小数点位置を設定するように構成された小数点位置制御回路を有している。また、データ処理装置は、小数点位置が設定されたＮビットの固定長データに対して、多層ニューラルネットワークの処理アルゴリズムに従って、複数の層のそれぞれに対応する演算処理を行うように構成された演算処理回路を有している。

国際特許出願公開第ＷＯ２０２２／００３８５５号

　固定小数点演算を用いたＣＮＮの推論処理において、入力される画像や層ごとに畳み込み演算に用いる演算データの小数点位置を動的に制御し、演算データが表現可能な値域や小数精度を最適化することで、推論精度の低下を抑制する技術が存在する。当該技術では、１フレームないしは１層単位でＣＮＮの演算処理結果を解析し、当該解析結果を反映した小数点位置を次フレームの演算処理に適用する。浮動小数点演算等を用いず、シンプルなハードウェア構成で次フレームの推論精度向上が可能である一方、次のような課題点も存在する。第１に、低フレームレートの映像においてはフレーム間の時間方向の相関が低くなり、推論精度の向上が難しくなる。第２に、最適な小数点位置の反映に１フレーム分のレイテンシを要し、現在処理中のフレーム、又は静止画に当該技術を適用しようとした場合、同一画像に対して２フレーム分の推論処理が必要となる。第３に、画像や層ごとに小数点位置を制御するため、特徴マップ内で必要な値域や小数精度に偏りが生じている場合に適応的に小数点位置を制御できない。偏りが生じてしまうと、特徴マップ内部で局所的には演算精度の劣化がより大きくなる箇所が発生してしまう。

　開示の技術は、上記の点に鑑みてなされたものであり、小数点位置を最適化し、演算精度の劣化を抑制することができる演算処理装置、演算処理方法、演算処理プログラムを提供することを目的とする。

　本開示の第１態様は、演算処理装置であって、ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力する演算部と、前記演算結果について１又は複数の単位で分割された分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力する解析部と、前記解析部の出力する分割単位ごと解析結果に基づき、前記分割単位ごとにダイナミックレンジを示す小数点位置を決定する小数点位置決定部と、前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う量子化部と、を含む。

　本開示の第２態様は、演算処理方法であって、ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力し、前記演算結果について１又は複数の単位で分割した分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力し、出力された分割単位ごと解析結果に基づき、前記分割単位ごとにダイナミックレンジを示す小数点位置を決定し、前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う、処理をコンピュータが実行する。

　本開示の第３態様は、演算処理プログラムであって、ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力し、前記演算結果について１又は複数の単位で分割した分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力し、出力された分割単位ごと解析結果に基づき、前記分割単位ごとにダイナミックレンジを示す小数点位置を決定し、前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う、処理をコンピュータに実行させる。

　開示の技術によれば、小数点位置を最適化し、演算精度の劣化を抑制することができる。

図１は、本実施形態の物体検出装置のハードウェア構成を示すブロック図である。図２は、物体検出処理を実現するための畳み込みニューラルネットワークのレイヤー構造の一例を示している。図３は、本実施形態における特徴マップの内部構造を示す図である。図４は、本実施形態におけるアクセラレータのハードウェア構成例を示すブロック図である。図５Ａは、小数点位置制御単位のサイズを４×４、ＰＥの演算対象ブロックサイズを６×６とし、各ＰＥが３×３カーネルを用いてパディング１、ストライド１の畳み込み演算処理を実行した場合を示している。図５Ｂは、図５Ａで示した特徴マップ出力に対し、各ＰＥが３×３カーネルを用いてパディング１、ストライド２の畳み込み演算処理を実行した場合を示している。図５Ｃは、図５Ｂで示した特徴マップ出力に対し、各ＰＥが３×３カーネルを用いてパディング１、ストライド１の畳み込み演算処理を実行した場合を示している。図６は、ＰＥのハードウェア構成例を示すブロック図である。演算部のハードウェア構成例を示すブロック図である。図８は、複数の小数点位置が混在する演算データの桁合わせを行うためのハードウェア構成例を示す図である。図９Ａは、に示すように、本実施形態における解析部は４種類の小数点位置を用いた解析の例である。図９Ｂは、解析部の解析結果の一例を示している。図１０は、ＰＥにおける演算処理の流れを示すフローチャートである。図１１は、第２実施形態におけるＰＥのハードウェア構成例を示すブロック図である。図１２は、特徴マップ解析結果の参照関係を示している。図１３は、特徴マップの解析結果に対する小数点位置決定部の小数点位置決定手法の一例を示している。

　以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。

　まず、本開示の技術の前提とする概要及び技術について説明する。深層学習（ディープラーニング）へのニーズが高まり、自動運転や監視・モニタリング等様々な分野への応用が期待されている。特に近年では、カメラ等のエッジ端末内でディープラーニングの大規模な演算処理を可能とするため、専用のハードウェアアクセラレータの開発が盛んになっている。ソフトウェアでディープラーニングの演算処理を行う場合、演算処理で扱うデータを３２ビット浮動小数点データとするのが一般的である。一方、ディープラーニング専用のハードウェアアクセラレータにおいては、演算処理で扱うデータを８～１６ビット等の固定小数点データに制限することが多い。これは、ハードウェアアクセラレータのチップ面積の削減や、電力性能の向上を図るためである。

　固定小数点データは浮動小数点データと比較し取りうるダイナミックレンジが狭く、浮動小数点データを用いた場合よりも演算精度が劣化する場合がある。本課題に対し、特許文献１において、ニューラルネットワークを構成する層ごとに、固定小数点データの小数点位置を動的に制御する手法が開示されている。当該手法では、ニューラルネットワークを構成する層ごとの中間演算結果が固定小数点データのダイナミックレンジの上限、又は下限を超えてオーバーフローが発生した回数をカウンタで計測する。そして、当該手法では、当該カウンタ値に基づいて次の演算実行時にオーバーフローを発生させないよう小数点位置の調整を行う。これにより、固定小数点データのダイナミックレンジを演算結果の傾向に合わせて動的に変更可能となり、固定小数点データを用いた場合においても演算精度の劣化を抑制することができる。しかしながら、上記に挙げた課題点を有している。

　本実施形態の技術では、特徴マップ内部で適応的に小数点位置を変更可能とすることで、従来技術よりも低レイテンシで最適な小数点位置を反映可能とし、かつ、演算精度の劣化を抑制する。また、量子化誤差の低減による推論精度の向上が期待できる。

　以下、本実施形態の構成について説明する。

［第１実施形態］
　図１は、本実施形態の物体検出装置１のハードウェア構成を示すブロック図である。物体検出装置１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）１１、カメラモジュール１２、メインメモリ１３、及びアクセラレータ１４から構成され、それらはシステムバス１９を介して接続されている。カメラモジュール１２は所定のフレームレートで静止画、又は動画を撮影可能であり、撮影した画像データを順次メインメモリ１３へと格納する。メインメモリ１３はＣＰＵ１１のソフトウェア処理に必要なワークメモリであるとともに、カメラモジュール１２によって撮影された画像データや、アクセラレータ１４の実行に必要なパラメータ、及びアクセラレータ１４が出力する演算結果等の格納を行う。メインメモリ１３には演算処理プログラムが格納される。ＣＰＵ１１は物体検出装置１全体の制御を担い、例えばカメラモジュール１２やアクセラレータ１４の実行タイミングを制御する。アクセラレータ１４はメインメモリ１３に格納された画像データを読み出し、読み出した画像データに対し畳み込みニューラルネットワークによる物体検出処理を実行する。

　図２を参照して、アクセラレータ１４が実行する物体検出処理の一例について説明する。図２は、物体検出処理を実現するための畳み込みニューラルネットワークのレイヤー構造の一例を示している。図２に示す例において、入力画像は幅４４８ピクセル、高さ４４８ピクセル、ＲＧＢの３つの色成分から構成される画像である。特徴抽出部において、入力画像に対し、各レイヤーで異なる複数のカーネルを用いた畳み込み演算処理、又はプーリング演算処理等が実行され１ｃｈ分ごとの特徴マップが生成される。その後、検出部において、特徴マップに対して全結合が行われ最終層のデータが生成される。物体検出処理の場合、最終層のデータには入力画像に対する物体の相対位置を示す座標情報や、当該座標に物体が存在するか否かを示す信頼度、又はクラス分類確率等が含まれている。クラス分類確率とは、当該物体がどのようなクラスに属するか（人なのか車なのか、犬なのか猫なのか等）を示す確率である。これらの情報をＣＰＵ１１が参照することで、入力画像の中からどのような物体が、どのような位置に存在するかを検出できる。

　本実施形態において、特徴マップを構成する個々の特徴量、及び畳み込み演算時に用いるカーネル、バイアス等のパラメータ値は、８ビットの固定小数点データとする。これにより、３２ビット等の浮動小数点データを扱う場合に比べて、アクセラレータの回路規模やメインメモリ１３の必要容量を大幅に削減できる。

　図３は、本実施形態における特徴マップの内部構造を示す図である。本実施形態において、特徴マップは空間的に異なる複数の単位に分割され、分割された単位ごとに異なる小数点位置情報を有するものとする（以後、分割された単位を小数点位置制御単位（又はブロック）と呼ぶ）。本実施形態では小数点位置制御単位のサイズを幅４、高さ４（以後、４×４と記載する）として扱うものとする。小数点位置制御単位は３２×３２、８×８、８×４、４×１など任意のサイズを取ることができ、正方形や長方形など任意の形状を取ることができる。また、小数点位置制御単位のサイズや形状は必ずしも全レイヤーで共通のものでなくてもよく、各レイヤーの特徴マップのサイズや、畳み込み演算に適用するカーネルサイズ、パディング、ストライド等の設定に応じて変更することも可能である。このように、特徴マップの空間的なサイズにおいてブロックに分割される、また、分割単位であるブロックにおいては複数の小数点位置の情報を持つことができる。なお、特徴マップが本開示の演算結果の一例である。また、小数点位置制御単位が、特徴マップの空間的なサイズを分割したブロックである。ブロックが、本開示の分割単位の一例である。以下では、３×３のブロックを想定する。

　図４は、本実施形態におけるアクセラレータ１４のハードウェア構成例を示すブロック図である。アクセラレータ１４は演算処理部１００とキャッシュメモリ１１０から構成される。なお演算処理部１００が、本開示の演算処理装置の一例である。

　キャッシュメモリ１１０はシステムバス１９を介してメインメモリ１３と接続されている。キャッシュメモリ１１０は演算処理部１００とメインメモリ１３の中間に位置するバッファとして、演算処理部１００とメインメモリ１３間のデータ転送帯域を削減する役割を担っている。演算処理部１００は制御部２００、ＤＭＡＣ２１０、及び複数のＰＥ（Ｐｒｏｃｅｓｓｉｎｇ　Ｅｎｇｉｎｅ）２２０により構成される（以下、ＤＭＡＣ及びＰＥについて符号を省略する）。制御部２００はＤＭＡＣや各ＰＥに対して動作パラメータの設定を行うとともに、各ＰＥへ供給するデータの管理等を行う。ＤＭＡＣは制御部２００により設定された動作パラメータに従って、特徴マップ、畳み込み演算に必要なカーネル、バイアス等のパラメータ、及び特徴マップ内部の小数点位置情報をキャッシュメモリ１１０から読み出す。読み出されたデータは各々のＰＥに供給され、各ＰＥは並列に演算処理を実行する。ＰＥによる演算処理により生成された特徴マップ、及び特徴マップ内部の小数点位置情報はＤＭＡＣを介してキャッシュメモリ１１０へと格納され、次のレイヤーの演算処理時に再びキャッシュメモリ１１０から読み出される。

　図５は、各ＰＥの演算処理単位と小数点位置制御単位の関係を示す図である。図５の点線枠で示すように、各ＰＥは特徴マップを所定のブロック単位で畳み込み演算処理を実行する。図５Ａは、小数点位置制御単位のサイズを４×４、ＰＥの演算対象ブロックサイズを６×６とし、各ＰＥが３×３カーネルを用いてパディング１、ストライド１の畳み込み演算処理を実行した場合を示している。この場合、各ＰＥの演算対象ブロックには異なる９種類の小数点位置が混在するため、各ＰＥに対して９種類の小数点位置情報を供給する必要がある。各ＰＥは供給された９種類の小数点位置情報を用いて畳み込み演算処理結果の小数点位置合わせを実行し、小数点位置を１つに統合した上で出力する。なお、小数点位置は、データのダイナミックレンジを示す。ここでいう小数点位置情報を用いて、小数点位置を選択、出力することは、そのＰＥのデータのダイナミックレンジを決定していることに他ならない。

　図５Ｂは、図５Ａで示した特徴マップ出力に対し、各ＰＥが３×３カーネルを用いてパディング１、ストライド２の畳み込み演算処理を実行した場合を示している。図５Ａと同様に各ＰＥの演算対象ブロックには異なる９種類の小数点位置情報が混在するため、各ＰＥに対して９種類の小数点位置情報を供給する必要がある。各ＰＥは供給された９種類の小数点位置情報を用いて畳み込み演算処理結果の小数点位置合わせを実行し、小数点位置を１つに統合した上で出力する。図５Ｂの場合、ストライド２であるために特徴マップ幅、及び高さは入力の半分のサイズとなるため、特徴マップ内部の小数点位置制御単位のサイズも同様に入力の半分のサイズとなる。

　図５Ｃは、図５Ｂで示した特徴マップ出力に対し、各ＰＥが３×３カーネルを用いてパディング１、ストライド１の畳み込み演算処理を実行した場合を示している。この場合、各ＰＥの演算対象ブロックには異なる１６種類の小数点位置情報が混在するため、各ＰＥに対して１６種類の小数点位置情報を供給する必要がある。各ＰＥは供給された１６種類の小数点位置情報を用いて畳み込み演算処理結果の小数点位置合わせを実行し、小数点位置を１つに統合した上で出力する。

　以上のように、特徴マップ出力に対し、各ＰＥが所定のサイズのカーネルを用いて所定のパディング、所定のストライドの畳み込み演算処理を実行する。ここで、浮動小数点データを用いた場合を考えると、図５Ａ～図５Ｃのいずれの場合においても、各ＰＥの演算対象ブロック内部に６×６＝３６種類の小数点位置情報（指数）が混在することとなる。３×３の特徴マップ内（１ブロック）には最大４種類の複数の小数点位置が混在する。このように、分割単位であるブロックには、複数の小数点位置を有する。一方、図５Ａ及び図５Ｂに示した場合に必要な小数点位置情報は９種類、図５Ｃに示した場合に必要な小数点位置情報は１６種類となる。よって、本実施形態のように特徴マップ内部を所定のブロックの単位に分割し、それぞれの単位で小数点位置を制御することで、浮動小数点データを用いた場合に比べて演算に必要な小数点位置情報を大幅に削減することが可能である。

　図６は、ＰＥのハードウェア構成例を示すブロック図である。演算処理部１００におけるＰＥは、演算部３００と、遅延バッファ３１０と、解析部３２０と、小数点位置決定部３３０と、量子化部３４０とを含む。以下、ＰＥの各部の機能的な処理について説明する。

　演算部３００はＣＮＮ演算を行う。演算部３００は、入力された特徴マップ、及びカーネルを用いて畳み込み演算を実行し、畳み込み演算結果に対してバイアス加算、及び活性化関数処理等の演算処理を実行する。演算部３００は、下記に詳細に説明する処理により、ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果として特徴マップを出力する。

　ここで、図７を参照して演算部３００のハードウェア構成例について説明する。演算部３００はＰＥの演算対象ブロックサイズに相当する複数のフィルタ処理部を有し、それぞれのフィルタ処理部は最大３×３の畳み込み演算、バイアス加算、活性化関数処理を行い、演算結果として特徴量を１つ出力する。入力のａ１は特徴マップ入力（３×３）、ａ２はカーネル（３×３）である。出力のｂ１は特徴マップ出力、ｂ２は小数点位置情報である。各フィルタ処理部に対して入力された特徴マップ、及びカーネルは３×３の乗算器により乗算される。３×３の乗算結果は、小数点位置の桁合わせ処理が施された後、入力チャネルに対する累積加算結果とともに全て加算され、積和演算結果として後段に出力される。また、積和演算結果はＲＡＭにも格納され、次の入力チャネルにおける３×３の乗算結果と累積加算される。

　ここで、図５を参照してフィルタ処理部に入力される３×３の特徴マップの小数点位置について考える。図５Ａ～図５Ｃのいずれの場合においても、３×３の特徴マップ内に最大４種類の小数点位置が混在する可能性がある。また、ＲＡＭに格納されている入力チャネルに対する累積加算結果においても、フィルタ処理部に入力される特徴マップとは異なる小数点位置を有する可能性がある。よって、フィルタ処理部は３×３加算を実行する前にこれらの小数点位置の桁合わせを行い、桁合わせ後の小数点位置情報を後段へと出力する。この桁合わせ後の小数点位置情報はバイアス加算時にも参照される。

　それぞれのフィルタ処理部から出力された特徴量は、フィルタ処理部後段に位置する桁合わせ処理部において再度桁合わせが実行され、ＰＥの演算対象ブロック内部における小数点位置が１つに統合される。そして、桁合わせがなされた全特徴量と小数点位置情報が演算部３００より出力される。

　図８は、複数の小数点位置が混在する演算データの桁合わせを行うためのハードウェア構成例を示す図である。図８では特に、最大４種類の小数点位置を有する３×３の特徴マップと、入力チャネルに対する累積加算結果の小数点位置情報の桁合わせを例として示している。入力のｃ１は特徴マップ入力の小数点位置情報（最大４種類）、ｃ２はカーネルの小数点位置情報、ｃ３は入力チャネルに対する累積加算結果の小数点位置情報である。出力のｄ１は３×３乗算結果（桁あわせ後）、ｄ２は入力チャネルに対する累積加算結果（桁あわせ後）である。まず、特徴マップ入力の小数点位置情報、及びカーネルの小数点位置情報から３×３の乗算後の小数点位置の生成を行う。この結果、入力チャネルに対する累積加算結果の小数点位置情報と合わせて、最大５種類の小数点位置情報が生成される。これらの５種類の小数点位置情報の中から、１つの小数点位置を桁合わせ後の小数点位置として選択する。小数点位置の選択の手法としては、固定小数点データにおける整数精度が最も高いもの、あるいは小数精度が最も高いもの、等様々な手法が考えられる。その後、最大５種類の小数点位置が全て揃うよう、固定小数点データのシフト量を生成する。更に、バレルシフタにより特徴マップ入力、及び入力チャネルに対する累積加算結果が生成したシフト量分それぞれシフトされ出力される。

　以上、演算部３００のハードウェア構成例について説明してきたが、再び図６を参照して演算部３００以降の処理について説明する。演算部３００から出力された特徴マップは遅延バッファ３１０、及び解析部３２０に入力される。遅延バッファ３１０は、後述する最適小数点位置が決定されるまで演算部３００から出力された演算結果として特徴マップを保持する。

　解析部３２０は、演算結果である特徴マップについて１又は複数の単位で分割された分割単位ごとに、分割単位に属する演算結果に応じた解析を行い、分割単位ごとに解析結果を出力する処理部である。解析部３２０は予め定めた複数の小数点位置で目標とする固定小数点データのビット幅への量子化丸めを試し、それぞれの小数点位置に対して量子化丸め後のデータがオーバーフローした回数をカウントする。なお、複数の小数点位置が本開示の分割単位の一例であり、小数点位置ごとにカウントされたオーバーフローの回数が本開示の分割単位に属する演算結果の一例である。

　ここで、図９を参照して解析部３２０の処理例について説明する。図９において、小数点位置＝Ｎとした場合、固定小数点データのＬＳＢが２＾（－Ｎ）を表現可能であるものとする。図９Ａに示すように、本実施形態における解析部３２０は４種類の小数点位置を用いて、演算部３００から出力される特徴量に対して量子化丸めを行い、それぞれの小数点位置に対して量子化丸め後のデータがオーバーフローした回数をカウントする。解析部３２０の実行する解析手法には様々な手法が考えられ、本実施形態で説明した手法の他、それぞれの小数点位置で量子化丸めを行った際の量子化誤差を累積加算する手法、又はＭＳＥ（Ｍｅａｎ　Ｓｑｕａｒｅｄ　Ｅｒｒｏｒ）、ＲＭＳＥ（Ｒｏｏｔ　Ｍｅａｎ　Ｓｑｕａｒｅｄ　Ｅｒｒｏｒ）、ＳＮ比等を算出してもよい。図９Ｂは、解析部３２０の解析結果の一例を示している。小数点位置が左にずれるほど小数精度が高くなる一方、量子化丸めによりオーバーフローする可能性は高くなるため、小数点位置＝４以降はオーバーフローが発生している。ここで、再び図６を参照して小数点位置決定部３３０の処理について説明する。

　小数点位置決定部３３０は、解析部３２０の出力する分割単位ごとの複数の解析結果に基づき、分割単位であるブロックごとの小数点位置を決定する。解析部３２０の解析結果を参照し、予め定めた複数の小数点位置の中から最適な小数点位置を選択して出力する。本実施形態における小数点位置決定部３３０は、解析部３２０から得られる各小数点位置の量子化丸めによるオーバーフロー回数を参照し、オーバーフロー回数が最も少なく、かつ小数精度が最も高いものを選択する。図９に示した例においては、小数点位置決定部３３０は小数点位置＝２を最適な小数点位置として決定する。

　量子化部３４０は、特徴マップに対し、特徴マップが属する分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う。量子化部３４０は、遅延バッファ３１０に保持されている量子化丸め前の特徴マップを参照し、小数点位置決定部３３０により決定された最適な小数点位置により量子化丸めを施し、量子化丸め後の特徴マップを出力する。

　次に、演算処理部１００のＰＥにおける作用について説明する。図１０は、ＰＥにおける演算処理の流れを示すフローチャートである。ＣＰＵ１１が演算処理プログラムをメインメモリ１３から読み出して、キャッシュメモリ１１０に展開して、ＰＥの各部による演算処理を実行する。

　ステップＳ１００において、演算部３００は、ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果として特徴マップを出力する。ここで出力された特徴マップは、遅延バッファ３１０において、最適小数点位置が決定されるまで演算結果として保持される。

　ステップＳ１０２において、解析部３２０は、演算結果である特徴マップについて１又は複数の単位で分割された分割単位（ブロック）ごとに、分割単位に属する演算結果に応じた解析を行い、分割単位ごとに解析結果を出力する。分割単位は複数の小数点位置のブロックである。解析結果は、小数点位置ごとのカウントされたオーバーフローの回数である。

　ステップＳ１０４において、解析部３２０は、小数点位置決定部３３０は、出力する分割単位ごとの複数の解析結果に基づき、分割単位であるブロックごとの最適な小数点位置を決定する。

　ステップＳ１０６において、量子化部３４０は、特徴マップに対し、特徴マップが属する分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う。

　ステップＳ１０８において、演算処理部１００は、量子化丸め後の特徴マップを出力する。

　以上説明したように本実施形態によれば、小数点位置を最適化し、演算精度の劣化を抑制することができる。

［第２の実施形態］
　第１実施形態のＰＥでは、解析部３２０及び小数点位置決定部３３０の処理により最適な小数点位置が決定するまで、量子化丸め前の特徴マップを遅延バッファ３１０に保持していた。特徴マップに対して最適な小数点位置を用いた量子化処理が可能であった一方、遅延バッファ等のハードウェアが必要であった。第２実施形態のＰＥでは、特徴マップ内部において空間的に隣接し、かつ既に解析済みの結果を参照することにより目標とする小数点位置を決定する。特徴マップの解析完了を待たずとも目標とする小数点位置を決定することができるため、特徴マップを保持するための遅延バッファを削減することができる。

　図１１は、第２実施形態におけるＰＥのハードウェア構成例を示すブロック図である。第１実施形態と異なり、第２実施形態では量子化丸め前の特徴マップを保持するための遅延バッファ３１０を設けていない。また、各ＰＥは特徴マップの解析結果を保持するための保持部４００を有する。保持部４００は１つの演算対象ブロックにつき数個の解析結果を保持すればよいため、演算対象ブロックの特徴マップ出力を全て保持する遅延バッファよりも回路規模を削減可能である。このように演算部３００から出力される演算結果である特徴マップを保持するための保持部４００を更に有することで、保持部４００は保持する演算結果が属する分割単位に対し小数点位置が決定された後、当該演算結果を出力することができる。

　図１２は、特徴マップ解析結果の参照関係を示している。図１２において、点模様のブロックは既にＰＥによる畳み込み演算、及び特徴マップの解析が完了しているブロックである。また、これらのブロックの特徴マップ解析結果は、図１１に示した解析結果の保持部４００に格納されている。本実施形態におけるＰＥは、演算対象ブロックに対して左上、上、右上、左に隣接するブロックの特徴マップ解析結果を参照し、目標とする小数点位置を決定するものとする。この他にも、左に隣接するブロックの特徴マップ解析結果のみを参照する等様々な方法が考えられ、参照するブロックが少ないほど保持部４００の必要容量は小さくなる。

　図１３は、特徴マップの解析結果に対する小数点位置決定部３３０の小数点位置決定手法の一例を示している。図１３において、左上隣接ブロックに対して小数点位置＝２が目標小数点位置として採用され、その結果として量子化丸めによる特徴量のオーバーフロー回数が０回であったことを示している。同様に、上隣接ブロック、右上隣接ブロック、左隣接ブロックについても採用された目標小数点位置と、その結果として得られた特徴量のオーバーフロー回数が示されている。本実施形態における小数点位置決定部３３０は、例えばこれらの結果から１ブロックあたりの平均オーバーフロー回数を算出し、平均オーバーフロー回数が１０回以下の小数点位置の中から最も小数精度の高い小数点位置を選択する。図１２において平均オーバーフロー回数が１０回以下で、かつ最も小数精度の高いものは小数点位置＝４であるため、小数点位置決定部３３０は小数点位置＝４を目標小数点位置として出力する。目標小数点位置となるよう、演算部３００から出力された量子化丸め前の特徴マップは目標小数点位置を有する固定小数点データとなるよう量子化丸め処理が施され出力される。このように、小数点位置決定部３３０は、分割単位に空間的に隣接する１又は複数の分割単位における解析結果に基づき、当該分割単位の小数点位置を決定することできる。

　なお、上記各実施形態でＣＰＵがソフトウェア（プログラム）を読み込んで実行した演算処理を、ＣＰＵ以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、ＦＰＧＡ（Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）等の製造後に回路構成を変更可能なＰＬＤ（Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、及びＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、演算処理を、これらの各種のプロセッサのうちの１つで実行してもよいし、同種又は異種の２つ以上のプロセッサの組み合わせ（例えば、複数のＦＰＧＡ、及びＣＰＵとＦＰＧＡとの組み合わせ等）で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。

　また、上記各実施形態では、プログラム（演算処理プログラム）がメインメモリ１３に予め記憶（インストール）されている態様を説明したが、これに限定されない。プログラムは、ＣＤ－ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＤＶＤ－ＲＯＭ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ　Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、及びＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリ等の非一時的（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙ）記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力し、
　前記演算結果について１又は複数の単位で分割した分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力し、
　出力された分割単位ごと解析結果に基づき、前記分割単位ごとに小数点位置を決定し、
　前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う、
　ように構成されている演算処理装置。

　（付記項２）
　演算処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力し、
　前記演算結果について１又は複数の単位で分割した分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力し、
　出力された分割単位ごと解析結果に基づき、前記分割単位ごとに小数点位置を決定し、
　前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う、
　非一時的記憶媒体。

Claims

　ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力する演算部と、
　前記演算結果について１又は複数の単位で分割された分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力する解析部と、
　前記解析部の出力する分割単位ごと解析結果に基づき、前記分割単位ごとにダイナミックレンジを示す小数点位置を決定する小数点位置決定部と、
　前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う量子化部と、
　を含む演算処理装置。
　前記演算部から出力される演算結果を保持するための保持部を更に有し、
　前記保持部は保持する演算結果が属する分割単位に対し小数点位置が決定された後、当該演算結果を出力する、請求項１記載の演算処理装置。
　前記小数点位置決定部は、
　分割単位に空間的に隣接する１又は複数の分割単位における解析結果に基づき、当該分割単位の小数点位置を決定する、請求項１記載の演算処理装置。
　前記演算部の前記演算結果を特徴マップとし、前記特徴マップの空間的なサイズを分割したブロックを前記分割単位とする、請求項１に記載の演算処理装置。
　前記演算部の前記演算結果を特徴マップとし、前記演算部の演算では、所定のサイズのカーネルを用いて所定のパディング、所定のストライドの畳み込み演算処理を行うことにより、前記分割単位に複数の小数点位置を有し、
　前記解析部による前記解析は、前記分割単位ごとに、複数の小数点位置のうち、前記演算結果においてオーバーフロー回数をカウントし、
　前記小数点位置決定部は、前記分割単位ごとに、オーバーフロー回数が少な最も少なく、かつ小数精度が最も高い小数点位置を当該分割単位の小数点位置とする、請求項１に記載の演算処理装置。
　ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力し、
　前記演算結果について１又は複数の単位で分割した分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとに解析結果を出力し、
　出力された分割単位ごと解析結果に基づき、前記分割単位ごとにダイナミックレンジを示す小数点位置を決定し、
　前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う、
　処理をコンピュータが実行する演算処理方法。
　ニューラルネットワークを構成する各層に対応する演算を実行し、演算結果を出力し、
　前記演算結果について１又は複数の単位で分割した分割単位ごとに、前記分割単位に属する前記演算結果に応じた解析を行い、前記分割単位ごとにダイナミックレンジを示す解析結果を出力し、
　出力された分割単位ごと解析結果に基づき、前記分割単位ごとに小数点位置を決定し、
　前記演算結果に対し、前記演算結果が属する前記分割単位に対して決定された小数点位置を有する固定小数点データとなるよう量子化を行う、
　処理をコンピュータに実行させる演算処理プログラム。