WO2020044527A1

WO2020044527A1 - 情報処理装置

Info

Publication number: WO2020044527A1
Application number: PCT/JP2018/032296
Authority: WO
Inventors: 雅啓安本; 松本　渉
Original assignee: 株式会社アラヤ
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2020-03-05

Abstract

入力データに対してニューラルネットワークの演算を行うことで、人工知能機能を実現する演算処理部を備えた情報処理装置に適用される。演算処理部は、ニューラルネットワークの各層での入力ベクトルと重み行列との積和計算を行う際の、最大の入力チャネル、出力チャネル、およびカーネルサイズに対応できる演算回路と、演算回路に画像を入力する入力画像一時記憶部と、演算回路の出力を格納し、次の層の演算のために入力画像一時記憶部に画像をコピーする出力画像一時記憶部と、から構成する。

Description

情報処理装置

　本発明は、人工知能に用いるニューラルネットワークの演算を行う情報処理装置に関し、特にニューラルネットワークの演算を行う際の演算量を削減することができる情報処理装置に関する。

　ニューラルネットワーク（以下「ＮＮ」と称する）において特に認識性能や予測性能が高い、深い層構造をもつディープニューラルネットワーク（以下「ＤＮＮ」と称する）、畳み込みニューラルネットワーク（以下「ＣＮＮ」と称する）等はインターネットサービスやクラウド経由・機器搭載等の手段によりスマートフォン、自動車機器、家電機器、工場用機器、ロボット等へのアプリケーションとして提供されている。

　非特許文献１には、通常、高さ・幅・チャネルの３次元に対して一括して演算を行う畳み込み演算を、高さ・幅方向と、チャネル方向の演算に分離することで、演算回数を削減する技術が記載されている。

Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, Hartwig Adam., MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications, https://arxiv.org/abs/1704.04861

　しかしながら、従来の人工知能機能の実現として多く採用されているＤＮＮやＣＮＮ等のＮＮは、演算量が大きく、計算機資源に大規模なサーバを用意したり、グラフィックプロセッシングユニット（以下「ＧＰＵ」と称する）等の追加のユニットを搭載したりする必要がある。このため、知能用設備の導入や機器への実装の際に高価になったり、大量の消費電力が必要になったりするという問題がある。

　本発明は上記事情に鑑みて成されたものであり、ＤＮＮやＣＮＮ等のＮＮの演算量を削減することで、計算機資源を大幅に削減し、小型化や低消費電力化を可能とし、汎用機器に搭載できる情報処理装置を提供することを目的とする。

　本発明の一つの側面の情報処理装置は、入力画像データに対してニューラルネットワークの演算を行うことで、人工知能機能を実現する演算処理部を備えた情報処理装置において、演算処理部は、ニューラルネットワークの各層での入力ベクトルと重み行列との積和計算を行う演算回路と、演算回路に画像を入力する入力画像一時記憶部と、演算回路の出力を格納し、次の層の演算のために入力画像一時記憶部に画像をコピーする出力画像一時記憶部とから構成され、演算回路は、入力画像データの最大の入力チャネル、出力データの出力チャネル、およびカーネルサイズに対応できる演算回路としたことを特徴とする。

　また、本発明の他の側面の情報処理装置は、演算回路のどの一部分を抽出しても、ニューラルネットワークの各層での入力ベクトルと重み行列との積和計算の組み合わせの形が、出力チャネルごとにすべて異なるように、演算器を削減した演算回路としたことを特徴とする。

　本発明によれば、人工知能機能を実現する計算機資源を大幅に削減できるため、計算機に占有されるスペースや価格、消費電力を削減することができる。したがって、人工知能機能を機器に搭載する際に、低価格のＣＰＵや汎用のＦＰＧＡ(field-programable gate array)やＬＳＩを使用してニューラルネットワークの演算を行うことが可能になり、小型、低価格化、低消費電力、高速化を実現できる。

ＣＮＮにおける、高さ１、横幅１のカーネルを使うときの畳み込み層において、ネットワークを圧縮しない場合での、従来の畳み込み演算を行う演算回路の処理状態の例を示す図である。本発明の第１の実施の形態例による、ネットワークを圧縮したときの演算回路の処理状態を示す図である。本発明の第１の実施の形態例において、ネットワークを圧縮するときに、不要とする乗算の場所を決めるためのルールの例を示す図である。ネットワークを圧縮しない場合での、従来の畳み込み演算回路の処理状態の例（高さ３、横幅３のカーネルを使うときの畳み込み演算を行う演算回路）を示す図である。本発明の第２の実施の形態例によるネットワークを圧縮したときの演算回路の処理状態を示す図である。本発明の第２の実施の形態例において、入力チャネル数が層によって異なる場合に、圧縮した演算回路を再利用する際の処理状態の例を示す図である。本発明の第２の実施の形態例において、出力チャネル数が層によって異なる場合に、圧縮した演算回路を再利用する際の処理状態の例を示す図である。本発明の第３の実施の形態例による、カーネルサイズが層によって異なる場合に、圧縮した演算回路を再利用する場合の処理状態を示す図である。本発明の各実施の形態例に適用される、複数の畳み込み層から構成されるニューラルネットワークの処理例を示す図である。本発明の各実施の形態例に適用される情報処理装置の機能構成例を示す図である。ＤＮＮの構造の例を示す図である。自己符号化器におけるプレトレーニング（各層ごとに行う）の例を示す図である。手書き数字の認識例を示す図である。ＤＮＮの中間ノードのベクトルが得られる様子を示す図である。ネットワークの圧縮状態の概要を示す図である。分割状態の概要を示す図である。

　以下、本発明の実施の形態例を、添付図面を参照して詳細に説明する。
　以下の実施の形態例では、最初に図１～図１０を参照して、本発明の各実施の形態例の詳細について説明する。その後、図１１～図１６を参照して、実施の形態例で説明した情報処理装置の構成に適用される、計算量を削減する演算処理手法の詳細について説明する。なお、図１１～図１６を参照して説明する計算量を削減する手法は、本願の発明者らが先に国際特許出願（ＰＣＴ／ＪＰ２０１８／０１４３０４号）で開示した内容の一部である。

　まず、図１～図１０を参照して、本発明の各実施の形態例の構成について説明する。
　本実施形態例は、ＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）に適用した例である。
　ＣＮＮは、例えば画像データを入力として、その画像があるカテゴリに所属しているかどうかを出力するような場合に使用されるが、この限りではなく他にも様々なタスクに使用される。
　ＣＮＮは通常、複数の畳み込み層から構成される。各畳み込み層では、入力となる複数のチャネルの画像に対して、複数回の畳み込み演算を行い、結果を出力する。出力された結果は次の層の入力として使われる。各畳み込み演算の後には、非線形関数を適用することも可能である。

［第１の実施の形態］
　図１は、ＣＮＮにおける、ある１つの畳み込み層において、ネットワークを圧縮しない場合に、畳み込み演算を行う演算回路の従来の処理構成を示した図である。なお、本明細書で述べるネットワークとは、ＮＮ（ニューラルネットワーク）におけるネットワークであり、ネットワークの圧縮と述べたとき、演算回数の削減を意味する。

　ＣＮＮにおける畳み込み演算とは、通常、高さK_h、横幅K_w、チャネル数C_inの３つの次元で構成されるテンソル（以降、「カーネル」と称する）を、入力画像から切り出した、カーネルと同じサイズの画像の画素値テンソルに対して、同じインデクスを持つ値同士を掛け合わせた上でその総和をとる演算のことを指す。
　ここでのチャネル数C_inは、例えば各画素がＲＧＢの３つのデータで構成されるとき、３チャネルになる。

　この演算を、入力画像からの切り出し位置をずらしながら全入力画像に対して行うことで、１つの層の畳み込み処理が完了する。１つのカーネルによる畳み込み演算によって、１つのチャネルの出力画像が得られる。通常複数のカーネルを用意することで、複数チャネルの出力画像を得ることができる。

　図１では、高さK_h=１、横幅K_w=１、チャネル数C_in=4のカーネルを複数個使ったときの畳み込み演算を行う際の、演算回路の処理状態を示す。
　入力画像１０１は、高さＨ、横幅Ｗ、チャネル数C_inの画像である。画像の各画素はその画素の値（画素値）を保持している。
　出力画像１０２は、高さＨ、横幅Ｗ、チャネル数C_outの画像である。C_inとC_outは同じでもよいし、異なっていてもよい。

　演算回路１０３は、入力画像１０１の中の、ある１つの画素の場所の全チャネルの画素値を入力として、同じく出力画像１０２の中の、ある１つの画素の場所の全チャネルの画素値を加算して出力する。

　すなわち、演算回路１０３は、複数の乗算器（演算器）１０４－１～１０４－４、１０５－１～１０５－４、・・・、１０９－１～１０９－４で構成され、これら複数の乗算器を並列に並べた構造をとる。なお、本明細書において、演算器という言葉は、複数の乗算器の乗算結果を加算して出力する加算器や減算器などを含む概念として用いられる。
　各乗算器１０４－１～１０４－４、１０５－１～１０５－４、・・・、１０９－１～１０９－４には、あらかじめ入力される値に対して乗算する係数を設定してあり、各乗算器１０４－１～１０４－４、１０５－１～１０５－４、・・・、１０９－１～１０９－４は入力される画素値にこの係数をかけた値を出力する。乗算された結果は、対応する出力チャネルの乗算器ごとにグループ化された上で、そのグループ内での合計値が計算され、その合計値が対応する出力チャネルに出力される。例えば、出力チャネル１に対応した乗算器グループ１０３ａ、出力チャネル２に対応した乗算器グループ１０３ｂ、・・・、出力チャネルＣoutに対応した乗算器グループ１０３ｎが用意され、グループごとに加算した合計値が出力される。

　図１の下側に示す画像１１０は、着目する画素の場所を画像全体に対してスキャンしながら前述した畳み込み演算を繰り返し行うことで、出力画像のすべての画素値を出力する処理状態を示した画像である。
　１回目のループでは、画像の最も左上の画素値を全出力チャネル分出力し、２回目のループでは画像の最も左上から１つ右にずれた位置の画素値を全出力チャネル分出力する。これを画像１１０の高さＨと幅Ｗに対応して繰り返すことで、Ｈ×Ｗの回数のループで、全位置の画素値を計算することができる。

　この図１に示す処理構成を、本実施の形態例においては、図２に示すネットワークを圧縮した処理構成、つまり演算回数を削減した処理構成に置き換える。
　すなわち、図２に示す処理構成は、図１に示す処理構成に対して、ネットワークを圧縮したときの構成を示す。

　図２に示す構成では、チャネル数C_in、高さＨ、幅Ｗの入力画像２０１を、演算回路２０３に入力して、各出力チャネルに対応した乗算器グループ２０３ａ、２０３ｂ、・・・、２０３ｎで演算を行って、出力画像２０２とする畳み込み演算を行う。
　演算回路２０３では、ネットワークを圧縮することで、図１に示す構成に比べて、一部の乗算を不要としている。不要となる乗算では、乗算器の実装が不要となるので、ＣＮＮを実装する上で必要となる回路規模を削減することができる。なお、図２に示す構成で演算した結果が、図１に示すネットワークを圧縮しない構成と比べて、劣化なく適正に演算できる原理については、図１１以降の説明で後述する。

　図３は、図２に示す構成にてネットワークを圧縮するときに、不要となる乗算器の場所を決めるためのルールを示す。
　出力チャネルごとに乗算器をグルーピングした上で、各グループに対して必要な乗算と不要な乗算を定義する。ここで、必要な乗算の場所が複数のグループ間で入力データに対して異なる組み合わせの積和になるように、必要な乗算、不要な乗算の場所を定義する。このように定義することで、精度の劣化なくネットワークを圧縮することが可能である。

　図３に示す具体的な例について説明すると、図３の上側に示す演算回路３０１は、入力データに対し重複する組み合わせの積和が存在する場合を示している。ここでは、各グループにおける各演算器の必要な個所を示す。

　演算回路３０１では、乗算器が必要な場所には乗算係数として１を設定し、不必要な場所には乗算器を使用しない乗算係数０を設定するものとする。不使用で乗算係数０を設定するということは、該当する乗算器が不要なことを意味する。
　ここで、各入力チャネル１～４に対応する４つの入力データをx_1、x_2、x_3、x_4とする。このとき、出力チャネル１の値はx_1＋x_2、出力チャネル２の値はx_3＋x_4、出力チャネル３の値はx_3＋x_4とする。この場合、出力チャネル２と出力チャネル３の値は重複するため、出力チャネル２と出力チャネル３の値は同じになり計算する必要のない演算器が存在してしまう。このような場合、出力チャネル２の式と出力チャネル３の式は、線形従属、あるいは線形独立でないという。
　したがって、演算回路３０１では、出力チャネルに伝えるべき情報の欠損が生じてしまうため、ＣＮＮの出力結果の精度が劣化する可能性がある。

　一方、図３の下側に示す演算回路３０２は、線形独立な場合を示す。
　演算回路３０２では、出力チャネル１の値は、入力チャネル１と入力チャネル２に対応したx_1＋x_2となる。また、出力チャネル２の値は、入力チャネル２と入力チャネル３に対応したx_2＋x_3となる。さらに、出力チャネル３の値は、入力チャネル３と入力チャネル４に対応したx_3＋x_4となる。このように演算回路３０２の場合には、各出力チャネルの式は線形独立であり、出力チャネルに伝えるべき情報の欠損が生じることがないので、ＣＮＮの出力結果の精度劣化を防ぐことができる。
　したがって、図２に示す演算回路２０３に、図３に示す演算回路３０２の構成を適用することで、ＣＮＮの出力結果の精度劣化を防ぎつつ、演算処理量を削減することができる。
　なお、図３に示す演算回路３０２の各出力チャネルに対応した乗算器２０４－１，２０４－２と、乗算器２０５－１，２０５－２と、乗算器２０６－１，２０６－２は、それぞれ同一構成であるため、１つの出力チャネルに対応した複数の乗算器（ここでは２つの乗算器）を用意すれば、各出力チャネルの演算ごとに、同一の乗算器を再利用することができ、人工知能機能を実現するための計算機資源を削減することができる。

［第２の実施の形態］
　図４は、ある１つの畳み込み層において、ネットワークを圧縮しない場合に、畳み込み演算を行う演算回路の従来の処理構成について、図１とは別の例を示した図である。
　図４に示す例は、高さK_h=3、横幅K_w=3、チャネル数C_in=4のカーネルを複数個使った場合における、畳み込み演算の例を示す。

　入力画像４０１は、横幅Ｗ、高さＨ、チャネル数C_inの画像である。画像の各画素はその画素の値（画素値）を保持している。
　出力画像４０２は、横幅Ｗ、高さＨ、チャネル数C_outの画像である。入力画像４０１のチャネル数C_inと出力画像４０２のチャネル数C_outは同じでもよいし、異なっていてもよい。

　演算回路４０３は、入力画像４０１の中の、ある１つの着目する画素の周辺を含めた３×３の画素位置の全チャネルの画素値を入力として、対応する出力画像４０２の中の、ある１つの画素の場所の全チャネルの画素値を出力する。
　すなわち、演算回路４０３は、出力チャネル１に対応した演算器グループ４０４ａ、出力チャネル２に対応した演算器グループ４０４ｂ、・・・出力チャネルＣoutに対応した演算器グループ４０４ｎを有する。それぞれの演算器グループ４０４ａ～４０４ｎは、複数の乗算器を備える。例えば演算器グループ４０４ａは、乗算器４０５－１～４０５―ｎを備える。

　この図４に示す処理構成を、本実施の形態例においては、図５に示すネットワークを圧縮した処理構成、つまり演算回数を削減した処理構成に置き換える。
　すなわち、図５に示す処理構成は、図４に示す処理構成に対して、ネットワークを圧縮したときの構成を示す。ここでは、入力画像５０１を、圧縮した処理構成の演算回路５０３に供給して、各チャネルの出力を得て、出力画像５０２を得る。
　演算回路５０３としては、出力チャネル１に対応した乗算器グループ５０４ａ、出力チャネル２に対応した乗算器グループ５０４ｂ、・・・、出力チャネルＣoutに対応した乗算器グループ５０４ｎを備える。例えば乗算器グループ５０４ａは、乗算器５０５－１、５０５－２、・・・、５０５－ｍ（但し、ここでのｍは乗算器４０５の数ｎよりも小さい数）を有する。

　図６は、図５の演算回路５０３の詳細構成の例を示す。この図６に示す例は、入力チャネルC_inがＣＮＮの各畳み込み層によって異なる場合に、圧縮した演算回路を再利用する方法を示す。ここでは、入力チャネルが異なる層が２つ以上あった場合に、入力チャネルの数が大きい方の層で使用する演算回路の一部を再利用して、入力チャネルの数が小さい層の演算を行うことができる例を示す。

　図６に示す例は、入力チャネル数が４の層の場合と、入力チャネル数が３の層の場合の２種類の層が存在する場合を示す。
　図６の上側に示す入力チャネル数が４の層の場合には、出力チャネル１に対応した演算では、入力チャネル１に対応した乗算器５０５－１と、入力チャネル２に対応した乗算器５０５－２とで演算を行い、両乗算器５０５－１、５０５－２の演算出力を合計して、出力チャネル１の値を得る。
　また、出力チャネル２に対応した演算では、入力チャネル２に対応した乗算器５０６－１と、入力チャネル３に対応した乗算器５０６－２とで演算を行い、両乗算器５０６－１、５０６－２の演算出力を合計して、出力チャネル２の値を得る。
　さらに、出力チャネル３に対応した演算では、入力チャネル３に対応した乗算器５０７－１と、入力チャネル４に対応した乗算器５０７－２とで演算を行い、両乗算器５０７－１、５０７－２の演算出力を合計して、出力チャネル３の値を得る。

　そして、図６の下側に示す入力チャネル数が３の層の場合には、出力チャネル１に対応した演算と、出力チャネル２に対応した演算は、図６の上側に示した入力チャネル数が４の層の場合と同じである。
　これに対して、出力チャネル３に対応した演算は、入力チャネル３に対応した乗算器５０７－１での演算のみを行い、この乗算器５０７－１の演算出力から、出力チャネル３の値を得る。入力チャネル数が４の層の場合に必要であった乗算器５０７－２は使用されない。
　この図６に示す構成とすることで、入力チャネル数が３の層の場合の演算も、入力チャネル数が４の層の場合と同じ演算回路を使って演算を行うことができる。
　なお、必要な乗算器と不要な乗算器の場所については、乗算器グループに含まれる乗算器すべてを利用した場合と、上から３つの乗算器だけを利用した場合の両方の場合において、各グループが線形独立になるように決定される。

　この図６に示す例の場合にも、出力チャネル１に対応したグループの乗算器５０５－１、５０５―２と、出力チャネル２に対応したグループの乗算器５０６－１、５０６―２と、出力チャネル３に対応したグループの乗算器５０７－１、５０７―２は再利用することで、それだけ計算資源を削減することができる。

　次に、図６に示すチャネル構成とは別の例を、図７に示す。
　図７は、出力チャネルC_outがＣＮＮの各畳み込み層によって異なる場合に、圧縮した演算回路を再利用する構成例である。
　図７の上側は、入力チャネル数が４の層、出力チャネル数が３の層の畳み込み層の場合である。この図７の上側に示す畳み込み層は、図６の上側に示す畳み込み層と同じである。

　一方、図７の下側は、入力チャネル数が４の層、出力チャネル数が２の層の畳み込み層の場合である。
　この場合、出力チャネル１に対応した演算では、入力チャネル１に対応した乗算器５０５－１と、入力チャネル２に対応した乗算器５０５－２とで演算を行い、両乗算器５０５－１、５０５－２の演算出力を合計して、出力チャネル１の値を得る。
　また、出力チャネル２に対応した演算では、入力チャネル２に対応した乗算器５０６－１と、入力チャネル３に対応した乗算器５０６－２とで演算を行い、両乗算器５０６－１、５０６－２の演算出力を合計して、出力チャネル２の値を得る。

　この図７の下側の例は、出力チャネル数が２の層であるため、図７の上側に示す乗算器５０７－１、５０７―２での演算が不要になる。すなわち、出力チャネル数が２の層の場合には、出力チャネル数が３層の場合に用意された３つの乗算器グループの内の上から２つの乗算器グループだけを利用することになる。このように、出力チャネル数２の場合の演算も、出力チャネル数が多い層と同じ演算回路を使って行うことができる。必要な乗算器と不要な乗算器の場所については、すべての乗算器グループを利用した場合で各グループが線形独立になるように決めておけば、そのうちの一部の乗算器グループを利用した場合でも必ず線型独立になる。

　図８は、カーネルサイズが層によって異なる場合に、圧縮した演算回路を再利用する構成を示す。
　図８に示す例では、高さK_h＝３、幅K_w＝３のカーネルを使用する層と、高さK_h＝１、幅K_w＝１のカーネルを使用する層の２つが存在する場合を示す。ここで、高さK_h＝３、幅K_w＝３のカーネルを使用する層に対応した演算回路の、９個の画素に対応する乗算器の内の、１個目の画素に対応する乗算器だけを選択して利用することで、高さK_h＝１、幅K_w＝１のカーネルの場合も同じ演算回路を使って演算を行う。

　すなわち、図８の上側に示すように、高さK_h＝３、幅K_w＝３のカーネルを使用する層で、出力チャネル１に対応した乗算器グループとして、入力チャネル１の１画素目から５画素目に対応した乗算器６０１－１～６０１－５と入力チャネル２の２画素目に対応した乗算器６０１－６を設け、各乗算器６０１－１～６０１－６の出力を合計して、出力チャネル１に対応した出力を得る。
　また、出力チャネル２に対応した乗算器グループとして、入力チャネル１の２画素目から６画素目に対応した乗算器６０２－１～６０２－５と入力チャネル２の１画素目と２画素目に対応した乗算器６０２－６、６０２－７を設け、各乗算器６０２－１～６０２－７の出力を合計して、出力チャネル２に対応した出力を得る。
　さらに、出力チャネル３に対応した乗算器グループとして、入力チャネル１の３画素目から７画素目に対応した乗算器６０３－１～６０３－５を設け、各乗算器６０３－１～６０３－５の出力を合計して、出力チャネル３に対応した出力を得る。

　一方、図８の下側に示すように、高さK_h＝１、幅K_w＝１のカーネルを使用する層では、出力チャネル１に対応した乗算器グループとして、入力チャネル１の１画素目に対応した乗算器６０１－１のみを使い、乗算器６０１－１の出力を、出力チャネル１に対応した出力とする。
　また、出力チャネル２に対応した乗算器グループとして、入力チャネル２の１画素目に対応した乗算器６０２－６のみを使い、乗算器６０２－６の出力を、出力チャネル２に対応した出力とする。その他の乗算器（破線で図示）は、再利用時に不動作とされる。

　なお、図８の例の場合にも、必要な乗算器と不要な乗算器の場所については、乗算器グループに含まれる乗算器すべてを利用した場合と、９個に１個だけを利用した場合の両方の場合において、各ブループが線型独立になるように決定される。

［各実施の形態に共通の処理手順及び装置構成の例］
　図９は、ここまでの実施の形態例で説明した畳み込みニューラルネットワークの処理手順の例を示す。通常、畳み込みネットワークは複数の層から構成される。図９では、畳み込み層１、２、３、４の４層構成であり、入力とする画像のチャネル数が３、出力する画像のチャネル数が１２８であるネットワークを例として説明する。畳み込み層１、２、３、４は、それぞれカーネルサイズが３×３、３×３、３×３、１×１である。

　図９に従って説明すると、畳み込みニューラルネットワークへの入力として入力画像を与えると（ステップＳ１）、最初に畳み込み層１がこれを入力として演算を行い、結果を出力する（ステップＳ２）。ここでは、この畳み込み層１は、３チャネルの画像を入力として３２チャネルの画像を出力する。

　次に、畳み込み層１で得られた３２チャネルの画像を入力として畳み込み層２が演算を行い、結果を出力する（ステップＳ３）。このように、畳み込み層１の出力チャネル数と畳み込み層２の入力チャネル数は一致する。畳み込み層２では、出力チャネル数が６４になる。

　さらに、畳み込み層２で得られた６４チャネルの画像を入力として畳み込み層３が演算を行い、結果を出力する（ステップＳ４）。畳み込み層３では、出力チャネル数が１２８になる。

　さらにまた、畳み込み層３で得られた１２８チャネルの画像を入力として畳み込み層４が演算を行い、結果を出力する（ステップＳ５）。畳み込み層４では、出力チャネル数が１２８になる。
　そして、最終的に畳み込み層４が出力した結果が、この畳み込みニューラルネットワークの出力となる（ステップＳ５）。

　図９の右側に各畳み込み層の入力チャネル数、出力チャネル数、カーネルサイズを示すように、ここでは最大入力チャネル数が１２８、最大出力チャネル数が１２８、最大カーネルサイズが３×３になる。したがって、本実施の形態例においては、全ての畳み込み層での演算が可能なように、各パラメータの最大の値に対応した１つの演算回路を作成した上で、図６や図７などで説明したように、各畳み込み層の演算時に乗算器の一部を不使用として演算を行う。

　図１０は、ここまでの実施の形態例で説明した畳み込みニューラルネットワークを実行する情報処理装置の構成を示す。
　情報処理装置は、記憶部７０１と、入力画像一時記憶部７０２と、畳み込み演算回路７０３と、出力画像一時記憶部７０４とを備える。

　記憶部７０１は、畳み込みニューラルネットワークに入力する画像や、畳み込みニューラルネットワークが出力した画像を格納する。
　入力画像一時記憶部７０２は、ニューラルネットワークの演算を開始した直後に、記憶部７０１から画像を受け取り、畳み込み演算回路７０３に送信する。また、ネットワークの演算の途中の過程では、出力画像一時記憶部７０４の内容をコピーして格納し、畳み込み演算回路７０３に送信する。

　畳み込み演算回路７０３は、入力画像一時記憶部７０２から受け取ったデータを入力として、１つの畳み込み層の計算を行い、結果を出力画像一時記憶部７０４に格納する。
　出力画像一時記憶部７０４は、畳み込み演算回路７０３の演算結果を格納する。ネットワークの演算の途中の過程では、格納している画像を、入力画像一時記憶部７０２にコピーする。演算が完了した際には、入力画像一時記憶部７０２が格納している画像を、記憶部７０１に送信する。
　この図１０に示す情報処理装置は、例えばＣＰＵ（Central Processing Unit：中央処理ユニット）とその周辺回路（ＲＯＭ、ＲＡＭ、各種インターフェースなど）で構成されるコンピュータ装置として構成する他に、汎用のＦＰＧＡやＬＳＩで構成することができる。

　次に、図１０に示す情報処理装置内の各部が連携して行う動作を、図９に示すネットワークを例にして説明する。
　ここで、畳み込み演算回路７０３は、図９に示すネットワークに含まれる畳み込み層のパラメータの最大値に対応した回路を構成する。そして、記憶部７０１には、ネットワークの入力画像が格納されている。

　まず、ステップＳ１では、記憶部７０１に格納されている入力画像を、入力画像一時記憶部７０２にコピーする。次に、テップＳ２では、この入力画像を入力として、畳み込み演算回路７０３が、演算回路７０３の一部分を利用して、畳み込み層１に対応した畳み込み演算処理を行い、結果を出力画像一時記憶部７０４に格納する。

　次に、畳み込み層２の演算に備え、出力画像一時記憶部７０４は、ステップＳ２で格納された画像を入力画像一時記憶部７０２にコピーする。このコピーした画像を入力として、畳み込み演算回路７０４が、演算回路の一部分を利用して、畳み込み層２に対応した畳み込み演算処理を行い、結果を出力画像一時記憶部７０４に格納する。

　以下、同様の処理を、畳み込み層３、畳み込み層４に対しても行う。ステップＳ５での畳み込み層４の処理が終わると、その結果を出力画像一時記憶部７０４に格納し、ステップＳ６として、格納した画像を記憶部７０１にコピーして、ニューラルネットワークの演算が完了する。

　以上説明したように、本実施の形態例の情報処理装置によると、人工知能機能を実現する計算機資源を大幅に削減できるため、計算機に占有されるスペースや価格、消費電力を削減できるようになる。

［畳み込み演算の計算量を削減する演算処理手法の説明］
　次に、ここまで説明したネットワークを圧縮した処理を行うことが実現できる点について、図１１以降を参照して説明する。
　ここでは、ＤＮＮ（ディープニューラルネットワーク）に適用してネットワークを圧縮する例を説明する。
　図１１に基づきＤＮＮの構造を定義する。まず入力信号を、Ｎ次元ベクトル

とする。なお、(*)^Ｔは行列の転置を示している。ｌ＝１，２，３，・・・という層の索引を示すｌを用いて多層構造を表現する。また

は実数を意味する。
ベクトル

を

として計算するｌ番目の層の重み係数の和のベクトルとする。

　ここで

は重み行列であり、

はバイアスベクトルである。

　与えられたｕ_ｊ ^（ｌ）に対して活性化関数ｆが次のｌ＋１層の入力ベクトルｘ_ｊ ^{（ｌ＋１）}をノードごとの計算ｘ_ｊ ^{（ｌ＋１）}＝ｆ（ｕ_ｊ ^（ｌ））を実行することにより生成する。
　説明を簡易化するために、以降は、ｂ_ｊ ^（ｌ）＝０とｆ（ｕ）＝ｕとして説明を進める。

　一般にＤＮＮは、識別用の教師あり学習の前に、積層自己符号化器を用いて教師無し学習によるプレトレーニングを行う。図１２に示す様に、この自己符号化器では、高次元の入力信号の主要な情報を獲得し低次元の特徴データに変換することを目的としている。各層では自己符号化器を使って復元したデータと入力データの相違を最小化するように学習を行う。この学習は下位層から上位層へ層ごとに勾配降下法や誤差逆伝搬法等を用いて実施される。

　ｘ^{（ｌ＋１）}＝Ｗ^（ｌ）ｘ^（ｌ）で示されるネットワーク層に対して、重み行列

を使って

を計算することによりｘ^{（ｌ＋１）}から復元ベクトル

を生成する。
　自己符号化器の学習時には、

を求める最適化問題を解くことにより、重み行列

と

を導出する。ここでは、ｘ^（ｌ）のベクトルの長さをＪ^（ｌ）とする。

　一般にＪ^{（ｌ＋１）}≦Ｊ^（ｌ）である為、自己符号化器はデータの次元を削減することになる。
　つまり次元圧縮された信号ｘ^{（ｌ＋１）}からＷ^（ｌ）を用いて元信号ｘ^（ｌ）を復元する問題とみなすことができる。
　逆に言うと、重み行列Ｗ^（ｌ）が次元圧縮された信号ｘ^{（ｌ＋１）}から元信号ｘ^（ｌ）を復元する特性を有していればよいことになる。

　ここで、図１３を参照して、ＤＮＮを手書き数字の認識に適用した例について説明する。

　例えば図１３に示す様に、手書き数字の「５」をベクトルｘ^（１）で表現したとして、ランダムな行列Ｗ^（１）と行列の掛け算をして得た次元圧縮されたベクトルｘ^（２）を得る。今ベクトルｘ^（１）がどんな絵かわからない状態でもベクトルｘ^（２）とランダムな行列Ｗ^（１）からベクトルｘ^（１）が再生でき、結果手書き数字の「５」を再生できることを示している。

　一方、重み行列のランダム性を満たす手法は行列の成分をランダムに選択する手法以外にも考えられる。ここで説明する圧縮手法ではこの点に着目した構成法を示す。
　この特性を示す重み行列の構成法を以下に示す。

　ここでは、一例として図１３に示すような手書き数字の認識に用いるＤＮＮで説明する。
　入力信号は手書き文字のサイズが２８×２８＝７８４画素だとすると、一層目の入力信号ｘ^（１）のベクトルの長さはＮ＝７８４となる。中間層として２層目のノードｘ^（２）のベクトルの長さをＭ＝５００とすると、図１３に示すように５００×７８４の重み行列Ｗ^（１）に入力信号ベクトルｘ^（１）をかけて次元圧縮された中間ノードの信号ｘ^（２）を得ることになる。

　図１４にこの際の重み行列Ｗ^（１）と入力信号ベクトルｘ^（１）との行列計算により、中間ノードのベクトルｘ^（２）が得られる様子を示す。

　この際、演算量が大きい掛け算の回数はＭ×Ｎ＝５００×７８４＝３９２０００回となる。
　図１４、図１５にネットワーク圧縮方法を示す。従来のＤＮＮでは、図１４に示すように、各層ごとに入力ベクトル長Ｎ、出力ベクトル長Ｍに対してＭ×Ｎの成分に対する積が必要であり、この積の回数が演算量を増大させる元になっていた。
　本圧縮手法では、図１５に示す様に元々のＭ×Ｎ＝５００×７８４の重み行列をＭ’×Ｎ＝１０×７８４まで圧縮させる方法を示す。

　まずは従来例と比べて圧縮した重み行列を用意し、その圧縮した重み行列の下での計算方法を示す。また本圧縮手法の計算方法で精度がほとんど落ちない理由を説明する。
　この圧縮した重み行列を

とする。また、圧縮率をγと表現すると、この圧縮率はγ＝Ｍ’／Ｍ＝１０／５００＝１／５０となる。
　この

の重み行列を使って下記の計算を行う。

　ここで、

であり、演算子°は、

でＡを行列、Ｂをベクトルしたときに、行列Ａのｉ列目の成分とベクトルＢのｉ番目の要素の積を行う演算である。

　次に、図１６に示すようにM’×N＝10×784の行列

を1/γ=50列毎にM’×N’=10×50の行列

に以下のように分割する。

その上で

に対して特定のルールで置換またはランダムに置換した行列

との行列の和を下記のように実行する。ここで置換とは行列の任意の２要素の場所を互いに交換する、という操作を任意の回数行うことを意味する。

この結果、図１６の右端に示すようなM’×N’=10×50の行列

が出力される。

　この行列

をベクトルに変換し

を構成する。上記例では１０×５０の行列Ｘ^（２）からベクトル長５００のｘ^（2）が生成される。

　したがって、５００×７８４の重み行列Ｗ^（１）を使った計算と同じ７８４次元の入力信号から５００次元の中間ノードの信号を出力する演算が実行できる。特に置換した行列

の組み合わせによる行列の和を使うことによりランダム行列に近い特性を実現できる。

　この結果、認識性能や予測性能は、従来の方法と本発明の方法では僅かな性能差に抑えられる。
　一方、本圧縮手法では演算量が大きい掛け算の回数は、M′×N＝10×784＝7840回となり、従来のM×N＝500×784＝392000回に比べてγ=1/50まで下げられる効果がある。

　例えば元々６×９の重み行列Ｗ^（１）で入力信号ベクトルｘ^（１）のベクトル長を９、出力ベクトルｘ^（２）のベクトル長６のものを対象とする。例えば

という計算を行う。一般に重みは、ｗ_ｉ，ｊ∈［－１，１］の範囲で設定される。ここで重みの分布の分散値が大きい場合は、重みが－１や１の値をとる場合が多くなり、学習をする過程においても学習が収束しない勾配消失問題という問題も引き起こす。

　例えば上式の１行目と２行目の重みがすべて１になってしまった場合、

という形で上式の右辺を見てもわかるように同じ方程式が２個重複して存在してしまい、出力するｘ^（２）の１番目の要素と２番目の要素が同じになる為、その要素が１つ減ったことと同じになり、ｘ^（２）の情報そのものの欠損が生じてしまう。つまりｘ^（２）の要素は本来６個であるが、１番目の要素と２番目の要素が同じになる為、要素５個分の情報に削減される。この計算を行う１つの層で情報の欠損は最終的な識別に用いる情報の欠損につながる為、識別性能を下げる要因になる。一方、重みｗ_ｉ，ｊが－１や１の値をとったとしても同じ方程式の発生を最初から回避できる方法を用いれば、ｘ^（２）の要素の欠損は防ぐことができ、識別に必要な情報量も維持でき、最終的な識別の精度を下げない効果を得られる。

　この観点から、本圧縮手法は重み行列Ｗ^（ｌ）の各行の成分とベクトルｘ^（ｌ）のすべての要素の積和をとらず、一部の要素の積和をとり方程式が一致しない組み合わせのルールを作る手段をとることで同じ方程式の発生を回避した。まず、圧縮率に沿って行数を圧縮した重み行列

を作り、圧縮率の逆数1/γ毎にＷ^（ｌ）を分割し式(1)に示す様に

を計算し、その上で

との行列の和を式（２）に示すように実行する。これらの実装はソフトウェア上でも実装可能であるが、ＦＰＧＡ等のハードウェアでの実装も可能である。

　具体例としてγ＝１／３の場合を示す。まず行数を６から圧縮後の行数６×γ＝２行とする。次に列数を１／γ＝３列毎に区切り、２×３の重み行列

を構成し、ベクトル長は1/γ＝３のｘ_１ ^（１）、ｘ_２ ^（１）、ｘ_３ ^（１）を使って、

と計算する。
　なお、簡易化のために行列の成分およびベクトルの要素の上付き文字(1)の表現は割愛している。

　ここで、

の２行目を左側に１列巡回シフトする置換をして下記のように

とする。

　また、

の２行目を左側に２列巡回シフトする置換をして下記のように

とする。

　結果、

は以下のように計算する。

　なお、簡易化の為、

とする。

　この手順により、重みｗ_ｉ，ｊが－１や１の値をとったとしても、同じ方程式の発生を最初から回避できている。例えば上記実例においてすべての重みｗ_ｉ，ｊを１としたとしても、

となり、重複する方程式は発生しない。また、一つの方程式あたりの積和の数も、式（３）、式（４）で行っていた９回の積、８回の和から、式（５）に示すように、３回の積、２回の和に削減できている。
　この手法では、

の２行目の成分を左側に１列巡回シフト、

の２行目の成分を左側に２列巡回シフトしただけである。このようにシンプルな構造でも同じ方程式の発生は避けることができる。

［変形例］
　なお、上述した実施の形態ではＣＮＮの例を示したが、本発明は、ＤＮＮ（Deep Neural Network：深層ニューラルネットワーク）、ＲＮＮ（Recurrent Neural Network：再帰型ニューラルネットワーク）といった、少なくとも一部にネットワーク構造を持つ演算処理を行う様々な情報処理装置に対して適用できる。
　また、図１１～図１６を参照して説明したネットワークの圧縮手法は一例であり、その他のネットワークの圧縮手法を、各実施の形態例で説明した情報処理装置の構成に適用してもよい。

　１０１…入力画像、１０２…出力画像、１０３…演算回路、１０３ａ～１０３ｎ…出力チャネルに対応した演算器グループ、１０４～１０９…乗算器、１１０…画像、２０１…入力画像、２０２…出力画像、２０３…演算回路、２０３ａ～２０３ｎ…出力チャネルに対応した演算器グループ、２０４～２０９…乗算器、３０１，３０２…演算回路、４０１…入力画像、４０２…出力画像、４０３…演算回路、４０４ａ～４０４ｎ…出力チャネルに対応した演算器グループ、４０５…乗算器、５０１…入力画像、５０２…出力画像、５０３…演算回路、５０４ａ～５０４ｎ…出力チャネルに対応した演算器グループ、５０５～５０７…乗算器、６０１～６０３…乗算器、７０１…記憶部、７０２…入力画像一時記憶部、７０３…畳み込み演算回路、７０４…出力画像一時記憶部

Claims

　入力画像データに対してニューラルネットワークの演算を行うことで、人工知能機能を実現する演算処理部を備えた情報処理装置において、
　前記演算処理部として、ニューラルネットワークの各層での入力ベクトルと重み行列との積和計算を行う演算回路と、
　前記演算回路に画像を入力する入力画像一時記憶部と、
　前記演算回路の出力を格納し、次の層の演算のために前記入力画像一時記憶部に画像をコピーする出力画像一時記憶部と、を備え、
　前記演算回路は、入力画像データの最大の入力チャネル、出力データの出力チャネル、およびカーネルサイズに対応できる演算回路としたことを特徴とする
　情報処理装置。
　前記演算回路のどの一部分を抽出しても、ニューラルネットワークの各層での入力ベクトルと重み行列との積和計算の組み合わせの形が、出力チャネルごとにすべて異なるように、演算器を削減した演算回路としたことを特徴とする
　請求項１記載の情報処理装置。