WO2023139990A1

WO2023139990A1 - ニューラルネットワーク回路およびニューラルネットワーク演算方法

Info

Publication number: WO2023139990A1
Application number: PCT/JP2022/046214
Authority: WO
Inventors: 賢治渡邊
Original assignee: ＬｅａｐＭｉｎｄ株式会社
Priority date: 2022-01-24
Filing date: 2022-12-15
Publication date: 2023-07-27

Abstract

ニューラルネットワーク回路は、畳み込み演算を行う畳み込み演算回路と、量子化演算を行う量子化演算回路と、を有するニューラルネットワーク演算コアを複数有し、前記複数のニューラルネットワーク演算コアは、データ入出力可能に接続されている。

Description

ニューラルネットワーク回路およびニューラルネットワーク演算方法

　本発明は、ニューラルネットワーク回路およびニューラルネットワーク演算方法に関する。本願は、２０２２年０１月２４日に、日本国に出願された特願２０２２－００８６９２号に基づき優先権を主張し、その内容をここに援用する。

　近年、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ：ＣＮＮ）が画像認識等のモデルとして用いられている。畳み込みニューラルネットワークは、畳み込み層やプーリング層を有する多層構造であり、畳み込み演算等の多数の演算を必要とする。畳み込みニューラルネットワークによる演算を高速化する演算手法が様々考案されている（特許文献１など）。

特開２０１８－０７７８２９号公報

　一方で、ＩｏＴ機器などの組み込み機器においても畳み込みニューラルネットワークを利用した画像認識等を実現することが望まれている。組み込み機器においては、特許文献1等に記載された大規模な専用回路を組み込むことは難しい。また、ＣＰＵやメモリ等のハードウェアリソースが限られた組み込み機器においては、畳み込みニューラルネットワークの十分な演算性能をソフトウェアのみにより実現することは難しい。

　上記事情を踏まえ、本発明は、ＩｏＴ機器などの組み込み機器に組み込み可能かつ高性能なニューラルネットワーク回路およびニューラルネットワーク演算方法を提供することを目的とする。

　上記課題を解決するために、この発明は以下の手段を提案している。
　本発明の第一の態様に係るニューラルネットワーク回路は、畳み込み演算を行う畳み込み演算回路と、量子化演算を行う量子化演算回路と、を有するニューラルネットワーク演算コアを複数有し、前記複数のニューラルネットワーク演算コアは、データ入出力可能に接続されている。

　本発明の第二の態様に係るニューラルネットワーク演算方法は、第一ニューラルネットワーク演算コアと第二ニューラルネットワーク演算コアを用いるニューラルネットワーク演算方法であって、前記第一ニューラルネットワーク演算コアの出力データを、前記第一ニューラルネットワークにループバックさせるループバックデータフローと、第二ニューラルネットワーク演算コアにバイパスさせるバイパスデータデータフローと、を切り替える。

　本発明のニューラルネットワーク回路およびニューラルネットワーク演算方法は、ＩｏＴ機器などの組み込み機器に組み込み可能かつ高性能である。

畳み込みニューラルネットワークを示す図である。畳み込み層が行う畳み込み演算を説明する図である。畳み込み演算のデータの展開を説明する図である。第一実施形態に係るニューラルネットワーク回路の全体構成を示す図である。ＮＮ演算コアの全体構成を示す図である。同ＮＮ演算コアの動作例を示すタイミングチャートである。同ＮＮ演算コアの他の動作例を示すタイミングチャートである。ＮＮ演算マルチコアを示す図である。同ＮＮ演算マルチコアの動作例を示すタイミングチャートである。同ＮＮ演算マルチコアの他の動作例を示すタイミングチャートである。同ＮＮ演算マルチコアの他の動作例を示すタイミングチャートである。同ニューラルネットワーク回路のＤＭＡＣの内部ブロック図である。同ＤＭＡＣの制御回路のステート遷移図である。同ニューラルネットワーク回路の畳み込み演算回路の内部ブロック図である。同畳み込み演算回路の乗算器の内部ブロック図である。同乗算器の積和演算ユニットの内部ブロック図である。同畳み込み演算回路のアキュムレータ回路の内部ブロック図である。同アキュムレータ回路のアキュムレータユニットの内部ブロック図である。同ニューラルネットワーク回路の量子化演算回路の内部ブロック図である。同量子化演算回路のベクトル演算回路と量子化回路の内部ブロック図である。演算ユニットのブロック図である。同量子化回路のベクトル量子化ユニットの内部ブロック図である。セマフォによる同ニューラルネットワーク回路の制御を説明する図である。第一データフローのタイミングチャートである。第二データフローのタイミングチャートである。第一データフローのタイミングチャートである。第二データフローのタイミングチャートである。第二実施形態に係るニューラルネットワーク回路の畳み込み演算回路の内部ブロック図である。同畳み込み演算回路の乗算器の内部ブロック図である。同乗算器の積和演算ユニットアレイの内部ブロック図である。同積和演算ユニットアレイの積和演算ユニットの内部ブロック図である。第三実施形態に係るニューラルネットワーク回路の全体構成を示す図である。同ニューラルネットワーク回路の第一ＤＭＡＣの内部ブロック図である。同第一ＤＭＡＣなどのクロック制御部の動作を示すタイミングチャートである。同ニューラルネットワーク回路の畳み込み演算回路の内部ブロック図である。同ニューラルネットワーク回路の量子化演算回路の内部ブロック図である。第四実施形態に係るニューラルネットワーク回路の全体構成を示す図である。

（第一実施形態）
　本発明の第一実施形態について、図１から図２７を参照して説明する。
　図１は、畳み込みニューラルネットワーク２００（以下、「ＣＮＮ２００」という）を示す図である。第一実施形態に係るニューラルネットワーク回路１００（以下、「ＮＮ回路１００」という）が行う演算は、推論時に使用する学習済みのＣＮＮ２００の少なくとも一部である。

［ＣＮＮ２００］
　ＣＮＮ２００は、畳み込み演算を行う畳み込み層２１０と、量子化演算を行う量子化演算層２２０と、出力層２３０と、を含む多層構造のネットワークである。ＣＮＮ２００の少なくとも一部において、畳み込み層２１０と量子化演算層２２０とが交互に連結されている。ＣＮＮ２００は、画像認識や動画認識に広く使われるモデルである。ＣＮＮ２００は、全結合層などの他の機能を有する層（レイヤ）をさらに有してもよい。

　図２は、畳み込み層２１０が行う畳み込み演算を説明する図である。
　畳み込み層２１０は、入力データａに対して重みｗを用いた畳み込み演算を行う。畳み込み層２１０は、入力データａと重みｗとを入力とする積和演算を行う。

　畳み込み層２１０への入力データａ（アクティベーションデータ、特徴マップともいう）は、画像データ等の多次元データである。本実施形態において、入力データａは、要素（ｘ，ｙ，ｃ）からなる３次元テンソルである。ＣＮＮ２００の畳み込み層２１０は、低ビットの入力データａに対して畳み込み演算を行う。本実施形態において、入力データａの要素は、２ビットの符号なし整数（０，１，２，３）である。入力データａの要素は、例えば、４ビットや８ビット符号なし整数でもよい。

　ＣＮＮ２００に入力される入力データが、例えば３２ビットの浮動小数点型など、畳み込み層２１０への入力データａと形式が異なる場合、ＣＮＮ２００は畳み込み層２１０の前に型変換や量子化を行う入力層をさらに有してもよい。

　畳み込み層２１０の重みｗ（フィルタ、カーネルともいう）は、学習可能なパラメータである要素を有する多次元データである。本実施形態において、重みｗは、要素（ｉ，ｊ，ｃ，ｄ）からなる４次元テンソルである。重みｗは、要素（ｉ，ｊ，ｃ）からなる３次元テンソル（以降、「重みｗｏ」という）をｄ個有している。学習済みのＣＮＮ２００における重みｗは、学習済みのデータである。ＣＮＮ２００の畳み込み層２１０は、低ビットの重みｗを用いて畳み込み演算を行う。本実施形態において、重みｗの要素は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

　畳み込み層２１０は、式１に示す畳み込み演算を行い、出力データｆを出力する。式１において、ｓはストライドを示す。図２において点線で示された領域は、入力データａに対して重みｗｏが適用される領域ａｏ（以降、「適用領域ａｏ」という）の一つを示している。適用領域ａｏの要素は、（ｘ＋ｉ，ｙ＋ｊ，ｃ）で表される。

　量子化演算層２２０は、畳み込み層２１０が出力する畳み込み演算の出力に対して量子化などを実施する。量子化演算層２２０は、プーリング層２２１と、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２と、活性化関数層２２３と、量子化層２２４と、を有する。

　プーリング層２２１は、畳み込み層２１０が出力する畳み込み演算の出力データｆに対して平均プーリング（式２）やＭＡＸプーリング（式３）などの演算を実施して、畳み込み層２１０の出力データｆを圧縮する。式２および式３において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、Ｔはプーリング領域の大きさを示す。式３において、ｍａｘはＴに含まれるｉとｊの組み合わせに対するｕの最大値を出力する関数である。

　Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２は、量子化演算層２２０やプーリング層２２１の出力データに対して、例えば式４に示すような演算によりデータ分布の正規化を行う。式４において、ｕは入力テンソルを示し、ｖは出力テンソルを示し、αはスケールを示し、βはバイアスを示す。学習済みのＣＮＮ２００において、αおよびβは学習済みの定数ベクトルである。

　活性化関数層２２３は、量子化演算層２２０やプーリング層２２１やＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２の出力に対してＲｅＬＵ（式５）などの活性化関数の演算を行う。式５において、ｕは入力テンソルであり、ｖは出力テンソルである。式５において、ｍａｘは引数のうち最も大きい数値を出力する関数である。

　量子化層２２４は、量子化パラメータに基づいて、プーリング層２２１や活性化関数層２２３の出力に対して例えば式６に示すような量子化を行う。式６に示す量子化は、入力テンソルｕを２ビットにビット削減している。式６において、ｑ(ｃ)は量子化パラメータのベクトルである。学習済みのＣＮＮ２００において、ｑ(ｃ)は学習済みの定数ベクトルである。式６における不等号「≦」は「＜」であってもよい。

　出力層２３０は、恒等関数やソフトマックス関数等によりＣＮＮ２００の結果を出力する層である。出力層２３０の前段のレイヤは、畳み込み層２１０であってもよいし、量子化演算層２２０であってもよい。

　ＣＮＮ２００は、量子化された量子化層２２４の出力データが、畳み込み層２１０に入力されるため、量子化を行わない他の畳み込みニューラルネットワークと比較して、畳み込み層２１０の畳み込み演算の負荷が小さい。

［畳み込み演算の分割］
　ＮＮ回路１００は、畳み込み層２１０の畳み込み演算（式１）の入力データを部分テンソルに分割して演算する。部分テンソルへの分割方法や分割数は特に限定されない。部分テンソルは、例えば、入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）をａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）に分割することにより形成される。なお、ＮＮ回路１００は、畳み込み層２１０の畳み込み演算（式１）の入力データを分割せずに演算することもできる。

　畳み込み演算の入力データ分割において、式１における変数ｃは、式７に示すように、サイズＢｃのブロックで分割される。また、式１における変数ｄは、式８に示すように、サイズＢｄのブロックで分割される。式７において、ｃｏはオフセットであり、ｃｉは０から(Ｂｃ－１)までのインデックスである。式８において、ｄｏはオフセットであり、ｄｉは０から(Ｂｄ－１)までのインデックスである。なお、サイズＢｃとサイズＢｄは同じであってもよい。

　式１における入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃ）は、ｃ軸方向においてサイズＢｃにより分割され、分割された入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）で表される。以降の説明において、分割された入力データａを「分割入力データａ」ともいう。

　式１における重みｗ（ｉ，ｊ，ｃ，ｄ）は、ｃ軸方向においてサイズＢｃおよびｄ軸方向においてサイズＢｄにより分割され、分割された重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）で表される。以降の説明において、分割された重みｗを「分割重みｗ」ともいう。

　サイズＢｄにより分割された出力データｆ（ｘ，ｙ，ｄｏ）は、式９により求まる。分割された出力データｆ（ｘ，ｙ，ｄｏ）を組み合わせることで、最終的な出力データｆ（ｘ，ｙ，ｄ）を算出できる。

［畳み込み演算のデータの展開］
　ＮＮ回路１００は、畳み込み層２１０の畳み込み演算における入力データａおよび重みｗを展開して畳み込み演算を行う。

　図３は、畳み込み演算のデータの展開を説明する図である。
　分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ）は、Ｂｃ個の要素を持つベクトルデータに展開される。分割入力データａの要素は、ｃｉでインデックスされる（０≦ｃｉ＜Ｂｃ）。以降の説明において、ｉ，ｊごとにベクトルデータに展開された分割入力データａを「入力ベクトルＡ」ともいう。入力ベクトルＡは、分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ×Ｂｃ）から分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ×Ｂｃ＋（Ｂｃ－１））までを要素とする。

　分割重みｗ（ｉ，ｊ，ｃｏ、ｄｏ）は、Ｂｃ×Ｂｄ個の要素を持つマトリクスデータに展開される。マトリクスデータに展開された分割重みｗの要素は、ｃｉとｄｉでインデックスされる（０≦ｄｉ＜Ｂｄ）。以降の説明において、ｉ，ｊごとにマトリクスデータに展開された分割重みｗを「重みマトリクスＷ」ともいう。重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ、ｄｏ×Ｂｄ）から分割重みｗ（ｉ，ｊ，ｃｏ×Ｂｃ＋（Ｂｃ－１）、ｄｏ×Ｂｄ＋（Ｂｄ－１））までを要素とする。

　入力ベクトルＡと重みマトリクスＷとを乗算することで、ベクトルデータが算出される。ｉ，ｊ，ｃｏごとに算出されたベクトルデータを３次元テンソルに整形することで、出力データｆ（ｘ，ｙ，ｄｏ）を得ることができる。このようなデータの展開を行うことで、畳み込み層２１０の畳み込み演算を、ベクトルデータとマトリクスデータとの乗算により実施できる。

［ＮＮ回路１００］
　図４は、本実施形態に係るＮＮ回路１００の全体構成を示す図である。
　ＮＮ回路１００は、第一ＤＭＡコントローラ３（以下、「第一ＤＭＡＣ３」ともいう）と、コントローラ６と、ＩＦＵ７と、共有メモリ８と、第二ＤＭＡコントローラ９（以下、「第二ＤＭＡＣ９」ともいう）と、少なくとも一つのニューラルネットワーク演算コア１０（以下、「ＮＮ演算コア１０」ともいう）と、を備える。

　ＮＮ回路１００は、複数のＮＮ演算コア１０を実装可能である。図４に例示するＮＮ回路１００は、ＮＮ演算コア１０を最大４つまで実装可能である。複数のＮＮ演算コア１０は、ＮＮ２００の少なくとの一部の演算を連携して実行する「ニューラルネットワーク演算マルチコア１０Ｍ（以下、「ＮＮ演算マルチコア１０Ｍ」ともいう）」を構成する。複数のＮＮ演算コア１０は、本実施形態においてデイジーチェーン接続されている。なお、ＮＮ回路１００に実装可能なＮＮ演算コア１０の数は５個以上であってもよい。

　第一ＤＭＡＣ３は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリ１２０とＮＮ演算コア１０との間のデータ転送を行う。第一ＤＭＡＣ３は、複数のＮＮ演算コア１０のいずれかに対して外部メモリ１２０から読み出したデータの転送を行う。なお、第一ＤＭＡＣ３は、複数のＮＮ演算コア１０に対して外部メモリ１２０から読み出した同一のデータを転送可能であってもよいし、ブロードキャスト可能であってもよい。また、第一ＤＭＡＣ３は、ＤＲＡＭなどの外部メモリと共有メモリ８との間のデータ転送を行う。

　コントローラ６は、外部バスＥＢに接続されており、外部のホストＣＰＵ１１０のスレーブとして動作する。コントローラ６は、バスブリッジ６０と、レジスタ６１と、を有する。

　バスブリッジ６０は、外部バスＥＢから内部バスＩＢへのバスアクセスを中継する。また、バスブリッジ６０は、外部ホストＣＰＵ１１０からレジスタ６１への書き込み要求および読み込み要求を中継する。

　レジスタ６１は、パラメータレジスタや状態レジスタを有する。パラメータレジスタは、ＮＮ回路１００の動作を制御するレジスタである。状態レジスタは各モジュールの命令列のポインタ・命令数などを含み、ＮＮ回路１００の状態を示すレジスタである。また、状態レジスタはセマフォＳを含む構成としてよい。外部ホストＣＰＵ１１０は、コントローラ６のバスブリッジ６０を経由して、レジスタ６１にアクセスできる。

　コントローラ６は、内部バスＩＢを介して、ＮＮ回路１００の各ブロック（第一ＤＭＡＣ３、ＩＦＵ７、第二ＤＭＡＣ９、ＮＮ演算コア１０）と接続されている。外部ホストＣＰＵ１１０は、コントローラ６を経由して、ＮＮ回路１００の各ブロックに対してアクセスできる。例えば、外部ホストＣＰＵ１１０は、コントローラ６を経由して、ＮＮ演算コア１０に対する命令を指示することができる。また、各ブロックは、内部バスＩＢを介して、コントローラ６が有する状態レジスタ（セマフォＳを含んでもよい）を更新できる。状態レジスタは、各ブロックと接続された専用配線を介して更新されるように構成されていてもよい。

　ＩＦＵ（Instruction Fetch Unit）７は、外部ホストＣＰＵ１１０の指示に基づいて、外部バスＥＢを経由してＮＮ回路１００の各ブロック（第一ＤＭＡＣ３、第二ＤＭＡＣ９、ＮＮ演算コア１０）に対する命令コマンドを外部メモリ１２０から読み出す。また、ＩＦＵ７は、読み出した命令コマンドを対応するＮＮ回路１００の各ブロック（第一ＤＭＡＣ３、第二ＤＭＡＣ９、ＮＮ演算コア１０）に転送する。

　共有メモリ８は、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。共有メモリ８は、ＮＮ演算コア１０が使用するデータを一時的に記録したり、複数のＮＮ演算コアが共有するデータを記録したりするメモリである。

　第二ＤＭＡＣ９は、共有メモリ８とＮＮ演算コア１０とを接続しており、共有メモリ８とＮＮ演算コア１０との間のデータ転送を行う。なお、第二ＤＭＡＣ９は、複数のＮＮ演算コア１０に対して共有メモリ８から読み出したデータをブロードキャスト可能であってもよい。

　ＮＮ回路１００は、複数のＮＮ演算コアが共有するデータ等を、第一ＤＭＡＣ３を用いて外部メモリ１２０に退避させなくとも、第二ＤＭＡＣ９を用いて共有メモリ８に一時的に退避させることができ、ＮＮ演算コア間のデータ転送を高速化できる。なお、ＮＮ回路１００は、共有メモリ８および第二ＤＭＡＣ９を有していなくてもよい。

［ＮＮ演算コア１０］
　図５は、ＮＮ演算コア１０の全体構成を示す図である。
　ＮＮ演算コア１０は、第一メモリ１と、第二メモリ２と、畳み込み演算回路４と、量子化演算回路５と、を備える。ＮＮ演算コア１０は、第一メモリ１および第二メモリ２を介して、畳み込み演算回路４と量子化演算回路５とがループ状に形成されていることを特徴とする。

　第一メモリ１は、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一メモリ１には、第一ＤＭＡＣ３や第二ＤＭＡＣ９や内部バスＩＢを介してデータの書き込みおよび読み出しが行われる。外部ホストＣＰＵ１１０は、第一メモリ１に対するデータの書き込みや読み出しにより、ＮＮ演算コア１０に対するデータの入出力を行うことができる。

　第一メモリ１は、畳み込み演算回路４の入力ポートと接続されており、畳み込み演算回路４は第一メモリ１からデータを読み出すことができる。また、第一メモリ１は、量子化演算回路５の出力ポートとループ接続（Ｃ１）されており、量子化演算回路５は第一メモリ１にデータを書き込むことができる。また、第一メモリ１は、他のＮＮ演算コア１０との間のコア間接続（Ｃ２）でデータ転送が可能であり、コア間接続（Ｃ２）された他のＮＮ演算コア１０は第一メモリ１にデータを書き込むことができる。なお、本実施形態において、コア間接続（Ｃ２）の一例として、デイジーチェーン接続を用いている。

　第二メモリ２は、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第二メモリ２には、第一ＤＭＡＣ３や第二ＤＭＡＣ９や内部バスＩＢを介してデータの書き込みおよび読み出しが行われる。外部ホストＣＰＵ１１０は、第二メモリ２に対するデータの書き込みや読み出しにより、ＮＮ演算コア１０に対するデータの入出力を行うことができる。

　第二メモリ２は、量子化演算回路５の入力ポートと接続されており、量子化演算回路５は第二メモリ２からデータを読み出すことができる。また、第二メモリ２は、畳み込み演算回路４の出力ポートと接続されており、畳み込み演算回路４は第二メモリ２にデータを書き込むことができる。

　畳み込み演算回路４は、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４は、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４は、畳み込み演算の出力データｆ（以降、「畳み込み演算出力データ」ともいう）を第二メモリ２に書き込む。

　量子化演算回路５は、学習済みのＣＮＮ２００の量子化演算層２２０における量子化演算の少なくとも一部を行う回路である。量子化演算回路５は、第二メモリ２に格納された畳み込み演算の出力データｆを読み出し、畳み込み演算の出力データｆに対して量子化演算（プーリング、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ、活性化関数、および量子化のうち少なくとも量子化を含む演算）を実施する。

　量子化演算回路５は、量子化演算の出力データ（以降、「量子化演算出力データ」ともいう）をループ接続（Ｃ１）された第一メモリ１に書き込む。また、量子化演算回路５は、他のＮＮ演算コア１０とコア間接続（Ｃ２）経由でデータ転送可能であり、量子化演算回路５はコア間接続（Ｃ２）された他のＮＮ演算コア１０に量子化演算出力データを出力することができる。

　ＮＮ演算コア１０は、第一メモリ１や第二メモリ２等を有するため、ＤＲＡＭなどの外部メモリからの第一ＤＭＡＣ３によるデータ転送において、重複するデータのデータ転送の回数を低減できる。これにより、メモリアクセスにより発生する消費電力または処理負荷を大幅に低減することができる。

［ＮＮ演算コア１０の動作例１］
　図６は、ＮＮ演算コア１０の動作例を示すタイミングチャートである。
　第一ＤＭＡＣ３は、レイヤ１の入力データａを第一メモリ１に格納する。第一ＤＭＡＣ３は、畳み込み演算回路４が行う畳み込み演算の順序にあわせて、レイヤ１の入力データａを分割して第一メモリ１に転送してもよい。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ１の入力データａを読み出す。畳み込み演算回路４は、レイヤ１の入力データａに対して図１に示すレイヤ１の畳み込み演算を行う。レイヤ１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　量子化演算回路５は、第二メモリ２に格納されたレイヤ１の出力データｆを読み出す。量子化演算回路５は、レイヤ１の出力データｆに対してレイヤ２の量子化演算を行う。レイヤ２の量子化演算の出力データは、第一メモリ１に格納される。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２の量子化演算の出力データを入力データａとしてレイヤ３の畳み込み演算を行う。レイヤ３の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍ－２（Ｍは自然数）の量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２Ｍ－２の量子化演算の出力データを入力データａとしてレイヤ２Ｍ－１の畳み込み演算を行う。レイヤ２Ｍ－１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　量子化演算回路５は、第二メモリ２に格納されたレイヤ２Ｍ－１の出力データｆを読み出す。量子化演算回路５は、２Ｍ－１レイヤの出力データｆに対してレイヤ２Ｍの量子化演算を行う。レイヤ２Ｍの量子化演算の出力データは、第一メモリ１に格納される。

　畳み込み演算回路４は、第一メモリ１に格納されたレイヤ２Ｍの量子化演算の出力データを読み出す。畳み込み演算回路４は、レイヤ２Ｍの量子化演算の出力データを入力データａとしてレイヤ２Ｍ＋１の畳み込み演算を行う。レイヤ２Ｍ＋１の畳み込み演算の出力データｆは、第二メモリ２に格納される。

　畳み込み演算回路４と量子化演算回路５とが交互に演算を行い、図１に示すＣＮＮ２００の演算を進めていく。ＮＮ演算コア１０は、畳み込み演算回路４が時分割によりレイヤ２Ｍ－１とレイヤ２Ｍ＋１の畳み込み演算を実施する。また、ＮＮ演算コア１０は、量子化演算回路５が時分割によりレイヤ２Ｍ－２とレイヤ２Ｍの量子化演算を実施する。そのため、ＮＮ演算コア１０は、レイヤごとに別々の畳み込み演算回路４と量子化演算回路５を実装する場合と比較して、回路規模が著しく小さい。

　ＮＮ演算コア１０は、複数のレイヤの多層構造であるＣＮＮ２００の演算を、ループ状に形成された回路により演算する。ＮＮ演算コア１０は、ループ状の回路構成により、ハードウェア資源を効率的に利用できる。なお、ＮＮ演算コア１０は、ループ状に回路を形成するために、各レイヤで変化する畳み込み演算回路４や量子化演算回路５におけるパラメータは適宜更新される。

　ＣＮＮ２００の演算にＮＮ演算コア１０により実施できない演算が含まれる場合、ＮＮ演算コア１０は外部ホストＣＰＵ１１０などの外部演算デバイスに中間データを転送する。外部演算デバイスが中間データに対して演算を行った後、外部演算デバイスによる演算結果は第一メモリ１や第二メモリ２に入力される。ＮＮ演算コア１０は、外部演算デバイスによる演算結果に対する演算を再開する。

［ＮＮ演算コア１０の動作例２］
　図７は、ＮＮ演算コア１０の他の動作例を示すタイミングチャートである。
　ＮＮ演算コア１０は、入力データａを部分テンソルに分割して、時分割により部分テンソルに対する演算を行ってもよい。部分テンソルへの分割方法や分割数は特に限定されない。

　図７は、入力データａを二つの部分テンソルに分解した場合の動作例を示している。分解された部分テンソルを、「第一部分テンソルａ₁」、「第二部分テンソルａ₂」とする。例えば、レイヤ２Ｍ－１の畳み込み演算は、第一部分テンソルａ₁に対応する畳み込み演算（図７において、「レイヤ２Ｍ－１（ａ₁）」と表記）と、第二部分テンソルａ₂に対応する畳み込み演算（図７において、「レイヤ２Ｍ－１（ａ₂）」と表記）と、に分解される。

　第一部分テンソルａ₁に対応する畳み込み演算および量子化演算と、第二部分テンソルａ₂に対応する畳み込み演算および量子化演算とは、図７に示すように、独立して実施することができる。

　畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算（図７において、レイヤ２Ｍ－１（ａ₁）で示す演算）を行う。その後、畳み込み演算回路４は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算（図７において、レイヤ２Ｍ－１（ａ_２）で示す演算）を行う。また、量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算（図７において、レイヤ２Ｍ（ａ₁）で示す演算）を行う。このように、ＮＮ演算コア１０は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算と、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算と、を並列に実施できる。

　次に、畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算（図７において、レイヤ２Ｍ＋１（ａ₁）で示す演算）を行う。また、量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算（図７において、レイヤ２Ｍ（ａ_２）で示す演算）を行う。このように、ＮＮ演算コア１０は、第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算と、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算と、を並列に実施できる。

　第一部分テンソルａ₁に対応する畳み込み演算および量子化演算と、第二部分テンソルａ₂に対応する畳み込み演算および量子化演算とは、独立して実施することができる。そのため、ＮＮ演算コア１０は、例えば、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算と、第二部分テンソルａ_２に対応するレイヤ２Ｍ＋２の量子化演算と、を並列に実施してもよい。すなわち、ＮＮ演算コア１０が並列で演算する畳み込み演算と量子化演算は、連続するレイヤの演算に限定されない。

　入力データａを部分テンソルに分割することで、ＮＮ演算コア１０は畳み込み演算回路４と量子化演算回路５とを並列して動作させることができる。その結果、畳み込み演算回路４と量子化演算回路５が待機する時間が削減され、ＮＮ演算コア１０の演算処理効率が向上する。図７に示す動作例において分割数は２であったが、分割数が２より大きい場合も同様に、ＮＮ演算コア１０は畳み込み演算回路４と量子化演算回路５とを並列して動作させることができる。

　例えば、入力データａが「第一部分テンソルａ₁」、「第二部分テンソルａ₂」および「第三部分テンソルａ_３」に分割される場合、ＮＮ演算コア１０は、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算と、第三部分テンソルａ_３に対応するレイヤ２Ｍの量子化演算と、を並列に実施してもよい。演算の順序は、第一メモリ１および第二メモリ２における入力データａの格納状況によって適宜変更される。

　なお、部分テンソルに対する演算方法としては、同一レイヤにおける部分テンソルの演算を畳み込み演算回路４または量子化演算回路５で行った後に次のレイヤにおける部分テンソルの演算を行う例（方法１）を示した。例えば、図７に示すように、畳み込み演算回路４において、第一部分テンソルａ₁および第二部分テンソルａ_２に対応するレイヤ２Ｍ－１の畳み込み演算（図７において、レイヤ２Ｍ－１（ａ₁）およびレイヤ２Ｍ－１（ａ_２）で示す演算）を行った後に、第一部分テンソルａ₁および第二部分テンソルａ_２に対応するレイヤ２Ｍ＋１の畳み込み演算（図７において、レイヤ２Ｍ＋１（ａ₁）およびレイヤ２Ｍ＋１（ａ_２）で示す演算）を実施している。

　しかしながら、部分テンソルに対する演算方法はこれに限られない。部分テンソルに対する演算方法は、複数レイヤにおける一部の部分テンソルの演算をした後に残部の部分テンソルの演算を実施する方法でもよい（方法２）。例えば、畳み込み演算回路４において、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１および第一部分テンソルａ₁に対応するレイヤ２Ｍ＋１の畳み込み演算を行った後に、第二部分テンソルａ_２に対応するレイヤ２Ｍ－１および第二部分テンソルａ_２に対応するレイヤ２Ｍ＋１の畳み込み演算を実施してもよい。

　また、部分テンソルに対する演算方法は、方法１と方法２とを組み合わせて部分テンソルを演算する方法でもよい。ただし、方法２を用いる場合は、部分テンソルの演算順序に関する依存関係に従って演算を実施する必要がある。

［ＮＮ演算マルチコア１０Ｍ］
　図８は、ＮＮ演算マルチコア１０Ｍを示す図である。
　図８に例示するＮＮ演算マルチコア１０Ｍは、デイジーチェーン接続された二つのＮＮ演算コア１０を備える。二つのＮＮ演算コア１０を区別する場合、二つのＮＮ演算コア１０を、「第一ＮＮ演算コア１０Ａ」と、「第二ＮＮ演算コア１０Ｂ」という。なお、図８において、第一メモリ１は「Ａ」、畳み込み演算回路４は「Ｃ」、第二メモリ２は「Ｆ」、量子化演算回路５は「Ｑ」として略記されている。

　具体的には、第一ＮＮ演算コア１０Ａの量子化演算回路５と、第二ＮＮ演算コア１０Ｂの第一メモリ１とがデイジーチェーン接続（Ｃ２）されている。第一ＮＮ演算コア１０Ａの量子化演算回路５は、ループ接続（Ｃ１）された第一ＮＮ演算コア１０Ａの第一メモリ１または／およびデイジーチェーン接続（Ｃ２）された第二ＮＮ演算コア１０Ｂの第一メモリ１に量子化演算出力データを書き込むことができる。

　具体的には、第二ＮＮ演算コア１０Ｂの量子化演算回路５と、第一ＮＮ演算コア１０Ａの第一メモリ１とがデイジーチェーン接続（Ｃ２）されている。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、ループ接続（Ｃ１）された第二ＮＮ演算コア１０Ｂの第一メモリ１または／およびデイジーチェーン接続（Ｃ２）された第一ＮＮ演算コア１０Ａの第一メモリ１に量子化演算出力データを書き込むことができる。

　ＮＮ演算マルチコア１０Ｍが三つ以上のＮＮ演算コア１０を備える場合も同様に、複数のＮＮ演算コア１０はデイジーチェーン接続される。最終段のＮＮ演算コア１０以外のＮＮ演算コア１０の量子化演算回路５は、後段のＮＮ演算コア１０Ｂの第一メモリ１とデイジーチェーン接続（Ｃ２）される。最終段のＮＮ演算コア１０の量子化演算回路５は、最初段のＮＮ演算コア１０の第一メモリ１とデイジーチェーン接続（Ｃ２）されている。複数のＮＮ演算コア１０はデイジーチェーンループ（数珠繋ぎ）状に形成されていることを特徴とする。

　一つのＮＮ演算コア１０において、第一メモリ（Ａ）１と畳み込み演算回路（Ｃ）４と第二メモリ（Ｆ）２と量子化演算回路（Ｑ）５とは、ループ状に接続されている。一方、ＮＮ演算マルチコア１０Ｍにおいては、第一メモリ（Ａ）１と畳み込み演算回路（Ｃ）４と第二メモリ（Ｆ）２と量子化演算回路（Ｑ）５とは、第一メモリ（Ａ）１と畳み込み演算回路（Ｃ）４と第二メモリ（Ｆ）２と量子化演算回路（Ｑ）５とが同じ順番で繰り返し配列するように、デイジーチェーンループ（数珠繋ぎ）状に接続されている。

　ＮＮ演算マルチコア１０Ｍを構成する複数のＮＮ演算コア１０は、同一のハードウェア構成でなくてもよい。例えば、第一ＮＮ演算コア１０Ａの第一メモリ１の容量・構成は、第二ＮＮ演算コア１０Ｂの第一メモリ１の容量・構成と異なっていてもよい。例えば、第一ＮＮ演算コア１０Ａの量子化演算回路５の構成は、第二ＮＮ演算コア１０Ｂの量子化演算回路５の構成と異なっていてもよい。

［ＮＮ演算マルチコア１０Ｍの動作例１］
　図９は、ＮＮ演算マルチコア１０Ｍの動作例１を示すタイミングチャートである。
　第一部分テンソルａ₁に対応する畳み込み演算および量子化演算と、第二部分テンソルａ₂に対応する畳み込み演算および量子化演算とは、図９に示すように、異なるＮＮ演算コア１０により独立して実施される。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算（図９において、レイヤ２Ｍ－１（ａ₁）で示す演算）を行う。その後、第一ＮＮ演算コア１０Ａの量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算（図９において、レイヤ２Ｍ（ａ₁）で示す演算）を行う。第一ＮＮ演算コア１０Ａの量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算出力データを第一ＮＮ演算コア１０Ａの第一メモリ１に格納する。

　第二ＮＮ演算コア１０Ｂの畳み込み演算回路４は、第二部分テンソルａ₂に対応するレイヤ２Ｍ－１の畳み込み演算（図９において、レイヤ２Ｍ－１（ａ₂）で示す演算）を行う。その後、第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算（図９において、レイヤ２Ｍ（ａ_２）で示す演算）を行う。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に格納する。

　第二ＤＭＡＣ９は、第一ＮＮ演算コア１０Ａの第一メモリ１に格納された第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算出力データを、共有メモリ８にＤＭＡ転送（図９において、ＤＭＡ１で示す転送）する。つぎに、第二ＤＭＡＣ９は、第二ＮＮ演算コア１０Ｂの第一メモリ１に格納された第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算出力データを、共有メモリ８にＤＭＡ転送（図９において、ＤＭＡ２で示す転送）する。

　第一ＤＭＡＣ３は、共有メモリ８に格納された第一部分テンソルａ₁および第二部分テンソルａ₂に対応するレイヤ２Ｍの量子化演算出力データを、外部メモリ１２０に対してＤＭＡ転送（図９において、ＤＭＡ３で示す転送）する。

　ＮＮ演算マルチコア１０Ｍは、例えば同じレイヤの演算を異なるＮＮ演算コア１０により独立して実施して演算に必要な時間を短縮できる。また、共有メモリ８および第二ＤＭＡＣ９により、各ＮＮ演算コア１０の演算結果を取りまとめることができる。

［ＮＮ演算マルチコア１０Ｍの動作例２］
　図１０は、ＮＮ演算マルチコア１０Ｍの動作例２を示すタイミングチャートである。
　第一部分テンソルａ₁に対応する畳み込み演算および量子化演算は、異なるＮＮ演算コア１０により協調して実施される。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算（図１０において、レイヤ２Ｍ－１（ａ₁）で示す演算）を実施する。その後、第一ＮＮ演算コア１０Ａの量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算（図１０において、レイヤ２Ｍ（ａ₁）で示す演算）を実施する。第一ＮＮ演算コア１０Ａの量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に格納する。

　第二ＮＮ演算コア１０Ｂの畳み込み演算回路４は、第一部分テンソルａ_１に対応するレイヤ２Ｍ＋１の畳み込み演算（図１０において、レイヤ２Ｍ＋１（ａ_１）で示す演算）を実施する。その後、第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第一部分テンソルａ_１に対応するレイヤ２Ｍ＋２の量子化演算（図１０において、レイヤ２Ｍ＋２（ａ_１）で示す演算）を行う。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍ＋２の量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に格納する。

　第一ＤＭＡＣ３は、第二ＮＮ演算コア１０Ｂの第一メモリ１に格納された第一部分テンソルａ₁に対応するレイヤ２Ｍ＋２の量子化演算出力データを、外部メモリ１２０に対してＤＭＡ転送（図１０において、ＤＭＡで示す転送）する。

　ＮＮ演算マルチコア１０Ｍは、例えば同じ部分テンソルに対応する演算を異なるＮＮ演算コア１０により連続して実施して演算に必要な時間を短縮できる。

［ＮＮ演算マルチコア１０Ｍの動作例３］
　図１１は、ＮＮ演算マルチコア１０Ｍの動作例３を示すタイミングチャートである。
　動作例３においては、レイヤ２Ｍ－１の畳み込み演算と、レイヤ２Ｍ＋１の畳み込み演算において部分テンソルの構成が変更される。

　第二ＤＭＡＣ９は、第一ＮＮ演算コア１０Ａの第一メモリ１に第一部分テンソルａ₁をＤＭＡ転送（図１１において、ＤＭＡ１で示す転送）する。つぎに、第二ＤＭＡＣ９は、第二ＮＮ演算コア１０Ｂの第一メモリ１に第二部分テンソルａ_２をＤＭＡ転送（図１１において、ＤＭＡ２で示す転送）する。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、第一部分テンソルａ₁に対応するレイヤ２Ｍ－１の畳み込み演算（図１１において、レイヤ２Ｍ－１（ａ₁）で示す演算）を行う。その後、第一ＮＮ演算コア１０Ａの量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算（図１１において、レイヤ２Ｍ（ａ₁）で示す演算）を行う。第一ＮＮ演算コア１０Ａの量子化演算回路５は、第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算出力データを第一ＮＮ演算コア１０Ａの第一メモリ１に格納する。

　第二ＤＭＡＣ９は、第一ＮＮ演算コア１０Ａの第一メモリ１に格納された第一部分テンソルａ₁に対応するレイヤ２Ｍの量子化演算出力データを、共有メモリ８にＤＭＡ転送（図１１において、ＤＭＡ３で示す転送）する。

　第二ＮＮ演算コア１０Ｂの畳み込み演算回路４は、第二部分テンソルａ₂に対応するレイヤ２Ｍ－１の畳み込み演算（図１１において、レイヤ２Ｍ－１（ａ₂）で示す演算）を行う。第二ＮＮ演算コア１０Ｂの畳み込み演算回路４による畳み込み演算の開始は、第一ＮＮ演算コア１０Ａの畳み込み演算回路４による畳み込み演算の開始より遅い。その後、第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算（図１１において、レイヤ２Ｍ（ａ_２）で示す演算）を行う。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第二部分テンソルａ_２に対応するレイヤ２Ｍの量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に格納する。

　第二ＤＭＡＣ９は、第二ＮＮ演算コア１０Ｂの第一メモリ１に格納された第二部分テンソルａ₂に対応するレイヤ２Ｍの量子化演算出力データを、共有メモリ８にＤＭＡ転送（図１１において、ＤＭＡ４で示す転送）する。

　例えば、レイヤ２Ｍ－１の畳み込み演算において入力データａがｃ軸方向のチャンネル数が３２チャンネルであり、レイヤ２Ｍ＋１の畳み込み演算において入力データａがｃ軸方向のチャンネル数が６４チャンネルであるような場合、レイヤ２Ｍ＋１の畳み込み演算において畳み込み演算回路４等を効率的に使用するために、部分テンソルの分割態様を変更することが望ましい。たとえば、各ＮＮ演算コア１０がｃ軸方向のチャンネル数が３２チャンネルの入力データａを並列演算できるように最適化されており、入力データａのｃ軸方向のチャンネル数が６４チャンネルであるレイヤ２Ｍ＋１の畳み込み演算を実施する場合を想定する。この場合、ＮＮ演算コア１０Ａの畳み込み演算回路４が０から３１チャンネルまでの入力データａの演算を実施し、ＮＮ演算コア１０Ｂの畳み込み演算回路４が３２から６３チャンネルまでの入力データａの演算を実施するように、入力データａから部分テンソルへの分割態様を変更してもよい。再分割された部分テンソルのうちの二つを「第三部分テンソルａ_３」と「第四部分テンソルａ_４」という。

　第二ＤＭＡＣ９は、第一ＮＮ演算コア１０Ａの第一メモリ１に第三部分テンソルａ_３をＤＭＡ転送（図１１において、ＤＭＡ５で示す転送）する。つぎに、第二ＤＭＡＣ９は、第二ＮＮ演算コア１０Ｂの第一メモリ１に第四部分テンソルａ_４をＤＭＡ転送（図１１において、ＤＭＡ６で示す転送）する。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、第三部分テンソルａ_３に対応するレイヤ２Ｍ＋１の畳み込み演算（図１１において、レイヤ２Ｍ＋１（ａ_３）で示す演算）を行う。その後、第一ＮＮ演算コア１０Ａの量子化演算回路５は、第三部分テンソルａ_３に対応するレイヤ２Ｍ＋２の量子化演算（図１１において、レイヤ２Ｍ＋２（ａ_３）で示す演算）を行う。第一ＮＮ演算コア１０Ａの量子化演算回路５は、第三部分テンソルａ_３に対応するレイヤ２Ｍ＋２の量子化演算出力データを第一ＮＮ演算コア１０Ａの第一メモリ１に格納する。

　第二ＮＮ演算コア１０Ｂの畳み込み演算回路４は、第四部分テンソルａ_４に対応するレイヤ２Ｍ＋１の畳み込み演算（図１１において、レイヤ２Ｍ＋１（ａ_４）で示す演算）を行う。その後、第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第四部分テンソルａ_４に対応するレイヤ２Ｍ＋２の量子化演算（図１１において、レイヤ２Ｍ＋２（ａ_４）で示す演算）を行う。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、第四部分テンソルａ_４に対応するレイヤ２Ｍ＋２の量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に格納する。

　入力データａの特徴が変わった場合（例えば畳み込み演算においてチャンネル数が増える等）であっても、ＮＮ回路１００は、第二ＤＭＡＣ９と共有メモリ８と用いて、ＮＮ演算コア１０に割り当てる部分テンソルの分割態様を変更することができる。ＮＮ回路１００は、部分テンソルの分割態様を変更する場合あっても、第一ＤＭＡＣ３を用いて外部メモリ１２０に入力データａをＤＭＡ転送により退避させる回数を削減できる。

　次に、ＮＮ回路１００の各構成に関して詳しく説明する。

［第一ＤＭＡＣ３］
　図１２は、第一ＤＭＡＣ３の内部ブロック図である。
　第一ＤＭＡＣ３は、データ転送回路３１と、ステートコントローラ３２と、を有する。第一ＤＭＡＣ３は、データ転送回路３１に対する専用のステートコントローラ３２を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずにＤＭＡデータ転送を実施できる。

　データ転送回路３１は、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリ１２０とＮＮ演算コア１０との間のＤＭＡデータ転送を行う。また、データ転送回路３１は、ＤＲＡＭなどの外部メモリ１２０と共有メモリ８との間のＤＭＡデータ転送を行う。データ転送回路３１のＤＭＡチャンネル数は限定されない。例えば、第一ＮＮ演算コア１０Ａと第二ＮＮ演算コア１０Ｂのそれぞれに専用のＤＭＡチャンネルを有していてもよい。

　ステートコントローラ３２は、データ転送回路３１のステートを制御する。また、ステートコントローラ３２は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ３２は、命令キュー３３と制御回路３４とを有する。

　命令キュー３３は、第一ＤＭＡＣ３用の命令コマンドＣ３が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー３３には、ＩＦＵ７経由または内部バスＩＢ経由で１つ以上の命令コマンドＣ３が書き込まれる。

　制御回路３４は、命令コマンドＣ３をデコードし、命令コマンドＣ３に基づいて順次データ転送回路３１を制御するステートマシンである。制御回路３４は、論理回路により実装されていてもよいし、ソフトウェアによって制御されるＣＰＵによって実装されていてもよい。

　図１３は、制御回路３４のステート遷移図である。
　制御回路３４は、命令キュー３３に命令コマンドＣ３が入力されると（Ｎｏｔ　ｅｍｐｔｙ）、アイドルステートＳＴ１からデコードステートＳＴ２に遷移する。

　制御回路３４は、デコードステートＳＴ２において、命令キュー３３から出力される命令コマンドＣ３をデコードする。また、制御回路３４は、コントローラ６のレジスタ６１に格納されたセマフォＳを読み出し、命令コマンドＣ３において指示されたデータ転送回路３１の動作を実行可能であるかを判定する。実行不能である場合（Ｎｏｔ　ｒｅａｄｙ）、制御回路３４は実行可能となるまで待つ（Ｗａｉｔ）。実行可能である場合（ｒｅａｄｙ）、制御回路３４はデコードステートＳＴ２から実行ステートＳＴ３に遷移する。

　制御回路３４は、実行ステートＳＴ３において、データ転送回路３１を制御して、データ転送回路３１に命令コマンドＣ３において指示された動作を実施させる。制御回路３４は、データ転送回路３１の動作が終わると、命令キュー３３から実行を終えた命令コマンドＣ３を取り除くとともに、コントローラ６のレジスタ６１に格納されたセマフォＳを更新する。制御回路３４は、命令キュー３３に命令がある場合（Ｎｏｔ　ｅｍｐｔｙ）、実行ステートＳＴ３からデコードステートＳＴ２に遷移する。制御回路３４は、命令キュー３３に命令がない場合（ｅｍｐｔｙ）、実行ステートＳＴ３からアイドルステートＳＴ１に遷移する。

［畳み込み演算回路４］
　図１４は、畳み込み演算回路４の内部ブロック図である。
　畳み込み演算回路４は、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、を有する。畳み込み演算回路４は、乗算器４２およびアキュムレータ回路４３に対する専用のステートコントローラ４４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに畳み込み演算を実施できる。

　重みメモリ４１は、畳み込み演算に用いる重みｗが格納されるメモリであり、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一ＤＭＡＣ３は、ＤＭＡ転送により、畳み込み演算に必要な重みｗを重みメモリ４１に書き込む。

　図１５は、乗算器４２の内部ブロック図である。
　乗算器４２は、入力ベクトルＡと重みマトリクスＷとを乗算する。入力ベクトルＡは、上述したように、分割入力データａ（ｘ＋ｉ、ｙ＋ｊ、ｃｏ）がｉ、ｊごとに展開されたＢｃ個の要素を持つベクトルデータである。また、重みマトリクスＷは、分割重みｗ（ｉ，ｊ，ｃｏ、ｄｏ）がｉ、ｊごとに展開されたＢｃ×Ｂｄ個の要素を持つマトリクスデータである。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニット４７を有し、入力ベクトルＡと重みマトリクスＷとを乗算を並列して実施できる。

　乗算器４２は、乗算に必要な入力ベクトルＡと重みマトリクスＷを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を出力する。

　図１６は、積和演算ユニット４７の内部ブロック図である。
　積和演算ユニット４７は、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）との乗算を実施する。また、積和演算ユニット４７は、乗算結果と他の積和演算ユニット４７の乗算結果Ｓ（ｃｉ，ｄｉ）と加算する。積和演算ユニット４７は、加算結果Ｓ（ｃｉ＋１，ｄｉ）を出力する。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

　積和演算ユニット４７は、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、Ｓ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、Ｗ（ｃｉ，ｄｉ）が「１」のとき、Ｓ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

　図１７は、アキュムレータ回路４３の内部ブロック図である。
　アキュムレータ回路４３は、乗算器４２の積和演算結果Ｏ（ｄｉ）を第二メモリ２にアキュムレートする。アキュムレータ回路４３は、Ｂｄ個のアキュムレータユニット４８を有し、Ｂｄ個の積和演算結果Ｏ（ｄｉ）を並列して第二メモリ２にアキュムレートできる。

　図１８は、アキュムレータユニット４８の内部ブロック図である。
　アキュムレータユニット４８は、加算器４８ａと、マスク部４８ｂとを有している。加算器４８ａは、積和演算結果Ｏの要素Ｏ（ｄｉ）と、第二メモリ２に格納された式１に示す畳み込み演算の途中経過である部分和と、を加算する。加算結果は、要素あたり１６ビットである。加算結果は、要素あたり１６ビットに限定されず、例えば要素あたり１５ビットや１７ビットであってもよい。

　加算器４８ａは、加算結果を第二メモリ２の同一アドレスに書き込む。マスク部４８ｂは、初期化信号ｃｌｅａｒがアサートされた場合に、第二メモリ２からの出力をマスクし、要素Ｏ（ｄｉ）に対する加算対象をゼロにする。初期化信号ｃｌｅａｒは、第二メモリ２に途中経過の部分和が格納されていない場合にアサートされる。

　乗算器４２およびアキュムレータ回路４３による畳み込み演算が完了すると、第二メモリ２に、出力データｆ（ｘ，ｙ，ｄｏ）が格納される。

　ステートコントローラ４４は、乗算器４２およびアキュムレータ回路４３のステートを制御する。また、ステートコントローラ４４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ４４は、命令キュー４５と制御回路４６とを有する。

　命令キュー４５は、畳み込み演算回路４用の命令コマンドＣ４が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー４５には、ＩＦＵ７経由または内部バスＩＢ経由で命令コマンドＣ４が書き込まれる。

　制御回路４６は、命令コマンドＣ４をデコードし、命令コマンドＣ４に基づいて乗算器４２およびアキュムレータ回路４３を制御するステートマシンである。制御回路４６は、第一ＤＭＡＣ３のステートコントローラ３２の制御回路３４と同様の構成である。

［量子化演算回路５］
　図１９は、量子化演算回路５の内部ブロック図である。
　量子化演算回路５は、量子化パラメータメモリ５１と、ベクトル演算回路５２と、量子化回路５３と、ステートコントローラ５４と、を有する。量子化演算回路５は、ベクトル演算回路５２および量子化回路５３に対する専用のステートコントローラ５４を有しており、命令コマンドが入力されると、外部のコントローラを必要とせずに量子化演算を実施できる。

　量子化パラメータメモリ５１は、量子化演算に用いる量子化パラメータｑが格納されるメモリであり、例えばＳＲＡＭ（Ｓｔａｔｉｃ　ＲＡＭ）などで構成された揮発性のメモリ等の書き換え可能なメモリである。第一ＤＭＡＣ３は、ＤＭＡ転送により、量子化演算に必要な量子化パラメータｑを量子化パラメータメモリ５１に書き込む。

　図２０は、ベクトル演算回路５２と量子化回路５３の内部ブロック図である。
　ベクトル演算回路５２は、第二メモリ２に格納された出力データｆ（ｘ，ｙ，ｄｏ）に対して演算を行う。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７を有し、出力データｆ（ｘ，ｙ，ｄｏ）に対して並列にＳＩＭＤ演算を行う。

　図２１は、演算ユニット５７のブロック図である。
　演算ユニット５７は、例えば、ＡＬＵ５７ａと、第一セレクタ５７ｂと、第二セレクタ５７ｃと、レジスタ５７ｄと、シフタ５７ｅと、を有する。演算ユニット５７は、公知の汎用ＳＩＭＤ演算回路が有する他の演算器等をさらに有してもよい。

　ベクトル演算回路５２は、演算ユニット５７が有する演算器等を組み合わせることで、出力データｆ（ｘ，ｙ，ｄｏ）に対して、量子化演算層２２０におけるプーリング層２２１や、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ層２２２や、活性化関数層２２３の演算のうち少なくとも一つの演算を行う。

　演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより加算できる。演算ユニット５７は、ＡＬＵ５７ａによる加算結果をレジスタ５７ｄに格納できる。演算ユニット５７は、第一セレクタ５７ｂの選択によりレジスタ５７ｄに格納されたデータに代えて「０」をＡＬＵ５７ａに入力することで加算結果を初期化できる。例えばプーリング領域が２×２である場合、シフタ５７ｅはＡＬＵ５７ａの出力を２ｂｉｔ右シフトすることで加算結果の平均値を出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式２に示す平均プーリングの演算を実施できる。

　演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより比較できる。
演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて第二セレクタ５７ｃを制御して、レジスタ５７ｄに格納されたデータと要素ｆ（ｄｉ）の大きい方を選択できる。演算ユニット５７は、第一セレクタ５７ｂの選択により要素ｆ（ｄｉ）の取りうる値の最小値をＡＬＵ５７ａに入力することで比較対象を最小値に初期化できる。本実施形態において要素ｆ（ｄｉ）は１６ｂｉｔ符号付き整数であるので、要素ｆ（ｄｉ）の取りうる値の最小値は「０ｘ８０００」である。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式３のＭＡＸプーリングの演算を実施できる。なお、ＭＡＸプーリングの演算ではシフタ５７ｅは第二セレクタ５７ｃの出力をシフトしない。

　演算ユニット５７は、レジスタ５７ｄに格納されたデータと第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）とをＡＬＵ５７ａにより減算できる。シフタ５７ｅはＡＬＵ５７ａの出力を左シフト（すなわち乗算）もしくは右シフト（すなわち除算）できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式４のＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算を実施できる。

　演算ユニット５７は、第二メモリ２から読み出した出力データｆ（ｘ，ｙ，ｄｏ）の要素ｆ（ｄｉ）と第一セレクタ５７ｂにより選択された「０」とをＡＬＵ５７ａにより比較できる。演算ユニット５７は、ＡＬＵ５７ａによる比較結果に応じて要素ｆ（ｄｉ）と予めレジスタ５７ｄに格納された定数値「０」のいずれかを選択して出力できる。ベクトル演算回路５２は、Ｂｄ個の演算ユニット５７による上記の演算等を繰り返すことで、式５のＲｅＬＵ演算を実施できる。

　ベクトル演算回路５２は、平均プーリング、ＭＡＸプーリング、Ｂａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎ、活性化関数の演算およびこれらの演算の組み合わせを実施できる。ベクトル演算回路５２は、汎用ＳＩＭＤ演算を実施できるため、量子化演算層２２０における演算に必要な他の演算を実施してもよい。また、ベクトル演算回路５２は、量子化演算層２２０における演算以外の演算を実施してもよい。

　なお、量子化演算回路５は、ベクトル演算回路５２を有してなくてもよい。量子化演算回路５がベクトル演算回路５２を有していない場合、出力データｆ（ｘ，ｙ，ｄｏ）は量子化回路５３に入力される。

　量子化回路５３は、ベクトル演算回路５２の出力データに対して、量子化を行う。量子化回路５３は、図２０に示すように、Ｂｄ個の量子化ユニット５８を有し、ベクトル演算回路５２の出力データに対して並列に演算を行う。

　図２２は、量子化ユニット５８の内部ブロック図である。
　量子化ユニット５８は、ベクトル演算回路５２の出力データの要素ｉｎ（ｄｉ）に対して量子化を行う。量子化ユニット５８は、比較器５８ａと、エンコーダ５８ｂと、を有する。量子化ユニット５８はベクトル演算回路５２の出力データ（１６ビット／要素）に対して、量子化演算層２２０における量子化層２２４の演算（式６）を行う。量子化ユニット５８は、量子化パラメータメモリ５１から必要な量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）を読み出し、比較器５８ａにより入力ｉｎ（ｄｉ）と量子化パラメータｑとの比較を行う。量子化ユニット５８は、比較器５８ａによる比較結果をエンコーダ５８ｂにより２ビット／要素に量子化する。式４におけるα(c)とβ(c)は、変数ｃごとに異なるパラメータであるため、α(c)とβ(c)を反映する量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）はｉｎ（ｄｉ）ごとに異なるパラメータである。

　量子化ユニット５８は、入力ｉｎ（ｄｉ）を３つの閾値ｔｈ０，ｔｈ１，ｔｈ２と比較することにより、入力ｉｎ（ｄｉ）を４領域（例えば、ｉｎ≦ｔｈ０，ｔｈ０＜ｉｎ≦ｔｈ１，ｔｈ１＜ｉｎ≦ｔｈ２，ｔｈ２＜ｉｎ）に分類し、分類結果を２ビットにエンコードして出力する。量子化ユニット５８は、量子化パラメータｑ（ｔｈ０，ｔｈ１，ｔｈ２）の設定により、量子化と併せてＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎや活性化関数の演算を行うこともできる。

　量子化ユニット５８は、閾値ｔｈ０を式４のβ(ｃ)、閾値の差（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を式４のα(ｃ)として設定して量子化を行うことで、式４に示すＢａｔｃｈ　Ｎｏｒｍａｌｉｚａｔｉｏｎの演算を量子化と併せて実施できる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を大きくすることでα(ｃ)を小さくできる。（ｔｈ１―ｔｈ０）および（ｔｈ２―ｔｈ１）を小さくすることで、α(c)を大きくできる。

　量子化ユニット５８は、入力ｉｎ（ｄｉ）の量子化と併せて活性化関数を実施できる。例えば、量子化ユニット５８は、ｉｎ（ｄｉ）≦ｔｈ０およびｔｈ２＜ｉｎ（ｄｉ）となる領域では出力値を飽和させる。量子化ユニット５８は、出力が非線形とするように量子化パラメータｑを設定することで活性化関数の演算を量子化と併せて実施できる。

　ステートコントローラ５４は、ベクトル演算回路５２および量子化回路５３のステートを制御する。また、ステートコントローラ５４は、内部バスＩＢを介してコントローラ６と接続されている。ステートコントローラ５４は、命令キュー５５と制御回路５６とを有する。

　命令キュー５５は、量子化演算回路５用の命令コマンドＣ５が格納されるキューであり、例えばＦＩＦＯメモリで構成される。命令キュー５５には、ＩＦＵ７経由または内部バスＩＢ経由で命令コマンドＣ５が書き込まれる。

　制御回路５６は、命令コマンドＣ５をデコードし、命令コマンドＣ５に基づいてベクトル演算回路５２および量子化回路５３を制御するステートマシンである。制御回路５６は、第一ＤＭＡＣ３のステートコントローラ３２の制御回路３４と同様の構成である。

　量子化演算回路５は、Ｂｄ個の要素を持つ量子化演算出力データを第一メモリ１に書き込む。なお、ＢｄとＢｃの好適な関係を式１０に示す。式１０においてｎは整数である。

［コントローラ６］
　コントローラ６は、外部ホストＣＰＵ１１０から転送される命令コマンドを、内部バスＩＢを介して、第一ＤＭＡＣ３、第二ＤＭＡＣ９、畳み込み演算回路４および量子化演算回路５が有する命令キューに転送する。コントローラ６は、各回路に対する命令コマンドを格納する命令メモリを有してもよい。

　コントローラ６は、外部バスＥＢに接続されており、外部ホストＣＰＵ１１０のスレーブとして動作する。コントローラ６は、パラメータレジスタや状態レジスタを含むレジスタ６１を有している。パラメータレジスタは、ＮＮ回路１００の動作を制御するレジスタである。状態レジスタは、セマフォＳを含むＮＮ回路１００の状態を示すレジスタである。

［セマフォＳ］
　セマフォＳは、Ｐ操作によりデクリメントされ、Ｖ操作によってインクリメントされる。第一ＤＭＡＣ３、畳み込み演算回路４および量子化演算回路５によるＰ操作およびＶ操作は、内部バスＩＢを経由して、コントローラ６が有するセマフォＳを更新する。

　図２３は、セマフォＳによるＮＮ回路１００の制御を説明する図である。
　セマフォＳは、ＮＮ回路１００におけるメモリ（第一メモリ１、第二メモリ２）を介したデータフローＦごとに設けられる。図２３および以降の説明において、説明を簡略化するため、第二ＤＭＡＣ９に関連するデータフローに関するセマフォは省略されている。なお、本実施形態におけるＮＮ回路１００は、複数のＮＮ演算コア１０を含むため、複数のデータフローが存在する。いずれのデータフローを用いてＣＮＮ２００に関する演算を実行するかは、対応する命令コマンドによって制御される。

［第一ＮＮ演算コア１０Ａに関するセマフォＳ］
　セマフォＳは、第一ＮＮ演算コア１０Ａに関して、第一セマフォＳ１１と、第二セマフォＳ１２と、第三セマフォＳ１３と、第四セマフォＳ１４と、を有する。

　第一セマフォＳ１１は、第一ＮＮ演算コア１０Ａの第一データフローＦ１１の制御に用いられる。第一データフローＦ１１は、第一ＤＭＡＣ３（Ｐｒｏｄｕｃｅｒ）が第一ＮＮ演算コア１０Ａの第一メモリ１に入力データａを書き込み、第一ＮＮ演算コア１０Ａの畳み込み演算回路４（Ｃｏｎｓｕｍｅｒ）が入力データａを読み出すデータフローである。第一セマフォＳ１１は、第一ライトセマフォＳ１１Ｗと、第一リードセマフォＳ１１Ｒと、を有する。

　第二セマフォＳ１２は、第一ＮＮ演算コア１０Ａの第二データフローＦ１２の制御に用いられる。第二データフローＦ１２は、第一ＮＮ演算コア１０Ａの畳み込み演算回路４（Ｐｒｏｄｕｃｅｒ）が出力データｆを第一ＮＮ演算コア１０Ａの第二メモリ２に書き込み、第一ＮＮ演算コア１０Ａの量子化演算回路５（Ｃｏｎｓｕｍｅｒ）が出力データｆを読み出すデータフローである。第二セマフォＳ１２は、第二ライトセマフォＳ１２Ｗと、第二リードセマフォＳ１２Ｒと、を有する。

　第三セマフォＳ１３は、第一ＮＮ演算コア１０Ａの第三データフローＦ１３の制御に用いられる。第三データフローＦ１３は、第一ＮＮ演算コア１０Ａの量子化演算回路５（Ｐｒｏｄｕｃｅｒ）が量子化演算出力データを第一ＮＮ演算コア１０Ａの第一メモリ１に書き込み、第一ＮＮ演算コア１０Ａの畳み込み演算回路４（Ｃｏｎｓｕｍｅｒ）が量子化演算出力データを読み出すデータフローである。第三セマフォＳ１３は、第三ライトセマフォＳ１３Ｗと、第三リードセマフォＳ１３Ｒと、を有する。

　第四セマフォＳ１４は、第一ＮＮ演算コア１０Ａの第四データフローＦ１４の制御に用いられる。第四データフローＦ１４は、第二ＮＮ演算コア１０Ｂの量子化演算回路５（Ｐｒｏｄｕｃｅｒ）が量子化演算出力データを第一ＮＮ演算コア１０Ａの第一メモリ１に書き込み、第一ＮＮ演算コア１０Ａの畳み込み演算回路４（Ｃｏｎｓｕｍｅｒ）が量子化演算出力データを読み出すデータフローである。第四セマフォＳ１４は、第四ライトセマフォＳ１４Ｗと、第四リードセマフォＳ１４Ｒと、を有する。

［第二ＮＮ演算コア１０Ｂに関するセマフォＳ］
　セマフォＳは、第二ＮＮ演算コア１０Ｂに関して、第一セマフォＳ２１と、第二セマフォＳ２２と、第三セマフォＳ２３と、第四セマフォＳ２４と、を有する。

　第一セマフォＳ２１は、第二ＮＮ演算コア１０Ｂの第一データフローＦ２１の制御に用いられる。第一データフローＦ２１は、第一ＤＭＡＣ３（Ｐｒｏｄｕｃｅｒ）が第二ＮＮ演算コア１０Ｂの第一メモリ１に入力データａを書き込み、第二ＮＮ演算コア１０Ｂの畳み込み演算回路４（Ｃｏｎｓｕｍｅｒ）が入力データａを読み出すデータフローである。第一セマフォＳ２１は、第一ライトセマフォＳ２１Ｗと、第一リードセマフォＳ２１Ｒと、を有する。

　第二セマフォＳ２２は、第二ＮＮ演算コア１０Ｂの第二データフローＦ２２の制御に用いられる。第二データフローＦ２２は、第二ＮＮ演算コア１０Ｂの畳み込み演算回路４（Ｐｒｏｄｕｃｅｒ）が出力データｆを第二ＮＮ演算コア１０Ｂの第二メモリ２に書き込み、第二ＮＮ演算コア１０Ｂの量子化演算回路５（Ｃｏｎｓｕｍｅｒ）が出力データｆを読み出すデータフローである。第二セマフォＳ２２は、第二ライトセマフォＳ２２Ｗと、第二リードセマフォＳ２２Ｒと、を有する。

　第三セマフォＳ２３は、第二ＮＮ演算コア１０Ｂの第三データフローＦ２３の制御に用いられる。第三データフローＦ２３は、第二ＮＮ演算コア１０Ｂの量子化演算回路５（Ｐｒｏｄｕｃｅｒ）が量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に書き込み、第二ＮＮ演算コア１０Ｂの畳み込み演算回路４（Ｃｏｎｓｕｍｅｒ）が量子化演算出力データを読み出すデータフローである。第三セマフォＳ２３は、第三ライトセマフォＳ２３Ｗと、第三リードセマフォＳ２３Ｒと、を有する。

　第四セマフォＳ２４は、第二ＮＮ演算コア１０Ｂの第四データフローＦ２４の制御に用いられる。第四データフローＦ２４は、第一ＮＮ演算コア１０Ａの量子化演算回路５（Ｐｒｏｄｕｃｅｒ）が量子化演算出力データを第二ＮＮ演算コア１０Ｂの第一メモリ１に書き込み、第二ＮＮ演算コア１０Ｂの畳み込み演算回路４（Ｃｏｎｓｕｍｅｒ）が量子化演算出力データを読み出すデータフローである。第四セマフォＳ２４は、第四ライトセマフォＳ２４Ｗと、第四リードセマフォＳ２４Ｒと、を有する。

［第一ＮＮ演算コア１０Ａの第一データフローＦ１１］
　図２４は、第一データフローＦ１１のタイミングチャートである。
　第一ライトセマフォＳ１１Ｗは、第一ＮＮ演算コア１０Ａの第一データフローＦ１１における第一ＤＭＡＣ３による第一ＮＮ演算コア１０Ａの第一メモリ１に対する書き込みを制限するセマフォである。第一ライトセマフォＳ１１Ｗは、第一メモリ１において、例えば入力ベクトルＡなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが読み出し済みで他のデータを書き込み可能なメモリ領域の数を示している。第一ライトセマフォＳ１１Ｗが「０」の場合、第一ＤＭＡＣ３は第一メモリ１に対して第一データフローＦ１１における書き込みを行えず、第一ライトセマフォＳ１１Ｗが「１」以上となるまで待たされる。

　第一リードセマフォＳ１１Ｒは、第一ＮＮ演算コア１０Ａの第一データフローＦ１における第一ＮＮ演算コア１０Ａの畳み込み演算回路４による第一ＮＮ演算コア１０Ａの第一メモリ１からの読み出しを制限するセマフォである。第一リードセマフォＳ１１Ｒは、第一メモリ１において、例えば入力ベクトルＡなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが書き込み済みで読み出し可能なメモリ領域の数を示している。第一リードセマフォＳ１１Ｒが「０」の場合、畳み込み演算回路４は第一メモリ１からの第一データフローＦ１１における読み出しを行えず、第一リードセマフォＳ１１Ｒが「１」以上となるまで待たされる。

　第一ＤＭＡＣ３は、命令キュー３３に命令コマンドＣ３が格納されることにより、ＤＭＡ転送を開始する。図２４に示すように、第一ライトセマフォＳ１１Ｗが「０」でないため、第一ＤＭＡＣ３はＤＭＡ転送を開始する（ＤＭＡ転送１）。第一ＤＭＡＣ３は、ＤＭＡ転送を開始する際に、第一ライトセマフォＳ１１Ｗに対してＰ操作を行う。第一ＤＭＡＣ３は、ＤＭＡ転送の完了後に、第一リードセマフォＳ１１Ｒに対してＶ操作を行う。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、命令キュー４５に命令コマンドＣ４が格納されることにより、畳み込み演算を開始する。図２４に示すように、第一リードセマフォＳ１１Ｒが「０」であるため、畳み込み演算回路４は第一リードセマフォＳ１１Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。第一ＤＭＡＣ３によるＶ操作により第一リードセマフォＳ１１Ｒが「１」となると、畳み込み演算回路４は畳み込み演算を開始する（畳み込み演算１）。畳み込み演算回路４は、畳み込み演算を開始する際、第一リードセマフォＳ１１Ｒに対してＰ操作を行う。畳み込み演算回路４は、畳み込み演算の完了後に、第一ライトセマフォＳ１１Ｗに対してＶ操作を行う。

　図２４において「ＤＭＡ転送３」と記載されたＤＭＡ転送を第一ＤＭＡＣ３が開始する際、第一ライトセマフォＳ１１Ｗが「０」であるため、第一ＤＭＡＣ３は第一ライトセマフォＳ１１Ｗが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。畳み込み演算回路４によるＶ操作により第一ライトセマフォＳ１１Ｗが「１」以上となると、第一ＤＭＡＣ３はＤＭＡ転送を開始する。

　第一ＤＭＡＣ３と第一ＮＮ演算コア１０Ａの畳み込み演算回路４とは、第一セマフォＳ１１を使用することで、第一データフローＦ１１において第一メモリ１に対するアクセス競合を防止できる。また、第一ＤＭＡＣ３と第一ＮＮ演算コア１０Ａの畳み込み演算回路４とは、第一セマフォＳ１１を使用することで、第一ＮＮ演算コア１０Ａの第一データフローＦ１１におけるデータ転送の同期を取りつつ、独立して並列に動作できる。

［第一ＮＮ演算コア１０Ａの第二データフローＦ１２］
　図２５は、第二データフローＦ１２のタイミングチャートである。
　第二ライトセマフォＳ１２Ｗは、第一ＮＮ演算コア１０Ａの第二データフローＦ１２における第一ＮＮ演算コア１０Ａの畳み込み演算回路４による第一ＮＮ演算コア１０Ａの第二メモリ２に対する書き込みを制限するセマフォである。第二ライトセマフォＳ１２Ｗは、第二メモリ２において、例えば出力データｆなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが読み出し済みで他のデータを書き込み可能なメモリ領域の数を示している。第二ライトセマフォＳ１２Ｗが「０」の場合、畳み込み演算回路４は第二メモリ２に対して第二データフローＦ１２における書き込みを行えず、第二ライトセマフォＳ１２Ｗが「１」以上となるまで待たされる。

　第二リードセマフォＳ１２Ｒは、第一ＮＮ演算コア１０Ａの第二データフローＦ２における第一ＮＮ演算コア１０Ａの量子化演算回路５による第一ＮＮ演算コア１０Ａの第二メモリ２からの読み出しを制限するセマフォである。第二リードセマフォＳ１２Ｒは、第二メモリ２において、例えば出力データｆなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが書き込み済みで読み出し可能なメモリ領域の数を示している。第二リードセマフォＳ１２Ｒが「０」の場合、量子化演算回路５は第二メモリ２からの第二データフローＦ１２における読み出しを行えず、第二リードセマフォＳ１２Ｒが「１」以上となるまで待たされる。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、図２５に示すように、畳み込み演算を開始する際、第二ライトセマフォＳ１２Ｗに対してＰ操作を行う。畳み込み演算回路４は、畳み込み演算の完了後に、第二リードセマフォＳ１２Ｒに対してＶ操作を行う。

　第一ＮＮ演算コア１０Ａの量子化演算回路５は、命令キュー５５に命令コマンドＣ５が格納されることにより、量子化演算を開始する。図２５に示すように、第二リードセマフォＳ１２Ｒが「０」であるため、量子化演算回路５は第二リードセマフォＳ１２Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。畳み込み演算回路４によるＶ操作により第二リードセマフォＳ１２Ｒが「１」となると、量子化演算回路５は量子化演算を開始する（量子化演算１）。量子化演算回路５は、量子化演算を開始する際、第二リードセマフォＳ１２Ｒに対してＰ操作を行う。量子化演算回路５は、量子化演算の完了後に、第二ライトセマフォＳ１２Ｗに対してＶ操作を行う。

　図２５において「量子化演算２」と記載された量子化演算を量子化演算回路５が開始する際、第二リードセマフォＳ１２Ｒが「０」であるため、量子化演算回路５は第二リードセマフォＳ１２Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。畳み込み演算回路４によるＶ操作により第二リードセマフォＳ１２Ｒが「１」以上となると、量子化演算回路５は量子化演算を開始する。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４と第一ＮＮ演算コア１０Ａの量子化演算回路５とは、第二セマフォＳ１２を使用することで、第二データフローＦ１２において第二メモリ２に対するアクセス競合を防止できる。また、第一ＮＮ演算コア１０Ａの畳み込み演算回路４と第一ＮＮ演算コア１０Ａの量子化演算回路５とは、第二セマフォＳ１２を使用することで、第二データフローＦ１２におけるデータ転送の同期を取りつつ、独立して並列に動作できる。

［第一ＮＮ演算コア１０Ａの第三データフローＦ１３］
　図２６は、第三データフローＦ１３のタイミングチャートである。
　第三ライトセマフォＳ１３Ｗは、第一ＮＮ演算コア１０Ａの第三データフローＦ１３における第一ＮＮ演算コア１０Ａの量子化演算回路５による第一ＮＮ演算コア１０Ａの第一メモリ１に対する書き込みを制限するセマフォである。第三ライトセマフォＳ１３Ｗは、第一メモリ１において、例えば量子化演算回路５の量子化演算出力データなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが読み出し済みで他のデータを書き込み可能なメモリ領域の数を示している。第三ライトセマフォＳ１３Ｗが「０」の場合、量子化演算回路５は第一メモリ１に対して第三データフローＦ１３における書き込みを行えず、第三ライトセマフォＳ１３Ｗが「１」以上となるまで待たされる。

　第三リードセマフォＳ１３Ｒは、第一ＮＮ演算コア１０Ａの第三データフローＦ１３における第一ＮＮ演算コア１０Ａの畳み込み演算回路４による第一ＮＮ演算コア１０Ａの第一メモリ１からの読み出しを制限するセマフォである。第三リードセマフォＳ１３Ｒは、第一メモリ１において、例えば量子化演算回路５の量子化演算出力データなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが書き込み済みで読み出し可能なメモリ領域の数を示している。第三リードセマフォＳ１３Ｒが「０」の場合、畳み込み演算回路４は第三データフローＦ１３における第一メモリ１からの読み出しを行えず、第三リードセマフォＳ１３Ｒが「１」以上となるまで待たされる。

　第一ＮＮ演算コア１０Ａの量子化演算回路５は、図２６に示すように、量子化演算を開始する際、第三ライトセマフォＳ１３Ｗに対してＰ操作を行う。量子化演算回路５は、畳み込み演算の完了後に、第三リードセマフォＳ１３Ｒに対してＶ操作を行う。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、命令キュー４５に命令コマンドＣ４が格納されることにより、畳み込み演算を開始する。図２６に示すように、第三リードセマフォＳ１３が「０」であるため、畳み込み演算回路４は第三リードセマフォＳ１３Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。量子化演算回路５によるＶ操作により第三リードセマフォＳ１３Ｒが「１」となると、畳み込み演算回路４は畳み込み演算を開始する（畳み込み演算５）。畳み込み演算回路４は、畳み込み演算を開始する際、第三リードセマフォＳ１３Ｒに対してＰ操作を行う。畳み込み演算回路４は、畳み込み演算の完了後に、第三ライトセマフォＳ１３Ｗに対してＶ操作を行う。

　図２６において「畳み込み演算７」と記載された畳み込み演算を畳み込み演算回路４が開始する際、第三リードセマフォＳ１３Ｒが「０」であるため、畳み込み演算回路４は第三リードセマフォＳ１３Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。量子化演算回路５によるＶ操作により第三リードセマフォＳ１３Ｒが「１」以上となると、畳み込み演算回路４は畳み込み演算を開始する。

　第一ＮＮ演算コア１０Ａの量子化演算回路５と第一ＮＮ演算コア１０Ａの畳み込み演算回路４とは、第三セマフォＳ１３を使用することで、第三データフローＦ１３において第一メモリ１に対するアクセス競合を防止できる。また、第一ＮＮ演算コア１０Ａの量子化演算回路５と第一ＮＮ演算コア１０Ａの畳み込み演算回路４とは、第三セマフォＳ１３を使用することで、第三データフローＦ１３におけるデータ転送の同期を取りつつ、独立して並列に動作できる。

［第一ＮＮ演算コア１０Ａの第四データフローＦ１４］
　図２７は、第四データフローＦ１４のタイミングチャートである。
　第四ライトセマフォＳ１４Ｗは、第一ＮＮ演算コア１０Ａの第四データフローＦ１４における第二ＮＮ演算コア１０Ｂの量子化演算回路５による第一ＮＮ演算コア１０Ａの第一メモリ１に対する書き込みを制限するセマフォである。第四ライトセマフォＳ１４Ｗは、第一メモリ１において、例えば量子化演算回路５の量子化演算出力データなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが読み出し済みで他のデータを書き込み可能なメモリ領域の数を示している。第四ライトセマフォＳ１４Ｗが「０」の場合、量子化演算回路５は第一メモリ１に対して第四データフローＦ１４における書き込みを行えず、第四ライトセマフォＳ１４Ｗが「１」以上となるまで待たされる。

　第四リードセマフォＳ１４Ｒは、第一ＮＮ演算コア１０Ａの第四データフローＦ１４における第一ＮＮ演算コア１０Ａの畳み込み演算回路４による第一ＮＮ演算コア１０Ａの第一メモリ１からの読み出しを制限するセマフォである。第四リードセマフォＳ１４Ｒは、第一メモリ１において、例えば量子化演算回路５の量子化演算出力データなどの所定のサイズのデータを格納可能なメモリ領域のうち、データが書き込み済みで読み出し可能なメモリ領域の数を示している。第四リードセマフォＳ１４Ｒが「０」の場合、畳み込み演算回路４は第四データフローＦ１４における第一メモリ１からの読み出しを行えず、第四リードセマフォＳ１４Ｒが「１」以上となるまで待たされる。

　第二ＮＮ演算コア１０Ｂの量子化演算回路５は、図２７に示すように、量子化演算を開始する際、第四ライトセマフォＳ１４Ｗに対してＰ操作を行う。量子化演算回路５は、畳み込み演算の完了後に、第四リードセマフォＳ１４Ｒに対してＶ操作を行う。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、命令キュー４５に命令コマンドＣ４が格納されることにより、畳み込み演算を開始する。図２７に示すように、第四リードセマフォＳ１４Ｒが「０」であるため、畳み込み演算回路４は第四リードセマフォＳ１４Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。量子化演算回路５によるＶ操作により第四リードセマフォＳ１４Ｒが「１」となると、畳み込み演算回路４は畳み込み演算を開始する（畳み込み演算９）。畳み込み演算回路４は、畳み込み演算を開始する際、第四リードセマフォＳ１４Ｒに対してＰ操作を行う。畳み込み演算回路４は、畳み込み演算の完了後に、第四ライトセマフォＳ１４Ｗに対してＶ操作を行う。

　図２７において「畳み込み演算１０」と記載された畳み込み演算を畳み込み演算回路４が開始する際、第四リードセマフォＳ１４Ｒが「０」であるため、畳み込み演算回路４は第四リードセマフォＳ１４Ｒが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。量子化演算回路５によるＶ操作により第四リードセマフォＳ１４Ｒが「１」以上となると、畳み込み演算回路４は畳み込み演算を開始する。

　第二ＮＮ演算コア１０Ｂの量子化演算回路５と第一ＮＮ演算コア１０Ａの畳み込み演算回路４とは、第四セマフォＳ１４を使用することで、第四データフローＦ１４において第一メモリ１に対するアクセス競合を防止できる。また、第二ＮＮ演算コア１０Ｂの量子化演算回路５と第一ＮＮ演算コア１０Ａの畳み込み演算回路４とは、第四セマフォＳ１４を使用することで、第四データフローＦ１４における複数のＮＮ演算コア１０間のデータ転送の同期を取りつつ、独立して並列に動作できる。

　第一ＮＮ演算コア１０Ａの第一メモリ１は、３つのデータフロー（第一データフローＦ１１、第三データフローＦ１３および第四データフローＦ１４）において共有される。ＮＮ回路１００は、第一セマフォＳ１１と第三セマフォＳ１３と第四セマフォＳ１４とを別途設けることで、第一データフローＦ１１と第三データフローＦ１３と第四データフローＦ１４とを区別してデータ転送の同期を取ることができる。

［第二ＮＮ演算コア１０Ｂの第一データフローＦ２１］
　第二ＮＮ演算コア１０Ｂの第一データフローＦ２１は、第一ＮＮ演算コア１０Ａの第一データフローＦ１１と同等である。第一ＤＭＡＣ３と第二ＮＮ演算コア１０Ｂの畳み込み演算回路４とは、第一セマフォＳ２１を使用することで、第一データフローＦ２１において第一メモリ１に対するアクセス競合を防止できる。また、第一ＤＭＡＣ３と第二ＮＮ演算コア１０Ｂの畳み込み演算回路４とは、第一セマフォＳ２１を使用することで、第二ＮＮ演算コア１０Ｂの第一データフローＦ２１におけるデータ転送の同期を取りつつ、独立して並列に動作できる。

［第二ＮＮ演算コア１０Ｂの第二データフローＦ２２］
　第二ＮＮ演算コア１０Ｂの第二データフローＦ２２は、第一ＮＮ演算コア１０Ａの第二データフローＦ１２と同等である。第二ＮＮ演算コア１０Ｂの畳み込み演算回路４と第二ＮＮ演算コア１０Ｂの量子化演算回路５とは、第二セマフォＳ２２を使用することで、第二データフローＦ２２において第二メモリ２に対するアクセス競合を防止できる。また、第二ＮＮ演算コア１０Ｂの畳み込み演算回路４と第二ＮＮ演算コア１０Ｂの量子化演算回路５とは、第二セマフォＳ２２を使用することで、第二データフローＦ２２におけるデータ転送の同期を取りつつ、独立して並列に動作できる。

［第二ＮＮ演算コア１０Ｂの第三データフローＦ２３］
　第二ＮＮ演算コア１０Ｂの第三データフローＦ２３は、第一ＮＮ演算コア１０Ａの第三データフローＦ１３と同等である。第二ＮＮ演算コア１０Ｂの量子化演算回路５と第二ＮＮ演算コア１０Ｂの畳み込み演算回路４とは、第三セマフォＳ２３を使用することで、第三データフローＦ２３において第一メモリ１に対するアクセス競合を防止できる。また、第二ＮＮ演算コア１０Ｂの量子化演算回路５と第二ＮＮ演算コア１０Ｂの畳み込み演算回路４とは、第三セマフォＳ２３を使用することで、第三データフローＦ２３におけるデータ転送の同期を取りつつ、独立して並列に動作できる。

［第二ＮＮ演算コア１０Ｂの第四データフローＦ２４］
　第二ＮＮ演算コア１０Ｂの第四データフローＦ２４は、第一ＮＮ演算コア１０Ａの第四データフローＦ１４と同等である。第一ＮＮ演算コア１０Ａの量子化演算回路５と第二ＮＮ演算コア１０Ｂの畳み込み演算回路４とは、第四セマフォＳ２４を使用することで、第四データフローＦ２４において第一メモリ１に対するアクセス競合を防止できる。また、第一ＮＮ演算コア１０Ａの量子化演算回路５と第二ＮＮ演算コア１０Ｂの畳み込み演算回路４とは、第四セマフォＳ２４を使用することで、第四データフローＦ２４における複数数のＮＮ演算コア１０間のデータ転送の同期を取りつつ、独立して並列に動作できる。

［第一ＮＮ演算コア１０Ａの畳み込み演算回路４の動作］
　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、畳み込み演算を行う際、第一ＮＮ演算コア１０Ａの第一メモリ１から読み出しを行い、第一ＮＮ演算コア１０Ａの第二メモリ２に対して書き込みを行う。すなわち、畳み込み演算回路４は、３つのデータフロー（第一データフローＦ１１、第三データフローＦ１３および第四データフローＦ１４）においてはＣｏｎｓｕｍｅｒであり、第二データフローＦ１２においてはＰｒｏｄｕｃｅｒである。そのため、畳み込み演算回路４は、畳み込み演算を開始する際、データフローに対応するリードセマフォ（第一リードセマフォＳ１１Ｒ、第三リードセマフォＳ１３Ｒまたは第四リードセマフォＳ１４Ｒ）に対してＰ操作を行い（図２４、図２６、図２７参照）、第二ライトセマフォＳ１２Ｗに対してＰ操作を行う（図２４参照）。畳み込み演算回路４は、畳み込み演算の完了後に、データフローに対応するライトセマフォ（第一ライトセマフォＳ１１Ｗ、第三ライトセマフォＳ１３Ｗ、第四ライトセマフォＳ１４Ｗ）に対してＶ操作を行い（図２４、図２６、図２７参照）、第二リードセマフォＳ１２Ｒに対してＶ操作を行う（図２５参照）。

　第一ＮＮ演算コア１０Ａの畳み込み演算回路４は、畳み込み演算を開始する際、データフローに対応するリードセマフォ（第一リードセマフォＳ１１Ｒ、第三リードセマフォＳ１３Ｒまたは第四リードセマフォＳ１４Ｒ）が「１」以上、かつ、第二ライトセマフォＳ１２Ｗが「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。

［第一ＮＮ演算コア１０Ａの量子化演算回路５の動作］
　第一ＮＮ演算コア１０Ａの量子化演算回路５は、量子化演算を行う際、第一ＮＮ演算コア１０Ａの第二メモリ２から読み出しを行い、第一ＮＮ演算コア１０Ａの第一メモリ１または第二ＮＮ演算コア１０Ｂの第一メモリ１に対して書き込みを行う。すなわち、量子化演算回路５は、第二データフローＦ１２においてはＣｏｎｓｕｍｅｒであり、２つのデータフロー（第三データフローＦ１３および第四データフローＦ２４）においてはＰｒｏｄｕｃｅｒである。そのため、量子化演算回路５は、量子化演算を開始する際、第二リードセマフォＳ１２Ｒに対してＰ操作を行い（図２５参照）、データフローに対応するライトセマフォ（第三ライトセマフォＳ１３Ｗまたは第四ライトセマフォＳ２４Ｗ）に対してＰ操作を行う（図２６参照）。量子化演算回路５は量子化演算の完了後に、第二ライトセマフォＳ１２Ｗに対してＶ操作を行い（図２５参照）、データフローに対応するリードセマフォ（第三リードセマフォＳ１３Ｒまたは第四リードセマフォＳ２４Ｒ）に対してＶ操作を行う（図２６参照）。

　第一ＮＮ演算コア１０Ａの量子化演算回路５は、量子化演算を開始する際、第二リードセマフォＳ１２Ｒが「１」以上、かつ、データフローに対応するライトセマフォ（第三ライトセマフォＳ１３Ｗまたは第四ライトセマフォＳ２４Ｗ）が「１」以上となるまで待たされる（デコードステートＳＴ２におけるＷａｉｔ）。

　第一ＮＮ演算コア１０Ａの量子化演算回路５は、第三データフローＦ１３と第四データフローＦ２４とを切り替えて、量子化演算出力データを格納する第一メモリ１を変更できる。第二ＮＮ演算コア１０Ｂの量子化演算回路５は、同様に、第三データフローＦ２３と第四データフローＦ１４とを切り替えて、量子化演算出力データを格納する第一メモリ１を変更できる。

　本実施形態に係るニューラルネットワーク回路１００によれば、ＩｏＴ機器などの組み込み機器に組み込み可能なＮＮ回路１００を高性能に動作させることができる。複数のＮＮ演算コア１０を接続することで、より多くのニューラルネットワーク演算を効率的かつ高速に実施することができる。

　以上、本発明の第一実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（第二実施形態）
　本発明の第二実施形態について、図２８から図３１を参照して説明する。以降の説明において、既に説明したものと共通する構成については、同一の符号を付して重複する説明を省略する。第二実施形態に係るニューラルネットワーク回路１００Ｂ（以下、「ＮＮ回路１００Ｂ」という）は、第一実施形態に係るニューラルネットワーク回路１００と比較して、畳み込み演算回路４が異なる。

［ＮＮ回路１００Ｂ］
　ＮＮ回路１００Ｂは、第一ＤＭＡＣ３、コントローラ６と、ＩＦＵ７と、共有メモリ８と、第二ＤＭＡＣ９と、少なくとも一つのニューラルネットワーク演算コア１０Ｅ（以下、「ＮＮ演算コア１０Ｅ」ともいう）と、を備える。

［ＮＮ演算コア１０Ｅ］
　ＮＮ演算コア１０Ｅは、第一メモリ１と、第二メモリ２と、畳み込み演算回路４Ｂと、量子化演算回路５と、を備える。

［畳み込み演算回路４Ｂ］
　畳み込み演算回路４Ｂは、学習済みのＣＮＮ２００の畳み込み層２１０における畳み込み演算を行う回路である。畳み込み演算回路４Ｂは、第一メモリ１に格納された入力データａを読み出し、入力データａに対して畳み込み演算を実施する。畳み込み演算回路４Ｂは畳み込み演算出力データを第二メモリ２に書き込む。

　図２８は、畳み込み演算回路４Ｂの内部ブロック図である。
　畳み込み演算回路４Ｂは、重みメモリ４１と、乗算器４２Ｂと、アキュムレータ回路４３と、ステートコントローラ４４と、を有する。

　図２９は、乗算器４２の内部ブロック図である。
　乗算器（演算器アレイ）４２Ｂは、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）の各要素ａ（ｘ＋ｉ，ｙ＋ｊ，ｃｉ）と、分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）の各要素ｗ（ｉ，ｊ，ｃｉ，ｄｉ）と、を乗算する。乗算器４２は、Ｂｃ×Ｂｄ個の積和演算ユニットアレイ４２Ａを有し、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）の要素ａ（ｘ＋ｉ，ｙ＋ｊ，ｃｉ）と分割重みｗ（ｉ，ｊ，ｃｏ，ｄｏ）の要素ｗ（ｉ，ｊ，ｃｉ，ｄｉ）との乗算を並列して実施できる。

　乗算器（演算器アレイ）４２Ｂは、乗算に必要な要素ａと要素ｗを、第一メモリ１および重みメモリ４１から読み出して乗算を実施する。乗算器４２は、Ｂｄ個の積和演算結果Ｏ（ｘ＋ｉ，ｙ＋ｊ，ｄｉ）を出力する。

　なお、乗算器４２に含まれる積和演算ユニットアレイ４２Ａの数はＢｃ×Ｂｄ個に限定されない。例えば、積和演算ユニットアレイ４２Ａの数は、（Ｂｃ／Ｐ）×Ｂｄ個（ＰはＢｃまたはＢｃの約数）であってもよい。この場合、積和演算ユニットアレイ４２Ａは、分割入力データａ（ｘ＋ｉ，ｙ＋ｊ，ｃｏ）をｃ軸方向においてＰ個ごとに分割する。

　乗算器（演算器アレイ）４２Ｂは、要素ａ（ｘ＋ｉ，ｙ＋ｊ，ｃｉ）と、要素ａ（ｘ＋ｉ，ｙ＋ｙ１＋ｊ，ｃｉ）と、要素ａ（ｘ＋ｉ，ｙ＋ｙ２＋ｊ，ｃｉ）と、を第一メモリ１から読み出す（０＜ｙ１＜ｙ２）。ｙ１＝１、ｙ２＝２の場合、３組の要素ａは、ｘｙ軸平面におけるｙ軸方向に連続するラインデータである。ｙ１＝１＋ＳＴ、ｙ２＝２+２ＳＴの場合、３組の要素ａは、ｙ軸方向に所定のライン数ＳＴだけ離れたラインデータである（ＳＴはｙ軸方向のストライド）。乗算器（演算器アレイ）４２Ｂは、要素ａを格納するラインメモリを有してもよい。

　第一メモリ１は、マルチバンクメモリであることが望ましい。この場合、要素ａ（ｘ＋ｉ，ｙ＋ｊ，ｃｉ）と、要素ａ（ｘ＋ｉ，ｙ＋ｙ１＋ｊ，ｃｉ）と、要素ａ（ｘ＋ｉ，ｙ＋ｙ２＋ｊ，ｃｉ）とは異なるバンクに格納され、各要素は独立して高速に読み出される。

　図３０は、積和演算ユニットアレイ４２Ａの内部ブロック図である。
　積和演算ユニットアレイ４２Ａは、要素ａと、要素ｗとを乗算する。積和演算ユニットアレイ４２Ａは、３個の積和演算ユニット４７Ｂを有する。以降の説明において、３個の積和演算ユニット４７Ｂを、第一積和演算ユニット４７１、第二積和演算ユニット４７２、第三積和演算ユニット４７３という。

　図３１は、積和演算ユニット４７Ｂの内部ブロック図である。
　積和演算ユニット４７Ｂは、入力ベクトルＡの要素Ａ（ｃｉ）と、重みマトリクスＷの要素Ｗ（ｃｉ，ｄｉ）とを乗算する。積和演算ユニット４７は、乗算結果ｓ（ｃｉ）を出力する。要素Ａ（ｃｉ）は、２ビットの符号なし整数（０，１，２，３）である。要素Ｗ（ｃｉ，ｄｉ）は、１ビットの符号付整数（０，１）であり、値「０」は＋１を表し、値「１」は－１を表す。

　積和演算ユニット４７Ｂは、反転器（インバータ）４７ａと、セレクタ４７ｂと、加算器４７ｃと、を有する。積和演算ユニット４７は、乗算器を用いず、反転器４７ａおよびセレクタ４７ｂのみを用いて乗算を行う。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「０」の場合、要素Ａ（ｃｉ）の入力を選択する。セレクタ４７ｂは、要素Ｗ（ｃｉ，ｄｉ）が「１」の場合、要素Ａ（ｃｉ）を反転器により反転させた補数を選択する。要素Ｗ（ｃｉ，ｄｉ）は、加算器４７ｃのＣａｒｒｙ－ｉｎにも入力される。加算器４７ｃは、要素Ｗ（ｃｉ，ｄｉ）が「０」のとき、ｍ（ｃｉ，ｄｉ）に要素Ａ（ｃｉ）を加算した値を出力する。加算器４７ｃは、Ｗ（ｃｉ，ｄｉ）が「１」のとき、ｍ（ｃｉ，ｄｉ）から要素Ａ（ｃｉ）を減算した値を出力する。

　第一積和演算ユニット４７１は、要素ａ（Ｘ，Ｙ，ｃｉ）と要素ｗ（ｉ，ｊ，ｃｉ，ｄｉ）とを乗算する（Ｘは入力データａに含まれる任意のｘ座標、Ｙは入力データａに含まれる任意のｙ座標）。第一積和演算ユニット４７１は、出力ｍ（ｉ，ｊ，ｃｉ，ｄｉ）を加算器４７Ａに出力する。

　第二積和演算ユニット４７２は、要素ａ（Ｘ，Ｙ＋ｙ１，ｃｉ）と要素ｗ（ｉ，ｊ＋１，ｃｉ，ｄｉ）とを乗算する。第二積和演算ユニット４７２は、出力ｍ（ｉ，ｊ＋１，ｃｉ，ｄｉ）を加算器４７Ａに出力する。

　第三積和演算ユニット４７３は、要素ａ（Ｘ，Ｙ＋ｙ２，ｃｉ）と要素ｗ（ｉ，ｊ＋２，ｃｉ，ｄｉ）とを乗算する。第三積和演算ユニット４７３は、出力ｍ（ｉ，ｊ＋２、ｃｉ，ｄｉ）を加算器４７Ａに出力する。

　加算器４７Ａは、出力ｍ（ｉ，ｊ，ｃｉ，ｄｉ）と、出力ｍ（ｉ，ｊ＋１，ｃｉ，ｄｉ）と、出力ｍ（ｉ，ｊ＋２，ｃｉ，ｄｉ）と、他の積和演算ユニット４７Ｂの乗算結果Ｓ（ｘ＋ｉ，ｙ＋ｊ，ｃｉ，ｄｉ）と、を加算して、加算結果Ｓ（ｘ＋ｉ，ｙ＋ｊ，ｃｉ＋１，ｄｉ）を出力する。

　本実施形態に係るニューラルネットワーク回路１００Ｂによれば、積和演算ユニットアレイ４２Ａにより演算を並列化でき、畳み込み演算を高速化できる。ニューラルネットワーク回路１００Ｂは、畳み込み演算におけるｙ軸方向のストライドＳＴが２以上であっても好適に畳み込み演算を実施できる。

　以上、本発明の第二実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（第三実施形態）
　本発明の第三実施形態について、図３２から図３６を参照して説明する。以降の説明において、既に説明したものと共通する構成については、同一の符号を付して重複する説明を省略する。第三実施形態に係るニューラルネットワーク回路１００Ｇ（以下、「ＮＮ回路１００Ｇ」という）は、第一実施形態に係るニューラルネットワーク回路１００と比較して、クロックゲーティング機能やパワーゲーティング機能をさらに有する。

［ＮＮ回路１００Ｇ］
　図３２は、本実施形態に係るＮＮ回路１００Ｇの全体構成を示す図である。
　ＮＮ回路１００Ｇは、第一ＤＭＡＣ３Ｇ、コントローラ６と、ＩＦＵ７と、共有メモリ８と、第二ＤＭＡＣ９と、少なくとも一つのニューラルネットワーク演算コア１０Ｇ（以下、「ＮＮ演算コア１０Ｇ」ともいう）と、を備える。なお、ＮＮ回路１００Ｇは、共有メモリ８および第二ＤＭＡＣ９を有していなくてもよい。

　ＮＮ回路１００Ｇは、複数のＮＮ演算コア１０Ｇを実装可能である。図３２に例示するＮＮ回路１００Ｇは、ＮＮ演算コア１０Ｇを最大４つまで実装可能である。複数のＮＮ演算コア１０Ｇは、第一実施形態のＮＮ演算コア１０と同様に、ＮＮ２００の少なくとの一部の演算を連携して実行する「ＮＮ演算マルチコア１０Ｍ」を構成する。複数のＮＮ演算コア１０Ｇは、第一実施形態と同様にデイジーチェーン接続されている。なお、ＮＮ回路１００Ｇに実装可能なＮＮ演算コア１０の数は４個に限定されない。

［第一ＤＭＡＣ３Ｇ］
　図３３は、第一ＤＭＡＣ３Ｇの内部ブロック図である。
　第一ＤＭＡＣ３Ｇは、第一実施形態の第一ＤＭＡＣ３と同様に、外部バスＥＢに接続されており、ＤＲＡＭなどの外部メモリ１２０とＮＮ演算コア１０Ｇとの間のデータ転送を行う。第一ＤＭＡＣ３Ｇは、データ転送回路３１と、ステートコントローラ３２と、クロック制御部３９と、を有する。

　図３４は、クロック制御部３９の動作を示すタイミングチャートである。
　クロック制御部３９は、ＮＮ回路１００Ｇに供給されるクロックＣＫから、クロックイネーブル信号ＣＥ３に基づいて、ゲーティッドクロック（第三クロック）ＧＣ３を生成する。クロックイネーブル信号ＣＥ３がネゲートされて無効（Ｄｉｓａｂｌｅ、図３４においてＬｏｗ）に設定されると、ゲーティッドクロックＧＣ３のトグルが停止される。クロックイネーブル信号ＣＥ３がアサートされて有効（Ｅｎａｂｌｅ、図３４においてＨｉｇｈ）に設定されると、ゲーティッドクロックＧＣ３のトグルが開始される。ゲーティッドクロックＧＣ３の生成回路は、公知のクロックゲーティング用回路から適宜選択された回路である。

　クロックイネーブル信号ＣＥ３は、ステートコントローラ３２によって制御される。ステートコントローラ３２の制御回路３４は、デコードステートＳＴ２において、命令コマンドＣ３において指示されたデータ転送回路３１の動作が実行不能であると判定した場合、実行可能となるまで待つ（Ｗａｉｔ）。制御回路３４は、上記の動作が実行可能となるまで待つ期間において、クロックイネーブル信号ＣＥ３をネゲートして無効（Ｄｉｓａｂｌｅ）に設定する。その結果、ゲーティッドクロックＧＣ３のトグルが停止される。ステートコントローラ３２の制御回路３４は、上記の動作が実行可能となりデコードステートＳＴ２から実行ステートＳＴ３に遷移するときに、クロックイネーブル信号ＣＥ３をアサートして有効（Ｅｎａｂｌｅ）に設定する。その結果、制御回路３４が実行ステートＳＴ３であるとき、ゲーティッドクロックＧＣ３のトグルが再開される。

　生成されたゲーティッドクロックＧＣ３は、図３３に示すように、ステートコントローラ３２の一部と、データ転送回路３１とに対して出力され、動作クロックとして使用される。

　クロック制御部３９は、アイドルステートＳＴ１において、クロックイネーブル信号ＣＥ３をネゲートして無効に設定してもよい。さらに、制御回路３４は、アイドルステートＳＴ１において、ゲーティッドクロックＧＣ３が提供される回路に対する電力提供を停止（パワーゲーティング）して、省電力モードに遷移してもよい。

［ＮＮ演算コア１０Ｇ］
　ＮＮ演算コア１０Ｇは、第一メモリ１と、第二メモリ２と、畳み込み演算回路４Ｇと、量子化演算回路５Ｇと、を備える。

［畳み込み演算回路４Ｇ］
　図３５は、畳み込み演算回路４Ｇの内部ブロック図である。
　畳み込み演算回路４Ｇは、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３と、ステートコントローラ４４と、クロック制御部４９と、を有する。

　クロック制御部４９は、ＮＮ回路１００Ｇに供給されるクロックＣＫから、クロックイネーブル信号ＣＥ４に基づいて、ゲーティッドクロック（第一クロック）ＧＣ４を生成する。図３４に示すように、クロックイネーブル信号ＣＥ４がネゲートされて無効（Ｄｉｓａｂｌｅ）に設定されると、ゲーティッドクロックＧＣ４のトグルが停止される。クロックイネーブル信号ＣＥ４がアサートされて有効（Ｅｎａｂｌｅ）に設定されると、ゲーティッドクロックＧＣ４のトグルが開始される。クロック制御部４９は、第一ＤＭＡＣ３Ｇのクロック制御部３９と同様の構成である。

　クロックイネーブル信号ＣＥ４は、ステートコントローラ４４によって制御される。ステートコントローラ４４の制御回路４６は、デコードステートＳＴ２において、命令コマンドＣ４において指示された乗算器４２やアキュムレータ回路４３等の動作が実行不能であると判定した場合、実行可能となるまで待つ（Ｗａｉｔ）。制御回路４６は、上記の動作が実行可能となるまで待つ期間において、クロックイネーブル信号ＣＥ４をネゲートして無効（Ｄｉｓａｂｌｅ）に設定する。その結果、ゲーティッドクロックＧＣ４のトグルが停止される。ステートコントローラ４４の制御回路４６は、上記の動作が実行可能となりデコードステートＳＴ２から実行ステートＳＴ３に遷移するときに、クロックイネーブル信号ＣＥ４をアサートして有効（Ｅｎａｂｌｅ）に設定する。その結果、制御回路４６が実行ステートＳＴ３であるとき、ゲーティッドクロックＧＣ４のトグルが再開される。

　生成されたゲーティッドクロックＧＣ４は、図３５に示すように、ステートコントローラ４４の一部と、重みメモリ４１と、乗算器４２と、アキュムレータ回路４３とに対して出力され、動作クロックとして使用される。

　クロック制御部４９は、アイドルステートＳＴ１において、クロックイネーブル信号ＣＥ４をネゲートして無効に設定してもよい。さらに、制御回路４６は、アイドルステートＳＴ１において、ゲーティッドクロックＧＣ４が提供される回路に対する電力提供を停止（パワーゲーティング）して、省電力モードに遷移してもよい。

［量子化演算回路５Ｇ］
　図３６は、量子化演算回路５Ｇの内部ブロック図である。
　量子化演算回路５Ｇは、量子化パラメータメモリ５１と、ベクトル演算回路５２と、量子化回路５３と、ステートコントローラ５４と、クロック制御部５９と、を有する。

　クロック制御部５９は、ＮＮ回路１００Ｇに供給されるクロックＣＫから、クロックイネーブル信号ＣＥ５に基づいて、ゲーティッドクロック（第三クロック）ＧＣ５を生成する。図３４に示すように、クロックイネーブル信号ＣＥ５がネゲートされて無効（Ｄｉｓａｂｌｅ）に設定されると、ゲーティッドクロックＧＣ５のトグルが停止される。クロックイネーブル信号ＣＥ５がアサートされて有効（Ｅｎａｂｌｅ）に設定されると、ゲーティッドクロックＧＣ５のトグルが開始される。クロック制御部５９は、第一ＤＭＡＣ３Ｇのクロック制御部３９と同様の構成である。

　クロックイネーブル信号ＣＥ５は、ステートコントローラ５４によって制御される。ステートコントローラ５４の制御回路５６は、デコードステートＳＴ２において、命令コマンドＣ５において指示されたベクトル演算回路５２や量子化回路５３等の動作が実行不能であると判定した場合、実行可能となるまで待つ（Ｗａｉｔ）。制御回路５６は、上記の動作が実行可能となるまで待つ期間において、クロックイネーブル信号ＣＥ５をネゲートして無効（Ｄｉｓａｂｌｅ）に設定する。その結果、ゲーティッドクロックＧＣ５のトグルが停止される。ステートコントローラ５４の制御回路５６は、上記の動作が実行可能となりデコードステートＳＴ２から実行ステートＳＴ３に遷移するときに、クロックイネーブル信号ＣＥ５をアサートして有効（Ｅｎａｂｌｅ）に設定する。その結果、制御回路５６が実行ステートＳＴ３であるとき、ゲーティッドクロックＧＣ５のトグルが再開される。

　生成されたゲーティッドクロックＧＣ５は、図３６に示すように、ステートコントローラ５４の一部と、量子化パラメータメモリ５１と、ベクトル演算回路５２と、量子化回路５３とに対して出力され、動作クロックとして使用される。

　クロック制御部５９は、アイドルステートＳＴ１において、クロックイネーブル信号ＣＥ５をネゲートして無効に設定してもよい。さらに、制御回路５６は、アイドルステートＳＴ１において、ゲーティッドクロックＧＣ５が提供される回路に対する電力提供を停止（パワーゲーティング）して、省電力モードに遷移してもよい。

　本実施形態に係るニューラルネットワーク回路１００Ｇによれば、クロックゲーティングやパワーゲーティングにより消費電力を削減することができる。第一ＤＭＡＣ３Ｇと畳み込み演算回路４Ｇと量子化演算回路５Ｇとは、それぞれ独立してクロックゲーティングやパワーゲーティングを実施する。

　以上、本発明の第三実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（第四実施形態）
　本発明の第四実施形態について、図３７を参照して説明する。以降の説明において、既に説明したものと共通する構成については、同一の符号を付して重複する説明を省略する。第四実施形態に係るニューラルネットワーク回路１００Ｈ（以下、「ＮＮ回路１００Ｈ」という）は、第一実施形態に係るニューラルネットワーク回路１００と比較して、マルチコア管理部１１をさらに有する。

［ＮＮ回路１００Ｈ］
　図３７は、本実施形態に係るＮＮ回路１００Ｈの全体構成を示す図である。
　ＮＮ回路１００Ｈは、第一ＤＭＡＣ３と、コントローラ６と、ＩＦＵ７と、共有メモリ８と、第二ＤＭＡＣ９と、少なくとも一つのＮＮ演算コア１０と、マルチコア管理部１１と、を備える。

　マルチコア管理部１１は、ＮＮ演算マルチコア１０Ｍの状態を監視して、ＮＮ演算コア１０に供給するクロックや電力を管理する。ＮＮ演算マルチコア１０Ｍのうち動作しているＮＮ演算コア１０に対してクロックや電力を供給し、動作していないＮＮ演算コア１０の少なくとも一部に対してクロックや電力を供給しない。すなわち、マルチコア管理部１１は、ＮＮ演算コア１０の動作状況に応じて、クロックゲーティングとパワーゲーティングの少なくとも一方をＮＮ演算コア１０ごとに実施する。ＮＮ回路１００Ｈは、ＮＮ演算コア１０を複数搭載することで演算性能を向上させることができ、かつ、回路規模増大に伴う消費電力の増加を好適に抑制できる。

　マルチコア管理部１１は、動作可能なＮＮ演算コア１０を強制的に選択可能であってもよい。例えば、マルチコア管理部１１は、一部のＮＮ演算コア１０を動作可能とし、他のＮＮ演算コア１０を動作不可と設定する。マルチコア管理部１１は、動作不可と設定されたＮＮ演算コア１０に対してクロックと電力の提供を停止する。マルチコア管理部１１は、動作可能なＮＮ演算コア１０を限定することで、演算性能の低下を伴うものの消費電力を低減できる。また、マルチコア管理部１１は、全てのＮＮ演算コア１０を動作可能に設定することで、消費電力の増加を伴うものの演算性能を向上させることができる。

　本実施形態に係るニューラルネットワーク回路１００Ｈによれば、クロックゲーティングやパワーゲーティングにより消費電力を削減することができる。マルチコア管理部１１は、ＮＮ演算コア１０ごとに独立してクロックゲーティングやパワーゲーティングを実施する。

　ＮＮ回路１００Ｈは、第三実施形態における第一ＤＭＡＣ３Ｇ、畳み込み演算回路４Ｇおよび量子化演算回路５Ｇが実施するクロックゲーゲーティングやパワーゲーティングを併せて実施してもよい。

　以上、本発明の第四実施形態について図面を参照して詳述したが、具体的な構成はこの実施形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計変更等も含まれる。また、上述の実施形態および変形例において示した構成要素は適宜に組み合わせて構成することが可能である。

（変形例１）
　上記実施形態において、複数のＮＮ演算コア１０はデイジーチェーン接続されていたが、複数のＮＮ演算コア１０の接続態様はこれに限定されない。ＮＮ演算コア１０は、少なくとも一つの他のＮＮ演算コア１０とデータ入出力可能に接続されていればよい。複数のＮＮ演算コア１０の接続態様が異なる場合も、ＮＮ回路１００はデータフローごとに設けられたセマフォＳを用いて制御される。

（変形例２）
　上記実施形態において、第一メモリ１と第二メモリ２は別のメモリであったが、第一メモリ１と第二メモリ２の態様はこれに限定されない。第一メモリ１と第二メモリ２は、例えば、同一メモリにおける第一メモリ領域と第二メモリ領域であってもよい。

（変形例３）
　上記実施形態において、セマフォＳは第一データフロー（Ｆ１１，Ｆ２１）、第二データフロー（Ｆ１２，Ｆ２２）、第三データフロー（Ｆ１３，Ｆ２３）および第四データフロー（Ｆ１４，Ｆ２４）に対して設けられていたが、セマフォＳの態様はこれに限定されない。セマフォＳは、例えば、第一ＤＭＡＣ３が重みｗを重みメモリ４１に書き込み、乗算器４２が重みｗを読み出すデータフローに設けられていてもよい。セマフォＳは、例えば、第一ＤＭＡＣ３が量子化パラメータｑを量子化パラメータメモリ５１に書き込み、量子化回路５３が量子化パラメータｑを読み出すデータフローに設けられていてもよい。

（変形例４）
　例えば、上記実施形態に記載のＮＮ回路１００に入力されるデータは単一の形式に限定されず、静止画像、動画像、音声、文字、数値およびこれらの組み合わせで構成することが可能である。なお、ＮＮ回路１００に入力されるデータは、ＮＮ回路１００が設けられるエッジデバイスに搭載され得る、光センサ、温度計、Global Positioning System（GPS）計測器、角速度計測器、風速計などの物理量測定器における測定結果に限られない。周辺機器から有線または無線通信経由で受信する基地局情報、車両・船舶等の情報、天候情報、混雑状況に関する情報などの周辺情報や金融情報や個人情報等の異なる情報を組み合わせてもよい。

（変形例５）
　ＮＮ回路１００が設けられるエッジデバイスは、バッテリー等で駆動する携帯電話などの通信機器、パーソナルコンピュータなどのスマートデバイス、デジタルカメラ、ゲーム機器、ロボット製品などのモバイル機器を想定するが、これに限られるものではない。Power on Ethernet（PoE）などでの供給可能なピーク電力制限、製品発熱の低減または長時間駆動の要請が高い製品に利用することでも他の先行例にない効果を得ることができる。例えば、車両や船舶などに搭載される車載カメラや、公共施設や路上などに設けられる監視カメラ等に適用することで長時間の撮影を実現できるだけでなく、軽量化や高耐久化にも寄与する。また、テレビやディスプレイ等の表示デバイス、医療カメラや手術ロボット等の医療機器、製造現場や建築現場で使用される作業ロボットなどにも適用することで同様の効果を奏することができる。

（変形例６）
　ＮＮ回路１００は、ＮＮ回路１００の一部または全部を一つ以上のプロセッサを用いて実現してもよい。例えば、ＮＮ回路１００は、入力層または出力層の一部または全部をプロセッサによるソフトウェア処理により実現してもよい。ソフトウェア処理により実現する入力層または出力層の一部は、例えば、データの正規化や変換である。これにより、様々な形式の入力形式または出力形式に対応できる。なお、プロセッサで実行するソフトウェアは、通信手段や外部メディアを用いて書き換え可能に構成してもよい。

（変形例７）
　ＮＮ回路１００は、ＣＮＮ２００における処理の一部をクラウド上のGraphics Processing Unit（GPU）等を組み合わせることで実現してもよい。ＮＮ回路１００は、ＮＮ回路１００が設けられるエッジデバイスで行った処理に加えて、クラウド上でさらに処理を行ったり、クラウド上での処理に加えてエッジデバイス上で処理を行ったりすることで、より複雑な処理を少ないリソースで実現できる。このような構成によれば、ＮＮ回路１００は、処理分散によりエッジデバイスとクラウドとの間の通信量を低減できる。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　本発明は、ニューラルネットワークの演算に適用することができる。

２００　畳み込みニューラルネットワーク
１００，１００Ｂ，１００Ｇ，１００Ｈ　ニューラルネットワーク回路（ＮＮ回路）
１０，１０Ｇ　ニューラルネットワーク演算コア（ＮＮ演算コア）
１０Ａ　第一ニューラルネットワーク演算コア（第一ＮＮ演算コア）
１０Ｂ　第二ニューラルネットワーク演算コア（第二ＮＮ演算コア）
１０Ｍ　ニューラルネットワーク演算マルチコア（ＮＮ演算マルチコア）
１１　マルチコア管理部
１　第一メモリ
２　第二メモリ
３，３Ｇ　第一ＤＭＡコントローラ（第一ＤＭＡＣ）
４，４Ｂ，４Ｇ　畳み込み演算回路
４２，４２Ｂ　乗算器
４３　アキュムレータ回路
４９　クロック制御部
５，５Ｇ　量子化演算回路
５２　ベクトル演算回路
５３　量子化回路
５９　クロック制御部
６　コントローラ
６１　レジスタ
７　ＩＦＵ
８　共有メモリ
９　第二ＤＭＡコントローラ（第二ＤＭＡＣ）
Ｓ　セマフォ
Ｓ１　第一セマフォ
Ｓ１１Ｒ，Ｓ２１Ｒ　第一リードセマフォ
Ｓ１１Ｗ，Ｓ２１Ｗ　第一ライトセマフォ
Ｓ２　第二セマフォ
Ｓ１２Ｒ，Ｓ２２Ｒ　第二リードセマフォ
Ｓ１２Ｗ，Ｓ２２Ｗ　第二ライトセマフォ
Ｓ３　第三セマフォ
Ｓ１３Ｒ，Ｓ２３Ｒ　第三リードセマフォ
Ｓ１３Ｗ，Ｓ２３Ｗ　第三ライトセマフォ
Ｓ４　第四セマフォ
Ｓ１４Ｒ，Ｓ２４Ｒ　第四リードセマフォ
Ｓ１４Ｗ，Ｓ２４Ｗ　第四ライトセマフォ
Ｆ１１，Ｆ２１　第一データフロー
Ｆ１２，Ｆ２２　第二データフロー
Ｆ１３，Ｆ２３　第三データフロー（ループバックデータフロー）
Ｆ１４，Ｆ２４　第四データフロー（バイパスデータフロー）

Claims

　畳み込み演算を行う畳み込み演算回路と、量子化演算を行う量子化演算回路と、を有するニューラルネットワーク演算コアを複数有し、
　前記複数のニューラルネットワーク演算コアは、データ入出力可能に接続されている、
　ニューラルネットワーク回路。
　前記複数のニューラルネットワーク演算コアは、デイジーチェーン接続されている、
　請求項１に記載のニューラルネットワーク回路。
　最終段以外の前記ニューラルネットワーク演算コアは、後段の前記ニューラルネットワーク演算コアに接続され、
　最終段の前記ニューラルネットワーク演算コアは、最初段の前記ニューラルネットワーク演算コアに接続されている、
　請求項１に記載のニューラルネットワーク回路。
　前記ニューラルネットワーク演算コアは、
　　前記畳み込み演算回路に入力される入力データを格納する第一メモリと、
　　前記畳み込み演算回路の畳み込み演算出力データを格納する第二メモリと、
　を備え、
　前記量子化演算回路の量子化演算出力データは、前記第一メモリに格納されて、
　前記第一メモリに格納された前記量子化演算出力データは、前記畳み込み演算回路に前記入力データとして入力される、
　請求項１から請求項３のいずれか一項に記載のニューラルネットワーク回路。
　前記ニューラルネットワーク演算コアである第一ニューラルネットワーク演算コアと第二ニューラルネットワーク演算コアにおいて、
　前記第一ニューラルネットワーク演算コアの前記量子化演算回路の前記量子化演算出力データは、前記第二ニューラルネットワーク演算コアの前記第一メモリに格納可能である、
　請求項４に記載のニューラルネットワーク回路。
　前記ニューラルネットワーク演算コアにおいて、前記第一メモリと、前記畳み込み演算回路と、前記第二メモリと、前記量子化演算回路とは、ループ状に形成されている、
　請求項５に記載のニューラルネットワーク回路。
　前記第一メモリと、前記畳み込み演算回路と、前記第二メモリと、前記量子化演算回路とは、同じ順番で繰り返し配列するよう接続されている、
　請求項６に記載のニューラルネットワーク回路。
　前記第一ニューラルネットワーク演算コアの前記量子化演算回路が前記量子化演算出力データを前記第一ニューラルネットワーク演算コアの前記第一メモリに書き込み、前記第一ニューラルネットワーク演算コアの前記畳み込み演算回路が前記量子化演算出力データを読み出すデータフローを制御する第三セマフォと、
　前記第二ニューラルネットワーク演算コアの前記量子化演算回路が前記量子化演算出力データを前記第一ニューラルネットワーク演算コアの前記第一メモリに書き込み、前記第一ニューラルネットワーク演算コアの前記畳み込み演算回路が前記量子化演算出力データを読み出すデータフローを制御する第四セマフォと、
　を備える、
　請求項６に記載のニューラルネットワーク回路。
　前記畳み込み演算回路は、前記畳み込み演算の実行を待ち合わせるとき、前記畳み込み演算回路の少なくとも一部に供給される第一クロックのクロックゲーティングを有効にする、
　請求項１に記載のニューラルネットワーク回路。
　前記量子化演算回路は、前記量子化演算の実行を待ち合わせるとき、前記量子化演算回路の少なくとも一部に供給される第二クロックのクロックゲーティングを有効にする、
　請求項１に記載のニューラルネットワーク回路。
　前記複数のニューラルネットワーク演算コアのそれぞれに供給するクロックを管理するマルチコア管理部をさらに有する、
　請求項１に記載のニューラルネットワーク回路。
　第一ニューラルネットワーク演算コアと第二ニューラルネットワーク演算コアを用いるニューラルネットワーク演算方法であって、
　前記第一ニューラルネットワーク演算コアの出力データを、前記第一ニューラルネットワーク演算コアにループバックさせるループバックデータフローと、第二ニューラルネットワーク演算コアにバイパスさせるバイパスデータデータフローと、を切り替える、
　ニューラルネットワーク演算方法。