WO2020194594A1

WO2020194594A1 - ニューラルネットワーク演算処理装置及びニューラルネットワーク演算処理方法

Info

Publication number: WO2020194594A1
Application number: PCT/JP2019/013327
Authority: WO
Inventors: 慶太須田
Original assignee: Tdk株式会社
Priority date: 2019-03-27
Filing date: 2019-03-27
Publication date: 2020-10-01
Also published as: US11681498B2; US20200349419A1

Abstract

積和演算の更なる高速化、効率化を実現することができ、且つ回路規模の増大を抑制し、更には簡便な設計で積和演算を行うことができるニューラルネットワーク演算処理装置を提供する。　ニューラルネットワーク演算処理装置（１）は、第１積和演算器（１０）と、第１積和演算器（１０）に接続されたレジスタ（２０）と、レジスタ（２０）に接続された第２積和演算器（３０）とを備える。第１積和演算器（１０）は、第１メモリ（１１）、第２メモリ（１２）、第１乗算器（１３）、第１加算器（１４）及び第１出力部（１５）を有する。第２積和演算器（３０）は、入力部（３１）、第３メモリ（３２）、第２乗算器（３３－１），（３３－２）、第２加算器（３４－１），（３４－２）及び第２出力部（３５－１），（３５－２）を有する。

Description

ニューラルネットワーク演算処理装置及びニューラルネットワーク演算処理方法

　本発明は、ニューラルネットワーク演算処理装置及びニューラルネットワーク演算処理方法に関し、特に、ニューラルネットワークの積和演算をデジタルで行うニューラルネットワーク演算処理装置に関する。

　ニューラルネットワークは、金融、マーケティング、認証、セキュリティなどの広い分野で、深層学習をはじめ、高度な情報の識別技術、分類技術に実用化されている。上記のような技術では、高機能化等に伴い、膨大な量の積和演算が必要であることから、積和演算の高速化、効率化が重要となっている。

　ニューラルネットワークは、一般的にニューラルネットの層数が多くなるほど高性能になる。しかし、層数が多くなると、回路規模が増大するほか、演算量も増大し、多くの演算時間が必要になる。よって、演算機能の向上と性能の双方を考慮しながらデバイスを構成する必要がある。

　従来、乗算器、加算器、メモリ、レジスタなどの相互の結合の切り換えをセレクタによって実行し、かつ複数のプロセッサエレメント（ＰＥ）を２次元的に配列してその各列と各行にメモリと加算器を付加した行列演算装置と、該行列演算装置とは並列に動作可能であり、行列計算以外の計算を行う補助演算装置とを備えたニューロプロセッサが提案されている（特許文献１）。本構成では、各プロセッサエレメントに割り当てられた行列計算を効率良く柔軟に行うことができ、また、行列計算以外の計算を別に備えた補助演算装置によって並列に行うことにより、膨大な演算を高速に処理できるとされている。

特開平０５－３４６９１４号公報

　しかしながら、上記のような技術では、一つの層内では演算処理を並列化することで高速な演算が可能であるものの、演算機能を次段でも適用すると、ニューラルネットワーク全体としては非効率であり、積和演算の高速化、効率化が十分とは言えない。

　一般に、積和演算の高速化、効率化を実現するための方法として、一つの層内で演算処理を並列化したり、パイプライン化する方法がある。また、層数が何層になるかはどのようなものを処理対象とするかに因って変化するため、汎用性等の観点から、演算機能は１層で完結し、当該演算機能を次段でも適用する方法が多い。

　例えば、簡易的な演算処理として、２つの変数の読み出し、該２つの変数の和算、及び和算の値のメモリへの書き込みの一連の動作を、３回繰り返して行うことを想定する。通常の演算の場合、関数の入力が３クロック毎に読み出され、和算の値がその２サイクル後に出力されるため、演算処理全体に掛かる時間は、３クロック×３（回）＝９クロックとなる。

　この演算処理を並列化した場合、９クロックより短い３クロックで演算処理を完了することができるが、複数のデータを同時に読み出し及び書き込みできる回路としなければならず、また、並列化した数と同じ数の演算器が必要になるため、回路規模が増大する。

　また、上記演算処理をパイプライン化した場合、層間のレジスタを用いて３クロック遅れたタイミングで順次上記一連の動作を行うため、９クロックよりも短い時間で演算処理を完了することができ、また、１つの演算器で実行できるので回路規模の増大を抑制できる。しかし、更なる高速化を実現するためには時間的な綿密な設計が必要となり、煩雑である。また、実際のニューラルネットワークの演算では、膨大な演算を行うため、並列化やパイプライン化を効率よく組み合わせ、回路規模を抑えつつ、高速な演算を実現するように回路を設計する必要があるが、層内での効率化だけに留まっており、十分とは言えない。

　本発明の目的は、積和演算の更なる高速化、効率化を実現することができ、且つ回路規模の増大を抑制し、更には簡便な設計で積和演算を行うことができるニューラルネットワーク演算処理装置及びニューラルネットワーク演算処理方法を提供することにある。

　上記目的を達成するために、本発明は以下の手段を提供する。

［１］１以上の第１積和演算器と、
　前記１以上の第１積和演算器に接続された１以上のレジスタと、
　前記１以上のレジスタに接続された１以上の第２積和演算器と、を備え、
　前記第１積和演算器は、
　複数の第１入力変数を格納した第１メモリと、
　複数の第１重みデータを格納した第２メモリと、
　前記第１入力変数と前記第１重みデータとの積の複数を演算する１以上の第１乗算器と、
　前記１以上の第１乗算器で乗算された前記積の複数の和を演算する１以上の第１加算器と、
　前記１以上の第１加算器で加算された前記和の複数を、複数の第２入力変数として前記レジスタに出力する１以上の第１出力部と、を有し、
　前記第２積和演算器は、
　複数の第２重みデータを格納した第３メモリと、
　前記第２重みデータと前記レジスタに保持された前記第２入力変数との積の複数を演算する１以上の第２乗算器と、
　前記１以上の第２乗算器で乗算された前記積の複数の和を演算する１以上の第２加算器と、
　前記１以上の第２加算器で加算された前記和の複数を、複数の出力値として出力する１以上の第２出力部と、を有する、
　ニューラルネットワーク演算処理装置。

［２］前記第２積和演算器で実行される演算処理の少なくとも一部を、前記第１積和演算器で実行される演算処理と並列に実行する、請求項１に記載のニューラルネットワーク演算処理装置。

［３］前記第１積和演算器１０で実行される演算処理Ｐ１を構成する演算数が（ｎ＋１）（ｎは０以上の整数）であり、前記第２積和演算器で実行される演算処理Ｐ２を構成する演算数が（ｑ＋１）（ｑは０以上の整数）である場合、
　前記第１積和演算器で実行される前記演算処理Ｐ１の並列数Ｌ１は、演算数（ｎ＋１）の約数であり、前記第２積和演算器で実行される前記演算処理Ｐ２の並列数Ｌ２は、演算数（ｑ＋１）の約数である、請求項２に記載のニューラルネットワーク演算処理装置。

［４］前記演算処理Ｐ１を構成するパイプライン数Ｃ１及び前記演算処理Ｐ２を構成するパイプライン数Ｃ２の双方が、前記演算数（ｎ＋１）と前記演算数（ｑ＋１）の最大公約数である、上記［３］に記載のニューラルネットワーク演算処理装置。

［５］前記第２積和演算器で実行される演算処理が終了するタイミングが、前記第１積和演算器の演算処理が終了するタイミングと同じである、上記［３］又は［４］に記載のニューラルネットワーク演算処理装置。

［６］前記第２メモリ及び前記第３メモリの各々が、リングバッファメモリである、上記［１］に記載のニューラルネットワーク演算処理装置。

［７］前記第１積和演算器と前記レジスタとの間と、前記レジスタと前記第２積和演算器との間の少なくとも一方に、活性化関数を用いて演算する１以上の活性化関数演算処理部を更に備える、上記［１］に記載のニューラルネットワーク演算処理装置。

［８］前記１以上の第１乗算器は、複数の第１乗算器であり、
　前記１以上の第１加算器は、複数の第１加算器である、上記［２］～［７］のいずれかに記載のニューラルネットワーク演算処理装置。

［９］前記１以上の第２積和演算器は、複数の前記第２積和演算器であり、
　前記複数の前記第２積和演算器が、前記１以上の第１積和演算器と並列に動作する、上記［２］～［８］のいずれかに記載のニューラルネットワーク演算処理装置。

［１０］前記１以上の第１積和演算器は、複数の前記第１積和演算器であり、
　前記複数の前記第１積和演算器が、前記１以上の第２積和演算器と並列に動作する、上記［２］～［８］のいずれかに記載のニューラルネットワーク演算処理装置。

［１１］前記１以上の第１積和演算器は、複数の前記第１積和演算器であり、
前記１以上の第２積和演算器は、複数の前記第２積和演算器であり、
　前記複数の前記第１積和演算器が、前記複数の第２積和演算器と並列に動作する、上記［２］～［８］のいずれかに記載のニューラルネットワーク演算処理装置。

［１２］第１入力変数と第１重みデータとの積の複数を演算すると共に、前記積の複数の和を演算する第１演算工程と、
　前記第１演算工程で演算された前記和の複数を、複数の第２入力変数として保持する保持工程と、
　第２重みデータと前記第２入力変数との積の複数を演算すると共に、前記積の複数の和を演算する第２演算工程と、
　前記第２演算工程で演算された前記和の複数を、複数の出力値として出力する第２出力工程と、を有し、
　前記第２演算工程で実行される演算処理の少なくとも一部を、前記第１演算工程で実行される演算処理と並列して実行する、ニューラルネットワーク演算処理方法。

　本発明によれば、積和演算の更なる高速化、効率化を実現することができ、且つ回路規模の増大を抑制し、更には簡便な設計で積和演算を行うことができるニューラルネットワーク演算処理装置及びニューラルネットワーク演算処理方法を提供することができる。

図１は、本発明の実施形態に係るニューラルネットワーク演算処理装置の構成の一例を概略的に示す模式図である。図２（ａ）は、図１のニューラルネットワーク演算処理装置が適用されるニューラルネットワークの構成の一例を示す模式図であり、図２（ｂ）は、図２（ａ）の第１積和演算器の演算を示す図、図２（ｃ）は、図２（ａ）の第２積和演算器の演算を示す図である。図３（ａ）は、図２のニューラルネットワークにおける第一段階での信号のフローを示す図であり、図３（ｂ）は、図３（ａ）のフローにおける第１積和演算器の演算を示す図、図３（ｃ）は、図３（ａ）のフローにおける第２積和演算器の演算を示す図である。図４（ａ）は、図２のニューラルネットワークにおける第二段階での信号のフローを示す図であり、図４（ｂ）は、図４（ａ）のフローにおける第１積和演算器の演算を示す図、図４（ｃ）は、図４（ａ）のフローにおける第２積和演算器の演算を示す図である。図５（ａ）は、図２のニューラルネットワークにおける第三段階での信号のフローを示す図であり、図３（ｂ）は、図３（ａ）のフローにおける第１積和演算器の演算を示す図、図３（ｃ）は、図３（ａ）のフローにおける第２積和演算器の演算を示す図である。図６（ａ）は、図２のニューラルネットワークにおける第四段階での信号のフローを示す図であり、図６（ｂ）は、図６（ａ）のフローにおける第１積和演算器の演算を示す図、図６（ｃ）は、図６（ａ）のフローにおける第２積和演算器の演算を示す図である。図７（ａ）は、図２のニューラルネットワークにおける第五段階での信号のフローを示す図であり、図７（ｂ）は、図７（ａ）のフローにおける第１積和演算器の演算を示す図、図７（ｃ）は、図７（ａ）のフローにおける第２積和演算器の演算を示す図である。図８は、図２における第１積和演算器で実行される演算処理と、第２積和演算器で実行される演算処理のタイムチャートの一例を示す図である。図９は、図２における第１積和演算器で実行される演算処理の並列数及びパイプライン数と、第２積和演算器で実行される演算処理の並列数及びパイプライン数の一例を示す模式図であり、図９（ｂ）は、図９（ａ）における第１積和演算器の演算処理と、第２積和演算器の演算処理のタイムチャートの変形例を示す図である。図１０は、図１のニューラルネットワーク演算処理装置の構成の変形例を概略的に示す模式図である。図１１は、図１０のニューラルネットワーク演算処理装置で実行されるニューラルネットワーク演算処理方法の一例を示すフローチャートである。図１２は、図１のニューラルネットワーク演算処理装置の構成の他の変形例を概略的に示す模式図である。図１３は、図１０における第１積和演算器及び第２積和演算器の構成の変形例を概略的に示す模式図である。図１４は、図１０のニューラルネットワーク演算処理装置の構成の変形例を概略的に示す模式図である。

　以下、本発明の実施形態について、図面を参照して詳細に説明する。

［ニューラルネットワーク演算処理装置の構成］
　図１は、本発明の実施形態に係るニューラルネットワーク演算処理装置の構成の一例を概略的に示す模式図である。
　図１に示すように、ニューラルネットワーク演算処理装置１は、第１積和演算器１０と、第１積和演算器１０に接続されたレジスタ２０と、レジスタ２０に接続された第２積和演算器３０とを備える。

　第１積和演算器１０は、複数の第１入力変数を格納した第１メモリ１１と、複数の第１重みデータを格納した第２メモリ１２と、上記第１入力変数と上記第１重みデータとの積の複数を演算する第１乗算器１３と、第１乗算器１３で乗算された積の複数の和を演算する第１加算器１４と、第１加算器１４で加算された上記和の複数を、複数の第２入力変数としてレジスタ２０に出力する第１出力部１５とを有する。本実施形態では、第１積和演算器１０は、デジタル積和演算回路を構成している。

　第１メモリ１１は、複数の第１入力変数ｘ_０，ｘ_１，ｘ_２，…ｘ_ｎ（ｎは０以上の整数）を格納しており、第１積和演算器１０によって複数の第１入力変数ｘ_０，ｘ_１，ｘ_２，…ｘ_ｎが読み出される。第１メモリ１１は、例えば、複数の第１入力変数ｘ_０，ｘ_１，ｘ_２，…ｘ_ｎを（ｎ＋１）行１列の行列Ａ（ｎ次元の列ベクトル）として格納している。第１メモリ１１は、リングバッファメモリで構成されてもよい。第１入力変数を格納するメモリはランダムアクセス性を要しないため、第１メモリ１１をリングバッファメモリで構成することで、第１積和演算器１０を簡便な構成とすることができる。また、第１メモリ１１は、第１入力変数以外の他のデータを書き込んで格納するように構成することができる。

　第２メモリ１２は、複数の第１重みデータω_００，ω_０１，ω_０２，…ω_ｍｎ（ｍは０以上の整数）を格納しており、第１積和演算器１０によって複数の第１重みデータω_００，ω_０１，ω_０２，…ω_ｍｎが読み出される。第２メモリ１２は、例えば複数の第１重みデータを（ｍ＋１）行（ｎ＋１）列の行列Ｂとして格納している。また、第２メモリ１２は、第１重みデータ以外の他のデータを書き込んで格納するように構成することができる。

　第２メモリ１２は、リングバッファメモリで構成されてもよい。第１重みデータを格納するメモリはランダムアクセス性を要しないため、第２メモリ１２をリングバッファメモリで構成することで、第１積和演算器１０を簡便な構成とすることができる。

　本実施形態では、第１積和演算器１０は、第１メモリ１１及び第２メモリ１２を備えているが、これに限られず、第１メモリ１１及び第２メモリ１２に代えて、上記複数の第１入力変数及び上記複数の第１重みデータを格納する一のメモリを備えてもよい。一のメモリを共有化することで、回路規模の増大を抑制できる。

　第１乗算器１３は、第１入力変数ｘ_０，ｘ_１，ｘ_２，…ｘ_ｎのうちのｘ_ｉと、第１重みデータω_００，ω_０１，ω_０２，…ω_ｍｎのうちのω_ｊｋを入力として、これらの積ω_ｊｋｘ_ｉを出力する。第１乗算器１３は、デジタル乗算器で構成されている。

　第１加算器１４は、第１乗算器１３で乗算された積ω_ｊｋｘ_ｉの複数を入力として、複数の積ω_ｊｋｘ_ｉの和Σω_ｊｋｘ_ｉを第２入力変数ｉ_０，ｉ_１，ｉ_２，…ｉ_ｍ（ｍは０以上の整数）として出力する。第１加算器１４は、デジタル加算器で構成されている。

　上記第１乗算器１３及び第１加算器１４の演算は、例えば（ｍ＋１）行（ｎ＋１）列の行列Ｂと、（ｎ＋１）行１列の行列Ａとの積ＢＡで表すことができる。この場合、第１加算器１４から出力される複数の第２入力変数ｉ_０，ｉ_１，ｉ_２，…ｉ_ｍは、（ｍ＋１）行１列の行列Ｃとして表される。

　レジスタ２０は、第１積和演算器１０の第１出力部１５から出力された上記和の複数を、複数の第２入力変数として保持する。また、レジスタ２０は、上記複数の第２入力変数を、第２積和演算器３０に出力する。

　第２積和演算器３０は、レジスタ２０から出力された上記複数の第２入力変数が入力される入力部３１と、複数の第２重みデータを格納した第３メモリ３２と、第２重みデータとレジスタ２０に保持された上記第２入力変数との積の複数を演算する第２乗算器３３－１，３３－２と、第２乗算器３３－１，３３－２でそれぞれ乗算された積の複数の和を演算する第２加算器３４－１，３４－２と、第２加算器３４－１，３４－２でそれぞれ加算された前記和の複数を、複数の出力値として出力する第２出力部３５－１，３５－２とを有する。本実施形態では、第２積和演算器３０は、第１積和演算器１０と同様、デジタル積和演算回路を構成している。

　第３メモリ３２は、複数の第２重みデータｗ_００，ｗ_０１，ｗ_０２，…ｗ_ｐｑ（ｐ、ｑは共に０以上の整数）を格納しており、第２積和演算器３０によって複数の第２重みデータｗ_００，ｗ_０１，ｗ_０２，…ｗ_ｐｑが読み出される。第３メモリ３２は、例えば複数の第２重みデータを（ｐ＋１）行（ｑ＋１）列の行列Ｄとして格納している。一例としては、ｐ＝ｍ－１、ｑ＋１＝ｍ＋１、すなわちｑ＝ｍとして、複数の第２重みデータが（ｐ＋１）行（ｍ＋１）列の行列Ｄとして格納される。

　第３メモリ３２は、リングバッファメモリで構成されてもよい。第２重みデータを格納するメモリはランダムアクセス性を要しないため、第３メモリ３２をリングバッファメモリで構成することで、第２積和演算器３０を簡便な構成とすることができる。

　第２乗算器３３－１は、複数の第２入力変数ｉ_０，ｉ_１，ｉ_２，…ｉ_ｍのうちのｉ_ｉと、第２重みデータｗ_００，ｗ_０１，ｗ_０２，…ｗ_ｐｑのうちのｗ_ｊｋを入力として、これらの積ｗ_ｊｋｉ_ｉを出力する。第２乗算器３３－１は、デジタル乗算器で構成されている。第２乗算器３３－２も、第２乗算器３３－１と同様の構成であるので、その説明を省略する。本実施形態では、第２積和演算器３０は、２つの第２乗算器３３－１，３３－２を有しているが、これに限られず、一の第２乗算器を有していてもよい。

　第２加算器３４－１は、第２乗算器３３－１で乗算された積ｗ_ｊｋｉ_ｉの複数を入力として、複数の積ｗ_ｊｋｉ_ｉの和Σｗ_ｊｋｉ_ｉを複数の出力値ｙ_０，ｙ_１，ｙ_２，…ｙ_ｐとして出力する。一例としては、ｐ＝ｍ－１、ｑ＝ｍとして、複数の積ｗ_ｊｋｉ_ｉの和Σｗ_ｊｋｉ_ｉが複数の出力値ｙ_０，ｙ_１，ｙ_２，…ｙ_ｍ－１（ｍは０以上の整数）として出力される。第２加算器３４－１は、デジタル加算器で構成されている。第２加算器３４－２も、第２加算器３４－１と同様の構成であるので、その説明を省略する。本実施形態では、第２積和演算器３０は、２つの第２加算器３４－１，３４－２を有しているが、これに限られず、一の第２加算器を有していてもよい。

　第２出力部３５－１は、複数の出力値ｙ_０，ｙ_１，ｙ_２，…ｙ_ｐを外部に出力する。第２出力部３５－２は、第２出力部３５－１と同様の構成であるので、その説明を省略する。本実施形態では、第２積和演算器３０は、２つの第２出力部３５－１，３５－２を有しているが、これに限られず、一の第２出力部を有していてもよい。

　第２乗算器３３－１，３３－２及び第２加算器３４－１，３４－２の演算は、例えば（ｐ＋１）行（ｑ＋１）列の行列Ｄと、（ｍ＋１）行１列の行列Ｃとの積ＤＣで表すことができる。一例としては、ｐ＋１＝ｍ、ｑ＋１＝ｍ＋１として、ｍ行（ｍ＋１）列の行列Ｄと、（ｍ＋１）行１列の行列Ｃとの積ＤＣで表され、この場合、第２加算器３４－１，３４－２から出力される複数の出力値ｙ_０，ｙ_１，ｙ_２，…ｙ_ｍ－１は、ｍ行１列の行列Ｅとして表される。

　本実施形態では、第２積和演算器３０は、２つの第２乗算器３３－１，３３－２、第２加算器３４－１，３４－２及び２つの第２出力部３５－１，３５－２を有しているが、これに限られず、一の第２乗算器、一の第２加算器及び一の第２出力部を有していてもよい。

　図２（ａ）は、図１のニューラルネットワーク演算処理装置１が適用されるニューラルネットワーク４０の構成の一例を示す模式図である。
　図２に示すように、ニューラルネットワーク４０は、入力層４１と、隠れ層４２（中間層ともいう）と、出力層４３と、入力層４１と隠れ層４２との間の演算を行う第１積和演算器１０と、隠れ層４２と出力層４３との間の演算を行なう第２積和演算器３０とを備えている。

　入力層４１は、例えば５つのノード４１Ａ，４１Ｂ，４１Ｃ，４１Ｄ，４１Ｅを備えている。入力層４１の５つのノード４１Ａ，４１Ｂ，４１Ｃ，４１Ｄ，４１Ｅに、それぞれ５個の第１入力変数ｘ_０，ｘ_１，ｘ_２，ｘ_３，ｘ_４が与えられる。

　隠れ層４２は、例えば４つのノード４２Ａ，４２Ｂ，４２Ｃ，４２Ｄを備えている。図２の例では、隠れ層４２の４つのノード４２Ａ，４２Ｂ，４２Ｃ，４２Ｄに、それぞれ４個の第２入力変数ｉ_０，ｉ_１，ｉ_２，ｉ_３が与えられる。４個の第２入力変数ｉ_０，ｉ_１，ｉ_２，ｉ_３は、図２（ｂ）に示すように、４行１列の行列Ｃで表され、２０個の第１重みデータω_００～ω_３４を表す４行５列の行列Ｂと、５個の第１入力変数ｘ_０～ｘ_４を表す５行１列の行列Ａとの積ＢＡによって算出される。本実施形態では、隠れ層４２は単層で構成されるが、これに限られず、複数層で構成されてもよい。

　出力層４３は、例えば３つのノード４３Ａ，４３Ｂ，４３Ｃを備えている。
図２の例では、出力層４３の３つのノード４３Ａ，４３Ｂ，４３Ｃに、それぞれ３個の出力値ｙ_０，ｙ_１，ｙ_２が与えられる。３個の出力値ｙ_０，ｙ_１，ｙ_２は、図２（ｃ）に示すように、３行１列の行列Ｅで表され、１２個の第２重みデータｗ_００～ｗ_２３を表す３行４列の行列Ｄと、４個の第２入力変数ｉ_０～ｉ_３を表す４行１列の行列Ｃとの積ＤＣによって算出される。

　図２のニューラルネットワーク４０において、第２積和演算器３０は、第２乗算器３３－１，３３－２及び第２加算器３４－１，３４－２で実行される演算処理の少なくとも一部を、第１積和演算器１０の第１乗算器１３及び第１加算器１４で実行される演算処理と並列に実行する。

　具体的には、先ず、図３（ａ）及び図３（ｂ）に示すように、第１積和演算器１０が、隠れ層４２において５個の第１重みデータω_００～ω_０４と５個の第１入力変数ｘ_０～ｘ_４から第２入力変数ｉ_０を算出する。
　次に、図４（ａ）及び図４（ｂ）に示すように、第１積和演算器１０が隠れ層４２において５個の第１重みデータω_１０～ω_１４と５個の第１入力変数ｘ_０～ｘ_４から第２入力変数ｉ_１を算出すると共に、図４（ｃ）に示すように、第２積和演算器３０が、４個の第２重みデータｗ_００，ｗ_１０，ｗ_２０と第２入力変数ｉ_０から、これらの積ｗ_００ｉ_０、ｗ_１０ｉ_０、ｗ_２０ｉ_０を算出する。

　次いで、図５（ａ）及び図５（ｂ）に示すように、第１積和演算器１０が隠れ層４２において５個の第１重みデータω_２０～ω_２４と５個の第１入力変数ｘ_０～ｘ_４から第２入力変数ｉ_２を算出すると共に、図５（ｃ）に示すように、第２積和演算器３０が、４個の第２重みデータｗ_０１，ｗ_１１，ｗ_２１と第２入力変数ｉ_１から、これらの積ｗ_０１ｉ_１、ｗ_１１ｉ_１、ｗ_２１ｉ_１を算出する。

　同様にして、図６（ａ）及び図６（ｂ）に示すように、第１積和演算器１０が隠れ層４２において５個の第１重みデータω_３０～ω_３４と５個の第１入力変数ｘ_０～ｘ_４から第２入力変数ｉ_３を算出すると共に、図６（ｃ）に示すように、第２積和演算器３０が、４個の第２重みデータｗ_０２，ｗ_１２，ｗ_２２と第２入力変数ｉ_２から、これらの積ｗ_０２ｉ_２、ｗ_１２ｉ_２、ｗ_２２ｉ_２を算出する。

　そして、図７（ａ）及び図７（ｂ）に示すように、第２積和演算器３０は、４個の第２重みデータｗ_０３，ｗ_１３，ｗ_２３と第２入力変数ｉ_３から、これらの積ｗ_０３ｉ_３、ｗ_１３ｉ_３、ｗ_２３ｉ_３を算出する。これにより、３個の出力値ｙ_０，ｙ_１，ｙ_２が得られる。このように第１積和演算器１０の演算処理と、第２積和演算器３０の演算処理とが同時期に進行することで、第１積和演算器１０における第２入力変数ｉ_０～ｉ_３の演算処理が開始してから出力値ｙ_０～ｙ_２が得られるまでの時間が短縮される。特に、第１積和演算器１０において第２入力変数ｉ_０～ｉ_３の演算処理が終了した後に第２積和演算器３０において出力値ｙ_０～ｙ_２の演算処理を実行する場合と比較して、演算処理に掛かる時間が大幅に短縮される。

　図８は、図２における第１積和演算器１０で実行される演算処理と、第２積和演算器３０で実行される演算処理のタイムチャートの一例を示す図である。
　図８において、第１積和演算器１０で実行される演算処理を、第一段階から第（ｍ＋１）段階に分け、各段階で複数の演算処理Ｐ１Ａ（１）、Ｐ１Ａ（２），…Ｐ１Ａ（ｎ＋１）（ｎは０以上の整数）が実行される場合を想定する。また、第２積和演算器３０で実行される演算処理を第一段階から第（ｐ＋１）段階に分け、各段階で複数の演算処理Ｐ２Ａ（１）、Ｐ２Ａ（２），…Ｐ２Ａ（ｑ＋１）（ｑは０以上の整数）が実行されることを想定する。このとき、第２積和演算器３０で実行される演算処理Ｐ２Ａ（１）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（２）の処理時間Ｔ１Ａ（２）と並列して実行される。また、第２積和演算器３０で実行される演算処理Ｐ２Ａ（２）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（３）と並列して実行される。以後同様にして、第２積和演算器３０で実行される演算処理Ｐ２Ａ（ｉ）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（ｉ＋１）と並行して実行される。

　本実施形態では、第２積和演算器３０で実行される演算処理Ｐ２Ａ（ｉ）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（ｉ＋１）と同時に開始される。また、第２積和演算器３０で実行される演算処理Ｐ２Ａに掛かる時間Ｔ２Ａ（ｉ）が、第１積和演算器１０で実行される演算処理Ｐ１Ａに掛かる時間Ｔ１Ａ（ｉ＋１）よりも短い。よって、第２積和演算器３０で実行される演算処理Ｐ２Ａ（ｉ）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（ｉ＋１）が終了する前に終了する。

　また、本実施形態では、第２積和演算器３０で実行される演算処理Ｐ２Ａ（ｉ）の処理時間Ｔ２Ａ（ｉ）の全体が、第１積和演算器１０で実行される演算処理Ｐ１Ａ（ｉ＋１）の処理時間Ｔ１Ａ（ｉ＋１）の一部と重複する。これにより、第１積和演算器１０における演算処理Ｐ１Ａ（１），Ｐ１Ａ（２），…Ｐ１Ａ（ｎ＋１）の全てが終了した後に第２積和演算器３０における演算処理Ｐ２Ａ（１），Ｐ２Ａ（２），…Ｐ２Ａ（ｑ＋１）を実行する場合と比較して、演算処理Ｐ２Ａ（１），Ｐ２Ａ（２），…Ｐ２Ａ（ｑ＋１）に掛かる総処理時間の総和ΣＴ２Ａ（ｉ）の分、処理時間が短縮される。

　第２積和演算器３０で実行される演算処理Ｐ２Ａ（ｉ）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（ｉ＋１）の少なくとも一部と重複していればよい。また、第２積和演算器３０で実行される演算処理Ｐ２Ａ（ｉ）は、第１積和演算器１０で実行される演算処理Ｐ１Ａ（ｉ＋１）と同時に開始されなくてもよく、演算処理Ｐ１Ａ（ｉ＋１）が開始する前に開始してもよいし、演算処理Ｐ１Ａ（ｉ＋１）が開始した後に開始してもよい。

　図９（ａ）は、図２における第１積和演算器１０で実行される演算処理Ｐ１の並列数及びパイプライン数の一例と、第２積和演算器３０で実行される演算処理Ｐ２の並列数及びパイプライン数の一例を示す模式図である。図９（ｂ）は、図９（ａ）における第１積和演算器１０の演算処理Ｐ１と、第２積和演算器３０の演算処理Ｐ２のタイムチャートの変形例を示す図である。

　図９（ａ）に示すように、第１積和演算器１０で実行される演算処理Ｐ１Ｂを構成する演算数が（ｎ＋１）（ｎは０以上の整数）であり、第２積和演算器３０で実行される演算処理Ｐ２Ｂを構成する演算数が（ｑ＋１）（ｑは０以上の整数）である場合、第１積和演算器１０で実行される演算処理Ｐ１Ｂの並列数Ｌ１は、演算数（ｎ＋１）の約数であり、第２積和演算器３０で実行される演算処理Ｐ２Ｂの並列数Ｌ２は、演算数（ｑ＋１）の約数であるのが好ましい。例えば、演算処理Ｐ１Ｂの演算数が（ｎ＋１）＝７８４、演算処理Ｐ２Ｂの演算数（ｑ＋１）＝２５６の場合、演算処理Ｐ１Ｂの並列数Ｌ１を４９、演算処理Ｐ２Ｂの並列数Ｌ２を１６に設定することができる。
　また、演算処理Ｐ１Ｂの演算数が（ｎ＋１）、演算処理Ｐ２Ｂの演算数（ｑ＋１）の場合、演算処理Ｐ１Ｂを構成するパイプライン数Ｃ１及び演算処理Ｐ２Ｂを構成するパイプライン数Ｃ２の双方が、演算数（ｎ＋１）と演算数（ｑ＋１）の最大公約数であることが好ましい。一例として、演算処理Ｐ１Ｂの演算数が（ｎ＋１）＝７８４、演算処理Ｐ２Ｂの演算数（ｑ＋１）＝２５６の場合、演算処理Ｐ１Ｂのパイプライン数Ｃ１及び演算処理Ｐ２Ｂのパイプライン数Ｃ２の双方を、７８４と２５６の最大公約数である１６に設定することができる。
　これにより、第１積和演算器１０で実行される演算処理Ｐ１Ｂ及び第２積和演算器３０で実行される演算処理Ｐ２Ｂの効率が良くなり、回路規模の増大が抑制される。

　また、第２積和演算器３０で実行される演算処理Ｐ２Ｂ（ｉ）が終了するタイミングが、第１積和演算器１０で実行される演算処理Ｐ１Ｂ（ｉ＋１）が終了するタイミングと同じであるように調節することが好ましい。例えば、図９（ｂ）に示すように、演算処理Ｐ２Ｂ（１）の処理時間Ｔ２Ｂ（１）を、演算処理Ｐ１Ｂ（２）の処理時間Ｔ１Ｂ（２）と同じに設定することができる。同様にして、演算処理Ｐ２Ｂ（ｉ）の処理時間Ｔ２Ｂ（ｉ）を、演算処理Ｐ１Ｂ（ｉ＋１）の処理時間Ｔ１Ｂ（ｉ＋１）と同じに設定することができる。これにより、第１積和演算器１０で実行される演算処理Ｐ１Ｂ及び第２積和演算器３０で実行される演算処理Ｐ２Ｂの効率を最も良くすることができ、回路規模の増大が更に抑制される。

　上述したように、本実施形態によれば、ニューラルネットワーク演算処理装置１が、第１入力変数ｘ_ｉと第１重みデータω_ｊｋとの積ω_ｊｋｘ_ｉの複数を演算すると共に、積ω_ｊｋｘ_ｉの複数の和Σω_ｊｋｘ_ｉを演算し（第１演算工程）、上記第１演算工程で演算された上記和Σω_ｊｋｘ_ｉの複数を、複数の第２入力変数ｉ_０，ｉ_１，ｉ_２，…ｉ_ｍとして保持する（保持工程）。また、第２重みデータω_ｊｋと第２入力変数ｉ_ｉとの積ｗ_ｊｋｉ_ｉの複数を演算すると共に、積ｗ_ｊｋｉ_ｉの複数の和Σｗ_ｊｋｉ_ｉを演算し（第２演算工程）、上記第２演算工程で演算された和Σｗ_ｊｋｉ_ｉの複数を、複数の出力値ｙ_０，ｙ_１，ｙ_２，…ｙ_ｐとして出力する（第２出力工程）。そして、上記第２演算工程で実行される演算処理の少なくとも一部を、上記第１演算工程で実行される演算処理と並列して実行する。このように、第１積和演算器１０及び第２積和演算器３０の双方を用いて、隠れ層４２と出力層４３の２層に亘る並列計算を行うことで、積和演算の更なる高速化、効率化を実現することができ、且つ回路規模の増大を抑制し、更には簡便な設計で積和演算を行うことができる。

　図１０は、図１のニューラルネットワーク演算処理装置１の構成の変形例を概略的に示す模式図である。本変形例では、第１積和演算器及び第２積和演算器の双方に制御信号送信部が設けられている点で、上記実施形態と異なる。上記実施形態と同様の構成については、上記実施形態と同一の符号を付してその説明を省略し、異なる部分を以下に説明する。

　図１０に示すように、第１積和演算器１０は、第１制御信号Ｓ１を第２積和演算器３０に送信すると共に、第２積和演算器３０からの第２制御信号Ｓ２を受信する第１信号送受信部１６と、第３制御信号Ｓ３をレジスタ２０に送信する信号送信部１７とを更に備えている。第２積和演算器３０は、第２制御信号Ｓ２を第２積和演算器３０に送信すると共に、第１積和演算器１０からの第１制御信号Ｓ１を受信する第２信号送受信部３６を更に備えている。

　第１信号送受信部１６は、第１積和演算器１０の演算処理が終了したときに、第１積和演算器１０の演算処理が終了したことを通知する第１制御信号Ｓ１を、第２積和演算器３０に送信する。信号送信部１７は、第１積和演算器１０の演算処理が終了したときに、第１積和演算器１０の演算処理が終了したことを通知する第１制御信号Ｓ３を、レジスタ２０に送信する。本変形例では、第１積和演算器１０は、第１信号送受信部１６及び信号送信部１７を有しているが、これに限られず、第１制御信号Ｓ１を第２積和演算器３０に送信すると共に、第２積和演算器３０からの第２制御信号Ｓ２を受信し、且つ第３制御信号Ｓ３をレジスタ２０に送信する一の信号送受信部を有していてもよい。

　第２信号送受信部３６は、第２積和演算器３０の演算処理が終了したときに、第２積和演算器３０の演算処理が終了したことを通知する第２制御信号Ｓ２を、第１積和演算器１０に送信する。

　図１１は、図１０のニューラルネットワーク演算処理装置１で実行されるニューラルネットワーク演算処理方法の一例を示すフローチャートである。
　図１１おいて、先ず、ニューラルネットワーク演算処理装置１は、第２制御信号Ｓ２を１に設定し、第２積和演算器３０は、第２制御信号Ｓ２を第１積和演算器１０に送信する（ステップＳ１）。次に、ニューラルネットワーク演算処理装置１は、第１制御信号Ｓ１を０に設定すると共に、第３制御信号Ｓ３を０に設定する（ステップＳ２）。次いで、第１積和演算器１０は、上述した演算処理Ｐ１Ａ（１）を実行して（ステップＳ３）、複数の積ω_０ｋｘ_ｉの和Σω_０ｋｘ_ｉを第２入力変数ｉ_０として算出し、演算処理Ｐ１Ａ（１）が終了する（ステップＳ４）。

　その後、ニューラルネットワーク演算処理装置１は、第３制御信号Ｓ３を１に設定し、第１積和演算器１０は、第３制御信号Ｓ３を第２積和演算器３０に送信する（ステップＳ５）。その後、第１積和演算器１０は、演算処理Ｐ１Ａ（１）によって得られた第２入力変数ｉ_０を、第１出力部１５を介してレジスタ２０に送信する。ニューラルネットワーク演算処理装置１は、第１積和演算器１０の第１出力部１５から出力された演算結果（第２入力変数ｉ_０）を、レジスタ２０に保持する（ステップＳ６）。

　次に、ニューラルネットワーク演算処理装置１は、第１制御信号Ｓ１を１に設定し、第１積和演算器１０は、第１制御信号Ｓ１を第２積和演算器３０に送信する（ステップＳ７）。その後、ニューラルネットワーク演算処理装置１は、第２制御信号Ｓ２が１に設定されているか否かを判定し（ステップＳ８）、第２制御信号Ｓ２が１に設定されているときに、ステップＳ２及びステップＳ９に進む。

　次いで、ニューラルネットワーク演算処理装置１は、第１制御信号Ｓ１を０に設定すると共に、第３制御信号Ｓ３を０に設定し（ステップＳ２）、更に、第２制御信号Ｓ２を０に設定する（ステップＳ９）。このとき、第１積和演算器１０は、上述した演算処理Ｐ１Ａ（２）を実行し（ステップＳ３）、複数の積ｘ_ｉω_１ｋの和Σω_１ｋｘ_ｉを第２入力変数ｉ_１として算出する。また、第２積和演算器３０は、第１積和演算器１０の上記演算処理と並列に、上述した演算処理Ｐ２Ａ（１）を実行して（ステップＳ１０）、積ｗ_ｊ０ｉ_０、ｗ_ｊ０ｉ_２、ｗ_ｊ０ｉ_３、…ｗ_ｐ０ｉ_０の複数を算出し、演算処理Ｐ２Ａ（１）が終了する（ステップＳ１１）。その後、ニューラルネットワーク演算処理装置１は、第２制御信号Ｓ２を１に設定し、第２積和演算器３０は、第２制御信号Ｓ２を第１積和演算器１０に送信する（ステップＳ１２）。

　以後、ニューラルネットワーク演算処理装置１は上記の処理を繰り返し、第１積和演算器１０は、順次、第２入力変数ｉ_２，ｉ_３，ｉ_４，…ｉ_ｍを算出すると共に、第２積和演算器３０も、第１積和演算器１０の上記演算処理と並列に、順次積ｗ_ｊ１ｉ_１、ｗ_ｊ２ｉ_２、ｗ_ｊ３ｉ_３、…ｗ_ｐｑｉ_ｍの複数を算出する。そして、第２入力変数ｉ_ｍの算出が完了すると、複数の積ｗ_０ｋｉ_ｉの和Σｗ_０ｋｉ_ｉを、出力値ｙ_０として第２出力部３５－１及び／又は第２出力部３５－２を介して外部に出力する。また、同様にして、複数の積ｉ_ｉｗ_１ｋの和Σｗ_１ｋｉ_ｉ、複数の積ｗ_２ｋｉ_ｉの和Σｗ_２ｋｉ_ｉ、…複数の積ｗ_ｐｋｉ_ｉの和Σｗ_ｐｋｉ_ｉを、それぞれ出力値ｙ_１，ｙ_２，…ｙ_ｐとして、第２出力部３５－１及び／又は第２出力部３５－２を介して外部に出力する。

　本変形例によっても、第１制御信号Ｓ１、第２制御信号Ｓ２及び第３制御信号を用いて、隠れ層４２と出力層４３の２層に亘る並列計算を行うことで、積和演算の更なる高速化、効率化を実現することができ、且つ回路規模の増大を抑制し、更には簡便な設計で積和演算を行うことができる。

　図１２は、図１のニューラルネットワーク演算処理装置１の構成の他の変形例を概略的に示す模式図である。
　図１２に示すように、ニューラルネットワーク演算処理装置１は、レジスタ２０と第２積和演算器３０との間に、活性化関数を用いて演算する活性化関数演算処理部５０を更に備えていてもよい。活性化関数演算処理部５０は、例えば、第２入力変数ｉ_２，ｉ_３，ｉ_４，…ｉ_ｍを入力として、活性化関数ｆ（ｉ）の算出結果を、第２積和演算器３０に出力する。本実施形態では、活性化関数ｆ（ｉ）は、例えば、ロジスティック・シグモイド関数、双曲線正接関数、ＲｅＬＵ関数あるいは恒等関数である。

　ニューラルネットワーク演算処理装置１は、第１積和演算器１０とレジスタ２０との間に活性化関数演算処理部を備えていてもよい。あるいは、第１積和演算器１０とレジスタとの間と、レジスタ２０と第２積和演算器３０との間の両方に、活性化関数演算処理部を備えていてもよい。

　このように、活性化関数演算処理部５０によって、第２入力変数ｉ_ｉを用いて活性化関数ｆ（ｉ）を算出することで、高精度な演算処理を実行することができる。

　図１３は、図１０における第１積和演算器１０及び第２積和演算器３０の構成の変形例を概略的に示す模式図である。上記実施形態と同様の構成については、上記実施形態と同一の符号を付してその説明を省略し、異なる部分を以下に説明する。
　図１３に示すように、第１積和演算器１０は、上記第１入力変数と第１重みデータとの積の複数を演算する第１乗算器１３－１，１３－２と、２つの第１乗算器１３－１，１３－２で乗算された積の複数の和を演算する第１加算器１４－１，１４－２を備えていてもよい。

　本変形例によれば、第１積和演算器１０が複数の第１乗算器を備えるので、第１メモリ１１や第２メモリ１２と第１乗算器とが接続される経路数を増やすことができる。また、第１メモリ１１から上記第１入力変数を一度に読み出すデータ量を増大させることができると共に、第２メモリ１２から上記第１重みデータを一度に読み出すデータ量を増大させることができる。したがって、演算処理を更に効率良く実行することができる。

　図１４は、図１０のニューラルネットワーク演算処理装置１の構成の変形例を概略的に示す模式図である。上記実施形態と同様の構成については、上記実施形態と同一の符号を付してその説明を省略し、異なる部分を以下に説明する。
　図１４に示すように、ニューラルネットワーク演算処理装置１は、第１積和演算器１０－１，１０－２と、第１積和演算器１０－１，１０－２にそれぞれ接続されたレジスタ２０－１，２０－２と、レジスタ２０－１，２０－２に接続された第２積和演算器３０－１，３０－２とを備えていてもよい。

　第１積和演算器１０－１は、第１メモリ１１－１、第２メモリ１２－１、第１乗算器１３－１，１３－２、第１加算器１４－１，１４－２、第１出力部１５－１、第１信号送受信部１６－１及び信号送信部１７－１を備える。また、第１積和演算器１０－２は、第１メモリ１１－２、第２メモリ１２－２、第１乗算器１３－３，１３－４、第１加算器１４－３，１４－４、第１出力部１５－２、第１信号送受信部１６－２及び信号送信部１７－２を備える。

　第２積和演算器３０－１は、入力部３１－１、第３メモリ３２－１、第２乗算器３３－１，３３－２、第２加算器３４－１，３４－２、第２出力部３５－１，３５－２及び第２信号送受信部３６－１を備える。また、第２積和演算器３０－２は、入力部３１－２、第３メモリ３２－２、第２乗算器３３－３，３３－４、第２加算器３４－３，３４－４、第２出力部３５－３，３５－４及び第２信号送受信部３６－２を備える。

　また、ニューラルネットワーク演算処理装置１は、第１積和演算器１０－１とレジスタ２０－１との間、及び第１積和演算器１０－２とレジスタ２０－２との間に、制御信号中継器６０を更に備えることができる。制御信号中継器６０は、例えば、第１積和演算器１０－１から送信された第１制御信号Ｓ１を受信すると共に、当該第１制御信号Ｓ１を、第２積和演算器３０－１，３０－２のいずれか又は双方に送信する。更に、制御信号中継器６０は、第１積和演算器１０－２から送信された第１制御信号Ｓ１を受信すると共に、当該第１制御信号Ｓ１を、第２積和演算器３０－１，３０－２のいずれか又は双方に送信する。

　また、制御信号中継器６０は、例えば、第２積和演算器３０－１から送信された第２制御信号Ｓ２を受信すると共に、当該第２制御信号Ｓ２を、第１積和演算器１０－１，１０－２のいずれか又は双方に送信する。更に、制御信号中継器６０は、第２積和演算器３０－２から送信された第２制御信号Ｓ２を受信すると共に、当該第２制御信号Ｓ２を、第１積和演算器１０－１，１０－２のいずれか又は双方に送信する。

　更に、制御信号中継器６０は、例えば、第１積和演算器１０－１及び／又は第１積和演算器１０－２から送信された第３制御信号Ｓ３を受信すると共に、当該第３制御信号Ｓ３を、レジスタ２０－１及び／又はレジスタ２０－２に送信する。

　本変形例によれば、ニューラルネットワーク演算処理装置１が、複数の第１積和演算器と、複数のレジスタ及び複数の第２積和演算器を備えるので、演算処理を更に効率良く実行することができる。

　以上、本発明の実施形態について詳述したが、本発明は上記実施形態に限定されるものではなく、特許請求の範囲内に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

　例えば、以上に示した実施形態に係る各装置（例えば、ニューラルネットワーク演算処理装置１）の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体（記憶媒体）に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより、処理を行ってもよい。
　なお、ここでいう「コンピュータシステム」とは、オペレーティング・システム（ＯＳ：Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）あるいは周辺機器等のハードウェアを含むものであってもよい。
　また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、フラッシュメモリ等の書き込み可能な不揮発性メモリ、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。また、記録媒体としては、例えば、一時的にデータを記録する記録媒体であってもよい。

　さらに、「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークあるいは電話回線等の通信回線を介してプログラムが送信された場合のサーバあるいはクライアントとなるコンピュータシステム内部の揮発性メモリ（例えばＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ））のように、一定時間プログラムを保持しているものも含むものとする。
　また、上記のプログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）あるいは電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。
　また、上記のプログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、上記のプログラムは、前述した機能をコンピュータシステムに既に記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。
　コンピュータでは、例えば、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などのプロセッサがメモリに記憶されたプログラムを読み出して実行する。

１　ニューラルネットワーク演算処理装置
１０　第１積和演算器
１０－１　第１積和演算器
１０－２　第１積和演算器
１１　第１メモリ
１１－１　第１メモリ
１１－２　第１メモリ
１２　第２メモリ
１２－１　第２メモリ
１２－２　第２メモリ
１３　第１乗算器
１３－１　第１乗算器
１３－２　第１乗算器
１３－３　第１乗算器
１３－４　第１乗算器
１４　第１加算器
１４－１　第１加算器
１４－２　第１加算器
１４－３　第１加算器
１４－４　第１加算器
１５　第１出力部
１５－１　第１出力部
１５－２　第１出力部
１６　第１信号送受信部
１６－１　第１信号送受信部
１６－２　第１信号送受信部
１７　信号送信部
１７－１　信号送信部
１７－２　信号送信部
２０　レジスタ
２０－１　レジスタ
２０－２　レジスタ
３０　第２積和演算器
３０－１　第２積和演算器
３０－２　第２積和演算器
３１　入力部
３１－１　入力部
３１－２　入力部
３２　第３メモリ
３２－１　第３メモリ
３２－２　第３メモリ
３３－１　第２乗算器
３３－２　第２乗算器
３３－３　第２乗算器
３３－４　第２乗算器
３４－１　第２加算器
３４－２　第２加算器
３４－３　第２加算器
３４－４　第２加算器
３５－１　第２出力部
３５－２　第２出力部
３５－３　第２出力部
３５－４　第２出力部
３６　第２信号送受信部
３６－１　第２信号送受信部
３６－２　第２信号送受信部
４０　ニューラルネットワーク
４１　入力層
４１Ａ　ノード
４１Ｂ　ノード
４１Ｃ　ノード
４１Ｄ　ノード
４１Ｅ　ノード
４２　隠れ層
４２Ａ　ノード
４２Ｂ　ノード
４２Ｃ　ノード
４２Ｄ　ノード
４３　出力層
４３Ａ　ノード
４３Ｂ　ノード
４３Ｃ　ノード
５０　活性化関数演算処理部
６０　制御信号中継器

Claims

　１以上の第１積和演算器と、
　前記１以上の第１積和演算器に接続された１以上のレジスタと、
　前記１以上のレジスタに接続された１以上の第２積和演算器と、を備え、
　前記第１積和演算器は、
　複数の第１入力変数を格納した第１メモリと、
　複数の第１重みデータを格納した第２メモリと、
　前記第１入力変数と前記第１重みデータとの積の複数を演算する１以上の第１乗算器と、
　前記１以上の第１乗算器で乗算された前記積の複数の和を演算する１以上の第１加算器と、
　前記１以上の第１加算器で加算された前記和の複数を、複数の第２入力変数として前記レジスタに出力する１以上の第１出力部と、を有し、
　前記第２積和演算器は、
　複数の第２重みデータを格納した第３メモリと、
　前記第２重みデータと前記レジスタに保持された前記第２入力変数との積の複数を演算する１以上の第２乗算器と、
　前記１以上の第２乗算器で乗算された前記積の複数の和を演算する１以上の第２加算器と、
　前記１以上の第２加算器で加算された前記和の複数を、複数の出力値として出力する１以上の第２出力部と、を有する、
　ニューラルネットワーク演算処理装置。
　前記第２積和演算器で実行される演算処理の少なくとも一部を、前記第１積和演算器で実行される演算処理と並列に実行する、請求項１に記載のニューラルネットワーク演算処理装置。
　前記第１積和演算器１０で実行される演算処理Ｐ１を構成する演算数が（ｎ＋１）（ｎは０以上の整数）であり、前記第２積和演算器で実行される演算処理Ｐ２を構成する演算数が（ｑ＋１）（ｑは０以上の整数）である場合、
　前記第１積和演算器で実行される前記演算処理Ｐ１の並列数Ｌ１は、演算数（ｎ＋１）の約数であり、前記第２積和演算器で実行される前記演算処理Ｐ２の並列数Ｌ２は、演算数（ｑ＋１）の約数である、請求項２に記載のニューラルネットワーク演算処理装置。
　前記演算処理Ｐ１を構成するパイプライン数Ｃ１及び前記演算処理Ｐ２を構成するパイプライン数Ｃ２の双方が、前記演算数（ｎ＋１）と前記演算数（ｑ＋１）の最大公約数である、請求項３に記載のニューラルネットワーク演算処理装置。
　前記第２積和演算器で実行される演算処理が終了するタイミングが、前記第１積和演算器の演算処理が終了するタイミングと同じである、請求項３又は４に記載のニューラルネットワーク演算処理装置。
　前記第２メモリ及び前記第３メモリの各々が、リングバッファメモリである、請求項１に記載のニューラルネットワーク演算処理装置。
　前記第１積和演算器と前記レジスタとの間と、前記レジスタと前記第２積和演算器との間の少なくとも一方に、活性化関数を用いて演算する１以上の活性化関数演算処理部を更に備える、請求項１に記載のニューラルネットワーク演算処理装置。
　前記１以上の第１乗算器は、複数の第１乗算器であり、
　前記１以上の第１加算器は、複数の第１加算器である、請求項２～７のいずれか１項に記載のニューラルネットワーク演算処理装置。
　前記１以上の第２積和演算器は、複数の前記第２積和演算器であり、
　前記複数の前記第２積和演算器が、前記１以上の第１積和演算器と並列に動作する、請求項２～８のいずれか１項に記載のニューラルネットワーク演算処理装置。
　前記１以上の第１積和演算器は、複数の前記第１積和演算器であり、
　前記複数の前記第１積和演算器が、前記１以上の第２積和演算器と並列に動作する、請求項２～８のいずれか１項に記載のニューラルネットワーク演算処理装置。
　前記１以上の第１積和演算器は、複数の前記第１積和演算器であり、
前記１以上の第２積和演算器は、複数の前記第２積和演算器であり、
　前記複数の前記第１積和演算器が、前記複数の第２積和演算器と並列に動作する、請求項２～８のいずれか１項に記載のニューラルネットワーク演算処理装置。
　第１入力変数と第１重みデータとの積の複数を演算すると共に、前記積の複数の和を演算する第１演算工程と、
　前記第１演算工程で演算された前記和の複数を、複数の第２入力変数として保持する保持工程と、
　第２重みデータと前記第２入力変数との積の複数を演算すると共に、前記積の複数の和を演算する第２演算工程と、
　前記第２演算工程で演算された前記和の複数を、複数の出力値として出力する第２出力工程と、を有し、
　前記第２演算工程で実行される演算処理の少なくとも一部を、前記第１演算工程で実行される演算処理と並列して実行する、ニューラルネットワーク演算処理方法。