WO2021171880A1

WO2021171880A1 - 積和演算器

Info

Publication number: WO2021171880A1
Application number: PCT/JP2021/002791
Authority: WO
Inventors: 昭松澤; 正也野原
Original assignee: 株式会社テックイデア
Priority date: 2020-02-26
Filing date: 2021-01-27
Publication date: 2021-09-02
Also published as: JPWO2021171880A1

Abstract

演算速度が速く、かつ消費エネルギーが小さい積和演算器を提供すること。　積和演算器１に、複数のＤＡＣで構成され、複数のデジタル値を各要素とするベクトル及び複数のデジタル値を各要素とする行列が入力され、ベクトルの各要素のデジタル値をアナログ電圧に変換する電圧出力デジタル・アナログ変換部１１と、複数のＤＡＣで構成され、電圧出力デジタル・アナログ変換部１１の各出力電圧が入力され、前記行列の各要素のデジタル値に対応した容量比が入出力端子間及び出力端子と接地間に設定される容量型デジタル・アナログ変換部１２と、複数のＡＤＣで構成され、容量型デジタル・アナログ変換部１２の各出力端に共通に接続されたノードの電圧がアナログ入力され、デジタル値に変換されるアナログ・デジタル変換部１３を設け、アナログ・デジタル変換部１３の出力を出力ベクトルとする。

Description

積和演算器

　本発明は、積和演算器に関する。より詳しくは、デジタル・アナログ変換器（Digital to Analog Converter；ＤＡＣ）と、アナログ・デジタル変換器（Analog to Digital Converter；ＡＤＣ）を用いた積和演算器に関する。

　デジタル演算は積和演算を基本とする。また、近年開発競争が激しいＡＩプロセッサではニューロ演算を行う。図１５はＡＩプロセッサにおけるニューロ演算の概念図である。なお、ニューロ演算では多数のレイヤーを必要とするが、図１５においては、基本となる入力層（Input layer）、隠れ層（Hidden Layer）及び出力層（Output layer）のみを示している。

　図１５に示すように、ニューロ演算における各層間では積和演算が行われている。その一例として、入力層と隠れ層間の演算を示す。入力層のベクトルをＸ、結合係数行列をＷ^（０）とすると、隠れ層のベクトルＹは、下記数式１により表される。

　上記数式１において出力層の１つの要素ｙ_ｊに着目した場合下記数式２で表され、積和演算処理を行っていることがわかる。

　ニューロプロセッサでは、各レイヤーのノード数がＮのとき、各レイヤーにおいてＮ^２の積和演算が必要となる。例えば、画素数が１００×１００の画像認識では、Ｎ＝１０^４、Ｎ^２＝１０^８となり、１レイヤーにつき１億回もの積和演算が必要となる。このため、ニューロプロセッサは、演算速度を上げると共に、演算の消費エネルギーを下げることが喫緊の課題となっている。

　図１６はデジタル回路を用いた従来の積和演算器の構成を示す図である。図１６に示すように、従来の代表的なデジタル積和演算器では、入力Ｘはバスを通じて各フリップフロップ（Ｆ／Ｆ）に入力される。また、図１６に示す積和演算器では、乗算器（ＭＵＬ）が２次元的に配置されており、各乗算器には入力Ｘの各要素及び入力Ｗの各要素が入力され、乗算器において入力Ｘの各要素と入力Ｗの各要素の乗算が行われる。そして、乗算出力は、バスを通じて加算器（ＡＤＤ）に順次入力され、累積加算が行われる。

K. Uenishi, et al., "FPGA Implementation of a Scalable and Highly Parallel Architecture for Restricted Boltzmann Machines," Circuits and Systems, 2016, 7, 2132-2141, Scientific Research Publishing.

　しかしながら、前述した従来のデジタル積和演算器は、乗算器の演算速度と消費エネルギー、累積加算の演算速度と消費エネルギーに問題がある。特に、累積加算器は、乗算器の出力がバスを通じて順次累積加算器に送られるため、演算速度が遅く、消費エネルギーが大きいという課題がある。

　そこで、本発明は、演算速度が速く、かつ消費エネルギーが小さい積和演算器を提供することを目的とする。

　本発明者は、前述した課題を解決するため、鋭意実験検討を行った結果、以下に示す知見を得た。アナログ演算は物理現象を用いており、一瞬かつ低消費エネルギーで演算結果が得られる可能性がある。しかしながら、アナログ演算は、デジタル演算に比べて演算精度が不十分であることから、従来殆ど用いられていなかった。一方、ニューロプロセッサの積和演算では、殆どの用途において８ビット程度の精度で十分であるとされていることから、本発明者はアナログ演算の適用について検討を行った。

　その結果、抵抗型デジタル・アナログ変換器（ＲＤＡＣ）のような電圧出力のＤＡＣで入力Ｘに比例する電圧を発生させ、この電圧をアナログ入力として行列の各要素Ｗのデジタル値に対応した容量比を入出力端子間及び出力端子と接地間に設定する容量型ＤＡＣを用いることで、その出力電圧Ｙが入力Ｘと行列の各要素Ｗの積になることを見出した。この構成を採用すれば、８ビット精度を実現する容量が４ｆＦ程度と極めて小さくなり、デジタル乗算器とは異なりキャリー伝搬が生じないため、高速かつ低消費エネルギーで動作させることができる。

　更に、容量型ＤＡＣ列の各出力端を共通に接続したノードの電圧は、電荷保存則により加算した値となるため、エネルギーを殆ど消費せずに一瞬で複数入力の加算が可能となる。具体的には、１００並列の加算であれば一瞬で終了する。この電圧は、ＡＤＣでデジタル値に変換される。このように、本発明者は、入出力はデジタル値であるが、乗算及び加算演算はアナログで行うことにより、高速かつ低エネルギーで積和演算ができる方法も見出し、本発明に至った。

　即ち、本発明に係る積和演算器は、複数のデジタル・アナログ変換器で構成され、複数のデジタル値を各要素とするベクトル及び複数のデジタル値を各要素とする行列が入力され、前記ベクトルの各要素のデジタル値をアナログ電圧に変換する電圧出力デジタル・アナログ変換部と、複数のデジタル・アナログ変換器で構成され、前記電圧出力デジタル・アナログ変換器列の各出力電圧が入力され、前記行列の各要素のデジタル値に対応した容量比が入出力端子間及び出力端子と接地間に設定される容量型デジタル・アナログ変換部と、複数のアナログ・デジタル変換器で構成され、前記容量型デジタル・アナログ変換部の各出力端に共通に接続されたノードの電圧がアナログ入力され、デジタル値に変換されるアナログ・デジタル変換部と、を有し、前記アナログ・デジタル変換部の出力を出力ベクトルとするものである。
　本発明の積和演算器において、前記複数のデジタル値を各要素とする行列は１次元ベクトルであり、前記電圧出力デジタル・アナログ変換部の各デジタル・アナログ変換器からの出力値を、第１のベクトルと前記１次元ベクトルとの内積としてもよい。
　本発明の積和演算器は、前記容量型デジタル・アナログ変換部は差動信号を出力し、前記アナログ・デジタル変換部の各アナログ・デジタル変換器には、前記容量型デジタル・アナログ変換部の各出力端に共通に接続された一対のノードの差動電圧がアナログ入力され、デジタル値に変換してもよい。
　その場合、前記アナログ・デジタル変換部の各アナログ・デジタル変換器は、前記一対のノードの差動電圧を一対の容量にサンプリングし、前記一対の容量の端子間を短絡することで同相信号を抽出し、前記一対のノードの差動電圧から差し引くことで同相成分をキャンセルすることができる。
　又は、前記容量型デジタル・アナログ変換部は、出力に対して２進重み付け容量を用いて各要素のデジタル値に対応した容量比を入出力端子間及び出力端子と接地間に設定してもよい。
　また、本発明の積和演算器は、前記電圧出力デジタル・アナログ変換部を構成する各デジタル・アナログ変換器に重み付け抵抗を用いてもよい。
　その場合、前記電圧出力デジタル・アナログ変換部を構成する各デジタル・アナログ変換器は、例えば、上位数ビットはサーモメータコードを用いた等しい抵抗で構成し、残りの下位ビットは２進で重み付けされたＲ－２Ｒ梯子型の抵抗を用いることができる。
　又は、前記電圧出力デジタル・アナログ変換部を構成する各デジタル・アナログ変換器は、最小ビットの抵抗の接地端への接続が開放可能となっていてもよい。
　一方、本発明の積和演算器は、前記電圧出力デジタル・アナログ変換部及び前記容量型デジタル・アナログ変換部の入力データがメモリセルに保存されており、その論理状態をセンスするセンスアンプの出力から得ることもできる。
　その場合、前記メモリセルへの入力データを差動形式とし、振幅が電源電圧よりも低い低振幅バスを用いて伝送し、前記センスアンプでより大きい振幅に変換されて前記メモリセルのビットラインを駆動してもよい。
　前記メモリセルは例えばＳＲＡＭとすることができる。
　又は、前記メモリセルが不揮発性でもよく、例えば不揮発性のメモリセルとしてＭＲＡＭを用いることもできる。

　本発明によれば、アナログ・デジタル変換部の複数のアナログ・デジタル変換器の出力値から出力ベクトルを得て、同時並列的に極めて多くの積和演算ができるため、これまでのデジタル演算器を用いた積和演算器に比べて、低エネルギーで動作し、高速動作が可能な積和演算器を実現することができる。

本発明の第１の実施形態の積和演算器の構成を示す図である。Ａは図１に示す電圧出力デジタル・アナログ変換部１１に用いられる抵抗型ＤＡＣの回路図であり、Ｂは電流型ＤＡＣの回路図である。図１に示す容量型デジタル・アナログ変換部１２に用いられるＣＤＡＣの回路図である。Ａ及びＢはＣＤＡＣを用いた積和演算の原理を示す回路及びその動作を示す図であり、Ａはリセットモードを示し、Ｂは実行モードを示す。差動構成のＣＤＡＣの回路図である。図１に示すアナログ・デジタル変換部１３に用いられる逐次比較型ＡＤＣの回路図である。図１に示す積和演算器の動作を示すタイミングチャートである。本発明の第１の実施形態の第１変形例の積和演算器に用いられる逐次比較型ＡＤＣの回路図である。Ａ～Ｃは図８に示すＳＡＲ　ＡＤＣのコモンモード電圧の除去方法を示す動作回路図である。本発明の第１の実施形態の第２変形例の積和演算器に用いられる抵抗型ＤＡＣの回路図である。本発明の第1の実施形態の積和演算器において応答速度と消費電力を算出するための等価回路である。本発明の第２の実施形態の積和演算器に用いられるＤＡＣへのデータ入力回路を示す図である。Ａ及びＢは図１２に示すメモリセルの回路図であり、Ｃはセンスアップの回路図である。図１２に示すメモリセルへの入力バスの電圧を示す図である。ＡＩプロセッサにおけるニューロ演算の概念図である。デジタル回路を用いた従来の積和演算器の構成を示す図である。

　以下、本発明を実施するための形態について、添付の図面を参照して詳細に説明する。なお、本発明は、以下に説明する実施形態に限定されるものではない。

（第１の実施形態）
　先ず、本発明の第１の実施形態に係る積和演算器について説明する。本実施形態の積和演算器は、２つの入力デジタル値列を入力とし、一方の入力は電圧出力デジタル・アナログ変換器（ＤＡＣ）を用いて電圧列に変換し、他方の入力は容量型デジタル・アナログ変換器（ＣＤＡＣ）に入力する。そして、この積和演算器では、電圧をアナログ入力とするＣＤＡＣにより乗算を行い、複数のＣＤＡＣの出力を共通に接続することで同時加算を行い、このノードの電圧を、アナログ・デジタル変換器（ＡＤＣ）においてアナログ・デジタル変換することでデジタル出力値を得る。

　図１は本実施形態の積和演算器の構成を示す図である。図１に示すように、本実施形態の積和演算器１には、複数のＤＡＣを備える電圧出力デジタル・アナログ変換部１１と、複数のＣＤＡＣを備える容量型デジタル・アナログ変換部１２と、複数のＡＤＣを備えるアナログ・デジタル変換部１３が設けられている。本実施形態の積和演算器１では、複数のデジタル値を各要素とするベクトルＸは、それぞれバスを通じて電圧出力デジタル・アナログ変換部１１の各ＤＡＣに入力される。また、行列Ｗの各要素のデジタル値は、容量型デジタル・アナログ変換部１２において２次元に配置された各ＣＤＡＣに入力される。

　図２Ａは図１に示す電圧出力デジタル・アナログ変換部１１に用いられる抵抗型ＤＡＣの回路図であり、図２Ｂは電流型ＤＡＣの回路図である。電圧出力デジタル・アナログ変換部１１は、例えば図２Ａに示すＲ－２Ｒ抵抗型ＤＡＣや、図２Ｂに示すような電流型ＤＡＣを用いることで実現することができる。インバータの電源電圧をＶ_ＤＤ、各インバータの反転入力データをＤ（Ｄは０又は１）としたとき、Ｒ－２Ｒ抵抗型ＤＡＣの出力電圧Ｖ_０は下記数式３により表される。

　図２Ａには分解能４ビットの例を示しているが、この抵抗型ＤＡＣは、インバータと２種類の抵抗Ｒ，２Ｒしか用いないことから、非常にコンパクトに電圧出力のデジタル・アナログ変換器を実現できる。一方、図２Ｂに示す電流型ＤＡＣを用いても電圧出力のデジタル・アナログ変換器を実現できる。この場合、電流源を用い、入力データに応じた電流を負荷抵抗Ｒ_Ｌに流すことで、電圧出力のデジタル・アナログ変換器を実現できる。

　図３は図１に示す容量型デジタル・アナログ変換部１２に用いられるＣＤＡＣの回路図である。容量型デジタル・アナログ変換部１２は、例えば図３に示すＣＤＡＣを用いることができる。このＣＤＡＣは、入力データＤに応じて接地又は入力電圧を選択するスイッチＳと、出力端に２進で重み付けされた容量が接続されている。入力電圧をＶ_ｉｎとしたとき、出力電圧Ｖ_ｏｕｔは、下記数式４により求められる。

　そして、抵抗型ＤＡＣの入力ビットをＸ_ｉとし、ＣＤＡＣの入力ビットをＷ_ｉとすると、上記数式３及び上記数式４より、出力電圧Ｖ_ｏｕｔは下記数式５で表される。これは、入力値Ｘと入力値Ｗの乗算が行われることを示している。

　次に、アナログ・デジタル変換部１３への入力となるＣＤＡＣの共通接続線における信号の加算性について説明する。図４Ａ，ＢはＣＤＡＣを用いた積和演算の原理を示す回路の動作を示す図である。図４Ａ，Ｂに示すＣＤＡＣは、１で規格化された入力値Ｗに比例する容量値ＷＣと、１から入力値Ｗを引いた容量値（１－Ｗ）Ｃの２つの容量を有し、これらは並列に接続されている。この２つの容量は、それぞれ一方の端子が出力線に共通に接続され、他方の端子は入力電圧又は接地を選択するスイッチＳ_ａ，Ｓ_ｂに接続されている。

　このＣＤＡＣには、図４Ａに示す「リセット」と、図４Ｂに示す「実行」の２つの動作モードがある。図４Ａに示すように、リセットモードでは、全てのスイッチＳ_ａ，Ｓ_ｂが接地を選択し、出力線はスイッチＳ_０によって接地に接続される。このため、各容量の電荷はゼロにリセットされる。一方、図４Ｂに示すように、実行モードでは、スイッチＳ_ｂはそのまま接地状態を維持し、スイッチＳ_ａは入力電圧Ｖ_ＤＤＸを選択する。この時の出力線の電圧をＶ_ＯＳとすると、電荷保存則より下記数式６が成り立つ。

　上記数式６から電圧Ｖ_ｏｓを求めると、下記数式７となり、ｎ個のＣＤＡＣの出力が同時加算されたものとなる。

　また、出力電圧は、自動的に規格化され、０からＶ_ＤＤの間の電圧を取る。

　以上のように、電荷保存則という物理現象を用いることで、瞬時に多数の加算が実現できる。しかもＣＤＡＣを差動構成にすることで、容易に正負の両極性の値を取り扱うことができる。図５は差動構成のＣＤＡＣの回路図である。図５に示すように、差動構成のＣＤＡＣの入力信号は、ｗを下記数式８で表される値を取る両極性の入力信号とし、ηをバイアス値として、これまで用いてきた規格化されたＣＤＡＣの入力信号Ｗと下記数式９に示す関係が成立する。

　バイアス値ηは、０．５のときに最も広い値を取ることができる。差動構成なので、それぞれのＣＤＡＣに入力される値Ｗ_ａ，Ｗ_ｂは、下記数式１０で表される。

　このとき、一対の信号線の出力電圧Ｖ_ｏｓ＿ｐは、上記数式７から、下記数式１１となる。

　同様に、出力電圧Ｖ_ｏｓ＿ｎは、下記数式１２となる。

　従って、差動出力Ｖ_ｏｓ＿ｄ＝Ｖ_ｏｓ＿ｐ－Ｖ_ｏｓ＿ｎは、下記数式１３となり、バイアス値ηに依存しない正負の両極性信号が得られる。

　差動出力は、電圧Ｖ_ｏｓ＿ｐ及び電圧Ｖ_ｏｓ＿ｎをそれぞれアナログ・デジタル変換し、その変換出力値をデジタル減算器で減算してもよいが、差動ＡＤＣを用いると、変換出力値自体が差動成分のみを変換したものになるのでより合理的である。

　アナログ・デジタル変換部１３には、様々な変換方式のＡＤＣを使用することができるが、特にＣＤＡＣを用いた逐次比較型ＡＤＣ（Successive Approximation Register ＡＤＣ；ＳＡＲ　ＡＤＣ）がコンパクトで消費エネルギーが少なく実用的である。図６はアナログ・デジタル変換部１３に用いられるＳＡＲ　ＡＤＣの回路図である。図６に示すＳＡＲ　ＡＤＣでは、スイッチＳ_０が閉じられ、スイッチＳ_Ｓが入力信号Ｖ_ｉｎを選択し、スイッチＳ_１～Ｓ_５が入力信号を選択しているとき、比較器の入力端に接続されているＣＤＡＣの出力端の電荷Ｑ_ｓは、Ｖ_ｂを比較器のバイアス電圧として、下記数式１４で表される。

　一方、スイッチＳ_０を開放し、スイッチＳ_Ｓが参照電圧Ｖ_ｒｅｆを選択し、スイッチＳ_１～Ｓ₄を制御して、比較器の入力端の電圧をＶ_ｘ、αを０から１の任意の値として、αを参照電圧に接続されている容量、残りの１－αを接地に接続されている容量とするとき、電荷保存則よりＣＤＡＣの出力端の電荷Ｑ_ｓは、下記数式１５で表される。

　ここで、比較器の入力電圧Ｖ_ｘ－Ｖ_ｂは、下記数式１６で表される。

　つまり、このＳＡＲ　ＡＤＣスイッチでは、スイッチＳ_１～Ｓ₄を制御してαを求め、比較器の入力電圧が０に近づくよう動作させれば、アナログ・デジタル変換が可能になる。

　図７は本実施形態の積和演算器の動作を示すタイミングチャートである。図７に示すように、本実施形態の積和演算器では、クロックＣＬＫに同期し、入力信号Ｄ_ｉｎで示したＤＡＣの２つの入力データ値Ｘと入力データ値Ｗが入力される。容量型デジタル・アナログ変換部１２の各出力端を共通に接続したノードは、短時間の間において接地電位になり、ＣＤＡＣの各容量の電荷はリセットされる。

　ノードが解放され、ＣＤＡＣに入力データを与えると、ノードに入力データ値Ｘと入力データ値Ｗの内積の和に相当する電圧が出現する。ＡＤＣは、このノード電圧をサンプリングし、次にアナログ・デジタル変換動作を行う。出力Ｄ_ｏｕｔは、基本的に入力信号Ｄ_ｉｎに対して２クロック遅れて出力される。

　以上詳述したように、本実施形態の積和演算器は、電圧出力デジタル・アナログ変換部と、容量型デジタル・アナログ変換部と、アナログ・デジタル変換部を有し、アナログ・デジタル変換部の出力値を出力ベクトルとしているので、複数のＡＤＣの出力値から出力ベクトルを得ることができ、同時並列的に極めて多くの積和演算ができるため、演算の高速化を図れると共に消費電力を低減することができる。その結果、これまでのデジタル演算器を用いた積和演算器に比べて、低エネルギーで動作し、高速動作が可能な積和演算器を実現することができる。本発明者の試算の結果、本実施形態の積和演算器は、８ビットの積和演算において、通常のデジタル積和演算に比べて約１／３００程度の低消費エネルギーでの動作が可能であった。

（第１の実施形態の第１変形例）
　次に、本実施形態の第１の実施形態の積和演算器の性能を向上させるためのいくつかの改善点を述べる。図８は、本発明の第１の実施形態の第１変形例に係る積和演算器に用いられるＳＡＲ　ＡＤＣの回路図である。図６に示すＳＡＲ　ＡＤＣはシングル入力であるので、差動入力には図８に示すＳＡＲ　ＡＤＣの方が適している。図８に示すＳＡＲ　ＡＤＣは、信号に依存したコモン電圧の除去が可能であり、図８において破線で囲んでいる部分が、図６のＳＡＲ　ＡＤＣに対して新規に追加した回路である。

　次に、本変形例の動作について説明する。図９Ａ～Ｃは図８に示すＳＡＲ　ＡＤＣのコモンモード電圧の除去方法を示す動作回路図である。本変形例の積和演算器では、先ず、図９Ａに示すように、スイッチＳ_０を短絡し、スイッチＳ_ｓは入力信号Ｖ_ｏｓ＿ｐ，Ｖ_ｏｓ＿ｎを選択し、新規に追加した容量Ｃ_ｃ＿ｐ，Ｃ_ｃ＿ｎのスイッチＳ_ｂｉａｓは接地を、スイッチＳ_ｃｏｍは入力信号Ｖ_ｏｓ＿ｐ，Ｖ_ｏｓ＿ｎをそれぞれ選択する。

　この状態では、比較器の入力端の電荷Ｑ_ｘ＿ｐ，Ｑ_ｘ＿ｎは、入力信号として上記数式１１及び数式１２を用いて、下記数式１７で表される。

　また、破線で囲んだコモン電圧の除去のためのキャンセル容量Ｃ_ｃ＿ｐ，Ｃ_ｃ＿ｎの容量値はそれぞれＣ_ｕに等しいので、キャンセル容量Ｃ_ｃ＿ｐ，Ｃ_ｃ＿ｎの電荷Ｑ_ｃ＿ｐ，Ｑ_ｃ＿ｎは下記数式１８で表される。

　次に、図９Ｂに示すように、スイッチＳ_ｃｏｍを制御して容量Ｃ_ｃ＿ｐ，Ｃ_ｃ＿ｎを短絡すると、上記数式１８から、それぞれの電荷は下記数式１９で表される。

　次に、図９Ｃに示すように、スイッチＳ_０を開き、スイッチＳ_ｃｏｍは比較器の入力端を選択し、スイッチＳ_ｂｉａｓは電圧Ｖ_ＤＤを選択する。比較器の入力端の電荷Ｑ_ｘ　ｐ，Ｑ_ｘ　ｎは、上記数式１７及び数式１８から数式２０で表され、同相成分が除去される。

　また、比較器の入力端のＶ_ｘ＿ｐ，Ｖ_ｘ＿ｎは、下記数式２１を満たす。

　これより、Ｖ_ｘ＿ｐ，Ｖ_ｘ＿ｎは、下記数式２２となり、電圧の中点が（Ｖ_ＤＤ／２）の理想的な動作を実現できる。

　また、差動電圧Ｖ_ｘ＿ｐ－Ｖ_ｘ＿ｎは下記数式２３となり、バイアス成分がキャンセルされるため、理想的なアナログ・デジタル変換を実現できる。

（第１の実施形態の第２変形例）
　次に、本発明の第１の実施形態の第２変形例について説明する。図１０は本変形例の積和演算器に用いられる抵抗型ＤＡＣの回路図である。図２に示す重み付け抵抗を用いたＤＡＣの代わりに、図１０に示す上位数ビットをサーモメータコードを用いた等しい抵抗で構成し、残りの下位ビットを２進で重み付けされたＲ－２Ｒ梯子型の抵抗とした抵抗型ＤＡＣを用いることで、出力抵抗が一定の条件において消費電力を低減することが可能である。

　出力抵抗をＲ_０とし、サーモメータコードを用いた等しい抵抗で構成した上位ビット数をＭとしたとき、この抵抗型ＤＡＣに流れる平均電流Ｉ_ａｖｅは、下記数式２４で表すことができる。

　つまり、Ｍ＝１のサーモメータコードを用いた等しい抵抗を用いない場合に対し、上位４ビット程度に対しサーモメータコードを用いた等しい抵抗を用いた場合は平均電流を３３％程度に低減することができる。従って、本変形例の積和演算器は、動作速度を低下させずに消費電力を低減することができる。また、全てのビットが”１”のときはスイッチＳを設け、最小ビットの抵抗の接地端への接続を開放可能にすることで、回路を流れる電流をゼロにすることができるため、更なる低消費電力化に有効である。

〔第１の実施形態及びその変形例で予想される性能〕
　次に、前述した積和演算器の性能について説明する。本実施形態の積和演算器は、抵抗型ＤＡＣとＣＤＡＣの時間応答と消費電力より消費電力あたりの演算量を求めることができる。先ず初めに、容量値を決定する。ＣＤＡＣの分解能Ｎにおける量子化ノイズと、容量で規定される熱雑音の関係から、下記数式２５が成立する。なお、下記数式２５におけるＣは容量、Ｖ_ＤＤはフルスケール電圧、ｋはボルツマン係数、Ｔは絶対温度である。

　上記数式２５から、容量Ｃを求めると下記数式２６となる。

　ニューロコンピューティングにおいては、分解能Ｎは８ビット程度で十分と言われているので、Ｎ＝８、絶対温度Ｔを３００°Ｋ、フルスケール電圧Ｖ_ＤＤを１．０Ｖとすると、容量Ｃは３．４５ｆＦとなる。

　図１１は応答速度と消費電力を算出するための等価回路である。図１１に示すように、出力抵抗をＲ_０とするとき、応答時定数τは、差動構成によりＣＤＡＣが２個必要なことと、出力抵抗から見た容量が容量Ｃを２分割した直列容量であることを考慮すると、下記数式２７で表される。

　８ビット精度の演算には５τの時間が必要であることを考慮し、上記数式２４で表される電流が消費されることから、演算に必要なエネルギーＥ_Ｄは、上記数式２４におけるＭを４以上とし、下記数式２８から求められる。具体的には、Ｖ_ＤＤ＝１．０Ｖでは１×１０^－１５（Ｊ）、Ｖ_ＤＤ＝０．５Ｖでは０．２５×１０^－１５（Ｊ）となる。

　演算器の電力効率を表す指標として、ＴＯＰＳ／Ｗが使用される。演算が乗算と加算の２つの演算を行うことを考慮すると、下記数式２９から、Ｖ_ＤＤ＝１．０Ｖでは２０００ＴＯＰＳ／Ｗ、Ｖ_ＤＤ＝０．５Ｖでは８０００ＴＯＰＳ／Ｗとなる。

　現行のデジタル方式の８ビット精度の演算器の電力効率は２５ＴＯＰＳ／Ｗ程度であるので、理論上３００倍程度の電力効率が得られる可能性がある。従って、本発明の積和演算器は、従来のデジタル方式の積和演算器に比べて極めて高い電力効率が得られることから、ニューロプロセッサの消費電力を大幅に低減することができる。

（第２の実施形態）
　次に、本発明の第２の実施形態に係る積和演算器について説明する。本実施形態の積和演算器は、前述した第１の実施形態の積和演算器に対して、電圧型ＤＡＣ及びＣＤＡＣに対するデータ入力方法を改良したものである。通常積和演算器に対する入力データはバスを介して行われる。しかしながら、バスは負荷容量が大いためデータ伝送時に消費エネルギーが著しく増大する。また、配線遅延時間が長いため動作速度が遅くなる。このためデータ入力方法を工夫しないと、本発明の積和演算器の持つ低エネルギー性と高速性を活かしきることが困難となる。

　そこで、本実施形態の積和演算器は、電圧型ＤＡＣ及びＣＤＡＣに対するデータはバスを介さずにメモリから直接入力する。図１２は本実施形態の積和演算器に用いられるＤＡＣへのデータ入力回路を示す図である。図１２に示すデータ入力回路を設けることで、ＤＡＣに対して低エネルギーかつ高速なデータ入力が可能となる。

　図１３Ａ，Ｂは図１２に示すメモリセルの回路図であり、図１３Ｃはセンスアップの回路図である。図１３ＡはＳＲＡＭメモリセルである。ＳＲＡＭメモリセルは、ロジックプロセスで作製できるため、集積が容易である。図１３Ｂは不揮発性メモリセルである。不揮発性メモリセルは、抵抗値を変化させたものが多く、磁性薄膜を用いたＭＲＡＭや相変化を用いたＲｅＲＡＭが代表であるが、他のメモリも使用可能である。メモリを不揮発にすることで、データの頻繁な移動が生ぜず、極めて低エネルギーで動作させることができる。またニューロコンピューティングにおいては、結合係数Ｗは学習において得られ、その後は値が変化しないため、不揮発性メモリが適している。

　図１３Ｃはセンスアンプ回路である。センスアンプは、正帰還動作により僅かな入力電位差をフルスイング電圧まで増幅する。このことにより、メモリセルからのビット線の僅かな電位差をフルスイング電圧まで増幅してＤＡＣに入力することができる。図１２に示すように、メモリセルへのデータ入力はバスを介して行われる。このため、メモリセルへのデータ入力は消費エネルギーが著しく増大するとともに配線遅延により遅延時間が長いため、動作速度が遅くなる。

　図１４はメモリセルへの入力バスの電圧を示す図である。本実施形態の積和演算器では、バスは図１２に示すように差動構成を用い、図１４に示すように０．１Ｖ程度の低振幅とし、センスアンプでフルスイング電圧まで増幅するようにする。このような構成にすることで、バスの消費エネルギーを１／１０程度まで低減できる他、データ伝送速度を数倍に向上させることができる。

　本実施形態の積和演算器は、電圧出力デジタル・アナログ変換部及び容量型デジタル・アナログ変換部の入力データはメモリセルに保存され、その論理状態をセンスするセンスアンプの出力から得られるとともに、メモリへの入力データを差動形式にし、振幅が電源電圧よりも低い低振幅バスを用いて伝送され，センスアンプでより大きい振幅に変換されてメモリセルのビットラインを駆動するので、ＤＡＣへのデジタル入力が低エネルギーかつ高速に行うことができるため低エネルギーで動作し，動作速度が高速な積和演算器を実現することができる。

　１　積和演算器
　１１　電圧出力デジタル・アナログ変換部
　１２　容量型デジタル・アナログ変換部
　１３　アナログ・デジタル変換部

Claims

　複数のデジタル・アナログ変換器で構成され、複数のデジタル値を各要素とするベクトル及び複数のデジタル値を各要素とする行列が入力され、前記ベクトルの各要素のデジタル値をアナログ電圧に変換する電圧出力デジタル・アナログ変換部と、
　複数のデジタル・アナログ変換器で構成され、前記電圧出力デジタル・アナログ変換器列の各出力電圧が入力され、前記行列の各要素のデジタル値に対応した容量比が入出力端子間及び出力端子と接地間に設定される容量型デジタル・アナログ変換部と、
　複数のアナログ・デジタル変換器で構成され、前記容量型デジタル・アナログ変換部の各出力端に共通に接続されたノードの電圧がアナログ入力され、デジタル値に変換されるアナログ・デジタル変換部と、
を有し、
　前記アナログ・デジタル変換部の出力を出力ベクトルとする積和演算器。
　前記複数のデジタル値を各要素とする行列は１次元ベクトルであり、
　前記電圧出力デジタル・アナログ変換部の各デジタル・アナログ変換器から第１のベクトルと前記１次元ベクトルとの内積が出力される請求項１に記載の積和演算器。
　前記容量型デジタル・アナログ変換部は差動信号を出力し、
　前記アナログ・デジタル変換部の各アナログ・デジタル変換器には、前記容量型デジタル・アナログ変換部の各出力端に共通に接続された一対のノードの差動電圧がアナログ入力され、デジタル値に変換される請求項１に記載の積和演算器。
　前記アナログ・デジタル変換部の各アナログ・デジタル変換器は、前記一対のノードの差動電圧を一対の容量にサンプリングし、前記一対の容量の端子間を短絡することで同相信号を抽出し、前記一対のノードの差動電圧から差し引くことで同相成分をキャンセルする請求項３に記載の積和演算器。
　前記容量型デジタル・アナログ変換部は、出力に対して２進重み付け容量を用いて各要素のデジタル値に対応した容量比を入出力端子間及び出力端子と接地間に設定する請求項１に記載の積和演算器。
　前記電圧出力デジタル・アナログ変換部を構成する各デジタル・アナログ変換器に重み付け抵抗が用いられている請求項１に記載の積和演算器。
　前記電圧出力デジタル・アナログ変換部を構成する各デジタル・アナログ変換器は、上位数ビットはサーモメータコードを用いた等しい抵抗で構成され、残りの下位ビットには２進で重み付けされたＲ－２Ｒ梯子型の抵抗が用いられている請求項６に記載の積和演算器。
　前記電圧出力デジタル・アナログ変換部を構成する各デジタル・アナログ変換器は、最小ビットの抵抗の接地端への接続が開放可能となっている請求項６に記載の積和演算器。
　前記電圧出力デジタル・アナログ変換部及び前記容量型デジタル・アナログ変換部の入力データは、メモリセルに保存されており、その論理状態をセンスするセンスアンプの出力から得られる請求項１に記載の積和演算器。
　前記メモリセルへの入力データは差動形式であり、振幅が電源電圧よりも低い低振幅バスを用いて伝送され、前記センスアンプでより大きい振幅に変換されて前記メモリセルのビットラインを駆動する請求項９に記載の積和演算器。
　前記メモリセルはＳＲＡＭである請求項９に記載の積和演算器。
　前記メモリセルは不揮発性である請求項９に記載の積和演算器。
　前記不揮発性のメモリセルはＭＲＡＭである請求項１２に記載の積和演算器。