WO2017170340A1

WO2017170340A1 - メモリ装置

Info

Publication number: WO2017170340A1
Application number: PCT/JP2017/012276
Authority: WO
Inventors: 奕涛馬; 哲郎遠藤
Original assignee: 国立大学法人東北大学
Priority date: 2016-03-28
Filing date: 2017-03-27
Publication date: 2017-10-05
Also published as: JP6919846B2; JPWO2017170340A1; US10741228B2; US20200219547A1

Abstract

消費電力の最適化を図って参照データを読み出すことができるメモリ装置を提供する。メモリ装置１００は、Ｎ（≧１）次元からなり１次元がＭ（≧１）ビットからなる参照データが記憶されるメモリ領域１１３を備え、メモリ領域１１３において１以上Ｎ以下の任意数のコラムライン１１７とＭ本のローライン１１５とにより指定される領域毎に、Ｍビットの不揮発性メモリを１単位として構成する任意数のメモリグレン１１９と、任意数のメモリグレンに電力を供給するパワードライバー１１８とが組として備えられ、パワードライバー１１８が、任意数のコラムライン１１７からの制御信号の入力と、Ｍ本のローライン１１５からの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバー１１８と組となるメモリグレン１１９に電力を供給することにより、当該メモリグレン１１９に格納されている次元毎の参照データを読み出す。

Description

メモリ装置

　本発明は、類似したデータを検索することができる、メモリ装置に関する。

　一般的なメモリ装置は、アドレス毎にデータが記憶されており、アドレスを指定することにより、その指定アドレスに記憶されているデータを読み出す。一方、連想メモリ装置は、入力されたデータに類似しているデータを検索し、そのデータを読み出す。

　典型的な連想メモリとして、参照データベースから検索データと完全一致のデータを検索するＣＡＭ（Content Addressable Memory）がある（例えば特許文献１乃至３、非特許文献１乃至３）。完全並列で動作するＣＡＭは、メモリセルと比較回路がメモリセル毎に設けられ、比較回路がメモリセル内の参照データと入力データとを比較する。ＣＡＭは、指定された宛先ＩＰアドレスやＭＡＣアドレスに一致する参照データを高速に検索する。しかし、ＣＡＭは、ネットワークルータでのＩＰアドレスを検索することには有用であるが、類似データを検索するには不向きである。

　類似データを検索する技術には、Nearest Neighbor Search(NNS)機能を持つ連想メモリがあり、連想メモリには、デジタルアプローチ（例えば特許文献４及び５、非特許文献４乃至７）とアナログアプローチ（例えば非特許文献８）がある。何れのアプローチにおいても、参照データを保存する領域は、揮発性のＳＲＡＭで構成されている。

　一方、不揮発性メモリとして、本発明者らのグループは、スピン注入磁化反転型磁気抵抗変化型ＲＡＭ（Spin Tranfer Torque - Magnetroresistance Randam Access memory：STT-MRAM）の技術を開発してきた（例えば非特許文献９、１０）。

特開２０１２－１９０５３０号公報特開２０１３－１９１２５５号公報特開２０１５－１８５１９７号公報特開２０１１－７６６８８号公報特開２０１５－１６２５７号公報

B.-D. Yang, JSSC, Vol 50, No. 10, pp. 2441-2450, Oct. 2015 N. Onizawa, S. Matsunaga, V. C. Gaudet, W. J. Gross and T. Hanyu, IEEE Trans. Circuits and Systems, Vol. 61, No. 3, pp. 865-876, Mar. 2014 Z. Ullah, M. K. Jaiswal and R. C. C. Cheung, IEEE Trans. VLSI Systems, Vol. 23, No. 2, pp. 402-406, Feb. 2015 S. Sasaki, M. Yasuda and H. J. Mattausch, ESSCIRC, pp. 185-188, 2012 T. Akazawa, S. Sasaki and H. J. Mattausch, ESSCIRC, pp. 267-270, 2013 F. An, T. Akazawa, S. Yamazaki, L. Chen, and and H. J. Mattausch, CICC, pp. 1-4, 2014 F. An, K. Mihara, S. Yamasaki, L. Chen and H. J. Mattausch, SSDM, pp. 144-145, 2015 T. B. Trong and T. Shibata, ULIS, pp. 213-216, 2009 Takashi Ohsawa, Hiroki Koike, Sadahiko Miura, Hiroaki Honjo, Keizo Kinoshita, Shoji Ikeda, Takahiro Hanyu, Hideo Ohno, Tetsuo Endoh, A 1 Mb Nonvolatile Embedded Memory Using 4T2MTJ Cell With 32b Fine-Grained Power Gating Scheme, IEEE JOURNAL OF SOLID-STATE CIRCUITS, VOL.48, NO.6, JUNE 2013, pp.1511-1520 T. Ohsawa, S. Miura, K. Kinoshita, H. Honjo, S. Ikeda, T. Hanyu, H. Ohno, and T. Endoh, A 1.5nsec/2.1nsec Random Read/Write Cycle 1MbSTT-RAM Using 662MTJ Cell with Background Write for Nonvolatile e-Memories, 2013 Symposium on VLSI Circuits Digest of Technical Papers C111

　ＮＮＳ連想メモリのうち、デジタルアプローチ及びアナログアプローチの何れも、揮発性のメモリで構成されているため、何れの領域からのデータの読み出しであっても、全てのメモリグレンに電力を供給する必要がある。よって、省電力化することができない。

　そこで、本発明では、検索データに類似するデータを探索する際に、消費電力の最適化を図って参照データを読み出すことができる、メモリ装置を提供することを目的とする。

　前記目的を達成するために、本発明は次のコンセプトを有する。
［１］　Ｎ（≧１）次元からなり１次元がＭ（≧１）ビットからなる参照データが記憶されるメモリ領域を備え、
　前記メモリ領域において１以上Ｎ以下の任意数のコラムラインとＭ本のローラインとにより指定される領域毎に、Ｍビットの不揮発性メモリを１単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
　前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記Ｍ本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。
［２］　前記Ｍ本のローラインからの制御信号の入力は、１本乃至Ｍ本のうち所定本数毎に順番になされる、前記［１］に記載のメモリ装置。
［３］　前記Ｍ本のローラインからの制御信号の入力は、同時になされる、前記［１］に記載のメモリ装置。
［４］　前記パワードライバーは、クロック信号の“１”又は“０”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“０”又は“１”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、前記［１］乃至［３］の何れかに記載のメモリ装置。
［５］　前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第１の回路と、
　前記第１の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第２の回路と、を備える、請求項１乃至４の何れかに記載のメモリ装置。
［６］　前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、前記［１］乃至［５］の何れかに記載のメモリ装置。

　本発明によれば、第１に、Ｎ（≧１）次元からなり１次元がＭ（≧１）ビットからなる参照データが記憶されるメモリ領域を備え、第２に、メモリ領域において１以上Ｎ以下の任意数のコラムラインとＭ本のローラインとにより指定される領域毎に、Ｍビットの不揮発性メモリを１単位として構成する任意数のメモリグレンと、任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、第３に、パワードライバーが、任意数のコラムラインからの制御信号の入力と、Ｍ本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバーと組となるメモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す。よって、各メモリグレンは、コラムライン及びローラインによる読み出し場所の指定とクロック信号による時間的な指定との双方により、電力が供給されることになり、省電力化が図られる。

本発明の実施形態に係るメモリ装置が適用される場面を説明する図である。特徴ベクトルデータについての説明図である。本発明の実施形態に係るメモリ装置の構成図である。本発明の実施形態に係るメモリ装置におけるメモリ部とその動作及び消費電力について模式的に示す図である。従来のアプローチでのメモリ部５１０とその動作及び消費電力について模式的に示す図である。従来のＳＴＴ-ＭＲＡＭから構成されたメモリ部とその動作及び消費電力について模式的に示す図である。参照データが一次元である場合のメモリ装置の再構成を示す図である。参照データが二次元である場合のメモリ装置の再構成を示す図である。参照データが三次元である場合のメモリ装置の再構成を示す図である。参照データが四次元である場合のメモリ装置の再構成を示す図である。図３に示すメモリ装置を複数備え、その一つをメインコアとし、その他をブランチコアとした、メモリシステムの構成図である。図８に示すメモリシステムにおいて、類似評価部、探索部及び比較更新部の主張部分のタイムチャートである。図８に示すメモリシステムの動作を説明するための図である。実装例に係るブロック構成図である。実装例でのメモリ領域の領域毎のブロック図である。図１２に示す実装例において、不揮発性のメモリグレンを１つとし、参照データの次元毎にパワードライバーを備える場合を想定したメモリ領域のブロック図である。図１３Ａに示すユニットについての動作を示すタイムチャートである。図１３Ａに示す回路の変形例を示す図である。メモリ部における４Ｔ－２ＭＴＪメモリセルの回路図である。図１４に示す４Ｔ－２ＭＴＪメモリセルの動作を説明するためのタイムチャートである。図１２に示す実装例での読出／書込回路のブロック図である。図１２に示す実装例での類似度評価セルの回路図である。図１２に示す実装例での電流統合回路の回路図である。図１２に示す実装例でのタイムドメインコンバーターの回路図である。図１２に示す実装例での検索部内のＴＤ－ＷＴＡ回路のブロック図である。図１２に示す実装例での最小値比較更新回路の構成図であり、ブランチコアで用いられるものを示している。図１２に示す実装例での最小値比較更新回路の構成図であり、メインコアで用いられるものである。図２３Ｃに示す設計スペックに従って作製したチップの写真を示す像である。図２３Ａに示す像の模式図である。図１２に示す実装例での設計スペックを示す図表である。類似度評価セルの回路動作の検証結果を示す図である。３次元データ構成での類似度電流の結果を示す図である。１６次元データ構成でのコア動作波形を示す図である。消費電力について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。回路面積について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。

　以下、図面を参照しながら本発明を実施するための形態について詳細に説明する。

　図１は、本発明の実施形態に係るメモリ装置１００が適用される場面を説明するための図である。図１に示すように、検索データ１０が入力されると、検索データ１０が１又は複数の次元の特徴ベクトルデータ２０に変換される。変換されたデータは、Ｎ（≧１）次元の特徴ベクトルデータ２０を備え、１次元がＭ（≧１）ビットを有する。メモリ装置１００は、格納されている参照データ３０の中から最も類似しているデータを抽出する。メモリ装置１００は、後述するようなメモリ領域を備えている。

　ここで、検索データ１０、特徴ベクトルデータ２０及び参照データ３０について説明する。

　検索データ１０は、ターゲットデータとも呼ばれ、メモリ領域に記憶されているデータから検索したいデータに関し、入力されるデータをいう。

　参照データ３０は、テンプレートデータとも呼ばれ、メモリ領域に記憶されているデータであって、検索データにより検索対象となるデータをいう。

　検索データ１０及び参照データ３０は、画像データ、サウンドデータ、テキストデータ（文章データ）を対象とし、種類は問わない。自然数Ｍ、Ｎは対象とするデータの種類に応じて設定される。

　特徴ベクトルデータ２０は、多数の観点からＮ（≧１）本の特徴量を抽出し、一つの特徴量の割合を数（この数をＭビットで表す。）で示し、Ｎ本の特徴量の割合をベクトル表示したものをいう。特徴量の数を次元数と呼ぶ。

　図２は、特徴ベクトルデータ２０についての説明図である。
　図２の上段に示すように、例えば、色認識の三次元（ＲＧＢ）ベクトルデータであれば、検索データがＲＧＢの各色がどの程度含まれているかによって示される。１次元の特徴をＭ（例えばＭ＝８）ビットで示す。

　図２の下段に示すように、例えば、形状認識の８次元ベクトルデータであれば、検索データ１０に含まれている輪郭について、「4-Direction Edge Map」に示すような各基準輪郭に沿っている部分が含まれているか否かを判定し、「Edge Distribution」に示すように各基準輪郭に沿っている部分をピクセル数でカウントし、０°、４５°、９０°、－４５°の点線で区分けされる各部におけるピクセル数の分布を作成し、「Vector Generation」に示すように８次元特徴ベクトル（「8-D Feature Vector」）のような分布として示す。

　特徴ベクトルデータ２０は、図２に示すような単純なものに限らず、複雑な特徴ベクトルデータでもよく、画像認識の分野において非常に有名な１２８次元のscale-invariantfeature transform(SIFT)やBag-of-feature(Bof)のベクトルデータであってもよい。

　メモリグレン（memory grain）とは、参照データ３０の1次元分（Ｍビット）を保存するメモリ・サブアレイである。本発明の実施形態においては、メモリグレンに対して細粒度(fine-grain)パワーゲーティングを行い、独立に電源制御（ＯＮ/ＯＦＦ）をする。

　本発明の実施形態では、メモリ領域において、次元数毎にＭビットのデータが参照データとして記憶されるとして、説明する。

　図３は本発明の実施形態に係るメモリ装置の構成図である。本発明の実施形態に係るメモリ装置１００は、不揮発性の類似検索用メモリ装置とも呼ぶことができ、メモリ部１１０と、類似評価部１３０と、探索部１５０と、比較更新部１７０と、を備える。

　本発明の実施形態に係るメモリ装置１００は、メモリ部１１０としての（Ｒ×Ｍ）行Ｃ列のメモリセルアレイから構成されて（Ｒ×Ｃ）／Ｎ個の参照データを保存している参照データ保存回路と、Ｃ／Ｎ個の参照データと検索データの類似度を並列に計算し電流として出力するＣ個の類似度評価セル（SEC:Similarity Evaluation Cell）１３３と、参照データの次元数に応じてＣ個の類似度電流を統合する電流統合回路（CA：Current Accumulator）１３５と、統合した類似度電流をＣ／Ｎ個のTime-Domain電圧遅延信号に変換するタイムドメインコンバーター（TD:Time-Domain Converter）１３６と、Ｃ／Ｎ個のタイムドメイン電圧遅延信号から最短値を検出しその最短遅延をカウンタで最小クロック数に変換するＴＤ最小値探索回路１５１と、得られる最小クロック数を保存している以前計算したクロック数と比較し小さい方をアップデートする最小値比較更新回路１７１と、から構成される。

　メモリ部１１０としての参照データ保存回路は、Ｒ×Ｃ（Ｃ≧Ｎ）の１次元データを保存するメモリグレン（ＭＧ: Memory Grain）１１９を備え、各メモリグレン１１９にはＭビットの値を保存している。各メモリグレン１１９にパワーゲーティングのためのパワードライバー（ＰＧ）１１８が設置され、各パワードライバー１１８が行デコーダ、列デコーダ及びクロック１(clk.1)により独立に電力の供給について制御する。すなわち、一行のメモリグレン１１９（ＭＧ）には、Ｃ／Ｎ個の参照データが保存されており、各参照データを並列に類似度評価セル１３３に出力して連想認識が実行される。

　以下、図３に示すメモリ装置１００について更に詳細に説明する。
　メモリ部１１０としての参照データ保存回路は、ローデコーダ１１１、コラムデコーダ１１２、メモリ領域１１３、及び読出／書込回路１１４で構成される。メモリ領域１１３は、複数のローライン１１５と、複数のビットライン１１６と、複数本のコラムライン１１７と、複数のパワードライバー（ＰＤ：Ｐｏｗｅｒ　Ｄｒｉｖｅｒ）１１８と、複数のメモリグレン（ＭＧ：Ｍｅｍｏｒｙ　Ｇｒａｉｎ）１１９とを備える。メモリグレン１１９は不揮発性メモリで構成されている。

　ローデコーダ１１１には複数本のローライン１１５が接続されており、コラムデコーダ１１２には複数本のコラムライン１１７が接続されている。

　メモリ領域１１３は複数の領域に分けられ、各領域は１以上Ｎ以下の任意数のコラムライン１１７とＭ本のローライン１１５とで指定され、領域毎にパワードライバー１１８とメモリグレン１１９とが組として備えられている。ここで、コラムライン１１７の任意数と、ローライン１１５の本数と、ビットライン１１６の本数とは、何れも設計時に設定され、その設定に従って製造される。ここで、「任意数」とはメモリ装置を利用するユーザにより定められる場合なども含まれ、単に、設計・製造時に一定の値に定められる場合も含まれる。図３では、領域毎に、コラムライン１１７は１本とし、ローライン１１５はＭ本として、ビットライン１１６はＭ本としている。ここでの自然数Ｍ，Ｎの定義は、前述した検索データ１０及び参照データ３０での定義と同じである。領域毎に、パワードライバー１１８とメモリグレン１１９とが組として１～Ｎ個がある。

　本発明の実施形態では、メモリ領域１１３において任意数のコラムライン１１７とＭ本のローライン１１５とにより指定される領域毎に、Ｍビットの不揮発性メモリを１単位として構成するメモリグレン１１９と、メモリグレン１１９に電力を供給するパワードライバー１１８とが組として備えられている。ここで、領域毎のコラムライン１１７は任意数個であり、ここで、「任意数」とはメモリ装置を利用するユーザにより定められる場合なども含まれ、単に、設計・製造時に一定の値に定められる場合も含まれる。領域毎のメモリグレン１１９の任意数個と等しく、図３では１個としている。

　本発明の実施形態では、或る一つのパワードライバー１１８が、任意数のコラムライン１１７からの制御信号の入力と、Ｍ本のローライン１１５からの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバー１１８と組となるメモリグレン１１９に電力を供給する。これにより、そのメモリグレン１１９に格納されている次元毎の参照データを読み出し、ビットライン１１６を通じてその列の読出／書込回路１１４に出力する。

　よって、メモリ領域１１３の全体に電力を供給するのではなく、読み出す各領域のメモリグレン１１９に電力を供給することで、必要な場所にのみ電力を供給すると共に、クロック信号の入力により必要な時間のみ電源供給をする。従って、メモリ領域１１３に格納されている参照データを読み出す際の消費電力を大幅に減らすことができる。

　図３に示すように、メモリグレン１１９は、ＭＧ_１１～ＭＧ_ＲＣまで、Ｒ行Ｃ列存在するので、ローデコーダ１１１からの制御信号が流れる１又は複数本のローライン１１５と、コラムデコーダ１１２から制御信号が流れる１又は複数本コラムライン１１７とで１又は複数のパワードライバー１１８が指定され、その指定されたパワードライバー１１８においてクロック信号“１”が入力されると、入力されている間のみ、パワードライバー１１８から、組となるメモリグレン１１９に電力が供給される。指定されたパワードライバー１１８においてクロック信号“０”が入力されると、組となるメモリグレン１１９に電力の供給が停止される。なお、パワードライバー１１８は、クロック信号“０”が入力されると組となるメモリグレン１１９に電力を供給し、クロック信号“１”が入力されると組となるメモリグレン１１９に電力を供給しないようにしてもよい。ここで、クロック信号“０”、“１”は、“Ｈ”、“Ｌ”に対応している。

　ここで、Ｍ本のローライン１１５からの制御信号の入力は、１本乃至Ｍ本のうち所定本数毎に順番になされてもよいし、１本乃至Ｍ本まで同時になされてもよい。

　図３に示すメモリ装置１００においては、第１の回路として類似度評価部１３０を備え、第２の回路として探索部１５０及び比較更新部１７０とを備える。第１の回路は、メモリ領域１１３からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める。第２の回路は、メモリ領域１１３からの読み出し毎に、第１の回路で求まる類似度の高い候補を求め、最も類似している次元毎の参照データについての類似度を求める。第１の回路及び第２の回路の具体的な構成として、図３に示す場合を例にとって説明する。

　類似度評価部１３０は、入力検索データ保存回路１３１と、デジタル／アナログコンバーター（ＤＡＣ: Digital Analog Converter）１３２と、類似度評価セル（ＳＥＣ：Similarity Evaluation Cell）１３３と、切替スイッチ１３４と、電流統合回路（ＣＡ：Current Accumulator）１３５と、タイムドメインコンバーター（ＴＤＣ：Time Domain Converter）１３６と、を備える。

　デジタル／アナログコンバーター１３２、類似度評価セル１３３、切替スイッチ１３４、電流統合回路１３５及びタイムドメインコンバーター１３６はコラムライン数だけ備えている。列毎に、読出／書込回路１１４からデジタル／アナログコンバーター１３２にデジタルデータが電圧値として入力され、デジタル／アナログコンバーター１３２においてデジタルデータがアナログデータに変換されて、類似度評価セル１３３に出力される。

　類似度評価セル１３３は、入力された二つのデータについての類似度を求める。一つ目のデータは、検索データが次元毎に分解されて入力検索データ保存回路１３１から出力されたデータであって、次元数毎の当該検索データの電圧値である。二つ目のデータは、読出／書込回路１１４からデジタル／アナログコンバーター１３２を経由して入力された参照データの電圧値である。

　類似度評価セル１３３は、一つ目のデータと二つ目のデータとの類似度を電流値として求めて出力する。電流値がゼロの場合は一つ目のデータと二つ目のデータは同一と評価し、電流値が大きい場合は一つ目のデータと二つ目のデータは異なると評価していることになる。つまり、参照データが検索データと似ていると、出力される電流値は小さくなる。

　切替スイッチ１３４が列毎に備わっている。切替スイッチ１３４は、第１のスイッチ１３４ａと第２のスイッチ１３４ｂとが連動するように構成されている。第１のスイッチ１３４ａは、第ｊ列番目の類似度評価セル１３３と第（ｊ＋１）列番目の類似度評価セル１３３との間に設けられている。ここで、ｊは１以上最大列Ｃ以下の自然数である。第２のスイッチ１３４ｂは、各列の類似度評価セル１３３と電流統合回路１３５との間に設けられている。第１のスイッチ１３４ａと第２のスイッチ１３４ｂは、何れも、外部からの次元制御信号（ＤＣＳ：Dimension Control Signal）により制御され、外部からの次元制御信号が入力される線は、第１のスイッチ１３４ａの制御電極、第２のスイッチ１３４ｂの制御電極の何れかに接続され、その何れかの配線の間には、ＮＯＴ回路１３４ｃが含まれている。これにより、第１のスイッチ１３４ａがＯＮの場合には第２のスイッチ１３４ｂがＯＦＦとなる一方、第１のスイッチ１３４ａがＯＦＦの場合には第２のスイッチ１３４ｂがＯＮとなる。次元制御信号は、メモリ領域１１３に記憶されている参照データの次元に対応して、切替スイッチ１３４を制御する。

　Ｎ次元の参照データが、メモリグレンＭＲ_ｉ　ｊからメモリグレンＭＲ_{ｉ　ｊ＋ｎ－１}まで、次元に分けて記憶されているとすると、当該Ｎ次元の参照データが検索データと類似しているかどうかを評価するには、第ｊ列番目の類似度評価セルＳＥＣ_ｊから第（ｊ＋ｎ－１）列番目の類似度評価セルＳＥＣ_{ｊ＋ｎ－１}までの各類似度を加算する必要がある。

　本発明の実施形態では、各類似度を加算するために、第ｊ列番目の類似度評価セルＳＥＣ_ｊと第（ｊ＋１）番目の類似度評価セルＳＥＣ_ｊ＋１との間との間に第１のスイッチ１３４ａを設け、第ｊ列番目の類似度評価セルＳＥＣ_ｊと第ｊ列番目の電流統合回路ＣＡ_ｊとの間に第２のスイッチ１３４ｂを設けている。

　外部の次元制御信号により、第１のスイッチ１３４ａがＮ個の類似度評価セル１３３を直列接続した状態にする。類似度評価セル１３３の入力端子に次元毎の検索データの電圧を印加し、類似度評価セル１３３から出力される電流値を電流統合回路１３５に入力して、電流統合回路１３５に一旦保存する。その後、類似度評価セル１３３の入力端子に次元毎の参照データの電圧を印加し、類似度評価セル１３３から出力される電流値を電流統合回路１３５に入力して、保存している電流値との差分を計算する。このように、類似度評価セル１３３と電流統合回路１３５との連携により、複数列に分散して記憶されている参照データが検索データに類似しているか否かを、電流値により求めることできる。

　タイムドメインコンバーター１３６は、電流統合回路１３５から出力された電流値を遅延時間に変換する。よって、切替スイッチ１３４により直列接続された各類似度評価セル１３３のうち、列番号が最も大きい最も右端の類似度評価セル１３３からタイムドメインコンバーター１３６に電流値が入力されることにより、複数列に分散して記憶されている参照データが検索データに類似しているか否かを、時間遅延の値として求めることができる。類似度が高いほど、時間遅延の値が小さくなる。変換された遅延時間信号は、何れも、探索部１５０に入力される。

　探索部１５０はＴＤ最小値探索回路１５１で構成され、類似度評価部１３０における各タイムドメインコンバーター１３６から入力された時間遅延信号のうち、最も時間遅延の短いもの、すなわち、タイムドメインの最小値を探索する。探索した最も遅延時間の短い値は、Ｗビットのカウンタでカウントされ、比較更新部１７０に出力される。

　比較更新部１７０は最小値比較更新回路１７１で構成され、メモリ部１１０の読み出しの繰り返し毎に、探索部１５０から入力されたカウント値と自ら保存しているカウント値とを比較し、カウント値が低い方を記憶する。これにより、メモリ部１１０の読み出しの繰り返しが終了すると、低いカウント値が求まり、結果として、検索データに最も類似する参照データのカウント値が求まる。このカウント値は、メモリ部１１０のアドレスに対応させることで、メモリ部１１０において最も類似する参照データのアドレスが求まる。

　図３に示すメモリ装置１００の動作説明は、次の通りである。

　先ず、入力検索データ保存回路１３１は、入力された検索データを次元毎に分けて、デジタル／アナログコンバーター１３２でアナログ電圧に変換し、類似度評価セル１３３に入力する。

　次に、読出／書込回路１１４を経て、Ｃ個のメモリグレン１１９からそれぞれ出力される１次元分の参照データ（Ｍビット）を同様にデジタル／アナログ変換回路１３２でアナログ電圧に変換し、検索データの入力後から、並列にＣ個の類似度評価セル１３３に入力する。もしデジタルアナログコンバーター１３２がシリアルである場合では、Ｍビットデータを変換するために、Ｍクロックの時間がかかる。

　その際、先ず、類似度評価セル１３３は、次元毎に検索データ（１次元）の電圧と参照データ（１次元）の電圧との類似度を電流として出力する。

　次に、外部の次元制御信号が、参照データ及び検索データの次元数に応じて、類似度評価セル１３３の間の第１のスイッチ１３４ａがＯＮ状態となるように制御し、第１のスイッチ１３４ａがＯＮ状態となっている類似度評価セル１３３同士の電流を加算し、Ｃ個の類似度評価セル１３３の電流をＣ／Ｎ個の類似度電流統合回路１３５で統合し対応するタイムドメインコンバーター１３６へ出力する。電流が小さい方が類似度が高い。同じ次元制御信号により、第２のスイッチ１３４ｂをＯＦＦ状態にし、必要のない類似度電流統合回路１３５とタイムドメインコンバーター１３６を接続しないようにして無効化する。

　次に、タイムドメインコンバーター１３６が、統合されたＣ／Ｎ個の類似度電流をタイムドメイン電圧遅延信号に変換し、並列にＴＤ最小値探索回路１５１へ出力する。

　次に、第１階層（ローカル）の最小値探索処理として、ＴＤ最小値探索回路１５１で、１行分のＣ／Ｎ個の参照データに対応するタイムドメイン電圧遅延信号から最も類似度が高いもの、すなわち遅延の短いものを求め、Ｗビットのカウンタでその遅延を遅延中のクロック数であるデジタル値に変換し、最小値比較更新回路１７１へ出力する。Ｗビットのカウンタは、最大２^Ｗクロックの遅延を持つタイムドメイン電圧遅延信号に変換され、この最大遅延に比例する類似度電流変換の解像度が得られる。つまり、Ｗが大きければ、もっと小さい類似度電流差が得られる。

　次に、第２階層（グローバル）の最小値探索処理として、最小値比較更新回路１７１で、メインコア２１０で得られたＷｉｎｎｅｒ（ローカルＷｉｎｎｅｒ）のデジタル遅延値、又は、ブランチコア２２０で得られ入力されたＷｉｎｎｅｒ（グローバルＷｉｎｎｅｒ）のデジタル遅延値を、回路内に保存されている全ステップの値と比較して、小さい方を書き換えて更新する。この更新を繰り返すことで、メインコア２１０及びブランチコア２２０内の全ての参照データから一番似ているものが、最後に、最小値比較更新回路１７１の中に保存され連想処理結果になる。なお、メインコア２１０及びブランチコア２２０については、後述の図８を参照して詳細に説明する。

　ここで、本発明の実施形態に係るメモリ装置１００において、省電力化が達成できていることを詳細に説明する。図４乃至図６は、本発明の実施形態に係るメモリ装置におけるメモリ部とその動作及び消費電力について、従来技術のそれらと比較するための図である。

　図４は、本発明の実施形態に係るメモリ装置１００におけるメモリ部１１０とその動作及び消費電力について模式的に示す図である。図４の上段は、メモリ部１１０を模式的に示し、図４の中段は、Ｄａｔａ♯１、Ｄａｔａ♯２、Ｄａｔa♯３を順に列毎に読み出したときに、どの列の領域からデータが読み出されるかを示す。図４の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。

　参照データの次元毎に（１個のメモリグレン毎に）パワードライバー１１８を備えて、細粒度パワーゲーティングを用いるだけでなく、任意のコラムライン１１７を複数本同時にアクティベートすることを可能にして１Ｄａｔａ内の必要なデータ次元に対応した必要なメモリグレン１１９のみに柔軟に電力を供給する。その上に、パワードライバー１１８に動作演算のクロック信号が入力し、クロック信号に同期して、パワードライバー１１８から対応のメモリグレン１１９に電力を供給する。

　この読み出し制御によって、演算に必要なデータが演算動作中のみ、電力を消費することになり、演算動作のクロック信号が入っていない場合には電力を消費しない。さらに、読み出しの時にクロックパルスが“０”のときのみ電力消費がある。クロックパルスが“１”（クロック前半）の時はpre-charge、すなわちビットライン１１６を０Ｖにプレチャージし、電力を供給する必要がなく、演算動作中の消費電力が半減する。

　例えば、データ♯１（Ｄａｔａ♯１）では、参照データの全ての次元のデータ出力が必要な場合、クロックを用いているので、読み出しの際に、消費電力が半減する。この理由は次の通りである。クロック制御の導入により、１クロックの前半、すなわちクロック信号が“Ｈ”であるときメモリグレン１１９に電力を供給しないで、プレチャージする。１クロックの後半、すなわちクロック信号が“Ｌ”であるとき指定のメモリグレンに電力を供給して、データを読み出す。このプレチャージは、電力供給を高速で切り換える際にdisturb誤動作が発生しないようにするため、参照データを読み出す際に、データが書き換えられない。

　データ♯２（Ｄａｔａ♯２）では、動作演算のクロックの制御により、パワードライバー１１８が動作していないので、動的にメモリの動作も停止し、消費電力を最小化することができる。

　データ♯３（Ｄａｔａ♯３）では、参照データの一部分の次元の出力が必要な場合、必要最低限のメモリグレン１１９だけに電力を供給して、消費電力の最適化を図ることができる。

　本発明の実施形態においては、メモリ部１１０が、Cycle-based 粒度制御可能なパワーゲーティングに基いた不揮発性メモリで構成されている。この構成により、待機時の消費電力をゼロにする上、メモリ部１１０の必要な部分に電力を供給し、不要な部分には電力を供給しないため、消費電力を減らすことができる。

　不揮発性メモリは、小面積、高速、高安定、低書込電流など色々異なる性能に重視してそれぞれ開発されてきた経緯があるが、ここでは、Cycle-based 粒度制御可能なパワーゲーティングを実現するために、高速且つ安定の不揮発メモリセルが必要である。本発明の実施形態では、一般的には差動対型のＳＴＴ－ＭＲＡＭメモリセルを利用するとよい。この点については実装例で詳細に説明する。

　実装例において後述するように、高速で探索することができ、かつ、Cycle-based 粒度制御可能なパワーゲーティングが実現できたのは、次の理由による。

　第１には、電力が供給されたらすぐに反応でき、高速かつ安定な動作を特徴とする差動対型ＳＴＴ－ＭＲＡＭメモリセル（例えば４Ｔ－２ＭＴＪセル）を採用しているからである。４Ｔ－２ＭＴＪセルは、より速くＭＴＪからデータを読出せ、高速の電源ＯＮ／ＯＦＦによるdisturb誤動作が発生しないという特徴がある。

　第２には、高速でデータを読み出すために、電力を供給する前に、ビットラインに邪魔な電荷をたまらないように、０Ｖにpre-chargeするからである。

　本発明の実施形態によれば、Cycle-based粒度制御可能なパワーゲーティングに基づく不揮発性メモリ装置により、連想メモリの超低電力化を図ることができる。類似評価部１３０の切替スイッチ１３４により、データ次元数に応じてシステムを再構成するわけだが、Cycle-based粒度制御可能なパワーゲーティングに基づく不揮発性メモリ装置は、その再構成に応じて必要最小限のメモリに電力を供給するため、動作時消費電力を最適化できる。

　従来のＮＮＳ連想メモリでのデジタルアプローチ及びアナログアプローチ（以下、「従来のアプローチ」とする。）でのメモリ部は、次の通りである。図５は、従来のアプローチでのメモリ部５１０とその動作及び消費電力について模式的に示す図である。図５の上段は、メモリ部５１０を模式的に示し、図５の中段は、Ｄａｔａ♯１、Ｄａｔａ♯２、Ｄａｔａ♯３を列毎に順に読み出したとき、どの列の領域からデータが読み出されるかを示す。図５の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。

　従来のアプローチでは、メモリ部５１０のメモリ領域は揮発性のＳＲＡＭで構成されている。そのため、全てのメモリグレン５１９に、参照データを書き込む際、データ♯１の読出しの際、データ♯２の読出しの際、データ♯３の読出しの際の何れも、常に電力を供給する必要がある。なお、符号５１１はローデコーダであり、符号５１２はコラムデコーダである。

　図６は、従来のＳＴＴ－ＭＲＡＭから構成されたメモリ部とその動作及び消費電力について模式的に示す図である。図６の上段は、メモリ部６１０を模式的に示し、図６の中段は、Ｄａｔａ♯１、Ｄａｔａ♯２、Ｄａｔａ♯３を列毎に順に読み出したときに、どの列の領域からデータが読み出されるかを示す。図６の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。

　非特許文献９に示す従来のＳＴＴ-ＭＲＡＭでは、細粒度パワーゲーティング技術を用いて、１Ｄａｔａの参照データ毎に、即ちＮ個のメモリグレン６１９毎にパワードライバー６１８を備え、独立電源供給できる。そのため、参照データの書き込み際に、データ＃１の読み出しの際、データ＃２の読出しの際、及びデータ＃３の読出しの際にも、コラムデコーダとローデコーダのアドレスによって指定されるアクセス参照データのlocationに応じて電力を供給することができ、不要なメモリの場所に電力を供給する必要がない。しかしながら、Ｄａｔａ毎のパワーゲーティングなので、１Ｄａｔａ内の全ての次元のデータを読み出すために全てのメモリグレン６１９は同時に電力が供給される。なお、符号６１１はローデコーダであり、符号６１２はコラムデコーダである。

　次に、類似評価部１３０について補足説明する。類似評価部１３０は、コラム毎に電流モードの類似度評価セル１３３を備え、コラム毎に隣り合う類似度評価セル１３３同士を接続する切替スイッチ１３４を備えており、電流モードの類似度評価セル１３３同士を第１のスイッチ１３４ａのＯＮ／ＯＦＦで再構築可能である。切替スイッチ１３４のＯＮ／ＯＦＦは、参照データ、検索データの次元数に応じて柔軟に対応し、検索データに類似する参照データを探索するために、非常にコンパクトな回路を提供する。しかも、高密度で、適応性のある連想メモリを提供する。

　ここで、Ｒ行４列のメモリグレンを備えるチップとして、１～４次元参照データに応じて再構成したシステムアーキテクチャ（コラム数Ｃ＝４の場合）について、説明する。図７Ａは、参照データが一次元である場合のメモリ装置の再構成を示す図であり、図７Ｂは、参照データが二次元である場合のメモリ装置の再構成を示す図であり、図７Ｃは、参照データが三次元である場合のメモリ装置の再構成を示す図であり、図７Ｄは、参照データが四次元である場合のメモリ装置の再構成を示す図である。これらの図は、不揮発性メモリ装置のCycle-based 粒度制御可能なパワーゲーティングの動作状態を示しており、メモリ部１１０においてメモリグレン１１９に電力が供給されていないものは点線で示している。類似評価部１３０においても無効化した部分は点線で示しており、無効化していない部分は実線で示している。

　図８は、図３に示すメモリ装置１００を複数備え、その一つをメインコア２１０とし、その他をブランチコア２２０とした、メモリシステム２００の構成図である。メインコア２１０、ブランチコア２２０の何れも同一の構成である。メインコア２１０では出力用バッファー（Output Buffer）２１１を無効化し、ブランチコア２２０では最小値比較更新回路２２２を無効化する。図８において無効化したエレメントは点線で示している。

　メインコア２１０のみ最小値比較更新回路２１２を有効化して、１クロック(clock1)毎に、パイプラインで最小値比較更新回路２１２に入力されるブランチコア２２０のローカルＷｉｎｎｅｒ（Ｗビット）の結果と、前ステップの自分連想結果とを比較し、小さい方に書き換えて更新する。これにより、マルチコアシステム全体から検索データに一番似ている参照データが検出される。マルチコアシステムの接続可能なチップ枚数はローカルＷｉｎｎｅｒのＷと１次元データのビット数Ｍにより決められる。

　図９は、図８に示すメモリシステムにおいて、類似評価部、探索部及び比較更新部の主張部分のタイムチャートである。この図では、Ｃ＝４、Ｎ＝１、Ｗ＝８、Ｒ＝無制限の場合を想定しており、メインコア２１０とブランチコア２２０における動作例を示しており、主に、電流モード類似度評価、及び、２階層パイプラインＴＤ最小値探索のシステム動作を説明している。

　図１０は、図８に示すメモリシステム２００の動作を説明するための図である。一個（１Ｄａｔａ）の参照データ及び検索データが、Ｎ（≧１）次元のデータから構成され、各次元のデータがＭビットのデジタル値で表される。そして、メモリ部１１０としての参照データ保存回路は、（Ｒ×Ｍ）行－Ｃ列のメモリセルアレイから構成され、Ｒ×Ｃ（Ｃ≧Ｎ）の１次元データを保存するメモリグレン１１９があって、各メモリグレン１１９にはＭビットの値を保存している。メインコア２１０が２行目の「データ出力とＤＡＣ変換」と「ＴＤ最小値探索」を処理するために（２Ｍ＋２^Ｗ－１）－ｃｌｏｃｋがかかり、その間に、ブランチコア２２０からのローカルＷｉｎｎｅｒの「最小値比較更新」処理を同時に実行するので、（２Ｍ＋２^Ｗ－１）枚のコアが同一システムに接続できる。そこで、図９に示すように、１次元データのメモリビット数Ｍ＝８、カウンタのビット数Ｗ＝８である場合は、１４４－コアシステムが可能となる。

　ここで、図１０に示すように、タイムドメイン最小値探索が最も時間が掛かり、データＤ／Ａ変換及び類似度評価の処理時間がそれよりも短いことについて言及しておく。

　本発明の実施形態では、メモリ領域の行毎にデジタル／アナログ変換がなされるので、遅延が生じる。確かに、デジタル／アナログ変換処理により遅延が生じるが、タイムドメイン最小値探索の方はもっと処理時間が長く、支配的である。従来のアナログアプローチによるＮＮＳ連想メモリでは１つのＤ／Ａ変換で複数の参照データ次元を変換する。一方、本発明の実施形態では、１つのデジタルアナログコンバーターで１つの１次元のデータを変換するので、変換オーバーヘッドがなくなる分、速くなる。ちなみに、アナログアプローチ、デジタルアプローチの何れのＮＮＳ連想メモリでも、本発明の実施形態においても、Ｄ/Ａ変換ではなく、タイムドメイン信号から最小値、即ち一番早く立ち上がるタイムドメイン信号）を検索するための処理時間の方が支配的である。例えば、Ｄ／Ａ変換が８-cycleの時間が必要であるが、タイムドメイン最小値探索の方が１００～２００-cycleの時間が必要である。それは、早いタイムドメイン信号と遅いタイムドメイン信号とを区別する解像度を実現するために、ある程度長いランプ信号が必要である。０Ｖから例えば１Ｖになる時間を十分長くしないと、差の小さい類似度電流同士が区別できなくなるためである。言い換えれば、類似度、即ちデジタルアプローチの連想メモリの場合にはデジタル値、アナログアプローチの連想メモリと本発明の実施形態の場合には電流値をタイムドメイン信号の遅延に変換するのでので、差の小さい類似度から変換されるタイムドメイン信号の遅延差も小さく、十分長い時間で測らないと、区別し難くなる。

　本発明の実施形態では、Time-Domain最小値探索速度を改善するために、マルチコアに基づくパイプライン動作を採用している。パイプラインによって、各コアのローカルの長いTime-Domain最小値探索処理時間を吸収して、１クロックで完成させる。このマルチコアに基づくパイプライン方式を使わない場合には、従来のアナログアプローチの連想メモリと同等の速度で、類似する参照データについての情報が得られる。

　次に、実装例を説明する。図１１は、実装例に係るブロック構成図である。画像認識への応用を前提とし、低電力，高密度で適応性のある不揮発連想メモリ装置を想定している。図１１に示すメモリ装置３１０では、図３と同様、メモリ部３１０、類似評価部３３０，探索部３５０，比較更新部３７０を備え、タイミングコントローラ３９０を備える。８次元、１６次元、３２次元、６４次元、１２８次元の画像特徴データを想定している試作チップである。基本的に次元数が８の整数倍であれば全て対応することができる。図３を参照して説明した各バラメータは以下のようになる。
　Ｎ＝８次元、１６次元、３２次元、６４次元、１２８次元であり、８の整数倍の次元で適応可能である。
　Ｍ＝８ビット
　Ｃ＝１２８列
　Ｒ＝１６行
　Ｗ＝８ビット（最小値比較更新回路のカウンタのビット数）
　ただし、８の整数倍対応であるので、メモリグレンのＰＤと類似度電流の統合スイッチは両方８次元毎に設計している。

　そのため、外部の次元制御信号により、左から奇数番目の切替スイッチ３３４を動作させ、第１のスイッチ３３４ａを閉じると、１６次元対応のシステムになる。後述する実測波形のうち速度などの性能評価は１６次元のｔｅｘｔｕｒｅ認識においての結果である。

　以下、実装例における各部の基本的な回路構成を説明することにより、図３に示すメモリ装置１００の具体的な実施形態を説明する。

　図１２は、実装例でのメモリ領域の領域毎のブロック図である。図１２に示すのは、図３を参照して説明したメモリ領域の一領域を示す。この一領域には、１個のパワードライバー３１８とＫ（＝８）個の不揮発性のメモリグレン３１９が組として備えており、パワードライバー３１８は、Ｍ個のパワーラインゲート３１８ａを備える。パワーラインゲート３１８ａの論理演算器３１８ｂには、コラムライン（ＣＤ　Ｌｉｎｅ）と、クロック信号の入力線と、ローライン（ＲＤ　Ｌｉｎｅ）のうち１本の線が入力され、クロック信号が反転して論理演算回路３１８ｂに入力される。論理演算器３１８ｂからの出力信号は、電源ラインに接続されたインバータ回路３１８ｃに入力される。インバータ回路３１８ｃからの出力がパワーラインＰＬとして、４Ｔ－２ＭＴＪセル３１９ａに入力される。なお、ＢＬとＢＬＢとはビットラインの対である。

　図１３Ａは、図１２のブロック図のうち、不揮発性のメモリグレン３１９を１つとし、参照データの次元毎にパワードライバー３１８を備える場合を想定した図である。図１３Ｂは図１３Ａに示すユニットについての２つの４Ｔ－２ＭＴＪメモリセル（Ｃｅｌｌ＃１とＣｅｌｌ＃２）から連続的にデータを読み出す動作を示すタイムチャートである。既に説明したように、読出しオペレーションにおいては、クロック信号が“０”であり、ＣＤ　Ｌｉｎeが“１”であり、かつ、該当するＲＤ　Ｌｉｎｅも“1”であるとき、パワーラインＰＬが“１”になり、読出し処理をしている。

　　図１３Ｃは、図１３Ａに示す回路の変形例であり、一つのパワーラインゲートから並列に、Ｍ個の各４Ｔ－２ＭＴＪセル３１９ａへパワーラインＰＬを出力するようにしてもよい。

　図１４は、メモリ部３１０における４Ｔ－２ＭＴＪメモリセル３２０の回路図である。４Ｔ－２ＭＴＪメモリセル３２０は、差動対型ＳＴＴ－ＭＲＡＭセルであり、４個のＮ型ＭＯＳＦＥＴ３２１乃至３２４と２個のＭＴＪ３２５，３２６を備える。ＭＴＪ３２５，３２６は、固定磁性層と絶縁層及び自由磁性層からなり、ＭＴＪ３２５，３２６の各固定磁性層がパワーラインＰＬに接続され、ＭＴＪ３２５，３２６の自由磁性層がそれぞれ固定磁性層と並行（Parallel）又は逆並行（Anti-Parallel）の状態を記憶することによりデジタル値を保存する。図１５は、図１４に示す４Ｔ－２ＭＴＪメモリセルの動作を説明するためのタイムチャートである。

　４Ｔ－２ＭＴＪセル３２０にデータを書込む際には、ワードラインＷＬを例えば高い電圧にしてビットライン（ＢＬ／ＢＬＢ）とセンスノード（SN: Sense Node/SNB）を接続し、ＢＬＢ/ＢＬを高い電圧（１Ｖ）／低い電圧（０Ｖ）にセットする。４Ｔ－２ＭＴＪセル３２０に“１”／“０”のデータを書き込む場合は、クロック信号でパワーラインＰＬを制御することにより、クロック前半では、ＰＬを０Ｖにして右／左のＭＴＪ３２５，３２６をAnti-Parallelに書込み、クロック後半では、ＰＬを１Ｖにして左／右のＭＴＪ３２５，３２６をParallelに書込む。

　４Ｔ－２ＭＴＪセル３２０からデータを読み出す際には、ワードラインＷＬを１Ｖにしてビットライン（ＢＬ／ＢＬＢ）とセンスノード（SN: Sense Node/SNB）を接続し、クロック信号でＰＬを制御し、クロック前半では、ＰＬを０ＶにしてＢＬＢ／ＢＬ及びＳＮ／ＳＮＢを全部０ＶにPrechargeし、クロック後半では、ＰＬを１Ｖにして、ＢＬＢ／ＢＬを通して、ＳＮ／ＳＮＢの電圧差を読み出す。

　図１６は、図３に示す読出／書込回路１１４のブロック図である。読出／書込回路１１４は、Ｍ個の読出－書込インタフェース（WRI：Write-Read Interface）回路から構成され、ビットライン（ＢＬ/ＢＬＢ）を通して、Ｍコラムの４Ｔ－２ＭＴＪセル３２０にアクセスし、１クロックでＭビットのデータを読出し／書込みをする回路である。その１個のＷＲＩ回路３２７は、書込ドライバ回路３２７Ａと、プレチャージ（Precharge）回路３２７Ｂと、センスアンプ（Sense Amplifier）回路３２７Ｃと、デジタルレジスタ（Register）回路３２７Ｄを備える。データを書き込む際には書込ドライバ回路３２７Ａを用い、データを読出す際にはプレチャージ回路３２７Ｂとセンスアンプ回路３２７Ｃと、デジタルレジスタ回路３２７Ｄを用いることにより、１クロックで１ビットのデータを処理する。

　図１７は、図３に示す類似度評価セル１３３の回路図である。類似度評価セル４００は、９つのＮ型ＭＯＳＦＥＴ（Ｔ１～Ｔ９）４０１乃至４０９と２個コンデンサ（Ｃ１，Ｃ２）４１０，４１１から構成され、両サイドのポートＶ１及びＶ２から２つのステップに分けてアナログ電圧信号が入力される。上段の左側がステップ１であり、上段の右側がステップ２である。下段に示すように、ステップ１とステップ２とでの電圧の差を求め、類似度評価関数を満たす類似度電流（IBSSE）として電流統合回路へ出力する回路である。

　ステップ１の際には、ＳＷを“Ｈ”にセットし、入力ポートＶ１，Ｖ２に検索データとするターゲット電圧を印加してＭＡＸの類似度電流を得られる。ステップ２の際には、ＳＷを“Ｌ”にセットしてトランジスタＴ１、Ｔ２、Ｔ３及びＴ４のゲート電荷を保持し、入力ポートに参照データとするテンプレート電圧を印加して、それとターゲット電圧との差に応じて下がる類似度電流を得られる。

　図１８は、図３に示す電流統合回路１３５の回路図である。電流統合回路４２０は、５個のＰ型ＭＯＳＦＥＴ（Ｔ１０乃至Ｔ１４）４２１乃至４２５と、２個のＮ型ＭＯＳＦＥＴ（Ｔ１５乃至Ｔ１６）４２６，４２７と、２個のスイッチ（Ｓ１，Ｓ２）４２８，４２９と、１個のコンデンサ４３０から構成される。Ｔ１０とＴ１１でカレントミラーを構成し、Ｔ１０とＴ１２でカレントミラーを構成し、Ｔ１３とＴ１４でカレントミラーを構成し、Ｔ１５とＴ１６でカレントミラーを構成する。図１８に示す回路では、１つの電流加算器４３１と、１つの電流減算器４３２と、１つの電流メモリ４３３を備え、Ｋ個の類似度評価セルから２ステップを分けて出力される類似度電流（IBSSE）をそれぞれ足し合わせ、その電流差を出力する。そのＫの値は、電流統合回路４２０に接続する類似度評価セルの回路数を制御することにより、柔軟に設計調整できる。

　電流統合回路４２０は、まず、Ｋ個の類似度評価セル（ＳＥＣ）から出力されるステップ１の検索データに対応する類似度電流を足し合わせ、スイッチＳ１（Ｓ２）をＯＮ（ＯＦＦ）にセットし、Ｔ１０とＴ１１で構成されるカレントミラーを用いて、得られた電流結果Ｉ_Ｔａｒを一時的に電流メモリ４３３に保存する。それから、Ｋ個の類似度評価セル（ＳＥＣ）から出力され、ステップ２の参照データに対応する類似度電流（Ｉ_Ｔｅｍ）を足し合わせ、スイッチＳ１（Ｓ２）をＯＦＦ（ＯＮ）にセットし、得られた電流結果Ｉ_ＴｅｍをＴ１０とＴ１２で構成されるカレントミラーでコピーして、保存しているＩ_Ｔａｒとの差を計算し、検索データと参照データの最終類似度電流（Ｉ_{ＳＣＯＲＥ}）としてタイムドメインコンバーター（ＴＤＣ）へ出力する。

　図１９は、図３に示すタイムドメインコンバーター１５１の回路図である。タイムドメインコンバーター４４０は、１個のＣＭＯＳスイッチ４４１と、２個のインバータ４４２，４４３と、１個のＰ型ＭＯＳＦＥＴ４４４と、２個のＮ型ＭＯＳＦＥＴ４４５，４４６を備え、電流統合回路（ＣＡ）から出力される類似度電流（Ｉ_{ＳＣＯＲＥ}）をTime-Domain電圧遅延信号に変換する。

　タイムドメインコンバーター４４０は、まず、Reset信号で出力をＧＮＤになるように初期化する。その後、タイムドメインコンバーター４４０は、Ｉ_{ＳＣＯＲＥ}が入力される同時に、ランプ（ＲＡＭＰ）信号の電圧が入力され、出力インバータの閾値を超えるまでスイッチング・ノードの電圧が下がると出力が立ち上がり、Ｉ_{ＳＣＯＲＥ}に対応する遅延を持つＴＤ電圧遅延信号を生成する。

　図２０は、探索部３５０内のＴＤ－ＷＴＡ（Time-Domain Winner Take-All）回路４５０のブロック図である。図中、Ｃはメモリグレンの列数で、Ｎはデータの次元数であり、Ｃ／Ｎはメモリの１行分の参照データ数である。

　ＴＤ－ＷＴＡ回路４５０は、（Ｃ－Ｎ）／Ｎ個の２入力ＴＤ比較回路（2-Input Time-Domain Comparator）４５１から構成される√（Ｃ/Ｎ）レイヤを持つ最小値探索回路であり、並列にタイムドメインコンバーターから入力されるＣ／Ｎ個の参照データに対応するＣ／Ｎ個ＴＤ電圧遅延信号から一番遅延の短い（立ち上がりの早い）信号をローカルWinnerとして、そのWinnerアドレスと一緒に出力する回路ある。

　ＴＤ－ＷＴＡ回路４５０は、まず、Ｃ／Ｎ個のＴＤ電圧遅延信号を２入力ＴＤ比較回路４５１に入れて、２個ずつ比較し、遅延の短いものを次のレイヤに渡すことにより、数段繰り返して一番遅延の短いＴＤ電圧遅延信号（ローカルWinner）を検索する。各２入力ＴＤコンパレータ４５１では、入力される２つのＴＤ遅延信号にFlagを付けてＦＦ回路４５２に保存し、そのFlagをエンコードして、Winnerに対応する参照データのアドレスを割り出す。最後に、ＴＤ－ＷＴＡ回路４５０は、ローカルWinnerとそのWinnerアドレスを一緒に最小値比較更新回路に出力する。

　図２１及び図２２は、最小値比較更新回路４６０の構成図であり、図２１はブランチコアで用いられるものであり、図２２はメインコアで用いられるものである。点線で示す部分は無効化している。

　最小値比較更新回路４６０は、１個のＷビットデジタルカウンタ４６１と、１個のＷビット・セレクタ４６２と、１個のＷビットデジタル加算器４６３と、グローバルWinnerとそのアドレスを保存するデジタルレジスタ４６４から構成され、ＴＤ－ＷＴＡ回路４５０から直列に入力されるローカルWinnerを前ステップで求めたものと比較し、より小さいものを保存することで、一番小さいグローバルWinnerを求める回路である。

　最小値比較更新回路４６０は、まず、ＴＤ―ＷＴＡ回路４５０からローカルWinnerのＴＤ電圧遅延信号を受け取り、８ビット（Ｗ＝８）のデジタルカウンタで信号遅延をクロック数に変換し、ローカルWinnerのクロック数（ローカル最小値）が計算する。この変換は、デジタルカウンタがタイムドメインコンバーターにＲＡＭＰ電圧を入力する時点からカウントし始め、ＴＤ―ＷＴＡ回路４５０がローカルWinnerを計算する同時に、完成する。

　ブランチコアでは、得られたローカル最小値をメインコアに送る。メインコアでは、メインコア自身又はブランチコアから得られたローカル最小値と、Winnerレジスタに保存しているグローバルWinner（最小値）を、デジタル加算器を用いて減算処理を行い、ＣＯＵＴ＝１の場合だけレジスタを上書きすることにより、いつも小さいローバルWinner（最小値）を更新しつつ、最終的なグローバル最小値と該当の参照データＩＤを連想認識の結果として保存する。

　ただし、メインコア及び各ブランチコアに対して、メモリ領域である参照データ保存回路から、データ適応型類似度評価回路、２階層最小値探索回路まで、全部１クロックずつタイミングをずらしてパイプラインで実行する。それで、１クロック以内に、コアの１行分（Ｃ／Ｎ個）の参照データに対する連想認識が完成できる。

　実装例では、８data／クロックのThroughputが得られている。そして、同じ設計のコアを用いて、簡単にシステム拡張が可能である。

　図２３Ａは図１１で示す設計に従ってチップを作製した写真の像を示し、図２３Ｂは図２３Ａに示す像を模式的に示し、図２３Ｃには設計スペックを示している。

　図２４は、類似度評価セルの回路動作の検証結果を示す図である。横軸はΔＶであり、図１８のＣＡで示すＶ_ｔｅｍ－Ｖ_Ｔａｒである。縦軸は電流Ｉ_ｐｅａｋ，Ｉ_ｔｅｍである。この図に示すように、リファレンス電圧Ｖｒｅｆに依らず同様な鐘型形の波形となっていることが分かる。

　図２５は、３次元カラーベクトルデータ（Ｍ＝８、Ｎ＝３）構成での電流統合回路が出力する類似度電流の結果を示す図である。図に示すように、検索データ（ターゲット）により近い参照データ（テンプレート）はより低い類似度電流（Ｉ_{ＳＣＯＲＥ}）が出力される。

　図２６は、１６次元データ構成でのコア動作を検証する波形を示す図であり、Texture認識の実証結果である。横軸は時間であり、縦軸は０Ｖ～１Ｖの電圧である。システムをリセットした後、Ｄ／Ａ変換のデータ変換指令信号（Read Instruction of NFM）で示すように、検索データ（Target）となる「石」のTextureを入力してから、第１行目の参照データ（Template 1）である８個の「木板」Textureを入力し、一時的に電源ＯＦＦにした後、第２行目の参照データ（Template 2）となる８個の「石」Textureの参照データを入力する。参照データを入力し続ける間に、電流モードの類似度評価を行い、ランプ信号（Reference RAMP Signal）によって類似度電流を電圧ＴＤ遅延信号に変換され、1行の参照データの電圧ＴＤ遅延信号から一番類似度の高いＴＤ遅延信号（Updated TD Similarity Score）を出力する。それと同時に、出力されるＴＤ遅延信号（Updated TD Similarity Score）の遅延をクロック数に変換し、デジタル相違度（Similarity Score）として得られ、相違度の小さいものに更新して最終的なTextureについての連想認識に成功した。

　試作したチップでは、１２コアを実装され、１Ｖ電源電圧で４０ＭＨｚで動作でき、５マイクロ秒で１行分のデータ、即ち、Ｃ／Ｎ個の参照データに対する認識処理を完了することができた。リセットは０．５マイクロ秒かかり、検索データ入力は０．５マイクロ秒がかかった。なお、Ｃ＝１２８、Ｎ＝１６、Ｒ＝８である。

　図２７は、消費電力について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。図から、本実装例では、消費電力が大幅に低下していることが分かる。

　図２８は、回路面積について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。図から、回路面積が大幅に削減することができていることが分かる。

　以上、本発明の実施形態を説明したが、本発明は消費電力を低減させるためのメモリ部の構造を工夫しており、類似度評価部、探索部、比較更新部の各具体的な回路構成については、本発明の実施形態に示す内容を実現できるものであればよく、図１１以降の図面で示したものは好ましい一つの例である。なお、従来の連想メモリで使用されているものであってもよく、その際には適宜モディファイする必要があることは言うまでもない。

　上述の説明では、図３において縦線をコラムライン、横線をローラインとしているが、一方の方向に延びる線と他方の延びる線の何れか一方がコラムラインであり、他方がローラインとして定義されるものとする。つまり、コラムラインとローラインとが交差してれば、何れか一方がコラムラインであり、他方がローラインである。このことは、図３以外に示す構成図においても当てはまる。

　本発明の実施形態では、不揮発性メモリとしてはＳＴＴ－ＭＲＡＭを中心に説明したが、例えば次のような不揮発性メモリでもよい。不揮発性メモリは、磁気抵抗メモリ（MRAM: Magnetoresistive Random Access Memory）、抵抗変化型メモリ(ReRAM: Resistive Random Access Memory)、強誘電体メモリ (FeRAM: Ferroelectric Random Access Memory)、フラッシュメモリなどの不揮発メモリで構成してもよい。

　磁気抵抗メモリは、スピントロニクスを利用し、GMR効果（Giant Magneto Resistive effect）を動作原理とする不揮発性メモリである。例えば、磁壁移動型ＭＲＡＭ、スピンホールトルク型ＭＲＡＭ、スピン注入型ＭＲＡＭ（ＳＴＴ－ＲＭＡＭ）などから選択される。磁壁移動型ＭＲＡＭは、微小磁性体内の磁壁を行き来させることで磁化を反転させる3端子ＭＲＡＭである。スピンホールトルク型ＭＲＡＭは、非磁性体からのスピンホールトルクによって磁化反転させる3端子ＭＲＡＭである。ＳＴＴ－ＲＭＡＭは、磁性体に電流を通じ、電子スピンとの相互作用で磁化回転をさせる2端子ＭＲＡＭである。何れも、高密度と高速度と長い寿命が期待される。

　抵抗変化型メモリは、電圧の印加による金属酸化物中の電気抵抗の変化を利用してデータを記憶する不揮発メモリである。高密度と高速化が期待される。

　強誘電体メモリは、強誘電体のヒステリシス効果に因る正負の残留分極を利用してデータを記憶する不揮発性メモリである。高速化と、長い寿命が期待できる。

　フラッシュメモリは、電圧制御で、ＭＯＳのフローティングゲートに電荷を閉じ込めることでＭＯＳ閾値を変化させてデータを記憶する不揮発メモリである。高密度化を期待できる。

　本発明の実施形態では、パワーゲートによりメモリグレンからデータの読み出しの際の消費電力を低く抑えることができるが、柔軟に最適化した電力を供給することができるので、書き込み時においても同様な低電力化効果が得られる。

１０：検索データ
２０：特徴ベクトルデータ
３０：参照データ
１００：メモリ装置
１１０：メモリ部（参照データ保存回路）
１１１：ローデコーダ
１１２：コラムデコーダ
１１３：メモリ領域
１１４：読出／書込回路
１１５：ローライン
１１６：ビットライン
１１７：コラムライン
１１８：パワードライバー
１１９：メモリグレン
１３０：類似度評価部
１３１：入力検索データ保存回路
１３２：デジタル／アナログコンバーター（ＤＡＣ）
１３３：類似度評価セル（ＳＥＣ）
１３４：切替スイッチ
１３４ａ：第１のスイッチ
１３４ｂ：第２のスイッチ
１３４ｃ：否定回路
１３５：電流統合回路（ＣＡ）
１３６：タイムドメインコンバーター（ＴＤＣ）
１５０：探索部
１５１：タイムドメイン最小値探索回路
１７０：比較更新部
１７１：最小値比較更新回路
２００：メモリシステム
２１０：メインコア
２１１：出力用バッファー
２１２：最小値比較更新回路
２２０：ブランチコア
２２１：出力用バッファー
２２２：最小値比較更新回路
２３０：パイプライン
３００：メモリ装置
３１０：メモリ部
３１１：ローデコーダ
３１２：コラムデコーダ
３１３：メモリ領域
３１４：読出／書込回路
３１５：ローライン
３１６：ビットライン
３１７：コラムライン
３１８：パワードライバー
３１９：メモリグレン
３２０：４Ｔ－２ＭＴＪメモリセル
３２１乃至３２４：Ｎ型ＭＯＳＦＥＴ
３２５，３２６：ＭＴＪ
３２７：ＷＲＩ回路
３２７Ａ：書込ドライバ回路
３２７Ｂ：プレチャージ（Precharge）回路
３２７Ｃ：センスアンプ（Sense Amplifier）回路
３２７Ｄ：デジタルレジスタ（Register）回路
３３０：類似度評価部
３３２：デジタル／アナログコンバーター（ＤＡＣ）
３３３：類似度評価セル（ＳＥＣ）
３３４：切替スイッチ
３３４ａ：第１のスイッチ
３３４ｂ：第２のスイッチ
３３４ｃ：否定回路
３３５：電流統合回路（ＣＡ）
３３６：タイムドメインコンバーター（ＴＤＣ）
３５０：探索部
３５１：タイムドメイン最小値探索回路
３７０：比較更新部
３７１：最小値比較更新回路

Claims

　Ｎ（≧１）次元からなり１次元がＭ（≧１）ビットからなる参照データが記憶されるメモリ領域を備え、
　前記メモリ領域において１以上Ｎ以下の任意数のコラムラインとＭ本のローラインとにより指定される領域毎に、Ｍビットの不揮発性メモリを１単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
　前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記Ｍ本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。
　前記Ｍ本のローラインからの制御信号の入力は、１本乃至Ｍ本のうち所定本数毎に順番になされる、請求項１に記載のメモリ装置。
　前記Ｍ本のローラインからの制御信号の入力は、同時になされる、請求項１に記載のメモリ装置。
　前記パワードライバーは、クロック信号の“１”又は“０の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“０”又は“１”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、請求項１乃至３の何れかに記載のメモリ装置。
　前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第１の回路と、
　前記第１の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第２の回路と、を備える、請求項１乃至４の何れかに記載のメモリ装置。
　前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、請求項１乃至５の何れかに記載のメモリ装置。