JPWO2017170340A1 - メモリ装置 - Google Patents

メモリ装置 Download PDF

Info

Publication number
JPWO2017170340A1
JPWO2017170340A1 JP2018509313A JP2018509313A JPWO2017170340A1 JP WO2017170340 A1 JPWO2017170340 A1 JP WO2017170340A1 JP 2018509313 A JP2018509313 A JP 2018509313A JP 2018509313 A JP2018509313 A JP 2018509313A JP WO2017170340 A1 JPWO2017170340 A1 JP WO2017170340A1
Authority
JP
Japan
Prior art keywords
memory
data
power
circuit
reference data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018509313A
Other languages
English (en)
Other versions
JP6919846B2 (ja
Inventor
奕涛 馬
奕涛 馬
哲郎 遠藤
哲郎 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tohoku University NUC
Original Assignee
Tohoku University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tohoku University NUC filed Critical Tohoku University NUC
Publication of JPWO2017170340A1 publication Critical patent/JPWO2017170340A1/ja
Application granted granted Critical
Publication of JP6919846B2 publication Critical patent/JP6919846B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/22Read-write [R-W] timing or clocking circuits; Read-write [R-W] control signal generators or management 
    • G11C7/222Clock generating, synchronizing or distributing circuits within memory device
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C15/00Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores
    • G11C15/04Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores using semiconductor elements
    • G11C15/046Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores using semiconductor elements using non-volatile storage elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/21Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
    • G11C11/34Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
    • G11C11/40Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
    • G11C11/41Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
    • G11C11/412Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger using field-effect transistors only
    • G11C11/4125Cells incorporating circuit means for protecting against loss of information
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C15/00Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores
    • G11C15/02Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores using magnetic elements
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/10Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
    • G11C7/1006Data managing, e.g. manipulating data before writing or reading out, data bus switches or control circuits therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/10Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
    • G11C7/1072Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers for memories with random access ports synchronised on clock signal pulse trains, e.g. synchronous memories, self timed memories
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C11/00Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
    • G11C11/21Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
    • G11C11/34Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
    • G11C11/40Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
    • G11C11/41Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
    • G11C11/413Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction
    • G11C11/417Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction for memory cells of the field-effect type
    • G11C11/419Read-write [R-W] circuits
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C2207/00Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
    • G11C2207/22Control and timing of internal memory operations
    • G11C2207/2227Standby or low power modes
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mram Or Spin Memory Techniques (AREA)
  • Memory System (AREA)

Abstract

消費電力の最適化を図って参照データを読み出すことができるメモリ装置を提供する。メモリ装置100は、N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域113を備え、メモリ領域113において1以上N以下の任意数のコラムライン117とM本のローライン115とにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する任意数のメモリグレン119と、任意数のメモリグレンに電力を供給するパワードライバー118とが組として備えられ、パワードライバー118が、任意数のコラムライン117からの制御信号の入力と、M本のローライン115からの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバー118と組となるメモリグレン119に電力を供給することにより、当該メモリグレン119に格納されている次元毎の参照データを読み出す。

Description

本発明は、類似したデータを検索することができる、メモリ装置に関する。
一般的なメモリ装置は、アドレス毎にデータが記憶されており、アドレスを指定することにより、その指定アドレスに記憶されているデータを読み出す。一方、連想メモリ装置は、入力されたデータに類似しているデータを検索し、そのデータを読み出す。
典型的な連想メモリとして、参照データベースから検索データと完全一致のデータを検索するCAM(Content Addressable Memory)がある(例えば特許文献1乃至3、非特許文献1乃至3)。完全並列で動作するCAMは、メモリセルと比較回路がメモリセル毎に設けられ、比較回路がメモリセル内の参照データと入力データとを比較する。CAMは、指定された宛先IPアドレスやMACアドレスに一致する参照データを高速に検索する。しかし、CAMは、ネットワークルータでのIPアドレスを検索することには有用であるが、類似データを検索するには不向きである。
類似データを検索する技術には、Nearest Neighbor Search(NNS)機能を持つ連想メモリがあり、連想メモリには、デジタルアプローチ(例えば特許文献4及び5、非特許文献4乃至7)とアナログアプローチ(例えば非特許文献8)がある。何れのアプローチにおいても、参照データを保存する領域は、揮発性のSRAMで構成されている。
一方、不揮発性メモリとして、本発明者らのグループは、スピン注入磁化反転型磁気抵抗変化型RAM(Spin Tranfer Torque - Magnetroresistance Randam Access memory:STT-MRAM)の技術を開発してきた(例えば非特許文献9、10)。
特開2012−190530号公報 特開2013−191255号公報 特開2015−185197号公報 特開2011−76688号公報 特開2015−16257号公報
B.-D. Yang, JSSC, Vol 50, No. 10, pp. 2441-2450, Oct. 2015 N. Onizawa, S. Matsunaga, V. C. Gaudet, W. J. Gross and T. Hanyu, IEEE Trans. Circuits and Systems, Vol. 61, No. 3, pp. 865-876, Mar. 2014 Z. Ullah, M. K. Jaiswal and R. C. C. Cheung, IEEE Trans. VLSI Systems, Vol. 23, No. 2, pp. 402-406, Feb. 2015 S. Sasaki, M. Yasuda and H. J. Mattausch, ESSCIRC, pp. 185-188, 2012 T. Akazawa, S. Sasaki and H. J. Mattausch, ESSCIRC, pp. 267-270, 2013 F. An, T. Akazawa, S. Yamazaki, L. Chen, and and H. J. Mattausch, CICC, pp. 1-4, 2014 F. An, K. Mihara, S. Yamasaki, L. Chen and H. J. Mattausch, SSDM, pp. 144-145, 2015 T. B. Trong and T. Shibata, ULIS, pp. 213-216, 2009 Takashi Ohsawa, Hiroki Koike, Sadahiko Miura, Hiroaki Honjo, Keizo Kinoshita, Shoji Ikeda, Takahiro Hanyu, Hideo Ohno, Tetsuo Endoh, A 1 Mb Nonvolatile Embedded Memory Using 4T2MTJ Cell With 32b Fine-Grained Power Gating Scheme, IEEE JOURNAL OF SOLID-STATE CIRCUITS, VOL.48, NO.6, JUNE 2013, pp.1511-1520 T. Ohsawa, S. Miura, K. Kinoshita, H. Honjo, S. Ikeda, T. Hanyu, H. Ohno, and T. Endoh, A 1.5nsec/2.1nsec Random Read/Write Cycle 1MbSTT-RAM Using 662MTJ Cell with Background Write for Nonvolatile e-Memories, 2013 Symposium on VLSI Circuits Digest of Technical Papers C111
NNS連想メモリのうち、デジタルアプローチ及びアナログアプローチの何れも、揮発性のメモリで構成されているため、何れの領域からのデータの読み出しであっても、全てのメモリグレンに電力を供給する必要がある。よって、省電力化することができない。
そこで、本発明では、検索データに類似するデータを探索する際に、消費電力の最適化を図って参照データを読み出すことができる、メモリ装置を提供することを目的とする。
前記目的を達成するために、本発明は次のコンセプトを有する。
[1] N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、
前記メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。
[2] 前記M本のローラインからの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされる、前記[1]に記載のメモリ装置。
[3] 前記M本のローラインからの制御信号の入力は、同時になされる、前記[1]に記載のメモリ装置。
[4] 前記パワードライバーは、クロック信号の“1”又は“0”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“0”又は“1”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、前記[1]乃至[3]の何れかに記載のメモリ装置。
[5] 前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第1の回路と、
前記第1の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第2の回路と、を備える、請求項1乃至4の何れかに記載のメモリ装置。
[6] 前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、前記[1]乃至[5]の何れかに記載のメモリ装置。
本発明によれば、第1に、N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、第2に、メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する任意数のメモリグレンと、任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、第3に、パワードライバーが、任意数のコラムラインからの制御信号の入力と、M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバーと組となるメモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す。よって、各メモリグレンは、コラムライン及びローラインによる読み出し場所の指定とクロック信号による時間的な指定との双方により、電力が供給されることになり、省電力化が図られる。
本発明の実施形態に係るメモリ装置が適用される場面を説明する図である。 特徴ベクトルデータについての説明図である。 本発明の実施形態に係るメモリ装置の構成図である。 本発明の実施形態に係るメモリ装置におけるメモリ部とその動作及び消費電力について模式的に示す図である。 従来のアプローチでのメモリ部510とその動作及び消費電力について模式的に示す図である。 従来のSTT-MRAMから構成されたメモリ部とその動作及び消費電力について模式的に示す図である。 参照データが一次元である場合のメモリ装置の再構成を示す図である。 参照データが二次元である場合のメモリ装置の再構成を示す図である。 参照データが三次元である場合のメモリ装置の再構成を示す図である。 参照データが四次元である場合のメモリ装置の再構成を示す図である。 図3に示すメモリ装置を複数備え、その一つをメインコアとし、その他をブランチコアとした、メモリシステムの構成図である。 図8に示すメモリシステムにおいて、類似評価部、探索部及び比較更新部の主張部分のタイムチャートである。 図8に示すメモリシステムの動作を説明するための図である。 実装例に係るブロック構成図である。 実装例でのメモリ領域の領域毎のブロック図である。 図12に示す実装例において、不揮発性のメモリグレンを1つとし、参照データの次元毎にパワードライバーを備える場合を想定したメモリ領域のブロック図である。 図13Aに示すユニットについての動作を示すタイムチャートである。 図13Aに示す回路の変形例を示す図である。 メモリ部における4T−2MTJメモリセルの回路図である。 図14に示す4T−2MTJメモリセルの動作を説明するためのタイムチャートである。 図12に示す実装例での読出/書込回路のブロック図である。 図12に示す実装例での類似度評価セルの回路図である。 図12に示す実装例での電流統合回路の回路図である。 図12に示す実装例でのタイムドメインコンバーターの回路図である。 図12に示す実装例での検索部内のTD−WTA回路のブロック図である。 図12に示す実装例での最小値比較更新回路の構成図であり、ブランチコアで用いられるものを示している。 図12に示す実装例での最小値比較更新回路の構成図であり、メインコアで用いられるものである。 図23Cに示す設計スペックに従って作製したチップの写真を示す像である。 図23Aに示す像の模式図である。 図12に示す実装例での設計スペックを示す図表である。 類似度評価セルの回路動作の検証結果を示す図である。 3次元データ構成での類似度電流の結果を示す図である。 16次元データ構成でのコア動作波形を示す図である。 消費電力について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。 回路面積について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。
以下、図面を参照しながら本発明を実施するための形態について詳細に説明する。
図1は、本発明の実施形態に係るメモリ装置100が適用される場面を説明するための図である。図1に示すように、検索データ10が入力されると、検索データ10が1又は複数の次元の特徴ベクトルデータ20に変換される。変換されたデータは、N(≧1)次元の特徴ベクトルデータ20を備え、1次元がM(≧1)ビットを有する。メモリ装置100は、格納されている参照データ30の中から最も類似しているデータを抽出する。メモリ装置100は、後述するようなメモリ領域を備えている。
ここで、検索データ10、特徴ベクトルデータ20及び参照データ30について説明する。
検索データ10は、ターゲットデータとも呼ばれ、メモリ領域に記憶されているデータから検索したいデータに関し、入力されるデータをいう。
参照データ30は、テンプレートデータとも呼ばれ、メモリ領域に記憶されているデータであって、検索データにより検索対象となるデータをいう。
検索データ10及び参照データ30は、画像データ、サウンドデータ、テキストデータ(文章データ)を対象とし、種類は問わない。自然数M、Nは対象とするデータの種類に応じて設定される。
特徴ベクトルデータ20は、多数の観点からN(≧1)本の特徴量を抽出し、一つの特徴量の割合を数(この数をMビットで表す。)で示し、N本の特徴量の割合をベクトル表示したものをいう。特徴量の数を次元数と呼ぶ。
図2は、特徴ベクトルデータ20についての説明図である。
図2の上段に示すように、例えば、色認識の三次元(RGB)ベクトルデータであれば、検索データがRGBの各色がどの程度含まれているかによって示される。1次元の特徴をM(例えばM=8)ビットで示す。
図2の下段に示すように、例えば、形状認識の8次元ベクトルデータであれば、検索データ10に含まれている輪郭について、「4-Direction Edge Map」に示すような各基準輪郭に沿っている部分が含まれているか否かを判定し、「Edge Distribution」に示すように各基準輪郭に沿っている部分をピクセル数でカウントし、0°、45°、90°、−45°の点線で区分けされる各部におけるピクセル数の分布を作成し、「Vector Generation」に示すように8次元特徴ベクトル(「8-D Feature Vector」)のような分布として示す。
特徴ベクトルデータ20は、図2に示すような単純なものに限らず、複雑な特徴ベクトルデータでもよく、画像認識の分野において非常に有名な128次元のscale-invariantfeature transform(SIFT)やBag-of-feature(Bof)のベクトルデータであってもよい。
メモリグレン(memory grain)とは、参照データ30の1次元分(Mビット)を保存するメモリ・サブアレイである。本発明の実施形態においては、メモリグレンに対して細粒度(fine-grain)パワーゲーティングを行い、独立に電源制御(ON/OFF)をする。
本発明の実施形態では、メモリ領域において、次元数毎にMビットのデータが参照データとして記憶されるとして、説明する。
図3は本発明の実施形態に係るメモリ装置の構成図である。本発明の実施形態に係るメモリ装置100は、不揮発性の類似検索用メモリ装置とも呼ぶことができ、メモリ部110と、類似評価部130と、探索部150と、比較更新部170と、を備える。
本発明の実施形態に係るメモリ装置100は、メモリ部110としての(R×M)行C列のメモリセルアレイから構成されて(R×C)/N個の参照データを保存している参照データ保存回路と、C/N個の参照データと検索データの類似度を並列に計算し電流として出力するC個の類似度評価セル(SEC:Similarity Evaluation Cell)133と、参照データの次元数に応じてC個の類似度電流を統合する電流統合回路(CA:Current Accumulator)135と、統合した類似度電流をC/N個のTime-Domain電圧遅延信号に変換するタイムドメインコンバーター(TD:Time-Domain Converter)136と、C/N個のタイムドメイン電圧遅延信号から最短値を検出しその最短遅延をカウンタで最小クロック数に変換するTD最小値探索回路151と、得られる最小クロック数を保存している以前計算したクロック数と比較し小さい方をアップデートする最小値比較更新回路171と、から構成される。
メモリ部110としての参照データ保存回路は、R×C(C≧N)の1次元データを保存するメモリグレン(MG: Memory Grain)119を備え、各メモリグレン119にはMビットの値を保存している。各メモリグレン119にパワーゲーティングのためのパワードライバー(PG)118が設置され、各パワードライバー118が行デコーダ、列デコーダ及びクロック1(clk.1)により独立に電力の供給について制御する。すなわち、一行のメモリグレン119(MG)には、C/N個の参照データが保存されており、各参照データを並列に類似度評価セル133に出力して連想認識が実行される。
以下、図3に示すメモリ装置100について更に詳細に説明する。
メモリ部110としての参照データ保存回路は、ローデコーダ111、コラムデコーダ112、メモリ領域113、及び読出/書込回路114で構成される。メモリ領域113は、複数のローライン115と、複数のビットライン116と、複数本のコラムライン117と、複数のパワードライバー(PD:Power Driver)118と、複数のメモリグレン(MG:Memory Grain)119とを備える。メモリグレン119は不揮発性メモリで構成されている。
ローデコーダ111には複数本のローライン115が接続されており、コラムデコーダ112には複数本のコラムライン117が接続されている。
メモリ領域113は複数の領域に分けられ、各領域は1以上N以下の任意数のコラムライン117とM本のローライン115とで指定され、領域毎にパワードライバー118とメモリグレン119とが組として備えられている。ここで、コラムライン117の任意数と、ローライン115の本数と、ビットライン116の本数とは、何れも設計時に設定され、その設定に従って製造される。ここで、「任意数」とはメモリ装置を利用するユーザにより定められる場合なども含まれ、単に、設計・製造時に一定の値に定められる場合も含まれる。図3では、領域毎に、コラムライン117は1本とし、ローライン115はM本として、ビットライン116はM本としている。ここでの自然数M,Nの定義は、前述した検索データ10及び参照データ30での定義と同じである。領域毎に、パワードライバー118とメモリグレン119とが組として1〜N個がある。
本発明の実施形態では、メモリ領域113において任意数のコラムライン117とM本のローライン115とにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成するメモリグレン119と、メモリグレン119に電力を供給するパワードライバー118とが組として備えられている。ここで、領域毎のコラムライン117は任意数個であり、ここで、「任意数」とはメモリ装置を利用するユーザにより定められる場合なども含まれ、単に、設計・製造時に一定の値に定められる場合も含まれる。領域毎のメモリグレン119の任意数個と等しく、図3では1個としている。
本発明の実施形態では、或る一つのパワードライバー118が、任意数のコラムライン117からの制御信号の入力と、M本のローライン115からの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバー118と組となるメモリグレン119に電力を供給する。これにより、そのメモリグレン119に格納されている次元毎の参照データを読み出し、ビットライン116を通じてその列の読出/書込回路114に出力する。
よって、メモリ領域113の全体に電力を供給するのではなく、読み出す各領域のメモリグレン119に電力を供給することで、必要な場所にのみ電力を供給すると共に、クロック信号の入力により必要な時間のみ電源供給をする。従って、メモリ領域113に格納されている参照データを読み出す際の消費電力を大幅に減らすことができる。
図3に示すように、メモリグレン119は、MG11〜MGRCまで、R行C列存在するので、ローデコーダ111からの制御信号が流れる1又は複数本のローライン115と、コラムデコーダ112から制御信号が流れる1又は複数本コラムライン117とで1又は複数のパワードライバー118が指定され、その指定されたパワードライバー118においてクロック信号“1”が入力されると、入力されている間のみ、パワードライバー118から、組となるメモリグレン119に電力が供給される。指定されたパワードライバー118においてクロック信号“0”が入力されると、組となるメモリグレン119に電力の供給が停止される。なお、パワードライバー118は、クロック信号“0”が入力されると組となるメモリグレン119に電力を供給し、クロック信号“1”が入力されると組となるメモリグレン119に電力を供給しないようにしてもよい。ここで、クロック信号“0”、“1”は、“H”、“L”に対応している。
ここで、M本のローライン115からの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされてもよいし、1本乃至M本まで同時になされてもよい。
図3に示すメモリ装置100においては、第1の回路として類似度評価部130を備え、第2の回路として探索部150及び比較更新部170とを備える。第1の回路は、メモリ領域113からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める。第2の回路は、メモリ領域113からの読み出し毎に、第1の回路で求まる類似度の高い候補を求め、最も類似している次元毎の参照データについての類似度を求める。第1の回路及び第2の回路の具体的な構成として、図3に示す場合を例にとって説明する。
類似度評価部130は、入力検索データ保存回路131と、デジタル/アナログコンバーター(DAC: Digital Analog Converter)132と、類似度評価セル(SEC:Similarity Evaluation Cell)133と、切替スイッチ134と、電流統合回路(CA:Current Accumulator)135と、タイムドメインコンバーター(TDC:Time Domain Converter)136と、を備える。
デジタル/アナログコンバーター132、類似度評価セル133、切替スイッチ134、電流統合回路135及びタイムドメインコンバーター136はコラムライン数だけ備えている。列毎に、読出/書込回路114からデジタル/アナログコンバーター132にデジタルデータが電圧値として入力され、デジタル/アナログコンバーター132においてデジタルデータがアナログデータに変換されて、類似度評価セル133に出力される。
類似度評価セル133は、入力された二つのデータについての類似度を求める。一つ目のデータは、検索データが次元毎に分解されて入力検索データ保存回路131から出力されたデータであって、次元数毎の当該検索データの電圧値である。二つ目のデータは、読出/書込回路114からデジタル/アナログコンバーター132を経由して入力された参照データの電圧値である。
類似度評価セル133は、一つ目のデータと二つ目のデータとの類似度を電流値として求めて出力する。電流値がゼロの場合は一つ目のデータと二つ目のデータは同一と評価し、電流値が大きい場合は一つ目のデータと二つ目のデータは異なると評価していることになる。つまり、参照データが検索データと似ていると、出力される電流値は小さくなる。
切替スイッチ134が列毎に備わっている。切替スイッチ134は、第1のスイッチ134aと第2のスイッチ134bとが連動するように構成されている。第1のスイッチ134aは、第j列番目の類似度評価セル133と第(j+1)列番目の類似度評価セル133との間に設けられている。ここで、jは1以上最大列C以下の自然数である。第2のスイッチ134bは、各列の類似度評価セル133と電流統合回路135との間に設けられている。第1のスイッチ134aと第2のスイッチ134bは、何れも、外部からの次元制御信号(DCS:Dimension Control Signal)により制御され、外部からの次元制御信号が入力される線は、第1のスイッチ134aの制御電極、第2のスイッチ134bの制御電極の何れかに接続され、その何れかの配線の間には、NOT回路134cが含まれている。これにより、第1のスイッチ134aがONの場合には第2のスイッチ134bがOFFとなる一方、第1のスイッチ134aがOFFの場合には第2のスイッチ134bがONとなる。次元制御信号は、メモリ領域113に記憶されている参照データの次元に対応して、切替スイッチ134を制御する。
N次元の参照データが、メモリグレンMRi jからメモリグレンMRi j+n−1まで、次元に分けて記憶されているとすると、当該N次元の参照データが検索データと類似しているかどうかを評価するには、第j列番目の類似度評価セルSECから第(j+n−1)列番目の類似度評価セルSECj+n−1までの各類似度を加算する必要がある。
本発明の実施形態では、各類似度を加算するために、第j列番目の類似度評価セルSECと第(j+1)番目の類似度評価セルSECj+1との間との間に第1のスイッチ134aを設け、第j列番目の類似度評価セルSECと第j列番目の電流統合回路CAとの間に第2のスイッチ134bを設けている。
外部の次元制御信号により、第1のスイッチ134aがN個の類似度評価セル133を直列接続した状態にする。類似度評価セル133の入力端子に次元毎の検索データの電圧を印加し、類似度評価セル133から出力される電流値を電流統合回路135に入力して、電流統合回路135に一旦保存する。その後、類似度評価セル133の入力端子に次元毎の参照データの電圧を印加し、類似度評価セル133から出力される電流値を電流統合回路135に入力して、保存している電流値との差分を計算する。このように、類似度評価セル133と電流統合回路135との連携により、複数列に分散して記憶されている参照データが検索データに類似しているか否かを、電流値により求めることできる。
タイムドメインコンバーター136は、電流統合回路135から出力された電流値を遅延時間に変換する。よって、切替スイッチ134により直列接続された各類似度評価セル133のうち、列番号が最も大きい最も右端の類似度評価セル133からタイムドメインコンバーター136に電流値が入力されることにより、複数列に分散して記憶されている参照データが検索データに類似しているか否かを、時間遅延の値として求めることができる。類似度が高いほど、時間遅延の値が小さくなる。変換された遅延時間信号は、何れも、探索部150に入力される。
探索部150はTD最小値探索回路151で構成され、類似度評価部130における各タイムドメインコンバーター136から入力された時間遅延信号のうち、最も時間遅延の短いもの、すなわち、タイムドメインの最小値を探索する。探索した最も遅延時間の短い値は、Wビットのカウンタでカウントされ、比較更新部170に出力される。
比較更新部170は最小値比較更新回路171で構成され、メモリ部110の読み出しの繰り返し毎に、探索部150から入力されたカウント値と自ら保存しているカウント値とを比較し、カウント値が低い方を記憶する。これにより、メモリ部110の読み出しの繰り返しが終了すると、低いカウント値が求まり、結果として、検索データに最も類似する参照データのカウント値が求まる。このカウント値は、メモリ部110のアドレスに対応させることで、メモリ部110において最も類似する参照データのアドレスが求まる。
図3に示すメモリ装置100の動作説明は、次の通りである。
先ず、入力検索データ保存回路131は、入力された検索データを次元毎に分けて、デジタル/アナログコンバーター132でアナログ電圧に変換し、類似度評価セル133に入力する。
次に、読出/書込回路114を経て、C個のメモリグレン119からそれぞれ出力される1次元分の参照データ(Mビット)を同様にデジタル/アナログ変換回路132でアナログ電圧に変換し、検索データの入力後から、並列にC個の類似度評価セル133に入力する。もしデジタルアナログコンバーター132がシリアルである場合では、Mビットデータを変換するために、Mクロックの時間がかかる。
その際、先ず、類似度評価セル133は、次元毎に検索データ(1次元)の電圧と参照データ(1次元)の電圧との類似度を電流として出力する。
次に、外部の次元制御信号が、参照データ及び検索データの次元数に応じて、類似度評価セル133の間の第1のスイッチ134aがON状態となるように制御し、第1のスイッチ134aがON状態となっている類似度評価セル133同士の電流を加算し、C個の類似度評価セル133の電流をC/N個の類似度電流統合回路135で統合し対応するタイムドメインコンバーター136へ出力する。電流が小さい方が類似度が高い。同じ次元制御信号により、第2のスイッチ134bをOFF状態にし、必要のない類似度電流統合回路135とタイムドメインコンバーター136を接続しないようにして無効化する。
次に、タイムドメインコンバーター136が、統合されたC/N個の類似度電流をタイムドメイン電圧遅延信号に変換し、並列にTD最小値探索回路151へ出力する。
次に、第1階層(ローカル)の最小値探索処理として、TD最小値探索回路151で、1行分のC/N個の参照データに対応するタイムドメイン電圧遅延信号から最も類似度が高いもの、すなわち遅延の短いものを求め、Wビットのカウンタでその遅延を遅延中のクロック数であるデジタル値に変換し、最小値比較更新回路171へ出力する。Wビットのカウンタは、最大2クロックの遅延を持つタイムドメイン電圧遅延信号に変換され、この最大遅延に比例する類似度電流変換の解像度が得られる。つまり、Wが大きければ、もっと小さい類似度電流差が得られる。
次に、第2階層(グローバル)の最小値探索処理として、最小値比較更新回路171で、メインコア210で得られたWinner(ローカルWinner)のデジタル遅延値、又は、ブランチコア220で得られ入力されたWinner(グローバルWinner)のデジタル遅延値を、回路内に保存されている全ステップの値と比較して、小さい方を書き換えて更新する。この更新を繰り返すことで、メインコア210及びブランチコア220内の全ての参照データから一番似ているものが、最後に、最小値比較更新回路171の中に保存され連想処理結果になる。なお、メインコア210及びブランチコア220については、後述の図8を参照して詳細に説明する。
ここで、本発明の実施形態に係るメモリ装置100において、省電力化が達成できていることを詳細に説明する。図4乃至図6は、本発明の実施形態に係るメモリ装置におけるメモリ部とその動作及び消費電力について、従来技術のそれらと比較するための図である。
図4は、本発明の実施形態に係るメモリ装置100におけるメモリ部110とその動作及び消費電力について模式的に示す図である。図4の上段は、メモリ部110を模式的に示し、図4の中段は、Data♯1、Data♯2、Data♯3を順に列毎に読み出したときに、どの列の領域からデータが読み出されるかを示す。図4の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。
参照データの次元毎に(1個のメモリグレン毎に)パワードライバー118を備えて、細粒度パワーゲーティングを用いるだけでなく、任意のコラムライン117を複数本同時にアクティベートすることを可能にして1Data内の必要なデータ次元に対応した必要なメモリグレン119のみに柔軟に電力を供給する。その上に、パワードライバー118に動作演算のクロック信号が入力し、クロック信号に同期して、パワードライバー118から対応のメモリグレン119に電力を供給する。
この読み出し制御によって、演算に必要なデータが演算動作中のみ、電力を消費することになり、演算動作のクロック信号が入っていない場合には電力を消費しない。さらに、読み出しの時にクロックパルスが“0”のときのみ電力消費がある。クロックパルスが“1”(クロック前半)の時はpre-charge、すなわちビットライン116を0Vにプレチャージし、電力を供給する必要がなく、演算動作中の消費電力が半減する。
例えば、データ♯1(Data♯1)では、参照データの全ての次元のデータ出力が必要な場合、クロックを用いているので、読み出しの際に、消費電力が半減する。この理由は次の通りである。クロック制御の導入により、1クロックの前半、すなわちクロック信号が“H”であるときメモリグレン119に電力を供給しないで、プレチャージする。1クロックの後半、すなわちクロック信号が“L”であるとき指定のメモリグレンに電力を供給して、データを読み出す。このプレチャージは、電力供給を高速で切り換える際にdisturb誤動作が発生しないようにするため、参照データを読み出す際に、データが書き換えられない。
データ♯2(Data♯2)では、動作演算のクロックの制御により、パワードライバー118が動作していないので、動的にメモリの動作も停止し、消費電力を最小化することができる。
データ♯3(Data♯3)では、参照データの一部分の次元の出力が必要な場合、必要最低限のメモリグレン119だけに電力を供給して、消費電力の最適化を図ることができる。
本発明の実施形態においては、メモリ部110が、Cycle-based 粒度制御可能なパワーゲーティングに基いた不揮発性メモリで構成されている。この構成により、待機時の消費電力をゼロにする上、メモリ部110の必要な部分に電力を供給し、不要な部分には電力を供給しないため、消費電力を減らすことができる。
不揮発性メモリは、小面積、高速、高安定、低書込電流など色々異なる性能に重視してそれぞれ開発されてきた経緯があるが、ここでは、Cycle-based 粒度制御可能なパワーゲーティングを実現するために、高速且つ安定の不揮発メモリセルが必要である。本発明の実施形態では、一般的には差動対型のSTT−MRAMメモリセルを利用するとよい。この点については実装例で詳細に説明する。
実装例において後述するように、高速で探索することができ、かつ、Cycle-based 粒度制御可能なパワーゲーティングが実現できたのは、次の理由による。
第1には、電力が供給されたらすぐに反応でき、高速かつ安定な動作を特徴とする差動対型STT−MRAMメモリセル(例えば4T−2MTJセル)を採用しているからである。4T−2MTJセルは、より速くMTJからデータを読出せ、高速の電源ON/OFFによるdisturb誤動作が発生しないという特徴がある。
第2には、高速でデータを読み出すために、電力を供給する前に、ビットラインに邪魔な電荷をたまらないように、0Vにpre-chargeするからである。
本発明の実施形態によれば、Cycle-based粒度制御可能なパワーゲーティングに基づく不揮発性メモリ装置により、連想メモリの超低電力化を図ることができる。類似評価部130の切替スイッチ134により、データ次元数に応じてシステムを再構成するわけだが、Cycle-based粒度制御可能なパワーゲーティングに基づく不揮発性メモリ装置は、その再構成に応じて必要最小限のメモリに電力を供給するため、動作時消費電力を最適化できる。
従来のNNS連想メモリでのデジタルアプローチ及びアナログアプローチ(以下、「従来のアプローチ」とする。)でのメモリ部は、次の通りである。図5は、従来のアプローチでのメモリ部510とその動作及び消費電力について模式的に示す図である。図5の上段は、メモリ部510を模式的に示し、図5の中段は、Data♯1、Data♯2、Data♯3を列毎に順に読み出したとき、どの列の領域からデータが読み出されるかを示す。図5の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。
従来のアプローチでは、メモリ部510のメモリ領域は揮発性のSRAMで構成されている。そのため、全てのメモリグレン519に、参照データを書き込む際、データ♯1の読出しの際、データ♯2の読出しの際、データ♯3の読出しの際の何れも、常に電力を供給する必要がある。なお、符号511はローデコーダであり、符号512はコラムデコーダである。
図6は、従来のSTT−MRAMから構成されたメモリ部とその動作及び消費電力について模式的に示す図である。図6の上段は、メモリ部610を模式的に示し、図6の中段は、Data♯1、Data♯2、Data♯3を列毎に順に読み出したときに、どの列の領域からデータが読み出されるかを示す。図6の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。
非特許文献9に示す従来のSTT-MRAMでは、細粒度パワーゲーティング技術を用いて、1Dataの参照データ毎に、即ちN個のメモリグレン619毎にパワードライバー618を備え、独立電源供給できる。そのため、参照データの書き込み際に、データ#1の読み出しの際、データ#2の読出しの際、及びデータ#3の読出しの際にも、コラムデコーダとローデコーダのアドレスによって指定されるアクセス参照データのlocationに応じて電力を供給することができ、不要なメモリの場所に電力を供給する必要がない。しかしながら、Data毎のパワーゲーティングなので、1Data内の全ての次元のデータを読み出すために全てのメモリグレン619は同時に電力が供給される。なお、符号611はローデコーダであり、符号612はコラムデコーダである。
次に、類似評価部130について補足説明する。類似評価部130は、コラム毎に電流モードの類似度評価セル133を備え、コラム毎に隣り合う類似度評価セル133同士を接続する切替スイッチ134を備えており、電流モードの類似度評価セル133同士を第1のスイッチ134aのON/OFFで再構築可能である。切替スイッチ134のON/OFFは、参照データ、検索データの次元数に応じて柔軟に対応し、検索データに類似する参照データを探索するために、非常にコンパクトな回路を提供する。しかも、高密度で、適応性のある連想メモリを提供する。
ここで、R行4列のメモリグレンを備えるチップとして、1〜4次元参照データに応じて再構成したシステムアーキテクチャ(コラム数C=4の場合)について、説明する。図7Aは、参照データが一次元である場合のメモリ装置の再構成を示す図であり、図7Bは、参照データが二次元である場合のメモリ装置の再構成を示す図であり、図7Cは、参照データが三次元である場合のメモリ装置の再構成を示す図であり、図7Dは、参照データが四次元である場合のメモリ装置の再構成を示す図である。これらの図は、不揮発性メモリ装置のCycle-based 粒度制御可能なパワーゲーティングの動作状態を示しており、メモリ部110においてメモリグレン119に電力が供給されていないものは点線で示している。類似評価部130においても無効化した部分は点線で示しており、無効化していない部分は実線で示している。
図8は、図3に示すメモリ装置100を複数備え、その一つをメインコア210とし、その他をブランチコア220とした、メモリシステム200の構成図である。メインコア210、ブランチコア220の何れも同一の構成である。メインコア210では出力用バッファー(Output Buffer)211を無効化し、ブランチコア220では最小値比較更新回路222を無効化する。図8において無効化したエレメントは点線で示している。
メインコア210のみ最小値比較更新回路212を有効化して、1クロック(clock1)毎に、パイプラインで最小値比較更新回路212に入力されるブランチコア220のローカルWinner(Wビット)の結果と、前ステップの自分連想結果とを比較し、小さい方に書き換えて更新する。これにより、マルチコアシステム全体から検索データに一番似ている参照データが検出される。マルチコアシステムの接続可能なチップ枚数はローカルWinnerのWと1次元データのビット数Mにより決められる。
図9は、図8に示すメモリシステムにおいて、類似評価部、探索部及び比較更新部の主張部分のタイムチャートである。この図では、C=4、N=1、W=8、R=無制限の場合を想定しており、メインコア210とブランチコア220における動作例を示しており、主に、電流モード類似度評価、及び、2階層パイプラインTD最小値探索のシステム動作を説明している。
図10は、図8に示すメモリシステム200の動作を説明するための図である。一個(1Data)の参照データ及び検索データが、N(≧1)次元のデータから構成され、各次元のデータがMビットのデジタル値で表される。そして、メモリ部110としての参照データ保存回路は、(R×M)行−C列のメモリセルアレイから構成され、R×C(C≧N)の1次元データを保存するメモリグレン119があって、各メモリグレン119にはMビットの値を保存している。メインコア210が2行目の「データ出力とDAC変換」と「TD最小値探索」を処理するために(2M+2W−1)−clockがかかり、その間に、ブランチコア220からのローカルWinnerの「最小値比較更新」処理を同時に実行するので、(2M+2W−1)枚のコアが同一システムに接続できる。そこで、図9に示すように、1次元データのメモリビット数M=8、カウンタのビット数W=8である場合は、144−コアシステムが可能となる。
ここで、図10に示すように、タイムドメイン最小値探索が最も時間が掛かり、データD/A変換及び類似度評価の処理時間がそれよりも短いことについて言及しておく。
本発明の実施形態では、メモリ領域の行毎にデジタル/アナログ変換がなされるので、遅延が生じる。確かに、デジタル/アナログ変換処理により遅延が生じるが、タイムドメイン最小値探索の方はもっと処理時間が長く、支配的である。従来のアナログアプローチによるNNS連想メモリでは1つのD/A変換で複数の参照データ次元を変換する。一方、本発明の実施形態では、1つのデジタルアナログコンバーターで1つの1次元のデータを変換するので、変換オーバーヘッドがなくなる分、速くなる。ちなみに、アナログアプローチ、デジタルアプローチの何れのNNS連想メモリでも、本発明の実施形態においても、D/A変換ではなく、タイムドメイン信号から最小値、即ち一番早く立ち上がるタイムドメイン信号)を検索するための処理時間の方が支配的である。例えば、D/A変換が8-cycleの時間が必要であるが、タイムドメイン最小値探索の方が100〜200-cycleの時間が必要である。それは、早いタイムドメイン信号と遅いタイムドメイン信号とを区別する解像度を実現するために、ある程度長いランプ信号が必要である。0Vから例えば1Vになる時間を十分長くしないと、差の小さい類似度電流同士が区別できなくなるためである。言い換えれば、類似度、即ちデジタルアプローチの連想メモリの場合にはデジタル値、アナログアプローチの連想メモリと本発明の実施形態の場合には電流値をタイムドメイン信号の遅延に変換するのでので、差の小さい類似度から変換されるタイムドメイン信号の遅延差も小さく、十分長い時間で測らないと、区別し難くなる。
本発明の実施形態では、Time-Domain最小値探索速度を改善するために、マルチコアに基づくパイプライン動作を採用している。パイプラインによって、各コアのローカルの長いTime-Domain最小値探索処理時間を吸収して、1クロックで完成させる。このマルチコアに基づくパイプライン方式を使わない場合には、従来のアナログアプローチの連想メモリと同等の速度で、類似する参照データについての情報が得られる。
次に、実装例を説明する。図11は、実装例に係るブロック構成図である。画像認識への応用を前提とし、低電力,高密度で適応性のある不揮発連想メモリ装置を想定している。図11に示すメモリ装置310では、図3と同様、メモリ部310、類似評価部330,探索部350,比較更新部370を備え、タイミングコントローラ390を備える。8次元、16次元、32次元、64次元、128次元の画像特徴データを想定している試作チップである。基本的に次元数が8の整数倍であれば全て対応することができる。図3を参照して説明した各バラメータは以下のようになる。
N=8次元、16次元、32次元、64次元、128次元であり、8の整数倍の次元で適応可能である。
M=8ビット
C=128列
R=16行
W=8ビット(最小値比較更新回路のカウンタのビット数)
ただし、8の整数倍対応であるので、メモリグレンのPDと類似度電流の統合スイッチは両方8次元毎に設計している。
そのため、外部の次元制御信号により、左から奇数番目の切替スイッチ334を動作させ、第1のスイッチ334aを閉じると、16次元対応のシステムになる。後述する実測波形のうち速度などの性能評価は16次元のtexture認識においての結果である。
以下、実装例における各部の基本的な回路構成を説明することにより、図3に示すメモリ装置100の具体的な実施形態を説明する。
図12は、実装例でのメモリ領域の領域毎のブロック図である。図12に示すのは、図3を参照して説明したメモリ領域の一領域を示す。この一領域には、1個のパワードライバー318とK(=8)個の不揮発性のメモリグレン319が組として備えており、パワードライバー318は、M個のパワーラインゲート318aを備える。パワーラインゲート318aの論理演算器318bには、コラムライン(CD Line)と、クロック信号の入力線と、ローライン(RD Line)のうち1本の線が入力され、クロック信号が反転して論理演算回路318bに入力される。論理演算器318bからの出力信号は、電源ラインに接続されたインバータ回路318cに入力される。インバータ回路318cからの出力がパワーラインPLとして、4T−2MTJセル319aに入力される。なお、BLとBLBとはビットラインの対である。
図13Aは、図12のブロック図のうち、不揮発性のメモリグレン319を1つとし、参照データの次元毎にパワードライバー318を備える場合を想定した図である。図13Bは図13Aに示すユニットについての2つの4T−2MTJメモリセル(Cell#1とCell#2)から連続的にデータを読み出す動作を示すタイムチャートである。既に説明したように、読出しオペレーションにおいては、クロック信号が“0”であり、CD Lineが“1”であり、かつ、該当するRD Lineも“1”であるとき、パワーラインPLが“1”になり、読出し処理をしている。
図13Cは、図13Aに示す回路の変形例であり、一つのパワーラインゲートから並列に、M個の各4T−2MTJセル319aへパワーラインPLを出力するようにしてもよい。
図14は、メモリ部310における4T−2MTJメモリセル320の回路図である。4T−2MTJメモリセル320は、差動対型STT−MRAMセルであり、4個のN型MOSFET321乃至324と2個のMTJ325,326を備える。MTJ325,326は、固定磁性層と絶縁層及び自由磁性層からなり、MTJ325,326の各固定磁性層がパワーラインPLに接続され、MTJ325,326の自由磁性層がそれぞれ固定磁性層と並行(Parallel)又は逆並行(Anti-Parallel)の状態を記憶することによりデジタル値を保存する。図15は、図14に示す4T−2MTJメモリセルの動作を説明するためのタイムチャートである。
4T−2MTJセル320にデータを書込む際には、ワードラインWLを例えば高い電圧にしてビットライン(BL/BLB)とセンスノード(SN: Sense Node/SNB)を接続し、BLB/BLを高い電圧(1V)/低い電圧(0V)にセットする。4T−2MTJセル320に“1”/“0”のデータを書き込む場合は、クロック信号でパワーラインPLを制御することにより、クロック前半では、PLを0Vにして右/左のMTJ325,326をAnti-Parallelに書込み、クロック後半では、PLを1Vにして左/右のMTJ325,326をParallelに書込む。
4T−2MTJセル320からデータを読み出す際には、ワードラインWLを1Vにしてビットライン(BL/BLB)とセンスノード(SN: Sense Node/SNB)を接続し、クロック信号でPLを制御し、クロック前半では、PLを0VにしてBLB/BL及びSN/SNBを全部0VにPrechargeし、クロック後半では、PLを1Vにして、BLB/BLを通して、SN/SNBの電圧差を読み出す。
図16は、図3に示す読出/書込回路114のブロック図である。読出/書込回路114は、M個の読出−書込インタフェース(WRI:Write-Read Interface)回路から構成され、ビットライン(BL/BLB)を通して、Mコラムの4T−2MTJセル320にアクセスし、1クロックでMビットのデータを読出し/書込みをする回路である。その1個のWRI回路327は、書込ドライバ回路327Aと、プレチャージ(Precharge)回路327Bと、センスアンプ(Sense Amplifier)回路327Cと、デジタルレジスタ(Register)回路327Dを備える。データを書き込む際には書込ドライバ回路327Aを用い、データを読出す際にはプレチャージ回路327Bとセンスアンプ回路327Cと、デジタルレジスタ回路327Dを用いることにより、1クロックで1ビットのデータを処理する。
図17は、図3に示す類似度評価セル133の回路図である。類似度評価セル400は、9つのN型MOSFET(T1〜T9)401乃至409と2個コンデンサ(C1,C2)410,411から構成され、両サイドのポートV1及びV2から2つのステップに分けてアナログ電圧信号が入力される。上段の左側がステップ1であり、上段の右側がステップ2である。下段に示すように、ステップ1とステップ2とでの電圧の差を求め、類似度評価関数を満たす類似度電流(IBSSE)として電流統合回路へ出力する回路である。
ステップ1の際には、SWを“H”にセットし、入力ポートV1,V2に検索データとするターゲット電圧を印加してMAXの類似度電流を得られる。ステップ2の際には、SWを“L”にセットしてトランジスタT1、T2、T3及びT4のゲート電荷を保持し、入力ポートに参照データとするテンプレート電圧を印加して、それとターゲット電圧との差に応じて下がる類似度電流を得られる。
図18は、図3に示す電流統合回路135の回路図である。電流統合回路420は、5個のP型MOSFET(T10乃至T14)421乃至425と、2個のN型MOSFET(T15乃至T16)426,427と、2個のスイッチ(S1,S2)428,429と、1個のコンデンサ430から構成される。T10とT11でカレントミラーを構成し、T10とT12でカレントミラーを構成し、T13とT14でカレントミラーを構成し、T15とT16でカレントミラーを構成する。図18に示す回路では、1つの電流加算器431と、1つの電流減算器432と、1つの電流メモリ433を備え、K個の類似度評価セルから2ステップを分けて出力される類似度電流(IBSSE)をそれぞれ足し合わせ、その電流差を出力する。そのKの値は、電流統合回路420に接続する類似度評価セルの回路数を制御することにより、柔軟に設計調整できる。
電流統合回路420は、まず、K個の類似度評価セル(SEC)から出力されるステップ1の検索データに対応する類似度電流を足し合わせ、スイッチS1(S2)をON(OFF)にセットし、T10とT11で構成されるカレントミラーを用いて、得られた電流結果ITarを一時的に電流メモリ433に保存する。それから、K個の類似度評価セル(SEC)から出力され、ステップ2の参照データに対応する類似度電流(ITem)を足し合わせ、スイッチS1(S2)をOFF(ON)にセットし、得られた電流結果ITemをT10とT12で構成されるカレントミラーでコピーして、保存しているITarとの差を計算し、検索データと参照データの最終類似度電流(ISCORE)としてタイムドメインコンバーター(TDC)へ出力する。
図19は、図3に示すタイムドメインコンバーター151の回路図である。タイムドメインコンバーター440は、1個のCMOSスイッチ441と、2個のインバータ442,443と、1個のP型MOSFET444と、2個のN型MOSFET445,446を備え、電流統合回路(CA)から出力される類似度電流(ISCORE)をTime-Domain電圧遅延信号に変換する。
タイムドメインコンバーター440は、まず、Reset信号で出力をGNDになるように初期化する。その後、タイムドメインコンバーター440は、ISCOREが入力される同時に、ランプ(RAMP)信号の電圧が入力され、出力インバータの閾値を超えるまでスイッチング・ノードの電圧が下がると出力が立ち上がり、ISCOREに対応する遅延を持つTD電圧遅延信号を生成する。
図20は、探索部350内のTD−WTA(Time-Domain Winner Take-All)回路450のブロック図である。図中、Cはメモリグレンの列数で、Nはデータの次元数であり、C/Nはメモリの1行分の参照データ数である。
TD−WTA回路450は、(C−N)/N個の2入力TD比較回路(2-Input Time-Domain Comparator)451から構成される√(C/N)レイヤを持つ最小値探索回路であり、並列にタイムドメインコンバーターから入力されるC/N個の参照データに対応するC/N個TD電圧遅延信号から一番遅延の短い(立ち上がりの早い)信号をローカルWinnerとして、そのWinnerアドレスと一緒に出力する回路ある。
TD−WTA回路450は、まず、C/N個のTD電圧遅延信号を2入力TD比較回路451に入れて、2個ずつ比較し、遅延の短いものを次のレイヤに渡すことにより、数段繰り返して一番遅延の短いTD電圧遅延信号(ローカルWinner)を検索する。各2入力TDコンパレータ451では、入力される2つのTD遅延信号にFlagを付けてFF回路452に保存し、そのFlagをエンコードして、Winnerに対応する参照データのアドレスを割り出す。最後に、TD−WTA回路450は、ローカルWinnerとそのWinnerアドレスを一緒に最小値比較更新回路に出力する。
図21及び図22は、最小値比較更新回路460の構成図であり、図21はブランチコアで用いられるものであり、図22はメインコアで用いられるものである。点線で示す部分は無効化している。
最小値比較更新回路460は、1個のWビットデジタルカウンタ461と、1個のWビット・セレクタ462と、1個のWビットデジタル加算器463と、グローバルWinnerとそのアドレスを保存するデジタルレジスタ464から構成され、TD−WTA回路450から直列に入力されるローカルWinnerを前ステップで求めたものと比較し、より小さいものを保存することで、一番小さいグローバルWinnerを求める回路である。
最小値比較更新回路460は、まず、TD―WTA回路450からローカルWinnerのTD電圧遅延信号を受け取り、8ビット(W=8)のデジタルカウンタで信号遅延をクロック数に変換し、ローカルWinnerのクロック数(ローカル最小値)が計算する。この変換は、デジタルカウンタがタイムドメインコンバーターにRAMP電圧を入力する時点からカウントし始め、TD―WTA回路450がローカルWinnerを計算する同時に、完成する。
ブランチコアでは、得られたローカル最小値をメインコアに送る。メインコアでは、メインコア自身又はブランチコアから得られたローカル最小値と、Winnerレジスタに保存しているグローバルWinner(最小値)を、デジタル加算器を用いて減算処理を行い、COUT=1の場合だけレジスタを上書きすることにより、いつも小さいローバルWinner(最小値)を更新しつつ、最終的なグローバル最小値と該当の参照データIDを連想認識の結果として保存する。
ただし、メインコア及び各ブランチコアに対して、メモリ領域である参照データ保存回路から、データ適応型類似度評価回路、2階層最小値探索回路まで、全部1クロックずつタイミングをずらしてパイプラインで実行する。それで、1クロック以内に、コアの1行分(C/N個)の参照データに対する連想認識が完成できる。
実装例では、8data/クロックのThroughputが得られている。そして、同じ設計のコアを用いて、簡単にシステム拡張が可能である。
図23Aは図11で示す設計に従ってチップを作製した写真の像を示し、図23Bは図23Aに示す像を模式的に示し、図23Cには設計スペックを示している。
図24は、類似度評価セルの回路動作の検証結果を示す図である。横軸はΔVであり、図18のCAで示すVtem−VTarである。縦軸は電流Ipeak,Itemである。この図に示すように、リファレンス電圧Vrefに依らず同様な鐘型形の波形となっていることが分かる。
図25は、3次元カラーベクトルデータ(M=8、N=3)構成での電流統合回路が出力する類似度電流の結果を示す図である。図に示すように、検索データ(ターゲット)により近い参照データ(テンプレート)はより低い類似度電流(ISCORE)が出力される。
図26は、16次元データ構成でのコア動作を検証する波形を示す図であり、Texture認識の実証結果である。横軸は時間であり、縦軸は0V〜1Vの電圧である。システムをリセットした後、D/A変換のデータ変換指令信号(Read Instruction of NFM)で示すように、検索データ(Target)となる「石」のTextureを入力してから、第1行目の参照データ(Template 1)である8個の「木板」Textureを入力し、一時的に電源OFFにした後、第2行目の参照データ(Template 2)となる8個の「石」Textureの参照データを入力する。参照データを入力し続ける間に、電流モードの類似度評価を行い、ランプ信号(Reference RAMP Signal)によって類似度電流を電圧TD遅延信号に変換され、1行の参照データの電圧TD遅延信号から一番類似度の高いTD遅延信号(Updated TD Similarity Score)を出力する。それと同時に、出力されるTD遅延信号(Updated TD Similarity Score)の遅延をクロック数に変換し、デジタル相違度(Similarity Score)として得られ、相違度の小さいものに更新して最終的なTextureについての連想認識に成功した。
試作したチップでは、12コアを実装され、1V電源電圧で40MHzで動作でき、5マイクロ秒で1行分のデータ、即ち、C/N個の参照データに対する認識処理を完了することができた。リセットは0.5マイクロ秒かかり、検索データ入力は0.5マイクロ秒がかかった。なお、C=128、N=16、R=8である。
図27は、消費電力について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。図から、本実装例では、消費電力が大幅に低下していることが分かる。
図28は、回路面積について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。図から、回路面積が大幅に削減することができていることが分かる。
以上、本発明の実施形態を説明したが、本発明は消費電力を低減させるためのメモリ部の構造を工夫しており、類似度評価部、探索部、比較更新部の各具体的な回路構成については、本発明の実施形態に示す内容を実現できるものであればよく、図11以降の図面で示したものは好ましい一つの例である。なお、従来の連想メモリで使用されているものであってもよく、その際には適宜モディファイする必要があることは言うまでもない。
上述の説明では、図3において縦線をコラムライン、横線をローラインとしているが、一方の方向に延びる線と他方の延びる線の何れか一方がコラムラインであり、他方がローラインとして定義されるものとする。つまり、コラムラインとローラインとが交差してれば、何れか一方がコラムラインであり、他方がローラインである。このことは、図3以外に示す構成図においても当てはまる。
本発明の実施形態では、不揮発性メモリとしてはSTT−MRAMを中心に説明したが、例えば次のような不揮発性メモリでもよい。不揮発性メモリは、磁気抵抗メモリ(MRAM: Magnetoresistive Random Access Memory)、抵抗変化型メモリ(ReRAM: Resistive Random Access Memory)、強誘電体メモリ (FeRAM: Ferroelectric Random Access Memory)、フラッシュメモリなどの不揮発メモリで構成してもよい。
磁気抵抗メモリは、スピントロニクスを利用し、GMR効果(Giant Magneto Resistive effect)を動作原理とする不揮発性メモリである。例えば、磁壁移動型MRAM、スピンホールトルク型MRAM、スピン注入型MRAM(STT−RMAM)などから選択される。磁壁移動型MRAMは、微小磁性体内の磁壁を行き来させることで磁化を反転させる3端子MRAMである。スピンホールトルク型MRAMは、非磁性体からのスピンホールトルクによって磁化反転させる3端子MRAMである。STT−RMAMは、磁性体に電流を通じ、電子スピンとの相互作用で磁化回転をさせる2端子MRAMである。何れも、高密度と高速度と長い寿命が期待される。
抵抗変化型メモリは、電圧の印加による金属酸化物中の電気抵抗の変化を利用してデータを記憶する不揮発メモリである。高密度と高速化が期待される。
強誘電体メモリは、強誘電体のヒステリシス効果に因る正負の残留分極を利用してデータを記憶する不揮発性メモリである。高速化と、長い寿命が期待できる。
フラッシュメモリは、電圧制御で、MOSのフローティングゲートに電荷を閉じ込めることでMOS閾値を変化させてデータを記憶する不揮発メモリである。高密度化を期待できる。
本発明の実施形態では、パワーゲートによりメモリグレンからデータの読み出しの際の消費電力を低く抑えることができるが、柔軟に最適化した電力を供給することができるので、書き込み時においても同様な低電力化効果が得られる。
10:検索データ
20:特徴ベクトルデータ
30:参照データ
100:メモリ装置
110:メモリ部(参照データ保存回路)
111:ローデコーダ
112:コラムデコーダ
113:メモリ領域
114:読出/書込回路
115:ローライン
116:ビットライン
117:コラムライン
118:パワードライバー
119:メモリグレン
130:類似度評価部
131:入力検索データ保存回路
132:デジタル/アナログコンバーター(DAC)
133:類似度評価セル(SEC)
134:切替スイッチ
134a:第1のスイッチ
134b:第2のスイッチ
134c:否定回路
135:電流統合回路(CA)
136:タイムドメインコンバーター(TDC)
150:探索部
151:タイムドメイン最小値探索回路
170:比較更新部
171:最小値比較更新回路
200:メモリシステム
210:メインコア
211:出力用バッファー
212:最小値比較更新回路
220:ブランチコア
221:出力用バッファー
222:最小値比較更新回路
230:パイプライン
300:メモリ装置
310:メモリ部
311:ローデコーダ
312:コラムデコーダ
313:メモリ領域
314:読出/書込回路
315:ローライン
316:ビットライン
317:コラムライン
318:パワードライバー
319:メモリグレン
320:4T−2MTJメモリセル
321乃至324:N型MOSFET
325,326:MTJ
327:WRI回路
327A:書込ドライバ回路
327B:プレチャージ(Precharge)回路
327C:センスアンプ(Sense Amplifier)回路
327D:デジタルレジスタ(Register)回路
330:類似度評価部
332:デジタル/アナログコンバーター(DAC)
333:類似度評価セル(SEC)
334:切替スイッチ
334a:第1のスイッチ
334b:第2のスイッチ
334c:否定回路
335:電流統合回路(CA)
336:タイムドメインコンバーター(TDC)
350:探索部
351:タイムドメイン最小値探索回路
370:比較更新部
371:最小値比較更新回路

Claims (6)

  1. N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、
    前記メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
    前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。
  2. 前記M本のローラインからの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされる、請求項1に記載のメモリ装置。
  3. 前記M本のローラインからの制御信号の入力は、同時になされる、請求項1に記載のメモリ装置。
  4. 前記パワードライバーは、クロック信号の“1”又は“0の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“0”又は“1”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、請求項1乃至3の何れかに記載のメモリ装置。
  5. 前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第1の回路と、
    前記第1の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第2の回路と、を備える、請求項1乃至4の何れかに記載のメモリ装置。
  6. 前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、請求項1乃至5の何れかに記載のメモリ装置。
JP2018509313A 2016-03-28 2017-03-27 メモリ装置 Active JP6919846B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016064777 2016-03-28
JP2016064777 2016-03-28
PCT/JP2017/012276 WO2017170340A1 (ja) 2016-03-28 2017-03-27 メモリ装置

Publications (2)

Publication Number Publication Date
JPWO2017170340A1 true JPWO2017170340A1 (ja) 2019-02-14
JP6919846B2 JP6919846B2 (ja) 2021-08-18

Family

ID=59965617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018509313A Active JP6919846B2 (ja) 2016-03-28 2017-03-27 メモリ装置

Country Status (3)

Country Link
US (1) US10741228B2 (ja)
JP (1) JP6919846B2 (ja)
WO (1) WO2017170340A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12073883B2 (en) 2022-05-11 2024-08-27 Macronix International Co., Ltd. Ternary content addressable memory
US11763888B1 (en) * 2022-07-25 2023-09-19 Hewlett Packard Enterprise Development Lp Range segmenting for analog CAM with improved precision

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4541077B2 (ja) * 2004-01-13 2010-09-08 株式会社日立超エル・エス・アイ・システムズ 半導体記憶装置
JP5224601B2 (ja) 2009-10-01 2013-07-03 国立大学法人広島大学 連想メモリ
JP5907524B2 (ja) 2011-02-25 2016-04-26 国立大学法人東北大学 不揮発機能メモリ装置
JP5800422B2 (ja) * 2011-11-07 2015-10-28 国立大学法人広島大学 連想メモリ
JP2013191255A (ja) 2012-03-14 2013-09-26 Renesas Electronics Corp 内容参照メモリシステム
JP2015016257A (ja) 2013-07-12 2015-01-29 株式会社三共 スロットマシン
JP6215732B2 (ja) 2014-02-27 2017-10-18 国立大学法人広島大学 再構成可能連想メモリ
JP6261041B2 (ja) 2014-03-25 2018-01-17 国立大学法人東北大学 不揮発性連想メモリセル及び不揮発性連想メモリ
US10643701B2 (en) * 2016-05-13 2020-05-05 Tohoku University Memory device and memory system

Also Published As

Publication number Publication date
US20200219547A1 (en) 2020-07-09
US10741228B2 (en) 2020-08-11
WO2017170340A1 (ja) 2017-10-05
JP6919846B2 (ja) 2021-08-18

Similar Documents

Publication Publication Date Title
JP6888787B2 (ja) メモリ装置及びメモリシステム
Umesh et al. A survey of spintronic architectures for processing-in-memory and neural networks
US8274841B2 (en) Semiconductor signal processing device
US11290110B2 (en) Method and system for providing a variation resistant magnetic junction-based XNOR cell usable in neuromorphic computing
TWI579841B (zh) Memory circuit
Hung et al. Challenges and trends indeveloping nonvolatile memory-enabled computing chips for intelligent edge devices
US9019737B2 (en) Power savings in a content addressable memory device using masked pre-compare operations
He et al. Exploring STT-MRAM based in-memory computing paradigm with application of image edge extraction
TW201314684A (zh) 讀取磁阻式隨機存取記憶體記憶胞之非破壞性方法以及讀取架構
US20150235703A1 (en) Nonvolatile content addressable memory and method for operating same
Tsai et al. Testing of in-memory-computing 8T SRAMs
JP6919846B2 (ja) メモリ装置
Zhang et al. HD-CIM: Hybrid-device computing-in-memory structure based on MRAM and SRAM to reduce weight loading energy of neural networks
Chung et al. Domain wall memory based convolutional neural networks for bit-width extendability and energy-efficiency
Reis et al. Attention-in-memory for few-shot learning with configurable ferroelectric FET arrays
US8031501B1 (en) Segmented content addressable memory device having pipelined compare operations
Cai et al. Commodity bit-cell sponsored MRAM interaction design for binary neural network
Chen et al. Reconfigurable 2T2R ReRAM with split word-lines for TCAM operation and in-memory computing
JP2008269712A (ja) 薄膜磁性体半導体記憶装置
Ghosh et al. Overview of circuits, systems, and applications of spintronics
Huang et al. STT-MRAM based low power synchronous non-volatile logic with timing demultiplexing
Deng et al. Multi-context non-volatile content addressable memory using magnetic tunnel junctions
You et al. An 8b-Precision 8-Mb STT-MRAM Near-Memory-Compute Macro Using Weight-Feature and Input-Sparsity Aware Schemes for Energy-Efficient Edge AI Devices
Im et al. A read–write circuit for STT-MRAM with stochastic switchings
Ma et al. An MTJ-based nonvolatile associative memory architecture with intelligent power-saving scheme for high-speed low-power recognition applications

Legal Events

Date Code Title Description
A529 Written submission of copy of amendment under article 34 pct

Free format text: JAPANESE INTERMEDIATE CODE: A5211

Effective date: 20180919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20180919

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20180919

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210615

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210709

R150 Certificate of patent or registration of utility model

Ref document number: 6919846

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250