WO2017170340A1 - メモリ装置 - Google Patents
メモリ装置 Download PDFInfo
- Publication number
- WO2017170340A1 WO2017170340A1 PCT/JP2017/012276 JP2017012276W WO2017170340A1 WO 2017170340 A1 WO2017170340 A1 WO 2017170340A1 JP 2017012276 W JP2017012276 W JP 2017012276W WO 2017170340 A1 WO2017170340 A1 WO 2017170340A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- memory
- data
- power
- circuit
- reference data
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/22—Read-write [R-W] timing or clocking circuits; Read-write [R-W] control signal generators or management
- G11C7/222—Clock generating, synchronizing or distributing circuits within memory device
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C15/00—Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores
- G11C15/04—Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores using semiconductor elements
- G11C15/046—Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores using semiconductor elements using non-volatile storage elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C11/00—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
- G11C11/21—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
- G11C11/34—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
- G11C11/40—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
- G11C11/41—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
- G11C11/412—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger using field-effect transistors only
- G11C11/4125—Cells incorporating circuit means for protecting against loss of information
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C15/00—Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores
- G11C15/02—Digital stores in which information comprising one or more characteristic parts is written into the store and in which information is read-out by searching for one or more of these characteristic parts, i.e. associative or content-addressed stores using magnetic elements
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/10—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
- G11C7/1006—Data managing, e.g. manipulating data before writing or reading out, data bus switches or control circuits therefor
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C7/00—Arrangements for writing information into, or reading information out from, a digital store
- G11C7/10—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
- G11C7/1072—Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers for memories with random access ports synchronised on clock signal pulse trains, e.g. synchronous memories, self timed memories
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C11/00—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor
- G11C11/21—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements
- G11C11/34—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices
- G11C11/40—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors
- G11C11/41—Digital stores characterised by the use of particular electric or magnetic storage elements; Storage elements therefor using electric elements using semiconductor devices using transistors forming static cells with positive feedback, i.e. cells not needing refreshing or charge regeneration, e.g. bistable multivibrator or Schmitt trigger
- G11C11/413—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction
- G11C11/417—Auxiliary circuits, e.g. for addressing, decoding, driving, writing, sensing, timing or power reduction for memory cells of the field-effect type
- G11C11/419—Read-write [R-W] circuits
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11C—STATIC STORES
- G11C2207/00—Indexing scheme relating to arrangements for writing information into, or reading information out from, a digital store
- G11C2207/22—Control and timing of internal memory operations
- G11C2207/2227—Standby or low power modes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Definitions
- the present invention relates to a memory device capable of searching for similar data.
- a general memory device stores data for each address, and by designating an address, the data stored in the designated address is read.
- the associative memory device searches for data similar to the input data and reads the data.
- a CAM Content Addressable Memory
- searches the reference database for data that completely matches the search data for example, Patent Documents 1 to 3 and Non-Patent Documents 1 to 3.
- a memory cell and a comparison circuit are provided for each memory cell, and the comparison circuit compares reference data in the memory cell with input data.
- the CAM searches for reference data matching the designated destination IP address or MAC address at high speed.
- CAM is useful for searching for an IP address in a network router, but is not suitable for searching for similar data.
- NSS Nearest Neighbor ⁇ Search
- a digital approach for example, Patent Documents 4 and 5, Non-Patent Documents 4 to 7
- an analog approach for example, Non-patent document 8
- the area for storing the reference data is composed of a volatile SRAM.
- the group of the present inventors has developed a technology of a spin-injection magnetization reversal type magnetoresistance change type RAM (Spin-Tranfer-Torque--Magnetroresistance--Randam-Access-memory: STT-MRAM) (for example, non-patent literature) 9, 10).
- STT-MRAM spin-Tranfer-Torque--Magnetroresistance--Randam-Access-memory 9, 10
- both the digital approach and the analog approach are composed of volatile memories. Therefore, it is necessary to supply power to all the memory grains even when data is read from any area. is there. Therefore, power saving cannot be achieved.
- an object of the present invention is to provide a memory device that can read out reference data by optimizing power consumption when searching for data similar to search data.
- the memory area for each area specified by an arbitrary number of column lines of 1 to N and M row lines, the arbitrary number of memory grains configured with an M-bit nonvolatile memory as one unit,
- a power driver that supplies power to an arbitrary number of memory grains is provided as a set, The power driver receives a control signal input from the arbitrary number of column lines, a control signal input from the M row lines, and a clock signal input.
- a memory device that reads out reference data for each dimension stored in a memory glen by supplying power to the memory glen that is paired with a driver.
- a first circuit that obtains a similarity between each read reference data for each dimension and search data for each dimension for each reading from the memory area;
- a second circuit for obtaining a candidate having a high similarity from the similarity obtained by the first circuit, and obtaining a similarity of reference data for each dimension that is most similar for each reading from the memory area,
- the memory device according to claim 1.
- the memory device according to any one of [1] to [5], wherein the nonvolatile memory includes a magnetoresistive memory, a resistance change memory, a ferroelectric memory, or a flash memory.
- a memory area in which reference data having N ( ⁇ 1) dimensions and one dimension having M ( ⁇ 1) bits is stored, and secondly, 1 or more N in the memory area.
- Power is supplied to an arbitrary number of memory grains configured with an M-bit nonvolatile memory as a unit and an arbitrary number of memory grains for each area specified by the following arbitrary number of column lines and M row lines.
- the power driver has a control signal input from any number of column lines, a control signal input from M row lines, and a clock signal input.
- the clock signal power is supplied to the memory glen that is paired with the power driver, thereby reading out the reference data for each dimension stored in the memory glen. Accordingly, each memory glen is supplied with power by both the designation of the reading position by the column line and the row line and the temporal designation by the clock signal, thereby saving power.
- FIG. 1 is a configuration diagram of a memory device according to an embodiment of the present invention. It is a figure which shows typically about the memory part in the memory device concerning embodiment of this invention, its operation
- FIG. 4 is a configuration diagram of a memory system including a plurality of memory devices shown in FIG. 3, one of which is a main core and the other is a branch core.
- 9 is a time chart of asserted portions of a similarity evaluation unit, a search unit, and a comparison / update unit in the memory system shown in FIG. 8.
- FIG. 9 is a diagram for explaining the operation of the memory system shown in FIG. 8.
- FIG. 13 is a block diagram of a memory area in the mounting example illustrated in FIG. 12 assuming that there is one non-volatile memory grain and a power driver is provided for each dimension of reference data. It is a time chart which shows the operation
- FIG. 4 is a circuit diagram of 4T-2MTJ memory cells in a memory unit. 15 is a time chart for explaining the operation of the 4T-2MTJ memory cell shown in FIG.
- FIG. 13 is a block diagram of a read / write circuit in the implementation example shown in FIG. 12.
- FIG. 13 is a circuit diagram of a current integration circuit in the mounting example shown in FIG. 12. It is a circuit diagram of the time domain converter in the implementation example shown in FIG. FIG. 13 is a block diagram of a TD-WTA circuit in a search unit in the implementation example shown in FIG.
- FIG. 13 is a configuration diagram of a minimum value comparison / update circuit in the implementation example illustrated in FIG. 12, and illustrates a configuration used in a branch core. It is a block diagram of the minimum value comparison update circuit in the mounting example shown in FIG. 12, and is used by the main core. It is an image which shows the photograph of the chip
- FIG. 23A It is a schematic diagram of the image shown to FIG. 23A. 13 is a chart showing design specifications in the mounting example shown in FIG. 12. It is a figure which shows the verification result of the circuit operation
- FIG. 1 is a diagram for explaining a scene where a memory device 100 according to an embodiment of the present invention is applied.
- the search data 10 when search data 10 is input, the search data 10 is converted into feature vector data 20 of one or more dimensions.
- the converted data includes N ( ⁇ 1) -dimensional feature vector data 20, and one dimension has M ( ⁇ 1) bits.
- the memory device 100 extracts the most similar data from the stored reference data 30.
- the memory device 100 includes a memory area as will be described later.
- search data 10 feature vector data 20, and reference data 30 will be described.
- Search data 10 is also called target data, and refers to data that is input with respect to data to be searched from data stored in the memory area.
- the reference data 30 is also referred to as template data, and is data stored in the memory area and is data to be searched by the search data.
- Search data 10 and reference data 30 are subject to image data, sound data, text data (sentence data), and of any kind.
- the natural numbers M and N are set according to the type of target data.
- the feature vector data 20 extracts N ( ⁇ 1) feature quantities from a number of viewpoints, indicates the ratio of one feature quantity as a number (this number is expressed in M bits), and includes N feature quantities. This means the ratio displayed in vector.
- the number of features is called the number of dimensions.
- FIG. 2 is an explanatory diagram of the feature vector data 20.
- the search data is indicated by how much each color of RGB is included.
- the contour included in the search data 10 is along each reference contour as shown in “4-Direction Edge Map”. It is determined whether or not a part is included, and the part along each reference contour is counted by the number of pixels as shown in “Edge Distribution”, and dotted lines of 0 °, 45 °, 90 °, and ⁇ 45 °
- the distribution of the number of pixels in each part divided by is created and shown as a distribution like an eight-dimensional feature vector (“8-D Feature Vector”) as shown in “Vector Generation”.
- the feature vector data 20 is not limited to the simple one shown in FIG. 2, but may be complex feature vector data.
- the memory grain is a memory sub-array that stores one dimension (M bits) of the reference data 30.
- fine-grain power gating is performed on the memory grain, and power control (ON / OFF) is performed independently.
- M-bit data is stored as reference data for each dimension in the memory area.
- FIG. 3 is a configuration diagram of the memory device according to the embodiment of the present invention.
- the memory device 100 according to the embodiment of the present invention can also be called a non-volatile similarity search memory device, and includes a memory unit 110, a similarity evaluation unit 130, a search unit 150, and a comparison update unit 170. .
- the memory device 100 includes (R ⁇ M) rows and C columns of memory cell arrays as the memory unit 110, and stores reference data that stores (R ⁇ C) / N reference data.
- C similarity evaluation cells SEC: Similarity Evaluation Cell
- SEC Similarity Evaluation Cell
- Current integration circuit CA: Current Accumulator
- TD Time-
- TD minimum value search circuit 151 that detects the shortest value from C / N time domain voltage delay signals, and converts the shortest delay into the minimum number of clocks by a counter, and the minimum number of clocks that can be obtained
- a minimum value comparison / update circuit 171 for updating the smaller one compared with the previously calculated number of clock
- the reference data storage circuit as the memory unit 110 includes a memory grain (MG: Memory Grain) 119 for storing one-dimensional data of R ⁇ C (C ⁇ N), and each memory grain 119 stores an M-bit value. is doing.
- a power driver (PG) 118 for power gating is installed in each memory glen 119, and each power driver 118 controls power supply independently by a row decoder, a column decoder, and clock 1 (clk.1). That is, C / N pieces of reference data are stored in one row of memory glen 119 (MG), and each reference data is output in parallel to the similarity evaluation cell 133 to perform associative recognition.
- the reference data storage circuit as the memory unit 110 includes a row decoder 111, a column decoder 112, a memory area 113, and a read / write circuit 114.
- the memory area 113 includes a plurality of row lines 115, a plurality of bit lines 116, a plurality of column lines 117, a plurality of power drivers (PD: Power Driver) 118, and a plurality of memory grains (MG: Memory Grain). 119.
- the memory glen 119 is composed of a nonvolatile memory.
- a plurality of row lines 115 are connected to the row decoder 111, and a plurality of column lines 117 are connected to the column decoder 112.
- the memory area 113 is divided into a plurality of areas, and each area is designated by an arbitrary number of column lines 117 and M row lines 115 of 1 to N, and a power driver 118 and a memory glen 119 are combined for each area.
- the arbitrary number of column lines 117, the number of row lines 115, and the number of bit lines 116 are all set at the time of design and manufactured according to the settings.
- the “arbitrary number” includes a case where it is determined by a user who uses the memory device, and also includes a case where it is simply determined to be a constant value at the time of design and manufacturing.
- FIG. 3 there are one column line 117, M row lines 115, and M bit lines 116 for each region.
- the definitions of the natural numbers M and N here are the same as those in the search data 10 and the reference data 30 described above.
- a memory glen 119 configured with an M-bit non-volatile memory as one unit;
- a power driver 118 that supplies power to the memory glen 119 is provided as a set.
- the “arbitrary number” includes a case where it is determined by a user who uses the memory device. This includes cases where it is determined. It is equal to an arbitrary number of memory grains 119 for each area, and is one in FIG.
- a certain power driver 118 receives a control signal input from any number of column lines 117, a control signal input from M row lines 115, and a clock signal input. In response to the clock signal, power is supplied to the memory glen 119 paired with the power driver 118. As a result, the reference data for each dimension stored in the memory glen 119 is read out and output to the read / write circuit 114 of the column through the bit line 116.
- the memory grain 119 has R rows and C columns from MG 11 to MG RC , one or a plurality of row lines 115 through which a control signal from the row decoder 111 flows and the column decoder 112
- one or a plurality of power drivers 118 are designated by one or a plurality of column lines 117 through which a control signal flows, and when the clock signal “1” is inputted to the designated power driver 118, only while the power signals are inputted. Power is supplied from the power driver 118 to the memory glen 119 as a set.
- the clock signal “0” is input to the designated power driver 118, the supply of power to the memory glen 119 that forms a set is stopped.
- the power driver 118 supplies power to the pair of memory grains 119 when the clock signal “0” is input, and does not supply power to the pair of memory grains 119 when the clock signal “1” is input. You may do it.
- the clock signals “0” and “1” correspond to “H” and “L”.
- control signals from the M row lines 115 may be input in order for a predetermined number of 1 to M lines, or may be simultaneously applied to 1 to M lines.
- the memory device 100 shown in FIG. 3 includes a similarity evaluation unit 130 as a first circuit, and includes a search unit 150 and a comparison update unit 170 as a second circuit.
- the first circuit obtains a similarity between each read reference data for each dimension and search data for each dimension.
- the second circuit obtains a candidate having a high similarity obtained by the first circuit, and obtains a similarity for the reference data for each dimension that is most similar.
- a specific configuration of the first circuit and the second circuit will be described by taking the case illustrated in FIG. 3 as an example.
- the similarity evaluation unit 130 includes an input search data storage circuit 131, a digital / analog converter (DAC) 132, a similarity evaluation cell (SEC) 133, a changeover switch 134, and a current integration.
- a circuit (CA: Current Accumulator) 135 and a time domain converter (TDC: Time Domain Converter) 136 are provided.
- Digital / analog converter 132 Similarity evaluation cell 133, changeover switch 134, current integration circuit 135, and time domain converter 136 are provided as many as the number of column lines. For each column, digital data is input as a voltage value from the read / write circuit 114 to the digital / analog converter 132, and the digital data is converted into analog data in the digital / analog converter 132 and output to the similarity evaluation cell 133.
- the similarity evaluation cell 133 calculates the similarity between the two input data.
- the first data is data output from the input search data storage circuit 131 after the search data is decomposed for each dimension, and is a voltage value of the search data for each number of dimensions.
- the second data is the voltage value of the reference data input from the read / write circuit 114 via the digital / analog converter 132.
- the similarity evaluation cell 133 calculates and outputs the similarity between the first data and the second data as a current value.
- the current value is zero, the first data and the second data are evaluated as the same, and when the current value is large, the first data and the second data are evaluated as different. Become. That is, when the reference data is similar to the search data, the output current value is small.
- a changeover switch 134 is provided for each column.
- the changeover switch 134 is configured such that the first switch 134a and the second switch 134b are interlocked.
- the first switch 134 a is provided between the j-th column-th similarity evaluation cell 133 and the (j + 1) -th column similarity evaluation cell 133.
- j is a natural number between 1 and the maximum column C.
- the second switch 134b is provided between the similarity evaluation cell 133 and the current integration circuit 135 in each column.
- the first switch 134a and the second switch 134b are both controlled by an external dimension control signal (DCS: Dimension Control Signal), and the line to which the external dimension control signal is input is the first switch A NOT circuit 134c is included between any of the wirings connected to either the control electrode 134a or the control electrode of the second switch 134b.
- DCS Dimension Control Signal
- the dimension control signal controls the changeover switch 134 corresponding to the dimension of the reference data stored in the memory area 113.
- N-dimensional reference data is stored divided into dimensions from memory glen MR i j to memory glen MR i j + n ⁇ 1 . It is evaluated whether the N-dimensional reference data is similar to the search data. In order to achieve this, it is necessary to add the respective similarities from the j- th column similarity evaluation cell SEC j to the (j + n ⁇ 1) -th column similarity evaluation cell SEC j + n ⁇ 1 .
- the first column between the j-th column evaluation score SEC j and the (j + 1) -th similarity evaluation cell SEC j + 1 A switch 134a is provided, and a second switch 134b is provided between the j-th column similarity evaluation cell SEC j and the j-th column current integration circuit CA j .
- the first switch 134a makes N similarity evaluation cells 133 connected in series by an external dimension control signal.
- a voltage of search data for each dimension is applied to the input terminal of the similarity evaluation cell 133, the current value output from the similarity evaluation cell 133 is input to the current integration circuit 135, and is temporarily stored in the current integration circuit 135.
- the voltage of the reference data for each dimension is applied to the input terminal of the similarity evaluation cell 133, the current value output from the similarity evaluation cell 133 is input to the current integration circuit 135, and the stored current value and Calculate the difference between In this way, by the cooperation between the similarity evaluation cell 133 and the current integration circuit 135, whether or not the reference data distributed and stored in a plurality of columns is similar to the search data can be obtained from the current value.
- the time domain converter 136 converts the current value output from the current integration circuit 135 into a delay time. Therefore, among the similarity evaluation cells 133 connected in series by the changeover switch 134, the current value is input to the time domain converter 136 from the rightmost similarity evaluation cell 133 having the largest column number, so that a plurality of columns are obtained. Whether or not the reference data stored in a distributed manner is similar to the search data can be obtained as a time delay value. The higher the similarity, the smaller the time delay value. Any of the converted delay time signals is input to the search unit 150.
- the search unit 150 includes a TD minimum value search circuit 151.
- the search unit 150 has the shortest time delay, that is, the minimum value of the time domain. Explore.
- the searched value with the shortest delay time is counted by a W-bit counter and output to the comparison / update unit 170.
- the comparison / update unit 170 includes a minimum value comparison / update circuit 171, and compares the count value input from the search unit 150 with the count value stored by itself every time reading of the memory unit 110 is repeated. Remember the lower one. Thereby, when the reading of the memory unit 110 is repeated, a low count value is obtained, and as a result, the count value of the reference data most similar to the search data is obtained. By making this count value correspond to the address of the memory unit 110, the address of the most similar reference data in the memory unit 110 is obtained.
- the input search data storage circuit 131 divides the input search data for each dimension, converts it into an analog voltage by the digital / analog converter 132, and inputs it to the similarity evaluation cell 133.
- one-dimensional reference data (M bits) output from each of the C memory grains 119 via the read / write circuit 114 is similarly converted into an analog voltage by the digital / analog conversion circuit 132 and searched.
- the data are input to the C similarity evaluation cells 133 in parallel. If the digital-analog converter 132 is serial, it takes M clock time to convert M-bit data.
- the similarity evaluation cell 133 outputs the similarity between the voltage of the search data (one-dimensional) and the voltage of the reference data (one-dimensional) as a current for each dimension.
- the external dimension control signal controls the first switch 134a between the similarity evaluation cells 133 to be in the ON state according to the number of dimensions of the reference data and the search data, and the first switch 134a.
- the currents of the C similarity evaluation cells 133 are integrated by the C / N similarity current integration circuits 135 to correspond to the corresponding time domain converter 136. Output to. The smaller the current, the higher the similarity.
- the second switch 134b is turned off, and the unnecessary similarity current integration circuit 135 and the time domain converter 136 are invalidated so as not to be connected.
- the time domain converter 136 converts the integrated C / N similarity currents into time domain voltage delay signals and outputs them in parallel to the TD minimum value search circuit 151.
- the TD minimum value search circuit 151 has the highest similarity from the time domain voltage delay signals corresponding to C / N reference data for one row. That is, a signal having a short delay is obtained, and the delay is converted into a digital value which is the number of clocks being delayed by a W-bit counter, and is output to the minimum value comparison / update circuit 171.
- the W-bit counter is converted to a time domain voltage delay signal with a maximum delay of 2 W clocks, and a similarity current conversion resolution proportional to this maximum delay is obtained. That is, if W is large, a smaller similarity current difference can be obtained.
- the minimum value comparison / update circuit 171 inputs the digital delay value of the Winner (local Winner) obtained by the main core 210 or the branch core 220.
- the digital delay value of the Winner (global Winner) is compared with the values of all steps stored in the circuit, and the smaller one is rewritten and updated.
- the most similar data from all the reference data in the main core 210 and the branch core 220 is finally stored in the minimum value comparison / update circuit 171 and becomes an associative process result.
- the main core 210 and the branch core 220 will be described in detail with reference to FIG.
- 4 to 6 are diagrams for comparing the memory unit in the memory device according to the embodiment of the present invention, its operation, and power consumption with those of the prior art.
- FIG. 4 is a diagram schematically showing the memory unit 110, its operation, and power consumption in the memory device 100 according to the embodiment of the present invention.
- the upper part of FIG. 4 schematically shows the memory unit 110, and the middle part of FIG. 4 shows the data read from which column area when Data # 1, Data # 2, and Data # 3 are read in order for each column.
- a power driver 118 is provided for each dimension of the reference data (for each memory grain), and not only fine-grained power gating is used, but also a plurality of arbitrary column lines 117 can be activated simultaneously in 1 Data. Power is flexibly supplied only to the necessary memory glen 119 corresponding to the required data dimension.
- a clock signal for operation calculation is input to the power driver 118, and power is supplied from the power driver 118 to the corresponding memory glen 119 in synchronization with the clock signal.
- This read control consumes power only when the data required for computation is in computation, and does not consume power when no clock signal for computation is entered. Furthermore, power is consumed only when the clock pulse is “0” during reading. When the clock pulse is “1” (the first half of the clock), pre-charge, that is, the bit line 116 is precharged to 0 V, it is not necessary to supply power, and the power consumption during the arithmetic operation is halved.
- the data # 1 (Data # 1) uses a clock when data of all dimensions of the reference data is required, so that the power consumption is halved during reading.
- the reason is as follows. With the introduction of clock control, when the first half of one clock, that is, when the clock signal is “H”, the memory glen 119 is not supplied with power but is precharged. When the second half of one clock, that is, when the clock signal is “L”, power is supplied to the designated memory glen and data is read out. This pre-charge prevents data from being disturbed when switching the power supply at high speed, so that the data is not rewritten when the reference data is read.
- the memory unit 110 is configured by a non-volatile memory based on power gating capable of cycle-based granularity control. With this configuration, power consumption during standby is reduced to zero, power is supplied to necessary portions of the memory unit 110, and power is not supplied to unnecessary portions, so that power consumption can be reduced.
- Non-volatile memory has been developed with emphasis on various performances such as small area, high speed, high stability, and low write current, but here, it realizes power gating capable of cycle-based fine grain control Therefore, a high-speed and stable nonvolatile memory cell is necessary.
- power gating capable of high-speed search and cycle-based granularity control can be realized for the following reason.
- a differential pair type STT-MRAM memory cell for example, a 4T-2MTJ cell
- the 4T-2MTJ cell is characterized in that it can read data from the MTJ faster and does not cause disturb malfunction due to high-speed power ON / OFF.
- pre-charge is performed to 0 V so as not to accumulate a disturbing charge on the bit line.
- the changeover switch 134 of the similarity evaluation unit 130 reconfigures the system according to the number of data dimensions, but the non-volatile memory device based on power gating capable of cycle-based granularity control is the minimum necessary depending on the reconfiguration. Since power is supplied to the memory, the power consumption during operation can be optimized.
- FIG. 5 is a diagram schematically showing the memory unit 510, its operation and power consumption in the conventional approach.
- the upper part of FIG. 5 schematically shows the memory unit 510, and the middle part of FIG. 5 reads data from which column area when Data # 1, Data # 2, and Data # 3 are sequentially read for each column.
- the horizontal axis indicates time
- the vertical axis indicates power consumption
- the depth axis indicates the position of memogren.
- the memory area of the memory unit 510 is composed of a volatile SRAM. Therefore, it is necessary to always supply power to all the memory grains 519 when writing reference data, reading data # 1, reading data # 2, and reading data # 3. .
- Reference numeral 511 is a row decoder
- reference numeral 512 is a column decoder.
- FIG. 6 is a diagram schematically showing a memory unit composed of a conventional STT-MRAM, its operation and power consumption.
- the upper part of FIG. 6 schematically shows the memory unit 610, and the middle part of FIG. 6 reads data from which column area when Data # 1, Data # 2, and Data # 3 are sequentially read for each column.
- a power driver 618 is provided for each reference data of 1 Data, that is, for every N memory grains 619, using a fine-grain power gating technique, and independent power can be supplied. Therefore, when the reference data is written, when the data # 1 is read, when the data # 2 is read, and when the data # 3 is read, the access reference data specified by the addresses of the column decoder and the row decoder It is possible to supply power according to the location of the memory, and there is no need to supply power to an unnecessary memory location. However, since power gating is performed for each Data, all memory grains 619 are simultaneously supplied with power in order to read data of all dimensions in one Data.
- Reference numeral 611 is a row decoder
- reference numeral 612 is a column decoder.
- the similarity evaluation unit 130 includes a current mode similarity evaluation cell 133 for each column, and includes a changeover switch 134 that connects adjacent similarity evaluation cells 133 for each column, and a current mode similarity evaluation cell 133. They can be reconstructed by turning ON / OFF the first switch 134a. ON / OFF of the changeover switch 134 flexibly corresponds to the number of dimensions of the reference data and search data, and provides a very compact circuit for searching for reference data similar to the search data. In addition, an associative memory having high density and adaptability is provided.
- FIG. 7A is a diagram illustrating the reconfiguration of the memory device when the reference data is one-dimensional
- FIG. 7B is a diagram illustrating the reconfiguration of the memory device when the reference data is two-dimensional
- FIG. 7 is a diagram illustrating a reconfiguration of the memory device when the reference data is three-dimensional
- FIG. 7D is a diagram illustrating a reconfiguration of the memory device when the reference data is four-dimensional.
- FIG. 8 is a configuration diagram of a memory system 200 including a plurality of memory devices 100 shown in FIG. 3, one of which is a main core 210 and the other of which is a branch core 220. Both the main core 210 and the branch core 220 have the same configuration.
- the main core 210 invalidates the output buffer (Output Buffer) 211, and the branch core 220 invalidates the minimum value comparison / update circuit 222. In FIG. 8, the invalidated elements are indicated by dotted lines.
- the main core 210 Only the main core 210 enables the minimum value comparison / update circuit 212, and the result of the local Winner (W bit) of the branch core 220 input to the minimum value comparison / update circuit 212 in the pipeline every clock (clock1), Compare the result of your association with the previous step and rewrite it to the smaller one. Thereby, the reference data most similar to the search data is detected from the entire multi-core system.
- the number of chips that can be connected to the multi-core system is determined by the W of the local Winner and the number of bits M of the one-dimensional data.
- FIG. 9 is a time chart of asserted portions of the similarity evaluation unit, the search unit, and the comparison update unit in the memory system shown in FIG.
- FIG. 10 is a diagram for explaining the operation of the memory system 200 shown in FIG.
- One (1 Data) reference data and search data are composed of N ( ⁇ 1) dimension data, and each dimension data is represented by an M-bit digital value.
- the reference data storage circuit as the memory unit 110 includes a memory cell array of (R ⁇ M) rows and C columns, and has a memory glen 119 for storing one-dimensional data of R ⁇ C (C ⁇ N). Each memory grain 119 stores an M-bit value.
- the processing time is more dominant.
- the D / A conversion requires 8-cycle time
- the time domain minimum value search requires 100-200-cycle time. It requires a somewhat long ramp signal in order to achieve a resolution that distinguishes between early and late time domain signals. This is because similarity currents with small differences cannot be distinguished from each other unless the time from 0V to 1V is sufficiently long.
- the similarity is converted into a time domain signal delay in the case of the digital value in the case of the associative memory of the digital approach, the current value in the case of the associative memory of the analog approach and the embodiment of the present invention.
- the delay difference of the time domain signal converted from a small similarity is also small, and it is difficult to distinguish unless measured in a sufficiently long time.
- a pipeline operation based on a multi-core is adopted in order to improve the time-domain minimum value search speed.
- the pipeline absorbs the local long time-domain minimum value search processing time of each core and completes in one clock.
- FIG. 11 is a block configuration diagram according to an implementation example. Assuming its application to image recognition, a low-power, high-density and adaptable nonvolatile associative memory device is assumed.
- a memory device 310 illustrated in FIG. 11 includes a memory unit 310, a similarity evaluation unit 330, a search unit 350, a comparison update unit 370, and a timing controller 390, as in FIG.
- This is a prototype chip that assumes 8-dimensional, 16-dimensional, 32-dimensional, 64-dimensional, and 128-dimensional image feature data. Basically, any number of dimensions that is an integer multiple of 8 can be handled.
- Each parameter described with reference to FIG. 3 is as follows.
- N 8 dimensions, 16 dimensions, 32 dimensions, 64 dimensions, and 128 dimensions, and can be applied to dimensions that are integer multiples of 8.
- M 8 bits
- C 128 columns
- R 16 rows
- W 8 bits (the number of bits of the counter of the minimum value comparison / update circuit)
- both the PD of the memory Glen and the integrated switch of the similarity current are designed every 8 dimensions.
- FIG. 12 is a block diagram of each memory area in the implementation example.
- FIG. 12 shows one area of the memory area described with reference to FIG.
- One of the column line (CD Line), the clock signal input line, and the row line (RD Line) is input to the logic operator 318b of the power line gate 318a, and the clock signal is inverted to perform logic. It is input to the arithmetic circuit 318b.
- the output signal from the logical operator 318b is input to the inverter circuit 318c connected to the power supply line.
- the output from the inverter circuit 318c is input to the 4T-2MTJ cell 319a as the power line PL.
- BL and BLB are a pair of bit lines.
- FIG. 13A is a diagram assuming a case in which one non-volatile memory grain 319 is provided in the block diagram of FIG. 12 and a power driver 318 is provided for each dimension of reference data.
- FIG. 13B is a time chart showing an operation of continuously reading data from two 4T-2MTJ memory cells (Cell # 1 and Cell # 2) for the unit shown in FIG. 13A. As described above, in the read operation, when the clock signal is “0”, CD Line is “1”, and the corresponding RD Line is also “1”, the power line PL is “1”. And reading processing is in progress.
- FIG. 13C is a modification of the circuit shown in FIG. 13A, and the power line PL may be output to each of the M 4T-2MTJ cells 319a in parallel from one power line gate.
- FIG. 14 is a circuit diagram of the 4T-2MTJ memory cell 320 in the memory unit 310.
- the 4T-2MTJ memory cell 320 is a differential pair type STT-MRAM cell, and includes four N-type MOSFETs 321 to 324 and two MTJs 325 and 326.
- the MTJ 325, 326 includes a pinned magnetic layer, an insulating layer, and a free magnetic layer. Each pinned magnetic layer of the MTJ 325, 326 is connected to the power line PL, and the free magnetic layer of the MTJ 325, 326 is parallel to the pinned magnetic layer (Parallel). ) Or the anti-parallel state is stored to store the digital value.
- FIG. 15 is a time chart for explaining the operation of the 4T-2MTJ memory cell shown in FIG.
- the word line WL is set to a high voltage, for example, and the bit line (BL / BLB) and the sense node (SN: Sense Node / SNB) are connected to increase the BLB / BL.
- the power line PL is controlled by the clock signal, so that PL is set to 0V in the first half of the clock, and the right / left MTJs 325, 326 are set to Anti.
- -Write to Parallel and in the second half of the clock, set PL to 1V and write the left / right MTJ 325, 326 to Parallel.
- the word line WL is set to 1V
- the bit line (BL / BLB) and the sense node (SN: Sense Node / SNB) are connected, and the PL is controlled by the clock signal
- PL is set to 0V
- BLB / BL and SN / SNB are all precharged to 0V.
- PL is set to 1V and the voltage difference of SN / SNB is read through BLB / BL.
- FIG. 16 is a block diagram of the read / write circuit 114 shown in FIG.
- the read / write circuit 114 is composed of M read-write interface (WRI) circuits, and accesses 4T-2MTJ cells 320 in M columns through bit lines (BL / BLB).
- This circuit reads / writes M-bit data in one clock.
- the one WRI circuit 327 includes a write driver circuit 327A, a precharge circuit 327B, a sense amplifier circuit 327C, and a digital register circuit 327D.
- the write driver circuit 327A When writing data, the write driver circuit 327A is used.
- the precharge circuit 327B, the sense amplifier circuit 327C, and the digital register circuit 327D are used to process 1-bit data in one clock. To do.
- FIG. 17 is a circuit diagram of the similarity evaluation cell 133 shown in FIG.
- the similarity evaluation cell 400 includes nine N-type MOSFETs (T1 to T9) 401 to 409 and two capacitors (C1, C2) 410 and 411, and is divided into two steps from ports V1 and V2 on both sides.
- An analog voltage signal is input.
- Step 1 is on the left side of the upper stage
- Step 2 is on the right side of the upper stage.
- the voltage difference between Step 1 and Step 2 is obtained and output to the current integration circuit as a similarity current (IBSSE) that satisfies the similarity evaluation function.
- IBSSE similarity current
- step 1 SW is set to “H”, and a target voltage as search data is applied to the input ports V1 and V2 to obtain a MAX similarity current.
- step 2 SW is set to “L” to hold the gate charges of the transistors T1, T2, T3, and T4, a template voltage serving as reference data is applied to the input port, A similarity current that decreases according to the difference can be obtained.
- FIG. 18 is a circuit diagram of the current integration circuit 135 shown in FIG.
- the current integration circuit 420 includes five P-type MOSFETs (T10 to T14) 421 to 425, two N-type MOSFETs (T15 to T16) 426 and 427, and two switches (S1, S2) 428 and 429. And one capacitor 430.
- T10 and T11 form a current mirror
- T10 and T12 form a current mirror
- T13 and T14 form a current mirror
- T15 and T16 form a current mirror.
- the circuit shown in FIG. 18 includes one current adder 431, one current subtractor 432, and one current memory 433, and outputs a similarity current that is output in two steps from K similarity evaluation cells. Add (IBSSE) and output the current difference.
- the value of K can be flexibly designed and adjusted by controlling the number of circuits of similarity evaluation cells connected to the current integration circuit 420.
- the current integration circuit 420 adds the similarity currents corresponding to the search data of step 1 output from the K similarity evaluation cells (SEC), and sets the switch S1 (S2) to ON (OFF).
- T 10 and T 11 are used to temporarily store the obtained current result I Tar in the current memory 433.
- the similarity current (I Tem ) output from the K similarity evaluation cells (SEC) and corresponding to the reference data in step 2 is added, and the switch S1 (S2) is set to OFF (ON).
- the obtained current result I Tem is copied by a current mirror composed of T10 and T12, the difference between the saved I Tar is calculated, and the time is obtained as the final similarity current (I SCORE ) between the search data and the reference data.
- FIG. 19 is a circuit diagram of the time domain converter 151 shown in FIG.
- the time domain converter 440 includes one CMOS switch 441, two inverters 442 and 443, one P-type MOSFET 444, and two N-type MOSFETs 445 and 446, and outputs from a current integration circuit (CA).
- the similarity current (I SCORE ) is converted into a Time-Domain voltage delay signal.
- the time domain converter 440 initializes the output to be GND with the Reset signal. After that, the time domain converter 440 receives I SCORE at the same time as the voltage of the ramp (RAMP) signal, and the output rises when the voltage of the switching node decreases until it exceeds the threshold of the output inverter, and corresponds to I SCORE A TD voltage delay signal having a delay is generated.
- RAMP voltage of the ramp
- FIG. 20 is a block diagram of a TD-WTA (Time-Domain-Winner-Take-All) circuit 450 in the search unit 350.
- C is the number of memory grain columns
- N is the number of data dimensions
- C / N is the number of reference data for one row of memory.
- the TD-WTA circuit 450 is a minimum value search circuit having a ⁇ (C / N) layer composed of (CN) / N two-input TD comparison circuits (2-Input Time-Domain Comparator) 451.
- the signal with the shortest delay (fast rise) from the C / N TD voltage delay signals corresponding to the C / N reference data input from the time domain converter in parallel is used as the local winner, together with the winner address.
- the TD-WTA circuit 450 first puts C / N TD voltage delay signals into a two-input TD comparison circuit 451, compares two by two, and passes a signal with a short delay to the next layer, so that several stages are obtained.
- the TD voltage delay signal (local winner) with the shortest delay is repeatedly searched.
- Each 2-input TD comparator 451 attaches a flag to the two input TD delay signals, saves it in the FF circuit 452, encodes the flag, and determines the address of the reference data corresponding to the winner.
- the TD-WTA circuit 450 outputs the local winner and its winner address together to the minimum value comparison / update circuit.
- FIG. 21 and 22 are configuration diagrams of the minimum value comparison / update circuit 460.
- FIG. 21 is used in the branch core, and FIG. 22 is used in the main core. The portion indicated by the dotted line is invalidated.
- the minimum value comparison / update circuit 460 includes one W-bit digital counter 461, one W-bit selector 462, one W-bit digital adder 463, a global winner and a digital register 464 that stores its address.
- the local winner inputted in series from the TD-WTA circuit 450 is compared with the one obtained in the previous step, and the smaller one is stored to obtain the smallest global winner.
- the number (local minimum) is calculated. This conversion begins at the point when the digital counter inputs the RAMP voltage to the time domain converter and is completed at the same time as the TD-WTA circuit 450 calculates the local winner.
- the branch core sends the obtained local minimum value to the main core.
- the small global winner (minimum value) is always updated, and the final global minimum value and the corresponding reference data ID are stored as a result of associative recognition.
- each branch core from the reference data storage circuit, which is the memory area, to the data adaptive similarity evaluation circuit and the 2-layer minimum value search circuit, all are executed in a pipeline with the timing shifted by 1 clock. To do.
- associative recognition for the reference data of one row (C / N) of the core can be completed within one clock.
- 8 data / clock Throughput is obtained.
- the system can be easily expanded using the same core design.
- FIG. 23A shows an image of a photograph in which a chip is manufactured according to the design shown in FIG. 11,
- FIG. 23B schematically shows the image shown in FIG. 23A, and
- FIG. 23C shows a design specification.
- FIG. 24 is a diagram illustrating a verification result of the circuit operation of the similarity evaluation cell.
- the horizontal axis is ⁇ V, which is V tem ⁇ V Tar indicated by CA in FIG.
- the vertical axis represents the currents I peak and I tem . As shown in this figure, it can be seen that the bell-shaped waveform is the same regardless of the reference voltage Vref.
- FIG. 26 is a diagram showing a waveform for verifying the core operation in the 16-dimensional data configuration, and is a verification result of Texture recognition.
- the horizontal axis is time, and the vertical axis is a voltage of 0V to 1V.
- the similarity current is converted into a voltage TD delay signal by a ramp signal (Reference RAMP Signal), and the voltage TD delay signal of one row of reference data is A TD delay signal (Updated TD Similarity Score) having a high similarity is output.
- the delay of the output TD delay signal (Updated TD Similarity Score) is converted into the number of clocks, obtained as a digital difference (Similarity Score), updated to the one with a small difference, and the final Texture We succeeded in associative recognition.
- FIG. 27 is a diagram showing a result of comparison of this implementation example with the conventional analog approach and digital approach regarding power consumption. From the figure, it can be seen that in this implementation example, the power consumption is greatly reduced.
- FIG. 28 is a diagram showing a result of comparison of the circuit area with the conventional analog approach and digital approach and this mounting example. From the figure, it can be seen that the circuit area can be greatly reduced.
- the present invention devised the structure of the memory unit for reducing power consumption, and specific circuit configurations of the similarity evaluation unit, the search unit, and the comparison update unit As long as the contents shown in the embodiment of the present invention can be realized, what is shown in FIG. 11 and subsequent drawings is a preferable example. Needless to say, it may be one used in a conventional associative memory, and in that case, it is necessary to modify appropriately.
- the vertical lines in FIG. 3 are column lines and the horizontal lines are row lines.
- either one of the lines extending in one direction or the other extending line is a column line, and the other is defined as a row line.
- Non-volatile memory is non-volatile memory such as magnetoresistive memory (MRAM: Magnetoresistive Random Access Memory), resistance change memory (ReRAM: Resistive Random Access Memory), ferroelectric memory (FeRAM: Ferroelectric Random Access Memory), flash memory, etc. It may be configured.
- MRAM Magnetoresistive Random Access Memory
- ReRAM Resistive Random Access Memory
- FeRAM Ferroelectric Random Access Memory
- flash memory etc. It may be configured.
- Magnetoresistive memory is a non-volatile memory that uses spintronics and has the GMR effect (Giant® Magneto® Resistive effect) as its operating principle. For example, it is selected from a domain wall motion type MRAM, a spin Hall torque type MRAM, a spin injection type MRAM (STT-RMAM), and the like.
- the domain wall motion type MRAM is a three-terminal MRAM that reverses magnetization by moving back and forth the domain wall in the minute magnetic body.
- the spin Hall torque MRAM is a three-terminal MRAM that reverses magnetization by a spin Hall torque from a nonmagnetic material.
- the STT-RMAM is a two-terminal MRAM that rotates a magnetization by passing an electric current through a magnetic material and interacting with an electron spin. In any case, high density, high speed and long life are expected.
- the resistance change type memory is a non-volatile memory that stores data using a change in electrical resistance in a metal oxide due to application of a voltage. High density and high speed are expected.
- a ferroelectric memory is a nonvolatile memory that stores data using positive and negative remanent polarization due to the hysteresis effect of a ferroelectric. High speed and long life can be expected.
- the flash memory is a nonvolatile memory that stores data by changing the MOS threshold value by confining electric charges in the MOS floating gate under voltage control. Higher density can be expected.
- the power gate can reduce the power consumption when reading data from the memory grain, but the power can be flexibly optimized. Electricity effect can be obtained.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Mram Or Spin Memory Techniques (AREA)
- Memory System (AREA)
Abstract
消費電力の最適化を図って参照データを読み出すことができるメモリ装置を提供する。メモリ装置100は、N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域113を備え、メモリ領域113において1以上N以下の任意数のコラムライン117とM本のローライン115とにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する任意数のメモリグレン119と、任意数のメモリグレンに電力を供給するパワードライバー118とが組として備えられ、パワードライバー118が、任意数のコラムライン117からの制御信号の入力と、M本のローライン115からの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバー118と組となるメモリグレン119に電力を供給することにより、当該メモリグレン119に格納されている次元毎の参照データを読み出す。
Description
本発明は、類似したデータを検索することができる、メモリ装置に関する。
一般的なメモリ装置は、アドレス毎にデータが記憶されており、アドレスを指定することにより、その指定アドレスに記憶されているデータを読み出す。一方、連想メモリ装置は、入力されたデータに類似しているデータを検索し、そのデータを読み出す。
典型的な連想メモリとして、参照データベースから検索データと完全一致のデータを検索するCAM(Content Addressable Memory)がある(例えば特許文献1乃至3、非特許文献1乃至3)。完全並列で動作するCAMは、メモリセルと比較回路がメモリセル毎に設けられ、比較回路がメモリセル内の参照データと入力データとを比較する。CAMは、指定された宛先IPアドレスやMACアドレスに一致する参照データを高速に検索する。しかし、CAMは、ネットワークルータでのIPアドレスを検索することには有用であるが、類似データを検索するには不向きである。
類似データを検索する技術には、Nearest Neighbor Search(NNS)機能を持つ連想メモリがあり、連想メモリには、デジタルアプローチ(例えば特許文献4及び5、非特許文献4乃至7)とアナログアプローチ(例えば非特許文献8)がある。何れのアプローチにおいても、参照データを保存する領域は、揮発性のSRAMで構成されている。
一方、不揮発性メモリとして、本発明者らのグループは、スピン注入磁化反転型磁気抵抗変化型RAM(Spin Tranfer Torque - Magnetroresistance Randam Access memory:STT-MRAM)の技術を開発してきた(例えば非特許文献9、10)。
B.-D. Yang, JSSC, Vol 50, No. 10, pp. 2441-2450, Oct. 2015
N. Onizawa, S. Matsunaga, V. C. Gaudet, W. J. Gross and T. Hanyu, IEEE Trans. Circuits and Systems, Vol. 61, No. 3, pp. 865-876, Mar. 2014
Z. Ullah, M. K. Jaiswal and R. C. C. Cheung, IEEE Trans. VLSI Systems, Vol. 23, No. 2, pp. 402-406, Feb. 2015
S. Sasaki, M. Yasuda and H. J. Mattausch, ESSCIRC, pp. 185-188, 2012
T. Akazawa, S. Sasaki and H. J. Mattausch, ESSCIRC, pp. 267-270, 2013
F. An, T. Akazawa, S. Yamazaki, L. Chen, and and H. J. Mattausch, CICC, pp. 1-4, 2014
F. An, K. Mihara, S. Yamasaki, L. Chen and H. J. Mattausch, SSDM, pp. 144-145, 2015
T. B. Trong and T. Shibata, ULIS, pp. 213-216, 2009
Takashi Ohsawa, Hiroki Koike, Sadahiko Miura, Hiroaki Honjo, Keizo Kinoshita, Shoji Ikeda, Takahiro Hanyu, Hideo Ohno, Tetsuo Endoh, A 1 Mb Nonvolatile Embedded Memory Using 4T2MTJ Cell With 32b Fine-Grained Power Gating Scheme, IEEE JOURNAL OF SOLID-STATE CIRCUITS, VOL.48, NO.6, JUNE 2013, pp.1511-1520
T. Ohsawa, S. Miura, K. Kinoshita, H. Honjo, S. Ikeda, T. Hanyu, H. Ohno, and T. Endoh, A 1.5nsec/2.1nsec Random Read/Write Cycle 1MbSTT-RAM Using 662MTJ Cell with Background Write for Nonvolatile e-Memories, 2013 Symposium on VLSI Circuits Digest of Technical Papers C111
NNS連想メモリのうち、デジタルアプローチ及びアナログアプローチの何れも、揮発性のメモリで構成されているため、何れの領域からのデータの読み出しであっても、全てのメモリグレンに電力を供給する必要がある。よって、省電力化することができない。
そこで、本発明では、検索データに類似するデータを探索する際に、消費電力の最適化を図って参照データを読み出すことができる、メモリ装置を提供することを目的とする。
前記目的を達成するために、本発明は次のコンセプトを有する。
[1] N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、
前記メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。
[2] 前記M本のローラインからの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされる、前記[1]に記載のメモリ装置。
[3] 前記M本のローラインからの制御信号の入力は、同時になされる、前記[1]に記載のメモリ装置。
[4] 前記パワードライバーは、クロック信号の“1”又は“0”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“0”又は“1”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、前記[1]乃至[3]の何れかに記載のメモリ装置。
[5] 前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第1の回路と、
前記第1の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第2の回路と、を備える、請求項1乃至4の何れかに記載のメモリ装置。
[6] 前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、前記[1]乃至[5]の何れかに記載のメモリ装置。
[1] N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、
前記メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。
[2] 前記M本のローラインからの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされる、前記[1]に記載のメモリ装置。
[3] 前記M本のローラインからの制御信号の入力は、同時になされる、前記[1]に記載のメモリ装置。
[4] 前記パワードライバーは、クロック信号の“1”又は“0”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“0”又は“1”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、前記[1]乃至[3]の何れかに記載のメモリ装置。
[5] 前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第1の回路と、
前記第1の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第2の回路と、を備える、請求項1乃至4の何れかに記載のメモリ装置。
[6] 前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、前記[1]乃至[5]の何れかに記載のメモリ装置。
本発明によれば、第1に、N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、第2に、メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する任意数のメモリグレンと、任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、第3に、パワードライバーが、任意数のコラムラインからの制御信号の入力と、M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバーと組となるメモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す。よって、各メモリグレンは、コラムライン及びローラインによる読み出し場所の指定とクロック信号による時間的な指定との双方により、電力が供給されることになり、省電力化が図られる。
以下、図面を参照しながら本発明を実施するための形態について詳細に説明する。
図1は、本発明の実施形態に係るメモリ装置100が適用される場面を説明するための図である。図1に示すように、検索データ10が入力されると、検索データ10が1又は複数の次元の特徴ベクトルデータ20に変換される。変換されたデータは、N(≧1)次元の特徴ベクトルデータ20を備え、1次元がM(≧1)ビットを有する。メモリ装置100は、格納されている参照データ30の中から最も類似しているデータを抽出する。メモリ装置100は、後述するようなメモリ領域を備えている。
ここで、検索データ10、特徴ベクトルデータ20及び参照データ30について説明する。
検索データ10は、ターゲットデータとも呼ばれ、メモリ領域に記憶されているデータから検索したいデータに関し、入力されるデータをいう。
参照データ30は、テンプレートデータとも呼ばれ、メモリ領域に記憶されているデータであって、検索データにより検索対象となるデータをいう。
検索データ10及び参照データ30は、画像データ、サウンドデータ、テキストデータ(文章データ)を対象とし、種類は問わない。自然数M、Nは対象とするデータの種類に応じて設定される。
特徴ベクトルデータ20は、多数の観点からN(≧1)本の特徴量を抽出し、一つの特徴量の割合を数(この数をMビットで表す。)で示し、N本の特徴量の割合をベクトル表示したものをいう。特徴量の数を次元数と呼ぶ。
図2は、特徴ベクトルデータ20についての説明図である。
図2の上段に示すように、例えば、色認識の三次元(RGB)ベクトルデータであれば、検索データがRGBの各色がどの程度含まれているかによって示される。1次元の特徴をM(例えばM=8)ビットで示す。
図2の上段に示すように、例えば、色認識の三次元(RGB)ベクトルデータであれば、検索データがRGBの各色がどの程度含まれているかによって示される。1次元の特徴をM(例えばM=8)ビットで示す。
図2の下段に示すように、例えば、形状認識の8次元ベクトルデータであれば、検索データ10に含まれている輪郭について、「4-Direction Edge Map」に示すような各基準輪郭に沿っている部分が含まれているか否かを判定し、「Edge Distribution」に示すように各基準輪郭に沿っている部分をピクセル数でカウントし、0°、45°、90°、-45°の点線で区分けされる各部におけるピクセル数の分布を作成し、「Vector Generation」に示すように8次元特徴ベクトル(「8-D Feature Vector」)のような分布として示す。
特徴ベクトルデータ20は、図2に示すような単純なものに限らず、複雑な特徴ベクトルデータでもよく、画像認識の分野において非常に有名な128次元のscale-invariantfeature transform(SIFT)やBag-of-feature(Bof)のベクトルデータであってもよい。
メモリグレン(memory grain)とは、参照データ30の1次元分(Mビット)を保存するメモリ・サブアレイである。本発明の実施形態においては、メモリグレンに対して細粒度(fine-grain)パワーゲーティングを行い、独立に電源制御(ON/OFF)をする。
本発明の実施形態では、メモリ領域において、次元数毎にMビットのデータが参照データとして記憶されるとして、説明する。
図3は本発明の実施形態に係るメモリ装置の構成図である。本発明の実施形態に係るメモリ装置100は、不揮発性の類似検索用メモリ装置とも呼ぶことができ、メモリ部110と、類似評価部130と、探索部150と、比較更新部170と、を備える。
本発明の実施形態に係るメモリ装置100は、メモリ部110としての(R×M)行C列のメモリセルアレイから構成されて(R×C)/N個の参照データを保存している参照データ保存回路と、C/N個の参照データと検索データの類似度を並列に計算し電流として出力するC個の類似度評価セル(SEC:Similarity Evaluation Cell)133と、参照データの次元数に応じてC個の類似度電流を統合する電流統合回路(CA:Current Accumulator)135と、統合した類似度電流をC/N個のTime-Domain電圧遅延信号に変換するタイムドメインコンバーター(TD:Time-Domain Converter)136と、C/N個のタイムドメイン電圧遅延信号から最短値を検出しその最短遅延をカウンタで最小クロック数に変換するTD最小値探索回路151と、得られる最小クロック数を保存している以前計算したクロック数と比較し小さい方をアップデートする最小値比較更新回路171と、から構成される。
メモリ部110としての参照データ保存回路は、R×C(C≧N)の1次元データを保存するメモリグレン(MG: Memory Grain)119を備え、各メモリグレン119にはMビットの値を保存している。各メモリグレン119にパワーゲーティングのためのパワードライバー(PG)118が設置され、各パワードライバー118が行デコーダ、列デコーダ及びクロック1(clk.1)により独立に電力の供給について制御する。すなわち、一行のメモリグレン119(MG)には、C/N個の参照データが保存されており、各参照データを並列に類似度評価セル133に出力して連想認識が実行される。
以下、図3に示すメモリ装置100について更に詳細に説明する。
メモリ部110としての参照データ保存回路は、ローデコーダ111、コラムデコーダ112、メモリ領域113、及び読出/書込回路114で構成される。メモリ領域113は、複数のローライン115と、複数のビットライン116と、複数本のコラムライン117と、複数のパワードライバー(PD:Power Driver)118と、複数のメモリグレン(MG:Memory Grain)119とを備える。メモリグレン119は不揮発性メモリで構成されている。
メモリ部110としての参照データ保存回路は、ローデコーダ111、コラムデコーダ112、メモリ領域113、及び読出/書込回路114で構成される。メモリ領域113は、複数のローライン115と、複数のビットライン116と、複数本のコラムライン117と、複数のパワードライバー(PD:Power Driver)118と、複数のメモリグレン(MG:Memory Grain)119とを備える。メモリグレン119は不揮発性メモリで構成されている。
ローデコーダ111には複数本のローライン115が接続されており、コラムデコーダ112には複数本のコラムライン117が接続されている。
メモリ領域113は複数の領域に分けられ、各領域は1以上N以下の任意数のコラムライン117とM本のローライン115とで指定され、領域毎にパワードライバー118とメモリグレン119とが組として備えられている。ここで、コラムライン117の任意数と、ローライン115の本数と、ビットライン116の本数とは、何れも設計時に設定され、その設定に従って製造される。ここで、「任意数」とはメモリ装置を利用するユーザにより定められる場合なども含まれ、単に、設計・製造時に一定の値に定められる場合も含まれる。図3では、領域毎に、コラムライン117は1本とし、ローライン115はM本として、ビットライン116はM本としている。ここでの自然数M,Nの定義は、前述した検索データ10及び参照データ30での定義と同じである。領域毎に、パワードライバー118とメモリグレン119とが組として1~N個がある。
本発明の実施形態では、メモリ領域113において任意数のコラムライン117とM本のローライン115とにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成するメモリグレン119と、メモリグレン119に電力を供給するパワードライバー118とが組として備えられている。ここで、領域毎のコラムライン117は任意数個であり、ここで、「任意数」とはメモリ装置を利用するユーザにより定められる場合なども含まれ、単に、設計・製造時に一定の値に定められる場合も含まれる。領域毎のメモリグレン119の任意数個と等しく、図3では1個としている。
本発明の実施形態では、或る一つのパワードライバー118が、任意数のコラムライン117からの制御信号の入力と、M本のローライン115からの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、パワードライバー118と組となるメモリグレン119に電力を供給する。これにより、そのメモリグレン119に格納されている次元毎の参照データを読み出し、ビットライン116を通じてその列の読出/書込回路114に出力する。
よって、メモリ領域113の全体に電力を供給するのではなく、読み出す各領域のメモリグレン119に電力を供給することで、必要な場所にのみ電力を供給すると共に、クロック信号の入力により必要な時間のみ電源供給をする。従って、メモリ領域113に格納されている参照データを読み出す際の消費電力を大幅に減らすことができる。
図3に示すように、メモリグレン119は、MG11~MGRCまで、R行C列存在するので、ローデコーダ111からの制御信号が流れる1又は複数本のローライン115と、コラムデコーダ112から制御信号が流れる1又は複数本コラムライン117とで1又は複数のパワードライバー118が指定され、その指定されたパワードライバー118においてクロック信号“1”が入力されると、入力されている間のみ、パワードライバー118から、組となるメモリグレン119に電力が供給される。指定されたパワードライバー118においてクロック信号“0”が入力されると、組となるメモリグレン119に電力の供給が停止される。なお、パワードライバー118は、クロック信号“0”が入力されると組となるメモリグレン119に電力を供給し、クロック信号“1”が入力されると組となるメモリグレン119に電力を供給しないようにしてもよい。ここで、クロック信号“0”、“1”は、“H”、“L”に対応している。
ここで、M本のローライン115からの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされてもよいし、1本乃至M本まで同時になされてもよい。
図3に示すメモリ装置100においては、第1の回路として類似度評価部130を備え、第2の回路として探索部150及び比較更新部170とを備える。第1の回路は、メモリ領域113からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める。第2の回路は、メモリ領域113からの読み出し毎に、第1の回路で求まる類似度の高い候補を求め、最も類似している次元毎の参照データについての類似度を求める。第1の回路及び第2の回路の具体的な構成として、図3に示す場合を例にとって説明する。
類似度評価部130は、入力検索データ保存回路131と、デジタル/アナログコンバーター(DAC: Digital Analog Converter)132と、類似度評価セル(SEC:Similarity Evaluation Cell)133と、切替スイッチ134と、電流統合回路(CA:Current Accumulator)135と、タイムドメインコンバーター(TDC:Time Domain Converter)136と、を備える。
デジタル/アナログコンバーター132、類似度評価セル133、切替スイッチ134、電流統合回路135及びタイムドメインコンバーター136はコラムライン数だけ備えている。列毎に、読出/書込回路114からデジタル/アナログコンバーター132にデジタルデータが電圧値として入力され、デジタル/アナログコンバーター132においてデジタルデータがアナログデータに変換されて、類似度評価セル133に出力される。
類似度評価セル133は、入力された二つのデータについての類似度を求める。一つ目のデータは、検索データが次元毎に分解されて入力検索データ保存回路131から出力されたデータであって、次元数毎の当該検索データの電圧値である。二つ目のデータは、読出/書込回路114からデジタル/アナログコンバーター132を経由して入力された参照データの電圧値である。
類似度評価セル133は、一つ目のデータと二つ目のデータとの類似度を電流値として求めて出力する。電流値がゼロの場合は一つ目のデータと二つ目のデータは同一と評価し、電流値が大きい場合は一つ目のデータと二つ目のデータは異なると評価していることになる。つまり、参照データが検索データと似ていると、出力される電流値は小さくなる。
切替スイッチ134が列毎に備わっている。切替スイッチ134は、第1のスイッチ134aと第2のスイッチ134bとが連動するように構成されている。第1のスイッチ134aは、第j列番目の類似度評価セル133と第(j+1)列番目の類似度評価セル133との間に設けられている。ここで、jは1以上最大列C以下の自然数である。第2のスイッチ134bは、各列の類似度評価セル133と電流統合回路135との間に設けられている。第1のスイッチ134aと第2のスイッチ134bは、何れも、外部からの次元制御信号(DCS:Dimension Control Signal)により制御され、外部からの次元制御信号が入力される線は、第1のスイッチ134aの制御電極、第2のスイッチ134bの制御電極の何れかに接続され、その何れかの配線の間には、NOT回路134cが含まれている。これにより、第1のスイッチ134aがONの場合には第2のスイッチ134bがOFFとなる一方、第1のスイッチ134aがOFFの場合には第2のスイッチ134bがONとなる。次元制御信号は、メモリ領域113に記憶されている参照データの次元に対応して、切替スイッチ134を制御する。
N次元の参照データが、メモリグレンMRi jからメモリグレンMRi j+n-1まで、次元に分けて記憶されているとすると、当該N次元の参照データが検索データと類似しているかどうかを評価するには、第j列番目の類似度評価セルSECjから第(j+n-1)列番目の類似度評価セルSECj+n-1までの各類似度を加算する必要がある。
本発明の実施形態では、各類似度を加算するために、第j列番目の類似度評価セルSECjと第(j+1)番目の類似度評価セルSECj+1との間との間に第1のスイッチ134aを設け、第j列番目の類似度評価セルSECjと第j列番目の電流統合回路CAjとの間に第2のスイッチ134bを設けている。
外部の次元制御信号により、第1のスイッチ134aがN個の類似度評価セル133を直列接続した状態にする。類似度評価セル133の入力端子に次元毎の検索データの電圧を印加し、類似度評価セル133から出力される電流値を電流統合回路135に入力して、電流統合回路135に一旦保存する。その後、類似度評価セル133の入力端子に次元毎の参照データの電圧を印加し、類似度評価セル133から出力される電流値を電流統合回路135に入力して、保存している電流値との差分を計算する。このように、類似度評価セル133と電流統合回路135との連携により、複数列に分散して記憶されている参照データが検索データに類似しているか否かを、電流値により求めることできる。
タイムドメインコンバーター136は、電流統合回路135から出力された電流値を遅延時間に変換する。よって、切替スイッチ134により直列接続された各類似度評価セル133のうち、列番号が最も大きい最も右端の類似度評価セル133からタイムドメインコンバーター136に電流値が入力されることにより、複数列に分散して記憶されている参照データが検索データに類似しているか否かを、時間遅延の値として求めることができる。類似度が高いほど、時間遅延の値が小さくなる。変換された遅延時間信号は、何れも、探索部150に入力される。
探索部150はTD最小値探索回路151で構成され、類似度評価部130における各タイムドメインコンバーター136から入力された時間遅延信号のうち、最も時間遅延の短いもの、すなわち、タイムドメインの最小値を探索する。探索した最も遅延時間の短い値は、Wビットのカウンタでカウントされ、比較更新部170に出力される。
比較更新部170は最小値比較更新回路171で構成され、メモリ部110の読み出しの繰り返し毎に、探索部150から入力されたカウント値と自ら保存しているカウント値とを比較し、カウント値が低い方を記憶する。これにより、メモリ部110の読み出しの繰り返しが終了すると、低いカウント値が求まり、結果として、検索データに最も類似する参照データのカウント値が求まる。このカウント値は、メモリ部110のアドレスに対応させることで、メモリ部110において最も類似する参照データのアドレスが求まる。
図3に示すメモリ装置100の動作説明は、次の通りである。
先ず、入力検索データ保存回路131は、入力された検索データを次元毎に分けて、デジタル/アナログコンバーター132でアナログ電圧に変換し、類似度評価セル133に入力する。
次に、読出/書込回路114を経て、C個のメモリグレン119からそれぞれ出力される1次元分の参照データ(Mビット)を同様にデジタル/アナログ変換回路132でアナログ電圧に変換し、検索データの入力後から、並列にC個の類似度評価セル133に入力する。もしデジタルアナログコンバーター132がシリアルである場合では、Mビットデータを変換するために、Mクロックの時間がかかる。
その際、先ず、類似度評価セル133は、次元毎に検索データ(1次元)の電圧と参照データ(1次元)の電圧との類似度を電流として出力する。
次に、外部の次元制御信号が、参照データ及び検索データの次元数に応じて、類似度評価セル133の間の第1のスイッチ134aがON状態となるように制御し、第1のスイッチ134aがON状態となっている類似度評価セル133同士の電流を加算し、C個の類似度評価セル133の電流をC/N個の類似度電流統合回路135で統合し対応するタイムドメインコンバーター136へ出力する。電流が小さい方が類似度が高い。同じ次元制御信号により、第2のスイッチ134bをOFF状態にし、必要のない類似度電流統合回路135とタイムドメインコンバーター136を接続しないようにして無効化する。
次に、タイムドメインコンバーター136が、統合されたC/N個の類似度電流をタイムドメイン電圧遅延信号に変換し、並列にTD最小値探索回路151へ出力する。
次に、第1階層(ローカル)の最小値探索処理として、TD最小値探索回路151で、1行分のC/N個の参照データに対応するタイムドメイン電圧遅延信号から最も類似度が高いもの、すなわち遅延の短いものを求め、Wビットのカウンタでその遅延を遅延中のクロック数であるデジタル値に変換し、最小値比較更新回路171へ出力する。Wビットのカウンタは、最大2Wクロックの遅延を持つタイムドメイン電圧遅延信号に変換され、この最大遅延に比例する類似度電流変換の解像度が得られる。つまり、Wが大きければ、もっと小さい類似度電流差が得られる。
次に、第2階層(グローバル)の最小値探索処理として、最小値比較更新回路171で、メインコア210で得られたWinner(ローカルWinner)のデジタル遅延値、又は、ブランチコア220で得られ入力されたWinner(グローバルWinner)のデジタル遅延値を、回路内に保存されている全ステップの値と比較して、小さい方を書き換えて更新する。この更新を繰り返すことで、メインコア210及びブランチコア220内の全ての参照データから一番似ているものが、最後に、最小値比較更新回路171の中に保存され連想処理結果になる。なお、メインコア210及びブランチコア220については、後述の図8を参照して詳細に説明する。
ここで、本発明の実施形態に係るメモリ装置100において、省電力化が達成できていることを詳細に説明する。図4乃至図6は、本発明の実施形態に係るメモリ装置におけるメモリ部とその動作及び消費電力について、従来技術のそれらと比較するための図である。
図4は、本発明の実施形態に係るメモリ装置100におけるメモリ部110とその動作及び消費電力について模式的に示す図である。図4の上段は、メモリ部110を模式的に示し、図4の中段は、Data♯1、Data♯2、Data♯3を順に列毎に読み出したときに、どの列の領域からデータが読み出されるかを示す。図4の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。
参照データの次元毎に(1個のメモリグレン毎に)パワードライバー118を備えて、細粒度パワーゲーティングを用いるだけでなく、任意のコラムライン117を複数本同時にアクティベートすることを可能にして1Data内の必要なデータ次元に対応した必要なメモリグレン119のみに柔軟に電力を供給する。その上に、パワードライバー118に動作演算のクロック信号が入力し、クロック信号に同期して、パワードライバー118から対応のメモリグレン119に電力を供給する。
この読み出し制御によって、演算に必要なデータが演算動作中のみ、電力を消費することになり、演算動作のクロック信号が入っていない場合には電力を消費しない。さらに、読み出しの時にクロックパルスが“0”のときのみ電力消費がある。クロックパルスが“1”(クロック前半)の時はpre-charge、すなわちビットライン116を0Vにプレチャージし、電力を供給する必要がなく、演算動作中の消費電力が半減する。
例えば、データ♯1(Data♯1)では、参照データの全ての次元のデータ出力が必要な場合、クロックを用いているので、読み出しの際に、消費電力が半減する。この理由は次の通りである。クロック制御の導入により、1クロックの前半、すなわちクロック信号が“H”であるときメモリグレン119に電力を供給しないで、プレチャージする。1クロックの後半、すなわちクロック信号が“L”であるとき指定のメモリグレンに電力を供給して、データを読み出す。このプレチャージは、電力供給を高速で切り換える際にdisturb誤動作が発生しないようにするため、参照データを読み出す際に、データが書き換えられない。
データ♯2(Data♯2)では、動作演算のクロックの制御により、パワードライバー118が動作していないので、動的にメモリの動作も停止し、消費電力を最小化することができる。
データ♯3(Data♯3)では、参照データの一部分の次元の出力が必要な場合、必要最低限のメモリグレン119だけに電力を供給して、消費電力の最適化を図ることができる。
本発明の実施形態においては、メモリ部110が、Cycle-based 粒度制御可能なパワーゲーティングに基いた不揮発性メモリで構成されている。この構成により、待機時の消費電力をゼロにする上、メモリ部110の必要な部分に電力を供給し、不要な部分には電力を供給しないため、消費電力を減らすことができる。
不揮発性メモリは、小面積、高速、高安定、低書込電流など色々異なる性能に重視してそれぞれ開発されてきた経緯があるが、ここでは、Cycle-based 粒度制御可能なパワーゲーティングを実現するために、高速且つ安定の不揮発メモリセルが必要である。本発明の実施形態では、一般的には差動対型のSTT-MRAMメモリセルを利用するとよい。この点については実装例で詳細に説明する。
実装例において後述するように、高速で探索することができ、かつ、Cycle-based 粒度制御可能なパワーゲーティングが実現できたのは、次の理由による。
第1には、電力が供給されたらすぐに反応でき、高速かつ安定な動作を特徴とする差動対型STT-MRAMメモリセル(例えば4T-2MTJセル)を採用しているからである。4T-2MTJセルは、より速くMTJからデータを読出せ、高速の電源ON/OFFによるdisturb誤動作が発生しないという特徴がある。
第2には、高速でデータを読み出すために、電力を供給する前に、ビットラインに邪魔な電荷をたまらないように、0Vにpre-chargeするからである。
本発明の実施形態によれば、Cycle-based粒度制御可能なパワーゲーティングに基づく不揮発性メモリ装置により、連想メモリの超低電力化を図ることができる。類似評価部130の切替スイッチ134により、データ次元数に応じてシステムを再構成するわけだが、Cycle-based粒度制御可能なパワーゲーティングに基づく不揮発性メモリ装置は、その再構成に応じて必要最小限のメモリに電力を供給するため、動作時消費電力を最適化できる。
従来のNNS連想メモリでのデジタルアプローチ及びアナログアプローチ(以下、「従来のアプローチ」とする。)でのメモリ部は、次の通りである。図5は、従来のアプローチでのメモリ部510とその動作及び消費電力について模式的に示す図である。図5の上段は、メモリ部510を模式的に示し、図5の中段は、Data♯1、Data♯2、Data♯3を列毎に順に読み出したとき、どの列の領域からデータが読み出されるかを示す。図5の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。
従来のアプローチでは、メモリ部510のメモリ領域は揮発性のSRAMで構成されている。そのため、全てのメモリグレン519に、参照データを書き込む際、データ♯1の読出しの際、データ♯2の読出しの際、データ♯3の読出しの際の何れも、常に電力を供給する必要がある。なお、符号511はローデコーダであり、符号512はコラムデコーダである。
図6は、従来のSTT-MRAMから構成されたメモリ部とその動作及び消費電力について模式的に示す図である。図6の上段は、メモリ部610を模式的に示し、図6の中段は、Data♯1、Data♯2、Data♯3を列毎に順に読み出したときに、どの列の領域からデータが読み出されるかを示す。図6の下段は、横軸が時間、縦軸が消費電力、奥行きの軸がメモグレンの位置を示している。
非特許文献9に示す従来のSTT-MRAMでは、細粒度パワーゲーティング技術を用いて、1Dataの参照データ毎に、即ちN個のメモリグレン619毎にパワードライバー618を備え、独立電源供給できる。そのため、参照データの書き込み際に、データ#1の読み出しの際、データ#2の読出しの際、及びデータ#3の読出しの際にも、コラムデコーダとローデコーダのアドレスによって指定されるアクセス参照データのlocationに応じて電力を供給することができ、不要なメモリの場所に電力を供給する必要がない。しかしながら、Data毎のパワーゲーティングなので、1Data内の全ての次元のデータを読み出すために全てのメモリグレン619は同時に電力が供給される。なお、符号611はローデコーダであり、符号612はコラムデコーダである。
次に、類似評価部130について補足説明する。類似評価部130は、コラム毎に電流モードの類似度評価セル133を備え、コラム毎に隣り合う類似度評価セル133同士を接続する切替スイッチ134を備えており、電流モードの類似度評価セル133同士を第1のスイッチ134aのON/OFFで再構築可能である。切替スイッチ134のON/OFFは、参照データ、検索データの次元数に応じて柔軟に対応し、検索データに類似する参照データを探索するために、非常にコンパクトな回路を提供する。しかも、高密度で、適応性のある連想メモリを提供する。
ここで、R行4列のメモリグレンを備えるチップとして、1~4次元参照データに応じて再構成したシステムアーキテクチャ(コラム数C=4の場合)について、説明する。図7Aは、参照データが一次元である場合のメモリ装置の再構成を示す図であり、図7Bは、参照データが二次元である場合のメモリ装置の再構成を示す図であり、図7Cは、参照データが三次元である場合のメモリ装置の再構成を示す図であり、図7Dは、参照データが四次元である場合のメモリ装置の再構成を示す図である。これらの図は、不揮発性メモリ装置のCycle-based 粒度制御可能なパワーゲーティングの動作状態を示しており、メモリ部110においてメモリグレン119に電力が供給されていないものは点線で示している。類似評価部130においても無効化した部分は点線で示しており、無効化していない部分は実線で示している。
図8は、図3に示すメモリ装置100を複数備え、その一つをメインコア210とし、その他をブランチコア220とした、メモリシステム200の構成図である。メインコア210、ブランチコア220の何れも同一の構成である。メインコア210では出力用バッファー(Output Buffer)211を無効化し、ブランチコア220では最小値比較更新回路222を無効化する。図8において無効化したエレメントは点線で示している。
メインコア210のみ最小値比較更新回路212を有効化して、1クロック(clock1)毎に、パイプラインで最小値比較更新回路212に入力されるブランチコア220のローカルWinner(Wビット)の結果と、前ステップの自分連想結果とを比較し、小さい方に書き換えて更新する。これにより、マルチコアシステム全体から検索データに一番似ている参照データが検出される。マルチコアシステムの接続可能なチップ枚数はローカルWinnerのWと1次元データのビット数Mにより決められる。
図9は、図8に示すメモリシステムにおいて、類似評価部、探索部及び比較更新部の主張部分のタイムチャートである。この図では、C=4、N=1、W=8、R=無制限の場合を想定しており、メインコア210とブランチコア220における動作例を示しており、主に、電流モード類似度評価、及び、2階層パイプラインTD最小値探索のシステム動作を説明している。
図10は、図8に示すメモリシステム200の動作を説明するための図である。一個(1Data)の参照データ及び検索データが、N(≧1)次元のデータから構成され、各次元のデータがMビットのデジタル値で表される。そして、メモリ部110としての参照データ保存回路は、(R×M)行-C列のメモリセルアレイから構成され、R×C(C≧N)の1次元データを保存するメモリグレン119があって、各メモリグレン119にはMビットの値を保存している。メインコア210が2行目の「データ出力とDAC変換」と「TD最小値探索」を処理するために(2M+2W-1)-clockがかかり、その間に、ブランチコア220からのローカルWinnerの「最小値比較更新」処理を同時に実行するので、(2M+2W-1)枚のコアが同一システムに接続できる。そこで、図9に示すように、1次元データのメモリビット数M=8、カウンタのビット数W=8である場合は、144-コアシステムが可能となる。
ここで、図10に示すように、タイムドメイン最小値探索が最も時間が掛かり、データD/A変換及び類似度評価の処理時間がそれよりも短いことについて言及しておく。
本発明の実施形態では、メモリ領域の行毎にデジタル/アナログ変換がなされるので、遅延が生じる。確かに、デジタル/アナログ変換処理により遅延が生じるが、タイムドメイン最小値探索の方はもっと処理時間が長く、支配的である。従来のアナログアプローチによるNNS連想メモリでは1つのD/A変換で複数の参照データ次元を変換する。一方、本発明の実施形態では、1つのデジタルアナログコンバーターで1つの1次元のデータを変換するので、変換オーバーヘッドがなくなる分、速くなる。ちなみに、アナログアプローチ、デジタルアプローチの何れのNNS連想メモリでも、本発明の実施形態においても、D/A変換ではなく、タイムドメイン信号から最小値、即ち一番早く立ち上がるタイムドメイン信号)を検索するための処理時間の方が支配的である。例えば、D/A変換が8-cycleの時間が必要であるが、タイムドメイン最小値探索の方が100~200-cycleの時間が必要である。それは、早いタイムドメイン信号と遅いタイムドメイン信号とを区別する解像度を実現するために、ある程度長いランプ信号が必要である。0Vから例えば1Vになる時間を十分長くしないと、差の小さい類似度電流同士が区別できなくなるためである。言い換えれば、類似度、即ちデジタルアプローチの連想メモリの場合にはデジタル値、アナログアプローチの連想メモリと本発明の実施形態の場合には電流値をタイムドメイン信号の遅延に変換するのでので、差の小さい類似度から変換されるタイムドメイン信号の遅延差も小さく、十分長い時間で測らないと、区別し難くなる。
本発明の実施形態では、Time-Domain最小値探索速度を改善するために、マルチコアに基づくパイプライン動作を採用している。パイプラインによって、各コアのローカルの長いTime-Domain最小値探索処理時間を吸収して、1クロックで完成させる。このマルチコアに基づくパイプライン方式を使わない場合には、従来のアナログアプローチの連想メモリと同等の速度で、類似する参照データについての情報が得られる。
次に、実装例を説明する。図11は、実装例に係るブロック構成図である。画像認識への応用を前提とし、低電力,高密度で適応性のある不揮発連想メモリ装置を想定している。図11に示すメモリ装置310では、図3と同様、メモリ部310、類似評価部330,探索部350,比較更新部370を備え、タイミングコントローラ390を備える。8次元、16次元、32次元、64次元、128次元の画像特徴データを想定している試作チップである。基本的に次元数が8の整数倍であれば全て対応することができる。図3を参照して説明した各バラメータは以下のようになる。
N=8次元、16次元、32次元、64次元、128次元であり、8の整数倍の次元で適応可能である。
M=8ビット
C=128列
R=16行
W=8ビット(最小値比較更新回路のカウンタのビット数)
ただし、8の整数倍対応であるので、メモリグレンのPDと類似度電流の統合スイッチは両方8次元毎に設計している。
N=8次元、16次元、32次元、64次元、128次元であり、8の整数倍の次元で適応可能である。
M=8ビット
C=128列
R=16行
W=8ビット(最小値比較更新回路のカウンタのビット数)
ただし、8の整数倍対応であるので、メモリグレンのPDと類似度電流の統合スイッチは両方8次元毎に設計している。
そのため、外部の次元制御信号により、左から奇数番目の切替スイッチ334を動作させ、第1のスイッチ334aを閉じると、16次元対応のシステムになる。後述する実測波形のうち速度などの性能評価は16次元のtexture認識においての結果である。
以下、実装例における各部の基本的な回路構成を説明することにより、図3に示すメモリ装置100の具体的な実施形態を説明する。
図12は、実装例でのメモリ領域の領域毎のブロック図である。図12に示すのは、図3を参照して説明したメモリ領域の一領域を示す。この一領域には、1個のパワードライバー318とK(=8)個の不揮発性のメモリグレン319が組として備えており、パワードライバー318は、M個のパワーラインゲート318aを備える。パワーラインゲート318aの論理演算器318bには、コラムライン(CD Line)と、クロック信号の入力線と、ローライン(RD Line)のうち1本の線が入力され、クロック信号が反転して論理演算回路318bに入力される。論理演算器318bからの出力信号は、電源ラインに接続されたインバータ回路318cに入力される。インバータ回路318cからの出力がパワーラインPLとして、4T-2MTJセル319aに入力される。なお、BLとBLBとはビットラインの対である。
図13Aは、図12のブロック図のうち、不揮発性のメモリグレン319を1つとし、参照データの次元毎にパワードライバー318を備える場合を想定した図である。図13Bは図13Aに示すユニットについての2つの4T-2MTJメモリセル(Cell#1とCell#2)から連続的にデータを読み出す動作を示すタイムチャートである。既に説明したように、読出しオペレーションにおいては、クロック信号が“0”であり、CD Lineが“1”であり、かつ、該当するRD Lineも“1”であるとき、パワーラインPLが“1”になり、読出し処理をしている。
図13Cは、図13Aに示す回路の変形例であり、一つのパワーラインゲートから並列に、M個の各4T-2MTJセル319aへパワーラインPLを出力するようにしてもよい。
図14は、メモリ部310における4T-2MTJメモリセル320の回路図である。4T-2MTJメモリセル320は、差動対型STT-MRAMセルであり、4個のN型MOSFET321乃至324と2個のMTJ325,326を備える。MTJ325,326は、固定磁性層と絶縁層及び自由磁性層からなり、MTJ325,326の各固定磁性層がパワーラインPLに接続され、MTJ325,326の自由磁性層がそれぞれ固定磁性層と並行(Parallel)又は逆並行(Anti-Parallel)の状態を記憶することによりデジタル値を保存する。図15は、図14に示す4T-2MTJメモリセルの動作を説明するためのタイムチャートである。
4T-2MTJセル320にデータを書込む際には、ワードラインWLを例えば高い電圧にしてビットライン(BL/BLB)とセンスノード(SN: Sense Node/SNB)を接続し、BLB/BLを高い電圧(1V)/低い電圧(0V)にセットする。4T-2MTJセル320に“1”/“0”のデータを書き込む場合は、クロック信号でパワーラインPLを制御することにより、クロック前半では、PLを0Vにして右/左のMTJ325,326をAnti-Parallelに書込み、クロック後半では、PLを1Vにして左/右のMTJ325,326をParallelに書込む。
4T-2MTJセル320からデータを読み出す際には、ワードラインWLを1Vにしてビットライン(BL/BLB)とセンスノード(SN: Sense Node/SNB)を接続し、クロック信号でPLを制御し、クロック前半では、PLを0VにしてBLB/BL及びSN/SNBを全部0VにPrechargeし、クロック後半では、PLを1Vにして、BLB/BLを通して、SN/SNBの電圧差を読み出す。
図16は、図3に示す読出/書込回路114のブロック図である。読出/書込回路114は、M個の読出-書込インタフェース(WRI:Write-Read Interface)回路から構成され、ビットライン(BL/BLB)を通して、Mコラムの4T-2MTJセル320にアクセスし、1クロックでMビットのデータを読出し/書込みをする回路である。その1個のWRI回路327は、書込ドライバ回路327Aと、プレチャージ(Precharge)回路327Bと、センスアンプ(Sense Amplifier)回路327Cと、デジタルレジスタ(Register)回路327Dを備える。データを書き込む際には書込ドライバ回路327Aを用い、データを読出す際にはプレチャージ回路327Bとセンスアンプ回路327Cと、デジタルレジスタ回路327Dを用いることにより、1クロックで1ビットのデータを処理する。
図17は、図3に示す類似度評価セル133の回路図である。類似度評価セル400は、9つのN型MOSFET(T1~T9)401乃至409と2個コンデンサ(C1,C2)410,411から構成され、両サイドのポートV1及びV2から2つのステップに分けてアナログ電圧信号が入力される。上段の左側がステップ1であり、上段の右側がステップ2である。下段に示すように、ステップ1とステップ2とでの電圧の差を求め、類似度評価関数を満たす類似度電流(IBSSE)として電流統合回路へ出力する回路である。
ステップ1の際には、SWを“H”にセットし、入力ポートV1,V2に検索データとするターゲット電圧を印加してMAXの類似度電流を得られる。ステップ2の際には、SWを“L”にセットしてトランジスタT1、T2、T3及びT4のゲート電荷を保持し、入力ポートに参照データとするテンプレート電圧を印加して、それとターゲット電圧との差に応じて下がる類似度電流を得られる。
図18は、図3に示す電流統合回路135の回路図である。電流統合回路420は、5個のP型MOSFET(T10乃至T14)421乃至425と、2個のN型MOSFET(T15乃至T16)426,427と、2個のスイッチ(S1,S2)428,429と、1個のコンデンサ430から構成される。T10とT11でカレントミラーを構成し、T10とT12でカレントミラーを構成し、T13とT14でカレントミラーを構成し、T15とT16でカレントミラーを構成する。図18に示す回路では、1つの電流加算器431と、1つの電流減算器432と、1つの電流メモリ433を備え、K個の類似度評価セルから2ステップを分けて出力される類似度電流(IBSSE)をそれぞれ足し合わせ、その電流差を出力する。そのKの値は、電流統合回路420に接続する類似度評価セルの回路数を制御することにより、柔軟に設計調整できる。
電流統合回路420は、まず、K個の類似度評価セル(SEC)から出力されるステップ1の検索データに対応する類似度電流を足し合わせ、スイッチS1(S2)をON(OFF)にセットし、T10とT11で構成されるカレントミラーを用いて、得られた電流結果ITarを一時的に電流メモリ433に保存する。それから、K個の類似度評価セル(SEC)から出力され、ステップ2の参照データに対応する類似度電流(ITem)を足し合わせ、スイッチS1(S2)をOFF(ON)にセットし、得られた電流結果ITemをT10とT12で構成されるカレントミラーでコピーして、保存しているITarとの差を計算し、検索データと参照データの最終類似度電流(ISCORE)としてタイムドメインコンバーター(TDC)へ出力する。
図19は、図3に示すタイムドメインコンバーター151の回路図である。タイムドメインコンバーター440は、1個のCMOSスイッチ441と、2個のインバータ442,443と、1個のP型MOSFET444と、2個のN型MOSFET445,446を備え、電流統合回路(CA)から出力される類似度電流(ISCORE)をTime-Domain電圧遅延信号に変換する。
タイムドメインコンバーター440は、まず、Reset信号で出力をGNDになるように初期化する。その後、タイムドメインコンバーター440は、ISCOREが入力される同時に、ランプ(RAMP)信号の電圧が入力され、出力インバータの閾値を超えるまでスイッチング・ノードの電圧が下がると出力が立ち上がり、ISCOREに対応する遅延を持つTD電圧遅延信号を生成する。
図20は、探索部350内のTD-WTA(Time-Domain Winner Take-All)回路450のブロック図である。図中、Cはメモリグレンの列数で、Nはデータの次元数であり、C/Nはメモリの1行分の参照データ数である。
TD-WTA回路450は、(C-N)/N個の2入力TD比較回路(2-Input Time-Domain Comparator)451から構成される√(C/N)レイヤを持つ最小値探索回路であり、並列にタイムドメインコンバーターから入力されるC/N個の参照データに対応するC/N個TD電圧遅延信号から一番遅延の短い(立ち上がりの早い)信号をローカルWinnerとして、そのWinnerアドレスと一緒に出力する回路ある。
TD-WTA回路450は、まず、C/N個のTD電圧遅延信号を2入力TD比較回路451に入れて、2個ずつ比較し、遅延の短いものを次のレイヤに渡すことにより、数段繰り返して一番遅延の短いTD電圧遅延信号(ローカルWinner)を検索する。各2入力TDコンパレータ451では、入力される2つのTD遅延信号にFlagを付けてFF回路452に保存し、そのFlagをエンコードして、Winnerに対応する参照データのアドレスを割り出す。最後に、TD-WTA回路450は、ローカルWinnerとそのWinnerアドレスを一緒に最小値比較更新回路に出力する。
図21及び図22は、最小値比較更新回路460の構成図であり、図21はブランチコアで用いられるものであり、図22はメインコアで用いられるものである。点線で示す部分は無効化している。
最小値比較更新回路460は、1個のWビットデジタルカウンタ461と、1個のWビット・セレクタ462と、1個のWビットデジタル加算器463と、グローバルWinnerとそのアドレスを保存するデジタルレジスタ464から構成され、TD-WTA回路450から直列に入力されるローカルWinnerを前ステップで求めたものと比較し、より小さいものを保存することで、一番小さいグローバルWinnerを求める回路である。
最小値比較更新回路460は、まず、TD―WTA回路450からローカルWinnerのTD電圧遅延信号を受け取り、8ビット(W=8)のデジタルカウンタで信号遅延をクロック数に変換し、ローカルWinnerのクロック数(ローカル最小値)が計算する。この変換は、デジタルカウンタがタイムドメインコンバーターにRAMP電圧を入力する時点からカウントし始め、TD―WTA回路450がローカルWinnerを計算する同時に、完成する。
ブランチコアでは、得られたローカル最小値をメインコアに送る。メインコアでは、メインコア自身又はブランチコアから得られたローカル最小値と、Winnerレジスタに保存しているグローバルWinner(最小値)を、デジタル加算器を用いて減算処理を行い、COUT=1の場合だけレジスタを上書きすることにより、いつも小さいローバルWinner(最小値)を更新しつつ、最終的なグローバル最小値と該当の参照データIDを連想認識の結果として保存する。
ただし、メインコア及び各ブランチコアに対して、メモリ領域である参照データ保存回路から、データ適応型類似度評価回路、2階層最小値探索回路まで、全部1クロックずつタイミングをずらしてパイプラインで実行する。それで、1クロック以内に、コアの1行分(C/N個)の参照データに対する連想認識が完成できる。
実装例では、8data/クロックのThroughputが得られている。そして、同じ設計のコアを用いて、簡単にシステム拡張が可能である。
図23Aは図11で示す設計に従ってチップを作製した写真の像を示し、図23Bは図23Aに示す像を模式的に示し、図23Cには設計スペックを示している。
図24は、類似度評価セルの回路動作の検証結果を示す図である。横軸はΔVであり、図18のCAで示すVtem-VTarである。縦軸は電流Ipeak,Itemである。この図に示すように、リファレンス電圧Vrefに依らず同様な鐘型形の波形となっていることが分かる。
図25は、3次元カラーベクトルデータ(M=8、N=3)構成での電流統合回路が出力する類似度電流の結果を示す図である。図に示すように、検索データ(ターゲット)により近い参照データ(テンプレート)はより低い類似度電流(ISCORE)が出力される。
図26は、16次元データ構成でのコア動作を検証する波形を示す図であり、Texture認識の実証結果である。横軸は時間であり、縦軸は0V~1Vの電圧である。システムをリセットした後、D/A変換のデータ変換指令信号(Read Instruction of NFM)で示すように、検索データ(Target)となる「石」のTextureを入力してから、第1行目の参照データ(Template 1)である8個の「木板」Textureを入力し、一時的に電源OFFにした後、第2行目の参照データ(Template 2)となる8個の「石」Textureの参照データを入力する。参照データを入力し続ける間に、電流モードの類似度評価を行い、ランプ信号(Reference RAMP Signal)によって類似度電流を電圧TD遅延信号に変換され、1行の参照データの電圧TD遅延信号から一番類似度の高いTD遅延信号(Updated TD Similarity Score)を出力する。それと同時に、出力されるTD遅延信号(Updated TD Similarity Score)の遅延をクロック数に変換し、デジタル相違度(Similarity Score)として得られ、相違度の小さいものに更新して最終的なTextureについての連想認識に成功した。
試作したチップでは、12コアを実装され、1V電源電圧で40MHzで動作でき、5マイクロ秒で1行分のデータ、即ち、C/N個の参照データに対する認識処理を完了することができた。リセットは0.5マイクロ秒かかり、検索データ入力は0.5マイクロ秒がかかった。なお、C=128、N=16、R=8である。
図27は、消費電力について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。図から、本実装例では、消費電力が大幅に低下していることが分かる。
図28は、回路面積について、従来のアナログアプローチ及びデジタルアプローチと本実装例を比較した結果を示す図である。図から、回路面積が大幅に削減することができていることが分かる。
以上、本発明の実施形態を説明したが、本発明は消費電力を低減させるためのメモリ部の構造を工夫しており、類似度評価部、探索部、比較更新部の各具体的な回路構成については、本発明の実施形態に示す内容を実現できるものであればよく、図11以降の図面で示したものは好ましい一つの例である。なお、従来の連想メモリで使用されているものであってもよく、その際には適宜モディファイする必要があることは言うまでもない。
上述の説明では、図3において縦線をコラムライン、横線をローラインとしているが、一方の方向に延びる線と他方の延びる線の何れか一方がコラムラインであり、他方がローラインとして定義されるものとする。つまり、コラムラインとローラインとが交差してれば、何れか一方がコラムラインであり、他方がローラインである。このことは、図3以外に示す構成図においても当てはまる。
本発明の実施形態では、不揮発性メモリとしてはSTT-MRAMを中心に説明したが、例えば次のような不揮発性メモリでもよい。不揮発性メモリは、磁気抵抗メモリ(MRAM: Magnetoresistive Random Access Memory)、抵抗変化型メモリ(ReRAM: Resistive Random Access Memory)、強誘電体メモリ (FeRAM: Ferroelectric Random Access Memory)、フラッシュメモリなどの不揮発メモリで構成してもよい。
磁気抵抗メモリは、スピントロニクスを利用し、GMR効果(Giant Magneto Resistive effect)を動作原理とする不揮発性メモリである。例えば、磁壁移動型MRAM、スピンホールトルク型MRAM、スピン注入型MRAM(STT-RMAM)などから選択される。磁壁移動型MRAMは、微小磁性体内の磁壁を行き来させることで磁化を反転させる3端子MRAMである。スピンホールトルク型MRAMは、非磁性体からのスピンホールトルクによって磁化反転させる3端子MRAMである。STT-RMAMは、磁性体に電流を通じ、電子スピンとの相互作用で磁化回転をさせる2端子MRAMである。何れも、高密度と高速度と長い寿命が期待される。
抵抗変化型メモリは、電圧の印加による金属酸化物中の電気抵抗の変化を利用してデータを記憶する不揮発メモリである。高密度と高速化が期待される。
強誘電体メモリは、強誘電体のヒステリシス効果に因る正負の残留分極を利用してデータを記憶する不揮発性メモリである。高速化と、長い寿命が期待できる。
フラッシュメモリは、電圧制御で、MOSのフローティングゲートに電荷を閉じ込めることでMOS閾値を変化させてデータを記憶する不揮発メモリである。高密度化を期待できる。
本発明の実施形態では、パワーゲートによりメモリグレンからデータの読み出しの際の消費電力を低く抑えることができるが、柔軟に最適化した電力を供給することができるので、書き込み時においても同様な低電力化効果が得られる。
10:検索データ
20:特徴ベクトルデータ
30:参照データ
100:メモリ装置
110:メモリ部(参照データ保存回路)
111:ローデコーダ
112:コラムデコーダ
113:メモリ領域
114:読出/書込回路
115:ローライン
116:ビットライン
117:コラムライン
118:パワードライバー
119:メモリグレン
130:類似度評価部
131:入力検索データ保存回路
132:デジタル/アナログコンバーター(DAC)
133:類似度評価セル(SEC)
134:切替スイッチ
134a:第1のスイッチ
134b:第2のスイッチ
134c:否定回路
135:電流統合回路(CA)
136:タイムドメインコンバーター(TDC)
150:探索部
151:タイムドメイン最小値探索回路
170:比較更新部
171:最小値比較更新回路
200:メモリシステム
210:メインコア
211:出力用バッファー
212:最小値比較更新回路
220:ブランチコア
221:出力用バッファー
222:最小値比較更新回路
230:パイプライン
300:メモリ装置
310:メモリ部
311:ローデコーダ
312:コラムデコーダ
313:メモリ領域
314:読出/書込回路
315:ローライン
316:ビットライン
317:コラムライン
318:パワードライバー
319:メモリグレン
320:4T-2MTJメモリセル
321乃至324:N型MOSFET
325,326:MTJ
327:WRI回路
327A:書込ドライバ回路
327B:プレチャージ(Precharge)回路
327C:センスアンプ(Sense Amplifier)回路
327D:デジタルレジスタ(Register)回路
330:類似度評価部
332:デジタル/アナログコンバーター(DAC)
333:類似度評価セル(SEC)
334:切替スイッチ
334a:第1のスイッチ
334b:第2のスイッチ
334c:否定回路
335:電流統合回路(CA)
336:タイムドメインコンバーター(TDC)
350:探索部
351:タイムドメイン最小値探索回路
370:比較更新部
371:最小値比較更新回路
20:特徴ベクトルデータ
30:参照データ
100:メモリ装置
110:メモリ部(参照データ保存回路)
111:ローデコーダ
112:コラムデコーダ
113:メモリ領域
114:読出/書込回路
115:ローライン
116:ビットライン
117:コラムライン
118:パワードライバー
119:メモリグレン
130:類似度評価部
131:入力検索データ保存回路
132:デジタル/アナログコンバーター(DAC)
133:類似度評価セル(SEC)
134:切替スイッチ
134a:第1のスイッチ
134b:第2のスイッチ
134c:否定回路
135:電流統合回路(CA)
136:タイムドメインコンバーター(TDC)
150:探索部
151:タイムドメイン最小値探索回路
170:比較更新部
171:最小値比較更新回路
200:メモリシステム
210:メインコア
211:出力用バッファー
212:最小値比較更新回路
220:ブランチコア
221:出力用バッファー
222:最小値比較更新回路
230:パイプライン
300:メモリ装置
310:メモリ部
311:ローデコーダ
312:コラムデコーダ
313:メモリ領域
314:読出/書込回路
315:ローライン
316:ビットライン
317:コラムライン
318:パワードライバー
319:メモリグレン
320:4T-2MTJメモリセル
321乃至324:N型MOSFET
325,326:MTJ
327:WRI回路
327A:書込ドライバ回路
327B:プレチャージ(Precharge)回路
327C:センスアンプ(Sense Amplifier)回路
327D:デジタルレジスタ(Register)回路
330:類似度評価部
332:デジタル/アナログコンバーター(DAC)
333:類似度評価セル(SEC)
334:切替スイッチ
334a:第1のスイッチ
334b:第2のスイッチ
334c:否定回路
335:電流統合回路(CA)
336:タイムドメインコンバーター(TDC)
350:探索部
351:タイムドメイン最小値探索回路
370:比較更新部
371:最小値比較更新回路
Claims (6)
- N(≧1)次元からなり1次元がM(≧1)ビットからなる参照データが記憶されるメモリ領域を備え、
前記メモリ領域において1以上N以下の任意数のコラムラインとM本のローラインとにより指定される領域毎に、Mビットの不揮発性メモリを1単位として構成する前記任意数のメモリグレンと、前記任意数のメモリグレンに電力を供給するパワードライバーとが組として備えられ、
前記パワードライバーが、前記任意数のコラムラインからの制御信号の入力と、前記M本のローラインからの制御信号の入力と、クロック信号の入力とを受け、クロック信号に同期して、該パワードライバーと組となる前記メモリグレンに電力を供給することにより、当該メモリグレンに格納されている次元毎の参照データを読み出す、メモリ装置。 - 前記M本のローラインからの制御信号の入力は、1本乃至M本のうち所定本数毎に順番になされる、請求項1に記載のメモリ装置。
- 前記M本のローラインからの制御信号の入力は、同時になされる、請求項1に記載のメモリ装置。
- 前記パワードライバーは、クロック信号の“1”又は“0の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給しない一方、クロック信号の“0”又は“1”の入力を受けると、該パワードライバーと組となる前記任意数のメモリグレンへ電力を供給して当該メモリグレンに格納されている参照データを読み出す、請求項1乃至3の何れかに記載のメモリ装置。
- 前記メモリ領域からの読み出し毎に、読み出された次元毎の参照データのそれぞれと、次元毎の検索データとの類似度を求める第1の回路と、
前記第1の回路で求まる類似度から類似度の高い候補を求め、前記メモリ領域からの読み出し毎に最も類似している次元毎の参照データの類似度を求める第2の回路と、を備える、請求項1乃至4の何れかに記載のメモリ装置。 - 前記不揮発性メモリが、磁気抵抗メモリ、抵抗変化型メモリ、強誘電体メモリ又はフラッシュメモリで構成されている、請求項1乃至5の何れかに記載のメモリ装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018509313A JP6919846B2 (ja) | 2016-03-28 | 2017-03-27 | メモリ装置 |
US16/089,153 US10741228B2 (en) | 2016-03-28 | 2017-03-27 | Memory device |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016064777 | 2016-03-28 | ||
JP2016-064777 | 2016-03-28 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017170340A1 true WO2017170340A1 (ja) | 2017-10-05 |
Family
ID=59965617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2017/012276 WO2017170340A1 (ja) | 2016-03-28 | 2017-03-27 | メモリ装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10741228B2 (ja) |
JP (1) | JP6919846B2 (ja) |
WO (1) | WO2017170340A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12073883B2 (en) | 2022-05-11 | 2024-08-27 | Macronix International Co., Ltd. | Ternary content addressable memory |
US11763888B1 (en) * | 2022-07-25 | 2023-09-19 | Hewlett Packard Enterprise Development Lp | Range segmenting for analog CAM with improved precision |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162257A (ja) * | 2014-02-27 | 2015-09-07 | 国立大学法人広島大学 | 再構成可能連想メモリ |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4541077B2 (ja) * | 2004-01-13 | 2010-09-08 | 株式会社日立超エル・エス・アイ・システムズ | 半導体記憶装置 |
JP5224601B2 (ja) | 2009-10-01 | 2013-07-03 | 国立大学法人広島大学 | 連想メモリ |
JP5907524B2 (ja) | 2011-02-25 | 2016-04-26 | 国立大学法人東北大学 | 不揮発機能メモリ装置 |
JP5800422B2 (ja) * | 2011-11-07 | 2015-10-28 | 国立大学法人広島大学 | 連想メモリ |
JP2013191255A (ja) | 2012-03-14 | 2013-09-26 | Renesas Electronics Corp | 内容参照メモリシステム |
JP2015016257A (ja) | 2013-07-12 | 2015-01-29 | 株式会社三共 | スロットマシン |
JP6261041B2 (ja) | 2014-03-25 | 2018-01-17 | 国立大学法人東北大学 | 不揮発性連想メモリセル及び不揮発性連想メモリ |
US10643701B2 (en) * | 2016-05-13 | 2020-05-05 | Tohoku University | Memory device and memory system |
-
2017
- 2017-03-27 US US16/089,153 patent/US10741228B2/en active Active
- 2017-03-27 WO PCT/JP2017/012276 patent/WO2017170340A1/ja active Application Filing
- 2017-03-27 JP JP2018509313A patent/JP6919846B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015162257A (ja) * | 2014-02-27 | 2015-09-07 | 国立大学法人広島大学 | 再構成可能連想メモリ |
Non-Patent Citations (4)
Title |
---|
T. OHSAWA ET AL.: "1Mb 4T-2MTJ Nonvolatile STT-RAM for Embedded Memories Using 32b Fine-Grained Power Gating Technique with l.0ns/200ps Wake-up/ Power -off Times", 2012 SYMPOSIUM ON VLSI CIRCUITS (VLSIC, 2012, pages 46 - 47, XP032204388, DOI: doi:10.1109/VLSIC.2012.6243782 * |
TAKASHI OHSAWA ET AL.: "A 1 Mb Nonvolatile Embedded Memory Using 4T2MTJ Cell With 32 b Fine-Grained Power Gating Scheme", IEEE JOURNAL OF SOLID-STATE CIRCUITS, vol. 48, no. 6, 2013, pages 1511 - 1520, XP011511094, DOI: doi:10.1109/JSSC.2013.2253412 * |
TRONG TU BUI ET AL.: "A Scalable Architecture of Associative Processors Employing Nano Functional Devices", 2009 10TH INTERNATIONAL CONFERENCE ON ULTIMATE INTEGRATION OF SILICON, 2009, pages 213 - 216, XP031451748 * |
YITAO MA ET AL.: "An MTJ-Based Nonvolatile Associative Memory Architecture With Intelligent Power -Saving Scheme for High-Speed Low- Power Recognition Applications", 2013 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS (ISCAS2013, 2013, pages 1248 - 1251, XP032446152, DOI: doi:10.1109/ISCAS.2013.6572079 * |
Also Published As
Publication number | Publication date |
---|---|
JP6919846B2 (ja) | 2021-08-18 |
JPWO2017170340A1 (ja) | 2019-02-14 |
US10741228B2 (en) | 2020-08-11 |
US20200219547A1 (en) | 2020-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6888787B2 (ja) | メモリ装置及びメモリシステム | |
Yin et al. | FeCAM: A universal compact digital and analog content addressable memory using ferroelectric | |
Umesh et al. | A survey of spintronic architectures for processing-in-memory and neural networks | |
US8274841B2 (en) | Semiconductor signal processing device | |
US11290110B2 (en) | Method and system for providing a variation resistant magnetic junction-based XNOR cell usable in neuromorphic computing | |
Chang et al. | PXNOR-BNN: In/with spin-orbit torque MRAM preset-XNOR operation-based binary neural networks | |
Hung et al. | Challenges and trends indeveloping nonvolatile memory-enabled computing chips for intelligent edge devices | |
He et al. | Exploring STT-MRAM based in-memory computing paradigm with application of image edge extraction | |
US9019737B2 (en) | Power savings in a content addressable memory device using masked pre-compare operations | |
US20130275709A1 (en) | Methods for reading data from a storage buffer including delaying activation of a column select | |
TW201618101A (zh) | 記憶電路 | |
He et al. | Exploring a SOT-MRAM based in-memory computing for data processing | |
Wang et al. | Reconfigurable bit-serial operation using toggle SOT-MRAM for high-performance computing in memory architecture | |
Tsai et al. | Testing of in-memory-computing 8T SRAMs | |
Zhang et al. | HD-CIM: Hybrid-device computing-in-memory structure based on MRAM and SRAM to reduce weight loading energy of neural networks | |
JP6919846B2 (ja) | メモリ装置 | |
Chung et al. | Domain wall memory based convolutional neural networks for bit-width extendability and energy-efficiency | |
Reis et al. | Attention-in-memory for few-shot learning with configurable ferroelectric FET arrays | |
Cai et al. | Commodity bit-cell sponsored MRAM interaction design for binary neural network | |
Chen et al. | Reconfigurable 2T2R ReRAM with split word-lines for TCAM operation and in-memory computing | |
JP2008269712A (ja) | 薄膜磁性体半導体記憶装置 | |
Ghosh et al. | Overview of circuits, systems, and applications of spintronics | |
You et al. | An 8b-Precision 8-Mb STT-MRAM Near-Memory-Compute Macro Using Weight-Feature and Input-Sparsity Aware Schemes for Energy-Efficient Edge AI Devices | |
Huang et al. | STT-MRAM based low power synchronous non-volatile logic with timing demultiplexing | |
Deng et al. | Multi-context non-volatile content addressable memory using magnetic tunnel junctions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
DPE2 | Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101) | ||
WWE | Wipo information: entry into national phase |
Ref document number: 2018509313 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 17774877 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 17774877 Country of ref document: EP Kind code of ref document: A1 |