WO2015114829A1 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
WO2015114829A1
WO2015114829A1 PCT/JP2014/052440 JP2014052440W WO2015114829A1 WO 2015114829 A1 WO2015114829 A1 WO 2015114829A1 JP 2014052440 W JP2014052440 W JP 2014052440W WO 2015114829 A1 WO2015114829 A1 WO 2015114829A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
memory
host
information processing
processing apparatus
Prior art date
Application number
PCT/JP2014/052440
Other languages
English (en)
French (fr)
Inventor
洋 内垣内
三浦 誓士
健三 黒土
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2014/052440 priority Critical patent/WO2015114829A1/ja
Priority to US15/113,747 priority patent/US20170003911A1/en
Priority to JP2015559716A priority patent/JP6139711B2/ja
Publication of WO2015114829A1 publication Critical patent/WO2015114829A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0652Erasing, e.g. deleting, data cleaning, moving of data to a wastebasket
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • G06F12/0238Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory
    • G06F12/0246Memory management in non-volatile memory, e.g. resistive RAM or ferroelectric memory in block erasable memory, e.g. flash memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/16Protection against loss of memory contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0616Improving the reliability of storage systems in relation to life time, e.g. increasing Mean Time Between Failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0646Horizontal data movement in storage systems, i.e. moving data in between storage devices or systems
    • G06F3/0647Migration mechanisms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices
    • G06F3/0688Non-volatile semiconductor memory arrays

Definitions

  • the present invention relates to an information processing apparatus and a computer suitable for high-speed processing of a large amount of data such as big data.
  • the data erasure unit (block) is larger than the data write unit, and data cannot be overwritten even if it is unnecessary data. For this reason, if the block is filled with necessary data and unnecessary data, new data cannot be written as it is.
  • the storage device controller when writing new data from the host (processor) to the storage device, if there is not enough writable area for random access, the storage device controller first transfers the necessary physically scattered data from each block. After reading, the block from which the data has been read is erased. Next, the controller of the storage device writes the read data to the erased block. As a result, a new writable area is generally secured. This process is called garbage collection.
  • Patent Document 1 for a storage device using a non-volatile memory, the storage device manages data separately based on the value of the logical address of the data, and stores data having similar logical address values in the same block. Techniques to do this are disclosed.
  • garbage collection occurs in a storage device that uses non-volatile memory
  • the host's read / write processing is awaited during garbage collection processing, resulting in performance degradation of the storage device, and garbage collection itself includes erasure processing.
  • the life of a storage device having an upper limit in the number of times is deteriorated.
  • an object of the present invention is to improve the efficiency of garbage collection in a low-cost and large-capacity nonvolatile memory, thereby speeding up data reading / writing of the storage device using the nonvolatile memory and further extending the life of the storage device. It is in.
  • the present invention is an information processing apparatus including a host that performs arithmetic processing and a memory subsystem connected to the host, wherein the host sends a write request including data and the type of data to the memory sub
  • the memory subsystem notifies the first memory and the size of the data erasure unit for erasing data is larger than the size of the data write unit, and has a larger data capacity than the first memory.
  • random access data and data other than random access are written to different erasure units of the second memory, and the random access data is stored in the second memory.
  • a memory unit that manages in units of writing and manages data other than the random access in units of erasure of the second memory. Having a system control module.
  • the present invention it is possible to provide a large-scale memory space necessary for analyzing a large amount of data such as big data at a low cost using a nonvolatile memory. Even if a request to read, write, or erase data continuously in a large data size unit and a random access request to a storage device using a nonvolatile memory and a random access request occur together, random access and other access Are stored in different erase units of the non-volatile memory. Thereby, the efficiency of garbage collection in the nonvolatile memory can be improved. Thus, high-speed data reading / writing can be realized, and the life of a storage device using a nonvolatile memory can be extended.
  • FIG. 1 is a block diagram illustrating an example of a memory subsystem according to a first embodiment of this invention.
  • FIG. 1 is a block diagram illustrating an example of a configuration of a chip, a block, and a page of a nonvolatile memory in a memory subsystem and an object to be read / written / erased according to the first embodiment of this invention.
  • FIG. 3 is a block diagram illustrating a first exemplary embodiment of the present invention and an example of a correspondence relationship between a chip, a block, and a page of a nonvolatile memory, a data group, and random access data.
  • FIG. 5 is a block diagram illustrating another example of a correspondence relationship between a chip, a block and a page of a nonvolatile memory, a data group, and random access data according to the first embodiment of this invention. It is a figure which shows the 1st Example of this invention and shows an example of a logical physical conversion table.
  • FIG. 4 is a flowchart illustrating an example of a data writing process according to the first embodiment of this invention. It is a block diagram which shows the 2nd Example of this invention and shows an example of the correspondence of the chip
  • FIG. 1 is a block diagram illustrating the overall configuration of a server (information processing apparatus) 10 that performs information processing.
  • the server (SVR) 10 includes a plurality of hosts (Host (1) 30-1 to Host (N) 30-N) that perform arithmetic processing, and interconnects that interconnect all the hosts 30-1 to 30-N ( Interconnect) 20 and a plurality of memory subsystems (MSS (1) to MSS (N)) 50-1 to 50-N connected to the respective hosts 30-1 to 30-N.
  • hosts Host (1) 30-1 to Host (N) 30-N
  • Interconnect Interconnect
  • MSS (1) to MSS (N) memory subsystems
  • the host 30 includes an arithmetic module (CPU) 40 that performs arithmetic processing, and one or more memories (DRAM) 43 connected to the memory controller 41 of the arithmetic module 40.
  • the arithmetic module 40 executes a program stored in the memory 43, reads information from the memory 43, and writes information into the memory 43 to execute processing.
  • All the hosts 30 can communicate with each other via the interconnect 20. Further, the host 30 can communicate with the memory subsystems 50 respectively connected via the interface 42 of the arithmetic module 40.
  • 1 shows an example in which the interface 42 is included in the arithmetic module 40, but the present invention is not limited to this example as long as the host 30 can perform data communication with the memory subsystem 50.
  • the interface 42 for example, PCI Express, DIMM, or the like can be adopted.
  • each of the memory subsystems 50-1 includes one memory subsystem control module (MSC) 60, one or more nonvolatile memories (NVM) 80-11 to 80ij, and one or more. Memory (DRAM) 72-1 to 72-p.
  • the memory subsystem control module 60 can communicate with the host 30-1, the non-volatile memory 80, and the memory 72. Note that since the memory subsystems 50-2 to 50-N have the same configuration as the memory subsystem 50-1, duplicate description will be omitted.
  • each of the nonvolatile memories 80-11 to 80ij is configured by one chip.
  • the data stored in the DRAM 72 can be saved to the nonvolatile memory 80 or the like at the time of power interruption by battery backup.
  • the memory 72 in the memory subsystem 50 is a memory for storing management information and the like, and is preferably a high-speed DRAM, but may be a memory such as an MRAM, a phase change memory, an SRAM, a NOR flash memory, or a ReRAM in addition to the DRAM. Further, data to be written to the nonvolatile memory 80 and data to be read may be temporarily stored and used as a cache of the nonvolatile memory 80.
  • the non-volatile memory 80 stores data written from the host 30, and the size of a data erasing unit such as an inexpensive and large-capacity NAND flash memory, phase change memory, or ReRAM is larger than the size of the data writing unit. It is memory.
  • FIG. 2 is a block diagram showing the memory subsystem 50 in more detail.
  • the memory subsystem 50 includes one memory subsystem control module (MSC) 60, nonvolatile memories (NVM (1, 1) to NVM (i, j)) 80-11 to 80ij, and memory (DRAM (1 ) To DRAM (p)) 72-1 to 72-p (i, j, p are natural numbers).
  • MSC memory subsystem control module
  • NVM nonvolatile memories
  • DRAM DRAM
  • p DRAM
  • the memory subsystem control module 60 includes a memory access control unit (DMAC) 62, a command buffer (C-BF) 66, a data buffer (D-BF) 65, an address buffer (A-BF) 64, and a metadata buffer.
  • DMAC memory access control unit
  • C-BF command buffer
  • D-BF data buffer
  • A-BF address buffer
  • M-BF 63
  • register (RG) 61 data control block
  • D-CTL_BLK data control block
  • NVMC (1) to NVMC (i)) 73-1 to 73-i DRAM control units
  • DRAMC (1) to DRAMC (p) 71-1 to 71-p.
  • the data control block 70 includes a data compression block (COMP_BLK) 69, a data classification block (CLSFY_BLK) 68, and a wear leveling block (WL_BLK) 67.
  • COMP_BLK data compression block
  • CLSFY_BLK data classification block
  • WL_BLK wear leveling block
  • the memory access control unit (DMAC) 62 is connected to the host 30, the command buffer 66, the data buffer 65, the address buffer 64, the metadata buffer 63, and the register 61 in FIG. 30) and relay communication.
  • DMAC memory access control unit
  • the command buffer 66 is a buffer that temporarily stores a data read command, a write command, an erase command, and the like.
  • the data buffer 65 is a buffer that temporarily stores data to be read and written.
  • the address buffer 64 is a buffer that temporarily stores data addresses in read, write, and erase commands from the host 30. The address buffer 64 can also temporarily store the data size.
  • the metadata buffer 63 is a group number of data in read, write and erase commands from the host 30, whether or not it is random access data, data type (graph data (CSR), analysis result (MSG), vertex information (VAL). ) And other metadata temporarily.
  • CSR graph data
  • MSG analysis result
  • VAL vertex information
  • the metadata is not limited to these, and may be other information.
  • the register 61 is a register that stores control information necessary for each control in the data control block 70 and can be read from the data control block 70.
  • the data control block 70 communicates with the register 61, the command buffer 66, the data buffer 65, the address buffer 64, and the metadata buffer 63, and controls the nonvolatile memory control unit 73 and the DRAM control unit 71.
  • Non-volatile memory control units NVMC (1) to NVMC (i)) 73-1 to 73-i are non-volatile memories (NVM (i, 1) to NVM (i, j)) 80-11 to 80-ij.
  • the data is read from the connected nonvolatile memory 80, the data is written, and the data is erased.
  • i is a natural number and represents a channel number, and each of the plurality of channels includes a data transfer bus (I / O) that can communicate independently.
  • J nonvolatile memories (NVM (i, 1), NVM (i, 2),..., NVM (i, j)) 80 belonging to one channel share a data transfer bus (I / O).
  • the nonvolatile memory control unit 73 determines whether each non-volatile memory 80 is processing data by acquiring a signal of a ready busy line (RY / BY) connected to each non-volatile memory 80. be able to.
  • the nonvolatile memory control unit 73 is connected to the data control block 70 and can communicate with each other.
  • the combination ij of the channel number i and the way number j can be used as an identifier for specifying the chip of the nonvolatile memory 80.
  • the DRAM controllers (DRAMC (1) to DRAMC (p)) 71-1 to 71-p are connected to the memories (DRAM (1) to DRAM (p)) 72-1 to 72-p, respectively. Data reading and data writing to the memory 72 are performed.
  • the DRAM controller 71 is connected to the data control block 70 and can communicate with each other.
  • the data capacity of the nonvolatile memory 80 is larger than the data capacity of the DRAM 72.
  • the data capacity per chip of the nonvolatile memory 80 is larger than the data capacity per chip of the DRAM 72.
  • the DRAM 72 is used.
  • any memory having a higher data transfer rate (number of bytes read / written per unit time) than the nonvolatile memory 80 may be used.
  • FIG. 3 is a block diagram illustrating an example of the configuration of the chip, block, and page of the nonvolatile memory 80 of the memory subsystem 50 and the processing target of read / write erasure.
  • the configuration of the non-volatile memory 80 and data read / write / erase processing will be described with reference to FIG.
  • Each non-volatile memory 80 is composed of N_blk blocks (BLK), and each block is composed of N_pg pages (PG).
  • N_blk and N_pg are natural numbers.
  • the data stored in the nonvolatile memory 80 is read in page units (data size), and when data is written to the nonvolatile memory 80, it is written in page units.
  • the data stored in the nonvolatile memory 80 is erased in units of blocks (data size).
  • the nonvolatile memory 80 When data is written to the non-volatile memory 80, data cannot be overwritten. For example, data can be written to a page (PG_e) in a block erased in FIG. 3 (Erase in the figure), but new data cannot be written to a page (PG_d) in which data has already been written.
  • the nonvolatile memory 80 has the following two characteristics.
  • Feature 1 The data size of the erase unit (block) is equal to or larger than the data size of the write unit (page).
  • FIG. 4 is a diagram illustrating an example of a graph constituting big data handled by the server 10.
  • the vertex number uniquely identifying each vertex is assigned to the vertex of the graph, and the edge of one graph connecting two vertices is between the two vertices at both ends of the edge. Represents a relationship.
  • Each vertex of the graph becomes the graph data to be analyzed.
  • the graph data is divided into groups according to the vertex numbers and is analyzed for each group.
  • FIG. 5 shows an example of a graph analysis sequence executed by the server 10.
  • the non-volatile memory 80 of the memory subsystem (MSS) 50 stores graph data (CSR), graph analysis results (MSG), and vertex information (VAL), which are divided into groups (Gr), respectively, by the host 30. It is read and written and processed. The following sequence is executed concurrently in N hosts 30 and memory subsystems 50.
  • the group (Gr) is a set of data classified according to the vertex number.
  • Time 1 First, the memory subsystem 50 stores the graph data (Read CSR Gr.1), the graph analysis result (Read MSG Gr.1), and the vertex information belonging to the group 1 stored in the nonvolatile memory 80. (Random Read / Write VAL) is read and transmitted to the host 30.
  • Reading of graph data (CSR) and graph analysis result (MSG) by the host 30 is sequential reading in the reading unit of the nonvolatile memory 80, but reading of the vertex information (VAL) is a fine 16-byte access unit. Random access at.
  • Time 3 Each host 30 transmits the result of the group 1 graph analysis to the other hosts 30. Each host 30 collects the results of the graph analysis sent from the other hosts 30 for each group and sends them to the memory subsystem 50. At the same time, each host 30 transmits the update result of the vertex information to the memory subsystem 50.
  • the memory subsystem 50 writes the result of the graph analysis among the data received from the host 30 to the nonvolatile memory 80 in the writing unit of the nonvolatile memory 80 (Write MSG (Gr. # At random) in the figure).
  • the memory subsystem 50 since the update result of the vertex information is transmitted to the memory subsystem 50 in a fine unit of 16 bytes, the memory subsystem 50 reads the writing unit of the nonvolatile memory 80 including the updated 16 bytes and updates only 16 bytes. Then, the Read-modify-write process for writing in the writing unit of the nonvolatile memory 80 is executed again. Alternatively, read-modify processing may be executed by the host 30 and transmitted from the host 30 to the memory subsystem 50 in units of writing in the nonvolatile memory 80 (Random Read / Write VAL).
  • the process and synchronization of this series of groups 1 to M is called a super step (SS), and after the synchronization, the process is repeated in order from group 1 again.
  • the graph analysis result (MSG) written in the memory subsystem 50 in the previous super step is read by the host 30 in the next super step. Graph analysis is performed by repeating this super step.
  • FIG. 6 is a diagram illustrating information transmitted to the memory subsystem 50 when the host 30 transmits read, write, and erase commands to the memory subsystem 50.
  • (A) Reading When the host 30 issues a read command for reading data from the memory subsystem 50 (Read), the host 30 indicates that it is a group number (Gr.) Of data to be read to the memory subsystem 50 or random access data. The metadata (random) to be shown and the data type (CSR / MSG / VAL) are transmitted. Alternatively, the host 30 transmits a logical address (Adr) and a read data size (size) to the memory subsystem 50. Based on the information received from the host 30, the memory subsystem 50 reads data from the non-volatile memory 80 and transmits the read data to the host 30.
  • C Erasing
  • the host 30 issues a data erasing command for the memory subsystem 50 (Erase)
  • the host 30 is a group number (Gr.) Of data to be erased to the memory subsystem 50 or random access data.
  • a data type CSR / MSG / VAL.
  • the host 30 transmits a logical address (Adr) and a data size to be deleted (size) to the memory subsystem 50.
  • the memory subsystem 50 erases data in the nonvolatile memory 80 based on the information received from the host 30.
  • the rewrite frequency corresponding to the type of data may be specified at the source level of the program that analyzes the graph. For example, by setting a period during which data is stored in the nonvolatile memory 80 at the source level, the host 30 can transmit the data rewrite frequency to the memory subsystem 50.
  • the data written to the register 61 is, for example, the number of groups of graph data to be analyzed.
  • the input of the data may be executed by a program executed by the host 30 or the data received by the server 10 from an external computer may be written into the register 61 by the host 30.
  • FIG. 7 is a block diagram showing an example of a correspondence relationship between a chip, a block and a page of the nonvolatile memory 80, a data group, and random access data.
  • the memory subsystem control module (MSC) 60 stores various management tables in the DRAM 72 of the memory subsystem 50, refers to the management table based on the data attribute (metadata) sent from the host 30, and Determine the writing destination.
  • LPT logical physical conversion table
  • API attribute physical conversion table
  • BLK_ST block management table
  • the write destination for each data attribute may be distributed and arranged in each channel (Ch.1 to Ch.i) of the nonvolatile memory 80 as shown in FIG.
  • the data storage destination of one group is the channel Ch. 1 to Ch. i are set over the same way number of i and are accessed in parallel.
  • One group may be assigned to a plurality of way numbers.
  • the random access data is stored in a block different from the chip block of the non-volatile memory 80 storing the group data. 1 to Ch. It is set across the same way number of i. Similarly, random access data may be assigned to a plurality of way numbers.
  • the memory subsystem control module 60 dynamically changes the write area of the nonvolatile memory 80 in accordance with the size of the write request data. The memory subsystem control module 60 determines whether the channel Ch. Change 1 to i.
  • an area for storing graph data (CSR) and graph analysis result (MSG) that are sequentially read by the host 30 is set so as to cross a plurality of channel numbers in units of groups, and read by the host 30.
  • An area for storing vertex information (VAL) for random access is set to a chip or block different from the above group.
  • the channel or chip for writing the random access data and the data to which the group number is added may be separated.
  • FIG. 8 is a block diagram showing another example of the correspondence relationship between the chip, block, and page of the nonvolatile memory 80, the data group, and the random access data.
  • the channel Ch. 1 to Ch. i-1 is composed of a NAND flash memory such as MLC (Multiple Level Cell) and stores a channel Ch. i is composed of a chip having a long rewritable life, such as SLC (Single Level Cell) NAND flash memory or ReRAM.
  • MLC Multiple Level Cell
  • SLC Single Level Cell
  • Management tables required in the data writing process are shown in FIGS. 9A to 9C. These management tables are set in the DRAM 72 by the memory subsystem control module (MSC) 60 before starting the analysis of the graph data.
  • MSC memory subsystem control module
  • FIG. 9A shows a logical-physical translation table (LPT) 110 that associates a logical address 1101 and a physical address 1102 of data.
  • LPT logical-physical translation table
  • MSC memory subsystem control module
  • FIG. 9B is a diagram illustrating an example of the block management table (BLK_ST) 120.
  • a block position 1201, a block state 1202, and the erase count 1203 of the block are included in one record.
  • the block position 1201 includes a channel number (i), a way number (j), and a block number N_br.
  • the block state 1202 stores preset states such as erased “ERASED”, reserved “ALLOCATED”, defective block “BAD”, and data written “PROGRAMMED”.
  • the erase count 1203 is incremented by 1 every time the block is erased once.
  • FIG. 9C is a diagram illustrating an example of an attribute physical conversion table (APT) 130 that manages a writing destination for each data attribute.
  • the attribute physical conversion table 130 stores a group 1301 for storing a group of data, a data type 1302 for storing a data type, a page count 1303 for storing the number of pages already written, and data of the group next.
  • the physical addresses 1304 of the blocks 1 to i to be included are included in one entry.
  • the group 1301 stores a group number (1 to M) or “Random” indicating random access data.
  • the data type 1302 stores graph data (CSR), graph analysis result (MSG), or vertex information (VAL).
  • the page count 1303 stores the number of pages already written for each data type.
  • the physical address 1304 stores a channel number, a way number, and a block number N_br. A block number for storing data next is stored for each data type.
  • the attribute physical conversion table (APT) 130 is set by the memory subsystem control module (MSC) 60 according to the configuration of the nonvolatile memory 80 and the like.
  • the group 1301 is set by the memory subsystem control module (MSC) 60 based on the number of groups written in the register 61.
  • FIG. 10 is a flowchart showing an example of the data writing process executed by the memory subsystem 50.
  • the data control block (D-CTL_BLK) 70 of the memory subsystem control module (MSC) 60 refers to the register (RG) 61 and receives a data write request from the host 30 (step S1).
  • the data control block (D-CTL_BLK) 70 stores a command, data, address, and metadata included in the data write request received from the host 30 into a command buffer (C-BF) 66 and a data buffer (D-BF). ) 65, the address buffer (A-BF) 64, and the metadata buffer (M-BF) 63, respectively.
  • C-BF command buffer
  • D-BF data buffer
  • A-BF address buffer
  • M-BF metadata buffer
  • the data classification block (CLSFY_BLK) 68 refers to the metadata buffer (M-BF) 63 (step S2), and determines whether the received data is data with a group number added or random access data (Ste S3).
  • step S4 the data classification block (CLSFY_BLK) 68 refers to the block management table 120, and whether there are enough free blocks, that is, the number of free blocks remains above the threshold (Th1). It is determined whether or not there is (step S4).
  • CLSFY_BLK data classification block
  • the threshold (Th1) of the number of free blocks is determined in advance by the host 30, and is notified to the memory subsystem 50 before data is written. Alternatively, it is determined by the memory subsystem control module (MSC) 60 based on the history of data access, the capacity of the nonvolatile memory 80, the data necessary for the control written in the register 61 in (E1) above, and the like.
  • MSC memory subsystem control module
  • step S4 If it is determined in step S4 that the number of free blocks remains greater than or equal to the threshold (Th1), the process proceeds to step S5. On the other hand, when the number of free blocks does not remain more than the threshold (Th1), the memory subsystem control module (MSC) 60 executes garbage collection (GC) to increase the number of free blocks. Note that after the garbage collection (GC) is completed, the process returns to step S4.
  • the garbage collection process is not illustrated because a known or publicly known technique may be applied.
  • step S5 first, the data classification block (CLSFY_BLK) 68 refers to the row corresponding to the corresponding data classification in the attribute physical conversion table (APT) 130 of FIG. 9C. Then, the data classification block (CLSFY_BLK) 68 adds 1 to the page count 1303 of the corresponding row.
  • the data control block 70 refers to the block management table (BLK_ST) 120 in FIG. "Is selected one block at a time from each chip (channels Ch.1 to Ch.i), and set as a new write destination.
  • the threshold (Th2) is, for example, the total number of pages of the nonvolatile memory 80 included in i blocks constituting one row of the physical address 1304.
  • the data control block (D-CTL_BLK) 70 sets the physical address 1304 of the attribute physical conversion table (APT) 130 for the currently written group with the selected i block numbers, channel numbers, and way numbers. Update.
  • the data control block (D-CTL_BLK) 70 updates the state of the block recorded in the block management table (BLK_ST) 120 with respect to the selected block from “ERASED” to “ALLOCATED”.
  • the value of the page count 1303 of the corresponding row of (APT) 130 is updated to 1 (step S5).
  • step S6 the data control block (D-CTL_BLK) 70 determines a data write destination.
  • the data classification block (CLSFY_BLK) 68 refers to the items of the page count 1303 and physical address 1304 of the corresponding data classification in the attribute physical conversion table (APT) 130.
  • the data classification block (CLSFY_BLK) 68 determines the next write destination chip (i, j), block (N_blk), and page (N_pg) from the value of the page count 1303 in the attribute physical conversion table (APT) 130.
  • the i write destinations recorded in the item of the physical address 1304 are selected.
  • the data classification block (CLSFY_BLK) 68 writes to the nonvolatile memory control units (NVMC) 73-1 to 73-i of the channel (Ch.i) that controls the selected write destination chip (i, j). Send a request.
  • the nonvolatile memory control unit 73 that has received the write request writes the value of the data buffer (D-BF) 65 to the page (N_pg) of the block (N_blk) of the specified chip (i, j).
  • the data classification block (CLSFY_BLK) 68 updates the logical-physical translation table (LPT) 110 in FIG. 9A by associating the logical address corresponding to the written physical address 1304, and the block management table 120 shown in FIG. 9B.
  • the column of the block status 1202 in the row of the block where writing has been performed is updated from “ALLOCATED” to “PROGRAMMED” (step S7).
  • graph data (CSR) and graph analysis result (MSG) that are sequentially read by the host 30 are stored in the non-volatile memory 80 across a plurality of channel numbers in units of groups.
  • Vertex information (VAL) for random access can be written to a chip or block (erase unit) different from the above group.
  • the memory subsystem control module (MSC) 60 sets the attribute physical conversion table (APT) 130.
  • the memory subsystem control module 60 uses the configuration of the nonvolatile memory 80 as a host.
  • the attribute physical conversion table 130 may be set by a program executed on the host 30.
  • the memory subsystem control module (MSC) 60 stores the write request data in the non-compressed memory 80 without being compressed.
  • the data is compressed. Show.
  • FIG. 11 is a block diagram showing an example of the correspondence between chips, blocks and pages of a nonvolatile memory and a group of compressed data in the second embodiment.
  • the DRAM 72 stores buffers 720-1 to 720 -M and a DRAM buffer management table 140 for each group (1 to M).
  • Other configurations are the same as those of the first embodiment, and the duplicate description of the same components is omitted.
  • Buffers 720-1 to 720-M are storage areas for temporarily storing the compressed data for each of groups 1 to M after the memory subsystem control module (MSC) 60 compresses the write data received from the host 30. It is.
  • the DRAM buffer management table 140 is a table for managing the compressed data stored in the buffers 720-1 to 720-M.
  • the memory subsystem control module (MSC) 60 receives a data and write request from the host 30 (1. Write Req. In FIG. 11).
  • the memory subsystem control module (MSC) 60 compresses the data sent from the host 30 (2. Compression in FIG. 11). Whether to compress data may be determined by whether the host 30 transmits a compression request in addition to a data write request, or may be determined by the memory subsystem control module (MSC) 60. .
  • FIG. 12A is a diagram illustrating an example of a change in data size before and after data compression processing.
  • the compressed data is a compressed data size smaller than the write unit (page) of the nonvolatile memory 80.
  • Managed in units CMP_unit.
  • this compressed data size unit CMP_unit is managed in 2K bytes, for example, and one page size is managed in 4 compressed data size units.
  • the compressed data is buffered by the memory subsystem control module (MSC) 60 in buffers 720-1 to 720-M set in the DRAM 72 of the memory subsystem 50 at different physical addresses for each group of data. (3. Buffer Data in FIG. 11).
  • the memory subsystem control module (MSC) 60 writes the compressed data to the nonvolatile memory 80 in a predetermined writing unit.
  • FIG. 12B is a diagram illustrating an example of a change in data size before and after data compression processing.
  • the memory subsystem control module (MSC) 60 when data is sent from the host 30 in a plurality of write units (PAGE SIZE) of the nonvolatile memory 80, the memory subsystem control module (MSC) 60 stores the compressed data in a nonvolatile manner. Write in the unit of writing in the memory 80. When the compressed data size reaches the page size, the compressed data is not buffered in the buffers 720-1 to 720-M of the DRAM 72, and is based on the data write processing flowchart shown in (E2) above. The memory subsystem control module (MSC) 60 writes the compressed data directly into the nonvolatile memory 80 in units of writing in the nonvolatile memory 80.
  • PAGE SIZE write units
  • FIG. 13A is a logical-physical translation table (LPT) 110A that associates logical addresses and physical addresses of data.
  • LPT logical-physical translation table
  • the data size corresponding to one logical address is variable during data compression. For this reason, a physical address in which data corresponding to one logical address is stored is divided into compressed data size units (CMP_unit) smaller than the writing unit of the nonvolatile memory 80 and managed.
  • CMP_unit compressed data size units
  • 13A includes a logical address 1101, a physical address 1102 indicating the start position of the compressed data, a compression unit 1103 indicating the start position of the compressed data, and a page that is the end point of the compressed data.
  • One record includes a physical address 1104 indicating the position and a compression unit 1106 which is the end point of the compressed data.
  • one write unit (page) of the nonvolatile memory 80 is divided into four compressed data size units (CMP_unit).
  • the data of the logical address 0x000000 in the first row is the second compressed data of the same physical address (page) 0x10c8b0 from the 0th compressed data size unit (CMP_unit) of the physical address (corresponding to the writing unit of the nonvolatile memory 80) 0x10c8b0. It is stored in the size unit (CMP_unit). Others are the same.
  • FIG. 13B is a DRAM buffer 1 management table (CMP_BFT) 140 that temporarily stores compressed data.
  • the DRAM buffer management table 140 manages the buffer of two pages, page 0 and page 1, corresponding to the buffers 720-1 to 720-M shown in FIG. .
  • the DRAM buffer management table 140 includes a group 1401 for storing group numbers, logical addresses 1402-1 to 1402-4 of page 0 compressed data size units (CMP_unit 0 to 3), and page 1 compressed data size units (CMP_unit 0 to 3) includes logical addresses 1403-1 to 1403-4 in one record.
  • the memory subsystem control module (MSC) 60 stores data in the buffers 720-1 to 720-M of the DRAM 72 in units of groups.
  • FIG. 13B shows an example in which a data area for two write units of the nonvolatile memory 80 is secured in the buffer 720 for each group. Since the writing unit of the nonvolatile memory 80 is further divided into four compressed data size units (CMP_unit), the logical addresses (1402-1 to 1402-4) corresponding to the data for each compressed data size unit (CMP_unit) are divided. ) Is recorded in the DRAM buffer management table 140.
  • CMP_unit compressed data size units
  • FIG. 13B an example of a table that records the logical address corresponding to each compressed data is given. For example, a logical address is added to the head of the compressed data, and the logical address is recorded in the DRAM buffer 720 together with the compressed data. May be.
  • FIG. 14A and 14B are flowcharts illustrating an example of data compression and writing processing performed in the memory subsystem 50.
  • FIG. 14A and 14B are flowcharts illustrating an example of data compression and writing processing performed in the memory subsystem 50.
  • FIG. 14A is a flowchart of processing performed in the memory subsystem 50 when data is sent from the host 30 in the write unit (PAGE SIZE) of the nonvolatile memory 80.
  • the data compression block (COMP_BLK) 69 of the memory subsystem control module (MSC) 60 refers to the register 61 and receives a data write request from the host 30 (step S11).
  • the data compression block (COMP_BLK) 69 refers to the attribute (or data group) of the data of the write request stored in the metadata buffer (M-BF) 63 (step S12). Then, the data compression block (COMP_BLK) 69 compresses the data stored in the data buffer (D-BF) 65 (step S13).
  • the data compression block (COMP_BLK) 69 stores the compressed data in the buffer 720 of the DRAM 72 of the memory subsystem 50. As the storage destination of the compressed data, the buffers 720-1 to 720-M corresponding to the data group referred to in step S12 are selected.
  • the data compression block (COMP_BLK) 69 acquires the logical address of the data stored in the address buffer (A-BF) 64. Based on the logical address value of the acquired data, the data compression block (COMP_BLK) 69 updates the DRAM buffer management table (CMP_BFT) 140 of the memory subsystem 50 (step S15). In this update, the acquired logical address is written in the page of the buffer 720 in which the compressed data is written and the compressed data size unit (CMP_unit 0 to 3).
  • CMP_BFT DRAM buffer management table
  • the data compression block (COMP_BLK) 69 determines whether or not the data of the currently written group is accumulated in the buffer 720 by the writing unit of the nonvolatile memory 80. (Step S16).
  • the data compression block (COMP_BLK) 69 sends the next request from the host 30. (Wait Next Req.).
  • data is stored in the buffers 720-1 to 720-M for each group of data.
  • the random access data is compressed by providing a buffer in the DRAM 72 in the same manner as described above. .
  • the data compression block 69 compresses the write data received from the host 30 and stores it in the buffer 720.
  • the data compression block 69 writes it into the nonvolatile memory 80.
  • the data write destination is the same as in the first embodiment, and the block of the non-volatile memory 80 for storing data for sequential access and the block for storing random access data are separated, and further, the data is compressed.
  • the storage area of the nonvolatile memory 80 can be used effectively.
  • FIG. 14B is a flowchart of processing performed by the memory subsystem 50 when data is sent from the host 30 in a plurality of write units (PAGE SIZE) of the nonvolatile memory 80. That is, as shown in FIG. 12B, the process is performed when a plurality of pages are compressed and fit on one page.
  • PAGE SIZE write units
  • Steps S21 to S23 are the same as in FIG. 14A.
  • the compressed data is not stored in the buffer 720 of the DRAM 72, but is written in units of writing in the nonvolatile memory 80 in accordance with the data writing process shown in FIG.
  • the use efficiency of the nonvolatile memory 80 can be improved by compressing data.
  • the data compression block 69 restores the compressed data, although not shown.
  • FIGS. 15 to 18 show a third embodiment.
  • a final write block management table 150 is added to the configuration of the first embodiment, and a write destination is selected when data is written to the memory subsystem 50.
  • FIG. 15 is a block diagram showing an example of a correspondence relationship between chips and blocks of a nonvolatile memory and stored data types.
  • the type of data (graph data (CSR), analysis result (MSG), vertex information (VAL), etc.) is notified from the host 30 to the memory subsystem control module (MSC) 60 together with the write request and data.
  • the memory subsystem control module (MSC) 60 changes the data write destination selection method based on the received data type.
  • the graph data is not updated during the graph processing, but the analysis result (MSG) of the graph processing is It is updated every super step (SS). Further, the vertex information (VAL) is updated at random in a fine access unit of 16 bytes, for example.
  • the memory subsystem control module (MSC) 60 writes and updates graph data (CSR) with a low update frequency to a block (OLD BLK) with a relatively large number of erases (compared to the overall average of the memory subsystem 50).
  • CSR graph data
  • OLD BLK a block with a relatively large number of erases (compared to the overall average of the memory subsystem 50).
  • MSG frequently analyzed result
  • YOUNG BLK a small number of erasures
  • NEXT BLK next to the last written block
  • the uneven number of erases between different blocks is corrected, the frequency of static wear leveling is decreased, and the performance and life of the nonvolatile memory 80 are improved.
  • FIG. 16 is a block diagram showing another example of the correspondence between chips and blocks of nonvolatile memory and stored data types.
  • the memory subsystem control module (MSC) 60 receives a write request from the host 30 (step S31).
  • the wear leveling block (WL_BLK) 67 of the memory subsystem control module (MSC) 60 refers to the type of data recorded in the metadata buffer (M-BF) 63 (step S32).
  • the wear leveling block (WL_BLK) 67 is stored in the DRAM 72 of the memory subsystem 50 in the block management table (BLK_ST) 120 shown in FIG. 9B of the first embodiment or the last write block management table (shown in FIG. 18).
  • LST_BLK) 150 is referred to (step S33).
  • the wear leveling block (WL_BLK) 67 acquires the erase count (Erase cycle) of the non-volatile memory 80, the block number (Last programmed block) last written to the chip of each channel and way, and the like.
  • the wear leveling block (WL_BLK) 67 determines the next writing destination block based on the acquired information and the type of data referenced in step S32 (step S34).
  • the next writing destination block is determined by executing the processing described in FIG. 15 or FIG.
  • the wear leveling block (WL_BLK) 67 transmits a write request to the nonvolatile memory control unit NVMC 73 of the channel to which the write destination chip belongs. Then, the wear leveling block (WL_BLK) 67 updates the block status (Status of block) 1202 from “ERASED” to “ALLOCATED” or “PROGRAMMED” in the row of the corresponding data type in the block management table (BLK_ST) 120. Then, the last written block management table (LST_BLK) 150, the attribute physical conversion table (APT) 130, and the logical physical conversion table (LPT) 110 are updated (step S35).
  • non-volatile memory 80 such as a NAND flash memory whose bit cost is lower than that of a DRAM or the like, and even in that case, randomly accessed data and other data Are stored in different erasure units (for example, blocks) in the nonvolatile memory 80.
  • erasure units for example, blocks
  • data is compressed by the memory subsystem 50, and data access to the nonvolatile memory 80 is reduced by buffering the compressed data for each data classification in a small capacity but high speed memory such as DRAM. And high-speed data access becomes possible. Furthermore, by switching the selection method of the write destination for each data classification, the number of erasures of the nonvolatile memory 80 can be leveled, and it is possible to suppress the deterioration of the life of the storage device.
  • the server 10 including the host 30 that performs data processing, the nonvolatile memory 80, and the memory subsystem control module 60 that manages the nonvolatile memory 80 has been described. You may comprise from the host 30 which manages analysis and the non-volatile memory 80, and the memory subsystem control module 60 which controls the non-volatile memory 80 according to management of the host 30.
  • a large-scale graph is classified and managed into a plurality of groups (Gr.) And random access, and graph data and analysis results according to vertex numbers and data types.
  • graph data itself is frequently used.
  • the large-scale graph processing and the big data processing to be handled are not limited to the above example, for example, the updated graph data is handled as another classification.
  • MapReduce processing big data (controlled by key and value) is divided into a plurality of groups (Gr.) For each key value and managed separately from other random access data. You may perform a memory process similarly to the said process.
  • the memory processing may be executed by regarding the same array as the same data type.
  • the scope of application includes a case where a large-scale database search and data extraction are performed. In these processes, big data can be read and written at high speed, so that the big data processing can be speeded up.
  • the configuration of the computer, the processing unit, and the processing unit described in the present invention may be partially or entirely realized by dedicated hardware.
  • the various software exemplified in the present embodiment can be stored in various recording media (for example, non-transitory storage media) such as electromagnetic, electronic, and optical, and through a communication network such as the Internet. It can be downloaded to a computer.
  • recording media for example, non-transitory storage media
  • a communication network such as the Internet. It can be downloaded to a computer.
  • the present invention is not limited to the above-described embodiments, and includes various modifications.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and are not necessarily limited to those having all the configurations described.

Abstract

 演算処理を行うホストに接続されたメモリサブシステムを備えた情報処理装置であって、前記ホストは、データと、前記データの種類を含む書き込み要求をメモリサブシステムへ通知し、前記メモリサブシステムは、第1のメモリと、データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、前記データの種類に基づいて、ランダムアクセスデータと、ランダムアクセス以外のデータとを、前記第2のメモリの異なる消去単位に書き込む。

Description

情報処理装置
 本発明は、ビッグデータ等の大量のデータの高速処理に適した情報処理装置及び計算機に関するものである。
 今後、ビッグデータ等の大量のデータを計算機で解析することにより、社会における様々な現象を予測または管理する需要が高まる。このため、計算機が扱うデータ量は爆発的に増加し、ビッグデータを安価に低消費電力で記憶できる大容量不揮発性メモリの使用が望まれる。また、ビッグデータの解析では、計算機で多くのデータを読み書きする必要があるため、読み書きの高速化も望まれる。
 従来の不揮発性メモリを用いた記憶装置では、データ消去単位(ブロック)がデータ書き込み単位より大きく、不要なデータであってもデータの上書きができない。このため、ブロックが必要なデータと不要なデータで満たされるとそのままでは新しいデータを書き込めない。
 そこで、ホスト(プロセッサー)から記憶装置へ新しいデータを書き込む際、ランダムアクセスのために書き込み可能な領域が不足すると、記憶装置のコントローラは、まず、物理的に散在する必要なデータをそれぞれのブロックから読み出した後、データを読み出したブロックを消去する。次に、記憶装置のコントローラは、読み出したデータを消去されたブロックへ書き込む。これにより新たな書き込み可能な領域を確保するのが一般的であった。この処理はガーベッジコレクションと呼ばれている。
 また、特許文献1には、不揮発性メモリを用いた記憶装置に対し、記憶装置はデータの論理アドレスの値を基にデータを分けて管理し、論理アドレスの値が近いデータを同じブロックに格納する技術が開示されている。
特開2009-64251号公報
 不揮発性メモリを用いた記憶装置でガーベッジコレクションが発生すると、ガーベッジコレクションの処理中はホストの読み書きの処理が待たされて記憶装置の性能低下を招き、さらにガーベッジコレクションそのものが消去処理を含むため、消去回数に上限のある記憶装置の寿命の劣化を招く。
 また、上記ビッグデータ解析では、データの解析を実行するホストから不揮発性メモリを用いた記憶装置へ、大きなデータサイズ単位でデータを連続に読み出し/書き込み/消去するリクエストと、ランダムアクセスリクエストが混在して発行される。このため、不揮発性メモリの同じブロックに、ランダムアクセスするデータとそうでないデータが混在する。その結果、ガーベッジコレクションで本来、移動及び消去する必要のない、ランダムアクセス以外のデータも移動及び消去してしまい、ガーベッジコレクションによる性能の低下や寿命の劣化が大きかった。
 上記の特許文献1に開示された技術では、論理アドレスの値のみでデータを区分けして管理しており、依然として、不揮発性メモリの同じブロックにランダムアクセスするデータとそうでないデータが混在する。そのため、ガーベッジコレクションで本来移動及び消去する必要のない、ランダムアクセス以外のデータにも移動/消去が発生してしまい、上記課題を解決できていない。
 そこで、本発明の目的は、安価で大容量な不揮発性メモリにおけるガーベッジコレクションの効率を向上させることにより、不揮発性メモリを用いた記憶装置のデータ読み書きを高速化し、さらに記憶装置の寿命を延ばすことにある。
 本発明は、演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、前記ホストは、データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、前記メモリサブシステムは、第1のメモリと、データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、前記データの種類に基づいて、ランダムアクセスデータと、ランダムアクセス以外のデータとを、前記第2のメモリの異なる消去単位に書き込み、前記ランダムアクセスデータを前記第2のメモリの書き込み単位で管理し、前記ランダムアクセス以外のデータを前記第2のメモリの消去単位で管理するメモリサブシステム制御モジュールと、を有する。
 本発明によれば、ビッグデータ等の大量のデータの解析などに必要な大規模なメモリ空間を不揮発性メモリで安価に提供できる。ホストから不揮発性メモリを用いた記憶装置へ、大きなデータサイズ単位でデータを連続に読み出し、または書き込み、または消去するリクエストと、ランダムアクセスリクエストが混在して発生した場合でも、ランダムアクセスとそうでないアクセスを不揮発性メモリの異なる消去単位に格納する。これにより、不揮発性メモリにおけるガーベッジコレクションの効率を向上できる。これにより高速なデータの読み書きを実現することができ、不揮発性メモリを用いた記憶装置の寿命を延ばすことが可能となる。
本発明の第1の実施例を示し、サーバの一例を示すブロック図である。 本発明の第1の実施例を示し、メモリサブシステムの一例を示すブロック図である。 本発明の第1の実施例を示し、メモリサブシステム内の不揮発性メモリのチップ、ブロック、ページの構成と読み書き消去の処理対象の一例を示すブロック図である。 本発明の第1の実施例を示し、サーバの処理対象となるビッグデータを構成するグラフの一例を示す図である。 本発明の第1の実施例を示し、サーバにおいて実行されるグラフ解析処理のシーケンスの一例を示す図である。 本発明の第1の実施例を示し、ホストからメモリサブシステムへ送信される情報の一例を示す図である。 本発明の第1の実施例を示し、不揮発性メモリのチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係の例を示すブロック図である。 本発明の第1の実施例を示し、不揮発性メモリのチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係の他の例を示すブロック図である。 本発明の第1の実施例を示し、論理物理変換テーブルの一例を示す図である。 本発明の第1の実施例を示し、ブロック管理テーブルの一例を示す図である。 本発明の第1の実施例を示し、属性物理変換テーブルの一例を示す図である。 本発明の第1の実施例を示し、データ書き込み処理の一例を示すフローチャートである。 本発明の第2の実施例を示し、不揮発性メモリのチップ、ブロック及びページと圧縮データのグループとの対応関係の一例を示すブロック図である。 本発明の第2の実施例を示し、データ圧縮処理前後でのデータサイズの変化の例を示す図である。 本発明の第2の実施例を示し、データ圧縮処理前後でのデータサイズの変化の例を示す図である。 本発明の第2の実施例を示し、データ圧縮時における論理物理変換テーブルの一例を示す図である。 本発明の第2の実施例を示し、DRAMバッファ管理テーブルの一例を示す図である。 本発明の第2の実施例を示し、メモリサブシステムで行われるデータ圧縮及び書き込み処理の一例を示すフローチャートである。 本発明の第2の実施例を示し、メモリサブシステムで行われるデータ圧縮及び書き込み処理の一例を示すフローチャートである。 本発明の第3の実施例を示し、不揮発性メモリのチップ、ブロックと格納されるデータ種との対応関係の一例を示すブロック図である。 本発明の第3の実施例を示し、異なる種類の不揮発性メモリのチップが混在した際の、チップと格納されるデータ種との対応関係の一例を示すブロック図である。 本発明の第3の実施例を示し、書き込み先選択処理の一例を示すフローチャートである。 本発明の第3の実施例を示し、不揮発性メモリの最終書き込みブロック管理テーブルの一例を示す図である。
 以下、本発明の実施の形態について添付図面を用いて説明する。
<A.サーバの構成>
 まず、サーバ(SVR)10の構成について、図1と図2を用いて説明する。図1は、情報処理を行うサーバ(情報処理装置)10の全体の構成を示すブロック図である。
 サーバ(SVR)10は、演算処理を行う複数のホスト(Host(1)30-1~Host(N)30-N)と、全てのホスト30-1~30-Nを相互に接続するインターコネクト(Interconnect)20と、それぞれのホスト30-1~30-Nに接続された複数のメモリサブシステム(MSS(1)~MSS(N))50-1~50-Nとから構成される。なお、以下の説明では、ホスト30-1~30-Nの総称を符号30で表す。他の構成要素についても同様であり、「-」のない符号は構成要素の総称を示し、「-」を付与した符号は個々の構成要素を示す。
 ホスト30は、演算処理を行う演算モジュール(CPU)40と、演算モジュール40のメモリコントローラ41に接続された1個以上のメモリ(DRAM)43から構成される。演算モジュール40はメモリ43に格納したプログラムを実行し、メモリ43から情報を読み込み、情報をメモリ43へ書き込むことにより処理を実行する。
 全てのホスト30はインターコネクト20を介して互いに通信することができる。また、ホスト30は、演算モジュール40のインターフェース42を介してそれぞれ接続されたメモリサブシステム50と互いに通信することができる。また、図1にはインターフェース42が演算モジュール40に含まれる例を示したが、ホスト30がメモリサブシステム50とデータ通信できれば、この例に限らない。インターフェース42としては、例えば、PCI ExpressやDIMM等を採用することができる。
 メモリサブシステム50-1は、図2で示すように、それぞれ1個のメモリサブシステム制御モジュール(MSC)60と、1個以上の不揮発性メモリ(NVM)80-11~80ijと、1個以上のメモリ(DRAM)72-1~72-pから構成される。メモリサブシステム制御モジュール60はホスト30-1、不揮発性メモリ80及びメモリ72と互いに通信することができる。なお、メモリサブシステム50-2~50-Nはメモリサブシステム50-1と同様の構成であるので、重複した説明を省略する。なお、図示の例では、不揮発性メモリ80-11~80ijのそれぞれが、ひとつのチップで構成された例を示す。なお、DRAM72に保存されたデータは、図示はしないがバッテリバックアップによって、電断時に不揮発性メモリ80などへデータを退避させることができる。
 メモリサブシステム50の中のメモリ72は、管理情報などを格納するメモリであり、高速なDRAMが好ましいが、DRAM以外にMRAM、相変化メモリ、SRAM、NORフラッシュメモリ、ReRAMなどのメモリでもよい。また、不揮発性メモリ80へ書き込むデータと、読み出すデータとを一時的に記憶して不揮発性メモリ80のキャッシュとして使用してもよい。不揮発性メモリ80はホスト30から書き込まれたデータを格納するメモリであり、安価で大容量なNANDフラッシュメモリ、相変化メモリ、ReRAMなどのデータ消去単位のサイズが、データ書き込み単位のサイズ以上であるメモリである。
 図2はメモリサブシステム50を更に詳細に示したブロック図である。
 メモリサブシステム50は、1個のメモリサブシステム制御モジュール(MSC)60と、不揮発性メモリ(NVM(1,1)~NVM(i,j))80-11~80ijと、メモリ(DRAM(1)~DRAM(p))72-1~72-pとから構成される(i、j、pは自然数)。
 メモリサブシステム制御モジュール60は、メモリアクセス制御部(DMAC)62とコマンドバッファ(C-BF)66と、データバッファ(D-BF)65と、アドレスバッファ(A-BF)64と、メタデータバッファ(M-BF)63と、レジスタ(RG)61と、データ制御ブロック(D-CTL_BLK)70と、不揮発性メモリ制御部(NVMC(1)~NVMC(i))73-1~73-iと、DRAM制御部(DRAMC(1)~DRAMC(p))71-1~71-pとから構成される。
 データ制御ブロック70は、データ圧縮ブロック(COMP_BLK)69と、データ分類ブロック(CLSFY_BLK)68と、ウェアレベリングブロック(WL_BLK)67とから構成される。
 メモリアクセス制御部(DMAC)62は、図1におけるホスト30と、コマンドバッファ66と、データバッファ65と、アドレスバッファ64と、メタデータバッファ63と、レジスタ61と接続されており、接続先(ホスト30)との間で通信を中継する。
 コマンドバッファ66、データバッファ65、アドレスバッファ64、メタデータバッファ63、レジスタ61のそれぞれは、データ制御ブロック70とも接続されている。コマンドバッファ66は、データの読み出し命令、書き込み命令、消去命令などを一時的に格納するバッファである。データバッファ65は、読み書きされるデータを一時的に格納するバッファである。アドレスバッファ64は、ホスト30からの読み出し、書き込み及び消去命令におけるデータのアドレスを一時的に格納するバッファである。なお、アドレスバッファ64は、データのサイズも一時的に格納することができる。
 メタデータバッファ63は、ホスト30からの読み出し、書き込み及び消去命令におけるデータのグループ番号、ランダムアクセスデータか否か、データの種類(グラフデータ(CSR)、解析結果(MSG)、頂点情報(VAL))などのメタデータを一時的に格納するバッファである。ただし、メタデータはこれらに限定されるものではなく、これ以外の情報であってもよい。
 レジスタ61は、データ制御ブロック70における各制御で必要な制御情報を格納して、データ制御ブロック70から読み出し可能とするレジスタである。
 データ制御ブロック70は、レジスタ61、コマンドバッファ66、データバッファ65、アドレスバッファ64、メタデータバッファ63と通信し、不揮発性メモリ制御部73とDRAM制御部71を制御するものである。
 不揮発性メモリ制御部(NVMC(1)~NVMC(i))73-1~73-iは、不揮発性メモリ(NVM(i,1)~NVM(i,j))80-11~80-ijに接続されており、接続された不揮発性メモリ80のデータ読み出しと、データの書き込みと、データの消去を行う。ここで、iは自然数であってチャネル番号を表し、複数のチャネルはそれぞれ独立して通信できるデータ転送バス(I/O)を備える。1つのチャネルに属するj個の不揮発性メモリ(NVM(i,1), NVM(i,2), …, NVM(i,j))80は、データ転送バス(I/O)を共有する。
 また、各チャネル(Ch1~Chi)に属するj個の不揮発性メモリ80は、メモリとしては独立しているため、不揮発性メモリ制御部73からの命令を独立して処理することができる。j個の不揮発性メモリ80は、不揮発性メモリ制御部(NVMC)73から物理的に近い順にウェイ(Way1, Way2, …, Wayj)に属する。各不揮発性メモリ80がデータ処理中であるか否かを、不揮発性メモリ制御部73は、各不揮発性メモリ80に接続されたレディービジー線(RY/BY)の信号を取得することで判定することができる。不揮発性メモリ制御部73は、データ制御ブロック70と接続され、互いに通信することができる。
 なお、チャネル番号iと、ウェイ番号jの組み合わせijは、不揮発性メモリ80のチップを特定する識別子として用いることができる。
 DRAM制御部(DRAMC(1)~DRAMC(p))71-1~71-pは、それぞれメモリ(DRAM(1)~DRAM(p))72-1~72-pに接続され、メモリ72からのデータ読み出しと、メモリ72へのデータの書き込みを行う。また、DRAM制御部71はデータ制御ブロック70と接続され、互いに通信することができる。
 なお、不揮発性メモリ80のデータの容量は、DRAM72のデータ容量よりも大きい。換言すれば、不揮発性メモリ80のチップ当たりのデータの容量は、DRAM72のチップ当たりのデータ容量よりも大きい。また、本実施例1ではDRAM72を採用した例を示したが、不揮発性メモリ80よりもデータの転送速度(単位時間当たりに読み書きするバイト数)が高いメモリであれば良い。
<B.不揮発性メモリの構造と読み書き消去処理>
 図3は、メモリサブシステム50の不揮発性メモリ80のチップ、ブロック、ページの構成と読み書き消去の処理対象の一例を示すブロック図である。図3を用いて、不揮発性メモリ80の構成及びデータの読み出しと書き込みと消去の処理を説明する。
 それぞれの不揮発性メモリ80は、N_blk個のブロック(BLK)から構成され、各ブロックはN_pg個のページ(PG)から構成される。ここで、N_blkとN_pgは自然数である。例えば、不揮発性メモリ80が容量8GB/chipのNANDフラッシュメモリである場合、1ブロックのデータサイズが1MBで、1ページのデータサイズが8kBの時、N_blk=8k=(8GB/1MB)であり、N_pg=128=(1MB/8kB)である。
 不揮発性メモリ80に格納されたデータは、ページの単位(データサイズ)で読み出され、不揮発性メモリ80へデータを書き込む際はページの単位で書き込む。また、不揮発性メモリ80に格納されたデータはブロックの単位(データサイズ)で消去される。
 不揮発性メモリ80にデータを書き込む際、データの上書きはできない。例えば、図3において消去されたブロック(図中Erase)内のページ(PG_e)へデータを書き込むことはできるが、既にデータが書き込まれたページ(PG_d)には新しいデータを書き込むことはできない。以上をまとめると不揮発性メモリ80は以下の2つの特徴を有する。
 特徴1:消去単位(ブロック)のデータサイズは書き込み単位(ページ)のデータサイズ以上である。
 特徴2:データが既に書き込まれたページなどには新しいデータを上書きできない。
 以下、サーバ10が行う処理について、大規模グラフ解析を例に挙げて説明する。まず、図4、5を用いて、サーバで取り扱うグラフの例と、グラフデータの解析シーケンスの例を説明する。
 <C.グラフとグラフ解析シーケンス>
 図4は、サーバ10で取り扱うビッグデータを構成するグラフの一例を示す図である。ここで例として挙げるグラフは、グラフの頂点に各頂点を一意に特定する頂点番号が割り当てられており、2つの頂点を繋ぐ一本のグラフの辺は、辺の両端の2つの頂点の間に関係性があることを表す。グラフの各頂点が解析対象のグラフデータとなる。一般にグラフ解析の対象となるグラフの頂点は膨大な数となるため、グラフデータは頂点番号に応じてグループに分けられ、グループごとに解析される。
 図5は、サーバ10で実行するグラフ解析のシーケンスの一例を示す。メモリサブシステム(MSS)50の不揮発性メモリ80には、グラフデータ(CSR)とグラフ解析の結果(MSG)及び頂点情報(VAL)が格納され、それぞれグループ(Gr)に分割されてホスト30によって読み書きされて処理される。以下のシーケンスは、N個のホスト30及びメモリサブシステム50において、同時並行的に実行される。なお、グループ(Gr)は、頂点番号に応じて分類されたデータの集合である。
 時刻1(T1):まず、メモリサブシステム50は不揮発性メモリ80に格納されたグループ1に属するグラフデータ(Read CSR Gr.1)と、グラフ解析の結果(Read MSG Gr.1)及び頂点情報(Random Read/Write VAL)を読み出し、ホスト30へ送信する。
 ホスト30によるグラフデータ(CSR)とグラフ解析の結果(MSG)の読み出しは、不揮発性メモリ80の読み出し単位でのシーケンシャルリードとなるが、頂点情報(VAL)の読み出しは、16Byteの細かなアクセス単位でのランダムアクセスとなる。
 時刻2(T2):次に、ホスト30は、メモリサブシステム50から送られてきたグループ1のグラフデータを解析する(Analyze Gr.1)。これと並行して、メモリサブシステム50は、次にホスト30で解析されるグループ2のグラフデータ(Read CSR Gr.2)及びグラフ解析の結果(Read MSG Gr.2)を読み出す。これらと並行して、メモリサブシステム50は、グループ1のグラフ解析の結果を消去する(Erase MSG Gr.1)。このグラフ解析結果はホスト30による解析の後、二度と使われないため、このタイミングで消去が可能である。
 時刻3(T3):それぞれのホスト30は、グループ1のグラフ解析の結果を他のホスト30へ伝える。各ホスト30は他のホスト30から送られてきたグラフ解析の結果をグループごとにまとめ、メモリサブシステム50に送信する。また、同時に各ホスト30は頂点情報の更新結果をメモリサブシステム50へ送信する。
 メモリサブシステム50はホスト30から受信したデータのうち、グラフ解析の結果を不揮発性メモリ80の書き込み単位で不揮発性メモリ80に書き込む(図中Write MSG (Gr.# at random))。また、頂点情報の更新結果は16Byteという細かな単位でメモリサブシステム50へ送信されるため、メモリサブシステム50では、更新する16Byteが含まれる不揮発性メモリ80の書き込み単位を読み出し、16Byteのみを更新して、再び不揮発性メモリ80の書き込み単位で書き込む、Read-modify-write処理を実行する。もしくは、Read-modify処理をホスト30で実行し、不揮発性メモリ80の書き込み単位でホスト30からメモリサブシステム50へ送信してもよい(Random Read/Write VAL)。
 以上のシーケンスをグループ順に繰り返し、全てのグループ1~Mの処理が終了した後、各ホスト(Host(1)~Host(N))30-1~30-Nの間で処理終了の同期が実行される(SYNC)。
 この一連のグループ1~Mの処理及び同期をスーパーステップ(S.S.)と呼び、当該同期の後、再度グループ1から順に処理が繰り返される。前のスーパーステップでメモリサブシステム50に書き込まれたグラフ解析の結果(MSG)は、次のスーパーステップでホスト30によって読み込まれる。グラフ解析はこのスーパーステップの繰り返しによって実行される。
 <D.ホストとメモリサブシステム間の通信> 
 図6を用いて、ホスト30とメモリサブシステム50の間の通信を説明する。図6は、ホスト30がメモリサブシステム50へ読み出し、書き込み、及び消去命令を送信する際に、メモリサブシステム50へ送信する情報を示す図である。
 (a)読み出し
 ホスト30がメモリサブシステム50のデータの読み出し命令を発行する際(Read)、ホスト30はメモリサブシステム50へ読み出すデータのグループ(Gr.)の番号もしくはランダムアクセスデータであることを示すメタデータ(random)と、データの種類(CSR/MSG/VAL)を送信する。もしくは、ホスト30はメモリサブシステム50へ論理アドレス(Adr)及び読み出しデータサイズ(size)を送信する。メモリサブシステム50は、ホスト30から受信した上記情報を基に、不揮発性メモリ80からデータを読み出して、ホスト30へ読み出したデータを送信する。
 (b)書き込み
 ホスト30がメモリサブシステム50へデータ書き込み命令を発行する際(Write)、ホスト30はメモリサブシステム50へ書き込みデータのグループ(Gr.)の番号もしくはランダムアクセスデータであることを示すメタデータ(random)と、データの種類(CSR/MSG/VAL)と、書き込みデータ(data)と、必要に応じて、論理アドレス(Adr)と書き込みデータサイズ(size)を送信する。すなわち、ホスト30の演算モジュール40が、書き込みデータと、データの種類を含む書き込み要求を、メモリサブシステム50へ通知する。メモリサブシステム50はホスト30から受信した上記情報を基に、データを不揮発性メモリ80へ書き込む。
 (c)消去
 ホスト30がメモリサブシステム50のデータの消去命令を発行する際(Erase)、ホスト30はメモリサブシステム50へ消去するデータのグループ(Gr.)の番号もしくはランダムアクセスデータであることを示すメタデータ(random)と、データの種類(CSR/MSG/VAL)を送信する。もしくは、ホスト30はメモリサブシステム50へ論理アドレス(Adr)及び消去するデータサイズ(size)を送信する。メモリサブシステム50は、ホスト30から受信した上記情報を基に、不揮発性メモリ80のデータを消去する。
 次に、サーバ10がグラフ解析処理を行う際のメモリサブシステム50の処理を図7~18を用いて説明する。
<E.グラフ解析におけるメモリサブシステム制御モジュールの処理>
(E1)メモリサブシステム50の制御に必要なデータの入力
 グラフ解析を実行するホスト30は、グラフ解析の前に、メモリサブシステム50の制御に必要なデータを、メモリサブシステム50のレジスタ61に書き込む。ホスト30がグラフ解析を実行する際に、メモリサブシステム50の制御に必要なデータは、グループの数と、グラフデータのデータサイズ、グラフの頂点数や辺の数、データの種類(グラフデータ、結果など)に応じた書換え頻度などである。また、グラフの最短経路探索の場合は、最短経路を求めたい2頂点、すなわち、始点と終点を特定する情報なども含まれる。
 なお、データの種類に応じた書換え頻度は、グラフを解析するプログラムのソースレベルで特定するようにしてもよい。例えば、ソースレベルで、データが不揮発性メモリ80に格納されている期間を設定しておくことで、ホスト30がメモリサブシステム50にデータの書換え頻度を伝達することができる。
 また、レジスタ61に書き込まれるデータとしては、例えば、解析するグラフデータのグループ数である。
 上記データの入力は、ホスト30が実行するプログラムで実行してもよく、あるいは、サーバ10が外部の計算機から受信したデータをホスト30がレジスタ61へ書き込むようにしてもよい。
 (E2)データ書き込み処理
 図7~図10を用いて、メモリサブシステム50へデータを書き込む際の制御に関して説明する。
 図7は、不揮発性メモリ80のチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係の例を示すブロック図である。
 まず、図7に示すように、ホスト30はメモリサブシステム制御モジュール(MSC)60へ書き込みリクエストを送信する際、書き込みコマンドと書き込みデータに加えて、データの属性(ランダムアクセスデータ,グループ番号など)を含むメタデータを付加する(random or Gr.N)。
 一方、メモリサブシステム制御モジュール(MSC)60は、メモリサブシステム50のDRAM72に各種管理テーブルを格納し、ホスト30から送られたデータ属性(メタデータ)に基づいて管理テーブルを参照し、データの書き込み先を決定する。
 なお、図7では管理テーブルとして、論理物理変換テーブル(LPT)110と、属性物理変換テーブル(APT)130と、ブロック管理テーブル(BLK_ST)120をDRAM72に格納する例を示す。
 データ属性ごとの書き込み先は、図7に示すように、不揮発性メモリ80の各チャネル(Ch.1~Ch.i)に分散させて配置してもよい。図7の例では、ひとつのグループのデータの格納先が、チャネルCh.1~Ch.iの同一のウェイ番号にまたがって設定され、並列的にアクセスが行われる。なお、ひとつのグループを複数のウェイ番号に割り当てるようにしてもよい。
 さらに、ランダムアクセスデータは、グループのデータを格納する不揮発性メモリ80のチップのブロックとは異なるブロックに格納され、チャネルCh.1~Ch.iの同一のウェイ番号にまたがって設定される。同様に、ランダムアクセスデータを複数のウェイ番号に割り当てるようにしてもよい。なお、メモリサブシステム制御モジュール60は、書き込み要求のデータのサイズに応じて、不揮発性メモリ80の書き込み領域を動的に変更する。メモリサブシステム制御モジュール60は、書き込むデータのサイズに応じてチャネルCh.1~iを変更する。
 図7の構成により、ホスト30による読み出しがシーケンシャルとなるグラフデータ(CSR)とグラフ解析の結果(MSG)を格納する領域をグループ単位で複数のチャネル番号を跨ぐように設定し、ホスト30による読み出しがランダムアクセスとなる頂点情報(VAL)を格納する領域を、上記グループとは異なるチップまたはブロックに設定する。これにより、不揮発性メモリ80のひとつのブロックにランダムアクセスするデータと、シーケンシャルアクセスするデータが混在して格納されるのを防止できる。したがって、前記従来例のように、シーケンシャルアクセスのデータが、ランダムアクセスのデータと一緒に移動及び消去されるのを防いで、不揮発性メモリ80のガーベッジコレクションの効率を向上させることができる。
 そして、グループに割り当てられたグラフデータ(CSR)とグラフ解析の結果(MSG)の読み出しは、不揮発性メモリ80の読み出し単位でのシーケンシャルリードとなるので、グループ単位で複数のチャネル番号を跨ぐように設定することで、アクセスの並列度を向上させてデータの転送速度を向上させることができる。
 あるいは、図8に示すように、ランダムアクセスデータとグループ番号が付加されたデータを書き込むチャネルやチップを別にしてもよい。
 なお、図8は、不揮発性メモリ80のチップ、ブロック及びページとデータのグループ、ランダムアクセスデータとの対応関係他の例を示すブロック図である。図8において、グループに割り当てられたデータを格納するチャネルCh.1~Ch.i-1は、MLC(Multiple Level Cell)等のNAND型フラッシュメモリで構成し、ランダムアクセスを行うデータを格納するチャネルCh.iは、SLC(Single Level Cell)のNAND型フラッシュメモリやReRAM等書換え寿命が長いチップで構成する。
 この場合も、不揮発性メモリ80のひとつのブロックにランダムアクセスするデータと、シーケンシャルアクセスするデータが混在して格納されるのを防止できる。そして、前記従来例のように、シーケンシャルアクセスのデータが、ランダムアクセスのデータと一緒に移動及び消去されるのを防いで、不揮発性メモリ80のガーベッジコレクションの効率を向上させることができる。
 データ書き込み処理において必要となる管理テーブルを図9A~図9Cに示す。これらの管理テーブルは、グラフデータの解析を開始する前にメモリサブシステム制御モジュール(MSC)60がDRAM72に設定する。
 図9Aは、データの論理アドレス1101と物理アドレス1102とを対応付ける論理物理変換テーブル(LPT)110である。本実施例では、メモリサブシステム制御モジュール(MSC)60が、8kByteのページ単位でアドレスを管理する例を示し、論理アドレス1101及び物理アドレス1102は、各ページの先頭のアドレスを指し示す。
 図9Bは、ブロック管理テーブル(BLK_ST)120の一例を示す図である。ブロック管理テーブル120は、ブロックの位置1201と、ブロックの状態1202と、当該ブロックの消去回数1203がひとつのレコードに含まれる。ブロックの位置1201は、チャネル番号(i)と、ウェイ番号(j)と、ブロック番号N_brで構成される。ブロックの状態1202は、消去済み“ERASED”、書き込み先として確保済み”ALLOCATED”、不良ブロック”BAD”、データ書き込み済み”PROGRAMMED”などの予め設定された状態が格納される。消去回数1203は、当該ブロックを1回消去するたびに1が加算される。
 図9Cは、データ属性ごとの書き込み先を管理する属性物理変換テーブル(APT)130の一例を示す図である。属性物理変換テーブル130は、データのグループを格納するグループ1301と、データの種類を格納するデータ種類1302と、既に書き込まれたページ数を格納するページカウント1303と、当該グループのデータを次に格納するブロック1~iの物理アドレス1304をひとつのエントリに含む。
 グループ1301は、グループ番号(1~M)あるいはランダムアクセスのデータを示す“Random”が格納される。データ種類1302には、グラフデータ(CSR)、グラフ解析の結果(MSG)または頂点情報(VAL)が格納される。ページカウント1303には、データ種類毎に既に書き込まれたページ数が格納される。物理アドレス1304は、チャネル番号と、ウェイ番号及びブロック番号N_brが格納され、データ種類毎に、次にデータを格納するブロック番号が格納されている。
 この、属性物理変換テーブル(APT)130は、メモリサブシステム制御モジュール(MSC)60が不揮発性メモリ80の構成などに応じて設定する。なお、グループ1301については、レジスタ61に書き込まれたグループ数に基づいて、メモリサブシステム制御モジュール(MSC)60が設定する。
 図10は、メモリサブシステム50が実行するデータ書き込み処理の一例を示すフローチャートを示す。まず、メモリサブシステム制御モジュール(MSC)60のデータ制御ブロック(D-CTL_BLK)70は、レジスタ(RG)61を参照し、ホスト30からのデータ書き込みリクエストを受信する(ステップ S1)。データ制御ブロック(D-CTL_BLK)70は、ホスト30から受信したデータ書き込みリクエストに含まれるコマンドと、データと、アドレスと、メタデータとをコマンドバッファ(C-BF)66、データバッファ(D-BF)65、アドレスバッファ(A-BF)64、メタデータバッファ(M-BF)63にそれぞれ格納する。
 その後、データ分類ブロック(CLSFY_BLK)68は、メタデータバッファ(M-BF)63を参照し(ステップS2)、受信したデータについてグループ番号が付加されたデータか、ランダムアクセスデータなのかを判定する(ステップS3)。
 ランダムアクセスデータの場合はステップS4へ進み、データ分類ブロック(CLSFY_BLK)68はブロック管理テーブル120を参照し、空きブロックが十分に残っているか、つまり空きブロックの数が閾値(Th1)以上に残っているか否かを判定する(ステップ S4)。
 空きブロック数の閾値(Th1)は、事前にホスト30によって決定され、データの書き込み前にメモリサブシステム50へ通知される。あるいは、データアクセスの履歴や不揮発性メモリ80の容量、及び上記(E1)でレジスタ61に書き込まれた制御に必要なデータなどを基に、メモリサブシステム制御モジュール(MSC)60によって決定される。
 ステップS4によって、空きブロック数が閾値(Th1)以上に残っている場合、ステップS5へ進む。一方、空きブロック数が閾値(Th1)以上残っていない場合、メモリサブシステム制御モジュール(MSC)60はガーベッジコレクション(GC)を実行し、空きブロック数を増やす。なお、ガーベッジコレクション(GC)が完了した後に、ステップS4に復帰する。なお、ガーベッジコレクションの処理については周知または公知の技術を適用すればよいので、図示は省略する。
 ステップS5では、まずデータ分類ブロック(CLSFY_BLK)68が、図9Cの属性物理変換テーブル(APT)130のうち、該当するデータ分類に対応する行を参照する。そして、データ分類ブロック(CLSFY_BLK)68は、対応する行のページカウント1303に1を加算する。
 加算の結果、ページカウント1303が予め決定された閾値(Th2)を超えた場合、データ制御ブロック70は、図9Bのブロック管理テーブル(BLK_ST)120を参照し、不揮発性メモリ80の空きブロック”ERASED”を各チップ(チャネルCh.1~Ch.i)から1ブロックずつ選択し、新たな書き込み先とする。閾値(Th2)は、例えば物理アドレス1304の1行分を構成するi個のブロックに含まれる不揮発性メモリ80のページの総数である。データ制御ブロック(D-CTL_BLK)70は、選択されたi個のブロック番号と、チャネル番号と、ウェイ番号で、現在書き込みを行ったグループについて、属性物理変換テーブル(APT)130の物理アドレス1304を更新する。
 また、データ制御ブロック(D-CTL_BLK)70は、選択されたブロックに関して、ブロック管理テーブル(BLK_ST)120に記録されているブロックの状態を”ERASED”から”ALLOCATED”に更新し、属性物理変換テーブル(APT)130の対応する行のページカウント1303の値を1に更新する(ステップS5)。
 次にステップS6では、データ制御ブロック(D-CTL_BLK)70がデータの書き込み先を決定する。まず、データ分類ブロック(CLSFY_BLK)68は、属性物理変換テーブル(APT)130のうち、対応するデータ分類のページカウント1303及び物理アドレス1304の項目を参照する。そして、データ分類ブロック(CLSFY_BLK)68は、ページカウント1303の値から、次の書き込み先のチップ(i、j)、ブロック(N_blk)、ページ(N_pg)を、属性物理変換テーブル(APT)130の物理アドレス1304の項目に記録されたi個の書き込み先を選択する。
 その後、データ分類ブロック(CLSFY_BLK)68は、上記選択した書き込み先のチップ(i、j)を制御するチャネル(Ch.i)の不揮発性メモリ制御部(NVMC)73-1~73-iに書き込み要求を送信する。書き込み要求を受信した不揮発性メモリ制御部73は、指定されたチップ(i、j)のブロック(N_blk)のページ(N_pg)にデータバッファ(D-BF)65の値を書き込む。
 そして、データ分類ブロック(CLSFY_BLK)68は、書き込みを行った物理アドレス1304に対応する論理アドレスを対応付けて図9Aの論理物理変換テーブル(LPT)110を更新し、図9Bに示すブロック管理テーブル120のうち、書き込みを行ったブロックの行においてのブロックの状態1202の欄を”ALLOCATED”から”PROGRAMMED”に更新する(ステップS7)。
 以上の処理によって、ホスト30による読み出しがシーケンシャルとなるグラフデータ(CSR)とグラフ解析の結果(MSG)を、グループ単位で複数のチャネル番号を跨ぐように不揮発性メモリ80に格納し、ホスト30による読み出しがランダムアクセスとなる頂点情報(VAL)を、上記グループとは異なるチップまたはブロック(消去単位)に書き込むことができる。
 これにより、不揮発性メモリ80のひとつのブロックにランダムアクセスするデータと、シーケンシャルアクセスするデータが混在して格納されるのを防止できる。すなわち、ランダムアクセスのデータと、ランダムアクセス以外のデータ(シーケンシャルアクセスのデータ)とを不揮発性メモリ80の異なるブロック(消去単利)で管理することが可能となる。したがって、前記従来例のように、シーケンシャルアクセスのデータが、ランダムアクセスのデータと一緒に移動及び消去されるのを防いで、不揮発性メモリ80のガーベッジコレクションの効率を向上させることができる。
 そして、グループに割り当てられたグラフデータ(CSR)とグラフ解析の結果(MSG)の読み出しは、不揮発性メモリ80の読み出し単位でのシーケンシャルリードとなるので、グループ単位で複数のチャネル番号を跨ぐように設定することで、アクセスの並列度を向上させてデータの転送速度を向上させることができる。
 なお、上記実施例1では、メモリサブシステム制御モジュール(MSC)60が属性物理変換テーブル(APT)130を設定する例を示したが、メモリサブシステム制御モジュール60が不揮発性メモリ80の構成をホスト30に通知し、ホスト30で実行するプログラムで属性物理変換テーブル130を設定するようにしてもよい。
 上記実施例1では、メモリサブシステム制御モジュール(MSC)60が、書き込み要求のデータを非圧縮で不揮発性メモリ80へ格納する例を示したが、本実施例2では、データを圧縮する例を示す。
 図11は、第2の実施例における不揮発性メモリのチップ、ブロック及びページと圧縮データのグループとの対応関係の一例を示すブロック図である。DRAM72には前記実施例1に示したテーブルに加えて、グループ(1~M)毎にバッファ720-1~720-Mと、DRAMバッファ管理テーブル140を格納する。その他の構成は、前記実施例1と同様であり、同様のものについては重複した説明を省略する。
 バッファ720-1~720-Mは、メモリサブシステム制御モジュール(MSC)60が、ホスト30から受信した書き込みデータを圧縮した後に、当該圧縮データをグループ1~M毎に一時的に格納する記憶領域である。
 DRAMバッファ管理テーブル140は、バッファ720-1~720-Mに格納した圧縮データを管理するためのテーブルである。
 図11~図14Bを用いて、メモリサブシステム50におけるデータ圧縮書き込みの際の制御に関して説明する。
 まず、図11~図12を用いて、全体の制御を概説する。メモリサブシステム制御モジュール(MSC)60がホスト30からデータ及び書き込みリクエストを受信する(図11の1. Write Req.)。
 メモリサブシステム制御モジュール(MSC)60は、ホスト30から送られたデータを圧縮する(図11の2. Compression)。データを圧縮するか否かは、ホスト30がデータ書き込みリクエストに加えて、圧縮リクエストを送信するか否かで決定してもよいし、メモリサブシステム制御モジュール(MSC)60が決定してもよい。
 図12Aは、データ圧縮処理前後でのデータサイズの変化の例を示す図である。図12Aに示すように、ホスト30から不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合、圧縮されたデータは、不揮発性メモリ80の書き込み単位(ページ)より小さな圧縮データサイズ単位(CMP_unit)で管理される。ページサイズが8Kバイトの場合、この圧縮データサイズ単位(CMP_unit)は、例えば、2Kバイトで管理され、ひとつのページサイズは、4つの圧縮データサイズ単位で管理される。
 その後、圧縮されたデータは、メモリサブシステム制御モジュール(MSC)60によって、メモリサブシステム50のDRAM72に設定されたバッファ720-1~720-Mに、データのグループごとに異なる物理アドレスにバッファリングされる(図11の3. Buffer Data)。
 データのグループごとにバッファリングされたデータサイズが、不揮発性メモリ80のページ(書き込み単位)サイズを超えたら、前記第1実施例の図7に示した(E2)のデータ書き込み処理のフローチャートに基づいて、メモリサブシステム制御モジュール(MSC)60は圧縮されたデータを所定の書き込み単位で、不揮発性メモリ80に書き込む。
 図12Bは、データ圧縮処理前後でのデータサイズの変化の例を示す図である。一方、図12Bで示すように、ホスト30から複数の不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合、メモリサブシステム制御モジュール(MSC)60では、圧縮されたデータを不揮発性メモリ80の書き込み単位に調整して書き込む。圧縮されたデータサイズがページサイズに達した場合、圧縮されたデータはDRAM72のバッファ720-1~720-Mにはバッファリングされず、上記(E2)に示したデータ書き込み処理のフローチャートに基づいて、メモリサブシステム制御モジュール(MSC)60は不揮発性メモリ80の書き込み単位で、圧縮したデータを直接不揮発性メモリ80に書き込む。
 データ圧縮及び書き込み処理において必要となる管理テーブルを図13A、図13Bに示す。図13Aは、データの論理アドレスと物理アドレスを対応付ける論理物理変換テーブル(LPT)110Aである。本実施例2では、前記図9Aに示した論理物理変換テーブル110とは異なり、データ圧縮の際は、1つの論理アドレスに対応するデータサイズが可変となる。このため、1つの論理アドレスに対応するデータが格納されている物理アドレスを、不揮発性メモリ80の書き込み単位より小さな圧縮データサイズ単位(CMP_unit)に分割して管理する。図13Aの論理物理変換テーブル(LPT)110Aは、論理アドレス1101と、圧縮データの開始位置を示す物理アドレス1102と、圧縮データの開始位置を示す圧縮ユニット1103と、圧縮データの終点となるページの位置を示す物理アドレス1104と、圧縮データの終点となる圧縮ユニット1106とをひとつのレコードに含む。
 例えば、図13Aの例では、不揮発性メモリ80のひとつの書き込み単位(ページ)は、4つの圧縮データサイズ単位(CMP_unit)に分割されている。1行目の論理アドレス0x000000のデータは、物理アドレス(不揮発性メモリ80の書き込み単位に対応)0x10c8b0の0番目の圧縮データサイズ単位(CMP_unit)から同じ物理アドレス(ページ)0x10c8b0の2番目の圧縮データサイズ単位(CMP_unit)に格納されていることを示す。他も同様である。
 図13Bは、圧縮されたデータを一時的に格納するDRAMバッファ1管理テーブル(CMP_BFT)140である。DRAMバッファ管理テーブル140は、図11に示したバッファ720-1~720-Mが2ページ分の容量に設定されているのに対応して、ページ0とページ1の2ページのバッファを管理する。DRAMバッファ管理テーブル140は、グループ番号を格納するグループ1401と、ページ0の圧縮データサイズ単位(CMP_unit0~3)の論理アドレス1402-1~1402-4と、ページ1の圧縮データサイズ単位(CMP_unit0~3)の論理アドレス1403-1~1403-4とをひとつのレコードに含む。
 メモリサブシステム制御モジュール(MSC)60は、グループ単位でDRAM72のバッファ720-1~720-Mへデータを格納する。図13Bには、グループごとのバッファ720に、不揮発性メモリ80の書き込み単位2つ分のデータ領域を確保した例を挙げる。不揮発性メモリ80の書き込み単位はさらに4つの圧縮データサイズ単位(CMP_unit)に分割されているため、圧縮データサイズ単位(CMP_unit)ごとに、そのデータに対応する論理アドレス(1402-1~1402-4)がDRAMバッファ管理テーブル140に記録される。図13Bの例では、各圧縮データに対応する論理アドレスを記録するテーブルの例を挙げたが、例えば圧縮データの先頭に論理アドレスを付加して、圧縮データと共に論理アドレスをDRAMバッファ720へ記録してもよい。
 図14A、図14Bは、メモリサブシステム50で行われるデータ圧縮及び書き込み処理の一例を示すフローチャートである。
 図14Aは、ホスト30から不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合に、メモリサブシステム50で行われる処理のフローチャートである。
 まず、メモリサブシステム制御モジュール(MSC)60のデータ圧縮ブロック(COMP_BLK)69は、レジスタ61を参照して、ホスト30からデータ書き込み要求を受信する(ステップS11)。
 次に、データ圧縮ブロック(COMP_BLK)69は、メタデータバッファ(M-BF)63に格納された書き込み要求のデータの属性(またはデータのグループ)を参照する(ステップS12)。そして、データ圧縮ブロック(COMP_BLK)69は、データバッファ(D-BF)65に格納されたデータを圧縮する(ステップS13)。
 データ圧縮ブロック(COMP_BLK)69は、圧縮されたデータを、メモリサブシステム50のDRAM72のバッファ720に格納する。圧縮データの格納先は、上記ステップS12で参照したデータのグループに応じたバッファ720-1~720-Mを選択する。
 次に、データ圧縮ブロック(COMP_BLK)69は、アドレスバッファ(A-BF)64に格納されたデータの論理アドレスを取得する。取得したデータの論理アドレスの値を基に、データ圧縮ブロック(COMP_BLK)69は、メモリサブシステム50のDRAMバッファ管理テーブル(CMP_BFT)140を更新する(ステップS15)。この更新は、圧縮データを書き込んだバッファ720のページと圧縮データサイズ単位(CMP_unit0~3)に、上記取得した論理アドレスを書き込む。
 更新したDRAMバッファ管理テーブル(CMP_BFT)140を参照し、データ圧縮ブロック(COMP_BLK)69は、現在書き込んだグループのデータが不揮発性メモリ80の書き込み単位分だけバッファ720に溜まっているか否かを判定する(ステップS16)。
 上記判定の結果、書き込みを行ったバッファ720に不揮発性メモリ80の書き込み単位分(1ページ)の圧縮データが溜まっていれば、前記実施例1の図10に示した書き込み処理を実行し、バッファ720の圧縮データを不揮発性メモリ80へ書き込む(To Write Seq.)。
 一方上記判定の結果、書き込みを行ったバッファ720に不揮発性メモリ80の書き込み単位分(1ページ)の圧縮データが溜まっていない場合、データ圧縮ブロック(COMP_BLK)69は、ホスト30からの次のリクエストを待つ状態に移行する(Wait Next Req.)。
 なお、上記ではデータのグループ毎にバッファ720-1~720-Mへ格納する例を示したが、図示はしないが、ランダムアクセスのデータについても、上記と同様にDRAM72にバッファを設けて圧縮する。
 以上の処理により、データ圧縮ブロック69は、ホスト30から受信した書き込みデータを圧縮してバッファ720へ蓄積し、バッファ720に1ページ分のデータが溜まると不揮発性メモリ80へ書き込む。データの書き込み先は、上記実施例1と同様であり、シーケンシャルアクセスとなるデータを格納する不揮発性メモリ80のブロックと、ランダムアクセスのデータを格納するブロックを分け、さらに、データを圧縮することで、不揮発性メモリ80の記憶領域を有効に利用することができる。
 図14Bは、ホスト30から複数の不揮発性メモリ80の書き込み単位(PAGE SIZE)でデータが送られた場合における、メモリサブシステム50で行われる処理のフローチャートである。すなわち、図12Bで示したように、複数のページを圧縮した結果、1ページに収まる場合の処理である。
 ステップS21~S23は、図14Aと同様である。データ圧縮後、圧縮されたデータはDRAM72のバッファ720に格納されず、上記実施例1の図10に示したデータ書き込み処理に従って、不揮発性メモリ80の書き込み単位で書き込まれる。
 以上、本実施例2によれば、前記実施例1の効果に加えて、データを圧縮することで不揮発性メモリ80の利用効率を向上させることができる。
 なお、ホスト30が圧縮データを読み出す際には、図示はしないが、データ圧縮ブロック69が圧縮データを復元する。
 図15~図18は実施例3を示し、前記実施例1の構成に最終書き込みブロック管理テーブル150を加えて、メモリサブシステム50へデータを書き込む際に書き込み先を選択する。
 まず、図15を用いて、全体の処理を説明する。図15は、不揮発性メモリのチップ、ブロックと格納されるデータ種との対応関係の一例を示すブロック図である。
 ホスト30から書き込みリクエスト及びデータと共に、データの種類(グラフデータ(CSR)、解析結果(MSG)、頂点情報(VAL)など)がメモリサブシステム制御モジュール(MSC)60へ通知される。メモリサブシステム制御モジュール(MSC)60は、受信したデータの種類を基に、データ書き込み先の選択方法を変更する。
 前記実施例1の図5に示したような、グラフデータ(CSR)がグラフ処理の終了まで更新されない例では、グラフデータはグラフ処理中に更新されないが、グラフ処理の解析結果(MSG)は、スーパーステップ(S.S.)ごとに更新される。また、頂点情報(VAL)は、例えば16バイトの細かなアクセス単位でランダムに更新される。
 したがって、メモリサブシステム制御モジュール(MSC)60は、更新頻度の低いグラフデータ(CSR)を、(メモリサブシステム50の全体平均と比べ)比較的消去回数の多いブロック(OLD BLK)へ書き込み、更新頻度の高い解析結果(MSG)などを消去回数の少ないブロック(YOUNG BLK)や、最後に書き込みを行ったブロックの(物理的に)次のブロック(NEXT BLK)へ書き込む。
 このようなデータの種類に応じた書き込み先選択の変更により、異なるブロック間での消去回数の偏りを是正し、スタティックウェアレベリングなどの頻度を低下させ、不揮発性メモリ80の性能や寿命を向上させる。
 図16は、不揮発性メモリのチップ、ブロックと格納されるデータ種との対応関係の他の例を示すブロック図である。
 図16のように、メモリサブシステム50で異なる書換え回数の上限(書換え寿命)を有するデバイス(不揮発性メモリ)が混在した場合、消去回数の上限が低いNAND MLCへ更新頻度の低いグラフデータ(CSR)を格納し、消去回数の上限が高いNAND SLCへ更新頻度の高い解析結果(MSG)などを格納する。こうすることにより、異なるデバイス間の寿命が均等化され、メモリサブシステム50全体としての寿命が向上する。
 次に図17を用いて、書き込み先選択処理のフローチャートについて説明する。まず、メモリサブシステム制御モジュール(MSC)60は、ホスト30からの書き込みリクエストを受信する(ステップS31)。
 次に、メモリサブシステム制御モジュール(MSC)60のウェアレベリングブロック(WL_BLK)67は、メタデータバッファ(M-BF)63に記録されたデータの種類を参照する(ステップS32)。そして、ウェアレベリングブロック(WL_BLK)67は、メモリサブシステム50のDRAM72に記録されている実施例1の図9Bに示したブロック管理テーブル(BLK_ST)120や、図18に示す最終書き込みブロック管理テーブル(LST_BLK)150を参照する(ステップS33)。そして、ウェアレベリングブロック(WL_BLK)67は、不揮発性メモリ80の消去回数(Erase cycle)や、各チャネル、ウェイのチップへ最後に書き込みが行われたブロック番号(Last programmed block)などを取得する。
 ウェアレベリングブロック(WL_BLK)67は、取得した情報及びステップS32で参照したデータの種類を基に、次の書き込み先ブロックを決定する(ステップS34)。次の書き込み先ブロックの決定は、上記図15または図16で述べた処理を実施する。
 その後、ウェアレベリングブロック(WL_BLK)67は、書き込み先のチップが属するチャネルの不揮発性メモリ制御部NVMC73に書き込み要求を送信する。そして、ウェアレベリングブロック(WL_BLK)67は、ブロック管理テーブル(BLK_ST)120のうち、該当するデータ種類の行においてブロック状態(Status of block)1202を”ERASED”から”ALLOCATED”もしくは”PROGRAMMED”に更新し、最終書き込みブロック管理テーブル(LST_BLK)150、属性物理変換テーブル(APT)130、及び論理物理変換テーブル(LPT)110を更新する(ステップS35)。
 上記処理により、実施例1の効果に加え、データの種類に応じた書き込み先の変更により、異なるブロック間での消去回数の偏りを是正し、スタティックウェアレベリングなどの頻度を低下させ、不揮発性メモリ80の性能や寿命を向上させる。
<F.効果のまとめ>
 以上説明した各実施例1~3の構成及び処理により得られる主な効果は以下の通りである。
 大容量で安価な不揮発性メモリを使用可能とすることで、ビッグデータ等の大量のデータを処理する際に必要な大規模なメモリを安価に提供でき、かつ、メモリに対して高速なデータアクセスを行うことができる。すなわち、ビッグデータの高速処理を行うサーバにおいて、DRAMなどよりビットコストが安価なNANDフラッシュメモリなどの不揮発性メモリ80にデータを格納し、かつ、その場合でも、ランダムアクセスするデータとそれ以外のデータを、不揮発性メモリ80の異なる消去単位(例えば、ブロック)に格納する。これにより、不揮発性メモリ80におけるガーベッジコレクションの効率を向上させ、高速なデータアクセスが可能になる。また、メモリサブシステム50でデータを圧縮し、DRAMなどの小容量だが高速なメモリに、データの分類ごとに圧縮されたデータをバッファリングすることで、不揮発性メモリ80へのデータアクセスを削減することができ、高速なデータアクセスが可能になる。さらに、データの分類ごとに、記憶装置が書き込み先の選択方法を切り替えることで、不揮発性メモリ80の消去回数を平準化でき、記憶装置の寿命劣化を抑制することが可能になる。
 また、以上の説明では、データ処理を行うホスト30、不揮発性メモリ80、及び不揮発性メモリ80を管理するメモリサブシステム制御モジュール60から構成されるサーバ10の例を挙げたが、サーバ10はデータ解析及び不揮発性メモリ80を管理するホスト30、及びホスト30の管理にしたがって不揮発性メモリ80を制御するメモリサブシステム制御モジュール60とから構成してもよい。
 また、大規模グラフを頂点番号やデータ種に応じて複数のグループ(Gr.)とランダムアクセス、及びグラフデータと解析結果などに分類して管理する例を挙げたが、グラフデータ自体が頻繁に更新される例では、更新されるグラフデータも別の分類として扱うなど、大規模グラフ処理や取り扱うビッグデータ処理は上記の例に限定されるものではない。例えば、MapReduce処理において、Keyに応じて(keyとvalueで制御された)ビッグデータを、key値ごとに複数のグループ(Gr.)に分割し、その他のランダムアクセスデータと区別して管理するなど、上記処理と同様にメモリ処理を行ってもよい。
 また、ホスト30で実行するプログラムのソースコード上で大きな配列を確保するビッグデータ処理のアプリケーションプログラムにおいて、同一配列を同一データ種とみなして上記メモリ処理を実行しても良く、また、上記処理の適用範囲は、大規模なデータベースの検索及びデータ抽出などを行う場合も含まれる。そして、これらの処理においてもビッグデータを高速に読み書きできるため、ビッグデータ処理を高速化できる。
 以上、添付図面を参照して具体的に説明したが、好ましい実施の形態は以上の説明に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
 なお、本発明において説明した計算機等の構成、処理部及び処理手段等は、それらの一部又は全部を、専用のハードウェアによって実現してもよい。
 また、本実施例で例示した種々のソフトウェアは、電磁的、電子的及び光学式等の種々の記録媒体(例えば、非一時的な記憶媒体)に格納可能であり、インターネット等の通信網を通じて、コンピュータにダウンロード可能である。
 また、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明をわかりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。

Claims (12)

  1.  演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、
     前記ホストは、
     データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、
     前記メモリサブシステムは、
     第1のメモリと、
     データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、
     前記データの種類に基づいて、ランダムアクセスデータと、ランダムアクセス以外のデータとを、前記第2のメモリの異なる消去単位に書き込み、前記ランダムアクセスデータを前記第2のメモリの書き込み単位で管理し、前記ランダムアクセス以外のデータを前記第2のメモリの消去単位で管理するメモリサブシステム制御モジュールと、
     を有することを特徴とする情報処理装置。
  2.  請求項1に記載の情報処理装置であって、
     前記メモリサブシステム制御モジュールは、
     前記ホストから前記メモリサブシステムへ発行される書き込み命令に含まれるデータの種類に応じて、前記ランダムアクセスデータを書き込むための前記第2のメモリの領域のデータサイズを動的に変更することを特徴とする情報処理装置。
  3.  請求項1に記載の情報処理装置であって、
     前記データの種類は、
     前記書き込むデータがランダムアクセスデータか否かを識別する情報と、前記ホストのデータ処理単位であるグループの番号を識別する情報と、前記書き込むデータがグラフの接続データと、前記グラフの解析結果と、前記グラフの頂点情報の何れであるかを識別する情報のうち、少なくとも1つ含むことを特徴とする情報処理装置。
  4.  請求項1に記載の情報処理装置であって、
     前記第1のメモリは、前記第2のメモリよりもデータの転送速度が高く、
     前記第2のメモリは、不揮発性メモリであることを特徴とする請求項1に記載の情報処理装置。
  5.  演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、
     前記ホストは、
     データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、
     前記メモリサブシステムは、
     第1のメモリと、
     データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、
    前記データを圧縮し、前記データの種類に基づいて、異なるデータの種類の圧縮データを、前記第1のメモリの異なる物理領域に書き込むメモリサブシステム制御モジュールと、
    を有することを特徴とする情報処理装置。
  6.  請求項5に記載の情報処理装置であって、
     前記メモリサブシステムは、
     前記第1のメモリの異なる領域に格納された、前記データの種類が異なる圧縮データを、異なる前記第2のメモリの消去単位に書き込むことを特徴とする情報処理装置。
  7.  請求項5に記載の情報処理装置であって、
     前記メモリサブシステムは、
     前記圧縮データに対応する管理情報を前記第1のメモリに格納することを特徴とする情報処理装置。
  8.  請求項7に記載の情報処理装置であって、
     前記管理情報は、前記圧縮データに対応する論理アドレスを含むことを特徴とする情報処理装置。
  9.  請求項5に記載の情報処理装置であって、
     前記メモリサブシステムは、
     前記圧縮データを前記第2のメモリの書き込み単位よりデータサイズの小さな単位で管理することを特徴とする情報処理装置。
  10.  演算処理を行うホストと、前記ホストに接続されたメモリサブシステムとを備えた情報処理装置であって、
     前記ホストは、
     データと、前記データの種類を含む書き込み要求を前記メモリサブシステムへ通知し、
     前記メモリサブシステムは、
     第1のメモリと、
     データを消去するデータ消去単位のサイズが、前記データの書き込み単位のサイズより大きく、かつ、前記第1のメモリよりデータ容量の大きい第2のメモリと、
     前記データの種類に基づいて、前記データの書き込み先とする前記第2のメモリの物理領域の選択方法を変更するメモリサブシステム制御モジュールと、
    を有することを特徴とする情報処理装置。
  11.  請求項10に記載の情報処理装置であって、
     前記メモリサブシステムは、
     前記第2のメモリに対して最後にデータの書き込みが行われた書き込み単位の識別子を管理することを特徴とする情報処理装置。
  12.  請求項10に記載の情報処理装置であって、
     前記第2のメモリは、
     消去回数の上限値が異なる2種類以上のメモリから構成され、
     前記メモリサブシステムは、
     前記データの種類に基づいて、前記消去回数の上限値が異なる第2のメモリのうち、何れの消去回数の上限値の第2のメモリに前記データを書き込むかを決定することを特徴とする情報処理装置。
PCT/JP2014/052440 2014-02-03 2014-02-03 情報処理装置 WO2015114829A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2014/052440 WO2015114829A1 (ja) 2014-02-03 2014-02-03 情報処理装置
US15/113,747 US20170003911A1 (en) 2014-02-03 2014-02-03 Information processing device
JP2015559716A JP6139711B2 (ja) 2014-02-03 2014-02-03 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/052440 WO2015114829A1 (ja) 2014-02-03 2014-02-03 情報処理装置

Publications (1)

Publication Number Publication Date
WO2015114829A1 true WO2015114829A1 (ja) 2015-08-06

Family

ID=53756439

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/052440 WO2015114829A1 (ja) 2014-02-03 2014-02-03 情報処理装置

Country Status (3)

Country Link
US (1) US20170003911A1 (ja)
JP (1) JP6139711B2 (ja)
WO (1) WO2015114829A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021415A1 (ja) * 2017-07-27 2019-01-31 株式会社日立製作所 ストレージシステム及びデータ格納制御方法
JP2019175427A (ja) * 2018-03-27 2019-10-10 エスケーハイニックス株式会社SK hynix Inc. コンピュータシステム及びその動作方法
WO2020213021A1 (ja) * 2019-04-15 2020-10-22 三菱電機株式会社 記録装置および記録再生装置
JP2021517307A (ja) * 2018-03-21 2021-07-15 マイクロン テクノロジー,インク. ハイブリッドメモリシステム
JP2022091981A (ja) * 2020-08-31 2022-06-21 キオクシア株式会社 コントローラ

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016174744A1 (ja) * 2015-04-28 2016-11-03 株式会社日立製作所 不揮発性メモリの制御方法、制御装置、および半導体記憶装置
KR20220022139A (ko) * 2020-08-18 2022-02-25 에스케이하이닉스 주식회사 메모리 시스템, 메모리 컨트롤러 및 메모리 시스템의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094639A (ja) * 2005-09-28 2007-04-12 Tdk Corp メモリコントローラ及びフラッシュメモリシステム
JP2010198209A (ja) * 2009-02-24 2010-09-09 Toshiba Corp 半導体記憶装置
JP2012033002A (ja) * 2010-07-30 2012-02-16 Toshiba Corp メモリ管理装置およびメモリ管理方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006235960A (ja) * 2005-02-24 2006-09-07 Fujitsu Ltd ガーベッジコレクション高速化方法
JP2009211192A (ja) * 2008-02-29 2009-09-17 Toshiba Corp メモリシステム
JP4818404B2 (ja) * 2009-06-26 2011-11-16 株式会社東芝 素材サーバおよび素材蓄積方法
JP2011227802A (ja) * 2010-04-22 2011-11-10 Funai Electric Co Ltd データ記録装置
JP2013029879A (ja) * 2011-07-26 2013-02-07 Denso Corp フラッシュメモリの制御装置
JP5971509B2 (ja) * 2011-08-30 2016-08-17 ソニー株式会社 情報処理装置および方法、並びに記録媒体
TWI605458B (zh) * 2012-04-25 2017-11-11 Sony Corp Non-volatile memory devices, non-volatile memory control devices, and non-volatile memory control methods
US8910017B2 (en) * 2012-07-02 2014-12-09 Sandisk Technologies Inc. Flash memory with random partition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007094639A (ja) * 2005-09-28 2007-04-12 Tdk Corp メモリコントローラ及びフラッシュメモリシステム
JP2010198209A (ja) * 2009-02-24 2010-09-09 Toshiba Corp 半導体記憶装置
JP2012033002A (ja) * 2010-07-30 2012-02-16 Toshiba Corp メモリ管理装置およびメモリ管理方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019021415A1 (ja) * 2017-07-27 2019-01-31 株式会社日立製作所 ストレージシステム及びデータ格納制御方法
JP2021517307A (ja) * 2018-03-21 2021-07-15 マイクロン テクノロジー,インク. ハイブリッドメモリシステム
JP7057435B2 (ja) 2018-03-21 2022-04-19 マイクロン テクノロジー,インク. ハイブリッドメモリシステム
US11340808B2 (en) 2018-03-21 2022-05-24 Micron Technology, Inc. Latency-based storage in a hybrid memory system
JP2019175427A (ja) * 2018-03-27 2019-10-10 エスケーハイニックス株式会社SK hynix Inc. コンピュータシステム及びその動作方法
JP7330694B2 (ja) 2018-03-27 2023-08-22 エスケーハイニックス株式会社 コンピュータシステム及びその動作方法
WO2020213021A1 (ja) * 2019-04-15 2020-10-22 三菱電機株式会社 記録装置および記録再生装置
JPWO2020213021A1 (ja) * 2019-04-15 2021-10-14 三菱電機株式会社 記録装置および記録再生装置
JP7166442B2 (ja) 2019-04-15 2022-11-07 三菱電機株式会社 記録装置および記録再生装置
JP2022091981A (ja) * 2020-08-31 2022-06-21 キオクシア株式会社 コントローラ

Also Published As

Publication number Publication date
US20170003911A1 (en) 2017-01-05
JP6139711B2 (ja) 2017-05-31
JPWO2015114829A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
JP6139711B2 (ja) 情報処理装置
AU2016333294B2 (en) Data processing method and apparatus, and flash device
US10739996B1 (en) Enhanced garbage collection
US9229876B2 (en) Method and system for dynamic compression of address tables in a memory
US9678676B2 (en) Method for storage devices to achieve low write amplification with low over provision
US9189389B2 (en) Memory controller and memory system
US10061710B2 (en) Storage device
JP2019020788A (ja) メモリシステムおよび制御方法
US20160188227A1 (en) Method and apparatus for writing data into solid state disk
US8909895B2 (en) Memory apparatus
KR20140025574A (ko) 하이브리드 slc/mlc 메모리 내의 블록 관리 방식들
US20100030948A1 (en) Solid state storage system with data attribute wear leveling and method of controlling the solid state storage system
JP5969130B2 (ja) 情報処理装置
US10198203B2 (en) Method of operating memory device using pseudo-random functions, memory device using the same and memory system including the device
KR20120055707A (ko) 메모리 시스템
CN110389712B (zh) 数据写入方法及其装置、固态硬盘和计算机可读存储介质
KR100988388B1 (ko) 플래시 메모리 장치의 성능 향상 방법 및 이를 수행하는 플래시 메모리 장치
US20210026763A1 (en) Storage device for improving journal replay, operating method thereof, and electronic device including the storage device
CN113986773A (zh) 基于固态硬盘的写放大优化方法、装置及计算机设备
WO2015087651A1 (ja) メモリの使用可能期間を延ばすための装置、プログラム、記録媒体および方法
JP6100927B2 (ja) 情報処理装置
US10853260B2 (en) Information processing device, storage device, and method of calculating evaluation value of data storage location
KR100745163B1 (ko) 동적 매핑 테이블을 이용한 플래시 메모리 관리방법
CN114625318A (zh) 应用于固态硬盘的数据写入方法、装置、设备
KR101609304B1 (ko) 멀티칩 플래시 저장장치 및 그 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14880792

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015559716

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15113747

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14880792

Country of ref document: EP

Kind code of ref document: A1