WO2010035426A1 - バッファメモリ装置、メモリシステム及びデータ転送方法 - Google Patents

バッファメモリ装置、メモリシステム及びデータ転送方法 Download PDF

Info

Publication number
WO2010035426A1
WO2010035426A1 PCT/JP2009/004603 JP2009004603W WO2010035426A1 WO 2010035426 A1 WO2010035426 A1 WO 2010035426A1 JP 2009004603 W JP2009004603 W JP 2009004603W WO 2010035426 A1 WO2010035426 A1 WO 2010035426A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
memory
write
buffer
memory access
Prior art date
Application number
PCT/JP2009/004603
Other languages
English (en)
French (fr)
Inventor
礒野貴亘
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN200980137756.8A priority Critical patent/CN102165425B/zh
Priority to JP2010530712A priority patent/JP5536658B2/ja
Publication of WO2010035426A1 publication Critical patent/WO2010035426A1/ja
Priority to US13/069,854 priority patent/US20110173400A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • G06F12/0879Burst mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0804Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with main memory updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0888Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using selective caching, e.g. bypass

Definitions

  • the present invention relates to a buffer memory device, a memory system, and a data transfer method, and in particular, a buffer memory device, a memory system, and data that temporarily hold data output from a processor in a buffer memory and sweep out the held data to a main memory. It relates to the transfer method.
  • a small-capacity and high-speed cache memory such as SRAM (Static Random Access Memory) has been used.
  • SRAM Static Random Access Memory
  • a cache memory includes an STB (Store Buffer) that is an example of a buffer memory for temporarily storing write data (see Patent Document 1).
  • STB Store Buffer
  • FIG. 18 is a block diagram showing an outline of a conventional memory system.
  • the memory system shown in the figure includes a processor 310, a main memory 320, and a cache 330.
  • the cache 330 includes an STB 331.
  • the cache 330 merges the write data sent from the processor 310 and temporarily holds it in the STB 331 when writing write data to successive addresses. Then, the cache 330 burst writes the held data to the main memory 320.
  • the data bus width between the main memory 320 and the cache 330 is 128 bytes.
  • the cache 330 merges 4-byte write data and holds it in the STB 331. Then, when the size of data held in the STB 331 reaches 128 bytes, the cache 330 burst-writes 128 bytes of data to the main memory 320.
  • the conventional memory system has a problem that it cannot be applied when merging write data corresponding to a write request issued by a plurality of masters and performing burst transfer of the merged write data.
  • the present invention has been made to solve the above problems, and can be applied to burst write of a plurality of write data, and can improve the data transfer efficiency, and a buffer memory device and a memory It is an object to provide a system and a data transfer method.
  • the buffer memory device of the present invention transfers data between the plurality of processors and the main memory in accordance with a memory access request including a write request or a read request issued by each of the plurality of processors.
  • a plurality of buffer memories corresponding to each of the plurality of processors and holding write data corresponding to a write request issued by the corresponding processor; and a memory indicating the nature of the memory access request A memory access information acquisition unit that acquires access information; a determination unit that determines whether a property indicated by the memory access information acquired by the memory access information acquisition unit satisfies a predetermined condition; and the memory access If the property indicated by the information satisfies the condition, the determination unit When it is determined Te, among the plurality of buffer memories, and a control unit swept out data held in the buffer memory to the main memory corresponding to the condition.
  • a buffer memory is provided corresponding to each of the plurality of processors, and control of the write data output from the plurality of processors by controlling the sweeping of the data from the buffer memory based on a predetermined condition, For example, data coherency can be easily maintained and data transfer efficiency can be improved.
  • the buffer memory device of the present invention has a function of merging write data.
  • the buffer memory device includes a buffer memory for merging, and transfers data by burst transfer of the merged data to the buffer memory. Efficiency can be improved. At this time, since the conditions for determining at which timing the data is to be swept from the buffer memory are defined, the data can be swept out when necessary or so as to maintain coherency. The transfer efficiency can be improved.
  • the plurality of processors are a plurality of physical processors, and each of the plurality of buffer memories corresponds to each of the plurality of physical processors, and write data corresponding to a write request issued by a corresponding physical processor
  • the memory access information acquisition unit acquires processor information indicating a logical processor and a physical processor that issued the memory access request as the memory access information
  • the determination unit is a physical processor indicated by the processor information.
  • the determination unit further determines whether or not the memory access information includes command information for sweeping data held in at least one buffer memory to the main memory, and the control unit Further, when the determination unit determines that the command information is included in the memory access information, data held in the buffer memory indicated by the command information may be swept out to the main memory.
  • the data held in the buffer memory can be easily swept out to the main memory, and the data in the main memory can be updated to the latest data.
  • the command information is information for sweeping data held in all of the plurality of buffer memories to the main memory, and the control unit further includes the command information in the memory access information. If the determination unit determines that the data is present, the data held in all of the plurality of buffer memories may be swept out to the main memory.
  • control unit when the determination unit determines that the command information is included in the memory access information, the control unit further stores data held in a buffer memory corresponding to a processor that has issued the memory access request May be swept into the main memory.
  • the main memory includes a plurality of areas belonging to either a cacheable attribute or an uncacheable attribute
  • the memory access information acquisition unit further includes a write request included in the write request as the memory access information.
  • the attribute information indicating the attribute of the area indicated by the address and the processor information indicating the processor that issued the write request are acquired, and the determination unit further includes the attribute indicated by the attribute information being the uncacheable attribute And whether the attribute indicating that the data to be burst transferred is held is a non-burstable attribute, and the control unit further determines that the attribute indicated by the attribute information is the non-burstable attribute Stored in the buffer memory corresponding to the processor indicated by the processor information.
  • the data may be sweeping the main memory.
  • the plurality of buffer memories further hold a write address corresponding to the write data
  • the memory access information acquisition unit further includes, as the memory access information, when the memory access request includes a read request.
  • the read address included in the read request is acquired, and the determination unit determines whether or not a write address matching the read address is held in at least one of the plurality of buffer memories, and the control unit If the determination unit determines that a write address matching the read address is held in at least one of the plurality of buffer memories, the plurality of buffer memories before the write data corresponding to the write address
  • the data held in the memory may be swept out to the main memory.
  • the data in the area can be updated to the latest data, thereby preventing the processor from reading out the old data.
  • the memory access information acquisition unit further acquires a first write address included in the write request when the memory access request includes a write request, and the determination unit determines that the first write address is It is determined whether or not the second write address included in the write request input immediately before is continuous, and the control unit determines that the first write address and the second write address are continuous by the determination unit.
  • data held in the plurality of buffer memories before the write data corresponding to the second write address may be swept out to the main memory.
  • the determination unit further determines whether the data amount of data held in each of the plurality of buffer memories has reached a predetermined threshold, and the control unit further determines whether the data amount is When the determination unit determines that the threshold value has been reached, the data held in the buffer memory whose data amount has reached the threshold value may be swept out to the main memory.
  • the data can be swept when the data amount matches the maximum value of data that can be held in the buffer memory or the data bus width between the buffer memory and the main memory.
  • the main memory includes a plurality of areas belonging to either a cacheable attribute or an uncacheable attribute, and the buffer memory device has an attribute of an area indicated by a write address included in the write request.
  • a data writing unit for writing write data corresponding to the write request to the plurality of buffer memories when the cacheable attribute and the non-burstable attribute indicating that data to be burst transferred are held.
  • the plurality of buffer memories may hold the write data written by the data writing unit.
  • the buffer memory device further includes a cache memory
  • the data writing unit further includes an attribute of the area indicated by the write address that is the cacheable attribute and a write request corresponding to the write request.
  • the buffer memory can be used even when the write data is simultaneously written into the cache memory and the main memory (write-through process), and burst write from the buffer memory to the cache memory can be performed. .
  • the buffer memory may hold a plurality of write addresses included in the plurality of write requests and a plurality of write data corresponding to the write requests.
  • a plurality of write data and a plurality of write addresses can be stored in the buffer memory in association with each other, so that the write data can be managed and the plurality of write data can be swept out to the main memory at a time.
  • the plurality of processors are a plurality of logical processors, and each of the plurality of buffer memories corresponds to each of the plurality of logical processors, and write data corresponding to a write request issued by a corresponding logical processor. May be held.
  • the plurality of processors are a plurality of virtual processors corresponding to a plurality of threads, and each of the plurality of buffer memories corresponds to each of the plurality of virtual processors and is issued by a corresponding virtual processor. Write data corresponding to the request may be held.
  • the present invention can also be realized as a memory system including the above buffer memory device, a plurality of processors, and a main memory.
  • the present invention can also be realized as a data transfer method, and the data transfer method of the present invention is configured in accordance with a memory access request including a write request and a read request issued by each of the plurality of processors.
  • a data transfer method for transferring data between a main memory and a memory, a memory access information acquisition step for acquiring memory access information indicating the nature of a memory access request issued by the plurality of processors, and the memory access information A determination step for determining whether or not the property indicated by the memory access information acquired in the acquisition step satisfies a predetermined condition; and the determination step determines that the property indicated by the memory access information satisfies the condition Corresponding to each of the plurality of processors, Among the plurality of buffer memories that holds the write data corresponding to the issued write request by Tsu support, and a step sweep sweeping the data held in the buffer memory corresponding to the condition in the main memory.
  • the present invention may be realized as a program that causes a computer to execute the steps included in the data transfer method. Furthermore, it may be realized as a recording medium such as a computer-readable CD-ROM (Compact Disc-Read Only Memory) in which the program is recorded, and information, data, or a signal indicating the program. These programs, information, data, and signals may be distributed via a communication network such as the Internet.
  • a communication network such as the Internet.
  • the write data output from a plurality of masters can be burst-written, and the memory transfer efficiency can be improved.
  • FIG. 1 is a block diagram showing a schematic configuration of a memory system including a processor, a main memory, and a cache according to the present embodiment.
  • FIG. 2 is a diagram showing attributes set in the main memory area according to the present embodiment.
  • FIG. 3 is a block diagram showing the configuration of the buffer memory device according to the present embodiment.
  • FIG. 4 is a diagram illustrating an example of the memory access information according to the present embodiment.
  • FIG. 5 is a diagram showing an outline of the buffer memory provided in the buffer memory device of the present embodiment.
  • FIG. 6 is a diagram illustrating a determination table illustrating an example of a plurality of determination conditions according to the present embodiment.
  • FIG. 7 is a block diagram illustrating a detailed configuration of the determination unit according to the present embodiment.
  • FIG. 1 is a block diagram showing a schematic configuration of a memory system including a processor, a main memory, and a cache according to the present embodiment.
  • FIG. 2 is a diagram showing attributes set in the main memory area according to
  • FIG. 8 is a flowchart showing the operation of the buffer memory device of this embodiment.
  • FIG. 9 is a flowchart showing a write process of the buffer memory device according to the present embodiment.
  • FIG. 10 is a flowchart showing a read process of the buffer memory device according to the present embodiment.
  • FIG. 11 is a flowchart showing attribute determination processing of the buffer memory device according to the present embodiment.
  • FIG. 12 is a flowchart showing command determination processing of the buffer memory device according to the present embodiment.
  • FIG. 13 is a flowchart showing a read address determination process of the buffer memory device according to the present embodiment.
  • FIG. 14 is a flowchart showing a write address determination process of the buffer memory device according to the present embodiment.
  • FIG. 15 is a flowchart showing a buffer amount determination process of the buffer memory device according to the present embodiment.
  • FIG. 16 is a flowchart showing processor determination processing of the buffer memory device according to the present embodiment.
  • FIG. 17 is a diagram showing a different outline of the buffer memory provided in the buffer memory device of the present embodiment.
  • FIG. 18 is a block diagram showing an outline of a conventional memory system.
  • the buffer memory device of the present embodiment temporarily holds data to be written to the main memory output from the processor, and burst-writes the held data when a predetermined condition is satisfied.
  • the data bus can be used effectively and data can be transferred efficiently.
  • FIG. 1 is a block diagram showing a schematic configuration of a memory system including a processor, a main memory, and a cache memory according to the present embodiment.
  • the memory system of the present embodiment includes a processor 10, a main memory 20, an L1 (level 1) cache 30, and an L2 (level 2) cache 40.
  • the buffer memory device of the present embodiment is provided, for example, between the processor 10 and the main memory 20 in the system as shown in FIG. Specifically, the buffer memory included in the buffer memory device is provided in the L2 cache 40.
  • the processor 10 issues a memory access request to the main memory 20 and outputs the issued memory access request.
  • the memory access request is, for example, a read request for reading data or a write request for writing data.
  • the read request includes a read address indicating a data read destination area
  • the write request includes a write address indicating a data write destination area. Further, when outputting a write request, the processor 10 outputs data for writing to the main memory 20 in accordance with the write request.
  • the main memory 20 includes a plurality of areas belonging to either a cacheable attribute or an uncacheable attribute, and a large-capacity main memory such as an SDRAM (Synchronous Dynamic Random Access Memory) that stores a program or data in the area. It is.
  • SDRAM Serial Dynamic Random Access Memory
  • data is read from the main memory 20 or data is written to the main memory 20.
  • the L1 cache 30 and the L2 cache 40 are cache memories such as SRAMs that store a part of data read by the processor 10 from the main memory 20 and a part of data to be written to the main memory 20.
  • the L1 cache 30 and the L2 cache 40 are cache memories that have a smaller capacity than the main memory 20 but can operate at high speed.
  • the L1 cache 30 is a cache memory having a higher priority that is arranged closer to the processor 10 than the L2 cache 40, and is usually smaller in capacity than the L2 cache 40 but can operate at high speed.
  • the L1 cache 30 acquires the memory access request output from the processor 10 and determines whether data corresponding to the address included in the acquired memory access request is already held (hit) or not (miss). To do. For example, when a read request hits, the L1 cache 30 reads data corresponding to the read address included in the read request from the L1 cache 30 and outputs the read data to the processor 10. The data corresponding to the read address is data stored in the area indicated by the read address. When the write request is hit, the L1 cache 30 writes data corresponding to the write request in the L1 cache 30. The data corresponding to the write request is data output from the processor 10 simultaneously with the write request (hereinafter also referred to as write data).
  • the L1 cache 30 When the read request misses, the L1 cache 30 reads data corresponding to the read request from the L2 cache 40 or the main memory 20 and outputs the read data to the processor 10.
  • the data corresponding to the read request is data (hereinafter also referred to as read data) held in the area of the main memory 20 indicated by the read address included in the read request.
  • the L1 cache 30 performs refill processing, updates the tag address, and writes the data output from the processor 10 simultaneously with the write request.
  • the L2 cache 40 acquires the memory access request output from the processor 10 and determines whether the acquired memory access request has hit or missed. When the read request is hit, the L2 cache 40 reads data corresponding to the read address included in the read request from the inside of the L2 cache 40, and outputs the read data to the processor 10 via the L1 cache 30. When the write request hits, the data corresponding to the write request is written into the L2 cache 40 via the L1 cache 30.
  • the L2 cache 40 When the read request is missed, the L2 cache 40 reads data corresponding to the read request from the main memory 20 and outputs the read data to the processor 10 via the L1 cache 30. When the write request misses, the L2 cache 40 performs refill processing, updates the tag address via the L1 cache 30, and writes data corresponding to the write request.
  • processing for providing coherency among the main memory 20, the L1 cache 30, and the L2 cache 40 is performed.
  • data written to the cache memory according to the write request is written to the main memory 20 by a write back process or a write through process.
  • the write-back process is a process for writing data to the main memory at an arbitrary timing after writing data to the cache memory.
  • the write-through process is a process for simultaneously executing data writing to the cache memory and data writing to the main memory.
  • the processor 10 may write data to the main memory 20 without refilling and updating the L1 cache 30. The same applies to the L2 cache 40.
  • FIG. 1 shows a configuration in which the L1 cache 30 is provided outside the processor 10, the processor 10 may include the L1 cache 30.
  • data may be transferred not only to the main memory 20 but also to other peripheral devices such as an IO device.
  • the peripheral device is a device that transfers data to and from the processor 10, and is, for example, a keyboard, a mouse, a display, or a floppy (registered trademark) disk drive.
  • FIG. 2 is a diagram showing attributes set in the address space of the present embodiment.
  • the area of the address space is allocated to the main memory 20 and other peripheral devices.
  • the main memory 20 includes a cacheable area 21 and an uncacheable area 22.
  • the cacheable area 21 is an area belonging to a cacheable attribute indicating that data to be cached can be held in a cache memory such as the L1 cache 30 and the L2 cache 40.
  • the uncacheable area 22 is an area belonging to an uncacheable attribute indicating that data that should not be cached can be held in a cache memory such as the L1 cache 30 and the L2 cache 40.
  • the uncacheable area 22 includes a burstable area 23 and a burst impossible area 24.
  • the burstable area 23 is an area that belongs to the burstable attribute indicating that data that should not be cached in the cache memory and that should be burst transferred can be held. Burst transfer is a batch transfer of data, such as burst read and burst write.
  • the burstable area 23 is an area that is not read-sensitive, for example. Note that the read-sensitive area is an area in which the value of the retained data is changed only by reading.
  • the non-burstable area 24 is an area that belongs to a non-burstable attribute indicating that it should not be cached in the cache memory and that data to be burst transferred cannot be held.
  • the burst impossible area 24 is, for example, a read sensitive area.
  • the main memory 20 of the present embodiment one of three exclusive attributes is set for each area.
  • the attribute setting to the main memory 20 is performed by, for example, a memory management unit (MMU: Memory Management Unit) included in the processor 10.
  • the processor 10 may include a TLB (Translation Lookaside Buffer) that stores an address conversion table in which physical addresses and virtual addresses are associated with each other, and may store attributes in the address conversion table.
  • TLB Translation Lookaside Buffer
  • FIG. 3 is a block diagram showing a configuration of the buffer memory device according to the present embodiment.
  • the buffer memory device 100 in FIG. 1 transfers data between the plurality of processors 10a, 10b, and 10c and the main memory 20 in accordance with a memory access request issued by each of the plurality of processors 10a, 10b, and 10c.
  • the plurality of processors 10a, 10b, and 10c are referred to as the processor 10 when it is not necessary to distinguish between them.
  • the buffer memory device 100 is provided in the same chip as the L2 cache 40 shown in FIG.
  • the L1 cache 30 shown in FIG. 1 is provided in each of the plurality of processors 10a, 10b, and 10c, and is not shown in FIG.
  • the L1 cache 30 may be provided between the plurality of processors 10a, 10b, and 10c and the buffer memory device 100, and may be shared by the plurality of processors 10a, 10b, and 10c.
  • the buffer memory device 100 includes a memory access information acquisition unit 110, a determination unit 120, a control unit 130, a data transfer unit 140, buffer memories 150a, 150b, and 150c, a cache memory 160, and the like. Is provided. In the following description, the buffer memories 150a, 150b, and 150c are referred to as the buffer memory 150 when it is not necessary to distinguish between them.
  • the memory access information acquisition unit 110 acquires a memory access request from the processor 10, and acquires memory access information indicating the nature of the memory access request issued by the processor 10 from the acquired memory access request.
  • the memory access information is information included in the memory access request and information accompanying it, and includes command information, address information, attribute information, processor information, and the like.
  • the command information is information indicating whether the memory access request is a write request or a read request, and other commands related to data transfer.
  • the address information is information indicating a write address indicating a data write area or a read address indicating a data read area.
  • the attribute information is information indicating whether the attribute of the area indicated by the write address or the read address is a cacheable attribute, a burst enable attribute, or a burst disable attribute.
  • the processor information is information indicating a thread that has issued a memory access request, a logical processor (LP), and a physical processor (PP).
  • the memory access information acquisition unit 110 holds a table in which the address of the main memory 20 is associated with the attribute of the area indicated by the address, and acquires the attribute information by referring to the address information and the table. May be.
  • FIG. 4 is a diagram illustrating an example of the memory access information according to the present embodiment.
  • memory access information 201 and 202 are shown.
  • the memory access information 201 indicates that the memory access request is a write request issued by the logical processor “LP1” of the physical processor “PP1”, and data is written to the area belonging to the burstable attribute indicated by “write address 1”. It shows that it includes a write command. Further, it is indicated that the write request includes an “All Sync” command.
  • the memory access information 202 indicates that the memory access request is a read request issued by the logical processor “LP1” of the physical processor “PP1”, and data is read from an area belonging to the burstable attribute indicated by “read address 1”.
  • the read command shown is included. Further, it is indicated that the read request includes a “Self Sync” command.
  • the determination unit 120 determines whether or not the property indicated by the memory access information acquired by the memory access information acquisition unit 110 satisfies a predetermined condition. Specifically, the determination unit 120 uses command information, attribute information, address information, processor information, and the like acquired as memory access information, and the buffer amount information acquired from the buffer memory 150 via the control unit 130, Determine the conditions. Details of the conditions and the processing of the determination unit 120 will be described later.
  • the buffer amount information is information indicating the amount of data held in each of the buffer memories 150.
  • the control unit 130 stores data held in the buffer memory corresponding to the condition among the plurality of buffer memories 150a, 150b, and 150c. To the main memory. Specifically, the control unit 130 outputs a sweep command to the buffer memory 150. The sweep command is output to the buffer memory that is the target of the data sweep, and the buffer memory that has received the sweep command outputs the stored data to the main memory 20.
  • control unit 130 controls the data transfer unit 140 by outputting control information to the data transfer unit 140.
  • control information includes at least attribute information, and the control unit 130 determines the write data write destination, the read data read destination, and the like according to the attribute of the area indicated by the address.
  • control unit 130 outputs a buffer amount, which is the amount of data held in each of the plurality of buffer memories 150a, 150b, and 150c, to the determination unit 120.
  • the data transfer unit 140 transfers data between the processor 10 and the main memory 20 under the control of the control unit 130. Specifically, when a write request is output from the processor 10, write data output from the processor 10 for writing to the main memory 20 is written to any of the buffer memory 150, the cache memory 160, and the main memory 20. When a read request is output from the processor 10, the read data is read from either the cache memory 160 or the main memory 20, and the read read data is output to the processor 10. Which memory is used is determined by the control unit 130 according to the attribute of the area indicated by the address.
  • the data transfer unit 140 includes a first data transfer unit 141, a second data transfer unit 142, and a third data transfer unit 143.
  • the first data transfer unit 141 transfers data when the area indicated by the address belongs to the burstable attribute.
  • the first data transfer unit 141 writes write data corresponding to the write request in the buffer memory 150.
  • Which of the plurality of buffer memories 150a, 150b, and 150c is to be written is determined by the processor information included in the control information. Specifically, write data is written into a buffer memory corresponding to the processor that issued the write request.
  • the first data transfer unit 141 reads the read data corresponding to the read request from the main memory 20 and outputs the read data to the processor 10.
  • the second data transfer unit 142 transfers data when the area indicated by the address belongs to the non-burstable attribute.
  • the second data transfer unit 142 writes the write data corresponding to the write request in the main memory 20.
  • the second data transfer unit 142 reads the read data corresponding to the read request from the main memory 20 and outputs the read read data to the processor 10.
  • the third data transfer unit 143 transfers data when the area indicated by the address belongs to the cacheable attribute.
  • the write data write destination differs depending on whether the third data transfer unit 143 performs write back processing or write through processing.
  • the third data transfer unit 143 determines whether the write request hits or misses. When the write request hits, write data is written to the cache memory 160. When the write request misses, the third data transfer unit 143 writes the address (tag address) and write data included in the write request to the cache memory 160. In any case, the write data written to the cache memory 160 is written to the main memory 20 at an arbitrary timing.
  • the third data transfer unit 143 determines whether the write request hits or misses. When the write request hits, the third data transfer unit 143 writes the write address and write data in the buffer memory 150. The write data written in the buffer memory 150 is transferred from the buffer memory 150 to the cache memory 160 and the main memory under the control of the control unit 130 when the determination unit 120 determines that the nature of the subsequent memory access request satisfies the condition. Burst write to the memory 20 is performed.
  • the third data transfer unit 143 writes the write address and the write data in the buffer memory 150.
  • the determination unit 120 determines that the write data and the write address written in the buffer memory 150 satisfy the condition, the nature of the subsequent memory access request, the cache memory 160 and the main memory 20 Is burst-written.
  • the third data transfer unit 143 determines whether the read request hits or misses. When the read request is hit, the third data transfer unit 143 reads the read data from the cache memory 160 and outputs the read data to the processor 10.
  • the third data transfer unit 143 reads the read data from the main memory 20 and writes the read data and the read address to the cache memory 160. Then, the third data transfer unit 143 reads the read data from the cache memory 160 and outputs the read data to the processor 10. Note that the read data read from the main memory 20 may be output to the processor 10 at the same time as it is written to the cache memory 160.
  • Each of the buffer memories 150a, 150b, and 150c is a store buffer (STB) that corresponds to the plurality of processors 10a, 10b, and 10c and holds write data corresponding to a write request issued by the corresponding processor.
  • the buffer memory 150 is a buffer memory that temporarily holds write data in order to merge write data output from the plurality of processors 10.
  • the buffer memory 150 is provided for each physical processor.
  • the buffer memory 150 can hold data of 128 bytes at the maximum. Data held in the buffer memory 150 is burst-written to the main memory 20 based on control from the control unit 130.
  • the write request is an access to an area belonging to the cacheable attribute and the write-through process is performed, the data held in the buffer memory 150 is burst-written to the main memory 20 and the cache memory 160. .
  • FIG. 5 is a diagram showing an outline of the buffer memory 150 provided in the buffer memory device 100 of the present embodiment.
  • the buffer memories 150a, 150b and 150c are provided corresponding to the physical processors (processors 10a (PP0), 10b (PP1) and 10c (PP2)), respectively. That is, the buffer memory 150a holds buffer control information such as a write address output from the processor 10a and write data.
  • the buffer memory 150b holds buffer control information such as a write address output from the processor 10b and write information.
  • the buffer memory 150c holds buffer control information such as a write address output from the processor 10c and write data.
  • the buffer control information is information included in the write request, and is information for managing data written to the buffer memory 150. That is, the buffer control information includes at least a write address and information indicating a physical processor and a logical processor that output corresponding write data.
  • the buffer memory provided for each physical processor has two areas capable of holding 64-byte data. For example, these two areas may be associated with each thread.
  • the cache memory 160 is, for example, a 4-way set associative cache memory, and a plurality of (for example, 16) caches that are areas capable of holding data of a predetermined number of bytes (for example, 128 bytes). Four ways with entries are provided. Each cache entry has a valid flag, a tag address, line data, and a dirty flag.
  • the valid flag is a flag indicating whether or not the data of the cache entry is valid.
  • the tag address is an address indicating a data writing destination or a data reading destination.
  • the line data is a copy of data of a predetermined number of bytes (for example, 128 bytes) in the block specified by the tag address and the set index.
  • the dirty flag is a flag indicating whether or not the cached data needs to be written back to the main memory.
  • association degree of the cache memory 160 that is, the number of ways the cache memory 160 has is not limited to four, and may be an arbitrary value.
  • the number of cache entries that one way has and the number of bytes of line data that one cache entry has may be any value.
  • the cache memory 160 may be another type of cache memory. For example, a direct map method or a full associative method may be used.
  • FIG. 6 is a diagram illustrating a determination table showing an example of a plurality of determination conditions according to the present embodiment.
  • an attribute determination condition (“Uncache”)
  • a command determination condition (“All Sync” and “Self Sync”)
  • an address determination condition (“RAW Hazard” and “Another Line Access”
  • the buffer amount determination condition (“Slot Full”) and the processor determination condition (“same LP, different PP”) are shown.
  • the attribute determination condition is a condition for sweeping out data from the buffer memory 150 and determining a buffer memory to be flushed according to the attribute of the area indicated by the address included in the memory access request using the attribute information.
  • the “Uncache” condition shown in FIG. 6 is an example of an attribute determination condition.
  • the determination unit 120 determines whether or not the attribute of the area indicated by the address included in the memory access request is a burst impossible attribute.
  • the control unit 130 holds the data from the buffer memory that holds data corresponding to the memory access request issued by the same logical processor that issued the memory access request.
  • the stored data is swept out to the main memory 20.
  • the control unit 130 may use a virtual processor corresponding to a thread instead of a logical processor as a reference for determining the buffer memory to be swept out.
  • the command determination condition is a condition for sweeping out data from the buffer memory 150 and determining a buffer memory to be swept out in accordance with a command included in the memory access request using the command information.
  • the “All Sync” condition and the “Self Sync” condition shown in FIG. 6 are examples of command determination conditions.
  • the determination unit 120 determines whether or not the “All Sync” command is included in the memory access request.
  • the “All Sync” command is a command for sweeping out all data held in all buffer memories 150 to the main memory 20.
  • the control unit 130 sweeps out all the data held in all the buffer memories 150 to the main memory 20.
  • the determination unit 120 determines whether or not the “Self Sync” command is included in the memory access request.
  • the “Self Sync” command is a command for sweeping only data output from the processor that issued the command from the buffer memory 150 to the main memory 20.
  • the control unit 130 transmits data corresponding to the memory access request issued by the same logical processor that issued the memory access request. Is stored in the main memory 20 from the buffer memory holding the.
  • the control unit 130 may use a virtual processor corresponding to a thread instead of a logical processor as a reference for determining the buffer memory to be swept out.
  • the address determination condition is a condition for sweeping out data from the buffer memory 150 and determining the buffer memory to be swept out according to the address included in the memory access request using the address information.
  • the “RAW Hazard” condition and the “Another Line Access” condition shown in FIG. 6 are examples of address determination conditions.
  • the determination unit 120 determines whether a write address that matches the read address included in the read request is held in at least one of the plurality of buffer memories 150.
  • the control unit 130 stores all the data up to the Hazard line, that is, before the write data corresponding to the write address. The data stored in the main memory 20 is swept out.
  • the determination unit 120 determines whether the write address included in the write request is related to the write address included in the write request input immediately before. Specifically, it is determined whether or not the two write addresses are consecutive addresses. At this time, it is assumed that the two write requests are issued by the same physical processor. When it is determined that the two write addresses are not consecutive addresses, the control unit 130 sweeps the data held in the buffer memory 150 before the write data corresponding to the write request input immediately before to the main memory 20.
  • the buffer amount determination condition is a condition for sweeping out data from the buffer memory 150 and determining a buffer memory to be swept out according to the data amount held in the buffer memory 150 using the buffer amount information.
  • the “Slot Full” condition shown in FIG. 6 is an example of a buffer amount determination condition.
  • the determination unit 120 determines whether or not the buffer amount that is the data amount held in the buffer memory 150 is full (128 bytes). When it is determined that the buffer amount is 128 bytes, the control unit 130 sweeps the data in the buffer memory to the main memory 20.
  • the processor determination condition is for using the processor information to determine whether the logical memory and the physical processor issued the memory access request, the data from the buffer memory 150 to be flushed, and the buffer memory to be flushed. It is a condition.
  • the “same LP, different PP” condition shown in FIG. 6 is an example of a processor determination condition.
  • the logical processor that issued the memory access request is the same as the logical processor that issued the write request corresponding to the write data held in the buffer memory 150. . Further, it is determined whether or not the physical processor that has issued the memory access request is different from the physical processor that has issued the write request. That is, at least one buffer memory has write data corresponding to a write request previously issued by a physical processor different from the physical processor indicated by the processor information and the same logical processor as the logical processor indicated by the processor information.
  • the control unit 130 sweeps out data corresponding to the write request previously issued by the logical processor from the buffer memory 150. It may be determined whether the threads are the same instead of the logical processor.
  • data is swept out from the buffer memory 150 when each condition is satisfied. Note that it is not necessary to determine all of the above conditions.
  • a new condition may be added to the above condition, or the above condition and the new condition may be replaced.
  • the “Slot Full” condition is a condition for determining whether or not the buffer amount is full.
  • a predetermined buffer amount such as half the maximum value of the buffer amount that can be held in the buffer memory. It may be a condition for determining whether or not the above has been reached. For example, the maximum amount of data that can be held in the buffer memory 150 is 128 bytes, but the buffer amount reaches 64 bytes when the data bus width between the buffer memory 150 and the main memory 20 is 64 bytes. It may be determined whether or not.
  • FIG. 7 is a block diagram illustrating a detailed configuration of the determination unit 120 according to the present embodiment.
  • the determination unit 120 includes an attribute determination unit 121, a processor determination unit 122, a command determination unit 123, an address determination unit 124, a buffer amount determination unit 125, and a determination result output unit 126. Prepare.
  • the attribute determination unit 121 acquires attribute information from the memory access information acquired by the memory access information acquisition unit 110, and the attributes of the area indicated by the address included in the memory access request include a cacheable attribute, a burstable attribute, and a burst Determine which of the impossible attributes. Then, the attribute determination unit 121 outputs the obtained determination result to the determination result output unit 126.
  • the processor determination unit 122 acquires processor information from the memory access information acquired by the memory access information acquisition unit 110, and the processor that has issued the memory access request selects any one of the plurality of logical processors and physical processors. Determine if it is a physical processor. Then, the processor determination unit 122 outputs the obtained determination result to the determination result output unit 126.
  • the command determination unit 123 acquires command information from the memory access information acquired by the memory access information acquisition unit 110, and determines whether or not a predetermined command is included in the memory access request. Further, when a predetermined command is included in the memory access request, the command determination unit 123 determines the type of the predetermined command. Then, the command determination unit 123 outputs the obtained determination result to the determination result output unit 126.
  • the predetermined command is, for example, an instruction for sweeping data from the buffer memory 150 regardless of other conditions.
  • the address determination unit 124 acquires address information from the memory access information acquired by the memory access information acquisition unit 110, and determines whether the address included in the memory access request is already held in the buffer memory 150. Further, the address determination unit 124 determines whether or not the address included in the memory access request is related to the address included in the immediately previous memory access request. Specifically, it is determined whether or not two addresses are continuous. Then, the address determination unit 124 outputs the obtained determination result to the determination result output unit 126.
  • the buffer amount determination unit 125 acquires the buffer amount from the buffer memory 150 via the control unit 130, and determines whether or not the buffer amount has reached a predetermined threshold value for each buffer memory. Then, the buffer amount determination unit 125 outputs the obtained determination result to the determination result output unit 126.
  • the predetermined threshold is, for example, the maximum value of the buffer memory 150 or the data bus width between the buffer memory device 100 and the main memory 20.
  • the determination result output unit 126 determines whether or not the condition shown in FIG. 6 is satisfied based on the determination result input from each determination unit, and outputs the obtained determination result to the control unit 130. Specifically, when it is determined that the condition shown in FIG. 6 is satisfied, the determination result output unit 126 outputs sweep information indicating which data in which buffer memory is swept to the main memory 20 to the control unit 130.
  • the buffer memory device 100 includes the plurality of buffer memories 150 that temporarily hold the write data output from the plurality of processors 10 and when a predetermined condition is satisfied, The data held in the buffer memory 150 is burst-written to the main memory 20. That is, in order to merge a plurality of write data having a small size, the buffer memory 150 is temporarily held, and the large size data obtained by merging is burst-written to the main memory 20. At this time, whether or not data can be swept out from the buffer memory 150 is determined based on conditions for guaranteeing the order of data among a plurality of processors.
  • FIG. 8 is a flowchart showing the operation of the buffer memory device 100 of the present embodiment.
  • the buffer memory device 100 executes the data transfer process according to the present embodiment by acquiring a memory access request from the processor 10.
  • the memory access information acquisition unit 110 acquires memory access information from the memory access request (S101). Then, the acquired memory access information is output to the determination unit 120. Further, the determination unit 120 acquires buffer amount information from the buffer memory 150 via the control unit 130 as necessary.
  • the determination unit 120 determines whether to sweep data from the buffer memory 150 using the input memory access information and the acquired buffer amount information (S102). Details of this sweep-out determination process will be described later.
  • the command determination unit 123 determines whether the memory access request is a write request or a read request (S103).
  • the data transfer unit 140 performs a write process of write data output from the processor 10 (S104).
  • the data transfer unit 140 executes a read data read process for the processor 10 (S105).
  • the memory access request determination process (S103) is completed after the sweep determination process (S102).
  • the writing process (S104) or the reading process (S105) may be executed.
  • FIG. 9 is a flowchart showing a write process of the buffer memory device 100 of the present embodiment.
  • the attribute determination unit 121 determines the attribute of the area indicated by the write address included in the write request (S111). Specifically, the attribute determination unit 121 determines whether the attribute of the area indicated by the write address is a burstable attribute, a burst impossible attribute, or a cacheable attribute.
  • the first data transfer unit 141 buffers the write data output from the processor 10 Write to the memory 150 (S112). Specifically, the first data transfer unit 141 sends write data to the buffer memory (buffer memory 150a) corresponding to the physical processor (for example, the processor 10a) that issued the write request based on the control from the control unit 130. Write.
  • the second data transfer unit 142 uses the write data output from the processor 10 as the main data Write to the memory 20 (S113).
  • the third data transfer unit 143 determines whether the write request has hit or missed (S114). . When the write request is missed (No in S114), the third data transfer unit 143 writes the tag address in the cache memory 160 (S115).
  • the control unit 130 determines whether the write process based on the write request is a write-back process or a write-through process.
  • the write data write destination is changed (S117).
  • the third data transfer unit 143 writes the write data to the cache memory 160 (S117).
  • the third data transfer unit 143 writes the write data and the write address in the buffer memory 150 (S118).
  • the write data output from the processor 10 is written into the main memory 20, the buffer memory 150, or the cache memory 160.
  • the data written to the buffer memory 150 and the cache memory 160 is written to the main memory 20 by a sweep-out determination process executed when a subsequent memory access request is input.
  • the attribute determination process (S111) is not performed after the memory access request determination process (S103) is completed. Each writing process may be executed.
  • FIG. 10 is a flowchart showing a read process of the buffer memory device 100 according to the present embodiment.
  • the attribute determination unit 121 determines the attribute of the area indicated by the read address included in the read request (S121). Specifically, the attribute determination unit 121 determines whether the attribute of the area indicated by the read address is a cacheable attribute or an uncacheable attribute.
  • the first data transfer unit 141 or the second data transfer unit 142 reads the read corresponding to the read request. Data is read from the main memory 20, and the read data read is output to the processor 10 (S122).
  • the third data transfer unit 143 determines whether the read request has hit or missed (S123). . When the read request is missed (No in S123), the third data transfer unit 143 reads the read data corresponding to the read request from the main memory 20 (S124). Then, the read read data and read address (tag address) are written in the cache memory 160 (S125). Then, the third data transfer unit 143 reads the read data from the cache memory 160 and outputs it to the processor 10 (S126). At this time, the writing of the read data to the cache memory 160 and the output to the processor 10 may be executed simultaneously.
  • the third data transfer unit 143 reads the read data from the cache memory 160 and outputs it to the processor 10 (S126).
  • the buffer memory device 100 reads the read data from the cache memory 160 or the main memory 20 in accordance with the read request issued by the processor 10 and outputs the read data to the processor 10.
  • the attribute determination process (S121) is not performed after the memory access request determination process (S103) is completed. Each reading process may be executed.
  • the conditions indicated by the determination table shown in FIG. 6 may be determined in any order. However, when the condition is satisfied, such as the “All Sync” condition, the data stored in all the buffers is swept out, so that it is not necessary to determine other conditions after that. desirable.
  • FIG. 11 is a flowchart showing an attribute determination process of the buffer memory device 100 according to the present embodiment. This figure shows the sweep determination process based on the “Uncache” condition of FIG.
  • the attribute determination unit 121 determines whether or not the attribute of the area indicated by the address included in the memory access request is a burst impossible attribute (S201). If the attribute of the area indicated by the address is not a burst impossible attribute (No in S201), another determination process is executed.
  • the control unit 130 When it is determined that the attribute of the area indicated by the address included in the memory access request is a non-burstable attribute (Yes in S201), the control unit 130 is issued by the same logical processor as the logical processor that issued the memory access request. The stored data is swept out from the buffer memory holding the data corresponding to the memory access request to the main memory 20 (S202). Note that the control unit 130 performs data sweeping by specifying a buffer memory to be swept out of the plurality of buffer memories 150 using the determination result of the processor determination unit 122. When the sweeping is completed, another determination process is executed.
  • FIG. 12 is a flowchart showing command determination processing of the buffer memory device 100 according to the present embodiment. This figure shows the sweep determination process based on the “All Sync” condition and the “Self Sync” condition in FIG.
  • the command determination unit 123 determines whether the command included in the memory access request includes a “Sync” command that is an instruction for sweeping data regardless of other conditions. It is determined whether or not (S301). When the “Sync” command is not included in the memory access request (No in S301), another determination process is executed.
  • the command determination unit 123 determines whether the “Sync” command is an “All Sync” command or a “Self Sync” command (S302). ).
  • the control unit 130 sweeps out all data from all the buffer memories 150 (S303).
  • the control unit 130 When the “Sync” command is a “Self Sync” command (“Self Sync” in S302), the control unit 130 responds to a memory access request issued by the same logical processor that issued the memory access request. The held data is swept out from the buffer memory holding the data to the main memory 20 (S304). Note that the control unit 130 performs data sweeping by specifying a buffer memory to be discharged among the plurality of buffer memories 150 using the determination result of the processor determination unit 122.
  • FIG. 13 is a flowchart showing the read address determination process of the buffer memory device 100 of the present embodiment. This figure shows the sweep-out determination process based on the “RAW Hazard” condition of FIG. Note that the “RAW Hazard” condition is a condition that is determined when the buffer memory device 100 receives a read request. That is, it is executed when the command determination unit 123 determines that the memory access request is a read request.
  • the address determination unit 124 determines whether or not the read address included in the read request matches the write address held in the buffer memory 150 (S401). If it is determined that the read address does not match the write address held in the buffer memory 150 (No in S401), another determination process is executed.
  • the control unit 130 reads all the data up to the Hazard line, that is, write data corresponding to the matched write address. All previously stored data is swept out from the buffer memory 150 (S402). When the data sweeping is completed, another determination process is executed.
  • FIG. 14 is a flowchart showing the write address determination process of the buffer memory device 100 of the present embodiment. This figure shows a sweep-out determination process based on the “Another Line Access” condition of FIG.
  • the “Another Line Access” condition is a condition determined when the buffer memory device 100 receives a write request. That is, it is executed when the command determination unit 123 determines that the memory access request is a write request.
  • the address determination unit 124 determines whether or not the write address included in the write request is continuous with the write address included in the write request input immediately before (S501). When two addresses are continuous (No in S501), another determination process is executed.
  • control unit 130 includes write data corresponding to the write request input immediately before, and sweeps out all previous data from the buffer memory 150 (S502). When the data sweeping is completed, another determination process is executed.
  • FIG. 15 is a flowchart showing a buffer amount determination process of the buffer memory device 100 according to the present embodiment. This figure shows the sweep-out determination process based on the “Slot Full” condition of FIG.
  • the “Slot Full” condition is a condition that is determined based on the buffer amount information obtained from the buffer memory 150, not the memory access information, unlike the other conditions. Therefore, the determination may be made not only when the buffer memory device 100 receives a memory access request but also when data is written to the buffer memory 150 at an arbitrary timing.
  • the buffer amount determination unit 125 acquires the buffer amount information from the buffer memory 150 via the control unit 130, and determines whether the buffer amount is full for each buffer memory (S601). When the buffer amount is not full (No in S601), when the buffer memory device 100 receives a memory access request, another determination process is executed.
  • control unit 130 sweeps data from the buffer memory in which the buffer amount is full among the plurality of buffer memories 150 (S602).
  • the data sweeping is completed, another determination process is executed.
  • FIG. 16 is a flowchart showing processor determination processing of the buffer memory device 100 according to the present embodiment. This figure shows the sweep determination process based on the “same LP, different PP” condition of FIG.
  • the processor determination unit 122 is a physical processor that is different from the physical processor that issued the memory access request and is the same logical processor as the logical processor that issued the memory access request. It is determined whether write data corresponding to a previously issued memory access request is held in the buffer memory 150 (S701). If the write data is not held in the buffer memory 150 (No in S701), another determination process is executed.
  • the write data corresponding to the write request is held in the buffer memory 150. That is, input small-size write data is merged in the buffer memory 150 to become large-size data.
  • the data is burst-written to the main memory 20 when any of the above-described conditions is satisfied.
  • the data is swept out to the main memory 20 each time each determination condition is satisfied. However, after all the determination conditions are determined, the data corresponding to the satisfied condition are collected in the main memory 20. It may be swept out.
  • the buffer memory device 100 includes the buffer memory 150 corresponding to each of the plurality of processors 10, and merges and holds the write data output from the processor 10 in each buffer memory 150. Let Then, when a predetermined condition is satisfied, the merged data from the buffer memory 150 is burst-written to the main memory 20.
  • the buffer memory device and the data transfer method of the present invention have been described based on the embodiments.
  • the present invention is not limited to these embodiments. Unless it deviates from the meaning of this invention, what made the various deformation
  • the buffer memory device 100 includes a buffer memory 150 in association with each of a plurality of physical processors.
  • the buffer memory device 100 may include the buffer memory 150 in association with each of the plurality of logical processors.
  • FIG. 17 is a diagram showing a different outline of the buffer memory 150 provided in the buffer memory device 100 of the present embodiment.
  • Buffer memories 150d, 150e, and 150f shown in the figure correspond to the logical processors LP0, LP1, and LP2, respectively. That is, the buffer memories 150d, 150e, and 150f respectively hold write data corresponding to a write request issued by each logical processor LP0, LP1, and LP2, and buffer control information.
  • the buffer memory device 100 may include a buffer memory for each combination of a logical processor and a physical processor.
  • the buffer memory device 100 may include a buffer memory 150 in association with each of a plurality of virtual processors corresponding to a plurality of threads.
  • the plurality of buffer memories 150 may be a plurality of physically different memories, or may be a plurality of virtual memories corresponding to a plurality of areas obtained by virtually dividing one physical memory.
  • the buffer memory device 100 burst writes the merged data by using the buffer memory 150 when writing to the cache memory 160 by the write-through process. There is no need to use. That is, the third data transfer unit 143 may directly write the write data corresponding to the write request to the cache memory 160.
  • the write process to the burstable attribute area and the cacheable attribute area are performed.
  • the buffer memory 150 is used for the writing process (in the case of the write-through process).
  • a buffer memory may be used for the writing process to the main memory 20 divided into the cacheable attribute and the uncacheable attribute. That is, the uncacheable area of the main memory 20 may not be divided into an area belonging to the burstable attribute and an area belonging to the nonburstable attribute.
  • the uncacheable area may include a read-sensitive area, it is preferable to divide the main memory 20 into a burstable attribute and a non-burstable attribute.
  • the buffer memory device 100 improves data transfer efficiency by temporarily holding data when writing data from the processor 10 to the main memory 20, and burst writing the held data.
  • a read-only buffer memory (PFB (Prefetch Buffer)) may be newly provided, and data may be burst read from the main memory 20, and the burst read data may be temporarily held in the PFB. .
  • PFB Prefetch Buffer
  • the buffer memory device 100 may include an IO-mapped register, and the processor 10 may sweep out data from the corresponding buffer memory 150 by accessing the register.
  • the present invention can also be realized as a memory system including the buffer memory device 100 according to the present embodiment, the processor 10, and the main memory 20.
  • the issuer of the memory access request may be a processor such as a CPU, or any master such as a DMAC (Direct Memory Access Controller).
  • the configuration in which the L2 cache 40 includes the buffer memory 150 according to the present embodiment has been described.
  • the L1 cache 30 may include the buffer memory 150.
  • the memory system may not include the L2 cache 40.
  • the present invention may be applied to a memory system provided with a cache of level 3 cache or higher.
  • the cache at the maximum level includes the buffer memory 150 of the present embodiment.
  • the present invention can be realized not only as a buffer memory device, a memory system, and a data transfer method, but also as a program for causing a computer to execute the data transfer method of the present embodiment. Further, it may be realized as a computer-readable recording medium such as a CD-ROM for recording the program. Furthermore, it may be realized as information, data, or a signal indicating the program. These programs, information, data, and signals may be distributed via a communication network such as the Internet.
  • the constituent elements constituting the buffer memory device may be constituted by one system LSI (Large Scale Integration).
  • the system LSI is an ultra-multifunctional LSI manufactured by integrating a plurality of components on a single chip.
  • the system LSI is a computer system including a microprocessor, a ROM, a RAM, and the like. .
  • the buffer memory device and the memory system of the present invention can be used for a system that transfers data between a processor such as a CPU and a main memory, and can be used for a computer, for example.

Abstract

 複数のライトデータをバーストライトする場合に適用することができ、かつ、メモリ転送効率を向上させる。  複数のプロセッサ(10)のそれぞれが発行するメモリアクセス要求に従って、複数のプロセッサ(10)とメインメモリ(20)との間でデータを転送するバッファメモリ装置(100)であって、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持する複数のバッファメモリ(150)と、メモリアクセス要求の性質を示すメモリアクセス情報を取得するメモリアクセス情報取得部(110)と、メモリアクセス情報取得部(110)で取得されたメモリアクセス情報が示す性質が、所定の条件を満たすか否かを判定する判定部(120)と、前記条件を満たすと判定された場合、複数のバッファメモリ(150)のうち、条件に対応するバッファメモリに保持されているデータをメインメモリ(20)に掃き出す制御部(130)とを備える。

Description

バッファメモリ装置、メモリシステム及びデータ転送方法
 本発明は、バッファメモリ装置、メモリシステム及びデータ転送方法に関し、特に、プロセッサから出力されたデータを一時的にバッファメモリに保持し、保持したデータをメインメモリに掃き出すバッファメモリ装置、メモリシステム及びデータ転送方法に関する。
 近年、マイクロプロセッサからメインメモリへのメモリアクセスを高速化させるために、例えば、SRAM(Static Random Access Memory)などからなる小容量で高速で動作可能なキャッシュメモリが利用されている。例えば、キャッシュメモリをマイクロプロセッサの内部、又は、その近傍に配置し、メインメモリに保持されたデータの一部をキャッシュメモリに記憶させておくことで、メモリアクセスを高速化させることができる。
 従来、キャッシュメモリが、ライトデータを一時的に保持するためのバッファメモリの一例であるSTB(Store Buffer)を備える技術が開示されている(特許文献1参照)。
 図18は、従来のメモリシステムの概略を示すブロック図である。同図に示すメモリシステムは、プロセッサ310と、メインメモリ320と、キャッシュ330とを備える。キャッシュ330は、STB331を備える。
 同図に示す従来のメモリシステムでは、キャッシュ330は、連続するアドレスへのライトデータの書き込みを行う場合に、プロセッサ310から送られてくるライトデータをマージして、STB331に一時的に保持する。そして、キャッシュ330は、保持されたデータをメインメモリ320にバーストライトする。
 例えば、メインメモリ320とキャッシュ330との間のデータバス幅が128バイトであると仮定する。ここで、プロセッサ310は、複数の4バイトのライトデータを、メインメモリ320内の連続するアドレスが示す連続領域に書き込む場合について説明する。キャッシュ330は、4バイトのライトデータをマージし、STB331に保持する。そして、キャッシュ330は、STB331に保持されたデータのサイズが128バイトになった場合に、メインメモリ320に128バイトのデータをバーストライトする。
 以上のように、従来のメモリシステムでは、小さなサイズのライトデータをマージして、一時的に保持し、マージすることで得られた大きなサイズのデータをメインメモリにバーストライトする。これにより、データバスなどを有効に利用することができ、メモリ転送効率を向上させることができる。
特開2006-260159号公報
 しかしながら、上記従来技術によれば、以下のような課題がある。
 ライト要求を発行するスレッド又はプロセッサなどのマスタが複数あり、複数のマスタからのライトデータをマージして保持する場合、すなわち、マルチスレッド又はマルチプロセッサなどのマルチマスタの場合には、バッファメモリに保持されるライトデータがいずれのマスタで発行されたライト要求に基づくものであるかを管理するのが困難である。さらに、同じスレッドが異なるマスタによって実行された場合などは、データのコヒーレンシを保持することができない。
 以上のように、従来のメモリシステムは、複数のマスタで発行されたライト要求に対応するライトデータをマージして、マージしたライトデータをバースト転送する場合に適用することができないという課題がある。
 そこで、本発明は、上記課題を解決するためになされたものであって、複数のライトデータをバーストライトする場合に適用することができ、かつ、データの転送効率を向上させるバッファメモリ装置、メモリシステム及びデータ転送方法を提供することを目的とする。
 上記課題を解決するために、本発明のバッファメモリ装置は、複数のプロセッサのそれぞれが発行するライト要求又はリード要求を含むメモリアクセス要求に従って、前記複数のプロセッサとメインメモリとの間でデータを転送するバッファメモリ装置であって、前記複数のプロセッサのそれぞれに対応し、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持する複数のバッファメモリと、前記メモリアクセス要求の性質を示すメモリアクセス情報を取得するメモリアクセス情報取得部と、前記メモリアクセス情報取得部によって取得されたメモリアクセス情報が示す性質が、予め定められた条件を満たすか否かを判定する判定部と、前記メモリアクセス情報が示す性質が前記条件を満たすと前記判定部によって判定された場合、前記複数のバッファメモリのうち、前記条件に対応するバッファメモリに保持されているデータを前記メインメモリに掃き出す制御部とを備える。
 これにより、複数のプロセッサのそれぞれに対応させてバッファメモリを備え、かつ、所定の条件に基づいてバッファメモリからのデータの掃き出しを制御することで、複数のプロセッサから出力されるライトデータの管理、例えば、データのコヒーレンシの保持などを容易にし、データの転送効率を向上させることができる。
 具体的には、本発明のバッファメモリ装置は、ライトデータをマージする機能を有しており、マージを行うためにバッファメモリを備え、バッファメモリにマージしたデータをバースト転送することでデータの転送効率を向上させることができる。このとき、どのタイミングでバッファメモリからデータを掃き出すかを決定するための条件が定められているため、必要なときに、又は、コヒーレンシを保つようにデータの掃き出しを実行することができるので、データの転送効率を向上させることができる。
 また、前記複数のプロセッサは、複数の物理プロセッサであり、前記複数のバッファメモリのそれぞれは、前記複数の物理プロセッサのそれぞれに対応し、対応する物理プロセッサによって発行されたライト要求に対応するライトデータを保持し、前記メモリアクセス情報取得部は、前記メモリアクセス情報として、前記メモリアクセス要求を発行した論理プロセッサ及び物理プロセッサを示すプロセッサ情報を取得し、前記判定部は、前記プロセッサ情報が示す物理プロセッサとは異なる物理プロセッサで、かつ、前記プロセッサ情報が示す論理プロセッサと同じ論理プロセッサで以前に発行されたライト要求に対応するライトデータが前記複数のバッファメモリのいずれかに保持されている場合に、前記条件を満たすと判定し、前記制御部は、前記条件を満たすと前記判定部によって判定された場合、前記条件を満たすバッファメモリに保持されているデータを前記メインメモリに掃き出してもよい。
 これにより、異なる物理プロセッサ、かつ、同じ論理プロセッサで発行されたアクセス要求が発生した場合に、以前に発行されているライト要求に対応するデータをメインメモリに書き込むことで、データのコヒーレンシを保つことができる。なぜなら、メモリアクセス要求が、同じ論理プロセッサであるが、異なる物理プロセッサで発行された場合、異なるバッファメモリに同じ論理プロセッサから出力されたデータを保持してしまう恐れがあるが、この場合、各バッファメモリ間でのデータのコヒーレンシが保てなくなるためである。バッファメモリに保持されていたデータをメインメモリに掃き出すことで、バッファメモリ間でのデータのコヒーレンシの問題を無くすことができる。
 また、前記判定部は、さらに、前記メモリアクセス情報に、少なくとも1つの前記バッファメモリに保持されたデータを前記メインメモリに掃き出すためのコマンド情報が含まれているか否かを判定し、前記制御部は、さらに、前記メモリアクセス情報に前記コマンド情報が含まれていると前記判定部によって判定された場合、前記コマンド情報が示すバッファメモリに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、プロセッサからの指示に基づいて、容易にバッファメモリに保持されているデータをメインメモリに掃き出すことができ、メインメモリのデータを最新のデータに更新することができる。
 また、前記コマンド情報は、前記複数のバッファメモリの全てに保持されたデータを前記メインメモリに掃き出すための情報であり、前記制御部は、さらに、前記メモリアクセス情報に前記コマンド情報が含まれていると前記判定部によって判定された場合、前記複数のバッファメモリの全てに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、全てのバッファメモリのデータをメインメモリに掃き出すことができるので、メインメモリの全てのデータを最新のデータに更新することができる。
 また、前記制御部は、さらに、前記メモリアクセス情報に前記コマンド情報が含まれていると前記判定部によって判定された場合、当該メモリアクセス要求を発行したプロセッサに対応するバッファメモリに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、所定のバッファメモリのみを指定して、当該バッファメモリに保持されているデータをメインメモリに掃き出すことができる。よって、例えば、次にプロセッサが読み出す予定のデータなどをバッファメモリではなく、メインメモリに保持させておくことができる。
 また、前記メインメモリは、キャッシャブル属性とアンキャッシャブル属性とのいずれかに属する複数の領域からなり、前記メモリアクセス情報取得部は、さらに、前記メモリアクセス情報として、前記ライト要求に含まれるライトアドレスが示す領域の属性を示す属性情報と、当該ライト要求を発行したプロセッサを示すプロセッサ情報とを取得し、前記判定部は、さらに、前記属性情報が示す属性が、前記アンキャッシャブル属性であり、かつ、バースト転送すべきデータが保持されることを示すバースト不可属性であるか否かを判定し、前記制御部は、さらに、前記属性情報が示す属性が前記バースト不可属性であると前記判定部によって判定された場合、前記プロセッサ情報が示すプロセッサに対応するバッファメモリに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、プロセッサが発行したライト要求の順序を保つことができる。よって、データのコヒーレンシを保つことができる。
 また、前記複数のバッファメモリは、さらに、前記ライトデータに対応するライトアドレスを保持し、前記メモリアクセス情報取得部は、さらに、前記メモリアクセス要求がリード要求を含む場合に、前記メモリアクセス情報として、当該リード要求に含まれるリードアドレスを取得し、前記判定部は、前記リードアドレスに一致するライトアドレスが前記複数のバッファメモリの少なくとも1つに保持されているか否かを判定し、前記制御部は、前記リードアドレスに一致するライトアドレスが前記複数のバッファメモリの少なくとも1つに保持されていると前記判定部によって判定された場合、前記ライトアドレスに対応するライトデータ以前に前記複数のバッファメモリに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、常に、リードアドレスが示す領域からデータを読み出す前に、当該領域のデータを最新のデータに更新することができるので、古いデータをプロセッサが読み出してしまうことを防ぐことができる。
 また、前記メモリアクセス情報取得部は、さらに、前記メモリアクセス要求がライト要求を含む場合に、当該ライト要求に含まれる第1ライトアドレスを取得し、前記判定部は、前記第1ライトアドレスが、直前に入力されたライト要求に含まれる第2ライトアドレスに連続するか否かを判定し、前記制御部は、前記第1ライトアドレスと前記第2ライトアドレスとが連続すると前記判定部によって判定された場合、前記第2ライトアドレスに対応するライトデータ以前に前記複数のバッファメモリに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、通常、プロセッサは一連の処理を行う場合は、連続するアドレスが示す連続領域へアクセスすることが多いので、アドレスが連続しない場合には当該一連の処理とは異なる処理が始まったと推定することができる。このため、当該一連の処理に関わるデータをメインメモリに掃き出す。これにより、バッファメモリに他の処理に関わるデータを保持させることができ、バッファメモリを効率良く利用することができる。
 また、前記判定部は、さらに、前記複数のバッファメモリのそれぞれに保持されているデータのデータ量が所定の閾値に達したか否かを判定し、前記制御部は、さらに、前記データ量が前記閾値に達したと前記判定部によって判定された場合、前記データ量が前記閾値に達したバッファメモリに保持されたデータを前記メインメモリに掃き出してもよい。
 これにより、バッファメモリに保持されているデータ量が適当な量になった場合に、データを掃き出すことができる。例えば、データ量が、バッファメモリに保持できるデータの最大値、又は、バッファメモリとメインメモリとのデータバス幅に一致したときに、データを掃き出すことができる。
 また、前記メインメモリは、キャッシャブル属性とアンキャッシャブル属性とのいずれかに属する複数の領域からなり、前記バッファメモリ装置は、前記ライト要求に含まれるライトアドレスが示す領域の属性が、前記アンキャッシャブル属性であり、かつ、バースト転送すべきデータが保持されることを示すバースト不可属性である場合に、当該ライト要求に対応するライトデータを、前記複数のバッファメモリに書き込むデータ書込部を備え、前記複数のバッファメモリは、前記データ書込部によって書き込まれたライトデータを保持してもよい。
 これにより、バースト転送が可能な領域へデータを書き込む場合に、バッファメモリを利用することができる。つまり、メインメモリの領域が属する属性ごとに、バッファメモリを使用する・しないを切り替えることができる。よって、バッファメモリを有効に利用することができる。
 また、前記バッファメモリ装置は、さらに、キャッシュメモリを備え、前記データ書込部は、さらに、前記ライトアドレスが示す領域の属性が、前記キャッシャブル属性であり、かつ、前記ライト要求に対応するライトデータを前記キャッシュメモリと前記メインメモリとに同時に書き込む場合に、当該ライト要求に対応するライトデータを、前記複数のバッファメモリに書き込み、前記制御部は、前記条件を満たすと前記判定部によって判定された場合、前記条件を満たすバッファメモリに保持されているデータを前記メインメモリと前記キャッシュメモリとに掃き出してもよい。
 これにより、ライトデータをキャッシュメモリとメインメモリとに同時に書き込む処理(ライトスルー処理)を行う場合にも、バッファメモリを利用することができ、バッファメモリからキャッシュメモリへのバーストライトを行うことができる。
 また、前記バッファメモリは、複数の前記ライト要求に含まれる複数のライトアドレスと、当該ライト要求に対応する複数のライトデータとを保持してもよい。
 これにより、バッファメモリには複数のライトデータと複数のライトアドレスとを対応付けて保持させることができるので、ライトデータを管理すると共に、複数のライトデータを一括してメインメモリに掃き出すことができる。
 また、前記複数のプロセッサは、複数の論理プロセッサであり、前記複数のバッファメモリのそれぞれは、前記複数の論理プロセッサのそれぞれに対応し、対応する論理プロセッサによって発行されたライト要求に対応するライトデータを保持してもよい。
 また、前記複数のプロセッサは、複数のスレッドに対応する複数の仮想プロセッサであり、前記複数のバッファメモリのそれぞれは、前記複数の仮想プロセッサのそれぞれに対応し、対応する仮想プロセッサによって発行されたライト要求に対応するライトデータを保持してもよい。
 これにより、ライトデータを容易に管理することができる。
 また、本発明は、上記のバッファメモリ装置と、複数のプロセッサと、メインメモリとを備えるメモリシステムとしても実現することができる。
 また、本発明は、データ転送方法としても実現することができ、本発明のデータ転送方法は、複数のプロセッサのそれぞれが発行するライト要求とリード要求とを含むメモリアクセス要求に従って、前記複数のプロセッサとメインメモリとの間でデータを転送するデータ転送方法であって、前記複数のプロセッサによって発行されたメモリアクセス要求の性質を示すメモリアクセス情報を取得するメモリアクセス情報取得ステップと、前記メモリアクセス情報取得ステップで取得されたメモリアクセス情報が示す性質が、予め定められた条件を満たすか否かを判定する判定ステップと、前記メモリアクセス情報が示す性質が前記条件を満たすと前記判定ステップで判定された場合、前記複数のプロセッサのそれぞれに対応し、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持している複数のバッファメモリのうち、前記条件に対応するバッファメモリに保持されているデータを前記メインメモリに掃き出す掃き出しステップとを含む。
 また、本発明は、データ転送方法に含まれるステップをコンピュータに実行させるプログラムとして実現してもよい。さらに、当該プログラムを記録したコンピュータ読み取り可能なCD-ROM(Compact Disc-Read Only Memory)などの記録媒体、並びに、当該プログラムを示す情報、データ又は信号として実現してもよい。そして、それらプログラム、情報、データ及び信号は、インターネットなどの通信ネットワークを介して配信してもよい。
 本発明のバッファメモリ装置、メモリシステム及びデータ転送方法によれば、複数のマスタから出力されるライトデータをバーストライトすることができ、メモリ転送効率を向上させることができる。
図1は、本実施の形態のプロセッサ、メインメモリ及びキャッシュを含むメモリシステムの概略構成を示すブロック図である。 図2は、本実施の形態のメインメモリの領域に設定された属性を示す図である。 図3は、本実施の形態のバッファメモリ装置の構成を示すブロック図である。 図4は、本実施の形態のメモリアクセス情報の一例を示す図である。 図5は、本実施の形態のバッファメモリ装置が備えるバッファメモリの概略を示す図である。 図6は、本実施の形態の複数の判定条件の一例を示す判定テーブルを示す図である。 図7は、本実施の形態の判定部の詳細な構成を示すブロック図である。 図8は、本実施の形態のバッファメモリ装置の動作を示すフローチャートである。 図9は、本実施の形態のバッファメモリ装置の書き込み処理を示すフローチャートである。 図10は、本実施の形態のバッファメモリ装置の読み出し処理を示すフローチャートである。 図11は、本実施の形態のバッファメモリ装置の属性判定処理を示すフローチャートである。 図12は、本実施の形態のバッファメモリ装置のコマンド判定処理を示すフローチャートである。 図13は、本実施の形態のバッファメモリ装置のリードアドレス判定処理を示すフローチャートである。 図14は、本実施の形態のバッファメモリ装置のライトアドレス判定処理を示すフローチャートである。 図15は、本実施の形態のバッファメモリ装置のバッファ量判定処理を示すフローチャートである。 図16は、本実施の形態のバッファメモリ装置のプロセッサ判定処理を示すフローチャートである。 図17は、本実施の形態のバッファメモリ装置が備えるバッファメモリの異なる概略を示す図である。 図18は、従来のメモリシステムの概略を示すブロック図である。
 以下では、本発明のバッファメモリ装置、メモリシステム及びデータ転送方法について、実施の形態に基づいて図面を参照しながら詳細に説明する。
 本実施の形態のバッファメモリ装置は、プロセッサから出力されたメインメモリへ書き込むためのデータを一時的に保持し、所定の条件が満たされた場合に、保持したデータをバーストライトする。これにより、データバスを有効に利用することができ、効率よくデータを転送することができる。
 まず、本実施の形態のバッファメモリ装置が備えられる一般的なメモリシステムについて説明する。
 図1は、本実施の形態のプロセッサ、メインメモリ及びキャッシュメモリを含むメモリシステムの概略構成を示すブロック図である。同図に示すように、本実施の形態のメモリシステムは、プロセッサ10と、メインメモリ20と、L1(レベル1)キャッシュ30と、L2(レベル2)キャッシュ40とを備える。
 本実施の形態のバッファメモリ装置は、図1に示すようなシステムにおいて、例えば、プロセッサ10とメインメモリ20との間に備えられる。具体的には、バッファメモリ装置が備えるバッファメモリは、L2キャッシュ40に備えられる。
 プロセッサ10は、メインメモリ20へのメモリアクセス要求を発行し、発行したメモリアクセス要求を出力する。メモリアクセス要求は、例えば、データを読み出すためのリード要求、又は、データを書き込むためのライト要求である。リード要求は、データの読み出し先の領域を示すリードアドレスを含んでおり、ライト要求は、データの書き込み先の領域を示すライトアドレスを含んでいる。さらに、プロセッサ10は、ライト要求を出力する場合、当該ライト要求に従ってメインメモリ20に書き込むためのデータを出力する。
 メインメモリ20は、キャッシャブル属性とアンキャッシャブル属性とのいずれかに属する複数の領域からなり、当該領域にプログラム又はデータなどを記憶するSDRAM(Synchronous Dynamic Random Access Memory)などの大容量のメインメモリである。プロセッサ10から出力されるメモリアクセス要求(リード要求又はライト要求)に応じて、メインメモリ20からのデータの読み出し、又は、メインメモリ20へデータの書き込みが実行される。
 L1キャッシュ30とL2キャッシュ40とは、プロセッサ10がメインメモリ20から読み出したデータの一部、及び、メインメモリ20に書き込むデータの一部を記憶するSRAMなどのキャッシュメモリである。L1キャッシュ30とL2キャッシュ40とは、メインメモリ20に比べて、容量は小さいが、高速で動作可能なキャッシュメモリである。また、L1キャッシュ30は、L2キャッシュ40よりプロセッサ10の近くに配置される優先度の高いキャッシュメモリであり、通常、L2キャッシュ40よりも小容量であるが高速で動作可能である。
 L1キャッシュ30は、プロセッサ10から出力されるメモリアクセス要求を取得し、取得したメモリアクセス要求に含まれるアドレスに対応するデータを既に保持しているか(ヒット)保持していないか(ミス)を判定する。例えば、リード要求がヒットした場合、L1キャッシュ30は、当該リード要求に含まれるリードアドレスに対応するデータをL1キャッシュ30内部から読み出し、読み出したデータをプロセッサ10に出力する。なお、リードアドレスに対応するデータとは、リードアドレスが示す領域に記憶されているデータである。ライト要求がヒットした場合、L1キャッシュ30は、当該ライト要求に対応するデータをL1キャッシュ30内部に書き込む。ライト要求に対応するデータとは、当該ライト要求と同時にプロセッサ10から出力されるデータ(以下、ライトデータとも記載する)である。
 リード要求がミスした場合、L1キャッシュ30は、L2キャッシュ40又はメインメモリ20から当該リード要求に対応するデータを読み出し、読み出したデータをプロセッサ10に出力する。リード要求に対応するデータとは、当該リード要求に含まれるリードアドレスが示すメインメモリ20の領域に保持されているデータ(以下、リードデータとも記載する)である。ライト要求がミスした場合、L1キャッシュ30は、リフィル処理を行い、タグアドレスを更新し、当該ライト要求と同時にプロセッサ10から出力されるデータを書き込む。
 L2キャッシュ40は、プロセッサ10から出力されるメモリアクセス要求を取得し、取得したメモリアクセス要求がヒットしたかミスしたかを判定する。リード要求がヒットした場合、L2キャッシュ40は、当該リード要求に含まれるリードアドレスに対応するデータをL2キャッシュ40内部から読み出し、L1キャッシュ30を介して、読み出したデータをプロセッサ10に出力する。ライト要求がヒットした場合、L1キャッシュ30を介して、当該ライト要求に対応するデータをL2キャッシュ40内部に書き込む。
 リード要求がミスした場合、L2キャッシュ40は、メインメモリ20から当該リード要求に対応するデータを読み出し、L1キャッシュ30を介して、読み出したデータをプロセッサ10に出力する。ライト要求がミスした場合、L2キャッシュ40は、リフィル処理を行い、L1キャッシュ30を介して、タグアドレスを更新し、当該ライト要求に対応するデータを書き込む。
 なお、図1に示すメモリシステムでは、メインメモリ20と、L1キャッシュ30と、L2キャッシュ40とのコヒーレンシを持たせるための処理が行われている。例えば、ライト要求に従ってキャッシュメモリに書き込まれたデータは、ライトバック処理又はライトスルー処理によって、メインメモリ20に書き込まれる。なお、ライトバック処理は、キャッシュメモリへデータを書き込んだ後、任意のタイミングでメインメモリにデータを書き込む処理である。ライトスルー処理は、キャッシュメモリへのデータの書き込みと、メインメモリへのデータの書き込みとを同時に実行する処理である。
 また、ライト要求がミスした場合、プロセッサ10は、L1キャッシュ30をリフィル及び更新することなく、メインメモリ20にデータを書き込んでもよい。L2キャッシュ40についても同様である。
 なお、図1では、L1キャッシュ30がプロセッサ10の外部に備えられる構成を示したが、プロセッサ10が、L1キャッシュ30を備えてもよい。
 また、メインメモリ20に限らず、IOデバイスなどのその他の周辺デバイスとの間でデータを転送してもよい。周辺デバイスとは、プロセッサ10との間でデータの転送を行う機器であり、例えば、キーボード、マウス、ディスプレイ、又は、フロッピー(登録商標)ディスクドライブなどである。
 次に、本実施の形態のメインメモリ20について説明する。
 図2は、本実施の形態のアドレス空間に設定された属性を示す図である。アドレス空間の領域は、メインメモリ20、及び、その他の周辺デバイスなどに割り当てられる。同図に示すように、メインメモリ20は、キャッシャブル領域21とアンキャッシャブル領域22とから構成される。
 キャッシャブル領域21は、L1キャッシュ30及びL2キャッシュ40などのキャッシュメモリにキャッシュすべきデータを保持することができることを示すキャッシャブル属性に属する領域である。
 アンキャッシャブル領域22は、L1キャッシュ30及びL2キャッシュ40などのキャッシュメモリにキャッシュすべきでないデータを保持することができることを示すアンキャッシャブル属性に属する領域である。アンキャッシャブル領域22は、バースト可領域23とバースト不可領域24とから構成される。
 バースト可領域23は、キャッシュメモリにキャッシュすべきでなく、かつ、バースト転送すべきデータを保持することができることを示すバースト可属性に属する領域である。バースト転送は、データを一括して転送することであり、バーストリード及びバーストライトなどである。バースト可領域23は、例えば、リードセンシティブでない領域である。なお、リードセンシティブな領域は、リードするだけで保持していたデータの値が変わってしまうような領域のことである。
 バースト不可領域24は、キャッシュメモリにキャッシュすべきでなく、かつ、バースト転送すべきデータを保持することができないことを示すバースト不可属性に属する領域である。バースト不可領域24は、例えば、リードセンシティブな領域である。
 以上のように、本実施の形態のメインメモリ20には、領域ごとに、3つの排他的な属性のいずれか1つが設定されている。なお、メインメモリ20への属性の設定は、例えば、プロセッサ10が備えるメモリ管理ユニット(MMU:Memory Management Unit)が行う。プロセッサ10は、物理アドレスと仮想アドレスとを対応付けたアドレス変換テーブルを記憶するTLB(Translation Lookaside Buffer)を備え、当該アドレス変換テーブルに属性を記憶させてもよい。
 続いて、本実施の形態のバッファメモリ装置の構成について説明する。
 図3は、本実施の形態のバッファメモリ装置の構成を示すブロック図である。同図のバッファメモリ装置100は、複数のプロセッサ10a、10b及び10cのそれぞれが発行するメモリアクセス要求に従って、複数のプロセッサ10a、10b及び10cとメインメモリ20との間でデータを転送する。以下では、複数のプロセッサ10a、10b及び10cを特に区別して説明する必要がない場合は、プロセッサ10と記載する。
 なお、バッファメモリ装置100は、図1に示すL2キャッシュ40と同一のチップに備えられるとする。また、図1で示したL1キャッシュ30は、複数のプロセッサ10a、10b及び10cのそれぞれに備えられるものとし、図3には図示していない。ただし、L1キャッシュ30は、複数のプロセッサ10a、10b及び10cとバッファメモリ装置100との間に備えられ、複数のプロセッサ10a、10b及び10cで共有されてもよい。
 図3に示すように、バッファメモリ装置100は、メモリアクセス情報取得部110と、判定部120と、制御部130と、データ転送部140と、バッファメモリ150a、150b及び150cと、キャッシュメモリ160とを備える。なお、以下では、バッファメモリ150a、150b及び150cを特に区別して説明する必要がない場合は、バッファメモリ150と記載する。
 メモリアクセス情報取得部110は、プロセッサ10からメモリアクセス要求を取得し、取得したメモリアクセス要求から、プロセッサ10で発行されたメモリアクセス要求の性質を示すメモリアクセス情報を取得する。メモリアクセス情報は、メモリアクセス要求に含まれている情報及びそれに付随する情報であり、コマンド情報と、アドレス情報と、属性情報と、プロセッサ情報となどを含む。
 コマンド情報は、メモリアクセス要求がライト要求であるかリード要求であるかと、データ転送に関わる他のコマンドなどとを示す情報である。アドレス情報は、データを書き込む領域を示すライトアドレス、又は、データを読み出す領域を示すリードアドレスを示す情報である。属性情報は、ライトアドレス又はリードアドレスが示す領域の属性が、キャッシャブル属性、バースト可属性及びバースト不可属性のいずれであるかを示す情報である。プロセッサ情報は、メモリアクセス要求を発行したスレッド、論理プロセッサ(LP:Logical Processor)及び物理プロセッサ(PP:Physical Processor)を示す情報である。
 なお、属性情報は、メモリアクセス要求に含まれていなくてもよい。この場合、メモリアクセス情報取得部110は、メインメモリ20のアドレスと当該アドレスが示す領域の属性とを対応付けたテーブルを保持し、アドレス情報と当該テーブルとを参照することで、属性情報を取得してもよい。
 ここで、図4を参照する。図4は、本実施の形態のメモリアクセス情報の一例を示す図である。同図には、メモリアクセス情報201及び202が示されている。
 メモリアクセス情報201は、メモリアクセス要求が、物理プロセッサ“PP1”の論理プロセッサ“LP1”で発行されたライト要求であり、“ライトアドレス1”が示すバースト可属性に属する領域にデータを書き込むことを示すライトコマンドを含んでいることを示している。また、当該ライト要求には、“All Sync”コマンドが含まれていることを示している。
 メモリアクセス情報202は、メモリアクセス要求が、物理プロセッサ“PP1”の論理プロセッサ“LP1”で発行されたリード要求であり、“リードアドレス1”が示すバースト可属性に属する領域からデータを読み出すことを示すリードコマンドを含んでいることを示している。また、当該リード要求には、“Self Sync”コマンドが含まれていることを示している。
 なお、“All Sync”及び“Self Sync”コマンドについては後述する。
 図3に戻ると、判定部120は、メモリアクセス情報取得部110で取得されたメモリアクセス情報が示す性質が、予め定められた条件を満たすか否かを判定する。具体的には、判定部120は、メモリアクセス情報として取得したコマンド情報、属性情報、アドレス情報及びプロセッサ情報などと、制御部130を介してバッファメモリ150から取得したバッファ量情報とを用いて、条件の判定を行う。条件と、判定部120の処理との詳細は、後述する。なお、バッファ量情報は、バッファメモリ150のそれぞれに保持されたデータの量を示す情報である。
 制御部130は、メモリアクセス情報が示す性質が条件を満たすと判定部120によって判定された場合、複数のバッファメモリ150a、150b及び150cのうち、当該条件に対応するバッファメモリに保持されているデータをメインメモリに掃き出す。具体的には、制御部130は、バッファメモリ150に掃き出し命令を出力する。掃き出し命令は、データを掃き出す対象となるバッファメモリに出力され、掃き出し命令を受け取ったバッファメモリは、保持しているデータをメインメモリ20に出力する。
 また、制御部130は、制御情報をデータ転送部140に出力することで、データ転送部140を制御する。例えば、制御情報は少なくとも属性情報を含み、制御部130は、アドレスが示す領域の属性に応じて、ライトデータの書き込み先、及び、リードデータの読み出し先などを決定する。
 さらに、制御部130は、複数のバッファメモリ150a、150b及び150cのそれぞれに保持されているデータの量であるバッファ量を判定部120に出力する。
 データ転送部140は、制御部130の制御によって、プロセッサ10とメインメモリ20との間でデータを転送する。具体的には、プロセッサ10からライト要求が出力された場合、メインメモリ20に書き込むためにプロセッサ10から出力されるライトデータを、バッファメモリ150、キャッシュメモリ160及びメインメモリ20のいずれかに書き込む。また、プロセッサ10からリード要求が出力された場合、キャッシュメモリ160及びメインメモリ20のいずれかからリードデータを読み出し、読み出したリードデータをプロセッサ10に出力する。どのメモリを利用するかは、アドレスが示す領域の属性に応じて、制御部130によって決定される。
 図3に示すように、データ転送部140は、第1データ転送部141と、第2データ転送部142と、第3データ転送部143とを備える。
 第1データ転送部141は、アドレスが示す領域がバースト可属性に属する場合に、データの転送を行う。ライト要求が入力された場合は、第1データ転送部141は、当該ライト要求に対応するライトデータをバッファメモリ150に書き込む。複数のバッファメモリ150a、150b及び150cのいずれに書き込むかは、制御情報に含まれるプロセッサ情報によって決定される。具体的には、ライト要求を発行したプロセッサに対応するバッファメモリにライトデータを書き込む。リード要求が入力された場合は、第1データ転送部141は、当該リード要求に対応するリードデータをメインメモリ20から読み出し、読み出したリードデータをプロセッサ10に出力する。
 第2データ転送部142は、アドレスが示す領域がバースト不可属性に属する場合に、データの転送を行う。ライト要求が入力された場合は、第2データ転送部142は、当該ライト要求に対応するライトデータをメインメモリ20に書き込む。リード要求が入力された場合は、第2データ転送部142は、当該リード要求に対応するリードデータをメインメモリ20から読み出し、読み出したリードデータをプロセッサ10に出力する。
 第3データ転送部143は、アドレスが示す領域がキャッシャブル属性に属する場合に、データの転送を行う。
 ライト要求が入力された場合、第3データ転送部143がライトバック処理とライトスルー処理のいずれを行うかによって、ライトデータの書き込み先が異なる。
 ライトバック処理を行う場合、第3データ転送部143は、当該ライト要求がヒットするかミスするかを判定する。当該ライト要求がヒットした場合、キャッシュメモリ160にライトデータを書き込む。当該ライト要求がミスした場合、第3データ転送部143は、ライト要求に含まれるアドレス(タグアドレス)とライトデータとをキャッシュメモリ160に書き込む。いずれの場合も、キャッシュメモリ160に書き込まれたライトデータは、任意のタイミングでメインメモリ20に書き込まれる。
 ライトスルー処理を行う場合、第3データ転送部143は、当該ライト要求がヒットするかミスするかを判定する。当該ライト要求がヒットした場合、第3データ転送部143は、バッファメモリ150にライトアドレスとライトデータとを書き込む。バッファメモリ150に書き込まれたライトデータは、後続のメモリアクセス要求の性質が、条件が満たすと判定部120によって判定された場合に、制御部130の制御に従って、バッファメモリ150からキャッシュメモリ160とメインメモリ20とにバーストライトされる。
 当該ライト要求がミスした場合も同様に、第3データ転送部143は、バッファメモリ150にライトアドレスとライトデータとを書き込む。バッファメモリ150に書き込まれたライトデータとライトアドレスとが、後続のメモリアクセス要求の性質が、条件が満たすと判定部120によって判定された場合に、バッファメモリ150からキャッシュメモリ160とメインメモリ20とにバーストライトされる。
 リード要求が入力された場合、第3データ転送部143は、当該リード要求がヒットするかミスするかを判定する。当該リード要求がヒットした場合、第3データ転送部143は、キャッシュメモリ160からリードデータを読み出し、読み出したリードデータをプロセッサ10に出力する。
 当該リード要求がミスした場合は、第3データ転送部143は、メインメモリ20からリードデータを読み出し、読み出したリードデータとリードアドレスとをキャッシュメモリ160に書き込む。そして、第3データ転送部143は、キャッシュメモリ160からリードデータを読み出し、読み出したリードデータをプロセッサ10に出力する。なお、メインメモリ20から読み出したリードデータをキャッシュメモリ160に書き込むのと同時に、プロセッサ10に出力してもよい。
 バッファメモリ150a、150b及び150cのそれぞれは、複数のプロセッサ10a、10b及び10cに対応し、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持するストアバッファ(STB)である。バッファメモリ150は、複数のプロセッサ10から出力されるライトデータをマージするために、一時的にライトデータを保持するバッファメモリである。
 本実施の形態では、バッファメモリ150は、物理プロセッサごとに備えられる。また、一例として、バッファメモリ150は、最大で128バイトのデータを保持することができる。バッファメモリ150に保持されているデータは、制御部130からの制御に基づいて、メインメモリ20にバーストライトされる。また、ライト要求がキャッシャブル属性に属する領域へのアクセスであり、かつ、ライトスルー処理を行う場合、バッファメモリ150に保持されているデータは、メインメモリ20とキャッシュメモリ160とにバーストライトされる。
 ここで、図5を参照する。図5は、本実施の形態のバッファメモリ装置100が備えるバッファメモリ150の概略を示す図である。
 同図に示すように、バッファメモリ150a、150b及び150cはそれぞれ、物理プロセッサ(プロセッサ10a(PP0)、10b(PP1)及び10c(PP2))に対応して備えられる。すなわち、バッファメモリ150aは、プロセッサ10aから出力されたライトアドレスなどのバッファ制御情報とライトデータとを保持する。バッファメモリ150bは、プロセッサ10bから出力されたライトアドレスなどのバッファ制御情報とライト情報とを保持する。バッファメモリ150cは、プロセッサ10cから出力されたライトアドレスなどのバッファ制御情報とライトデータとを保持する。
 バッファ制御情報は、ライト要求に含まれる情報であり、バッファメモリ150に書き込まれるデータを管理するための情報である。すなわち、バッファ制御情報は、少なくともライトアドレスを含み、対応するライトデータを出力した物理プロセッサ及び論理プロセッサなどを示す情報を含んでいる。
 図5に示す例では、物理プロセッサごとに備えられたバッファメモリは、64バイトのデータを保持することができる領域を2つ備えている。例えば、この2つの領域をスレッドごとに対応付けてもよい。
 キャッシュメモリ160は、例えば、4ウェイ・セット・アソシエイティブ方式のキャッシュメモリであり、所定バイト数(例えば、128バイト)のデータを保持することができる領域である複数(例えば、16個)のキャッシュエントリを有するウェイを4個備える。各キャッシュエントリは、バリッドフラグと、タグアドレスと、ラインデータと、ダーティフラグとを有する。
 バリッドフラグは、当該キャッシュエントリのデータが有効であるか否かを示すフラグである。タグアドレスは、データの書き込み先、又は、データの読み出し先を示すアドレスである。ラインデータは、タグアドレス及びセットインデックスにより特定されるブロック中の所定バイト数(例えば、128バイト)のデータのコピーである。ダーティフラグは、キャッシュされたデータをメインメモリに書き戻す必要があるか否かを示すフラグである。
 なお、キャッシュメモリ160の連想度、すなわち、キャッシュメモリ160が有するウェイの数は4個ではなく、任意の値でもよい。また、1つのウェイが有するキャッシュエントリの個数、及び、1つのキャッシュエントリが有するラインデータのバイト数もいかなる値でもよい。さらに、キャッシュメモリ160は、他の方式のキャッシュメモリでもよい。例えば、ダイレクト・マップ方式、又は、フル・アソシエイティブ方式でもよい。
 ここで、判定部120が判定処理に用いる条件について説明する。バッファメモリにマージしたデータを効率よく転送し、かつ、データのコヒーレンシを保つためには、どのタイミングでデータを掃き出すかを決定するための条件が必要とされる。
 図6は、本実施の形態の複数の判定条件の一例を示す判定テーブルを示す図である。同図には、一例として、属性判定条件(“Uncache”)と、コマンド判定条件(“All Sync”と“Self Sync”)と、アドレス判定条件(“RAW Hazard”と“Another Line Access”)と、バッファ量判定条件(“Slot Full”)と、プロセッサ判定条件(“同LP、異PP”)とが示されている。
 属性判定条件は、属性情報を用いて、メモリアクセス要求に含まれるアドレスが示す領域の属性に従って、バッファメモリ150からのデータの掃き出し、及び、掃き出し対象となるバッファメモリを決定するための条件である。図6に示す“Uncache”条件は、属性判定条件の一例である。
 “Uncache”条件では、メモリアクセス要求に含まれるアドレスが示す領域の属性が、バースト不可属性であるか否かが、判定部120によって判定される。バースト不可属性であると判定された場合、制御部130は、当該メモリアクセス要求を発行した論理プロセッサと同じ論理プロセッサで発行されたメモリアクセス要求に対応するデータを保持しているバッファメモリから、保持しているデータをメインメモリ20に掃き出す。なお、制御部130は、掃き出し対象のバッファメモリを判定する基準として、論理プロセッサではなく、スレッドに対応する仮想プロセッサを用いてもよい。
 コマンド判定条件は、コマンド情報を用いて、メモリアクセス要求に含まれるコマンドに従って、バッファメモリ150からのデータの掃き出し、及び、掃き出し対象となるバッファメモリを決定するための条件である。図6に示す“All Sync”条件と“Self Sync”条件とは、コマンド判定条件の一例である。
 “All Sync”条件では、メモリアクセス要求に“All Sync”コマンドが含まれるか否かが、判定部120によって判定される。“All Sync”コマンドは、全てのバッファメモリ150に保持される全てのデータをメインメモリ20に掃き出すためのコマンドである。“All Sync”コマンドが含まれる場合(例えば、図4のメモリアクセス情報201)、制御部130は、全てのバッファメモリ150に保持された全てのデータをメインメモリ20に掃き出す。
 “Self Sync”条件では、メモリアクセス要求に“Self Sync”コマンドが含まれるか否かが、判定部120によって判定される。“Self Sync”コマンドは、当該コマンドを発行したプロセッサが出力したデータのみをバッファメモリ150からメインメモリ20に掃き出すためのコマンドである。“Self Sync”コマンドが含まれる場合(例えば、図4のメモリアクセス情報202)、制御部130は、当該メモリアクセス要求を発行した論理プロセッサと同じ論理プロセッサで発行されたメモリアクセス要求に対応するデータを保持しているバッファメモリから、保持しているデータをメインメモリ20に掃き出す。なお、制御部130は、掃き出し対象のバッファメモリを判定する基準として、論理プロセッサではなく、スレッドに対応する仮想プロセッサを用いてもよい。
 アドレス判定条件は、アドレス情報を用いて、メモリアクセス要求に含まれるアドレスに従って、バッファメモリ150からのデータの掃き出し、及び、掃き出し対象となるバッファメモリを決定するための条件である。図6に示す“RAW Hazard”条件と“Another Line Access”条件とは、アドレス判定条件の一例である。
 “RAW Hazard”条件では、リード要求に含まれるリードアドレスに一致するライトアドレスが、複数のバッファメモリ150の少なくとも1つに保持されているか否かが、判定部120によって判定される。リードアドレスに一致するライトアドレスがバッファメモリ150のいずれかに保持されている場合に、制御部130は、Hazardラインまでのデータを全て、すなわち、当該ライトアドレスに対応するライトデータ以前にバッファメモリ150に保持されたデータをメインメモリ20に掃き出す。
 “Another Line Access”条件では、ライト要求に含まれるライトアドレスが、直前に入力されたライト要求に含まれていたライトアドレスと関連するか否かが、判定部120によって判定される。具体的には、当該2つのライトアドレスが連続するアドレスであるか否かが判定される。なお、このとき、2つのライト要求は共に、同じ物理プロセッサで発行されたものとする。2つのライトアドレスが連続するアドレスでないと判定された場合、制御部130は、直前に入力されたライト要求に対応するライトデータ以前にバッファメモリ150に保持されたデータをメインメモリ20に掃き出す。
 バッファ量判定条件は、バッファ量情報を用いて、バッファメモリ150に保持されたデータ量に従って、バッファメモリ150からのデータの掃き出し、及び、掃き出し対象となるバッファメモリを決定するための条件である。図6に示す“Slot Full”条件は、バッファ量判定条件の一例である。
 “Slot Full”条件では、バッファメモリ150に保持されたデータ量であるバッファ量がフルであるか(128バイト)否かが、判定部120によって判定される。バッファ量が128バイトであると判定された場合、制御部130は、当該バッファメモリのデータをメインメモリ20に掃き出す。
 プロセッサ判定条件は、プロセッサ情報を用いて、どの論理プロセッサと物理プロセッサとがメモリアクセス要求を発行したかに従って、バッファメモリ150からのデータの掃き出し、及び、掃き出し対象となるバッファメモリを決定するための条件である。図6に示す“同LP、異PP”条件は、プロセッサ判定条件の一例である。
 “同LP、異PP”条件では、メモリアクセス要求を発行した論理プロセッサが、バッファメモリ150に保持されたライトデータに対応するライト要求を発行した論理プロセッサと同じであるか否かが判定される。さらに、当該メモリアクセス要求を発行した物理プロセッサが、当該ライト要求を発行した物理プロセッサと異なるか否かが判定される。つまり、プロセッサ情報が示す物理プロセッサとは異なる物理プロセッサで、かつ、プロセッサ情報が示す論理プロセッサが示す論理プロセッサと同じ論理プロセッサで以前に発行されたライト要求に対応するライトデータが少なくとも1つのバッファメモリに保持されているか否かが、判定部120によって判定される。論理プロセッサが同じであり、物理プロセッサが異なると判定された場合、制御部130は、当該論理プロセッサが以前に発行したライト要求に対応するデータをバッファメモリ150から掃き出す。なお、論理プロセッサではなく、スレッドが同じであるか否かが判定されてもよい。
 以上のように、本実施の形態では、それぞれの条件を満たす場合にバッファメモリ150からデータが掃き出される。なお、上述の条件全てを判定する必要はない。また、上述の条件に新たな条件を加えてもよく、または、上述の条件と新たな条件とを置き換えてもよい。
 例えば、“Slot Full”条件は、バッファ量がフルであるか否かを判定する条件であるが、この条件の代わりに、所定のバッファ量(バッファメモリに保持できるバッファ量の最大値の半分など)に達したか否かを判定する条件でもよい。例えば、バッファメモリ150に保持できるデータ量の最大値は128バイトであるが、バッファメモリ150とメインメモリ20との間のデータバス幅が64バイトである場合などに、バッファ量が64バイトに達したか否かを判定してもよい。
 ここで、図7を参照する。図7は、本実施の形態の判定部120の詳細な構成を示すブロック図である。同図に示すように、判定部120は、属性判定部121と、プロセッサ判定部122と、コマンド判定部123と、アドレス判定部124と、バッファ量判定部125と、判定結果出力部126とを備える。
 属性判定部121は、メモリアクセス情報取得部110で取得されたメモリアクセス情報から属性情報を取得し、メモリアクセス要求に含まれるアドレスが示す領域の属性がキャッシャブル属性、バースト可属性、及び、バースト不可属性のいずれであるかを判定する。そして、属性判定部121は、得られた判定結果を判定結果出力部126に出力する。
 プロセッサ判定部122は、メモリアクセス情報取得部110で取得されたメモリアクセス情報からプロセッサ情報を取得し、メモリアクセス要求を発行したプロセッサが、複数の論理プロセッサ及び物理プロセッサのうち、いずれの論理プロセッサ及び物理プロセッサであるかを判定する。そして、プロセッサ判定部122は、得られた判定結果を判定結果出力部126に出力する。
 コマンド判定部123は、メモリアクセス情報取得部110で取得されたメモリアクセス情報からコマンド情報を取得し、メモリアクセス要求に所定のコマンドが含まれるか否かを判定する。さらに、コマンド判定部123は、メモリアクセス要求に所定のコマンドが含まれていた場合、当該所定のコマンドの種別を判定する。そして、コマンド判定部123は、得られた判定結果を判定結果出力部126に出力する。
 なお、所定のコマンドとは、例えば、他の条件に関わらずバッファメモリ150からデータを掃き出す命令である。一例として、上述したような“All Sync”コマンド及び“Self Sync”コマンドがある。
 アドレス判定部124は、メモリアクセス情報取得部110で取得されたメモリアクセス情報からアドレス情報を取得し、メモリアクセス要求に含まれるアドレスが、バッファメモリ150に既に保持されているか否かを判定する。さらに、アドレス判定部124は、当該メモリアクセス要求に含まれるアドレスが、直前のメモリアクセス要求に含まれていたアドレスに関連するか否かを判定する。具体的には、2つのアドレスが連続しているか否かを判定する。そして、アドレス判定部124は、得られた判定結果を判定結果出力部126に出力する。
 バッファ量判定部125は、制御部130を介して、バッファメモリ150からバッファ量を取得し、バッファ量が所定の閾値に達したか否かをバッファメモリごとに判定する。そして、バッファ量判定部125は、得られた判定結果を判定結果出力部126に出力する。なお、所定の閾値は、例えば、バッファメモリ150の最大値、又は、バッファメモリ装置100とメインメモリ20との間のデータバス幅などである。
 判定結果出力部126は、各判定部から入力される判定結果を基にして、図6に示す条件を満たすか否かを判定し、得られた判定結果を制御部130に出力する。具体的には、判定結果出力部126は、図6に示す条件を満たすと判定された場合、どのバッファメモリのどのデータをメインメモリ20に掃き出すのかを示す掃き出し情報を制御部130に出力する。
 以上の構成により、本実施の形態のバッファメモリ装置100は、複数のプロセッサ10から出力されたライトデータを一時的に保持する複数のバッファメモリ150を備え、所定の条件が満たされた場合に、バッファメモリ150に保持されたデータをメインメモリ20にバーストライトする。つまり、小さいサイズの複数のライトデータをマージするために、一時的にバッファメモリ150に保持し、マージすることで得られた大きいサイズのデータをメインメモリ20にバーストライトする。このとき、複数のプロセッサ間でのデータの順序の保証を行うための条件に基づいて、バッファメモリ150からのデータの掃き出しの可否を決定する。
 これにより、データのコヒーレンシを保ちつつ、データの転送効率を向上させることができる。
 続いて、本実施の形態のバッファメモリ装置100の動作について、図8~図16を用いて説明する。図8は、本実施の形態のバッファメモリ装置100の動作を示すフローチャートである。
 まず、本実施の形態のバッファメモリ装置100は、プロセッサ10からメモリアクセス要求を取得することで、本実施の形態のデータ転送処理を実行する。
 メモリアクセス情報取得部110は、メモリアクセス要求からメモリアクセス情報を取得する(S101)。そして、取得したメモリアクセス情報を判定部120に出力する。また、必要に応じて、判定部120は、制御部130を介してバッファメモリ150からバッファ量情報を取得する。
 判定部120は、入力されるメモリアクセス情報と、取得したバッファ量情報とを用いて、バッファメモリ150からデータを掃き出すか否かを判定する(S102)。この掃き出し判定処理の詳細については後述する。
 続いて、コマンド判定部123が、メモリアクセス要求がライト要求であるかリード要求であるかを判定する(S103)。メモリアクセス要求がライト要求である場合(S103で“ライト”)、データ転送部140は、プロセッサ10から出力されるライトデータの書き込み処理を行う(S104)。メモリアクセス要求がリード要求である場合(S103で“リード”)、データ転送部140は、プロセッサ10へのリードデータの読み出し処理を実行する(S105)。
 なお、掃き出し判定処理(S102)で、メモリアクセス要求がライト要求であるかリード要求であるかが判定されている場合は、掃き出し判定処理(S102)の終了後に、メモリアクセス要求の判定処理(S103)をすることなく、書き込み処理(S104)、又は、読み出し処理(S105)が実行されてもよい。
 以下では、まず、書き込み処理(S104)と読み出し処理(S105)との詳細について説明する。
 図9は、本実施の形態のバッファメモリ装置100の書き込み処理を示すフローチャートである。
 メモリアクセス要求がライト要求である場合、まず、属性判定部121は、当該ライト要求に含まれるライトアドレスが示す領域の属性を判定する(S111)。具体的には、属性判定部121は、ライトアドレスが示す領域の属性が、バースト可属性、バースト不可属性、及び、キャッシャブル属性のいずれであるかを判定する。
 ライトアドレスが示す領域の属性がバースト可属性であると判定された場合(S111で“アンキャッシャブル(バースト可)”)、第1データ転送部141は、プロセッサ10から出力されたライトデータをバッファメモリ150に書き込む(S112)。具体的には、第1データ転送部141は、制御部130からの制御に基づいて、ライト要求を発行した物理プロセッサ(例えば、プロセッサ10a)に対応するバッファメモリ(バッファメモリ150a)にライトデータを書き込む。
 ライトアドレスが示す領域の属性がバースト不可属性であると判定された場合(S111で“アンキャッシャブル(バースト不可)”)、第2データ転送部142は、プロセッサ10から出力されたライトデータをメインメモリ20に書き込む(S113)。
 ライトアドレスが示す領域の属性がキャッシャブル属性であると判定された場合(S111で“キャッシャブル”)、第3データ転送部143は、ライト要求がヒットしたかミスしたかを判定する(S114)。ライト要求がミスした場合(S114でNo)、第3データ転送部143は、キャッシュメモリ160にタグアドレスを書き込む(S115)。
 タグアドレスの書き込み後、又は、ライト要求がヒットした場合(S114でYes)、制御部130は、当該ライト要求に基づく書き込み処理が、ライトバック処理であるかライトスルー処理であるかに応じて、ライトデータの書き込み先を変更する(S117)。ライトバック処理の場合(S116で“ライトバック”)、第3データ転送部143は、キャッシュメモリ160にライトデータを書き込む(S117)。ライトスルー処理の場合(S116で“ライトスルー”)、第3データ転送部143は、バッファメモリ150にライトデータとライトアドレスとを書き込む(S118)。
 以上のようにして、プロセッサ10から出力されたライトデータは、メインメモリ20、バッファメモリ150又はキャッシュメモリ160に書き込まれる。なお、バッファメモリ150及びキャッシュメモリ160に書き込まれたデータは、後続のメモリアクセス要求が入力された場合などに実行される掃き出し判定処理によって、メインメモリ20に書き込まれる。
 なお、掃き出し判定処理(S102)で、ライトアドレスが示す領域の属性が判定されている場合は、メモリアクセス要求の判定処理(S103)の終了後に、属性の判定処理(S111)をすることなく、それぞれの書き込み処理を実行してもよい。
 図10は、本実施の形態のバッファメモリ装置100の読み出し処理を示すフローチャートである。
 メモリアクセス要求がリード要求である場合、まず、属性判定部121は、当該リード要求に含まれるリードアドレスが示す領域の属性を判定する(S121)。具体的には、属性判定部121は、リードアドレスが示す領域の属性が、キャッシャブル属性、及び、アンキャッシャブル属性のいずれであるかを判定する。
 リードアドレスが示す領域の属性がアンキャッシャブル属性であると判定された場合(S121で“アンキャッシャブル”)、第1データ転送部141又は第2データ転送部142は、リード要求に対応するリードデータをメインメモリ20から読み出し、読み出したリードデータをプロセッサ10に出力する(S122)。
 リードアドレスが示す領域の属性がキャッシャブル属性であると判定された場合(S121で“キャッシャブル”)、第3データ転送部143は、リード要求がヒットしたかミスしたかを判定する(S123)。リード要求がミスした場合(S123でNo)、第3データ転送部143は、リード要求に対応するリードデータをメインメモリ20から読み出す(S124)。そして、読み出したリードデータとリードアドレス(タグアドレス)とをキャッシュメモリ160に書き込む(S125)。そして、第3データ転送部143は、キャッシュメモリ160からリードデータを読み出し、プロセッサ10に出力する(S126)。なお、このとき、リードデータのキャッシュメモリ160への書き込みと、プロセッサ10への出力とは、同時に実行してもよい。
 リード要求がヒットした場合(S123でYes)、第3データ転送部143は、キャッシュメモリ160からリードデータを読み出し、プロセッサ10に出力する(S126)。
 以上のようにして、バッファメモリ装置100は、プロセッサ10で発行されたリード要求に従って、キャッシュメモリ160又はメインメモリ20からリードデータを読み出し、読み出したリードデータをプロセッサ10に出力する。
 なお、掃き出し判定処理(S102)で、リードアドレスが示す領域の属性が判定されている場合は、メモリアクセス要求の判定処理(S103)の終了後に、属性の判定処理(S121)をすることなく、それぞれの読み出し処理を実行してもよい。
 次に、掃き出し判定処理(S102)の詳細について図11~図16を用いて説明する。掃き出し判定処理では、図6に示す判定テーブルが示す条件をどの順に判定してもよい。ただし、“All Sync”条件のように、条件が満たされた場合に、全てのバッファに保持されたデータを掃き出すなど、その後に他の条件を判定する必要がなくなるものを優先的に行うのが望ましい。
 図11は、本実施の形態のバッファメモリ装置100の属性判定処理を示すフローチャートである。同図は、図6の“Uncache”条件に基づいた掃き出し判定処理を示す。
 メモリアクセス情報が判定部120に入力されると、属性判定部121は、メモリアクセス要求に含まれるアドレスが示す領域の属性がバースト不可属性であるか否かを判定する(S201)。当該アドレスが示す領域の属性がバースト不可属性ではない場合(S201でNo)、他の判定処理が実行される。
 メモリアクセス要求に含まれるアドレスが示す領域の属性がバースト不可属性であると判定された場合(S201でYes)、制御部130は、当該メモリアクセス要求を発行した論理プロセッサと同じ論理プロセッサで発行されたメモリアクセス要求に対応するデータを保持しているバッファメモリから、保持しているデータをメインメモリ20に掃き出す(S202)。なお、制御部130は、プロセッサ判定部122の判定結果を用いて、複数のバッファメモリ150のうち、掃き出し対象となるバッファメモリを特定することで、データの掃き出しを実行する。当該掃き出しが終了すると、他の判定処理が実行される。
 図12は、本実施の形態のバッファメモリ装置100のコマンド判定処理を示すフローチャートである。同図は、図6の“All Sync”条件と“Self Sync”条件とに基づいた掃き出し判定処理を示す。
 メモリアクセス情報が判定部120に入力されると、コマンド判定部123は、メモリアクセス要求に含まれるコマンドに、他の条件に関わらずデータを掃き出す旨の命令である“Sync”コマンドが含まれるか否かを判定する(S301)。メモリアクセス要求に“Sync”コマンドが含まれない場合(S301でNo)、他の判定処理が実行される。
 メモリアクセス要求に“Sync”コマンドが含まれる場合(S301でYes)、コマンド判定部123は、“Sync”コマンドが“All Sync”コマンドであるか“Self Sync”コマンドであるかを判定する(S302)。“Sync”コマンドが“All Sync”コマンドである場合(S302で“All Sync”)、制御部130は、全てのバッファメモリ150から、全てのデータを掃き出す(S303)。
 “Sync”コマンドが“Self Sync”コマンドである場合(S302で“Self Sync”)、制御部130は、当該メモリアクセス要求を発行した論理プロセッサと同じ論理プロセッサで発行されたメモリアクセス要求に対応するデータを保持しているバッファメモリから、保持しているデータをメインメモリ20に掃き出す(S304)。なお、制御部130は、プロセッサ判定部122の判定結果を用いて、複数のバッファメモリ150のうち、吐き出し対象となるバッファメモリを特定することで、データの掃き出しを実行する。
 データの掃き出しが終了すると、他の判定処理が実行される。
 図13は、本実施の形態のバッファメモリ装置100のリードアドレス判定処理を示すフローチャートである。同図は、図6の“RAW Hazard”条件に基づいた掃き出し判定処理を示す。なお、“RAW Hazard”条件は、バッファメモリ装置100がリード要求を受け取った場合に判定される条件である。すなわち、コマンド判定部123が、メモリアクセス要求がリード要求であると判定した場合に実行される。
 アドレス判定部124は、当該リード要求に含まれるリードアドレスが、バッファメモリ150に保持されているライトアドレスに一致するか否かを判定する(S401)。当該リードアドレスがバッファメモリ150に保持されているライトアドレスに一致しないと判定された場合(S401でNo)、他の判定処理が実行される。
 リードアドレスがバッファメモリ150に保持されているライトアドレスに一致すると判定された場合(S401でYes)、制御部130は、Hazardラインまでのデータを全て、すなわち、一致したライトアドレスに対応するライトデータ以前に保持された全てのデータをバッファメモリ150から掃き出す(S402)。データの掃き出しが終了すると、他の判定処理が実行される。
 図14は、本実施の形態のバッファメモリ装置100のライトアドレス判定処理を示すフローチャートである。同図は、図6の“Another Line Access”条件に基づいた掃き出し判定処理を示す。なお、“Another Line Access”条件は、バッファメモリ装置100がライト要求を受け取った場合に判定される条件である。すなわち、コマンド判定部123が、メモリアクセス要求がライト要求であると判定した場合に実行される。
 アドレス判定部124は、当該ライト要求に含まれるライトアドレスが、直前に入力されたライト要求に含まれるライトアドレスに連続するか否かを判定する(S501)。2つのアドレスが連続する場合(S501でNo)、他の判定処理が実行される。
 2つのアドレスが連続しない場合(S501でYes)、制御部130は、直前に入力されたライト要求に対応するライトデータを含み、それ以前のデータを全てバッファメモリ150から掃き出す(S502)。データの掃き出しが終了すると、他の判定処理が実行される。
 図15は、本実施の形態のバッファメモリ装置100のバッファ量判定処理を示すフローチャートである。同図は、図6の“Slot Full”条件に基づいた掃き出し判定処理を示す。
 “Slot Full”条件は、他の条件と異なり、メモリアクセス情報ではなく、バッファメモリ150から得られるバッファ量情報に基づいて判定される条件である。したがって、バッファメモリ装置100がメモリアクセス要求を受け取った場合に限らず、任意のタイミングで、又は、バッファメモリ150にデータを書き込んだ場合などに判定されてもよい。
 バッファ量判定部125は、制御部130を介して、バッファメモリ150からバッファ量情報を取得し、バッファメモリごとに、バッファ量がフルであるか否かを判定する(S601)。バッファ量がフルでない場合(S601でNo)、バッファメモリ装置100がメモリアクセス要求を受け取った場合に、他の判定処理が実行される。
 バッファ量がフルである場合(S601でYes)、制御部130は、複数のバッファメモリ150のうち、バッファ量がフルとなったバッファメモリからデータを掃き出す(S602)。データの掃き出しが終了すると、他の判定処理が実行される。
 図16は、本実施の形態のバッファメモリ装置100のプロセッサ判定処理を示すフローチャートである。同図は、図6の“同LP、異PP”条件に基づいた掃き出し判定処理を示す。
 メモリアクセス情報が判定部120に入力されると、プロセッサ判定部122は、メモリアクセス要求を発行した物理プロセッサとは異なる物理プロセッサで、かつ、当該メモリアクセス要求を発行した論理プロセッサと同じ論理プロセッサで以前に発行されたメモリアクセス要求に対応するライトデータが、バッファメモリ150に保持されているか否かを判定する(S701)。当該ライトデータがバッファメモリ150に保持されていない場合(S701でNo)、他の判定処理が実行される。
 同じ論理プロセッサ、かつ、異なる物理プロセッサから出力されたライトデータがバッファメモリ150に保持されている場合(S701でYes)、当該ライトデータを保持していたバッファメモリから、データを掃き出す(S702)。データの掃き出しが終了すると、他の判定処理が実行される。
 以上の図11~図16に示す判定処理が全て終了すると、掃き出し判定処理(図8のS102)は終了する。
 以上の掃き出し判定処理に示した条件が満たされない場合は、ライト要求に対応するライトデータは、バッファメモリ150に保持される。すなわち、入力される小さいサイズのライトデータは、バッファメモリ150でマージされ、大きなサイズのデータとなる。そして、当該データは、上述のいずれかの条件が満たされた時点で、メインメモリ20にバーストライトされる。
 なお、以上の説明では、各判定条件が満たされるごとに、データをメインメモリ20に掃き出したが、全ての判定条件が判定された後に、満たした条件に対応するデータをまとめてメインメモリ20に掃き出してもよい。
 以上のように、本実施の形態のバッファメモリ装置100は、複数のプロセッサ10のそれぞれに対応するバッファメモリ150を備え、各バッファメモリ150にプロセッサ10から出力されるライトデータをマージして、保持させる。そして、所定の条件を満たした場合に、バッファメモリ150からマージしたデータをメインメモリ20にバーストライトする。
 これにより、小さなサイズのライトデータをマージすることで得られる大きなデータをメインメモリ20にバーストライトすることができるので、小さなサイズのデータを個々に書き込む場合に比べて、データの転送効率を向上させることができる。また、バッファメモリ150からデータを読み出す条件を備えることで、複数のプロセッサから出力されるライトデータのコヒーレンシを保つことができる。特に、メモリアクセス要求が、同じ論理プロセッサであるが、異なる物理プロセッサで発行された場合にバッファメモリ150に保持されたデータを掃き出すことで、複数のプロセッサが実行するマルチスレッド、又は、マルチプロセッサを利用したメモリシステムの場合でも、データのコヒーレンシを保つことができる。
 以上、本発明のバッファメモリ装置及びデータ転送方法について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を当該実施の形態に施したものも、本発明の範囲内に含まれる。
 例えば、本実施の形態のバッファメモリ装置100は、複数の物理プロセッサのそれぞれに対応付けて、バッファメモリ150を備える。これに対して、バッファメモリ装置100は、複数の論理プロセッサのそれぞれに対応付けて、バッファメモリ150を備えてもよい。
 図17は、本実施の形態のバッファメモリ装置100が備えるバッファメモリ150の異なる概略を示す図である。同図に示すバッファメモリ150d、150e及び150fはそれぞれ、論理プロセッサLP0、LP1及びLP2に対応する。すなわち、バッファメモリ150d、150e及び150fはそれぞれ、各論理プロセッサLP0、LP1及びLP2で発行されたライト要求に対応するライトデータと、バッファ制御情報とを保持する。
 また、バッファメモリ装置100は、バッファメモリを論理プロセッサと物理プロセッサとの組み合わせごとに備えてもよい。
 また、バッファメモリ装置100は、複数のスレッドに対応する複数の仮想プロセッサのそれぞれに対応付けて、バッファメモリ150を備えてもよい。また、複数のバッファメモリ150は、物理的に異なる複数のメモリでもよく、又は、1つの物理的なメモリを仮想的に分割された複数の領域に相当する仮想的な複数のメモリでもよい。
 また、本実施の形態のバッファメモリ装置100は、ライトスルー処理によるキャッシュメモリ160への書き込みを行う際にも、バッファメモリ150を利用することでマージしたデータをバーストライトしたが、必ずしもバッファメモリ150を利用する必要はない。つまり、第3データ転送部143は、ライト要求に対応するライトデータを直接キャッシュメモリ160に書き込んでもよい。
 また、本実施の形態では、キャッシャブル属性と、バースト可属性と、バースト不可属性とに分割したメインメモリ20へ書き込み処理のうち、バースト不可属性の領域への書き込み処理とキャッシャブル属性の領域への書き込み処理(ライトスルー処理の場合)とにバッファメモリ150を用いた。これに対して、キャッシャブル属性と、アンキャッシャブル属性とに分割したメインメモリ20への書き込み処理に、バッファメモリを用いてもよい。すなわち、メインメモリ20のアンキャッシャブル領域を、バースト可属性に属する領域とバースト不可属性に属する領域とに分割しなくてもよい。ただし、上述のように、アンキャッシャブル領域には、リードセンシティブな領域などが含まれる場合もあるので、メインメモリ20をバースト可属性とバースト不可属性とに分割した方が好ましい。
 また、本実施の形態のバッファメモリ装置100は、プロセッサ10からメインメモリ20にデータを書き込む際に、一時的にデータを保持し、保持したデータをバーストライトすることで、データの転送効率を向上させたのに対して、新たに、リード専用のバッファメモリ(PFB(Prefetch Buffer))を備え、メインメモリ20からデータをバーストリードし、バーストリードしたデータを一時的にPFBに保持してもよい。これにより、読み出し時にもデータの転送効率を向上させることができる。
 また、本実施の形態のバッファメモリ装置100では、図4に示すように、プロセッサ10によって発行されたメモリアクセス要求に“Sync”コマンドが付随する場合について示したが、メモリアクセス要求に“Sync”コマンドが付随しなくてもよい。例えば、バッファメモリ装置100は、IOマップされたレジスタを備え、プロセッサ10が当該レジスタをアクセスすることで、対応するバッファメモリ150からデータを掃き出してもよい。
 また、本発明は、本実施の形態のバッファメモリ装置100と、プロセッサ10と、メインメモリ20とを備えるメモリシステムとしても実現することができる。このとき、メモリアクセス要求の発行元は、CPUなどのプロセッサ、及び、DMAC(Direct Memory Access Controller)などいかなるマスタであってもよい。
 また、本実施の形態では、L2キャッシュ40が本実施の形態のバッファメモリ150を備える構成について説明したが、L1キャッシュ30が当該バッファメモリ150を備えてもよい。このとき、メモリシステムは、L2キャッシュ40を備えなくてもよい。
 また、レベル3キャッシュ以上のキャッシュを備えるメモリシステムに、本発明を適用してもよい。この場合、最大レベルのキャッシュが本実施の形態のバッファメモリ150を備えることが好ましい。
 なお、本発明は、上述したように、バッファメモリ装置、メモリシステム及びデータ転送方法として実現できるだけではなく、本実施の形態のデータ転送方法をコンピュータに実行させるためのプログラムとして実現してもよい。また、当該プログラムを記録するコンピュータ読み取り可能なCD-ROMなどの記録媒体として実現してもよい。さらに、当該プログラムを示す情報、データ又は信号として実現してもよい。そして、これらプログラム、情報、データ及び信号は、インターネットなどの通信ネットワークを介して配信されてもよい。
 また、本発明は、バッファメモリ装置を構成する構成要素の一部又は全部を、1個のシステムLSI(Large Scale Integration)から構成してもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM及びRAMなどを含んで構成されるコンピュータシステムである。
 本発明のバッファメモリ装置及びメモリシステムは、CPUなどのプロセッサとメインメモリとの間でデータの転送を行うシステムに利用することができ、例えば、コンピュータなどに利用することができる。
10、10a、10b、10c、310 プロセッサ
20、320 メインメモリ
21 キャッシャブル領域
22 アンキャッシャブル領域
23 バースト可領域
24 バースト不可領域
30 L1キャッシュ
40 L2キャッシュ
100 バッファメモリ装置
110 メモリアクセス情報取得部
120 判定部
121 属性判定部
122 プロセッサ判定部
123 コマンド判定部
124 アドレス判定部
125 バッファ量判定部
126 判定結果出力部
130 制御部
140 データ転送部
141 第1データ転送部
142 第2データ転送部
143 第3データ転送部
150、150a、150b、150c、150d、150e、150f バッファメモリ
160 キャッシュメモリ
201、202 メモリアクセス情報
330 キャッシュ
331 STB

Claims (16)

  1.  複数のプロセッサのそれぞれが発行するライト要求又はリード要求を含むメモリアクセス要求に従って、前記複数のプロセッサとメインメモリとの間でデータを転送するバッファメモリ装置であって、
     前記複数のプロセッサのそれぞれに対応し、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持する複数のバッファメモリと、
     前記メモリアクセス要求の性質を示すメモリアクセス情報を取得するメモリアクセス情報取得部と、
     前記メモリアクセス情報取得部によって取得されたメモリアクセス情報が示す性質が、予め定められた条件を満たすか否かを判定する判定部と、
     前記メモリアクセス情報が示す性質が前記条件を満たすと前記判定部によって判定された場合、前記複数のバッファメモリのうち、前記条件に対応するバッファメモリに保持されているデータを前記メインメモリに掃き出す制御部とを備える
     バッファメモリ装置。
  2.  前記複数のプロセッサは、複数の物理プロセッサであり、
     前記複数のバッファメモリのそれぞれは、前記複数の物理プロセッサのそれぞれに対応し、対応する物理プロセッサによって発行されたライト要求に対応するライトデータを保持し、
     前記メモリアクセス情報取得部は、前記メモリアクセス情報として、前記メモリアクセス要求を発行した論理プロセッサ及び物理プロセッサを示すプロセッサ情報を取得し、
     前記判定部は、前記プロセッサ情報が示す物理プロセッサとは異なる物理プロセッサで、かつ、前記プロセッサ情報が示す論理プロセッサと同じ論理プロセッサで以前に発行されたライト要求に対応するライトデータが前記複数のバッファメモリのいずれかに保持されている場合に、前記条件を満たすと判定し、
     前記制御部は、前記条件を満たすと前記判定部によって判定された場合、前記条件を満たすバッファメモリに保持されているデータを前記メインメモリに掃き出す
     請求項1記載のバッファメモリ装置。
  3.  前記判定部は、さらに、前記メモリアクセス情報に、少なくとも1つの前記バッファメモリに保持されたデータを前記メインメモリに掃き出すためのコマンド情報が含まれているか否かを判定し、
     前記制御部は、さらに、前記メモリアクセス情報に前記コマンド情報が含まれていると前記判定部によって判定された場合、前記コマンド情報が示すバッファメモリに保持されたデータを前記メインメモリに掃き出す
     請求項2記載のバッファメモリ装置。
  4.  前記コマンド情報は、前記複数のバッファメモリの全てに保持されたデータを前記メインメモリに掃き出すための情報であり、
     前記制御部は、さらに、前記メモリアクセス情報に前記コマンド情報が含まれていると前記判定部によって判定された場合、前記複数のバッファメモリの全てに保持されたデータを前記メインメモリに掃き出す
     請求項3記載のバッファメモリ装置。
  5.  前記制御部は、さらに、前記メモリアクセス情報に前記コマンド情報が含まれていると前記判定部によって判定された場合、当該メモリアクセス要求を発行したプロセッサに対応するバッファメモリに保持されたデータを前記メインメモリに掃き出す
     請求項3記載のバッファメモリ装置。
  6.  前記メインメモリは、キャッシャブル属性とアンキャッシャブル属性とのいずれかに属する複数の領域からなり、
     前記メモリアクセス情報取得部は、さらに、前記メモリアクセス情報として、前記メモリアクセス要求に含まれるアドレスが示す領域の属性を示す属性情報と、当該メモリアクセス要求を発行したプロセッサを示すプロセッサ情報とを取得し、
     前記判定部は、さらに、前記属性情報が示す属性が、前記アンキャッシャブル属性であり、かつ、バースト転送すべきデータが保持されることを示すバースト不可属性であるか否かを判定し、
     前記制御部は、さらに、前記属性情報が示す属性が前記バースト不可属性であると前記判定部によって判定された場合、前記プロセッサ情報が示すプロセッサに対応するバッファメモリに保持されたデータを前記メインメモリに掃き出す
     請求項2~5のいずれか1項に記載のバッファメモリ装置。
  7.  前記複数のバッファメモリは、さらに、前記ライトデータに対応するライトアドレスを保持し、
     前記メモリアクセス情報取得部は、さらに、前記メモリアクセス要求がリード要求を含む場合に、前記メモリアクセス情報として、当該リード要求に含まれるリードアドレスを取得し、
     前記判定部は、前記リードアドレスに一致するライトアドレスが前記複数のバッファメモリの少なくとも1つに保持されているか否かを判定し、
     前記制御部は、前記リードアドレスに一致するライトアドレスが前記複数のバッファメモリの少なくとも1つに保持されていると前記判定部によって判定された場合、前記ライトアドレスに対応するライトデータ以前に前記複数のバッファメモリに保持されたデータを前記メインメモリに掃き出す
     請求項2~6のいずれか1項に記載のバッファメモリ装置。
  8.  前記メモリアクセス情報取得部は、さらに、前記メモリアクセス要求がライト要求を含む場合に、当該ライト要求に含まれる第1ライトアドレスを取得し、
     前記判定部は、前記第1ライトアドレスが、直前に入力されたライト要求に含まれる第2ライトアドレスに連続するか否かを判定し、
     前記制御部は、前記第1ライトアドレスと前記第2ライトアドレスとが連続すると前記判定部によって判定された場合、前記第2ライトアドレスに対応するライトデータ以前に前記複数のバッファメモリに保持されたデータを前記メインメモリに掃き出す
     請求項2~7のいずれか1項に記載のバッファメモリ装置。
  9.  前記判定部は、さらに、前記複数のバッファメモリのそれぞれに保持されているデータのデータ量が所定の閾値に達したか否かを判定し、
     前記制御部は、さらに、前記データ量が前記閾値に達したと前記判定部によって判定された場合、前記データ量が前記閾値に達したバッファメモリに保持されたデータを前記メインメモリに掃き出す
     請求項2~8のいずれか1項に記載のバッファメモリ装置。
  10.  前記メインメモリは、キャッシャブル属性とアンキャッシャブル属性とのいずれかに属する複数の領域からなり、
     前記バッファメモリ装置は、
     前記ライト要求に含まれるライトアドレスが示す領域の属性が、前記アンキャッシャブル属性であり、かつ、バースト転送すべきデータが保持されることを示すバースト不可属性である場合に、当該ライト要求に対応するライトデータを、前記複数のバッファメモリに書き込むデータ書込部を備え、
     前記複数のバッファメモリは、前記データ書込部によって書き込まれたライトデータを保持する
     請求項2記載のバッファメモリ装置。
  11.  前記バッファメモリ装置は、さらに、
     キャッシュメモリを備え、
     前記データ書込部は、さらに、前記ライトアドレスが示す領域の属性が、前記キャッシャブル属性であり、かつ、前記ライト要求に対応するライトデータを前記キャッシュメモリと前記メインメモリとに同時に書き込む場合に、当該ライト要求に対応するライトデータを、前記複数のバッファメモリに書き込み、
     前記制御部は、前記条件を満たすと前記判定部によって判定された場合、前記条件を満たすバッファメモリに保持されているデータを前記メインメモリと前記キャッシュメモリとに掃き出す
     請求項10記載のバッファメモリ装置。
  12.  前記バッファメモリは、複数の前記ライト要求に含まれる複数のライトアドレスと、当該ライト要求に対応する複数のライトデータとを保持する
     請求項2記載のバッファメモリ装置。
  13.  前記複数のプロセッサは、複数の論理プロセッサであり、
     前記複数のバッファメモリのそれぞれは、前記複数の論理プロセッサのそれぞれに対応し、対応する論理プロセッサによって発行されたライト要求に対応するライトデータを保持する
     請求項1記載のバッファメモリ装置。
  14.  前記複数のプロセッサは、複数のスレッドに対応する複数の仮想プロセッサであり、
     前記複数のバッファメモリのそれぞれは、前記複数の仮想プロセッサのそれぞれに対応し、対応する仮想プロセッサによって発行されたライト要求に対応するライトデータを保持する
     請求項1記載のバッファメモリ装置。
  15.  複数のプロセッサのそれぞれが発行するライト要求とリード要求とを含むメモリアクセス要求に従って、前記複数のプロセッサとメインメモリとの間でデータを転送するメモリシステムであって、
     前記複数のプロセッサと、
     前記メインメモリと、
     前記複数のプロセッサのそれぞれに対応し、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持する複数のバッファメモリと、
     前記メモリアクセス要求の性質を示すメモリアクセス情報を取得するメモリアクセス情報取得部と、
     前記メモリアクセス情報取得部によって取得されたメモリアクセス情報が示す性質が、予め定められた条件を満たすか否かを判定する判定部と、
     前記メモリアクセス情報が示す性質が前記条件を満たすと前記判定部によって判定された場合、前記複数のバッファメモリのうち、前記条件に対応するバッファメモリに保持されているデータを前記メインメモリに掃き出す制御部とを備える
     メモリシステム。
  16.  複数のプロセッサのそれぞれが発行するライト要求とリード要求とを含むメモリアクセス要求に従って、前記複数のプロセッサとメインメモリとの間でデータを転送するデータ転送方法であって、
     前記複数のプロセッサによって発行されたメモリアクセス要求の性質を示すメモリアクセス情報を取得するメモリアクセス情報取得ステップと、
     前記メモリアクセス情報取得ステップで取得されたメモリアクセス情報が示す性質が、予め定められた条件を満たすか否かを判定する判定ステップと、
     前記メモリアクセス情報が示す性質が前記条件を満たすと前記判定ステップで判定された場合、前記複数のプロセッサのそれぞれに対応し、対応するプロセッサによって発行されたライト要求に対応するライトデータを保持している複数のバッファメモリのうち、前記条件に対応するバッファメモリに保持されているデータを前記メインメモリに掃き出す掃き出しステップとを含む
     データ転送方法。
PCT/JP2009/004603 2008-09-25 2009-09-15 バッファメモリ装置、メモリシステム及びデータ転送方法 WO2010035426A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN200980137756.8A CN102165425B (zh) 2008-09-25 2009-09-15 缓冲存储器装置、存储器系统及数据传输方法
JP2010530712A JP5536658B2 (ja) 2008-09-25 2009-09-15 バッファメモリ装置、メモリシステム及びデータ転送方法
US13/069,854 US20110173400A1 (en) 2008-09-25 2011-03-23 Buffer memory device, memory system, and data transfer method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008246584 2008-09-25
JP2008-246584 2008-09-25

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/069,854 Continuation US20110173400A1 (en) 2008-09-25 2011-03-23 Buffer memory device, memory system, and data transfer method

Publications (1)

Publication Number Publication Date
WO2010035426A1 true WO2010035426A1 (ja) 2010-04-01

Family

ID=42059439

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2009/004603 WO2010035426A1 (ja) 2008-09-25 2009-09-15 バッファメモリ装置、メモリシステム及びデータ転送方法

Country Status (5)

Country Link
US (1) US20110173400A1 (ja)
JP (1) JP5536658B2 (ja)
CN (1) CN102165425B (ja)
TW (1) TW201015321A (ja)
WO (1) WO2010035426A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013080426A1 (ja) * 2011-12-01 2013-06-06 パナソニック株式会社 熱を考慮した構造を持つ集積回路装置、三次元集積回路、三次元プロセッサ装置、及びプロセススケジューラ
JP2013536526A (ja) * 2010-08-20 2013-09-19 アップル インコーポレイテッド フラッシュ指標を動的に調整可能な結合書き込みバッファ
CN114116553A (zh) * 2021-11-30 2022-03-01 海光信息技术股份有限公司 数据处理装置、方法以及系统

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013006202A1 (en) * 2011-07-01 2013-01-10 Intel Corporation Transmitting uplink control information
JP2013101600A (ja) * 2011-10-19 2013-05-23 Ricoh Co Ltd 管理システム、電子機器、電子機器制御方法およびプログラム
US9286223B2 (en) * 2013-04-17 2016-03-15 Advanced Micro Devices, Inc. Merging demand load requests with prefetch load requests
CN103455434B (zh) * 2013-08-26 2016-12-28 华为技术有限公司 一种建立缓存目录的方法及系统
JP6196143B2 (ja) * 2013-12-13 2017-09-13 株式会社東芝 情報処理装置、情報処理方法およびプログラム
CN103744698A (zh) * 2013-12-26 2014-04-23 北京星河亮点技术股份有限公司 Dsp工程的高效运行方法及系统
US10061719B2 (en) * 2014-12-25 2018-08-28 Intel Corporation Packed write completions
WO2017179176A1 (ja) * 2016-04-14 2017-10-19 富士通株式会社 メモリ制御装置およびメモリ制御方法
CN108292260B (zh) * 2016-08-25 2021-01-05 华为技术有限公司 用于软件自测试的装置和方法
KR102490104B1 (ko) 2017-10-30 2023-01-19 삼성전자주식회사 데이터 보호를 사용하는 인-밴드 메모리에 액세스하기 위한 장치 및 방법
US10572159B1 (en) 2018-03-22 2020-02-25 Amazon Technologies, Inc. Smart data storage tiers for data object transitioning
KR20200109973A (ko) * 2019-03-15 2020-09-23 에스케이하이닉스 주식회사 메모리 공유를 위한 메모리 시스템 및 그것을 포함하는 데이터 처리 시스템
CN114036077B (zh) * 2021-11-17 2022-10-21 海光信息技术股份有限公司 数据处理方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992005489A1 (en) * 1990-09-18 1992-04-02 Fujitsu Limited Method of nonsynchronous access to shared memory
JPH05282205A (ja) * 1992-03-31 1993-10-29 Nec Corp 情報処理装置
JP2002189629A (ja) * 2000-08-23 2002-07-05 Nintendo Co Ltd 機能拡張型メモリコントローラを備えるグラフィックス処理システム
JP2006244460A (ja) * 2005-02-01 2006-09-14 Seiko Epson Corp キャッシュメモリ及びプロセッサ

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965717A (en) * 1988-12-09 1990-10-23 Tandem Computers Incorporated Multiple processor system having shared memory with private-write capability
US6108755A (en) * 1990-09-18 2000-08-22 Fujitsu Limited Asynchronous access system to a shared storage
WO1995002248A1 (en) * 1993-07-07 1995-01-19 Vertex Semiconductor Corporation Memory buffer having selective flush capability
US5638527A (en) * 1993-07-19 1997-06-10 Dell Usa, L.P. System and method for memory mapping
US5561780A (en) * 1993-12-30 1996-10-01 Intel Corporation Method and apparatus for combining uncacheable write data into cache-line-sized write buffers
US6314491B1 (en) * 1999-03-01 2001-11-06 International Business Machines Corporation Peer-to-peer cache moves in a multiprocessor data processing system
US6334171B1 (en) * 1999-04-15 2001-12-25 Intel Corporation Write-combining device for uncacheable stores
US7428485B2 (en) * 2001-08-24 2008-09-23 International Business Machines Corporation System for yielding to a processor
US7219241B2 (en) * 2002-11-30 2007-05-15 Intel Corporation Method for managing virtual and actual performance states of logical processors in a multithreaded processor using system management mode
JP4667092B2 (ja) * 2005-03-17 2011-04-06 富士通株式会社 情報処理装置、情報処理装置におけるデータ制御方法
US20080235461A1 (en) * 2007-03-22 2008-09-25 Sin Tan Technique and apparatus for combining partial write transactions
US8423721B2 (en) * 2008-04-30 2013-04-16 Freescale Semiconductor, Inc. Cache coherency protocol in a data processing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1992005489A1 (en) * 1990-09-18 1992-04-02 Fujitsu Limited Method of nonsynchronous access to shared memory
JPH05282205A (ja) * 1992-03-31 1993-10-29 Nec Corp 情報処理装置
JP2002189629A (ja) * 2000-08-23 2002-07-05 Nintendo Co Ltd 機能拡張型メモリコントローラを備えるグラフィックス処理システム
JP2006244460A (ja) * 2005-02-01 2006-09-14 Seiko Epson Corp キャッシュメモリ及びプロセッサ

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013536526A (ja) * 2010-08-20 2013-09-19 アップル インコーポレイテッド フラッシュ指標を動的に調整可能な結合書き込みバッファ
WO2013080426A1 (ja) * 2011-12-01 2013-06-06 パナソニック株式会社 熱を考慮した構造を持つ集積回路装置、三次元集積回路、三次元プロセッサ装置、及びプロセススケジューラ
US9122286B2 (en) 2011-12-01 2015-09-01 Panasonic Intellectual Property Management Co., Ltd. Integrated circuit apparatus, three-dimensional integrated circuit, three-dimensional processor device, and process scheduler, with configuration taking account of heat
CN114116553A (zh) * 2021-11-30 2022-03-01 海光信息技术股份有限公司 数据处理装置、方法以及系统

Also Published As

Publication number Publication date
US20110173400A1 (en) 2011-07-14
JP5536658B2 (ja) 2014-07-02
TW201015321A (en) 2010-04-16
CN102165425A (zh) 2011-08-24
CN102165425B (zh) 2014-01-08
JPWO2010035426A1 (ja) 2012-02-16

Similar Documents

Publication Publication Date Title
JP5536658B2 (ja) バッファメモリ装置、メモリシステム及びデータ転送方法
JP5417879B2 (ja) キャッシュ装置
TWI522802B (zh) 確保微處理器之快取記憶體層級之資料一致性的裝置與方法
JP7340326B2 (ja) メンテナンス動作の実行
US7577795B2 (en) Disowning cache entries on aging out of the entry
JP2000250813A (ja) I/oキャッシュ・メモリにおけるデータ管理方法
US20110173393A1 (en) Cache memory, memory system, and control method therefor
US8621152B1 (en) Transparent level 2 cache that uses independent tag and valid random access memory arrays for cache access
US20100217937A1 (en) Data processing apparatus and method
US11194617B2 (en) Merging data for write allocate
US9720847B2 (en) Least recently used (LRU) cache replacement implementation using a FIFO storing indications of whether a way of the cache was most recently accessed
US7941608B2 (en) Cache eviction
US20110167223A1 (en) Buffer memory device, memory system, and data reading method
JP5319049B2 (ja) キャッシュシステム
JP5157424B2 (ja) キャッシュメモリシステム及びキャッシュメモリの制御方法
US7779205B2 (en) Coherent caching of local memory data
US11036639B2 (en) Cache apparatus and method that facilitates a reduction in energy consumption through use of first and second data arrays
KR102482516B1 (ko) 메모리 어드레스 변환
US7685372B1 (en) Transparent level 2 cache controller
JP2004326175A (ja) プロセッサ、キャッシュシステム及びキャッシュメモリ
JP7311959B2 (ja) 複数のデータ・タイプのためのデータ・ストレージ
JP5420182B2 (ja) キャッシュメモリシステム、データ処理装置および記憶装置
US20120102271A1 (en) Cache memory system and cache memory control method

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200980137756.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 09815848

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2010530712

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 09815848

Country of ref document: EP

Kind code of ref document: A1