KR102115129B1 - 메모리 제어 데이터 이동 및 타이밍 - Google Patents

메모리 제어 데이터 이동 및 타이밍 Download PDF

Info

Publication number
KR102115129B1
KR102115129B1 KR1020197026296A KR20197026296A KR102115129B1 KR 102115129 B1 KR102115129 B1 KR 102115129B1 KR 1020197026296 A KR1020197026296 A KR 1020197026296A KR 20197026296 A KR20197026296 A KR 20197026296A KR 102115129 B1 KR102115129 B1 KR 102115129B1
Authority
KR
South Korea
Prior art keywords
data
memory
request
main memory
hardware logic
Prior art date
Application number
KR1020197026296A
Other languages
English (en)
Other versions
KR20190107178A (ko
Inventor
리차드 씨. 머피
Original Assignee
마이크론 테크놀로지, 인크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크론 테크놀로지, 인크 filed Critical 마이크론 테크놀로지, 인크
Publication of KR20190107178A publication Critical patent/KR20190107178A/ko
Application granted granted Critical
Publication of KR102115129B1 publication Critical patent/KR102115129B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/06Addressing a physical block of locations, e.g. base addressing, module addressing, memory dedication
    • G06F12/0607Interleaved addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/22Read-write [R-W] timing or clocking circuits; Read-write [R-W] control signal generators or management 
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • G06F15/78Architectures of general purpose stored program computers comprising a single central processing unit
    • G06F15/7807System on chip, i.e. computer system on a single chip; System in package, i.e. computer system on one or more chips in a single package
    • G06F15/7821Tightly coupled to memory, e.g. computational memory, smart memory, processor in memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C7/00Arrangements for writing information into, or reading information out from, a digital store
    • G11C7/10Input/output [I/O] data interface arrangements, e.g. I/O data control circuits, I/O data buffers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • G06F2212/1024Latency reduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1028Power efficiency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/6028Prefetching based on hints or prefetch instructions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

본 발명은 메모리 제어 데이터 이동 및 타이밍을 위한 장치들, 전자 디바이스 판독 가능한 매체들, 및 방법들을 포함한다. 다수의 전자 디바이스 판독 가능한 매체들은 메모리 내 데이터 이동 동작들에 대한 프로그램 가능한 제어를 제공하도록 전자 디바이스에 의해 실행 가능한 명령들을 저장할 수 있다. 메모리는 메모리 및 관련 프로세서 간 상호작용에 대해, 임의의 관련 프로세서에 독립적으로, 타이밍 제어를 제공할 수 있다.

Description

메모리 제어 데이터 이동 및 타이밍{MEMORY CONTROLLED DATA MOVEMENT AND TIMING}
본 발명은 일반적으로 반도체 메모리 및 방법들, 그리고 보다 상세하게는, 메모리 제어 데이터 이동 및 타이밍을 위한 장치들, 전자 디바이스 판독 가능한 매체들, 및 방법들에 관한 것이다.
메모리 디바이스들은 통상적으로 컴퓨팅 디바이스들 또는 다른 전자 디바이스들에서의 내부의, 반도체, 집적 회로들로서 제공된다. 휘발성 및 비-휘발성 메모리를 포함하여 많은 상이한 유형의 메모리가 존재한다. 휘발성 메모리는 자신의 데이터(예를 들어, 사용자 데이터, 에러 데이터 등)를 유지하기 위해 전력을 필요로 할 수 있고 랜덤-액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 및 동기식 동적 랜덤 액세스 메모리(SDRAM) 등을 포함한다. 비-휘발성 메모리는 전력이 공급되지 않을 때 저장된 데이터를 유지함으로써 영속적인 데이터를 제공할 수 있고 NAND 플래시 메모리, NOR 플래시 메모리, 판독 전용 메모리(ROM), 전기 소거 가능 프로그램 가능 ROM(EEPROM), 소거 가능 프로그램 가능 ROM(EPROM), 및 상 변화 랜덤 액세스 메모리(PCRAM), 저항성 랜덤 액세스 메모리(RRAM), 및 자기저항 랜덤 액세스 메모리(MRAM) 등과 같은 저항 가변성 메모리를 포함할 수 있다.
컴퓨팅 디바이스들은 통상적으로 주 메모리(예를 들어, DRAM) 및 보조 메모리(예를 들어, 하드 드라이브 또는 고체 상태 드라이브와 같은, 기억장치)에 결합되는 다수의 프로세서를 포함한다. 주 메모리는 통상적으로 프로세서에 단단히 결합되거나 종속된다. DRAM에서, 이는 명시적으로 타임드 인터페이스들(timed interfaces)을 관리하는 프로세서의 메모리 제어기에 의해 달성된다(예를 들어, 로우 어드레스 스트로브(RAS; row address strobe) / 컬럼 어드레스 스트로브(CAS; column address strobe) 프로토콜을 통해). 메모리는 통상적으로 밀도에 대해 최적화되어 있고 프로세서들은 통상적으로 속도에 대해 최적화되어 있어, 메모리 장벽 또는 폰 노이만 병목으로 알려진 둘 간의 격차를 야기한다. 이 격차는 통상적으로 프로세서의 속도 또는 메모리의 밀도보다 더 제한적인 자원인 프로세서 및 메모리 간 대역폭을 야기한다.
도 1은 본 발명의 다수의 실시예에 따른 다수의 프로세서, 다수의 주 메모리 디바이스, 및 그것들 사이에 인터페이스를 포함하는 컴퓨팅 디바이스의 형태인 장치의 블록도를 예시한다.
도 2는 본 발명의 다수의 실시예에 따른 프로세서 및 주 메모리 간 데이터 이동 동작을 예시한다.
도 3은 본 발명의 다수의 실시예에 따른 메모리 디바이스들 및 요청 디바이스들 사이에 결합되는 로직 디바이스의 보다 상세한 도면의 예시를 포함한다.
도 4는 본 발명의 다수의 실시예에 따른 요청들 및 응답들에 기초한 다수의 어드레스 및 오프셋의 블록도를 예시한다.
프로세서 및 주 메모리 간 추상화된 메모리 인터페이스는 프로세서에 의한 명시적 제어에서 분리된 타이밍(및, 일부 인스턴스들에서, 분리된 네이밍)에 대해 대비할 수 있다. 추상화된 인터페이스를 갖는 주 메모리의 예는 하이브리드 메모리 큐브(HMC)이다. HMC에서, 이러한 기능은 하드웨어 로직과 결합되는 패킷화된 네트워크 프로토콜(예를 들어, 로직-층 메모리 제어)에 의해 달성된다. 그러한 인터페이스들은 간략화된 프로세스-측 메모리 제어기 인터페이스, 주 메모리 요청에 대한 비순차적 리턴, 주 메모리에 대한 국부화된 RAS 및/또는 CAS 관리, 균일한 그리고 비균일한, 멀티프로세서 장치들에서의 진화된 메모리 토폴로지들 및 공유 전략들, 국부적으로 관리된 동기화 기능들 및 메타데이터 기억장치, 및 장애 허용력(예를 들어, 여기서 워드들 또는 블록들과 같은 메모리의 실패된 부분들이 이를테면 메모리에서의 로직층에 의해, 재맵핑될 수 있다)을 감안할 수 있다.
고 성능 컴퓨팅, 그래프-기반 분석, 데이터 마이닝, 국가 안보, 데이터베이스 기술, 및 다른 상용 드라이버들과 같은 애플리케이션들은 데이터가 일반적으로 열악한 공간적 집약성 및/또는 시간적 집약성을 나타내는 많은 프로세서의 캐시 기반 아키텍처에 부적합한 희소 메모리 액세스 패턴들을 나타낸다. 주 메모리를 위한 일반적인 데이터 이동 기능들은 메모리 대역폭 및 캐시 기반 아키텍처들을 보다 양호하게 활용하는 기회를 제공할 수 있다.
본 발명은 메모리 제어 데이터 이동 및 타이밍을 위한 장치들, 전자 디바이스(예를 들어, 컴퓨팅 디바이스) 판독 가능한 매체들, 및 방법들을 포함한다. 다수의 전자 디바이스 판독 가능한 매체는 메모리(예를 들어, 주 메모리) 내 데이터 이동 동작들에 대한 프로그램 가능한 제어를 제공하도록 전자 디바이스에 의해 실행 가능한 명령들을 저장한다. 주 메모리는 메모리 및 관련 프로세서 간 상호작용에 대해, 임의의 관련 프로세서에 독립적으로, 타이밍 제어를 제공할 수 있다. 해당 기술분야의 통상의 기술자에 의해 인식될 바와 같이, "주 메모리"는 프로세서에 의해 직접 액세스 되고 조작될 수 있는 데이터를 저장하는 메모리를 설명하는 기술 용어이다. 주 메모리의 예는 DRAM이다. 주 메모리는 데이터의 주 기억장치를 제공하고 휘발성 메모리 또는 비-휘발성 메모리(예를 들어, 비-휘발성 듀얼 인-라인 메모리 모듈(DIMM)과 같은, 주 메모리로서 운영되는 비-휘발성 RAM의 경우)일 수 있다. 보조 기억장치는 데이터의 보조 기억장치를 제공하는데 사용될 수 있고 프로세서에 의해 직접 액세스 가능하지 않을 수 있다. 그러나, 본 명세서에서 사용될 때, "주 메모리"는 반드시 휘발성 메모리이어야 하는 것은 아니고, 일부 실시예들에서 비-휘발성 메모리일 수 있다.
본 발명의 다음의 상세한 설명에서, 본 명세서의 일부를 형성하고, 본 발명의 하나 이상의 실시예가 실시될 수 있는 양태가 예로서 도시된, 첨부 도면들이 참조된다. 이들 실시예들은 해당 기술 분야에서의 통상의 기술자들이 본 발명의 실시예들을 실시하게 하기 위해 충분히 상세하게 설명된다, 그리고 그 밖의 다른 실시예들이 활용될 수 있으며 당해 프로세스, 전기적, 및 구조적 변경들이 본 발명의 범위를 벗어나지 않고 이루어질 수 있다는 것이 이해되어야 한다. 본 명세서에서 사용될 때, 상세하게는 도면들에서의 참조 부호들에 대한, 지정자들 “B”, “L”, “M”, “N”, 및 “P”는 그렇게 지정된 다수의 특정한 피처가 포함될 수 있다는 것을 나타낸다. 본 명세서에서 사용될 때, "다수의" 특정한 것은 하나 이상의 그러한 것을 지칭할 수 있다(예를 들어, 다수의 메모리 디바이스는 하나 이상의 메모리 디바이스를 지칭할 수 있다).
본 명세서의 도면들은 첫 번째 숫자 또는 숫자들이 도면 부호에 대응하고 나머지 숫자들이 도면의 요소 또는 구성요소를 식별하는 넘버링 규칙을 따른다. 상이한 도면들 간의 유사한 요소들 또는 구성요소들은 유사한 숫자들의 사용에 의해 식별될 수 있다. 예를 들어, 106은 도 1에서의 요소 "06"을 참조하고, 유사한 요소는 도 2에서 206으로서 참조될 수 있다. 인식될 바와 같이, 본 명세서의 다양한 실시예들에서 제시된 요소들은 본 발명의 다수의 추가 실시예를 제공하기 위해 추가, 교환 및/또는 제거될 수 있다. 또한, 인식될 바와 같이, 도면들에 제공된 요소들의 비율 및 상대 축적은 본 발명의 특정한 실시예들을 예시하도록 의도되며, 제한적인 의미로 취해져서는 안 된다.
도 1은 본 발명의 다수의 실시예에 따른 다수의 프로세서(102-1,…, 102-P), 다수의 주 메모리 디바이스(104-1,…, 104-M), 및 그것들 사이에 인터페이스(106)를 포함하는 컴퓨팅 디바이스(100)의 형태인 장치의 블록도를 예시한다. 본 명세서에서 사용될 때, 컴퓨팅 디바이스(100), 프로세서(102), 메모리 디바이스(104), 또는 인터페이스(106)는 또한 각기 "장치"로 고려될 수 있다. 컴퓨팅 디바이스(100)는 프로세서 및 프로세서에 의해 액세스되는 데이터를 저장하는 주 메모리를 포함하는 임의의 전자 디바이스일 수 있다. 컴퓨팅 디바이스들(100)의 예들은 수퍼 컴퓨터들, 개인용 컴퓨터들, 비디오 카드들, 사운드 카드들, 및 랩탑 컴퓨터들, 태블릿들, 스마트 폰들 등과 같은 모바일 전자 디바이스들을 포함한다.
프로세서들(102-1,…, 102-P)은 임의의 유형의 범용 프로세서들일 수 있다. 예를 들어, 프로세서들(102-1,…, 102-P)은 캐시 기반 프로세서들, 벡터 프로세서들(예를 들어, 단일 명령 다중 데이터(SIMD)), 스칼라 프로세서(예를 들어, 단일 명령 단일 데이터(SISD)), 다중 명령 단일 데이터(MISD), 다중 명령 다중 데이터(MIMD) 프로세서들 등일 수 있다. 일부 실시예들에서, 프로세서들(102-1,…, 102-P)은 주 메모리 디바이스들(104-1,…, 104-M)에 대한 타이밍 제어를 제공하지 않는다. 프로세서들(102-1,…, 102-P)은 요청과 관련된 판독 시간을 인식하지 않고(프로세서들(102-1,…, 102-P)은 요청된 데이터가 프로세서들(102-1,…, 102-P)에 의해 수신될 때를 제어 및/또는 인식하지 않을 수 있다) 인터페이스(106)를 통해 주 메모리 디바이스들(104-1,…, 104-M)로 요청을 송신하도록 구성될 수 있다. 프로세서들(102-1,…, 102-P)로부터의 요청은 그것들과 관련된 타이밍을 가지지 않을 수 있어, 주 메모리 디바이스들(104-1,…, 104-M)에 대한 요청에 언제 응답해야 할지 결정을 남긴다.
주 메모리 디바이스들(104-1,…, 104-M)은 프로세서들(102-1,…, 102-P)에 의해 작동되는 데이터를 저장할 수 있다. 주 메모리 디바이스들의 예들은 DRAM 및 HMC 등을 포함한다. 그러나, 본 발명의 다수의 실시예에 따라, 주 메모리 디바이스들(104-1,…, 104-M)은 주 메모리 디바이스들(104-1,…, 104-M) 및 프로세서들(102-1,…, 102-P) 간 상호작용에 대해 프로세서들(102-1,…, 102-P)에 독립적으로 그것들의 타이밍을 제어할 수 있다. 예를 들어, 주 메모리 디바이스들(104-1,…, 104-M)은 주 메모리 디바이스들(104-1,…, 104-M)에 액세스하기 위한 로우 어드레스 스트로브(RAS) 및/또는 컬럼 어드레스 스트로브(CAS)에 대한 그들 자체의 타이밍 제어를 제공할 수 있다. 그러한 타이밍 제어의 예들은 랜덤 판독 또는 기록 사이클 타임, 액세스 타임 등을 포함한다.
몇몇 실시예에서, 주 메모리 디바이스들(104-1,…, 104-M) 내 데이터 이동 동작들의 프로그램 가능 제어가 제공될 수 있다(예를 들어, 프로그래머에 의해 제공되는 실행 가능한 명령들에 의해). 그러한 동작들의 예들은 수렴/분산 동작들, 어드레스 기반 동작들, 오프셋 기반 동작들, 스트라이디드 동작들(strided operations), 포인터 기반 동작들 등을 포함한다. 향상된 데이터 이동 시맨틱스가 프로그래머에게 드러날 수 있다(몇몇 종래 접근법에 따라, 프로그래머에게는 주 메모리(204)에서의 데이터 이동 동작들을 제어하는 능력이 제공되지 않았다). 그러한 실시예들은 그것이 추가 동작을 위해 인터페이스(106)를 거쳐 프로세서들로 전달되기 전에 주 메모리 디바이스들(104-1,…, 104-M) 내에서 데이터를 이동함으로써 인터페이스(106)의 대역폭의 사용을 감소시키는 명령들이 기록되는 것을 가능하게 하는 것에 있어서 유익할 수 있다. 장점들은 계산의 전반적인 레이턴시 또는 그러한 동작들의 시퀀스를 감소시키는 것을 포함할 수 있다. 주 메모리 디바이스들(104-1,…, 104-M) 내 그러한 이동 동작들의 보다 구체적인 예들이 본 명세서에서 설명된다. 예를 들어, 주 메모리 디바이스들(104-1,…, 104-M)은 데이터 구조를 저장하고 프로세서들(102-1,…, 102-P)로부터의 명령 스트림에 독립적으로 데이터 구조를 순회할 수 있다. 프로세서들(102-1,…, 102-P)이 주 메모리 디바이스들(104-1,…, 104-M)로부터의 특정한 데이터를 요청할 수 있으나, 주 메모리 디바이스들(104-1,…, 104-M)은 독립적으로 데이터 구조를 순회하고 프로세서들(102-1,…, 102-P)로부터의 요청이 데이터 이동을 구체적으로 요청하지 않았더라도, 프로세서들(102-1,…, 102-P)로부터의 데이터에 대한 요청에 보다 효율적으로(예를 들어, 인터페이스(106)의 대역폭의 사용 면에서) 응답하기 위해 데이터를 이동할 수 있다. 인터페이스(106)의 대역폭을 보다 효율적으로 활용하는 것에 더하여, 본 발명의 실시예들은 동등한 결과들을 위해 보다 적은 횟수로 인터페이스(106)를 거쳐 전송(예를 들어, 희소 데이터를 전송하는 것보다 더 적은 전달을 필요로 하는, 밀집 데이터를 전송)함으로써 인터페이스(106)의 사용과 관련되는 전력 소비를 감소시킬 수 있다.
도 2는 본 발명의 다수의 실시예에 따른 프로세서(202) 및 주 메모리(204) 간 데이터 이동 동작을 예시한다. 프로세서(202)는 도 1에 예시된 프로세서들(102-1,…, 102-P)과 유사할 수 있다. 프로세서(202)는 캐시 기반 프로세서일 수 있고 예를 들어, 프로세싱 유닛(예를 들어, 중앙 프로세싱 유닛 "CPU")(208), 프로세싱 유닛(208)에 결합되는 제1 레벨 캐시 “L1”(210-1), 제1 레벨 캐시(210-1)에 결합되는 제2 레벨 캐시 “L2”(210-2), 및 제2 레벨 캐시(210-2)에 결합되는 다수의 추가 레벨의 캐시 “LN”(210-L)을 포함할 수 있다. 제1 레벨 캐시(210-1), 제2 레벨 캐시(210-2), 및 추가 레벨들의 캐시(210-L)는 일반적으로 캐시(210)로서 본 명세서에서 지칭될 수 있다. 실시예들은 특정한 수의 레벨들의 캐시에 제한되지 않고 도 2에 예시된 것들보다 더 많거나 더 적게 포함할 수 있다. 캐시(210)는 주 메모리(204)로부터 빈번하게 사용된 데이터를 저장함으로써 주 메모리(204)에 액세스하는 평균 시간을 감소시키기 위해 프로세싱 유닛(208)에 의해 사용될 수 있다. 프로세싱 유닛(208)에 의해 캐시(210)에 액세스하기 위한 레이턴시는 인터페이스(206)를 통해 프로세싱 유닛(208)에 의해 주 메모리(204)에 액세스하기 위한 레이턴시보다 적다. 인터페이스(206)는 도 1에 예시된 인터페이스(106)와 유사할 수 있고 주 메모리(204)는 도 1에 예시된 주 메모리 디바이스들(104-1,…, 104-M)과 유사할 수 있다.
도 2는 또한 캐시(210)에서의 캐시 라인(212)의 표현을 예시한다. 캐시(210) 아래 다이어그램의 각 로우는 캐시 라인을 나타내고 특정한 캐시 라인(212)은 각 블록에서 "x"로 표시될 때 데이터를 갖는 것으로 예시된다. 캐시(210)는 고정 캐시 라인 크기(예를 들어, 캐시 라인에 저장될 수 있는 데이터의 특정한 수의 바이트들)를 가질 수 있다. (예를 들어, 주 메모리(204)로부터) 캐시와의 상호작용들은 데이터의 단일 캐시 라인 크기 부분과 동일한 고정 데이터 증가들로 이어질 수 있다. 본 발명의 다수의 실시예에 따라, 주 메모리(204)는 주 메모리(204)에 분배되는 데이터를 데이터의 단일 캐시 라인 크기 부분(216)으로 수렴함으로써 프로세서(202)로부터의 데이터에 대한 요청에 응답하도록 구성될 수 있다. 도 2에 대하여, 주 메모리(204)에 분배되는 데이터는 주 메모리(204)의 로우들(214)에서 "x" 항목들에 의해 표현된다. 주 메모리는 인터페이스(206)를 거쳐 프로세서(202)로 데이터를 전달하기 전에 데이터의 단일 캐시 라인 크기 부분(216)으로, 도시된 바와 같이, 데이터(x들)를 수렴하도록 구성될 수 있다. 예시된 바와 같이, 요청된 데이터는 요청된 데이터 및 주변 데이터가 복수의 데이터의 캐시 라인 크기 부분을 포함하도록 주 메모리(204)에 비-인접하게 분배될 수 있다. 본 명세서에서 설명되는 바와 같이, 주 메모리(204)는 동작(예를 들어, 수렴 동작)에 대한 타이밍을 제어할 수 있고 프로세서(202)는 데이터에 대한 요청과 관련되는 판독 시간을 인식하지 않을 수 있다(예를 들어, 프로세서는 데이터가 주 메모리(204)로부터 프로세서(202)로 송신될 때를 알거나 제어하지 않을 수 있다).
반대로, 프로세서(202)를 포함되는 주 메모리(204)에 액세스하는 몇몇 종래 접근법은 동작에 대한 타이밍을 제어한다. 게다가, 그러한 데이터에 대한 요청은 데이터를 데이터의 단일 캐시 라인 크기 부분(216)으로 먼저 수렴하지 않고 요청된 데이터(x들)를 함유하는 각 로우(214)를 전달함으로써 주 메모리(204)로부터의 복수의 응답을 받을 수 있었을 것이다. 각 로우(214)는 잠재적으로 비-요청된 데이터(예를 들어, 프로세서(202)에 의해 요청되지 않은 주변 데이터(빈 박스들로 표현된))를 가지고, 인터페이스를 거쳐 개별적으로 송신되었을 것이기 때문에, 그러한 종래 접근법들은 인터페이스(206)의 보다 넓은 대역폭을 소비했을 것이다. 그 후 요청된 데이터(예를 들어, x들)를 분리하고 그 상에서 추가로 작동시키도록 주 메모리(204)로부터 수신된 데이터를 프로세싱(예를 들어, 필터링)하는 것은 프로세서(202)의 책임이었을 것이다. 그러나, 본 발명에 따라, 요청된 데이터는 비-요청된 데이터를 송신하지 않고 프로세서로 송신될 수 있다.
본 발명의 다수의 실시예에 따라, 프로세서로부터의 요청은 다수의 속성에 대한 표시를 포함할 수 있다. 속성은 객체, 요소, 또는 파일의 특성을 정의하는 명세일 수 있다. 속성은 데이터의 주어진 인스턴스에 대한 특정한 값을 지칭할 수 있다. 예를 들어, 주 메모리가 이미지를 포함하는 데이터를 저장하는 경우, 이미지의 속성은 특정한 색상(여기서 특정한 색상이 속성이다)을 가지는 픽셀값들일 수 있다. 주 메모리(204)에 저장된 속성들에 대한 프로세서로부터의 요청에 응답하여, 주 메모리(204)는 데이터 구조가 속성을 포함하는지 여부를 결정하기 위해 주 메모리에 저장된 데이터 구조를 검토할 수 있다. 주 메모리(204)는 데이터가 속성을 포함한다고 결정하는 것에 응답하여 프로세서(202)로 속성을 표시하는 데이터(예를 들어, 이미지에서의 특정한 색상을 표시하는 데이터)를 리턴할 수 있다. 다수의 속성은 주 메모리(204)로부터 수렴될 속성들 또는 주 메모리(204)로 분산될 속성들일 수 있다. 수렴 동작들이 특히 유익할 수 있는 (프로세서(202)로부터의) 요청의 유형의 예들은 탐색 요청들(예를 들어, "데이터 구조에 저장된 데이터 중에서, 기준에 매칭하는 리턴값들을 맞추는", 여기서 "x들"은 기준에 매칭하는 데이터를 나타낸다) 및 필터링 요청들(예를 들어, "데이터 구조에 저장된 데이터 중에서, 주어진 술부가 부울린 참 값을 리턴하는 리턴값들을 맞추는", 여기서 "x들"은 술부에 대한 부울린 참 값을 리턴하는 데이터를 나타낸다)이다.
본 발명의 몇몇 실시예에 따라, 프로세서(202)가 요청된 데이터를 변형한 후, 그것은 주 메모리 디바이스(204)로 변형된 데이터를 리턴할 수 있다. 주 메모리 디바이스(204)는 변형된 데이터(예를 들어, 변형된 데이터의 단일 캐시 라인 크기 부분(216))를 수신하고 요청된 데이터가 수렴되었던 동일한 장소들에서의 주 메모리 디바이스(204)의 데이터 구조에 변형된 데이터가 저장되도록 그것을 분산할 수 있다. 이렇게 하여, 프로그램 가능 제어가 주 메모리(204) 내 데이터 이동 동작들(예를 들어, 수렴 및/또는 분산 동작들)을 통해 제공될 수 있다.
주 메모리(204)(예를 들어, 주 메모리(204)와 관련된 하드웨어 로직)는 데이터가 수렴되는, 주 메모리(204)에서의 장소들이 수렴된 데이터가 프로세서(202)에 의해 해제될 때까지 이용 가능하지 않다는 표시를 제공하도록 구성될 수 있다. 그러한 실시예들은 (예를 들어, 오래된 데이터가 직접 메모리 액세스(DMA) 요청과 같은 다른 요청 또는 다른 프로세서로부터의 요청에 응답하여 전달되지 않도록) 동기화 메커니즘을 제공할 수 있다. 표시는 다른 표시들 중에서도, 테이블, 풀/엠프티 비트, 또는 일련의 베이스일 수 있고 레지스터들일 가능성이 크다.
다수의 실시예에서, 프로세서(202)로부터의 요청은 데이터가 주 메모리(204)에 의해 변형되는 것일 수 있고, 여기서 데이터는 주 메모리(204)의 데이터 구조에 분배된다. 주 메모리(204)(예를 들어, 그것의 하드웨어 로직)는 (예를 들어, 메모리 내 프로세싱(PIM; processing in memory)을 통해) 주 메모리(204) 내 데이터에 대해 변형들을 제공하도록 구성될 수 있다. 요청에 응답하여, 주 메모리(204)는 데이터 구조에 기초하여 주 메모리(204)에서의 데이터 수렴 동작을 고안하고 수행할 수 있다. 주 메모리(204)는 (예를 들어, 메모리 인터페이스(206)를 거쳐 데이터를 전달하지 않고 및/또는 프로세서를 사용하지 않고) 주 메모리에서의 수렴된 데이터 상에서 데이터 변형 동작을 고안하고 수행하도록 구성될 수 있다. 변형 동작의 예는 수렴된 데이터(예를 들어, 수렴된 데이터의 각 유닛)의 값을 조정하는 것을 포함한다. 그러한 예는 장치가 예를 들어, 비디오 카드이고 요청된 변형이 예를 들어, 프로세서(202)가 이미지를 포함하는 데이터 상에서 보다 복잡한 동작을 수행하거나 그것을 주변 디바이스(예를 들어, 모니터)에 전달하기 전 주 메모리(204)에 저장된 이미지에서의 특정한 색상의 휘도를 증가하는 것일 경우 유익할 수 있다. 주 메모리(204)는 변형을 완료한 후 프로세서(202)로 변형된 데이터를 송신하도록 구성될 수 있다. 본 명세서에 설명된 바와 같이, 주 메모리(204)는 프로세서(202)에 독립적으로 주 메모리(204)에 대한 타이밍을 제어할 수 있다. 주 메모리(204)가 직접 프로세서(202) 제어 없이 (데이터를 이동할 뿐만 아니라) 데이터를 변형하는 능력을 포함하는 실시예들에 대해, 주 메모리(204)는 프로세서(202)의 피어(peer)로서 다뤄질 수 있다(예를 들어, 주 메모리(204)는 어드레스 공간을 확장하기 위해 프로세서(202)의 캐시(210)의 확장으로서 다뤄질 수 있다).
도 3은 본 발명의 다수의 실시예에 따라 주 메모리 디바이스(304) 및 다수의 요청 디바이스(302, 318, 321)를 포함하는 컴퓨팅 디바이스(300)의 형태인 장치의 블록도를 예시한다. 요청 디바이스들의 예들은 프로세서(302), DMA 디바이스(318), 및/또는 메모리 유닛(321) 등을 포함할 수 있다. 프로세서(들)(302)는 도 1에 예시된 프로세서들(102-1,…, 102-P)과 유사할 수 있다. 메모리 유닛(321)은 도 1에 예시된 주 메모리(104)와 그리고/또는 주 메모리가 아닌 다른 메모리 유닛과 유사할 수 있다. 컴퓨팅 디바이스(300)는 도 1에 예시된 컴퓨팅 디바이스(100)와 유사할 수 있다. 도 3에서, 하이브리드 메모리 큐브(HMC)인 주 메모리(304)의 구체적인 예에 대해 보다 상세하게 도시된다. 도 3에 예시된 주 메모리 HMC(304)는 도 1에 예시된 주 메모리 디바이스들(104-1,…, 104-M)과 유사할 수 있다.
HMC(304)는 실리콘 관통 비아들(TSV; through silicon vias)을 사용하여 함께 적층되는 다수의 메모리 디바이스(320-1, 320-2, 320-3,…, 320-B)(예를 들어, DRAM 다이) 및 하드웨어 로직 디바이스(322)(예를 들어, 로직 다이, 애플리케이션-특정 집적 회로(ASIC), 다른 디바이스에서의 대응하는 로직 등)를 포함하는 단일 패키지일 수 있으나, 다른 실시예들은 상이할 수 있다(예를 들어, 하드웨어 로직 디바이스(322)는 반드시 메모리 디바이스들(320)과 적층되는 것은 아닐 수 있다). HMC(304) 내 메모리는 서브세트들(예를 들어, 볼트들)(324)로 구조화될 수 있고, 여기서 각 볼트(324)는 기능적으로 및 동작적으로 다른 볼트들(324)에 독립적이다. 각 볼트(324)는 메모리 디바이스들(320)의 각각으로부터의 메모리의 분할을 포함할 수 있다. 각 볼트(324)는 볼트(324)를 위한 메모리 제어기와 유사하게 기능하는 로직 디바이스(322)에서의 하드웨어 로직 유닛(328)(예를 들어, 볼트 제어기)을 포함할 수 있다. 각 볼트 제어기(324)는 복수의 메모리 디바이스(320)의 각각의 서브세트에 결합될 수 있다. 예를 들어, 볼트 제어기(328)는 그 자체의 타이밍 요건을 결정하는 것을 포함하여 볼트(324)를 위한 메모리 동작들을 관리할 수 있다(예를 들어, 프로세서와 같은 요청 디바이스에 의해 관리되지 않고). 볼트 제어기(328)는 프로세서(302)를 가지고 요청들 및 응답들을 위한 다수의 버퍼를 포함할 수 있고 요청들이 프로세서(302)로부터 수신되었던 순서에 대해 비순차적으로 프로세서(302)로 응답들을 송신하기 위해 다수의 버퍼를 이용할 수 있다. 이와 같이, 프로세서(302)는 요청과 관련된 판독 시간을 인식하지 않고 인터페이스를 통해 HMC(304)로 요청을 송신하도록 구성될 수 있다.
도 3은 메모리 디바이스들(320) 및 요청 디바이스들(302, 318, 321) 사이에 결합되는 로직 디바이스(322)의 보다 상세한 뷰의 예시를 포함한다. 로직 베이스(322)는 각 볼트를 위한 메모리 제어 로직(328)(예를 들어, 볼트 제어)을 포함할 수 있다. 볼트 제어기(328)는 볼트들(324)의 기능들을 통합할 수 있는 HMC(304)를 위해 공유 메모리 제어 로직(330)에 결합될 수 있다. 그러나, 볼트들(324)의 각각이 서로 독립적으로 직접 제어될 수 있기 때문에(예를 들어, 제어 타이밍, 액세스 등) 그리고 공유 메모리 제어 로직(330)이 반드시 요청 디바이스들(302, 318, 321)과 인터페이싱(예를 들어, 직접 인터페이싱)하지는 않기 때문에 공유 메모리 제어 로직(330)은 반드시 전통적인 의미의 중앙 메모리 제어기를 포함하지는 않는다. 이와 같이, 몇몇 실시예에서, 컴퓨팅 디바이스(300) 및/또는 주 메모리(304)는 중앙 메모리 제어기를 포함하지 않는다. 메모리 제어 로직(330)은 스위치(332)(예를 들어, 크로스바 스위치)에 결합될 수 있다. 스위치(332)는 볼트들(324)로부터 입력/출력(I/O) 링크들(336)로 집합적 내부 대역폭에 대한 가용성을 제공할 수 있다. 스위치(332)는 요청 디바이스(302, 318, 321)에 대한 I/O 링크들(336)을 제어하는, 인터페이스 제어기들(334)에 결합될 수 있다. 예를 들어, I/O 링크들(336)은 양방향 동시 전송 방식의 직렬 입력/출력 링크들일 수 있다. 로직 디바이스(322)는 주 메모리(304)에 논리적/물리적 인터페이스를 제공할 수 있다.
주 메모리(304)는 프로세서(302), DMA 디바이스(318), 및/또는 메모리 유닛(321) 등과 같은 요청 디바이스들로부터 요청들을 수신할 수 있다. 본 명세서에서 설명된 바와 같이, 몇몇 실시예에서, 주 메모리(304)는 데이터가 수렴되는, 주 메모리(304)에서의 장소들이 수렴된 데이터가 요청 디바이스(302, 318, 321)에 의해 해제될 때까지 이용 가능하지 않다는 표시를 제공하도록 구성될 수 있다. 그러한 실시예들은 (예를 들어, 오래된 데이터가 프로세서(302)에 의해 작동되는 동안에는 그 데이터가 DMA 디바이스(318)로부터의 요청에 응답하여 전달되지 않도록) 동기화 메커니즘을 제공할 수 있다.
도 4는 본 발명의 다수의 실시예에 따른 요청들 및 응답들에 기초한 다수의 어드레스 및 오프셋의 블록도를 예시한다. 요청 디바이스(예를 들어, 다수의 캐시 기반 프로세서)는 주 메모리 디바이스에 대한 요청을 제공할 수 있고, 몇몇 실시예에서, 요청은 주 메모리 디바이스가 요청에 응답할 때까지 요청 디바이스에 의해 버퍼링을 가능하게 하기 위해 태그(448)를 포함할 수 있다. 주 메모리 디바이스는 요청 디바이스로부터의 요청들에 응답하여 동작들의 타이밍을 제어하기 때문에, 요청 디바이스는 주 메모리 디바이스가 요청에 응답할 때, 요청 디바이스가 태그(448)에 기초하여 응답이 어느 요청에 적용되는지를 빠르게 식별할 수 있도록 그것의 요청들을 위한 태그들(448)을 계속 추적하는 것에서 이익을 얻을 수 있다. 주 메모리 디바이스는 데이터 구조(예를 들어, 연결 리스트, 트리, 및 그래프 등)를 저장하고 요청 디바이스로부터의 요청에 응답하여 데이터 구조를 순회하도록 구성될 수 있다. 요청들은 어드레스 기반 요청들(440), 오프셋 기반 요청들(444), 스트라이드 요청들, 및 포인터 기반 요청들 등을 포함할 수 있다. 주 메모리 디바이스는 동일한 것으로 응답하도록 구성될 수 있다(예를 들어, 어드레스 기반 요청(440)은 어드레스 기반 응답(442)을 받을 수 있고 오프셋 기반 요청(444)은 오프셋 기반 응답(446)을 받을 수 있는 등이다).
어드레스 기반 요청은 요청을 식별하는 태그(448), 요청된 요소들의 유형 및/또는 크기에 대한 표시(450)(예를 들어, 다수의 바이트, 워드 등), 요청된 요소들의 수에 대한 표시(452), 및 요소들이 저장되는 다수의 어드레스(454-1,…, 454-N)를 포함할 수 있다. 어드레스 기반 응답은 태그(448) 및 요청에 대응하는 데이터 요소들(456-1,…, 456-N)을 포함할 수 있다.
오프셋 기반 요청은 요청을 식별하는 태그(448), 요청된 요소들의 유형 및/또는 크기에 대한 표시(450)(예를 들어, 다수의 바이트, 워드 등), 베이스 어드레스(458), 요청된 요소들의 수에 대한 표시(452), 및 요소들이 저장되는 다수의 오프셋 인덱스(460-1,…, 460-N)를 포함할 수 있다. 오프셋 기반 응답은 태그(448) 및 요청에 대응하는 데이터 요소들(456-1,…, 456-N)을 포함할 수 있다.
구체적으로 예시되지 않더라도, 스트라이디드 요청은 요청이 요청을 식별하는 태그, 요청된 요소들의 유형 및/또는 크기에 대한 표시(예를 들어, 다수의 바이트, 워드 등), 베이스 어드레스, 및 요청된 요소들의 수에 대한 표시를 포함할 수 있다는 점에서 오프셋 기반 요청과 유사할 수 있다. 그러나, 오프셋들을 포함하는 대신, 스트라이디드 요청은 스트라이드(예를 들어, 다음으로 원하는 어드레스를 찾기 위해 베이스 어드레스 또는 이전에 액세스된 어드레스에 추가될 수 있는 수)를 포함한다. 스트라이디드 응답은 태그 및 요청에 대응하는 데이터 요소들을 포함할 수 있다.
구체적으로 예시되지 않더라도, 포인터 기반 요청은 주 메모리에서의 데이터 구조에 대한 포인터, 다수의 속성(예를 들어, 주 메모리에 의해 데이터 구조로부터 수렴되고 요청 디바이스로 리턴될 다수의 속성)에 대한 표시, 및 역참조될 포인터들의 리스트에 대한 표시(예를 들어, 얼마나 많은 포인터가 역참조될 것인지에 대한 표시를 포함하는), 및 요청에 대한 다수의 조건 및 대응하는 동작을 포함할 수 있다. 주 메모리는 포인터에 따른 데이터 구조, 다수의 속성에 대한 표시, 및 포인터들의 리스트에 대한 표시를 검토하고 대응하는 조건이 충족되는 것에 응답하여 동작을 수행할 수 있다. 주 메모리는 리스트의 말단에 도달될 때까지 또는 임계 수의 포인터들이 역참조될 때까지 포인터들의 리스트를 역참조함으로써 데이터 구조를 검토할 수 있다. 포인터를 역참조하는 것은 포인터에 의해 표시되는 데이터를 검색하는 것(예를 들어, 포인터에 의해 표시되는 주 메모리에서의 장소로부터 데이터를 검색하는 것)을 포함할 수 있다. 데이터 구조를 검토하는 것은 특정한 포인터에 의해 참조되는 데이터 구조가 속성을 포함하는지 여부를 결정하는 것을 포함할 수 있고 주 메모리는 포인터에 의해 참조되는 데이터 구조가 속성을 포함하는지를 결정하는 것에 응답하여 요청 디바이스로 속성을 포함하는 데이터를 리턴할 수 있다. 몇몇 실시예에서, 주 메모리는 포인터에 의해 참조되는 데이터 구조가 속성을 포함한다고 결정하는 것에 응답하여 요청 디바이스로부터의 요청을 복제함으로써 새로운 요청을 생성할 수 있다.
조건들 및 대응하는 동작들의 예들은 데이터가 설정값 또는 검색 키에 매칭하는 것에 응답하여 요청 디바이스로 속성을 포함하는 데이터를 리턴하는 것을 포함한다. 다른 예는 매치에 응답하여 속성을 포함하는 데이터의 원자 업데이트를 수행하는 것을 포함한다. 다른 예는 나머지 수의 포인터들이 센티넬 값(sentinel value)(예를 들어, 동작들이 종료하게 하는 값, 예를 들어, 0)인 것 또는 임계 수의 포인터들이 역참조된 것에 응답하여 요청을 위한 동작들을 종료하는 것을 포함한다. 데이터 구조의 예들은 연결 리스트, 트리, 및 그래프를 포함한다.
이와 같이 구체적으로 예시되지 않더라도, 실행 가능한 명령들을 저장하기 위한 비-일시적 컴퓨팅 디바이스 판독 가능 매체는 예로서, 반도체 메모리 디바이스들, DRAM, HMC, EPROM, EEPROM, 플래시 메모리 디바이스들, 고정, 플로피, 및 착탈 가능한 디스크들과 같은 자기 디스크들, 테이프를 포함하는 다른 자기 매체들, 컴팩트 디스크들(CD들), 디지털 다용성 디스크들(DVD들), 및 블루-레이 디스크들(BD)과 같은 광 매체들을 포함하는, 휘발성 및 비-휘발성 메모리의 모든 형태들을 포함할 수 있다. 지시들은 ASIC들에 의해 보충되거나, 그것들에 통합될 수 있다.
특정한 실시예들이 본 명세서에 예시되고 설명되었으나, 해당 기술분야의 통상의 기술자들은 동일한 결과들을 달성하기 위해 연산되는 배열이 도시된 특정한 실시예들을 대체할 수 있음을 인식할 것이다. 본 개시 내용은 본 발명의 하나 이상의 실시예의 각색들 또는 변형들을 커버하기 위한 것이다. 상기 설명은 예시적인 방식으로 이루어진 것이고, 제한적인 것으로 이루어진 것이 아님을 이해해야 한다. 상기 실시예들, 및 본 명세서에 구체적으로 설명되지 않은 다른 실시예들의 조합은 상기 설명의 리뷰 시 해당 기술분야의 통상의 기술자들에게 분명할 것이다. 본 발명의 하나 이상의 실시예의 범위는 상기 구조들 및 방법들이 사용되는 그 밖의 다른 적용예들을 포함한다. 따라서, 본 발명의 하나 이상의 실시예의 범위는 첨부된 청구항들을 참조하여, 그러한 청구항들에 부여되는 균등물들의 전체 범위와 함께 결정되어야 한다.
상기 상세한 설명에서, 몇몇 피처는 본 발명을 간소화할 목적으로 단일 실시예로 함께 그룹 지어진다. 본 발명의 방법은 본 발명의 개시된 실시예들이 각 청구항에서 명확하게 언급되는 피처들보다 많은 피처를 사용해야 한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 다음의 청구항들이 나타내는 바와 같이, 발명의 청구 대상은 단일 개시된 실시예의 모든 피처보다 적은 데 있다. 이와 같이, 다음 청구항들은 본 명세서에 의해 상세한 설명으로 통합되고, 각 청구항은 그 자체를 개별 실시예로서 주장한다.

Claims (17)

  1. 직접 메모리 액세스(direct memory access: DMA) 디바이스를 포함하는 다수의 요청 디바이스들에 연결된 메모리를 포함하는 디바이스로서,
    상기 메모리는 서로의 상부에 적층된 다수의 메모리 다이들 및 볼트(vault) 제어기들을 포함하는 하드웨어 로직 디바이스가 제공되며,
    상기 다수의 메모리 다이들 및 볼트 제어기들은 하나의 패키지로서 형성되며, 상기 DMA 디바이스를 포함하는 상기 다수의 요청 디바이스들은 상기 패키지 외부에 제공되며,
    상기 다수의 메모리 다이들은 기능적으로 그리고 동작적으로 서로 독립적으로 동작하는 다수의 메모리 볼트들로 분리되며,
    상기 다수의 메모리 볼트들의 각각은 상기 다수의 메모리 다이들 중 특정 메모리 다이의 일부를 차지하며,
    상기 다수의 메모리 볼트들의 각각은 상기 다수의 볼트 제어기들 중 대응하는 볼트 제어기를 포함하며, 상기 다수의 볼트 제어기들은 대응하는 메모리 볼트들의 메모리 동작들을 제어하도록 구성되며,
    상기 메모리에 탑재된 상기 하드웨어 로직 디바이스는, 상기 다수의 요청 디바이스들 중 특정 요청 디바이스로부터의 요청에 응답하여, 상기 하드웨어 로직 디바이스가 상기 다수의 메모리 다이들에 비인접하게(non-contiguously) 분산된 방식으로 저장된 데이터를, 상기 하드웨어 로직 디바이스에 수렴시키고, 상기 수렴된 데이터를 상기 특정 요청 디바이스에 전송하는 방식으로 구성되는, 디바이스.
  2. 청구항 1에 있어서, 상기 데이터는 이미지를 포함하고,
    상기 수렴된 데이터는 상기 이미지의 특정 색상을 나타내는 이미지 데이터인, 디바이스.
  3. 청구항 1에 있어서, 상기 하드웨어 로직 디바이스는 상기 수렴된 데이터를 수정하고 상기 수정된 데이터를 상기 특정 요청 디바이스로 전송하는, 디바이스.
  4. 청구항 2에 있어서, 상기 하드웨어 로직 디바이스는 상기 수렴된 데이터를 수정하고 상기 수정된 데이터를 상기 특정 요청 디바이스로 전송하는, 디바이스.
  5. 청구항 1에 있어서, 상기 하드웨어 로직 디바이스는 상기 분산된 방식으로 저장된 데이터를 단일 캐시 라인 크기의 데이터 부분으로 수렴시키는, 디바이스.
  6. 주 메모리 디바이스로서,
    다수의 동적 랜덤 액세스 메모리(DRAM) 다이들 ― 상기 다수의 DRAM 다이들은 상기 다수의 DRAM 다이들의 각각으로부터의 메모리의 분할(partition)을 각각 포함하는 다수의 볼트(vault)들로 분리되며, 상기 다수의 볼트들의 각각은 기능적으로 그리고 동작적으로 독립적임 ― ; 및
    상기 다수의 DRAM 다이들에 결합된 하드웨어 로직 디바이스를 포함하며,
    상기 하드웨어 로직 디바이스는,
    상기 다수의 DRAM 다이들에 비인접하게(non-contiguously) 분산된 데이터를, 상기 주 메모리 디바이스에 결합된 다수의 요청 디바이스들 중 한 요청 디바이스로부터의 상기 데이터에 대한 요청에 응답하여, 상기 분산된 데이터의 단일 인접 캐시 라인 크기 부분으로 수렴시키고 ― 상기 다수의 요청 디바이스들은 다수의 타입의 요청 디바이스들과 직접 메모리 액세스(DMA) 디바이스를 포함함 ― ;
    상기 하드웨어 로직 디바이스가 상기 요청에 응답하여 언제 상기 분산된 데이터의 상기 단일 인접 캐시 라인 크기 부분으로 전달할 것인지를 결정하도록, 상기 다수의 요청 디바이스들과 독립하여, 상기 데이터를 수렴시키는 타이밍을 제어하며 ― 상기 타이밍 제어는 상기 요청에 대한 액세스 타임, 기록 사이클 타임, 및 판독 사이클 타임을 포함함 ― ; 그리고
    상기 하드웨어 로직 디바이스의 논리적/물리적 인터페이스를 가로질러 상기 분산된 데이터의 상기 단일 인접 캐시 라인 크기 부분을, 상기 요청에 응답하여, 상기 다수의 요청 디바이스들 중 프로세서를 포함하는 상기 요청 디바이스의 캐시 라인에 전달하도록 구성되는, 주 메모리 디바이스.
  7. 청구항 6에 있어서, 상기 하드웨어 로직 디바이스는, 수신된 베이스 어드레스, 수신된 스트라이드(stride), 요청되는 다수의 데이터 요소에 대한 수신된 표시, 및 데이터 요소 크기에 대한 수신된 표시에 따라 상기 데이터를 수렴시키도록 구성되는, 주 메모리 디바이스.
  8. 청구항 6에 있어서, 상기 주 메모리 디바이스는 중앙 메모리 제어기를 포함하지 않는, 주 메모리 디바이스.
  9. 청구항 6에 있어서, 상기 하드웨어 로직 디바이스는 상기 다수의 볼트들 중 대응하는 볼트에 각각 결합되는 복수의 로직 유닛들을 포함하는, 주 메모리 디바이스.
  10. 청구항 6에 있어서, 상기 하드웨어 로직 디바이스의 상기 논리적/물리적 인터페이스는,
    스위치; 및
    상기 스위치에 결합되고 상기 다수의 타입의 요청 디바이스들 중 한 요청 디바이스에 결합되도록 구성되는 다수의 링크들을 포함하는, 주 메모리 디바이스.
  11. 청구항 6에 있어서, 상기 하드웨어 로직 디바이스는 상기 데이터가 수렴된, 상기 다수의 DRAM 다이들에서의 장소들이 상기 수렴된 데이터가 상기 요청이 시작된 상기 다수의 요청 디바이스들 중 한 요청 디바이스에 의해 해제될 때까지 이용가능하지 않다는 표시를 제공하도록 구성되는, 주 메모리 디바이스.
  12. 청구항 6에 있어서, 상기 주 메모리 디바이스는 하이브리드 메모리 큐브(HMC; hybrid memory cube)를 포함하는, 주 메모리 디바이스.
  13. 시스템으로서,
    다수의 캐시 기반 프로세서들을 포함하는 다수의 요청 디바이스들; 및
    다수의 하이브리드 메모리 큐브(HMC: hybrid memory cube)들 ― 상기 HMC들의 각각은 단일 패키지를 형성하도록 함께 적층된 다수의 메모리 다이들 및 하드웨어 로직 디바이스를 포함함 ― 을 포함하며,
    상기 다수의 메모리 다이들은 상기 다수의 메모리 다이들의 각각으로부터의 메모리의 분할을 각각 포함하는 다수의 볼트(vault)들로 분리되며, 상기 다수의 볼트들의 각각은 기능적으로 그리고 동작적으로 독립적이며,
    상기 하드웨어 로직 디바이스는 다수의 볼트 제어기들을 포함하며, 상기 다수의 요청 디바이스들과 상기 다수의 HMC들 중 대응하는 HMC 사이의 인터페이스로서 기능하며, 그리고, 상기 하드웨어 로직 디바이스는,
    상기 다수의 HMC들 중 대응하는 HMC와 관련된 메모리 동작들의 타이밍을 제어하며 ― 상기 타이밍 제어는 상기 다수의 요청 디바이스들 중 한 요청 디바이스로부터 수신된 데이터에 대한 요청을 위한 액세스 타임, 기록 사이클 타임, 및 판독 사이클 타임을 포함함 ― ;
    상기 다수의 HMC들 중 상기 대응하는 HMC에 저장된 데이터 구조를 순회하고 상기 요청과 관련된 상기 다수의 캐시 기반 프로세서들 중 한 프로세서로부터의 명령 스트림과 독립하여 상기 요청에 효율적으로 응답하기 위하여 상기 데이터 구조 내에 데이터를 이동시키고; 그리고
    상기 이동된 데이터를 상기 다수의 요청 디바이스들 중 상기 요청 디바이스에 전달하도록 구성되는, 시스템.
  14. 청구항 13에 있어서, 상기 다수의 캐시 기반 프로세서들은 다수의 벡터 프로세서들을 포함하며,
    상기 다수의 요청 디바이스들은 상기 다수의 HMC들과 관련된 메모리 동작들의 타이밍을 제어하지 않으며,
    상기 다수의 요청 디바이스들의 각각은 상기 다수의 HMC들에 요청을 제공하도록 구성되며,
    상기 요청은 상기 다수의 HMC들이 상기 요청에 응답할 때까지 상기 다수의 벡터 프로세서들에 의한 버퍼링을 허용하기 위한 태그를 포함하는, 시스템.
  15. 청구항 14에 있어서, 상기 다수의 HMC들의 각각은 상기 요청에 응답하여 데이터를 수렴하기 위해 상기 데이터 구조를 순회하도록 구성되며, 상기 요청은 어드레스 기반 요청을 포함하는, 시스템.
  16. 청구항 14에 있어서, 상기 다수의 HMC들의 각각은 상기 요청에 응답하여 데이터를 수렴하기 위해 상기 데이터 구조를 순회하도록 구성되며, 상기 요청은 오프셋 기반 요청을 포함하는, 시스템.
  17. 청구항 13에 있어서, 상기 다수의 HMC들의 각각의 상기 하드웨어 로직 디바이스는 상기 다수의 HMC들 중 상기 대응하는 HMC의 로우 어드레스 스트로브(RAS: row address strobe) 또는 컬럼 어드레스 스트로브(CAS: column address strobe)의 타이밍을 제어하도록 추가로 구성되는, 시스템.
KR1020197026296A 2013-07-03 2014-06-20 메모리 제어 데이터 이동 및 타이밍 KR102115129B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/935,303 2013-07-03
US13/935,303 US11074169B2 (en) 2013-07-03 2013-07-03 Programmed memory controlled data movement and timing within a main memory device
PCT/US2014/043384 WO2015002753A1 (en) 2013-07-03 2014-06-20 Memory controlled data movement and timing

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167002507A Division KR102022751B1 (ko) 2013-07-03 2014-06-20 메모리 제어 데이터 이동 및 타이밍

Publications (2)

Publication Number Publication Date
KR20190107178A KR20190107178A (ko) 2019-09-18
KR102115129B1 true KR102115129B1 (ko) 2020-05-26

Family

ID=52133620

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167002507A KR102022751B1 (ko) 2013-07-03 2014-06-20 메모리 제어 데이터 이동 및 타이밍
KR1020197026296A KR102115129B1 (ko) 2013-07-03 2014-06-20 메모리 제어 데이터 이동 및 타이밍

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167002507A KR102022751B1 (ko) 2013-07-03 2014-06-20 메모리 제어 데이터 이동 및 타이밍

Country Status (7)

Country Link
US (1) US11074169B2 (ko)
EP (2) EP3017372B1 (ko)
JP (1) JP6280214B2 (ko)
KR (2) KR102022751B1 (ko)
CN (1) CN105393227B (ko)
TW (1) TWI537962B (ko)
WO (1) WO2015002753A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558143B2 (en) * 2014-05-09 2017-01-31 Micron Technology, Inc. Interconnect systems and methods using hybrid memory cube links to send packetized data over different endpoints of a data handling device
CN103942162B (zh) * 2014-05-14 2020-06-09 清华大学 在存储器中进行多访问的方法、装置和存储系统
GB2529429B (en) * 2014-08-19 2021-07-21 Origami Energy Ltd Power distribution control system
US10007435B2 (en) 2015-05-21 2018-06-26 Micron Technology, Inc. Translation lookaside buffer in memory
US9971541B2 (en) 2016-02-17 2018-05-15 Micron Technology, Inc. Apparatuses and methods for data movement
US10642496B2 (en) * 2016-04-01 2020-05-05 Sandisk Technologies Inc. Out of order read transfer with host memory buffer
TWI596541B (zh) * 2016-11-30 2017-08-21 財團法人工業技術研究院 資料存取系統、資料存取裝置及資料存取方法
US10318168B2 (en) 2017-06-19 2019-06-11 Micron Technology, Inc. Apparatuses and methods for simultaneous in data path compute operations
US10866900B2 (en) 2017-10-17 2020-12-15 Samsung Electronics Co., Ltd. ISA extension for high-bandwidth memory
US10628295B2 (en) * 2017-12-26 2020-04-21 Samsung Electronics Co., Ltd. Computing mechanisms using lookup tables stored on memory
WO2021081730A1 (zh) * 2019-10-29 2021-05-06 深圳鲲云信息科技有限公司 直接内存访问控制方法、系统、计算机设备及存储介质
US11568907B2 (en) 2020-09-07 2023-01-31 Samsung Electronics Co., Ltd. Data bus and buffer management in memory device for performing in-memory data operations
TWI769080B (zh) * 2021-09-17 2022-06-21 瑞昱半導體股份有限公司 用於同步動態隨機存取記憶體之控制模組及其控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708849A (en) 1994-01-26 1998-01-13 Intel Corporation Implementing scatter/gather operations in a direct memory access device on a personal computer
US20120254591A1 (en) 2011-04-01 2012-10-04 Hughes Christopher J Systems, apparatuses, and methods for stride pattern gathering of data elements and stride pattern scattering of data elements

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5239639A (en) * 1990-11-09 1993-08-24 Intel Corporation Efficient memory controller with an independent clock
US5353415A (en) * 1992-10-02 1994-10-04 Compaq Computer Corporation Method and apparatus for concurrency of bus operations
US5465342A (en) * 1992-12-22 1995-11-07 International Business Machines Corporation Dynamically adaptive set associativity for cache memories
GB2289779B (en) * 1994-05-24 1999-04-28 Intel Corp Method and apparatus for automatically scrubbing ECC errors in memory via hardware
US5790137A (en) * 1995-10-05 1998-08-04 Apple Computer, Inc. System and method for using a frame buffer in cached mode to increase bus utilization during graphics operations
US5802546A (en) 1995-12-13 1998-09-01 International Business Machines Corp. Status handling for transfer of data blocks between a local side and a host side
US5848068A (en) * 1996-03-07 1998-12-08 Lsi Logic Corporation ATM communication system interconnect/termination unit
US6145017A (en) 1997-08-05 2000-11-07 Adaptec, Inc. Data alignment system for a hardware accelerated command interpreter engine
US6223301B1 (en) * 1997-09-30 2001-04-24 Compaq Computer Corporation Fault tolerant memory
US6157398A (en) * 1997-12-30 2000-12-05 Micron Technology, Inc. Method of implementing an accelerated graphics port for a multiple memory controller computer system
WO1999034273A2 (en) * 1997-12-30 1999-07-08 Lsi Logic Corporation Automated dual scatter/gather list dma
US6097402A (en) * 1998-02-10 2000-08-01 Intel Corporation System and method for placement of operands in system memory
US6262937B1 (en) * 1998-03-13 2001-07-17 Cypress Semiconductor Corp. Synchronous random access memory having a read/write address bus and process for writing to and reading from the same
US6473818B1 (en) * 1998-09-09 2002-10-29 Advanced Micro Devices, Inc. Apparatus and method in a network interface device for asynchronously generating SRAM full and empty flags using coded read and write pointer values
US6353438B1 (en) * 1999-02-03 2002-03-05 Artx Cache organization—direct mapped cache
US6754779B1 (en) * 1999-08-23 2004-06-22 Advanced Micro Devices SDRAM read prefetch from multiple master devices
US6452600B1 (en) * 1999-10-28 2002-09-17 Nintendo Co., Ltd. Graphics system interface
US20050060441A1 (en) 2001-03-27 2005-03-17 Schmisseur Mark A. Multi-use data access descriptor
US6728855B2 (en) 2001-09-27 2004-04-27 Seagate Technology Llc Method and system for data path verification
US7380115B2 (en) * 2001-11-09 2008-05-27 Dot Hill Systems Corp. Transferring data using direct memory access
US6754735B2 (en) 2001-12-21 2004-06-22 Agere Systems Inc. Single descriptor scatter gather data transfer to or from a host processor
US6963955B1 (en) * 2002-08-20 2005-11-08 Juniper Networks, Inc. Scattering and gathering data for faster processing
US7149867B2 (en) 2003-06-18 2006-12-12 Src Computers, Inc. System and method of enhancing efficiency and utilization of memory bandwidth in reconfigurable hardware
US7389364B2 (en) 2003-07-22 2008-06-17 Micron Technology, Inc. Apparatus and method for direct memory access in a hub-based memory system
US7191189B2 (en) * 2003-11-20 2007-03-13 Hewlett-Packard Development Company, Lp. Organizing data objects in a storage device
US20050235072A1 (en) * 2004-04-17 2005-10-20 Smith Wilfred A Data storage controller
US20060064517A1 (en) * 2004-09-23 2006-03-23 Honeywell International Inc. Event-driven DMA controller
US7639628B2 (en) 2005-07-14 2009-12-29 University Of Notre Dame Du Lac Response time detection in a network having shared interfaces
JP4846306B2 (ja) 2005-09-09 2011-12-28 富士通セミコンダクター株式会社 半導体記憶装置及びそれを用いた半導体集積回路システム並びに半導体記憶装置の制御方法
WO2007075134A2 (en) * 2005-12-27 2007-07-05 Imsys Technologies Ab Method and system for cost-efficient, high-resolution graphics/image display system
US7761486B2 (en) * 2006-01-03 2010-07-20 Oracle America, Inc. Memory management system that supports both address-referenced objects and identifier-referenced objects
US8074026B2 (en) 2006-05-10 2011-12-06 Intel Corporation Scatter-gather intelligent memory architecture for unstructured streaming data on multiprocessor systems
FR2901618A1 (fr) * 2006-05-24 2007-11-30 St Microelectronics Sa Controleur de dma, systeme sur puce comprenant un tel controleur de dma, procede d'echange de donnees par l'intermediaire d'un tel controleur de dma
US7536511B2 (en) * 2006-07-07 2009-05-19 Advanced Micro Devices, Inc. CPU mode-based cache allocation for image data
US8074022B2 (en) * 2006-09-28 2011-12-06 Virident Systems, Inc. Programmable heterogeneous memory controllers for main memory with different memory modules
JP4476267B2 (ja) * 2006-10-06 2010-06-09 株式会社日立製作所 プロセッサ及びデータ転送ユニット
US20080183984A1 (en) 2007-01-31 2008-07-31 Dale Beucler Memory system with read-modify-write
US8356138B1 (en) * 2007-08-20 2013-01-15 Xilinx, Inc. Methods for implementing programmable memory controller for distributed DRAM system-in-package (SiP)
US9015399B2 (en) * 2007-08-20 2015-04-21 Convey Computer Multiple data channel memory module architecture
US8495301B1 (en) * 2007-11-23 2013-07-23 Pmc-Sierra Us, Inc. System and method for scatter gather cache processing
US8447962B2 (en) 2009-12-22 2013-05-21 Intel Corporation Gathering and scattering multiple data elements
US7984273B2 (en) * 2007-12-31 2011-07-19 Intel Corporation System and method for using a mask register to track progress of gathering elements from memory
US7872936B2 (en) * 2008-09-17 2011-01-18 Qimonda Ag System and method for packaged memory
US8254191B2 (en) * 2008-10-30 2012-08-28 Micron Technology, Inc. Switched interface stacked-die memory architecture
US20100121994A1 (en) 2008-11-10 2010-05-13 International Business Machines Corporation Stacked memory array
US20100162065A1 (en) * 2008-12-19 2010-06-24 Unity Semiconductor Corporation Protecting integrity of data in multi-layered memory with data redundancy
JP2010187180A (ja) 2009-02-12 2010-08-26 Sharp Corp 画像処理装置、画像形成装置、画像処理方法、コンピュータプログラム及び記録媒体
US8364901B2 (en) 2009-02-13 2013-01-29 Micron Technology, Inc. Memory prefetch systems and methods
US8018752B2 (en) 2009-03-23 2011-09-13 Micron Technology, Inc. Configurable bandwidth memory devices and methods
US8198717B1 (en) 2009-05-08 2012-06-12 Micron Technology, Inc. Signal shifting to allow independent control of identical stacked memory modules
JP2011029535A (ja) 2009-07-29 2011-02-10 Elpida Memory Inc 半導体装置
US8612809B2 (en) 2009-12-31 2013-12-17 Intel Corporation Systems, methods, and apparatuses for stacked memory
US9123552B2 (en) 2010-03-30 2015-09-01 Micron Technology, Inc. Apparatuses enabling concurrent communication between an interface die and a plurality of dice stacks, interleaved conductive paths in stacked devices, and methods for forming and operating the same
US10026458B2 (en) 2010-10-21 2018-07-17 Micron Technology, Inc. Memories and methods for performing vector atomic memory operations with mask control and variable data length and data unit size
US9292562B2 (en) * 2010-12-17 2016-03-22 Avago Technologies General Ip (Singapore) Pte. Ltd. Scatter-gather list usage for a configuration database retrieve and restore function and database blocking and configuration changes during a database restore process
US8421245B2 (en) * 2010-12-22 2013-04-16 Intel Corporation Substrate with embedded stacked through-silicon via die
US8547769B2 (en) * 2011-03-31 2013-10-01 Intel Corporation Energy efficient power distribution for 3D integrated circuit stack
US8493089B2 (en) 2011-04-06 2013-07-23 International Business Machines Corporation Programmable logic circuit using three-dimensional stacking techniques
JP2013097410A (ja) 2011-10-28 2013-05-20 Olympus Imaging Corp 画像収集方法
TWI456739B (zh) * 2011-12-13 2014-10-11 Nat Univ Tsing Hua 三維記憶體晶片之控制結構
US9632777B2 (en) * 2012-08-03 2017-04-25 International Business Machines Corporation Gather/scatter of multiple data elements with packed loading/storing into/from a register file entry
US9785436B2 (en) * 2012-09-28 2017-10-10 Intel Corporation Apparatus and method for efficient gather and scatter operations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5708849A (en) 1994-01-26 1998-01-13 Intel Corporation Implementing scatter/gather operations in a direct memory access device on a personal computer
US20120254591A1 (en) 2011-04-01 2012-10-04 Hughes Christopher J Systems, apparatuses, and methods for stride pattern gathering of data elements and stride pattern scattering of data elements

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
J. Thomas Pawlowski, ‘Hybrid Memory Cube(HMC)’, IEEE Hot Chips 23 Symposium, 17~19 Aug. 2011

Also Published As

Publication number Publication date
KR20190107178A (ko) 2019-09-18
US11074169B2 (en) 2021-07-27
JP6280214B2 (ja) 2018-02-14
TW201519243A (zh) 2015-05-16
EP3017372B1 (en) 2019-12-04
EP3017372A4 (en) 2017-03-15
TWI537962B (zh) 2016-06-11
KR20160025613A (ko) 2016-03-08
JP2016532933A (ja) 2016-10-20
WO2015002753A1 (en) 2015-01-08
KR102022751B1 (ko) 2019-09-18
EP3617891A1 (en) 2020-03-04
EP3617891B1 (en) 2022-04-13
EP3017372A1 (en) 2016-05-11
CN105393227B (zh) 2019-03-22
CN105393227A (zh) 2016-03-09
US20150012717A1 (en) 2015-01-08

Similar Documents

Publication Publication Date Title
KR102115129B1 (ko) 메모리 제어 데이터 이동 및 타이밍
TWI740097B (zh) 多層記憶體系統中之遠程直接記憶體存取
US11269780B2 (en) Mapping non-typed memory access to typed memory access
KR102402630B1 (ko) 캐시 제어 인지 메모리 컨트롤러
TWI710912B (zh) 記憶體系統及實施於記憶體系統中之方法,以及非暫時性電腦儲存媒體
US20090313438A1 (en) Distributed cache arrangement
US20170364280A1 (en) Object storage device and an operating method thereof
US11494311B2 (en) Page table hooks to memory types
US11366752B2 (en) Address mapping between shared memory modules and cache sets
EP3380993A1 (en) Systems and methods for robust large-scale machine learning
US20180018583A1 (en) Electronics device performing software training on memory channel and memory channel training method thereof
US20190095336A1 (en) Host computing arrangement, remote server arrangement, storage system and methods thereof
EP3506116A1 (en) Shared memory controller in a data center
EP3443471B1 (en) Systems and methods for managing databases
CN105320608A (zh) 用于控制存储器设备处理访问请求的存储器控制器和方法
US9251048B2 (en) Memory page management
CN104052824B (zh) 分布式缓存方法及系统
US20200301828A1 (en) Technologies for performant column read operations on clustered data in a dimm architecture
US10366007B2 (en) Apparatuses and methods for determining efficient memory partitioning
US20240201858A1 (en) Memory device and scheduling method thereof
US20240184526A1 (en) Memory device and operating method thereof
Boncz et al. Modern hardware
Sobe et al. A Distributed Hash Table using One-sided Communication in MPI

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant