KR20170033407A - 확장된 mesi 프로토콜을 이용하는 멀티 프로세서 시스템의 인터커넥트 트래픽 감소 - Google Patents

확장된 mesi 프로토콜을 이용하는 멀티 프로세서 시스템의 인터커넥트 트래픽 감소 Download PDF

Info

Publication number
KR20170033407A
KR20170033407A KR1020177004794A KR20177004794A KR20170033407A KR 20170033407 A KR20170033407 A KR 20170033407A KR 1020177004794 A KR1020177004794 A KR 1020177004794A KR 20177004794 A KR20177004794 A KR 20177004794A KR 20170033407 A KR20170033407 A KR 20170033407A
Authority
KR
South Korea
Prior art keywords
cache
processor
core
state
flag
Prior art date
Application number
KR1020177004794A
Other languages
English (en)
Inventor
커빙 왕
볜니 볜
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20170033407A publication Critical patent/KR20170033407A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0808Multiuser, multiprocessor or multiprocessing cache systems with cache invalidating means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0817Cache consistency protocols using directory methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0815Cache consistency protocols
    • G06F12/0831Cache consistency protocols using a bus scheme, e.g. with bus monitoring or watching means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/28Using a specific disk cache architecture
    • G06F2212/283Plural cache memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/62Details of cache specific to multiprocessor cache arrangements
    • G06F2212/621Coherency control relating to peripheral accessing, e.g. from DMA or I/O device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

프로세서는, 캐시 라인을 포함하는 제1 캐시를 포함하는 제1 코어, 제2 캐시를 포함하는 제2 코어, 및 제1 캐시의 캐시 라인의 플래그 섹션에 저장된 플래그를, 캐시 라인에 저장된 데이터가 제2 캐시에 의해 공유된 것에 응답하여 프로세서 공유(PS) 상태로 설정하거나 또는 제1 캐시 라인에 저장된 데이터가 제2 프로세서의 제3 캐시에 의해 공유된 것에 응답하여 글로벌 공유(GS) 상태로 설정하는 캐시 제어기를 포함한다.

Description

확장된 MESI 프로토콜을 이용하는 멀티 프로세서 시스템의 인터커넥트 트래픽 감소{REDUCING INTERCONNECT TRAFFICS OF MULTI-PROCESSOR SYSTEM WITH EXTENDED MESI PROTOCOL}
본 개시내용의 실시예는 일반적으로 하나 이상의 프로세서의 캐시들을 관리하는 것에 관한 것으로, 보다 상세하게는 확장된 MESI 프로토콜을 이용하여 멀티 프로세서 시스템의 인터커넥트 패브릭 시스템(interconnect fabric system) 상에서 트래픽을 감소시키는 것에 관한 것이다.
프로세서는 하나 이상의 프로세싱 코어, 캐시, 및 메인 메모리로 향하는 판독 및 기입 동작들을 관리하는 데 사용되는 캐시 제어기를 포함할 수 있다. 캐시 제어기는 캐시들 상의 동작들을 관리하기 위해 프로세싱 코어 및 메인 메모리에 결합된 회로 로직이다. 캐시들은 상이한 타입의 캐시들을 포함할 수 있다. 예를 들어, 프로세싱 코어는 프로세싱 코어에 전용인 L1 캐시를 포함할 수 있다. 다수의 코어의 프로세서는 여러 코어에 의해 공유되는 L2 캐시를 포함할 수 있다. 또한, 프로세서의 모든 코어는 공통 L3 캐시를 공유할 수 있다. 특정 구현 예에서, 온-칩 최종 레벨 캐시(last level cache)(LLC)는 시스템-온-칩(system-on-a-chip)(SoC) 상의 다수의 프로세서에 의해 공유될 수 있다. 각 캐시는 메인 메모리에 저장된 데이터의 로컬 사본들(local copies)과 메인 메모리에 저장된 데이터의 어드레스들을 저장하기 위한 하나 이상의 캐시 라인을 포함할 수 있다. 프로세서의 캐시 제어기는 사본들이 다수의 캐시에 저장되어 있는 공유 데이터의 일관성을 보장하기 위해 캐시 일관성 프로토콜(cache coherence protocol)에 따라 L1-L3 캐시를 관리할 수 있다.
본 개시내용은 아래에 주어지는 상세한 설명과 본 개시내용의 다양한 실시예의 첨부 도면으로부터 더 충분히 이해될 것이다. 그러나 도면은 설명 및 이해를 위한 것일 뿐, 본 개시내용을 특정 실시예들로 한정하는 것으로 고려되어서는 않된다.
도 1은 본 개시내용의 일 실시예에 따른 프로세싱 코어들을 포함하는 프로세싱 디바이스를 도시한다.
도 2는 본 개시내용의 일 실시예에 따른 캐시의 캐시 라인을 도시한다.
도 3은 본 개시내용의 일 실시예에 따른 확장된 MESI 프로토콜의 상태도이다.
도 4a는 본 개시내용의 일 실시예에 따른, 공유 상태들 중 하나에 캐시 라인의 플래그를 할당하는 방법의 블록도이다.
도 4b는 본 개시내용의 일 실시예에 따른, 캐시 라인에 저장된 플래그에 기초하여 캐시 무효화 요청을 브로드캐스트하는 방법의 블록도이다.
도 5a는 본 개시내용의 일 실시예가 사용될 수 있는 이종 코어를 포함하는 프로세서에 대한 마이크로 아키텍처를 도시하는 블록도이다.
도 5b는 본 개시내용의 적어도 하나의 실시예에 따라 구현된 순차적 파이프라인 및 레지스터 리네이밍 스테이지, 비순차적 발행/실행 파이프라인을 도시하는 블록도이다.
도 6은 본 개시내용의 일 실시예에 따른 로직을 포함하는 프로세서에 대한 마이크로 아키텍처의 블록도를 도시한다.
도 7은 본 개시내용의 일 실시예가 사용될 수 있는 시스템을 도시하는 블록도이다.
도 8은 본 개시내용의 일 실시예가 동작할 수 있는 시스템의 블록도이다.
도 9는 본 개시내용의 일 실시예가 동작할 수 있는 시스템의 블록도이다.
도 10은 본 개시내용의 일 실시예에 따른 시스템 온 칩(SoC)의 블록도이다.
도 11은 본 개시내용에 따른 SoC 설계의 실시예의 블록도이다.
도 12는 컴퓨터 시스템의 일 실시예의 블록도를 도시한다.
MESI 프로토콜은 일종의 캐시 일관성 프로토콜이다. MESI 프로토콜 하에서, 캐시 제어기는 캐시 라인을 "수정(Modified)", "독점(Exclusive)", "공유(Shared)" 또는 "무효(Invalid)" 상태 중 하나로 마킹할 수 있다. 수정(M) 상태는 캐시 제어기가, 캐시 라인에 저장된 사본이 메인 메모리에 저장된 데이터로부터 수정되었다고 결정한 것을 나타낸다. 캐시는 (더 이상 유효하지 않은) 메인 메모리 상태의 임의의 다른 판독을 허용하기 전에 장래의 어느 시점에서 메인 메모리에 데이터를 라이트 백(write back)하도록 요구된다. 캐시로부터 메인 메모리로의 라이트-백은 캐시 제어기가 캐시 라인의 상태를 독점(E) 상태로 변경하게 한다. 독점(E) 상태는 캐시 제어기가, 캐시 라인이 메인 메모리에 저장된 데이터와 일치하고 다른 캐시에 의해 공유되지 않는다고 결정한 것을 나타낸다. 캐시 제어기는 다른 프로세싱 코어 또는 다른 프로세서로부터 나오는 메인 메모리에 대한 판독 요청에 응답하여 캐시 라인의 상태를 공유 상태로 변경할 수 있다. 대안적으로, 캐시 제어기는 캐시 라인의 콘텐츠가 다시 기입(written over)될 때 캐시 라인의 상태를 수정 상태로 변경할 수 있다. 공유(S) 상태는 캐시 제어기가, 캐시 라인이 (예를 들어, 다른 프로세싱 코어 또는 다른 프로세서에 의해 판독된 후에) 다른 캐시에 또한 저장된다고 결정한 것을 나타낸다. 무효(I) 상태는 캐시 제어기가, 캐시 라인이 무효(미사용)하다고 결정한 것을 나타낸다.
반도체 기술의 발전으로 점점 더 많은 코어가 프로세서에 통합되었다. 다수의 코어의 경우, 프로세싱 디바이스는 다수의 프로세서를 포함할 수 있고, 각각의 프로세서는 프로세싱 코어의 다수의 코어 클러스터를 포함할 수 있고, 각각의 클러스터는 다수의 프로세싱 코어를 포함할 수 있다. 그러나 MESI 프로토콜은 단일 프로세싱 코어를 갖는 프로세서, 및 다수의 코어 클러스터 및 다수의 프로세싱 코어를 갖는 다수의 프로세서를 동등하게 취급한다. 예를 들어, MESI 프로토콜의 공유(S) 상태는, 데이터 사본들이 상이한 프로세서들 상에 분산되어 있음을 나타낸다. 캐시 라인에 대응하는 메인 메모리 장소에 기입하는 경우, 캐시 제어기는, 다른 캐시들 내의 캐시 라인의 사본들의 상태를 공유(S) 상태에서 무효(I) 상태로 변경하는 것을 요청하기 위한 캐시 무효화 요청 메시지를 모든 프로세서 및 그들 코어에 브로드캐스트할 필요가 있다. 캐시 무효화 요청은 다수의 프로세서가 결합되어 있는 인터커넥트 패브릭 시스템을 통해 송신될 수 있다. 프로세서 및 그 안의 프로세싱 코어의 수가 많을 때, 무효화 요청의 브로드캐스트는 인터커넥트 패브릭 시스템 상에 과도한 트래픽을 야기할 수 있다.
본 개시내용의 실시예는 하나 이상의 프로세서를 포함하는 프로세싱 디바이스를 포함할 수 있으며, 각각의 프로세서는 캐시 일관성 프로토콜을 사용하는 하나 이상의 캐시 제어기에 의해 관리되는 하나 이상의 프로세싱 코어 및 캐시를 포함하고, 캐시 일관성 코어의 상태는 프로세싱 코어들의 그룹화의 상이한 레벨을 고려한다.
일 실시예에서, 프로토콜은 코어가 그에 따라 데이터를 공유하는 상이한 타입들의 공유 상태들을 지원할 수 있다. 일 실시예에서, 확장된 MESI의 공유 상태들은 MESI 프로토콜의 단일 공유(S) 상태보다는, 클러스터 공유(Cluster Share)(CS), 프로세서 공유(Processor Share)(PS) 및 글로벌 공유(Global Share)(GS) 상태의 3가지 공유 상태를 포함할 수 있다. 캐시 라인의 클러스터 공유(CS) 상태는 캐시 라인에 저장된 데이터가, 프로세싱 코어가 속한 코어 클러스터에 의해 포함되는 상이한 프로세싱 코어들의 캐시에 저장된 사본을 가질 수 있지만 코어 클러스터 외부의 임의의 캐시에서는 사본을 갖지 않음을 나타낸다. 일 실시예에서, 프로세싱 코어들의 코어 클러스터들은 프로세서의 제조에 의해 특정된다. 캐시 라인의 프로세서 공유(PS) 상태는, 캐시 라인에 저장된 데이터의 사본이 프로세서 내의 둘 이상의 클러스터의 프로세싱 코어들에서의 캐시에 저장된 사본을 가질 수 있지만 프로세서 외부에서는 사본을 갖지 않음을 나타낸다. 글로벌 공유(GS) 상태는, 캐시 라인에 저장된 데이터가 프로세싱 디바이스 내의 모든 프로세서 및 프로세싱 코어에서의 캐시에 전역적으로(globally) 사본을 가질 수 있음을 나타낸다.
확장된 MESI 프로토콜 하에서, 캐시 제어기는, 캐시 라인이 클러스터 공유(CS), 프로세서 공유(PS), 또는 글로벌 공유(GS) 상태에 있는지에 기초하여 프로세싱 코어들의 표적 그룹에 캐시 메시지(예를 들어, 캐시 무효화 요청)를 브로드캐스트할 수 있고, 그로 인해 인터커넥트 패브릭 시스템 상에서 캐시 메시지를 항상 전역적으로 브로드캐스트함으로써 야기된 트래픽을 줄일 수 있다.
도 1은 본 개시내용의 일 실시예에 따른 프로세싱 코어들을 포함하는 시스템 온 칩(SoC)(100)을 도시한다. SoC(100)는 하나 이상의 프로세서(102A-102B) 및 메인 메모리(104)를 포함할 수 있다. 각각의 프로세서(102A, 102B)는 하나 이상의 프로세싱 코어를 더 포함할 수 있다. 도 1에 도시된 바와 같이, 프로세서(102A)는 프로세싱 코어들(110A-110D)을 포함할 수 있고, 프로세서(102B)는 프로세싱 코어들(110E-110H)을 포함할 수 있다. 각각의 프로세싱 코어들(110A-110H)은 대응하는 프로세싱 코어에 전용인 각각의 L1 캐시(112A-112H)를 포함할 수 있다. 일 실시예에서, 프로세싱 코어들은 프로세서들(102A, 102B)의 제조업자(또는 SoC(100)의 사용자)에 의해 코어 클러스터들로 그룹화될 수 있다. 코어 클러스터는 서로 지리적으로 근접한 클러스터들의 그룹을 포함할 수 있다. 일 실시예에서, 코어 클러스터는 코어 클러스터 내의 코어들에 의해 공유되는 전용 리소스를 향유하는 프로세서의 설계 유닛일 수 있다. 예를 들어, 코어 클러스터의 코어들은 전용 L2 캐시를 공유할 수 있다. 도 1에 도시된 바와 같이, 프로세서(102A)에서, 프로세싱 코어들(110A, 110B)은 코어 클러스터(108A)를 형성할 수 있고, 프로세싱 코어들(110C, 110D)은 코어 클러스터(108B)를 형성할 수 있다. 유사하게, 프로세싱 코어들(110E-100H)은 프로세서(102B)에서 코어 클러스터들(108C, 108D)을 각각 형성할 수 있다.
일 실시예에서, 다수의 프로세싱 코어는 L2 캐시를 공유할 수 있다. 예를 들어, 도 1에 도시된 바와 같이, 클러스터들(108A-108D) 내의 프로세싱 코어들은 각각 L2 캐시(114A-114D)를 공유할 수 있다. 또한, 프로세서들(102A, 102B)은 L3 캐시(도시되지 않음)를 공유할 수 있다.
상이한 레벨의 캐시들(112A-112H, 114A-114D)뿐만 아니라 프로세싱 코어들(110A-110D), 코어 클러스터들(108A-108D) 및 프로세서들(102A-102B)은 인터커넥트 패브릭 시스템에 의해 SoC(100) 내에서 인터커넥트될 수 있다. 인터커넥트 패브릭 시스템은 프로세싱 코어들, 코어 클러스터들 및 프로세서들 간에 명령어 및 데이터를 송신할 수 있다.
일 실시예에서, 인터커넥트 패브릭 시스템은 코어들, 코어 클러스터들 및 프로세서들 사이에 접속하기 위한 상이한 타입들의 인터커넥트들을 포함할 수 있다. 일 실시예에서, 도 1에 도시된 바와 같이, 코어 클러스터(108A)의 프로세싱 코어들(110A-110B)은 코어 간 인터커넥트(inter-core interconnect)(116A)에 의해 접속될 수 있고; 코어 클러스터(108B)의 프로세싱 코어들(110C-110D)은 코어 간 인터커넥트(116B)에 의해 접속될 수 있고; 코어 클러스터(108C)의 프로세싱 코어들(110E-110F)은 코어 간 인터커넥트(116C)에 의해 접속될 수 있고; 코어 클러스터(108D)의 프로세싱 코어들(110G-110H)은 코어 간 인터커넥트(116D)에 의해 접속될 수 있다. 프로세싱 클러스터 내의 프로세싱 코어들 간의 데이터 통신 및 명령어/제어 메시지를 포함하는 코어 간 통신은 코어 간 인터커넥트들(116A-116D)을 통해 송신될 수 있다.
프로세서 상의 코어 클러스터들은 클러스터 간 인터커넥트 패브릭과 접속될 수 있다. 일 실시예에서, 도 1에 도시된 바와 같이, 프로세서(102A)의 코어 클러스터(108A) 및 코어 클러스터(108B)는 클러스터 간 인터커넥트(118A)와 접속될 수 있고, 코어 클러스터(108C) 및 코어 클러스터(108D)는 클러스터 간 인터커넥트(118B)와 접속될 수 있다. 따라서, 제1 코어 클러스터 내의 제1 프로세싱 코어와 동일한 프로세서상의 제2 코어 클러스터 내의 제2 프로세싱 코어 간의 데이터 통신 및 명령어/제어 메시지를 포함하는 통신은 클러스터 간 인터커넥트들(118A, 118B)을 통해 송신될 수 있다. 예를 들어, 프로세싱 코어(110A)는 클러스터 간 인터커넥트(118A)를 통해 프로세싱 코어(110C)와 통신할 수 있다. 코어 간 인터커넥트들(116A-116D) 및 클러스터 간 인터커넥트들(118A-118B) 모두는 온-칩 인터커넥트 패브릭들(on-chip interconnect fabrics)이다. 그러나 코어 간 인터커넥트들(116A-116D)은 클러스터 모듈 상의 인터커넥트들이다. 대조적으로, 클러스터 간 인터커넥트들(118A-118B)은 클러스터 모듈들 사이에 있다(또는 클러스터 모듈로부터 벗어나 있다).
프로세서 간 인터커넥트 패브릭(106)은 프로세싱 코어들(110A-110H)과 메인 메모리(104) 간의 통신을 위해, 그리고 2개의 개별 프로세서 상에 상주하는 2개의 프로세싱 코어 간의 통신을 위해 프로세서들(102A, 102B)과 메인 메모리(104)를 접속시킬 수 있다. 예를 들어, 프로세싱 코어(110A)는 프로세서 간 인터커넥트(106)를 통해 메인 메모리로부터 데이터를 판독하거나 메인 메모리에 데이터를 기입할 수 있다. 또한, 프로세서(102A)의 프로세싱 코어(110A)는 프로세서 간 인터커넥트(106)를 통해 프로세서(102B)의 프로세싱 코어(110E)와 통신할 수 있다. 일 실시예에서, 프로세서 간 인너커넥트(106)는 오프 칩 인터커넥트일 수 있다.
일 실시예에서, 각각의 프로세서(102A, 102B)는 프로세싱 코어들(110A-110H) 및 메인 메모리(104)에 결합된 각각의 캐시 제어기(116A, 116B)를 더 포함할 수 있다. 캐시 제어기들(116A, 116B)은 프로세싱 코어들(110A-110H), 캐시들(112A-112H, 114A-114D) 및 메인 메모리(104) 사이의 인터페이스를 제어하는 회로 로직들이다. 일 실시예에서, 캐시 제어기들(120A, 120B)은 메인 메모리(104)에 대해 발생된 임의의 기입 및/또는 판독 동작을 찾기 위해, 또는 프로세서 상의 캐시들 대신에 SoC(100) 내의 캐시들에서의 캐시 라인들의 임의의 상태 변경들을 찾기 위해 인터커넥트 패브릭 시스템을 모니터링할 수 있다. 도 1에 도시된 바와 같이, 캐시 제어기(120A)는 캐시들(112A-112D) 및 캐시들(114A-114B)에 대한 인터커넥트 패브릭 시스템(코어 간 인터커넥트들(116A-116D), 코어 간 인터커넥트들(118A-118B) 및 프로세서 간 인터커넥트(106)를 포함함)을 모니터링할 수 있고, 캐시 제어기(120B)는 캐시들(112E-112H) 및 캐시들(114C-114D)을 찾기 위해 인터커넥트 패브릭 시스템을 모니터링할 수 있다.
캐시들의 상이한 레벨들(예를 들어, L1-L3)은 메인 메모리에 저장된 데이터에 대한 액세스 시간을 줄이기 위해 메인 메모리(104)에 저장된 데이터의 저장된 로컬 사본들에 대해 이용된다. 각 캐시는 메인 메모리에 저장된 데이터의 단편(a piece)을 저장하기 위한 하나 이상의 캐시 라인을 포함할 수 있다. 도 2는 태그 부(202), 데이터 부(204) 및 플래그 부(206)를 포함하는 예시적인 캐시 라인(200)을 도시한다. SoC(100) 내의 각 캐시는 예시적인 캐시 라인(200)으로서 다수의 캐시 라인을 포함할 수 있다. 데이터 섹션(204)은 메인 메모리에 저장된 대응하는 데이터의 사본을 저장할 수 있다. 태그 섹션(202)은 데이터(204)가 저장되는 메인 메모리의 어드레스를 저장할 수 있다. 플래그(206) 섹션은 캐시 라인(200) 및 메인 메모리 내의 대응하는 데이터에 대한 액세스가 일관되고 정확함을 보장하기 위해 특정 캐시 일관성 프로토콜에 따라 캐시 라인의 상태 표시자를 저장할 수 있다.
액세스 시간을 줄이기 위해, 프로세싱 코어가 메인 메모리의 어드레스로부터 판독할 필요가 있을 때, 프로세싱 코어는, 캐시에 사본이 있는지를 결정하기 위해 다른 프로세서의 프로세싱 코어 또는 캐시를 포함하는 프로세서 내의 캐시를 먼저 체크할 수 있다. 하나 이상의 캐시에 저장된 사본이 있는 경우, 프로세싱 코어는, 메인 메모리로부터의 검색이 종종 더 느리기 때문에 메인 메모리(104)보다는 하나 이상의 캐시에서 사본을 판독한다. 프로세싱 코어가 메인 메모리에서 어드레스에 데이터를 기입할 필요가 있을 때, 프로세싱 코어는 캐시의 캐시 라인에 저장된 데이터의 하나 이상의 사본이 있는지를 체크할 필요가 있을 수 있다. 하나 이상의 캐시 라인에 저장된 사본이 있는 경우, 프로세싱 코어는 캐시 제어기로 하여금 하나 이상의 캐시 라인의 상태를 변경(예를 들어, 무효 상태로 변경) 및/또는 캐시 라인에 저장된 데이터를 업데이트하게 할 필요가 있을 수 있다.
메인 메모리(104)에 저장된 데이터는 하나 이상의 프로세서 내의 상이한 캐시의 상이한 캐시 라인에서 저장된 다수의 사본을 가질 수 있기 때문에, 캐시들과 메인 메모리(104) 간의 데이터 일관성은 캐시 일관성 프로토콜에 따라 유지될 필요가 있다. 이는 하나 이상의 캐시 제어기에 의해 인터커넥트 시스템 패브릭 상의 스누핑(snooping)을 통해 달성될 수 있다. 스누핑은, 캐시가 로컬 사본을 갖고 있는 메모리 장소에 대한 액세스(판독 또는 기입)를 위해 캐시 제어기가 메인 메모리의 어드레스 라인을 모니터링하는 프로세스이다. 도 1에 도시된 바와 같이, 캐시 제어기들(120A, 120B)은 캐시들(110A-110H, 114A-114D)을 대신하여 임의의 판독 또는 기입 동작이 존재하는지를 검출하기 위해 메인 메모리(104)의 어드레스 라인에서의 활동을 모니터링하고 캐시 일관성 프로토콜에 따라 대응하는 캐시 라인의 상태를 설정할 수 있다.
캐시 일관성 프로토콜은 캐시 라인을 마킹하는 데 사용될 수 있는 "수정", "독점", "공유" 및 "무효" 상태들을 포함하는 MESI 프로토콜이다. MESI 프로토콜 하에서, 캐시 라인의 공유(S) 상태는, 캐시 라인에 저장된 데이터가 다른 캐시에 의해 공유된 것(또는 다른 캐시에 사본을 갖는 것)을 나타내지만, 공유 캐시가 동일한 코어 클러스터 또는 동일한 프로세서 또는 다른 프로세서로부터 온 것인지는 알 수 없다. 예를 들어, 캐시 라인에 저장된 데이터의 사본이 캐시(112B)에도 저장되어 있기 때문에 캐시(112A) 내의 캐시 라인이 공유(S) 상태라면, 프로세싱 코어(110A)가 캐시(112A)에 저장된 캐시 라인에 대응하는 메인 메모리의 위치에 기입할 때, 캐시 무효화 요청을 포함하는 스누프는, 모든 캐시들이 하나의 사본을 갖는다면 이들에게 자신의 사본을 무효화하도록 통지하기 위해 SoC(100) 상의 모든 캐시들 (및 그들의 캐시 제어기들)에 전송될 필요가 있다. 이는, 프로세싱 코어(110A)가 어떤 캐시가 공유 캐시인지를 알지 못하기 때문이며, 따라서, 실제로 프로세싱 코어(110A)가 오직 코어 간 인터커넥트(116A)를 통해 캐시(112B)에 통지할 필요가 있을지라도, 프로세싱 코어(110A)는 프로세서 간 인터커넥트(106)를 통해 모든 캐시에 통지해야만 한다. 이와 같이, 불필요한 트래픽은 비 식별 "공유(S)" 상태로 인해 프로세서 간 인터커넥트(106) 상에서 발생된다.
본 개시내용의 실시예는 확장된 MESI 프로토콜에 따라 프로세서의 캐시를 관리하는 캐시 제어기를 포함하는 프로세서를 포함할 수 있다. 확장된 MESI 프로토콜은, 캐시 라인에 저장된 데이터가 어떻게 공유되는지를 식별하기 위해 공유 상태를 둘 이상의 특정 공유 상태로 분할할 수 있다. 일 실시예에서, 확장된 MESI 프로토콜은 캐시 라인에 저장된 데이터가 동일한 코어 클러스터 내의 다른 캐시에 의해 공유되지만 코어 클러스터 외부에서는 공유되지 않음을 나타내는 캐시 라인의 "클러스터 공유"(CS)의 상태를 포함할 수 있다. 예를 들어, 캐시(112A) 내의 캐시 라인에 저장된 데이터가 CS 상태로 마킹되면, 캐시 라인에 저장된 데이터는 코어 클러스터(108A) 내의 캐시들(112B, 114A)에 의해 공유되지만 코어 클러스터(108A) 외부에서는 공유되지 않을 수 있다.
일 실시예에서, 확장된 MESI 프로토콜은, 캐시 라인에 저장된 데이터가 동일한 프로세서 내의 다른 코어 클러스터에서의 다른 캐시에 의해 공유될 수 있지만 프로세서 외부에서는 공유되지 않음을 나타내는 캐시 라인의 "프로세서 공유"(PS)의 상태를 더 포함할 수 있다. 예를 들어, 캐시(112A) 내의 캐시 라인에 저장된 데이터가 PS 상태로 마킹되면, 캐시 라인에 저장된 데이터는 캐시들(112C, 112D, 116B, 112B 또는 114A)에서 공유되지만 프로세서(102A) 외부에서는 공유되지 않을 수 있다.
일 실시예에서, 확장된 MESI 프로토콜은, 캐시 라인에 저장된 데이터가 다른 프로세서에 캐시를 포함하는 SoC(100) 내의 임의의 캐시에 의해 공유될 수 있음을 나타내는 캐시 라인의 "글로벌 공유"(GS)의 상태를 더 포함할 수 있다. 예를 들어, 캐시(112A)의 캐시 라인에 저장된 데이터가 GS 상태로 마킹되면, 데이터는 캐시들 중 임의의 캐시 내의 캐시 라인에 의해 공유될 수 있다.
CS, PS 및 GS 상태들에 추가하여, 일 실시예에서, 확장된 MESI 프로토콜은 "수정"(M), "독점"(E) 및 "무효"(I) 상태들을 또한 포함할 수 있다. MESI 프로토콜과 유사하게, M 상태는, 캐시 라인에 저장된 데이터가 메인 메모리(104)에 저장된 사본으로부터 수정되었고 따라서 향후에 메인 메모리에 라이트 백할 필요가 있음을 나타낸다. E 상태는, 캐시 라인에 저장된 데이터가 다른 캐시들에 의해 공유되지 않고 메인 메모리(104)와 일치함을 나타낸다. I 상태는, 메인 메모리에 저장된 대응하는 데이터가 다시 기입되었기 때문에 캐시 라인에 저장된 데이터가 유효하지 않음을 나타낸다.
공유 상태들을 클러스터 공유, 프로세서 공유 및 글로벌 공유로 분류하기 때문에, 캐시 제어기들(120A, 120B)은 항상 전역적으로 브로드캐스트하는 대신에 공유 상태들에 기초하여 특정 캐시 관리 요청(예를 들어, 캐시 무효화 요청)을 선택된 인터커넥트들에 전송할 수 있다. 이는 인터커넥트 패브릭 시스템 상의 스누프 트래픽을 감소시킬 수 있다. 일 실시예에서, 캐시 라인이 CS 상태로 마킹된 경우, 캐시 라인에 대응하는 어드레스에서 메인 메모리(104)에 저장된 데이터를 다시 기입하라는 명령어를 수신한 것에 응답하여, 캐시 제어기는 캐시 무효화 요청을 코어 간 인터커넥트들을 통해 코어 클러스터 내의 캐시들에 브로드캐스트할 수 있다. 예를 들어, 캐시(112A) 내의 캐시 라인이 CS 상태로 마킹되고 캐시 제어기(120A)가 캐시 라인에 대응하는 위치에서 메인 메모리(104) 내의 코어(110A)에 의한 기입 동작을 검출하면, 캐시 제어기(120)는 캐시 무효화 요청을 코어 간 인터커넥트(114A)를 통해 캐시들(112B, 114A)에 전송할 수 있다. 이러한 방식으로, 스누프 트래픽은 클러스터(108A) 내에 제한된다.
일 실시예에서, 캐시(112A) 내의 캐시 라인이 PS 상태로 마킹되고 캐시 제어기(120A)가 캐시 라인에 저장된 어드레스에 대응하는 위치에서 메인 메모리(104) 내의 코어(110A)에 의한 기입 동작을 검출하면, 캐시 제어기(120)는 캐시 무효화 요청을 클러스터 간 인터커넥트(118A)를 통해 프로세서(102A) 내의 캐시들(112B-112D, 114A-114B)에 전송할 수 있다. 이러한 방식으로, 스누프 트래픽은 프로세서(102A) 내에 제한된다.
캐시 히트(cache hit)는 캐시 라인이 자신의 상태를 확장된 MESI 상태들 중 하나로 변경하게 할 수 있다. 캐시 히트는 캐시 라인에 대응하는 메인 메모리 내의 위치에서 다른 캐시로부터의 판독 프로브(read probe)이다. 데이터를 요청자에게 제공하기 전에, 캐시 제어기는 캐시 라인의 현재 상태 및 캐시 히트의 요청자의 위치에 따라 캐시 라인의 상태를 CS, PS 또는 GS 상태 중 하나로 설정할 수 있다. 요청자의 신원은 기입 프로브의 일부일 수 있다.
도 3은 확장된 MESI 프로토콜의 상이한 상태들 간의 전이를 도시한 상태도이다. 일 실시예에서, 캐시 라인의 현재 상태가 "독점"(E)이면, 캐시 제어기는, 캐시 제어기가 캐시 히트를 검출하고 동일한 코어 클러스터 내의 다른 캐시가 캐시 히트의 발신자인 것을 식별하는 것에 응답하여 상태를 "클러스터 공유"(CS)로 변경하거나, 또는 캐시 제어기가 캐시 히트를 검출하고 코어 클러스터 외부에 있지만 동일한 프로세서 내에 있는 다른 캐시가 캐시 히트의 발신자임을 식별하는 것에 응답하여 상태를 "프로세서 공유"(PS)로 변경하거나, 또는 캐시 제어기가 캐시 히트를 검출하고 다른 프로세서 내의 캐시가 캐시 히트의 발신자임을 식별하는 것에 응답하여 상태를 "글로벌 공유"(GS)로 변경할 수 있다.
일 실시예에서, 캐시 라인의 현재 상태가 CS인 경우, 캐시 제어기는 코어 클러스터 외부에 있지만 동일한 프로세서 내에 있는 다른 캐시로부터 캐시 히트를 검출하는 것에 응답하여 상태를 PS로 변경하거나, 또는 다른 프로세서의 캐시 히트에 응답하여 상태를 GS로 변경할 수 있다.
일 실시예에서, 캐시 라인의 현재 상태가 PS인 경우, 캐시 제어기는 다른 프로세서로부터의 캐시 히트에 응답하여 상태를 GS로 변경할 수 있다. 그러나 동일한 캐시 클러스터 내의 다른 캐시로부터의 캐시 히트는 캐시 라인의 상태를 변경하지 않는다.
일 실시예에서, 캐시 라인이 CS, PS 또는 GS 상태들 중 하나에 있으면, 기입 히트(즉, 메모리에 전송되지 않은 콘텐츠를 갖는 캐시로의 기입)를 캐시에서 검출한 것에 응답하여, 캐시 제어기는 캐시 라인에 저장된 데이터의 사본의 무효화를 요청하기 위한 모든 캐시에 대한 캐시 무효화 요청을 클러스터에, 프로세서에, 또는 전역적으로 먼저 브로드캐스트할 수 있다. 그 후, 캐시 제어기는 프로세싱 코어가 캐시 라인에 기입하고 캐시 라인의 플래그를 "수정"(M)으로 변경하도록 허용할 수 있다. 캐시 무효화 요청의 브로드캐스트가 캐시 클러스터에서, 프로세서에서 또는 전역적으로 캐시를 선택적으로 목표 대상으로 삼고 있기 때문에 인터커넥트 패브릭 시스템 상의 스누핑 트래픽은 감소될 수 있다.
일 실시예에서, 캐시 라인이 CS, PS 또는 GS 상태들 중 하나에 있다면, 캐시 라인에 저장된 사본을 무효화하기 위한 캐시 무효화 요청을 검출한 것에 응답하여, 캐시 제어기는 캐시 라인의 플래그를 CS, PS 또는 GS에서 "무효"(I)로 변경할 수 있다.
도 4a는 본 개시내용의 일 실시예에 따른 공유 상태들 중 하나에 캐시 라인의 플래그를 할당하는 방법의 블록도이다. 방법(400)은 하드웨어(예로서, 회로, 전용 로직, 프로그래밍 가능 로직, 마이크로코드 등), 소프트웨어(예로서, SoC, 범용 컴퓨터 시스템, 또는 전용 머신 상에서 실행하는 명령어들), 펌웨어, 또는 이들의 조합을 포함할 수 있는 프로세싱 로직에 의해 수행될 수 있다. 일 실시예에서, 방법(400)은 도 1에 도시된 바와 같이 캐시 제어기들(120A-120B)의 로직을 처리함으로써 부분적으로 수행될 수 있다.
설명의 단순화를 위해, 방법(400)은 일련의 동작들로서 도시되고 설명되어 있다. 그러나 본 개시내용에 따른 동작들은, 다양한 순서로 및/또는 동시에, 그리고 본 명세서에 제시되고 설명되지 않은 다른 동작들과 함께 일어날 수 있다. 또한, 도시된 모든 동작들이 개시된 주제에 따른 방법(400)들을 구현하기 위해 수행되는 것은 아닐 수 있다. 게다가, 본 기술분야의 통상의 기술자들은 방법(400)이 대안적으로 상태도 또는 이벤트들을 통해 일련의 상호 관련된 상태들로서 표현될 수 있다는 것을 이해하고 알 것이다.
도 4a를 참조하면, 402에서 동작이 시작된다. 404에서, 프로세서의 캐시 제어기는 프로세서 내의 코어의 캐시 라인에 저장된 데이터의 판독 요청을 찾기 위해 프로세싱 디바이스의 인터커넥트 패브릭 시스템을 모니터링할 수 있다. 캐시 라인이 요청된 데이터를 포함한다면, 캐시 제어기는 캐시 히트를 검출하고, 메모리로부터 데이터를 검색하지 않도록 요청자에게 데이터를 제공할 필요가 있을 수 있다. 요청은 프로세서 또는 다른 프로세서의 제2 코어에 의해 메인 메모리를 판독하려는 시도에 응답하여 생성될 수 있다. 메인 메모리로부터 데이터를 검색하는 대신, (다른 캐시 제어기 또는 동일한 캐시 제어기를 통한) 제2 코어는 로컬 캐시에 저장된 데이터의 사본을 검색하기 위한 판독 프로브를 SoC 내의 캐시에 먼저 전송할 수 있다.
요청을 검출한 것에 응답하여, 406에서, 캐시 제어기는 판독 요청이 어디서 오는 것인지를 결정할 수 있다. 일 실시예에서, 캐시 제어기는 인터커넥트 패브릭 시스템으로부터 수신된 스누프(또는 판독 프로브)에 기초하여 요청의 요청자의 신원을 결정할 수 있다. 스누프는 요청 프로세서의 식별 및 요청 프로세서 내부의 요청 코어의 식별을 포함할 수 있다.
판독 요청이 수신 캐시의 동일한 코어 클러스터 내에 있는 요청 코어로부터 온 것이라는 결정에 응답하여, 412에서, 캐시 제어기는 캐시 라인의 플래그 섹션에 저장된 플래그를 "독점"에서 "클러스터 공유"로 설정할 수 있다. 판독 요청이 동일한 프로세서 내의 다른 코어 클러스터에서의 코어로부터 온 것이라는 결정에 응답하여, 410에서, 캐시 제어기는 캐시 라인의 플래그 섹션에 저장된 플래그를 "독점" 또는 "클러스터 공유"에서 "프로세서 공유"로 설정할 수 있다. 판독 요청이 다른 프로세서 내의 코어로부터 온 것이라는 결정에 응답하여, 408에서, 캐시 제어기는 캐시 라인의 플래그 섹션에 저장된 플래그를 "독점", "클러스터 공유" 또는 "프로세서 공유"에서 "글로벌 공유"로 설정할 수 있다.
캐시 라인의 플래그 섹션을 "클러스터 공유", "프로세서 공유" 또는 "글로벌 공유" 중 하나로 설정한 후에, 414에서, 캐시 제어기는 캐시 라인에 저장된 데이터를 요청자에게 송신하여 요청자의 캐시에 저장할 수 있다. 캐시 제어기는 "클러스터 공유"에 대한 코어 간 인터커넥트, "프로세서 공유"에 대한 클러스터 간 인터커넥트 및 "글로벌 공유"에 대한 프로세서 간 인터커넥트 상에서 데이터를 송신할 수 있다.
도 4b는 본 개시내용의 일 실시예에 따른 캐시 라인에 저장된 플래그에 기초하여 캐시 무효화 요청을 브로드캐스트하는 방법의 블록도이다. 방법(420)은 하드웨어(예로서, 회로, 전용 로직, 프로그래밍 가능 로직, 마이크로코드 등), 소프트웨어(예로서, 프로세싱 디바이스, 범용 컴퓨터 시스템, 또는 전용 머신 상에서 실행하는 명령어들), 펌웨어, 또는 이들의 조합을 포함할 수 있는 프로세싱 로직에 의해 수행될 수 있다. 일 실시예에서, 방법(400)은 도 1에 도시된 바와 같이 캐시 제어기들(120A-120B)의 로직을 처리함으로써 부분적으로 수행될 수 있다.
설명의 단순화를 위해, 방법(400)은 일련의 동작들로서 도시되고 설명되어 있다. 그러나, 본 개시내용에 따른 동작들은, 다양한 순서로 및/또는 동시에, 그리고 본 명세서에 제시되고 설명되지 않은 다른 동작들과 함께 발생할 수 있다. 또한, 도시된 모든 동작들이 개시된 주제에 따른 방법(400)들을 구현하기 위해 수행되는 것은 아닐 수 있다. 게다가, 본 기술분야의 통상의 기술자들은 방법(420)이 대안적으로 상태도 또는 이벤트들을 통해 일련의 상호 관련된 상태들로서 표현될 수 있다는 것을 이해하고 알 것이다.
도 4b를 참조하면, 422에서 동작들이 시작된다. 424에서, 프로세서 내부의 코어 캐시의 캐시 제어기는 캐시 라인에 저장된 데이터의 사본을 다시 기입하는 요청을 수신할 수 있다. 기입 동작은 캐시 라인과 메인 메모리에 저장된 데이터 간에 불일치를 만들 수 있다. 426에서, 캐시 제어기는 캐시 라인의 플래그 섹션에 저장된 플래그를 결정할 수 있다. 플래그가 "독점" 또는 "수정"을 나타내면, 캐시 라인에 저장된 데이터는 다른 캐시에 저장된 사본을 갖지 않는다. 그러나 플래그가 공유 상태들 중 하나를 나타내는 경우, 캐시 제어기는 플래그 섹션의 플래그에 기초하여 이들 공유 캐시에 캐시 무효화 요청을 전송할 필요가 있을 수 있다.
플래그 섹션의 플래그가 "클러스터 공유"라는 결정에 응답하여, 432에서, 캐시 제어기는 캐시 무효화 요청을 코어 간 인터커넥트 상의 코어 클러스터 내의 모든 캐시에 전송할 수 있다. 플래그 섹션의 플래그가 "프로세서 공유"라는 결정에 응답하여, 428에서, 캐시 제어기는 캐시 무효화 요청을 클러스터 간 인터커넥트 상의 프로세서 내의 모든 캐시에 전송할 수 있다. 플래그 섹션의 플래그가 "글로벌 공유"라는 결정에 응답하여, 430에서, 캐시 제어기는 캐시가 상주하는 SoC의 모든 캐시에 캐시 무효화 요청을 전송할 수 있다. 이런 방식으로, 캐시 무효화 요청은 공유 상태에 따라 특정 도메인을 목표 대상으로 하고, 그로 인해 스누프 트래픽을 감소시킨다. 캐시 무효화 요청을 전송한 후에, 434에서, 캐시 제어기는 캐시 라인의 플래그 섹션의 플래그를 "수정"으로 설정할 수 있다.
일 실시예에서, 캐시 일관성 프로토콜은 "수정", "독점", "클러스터 공유", "프로세서 공유", "글로벌 공유" 및 "무효" 상태 이외의 추가 상태를 포함할 수 있다. 본 개시내용의 일 실시예에 따르면, 캐시 일관성 프로토콜은, "포워드" 상태로 플래그된 하나의 캐시 라인이 데이터의 요청자에게 데이터를 포워딩할 책임이 있음을 나타내는 추가 "포워드(Forward)"(F) 상태를 포함할 수 있다. 이러한 방식으로, 요청자는 데이터를 보유한 상이한 캐시 라인으로부터 동일한 데이터의 다수의 사본을 수신하기보다는 "포워드"로 플래그된 하나의 캐시 라인으로부터 하나의 사본만을 수신한다. 일 실시예에서, "포워드" 상태는 "클러스터 포워드(Cluster Forward)"(CF), "프로세서 포워드(Processor Forward)"(PF) 또는 "글로벌 포워드(Global Forward)"(GF)로 분할될 수 있으므로, 캐시 제어기는 요청자가 코어 클러스터 내에 있는지, 프로세서 내에 있는지 또는 다른 프로세서로부터 온 것인지에 기초하여 데이터를 포워드할지를 결정할 수 있다. 이러한 방식으로, 캐시 제어기는 가장 효율적인 캐시를 이용하여 데이터를 포워드할 수 있다.
본 개시내용의 다른 실시예에 따르면, 캐시 일관성 프로토콜은, 캐시가 캐시 라인의 사본을 갖는 여러 캐시 중 하나이지만 캐시 라인을 변경하기 위한 독점 권리를 갖는 것을 나타내는 추가 "소유(Owned)" 상태를 포함할 수 있다. "소유" 상태를 갖는 캐시는 캐시 라인을 공유하는 모든 다른 캐시에 그 변경을 브로드캐스트할 필요가 있을 수 있다. 일 실시예에서, "소유" 상태는 또한, 캐시 라인이 "클러스터 소유", "프로세서 소유" 또는 "글로벌 소유"에 있는지에 따라 캐시 제어기가 코어 클러스터에서, 프로세서에서 또는 전역적으로 캐시 라인에 변경을 브로드캐스트하도록 "클러스터 소유(Cluster Owned)"(CO), "프로세서 소유(Processor Owned)"(PO) 또는 "글로벌 소유(Global Owned)"(GO)로 분할될 수 있다.
도 5a는 본 개시내용의 일 실시예에 따른, 이종 코어들을 포함하는 프로세싱 디바이스를 구현하는 프로세서(500)에 대한 마이크로 아키텍처를 도시하는 블록도이다. 구체적으로는, 프로세서(500)는 본 개시내용의 적어도 하나의 실시예에 따른, 프로세서에 포함될 순차적 아키텍처 코어(in-order architecture core) 및 레지스터 리네이밍 로직(register renaming logic), 비순차적 발행/실행 로직(out-of-order issue/execution logic)을 나타낸다.
프로세서(500)는 실행 엔진 유닛(550)에 결합된 프론트 엔드 유닛(front end unit)(530)을 포함하고, 둘 다는 메모리 유닛(570)에 결합되어 있다. 프로세서(500)는 축소 명령어 세트 컴퓨팅(reduced instruction set computing)(RISC) 코어, 복합 명령어 세트 컴퓨팅(complex instruction set computing)(CISC) 코어, 매우 긴 명령어 워드(very long instruction word)(VLIW) 코어, 또는 하이브리드 또는 대안의 코어 타입을 포함할 수 있다. 또 다른 옵션으로서, 프로세서(500)는, 예를 들어 네트워크 또는 통신 코어, 압축 엔진, 그래픽 코어 등과 같은 특수 목적 코어를 포함할 수 있다. 일 실시예에서, 프로세서(500)는 멀티 코어 프로세서일 수 있거나 멀티 프로세서 시스템의 일부일 수 있다.
프론트 엔드 유닛(530)은 명령어 캐시 유닛(534)에 결합된 분기 예측 유닛(532)을 포함하고, 이 명령어 캐시 유닛은 명령어 변환 색인 버퍼(translation lookaside buffer)(TLB)(536)에 결합되고, 이 명령어 변환 색인 버퍼는 명령어 페치 유닛(538)에 결합되고, 이 명령어 페치 유닛은 디코드 유닛(540)에 결합된다. 디코드 유닛(540)(디코더라고도 알려짐)은 명령어들을 디코딩할 수 있고, 원래의 명령어들로부터 디코딩되거나, 원래의 명령어들을 다른 방식으로 반영하거나, 원래의 명령어들로부터 도출되는 하나 이상의 마이크로-연산(micro-operation)들, 마이크로-코드 엔트리 포인트들, 마이크로명령어들, 다른 명령어들, 또는 기타 제어 신호들을 출력으로서 생성할 수 있다. 디코더(540)는 상이한 다양한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘의 예는 룩업 테이블, 하드웨어 구현, 프로그램 가능 로직 어레이들(PLAs), 마이크로코드 판독 전용 메모리들(ROMs) 등을 포함하지만 이에 한정되지 않는다. 명령어 캐시 유닛(534)은 메모리 유닛(570)에 추가로 결합된다. 디코드 유닛(540)은 실행 엔진 유닛(550) 내의 리네임/할당기 유닛(552)에 결합된다.
실행 엔진 유닛(550)은 리타이어먼트 유닛(retirement unit)(554) 및 하나 이상의 스케줄러 유닛(들)(556)의 세트에 결합되는 리네임/할당기 유닛(552)을 포함한다. 스케줄러 유닛(들)(556)은 예약 스테이션(RS), 중심 명령어 윈도우 등을 포함하는 임의의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(556)은 물리적 레지스터 파일(들) 유닛(들)(558)에 결합된다. 물리적 레지스터 파일(들) 유닛들(558) 각각은 하나 이상의 물리적 레지스터 파일들을 나타내며, 이들 중 상이한 파일들은 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점 등과 같은 하나 이상의 상이한 데이터 타입, 상태(예를 들어, 실행할 다음 명령어의 어드레스인 명령어 포인터) 등을 저장한다. 물리적 레지스터 파일(들) 유닛(들)(558)은 레지스터 리네이밍 및 비순차적 실행이 (예를 들어, 재정렬 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하고; 미래 파일(들), 이력 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하고; 레지스터 맵 및 레지스터들의 풀을 사용하는 등으로) 구현될 수 있는 다양한 방식을 예시하기 위해 리타이어먼트 유닛(554)에 의해 중첩된다.
일 구현에서, 프로세서(500)는 도 2와 관련하여 설명된 프로세서(202)와 동일할 수 있다.
일반적으로, 아키텍처 레지스터들은 프로세서 외부로부터 또는 프로그래머의 관점으로부터 가시적이다. 레지스터는 임의의 알려진 특정 타입의 회로로 제한되지 않는다. 본 명세서에 설명된 바와 같이 데이터를 저장하고 제공할 수 있는 한, 다양한 상이한 타입의 레지스터들이 적절하다. 적절한 레지스터의 예는 전용 물리적 레지스터, 레지스터 리네이밍을 이용하는 동적으로 할당된 물리적 레지스터, 전용 및 동적으로 할당된 물리적 레지스터들의 조합 등을 포함하지만 이에 제한되지 않는다. 리타이어먼트 유닛(554) 및 물리적 레지스터 파일(들) 유닛(들)(558)은 실행 클러스터(들)(560)에 결합된다. 실행 클러스터(들)(560)는 하나 이상의 실행 유닛(562)의 세트 및 하나 이상의 메모리 액세스 유닛(564)의 세트를 포함한다. 실행 유닛들(562)은 다양한 연산들(예컨대, 시프트, 덧셈, 뺄셈, 곱셈)을 수행하고 다양한 타입의 데이터(예컨대, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 연산할 수 있다.
일부 실시예들은 특정 기능들이나 기능들의 세트들에 전용의 복수의 실행 유닛을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛, 또는 모두가 모든 기능들을 수행하는 복수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(556), 물리적 레지스터 파일(들) 유닛(들)(558), 및 실행 클러스터(들)(560)는 가능한 복수인 것으로 도시되는데, 그 이유는 특정 실시예들이 특정 타입들의 데이터/연산들에 대한 개별 파이프라인들(예를 들어, 자신들의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛, 및/또는 실행 클러스터를 각각 갖는, 스칼라 정수 파이프라인, 스칼라 부동 소수점/팩킹된 정수/팩킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 메모리 액세스 파이프라인 - 그리고 개별 메모리 액세스 파이프라인의 경우, 이러한 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(564)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 개별 파이프라인들이 사용되는 경우, 이들 파이프라인 중 하나 이상은 비순차적 발행/실행일 수 있고 나머지는 순차적일 수 있다는 점도 이해해야 한다.
메모리 액세스 유닛들(564)의 세트는 메모리 유닛(570)에 결합되고, 이 메모리 유닛(570)은, 몇 가지 예를 들자면, 데이터 프리페처(580), 데이터 TLB 유닛(572), 데이터 캐시 유닛(data cache unit)(DCU)(574), 및 레벨 2(L2) 캐시 유닛(576)을 포함할 수 있다. 일부 실시예들에서, DCU(574)는 또한 제1 레벨 데이터 캐시(L1 캐시)라고도 알려졌다. DCU(574)는 다수의 미해결 캐시 미스(cache miss)를 처리할 수 있고, 인입하는 스토어(store)들 및 로드(load)들을 계속하여 서비스할 수 있다. 이는 또한 캐시 일관성을 유지하는 것을 지원할 수 있다. 데이터 TLB 유닛(572)은 가상 및 물리적 어드레스 공간들을 맵핑함으로써 가상 어드레스 변환 속도를 개선하는데 사용되는 캐시이다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛들(564)은 로드 유닛(load unit), 스토어 어드레스 유닛(store address unit), 및 스토어 데이터 유닛(store data unit)을 포함할 수 있으며, 이들 각각은 메모리 유닛(570) 내의 데이터 TLB 유닛(572)에 결합된다. L2 캐시 유닛(576)은 하나 이상의 다른 레벨의 캐시에 그리고 궁극적으로는 메인 메모리에 결합될 수 있다.
일 실시예에서, 데이터 프리페처(580)는 프로그램이 어느 데이터를 소비할 것인지를 자동으로 예측함으로써 데이터를 추론적으로 DCU(574)에 로드/프리페치한다. 프리페칭은 메모리 계층구조(memory hierarchy)(예컨대, 하위 레벨 캐시들 또는 메모리)의 하나의 메모리 장소에 저장된 데이터를, 데이터가 프로세서에 의해 실제로 요구되기 전에, 프로세서에 더 가까운(예컨대, 보다 낮은 액세스 대기 시간을 가져오는) 상위 레벨 메모리 장소로 전송하는 것을 지칭할 수 있다. 보다 구체적으로는, 프리페칭은, 프로세서가 반환되고 있는 특정 데이터에 대한 요구를 발행하기 전에, 하위 레벨 캐시들/메모리 중 하나로부터 데이터 캐시 및/또는 프리페치 버퍼로의 데이터의 조기 검색을 지칭할 수 있다.
프로세서(500)는 하나 이상의 명령어 세트들(예컨대, (보다 최신 버전들이 추가된 소정의 확장들을 갖는) x86 명령어 세트); 캘리포니아주 서니베일 소재의 MIPS Technologies사의 MIPS 명령어 세트; 캘리포니아주 서니베일 소재의 ARM Holdings사의 (NEON과 같은 선택적인 추가 확장들을 갖는) ARM 명령어 세트)을 지원할 수 있다.
코어가 (연산들 또는 스레드들의 2개 이상의 병렬 세트를 실행하는) 멀티스레딩을 지원할 수 있고, 시간 슬라이스된 멀티스레딩, 동시 멀티스레딩(이 경우 단일 물리적 코어는 물리적 코어가 동시에 멀티스레딩하는 각각의 스레드에게 논리적 코어를 제공함), 또는 이들의 조합(예를 들어, Intel® Hyperthreading technology에서와 같은 그 후의 시간 슬라이싱된 페칭 및 디코딩과, 동시 멀티스레딩)을 포함하는 다양한 방식으로 지원할 수 있음을 이해해야 한다.
레지스터 리네이밍이 비순차적 실행의 맥락에서 설명되었지만, 레지스터 리네이밍은 순차적 아키텍처에서 사용될 수도 있다는 점을 이해해야 한다. 프로세서의 예시된 실시예가 또한 개별적인 명령어 및 데이터 캐시 유닛들과 공유 L2 캐시 유닛을 포함하고 있지만, 대안의 실시예들은, 예를 들어 레벨 1(L1) 내부 캐시, 또는 다수의 레벨의 내부 캐시와 같은, 명령어들 및 데이터 둘 다에 대한 단일의 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와, 코어 및/또는 프로세서의 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서의 외부에 있을 수 있다.
도 5b는 본 개시내용의 일부 실시예들에 따른, 도 5a의 프로세싱 디바이스(500)에 의해 구현되는 순차적 파이프라인 및 레지스터 리네이밍 스테이지, 비순차적 발행/실행 파이프라인을 도시하는 블록도이다. 도 5b에서의 실선 상자들은 순차적 파이프라인을 나타내는 반면, 파선 상자들은 레지스터 리네이밍, 비순차적 발행/실행 파이프라인을 나타낸다. 도 5b에서, 프로세서 파이프라인(500)은 페치 스테이지(502), 길이 디코드 스테이지(504), 디코드 스테이지(506), 할당 스테이지(508), 리네이밍 스테이지(510), 스케줄링(디스패치 또는 발행으로도 알려짐) 스테이지(512), 레지스터 판독/메모리 판독 스테이지(514), 실행 스테이지(516), 라이트 백/메모리 기입 스테이지(518), 예외 처리 스테이지(522), 및 커밋 스테이지(commit stage)(524)를 포함한다. 일부 실시예에서, 스테이지들(502-524)의 배열(ordering)은 예시된 것과 다를 수 있고, 도 5b에 도시된 특정 배열로 제한되지 않는다.
도 6은 본 개시내용의 일 실시예에 따른 하이브리드 코어들을 포함하는 프로세서(600)를 위한 마이크로-아키텍처의 블록도를 도시한다. 일부 실시예에서, 일 실시예에 따른 명령어는, 단정도(single precision) 및 배정도(double precision) 정수 및 부동 소수점 데이터 타입들과 같은, 데이터 타입들뿐만 아니라, 바이트, 워드, 더블워드, 쿼드워드 등의 사이즈들을 갖는 데이터 요소들에 대해 연산하도록 구현될 수 있다. 일 실시예에서, 순차적 프론트 엔드(601)는, 실행될 명령어들을 페치하여 이들을 프로세서 파이프라인에서 나중에 사용되도록 준비하는 프로세서(600)의 일부이다.
프론트 엔드(601)는 여러 유닛들을 포함할 수 있다. 일 실시예에서, 명령어 프리페처(626)는 메모리로부터 명령어들을 페치하고 이들을 명령어 디코더(628)에 피딩하고, 다음에 명령어 디코더는 이들을 디코딩하거나 해석한다. 예를 들어, 일 실시예에서, 디코더는 수신된 명령어를, 머신이 실행할 수 있는 "마이크로-명령어들" 또는 "마이크로-연산들"(마이크로 op 또는 uop들이라고도 함)이라 불리는 하나 이상의 연산으로 디코딩한다. 다른 실시예들에서, 디코더는 명령어를, 일 실시예에 따른 연산들을 수행하기 위해 마이크로-아키텍처에 의해 사용되는 오피코드 및 대응하는 데이터 및 제어 필드들로 파싱한다. 일 실시예에서, 트레이스 캐시(630)는 디코딩된 uop들을 취하고 그것들을 실행을 위해 uop 큐(634) 내의 프로그램 정렬 시퀀스들 및 트레이스들로 어셈블한다. 트레이스 캐시(630)가 복합 명령어를 만날 때, 마이크로코드 ROM(632)은 연산을 완료하는데 필요한 uop들을 제공한다.
일부 명령어들은 단일 마이크로-op로 변환되지만, 다른 것들은 전체 연산(full operation)을 완료하는데 여러 마이크로-op들을 필요로 한다. 일 실시예에서, 명령어를 완료하는데 4개보다 많은 마이크로-op가 필요한 경우, 디코더(628)는 이 명령어를 행하기 위해 마이크로코드 ROM(632)에 액세스한다. 일 실시예에 있어서, 명령어는 명령어 디코더(628)에서 처리하기 위한 적은 수의 마이크로-op들로 디코딩될 수 있다. 다른 실시예에서, 연산을 달성하는데 다수의 마이크로-op가 필요한 경우, 명령어는 마이크로코드 ROM(632) 내에 저장될 수 있다. 트레이스 캐시(630)는, 마이크로코드 ROM(632)으로부터 일 실시예에 따른 하나 이상의 명령어를 완료하기 위해 마이크로코드 시퀀스들을 판독하기 위한 정확한 마이크로-명령어 포인터를 결정하기 위해서 엔트리 포인트 프로그램가능 로직 어레이(programmable logic array)(PLA)를 참조한다. 마이크로코드 ROM(632)이 명령어에 대한 마이크로-op들의 시퀀싱을 완료한 이후에, 머신의 프론트 엔드(601)는 트레이스 캐시(630)로부터 마이크로-op들을 페치하는 것을 재개한다.
명령어들이 실행을 위해 준비되는 비순차적 실행 엔진(603)이 있다. 비순차적 실행 로직은, 명령어들이 파이프라인으로 가서(go down) 실행을 위해 스케줄링됨에 따라 성능을 최적화하기 위해서 명령어들의 흐름을 평활화하고 재정렬(re-order)하는 복수의 버퍼를 갖는다. 할당기 로직은 각각의 uop가 실행하기 위해 필요로 하는 머신 버퍼들 및 리소스들을 할당한다. 레지스터 리네이밍 로직은 로직 레지스터들을 레지스터 파일 내의 엔트리들로 리네이밍한다. 할당기는 또한, 명령어 스케줄러들(메모리 스케줄러, 고속 스케줄러(602), 저속/일반 부동 소수점 스케줄러(604) 및 단순 부동 소수점 스케쥴러(606)) 앞에서, 2개의 uop 큐 중 하나, 메모리 연산을 위한 하나 및 비-메모리 연산을 위한 하나에 각각의 uop에 대한 엔트리를 할당한다. uop 스케줄러들(602, 604, 606)은 그들의 종속 입력 레지스터 피연산자 소스들의 준비성 및 실행 리소스들의 가용성에 기초하여 uop가 실행할 준비가 되어 있을 때 그들의 연산을 완료하는데 필요한 uop들을 결정한다. 일 실시예의 고속 스케줄러(602)는 메인 클럭 사이클의 각각의 절반에 대해 스케줄링할 수 있지만, 다른 스케줄러들은 메인 프로세서 클럭 사이클마다 한 번만 스케줄링할 수 있다. 스케줄러들은 디스패치 포트들에 대해 중재하여 실행을 위한 uop들을 스케줄링한다.
레지스터 파일들(608, 610)은 스케줄러들(602, 604, 606)과 실행 블록(611) 내의 실행 유닛들(612, 614, 616, 618, 620, 622, 624) 사이에 위치한다. 정수 및 부동 소수점 연산들에 대해 각각, 개별 레지스터 파일들(608, 610)이 존재한다. 일 실시예의 각각의 레지스터 파일(608, 610)은, 레지스터 파일에 아직 기입되지 않은 방금 완료된 결과들을 새로운 종속 uop들에 포워딩하거나 바이패스할 수 있는 바이패스 네트워크를 또한 포함한다. 정수 레지스터 파일(608) 및 부동 소수점 레지스터 파일(610)은 또한 서로 데이터를 통신할 수 있다. 일 실시예에 있어서, 정수 레지스터 파일(608)은 2개의 개별 레지스터 파일들, 즉 데이터의 하위 32비트에 대한 하나의 레지스터 파일과 데이터의 상위 32비트에 대한 제2 레지스터 파일로 분할된다. 일 실시예의 부동 소수점 레지스터 파일(610)은 128비트 폭 엔트리들을 갖는데, 그 이유는 부동 소수점 명령어들은 통상적으로 폭이 64 내지 128비트의 피연산자를 갖기 때문이다.
실행 블록(611)은 실행 유닛들(612, 614, 616, 618, 620, 622, 624)을 포함하며, 여기서 명령어는 실제로 실행된다. 이 섹션은 마이크로-명령어들이 실행할 필요가 있는 정수 및 부동 소수점 데이터 피연산자 값들을 저장하는 레지스터 파일들(608, 610)을 포함한다. 일 실시예의 프로세서(600)는 다수의 실행 유닛(어드레스 생성 유닛(AGU)(612), AGU(614), 고속 ALU(616), 고속 ALU(618), 저속 ALU(620), 부동 소수점 ALU(622), 부동 소수점 이동 유닛(624))으로 구성된다. 일 실시예에 있어서, 부동 소수점 실행 블록들(622, 624)은 부동 소수점, MMX, SIMD, 및 SSE, 또는 다른 연산들을 실행한다. 일 실시예의 부동 소수점 ALU(622)는, 제산, 제곱근, 및 나머지 마이크로-op들을 실행하기 위해 64비트 x 64비트 부동 소수점 제산기(divider)를 포함한다. 본 개시내용의 실시예들에 있어서, 부동 소수점 값을 수반하는 명령어들은 부동 소수점 하드웨어에서 처리될 수 있다.
일 실시예에서, ALU 연산들은 고속 ALU 실행 유닛들(616, 618)로 진행한다. 일 실시예의 고속 ALU들(616, 618)은 클럭 사이클의 절반의 유효 대기 시간으로 고속 연산들을 실행할 수 있다. 일 실시예에 있어서, 가장 복잡한 정수 연산들은 저속 ALU(620)로 진행하는데, 이는 저속 ALU(620)가 승산기, 시프트, 플래그 로직, 및 분기 프로세싱과 같은 긴 대기 시간 타입의 연산들을 위한 정수 실행 하드웨어를 포함하기 때문이다. 메모리 로드/스토어 연산들은 AGU들(612, 614)에 의해 실행된다. 일 실시예에 있어서, 정수 ALU들(616, 618, 620)은 64비트 데이터 피연산자들에 대한 정수 연산들을 수행하는 맥락에서 설명된다. 대안적인 실시예들에서, ALU들(616, 618, 620)은 16, 32, 128, 256 등을 포함하는 다양한 데이터 비트들을 지원하도록 구현될 수 있다. 유사하게, 부동 소수점 유닛들(622, 624)은 다양한 폭의 비트를 갖는 피연산자의 범위를 지원하도록 구현될 수 있다. 일 실시예에 있어서, 부동 소수점 유닛들(622, 624)은 SIMD 및 멀티미디어 명령어들과 함께 128비트 폭의 패킹된 데이터 피연산자들에 대해 연산할 수 있다.
일 실시예에서, uop 스케줄러들(602, 604, 606)은, 페어런트 로드(parent load)가 실행을 완료하기 이전에 종속 연산들을 디스패치한다. uop들은 프로세서(600) 내에서 추론적으로 스케줄링되고 실행되므로, 프로세서(600)는 또한 메모리 미스들을 처리하는 로직을 포함한다. 데이터 로드가 데이터 캐시에서 누락되는 경우, 일시적으로 부정확한 데이터를 갖는 스케줄러를 남겨두는, 파이프라인에서 인 플라이트(in flight)인 종속 연산들이 존재할 수 있다. 리플레이 메커니즘은 부정확한 데이터를 사용하는 명령어들을 추적하고 재실행한다. 종속 연산들만이 리플레이될 필요가 있고 비종속 연산들은 완료하도록 허용된다. 프로세서의 일 실시예의 스케줄러들 및 리플레이 메커니즘은 텍스트 스트링 비교 연산들을 위한 명령어 시퀀스들을 캐치하도록 또한 설계된다.
프로세서(600)는 또한 본 개시내용의 실시예에 따른 메모리 명확화(memory disambiguation)를 위한 스토어 어드레스 예측을 구현하는 로직을 포함한다. 일 실시예에서, 프로세서(600)의 실행 블록(611)은 메모리 명확화를 위한 스토어 어드레스 예측을 구현하기 위한 스토어 어드레스 예측기(도시 생략)를 포함할 수 있다.
"레지스터들"이라는 용어는, 피연산자들을 식별하기 위해 명령어들의 일부로서 사용되는 온-보드 프로세서 스토리지 위치들을 지칭할 수 있다. 다시 말하면, 레지스터들은 (프로그래머의 관점에서) 프로세서의 외부로부터 사용 가능한 것들일 수 있다. 그러나 실시예의 레지스터들은 특정 타입의 회로에 의미가 제한되어서는 안 된다. 오히려, 실시예의 레지스터는 데이터를 저장 및 제공할 수 있고, 본 명세서에 설명된 기능들을 수행할 수 있다. 본 명세서에 설명된 레지스터들은, 전용 물리적 레지스터들, 레지스터 리네이밍을 사용하는 동적으로 할당된 물리적 레지스터들, 전용 물리적 레지스터들과 동적으로 할당된 물리적 레지스터들의 조합 등과 같은, 임의의 개수의 상이한 기술을 사용하는 프로세서 내의 회로에 의해 구현될 수 있다. 일 실시예에서, 정수 레지스터들은 32비트 정수 데이터를 저장한다. 일 실시예의 레지스터 파일은 또한 패킹된 데이터에 대한 8개의 멀티미디어 SIMD 레지스터들을 포함한다.
아래의 논의에서 레지스터들은, 캘리포니아주 산타클라라 소재의 Intel Corporation의 MMX 기술로 인에이블된 마이크로프로세서에서 64비트 폭 MMXTM 레지스터들(일부 경우에는 'mm' 레지스터들이라고도 함)과 같이 패킹된 데이터를 보유하도록 설계된 데이터 레지스터인 것으로 이해된다. 정수 형태 및 부동 소수점 형태 모두에서 사용 가능한 이러한 MMX 레지스터들은 SIMD 및 SSE 명령어들을 수반하는 패킹된 데이터 요소들로 연산될 수 있다. 마찬가지로, SSE2, SSE3, SSE4 또는 그 이상(일반적으로 "SSEx"라고 함)의 기술과 관련된 128비트 폭 XMM 레지스터들은 이러한 패킹된 데이터 피연산자를 보유하기 위해 사용될 수도 있다. 일 실시예에서, 패킹된 데이터 및 정수 데이터를 저장할 때, 레지스터들은 두 데이터 타입을 구별할 필요가 없다. 일 실시예에서, 정수 및 부동 소수점은 동일한 레지스터 파일 또는 상이한 레지스터 파일 중 어느 하나에 포함된다. 또한, 일 실시예에서, 부동 소수점 및 정수 데이터는 상이한 레지스터 또는 동일한 레지스터에 저장될 수 있다.
이제 도 7을 참조하면, 본 개시내용의 실시예가 사용될 수 있는 시스템(700)을 설명하는 블록도가 도시된다. 도 7에 도시된 바와 같이, 멀티프로세서 시스템(700)은 점대점(point-to-point) 인터커넥트 시스템이고, 점대점 인터커넥트(750)를 통해 결합된 제1 프로세서(770) 및 제2 프로세서(780)를 포함한다. 2개의 프로세서(770, 780)만을 갖는 것으로 도시되어 있지만, 본 개시내용의 실시예의 범위는 그렇게 제한되지는 않는다는 것이 이해되어야 한다. 다른 실시예들에서, 하나 이상의 추가 프로세서가 주어진 프로세서에 존재할 수 있다. 일 실시예에서, 멀티프로세서 시스템(700)은 본 명세서에서 설명된 하이브리드 코어를 구현할 수 있다.
프로세서들(770 및 780)은 통합된 메모리 제어기 유닛들(772 및 782)을 각각 포함하는 것으로 도시되어 있다. 프로세서(770)는 또한 그것의 버스 제어기 유닛의 일부로서 점대점(P-P) 인터페이스들(776 및 778)을 포함하고; 마찬가지로 제2 프로세서(780)는 P-P 인터페이스들(786 및 788)을 포함한다. 프로세서들(770, 780)은 P-P 인터페이스 회로들(778, 788)을 사용하여 점대점(P-P) 인터페이스(750)를 통해 정보를 교환할 수 있다. 도 7에 도시된 바와 같이, IMC들(772 및 782)은 프로세서들을 각각의 메모리들, 즉 메모리(732) 및 메모리(734)에 결합하는데, 이들 메모리는 각각의 프로세서들에 국부적으로 부착된 메인 메모리의 부분들일 수 있다.
프로세서들(770, 780)은 각각 점대점 인터페이스 회로들(776, 794, 786, 798)을 사용하여 개별 P-P 인터페이스들(752, 754)을 통해 칩셋(790)과 정보를 교환할 수 있다. 칩셋(790)은 또한, 고성능 그래픽 인터페이스(739)를 통해 고성능 그래픽 회로(738)와 정보를 교환할 수 있다.
공유된 캐시(도시되지 않음)는 어느 한 프로세서에 포함되거나, 둘 모두의 프로세서의 외부에 있지만 여전히 P-P 인터커넥트를 통해 프로세서들과 접속될 수 있어서, 프로세서가 저 전력 모드에 놓이는 경우 어느 한쪽 또는 둘 모두의 프로세서의 로컬 캐시 정보가 공유된 캐시에 저장될 수 있다.
칩셋(790)은 인터페이스(796)를 통해 제1 버스(716)에 결합될 수 있다. 일 실시예에서, 제1 버스(716)는 PCI(Peripheral Component Interconnect) 버스, 또는 PCI 익스프레스 버스 또는 또 다른 3세대 I/O 인터커넥트 버스와 같은 버스일 수 있지만, 본 개시내용의 범위는 이것에만 한정되지는 않는다.
도 7에 도시된 바와 같이, 다양한 I/O 디바이스들(714)은, 제1 버스(716)를 제2 버스(720)에 결합하는 버스 브리지(718)와 함께, 제1 버스(716)에 결합될 수 있다. 일 실시예에서, 제2 버스(720)는 LPC(low pin count) 버스일 수 있다. 일 실시예에서, 예를 들어 키보드 및/또는 마우스(722), 통신 디바이스들(727), 및 명령어들/코드 및 데이터(730)를 포함할 수 있는 디스크 드라이브 또는 다른 대용량 스토리지 디바이스와 같은 스토리지 유닛(728)을 포함하는 다양한 디바이스들이 제2 버스(720)에 결합될 수 있다. 또한, 오디오 I/O(724)는 제2 버스(720)에 결합될 수 있다. 다른 아키텍처들도 가능하다는 점에 유의한다. 예를 들어, 도 7의 점대점 아키텍처 대신에, 시스템은 멀티 드롭 버스 또는 다른 이러한 아키텍처를 구현할 수 있다.
이제 도 8을 참조하면, 본 개시내용의 일 실시예가 동작할 수 있는 시스템(800)의 블록도가 도시된다. 시스템(800)은 그래픽 메모리 제어기 허브(graphics memory controller hub)(GMCH)(820)에 결합된 하나 이상의 프로세서(810, 815)를 포함할 수 있다. 추가 프로세서들(815)의 선택적 특성은 도 8에서 점선으로 표시된다. 일 실시예에서, 프로세서들(810, 815)은 개시내용의 실시예에 따른 하이브리드 코어를 구현한다.
각각의 프로세서(810, 815)는 상술한 바와 같이 회로, 집적 회로, 프로세서, 및/또는 실리콘 집적 회로의 일부 버전일 수 있다. 그러나, 통합 그래픽 로직 및 통합 메모리 제어 유닛들이 프로세서들(810, 815) 내에 존재할 가능성이 낮다는 것에 유의해야 한다. 도 8은 GMCH(820)가, 예를 들어 동적 랜덤 액세스 메모리(DRAM)일 수 있는 메모리(840)에 결합될 수 있음을 도시한다. DRAM은 적어도 일 실시예에서 비휘발성 캐시와 연관될 수 있다.
GMCH(820)는 칩셋, 또는 칩셋의 일부일 수 있다. GMCH(820)는 프로세서(들)(810, 815)와 통신하고, 프로세서(들)(810, 815)와 메모리(840) 사이의 상호작용을 제어할 수 있다. GMCH(820)는 시스템(800)의 프로세서(들)(810, 815)와 다른 요소들 간의 가속 버스 인터페이스의 역할을 할 수도 있다. 적어도 하나의 실시예에서, GMCH(820)는 프론트 사이드 버스(frontside bus)(FSB)(895)와 같은, 멀티-드롭 버스를 통해 프로세서(들)(810, 815)와 통신한다.
더욱이, GMCH(820)는 (평판 패널 또는 터치스크린 디스플레이와 같은) 디스플레이(845)에 결합된다. GMCH(820)는 통합 그래픽 가속기를 포함할 수 있다. GMCH(820)는 다양한 주변 장치들을 시스템(800)에 결합하는 데 사용될 수 있는 입/출력(I/O) 제어기 허브(ICH)(850)에 더 결합된다. 예를 들어, 도 8의 실시예에서 도시된 것은, 다른 주변 장치(870)와 함께, ICH(850)에 결합된 별도의 그래픽 디바이스일 수 있는 외부 그래픽 디바이스(860)이다.
대안적으로, 추가적인 또는 상이한 프로세서들은 또한 시스템(800) 내에 존재할 수 있다. 예를 들어, 추가적인 프로세서(들)(815)는 프로세서(810)와 동일한 추가적인 프로세서(들), 프로세서(810)에 대해 이종 또는 비대칭인 추가적인 프로세서(들), (예를 들어, 그래픽 가속기들 또는 디지털 신호 프로세싱(DSP) 유닛들과 같은) 가속기들, 필드 프로그래머블 게이트 어레이들, 또는 임의의 다른 프로세서를 포함할 수 있다. 아키텍처, 마이크로-아키텍처, 열, 전력 소비 특성 등을 포함하는 장점의 메트릭의 스펙트럼(spectrum of metrics of merit)의 관점에서 프로세서(들)(810, 815) 사이에는 다양한 차이들이 존재할 수 있다. 이러한 차이들은 프로세서들(810, 815) 사이의 비대칭성 및 이질성으로서 효과적으로 나타날 수 있다. 적어도 하나의 실시예에 있어서, 다양한 프로세서들(810, 815)은 동일한 다이 패키지 내에 상주할 수 있다.
이제, 도 9를 참조하면, 본 개시내용의 일 실시예가 동작할 수 있는 시스템(900)의 블록도가 도시된다. 도 9는 프로세서들(970, 980)을 예시한다. 일 실시예에서, 프로세서들(970, 980)은 상술한 하이브리드 코어들을 구현할 수 있다. 프로세서들(970, 980)은 통합 메모리와 I/O 제어 로직("CL")(972 및 982)을 각각 포함할 수 있고, 점대점(P-P) 인터페이스들(978 및 988) 사이의 점대점 인터커넥트(950)를 통해 각자 서로 상호 통신한다. 프로세서들(970, 980) 각각은 도시된 바와 같이 각각의 P-P 인터페이스들(976 내지 994 및 986 내지 998)을 통해 점대점 인터커넥트들(952 및 954)을 통해 칩셋(990)과 통신한다. 적어도 하나의 실시예에 있어서, CL(972, 982)은 통합 메모리 제어기 유닛들을 포함할 수 있다. CL들(972, 982)은 I/O 제어 로직을 포함할 수 있다. 도시된 바와 같이, 메모리들(932, 934)은 CL들(972, 982)에 결합되어 있고 I/O 디바이스들(914)은 또한 제어 로직(972, 982)에 결합되어 있다. 레거시 I/O 디바이스들(915)은 인터페이스(996)를 통해 칩셋(990)에 결합되어 있다.
실시예들은 많은 상이한 시스템 타입으로 구현될 수 있다. 도 10은 본 개시내용의 실시예에 따른 SoC(1000)의 블록도이다. 점선 박스들은 더 진보된 SoC들 상의 선택적 피처들이다. 도 10에서, 인터커넥트 유닛(들)(1012)은, 하나 이상의 코어(1002A-N) 및 공유 캐시 유닛(들)(1006)의 세트를 포함하는 애플리케이션 프로세서(1020); 시스템 에이전트 유닛(1010); 버스 제어기 유닛(들)(1016); 통합 메모리 제어기 유닛(들)(1014); 통합 그래픽 로직(1008), 정지 및/또는 비디오 카메라 기능성을 제공하기 위한 이미지 프로세서(1024), 하드웨어 오디오 가속을 제공하기 위한 오디오 프로세서(1026), 및 비디오 인코드/디코드 가속을 제공하기 위한 비디오 프로세서(1028)를 포함할 수 있는 하나 이상의 미디어 프로세서(1018) 또는 그들의 세트; SRAM(static random access memory) 유닛(1030); DMA(direct memory access) 유닛(1032); 및 하나 이상의 외부 디스플레이에 결합하기 위한 디스플레이 유닛(1040)에 결합되어 있다. 일 실시예에서, 메모리 모듈은 통합 메모리 제어기 유닛(들)(1014)에 포함될 수 있다. 다른 실시예에서, 메모리 모듈은 메모리에 액세스하고/하거나 메모리를 제어하는데 사용될 수 있는 SoC(1000)의 하나 이상의 다른 컴포넌트에 포함될 수 있다. 애플리케이션 프로세서(1020)는 본 명세서의 실시예들에서 설명된 하이브리드 코어들을 구현하기 위한 스토어 어드레스 예측기를 포함할 수 있다.
메모리 계층구조는 코어들 내의 하나 이상의 레벨의 캐시, 하나 이상의 공유 캐시 유닛(1006) 또는 이들의 세트, 및 통합 메모리 제어기 유닛들(1014)의 세트에 결합된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1006)의 세트는, 예를 들어 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 다른 레벨의 캐시와 같은 하나 이상의 중간 레벨 캐시, 최종 레벨 캐시(LLC) 및/또는 이들의 조합들을 포함할 수 있다.
일부 실시예들에서, 코어들(1002A-N) 중 하나 이상은 멀티-스레딩이 가능하다. 시스템 에이전트(1010)는 코어들(1002A-N)을 조정 및 조작하는 이러한 컴포넌트들을 포함한다. 시스템 에이전트 유닛(1010)은, 예를 들어 전력 제어 유닛(Power Control Unit)(PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(1002A-N) 및 통합 그래픽 로직(1008)의 전력 상태를 조절하는 데 필요한 로직 및 컴포넌트들이거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속된 디스플레이들을 구동하기 위한 것이다.
코어들(1002A-N)은 아키텍처 및/또는 명령어 세트의 측면에서 동종이거나 이종일 수 있다. 예를 들어, 코어들(1002A-N)중 일부는 순차적인 반면, 다른 것들은 비순차적이다. 다른 예로서, 코어들(1002A-N) 중 2개 이상은 동일한 명령어 세트를 실행할 수 있는 한편, 다른 것들은 그 명령어 세트의 서브세트 또는 다른 명령어 세트만을 실행할 수 있다.
애플리케이션 프로세서(1020)는 캘리포니아 산타 클라라 소재의 IntelTM Corporation으로부터 입수할 수 있는, CoreTM i3, i5, i7, 2 Duo 및 Quad, XeonTM, ItaniumTM, AtomTM 또는 QuarkTM 프로세서와 같은 범용 프로세서일 수 있다. 대안적으로, 애플리케이션 프로세서(1020)는 ARM HoldingsTM, Ltd, MIPSTM 등과 같은 다른 회사로부터 온 것일 수 있다. 애플리케이션 프로세서(1020)는, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, 코-프로세서, 내장 프로세서 등과 같은 특수 목적 프로세서일 수 있다. 애플리케이션 프로세서(1020)는 1 이상의 칩으로 구현될 수 있다. 애플리케이션 프로세서(1020)는, 예를 들어 BiCMOS, CMOS, 또는 NMOS와 같은, 다수의 프로세스 기술 중 임의의 기술을 이용하는 하나 이상의 기판의 일부이거나 및/또는 하나 이상의 기판 상에 구현될 수 있다.
도 11은 본 개시내용에 따른 시스템-온-칩(SoC) 설계의 실시예의 블록도이다. 특정한 예시적인 예로서, SoC(1100)는 사용자 장비(UE)에 포함되어 있다. 일 실시예에서, UE는 핸드헬드 전화, 스마트폰, 태블릿, 초박형 노트북, 광대역 어댑터를 가진 노트북, 또는 임의의 다른 유사한 통신 디바이스와 같이, 최종 사용자가 통신에 사용하는 임의의 디바이스를 지칭한다. 종종, UE는 사실상 GSM 네트워크 내의 이동국(MS)에 잠재적으로 대응하는 기지국 또는 노드에 접속한다.
여기서, SoC(1100)는 2개의 코어(1106 및 1107)를 포함한다. 코어들(1106 및 1107)은 Intel® Architecture CoreTM-기반 프로세서, Advanced Micro Devices, Inc. (AMD) 프로세서, MIPS-기반 프로세서, ARM-기반 프로세서 설계, 또는 그 고객은 물론, 이들의 라이선스 취득자 또는 채택자와 같은 명령어 세트 아키텍처에 따를 수 있다. 코어들(1106 및 1107)은 시스템(1100)의 다른 부분들과 통신하기 위해 버스 인터페이스 유닛(1109) 및 L2 캐시(1110)와 연관되어 있는 캐시 제어(1108)에 결합되어 있다. 인터커넥트(1110)는 설명된 개시내용의 하나 이상의 양태를 잠재적으로 구현하는, IOSF, AMBA, 또는 위에 논의된 다른 인터커넥트와 같은 온-칩 인터커넥트를 포함한다. 일 실시예에서, 코어들(1106, 1107)은 본 명세서의 실시예에서 설명된 바와 같이 하이브리드 코어들을 구현할 수 있다.
인터커넥트(1110)는, 가입자 신원 모듈(Subscriber Identity Module)(SIM) 카드와 인터페이스하는 SIM(1130), SoC(1100)를 초기화하고 부팅하기 위해 코어들(1106 및 1107)에 의해 실행하기 위한 부트 코드를 보유하는 부트 ROM(1135), 외부 메모리(예컨대, DRAM(1160))와 인터페이스하는 SDRAM 제어기(1140), 비휘발성 메모리(예컨대, 플래시(1165))와 인터페이스하는 플래시 제어기(1145), 주변 장치와 인터페이스하는 주변 제어(1150)(예컨대, 직렬 주변 인터페이스(Serial Peripheral Interface)), 입력(예컨대, 터치 가능 입력(touch enabled input))을 표시하고 수신하는 비디오 코덱들(1120)과 비디오 인터페이스(1125), 그래픽 관련 계산들을 수행하는 GPU(1115) 등과 같은 다른 컴포넌트들에 통신 채널들을 제공한다. 이들 인터페이스들 중 임의의 것은 본 명세서에 기재된 개시내용의 양태들을 포함할 수 있다. 게다가, 시스템(1100)은 블루투스 모듈(1170), 3G 모뎀(1175), GPS(1180), 및 Wi-Fi(1185)와 같은 통신용 주변 장치를 예시하고 있다.
도 12는 본 명세서에 논의되는 방법론들 중 임의의 하나 이상을 머신이 실행하게 하는 명령어 세트가 실행될 수 있는 컴퓨터 시스템(1200)의 예시적인 형태로 머신의 도식적 표현을 도시한다. 대안 실시예들에서, 머신은 LAN, 인트라넷, 엑스트라넷, 또는 인터넷 내에서 다른 머신들에 접속(예로서, 네트워킹)될 수 있다. 머신은 클라이언트-서버 네트워크 환경에서 서버 또는 클라이언트 디바이스의 용량 내에서, 또는 피어 대 피어(또는 분산) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신은 개인용 컴퓨터(PC), 태블릿 PC, 셋톱 박스(STB), PDA(Personal Digital Assistant), 셀룰러 전화, 웹 어플라이언스, 서버, 네트워크 라우터, 스위치 또는 브리지, 또는 해당 머신에 의해 취해질 액션들을 특정하는 명령어들의 세트를 (순차적 또는 다른 방식으로) 실행할 수 있는 임의의 머신일 수 있다. 또한, 단일 머신만이 도시되지만, 용어 "머신"은 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하기 위해 명령어들의 세트(또는 다수의 세트)를 개별적으로 또는 공동으로 실행하는 머신들의 임의의 집합을 포함하는 것으로도 간주되어야 한다.
컴퓨터 시스템(1200)은 프로세싱 디바이스(1202), 메인 메모리(1204)(예를 들면, 판독 전용 메모리(ROM)), 플래시 메모리, 동적 랜덤 액세스 메모리(DRAM)(예를 들면, 동기식 DRAM(SDRAM) 또는 DRAM(RDRAM) 등), 정적 메모리(1206)(예를 들면, 플래시 메모리, 정적 랜덤 액세스 메모리(SRAM) 등), 및 데이터 저장 디바이스(1218)를 포함할 수 있으며, 이들은 서로 버스(1230)를 통해 통신한다.
프로세싱 디바이스(1202)는 마이크로프로세서, 중앙 처리 장치 등과 같은 하나 이상의 범용 프로세싱 디바이스를 나타낸다. 더 구체적으로, 프로세싱 디바이스는 복합 명령어 세트 컴퓨팅(CISC) 마이크로프로세서, 축소 명령어 세트 컴퓨터(RISC) 마이크로프로세서, 매우 긴 명령어 워드(VLIW) 마이크로프로세서, 또는 다른 명령어 세트들을 구현하는 프로세서, 또는 명령어 세트들의 조합을 구현하는 프로세서들일 수 있다. 프로세싱 디바이스(1202)는 또한, 주문형 반도체(ASIC), 필드 프로그래머블 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 네트워크 프로세서 등과 같은 하나 이상의 특수 목적 프로세싱 디바이스일 수 있다. 일 실시예에서, 프로세싱 디바이스(1202)는 하나 이상의 프로세싱 코어를 포함할 수 있다. 프로세싱 디바이스(1202)는 본 명세서에서 논의된 동작들 및 단계들을 수행하기 위한 프로세싱 로직(1226)을 실행하도록 구성된다. 일 실시예에서, 프로세싱 디바이스(1202)는 본 개시내용의 실시예들로 본 명세서에 기재된 바와 같이 도 1과 관련하여 설명된 프로세서 아키텍처(100)와 동일하다.
컴퓨터 시스템(1200)은 네트워크(1220)에 통신 가능하게 결합된 네트워크 인터페이스 디바이스(1208)를 더 포함할 수 있다. 컴퓨터 시스템(1200)은 비디오 디스플레이 유닛(1210)(예를 들면, 액정 디스플레이(LCD) 또는 음극선관(CRT)), 영숫자 입력 디바이스(1212)(예를 들면, 키보드), 커서 제어 디바이스(1214)(예를 들면, 마우스), 및 신호 발생 디바이스(1216)(예를 들면, 스피커)를 포함할 수 있다. 더욱이, 컴퓨터 시스템(1200)은 그래픽 프로세싱 유닛(1222), 비디오 프로세싱 유닛(1228), 및 오디오 프로세싱 유닛(1232)을 포함할 수 있다.
데이터 저장 디바이스(1218)는 본 명세서에서 설명되는 기능들의 방법들 중 임의의 하나 이상을 구현하는, 예를 들어 전술한 바와 같은 메모리 명확화를 위한 스토어 어드레스 예측을 구현하는 소프트웨어(1226)가 저장되어 있는 머신-액세스가능 저장 매체(1224)를 포함할 수 있다. 소프트웨어(1226)는 또한, 컴퓨터 시스템(1200)에 의한 그것의 실행 동안 명령어(1226)로서 메인 메모리(1204) 내에 및/또는 프로세싱 로직(1226)으로서 프로세싱 디바이스(1202) 내에 완전히 또는 적어도 부분적으로 상주할 수 있으며; 메인 메모리(1204) 및 프로세싱 디바이스(1202)는 또한 머신-액세스 가능 저장 매체를 구성한다.
머신-판독가능 저장 매체(1224)는 또한 개시내용의 실시예에 따라 설명된 것과 같은 하이브리드 코어를 위한 스토어 어드레스 예측을 구현하는 명령어(1226)를 저장하는데 사용될 수 있다. 머신 액세스 가능 저장 매체(1128)는 예시적인 실시예에서 단일 매체인 것으로 도시되지만, 용어 "머신 액세스 가능 저장 매체"는 명령어들의 하나 이상의 세트를 저장하는 단일 매체 또는 다수의 매체(예로서, 중앙 또는 분산 데이터베이스 및/또는 연관 캐시들 및 서버들)를 포함하는 것으로 간주되어야 한다. 용어 "머신 판독 가능 저장 매체"는 또한, 머신에 의해 실행하기 위한 명령어 세트를 저장, 인코딩 또는 운반할 수 있고, 머신으로 하여금 본 개시내용의 방법론들 중 어느 하나 이상을 수행하게 하는 임의의 매체를 포함하는 것으로 간주되어야 한다. 따라서, 용어 "머신 액세스 가능 저장 매체"는 솔리드 스테이트 메모리들 및 광학 및 자기 매체들을 포함하지만 이에 한정되지 않는 것으로 간주되어야 한다.
하기 예들은 구체적인 실시예들에 관한 것이다. 예 1은 캐시 라인을 포함하는 캐시를 포함하는 제1 코어, 제2 캐시를 포함하는 제2 코어, 및 제1 캐시의 캐시 라인의 플래그 섹션에 저장된 플래그를, 제1 캐시 라인에 저장된 데이터가 제2 캐시에 의해 공유된 것에 응답하여 프로세서 공유(PS) 상태로 설정하거나, 또는 제1 캐시 라인에 저장된 데이터가 제2 프로세서의 제3 캐시에 의해 공유된 것에 응답하여 글로벌 공유(GS) 상태로 설정하는 캐시 제어기를 포함하는 프로세서이다.
예 2에서, 예 1의 주제는, 제1 코어가 제1 코어 클러스터 내에 있고 제2 코어가 제2 코어 클러스터 내에 있음을 선택적으로 제공할 수 있다.
예 3에서, 예 2의 주제는, 캐시 라인에 저장된 데이터가 제3 코어의 제4 캐시에 의해 공유된 것으로 결정한 것에 응답하여 캐시 제어기가 플래그를 클러스터 공유(CS) 상태로 설정하는 것을 선택적으로 제공할 수 있고, 제1 코어 및 제3 코어는 모두 프로세서의 제1 코어 클러스터 내에 있고, 캐시 라인에 저장된 데이터는 제2 코어 또는 제2 프로세서에 의해 공유되지 않는다.
예 4에서, 예 1 내지 3 중 어느 하나의 주제는, 캐시 제어기가 플래그를, 캐시 라인에 저장된 데이터가 메모리에 저장된 데이터의 사본으로부터 수정된 것에 응답하여 수정(M) 상태로 설정하거나, 캐시 라인에 저장된 데이터가 다른 캐시에 의해 공유되지 않는다는 결정에 응답하여 독점(E) 상태로 설정하거나, 또는 캐시 라인에 저장된 데이터가 무효한 것에 응답하여 무효 상태(I)로 설정하는 것을 선택적으로 제공할 수 있다.
예 5에서, 예 1 내지 3 중 어느 하나의 주제는, 캐시 라인이 데이터를 저장하는 데이터 섹션, 및 데이터의 대응하는 사본이 저장되는 메모리의 어드레스를 저장하는 태그 섹션을 더 포함하는 것을 선택적으로 제공할 수 있다.
예 6에서, 예 4의 주제는, 캐시 제어기가 제1 캐시의 캐시 라인에 저장된 데이터에 대해 제3 코어로부터 캐시 히트를 검출한 것에 응답하여, 캐시 라인의 플래그를 독점 상태로부터 클러스터 공유 상태로 설정하고, 프로세서의 제2 코어 클러스터 내의 제4 코어로부터 캐시 히트를 검출한 것에 응답하여, 캐시 라인의 플래그를 독점 상태 또는 클러스터 공유 상태 중 하나로부터 프로세서 공유 상태로 설정하고, 제2 프로세서로부터 캐시 히트를 검출한 것에 응답하여, 캐시 라인의 플래그를 독점 상태, 클러스터 공유 상태 또는 프로세서 공유 상태 중 하나로부터 글로벌 공유 상태로 설정하는 것을 선택적으로 제공할 수 있다.
예 7에서, 예 4의 주제는, 캐시 제어기가 캐시 라인에 저장된 데이터에 대한 기입 히트를 검출한 것에 응답하여, 플래그가 어떤 상태인지를 결정하는 것을 선택적으로 제공할 수 있다.
예 8에서, 예 7의 주제는, 플래그가 클러스터 공유 상태를 나타낸다고 결정한 것에 응답하여, 캐시 제어기가 캐시 무효화 요청을 제1 코어 클러스터의 하나 이상의 캐시에 추가로 송신하는 것을 선택적으로 제공할 수 있다.
예 9에서, 예 8의 주제는, 캐시 무효화 요청이 제1 코어 클러스터 내의 하나 이상의 캐시에만 송신되는 것을 선택적으로 제공할 수 있으며, 캐시 제어기는 프로세서의 코어 간 인터커넥트 상에서 캐시 무효화 요청을 송신한다.
예 10에서, 예 9의 주제는, 플래그가 프로세서 공유 상태를 나타낸다고 결정한 것에 응답하여, 캐시 제어기가 프로세서의 하나 이상의 캐시에 캐시 무효화 요청을 송신하는 것을 선택적으로 제공할 수 있다.
예 11에서, 예 10의 주제는, 캐시 무효화 요청이 프로세서 내의 캐시에만 송신되는 것을 선택적으로 제공할 수 있으며, 캐시 제어기는 캐시 무효화 요청을 프로세서의 클러스터 간 인터커넥트 상에서 송신한다.
예 12에서, 예 7의 주제는, 플래그가 글로벌 공유 상태를 나타낸다고 결정한 것에 응답하여 캐시 제어기가 캐시 무효화 요청을 프로세서 및 제2 프로세서 내의 하나 이상의 캐시에 송신하는 것을 선택적으로 제공할 수 있다.
예 13에서, 예 12의 주제는, 캐시 제어기가 캐시 무효화 요청을 제1 프로세서와 제2 프로세서 사이에 결합된 프로세서 간 인터커넥트 상에서 송신하는 것을 선택적으로 제공할 수 있다.
예 14는 메모리 및 제1 프로세서를 포함하는 시스템 온 칩(SoC)이다. 제1 프로세서는 제1 캐시를 포함하는 제1 코어와 제2 캐시를 포함하는 제2 코어를 포함하는 제1 코어 클러스터와, 제1 캐시의 캐시 라인의 플래그 섹션에 저장된 플래그를, 캐시 라인에 저장된 데이터가 제2 캐시에 의해 공유된 캐시 라인에 의해 공유된 것에 응답하여 클러스터 공유(CS) 상태로 설정하거나, 또는 캐시 라인에 저장된 데이터가 SoC의 제2 프로세서의 제3 캐시에 의해 공유된 것에 응답하여 글로벌 공유(GS) 상태로 설정하는 캐시 제어기를 포함한다.
예 15에서, 예 14의 주제는, 캐시 라인에 저장된 데이터가 제1 프로세서의 제2 코어 클러스터 내의 제4 캐시에 의해 공유된 것에 응답하여 캐시 제어기가 캐시 라인의 플래그를 프로세서 공유(PS) 상태로 설정하는 것을 선택적으로 제공할 수 있고, 데이터는 제2 프로세서에 의해 공유되지 않는다.
예 16에서, 예 14 및 예 15의 주제는, 캐시 라인이 데이터를 저장하는 데이터 섹션 및 데이터의 사본이 저장되는 메모리의 어드레스를 저장하는 태그 섹션을 더 포함하는 것을 선택적으로 제공할 수 있다.
예 17은, 캐시 제어기에 의해, 제1 프로세서의 제1 코어 클러스터에 상주하는 제1 코어의 제1 캐시의 캐시 라인에 저장된 데이터 아이템을 판독하라는 요청을 수신하는 단계, 요청의 요청자가 제1 코어 클러스터와 연관되고 플래그 섹션에 저장된 플래그가 제1 캐시에 대한 독점 상태인 것을 결정한 것에 응답하여, 캐시 라인의 플래그 섹션에 저장된 플래그를 클러스터 공유로 설정하는 단계, 및 요청자가 제1 프로세서의 제2 코어 클러스터와 연관되고 플래그 섹션에 저장된 상태가 독점 상태 또는 클러스터 공유 상태 중 하나인 것을 결정한 것에 응답하여, 캐시 라인의 플래그 섹션에 저장된 플래그를 프로세서 공유 상태로 설정하는 단계를 포함하는 방법을 포함한다.
예 18에서, 예 17의 주제는 요청자가 제2 프로세서 내에 있다고 결정한 것에 응답하여, 캐시 라인의 플래그 섹션에 저장된 플래그를 글로벌 공유 상태로 설정하는 단계를 더 포함할 수 있다.
예 19에서, 예 17 및 예 18 중 어느 하나의 주제는 데이터를 제1 캐시로부터 요청자에게 송신하는 단계를 더 포함할 수 있다.
예 20에서, 예 17 및 18 중 어느 하나의 주제는, 데이터 아이템을 캐시 라인에 기입하라는 요청을 수신하는 단계, 캐시 라인의 플래그 섹션에 저장된 플래그를 결정하는 단계, 플래그가 클러스터 공유 상태인 것으로 결정한 것에 응답하여, 캐시 무효화 요청을 제1 코어 클러스터의 하나 이상의 캐시에 송신하고 캐시 무효화 요청을 제1 코어 클러스터 외부로 송신하는 것을 억제하는 단계, 플래그가 프로세서 공유 상태인 것으로 결정한 것에 응답하여, 캐시 무효화 요청을 제1 프로세서의 하나 이상의 캐시에 송신하지만 캐시 무효화 요청을 제1 프로세서 외부의 캐시들에 송신하는 것을 억제하는 단계를 더 포함할 수 있다.
예 21은 예 17 내지 18 중 어느 하나의 방법을 수행하기 위한 수단을 포함하는 장치를 포함한다.
예 22는 실행될 때 동작들을 수행하는 프로그램 코드들이 저장되어 있는 머신 판독 가능 비 일시적인 매체를 포함한다. 상기 동작들은, 캐시 제어기에 의해, 제1 프로세서의 제1 코어 클러스터에 상주하는 제1 코어의 제1 캐시의 캐시 라인에 저장된 데이터 아이템을 판독하라는 요청을 수신하는 동작, 요청의 요청자가 제1 코어 클러스터와 연관되고 플래그 섹션에 저장된 플래그가 제1 캐시에 대한 독점 상태인 것을 결정한 것에 응답하여, 캐시 라인의 플래그 섹션에 저장된 플래그를 클러스터 공유로 설정하는 동작, 및 요청자가 제1 프로세서의 제2 코어 클러스터와 연관되고 플래그 섹션에 저장된 상태가 독점 상태 또는 클러스터 공유 상태 중 하나인 것을 결정한 것에 응답하여, 캐시 라인의 플래그 섹션에 저장된 플래그를 프로세서 공유 상태로 설정하는 동작을 포함한다.
예 23에서, 예 22의 주제는 상기 동작들이, 요청자가 제2 프로세서 내에 있다고 결정한 것에 응답하여, 캐시 라인의 플래그 섹션에 저장된 플래그를 글로벌 공유 상태로 설정하는 동작을 포함하는 것을 선택적으로 제공할 수 있다.
예 24에서, 예 22 및 예 23 중 어느 하나의 주제는, 상기 동작들이 데이터를 제1 캐시로부터 요청자에게 송신하는 동작을 포함하는 것을 선택적으로 제공할 수 있다.
예 24에서, 예 22 및 23 중 어느 하나의 주제는, 상기 동작들이 데이터 아이템을 캐시 라인에 기입하라는 요청을 수신하는 동작, 캐시 라인의 플래그 섹션에 저장된 플래그를 결정하는 동작, 플래그가 클러스터 공유 상태인 것으로 결정한 것에 응답하여, 캐시 무효화 요청을 제1 코어 클러스터의 하나 이상의 캐시에 송신하고 캐시 무효화 요청을 제1 코어 클러스터 외부로 송신하는 것을 억제하는 동작, 플래그가 프로세서 공유 상태인 것으로 결정한 것에 응답하여, 캐시 무효화 요청을 제1 프로세서의 하나 이상의 캐시에 송신하지만 캐시 무효화 요청을 제1 프로세서 외부의 캐시들에 송신하는 것을 억제하는 동작을 포함하는 것을 선택적으로 제공할 수 있다.
본 개시내용은 제한된 수의 실시예들과 관련하여 설명되었지만, 본 기술분야의 통상의 기술자들은 그로부터의 다수의 수정 및 변형을 이해할 것이다. 첨부된 청구항들은 본 개시내용의 진정한 사상 및 범위 내에 속하는 바와 같은 그러한 모든 수정들 및 변형들을 커버하는 것이 의도된다.
설계는 작성으로부터 시뮬레이션을 거쳐 제조에 이르기까지 다양한 단계들을 거칠 수 있다. 설계를 표현하는 데이터는 다수의 방식으로 설계를 표현할 수 있다. 먼저, 시뮬레이션들에서 유용한 바와 같이, 하드웨어는 하드웨어 기술 언어(hardware description language) 또는 다른 기능 기술 언어(functional description language)를 사용하여 표현될 수 있다. 또한, 로직 및/또는 트랜지스터 게이트들을 갖는 회로 레벨 모델은 설계 프로세스의 일부 스테이지에서 생성될 수 있다. 더욱이, 대부분의 설계들은, 일부 스테이지에서, 하드웨어 모델의 다양한 디바이스들의 물리적 배치를 표현하는 데이터의 레벨에 도달한다. 종래의 반도체 제조 기술들이 사용되는 경우, 하드웨어 모델을 표현하는 데이터는 집적 회로를 생성하는데 사용되는 마스크들에 대한 상이한 마스크 층들 상의 다양한 피처들의 유무를 지정하는 데이터일 수 있다. 설계의 임의의 표현에서, 데이터는 임의의 형태의 머신 판독 가능 매체에 저장될 수 있다. 메모리, 또는 디스크와 같은 자기 또는 광학 스토리지는, 정보를 송신하기 위해 변조되거나 다른 방식으로 발생되는 광학 또는 전기파를 통해 송신되는 그러한 정보를 저장하는 머신 판독 가능 매체일 수 있다. 코드 또는 설계를 나타내거나 전달하는 전기 반송파가 송신될 때, 전기 신호의 복사, 버퍼링 또는 재송신이 수행되는 한, 새로운 사본이 만들어진다. 따라서, 통신 제공자 또는 네트워크 제공자는 본 개시내용의 실시예들의 기술들을 구현하는, 반송파 내에 인코딩된 정보와 같은 항목(article)을 유형의 머신 판독 가능 매체 상에 적어도 일시적으로 저장할 수 있다.
본 명세서에 사용되는 모듈은 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합을 지칭한다. 예로서, 모듈은 마이크로-제어기에 의해 실행되도록 적응된 코드를 저장하는 비일시적인 매체와 연관되는 마이크로-제어기와 같은 하드웨어를 포함한다. 따라서, 일 실시예에서, 모듈에 대한 참조는 비일시적인 매체 상에 유지될 코드를 인식 및/또는 실행하도록 특별히 구성되는 하드웨어를 지칭한다. 게다가, 또 다른 실시예에서, 모듈의 사용은 미리 결정된 동작들을 수행하기 위해 마이크로제어기에 의해 실행되도록 특별히 적응되는 코드를 포함하는 비일시적인 매체를 지칭한다. 그리고, 추정될 수 있는 바와 같이, 또 다른 실시예에서, (본 예에서) 모듈이라는 용어는 마이크로제어기와 비일시적인 매체의 조합을 지칭할 수 있다. 별개의 것으로 도시되는 모듈 경계들은 종종 공통으로 변하고 잠재적으로 겹친다. 예를 들어, 제1 및 제2 모듈은, 일부 독립적인 하드웨어, 소프트웨어, 또는 펌웨어를 잠재적으로 보유하면서, 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합을 공유할 수 있다. 일 실시예에서, 로직이라는 용어의 사용은 트랜지스터, 레지스터와 같은 하드웨어, 또는 프로그램 가능 로직 디바이스와 같은 그 외의 하드웨어를 포함한다.
일 실시예에서 '~ 하도록 구성된'이라는 문구를 사용하는 것은 지정된 또는 결정된 작업을 수행하기 위해 장치, 하드웨어, 로직 또는 요소를 정렬, 조립, 제조, 판매 제공, 수입 및/또는 설계하는 것을 지칭한다. 본 예에서, 동작하고 있지 않은 장치 또는 그 요소는 상기 지정된 작업을 수행하도록 설계, 결합 및/또는 인터커넥트되는 경우 여전히 지정된 작업을 수행'하도록 구성된다'. 단지 예시적인 예로서, 로직 게이트는 동작 동안 0 또는 1을 제공할 수 있다. 그러나 클록에 인에이블 신호를 제공'하도록 구성된' 로직 게이트는 1 또는 0을 제공할 수 있는 모든 가능한 로직 게이트를 포함하지 않는다. 오히려, 로직 게이트는 동작 동안 1 또는 0 출력이 클록을 인에이블하는 일부 방식으로 결합된 로직 게이트이다. '~ 하도록 구성된'이라는 용어의 사용은 동작을 요구하진 않지만 장치, 하드웨어 및/또는 요소의 잠재 상태에 초점을 맞춘 것임에 다시 한번 유의하고, 잠재 상태에서 장치, 하드웨어 및/또는 요소는 장치, 하드웨어 및/또는 요소가 동작 중일 때 특정 작업을 수행하도록 설계된다.
또한, 일 실시예에서 '~로', '~ 가능한/~ 하도록 가능한', 및 '~에 동작 가능한'이라는 문구의 사용은, 장치, 로직, 하드웨어 및/또는 요소의 사용을 특정 방식으로 인에이블시키는 방식으로 설계된 일부 장치, 로직, 하드웨어 및/또는 요소를 지칭한다. 위와 같이 유의할 점은, 일 실시예에서, ~로, ~하도록 가능한, 또는 ~에 동작 가능한의 사용은 장치, 로직, 하드웨어, 및/또는 요소의 잠재 상태를 지칭하며, 여기서 장치, 로직 하드웨어, 및/또는 요소는 동작 중이지는 않지만, 특정 방식으로 장치의 사용을 인에이블시키는 방식으로 설계되어 있다는 것이다.
본 명세서에서 사용된 값은, 숫자, 상태, 로직 상태, 또는 이진 로직 상태의 임의의 공지된 표현을 포함한다. 종종, 로직 레벨(logic level), 로직 값(logic value), 또는 로직적 값(logical value)의 사용은 단순히 이진 로직 상태를 나타내는 1들과 0들을 또한 지칭한다. 예를 들어, 1은 높은 로직 레벨을 지칭하고 0은 낮은 로직 레벨을 지칭한다. 일 실시예에서, 트랜지스터 또는 플래시 셀과 같은 저장 셀은 단일 로직 값 또는 다중 로직 값을 보유할 수 있다. 그러나, 컴퓨터 시스템에서의 값들에 대한 그 외의 표현들이 사용되어 왔다. 예를 들어, 십진법 수 10은 이진값의 910 및 16진법의 문자 A로서 표현될 수도 있다. 따라서, 값은 컴퓨터 시스템 내에 보유될 수 있는 정보의 임의의 표현을 포함한다.
게다가, 상태들은 값들 또는 값들의 부분에 의해 표현될 수 있다. 일례로서, 로직 1과 같은 제1 값은 디폴트 또는 초기 상태를 표현할 수 있고, 로직 0과 같은 제2 값은 디폴트가 아닌 상태를 표현할 수 있다. 또한, 일 실시예에서, 리셋 및 세트라는 용어들은 각각 디폴트 및 업데이트된 값 또는 상태를 지칭한다. 예를 들어, 디폴트 값은 잠재적으로 높은 로직 값, 즉 리셋을 포함하지만, 업데이트된 값은 잠재적으로 낮은 로직 값, 즉 세트를 포함한다. 값들의 임의의 조합이 임의의 수의 상태를 표현하는데 이용될 수 있음에 유의한다.
전술한 방법들, 하드웨어, 소프트웨어, 펌웨어 또는 코드 세트의 실시예들은 프로세싱 요소에 의해 실행 가능한 머신 액세스 가능, 머신 판독 가능, 컴퓨터 액세스 가능, 또는 컴퓨터 판독 가능 매체 상에 저장된 명령어들 또는 코드를 통해 구현될 수 있다. 비일시적인 머신 액세스 가능/판독 가능 매체는 컴퓨터 또는 전자 시스템과 같은 머신에 의해 판독 가능한 형태로 정보를 제공(즉, 저장 및/또는 송신)하는 임의의 메커니즘을 포함한다. 예를 들어, 비일시적인 머신 액세스 가능 매체는 정적 RAM(SRAM) 또는 동적 RAM(DRAM)과 같은 랜덤 액세스 메모리(RAM); ROM; 자기 또는 광학 저장 매체; 플래시 메모리 디바이스; 전기 저장 디바이스; 광학 저장 디바이스; 음향 저장 디바이스; 그로부터 정보를 수신할 수 있는 비일시적인 매체와 구별되는 일시적인(전파된) 신호(예를 들어, 반송파, 적외선 신호, 디지털 신호)로부터 수신된 정보를 유지하기 위한 다른 형태의 저장 디바이스를 포함한다.
본 개시내용의 실시예들을 수행하는 로직을 프로그래밍하는 데 사용되는 명령어들은 DRAM, 캐시, 플래시 메모리, 또는 다른 스토리지와 같은 시스템 내의 메모리 내에 저장될 수 있다. 또한, 이러한 명령어들은 네트워크를 통해 또는 다른 컴퓨터 판독 가능 매체에 의해 분포될 수 있다. 따라서, 머신 판독 가능 매체는 머신(예컨대, 컴퓨터)에 의해 판독 가능한 형태로 정보를 저장하거나 송신하기 위한 임의의 메커니즘을 포함할 수 있지만, 플로피 디스켓, 광학 디스크, 콤팩트 디스크, 판독 전용 메모리(CD-ROM), 및 광자기 디스크, 판독 전용 메모리(ROMs), 랜덤 액세스 메모리(RAM), EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 자기 또는 광학 카드, 플래시 메모리, 또는 전기, 광학, 음향, 또는 다른 형태의 전파 신호들(예컨대, 반송파들, 적외선 신호들, 디지털 신호들 등)을 통해 인터넷을 경유하여 정보를 송신하는데 사용되는 유형의 머신 판독 가능 스토리지에 제한되지는 않는다. 따라서, 컴퓨터 판독가능 매체는, 머신(예를 들어, 컴퓨터)에 의해 판독 가능한 형태로 전자적 명령어들 또는 정보를 저장하거나 송신하기에 적합한 임의의 타입의 유형의 머신 판독가능 매체를 포함한다.
본 명세서 전체에 걸쳐 "일 실시예" 또는 "실시예"라는 언급은 그 실시예와 관련하여 기술된 특정한 피처, 구조 또는 특성이 본 개시내용의 적어도 하나의 실시예에 포함되어 있다는 것을 의미한다. 따라서, 본 명세서 전체의 다양한 곳에서 "일 실시예에서" 또는 "실시예에서"라는 문구들의 출현들은 반드시 모두가 동일 실시예를 지칭하지는 않는다. 더욱이, 특정한 피처들, 구조들, 또는 특성들은 하나 이상의 실시예에서 임의의 적합한 방식으로 결합될 수 있다.
상기 명세서에서, 상세한 설명은 특정한 예시적인 실시예들과 관련하여 주어졌다. 그러나, 첨부된 청구항들에서 설명되는 바와 같은 본 개시내용의 더 넓은 사상 및 범위로부터 벗어나지 않고서 실시예들에 대해 다양한 수정들 및 변경들이 이루어질 수 있다는 것이 명백할 것이다. 따라서, 본 명세서 및 도면들은 한정적인 의미가 아니라 예시적인 의미로 간주되어야 한다. 또한, 실시예 및 기타 예시적인 언어의 앞선 사용은 반드시 동일한 실시예 또는 동일한 예를 지칭할 필요는 없지만, 상이하고 구별되는 실시예들 뿐만아니라, 잠재적으로 동일한 실시예를 지칭할 수도 있다.

Claims (21)

  1. 프로세서로서,
    캐시 라인을 포함하는 제1 캐시를 포함하는 제1 코어;
    제2 캐시를 포함하는 제2 코어; 및
    상기 제1 캐시의 캐시 라인의 플래그 섹션(flag section)에 저장된 플래그를, 상기 제1 캐시에 저장된 데이터가 상기 제2 캐시에 의해 공유된 것에 응답하여 프로세서 공유(processor share)(PS) 상태로 설정하거나, 또는 상기 제1 캐시 라인에 저장된 상기 데이터가 제2 프로세서의 제3 캐시에 의해 공유된 것에 응답하여 글로벌 공유(global share)(GS) 상태로 설정하는 캐시 제어기
    를 포함하는 프로세서.
  2. 제1항에 있어서, 상기 제1 코어는 제1 코어 클러스터 내에 있고, 상기 제2 코어는 제2 코어 클러스터 내에 있는 프로세서.
  3. 제2항에 있어서, 상기 캐시 제어기는, 상기 캐시 라인에 저장된 상기 데이터가 제3 코어의 제4 캐시에 의해 공유된 것으로 결정한 것에 응답하여 상기 플래그를 클러스터 공유(cluster share)(CS) 상태로 설정하고, 상기 제1 코어 및 상기 제3 코어는 모두 상기 프로세서의 제1 코어 클러스터 내에 있고, 상기 캐시 라인에 저장된 상기 데이터는 상기 제2 코어 또는 상기 제2 프로세서에 의해 공유되지 않는 프로세서.
  4. 제1항 내지 제3항 중 어느 항에 있어서, 상기 캐시 제어기는 상기 플래그를, 상기 캐시 라인에 저장된 상기 데이터가 메모리에 저장된 상기 데이터의 사본(copy)으로부터 수정된 것에 응답하여 수정(modified)(M) 상태로 설정하거나, 상기 캐시 라인에 저장된 상기 데이터가 다른 캐시에 의해 공유되지 않는다는 결정에 응답하여 독점(exclusive)(E) 상태로 설정하거나, 또는 상기 캐시 라인에 저장된 상기 데이터가 무효한 것에 응답하여 무효(invalid) 상태(I)로 설정하는 프로세서.
  5. 제1항 내지 제3항 중 어느 항에 있어서, 상기 캐시 라인은 상기 데이터를 저장하는 데이터 섹션, 및 상기 데이터의 대응하는 사본이 저장되는 메모리의 어드레스를 저장하는 태그 섹션을 더 포함하는 프로세서.
  6. 제4항에 있어서, 상기 캐시 제어기는,
    상기 제1 캐시의 캐시 라인에 저장된 상기 데이터에 대해 상기 제3 코어로부터 캐시 히트(cache hit)를 검출한 것에 응답하여, 상기 캐시 라인의 플래그를 상기 독점 상태로부터 상기 클러스터 공유 상태로 설정하고;
    상기 프로세서의 제2 코어 클러스터 내의 제4 코어로부터 캐시 히트를 검출한 것에 응답하여, 상기 캐시 라인의 플래그를 상기 독점 상태 또는 상기 클러스터 공유 상태 중 하나로부터 상기 프로세서 공유 상태로 설정하고;
    상기 제2 프로세서로부터 캐시 히트를 검출한 것에 응답하여, 상기 캐시 라인의 플래그를 상기 독점 상태, 상기 클러스터 공유 상태 또는 상기 프로세서 공유 상태 중 하나로부터 상기 글로벌 공유 상태로 설정하는 프로세서.
  7. 제4항에 있어서, 상기 캐시 제어기는, 상기 캐시 라인에 저장된 상기 데이터에 대한 기입 히트를 검출한 것에 응답하여, 상기 플래그가 어떤 상태인지를 추가로 결정하는 프로세서.
  8. 제7항에 있어서, 상기 캐시 제어기는, 상기 플래그가 상기 클러스터 공유 상태를 나타낸다고 결정한 것에 응답하여, 캐시 무효화 요청을 상기 제1 코어 클러스터의 하나 이상의 캐시에 추가로 송신하는 프로세서.
  9. 제8항에 있어서, 상기 캐시 무효화 요청은 상기 제1 코어 클러스터 내의 하나 이상의 캐시에만 송신되고, 상기 캐시 제어기는 상기 프로세서의 코어 간 인터커넥트(inter-core interconnect) 상에서 상기 캐시 무효화 요청을 송신하는 프로세서.
  10. 제7항에 있어서, 상기 캐시 제어기는, 상기 플래그가 상기 프로세서 공유 상태를 나타낸다고 결정한 것에 응답하여, 캐시 무효화 요청을 상기 프로세서의 하나 이상의 캐시에 송신하는 프로세서.
  11. 제10항에 있어서, 상기 캐시 무효화 요청은 상기 프로세서 내의 캐시들에만 송신되고, 상기 캐시 제어기는 상기 캐시 무효화 요청을 상기 프로세서의 클러스터 간 인터커넥트(inter-cluster interconnect) 상에서 송신하는 프로세서.
  12. 제7항에 있어서, 상기 캐시 제어기는, 상기 플래그가 상기 글로벌 공유 상태를 나타낸다고 결정한 것에 응답하여, 캐시 무효화 요청을 상기 프로세서 및 상기 제2 프로세서 내의 하나 이상의 캐시에 송신하는 프로세서.
  13. 제12항에 있어서, 상기 캐시 제어기는 상기 캐시 무효화 요청을 상기 제1 프로세서와 상기 제2 프로세서 사이에 결합된 프로세서 간 인터커넥트(inter-processor interconnect) 상에서 송신하는 프로세서.
  14. 시스템 온 칩(system-on-a-chip)(SoC)으로서,
    메모리; 및
    제1 프로세서
    를 포함하고, 상기 제1 프로세서는,
    제1 캐시를 포함하는 제1 코어와 제2 캐시를 포함하는 제2 코어를 포함하는 제1 코어 클러스터; 및
    상기 제1 캐시의 캐시 라인의 플래그 섹션에 저장된 플래그를, 상기 캐시 라인에 저장된 데이터가 상기 제2 캐시에 의해 공유된 것에 응답하여 클러스터 공유(CS) 상태로 설정하거나, 또는 상기 캐시 라인에 저장된 상기 데이터가 상기 SoC의 제2 프로세서의 제3 캐시에 의해 공유된 것에 응답하여 글로벌 공유(GS) 상태로 설정하는 캐시 제어기
    를 포함하는 SoC.
  15. 제14항에 있어서, 상기 캐시 제어기는, 상기 캐시 라인에 저장된 상기 데이터가 상기 제1 프로세서의 제2 코어 클러스터 내의 제4 캐시에 의해 공유된 것에 응답하여 상기 캐시 라인의 플래그를 프로세서 공유(PS) 상태로 설정하고, 상기 데이터는 상기 제2 프로세서에 의해 공유되지 않는 SoC.
  16. 제14항 또는 제15항에 있어서, 상기 캐시 라인은 상기 데이터를 저장하는 데이터 섹션 및 상기 데이터의 사본이 저장되는 상기 메모리의 어드레스를 저장하는 태그 섹션을 더 포함하는 SoC.
  17. 방법으로서,
    캐시 제어기에 의해, 제1 프로세서의 제1 코어 클러스터에 상주하는 제1 코어의 제1 캐시의 캐시 라인에 저장된 데이터 아이템을 판독하라는 요청을 수신하는 단계;
    상기 요청의 요청자가 상기 제1 코어 클러스터와 연관되고 플래그 섹션에 저장된 플래그가 상기 제1 캐시에 대한 독점 상태인 것을 결정한 것에 응답하여, 상기 캐시 라인의 상기 플래그 섹션에 저장된 플래그를 클러스터 공유로 설정하는 단계; 및
    상기 요청자가 상기 제1 프로세서의 제2 코어 클러스터와 연관되고 상기 플래그 섹션에 저장된 상기 상태가 상기 독점 상태 또는 상기 클러스터 공유 상태 중 하나인 것을 결정한 것에 응답하여, 상기 캐시 라인의 상기 플래그 섹션에 저장된 플래그를 프로세서 공유 상태로 설정하는 단계
    를 포함하는 방법.
  18. 제17항에 있어서, 상기 요청자가 제2 프로세서 내에 있다고 결정한 것에 응답하여, 상기 캐시 라인의 상기 플래그 섹션에 저장된 플래그를 글로벌 공유 상태로 설정하는 단계를 더 포함하는 방법.
  19. 제17항 또는 제18항에 있어서, 상기 데이터를 상기 제1 캐시로부터 상기 요청자에게 송신하는 단계를 더 포함하는 방법.
  20. 제17항 또는 제18항에 있어서, 상기 방법은,
    데이터 아이템을 상기 캐시 라인에 기입하라는 요청을 수신하는 단계;
    상기 캐시 라인의 상기 플래그 섹션에 저장된 플래그를 결정하는 단계;
    상기 플래그가 상기 클러스터 공유 상태인 것으로 결정한 것에 응답하여, 캐시 무효화 요청을 상기 제1 코어 클러스터의 하나 이상의 캐시에 송신하고, 상기 캐시 무효화 요청을 상기 제1 코어 클러스터 외부로 송신하는 것을 억제하는 단계; 및
    상기 플래그가 상기 프로세서 공유 상태인 것으로 결정한 것에 응답하여, 상기 캐시 무효화 요청을 상기 제1 프로세서의 하나 이상의 캐시에 송신하지만, 상기 캐시 무효화 요청을 상기 제1 프로세서 외부의 캐시들에 송신하는 것을 억제하는 단계
    를 더 포함하는 방법.
  21. 제17항 또는 제18항의 방법을 수행하기 위한 수단을 포함하는 장치.
KR1020177004794A 2014-09-25 2014-09-25 확장된 mesi 프로토콜을 이용하는 멀티 프로세서 시스템의 인터커넥트 트래픽 감소 KR20170033407A (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2014/087409 WO2016045039A1 (en) 2014-09-25 2014-09-25 Reducing interconnect traffics of multi-processor system with extended mesi protocol

Publications (1)

Publication Number Publication Date
KR20170033407A true KR20170033407A (ko) 2017-03-24

Family

ID=55580087

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177004794A KR20170033407A (ko) 2014-09-25 2014-09-25 확장된 mesi 프로토콜을 이용하는 멀티 프로세서 시스템의 인터커넥트 트래픽 감소

Country Status (5)

Country Link
US (1) US20170242797A1 (ko)
EP (1) EP3198824A4 (ko)
KR (1) KR20170033407A (ko)
CN (1) CN106716949B (ko)
WO (1) WO2016045039A1 (ko)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10324861B2 (en) * 2015-02-05 2019-06-18 Eta Scale Ab Systems and methods for coherence in clustered cache hierarchies
US10691621B2 (en) * 2018-04-12 2020-06-23 Sony Interactive Entertainment Inc. Data cache segregation for spectre mitigation
US11150902B2 (en) 2019-02-11 2021-10-19 International Business Machines Corporation Processor pipeline management during cache misses using next-best ticket identifier for sleep and wakeup
US11321146B2 (en) 2019-05-09 2022-05-03 International Business Machines Corporation Executing an atomic primitive in a multi-core processor system
US11681567B2 (en) * 2019-05-09 2023-06-20 International Business Machines Corporation Method and processor system for executing a TELT instruction to access a data item during execution of an atomic primitive
CN111427817B (zh) * 2020-03-23 2021-09-24 深圳震有科技股份有限公司 一种amp系统双核共用i2c接口的方法、存储介质及智能终端
CN112799587A (zh) * 2020-11-23 2021-05-14 哲库科技(北京)有限公司 处理器系统、核间通信方法、处理器以及存储单元
WO2022251333A2 (en) * 2021-05-28 2022-12-01 MemComputing, Inc. Memory graphics processing unit
US11868259B2 (en) * 2022-04-04 2024-01-09 International Business Machines Corporation System coherency protocol

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030131201A1 (en) * 2000-12-29 2003-07-10 Manoj Khare Mechanism for efficiently supporting the full MESI (modified, exclusive, shared, invalid) protocol in a cache coherent multi-node shared memory system
US20050027946A1 (en) * 2003-07-30 2005-02-03 Desai Kiran R. Methods and apparatus for filtering a cache snoop
US7577797B2 (en) * 2006-03-23 2009-08-18 International Business Machines Corporation Data processing system, cache system and method for precisely forming an invalid coherency state based upon a combined response
US8495308B2 (en) * 2006-10-09 2013-07-23 International Business Machines Corporation Processor, data processing system and method supporting a shared global coherency state
CN102103568B (zh) * 2011-01-30 2012-10-10 中国科学院计算技术研究所 片上多核处理器系统的高速缓存一致性协议的实现方法
CN102270180B (zh) * 2011-08-09 2014-04-02 清华大学 一种多核处理器系统的管理方法
JP5971036B2 (ja) * 2012-08-30 2016-08-17 富士通株式会社 演算処理装置及び演算処理装置の制御方法
US20140189255A1 (en) * 2012-12-31 2014-07-03 Ramacharan Sundararaman Method and apparatus to share modified data without write-back in a shared-memory many-core system

Also Published As

Publication number Publication date
US20170242797A1 (en) 2017-08-24
EP3198824A1 (en) 2017-08-02
CN106716949B (zh) 2020-04-14
EP3198824A4 (en) 2018-05-23
CN106716949A (zh) 2017-05-24
WO2016045039A1 (en) 2016-03-31

Similar Documents

Publication Publication Date Title
US10108556B2 (en) Updating persistent data in persistent memory-based storage
US10489309B2 (en) Memory protection key architecture with independent user and supervisor domains
US10089229B2 (en) Cache allocation with code and data prioritization
CN106716949B (zh) 用于管理高速缓存的方法和装置
US10901899B2 (en) Reducing conflicts in direct mapped caches
US20160350019A1 (en) Access control for memory protection key architecture
US9836399B2 (en) Mechanism to avoid hot-L1/cold-L2 events in an inclusive L2 cache using L1 presence bits for victim selection bias
US10649899B2 (en) Multicore memory data recorder for kernel module
US10102129B2 (en) Minimizing snoop traffic locally and across cores on a chip multi-core fabric
US20170357599A1 (en) Enhancing Cache Performance by Utilizing Scrubbed State Indicators Associated With Cache Entries
US20190179766A1 (en) Translation table entry prefetching in dynamic binary translation based processor
US10664199B2 (en) Application driven hardware cache management
US10705962B2 (en) Supporting adaptive shared cache management
US10133669B2 (en) Sequential data writes to increase invalid to modified protocol occurrences in a computing system
US10558602B1 (en) Transmit byte enable information over a data bus
US10877886B2 (en) Storing cache lines in dedicated cache of an idle core
WO2018001528A1 (en) Apparatus and methods to manage memory side cache eviction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right