KR101483849B1 - 계층적으로 캐싱되는 프로세서들에서의 조정된 프리페칭 - Google Patents
계층적으로 캐싱되는 프로세서들에서의 조정된 프리페칭 Download PDFInfo
- Publication number
- KR101483849B1 KR101483849B1 KR20130029235A KR20130029235A KR101483849B1 KR 101483849 B1 KR101483849 B1 KR 101483849B1 KR 20130029235 A KR20130029235 A KR 20130029235A KR 20130029235 A KR20130029235 A KR 20130029235A KR 101483849 B1 KR101483849 B1 KR 101483849B1
- Authority
- KR
- South Korea
- Prior art keywords
- prefetch
- cache
- unit
- stream
- level
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/44—Encoding
- G06F8/443—Optimisation
- G06F8/4441—Reducing the execution time required by the program code
- G06F8/4442—Reducing the number of cache misses; Data prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30003—Arrangements for executing specific machine instructions
- G06F9/3004—Arrangements for executing specific machine instructions to perform operations on memory
- G06F9/30047—Prefetch instructions; cache control instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0893—Caches characterised by their organisation or structure
- G06F12/0897—Caches characterised by their organisation or structure with two or more cache hierarchy levels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6024—History based prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6026—Prefetching based on access pattern detection, e.g. stride based prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6028—Prefetching based on hints or prefetch instructions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
복수의 캐시 레벨들에서 프리페치 유닛들을 조정하기 위한 프로세서들 및 방법들이 개시된다. 단일의 통일된 트레이닝 메커니즘을 활용하여 프로세서 코어에 의해 생성하는 스트림들에 대해 트레이닝한다. 프리페치 요구들이 코어로부터 하위 레벨 캐시들에 전송되고, 패킷이 각 프리페치 요구와 함께 전송된다. 패킷은 프리페치 요구의 스트림 ID를 식별하고, 특정 스트림 ID에 대한 관련 트레이닝 정보를 포함한다. 하위 레벨 캐시들은 수신된 트레이닝 정보에 기초하여 프리페치 요구들을 생성한다.
Description
본 발명은 일반적으로 캐시 성능에 관한 것이고, 특히, 다중 레벨들의 캐시들을 갖는 프로세서들에서 데이터를 프리페치하기 위한 방법들 및 메커니즘들에 관한 것이다.
메모리 레이턴시(memory latency)는 주로 주어진 시스템에서 프로세서의 성능(예를 들어, 초당 실행되는 명령어들)을 결정함에 있어서 큰 인자이다. 시간이 흘러, 프로세서들의 동작 주파수들은 극적으로 증가한 반면, 통상적인 시스템에서 DRAM(dynamic random access memory)에의 액세스를 위한 레이턴시(latency)는 동일한 속도로 감소하지 않았다. 따라서, 외부 메모리에 액세스하는 데 요구되는 프로세서 클록들의 수는 증가하였다. 따라서, 메모리 장치들의 비교적 낮은 속도를 보상하기 위한 기법들이 개발되었다. 하나의 기법은 프로세서에 가까이 배치된 하나 이상의 캐시에 데이터를 캐싱(caching)하는 것이다. 캐시들은 프로세서 내로 통합되거나 바로 가까이에 결합되는 비교적 작은, 저레이턴시 메모리들이다.
프로세서들은 통상적으로 캐시들을 이용하여 프로세서 성능에 대한 메모리 레이턴시의 영향들을 방지한다. 메모리 액세스들의 증가하는 레이턴시를 완화하기 위한 하나의 방법은 캐시 내로 데이터를 프리페치(prefetch)하는 것이다. 용어 "프리페치"는 일반적으로 그 데이터가 실제로 프로그램 내의 명령어들에 의한 계산을 위해 요구되기 전에 메모리로부터 데이터를 페칭(fetching)하는 것을 가리킬 수 있다. 메모리 대역폭이 효과적으로 활용될 수 있는 하나의 방법은, 곧 액세스될 정보를 예측하고 나서 그 정보를 메모리 시스템으로부터 캐시 내로 프리페치하는 것이다. 예측이 올바르다면, 정보는 실제 요구시에 캐시 히트(cache hit)일 수 있고, 따라서 실제 요구들에 대한 유효 메모리 레이턴시는 감소할 수 있다. 다른 한편으로, 예측이 올바르지 않다면, 프리페치된 정보는 캐시 내의 유용한 정보를 대체할 수 있어, 프리페치가 이용되지 않고 따라서 유효 메모리 레이턴시가 증가한 경우보다 더 많은 캐시 미스(cache miss)들을 경험하게 될 수 있다.
특정 타입들의 컴퓨터 프로그램들은 긴 데이터 시퀀스를 프로세싱하고, 시퀀스의 각 요소는 한번만 액세스된다. 이러한 타입의 액세스 패턴은 보통 캐시 미스를 일으키는데, 그것은 요구된 데이터가 그것이 필요한 시간에 캐시에 있지 않기 때문이다. 이러한 타입의 액세스를 특정 멀티미디어 애플리케이션들에서 일반적인 "데이터 스트림" 또는 "스트림"이라고 할 수 있다. 스트림의 예측에 기초한 데이터 프리페치는 캐시 미스를 방지하고 프로세서 효율을 향상시키는 데 도움을 줄 수 있다.
가장 간단한 타입의 프리페치 예측은 단위 스트라이드 예측(unit stride prediction)이다. 예를 들어, 트레이닝 메커니즘(training mechanism)이 캐시 라인들 L 및 L+1에 대한 액세스들을 검출할 수 있다. 따라서, 트레이닝 메커니즘은 스트라이드가 1이라고 검출할 수 있고, 그래서 프리페치 유닛은 캐시 라인들 L+2, L+3 등의 프리페치를 시작할 수 있다. 다른 실시예들에서, 다른 비-단위 스트라이드들이 검출될 수 있고, 또한, 스트라이드들은 단지 오름차순 어드레스들 대신에 내림차순 어드레스들일 수 있다.
현대의 수퍼스칼라 프로세서들은 더 높은 성능을 실현하기 위하여 메모리 액세스들의 재정렬(reordering)을 수반하는 매우 공격적인 추측 기법들을 이용한다. 메모리 액세스들의 재정렬에 의해, 동작이 기계의 프론트 엔드로부터 더 진행할수록 메모리 스트림에서의 임의의 식별 가능한 패턴의 난독화를 일으킨다. 또한, 하위 레벨 캐시들은 복수의 코어들로부터의 동시 요구 스트림들과 경합해야 하고, 이것은 이들 액세스 패턴들의 엔트로피(entropy)를 더 증가시킨다. 일부 저자들은 코어에 더 가까운 캐시들을 가리키기 위해 하위 레벨 캐시라는 용어를 이용하고, 다른 저자들은 코어로부터 더 먼 캐시들을 가리키기 위해 그 용어를 이용한다. 본원에서 이용되는 바와 같이, 용어 "하위 레벨 캐시들"은 코어로부터 더 멀리 떨어진 캐시들(예를 들어, L2 캐시, L3 캐시)을 가리키고, 용어 "상위 레벨 캐시"는 코어에 더 가까운 캐시들(예를 들어, L1 캐시)을 가리킬 수 있다.
메모리 액세스들이 메모리에 더 가까워질수록, 그것들의 원래의 순서에 대하여 메모리 액세스들은 더 혼동되게 된다. 결과로서, 하위 레벨 캐시들에서의 연속 메모리 액세스들 사이의 공통 스트라이드를 검출하는 것은 더 어려워지는데, 그 이유는 메모리 액세스들이 기계의 각 레벨에서 재정렬되게 되기 때문이다. 따라서, 하위 레벨 캐시들에서의 프리페치 유닛들은 혼동된 메모리 스트림들과 경합해야 하고, 종종 스트림에 걸친 공통 패턴을 식별하지 못한다. 이것은 캐시 계층구조의 저레벨들에서 프리페치의 유효성을 실질적으로 감소시킨다.
계층적으로 캐싱되는 프로세서들(hierarchically cached processors)에서 조정된 프리페칭(coordinated prefetching)을 수행하기 위한 시스템들, 프로세서들 및 방법들이 고려된다. 일 실시예에서, 코어당 하나의 중앙집권화된 프리페치 트레이닝 메커니즘(one centralized prefetch training mechanism per core)이 스트림들에 대해 트레이닝하는데 활용될 수 있다. 트레이닝 메커니즘에 의해 생성된 트레이닝 정보는 캐시 계층구조의 복수의 레벨들에서 프리페치 요구들을 생성하는 데 활용될 수 있다. 별개의 캐시 레벨들에서 2개 이상의 프리페치 유닛들은 공유된 트레이닝 메커니즘에 의해 획득된 정보를 활용하여 조정될 수 있다. 일 실시예에서, 트레이닝 메커니즘은 코어 내의 프리페치 유닛 내에 배치될 수 있고, 프리페치 유닛은 L1 캐시에 결합된다.
일 실시예에서, 트레이닝 메커니즘은 프로세서 코어에 의해 생성된 복수의 스트림에 대해 동시에 트레이닝하도록 구성될 수 있다. 주어진 스트림에 대해, 트레이닝 메커니즘은 스트림의 메모리 액세스들을 모니터하여 스트림의 스트라이드(stride)를 검출할 수 있다. 그 다음, 트레이닝 메커니즘은 스트림에 식별자(ID)를 할당하고 스트림이 프리페치를 위해 살아 있음(live)을 표시할 수 있다. 일부 실시예들에서, 프로세서는 복수의 코어들을 포함할 수 있고, 각 코어는 그의 개개의 L1 프리페치 유닛 내에 중앙집권화된 트레이닝 메커니즘을 유지할 수 있다. 하위 레벨 프리페치 유닛들은 각각의 L1 프리페치 유닛으로부터 트레이닝 정보를 수신할 수 있다.
일 실시예에서, 프로세서는 적어도 L1 및 L2 캐시들과 L1 및 L2 프리페치 유닛들을 포함할 수 있다. L1 프리페치 유닛은 L2 캐시에 프리페치 요구들을 전송할 수 있고, L1 프리페치 유닛은 각 프리페치 요구와 함께 패킷을 전송할 수 있다. 패킷은 프리페치 요구 및 대응하는 스트림과 연관된 스트림 식별자(ID) 및 속성들을 포함할 수 있다. 속성들은 스트라이드, 페이지 크기, 시간적/비-시간적 상태, 로드/저장 표시자, 디맨드 및 프리페치 어드레스들, 및 다른 정보를 포함할 수 있다. L2 프리페치 유닛은 프리페치 요구들을 생성하기 위해 패킷으로부터의 속성들을 활용할 수 있다. L2 프리페치 유닛은 또한 검색된 프리페치 데이터를 프로세싱하고 저장하는 법을 결정하기 위하여 패킷으로부터의 속성들을 활용할 수 있다.
일 실시예에서, L1 프리페치 유닛은 트레이닝된 스트림들에 대한 정보를 갖는 테이블을 유지할 수 있다. 또한, L2 프리페치 유닛은 또한 트레이닝된 스트림들에 대한 정보를 갖는 테이블을 유지할 수 있다. L2 프리페치 유닛에 의해 유지된 테이블은 L1 프리페치 유닛에 의해 활용되는 테이블의 미러링된 버전(mirrored version)일 수 있다. L2 프리페치 유닛이 코어로부터 프리페치 요구 및 동반하는 패킷을 수신할 때, 패킷으로부터의 속성들은 테이블 내의 대응하는 엔트리에 저장될 수 있다. 또한, 임의의 부가적인 하위 레벨 캐시들(예를 들어, L3)은 상위 레벨 캐시들의 테이블들에 동기화되는 테이블들을 유지할 수 있다.
일 실시예에서, 하나의 코어 및 하나의 L1 캐시를 갖는 프로세서에 대하여, L2 프리페치 테이블은 일대일 맵핑으로 L1 프리페치 테이블과 동일한 크기로 될 수 있다. 다른 실시예에서, 2개의 코어 및 2개의 L1 캐시들을 갖는 프로세서에 대하여, L2 테이블은 L1 테이블들의 결합만큼 클 수 있고, 2개의 별개의 L1 테이블들의 엔트리들 전부가 L2 테이블에 저장될 수 있다. 추가 실시예에서, 부가적인 수의 코어들에 대하여, L2 테이블은 L1 테이블들 전부로부터의 엔트리들 전부를 저장하도록 크기가 정해질 수 있다.
이들 및 다른 특징들 및 이점들은 본원에 제시된 접근법들에 대한 다음의 상세한 설명에 비추어 이 기술분야의 통상의 기술자에게 명백해질 것이다.
방법들 및 메커니즘들의 상기 및 추가 이점들은 첨부 도면들과 결합하여 다음의 설명을 참조함으로써 더 잘 이해될 수 있다.
도 1은 IC의 일부분의 일 실시예를 도시하는 블록도이다.
도 2는 프로세서 코어의 일 실시예를 도시하는 블록도이다.
도 3은 L1 및 L2 프리페치 유닛들의 일 실시예의 블록도이다.
도 4는 프리페치 트레이닝 테이블의 일 실시예를 도시한다.
도 5는 캐시의 별개의 레벨들의 프리페치 테이블들 사이의 맵핑의 일 실시예의 블록도이다.
도 6은 L2 및 L3 프리페치 유닛들의 일 실시예의 블록도이다.
도 7은 프리페치 요구들을 생성하기 위한 방법의 일 실시예를 도시하는 일반화된 흐름도이다.
도 8은 시스템의 일 실시예의 블록도이다.
도 9는 컴퓨터 판독 가능한 매체의 일 실시예의 블록도이다.
도 1은 IC의 일부분의 일 실시예를 도시하는 블록도이다.
도 2는 프로세서 코어의 일 실시예를 도시하는 블록도이다.
도 3은 L1 및 L2 프리페치 유닛들의 일 실시예의 블록도이다.
도 4는 프리페치 트레이닝 테이블의 일 실시예를 도시한다.
도 5는 캐시의 별개의 레벨들의 프리페치 테이블들 사이의 맵핑의 일 실시예의 블록도이다.
도 6은 L2 및 L3 프리페치 유닛들의 일 실시예의 블록도이다.
도 7은 프리페치 요구들을 생성하기 위한 방법의 일 실시예를 도시하는 일반화된 흐름도이다.
도 8은 시스템의 일 실시예의 블록도이다.
도 9는 컴퓨터 판독 가능한 매체의 일 실시예의 블록도이다.
다음의 설명에서, 본원에 제시된 방법들 및 메커니즘들의 철저한 이해를 제공하기 위해 다수의 특정 상세들이 제시된다. 그러나, 이 기술분야의 통상의 기술자는 이들 특정 상세들 없이 다양한 실시예들이 실시될 수 있다는 것을 인식해야 한다. 일부 경우들에서, 잘 알려진 구조들, 컴포넌트들, 신호들, 컴퓨터 프로그램 명령어들, 및 기법들은 본원에 설명된 접근법들을 불명료하게 하는 것을 피하기 위해 상세하게 나타내지 않았다. 예시의 간단함 및 명확함을 위해, 도면들에 도시된 요소들은 반드시 비례적으로 그려지지는 않았다는 것을 알 것이다. 예를 들어, 요소들 중 일부의 치수들은 다른 요소들에 비해 과장될 수 있다.
이 명세서는 "일 실시예"에 대한 참조들을 포함한다. 상이한 문맥들에서 "일 실시예에서"라는 구절의 출현은 반드시 동일한 실시예를 가리키지는 않는다. 특정 특징들, 구조들, 또는 특성들은 본 개시와 일관되는 임의의 적절한 방식으로 결합될 수 있다. 또한, 이 출원 전체에 걸쳐서 이용되는 바와 같이, 단어 "~할 수 있다(may)"는 의무적인 의미(즉, ~해야 한다(must)는 의미)라기보다는, 허용적인 의미(즉, ~할 가능성이 있다는 의미)로 이용된다. 유사하게, 단어들 "포함한다(include)", "포함하는(including)", 및 "포함한다(includes)"는 포함하지만 그것으로 한정되지 않음을 의미한다.
전문용어. 다음 단락들은 본 개시(첨부된 청구항들을 포함함)에서 발견되는 용어들에 대한 정의들 및/또는 문맥을 제공한다:
"포함하는(comprising)". 이 용어는 오픈 엔드형(open-ended)이다. 첨부된 청구항들에서 이용되는 바와 같이, 이 용어는 부가적인 구조 또는 단계들을 배제하지 않는다. "프리페치 유닛을 포함하는 장치..."라고 기재하는 청구항을 고려해보라. 이러한 청구항은 장치가 부가적인 컴포넌트들(예를 들어, 캐시, 메모리 컨트롤러, 버스 인터페이스 유닛)을 포함하는 것을 배제하지 않는다.
"~하도록 구성되는(configured To)". 다양한 유닛들, 회로들, 또는 다른 컴포넌트들은 태스크 또는 태스크들을 수행"하도록 구성되는" 것으로서 설명 또는 청구될 수 있다. 이러한 문맥들에서, "~하도록 구성되는"은 유닛들/회로들/컴포넌트들이 동작 동안 태스크 또는 태스크들을 수행하는 구조(예를 들어, 회로)를 포함함을 표시함으로써 구조를 함축하는 데 이용된다. 이와 같이, 유닛/회로/컴포넌트는 특정된 유닛/회로/컴포넌트가 현재 동작하지 않을 때에도(예를 들어, 온(on) 상태가 아닐 때에도) 태스크를 수행하도록 구성되어 있다고 말할 수 있다. "~하도록 구성되는" 언어와 이용되는 유닛들/회로들/컴포넌트들은 하드웨어 - 예를 들어, 회로들, 동작을 구현하기 위해 실행 가능한 프로그램 명령어들을 저장하는 메모리, 등을 포함한다. 유닛/회로/컴포넌트가 하나 이상의 태스크를 수행"하도록 구성"된다는 기재는 그 유닛/회로/컴포넌트에 대해, 35 U.S.C. §112, 6절을 적용하지 않도록 명백하게 의도된다. 부가적으로, "~하도록 구성되는"은 문제가 되고 있는 태스크(들)를 수행할 수 있는 방식으로 동작하기 위해 소프트웨어 및/또는 펌웨어(예를 들어, FPGA 또는 소프트웨어를 실행하는 범용 프로세서)에 의해 조작되는 일반적인 구조(예를 들어, 일반적인 회로)를 포함할 수 있다. "~하도록 구성되는"은 또한 하나 이상의 태스크들을 구현 또는 수행하도록 적응되는 장치들(예를 들어, 집적 회로들)을 제조하기 위해 제조 프로세스(예를 들어, 반도체 제조 설비)를 적응시키는 것을 포함할 수 있다.
"~에 기초한(Based On)". 본원에 이용되는 바와 같이, 이 용어는 결정에 영향을 미치는 하나 이상의 인자들을 설명하는 데 이용된다. 이 용어는 결정에 영향을 미칠 수 있는 부가적인 인자들을 배제하지 않는다. 즉, 결정은 단지 그의 인자들에 기초하거나 그의 인자들에 적어도 부분적으로 기초할 수 있다. "B에 기초하여 A를 결정한다"라는 구절을 고려해보라. B가 A의 결정에 영향을 미치는 인자일 수 있고, 그러한 구절은 A의 결정이 C에도 기초하는 것을 배제하지 않는다. 다른 경우들에서, A는 B에만 기초하여 결정될 수 있다.
이제 도 1을 참조하면, 집적 회로(IC)의 일부분의 일 실시예를 도시하는 블록도가 도시된다. 예시된 실시예에서, IC(10)는 프로세서 콤플렉스(processor complex)(20), 메모리 컨트롤러(34), 및 메모리 물리적 인터페이스 회로들(PHYs)(36 및 38)을 포함한다. IC(10)는 또한 도 1에 도시되지 않은 많은 다른 컴포넌트들을 포함할 수 있다는 것에 주목한다. 다양한 실시예들에서, IC(10)는 또한 시스템 온 칩(system on chip; SoC), ASIC(application specific integrated circuit), 또는 장치라고도 불릴 수 있다.
프로세서 콤플렉스(20)는 중앙 프로세싱 유닛들(CPU들)(22 및 26), 레벨 2(L2) 캐시(30), 및 버스 인터페이스 유닛(BIU)(32)을 포함할 수 있다. 다른 실시예들에서, 프로세서 콤플렉스(20)는 다른 수의 CPU들을 포함할 수 있다. CPU들(22 및 26)은 또한 프로세서들 또는 코어들이라고 불릴 수 있다. CPU들(22 및 26)은 각각 레벨 1(L1) 캐시(24) 및 L1 캐시(28)를 포함할 수 있다. L1 캐시들(24 및 28)은 L2 캐시(30)에 결합될 수 있고, L2 캐시(30)는 BIU(32)에 결합될 수 있고, BIU(32)는 메모리 컨트롤러(34)에 결합될 수 있다. 다른 실시예들은 캐시의 부가적인 레벨들(예를 들어, 레벨 3(L3) 캐시)을 포함할 수 있다. 프로세서 콤플렉스(20) 및 CPU들(22 및 26)은 도 1에 도시되지 않은 다른 컴포넌트들을 포함할 수 있다는 것에 주목한다.
CPU들(22 및 26)은 명령어 세트 아키텍처에 정의된 명령어들을 실행하기 위한 회로를 포함할 수 있다. 구체적으로, 명령어들을 포함하는 하나 이상의 프로그램들이 CPU들(22 및 26)에 의해 실행될 수 있다. 임의의 명령어 세트 아키텍처가 다양한 실시예들에서 구현될 수 있다. 예를 들어, 일 실시예에서, PowerPC™ 명령어 세트 아키텍처가 구현될 수 있다. 다른 예시적인 명령어 세트 아키텍처들은 ARM™ 명령어 세트, MIPS™ 명령어 세트, SPARC™ 명령어 세트, x86 명령어 세트(IA-32라고도 함), IA-64 명령어 세트 등을 포함할 수 있다.
일 실시예에서, L2 캐시(30)는 CPU들(22 및 26)에 의한 낮은 레이턴시 액세스를 위해 명령어들 및 데이터를 캐싱하도록 구성될 수 있다. L2 캐시(30)는 임의의 용량 및 구성(예를 들어, 직접 맵핑, 세트 결합)을 포함할 수 있다. 일 실시예에서, L2 캐시(30)는 각각 CPU들(22 및 26) 내의 L1 캐시들(24 및 28)을 완전히 포함하는 세트 결합, 후기입 캐시(set-associative, writeback cache)로서 구성될 수 있다. 다양한 실시예들에서, L2 캐시(30)는 캐시 기능 및 성능을 지원하도록 구성되는 다양한 구조를 포함할 수 있다. 예를 들어, L2 캐시(30)는 L2를 미스한 요구들을 저장하도록 구성되는 미스 버퍼(miss buffer), 임시로 데이터를 저장하도록 구성되는 채움 버퍼(fill buffer), 더티 퇴거 데이터(dirty evicted data)를 임시로 저장하여 카피백(copyback) 데이터를 스누프(snoop)하도록 구성되는 후기입 버퍼, 및/또는 스누프 요구들을 저장하도록 구성되는 스누프 버퍼를 포함할 수 있다. 일부 실시예들에서, L2 캐시(30)는 L2 캐시(30)와 BIU(32) 사이 및 L2 캐시(30)와 CPU들(22 및 26) 사이의 데이터 흐름을 관리하기 위한 크로스바(도시되지 않음)를 포함할 수 있다. 다양한 실시예들에서, L2 캐시(30)는 다양한 캐시 판독 및 기입 요청기들 사이의 캐시 액세스를 우선순위화(prioritize)하기 위한 중재 로직(arbitration logic)을 구현할 수 있다. L2 캐시(30) 구성들의 다른 변형들이 가능하고 고려된다. L2 캐시(30)는 BIU(32)를 통해 메모리 컨트롤러(34)에 결합될 수 있다. BIU(32)는 또한 다양한 다른 장치들 및 블록들에 CPU들(22 및 26) 및 L2 캐시(30)를 결합하기 위한 다양한 다른 로직 구조들을 포함할 수 있다.
메모리 컨트롤러(34)는 임의의 수의 메모리 포트들을 포함할 수 있고, 메모리에 인터페이스하도록 구성된 회로를 포함할 수 있다. 예를 들어, 메모리 컨트롤러(34)는 DRAM(dynamic random access memory), 예를 들어, SDRAM(synchronous DRAM), DDR(double data rate) SDRAM, DDR2 SDRAM, RDRAM(Rambus DRAM) 등에 인터페이스하도록 구성될 수 있다. 메모리 컨트롤러(34)는 또한 메모리 물리적 인터페이스 회로들(PHYs)(36 및 38)에 결합될 수 있다. 메모리 PHY들(36 및 38)은 메모리 컨트롤러(34)에 결합될 수 있는 임의의 수의 메모리 PHY들을 나타낸다. 메모리 PHY들(36 및 38)은 메모리 장치들(도시되지 않음)에 인터페이스하도록 구성될 수 있다.
다른 실시예들은 도 1에 도시된 컴포넌트들 및/또는 다른 컴포넌트들의 서브세트들 및 수퍼세트들을 포함하는 다른 결합들의 컴포넌트들을 포함할 수 있다는 것에 주목한다. 주어진 컴포넌트의 하나의 사례(instance)가 도 1에 도시될 수 있지만, 다른 실시예들은 주어진 컴포넌트의 2 이상의 사례를 포함할 수 있다. 유사하게, 이 상세한 설명 전체에 걸쳐서, 하나만이 도시되더라도 주어진 컴포넌트의 2 이상의 사례가 포함될 수 있고, 및/또는 복수의 사례가 도시되더라도 하나의 사례만을 포함하는 실시예들이 이용될 수 있다.
이제 도 2를 보면, 프로세서 코어의 일 실시예가 도시된다. 코어(40)는 프로세서 코어의 일 예이고, 코어(40)는 도 1의 프로세서 콤플렉스(20)와 같은 프로세서 콤플렉스 내에서 활용될 수 있다. 일 실시예에서, 도 1의 CPU들(22 및 26) 각각은 코어(40)의 컴포넌트들 및 기능을 포함할 수 있다. 코어(40)는 페치 및 디코딩(fetch and decode)(FED) 유닛(42), 맵 및 디스패치(map and dispatch) 유닛(46), 실행 유닛들(48), 로드/저장 유닛(load/store unit; LSU)(50), 메모리 관리 유닛(memory management unit; MMU)(60), 및 코어 인터페이스 유닛(core interface unit; CIF)(62)을 포함할 수 있다. 코어(40)는 도 2에 도시되지 않은 다른 컴포넌트들을 포함할 수 있다는 것에 주목한다.
L1 명령어 캐시(44)를 포함하는 FED 유닛(42)은 메모리(또는 L2 캐시)로부터 명령어들을 페치하여 페치된 명령어들을 디코딩하도록 구성될 수 있다. 디코딩된 명령어들은 맵 및 디스패치 유닛(46)에 전달될 수 있다. 맵 및 디스패치 유닛(46)은 물리적 레지스터들에 디코딩된 명령어들을 맵핑하도록 구성될 수 있다. 맵 및 디스패치 유닛(46)은 또한 실행 유닛들(48) 및 LSU(50)에 명령어들을 디스패치하도록 구성될 수 있다. 실행 유닛들(48)은 임의의 수 및 타입의 실행 유닛들(예를 들어, 정수, 부동 소수점, 벡터)을 포함할 수 있다.
CIF(62)는 L1 데이터 캐시(52), FED 유닛(42), 및 MMU(60)에 결합될 수 있다. CIF(62)는 코어(40)와 L2 캐시 사이의 인터페이스를 관리하도록 구성될 수 있다. MMU(60)는 어드레스 변환 및 메모리 관리 기능들을 수행하도록 구성될 수 있다. LSU(50)는 프리페치 유닛(54)에 결합된 L1 데이터 캐시(52)를 포함할 수 있다. 프리페치 유닛(54)은 프리페치 트레이닝 메커니즘(56) 및 프리페치 트레이닝 테이블(58)을 포함할 수 있다. LSU(50)는 또한 CIF(62)를 통해 L2 캐시(도시되지 않음)에 결합될 수 있다. LSU(50)는 또한 도 2에 도시되지 않은 다른 컴포넌트들(예를 들어, 큐 로드, 큐 저장)을 포함할 수 있다는 것에 주목한다.
프리페치 유닛(54)은 L1 데이터 캐시(52) 내로 데이터를 프리페치하기 위하여 프리페치 요구들을 생성하도록 구성될 수 있다. 일 실시예에서, 프리페치 유닛(54)은 복수의 별개의 독립된 프리페치 스트림들을 동시에 유지하도록 구성될 수 있다. "프리페치 스트림"은 검출된 프리페치 패턴의 결과로서 캐시 내로 프리페치되는 어드레스들 및 어드레스들과 연관된 블록들의 스트림을 가리킬 수 있다. 프리페치 패턴은 프리페치 스트림 내의 연속하는 메모리 액세스들 사이의 차이를 설명할 수 있다. 이러한 연속하는 메모리 액세스들 사이의 차이는 프리페치 스트림의 "스트라이드"라고 할 수 있다.
트레이닝 메커니즘(56)은 L1 데이터 캐시(52)를 통한 및/또는 코어(40) 내의 다른 포인트들에서 로드/저장 트래픽을 모니터링할 수 있다. 트레이닝 메커니즘(56)은 로드/저장 트래픽에서의 액세스의 패턴들을 검출하여 프리페치를 위한 스트림들을 식별할 수 있다. 각각의 별개의 스트림에 대해, 트레이닝 메커니즘(56)은 증가하는 어드레스 또는 감소하는 어드레스 방향으로, 메모리에서의 연속하는 블록들의 프리페치들과 같은, 프리페치들에 대해 단위 스트라이드 패턴들(unit stride patterns)을 검출할 수 있다. 다른 실시예들은 메모리 액세스들 사이의 단일의 고정 거리가 아닌 반복 패턴들 및 더 큰 스트라이드들을 포함하는, 더 복잡한 프리페치 패턴들을 검출할 수 있다.
일 실시예에서, 코어(40)에 의해 실행되는 명령어들은 명령어들이 재정렬될 수 있는 포인트에서의 실행 유닛들(48)에 명령어들이 도착할 때까지 순서대로 진행할 수 있다. 이 포인트에서, 명령어 스트림에 대해 트레이닝하는 것을 어렵게 하는 혼동(garbling)이 일어날 수 있다. 트레이닝 메커니즘(56)은 명령어들이 재정렬되기 전에 코어(40) 내의 명령어들에 대해 트레이닝할 수 있다. 그 다음, 트레이닝 정보는 캐시 계층구조의 하위 레벨들에 전파될 수 있다.
프리페치 트레이닝 메커니즘(56)은 코어(40)에 의해 생성된 스트림들에 대해 트레이닝할 수 있다. 트레이닝은 메모리 액세스들과 연관된 정보를 결정하기 위하여 다양한 스트림들과 연관된 메모리 액세스들을 검출 및 분석하는 것을 포함할 수 있다. 프리페치 트레이닝 메커니즘(56)이 스트림에 대해 트레이닝하였을 때, 그것은 스트림에 스트림 식별자(ID)를 할당하여 스트림 ID로 테이블(58) 내의 엔트리를 저장할 수 있다. 엔트리는 데이터의 시간성 또는 비-시간성(non-temporality), 스트라이드, 페이지 크기, 메모리 액세스 타입, 디맨드 어드레스, 프리페치 어드레스 및 다른 정보와 같은, 스트림과 연관된 속성들을 포함할 수 있다.
프리페치 유닛(54)은 복수의 스트림에 대한 트레이닝 정보를 저장하기 위한 복수의 엔트리를 갖는 테이블(58)을 포함할 수 있다. 주어진 프리페치 스트림은 테이블(58)의 엔트리들 중 하나에 할당될 수 있고, 프리페치들의 생성은 엔트리의 콘텐츠에 기초하여 그 프리페치 스트림에 대해 수행될 수 있다. 예를 들어, 프리페치 요구의 어드레스들은 테이블 엔트리 내의 현재 어드레스 및/또는 다음 예상 어드레스와 비교될 수 있다. 일 실시예에서, 프리페치 유닛(54)은 교체 목적으로 테이블(58) 내의 엔트리들에 걸쳐서 최소 최근 사용(least recently used; LRU) 상태를 유지할 수 있다.
스트림은 고유 스트림 식별자(ID)와 연관될 수 있고, 테이블(58)의 각 엔트리는 주어진 스트림과 연관된 속성들과 함께 스트림 ID를 포함할 수 있다. 스트림 ID 및 속성들은 코어로부터 L2 및 하위 레벨 캐시들로 아래로 전파될 수 있다. 코어(40)가 L2 캐시로 프리페치 요구를 전송할 때, 그것은 그 요구를 갖는(또는 그와 연관되는) 스트림 ID 및 다른 속성들을 포함하는 데이터를 전송할 수 있다. 전달된 ID 및 속성들은 투플(tuple)의 형태를 취할 수 있거나, 그렇지 않으면, 연관된 패킷(들)에 포함될 수 있다. 본원에서 이용되는 바와 같이, 용어 "패킷"은 논의의 용이성을 위해 이용되고, 데이터의 특정 크기 또는 구성으로 한정되는 것으로 의도되지 않는다. 오히려, 본원에 설명된 방법들 및 메커니즘들은 많은 다양한 방법으로 "패킷" 관련 데이터를 전달할 수 있다. 트레이닝 데이터 및 다른 속성들을 전달하는 것은 임의의 형태 또는 포맷을 취할 수 있다.
일 실시예에서, 투플은 프리페치 어드레스, 스트림 ID, 스트라이드(예를 들어, 2 라인들), 및 다른 속성들을 포함할 수 있다. L2 캐시 및 L2 프리페치 유닛(도시되지 않음)이 투플을 수신할 때, L2 프리페치 유닛은 L2 프리페치 테이블(도시되지 않음) 내의 대응하는 엔트리에 투플의 속성들을 저장할 수 있다. 그 다음, L2 프리페치 유닛은 그것이 L1 프리페치 유닛에 의해 페치되는 어드레스들보다 앞에 머무르도록 보장하기 위해 코어가 전송한 최종 요구와 새로운 투플을 비교할 수 있다. 투플 내의 스트림 ID가 새로운 스트림 ID이면, L2 프리페치 유닛은 특정 스트림 ID에 대한 새로운 엔트리를 생성할 수 있다.
캐시 계층구조의 하위 레벨들에 대해, 프리페치는 스트림의 예측된 메모리 위치들 내로 더 프리페치하도록 앞으로 확장(extend forward)할 수 있다. 일 실시예에서, 스트림들 각각과 연관되는 시작 거리가 존재할 수 있다. L1 프리페치 유닛은 제1 프리페치 요구에 제1 시작 거리를 부가할 수 있고, L2 프리페치 유닛은 제1 시작 거리의 꼭대기에 제2 시작 거리를 부가할 수 있다. 하위 레벨 프리페치 유닛들(예를 들어, L3 프리페치 유닛)은 프리페치 요구에 부가적인 거리들을 부가할 수 있다. 일 실시예에서, 시작 거리는 각 프리페치 유닛에서 국부적으로 프로그램될 수 있다. 다른 실시예에서, 시작 거리는 투플 내의 속성들 중 하나로서 전송될 수 있다.
일 실시예에서, L2 프리페치 유닛은 임의의 트레이닝 자체를 하지 않을 수 있다. L2 프리페치 유닛은 L1 프리페치 유닛에 의한 설정을 얻을 수 있고, 그 다음에 L2 프리페치 유닛은 L1 프리페치 유닛보다 스트림에 앞으로(further along) 더 많은 프리페치 요구들을 생성할 수 있다. 일반적으로 말하면, L2 프리페치 유닛은 L1 프리페치 유닛의 확장일 수 있다. 이 접근법은 제3 레벨, 제4 레벨 등으로 확장될 수 있고, 캐시들의 계층적 레벨들의 수와 상관없이, 오직 단일의 통일된 트레이닝 메커니즘이 활용될 수 있다. 이러한 실시예에서, L3 프리페치 유닛은 상위의 2개의 프리페치 유닛들에 대한 슬레이브(slave)일 수 있다.
이제 도 3을 참조하면, L1 및 L2 프리페치 유닛들의 일 실시예의 블록도가 도시된다. 코어(72)는 L2 캐시(78)에 결합된 것으로 도시되고, 코어(72)는 L1 프리페치 유닛(74)을 포함할 수 있다. 코어(72)는 또한 명확함을 위해 도 3에 도시되지 않은 많은 다른 컴포넌트들을 포함할 수 있다는 것에 주목한다. L1 프리페치 유닛(74)은 트레이닝된 스트림들과 연관된 데이터를 저장하기 위한 프리페치 테이블(76)을 포함할 수 있다. L2 캐시(78)는 프리페치 트레이닝 테이블(82)을 포함할 수 있는 L2 프리페치 유닛(80)을 포함할 수 있다. 도 3에 도시되어 있지 않지만, 프리페치 요구들 및 동반하는 트레이닝 데이터는 L1 프리페치 유닛(74)과 L2 캐시(88) 사이에 하나 이상의 컴포넌트들(예를 들어, MMU, CIF)을 통과할 수 있다.
일 실시예에서, 코어(72)는 L2 캐시(78)에 프리페치 요구를 발행할 수 있다. 프리페치 요구는 액세스될 라인의 메모리 어드레스를 포함할 수 있다. 또한, 트레이닝 데이터는 프리페치 요구와 함께 전송될 수 있다. 트레이닝 데이터는 프리페치 요구의 스트림 ID를 식별할 수 있고, 그 특정 스트림 ID와 연관된 다른 속성들(테이블(76)에 저장됨)을 포함할 수 있다.
프리페치 요구 및 트레이닝 데이터의 수신에 응답하여, L2 프리페치 유닛(80)은 특정 스트림 ID에 대응하는 테이블 내의 엔트리와 트레이닝 데이터를 비교할 수 있다. 도 3에 도시된 예에 대하여, 스트림 ID는 '2'일 수 있고, L2 프리페치 유닛(80)은 이 스트림 ID를 이용하여 테이블(82)에 대응하는 엔트리를 배치할 수 있다. L2 프리페치 유닛(80)은 메모리에 대해(또는 하위 레벨 캐시에 대해) 프리페치 요구들을 생성하기 위하여 L2 프리페치 유닛(80)에 의해 이용될 수 있는 하나 이상의 속성들(예를 들어, 스트라이드)을 검색할 수 있다. 사실상, 프리페치 요구들과 함께 전송된 트레이닝 데이터는 테이블들(78 및 82)의 엔트리들이 동기화될 수 있게 할 수 있다.
테이블들(76 및 82)이 정확히 동일한 정보를 포함하지 않을 수 있지만, 테이블들(76 및 82)은 일반적으로 동기화될 수 있다는 것을 이해할 수 있다. 예를 들어, 테이블(76)은 특정 스트림 ID에 대해 업데이트될 수 있고, 그 특정 스트림 ID에 대해 테이블(82)이 업데이트되기 전에 시간 지체(time lag)가 존재할 수 있다. 또한, 테이블들(76 및 82) 내의 엔트리들의 필드들 중 하나 이상은 상이한 정보를 포함할 수 있고 및/또는 상이하게 포맷화될 수 있다. 예를 들어, 마지막 생성된 프리페치 요구에 대응하는 어드레스 필드는 테이블(82)의 엔트리들과 비교하여 테이블(76)의 엔트리들에 상이한 어드레스를 포함할 수 있다. 그럼에도, 일반적으로 말해서, 테이블(82)에 포함된 데이터는 테이블(76)의 데이터를 반영할 수 있고, 이런 의미에서 테이블(76)의 데이터에 동기화될 수 있다.
일 실시예에서, 코어(72)로부터 L2 캐시(78)로 전송된 각 패킷은 스트림이 새로운 스트림인지를 표시하는 비트를 포함할 수 있다. 스트림이 새로운 스트림인 경우, 이 비트에 의해 표시된 바와 같이, L2 프리페치 유닛(80)은 테이블(82)에서 대응하는 엔트리를 찾아서 이 엔트리를 클리어(clear)할 수 있다. 그 다음, L2 프리페치 유닛(80)은 패킷에 포함된 정보로 클리어된 엔트리의 속성들을 채울 수 있다. 스트림이 기존 스트림이면, 패킷은 적어도 스트림 ID를 포함할 수 있고, L2 프리페치 유닛(80)은 테이블(82)의 이 스트림 ID에 대응하는 해당 엔트리를 검색할 수 있다. 프리페치 요구가 L2 캐시(78)에서 히트(hit)하면, 데이터는 코어(72)로 리턴될 수 있고, 반면, 프리페치 요구가 미스(miss)이면, L2 캐시(78)는 메모리로부터 데이터를 요구할 수 있다. 그 다음, L2 프리페치 유닛(80)은 테이블(82)의 대응하는 엔트리에 저장된 속성들에 기초하여 새로운 프리페치 요구들을 생성할 수 있다. L2 프리페치 유닛(80)에 의해 발행된 새로운 프리페치 요구들은, 미래의 요구들이 L2 캐시(78)에서 히트를 야기하도록 이 특정 스트림에 대해 코어(72)보다 앞에 있도록 할 수 있다.
다른 실시예에서, L2 프리페치 유닛(80)은 각각의 수신된 패킷 및 프리페치 요구가 새로운 스트림에 대한 것이라고 가정할 수 있다. 따라서, 이 실시예에서, 테이블(82)은 L2 캐시(78)에 의해 수신되는 임의의 프리페치 요구에 대해 업데이트될 수 있다. 예를 들어, L2 프리페치 유닛(80)은 수신된 패킷 내의 정보로 테이블(82) 내의 대응하는 엔트리의 데이터를 덮어쓰기 할 수 있다. 다양한 실시예에서, L2 프리페치 유닛(80)은, 요구가 기존 스트림과 동일한 스트림 정보를 포함하지 않는 한, 임의의 수신된 프리페치 요구가 새로운 스트림에 대한 것이라고 가정할 수 있다.
일 실시예에서, 패킷은 L2 캐시(78) 내의 데이터의 배치 및 교체 정책들(replacement policies)을 제어하는 정보를 포함할 수 있다. 특정 스트림이 시간적 또는 비-시간적 속성을 갖는 경우, L1 프리페치 유닛(74)은 L2 프리페치 유닛(80)에 이 정보를 전달할 수 있다. 일 실시예에서, L2 프리페치 유닛(80) 및 하위 레벨 캐시들은 이 정보를 이용하여 이 특정 스트림에 대한 대응하는 데이터를 저장할 캐시의 웨이(way)를 결정할 수 있다.
일 실시예에서, L2 캐시(78)는 코어(72)로부터 전송된 프리페치 요구 및 패킷으로부터의 어드레스들 및 정보를 활용하여 L2 프리페치 유닛(80)이 프리페치 요구에 포함된 어드레스보다 앞에 미리 결정된 수의 라인들이 있게 하는 것을 보장할 수 있다. L2 프리페치 유닛(80)이 그것이 뒤에 처졌다고 결정하면, L2 프리페치 유닛(80)은 L1 프리페치 유닛(74)보다 앞에 있도록 앞으로 점프할 수 있다. L2 프리페치 유닛(80)은 특정 거리만큼 스트림에서 L1 프리페치 유닛(74)보다 앞에 있도록 구성될 수 있다.
이제 도 4를 보면, 프리페치 트레이닝 테이블의 일 실시예가 도시된다. 프리페치 트레이닝 테이블(90)은 다양한 트레이닝된 스트림들과 연관된 정보를 저장하는 데 활용될 수 있다. 테이블(90)은 전체 캐시 계층구조의 임의의 레벨에서 프리페치 유닛에 의해 활용될 수 있는 테이블을 나타낸다. 테이블(90) 내의 엔트리들의 수는 실시예, 테이블(90)이 배치되는 캐시 계층구조의 레벨, 동시 스트림들의 최대 수와, 다른 정보에 따라 달라질 수 있다. 다른 실시예들에서, 트레이닝 테이블(90)은 다른 정보를 포함할 수 있고 및/또는 테이블(90)에 도시된 속성들 중 일부는 테이블에 포함되지 않을 수 있다. 대안적으로, 테이블(90)에 도시된 속성들 중 하나 이상은 대응하는 프리페치 유닛의 다른 위치에 저장될 수 있다.
테이블(90)의 각 엔트리는 복수의 속성을 포함할 수 있다. 스트림 ID(92)는 각 엔트리에 포함될 수 있고, 엔트리를 식별하는 데 활용될 수 있다. 스트림 ID(92)는 코어 내의 트레이닝 메커니즘에 의해 트레이닝된 개개의 스트림 ID에 대응할 수 있다. 스트라이드(94)는 스트림에 대해 검출된 스트라이드일 수 있고, 일 실시예에서 다수의 라인들일 수 있다. 시간성 표시자(96)는 스트림이 시간적 또는 비-시간적 데이터에 대응하는지를 표시하는 비트일 수 있다. L2 캐시 및 하위 레벨 캐시들은 그의 LRU 메커니즘에서 웨이 선택을 바이어싱하기 위해 시간성 표시자(96)를 활용할 수 있다. 시간성 표시자(96)의 값은 또한 캐시 내의 교체 정책에 영향을 미칠 수 있다.
테이블(90)의 엔트리들에 저장된 다른 속성들은 페이지 크기 속성(98)(예를 들어, 64 KB, 128 KB, 1 MB)일 수 있다. 일 실시예에서, L2 프리페치 유닛(및 하위 레벨 프리페치 유닛들)은 이 속성을 이용하여 페이지 경계들을 결정할 수 있다. 페이지 경계를 만나면, L2 프리페치 유닛은 프리페칭을 중단할 수 있다. L2 프리페치 유닛은 또한 프리페치 카운트(prefetch count)를 이용하여 프리페치를 중단할 때를 결정할 수 있으므로, 일단 프리페치 카운트에 도달하였다면, L2 프리페치 유닛은 그것이 다른 프리페치 요구를 수신할 때까지 프리페칭을 중단할 수 있다. 프리페치 카운트는 프리페치 요구들을 동반하는 패킷들과 함께 수신된 속성들과 별개로 프로그램 또는 설정될 수 있다. 다른 실시예들에서, 프리페치 카운트는 테이블(90)에 저장될 수 있지만, 다른 실시예들에서는, 프리페치 카운트는 테이블(90)에 저장되지 않을 수 있다.
다양한 실시예에서, "터보(turbo)" 모드는 다양한 프리페치 유닛들에 의해 활용될 수 있다. 임의의 캐시 레벨에서, 주어진 스트림이 살아 있고 동일한 속성들로 진행하는 경우, 프리페치 카운트는 주어진 스트림보다 더 앞에 머물도록 하기 위해 증가할 수 있다. 주어진 스트림의 상태는 별개의 카운터에 의해 추적될 수 있고, 이 별개의 카운터는 상기로부터 각 캐시 레벨에 도착하는 프리페치 요구들의 수를 카운트할 수 있다. 예를 들어, 특정 스트림에 대해 L2 레벨에서 수신된 L1 프리페치 요구들의 수가 L2 프리페치 유닛에서 카운트될 수 있다. L1 프리페치 요구들의 수가 임계값에 도달하면, L2 프리페치 유닛은 스트림보다 더 앞에 있게 하려는 시도로 프리페치 카운트를 증가시키고 L2 프리페치 유닛에 의해 생성된 프리페치 요구들의 수를 증가시키는 터보 모드에 들어갈 수 있다. 임계값은 프로그램 가능할 수 있고, 실시예마다 달라질 수 있다. 유사하게, L1 프리페치 유닛은 다양한 스트림들에 대해 L1 캐시 레벨에서 수신된 디맨드 요구들의 수를 추적하는 것에 기초하여 터보 모드를 적용하기 위해 유사한 기법을 구현할 수 있다. 별개의 카운터의 값은 실시예에 따라, 테이블(90)에 저장될 수 있거나 저장되지 않을 수 있다. 상기한 것의 결합들을 포함하는 다양한 실시예들이 가능하고 고려된다.
하위 레벨 캐시 프리페치 유닛이 페이지 경계에 도달하면, 프리페치 유닛은 물리적 어드레스 공간 내의 다음 페이지가 프로그램의 가상 어드레스 공간의 다음 페이지에 대응하는지 확신하지 않을 수 있다. 따라서, 일 실시예에서, L2 프리페치 유닛과 같은 하위 레벨 프리페치 유닛이 페이지 경계에 도달하면, L2 프리페치 유닛은 페이지 경계에서 중단할 수 있다. 상위 레벨 프리페치 유닛, 이 경우 L1 프리페치 유닛이 페이지 경계를 가로지르면, 그것은 L2 프리페치 유닛에 다음 페이지의 어드레스를 갖는 새로운 프리페치 요구를 전송할 수 있다.
테이블(90)의 각 엔트리는 또한 스트림이 로드 스트림인지 저장 스트림인지를 표시하기 위해 스트림 타입 속성(100)을 포함할 수 있다. 예를 들어, 스트림이 로드 스트림이면, L2 프리페치 유닛은 공유 상태에서 데이터의 라인들을 검색할 수 있다. 스트림이 저장 스트림이면, L2 프리페치 유닛은 코어가 데이터를 수정할 수 있도록 독점 상태에서 코어 내로 데이터를 가져갈 수 있다.
일 실시예에서, L1 프리페치 유닛은 로드 및 저장 스트림들 사이의 정보를 L1 프리페치 트레이닝 테이블 내의 단일 엔트리로 결합할 수 있다. 예를 들어, 로드 스트림과 저장 스트림이 둘다 메모리의 동일한 영역을 목표로 하고 있다면, L1 프리페치 유닛은 로드 및 저장 스트림들을 하나의 스트림으로 콜랩스(collapse)할 수 있다. 따라서, L1 프리페치 유닛은 2개의 상이한 스트림 엔트리들을 생성하는 대신에 L1 테이블에 하나의 스트림 엔트리를 생성할 수 있다. 예를 들어, 일 실시예에서, 로드 스트림이 먼저 생성되면, L1 프리페치 유닛은 로드 스트림에 대해 트레이닝하여 로드 스트림의 속성들로 L1 테이블의 대응하는 엔트리를 채울 것이다. 그 다음, 저장 요구가 검출될 때, L1 프리페치 유닛이 저장 요구가 계류중인 로드 요구와 동일한 어드레스라고 결정하면, 저장 요구는 로드 스트림으로 콜랩스될 수 있고, 그 다음에 로드 스트림은 저장 스트림으로 변환될 수 있다. 그 다음, 대응하는 프리페치 요구가 L1로부터 L2로 전송되었을 때, 동반하는 패킷은 "저장" 속성과 함께 전송될 수 있고, 이것은 L2가 공유 상태 대신에, 독점 상태에서 데이터를 검색하는 책임이 있을 것임을 의미한다.
테이블(90)의 각 엔트리는 또한 디맨드 어드레스(102) 속성 및 프리페치 어드레스(104) 속성을 포함할 수 있다. L1 캐시가 디맨드 요구를 수신할 때, 그것은 대응하는 스트림 엔트리의 디맨드 어드레스(102) 속성에 디맨드 요구의 어드레스를 저장할 수 있다. L2(또는 하위 레벨) 프리페치 유닛이 상위 레벨 캐시로부터 프리페치 요구를 수신할 때, L2 프리페치 유닛은 디맨드 어드레스(102) 속성에 프리페치 요구의 어드레스를 저장할 수 있다. L1 프리페치 유닛 및 하위 레벨 프리페치 유닛들은 대응하는 엔트리의 프리페치 어드레스(104) 속성에 프리페치되는 현재 어드레스를 저장할 수 있다. L2 프리페치 유닛이 프리페치 요구 및 패킷을 수신할 때, L2 프리페치 유닛은 그 특정 스트림 ID에 대해 테이블(90)에 저장된 디맨드 어드레스(102)와 프리페치 요구 어드레스를 비교할 수 있다. 유입되는 프리페치 요구가 그 엔트리에 저장된 물리적 어드레스보다 앞에 있다면, L2 프리페치 유닛은 엔트리의 디맨드 어드레스(102) 속성을 새로운 어드레스로 덮어쓰기 할 수 있다.
일 실시예에서, L2 프리페치 유닛이 프리페치 요구 및 패킷을 수신할 때, L2 프리페치 유닛은 프리페치 요구가 L2테이블 내의 기존 엔트리에 대응하는지를 알아보기 위해 검사할 수 있고, 그렇다면, L2 프리페치 유닛은 그 프리페치 요구를 진행할 수 있다. 그렇지 않으면, L2 프리페치 유닛은 테이블로부터 오래된 엔트리를 플러시(flush)할 수 있고, 그 다음에 L2 프리페치 유닛은 프리페치 요구 및 동반하는 패킷에 포함되는 새로운 데이터로 엔트리를 채울 수 있다.
이제 도 5를 참조하면, 캐시의 별개의 레벨들의 프리페치 테이블들 사이의 맵핑의 일 실시예의 블록도가 도시된다. 일 실시예에서, IC 또는 SoC는 2개의 코어, 즉, 코어(106) 및 코어(108)를 포함할 수 있다. 다른 실시예들에서, 다른 수의 코어들(예를 들어, 4개, 8개)이 IC 또는 SoC에 포함될 수 있다. 테이블들(112 및 114)은 각각 4개의 엔트리를 포함하는 것으로서 도시되어 있다. 다른 실시예들에서, 테이블들(112 및 114)은 다른 수의 엔트리들(예를 들어, 8개, 16개)을 포함할 수 있다. 임의의 수 및 타입의 속성들이 테이블들(112, 114, 및 116)에 저장될 수 있다. 예를 들어, (도 4의) 테이블(90)에 도시된 속성들 중 하나 이상이 테이블들(112, 114, 및 116)에 저장될 수 있다. 또한, 이제 테이블(90)에 도시된 다른 속성들은 테이블들(112, 114, 및 116)에 저장될 수 있다.
도시된 바와 같이, L2 캐시(112)의 테이블(116)의 제1의 4개의 엔트리는 테이블(112)의 엔트리들과 동기화될 수 있다. L2 캐시(110)의 테이블(116)의 바닥부의 4개의 엔트리에 대한 엔트리들은 테이블(114)의 엔트리들과 동기화될 수 있다. 테이블(114)의 엔트리들에는 스트림 ID들 1-4가 할당될 수 있고, 이들 스트림 ID들은 테이블(116) 내의 스트림 ID들 5-8에 맵핑될 수 있다. 일 실시예에서, 프리페치 요구들 및 동반하는 패킷들이 코어들로부터 L2 캐시(110)로 전송될 때 테이블(116) 내의 엔트리들은 테이블(112) 및 테이블(114) 내의 엔트리들과 동기화될 수 있다.
테이블(116)은 L2 캐시(110)에 결합되는 L1 캐시들 전부의 엔트리들 전부를 저장 및 미러링하기에 충분한 엔트리들을 포함할 수 있다. 도 5에 도시된 실시예에서, 테이블(116)은 8개의 엔트리를 포함한다. 다른 실시예들에서, 테이블(116)은 다른 수의 엔트리들을 포함할 수 있다. 예를 들어, 8개의 코어를 갖는 프로세서에서, 각 코어가 코어 프리페치 트레이닝 테이블에 16개의 별개의 스트림 ID들을 위한 16개의 엔트리를 저장한다면, 테이블(116)은 코어들 전부로부터 엔트리들 전부를 저장하기 위한 128개의 엔트리를 포함할 수 있다. L2 캐시에 결합된 다른 수의 코어들이 가능하고 고려된다.
이제 도 6을 보면, L2 및 L3 프리페치 유닛들의 일 실시예의 블록도가 도시된다. 도 6은 도 3에 예시된 블록도의 계속을 도시한다. L2 캐시(78)는 코어(예를 들어, 도 3의 코어(72))로부터 프리페치 요구들 및 트레이닝 정보를 수신할 수 있고, 그 다음에 L2 프리페치 유닛(80)은 테이블(82)에 트레이닝 데이터를 저장할 수 있다. L2 프리페치 유닛(80)은 수신된 프리페치 요구들, 트레이닝 데이터, 및/또는 테이블(82) 내의 데이터에 기초하여 프리페치 요구들을 생성할 수 있다. L2 프리페치 유닛(80)은 L3 캐시(120)에 프리페치 요구들을 전달할 수 있고, L2 프리페치 유닛(80)은 또한 프리페치 요구와 함께 트레이닝 데이터를 생성 및 전달할 수 있다. 트레이닝 데이터는 프리페치 요구와 연관된 특정 스트림 ID에 대한 테이블(82)로부터의 속성들을 포함할 수 있다.
L3 프리페치 유닛(122)은 프리페치 요구 및 트레이닝 데이터를 수신하여 트레이닝 데이터를 테이블(124)의 대응하는 엔트리에 저장할 수 있다. 일반적으로, L3 프리페치 유닛(122)은 프리페치 요구 및 동반하는 트레이닝 데이터를 수신하는 것에 응답하여 L2 프리페치 유닛(80)과 유사한 방식으로 기능할 수 있다. L3 프리페치 유닛(122)은 L2 프리페치 유닛(80)에 의해 생성된 프리페치 요구들보다 앞에 있도록 하기 위해 트레이닝 데이터 및/또는 대응하는 테이블(124) 엔트리를 활용할 수 있다. 일부 실시예들에서, 트레이닝 정보는 코어로부터 L2 캐시(78)로 그리고 L3 캐시(120)로 병렬로 전송될 수 있다. 이러한 식으로, L2 테이블(82) 및 L3 테이블(124)은 트레이닝 정보에 의해 동시에 업데이트될 수 있다.
다른 실시예들은 캐시들의 부가적인 레벨들을 포함할 수 있고, 임의의 하위 레벨 캐시들은 그것들의 프리페치 테이블들을 상위 레벨 캐시들의 테이블들과 동기화할 수 있다. 하위 레벨 캐시들 및 프리페치 유닛들은 상위 레벨 캐시들 및 프리페치 유닛들이 프리페치 요구들 및 패킷들을 수신하는 것에 응답하는 방식과 유사하게 프리페치 요구들 및 패킷들에 응답할 수 있다. 또한, 하위 레벨 프리페치 테이블들은 상위 레벨 프리페치 테이블들의 엔트리들 전부를 저장하기에 충분한 엔트리들을 포함할 수 있다. 예를 들어, L3 캐시(120)가 L2 캐시(78) 및 다른 L2 캐시(도시되지 않음)에 결합되는 경우, L3 프리페치 테이블(124)은 두 L2 프리페치 테이블들의 결합만큼의 수의 엔트리들을 포함할 수 있다.
이제 도 7을 참조하면, 복수의 캐시 레벨들에서 프리페치 요구들을 생성하기 위한 방법의 일 실시예가 도시된다. 논의를 위해, 이 실시예에서의 단계들은 순차적 순서로 도시된다. 아래 설명되는 방법의 다양한 실시예에서, 설명된 요소들 중 하나 이상은 동시에, 도시된 것과 상이한 순서로 수행될 수 있거나, 완전히 생략될 수 있다는 것에 주목해야 한다. 다른 부가적인 요소들도 필요에 따라 수행될 수 있다.
일 실시예에서, 제1 캐시 레벨에 결합된 트레이닝 메커니즘이 주어진 스트림에 대해 트레이닝할 수 있다(블록 130). 트레이닝 메커니즘은 프로세서 코어 내의 프리페치 유닛 내에 배치될 수 있다. 프로세서는 복수의 코어를 포함할 수 있고, 각 코어는 단일 트레이닝 메커니즘을 가질 수 있다. 트레이닝 메커니즘에 의해 생성된 트레이닝 정보는 제1 캐시 레벨에서 제1 테이블의 대응하는 엔트리에 저장될 수 있다(블록 132). 제1 테이블 내의 엔트리는 트레이닝된 스트림에 대한 스트림 ID를 포함할 수 있다. 일 실시예에서, 제1 캐시 레벨은 L1 캐시일 수 있고, 제1 테이블은 L1 캐시에 결합된 프리페치 유닛에 저장될 수 있다.
다음으로, 트레이닝 정보가 제1 캐시 레벨로부터 제2 캐시 레벨로 전달될 수 있다(블록 134). 일 실시예에서, 프리페치 요구는 제1 캐시 레벨에서 프리페치 유닛에 의해 생성하여 제2 캐시 레벨로 전송될 수 있고, 트레이닝 정보는 프리페치 요구를 동반하는 패킷 내에 포함될 수 있다. 제2 캐시 레벨에서의 프리페치 유닛은 트레이닝 정보를 수신할 수 있고(블록 136), 그 다음에 프리페치 유닛은 수신된 트레이닝 정보에 기초하여 프리페치 요구들을 발행할 수 있다(블록 138). 제2 캐시 레벨에서의 프리페치 유닛은 제1 캐시 레벨에서 발행되는 프리페치 요구들보다 앞의 특정 거리에 있는 프리페치 요구들을 발행할 수 있다. 초기 지체 후에, 제1 캐시 레벨로부터의 프리페치 요구들은 주어진 스트림에 대해 제2 캐시 레벨에서 히트하기 시작해야 한다. 제2 캐시 레벨에서의 프리페치 유닛은 또한 제2 테이블 내의 대응하는 엔트리에 수신된 트레이닝 정보를 저장할 수 있다(블록 140). 실시예에 따라, 블록들(138 및 140)은 동시에 일어날 수 있거나, 블록(140)이 블록(138) 이전에 수행될 수 있다는 것에 주목한다. 일 실시예에서, 제2 캐시 레벨은 L2 캐시일 수 있다.
블록(140) 후에, 제2 캐시 레벨에서의 프리페치 유닛은 제3 캐시 레벨에 트레이닝 정보를 전달할 수 있다(블록 142). 일 실시예에서, 트레이닝 정보는 제3 캐시 레벨에 대한 프리페치 요구를 동반하는 패킷 내에 포함될 수 있다. 제3 캐시 레벨에서의 프리페치 유닛은 트레이닝 정보를 수신할 수 있고(블록 144), 그 다음에 제3 캐시 레벨에서의 프리페치 유닛은 수신된 트레이닝 정보에 기초하여 프리페치 요구들을 발행할 수 있다(블록 146). 수신된 트레이닝 정보는 또한 제3 테이블 내의 대응하는 엔트리에 저장될 수 있다(블록 148). 일 실시예에서, 제3 캐시 레벨은 L3 캐시일 수 있다. 블록(148) 후에, 방법은 블록(130)으로 돌아가서 새로운 스트림에 대해 트레이닝할 수 있다. 복수의 스트림들이 병렬로 트레이닝될 수 있고, 복수의 스트림들이 임의의 주어진 시간에 도 7의 블록도 내의 다양한 포인트들에 있을 수 있다는 것에 주목한다. 다른 실시예들은 다른 수의 캐시들을 포함할 수 있다. 일반적으로 말해서, 캐시의 가장 높은 레벨에서의 트레이닝 메커니즘은 하위 레벨 캐시들과 프리페치 트레이닝 정보를 공유할 수 있다.
이제 도 8을 보면, 시스템(150)의 일 실시예의 블록도가 도시된다. 도시된 바와 같이, 시스템(150)은 데스크톱 컴퓨터(160), 랩톱 컴퓨터(170), 태블릿 컴퓨터(180), 휴대 전화(190), 또는 다른 것의 칩, 회로, 컴포넌트들 등을 나타낼 수 있다. 예시된 실시예에서, 시스템(150)은 외부 메모리(152)에 결합된 (도 1의) IC(10)의 적어도 하나의 사례를 포함한다.
IC(10)는 하나 이상의 주변장치(154) 및 외부 메모리(152)에 결합된다. 메모리(152) 및/또는 주변장치들(154)에 하나 이상의 공급 전압들을 공급할 뿐만 아니라 IC(10)에 공급 전압들을 공급하는 전원(156)이 또한 제공된다. 다양한 실시예에서, 전원(156)은 배터리(예를 들어, 스마트 폰, 랩톱 또는 태블릿 컴퓨터 내의 재충전가능한 배터리)를 나타낼 수 있다. 일부 실시예들에서, IC(10)의 하나보다 많은 사례가 포함될 수 있다(그리고 하나보다 많은 외부 메모리(152)도 포함될 수 있다).
메모리(152)는 DRAM(dynamic random access memory), SDRAM(synchronous DRAM), 더블 데이터 레이트(double data rate)(DDR, DDR2, DDR3, 등) SDRAM (mDDR3 등과 같은 SDRAM들의 모바일 버전들 및/또는 LPDDR2 등과 같은 SDRAM들의 저전력 버전들을 포함함), RDRAM(RAMBUS DRAM), SRAM(static RAM) 등과 같은, 임의의 타입의 메모리일 수 있다. 하나 이상의 메모리 장치가 회로 보드 상에 결합되어 SIMM(single inline memory module), DIMM(dual inline memory module) 등과 같은 메모리 모듈들을 형성할 수 있다. 대안적으로, 장치들은 칩-온-칩(chip-on-chip) 구성, 패키지-온-패키지(package-on-package) 구성, 또는 멀티-칩 모듈 구성으로 IC(10)와 실장될 수 있다.
주변장치들(154)은 시스템(150)의 타입에 따라 임의의 원하는 회로를 포함할 수 있다. 예를 들어, 일 실시예에서, 주변장치들(154)은 와이파이, 블루투스, 셀룰러, 글로벌 포지셔닝 시스템(global positioning system) 등과 같은 다양한 타입의 무선 통신을 위한 장치들을 포함할 수 있다. 주변장치들(154)은 또한 RAM 저장소, 고체 상태 저장소, 또는 디스크 저장소를 포함하는 부가적인 저장소를 포함할 수 있다. 주변장치들(154)은 터치 디스플레이 스크린들 또는 멀티터치 디스플레이 스크린들, 키보드 또는 다른 입력 장치들, 마이크로폰들, 스피커들 등을 포함하는, 디스플레이 스크린과 같은 사용자 인터페이스 장치들을 포함할 수 있다.
이제 도 9를 참조하면, (도 1의) IC(10)에 포함된 회로를 나타내는 하나 이상의 데이터 구조들을 포함하는 컴퓨터 판독 가능한 매체(200)의 블록도의 일 실시예가 도시된다. 일반적으로 말해서, 컴퓨터 판독 가능한 매체(200)는 자기 또는 광 매체, 예를 들어, 디스크, CD-ROM, 또는 DVD-ROM, RAM(예를 들어, SDRAM, RDRAM, SRAM 등), ROM, 등과 같은 휘발성 또는 불휘발성 메모리 매체와, 전기, 전자기, 또는 디지털 신호들과 같은 신호들 또는 전송 매체를 통해 액세스 가능하고 네트워크 및/또는 무선 링크와 같은 통신 매체를 통해 전달되는 매체와 같은 임의의 비-일시적 저장 매체를 포함할 수 있다.
일반적으로, 컴퓨터 판독 가능한 매체(200) 상의 회로의 데이터 구조(들)는 회로를 포함하는 하드웨어를 제조하기 위하여, 직접 또는 간접적으로, 프로그램에 의해 판독되어 이용될 수 있다. 예를 들어, 데이터 구조(들)는 Verilog 또는 VHDL과 같은 고레벨 설계 언어(HDL)의 하드웨어 기능의 하나 이상의 거동 레벨 기술들(behavioral-level descriptions) 또는 RTL(register-transfer level) 기술들을 포함할 수 있다. 기술(들)은 합성 라이브러리(synthesis library)로부터 게이트들의 리스트들을 포함하는 하나 이상의 네트리스트(netlist)를 생성하기 위해 기술을 합성할 수 있는 합성 툴에 의해 판독될 수 있다. 네트리스트(들)는 회로를 포함하는 하드웨어의 기능을 또한 나타내는 게이트들의 세트를 포함한다. 그 다음에 네트리스트(들)는 마스크들에 적용될 기하학적 모양들을 기술하는 하나 이상의 데이터 세트들을 생성하기 위해 배치 및 라우팅될 수 있다. 마스크들은 그 다음에 회로에 대응하는 반도체 회로 또는 회로들을 생성하기 위해 다양한 반도체 제조 단계에서 이용될 수 있다. 대안적으로, 컴퓨터 판독 가능한 매체(200) 상의 데이터 구조(들)는 필요에 따라, 네트리스트(들)(합성 라이브러리를 갖거나 갖지 않음) 또는 데이터 세트(들)일 수 있다. 또 다른 대안에서, 데이터 구조들은 도식 프로그램의 출력, 또는 그로부터 도출되는 네트리스트(들) 또는 데이터 세트(들)를 포함할 수 있다. 컴퓨터 판독 가능한 매체(200)는 IC(10)의 묘사(representation)를 포함하지만, 다른 실시예들은 IC(10)의 임의의 부분 또는 부분들의 결합의 묘사(예를 들어, 프로세서 콤플렉스(20), CPU(22), L2 캐시(30))를 포함할 수 있다.
전술한 실시예들은 오직 구현들의 비한정적인 예들이라는 것에 주목해야 한다. 다수의 변형들 및 수정들은 위의 개시가 완전히 인식되면 이 기술분야의 통상의 기술자에게 명백해질 것이다. 다음의 청구항들은 모든 그러한 변형들 및 수정들을 포함하는 것으로 해석되는 것이 의도된다.
Claims (20)
- 프로세서(20)로서,
2개의 레벨로 배열된 적어도 2개의 캐시(24, 28, 30)를 포함하는 캐시 계층구조(cache hierarchy);
상기 적어도 2개의 캐시 중 제1 캐시와 연관된 제1 프리페치 유닛(74);
상기 적어도 2개의 캐시 중 제2 캐시와 연관된 제2 프리페치 유닛(80); 및
상기 제1 캐시와 연관된 프리페치 트레이닝 메커니즘(prefetch training mechanism)(56)
을 포함하고,
상기 프리페치 트레이닝 메커니즘은 복수의 스트림 각각에 대해 트레이닝 정보를 생성(130)하도록 구성되고, 상기 트레이닝 정보는 상기 제1 프리페치 유닛이 상기 복수의 스트림에 대응하는 데이터에 대한 프리페치 요구들을 상기 제1 캐시에 발행할지 여부를 결정하는데 이용되며,
상기 제1 프리페치 유닛은 상기 제2 프리페치 유닛(80)에 상기 트레이닝 정보를 전달하도록 구성되고,
상기 제2 프리페치 유닛은 상기 제2 프리페치 유닛이 상기 복수의 스트림에 대응하는 데이터에 대한 프리페치 요구들을 상기 제2 캐시(138)로 발행할지 여부를 결정하기 위해 상기 트레이닝 정보를 이용하도록 구성되는 프로세서. - 제1항에 있어서,
상기 제2 프리페치 유닛(80)은 프리페치들에 대한 어떠한 트레이닝도 수행하지 아니하는 프로세서. - 제1항에 있어서,
상기 트레이닝 정보는 캐시 대체 정책의 일부로서 상기 제2 캐시에 의해 사용되는 임시 데이터(96)를 포함하는 프로세서. - 제3항에 있어서,
상기 제1 프리페치 유닛은,
복수의 엔트리를 포함하는 제1 프리페치 테이블(76)을 유지하고 - 각각의 엔트리는 대응하는 스트림과 연관된 스트림 식별자(ID) 및 속성들을 포함함 -,
상기 제1 프리페치 테이블 내의 대응하는 엔트리에 저장된 속성들에 기초하여 주어진 스트림에 대한 프리페치 요구를 생성하며,
상기 제2 캐시에 상기 프리페치 요구 및 패킷을 전달하도록
구성되고,
상기 패킷은 상기 제1 프리페치 테이블 내의 대응하는 엔트리로부터의 하나 이상의 속성들을 포함하는 프로세서. - 제4항에 있어서,
상기 제2 프리페치 유닛은,
주어진 스트림에 대한 페이지 경계를 검출하며,
상기 페이지 경계를 검출하는 것에 응답하여 프리페칭을 중단하도록
또한 구성되는 프로세서. - 제1항에 있어서,
상기 제2 프리페치 유닛은 상기 제1 프리페치 테이블 내의 각각의 엔트리에 대한 엔트리를 갖는 제2 프리페치 테이블(82)을 유지하도록 구성되고, 상기 제2 프리페치 테이블의 트레이닝 정보는 상기 제1 프리페치 테이블의 트레이닝 정보와 동기화되는 프로세서. - 제1항에 있어서,
상기 제2 프리페치 유닛은
상기 제1 프리페치 유닛에 의해 발행된 프리페치 요구들의 개수를 카운트하고,
상기 개수가 임계값을 초과한다고 판정하는 것에 응답하여 상기 제2 프리페치 유닛에 의해 생성되는 프리페치 요구들의 개수를 증가시키도록
구성되는 프로세서. - 제1항에 있어서,
상기 프리페치 트레이닝 메커니즘은 복수의 레벨의 상기 캐시들 중 가장 높은 레벨의 캐시에 결합되어, 복수의 스트림에 대한 트레이닝 정보를 생성하고, 상기 트레이닝 정보는 상기 복수의 레벨의 캐시들 각각에서 프리페치 요구들을 생성하는 데 이용되는 프로세서. - 제8항에 있어서,
상기 복수의 캐시들은 적어도 레벨 1(L1) 및 레벨 2(L2) 캐시를 포함하는 프로세서. - 제8항에 있어서,
상기 가장 높은 레벨의 캐시에 결합되는 프리페치 유닛을 더 포함하고,
상기 프리페치 유닛은,
상기 트레이닝 정보에 기초하여 복수의 프리페치 요구들을 생성하고,
각각의 프리페치 요구에 대한 패킷을 생성하며 - 상기 패킷은 상기 프리페치 요구 및 대응하는 스트림과 연관된 속성들을 포함함 -,
상기 프리페치 요구 및 상기 패킷을 하위 레벨 캐시에 전달하도록
구성되는 프로세서. - 제10항에 있어서,
각각의 트레이닝된 스트림은 연관된 스트림 식별자(ID)(92)를 갖고, 상기 속성들은 적어도 상기 스트림 ID를 포함하는 프로세서. - 제11항에 있어서,
상기 속성들은 상기 대응하는 스트림의 스트라이드(stride)(94)를 더 포함하는 프로세서. - 제11항에 있어서,
상기 프리페치 유닛은, 로드 스트림(load stream) 및 저장 스트림(store stream)에 의한 동일한 어드레스로의 액세스들을 검출하는 것에 응답하여, 상기 로드 스트림 및 상기 저장 스트림에 단일 스트림 ID를 할당하도록 또한 구성되는 프로세서. - 복수의 스트림에 대한 트레이닝 정보를 생성하는 단계 - 상기 생성하는 단계는 제1 캐시 레벨의 제1 캐시에 결합된 프리페치 트레이닝 메커니즘(56)에 의해 수행되고, 상기 트레이닝 정보는 상기 복수의 스트림에 대응하는 프리페치 요구들이 제1 프리페치 유닛에 의해 상기 제1 캐시로 발행될지 여부를 결정하는데 이용됨 - ; 및
제2 캐시 레벨(78)에 상기 트레이닝 정보를 전달하는 단계;
를 포함하고,
상기 제2 캐시 레벨의 제2 캐시에 결합된 제2 프리페치 유닛(80)은 상기 복수의 스트림에 대해 프리페치 요구들이 제2 캐시로 발행될지 여부를 결정하기 위해 상기 트레이닝 정보를 이용하도록 구성되는 방법. - 제14항에 있어서,
상기 제2 프리페치 유닛은 프리페치들에 대한 어떠한 트레이닝도 수행하지 아니하는 방법. - 제15항에 있어서,
상기 제1 캐시 레벨에서 제1 테이블에 상기 트레이닝 정보를 저장하는 단계; 및
상기 제2 캐시 레벨에서 제2 테이블에 상기 트레이닝 정보를 저장하는 단계
를 더 포함하고,
상기 제2 테이블은 상기 제1 테이블과 동기화되는 방법. - 제14항에 있어서,
상기 제1 프리페치 유닛에 의해 발행된 프리페치 요구들의 개수를 상기 제2 프리페치 유닛에 의해 카운트하는 단계; 및
상기 개수가 임계값을 초과한다고 판정한 것에 응답하여 상기 제2 프리페치 유닛에 의해 생성되는 프리페치 요구들의 개수를 증가시키는 단계
를 더 포함하는 방법. - 제17항에 있어서,
상기 트레이닝 정보는 캐시 대체 정책의 일부로서 상기 제2 캐시에 의해 사용되는 임시 데이터(96)를 포함하는 방법. - 제16항에 있어서,
제3 캐시 레벨에서 제3 테이블에 상기 트레이닝 정보를 수신 및 저장하는 단계를 더 포함하고, 상기 제3 테이블은 상기 제2 테이블과 동기화되는 방법. - 제19항에 있어서,
상기 제1 캐시 레벨은 레벨 1(L1) 캐시이고, 상기 제2 캐시 레벨은 레벨 2(L2) 캐시이고, 상기 제3 캐시 레벨은 레벨 3(L3) 캐시인 방법.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/425,123 US9098418B2 (en) | 2012-03-20 | 2012-03-20 | Coordinated prefetching based on training in hierarchically cached processors |
US13/425,123 | 2012-03-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20130106789A KR20130106789A (ko) | 2013-09-30 |
KR101483849B1 true KR101483849B1 (ko) | 2015-01-16 |
Family
ID=47900909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR20130029235A KR101483849B1 (ko) | 2012-03-20 | 2013-03-19 | 계층적으로 캐싱되는 프로세서들에서의 조정된 프리페칭 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9098418B2 (ko) |
EP (1) | EP2642398B1 (ko) |
KR (1) | KR101483849B1 (ko) |
CN (1) | CN103324585B (ko) |
TW (1) | TWI545435B (ko) |
WO (1) | WO2013142148A2 (ko) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150334016A1 (en) * | 2009-11-26 | 2015-11-19 | Nec Corporation | Relay device |
US8966185B2 (en) * | 2012-06-14 | 2015-02-24 | International Business Machines Corporation | Cache memory prefetching |
US9424046B2 (en) | 2012-10-11 | 2016-08-23 | Soft Machines Inc. | Systems and methods for load canceling in a processor that is connected to an external interconnect fabric |
US9348754B2 (en) | 2012-10-11 | 2016-05-24 | Soft Machines Inc. | Systems and methods for implementing weak stream software data and instruction prefetching using a hardware data prefetcher |
US9483406B2 (en) * | 2013-03-11 | 2016-11-01 | Via Technologies, Inc. | Communicating prefetchers that throttle one another |
US20150095586A1 (en) * | 2013-09-30 | 2015-04-02 | Advanced Micro Devices , Inc. | Storing non-temporal cache data |
US9569361B2 (en) * | 2014-01-10 | 2017-02-14 | Samsung Electronics Co., Ltd. | Pre-fetch chaining |
CN103747105A (zh) * | 2014-01-26 | 2014-04-23 | 深圳市远行科技有限公司 | 一种网络文件的缓存方法及系统 |
US9811467B2 (en) * | 2014-02-03 | 2017-11-07 | Cavium, Inc. | Method and an apparatus for pre-fetching and processing work for procesor cores in a network processor |
US9436786B1 (en) * | 2014-02-12 | 2016-09-06 | Xilinx, Inc. | Method and circuits for superclocking |
CN104809080B (zh) * | 2014-05-27 | 2019-09-17 | 威盛电子股份有限公司 | 相互节流的通信预取器 |
US9612970B2 (en) * | 2014-07-17 | 2017-04-04 | Qualcomm Incorporated | Method and apparatus for flexible cache partitioning by sets and ways into component caches |
US20160041914A1 (en) * | 2014-08-05 | 2016-02-11 | Advanced Micro Devices, Inc. | Cache Bypassing Policy Based on Prefetch Streams |
CN107079044A (zh) * | 2014-09-25 | 2017-08-18 | 交互数字专利控股公司 | 用于内容感知缓存的过程和用于多点协作传输的无线电资源管理 |
US9891916B2 (en) * | 2014-10-20 | 2018-02-13 | Via Technologies, Inc. | Dynamically updating hardware prefetch trait to exclusive or shared in multi-memory access agent system |
CN104378420B (zh) * | 2014-11-12 | 2017-12-29 | 东软集团股份有限公司 | 基于环境感知的数据传输方法及装置 |
WO2016097809A1 (en) * | 2014-12-14 | 2016-06-23 | Via Alliance Semiconductor Co., Ltd. | Multiple data prefetchers that defer to one another based on prefetch effectiveness by memory access type |
US10387318B2 (en) * | 2014-12-14 | 2019-08-20 | Via Alliance Semiconductor Co., Ltd | Prefetching with level of aggressiveness based on effectiveness by memory access type |
US9734072B2 (en) * | 2015-03-24 | 2017-08-15 | Macom Connectivity Solutions, Llc | Main memory prefetch operation and multiple prefetch operation |
US9600417B2 (en) * | 2015-04-29 | 2017-03-21 | Google Inc. | Data caching |
US9971694B1 (en) | 2015-06-24 | 2018-05-15 | Apple Inc. | Prefetch circuit for a processor with pointer optimization |
US11169925B2 (en) * | 2015-08-25 | 2021-11-09 | Samsung Electronics Co., Ltd. | Capturing temporal store streams into CPU caches by dynamically varying store streaming thresholds |
US11061853B2 (en) | 2015-12-08 | 2021-07-13 | Via Alliance Semiconductor Co., Ltd. | Processor with memory controller including dynamically programmable functional unit |
US10642617B2 (en) | 2015-12-08 | 2020-05-05 | Via Alliance Semiconductor Co., Ltd. | Processor with an expandable instruction set architecture for dynamically configuring execution resources |
US10268586B2 (en) * | 2015-12-08 | 2019-04-23 | Via Alliance Semiconductor Co., Ltd. | Processor with programmable prefetcher operable to generate at least one prefetch address based on load requests |
US9934149B2 (en) | 2016-03-31 | 2018-04-03 | Qualcomm Incorporated | Prefetch mechanism for servicing demand miss |
US10180905B1 (en) | 2016-04-07 | 2019-01-15 | Apple Inc. | Unified prefetch circuit for multi-level caches |
US9904624B1 (en) | 2016-04-07 | 2018-02-27 | Apple Inc. | Prefetch throttling in a multi-core system |
US10013357B2 (en) | 2016-05-09 | 2018-07-03 | Cavium, Inc. | Managing memory access requests with prefetch for streams |
US10452551B2 (en) * | 2016-12-12 | 2019-10-22 | Intel Corporation | Programmable memory prefetcher for prefetching multiple cache lines based on data in a prefetch engine control register |
US10242654B2 (en) | 2017-01-25 | 2019-03-26 | Microsoft Technology Licensing, Llc | No miss cache structure for real-time image transformations |
US9978118B1 (en) | 2017-01-25 | 2018-05-22 | Microsoft Technology Licensing, Llc | No miss cache structure for real-time image transformations with data compression |
US10331567B1 (en) | 2017-02-17 | 2019-06-25 | Apple Inc. | Prefetch circuit with global quality factor to reduce aggressiveness in low power modes |
US10410349B2 (en) | 2017-03-27 | 2019-09-10 | Microsoft Technology Licensing, Llc | Selective application of reprojection processing on layer sub-regions for optimizing late stage reprojection power |
US10514753B2 (en) | 2017-03-27 | 2019-12-24 | Microsoft Technology Licensing, Llc | Selectively applying reprojection processing to multi-layer scenes for optimizing late stage reprojection power |
US10255891B2 (en) | 2017-04-12 | 2019-04-09 | Microsoft Technology Licensing, Llc | No miss cache structure for real-time image transformations with multiple LSR processing engines |
US10387320B2 (en) | 2017-05-12 | 2019-08-20 | Samsung Electronics Co., Ltd. | Integrated confirmation queues |
US10613983B2 (en) * | 2018-03-20 | 2020-04-07 | Advanced Micro Devices, Inc. | Prefetcher based speculative dynamic random-access memory read request technique |
CN109446111B (zh) * | 2018-10-15 | 2021-01-26 | 上海兆芯集成电路有限公司 | 存储器集成电路及其预取地址决定方法 |
CN110232030B (zh) * | 2019-06-12 | 2021-08-10 | 上海兆芯集成电路有限公司 | 多芯片系统及缓存处理方法 |
US11126556B1 (en) | 2019-07-19 | 2021-09-21 | Marvell Asia Pte, Ltd. | History table management for a correlated prefetcher |
CN110865947B (zh) * | 2019-11-14 | 2022-02-08 | 中国人民解放军国防科技大学 | 一种面向预取数据的高速缓存管理方法 |
CN113128531B (zh) * | 2019-12-30 | 2024-03-26 | 上海商汤智能科技有限公司 | 一种数据处理方法及装置 |
CN113435601A (zh) * | 2020-03-23 | 2021-09-24 | 华为技术有限公司 | 数据预取方法、装置以及存储设备 |
US11442864B2 (en) | 2020-06-29 | 2022-09-13 | Marvell Asia Pte, Ltd. | Managing prefetch requests based on stream information for previously recognized streams |
CN113568848B (zh) * | 2020-07-29 | 2023-07-11 | 华为技术有限公司 | 处理器、信号调整方法及计算机系统 |
KR20220127504A (ko) * | 2021-03-11 | 2022-09-20 | 삼성전자주식회사 | 블록 장치 이미지에 대한 런타임 체크섬 검증을 수행하는 전자 장치 및 이의 동작 방법 |
JP2023534347A (ja) * | 2021-06-23 | 2023-08-09 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | データ処理方法および装置、計算機器ならびに媒体 |
US11630670B2 (en) | 2021-07-21 | 2023-04-18 | Apple Inc. | Multi-table signature prefetch |
CN114358179B (zh) * | 2021-12-31 | 2024-09-17 | 海光信息技术股份有限公司 | 处理器的预取训练方法、处理装置、处理器和计算设备 |
US11940921B2 (en) * | 2022-01-07 | 2024-03-26 | Centaur Technology, Inc. | Bounding box prefetcher |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090199190A1 (en) | 2008-02-01 | 2009-08-06 | Lei Chen | System and Method for Priority-Based Prefetch Requests Scheduling and Throttling |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6381678B2 (en) | 1998-10-30 | 2002-04-30 | Intel Corporation | Processing ordered data requests to a memory |
US6519682B2 (en) | 1998-12-04 | 2003-02-11 | Stmicroelectronics, Inc. | Pipelined non-blocking level two cache system with inherent transaction collision-avoidance |
US6317811B1 (en) | 1999-08-26 | 2001-11-13 | International Business Machines Corporation | Method and system for reissuing load requests in a multi-stream prefetch design |
US6446167B1 (en) * | 1999-11-08 | 2002-09-03 | International Business Machines Corporation | Cache prefetching of L2 and L3 |
US6578130B2 (en) | 2001-10-18 | 2003-06-10 | International Business Machines Corporation | Programmable data prefetch pacing |
TWI227402B (en) * | 2002-06-18 | 2005-02-01 | Ip First Llc | Microprocessor and method for performing selective prefetch based on bus activity level |
US7836259B1 (en) | 2004-04-02 | 2010-11-16 | Advanced Micro Devices, Inc. | Prefetch unit for use with a cache memory subsystem of a cache memory hierarchy |
US8490065B2 (en) * | 2005-10-13 | 2013-07-16 | International Business Machines Corporation | Method and apparatus for software-assisted data cache and prefetch control |
US7774578B2 (en) | 2006-06-07 | 2010-08-10 | Advanced Micro Devices, Inc. | Apparatus and method of prefetching data in response to a cache miss |
US7937532B2 (en) | 2007-03-30 | 2011-05-03 | Intel Corporation | Method and apparatus for speculative prefetching in a multi-processor/multi-core message-passing machine |
US8266393B2 (en) | 2008-06-04 | 2012-09-11 | Microsoft Corporation | Coordination among multiple memory controllers |
US8140769B2 (en) | 2009-04-20 | 2012-03-20 | Oracle America, Inc. | Data prefetcher |
US8667225B2 (en) * | 2009-09-11 | 2014-03-04 | Advanced Micro Devices, Inc. | Store aware prefetching for a datastream |
US8769209B2 (en) * | 2010-12-20 | 2014-07-01 | Intel Corporation | Method and apparatus for achieving non-inclusive cache performance with inclusive caches |
US9026739B2 (en) * | 2012-03-07 | 2015-05-05 | Advanced Micro Devices, Inc. | Multimode prefetcher |
-
2012
- 2012-03-20 US US13/425,123 patent/US9098418B2/en active Active
-
2013
- 2013-03-12 WO PCT/US2013/030497 patent/WO2013142148A2/en active Application Filing
- 2013-03-18 EP EP20130159754 patent/EP2642398B1/en active Active
- 2013-03-19 KR KR20130029235A patent/KR101483849B1/ko active IP Right Grant
- 2013-03-19 TW TW102109728A patent/TWI545435B/zh active
- 2013-03-20 CN CN201310088699.7A patent/CN103324585B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090199190A1 (en) | 2008-02-01 | 2009-08-06 | Lei Chen | System and Method for Priority-Based Prefetch Requests Scheduling and Throttling |
Also Published As
Publication number | Publication date |
---|---|
TWI545435B (zh) | 2016-08-11 |
WO2013142148A2 (en) | 2013-09-26 |
US9098418B2 (en) | 2015-08-04 |
TW201346556A (zh) | 2013-11-16 |
CN103324585B (zh) | 2016-08-10 |
CN103324585A (zh) | 2013-09-25 |
EP2642398A1 (en) | 2013-09-25 |
EP2642398B1 (en) | 2015-05-20 |
WO2013142148A3 (en) | 2015-07-02 |
KR20130106789A (ko) | 2013-09-30 |
US20130254485A1 (en) | 2013-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101483849B1 (ko) | 계층적으로 캐싱되는 프로세서들에서의 조정된 프리페칭 | |
US9047198B2 (en) | Prefetching across page boundaries in hierarchically cached processors | |
US8621157B2 (en) | Cache prefetching from non-uniform memories | |
US9201796B2 (en) | System cache with speculative read engine | |
US8751746B2 (en) | QoS management in the L2 cache | |
US20140075125A1 (en) | System cache with cache hint control | |
US9043554B2 (en) | Cache policies for uncacheable memory requests | |
US9135177B2 (en) | Scheme to escalate requests with address conflicts | |
US20140089600A1 (en) | System cache with data pending state | |
US9043570B2 (en) | System cache with quota-based control | |
EP3844624B1 (en) | Method, apparatus, and system for reducing pipeline stalls due to address translation misses | |
EP2901287B1 (en) | System cache with sticky removal engine | |
US10963392B1 (en) | Victim allocations in shared system cache | |
US20090006777A1 (en) | Apparatus for reducing cache latency while preserving cache bandwidth in a cache subsystem of a processor | |
US11645207B2 (en) | Prefetch disable of memory requests targeting data lacking locality | |
US12032479B2 (en) | Metadata-caching integrated circuit device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20171219 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20181226 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20191217 Year of fee payment: 6 |