KR101943561B1 - 데이터 캐시 프리페치 힌트들 - Google Patents
데이터 캐시 프리페치 힌트들 Download PDFInfo
- Publication number
- KR101943561B1 KR101943561B1 KR1020157006566A KR20157006566A KR101943561B1 KR 101943561 B1 KR101943561 B1 KR 101943561B1 KR 1020157006566 A KR1020157006566 A KR 1020157006566A KR 20157006566 A KR20157006566 A KR 20157006566A KR 101943561 B1 KR101943561 B1 KR 101943561B1
- Authority
- KR
- South Korea
- Prior art keywords
- prefetcher
- prefetch
- cache
- request
- requests
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0862—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/08—Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
- G06F12/0802—Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
- G06F12/0893—Caches characterised by their organisation or structure
- G06F12/0897—Caches characterised by their organisation or structure with two or more cache hierarchy levels
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1016—Performance improvement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/10—Providing a specific technical effect
- G06F2212/1041—Resource optimization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2212/00—Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
- G06F2212/60—Details of cache memory
- G06F2212/6028—Prefetching based on hints or prefetch instructions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Memory System Of A Hierarchy Structure (AREA)
- Display Devices Of Pinball Game Machines (AREA)
Abstract
본 발명은 프리페치 힌트들을 사용하기 위한 방법 및 장치를 제공한다. 방법의 일 실시예는 제1 캐시(120)와 연관되는 제1 프리페처(150)에서, 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내 다수의 메모리 어드레스들로부터 데이터를 프리페치하는 요청들을 발행하는 것을 바이패스하는 단계를 포함한다. 상기 수는 제2 캐시(125)와 연관되는 제2 프리페처(140)로부터 수신되는 요청에 표시된다. 또한, 방법의 이 실시예는 제1 프리페처로부터, 바이패스된 메모리 어드레스들 다음의 메모리 어드레스로부터 데이터를 프리페치하는 요청을 발행하는 단계를 포함한다.
Description
본 출원은 일반적으로 프로세서-기반 시스템들에 관한 것이고, 보다 구체적으로, 프로세서-기반 시스템들에서 데이터 캐시 프리페치 동안 힌트들을 제공하는 것에 관한 것이다.
많은 프로세싱 디바이스들은 메모리에 저장된 정보에 액세스하는데 요구되는 평균 시간을 감소하기 위해 캐시들(caches)을 이용한다. 캐시는 비교적 자주 사용될 것이 기대되는 명령들 또는 데이터의 복사본들을 저장하는 보다 소형 및 보다 고속의 메모리이다. 예를 들어, 중앙 처리 장치들(CPUs; central processing units)은 일반적으로 캐시 또는 캐시 메모리 요소들의 계층과 연관된다. 또한, 그래픽 처리 장치들 또는 가속 처리 장치들과 같은, 다른 프로세서들은 캐시 시스템들을 구현할 수 있다. CPU에 의해 사용될 것이 기대되는 명령들 또는 데이터는 (비교적 대형 및 저속의) 주 메모리로부터 캐시로 이동된다. CPU가 주 메모리에서의 위치를 판독 또는 기록해야할 때, CPU는 우선 원하는 메모리 위치의 복사본이 캐시 메모리에 포함되는지 여부를 살펴보도록 점검한다. 이러한 위치가 캐시에 포함된다면(캐시 적중), 그 후 CPU는 그 캐시 메모리 위치의 복사본 상에 판독 또는 기록 작업을 수행할 수 있다. 이러한 위치가 캐시에 포함되지 않는다면(캐시 실패), 그 후 CPU는 주 메모리에 저장된 정보에 액세스해야 하고, 몇몇 경우들에서, 정보는 주 메모리로부터 복사되어 캐시에 부가될 수 있다. 캐시의 적절한 구성 및 동작은 메모리 액세스들의 평균 대기 시간을 주 메모리 대기 시간 미만 및 캐시 액세스 대기 시간에 가까운 값으로 감소시킬 수 있다.
프리페처(prefetcher)는 라인들 내 정보가 캐시로부터 요청되기 전, 캐시에 이들 라인들을 파퓰레이트(populate)하는데 사용될 수 있다. 프리페처는 CPU에서 구동하는 애플리케이션들과 연관되는 메모리 요청들을 감시하고, CPU가 주 메모리의 메모리 어드레스들의 특정한 시퀀스를 액세스할 것으로 예상되는지를 결정 또는 예측하기 위해 감시된 요청들을 사용할 수 있다. 예를 들어, 프리페처는 이전의 캐시 실패들의 어드레스들을 저장하는 실패 어드레스 버퍼를 감시함으로써 CPU에 의한 순차적인 메모리 액세스들을 검출할 수 있다. 그 후, 프리페처는 실패 어드레스 버퍼의 순차적인 메모리 액세스들에 의해 결정되는 시퀀스(및 방향)의 주 메모리에서의 위치들로부터 정보를 페치하고, 정보가 CPU에 의해 요청되기 전 정보가 이용가능하도록 캐시에 이 정보를 저장한다. 프리페처들은 다중 스트림들의 트랙을 유지하고, 서로 다른 스트림들에 대한 데이터를 독립적으로 프리페치할 수 있다.
개시된 발명 대상은 위에서 제시된 하나 이상의 문제점들의 효과들을 다루도록 기울여진다.
다음 언급하는 내용은 개시된 발명 대상의 몇몇 측면들의 기본적인 이해를 제공하기 위해 개시된 발명 대상의 단순화된 요약을 제시한다. 이러한 요약은 개시된 발명 대상의 완전한 개요는 아니다. 개시된 발명 대상의 열쇠 또는 결정적인 요소들을 식별하는 것 또는 개시된 발명 대상의 범위를 기술하는 것이 의도되지 않는다. 그 유일한 목적은 이후에 논의되는 보다 상세한 설명에 대한 서문으로서 단순화된 형태로 몇몇 개념들을 제시하는 것이다.
일 실시예에서, 방법은 데이터 캐시 프리페치 힌트 암시에 대해 제공받는다. 상기 방법의 대표적 일 실시예는 제1 캐시와 연관되는 제1 프리페처에서, 상기 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내 다수의 메모리 어드레스들로부터 데이터를 프리페치하는 요청들을 발행하는 것을 바이패스(bypass)하는 단계를 포함한다. 상기 수는 제2 캐시와 연관되는 제2 프리페처로부터 수신되는 요청에 표시된다. 또한, 상기 방법의 이 실시예는 상기 제1 프리페처로부터, 바이패스된 상기 메모리 어드레스들 다음의 메모리 어드레스로부터 데이터를 프리페치하는 요청을 발행하는 단계를 포함한다.
다른 실시예에서, 장치는 데이터 캐시 프리페치 힌트 암시에 대해 제공받는다. 상기 장치의 대표적 일 실시예는 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내 다수의 메모리 어드레스들로부터 데이터를 프리페치하는 요청들을 발행하는 것을 바이패스하도록 구성가능한 상기 제1 프리페처를 포함한다. 상기 수는 제2 캐시와 연관되는 제2 프리페처로부터 수신되는 요청에 표시된다. 상기 제1 프리페처의 상기 대표적 실시예는 바이패스된 상기 메모리 어드레스들 다음의 메모리 어드세스로부터 데이터를 프리페치하는 요청을 발행하도록 구성가능하다.
또 다른 실시예에서, 프로세서-기반 시스템은 데이터 캐시 프리페치 힌트 암시에 대해 제공받는다. 상기 프로세서-기반 시스템의 대표적 일 실시예는 메모리, 상기 메모리와 연관되는 제1 캐시, 데이터를 상기 제1 캐시로 프리페치하기 위한 제1 프리페처, 상기 제1 캐시와 연관되는 제2 캐시 및 데이터를 상기 제2 캐시로 프리페치하기 위한 제2 프리페처를 포함한다. 상기 제1 프리페처는 상기 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내 다수의 메모리 어드레스들로부터 데이터를 프리페치하는 요청들을 발행하는 것을 바이패스하도록 구성가능하다. 상기 수는 상기 제2 프리페처로부터 수신되는 요청에 표시된다. 상기 제1 프리페처는 바이패스된 상기 메모리 어드레스들 다음의 메모리 어드레스로부터 데이터를 프리페치하는 요청을 발행하도록 구성가능하다.
추가 실시예에서, 컴퓨터 판독가능 매체는 실행될 때 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내 다수의 메모리 어드레스들로부터 데이터를 프리페치하는 요청들을 발행하는 것을 바이패스하도록 구성가능한 상기 제1 프리페처를 포함하는 집적 회로를 포함하는 반도체 디바이스를 제조하는데 사용되는 제조 프로세스를 구성할 수 있는 명령들을 포함한다. 상기 수는 제2 캐시와 연관되는 제2 프리페처로부터 수신되는 요청에 표시된다. 상기 제1 프리페처는 바이패스된 상기 메모리 어드레스들 다음의 메모리 어드레스로부터 데이터를 프리페치하는 요청을 발행하도록 구성가능하다.
개시된 발명 대상은 첨부 도면들과 결합하여 함께 취해지는 다음 설명을 참조하여 이해될 수 있고, 도면들에서 유사한 참조 번호들은 유사한 요소들을 식별한다.
도 1은 반도체 기판 내에 또는 상에 형성될 수 있는 반도체 디바이스의 제1 대표적 실시예를 개념적으로 예시한다.
도 2는 도 1에 도시된 L1 프리페처 또는 L2 프리페처와 같은 프리페처의 대표적 일 실시예를 개념적으로 예시한다.
도 3은 프리페치 플래그들(prefetch flags)을 사용하여 프리페치 스트림을 할당하고 미리보기 윈도우(look-ahead window)를 확인하기 위한 방법의 대표적 일 실시예를 개념적으로 예시한다.
도 4는 플래그되고 프리페치될 수 있는 어드레스들의 시퀀스를 포함하는 프리페치 스트림의 제1 대표적 실시예를 개념적으로 예시한다.
도 5는 프리페치 스트림과 연관되는 어드레스 시퀀스의 대표적 일 실시예를 개념적으로 예시한다.
도 6은 프리페치 스트림 엔트리의 대표적 일 실시예를 개념적으로 예시한다.
도 7은 프리페치 플래그들을 사용하여 프리페치 스트림을 할당하고 미리보기 윈도우를 확인하기 위한 방법의 대표적 일 실시예를 개념적으로 예시한다.
도 8a는 프리페치 스트림과 연관되는 어드레스 시퀀스의 대표적 일 실시예를 개념적으로 예시한다.
도 8b는 도 8a의 프리페치 스트림과 연관되는 어드레스 시퀀스의 다른 대표적 실시예를 개념적으로 예시한다.
개시된 발명 대상이 수정될 수 있고 대안적인 형태들을 취할 수 있지만, 그것의 특정한 실시예들이 도면들에 예로서 도시되었고 본 명세서에 상세하게 기술된다. 그러나, 특정한 실시예들에 대한 본 명세서의 설명은 개시된 발명 대상을 개시되는 특정한 형태들로 제한하도록 의도되지 않으나, 반대로 의도는 첨부된 청구항들의 범위에 들어가는 모든 수정들, 등가물들, 및 대안들을 커버하는 것이라는 것이 이해되어야 한다.
도 1은 반도체 기판 내에 또는 상에 형성될 수 있는 반도체 디바이스의 제1 대표적 실시예를 개념적으로 예시한다.
도 2는 도 1에 도시된 L1 프리페처 또는 L2 프리페처와 같은 프리페처의 대표적 일 실시예를 개념적으로 예시한다.
도 3은 프리페치 플래그들(prefetch flags)을 사용하여 프리페치 스트림을 할당하고 미리보기 윈도우(look-ahead window)를 확인하기 위한 방법의 대표적 일 실시예를 개념적으로 예시한다.
도 4는 플래그되고 프리페치될 수 있는 어드레스들의 시퀀스를 포함하는 프리페치 스트림의 제1 대표적 실시예를 개념적으로 예시한다.
도 5는 프리페치 스트림과 연관되는 어드레스 시퀀스의 대표적 일 실시예를 개념적으로 예시한다.
도 6은 프리페치 스트림 엔트리의 대표적 일 실시예를 개념적으로 예시한다.
도 7은 프리페치 플래그들을 사용하여 프리페치 스트림을 할당하고 미리보기 윈도우를 확인하기 위한 방법의 대표적 일 실시예를 개념적으로 예시한다.
도 8a는 프리페치 스트림과 연관되는 어드레스 시퀀스의 대표적 일 실시예를 개념적으로 예시한다.
도 8b는 도 8a의 프리페치 스트림과 연관되는 어드레스 시퀀스의 다른 대표적 실시예를 개념적으로 예시한다.
개시된 발명 대상이 수정될 수 있고 대안적인 형태들을 취할 수 있지만, 그것의 특정한 실시예들이 도면들에 예로서 도시되었고 본 명세서에 상세하게 기술된다. 그러나, 특정한 실시예들에 대한 본 명세서의 설명은 개시된 발명 대상을 개시되는 특정한 형태들로 제한하도록 의도되지 않으나, 반대로 의도는 첨부된 청구항들의 범위에 들어가는 모든 수정들, 등가물들, 및 대안들을 커버하는 것이라는 것이 이해되어야 한다.
예시적인 실시예들이 아래에 기술된다. 명확함을 위하여, 실제 구현의 모든 특징들이 이 명세서에 기술되지는 않는다. 임의의 이러한 실제 구현의 개발에서, 다수의 구현-특정 결정들이 이를테면 시스템-관련 및 사업-관련 제약들을 준수하여, 개발자의 특정한 목표들을 달성하도록 이루어져야 한다는 것이 물론 인식될 것이고, 이는 구현마다 달라질 것이다. 게다가, 이러한 개발 노력은 복잡하고 시간-소모적일 수 있지만, 그럼에도 불구하고 이 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들을 위해 착수하는 루틴일 것이라는 것이 인식될 것이다. 설명 및 도면들은 단지 청구된 발명 대상의 원리들을 예시한다. 이와 같이, 당해 기술분야의 통상의 기술자들이 본 명세서에 명백하게 기술되거나 도시되지 않더라도, 본 명세서에 기술되고 청구된 발명 대상의 범위 내에 포함될 수 있는 원리들을 구현하는 다양한 배열들을 고안할 수 있다는 것이 인식되어야 한다. 게다가, 본 명세서에 나열되는 모든 예들은 주로 독자들이 청구된 발명 대상의 원리들 및 당해 기술을 발전시키기 위해 발명자(들)에 의해 기여되는 개념들을 이해하는 것을 돕기 위한 교시적 목적들을 위한 것으로 의도되고, 이러한 구체적으로 나열된 예들 및 상태들에 대해 제한이 없는 것으로 구성되는 것이다.
개시된 발명 대상은 첨부된 도면들을 참조하여 기술된다. 다양한 구조들, 시스템들 및 디바이스들이 단지 설명의 목적들을 위해 및 당해 기술분야의 통상의 기술자들에게 잘 알려진 상세들과 함께 본 발명을 모호하지 않게 하기 위해 도면들에 개략적으로 도시된다. 그럼에도 불구하고, 첨부된 도면들은 개시된 발명 대상의 예시적인 예들을 기술 및 설명하기 위해 포함된다. 본 명세서에서 사용되는 단어들 및 구들은 관련 기술의 기술자들에 의해 그 단어들 및 구들의 이해와 일치하는 의미를 가지도록 이해되고 해석되어야 한다. 용어 또는 구의 어떤 특정한 정의 즉, 당해 기술분야의 통상의 기술자들에 의해 이해되는 바와 같은 통상적이고 관용적인 의미와 다른 정의도 본 명세서의 단어 또는 구의 일관적인 사용에 의해 암시되도록 의도되지 않는다. 용어 또는 구가 특별한 의미, 즉, 숙련된 기술자들에 의해 이해되는 것이 아닌 의미를 가지도록 의도되는 정도로, 이러한 특별한 정의는 특별한 정의를 용어 또는 구에 직접적이고 모호하지 않게 제공하여 정의를 내리는 방식으로 명세서에 명확히 제시된다. 게다가, 본 명세서에서 사용되는 바와 같은 용어 "또는(or)"은 비-배타적인 "또는"을 나타내고, 그렇지 않으면 다른 방법으로 표시된다(예컨대, "그렇지 않으면(or else)" 또는 "또는 대안으로(or in the alternative)" ). 또한, 본 명세서에 설명되는 다양한 실시예들은 몇몇 실시예들이 새로운 실시예들을 형성하기 위해 하나 이상의 다른 실시예들과 결합될 수 있음에 따라, 반드시 상호 배타적인 것은 아니다.
메모리 캐시들은 프로세서 코어들(processor cores)에 의해 캐시로부터 요청될 것이 기대되는 캐시 라인들을 프리페치할 수 있다. 예를 들어, 프로세서 코어로부터의 2개의 요청들이 캐시에서 연이은 어드레스들을 실패할 때, 프리페처는 프로세서 코어가 실패들에 의해 표시되는 패턴으로 부가적인 어드레스들을 요청할 것이라고 예측할 수 있다. 그러므로 프리페처는 프로세서 코어가 그것들을 요청하면 라인들이 캐시에서 이용가능하도록 메모리 또는 다른 캐시로부터 캐시 라인들을 프리페치할 수 있다. 계층적 캐시 시스템에서, 프로세서 코어는 하위 계층 캐시(L1 데이터 또는 명령 캐시와 같은)로부터의 캐시 라인들을 요청할 수 있고, 하위 계층 캐시는 상위 계층 캐시(L2 캐시와 같은)로부터의 캐시 라인들을 요청할 수 있으며, 상위 계층 캐시는 주 메모리 또는 더 높은 상위 계층(L3 캐시와 같은)으로부터의 라인들을 요청할 수 있다.
상위-계층 캐시들은 전형적으로 하위 계층 캐시들에 비하여 보다 긴 대기 시간을 갖는다, 즉, 상위 계층 캐시가 다음의 상위 메모리 또는 캐시 계층으로부터 정보를 검색하는데 더 긴 시간이 소요된다. 보다 긴 대기 시간을 가지는 캐시들은 실패에 응답하여 전형적으로 더 많은 프리페치 요청들을 발행한다, 예컨대, 그들은 더 높은 프리페치 지점을 가진다. 예를 들어, L1 데이터 캐시는 3개와 동수인 아직 처리되지 않은 프리페치 요청들을 가질 수 있고, L2 캐시는 12개와 동수인 아직 처리되지 않은 프리페치 요청들을 가질 수 있다. 종래의 L1 캐시들 및 L2 캐시들은 각 다른 캐시의 아직 처리되지 않은 프리페치 요청들을 인식하지 못한다. 종래에, 상위 계층 캐시는 전력, 시간, 및 다른 시스템 자원들을 불필요하게 소비하는 이중의 노력을 유발하여 동일 라인을 두 번 요청할 수 있다(예컨대, 하위-계층 캐시로부터의 요청 촉구에 응답하여 한 번 및 상위-계층 프리페처로부터의 프리페치 요청에 응답하여 한 번). 또한, 이중 요청들을 발행하는 것은 프리페처가 다른 캐시 라인을 프리페치하는 기회를 잃게 한다.
본 명세서에 기술되는 프리페처들의 실시예들은 하위 계층 캐시 프리페치 스트림에 대한 아직 처리되지 않은 프리페치 요청들의 수를 표시하는 정보를 저장함으로써 종래의 실행에 관한 앞서 언급된 어려움들을 처리하도록 구성될 수 있다. 일 실시예에서, 프리페치 힌트로 지칭될 수 있는 프리페치 요청 정보는 스트림 엔트리(stream entry)에 부착될 수 있다. 프리페치 힌트는 상위 계층 캐시에 대한 요청 촉구를 발행하는 하위 계층 프리페처에 응답하여 상위 계층 캐시로 전송될 수 있다. 상위 계층 캐시를 위한 프리페처는 하위 계층 프리페처에서 아직 처리되지 않고 다음 어드레스들에 대한 요청들을 발행하기 위해 상위-계층 프리페치 스트림을 트레이닝(training)하는 프리페치 요청들에 대응하는 어드레스들을 스킵 오버(skip over)하는 요청 촉구의 어드레스 및 프리페치 힌트를 사용할 수 있다. 그 후, 상위 계층 캐시를 위한 프리페처는 하위 계층 캐시를 실패하는 요청 촉구들 또는 프리페치 요청들에 응답하여 프리페치 요청들을 발행할 수 있다. 예를 들어, 하위-계층 캐시는 프리페치 스트림을 할당하는 제1 실패 및 프리페치 스트림을 트레이닝하는 제2 실패를 사용할 수 있다. 하위-계층 프리페처로부터 상위-계층 캐시로의 제 1(및 다음) 요청은 페치 힌트 정보를 포함한다. 상위-계층 캐시가 요청된 정보를 가지지 않는다고 가정하면, 상위 계층 캐시는 프리페치 스트림을 할당하는 제1 실패, 프리페치 스트림을 트레이닝하는 제2 실패, 및 그것의 다음 프리페치 요청의 어드레스를 선택하는 제1 프리페치 요청(힌트들과 함께)을 사용한다.
도 1은 반도체 기판(또는 다이(die)) 내에 또는 상에 형성될 수 있는 반도체 디바이스(100)의 제1 대표적 실시예를 개념적으로 예시한다. 반도체 디바이스(100)는 증착, 성장, 포토리소그래피(photolithography), 에칭(etching), 평탄화, 폴리싱(polishing), 어닐링(annealing) 등과 같은 잘 알려진 프로세스들을 사용하여 반도체 기판 내에 또는 상에 형성될 수 있다. 예시된 실시예에서, 디바이스(100)는 주 메모리(110)에 저장되는 명령들 또는 데이터에 액세스하도록 구성되는 중앙 처리 장치(CPU)(105)를 포함한다. 예시된 실시예에서, CPU(105)는 명령들을 실행하거나 데이터를 조작하는데 사용되는 적어도 하나의 CPU 코어(115)를 포함한다. 또한, CPU(105)는 캐시들에 선택된 명령들 또는 데이터를 저장함으로써 명령들 또는 데이터에 고속 액세스하는데 사용되는 계층적(또는 멀티레벨) 캐시 시스템을 구현한다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 디바이스(100)의 대안적인 실시예들이 외부 캐시들을 사용하는 구성들과 같은, CPU(105)의 서로 다른 구성들을 구현할 수 있다는 것을 인식해야 한다. 게다가, 본 출원에 기술되는 기술들은 그래픽 처리 장치들(GPUs; graphical processing units), 가속 처리 장치들(APUs; accelerated processing units) 등과 같은 다른 프로세서들에 적용될 수 있다.
예시된 캐시 시스템은 주 메모리(110)에 저장되는 명령들 또는 데이터의 복사본들을 저장하기 위한 계층 2(L2) 캐시(120)를 포함한다. 예시된 실시예에서, L2 캐시(120)는 주 메모리(110)의 각 라인이 L2 캐시(120)의 16개의 특정 라인들(종래 "웨이들(ways)"로 지칭됨)로 및 로부터 복사될 가능성이 있을 수 있도록, 주 메모리(110)에 연합하는 16-웨이이다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 주 메모리(110) 또는 L2 캐시(120)의 대안적인 실시예들이 임의의 연합을 사용하여 구현될 수 있다는 것을 인식해야 한다. 주 메모리(110)에 비하여, L2 캐시(120)는 보다 소형 및 보다 고속의 메모리 요소들을 사용하여 구현될 수 있다. 또한, L2 캐시(120)는 정보가 CPU코어(115)와 L2 캐시(120) 사이에서 보다 신속히 또는 보다 짧은 대기 시간으로 교환될 수 있도록, CPU 코어(115)에 논리적으로 또는 물리적으로 더 근접하게(주 메모리(110)에 비하여) 배치될 수 있다.
또한, 예시된 캐시 시스템은 주 메모리(110) 또는 L2 캐시(120)에 저장되는 명령들 또는 데이터의 복사본들을 저장하기 위한 L1 캐시(125)를 포함한다. L2 캐시(120)에 비하여, L1 캐시(125)는 L1 캐시(125)의 라인들에 저장되는 정보가 CPU(105)에 의해 빠르게 검색될 수 있도록, 보다 소형 및 보다 고속의 메모리 요소들을 사용하여 구현될 수 있다. 또한, L1 캐시(125)는 정보가 CPU 코어(115)와 L1 캐시(125) 사이에서 보다 신속히 또는 보다 짧은 대기 시간으로(주 메모리(110) 및 L2 캐시(120)와의 통신에 비하여) 교환될 수 있도록, CPU 코어(115)에 논리적으로 또는 물리적으로 더 근접하게(주 메모리(110) 및 L2 캐시(120)에 비하여) 배치될 수 있다. 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 L1 캐시(125) 및 L2 캐시(120)가 멀티-레벨 계층적 캐시 메모리 시스템의 대표적 일 실시예를 나타낸다는 것을 인식해야 한다. 대안적인 실시예들은 L0 캐시들, L1 캐시들, L2 캐시들, L3 캐시들 등과 같은 요소들을 포함하는 서로 다른 멀티레벨 캐시들을 사용할 수 있다. 몇몇 실시예들에서, 상위-계층 캐시들은 하위-계층 캐시들의 라인들이 포괄적인 상위-계층 캐시(들)에도 저장되도록, 하나 이상의 하위-계층 캐시들을 포함할 수 있다. 캐시들은 전형적으로 정적 랜덤 액세스 메모리(SRAM; static random access memory)에 구현되나, 동적 랜덤 액세스 메모리(DRAM; dynamic random access memory)와 같은 메모리의 다른 유형들에 구현될 수도 있다.
예시된 실시예에서, L1 캐시(125)는 명령들 및 데이터를 저장하기 위한 계층 1(L1) 캐시들로 분리되는데, 이는 L1-I 캐시(130) 및 L1-D 캐시(135)로 지칭된다. L1 캐시(125)를 명령들을 저장하기 위한 L1-I 캐시(130) 및 데이터를 저장하기 위한 L1-D 캐시(135)로 분리하는 것 또는 분할하는 것은 이들 캐시들이 각각, 명령들 또는 데이터를 요청할 것으로 예상되는 개체들에 더 근접하게 배치되게 할 수 있다. 결과적으로, 이 배열은 경쟁, 배선 지연들을 감소하고, 일반적으로 명령들 및 데이터와 연관되는 대기 시간을 감소시킬 수 있다. 일 실시예에서, 교체 방식은 L1-I 캐시(130)의 라인들이 L2 캐시(120)로부터의 명령들로 교체되고 L1-D 캐시(135)의 라인들이 L2 캐시(120)로부터의 데이터로 교체되는 것을 지시한다. 그러나, 당해 기술분야의 통상의 기술자들은 L1 캐시(125)의 대안적인 실시예가 분리된 명령-전용 및 데이터-전용 캐시들(130, 135)로 분할되지 않을 수 있다는 것을 인식해야 한다.
또한, CPU(105)는 하나 이상의 L1 캐시들(125, 130, 135)에 라인들을 파퓰레이트하는데 사용될 수 있는 L1 프리페처(140)를 포함한다. 일 실시예에서, L1 프리페처(140)는 라인들을 데이터 캐시(135)로 프리페치하도록 구성될 수 있고, 그 경우 그것은 L1 데이터 캐시 프리페처(140)로 지칭될 수 있다. L1 프리페처(140)는 예시된 실시예에서 CPU(105) 내의 분리된 논리적 요소로서 도시된다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 L1 프리페처(140)가 대안적으로 다른 논리적 요소들의 일부로서 구현될 수 있다는 것을 인식해야 한다. 예를 들어, L1 프리페처(140)는 L1-D 캐시(135)의 로직의 일부로서 구현될 수 있다. 일 실시예에서, L1 프리페처(140)는 CPU 코어(115)에서 구동하는 애플리케이션들과 연관되는 메모리 요청들을 감시할 수 있다. 예를 들어, L1 프리페처(140)는 캐시 적중들 또는 실패들을 유발하는 메모리 요청들을 감시할 수 있는데, 이는 L1 실패 어드레스 버퍼(145)에 기록될 수 있다. L1 프리페처(140)는 CPU 코어(115)가 주 메모리(110)의 메모리 어드레스들의 특정한 시퀀스에 액세스할 것으로 예상되는지를 결정 또는 예측할 수 있다. 예를 들어, L1 프리페처(140)는 CPU 코어(115)에 의해 2개 이상의 순차적인 메모리 액세스들을 검출할 수 있다. 시퀀스의 방향은 순차적인 메모리 액세스들의 일시적인 시퀀스에 기초하여 결정될 수 있고, CPU 코어(115)는 현재 또는 이전의 순차적인 메모리 액세서들에 기초하여 추론함으로써 미래의 메모리 액세스들을 예측하기 위해 이 방향을 사용할 수 있다. 그 후, L1 프리페처(140)는 L2 캐시(120) 또는 주 메모리(110)로부터 예측된 위치들에서 정보를 페치하고, 정보가 CPU 코어(115)에 의해 요청되기 전 그것이 이용가능하도록 이 정보를 적절한 캐시에 저장할 수 있다.
또한, CPU(105)는 L2 캐시(120)에 라인들을 파퓰레이트하는데 사용될 수 있는 L2 프리페처(150)를 포함할 수 있다. L2 프리페처(150)는 예시된 실시예에서 CPU(105) 내의 분리된 논리적 요소로서 도시된다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 L2 프리페처(150)가 대안적으로 다른 논리적 요소들의 일부로서 구현될 수 있다는 것을 인식해야 한다. 예를 들어, L2 프리페처(150)는 L2 캐시(120)의 로직의 일부로서 구현될 수 있다. 일 실시예에서, L2 프리페처(150)는 CPU 코어(115)에서 구동하는 애플리케이션들과 연관되는 메모리 요청들을 감시할 수 있다. 예를 들어, L2 프리페처(150)는 캐시 적중들 또는 실패들을 유발하는 메모리 요청들을 감시할 수 있는데, 이는 L2 실패 어드레스 버퍼(155)에 기록될 수 있다. L2 프리페처(150)는 CPU 코어(115) 또는 L1 프리페처(140)가 주 메모리(110) 내 메모리 어드레스들의 특정한 시퀀스에 액세스할 것으로 예상되는지를 결정 또는 예측할 수 있다. 예를 들어, L2 프리페처(150)는 CPU 코어(115), 캐시들(125, 130, 135), 또는 L1 프리페처(140)에 의해 2개 이상의 순차적인 메모리 액세스들을 검출할 수 있다. 시퀀스의 방향은 순차적인 메모리 액세스들의 일시적인 시퀀스에 기초하여 결정될 수 있고, L2 프리페처(150)는 현재 또는 이전의 순차적인 메모리 액세서들에 기초하여 추론함으로써 미래의 메모리 액세스들을 예측하기 위해 이 방향을 사용할 수 있다. 그 후, L2 프리페처(150)는 주 메모리(110)로부터 예측된 위치들에서 정보를 페치하고, 정보가 CPU 코어(115), 캐시들(125, 130, 135), 또는 L1 프리페처(140)에 의해 요청되기 전 그것이 이용가능하도록, 이 정보를 적절한 캐시에 저장할 수 있다.
도 2는 도 1에 도시된 L1 프리페처(140) 또는 L2 프리페처(150)와 같은 프리페처(200)의 대표적 일 실시예를 개념적으로 예시한다. 예시된 실시예에서, 프리페처(200)는 로드 명령(load instruction)과 연관되는 적중들 또는 실패들, 저장 명령과 연관되는 적중들 또는 실패들 등과 같은 메모리 액세스 요청들과 관련되는 특정한 이벤트들을 표시하는 신호들을 수신한다. 로드들 또는 저장들을 위한 적중 또는 실패 이벤트들과 같은, 실패 어드레스 버퍼(MAB; miss address buffer) 이벤트들은 이벤트 선택기 블록(205)에 의해 수신되거나 액세스될 수 있는데, 이는 프리페처(200)의 다른 단계들로 전달되어야 하는 이벤트들을 선택하는데 사용된다. 예를 들어, 최우선 순위 이벤트는 그것들이 예컨대, 다음 클록 사이클(clock cycle) 동안, 하나 이상의 스트림 엔진들(215) 및 스트림 할당 유닛(220)으로 전달되기 전까지 레지스터들(210)에 저장될 수 있다. 이벤트들의 우선순위는 이를테면 로드 실패들에 최우선 순위를 부여하고 그 후 저장 실패들, 로드 적중들, 및 저장 적중들에 연속하여 낮은 우선순위들을 배정하여 계층을 사용하여 결정될 수 있다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 대안적인 계층들이 이벤트들의 우선순위들을 설정하는데 사용될 수 있다는 것을 인식해야 한다.
예시된 실시예에서, 프리페처(200)는 분리된 프리페치 스트림들을 관리하는데 사용될 수 있는 하나 이상의 스트림 엔진들(215)을 포함한다. 스트림 엔진들(215)은 현재의 이벤트가 스트림 엔진(215)에 의해 관리되는 스트림을 적중 또는 실패했는지를 표시하기 위한 신호를 스트림 할당 유닛(220)에 제공할 수 있다. 어떤 기존의 스트림들도 MAB 실패 이벤트에 대한 적중을 표시하지 않으면, 그 후 스트림 할당 유닛(220)은 현재 이벤트 정보를 사용하여 새로운 스트림을 서로 다른 스트림 엔진(215)에 할당할 수 있다. 먼저 스트림이 할당될 때, 스트림 엔진(215)은 페이지 어드레스 및 오프셋 값을 현재 이벤트 캐시 라인 어드레스로 설정한다. 그 후, 스트림 엔진(215)은 어느 하나의 방향에서 현재 이벤트 캐시 라인 어드레스에 인접한 어드레스들에서 이벤트들을 검출하기 위해 추가 MAB 이벤트들을 감시할 수 있다. 예를 들어, 현재 이벤트 캐시 라인 어드레스가 A로 설정되면, 그 후 스트림 엔진(215)은 현재 이벤트 캐시 라인 어드레스, 예컨대, 어드레스들 A+1 또는 A-1에 관한 어드레스들에서 이벤트들을 탐색한다. 스트림 엔진(215)이 어드레스들 중 이벤트를 발견하면, 그것은 적절한 방향(A+1에 대하여 양의 및 A-1에 대하여 음의)으로 스트림을 정의하고, 새로운 프리페치 스트림을 트레이닝한다. 일 실시예에서, 스트림 엔진(215)은 본 명세서에서 논의되는 바와 같이, 현재 스트림 어드레스에 대한 가능한 프리페치들을 표시하는 프리페치 플래그들의 세트를 유지한다. 새로운 프리페치 스트림이 트레이닝될 때 프리페치 플래그들이 설정될 수 있다.
또한, 프리페처(200)는 스트림 엔진들(215)로부터의 프리페치 요청들을 중재하는데 사용되는 요청 중재기(225)를 포함할 수 있다. 일 실시예에서, 요청 중재기(225)는 순환 우선순위 중재기이다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 요청 중재기(225)의 다른 유형들이 대안적으로 프리페처(200)에 구현될 수 있다는 것을 인식해야 한다. 요청들은 요청 정보가 예컨대, 다음 클록 사이클 동안, 프리페치 요청 인터페이스(235)에 제공될 수 있도록, 요청 중재기(225)로부터 레지스터(230)로 전달될 수 있다. 프리페치 요청 인터페이스(235)는 요청 중재기(225)에 피드백을 제공할 수 있는데, 이는 스트림 엔진들(215)로부터의 보류 요청들 사이를 선택 또는 중재하는데 사용될 수 있다.
예시된 실시예에서, 스트림 엔진들(125)은 스트림 엔진(215)과 연관되는 프리페치 스트림의 상태를 식별하는 정보를 포함하는 스트림 엔트리들을 유지할 수도 있다. 일 실시예에서, 스트림 엔트리들은 엔트리들의 데이터베이스에 저장될 수 있다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 스트림 엔트리들이 임의의 레지스터, 메모리, 또는 캐시 위치에 저장될 수 있다는 것을 인식해야 한다. 본 명세서에 논의되는 바와 같이, 각 스트림 엔트리는 스트림 엔트리를 위한 라인 오프셋(line offset) 또는 페이지 어드레스(page address), 프리페치될 수 있는 어드레스들과 연관되는 하나 이상의 프리페치 플래그들, 또는 다른 어드레싱 정보와 같은 어드레싱 정보를 포함할 수 있다. 또한, 스트림 엔트리는 스트림 엔트리와 연관되는 보류 프리페치 요청들의 수를 표시하는 "힌트" 정보를 포함할 수 있다.
도 3은 프리페치 플래그들을 사용하여 프리페치 스트림을 할당하고 미리-보기 윈도우를 확인하기 위한 방법(300)의 대표적 일 실시예를 개념적으로 예시한다. 방법(300)의 실시예들은 도 1에 도시된 L1 데이터 캐시 프리페처(140)에서 구현될 수 있다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 방법(300)의 대안적인 실시예들이 또한 프리페칭을 구현하는 다른 캐시로부터 라인들을 요청할 수 있는 임의의 프리페처에 구현될 수 있다는 것을 인식해야 한다. 예시된 실시예에서, 예컨대, 실패 어드레스 버퍼로부터 MAB 이벤트들에 대한 정보를 사용하여, 제1 캐시 실패가 검출되고(305에서), 스트림은 프리페처 스트림 엔진에 할당된다. 프리페처 스트림 엔진은 그것이 제1 캐시 실패를 갖는 시퀀스(양의 또는 음의 방향의)에 존재하는 제2 실패를 검출할 때까지(310에서) 대기한다. 순차적인 어드레스들에 대한 캐시 실패들의 검출이 예시된 실시예에서 프리페치 스트림의 생성을 트리거(trigger)하는데 사용되더라도, 당해 기술분야의 통상의 기술자들은 대안적인 실시예들이 프리페치 스트림의 생성을 트리거하기 위해 상이한 캐시 실패 패턴들을 사용할 수 있다는 것을 인식해야 한다. 예를 들어, 프리페치 스트림은 미리 결정된 스트라이드 값(stride value) 또는 몇몇 다른 패턴에 의해 분리되는 어드레스들에 대한 캐시 실패들을 검출하는 것에 응답하여 할당될 수 있다.
예시된 실시예에서, 스트림 엔진은 시퀀스 방향을 결정하기 위해(315에서) 제1 및 제2 캐시 실패들의 어드레스들을 사용할 수 있다. 프리페치 플래그들은 프리페치 스트림의 선택된 수의 어드레스들로 배정될 수 있다(320에서). 배정된 플레그들이 존재하는 어드레스들은 제1 및 제2 캐시 실패들에 의해 설정되는 시퀀스 또는 패턴을 따른다. 예를 들어, 플래그들은 프리페치 스트림을 위해 설정되는 방향으로 제2 실패의 어드레스를 따르는 선택된 수의 어드레스들(예컨대, 9개의 어드레스들)로 배정될 수 있다(320에서). 그 후, 선택된 다수의 플래그들은 프리페처가 다음 클록 사이클들에서 이들 어드레스들로부터 정보를 페치해야 한다는 것을 표시하도록 설정될 수 있다(325에서). 예를 들어, 어드레스들의 서브세트(예컨 대, 9개의 플래그된 어드레스들 중 4개)의 플래그들은 이들 어드레스들이 메모리로부터 캐시들로 페치될 수 있도록 설정될 수 있다.
그 후, 프리페처는 보류 프리페치 요청들의 수를 표시하는데 사용될 수 있는 힌트를 결정할 수 있다(330에서). 일 실시예에서, 프리페처가 플래그들의 시퀀스에 앞서 다른 설정된 프리페치 플래그에 의해 표시되는 정보에 대한 요청을 발행한 후, 설정된 프리페치 플래그들의 수를 카운팅함으로써 힌트가 결정될 수 있다(330에서). 힌트 정보는 본 명세서에 논의되는 바와 같이, 힌트 정보가 다른 프리페처에 제공될 수 있도록 저장되거나 스트림 엔트리에 첨부될 수 있다.
도 4는 플래그되고 프리페치될 수 있는 어드레스들의 어드레스 시퀀스(400)를 포함하는 프리페치 스트림의 제1 대표적 실시예를 개념적으로 예시한다. 어드레스 시퀀스들(400(1-4))은 연속적인 시간 간격들 또는 클록 사이클들 마다 동일한 세트의 어드레스들을 예시한다. 예시된 실시예에서, 어드레스 시퀀스들(400(1-4))이 연속적인 클록 사이클들로 도시된다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 어드레스 시퀀스들(400(1-4))이 절대적으로 연속적이지 않을 수 있고 몇몇 경우들에서 다른 이벤트들, 시간 간격들, 클록 사이클들 등에 의해 분리될 수 있다는 것을 인식해야 한다. 예시된 실시예에서, 프리페치 스트림 엔진은 화살표(405)에 의해 표시되는 베이스 어드레스 앞의 9개의 어드레스들에 플래그들을 배정하였다. 또한, 스트림 엔진은 메모리의 이들 어드레스들 내 정보가 캐시로 페치되어야 한다는 것을 표시하기 위해, 기입된 플래그들에 의해 표시되는 바와 같이, 베이스 어드레스(405)의 앞에 4개의 어드레스들의 플래그들을 설정하였다. 4개의 제시된 프리페치 플래그들은 이러한 프리페치 스트림과 연관되는 4개의 보류 요청들이 있다는 것을 표시한다. 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 배정된 플래그들의 수 또는 설정되는 배정된 플래그들의 서브세트의 플래그들의 수가 설계 선택의 문제들이고 상이한 설계 고려사항들을 충족하기 위해 변할 수 있다는 것을 인식해야 한다.
플래그들은 프리페치 플래그들의 미리-보기 윈도우 외부에 존재하는 캐시 실패들에 응답하여 설정될 수 있다. 예시된 실시예에서, 프리페치 스트림이 할당되고, 프리페치 윈도우의 어드레스들은 연속적인 캐시 실패들(410(1-2))에 응답하여 플래그된다. 플래그된 어드레스들은 베이스 어드레스(405)에서 시작하고, 어드레스들은 캐시 실패들(410(1-2)) 또는 베이스 어드레스(405)와 관련하여 정의된다. 예시된 실시예에서, 베이스 어드레스(405)는 1의 선택된 어드레스 오프셋 값에 의한 캐시 실패(410(2))로부터의 오프셋이다. 예를 들어, 제1 캐시 실패(410(1))가 A로 정의되고 프리페치 윈도우의 상대 어드레스들(relative addresses)이 (±2, ±3, ±4, ±5, ...)로 정의되면, 시퀀스의 방향에 따라, 플래그 어드레스들은 제1 캐시 실패 어드레스(410(1))와 관련하여 (A±2, A±3, A±4, A±5, ...)로서 정의될 수 있다. 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 어드레스 오프셋 값이 설계 선택의 문제이고 상이한 설계 고려사항들을 충족하기 위해 변할 수 있다는 것을 이해해야 한다.
어드레스 시퀀스(400(1))는 베이스 어드레스(405) 앞의 어드레스에 설정된 플래그를 가진다. 그러므로 프리페처는 이 어드레스의 데이터를 캐시로 페치할 수 있다. 데이터가 페치되면, 베이스 어드레스(405)는 다음 어드레스로 진행시킬 수 있고, 바로 페치되었던 어드레스는 스트림의 이력의 부분이 되며, 이 어드레스의 플래그는 스트라이프 플래그 심볼(striped flag symbol) 및 어드레스 시퀀스(400(2))에 의해 표시되는 이력 플래그가 된다. 페치 후, 3개의 프리페치 플래그들은 설정을 유지하고, 그래서 이 프리페치 스트림에 대한 3개의 보류 프리페치 요청들이 있다. 부가적인 플래그는 베이스 어드레스(405)의 앞에 플래그들의 수가 동일하게 유지되도록, 설정된 시퀀스의 방향으로 시퀀스에서 마지막 어드레스 다음의 어드레스에 배정될 수 있다. 예시된 실시예에서, 프리페처는 플래그들을 설정한 모든 어드레스들이 페치될 때까지, 계속해서 플래그들을 설정한 어드레스들을 페치하고 베이스 어드레스(405)로 진행한다. 각각의 설정된 플래그에 대응하는 어드레스가 페치됨에 따라, 이 어드레스와 연관되는 플래그는 어드레스 시퀀스들(400(3-4))에 도시된 바와 같이 이력 플래그로 변경된다. 부가적인 플래그는 베이스 어드레스(405)의 앞에 플래그들의 수를 유지하기 위해 다음 순차적인 어드레스에 배정될 수 있다. 또한, 이력 플래그들은 베이스 어드레스(405)를 추적하는 설정된 수의 이력 플래그들을 유지하기 위해 드롭(drop)될 수 있다.
도 5는 프리페치 스트림과 연관되는 어드레스 시퀀스(500)의 대표적 일 실시예를 개념적으로 예시한다. 예시된 실시예에서, 프리페치 스트림 엔진은 화살표(505)에 의해 표시되는 베이스 어드레스 앞의 9개의 어드레스들에 플래그들을 배정하였다. 본 명세서에 논의되는 바와 같이, 베이스 어드레스(505) 및 어드레스 시퀀스의 방향은 어드레스들(510)에 대한 실패들에 기초하여 결정될 수 있다. 또한, 스트림 엔진은 메모리의 이들 어드레스들 내 정보가 캐시로 페치되어야 한다는 것을 표시하기 위해, 기입된 플래그들에 의해 표시되는 바와 같이, 베이스 어드레스(505)의 앞에 4개의 어드레스들의 플래그들을 설정하였다. 4개의 설정된 프리페치 플래그들은 이 프리페치 스트림과 연관되는 4개의 보류 요청들이 있다는 것을 표시한다.
예시된 실시예에서, 프리페치 스트림 엔진은 제1 설정된 플래그와 연관되는 어드레스에 의해 표시되는 캐시 라인에 대한 프리페치 요청(515)을 발행한다. 프리페치 요청(515)을 발행한 것에 응답하여, 카운터(520)는 프리페치 스트림과 연관되는 보류 프리페치 요청들의 수를 카운트하는데 사용될 수 있다. 예를 들어, 프리페치 요청(515) 후, 어드레스 시퀀스(500)는 3개의 보류 프리페치 요청들에 대해 설정된 플래그들을 포함하고, 그래서 카운터(520)는 3개의 보류 프리페치 요청들을 카운트할 수 있다. 그 후, 카운터에 의해 결정되는 값은 힌트(525)로서 저장될 수 있다. 예시된 실시예에서, 힌트(525)는 2 비트들 [4:3]에 의해 제시되는데, 이는 0 내지 3개의 보류 프리페치 요청들이 있다는 것을 표시하는 정보를 저장하기에 충분하다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 대안적인 실시예들이 가능한 보류 프리페치 요청들의 다른 수들을 제시하기 위해 힌트(525)에 다른 수들의 비트들을 포함할 수 있다는 것을 인식해야 한다.
도 6은 프리페치 스트림 엔트리(600)의 대표적 일 실시예를 개념적으로 예시한다. 예시된 실시예에서, 프리페치 스트림 엔트리(600)는 프리페처에 대응하는 스트림 엔진에 의해 생성, 유지, 또는 저장될 수 있다. 프리페치 스트림 엔트리(600)는 스트림과 연관되는 데이터의 페이지에 대응하는 페이지 어드레스(605), 스트림과 연관되는 페이지 내 현재 라인 오프셋을 표시하는 라인 오프셋(610), 및 페이지의 연관된 라인으로부터 데이터를 프리페치하는 요청을 표시하도록 설정될 수 있는 프리페치 플래그들(615)을 표시하는 정보를 포함한다. 또한, 스트림 엔트리(600)는 스트림이 상승하는 또는 하강하는 어드레스들에 대응하는지를 표시하는 방향 비트(DIR; direction bit)를 포함할 수 있다. 또한, 스트림 엔트리(600)는 대응하는 프리페치 스트림과 연관되는 보류 프리페치 요청들의 수를 표시하는 정보를 포함하는 프리페치 힌트 정보(620)를 포함한다. 일 실시예에서, 프리페치 스트림과 연관되는 프리페치 스트림 엔진은 예컨대, 프리페치 요청을 발생하는 것에 응답하여, 프리페치 힌트들(620)의 값들을 수정할 수 있다. 예를 들어, 프리페치 힌트(620)가 초기에 3의 값을 가지며 프리페치 요청을 발행하는 것이 보류 프리페치 요청들의 수를 2로 감소시킨다면, 프리페치 스트림 엔진은 2의 값을 가지기 위해 프리페치 힌트(620)의 값을 수정할 수 있다.
도 7은 프리페치 플래그들을 사용하여 프리페치 스트림을 할당하고 미리-보기 윈도우를 확인하기 위한 방법(700)의 대표적 일 실시예를 개념적으로 예시한다. 방법(700)의 실시예들은 도 1에 도시된 L2 데이터 캐시 프리페처(150)에서 구현될 수 있다. 그러나, 본 발명에 대한 혜택을 가지는 당해 기술분야의 통상의 기술자들은 방법(700)의 대안적인 실시예들이 또한 프리페칭을 구현하는 다른 캐시로부터 요청 촉구들 또는 프리페치 요청들을 수신할 수 있는 임의의 프리페처에서 구현될 수 있다는 것을 인식해야 한다. 예시된 실시예에서, 예컨대, 실패 어드레스 버퍼로부터 MAB 이벤트들에 대한 정보를 사용하여, 제1 L2 캐시 실패가 검출되고(705에서), 스트림은 프리페처 스트림 엔진에 할당된다. 그 후, 프리페처 스트림 엔진은 그것이 제1 캐시 실패를 갖는 시퀀스(양의 또는 음의 방향의)에 존재하는 제2 실패를 검출할 때까지(710에서) 대기한다. 순차적인 어드레스들에 대한 캐시 실패들의 검출이 예시된 실시예에서 프리페치 스트림의 생성을 트리거하는데 사용되더라도, 당해 기술분야의 통상의 기술자들은 대안적인 실시예들이 프리페치 스트림의 생성을 트리거하기 위해 상이한 캐시 실패 패턴들을 사용할 수 있다는 것을 인식해야 한다. 예를 들어, 프리페치 스트림은 미리 결정된 스트라이드 값 또는 몇몇 다른 패턴에 의해 분리되는 어드레스들에 대한 캐시 실패들을 검출하는 것에 응답하여 할당될 수 있다.
예시된 실시예에서, 스트림 엔진은 시퀀스 방향을 결정하기 위해(715에서) 제1 및 제2 캐시 실패들의 어드레스들을 사용할 수 있다. 프리페치 플래그들은 프리페치 스트림의 선택된 수의 어드레스들에 배정될 수 있다(720에서). 플래그들이 배정되는 어드레스들은 제1 및 제2 캐시 실패들에 의해 설정되는 시퀀스 또는 패턴을 따른다. 예를 들어, 플래그들은 프리페치 스트림을 위해 설정되는 방향으로 제2 실패의 어드레스를 따르는 선택된 수의 어드레스들(예컨대, 12개 이상의 어드레스들)에 배정될 수 있다(720에서). 그 후, 프리페치 스트림을 위한 스트림 엔진은 프리페치 힌트 정보가 예컨대, 연관된 캐시로부터의 요청 촉구 또는 프리페치 요청과 함께, 연관된 캐시로부터 수신되었는지를 결정할 수 있다(725에서).
그 후, 배정된 플래그들의 서브세트는 수신된 요청 촉구 또는 프리페치 요청에 기초하여 설정될 수 있다. 일 실시예에서, 어떤 힌트 정보도 수신되지 않았으면, 그 후 선택된 수의 플래그들은 프리페처가 다음 클록 사이클들에서 플래그된 어드레스들로부터 정보를 페치해야 한다는 것을 표시하기 위해 미리 결정된 오프셋에서 시작하여 설정될 수 있다(730에서). 예를 들어, 어드레스들의 서브세트(예컨대, 12개의 플래그된 어드레스들)의 플래그들은 이들 어드레스들이 메모리로부터 캐시로 페치될 수 있도록 설정될 수 있다(730에서). 그러나, 스트림 엔진이 연관된 캐시의 다수의 보류 프리페치 요청들을 표시하는 힌트 정보가 수신되었다고 결정하면(725에서), 프리페치 플래그들은 미리 결정된 오프셋과 다른 오프셋으로 설정될 수 있다(735에서). 예시된 실시예에서, 프리페치 플래그들은 미리 결정된 오프셋과 힌트 정보에 의해 표시되는 보류 프리페치 요청들의 수를 더한 것과 동일한 오프셋에서 시작하여 어드레스들에 대해 설정될 수 있다(735에서).
이러한 방식으로 어드레스를 설정하는 것(735에서)은 프리페처가 다른 연관된 캐시에 의해 이미 요청될 수 있었던 라인들에 대한 요청들을 발행하는 것을 바이패스 또는 스킵 오버하게 한다. 예를 들어, L2 캐시는 L1 캐시와 연관되는 하나 이상의 프리페치 스트림들에 보류 중인 또는 요청되었던 라인들과 연관되는 어드레스들보다 앞에 어드레스들과 연관되는 플래그들을 설정할 수 있다(735에서). 이들 어드레스들을 바이패스 또는 스킵하는 것은 L2 계층에서 수행되는 불필요한 프리페치 요청들의 수를 감소시키고, L2 캐시로 정보를 프리페치하기 위해 이용가능한 기회들의 수를 증가시킨다.
도 8a는 프리페치 스트림과 연관되는 어드레스 시퀀스(800)의 대표적 일 실시예를 개념적으로 예시한다. 예시된 실시예에서, 프리페치 스트림 엔진은 화살표(805)에 의해 표시되는 베이스 어드레스 앞의 12개 이상의 어드레스들에 플래그들을 배정하였다. 본 명세서에 논의되는 바와 같이, 베이스 어드레스(805) 및 어드레스 시퀀스의 방향은 어드레스들(810)에 대한 실패들에 기초하여 결정될 수 있다. 또한, 스트림 엔진은 메모리의 이들 어드레스들 내 정보가 캐시로 페치되어야 한다는 것을 표시하기 위해, 기입된 플래그들에 의해 표시되는 바와 같이, 베이스 어드레스(805)의 앞에 12개의 어드레스들의 플래그들을 설정하였다. 예시된 실시예에서, 플래그들은 어드레스(810(3))에 의해 표시되는 라인에 대해 연관된(예컨대, 하위-계층) 캐시로부터의 프리페치 요청을 수신하는 것에 응답하여 설정되었다. 스트림 엔진은 하위-계층 프리페처로부터 어떤 힌트들도 수신하지 않고, 그래서 플래그들은 프리페치 요청에 의해 표시되는 어드레스(810(3))로부터 미리 결정된 1의 오프셋에서 시작하여 설정된다. 그러나, 본 명세서에 논의되는 바와 같이, 미리 결정된 오프셋은 설계 선택의 문제이고 상이한 설계 또는 운영상의 고려사항들을 충족하기 위해 변할 수 있다.
도 8b는 프리페치 스트림과 연관되는 어드레스 시퀀스(800)의 다른 대표적 실시예를 개념적으로 예시한다. 예시된 실시예에서, 프리페치 스트림 엔진은 화살표(805)에 의해 표시되는 베이스 어드레스 앞의 12개 이상의 어드레스들에 플래그들을 배정하였다. 본 명세서에 논의되는 바와 같이, 베이스 어드레스(805) 및 어드레스 시퀀스의 방향은 어드레스들(810)에 대한 실패들에 기초하여 결정될 수 있다. 또한, 스트림 엔진은 메모리의 이러한 어드레스들에서의 정보가 캐시로 페치되어야 한다는 것을 표시하기 위해, 기입된 플래그들에 의해 표시되는 바와 같이, 베이스 어드레스(805)의 앞에 어드레스들의 플래그들을 설정하였다. 예시된 실시예에서, 플래그들은 어드레스(810(3))에 의해 표시되는 라인에 대해 연관된(예컨대, 하위-계층) 캐시로부터 프리페치 요청을 수신하는 것에 응답하여 설정될 수 있다. 예시된 실시예에서의 스트림 엔진은 연관된 하위-계층 프리페처의 3개의 보류 프리페치 요청들을 표시하는 하위-계층 프리페처로부터 힌트를 수신하였다. 결과적으로, 스트림 엔진은 미리 결정된 1의 오프셋과 프리페치 요청에 의해 표시되는 어드레스(810(3))로부터의 보류 프리페치 요청들의 수(3)를 더한 것에서 시작하여 플래그들을 설정한다. 그러므로, 상위-계층 프리페처는 바이패스된 또는 스킵된 어드레스들에 대해 프리페치 요청들을 발행하는 것을 바이패스 또는 스킵 오버할 수 있다.
본 명세서에 설명되는 바와 같이 프리페치 힌트들을 제공 또는 이용할 수 있는 프로세서 시스템들의 실시예들은(프로세서 시스템(100)과 같은) 다양한 프로세서 설계들에 따라 반도체 제작 설비들로 제작될 수 있다. 일 실시예에서, 프로세서 설계는 컴퓨터 판독가능 매체 상에 저장되는 코드로서 표현될 수 있다. 프로세서 설계를 정의 및/또는 표현하는데 사용될 수 있는 대표적 코드들은 HDL, Verilog 등을 포함할 수 있다. 코드는 기술자들에 의해 기록되고, 다른 프로세싱 디바이스들에 의해 통합되며, 프로세서 설계의 중간 표현, 예컨대, 넷리스트들(netlists), GDSII 데이터 등을 생성하는데 사용될 수 있다. 중간 표현은 컴퓨터 판독가능 매체 상에 저장되고 반도체 제작 설비로 수행되는 제조/제작 공정을 구성 및 제어하는데 사용될 수 있다. 반도체 제작 설비는 증착, 포토리소그래피, 에칭, 폴리싱/평탄화, 메트롤로지(metrology), 및 반도체 기판들 상에 트랜지스터들 및 다른 회로를 형성하는데 사용되는 다른 프로세스들을 수행하기 위한 프로세싱 툴들을 포함할 수 있다. 프로세싱 툴들은 예컨대, GDSII 데이터로부터 생성되는 마스크 작업들의 사용을 통해, 중간 표현을 사용하여 구성될 수 있고 작동된다.
개시된 발명 대상의 부분들 및 대응하는 상세한 설명은 컴퓨터 메모리 내 데이터 비트들 상의 동작들의 상징적인 표현들 및 알고리즘들, 또는 소프트웨어에 관하여 제공된다. 이들 설명들 및 표현들은 당해 기술분야의 통상의 기술자들이 당해 기술분야의 다른 통상의 기술자들에게 그들의 작업의 본질을 효과적으로 전달하는 것들이다. 용어가 본 명세서에 사용되는 바와 같이, 그리고 그것이 일반적으로 사용되는 바와 같이, 알고리즘은 원하는 결과를 유도하는 단계들의 일관성 있는 시퀀스가 되도록 개발된다. 단계들은 물리량들의 물리적 조작들을 요하는 단계들이다. 통상적으로, 반드시는 아니지만, 이러한 양들은 저장, 전달, 조합, 비교, 및 그 외 조작될 수 있는 광학, 전기, 또는 자기 신호들의 형태를 취할 수 있다. 주로 공통 사용의 이유로, 비트들, 값들, 요소들, 기호들, 문자들, 용어들, 수들 등 같은 이러한 신호들을 나타내는 것이 때때로 편리한 것으로 드러났다.
그러나, 모든 이들 및 유사한 용어들은 적절한 물리량들과 연관되는 것이고 단지 이들 양들에 해당되는 편리한 라벨들이라는 것을 유념해야 한다. 달리 구체적으로 서술되지 않는다면, 또는 논의로부터 명백한 바와 같이, "프로세싱하는" 또는 "계산하는" 또는 "산출하는" 또는 "결정하는" 또는 "디스플레이하는" 등과 같은 용어들은 컴퓨터 시스템의 레지스터들 및 메모리들 내의 물리, 전자량들로서 표현되는 데이터를 컴퓨터 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 저장장치, 송신 또는 디스플레이 디바이스들 내의 물리량들로서 유사하게 표현되는 다른 데이터로 조작 및 변환하는, 컴퓨터 시스템, 또는 유사한 전자 컴퓨팅 디바이스의 동작 및 프로세스들을 나타낸다.
또한, 개시된 발명 대상의 소프트웨어 구현 측면들은 전형적으로 프로그램 저장장치의 몇몇 형태 상에 인코딩된다. 프로그램 저장 매체는 자기적(예컨대, 플로피 디스크 또는 하드 드라이브) 또는 광학적(예컨대, 컴팩트 디스크 판독 전용 메모리, 또는 "CD ROM")일 수 있고, 판독 전용 또는 랜덤 액세스일 수 있다. 개시된 발명 대상은 임의의 주어진 구현의 이들 측면들에 의해 제한되지 않는다.
개시된 발명 대상은 본 명세서의 교시들의 혜택을 가지는 당해 기술분야의 기술자들에 명백한 상이하나 동등한 방식들로 수정 및 실행될 수 있으므로, 위에서 개시된 특정한 실시예들은 단지 예시적이다. 게다가, 본 명세서에 도시된 구성 또는 설계의 세부사항들에 대해 어떤 제한들도 아래 청구항들에 설명되는 바와 다르게 의도되지 않는다. 그러므로, 위에서 개시된 특정한 실시예들은 변경 또는 수정될 수 있고, 모든 그러한 변형들은 개시된 발명 대상의 범위 내에서 고려된다는 것이 명백하다. 따라서, 본 명세서에서 발견되는 보호 대상은 아래의 청구항들에 제시되는 바와 같다.
Claims (18)
- 방법으로서, 상기 방법은,
제1 캐시(cache)와 관련된 제1 프리페처(prefetcher)에서, 상기 제1 프리페처에 의해 결정되는 메모리 어드레스(memory address)들의 시퀀스(sequence) 내의 일정 개수의 메모리 어드레스들로부터 데이터를 프리페치(prefetch)하기 위한 요청들을 발행(issuing)하는 것을 바이패스(bypass)하는 단계와,
여기서 상기 개수는 제2 캐시와 관련된 제2 프리페처로부터 수신되는 요청에서 표시되고, 상기 개수는 상기 제2 프리페처에서 아직 처리되지 않은 프리페치 요청(outstanding prefetch request)들의 개수에 기초하며; 그리고
상기 제1 프리페처로부터, 바이패스된 메모리 어드레스들에 후속하는 메모리 어드레스로부터 데이터를 프리페치하기 위한 요청을 발행하는 단계를 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 방법은, 상기 제1 프리페처에서, 적어도 하나의 제1 어드레스에 대한 적어도 하나의 캐시 실패(cache miss)를 검출하는 것에 응답하여 데이터를 상기 제1 캐시의 라인(line)들로 프리페치하기 위한 메모리 어드레스들의 상기 시퀀스를 결정하는 것을 포함하고,
메모리 어드레스들의 상기 시퀀스는 상기 적어도 하나의 제1 어드레스와 관련되어 결정되는 것을 특징으로 하는 방법. - 제1항에 있어서,
상기 방법은 상기 제2 프리페처에서 상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 저장하는 것을 포함하는 것을 특징으로 하는 방법. - 제3항에 있어서,
상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 저장하는 것은, 상기 제2 프리페처가 프리페치 요청을 발행하는 것에 응답하여 보류 프리페치 요청(pending prefetch request)들의 개수를 카운트(count)하는 것과, 그리고 상기 제2 프리페처에 의해 발행되는 프리페치 요청과 관련된 스트림 엔트리(stream entry)에 보류 프리페치 요청들의 개수를 첨부(append)하는 것을 포함하는 것을 특징으로 하는 방법. - 제4항에 있어서,
상기 방법은, 상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 상기 제1 캐시로 전송하되 상기 제2 프리페처로부터 상기 제1 캐시로 전송되는 프리페치 요청들과 함께 전송하는 것을 포함하는 것을 특징으로 하는 방법. - 제1항에 있어서,
메모리 어드레스들의 상기 시퀀스는 대응하는 복수의 플래그(flag)들에 의해 표시되고,
상기 일정 개수의 메모리 어드레스들로부터 데이터를 프리페치하기 위한 요청들을 발행하는 것을 바이패스하는 단계는, 바이패스된 메모리 어드레스들의 개수에 대응하는 개수의 상기 플래그들을 설정되지 않은 상태로 남겨두는 것과, 그리고 적어도 하나의 후속하는 플래그를 대응하는 메모리 어드레스에 대한 보류 프리페치 요청을 표시하도록 설정하는 것을 포함하는 것을 특징으로 하는 방법. - 제6항에 있어서,
데이터를 프리페치하기 위한 요청을 발행하는 것은, 설정된 상기 적어도 하나의 후속하는 플래그에 대응하는 메모리 어드레스로부터 데이터를 프리페치하기 위한 요청을 발행하는 것을 포함하는 것을 특징으로 하는 방법. - 제1 프리페처를 포함하는 장치로서,
상기 제1 프리페처는 상기 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내의 일정 개수의 메모리 어드레스들로부터 데이터를 프리페치하기 위한 요청들을 발행하는 것을 바이패스하도록 구성가능하고,
여기서 상기 개수는 제2 캐시와 관련된 제2 프리페처로부터 수신되는 요청에서 표시되고, 상기 개수는 상기 제2 프리페처에서 아직 처리되지 않은 프리페치 요청들의 개수에 기초하며,
상기 제1 프리페처는 바이패스된 메모리 어드레스들에 후속하는 메모리 어드레스로부터 데이터를 프리페치하기 위한 요청을 발행하도록 구성가능한 것을 특징으로 하는 장치. - 제8항에 있어서,
상기 장치는 상기 제1 프리페처와 관련된 제1 캐시를 포함하고,
상기 제1 프리페처는 적어도 하나의 제1 어드레스에 대한 적어도 하나의 캐시 실패를 검출하는 것에 응답하여 데이터를 상기 제1 캐시의 라인들로 프리페치하기 위한 메모리 어드레스들의 상기 시퀀스를 결정하도록 구성가능하고,
메모리 어드레스들의 상기 시퀀스는 상기 적어도 하나의 제1 어드레스와 관련되어 결정되는 것을 특징으로 하는 장치. - 제8항에 있어서,
상기 장치는 상기 제2 프리페처를 포함하고,
상기 제2 프리페처는 상기 제2 프리페처에서 상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 저장하도록 구성가능한 것을 특징으로 하는 장치. - 제10항에 있어서,
상기 제2 프리페처는 프리페치 요청을 발행하는 것에 응답하여 보류 프리페치 요청들의 개수를 카운트하도록 구성가능하고,
상기 제2 프리페처는 상기 제2 프리페처에 의해 발행되는 프리페치 요청과 관련된 스트림 엔트리에 보류 프리페치 요청들의 개수를 첨부하도록 구성가능한 것을 특징으로 하는 장치. - 제11항에 있어서,
상기 제2 프리페처는 상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 제1 캐시로 전송하되 상기 제2 프리페처로부터 상기 제1 캐시로 전송되는 프리페치 요청들과 함께 전송하도록 구성가능한 것을 특징으로 하는 장치. - 제8항에 있어서,
메모리 어드레스들의 상기 시퀀스는 대응하는 복수의 플래그들에 의해 표시되고,
상기 제1 프리페처는 바이패스된 메모리 어드레스들의 개수에 대응하는 개수의 상기 플래그들을 설정되지 않은 상태로 남겨두는 것을 수행하도록 구성가능하고,
상기 제1 프리페처는 적어도 하나의 후속하는 플래그를 대응하는 메모리 어드레스에 대한 보류 프리페치 요청을 표시하도록 설정하는 것을 수행하도록 구성가능한 것을 특징으로 하는 장치. - 제13항에 있어서,
상기 제1 프리페처는 설정된 상기 적어도 하나의 후속하는 플래그에 대응하는 메모리 어드레스로부터 데이터를 프리페치하기 위한 요청을 발행하도록 구성가능한 것을 특징으로 하는 장치. - 프로세서를 기반으로 하는 시스템(processor-based system)으로서, 상기 시스템은,
메모리와;
상기 메모리와 관련된 제1 캐시와;
데이터를 상기 제1 캐시로 프리페치하기 위한 제1 프리페처와;
상기 제1 캐시와 관련된 제2 캐시와; 그리고
데이터를 상기 제2 캐시로 프리페치하기 위한 제2 프리페처를 포함하고,
상기 제1 프리페처는 상기 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내의 일정 개수의 메모리 어드레스들로부터 데이터를 프리페치하기 위한 요청들을 발행하는 것을 바이패스하도록 구성가능하고, 여기서 상기 개수는 상기 제2 프리페처로부터 수신되는 요청에서 표시되고,
상기 제1 프리페처는 바이패스된 메모리 어드레스들에 후속하는 메모리 어드레스로부터 데이터를 프리페치하기 위한 요청을 발행하도록 구성가능하고,
상기 제2 프리페처는 프리페치 요청을 발행하는 것에 응답하여 아직 처리되지 않은 프리페치 요청들의 개수를 카운트하도록 구성가능하고,
상기 제2 프리페처는 상기 제2 프리페처에 의해 발행되는 프리페치 요청과 관련된 스트림 엔트리에 상기 아직 처리되지 않은 프리페치 요청들의 개수를 첨부하도록 구성가능한 것을 특징으로 하는 프로세서를 기반으로 하는 시스템. - 제15항에 있어서,
상기 제2 프리페처는 상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 상기 제1 캐시로 전송하되 상기 제2 프리페처로부터 상기 제1 캐시로 전송되는 프리페치 요청들과 함께 전송하도록 구성가능한 것을 특징으로 하는 프로세서를 기반으로 하는 시스템. - 비일시적 컴퓨터 판독가능 매체로서,
상기 비일시적 컴퓨터 판독가능 매체는 명령들을 포함하고, 상기 명령들은 실행시 반도체 디바이스(semiconductor device)를 제조하는데 사용되는 제조 프로세스(manufacturing process)를 구성할 수 있고, 상기 반도체 디바이스는 집적 회로(integrated circuit)를 포함하고, 상기 집적 회로는,
제1 캐시와 관련된 제1 프리페처와;
카운터(counter)와; 그리고
제2 캐시와 관련된 제2 프리페처를 포함하고,
상기 제1 프리페처는 상기 제1 프리페처에 의해 결정되는 메모리 어드레스들의 시퀀스 내의 일정 개수의 메모리 어드레스들로부터 데이터를 프리페치하기 위한 요청들을 발행하는 것을 바이패스하도록 구성가능하고,
상기 제1 프리페처는 바이패스된 메모리 어드레스들에 후속하는 메모리 어드레스로부터 데이터를 프리페치하기 위한 요청을 발행하도록 구성가능하고,
상기 카운터는 상기 제2 프리페처가 프리페치 요청을 발행하는 것에 응답하여 상기 제2 프리페처에서 아직 처리되지 않은 프리페치 요청들의 개수를 카운트하기 위한 것이며,
상기 제2 프리페처는 상기 제2 프리페처에 의해 발행되는 프리페치 요청과 관련된 스트림 엔트리에 아직 처리되지 않은 프리페치 요청들의 개수를 첨부하도록 구성가능한 것을 특징으로 하는 비일시적 컴퓨터 판독가능 매체. - 제17항에 있어서,
상기 비일시적 컴퓨터 판독가능 매체에 포함되는 명령들은 또한, 실행시, 상기 아직 처리되지 않은 프리페치 요청들의 개수를 표시하는 정보를 상기 제1 캐시로 전송하되 상기 제2 프리페처로부터 상기 제1 캐시로 전송되는 프리페치 요청들과 함께 전송하도록 구성가능한 제2 프리페처를 포함하는 반도체 디바이스를 제조하는데 사용되는 제조 프로세스를 구성할 수 있는 명령들을 포함하는 것을 특징으로 하는 비일시적 컴퓨터 판독가능 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/588,622 | 2012-08-17 | ||
US13/588,622 US9390018B2 (en) | 2012-08-17 | 2012-08-17 | Data cache prefetch hints |
PCT/US2013/055119 WO2014028724A1 (en) | 2012-08-17 | 2013-08-15 | Data cache prefetch hints |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150043472A KR20150043472A (ko) | 2015-04-22 |
KR101943561B1 true KR101943561B1 (ko) | 2019-01-29 |
Family
ID=49080980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157006566A KR101943561B1 (ko) | 2012-08-17 | 2013-08-15 | 데이터 캐시 프리페치 힌트들 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9390018B2 (ko) |
EP (1) | EP2885714B1 (ko) |
JP (1) | JP6205418B2 (ko) |
KR (1) | KR101943561B1 (ko) |
CN (1) | CN104583981B (ko) |
IN (1) | IN2015DN01261A (ko) |
WO (1) | WO2014028724A1 (ko) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102057359A (zh) * | 2009-04-10 | 2011-05-11 | 松下电器产业株式会社 | 高速缓冲存储器装置、高速缓冲存储器控制方法、程序及集成电路 |
US9348753B2 (en) | 2012-10-10 | 2016-05-24 | Advanced Micro Devices, Inc. | Controlling prefetch aggressiveness based on thrash events |
US20150039837A1 (en) * | 2013-03-06 | 2015-02-05 | Condusiv Technologies Corporation | System and method for tiered caching and storage allocation |
US10013344B2 (en) * | 2014-01-14 | 2018-07-03 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Enhanced SSD caching |
US9378152B2 (en) * | 2014-05-09 | 2016-06-28 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Systems and methods for I/O processing using out-of-band hinting to block driver or storage controller |
US9613158B1 (en) * | 2014-05-13 | 2017-04-04 | Viasat, Inc. | Cache hinting systems |
US20160041914A1 (en) * | 2014-08-05 | 2016-02-11 | Advanced Micro Devices, Inc. | Cache Bypassing Policy Based on Prefetch Streams |
US20160054997A1 (en) * | 2014-08-22 | 2016-02-25 | Samsung Electronics Co., Ltd. | Computing system with stride prefetch mechanism and method of operation thereof |
US10387318B2 (en) | 2014-12-14 | 2019-08-20 | Via Alliance Semiconductor Co., Ltd | Prefetching with level of aggressiveness based on effectiveness by memory access type |
WO2016097809A1 (en) * | 2014-12-14 | 2016-06-23 | Via Alliance Semiconductor Co., Ltd. | Multiple data prefetchers that defer to one another based on prefetch effectiveness by memory access type |
US9858191B2 (en) * | 2014-12-31 | 2018-01-02 | Samsung Electronics Co., Ltd. | Electronic system with data management mechanism and method of operation thereof |
US9734072B2 (en) | 2015-03-24 | 2017-08-15 | Macom Connectivity Solutions, Llc | Main memory prefetch operation and multiple prefetch operation |
US20170017414A1 (en) * | 2015-07-15 | 2017-01-19 | Innovium, Inc. | System And Method For Implementing Hierarchical Distributed-Linked Lists For Network Devices |
US20170017420A1 (en) | 2015-07-15 | 2017-01-19 | Innovium, Inc. | System And Method For Enabling High Read Rates To Data Element Lists |
US9535696B1 (en) | 2016-01-04 | 2017-01-03 | International Business Machines Corporation | Instruction to cancel outstanding cache prefetches |
US10157136B2 (en) * | 2016-03-31 | 2018-12-18 | Intel Corporation | Pipelined prefetcher for parallel advancement of multiple data streams |
KR20180049338A (ko) * | 2016-10-31 | 2018-05-11 | 삼성전자주식회사 | 저장 장치 및 그것의 동작 방법 |
US11182306B2 (en) | 2016-11-23 | 2021-11-23 | Advanced Micro Devices, Inc. | Dynamic application of software data caching hints based on cache test regions |
US10318433B2 (en) * | 2016-12-20 | 2019-06-11 | Texas Instruments Incorporated | Streaming engine with multi dimensional circular addressing selectable at each dimension |
US10387320B2 (en) * | 2017-05-12 | 2019-08-20 | Samsung Electronics Co., Ltd. | Integrated confirmation queues |
KR102353859B1 (ko) | 2017-11-01 | 2022-01-19 | 삼성전자주식회사 | 컴퓨팅 장치 및 비휘발성 듀얼 인라인 메모리 모듈 |
KR102482035B1 (ko) * | 2017-11-30 | 2022-12-28 | 에스케이하이닉스 주식회사 | 메모리 컨트롤러, 메모리 시스템 및 그 동작 방법 |
US10963392B1 (en) * | 2018-07-30 | 2021-03-30 | Apple Inc. | Victim allocations in shared system cache |
US11281589B2 (en) | 2018-08-30 | 2022-03-22 | Micron Technology, Inc. | Asynchronous forward caching memory systems and methods |
US10872458B1 (en) * | 2019-09-06 | 2020-12-22 | Apple Inc. | Graphics surface addressing |
US11093404B2 (en) * | 2019-10-14 | 2021-08-17 | EMC IP Holding Company LLC | Efficient pre-fetching on a storage system |
CN112256205B (zh) * | 2020-10-28 | 2024-06-25 | 中国科学院微电子研究所 | 非易失缓存数据预取方法、装置、电子设备及存储介质 |
US12111765B2 (en) * | 2022-04-29 | 2024-10-08 | Cadence Design Systems, Inc. | Prefetch circuit for cache memory |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040117557A1 (en) | 2002-12-16 | 2004-06-17 | Paulraj Dominic A | Smart-prefetch |
US20110072218A1 (en) | 2009-09-24 | 2011-03-24 | Srilatha Manne | Prefetch promotion mechanism to reduce cache pollution |
US20120066455A1 (en) | 2010-09-09 | 2012-03-15 | Swamy Punyamurtula | Hybrid prefetch method and apparatus |
US20120084511A1 (en) | 2010-10-04 | 2012-04-05 | International Business Machines Corporation | Ineffective prefetch determination and latency optimization |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5664147A (en) * | 1995-08-24 | 1997-09-02 | International Business Machines Corp. | System and method that progressively prefetches additional lines to a distributed stream buffer as the sequentiality of the memory accessing is demonstrated |
JP2000242557A (ja) * | 1999-02-25 | 2000-09-08 | Nec Corp | キャッシュプリフェッチ装置 |
JP3512678B2 (ja) * | 1999-05-27 | 2004-03-31 | 富士通株式会社 | キャッシュメモリ制御装置および計算機システム |
US6438656B1 (en) * | 1999-07-30 | 2002-08-20 | International Business Machines Corporation | Method and system for cancelling speculative cache prefetch requests |
US6449698B1 (en) * | 1999-08-26 | 2002-09-10 | International Business Machines Corporation | Method and system for bypass prefetch data path |
US6446167B1 (en) * | 1999-11-08 | 2002-09-03 | International Business Machines Corporation | Cache prefetching of L2 and L3 |
US6643743B1 (en) * | 2000-03-31 | 2003-11-04 | Intel Corporation | Stream-down prefetching cache |
US6523093B1 (en) * | 2000-09-29 | 2003-02-18 | Intel Corporation | Prefetch buffer allocation and filtering system |
US6965982B2 (en) | 2001-06-29 | 2005-11-15 | International Business Machines Corporation | Multithreaded processor efficiency by pre-fetching instructions for a scheduled thread |
US6983356B2 (en) | 2002-12-19 | 2006-01-03 | Intel Corporation | High performance memory device-state aware chipset prefetcher |
US20050166006A1 (en) * | 2003-05-13 | 2005-07-28 | Advanced Micro Devices, Inc. | System including a host connected serially in a chain to one or more memory modules that include a cache |
TWI258078B (en) | 2003-10-07 | 2006-07-11 | Via Tech Inc | Pre-fetch controller and method thereof |
US7730263B2 (en) * | 2006-01-20 | 2010-06-01 | Cornell Research Foundation, Inc. | Future execution prefetching technique and architecture |
JP2007241927A (ja) | 2006-03-13 | 2007-09-20 | Toshiba Corp | データ記憶装置及び方法 |
US7774578B2 (en) | 2006-06-07 | 2010-08-10 | Advanced Micro Devices, Inc. | Apparatus and method of prefetching data in response to a cache miss |
US20090006813A1 (en) | 2007-06-28 | 2009-01-01 | Abhishek Singhal | Data forwarding from system memory-side prefetcher |
US7917702B2 (en) | 2007-07-10 | 2011-03-29 | Qualcomm Incorporated | Data prefetch throttle |
US8156286B2 (en) * | 2008-12-30 | 2012-04-10 | Advanced Micro Devices, Inc. | Processor and method for using an instruction hint to prevent hardware prefetch from using certain memory accesses in prefetch calculations |
US8291171B2 (en) | 2009-11-30 | 2012-10-16 | Hewlett-Packard Development Company, L.P. | Altering prefetch depth based on ready data |
US8856451B2 (en) * | 2010-08-26 | 2014-10-07 | Advanced Micro Devices, Inc. | Method and apparatus for adapting aggressiveness of a pre-fetcher |
US8856452B2 (en) * | 2011-05-31 | 2014-10-07 | Illinois Institute Of Technology | Timing-aware data prefetching for microprocessors |
US9116815B2 (en) | 2012-06-20 | 2015-08-25 | Advanced Micro Devices, Inc. | Data cache prefetch throttle |
US9122612B2 (en) * | 2012-06-25 | 2015-09-01 | Advanced Micro Devices, Inc. | Eliminating fetch cancel for inclusive caches |
KR101667772B1 (ko) * | 2012-08-18 | 2016-10-19 | 퀄컴 테크놀로지스, 인크. | 프리페칭을 갖는 변환 색인 버퍼 |
US9286223B2 (en) * | 2013-04-17 | 2016-03-15 | Advanced Micro Devices, Inc. | Merging demand load requests with prefetch load requests |
US9304919B2 (en) * | 2013-05-31 | 2016-04-05 | Advanced Micro Devices, Inc. | Detecting multiple stride sequences for prefetching |
-
2012
- 2012-08-17 US US13/588,622 patent/US9390018B2/en active Active
-
2013
- 2013-08-15 EP EP13753747.8A patent/EP2885714B1/en active Active
- 2013-08-15 KR KR1020157006566A patent/KR101943561B1/ko active IP Right Grant
- 2013-08-15 WO PCT/US2013/055119 patent/WO2014028724A1/en active Application Filing
- 2013-08-15 JP JP2015527632A patent/JP6205418B2/ja active Active
- 2013-08-15 CN CN201380044104.6A patent/CN104583981B/zh active Active
- 2013-08-15 IN IN1261DEN2015 patent/IN2015DN01261A/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040117557A1 (en) | 2002-12-16 | 2004-06-17 | Paulraj Dominic A | Smart-prefetch |
US20110072218A1 (en) | 2009-09-24 | 2011-03-24 | Srilatha Manne | Prefetch promotion mechanism to reduce cache pollution |
US20120066455A1 (en) | 2010-09-09 | 2012-03-15 | Swamy Punyamurtula | Hybrid prefetch method and apparatus |
US20120084511A1 (en) | 2010-10-04 | 2012-04-05 | International Business Machines Corporation | Ineffective prefetch determination and latency optimization |
Also Published As
Publication number | Publication date |
---|---|
JP2015529356A (ja) | 2015-10-05 |
US9390018B2 (en) | 2016-07-12 |
WO2014028724A1 (en) | 2014-02-20 |
CN104583981A (zh) | 2015-04-29 |
CN104583981B (zh) | 2017-11-14 |
IN2015DN01261A (ko) | 2015-07-03 |
EP2885714A1 (en) | 2015-06-24 |
US20140052927A1 (en) | 2014-02-20 |
JP6205418B2 (ja) | 2017-09-27 |
KR20150043472A (ko) | 2015-04-22 |
EP2885714B1 (en) | 2017-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101943561B1 (ko) | 데이터 캐시 프리페치 힌트들 | |
EP3433745B1 (en) | Scaled set dueling for cache replacement policies | |
US9934148B2 (en) | Memory module with embedded access metadata | |
US8856451B2 (en) | Method and apparatus for adapting aggressiveness of a pre-fetcher | |
US10671535B2 (en) | Stride prefetching across memory pages | |
US9348753B2 (en) | Controlling prefetch aggressiveness based on thrash events | |
US8583894B2 (en) | Hybrid prefetch method and apparatus | |
JP4829191B2 (ja) | キャッシュシステム | |
US9213640B2 (en) | Promoting transactions hitting critical beat of cache line load requests | |
KR20060049710A (ko) | 칩 멀티-프로세서의 공유 캐시를 분할하기 위한 장치 및방법 | |
JP7308745B2 (ja) | データキャッシュ領域プリフェッチャ | |
US9489203B2 (en) | Pre-fetching instructions using predicted branch target addresses | |
US20150019823A1 (en) | Method and apparatus related to cache memory | |
US8589627B2 (en) | Partially sectored cache | |
KR20200062238A (ko) | 적어도 3개의 캐싱 레벨을 가진 캐시 계층을 위한 하이브리드 하위-레벨 캐시 포함 정책 | |
JP6701380B2 (ja) | アップ/ダウンプリフェッチャ | |
JP2021506028A (ja) | 共通のメモリページからメモリへのキャッシュラインのリンス | |
CN117940908A (zh) | 动态分配高速缓存存储器作为ram | |
US9734071B2 (en) | Method and apparatus for history-based snooping of last level caches | |
EP3258381B1 (en) | Up/down prefetcher | |
CN117971725A (zh) | 主设备、缓存器、集成电路系统、电子组件及设备、预取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |