KR100240914B1

KR100240914B1 - 데이터 프리페치 방법 및 프로세싱 시스템

Info

Publication number: KR100240914B1
Application number: KR1019960033714A
Authority: KR
Inventors: 에이. 치아로트 케빈; 제이. 메이필드 마이클; 케이. 난지아 에라; 제이. 피터슨 밀포드
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1995-09-18
Filing date: 1996-08-14
Publication date: 2000-01-15
Also published as: EP0763793A2; JPH0981456A; US5721864A; JP2003186741A; KR970016969A; JP3549079B2; JP3640355B2

Abstract

본 발명은 라인 M의 실행 동안 L2 캐시 혹은 주 메모리부터 L1 인스트럭션내로 라인 M+1을 선택적으로 프리페치하기 위한 방법에 관한 것이다. 미결정 분기가 대기 중인 라인 M 내에 존재하면, 라인 M+1은 추론적이고 주 메모리로부터가 아니라, L2 캐시로부터만 L1 인스트럭션 캐시 내로 프리페치될 수 있다. 대기 중인 라인 M 내의 미결정 분기는 라인 M+1이 주 메모리로부터 프리페치되기에 앞서 결정된다. 분기가 결정된 경우, 라인 M은 완료되고("확정적 추론") 주 메모리로부터 프리페치된다. 이러한 방법으로, 잠재적으로 낭비적인 프리페치가 실행되지 않고 주 메모리 대역폭이 보전된다.

Description

데이터 프리페치 방법 및 프로세싱 시스템

본 발명은 전반적으로 데이터 프로세싱 시스템(data processing system)에 관한 것으로, 특히 캐시(a cache) 내로 데이터를 추론적(speculatively)으로 프리페칭하는 방법에 관한 것이다.

오늘날의 마이크로프로세서 시스템에서, 프로세서 사이클 시간(processor cycle time)은 지속적인 기술 개발에 따라서 계속적으로 감소되고 있다. 또한, 추론적인 실행, 심층 파이프라인, 보다 많은 실행 소자 등의 설계 기법에 의해 프로세싱 시스템의 성능은 지속적으로 개선된다. 개선된 성능은 메모리 인터페이스에 상당한 부담을 주는데, 그 이유는 프로세서가 메모리로부터 보다 신속히 데이터 및 인스트럭션을 요구하기 때문이다. 프로세싱 시스템의 성능을 증진시키기 위해, 캐시 메모리 시스템이 종종 사용된다.

캐시 메모리를 활용하는 프로세싱 시스템은 당해 기술 분야에 잘 알려져 있다. 캐시 메모리는 매우 고속의 메모리 디바이스로서 현재의 프로그램 및 데이터를 최소량의 대기 시간으로 프로세서("CPU")가 이용할 수 있도록 함으로써 데이터 프로세싱 시스템의 속도를 증가시킨다. 대형 온칩 캐시(L1 캐시)는 메모리 대기시간을 감소시키는데 도움을 주고, 이들은 대형 오프칩 캐시(L2 캐시)에 의해 종종 증대된다.

캐시 케모리 시스템의 주요 잇점은 고속 캐시 메모리 내에 가장 자주 액세스 되는 인스트럭션 및 데이터를 유지함으로써, 전반적인 프로세싱 시스템의 평균 메모리 액세스 시간은 캐시의 액세스 시간에 접근할 것이라는 점이다. 캐시 메모리가 주 메모리 크기의 극히 일부라 하더라도, 메모리 요구의 대부분은 프로그램의 "참조의 국부성(locality of reference)"특성으로 인해 고속 캐시 메모리 내에서 성공적으로 발견된다. 이러한 특성은 임의의 주어진 시간 간격동안 메모리 참조가 메모리의 일부 국부화된 영역에 한정되려는 경향을 유지한다.

캐시의 기본적인 동작은 다음과 같다. CPU가 메모리 액세스를 필요로 하는 경우, 캐시가 조사된다. 캐시 내에서 워드가 발견되면, 고속 메모리로부터 워드가 판독된다. CPU에 의해 어드레스된 워드가 캐시에서 발견되지 않으면, 워드 판독을 위해 주 메모리가 액세스된다. 그 다음, 방금 액세스된 워드를 포함하는 워드의 블럭이 주 메모리로부터 캐시 메모리로 전송된다. 이러한 방법으로, 몇몇 데이터는 메모리에 대해 이후의 참조시 고속 캐시 메모리 내에서 필요한 워드를 발견할 수 있도록 캐시로 전송된다.

컴퓨터 시스템의 평균 메모리 액세스 시간은 캐시를 사용함으로써 상당히 개선될 수 있다. 캐시 메모리의 성능은 "히트율(hit ratio)"로 불리우는 양(quant ity)에 의해 종종 측정된다. CPU가 메모리를 조회하여 캐시 내의 워드를 발견하는 경우, CPU는 "히트(hit)"시켰다고 말한다. 워드가 캐시 내에서 발견되지 않는 경우, 워드는 주 메모리 내에 존재하며 워드는 "미쓰(miss)"로서 간주된다. 히트율이 충분히 높아 CPU가 대부분의 시간에 주 메모리 대신에 캐시를 액세스할 수 있으면, 평균 액세스 시간은 고속 캐시 메모리의 액세스 시간에 근접한다. 예를 들면, 100ns의 캐시 액세스 시간, 1000ns의 주 메모리 액세스 시간, 및 0.9의 히트율을 갖는 컴퓨터는 200ns의 평균 액세스 시간을 발생한다. 이것은 캐시 메모리가 없는 유사한 컴퓨터, 즉 액세스 시간이 1000ns인 컴퓨터에 비해 상당히 개선된 것이다.

프리페칭 기법은 대기 시간을 감소시키기 위해 미리 L1 캐시로 메모리 데이터 공급을 시도하도록 구현된다. 이상적으로, 프로그램은 프로세서가 메모리 데이터를 필요로 하는 경우 이 메모리 데이터의 사본이 항상 L1 캐시 내에 존재하도록 사전에 데이터 및 인스트럭션을 충분히 프리페치할 것이다.

인스트럭션 및/또는 데이터의 프리페칭은 당해 기술 분야에 잘 알려져 있다. 그러나, 기존의 프리페칭 기법은 종종 인스트럭션 및/또는 데이터를 너무 이르게 프리페치한다. 프리페칭한 후 프리페치된 인스트럭션 및/또는 데이터를 사용하지 않음으로써 메모리 액세스에 대한 시간을 증가시키지만 잇점을 발생하지는 못함으로써, CPU의 효율을 떨어뜨린다.

이러한 흔한 예는 프로세싱 시스템이 인스트럭션을 추론적으로 디스패치하고 캐시 내에 미결정 분기 인스트럭션이 여전히 있는 경우 발생한다. 그후, 시스템은 프로그램 실행이 이루어지지 않을 분기 내에 속하는 인스트럭션을 프리페치할 수 있다. 그러면, 메모리로부터 이들 인스트럭션을 인출하는데 소비된 시간은 낭비되고 불필요한 메모리 버스 트래픽을 야기한다.

따라서 불필요한 인스트럭션의 프리페칭으로 인해 L1 인스트럭션 캐시에 대한 인스트럭션 액세스의 대기 시간을 더욱 감소시키는 시스템 및 방법이 종래 기술에 필요하다.

본 발명의 목적은, 데이터 프로세싱 시스템의 L1 I-캐시(인스트럭션 캐시) 제어기 내에서 L2 캐시로부터만 추론적인 인스트럭션 캐시 라인을 프리페치하기 위한 장치를 제공하는데 있다. 본 발명의 저변에 깔린 개념은 주 메모리 버스상의 인스트럭션 프리페칭이 "진정한" 캐시 미쓰를 위해 예약되어야 한다는 것이다. "진정한" 캐시 미쓰란, 프로세서가 미쓰 라인에 대한 요구를 취소하도록 하는 미결정 분기가 대기 중인 인스트럭션중에 없기 때문에 프로세서에 의해 반드시 요구될 미쓰 데이타 라인을 말한다.

본 발명의 다른 목적은 추론적인 인스트럭션 프로페칭이 프로세서 버스 활용도에 악영향을 끼치지 않도록 최적으로 인스트럭션을 프리페치하는 방법을 개시하는 것이다.

본 발명은 대기 중인 인스트럭션내 모든 미결정 분기의 결정(resolution)에 앞서, 인스트럭션이 주 메모리가 아닌 L2 캐시로부터만 L1 캐시 내로 프로페치되는 프리페치 방법을 제공함으로써 추론적인 프리페칭에 내재하는 문제점을 극복한다.

이하 설명되는 본 발명의 상세한 설명을 보다 쉽게 이해할 수 있도록 하기 위해 본 발명의 특징 및 기술적 장점을 다소 광범위하게 설명하였다. 본 발명의 추가적인 특징 및 장점은 이후 상세히 설명될 것이며, 이들 특징 및 장점들은 본 발명의 청구 범위에 있어서 요지를 형성한다. 발명적 개념 및 개시된 특정한 실시예는 본 발명의 동일한 목적을 수행하기 위해 다른 구조를 수정하거나 혹은 설계하기 위한 기초로서 쉽게 이용될 수도 있다는 것이 당업자에게 자명할 것이다. 이러한 등가 구성은 첨부된 청구 범위에서 설명된 바와 같이 본 발명의 사상 및 범주를 벗어남이 없이 당업자에 의해 실현될 수 있다.

본 발명을 보다 완전히 이해할 수 있도록 하고, 본 발명의 장점에 대히 첨부도면과 함께 상세한 설명이 이루어질 것이다.

제1도는 본 발명에 따른 프로세싱 시스템의 고수준 블럭도.

제2도는 본 발명에 따른 프리페칭 동작의 흐름도.

* 도면의 주요부분에 대한 부호의 설명

115 : 주 저장장치 140 : 입/출력 장치

125 : 프리페치 버퍼 120 : L2 캐시

132 : 데이터 캐시 130 : 인스트럭션 캐시

135 : 프로세서 캐시 콘트롤러(PCC)

본 발명의 원리 및 이들의 잇점은 동일 부분에 대해 동일 번호로 표시된 제1도 및 제2도에 도시된 예시적인 실시예를 참조함으로써 가장 잘 이해될 수 있다.

도 1에는 프로세서(110), 내장형 L1 캐시(131), 외부 L2 캐시(120)를 포함하는 프로세싱 시스템이 도시되어 있다. 본 발명의 바람직한 실시예에서, L1 캐시(131)는 데이터를 저장하기 위한 데이터 캐시(132) 및 인스트럭션을 저장하기 위한 별도의 인스트럭션 캐시(L1 I-캐시)(130)를 포함한다. 별도의 데이터를 및 인스트럭션 캐시는 당해 기술분야에 잘 알려져 있다. 프로세서(110)는 프리페치 버퍼(125)를 통해 주 저장 메모리(115)로부터 수신된 인스트럭션 및 데이터를 L1 I-캐시(130)와 L2 캐시(120)내에 캐시할 수 있다.

L1 I-캐시(130)는 당해 기술 분야에 잘 알려진 임의의 교체 정책을 사용하여 주 저장 장치(115)로부터 자주 사용되는 프로그램 인스트럭션의 사본을 보유한다. L2 캐시(120)는 L1 I-캐시(130)보다 크고 보다 많은 데이터를 보유하며, 통상적으로 시스템(100)에 대한 메모리 코히어런시 프로토콜을 제어한다. 본 발명의 바람직한 실시예에서, L1 I-캐시(130) 내의 인스트럭션은 L2 캐시(120) 내에 포함될 필요가 없다.

프로세서(110)) 둘레의 점선은 칩 경계(chip boundary) 및 기능적인 경계(functional boundary)를 나타내지만 본 발명의 범위를 제한하는 것을 의미하지는 않는다. 프로세서 캐시 제어기(PCC)(135)는 메모리 서브시스템 인출을 제어하여 메모리 서브시스템(L1 캐시(131), L2 캐시(120))에 저장한다. PCC(135)는 인출 및 저장의 제어 외에도 다른 기능을 또한 수행할 수 있다.

제2도는 본 발명의 일 실시예에 따른 상태 머신(state machine)에 대한 흐름도(200)를 도시한다. 본 발명에 따른 상태 머신은 PCC(135) 내에 존재하거나 혹은 프로세서(110) 내 어느 곳에든 존재할 수 있다. 인스트럭션 캐시 라인은 주 메모리 (115)로부터 L1 I-캐시(130) 내로, 그리고 본 발명에 의해 L2 캐시(120) 내로 추론적으로 인출될 수 있다. 인출되고 있는 라인에 선행하는 라인 내의 인스트럭션이 하나 이상의 미결정 분기를 포함하는 경우 인출은 추론적이다.

그러나, 프로그램의 순서는 유지되어야 하며, 모든 선행하는 인스트럭션이 완료되고 중간에 끼어드는(intervening) 인스트럭션이 결정될 때까지 추측된 타켓 인스트럭션은 추론적인 상태로 남아 있어야 한다. 추론적인 인스트럭션은 선행하는 미결정 분기가 없는 경우 "확정적 추론(inevitable-speculative)" 인스트럭션 혹은 "완료"인스트럭션이 된다. 따라서, 확정적 추론 인스트럭션은 외부 인투럽트(예를 들면, 입/출력 포트(140)로부터)와 같은 인터럽션이 없는 경우 실행된다.

흐름도(200)의 단계(205-241)가 직접적은 주목을 끈다. 본 발명은 인스트럭션 캐시 내로 라인을 프리페치하기 위한 방법을 기술한다. 본 발명은 상태 머신을 사용하여 L1 I-캐시(130)에 대한 L1 미쓰의 발생을 감시한다. "L1 미쓰"는 L1 I-캐시(130)에 대한 액세스로서, L1 I-캐시(130) 내에서 타깃 라인을 찾아내지 못한 액세스를 말한다. 프로세서(110)가 L1 캐시(130)로부터 캐시 라인 M을 요구하고, 캐시 라인 M이 L1 캐시(130) 내에 없는 경우(즉, L1 미쓰가 발생), 상태 머신은 L2캐시(120)에서 미쓰 라인(라인 M)을 탐색한다(205). 라인 M이 L2 캐시(120)내에 존재하면, 상태 머신은 L2 캐시(120)로부터 L1 I-캐시(130)로 라인 M을 인출한다(210). 라인 M이 L2 캐시(120)에도 존재하지 않으면, 본 발명의 상태 머신은 주 메모리(115)로부터 라인 M을 인출하기 전에 대기 중인 라인 M-1 내의 모든 미결정 분기가 결정될 때까지 기다린다(230 및 235). 이로 인해, 사용되지 않고 취소될 수 있는 불필요한 인스트럭션이 주 메모리로부터 프리페치되는 것이 방지된다. 본 명세서에서 사용된 바와 같이, "취소됨"이란 프로세서가 예상 라인 M이 아닌, 라인 X와 같은 몇몇 다른 라인을 요구한다는 것을 의미한다. 라인 M-1내의 모든 분기가 결정되고 라인 M이 이제 완료되면, 라인 M은 주 메모리(115)로부터 L1 I-캐시(130) 및 L2 캐시(120)로 인출된다(240).

라인 M이 L2 캐시(120) 내에 존재하는지의 여부에 관계 없이, 상태 머신은 다음의 고차 라인, 즉 라인 M+1의 존재에 대해 L1 I-캐시(130)를 테스트한다(215). 라인 M+1이 L1 I-캐시(130) 내에 있으면, 더 이상의 조치가 필요하지 않다(241). 라인 M+1이 L1 I-캐시(130) 내에 없으면, 상태 머신은 라인 M+1에 대해 L2 캐시(120)를 테스트하고, 라인 M+1이 발견되면, L2 캐시(120)로부터 L1 I-캐시(130) 내로 라인 M+1을 프리페치한다(220 및 225).

상태 머신은 라인 M+1이 메모리 내의 논리적인 경계(페이지 혹은 블럭)를 넘는지를 또한 확인한다(222). 라인 M은 통상적으로 실제 물리적 어드레스로 변환되지만, 라인 M+1은 그렇지 못하다. 따라서, 물리적인 메모리 내 라인 M+1의 위치는 미확정적이다. 라인 M+1이 별도의 논리적인 경계 내에 있으면, 상태 머신은 L2 캐시로부터 라인 M+1을 프리페치하지 않으며, L1과 L2 사이의 대역폭을 보전한다(241). 대신에, 프로세서(110)가 라인 M+1을 요구하는 경우, 흐름도(200)는 단계(205)에 재진입될 것이다.

라인 M+1이 L2 캐시(120) 내에 없으면, 본 발명은 라인 M 내의 모든 분기가 결정되고 라인 M+1이 완료될 때까지, 주 메모리(115)로부터 L1 I-캐시(130) 혹은 L2 캐시(120) 내로 라인 M+1을 프리페치하지 않는다(241). 본 발명은, 라인 M 내에 미결정 분기가 없고, 프로세서가 라인 M+1에 대한 프리페치로써 주 메모리 버스를 점유하기 전에 라인 M+1에 대한 요구를 L1 I-캐시(130)에 발령하는 것을 확인하기 위해 기다린다. 라인 M+1에 대한 L1 요구는 결과적으로 L1 캐시 미쓰를 가져오고, 흐름도(200)는 단계(205)에서 재진입될 것이다. 이것은 사용되지 않고 취소될 수도 있는 인스트럭션이 프리페칭되는 것을 방지한다.

아래의 표는 앞의 사항을 도표로서 나타낸 것이다.

본 발명은 L1 I-캐시(130) 미쓰에 대해서 뿐 아니라 L1 I-캐시(130) L2 캐시(120)로부터 추론적으로 프리페치하기 위해 사용될 수 있다는 것이 당업자에게 자명할 것이다.

본 발명 및 본 발명의 잇점이 상세히 기술되었지만, 첨부된 청구 범위에 정의된 바와 같이 본 발명의 사상 및 범주를 벗어남이 없이 본 명세서에서 각종 변화, 대체 및 변경이 이루어질 수 있다는 것이 이해될 것이다.

본 발명은 L2 캐시로부터만 추론적인 인스트럭션 캐시 라인을 프리페치하기 위해 데이터 프로세싱 시스템의 L1 I-캐시(인스트럭션 캐시) 제어기 내에 장치를 제공하며, 인스트럭션에 대한 최적의 프리페칭 방법을 개시하여 추론적인 인스트럭션 스트림의 프리페칭이 프로세서 버스 이용에 악영향을 끼치지 않도록 할 수 있다.

Claims

프로세서, 제1캐시, 제2캐시, 주 메모리를 포함하는 프로세싱 시스템에서, 상기 제1캐시 내로 데이터를 프리페치하는 방법에 이어서, ① 상기 제1캐시 내에서, 라인 M에 대한 액세스 이벤트를 검출하는 단계와, ② 상기 캐시 액세스 이벤트에 응답하여, 상기 라인 M에 대해 상기 제2캐시를 탐색하는 단계와, ③ 상기 라인 M이 상기 제2캐시 내에서 발견되면, 상기 라인 M을 상기 제2캐시로부터 상기 제1캐시로 전송하는 단계와, ④ 상기 라인 M이 상기 제2캐시 내에서 발견되지 않으면, 상기 주 메모리로부터 상기 라인 M을 인출하기 전에, 라인 M-1 내의 미결정 분기 인스트럭션(unresolved branch instruction)이 결정(resolve)될 때까지 기다리는 단계를 포함하는 데이터 프리페치 방법.
제1항에 있어서, 상기 캐시 액세스 이벤트는 캐시 미쓰(cache miss)인 데이터 프리페치 방법.
제1항에 있어서, 상기 캐시 액세스 이벤트는 캐시 히트(cache hit)인 데이터 프리페치 방법.
제1항에 있어서, 상기 라인 M+1이 상기 제2캐시 내에서 발견되지 않으면, 상기 주 메모리로부터 라인 M+1을 인출하기 전에, 상기 라인 M 내의 미결정 분기 인스트럭션이 결정될 때까지 기다리는 단계를 더 포함하는 데이터 프리페치 방법.
제1항에 있어서, 상기 라인 M+1이 상기 제2캐시 내에서 발견되면, 상기 라인 M+1이 상기 라인 M과는 별도의 메모리 논리 블럭에 존재하는지 여부를 판단하는 단계를 더 포함하는 데이터 프리페치 방법.
제5항에 있어서, 상기 라인 M+1이 상기 별도의 논리 블럭이 존재하지 않으면, 상기 라인 M+1을 상기 제2캐시로부터 상기 제1캐시로 전달하는 단계를 더 포함하는 데이터 프리페치 방법.
제5항에 있어서, 상기 라인 M+1이 상기 별도의 논리 블럭에 존재하면, 상기 라인 M+1을 상기 제2캐시로부터 상기 제1캐시로 전달하기 전에, 상기 라인 M 내의 미결정 분기 인스트럭션이 결정될 때까지 기다리는 단계를 더 포함하는 데이터 프리페치 방법.
프로세서, 제1캐시, 제2캐시, 주 메모리를 포함하는 프로세싱 시스템에서, 상기 제1캐시로 데이터를 프리페치하는 방법에 있어서, ① 상기 제1캐시 내에서, 라인 M에 대한 캐시 액세스 이벤트를 검출하는 단계와, ② 상기 캐시 액세스 이벤트에 응답하여, 라인 M+1에 대하여 상기 제2캐시를 탐색하는 단계와, ③ 상기 라인 M+1이 상기 제2캐시 내에서 발견되지 않으면, 상기 주 메모리로부터 상기 라인 M+1를 인출하기 이전에, 상기 라인 M 내의 미결정 분기 인스트럭션이 결정될 때까지 기다리는 단계와, ④ 상기 라인 M+1이 상기 제2캐시 내에서 발견되면, 상기 라인 M+1이 상기 라인 M과는 별도의 메모리 블럭 내에 존재하는지 판단하는 단계와, ⑤ 상기 라인 M+1이 상기 별도의 논리 블럭 내에 존재하지 않으면, 상기 라인 M+1을 상기 제2캐시로부터 상기 제1캐시로 전달하는 단계를 포함하는 데이터 프리페치 방법.
제8항에 있어서, 상기 캐시 액세스 이벤트는 캐시 미쓰인 데이터 프리페치 방법.
제8항에 있어서, 상기 캐시 액세스 이벤트는 캐시 히트인 데이터 프리페치 방법.
제8항에 있어서, 상기 라인 M+1이 상기 별도의 논리 블럭 내에 존재하면, 상기 라인 M+1을 상기 제2캐시로부터 상기 제1캐시로 전달하기 전에, 상기 라인 M 내의 미결정 분기 인스트럭션이 결정될 때까지 기다리는 단계를 더 포함하는 데이터 프리페치 방법.
프로세싱 시스템에 있어서, ① 프로세서와, ② 제1캐시와, ③ 제2캐시와, ④ 주 메모리와, ⑤ 상기 제1캐시 내에서, 제1데이터에 대한 캐시 액세스 이벤트를 검출하는 수단과, ⑥ 상기 캐시 액세스 이벤트에 응답하여, 상기 제1데이터에 대해 순서상 다음에 오는 제2데이터가 상기 제2캐시 내에 존재하는지를 판단하는 수단과, ⑦ 상기 제2데이터가 상기 제2캐시 내에 존재하지 않는다는 판단에 응답하여, 상기 주 메모리로부터 상기 제2데이터를 인출하기 전에, 상기 제1데이터내의 모든 미결정 분기 인스트럭션이 결정될 때까지 기다리는 수단과, ⑧ 상기 제2데이터가 상기 제2캐시 내에 존재한다는 판단에 응답하여, 상기 제2데이터가 상기 제1데이터와는 별도의 메모리 논리 블럭에 존재하는지 여부를 판단하는 수단과, ⑨ 상기 제2데이터가 상기 별도의 논리 블럭에 존재하지 않는다는 판단에 응답하여, 상기 제2데이터를 상기 제2캐시로부터 상기 제1캐시로 전달하는 수단을 포함하는 프로세싱 시스템.
제12항에 있어서, 상기 캐시 액세스 이벤트는 캐시 미쓰인 프로세싱 시스템.
제12항에 있어서, 상기 캐시 액세스 이벤트는 캐시 히트인 프로세싱 시스템.
제12항에 있어서, 상기 제2데이터가 상기 별도의 논리 블럭에 존재한다는 판단에 응답하여, 상기 제2데이터를 상기 제2캐시로부터 상기 제1캐시로 전달하기 전에 상기 제1데이터 내의 미결정 분기 인스트럭션이 결정될 때까지 기다리는 수단을 포함하는 프로세싱 시스템.