KR20050084661A

KR20050084661A - 순차 멀티스레딩 프로세서, 순차 멀티스레딩 프로세서의처리량 향상 방법 및 컴퓨터 프로그램 제품

Info

Publication number: KR20050084661A
Application number: KR1020057007909A
Authority: KR
Inventors: 쿠르트 알란 페이스테; 데이비드 쉬피; 노르스트란드 쥬니어 알버트 제임스 반
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2002-12-05
Filing date: 2003-10-22
Publication date: 2005-08-26
Also published as: AU2003278329A1; CA2503079A1; CN1271512C; WO2004051464A1; EP1576464A1; JP2006509282A; US20040111594A1; KR100819232B1; CN1504873A

Abstract

본 발명에서는 순차 멀티스레딩 프로세서(in-order multithreading processor)의 처리량(throughput)을 향상시키는 시스템 및 방법을 제공한다. 의존성 인스트럭션(dependent instruction)은 제 1 스레드(first thread)로부터의 레지스터 의존성을 갖고 적어도 하나의 장시간 지연 인스트럭션(long latency instruction)에 후속하는 것으로 식별된다. 의존성 인스트럭션은 이러한 의존성 인스트럭션을 이전의 파이프라인 스테이지(earlier pipeline stage)에 제공함으로써 재사용(recycled)된다. 의존성 인스트럭션은 디스패치(dispatch)에서 지연된다. 장시간 지연 인스트럭션의 완료는 제 1 스레드로부터 검출된다. 교번 스레드(alternate thread)는 장시간 지연 인스트럭션이 실행되는 동안에 하나 이상의 인스트럭션을 발행할 수 있다.

Description

순차 멀티스레딩 프로세서, 순차 멀티스레딩 프로세서의 처리량 향상 방법 및 컴퓨터 프로그램 제품{IN ORDER MULTITHREADING RECYCLE AND DISPATCH MECHANISM}

본 발명은 순차 프로세서(in-order processor)의 처리량(throughput) 향상에 관한 것으로서, 보다 구체적으로는 순차 프로세서에서의 멀티스레딩 기법(multithreading techniques)에 관한 것이다.

"멀티스레딩"은 컴퓨터 시스템 내에서 사용되어 다수의 스레드(threads)가 공유 데이터 흐름(shared dataflow)을 계속 진행할 수 있게 하는 통상적인 기법이다. 단일 프로세서 시스템 내에서 사용된다면, 멀티스레딩은 단일 프로세서 시스템의 운영 시스템 소프트웨어에 다중 프로세서 시스템의 형상을 제공한다.

종래 기술에서 사용되는 여러 멀티스레딩 기법이 존재한다. 예를 들면, 조대 단위 멀티스레딩(coarse-grain multithreading)은 한 시점에서 오로지 하나의 스레드만이 활성 상태가 되게 하고, 스레드 스왑(thread swap)이 존재하는 경우에 전체 파이프라인(pipeline)을 배출(flushes)한다. 이러한 기법에서, 단일 스레드는 캐시 실패(cache miss) 등과 같은 이벤트가 발생할 때까지 계속 진행하고, 그 후에 파이프라인이 고갈되면 교번 스레드(alternate thread)가 활성화된다(즉, 스왑-인(swapped in)된다).

다른 예에서, 동시적 멀티스레딩(simultaneous multithreading)(SMT)은 다수의 스레드가 동시에 활성화되게 하고, 레지스터 리네이밍(register renaming) 등과 같은 비순차 설계(out-of-order design)의 리소스 및 완료 재순차 버퍼(completion reorder buffers)를 사용하여 다수의 활성 스레드를 추적한다. SMT는 하드웨어 구현에 있어서 상당히 값이 비쌀 수 있다.

그러므로, 비순차 기법을 사용하지 않으면서 순차 멀티스레딩 프로세서의 처리량을 향상시키는 시스템 및 방법이 필요하다.

도 1은 프로세서 내에서 멀티스레딩 인스트럭션 흐름을 나타내는 블록도.

도 2는 정규 스레드 스위칭(normal thread switching)을 도시하는 타이밍도(timing diagram).

도 3은 의존성 인스트럭션이 스레드 내에서 로딩 실패(load miss)에 후속할 경우에 스레드 스위칭을 나타내는 타이밍도.

본 발명은 순차 멀티스레딩 프로세서의 처리량을 향상시키는 시스템 및 방법을 제공한다. 의존성 인스트럭션(dependent instruction)은 제 1 스레드로부터의 레지스터 의존도를 가지고 적어도 하나의 장시간 지연 인스트럭션(long latency instruction)에 후속하는 것으로 식별된다. 의존성 인스트럭션은 이것을 이전의 파이프라인 스테이지(earlier popeline stage)에 제공함으로써 재사용된다. 의존성 인스트럭션은 디스패치(dispatch)에서 지연된다. 장시간 지연 인스트럭션의 완료는 제 1 스레드로부터 검출된다. 교번 스레드(alternate thread)는 장시간 지연 인스트럭션이 실행되는 동안에 하나 이상의 인스트럭션을 발행할 수 있다.

본 발명 및 그 이점에 대한 보다 완벽한 이해를 위하여, 이하의 첨부된 도면과 함께 다음의 설명을 참조하였다.

이하의 설명에서, 본 발명의 완전한 이해를 제공하기 위해서 여러 특정한 세부 사항을 제시하였다. 그러나, 당업자라면 본 발명이 이러한 특정한 세부 사항없이 실행될 수 있다는 것이 명확할 것이다. 다른 예로서, 불필요한 세부 사항에 의해 본 발명이 불명확하게 되지 않도록 잘 알려진 구성 요소에 대해서는 개략도 또는 블록도의 형태로 도시하였다.

또한 다른 방식으로 표시되어 있지 않는 한, 본 명세서에 개시된 모든 기능은 하드웨어 또는 소프트웨어 또는 그의 소정 조합으로 수행될 수 있다는 것을 유의해야 한다. 그러나, 바람직한 실시예에서 이러한 기능은 다르게 표시되어 있지 않는 한, 컴퓨터 프로그램 코드, 소프트웨어 등과 같은 코드에 따르는 컴퓨터 또는 전자 데이터 프로세서 등의 프로세서 및/또는 이러한 기능을 수행하도록 코딩된 집적 회로에 의해 수행될 수 있다.

도면 중에서 도 1을 참조하면, 참조 부호(100)는 일반적으로 블록도 내에서 멀티스레딩 인스트럭션 흐름을 갖는 프로세서(100)를 지칭한다. 프로세서(100)는 순차 멀티스레딩 프로세서인 것이 바람직하다. 프로세서(100)는 2개의 스레드(A 및 B)를 갖지만, 2개 이상의 스레드를 가질 수도 있다.

프로세서(100)는 각각 스레드(A, B)를 위한 인스트럭션 인출 어드레스 레지스터(instruction fetch address registers)(IFAR)(102, 104)를 포함한다. IFAR(102, 104)은 IC1, IC2 및 IC3을 갖는 인스트럭션 캐시(instruction cache)(ICACHE)(106)에 결합된다. 또한, 프로세서(100)는 각각 스레드(A, B)를 위한 인스트럭션 버퍼(instruction buffers)(IBUF)(108, 110)를 포함한다. 각각의 IBUF(108, 110)는 2개의 엔트리(entries)만큼의 깊이를 갖고 4개의 인스트럭션만큼의 폭을 갖는다. 구체적으로, IBUF(108)는 IBUF A(0) 및 IBUF A(1)를 포함한다. 이와 유사하게, IBUF(110)는 IBUF B(0) 및 IBUF B(1)를 포함한다. 프로세서(100)는 인스트럭션 디스패치 블록(instruction dispatch blocks)(ID1(112), ID2(114))을 더 포함한다. ID1(112)은 ICACHE(106) 및 IBUF(108, 110)에 결합된 멀티플렉서(116)를 포함한다. 멀티플렉서(116)는 스레드 디스패치 요청 신호(thread dispatch request signal)(118)를 제어 신호로서 수신하도록 구성되었다. ID1(112)은 또한 ID2(114)에 결합된다.

프로세서(100)는 인스트럭션 발행 블록(instruction issue blocks)(IS1(120), IS2(122))을 더 포함한다. IS1(120)은 ID2(114)에 결합되어 인스트럭션을 수신한다. IS1(120)은 또한 IS2(122)에 결합되어 인스트럭션을 IS2(122)에 전달한다. 프로세서(100)는 인스트럭션을 처리하기 위해서 실행 장치(execution units)에 결합된 여러 레지스터 파일을 더 포함한다. 구체적으로, 프로세서(100)는 벡터/SIMD 멀티미디어 확장부(vector/SIMD multimedia extension)(VMX)(126)에 결합된 벡터 레지스터 파일(vector register file)(VRF)(124)을 포함한다. 프로세서(100)는 또한 부동 소수점 장치(floating-point unit)(FPU)(130)에 결합된 부동 소수점 레지스터 파일(floating-point register file)(FPR)(128)을 포함한다. 또한, 프로세서(100)는 고정 소수점 장치/로딩 저장 장치(fixed-point unit/load-store unit)(FXU/LSU)(134) 및 데이터 캐시(DCACHE)(136)에 결합된 범용 레지스터 파일(general-purpose register file)(GPR)(132)을 포함한다. 프로세서(100)는 또한 상태 레지스터 파일(condition register file)/링크 레지스터 파일(link register file)/카운트 레지스터 파일(count register file)(CR/LNK/CNT)(138) 및 브랜치(branch)(140)를 포함한다. IS2(122)는 VRF(124), FPR(128), GPR(132) 및 CR/LNK/CNT(138)에 결합된다. 프로세서(100)는 또한 의존도 검사 로직(dependency checking logic)(142)을 포함하는데, 이는 IS2(122)에 결합되는 것이 바람직하다.

인스트럭션 인출은 스레드마다 별도의 IFAR(102, 104)를 유지할 것이다. 인출은 스레드들 사이의 각각의 모든 사이클마다 교번적으로 수행될 것이다. 인스트럭션 인출은 파이프라인형이고, 이러한 구현을 위해서 3개의 사이클을 필요로 한다. 이러한 3개의 사이클이 끝나면, 4개의 인스트럭션이 ICACHE(106)로부터 인출되고 ID1(112)로 전달된다. 4개의 인스트럭션은 디스패칭되거나 IBUF(108 및/또는 110)에 삽입된다.

스레드 스위치의 선택은 ID1(112)에서 결정된다. 이러한 결정은 스레드 디스패치 요청 신호(118) 및 해당 스레드를 위해 이용가능한 인스트럭션에 기초한다. 바람직하게는, 스레드 디스패치 요청 신호(118)는 스레드마다 각각의 모든 사이클을 토글링(toggling)한다. 주어진 스레드에 대한 이용 가능 인스트럭션이 존재하고, 그것이 해당 스레드를 위한 활성 스레드이면, 인스트럭션은 해당 스레드에 대해 디스패칭될 것이다. 활성 스레드 사이클 동안에 스레드를 위한 이용 가능 인스트럭션이 존재하지 않으면, 교번 스레드가 이용 가능 인스트럭션을 갖는 경우에 이 교번 스레드가 이 디스패치 슬롯(dispatch slot)을 이용할 수 있다.

종래 기술의 시스템에서, 장시간 지연 인스트럭션 이후에 제 1 스레드(예를 들면, 스레드 A) 내의 의존성 인스트럭션이 후속하면, 의존성 인스트럭션은 장시간 지연 인스트럭션이 처리되기 전까지는 실행될 수 없다. 그러므로, 의존성 인스트럭션은 장시간 지연 인스트럭션이 처리될 때까지 IS2(122) 내에 저장될 것이다. 그러나, 본 발명에서, 의존도 검사 로직(142)은 장시간 지연 인스트럭션 이후에 의존성 인스트럭션을 식별한다. 바람직하게는, 의존성 인스트럭션은 의존도 검사 로직이 자신을 식별할 수 있도록 표시된다. 의존성 인스트럭션은 이전의 파이프라인 스테이지(예를 들면, 인출 스테이지 등)에 해당 의존성 인스트럭션을 제공함으로써 재사용된다. 의존성 인스트럭션은 디스패치에서 지연된다. 교번 스레드는 장시간 지연 인스트럭션이 실행되는 동안에 하나 이상의 인스트럭션을 발행할 수 있다. 장시간 지연 인스트럭션이 완료되면, 제 1 스레드의 의존성 인스트럭션이 실행된다.

다음으로, 도 2를 참조하면, 정규 스레드 스위칭(normal thread switching)을 나타내는 타이밍도(200)가 도시되어 있다. 타이밍도(200)는 브랜치 리디렉트(branch redirects) 또는 파이프라인 고정(pipeline stalls)이 없는 정규 인출, 디스패치 및 발행 프로세스를 도시한다. 바람직하게는, 인출, 디스패치 및 발행 프로세스가 각 사이클마다의 스레드 사이에서 교번적으로 수행된다. 구체적으로, A(0:3)는 스레드 A를 위해 인출된 4개의 인스트럭션으로 이루어진 그룹이다. 이와 유사하게 B(0:3)는 스레드 B를 위해 인출된 4개의 인스트럭션으로 이루어진 그룹이다. 브랜치가 존재하지 않기 때문에 인출 및 디스패치가 모두 각 사이클마다 스레드를 토글링한다.

다음으로 도 3을 참조하면, 타이밍도(300)는 스레드 A에 대한 DCACHE 로딩 실패에 후속하는 스레드 A에 대한 의존성 인스트럭션을 도시한다. 사이클 1에서, 로딩(302)은 파이프라인 스테이지(EX2) 내에 있다. 사이클 1에서, 스레드 A 내의 의존성 인스트럭션(304)은 파이프라인 스테이지(IS2)에 있다. 사이클 4에서, DCACHE 실패 신호(306)가 활성화된다. 이는 스레드 A에 대한 되기록 인에이블 신호(writeback enable signal)(308)가 디스에이블(disabled)되게 한다. 사이클 7에서, 스레드 A 내의 의존성 인스트럭션(304)은 FLUSH (A) 신호(310)에 의해 배출된다. 다음에 의존성 인스트럭션(304)은 재사용될 것이고, DCACHE를 실패한 로딩으로부터 데이터가 되돌아올 때까지 디스패치에서 유지된다. 배출이 발생한 후에, 스레드 B는 사이클(21)에서 시작하는 모든 디스패치 슬롯을 제공받는다. 이는 DCACHE 로딩 데이터가 되돌아올 때까지 계속 진행된다.

로딩(302)이 완전히 실행된 이후에, 스레드 A는 실행을 위해 파이프라인을 통해 의존성 인스트럭션(304)을 전달한다는 것을 유의해야 한다.

장시간 지연 인스트럭션은 여러 다른 형태를 취할 수 있다. 도 3에 도시된 바와 같은 로딩 실패는 장시간 지연 인스트럭션의 일례이다. 추가하여, (1) 어드레스 변환 실패(address translation miss), (2) 고정 소수점 복소수 인스트럭션(fixed point complex instruction), (3) 부동 소수점 복소수 인스트럭션(floating point complex instruction) 및 (4) 부동 소수점 디놈 인스트럭션(floating point denorm instruction)을 포함하는 다른 타입의 장시간 지연 인스트럭션이 존재할 수 있는데, 이는 이것으로 한정되지는 않는다. 도 3은 로딩 실패의 경우를 도시하였으나, 당업자라면 본 발명이 다른 타입의 장시간 지연 인스트럭션에도 적용될 수 있다는 것을 일반적으로 이해할 것이다.

상술된 설명으로부터, 본 발명의 진정한 정신으로부터 벗어나지 않으면서 본 발명의 바람직한 실시예에 대한 여러 수정 및 변형이 이뤄질 수 있다는 것을 이해할 것이다. 본 명세서는 오로지 예시를 목적으로 제시된 것이고, 제한적 의미로 해석되어서는 안 된다. 본 발명의 범주는 오로지 이하의 청구항의 문맥에 의해서만 제한되어야 할 것이다.

Claims

순차 멀티스레딩 프로세서(an in-order multithreading processor)의 처리량(throughput)을 향상시키는 방법으로서,

제 1 스레드(a first thread)로부터의 레지스터 의존성을 가지고 적어도 하나의 장시간 지연 인스트럭션(long latency instruction)에 후속하는 의존성 인스트럭션(a dependent instruction)을 식별하는 단계와,

상기 의존성 인스트럭션을 이전의 파이프라인 스테이지(an earlier pipeline stage)에 제공함으로써 상기 의존성 인스트럭션을 재사용(recycling)하는 단계와,

디스패치(dispatch)에서 상기 의존성 인스트럭션을 지연시키는 단계와,

상기 제 1 스레드에서 상기 적어도 하나의 장시간 지연 인스트럭션의 완료를 검출하는 단계와,

상기 적어도 하나의 장시간 지연 인스트럭션이 실행되는 동안에 교번 스레드(an alternate thread)가 하나 이상의 인스트럭션을 발행하게 하는 단계

를 포함하는 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 1 항에 있어서,

디스패치에서 상기 의존성 인스트럭션을 지연시키는 상기 단계는 인스트럭션 버퍼(an instruction buffer) 내에 상기 의존성 인스트럭션을 유지하는 단계를 포함하는 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 2 항에 있어서,

디스패치 블록 마크(a dispatch block mark)는 상기 의존성 인스트럭션이 상기 인스트럭션 버퍼 내에 유지되는 것을 표시하는 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 3 항에 있어서,

상기 디스패치 블록 마크는 상기 의존성 인스트럭션이 상기 인스트럭션 버퍼로부터 방출된 것을 나타내도록 리셋(reset)되는 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 1 항에 있어서,

상기 적어도 하나의 장시간 지연 인스트럭션은 로딩 실패(a load miss)인 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 5 항에 있어서,

로딩/저장 인스트럭션(a load/store instruction)을 발행하는 단계와,

상기 로딩/저장 인스트럭션의 목표 의존도(target dependency)를 추적하는 단계와,

상기 로딩/저장 인스트럭션을 실패 대기열(miss queue)에 저장하는 단계와,

상기 로딩/저장 인스트럭션을 실행하는 단계와,

로딩 실패를 시그널링(signalling)하는 단계와,

후속하는 의존성 인스트럭션을 배출(flushing)하는 단계와,

다른 인스트럭션을 디스패칭(dispatching)하는 동안에 상기 교번 스레드가 디스패치에서 상기 의존성 인스트럭션을 유지하는 단계와,

상기 의존성 인스트럭션을 디스패칭하는 단계

를 더 포함하는 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 1 항에 있어서,

상기 적어도 하나의 장시간 지연 인스트럭션은 어드레스 변환 실패(a address translation miss)인 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 1 항에 있어서,

상기 적어도 하나의 장시간 지연 인스트럭션은 고정 소수점 복소수 인스트럭션(a fixed point complex instruction)인 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 1 항에 있어서,

상기 적어도 하나의 장시간 지연 인스트럭션은 부동 소수점 복소수 인스트럭션(a floating point complex instruction)인 순차 멀티스레딩 프로세서의 처리량 향상 방법.
제 1 항에 있어서,

상기 적어도 하나의 장시간 지연 인스트럭션은 부동 소수점 디놈 인스트럭션(a floating point denorm instruction)인 순차 멀티스레딩 프로세서의 처리량 향상 방법.
2개 이상의 스레드를 갖는 순차 멀티스레딩 프로세서로서,

복수의 인스트럭션 인출 어드레스 레지스터(a plurality of instruction fetch address registers)-적어도 하나의 상기 인스트럭션 인출 어드레스 레지스터는 상기 2개 이상의 스레드에 각각 할당됨-와,

상기 복수의 인스트럭션 인출 어드레스 레지스터에 결합된 인스트럭션 캐시(an instruction cache)와,

상기 인스트럭션 캐시에 결합되어 상기 인스트럭션 캐시로부터 하나 이상의 인스트럭션을 수신하는 복수의 인스트럭션 버퍼-적어도 하나의 상기 인스트럭션 버퍼는 각각의 스레드에 할당됨-

상기 인스트럭션 캐시 및 상기 복수의 인스트럭션 버퍼에 모두 결합된 인스트럭션 디스패치 스테이지(an instruction dispatch stage)와,

상기 인스트럭션 디스패치 스테이지에 결합된 인스트럭션 발행 스테이지(an instruction issue stage)와,

상기 인스트럭션 발행 스테이지에 결합되어 상기 제 1 스레드로부터의 레지스터 의존성을 가지고 적어도 하나의 장시간 지연 인스트럭션에 후속하는 의존성 인스트럭션을 식별하는 의존도 검사 로직(a dependency checking logic)을 포함하고,

상기 의존도 검사 로직은 상기 의존성 인스트럭션을 이전의 파이프라인 스테이지에 제공함으로써 상기 의존성 인스트럭션을 재사용하며,

상기 의존도 검사 로직은 디스패치에서 상기 의존성 인스트럭션을 지연시키고,

상기 의존도 검사 로직은 상기 제 1 스레드로부터의 상기 적어도 하나의 장시간 지연 인스트럭션의 완료를 검출하며,

상기 의존도 검사 로직은 상기 적어도 하나의 장시간 지연 인스트럭션이 실행되는 동안에 교번 스레드가 상기 하나 이상의 인스트럭션을 발행하게 하는

순차 멀티스레딩 프로세서.
제 11 항에 있어서,

상기 발행 스테이지는 적어도 하나의 레지스터 파일 및 상기 레지스터 파일에 결합된 적어도 하나의 실행 장치(execution unit)를 포함하는 순차 멀티스레딩 프로세서.
제 12 항에 있어서,

상기 적어도 하나의 레지스터 파일은 벡터 레지스터 파일(vector register file)(VRF)을 포함하고, 상기 적어도 하나의 실행 장치는 벡터/SIMD 멀티미디어 확장부(vector/SIMD multimedia extension)(VMX)를 포함하는 순차 멀티스레딩 프로세서.
제 12 항에 있어서,

상기 적어도 하나의 레지스터 파일은 부동 소수점 레지스터 파일(a floating-point register file)(VPR)을 포함하고, 상기 적어도 하나의 실행 장치는 부동 소수점 장치(a floating-point unit)(FPU)를 포함하는 순차 멀티스레딩 프로세서.
제 12 항에 있어서,

상기 적어도 하나의 레지스터 파일은 범용 레지스터 파일(a general-purpose register file)(GPR)을 포함하고, 상기 적어도 하나의 실행 장치는 고정 소수점 장치(a fixed-point unit)(FXU) 및 로딩/저장 장치(a load/store unit)(LSU)를 포함하는 순차 멀티스레딩 프로세서.
제 12 항에 있어서,

상기 적어도 하나의 레지스터 파일은 상태 레지스터 파일(a condition register file)(CR), 링크 레지스터 파일(a link register file)(LNK) 및 카운트 레지스터 파일(count register file)(CNT)을 포함하고, 상기 적어도 하나의 실행 장치는 브랜치(branch)를 포함하는 순차 멀티스레딩 프로세서.
2개 이상의 스레드를 갖는 순차 멀티스레딩 프로세서로서,

제 1 스레드로부터의 레지스터 의존성을 가지고 적어도 하나의 장시간 지연 인스트럭션에 후속하는 의존성 인스트럭션을 식별하는 수단과,

상기 의존성 인스트럭션을 이전의 파이프라인 스테이지에 제공함으로써 상기 의존성 인스트럭션을 재사용하는 수단과,

디스패치에서 상기 의존성 인스트럭션을 지연시키는 수단과,

상기 제 1 스레드에서 상기 적어도 하나의 장시간 지연 인스트럭션의 완료를 검출하는 수단과,

상기 적어도 하나의 장시간 지연 인스트럭션이 실행되는 동안에 교번 스레드가 하나 이상의 인스트럭션을 발행하게 하는 수단

을 포함하는 순차 멀티스레딩 프로세서.
제 17 항에 있어서,

디스패치에서 상기 의존성 인스트럭션을 지연시키는 상기 수단은 인스트럭션 버퍼 내에 상기 의존성 인스트럭션을 유지하는 수단을 포함하는 순차 멀티스레딩 프로세서.
제 18 항에 있어서,

디스패치 블록 마크는 상기 의존성 인스트럭션이 상기 인스트럭션 버퍼 내에 유지되는 것을 표시하는 순차 멀티스레딩 프로세서.
제 19 항에 있어서,

상기 디스패치 블록 마크는 상기 의존성 인스트럭션이 상기 인스트럭션 버퍼로부터 방출된 것을 나타내도록 리셋되는 순차 멀티스레딩 프로세서.
제 17 항에 있어서,

상기 적어도 하나의 장시간 지연 인스트럭션은 로딩 실패인 순차 멀티스레딩 프로세서.
제 21 항에 있어서,

로딩/저장 인스트럭션을 발행하는 수단과,

상기 로딩/저장 인스트럭션의 목표 의존도를 추적하는 수단과,

상기 로딩/저장 인스트럭션을 실패 대기열에 저장하는 수단과,

상기 로딩/저장 인스트럭션을 실행하는 수단과,

로딩 실패를 시그널링하는 수단과,

후속하는 의존성 인스트럭션을 배출하는 수단과,

다른 인스트럭션을 디스패칭하는 동안에 상기 교번 스레드가 디스패치에서 상기 의존성 인스트럭션을 유지하는 수단과,

상기 의존성 인스트럭션을 디스패칭하는 수단

을 더 포함하는 순차 멀티스레딩 프로세서.
순차 멀티스레딩 프로세서의 작업량을 향상시키는 컴퓨터 프로그램 제품으로서,

상기 컴퓨터 프로그램은 컴퓨터 프로그램을 내장하는 매체를 구비하고,

상기 컴퓨터 프로그램은,

제 1 스레드로부터의 레지스터 의존성을 가지고 적어도 하나의 장시간 지연 인스트럭션에 후속하는 의존성 인스트럭션을 식별하는 컴퓨터 프로그램 코드와,

상기 의존성 인스트럭션을 이전의 파이프라인 스테이지에 제공함으로써 상기 의존성 인스트럭션을 재사용하는 컴퓨터 프로그램 코드와,

디스패치에서 상기 의존성 인스트럭션을 지연시키는 컴퓨터 프로그램 코드와,

상기 제 1 스레드에서 상기 적어도 하나의 장시간 지연 인스트럭션의 완료를 검출하는 컴퓨터 프로그램 코드와,

상기 적어도 하나의 장시간 지연 인스트럭션이 실행되는 동안에 교번 스레드가 하나 이상의 인스트럭션을 발행하게 하는 컴퓨터 프로그램 코드

를 포함하는 컴퓨터 프로그램 제품.