KR101295569B1

KR101295569B1 - 쓰레드 당 다중의 동시적 파이프라인을 갖는 멀티쓰레드 프로세서

Info

Publication number: KR101295569B1
Application number: KR1020127022422A
Authority: KR
Inventors: 에르뎀 호케넥; 마얀 모우드길; 마이클 제이. 슐테; 씨. 존 글로스너
Original assignee: 아스펜 액퀴지션 코포레이션
Priority date: 2004-04-07
Filing date: 2005-04-07
Publication date: 2013-08-12
Also published as: US8918627B2; US8762688B2; US20060095729A1; EP2339455A2; KR101236396B1; KR101303119B1; WO2005101221A1; US8892849B2; US8074051B2; US20100199075A1; US20100122068A1; KR20070011434A; KR20120114380A; EP2339456A3; EP2339456A2; KR20120115553A; US20120096243A1; EP1741033A4; KR101253549B1; EP2339457A3

Abstract

멀티쓰레드 프로세서는 다수의 하드웨어 쓰레드 유니트, 수신된 명령들을 디코딩하도록 쓰레드 유니트에 결합되는 명령 디코더, 및 디코딩된 명령들을 실행하는 다수의 실행 유니트를 포함한다. 멀티쓰레드 프로세서는 하드웨어 쓰레드 유니트들 각각의 하나와 관련된 쓰레드들에 대한 명령 발행 시퀀스를 제어하도록 구성된다. 주어진 프로세서 클록 주기에 따라, 쓰레드들 중 지정된 하나의 쓰레드만이 하나 이상의 명령을 발행하도록 허용되나, 지정된 쓰레드는 명령 발행 시퀀스에 따라 다수의 클록 주기에 대해 가변하는 명령을 발행하도록 허용된다. 명령은 쓰레드들 중 적어도 선택된 하나의 쓰레드가 다중의 동시적 명령 파이프라인을 지원하도록 허용하는 방식으로 파이프라이닝된다.

Description

쓰레드 당 다중의 동시적 파이프라인을 갖는 멀티쓰레드 프로세서{MULTITHREADED PROCESSOR WITH MULTIPLE CONCURRENT PIPELINES PER THREAD}

본 출원은 2004년 4월 7일자로 "Processor Pipeline with Multithreaded Support"란 명칭으로 출원된 미국 가출원번호 No. 60/560,199호의 우선권을 청구하며, 상기 문헌은 본 명세서에서 참조된다.

또한 본 출원은 2004년 5월 7일자로 "Processor Reduction Unit for Accumulation of Multiple Operands With or Without Saturation"이란 명칭으로 출원된 미국 특허 출원번호 No. 10/841,261호에 관한 것으로, 상기 문헌은 본 명세세서에서 참조된다.

본 발명은 디지털 데이터 프로세서 분야에 관한 것으로, 특히 디지털 신호 프로세서(DSP) 또는 다른 형태의 디지털 데이터 프로세서에서 이용되는 멀티쓰레딩(multithreading) 및 파이프라이닝(pipelining) 기술에 관한 것이다.

파이프라이닝은 공지된 프로세서 구현 기술로, 실행시 다중 명령들이 오버랩된다. 종래의 파이프라이닝 기술은 예를 들어, 존 엘. 헨네시 및 다비드 에이. 패터슨의 "Computer Architecture: A Quantitative Approach"(Third Edition, Morgan Kaufmann Publishers, Inc. San Francisco, CA, 2003)에 개시되어 있다.

도 1a는 임의의 오버랩 없이 2개의 명령의 실행을 수반하는 예를 나타낸다. 상기 예에서, 2개의 명령은 정수 덧셈 명령(addi r0, r2, 8) 및 정수 곱셈 명령(muli r8, r3, 4)이다. 제 1 명령(addi)은 레지스터 r2 및 즉치값(immediate value) 8의 콘텐츠 덧셈을 수행하고 상기 결과를 레지스터 r0에 저장한다. 간단성 및 명료성을 위해 명령들 각각은 페치(fetch)(IF), 판독(RD), 실행(EX) 및 라이트백(write back)(WB)의 명령으로 표시된 동일한 4개의 파이프라인 스테이지를 포함한다고 가정한다.

제 1 스테이지(IF)에서 명령들이 메모리로부터 페치되고 디코딩된다. 제 2 스테이지(RD)에서, 피연산자(operand)가 레지스터 파일로부터 판독된다. 제 3 스테이지(EX)에서, 덧셈이 수행된다. 마지막으로, 제 4 스테이지(WB)에서, 상기 결과가 로케이션 r0에서 레지스터 파일로 라이트백된다. addi 명령이 완료되면, 다음 명령(muli)이 시작된다. muli 명령은 레지스터 r3 및 즉치값 4의 콘텐츠 덧셈을 수행하고, 상기 결과를 레지스터 r8에 저장한다.

도 1b는 동일한 2개의 명령들이 종래의 파이프라이닝 기술을 이용하여 어떻게 오버랩되는지를 나타낸다. 일반적으로 각각의 파이프라인 스테이지(IF, RD, EX 및 WB)는 클록 바운더리(clock boundary) 상에서 수행된다. 제 2 명령(muli)은 추가의 하드웨어를 요구하지 않고 제 2 클록 주기에서 시작될 수 있다. IF, RD, EX 및 WB 스테이지와 관련된 하드웨어는 2개의 명령 사이에서 공유되지만, 하나의 명령의 스테이지는 다른 스테이지의 명령과 관련하여 시간에 따라 이동한다.

도 2는 파이프라인 실시에서 야기될 수 있는 복잡성을 나타낸다. 본 실시예에서, muli 명령은 레지스터 r0의 콘텐츠를 피연산자로서 요구하여, addi 명령이 계산되고 덧셈 연산의 결과가 r0에 라이트백될 때까지 r0를 판독할 수 없다. muli 명령의 프로세싱은 addi 명령의 시작에 이어 다음 클록 주기에서 시작될 수 있지만, 이러한 프로세스는 addi 명령의 실행 및 라이트백 스테이지들이 완료되도록 지연 및 대기되어야 한다. muli 명령의 공(empty) 주기는 피연산자가 이용가능해지도록 대기되어야 하며, 이는 통상적으로 파이프라인에서 "버블(bubbles)"이라 칭한다.

단일-쓰레드(single-threaded) 프로세서에서, 파이프라인 버블을 감소시키는 지시(command) 방법은 바이패싱(bypassing)으로 공지되어 있으며, WB 스테이지에서 레지스터 파일로 계산된 값을 라이트백하는 대신, 상기 결과는 상기 결과를 필요로 하는 프로세스 실행 유니트로 직접 전송한다. 이는 깊게 파이프라이닝된 머신에서 버블을 감소시키기는 하지만 제거하지는 않는다. 또한, 이는 디펜던시 검사(dependency checking) 및 바이패스 하드웨어가 요구되며, 이는 과도한 프로세서 비용 및 복잡성을 증가시킨다.

또한, 멀티쓰레딩의 사용을 통해 파이프라인 지연을 감소시킬 수 있다. 멀티쓰레드 프로세서는 다중의 불연속 명령 시퀀스 또는 "쓰레드(thread)"의 동시적 실행을 지원하는 프로세서이다. 종래의 쓰레딩 기술은 예를 들어, 엠.제이 플라인의 "Computer Architecture:Pipelined and Parallel Processor Design"(Jones and Bartlett Publishers, Boston, MA, 1995) 및 지.에이. 블라우 및 프레데릭 피. 브룩스의 "Computer Architecture:Concepts and Evolution"(Addison-Wesley, Reading, Massachusetts, 1997)에 개시되어 있으며, 상기 문헌들은 본 명세서에서 참조된다.

그러나 일반적으로 이들 및 다른 종래의 방안들은 쓰레드 당 다중의 동시적 파이프라인 또는 이들이 파이프라인 이동을 지원하는 것을 허용하지 않는다.

따라서, 멀티쓰레드 디지털 데이터 프로세서에 개선된 파이프라이닝을 제공할 수 있는 기술이 요구된다.

예시적 실시예에서 본 발명은 바람직하게 쓰레드 당 다중의 동시적 파이프라인을 허용하고 파이프라인 이동을 지원하는 멀티쓰레드 프로세서를 제공한다.

본 발명의 일 면에 따라, 멀티쓰레드 프로세서는 다수의 하드웨어 쓰레드 유니트, 수신된 명령들을 디코딩하도록 쓰레드 유니트에 결합된 명령 디코더, 및 디코딩된 명령들을 수행하는 다수의 실행 유니트를 포함한다. 멀티쓰레드 프로세서는 하드웨어 쓰레드 유니트들 각각의 하나와 관련된 쓰레드들에 대한 명령 발행 시퀀스를 제어하도록 구성된다. 주어진 프로세서 클록 주기에서, 단지 지정된 쓰레드들 중 하나가 하나 이상의 명령을 발행하도록 허용되나, 명령을 발행하도록 허용된 지정된 쓰레드는 명령 발행 시퀀스에 따라 다수의 클록 주기에서 가변한다. 다중의 동시적 명령 파이프라인들을 지원하도록 선택된 쓰레드들 중 적어도 하나를 허용하는 방식으로 명령이 파이프라이닝된다.

도시된 실시예에서, 명령 발행 시퀀스는 토큰 트리거(token triggered) 쓰레딩 방안을 이용하여 결정된다. 보다 상세하게, 프로세서가 N개의 쓰레드들을 지원하는 구조에서, N개의 연속적인 프로세서 클록 주기 시퀀스에 대해 N개의 쓰레드들 각각은 N개의 연속적 프로세서 클록 주기들 중 대응하는 하나에만 명령을 발행하도록 허용된다.

도시된 실시예는 쓰레드들 각각이 프로세서 클록 주기들 중 해당하는 하나에 3개의 명령을 발행하도록 허용한다. 적어도 5개의 개별 명령 파이프라인들이 쓰레드들 중 상이한 하나에 대해 연속적으로 실행될 수 있도록, 명령이 파이프라이닝된다.

도시된 실시예에서 파이프라이닝된 명령들은 로드(load)/스토어(store) 명령, 산술(arithmetic) 로직 유니트 명령, 정수 곱셈 명령, 벡터 곱셈 명령, 및 벡터 곱셈 명령 및 차감 명령을 포함한다.

본 발명의 또 다른 면에 따라, 벡터 곱셈 및 차감 명령은 프로세서 쓰레드의 전체 개수보다 큰 수의 스테이지를 사용하여 파이프라이닝된다. 예를 들어, 벡터 곱셈 및 차감 명령은, 명령 디코드 스테이지를 포함하여 적어도 11개의 스테이지, 벡터 레지스터 파일 판독 스테이지, 적어도 2개의 곱셈 스테이지, 적어도 2개의 덧셈 스테이지, 누산기 판독 스테이지, 다수의 감소 스테이지, 및 누산기 라이트백 스테이지를 포함할 수 있다. 누산기 판독 스테이지는 덧셈 스테이지와 같은 다른 스테이지와 조합될 수 있다. 각각의 벡터 곱셈 및 차감 명령에 대한 파이프라인은 다수의 파이프라인 스테이지에 의해 서로에 대해 이동할 수 있다.

예시적 실시예의 본 발명은 종래의 기술을 능가하는 상당한 장점을 제공한다. 예를 들어, 종래의 방안을 사용하여 달성할 수 있는 것보다 높은 고도의 동시성이 제공된다. 또한, 디펜던시 검사 및 바이패스 하드웨어의 요구가 소거되며, 이는 계산 결과가 동일한 쓰레드로부터 다음 명령에 의해 이들이 요구되기 이전에 적절한 레지스터 파일로 라이트백되는 것이 보증되기 때문이다. 또한, 상기 기술은 프로세서 전력 소모 제한을 보조한다.

도 1a 및 도 1b는 종래의 방식을 이용한 명령 수행의 예를 나타내는 도면,
도 2는 종래의 프로세서 파이프라인에서 지연이 발생될 수 있는 방법을 나타내는 도면,
도 3은 본 발명의 실시예에서 멀티쓰레드 파이프라인 프로세서의 파이프라인의 예를 나타내는 도면,
도 4는 본 발명이 실시될 수 있는 멀티쓰레드 프로세서의 예를 나타내는 도면,
도 5는 본 발명의 실시예에서 이용될 수 있는 예시적인 토큰 트리거 멀티쓰레딩 방안을 나타내는 도면,
도 6은 본 발명의 실시예의 예시적 파이프라인의 수를 나타내는 도면,
도 7은 본 발명의 일 실시예에 따라, 발행 주기 보다 긴 계산 주기를 허용하도록 파이프라인들이 이동할 수 있는 방법을 나타내는 도면,

본 발명은 예시적인 멀티쓰레드 프로세서의 콘텐츠로 설명된다. 그러나 본 발명은 도시된 특정한 구조를 요구하는 것이 아니며 다른 형태의 디지털 데이터 프로세서 및 관련된 프로세싱 회로를 이용하여 실시될 수 있다.

본 명세서에서 개시되는 주어진 프로세서는 하나 이상의 집적회로 형태로 구현될 수 있다.

예시적인 실시예의 본 발명은 멀티쓰레드 프로세서에서 이용하기에 적합한 파이프라이닝 기술을 제공한다. 이 기술로, 다중 쓰레드로부터의 다중 명령들이 효과적인 방식으로 동시적으로 수행될 수 있다. 하기에 보다 상세히 설명되는 바와 같이, 예시적 실시예는 가변 길이 실행 파이프라인, 스태거형(staggered) 실행, 및 회전형 개시 실행을 이용하여, 저전력 동작을 유지하면서 동시적 실행을 제공한다. 예시적 실시예는 종래의 방식을 사용하여 달성될 수 있는 것보다 높은 정도의 동시성(concurrency)을 제공한다.

도 3은 파이프라이닝 실행을 통해 도입되는 "버블들"을 제거하는 멀티쓰레드 파이프라인의 예를 나타낸다. 본 명세서의 이전 실시예에서 처럼, 본 실시예에 대한 설명의 간단성 및 명료성을 위해, 발행된 명령들 각각은 IF, RD, EX 및 WB의 4개의 동일한 파이프라인 스테이지를 포함한다고 가정한다. 또한, 3개의 쓰레드, 및 3개의 하드웨어 쓰레드 유니트 또는 순차적인 방식으로 "콘텍스트(contexts)" 발행 명령이 있다고 가정한다. 멀티쓰레드 프로세서의 통상적인 구현에 있어, 일반적으로 제시된 쓰레드는 하드웨어 및 소프트웨어와 관련하여 관찰될 수 있다. 선택된 쓰레드와 관련된 특정 프로세서 하드웨어는 본 명세서에서 하드웨어 쓰레드 유니트 또는 간단히 "콘텍스트"로서 특정하게 간주된다.

본 실시예에서, 정수 덧셈 명령(addi r0, r2, 8)은 제 1 클록 주기에 대한 콘텍스트들 중 제 1 콘텍스트에 의해 초기에 발행된다. 다른 두 개의 콘텍스트들은 각각의 순차적 클록 주기에 대한 명령을 발행한다. 명령을 발행하기 위해 각각의 콘텍스트에 대해 전체 3개의 클록 주기가 소요된다. 제 4 클록 주기에서, 제 1 콘텍스트는 또 다른 명령, 즉, 정수 곱셈 명령(muli r8, r0, 4)을 발행한다.

특히, 주기 1에서, 쓰레드 1의 IF 스테이지는 addi 명령을 수행한다. 주기 2에서, 쓰레드 2의 IF 스테이지가 실행되면서 동시에 쓰레드 1의 RD 스테이지가 실행된다. 주기 3에서, 쓰레드 3의 IF 스테이지가 실행되고, 쓰레드 2의 RD 스테이지가 실행되고, 쓰레드 1의 EX 스테이지가 실행된다. 주기 4에서, muli 명령의 쓰레드 1의 IF 스테이지는 addi 명령의 WB 스테이지와 동시적으로 실행된다. 동시적으로, 쓰레드 2의 EX 스테이지가 실행되고 쓰레드 3의 RD 스테이지가 실행된다.

본 실시예에서 알 수 있듯이, 동일 및 상이한 쓰레드들로부터의 다중 명령들이 오버랩되고 동시적으로 수행된다. 또한, addi 명령의 결과가 muli 명령에 의해 요구되더라도 파이프라인에서는 버블이 형성되지 않는다. 도 3의 예는 적절하게 구성된 파이프라인 및 충분한 개수의 쓰레드들을 이용함으로써, 주기 당 콘텍스트 당 단일의 명령만이 발행되더라도 모든 하드웨어 콘텍스트들이 동시적으로 실행될 수 있다는 것을 나타낸다. 특정 개수의 쓰레드들 및 파이프라인 스테이지는 단지 도시를 위한 것으로, 바람직한 구현을 반영하는 것은 아니다. 당업자들은 본 명세서에 제공되는 설명으로 특정 분야에 대한 적절한 개수의 쓰레드들 및 파이프라인 스테이지를 쉽게 결정할 수 있을 것이다.

앞서 개시된 바와 같이, 본 발명은 멀티쓰레드 프로세서에서 바람직하게 구현될 수 있다. 본 발명이 구현될 수 있는 보다 특정한 멀티쓰레드 프로세서의 예는 공동으로 양도되었으며 2002년 10월 11일자로 "Multithreaded Processor With Efficient Processing For Convergence Device Application"란 명칭으로 출원된 미국 특허 출원 번호 No. 10/269,372호에 개시되었으며, 이는 본 명세서에서 참조된다. 이러한 멀티쓰레드 프로세서는 RISC-기반 제어 코드, DSP 코드, 자바 코드 및 네트워크 프로세싱 코드를 실행하도록 구성될 수 있다. 이는 단일 명령 다중 데이터(SIMD) 벡터 프로세싱 유니트, 차감(reduction) 유니트, 및 긴 명령어(LIW) 합성 명령 실행을 포함한다. 본 실시예의 멀티쓰레드 프로세서를 이용하기에 적합한 쓰레딩 및 파이프라이닝 기술의 예는 공동 양도되었으며 2002년 10월 11일자로 "Method and Apparatus for Token Triggered Multithreading"이란 명칭으로 출원된 미국 특허 출원 No. 10/269,245호에 개시되었으며, 상기 문헌은 본 명세서에서 참조된다.

본 발명은 또다른 멀티쓰레드 프로세스, 또는 일반적인 다른 형태의 디지털 데이터 프로세서에서 실행될 수 있다. 이러한 또 다른 프로세서는 도 4를 참조로 개시된다.

도 4는 차감 유니트(402) 및 누산기 레지스터 파일(406)이 통합되는 멀티쓰레드 프로세서(400)의 예를 나타낸다. 일반적으로 프로세서(400)는 미국 특허 출원 번호 No. 10/269,372호에 개시된 것과 유사하나, 상기 언급된 미국 특허 출원 번호 No. 10/841,261호에 개시된 것처럼 구성된 차감 유니트(402) 및 누산기 레지스터 파일(406)이 통합된다.

멀티쓰레드 프로세서(400)는 다른 엘리먼트들 중에서도, 멀티쓰레드 캐쉬 메모리(410), 멀티쓰레드 데이터 메모리(412), 명령 버퍼(414), 명령 디코더(416), 레지스터 파일(418), 및 메모리 관리 유니트(MMU)(420)를 포함한다. 멀티쓰레드 캐쉬(410)는 다수의 쓰레드 캐쉬(410-1, 410-2,...,410-N)를 포함하며, 여기서 N은 일반적으로 멀티쓰레드 프로세서(400)에 의해 지원되는 쓰레드의 개수를 나타내며, 특정 실시예에서 N=4로 주어진다. 물론, 당업자들이 쉽게 이용할 수 있는 다른 값의 N이 사용될 수 있다.

따라서 각각의 쓰레드는 멀티쓰레드 캐쉬(410)에서 그와 관련되는 해당 쓰레드 캐쉬를 포함한다. 유사하게, 데이터 메모리(412)는 도시된 바와 같이 데이터 메모리(412-1, 412-2,...,412-N)로 표시되는 N개의 불연속 데이터 메모리를 포함한다.

멀티쓰레드 캐쉬(410)는 MMU(420)를 통해 프로세서(400) 외부의 메인 메모리(미도시)와 접속된다. 캐쉬(410)와 같은 MMU(420)는 프로세서에 의해 지원되는 N개의 쓰레드들 각각에 대한 개별 인스턴스(separate instance)를 포함한다. MMU(420)는 메인 메모리로부터의 적절한 명령이 멀티쓰레드 캐쉬(410)로 로드되게 한다.

통상적으로 데이터 메모리(412)는 상기 언급된 외부 메인 메모리와 직접 접속되지만, 이러한 접속이 도면에는 명확히 도시하지 않는다. 또한, 데이터 버퍼(430)가 데이터 메모리(412)와 관련된다.

일반적으로, 멀티쓰레드 캐쉬(410)는 멀티쓰레드 프로세서(400)에 의해 실행되는 명령들을 저장하는데 이용되는 반면, 데이터 메모리(412)는 상기 명령들에 의해 연산되는 데이터를 저장한다. 명령들은 명령 디코더(416)에 의해 멀티쓰레드 캐쉬(410)로부터 페치되고 디코딩된다. 명령 형태에 따라, 명령 디코더(416)는, 하기에 개시되는 바와 같이, 프로세서 내의 다양한 다른 유니트들로 선택된 명령 또는 관련된 정보를 전송할 수 있다.

프로세서(400)는 분기 명령 큐(IQ)(440) 및 프로그램 카운터(PC) 레지스터(442)를 포함한다. 프로그램 카운터 레지스터(442)는 각각의 쓰레드에 대해 한개의 인스턴스를 포함한다. 분기 명령 큐(440)는 명령 디코더(416)로부터 명령들을 수신하고 프로그램 카운터 레지스터(442)와 관련하여 예시적으로 캐리어-전파 가산기(CPA)를 포함하는 가산기 블럭(444)에 입력된다. 엘리먼트들(440, 442, 444)은 총괄적으로 프로세서(400)의 분기 유니트를 포함한다. 도면에는 도시되지 않았지만, 프로세서(400)에 보조 레지스터들이 포함될 수도 있다.

레지스터 파일(418)은 정수 결과의 일시적 저장을 제공한다. 명령 디코더(416)로부터 정수 명령 큐(IQ)(450)로 전송된 명령들은 디코딩되고 적절한 하드웨어 쓰레드 유니트는 각각의 쓰레드에 대한 개별 인스턴스를 포함하는 것으로 도시된 오프셋 유니트(452)의 사용을 통해 선택된다. 오프셋 유니트(452)는 독립적인 쓰레드 데이터가 손상되지 않도록 레지스터 파일 어드레스로 명시적(explicit) 비트를 삽입한다. 선택된 쓰레드에 대해, 이들 명시적 비트는 예를 들어, 해당 쓰레드 식별자를 포함할 수 있다.

도면에 도시된 것처럼, 레지스터 파일(418)은 입력 레지스터(RA, RB)에 결합되고, 출력들은 가산기를 포함할 수 있는 산술 로직 유니트(ALU) 블록(454)에 결합된다. 입력 레지스터(RA, RB)는 구현 명령 파이프라이닝에 이용된다. ALU 블록(454)의 출력은 데이터 메모리(412)에 결합된다.

레지스터 파일(418), 정수 명령 큐(450), 오프셋 유니트(452), 엘리먼트들(RA, RB) 및 ALU 블록(454)은 총체적으로 예시적 정수 유니트를 포함한다.

프로세서(400)에서 실행가능한 형태의 명령은 분기, 로드, 스토어, 정수 및 벡터/SIM 명령 형태를 포함한다. 선택된 명령이 분기, 로드, 스토어 또는 정수 연산으로 특정화되지 않는다면, 이는 벡터/SIMD 명령이다. 다른 형태의 명령이 선택적으로 사용될 수도 있다. 정수 및 벡터/SIMD 명령 형태는 본 명세서에서 각각 정수 및 벡터 명령 형태로서 간주되는 것들의 일례이다.

벡터 IQ(456)는 명령 디코더(416)로부터 전송된 벡터/SIMD 명령을 수신한다. 각각의 쓰레드에 대한 개별 인스턴스를 포함하는 것으로 도시된 해당 오프셋 유니트(458)는 독립적 쓰레드 데이터가 손상되지 않도록 적절한 비트를 삽입하는 역할을 한다.

프로세서(400)의 벡터 유니트(460)는 N개의 개별적 평행부들로 분리되며, 유사하게 분할된 벡터 파일(462)을 포함한다. 벡터 파일(462)은 VROO에서 VR31로 표시된 32개의 레지스터를 포함한다. 벡터 파일(462)은 앞서 벡터/SIMD 명령 형태로 연산되는 것을 제외하고 레지스터 파일(418)로서 실질적으로 동일한 목적을 수행한다.

벡터 유니트(460)는 예시적으로 벡터 명령 큐(456), 오프셋 유니트(458), 벡터 파일(462), 및 이와 관련된 산술 및 스토어 엘리먼트들을 포함한다.

벡터 유니트(460)의 연산은 다음과 같다. 소수(fractional) 또는 정수 데이터 형태중 하나로 인코드되는 벡터/SIMD 블럭이 벡터 파일(462)로부터 판독되어 구조적으로(architecturally) 가시적인 레지스터(VRA, VRB, VRC)에 저장된다. 이로인해, 벡터/SIMD 데이터의 병렬적인 동시적 곱셈을 수행하는 곱셈기 (multiplier, MPY)를 통해 흐름이 처리된다. 캐리 스킵 가산기(carry skip adder, CSA) 및 CSA들을 포함하는 가산기 유니트가 추가적 산술 연산을 수행할 수 있다. 예를 들어, 당업자들에게 공지된 바와 같이, CSA들 중 하나 이상은 벡터 레지스터 파일로부터의 누적값에 가산되는데 사용되며, CPA들 중 하나 이상은 곱셈 연산의 완료를 위해 최종 가산을 수행하는데 이용된다. 계산 결과는 결과 레지스터(464)에 저장되며, 입력 피연산자로서 차감 유니트(402)에 제공된다. 차감 유니트(402)는 처리된 덧셈 결과가 각각의 연산이 연속적으로 실행될 경우 얻어질 수 있는 것과 동일한 방식으로 입력 피연산자를 합산한다. 차감된 합이 추가의 프로세싱을 위해 누산기 레지스터 파일(406)에 저장된다.

벡터 점 곱(vector dot product)을 수행하는 동안, MPY 블럭은 병렬로 4 곱셈을 수행하며, CSA 및 CPA 유니트는 추가 연산을 수행하거나 또는 결과 레지스터(464)의 저장기에 곱셈 결과를 단순히 통과하며, 차감 유니트(402)는 누산기 레지스터 파일(406)에 저장된 누적값과 함께 곱셈 결과를 합산한다. 차감 유니트에 의해 생성된 결과는 다음 반복(iteration)에 사용되도록 누산기 레지스터 파일에 저장된다.

본 실시예에서 누산기 레지스터 파일(406)은 ACC00 내지 ACC15로 표시된 전체 16개의 누산기 레지스터를 포함한다.

멀티쓰레드 프로세서(400)는 공동으로 양도되었으며 2002년 10월 11일자로 "Method and Apparatus for register File Port Reduction in Multithreaded Processor"란 명칭으로 출원된 미국 특허 출원 번호 10/269,373호의 쓰레드-기반 액세스를 위한 기술에 이용될 수 있으며, 상기 문헌은 본 명세서에서 참조된다.

멀티쓰레드 프로세서(400)는 상기 미국 특허 출원 번호 10/841,261호에 개시된 것처럼 벡터 점 곱 및 다른 형태의 병렬 벡터 곱 및 차감 연산 수행시 바람직하게 이용된다.

본 발명의 예시적 실시예는 토큰 트리거 쓰레딩으로 공지된 방식을 이용한다. 토큰 트리거 쓰레딩은 상기 미국 특허 출원 번호 10/269,245호로, 지금은 등록된 미국 특허 No. 6,842,848호에 개시된다. 통상적으로 토큰 트리거 쓰레딩은 멀티쓰레드 프로세서의 다수의 쓰레드들 각각에 상이한 토큰들을 할당한다. 예를 들어, 토큰 트리거 쓰레딩은 순차적 클록 주기에 대한 명령을 발행하도록 허용되는 프로세서 쓰레드 중 특정한 하나를 전류 클록 주기와 관련하여 식별하는데 토큰을 이용할 수 있다.

도 5는 쓰레드 수인 N이 8개인 멀티쓰레드 프로세서의 구현을 위한 토큰 트리거 쓰레딩의 예를 나타낸다. 일반적으로 모든 쓰레드는 동시적으로 연산되며, 쓰레드 캐쉬(110) 및 데이터 메모리(112)의 해당 인스턴스를 각각 액세스한다. 도 5에 도시된 것처럼, 8개의 쓰레드는 쓰레드 0, 쓰레드 1, 쓰레드 2, ..., 쓰레드 7로 표시되며, 링 형태로 일련 상호접속되는 것으로 도시된다.

도 5에 도시된 토큰 트리거 쓰레딩에 따라, 모든 하드웨어 쓰레드 유니트들 또는 콘텍스트들은 동시적으로 명령들을 수행하도록 허용되나, 단지 하나의 콘텍스트만이 프로세서의 특정 클록 주기에서 명령을 발행할 수 있다. 다른 말로, 모든 콘텍스트는 동시적으로 실행되나 단지 하나의 콘텍스트만이 특정 클록에서 활성화된다. 따라서, 전체 C 콘텍스트가 제공되는 경우, 모든 콘텍스트로부터 명령이 발행되도록 C 클록 주기가 요구된다. 콘텍스트들 중 하나의 각각의 클록 주기는 명령을 발행하고, 명령을 발행하는 다음 쓰레드는 토큰으로 표시된다.

도 5의 실시예에서, 토큰은 순차적으로 또는 라운드-로빈(round-robin) 방식으로 배열되어 콘텍스트들이 명령을 순차적으로 발행한다. 그러나 명령을 발행하도록 다음 콘텍스트를 표시하는 토큰은 교번식 짝수-홀수 패턴과 같이, 다른 패턴을 이용하여 배열될 수 있다. 또한, 앞서 언급된 바와 같이, 다른 형태의 쓰레딩이 본 발명과 관련하여 이용될 수 있다.

토큰 트리거 쓰레딩이 예시적 실시예에서 사용되었지만, 본 발명은 이런 특정한 형태의 멀티쓰레딩을 요구하지 않으며, 다른 형태의 멀티쓰레딩 기술이 이용될 수 있다.

도 6은 본 발명에 따른 멀티쓰레드 프로세서(400)에서 예시적인 명령 함수가 파이프라이닝되는 방식을 나타낸다. 본 발명의 예시적 실시예에서, 이러한 형태의 파이프라이닝은 앞서 개시된 토큰 트리거 쓰레딩과 관련하여 바람직하게 이용되나, 파이프라이닝 및 쓰레딩의 다양한 다른 조합도 본 발명을 구현하는데 이용될 수 있다.

도면은 로드/스토어(Ld/St), 산술 로직 유니트(ALU), 정수 곱셈(I_Mul), 벡터 곱셈(V_Mul), 및 벡터 곱셈 및 차감(V_Mul Reduce) 명령들에 대한 예시적인 파이프라인을 나타낸다. 이러한 구현에서, 3개에 이르는 파이프라인이 동시에 개시되어 모두 5개가 다양한 상태(phases)로 동시적으로 수행될 수 있다.

Ld/St 파이프라인은 스테이지 0 내지 스테이지 8로 표시된 9개의 스테이지를 포함한다. 제 1 스테이지인 스테이지 0(Inst Dec)에서 명령이 페치되고 디코딩된다. 상기 스테이지는 모두 5개의 파이프라인과 공통되며 큐 명령이 루팅될 것을 결정한다. 스테이지 1(RF Read)에서, 레지스터 파일 피연산자가 판독된다. 이는 로드 또는 스토어 연산에 대한 기본 어드레스를 형성한다. 스토어 명령의 경우, 저장될 데이터가 판독된다. 스테이지 2(Agen)에서, 임의의 즉치값이 어드레스에 부가되어 전체 어드레스가 생성된다. 스테이지 3(Xfer)에서, 계산된 어드레스는 메모리 서브시스템으로 전송된다. 스테이지 4(Int/Ext)에서는 메모리 어드레스가 내부 메모리 또는 외부 메모리에 대한 것인지 여부에 대한 결정이 이루어진다. 스테이지 5-7(Mem0, Mem1, Mem2)에서, 상기 값은 메모리로부터 판독되거나 또는 메모리에 기록된다. 스테이지 8(WB)에서, 로드 명령에 대한 메모리로부터의 판독되는 값은 레지스터 파일에 기록된다.

ALU 파이프라인은 스테이지 0 내지 스테이지 6으로 표시된 7개의 스테이지를 갖는다. Ld/St 파이프라인에서 처럼, 제 1 스테이지인 스테이지 0(Inst Dec)는 모든 명령을 페치하고 디코딩된다. 스테이지 1(Wait)에서, 대기 주기가 삽입된다. 이는 Ld/St 및 ALU 하드웨어가 동일한 레지스터 파일 판독 포트를 공유하도록 할 수 있다. 다음 스테이지인 스테이지 2(RF Read)에서, 산술 함수에 대한 피연산자가 레지스터 파일로부터 판독된다. 다음 스테이지 3 및 4(Exec 1, Exec 2)는 산술 결과(예를 들어, 가산, 비교, 이동 등)를 계산한다. 스테이지 5(Xfer)에서, 상기 결과는 레지스터 파일로 전송된다. 스테이지 6(WB)에서, 상기 결과는 레지스터 파일로 라이트백된다.

I_Mul 파이프라인은 이들이 공통의 구조적(architected) 리소스가 공유됨에 따라, ALU 파이프라인과 유사하다. 도면은 파이프라인 스테이지가 I_Mul 파이프라인의 부가적인 실행 스테이지(Exec 3)를 제외하고 동일한 것을 나타낸다. 따라서, 부가 주기는 결과의 곱셈 계산에 이용될 수 있다.

V_Mul 파이프라인은 앞서 개시된 ALU 및 I_Mul 파이프라인들과 상이한 산술 리소스를 이용한다. 따라서, 리소스 충돌없이 이들 명령이 동시적으로 수행될 수 있다. 스테이지 0(Inst Dec)은 모든 명령을 따르며 교정 파이프라인으로 디코딩된 명령의 루팅이 이루어지게 한다. 스테이지 1(VRF Read)에서 펙터 레지스터 파일 피연산자가 판독된다. 스테이지 2-5(MPY1, MPY2, Add1, Add2)는 멀티-엘리먼트 벡터 산술을 수행한다. 2개의 가산 스테이지는 캐리-세이브(carry-save) 포맷으로부터의 곱셈 결과들을 2개의 보수 포맷(complement)으로 전환하도록 제공된다. 부가적으로, 벡터만이 단순 연산을 요구하는 경우, 이는 가산 스테이지에서 수행될 수 있다. 스테이지 6(Xfer)에서, 상기 결과들은 벡터 레지스터 파일로 재전송되고, 스테이지 7(WB)에서, 상기 결과들이 라이트백된다.

V_Mul 차감 파이프라인은 추가 차감 연산이 수행된다는 것을 제외하고 V_Mul 파이프라인과 유사하다. 차감은 누산기 피연산자와 함께 4 벡터 엘리먼트 곱을 수행하여 이들이 단일 스칼라 엘리먼트로 차감된다. 통상적으로 이는 누산기로부터의 모든 곱의 차감 또는 누산기로의 모든 곱 가산을 수반하지만, 다른 조합도 가능하다. V_Mul 및 V_Mul 차감 파이프라인은 스테이지 5까지 동일하다. 스테이지 5(Add2, ACC, Read)에서, 추가 아키텍쳐 누산기 레지스터 파일이 판독된다. 이 값은 벡터 엘리먼트들과 산술적으로 조합되며 단일 스칼라로 차감된다. 4 스테이지(Reduce 1, Reduce 2, Reduce 3, Reduce 4)는 이러한 차감을 거쳐 스카라 값이 스테이지 10(ACC WB)의 누산기 레지스터 파일(즉, 벡터 레지스터 파일로부터의 상이한 아키텍쳐 공간)로 다시 라이트백된다.

단일 쓰레드가 도 2의 각각의 주기에 대해 명령을 발행하면, 파이프라인에 버블들이 도입된다. 그러나 도 3에 도시된 간략화된 경우에서 처럼, 단지 하나의 형태의 파이프라인이 존재하면, 예시적인 실시예에서, 버블을 방지하도록 모두 5개의 파이프라인이 삽입되고 멀티쓰레딩된다. 각각의 하드웨어 쓰레드 유니트는 도 5에 도시된 토큰 트리거 쓰레딩에 따라 3개의 명령을 발행한다. 이는 쓰레드가 지연되지 않게 하고 모든 쓰레드가 교착(deadlock) 되지 않고 완료되게 한다.

앞서 언급한 바와 같이, 이러한 구현에 있어, 모두 5개의 프로세서 파이프라인이 다중의 하드웨어 쓰레드 유니트로부터의 명령에 따라 동시적으로 활성화될 수 있다. 이는 파이프라인의 잠재적 버블들을 다른 쓰레드 유니트로부터의 작업으로 채우게 된다.

V_Mul 차감 파이프라인의 백-투-백(back-to-back) 차감 연산이 버블을 야기시키지 않는 V_Mul 파이프라인으로부터의 위치로 제공된 V_Mul 차감 파이프라인이 이동하게 한다는 것을 주지해야 한다. V_Mul 차감 파이프라인이 다수의 하드웨어 쓰레드 유니트(본 구현예에서는 8개)의 기간 보다 길기 때문에, 이러한 이동은 파이프라인 버블을 유도할 수 있다. 다른 말로, 파이프라인의 계산 주기(V_Mul Reduce)에 대해서는 11개의 클록 주기)는 발행 주기(각각의 쓰레드가 8개의 클록 주기마다 발행됨) 보다 길다. V_Mul 파이프라인 계산으로부터 누산기 레지스터 파일 판독 상태가 이동하기 때문에, 실제로 이러한 현상을 발생하지 않는다.

도 7은 발행 주기 보다 긴 계산 주기가 허용되도록, 서로에 대해 다중의 V_Mul 차감 파이프라인이 이동하는 방식을 나타낸다. 도면은 제 1 V_Mul 차감 명령의 주기 5 로부터 개시된다는 것을 주지하라. 이러한 구현예에 8개의 쓰레드 유니트가 제공되기 때문에, 다음 V_Mul 차감 명령이 주기 8에 발행된다. 도면에 도시된 바와 같이, 누산기 레지스터 파일이 주기 10에서 라이트백된다. 그러나 피연산자는 주기 13까지 제 2 명령에 의해 판독되지 않는다. 제 1 V_Mul 차감 파이프라인으로부터의 위치로 이동됨에 따라 제 2 V_Mul 차감 파이프라인이 고려될 수 있다. 이는 파이프라인에 버블을 야기시키지 않고 실행 상태를 연장시킬 수 있게 한다.

상기 바람직하게 개시된 예시적 실시예는 쓰레드 당 다중의 동시적 파이프라인을 허용하며 깊은 멀티쓰레드 파이프라인에서의 파이프라인 이동을 위해 제공된다. 또한, 디펜던시 검사 및 바이패스 하드웨어의 필요성이 소거되며, 이는 이들이 동일한 쓰레드로부터 다음 명령에 의해 요구되기 이전에 레지스터 파일에 라이트백되는 것이 보증되기 때문이다.

특히 도면에 도시된 프로세서, 멀티쓰레딩, 파이프라이닝 및 이동 구조는 단지 예시적인 것으로, 당업자들은 도시된 것에 제한되지 않고 추가 또는 선택적 엘리먼트들을 구현할 수 있을 것이다.

또한, 본 발명은 도4에 도시된 특정한 멀티쓰레드 프로세서 구성을 필요로하지 않는다는 것을 주목해야 한다. 본 발명은 광범위하고 다양한 다른 멀티쓰레드 프로세서 구성에서도 구현될 수 있다.

상기 개시된 본 발명은 단지 설명을 위해 도시된 것으로, 당업자들은 첨부되는 특허청구범위내의 범주에서 다양한 선택적 실시예들을 구현할 수 있을 것이다. 예를 들어, 도 4에 도시된 하드웨어 쓰레드 유니트, 명령 디코더 및 실행 유니트의 특정한 구성은 다른 실시예로 변형될 수 있으며, 본 발명은 임의의 특정한 형태 및 이러한 형태의 엘리먼트로 제한되지 않는다. 또한, 앞서 주목한 바와 같이, 파이프라이 구성, 쓰레딩 형태 및 명령 포맷은 제시된 분야의 특정 요구조건을 수용하도록 변형될 수 있다.

Claims

멀티쓰레드(multithreaded) 프로세서로서,
각각이 메모리 유니트를 포함하는 다수의 하드웨어 쓰레드 유니트들;
상기 다수의 하드웨어 쓰레드 유니트들에 결합되는 명령 디코더;
상기 명령 디코더에 응답하는 다수의 실행 유니트들;
다수의 제 1 레지스터들을 포함하는 제 1 레지스터 파일 ― 상기 제 1 레지스터 파일은 상기 다수의 실행 유니트들 각각 및 상기 메모리 유니트에 결합되고, 상기 제 1 레지스터 파일은 제 1 프로그램 쓰레드의 프로그램 명령의 실행을 지원하고, 상기 제 1 레지스터 파일은 제 1 데이터 오퍼랜드(operand) 및 제 1 어드레스 오퍼랜드를 포함함 ― ; 및
다수의 제 2 레지스터들을 포함하는 제 2 레지스터 파일 ― 상기 제 2 레지스터 파일은 상기 다수의 실행 유니트들 각각 및 상기 메모리 유니트에 결합되고, 상기 제 2 레지스터 파일은 제 2 프로그램 쓰레드의 프로그램 명령의 실행을 지원하고, 상기 제 2 레지스터 파일은 제 2 데이터 오퍼랜드 및 제 2 어드레스 오퍼랜드를 포함함 ― 을 포함하고,
상기 제 1 레지스터 파일 및 상기 제 2 레지스터 파일은 상기 레지스터 파일 내의 엔트리의 어드레스 및 쓰레드 식별자(identifier)에 기초하여 액세스되는,
멀티쓰레드 프로세서.
제 1 항에 있어서,
상기 멀티쓰레드 프로세서는 VLIW(very long instruction word) 명령들을 디코딩하도록 구성될 수 있는,
멀티쓰레드 프로세서.
제 1 항에 있어서,
상기 멀티쓰레드 프로세서는 슈퍼스칼라(superscalar) 명령들을 실행하도록 구성될 수 있는,
멀티쓰레드 프로세서.
제 1 항에 있어서,
상기 제 1 프로그램 쓰레드 및 상기 제 2 프로그램 쓰레드의 프로그램 명령들은 상기 메모리 내에 저장되는,
멀티쓰레드 프로세서.
제 4 항에 있어서,
상기 다수의 실행 유니트들 중 적어도 하나는,
데이터 로드 명령 실행 유니트이며,
상기 제 1 레지스터 파일 및 상기 제 2 레지스터 파일로부터 데이터를 리트리브(retrieve)하는 인터페이스를 포함하는,
멀티쓰레드 프로세서.
제 1 항에 있어서,
상기 멀티쓰레드 프로세서는 상기 하드웨어 쓰레드 유니트들 중 각각의 유니트들과 관련된 상기 제 1 프로그램 쓰레드 및 상기 제 2 프로그램 쓰레드에 대한 명령 발행 시퀀스를 제어하도록 구성되며,
프로세서 클록 주기(cycle)에 대해, 상기 제 1 프로그램 쓰레드 및 상기 제 2 프로그램 쓰레드 중 하나는 하나 이상의 명령들을 발행하도록 허용되고, 상기 명령들을 발행하도록 허용되는 쓰레드는 상기 명령 발행 시퀀스에 따라 다수의 클록 주기들에 걸쳐 변화하며; 그리고
상기 명령들은 상기 제 1 프로그램 쓰레드 및 상기 제 2 프로그램 쓰레드 중 하나가 다중의 동시적 명령 파이프라인들을 지원하는 것을 허용하도록 파이프라이닝되는,
멀티쓰레드 프로세서.
제 6 항에 있어서,
상기 파이프라이닝된 명령들은,
로드/스토어 명령, 산술 로직 유니트 명령, 정수 곱셈 명령, 벡터 곱셈 명령, 및 벡터 곱셈 및 차감 명령을 포함하는,
멀티쓰레드 프로세서.
제 7 항에 있어서,
상기 산술 로직 유니트 명령은 명령 디코드 스테이지와 그의 레지스터 파일 판독 스테이지 사이에 대기 스테이지를 포함하는 파이프라인을 갖고,
상기 대기 스테이지는 상기 로드/스토어 명령 및 상기 산술 로직 유니트 명령이 레지스터 파일 판독 포트들의 세트를 공유하도록 허용하는,
멀티쓰레드 프로세서.
제 7 항에 있어서,
상기 정수 곱셈 명령은 명령 디코드 스테이지와 그의 레지스터 파일 판독 스테이지 사이에 대기 스테이지를 포함하는 파이프라인을 갖고,
상기 대기 스테이지는 상기 정수 곱셈 명령과 상기 로드/스토어 명령이 레지스터 파일 판독 포트들의 세트를 공유하도록 허용하는,
멀티쓰레드 프로세서.
제 7 항에 있어서,
상기 벡터 곱셈 명령은,
상기 산술 로직 유니트 명령 및 상기 정수 곱셈 명령과는 상이한 실행 유니트 리소스들의 세트를 이용하며, 상기 명령들 중 하나와 동시적으로 실행할 수 있는,
멀티쓰레드 프로세서.
제 7 항에 있어서,
상기 벡터 곱셈 및 차감 명령은,
상기 프로세서의 쓰레드들의 전체 개수를 초과하는 개수의 스테이지들을 이용하여 파이프라이닝되는,
멀티쓰레드 프로세서.
제 6 항에 있어서,
상기 명령 발행 시퀀스는 토큰 트리거 쓰레딩(token triggered threading)을 이용하여 결정되는,
멀티쓰레드 프로세서.
제 7 항에 있어서,
상기 벡터 곱셈 및 차감 명령은,
명령 디코드 스테이지, 벡터 레지스터 파일 판독 스테이지, 적어도 2개의 곱셈 스테이지들, 적어도 2개의 가산 스테이지들, 누산기 판독 스테이지, 다수의 차감 스테이지들 및 누산기 라이트백(writeback) 스테이지를 포함하는,
멀티쓰레드 프로세서.
제 13 항에 있어서,
상기 누산기 판독 스테이지는 상기 가산 스테이지들 중 하나와 조합되는,
멀티쓰레드 프로세서.
제 1 항에 있어서,
제 1 벡터 곱셈 및 차감 명령과 제 2 벡터 곱셈 및 차감 명령에 대한 파이프라인들은,
다수의 파이프라인 스테이지들에 의해 서로에 대해 이동되는,
멀티쓰레드 프로세서.
제 6 항에 있어서,
상기 파이프라이닝된 명령들은,
상기 멀티쓰레드 프로세서의 명령 발행 주기 보다 긴 계산 주기를 갖는 파이프라인을 포함하는 벡터 곱셈 및 차감 명령을 포함하는,
멀티쓰레드 프로세서.
제 1 항에 있어서,
상기 다수의 제 1 레지스터들 및 상기 다수의 제 2 레지스터들 각각은,
상기 제 1 프로그램 쓰레드 및 상기 제 2 프로그램 쓰레드에 의해 액세스가능한,
멀티쓰레드 프로세서.
멀티쓰레드 프로세서를 동작시키는 방법으로서,
멀티쓰레드 명령 캐쉬(cache)로부터 상기 멀티쓰레드 프로세서의 쓰레드에 대한 명령을 페칭(fetching)하는 단계;
상기 명령 캐쉬와 관련된 레지스터 파일을 상기 쓰레드에 대한 쓰레드 식별자를 통해 액세스하는 단계 ― 상기 레지스터 파일은 데이터 오퍼랜드 및 어드레스 오퍼랜드를 포함하고, 상기 레지스터 파일은 상기 레지스터 파일 내의 엔트리의 어드레스 및 쓰레드 식별자에 기초하여 액세스됨 ― ; 및
상기 레지스터 파일로부터 상기 명령과 관련된 오퍼랜드를 리트리브하는 단계를 포함하는,
멀티쓰레드 프로세서를 동작시키는 방법.
제 18 항에 있어서,
실행 유니트 내에서 상기 명령과 관련된 하나 이상의 오퍼랜드들을 이용하여 상기 명령을 실행하는 단계를 더 포함하는,
멀티쓰레드 프로세서를 동작시키는 방법.
제 19 항에 있어서,
상기 실행 유니트에서의 상기 명령의 실행 결과를 상기 명령과 관련된 상기 레지스터 파일에 기록하는 단계를 더 포함하는,
멀티쓰레드 프로세서를 동작시키는 방법.
제 18 항에 있어서,
상기 리트리브된 오퍼랜드는 데이터 오퍼랜드인,
멀티쓰레드 프로세서를 동작시키는 방법.
제 18 항에 있어서,
상기 리트리브된 오퍼랜드는 어드레스 오퍼랜드인,
멀티쓰레드 프로세서를 동작시키는 방법.
멀티쓰레드 프로세서로서,
멀티쓰레드 명령 캐쉬로부터 상기 멀티쓰레드 프로세서의 쓰레드에 대한 명령을 페칭하기 위한 수단;
상기 명령 캐쉬와 관련된 레지스터 파일을 상기 쓰레드에 대한 쓰레드 식별자를 통해 액세스하기 위한 수단 ― 상기 레지스터 파일은 데이터 오퍼랜드 및 어드레스 오퍼랜드를 포함하고, 상기 레지스터 파일은 상기 레지스터 파일 내의 엔트리의 어드레스 및 쓰레드 식별자에 기초하여 액세스됨 ― ; 및
상기 레지스터 파일로부터 제 1 명령과 관련된 오퍼랜드를 리트리브하기 위한 수단을 포함하는,
멀티쓰레드 프로세서.