KR20180021165A

KR20180021165A - 프로세서 명령어 창에 대한 명령어 블록의 대량 할당

Info

Publication number: KR20180021165A
Application number: KR1020187002589A
Authority: KR
Inventors: 더글라스 씨 버거; 아론 스미스; 잔 그레이
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2015-06-26
Filing date: 2016-06-23
Publication date: 2018-02-28
Also published as: CL2017003318A1; WO2016210028A1; CN107810482A; MX2017016201A; US20160378493A1; IL256170A; EP3314406B1; US9720693B2; CO2017013277A2; JP2018518776A; CA2986269A1; AU2016281600A1; EP3314406A1; CN107810482B; BR112017024362A2; HK1246441A1; PH12017550126A1; KR102575940B1

Abstract

명령어 블록 기반 마이크로아키텍처의 프로세서 코어는 명령어들의 블록, 및 제어 비트와 피연산자를 포함한 관련 자원들을 즉시 인출함으로써 명령어를 명령어 창에 대량으로 할당하는 제어 유닛을 포함한다. 이러한 대량 할당은 실행 중에 블록 내의 모든 명령어에 걸쳐 일정한 관리 및 정책 구현을 가능하게 함으로써 프로세서 코어 동작의 증가된 효율을 지원한다. 예를 들면, 명령어 블록이 자체적으로 다시 분기할 때, 명령어 블록은 명령어 캐시로부터 재인출되지 않고 리프레시 처리에서 재사용될 수 있다. 그 명령어 블록에 대한 모든 자원들이 하나의 장소에 있기 때문에, 명령어는 적소에 유지될 수 있고, 유효 비트만이 클리어될 필요가 있다. 대량 할당은 또한 블록 내 명령어들에 의한 피연산자 공유 및 명령어들 간의 명시적인 메시징을 촉진한다.

Description

프로세서 명령어 창에 대한 명령어 블록의 대량 할당

명령어 집합 아키텍처(instruction set architecture, ISA) 및 프로세서의 설계자는 전력과 성능의 교환 조건을 만든다. 예를 들어서 만일 설계자가 더 높은 성능을 발휘하는 명령어를 가진 ISA를 선택하면, 프로세서의 전력 소모가 또한 더 높아질 수 있다. 대안적으로, 만일 설계자가 낮은 전력을 소모하는 명령어를 가진 ISA를 선택하면, 성능이 낮아질 수 있다. 전력 소모는 실행 중에 명령어에 의해 사용되는 산술 논리 유닛(ALU), 캐시 라인 또는 레지스터와 같은 하드웨어 자원의 양과 관련될 수 있다. 이러한 하드웨어 자원을 다량 사용하면 더 높은 전력 소모의 대가로 고성능을 발휘할 수 있다. 대안적으로, 이러한 하드웨어 자원을 소량 사용하면 더 낮은 성능의 대가로 더 낮은 전력 소모를 야기할 수 있다. 컴파일러는 하이 레벨 코드를 ISA 및 프로세서 아키텍처와 호환하는 명령어로 컴파일하기 위해 사용할 수 있다.

명령어 블록 기반 마이크로아키텍처의 프로세서 코어는 명령어들의 블록, 및 제어 비트 및 피연산자(operand)를 포함한 관련 자원들을 즉시 인출(fetch)함으로써 명령어를 명령어 창에 대량으로 할당하는 제어 유닛을 포함한다. 이러한 대량 할당은 실행 중에 블록 내의 모든 명령어에 걸쳐 일정한 관리 및 정책 구현을 가능하게 함으로써 프로세서 코어 동작의 증가된 효율을 지원한다. 예를 들면, 명령어 블록이 자체적으로 다시 분기할 때, 명령어 블록은 명령어 캐시로부터 재인출되지 않고 리프레시 처리에서 재사용될 수 있다. 그 명령어 블록에 대한 모든 자원들이 하나의 장소에 있기 때문에, 명령어는 적소에 유지될 수 있고, 유효 비트만이 클리어될 필요가 있다. 대량 할당은 또한 블록 내 명령어들에 의한 피연산자 공유 및 명령어들 간의 명시적인 메시징을 촉진한다.

이 요약은 뒤의 상세한 설명 부분에서 더 구체적으로 설명하는 개념들의 선택을 간단한 형태로 소개하기 위해 제공된다. 이 요약은 청구된 주제의 핵심적인 특징 또는 본질적인 특징을 식별하기 위한 것으로 의도되지 않고, 또한 청구된 주제의 범위를 결정함에 있어서의 보조자로서 사용되는 것으로 의도되지 않는다. 또한, 청구된 주제는 본 명세서의 임의 부분에서 설명하는 일부 또는 모든 단점을 해결하는 구현예로 제한되지 않는다.

도 1은 컴파일러가 복수의 프로세서 코어를 포함한 아키텍처에서 동작하는 인코딩된 명령어를 제공하는 예시적인 컴퓨팅 환경을 보인 도이다.
도 2는 예시적인 프로세서 코어의 예시적인 마이크로아키텍처의 블록도이다.
도 3은 블록 헤더의 예시적인 구성을 보인 도이다.
도 4 내지 도 15는 예시적인 방법의 흐름도이다.
도면에서 동일한 참조 번호는 동일한 요소를 표시한다. 요소들은 달리 표시하지 않는 한 정확한 축척으로 작도한 것이 아니다.

도 1은 명령어 블록의 대량 할당을 이용하는 예시적인 컴퓨팅 환경(100)을 보인 것이다. 이 환경은 프로그램(115)으로부터 인코딩된 기계 실행(machine-executable) 명령어(110)를 발생하기 위해 사용하는 컴파일러(105)를 포함한다. 명령어(110)는 예를 들면 4~128 명령어를 포함한 가변 크기의 명령어 블록들을 처리하도록 구성된 프로세서 아키텍처(120)에 의해 취급될 수 있다.

프로세서 아키텍처(120)는 전형적으로 온칩 네트워크(도시 생략됨)에 의해 상호접속되고 하나 이상의 레벨 2(L2) 캐시(대표적으로 참조 번호 130으로 표시함)와 연동하는 타일 구성의 복수의 프로세서 코어(대표적으로 참조 번호 125로 표시함)를 포함한다. 비록 코어와 캐시의 수 및 구성이 구현예마다 다를 수 있지만, 물리적 코어들은, 프로그램(115)의 런타임 중에 "구성"(composing)이라고 부르는 처리에서, 더 많은 처리 전력이 프로그램 실행에 충당될 수 있게 하는 하나 이상의 더 큰 논리 프로세서로 함께 합병될 수 있다는 점에 주목한다. 대안적으로, 프로그램 실행이 적당한 스레드(thread) 레벨 병행성을 지원할 때, 코어(125)는 독립적으로 작업하면서 독립 스레드로부터의 명령어들을 실행하기 위해 "분해"(decomposing)라고 부르는 처리에서 분할될 수 있다.

도 2는 예시적인 프로세서 코어(125)의 일부의 단순화한 블록도이다. 도시된 것처럼, 프로세서 코어(125)는 전단(front-end) 제어 유닛(202), 명령어 캐시(204), 분기 예측자(206), 명령어 디코더(208), 명령어 창(210), 좌측 피연산자 버퍼(212), 우측 피연산자 버퍼(214), 산술 논리 유닛(ALU)(216), 다른 하나의 ALU(218), 레지스터(220) 및 로드/저장 큐(222)를 포함할 수 있다. 일부 경우에, 버스(화살표로 표시됨)는 데이터와 명령어를 운반할 수 있고, 다른 경우에 버스는 데이터(예를 들면, 피연산자) 또는 제어 신호를 운반할 수 있다. 예를 들면, 전단 제어 유닛(202)은 제어 신호만을 운반하는 버스를 통해 다른 제어 네트워크와 통신할 수 있다. 비록 도 2에는 프로세서 코어(125)에 대하여 특정 배열로 배치된 소정 수의 예시적인 컴포넌트를 나타내고 있지만, 더 많거나 더 적은 수의 컴포넌트가 특정 구현예의 필요에 따라 다르게 배열될 수 있다.

전단 제어 유닛(202)은 내부의 활동을 조정하기 위해 프로세서 코어 및 회로를 통한 정보 흐름을 제어하도록 구성된 회로를 포함할 수 있다. 전단 제어 유닛(202)은 또한 유한 상태 기계(finite state machine, FSM)를 구현하는 회로를 포함할 수 있고, 이때 상태들은 프로세서 코어가 취할 수 있는 각각의 동작 구성을 열거한다. 전단 제어 유닛(202)의 FSM 회로는 연산부호(opcode)(뒤에서 설명함) 및/또는 다른 입력(예를 들면, 하드웨어 레벨 신호)을 이용해서 다음 상태를 결정하고 출력을 제어할 수 있다.

따라서, 전단 제어 유닛(202)은 명령어 디코더(208)에 의한 처리를 위해 명령어 캐시(204)로부터 명령어를 인출할 수 있다. 전단 제어 유닛(202)은 제어 정보를 제어 네트워크 또는 버스를 통해 프로세서 코어(125)의 다른 부분과 교환할 수 있다. 예를 들면, 전단 제어 유닛은 제어 정보를 후단(back-end) 제어 유닛(224)과 교환할 수 있다. 전단 및 후단 제어 유닛은 일부 구현예에서 단일 제어 유닛으로 통합될 수 있다.

전단 제어 유닛(202)은 또한 프로세서 아키텍처(120)(도 1)의 각종 코어 및 다른 부품들의 제어를 조정 및 관리할 수 있다. 따라서, 예를 들면, 명령어의 블록들이 복수의 코어에서 동시에 실행할 수 있고, 전단 제어 유닛(202)은 각종 명령어 블록들의 실행을 위해 필요에 따라 동기화를 보장하도록 제어 정보를 제어 네트워크를 통해 다른 코어와 교환할 수 있다.

전단 제어 유닛(202)은 또한 원자식으로(atomically) 실행되는 명령어들의 블록에 관한 제어 정보 및 메타 정보를 처리할 수 있다. 예를 들면, 전단 제어 유닛(202)은 명령어들의 블록과 연관된 블록 헤더를 처리할 수 있다. 뒤에서 자세히 설명하는 바와 같이, 블록 헤더는 명령어들의 블록에 관한 제어 정보 및/또는 메타 정보를 포함할 수 있다. 따라서, 전단 제어 유닛(202)은 블록 헤더 내의 각종 필드를 처리하는 플립플롭과 같은, 복합 로직, 상태 기계 및 임시 기억 유닛을 포함할 수 있다.

전단 제어 유닛(202)은 클럭 사이클당 단일 명령어 또는 복수의 명령어를 인출 및 디코딩할 수 있다. 디코딩된 명령어는 버퍼로서 프로세서 코어 하드웨어로 구현되는 명령어 창(210)에 저장될 수 있다. 명령어 창(210)은 일부 구현예에서 술어(predication) 및 피연산자와 같은 각각의 디코딩된 명령어 입력의 준비 상태를 유지할 수 있는 명령어 스케줄러(230)를 지원할 수 있다. 예를 들면, 그 모든 입력(만일 있으면)이 준비된 때, 주어진 명령어는 명령어 스케줄러(230)에 의해 깨워지고 발행할 준비를 한다.

명령어가 발행되기 전에, 명령어가 요구하는 임의의 피연산자는 필요에 따라 좌측 피연산자 버퍼(212) 및/또는 우측 피연산자 버퍼(214)에 저장될 수 있다. 명령어의 연산부호에 따라서, ALU(216) 및/또는 ALU(218) 또는 다른 기능 유닛을 이용하여 피연산자에 대하여 동작이 수행될 수 있다. ALU의 출력은 피연산자 버퍼에 저장되거나 하나 이상의 레지스터(220)에 저장될 수 있다. 데이터 흐름순으로 발행하는 저장 동작은 명령어 블록이 커미트(commit)할 때까지 로드/저장 큐(222)에서 대기할 수 있다. 명령어 블록이 커미트한 때, 로드/저장 큐(222)는 커미트된 블록의 저장물을 메모리에 기록할 수 있다. 분기 예측자(206)는 정보가 분기 예측을 행하는 분기 엑시트(exit) 유형 및 요소에 관한 블록 헤더 정보를 처리할 수 있다.

전술한 바와 같이, 프로세서 아키텍처(120)는 전형적으로 원자식으로 인출, 실행 및 커미트되는 블록 내에서 조직된 명령어를 이용한다. 따라서, 프로세서 코어는 단일 블록에 속하는 명령어를 집단으로 인출하고, 명령어들을 프로세서 코어 내측의 실행 자원에 맵핑하고, 명령어를 실행하고, 그 결과를 원자 방식으로 커미트할 수 있다. 프로세서는 모든 명령어들의 결과를 커미트하거나, 전체 블록의 실행을 무효로 할 수 있다. 블록 내측의 명령어들은 데이터 흐름순으로 실행할 수 있다. 또한, 프로세서는 블록 내측의 명령어가 메시지 또는 다른 적당한 형태의 통신을 이용하여 서로 직접 통신하게 할 수 있다. 따라서 결과를 생성하는 명령어는 결과를 레지스터 파일에 기록하는 대신에, 상기 결과를 소비하는 블록 내의 다른 명령어에 상기 결과를 전달할 수 있다. 일 예로서, 레지스터(R1, R2)에 저장된 값들을 가산하는 명령어는 아래의 표 1에 나타낸 것처럼 표현될 수 있다.

I[0] READ R1 T[2R];

I[1] READ R2 T[2L];

I[2] ADD T[3L].

이 방법으로, 소스 피연산자는 명령어에 의해 특정되지 않고, 그 대신에 ADD 명령어를 목표로 하는 명령어에 의해 특정된다. 컴파일러(105)(도 1)는 명령어(110)의 컴파일 중에 제어 및 데이터 의존성을 명시적으로 인코딩하여 프로세서 코어가 런타임에서 이러한 의존성을 재발견하는 것으로부터 자유롭게 한다. 이것은 유리하게도 이러한 명령어의 실행 중에 프로세서 부하를 감소시키고 에너지를 절약할 수 있다. 일 예로서, 컴파일러는 술어를 이용하여 모든 제어 의존성을 데이터 흐름 명령어로 변환할 수 있다. 이러한 기술을 이용하면, 파워 헝그리(power-hungry) 레지스터 파일에 대한 접근(access)의 수를 감소시킬 수 있다. 아래의 표 2는 그러한 명령에 대한 일반 명령어 형식의 예를 보인 것이다.

OPCODE

PR

BID

XOP

TARGET1

TARGET2

각 명령어는 32비트, 64비트와 같은 적당한 크기 또는 다른 크기를 가질 수 있다. 표 2에 나타낸 예에서, 각 명령어는 OPCODE 필드, PR(predication, 술어) 필드, BID(broadcast ID, 방송 ID) 필드, XOP(extended OPCODE, 확장 연산부호) 필드, TARGET1 필드 및 TARGET2 필드를 포함할 수 있다. OPCODE 필드는 가산, 판독, 기록 또는 승산과 같이 명령어 또는 명령어 블록에 대한 독특한 연산 부호를 특정할 수 있다. PR(술어) 필드는 명령어와 관련된 임의의 술어를 특정할 수 있다. 예를 들면, 2 비트 PR 필드는 다음과 같이 사용될 수 있다: 00 - 단정되지 않음(not predicted), 01 - 예약됨, 10 - 거짓(false)으로 단정됨, 11 - 참(true)으로 단정됨. 따라서, 예컨대 비교의 결과가 참인 경우에만 명령어가 실행하면, 그 명령어는 비교를 수행하는 다른 명령어의 결과에 대하여 단정될 수 있다. BID(방송 ID) 필드는 블록 내의 임의 수의 소비자 명령어에 대한 피연산자의 전송을 지원할 수 있다. 2-비트 BID 필드를 이용하여 명령어가 그 피연산자 중의 하나를 수신하는 방송 채널을 인코딩할 수 있다. XOP(확장형 연산부호) 필드는 연산부호 유형의 확장을 지원할 수 있다. TARGET1 및 TARGET2 필드는 최대 2개의 타겟 명령어가 인코딩되게 할 수 있다. 타겟 필드는 생산자 명령어의 결과의 소비자 명령어를 특정할 수 있고, 그에 따라서 명령어들 간의 직접 통신을 허용한다.

각각의 명령어 블록은 그 블록과 관련된 제어 정보 및/또는 메타 정보와 같은, 명령어 블록과 연관된 소정의 정보를 가질 수 있다. 이 정보는 프로그램을 프로세서 아키텍처(120)에서의 실행을 위한 명령어(110)로 컴파일하는 동안 컴파일러(105)에 의해 발생될 수 있다. 이 정보 중의 일부는 명령어 블록의 컴파일 중에 컴파일러에 의해 추출될 수 있고, 그 다음에 런타임 중에 명령어의 성질을 시험할 수 있다.

또한, 명령어 블록과 연관된 정보는 메타 정보일 수 있다. 예를 들면, 그러한 정보는 특수 명령어, 또는 명령어들의 블록과 연관된 관련 정보를 가진 레지스터 또는 다른 메모리에 관한 타겟 인코딩을 제공하는 명령어들을 이용하여 프로세서 코어에 제공될 수 있다. 특수 명령어의 경우에, 그러한 명령어들의 연산부호 필드는 명령어들의 블록에 관한 정보를 통신하기 위해 사용할 수 있다. 다른 예로서, 그러한 정보는 프로세서 상태어(PSW)의 일부로서 유지될 수 있다. 예를 들면, 이 정보는 유리하게도 프로세서가 명령어들의 블록을 더 효율적으로 실행하는 것을 도울 수 있다.

각종 유형의 정보가 블록 헤더, 특수 명령어, 메모리 참조 위치, 프로세서 상태어(PSW) 또는 이들이 각종 조합을 이용하여 프로세서 코어에 제공될 수 있다. 예시적인 명령어 블록 헤더(300)는 도 3에 나타내었다. 이 예시적인 예에서, 블록 헤더(300)는 128비트이고 블록의 프로그램 카운터로부터 오프셋 0에서 시작한다. 각 필드의 각각의 시작 및 끝이 또한 도시되어 있다. 필드들은 아래의 표 3에 설명되어 있다.

필드	설명
ID	이 필드는 유효 명령어 블록의 시작을 표시하기 위해 1로 설정될 수 있다. 이 필드는 기계 버전 및 아키텍처 버전에 관한 정보를 또한 포함할 수 있다. 또한, 이 필드는 블록 헤더가 예를 들면 준비 상태(READY STATE) 필드의 일부로서 임의의 준비 비트 또는 유효 비트를 갖는지 프로세서에게 표시하기 위해 사용될 수 있다.
크기	이 필드는 명령어 블록에 포함된 4개의 명령어 뭉치(chunk)의 수를 포함할 수 있다. 따라서, 예를 들면 0의 값은 블록 내 명령어들의 최소 블록, 예를 들면 4개의 명령어가 뒤따르는 블록 헤더를 표시할 수 있다. 대안적으로 또는 선택적으로, 크기(SIZE) 필드는 크기 표의 엔트리에 대응하는 인코딩된 값을 포함할 수 있고, 또는 이 필드는 크기 표에 대한 포인터를 포함할 수 있다.
XFLAGS	이 필드는 특수 실행 요건을 표시하는 실행 플래그를 포함할 수 있다: XFLAGS[0] 벡터 모드 이 플래그는 명령어가 독립 벡터 레인에 복사되는 것을 표시할 수 있고, 각각의 독립 벡터 레인은 명령어 창, 피연산자 버퍼, ALU 및 레지스터를 포함할 수 있다. XFLAGS[1] 분기 예측자 금지 이 플래그는 설정된 때 분기 예측자가 금지되게 할 수 있다. 이것은 분기가 확실하게 알려지기 전에 분기(예를 들면, 예측된 명령어)가 어느 방향으로 갈지 분기 예측자가 예측하지 못하게 할 수 있다. XFLAGS[2] 메모리 의존성 예측자 금지 이 플래그는 설정된 때 메모리 의존성이 금지되게 할 수 있다. 이것은 메모리 의존성 예측자가 로드/저장 동작과 같은 메모리 동작들 간의 의존성을 예측하지 못하게 할 수 있다. XFLAGS[3] 블록 동기화 요구 이 플래그는 설정된 때 명령어들의 또 다른 블록이 명령어들의 현재 블록과 병렬로 또 다른 프로세서 코어에서 실행될 수 없는 요건을 부과할 수 있다. 또한, 이 플래그는 설정된 때 명령어들의 블록이 추론적으로(speculatively) 실행될 수 없는 요건을 또한 부과할 수 있다. XFLAGS[4] 블록 후의 브레이크(break) 이 플래그는 설정된 때 명령어 블록 뒤의 브레이크가 있음을 표시할 수 있다. XFLAGS[5] 블록 전의 브레이크 이 플래그는 설정된 때 명령어 블록 전의 브레이크가 있음을 표시할 수 있다. XFLAGS[6] 예약 이 플래그는 나중에 사용하기 위해 예약될 수 있다. XFLAGS[7] 예약 이 플래그는 나중에 사용하기 위해 예약될 수 있다.
엑시트 유형	이 필드는 분기 예측자가 사용하기 위해 최대 6개의 3-비트 블록 엑시트 유형을 인코딩할 수 있다. 000 - 무효(Null): 이 필드에서 분기 예측자를 위한 정보가 없음을 분기 예측자에게 표시할 수 있다. 001 - 순차적: 다음 분기가 코드 내 명령어들의 다음 블록에 대한 것임을 분기 예측자에게 표시할 수 있다. 순차적 분기 엑시트 유형은 명령어 블록의 현재 어드레스 및 명령어 블록의 크기, 예를 들면 현재 블록 어드레스와 블록 크기를 계산에 넣음으로써 계산될 수 있다. 010 - 오프셋: 다음 분기가 오프셋 어드레스에 대한 것임을 분기 예측자에게 표시할 수 있고, 이때 오프셋은 블록 오프셋으로서 취급된다. 011 - 간접: 다음 분기가 간접 유형임을 분기 예측자에게 표시할 수 있다. 따라서, 예를 들면, 명령어들의 후계자 블록의 제1 명령어의 어드레스를 포함한 메모리 위치의 레지스터에 의존할 수 있다. 100 - 콜: 명령어들의 후계자 블록이 서브루틴 콜을 포함하는지 분기 예측자에게 표시할 수 있고, 예측된 분기는 명령어들의 그 후계자 블록으로 간다. 101 - 복귀: 명령어들의 후계자 블록이 서브루틴 콜로부터의 복귀를 포함하는지 분기 예측자에게 표시할 수 있고, 예측된 분기는 명령어들의 그 후계자 블록으로 간다. 다른 비트 패턴은 나중에 사용하기 위해 예약될 수 있다.
저장 마스크	이 필드는 기억부에 지정된 로드-저장 식별자(LSID)를 식별할 수 있다. 예를 들면, LSQ 블록은 명령어들의 블록이 완성하도록 허용되기 전에 명령어 블록을 위해 기억부에 지정된 각각의 LSID를 수신해야 할 수 있다.
기록 마스크	이 필드는 명령어들의 블록이 기록할 수 있는 글로벌 레지스터를 식별할 수 있다. 예를 들면, 레지스터 파일은 명령어들의 블록이 완성하도록 허용되기 전에 각각이 기록 엔트리를 수신해야 할 수 있다.

비록 도 3에 도시되고 표 3에서 설명된 블록 헤더가 복수의 필드를 포함하고 있지만, 이것은 예시하는 것으로 의도되고 다른 필드 배열이 특정 구현예를 위해 사용될 수 있다.

예시적인 실시예에서, 컴파일러(105)(도 1)는 블록 헤더에 포함할 정보 또는 그러한 정보를 명령어의 성질에 기초해서 및/또는 고성능 또는 저전력과 같은 처리 필요조건의 성질에 기초해서 프로세서 코어에 제공할 수 있는 특수 명령어용의 정보를 선택할 수 있다. 이것은 유리하게도 성능과 전력 소모 사이의 교환 조건의 더 최적인 균형화를 가능하게 한다. 다수의 코어로 계산하는 고성능과 같은 소정 유형의 처리 응용에 있어서, 다량의 정보가 바람직한 옵션으로 될 수 있다. 대안적으로, 사물 인터넷, 모바일 장치, 웨어러블 장치, 머리 장착형 디스플레이(HMD) 장치 또는 다른 매립형 컴퓨팅 유형의 응용에서 사용되는 매립형 프로세서와 같은 다른 유형의 처리 응용에 있어서, 더 적은 정보가 바람직한 옵션으로 될 수 있다.

블록 헤더 또는 특수 명령어를 이용하여 통신되는 정보의 범위는 블록 내의 명령어의 성질에 따라서 맞추어질 수 있다. 예를 들어서 만일 명령어들의 블록이 회귀(recurring) 방식으로 실행되는 루프를 포함하면, 그 블록과 연관된 제어 정보를 캡슐화하기 위해 더 광범위한 정보가 필요할 수 있다. 추가의 제어 정보는 프로세서 코어가 루프를 더 효율적으로 실행하여 성능을 개선하게 할 수 있다.

대안적으로, 만일 실행되기 어려운 명령어들의 블록이 있으면, 비교적 적은 정보로서 충분할 수 있다. 예를 들어서 만일 명령어들의 블록이 몇 개의 단정된 제어 루프를 포함하면, 더 많은 정보가 필요할 수 있다. 유사하게, 만일 명령어들의 블록이 광범위한 양의 명령어 레벨 병행성을 갖고 있으면, 블록 헤더의 일부 또는 특수 명령어로서 더 많은 정보가 필요할 수 있다.

블록 헤더 내의 추가 제어 정보 또는 특수 명령어는 예를 들면 명령어들의 블록 내에서 명령어 레벨 병행성을 효과적으로 이용하기 위해 사용될 수 있다. 만일 명령어들의 블록이 몇 개의 분기 예측을 포함하면, 더 많은 정보가 필요할 수 있다. 분기 예측에 관한 추가의 제어 정보는 전형적으로 더 적은 수의 파이프라인 플러시(flush)를 야기할 수 있기 때문에 더 효율적으로 코드 실행을 향상시킬 것이다.

블록 헤더 내의 필드에 대응하는 기능은 결합되거나 더욱 분할될 수 있는 것으로 주목된다. 유사하게 특수 명령어는 도 3 및 표 3에 나타낸 필드들 중의 임의의 하나에 관한 정보를 제공할 수 있고, 또는 특수 명령어는 그러한 필드로부터의 정보를 결합할 수 있다. 예를 들면, 도 3 및 표 3의 예시적인 블록 헤더가 별도의 ID 필드 및 SIZE 필드를 포함하지만, 이들 2개의 필드는 단일 필드로 결합될 수 있다.

마찬가지로, 단일의 특수 명령어는, 디코딩된 때, 명령어들의 블록의 크기에 관한 정보 및 ID 필드 내 정보를 제공할 수 있다. 다른 식으로 표시되지 않는 한, 특수 명령어는 명령어 블록 내의 임의 위치에 포함될 수 있다. 예를 들면, BLOCK_SIZE #size 명령어는 명령어 블록의 크기의 값을 포함한 인접 필드를 포함할 수 있다. 상기 인접 필드는 크기 정보를 제공하는 정수 값을 포함할 수 있다. 대안적으로, 상기 인접 필드는 인코딩된 값을 디코딩함으로써, 예를 들면 로직, 레지스터, 메모리 또는 코드 스트림 중의 하나를 이용하여 표현될 수 있는 크기 표 내의 값을 검색함으로써 크기 정보를 획득할 수 있도록 크기 정보에 관한 인코딩된 값을 포함할 수 있다. 다른 예로서, BLOCK_ID #id 특수 명령어는 블록 ID 번호를 운반할 수 있다.

별도의 수학적 함수 또는 메모리 기반 표는 블록 ID를 블록 헤더의 메모리 어드레스에 맵핑할 수 있다. 그러한 명령어의 일부로서 운반된 블록 ID는 각각의 명령어 블록에 대하여 유일할 수 있다. 다른 예로서, BLOCK_HDR_ID #id 명령어는 블록 헤더 ID 번호를 운반할 수 있다. 별도의 수학적 함수 또는 메모리 기반 표는 블록 ID를 블록 헤더의 메모리 어드레스에 맵핑할 수 있다. 그러한 명령어의 일부로서 운반된 블록 ID는 동일한 헤더 구조 또는 필드를 가진 수 개의 명령어 블록에 의해 공유될 수 있다.

다른 예로서, BLOCK_INFO #size, #exit types, #store mask, #write mask 명령어는 명령어의 열거된 필드에 관한 정보를 제공할 수 있다. 이 필드들은 표 3과 관련하여 위에서 설명한 필드들 중의 임의의 하나에 대응할 수 있다. 주어진 구현예의 필요조건에 따라 블록 헤더 구조 및 형식과 특수 명령어에 대하여 다른 변화가 이루어질 수 있다. 예를 들면, 명령어 블록의 특성에 관한 정보를 포함한 추가의 필드가 제공될 수 있다. 명령어 블록의 실행 빈도에 기초하여 특정 필드가 포함될 수 있다.

블록 헤더 구조에 포함된 필드, 또는 앞에서 설명한 특수 명령어 또는 다른 메카니즘을 통해 제공된 정보는 특정 프로세서 또는 프로세서 제품군의 공개적으로 이용 가능한 표준 명령어 집합 아키텍처(Instruction Set Architecture, ISA)의 일부일 수 있다. 필드들의 부분집합은 ISA에 대한 사적 확장(proprietary extension)일 수 있다. 필드 내의 소정 비트 값은 프로세서에 대한 표준 ISA의 일부일 수 있지만, 필드 내의 다른 소정 비트 값은 사적 기능을 제공할 수 있다. 이 예시적인 필드는 ISA 설계자가 사적 확장에 연관된 성질 및 기능을 완전하게 기술하지 않고 ISA에 사적 확장을 추가할 수 있게 한다. 따라서, 이 예에서, ISA 설계자에 의해 분배된 컴파일러 툴은 필드 내의 사적 비트 값, 완전히 분리된 사적 필드 또는 특수 명령어를 지원할 것이다. 그러한 필드의 사용은 소정 프로세서 설계에 사적인 하드웨어 가속기와 특히 관련될 수 있다. 따라서, 프로그램은 인식할 수 없는 블록 헤더 필드 또는 특수 명령어를 포함할 수 있지만, 프로그램은 필드를 해독하거나 명령어를 디코딩하기 위한 레시피를 또한 포함할 수 있다.

컴파일러(105)(도 1)는 메타 정보 및 제어 정보를 포함한, 명령어들의 블록에 대한 정보를 발생하기 위해 전형적으로 하나 이상의 프로세서 코어에 의해 원자식으로 실행하도록 구성된 명령어들의 블록을 처리할 수 있다. 일부 프로그램은 단지 하나의 ISA, 예를 들면, 사물 인터넷, 모바일 장치, HMD 장치, 웨어러블 장치 또는 다른 매립 컴퓨팅 환경을 위한 프로세서와 함께 사용되는 ISA에 대하여 컴파일될 수 있다. 컴파일러는 정적 코드 분석 또는 코드 프로파일링과 같은 기술을 이용하여 명령어들의 블록과 관련된 정보를 발생할 수 있다. 일부 경우에, 컴파일러는 명령어 블록의 특성 및 그 실행 빈도와 같은 요소들을 고려할 수 있다. 명령어 블록의 관련 특성은, 비제한적인 예를 들자면, (1) 명령어 레벨 병행성, (2) 루프의 수, (3) 단정된 제어 명령어의 수, 및 (4) 분기 예측의 수를 포함할 수 있다.

도 4는 프로세서 코어에 배치된 명령어 창에서 명령어 블록을 관리하는 예시적인 방법(400)의 흐름도이다. 특별하게 설명하지 않는 한, 도 4의 흐름도의 방법 또는 단계, 및 그 뒤의 도면들에 도시되고 뒤에서 설명하는 다른 흐름도의 방법 또는 단계들은 특정의 순서 또는 시퀀스로 제약되지 않는다. 또한, 방법 또는 단계들 중의 일부는 동시에 발생하거나 동시에 수행될 수 있고, 어떤 구현예에서는 그 구현예의 필요조건에 따라서 방법 또는 단계들의 전부가 수행되지 않을 수 있으며 일부 방법 또는 단계는 선택적으로 이용될 수 있다. 마찬가지로, 일부 구현예에서는 오버헤드를 줄이기 위해 일부 단계들이 제거될 수 있지만, 이것은 예를 들면 취성(brittleness)을 증가시킬 수 있다. 임의의 주어진 응용에서 구현될 수 있는 각종 특징, 비용, 오버헤드, 성능 및 강성 교환조건(tradeoff)은 전형적으로 설계 선택의 문제로 볼 수 있다.

단계 405에서, 인출된 명령어 블록의 연령(age)이 예를 들면 연령 벡터(age vector)를 이용하여 명시적으로 추적된다. 따라서, 전형적으로 연령을 암묵적으로 추적하기 위해 사용되는 명령어 창 내의 명령어 블록 순서(즉, 위치)를 사용하기보다 제어 유닛은 명백한 상태를 유지한다. 명령어 블록의 연령순 리스트는 단계 410에서 유지된다. 명령어 블록 우선순위(여기에서 우선순위는 일부 경우에 컴파일러에 의해 결정될 수 있음)가 또한 추적되고, 명령어 블록의 우선순위순 리스트가 또한 일부 구현예에서 유지될 수 있다.

단계 415에서, 명령어 블록이 취급하기 위해 식별된 때, 연령순 리스트는 정합 명령어 블록을 찾기 위해 검색된다. 우선순위순 리스트가 또한 일부 구현예에서 정합을 위해 검색될 수 있다. 만일 정합 명령어 블록이 발견되면, 정합 명령어 블록은 프로세서 코어 효율을 개선할 수 있는 명령어 캐시로부터 재인출할 필요 없이 단계 420에서 리프레시될 수 있다. 이러한 리프레싱은 예를 들면 프로그램이 엄격한 루프에서 실행하고 명령어가 그들 자신에게 다시 분기할 때의 상황에서 명령어 블록을 재사용할 수 있게 한다. 그러한 효율 증가는 복수의 프로세서 코어가 대규모 어레이로 구성될 때 또한 배가(compound)될 수 있다. 명령어 블록을 리프레시할 때, 명령어는 적소에 남아있고 피연산자 버퍼 및 로드/저장 큐의 유효 비트만이 클리어된다.

만일 명령어 블록에 대한 정합이 발견되지 않으면, 연령순 리스트(또는 우선순위순 리스트)는 새로운 명령어 블록을 위해 명령어 창 내의 슬롯을 개방하도록 커미트될 수 있는 명령어 블록을 찾기 위해 다시 활용될 수 있다. 예를 들면, 가장 오래된 명령어 블록 또는 최저 우선순위 명령어 블록이 커미트될 수 있다(이때 높은 우선순위 블록은 미래에 재사용할 가능성이 있기 때문에 저장되어 있는 것이 바람직할 수 있다). 단계 425에서, 새로운 명령어 블록이 가용 슬롯에 맵핑된다. 명령어 블록은 블록 내의 명령어 및 명령어와 연관된 모든 자원이 즉시(즉, 집단으로) 인출되는 대량 할당 공정을 이용하여 할당될 수 있다.

단계 430에서, 새로운 명령어 블록은 그 명령어가 원자식으로 커미트되도록 실행된다. 다른 명령어 블록들은 그들 각각의 명령어를 원자 방식으로 커미트하기 위해 단계 435에서 종래의 재정리 버퍼(reorder buffer)와 유사한 방식으로 연령순으로 실행될 수 있다.

도 5는 명령어 블록 기반 마이크로아키텍처에 의해 수행될 수 있는 예시적인 방법(500)의 흐름도이다. 단계 505에서, 프로세서 코어 내의 제어 유닛은 인출된 명령어 블록이 연속적인 교체로 또는 비연속적인 교체로 버퍼링되게 한다. 단계 510에서, 연속적인 명령어 블록 교체에 의해, 버퍼는 원형 버퍼와 같이 동작할 수 있다. 단계 515에서, 비연속적인 명령어 블록 교체에 의해, 명령어 블록은 비순차적으로(out of order) 교체될 수 있다. 예를 들면, 단계 520에서, 명시적인 연령 기반 추적은 명령어 블록이 전술한 것과 유사한 방식으로 추적된 연령에 기초하여 커미트 및 교체되도록 수행될 수 있다. 우선순위가 또한 추적될 수 있고, 추적된 우선순위는 단계 525에서 명령어 블록을 커미트 및 교체하기 위해 사용될 수 있다.

도 6은 프로세서 코어에 배치된 제어 유닛에 의해 수행될 수 있는 예시적인 방법(600)의 흐름도이다. 단계 605에서, 버퍼링된 명령어 블록들의 상태가 추적되고 명령어 블록들의 리스트가 상기 추적된 상태를 이용하여 유지된다(단계 610). 예를 들면, 상태는 특정의 구현예 필요조건에 따라서 연령, 우선순위, 또는 기타 정보 또는 콘텍스트를 포함할 수 있다. 단계 615에서, 명령어 블록이 맵핑을 위해 식별된 때, 단계 620에 나타낸 것처럼 리스트가 정합에 대하여 체크된다. 리스트로부터의 정합 명령어 블록은 단계 625에서 재인출 없이 리프레시된다. 정합 명령어 블록이 리스트에서 발견되지 않은 때, 명령어 블록은 명령어 캐시로부터 인출되고, 전술한 것과 유사한 방식으로 단계 630에서 명령어 창 내의 가용 슬롯에 맵핑된다.

도 7은 프로세서 코어에 배치된 명령어 창 내의 명령어 블록들을 관리하는 예시적인 방법(700)의 흐름도이다. 단계 705에서, 명령어 블록 크기의 크기 표가 프로세서 코어 내에 유지된다. 크기 표는 예를 들면 로직, 레지스터, 메모리, 코드 스트림 또는 다른 적당한 구성 중의 하나를 이용하여 각종 방법으로 표현될 수 있다. 단계 710에서, 명령어 블록의 헤더에서 인코딩된 인덱스가 판독된다. 명령어 블록은 하나 이상의 디코딩된 명령어를 포함한다. 따라서, 명령어 블록 크기를 하드 코딩하기 위해 도 3 및 표 3에 나타낸 SIZE 필드를 사용하기보다, 필드가 인덱스를 인코딩하거나 크기 표에 저장하기 위해 사용될 수 있다. 즉, 인덱스는 특정 크기가 명령어 블록과 연관될 수 있도록 크기 창 내의 엔트리에 대한 포인터로서 기능할 수 있다.

크기 표에 포함된 크기 엔트리의 수는 구현예마다 다를 수 있다. 더 큰 수의 크기 엔트리는 주어진 프로그램과 연관된 명령어 블록 크기의 비교적 넓은 분포가 있는 경우에 유리한 더 많은 입도를 활성화하기 위해 사용될 수 있지만, 전형적인 구현예에서 오버헤드가 증가한다. 일부 경우에, 표에 포함된 크기들의 수는 전체 명령어 패킹 밀도를 최적화하는 방식으로 명령어 블록 크기의 특정 분포를 커버하고 비동작(no ops)을 최소화하도록 컴파일러에 의해 선택될 수 있다. 예를 들면, 크기 표에 포함된 크기는 프로그램에서 공통적으로 사용되는 블록 명령어 크기를 정합시키도록 선택될 수 있다. 단계 715에서, 인덱스를 사용하여 크기 표로부터 명령어 블록 크기를 검색한다. 명령어 블록은 단계 720에서 그 크기에 기초하여 명령어 창 내의 가용 슬롯에 맵핑된다.

일부 구현예에서, 단계 725에 나타낸 것처럼, 명령어 창은 예를 들면 2개 이상의 다른 크기를 사용하는 2개 이상의 하위 창(sub-window)으로 분할될 수 있다. 분할된 하위 창에서의 이러한 변동은 명령어 블록 크기의 주어진 분포를 또한 수용할 수 있고, 명령어 패킹 밀도를 더욱 증가시킬 수 있다. 상기 분할은 일부 시나리오에서 동적으로 또한 수행될 수 있다.

도 8은 명령어 블록 기반 마이크로아키텍처에 의해 수행될 수 있는 예시적인 방법(800)의 흐름도이다. 단계 805에서, 크기 표가 구현된다. 전술한 바와 같이, 크기 표는 로직, 레지스터, 메모리, 코드 스트림 또는 다른 적당한 구성 중의 하나를 이용하여 구현될 수 있고, 주어진 프로그램에 의해 활용되는 명령어 블록의 분포에서 공통적으로 사용되는 것들에 대응하는 크기를 포함할 수 있다. 단계 810에서, 명령어 블록 헤더가 크기 표의 엔트리를 참조하는 포인터에 대하여 검사된다. 단계 815에서, 표 엔트리에 의해 식별된 크기를 이용하여 명령어 창 내의 명령어 블록의 배치를 결정한다.

단계 820에서, 명령어 블록과 연관된 자원들이 대량 할당된다. 명령어 블록 헤더에서 지정된 제한들(restrictions)은 단계 825에서 명령어 창 내의 명령어 블록을 맵핑할 때 사용된다. 상기 제한은 예를 들면 명령어 블록을 버퍼링하기 위한 명령어 창의 정렬 및 용량에서의 제한을 포함한다. 단계 830에서, 명령어 창 내의 명령어 블록들의 순서가 제어 유닛에 의해 추적되고 블록들은 일부 상황에서 비순차적으로 커미트될 수 있다. 예를 들면, 블록들이 명령어 창 내에서의 그들의 위치에 기초하여 취급되는 명령어 블록들의 원형 버퍼를 사용하기보다, 블록들은 많이 사용하거나 특히 중요한 명령어 블록이 비순차적으로 취급되도록 우선순위화될 수 있고, 이것은 처리 효율을 증가시킬 수 있다.

단계 835에서, 명령어 블록들의 연령이 명시적으로 추적될 수 있고, 명령어 블록들은 일부 경우에 그러한 명시적으로 추적된 연령에 기초하여 커미트될 수 있다. 명령어 블록은 단계 840에서 리프레시된다(즉, 명령어 캐시로부터 명령어 블록을 재인출할 필요 없이 재사용된다).

도 9는 프로세서 코어 내에 배치된 제어 유닛에 의해 수행될 수 있는 예시적인 방법(900)의 흐름도이다. 단계 905에서, 전술한 것과 유사한 방식으로 2개 이상의 다른 크기를 가진 복수의 세그멘트로 명령어 창이 구성된다. 단계 910에서, 블록 명령어 헤더가 내부에 인코딩된 인덱스에 대하여 검사된다. 단계 915에서 상기 인덱스를 이용하여 크기 표에서 검색이 수행되고, 단계 920에서, 명령어 블록이 상기 크기 검색에 기초하여 특정 크기의 블록에 적합한 명령어 창 세그멘트에 배치된다. 단계 925에서, 명령어 블록과 연관된 자원들이 대량 할당을 이용하여 인출된다.

도 10은 프로세서 코어에 배치된 명령어 창 내의 명령어 블록들을 관리하는 예시적인 방법(1000)의 흐름도이다. 단계 1005에서, 명령어 블록이 명령어 캐시로부터 명령어 창에 맵핑된다. 명령어 블록은 하나 이상의 디코딩된 명령어를 포함한다. 명령어 블록 내의 각각의 명령어와 연관된 자원들이 단계 1010에서 할당된다. 자원들은 전형적으로 제어 비트 및 피연산자를 포함하고, 할당은 모든 자원들이 집단으로 획득 또는 인출되는 대량 할당 공정을 이용하여 수행된다.

자원과 명령어를 엄격하게 결합하는 대신에, 명령어 창과 피연산자 버퍼가 디커플링되고, 명령어 창과 피연산자 버퍼는, 단계 1015에 나타낸 것처럼, 자원과 디코딩된 명령어 중의 하나 이상의 포인터를 블록 내에 유지함으로써 독립적으로 동작할 수 있다. 명령어 블록이 단계 1020에서 리프레시된 때(즉, 명령어 캐시로부터 명령어 블록을 재인출할 필요 없이 재사용됨), 자원들은 단계 1025에서 포인터를 최초 제어 상태로 되돌림으로써 재사용될 수 있다.

이러한 디커플링은 특히, 예를 들면, 프로그램이 엄격한 루프에서 실행하고 명령어가 반복적으로 사용될 때 전형적으로 발생하는 재인출 없이 명령어 블록이 리프레시된 때 증가된 프로세서 코어 효율을 제공할 수 있다. 포인터를 통해 제어 상태를 확립함으로써, 자원들은 처리 주기의 추가적인 지출 및 기타의 비용 없이 효과적으로 사전에 검증된다. 이러한 효율 증가는 복수의 프로세서 코어가 대규모 어레이로 구성된 때 또한 배가될 수 있다.

도 11은 명령어 블록 기반 마이크로아키텍처에 의해 수행될 수 있는 예시적인 방법(1100)의 흐름도이다. 단계 1105에서, 명령어 블록은 새로운 명령어 블록이 커미트된 명령어 블록을 교체하는 방식으로 명령어 창에 맵핑된다. 맵핑은 단계 1110에 표시된 바와 같이 명령어 블록의 헤더에서 지정된 각종 제한, 예를 들면 명령어 블록을 버퍼링하기 위한 명령어 창의 용량 및 정렬에서의 제한을 받을 수 있다. 단계 1115에서, 자원들이 새로운 명령어 블록에 대하여 할당되고, 이것은 전형적으로 전술한 바와 같이 대량 할당 공정을 이용하여 구현된다.

단계 1120에서, 명령어 창 내의 명령어 블록의 순서가 제어 유닛에 의해 추적되고 블록들이 일부 상황에서 비순차적으로 커미트될 수 있다. 예를 들면, 블록들이 명령어 창 내에서 그들의 위치에 기초하여 취급되는 명령어 블록의 원형 버퍼를 사용하기보다, 블록들은 많이 사용되거나 특히 중요한 명령어 블록들이 비순차적으로 취급되도록 우선순위화될 수 있고, 이것은 처리 효율을 증가시킬 수 있다.

단계 1125에서, 명령어 창이 피연산자 버퍼로부터 디커플링되어, 예를 들면, 명령어의 블록 및 피연산자의 블록들이 독립적으로(즉, 명령어와 피연산자 간의 엄격한 대응성을 이용하지 않고) 관리되게 한다. 전술한 바와 같이, 디커플링은 명령어 블록이 리프레시된 때 자원들이 사전에 검증되게 함으로써 효율을 증가시킨다.

도 12는 프로세서 코어 내에 배치된 제어 유닛에 의해 수행될 수 있는 예시적인 방법(1200)의 흐름도이다. 단계 1205에서, 명령어 창이 하나 이상의 명령어 블록을 버퍼링하기 위해 유지된다. 단계 1210에서, 명령어 블록 내의 명령어들과 연관된 자원들을 버퍼링하기 위해 하나 이상의 피연산자 버퍼가 유지된다. 전술한 바와 같이, 자원들은 전형적으로 제어 비트와 피연산자를 포함한다. 단계 1215에서, 명령어 및 자원들 중의 포인터를 이용하여 상태가 추적된다.

명령어 블록이 리프레시된 때, 블록 1220에서, 포인터들은 추적된 상태로 되돌아갈 수 있다. 단계 1225에서, 명령어 블록이 커미트한 때, 피연산자 버퍼 내의 제어 비트는 클리어되고 새로운 포인터가 설정된다. 단계 1230에서, 전술한 방법에서와 같이, 명령어 창과 피연산자 버퍼가 디커플링되어 명령어의 블록들 및 피연산자의 블록들이 비대응 기반으로 제어 유닛에 의해 유지된다.

도 13은 프로세서 코어 내에 배치된 명령어 창의 명령어 블록들을 관리하는 예시적인 방법(1300)의 흐름도이다. 단계 1305에서, 명령어 블록은 블록 내의 명령어 및 명령어와 연관된 모든 자원이 즉시(즉, 집단으로) 인출되는 대량 할당 공정을 이용하여 할당된다. 명령어 및 자원들이 더 작은 뭉치로 반복적으로 인출되는 종래의 아키텍처와 비교하면, 여기에서의 대량 할당은 블록 내 모든 명령어들이 동시에 및 일관되게 관리될 수 있게 하고, 이것은 프로세서 코어 동작의 효율성을 개선할 수 있다. 이 개선은 주어진 프로그래밍 구성(예를 들면, 분기를 최소화하는 구성)이 컴파일러로 하여금 비교적 큰 명령어 블록을 발생하게 하는 상황에서 더 현저할 수 있다. 예를 들면, 일부 구현예에서, 명령어 블록은 최대 128개의 명령어를 포함할 수 있다.

명령어 블록의 대량 할당은 예를 들면 프로그램이 엄격한 루프에서 실행하고 명령어가 그들 자신에서 다시 분기할 때 전형적으로 발생하는 재인출 없이 명령어 블록이 재사용되는 리프레시 특징을 통하여 프로세서 코어 효율을 또한 향상시킨다. 이러한 효율 증가는 복수의 프로세서 코어가 대규모 어레이로 구성된 때 또한 배가될 수 있다. 명령어 블록을 리프레시할 때, 명령어들은 적소에 남겨지고 피연산자 버퍼 및 로드/저장 큐 내의 유효 비트만이 클리어된다. 이것은 리프레시된 명령어 블록들의 인출이 전체적으로 바이패스되게 한다.

명령어 블록의 대량 할당은 명령어 및 자원들의 그룹이 적소에 있을 때 추가적인 처리 효율을 또한 활성화한다. 예를 들면, 피연산자 및 명시적 메시지가 블록 내 하나의 명령어로부터 다른 명령어로 보내질 수 있다. 이러한 기능은 종래의 구조에서는 가능하지 않았는데, 그 이유는 하나의 명령어는 아직 할당되지 않은 다른 명령어로 아무것도 보낼 수 없기 때문이다. 상수를 발생하는 명령어는 그들이 리프레시된 후에 유효를 유지하도록 피연산자 버퍼에 값들을 또한 속박할 수 있고, 그래서 그러한 명령어는 명령어 블록이 실행할 때마다 재발생될 필요가 없다.

명령어 블록이 단계 1310에서 명령어 창에 맵핑된 때, 명령어 블록은 단계 1315에서 블록 헤더에서 지정된 정책 또는 제한, 또는 둘 다를 맵핑함으로써 적용될 수 있는 제약(constraints)을 받는다. 일부 경우에, 정책은 주어진 프로그램의 특정 필요조건에 따라 컴파일러에 의해 설정될 수 있다. 지정된 제한은 예를 들면 명령어 블록을 버퍼링하기 위한 명령어 창의 용량의 제한 및 정렬의 제한을 포함할 수 있다.

단계 1320에서, 명령어 창은, 일부 구현예에서, 동일 크기 또는 다른 크기의 하위 창으로 분할될 수 있다. 명령어 블록 크기가 주어진 프로그램에 대하여 가끔 무작위로 또는 불균일하게 분포되기 때문에, 분할된 하위 창에서의 이러한 변동은 명령어 블록 크기의 주어진 분포를 더 효율적으로 수용할 수 있고, 이로써 명령어 창에서 명령어 패킹 밀도를 증가시킨다. 상기 분할은 프로세서 코어에 의해 현재 취급되는 블록 크기들의 분포에 따라서 일부 구현예에서 동적으로 또한 수행될 수 있다.

일부 구현예에서, 명령어 블록 헤더는 인덱스를 인코딩하거나 로직, 레지스터, 메모리 또는 코드 스트림 중의 하나를 이용하여 구현되는 크기 표에 대한 포인터를 포함할 수 있다. 크기 표는 단계 1325에서 명령어 블록 크기가 표로부터 검색될 수 있도록 명령어 블록 크기 엔트리를 포함할 수 있다. 인코딩된 인덱스 및 크기 표를 이용하면 예컨대 분기를 구현할 때 블록이 비교적 소수의 명령어를 포함하는 경우 비동작(no operations)의 발생을 감소시키기 위해 가용 블록 크기로 더 많은 입도를 제공함으로써 명령어 블록 내의 명령어 패킹 밀도를 향상시킬 수 있다.

도 14는 명령어 블록 기반 마이크로아키텍처에 의해 수행될 수 있는 예시적인 방법(1400)의 흐름도이다. 단계 1405에서, 프로세서 코어 내의 제어 유닛은 명령어 블록을 취급하기 위한 정책을 적용한다. 단계 1410에서, 명령어 블록들은 명령어 및 모든 관련 자원들이 즉시 인출되는 전술한 대량 할당 공정을 이용하여 할당된다. 단계 1415에서, 명령어 블록들이 명령어 창에 맵핑되고, 이때 맵핑은 각종 제한, 예를 들면 전술한 바와 같이 명령어 블록의 헤더에서 지정된 명령어 블록을 버퍼링하기 위한 명령어 창의 용량에서의 제한 및 정렬에서의 제한을 받을 수 있다.

단계 1420에서, 제어 유닛에 의해 명령어 창 내의 명령어 블록들의 순서를 추적하는 것을 포함한 정책이 적용될 수 있다. 블록들은 일부 상황에서 예를 들면 블록들이 명령어 창 내에서 그들의 위치에 기초하여 취급되는 명령어 블록의 원형 버퍼를 이용하기보다 비순차적으로 커미트될 수 있다. 단계 1425에서, 많이 사용되거나 특히 중요한 블록들이 비순차적으로 취급되도록 우선순위(우선순위는 일부 시나리오에서 컴파일러에 의해 지정될 수 있음)에 기초하여 블록들을 취급하는 것을 포함한 정책이 적용될 수 있고, 이것은 처리 효율을 더욱 증가시킬 수 있다.

단계 1430에서, 명령어 블록의 연령을 명시적으로 추적하는 것을 포함한 정책이 적용될 수 있고, 명령어 블록은 일부 경우에 상기 명시적으로 추적된 연령에 기초하여 커미트될 수 있다. 단계 1435에서, 명령어 창(또는 창의 세그멘트) 내의 적절한 크기의 슬롯의 가용성에 따라 명령어 블록을 맵핑하는 것을 포함한 정책이 적용될 수 있다. 단계 1440에서, 명령어 블록을 원형 버퍼를 이용하여 명령어 창에 맵핑하는 것을 포함한 정책이 적용될 수 있다.

일부 구현예에서, 정책들의 각종 조합을 이용하여 프로세서 코어 효율을 더욱 향상시킬 수 있다. 예를 들면, 제어 유닛은 주어진 명령어 블록 또는 명령어 블록들의 그룹에 더 최적인 동작을 제공하는 정책을 적용하기 위해 정책들 중에서 동적으로 토글링할 수 있다. 예를 들면, 일부 시나리오에서는 명령어 블록이 연속 방식의 순서대로 취급되는 원형 버퍼링 기술을 사용하는 것이 더 효율적일 수 있다. 다른 시나리오에서는 비순차적 및 연령 기반 취급이 더 최적인 동작을 제공할 수 있다.

도 15는 프로세서 코어 내에 배치된 제어 유닛에 의해 수행될 수 있는 예시적인 방법(1500)의 흐름도이다. 단계 1505에서, 명령어 창이 전술한 것과 유사한 방식으로 2개 이상의 다른 크기를 가진 복수의 세그멘트로 구성된다. 단계 1510에서, 명령어 블록이 인출되고, 단계 1515에서, 명령어 블록과 연관된 모든 자원들이 인출된다.

단계 1520에서, 명령어 블록이 창 내의 명령어 밀도를 최대화하도록 창의 적당한 세그멘트에 배치된다. 예를 들어서 만일 컴파일러가 (예를 들면, 프로그램 분기 등을 구현하기 위해) 낮은 명령어 카운트를 가진 비교적 많은 수의 블록을 포함하는 블록 크기 분포를 생성하면, 명령어 창은 작은 명령어 블록용의 특별한 크기로 된 세그멘트를 가질 수 있다. 유사하게, 만일 비교적 많은 수의 높은 명령어 카운트 블록(예를 들면, 과학적 및 유사한 응용을 위한 것)이 있으면, 세그멘트는 그러한 더 큰 명령어 블록용으로 특별한 크기로 될 수 있다. 따라서, 명령어 창 세그멘트 크기 정하기는 특정 크기 분포에 따라 조정되거나, 또는, 일부 상황에서, 분포가 변할 때 동적으로 조정될 수 있다. 블록 1525에서, 명령어 블록은 전술한 바와 같이 명령어 블록 헤더에서 지정된 제한들을 받을 수 있다.

프로세서 명령어 창에 명령어 블록을 대량 할당하는 본 발명의 각종 예시적인 실시형태가 모든 실시형태의 총망라적인 리스트로서가 아닌 예시 목적으로 여기에서 제시된다. 일 예는 프로세서에 배치된 명령어 창 내의 명령어 블록들을 관리하는 방법을 포함하고, 이 방법은 명령어 블록 내의 하나 이상의 명령어에 대한 자원들이 즉시 인출되도록 명령어 블록을 대량 할당하는 단계 - 상기 자원들은 상기 하나 이상의 명령어와 연관된 제어 비트 및 피연산자를 포함함 - 와; 하나 이상의 명령어를 포함한 명령어 블록 - 이 명령어 블록은 헤더를 포함함 - 을 명령어 캐시로부터 명령어 창에 맵핑하는 단계와; 맵핑을 수행할 때 하나 이상의 제약 - 이 제약은 하나의 맵핑 정책 또는 상기 헤더에서 지정된 제한에 의해 부과됨 - 을 적용하는 단계를 포함한다. 다른 예로서, 상기 맵핑 정책은 연령, 크기, 위치 또는 우선순위 중의 하나에 기초하여 명령어 블록을 취급하는 제어 유닛을 이용하여 구현된다. 다른 예로서, 상기 방법은 명령어 창을 하위 창으로 분할하는 단계를 더 포함하고, 상기 분할된 하위 창은 공통 크기를 공유하거나 다른 크기를 갖는다. 다른 예로서, 상기 분할된 하위 창은 명령어 블록 크기의 분포에 따라 동적으로 크기 정해진다. 다른 예로서, 상기 지정된 제한은 명령어 창의 정렬 제한 또는 명령어 블록 용량 제한 중의 하나를 포함한다. 다른 예로서, 상기 명령어 블록 크기는 로직, 레지스터, 메모리 또는 코드 스트림 중의 하나를 이용하여 표현되는 크기 창에 대한 포인터를 이용하여 상기 헤더에서 표시된다.

다른 예는 명령어 블록 기반 마이크로아키텍처를 포함하고, 이 마이크로아키텍처는 제어 유닛과; 하나 이상의 피연산자 버퍼와; 제어 유닛의 제어를 받게끔 디코딩된 명령어 블록을 저장하도록 구성된 명령어 창을 포함하며, 상기 제어는 명령어 블록을 취급하기 위한 복수의 정책 중 하나 이상을 적용하는 동작과; 명령어 블록 내의 명령어가 메시지 또는 피연산자를 명령어 블록 내의 다른 명령어에 보낼 수 있도록 명령어 블록 내의 모든 명령어에 대하여 자원들을 하나 이상의 피연산자 버퍼에 인출하는 것을 포함한 명령어 블록 대량 할당 동작을 포함한다. 다른 예로서, 상기 자원들은 피연산자 버퍼에 버퍼링된 제어 비트 또는 피연산자 중의 하나를 포함한다. 다른 예로서, 정책은 명령어 블록의 헤더에서 지정된 제한들에 기초하여 명령어 블록을 맵핑하는 구성을 포함하고, 상기 지정된 제한은 명령어 창의 정렬 제한 또는 명령어 블록 용량 제한 중의 하나를 포함한다. 다른 예로서, 정책은 명령어 창 내의 명령어 블록들의 순서를 추적하고 명령어 블록을 비순차적으로 커미트하는 구성을 포함한다. 다른 예로서, 정책은 명령어 창에 현재 맵핑된 명령어 블록의 연령을 명시적으로 추적하고 명시적으로 추적된 연령에 기초하여 명령어 블록을 커미트하는 구성을 포함한다. 다른 예로서, 정책은 명령어 블록에 맞는 명령어 창 내의 슬롯이 이용 가능할 때 명령어 창에 명령어 블록을 맵핑하는 구성을 포함한다. 다른 예로서, 정책은 명령어 블록을 원형 버퍼를 이용하여 명령어 창에 맵핑하는 구성을 포함한다. 다른 예로서, 정책은 우선순위에 기초하여 명령어 블록을 명령어 창에 맵핑하거나 명령어 블록을 커미트하는 구성을 포함한다.

다른 예는 프로세서에 배치되고 명령어 블록 관리 방법을 수행하도록 구성된 제어 유닛을 포함한다. 상기 방법은 명령어 창을 복수의 세그멘트 - 세그멘트는 2개 이상의 다른 크기를 갖는 것임 - 로 구성하는 단계와; 하나 이상의 명령어를 포함한 명령어 블록을 명령어 캐시로부터 인출하는 단계와; 명령어 블록 내의 명령어들과 연관된 모든 자원을 인출하는 단계와; 명령어 창 내의 명령어 밀도가 최대화되도록 명령어 블록을 명령어 창의 세그멘트에 배치하는 단계를 포함한다. 다른 예로서, 상기 제어 유닛은 명령어 창 내의 배치에 대한 지정된 제한에 대하여 명령어 블록의 헤더를 검사하고 상기 지정된 제한에 따라 상기 배치를 수행하는 단계를 더 포함하고, 상기 지정된 제한은 정렬 제한 또는 명령어 블록 용량 제한 중의 하나를 포함한다. 다른 예로서, 상기 제어 유닛은 분할된 명령어 창을 복수의 프로세서 코어에 걸쳐 분포된 논리적 세분화 명령어 창으로서 구성하는 단계를 더 포함한다. 다른 예로서, 상기 제어 유닛은 인칩 네트워크를 통해 운반되는 통신을 이용하여 상기 논리적 세분화 명령어 창 전역에서 상태를 유지하는 단계를 더 포함한다. 다른 예로서, 상기 제어 유닛은 대량 할당으로서 명령어 블록 및 자원의 인출을 수행하는 단계를 더 포함한다. 다른 예로서, 상기 제어 유닛은 상기 헤더에서 인코딩된 명령어 블록 크기에 기초해서 또는 로직, 레지스터, 메모리 또는 코드 스트림 중의 하나를 이용하여 표현된 크기 표에 대하여 상기 헤더 내의 포인터에 의해 표시된 명령어 블록 크기에 기초해서 상기 배치된 명령어 블록에 대하여 선택되는 세그멘트를 선택하는 단계를 더 포함한다.

전술한 주제는 단지 예로서 제공되고 제한하는 것으로 해석되지 않아야 한다. 여기에서 예시하고 설명한 예시적인 실시형태 및 응용에 따르지 않고, 및 첨부된 특허 청구범위에서 규정하는 본 발명의 진정한 정신 및 범위로부터 벗어나지 않고, 여기에서 설명한 주제에 대하여 각종 수정 및 변화가 이루어질 수 있다.

Claims

프로세서에 배치된 명령어 창 내의 명령어 블록들을 관리하는 방법에 있어서,
명령어 블록 내의 하나 이상의 명령어에 대한 자원들이 즉시 인출되도록 명령어 블록을 대량 할당하는 단계 - 상기 자원들은 상기 하나 이상의 명령어와 연관된 제어 비트 및 피연산자를 포함함 -;
하나 이상의 명령어를 포함한 명령어 블록 - 이 명령어 블록은 헤더를 포함하는 것임 - 을 명령어 캐시로부터 명령어 창에 맵핑하는 단계; 및
맵핑을 수행할 때 하나 이상의 제약 - 이 제약은 맵핑 정책 중 하나 또는 상기 헤더에서 지정된 제한에 의해 부과됨 - 을 적용하는 단계
를 포함한 명령어 블록 관리 방법.
제1항에 있어서, 상기 맵핑 정책은 연령, 크기, 위치 또는 우선순위 중의 하나에 기초하여 명령어 블록을 취급하는 제어 유닛을 이용하여 구현되는 것인 명령어 블록 관리 방법.
제1항에 있어서, 상기 명령어 창을 하위 창으로 분할하는 단계를 더 포함하고, 상기 분할된 하위 창은 공통 크기를 공유하거나 상이한 크기를 갖는 것인 명령어 블록 관리 방법.
제3항에 있어서, 상기 분할된 하위 창은 명령어 블록 크기의 분포에 따라 동적으로 크기 정해지는 것인 명령어 블록 관리 방법.
제1항에 있어서, 상기 지정된 제한은 명령어 창의 정렬 제한 또는 명령어 블록 용량 제한 중의 하나를 포함한 것인 명령어 블록 관리 방법.
제5항에 있어서, 상기 명령어 블록 크기는 로직, 레지스터, 메모리 또는 코드 스트림 중의 하나를 이용하여 표현되는 크기 표에 대한 포인터를 이용하여 상기 헤더에서 표시되는 것인 명령어 블록 관리 방법.
명령어 블록 기반 마이크로아키텍처에 있어서,
제어 유닛;
하나 이상의 피연산자 버퍼;
상기 제어 유닛의 제어를 받게끔 디코딩된 명령어 블록을 저장하도록 구성된 명령어 창
을 포함하고,
상기 제어는,
명령어 블록을 취급하기 위한 복수의 정책 중 하나 이상을 적용하는 동작; 및
명령어 블록 내의 명령어가 메시지 또는 피연산자를 상기 명령어 블록 내의 또 다른 명령어에 보낼 수 있도록 상기 명령어 블록 내의 모든 명령어에 대하여 자원들을 하나 이상의 피연산자 버퍼에 인출하는 것을 포함한 명령어 블록 대량 할당 동작
을 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 상기 자원들은 피연산자 버퍼에 버퍼링된 제어 비트 또는 피연산자 중의 하나를 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 정책은 상기 명령어 블록의 헤더에서 지정된 제한들에 기초하여 상기 명령어 블록을 맵핑하는 구성을 포함하고, 상기 지정된 제한은 상기 명령어 창의 정렬 제한 또는 명령어 블록 용량 제한 중의 하나를 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 정책은 상기 명령어 창 내의 상기 명령어 블록들의 순서를 추적하고 명령어 블록을 비순차적으로(out of order) 커미트하는 구성을 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 정책은 상기 명령어 창에 현재 맵핑된 명령어 블록의 연령을 명시적으로 추적하고 명시적으로 추적된 연령에 기초하여 명령어 블록을 커미트하는 구성을 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 정책은 상기 명령어 블록에 맞는 상기 명령어 창 내의 슬롯이 이용 가능할 때 상기 명령어 창에 명령어 블록을 맵핑하는 구성을 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 정책은 명령어 블록을 원형 버퍼를 이용하여 상기 명령어 창에 맵핑하는 구성을 포함한 것인 명령어 블록 기반 마이크로아키텍처.
제7항에 있어서, 정책은 우선순위에 기초하여 명령어 블록을 상기 명령어 창에 맵핑하거나 명령어 블록을 커미트하는 구성을 포함한 것인 명령어 블록 기반 마이크로아키텍처.