KR101772299B1

KR101772299B1 - 스트라이딩된 액세스 패턴을 가진 벡터 레지스터에서 성분들을 축소하기 위한 명령어

Info

Publication number: KR101772299B1
Application number: KR1020157012922A
Authority: KR
Inventors: 알버트 하토노; 자야샨카르 바라드와즈; 날리니 바수데반; 사라 에스. 바그소르키; 빅터 더블유. 리; 대현 김
Original assignee: 인텔 코포레이션
Priority date: 2012-12-28
Filing date: 2012-12-28
Publication date: 2017-08-28
Also published as: WO2014105057A1; CN104813279A; US9921832B2; DE112012007088B4; KR20150074079A; CN104813279B; US20140189288A1; DE112012007088T5

Abstract

비유닛 스트라이딩된 액세스 패턴을 가진 벡터 축소 명령어가 프로세서의 실행 회로에 의해 수신되고 실행된다. 명령어에 응답하여, 실행 회로는 제1 벡터 레지스터의 데이터 성분들에 대한 결합 축소 연산을 실행한다. 마스크 레지스터의 값들과 처리되고 있는 현재 성분 위치에 기초하여, 실행 회로는 제1 벡터 레지스터의 하나 이상의 데이터 성분들을, 제1 벡터 레지스터의 이전 데이터 성분 및 제3 벡터 레지스터의 데이터 성분 양쪽에 적용되는 결합 축소 연산에 의해 발생되는 결과값으로 순차적으로 설정한다. 이전 데이터 성분은 현재 성분 위치로부터 하나의 성분 위치보다 더 멀리 떨어져 위치한다.

Description

스트라이딩된 액세스 패턴을 가진 벡터 레지스터에서 성분들을 축소하기 위한 명령어{INSTRUCTION TO REDUCE ELEMENTS IN A VECTOR REGISTER WITH STRIDED ACCESS PATTERN}

본 개시 내용은, 처리 로직, 마이크로프로세서들, 및 프로세서 또는 다른 처리 로직에 의해 실행될 때 논리적, 수학적, 또는 다른 함수 연산(functional operation)들을 수행하는 연관된 명령어 세트 아키텍처 분야에 관한 것이다.

명령어 세트 또는 명령어 세트 아키텍처(instruction set architecture: ISA)는 프로그래밍에 관계된 컴퓨터 아키텍처의 일부이며, 또한 네이티브 데이터 형들, 명령어들, 레지스터 아키텍처, 어드레싱 모드들, 메모리 아키텍처, 인터럽트 및 예외 처리, 및 외부 입출력(I/O)을 포함할 수 있다. 용어 명령어는 여기서 일반적으로 매크로 명령어들, 즉 실행을 위해 프로세서[또는 명령어를 프로세서에 의해 처리될 하나 이상의 다른 명령어들로 (예를 들어, 정적 이진 번역(static binary translation), 동적 편집을 포함하는 동적 이진 번역을 이용하여) 번역하고, 모핑(morph)하고, 에뮬레이팅하고, 또는 다른 식으로 변환하는 명령어 변환기(instruction converter)]에게 제공되는 명령어들을 지칭하는데, 이 명령어들은 프로세서의 디코더가 매크로 명령어들을 디코딩한 결과인 마이크로 명령어들 또는 마이크로 연산들(micro-ops)과 대립하는 것이다.

ISA는 명령어 세트를 구현하는 프로세서의 내부 설계인 마이크로 아키텍처와 구별된다. 상이한 마이크로 아키텍처들을 갖는 프로세서들은 공통 명령어 세트를 공유할 수 있다. 예를 들어, Intel®Core^TM 프로세서들, 및 미국 캘리포니아주 서니베일 소재의 Advanced Micro Devices, Inc. 의 프로세서들은 (보다 새로운 버전들에서 부가된 몇몇 확장을 가지고) 거의 동일한 버전의 x86 명령어 세트를 구현하지만, 상이한 내부 설계들을 가진다. 예를 들어, ISA의 동일 레지스터 아키텍처가, 전용 물리적 레지스터들, 레지스터 리네이밍 메커니즘(register renaming mechanism) 등을 이용하는 하나 이상의 동적으로 할당된 물리적 레지스터들을 포함하는 공지된 기술들을 이용하여 상이한 마이크로 아키텍처들에서 상이한 방식들로 구현될 수 있다.

대다수의 요즈음 ISA들은 SIMD(Single Instruction, Multiple Data) 연산들을 지원한다. 단 하나의 데이터 성분 또는 데이터 성분들의 쌍에 대해 연산하는 스칼라 명령어 대신에, 벡터 명령어(패킹된 데이터 명령어(packed data instruction) 또는 SIMD 명령어로도 지칭됨)는 다중 데이터 성분 또는 데이터 성분들의 다중 쌍에 대해 동시에 또는 병렬로 연산할 수 있다. 프로세서는 다중 연산을 동시에 또는 병렬로 수행하기 위해 벡터 명령어에 응답하는 병렬 실행 하드웨어를 가질 수 있다.

SIMD 연산은 하나의 연산으로 하나의 레지스터 또는 메모리 로케이션 내에 패킹되는 다중 데이터 성분에 대해 연산한다. 이러한 데이터 성분들은 패킹된 데이터 또는 벡터 데이터로서 지칭된다. 벡터 데이터 성분들의 각각은 다른 것들과 별개로 또는 그와 독립적으로 연산될 수 있는 별개의 개개의 데이터 피스(예를 들어, 픽셀 컬러 등등)를 나타낼 수 있다. SIMD 아키텍처들은 성능을 위한 루프들을 백터화하기 위해 컴파일러에게 의존한다. 다양한 형태들의 결합 축소 연산들(associative reduction operations)(예를 들어, 가산들, 승산들, 논리 연산들, 기타 등등)을 수행하는 루프들은 범용 애플리케이션들, 시스템 소프트웨어에서뿐만 아니라 부동 소수점 집약적 및 멀티미디어 애플리케이션들에서 흔히 발견된다. 축소 연산들은 유닛 스트라이딩된(unit strided) 또는 비유닛 스트라이딩된 액세스 패턴을 가지고 스칼라 또는 어레이에 대해 조건부로 또는 무조건부로 실행될 수 있다. 벡터 길이 미만인 액세스 스트라이드 거리를 가진 어레이 축소 루프들은 사전적 후방 루프 전달된 흐름 의존성(lexically-backward loop-carried flow dependency)의 존재 때문에 현행의 컴파일러들에 의해서는 백터화될 수 없다.

기존 명령어들은 비유닛 스트라이드를 가진 결합 어레이 축소 연산들을 캡슐화하지 않고, 또한 조건부로 실행되는 유닛 스트라이드를 가진 결합 어레이 축소 연산들을 캡슐화하지 않는다. 기존 명령어들의 제한들은 소정 유형들의 축소 루프들의 벡터화를 저지하고, 따라서 성능의 손실을 초래할 수 있다.

실시예들은 첨부된 도면들의 그림들에서 제한적인 것이 아니라 예를 드는 식으로 도해된다:
도 1은 일 실시예에 따른 벡터 축소 명령어의 예를 도해한다.
도 2a-2c는 일 실시예에 따른 벡터 축소 명령어의 추가적 예들을 도해한다.
도 3은 일 실시예에 따라 벡터의 두 가지 상이한 시프팅된 버전들에 대해 벡터 축소 연산을 적용하는 예를 도해한다.
도 4는 일 실시예에 따라 벡터 축소 연산을 실행하기 위한 하드웨어 유닛을 도해하는 블록도이다.
도 5는 일 실시예에 따라 벡터 축소 명령어에 응답하여 실행될 연산들을 도해하는 흐름도이다.
도 6은 일 실시예에 따라 소스 명령어 세트에서의 이진 명령어들을 타깃 명령어 세트에서의 이진 명령어들로 변환하는 소프트웨어 명령어 변환기의 사용을 예시하는 블록도이다.
도 7a는 일 실시예에 따른 순차적 및 비순차적 파이프라인의 블록도이다.
도 7b는 일 실시예에 따른 순차적 및 비순차적 코어의 블록도이다.
도 8a-8b는 일 실시예에 따른 더 특정적인 예시적 순차적 코어 아키텍처의 블록도들이다.
도 9는 일 실시예에 따른 프로세서의 블록도이다.
도 10은 일 실시예에 따른 시스템의 블록도이다.
도 11은 일 실시예에 따른 제2 시스템의 블록도이다.
도 12는 본 발명의 실시예에 따른 제3 시스템의 블록도이다.
도 13은 일 실시예에 따른 SoC의 블록도이다.

후속하는 설명에서, 수많은 특정 세부 사항들이 제시된다. 그러나, 본 발명의 실시예들이 이러한 특정한 세부 사항들 없이도 실시될 수 있다는 것이 이해된다. 다른 사례들에서, 공지된 회로들, 구조들 및 기술들은 이 설명의 이해를 모호하게 하지 않기 위해 상세히 보여지지 않았다.

본 명세서에서 기술되는 실시예들은 벡터 레지스터 내의 데이터 종속성들이 존재하는 경우에 결합 축소 연산을 수행하는 새로운 명령어들의 클래스("벡터 축소 명령어들"로도 지칭됨)를 제공한다. 데이터 종속성 거리("스트라이드 거리"로도 지칭됨)는 1보다 더 클 수 있는 양의 정수이다. 1보다 큰 스트라이드 거리는 본 명세서에서 "비유닛(non-unit)" 스트라이드 거리로서 지칭된다. 비유닛 스트라이드 거리는 벡터 축소 명령어들에 대한 입력으로서 특정되고, 또한 잠재적으로 상호 의존적 축소 결과들을 계산하기 위해 이용된다. 덧붙여, 벡터 축소 명령어들은 결합 축소 연산들이 조건부로 및 올바르게 실행되는 것을 허용하는데, 이것은 값 전파(value propagation) 접근법을 이용하는 기존 하드웨어 축소 기법을 넘어서는 향상이다. 값 전파 접근법은 서술된 어레이 축소(predicated array reduction)의 벡터화를 일반적으로 억제한다. 그러므로, 본 명세서에서 기술되는 실시예들은 결합 축소 루프들이 더 넓은 범위에서 성능을 향상시키는 잠재력을 갖는다.

벡터 축소 명령어들은 데이터 성분의 어레이에 대해 조건부로 실행될 수 있는 흔히 사용되는 결합 축소 연산들의 표현을 가능하게 한다. 벡터 축소 명령어들은 또한 비유닛 스트라이딩된 메모리 참조 패턴을 가진 축소 연산들에 적용가능하다. 벡터 축소 명령어들은 컴파일러에게 다양한 유형의 결합 축소 루프들을 백터화하는 능력을 제공한다.

하기는 실행되고 있는 루프의 예인데, 여기서 스트라이드 거리는 1이다:

표 1은 루프 실행의 입력 및 출력 데이터 값들을 보여준다. 표 1의 예에서, 축소 연산은 선행 성분 값을 먼저 판독하고 이후 이것을 제2 가산 피연산자 값(즉, X)과 가산함으로써 각각의 인에이블링된 성분에 대해 실행된다. 표 1에서, 각각의 열은 루프의 1회 반복을 표시하고, 최종 행에서의 B[i]는 출력 결과를 표시한다:

본 명세서에서 기술되는 실시예들은 올바르게 및 효율적으로 유닛 스트라이드 시나리오들에 대해 표 1에 도시된 바와 같은 결과를 발생할 뿐만 아니라, 올바르게 및 효율적으로 비유닛 스트라이드 시나리오들에 대한 결과들을 발생한다. 비유닛 스트라이드를 가진 루프의 예는 다음과 같은데, 여기서 스트라이드 거리(i1)는 1보다 더 클 수 있다.

축소 연산은 s의 상수 스트라이드 길이를 갖는 어레이 B의 누적 합들을 계산하기 위해 조건(A[i]!=0)에 의해 지켜진다(guarded). 예를 들어, 어레이 A의 모든 성분들이 비 제로들이고(즉, if 문이 무조건부가 된다), 및 어레이 B = {a, b, c, d, e, f, g, h}라고 가정하자. 2의 스트라이드 거리를 가진 어레이 B의 누적 합들은 {a, b, a+c, b+d, a+c+e, b+d+f, a+c+e+g, b+d+f+h}이다. 컴파일러는 B[i]에의 기입으로부터 B[i-i1]로부터의 판독까지의 사전적 후방 교차 반복 흐름 의존성(lexically-backward cross-iteration flow dependence) 때문에 이 루프를 백터화할 수 없다. 그와 같은 클래스의 결합 축소 연산의 매핑을 허용하는 벡터 축소 명령어들을 갖는 것이 성능을 위해 유용하다.

본 발명의 실시예들에 따라, 가산적 축소를 위한 새로운 벡터 축소 명령어들은 다음과 같다: vRunningAddWithStride[BWDQ] v1, k1, v2, v3, i1(여기서 [BWDQ]는 벡터 성분들의 유형들을 byte/word/dword/qword/float/double로서 표시하는데; 또는 보다 상세하게는: 바이트, 워드, 더블워드, 쿼드워드, 부동 소수점 수, 또는 배정도 부동 소수점 수). 벡터 축소 명령어들은 승산, 비트별 AND, 비트별 OR, MIN, MAX 뿐만 아니라 기타 산술 또는 논리 연산자들을 포함하는 그 외의 결합 축소 연산들(이들 중 일부는 또한 가환적임)을 특정할 수 있다.

벡터 축소 명령어들은 술어 마스크 입력(k1)을 입력으로 취한다. 일 실시예에서, 술어 마스크(predicate mask)는 한 쌍의 소스 데이터 성분들에 대한 결합 축소 연산의 실행을 지키기 위해 하나의 마스크 비트를 포함하는 마스크 레지스터에 저장된다. 일 실시예에서, 1의 마스크 비트 값은 "참" 조건인데, 이것은 결합 축소 연산들이 진행되도록 허용하거나 그 결과가 저장되도록 허용한다. 0의 마스크 비트 값은 "거짓" 조건을 정의하고, 이것은 결합 축소 연산이 진행되는 것을 거부하거나 또는 그 결과가 저장되는 것을 거부한다. 그러므로, 1의 마스크 비트에 의해 제어되는 소스 데이터 성분은 결합 축소 연산에 참여하도록 "인에이블링되는" 반면, 0의 마스크 비트에 의해 제어되는 소스 데이터 성분은 "디스에이블링된다". 대안 실시예에서, 참 및 거짓의 정의들은 1 및 0의 마스크 비트 값들에 대하여 역전될 수 있다. 또 다른 실시예에서, 마스크 레지스터에서의 각각의 술어 마스크는 1 비트보다 클 수 있다.

결합 축소 연산의 실행을 지키는 술어 마스크 입력(k1)에 더하여, 벡터 축소 명령어들은 또한 스트라이드 거리 값(i1)을 입력으로 취하는데, 이것은 양의 정수이다. 이 명령어는 i1의 스트라이드 거리를 이용하여, v3에서의 가산 피연산자들과의 v1에서의 데이터 성분들에 대한 "스트라이딩된" 벡터 가산적 축소를 실행함으로써 목적지 벡터 v1을 갱신한다. 술어 마스크 k1에 의해 디스에이블링되는 데이터 성분들은 축소에 참여하지 않는다. 마스크 k1에 의해 디스에이블링되는 소스 벡터 v2의 최종 i1 성분들은 v1에 복사된다.

도 1은 일 실시예에 따른 새로운 벡터 축소 명령어 vRunningAddWithStride의 예를 도해한다. 이 명령어는 제1 벡터 레지스터 v1, 제2 벡터 레지스터 v2, 제3 벡터 레지스터 v3, 마스크 레지스터 k1, 및 2의 스트라이드 거리를 포함하는 소스 피연산자들을 갖는다. 제1 벡터 레지스터 v1은 소스 피연산자와 목적지 피연산자 양쪽이 된다. 총 8개의 데이터 성분이 각각의 벡터 레지스터들에 보여지기는 하였지만, 각각의 벡터 레지스터가 임의 개수의 데이터 성분들을 포함할 수 있다는 것이 이해된다. 더욱이, 각각의 데이터 성분은 바이트, 워드, 더블워드, 쿼드워드, 부동 소수점 수, 또는 배정도 부동 소수점 수일 수 있다.

도 1의 예에서, 성분 위치들 1, 3, 5 및 7은 대응하는 마스크 레지스터 값에 의해 디스에이블링된다 (여기서 마스크 값은, 본 예에서 0에 의해 표시된 것처럼, 거짓이다). 디스에이블링된 성분 위치들에 위치하는 출력 데이터 성분들은 정사각형 아웃라인들로 도시된다. 스트라이드 거리가 2이므로, 소스 벡터 v2의 최종 2개의 데이터 성분만이 v1의 대응하는 성분 위치들에 복사되기 위한 후보들이다. K1[6]가 참이고 k1[7]이 거짓이므로, v2[7]만이 v1[7]에 복사된다. v1[1], v1[3] 및 v1[5]의 값들에는 어떤 변화도 없다.

다른 한편, 성분 위치들 0, 2, 4 및 6은 대응하는 마스크 레지스터 값에 의해 인에이블링된다(여기서 마스크 값은 본 예에서 1에 의해 표시된 것처럼 참이다). 이러한 위치들에서의 v1의 각각의 데이터 성분에 대해, 가산 연산이 v1의 이전 데이터 성분과 현재 성분 위치에서의 v3의 데이터 성분에 대해 실행된다. 이 예에서, v3의 각각의 데이터 성분은 상수 값 2이다. 이전 데이터 성분의 로케이션은 현재 성분 위치 - 스트라이드 거리 modulo 벡터 길이 VL(이것은 본 예에서 8임)이다. v1[0]에 대해, 그 이전 데이터 성분은 v1[6]인데, 이것은 (현재 성분 위치 - 스트라이드 거리) AND (VL - 1)에 의해 계산될 수 있는데, 여기서 AND는 비트별 AND 연산자를 나타낸다. 수직 점선은 데이터 성분들의 랩어라운드 부분(wrapped around portion)을 분리하도록 도시된다.

예에 도시된 바와 같이, 가산 연산은, 대응하는 마스크 값들에 의해 인에이블링되는 그런 데이터 성분들만이 가산 연산을 받기 때문에, 선택적으로 v1의 데이터 성분에 적용된다. 또한, 가산 연산은 v1의 각각의 데이터 성분에 순차적으로 적용된다. 그러므로, v1[0]이 이전 가산 연산에 의해 처리되었고 그 값이 (a+2)에 갱신된 후에, 결과적 v1[2]는 v1[0]에 v3[2]를 더한 것의 합이다. 유사하게, v1[4]과 v1[6]에 대해, 해당 이전 데이터 성분이 이전 가산 연산에 의해 처리되고 갱신된 후, 각각의 이들 데이터 성분들은 v1의 이전 데이터 성분에 v3의 대응 성분을 더한 것의 합과 동등하다.

벡터 명령어 vRunningAddWithStride에 대한 의사 코드의 예가 하기에 기술된다. 이 예에서, VL은 벡터 길이인데, 이것은 Q(qword)에 대해 8이며, D(dword)에 대해 16이며, W(word)에 대해 32이며, 및 B(byte)에 대해 64이다.

스트라이드 거리가 벡터 길이(VL)보다 크거나 그와 동등할 때, 새로운 축소 가산 명령어는 정규 벡터 가산과 동일한 방식으로 행동한다는 것이 주목되는데, 여기서 그 차순의 부분 합들에 의해 이용되는 어떠한 사전 계산된 부분 합도 없다. 즉, 어떤 종속성들도 이 시나리오에서 벡터 레지스터 내에 존재하지 않는다.

도 2a-2c는 3의 스트라이드 거리를 가진 새로운 축소 가산 연산의 세 가지 예를 도해한다. 도 1의 예와 유사하게, 명령어는 제1 벡터 레지스터 v1, 제2 벡터 레지스터 v2, 제3 벡터 레지스터 v3, 마스크 레지스터 k1, 및 3의 스트라이드 거리를 포함하는 소스 피연산자들을 갖는다. 제1 벡터 레지스터 v1은 소스 피연산자 및 목적지 피연산자의 양쪽이 된다. 도 2a의 예에서, 마스크 레지스터 k1에서의 모든 데이터 성분들은 1들(참들)이다. 그러므로, 결과적 v1의 각각의 데이터 성분은 v1의 이전 데이터 성분(이것은 현재 성분 위치 modulo 벡터 길이로부터 3 스트라이드 떨어짐)에 현재 성분 위치에서의 v3의 데이터 성분을 더한 것이다. 예를 들어, v1[0]= v1[5] + v3[0], v1[3] = v1[0] + v3[3], 기타 등등과 같이 된다. 앞서 기술한 대로, v1[3]의 합에 사용되는 v1[0]은 갱신된 v1[0] = a+2 이다(최초 v1[0]=d가 아님). 도 2b의 예에서, 마스크 레지스터 k1에서의 모든 데이터 성분들은 0들(거짓들)이다. 그러므로, 결과적 v1의 처음 5개의 데이터 성분은 이들의 제각기 최초 값들로부터 변하지 않는다(VL - 스트라이드 거리 = 8 - 3 = 5이므로). v1의 최종 3개의 데이터 성분(여기서 3 = 스트라이드 거리)은 대응하는 성분 위치들에서 v2의 데이터 성분들로부터 복사된다. 도 2c의 예에서, 위치들 1, 3, 5 및 7의 데이터 성분들은 0의 마스크 값에 의해 디스에이블링되고; 그러므로, v1[1] 및 v[3]은 이들의 제각기 최초 값들을 유지하고(이들이 v1의 처음의 5개의 데이터 성분 중에 있으므로), 및 v1[5] 및 v1[7]은 v2[5] 및 v2[7]로부터 복사된 값들을 갖는다(이들이 v1의 최종 3개의 데이터 성분 중에 있으므로). 위치들 0, 2, 4 및 6의 데이터 성분들은 1의 마스크 값에 의해 인에이블링된다; 그러므로, 이들 위치들에서의 각각의 결과적 v1은 이들 위치들에서의 이전 데이터 성분과 대응하는 v3의 합이다. 이 예에서의 이전 데이터 성분은 현재 처리되고 있는 성분 위치 전의 (랩어라운드를 가진) 3개의 성분 위치에 위치한다.

새로운 명령어를 이용하는 예가 하기 가산적 축소 루프에 보여진다:

새로운 벡터 축소 명령어의 주어진 의미 관계에 의해, 상기 루프의 제1 벡터 반복에서의 입력과 출력 데이터가 VL=8로 취하여 도 3에 보여진다. 이 예에서, 스트라이드 거리는 3이다. (랩어라운드를 가지며) 3개 위치만큼 좌측 시프팅된 후에, B의 처음의 8개의 데이터 성분이 v1 내로 로드된다. 즉, v1 = B[3:7, 0:2]. B[3:10]인, 3개 위치만큼 (랩어라운드 없이) 좌측 시프팅된 B가 v2 내로 로드된다. 마스크 레지스터 k1은 A[i]에 따라 설정되고, v3은 2의 정수 가수(addend)들의 어레이를 포함한다. 이 예에서의 축소 루프는 벡터 명령어들의 하기 시퀀스를 이용하여 백터화될 수 있다:

도 4는 벡터 축소 명령어 vRunningAddWithStride를 실행하는 하드웨어 유닛의 실시예의 블록도이다. 소스 피연산자들이 입력 벡터 레지스터 v1, v2 및 v3, 및 마스크 레지스터 k1 내로 로드될 수 있다. 스트라이드 거리("stride")는 셀렉터(450)에 입력되고, 루프 인덱스가 시퀀서(460)에 의해 발생된다. 시퀀서(460)의 출력은 루프 인덱스이고, seg로서 표시된다. 셀렉터(450)는 v1의 이전 데이터 성분을 결정하기 위해 (seq-stride) & (VL-1)의 로직을 구현한다. 비교기(440)는 시퀀서 출력(seg)이 (VL-stride)보다 큰지를 결정하고, 다중화기(410)를 제어하기 위해 비교 결과를 이용한다. 시퀀서 출력이 (VL-stride)보다 크거나 그와 동등하다면, 현재 루프 인덱스에 대한 v2의 데이터 성분이 선택된다. 시퀀서 출력이 (VL-stride)보다 크지 않다면, 현재 루프 인덱스에 대한 v1의 데이터 성분이 선택된다. 하드웨어 유닛은 가산기(430)를 포함하는데, 이것은 현재 루프 인덱스에 대해 (셀렉터(450)에 의해 결정되는) v1의 이전 데이터 성분과 v3의 데이터 성분을 가산한다. 현재 루프 인덱스에 대한 마스크 데이터 성분(예를 들어, 마스크 비트)은 다중화기(420)을 제어하기 위해 이용된다. 마스크 비트가 참이면, 가산기(430)의 출력이 v1 내에 기입된다. 마스크 비트가 거짓이면, 다중화기(410)의 출력이 v1 내에 기입된다.

가산 연산만이 상기 예들에서 기술되기는 하였지만, 새로운 벡터 축소 명령어들이 승산, 비트별 AND, 비트별 OR, MIN, MAX 및 다른 산술 또는 논리 연산자들을 포함하는 다른 결합 축소 연산들(그 일부는 또한 가환적임)을 특정할 수 있다는 것을 알 것이다. 가산기(430)는 상이한 산술 또는 논리 연산을 실행하기 위한 상이한 산술 또는 논리 유닛에 의해 대체될 수 있다. 하드웨어 유닛은 프로세서, 프로세서 내의 코어, 코어 내의 실행 유닛에 위치할 수 있거나, 특수 목적 하드웨어 회로에 의해 구현될 수 있다.

도 5는 일 실시예에 따라 벡터 축소 명령어를 실행하기 위한 방법 500의 흐름도이다. 벡터 축소 명령어는 제1 벡터 레지스터, 제2 벡터 레지스터, 제3 벡터 레지스터, 마스크 레지스터 및 스트라이드 거리를 포함하는 소스 피연산자들을 특정한다. 일 실시예에서, 목적지 피연산자는 제1 벡터 레지스터이다. 대안 실시예에서, 목적지 피연산자는 상이한 벡터 레지스터일 수 있다. 방법 500은 프로세서(보다 상세하게는, 도 7b의 실행 엔진 유닛(750)과 같은 실행 회로)가 제1 벡터 레지스터의 데이터 성분들에 대한 결합 축소 연산을 수행하기 위해 벡터 축소 명령어를 수신하는 것으로 시작한다 (블록 510). 마스크 레지스터의 값들 및 처리되고 있는 현재 성분 위치("위치 P", 이것은 예를 들어 루프 인덱스일 수 있음)에 기초하여, 프로세서는 제1 벡터 레지스터의 하나 이상의 데이터 성분들을, 제1 벡터 레지스터의 이전 데이터 성분 및 제3 벡터 레지스터의 데이터 성분 양쪽에 적용되는 결합 축소 연산에 의해 발생되는 결과값으로 순차적으로 설정하는데, 여기서 이전 데이터 성분은 위치 P로부터 하나의 성분 위치보다 더 멀리 떨어져 위치한다(블록 520).

일 실시예에서, 위치 P에서의 마스크 값(예를 들어, 마스크 비트)이 거짓일 때, 프로세서는, 위치 P의 값에 의존하여, 위치 P에서의 제1 벡터 레지스터의 데이터 성분을 위치 P에서의 제2 벡터 레지스터의 데이터 성분의 값으로 설정하거나, 또는 변화 없이 위치 P에서의 제1 벡터 레지스터의 데이터 성분을 유지할 수 있다.

일 실시예에서, 위치 P에서의 마스크 값이 참일 때, 프로세서는 위치 P에서의 제1 벡터 레지스터의 데이터 성분을, 제1 벡터 레지스터의 이전 데이터 성분과 제3 벡터 레지스터의 데이터 성분 양쪽에 적용되는 결합 축소 연산에 의해 발생되는 결과값으로 설정할 수 있다. 이전 데이터 성분은 위치 P - 스트라이드 거리 modulo 제1 벡터 레지스터의 벡터 길이에 위치한다.

다양한 실시예들에서, 도 5의 방법은 범용 프로세서, 특수 목적 프로세서(예컨대, 그래픽 프로세서 또는 디지털 신호 프로세서), 또는 또 다른 유형의 디지털 로직 디바이스 또는 명령어 처리 장치에 의해 실행될 수 있다. 몇몇 실시예들에서, 도 5의 방법은 도 7a-b, 8a-b와 9-13에 도시된 실시예들과 같이, 프로세서, 장치 또는 시스템에 의해 수행될 수 있다. 더욱이, 도 7a-b, 8a-b와 9-13에 도시된 프로세서, 장치, 또는 시스템은 도 5의 방법의 것들과 동일하거나, 유사하거나, 또는 상이한 동작들 및 방법들의 실시예들을 수행할 수 있다.

몇몇 실시예들에서, 도 7a-b, 8a-b 및 9-13에 도시된 프로세서, 장치, 또는 시스템은 소스 명령어 세트로부터의 명령어를 타깃 명령어 세트로 변환하는 명령어 변환기와 연계하여 동작할 수 있다. 예를 들어, 명령어 변환기는 한 명령어를 코어에 의해 처리될 하나 이상의 다른 명령어들로 (예를 들어, 정적 이진 번역, 동적 편집을 포함하는 동적 이진 번역을 이용하여) 번역하거나, 모핑하거나, 에뮬레이팅하거나, 또는 다른 방식으로 변환할 수 있다. 명령어 변환기는 소프트웨어, 하드웨어, 펌웨어, 또는 이들의 조합으로 구현될 수 있다. 명령어 변환기는 온 프로세서(on processor), 오프 프로세서(off processor), 또는 일부는 온 프로세서이고 일부는 오프 프로세서일 수 있다.

도 6은 본 발명의 실시예들에 따른 소프트웨어 명령어 변환기의 사용을 대비시키는 블록도이다. 예시된 실시예에서, 명령어 변환기는 소프트웨어 명령어 변환기이지만, 대안적으로 명령어 변환기는 소프트웨어, 펌웨어, 하드웨어, 또는 이것들의 다양한 조합들로 구현될 수 있다. 도 6은 고급 언어(602)로 된 프로그램이 x86 컴파일러(604)를 이용하여 컴파일링되어 적어도 하나의 x86 명령어 세트 코어를 구비한 프로세서(616)에 의해 선천적으로 실행될 수 있는 x86 이진 코드(606)를 생성할 수 있다는 것을 보여준다. 적어도 하나의 x86 명령어 세트 코어를 구비한 프로세서(616)는, 적어도 하나의 x86 명령어 세트 코어를 구비한 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위하여, (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 상당한 부분 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 구비한 인텔 프로세서상에서 실행되는 것을 목표로 하는 애플리케이션들 또는 기타 소프트웨어의 오브젝트 코드 버전들을 호환 가능하게 실행하거나 기타 방식으로 처리함으로써 적어도 하나의 x86 명령어 세트 코어를 구비한 인텔 프로세서와 실질적으로 동일한 기능들을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(604)는, 추가의 연계(linkage) 처리와 함께 또는 이것 없이, 적어도 하나의 x86 명령어 세트 코어를 구비한 프로세서(616)상에서 실행될 수 있는, x86 이진 코드(606)(예를 들어, 오브젝트 코드)를 생성하도록 동작 가능한 컴파일러를 나타낸다. 유사하게, 도 6은 고급 언어(602)로 된 프로그램이 대안 명령어 세트 컴파일러(608)를 사용하여 컴파일링되어 적어도 하나의 x86 명령어 세트 코어를 구비하지 않은 프로세서(614)(예컨대, 미국 캘리포니아주 서니베일 소재의 MIPS 테크놀로지스사의 MIPS 명령어 세트를 실행하는 및/또는 미국 캘리포니아주 서니베일 소재의 ARM 홀딩스사의 ARM 명령어 세트를 실행하는 코어들을 구비한 프로세서)에 의해 선천적으로 실행될 수 있는 대안 명령어 세트 이진 코드(610)를 생성할 수 있다는 것을 보여준다. 명령어 변환기(612)는 x86 이진 코드(606)를 x86 명령어 세트 코어를 구비하지 않은 프로세서(614)에 의해 선천적으로 실행될 수 있는 코드로 변환하는데 사용된다. 이 변환된 코드는 대안 명령어 세트 이진 코드(610)와 동일할 것 같지는 않은데, 그 이유는 이것을 할 수 있는 명령어 변환기를 만들기가 어렵기 때문이다; 그러나, 변환된 코드는 일반 연산을 달성할 것이고 대안 명령어 세트로부터의 명령어들로 이루어져 있을 것이다. 따라서, 명령어 변환기(612)는 에뮬레이션, 시뮬레이션, 또는 임의의 다른 처리를 통해 x86 명령어 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스가 x86 이진 코드(606)를 실행하게 허용하는 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 나타낸다.

예시적 코어 아키텍처들

순차적 및 비순차적 코어 블록도

도 7a는 본 발명의 실시예들에 따른 예시적인 순차적(in-order) 파이프라인과 예시적인 레지스터 리네이밍 비순차적(out-of-order) 발행/실행 파이프라인 모두를 예시하는 블록도이다. 도 7b는 본 발명의 실시예들에 따른 프로세서에 포함될 순차적 아키텍처 코어와 예시적인 레지스터 리네이밍 비순차적 발행/실행 아키텍처 코어의 예시적 실시예 모두를 예시하는 블록도이다. 도 7a 및 도 7b에서의 실선 박스들은 순차적 파이프라인 및 순차적 코어를 예시하는 반면에, 점선 박스들의 옵션적인 추가는 레지스터 리네이밍 비순차적 발행/실행 파이프라인 및 코어를 예시한다. 순차적 양태가 비순차적 양태의 부분 집합이라는 것을 고려하여, 비순차적 양태가 설명될 것이다.

도 7a에서, 프로세서 파이프라인(700)은, 페치 스테이지(fetch stage)(702), 길이 디코딩 스테이지(704), 디코딩 스테이지(706), 할당 스테이지(708), 리네이밍 스테이지(710), (디스패치 또는 발행이라고도 알려진) 스케줄링 스테이지(712), 레지스터 판독/메모리 판독 스테이지(714), 실행 스테이지(716), 라이트 백(write back)/메모리 기입 스테이지(718), 예외 처리 스테이지(722), 및 커밋 스테이지(724)를 포함한다.

도 7b는 실행 엔진 유닛(750)에 결합된 프론트 엔드 유닛(front end unit)(730)을 포함하는 프로세서 코어(790)를 도시하며, 양자 모두는 메모리 유닛(770)에 결합된다. 코어(790)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어, 또는 복합형 또는 대안 코어 타입일 수 있다. 또 다른 옵션으로서, 코어(790)는, 예를 들어, 네트워크 또는 통신 코어, 압축 엔진, 보조프로세서 코어, 범용 컴퓨팅 그래픽 프로세싱 유닛(GPGPU) 코어, 그래픽 코어 또는 그와 유사한 것과 같은 특수 목적 코어일 수 있다.

프론트 엔드 유닛(730)은, 디코딩 유닛(740)에 결합되는 명령어 페치 유닛(738)에 결합되는 명령어 TLB(translation lookaside buffer)(736)에 결합되는 명령어 캐시 유닛(734)에 결합되는 브랜치 예측 유닛(732)을 포함한다. 디코딩 유닛(740)(또는 디코더)은 명령어들을 디코딩할 수 있으며, 또한 최초 명령어들로부터 디코딩되거나 다른 경우에는 이들을 반영하거나, 또는 이들로부터 도출되는, 하나 이상의 마이크로 연산들, 마이크로 코드 엔트리 포인트들, 마이크로 명령어들, 기타 명령어들 또는 다른 제어 신호들을 출력으로서 생성할 수 있다. 디코딩 유닛(740)은 다양하고 상이한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘들의 예들은 룩업 테이블들, 하드웨어 구현들, PLA들(programmable logic arrays), 마이크로 코드 ROM들(read only memories), 기타 등등을 포함하지만 이것들에만 한정되지는 않는다. 일 실시예에서, 코어(790)는 특정 매크로 명령어들에 대한 마이크로 코드를 저장하는 마이크로 코드 ROM 또는 다른 매체를 (예를 들어, 디코딩 유닛(740) 내에 또는 그렇지 않은 경우에는 프론트 엔드 유닛(730) 내에) 포함한다. 디코딩 유닛(740)은 실행 엔진 유닛(750)에서의 리네이밍/할당기 유닛(752)에 결합된다.

실행 엔진 유닛(750)은, 리타이어먼트 유닛(754) 및 하나 이상의 스케줄러 유닛(들)(756)의 세트에 결합되는 리네이밍/할당기 유닛(752)을 포함한다. 스케줄러 유닛(들)(756)은, 명령어 대기열들(reservations stations), 중앙 명령어 윈도, 기타 등등을 포함하는 임의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(756)은 물리적 레지스터 파일(들) 유닛(들)(758)에 결합된다. 물리적 레지스터 파일(들) 유닛들(758) 각각은 하나 이상의 물리적 레지스터 파일들을 나타내고, 이들 중 상이한 것들은 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예로서, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등과 같은 하나 이상의 상이한 데이터 타입들을 저장한다. 일 실시예에서, 물리적 레지스터 파일(들) 유닛(758)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛, 및 스칼라 레지스터 유닛을 포함한다. 이러한 레지스터 유닛들은 아키텍처 벡터 레지스터들, 벡터 마스크 레지스터들, 및 범용 레지스터들을 제공할 수 있다. 레지스터 리네이밍 및 비순차적 실행이 구현될 수 있는 다양한 방식들[예컨대, 리오더 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하는 것; 장래 파일(future file)(들), 이력 버퍼(history buffer)(들), 및 리타이어먼트 레지스터 파일(들)을 사용하는 것; 레지스터 맵 및 레지스터들의 풀(pool)을 사용하는 것 등]을 예시하기 위해, 물리적 레지스터 파일(들) 유닛(들)(758)이 리타이어먼트 유닛(754)과 중첩되어 있다. 리타이어먼트 유닛(754) 및 물리적 레지스터 파일(들) 유닛(들)(758)은 실행 클러스터(들)(760)에 결합된다. 실행 클러스터(들)(760)는 하나 이상의 실행 유닛(762)의 세트, 및 하나 이상의 메모리 액세스 유닛들(764)의 세트을 포함한다. 실행 유닛들(762)은 다양한 타입의 데이터(예로서, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예로서, 시프트, 가산, 감산, 승산)을 수행할 수 있다. 몇몇 실시예들은 특정한 기능이나 기능 세트에 전용된 복수의 실행 유닛을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛, 또는 모두가 모든 기능들을 수행하는 다중 실행 유닛을 포함할 수도 있다. 스케줄러 유닛(들)(756), 물리적 레지스터 파일(들) 유닛(들)(758), 및 실행 클러스터(들)(760)는 가능하게는 복수 개인 것으로 도시되어 있는데, 그 이유는 특정 실시예들은 특정 타입들의 데이터/연산들에 대해 별개의 파이프라인들(예를 들어, 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 각각이 자신의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛, 및/또는 실행 클러스터를 갖는 메모리 액세스 파이프라인, 여기서 별개의 메모리 액세스 파이프라인의 경우에 이 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(764)을 갖는 특정 실시예들이 구현됨)을 생성할 수 있기 때문이다. 별개의 파이프라인들이 이용되는 경우, 이들 파이프라인들 중 하나 이상은 비순차적 발행/실행이고 나머지는 순차적일 수 있다는 점도 이해하여야 한다.

메모리 액세스 유닛들(764)의 세트는 메모리 유닛(770)에 결합되고, 메모리 유닛은 레벨 2(L2) 캐시 유닛(776)에 결합된 데이터 캐시 유닛(774)에 결합된 데이터 TLB 유닛(772)을 포함한다. 하나의 예시적 실시예에서, 메모리 액세스 유닛들(764)은 로드 유닛, 저장 어드레스 유닛, 및 저장 데이터 유닛을 포함할 수 있으며, 이들 각각은 메모리 유닛(770)에서의 데이터 TLB 유닛(772)에 결합된다. 명령어 캐시 유닛(734)은 메모리 유닛(770)에서의 레벨 2(L2) 캐시 유닛(776)에 추가로 결합된다. L2 캐시 유닛(776)은 하나 이상의 다른 레벨의 캐시에 그리고 결국에는 주 메모리에 결합된다.

예시로서, 예시적인 레지스터 리네이밍, 비순차적 발행/실행 코어 아키텍처는 다음과 같이 파이프라인(700)을 구현할 수 있다: 1) 명령어 페칭(738)이 페치 및 길이 디코딩 스테이지(702 및 704)를 실행하고, 2) 디코딩 유닛(740)이 디코딩 스테이지(706)를 실행하고, 3) 리네이밍/할당기 유닛(752)이 할당 스테이지(708) 및 리네이밍 스테이지(710)를 실행하고, 4) 스케줄러 유닛(들)(756)이 스케줄링 스테이지(712)를 실행하고, 5) 물리적 레지스터 파일(들) 유닛(들)(758) 및 메모리 유닛(770)이 레지스터 판독/메모리 판독 스테이지(714)를 수행하고, 실행 클러스터(760)가 실행 스테이지(716)를 수행하고, 6) 메모리 유닛(770) 및 물리적 레지스터 파일(들) 유닛(들)(758)이 라이트 백/메모리 기입 스테이지(718)를 수행하고; 7) 다양한 유닛들이 예외 처리 스테이지(722)에 수반될 수 있고, 및 8) 리타이어먼트 유닛(754) 및 물리적 레지스터 파일(들) 유닛(들)(758)이 커밋 스테이지(724)를 수행한다.

코어(790)는, 여기 기술된 명령어(들)를 포함하여, 하나 이상의 명령어 세트들[예컨대, (보다 최신의 버전으로 추가된 몇몇 확장을 갖는) x86 명령어 세트; 미국 캘리포니아주 서니베일 소재의 MIPS 테크놀로지사의 MIPS 명령어 세트; 미국 캘리포니아주 서니베일 소재의 ARM 홀딩스사의 (NEON 등의 선택적 부가 확장을 갖는) ARM 명령어 세트]를 지원할 수 있다. 일 실시예에서, 코어(790)는 패킹된 데이터 명령어 세트 확장(예로서, SSE, AVX1, AVX2 등)을 지원하기 위한 로직을 포함하며, 그에 따라 많은 멀티미디어 애플리케이션들에 의해 사용되는 연산들이 패킹된 데이터를 이용하여 실행되는 것을 가능하게 한다.

코어는 멀티스레딩(연산들 또는 스레드들의 2개 이상의 병렬 세트들을 실행하는 것)을 지원할 수 있고 또한 시분할 멀티스레딩(time sliced multithreading), (물리적 코어가 동시 멀티스레딩하고 있는 스레드들의 각각에 대해 단일 물리적 코어가 논리 코어를 제공하는) 동시 멀티스레딩, 또는 이들의 조합(예를 들어, Intel®Hyperthreading 기술에서와 같은 타임 슬라이스 페칭 및 디코딩 및 그 이후의 동시 멀티스레딩)을 포함하는 다양한 방식으로 멀티스레딩을 지원할 수 있다는 것을 이해하여야 한다.

레지스터 리네이밍이 비순차적 실행의 맥락에서 설명되었지만, 레지스터 리네이밍은 순차적 아키텍처에서 이용될 수도 있다는 점을 이해하여야 한다. 프로세서의 예시된 실시예는 또한 별개의 명령어 및 데이터 캐시 유닛들(734/774) 및 공유된 L2 캐시 유닛(776)을 포함하고 있지만, 대안적 실시예들은 명령어와 데이터 모두에 대해 단일의 내부 캐시, 예를 들어, 레벨 1(L1) 내부 캐시를 가지거나 복수 레벨의 내부 캐시를 가질 수 있다. 몇몇 실시예들에서, 시스템은 내부 캐시와 코어 및/또는 프로세서의 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 캐시 모두가 코어 및/또는 프로세서에 대해 외부에 있을 수 있다.

특정의 예시적 순차적 코어 아키텍처

도 8a-b는 더욱 구체적이고 예시적인 순차적 코어 아키텍처의 블록도를 도시하는데, 이 코어는 칩 내의 (동일한 타입 및/또는 상이한 타입들의 다른 코어들을 포함하는) 여러 개의 로직 블록들 중 하나일 수 있다. 로직 블록들은 애플리케이션에 의존하여, 어떤 고정 기능 로직, 메모리 I/O 인터페이스들, 및 다른 필요한 I/O 로직에 의해 고 대역폭 상호 접속 네트워크(예를 들어, 링 네트워크)를 통해서 통신한다.

도 8a는 본 발명의 실시예들에 따라, 온 다이 상호 접속 네트워크(802)에게의 접속부 및 레벨 2(L2) 캐시의 로컬 서브세트(804)와 함께 단일 프로세서 코어를 블록도로 도시한 것이다. 일 실시예에서, 명령어 디코더(800)는 패킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(806)는 스칼라 유닛 및 벡터 유닛 내로의 캐시 메모리에 대한 저 지연(low-latency) 액세스를 허용한다. (설계를 간략화하기 위한) 일 실시예에서, 스칼라 유닛(808) 및 벡터 유닛(810)은 별개의 레지스터 세트(제각기, 스칼라 레지스터들(812) 및 벡터 레지스터들(814))를 사용하고, 이들 사이에 전송되는 데이터는 메모리에 기입되고 이후 레벨 1(L1) 캐시(806)로부터 리드 백(read back)되는 반면, 본 발명의 대안 실시예들은 상이한 접근법을 사용할 수 있다(예를 들어, 단일 레지스터 세트를 사용하거나, 또는 라이트 백 및 리드 백되지 않고 데이터가 2개의 레지스터 파일 사이에서 전송되게 허용하는 통신 경로를 포함함).

L2 캐시의 로컬 서브세트(804)는 별개의 로컬 서브세트들이 되도록 분할되는 글로벌 L2 캐시의 일부로서, 프로세서 코어당 하나이다. 각각의 프로세서 코어는 L2 캐시의 그 자신의 로컬 서브세트(804)로의 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독되는 데이터는 그 L2 캐시 서브세트(804)에 저장되고 또한 이들 자신의 로컬 L2 캐시 서브세트들에 액세스하는 다른 프로세서 코어들과 병렬로, 빠르게 액세스될 수 있다. 프로세서 코어에 의해 기입되는 데이터는 그 자신의 L2 캐시 서브세트(804)에 저장되고 또한 필요하다면 다른 서브세트들로부터 플러싱된다. 링 네트워크는 공유 데이터에 대한 일관성(coherency)을 보장한다. 링 네트워크는 양방향성이어서 프로세서 코어들, L2 캐시들 및 다른 로직 블록들과 같은 에이전트들이 칩 내에서 서로 통신하는 것을 허용한다.

도 8b는 본 발명의 실시예들에 따른 도 8a에서의 프로세서 코어의 부분의 확대도이다. 도 8b는 벡터 유닛(810) 및 벡터 레지스터(814)에 대한 더 상세한 부분뿐만 아니라 L1 캐시(804)의 L1 데이터 캐시(806A) 부분을 포함한다. 구체적으로, 벡터 유닛(810)은 16 폭 벡터 프로세싱 유닛(VPU)(16 폭 ALU(828) 참조)이며, 이것은 정수 명령어, 단정밀도 부동 명령어, 및 배정밀도 부동 명령어 중 하나 이상을 실행한다. VPU는 스위즐링 유닛(820)에 의한 레지스터 입력들의 스위즐링(swizzling), 수치 변환 유닛(822A-B)에 의한 수치 변환, 및 메모리 입력에 대한 복제 유닛(824)에 의한 복제를 지원한다. 기입 마스크 레지스터들(826)은 결과적인 벡터 기입들을 서술하는 것을 허용한다.

통합 메모리 컨트롤러 및 그래픽을 갖는 프로세서

도 9는 본 발명의 실시예들에 따라 2개 이상의 코어들을 가질 수 있고, 통합 메모리 컨트롤러를 가질 수 있고, 및 통합 그래픽을 가질 수 있는 프로세서(900)의 블록도이다. 도 9의 실선 박스들은 단일 코어(902A), 시스템 에이전트(910), 하나 이상의 버스 컨트롤러 유닛들(916)의 세트를 구비한 프로세서(900)를 예시하는 반면, 점선 박스들의 옵션적 추가는 다중 코어(902A 내지 902N), 시스템 에이전트 유닛(910) 내의 하나 이상의 통합 메모리 컨트롤러 유닛(들)(914)의 세트, 및 특수 목적 로직(908)을 구비한 대안 프로세서(900)를 예시한다.

그러므로, 프로세서(900)의 상이한 구현들은 다음을 포함할 수 있다: 1) (하나 이상의 코어들을 포함할 수 있는) 통합 그래픽 및/또는 과학용(처리량) 로직인 특수 목적 로직(908) 및 하나 이상의 범용 코어들(예를 들어, 범용 순차적 코어들, 범용 비순차적 코어들, 이 둘의 조합)인 코어(902A 내지 902N)를 구비한 CPU; 2) 그래픽 및/또는 과학용(처리량)을 위해 주로 의도된 많은 수의 특수 목적 코어들인 코어들(902A 내지 902N)을 구비한 보조프로세서; 및 3) 많은 수의 범용 순차적 코어들인 코어들(902A 내지 902N)을 구비한 보조프로세서. 그러므로, 프로세서(900)는 범용 프로세서, 보조프로세서, 또는 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(general purpose graphics processing unit), 고 처리량의 MIC(many integrated core) 보조프로세서(30개 이상의 코어를 포함함), 임베디드 프로세서, 또는 그와 유사한 것과 같은 특수 목적 프로세서일 수 있다. 프로세서는 하나 이상의 칩들상에 구현될 수 있다. 프로세서(900)는 예를 들어, BiCMOS, CMOS, 또는 NMOS와 같은 다수의 프로세스 기술 중 어느 하나를 이용하여 하나 이상의 기판들의 일부가 될 수 있고 및/또는 이들 기판상에 구현될 수 있다.

메모리 계층은 코어들 내의 하나 이상의 레벨의 캐시, 공유 캐시 유닛들(906)의 세트 또는 하나 이상의 공유 캐시 유닛들, 및 통합 메모리 컨트롤러 유닛들(914)의 세트에 결합된 외부 메모리(도시 안됨)를 포함한다. 공유 캐시 유닛들(906)의 세트는 레벨 2(L2), 레벨 3(L3), 레벨 4(L4), 또는 다른 레벨의 캐시와 같은 하나 이상의 중간 레벨 캐시, 최종 레벨 캐시(LLC), 및/또는 이들의 조합을 포함할 수 있다. 일 실시예에서 링 기반 상호 접속 유닛(912)이 통합 그래픽 로직(908), 공유 캐시 유닛들(906)의 세트, 및 시스템 에이전트 유닛(910)/통합 메모리 컨트롤러 유닛(들)(914)을 상호 접속하지만, 대안 실시예에서는 이러한 유닛들을 상호 접속하기 위한 공지 기법들 중 임의의 것을 사용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛들(906)과 코어들(902A 내지 902N) 사이의 일관성이 유지된다.

몇몇 실시예들에서, 코어들(902A 내지 902N) 중 하나 이상은 멀티스레딩을 할 수 있다. 시스템 에이전트(910)는 코어들(902A 내지 902N)을 조정하고 동작시키는 그런 컴포넌트들을 포함한다. 시스템 에이전트 유닛(910)은 예를 들어 전력 제어 유닛(PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(902A 내지 902N) 및 통합 그래픽 로직(908)의 전력 상태를 조절하는데 필요한 로직 및 컴포넌트일 수 있거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부적으로 접속된 디스플레이를 구동하기 위한 것이다.

코어들(902A 내지 902N)은 아키텍처 명령어 세트의 관점에서 동질적이거나 이질적일 수 있다; 즉 코어들(902A 내지 902N) 중 2개 이상은 동일한 명령어 세트를 실행할 수 있는 한편, 그 외의 것들은 해당 명령어 세트의 서브세트 또는 상이한 명령어 세트만을 실행할 수 있다.

예시적인 컴퓨터 아키텍처들

도 10 내지 도 13은 예시적인 컴퓨터 아키텍처들의 블록도이다. 랩톱들, 데스크톱들, 핸드헬드 PC들, PDA들(personal digital assistants), 엔지니어링 워크스테이션들, 서버들, 네트워크 디바이스들, 네트워크 허브들, 스위치들, 임베디드 프로세서들, DSP들(digital signal processors), 그래픽 디바이스들, 비디오 게임 디바이스들, 셋톱박스들, 마이크로 컨트롤러들, 휴대 전화들, 휴대용 미디어 플레이어들, 핸드헬드 디바이스들, 및 다양한 그 밖의 전자 디바이스들에 대해 본 기술 분야에 알려진 다른 시스템 설계들 및 구성들도 적합하다. 일반적으로, 본 명세서에 개시된 바와 같은 프로세서 및/또는 다른 실행 로직을 수용할 수 있는 매우 다양한 시스템들 또는 전자 디바이스들이 일반적으로 적합하다.

이제 도 10을 참조하면, 본 발명의 일 실시예에 따른 시스템(1000)의 블록도가 도시된다. 시스템(1000)은 하나 이상 프로세서들(1010, 1015)을 포함할 수 있고, 이 프로세서들은 컨트롤러 허브(1020)에 결합된다. 일 실시예에서, 컨트롤러 허브(1020)는 (별개의 칩들상에 있을 수 있는) 입력/출력 허브(IOH; 1050) 및 그래픽 메모리 컨트롤러 허브(GMCH; 1090)를 포함하고; GMCH(1090)는 메모리(1040)와 보조프로세서(1045)가 결합되어 있는 메모리 컨트롤러 및 그래픽 컨트롤러를 포함하고; IOH(1050)는 입력/출력(I/O) 디바이스들(1060)을 GMCH(1090)에 결합한다. 대안적으로, 메모리 컨트롤러와 그래픽 컨트롤러 중 하나 또는 모두는 (여기 기술된) 프로세서 내에 통합되고, 메모리(1040) 및 보조프로세서(1045)는 프로세서(1010), 및 IOH(1050)와 단일 칩 내에 있는 컨트롤러 허브(1020)에 직접 결합된다.

추가 프로세서들(1015)의 옵션적 속성은 도 10에서 파선으로 표시되어 있다. 각각의 프로세서(1010, 1015)는 여기서 기술된 프로세서 코어들 중 하나 이상을 포함할 수 있고, 프로세서(900)의 어떤 버전일 수 있다.

메모리(1040)는, 예를 들어, DRAM(dynamic random access memory), PCM(phase change memory), 또는 이 둘의 조합일 수 있다. 적어도 하나의 실시예에 대해, 컨트롤러 허브(1020)는 FSB(frontside bus)와 같은 멀티 드롭 버스, QPI(QuickPath Interconnect)와 같은 포인트 투 포인트 인터페이스, 또는 유사한 접속부(1095)를 통해 프로세서(들)(1010, 1015)와 통신한다.

일 실시예에서, 보조프로세서(1045)는, 예를 들어, 고 처리량 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서, 또는 그와 유사한 것과 같은 특수 목적 프로세서이다. 일 실시예에서, 컨트롤러 허브(1020)는 통합 그래픽 가속기를 포함할 수 있다.

아키텍처, 마이크로아키텍처, 열, 전력 소비 특성, 및 그와 유사한 것을 포함하여 이점에 대한 여러 기준들의 관점에서 물리적인 리소스들(1010, 1015) 간에 다양한 차이가 있을 수 있다.

일 실시예에서, 프로세서(1010)는 일반 타입의 데이터 처리 연산들을 제어하는 명령어들을 실행한다. 명령어들 내에는 보조프로세서 명령어들이 임베디드될 수 있다. 프로세서(1010)는 이들 보조프로세서 명령어들이 소속된 보조프로세서(1045)에 의해 실행되어야 하는 타입인 것으로 인식한다. 따라서, 프로세서(1010)는 보조프로세서 버스 또는 다른 상호 접속부상에서 이러한 보조프로세서 명령어들(또는 보조프로세서 명령어들을 나타내는 제어 신호들)을 보조프로세서(1045)에게 발행한다. 보조프로세서(들)(1045)는 수신된 보조프로세서 명령어들을 수용하고 실행한다.

이제 도 11을 참조하면, 본 발명의 일 실시예에 따른 제1의 더 특정적인 예시적 시스템(1100)의 블록도가 도시된다. 도 11에 도시된 바와 같이, 멀티프로세서 시스템(1100)은 포인트 투 포인트 인터커넥트 시스템이고, 포인트 투 포인트 인터커넥트(1150)를 통해 결합된 제1 프로세서(1170) 및 제2 프로세서(1180)를 포함한다. 프로세서(1170) 및 프로세서(1180) 각각은 프로세서(900)의 어떤 버전일 수 있다. 본 발명의 일 실시예에서, 프로세서들(1170 및 1180)은 제각기 프로세서들(1010 및 1015)인 한편, 보조프로세서(1138)는 보조프로세서(1045)이다. 또 다른 실시예에서, 프로세서들(1170 및 1180)은 제각기 프로세서(1010) 및 보조프로세서(1045)이다.

프로세서들(1170 및 1180)이 통합 메모리 컨트롤러(IMC) 유닛들(1172 및 1182)을 제각기 포함하는 것으로 도시되어 있다. 프로세서(1170)는 그 버스 컨트롤러 유닛들의 일부로서 포인트 투 포인트(P-P) 인터페이스들(1176 및 1178)을 포함할 수 있고, 이와 유사하게 제2 프로세서(1180)는 P-P 인터페이스들(1186 및 1188)을 포함한다. 프로세서들(1170 및 1180)은 P-P 인터페이스 회로들(1178 및 1188)을 사용하여 포인트 투 포인트(P-P) 인터페이스(1150)를 통해 정보를 교환할 수 있다. 도 11에 도시된 바와 같이, IMC들(1172, 1182)은 프로세서들을 제각기 메모리들, 즉 메모리(1132) 및 메모리(1134)에 결합시키며, 이 메모리들은 제각기 프로세서들에게 국지적으로 소속된 주 메모리의 부분들일 수 있다.

프로세서들(1170, 1180)은 각각 포인트 투 포인트 인터페이스 회로들(1176, 1194, 1186, 1198)을 이용하여 개별 P-P 인터페이스들(1152, 1154)을 통해서 칩셋(1190)과 정보를 교환할 수 있다. 칩셋(1190)은 옵션으로서 고성능 인터페이스(1139)를 통해 보조프로세서(1138)와 정보를 교환할 수 있다. 일 실시예에서, 보조프로세서(1138)는 예를 들어, 고 처리량 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서, 또는 그와 유사한 것과 같은 특수 목적 프로세서이다.

공유 캐시(도시 안됨)는 어느 한 프로세서에 포함되거나 양쪽 프로세서의 외부이지만 여전히 P-P 상호 접속부를 통해 프로세서들과 접속될 수 있어서, 프로세서가 저전력 모드에 놓이는 경우 양쪽 프로세서의 어느 한쪽 또는 모두의 국지적 캐시 정보가 공유 캐시에 저장될 수 있도록 한다.

칩셋(1190)은 인터페이스(1196)를 통해 제1 버스(1116)에게 결합될 수 있다. 일 실시예에서, 제1 버스(1116)는 PCI 버스, 또는 PCI 익스프레스 버스, 또는 또 다른 3세대 I/O 상호 접속 버스와 같은 버스일 수 있는데, 본 발명의 범위는 이것들에만 한정되는 것은 아니다.

도 11에 도시된 바와 같이, 다양한 I/O 디바이스들(1114)이, 제1 버스(1116)를 제2 버스(1120)에 결합하는 버스 브리지(1118)와 함께, 제1 버스(1116)에 결합될 수 있다. 일 실시예에서, 보조프로세서들, 고 처리량 MIC 프로세서들, GPGPU들, 가속기들(예를 들어, 그래픽 가속기들 또는 디지털 신호 처리(DSP) 유닛들과 같은 것), FPGA들(field programmable gate arrays), 또는 임의의 다른 프로세서와 같은 하나 이상의 추가 프로세서(들)(1115)가 제1 버스(1116)에 결합된다. 일 실시예에서, 제2 버스(1120)는 LPC(Low Pin Count) 버스일 수 있다. 일 실시예에서, 예를 들어, 키보드 및/또는 마우스(1122), 통신 디바이스들(1127), 및 디스크 드라이브 또는 명령어들/코드 및 데이터(1130)를 포함할 수 있는 다른 대용량 저장 디바이스와 같은 저장 유닛(1128)을 포함하는 다양한 디바이스들이 제2 버스(1120)에 결합될 수 있다. 또한, 오디오 I/O(1124)는 제2 버스(1120)에 결합될 수 있다. 다른 아키텍처들도 가능하다는 점에 유의한다. 예를 들어, 도 11의 포인트 투 포인트 아키텍처 대신에, 시스템은 멀티 드롭 버스 또는 다른 그러한 아키텍처를 구현할 수 있다.

도 12를 이제 참조하면, 본 발명의 일 실시예에 따른 제2의 더 특정적인 예시적 시스템(1200)의 블록도가 도시된다. 도 11 및 도 12의 동일한 구성요소들은 동일한 참조 부호들을 가지며, 도 11의 특정 양태들은 도 12의 다른 양태들을 불명확하게 하는 것을 피하기 위해 도 12로부터 생략되었다.

도 12는 프로세서들(1170, 1180)이 통합 메모리 및 I/O 제어 로직("CL")(1172 및 1182)을 제각기 포함할 수 있다는 것을 예시한다. 이로 인해, CL(1172, 1182)은 통합 메모리 컨트롤러 유닛들을 포함하고 또한 I/O 제어 로직을 포함한다. 도 12는 메모리들(1132, 1134)이 CL(1172, 1182)에 결합될 뿐만 아니라 I/O 디바이스들(1214)도 제어 로직(1172, 1182)에 결합된다는 것을 예시한다. 레거시 I/O 디바이스들(1215)이 칩셋(1190)에 결합된다.

도 13을 이제 참조하면, 본 발명의 실시예에 따른 SoC(1300)의 블록도가 도시된다. 도 9에 있는 유사한 요소들은 동일한 참조 부호를 갖는다. 또한, 점선 박스들은 더욱 진보된 SoC들에 관한 옵션적 특징들이다. 도 13에서, 상호접속부 유닛(들)(1302)이: 하나 이상의 코어들(902A 내지 902N)의 세트 및 공유 캐시 유닛(들)(906)을 포함하는 애플리케이션 프로세서(1310); 시스템 에이전트 유닛(910); 버스 컨트롤러 유닛(들)(916); 통합 메모리 컨트롤러 유닛(들)(914); 통합 그래픽 로직, 이미지 프로세서, 오디오 프로세서, 및 비디오 프로세서를 포함할 수 있는 하나 이상의 보조프로세서(1320) 또는 그 세트; SRAM(static random access memory) 유닛(1330); DMA(direct memory access) 유닛(1332); 및 하나 이상의 외부 디스플레이에 결합하기 위한 디스플레이 유닛(1340)에 결합된다. 일 실시예에서, 보조프로세서(들)(1320)는, 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 고 처리량 MIC 프로세서, 임베디드 프로세서, 및 그와 유사한 것과 같은 특수 목적 프로세서를 포함한다.

여기에 개시된 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 이러한 구현 접근법들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 적어도 하나의 프로세서, (휘발성 및/또는 비휘발성 메모리 및/또는 스토리지 요소들을 포함하는) 스토리지 시스템, 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함하는 프로그램가능 시스템상에서 실행되는 컴퓨터 코드 또는 컴퓨터 프로그램들로서 구현될 수 있다.

도 11에 예시된 코드(1130)와 같은 프로그램 코드는 여기서 기술된 기능들을 수행하고 출력 정보를 발생하도록 입력 명령어들에 적용될 수 있다. 출력 정보는 공지 방식으로 하나 이상의 출력 디바이스들에게 적용될 수 있다. 본 발명의 목적을 위해, 처리 시스템은 예를 들어 DSP(digital signal processor), 마이크로컨트롤러, ASIC(application specific integrated circuit), 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.

프로그램 코드는 처리 시스템과 통신하기 위해 고급의 절차적 또는 객체 지향적 프로그래밍 언어로 구현될 수 있다. 프로그램 코드는 또한 원하는 경우 어셈블리어 또는 기계어로 구현될 수 있다. 사실상, 여기 기술된 메커니즘들은 어떠한 특정의 프로그래밍 언어로만 그 범위가 한정되지 않는다. 어느 경우에나, 언어는 컴파일링되거나 인터프리팅된 언어일 수 있다.

적어도 일 실시예의 하나 이상의 양태들은 기계에 의해 판독될 때 기계로 하여금 본 명세서에서 설명되는 기술들을 수행하기 위한 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 표현하는, 기계 판독 가능 매체상에 저장된 대표적인 명령어들에 의해 구현될 수 있다. "IP 코어들"로서 알려진 그러한 표현들은 유형의 기계 판독 가능 매체상에 저장될 수 있으며, 다양한 고객들 또는 제조 설비에 제공되어, 논리 또는 프로세서를 실제로 제조하는 제조 기계들 내에 로드될 수 있다.

그러한 기계 판독 가능 저장 매체는 하드 디스크들, 임의의 다른 유형의 디스크들로서 플로피 디스크들, 광 디스크들, CD-ROM들(compact disk read-only memories), CD-RW들(compact disk rewritable's), 및 광자기 디스크들을 포함하는 디스크, ROM들(read-only memories), 예를 들어 DRAM들(dynamic random access memories), SRAM들(static random access memories)과 같은 RAM들(random access memories), EPROM들(erasable programmable read-only memories), 플래시 메모리, EEPROM들(electrically erasable programmable read-only memories)과 같은 반도체 디바이스들, PCM(phase change memory), 자기 또는 광 카드들, 또는 전자적 명령어들을 저장하기에 적절한 임의의 다른 유형의 매체와 같은 저장 매체를 포함하여, 기계 또는 디바이스에 의해 제조되거나 형성되는 물품들의 비 일시적이고 유형의 어레이들을 포함할 수 있는데, 이것에만 한정되지는 않는다.

따라서, 본 발명의 실시예들은 명령어들을 포함하거나 또는 본 명세서에 설명된 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 특징들을 정의하는, HDL(Hardware Description Language)과 같은 설계 데이터를 포함하는 비 일시적이고 유형의 기계 판독 가능 매체를 또한 포함한다. 이러한 실시예들은 프로그램 제품들로도 지칭될 수 있다.

특정의 예시적 실시예들이 설명되고 첨부 도면들에서 도시되었지만, 그러한 실시예들은 단지 설명을 위한 것일 뿐이고 발명의 넓은 범위를 제한하는 것이 아니며, 이 개시를 연구할 때 관련 기술 분야의 통상의 기술자는 다양한 다른 변형들을 생각해낼 수 있으므로 이 발명은 도시되고 설명된 그 특정 구성들 및 어레이들에만 제한되지 않는다는 것을 이해해야 한다. 빠르게 성장하고 또한 추가 향상이 용이하게 예견되지 않는 이와 같은 기술 영역에서, 개시된 실시예들은 본 개시의 원리들 또는 첨부된 청구범위를 벗어나지 않고서 기술적 향상들을 가능하게 함으로써 용이하게 됨에 따라 배치 및 상세 사항에 있어서 쉽게 수정 가능할 수 있다.

Claims

장치로서,
제1 벡터 레지스터, 제2 벡터 레지스터, 및 제3 벡터 레지스터를 포함하는 복수의 벡터 레지스터들;
마스크 레지스터 - 상기 마스크 레지스터는 복수의 비트를 포함하고, 각 비트는 대응하는 벡터 레지스터 성분의 조건부 갱신을 허용함 -;
결합 벡터 축소 명령어를 디코딩하는 디코더; 및
상기 복수의 벡터 레지스터들에 결합되고, 상기 마스크 레지스터에 결합되며, 적어도 일부 회로를 포함하는 실행 유닛 - 상기 실행 유닛은, 상기 결합 벡터 축소 명령어에 응답하여, 상기 제1 벡터 레지스터의 데이터 성분들에 대한 결합 축소 연산(associative reduction operation)을 수행하고, 상기 마스크 레지스터의 값들 및 처리되는 현재 성분 위치에 기초하여, 상기 제1 벡터 레지스터의 하나 이상의 데이터 성분들을, 상기 제1 벡터 레지스터의 이전 데이터 성분 및 상기 제3 벡터 레지스터의 데이터 성분 양쪽에 적용되는 상기 결합 축소 연산에 의해 발생되는 결과값으로 순차적으로 설정하도록 동작하고, 상기 이전 데이터 성분은 상기 현재 성분 위치로부터 하나의 성분 위치보다 더 멀리 떨어져 위치함 -
을 포함하고,
상기 결합 벡터 축소 명령어는 상기 이전 데이터 성분과 상기 현재 성분 위치 간의 스트라이드 거리(stride distance)를 추가로 특정하는 소스 피연산자를 특정하는 장치.
제1항에 있어서, 상기 현재 성분 위치에서의 마스크 값이 거짓일 때, 상기 현재 성분 위치에 의존하는 상기 실행 유닛은 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 데이터 성분을 상기 현재 성분 위치에서의 상기 제2 벡터 레지스터의 데이터 성분으로 설정하거나, 또는 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 상기 데이터 성분을 변화 없이 유지하도록 추가로 동작하는 장치.
제1항에 있어서, 상기 현재 성분 위치에서의 마스크 값이 참일 때, 상기 실행 유닛은 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 데이터 성분을 상기 결과값으로 설정하도록 추가로 동작하는 장치.
삭제
제1항에 있어서, 상기 제1 벡터 레지스터의 상기 이전 데이터 성분은
상기 현재 성분 위치 - (상기 스트라이드 거리 modulo 상기 제1 벡터 레지스터의 벡터 길이)
에 위치하는 장치.
제1항에 있어서, 상기 제1 벡터 레지스터의 벡터 길이보다 더 긴 스트라이드 거리를 특정하는 상기 결합 벡터 축소 명령어에 응답하여, 상기 실행 유닛은 상기 결합 축소 연산을 상기 제1 벡터 레지스터의 상기 데이터 성분들에 대해 병렬로 수행하도록 동작하는 장치.
제1항에 있어서, 상기 결합 축소 연산은 가산, 승산, 비트별 AND, 비트별 OR, MIN 및 MAX 중 하나를 포함하는 장치.
방법으로서,
디코더에 의해, 결합 벡터 축소 명령어를 수신하는 단계;
제1 벡터 레지스터, 제2 벡터 레지스터 및 제3 벡터 레지스터를 포함하는 복수의 벡터 레지스터에 결합되고, 마스크 레지스터에 결합되며, 적어도 일부 회로를 포함하는 실행 유닛에 의해, 상기 제1 벡터 레지스터의 데이터 성분들에 대해 결합 축소 연산을 수행하는 단계 - 상기 마스크 레지스터는 복수의 비트를 포함하고, 각 비트는 대응하는 벡터 레지스터 성분의 조건부 갱신을 허용함 -; 및
상기 마스크 레지스터의 값들 및 처리되고 있는 현재 성분 위치에 기초하여, 상기 제1 벡터 레지스터의 하나 이상의 데이터 성분들을, 상기 제1 벡터 레지스터의 이전 데이터 성분 및 상기 제3 벡터 레지스터의 데이터 성분 양쪽에 적용되는 상기 결합 축소 연산에 의해 발생되는 결과값으로 순차적으로 설정하는 단계 - 상기 이전 데이터 성분은 상기 현재 성분 위치로부터 하나의 성분 위치보다 더 멀리 떨어져 위치함 -
를 포함하고,
상기 결합 벡터 축소 명령어는 상기 이전 데이터 성분과 상기 현재 성분 위치 간의 스트라이드 거리를 추가로 특정하는 소스 피연산자를 특정하는 방법.
제8항에 있어서, 상기 현재 성분 위치에서의 마스크 값이 거짓일 때, 상기 방법은 상기 현재 성분 위치에 의존하여 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 데이터 성분을 상기 현재 성분 위치에서의 제2 벡터 레지스터의 데이터 성분으로 설정하거나, 또는 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 상기 데이터 성분을 변화 없이 유지하는 단계를 더 포함하는 방법.
제8항에 있어서, 상기 현재 성분 위치에서의 마스크 값이 참일 때, 상기 방법은 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 데이터 성분을 상기 결과값으로 설정하는 단계를 더 포함하는 방법.
삭제
제8항에 있어서, 상기 제1 벡터 레지스터의 상기 이전 데이터 성분은
상기 현재 성분 위치 - (상기 스트라이드 거리 modulo 상기 제1 벡터 레지스터의 벡터 길이)
에 위치하는 방법.
제8항에 있어서, 상기 제1 벡터 레지스터의 벡터 길이보다 더 긴 상기 스트라이드 거리를 특정하는 상기 결합 벡터 축소 명령어에 응답하여, 상기 결합 축소 연산을 상기 제1 벡터 레지스터의 데이터 성분들에 대해 병렬로 수행하는 단계를 더 포함하는 방법.
제8항에 있어서, 상기 제1 벡터 레지스터는 상기 스트라이드 거리만큼 랩어라운드를 가지며 좌측 시프팅되는 벡터를 저장하고, 상기 제2 벡터 레지스터는 상기 스트라이드 거리만큼 랩어라운드 없이 좌측 시프팅되는 상기 벡터를 저장하는 방법.
제8항에 있어서, 상기 결합 축소 연산은 가산, 승산, 비트별 AND, 비트별 OR, MIN 또는 MAX 중 하나를 포함하는 방법.
시스템으로서,
메모리; 및
상기 메모리에 결합되는 프로세서
를 포함하고, 상기 프로세서는:
제1 벡터 레지스터, 제2 벡터 레지스터, 및 제3 벡터 레지스터를 포함하는 복수의 벡터 레지스터들;
마스크 레지스터 - 상기 마스크 레지스터는 복수의 비트를 포함하고, 각 비트는 대응하는 벡터 레지스터 성분의 조건부 갱신을 허용함 -;
결합 벡터 축소 명령어를 디코딩하는 디코더; 및
상기 복수의 벡터 레지스터들에 결합되고, 상기 마스크 레지스터에 결합되며, 적어도 일부 회로를 포함하는 실행 유닛 - 상기 실행 유닛은, 상기 결합 벡터 축소 명령어에 응답하여, 상기 제1 벡터 레지스터의 데이터 성분들에 대한 결합 축소 연산을 수행하고, 상기 마스크 레지스터의 값들 및 처리되는 현재 성분 위치에 기초하여, 상기 제1 벡터 레지스터의 하나 이상의 데이터 성분들을, 상기 제1 벡터 레지스터의 이전 데이터 성분 및 상기 제3 벡터 레지스터의 데이터 성분 양쪽에 적용되는 상기 결합 축소 연산에 의해 발생되는 결과값으로 순차적으로 설정하도록 동작하고, 상기 이전 데이터 성분은 상기 현재 성분 위치로부터 하나의 성분 위치보다 더 멀리 떨어져 위치함 -
을 포함하고,
상기 결합 벡터 축소 명령어는 상기 이전 데이터 성분과 상기 현재 성분 위치 간의 스트라이드 거리를 추가로 특정하는 소스 피연산자를 특정하는 시스템.
제16항에 있어서, 상기 현재 성분 위치에서의 마스크 값이 거짓일 때, 상기 현재 성분 위치에 의존하는 상기 실행 유닛은 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 데이터 성분을 상기 현재 성분 위치에서의 상기 제2 벡터 레지스터의 데이터 성분으로 설정하거나, 또는 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 상기 데이터 성분을 변화 없이 유지하도록 추가로 동작하는 시스템.
제16항에 있어서, 상기 현재 성분 위치에서의 마스크 값이 참일 때, 상기 실행 유닛은 상기 현재 성분 위치에서의 상기 제1 벡터 레지스터의 데이터 성분을 상기 결과값으로 설정하도록 추가로 동작하는 시스템.
삭제
제16항에 있어서, 상기 결합 축소 연산은 가산, 승산, 비트별 AND, 비트별 OR, MIN 및 MAX 중 하나를 포함하는 시스템.
삭제
삭제
삭제
삭제
삭제
삭제