KR20140113556A

KR20140113556A - 제한 범위 벡터 메모리 액세스 인스트럭션들, 프로세서들, 방법들 및 시스템들

Info

Publication number: KR20140113556A
Application number: KR1020140030543A
Authority: KR
Inventors: 로버트 발렌틴; 엘모우스타파 울드-아흐메드-발
Original assignee: 인텔 코오퍼레이션
Priority date: 2013-03-15
Filing date: 2014-03-14
Publication date: 2014-09-24
Also published as: GB201403976D0; GB2513970A; US9448795B2; JP5926754B2; JP2014182807A; US20160371084A1; DE102014003706A1; KR20150091448A; CN104049943B; CN104049943A; US20140281425A1; KR101599604B1; US20160170749A1; GB2513970B; US9244684B2

Abstract

일 양태의 프로세서는 복수의 패킹 데이터 레지스터들을 포함한다. 이 프로세서는 패킹 데이터 레지스터들에 결합된 유닛을 더 포함한다. 이 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여 동작 가능하다. 이 인스트럭션은 8 비트 메모리 인덱스들 및 16 비트 메모리 인덱스들로부터 선택되는 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타낸다. 이 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여 메모리 위치들을 메모리의 제한 범위 내에서만 액세스하도록 동작 가능하다. 그 외 프로세서들이 개시되며, 방법들, 시스템들 및 인스트럭션이 마찬가지로 개시된다.

Description

제한 범위 벡터 메모리 액세스 인스트럭션들, 프로세서들, 방법들 및 시스템들{LIMITED RANGE VECTOR MEMORY ACCESS INSTRUCTIONS, PROCESSORS, METHODS, AND SYSTEMS}

본 발명의 실시예들은 프로세서들에 관련된다. 특히, 실시예들은 메모리 액세스 인스트럭션들을 실행하는 프로세서들에 관한 것이다.

프로세서들은 통상 메모리를 액세스하는 인스트럭션들을 실행하도록 동작가능하다. 예를 들어, 프로세서들은 메모리로부터 데이터를 로딩 또는 판독하는 로드 인스트럭션들 및/또는 메모리에 데이터를 저장 또는 기입하는 저장 인스트럭션들을 실행할 수 있다.

특정 프로세서들은 벡터 로드 인스트럭션들을 실행하도록 동작가능하다. 이들 벡터 로드 인스트럭션들은 또한 본 기술분야에서 벡터 개더(gather) 인스트럭션들, 또는 단순히 개더 인스트럭션들로서 지칭된다. Intel®에 의해 2011년 6월 공개된, 진보된 벡터 확장 프로그래밍 기준, 문서 참조 번호 319433-011은 여러 벡터 개더(VGATHER) 인스트럭션들을 기술하고 있다. 그 예들은 VGATHERDPD, VGATHERQPD, VGATHERDPS, VGATHERQPS, VPGATHERDD, VPGATHERQD, VPGATHERDQ, 및 VPGATHERQQ를 포함한다. 이들 벡터 개더 인스트럭션들은 다수의 대응하는 메모리 인덱스들을 이용하여 다수의 데이터 엘리먼트들을 메모리로부터 개더링, 판독 또는 로딩하는데 이용될 수 있다.

본 발명은 실시예들을 예시하는데 이용되는 이하의 상세한 설명 및 첨부 도면들을 참조하여 이해될 수 있을 것이다.
도 1은 하나 이상의 제한 범위 벡터 메모리 액세스 인스트럭션들을 실행하는 프로세서의 실시예의 블록도이다.
도 2는 하나 이상의 제한 범위 벡터 메모리 액세스 인스트럭션들을 처리하는 인스트럭션 처리 장치의 실시예의 블록도이다.
도 3은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여 메모리의 제한 범위를 액세싱하는 방법의 실시예의 블록 흐름도이다.
도 4는 제한 범위 벡터 개더 연산의 실시예를 예시하는 블록도이다.
도 5는 마스크된 제한 범위 벡터 개더 연산의 실시예를 예시하는 블록도이다.
도 6은 제한 범위 벡터 스캐터 연산의 실시예를 예시하는 블록도이다.
도 7은 마스크된 제한 범위 벡터 스캐터 연산의 실시예를 예시하는 블록도이다.
도 8은 제한 범위 벡터 개더 연산의 예시적인 구현예의 블록도이다.
도 9는 패킹 데이터 레지스터들의 적절한 세트의 예시적인 실시예의 블록도이다.
도 10은 패킹 데이터 연산 마스크 레지스터들의 적절한 세트의 예시적인 실시예의 블록도이다.
도 11은 마스크 비트들의 수가 패킹 데이터 폭 및 데이터 엘리먼트 폭에 의존하는 64 비트 패킹 데이터 연산 마스크 레지스터의 예시적인 실시예를 예시하는 도면이다.
도 12a는 VEX 프리픽스, 실제 opcode 필드, Mod R/M 바이트, SIB 바이트, 변위 필드 및 IMM8을 포함하는 예시적인 AVX 인스트럭션 포맷을 예시하는 도면이다.
도 12b는 도 12a에서의 어느 필드가 전체 opcode 필드 및 베이스 연산 필드를 이루는 지를 예시하는 도면이다.
도 12c는 도 12a에서의 어느 필드가 레지스터 인덱스 필드를 이루는 지를 예시하는 도면이다.
도 13a는 본 발명의 실시예들에 따른 일반 벡터 프렌들리 인스트럭션 포맷 및 그의 클래스 A 인스트럭션 템플릿을 예시하는 블록도이다.
도 13b는 본 발명의 실시예들에 따른 일반 벡터 프렌들리 인스트럭션 포맷 및 그의 클래스 B 인스트럭션 템플릿을 예시하는 블록도이다.
도 14a-d는 본 발명의 실시예에 따른 예시적인 특정 벡터 프렌들리 인스트럭션 포맷을 예시하는 블록도이다.
도 15는 본 발명의 일 실시예에 따른 레지스터 아키텍쳐의 블록도이다.
도 16a는 본 발명의 실시예들에 따른, 예시적인 인-오더(in-order) 파이프라인 및 예시적인 레지스터 리네이밍, 아웃-오브-오더(out-of-order) 발행/실행 파이프라인 모두를 예시하는 블록도이다.
도 16b는 본 발명의 실시예들에 따른 프로세서에 포함될 인-오더 아키텍쳐 코어 및 예시적인 레지스터 리네이밍, 아웃-오브-오더 발행/실행 아키텍쳐 코어 모두를 예시하는 블록도이다.
도 17a는 본 발명의 실시예들에 따른, 단일 프로세서 코어와, 온-다이 인터커넥트 네트워크로의 그것의 접속 및 그것의 레벨 2(L2) 캐시의 로컬 서브세트의 블록도이다.
도 17b는 본 발명의 실시예들에 따른 도 17a의 프로세서 코어의 일부의 확장도이다.
도 18은 하나보다 많은 코어를 가질 수 있고, 통합형 메모리 제어기를 가질 수 있고, 통합 그래픽을 가질 수 있는, 본 발명의 실시예들에 따른 프로세서의 블록도이다.
도 19는 본 발명의 일 실시예에 따른 시스템의 블록도이다.
도 20은 본 발명의 실시예에 따른 보다 구체적인 제1 예시적 시스템의 블록도이다.
도 21은 본 발명의 실시예에 따른 보다 구체적인 제2 예시적 시스템의 블록도이다.
도 22는 본 발명의 실시예에 따른 SoC의 블록도이다.
도 23은 본 발명의 실시예들에 따라 소스 인스트럭션 세트의 바이너리 인스트럭션들을 타겟 인스트럭션 세트의 바이너리 인스트럭션들로 변환하는 소프트웨어 인스트럭션 컨버터의 이용을 대조하는 블록도이다.

본 발명은, 제한 범위 벡터 메모리 액세스 인스트럭션, 그 인스트럭션들을 실행하는 프로세서들, 인스트럭션들을 처리 또는 실행할 때 프로세서들에 의해 수행되는 방법들, 및 인스트럭션들을 처리 또는 실행하는 하나 이상의 프로세서들을 포함하는 시스템들을 개시한다. 이하의 상세한 설명에서는, 다양한 특정 상세들(예를 들어, 특정 인스트럭션들, 인스트럭션 포맷들, 패킹(packed) 데이터 포맷들, 프로세서 구성들, 마이크로아키텍쳐(microarchitectural) 상세들, 연산의 순서 등)이 개시된다. 그러나, 실시예들은 이들 특정 상세들 없이도 실시될 수 있다. 다른 예들에서, 공지의 회로들, 구조들 및 기술들은 설명의 이해를 모호하게 하지 않기 위하여 상세하게 예시하지 않았다.

도 1은 하나 이상의 제한 범위 벡터 메모리 액세스 인스트럭션(들)(103)을 실행하도록 동작가능한 프로세서(100)의 실시예의 블록도이다. 일부 실시예들에서, 프로세서는 (예를 들어, 데스크톱, 랩톱, 태블릿, 핸드헬드, 셀룰러 폰 및 컴퓨팅 디바이스들 등에 이용된 타입의) 범용 프로세서일 수 있다. 대안적으로, 프로세서는 전용 프로세서일 수 있다. 적절한 전용 프로세서의 예들은, 몇가지 예들을 열거하면, 그래픽 프로세서들, 네트워크 프로세서들, 통신 프로세서들, 암호(cryptographic) 프로세서들, 코-프로세서들(co-processors) 및 디지털 신호 프로세서들(DSP)을 포함하지만, 이것으로 한정되는 것을 아니다. 프로세서는 다양한 CISC(complex instruction set computing) 프로세서들, 다양한 RISC(reduced instruction set computing) 프로세서들, 다양한 VLIW(very long instruction word) 프로세서들, 그들의 다양한 하이브리드 형태, 또는 완전히 다른 타입의 프로세서들 전체 중 임의의 것 일 수 있다.

프로세서는 ISA(instruction set architecture)(101)를 갖는다. ISA는 프로그래밍과 연관된 프로세서의 아키텍쳐의 일부를 나타내고, 네이티브 인스트럭션들, 아키텍쳐 레지스터들, 데이터 타입들, 어드레싱 모드들, 메모리 아키텍쳐, 인터럽트 및 예외 처리, 및 프로세서의 외부 입력 및 출력(I/O)을 포함한다. ISA는 마이크로아키텍쳐와는 구별되며, ISA를 구현하기 위해 이용되는 특정 설계 기법들을 나타낸다.

ISA는 아키텍쳐적으로 가시적인 레지스터들(106)(예를 들어, 아키텍쳐 레지스터 파일)을 포함한다. 아키텍쳐 레지스터들은 일반적으로 온-다이 프로세서 저장 위치들을 나타낸다. 아키텍쳐 레지스터들은 또한 본 명세서에서 단순히 레지스터들로서 지칭된다. 달리 지정하거나 명백하지 않으면, 아키텍쳐 레지스터, 레지스터 파일, 및 레지스터라는 문구는 본 명세서에서 소프트웨어 및/또는 프로그래머에게 가시적인 레지스터들 및/또는 연산자들을 식별하기 위한 매크로인스트럭션들(macroinstructions) 또는 어셈블리 언어 인스트럭션들에 의해 지정되는 레지스터들을 지칭한다. 이들 레지스터들은 소정의 마이크로아키텍쳐에서의 다른 비-아키텍쳐적인(non-architectural) 또는 비-아키텍쳐적으로 가시적인 레지스터들(예를 들어, 마이크로인스트럭션들에 의해 이용되는 임시 레지스터들, 리오더 버퍼들(reorder buffers), 리타이어먼트(retirement) 레지스터들 등)에 대조된다. 예시되는 레지스터들은 패킹 데이터 레지스터들(107)을 포함한다. 패킹 데이터 레지스터들의 각각은 패킹 데이터, 벡터 데이터, 또는 SIMD 데이터를 저장하도록 동작가능하다. 일부 실시예들에서, 레지스터들은, 요구되지 않는다 하더라도, 패킹 데이터 연산 마스크 레지스터들(108)을 또한 선택적으로 포함할 수 있다.

ISA는 프로세서에 의해 지원되는 인스트럭션 세트(101)를 포함한다. 마이크로인스트럭션들 또는 마이크로-오피(micro-op)(예를 들어, 디코더 디코딩 매크로인스트럭션들로부터 발생하는 것들)와는 달리, 인스트럭션 세트의 인스트럭션들은 어셈블리 언어 인스트럭션들, 머신-레벨 인스트럭션들, 또는 매크로인스트럭션들(예를 들어, 실행을 위해 프로세서에 제공되는 인스트럭션들)을 나타낸다. 인스트럭션 세트는 프로세서로 하여금 외부 메모리(110)의 제한 범위(120)을 액세스하도록 각각 동작가능한 하나 이상의 제한 범위 벡터 메모리 액세스 인스트럭션(들)(103)을 포함한다. 일부 실시예들에서, 제한 범위(120)는 외부 메모리(110)의 일부분 또는 서브 세트(예를 들어, 인접하여 인덱스가능한 부분 또는 서브 세트)만을 나타낼 수 있다. 일부 실시예들에서, 인스트럭션(들)(103)은 프로세서로 하여금 외부 메모리(110)의 제한 범위(120)의 잠재적으로 인접하지 않는(non-contiguous) 위치들로부터 데이터 엘리먼트들을 판독, 로딩 또는 개더링하도록 동작가능한 하나 이상의 제한 범위 벡터 개더 인스트럭션(들)(104)을 선택적으로 포함할 수 있다. 일부 실시예들에서, 인스트럭션(들)(103)은 프로세서로 하여금 외부 메모리(110)의 제한 범위(120)에서 잠재적으로 인접하지 않는 위치들에 데이터 엘리먼트들을 기입, 저장 또는 스캐터링하도록 동작가능한 하나 이상의 제한 범위 벡터 스캐터 인스트럭션(들)(105)을 선택적으로 포함할 수 있다. 다양한 실시예들에서, 단일의 제한 범위 벡터 메모리 액세스 인스트럭션 내지 다수의 또는 여러개의 그러한 인스트럭션들이 도처에 존재할 수 있다.

프로세서는 또한 실행 로직(109)을 포함한다. 실행 로직은 제한 범위 벡터 메모리 액세스 인스트럭션(들)(103)을 실행 또는 처리하고, 그 인스트럭션(들)에 응답하여 제한 범위를 액세스(예를 들어, 제한 범위로부터 엘리먼트들을 개더링하거나 제한 범위에 엘리먼트들을 스캐터링)하도록 동작가능하다. 적절한 실행 로직의 예들은, 실행 유닛들, 기능 유닛들, 메모리 액세스 유닛들, 메모리 실행 유닛들, 개더링 유닛들, 스캐터링 유닛들 등을 포함하지만, 이들로 제한되는 것은 아니다.

도 2는 인스트럭션 처리 장치(200)의 실시예의 블록도이다. 일부 실시예들에서, 인스트럭션 처리 장치(200)는 도 1의 프로세서 또는 그와 유사한 프로세서이거나, 또는 도 1의 프로세서 또는 그와 유사한 프로세서에 포함될 수 있다. 대안적으로, 인스트럭션 처리 장치(200)는 상이한 프로세서이거나 또는 상이한 프로세서에 포함될 수 있다. 게다가, 도 1의 프로세서는 도 2의 인스트럭션 처리 장치와는 상이한 인스트럭션 처리 장치를 포함할 수 있다.

인스트럭션 처리 장치(200)는 제한 범위 벡터 메모리 액세스 인스트럭션(203)을 수신할 수 있다. 예를 들어, 인스트럭션은 인스트럭션 페치 유닛, 인스트럭션 큐, 메모리 등으로부터 수신될 수 있다. 일부 실시예들에서, 인스트럭션은 제한 범위 벡터 개더 인스트럭션 또는 제한 범위 벡터 스캐터 인스트럭션을 나타낼 수 있다.

장치는 한 세트의 패킹 데이터 레지스터들(207)을 포함한다. 일부 실시예들에서, 장치는 한 세트의 패킹 데이터 연산 마스크 레지스터들(208)을 선택적으로 포함할 수 있지만, 이것은 필수적인 것은 아니다. 레지스터들은 아키텍쳐 온-프로세서(예를 들어, 온-다이) 프로세서 저장 위치들을 나타낼 수 있다. 레지스터들은 공지의 기법들을 이용하여 상이한 마이크로아키텍쳐에서 상이한 방식으로 구현될 수 있고, 임의의 특정한 회로 타입에 한정되지 않는다. 적절한 타입의 레지스터들의 예로서는, 이들에 제한되는 것은 아니지만, 전용 물리 레지스터, 레지스터 리네이밍을 이용하는 동적 할당 물리 레지스터, 및 이들의 조합을 포함한다.

제한 범위 벡터 메모리 액세스 인스트럭션은 복수의 패킹된 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스들(213)을 명백하게 지정하거나(예를 들어, 하나 이상의 비트 또는 필드를 통해) 또는 달리 나타낸다(예를 들어, 함축적으로 나타냄). 일부 실시예들에서, 패킹 메모리 인덱스들은 패킹된 8-비트 바이트 메모리 인덱스들 또는 패킹된 16-비트 워드 메모리 인덱스들일 수 있다. 종래에는, 벡터 개더 인스트럭션들은 통상 상당히 큰 32비트 또는 64비트 메모리 인덱스들을 구현하는데, 이들은 메모리(210) 내의 제한 범위(220) 내에서만이 아니라 메모리(210) 내의 임의의 장소로부터 개더링할 수 있다고 예상되기 때문이다. 벡터 개더 인스트럭션/연산, 또는 벡터 메모리 로드 인스트럭션/연산의 경우에, 인스트럭션은, 메모리(210)의 제한 범위(220)로부터 로딩된 또는 개더링된 데이터 엘리먼트들을 포함하는 결과 패킹 데이터가 저장되어야 할 데스티네이션 저장 위치(215)를 나타낼 수 있다. 벡터 스캐터 인스트럭션/연산 또는 벡터 메모리 저장 인스트럭션/연산의 경우에, 인스트럭션은 메모리(210)의 제한 범위(220)에 기록되거나 스캐터링되어야 할 복수의 데이터 엘리먼트를 포함하는 소스 패킹 데이터(214)를 나타낼 수 있다. 도시된 바와 같이, 일부 실시예들에서, 소스 패킹 메모리 인덱스들(213), 소스 패킹 데이터(214), 및 데스티네이션 저장 위치(215)는 패킹 데이터 레지스터들(207)의 세트의 패킹 데이터 레지스터들일 수 있다. 대안적으로, 다른 저장 위치들이 이들 중 하나 이상에 대해 선택적으로 사용될 수 있다.

일부 실시예들에서, 제한 범위 벡터 메모리 액세스 인스트럭션(203)은 소스 패킹 데이터 연산 마스크(216)를 선택적으로 지정하거나, 또는 달리 나타낼 수 있지만, 이것이 필수적인 것은 아니다. 패킹 데이터 연산 마스크들 및 프레디케이션(predication) 또는 조건부 제어를 위해 이들을 사용하는 것은 이하에서 더 설명될 것이다. 다른 실시예들은 마스킹 또는 프레디케이션 없이 선택적으로 수행될 수 있다.

다시 도 2를 참조하면, 예시된 명령 처리 장치는 디코드 로직(211)(예를 들어, 디코드 유닛 또는 디코더)을 포함한다. 인스트럭션 디코드 로직은 높은 레벨의 머신 인스트럭션들 또는 매크로인스트럭션들(예를 들어, 인스트럭션(203))을 수신하여 디코딩할 수 있고, 하나 이상의 낮은 레벨의 마이크로연산들, 마이크로코드 엔트리 포인트들, 마이크로인스트럭션들, 또는 원래의 높은 레벨 인스트럭션을 반영하고 및/또는 그로부터 도출되는 다른 낮은 레벨의 인스트럭션들 또는 제어 신호들을 출력할 수 있다. 하나 이상의 낮은 레벨 인스트럭션들 또는 제어 신호들은 하나 이상의 낮은 레벨(예를 들어, 회로 레벨 또는 하드웨어 레벨) 연산들을 통해 높은 레벨 인스트럭션의 연산을 구현할 수 있다. 디코드 로직은 마이크로코드 판독 전용 메모리들(ROMs), 룩업 테이블들, 하드웨어 구현들, 프로그램가능한 로직 어레이들(PLAs), 및 기타 공지된 메커니즘들을 포함하지만, 이들로 한정되지 않는 다양한 상이한 메커니즘들을 사용하여 구현될 수 있다. 다른 실시예들에서, 디코드 로직(211)을 갖는 대신에, 인스트럭션 에뮬레이터, 트랜슬레이터, 모퍼(morpher), 인터프리터, 또는 다른 인스트럭션 변환 로직(예를 들어, 소프트웨어, 하드웨어, 펌웨어, 또는 조합으로 구현됨)이 사용될 수 있다. 또 다른 실시예들에서, 인스트럭션 변환 로직 및 디코드 로직의 조합이 사용될 수 있다. 인스트럭션 변환 로직의 일부 또는 전부는 잠재적으로, 별도의 다이 상에 또는 메모리 내에 등과 같이, 인스트럭션 처리 장치의 나머지로부터 오프 다이되어(off-die) 위치될 수 있다.

다시 도 2를 참조하면, 실행 로직(209)은 디코드 로직(211)과 결합된다. 실행 로직은 또한 패킹 데이터 레지스터들(207)과 결합되며, 일부 실시예들에서, 선택적으로 패킹 데이터 연산 마스크 레지스터들(208)과 결합된다. 적절한 실행 로직의 예들은, 이들에 한정되지는 않지만, 실행 유닛, 기능 유닛, 메모리 액세스 유닛, 메모리 실행 유닛, 개더 유닛, 스캐터 유닛 등을 포함한다. 실행 로직 및/또는 장치는 인스트럭션(203)을 실행 및/또는 처리하고, 인스트럭션에 응답하여 메모리의 제한 범위를 액세스하도록 동작가능한 특수한 또는 특정 로직(예를 들어, 회로, 트랜지스터들, 또는 소프트웨어 및/또는 펌웨어와 잠재적으로 조합되는 다른 하드웨어)을 포함할 수 있다. 일부 실시예들에서, 실행 유닛은 적어도 일부 집적회로, 트랜지스터들, 또는 반도체 다이의 다른 회로 또는 하드웨어를 포함한다.

실행 로직은, 제한 범위 벡터 메모리 액세스 인스트럭션(203)에 응답하여, 및/또는 그 결과로서(예를 들어, 인스트럭션(203)으로부터 디코딩되거나 달리 도출된 하나 이상의 제어 신호들에 응답하여), 메모리(210)의 제한 범위(220)를 액세사하도록 동작가능하다. 예를 들어, 제한 범위 벡터 개더 인스트럭션의 실시예에서, 실행 유닛은 소스 패킹 메모리 인덱스들(213)을 사용하여 메모리(210)의 제한 범위(220) 내의 잠재적으로 비연속적인 위치들로부터 데이터 엘리먼트들을 개더 또는 로드하고 개더 또는 로드된 데이터 엘리먼트들을 데스티네이션 저장 위치들(215)에 저장할 수 있다. 제한 범위 벡터 스캐터 인스트럭션의 실시예에서, 실행 유닛은 소스 패킹 메모리 인덱스들(213)을 사용하여 소스 패킹 데이터(214)로부터 메모리(210)의 제한 범위(220) 내의 잠재적으로 비연속적인 위치들에 데이터 엘리먼트들을 스캐터링하거나 기입할 수 있다.

일부 실시예들에서, 제한 범위 벡터 메모리 액세스 인스트럭션(203)은 메모리(210)의 제한 범위(220)만을 액세스하는데 사용될 수 있다. 일부 실시예들에서, 인스트럭션들은 8비트 바이트 또는 16비트 워드 메모리 인덱스들만을 나타낸다. 종래의 벡터 개더 인스트럭션들은 통상적으로 데이터 엘리먼트들이 메모리 내의 임의의 장소로부터 개더될 수 있게 허용한다. 그 결과, 통상적으로 32비트 또는 64비트 메모리 인덱스들이 사용된다. 이러한 32비트 또는 64비트 메모리 인덱스들은 데이터 엘리먼트들이 메모리 내의 실질적으로 임의의 장소로부터, 또는 적어도 비교적 큰 양의 메모리(예를 들어, 32비트 또는 64비트에 의해 어드레스될 수 있는 양의 메모리)로부터 잠재적으로 개더될 수 있게 하는 충분한 비트들을 포함한다.

그러나 32비트 또는 64비트 메모리 인덱스들을 사용하는 한가지 잠재적인 단점은 그들의 비교적 큰 크기가, 벡터 개더 인스트럭션들의 소스 오퍼랜드로서 표시된 단일 패킹 데이터 레지스터에 저장될 수 있는 메모리 인덱스들의 수를 제한하려는 경향이 있을 수 있다는 것이다. 예를 들어, 4개의 64비트 메모리 인덱스들만, 또는 8개의 32비트 메모리 인덱스들만이 256비트 레지스터 내에 맞춰질(fit) 수 있다. 게다가, 일부 경우들에서, 8비트 바이트 데이터 엘리먼트들 또는 16비트 워드 엘리먼트들 등의 비교적 작은 데이터 엘리먼트들을 개더링하는 것이 바람직할 수 있다. 그러나 메모리 인덱스들의 비교적 큰 크기는 개더될 수 있는 그러한 8비트 바이트 또는 16비트 워드 엘리먼트들의 수를 제한하는 경향이 있다. 예를 들어, 종종 동일한 수의 데이터 엘리먼트들만이 패킹 데이터 레지스터에 맞춰지는 32비트 또는 64비트 메모리 인덱스들의 수로서 개더될 수 있다. 그 결과, 부분적으로는 32비트 또는 64비트 메모리 인덱스들의 큰 크기로 인해 이들 엘리먼트들을 원하는 만큼 개더링하는 것이 종종 불가능하다.

일부 실시예들에서, 이렇게 비교적 큰 32비트 또는 64비트 메모리 인덱스들 대신에, 8비트 바이트 또는 16비트 워드 메모리 인덱스들과 같은 비교적 작은 메모리 인덱스들이 제한 범위 벡터 메모리 액세스 인스트럭션들/연산들의 실시예들에 의해 사용될 수 있다. 유익하게, 이것은 소스 패킹 메모리 인덱스들로서 단일 패킹 데이터 레지스터에 저장될 수 있는 그러한 메모리 인덱스들의 수를 증가시키는데 도움을 줄 것이다. 예를 들어, 단지 4개의 64비트 메모리 인덱스들 또는 8개의 32비트 메모리 인덱스들 대신에, 32개의 8비트 메모리 인덱스들, 또는 16개의 16비트 메모리 인덱스들이 256비트 레지스터 내에 맞춰질 수 있다. 다른 예로서, 64개의 8비트 메모리 인덱스들 또는 32개의 16비트 메모리 인덱스들이 512비트 레지스터에 맞춰질 수 있다. 이에 부응하여, 이것은 단일 제한 범위 벡터 개더 또는 스캐터 인스트럭션/연산의 실시예에 의해 개더되거나 스캐터링될 수 있는 데이터 엘리먼트들의 수를 증가시키는데 도움을 줄 것이다.

일부 실시예들에서, 이러한 비교적 작은 8비트 바이트 또는 16비트 워드 메모리 인덱스들은 메모리 내의 임의의 장소로부터 데이터 엘리먼트들을 액세스하기에는 불충분할 수 있다. 오히려, 이들 작은 8비트 또는 16비트 메모리 인덱스들은 큰 전체 메모리(예를 들어, 32비트 또는 64비트 메모리 인덱스들에 의해 어드레스되어야 할 필요가 있을 메모리)의 단지 제한 범위(예를 들어, 8비트 또는 16비트 메모리 인덱스들에 의해 인덱싱될 수 있는 연속적인 서브세트) 내의 데이터 엘리먼트들을 액세스 할 수 있다. 일부 실시예들에서, 프로세서에 의해 지원되는 ISA는, 전체 메모리 내의 임의의 장소로부터 데이터 엘리먼트들을 액세스하기 위해 32비트 또는 64비트 메모리 인덱스들을 나타내고 사용하는 하나 이상의 다른 메모리 액세스 인스트럭션(예를 들어, 벡터 개더 인스트럭션)을 포함할 수 있다. 예를 들어, 일부 실시예들에서, 8비트 메모리 인덱스들에 대응하는 제한 범위는, 8비트 바이트 메모리 인덱스에 의해 고유하게 인덱싱될 수 있는 256 이하의 데이터 엘리먼트들 또는 256 이하의 저장 위치들로 구성될 수 있다. 다른 예로서, 일부 실시예들에서, 제한 범위는 16비트 바이트 메모리 인덱스에 의해 고유하게 인덱싱될 수 있는 65536 이하의 데이터 엘리먼트들 또는 65536 이하의 저장 위치들로 구성될 수 있다. 다른 실시예들에서, 인덱싱될 수 있는 이들 데이터 엘리먼트들 또는 저장 위치들의 일부 또는 서브세트만이 제한 범위로서 사용될 수 있다(예를 들어, 16비트 인덱스의 전체 범위를 사용하기보다는, 그 범위의 일부만이 사용될 수 있음).

제한 범위 벡터 메모리 액세스 인스트럭션들/연산들이 메모리 내의 임의의 장소에서 데이터 엘리먼트들을 액세스할 수 있는 것은 아니지만, 훨씬 큰 메모리의 제한 범위 내에서만 데이터 엘리먼트들을 액세스하는 것이 왜 유익한지에 대한 다양한 이유가 있다. 예를 들어, 이것은 테이블, 어레이, 데이터 구조, 또는 데이터의 다른 배열이나 집합이 제한 범위 내에 저장될 수 있을 때 그러할 수 있다. 종종, 알고리즘은 다수의 또는 많은 데이터 엘리먼트를 테이블, 어레이, 데이터 구조 또는 데이터의 다른 배열이나 집합으로부터 동시에 액세스할 필요가 있을 수 있다. 한 예로서, 알고리즘은 매트릭스를 트랜스포즈하거나 또는 달리 재배열하거나 또는 많은 데이터 엘리먼트를 액세스할 필요가 있는 경우에 데이터를 재구성할 수 있다. 다른 예로서, 알고리즘은 일정한 스트라이드, 예를 들어, 2개의, 3개의, 4개의, 또는 N개의 데이터 엘리먼트마다에 의해 분리된 데이터 엘리먼트들을 액세스할 수 있다. 보다 일반적으로, 알고리즘이 8비트 바이트 또는 16비트 워드 메모리 인덱스들에 의해 인덱싱될 수 있는 메모리의 제한 범위 내에 저장될 수 있는 데이터의 배열 또는 집합 내로부터 다수의 또는 많은 데이터 엘리먼트를 액세스하는데 사용될 수 있는 많은 경우들이 있다.

유익하게, 그러한 경우에서 사용되는 경우에, 본 명세서에서 개시된 제한 범위 벡터 메모리 액세스 인스트럭션들/연산들의 실시예들은 부분적으로는 작은 8비트 또는 16비트 메모리 인덱스들로 인해 단일 인스트럭션/연산 내의 비교적 많은 데이터 엘리먼트를 액세스(예를 들어, 개더링 또는 스캐터링)할 수 있다. 메모리 내의 임의의 장소 대신에 제한 범위 내에서만 데이터 엘리먼트들이 개더되기 때문에, 액세스되는 데이터 엘리먼트들의 수를 제한하는 경향이 있는 큰 인덱스들은 필요하지 않다. 더욱이, 하기에 더욱 설명될 바와 같이, 일부 실시예들에서, 제한 범위 벡터 메모리 액세스 인스트럭션들/연산들은 실행하기에 더욱 효과적일 수 있고/있거나 (예를 들면, 각각이 다수의 데이터 엘리먼트들을 포함하는 더 적은 메모리 액세스들이 수행될 수 있기 때문에) 각각의 액세스된 데이터 엘리먼트들에 대해 순차 액세스들을 이용하는 종래의 벡터 개더 인스트럭션들/연산들보다 더 빠를 수 있다.

설명을 불명료하게 하는 것을 피하기 위해, 간단한 인스트럭션 처리 장치(200)가 설명되나, 인스트럭션 처리 장치는 옵션으로 하나 이상의 그외의 종래의 컴포넌트를 포함할 수 있다. 그러한 종래의 컴포넌트들의 예들은, 인스트럭션 페치 유닛, 인스트럭션 스케쥴링 유닛, 분기 예측 유닛, 인스트럭션 및 데이터 캐시들, 인스트럭션 및 데이터 TLB(translation lookaside buffers), 프리페치 버퍼들, 마이크로인스트럭션 큐들, 마이크로인스트럭션 시퀀서들, 버스 인터페이스 유닛들, 리타이어먼트/커밋 유닛, 레지스터 리네이밍 유닛, 및 프로세서들에서 종래에 이용되는 그외의 컴포넌트들을 포함하나, 이에 제한되지 않는다. 더욱이, 실시예들은, 동일한 또는 상이한 인스트럭션 세트 및/또는 ISA를 갖는 다수의 코어들, 논리 프로세서들, 또는 실행 엔진들을 가질 수 있다. 프로세서들 내에 그러한 컴포넌트들의 사실상 다수의 상이한 조합들 및 구성들이 존재하고, 실시예들은 임의의 특정한 그러한 조합 또는 구성에 제한되지 않는다.

도 3은 인스트럭션의 실시예를 처리하는 방법(330)의 실시예의 블록 흐름도이다. 다양한 실시예들에서, 상기 방법은 범용 프로세서, 특수 목적 프로세서, 또는 그외의 인스트럭션 처리 장치 또는 디지털 로직 디바이스에 의해 수행될 수 있다. 일부 실시예들에서, 도 3의 연산 및/또는 방법은 도 1의 프로세서 및/또는 도 2의 장치에 의해 및/또는 그 내에서 수행될 수 있다. 도 1-2의 프로세서 및 장치에 대해 본 명세서에 개시된 컴포넌트들, 특징들, 및 구체적인 옵션의 상세는 또한 도 3의 연산들 및/또는 방법에 옵션으로 적용된다. 대안으로, 도 3의 연산들 및/또는 방법은 유사한 또는 전혀 상이한 프로세서 또는 장치에 의해 및/또는 그 내에서 수행될 수 있다. 더욱이, 도 1의 프로세서 및/또는 도 2의 장치는 도 3의 것들과 동일한, 유사한, 또는 전혀 상이한 연산들 및/또는 방법들을 수행할 수 있다.

방법은, 블록(331)에서, 제한 범위 벡터 메모리 액세스 인스트럭션을 수신하는 단계를 포함한다. 다양한 양태에서, 인스트럭션은 프로세서, 인스트럭션 처리 장치, 또는 그의 일부(예를 들면, 인스트럭션 페치 유닛, 디코더, 인스트럭션 컨버터, 등)에서 수신될 수 있다. 다양한 양태에서, 인스트럭션은 오프-다이 소스로부터(예를 들면, DRAM 메모리, 디스크, 인터커넥트, 등으로부터), 또는 온-다이 소스로부터(예를 들면, 인스트럭션 캐시로부터) 수신될 수 있다. 제한 범위 벡터 메모리 액세스 인스트럭션은 복수의 패킹 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스들을 나타낼 수 있다. 일부 실시예들에서, 메모리 인덱스들은 8-비트 메모리 인덱스들과 16-비트 메모리 인덱스들 중 하나일 수 있다. 일부 실시예들에서, 메모리 인덱스들은 8-비트 메모리 인덱스들일 수 있다. 일부 실시예들에서, 소스 패킹 메모리 인덱스들은 적어도 32 메모리 인덱스들을 포함할 수 있다.

단지 제한된 범위의 메모리 내의 메모리 위치들은, 블록(332)에서, 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여 액세스될 수 있다. 일부 실시예들에서, 제한 범위는 각각 32-비트 또는 64-비트의 하나 이상의 메모리 어드레스로 액세스될 수 있다. 일부 실시예들에서, 제한 범위는 단지 256 바이트를 포함할 수 있다. 일부 실시예들에서, 하기에 더욱 설명될 바와 같이, 액세스는, 필요한 및 불필요한 데이터 엘리먼트들 양쪽 모두를 포함하는, 각각 다수의 데이터 엘리먼트를 로딩할 수 있는 다수의 데이터 엘리먼트 로드를 통해 수행될 수 있다. 그러한 멀티-엘리먼트 로드들은 일부 실시예들에서 속도 또는 효율성을 개선하는데 도움을 줄 수 있다. 일부 실시예들에서 전체 제한 범위는 메모리로부터 프로세서의 저장 위치들(예를 들면, 온-다이 레지스터들)로 로딩될 수 있다.

예시된 방법은 아키텍쳐적으로 볼 수 있는 연산들(예를 들면, 소프트웨어 관점으로부터 볼 수 있는 것들)을 포함한다. 그외의 실시예들에서, 방법은 옵션으로 하나 이상의 마이크로아키텍쳐 연산을 포함할 수 있다. 예로서, 인스트럭션은 페치되거나, 디코딩되거나, 잘못된 순서로 스케쥴링될 수 있고, 소스 연산자는 액세스될 수 있고, 실행 로직은 인스트럭션의 연산들을 실행하기 위해 마이크로아키텍쳐적으로 실행하도록 인에이블될 수 있고, 실행 로직은 마이크로아키텍쳐 연산들을 수행할 수 있고, 결과들은 프로그램 순서에 다시 넣어질 수 있다.

도 4는 제한 범위 개더 인스트럭션의 실시예에 응답하여 수행될 수 있는 제한 범위 개더 연산(403)의 실시예를 나타내는 블록도이다. 제한 범위 개더 인스트럭션은 복수의 패킹 데이터 인덱스를 갖는 소스 패킹 메모리 인덱스들(413)을 지정하거나 또는 나타낼 수 있다. 도시된 바와 같이, 일부 실시예들에서, 메모리 인덱스들은 8-비트 바이트 메모리 인덱스들일 수 있고, 소스 패킹 메모리 인덱스들은 512-비트 폭일 수 있고 64개의 8-비트 바이트 메모리 인덱스들을 포함할 수 있다. 대안으로, 그외의 실시예들에서 16-비트 워드 메모리 인덱스들, 또는 32 비트보다 작은 그외의 메모리 인덱스들이 옵션으로 이용될 수 있다. 더욱이, 그외의 실시예들에서, 512-비트 외의 그외의 패킹 데이터 폭들, 예를 들면, 64-비트, 128-비트, 256-비트, 또는 1024-비트 패킹 데이터 폭들이 옵션으로 이용될 수 있다. 예로서, 64-비트, 128-비트, 및 256-비트 폭들은, 각각, 8, 16, 및 32개의 8-비트 바이트 메모리 인덱스들, 또는 16-비트 워드 메모리 인덱스들 각각의 절반과 같은 수를 저장할 수 있다. 예시된 예에서, 메모리 인덱스들은, (왼쪽의) 최하위 위치로부터 (오른쪽의) 최상위 위치 오른쪽으로, 134, 231, 20, 135, 5, 21, 30, ... 186의 값들을 갖는다. 이들 값들은 예들일 뿐이다.

제한 범위 벡터 개더 연산의 실시예는 제한 범위 개더 인스트럭션의 실시예의 결과에 응답하여 및/또는 그의 결과로서 수행될 수 있다. 제한 범위 벡터 개더 연산은 메모리(410)의 제한 범위(420)로부터 데이터 엘리먼트들을 로딩하거나 또는 개더링할 수 있다. 전술한 바와 같이, 제한 범위는 (예를 들면, 32-비트 또는 64-비트 메모리 인덱스들을 이용하여 그외의 인스트럭션들에 의해 인덱스될 수 있는) 전체적으로 일반적으로 훨씬 더 큰 메모리의 단지 작은 부분 집합(예를 들면, 8-비트 또는 16-비트 메모리 인덱스들에 의해 인덱스될 수 있는 연속하는 부분 집합)을 나타낼 수 있다. 제한 범위의 범주 또는 크기는 메모리 인덱스들의 비트들에 있어서의 폭에 기초할 수 있다. 예를 들면, 각 8-비트 바이트 메모리 인덱스는 임의의 256개의 상이한 위치들 또는 데이터 엘리먼트들을 고유하게 인덱스하거나 또는 어드레스하도록 동작가능할 수 있고, 일부 실시예들에서, 제한 범위는 그러한 256개의 위치들 또는 데이터 엘리먼트들(예를 들면 256 바이트 또는 워드)만을 포함할 수 있다. 개더링된 데이터 엘리먼트는 소스 패킹 메모리 인덱스들(413)의 대응하는 메모리 인덱스들에 의해 나타내어 질 수 있다. 각 메모리 인덱스는 대응하는 메모리 위치 및/또는 저장된 데이터 엘리먼트를 가리킬 수 있다. 예를 들면, 예시된 실시예에서, 메모리 인덱스(134)는 데이터 엘리먼트 B1을 저장하는 제한 범위 내의 메모리 위치를 가리키고, 메모리 인덱스(231)는 데이터 엘리먼트 B2를 저장하는 제한 범위 내의 메모리 위치를 가리킬 수 있다.

패킹 데이터 결과(415)는 제한 범위 벡터 개더 인스트럭션/연산의 결과에 응답하여 및/또는 그 결과로서 데스티네이션 저장 위치에 저장될 수 있다. 일 양태에서, 인스트럭션은 데스티네이션 저장 위치를 지정하거나 또는 나타낼 수 있다. 일부 실시예들에서, 패킹 데이터 결과는, 메모리(410)의 그외의 부분들 내에서부터가 아니라, 제한 범위(420) 내에서부터만의 잠재적으로 비연속적인 영역들로부터 개더링된 데이터 엘리먼트들을 포함할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 패킹된 데이터 결과는 512-비트 폭일 수 있고 64개의 8-비트 데이터 엘리먼트를 포함할 수 있다. 대안으로, 16-비트 워드 또는 32-비트 더블워드 데이터 엘리먼트들은 개더링될 수 있고 더 넓거나 또는 더 좁은 결과 패킹 데이터에 저장될 수 있다. 예시된 예에서, 데스티네이션의 패킹 데이터 결과는, (왼쪽의) 최하위 위치로부터 (오른쪽의) 최상위 위치 오른쪽으로, 데이터 엘리먼트들 B1, B2, B3, B4, B5, B6, B7, ... B64를 저장한다. 이것은 하나의 예일 뿐이다.

도 5는 마스크된 제한 범위 개더 인스트럭션의 실시예에 응답하여 수행될 수 있는 마스크된 제한 범위 개더 연산(503)의 실시예를 나타내는 블록도이다. 도 5의 마스크된 연산은 도 4의 마스크되지 않은 연산에 특정한 유사성을 갖는다. 명세서를 불명료하게 하는 것을 피하기 위해, 도 5의 마스크된 연산에 대한 상이한 및/또는 부가적인 특성들은 주로 도 4의 마스크되지 않은 연산에 관하여 유사하거나 또는 공통인 특성들 모두를 반복하지 않고 설명될 것이다. 그러나, 마스크되지 않은 연산에 대한 이러한 전술한 특성들이 또한 명백히 다르게 명시되지 않는 한 도 5에 옵션으로 적용한다는 것이 이해될 것이다.

마스크된 제한 범위 개더 인스트럭션은 복수의 패킹 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스(513)를 지정하거나 또는 나타낼 수 있다. 도시된 바와 같이, 일부 실시예들에서, 메모리 인덱스들은 8-비트 바이트 메모리 인덱스들일 수 있고, 소스 패킹 메모리 엔덱스들은 512-비트 폭일 수 있고 64개의 8-비트 바이트 메모리 인덱스들을 포함할 수 있다. 대안으로, 그외의 실시예들에서 16-비트 워드 메모리 인덱스들, 또는 32-비트보다 작은 그외의 메모리 인덱스들이 옵션으로 이용될 수 있다. 더욱이, 그외의 실시예들에서, 512-비트 외의 그외의 패킹 데이터 폭들, 예를 들면, 64-비트, 128-비트, 256-비트, 또는 1024-비트 패킹 데이터 폭들이 옵션으로 이용될 수 있다.

일부 실시예들에서, 마스크된 제한 범위 개더 인스트럭션은 옵션으로 소스 패킹 데이터 연산 마스크(516)를 지정하거나 또는 나타낼 수 있다. 패킹 데이터 연산 마스크는 또한 본 발명에서 단순히 연산 마스크, 프레디케이트(predicate) 마스크, 또는 마스크로서 지칭될 수 있다. 마스크는, 연산들(예를 들면, 개더 연산들)이 수행되어야 하는지 여부를 마스크하거나, 프레디케이팅하거나, 또는 조건적으로 제어하는 데에 이용되는 프레디케이트 연산 또는 조건적 제어 연산을 나타낼 수 있다. 일부 실시예들에서, 마스킹 또는 프레디케이션(predication)은, 상이한 데이터 엘리먼트들에 대한 연산들이 별개로 및/또는 다른 것과 무관하게 프레디케이팅되거나 또는 조건적으로 제어될 수 있도록, 퍼-데이터(per-data) 엘리먼트 그래뉴앨리티(granularity)에 있을 수 있다. 연산 마스크는 다수의 마스크 엘리먼트들, 프레디케이트 엘리먼트들, 또는 조건 제어 엘리먼트들을 포함할 수 있다. 일 양태에서, 엘리먼트들은 대응하는 소스 데이터 엘리먼트들 및/또는 결과 데이터 엘리먼트들과의 1 대 1 대응에 포함될 수 있다. 도시된 바와 같이, 일부 실시예들에서, 각 마스크 엘리먼트는 싱글 마스크 비트일 수 있다. 각 마스크 비트의 값은 연산(예를 들면, 개더 연산)이 수행되어야 하는지 여부를 제어할 수 있다. 하나의 가능한 규칙(convention)에 따르면, 각 마스크 비트는, 개더 연산이 수행되게 하고 결과 데이터 엘리먼트가 데스티네이션 저장 위치에 저장되게 하는 제1 값(예를 들면, 이진수 1로 설정됨), 또는 개더 연산이 수행되지 않게 하고 및/또는 개더링된 데이터 엘리먼트가 데스티네이션 저장 위치에 저장되지 않게 하는 제2 값(예를 들면, 이진수 0으로 클리어됨)을 가질 수 있다.

도시된 바와 같이, 소스 패킹 메모리 인덱스들(513)이 512-비트 폭이고, 64개의 8-비트 메모리 인덱스들을 갖는 경우에, 소스 패킹 데이터 연산 마스크(516)는 64-비트 폭일 수 있고 각 비트는 프레디케이트 또는 마스크 비트를 나타낸다. 대안으로, 소스 패킹 데이터 연산 마스크는 그외의 폭들, 예를 들면, 소스 패킹 메모리 인덱스들(513)의 메모리 인덱스들의 수(예를 들면, 8, 16, 32 등)와 동일한 비트의 폭을 가질 수 있다. 예시된 실시예에서, (왼쪽의) 최하위로부터 (오른쪽의) 최상위로의 마스크 비트들은 1, 1, 0, 1, 1, 1, 0, ... 1이다. 이것은 하나의 예시일 뿐이다. 예시된 규칙에 따르면, 이진수 0의 마스크 비트 값은 마스크 아웃된 엘리먼트(masked out element)를 나타내는 반면, 이진수 1의 마스크 비트 값은 마스크되지 않은 엘리먼트를 나타낸다. 각각의 마스크되지 않은 엘리먼트에 대해, 연관된 개더 연산이 수행되어야 하고 개더링된 데이터 엘리먼트는 패킹 데이터 결과(515)의 대응하는 데이터 엘리먼트에 저장되어야 한다. 각각의 마스크 비트는 대응하는 위치의 결과 데이터 엘리먼트 및 메모리 인덱스에 대응한다. 예를 들면, 예시에서, 대응하는 위치들은 하나가 다른 것 위에 수직으로 정렬된다.

마스크된 제한 범위 벡터 개더 연산(503)의 실시예는 마스크된 제한 범위 개더 인스트럭션의 실시예에 응답하여 및/또는 그 결과로서 수행될 수 있다. 연산은 소스 패킹 연산 마스크(516)의 조건 제어가 가해지는 메모리(510)의 제한 범위(520)로부터 데이터 엘리먼트들을 로딩하거나 또는 개더링할 수 있다. 패킹 데이터 결과(515)는 마스크된 제한 범위 벡터 개더 인스트럭션/연산에 응답하여 및/또는 마스크된 제한 범위 벡터 개더 인스트럭션/연산의 결과로서 데스티네이션 저장 위치에 저장될 수 있다. 일부의 실시예들에서, 패킹 데이터 연산 마스크 내의 대응하는 마스크 비트가 1로 설정되는 경우의 데이터만 개더링될 수 있다. 대응하는 마스크 비트들이 마스크 아웃되는(예를 들어, 도시된 예시에서 이진수 0으로 클리어됨) 패킹 데이터 결과의 위치들에 별표(asterisks)(*)가 도시된다. 도시된 바와 같이, 일부의 실시예들에서, 패킹 데이터 결과는 512 비트 폭일 수 있고, 64개의 8 비트의 바이트 데이터 엘리먼트들을 포함할 수 있다. 대안으로, 16 비트 워드 또는 32 비트 더블워드 데이터 엘리먼트들이 개더링될 수 있고, 더 넓거나 또는 더 좁은 패킹 데이터 결과에 저장될 수 있다. 도시된 예시에서, 데스티네이션에서의 패킹 데이터 결과는, (좌측의) 최하위 위치(least significant position)로부터 (우측의) 최상위 위치(most significant position)로, 우측으로 데이터 엘리먼트들 B1, B2, *, B4, B5, B6, *, ... B64를 저장한다.

일부의 실시예들에서, 병합-마스킹(merging-masking)이 수행될 수 있다. 병합-마스킹에서, 임의의 데스티네이션 데이터 엘리먼트가 마스크 아웃되는 경우, 데스티네이션 저장 위치의 데이터 엘리먼트의 초기값 또는 기존값은 변하지 않고 유지될 수 있다(즉, 연산의 결과로 업데이트되지 않음). 그외의 실시예들에서, 제로-마스킹(zeroing-masking)이 수행될 수 있다. 제로-마스킹에서, 임의의 데스티네이션 데이터 엘리먼트가 마스크 아웃되는 경우, 대응하는 임의의 데스티네이션 데이터 엘리먼트가 제로 아웃될 수 있거나 또는 대응하는 임의의 데스티네이션 데이터 엘리먼트에 제로의 값이 저장될 수 있다. 대안으로, 그외의 미리 결정된 값들이 마스크 아웃된 데스티네이션 데이터 엘리먼트들에 저장될 수 있다. 따라서, 다양한 실시예들에서, 별표(*)에 의해 표시된 데이터 엘리먼트 위치들은 값들 또는 개더 연산 전에 데스티네이션 저장 위치의 초기 데이터 엘리먼트들의 값들을 제로 아웃시킬 수 있다.

도 6은 제한 범위 스캐터 인스트럭션의 실시예에 응답하여 수행될 수 있는 제한 범위 스캐터 연산(605)의 실시예를 도시하는 블록도이다. 제한 범위 스캐터 인스트럭션은 복수의 패킹 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스들(613)을 특정하거나 또는 그렇지 않은 경우 복수의 패킹 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스들(613)을 나타낼 수 있다. 도시된 바와 같이, 일부의 실시예들에서, 메모리 인덱스들은 8 비트의 바이트 메모리 인덱스들일 수 있고, 소스 패킹 메모리 인덱스들은 512 비트 폭일 수 있고 64개의 8 비트의 바이트 데이터 엘리먼트들을 포함할 수 있다. 대안으로, 그외의 실시예들에서 16 비트 워드 메모리 인덱스들, 또는 32 비트보다 작은 그외의 메모리 인덱스들이 선택적으로 사용될 수 있다. 또한, 그외의 실시예들에서, 512 비트 외에, 예를 들어, 64 비트, 128 비트, 256 비트 또는 1024 비트 패킹 데이터 폭과 같은, 그외의 패킹 데이터 폭들이 선택적으로 사용될 수 있다.

제한 범위 스캐터 인스트럭션은 또한 스캐터링될 복수의 패킹 데이터 엘리먼트를 갖는 소스 패킹 데이터(614)를 특정하거나 또는 그렇지 않은 경우 스캐터링될 복수의 패킹 데이터 엘리먼트를 갖는 소스 패킹 데이터(614)를 나타낼 수 있다. 도시된 바와 같이, 일부의 실시예들에서, 패킹 데이터 엘리먼트들은 8 비트의 바이트 데이터 엘리먼트들일 수 있고, 소스 패킹 데이터(614)는 512 비트 폭일 수 있고 64개의 이러한 8 비트의 바이트 데이터 엘리먼트들을 포함할 수 있다. 대안으로, 그외의 실시예들에서 16 비트 워드 데이터 엘리먼트들 또는 32 비트 더블워드 메모리 엘리먼트들이 선택적으로 사용될 수 있다. 또한, 그외의 실시예들에서, 512 비트 외에, 예를 들어, 64 비트, 128 비트, 256 비트 또는 1024 비트 패킹 데이터 폭과 같은, 그외의 소스 패킹 데이터용 폭들이 선택적으로 사용될 수 있다. 일부의 실시예들에서, 필수적인 것은 아니지만(예를 들어, 2배만큼 큰 폭의 레지스터가 메모리 인덱스들보다는 데이터 엘리먼트들용으로 사용될 수 있음), 메모리 인덱스들의 폭들은 데이터 엘리먼트들의 폭과 동일할 수 있다.

제한 범위 벡터 스캐터 연산의 실시예는 제한 범위 스캐터 인스트럭션의 실시예에 응답하여 및/또는 제한 범위 스캐터 인스트럭션의 실시예의 결과로서 수행될 수 있다. 제한 범위 벡터 스캐터 연산은 메모리(610)의 제한 범위(620)로 데이터 엘리먼트들을 저장, 기입 또는 스캐터링할 수 있다. 본 명세서의 다른 개소에서 논의한 바와 같이, 제한 범위는 (예를 들어, 32 비트 또는 64 비트 메모리 인덱스들을 이용하는 그외의 인스트럭션들에 의해 인덱스될 수 있는) 일반적으로 매우 큰 전체 메모리(610)들의 작은 서브세트(예를 들어, 8 비트 또는 16 비트 메모리 인덱스들에 의해 인덱스될 수 있는 인접한 서브세트)만을 나타낼 수 있다. 제한 범위(620)는 본 명세서의 임의의 개소에 개시된 제한 범위들의 선택적인 특성들 또는 속성들 중 임의의 것을 가질 수 있다. 소스 패킹 데이터 엘리먼트들(614)은 소스 패킹 메모리 인덱스들(613)에 의해 표시되는 및/또는 소스 패킹 메모리 인덱스들(613)로부터 도출된 위치들로 스캐터링될 수 있다. 각각의 메모리 인덱스는 대응하는 메모리 위치를 가리킬 수 있다. 일부의 실시예들에서, 데이터 엘리먼트들은 더 큰 메모리(610)의 그외의 부분들 내로부터는 아니자만 단지 제한 범위(620) 내의 선택적으로/잠재적으로 비인접한 메모리 위치들로 스캐터링될 수 있다. 예를 들어, 도시된 실시예에서, 메모리 인덱스(134)는 데이터 엘리먼트(B1)가 기입될 제한 범위 내의 메모리 위치를 가리키고, 메모리 인덱스(231)는 데이터 엘리먼트(B2)가 기입될 제한 범위 내의 메모리 위치를 가리킨다.

도 7은 마스크된 제한 범위 스캐터 인스트럭션의 실시예에 응답하여 수행될 수 있는 마스크된 제한 범위 스캐터 연산(705)의 실시예를 도시하는 블록도이다. 도 7의 마스크된 연산은 도 6의 마스크되지 않은 연산과 특정한 유사성들을 갖는다. 설명의 모호함을 피하기 위해, 도 7의 마스크된 연산에 대한 상이한 및/또는 추가의 특성들은 도 6의 마스크되지 않은 연산과 관련하여 모두 유사하거나 또는 공통인 특성들을 반복하지 않고 주로 설명될 것이다. 그러나, 마스크되지 않은 연산의 전술된 특성들 또한, 달리 명백하지 않은 한, 도 7에 선택적으로 적용된다는 것을 이해해야 한다.

마스크된 제한 범위 스캐터 인스트럭션은 복수의 패킹 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스들(713)을 특정하거나 또는 그렇지 않은 경우 복수의 패킹 메모리 인덱스를 갖는 소스 패킹 메모리 인덱스들(713)을 나타낼 수 있다. 도시된 바와 같이, 일부의 실시예들에서, 메모리 인덱스들은 8 비트의 바이트 메모리 인덱스들일 수 있고, 소스 패킹 메모리 인덱스들은 512 비트의 폭일 수 있고 64개의 8비트의 바이트 메모리 인덱스들을 포함할 수 있다. 대안으로, 그외의 실시예들에서 16 비트 워드 메모리 인덱스들 또는 32 비트보다 작은 그외의 메모리 인덱스들이 선택적으로 사용될 수 있다. 또한, 그외의 실시예들에서, 512 비트 외에, 예를 들어, 64 비트, 128 비트, 256 비트 또는 1024 비트 패킹 데이터 폭과 같은, 그외의 패킹 데이터 폭들이 선택적으로 사용될 수 있다.

제한 범위 스캐터 인스트럭션은 또한 스캐터링될 복수의 패킹 데이터 엘리먼트를 갖는 소스 패킹 데이터(714)를 특정하거나 또는 그렇지 않은 경우 스캐터링될 복수의 패킹 데이터 엘리먼트를 갖는 소스 패킹 데이터(714)를 나타낼 수 있다. 도시된 바와 같이, 일부의 실시예들에서, 패킹 데이터 엘리먼트들은 8 비트의 바이트 데이터 엘리먼트들일 수 있고, 소스 패킹 데이터(614)는 512 비트의 폭일 수 있고 64개의 8비트의 바이트 데이터 엘리먼트들을 포함할 수 있다. 대안으로, 그외의 실시예들에서 16 비트 워드 데이터 엘리먼트들 또는 32 비트 더블워드 데이터 엘리먼트들이 선택적으로 사용될 수 있다. 또한, 그외의 실시예들에서, 512 비트 외에, 예를 들어, 64 비트, 128 비트, 256 비트 또는 1024 비트 패킹 데이터 폭과 같은, 그외의 소스 패킹 데이터용 폭들이 선택적으로 사용될 수 있다.

일부의 실시예들에서, 마스크된 제한 범위 스캐터 인스트럭션은 소스 패킹 데이터 연산 마스크(716)를 선택적으로 특정하거나 또는 그렇지 않은 경우 소스 패킹 데이터 연산 마스크(716)를 선택적으로 나타낼 수 있다. 마스크(716)는 그외의 패킹 데이터 연산 마스크들, 프레디케이트(predicate) 마스크들 또는 본 명세서의 다른 개소에 기술된 조건 제어 연산자들(conditional control operands)의 특성들 또는 속성들 중 임의의 것을 선택적으로 가질 수 있다. 도시된 바와 같이, 64개의 메모리 인덱스들을 갖는 소스 패킹 메모리 및/또는 64개의 데이터 엘리먼트들을 갖는 소스 패킹 데이터의 경우, 소스 패킹 데이터 연산 마스크(716)는 64 비트 폭일 수 있고, 각각의 비트는 대응하는 상대적인 위치의 대응하는 데이터 엘리먼트 및/또는 메모리 인덱스에 대한 프레디케이트 또는 마스크 비트를 나타낼 수 있다. 대안으로, 소스 패킹 데이터 연산 마스크는 다른 폭들, 예를 들어, 메모리 인덱스들의 수 및/또는 데이터 엘리먼트들의 수와 동일한 비트들의 폭을 가질 수 있다. 도시된 변환에 따르면, 이진수 0의 마스크 비트 값은 마스크 아웃 엘리먼트를 나타내는 반면, 이진수 1의 마스크 비트 값은 마스크되지 않은 엘리먼트를 나타낸다.

제한 범위 벡터 스캐터 연산의 실시예는 제한 범위 스캐터 인스트럭션의 실시예에 응답하여 및/또는 제한 범위 스캐터 인스트럭션의 실시예의 결과로서 수행될 수 있다. 제한 범위 벡터 스캐터 연산은 더 큰 메모리(710)의 제한 범위(720)에 데이터 엘리먼트들을 저장, 기입 또는 스캐터링 할 수 있다. 본 명세서의 다른 개소에서 논의한 바와 같이, 제한 범위는 (예를 들어, 32 비트 또는 64 비트 메모리 인덱스들을 이용하는 그외의 인스트럭션들에 의해 인덱스될 수 있는) 일반적으로 매우 큰 전체 메모리의 작은 서브세트(예를 들어, 8 비트 또는 16 비트 메모리 인덱스들에 의해 인덱스될 수 있는 인접한 서브세트)만을 나타낼 수 있다. 제한 범위(720)는 본 명세서의 다른 개소에 기술된 제한 범위들의 선택적인 특성들 또는 속성들 중 임의의 것을 가질 수 있다. 소스 패킹 데이터 엘리먼트들(714)은, 소스 패킹 데이터 연산 마스크(716)의 프레디케이트 제어 또는 조건 제어 하에서 소스 패킹 메모리 인덱스들(713)에 의해 표시된 및/또는 소스 패킹 데이터 연산 마스크(716)의 프레디케이트 제어 또는 조건 제어 하에서 소스 패킹 메모리 인덱스들(713)로부터 도출된 위치들로 스캐터링될 수 있다. 일부의 실시예들에서, 데이터 엘리먼트들은 더 큰 메모리(710)의 그외의 부분들 내로부터는 아니지만 단지 제한 범위(720) 내의 선택적으로/잠재적으로 비인접한 메모리 위치들로 스캐터링될 수 있다. 예를 들어, 도시된 실시예에서, 데이터 엘리먼트(B1)는 메모리 인덱스 값(134)에 의해 표시된 제한 범위 내의 위치로 기입될 수 있고, 데이터 엘리먼트(B2)는 메모리 인덱스 값(231)에 의해 표시된 제한 범위 내의 위치로 기입될 수 있다. 도시된 예시에서, 메모리 인덱스 값(20)에 대한 데이터 엘리먼트(B3) 및 메모리 인덱스 값(30)에 대한 데이터 엘리먼트(B7)는 스캐터링이 수행되지 않을 수 있도록 마스크 아웃된다. 이것은 메모리 인덱스 값(20) 및 메모리 인덱스 값(30)에 대응하는 위치들에서 별표(*)에 의해 도시되어 나타내어진다. 일부의 경우들에서, 이 메모리 위치들은 스캐터 연산 전의 그들의 기존값들을 가질 수 있다(예를 들어, 스캐터 연산에 의해 변화되지 않을 수 있다).

이하의 의사코드(pseudocode)는 제한 범위 벡터 개더 인스트럭션/연산 VXLATB의 예시적인 실시예를 나타낸다:

이하의 의사코드(pseudocode)는 제한 범위 벡터 개더 인스트럭션/연산 VBTALXB의 예시적인 실시예를 나타낸다:

상기 의사코드에서, zmm1은 512 비트 패킹 데이터 레지스터를 나타낸다. 레지스터 zmm1은 VXLATB 용 데스티네이션(DEST) 및 VBTALXB 용 소스(SRC)로서 사용된다. k1은 64 비트 마스크 레지스터를 나타낸다. KL은 마스크 길이를 나타내고, VL은 벡터 길이를 나타내고, 이들은 양쪽 인스트럭션에 대하여 (16, 128), (32, 256), (64, 512) 중 임의의 하나로부터 선택된다. vm8z는 벡터 스케일 인덱스 베이스 메모리 어드레싱을 사용하여 특정된 메모리 연산자들의 벡터 어레이를 나타낸다. 메모리 어드레스들의 어레이는 공통 베이스 레지스터, 일정 스케일 계수(constant scale factor) 및 512 비트 ZMM 레지스터 내에 8 비트 인덱스 값의 개별 엘리먼트들을 갖는 벡터 인덱스 레지스터를 이용하여 특정된다. VINDEX는 메모리 인덱스들의 벡터를 나타낸다. SignExtend는 메모리 인덱스 VINDEX 상의 부호 확장 연산(sign extension operation)을 나타낸다. BASE_ADDR은 베이스 어드레스를 나타내고 SCALE은 메모리 액세스에 통상적으로 사용되는 스케일을 나타낸다. 심볼 ← 는 저장을 나타낸다. i 및 j는 루프 카운터들이다.

도 8은 제한 범위 개더 인스트럭션의 실시예에 응답하여 수행될 수 있는 제한 범위 벡터 개더 연산(803)의 실시예의 예시적인 구현의 블록도이다. 일부 실시예들에서, 연산(803)은 도 1의 프로세서 및/또는 도 2의 장치에 의해 및/또는 내에서 수행될 수 있다. 대안적으로, 연산(803)은 유사하거나 또는 완전히 상이한 프로세서 또는 장치에 의해 및/또는 내에서 수행될 수 있다. 또한, 도 1의 프로세서 및/또는 도 2의 장치는, 도 8의 연산들과 유사하거나 또는 완전히 상이한 연산들을 수행할 수 있다. 또한, 일부 실시예들에서, 연산(803)의 양태들은 옵션으로서 도 3의 방법에 통합될 수 있으며, 방법에서 실시예들은 도 1의 프로세서 및/또는 도 2의 장치에 의해 및/또는 내에서 수행될 수 있다.

제한 범위 개더 인스트럭션은 소스 패킹 메모리 인덱스들(813) 및 데스티네이션 저장 위치(815)를 특정하거나 또는 다르게 지시할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 메모리 인덱스들은 8 비트 바이트 메모리 인덱스들일 수 있으나, 이는 필수적인 것은 아니다. 예시된 예에서, 메모리 인덱스들은, (좌측의) 최하위 위치로부터 (우측의) 최상위 위치까지, 0, 50, 100, 150, 200의 값들을 갖는다. 이 값들은 단지 예일 뿐이지만, 모든 값들은 바이트 인덱스들에 의해 인덱싱될 수 있는 0 내지 255의 범위 내에 있다는 것에 주목하라.

실행 로직(809)의 실시예는 제한 범위 벡터 개더 연산(803)을 수행할 수 있다. 이전에 논의된 실시예들과 유사하게, 연산은 메모리(810)의 단지 제한된 범위(820) 내로부터의 메모리 인덱스들에 의해 지시되는 데이터 엘리먼트들을 개더링할 수 있고, 개더링된 데이터 엘리먼트들을 데스티네이션 저장 위치(815) 내의 대응하는 결과 데이터 엘리먼트들 내에 저장할 수 있다. 예시된 예에서 도시된 바와 같이, 메모리 인덱스들 0, 50, 100, 150, 200은 제한된 범위 내의 값들 A, B, C, D, E를 갖는 데이터 엘리먼트들을 지시할 수 있으며, 이 값들 A, B, C, D, E는 데스티네이션 저장 위치의 대응하는 결과 데이터 엘리먼트들 내에 저장될 수 있다. 제한된 범위는 본 명세서의 다른 곳에서 언급된 옵션의 특성들 중 임의의 것을 가질 수 있다.

벡터 개더 인스트럭션을 구현하기 위한 한 방법은 별도의 로드 연산(예를 들어, 마이크로연산)을 통해 각각의 데이터 엘리먼트를 별도로 또는 개별적으로 로딩 또는 개더링하는 것이다. 예를 들어, 8개의 데이터 엘리먼트들을 개더링하기 위해, 8개의 로드 연산들이 하나씩 순차적으로 수행될 수 있다. 그러한 순차적인 로드 연산은 일반적으로 완료하기에 현저한 시간이 소요되는 경향이 있다. 또한, 이러한 순차적인 로드 연산들 동안, 페이지 폴트들이 잠재적으로 발생할 수 있다. 따라서, 프로세서는 일반적으로, 그러한 페이지 폴트들이 발생하는 경우, 모든 로드 연산들을 추적하고 개더 인스트럭션들의 완료를 모니터링할 수 있어야 한다.

그러나, 일부 실시예들에서, 하나의 데이터 엘리먼트를 로딩 또는 개더링하기보다는, 로드 연산 당 복수의 데이터 엘리먼트들이 메모리의 제한된 범위로부터 프로세서로 로딩되거나 검색될 수 있다. 즉, 일부 실시예들에서, 제한 범위 벡터 개더 연산은 하나 이상의 복수의 데이터 엘리먼트 로딩을 이용하여 구현될 수 있다. 도시된 예시적인 실시예에서, 실행 로직(809)은 제한된 범위와 결합된 512 비트 폭의 메모리 로드 로직(840)을 포함할 수 있다. 512 비트 폭의 메모리 로드 로직은 단일 로드 연산에서 512 비트 내에 가능한 많은 데이터 엘리먼트들을 로드하기 위해 512 비트 로드들을 수행할 수 있다. 예를 들어, 하나의 512 비트 로드 연산은 64개의 8 비트 데이터 엘리먼트들을 로드할 수 있다. 일부 실시예들에서, 256-바이트 제한 범위의 4개의 512 비트 비중첩 부분들을 각각 로드하기 위해, 4개의 512 비트 로드를 이용하여 256-바이트 제한 범위(820) 전체가 프로세서에 로드될 수 있다. 도시된 바와 같이, 일부 실시예들에서, 256 비트 로드된 제한 범위 전체는 4개의 512 비트 레지스터들에 저장될 수 있거나, 또는 대안적으로 8개의 256 비트 레지스터들 또는 2개의 1024 비트 레지스터들에 저장될 수 있다. 아키텍추럴 또는 논-아키텍추럴의 전용 또는 현존 레지스터들을 포함하는 임의의 온-프로세서 저장 위치들이 잠재적으로 적합하다. 다른 옵션으로서, 512 비트 로드들보다는, 더 좁은(예를 들어, 128 비트, 256 비트 등) 또는 더 넓은(예를 들어, 1024 비트) 로드들이 옵션으로서 이용될 수 있다. 또한, 필요한 데이터 엘리먼트가 제한 범위의 주어진 부분 내에 존재하지 않는다면, 이러한 로드들 중 하나 이상은 옵션으로서 생략될 수 있다.

각각의 로드는 잠재적으로, 메모리 인덱스들의 값들에 의존하여, 필요한/바람직한 및 불필요한/바람직하지 않은 데이터 엘리먼트들 둘다를 로드할 수 있다. 예를 들어, 각각의 로드는 복수의 메모리 인덱스에 의해 지시될 메모리 어드레스에 적어도 하나의 데이터 엘리먼트를 로드할 수 있고, 복수의 메모리 인덱스에 의해 지시되지 않을 메모리 어드레스에 적어도 하나의 데이터 엘리먼트를 로드할 수 있다. 예를 들어, 도시된 바와 같이, 인덱스들 0, 50, 100, 150 및 200에 대응하는 필요한/바람직한 데이터 엘리먼트들 A, B, C, D 및 E가 로드될 수 있다. 추가적으로, 예를 들어, 데이터 엘리먼트들 F 및 G와 같은 불필요한/바람직하지 않은 데이터 엘리먼트들이 로드될 수 있다. (간략함을 위해 도시되지 않은) 다른 불필요한/바람직하지 않은 데이터 엘리먼트들 또한 로드될 수 있다. 데이터 엘리먼트들 F 및 G는 소스 패킹 바이트 메모리 인덱스들(813)에 의해 인덱싱 또는 어드레싱되지 않을 수 있다. 바람직하게는, 그러한 멀티-데이터 엘리먼트 로드들은 주어진 수보다 작은 수의 로드에서 주어진 수의 데이터 엘리먼트들이 개더되도록 허용할 수 있다. 예를 들어, 통상적으로, 단지 4번의 로드 연산들만이 수행되었음에도, 로드된 제한 범위 내에 4개보다 많은 바람직한 데이터 엘리먼트들이 포함될 수 있다. 예를 들어, 일 실시예에서, 단지 4번의 로드에서 64개의 8 비트 데이터 엘리먼트들이 개더될 수 있다. 다른 실시예들에서, 메모리로부터의 더 작은 수(예를 들어, 4)만큼 더 큰 복수의 데이터 엘리먼트 로드들과 함께 32, 16, 또는 8개의 비교적 작은 데이터 엘리먼트들이 로드될 수 있다. 이는 차례로 연산의 속도를 증가시키는 것을 도울 수 있다.

도면을 다시 참조하면, 실행 로직(809)은 또한 메모리 인덱스 기반 데이터 재배열 로직(842)을 포함한다. 메모리 인덱스 기반 데이터 재배열 로직은 로드된 제한 범위 및/또는 로드된 데이터 엘리먼트들로부터의 바람직한/필요한 데이터 엘리먼트들을 재배열하고, 대응하는 메모리 인덱스들에 의해 지시되는 데스티네이션 저장 위치 내의 적합한 위치들 내에 그것들을 저장하도록 동작가능할 수 있다. 일부 실시예들에서, 제한 범위 전체의 데이터 엘리먼트들의 서브세트가 메모리 인덱스들에 기초하여 데스티네이션 저장 위치로 선택적으로 이동될 수 있다. 재배열을 수행하는 다양한 방법들이 고려된다. 일부 실시예들에서, 하나 이상의 치환(permute), 섞기(shuffle), 추출, 또는 다른 데이터 재배열 연산들이 이용될 수 있다.

다양한 상이한 패킹 데이터 폭들 및 데이터 엘리먼트 폭들이 적합하다. 일부 실시예들에서, 128 비트 폭의 패킹 데이터는 16개의 8 비트 바이트 데이터 엘리먼트들 또는 8개의 16 비트 워드 데이터 엘리먼트들을 포함할 수 있다. 다른 실시예들에서, 256 비트 패킹 데이터는 32개의 8 비트 바이트 데이터 엘리먼트들 또는 16개의 16 비트 워드 데이터 엘리먼트들을 포함할 수 있다. 또다른 실시예들에서, 512 비트 패킹 데이터는 64개의 8 비트 바이트 데이터 엘리먼트들 또는 32개의 16 비트 워드 데이터 엘리먼트들을 포함할 수 있다. 추가적인 실시예들에서, 512 비트보다 크거나, 또는 128 비트보다 작은 패킹 데이터 포맷들이 또한 적합하다. 예를 들어, 1012 비트 패킹 데이터, 및 64 비트 패킹 데이터가 8 비트 바이트 또는 16 비트 워드들에 대해 적합하다. 일반적으로, 데이터 엘리먼트들의 수는 패킹 데이터 연산자의 비트 단위의 크기를 데이터 엘리먼트들의 비트 단위의 크기로 나눈 것과 같다.

도 9는 패킹 데이터 레지스터들(907)의 적합한 세트의 예시적인 실시예의 블록도이다. 도시된 패킹 데이터 레지스터들은 32개의 512 비트 패킹 데이터 또는 벡터 레지스터들을 포함한다. 이러한 32개의 512 비트 레지스터들은 ZMM0 내지 ZMM31로 라벨링된다. 예시된 실시예에서, 이러한 레지스터들 중 하위 16개의 레지스터의 하위 차수 256 비트, 즉 ZMM0-ZMM15는, YMM0-YMM15로 라벨링된 각각의 256 비트 패킹 데이터 또는 벡터 레지스터들에 에일리어싱(aliased) 또는 오버레이(overlaid)되지만, 이는 필수 사항은 아니다. 유사하게, 예시된 실시예에서, YMM0-YMM15의 하위 차수 128 비트는 XMM0-XMM1로 라벨링된 각각의 128 비트 패킹 데이터 또는 벡터 레지스터들에 에일리어싱 또는 오버레이되지만, 이 또한 필수 사항은 아니다. 512 비트 레지스터들(ZMM0 내지 ZMM31)은 512 비트 패킹 데이터, 256 비트 패킹 데이터, 또는 128 비트 패킹 데이터를 보유하도록 동작가능하다. 256 비트 레지스터들(YMM0 내지 YMM15)은 256 비트 패킹 데이터 또는 128 비트 패킹 데이터를 보유하도록 동작가능하다. 128 비트 레지스터들(XMM0 내지 XMM1)은 128 비트 패킹 데이터를 보유하도록 동작가능하다. 레지스터들 각각은 패킹 부동 소수점 데이터 또는 패킹 정수 데이터를 저장하기 위해 이용될 수 있다. 적어도 8 비트 바이트 데이터, 16 비트 워드 데이터, 32 비트 더블워드 또는 단일 정밀 부동 소수점 데이터, 및 64 비트 쿼드워드 또는 더블 정밀 부동 소수점 데이터를 포함하는 상이한 데이터 엘리먼트 크기들이 지원된다. 패킹 데이터 레지스터들의 대안적인 실시예들은 상이한 수의 레지스터들, 상이한 크기의 레지스터들을 포함할 수 있고, 더 작은 레지스터들에 더 큰 레지스터들을 에일리어싱할 수 있거나 에일리어싱하지 않을 수 있다.

도 10은 패킹 데이터 연산 마스크 레지스터들(1008)의 적합한 세트의 예시적인 실시예의 블록도이다. 패킹 데이터 연산 마스크 레지스터들 각각은 패킹 데이터 연산 마스크를 저장하는데 이용될 수 있다. 예시된 실시예에서, 세트는 k0 내지 k7로 라벨링된 8개의 패킹 데이터 연산 마스크 레지스터들을 포함한다. 대안적인 실시예들은 8개보다 적거나(예를 들어, 2개, 4개, 6개 등) 8개보다 많은(예를 들어, 16개, 20개, 32개 등) 패킹 데이터 연산 마스크 레지스터들을 포함할 수 있다. 예시된 실시예에서, 패킹 데이터 연산 마스크 레지스터들 각각은 64 비트이다. 대안적인 실시예들에서, 패킹 데이터 연산 마스크 레지스터들의 폭은 64 비트보다 넓거나(예를 들어, 80 비트, 128 비트 등), 64 비트보다 좁을 수 있다(예를 들어, 8 비트, 16 비트, 32 비트 등). 예로서, 마스크된 제한 범위 벡터 메모리 액세스 인스트럭션은 8개의 패킹 데이터 연산 마스크 레지스터들(k0 내지 k7)을 인코딩 또는 특정하기 위해 3개의 비트들(예컨대, 3 비트 필드)을 이용할 수 있다. 대안적인 실시예들에서, 더 적은 또는 더 많은 패킹 데이터 연산 마스크 레지스터들이 존재하는 경우, 각각 더 적은 또는 더 많은 비트들이 이용될 수 있다.

도 11은 64 비트 패킹 데이터 연산 마스크 레지스터(1108)의 예시적인 실시예를 예시하고, 패킹 데이터 연산 마스크로서 및/또는 마스킹을 위해 이용되는 비트들의 수는 패킹 데이터 폭 및 데이터 엘리먼트 폭에 의존한다는 것을 예시하는 도면이다. 예시된 마스크 레지스터는 64 비트의 폭을 갖지만, 이는 필수 사항은 아니다. 일반적으로, 하나의 엘리먼트당 마스킹 제어 비트가 이용될 때, 마스킹을 위해 이용되는 비트들의 수는 비트 단위의 패킹된 데이터 폭을 비트 단위의 패킹 데이터 엘리먼트의 폭으로 나눈 것과 같다. 추가적인 예시를 위해, 몇몇 가능한 예시적인 실시예들을 고려한다. 단지 8 비트만이, 예를 들어 하위 8 비트만이, 16 비트 데이터 엘리먼트들을 갖는 128 비트 패킹 데이터에 대해 이용될 수 있다. 단지 16 비트만이, 예를 들어 하위 16 비트만이, 8 비트 데이터 엘리먼트들을 갖는 128 비트 패킹 데이터, 또는 16 비트 데이터 엘리먼트들을 갖는 256 비트 패킹 데이터에 대해 이용될 수 있다. 단지 32 비트만이, 예를 들어 하위 32 비트만이, 8 비트 데이터 엘리먼트들을 갖는 256 비트 패킹 데이터, 또는 16 비트 데이터 엘리먼트들을 갖는 512 비트 패킹 데이터에 대해 이용될 수 있다. 모든 64 비트 비트가 8 비트 데이터 엘리먼트들을 갖는 512 비트 패킹 데이터에 대해 이용될 수 있다.

인스트럭션 세트는 하나 이상의 인스트럭션 포맷을 포함한다. 주어진 인스트럭션 포맷은 다양한 필드들(비트들의 수, 비트들의 위치)을 정의하여, 다른 것들 중에서, 수행될 연산들(OPCODE) 및 그 연산이 수행될 연산자(들)을 특정한다. 일부 인스트럭션 포맷들은 인스트럭션 템플릿들(또는 서브포맷들)의 정의를 통해 더 세분화될 수 있다. 예를 들어, 주어진 인스트럭션 포맷의 인스트럭션 템플릿들은 인스트럭션 포맷의 필드들(포함된 필드들은 일반적으로 동일한 순서지만, 더 적은 필드들이 포함되기 때문에 적어도 일부는 상이한 비트 위치들을 가짐)의 상이한 서브세트들을 갖도록 정의될 수 있고/거나, 주어진 필드를 상이하게 해석하도록 정의될 수 있다. 따라서, ISA의 각각의 인스트럭션은 주어진 인스트럭션 포맷을 이용하여 (그리고, 정의된다면, 그 인스트럭션 포맷의 인스트럭션 템플릿들 중 주어진 하나의 인스트럭션 템플릿 내에서) 표현되고, 연산 및 연산자들을 특정하기 위한 필드들을 포함한다. 예를 들면, 예시적인 ADD 인스트럭션은 특정 OPCODE, 및 그 OPCODE를 특정하는 OPCODE 필드와 오퍼랜드(소스1/데스티네이션 및 소스2)를 선택하기 위한 오퍼랜드 필드를 포함하는 인스트럭션 포맷을 가지고; 인스트럭션 스트림에서 이 ADD 인스트럭션의 발생은 특정 오퍼랜드를 선택하는 오퍼랜드 필드에 특정 콘텐츠를 가질 것이다. AVX(Advanced Vector Extensions)(AVX1 및 AVX2)로 지칭되고 VEX(Vector Extensions) 코딩 방식을 사용하는 SIMD 확장들의 세트는 릴리즈 및/또는 공개되었다(예를 들면, Intel® 64 and IA-32 Architectures Software Developers Manual, 2011년 10월; 및 Intel® Advanced Vector Extensions Programming Reference, 2011년 6월 참조).

예시적인 인스트럭션 포맷

본 명세서에서 기재되는 인스트럭션(들)의 실시예들은 상이한 포맷들로 구현될 수 있다. 또한, 예시적인 시스템, 아키텍쳐, 및 파이프라인들이 구체적으로 후술된다. 인스트럭션(들)의 실시예들은 그러한 시스템, 아키텍쳐 및 파이프라인들 상에 실행될 수 있지만, 구체적인 설명으로 제한되지는 않는다.

VEX 인스트럭션 포맷

VEX 인코딩은 인스트럭션들이 2개 보다 많은 오퍼랜드를 갖도록 하고, SIMD 벡터 레지스터들이 128 비트보다 더 길어지도록 한다. VEX 프리픽스의 사용은 3개의 오퍼랜드(또는 더 많은) 신택스를 제공한다. 예를 들면, 이전의 2개의 오퍼랜드 인스트럭션들은 A = A + B와 같은 소스 오퍼랜드를 덮어쓰는 연산들을 수행하였다. VEX 프리픽스의 사용은 오퍼랜드가 A = B + C와 같은 비파괴적인 연산들을 수행할 수 있다.

도 12a는 VEX 프리픽스(1202), 실제 OPCODE 필드(1230), Mod R/M 바이트(1240), SIB 바이트(1250), 변위 필드(1262) 및 IMM8(1272)를 포함하는 예시적인 AVX 인스트럭션 포맷을 도시한다. 도 12b는 도 12a로부터의 어떤 필드들이 전체 OPCODE 필드(1274) 및 기본 연산 필드(1242)를 구성하는지를 도시한다. 도 12c는 도 12a로부터의 어떤 필드들이 레지스터 인덱스 필드(1244)를 구성하는 지를 도시한다.

VEX 프리픽스(바이트 0-2)(1202)는 3-바이트 형식으로 인코딩된다. 제1 바이트는 포맷 필드(1240)(VEX 바이트 0, 비트 [7:0])이며, 이는 명시적 C4 바이트 값(C4 인스트럭션 포맷을 구별하기 위해 사용되는 고유의 값)을 포함한다. 제2-제3 바이트(VEX 바이트 1-2)는 특정 기능들을 제공하는 다수의 비트 필드를 포함한다. 특히, REX 필드(1205)(VEX 바이트 1, 비트 [7-5])는 VEX.R 비트 필드(VEX 바이트 1, 비트 [7] - R), VEX.X 비트 필드(VEX 바이트 1, 비트 [6] - X), 및 VEX.B 비트 필드(VEX 바이트 1, 비트 [5] - B)로 구성된다. 인스트럭션들의 다른 필드들은 기술 분야에 알려져 있는 대로 레지스터 인덱스들의 하위 3 비트를 인코딩하고(rrr, xxx, 및 bbb), 따라서 Rrrr, Xxxx, 및 Bbbb가 VEX.R, VEX.X, 및 VEX.B를 더함으로써 형성될 수 있다. OPCODE 맵 필드(1215)(VEX 바이트 1, 비트[4:0] - mmmmm)는 암시 리딩 OPCODE 바이트를 인코딩하는 콘텐츠를 포함한다. W 필드(1264)(VEX 바이트 2, 비트 [7] - W)는 표기 VEX.W로 나타내고, 인스트럭션에 따라 상이한 기능들을 제공한다. VEX.vvvv(1220)(VEX 바이트 2, 비트 [6:3] - vvvv)의 역할은 다음을 포함할 수 있다: 1) VEX.vvvv는 반전(1의 보수 방식; 1s complement) 형식으로 특정된, 제1 소스 레지스터 오퍼랜드를 인코딩하고 2 또는 그보다 많은 소스 오퍼랜드들을 갖는 인스트럭션들에 대해 유효하고; 2) VEX.vvvv는 특정 벡터 시프트를 위해 1의 보수 방식 형태로 특정된, 데스티네이션 레지스터 오퍼랜드를 인코딩하고; 또는 3) VEX.vvvv는 어떠한 오퍼랜드도 인코딩하지 않고, 필드는 리저브되어 1111b를 반드시 포함할 것이다. VEX.L(1268) 사이즈 필드(VEX 바이트 2, 비트 [2] - L) = 0이라면, 그것은 128 비트 벡터를 가리키고; VEX.L = 1이라면, 그것은 256 비트 벡터를 가리킨다. 프리픽스 인코딩 필드(1225)(VEX 바이트 2, 비트 [1:0] - pp)는 기본 연산 필드를 위한 추가적인 비트들을 제공한다.

실제 OPCODE 필드(1230)(바이트 3)는 OPCODE 바이트로 알려져 있다. OPCODE의 일부는 이 필드로 특정된다.

MOD R/M 필드(1240)(바이트 4)는 MOD 필드(1242)(비트 [7-6]), REG 필드(1244)(비트 [5-3]), 및 R/M 필드(1246)(비트 [2-0])를 포함한다. REG 필드(1244)의 역할은 다음을 포함할 수 있다: 데스티네이션 레지스터 오퍼랜드 또는 소스 레지스터 오퍼랜드(Rrrr의 rrr)를 인코딩하는 것, 또는 OPCODE 확장으로 취급되어 어떠한 인스트럭션 오퍼랜드를 인코딩하는 데에도 사용되지 않는 것. R/M 필드(1246)의 역할은 다음을 포함할 수 있다: 메모리 어드레스를 참조하는 인스트럭션 오퍼랜드를 인코딩하는 것, 또는 데스티네이션 레지스터 오퍼랜드 또는 소스 레지스터 오퍼랜드를 인코딩하는 것.

스케일, 인덱스, 베이스 (SIB) - 스케일 필드(1250)(바이트 5)의 콘텐츠는 메모리 어드레스 생성에 사용되는 SS1252(비트 [7-6])를 포함한다. SIB.xxx(1254)(비트 [5-3]) 및 SIB.bbb(1256)(비트 [2-0])의 콘텐츠는 레지스터 인덱스들 Xxxx 및 Bbbb과 관련하여 이전에 참고되었다.

변위 필드(1262) 및 이미디어트 필드(IMM8)(1272)는 어드레스 데이터를 포함한다.

일반 벡터 프렌들리 인스트럭션 포맷

벡터 프렌들리 인스트럭션 포맷은 벡터 인스트럭션들을 위해 맞춰진 인스트럭션 포맷이다(예를 들면, 벡터 연산들에 특정한 특정 필드들이 있다). 벡터와 스칼라 연산들 모두가 벡터 프렌들리 인스트럭션 포맷을 통해 지원되는 실시예들이 설명되었지만, 대안적 실시예들은 벡터 연산들만이 벡터 프렌들리 인스트럭션 포맷만을 사용한다.

도 13a-13b는 본 발명의 실시예들에 따른 일반 벡터 프렌들리 인스트럭션 포맷 및 인스트럭션 템플릿들을 도시하는 블록도이다. 도 13a는 본 발명의 실시예들에 따른 일반 벡터 프렌들리 인스트럭션 포맷 및 그의 클래스 A 인스트럭션 템플릿들을 도시하는 블록도이고; 도 13b는 본 발명의 실시예들에 따른 일반 벡터 프렌들리 인스트럭션 포맷 및 그의 클래스 B 인스트럭션 템플릿들을 도시하는 블록도이다. 특히, 일반 벡터 프렌들리 인스트럭션 포맷(1300)은 정의된 클래스 A 및 클래스 B 인스트럭션 템플릿들을 정의하고 둘 다는 메모리 액세스 없음(1305) 인스트럭션 템플릿들 및 메모리 액세스(1320) 인스트럭션 템플릿들을 포함한다. 벡터 프렌들리 인스트럭션 포맷과 관련하여 사용되는 용어 "일반"은 임의의 특정 인스트럭션 세트에 고정되어 있지 않은 인스트럭션 포맷을 지칭한다.

벡터 프렌들리 인스트럭션 포맷이 이하의 것들을 지원할 수 있다: 32 비트(4 바이트) 또는 64 비트(8 바이트) 데이터 엘리먼트 폭(또는 사이즈)를 갖는 64 바이트 벡터 오퍼랜드 길이(또는 사이즈)(따라서, 64 바이트 벡터는 16 더블워드-사이즈 엘리먼트 또는 대안적으로, 8 쿼드워드 사이즈 엘리먼트로 구성됨); 16 비트(2 바이트) 또는 8 비트(1 바이트) 데이터 엘리먼트 폭(또는 사이즈)을 갖는 64 바이트 벡터 오퍼랜드 길이(또는 사이즈); 32 비트(4 바이트), 64 비트(8 바이트), 16 비트(2 바이트) 또는 8 비트(1 바이트) 데이터 엘리먼트 폭들(또는 사이즈들)을 갖는 32 바이트 벡터 오퍼랜드 길이(또는 사이즈); 및 32 비트(4 바이트), 64 비트(8 바이트), 16 비트(2 바이트), 또는 8 비트(1 바이트) 데이터 엘리먼트 폭들(또는 사이즈들)을 갖는 16 바이트 벡터 오퍼랜드 길이(또는 사이즈)를 지원하는 본 발명의 실시예들이 개시되는 반면에; 대안적인 실시예들은 더 큰, 작은 및/또는 상이한 데이터 엘리먼트 폭들(예를 들면, 128 비트(16 바이트) 데이터 엘리먼트 폭)을 갖는 더 큰, 작은 및/또는 상이한 벡터 오퍼랜드 사이즈들(예를 들면, 256 바이트 벡터 오퍼랜드들).

도 13a의 클래스 A 인스트럭션 템플릿들은 1) 메모리 액세스 없음(1305) 인스트럭션 템플릿들 내의 메모리 액세스 없음, 전체 라운드 제어 타입 연산(1310) 인스트럭션 템플릿 및 메모리 액세스 없음, DT 타입 연산(1315) 인스트럭션 템플릿을 포함하고; 2) 메모리 액세스(1320) 인스트럭션 템플릿들 내의 메모리 액세스, 일시적(1325) 인스트럭션 템플릿 및 메모리 액세스, 비일시적(1330) 인스트럭션 템플릿을 포함한다. 도 13b의 클래스 B 인스트럭션 템플릿들은 1) 메모리 액세스 없음(1305) 인스트럭션 템플릿들 내의 메모리 액세스 없음, 기입 마스크 제어, 부분 라운드 제어 타입 연산(1312) 인스트럭션 템플릿 및 메모리 액세스 없음, 기입 마스크 제어, VSIZE 타입 연산(1317) 인스트럭션 템플릿을 포함하고; 2) 메모리 액세스(1320) 인스트럭션 템플릿들 내의 메모리 액세스, 기입 마스크 제어(1327) 인스트럭션 템플릿을 포함한다.

일반 벡터 프렌들리 인스트럭션 포맷(1300)은 도 13a-13b에 도시된 순서로 하기에 기재되는 다음 필드들을 포함한다.

포맷 필드(1340) - 이 필드 내의 특정한 값(인스트럭션 포맷 식별자 값)은 벡터 프렌들리 인스트럭션 포맷 및 따라서 인스트럭션 스트림들 내의 벡터 프렌들리 인스트럭션 포맷의 인스트럭션들의 발생을 고유하게 식별한다. 따라서, 일반 벡터 프렌들리 인스트럭션 포맷만을 갖는 인스트럭션 세트에는 필요하지 않기 때문에 이 필드들은 선택적이다.

기본 연산 필드(1342) - 그 콘텐츠는 상이한 기본 연산들을 구별한다.

레지스터 인덱스 필드(1344) - 그 콘텐츠는 직접 또는 어드레스 생성을 통해, 소스 및 데스티네이션 오퍼랜드들의 위치, 즉, 레지스터들에 있는지 또는 메모리에 있는지를 특정한다. 이들은 P X Q(예를 들면, 32x512, 16x128, 32x1024, 64x1024) 레지스터 파일로부터 N개의 레지스터들을 선택하기 위해 충분한 수의 비트들을 포함한다. 일 실시예에서 N은 3개의 소스들 및 1개의 데스티네이션 레지스터까지일 수 있고, 대안적인 실시예들은 더 많거나 적은 소스들 및 데스티네이션 레지스터들을 지원할 수 있다(예를 들면, 소스들 중 하나가 데스티네이션으로 동작하는 2개의 소스들까지 지원할 수 있고, 소스들 중 하나가 데스티네이션으로 동작하는 3개의 소소들까지 지원할 수 있고, 2개의 소스들 및 1개의 데스티네이션까지 지원할 수 있다).

변경자 필드(1346) - 그 콘텐츠는 메모리 액세스를 하지 않는 것으로부터 메모리 액세스를 특정하는 일반 벡터 인스트럭션 포맷내의 인스트럭션들의 발생들; 즉 메모리 액세스 없음(1305) 인스트럭션 템플릿들과 메모리 액세스(1320) 인스트럭션 템플릿들 간을 구분한다. (레지스터 내의 값들을 사용하여 소스 및/또는 데스티네이션 어드레스들을 특정하는 일부 경우들에서) 메모리 액세스 연산들이 메모리 계층구조에 판독 및/또는 기입을 하는 반면, 비-메모리 액세스 연산들은 하지 않는다(예를 들면, 소스 및 데스티네이션들은 레지스터들이다). 일 실시예에서 이 필드는 메모리 어드레스 계산을 하기 위한 3개의 상이한 방법들 간 선택을 하지만, 대안적인 실시예들은 메모리 어드레스 계산을 하기 위해 더 많거나, 적거나, 상이한 방법들을 지원할 수 있다.

증가 연산 필드(1350) - 이것의 콘텐츠는 다수의 상이한 연산들 중 어느 것이 베이스 연산에 추가하여 수행될지를 구분한다. 이 필드는 문맥 명시적이다. 본 발명의 일 실시예에서, 이 필드는 클래스 필드(1368), 알파 필드(1352), 및 베타 필드(1354)로 분할된다. 증가 연산 필드(1350)는 연산들의 일반 그룹들이 2, 3, 또는 4 개의 인스트럭션들보다는 단일 인스트럭션에서 수행되도록 한다.

스케일 필드(1360) - 이것의 콘텐츠는 메모리 어드레스 생성을 위한(예컨대, 2^scale * 인덱스 + 베이스를 이용하는 어드레스 생성을 위한) 인덱스 필드의 콘텐츠의 스케일링을 고려한다.

변위 필드(1362A) - 이것의 콘텐츠는 (예컨대, 2^scale * 인덱스 + 베이스 + 변위를 이용하는 어드레스 생성을 위한) 메모리 어드레스 생성의 부분으로서 이용된다.

변위 팩터 필드(1362B)(변위 팩터 필드(1362B)의 바로 위의 변위 필드(1362A)의 병렬배치는 하나 또는 다른 하나가 이용되고 있다는 것을 주지함) - 이것의 콘텐츠는 어드레스 생성의 부분으로서 이용된다; 그것은 메모리 액세스의 크기(N)에 의해 스케일될 변위 팩터를 특정한다 - 여기서, N은 (예컨대, 2^scale * 인덱스 + 베이스 + 스케일된 변위를 이용하는 어드레스 생성을 위한) 메모리 액세스에서의 바이트의 수이다. 중복 하위 비트들은 무시되고, 이 경우에, 유효 어드레스를 산출하는데 이용될 최종 변위를 생성하기 위해 변위 팩터 필드의 콘텐츠는 메모리 오퍼랜드들의 총 크기(N)로 곱해진다. N의 값은 전체 opcode 필드(1374)(본문에서 이후에 기술됨) 및 데이터 조작 필드(1354C)에 기초하여 런타임에서 프로세서 하드웨어에 의해 결정된다. 변위 필드(1362A) 및 변위 팩터 필드(1362B)는, 그것들이 메모리 액세스 없음(1305) 인스트럭션 템플릿을 위해 사용되지 않고/않거나 상이한 실시예들은 둘 중 하나만 구현하거나 또는 어느 것도 구현하지 않는다는 의미에서 선택적이다.

데이터 엘리먼트 폭 필드(1364) - 이것의 콘텐츠는 다수의 데이터 엘리먼트 폭들 중 어느 것이 사용될지를 구분한다(모든 인스트럭션들에 대한 일부 실시예들에서; 인스트럭션들 중 오직 일부에 대한 다른 실시예들에서). 이 필드는, 하나의 데이터 엘리먼트 폭만 지원되고/되거나 데이터 엘리먼트 폭들이 opcode들의 일부 양태를 이용해 지원되는 경우에만 필요하지 않다는 의미에서 선택적이다.

기입 마스크 필드(1370) - 이것의 콘텐츠는, 데이터 엘리먼트 위치 기반으로, 데스티네이션 벡터 피연사자에서의 데이터 엘리먼트 위치가 베이스 연산 및 증가 연산의 결과를 반영하는지 여부를 제어한다. 클래스 A 인스트럭션 템플릿들은 병합-기입마스킹을 지원하고, 반면에 클래스 B 인스트럭션 템플릿들은 병합-기입마스킹 및 제로잉-기입마스킹 모두를 지원한다. 병합시, 벡터 마스크들은 데스티네이션에서의 엘리먼트들 중 임의의 세트가 임의의 연산(베이스 연산 및 증가 연산에 의해 특정됨)의 실행 중에 업데이트들로부터 보호되도록 한다; 다른 일 실시예에서, 대응 마스크 비트가 0을 갖는 데스티네이션의 각각의 엘리먼트의 올드 값을 보존한다. 대조적으로, 제로잉 벡터 마스크들은 데스티네이션에서의 엘리먼트들 중 임의의 세트가 임의의 연산(베이스 연산 및 증가 연산에 의해 특정됨)의 실행 중에 제로화되도록 한다; 일 실시예에서, 데스티네이션의 엘리먼트는 대응 마스크 비트가 0 값을 가지면 0으로 설정된다. 이 기능의 서브세트는 수행되고 있는 연산의 벡터 길이(즉, 수정되고 있는 엘리먼트들의 스팬, 처음부터 끝까지)를 제어하기 위한 능력이다; 그러나, 수정되는 엘리먼트들이 연속적일 필요는 없다. 따라서, 기입 마스크 필드(1370)는 로딩, 저장, 산술, 논리 등을 포함한 부분적 벡터 연산들을 고려한다. 본 발명의 실시예들은 기입 마스크 필드(1370)의 콘텐츠가 이용될 기입 마스크를 포함하는 다수의 기입 마스크 레지스터들 중 하나를 선택한다고 (및 그에 따라 기입 마스크 필드(1370)의 콘텐츠는 간접적으로 수행될 마스킹을 식별한다고) 기술되어 있지만, 대안적인 실시예들은 마스크 기입 필드(1370)의 콘텐츠가 수행될 마스킹을 직접적으로 특정하도록 대신 또는 부가적으로 허용한다.

이미디어트 필드(1372) - 이것의 콘텐츠는 이미디어트의 사양을 고려한다. 이 필드는 이미디어트를 지원하지 않는 포괄적 벡터 친화 포맷의 구현에 존재하지 않고 이미디어트를 사용하지 않는 인스트럭션들에서 존재하지 않는다는 의미에서 선택적이다.

클래스 필드(1368) - 이것의 콘텐츠는 인스트럭션들의 상이한 클래스들 사이에서 구분한다. 도 13a 내지 13b를 참조하면, 이 필드의 콘텐츠는 클래스 A 인스트럭션 및 클래스 B 인스트럭션 사이에서 선택한다. 도 13a 내지 13b에서, 둥근 모서리의 정사각형들은 특정 값이 필드에 존재한다는 것(예컨대, 도 13a 내지 13b에서 클래스 필드(1368)에 대해 각각 클래스 A(1368A) 및 클래스 B(1368B))을 지시하기 위해 사용된다.

클래스 A의 인스트럭션 템플릿들

클래스 A의 메모리 액세스 없음(1305) 인스트럭션 템플릿들의 경우에, 알파 필드(1352)는 RS 필드(1352A)로서 해석되고, RS 필드(1352A)의 콘텐츠는 상이한 증가 연산 타입들 중 어느 것이 수행될지 구분하고(예컨대, 라운드(1352A.1) 및 데이터 변환(1352A.2)은 메모리 액세스 없음, 라운드 타입 연산(1310) 및 메모리 액세스 없음, 데이터 변환 타입 연산(1315) 인스트럭션 템플릿들에 대해 각각 특정됨), 베타 필드(1354)는 특정된 타입의 연산들 중 어느 것이 수행될지 구분한다. 메모리 액세스 없음(1305) 인스트럭션 템플릿들에서, 스케일 필드(1360), 변위 필드(1362A), 및 변위 스케일 필드(1362B)는 존재하지 않는다.

메모리 액세스 없음 인스트럭션 템플릿들 - 전체 라운드 제어 타입 연산

메모리 액세스 없음 전체 라운드 제어 타입 연산(1310) 인스트럭션 템플릿에서, 베타 필드(1354)는 라운드 제어 필드(1354A)로서 해석되고, 라운드 제어 필드(1354A)의 콘텐츠(들)는 정적인 라운딩을 제공한다. 본 발명의 기술된 실시예들에서 라운드 제어 필드(1354A)는 SAE(suppress all floating point exceptions) 필드(1356) 및 라운드 연산 제어 필드(1358)를 포함하는 반면에, 대안적인 실시예들은 이러한 개념들 모두를 동일한 필드로 인코딩하거나 또는 이러한 개념들/필드들 중 하나 또는 다른 하나만을 가질 수 있다(예컨대, 라운드 연산 제어 필드(1358)만 가질 수 있다).

SAE 필드(1356) - 이것의 콘텐츠는 예외 이벤트 보고를 해제할지 여부를 구분한다; SAE 필드(1356)의 콘텐츠가 억제가 실행됨을 지시하면, 주어진 인스트럭션은 어떠한 종류의 부동 소수점 예외 플래그도 보고하지 않고 어떠한 부동 소수점 예외 처리기도 동작시키지 않는다.

라운드 연산 제어 필드(1358) - 이것의 콘텐츠는 한 그룹의 라운딩 연산들(예컨대, 라운드-업, 라운드-다운, 0 방향 라운드(Round-towards-zero), 및 최근사 라운드(Round-to-nearest)) 중 어느 것이 수행할지를 구분한다. 따라서, 라운드 연산 제어 필드(1358)는 인스트럭션 기반으로 라운딩 모드의 변경을 고려한다. 프로세서가 라운딩 모드들을 특정하기 위한 제어 레지스터를 포함하는 본 발명의 일 실시예에서, 라운드 연산 제어 필드(1350)의 콘텐츠는 상기 레지스터 값을 무시한다.

메모리 액세스 없음 인스트럭션 템플릿들 - 데이터 변환 타입 연산

메모리 액세스 없음 데이터 변환 타입 연산(1315) 인스트럭션 템플릿에서, 베타 필드(1354)는 데이터 변환 필드(1354B)로서 해석되고, 데이터 변환 필드(1354B)의 콘텐츠는 다수의 데이터 변환들(예컨대, 데이터 변환 없음, 스위즐(swizzle), 브로드캐스트) 중 어느 것이 수행될지 구분한다.

클래스 A의 메모리 액세스(1320) 인스트럭션 템플릿의 경우에, 알파 필드(1352)는 제거 힌트(eviction hint) 필드(1352B)로서 해석되고, 제거 힌트 필드(1352B)의 콘텐츠는 제거 힌트들 중 어느 것이 이용될지를 구분하고(도 13A에서, 일시적 1352B.1 및 비일시적 1352B.2는 메모리 액세스, 일시적(1325) 인스트럭션 템플릿 및 메모리 액세스, 비일시적(1330) 인스트럭션 템플릿에 대해 각각 특정됨), 베타 필드(1354)는 데이터 조작 필드(1354C)로서 해석되고, 데이터 조작 필드(1354C)의 콘텐츠는 (또한, 프리미티브로서 알려진) 다수의 데이터 조작 연산들(예컨대, 조작 없음; 브로드캐스트; 소스의 업 컨버전; 및 데스티네이션의 다운 컨버전) 중 어느 것이 실행될지를 구분한다. 메모리 액세스(1320) 인스트럭션 템플릿들은 스케일 필드(1360)를 포함하고, 변위 필드(1362A) 또는 변위 스케일 필드(1362B)를 선택적으로 포함한다.

벡터 메모리 인스트럭션들은 컨버전 지원으로 메모리로부터 벡터 로딩 및 메모리로 벡터 저장을 수행한다. 규칙적인 벡터 인스트럭션들로서, 벡터 메모리 인스트럭션들은 데이터 엘리먼트-와이즈 방식으로 메모리로부터/메모리로 데이터를 전송하기 때문에, 실제로 전송되는 엘리먼트들은 기입 마스크로서 선택된 벡터 마스크의 콘텐츠에 의해 지시된다.

메모리 액세스 인스트럭션 템플릿들 - 일시적

일시적 데이터는 캐싱으로부터 이득을 얻기에 충분히 곧 재사용될 것 같은 데이터이다. 즉, 그러나, 힌트, 및 상이한 프로세서들은 힌트를 완전히 무시하는 단계를 포함하는 상이한 방법들로 그것을 구현할 수 있다.

메모리 액세스 인스트럭션 템플릿들 - 비일시적

비일시적 데이터는 제1 레벨 캐시에서의 캐싱으로부터 이득을 얻기에 충분히 독 재사용되지 않을 것 같은 데이터이고, 제거를 위해 우선권이 주어져야 한다. 즉, 그러나, 힌트, 및 상이한 프로세서들은 힌트를 완전히 무시하는 단계를 포함하는 상이한 방법들로 그것을 구현할 수 있다.

클래스 B의 인스트럭션 템플릿들

클래스 B의 인스트럭션 템플릿들의 경우에, 알파 필드(1352)는 기입 마스크 제어(Z) 필드(1352C)로서 해석되고, 기입 마스크 제어(Z) 필드(1352C)의 콘텐츠는 기입 마스크 필드(1370)에 의해 제어되는 기입 마스킹이 병합 또는 제로화되어야 하는지 여부를 구분한다.

클래스 B의 메모리 액세스 없음(1305) 인스트럭션 템플릿의 경우에, 베타 필드(1354)의 부분은 RL 필드(1357A)로서 해석되고, RL 필드(1357A)의 콘텐츠는 상이한 증가 연산 타입들 중 어느 것이 수행될지를 구분하고(예컨대, 라운드(1357A.1) 및 벡터 길이(VSIZE)(1357A.2)는 메모리 액세스 없음, 기입 마스크 제어, 부분 라운드 제어 타입 연산(1312) 인스트럭션 템플릿 및 메모리 액세스 없음, 기입 마스크 제어, VSIZE 타입 연산(1317) 인스트럭션 템플릿에 대해 각각 특정됨), 베타 필드(1354)의 나머지는 특정된 타입의 연산들 중 어느 것이 수행될지를 구분한다. 메모리 액세스 없음(1305) 인스트럭션 템플릿들에서, 스케일 필드(1360), 변위 필드(1362A), 및 변위 스케일 필드(1362B)는 존재하지 않는다.

메모리 액세스 없음, 기입 마스크 제어, 부분 라운드 제어 타입 연산(1310) 인스트럭션 템플릿에서, 베타 필드(1354)의 나머지는 라운드 연산 필드(1359A)로서 해석되고 예외 이벤트 보고는 해제된다(주어진 인스트럭션은 어떠한 종류의 부동 소수점 예외 플래그도 보고하지 않고 어떠한 부동 소수점 예외 처리기도 동작시키지 않는다).

라운드 연산 제어 필드(1359A) - 라운드 연산 제어 필드(1358)과 같이, 이것의 콘텐츠는 한 그룹의 라운딩 연산들 중 어느 것이 수행할지 구분한다(라운드-업, 라운드-다운, 0 방향 라운드, 및 최근사 라운드). 따라서, 라운드 연산 제어 필드(1359A)는 인스트럭션 기반으로 라운딩 모드의 변경을 고려한다. 프로세서가 라운딩 모드들을 특정하기 위한 제어 레지스터를 포함하는 본 발명의 일 실시예에서, 라운드 연산 제어 필드(1350)의 콘텐츠는 상기 레지스터 값을 무시한다.

메모리 액세스 없음, 기입 마스크 제어, VSIZE 타입 연산(1317) 인스트럭션 템플릿에서, 베타 필드(1354)의 나머지는 벡터 길이 필드(1359B)로서 해석되고, 벡터 길이 필드(1359B)의 콘텐츠는 다수의 데이터 벡터 길이들(예컨대, 128, 256, 또는 512 바이트) 중 어느 것이 수행될지 구분한다.

클래스 B의 메모리 액세스(1320) 인스트럭션 템플릿의 경우에, 베타 필드(1354)의 부분은 브로드캐스트 필드(1357B)로서 해석되고, 브로드캐스트 필드(1357B)의 콘텐츠는 브로드캐스트 타입 데이터 조작 연산이 수행될지 여부를 구분하고, 베타 필드(1354)의 나머지는 벡터 길이 필드(1359B)로서 해석된다. 메모리 액세스(1320) 인스트럭션 템플릿들은 스케일 필드(1360)를 포함하고, 변위 필드(1362A) 또는 변위 스케일 필드(1362B)를 선택적으로 포함한다.

일반 벡터 프렌들리 인스트럭션 포맷(1300)과 관련하여, 포맷 필드(1340), 기본 연산 필드(1342), 및 데이터 엘리먼트 폭 필드(1364)를 포함하는 전체 opcode 필드(1374)가 도시되어 있다. 실시예에서 전체 opcode 필드(1374)가 이들 필드 모두를 포함하는 것으로 도시되어 있지만, 전체 opcode 필드(1374)는 그들 모두를 지원하지 않는 실시예들에서 이들 모든 필드보다 적은 필드를 포함한다. 전체 opcode 필드(1374)는 연산 코드(opcode)를 제공한다.

증가 연산 필드(1350), 데이터 엘리먼트 폭 필드(1364), 및 기입 마스크 필드(1370)는 일반 벡터 프렌들리 인스트럭션 포맷에서 인스트럭션마다 이들 특징들이 특정되게 할 수 있다.

기입 마스크 필드와 데이터 엘리먼트 폭 필드의 조합은 이들이 상이한 데이터 엘리먼트 폭들에 기초하여 마스크가 적용될 수 있게 한다는 점에서 타입 인스트럭션(typed instruction)을 생성한다.

클래스 A 및 클래스 B 내에서 발견되는 다양한 인스트럭션 템플릿들은 서로 다른 상황에서 이점이 있다. 본 발명의 일부 실시예에서, 프로세서 내의 상이한 프로세서들 또는 상이한 코어들은 단지 클래스 A만을, 단지 클래스 B만을 또는 양쪽 모두의 클래스를 지원할 수 있다. 예를 들면, 범용 컴퓨팅용으로 의도된 고성능 범용 아웃-오브-오더(out-of-order) 코어는 단지 클래스 B만을 지원할 수 있고, 그래픽 및/또는 과학적(처리량) 컴퓨팅을 우선적으로 의도한 코어는 단지 클래스 A만을 지원할 수 있으며, 양쪽 모두를 위해 의도된 코어는 양쪽 모두를 지원할 수 있다(물론, 양쪽 클래스로부터의 템플릿들 및 인스트럭션의 일부 혼합(mix)을 갖지만 양쪽 클래스로부터의 모든 템플릿들 및 인스트럭션을 갖지는 않는 코어도 본 발명의 범위 내에 있다). 또한, 단일 프로세서는 다수의 코어를 포함할 수 있고, 이들 코어 모두는 동일한 클래스를 지원하거나 또는 서로 다른 코어는 서로 다른 클래스를 지원한다. 예를 들면, 개별 그래픽 및 범용 코어를 갖는 프로세서에서, 그래픽 및/또는 과학적 컴퓨팅을 우선으로 의도한 그래픽 코어들 중 하나는 단지 클래스 A만을 지원할 수 있지만, 범용 코어들 중 하나 이상은 단지 클래스 B만을 지원하는 범용 컴퓨팅을 위해 의도된 레지스터 리네이밍 및 아웃 오브 오더 실행을 갖는 고성능 범용 코어일 수 있다. 개별 그래픽 코어를 갖지 않는 또 다른 프로세서는 클래스 A 및 클래스 B 모두를 지원하는 하나 이상의 인-오더 또는 아웃-오브-오더 코어를 포함할 수 있다. 물론, 하나의 클래스로부터의 특징들 또한 본 발명의 다른 실시예에서의 다른 클래스에서 구현될 수 있다. 고레벨 언어로 기입된 프로그램들은 1) 실행을 위해 타겟 프로세서에 의해 지원되는 클래스(들)의 인스트럭션만을 갖는 형태; 또는 2) 모든 클래스의 인스트럭션의 상이한 조합을 이용하여 기입된 대체 루틴들을 갖고, 현재 코드를 실행하고 있는 프로세서에 의해 지원되는 인스트럭션에 기초하여 실행하기 위한 루틴들을 선택하는 제어 플로우 코드를 갖는 형태를 포함하는 다양한 상이한 실행가능 형태로 (예를 들면, 단지 시간상 컴파일되거나 통계적으로 컴파일)될 수 있다.

예시적 특정 벡터 프렌들리 인스트럭션 포맷

도 14는 본 발명의 실시예에 따른 예시적인 특정의 벡터 프렌들리 인스트럭션 포맷을 도시하는 블록도이다. 도 14는 필드들의 위치, 크기, 표현, 및 순서뿐만 아니라 그들 필드들 중 일부에 대한 값들을 특정한다는 점에서 특정적인 특정의 벡터 프렌들리 인스트럭션 포맷(1400)을 도시한다. 특정의 벡터 프렌들리 인스트럭션 포맷(1400)을 사용하여 x86 인스트럭션 세트를 확장할 수 있고, 따라서, 필드들 중 일부는 기존 x86 인스트럭션 및 그의 확장(예를 들면, AVX)에서 사용되는 것들과 유사하거나 동일하다. 이 포맷은 확장한 기존 x86 인스트럭션 세트의 프리픽스 인코딩 필드, 실제 opcode 바이트 필드, MOD R/M 필드, SIB 필드, 변위 필드, 이미디어트 필드와 일치한 상태로 있게 된다. 도 14의 필드와 매핑하는 도 13의 필드가 도시되어 있다.

본 발명의 실시예들이 설명의 목적을 위해 일반 벡터 프렌들리 인스트럭션 포맷(1300)의 맥락에서 특정 벡터 프렌들리 인스트럭션 포맷(1400)을 참조하여 설명되었지만, 본 발명은 청구범위의 것을 제외한 특정 벡터 프렌들리 인스트럭션 포맷(1400)에 한정되는 것은 아니다. 예를 들면, 일반 벡터 프렌들리 인스트럭션 포맷(1300)은 다양한 필드들에 대해 다양한 가능한 크기를 상정하지만, 특정 벡터 프렌들리 인스트럭션 포맷(1400)은 특정 크기의 필드를 갖는 것으로 도시되어 있다. 특정 예로서, 데이터 엘리먼트 폭 필드(1364)가 특정 벡터 프렌들리 인스트럭션 포맷(1400)에 하나의 비트 필드로서 도시되어 있지만, 본 발명은 그에 한정되는 것이 아니다(즉, 일반 벡터 프렌들리 인스트럭션 포맷(1300)은 데이터 엘리먼트 폭 필드(1364)의 다른 크기들을 상정한다).

일반 벡터 프렌들리 인스트럭션 포맷(1300)은 도 14a에 도시된 순서대로 아래에 리스트된 다음의 필드들을 포함한다.

EVEX 프리픽스(바이스 0-3)(1402)는 4 바이트 형태로 인코딩된다.

포맷 필드(1340)(EVEX 바이트 0, 비트 [7:0]) - 제1 바이트(EVEX 바이트 0)는 포맷 필드(1340)이고 0x62(본 발명의 일 실시예에서 벡터 프렌들리 인스트럭션 포맷을 구별하는데 사용되는 고유값)를 포함한다.

제2 내지 제4 바이트(EVEX 바이트 1-3)는 특정 능력을 제공하는 다수의 비트 필드를 포함한다.

REX 필드(1405)(EVEX 바이트 1, 비트 [7-5])는 EVEX.R 비트 필드(EVEX 바이트 1, 비트[7]-R), EVEX.X 비트 필드(EVEX 바이트 1, 비트 [6]-X), 및 1357BEX 바이트 1, 비트[5]-B)로 구성된다. EVEX.R, EVEX.X, 및 EVEX.B 비트 필드는 대응하는 VEX 비트 필드와 동일한 기능을 제공하고, 1의 보수 형태로 인코딩되게 되는데, 즉, ZMM0는 1111B로 인코딩되고, ZMM15는 0000B로 인코딩된다. 인스트럭션의 다른 필드들은 종래에 알려진 대로 레지스터 인덱스들의 하위 세 비트(rrr, xxx, 및 bbb)를 인코딩하고, 따라서, EVEX.R, EVEX.X, 및 EVEX.B를 부가함으로써 Rrrr, Xxxx, Bbbb가 형성될 수 있다.

REX' 필드(1310) - 이 필드는 REX' 필드(1310)의 제1 부분이고, 확장 32 레지스터 세트의 상부 16 또는 하부 16 중 어느 하나를 인코딩하는데 사용되는 EVEX.R' 비트 필드(EVEX 바이트 1, 비트 [4] - R')이다. 본 발명의 일 실시예에서, 아래에 나타낸 다른 것들과 함께, 이 비트는 BOUND 인스트럭션으로부터 (잘 알려진 x86 32-비트 모드에서) 구별하기 위해 비트 반전 포맷으로 저장되고, BOUND 인스트럭션의 실제 opcode 바이트는 62이지만, (후술하는) MOD R/M 필드에서 MOD 필드 내의 11의 값을 수용하지는 않는다; 본 발명의 대체 실시예는 반전 포맷의 아래의 이 비트 및 다른 표시 비트들을 저장하지 않는다. 하위 16개의 레지스터를 인코딩하기 위해 1의 값이 사용된다. 환언하면, EVEX.R', EVEX.R, 및 다른 필드들로부터의 다른 RRR을 결합함으로써 R'Rrrr이 형성된다.

opcode 맵 필드(1415)(EVEX 바이트 1, 비트 [3:0] - mmmm) - 그의 콘텐츠는 함축 리딩(implied leading) opcode 바이트(0F, 0F 38, 또는 0F 3)을 인코딩한다.

데이터 엘리먼트 폭 필드(1364) (EVEX 바이트 2, 비트 [7] - W)는 표기 EVEX.W로 표현된다. EVEX.W는 데이터 타입(32-비트 데이터 엘리먼트 또는 64-비트 데이터 엘리먼트)의 그래뉴앨리티(granularity)(크기)를 정의하는데 사용된다.

EVEX.vvvv(1420)(EVEX 바이트 2, 비트 [6:3]-vvvv) - EVEX.vvvv의 역할은 다음을 포함한다: 1) EVEX.vvvv는 반전 (1의 보수) 형태로 특정된 제1 소스 레지스터 연산자를 인코딩하고 2 이상의 소스 연산자들을 갖는 인스트럭션에 대해 유효하다; 2) EVEX.vvvv는 임의의 벡터 시프트에 대해 1의 보수 형태로 특정된 데스티네이션 레지스터 연산자를 인코딩한다; 또는 3) EVEX.vvvv는 어떠한 연산자도 인코딩하지 않으며, 이 필드는 예비이고 1111b를 포함해야 한다. 따라서, EVEX.vvvv 필드(1420)는 반전 (1의 보수) 형태로 저장된 제1 소스 레지스터 규제자(specifier)의 4개의 하위 비트를 인코딩한다. 인스트럭션에 따라, 여분의 상이한 EVEX 비트 필드를 사용하여 규제자 크기를 32 레지스터로 확장한다.

EVEX.U(1368) 클래스 필드 (EVEX 바이트 2, 비트 [2]-U) - EVEX.U=0이면, 클래스 A 또는 EVEX.U0를 나타내고; EVEX.U=1이면, 클래스 B 또는 EVEX.U1을 나타낸다.

프리픽스 인코딩 필드(1425) (EVEX 바이트 2, 비트 [1:0]-pp)는 기본 연산 필드에 부가의 비트들을 제공한다. EVEX 프리픽스 포맷에서 레거시(leagcy) SSE 인스트럭션에 지원을 제공하는 것에 부가하여, 이것은 또한 SIMD 프리픽스를 간결하게 하는 이점을 갖는다(SIMD 프리픽스를 나타내기 위한 바이트를 요구하기보다는, EVEX 프리픽스는 단지 2 비트만을 필요로 한다). 일 실시예에서, 레거시 포맷에서 그리고 EVEX 프리픽스 포맷에서 SIMD 프리픽스(66H, F2H, F3H)를 사용하는 레거시 SSE 인스트럭션을 지원하기 위해, 이들 레거시 SIMD 프리픽스는 SIMD 프리픽스 인코딩 필드로 인코딩된다; 그리고, 런타임에서 디코더의 PLA에 제공되기 전에 레거시 SIMD 프리픽스로 확장된다(따라서, PLA는 수정없이 이들 레거시 인스트럭션의 레거시 및 EVEX 포맷 모두를 실행할 수 있다). 더 새로운 인스트럭션은 opcode 확장으로서 EVEX 프리픽스 인코딩 필드의 콘텐츠를 직접 사용함에도 불구하고, 일부 실시예는 일관성을 위해 유사한 형식으로 확장하지만, 이들 레거시 SIMD 프리픽스에 의해 상이한 의미가 특정되게 할 수 있다. 대체 실시예는 2 비트 SIMD 프리픽스 인코딩을 지원하도록 PLA를 재설계할 수 있고, 따라서 확장을 요구하지는 않는다.

알파 필드(1352) (EVEX 바이트 3, 비트 [7] - EH; 또한 EVEX.EH, EVEX.rs, EVEX.RL, EVEX.기입 마스크 제어, 및 EVEX.N으로도 알려짐; 또한 α로 도시됨) - 전술한 바와 같이, 이 필드는 콘텍스트에 특정적이다.

베타 필드(1354) (EVEX 바이트 3, 비트 [6:4]-SSS, 또한 EVEX.s₂ _-0, EVEX.r₂ _-0, EVEX.rr1, EVEX.LL0, EVEX.LLB로도 알려짐; 또한 βββ로 도시됨) - 전술한 바와 같이, 이 필드는 콘텍스트에 특정적이다.

REX' 필드(1310) - 이것은 REX' 필드의 나머지이고, 확장 32 레지스터 세트의 상위 16 또는 하위 16 중 어느 하나를 인코딩하는데 사용될 수 있는 EVEX.V' 비트 필드(EVEX 바이트 3, 비트 [3] - V')이다. 이 비트는 비트 반전 포맷으로 저장된다. 하위 16 레지스터들을 인코딩하는데 1의 값이 사용된다. 환언하면, EVEX.V', EVEX.vvvv를 결합함으로써 V'VVVV이 형성된다.

기입 마스크 필드(1370)(EVEX 바이트 3, 비트 [2:0]-kkk) - 그의 콘텐츠는 전술한 바와 같이 기입 마스크 레지스터들 내의 레지스터의 인덱스를 특정한다. 본 발명의 일 실시예에서, 특정 값 EVEX.kkk=000는 특정 인스트럭션에 대해 사용되는 어떠한 기입 마스크도 없다는 것을 시사하는 특별한 거동을 갖는다(이것은 마스킹 하드웨어를 바이패스하는 하드웨어 또는 모든 것들에 배선된 기입 마스크의 사용을 포함하는 다양한 방식으로 구현될 수 있다.

실제 opcode 필드(1430)는 또한 opcode 바이트로도 알려져 있다. 이 필드에 opcode의 일부가 특정되어 있다.

MOD R/M 필드(1440)(바이트 5)는 MOD 필드(1442), Reg 필드(1444), 및 R/M 필드(1446)를 포함한다. 전술한 바와 같이, MOD 필드(1442)의 콘텐츠는 메모리 액세스와 비메모리 액세스 동작들 간을 구별한다. Reg 필드(1444)의 역할은, 데스티네이션 레지스터 연산자 또는 소스 레지스터 연산자를 인코딩하거나, 또는 opcode 확장으로서 처리되고 어떠한 인스트럭션 연산자도 인코딩하는데 사용되지 않는 두 개의 상황으로 요약될 수 있다. R/M 필드(1446)의 역할은, 메모리 어드레스를 참조하는 인스트럭션 연산자를 인코딩하거나, 또는 데스티네이션 레지스터 연산자 또는 소스 레지스터 연산자를 인코딩하는 것을 포함할 수 있다.

스케일, 인덱스, 베이스(Scale, Index, Base; SIB) 바이트(바이트 6) - 전술한 바와 같이, 스케일 필드(1350)의 콘텐츠는 메모리 어드레스 생성을 위해 사용된다. SIB.xxx(1454) 및 SIB.bbb(1456) - 이들 필드의 콘텐츠는 레지스터 인덱스 Xxxx 및 Bbbb와 관련하여 이전에 참조되었다.

변위 필드(1362A)(바이트 7-10) - MOD 필드(1442)가 10을 포함하는 경우, 바이트 7-10은 변위 필드(1362A)이고, 이것은 레거시 32-비트 변위(disp32)와 동일하게 동작하고 바이트 그래뉴앨리티에서 동작한다.

변위 벡터 필드(1362B)(바이트 7) - MOD 필드(1442)가 01을 포함할 때, 바이트 7은 변위 팩터 필드(1362B)이다. 이 필드의 위치는 바이트 단위로 작동하는 레거시 x86 인스트럭션 세트 8-비트 변위(disp8)의 위치와 동일하다. disp8이 확장된 부호이기 때문에, 이는 -128과 127 바이트 오프셋 사이만을 어드레싱할 수 있고; 64 바이트 캐시 라인들의 면에서, disp8은 4개의 실제 유용한 값들 -128, -64, 0 및 64만으로 설정될 수 있는 8 비트를 이용하고; 더 큰 범위가 종종 필요하기 때문에, disp32가 이용되지만, disp32는 4 바이트를 필요로 한다. disp8 및 disp32에 비해, 변위 팩터 필드(1362B)는 disp8의 재해석이며, 변위 팩터 필드(1362B)를 이용할 때, 실제 변위는 메모리 오퍼랜드 액세스(N)의 크기에 의해 곱해지는 변위 팩터 필드의 콘텐트에 의해 결정된다. 이러한 타입의 변위가 disp8*N으로 지칭된다. 이것은 평균 인스트럭션 길이(변위에 이용되는 단일 바이트이지만 더 큰 범위를 가짐)를 감소시킨다. 이런 압축된 변위는 효과적인 변위가 메모리 액세스의 단위의 배수이므로, 어드레스 오프셋의 중복 하위 비트가 인코딩될 필요가 없다는 가정에 기반한다. 다시 말해, 변위 팩터 필드(1362B)는 레거시 x86 인스트럭션 세트 8-비트 변위를 대체한다. 따라서, 변위 팩터 필드(1362B)는 disp8이 disp8*N으로 오버로딩되는 것을 제외하면 x86 인스트럭션 세트 8-비트 변위와 동일한 방식(ModRM/SIB 인코딩 규칙들에서 변화가 없음)으로 인코딩된다. 다시 말해, 인코딩 규칙들 또는 인코딩 길이들에서 어떠한 변화들도 없지만, 하드웨어에 의한 변위 값의 해석에 있어서 바이트 방식(byte-wise) 어드레스 오프셋을 얻기 위해 메모리 오퍼랜드의 크기에 의해 변위를 스케일링할 필요가 있다.

이미디어트 필드(1372)는 전술한 바와 같이 연산한다.

풀 Opcode 필드

도 14b는 본 발명의 일 실시예에 따라 풀 opcode 필드(1374)를 구성하는 특정 벡터 프렌들리 인스트럭션 포맷(1400)의 필드들을 도시하는 블록도이다. 구체적으로, 풀 opcode 필드(1374)는 포맷 필드(1340), 기본 연산 필드(1342) 및 데이터 엘리먼트 폭(W) 필드(1364)를 포함한다. 기본 연산 필드(1342)는 프리픽스 인코딩 필드(1425), opcode 맵 필드(1415) 및 실제 opcode 필드(1430)를 포함한다.

레지스터 인덱스 필드

도 14c는 본 발명의 일 실시예에 따라 레지스터 인덱스 필드(1344)를 구성하는 특정 벡터 프렌들리 인스트럭션 포맷(1400)의 필드들을 도시하는 블록도이다. 구체적으로, 레지스터 인덱스 필드(1344)는 REX 필드(1405), REX' 필드(1410), MODR/M.reg 필드(1444), MODR/M.r/m 필드(1446), VVVV 필드(1420), xxx 필드(1454) 및 bbb 필드(1456)를 포함한다.

증가 연산 필드

도 14d는 본 발명의 일 실시예에 따라 증가 연산 필드(1350)를 구성하는 특정 벡터 프렌들리 인스트럭션 포맷(1400)의 필드들을 도시하는 블록도이다. 클래스(U) 필드(1368)가 0을 포함할 때, 이는 EVEX.U0(클래스 A 1368A)을 나타내고; 클래스(U) 필드(1368)가 1을 포함할 때, 이는 EVEX.U1(클래스 B 1368B)를 나타낸다. U=0이고, MOD 필드(1442)가 11을 포함할 때(어떠한 메모리 액세스 연산도 나타내지 않음), 알파 필드(1352)(EVEX 바이트 3, 비트 [7] - EH)는 rs 필드(1352A)로서 해석된다. rs 필드(1352A)가 1(라운드 1352A.1)을 포함할 때, 베타 필드(1354)(EVEX 바이트 3, 비트 [6:4]- SSS)는 라운드 제어 필드(1354A)로서 해석된다. 라운드 제어 필드(1354A)는 1 비트 SAE 필드(1356) 및 2 비트 라운드 연산 필드(1358)를 포함한다. rs 필드(1352A)가 0(데이터 변환 1352A.2)을 포함할 때, 베타 필드(1354)(EVEX 바이트 3, 비트 [6:4]- SSS)는 3 비트 데이터 변환 필드(1354B)로서 해석된다. U=0이고, MOD 필드(1442)가 00, 01 또는 10을 포함할 때(메모리 액세스 연산을 나타냄), 알파 필드(1352)(EVEX 바이트 3, 비트 [7] - EH)는 제거 힌트 (EH) 필드(1352B)로서 해석되고, 베타 필드(1354)(EVEX 바이트 3, 비트 [6:4]- SSS)는 3 비트 데이터 조작 필드(1354C)로서 해석된다.

U=1일 때, 알파 필드(1352)(EVEX 바이트 3, 비트 [7] - EH)는 기입 마스크 제어(Z) 필드(1352C)로서 해석된다. U=1이고, MOD 필드(1442)가 11을 포함할 때(어떠한 메모리 액세스 연산도 나타내지 않음), 베타 필드(1354)의 일부(EVEX 바이트 3, 비트 [4]- S₀)는 RL 필드(1357A)로서 해석되고; 1을 포함할 때(라운드 1357A.1), 베타 필드(1354)의 나머지(EVEX 바이트 3, 비트 [6-5]- S₂ _-1)는 라운드 연산 필드(1359A)로서 해석되는 반면에, RL 필드(1357A)가 0을 포함할 때(VSIZE 1357.A2), 베타 필드(1354)의 나머지(EVEX 바이트 3, 비트[6-5]- S₂ _-1)는 벡터 길이 필드(1359B)(EVEX 바이트 3, 비트 [6-5]- L₁ _-0)로서 해석된다. U=1이고, MOD 필드(1442)가 00, 01 또는 10을 포함할 때(메모리 액세스 연산을 나타냄), 베타 필드(1354)(EVEX 바이트 3, 비트 [6:4]- SSS)는 벡터 길이 필드(1359B)(EVEX 바이트 3, 비트 [6-5]- L₁ _-0) 및 브로드캐스트 필드(1357B)(EVEX 바이트 3, 비트 [4]- B)로서 해석된다.

예시적인 레지스터 아키텍쳐

도 15는 본 발명의 일 실시예에 따른 레지스터 아키텍쳐(1500)의 블록도이다. 도시된 실시예에는, 512 비트 폭인 32개의 벡터 레지스터(1510)가 있는데, 이러한 레지스터들은 zmm0-zmm31로 지칭된다. 하위 16개의 zmm 레지스터의 하위 256 비트가 레지스터들 ymm0-16 상에 오버레이된다. 하위 16개의 zmm 레지스터의 하위 128 비트(ymm 레지스터들의 하위 128 비트)가 레지스터들 xmm0-15 상에 오버레이된다. 특정 벡터 프렌들리 인스트럭션 포맷(1400)은 이하의 테이블에 도시된 바와 같이 이러한 오버레이 레지스터 파일에 대해 연산한다.

다시 말해, 벡터 길이 필드(1359B)는 최대 길이와 하나 이상의 다른 더 짧은 길이들 사이에서 선택하며, 각각의 더 짧은 길이는 선행 길이의 절반 길이이고, 벡터 길이 필드(1359B)가 없는 인스트럭션 템플레이트들은 최대 벡터 길이에 대해 연산한다. 또한, 일 실시예에서, 특정 벡터 프렌들리 인스트럭션 포맷(1400)의 클래스 B 인스트럭션 템플레이트들은 패킹 또는 스칼라 싱글/더블-정밀 부동 소수점 데이터 및 패킹 또는 스칼라 정수 데이터에 대해 연산한다. 스칼라 연산들은 zmm/ymm/xmm 레지스터에서의 최하위 데이터 엘리먼트 위치 상에서 수행되는 연산들이며, 더 상위 데이터 엘리먼트 위치들은 실시예에 따라 인스트럭션 이전 위치와 동일한 위치에 남거나 제로로된다.

기입 마스크 레지스터들(1515) - 도시된 실시예에는, 각각이 64 비트 크기인 8개의 기입 마스크 레지스터들(k0 - k7)이 있다. 대안 실시예에서, 기입 마스크 레지스터들(1515)은 16 비트 크기이다. 전술한 바와 같이, 본 발명의 일 실시예에서, 벡터 마스크 레지스터(k0)는 기입 마스크로서 이용될 수 없으며, k0을 정상 표시할 인코딩이 기입 마스크에 이용될 때, 0xFFFF의 하드와이어드 기입 마스크를 선택하고, 그 인스트럭션의 기입 마스킹을 효과적으로 디스에이블링하게 한다.

범용 레지스터들(1525) - 도시된 실시예에는, 메모리 오퍼랜드들을 어드레싱하기 위해 기존의 x86 어드레싱 모드들과 함께 이용되는 16개의 64-비트 범용 레지스터들이 있다. 이러한 레지스터들은 RAX, RBX, RCX, RDX, RBP, RSI, RDI, RSP 및 R8-R15란 이름들로 참조된다.

MMX 패킹 정수 플랫 레지스터 파일(1550)이 앨리어싱된 스칼라 부동 소수점 스택 레지스터 파일(x87 스택)(1545) - 도시된 실시예에서, x87 스택은 x87 인스트럭션 세트 확장을 이용하는 32/64/80-비트 부동 소수점 데이터에 대해 스칼라 플로팅-포인트 연산들을 수행하는데 이용되는 8-엘리먼트 스택인 반면에, MMX 레지스터들은 MMX 레지스터와 XMM 레지스터 간에 수행되는 몇몇 연산들에 대해 오퍼랜드들을 유지할 뿐만 아니라 64-비트 패킹 정수 데이터에 대해 연산들을 수행하는데 이용된다.

본 발명의 대안 실시예들은 더 넓거나 더 좁은 레지스터들을 이용할 수 있다. 추가로, 본 발명의 대안 실시예들은 더 많거나, 더 적거나 또는 상이한 레지스터 파일들 및 레지스터들을 이용할 수 있다.

예시적인 코어 아키텍쳐들 , 프로세서들 및 컴퓨터 아키텍쳐들

프로세서 코어들은 상이한 방식들로, 상이한 목적들을 위해 그리고 상이한 프로세서들에서 구현될 수 있다. 예컨대, 이러한 코어들의 구현들은 1) 범용 컴퓨팅용의 범용 인 오더 코어(in-order core); 2) 범용 컴퓨팅용의 고성능의 범용 아웃 오브 오더 코어(out-of-order core); 3) 주로 그래픽들 및/또는 과학적 (스루풋) 컴퓨팅용의 특수용 코어를 포함할 수 있다. 상이한 프로세서들의 구현들은 1) 범용 컴퓨팅용의 하나 이상의 범용 인 오더 코어들 및/또는 범용 컴퓨팅용의 하나 이상의 범용 아웃 오브 오더 코어들을 포함하는 CPU; 및 주로 그래픽들 및/또는 과학적 (스루풋)용의 하나 이상의 특수용 코어들을 포함하는 코프로세서를 포함할 수 있다. 이러한 상이한 프로세서들은 1) CPU로부터 분리된 칩 상의 코프로세서; 2) CPU와 동일한 패키지에서의 개별 다이 상의 코프로세서; 3) CPU와 동일한 다이 상의 코프로세서(이 경우, 이 코프로세서는 집적된 그래픽들 및/또는 과학적 (스루풋) 로직과 같은 특수용 로직 또는 특수용 코어들로 종종 지칭된다.); 및 4) 동일한 다이 상에 (애플리케이션 코더(들) 또는 애플리케이션 프로세서(들)로 종종 지칭되는) 전술한 CPU, 전술한 코프로세서 및 추가의 기능을 포함할 수 있는 온 칩 시스템을 포함할 수 있는 상이한 컴퓨터 시스템 아키텍쳐들에 이르게 한다. 다음으로 예시적인 코어 아키텍쳐들을 설명하며, 예시적인 프로세서들 및 컴퓨터 아키텍쳐들의 설명들이 이어진다.

예시적인 코어 아키텍쳐들

인 오더 및 아웃 오브 오더 코어 블록도

도 16a는 본 발명의 실시예들에 따른, 아웃 오브 오더 이슈/실행 파이프라인으로 리네이밍된 예시적인 레지스터 및 예시적인 인 오더 파이프라인 모두를 도시하는 블록도이다. 도 16b는 본 발명의 실시예들에 따른, 프로세서에 포함될 아웃 오브 오더 이슈/실행 아키텍쳐 코어로 리네이밍된 예시적인 레지스터 및 인 오더 아키텍쳐 코어의 예시적인 실시예 모두를 도시하는 블록도이다. 도 16a, 도 16b에서의 실선 박스들은 인 오더 파이프라인 및 인 오더 코어를 나타내는 반면에, 파선 박스들의 선택적 추가는 아웃 오브 오더 이슈/실행 파이프라인 및 코어로 리네이밍된 레지스터를 나타내고 있다. 인 오더 측면이 아웃 오브 오더 측면의 서브 세트인 것을 고려하여, 아웃 오브 오더 측면에 대해 설명한다.

도 16a에서, 프로세서 파이프라인(1600)은 페치 스테이지(1602), 길이 디코딩 스테이지(1604), 디코딩 스테이지(1606), 할당 스테이지(1608), 리네이밍 스테이지(1610), 스케쥴링(디스패치 또는 이슈로도 알려짐) 스테이지(1612), 레지스터 판독/메모리 판독 스테이지(1614), 실행 스테이지(1616), 라이트 백(write back)/메모리 기입 스테이지(1618), 제외 처리 스테이지(1622) 및 커밋 스테이지(1624)를 포함한다.

도 16b는 실행 엔진 유닛(1650)에 결합되는 프런트 엔드 유닛(1630)을 포함하는 프로세서 코어(1690)를 보여주고 있으며, 프런트 엔드 유닛(1630)과 실행 엔진 유닛(1650) 모두는 메모리 유닛(1670)에 결합된다. 코어(1690)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어 또는 하이브리드 혹은 대체 코어 타입일 수 있다. 또 다른 옵션으로서, 코어(1690)는 예를 들어 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, GPGPU(general purpose computing graphics processing unit) 코어, 그래픽 코어 등과 같은 특수용 코어일 수 있다.

전단 유닛(1630)은 인스트럭션 캐시 유닛(1634)에 연결된 브랜치 예측 유닛(1632)을 포함할 수 있고, 인스트럭션 캐시 유닛(1634)은 인스트럭션 TLB(1636)에 연결되고, 인스트럭션 TLB(1636)는 인스트럭션 페치 유닛(1638)에 연결되고, 인스트럭션 페치 유닛(1638)은 디코드 유닛(1640)에 연결된다. 디코드 유닛(1640)(또는 디코더)는 인스트럭션들을 디코딩할 수 있고, 출력으로서 하나 이상의 마이크로-오퍼레이션들, 마이크로-코드 엔트리 포인트들, 마이크로인스트럭션들, 다른 인스트럭션들, 또는 다른 제어 신호들을 생성할 수 있고, 이들은 오리지널 인스트럭션으로부터 디코딩되거나, 그렇지 않은 경우 오리지널 인스트럭션들을 반영하거나, 또는 오리지널 인스트럭션들로부터 도출될 수 있다. 디코드 유닛(1640)은 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적합한 메커니즘의 예들은, 룩업 테이블들, 하드웨어 구현들, PLA(programmable logic array)들, 마이크로코드 ROM들 등을 포함할 수 있지만, 이에 한정되는 것은 아니다. 일 실시예에서, 코어(1690)는 마이크로코드 ROM 또는 특정 마이크로코드인스트럭션들을 위한 마이크로코드를 저장하는 다른 매체(예컨대, 디코드 유닛(1640)내에서 또는 그렇지 않은 경우 전단 유닛(1630)내에서)를 포함한다. 디코드 유닛(1640)은 실행 엔진 유닛(1650)내의 리네이밍/할당기 유닛(1652)에 연결된다.

실행 엔진 유닛(1650)은 리타이어먼트 유닛(1654) 및 하나 이상의 스케쥴러 유닛(들)(1656)의 세트에 연결된 리네이밍/할당기 유닛(1652)을 포함한다. 스케쥴러 유닛(들)(1656)은 리저베이션 국들, 중앙 인스트럭션 윈도우 등을 포함하는 임의의 수의 상이한 스케쥴러들을 나타낸다. 스케쥴러 유닛(들)(1656)은 물리 레지스터 파일(들) 유닛(들)(1658)에 연결된다. 각각의 물리 레지스터 파일(들) 유닛(들)(1658)은 하나 이상의 물리 레지스터 파일들, 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 스테이터스(예컨대, 실행될 다음 인스트럭션의 어드레스인 인스트럭션 포인터) 등과 같은 하나 이상의 상이한 데이터 타입을 저장하는 상이한 것들을 나타낸다. 일 실시예에서, 물리 레지스터 파일(들) 유닛(1658)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛, 및 스칼라 레지스터 유닛을 포함한다. 이러한 레지스터 유닛들은 아키텍쳐 벡터 레지스터, 벡터 마스크 레지스터, 및 범용 레지스터들을 제공할 수 있다. 물리 레지스터 파일(들) 유닛(들)(1658)은 리타이어먼트 유닛(1654)에 의해 오버랩되어 레지스터 리네이밍 및 비순차(out-of-order) 실행이 구현되는 다양한 방식을 도시한다(예컨대, 리오더 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용; 장래 파일(들), 히스토리 버퍼(들), 및 리타이어먼트 레지스터 파일(들)을 이용; 레지스터 맵 및 레지스터들의 풀을 이용; 등). 리타이어먼트 유닛(1654) 및 물리 레지스터 파일(들) 유닛(들)(1658)은 실행 클러스터(들)(1660)에 연결된다. 실행 클러스터(들)(1660)은 하나 이상의 실행 유닛들(1662)의 세트 및 하나 이상의 메모리 액세스 유닛들(1664)의 세트를 포함한다. 실행 유닛들(1662)은 다양한 동작들(예컨대, 시프트, 가산, 감산, 승산)을 다양한 타입의 데이터(예컨대, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 수행할 수 있다. 몇몇 실시예들은 특정 기능 또는 기능들의 세트에 전용인 다수의 실행 유닛들을 포함할 수 있고, 다른 실시예들은 단지 하나의 실행 유닛 또는 모두가 모든 기능들을 수행하는 복수의 실행 유닛들을 포함할 수 있다. 스케쥴러 유닛(들)(1656), 물리 레지스터 파일(들) 유닛(들)(1658), 및 실행 클러스터(들)(1660)은 아마도 복수로 도시되는데, 그 이유는 몇몇 실시예들은 몇몇 타입의 데이터/동작들에 대해 별개의 파이프라인들을 생성하기 때문이다(예컨대, 그 각각이 그 자신의 스케쥴러 유닛, 물리 레지스터 파일(들) 유닛, 및/또는 실행 클러스터를 갖는 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 메모리 액세스 파이프 라인 - 및 별개의 메모리 액세스 파이프라인의 경우, 몇몇 실시예들은 이러한 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(1664)를 갖는 것으로 구현된다). 별개의 파이프라인 이용되는 곳에서, 이러한 파이프라인의 하나 이상은 비순차 이슈/실행이 되고, 나머지는 순차적이 된다.

메모리 액세스 유닛들(1664)의 세트는 메모리 유닛(1670)에 연결되고, 메모리 유닛(1670)은 데이터 캐시 유닛(1674)에 연결된 데이터 TLB 유닛(1672)를 포함하고, 데이터 캐시 유닛(1674)은 레벨 2(L2) 캐시 유닛(1676)에 연결된다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛들(1664)은 로드 유닛, 저장 어드레스 유닛, 및 저장 데이터 유닛을 포함할 수 있고, 이들 각각은 메모리 유닛(1670)내의 데이터 TLB 유닛(1672)에 연결된다. 인스트럭션 캐시 유닛(1634)은 메모리 유닛(1670)내의 레벨 2(L2) 캐시 유닛(1676)에 또한 연결된다. L2 캐시 유닛(1676)은 하나 이상의 다른 레벨의 캐시에 연결되고, 결국 주 메모리에 연결된다.

일례로서, 예시적인 레지스터 리네이밍, 비순차 이슈/실행 코어 아키텍쳐는 다음과 같이 파이프라인(1600)을 구현할 수 있다; 1) 인스트럭션 페치(1638)는 페치 및 길이 디코딩 스테이지들(1602 및 1604)을 수행하고, 2) 디코드 유닛(1640)은 디코딩 스테이지(1606)를 수행하고, 3) 리네이밍/할당기 유닛(1652)은 할당 스테이지(1608) 및 리네이밍 스테이지(1610)를 수행하고, 4) 스케쥴러 유닛(들)(1656)은 스케쥴러 스테이지(1612)를 수행하고, 5) 물리 레지스터 파일(들) 유닛(들)(1658) 및 메모리 유닛(1670)은 레지스터 판독/메모리 판독 스테이지(1614)를 수행하고, 실행 클러스터(1660)는 실행 스테이지(1616)를 수행하고, 6) 메모리 유닛(1670) 및 물리 레지스터 파일(들) 유닛(들)(1658)은 재기입/메모리 기입 스테이지(1618)를 수행하고, 7) 다양한 유닛들이 예외 처리 스테이지(1622)에 참여할 수 있고, 8) 리타이어먼트 유닛(1654) 및 물리 레지스터 파일(들) 유닛(들)(1658)은 커밋(commit) 스테이지(1624)를 수행한다.

코어(1690)는 여기 개시된 인스트럭션(들)을 포함하는, 하나 이상의 인스트럭션들의 세트들(예컨대, (더 새로운 버전들이 부가된 몇몇 확장들을 갖는) x86 인스트럭션 세트, CA의 Sunnyvale의 MIPS 테크놀러지사의 MIPS 인스트럭션 세트; CA의 Sunnyvale의 ARM 홀딩사의 (NEON과 같은 선택적 부가 확장들을 갖는) ARM 인스트럭션 세트)을 지원할 수 있다. 일 실시예에서, 코어(1690)는 패킹된 데이터 인스트럭션 세트 확장(예컨대, AVX1, AVX2)을 지원하기 위한 로직을 포함하고, 이에 따라 다수의 멀티미디어 애플리케이션에 의해 이용되는 동작들이 패킹된 데이터를 이용하여 수행될 수 있도록 한다.

코어는 멀티쓰레딩(2개 이상의 병렬 세트의 동작들 또는 쓰레드를 실행)을 지원할 수 있고, 타임 슬라이스 멀티쓰레딩, 동시 멀티쓰레딩(여기서 하나의 물리 코어는, 물리 코어가 동시에 멀티쓰레딩하는 쓰레드들의 각각에 대해 논리 코어를 제공함), 또는 이들의 조합(예컨대, 타임 슬라이스 페칭 및 디코딩 및 동시 멀티쓰레딩, 이후 Intel®사의 하이퍼쓰레딩 기술과 같은 것)을 포함하는 다양한 방식으로 수행할 수 있다는 것을 알 수 있다.

레지스터 리네이밍이 비순차 실행과 관련하여 기술되었지만, 레지스터 리네이밍은 순차 아키텍쳐에서도 이용될 수 있다는 것을 알 수 있다. 프로세서의 도시된 실시예는 또한 별개의 인스트럭션 및 데이터 캐시 유닛(1634/1674) 및 공유 L2 캐시 유닛(1676)을 포함하지만, 대안적인 실시예들은 예컨대, 레벨 1(L1) 내부 캐시, 또는 복수의 레벨의 내부 캐시와 같은 인스트럭션 및 데이터 양자 모두에 대한 하나의 내부 캐시를 가질 수 있다. 몇몇 실시예들에서, 시스템은 내부 캐시 및 코어 및/또는 프로세서의 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서의 외부에 있을 수 있다.

특정 예시적 순차 코어 아키텍쳐

도 17a-b는 하나 이상의 특정 예시적인 순차 코어 아키텍쳐의 블록도를 도시하고, 이러한 코어는 칩 내의 몇몇 로직 블록들 중 하나(동일한 타입 및/또는 다른 타입의 다른 코어들을 포함함)가 될 수 있다. 로직 블록들은 애플리케이션에 기초하여 몇몇 고정 기능 로직, 메모리 I/O 인터페이스, 및 다른 필수 I/O 로직을 갖는 고-대역폭 인터커넥트 네트워크(예컨대, 링 네트워크)를 통해 통신한다.

도 17a는 본 발명의 실시예들에 따른, 온-다이(on-die) 인터커넥트 네트워크(1702)에 대한 접속, 및 레벨 2(L2) 캐시(1704)의 로컬 서브세트를 갖는 단일 프로세서 코어의 블록도이다. 일 실시예에서, 인스트럭션 디코더(1700)는 패킹된 데이터 인스트럭션 세트 확장을 갖는 x86 인스트럭션 세트를 지원한다. L1 캐시(1706)는 스칼라 및 벡터 유닛으로 캐시 메모리에게 저-레이턴시 액세스를 허용한다. (설계를 간단히 하기 위해) 일 실시예에서, 스칼라 유닛(1708) 및 벡터 유닛(1710)이 별개의 레지스터 세트(각각 스칼라 레지스터(1712) 및 벡터 레지스터(1714))를 이용하고, 이들 사이에서 전송된 데이터는 메모리에 기입되고, 다음에 레벨 1(L1) 캐시(1706)에서 재판독되지만, 본 발명의 대안적인 실시예는 상이한 접근법(예컨대, 단일 레지스터 세트를 이용하거나, 기입 및 재판독되지 않고 2개의 레지스터 파일들간에 데이터가 전송되도록 하는 통신 경로를 포함함)을 이용할 수 있다.

L2 캐시의 로컬 서브세트(1704)는, 프로세서 코어 당 하나인, 별개의 로컬 서브세트로 분할된 글로벌 L2 캐시의 일부이다. 각각의 프로세서 코어는 그 자신의 L2 캐시의 로컬 서브세트(1704)로의 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 그 자신의 L2 캐시 서브세트(1704)에 저장되고, 그 자신의 로컬 L2 캐시 서브세트를 액세스하는 다른 프로세서 코어와 병렬로 신속하게 액세스 될 수 있다. 프로세서 코어에 의해 기입된 데이터는 그 자산의 L2 캐시 서브세트(1704)에 저장되고, 필요한 경우, 다른 서브세트들로부터 플러쉬된다. 링 네트워크는 공유 데이터에 대한 코히어런시를 보장한다. 링 네트워크는 양방향이어서, 프로세서 코어들, L2 캐시 및 다른 로직 블록들과 같은 에이전트들이 칩내에서 서로간에 통신할 수 있도록 한다. 각각의 링 데이터 경로는 방향 당 1012 비트 폭이다.

도 17b는 본 발명의 실시예에 따른 도 17a에서의 프로세서 코어의 일부의 확대도이다. 도 17b는 L1 캐시(1704)의 일부인 L1 데이터 캐시(1706A), 및 벡터 유닛(1710) 및 벡터 레지스터(1714)에 관한 더 상세를 포함한다. 구체적으로, 벡터 유닛(1710)은 16-폭 벡터 처리 유닛(VPU)(16-폭 ALU(1728) 참조)이고, 이것은 하나 이상의 정수, 단일-정밀도 플로팅, 및 더블-정밀도 플로팅 인스트럭션을 실행한다. VPU는 혼합 유닛(1720)으로 레지스터 입력들을 혼합하는 것, 수치 변환 유닛(1722A-B)으로 수치 변환, 및 메모리 입력상의 복제 유닛(1724)으로 복제하는 것을 지원한다. 기입 마스 크 레지스터들(1726)은 서술 결과 벡터 기입들을 허용한다.

통합 메모리 제어기 및 그래픽들을 갖는 프로세서

도 18은 본 발명의 실시예들에 따라, 둘 이상의 코어를 갖고, 통합 메모리 제어기를 갖고, 집적 그래픽을 가질 수 있는 프로세서(1800)의 블록도이다. 도 18에서 실선으로 된 박스들은 단일 코어(1802A), 시스템 에이전트(1810), 하나 이상의 버스 제어기 유닛들(1816)의 세트를 갖는 프로세서(1800)를 도시하고, 점선으로된 박스의 선택적인 부가는 복수의 코어들(1802A-N), 시스템 에이전트 유닛(1810)내의 하나 이상의 통합 메모리 제어기 유닛(들)(1814)의 세트, 및 특수 목적 로직(1808)을 갖는 대안적인 프로세서(1800)를 도시한다.

따라서, 프로세서(1800)의 상이한 구현들은, 1) 집적 그래픽들 및/또는 과학적(처리량) 로직(하나 이상의 코어들을 포함할 수 있음)들인 특수 목적 로직(1808), 및 하나 이상의 범용 코어들(예컨대, 범용 순차 코어들, 범용 비순차 코어들, 이들 둘의 조합)인 코어들(1802A-N)을 갖는 CPU, 2) 주로 그래픽들 및/또는 과학적 (처리량)을 위해 의도된 다수의 특수 목적 코어들인 코어들(1802A-N)을 갖는 코프로세서, 및 3) 다수의 범용 순차 코어들인 코어들(1802A-N)을 갖는 코프로세서를 포함할 수 있다. 따라서, 프로세서(1800)는, 예컨대, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(범용 그래픽 처리 유닛), 고-처리량 MIC(many integrated core) 코프로세서(30개 이상의 코어들을 포함함), 임베디드 프로세서등과 같은 범용 프로세서, 코프로세서 또는 특수 목적 프로세서가 될 수 있다. 프로세서는 하나 이상의 칩들 상에서 구현될 수 있다. 프로세서(1800)는 예컨대, BiCMOS, CMOS 또는 NMOS와 같은 임의의 다수의 프로세스 기술을 이용하는 하나 이상의 기판들의 일부가 되거나, 및/또는 이들 하나 이상의 기판상에 구현될 수 있다.

메모리 계층은 코어들 내의 하나 이상의 레벨들의 캐시, 하나 이상의 공유 캐시 유닛들(1806)의 세트, 및 통합 메모리 제어기 유닛들(1814)의 세트에 연결된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1806)의 세트는 레벨 2(L2), 레벨 3(L3), 레벨 4(L4)와 같은 하나 이상의 중간 레벨 캐시들, 또는 다른 레벨의 캐시, LLC(last level cache), 및/또는 이들의 조합을 포함할 수 있다. 일 실시예에서, 링 기반 인터커넥트 유닛(1812)은 집적 그래픽 로직(1808), 공유 캐시 유닛들(1806)의 세트, 및 시스템 에이전트 유닛(1810)/통합 메모리 제어기 유닛(들)(1814)를 상호접속하는 반면, 대안적인 실시예는 이러한 유닛들을 상호접속 하기 위한 임의의 수의 공지된 기술을 이용할 수 있다. 일 실시예에서, 코히어런시는 하나 이상의 캐시 유닛들(1806)과 코어들(1802-A-N) 사이에서 유지된다.

몇몇 실시예들에서, 하나 이상의 코어들(1802A-N)은 멀티쓰레딩을 할 수 있다. 시스템 에이전트(1810)는 그들의 콤포넌트 코디네이팅 및 동작 코어들(1802A-N)을 포함한다. 시스템 에이전트 유닛(1810)은 예컨대, PCU(power control unit) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(1802A-N) 및 집적 그래픽 로직(1808)의 전력 상태를 조절하는데 필요한 로직 및 콤포넌트들이 될 수 있고 또는 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속된 디스플레이들을 구동하기 위한 것이다.

코어들(1802A-N)은 아키텍쳐 인스트럭션 세트의 측면에서 같은 종류이거나 다른 종류일 수 있고, 즉, 2개 이상의 코어들(1802A-N)은 동일한 인스트럭션 세트를 실행할 수 있고, 다른 것들은 그 인스트럭션 세트의 서브세트만을 실행할 수 있거나, 다른 인스트럭션 세트를 실행할 수 있다.

예시적인 컴퓨터 아키텍쳐

도 19-22는 예시적인 컴퓨터 아키텍쳐의 블록도이다. 랩탑, 데스크탑, 핸드헬드 PC, PDA, 엔지니어링 워크스테이션, 서버, 네트워크 디바이스, 네트워크 허브, 스위치들, 임베디드 프로세서, DSP(digital signal processor), 그래픽 디바이스, 비디오 게임 디바이스, 셋-탑 박스, 마이크로 제어기, 셀 폰, PDP(portable media player), 핸드헬드 디바이스, 및 다양한 다른 전자 디바이스에 대한 기술 분야에 알려진 다른 시스템 설계 및 구성들도 또한 적합하다. 일반적으로, 여기 개시된 바와 같이 프로세서 및/또는 다른 실행 로직을 포함할 수 있는 거대한 다양한 시스템 또는 전자 디바이스들도 적합하다.

도 19를 참조하면, 본 발명의 일 실시예에 따른 시스템(1900)의 블록도가 도시된다. 시스템(1900)은 제어기 허브(1920)에 연결된 하나 이상의 프로세서들(1910, 1915)을 포함할 수 있다. 일 실시예에서, 제어기 허브(1920)는 그래픽 메모리 제어기 허브(graphics memory controller hub; GMCH)(1990) 및 입력/출력 허브(Input/Output Hub; IOH)(1950)(별도의 칩들 상에 있을 수 있음)를 포함할 수 있다; GMCH(1990)는 메모리(1940) 및 코프로세서(1945)에 연결되는 그래픽 제어기들 및 메모리를 포함한다; IOH(1950)는 입력/출력(I/O) 디바이스들(1960)을 GMCH(1990)에 연결한다. 대안적으로, 메모리 및 그래픽 제어기들 중 하나 또는 양쪽 모두는 (여기에서 설명된) 프로세서 내에 통합되고, 메모리(1940) 및 코프로세서(1945)는 프로세서(1910)에 직접 연결되고, IOH(1950)과 함께 하나의 칩에서 제어기 허브(1920)에 직접 연결된다.

추가적인 프로세서들(1915)의 선택적 특성은 점선으로 도 19에서 도시된다. 각각의 프로세서(1910, 1915)는 여기에서 설명된 처리 코어들 중 하나 이상을 포함할 수 있고, 프로세서(1800)의 일부 버전일 수 있다.

메모리(1940)는, 예를 들어, DRAM(dynamic random access memory), PCM(phase change memory), 또는 이 2개의 결합일 수 있다. 적어도 하나의 실시예에 대해, 제어기 허브(1920)는 FSB(frontside bus)와 같은 멀티드롭 버스(multi-drop bus), QPI(QuickPath Interconnect)와 같은 포인트 대 포인트 인터페이스(point-to-point interface), 또는 유사한 연결(1995)을 통해 프로세서(들)(1910, 1915)와 통신한다.

일 실시예에서, 코프로세서(1945)는, 예를 들어 하이-스루풋(high-throughput) MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 내장형 프로세서 등과 같은 특수 목적 프로세서이다. 일 실시예에서, 제어기 허브(1920)는 통합된 그래픽 가속기를 포함할 수 있다.

아키텍쳐 특징, 마이크로아키텍쳐 특징, 열 특징, 전력 소비 특징 등을 포함하는 장점의 메트릭들의 스펙트럼에 관하여 물리적 리소스들(1910, 1915) 사이에 다양한 차이점이 있을 수 있다.

일 실시예에서, 프로세서(1910)는 일반적인 타입의 데이터 처리 동작들을 제어하는 인스트럭션들을 실행할 수 있다. 그 인스트럭션들 내에 코프로세서 인스트럭션들이 내장될 수 있다. 프로세서(1910)는 부착된 코프로세서(1945)에 의해 실행되어야만 하는 타입인 것으로서 이러한 코프로세서 인스트럭션들을 인식한다. 따라서, 프로세서(1910)는 이러한 코프로세서 인스트럭션들(또는 코프로세서 인스트럭션들을 나타내는 제어 신호들)을 코프로세서 버스 또는 다른 인터커넥트 상에서 코프로세서(1945)로 배포한다. 코프로세서(들)(1945)는 수신된 코프로세서 인스트럭션들을 받아들이고 실행한다.

도 20을 참조하면, 본 발명의 일 실시예에 따른 제1의 더 구체적인 예시적인 시스템(2000)의 블록도가 도시된다. 도 20에 도시된 것처럼, 멀티프로세서 시스템(2000)은 포인트 대 포인트 인터커넥트 시스템이고, 포인트 대 포인트 인터커넥트(2050)를 통해 연결된 제1 프로세서(2070) 및 제2 프로세서(2080)를 포함한다. 프로세서들(2070 및 2080)의 각각은 프로세서(1800)의 일부 버전일 수 있다. 본 발명의 일 실시예에서, 프로세서들(2070 및 2080)은 각각 프로세서들(1910 및 1915)인 반면에, 코프로세서(2038)는 코프로세서(1945)이다. 다른 실시예에서, 프로세서들(2070 및 2080)은 각각 프로세서(1910) 및 코프로세서(1945)이다.

프로세서들(2070 및 2080)은 통합된 메모리 제어기(IMC) 유닛들(2072 및 2082)을 각각 포함하는 것으로 도시된다. 프로세서(2070)는 또한 그것의 버스 제어기 유닛들의 일부로서 포인트 대 포인트(P-P) 인터페이스들(2076 및 2078)을 포함한다; 마찬가지로, 제2 프로세서(2080)는 P-P 인터페이스들(2086 및 2088)을 포함한다. 프로세서들(2070, 2080)은 P-P인터페이스 회로들(2078, 2088)을 사용하여 포인트 대 포인트(P-P) 인터페이스(2050)를 통해 정보를 교환할 수 있다. 도 20에서 도시된 것처럼, IMC들(2072 및 2082)은 프로세서들을, 각각의 프로세서들에 로컬로 부착된 주메모리의 부분들일 수 있는 각각의 메모리들, 즉 메모리(2032) 및 메모리(2034)에 연결한다.

프로세서들(2070, 2080)은 각각 포인트 대 포인트 인터페이스 회로들(2076, 2094, 2086, 2098)을 사용하여 개별적인 P-P 인터페이스들(2052, 2054)을 통해 칩셋(2090)와 정보를 교환할 수 있다. 칩셋(2090)은 고성능 인터페이스(2039)를 통해 코프로세서(2038)와 정보를 선택적으로 교환할 수 있다. 일 실시예에서, 코프로세서(2038)는, 예를 들어 하이-스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 내장형 프로세서 등과 같은 특수 목적 프로세서이다.

공유되는 캐시(도시 안됨)는 어느 하나의 프로세서에 포함될 수 있거나 또는 프로세서들 양쪽 모두의 외부에 있지만 P-P 인터커넥트를 통해 프로세서들과 연결될 수 있어, 프로세서가 저전력 모드로 배치되는 경우, 어느 하나 또는 양쪽 모두의 프로세서들의 로컬 캐시 정보는 공유 캐시에 저장될 수 있다.

칩셋(2090)은 인터페이스(2096)를 통해 제1 버스(2016)로 연결될 수 있다. 일 실시예에서, 제1 버스(2016)는 PCI(Peripheral Component Interconnect) 버스이거나, 또는 PCI 익스프레스(Express) 버스와 같은 버스 또는 다른 제3 세대 I/O 인터커넥트 버스일 수 있지만, 본 발명의 범위가 이에 제한되지는 않는다.

도 20에서 도시된 것처럼, 다양한 I/O 디바이스들(2014)은, 제1 버스(2016)를 제2 버스(2020)에 연결시키는 버스 브릿지(2018)와 함께, 제1 버스(2016)에 연결될 수 있다. 일 실시예에서, 코프로세서들, 하이-스루풋 MIC 프로세서들, GPGPU들, (예를 들어, 그래픽 가속기들 또는 DSP(digital signal processing) 유닛들과 같은) 가속기들, 필드 프로그램 가능 게이트 어레이들, 또는 임의의 다른 프로세서와 같은 하나 이상의 추가 프로세서(들)(2015)가 제1 버스(2016)에 연결된다. 일 실시예에서, 제2 버스(2020)는 LPC(low pin count) 버스일 수 있다. 일 실시예에서, 다양한 디바이스들이, 예를 들어 키보드 및/또는 마우스(2022), 통신 디바이스들(2027) 및 인스트럭션들/코드 및 데이터(2030)를 포함할 수 있는 디스크 드라이브 또는 다른 대용량 저장 디바이스와 같은 저장 유닛(2028)을 포함하는 제2 버스(2020)에 연결될 수 있다. 또한, 오디오 I/O(2024)는 제2 버스(2020)에 연결될 수 있다. 다른 아키텍쳐들이 가능하다는 것을 주목한다. 예를 들어, 도 20의 포인트 대 포인트 아키텍쳐를 대신하여, 시스템은 멀티드롭 버스 또는 다른 그러한 아키텍쳐를 구현할 수 있다.

도 21을 참조하면, 본 발명의 일 실시예에 따른 제2의 더 구체적인 예시적인 시스템(2100)의 블록도가 도시된다. 도 20 및 21의 유사한 엘리먼트들은 유사한 참조 번호들을 갖고, 도 20의 소정의 측면들은 도 21의 다른 측면들을 불분명하게 하는 것을 방지하기 위해 도 21로부터 생략되었다.

도 21은 프로세서들(2070, 2080)이 각각 통합된 메모리 및 I/O 제어 로직(control logic; CL)(2072 및 2082)을 각각 포함할 수 있다는 것을 도시한다. 따라서, CL(2072, 2082)은 통합된 메모리 제어기 유닛들을 포함하고, I/O 제어 로직을 포함한다. 도 21은 메모리들(2032, 2034)이 CL(2072, 2082)에 연결되는 것뿐만 아니라 I/O 디바이스들(2114)이 또한 논리 로직(2072, 2082)에 연결되는 것을 도시한다. 레거시 I/O 디바이스들(2115)은 칩셋(2090)에 연결된다.

도 22를 참조하면, 본 발명의 일 실시예에 따른 SoC(2200)의 블록도가 도시된다. 도 18의 유사한 엘리먼트들은 유사한 참조 번호들을 갖는다. 또한, 점선 박스들은 더 진보한 SoC들 상의 선택적인 특성들이다. 도 22에서, 인터커넥트 유닛(들)(2202)은 하나 이상의 코어들(202A-N) 및 공유 캐시 유닛(들)(1806)의 세트를 포함하는 애플리케이션 프로세서(2210); 시스템 에이전트 유닛(1810); 버스 제어기 유닛(들)(1816); 통합된 메모리 제어 유닛(들)(1814); 통합된 그래픽 로직, 이미지 프로세서, 오디오 프로세서, 및 비디오 프로세서를 포함할 수 있는 하나 이상의 코프로세서들(2220)의 세트; SRAM(static random access memory) 유닛(2230); DMA(direct memory access) 유닛(2232); 및 하나 이상의 외부 디스플레이들에 연결하기 위한 디스플레이 유닛(2240)에 연결된다. 일 실시예에서, 코프로세서(들)(2220)는, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 하이-스루풋 MIC 프로세서, 내장형 프로세서 등과 같은 특수 목적 프로세서를 포함한다.

여기에서 개시되는 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 그러한 구현 접근들의 결합에서 구현될 수 있다. 본 발명의 실시예들은 적어도 하나의 프로세서, 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 엘리먼트들을 포함함), 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함하는 프로그램 가능 시스템들 상에서 실행하는 프로그램 코드 또는 컴퓨터 프로그램들로서 구현될 수 있다.

도 20에서 도시된 코드(2030)와 같은 프로그램 코드는 인스트럭션들을 입력하여 여기에서 설명된 기능들을 수행하고 출력 정보를 생성하기 위해 적용될 수 있다. 출력 정보는 공지된 방식으로 하나 이상의 출력 디바이스들에 적용될 수 있다. 이러한 적용을 위해, 처리 시스템은, 예를 들어 DSP(digital signal processor), 마이크로컨트롤러, ASIC(application specific integrated circuit), 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.

프로그램 코드는 처리 시스템과 통신하기 위해 고레벨 절차 또는 객체 지향 프로그래밍 언어(high level procedural or object oriented programming language)에서 구현될 수 있다. 프로그램 코드는 또한, 원한다면, 어셈블리 또는 기계어에서 구현될 수 있다. 사실, 여기에서 설명되는 메커니즘들은 임의의 특정 프로그래밍 언어에 대한 범위에 제한되지 않는다. 임의의 경우에, 그 언어는 컴파일러형 또는 해석형 언어일 수 있다.

적어도 하나의 실시예의 하나 이상의 측면들은, 머신에 의해 판독될 때 여기에서 설명된 기술들을 수행하기 위해 머신으로 하여금 로직을 만들게 하는, 프로세서 내의 다양한 로직을 나타내는 머신 판독가능 매체 상에서 저장된 대표 인스트럭션들에 의해 구현될 수 있다. "IP 코어들"로 알려진 이러한 표현들은 타입의 머신 판독가능 매체에 저장될 수 있고, 다양한 고객들 또는 제조 시설들에 제공되어 로직 또는 프로세서를 실제로 만드는 제조 머신들로 로딩될 수 있다.

이러한 머신 판독가능 저장 매체는, 하드디스크들, 플로피디스크를 포함하는 다른 타입의 디스크, 광디스크들, CD-ROM들(compact disk read-only memories), CD-RW들(compact disk rewritable's), 및 자기광디스크들과 같은 저장 매체, ROM들(read-only memories), DRAM들(dynamic random access memories), SRAM들(static random access memories)과 같은 RAM들(random access memories), EPROM들(erasable programmable read-only memories), 플래시 메모리들, EEPROM(electrically erasable programmable read-only memories), PCM(phase change memory)과 같은 반도체 디바이스들, 자기 또는 광 카드들, 또는 전자 인스트럭션들을 저장하기 위해 적합한 임의의 다른 타입의 매체를 포함하는, 머신 또는 디바이스에 의해 제조되거나 형성되는 물건들의 비일시적이고 타입의 배치들을 포함할 수 있지만 이에 제한되지 않는다.

따라서, 본 발명의 실시예들은 또한, 여기에서 설명된 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 특성들을 정의하는, HDL(Hardware Description Language)과 같은 설계 데이터를 포함하거나 인스트럭션들을 포함하는 비일시적이고 타입의 머신 판독가능한 매체를 포함한다. 이러한 실시예들은 또한 프로그램 제품들로 칭해질 수 있다.

에뮬레이션(바이너리 번역( binary translation ), 코드 모핑 ( code morphing ) 등을 포함함)

일부 경우들에서, 인스트럭션 컨버터는 인스트럭션을 소스 인스트럭션 세트로부터 타겟 인스트럭션 세트로 변환하기 위해 사용될 수 있다. 예를 들어, 인스트럭션 컨버터는 (예를 들어, 동적 컴파일을 포함하는 동적 바이너리 번역, 정적 바이너리 번역을 사용하여) 인스트럭션을 하나 이상의 다른 인스트럭션들로 번역하거나, 모핑하거나, 에뮬레이팅하거나, 그렇지 않으면 변환하여 코어에 의해 처리되도록 할 수 있다. 인스트럭션 컨버터는 소프트웨어, 하드웨어, 펌웨어, 또는 그들의 결합에서 구현될 수 있다. 인스트럭션 컨버터는 프로세서 상에 있거나, 프로세서에서 떨어져 있거나, 또는 일부는 프로세서 상에 있고 일부는 프로세서에서 떨어져 있을 수 있다.

도 23은 본 발명의 실시예들에 따라 소스 인스트럭션 세트의 바이너리 인스트럭션들을 타겟 인스트럭션 세트의 바이너리 인스트럭션들로 변환하기 위한 소프트웨어 인스트럭션 컨버터의 사용을 대조하는 블록도이다. 도시된 실시예에서, 인스트럭션 컨버터는 소프트웨어 인스트럭션 컨버터이지만, 대안적으로 인스트럭션 컨버터는 소프트웨어, 펌웨어, 하드웨어, 또는 그들의 다양한 결합들에서 구현될 수 있다. 도 23은 고레벨 언어(2302)의 프로그램이, 적어도 하나의 x86 인스트럭션 세트 코어(2316)를 가진 프로세서에 의해 기본적으로 실행될 수 있는 x86 바이너리 코드(2306)를 생성하기 위해 x86 컴파일러(2304)를 사용하여 컴파일링될 수 있다는 것을 도시한다. 적어도 하나의 x86 인스트럭션 세트 코어(2316)를 가진 프로세서는, 적어도 하나의 x86 인스트럭션 세트 코어를 가진 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위해, (1) 인텔 x86 인스트럭션 세트 코어의 인스트럭션 세트의 상당한 부분 또는 (2) 적어도 하나의 x86 인스트럭션 세트 코어를 가진 인텔 프로세서 상에서 실행하기 위해 타겟팅된 애플리케이션들 또는 다른 소프트웨어의 오브젝트 코드 버전들을 양립할 수 있게 실행하거나 그렇지 않으면 처리함으로써, 적어도 하나의 x86 인스트럭션 세트 코어를 가진 인텔 프로세서와 실질적으로 동일한 기능을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(2304)는, 추가적인 연결 처리를 사용하거나 사용하지 않고, 적어도 하나의 x86 인스트럭션 세트 코어(2316)로 프로세서 상에서 실행될 수 있는 x86 바이너리 코드(2306)(예를 들어, 오브젝트 코드)를 생성하도록 동작가능한 컴파일러를 나타낸다. 유사하게, 도 23은 고레벨 언어(2302)의 프로그램이, 적어도 하나의 x86 인스트럭션 세트 코어(2314)가 없는 프로세서(예를 들어, 캘리포니아 서니베일의 MIPS 테크놀로지스의 MIPS 인스트럭션 세트를 실행하고/하거나 캘리포니아 서니베일의 ARM 홀딩스의 ARM 인스트럭션 세트를 실행하는 코어들을 가진 프로세서)에 의해 기본적으로 실행될 수 있는 대안적인 인스트럭션 세트 바이너리 코드(2310)를 생성하기 위해 대안적인 인스트럭션 세트 컴파일러(2308)를 사용하여 컴파일될 수 있다는 것을 도시한다. 인스트럭션 컨버터(2312)는 x86 바이너리 코드(2306)를 x86 인스트럭션 세트 코어(2314)가 없는 프로세서에 의해 기본적으로 실행될 수 있는 코드로 변환하기 위해 사용된다. 이것이 가능한 인스트럭션 컨버터는 만들기 어렵기 때문에, 이러한 변환된 코드는 대안적인 인스트럭션 세트 바이너리 코드(2310)와 동일할 것 같지 않다; 그러나, 변환된 코드는 일반적인 동작을 달성할 것이고 대안적인 인스트럭션 세트로부터의 인스트럭션들로 구성될 것이다. 따라서, 인스트럭션 컨버터(2312)는, 에뮬레이션, 시뮬레이션 또는 임의의 다른 프로세스를 통해 x86 인스트럭션 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스가 x86 바이너리 코드(2306)를 실행하도록 하는 소프트웨어, 펌웨어, 하드웨어, 또는 그들의 결합을 나타낸다.

도 4 내지 11 중 임의의 도면에 대해 설명된 구성요소들, 특징들, 및 상세한 내용들은 또한 도 1 내지 3 중 임의의 도면에서 선택적으로 사용될 수 있다. 또한, 장치 중 임의의 것에 대해 여기에서 설명된 구성요소들, 특징들, 및 상세한 내용들은 또한, 실시예들에서 그러한 장치에 의해 그리고/또는 그러한 장치로 수행될 수 있는, 여기에서 설명된 방법들 중 임의의 것에서 선택적으로 사용될 수 있다.

예시적인 실시예들

다음의 예시들은 추가적인 실시예들에 적용된다. 예시들의 세부 내용은 하나 이상의 실시예들에서 어디든지 사용될 수 있다.

예시 1은 프로세서이다. 프로세서는 복수의 패킹 데이터 레지스터들을 포함한다. 프로세서는 또한 패킹 데이터 레지스터들과 연결된 유닛을 포함하고, 그 유닛은 8비트 메모리 인덱스들 및 16비트 메모리 인덱스들로부터 선택되는 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타내는 제한된 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 오직 메모리의 제한된 범위에서, 제한된 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리 위치에 액세스하도록 동작가능하다.

예시 2는 청구항 1의 청구대상을 포함하고, 선택적으로 제한된 범위 벡터 메모리 액세스 인스트럭션은 8비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타낸다.

예시 3은 청구항 1의 청구대상을 포함하고, 선택적으로 제한된 범위 벡터 메모리 액세스 인스트럭션에 응답하여 유닛이 256 바이트만을 포함하는 제한된 범위에서 메모리 위치에 액세스한다.

예시 4는 청구항 1의 청구대상을 포함하고, 선택적으로 제한된 범위 벡터 메모리 액세스 인스트럭션은 적어도 32개의 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타낸다.

예시 5는 청구항 1의 청구대상을 포함하고, 선택적으로 제한된 범위 벡터 메모리 액세스 인스트럭션에 응답하여 유닛이 적어도 32비트의 메모리 어드레스를 갖는 메모리의 제한된 범위에 액세스한다.

예시 6은 제5항의 청구대상을 포함하고, 선택적으로, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리 인덱스들의 각각을 부호 확장하고 부호 확장된 메모리 인덱스들의 각각에 스케일 팩터를 적용한다.

예시 7은 제1항의 청구대상을 포함하고, 선택적으로, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 적어도 하나의 데이터 엘리먼트를 복수의 메모리 인덱스에 의해 표시되는 메모리 어드레스에 그리고 적어도 하나의 데이터 엘리먼트를 복수의 메모리 인덱스에 의해 표시되지 않는 메모리 어드레스에 로드하기 위한 복수 데이터 엘리먼트 로드를 수행한다.

예시 8은 제1항의 청구대상을 포함하고, 선택적으로, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리로부터 프로세서의 저장 위치들로 제한 범위의 전체를 로드한다.

예시 9는 제1항의 청구대상을 포함하고, 선택적으로, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, (a) 인스트럭션이 패킹 데이터 연산 마스크를 나타내지 않는 경우; 및 (b) 인스트럭션이 패킹 데이터 연산 마스크를 나타내지만 패킹 데이터 연산 마스크에 대응하는 마스크 엘리먼트가 마스킹되지 않는 경우 중 하나의 경우에, 복수의 데이터 엘리먼트들을 로드하는 복수 데이터 엘리먼트 로드를 수행하고, 로딩된 데이터 엘리먼트들 중 제2 데이터 엘리먼트를 데스티네이션 저장 위치에 저장하지 않고서 복수의 로딩된 데이터 엘리먼트들 중 제1 데이터 엘리먼트를 데스티네이션 저장 위치에 저장한다.

예시 10은 제1항의 청구대상을 포함하고, 선택적으로, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리로부터 프로세서의 저장 위치에 전체 제한 범위를 로드하고, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 전체 제한 범위의 데이터 엘리먼트들의 서브세트를 메모리 인덱스들에 기반하여 인스트럭션에 의해 표시되는 데스티네이션 저장 위치에 선택적으로 이동시킨다.

예시 11은 제1항 내지 제8항 중 어느 하나의 청구대상을 포함하고, 선택적으로, 제한 범위 벡터 메모리 액세스 인스트럭션은 데스티네이션 저장 위치를 나타내고, 유닛은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 데스티네이션 저장 위치에 패킹 데이터 결과를 저장하고, 패킹 데이터 결과는 복수의 데이터 엘리먼트들을 가지며, 각각의 데이터 엘리먼트는 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치로부터 유래한다.

예시 12는 제1항 내지 제8항 중 어느 하나의 청구대상을 포함하고, 선택적으로, 제한 범위 벡터 메모리 액세스 인스트럭션은 복수의 데이터 엘리먼트들을 갖는 소스 패킹 데이터를 나타내고, 유닛은, 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치에 소스 패킹 데이터의 각각의 데이터 엘리먼트를 기입한다.

예시 13은 제1항 내지 제8항 중 어느 하나의 청구대상을 포함하고, 선택적으로, 제한 범위 벡터 메모리 액세스 인스트럭션은 패킹 데이터 연산 마스크를 나타낸다.

예시 14는 프로세서에서의 방법이다. 본 방법은 제한 범위 벡터 메모리 액세스 인스트럭션을 수신하는 단계를 포함하고, 이러한 제한 범위 벡터 메모리 액세스 인스트럭션은 8-비트 메모리 인덱스들 및 16-비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타낸다. 또한, 방법은 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리의 제한 범위에서만 메모리 위치들을 액세스하는 단계를 포함한다.

예시 15는 제14항의 청구대상을 포함하고, 선택적으로, 수신하는 단계는 8-비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 표시되는 인스트럭션을 수신하는 단계를 포함한다.

예시 16은 제14항의 청구대상을 포함하고, 선택적으로, 액세스하는 단계는 256 바이트들로 이루어진 제한 범위의 메모리 위치들을 액세스하는 단계를 포함한다.

예시 17은 제14항의 청구대상을 포함하고, 선택적으로, 수신하는 단계는 데스티네이션 저장 위치를 나타내는 인스트럭션을 수신하는 단계를 포함하고, 또한 인스트럭션에 응답하여, 데스티네이션 저장 위치에 패킹 데이터 결과를 저장하는 단계를 포함하며, 패킹 데이터 결과는 복수의 데이터 엘리먼트들을 가지고, 각각의 데이터 엘리먼트는 대응하는 메모리 인덱스에 의해 표시된 제한 범위의 메모리 위치로부터 유래한다.

예시 18은 제14항의 청구대상을 포함하고, 선택적으로, 수신하는 단계는 복수의 데이터 엘리먼트들을 갖는 소스 패킹 데이터를 나타내는 인스트럭션을 수신하는 단계를 포함하고, 액세스하는 단계는 인스트럭션에 응답하여, 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치에 소스 패킹 데이터의 각각의 데이터 엘리먼트를 기입하는 단계를 포함한다.

예시 19는 제14항의 청구대상을 포함하고, 선택적으로, 액세스하는 단계는 적어도 32-비트 메모리 어드레스들에 의해 액세스하는 단계를 포함한다.

예시 20은 제14항의 청구대상을 포함하고, 선택적으로, 액세스하는 단계는 적어도 하나의 데이터 엘리먼트를 복수의 메모리 인덱스에 의해 표시되는 메모리 어드레스에 그리고 적어도 하나의 데이터 엘리먼트를 복수의 메모리 인덱스에 의해 표시되지 않는 메모리 어드레스에 로드하는 단계를 포함하는 복수 데이터 엘리먼트 로드를 수행하는 단계를 포함한다.

예시 21은 제14항의 청구대상을 포함하고, 선택적으로, (a) 인스트럭션이 패킹 데이터 연산 마스크를 사용하지 않는 경우; 및 (b) 인스트럭션이 패킹 데이터 연산 마스크를 사용하지만 패킹 데이터 연산 마스크에 대응하는 마스크 엘리먼트가 마스킹되지 않는 경우 중 하나의 경우에, 복수의 데이터 엘리먼트들을 로드하는 복수 데이터 엘리먼트 로드를 수행하는 단계 및 로딩된 데이터 엘리먼트들 중 제2 데이터 엘리먼트를 데스티네이션 저장 위치에 저장하지 않고서 로딩된 데이터 엘리먼트들 중 제1 데이터 엘리먼트를 데스티네이션 저장 위치에 저장하는 단계를 더 포함한다.

예시 22는 인스트럭션들을 처리하기 위한 시스템이다. 시스템은 인터커넥트를 포함한다. 또한, 시스템은 인터커넥트와 결합된 프로세서를 포함한다. 또한, 시스템은 인터커넥트와 결합된 DRAM(dynamic random access memory)을 포함하고, DRAM은 제한 범위 벡터 메모리 액세스 인스트럭션을 저장하며, 제한 범위 벡터 메모리 액세스 인스트럭션은 8-비트 메모리 인덱스들과 16-비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타내고, 제한 범위 벡터 메모리 액세스 인스트럭션은 프로세서에 의해 실행되는 경우에는, 프로세서로 하여금 메모리의 제한 범위에서만 액세스 메모리 위치들을 포함하는 연산들을 수행하도록 동작가능하다.

예시 23은 예시 22의 청구대상을 포함하고, 선택적으로, 제한 범위 벡터 메모리 액세스 인스트럭션은 8-비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내고, 인스트럭션은 프로세서에 의해 실행되는 경우에는 프로세서로 하여금 적어도 32-비트의 메모리 어드레스를 갖는 제한 범위를 액세스하도록 동작가능하다.

예시 24는 비일시적 머신-판독가능한 저장 매체를 포함하는 제조물로서, 비일시적 머신-판독가능한 저장 매체는 제한 범위 벡터 메모리 액세스 인스트럭션을 저장하고, 제한 범위 벡터 메모리 액세스 인스트럭션은 8-비트 메모리 인덱스들과 16-비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타내며, 제한 범위 벡터 메모리 액세스 인스트럭션은 머신에 의해 실행되는 경우에는, 머신으로 하여금 메모리의 제한 범위에서만 메모리 위치들을 액세스하는 것을 포함하는 연산들을 수행하도록 동작가능하다.

예시 25는 예시 24의 청구 대상을 포함하고, 선택적으로, 제한 범위 벡터 메모리 액세스 인스트럭션은 8-비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내고, 소스 패킹 메모리 인덱스들은 적어도 32-비트 메모리 인덱스들을 포함한다.

예시 26은 예시 14 내지 예시 21 중 어느 하나의 방법을 수행하기 위한 장치이다.

예시 27은 예시 14 내지 예시 21 중 어느 하나의 방법을 수행하기 위한 수단을 포함하는 장치이다.

예시 28은 인스트럭션을 저장하는 머신-판독가능한 저장 매체로서, 머신에 의해 실행된 경우 머신으로 하여금 예시 14 내지 예시 21 중 어느 하나의 방법을 수행하도록 한다.

예시 29는 실질적으로 본 명세서에서 서술된 바와 같이 인스트럭션을 실행하기 위한 프로세서이다.

예시 30은 실질적으로 본 명세서에서 서술된 바와 같이 방법을 수행하기 위한 프로세서이다.

예시 31은 실질적으로 본 명세서에서 서술된 바와 같이 방법을 수행하기 위한 수단을 포함하는 프로세서이다.

발명의 상세한 설명과 청구항들에서, "결합된(coupled)" 및/또는 " 접속된(connected)"이라는 용어가 그에 대한 파생어들과 함께 이용되었다. 이러한 용어들이 서로에 대한 동의어가 아니라는 것이 이해되어야 한다. 오히려, 특정 실시예에서, "접속된"은 두 개 이상의 엘리먼트들이 서로에 대해 직접적인 물리적 또는 전기적 접촉 상태라는 것을 나타내는 데에 사용될 수 있다. "결합된"은 두 개 이상의 엘리먼트들이 직접적인 물리적 또는 전기적 접촉 상태인 것을 의미할 수 있다. 그러나, "결합된"은 두 개 이상의 엘리먼트들이 서로에 대해 직접적인 접촉 상태는 아니지만, 서로에 대해 협력(co-operate) 또는 상호작용하는 상태인 것도 의미할 수 있다. 예를 들어, 실행 유닛은 하나 이상의 개재 컴포넌트(intervening component)들을 통해서 레지스터 또는 디코더와 결합될 수 있다. 도면들에서 화살표들은 접속들과 결합들을 도시하는 데에 사용된다.

발명의 상세한 설명 및 청구항들에서 "로직"이라는 용어가 사용되었을 수 있다. 본 명세서에서 사용된 바와 같이, 로직은 하드웨어, 펌웨어, 소프트웨어, 또는 이들의 다양한 조합들 등의 모듈을 포함할 수 있다. 로직의 예시는 집적회로, ASIC(application specific integrated circuit), 아날로그 회로, 디지털 회로, 프로그래밍된 로직 장치, 인스트럭션들을 포함하는 메모리 장치 등을 포함한다. 일부 실시예들에서, 하드웨어 로직은 가능한 그 외의 회로 구성 요소들과 함께 트랜지스터들 및/또는 게이트들을 포함할 수 있다.

위의 발명의 상세한 설명에서, 실시예들의 완벽한 이해를 제공하기 위한 구체적인 상세들이 제시되었다. 그러나, 그 외의 실시예들은 일부 이러한 구체적인 상세들 없이 실행될 수 있다. 본 발명의 범위는 위에서 제공된 구체적인 예시들이 아닌, 이하의 청구항들에 의해서만 결정된다. 도면들에서 도시되고 명세서에서 기술된 모든 동등한 관계들은 실시예들 내에 포함된다. 그 외의 예들에서, 발명의 상세한 설명에 대한 이해를 방해하는 것을 방지하기 위해 공지된 회로들, 구조들, 장치들, 및 연산들은 블록 다이어그램의 형태로 또는 상세 없이 도시되었다. 복수의 구성요소들이 도시되고 기술된 경우에, 일부 경우들에서는 이러한 복수의 구성요소들이 하나의 구성요소로 통합될 수 있다. 단일 구성요소가 도시되고 기술된 경우에, 일부 경우들에서는 이러한 단일 구성요소는 두 개 이상의 구성요소들로 분리될 수 있다.

다양한 연산들 및 방법들이 기술되었다. 일부 방법들은 플로우 다이어그램들에서 상대적으로 기본적인 형태로 기술되었으나, 연산들은 선택적으로 방법들에 추가될 수 있고, 및/또는 방법들로부터 제거될 수 있다. 또한, 플로우 다이어그램들이 예시적인 실시예들에 따른, 연산들의 특정 순서를 도시하지만, 이러한 특정 순서는 예시적이다. 대안적인 실시예들은 선택적으로 연산들을 상이한 순서로 수행하거나, 특정 연산들을 조합하거나, 특정 연산들을 중복되게할 수 있다.

특정 연산들은 하드웨어 구성요소들에 의해 수행되거나, 또는 머신, 회로, 또는 하드웨어 구성요소들(예컨대, 프로세서, 프로세서의 부분, 회로 등)이 하여금 연산들을 수행하는 인스트럭션에 의해 프로그래밍되도록 하는 데에 이용되는 머신-실행가능한 또는 회로-실행가능한 인스트럭션들로 구현될 수 있다. 또한, 연산들은 선택적으로 하드웨어와 소프트웨어의 조합으로써 수행될 수 있다. 프로세서, 머신, 회로, 또는 하드웨어는 인스트럭션을 실행 및/또는 처리하고, 인스트럭션에 응답하여, 결과를 저장하도록 동작하는 것이 가능한 특정 회로 또는 그 외의 로직(예컨대, 펌웨어 및/또는 소프트웨어와 결합 가능한 하드웨어)을 포함할 수 있다.

일부 실시예들은 머신-판독가능한 매체를 포함하는 제조물(예컨대, 컴퓨터 프로그램 제품)을 포함한다. 매체는 머신에 의해 판독가능한 형태의 정보를 제공, 예컨대 저장하는 매커니즘을 포함한다. 머신-판독가능한 매체는 머신에 의해 실행되는 경우에, 머신으로 하여금 본 명세서에 개시된 연산들, 방법들, 또는 기법들 중 하나 이상을 수행하도록 동작하는 것이 가능한 인스트럭션 또는 일련의 인스트럭션들을 제공하거나 또는 저장하고 있을 수 있다. 머신-판독가능한 매체는 본 명세서에 개시된 하나 이상의 인스트럭션들의 실시예들을 제공, 예컨대 저장할 수 있다.

일부 실시예들에서, 머신-판독가능한 매체는 타입의 및/또는 비일시적인 머신-판독가능한 저장 매체를 포함할 수 있다. 예를 들어, 유형의 및/또는 비일시적인 머신-판독가능한 저장 매체는 플로피 디스켓, 광 저장 매체, 광 디스크, 광 데이터 저장 장치, CD-ROM, 자기 디스크, 광자기 디스크, ROM(read only memory), PROM(programmable ROM), EPROM(erasable-and-programmable ROM), EEPROM(electrically-erasable-and-programmable ROM), RAM(random access memory), SRAM(static-RAM), DRAM(dynamic-RAM), 플래시 메모리, 상 변환 메모리(phase-change memory), 상 변환 데이터 저장 물질, 비휘발성 메모리, 비일시적 메모리, 비일시적 데이터 저장 장치 등을 포함할 수 있다. 비일시적 머신-판독가능한 저장 매체는 일시적 전반(propagate)된 신호로 구성되지 않는다. 또 다른 실시예에서, 머신-판독가능한 매체는 일시적 머신-판독가능한 통신 매체, 예컨대 캐리어파, 적외선 신호, 디지털 신호 등의 전기적, 광, 음향 또는 그 외의 형태의 전반된 신호들을 포함할 수 있다.

적합한 머신들의 예시는 범용 프로세서, 특수 목적 프로세서, 인스트럭션 처리 장치, 디지털 로직 회로, 집적 회로 등을 포함하나, 이것에 국한되지는 않는다. 또한, 적합한 머신들의 그 외의 예시들은 이러한 프로세서, 인스트럭션 처리 장치, 디지털 로직 회로, 또는 집적회로를 통합하는 컴퓨팅 장치 및 그 외의 전자 장치를 포함한다. 이러한 컴퓨팅 장치 및 전자 장치의 예시는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 넷북, 스마트폰, 셀룰러 폰, 서버, 네트워크 장치(예컨대, 라우터 및 스위치), MID(Mobile Internet Device), 미디어 플레이어, 스마트 텔레비전, 넷탑, 셋톱 박스, 및 비디오 게임 제어기를 포함하나 이것에 국한되지는 않는다.

본 명세서에 걸친, "일 실시예", "실시예", "하나 이상의 실시예들", "일부 실시예들"에 대한 참조는, 예컨대 특정한 특징이 본 발명의 실행에 포함될 수 있으나 반드시 필수적인 것은 아니라는 것을 나타낸다. 유사하게, 발명의 상세한 설명에서 다양한 특징들은, 본 명세를 간소화하고 본 발명의 다양한 양태들의 이해를 돕기 위한 목적을 위해 때때로 단일의 실시예, 도면, 또는 이들에 대한 설명으로 그룹화될 수 있다. 그러나, 이와 같은 개시 방식은 청구한 실시예가 각 청구항에 명확히 인용된 것 이상의 특징을 요구하려는 의도를 반영하는 것으로 해석되지 않아야 한다. 그보다는, 이하의 청구항들이 나타내는 바와 같이, 본 발명의 양태들은 개시된 단일 실시예의 모든 특징들보다 적게 포함되어 있다. 따라서, 다음의 청구항들은 본 발명의 상세한 설명에 포함되며, 각 청구항은 개별적으로 청구한 주제로서 그 자체를 대표한다.

Claims

프로세서로서,
복수의 패킹(packed) 데이터 레지스터들; 및
상기 패킹 데이터 레지스터들에 결합된 유닛
을 포함하고,
상기 유닛은, 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리의 제한 범위 내에서만 메모리 위치들에 액세스하도록 동작 가능하며,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들 및 16 비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타내는, 프로세서.
제1항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내는, 프로세서.
제1항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 256 바이트만을 포함하는 제한 범위 내의 메모리 위치들에 액세스하는, 프로세서.
제1항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 적어도 32 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내는, 프로세서.
제1항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 적어도 32 비트의 메모리 어드레스를 갖는 제한 범위의 메모리에 액세스하는, 프로세서.
제5항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여,
상기 메모리 인덱스들의 각각을 부호 확장(sign extend)하고;
부호 확장된 메모리 인덱스들의 각각에 스케일 팩터를 적용하는, 프로세서.
제1항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 복수의 메모리 인덱스에 의해 표시되는 메모리 어드레스의 적어도 하나의 데이터 엘리먼트 및 복수의 메모리 인덱스에 의해 표시되지 않는 메모리 어드레스의 적어도 하나의 데이터 엘리먼트를 로딩하는 다중 데이터 엘리먼트 로드를 수행하는, 프로세서.
제1항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 상기 메모리로부터 상기 제한 범위의 전체를 상기 프로세서의 저장 위치에 로딩하는, 프로세서.
제1항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여,
복수의 데이터 엘리먼트들을 로딩하는 다중 데이터 엘리먼트 로드를 수행하고,
(a) 상기 인스트럭션이 패킹 데이터 연산 마스크를 나타내지 않는 경우, 및 (b) 상기 인스트럭션이 패킹 데이터 연산 마스크를 나타내지만 상기 패킹 데이터 연산 마스크의 대응하는 마스크 엘리먼트가 마스킹되지 않은 경우 중 어느 하나의 경우에, 로딩된 데이터 엘리먼트들 중 제2 데이터 엘리먼트를 데스티네이션 저장 위치에 저장하지 않고서 복수의 로딩된 데이터 엘리먼트들 중 제1 데이터 엘리먼트를 상기 인스트럭션에 의해 표시되는 데스티네이션 저장 위치에 저장하는, 프로세서.
제1항에 있어서,
상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 상기 메모리로부터 상기 제한 범위의 전체를 상기 프로세서의 저장 위치에 로딩하고,
또한 상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 상기 제한 범위 전체의 데이터 엘리먼트들의 서브세트를 상기 메모리 인덱스들에 기반한 상기 인스트럭션에 의해 표시되는 데스티네이션 저장 위치에 선택적으로 이동시키는, 프로세서.
제1항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 데스티네이션 저장 위치를 나타내며, 상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 상기 데스티네이션 저장 위치에 패킹 데이터 결과를 저장하고, 상기 패킹 데이터 결과는, 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치로부터 각각이 유래하는 복수의 데이터 엘리먼트들을 갖는, 프로세서.
제1항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 복수의 데이터 엘리먼트들을 갖는 소스 패킹 데이터를 나타내고, 상기 유닛은, 상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 상기 소스 패킹 데이터의 각각의 데이터 엘리먼트를 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치에 기입하는, 프로세서.
제1항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 패킹 데이터 연산 마스크를 나타내는, 프로세서.
프로세서에서의 방법으로서,
제한 범위 벡터 메모리 액세스 인스트럭션을 수신하는 단계 - 상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들 및 16 비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타냄 - ; 및
상기 제한 범위 벡터 메모리 액세스 인스트럭션에 응답하여, 메모리의 제한 범위 내에서만 메모리 위치들에 액세스하는 단계
를 포함하는 방법.
제14항에 있어서,
상기 수신하는 단계는 8 비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내는 인스트럭션을 수신하는 단계를 포함하는, 방법.
제14항에 있어서,
상기 액세스하는 단계는 256 바이트를 포함하는 제한 범위 내의 메모리 위치들에 액세스하는 단계를 포함하는, 방법.
제14항에 있어서,
상기 수신하는 단계는 데스티네이션 저장 위치를 나타내는 인스트럭션을 수신하는 단계를 포함하고, 또한 상기 인스트럭션에 응답하여 상기 데스티네이션 저장 위치에 패킹 데이터 결과를 저장하는 단계를 더 포함하며, 상기 패킹 데이터 결과는, 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치로부터 각각이 유래하는 복수의 데이터 엘리먼트들을 갖는, 방법.
제14항에 있어서,
상기 수신하는 단계는 복수의 데이터 엘리먼트들을 갖는 소스 패킹 데이터를 나타내는 인스트럭션을 수신하는 단계를 포함하고, 상기 액세스하는 단계는 상기 인스트럭션에 응답하여 상기 소스 패킹 데이터의 각각의 데이터 엘리먼트를 대응하는 메모리 인덱스에 의해 표시되는 제한 범위의 메모리 위치에 기입하는 단계를 포함하는, 방법.
제14항에 있어서,
상기 액세스하는 단계는 32 비트 메모리 어드레스를 갖는 메모리에 액세스하는 단계를 포함하는, 방법.
제14항에 있어서,
상기 액세스하는 단계는, 복수의 메모리 인덱스에 의해 표시되는 메모리 어드레스의 적어도 하나의 데이터 엘리먼트 및 복수의 메모리 인덱스에 의해 표시되지 않는 메모리 어드레스의 적어도 하나의 데이터 엘리먼트를 로딩하는 것을 포함하는 다중 데이터 엘리먼트 로드를 수행하는 단계를 포함하는, 방법.
제14항에 있어서,
복수의 데이터 엘리먼트들을 로딩하는 다중 데이터 엘리먼트 로드를 수행하는 단계; 및
(a) 상기 인스트럭션이 패킹 데이터 연산 마스크를 이용하지 않는 경우, 및 (b) 상기 인스트럭션이 패킹 데이터 연산 마스크를 이용하지만 상기 패킹 데이터 연산 마스크의 대응하는 마스크 엘리먼트가 마스킹되지 않은 경우 중 어느 하나의 경우에, 로딩된 데이터 엘리먼트들 중 제2 데이터 엘리먼트를 데스티네이션 저장 위치에 저장하지 않고서 로딩된 데이터 엘리먼트들 중 제1 데이터 엘리먼트를 상기 인스트럭션에 의해 표시되는 데스티네이션 저장 위치에 저장하는 단계
를 더 포함하는 방법.
인스트럭션들을 처리하기 위한 시스템으로서,
인터커넥트;
상기 인터커넥트에 결합된 프로세서; 및
상기 인터커넥트에 결합된 DRAM(dynamic random access memory)
을 포함하며,
상기 DRAM은 제한 범위 벡터 메모리 액세스 인스트럭션을 저장하며, 상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들 및 16 비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타내며, 상기 제한 범위 벡터 메모리 액세스 인스트럭션은, 상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금 액세스 메모리 위치들을 포함하는 연산들을 메모리의 제한 범위 내에서만 수행하게 하도록 동작 가능한, 시스템.
제22항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내며,
상기 인스트럭션은, 상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금 적어도 32 비트의 메모리 어드레스를 갖는 제한 범위에 액세스하게 하도록 동작 가능한, 시스템.
비일시적 머신-판독 가능 저장 매체를 포함하는 제조물로서,
상기 비일시적 머신-판독 가능 저장 매체는 제한 범위 벡터 메모리 액세스 인스트럭션을 저장하며, 상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들 및 16 비트 메모리 인덱스들로부터 선택된 복수의 패킹 메모리 인덱스들을 갖는 소스 패킹 메모리 인덱스들을 나타내며, 상기 제한 범위 벡터 메모리 액세스 인스트럭션은, 머신에 의해 실행되는 경우, 상기 머신으로 하여금 액세스 메모리 위치들을 포함하는 연산들을 메모리의 제한 범위 내에서만 수행하게 하도록 동작 가능한, 비일시적 머신-판독 가능 저장 매체를 포함하는 제조물.
제24항에 있어서,
상기 제한 범위 벡터 메모리 액세스 인스트럭션은 8 비트 메모리 인덱스들을 포함하는 소스 패킹 메모리 인덱스들을 나타내며, 상기 소스 패킹 메모리 인덱스들은 적어도 32 비트 메모리 인덱스들을 포함하는, 비일시적 머신-판독 가능 저장 매체를 포함하는 제조물.