KR20140113580A

KR20140113580A - 연산 마스크들의 마스킹되지 않는 요소들을 통합하기 위한 프로세서들, 방법들, 시스템들, 및 명령어들

Info

Publication number: KR20140113580A
Application number: KR1020140030864A
Authority: KR
Inventors: 아시시 자
Original assignee: 인텔 코오퍼레이션
Priority date: 2013-03-15
Filing date: 2014-03-17
Publication date: 2014-09-24
Also published as: CN104049953A; JP2014182802A; GB201404692D0; JP5918287B2; KR101679111B1; US9411593B2; CN104049953B; GB201512362D0; GB2527944B; DE102014003661A1; BR102014006231A2; GB2527944A; US20140281396A1; GB2515147A; GB2515147B

Abstract

일 양태의 명령어 처리 장치는 복수의 연산 마스크 레지스터들을 포함한다. 장치는 또한 연산 마스크 통합 명령어를 수신하는 디코드 유닛을 포함한다. 연산 마스크 통합 명령어는 복수의 연산 마스크 레지스터들 중의 소스 연산 마스크 레지스터, 및 목적지 저장 장소를 표시한다. 소스 연산 마스크 레지스터는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함하는 소스 연산 마스크를 포함한다. 실행 유닛이 디코드 유닛에 연결된다. 실행 유닛은, 연산 마스크 통합 명령어에 응답하여, 목적지 저장 장소에 통합된 연산 마스크를 저장한다. 통합된 연산 마스크는 함께 통합된 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함한다. 다른 장치, 방법, 시스템, 및 명령어들도 개시된다.

Description

연산 마스크들의 마스킹되지 않는 요소들을 통합하기 위한 프로세서들, 방법들, 시스템들, 및 명령어들{PROCESSORS, METHODS, SYSTEMS, AND INSTRUCTIONS TO CONSOLIDATE UNMASKED ELEMENTS OF OPERATION MASKS}

본 명세서에 설명된 실시예들은 일반적으로 프로세서들에 관한 것이다. 특히, 본 명세서에 설명된 실시예들은 일반적으로 명령어들에 응답하여 연산 마스크들(operation masks)을 조작하는 프로세스들에 관한 것이다.

많은 프로세서가 단일 명령어, 다중 데이터(Single Instruction, Multiple Data; SIMD) 아키텍처들을 갖는다. SIMD 아키텍처들에서는, 오직 하나의 데이터 요소 또는 데이터 요소들의 쌍에 대해 동작하는 스칼라 명령어 대신에, 패킹된(packed) 데이터 명령어, 벡터 명령어, 또는 SIMD 명령어가 다중 데이터 요소들 또는 다중 데이터 요소 쌍들에 대해 동시에 및/또는 병렬로 동작할 수 있다. 예를 들어, 다중 데이터 요소들은 패킹된 데이터 또는 벡터 데이터로서 하나의 레지스터 또는 메모리 장소 내에 패킹될 수 있다. 패킹된 데이터에서, 레지스터 또는 다른 저장 장소의 비트들은 다수의 일반적으로 고정된 사이즈의 데이터 요소들의 시퀀스로 논리적으로 분할될 수 있다. 데이터 요소들 각각은 종종 동일한 사이즈를 갖는 다른 데이터 요소들과 함께 저장되는 개별 데이터 조각(individual piece of data)을 표현할 수 있다. 예를 들어, 256-비트 패킹된 데이터 레지스터는 4개의 64-비트 데이터 요소들, 8개의 32-비트 데이터 요소들, 16개의 16-비트 데이터 요소들, 또는 32개의 8-비트 데이터 요소들을 가질 수 있다. 패킹된 데이터 요소들 각각은 다른 것들에 독립적으로 또는 그와 별개로 동작할 수 있는 별개의 개별 데이터 조각(separate individual piece of data)(예를 들어, 픽셀의 컬러, 부동 소수점 값 등)을 표현할 수 있다. 프로세서는 복수의 연산들을 동시에 또는 병렬로 수행하기 위한 패킹된 또는 SIMD 명령어에 응답하는 병렬 실행 하드웨어를 가질 수 있다. 그러한 SIMD 아키텍처들은 일반적으로 프로세싱 속도를 현저하게 향상시키는 데 도움이 된다.

본 발명은 실시예들을 예시하는 데 이용되는 다음의 설명 및 첨부 도면들을 참조함으로써 가장 잘 이해될 수 있다.
도 1은 연산 마스크 통합 명령어(operation mask consolidation instruction)들의 하나 이상의 실시예들을 처리하도록 동작 가능한 프로세서의 실시예의 블록도이다.
도 2a는 병합 마스킹된 패킹된 데이터 연산의 예시적인 실시예의 블록도이다.
도 2b는 제로잉(zeroing) 마스킹된 패킹된 데이터 연산의 예시적인 실시예의 블록도이다.
도 3은 연산 마스크 통합 명령어들의 하나 이상의 실시예들을 실행하도록 동작 가능한 명령어 처리 장치의 실시예의 블록도이다.
도 4a는 연산 마스크 통합 명령어의 제1 예시적인 실시예에 응답하여 및/또는 그의 결과로서 수행될 수 있는 연산 마스크 통합 연산의 제1 예시적인 실시예의 블록도이다.
도 4b는 연산 마스크 통합 명령어의 제2 예시적인 실시예에 응답하여 및/또는 그의 결과로서 수행될 수 있는 연산 마스크 통합 연산의 제2 예시적인 실시예의 블록도이다.
도 5는 연산 마스크 통합 명령어의 실시예를 처리하는 방법의 실시예의 블록 흐름도이다.
도 6은 연산 마스크 통합 명령어에 대해 적절한 포맷의 실시예의 블록도이다.
도 7은 적절한 패킹된 데이터 레지스터들의 예시적인 실시예의 블록도이다.
도 8은 다수의 패킹된 데이터 연산 마스크 요소들이 패킹된 데이터 폭 및 패킹된 데이터 요소 폭에 의존하는 것을 예시하는 표이다.
도 9는 패킹된 데이터 연산 마스크 레지스터들의 적절한 세트에 대한 예시적인 실시예의 블록도이다.
도 10은 다수의 연산 마스크 요소들이 패킹된 데이터 폭 및 패킹된 데이터 요소 폭에 의존하는 패킹된 데이터 연산 마스크 레지스터의 예시적인 실시예의 블록도이다.
도 11a는 VEX 프리픽스, 실제 오피코드 필드, Mod R/M 바이트, SIB 바이트, 변위 필드, 및 IMM8를 포함하는 예시적인 AVX 명령어 포맷을 도시한다.
도 11b는 도 11a의 필드들이 풀 오피코드 필드 및 베이스 연산 필드를 구성하는 것을 도시한다.
도 11c는 도 11a의 필드들이 레지스터 인덱스 필드를 구성하는 것을 도시한다.
도 12는 본 발명의 일 실시예에 따른 레지스터 아키텍처의 블록도이다.
도 13a는 본 발명의 실시예들에 따른 예시적인 순차적 파이프라인(in-order pipeline)과 예시적인 레지스터 재명명, 비순차적 발행/실행 파이프라인(register renaming, out-of-order issue/execution pipeline) 양자를 예시하는 블록도이다.
도 13b는 본 발명의 실시예들에 따른 프로세서에 포함되는 순차적 아키텍처 코어의 예시적인 실시예와 예시적인 레지스터 재명명, 비순차적 발행/실행 아키텍처 코어 양자를 예시하는 블록도이다.
도 14a는 본 발명의 실시예들에 따른 온-다이 인터커넥트 네트워크(on-die interconnect network)에 대한 그의 접속 및 레벨 2(L2) 캐시의 그의 로컬 서브세트와 함께, 단일 프로세서 코어의 블록도이다.
도 14b는 본 발명의 실시예들에 따른 도 14a의 프로세서 코어의 일부의 확대도이다.
도 15는 본 발명의 실시예들에 따른 하나보다 많은 코어를 가질 수 있고, 통합 메모리 컨트롤러를 가질 수 있고, 통합 그래픽을 가질 수 있는 프로세서의 블록도이다.
도 16은 본 발명의 일 실시예에 따른 시스템의 블록도를 도시한다.
도 17은 본 발명의 실시예에 따른 제1 더욱 구체적인 예시적인 시스템의 블록도를 도시한다.
도 18은 본 발명의 실시예에 따른 제2 더욱 구체적인 예시적인 시스템의 블록도를 도시한다.
도 19는 본 발명의 실시예에 따른 SoC의 블록도를 도시한다.
도 20은 본 발명의 실시예들에 따른 소스 명령어 세트의 이진 명령어들을 타겟 명령어 세트의 이진 명령어들로 변환하기 위한 소프트웨어 명령어 변환기의 이용에 대조되는 블록도이다.

본 명세서에는 연산 마스크 통합 명령어들, 그 명령어들을 실행하기 위한 프로세서들, 그 명령어들을 처리 또는 실행할 때 프로세서들에 의해 수행되는 방법들, 및 명령어들을 처리 또는 실행하기 위한 하나 이상의 프로세서들을 포함하는 전자 시스템들이 개시되어 있다. 다음의 설명에서, 다수의 특정 상세들이 제시된다(예를 들어, 특정 명령어 연산들, 연산 마스크들, 데이터 포맷들, 프로세서 구성들, 마이크로아키텍처 상세들, 연산들의 시퀀스들 등). 그러나, 실시예들은 이들 특정 상세 없이 실시될 수 있다. 다른 경우들에서, 잘 알려진 회로들, 구조들 및 기법들이 본 설명의 이해를 불명료하게 하지 않도록 하기 위해 상세하게 나타내지지 않았다.

도 1은 하나 이상의 연산 마스크 통합 명령어들(104)을 처리하기 위한 프로세서(100)의 예시적인 실시예의 블록도이다. 일부 실시예들에서, 프로세서는 (예를 들어, 데스크톱, 랩톱, 및 이와 같은 컴퓨터들에서 이용되는 타입의) 범용 프로세서일 수 있다. 대안적으로, 프로세서는 특수 목적 프로세서일 수 있다. 적절한 특수 목적 프로세서들의 예들은 몇몇 예를 들자면, 네트워크 프로세서들, 통신 프로세서들, 암호화 프로세서들, 그래픽 프로세서들, 코-프로세서들, 임베디드 프로세서들, 디지털 신호 프로세서들(DSP), 및 컨트롤러들을 포함하고, 이것으로 한정되지 않는다. 프로세서는 다양한 CISC(complex instruction set computing) 프로세서들, 다양한 RISC(reduced instruction set computing) 프로세서들, 다양한 VLIW(very long instruction word) 프로세서들, 그의 다양한 하이브리드들, 또는 다른 타입의 프로세서들 전체 중 임의의 것일 수 있다.

프로세서는 명령어 세트 아키텍처(instruction set architecture; ISA)(101)를 갖는다. ISA는 프로그래밍과 관련된 프로세서의 아키텍처의 일부를 나타내고, 프로세서의 네이티브 명령어들, 아키텍처 레지스터들, 데이터 타입들, 어드레싱 모드들, 메모리 아키텍처들 등을 보통 포함한다. ISA는 ISA를 구현하기 위해 선택된 특정 프로세서 설계 기법들을 일반적으로 나타내는 마이크로아키텍처와 구별된다.

ISA는 아키텍처 가시적(architecturally-visible) 레지스터들(예를 들어, 아키텍처 레지스터 파일)(105)을 포함한다. 아키텍처 레지스터들은 또한 본원에서 간단히 레지스터들이라고 불릴 수 있다. 달리 특정하게 또는 명백하게 되지 않는 한, 구절들 아키텍처 레지스터, 레지스터 파일, 및 레지스터는 본원에서 소프트웨어 및/또는 프로그래머에게 가시적인 레지스터들 및/또는 오퍼랜드들을 식별하기 위해 매크로명령어들 또는 어셈블리 언어 명령어들에 의해 특정되는 레지스터들을 가리키는 데 이용된다. 이 레지스터들은 주어진 마이크로아키텍처에서 다른 비-아키텍처 또는 비-아키텍처 가시적 레지스터들(예를 들어, 명령어들에 의해 이용되는 임시 레지스터들, 재정렬 버퍼들, 회수 레지스터들 등)과 대비된다. 레지스터들은 일반적으로 온-다이 프로세서 저장 장소들을 나타낸다. 예시된 아키텍처 레지스터들은 패킹된 데이터 레지스터들(106)을 포함한다. 패킹된 데이터 레지스터들 각각은 패킹된 또는 벡터 데이터를 저장하도록 동작 가능할 수 있다. 예시된 아키텍처 레지스터들은 또한 패킹된 데이터 연산 마스크 레지스터들(107)을 포함한다. 패킹된 데이터 연산 마스크 레지스터들 각각은 패킹된 데이터 연산 마스크를 저장하도록 동작 가능할 수 있다.

ISA는 명령어 세트(102)를 포함한다. 명령어 세트의 명령어들은 마이크로명령어들, 마이크로 오피들, 또는 매크로명령어들의 디코딩으로부터 생기는 것들과 달리, 실행을 위해 프로세서에 제공되는 매크로명령어들, 어셈블리 언어 명령어들, 또는 머신 레벨 명령어들을 나타낸다. 명령어 세트는 선택적으로 하나 이상의 종래의 마스킹된 패킹된 데이터 명령어들(103)을 포함한다. 앞서 언급한 패킹된 데이터 명령어들과 유사하게, 마스킹된 패킹된 데이터 명령어들(103) 각각은 프로세서로 하여금 하나 이상의 패킹된 데이터 오퍼랜드들의 데이터 요소들에 대해 패킹된 데이터 연산을 수행하게 하거나 또는 그러한 결과가 생기도록 동작 가능할 수 있다. 패킹된 데이터 오퍼랜드들은 패킹된 데이터 레지스터들(107)에 저장될 수 있다. 그러나, 마스킹된 패킹된 데이터 명령어들 각각은, 그것이 패킹된 데이터 프로세싱을 마스킹, 서술(predicate), 또는 조건부 제어하는, (예를 들어, 패킹된 데이터 연산 마스크 레지스터들(107) 내의) 하나 이상의 패킹된 데이터 연산 마스크들을 표시할 수 있다는 점에서 상이하다. 패킹된 데이터 연산 마스크들은 연산 마스크들, 서술 오퍼랜드들, 또는 조건부 연산 제어 오퍼랜드들을 표현할 수 있다.

명령어 세트는 또한 하나 이상의 연산 마스크 통합 명령어들(operation mask consolidation instructions)(104)을 포함한다. 연산 마스크 통합 명령어들은 프로세서로 하여금 통합된 연산 마스크들을 발생 및 저장하도록 할 수 있다. 적절한 명령어들/연산들의 특정 예들이 아래에서 더 논의될 것이다.

프로세서는 또한 실행 로직(108)을 포함한다. 실행 로직은 하나 이상의 연산 마스크 통합 명령어들(104)을 실행 또는 처리하도록 동작 가능하다. 일부 실시예들에서, 실행 로직은 이들 명령어들을 실행하기 위하여 특정 로직(예를 들어, 펌웨어와 잠재적으로 연결되는 특정 회로 또는 하드웨어)을 포함할 수 있다.

연산 마스크 통합 명령어들(104)을 더 논의하기 전에, 패킹된 데이터 연산 마스크들이 어떻게 이용될 수 있는지에 대한 몇가지 예들을 먼저 논의하는 것이 도움이 될 수 있다. 도 2a는 병합에 의해 마스킹된 패킹된 데이터 연산(203A)의 제1 예의 블록도이다. 마스킹된 패킹된 데이터 연산은 마스킹된 패킹된 데이터 명령어(예를 들어, 도 1의 마스킹된 패킹된 데이터 명령어(103))에 응답하여 또는 그의 결과로서 수행될 수 있다.

마스킹된 패킹된 데이터 명령어는 제1 소스 패킹된 데이터(209A) 및 제2 소스 패킹된 데이터(210A)를 표시할 수 있다. 다른 마스킹된 패킹된 데이터 명령어들(예를 들어, 패킹된 시프트 명령어)은 오직 단일 소스 패킹된 데이터, 또는 2개보다 많은 소스 패킹된 데이터를 표시할 수 있다. 예시에서, 제1 및 제2 소스 패킹된 데이터는 동일한 사이즈로 되어 있고, 동일한 폭의 데이터 요소들을 포함하고, 따라서, 요구되지 않더라도 각각은 동일한 수의 데이터 요소들을 포함한다. 예시에서, 제1 및 제2 소스 패킹된 데이터 각각은 16개의 데이터 요소들을 갖는다. 일 예로서, 요구되지 않더라도, 제1 및 제2 소스 패킹된 데이터는 각각 512-비트 폭일 수 있고, 각각 16개의 32-비트 더블워드 데이터 요소들을 포함할 수 있다. 2개의 소스 패킹된 데이터에서 동일한 상대 위치들에서의(예를 들어, 동일한 수직 위치들에서의) 소스 데이터 요소들은 대응하는 데이터 요소들의 쌍들을 표현한다. 데이터 요소들 각각은 데이터 요소를 표현하는 블록 내에 도시된 수치 값을 갖는다. 예를 들어, 제1 소스 패킹된 데이터의 (우측에 있는) 최하위 데이터 요소는 3의 값을 갖고, 제1 소스 패킹된 데이터의 최하위 데이터 요소의 옆에 있는 데이터 요소는 7의 값을 갖고, 등등이다.

명령어는 또한 소스 패킹된 데이터 연산 마스크(211A)를 표시한다. 연산 마스크는 패킹된 또는 벡터 연산을 서술 또는 조건부 제어하기 위한 서술 오퍼랜드(predicate operand) 또는 조건부 벡터 연산 제어 오퍼랜드를 표현한다. 패킹된 데이터 연산 마스크는 마스크 요소들, 서술 요소들, 또는 조건부 제어 요소들을 포함한다. 패킹된 데이터 연산 마스크들은 데이터 요소마다의 입도에서(at per-data element granularity) 패킹된 데이터 프로세싱을 마스킹 또는 조건부 제어하도록 동작 가능할 수 있다. 마스크 요소들은 하나 이상의 대응하는 소스 데이터 요소들과 일대일 대응 관계로 포함될 수 있다. 예를 들어, 예시로 도시된 바와 같이, 대응하는 소스 데이터 요소들의 각 쌍에 대해 하나의 그러한 마스크 요소가 존재할 수 있다. 연산 마스크들은 각각의 데이터 요소, 또는 대응하는 데이터 요소들의 쌍의 패킹된 데이터 프로세싱이 서로 별개로 그리고 독립적으로 서술 또는 조건부 제어될 수 있게 할 수 있다. 각각의 마스크 요소는 하나 이상의 대응하는 소스 패킹된 데이터 요소들에 대해 패킹된 데이터 연산을 마스킹하거나 마스킹하지 않도록 동작 가능할 수 있다. 예를 들어, 이 예에서, 각각의 마스크 요소는 대응하는 소스 패킹된 데이터 요소들의 쌍에 대해 연산을 마스킹할 수 있다.

예시로 도시된 바와 같이, 보통 각각의 마스크 요소는 단일 비트일 수 있다. 단일 비트는 2개의 상이한 가능성 중 어느 하나의 특정을 허용할 수 있다(예를 들어, 연산을 수행 대 연산을 수행하지 않음, 연산의 결과를 저장 대 연산의 결과를 저장하지 않음, 등등). 대안적으로, 2개보다 많은 상이한 옵션들 사이에서 선택하는 것이 요망되는 경우, 각각의 마스크 요소에 대해 2개 이상의 비트들이 이용될 수 있다. 예시에서, 패킹된 데이터 연산 마스크는 16개의 비트(즉, 0011100001101011)를 포함하고, 16개의 비트 각각은 제1 및 제2 소스 패킹된 데이터의 대응하는 데이터 요소들의 16개의 쌍 중 하나에 대한 순서화된 대응관계(ordered correspondence)를 갖는다. 예를 들어, (우측의) 최하위 마스크 비트는 대응하는 데이터 요소들의 최하위 쌍에 대응하고, (좌측의) 최상위 마스크 비트는 대응하는 데이터 요소들의 최상위 쌍에 대응하고, 등등이다.

예시된 마스킹된 패킹된 데이터 연산은 소스 패킹된 데이터 연산 마스크로부터의 마스킹, 서술, 또는 조건부 제어에 따라 패킹된 데이터 결과(212A)에 제1 및 제2 소스 패킹된 데이터로부터의 데이터 요소들의 대응하는 쌍들의 합들을 조건부 저장하기 위한 마스킹된 패킹된 데이터 덧셈 연산이다. 패킹된 데이터 연산 마스크(211A)의 16개의 마스크 비트들 각각은 세트되거나(즉, 1의 이진 값을 갖거나) 클리어된다(즉, 0의 이진 값을 갖는다). 예시된 관례에 따르면, 각각의 마스크 비트는 소스 패킹된 데이터 요소들의 대응하는 쌍에 대해 수행된 패킹된 데이터 연산(이 경우 덧셈)의 결과가 패킹된 데이터 결과(212A)의 대응하는 데이터 요소에 저장되게 하거나 하지 않도록 각각 세트(즉, 1) 또는 클리어(즉, 0)된다. 이들 세트된 비트들(즉, 1)은 마스킹되지 않은 비트들 또는 마스킹되지 않은 요소들을 표현하고, 이들 클리어된 비트들(즉, 0)은 마스킹된 비트들 또는 마스킹된 요소들을 표현한다. 예를 들어, 최하위 마스크 비트의 옆에 있는 마스크 비트는 세트(즉, 1)되고, 그 합(즉, 8 = 7 + 1)은 패킹된 데이터 결과의 대응하는 최하위 데이터 요소의 옆에 있는 데이터 요소에 저장된다. 예시에서, 그 합들은 밑줄 표시되어 있다.

반대로, 주어진 마스크 비트가 클리어(즉, 0)되면, 소스 데이터 요소들의 대응하는 쌍에 대한 패킹된 데이터 연산의 결과가 대응하는 결과 데이터 요소에 저장되지 않는다. 오히려, 예시에서, 제2 소스 패킹된 데이터로부터의 대응하는 데이터 요소의 값이 대응하는 결과 데이터 요소에 저장된다. 예를 들어, 패킹된 데이터 연산 마스크에서의 (좌측의) 최상위 비트는 클리어(즉, 0)되고, 제2 소스 패킹된 데이터로부터의 최상위 데이터 요소의 수치 값(즉, 15)은 최상위 결과 데이터 요소에 저장된다. 이러한 버전의 마스킹을 병합-마스킹(merging-masking)이라고 한다. 비트들은 결과들이 저장될 수 있도록 클리어(즉, 0)되거나, 결과들이 저장될 수 없도록 세트(즉, 1)되는 반대의 관례도 가능하다는 것을 알아야 한다.

일부 실시예들에서, 패킹된 데이터 연산은 대응하는 마스크 비트들이 세트 또는 클리어되는지에 상관없이 제1 및 제2 소스 패킹된 데이터의 데이터 요소들의 모든 대응하는 쌍에 대해 옵션으로 수행될 수 있지만, 패킹된 데이터 연산의 결과들은 마스크 비트들의 값들에 따라 패킹된 데이터 결과에 저장될 수 있거나 저장되지 않을 수 있다. 대안적으로, 다른 실시예에서, 패킹된 데이터 연산은 대응하는 마스크 비트가 연산 결과가 저장되지 않을 것임을 특정하는 경우에 옵션으로 생략될 수 있다(즉, 수행되지 않을 수 있다). 일부 실시예들에서, 예외(예를 들어, 예외 플래그) 또는 위반들은 마스크 오프(masked-off) 요소에 대한 패킹된 데이터 연산에 의해 옵션으로 억제되거나 발생하지 않을 수 있다. 일부 실시예들에서, 메모리 오퍼랜드를 갖는 마스킹된 패킹된 데이터 명령어들에 대해, 메모리 결함들은 마스크 오프 데이터 요소들에 대해 옵션으로 억제될 수 있다.

도 2b는 제로잉(zeroing)에 의한 마스킹된 패킹된 데이터 연산(203B)의 제2 대표적인 예시적인 실시예를 도시하는 블록도이다. 제로잉에 의한 마스킹된 패킹된 데이터 연산은 전술한 병합에 의한 마스킹된 패킹된 데이터 연산과 유사하다. 설명을 불명료하게 하는 것을 피하기 위해, 유사점은 반복하지 않을 것이고, 차이점을 주로 언급할 것이다. 하나의 주목할 만한 차이는, 대응하는 마스크 비트들이 마스크 오프(예를 들어, 0으로 클리어)될 때 대응하는 결과 데이터 요소들 내에 소스 패킹된 데이터(예를 들어, 도 2a의 제2 소스 패킹된 데이터(210A))의 데이터 요소들의 값들을 병합 또는 저장하는 대신에, 대응하는 결과 데이터 요소들이 제로 아웃된다(zeroed out). 예를 들어, 더블워드 결과 패킹된 데이터 요소의 모든 32-비트는 0의 값을 가질 수 있다. 이것을 제로잉-마스킹(zeroing-masking)이라고 한다. 대안적으로, 0 이외의 다른 미리 결정된 값들이 옵션으로 이용될 수 있다.

이것들은 마스킹된 패킹된 데이터 연산들의 몇가지 대표적인 예들일 뿐이다. 프로세서는 다양한 상이한 타입의 마스킹된 패킹된 데이터 연산들을 지원할 수 있다는 것을 알아야 한다. 다른 실시예들에서, 이것들은 오직 하나의 소스 패킹된 데이터, 2개보다 많은 소스 패킹된 데이터, 상이한 사이즈의 소스 패킹된 데이터, 상이한 데이터 요소 수의 소스 패킹된 데이터, 수평 또는 비-수직 정렬 방식으로 수행되는 연산들 등을 갖는 것들을 포함할 수 있다.

도 3은 연산 마스크 통합 명령어(304)의 실시예를 실행하도록 동작 가능한 실행 유닛(308)을 갖는 명령어 처리 장치(300)의 실시예의 블록도이다. 일부 실시예들에서, 명령어 처리 장치는 프로세서일 수 있고 및/또는 프로세서에 포함될 수 있다. 예를 들어, 일부 실시예들에서, 명령어 처리 장치는 도 1의 프로세서일 수 있거나 도 1의 프로세서에 포함될 수 있다. 대안적으로, 명령어 처리 장치는 유사한 또는 상이한 프로세서에 포함될 수 있다. 또한, 도 1의 프로세서는 유사한 또는 상이한 명령어 처리 장치를 포함할 수 있다.

장치(300)는 연산 마스크 통합 명령어(304)를 수신할 수 있다. 예를 들어, 명령어는 명령어 인출 유닛, 명령어 큐 등으로부터 수신될 수 있다. 연산 마스크 통합 명령어는 머신 코드 명령어, 어셈블리 언어 명령어, 매크로명령어, 또는 장치의 ISA의 제어 신호를 나타낼 수 있다. 연산 마스크 통합 명령어(304)는 소스 연산 마스크(311)를 명시적으로 특정하거나(예를 들어, 하나 이상의 필드들 또는 비트들의 세트를 통해), 또는 다른 방식으로 표시(예를 들어, 묵시적으로 표시)할 수 있고, 목적지 저장 장소(318)를 특정하거나 또는 다른 방식으로 표시할 수 있다. 일부 실시예들에서, 요구되지 않더라도, 명령어는 소스 연산 마스크와 목적지 저장 장소를 둘다 명시적으로 특정할 수 있다. 예를 들어, 일 실시예의 연산 마스크 통합 명령어는 명령어 포맷 KConsol K1, K2을 가질 수 있고, 여기서 KConsol은 오피코드를 표시하고, K1은 목적지 패킹된 데이터 연산 마스크 레지스터를 특정하고, K2는 소스 패킹된 데이터 연산 마스크 레지스터를 특정한다. 일부 실시예들에서, 소스 연산 마스크(311)는 마스킹된 요소들(예를 들어, 0으로 클리어된 마스크 비트들), 및 마스킹되지 않은 요소들(예를 들어, 1로 세트된 마스크 비트들)을 포함할 수 있고, 마스킹된 요소들 중 적어도 일부는 마스킹되지 않은 요소들 중 적어도 일부 내에 산재되거나(interspersed) 또는 다른 방식으로 배치될 수 있다. 이것의 예들은, 몇가지 구체적인 예만을 제공하면, 01010101, 00101000, 11100111, 01100101, 및 11000011을 포함하며, 분명히 이것으로 한정되지 않는다.

일부 실시예들에서, 소스 연산 마스크(311)는 명령어에 의해 특정되거나 다른 방식으로 표시될 수 있는 소스 패킹된 데이터 연산 마스크 레지스터(316)에 저장될 수 있다. 패킹된 데이터 연산 마스크 레지스터(316)는 패킹된 데이터 연산 마스크 레지스터들(307)의 세트 중 하나일 수 있다. 유사하게, 일부 실시예들에서, 목적지 저장 장소(317)는 패킹된 데이터 연산 마스크 레지스터들(307) 중에 있을 수 있다. 일부 실시예들에서, 목적지 저장 장소는 소스 패킹된 데이터 연산 마스크 레지스터(316)와 동일하거나 또는 상이한 레지스터일 수 있다. 패킹된 데이터 연산 마스크 레지스터들은 공지된 기법들을 이용하여 상이한 마이크로아키텍처들에서 상이한 방식들로 구현될 수 있고, 임의의 공지된 특정 타입의 회로로 한정되지 않는다. 적절한 타입의 레지스터들의 예들은 전용 물리적 레지스터들, 레지스터 재명명을 이용하여 동적으로 할당되는 물리적 레지스터들, 및 그의 조합들을 포함하며, 이것으로 한정되지 않는다.

예시된 명령어 처리 장치는 디코드 유닛 또는 디코더(315)를 포함한다. 명령어 디코더는 매크로명령어들, 머신 코드 명령어들, 어셈블리 언어 명령어들, 또는 다른 비교적 더 높은 레벨의 명령어들을 수신하여 디코딩하고, 수신된 더 높은 레벨의 명령어들을 반영하고, 표현하고, 및/또는 그로부터 도출되는 하나 이상의 마이크로명령어들, 마이크로 연산들, 마이크로 코드 엔트리 포인트들, 또는 다른 비교적 더 낮은 레벨의 명령어들 또는 제어 신호들을 출력한다. 하나 이상의 더 낮은 레벨의 명령어들 또는 제어 신호들은 하나 이상의 더 낮은 레벨(예를 들어, 회로 레벨 또는 하드웨어 레벨) 연산들을 통해 더 높은 레벨의 명령어를 구현할 수 있다. 디코더는 마이크로코드 ROM(read only memory), 룩업 테이블, 하드웨어 구현들, PLA(programmable logic array), 및 이 기술분야에 알려진 디코더들을 구현하는 데 이용되는 다른 메커니즘들(이것들로 한정되지 않음)을 포함하는 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다.

다른 실시예들에서, 명령어 에뮬레이터, 트랜슬레이터, 모퍼(morpher), 인터프리터, 또는 다른 명령어 변환 로직이 이용될 수 있다. 다양한 상이한 타입의 명령어 변환 로직이 이 기술분야에 알려져 있고, 소프웨어, 하드웨어, 펌웨어, 또는 그의 조합으로 구현될 수 있다. 명령어 변환 로직은 명령어를 수신하고, 그 명령어를 하나 이상의 대응하는 도출된 명령어들 또는 제어 신호들로 에뮬레이트, 트랜슬레이트, 모프, 인터프리트, 또는 다른 방식으로 변환할 수 있다. 다른 실시예들에서, 명령어 변환 로직과 디코더 양자가 이용될 수 있다. 예를 들어, 장치는 수신된 머신 코드 명령어를 하나 이상의 중간 명령어들로 변환하는 명령어 변환 로직, 및 하나 이상의 중간 명령어들을 장치의 네이티브 하드웨어(예를 들어, 실행 유닛)에 의해 실행 가능한 하나 이상의 더 낮은 레벨의 명령어들 또는 제어 신호들로 디코딩하는 디코더를 가질 수 있다. 명령어 변환 로직 중 일부 또는 전부가 예를 들어, 별개의 다이 상에 및/또는 메모리 내와 같은, 명령어 처리 장치 외부에 배치될 수 있다.

다시 도 3을 참조하면, 실행 유닛(308)은 디코드 유닛(315)과, 소스 패킹된 데이터 연산 마스크(311)와, 목적지 저장 장소(317)와 연결된다. 실행 유닛은 연산 마스크 통합 명령어(304)를 표현하고 및/또는 그로부터 도출되는 하나 이상의 디코딩된 또는 다른 방식으로 변환된 명령어들 또는 제어 신호들을 수신할 수 있다. 앞서 언급한 바와 같이, 소스 연산 마스크(311)는 마스킹된 요소들, 및 마스킹되지 않은 요소들을 포함할 수 있고, 마스킹된 요소들 중 적어도 일부는 마스킹되지 않은 요소들 중 적어도 일부 내에 산재되거나(interspersed) 또는 다른 방식으로 배치될 수 있다. 일부 실시예들에서, 실행 유닛은 연산 마스크 통합 명령어(304)에 응답하여 및/또는 그의 결과로서 목적지 저장 장소(317)에 통합된 연산 마스크(318)를 저장하도록 동작 가능할 수 있다. 일부 실시예들에서, 통합된 연산 마스크는 함께 수집된, 합쳐진, 서로 인접하게 된, 또는 다른 방식으로 함께 통합된 소스 연산 마스크로부터의 마스킹되지 않은 요소들을 포함할 수 있다. 일부 실시예들에서, 통합된 연산 마스크에서는, 소스 연산 마스크로부터의 마스킹되지 않은 요소들 전부의 통합된 세트 사이에 산재되거나 배치된 마스킹된 요소들이 존재하지 않을 수 있다. 즉, 마스킹된 요소들은 마스킹되지 않은 요소들 사이에서 멀리 이동하거나 다른 방식으로 마스킹되지 않은 요소들 사이에서 제거될 수 있다.

일부 실시예들에서, 마스킹된 및 마스킹되지 않은 요소들 각각은 상이한 단일 마스크 비트일 수 있고, 예를 들어, 각각의 마스킹된 요소는 이진 0의 값을 갖는(즉, 0으로 클리어된) 단일 비트일 수 있는 반면, 각각의 마스킹되지 않은 요소는 이진 1의 값을 갖는(즉, 1로 세트된) 단일 비트일 수 있다. 일부 실시예들에서, 실행 유닛은 통합된 연산 마스크 또는 레지스터의 최하위 부분에서 소스 연산 마스크로부터의 마스킹되지 않은 요소들을 함께 통합하도록 동작 가능할 수 있다. 대안적으로, 일부 실시예들에서, 실행 유닛은 통합된 연산 마스크 또는 레지스터의 최상위 부분에서 소스 연산 마스크로부터의 마스킹되지 않은 요소들을 함께 통합하도록 동작 가능할 수 있다. 일부 실시예들에서, 연산 마스크 통합 명령어는 소스 연산 마스크로부터의 마스킹되지 않은 요소들이 통합된 연산 마스크 또는 레지스터의 최하위 또는 최상위 부분에서 통합되는지를 표시하도록 동작 가능할 수 있다. 예를 들어, 일부 실시예들에서, 연산 마스크 통합 명령어는 마스킹되지 않은 요소들이 최하위 부분에서 함께 통합됨을 표시하는 제1 값(0의 단일 비트 이진 값), 또는 마스킹되지 않은 요소들이 최상위 부분에서 함께 통합됨을 표시하는 제2 값(1의 단일 비트 이진 값)을 가질 수 있는 하나 이상의 비트들을 포함할 수 있다. 예를 들어, 일 실시예의 연산 마스크 통합 명령어는 명령어 포맷 KConsol K1, K2, 순서(order)를 가질 수 있고, 여기서 KConsol은 오피코드를 표시하고, K1은 목적지 패킹된 데이터 연산 마스크 레지스터를 특정하고, K2는 소스 패킹된 데이터 연산 마스크 레지스터를 특정하고, 순서는 통합이 연산 마스크의 최하위 또는 최상위 비트에 대한 것인지를 표시하기 위한 하나 이상의 비트들을 포함한다.

실행 유닛 및/또는 명령어 처리 장치는 연산 마스크 통합 명령어를 실행하고 연산 마스크 통합 명령어에 응답하여(예를 들어, 연산 마스크 통합 명령어로부터 디코딩되거나 다른 방식으로 도출된 하나 이상의 명령어들 또는 제어 신호들에 응답하여) 통합된 연산 마스크를 저장하도록 동작 가능한 특정 또는 특수 로직(예를 들어, 펌웨어 및/또는 소프트웨어와 잠재적으로 연결되는 회로 또는 다른 하드웨어)을 포함할 수 있다. 예시적으로, 실행 유닛은 논리적 유닛, 산술 논리 유닛, 논리 연산들을 수행하는 디지털 회로, 연산 마스크 통합 로직을 포함하는 실행 또는 기능 유닛 등을 포함할 수 있다.

설명을 불명료하게 하는 것을 피하기 위하여, 비교적 간단한 명령어 처리 장치(300)가 도시되고 설명되었다. 다른 실시예들에서, 장치는 프로세서들에서 발견되는 다른 공지된 컴포넌트들을 옵션으로 포함할 수 있다. 그러한 컴포넌트들의 예들은 분기 예측 유닛, 명령어 인출 유닛, 명령어 및 데이터 캐시들, 명령어 및 데이터 변환 색인 버퍼들, 사전 인출 버퍼들, 마이크로명령어 큐들, 마이크로명령어 시퀀서들, 레지스터 재명명 유닛, 명령어 스케줄링 유닛, 버스 인터페이스 유닛들, 제2 또는 더 높은 레벨의 캐시들, 회수 유닛, 프로세서들에 포함된 다른 컴포넌트들, 및 그의 다양한 조합들을 포함하고, 이것으로 한정되지 않는다. 프로세서들 내의 컴포넌트들의 사실상 다수의 상이한 조합들 및 구성들이 존재하고, 실시예들은 임의의 특정 조합 또는 구성으로 한정되지 않는다. 실시예들은 복수의 코어들을 갖는 프로세서들에 포함될 수 있고, 논리적 프로세서들, 또는 실행 엔진들에 포함될 수 있고, 이 중 적어도 하나는 본 명세서에 개시된 명령어의 실시예를 실행하도록 동작 가능한 실행 로직을 갖는다.

도 4a는 최하위 위치 명령어에 대한 연산 마스크 통합의 예시적인 실시예에 응답하여 및/또는 그의 결과로서 수행될 수 있는 최하위 위치 연산(404A)에 대한 연산 마스크 통합의 예시적인 실시예의 블록도이다. 명령어는 소스 연산 마스크(411A) 및 목적지(예를 들어, 목적지 저장 장소)를 명시적으로 특정하거나 또는 다른 방식으로 표시(예를 들어, 묵시적으로 표시)할 수 있다. 예시된 실시예에서, 소스 연산 마스크는 8-비트 폭이다. 다른 실시예들에서, 소스 연산 마스크는 더 좁거나(예를 들어, 4-비트) 또는 더 넓을 수 있다(예를 들어, 16-비트, 32-비트, 64-비트, 또는 훨씬 더 넓을 수 있다). 일부 양태들에서, 연산 마스크의 폭은 대응하는 패킹된 데이터 폭 및 데이터 요소 폭에 의존할 수 있다(예를 들어, 도 8 및 도 10의 논의를 참조한다). 일부 실시예들에서, 소스 연산 마스크는 연산 마스크 레지스터에 포함될 수 있고, 서술을 위해 활성이고, 의미 있고, 및/또는 이용되는, 레지스터의 비트들의 서브세트(예를 들어, 최하위 서브세트)를 표현할 수 있다. 이와 달리, 레지스터의 비트들의 다른 서브세트(예를 들어, 최상위 나머지 부분)는 서술을 위해 비활성이고, 의미가 없고, 및/또는 이용되지 않을 수 있다. 일부 실시예들에서, 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치된 복수의 마스킹된 요소들을 포함할 수 있다. 예를 들어, 예시에서, 소스 연산 마스크는 (우측의) 최하위 비트-0으로부터 (좌측의) 최상위 비트-7까지, 비트 값들 0, 0, 1, 1, 0, 0, 1, 1을 포함한다. 이 데이터는 일 예일 뿐이고, 명령어/연산은 소스 연산 마스크에서의 마스킹된 및 마스킹되지 않은 요소들의 배열에 상관없이 작용한다. 다수의 가능한 배열들 중 사실상 임의의 다른 배열도 작용할 것이다. 예시된 관례에 따르면, 세트된 또는 "1" 비트 값들은 마스킹되지 않은 비트들을 표현하는 반면, 클리어된 또는 "0" 비트 값들은 마스킹된 비트들을 표현한다. 대안적인 실시예에서, 반대의 관례가 그 대신에 이용될 수 있다. 또한, 다른 실시예들에서, (예를 들어, 2 비트, 또는 대응하는 패킹된 데이터 요소들의 폭을 갖는) 멀티-비트 마스크 요소들이 옵션으로 이용될 수 있다.

통합된 연산 마스크(418A)의 실시예는 명령어에 응답하여 및/또는 그의 결과로서 목적지에 저장될 수 있다. 일부 실시예들에서, 통합된 연산 마스크는 목적지에서 함께 수집되거나 다른 방식으로 통합된 소스 연산 마스크(411A)로부터의 마스킹되지 않은 요소들(예를 들어, 예시된 관례에 따라 세트된 비트들 또는 "1" 비트 값들)을 포함할 수 있다. 예를 들어, 명령어/연산의 이러한 최하위 위치 버전에서, 모든 마스킹되지 않은 요소들(예를 들어, 예시된 관례에 따라 세트된 또는 "1" 비트 값들), 이 경우 4개 전부가 통합된 연산 마스크 및/또는 목적지의 최하위 비트들, 이 경우 최하위 4-비트에 저장된다. 특히, 통합된 연산 마스크는 (우측의) 최하위 비트-0으로부터 (좌측의) 최상위 비트-7까지, 비트 값들 1, 1, 1, 1, 0, 0, 0, 0을 포함한다. 이를 실현하기 위하여, 라우팅, 복사, 선택, 또는 그의 일부 조합을 통하거나, 또는 다른 방식으로 이들 마스킹되지 않은 요소들을 이동 또는 재배열하는 것을 포함하여 다양한 방법들이 고려된다. 일부 실시예들에서, 소스 연산 마스크로부터의 마스킹된 요소들(예를 들어, 예시된 관례에 따라 클리어된 비트들 또는 "0" 비트 값들)은 단지 폐기 또는 삭제될 수 있고, 목적지에 전달될 필요가 없을 수 있다. 소스 연산 마스크의 마스킹되지 않은 비트들의 총 개수보다 더 유효한(more significant) 비트들은 단지 목적지에서 제로 아웃될 수 있다. 즉, 임의의 폐기된 마스킹된 요소들(예를 들어, 클리어된 비트들 또는 "0" 비트 값들)은 대체 마스킹된 요소들(예를 들어, 클리어된 비트들 또는 "0" 비트 값들)로 채워질 수 있다. 대안적으로, 다른 실시예들에서, 소스 연산 마스크로부터의 마스킹된 요소들은 마스킹되지 않은 요소들보다 더 높은 차수의 위치들로 이동하거나 재배열될 수 있다.

도 4b는 최상위 위치 명령어에 대한 연산 마스크 통합의 예시적인 실시예에 응답하여 및/또는 그의 결과로서 수행될 수 있는 최상위 위치 연산(404B)에 대한 연산 마스크 통합의 예시적인 실시예의 블록도이다. 많은 특징 및 특성이 도 4a에 대해 전술한 것들과 유사하거나 동일하다. 설명을 불명료하게 하는 것을 피하기 위해, 상이한 또는 부가적인 특징들 및 특성들에 대한 논의가 주로 강조될 것이다. 이전과 같이, 명령어는 소스 연산 마스크(411B) 및 목적지(예를 들어, 목적지 저장 장소)를 명시적으로 특정하거나 또는 다른 방식으로 표시(예를 들어, 묵시적으로 표시)할 수 있다. 이전과 같이, 통합된 연산 마스크(418B)의 실시예가 명령어에 응답하여 및/또는 그의 결과로서 목적지에 저장될 수 있다. 이전과 유사하게, 일부 실시예들에서, 통합된 연산 마스크는 목적지에서 함께 통합된 소스 연산 마스크(411B)로부터의 마스킹되지 않은 요소들(예를 들어, 예시된 관례에 따라 세트된 비트들 또는 "1" 비트 값들)을 포함할 수 있다. 그러나, 명령어/연산의 이러한 최상위 위치 버전에서, 모든 4개의 마스킹되지 않은 요소들(예를 들어, 예시된 관례에 따라 세트된 또는 "1" 비트 값들)은 통합된 연산 마스크의 최고 차수 또는 최상위 4-비트에 저장된다. 특히, 통합된 연산 마스크는 (우측의) 최하위 비트-0으로부터 (좌측의) 최상위 비트-7까지, 비트 값들 0, 0, 0, 0, 1, 1, 1, 1을 포함한다.

이것들은 적절한 연산 마스크 통합 연산들의 몇가지 구체적인 예들일 뿐이다. (우측의) 최하위 비트-0로부터 (좌측의) 최상위 비트-7까지, (좌측의) 적절한 시작하는 8-비트 연산 마스크들, 및 (우측의) 결과적인 통합된 연산 마스크들의 다른 예들은 다음의 것을 포함하고, 이것으로 한정되지 않는다:

다른 실시예들은 16-비트 연산 마스크들에 대해 동작하는 연산 마스크 통합 명령어들/연산들에 관한 것이다. 예를 들어, (우측의) 최하위 비트-0로부터 (좌측의) 최상위 비트-7까지, (좌측의) 적절한 시작하는 16-비트 연산 마스크들, 및 (우측의) 결과적인 통합된 16-비트 연산 마스크들의 다른 예들은 다음의 것을 포함하고, 이것으로 한정되지 않는다:

또 다른 실시예들은 64-비트 연산 마스크들, 또는 다른 수의 비트들을 갖는 연산 마스크들에 대해 동작하는 연산 마스크 통합 명령어들/연산들에 관한 것이다. 또한, 원하는 경우, 최하위 또는 최상위 비트에서 시작하는 대신에 중간(예를 들어, 중앙 또는 중심) 위치로의 통합이 옵션으로 이용될 수 있다.

도 5는 연산 마스크 통합 명령어의 실시예를 처리하는 방법(530)의 실시예의 블록 흐름도이다. 다양한 실시예들에서, 방법은 범용, 특수 목적 프로세서, 또는 다른 명령어 처리 장치 또는 디지털 로직 장치에 의해 수행될 수 있다. 일부 실시예들에서, 도 5의 동작들 및/또는 방법은 도 1의 프로세서 및/또는 도 3의 장치에 의해 및/또는 그 안에서 수행될 수 있다. 도 1의 프로세서 및 도 3의 장치에 대해 본 명세서에 설명된 컴포넌트들, 특징들, 및 특정 선택적 상세들은 도 5의 동작들 및/또는 방법에도 선택적으로 적용된다. 대안적으로, 도 5의 동작들 및/또는 방법은 유사한 또는 완전히 상이한 프로세서 또는 장치에 의해 및/또는 그 안에서 수행될 수 있다. 또한, 도 1의 프로세서 및/또는 도 3의 장치는 도 5와 동일하거나, 유사하거나, 상이한 동작들 및/또는 방법들을 수행할 수 있다.

방법은 블록(531)에서 연산 마스크 통합 명령어를 수신하는 것을 포함한다. 다양한 양태들에서, 명령어는 프로세서, 명령어 처리 장치, 또는 그의 일부(예를 들어, 명령어 인출 유닛, 디코더, 명령어 변환기 등)에서 수신될 수 있다. 다양한 양태들에서, 명령어는 오프-다이 소스로부터(예를 들어, 메인 메모리, 디스크, 또는 인터커넥트로부터), 또는 온-다이 소스로부터(예를 들어, 명령어 인출 유닛 또는 명령어 캐시로부터) 수신될 수 있다. 연산 마스크 통합 명령어는 소스 연산 마스크 및 목적지 저장 장소를 특정하거나 또는 다른 방식으로 표시할 수 있다. 일부 실시예들에서, 소스 연산 마스크는 복수의 마스킹되지 않은 요소들(예를 들어, 이진 1로 세트된 마스크 비트들) 내에 배치된 복수의 마스킹된 요소들(예를 들어, 이진 0으로 클리어된 마스크 비트들)을 포함할 수 있다.

블록(532)에서, 통합된 연산 마스크가 연산 마스크 통합 명령어에 응답하여 및/또는 그의 결과로서 목적지 저장 장소에 저장될 수 있다. 대표적으로, 실행 유닛, 명령어 처리 장치, 또는 프로세서가 명령어에 의해 특정된 연산을 수행하고 그 결과를 저장할 수 있다. 일부 실시예들에서, 통합된 연산 마스크는 함께 통합된 소스 연산 마스크로부터의 마스킹되지 않은 요소들을 포함할 수 있다.

일부 실시예들에서, 통합된 연산 마스크에서는 마스킹되지 않은 요소들 사이에 배치된 마스킹된 요소들이 존재하지 않을 수 있다. 일부 실시예들에서, 마스킹되지 않은 요소들은 통합된 연산 마스크 또는 레지스터의 최하위 부분에서 통합될 수 있다. 대안적으로, 마스킹되지 않은 요소들은 통합된 연산 마스크 또는 레지스터의 최상위 부분에서 통합될 수 있다. 일부 실시예들에서, 연산 마스크 통합 명령어는 (예를 들어, 하나 이상의 비트들 또는 필드를 통해) 최하위 또는 최상위 부분이 이용될 것인지를 표시하도록 동작 가능할 수 있다.

예시된 방법은 아키텍처 가시적 연산들(예를 들어, 소프트웨어 관점에서 가시적인 것들)을 수반한다. 다른 실시예들에서, 방법은 하나 이상의 마이크로아키텍처 연산들을 옵션으로 포함할 수 있다. 예시적으로, 명령어는 비순차적으로 인출, 디코딩, 스케줄링될 수 있고, 소스 오퍼랜드들은 액세스될 수 있고, 실행 유닛 또는 로직은 수행하도록 인에이블될 수 있고, 명령어를 구현하기 위해 마이크로아키텍처 연산들을 수행할 수 있으며, 결과들은 프로그램 순서로 재정렬되어 커밋될 수 있고, 등등이다. 연산을 수행하는 상이한 마이크로아키텍처 방식들이 고려된다.

도 6은 연산 마스크 통합 명령어에 대한 적절한 명령어 포맷(634)의 실시예의 블록도이다. 명령어 포맷은 연산 코드 또는 오피코드(635)를 포함한다. 오피코드는 수행될 명령어 및/또는 연산을 식별하도록 동작 가능한 복수의 비트들 또는 하나 이상의 필드들을 표현할 수 있다. 명령어 포맷은 또한 소스 연산 마스크를 특정하기 위한 필드(636), 및 목적지 저장 장소를 특정하기 위한 필드(637)를 포함한다. 예시적으로, 이들 특정자들 각각은 레지스터, 메모리 장소, 또는 다른 저장 장소의 어드레스를 특정하기 위한 비트들 또는 하나 이상의 필드들을 포함할 수 있다. 일부 실시예들에서, 이것들 각각은 잠재적으로 동일한 또는 잠재적으로 상이한 패킹된 데이터 연산 마스크 레지스터를 표시할 수 있다. 하나의 특정 실시예에서, 이것들 각각은 8개의 패킹된 데이터 연산 마스크 레지스터 중 하나를 선택하기 위해 3-비트를 포함할 수 있다. 다른 실시예들에서, 단일 필드를 이용하여 목적지로서도 이용되는 단일 소스를 표시할 수 있다. 또 다른 실시예들에서, 묵시적 소스 및/또는 묵시적 목적지가 옵션으로 이용될 수 있다. 일부 실시예들에서, 포맷은 또한 옵션으로 가장 낮은 차수 또는 가장 높은 차수 선택을 표시하기 위해 하나 이상의 비트들 또는 필드(638)를 포함할 수 있다. 이것은 마스킹되지 않은 요소들이 마스크의 가장 높은 또는 가장 낮은 차수 부분에 대해 통합되는지를 표시할 수 있다. 대안적인 실시예들은 특정자들의 서브세트를 포함할 수 있고, 부가적인 필드들을 추가할 수 있고, 특정 필드들을 중첩할 수 있고, 등등이다. 필드들의 예시된 순서/배열은 요구되지 않고, 오히려 필드들은 재배열될 수 있다. 필드들은 비트들의 연속 시퀀스들을 포함할 필요가 없고, 오히려 불연속 또는 분리된 비트들로 이루어질 수 있다.

본 명세서에 개시된 연산 마스크 통합 명령어들은 범용 명령어들이고, 일반적인 활용성을 갖는다. 예를 들어, 이들 연산 마스크 조작 명령어/연산들은 특정 애플리케이션, 알고리즘, 또는 코드를 위해 이용되고 희망되는 다양한 상이한 방법들로 연산 마스크들을 통합 또는 다른 방식으로 조작하기 위하여, 단독으로 또는 다른 명령어들과 연결하여, 이용될 수 있다.

일부 실시예들에서, 연산 마스크 통합 명령어들/연산들은 코드의 벡터화를 돕는 데 이용될 수 있다. 예를 들어, 컴파일러가 연산 마스크 통합 명령어들/연산들을 이용하여 기저의 코드가 연산 마스크에서 마스킹되지 않은 값들에 대해서만 동작하는 코드의 자동-벡터화(auto-vectorize)를 도울 수 있다. 일부 실시예들에서, 연산 마스크 통합 명령어들/연산들은 조건부 루프 증분 코드의 자동-벡터화를 용이(예를 들어, 루프의 복수의 반복들 동안 카운터 값들의 조건부 자동 증분을 가속화 또는 촉진)하게 하는 데 이용될 수 있다. 조건부 루프 증분 연산들은 컴파일러에 자동-벡터화하도록 요구하는 경향이 있다. 예시적으로, 예를 들어, 값들 1, 2, 3, 4, 5, 6, 7, 8과 같은 증분 카운트는 제1 레지스터에 포함될 수 있다. 예를 들어, 값들 0, 0, 0, 0, 1, 1, 1, 1을 포함하는 통합된 마스크는 제2 레지스터에 포함될 수 있다. 통합된 마스크에서의 값들 각각은 루프의 상이한 반복을 표현할 수 있다. 4개의 세트된 마스크 비트들의 존재는 각각의 증분을 거칠 필요 없이 효율적으로 루프에서의 카운터 또는 변수를 증분하는 데 이용될 수 있는 제1 레지스터로부터 값 4를 효율적으로 선택하는 데 이용될 수 있다. 그러한 조건들은 보통 고성능 컴퓨팅 애플리케이션들에서, 그리고 더욱 일반적으로 일어난다. 그러한 향상된 벡터화는 넓은 벡터 폭의 활용을 증가시키고, 성능을 증가시키고, 전력 소비를 감소시키는 데 도움이 될 수 있다. 그것은 또한 쓰레드당 성능(per-thread performance)을 증가시키는 데 도움이 될 수 있다.

대안적으로, 명령어들/연산들은 증가된 벡터화들을 활성화시키는 것 외에도 다른 목적들을 위해 사용될 수 있다. 일부 실시예들에서, 연산 마스크 통합 명령어들/연산들은 마스킹되지 않은 요소들을 재배열하는 데에 사용되어 그들이 더 쉽게 또는 더 빠르게 카운트하거나 아니면 처리하게 할 수 있다(예를 들면, 마스크되지 않은 요소들의 전체 수를 카운트 또는 식별). 또 다른 실시예들에서, 연산 마스크 통합 명령어들/연산들은 다른 명령어들에 의한 사용 또는 소비를 위해 연산 마스크를 조작하는 데에 사용될 수 있다(예를 들면, 다른 연산 마스크 조작 명령어들, 마스킹된 패킹된 데이터 명령어들 등). 그러나, 본원 발명의 범위는 단지 이러한 특정 사용들에 제한되지 않는다. 다른 사용들이 본 개시에 기초하여 당업자들에게 명백해질 것이다.

도 7은 패킹된 데이터 레지스터들(706)의 적절한 세트의 예시적인 실시예의 블록도이다. 예시된 패킹된 데이터 레지스터들은 32개의 512-비트 폭 패킹된 데이터 또는 벡터 레지스터들을 포함한다. 이들 32개의 512-비트 폭 레지스터들은 ZMM0 내지 ZMM31로 라벨링된다. 예시된 실시예에서, 이들 레지스터들 중 하위 16개, 즉 ZMM0-ZMM15의 하위 256-비트들은 YMM0-YMM15로 라벨링된 각각의 256-비트 폭 패킹된 데이터 또는 벡터 레지스터들에, 요구되지 않더라도, 에일리어싱(aliased) 또는 오버레이된다. 마찬가지로, 예시된 실시예에서, YMM0-YMM15의 하위 128-비트들은 XMM0-XMM1로 라벨링된 각각의 128-비트 패킹된 데이터 또는 벡터 레지스터들에, 요구되지 않더라도, 에일리어싱 또는 오버레이된다. 512-비트 폭 레지스터들 ZMM0 내지 ZMM31은 512-비트 패킹된 데이터, 256-비트 패킹된 데이터, 또는 128-비트 패킹된 데이터를 홀드하도록 동작 가능하다. 256-비트 폭 레지스터들 YMM0-YMM15은 256-비트 패킹된 데이터, 또는 128-비트 패킹된 데이터를 홀드하도록 동작 가능하다. 128-비트 폭 레지스터들 XMM0-XMM1은 128-비트 패킹된 데이터를 홀드하도록 동작 가능하다. 레지스터들 각각은 패킹된 부동 소수점 데이터 또는 패킹된 정수 데이터를 저장하는 데 이용될 수 있다. 적어도 8-비트 바이트 데이터, 16-비트 워드 데이터, 32-비트 더블워드 또는 단정밀도 부동 소수점 데이터, 및 64-비트 쿼드워드 또는 배정밀도 부동 소수점 데이터를 포함한 상이한 데이터 요소 사이즈들이 지원된다. 패킹된 데이터 레지스터들의 대안적인 실시예들은 상이한 수의 레지스터들, 상이한 사이즈의 레지스터들을 포함할 수 있고, 더 작은 레지스터들에 더 큰 레지스터들을 에일리어싱할 수 있거나 하지 않을 수 있다.

적절한 패킹된 데이터 포맷의 일 예는 256-비트 폭이고 16개의 16-비트 워드 데이터 요소들을 포함하는 256-비트 패킹된 워드 포맷이다. 다른 예는 256-비트 폭이고 8개의 32-비트 더블워드(dword) 데이터 요소들을 포함하는 256-비트 패킹된 더블워드 포맷이다. 또 다른 예는 256-비트 폭이고 4개의 64-비트 쿼드워드 데이터 요소들을 포함하는 256-비트 패킹된 쿼드워드 포맷이다. 다른 패킹된 데이터 포맷들도 적절하다. 예를 들어, 다른 적절한 256-비트 패킹된 데이터 포맷들은 256-비트 패킹된 8-비트 바이트 포맷, 256-비트 패킹된 32-비트 단정밀도 부동 소수점 포맷, 및 256-비트 패킹된 64-비트 배정밀도 부동 소수점 포맷을 포함한다. 또한, 256-비트보다 크거나 및/또는 작은 패킹된 데이터 포맷들도 적절하다. 예를 들어, 전술한 데이터 타입들의 512-비트(또는 더 큰) 패킹된 데이터 포맷들 및/또는 128-비트(또는 더 작은) 패킹된 데이터 포맷들도 적절하다. 일반적으로, 512-비트 패킹된 데이터 포맷들은 동일한 데이터 타입에 대해 256-비트 패킹된 데이터 포맷들의 2배의 데이터 요소들을 가질 수 있고, 128-비트 패킹된 데이터 포맷들은 동일한 데이터 타입에 대해 256-비트 패킹된 데이터 포맷들의 절반의 데이터 요소들을 가질 수 있다. 일반적으로, 패킹된 데이터 요소들의 수는 패킹된 데이터 요소들의 비트들의 사이즈에 의해 나누어진 패킹된 데이터의 비트들의 사이즈와 동일하다.

도 8은 패킹된 데이터 연산 마스크 비트들(840)의 수가 패킹된 데이터 폭 및 패킹된 데이터 요소 폭에 의존함을 예시하는 표이다. 128-비트, 256-비트, 및 512-비트의 패킹된 데이터 폭들이 도시되지만, 다른 폭들도 가능하다. 8-비트 바이트들, 16-비트 워드들, 32-비트 더블워드들(dwords) 또는 단정밀도 부동 소수점, 및 64-비트 쿼드워드들(Qwords) 또는 배정밀도 부동 소수점의 패킹된 데이터 요소 폭들이 고려되지만, 다른 폭들도 가능하다.

도시된 바와 같이, 패킹된 데이터 폭이 128-비트일 때, 패킹된 데이터 요소 폭이 8-비트인 경우 마스킹을 위해 16-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 16-비트인 경우 마스킹을 위해 8-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 32-비트인 경우 마스킹을 위해 4-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 64-비트인 경우 마스킹을 위해 2-비트가 이용될 수 있다. 패킹된 데이터 폭이 256-비트일 때, 패킹된 데이터 요소 폭이 8-비트인 경우 마스킹을 위해 32-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 16-비트인 경우 마스킹을 위해 16-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 32-비트인 경우 마스킹을 위해 8-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 64-비트인 경우 마스킹을 위해 4-비트가 이용될 수 있다. 패킹된 데이터 폭이 512-비트일 때, 패킹된 데이터 요소 폭이 8-비트인 경우 마스킹을 위해 64-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 16-비트인 경우 마스킹을 위해 32-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 32-비트인 경우 마스킹을 위해 16-비트가 이용될 수 있고, 패킹된 데이터 요소 폭이 64-비트인 경우 마스킹을 위해 8-비트가 이용될 수 있다.

도 9는 패킹된 데이터 연산 마스크 레지스터들(907)의 적절한 세트의 예시적인 실시예의 블록도이다. 패킹된 데이터 연산 마스크 레지스터들 각각은 패킹된 데이터 연산 마스크를 저장하는 데 이용될 수 있다. 예시된 실시예에서, 세트는 k0 내지 k7로 라벨링된 8개의 패킹된 데이터 연산 마스크 레지스터들을 포함한다. 대안적인 실시예들은 8개보다 더 적거나(예를 들어, 2개, 4개, 6개 등) 8개보다 더 큰(예를 들어, 16개, 20개, 32개 등) 패킹된 데이터 연산 마스크 레지스터들을 포함할 수 있다. 예시된 실시예에서, 패킹된 데이터 연산 마스크 레지스터들 각각은 64-비트 폭이다. 대안적인 실시예들에서, 패킹된 데이터 연산 마스크 레지스터들의 폭들은 64-비트보다 더 넓거나(예를 들어, 80-비트, 128-비트 등) 64-비트보다 더 좁을 수 있다(예를 들어, 8-비트, 16-비트, 32-비트 등). 패킹된 데이터 연산 마스크 레지스터들은 공지된 기법들을 이용하여 상이한 방식으로 구현될 수 있고, 임의의 공지된 특정 타입의 회로로 한정되지 않는다. 적절한 레지스터들의 예들은 전용 물리적 레지스터들, 레지스터 재명명을 이용하여 동적으로 할당되는 물리적 레지스터들, 및 그의 조합들을 포함하며, 이것으로 한정되지 않는다.

일부 실시예들에서, 패킹된 데이터 연산 마스크 레지스터들(1008)은 별개의, 전용 세트의 아키텍처 레지스터들일 수 있다. 예시적으로, 마스킹된 패킹된 데이터 명령어들은 8개의 패킹된 데이터 연산 마스크 레지스터 k0 내지 k7 중 어느 하나를 인코딩 또는 특정하기 위해 3개의 비트(예를 들어, 3-비트 필드)를 이용할 수 있다. 대안적인 실시예들에서, 각각 더 적거나 더 많은 패킹된 데이터 연산 마스크 레지스터들이 존재할 때 더 적거나 더 많은 비트들이 이용될 수 있다. 하나의 특정 구현에서, 오직 패킹된 데이터 연산 마스크 레지스터들 k1 내지 k7(k0은 아님)이 마스킹된 패킹된 데이터 연산을 서술하기 위한 서술 오퍼랜드로서 어드레싱될 수 있다. 레지스터 k0은 정규 소스 또는 목적지로서 이용될 수 있지만, 서술 오퍼랜드로서 인코딩되지 않을 수 있다(예를 들어, k0이 특정된 경우, 그것은 전부 1들 또는 "마스크 없음(no mask)" 인코딩을 갖는다). 다른 실시예들에서, 레지스터들 전부 또는 일부만이 서술 오퍼랜드로서 인코딩될 수 있다.

도 10은 패킹된 데이터 연산 마스크 레지스터(1007)의 예시적인 실시예를 도시하고 패킹된 데이터 연산 마스크로서 이용되는 및/또는 마스킹을 위한 비트들의 수가 패킹된 데이터 폭 및 데이터 요소 폭에 의존함을 보여주는 도면이다. 패킹된 데이터 연산 마스크 레지스터의 도시된 예시적인 실시예는, 요구되지 않더라도, 64-비트 폭이다. 패킹된 데이터 폭 및 데이터 요소 폭의 조합에 의존하여, 64 비트 전부 또는 64 비트의 서브세트만이 마스킹을 위한 패킹된 데이터 연산 마스크로서 이용될 수 있다. 일반적으로, 단일의, 요소당 마스킹 제어 비트(a single, per-element masking control bit)가 이용될 때, 마스킹을 위해 이용되는 패킹된 데이터 연산 마스크 레지스터에서의 비트들의 수는 비트들로 된 패킹된 데이터 요소 폭에 의해 나누어진 비트들로 된 패킹된 데이터 폭과 동일하다.

몇몇 구체적인 예들이 도시된다. 즉, 패킹된 데이터 폭이 512-비트이고, 패킹된 데이터 요소 폭이 64-비트이면, 레지스터의 최하위 8-비트만이 패킹된 데이터 연산 마스크로서 이용된다. 패킹된 데이터 폭이 512-비트이고, 패킹된 데이터 요소 폭이 32-비트이면, 레지스터의 최하위 16-비트만이 패킹된 데이터 연산 마스크로서 이용된다. 패킹된 데이터 폭이 512-비트이고, 패킹된 데이터 요소 폭이 16-비트이면, 레지스터의 최하위 32-비트만이 패킹된 데이터 연산 마스크로서 이용된다. 패킹된 데이터 폭이 512-비트이고, 패킹된 데이터 요소 폭이 8-비트이면, 레지스터의 64-비트 전부가 패킹된 데이터 연산 마스크로서 이용된다. 예시된 실시예에 따르면, 마스킹된 패킹된 데이터 명령어는 그 명령어들에 연관된 패킹된 데이터 폭 및 데이터 요소 폭에 기초하여 패킹된 데이터 연산 마스크를 위해 이용된 레지스터의 가장 낮은 차수 또는 최하위 비트들의 수만을 액세스 및/또는 활용할 수 있다.

예시된 실시예에서, 요구되지 않더라도, 레지스터의 가장 낮은 차수의 서브세트 또는 부분이 마스킹을 위해 이용된다. 대안적인 실시예들에서, 가장 높은 차수의 서브세트, 또는 일부 다른 서브세트가 옵션으로 이용될 수 있다. 또한, 예시된 실시예에서는, 512-비트 패킹된 데이터 폭만이 고려되지만, 예를 들어, 256-비트 및 128-비트 폭들과 같은 다른 패킹된 데이터 폭들에 대해 유사한 원리가 적용된다. 앞서 언급한 바와 같이, 64-비트 패킹된 데이터 연산 마스크 레지스터의 이용이 요구되지 않는다.

명령어 세트는 하나 이상의 명령어 포맷들을 포함한다. 주어진 명령어 포맷은, 다른 것들 중에서, 수행될 연산(오피코드) 및 그 연산이 수행될 오퍼랜드(들)을 특정하기 위한 다양한 필드들(비트수, 비트 위치)을 정의한다. 일부 명령어 포맷들은 명령어 템플릿들(또는 서브포맷들)의 정의를 통해 더 쪼개진다. 예를 들어, 주어진 명령어 포맷의 명령어 템플릿들은 명령어 포맷의 필드들의 상이한 서브세트들을 갖도록 정의될 수 있고(포함된 필드들은 통상적으로 동일한 순서로 되어 있지만, 적어도 일부는 더 적은 필드들이 포함되어 있기 때문에 상이한 비트 위치들을 갖는다) 및/또는 주어진 필드가 상이하게 해석되도록 정의될 수 있다. 따라서, ISA의 각 명령어는 주어진 명령어 포맷을 이용하여(그리고, 정의된 경우, 그 명령어 포맷의 명령어 템플릿들 중 주어진 하나에서) 표현되고, 연산 및 오퍼랜드들을 특정하기 위한 필드들을 포함한다. 예를 들어, 예시적인 ADD 명령어는 특정 오피코드 및 그 오피코드를 특정하기 위한 오피코드 필드 및 오퍼랜드들(source1/destination 및 source2)을 선택하기 위한 오퍼랜드 필드들을 포함하는 명령어 포맷을 갖고; 명령어 스트림 내의 이 ADD 명령어의 발생은 특정 오퍼랜드들을 선택하는 오퍼랜드 필드들 내에 특정 내용을 가질 것이다. AVX(Advanced Vector Extensions)(AVX1 및 AVX2)라고 부르고 VEX(Vector Extensions) 코딩 스킴을 이용하는 SIMD 확장들의 세트가 발표 및/또는 공개되었다(예를 들어, Intel® 64 and IA-32 Architectures Software Developers Manual, October 1911 참조; 및 Intel® Advanced Vector Extensions Programming Reference, June 1911 참조).

예시적인 명령어 포맷들

본 명세서에 설명된 명령어(들)의 실시예들은 상이한 포맷으로 구체화될 수 있다. 부가적으로, 예시적인 시스템들, 아키텍처들, 및 파이프라인들이 아래에 상세히 설명된다. 명령어(들)의 실시예들은 그러한 시스템들, 아키텍처들, 및 파이프라인들에서 실행될 수 있지만, 상세히 설명된 것들로 한정되지 않는다.

VEX 명령어 포맷

VEX 인코딩은 명령어들이 2개보다 많은 오퍼랜드들을 가질 수 있게 하고, SIMD 벡터 레지스터들이 118 비트보다 더 길어질 수 있게 한다. VEX 프리픽스의 이용은 3-오퍼랜드(또는 그 이상) 신택스를 제공한다. 예를 들어, 이전의 2-오퍼랜드 명령어들은 소스 오퍼랜드를 덮어쓰기하는 A = A + B와 같은 연산들을 수행하였다. VEX 프리픽스의 이용은 오퍼랜드들이 A = B + C와 같은 비파괴 연산들을 수행할 수 있게 한다.

도 11a는 VEX 프리픽스(1102), 실제 오피코드 필드(real opcode field)(1130), Mod R/M 바이트(1140), SIB 바이트(1150), 변위 필드(displacement field)(1162), 및 IMM8(1172)를 포함한 예시적인 AVX 명령어 포맷을 도시한다. 도 11b는 도 11a의 필드들이 풀 오피코드 필드(1174) 및 베이스 연산 필드(1142)를 구성하는 것을 도시한다. 도 11c는 도 11a의 필드들이 레지스터 인덱스 필드(1144)를 구성하는 것을 도시한다.

VEX 프리픽스(바이트 0-2)(1102)는 3-바이트 형태로 인코딩된다. 제1 바이트는 포맷 필드(1140)(VEX 바이트 0, 비트 [7:0])이고, 명시적 C4 바이트 값(C4 명령어 포맷을 구별하는 데 이용되는 고유값)을 포함한다. 제2-제3 바이트들(VEX 바이트 1-2)은 특정 능력을 제공하는 다수의 비트 필드들을 포함한다. 구체적으로, REX 필드(1105)(VEX 바이트 1, 비트 [7:5])는 VEX.R 비트 필드(VEX 바이트 1, 비트 [7] - R), VEX.X 비트 필드(VEX 바이트 1, 비트 [6] - X), 및 VEX.B 비트 필드(VEX 바이트 1, 비트 [5] - B)로 이루어진다. 명령어들의 다른 필드들은 이 기술분야에 알려진 바와 같이 레지스터 인덱스의 하위 3 비트를 인코딩하여서(rrr, xxx, 및 bbb), VEX.R, VEX.X, 및 VEX.B를 추가함으로써 Rrrr, Xxxx, 및 Bbbb가 형성될 수 있다. 오피코드 맵 필드(1114)(VEX 바이트 1, 비트 [4:0] - mmmmm)는 묵시적 리딩 오피코드 바이트(implied leading opcode byte)를 인코딩하기 위한 내용을 포함한다. W 필드(1164)(VEX 바이트 2, 비트 [7] - W)는 표기법 VEX.W로 표현되고, 명령어에 따라 상이한 기능을 제공한다. VEX.vvvv(1119)(VEX 바이트 2, 비트 [6:3]-vvvv)의 역할은 다음을 포함할 수 있다: 1) VEX.vvvv는 반전된(1의 보수) 형태로 특정된 제1 소스 레지스터 오퍼랜드를 인코딩하고, 2개 이상의 소스 오퍼랜드들을 갖는 명령어들에 대해 유효하다; 2) VEX.vvvv는 특정 벡터 시프트를 위해 1의 보수 형태로 특정된 목적지 레지스터 오퍼랜드를 인코딩한다; 또는 3) VEX.vvvv는 임의의 오퍼랜드를 인코딩하지 않으며, 이 필드는 예비이고, 1111b를 포함해야 한다. VEX.L 사이즈 필드(1168)(VEX 바이트 2, 비트 [2]-L) = 0인 경우, 그것은 118 비트 벡터를 표시하고; VEX.L = 1인 경우, 그것은 256 비트 벡터를 표시한다. 프리픽스 인코딩 필드(1125)(VEX 바이트 2, 비트 [1:0]-pp)는 베이스 연산 필드에 대해 부가적인 비트들을 제공한다.

실제 오피코드 필드(1130)(바이트 3)는 또한 오피코드 바이트로서 알려져 있다. 오피코드의 부분은 이 필드에 특정된다.

MOD R/M 필드(1140)(바이트 4)는 MOD 필드(1142)(비트 [7-6]), Reg 필드(1144)(비트 [5-3]), 및 R/M 필드(1146)(비트 [2-0])를 포함한다. Reg 필드(1144)의 역할은 다음을 포함할 수 있다: 목적지 레지스터 오퍼랜드 또는 소스 레지스터 오퍼랜드를 인코딩하거나(Rrrr의 rrr), 또는 오피코드 확장으로서 취급되어 임의의 명령어 오퍼랜드를 인코딩하는 데 이용되지 않는다. R/M 필드(1146)의 역할은 다음을 포함할 수 있다: 메모리 어드레스를 참조하는 명령어 오퍼랜드를 인코딩하거나, 목적지 레지스터 오퍼랜드 또는 소스 레지스터 오퍼랜드를 인코딩한다.

SIB(스케일, 인덱스, 베이스) - 스케일 필드(1150)(바이트 5)의 내용은 메모리 어드레스 생성을 위해 이용되는 SS(1152)(비트 [7-6])을 포함한다. SIB.xxx(1154)(비트 [5-3]) 및 SIB.bbb(1156)(비트 [2-0])의 내용은 레지스터 인덱스 Xxxx 및 Bbbb와 관련하여 앞서 참조되었다.

변위 필드(1162) 및 이미디어트(immediate) 필드(IMM8)(1172)는 어드레스 데이터를 포함한다.

예시적인 레지스터 아키텍처

도 12는 본 발명의 일 실시예에 따른 레지스터 아키텍처(1200)의 블록도이다. 예시된 실시예에서는 511 비트 폭의 32개의 벡터 레지스터(1210)가 존재하고; 이 레지스터들은 zmm0 내지 zmm31로서 참조된다. 하위 15 zmm 레지스터들의 하위 256 비트들은 레지스터들 ymm0-15에 오버레이된다. 하위 15 zmm 레지스터들의 하위 118 비트들(ymm 레지스터들의 하위 118 비트들)은 레지스터들 xmm0-14에 오버레이된다.

기입 마스크 레지스터들(1214) - 예시된 실시예에서, 8개의 기입 마스크 레지스터들(k0 내지 k7)이 존재하고, 각각 64 비트 사이즈이다. 대안적인 실시예에서, 기입 마스크 레지스터들(1214)은 15 비트 사이즈이다. 전술한 바와 같이, 본 발명의 일 실시예에서, 벡터 마스크 레지스터 k0는 기입 마스크로서 이용될 수 없고; 정상적으로 k0을 표시하는 인코딩이 기입 마스크에 이용될 때, 그것은 0xFFFF의 하드와이어드 기입 마스크를 선택함으로써, 그 명령어에 대한 기입 마스킹을 효과적으로 디스에이블한다.

범용 레지스터들(1225) - 예시된 실시예에서, 메모리 오퍼랜드들을 어드레싱하기 위해 기존의 x86 어드레싱 모드들과 함께 이용되는 16개의 64-비트 범용 레지스터들이 존재한다. 이 레지스터들은 명칭 RAX, RBX, RCX, RDX, RBP, RSI, RDI, RSP, 및 R8 내지 R14로 참조된다.

MMX 패킹된 정수 플랫 레지스터 파일(1250)이 에일리어싱되는 스칼라 부동 소수점 스택 레지스터 파일(x87 스택)(1245) - 예시된 실시예에서, x87 스택은 x87 명령어 세트 확장을 이용하여 32/64/80-비트 부동 소수점 데이터에 대해 스칼라 부동 소수점 연산들을 수행하는 데 이용된 8-요소 스택이고; MMX 레지스터들을 이용하여 64-비트 패킹된 정수 데이터에 대해 연산들을 수행하고, 또한 MMX 및 XMM 레지스터들 사이에서 수행되는 일부 연산들에 대한 오퍼랜드들을 홀드한다.

본 발명의 대안적인 실시예들은 더 넓거나 더 좁은 레지스터들을 이용할 수 있다. 부가적으로, 본 발명의 대안적인 실시예들은 더 많거나, 더 적거나, 상이한 레지스터 파일들 및 레지스터들을 이용할 수 있다.

예시적인 코어 아키텍처들, 프로세서들, 및 컴퓨터 아키텍처들

프로세서 코어들은 상이한 방식으로, 상이한 목적들을 위해, 상이한 프로세서들에서 구현될 수 있다. 예를 들어, 그러한 코어들의 구현들은 1) 범용 컴퓨팅을 위해 의도된 범용 순차적 코어; 2) 범용 컴퓨팅을 위해 의도된 고성능 범용 비순차적 코어; 3) 그래픽 및/또는 과학(쓰루풋) 컴퓨팅을 위해 주로 의도된 특수 목적 코어를 포함할 수 있다. 상이한 프로세서들의 구현들은 1) 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 순차적 코어들 및/또는 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 비순차적 코어들을 포함하는 CPU; 및 2) 그래픽 및/또는 과학(쓰루풋)을 위해 주로 의도된 하나 이상의 특수 목적 코어들을 포함하는 코프로세서를 포함할 수 있다. 그러한 상이한 프로세서들은 상이한 컴퓨터 시스템 아키텍처를 야기하고, 이것은 1) CPU와 별개의 칩 상의 코프로세서; 2) CPU와 동일한 패키지 내의 별개의 다이 상의 코프로세서; 3) CPU와 동일한 다이 상의 코프로세서(이 경우에, 그러한 코프로세서를 때때로 통합 그래픽 및/또는 과학(쓰루풋) 로직과 같은 특수 목적 로직, 또는 특수 목적 코어들이라고 지칭함); 및 4) 동일한 다이 상에 설명된 CPU(때때로 애플리케이션 코어(들) 또는 애플리케이션 프로세서(들)이라고 지칭함), 전술한 코프로세서, 및 부가적인 기능을 포함할 수 있는 SoC(a system on a chip)을 포함할 수 있다. 예시적인 코어 아키텍처들이 다음에 설명되고, 후속하여 예시적인 프로세서들 및 컴퓨터 아키텍처들의 설명들이 뒤따른다.

예시적인 코어 아키텍처들

순차적 및 비순차적 코어 블록도

도 13a는 본 발명의 실시예들에 따른 예시적인 순차적 파이프라인과 예시적인 레지스터 재명명, 비순차적 발행/실행 파이프라인 양자를 도시하는 블록도이다. 도 13b는 본 발명의 실시예들에 따른 프로세서에 포함되는 예시적인 실시예의 순차적 아키텍처 코어와 예시적인 레지스터 재명명, 비순차적 발행/실행 아키텍처 코어 양자를 도시하는 블록도이다. 도 13a-b의 실선 상자들은 순차적 파이프라인 및 순차적 코어를 도시하고, 점선 상자들의 옵션의 추가는 레지스터 재명명, 비순차적 발행/실행 파이프라인 및 코어를 도시한다. 순차적 양태가 비순차적 양태의 서브세트라는 것을 고려하여, 비순차적 양태가 설명될 것이다.

도 13a에서, 프로세서 파이프라인(1300)은 인출 스테이지(1302), 길이 디코드 스테이지(1304), 디코드 스테이지(1306), 할당 스테이지(1308), 재명명 스테이지(1310), 스케줄링(디스패치 또는 발행이라고도 알려짐) 스테이지(1311), 레지스터 판독/메모리 판독 스테이지(1313), 실행 스테이지(1315), 라이트백(write back)/메모리 기입 스테이지(1317), 예외 핸들링 스테이지(1322), 및 커밋 스테이지(1324)를 포함한다.

도 13b는 실행 엔진 유닛(1350)에 연결된 프론트엔드 유닛(1330)을 포함하는 프로세서 코어(1390)를 도시하고, 양자가 메모리 유닛(1370)에 연결되어 있다. 코어(1390)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어, 또는 하이브리드 또는 대안적인 코어 타입일 수 있다. 또 다른 옵션으로서, 코어(1390)는 예를 들어, 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, 범용 컴퓨팅 그래픽 프로세싱 유닛(general purpose computing graphics processing unit)(GPGPU) 코어, 그래픽 코어 등과 같은 특수 목적 코어일 수 있다.

프론트엔드 유닛(1330)은 명령어 캐시 유닛(1334)에 연결된 분기 예측 유닛(1332)을 포함하고, 명령어 캐시 유닛(1334)은 명령어 변환 색인 버퍼(TLB)(1336)에 연결되고, 명령어 변환 색인 버퍼(TLB)(1336)는 명령어 인출 유닛(1338)에 연결되고, 명령어 인출 유닛(1338)은 디코드 유닛(1340)에 연결된다. 디코드 유닛(1340)(또는 디코더)은 명령어들을 디코딩하고, 오리지널 명령어들로부터 디코딩되거나, 다른 방식으로 오리지널 명령어들을 반영하거나, 오리지널 명령어들로부터 도출되는, 하나 이상의 마이크로 연산들, 마이크로-코드 엔트리 포인트들, 마이크로명령어들, 다른 명령어들, 또는 다른 제어 신호들을 출력으로서 생성할 수 있다. 디코드 유닛(1340)은 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘들의 예들은 룩업 테이블들, 하드웨어 구현들, PLA(programmable logic array), 마이크로코드 ROM(read only memory) 등을 포함하고, 이것으로 한정되지 않는다. 일 실시예에서, 코어(1390)는 (예를 들어, 디코드 유닛(1340)에 또는 그렇지 않으면 프론트엔드 유닛(1330) 내에) 특정 매크로명령어들에 대한 마이크로코드를 저장하는 마이크로코드 ROM 또는 다른 매체를 포함한다. 디코드 유닛(1340)은 실행 엔진 유닛(1350)의 재명명/할당기 유닛(1352)에 연결된다.

실행 엔진 유닛(1350)은 회수 유닛(1354) 및 하나 이상의 스케줄러 유닛(들)(1356)의 세트에 연결되는 재명명/할당기 유닛(1352)을 포함한다. 스케줄러 유닛(들)(1356)은 예비 스테이션들, 중앙 명령어 윈도우 등을 포함하는 임의의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(1356)은 물리적 레지스터 파일(들) 유닛(들)(1358)에 연결된다. 물리적 레지스터 파일(들) 유닛(들)(1358) 각각은 하나 이상의 물리적 레지스터 파일들을 나타내고, 이들 중 상이한 것들이 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등과 같은 하나 이상의 상이한 데이터 타입들을 저장한다. 일 실시예에서, 물리적 레지스터 파일(들) 유닛(1358)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛, 및 스칼라 레지스터 유닛을 포함한다. 이 레지스터 유닛들은 아키텍처 벡터 레지스터, 벡터 마스크 레지스터, 및 범용 레지스터를 제공할 수 있다. 물리적 레지스터 파일(들) 유닛(들)(1358)은 (예를 들어, 재정렬 버퍼(들) 및 회수 레지스터 파일(들)을 이용하여; 미래의 파일(들), 히스토리 버퍼(들), 및 회수 레지스터 파일(들)을 이용하여; 레지스터 맵 및 레지스터들의 풀(pool)을 이용하여; 등등) 레지스터 재명명 및 비순차적 실행이 구현될 수 있는 다양한 방식을 예시하기 위해 회수 유닛(1354)에 의해 오버랩된다. 회수 유닛(1354)과 물리적 레지스터 파일(들) 유닛(들)(1358)은 실행 클러스터(들)(1360)에 연결된다. 실행 클러스터(들)(1360)는 하나 이상의 실행 유닛들(1362)의 세트 및 하나 이상의 메모리 액세스 유닛들(1364)의 세트를 포함한다. 실행 유닛들(1362)은 다양한 타입의 데이터(예를 들어, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예를 들어, 시프트, 덧셈, 뺄셈, 곱셈)을 수행할 수 있다. 일부 실시예들은 특정 기능들 또는 기능들의 세트들에 전용인 다수의 실행 유닛들을 포함할 수 있지만, 다른 실시예들은 오직 하나의 실행 유닛 또는 모두가 기능들 모두를 수행하는 복수의 실행 유닛들을 포함할 수 있다. 스케줄러 유닛(들)(1356), 물리적 레지스터 파일(들) 유닛(들)(1358), 및 실행 클러스터(들)(1360)는 가능하게는 복수개인 것으로 도시되는데, 그것은 특정 실시예들이 특정 타입의 데이터/연산들에 대해 별개의 파이프라인들(예를 들어, 각각이 그들 자신의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛, 및/또는 실행 클러스터를 갖는 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 메모리 액세스 파이프라인 - 별개의 메모리 액세스 파이프라인의 경우에, 이 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(1364)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 별개의 파이프라인들이 이용되는 경우, 이들 파이프라인들 중 하나 이상이 비순차적 발행/실행일 수 있고, 나머지는 순차적일 수 있다.

메모리 액세스 유닛들(1364)의 세트는 레벨 2(L2) 캐시 유닛(1376)에 연결된 데이터 캐시 유닛(1374)에 연결된 데이터 TLB 유닛(1372)을 포함하는 메모리 유닛(1370)에 연결된다. 일 예시적인 실시예에서, 메모리 액세스 유닛들(1364)은 로드 유닛, 저장 어드레스 유닛, 및 저장 데이터 유닛을 포함할 수 있고, 이들 각각은 메모리 유닛(1370)의 데이터 TLB 유닛(1372)에 연결된다. 명령어 캐시 유닛(1334)은 또한 메모리 유닛(1370)의 레벨 2(L2) 캐시 유닛(1376)에 연결된다. L2 캐시 유닛(1376)은 하나 이상의 다른 레벨의 캐시 및 최종적으로 메인 메모리에 연결된다.

예시적으로, 예시적인 레지스터 재명명, 비순차적 발행/실행 코어 아키텍처는 다음과 같이 파이프라인(1300)을 구현할 수 있다: 1) 명령어 인출(1338)이 인출 및 길이 디코딩 스테이지들(1302 및 1304)을 수행하고; 2) 디코드 유닛(1340)이 디코드 스테이지(1306)를 수행하고; 3) 재명명/할당기 유닛(1352)이 할당 스테이지(1308) 및 재명명 스테이지(1310)를 수행하고; 4) 스케줄러 유닛(들)(1356)이 스케줄 스테이지(1311)를 수행하고; 5) 물리적 레지스터 파일(들) 유닛(들)(1358) 및 메모리 유닛(1370)이 레지스터 판독/메모리 판독 스테이지(1313)를 수행하고; 실행 클러스터(1360)가 실행 스테이지(1315)를 수행하고; 6) 메모리 유닛(1370) 및 물리적 레지스터 파일(들) 유닛(들)(1358)이 라이트백/메모리 기입 스테이지(1317)를 수행하고; 7) 다양한 유닛들이 예외 핸들링 스테이지(1322)에 수반될 수 있고; 8) 회수 유닛(1354) 및 물리적 레지스터 파일(들) 유닛(들)(1358)이 커밋 스테이지(1324)를 수행한다.

코어(1390)는 본 명세서에 설명된 명령어(들)를 포함한 하나 이상의 명령어 세트들(예를 들어, x86 명령어 세트(및 더 새로운 버전들이 추가된 그의 일부 확장들); 캘리포니아주 서니베일의 MIPS Technologies의 MIPS 명령어 세트; 캘리포니아주 서니베일의 ARM Holdings의 ARM 명령어 세트(및 NEON과 같은 옵션의 부가적인 확장들))을 지원할 수 있다. 일 실시예에서, 코어(1390)는 패킹된 데이터 명령어 세트 확장(예를 들어, AVX1, AVX2)을 지원하는 로직을 포함함으로써, 많은 멀티미디어 애플리케이션에 의해 이용되는 연산들이 패킹된 데이터를 이용하여 수행될 수 있게 한다.

코어는 멀티스레딩(연산들 또는 스레드들의 2개 이상의 병렬 세트들의 실행)을 지원할 수 있고, 타임 슬라이스 멀티스레딩(time sliced multithreading), 동시 멀티스레딩(단일 물리적 코어가 물리적 코어가 동시에 멀티스레딩하고 있는 스레드들 각각에 대해 논리적 코어를 제공함), 또는 그의 조합(예를 들어, Intel® Hyperthreading technology에서와 같이 타임 슬라이스 인출 및 디코딩하고 그 후에 동시 멀티스레딩)을 포함한 다양한 방식으로 그렇게 할 수 있다는 것이 이해되어야 한다.

레지스터 재명명은 비순차적 실행의 문맥에서 설명되지만, 레지스터 재명명은 순차적 아키텍처에서 이용될 수 있다는 것이 이해되어야 한다. 프로세서의 예시된 실시예는 또한 별개의 명령어 및 데이터 캐시 유닛들(1334/1374) 및 공유 L2 캐시 유닛(1376)을 포함하지만, 대안적인 실시예들은 예를 들어, 레벨 1(L1) 내부 캐시와 같은 명령어들과 데이터 양자에 대한 단일 내부 캐시, 또는 복수 레벨의 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와, 코어 및/또는 프로세서의 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 캐시 전부가 코어 및/또는 프로세서의 외부에 있을 수 있다.

특정 예시적인 순차적 코어 아키텍처

도 14a-b는 더욱 구체적인 예시적인 순차적 코어 아키텍처의 블록도를 도시하며, 이 코어는 칩 내의 (동일한 타입 및/또는 상이한 타입들의 다른 코어들을 포함하는) 여러 개의 로직 블록들 중 하나이다. 로직 블록들은 애플리케이션에 따라 일부 고정 기능 로직, 메모리 I/O 인터페이스들, 및 다른 필요한 I/O 로직과 고대역폭 인터커넥트 네트워크(예를 들어, 링 네트워크)를 통해서 통신한다.

도 14a는 본 발명의 실시예들에 따른 온-다이 인터커넥트 네트워크(1402)에 대한 접속 및 레벨 2(L2) 캐시(1404)의 로컬 서브세트와 함께, 단일 프로세서 코어의 블록도이다. 일 실시예에서, 명령어 디코더(1400)는 패킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(1406)는 스칼라 및 벡터 유닛들 내로 캐시 메모리에 대한 저-레이턴시 액세스들을 허용한다. (설계를 단순화하기 위한) 일 실시예에서, 스칼라 유닛(1408) 및 벡터 유닛(1410)은 별개의 레지스터 세트들(각각, 스칼라 레지스터들(1411) 및 벡터 레지스터들(1413))을 이용하고, 그것들 사이에 전송된 데이터는 메모리에 기입되고 나서 레벨 1(L1) 캐시(1406)로부터 판독되지만, 본 발명의 대안적인 실시예들은 상이한 방식을 이용할 수 있다(예를 들어, 데이터가 기입되고 판독되지 않고 2개의 레지스터 파일들 사이에 전송될 수 있게 하는 통신 경로를 포함하거나 단일 레지스터 세트를 이용할 수 있다).

L2 캐시(1404)의 로컬 서브세트는 프로세서 코어당 하나씩, 별개의 로컬 서브세트들로 분할되는 글로벌 L2 캐시의 부분이다. 각 프로세서 코어는 L2 캐시(1404)의 그 자신의 로컬 서브세트에 대한 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 그의 L2 캐시 서브세트(1404)에 저장되고, 그 자신의 로컬 L2 캐시 서브세트들에 액세스하는 다른 프로세서 코어들과 병렬로, 신속히 액세스될 수 있다. 프로세서 코어에 의해 기입된 데이터는 그 자신의 L2 캐시 서브세트(1404)에 저장되고, 필요한 경우 다른 서브세트들로부터 플러싱된다. 링 네트워크는 공유 데이터에 대한 일관성(coherency)을 보장한다. 링 네트워크는 양방향성이어서, 프로세서 코어들, L2 캐시들 및 다른 로직 블록들과 같은 에이전트들이 칩 내에서 서로 통신할 수 있게 한다. 각각의 링 데이터-경로는 방향당 1011-비트 폭이다.

도 14b는 본 발명의 실시예들에 따른 도 14a의 프로세서 코어의 부분의 확대도이다. 도 14b는 벡터 유닛(1410) 및 벡터 레지스터들(1413)에 관한 추가 상세뿐만 아니라, L1 캐시(1404)의 L1 데이터 캐시(1406A) 부분을 포함한다. 구체적으로, 벡터 유닛(1410)은 15-폭 벡터 프로세싱 유닛(VPU)(15-폭 ALU(1428) 참조)이고, 이것은 정수, 단정밀도 부동, 및 배정밀도 부동 명령어들 중 하나 이상을 실행한다. VPU는 스위즐(swizzle) 유닛(1419)에 의한 레지스터 입력들의 스위즐링, 수치 변환 유닛들(1422A-B)에 의한 수치 변환, 및 메모리 입력에 대한 복제 유닛(1424)에 의한 복제를 지원한다. 기입 마스크 레지스터들(1426)은 결과적인 벡터 기입들의 서술을 허용한다.

통합 메모리 컨트롤러 및 그래픽을 갖는 프로세서

도 15는 본 발명의 실시예들에 따른 하나보다 많은 코어를 가질 수 있고, 통합 메모리 컨트롤러를 가질 수 있고, 통합 그래픽을 가질 수 있는 프로세서(1500)의 블록도이다. 도 15의 실선 상자들은 단일 코어(1502A), 시스템 에이전트(1510), 하나 이상의 버스 컨트롤러 유닛들(1515)의 세트를 갖는 프로세서(1500)를 도시하고, 점선 상자들의 옵션의 추가는 복수의 코어들(1502A-N), 시스템 에이전트 유닛(1510) 내의 하나 이상의 통합 메모리 컨트롤러 유닛(들)(1513)의 세트, 및 특수 목적 로직(1508)을 갖는 대안적인 프로세서(1500)를 도시한다.

따라서, 프로세서(1500)의 상이한 구현들은 1) (하나 이상의 코어들을 포함할 수 있는) 통합 그래픽 및/또는 과학(쓰루풋) 로직인 특수 목적 로직(1508), 및 하나 이상의 범용 코어들인 코어들(1502A-N)(예를 들어, 범용 순차적 코어들, 범용 비순차적 코어들, 이 둘의 조합)을 갖는 CPU; 2) 그래픽 및/또는 과학(쓰루풋)을 위해 주로 의도된 다수의 특수 목적 코어들인 코어들(1502A-N)을 갖는 코프로세서; 및 3) 다수의 범용 순차적 코어들인 코어들(1502A-N)을 갖는 코프로세서를 포함할 수 있다. 따라서, 프로세서(1500)는 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(general purpose graphics processing unit), 고-쓰루풋 다수 통합 코어(many integrated core; MIC) 코프로세서(30개 이상의 코어를 포함함), 임베디드 프로세서 등과 같은 특수 목적 프로세서, 범용 프로세서, 또는 코프로세서일 수 있다. 프로세서는 하나 이상의 칩 상에 구현될 수 있다. 프로세서(1500)는 예를 들어, BiCMOS, CMOS, 또는 NMOS와 같은, 다수의 프로세스 기술들 중 임의의 것을 이용하여 하나 이상의 기판 상에 구현될 수 있고 및/또는 그의 부분일 수 있다.

메모리 계층구조는 코어들 내의 하나 이상의 레벨의 캐시, 하나 이상의 공유 캐시 유닛들(1506)의 세트, 및 통합 메모리 컨트롤러 유닛들(1513)의 세트에 연결된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1506)의 세트는 레벨 2(L2), 레벨 3 (L3), 레벨 4 (L4), 또는 다른 레벨의 캐시와 같은 하나 이상의 중간 레벨 캐시들, 최종 레벨 캐시(LLC), 및/또는 그의 조합들을 포함할 수 있다. 일 실시예에서, 링 기반 인터커넥트 유닛(1511)이 통합 그래픽 로직(1508), 공유 캐시 유닛들(1506)의 세트, 및 시스템 에이전트 유닛(1510)/통합 메모리 컨트롤러 유닛(들)(1513)을 상호접속하지만, 대안적인 실시예들은 그러한 유닛들을 상호접속하기 위한 임의의 수의 공지된 기법들을 이용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛들(1506) 및 코어들(1502-A-N) 사이에 일관성이 유지된다.

일부 실시예들에서, 코어들(1502A-N) 중 하나 이상은 멀티스레딩이 가능하다. 시스템 에이전트(1510)는 코어들(1502A-N)을 조화시키고 동작시키는 컴포넌트들을 포함한다. 시스템 에이전트 유닛(1510)은 예를 들어, 전력 제어 유닛(PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(1502A-N) 및 통합 그래픽 로직(1508)의 전력 상태를 조정하는 데 필요한 로직 및 컴포넌트들일 수 있거나 그것을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속 디스플레이들을 구동하기 위한 것이다.

코어들(1502A-N)은 아키텍처 명령어 세트의 면에서 균질 또는 불균질일 수 있는데; 즉, 코어들(1502A-N) 중 2개 이상이 동일한 명령어 세트를 실행할 수 있고, 다른 코어들은 오직 그 명령어 세트의 서브세트 또는 상이한 명령어 세트를 실행할 수 있다.

예시적인 컴퓨터 아키텍처들

도 16-19는 예시적인 컴퓨터 아키텍처들의 블록도들이다. 랩톱들, 데스크톱들, 핸드헬드 PC들, 퍼스널 디지털 어시스턴트들(personal digital assistants), 엔지니어링 워크스테이션들, 서버들, 네트워크 장치들, 네트워크 허브들, 스위치들, 임베디드 프로세서들, 디지털 신호 프로세서들(DSP), 그래픽 장치들, 비디오 게임 장치들, 셋톱박스들, 마이크로컨트롤러들, 휴대 전화들, 휴대용 미디어 플레이어들, 핸드헬드 장치들, 및 다양한 다른 전자 장치들에 대해 이 기술분야에 알려진 다른 시스템 설계들 및 구성들이 또한 적절하다. 일반적으로, 본 명세서에 개시된 바와 같은 프로세서 및/또는 다른 실행 로직을 포함할 수 있는 다양한 시스템들 또는 전자 장치들이 일반적으로 적절하다.

이제 도 16을 참조하면, 본 발명의 일 실시예에 따른 시스템(1600)의 블록도가 도시되어 있다. 시스템(1600)은 컨트롤러 허브(1619)에 연결된 하나 이상의 프로세서들(1610, 1614)을 포함할 수 있다. 일 실시예에서, 컨트롤러 허브(1619)는 그래픽 메모리 컨트롤러 허브(GMCH)(1690) 및 입력/출력 허브(IOH)(1650)(별개의 칩들 상에 있을 수 있음)를 포함하고; GMCH(1690)는 메모리 및 메모리(1640)와 코프로세서(1645)에 연결되는 그래픽 컨트롤러들을 포함하고; IOH(1650)는 GMCH(1690)에 입력/출력(I/O) 장치들(1660)을 연결한다. 대안적으로, 메모리 및 그래픽 컨트롤러들 중 하나 또는 양자는 (본 명세서에 설명된 바와 같이) 프로세서 내에 통합되며, 메모리(1640) 및 코프로세서(1645)는 IOH(1650)에 의해 단일 칩에서 컨트롤러 허브(1619) 및 프로세서(1610)에 직접 연결된다.

부가적인 프로세서들(1614)의 옵션의 특성은 도 16에서 점선으로 표시된다. 각각의 프로세서(1610, 1614)는 본 명세서에 설명된 프로세싱 코어들 중 하나 이상을 포함하고, 프로세서(1500)의 일부 버전일 수 있다.

메모리(1640)는 예를 들어, DRAM(dynamic random access memory), PCM(phase change memory), 또는 둘의 조합일 수 있다. 적어도 일 실시예에서, 컨트롤러 허브(1619)는 프론트사이드 버스(FSB)와 같은 멀티 드롭 버스, 퀵패스 인터커넥트(QuickPath Interconnect; QPI)와 같은 점대점 인터페이스, 또는 유사한 접속(1695)을 통해 프로세서(들)(1610, 1614)와 통신한다.

일 실시예에서, 코프로세서(1645)는 예를 들어, 고-쓰루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다. 일 실시예에서, 컨트롤러 허브(1619)는 통합 그래픽 가속기를 포함할 수 있다.

아키텍처, 마이크로아키텍처, 열, 전력 소비 특성 등을 포함한 메리트의 다양한 메트릭의 면에서 물리적 리소스들(1610, 1614) 사이에 다양한 차이들이 존재할 수 있다.

일 실시예에서, 프로세서(1610)는 일반 타입의 데이터 프로세싱 연산들을 제어하는 명령어들을 실행한다. 명령어들 내에는 코프로세서 명령어들이 삽입될 수 있다. 프로세서(1610)는 부착된 코프로세서(1645)에 의해 실행되어야 하는 타입으로 된 것으로서 이들 코프로세서 명령어들을 인식한다. 따라서, 프로세서(1610)는 코프로세서 버스 또는 다른 인터커넥트 상의 이들 코프로세서 명령어들(또는 코프로세서 명령어들을 나타내는 제어 신호들)을 코프로세서(1645)에 발행한다. 코프로세서(들)(1645)는 수신된 코프로세서 명령어들을 수락하고 실행한다.

이제 도 17을 참조하면, 본 발명의 실시예에 따른 제1 더욱 구체적인 예시적인 시스템(1700)의 블록도가 도시되어 있다. 도 17에 도시된 바와 같이, 멀티프로세서 시스템(1700)은 점대점 인터커넥트 시스템이고, 점대점 인터커넥트(1750)를 통해 연결된 제1 프로세서(1770) 및 제2 프로세서(1780)를 포함한다. 프로세서들(1770 및 1780) 각각은 프로세서(1500)의 일부 버전일 수 있다. 본 발명의 일 실시예에서, 프로세서들(1770 및 1780)은 각각 프로세서들(1610 및 1614)이고, 코프로세서(1738)는 코프로세서(1645)이다. 다른 실시예에서, 프로세서들(1770 및 1780)은 각각 프로세서(1610) 및 코프로세서(1645)이다.

프로세서들(1770 및 1780)은 각각 통합 메모리 컨트롤러(IMC) 유닛들(1772 및 1782)을 포함하는 것으로 도시되어 있다. 프로세서(1770)는 또한 그의 버스 컨트롤러 유닛들의 부분으로서 점대점(P-P) 인터페이스들(1776 및 1778)을 포함하고; 유사하게, 제2 프로세서(1780)는 P-P 인터페이스들(1786 및 1788)을 포함한다. 프로세서들(1770 및 1780)은 P-P 인터페이스 회로들(1778, 1788)을 이용하여 점대점(P-P) 인터페이스(1750)를 통해 정보를 교환할 수 있다. 도 17에 도시된 바와 같이, IMC들(1772 및 1782)은 프로세서들을 각각의 메모리들, 즉 메모리(1732) 및 메모리(1734)에 연결하고, 이 메모리들은 각각의 프로세서들에 로컬 부착되는 메인 메모리의 부분들일 수 있다.

프로세서들(1770 및 1780)은 각각 점대점 인터페이스 회로들(1776, 1794, 1786, 1798)을 이용하여 개별 P-P 인터페이스들(1752, 1754)을 통해 칩셋(1790)과 정보를 교환할 수 있다. 칩셋(1790)은 옵션으로 고성능 인터페이스(1739)를 통해 코프로세서(1738)와 정보를 교환할 수 있다. 일 실시예에서, 코프로세서(1738)는 예를 들어, 고-쓰루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다.

공유 캐시(도시되지 않음)가 어느 하나의 프로세서 내에 포함될 수 있거나 또는 두 프로세서들의 외부에 포함되지만 P-P 인터커넥트를 통해 프로세서들과 접속될 수 있어서, 프로세서가 저전력 모드에 놓인 경우 어느 하나 또는 양자의 프로세서의 로컬 캐시 정보가 공유 캐시에 저장될 수 있다.

칩셋(1790)은 인터페이스(1796)를 통해 제1 버스(1715)에 연결될 수 있다. 일 실시예에서, 제1 버스(1715)는 PCI(Peripheral Component Interconnect) 버스, 또는 PCI 익스프레스 버스 또는 다른 제3 세대 I/O 인터커넥트 버스와 같은 버스일 수 있지만, 본 발명의 범위는 이것으로 한정되지 않는다.

도 17에 도시된 바와 같이, 다양한 I/O 장치들(1713)이 제1 버스(1715)를 제2 버스(1719)에 연결하는 버스 브리지(1717)와 함께 제1 버스(1715)에 연결될 수 있다. 일 실시예에서, 코프로세서들, 고-쓰루풋 MIC 프로세서들, GPGPU, 가속기들(예를 들어, 그래픽 가속기들 또는 디지털 신호 프로세싱(DSP) 유닛들 등), 필드 프로그래머블 게이트 어레이들(field programmable gate arrays), 또는 임의의 다른 프로세서와 같은 하나 이상의 부가적인 프로세서(들)(1714)가 제1 버스(1715)에 연결된다. 일 실시예에서, 제2 버스(1719)는 낮은 핀 카운트(low pin count; LPC) 버스일 수 있다. 일 실시예에서, 예를 들어, 키보드 및/또는 마우스(1722), 통신 장치들(1727) 및 명령어들/코드 및 데이터(1730)를 포함할 수 있는 디스크 드라이브 또는 다른 대용량 저장 장치와 같은 저장 유닛(1728)을 포함하는 다양한 장치가 제2 버스(1719)에 연결될 수 있다. 또한, 오디오 I/O(1724)가 제2 버스(1719)에 연결될 수 있다. 다른 아키텍처들이 가능하다는 것에 주목한다. 예를 들어, 도 17의 점대점 아키텍처 대신에, 시스템은 멀티 드롭 버스 또는 다른 그러한 아키텍처를 구현할 수 있다.

이제 도 18을 참조하면, 본 발명의 실시예에 따른 제2 더욱 구체적인 예시적인 시스템(1800)의 블록도가 도시되어 있다. 도 17 및 도 18의 동일한 요소들은 동일한 참조 번호들을 갖고, 도 17의 특정 양태들은 도 18의 다른 양태들을 불명료하게 하는 것을 피하기 위하여 도 18에서 생략되었다.

도 18은 프로세서들(1770, 1780)이 각각 통합 메모리 및 I/O 제어 로직("CL")(1772 및 1782)을 포함할 수 있다는 것을 도시한다. 따라서, CL(1772 및 1782)은 통합 메모리 컨트롤러 유닛들을 포함하고, I/O 제어 로직을 포함한다. 도 18은 CL(1772 및 1782)에 연결된 메모리들(1732, 1734)뿐만 아니라 I/O 장치들(1813)도 제어 로직(1772, 1782)에 연결되는 것을 도시한다. 레거시 I/O 장치들(1814)이 칩셋(1790)에 연결된다.

이제 도 19를 참조하면, 본 발명의 실시예에 따른 SoC(1900)의 블록도가 도시되어 있다. 도 15의 유사한 요소들은 유사한 참조 번호들을 갖는다. 또한, 점선 상자들은 더 진보된 SoC들에 대한 옵션의 특징들이다. 도 19에서, 인터커넥트 유닛(들)(1902)이 하나 이상의 코어들(192A-N)의 세트 및 공유 캐시 유닛(들)(1506)을 포함하는 애플리케이션 프로세서(1910); 시스템 에이전트 유닛(1510); 버스 컨트롤러 유닛(들)(1515); 통합 메모리 컨트롤러 유닛(들)(1513); 통합 그래픽 로직, 이미지 프로세서, 오디오 프로세서, 및 비디오 프로세서를 포함할 수 있는 하나 이상의 코프로세서들(1919)의 세트; 정적 SRAM(static random access memory) 유닛(1930); DMA(direct memory access) 유닛(1932); 및 하나 이상의 외부 디스플레이들에 연결하기 위한 디스플레이 유닛(1940)에 연결된다. 일 실시예에서, 코프로세서(들)(1919)는 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 고-쓰루풋 MIC 프로세서, 임베디드 프로세서 등과 같은 특수 목적 프로세서를 포함한다.

본 명세서에 개시된 메커니즘들의 실시예들이 하드웨어, 소프트웨어, 펌웨어, 또는 그러한 구현 방식들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 적어도 하나의 프로세서, 저장 시스템(휘발성 및 불휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 장치, 및 적어도 하나의 출력 장치를 포함하는 프로그램 가능한 시스템들에서 실행되는 컴퓨터 프로그램들 또는 프로그램 코드로서 구현될 수 있다.

도 17에 도시된 코드(1730)와 같은 프로그램 코드가 입력 명령어들에 적용되어 본 명세서에 설명된 기능들을 수행하고 출력 정보를 생성할 수 있다. 출력 정보는 공지된 방식으로 하나 이상의 출력 장치에 적용될 수 있다. 본 출원의 목적들을 위해, 프로세싱 시스템은 예를 들어, 디지털 신호 프로세서(DSP), 마이크로컨트롤러, ASIC(application specific integrated circuit), 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.

프로그램 코드는 프로세싱 시스템과 통신하기 위해 고레벨 절차 또는 객체 지향 프로그래밍 언어로 구현될 수 있다. 프로그램 코드는 또한 원하는 경우 어셈블리 또는 기계 언어로 구현될 수 있다. 사실상, 본 명세서에 설명된 메커니즘들은 임의의 특정 프로그래밍 언어로 범위 한정되지 않는다. 임의의 경우, 언어는 컴파일 또는 인터프리트 언어일 수 있다.

적어도 일 실시예의 하나 이상의 양태들은 머신에 의해 판독될 때, 머신으로 하여금, 본 명세서에 설명된 기법들을 수행하는 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 나타내는 머신 판독 가능한 매체에 저장된 대표적인 명령어들에 의해 구현될 수 있다. "IP 코어들"로 알려진 그러한 표현들은 유형의 머신 판독 가능한 매체에 저장되어 다양한 고객들 또는 제조 설비들로 공급되어서 로직 또는 프로세서를 실제로 만드는 제조 기계들 내로 로드될 수 있다.

그러한 머신 판독 가능한 저장 매체는 하드 디스크들, 플로피 디스크들, 광 디스크들, CD-ROM(compact disk read-only memory), CD-RW(compact disk rewritable), 및 광자기 디스크들을 포함하는 임의의 다른 유형의 디스크, ROM(read-only memory), RAM(random access memory), 예를 들어, DRAM(dynamic random access memory), SRAM(static random access memory), EPROM(erasable programmable read-only memory), 플래시 메모리, EEPROM(electrically erasable programmable read-only memory), PCM(phase change memory), 자기 또는 광 카드들, 또는 전자 명령어들을 저장하기에 적절한 임의의 다른 유형의 매체와 같은 저장 매체를 포함하는 머신 또는 장치에 의해 제조 또는 형성된 물품들의 비-일시적 유형의 배열들을 포함할 수 있고, 이것으로 한정되지 않는다.

따라서, 본 발명의 실시예들은 또한 명령어들을 포함하거나 또는 본 명세서에 설명된 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 특징들을 정의하는, HDL(Hardware Description Language)과 같은 설계 데이터를 포함하는 비-일시적 유형의 머신 판독 가능한 매체를 포함한다. 그러한 실시예들을 또한 프로그램 제품들이라고 할 수 있다.

에뮬레이션(이진 변환, 코드 모핑 등을 포함함)

일부 경우, 명령어 변환기를 이용하여 소스 명령어 세트로부터 타겟 명령어 세트로 명령어를 변환할 수 있다. 예를 들어, 명령어 변환기는 코어에 의해 처리될 하나 이상의 다른 명령어들로 명령어를 (예를 들어, 정적 이진 변환, 동적 컴필레이션을 포함한 동적 이진 변환을 이용하여) 트랜슬레이트, 모프, 에뮬레이트, 또는 다른 방식으로 변환할 수 있다. 명령어 변환기는 소프트웨어, 하드웨어, 펌웨어, 또는 그의 조합으로 구현될 수 있다. 명령어 변환기는 온 프로세서, 오프 프로세서, 또는 부분적으로는 온 및 부분적으로는 오프 프로세서일 수 있다.

도 20은 본 발명의 실시예에 따른 소스 명령어 세트의 이진 명령어들을 타겟 명령어 세트의 이진 명령어들로 변환하기 위해 소프트웨어 명령어 변환기를 이용하는 것에 대비되는 블록도이다. 예시된 실시예에서, 명령어 변환기는 소프트웨어 명령어 변환기이지만, 대안적으로 명령어 변환기는 소프트웨어, 펌웨어, 하드웨어, 또는 그의 다양한 조합들로 구현될 수 있다. 도 20은 고레벨 언어(2002)로 된 프로그램이 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(2015)에 의해 선천적으로(natively) 실행될 수 있는 x86 이진 코드(2006)를 발생하기 위하여 x86 컴파일러(2004)를 이용하여 컴파일될 수 있는 것을 도시한다. 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(2015)는 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 결과를 실현하기 위하여, (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 상당 부분 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서에서 실행되도록 타겟으로 된 객체 코드 버전들의 애플리케이션들 또는 다른 소프트웨어를 호환가능하게 실행 또는 다른 방식으로 처리함으로써 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 기능들을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(2004)는 부가적인 연결 처리에 의해 또는 부가적인 연결 처리 없이, 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(2015)에서 실행될 수 있는 x86 이진 코드(2006)(예를 들어, 객체 코드)를 발생하도록 동작 가능한 컴파일러를 나타낸다. 유사하게, 도 20은 고레벨 언어(2002)로 된 프로그램이 적어도 하나의 x86 명령어 세트 코어를 갖지 않는 프로세서(2013)(예를 들어, 캘리포니아주 서니베일의 MIPS Technologies의 MIPS 명령어 세트를 실행하는 및/또는 캘리포니아주 서니베일의 ARM Holdings의 ARM 명령어 세트를 실행하는 코어들을 갖는 프로세서)에 의해 선천적으로 실행될 수 있는 대안적인 명령어 세트 이진 코드(2010)를 발생하기 위해 대안적인 명령어 세트 컴파일러(2208)를 이용하여 컴파일될 수 있다는 것을 도시한다. 명령어 변환기(2011)를 이용하여 x86 명령어 세트 코어를 갖지 않는 프로세서(2013)에 의해 선천적으로 실행될 수 있는 코드로 x86 이진 코드(2006)를 변환한다. 이러한 변환된 코드는 대안적인 명령어 세트 이진 코드(2010)와 동일할 가능성이 없고, 그것은 이것이 가능한 명령어 변환기를 만들기가 어렵기 때문이며; 그러나, 변환된 코드는 일반 연산을 실현하여 대안적인 명령어 세트로부터의 명령어들로 구성될 것이다. 따라서, 명령어 변환기(2011)는 에뮬레이션, 시뮬레이션 또는 임의의 다른 프로세스를 통해, 프로세서 또는 x86 명령어 세트 프로세서 또는 코어를 갖지 않는 다른 전자 장치가 x86 이진 코드(2006)를 실행할 수 있게 하는 소프트웨어, 펌웨어, 하드웨어, 또는 그의 조합을 나타낸다.

일부 실시예들에서, 8-비트, 16-비트, 32-비트, 및 64-비트의 연산 마스크 폭들, 또는 그의 일부 조합이 옵션으로 지원될 수 있다. 일부 실시예들에서, 명령어 세트는 각각의 지원된 상이한 연산 마스크 폭에 대해 상이한 연산 마스크 통합 명령어를 포함할 수 있다. 연산 마스크 통합 명령어의 오피코드가 연산 마스크의 폭을 묵시적으로 표시할 수 있다. 대안적으로, 연산 마스크 통합 명령어는 복수의 지원되는 상이한 연산 마스크 폭들을 위해 이용될 수 있다. 예를 들어, 연산 마스크 통합 명령어는 이용할 연산 마스크 폭을 표시하기 위해 하나 이상의 비트들 또는 필드를 가질 수 있다.

일부 실시예들에서, 연산 마스크 통합 명령어의 오피코드는 연산 마스크 통합 연산이 (예를 들어, 순열 제어 데이터(permute control data)를 통해) 특정 데이터 재배열 연산들이 명시적으로 특정될 필요 없이 및 특정 단일 또는 제한된 세트의 데이터 재배열 연산들이 요구되지 않고 수행됨을 표시할 수 있다. 명령어의 오피코드에 응답하여, 통합된 연산 마스크는 소스 연산 마스크에서의 마스킹된 및 마스킹되지 않은 요소들의 임의의 특정 배열에 관계없이 또는 상관없이 저장될 수 있다. 일부 실시예들에서, 명령어는 마스킹된 및 마스킹되지 않은 요소들이 통합된 연산 마스크를 발생하기 위해 어떻게 이동, 재배열, 또는 치환(permute)되는지를 명시적으로 특정하지 않는다. 일부 실시예들에서, 연산 마스크 통합 명령어는 요소들이 연산 마스크를 발생하기 위해 어떻게 이동 또는 재배열될 것인지를 명시적으로 특정하지 않고, 마스킹된 및 마스킹되지 않은 요소들의 배열에 의존하여 상이하게 요소들을 이동할 것이다.

도 4a, 4b, 6 및 7-10 중 임의의 것에 대해 설명된 컴포넌트들, 특징들, 및 상세들은 또한 도 1, 3 및 5 중 임의의 것에서 선택적으로 이용될 수 있다. 또한, 장치 중 임의의 것에 대해 본 명세서에 설명된 컴포넌트들, 특징들, 및 상세들은 또한, 실시예들에서 그러한 장치에 의해 및/또는 그러한 장치를 가지고 수행될 수 있는 본 명세서에 설명된 동작들 및 방법들 중 임의의 것에서 선택적으로 이용될 수 있다. 도 2a/2b에 대해 설명된 연산 마스크들에 대한 옵션의 특징들 및 상세들은 또한 도 1, 3, 4a, 4b, 및 5 중 임의의 것의 연산 마스크들에 적용할 수 있다.

예시적인 실시예들

다음의 예들은 추가 실시예들에 관한 것이다. 예들에서의 세부사항들은 하나 이상의 실시예들에서 어느 곳에도 이용될 수 있다.

예 1은 명령어 처리 장치이다. 명령어 처리 장치는 복수의 연산 마스크 레지스터들을 포함한다. 명령어 처리 장치는 또한 연산 마스크 통합 명령어를 수신하는 디코드 유닛을 포함한다. 연산 마스크 통합 명령어는 복수의 연산 마스크 레지스터들 중의 소스 연산 마스크 레지스터, 및 목적지 저장 장소를 표시한다. 소스 연산 마스크 레지스터는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함한다. 명령어 처리 장치는 또한 디코드 유닛과 연결된 실행 유닛을 포함한다. 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 목적지 저장 장소에 통합된 연산 마스크를 저장한다. 상기 통합된 연산 마스크는 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함한다.

예 2는 예 1의 요지를 포함하고, 옵션으로, 상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 마스킹된 요소들이 통합된 마스킹되지 않은 요소들 내에 배치되지 않도록 상기 마스킹되지 않은 요소들을 함께 통합한다.

예 3은 예 1의 요지를 포함하고, 옵션으로, 상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 통합된 연산 마스크의 최하위 부분에서 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 함께 통합한다.

예 4는 예 1의 요지를 포함하고, 옵션으로, 상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 통합된 연산 마스크의 최상위 부분에서 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 함께 통합한다.

예 5는 예 1의 요지를 포함하고, 옵션으로, 상기 디코드 유닛은 상기 연산 마스크 통합 명령어를 수신한다. 상기 연산 마스크 통합 명령어는 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최하위 부분에서 함께 통합됨을 표시하는 제1 값을 갖도록 동작 가능한 하나 이상의 비트들을 포함한다. 상기 연산 마스크 통합 명령어는 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최상위 부분에서 함께 통합됨을 표시하는 제2 값을 갖는다.

예 6은 예 1의 요지를 포함하고, 옵션으로, 상기 소스 연산 마스크 레지스터는 상기 마스킹된 및 마스킹되지 않은 요소들 각각이 상이한 단일 비트인 상기 소스 연산 마스크를 갖는다.

예 7은 예 6의 요지를 포함하고, 옵션으로, 각각의 마스킹된 요소는 이진 0의 값을 갖고, 각각의 마스킹되지 않은 요소는 이진 1의 값을 갖는다.

예 8은 예 1의 요지를 포함하고, 옵션으로, 상기 복수의 연산 마스크 레지스터들은 8개의 연산 마스크 레지스터들의 세트를 포함하고, 상기 8개의 연산 마스크 레지스터들 각각은 적어도 64-비트들까지 갖는 연산 마스크를 저장하고, 상기 디코드 유닛은 상기 8개의 연산 마스크 레지스터들 중 하나로서 상기 소스 연산 마스크 레지스터를 특정하기 위해 3-비트 필드를 갖는 상기 연산 마스크 통합 명령어를 수신한다.

예 9는 예 1의 요지를 포함하고, 상기 디코드 유닛은 상기 소스 연산 마스크 레지스터를 명시적으로 특정하고 상기 목적지 저장 장소로서 목적지 연산 마스크 레지스터를 명시적으로 특정하는 상기 연산 마스크 통합 명령어를 수신한다.

예 10은 예 1-9 중 어느 하나의 요지를 포함하고, 상기 디코드 유닛은 상기 통합된 연산 마스크가 상기 소스 연산 마스크 내의 상기 마스킹된 및 마스킹되지 않은 요소들의 임의의 특정 배열에 상관없이 저장됨을 표시하는 오피코드를 갖는 상기 연산 마스크 통합 명령어를 수신한다.

예 11은 예 1-9 중 어느 하나의 요지를 포함하고, 상기 연산 마스크 레지스터들은 패킹된 데이터에 대해 연산들을 서술하는 데 이용되는 연산 마스크들을 저장한다.

예 12는 프로세서 내에서의 방법이다. 이 방법은 연산 마스크 통합 명령어를 수신하는 단계를 포함한다. 연산 마스크 통합 명령어는 소스 연산 마스크 및 목적지 저장 장소를 표시한다. 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함한다. 이 방법은 또한 상기 연산 마스크 통합 명령어에 응답하여, 상기 목적지 저장 장소에 통합된 연산 마스크를 저장하는 단계를 포함한다. 상기 통합된 연산 마스크는 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함한다.

예 13은 예 12의 요지를 포함하고, 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들은 상기 통합된 연산 마스크의 최하위 부분에서 함께 통합된다.

예 14는 예 12의 요지를 포함하고, 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들은 상기 통합된 연산 마스크의 최상위 부분에서 함께 통합된다.

예 15는 예 12의 요지를 포함하고, 상기 연산 마스크 통합 명령어는 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최하위 부분에서 함께 통합됨을 표시하는 제1 값을 갖는 하나 이상의 비트들을 포함한다. 상기 하나 이상의 비트들은 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최상위 부분에서 함께 통합됨을 표시하는 제2 값을 갖는다.

예 16은 예 12의 요지를 포함하고, 상기 수신하는 단계는, 상기 마스킹된 및 마스킹되지 않은 요소들 각각이 상이한 단일 비트인 상기 소스 연산 마스크를 표시하는 상기 명령어를 수신하는 단계를 포함하고, 각각의 마스킹된 요소는 이진 0의 값을 갖고, 각각의 마스킹되지 않은 요소는 이진 1의 값을 갖는다.

예 17은 예 12의 요지를 포함하고, 상기 수신하는 단계는, 상기 통합된 연산 마스크가 상기 소스 연산 마스크 내의 상기 마스킹된 및 마스킹되지 않은 요소들의 임의의 특정 배열에 상관없이 저장됨을 표시하는 오피코드를 갖는 상기 연산 마스크 통합 명령어를 수신하는 단계를 포함한다.

예 18은 예 12의 요지를 포함하고, 상기 마스킹된 및 마스킹되지 않은 요소들 각각은 상이한 패킹된 데이터 요소에 대응하고, 상기 대응하는 패킹된 데이터 요소에 대해 연산을 서술하는 데 이용된다.

예 19는 예 12의 요지를 포함하고, 컴파일러가 상기 통합된 연산 마스크를 이용하여 코드를 벡터화(vectorize)하는 단계를 더 포함한다.

예 20은 명령어 처리 시스템이다. 이 시스템은 인터커넥트(interconnect)를 포함한다. 이 시스템은 상기 인터커넥트와 연결된 프로세서 및 상기 인터커넥트와 연결된 동적 랜덤 액세스 메모리(dynamic random access memory; DRAM)를 포함한다. 상기 DRAM은 연산 마스크 통합 명령어를 저장한다. 상기 연산 마스크 통합 명령어는 소스 연산 마스크 및 목적지 저장 장소를 표시한다. 상기 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함한다. 상기 연산 마스크 통합 명령어는, 상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금, 통합된 연산 마스크를 상기 목적지 저장 장소에 저장하는 것을 포함하는 동작들을 수행하게 하도록 동작 가능하다. 상기 통합된 연산 마스크는 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함한다.

예 21은 예 20의 요지를 포함하고, 상기 소스 연산 마스크는 패킹된 데이터에 대해 연산들을 서술하는 데 이용된다.

예 22는 예 20 또는 예 21의 요지를 포함하고, 상기 연산 마스크 통합 명령어는, 상기 통합된 연산 마스크가 상기 소스 연산 마스크의 임의의 값에 대해 저장됨을 표시하는 오피코드를 갖는다.

예 23은 제조 물품이다. 이 제조 물품은 연산 마스크 통합 명령어를 저장하는 비-일시적 머신 판독 가능한 저장 매체를 포함한다. 상기 연산 마스크 통합 명령어는 소스 연산 마스크 및 목적지를 표시한다. 상기 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함한다. 상기 연산 마스크 통합 명령어는, 머신에 의해 실행되는 경우, 상기 머신으로 하여금, 상기 연산 마스크 통합 명령어에 응답하여 상기 목적지에 통합된 연산 마스크를 저장하는 것을 포함하는 동작들을 수행하게 하도록 동작 가능하다. 상기 통합된 연산 마스크는 그것들 사이에 어떠한 마스킹된 요소들도 배치되지 않은 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함한다.

예 24는 예 23의 요지를 포함하고, 수신하는 것은, 상기 통합된 연산 마스크가 상기 소스 연산 마스크 내의 상기 마스킹된 및 마스킹되지 않은 요소들의 많은 상이한 배열에 대해 저장됨을 표시하는 오피코드를 갖는 상기 연산 마스크 통합 명령어를 수신하는 것을 포함한다.

예 25는 예 23 또는 예 24의 요지를 포함하고, 상기 연산 마스크 통합 명령어는, 상기 머신에 의해 실행되는 경우, 상기 머신으로 하여금, 상기 통합된 연산 마스크의 최하위 부분에서 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 함께 통합하게 하도록 동작 가능하고, 소스 연산 마스크는 서술을 위해 이용된다.

예 26은, 머신에 의해 실행되는 경우, 상기 머신으로 하여금, 청구항 12-19 중 어느 하나의 방법을 수행하게 하는 명령어들을 저장하는 머신 판독 가능한 저장 매체를 포함한다.

예 27은 청구항 12-19 중 어느 하나의 방법을 수행하는 장치를 포함한다.

예 28은 청구항 12-19 중 어느 하나의 방법을 수행하기 위한 수단을 포함하는 장치를 포함한다.

예 29는 본 명세서에 설명된 바와 실질적으로 같은 방법을 수행하는 장치를 포함한다.

예 30은 본 명세서에 설명된 바와 실질적으로 같은 방법을 수행하기 위한 수단을 포함하는 장치를 포함한다.

예 31은 본 명세서에 설명된 바와 실질적으로 같은 명령어를 실행하기 위한 장치를 포함한다.

예 32는 본 명세서에 설명된 바와 실질적으로 같은 명령어의 연산들을 수행하기 위한 수단을 포함하는 장치를 포함한다.

설명 및 청구항들에서, 용어들 "연결된" 및/또는 "접속된"이 그의 파생어들과 함께 이용되었다. 이 용어들은 서로 동의어로서 의도되지 않는다는 것을 이해해야 한다. 오히려, 특정 실시예들에서, "접속된"은 2개 이상의 요소들이 서로 직접 물리적 또는 전기적 접촉을 하고 있음을 나타내는 데 이용될 수 있다. "연결된"은 2개 이상의 요소들이 직접 물리적 또는 전기적 접촉을 하고 있음을 의미할 수 있다. 그러나, "연결된"은 또한 2개 이상의 요소들이 서로 직접 접촉하고 있지 않지만 여전히 서로 협력 또는 상호작용한다는 것을 의미할 수 있다. 예를 들어, 실행 유닛은 하나 이상의 중개 컴포넌트들을 통해 레지스터 또는 디코더와 연결될 수 있다. 도면들에서, 화살표들은 접속들 및 연결들을 나타내는 데 이용된다.

설명 및 청구항들에서, 용어 "로직"이 이용되었을 수 있다. 본 명세서에서 이용되는 바와 같이, 로직은 하드웨어, 펌웨어, 소프트웨어, 또는 그의 다양한 조합들과 같은 모듈을 포함할 수 있다. 로직의 예들은 집적 회로, ASIC(application specific integrated circuits), 아날로그 회로, 디지털 회로, 프로그램된 로직 장치, 명령어들을 포함하는 메모리 장치 등을 포함한다. 일부 실시예들에서, 하드웨어 로직은 잠재적으로 다른 회로 컴포넌트들과 함께 트랜지스터들 및/또는 게이트들을 포함할 수 있다.

위의 설명에서, 실시예들의 철저한 이해를 제공하기 위하여 특정 상세들이 제시되었다. 그러나, 다른 실시예들은 이들 특정 상세들 중 일부가 없이도 실시될 수 있다. 본 발명의 범위는 위에 제공된 특정 예들에 의해 결정되지 않고 오직 아래 청구항들에 의해서만 결정된다. 다른 사례들에서, 공지된 회로들, 구조들, 장치들, 및 연산들이 본 설명의 이해를 불명료하게 하는 것을 피하기 위해 블록도 형태로 상세 없이 도시되었다. 다수의 컴포넌트들이 도시되고 설명된 경우, 일부 경우에 이들 복수의 컴포넌트들은 하나의 컴포넌트로 통합될 수 있다. 단일 컴포넌트가 도시되고 설명된 경우, 일부 경우에 이 단일 컴포넌트는 2개 이상의 컴포넌트로 분리될 수 있다.

다양한 동작들 및 방법들이 설명되었다. 방법들 중 일부는 흐름도에서 비교적 기본적인 형태로 설명되었지만, 동작들은 옵션으로 방법들에서 제거 및/또는 추가될 수 있다. 또한, 흐름도는 예시적인 실시예들에 따라 동작들의 특정 순서를 나타내지만, 그 특정 순서는 예시적이다. 대안적인 실시예들은 옵션으로 동작들을 상이한 순서로 수행할 수 있고, 특정 동작들을 연결할 수 있고, 특정 동작들을 중첩할 수 있고, 등등이다.

특정 동작들은 하드웨어 컴포넌트들에 의해 수행될 수 있거나, 명령어들이 프로그램된 머신, 회로, 또는 하드웨어 컴포넌트(예를 들어, 프로세서, 프로세서의 부분, 회로 등)가 동작들을 수행하게 하고 및/또는 그 결과를 내는 데 이용될 수 있는 머신 실행 가능한 또는 회로 실행 가능한 명령어들로 구체화될 수 있다. 동작들은 또한 옵션으로 하드웨어와 소프트웨어의 조합에 의해 수행될 수 있다. 프로세서, 머신, 회로, 또는 하드웨어는 명령어를 실행 및/또는 처리하고 명령어에 응답하여 결과를 저장하도록 동작 가능한 특정 또는 구체적인 회로 또는 다른 로직(예를 들어, 펌웨어 및/또는 소프트웨어와 잠재적으로 연결되는 하드웨어)을 포함할 수 있다.

일부 실시예들은 머신 판독 가능한 매체를 포함하는 제조 물품(예를 들어, 컴퓨터 프로그램 제품)을 포함한다. 매체는 머신에 의해 판독 가능한 형태의 정보를 제공, 예를 들어, 저장하는 메커니즘을 포함할 수 있다. 머신 판독 가능한 매체는 머신에 의해 실행되는 경우 및/또는 실행될 때 머신으로 하여금 본 명세서에 개시된 하나 이상의 동작들, 방법들, 또는 기법들을 수행하게 하고 및/또는 수행하는 결과가 생기게 하도록 동작 가능한 명령어 또는 명령어들의 시퀀스를 제공하거나 거기에 저장할 수 있다. 머신 판독 가능한 매체는 본 명세서에 개시된 명령어들의 실시예들 중 하나 이상을 제공, 예를 들어, 저장할 수 있다.

일부 실시예들에서, 머신 판독 가능한 매체는 유형의 및/또는 비-일시적 머신 판독 가능한 저장 매체를 포함할 수 있다. 예를 들어, 유형의 및/또는 비-일시적 머신 판독 가능한 저장 매체는 플로피 디스켓, 광 저장 매체, 광 디스크, 광 데이터 저장 장치, CD-ROM, 자기 디스크, 광자기 디스크, ROM(read only memory), PROM(programmable ROM), EPROM(erasable-and-programmable ROM), EEPROM(electrically-erasable-and-programmable ROM), RAM(random access memory), SRAM(static-RAM), DRAM(dynamic-RAM), 플래시 메모리, 상 변화 메모리, 상 변화 데이터 저장 물질, 불휘발성 메모리, 불휘발성 데이터 저장 장치, 비-일시적 메모리, 비-일시적 데이터 저장 장치 등을 포함할 수 있다. 비-일시적 머신 판독 가능한 저장 매체는 일시적 전파 신호(transitory propagated signal)로 이루어지지 않는다. 다른 실시예에서, 머신 판독 가능한 매체는 일시적 머신 판독 가능한 통신 매체, 예를 들어, 전기, 광, 음향 또는 다른 형태의 전파 신호들, 예를 들어, 캐리어파, 적외선 신호, 디지털 신호 등을 포함할 수 있다.

적절한 머신들의 예들은 범용 프로세서, 특수 목적 프로세서, 명령어 처리 장치, 디지털 논리 회로, 집적 회로 등을 포함하고, 이것으로 한정되지 않는다. 적절한 머신들의 또 다른 예들은 그러한 프로세서, 명령어 처리 장치, 디지털 논리 회로, 또는 집적 회로를 포함하는 컴퓨팅 장치들 및 다른 전자 장치들을 포함한다. 그러한 컴퓨팅 장치들 및 전자 장치들의 예들은 데스크톱 컴퓨터들, 랩톱 컴퓨터들, 노트북 컴퓨터들, 태블릿 컴퓨터들, 넷북들, 스마트폰들, 셀룰러 폰들, 서버들, 네트워크 장치들(예를 들어, 라우터들 및 스위치들), 모바일 인터넷 장치들(Mobile Internet devices; MIDs), 미디어 플레이어들, 스마트 텔레비전들, 넷톱들, 셋톱박스들, 및 비디오 게임 컨트롤러들을 포함하고, 이것으로 한정되지 않는다.

본 명세서 전체에 걸쳐서 예를 들어, "일 실시예", "실시예", "하나 이상의 실시예들", "일부 실시예들"에 대한 언급은, 특정 특징이 본 발명의 실시에 포함될 수 있고 반드시 포함되는 것이 요구되지는 않는다는 것을 나타낸다. 유사하게, 본 개시를 간소화하고 다양한 본 발명의 양태들의 이해를 돕기 위해 설명에서 다양한 특징들이 때때로 단일 실시예, 도면, 또는 그의 설명에서 함께 그룹화된다. 그러나, 이러한 개시 방법은 본 발명이 각 청구항에 명확히 기재된 것보다 더 많은 특징을 요구하는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 다음의 청구항들이 반영하는 바에 따라, 본 발명의 양태들은 단일 개시된 실시예의 모든 특징보다 적게 있다. 따라서, 상세한 설명을 뒤따르는 청구항들은 이 상세한 설명에 명확히 포함되며, 각 청구항은 본 발명의 개별 실시예로서 독립한다.

100: 프로세서
101: 명령어 세트 아키텍처
102: 명령어 세트
103: 옵션의 종래의 마스킹된 패킹된 데이터 명령어(들)
104: 연산 마스크 통합 명령어(들)
105: 아키텍처 레지스터들
106: 패킹된 데이터 레지스터들
107: 패킹된 데이터 연산 마스크 레지스터들
108: 실행 로직

Claims

명령어 처리 장치로서,
복수의 연산 마스크 레지스터들;
상기 복수의 연산 마스크 레지스터들 중의 소스 연산 마스크 레지스터, 및 목적지 저장 장소를 표시하는 연산 마스크 통합 명령어(operation mask consolidation instruction)를 수신하는 디코드 유닛 - 상기 소스 연산 마스크 레지스터는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함하는 소스 연산 마스크를 포함함 - ; 및
상기 디코드 유닛과 연결된 실행 유닛
을 포함하고,
상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 목적지 저장 장소에 통합된 연산 마스크(consolidated operation mask)를 저장하고, 상기 통합된 연산 마스크는 함께 통합된 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함하는 명령어 처리 장치.
제1항에 있어서, 상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 마스킹된 요소들이 통합된 마스킹되지 않은 요소들 내에 배치되지 않도록 상기 마스킹되지 않은 요소들을 함께 통합하는 명령어 처리 장치.
제1항에 있어서, 상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 통합된 연산 마스크의 최하위 부분에서 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 함께 통합하는 명령어 처리 장치.
제1항에 있어서, 상기 실행 유닛은, 상기 연산 마스크 통합 명령어에 응답하여, 상기 통합된 연산 마스크의 최상위 부분에서 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 함께 통합하는 명령어 처리 장치.
제1항에 있어서, 상기 디코드 유닛은,
상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최하위 부분에서 함께 통합됨을 표시하는 제1 값; 및
상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최상위 부분에서 함께 통합됨을 표시하는 제2 값
을 갖도록 동작 가능한 하나 이상의 비트들을 포함하는 상기 연산 마스크 통합 명령어를 수신하는 명령어 처리 장치.
제1항에 있어서, 상기 소스 연산 마스크 레지스터는 상기 마스킹된 요소들 및 마스킹되지 않은 요소들 각각이 상이한 단일 비트인 상기 소스 연산 마스크를 갖는 명령어 처리 장치.
제6항에 있어서, 각각의 마스킹된 요소는 이진 0의 값을 갖고, 각각의 마스킹되지 않은 요소는 이진 1의 값을 갖는 명령어 처리 장치.
제1항에 있어서, 상기 복수의 연산 마스크 레지스터들은 8개의 연산 마스크 레지스터들의 세트를 포함하고, 상기 8개의 연산 마스크 레지스터들 각각은 적어도 64-비트들까지 갖는 연산 마스크를 저장하고, 상기 디코드 유닛은 상기 8개의 연산 마스크 레지스터들 중 하나로서 상기 소스 연산 마스크 레지스터를 특정하기 위해 3-비트 필드를 갖는 상기 연산 마스크 통합 명령어를 수신하는 명령어 처리 장치.
제1항에 있어서, 상기 디코드 유닛은 상기 소스 연산 마스크 레지스터를 명시적으로 특정하고 상기 목적지 저장 장소로서 목적지 연산 마스크 레지스터를 명시적으로 특정하는 상기 연산 마스크 통합 명령어를 수신하는 명령어 처리 장치.
제1항에 있어서, 상기 디코드 유닛은 상기 통합된 연산 마스크가 상기 소스 연산 마스크 내의 상기 마스킹된 요소들 및 마스킹되지 않은 요소들의 임의의 특정 배열에 상관없이 저장됨을 표시하는 오피코드(opcode)를 갖는 상기 연산 마스크 통합 명령어를 수신하는 명령어 처리 장치.
제1항에 있어서, 상기 연산 마스크 레지스터들은 패킹된 데이터에 대해 연산들을 서술하는 데 이용되는 연산 마스크들을 저장하는 명령어 처리 장치.
프로세서 내에서의 방법으로서,
소스 연산 마스크 및 목적지 저장 장소를 표시하는 연산 마스크 통합 명령어를 수신하는 단계 - 상기 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함함 - ; 및
상기 연산 마스크 통합 명령어에 응답하여, 상기 목적지 저장 장소에 통합된 연산 마스크를 저장하는 단계
를 포함하고, 상기 통합된 연산 마스크는 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함하는, 프로세서 내에서의 방법.
제12항에 있어서, 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들은 상기 통합된 연산 마스크의 최하위 부분에서 함께 통합되는, 프로세서 내에서의 방법.
제12항에 있어서, 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들은 상기 통합된 연산 마스크의 최상위 부분에서 함께 통합되는, 프로세서 내에서의 방법.
제12항에 있어서, 상기 연산 마스크 통합 명령어는,
상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최하위 부분에서 함께 통합됨을 표시하는 제1 값; 및
상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들이 상기 통합된 연산 마스크의 최상위 부분에서 함께 통합됨을 표시하는 제2 값
을 갖는 하나 이상의 비트들을 포함하는, 프로세서 내에서의 방법.
제12항에 있어서, 상기 수신하는 단계는, 상기 마스킹된 요소들 및 마스킹되지 않은 요소들 각각이 상이한 단일 비트인 상기 소스 연산 마스크를 표시하는 명령어를 수신하는 단계를 포함하고, 각각의 마스킹된 요소는 이진 0의 값을 갖고, 각각의 마스킹되지 않은 요소는 이진 1의 값을 갖는, 프로세서 내에서의 방법.
제12항에 있어서, 상기 수신하는 단계는, 상기 통합된 연산 마스크가 상기 소스 연산 마스크 내의 상기 마스킹된 요소들 및 마스킹되지 않은 요소들의 임의의 특정 배열에 상관없이 저장됨을 표시하는 오피코드를 갖는 상기 연산 마스크 통합 명령어를 수신하는 단계를 포함하는, 프로세서 내에서의 방법.
제12항에 있어서, 상기 마스킹된 요소들 및 마스킹되지 않은 요소들 각각은 상이한 패킹된 데이터 요소에 대응하고, 상기 대응하는 패킹된 데이터 요소에 대해 연산을 서술하는 데 이용되는, 프로세서 내에서의 방법.
제12항에 있어서, 컴파일러가 상기 통합된 연산 마스크를 이용하여 코드를 벡터화(vectorize)하는 단계를 더 포함하는, 프로세서 내에서의 방법.
명령어 처리 시스템으로서,
인터커넥트(interconnect);
상기 인터커넥트와 연결된 프로세서; 및
상기 인터커넥트와 연결된 동적 랜덤 액세스 메모리(dynamic random access memory; DRAM)
를 포함하고,
상기 DRAM은 연산 마스크 통합 명령어를 저장하고, 상기 연산 마스크 통합 명령어는 소스 연산 마스크 및 목적지 저장 장소를 표시하고, 상기 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함하고, 상기 연산 마스크 통합 명령어는, 상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금, 통합된 연산 마스크를 상기 목적지 저장 장소에 저장하는 것을 포함하는 동작들을 수행하게 하도록 동작 가능하고, 상기 통합된 연산 마스크는 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함하는 명령어 처리 시스템.
제20항에 있어서, 상기 소스 연산 마스크는 패킹된 데이터에 대해 연산들을 서술하는 데 이용되는 명령어 처리 시스템.
제20항에 있어서, 상기 연산 마스크 통합 명령어는, 상기 통합된 연산 마스크가 상기 소스 연산 마스크의 임의의 값에 대해 저장됨을 표시하는 오피코드를 갖는 명령어 처리 시스템.
제조 물품으로서,
연산 마스크 통합 명령어를 저장하는 비-일시적 머신 판독 가능한 저장 매체를 포함하고, 상기 연산 마스크 통합 명령어는 소스 연산 마스크 및 목적지를 표시하고, 상기 소스 연산 마스크는 복수의 마스킹되지 않은 요소들 내에 배치되는 복수의 마스킹된 요소들을 포함하고, 상기 연산 마스크 통합 명령어는, 머신에 의해 실행되는 경우, 상기 머신으로 하여금, 상기 연산 마스크 통합 명령어에 응답하여 상기 목적지에 통합된 연산 마스크를 저장하는 것을 포함하는 동작들을 수행하게 하도록 동작 가능하고, 상기 통합된 연산 마스크는 그것들 사이에 어떠한 마스킹된 요소들도 배치되지 않은 함께 통합된 상기 소스 연산 마스크로부터의 상기 마스킹되지 않은 요소들을 포함하는 제조 물품.
제23항에 있어서, 수신하는 것은, 상기 통합된 연산 마스크가 상기 소스 연산 마스크 내의 상기 마스킹된 요소들 및 마스킹되지 않은 요소들의 많은 상이한 배열에 대해 저장됨을 표시하는 오피코드를 갖는 상기 연산 마스크 통합 명령어를 수신하는 것을 포함하는 제조 물품.