KR101856833B1

KR101856833B1 - 레지스터들의 세트를 복수의 소형 레지스터들 또는 조합된 대형 레지스터들로서 액세스하는 프로세서들, 방법들, 및 시스템들

Info

Publication number: KR101856833B1
Application number: KR1020157031786A
Authority: KR
Inventors: 브렛 엘. 톨; 로나크 싱할; 부포드 엠. 가이; 미샬리 나이크
Original assignee: 인텔 코포레이션
Priority date: 2013-06-28
Filing date: 2014-06-26
Publication date: 2018-05-10
Also published as: TW201523437A; CN105264489B; TWI599948B; US10228941B2; CN105264489A; RU2639695C2; US20150006865A1; EP3014419A1; EP3014419A4; BR112015030066A2; RU2015151125A; KR20150141994A; WO2014210345A1

Abstract

일 양상의 프로세서는 패킹된 데이터를 저장할 수 있는 레지스터들의 세트를 포함한다. 실행 유닛이 레지스터들의 세트와 연결된다. 실행 유닛은 명령어들에 응답하여 적어도 2가지 상이한 방식들로 레지스터들의 세트를 액세스한다. 적어도 2가지 상이한 방식들은 레지스터들의 세트가 복수의 N 비트 레지스터들을 나타내는 제1 방식을 포함한다. 적어도 2가지 상이한 방식들은 레지스터들의 세트가 적어도 2N 비트의 단일 레지스터를 나타내는 제2 방식을 또한 포함한다. 일 양상에서, 적어도 2N 비트는 적어도 256 비트이다.

Description

레지스터들의 세트를 복수의 소형 레지스터들 또는 조합된 대형 레지스터들로서 액세스하는 프로세서들, 방법들, 및 시스템들{PROCESSORS, METHODS, AND SYSTEMS TO ACCESS A SET OF REGISTERS AS EITHER A PLURALITY OF SMALLER REGISTERS OR A COMBINED LARGER REGISTER}

본 명세서에 설명되는 실시예들은 일반적으로 프로세서들에 관련된다. 구체적으로, 본 명세서에 설명되는 실시예들은 일반적으로 프로세서들에서 레지스터들의 활용에 관련된다.

많은 프로세서들이 SIMD(Single Instruction, Multiple Data) 아키텍처들을 갖는다. SIMD 아키텍처들에서는, 패킹된 데이터 명령어, 벡터 명령어, 또는 SIMD 명령어가 다수의 데이터 엘리먼트들(예를 들어, 다수 쌍들의 데이터 엘리먼트들) 상에서 동시에(예를 들어, 병렬로) 동작할 수 있다. 프로세서는 다수의 연산들을 동시에(예를 들어, 병렬로) 수행하도록 패킹된 데이터 명령어에 응답하는 병렬 실행 하드웨어를 가질 수 있다.

다수의 데이터 엘리먼트들은 패킹된 데이터로서 레지스터들 또는 메모리 위치들 내에 패킹될 수 있다. 패킹된 데이터에서, 레지스터 또는 다른 스토리지 위치들의 비트은 일련의 데이터 엘리먼트들로 논리적으로 분할될 수 있다. 예를 들어, 64 비트 폭 패킹된 데이터 레지스터는 2개의 32 비트 데이터 엘리먼트들, 4개의 16 비트 데이터 엘리먼트들, 또는 8개의 8 비트 데이터 엘리먼트들을 가질 수 있다.

일부 프로세서들에서는, 수년에 걸쳐 패킹된 데이터 오퍼랜드들의 폭에 점진적인 증가가 있었다. 패킹된 데이터 오퍼랜드들의 폭의 이러한 증가는 일반적으로 더 많은 데이터 엘리먼트들이 동시에(예를 들어, 병렬로) 처리되게 하고, 이는 일반적으로 성능을 개선하는 경향이 있다. 예를 들어, 128 비트 패킹된 데이터가 사용될 때, 64 비트 패킹된 데이터의 경우에는 단 4개의 16 비트 데이터 엘리먼트들 대신에 8개의 16 비트 데이터 엘리먼트들이 동시에 처리될 수 있다.

그러나, 더 넓게 패킹된 데이터의 이러한 사용에 대해 가능한 하나의 결점은 레지스터들 및 레지스터 파일들의 사이즈에서 가능한 대응하는 증가이다. 예를 들어, 64 비트 레지스터들의 세트의 각 레지스터를 그들이 각각 128 레지스터들이 되도록 확장하는 것은 레지스터들의 사이즈(예를 들어, 다이 상에서 레지스터들에 의해 차지되는 영역 또는 풋프린트)를 대략 2배로 할 것이다. 더 많은 수의 레지스터들의 사이즈는 대략 2배로 될 수 있기 때문에 아키텍처의 레지스터들보다 구현되는 물리적 레지스터들이 더 많은 경우에 이러한 영향은 구현들에서 훨씬 더 클 것이다. 레지스터들 및 레지스터 파일들의 사이즈에서 이러한 증가에 대해 가능한 다른 결점은, 컨텍스트 스위치들, 전력 모드 상태 저장들, 및 유사한 천이들에 대해 레지스터들로 및 레지스터들로부터 이동될 필요가 있는 데이터의 양에서 대응하는 증가(예를 들어, 상태 또는 컨텍스트)이다. 예를 들어, 각 레지스터에 대해, 64 비트 폭 레지스터의 경우에 단지 64 비트 대신에, 128 비트 폭 레지스터의 경우에 128 비트이 레지스터에 및 레지스터로부터 이동될 필요가 있을 수 있다.

본 발명은 본 발명의 실시예들을 예시하는데 사용되는 발명의 상세한 설명 및 첨부 도면을 참조하여 가장 잘 이해될 수 있다. 도면들에서:
도 1은 프로세서의 일 실시예의 블럭도이다.
도 2는 프로세서에서 및/또는 프로세서에 의해 수행되는 방법의 일 실시예의 블럭 흐름도이다.
도 3은 일련의 레지스터들이 제1 관점에서는 128 비트 패킹된 데이터 레지스터들로서 그리고 제2 관점에서는 256 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예의 블럭도이다.
도 4는 일련의 레지스터들이 제1 관점에서는 64 비트 패킹된 데이터 레지스터들로서, 제2 관점에서는 128 비트 패킹된 데이터 레지스터들로서, 그리고 제3 관점에서는 256 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예의 블럭도이다.
도 5는 일련의 레지스터들이 제1 관점에서는 128 비트 패킹된 데이터 레지스터들로서, 제2 관점에서는 256 비트 패킹된 데이터 레지스터들로서, 그리고 제3 관점에서는 512 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예의 블럭도이다.
도 6은 일련의 레지스터들이 제1 관점에서는 255 비트 패킹된 데이터 레지스터들로서 제2 관점에서는 512 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예의 블럭도이다.
도 7a-c는 일련의 레지스터들의 상이한 관점들을 활용하기에 적합한 명령어 포맷들의 실시예들의 블럭도들이다.
도 7d는 적합한 패킹된 데이터 포맷들의 예들의 블럭도이다.
도 8a는 본 발명의 실시예들에 따라 예시적인 순차 파이프라인 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 파이프라인 양자 모두를 도시하는 블럭도이다.
도 8b는 본 발명의 실시예들에 따라 프로세서에 포함될 순차 아키텍처 코어의 예시적인 실시예 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 아키텍처 코어 양자 모두를 도시하는 블럭도이다.
도 9a는 본 발명의 실시예들에 따른 단일 프로세서 코어, 온-다이 상호 접속 네트워크에 대한 그의 접속 및 레벨 2(L2) 캐시의 그의 로컬 서브셋의 블럭도이다.
도 9b는 본 발명의 실시예들에 따른 도 9a의 프로세서 코어의 부분의 확대도이다.
도 10은 본 발명의 실시예들에 따른 하나보다 많은 코어를 가질 수 있고, 통합된 메모리 제어기를 가질 수 있고, 통합된 그래픽을 가질 수 있는 프로세서의 블럭도이다.
도 11은 본 발명의 일 실시예에 따른 시스템의 블럭도이다.
도 12는 본 발명의 일 실시예에 따른 첫번째 더 구체적인 예시적인 시스템의 블럭도이다.
도 13은 본 발명의 일 실시예에 따른 두번째 더 구체적인 예시적인 시스템의 블럭도이다.
도 14는 본 발명의 일 실시예에 따른 SoC의 블럭도이다.
도 15는 본 발명의 실시예들에 따른 소스 명령어 세트에서의 바이너리 명령어들을 타겟 명령어 세트에서의 바이너리 명령어들로 변환하기 위해 소프트웨어 명령어 변환기를 사용하는 것을 대비하는 블럭도이다.

본 명세서에는 일련의 레지스터들이 복수의 상대적으로 더 작은 레지스터들로서 또는 단일의 상대적으로 더 큰 레지스터로서 보이거나 또는 액세스되게 하는 프로세서들, 방법들, 및 시스템들이 개시된다. 이하의 설명에서는, 다수의 구체적 상세사항들(예를 들어, 구체적 레지스터 사이즈들, 레지스터들, 명령어들 및 포맷들의 수들, 로직 구현들, 프로세서 구성들, 마이크로아키텍처 상세사항들, 동작들의 시퀀스들, 시스템 컴포넌트들의 타입들 및 상호관계들 등)이 제시된다. 그러나, 본 발명의 실시예들은 이러한 구체적 상세사항들 없이도 실시될 수 있다는 것이 이해된다. 다른 경우들에서, 공지된 회로들, 구조들 및 기술들은 이러한 설명의 이해를 불명료하게 하지 않기 위해 상세히 나타내지 않았다.

도 1은 프로세서(100)의 일 실시예의 블럭도이다. 프로세서는 명령어들을 처리하도록 동작가능한 명령어 처리 장치를 나타낸다. 일부 실시예들에서, 프로세서는 범용 프로세서(예를 들어, 데스크톱, 랩톱 등의 컴퓨터들에서 종종 CPU(Central Processing Unit)으로서 사용되는 타입의 범용 마이크로프로세서)일 수 있다. 대안적으로, 프로세서는 특수 목적 프로세서일 수 있다. 적합한 특수 목적 프로세서들의 예들은, 몇몇 예를 들자면, 네트워크 프로세서들, 통신 프로세서들, 암호화 프로세서들, 그래픽 프로세서들, 코-프로세서들, 임베디드 프로세서들, DSP들(Digital Signal Processors) 및 제어기들(예를 들어, 마이크로제어기들)을 포함하지만, 이에 제한되는 것은 아니다. 프로세서는 다양한 CISC(Complex Instruction Set Computing) 프로세서들, 다양한 RISC(Reduced Instruction Set Computing) 프로세서들, 다양한 VLIW(Very Long Instruction Word) 프로세서들, 이들의 다양한 복합물들, 또는 다른 타입들의 프로세서들 전부 중 임의의 것일 수 있다.

프로세서는 또한 레지스터들의 세트(108)를 포함한다. 각각의 레지스터들은 온-프로세서(on-processor) 및/또는 온-다이 스토리지 위치(on-die storage location)를 나타낼 수 있다. 일부 실시예들에서, 레지스터들의 세트는 패킹된 데이터 레지스터들을 나타낼 수 있거나, 또는 그렇지 않으면 패킹된 데이터, 벡터 데이터 또는 SIMD 데이터를 저장할 수 있을 수 있다. 패킹된 데이터 레지스터들은, 공지된 기술들을 사용하여 상이한 마이크로아키텍처들에서 상이한 방식들로 구현될 수 있고, 임의의 특정 타입의 회로 또는 메커니즘에 제한되는 것은 아니다. 다양한 상이한 타입들의 레지스터들이 적합하다. 적합한 타입들의 레지스터들의 예들은, 이에 제한되는 것은 아니지만, 전용 물리적 레지스터들, 레지스터 리네이밍을 사용하는 다이나믹하게 할당되는 물리적 레지스터들, 및 이들의 조합들을 포함한다.

프로세서는 레지스터들의 세트(108) 상에 또는 다른 방식으로 이와 관련되는 적어도 하나의 레지스터를 나타내는 명령어(102)를 수신할 수 있다. 이러한 명령어는 머신 코드 명령어, 어셈블리 언어 명령어, 매크로명령어, 또는 프로세서의 명령어 세트의 제어 신호를 나타낼 수 있다. 명령어는 적어도 레지스터(예를 들어, 적어도 하나의 소스 및/또는 목적지 오퍼랜드)를 명시적으로 명시할(예를 들어, 비트의 세트 또는 하나 아싱의 필드들을 통함) 수 있거나, 또는 다른 방식으로 나타낼(예를 들어, 암시적으로 나타냄) 수 있다. 일 예로서, 명령어는 소스 오퍼랜드로서 사용되는 단일 레지스터를 명시할 수 있고, 이러한 단일 레지스터가 목적지 오퍼랜드로서 또한 사용될 수 있거나, 이러한 명령어가 상이한 목적지 오퍼랜드를 추가적으로 명시할 수 있다. 다른 예로서, 명령어는 제1 소스 오퍼랜드로서 사용되는 제1 레지스터 및 제2 소스 오퍼랜드로서 사용되는 제2 레지스터를 명시할 수 있고, 소스 오퍼랜드들에 대해 명시된 레지스터들 중 하나가 또한 목적지 오퍼랜드로서 사용될 수 있거나, 또는 이러한 명령어가 상이한 목적지 오퍼랜드를 추가적으로 명시할 수 있다. 이들은 단지 몇몇 예시적인 예들이다. 명령어가 레지스터들의 세트와 관련된 적어도 하나의 레지스터를 나타내는 한, 본 발명의 범위가 이러한 명령어의 특정 타입에 의해 제한되는 것은 아니다. 적합한 타입들의 명령어들의 예들은, 몇몇 예를 들자면, 이에 제한되는 것은 아니지만, 패킹된 산술 명령어들(예를 들어, 패킹된 덧셈 명령어들, 패킹된 곱셈 명령어들 등), 패킹된 논리 명령어들(예를 들어, 패킹된 순환 명령어들, 패킹된 시프트 명령어들, 패킹된 비교 명령어들, 패킹된 논리적 OR 명령어들 들), 패킹된 메모리 액세스 명령어들(예를 들어, 수집 명령어들, 스캐터 명령어들 등)을 포함한다.

프로세서는 명령어 디코드 유닛(104)을 포함한다. 명령어 디코드 유닛은 디코드 유닛, 디코더, 또는 디코드 로직이라고도 할 수 있다. 디코드 유닛은, 상대적 상위 레벨 명령어들(예를 들어, 머신 코드 명령어들, 어셈블리 언어 명령어들, 매크로명령어들)을 수신하여 디코드할 수 있고, 상위 레벨 명령어들을 반영하고, 나타내고, 및/또는 이로부터 유도되는 하나 이상의 상대적 하위 레벨 명령어들 또는 제어 신호들(예를 들어, 마이크로명령어들, 마이크로 연산들, 마이크로 코드 엔트리 포인트들)을 출력할 수 있다. 하나 이상의 하위 레벨 명령어들 또는 제어 신호들은 하나 이상의 하위 레벨(예를 들어, 회로 레벨 또는 하드웨어 레벨) 연산들을 통해 상위 레벨 명령어를 구현할 수 있다. 디코드 유닛은, 이에 제한되는 것은 아니지만, 마이크로코드 ROM들(Read Only Memories), 룩업 테이블들, 하드웨어 구현들, PLA들(Programmable Logic Arrays) 및 관련 기술분야에 공지된 디코드 유닛들을 구현하는데 사용되는 다른 메커니즘들을 포함하는 다양한 상이한 메커니즘들을 사용하여 구현될 수 있다. 다른 실시예들에서는, 디코드 유닛 대신에, 명령어 에뮬레이터, 트랜슬레이터, 모퍼(morpher), 인터프리터 또는 다른 명령어 변환 로직이 사용될 수 있다.

다시 도 1을 참조하면, 실행 유닛(106)이 디코드 유닛(104) 및 레지스터들의 세트(108)와 연결된다. 예를 들어, 실행 유닛은, 산술 유닛, 논리 유닛, 산술 논리 유닛(ALU), 산술 및 논리 연산들을 수행하는 디지털 회로 또는 로직, 메모리 실행 유닛 등을 포함할 수 있다. 실행 유닛은 명령어(102)를 나타내는 및/또는 명령어(102)로부터 유도되는 하나 이상의 디코드되거나 또는 다른 방식으로 변환된 명령어들 또는 제어 신호들을 수신할 수 있다. 실행 유닛 및/또는 프로세서는 명령어(102)에 응답하여(예를 들어, 명령어(102)로부터 디코드되거나 또는 따른 방식으로 유도된 하나 이상의 명령어들 또는 제어 신호들에 응답하여) 연산들을 수행하도록 동작될 수 있는 명시적인 또는 특정한 로직(예를 들어, 트랜지스터들, 회로, 또는 펌웨어(예를 들어, 불휘말성 메모리에 저장된 명령어들) 및/또는 소프트웨어와 잠재적으로 조합되는 다른 하드웨어)을 포함할 수 있다.

일부 실시예들에서, 실행 유닛은, 명령어(102)에 응답하여 및/또는 명령어(102)의 결과로서, 레지스터들의 적어도 2가지 상이한 방식들 또는 관점들 중 하나로 또는 양자 모두로 레지스터들의 세트(108)를 액세스하도록 동작될 수 있다. 일부 실시예들에서, 이러한 적어도 2가지 상이한 방식들 또는 관점들은, 레지스터들의 세트(108)가 복수의 N 비트 레지스터로서 보여지게 되거나 또는 다른 방식으로 복수의 N 비트 레지스터들을 나타내는 제1 방식 또는 관점(110)을 포함할 수 있다. 일부 실시예들에서, 이러한 적어도 2가지상이한 방식들 또는 관점들은, 레지스터들의 세트가 적어도 2N 비트의 단일 레지스터로서 보여지게 되거나 또는 다른 방식으로 적어도 2N 비트의 단일 레지스터를 나타내는 제2 방식 또는 관점(112)을 포함할 수 있다. 일부 실시예들에서, 이러한 적어도 2N 비트은 적어도 256 비트이다. 다른 실시예들에서, 레지스터들의 세트는 N 비트 레지스터들(예를 들어, 128 비트 레지스터들, 256 비트 레지스터들 등)일 수 있다. 일부 실시예들에서, 레지스터들의 세트는 N/2 비트 레지스터들(예를 들어, 64 비트 레지스터들, 128 비트 레지스터들 등)일 수 있다.

하나의 명시적인 예로서, 레지스터들의 세트(108)는 2개의 N 비트 레지스터들(예를 들어, 128 비트 레지스터들)을 포함할 수 있다. 제1 방식 또는 관점(110)에서, 2개의 N 비트 레지스터들(예를 들어, 128 비트 레지스터들)은 2개의 N 비트(예를 들어, 128 비트) 레지스터들로서 보일 수 있거나 또는 다른 방식으로 2개의 N 비트(예를 들어, 128 비트) 레지스터들을 나타낼 수 있다. 제2 방식 또는 관점(112)에서, 2개의 N 비트 레지스터들(예를 들어, 128 비트 레지스터들)은 적어도 2N 비트(예를 들어, 256 비트, 512 비트 등)의 단일 레지스터로서 보일 수 있거나 또는 다른 방식으로 적어도 2N 비트(예를 들어, 256 비트, 512 비트 등)의 단일 레지스터를 나타낼 수 있다. 일부 실시예들에서는, 레지스터들의 세트(108)를 액세스하는 단지 2가지보다 많은 상이한 관점들 또는 방식들이 존재할 수 있다. 예를 들어, 일부 실시예들에서는, 레지스터들의 세트(108)를 액세스하거나 보는 3가지, 4가지, 또는 4가지보다 많은 상이한 방식들이 존재할 수 있다. 예를 들어, 일부 실시예들에서, 이러한 예는 레지스터들의 세트를 4개의 N/2 비트 레지스터들(예를 들어, 64 비트 레지스터들)로서 액세스하는 것을 추가적으로 지원할 수 있다.

다른 명시적인 예로서, 레지스터들의 세트(108)는 4개의 N/2 비트 레지스터들(예를 들어, 64 비트 레지스터들)을 포함할 수 있다. 제1 방식 또는 관점(110)에서, 이러한 4개의 N/2 비트 레지스터들(예를 들어, 64 비트 레지스터들)은 2개의 N 비트(예를 들어, 128 비트) 레지스터들로서 보일 수 있거나 또는 다른 방식으로 2개의 N 비트(예를 들어, 128 비트) 레지스터들을 나타낸다. 제2 방식 또는 관점(112)에서, 이러한 4개의 N/2 비트 레지스터들(예를 들어, 64 비트 레지스터들)은 적어도 2N 비트(예를 들어, 256 비트, 512 비트, 1024 비트 등)의 단일 레지스터로서 보일 수 있거나 또는 다른 방식으로 적어도 2N 비트(예를 들어, 256 비트, 512 비트, 1024 비트 등)의 단일 레지스터를 나타낸다. 일부 실시예들에서는, 레지스터들의 세트(108)을 액세스하는 적어도 제3 방식이 존재할 수 있다. 예를 들어, 일부 실시예들에서는, 제2 방식(112)에서 실행 유닛이 4개의 N/2 비트 레지스터들(예를 들어, 64 비트 레지스터들)을 적어도 4N 비트(예를 들어, 512 비트, 1024 비트 등)의 단일 레지스터로서 볼 수 있거나 또는 액세스할 수 있고, 프로세서는 레지스터들의 세트(108)를 복수의 2N 비트 레지스터들(예를 들어, 256 비트)로서 액세스하거나 또는 보는 것을 추가적으로 지원할 수 있다.

일부 실시예들에서는, 레지스터들의 세트(108)의 관점들 및/또는 레지스터들의 세트(108)를 액세스하는 방식들 각각에서, 보여진 또는 액세스된 패킹된 데이터 레지스터들은, 오퍼랜드들을 식별하기 위해, 소프트웨어 및/또는 프로그래머에게 가시적일 수 있고, 및/또는, 명령어 세트의 명령어들(예를 들어, 매크로명령어들, 머신 언어 명령어들, 어셈블리 언어 명령어들 등)에 의해 명시될 수 있다. 때때로 명령어 세트의 명령어들에 의해 명시되는 레지스터들은 본 기술분야에서 아키텍처상 가시적인 레지터들 또는 아키텍처의 레지스터들이라 하며, 이는 주어진 마이크로아키텍처에서의 다른 비-아키텍처의 또는 비-아키텍처상 가시적인 레지스터들(예를 들어, 명령어를 구현하는데 사용되는 일시적 레지스터들 등)에 대비된다.

이들 상세한 예들에서 보여지는 바와 같이, 일부 실시예들에서, 프로세서는 레지스터들의 세트(108)를 다수의 상대적으로 더 작은 레지스터들(예를 들어, N 비트 레지스터들)로서, 또는 단일의 상대적으로 더 큰 레지스터(예를 들어, 적어도 2N 비트를 갖는 레지스터)로서, 인식하고, 보고, 및/또는 액세스하도록 동작될 수 있다. 예를 들어, 일부 실시예들에서, 레지스터들의 인접 쌍은, 따로따로 128 비트 레지스터들로서 보일 수 있거나, 또는 논리적으로 함께 "조합되어" 및 단일 256 비트 레지스터로서 집합적으로 보일 수 있다. 동일한 물리적 레지스터들 및 동일한 물리적 총 비트 수가 2개의 128 비트 레지스터들 및 단일의 256 비트 레지스터 양자 모두에 포함될 수 있지만, 이들은 상이한 방식들로 보일 수 있다. 유리하게도, 일부 실시예들에서, 이러한 접근방식은, 패킹된 데이터 레지스터 폭 및/또는 패킹된 데이터 오퍼랜드 폭에서의 증가를 여전히 허용하면서, 레지스터들의 비트 폭을 확장할 필요성을 회피하는데 사용될 수 있다. 레지스터들의 비트 폭을 확장하는 것을 회피하는 것은, 배경기술 부분에서 언급된 가능한 결점들 중 일부, 예를 들어, 다이 상의 레지스터들의 증가된 영역 또는 풋프린트 및/또는 컨텍스트 및/또는 컨텍스트 스위치들시 레지스터들로 및 레지스터들로부터 이동될 필요가 있는 데이터의 증가량을 회피하거나 또는 적어도 감소하는데 도움이 될 수 있다. 일부 실시예들에서, 이러한 접근방식은 적어도 256 비트(예를 들어, 256 비트, 512 비트, 1024 비트 등)의 패킹된 데이터 레지스터들 또는 오퍼랜드들을 구현하는데 사용될 수 있고, 이 때 상술된 가능한 결점들은 훨씬 더 심각하게 되는 경향이 있다.

본 설명을 불명료하게 하는 것을 회피하기 위해서, 상대적으로 단순한 프로세서(100)가 도시되었고 설명되었다. 다른 실시예들에서, 프로세서는 프로세서들에서 발견되는 다른 공지된 컴포넌트들을 옵션으로 포함할 수 있다. 이러한 컴포넌트들의 예들은, 이에 제한되는 것은 아니지만, 분기 예측 유닛, 명령어 페치 유닛, 명령어 및 데이터 변환 색인 버퍼들, 프리페치 버퍼들, 마이크로명령어 큐들, 마이크로명령어 시퀀서들, 레지스터 리네이밍 유닛, 명령어 스케줄링 유닛, 리타이어먼트 유닛, 프로세서들에 포함되는 다른 컴포넌트들, 및 이들의 다양한 조합들을 포함한다. 프로세서들 내의 컴포넌트들의 사실상 다수의 상이한 조합들 및 구성들이 존재하고, 실시예들은 임의의 특정한 조합 또는 구성에 제한되지 않는다. 실시예들은 프로세서들에 포함될 수 있고, 다수의 코어들, 논리적 프로세서들, 또는 실행 엔진들을 가지며, 이 중 적어도 하나는 본 명세서에 개시되는 실시예를 포함하거나 또는 활용한다.

도 2는 프로세서에서 및/또는 프로세서에 의해 수행되는 방법(214)의 일 실시예의 블럭 흐름도이다. 일부 실시예들에서, 도 2의 동작들 및/또는 방법은 도 1의 프로세서에 의해 및/또는 도 1의 프로세스 내에서 수행될 수 있다. 도 1의 프로세서에 대해 위에 설명된 상세사항들 및 옵션의 특징들이 또한 도 2의 동작들 및/또는 방법에 옵션으로 적용될 수 있고, 이는 이러한 프로세서에 의해 및/또는 이러한 프로세서 내에서 수행될 수 있다. 대안적으로, 도 2의 동작들 및/또는 방법은 유사하거나 또는 상이한 프로세서에 의해 및/또는 유사하거나 또는 상이한 프로세서 내에서 수행될 수 있다. 또한, 도 1의 프로세서는 도 2의 것들과 동일하거나, 유사하거나 또는 상이한 동작들 및/또는 방법들을 수행할 수 있다.

본 방법은, 블럭 216에서, 제1 방식으로 레지스터들의 세트를 액세스하는 것을 포함한다. 일부 실시예들에서는, 제1 방식에서, 레지스터들의 세트가 복수의 N 비트 레지스터들을 나타낼 수 있다. 이러한 액세스는 복수의 N 비트 레지스터들 각각으로부터 대응하는 N 비트 패킹된 데이터를 검색하는 것(또는 복수의 N 비트 레지스터들 각각에 대응하는 N 비트 패킹된 데이터를 저장하는 것)일 수 있다.

본 방법은, 블럭 218에서, 제2 상이한 방식으로 레지스터들의 세트를 액세스하는 것을 포함한다. 일부 실시예들에서는, 제2 방식에서, 레지스터들의 세트가 적어도 2N 비트의 단일 레지스터를 나타낼 수 있다. 이러한 액세스는 단일 레지스터로부터 적어도 2N 비트의 대응하는 패킹된 데이터를 검색하는 것(또는 단일 레지스터에 적어도 2N 비트의 대응하는 패킹된 데이터를 저장하는 것)일 수 있다. 일부 실시예들에서, 적어도 2N 비트는 적어도 256 비트일 수 있다.

다른 실시예들에서, 본 방법은 적어도 제3 상이한 방식으로 그리고 일부 경우들에서는 또한 적어도 제4 상이한 방식으로 레지스터들의 세트를 액세스하는 것을 옵션으로 포함할 수 있다. 일부 실시예들에서, 이러한 방식들 중 하나는 레지스터들을 적어도 512 비트의 폭을 갖는 단일 레지스터로서 취급할 수 있다.

도 3은 레지스터들의 세트가 제1 관점(310)에서는 128 비트 패킹된 데이터 레지스터들로서 그리고 제2 관점(312)에서는 256 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예를 도시하는 블럭도이다. 제1 관점(310)에서는 레지스터들의 세트(예를 들어, 물리적 레지스터들)이 X0-X7로 레이블되는 8개의 128 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제2 관점(312)에서는 레지스터들의 동일한 세트(예를 들어, 물리적 레지스터들)가 Y0-Y3으로 레이블되는 4개의(즉, 1/2배) 256 비트 패킹된 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제2 관점(312)에서, 256 비트 레지스터 Y0의 최하위 128 비트(즉, 비트 127:0)가 128 비트 레지스터 X0에 맵핑되거나 또는 대응하는 한편, 256 비트 레지스터 Y0의 최상위 128 비트(즉, 비트 255:128)가 128 비트 레지스터 X1에 맵핑되거나 또는 대응한다. 유사하게, 나머지 256 비트 레지스터들 Y1-Y3 각각은 128 비트 레지스터들 X2-X7의 상이한 쌍을 포함한다. 배수(본 경우에는 2임) 더 작은(본 경우에는 128 비트임) 레지스터들은 단일의 더 큰(본 경우에는 256 비트임) 레지스터를 형성하도록 논리적으로 조합되거나 또는 그룹화된다. 일부 실시예들에서, 이러한 관점들을 구현하는데 사용되는 실제 물리적 레지스터들은 64 비트 레지스터들 또는 128 비트 레지스터들일 수 있다. 대안적으로, 다른 폭들이 옵션으로 사용될 수 있다.

도시된 실시예들에 대한 많은 변경들이 고려된다. 도시된 실시예에서는, 인접 128 비트 레지스터들이 논리적으로 조합되거나 또는 그룹화된다(예를 들어, X0는 X1과 조합되고, X2는 X3와 조합되는 등). 다른 실시예들에서는, 비-인접 레지스터들이 조합될 수 있다(예를 들어, 상이한 뱅크들에서의 비-인접 레지스터들, 교차 레지스터들이 조합될 수 있는 등). 도시된 실시에에서는, 8개의 128 비트 레지스터들(X0-X7) 및 4개의 256 비트 레지스터들(Y0-Y3)이 도시되지만, 원하는 바에 따라 더 적은 또는 더 많은 레지스터들이 옵션으로 사용될 수 있다. 하나의 예시적인 실시예에서는, 제1 관점(310)에서 적어도 16개의 128 비트 레지스터들(또는 적어도 32개의 128 비트 레지스터들)을 보기에 충분한 레지스터들 및/또는 제2 관점(312)에서 적어도 8개의 256 비트 레지스터들(또는 적어도 16개의 128 비트 레지스터들)을 보기에 충분한 레지스터들이 있을 수 있다. 또한, 다른 실시예들에서는, 레지스터들의 세트가, 64 비트 레지스터들, 512 비트 레지스터들, 1024 비트 레지스터들, 다른 사이즈들, 또는 이들의 조합으로서 보이는 3개 이상의 관점들이 지원될 수 있다.

도 4는, 레지스터들의 세트가, 제1 관점(410)에서는 64 비트 패킹된 데이터 레지스터들로서, 제2 관점(412)에서는 128 비트 패킹된 데이터 레지스터들로서, 및 제3 관점(420)에서는 256 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예를 도시하는 블럭도이다. 제1 관점(410)에서는 레지스터들의 세트(예를 들어, 물리적 레지스터들)가 W0-W15로 레이블되는 16개의 64 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다.

제2 관점(412)에서는 레지스터들의 동일한 세트(예를 들어, 물리적 레지스터들)가 X0-X7로 레이블되는 8개의(즉, 1/2배) 128 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제2 관점(412)에서, 128 비트 레지스터 X0의 최하위 64 비트(즉, 비트 63:0)는 64 비트 레지스터 W0에 대응하는 한편, 128 비트 레지스터 X0의 최상위 64 비트(즉, 비트 127:64)는 64 비트 레지스터 W1에 대응한다. 또한, 제2 관점(412)에서, 128 비트 레지스터 X1의 최하위 64 비트(즉, 비트 63:0)는 64 비트 레지스터 W2에 대응하는 한편, 128 비트 레지스터 X1의 최상위 64 비트(즉, 비트 127:64)는 64 비트 레지스터 W3에 대응한다.

제3 관점(420)에서는 레지스터들의 동일한 세트(예를 들어, 물리적 레지스터들)가 Y0-Y3로 레이블되는 4개의 256 비트 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제3 관점(420)에서, 256 비트 레지스터 Y0의 최하위 64 비트(즉, 비트 63:0)는 64 비트 레지스터 W0에 대응하고, 256 비트 레지스터 Y0의 최하 중간 순위 64 비트(즉, 비트 127:64)는 64 비트 레지스터 W1에 대응하고, 256 비트 레지스터 Y0의 최상 중간 순위 64 비트(즉, 비트 191:128)는 64 비트 레지스터 W2에 대응하며, 256 비트 레지스터 Y0의 최상위 64 비트(즉, 비트 255:192)는 64 비트 레지스터 W3에 대응한다. 이를 다른 방식으로 바라보면, 제3 관점(420)에서, 256 비트 레지스터 Y0의 최하위 128 비트(즉, 비트 127:0)는 128 비트 레지스터 X0에 대응하고, 256 비트 레지스터 Y0의 최상위 128 비트(즉, 비트 255:128)는 128 비트 레지스터 X0에 대응한다.

일부 실시예들에서, 이러한 관점들을 구현하는데 사용되는 실제 물리적 레지스터들은 64 비트 레지스터들 또는 128 비트 레지스터들일 수 있다. 대안적으로, 다른 폭들이 옵션으로 사용될 수 있다. 앞서와 마찬가지로, 도시된 실시예에 대한 많은 변경들이 고려된다. 예를 들어, 비-인접 레지스터들이 조합될 수 있다(예를 들어, 상이한 뱅크들에서의 비-인접 레지스터들, 교차 레지스터들이 조합될 수 있는 등). 다른 예로서, 다른 수의 레지스터들이 사용될 수 있다. 또한, 다른 실시예들에서는, 레지스터들의 세트가, 512 비트 레지스터들, 1024 비트 레지스터들, 다른 사이즈들, 또는 이들의 조합으로서 보이는 다른 관점들이 지원될 수 있다.

도 5는, 레지스터들의 세트가, 제1 관점(510)에서는 128 비트 패킹된 데이터 레지스터들로서, 제2 관점(512)에서는 256 비트 패킹된 데이터 레지스터들로서, 및 제3 관점(522)에서는 512 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예를 도시하는 블럭도이다. 제1 관점(510)에서는 레지스터들의 세트(예를 들어, 물리적 레지스터들)가 X0-X7로 레이블되는 8개의 128 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제2 관점(512)에서는 레지스터들의 동일한 세트(예를 들어, 물리적 레지스터들)가 Y0-Y3로 레이블되는 4개의(즉, 1/2배) 256 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 이러한 구성은 도 3에 대해 도시되고 설명된 접근방식과 유사할 수 있다.

제3 관점(522)에서는 레지스터들의 동일한 세트(예를 들어, 물리적 레지스터들)가 Z0-Z1로 레이블되는 2개의 512 비트 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제3 관점(522)에서, 512 비트 레지스터 Z0의 최하위 128 비트(즉, 비트 127:0)는 128 비트 레지스터 X0에 대응하고, 512 비트 레지스터 Z0의 최하 중간 순위 128 비트(즉, 비트 255:128)는 128 비트 레지스터 X1에 대응하고, 512 비트 레지스터 Z0의 최상 중간 순위 128 비트(즉, 비트 383:256)는 128 비트 레지스터 X2에 대응하며, 512 비트 레지스터 Z0의 최상위 128 비트(즉, 비트 511:384)는 128 비트 레지스터 X3에 대응한다. 이를 다른 방식으로 바라보면, 제3 관점(522)에서, 512 비트 레지스터 Z0의 최하위 256 비트(즉, 비트 255:0)는 256 비트 레지스터 Y0에 대응하고, 512 비트 레지스터 Z0의 최상위 256 비트(즉, 비트 511:256)는 256 비트 레지스터 Y1에 대응한다. 유사하게, 다른 레지스터들 각각은 비트 레이블들에 의해 도시된 것과 유사한 대응성을 갖는다.

일부 실시예들에서, 이러한 관점들을 구현하는데 사용되는 실제 물리적 레지스터들은 64 비트 레지스터들 또는 128 비트 레지스터들일 수 있다. 대안적으로, 다른 폭들이 옵션으로 사용될 수 있다. 앞서와 마찬가지로, 도시된 실시예에 대한 많은 변경들이 고려된다. 예를 들어, 비-인접 레지스터들이 조합될 수 있다(예를 들어, 상이한 뱅크들에서의 비-인접 레지스터들, 교차 레지스터들이 조합될 수 있는 등). 다른 예로서, 다른 수의 레지스터들이 사용될 수 있다. 또한, 다른 실시예들에서는, 레지스터들의 세트가, 64 비트 레지스터들, 1024 비트 레지스터들, 다른 사이즈들, 또는 이들의 조합으로서 보이는 다른 관점들이 지원될 수 있다.

도 6은, 레지스터들의 세트가, 제1 관점(610)에서는 255 비트 패킹된 데이터 레지스터들로서 및 제2 관점(612)에서는 512 비트 패킹된 데이터 레지스터들로서 보이거나 또는 액세스되는 일 실시예를 도시하는 블럭도이다. 제1 관점(610)에서는 레지스터들의 세트(예를 들어, 물리적 레지스터들)가 Y0-Y3로 레이블되는 4개의 255 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제2 관점(612)에서는 레지스터들의 동일한 세트(예를 들어, 물리적 레지스터들)가 Z0-Z3로 레이블되는 2개의(즉, 1/2배) 512 비트 패킹된 데이터 레지스터들로서 논리적으로 보이거나 또는 액세스된다. 제2 관점(612)에서, 512 비트 레지스터 Z0의 최하위 255 비트(즉, 비트 255:0)는 255 비트 레지스터 Y0에 대응하고, 512 비트 레지스터 Z0의 최상위 255 비트(즉, 비트 511:256)는 256 비트 레지스터 Y1에 대응한다. 유사하게, 다른 레지스터들 각각은 비트 레이블들에 의해 도시된 것과 유사한 대응성을 갖는다.

일부 실시예들에서, 이러한 관점들을 구현하는데 사용되는 실제 물리적 레지스터들은 64 비트 레지스터들, 128 비트 레지스터들, 또는 255 비트 레지스터들일 수 있다. 대안적으로, 다른 폭들이 옵션으로 사용될 수 있다. 앞서와 마찬가지로, 도시된 실시예에 대한 많은 변경들이 고려된다. 예를 들어, 비-인접 레지스터들이 조합될 수 있다(예를 들어, 상이한 뱅크들에서의 비-인접 레지스터들, 교차 레지스터들이 조합될 수 있는 등). 다른 예로서, 다른 수의 레지스터들이 사용될 수 있다. 또한, 다른 실시예들에서는, 레지스터들의 세트가, 64 비트 레지스터들, 128 비트 레지스터들, 1024 비트 레지스터들, 다른 사이즈들, 또는 이들의 조합으로서 보이는 다른 관점들이 지원될 수 있다.

도 7a-c는 일련의 레지스터들의 상이한 관점들을 활용하기 적합한 명령어 포맷들의 실시예들의 블럭도들이다. 도 7a는 적합한 명령어 포맷(730A)의 제1 실시예의 블럭도이다. 본 실시예에서, 명령어 포맷은 명령어를 처리할 때 레지스터들의 세트가 어떻게 보이거나 또는 액세스되는지를 나타내도록 동작될 수 있는 오퍼레이션 코드 또는 오피코드(732A)를 갖는다. 통상적으로, 오피코드는 수행될 명령어 및/또는 연산을 식별하도록 동작될 수 있는 복수의 비트들 또는 하나 이상 필드들을 나타낼 수 있다. 일부 실시예들에서, 이러한 오피코드는 또한 명령어를 처리할 때 레지스터들의 세트가 어떻게 보이거나 또는 액세스되는지를 명시적으로 명시하거나 또는 암시적으로 나타낼 수 있다. 예를 들어, 특정 오피코드들 및/또는 연산들은 주어진 방식으로 레지스터들의 세트를 암시적으로 활용할 수 있다. 예를 들어, 128 비트 소스 레지스터들 상에서 수행되는 패킹된 곱셈 연산에 대한 오피코드는, 목적지가 소스 데이터 엘리먼트들의 사이즈의 2배인 결과값 전부(full products)를 저장하기 위해 256 비트 레지스터로서 보이는 것을 암시적으로 나타낼 수 있다.

명령어 포맷은 또한 명령어의 특정한 타입에 따라 다양한 종래의 필드들(734A) 중 임의의 것을 포함할 수 있다. 이러한 종래의 필드들의 예들은, 이에 제한되는 것은 아니지만, 하나 이상의 소스 오퍼랜드들을 명시하는 하나 이상의 필드들 및/또는 하나 이상의 목적지 오퍼랜드들을 명시하는 하나 이상의 필드들을 포함한다. 이러한 오퍼랜드들은, 본 명세서에 설명되는 바와 같은 레지스터들, 메모리 위치들, 또는 다른 스토리지 위치들을 나타낼 수 있다. 소스 및/또는 목적지 오퍼랜드들은 또한 명시적으로 명시되는 대신에 명령어에 의해 암시적으로 나타날 수 있다. 또한, 소스 오퍼랜드에 대한 레지스터 또는 다른 스토리지 위치는 목적지 오퍼랜드에 대해 재사용될 수 있다. 종래의 필드들의 다른 예들은, 이에 제한되는 것은 아니지만, 하나 이상의 즉치들(immediates), 패킹된 데이터 연산 마스크(예를 들어, 술어(predication)를 위해 사용되는 마스크)를 나타내는 필드, 술어 또는 마스킹 제어의 필드, 방송 제어의 필드, 부동 소수점 라운딩 제어의 필드, 및 본 기술분야에 공지된 다른 종래의 필드들을 포함한다.

도 7b는 적합한 명령어 포맷(730B)의 제2 실시예의 블럭도이다. 본 실시예에서, 명령어 포맷은 연산 코드 또는 오피코드(732B)를 갖는다. 일부 실시예들에서, 명령어 포맷은 또한 명령어를 처리할 때 레지스터들의 세트가 어떻게 보이거나 또는 액세스되는지를 나타내는 전용 필드(738)를 갖는다. 본 실시예에서, 필드(738)은 오피코드와는 별도이거나 또는 상이할 수 있다. 일부 실시예들에서, 이러한 필드는 레지스터들의 세트의 2가지 상이한 관점들 사이에서 어느 하나를 선택하는 단일 비트를 포함할 수 있다. 대안적으로, 이러한 필드는 레지스터들의 2가지보다 많은 상이한 관점들 사이에서 선택하는 2 이상의 비트를 가지를 수 있다. (예를 들어, 오피코드 또는 별도의 전용 필드를 통해) 명령어가 관점을 나타내게 하는 것은, 명령어가 관점을 나타내게 할 수 있고, 모드 변경을 수행할 필요성을 회피하는 것을 도울 수 있다. 대안적으로, 소프트웨어(예를 들어, 운영 체제, 하이퍼바이저 등)는 관점을 나타내도록 논리적 프로세서에 대한 연산의 모드를 변경할 수 있다. 명령어 포맷은 또한 특정한 타입의 명령어에 따라 다양한 종래의 필드들(734B) 중 임의의 것을 포함할 수 있다. 앞서 설명된 종래의 필드들이 적합하다.

도 7c는 적합한 명령어 포맷(730C)의 제3 실시예의 블럭도이다. 도시된 바와 같이, 일부 실시예들에서, 명령어 포맷은 명령어를 처리할 때 레지스터들의 세트가 어떻게 보이거나 또는 액세스되는지를 나타내도록 동작될 수 있는 오피코드(732C)를 가질 수 있다. 대안적으로, 명령어 포맷은 도 7b의 제2 명령어 포맷에서의 것과 유사한 전용 필드를 가질 수 있다. 명령어 포맷은 또한 세트의 어느 레지스터들이 상대적으로 더 큰 레지스터들을 이루도록 조합되는지를 나타내는 하나 이상의 필드들을 포함한다. 이는 상이한 실시예들에서 다양한 상이한 방식들로 행해질 수 있다. 일 실시예에서, 필드들은 2개의 128 비트 레지스터들 또는 4개의 64 비트 레지스터들을 명시적으로 명시하도록 포함될 수 있고, 이들은 단일의 256 비트 레지스터를 이루도록 조합된다. 다른 실시예들에서는, 레지스터들을 조합하는 상이한 미리결정된 방식들 중에서 선택하는데 하나 이상의 필드들이 사용될 수 있다. 예를 들어, 하나의 방식은 인접 레지스터들을 사용하는 것이고, 다른 방식은 모든 다른 레지스터를 사용하는 것이며, 또 다른 방식은 상이한 레지스터 뱅크들에서 일련의 레지스터들을 사용하는 것일 것이다. 명령어 포맷은 또한 특정한 타입의 명령어에 따라 다양한 종래의 필드들(734C) 중 임의의 것을 포함한다. 앞서 설명된 종래의 필드들이 적합하다.

이들은 적합한 명령어 포맷들의 단지 몇몇 예들이다. 추가적 필드들이 이러한 명령어 포맷들 중 임의의 것에 옵션으로 추가될 수 있다는 점이 이해되어야 한다. 또한, 언급된 바와 같이, 콘텐츠는 명시적으로 명시되는 대신에 암시적으로 나타내어 질 수 있다. 위 논의는 필드들을 참조하지만, 필드들이 일련의 비트들을 포함할 필요는 없고 그 대신 옵션으로 불연속적 비트들로 형성될 수 있다는 점이 이해되어야 한다. 필드들은 또한 옵션으로 중첩될 수 있다. 추가적으로, 필드들의 도시된 순서/배열은 단지 예시적이며, 다른 실시예들에서는 필드들이 이동되거나 또는 재배열될 수 있다.

도 7d는 적합한 패킹된 데이터 포맷들의 예들을 도시하는 블럭도이다. 도해들에서, 박스들 위의 숫자들은 비트 위치들을 나타낸다. 128 비트 패킹된 워드 포맷(842)은, 128 비트 폭이고, 최하위 비트 위치로부터 최상위 비트 위치로 WORD0 내지 WORD7로서 도면에 레이블되는 8개의 16 비트 폭 워드 데이터 엘리먼트들을 포함한다. 128 비트 패킹된 더블워드 포맷(844)은, 128 비트이고, 최하위 비트 위치로부터 최상위 비트 위치로 DWORD0 내지 DWORD3으로서 레이블되는 4개의 32 비트 더블워드 데이터 엘리먼트들을 포함한다. 128 비트 패킹된 쿼드워드 포맷(846)은, 128 비트이고, 최하위 비트 위로부터 최상위 비트 위치로 QWORD0 내지 QWORD1로서 레이블되는 2개의 64 비트 쿼드워드 데이터 엘리먼트들을 포함한다.

256 비트 패킹된 워드 포맷(848)은, 256 비트 폭이고, 최하위 비트위치로부터 최상위 비트 위치로 WORD0 내지 WORD15로서 레이블되는 16개의 16 비트 폭 워드 데이터 엘리먼트들을 포함한다. 256 비트 패킹된 더블워드 포맷(850)은, 256 비트이고, 최하위 비트 위치로부터 최상위 비트 위치로 DWORD0 내지 DWORD7로서 레이블되는 8개의 32 비트 더블워드 데이터 엘리먼트들을 포함한다. 256 비트 패킹된 쿼드워드 포맷(852)는, 256 비트이고, 최하위 비트 위치로부터 최상위 비트 위치로 QWORD0 내지 QWORD3으로서 레이블되는 4개의 64 비트 쿼드워드 데이터 엘리먼트들을 포함한다.

다른 패킹된 데이터 포맷들도 적합하다. 예를 들어, 다른 적합한 128 비트 및 256 비트 패킹된 데이터 포맷들은, 패킹된 8 비트 바이트 포맷들, 패킹된 32 비트 단정밀도 부동 소수점 포맷들, 및 패킹된 64 비트 배정밀도 부동 소수점 포맷들을 포함한다. 패킹된 바이트 포맷들은 패킹된 워드 포맷보다 2배 많은 데이터 엘리먼트들을 가질 수 있고, 각각의 데이터 엘리먼트는 1/2배 폭일 수 있다. 단정밀도 및 배정밀도 부동 소수점 포맷들은 각각 도시된 더블워드 및 쿼드워드 포맷들과 유사하게 나타날 수 있지만, 데이터 엘리먼트들 내의 비트들의 의미/해석은 상이할 수 있다. 또한, 예를 들어, 64 비트 패킹된 데이터, 512 비트 패킹된 데이터, 1024 비트 패킹된 데이터 등과 같은 더 넓은 또는 더 좁은 패킹된 데이터 폭들 또한 적합하다. 바이트, 워드, 더블워드, 쿼드워드, 또는 다른 포맷들 중 임의의 것이 적합하다. 일반적으로, 패킹된 데이터 엘리먼트들의 수는 패킹된 데이터 엘리먼트들의 비트들에서의 사이즈에 의해 분할되는 패킹된 데이터의 비트들에서의 사이즈와 동일하다.

도 3-6 중 임의의 것에 대해 설명되는 관점들 또는 레지스터 속성들의 옵션의 상세사항들은 도 1의 프로세서 및/또는 도 2의 방법에 옵션으로 적용될 수 있다. 도 7a-d의 명령어 포맷들의 옵션의 상세사항들은 도 1의 프로세서 및/또는 도 2의 방법에 옵션으로 적용될 수 있다. 또한, 장치 중 임의의 것에 대해 본 명세서에 설명되는 컴포넌트들, 특징들, 및 상세사항들은, 또한, 실시예들에서 이러한 장치에 의해 및/또는 이러한 장치를 가지고 수행될 수 있는, 본 명세서에 설명되는 방법들 중 임의의 것에서 옵션으로 사용될 수 있다.

예시적인 코어 아키텍처들, 프로세서들 및 컴퓨터 아키텍처들

프로세서 코어들은 상이한 방식으로, 상이한 목적들을 위해, 상이한 프로세서들에서 구현될 수 있다. 예를 들어, 이러한 코어들의 구현들은: 1) 범용 컴퓨팅을 대상으로 하는 범용 순차적 코어; 2) 범용 컴퓨팅을 대상으로 하는 고 성능 범용 비순차적 코어; 3) 그래픽 및/또는 과학적 (쓰루풋) 컴퓨팅을 주로 대상으로 하는 특수 목적 코어를 포함할 수 있다. 상이한 프로세서들의 구현들은: 1) 범용 컴퓨팅을 대상으로 하는 하나 이상의 범용 순차적 코어들 및/또는 범용 컴퓨팅을 대상으로 하는 하나 이상의 범용 비순차적 코어들을 포함하는 CPU; 및 2) 그래픽 및/또는 과학적 (쓰루풋) 컴퓨팅을 주로 대상으로 하는 하나 이상의 특수 목적 코어들을 포함하는 코프로세서를 포함할 수 있다. 이러한 상이한 프로세서들은 상이한 컴퓨터 시스템 아키텍처들로 이어지며, 이는: 1) CPU와는 별개인 칩 상의 코프로세서; 2) CPU와 동일한 패키지 내의 별개의 다이 상의 코프로세서; 3) CPU와 동일한 다이 상의 코프로세서(이 경우에, 이러한 코프로세서를 때때로 통합 그래픽 및/또는 과학적 (쓰루풋) 로직 등의 특수 목적 로직이라고 하거나, 또는 특수 목적 코어들이라고 함); 및 4) 설명된 CPU(때때로 애플리케이션 코어(들) 또는 애플리케이션 프로세서(들)라고 함), 위에 개시된 코프로세서, 및 부가적인 기능성을 동일한 다이 상에 포함할 수 있는 시스템 온 칩(system on a chip)을 포함할 수 있다. 예시적인 코어 아키텍처들이 다음에 개시되고, 예시적인 프로세서들 및 컴퓨터 아키텍처들의 개시들이 후속된다.

예시적인 코어 아키텍처들

순차적 및 비순차적 코어 블럭도

도 8a는 본 발명의 실시예들에 따라 예시적인 순차적 파이프라인 및 예시적인 레지스터 리네이밍, 비순차적 발행/실행 파이프라인 양자 모두를 도시하는 블럭도이다. 도 8b는 본 발명의 실시예들에 따라 프로세서에 포함될 순차적 아키텍처 코어 및 예시적인 레지스터 리네이밍, 비순차적 발행/실행 아키텍처 코어 양자 모두의 예시적인 실시예를 도시하는 블럭도이다. 도 8a-b에서 실선 박스들은 순차적 파이프라인 및 순차적 코어를 도시하는 한편, 점선 박스들의 선택적 추가는 레지스터 리네이밍, 비순차적 발행/실행 파이프라인 및 코어를 도시한다. 순차적 양상이 비순차적 양상의 서브세트라는 점을 고려하여, 비순차적 양상이 설명될 것이다.

도 8a에서, 프로세서 파이프라인(800)은 페치 스테이지(802), 길이 디코드 스테이지(804), 디코드 스테이지(806), 할당 스테이지(808), 리네이밍 스테이지(810), (디스패치 또는 발행으로도 알려진) 스케줄링 스테이지(812), 레지스터 판독/메모리 판독 스테이지(814), 실행 스테이지(816), 라이트 백(write back)/메모리 기입 스테이지(818), 예외 처리 스테이지(822) 및 커밋(commit) 스테이지(824)를 포함한다.

도 8b는 실행 엔진 유닛(850)에 연결되는 프론트 엔드 유닛(830)을 포함하는 프로세서 코어(890)를 도시하며, 이들 양자 모두는 메모리 유닛(870)에 연결된다. 코어(890)는 RISC(Reduced Instruction Set Computing) 코어, CISC(Complex Instruction Set Computing) 코어, VLIW(Very Long Instruction Word) 코어, 또는 하이브리드 또는 대안적인 코어 타입일 수 있다. 또 다른 옵션으로서, 코어(890)는, 예를 들어 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, GPGPU(General Purpose computing Graphics Processing Unit) 코어, 그래픽 코어 또는 이와 유사한 것 등의 특수 목적 코어일 수 있다.

프론트 엔드 유닛(830)은 명령어 캐시 유닛(834)에 연결되는 분기 예측 유닛(832)을 포함하고, 명령어 캐시 유닛(834)은 명령어 TLB(Translation Lookaside Buffer)(836)에 연결되고, 명령어 TLB(836)는 명령어 페치 유닛(838)에 연결되고, 명령어 페치 유닛(838)은 디코드 유닛(840)에 연결된다. 디코드 유닛(840)(또는 디코더)은 명령어들을 디코딩할 수 있으며, 오리지널 명령어들로부터 디코딩되거나, 또는 그렇지 않으면 이들을 반영하거나, 또는 이들로부터 유도되는, 하나 이상의 마이크로-연산들, 마이크로-코드 엔트리 포인트들, 마이크로명령어들, 다른 명령어들 또는 다른 제어 신호들을 출력으로서 생성할 수 있다. 디코드 유닛(840)은 여러가지 상이한 메커니즘들을 사용하여 구현될 수 있다. 적합한 메커니즘들의 예들은, 이에 제한되는 것은 아니지만, 룩-업 테이블들, 하드웨어 구현들, PLA들(Programmable Logic Arrays), 마이크로코드 ROM(Read Only Memory)들 등을 포함한다. 일 실시예에서 코어(890)는 (예를 들어, 디코드 유닛(840)에 또는 그렇지 않으면 프론트 엔드 유닛(830) 내에) 특정 매크로 명령어들에 대한 마이크로코드를 저장하는 마이크로코드 ROM 또는 다른 매체를 포함한다. 디코드 유닛(840)은 실행 엔진 유닛(850)에서의 리네임/할당자 유닛(852)에 연결된다.

실행 엔진 유닛(850)은 리타이어먼트 유닛(854) 및 하나 이상의 스케줄러 유닛(들)(856)의 세트에 연결되는 리네임/할당자 유닛(852)을 포함한다. 스케줄러 유닛(들)(856)은 예약 스테이션들, 중앙 명령어 윈도우 등을 포함하는 임의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(856)은 물리적 레지스터 파일(들) 유닛(들)(858)에 연결된다. 물리적 레지스터 파일(들) 유닛들(858) 각각은 하나 이상의 물리적 레지스터 파일들을 나타내고, 이들 중 상이한 것들은 스칼라 정수, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등의 하나 이상의 상이한 데이터 타입들을 저장한다. 일 실시예에서, 물리적 레지스터 파일(들) 유닛(858)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛 및 스칼라 레지스터 유닛을 포함한다. 이러한 레지스터 유닛들은 아키텍처의 벡터 레지스터들, 벡터 마스크 레지스터들 및 범용 레지스터들을 제공할 수 있다. 물리적 레지스터 파일(들) 유닛(들)(858)은, 레지스터 리네이밍 및 비순차적 실행이 (예를 들어, 재배열 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하여; 미래 파일(들), 이력 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하여; 레지스터 맵들 및 레지스터들의 풀(pool)을 사용하여 등) 구현될 수 있는 다양한 방식들을 도시하도록 리타이어먼트 유닛(854)에 의해 오버랩된다. 리타이어먼트 유닛(854) 및 물리적 레지스터 파일(들) 유닛(들)(858)은 실행 클러스터(들)(860)에 연결된다. 실행 클러스터(들)(860)는 하나 이상의 실행 유닛들(862)의 세트 및 하나 이상의 메모리 액세스 유닛들(864)의 세트를 포함한다. 실행 유닛들(862)은 다양한 타입의 데이터(예를 들어, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예로서, 시프트, 가산, 감산, 승산)을 수행할 수 있다. 일부 실시예들은 특정 펑션들이나 펑션들의 세트들에 전용의 다수의 실행 유닛들을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛, 또는 모두가 모든 펑션들을 수행하는 다수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(856), 물리적 레지스터 파일(들) 유닛(들)(858) 및 실행 클러스터(들)(860)는 복수 개일 수 있는 것으로 도시되는데, 그 이유는 특정 실시예들이 특정 타입들의 데이터/연산들에 대해 개별 파이프라인들(예를 들어, 자신들의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛 및/또는 실행 클러스터를 각각 갖는 스칼라 정수 파이프라인, 스칼라 부동 소수점/팩킹된 정수/팩킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인 및/또는 메모리 액세스 파이프라인 - 그리고 개별 메모리 액세스 파이프라인의 경우, 이러한 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(864)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 개별 파이프라인들이 사용되는 경우, 이들 파이프라인들 중 하나 이상은 비순차적 발행/실행일 수 있고 나머지는 순차적일 수 있다는 점도 이해되어야 한다.

메모리 액세스 유닛들(864)의 세트는, 레벨 2(L2) 캐시 유닛(876)에 연결되는 데이터 캐시 유닛(874)에 연결되는 데이터 TLB 유닛(872)을 포함하는 메모리 유닛(870)에 연결된다. 예시적인 일 실시예에서, 메모리 액세스 유닛들(864)은 로드 유닛, 저장 어드레스 유닛 및 저장 데이터 유닛을 포함할 수 있으며, 이들 각각은 메모리 유닛(870) 내의 데이터 TLB 유닛(872)에 연결된다. 명령어 캐시 유닛(834)은 메모리 유닛(870) 내의 레벨 2(L2) 캐시 유닛(876)에 더 연결된다. L2 캐시 유닛(876)은 하나 이상의 다른 레벨들의 캐시에 그리고 궁극적으로 메인 메모리에 연결된다.

예를 들어, 예시적인 레지스터 리네이밍, 비순차적 발행/실행 코어 아키텍처는 다음과 같이 파이프라인(800)을 구현할 수 있다: 1) 명령어 페치(838)는 페치 및 길이 디코딩 스테이지들(802, 804)을 수행하고; 2) 디코드 유닛(840)은 디코드 스테이지(806)를 수행하고; 3) 리네임/할당자 유닛(852)은 할당 스테이지(808) 및 리네이밍 스테이지(810)를 수행하고; 4) 스케줄러 유닛(들)(856)은 스케줄 스테이지(812)를 수행하고; 5) 물리적 레지스터 파일(들) 유닛(들)(858) 및 메모리 유닛(870)은 레지스터 판독/메모리 판독 스테이지(814)를 수행하고; 실행 클러스터(860)는 실행 스테이지(816)를 수행하고; 6) 메모리 유닛(870) 및 물리적 레지스터 파일(들) 유닛(들)(858)은 라이트 백/메모리 기입 스테이지(818)를 수행하고; 7) 다양한 유닛들이 예외 처리 스테이지(822)에 관련될 수 있고; 8) 리타이어먼트 유닛(854) 및 물리적 레지스터 파일(들) 유닛(들)(858)은 커밋 스테이지(824)를 수행한다.

코어(890)는, 본 명세서에서 개시되는 명령어(들)를 포함하는, 하나 이상의 명령어 세트들(예를 들어, (보다 새로운 버전들과 함께 추가된 일부 확장들을 갖는) x86 명령어 세트; 캘리포니아 서니베일의 MIPS 테크놀로지스의 MIPS 명령어 세트; 캘리포니아 서니베일의 ARM 홀딩스의 (NEON 등의 선택적 추가 확장들을 갖는) ARM 명령어 세트)을 지원할 수 있다. 일 실시예에서, 코어(890)는 팩킹된 데이터 명령어 세트 확장(예를 들어, AVX1, AVX2)을 지원하는 로직을 포함하며, 따라서 많은 멀티미디어 애플리케이션들에 의해 사용되는 연산들이 팩킹된 데이터를 사용하여 수행되는 것을 허용한다.

코어는 (2 이상의 병렬 세트들의 연산이나 쓰레드들을 실행하는) 멀티쓰레딩을 지원할 수 있고, 시분할 멀티쓰레딩(time sliced multithreading), (단일의 물리적 코어가, 물리적 코어가 동시에 멀티쓰레딩할 수 있는 쓰레드들 각각에 대해 논리적 코어를 제공하는) 동시 멀티쓰레딩, 또는 이들의 조합(예를 들어, Intel® Hyperthreading 기술에서 등의 시분할 페칭 및 디코딩과 그 이후의 동시 멀티쓰레딩)을 포함하는 다양한 방식으로 멀티쓰레딩을 지원할 수 있다는 점이 이해되어야 한다.

레지스터 리네이밍이 비순차적 실행의 정황에서 설명되었지만, 레지스터 리네이밍은 순차적 아키텍처에서 사용될 수도 있다는 점이 이해되어야 한다. 도시된 프로세서의 실시예는 또한 개별 명령어 및 데이터 캐시 유닛들(834/874) 및 공유 L2 캐시 유닛(876)을 포함하지만, 대안적인 실시예들은, 예를 들어, 레벨 1(L1) 내부 캐시 또는 다수 레벨들의 내부 캐시 등, 명령어들 및 데이터 양자 모두에 대해 단일 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와, 코어 및/또는 프로세서에 대해 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서에 대해 외부에 있을 수 있다.

특정 예시적인 순차적 코어 아키텍처

도 9a-b는, 코어가 칩 내의 (동일 타입 및/또는 상이한 타입들의 다른 코어들을 포함하는) 여러 논리 블럭 중 하나인, 보다 구체적인 예시적인 순차적 코어 아키텍처의 블럭도를 도시한다. 논리 블럭들은 애플리케이션에 따라 일부 고정된 펑션 로직, 메모리 I/O 인터페이스들 및 다른 필요한 I/O 로직과 고-대역폭 상호접속 네트워크(예를 들어, 링 네트워크)를 통해 통신한다.

도 9a는, 본 발명의 실시예들에 따른, 싱글 프로세서 코어의 블럭도로, 온-다이(on-die) 상호접속 네트워크(902)에 대한 접속, 및 레벨 2(L2) 캐시(904)의 로컬 서브세트와 함께 보여준다. 일 실시예에서, 명령어 디코더(900)는 팩킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(906)는 스칼라 및 벡터 유닛들 내로의 캐시 메모리에 대한 저-지연(low-latency) 액세스들을 허용한다. 일 실시예에서는 (설계를 단순화하기 위해) 스칼라 유닛(908) 및 벡터 유닛(910)이 별개의 레지스터 세트들(각각, 스칼라 레지스터들(912) 및 벡터 레지스터들(914))을 사용하고 이들 간에 이동되는 데이터는 메모리에 기입된 다음 레벨 1(L1) 캐시(906)로부터 다시 판독되지만, 본 발명의 대안적 실시예들은 상이한 접근방식을 사용할 수 있다(예를 들어, 단일 레지스터 세트를 사용하거나, 또는 기입 및 다시 판독되지 않고 2개의 레지스터 파일들 사이에서 데이터가 이동되는 것을 허용하는 통신 경로를 포함함).

L2 캐시(904)의 로컬 서브세트는, 프로세서 코어 당 하나씩인 개별 로컬 서브세트들로 분할되는 글로벌 L2 캐시의 일부이다. 각각의 프로세서 코어는 L2 캐시(904)의 자신의 로컬 서브세트에 대한 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 자신의 L2 캐시 서브세트(904)에 저장되며, 다른 프로세서 코어들이 그들 자신의 로컬 L2 캐시 서브세트들에 액세스하는 것과 병렬로 빠르게 액세스될 수 있다. 프로세서 코어에 의해 기록된 데이터는 자신의 L2 캐시 서브세트(904)에 저장되며, 필요한 경우에는, 다른 서브세트들로부터 제거된다. 링 네트워크는 공유 데이터에 대한 코히어런시(coherency)를 보장한다. 링 네트워크는 양-방향성이어서, 프로세서 코어들, L2 캐시들 및 다른 논리 블럭들 등의 에이전트들이 칩 내에서 상호 통신하는 것을 허용한다. 각각의 링 데이터-경로는 방향 당 1012-비트 폭이다.

도 9b는 본 발명의 실시예들에 따른 도 9a에서의 프로세서 코어의 부분 확대도이다. 도 9b는, L1 캐시(904)의 L1 데이터 캐시(906A) 부분은 물론, 벡터 유닛(910) 및 벡터 레지스터들(914)에 관한 보다 많은 상세를 포함한다. 구체적으로, 벡터 유닛(910)은 정수, 단일 정밀도 부동 및 이중 정밀도 부동 명령어들 중 하나 이상을 실행하는 16-폭 VPU(Vector Processing Unit)(16-폭 ALU(928) 참조)이다. VPU는, 스위즐(swizzle) 유닛(920)에 의한 레지스터 입력들의 스위즐링, 수치 변환 유닛들(922A-B)에 의한 수치 변환 및 메모리 입력에 대한 복제 유닛(924)에 의한 복제를 지원한다. 기입 마스크 레지스터들(926)은 결과적인 벡터 기입들을 서술하는 것(predicating)을 허용한다.

통합 메모리 제어기 및 그래픽들을 갖는 프로세서

도 10은, 본 발명의 실시예들에 따라, 둘 이상의 코어를 가질 수 있고, 통합 메모리 제어기를 가질 수 있고, 및 통합 그래픽을 가질 수 있는 프로세서(1000)의 블럭도이다. 도 10의 실선 박스들은 싱글 코어(1002A), 시스템 에이전트(1010), 하나 이상의 버스 제어기 유닛들(1016)의 세트를 갖는 프로세서(1000)를 도시하는 한편, 옵션인 점선 박스들의 추가는 다수의 코어들(1002A-N), 시스템 에이전트 유닛(1010) 내의 하나 이상의 통합 메모리 제어기 유닛(들)(1014)의 세트, 및 특수 목적 로직(1008)을 갖는 대안적인 프로세서(1000)를 도시한다.

따라서, 프로세서(1000)의 상이한 구현들은: 1) 통합 그래픽 및/또는 과학적 (쓰루풋) 로직(하나 이상의 코어들을 포함할 수 있음)인 특수 목적 로직(1008) 및 하나 이상의 범용 코어들(예를 들어, 범용 순차적 코어들, 범용 비순차적 코어들, 이 두 가지의 조합)인 코어들(1002A-N)을 갖는 CPU; 2) 그래픽 및/또는 과학적 (쓰루풋) 컴퓨팅을 주로 대상으로 하는 다수의 특수 목적 코어들인 코어들(1002A-N)을 갖는 코프로세서; 및 3) 다수의 범용 순차적 코어들인 코어들(1002A-N)을 갖는 코프로세서를 포함할 수 있다. 따라서, 프로세서(1000)는 범용 프로세서, 코프로세서 또는 특수 목적 프로세서, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(General Purpose Graphics Processing Unit), 하이-쓰루풋 MIC(Many Integrated Core) 코프로세서(30개 이상의 코어를 포함함), 임베디드 프로세서, 또는 이와 유사한 것 등일 수 있다. 프로세서는 하나 이상의 칩들 상에 구현될 수 있다. 프로세서(1000)는, 예를 들어, BiCMOS, CMOS, 또는 NMOS 등의 다수의 프로세스 기술들 중 임의의 것을 사용하여 하나 이상의 기판들의 일부가 될 수 있고 및/또는 이들 기판 상에 구현될 수 있다.

메모리 계층구조는 코어들 내의 하나 이상의 레벨들의 캐시, 하나 이상의 공유 캐시 유닛들(1006)의 세트, 및 통합 메모리 제어기 유닛들(1014)의 세트에 연결되는 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1006)의 세트는, 예를 들어 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 다른 레벨의 캐시 등의 하나 이상의 중간 레벨 캐시들, 최종 레벨 캐시(LLC) 및/또는 이들의 조합들을 포함할 수 있다. 일 실시예에서는 링 기반 상호접속 유닛(1012)이 통합 그래픽 로직(1008), 공유 캐시 유닛들(1006)의 세트 및 시스템 에이전트 유닛(1010)/통합 메모리 제어기 유닛(들)(1014)을 상호접속하지만, 대안 실시예들은 이러한 유닛들을 상호접속하는 임의 수의 공지된 기술들을 이용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛들(1006)과 코어들(1002A-N) 사이에는 코히어런시가 유지된다.

일부 실시예들에서, 코어들(1002A-N) 중 하나 이상은 멀티-쓰레딩이 가능하다. 시스템 에이전트(1010)는 코어들(1002A-N)을 조정 및 조작하는 컴포넌트들을 포함한다. 시스템 에이전트 유닛(1010)은 예를 들어 PCU(Power Control Unit) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(1002A-N) 및 통합 그래픽 로직(1008)의 전력 상태를 조절하는 데 필요한 로직 및 컴포넌트들이거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속되는 디스플레이들을 구동하기 위한 것이다.

코어들(1002A-N)은 아키텍처 명령어 세트와 관련하여 동종 또는 이종일 수 있다; 즉, 코어들(1002A-N) 중 둘 이상은 동일 명령어 세트를 실행할 수 있는 반면, 다른 코어들은 그 명령어 세트의 서브세트 또는 상이한 명령어 세트만을 실행할 수 있다.

예시적인 컴퓨터 아키텍처

도 11-14는 예시적인 컴퓨터 아키텍처들의 블럭도들이다. 랩톱들, 데스크톱들, 핸드헬드 PC들, 퍼스널 디지털 어시스턴트들, 엔지니어링 워크스테이션들, 서버들, 네트워크 디바이스들, 네트워크 허브들, 스위치들, 임베디드 프로세서들, 디지털 신호 프로세서들(DSPs), 그래픽 디바이스들, 비디오 게임 디바이스들, 셋-톱 박스들, 마이크로 제어기들, 셀 폰들, 휴대용 미디어 플레이어들, 핸드헬드 디바이스들 및 다양한 다른 전자 디바이스들에 대한 기술분야에 알려진 다른 시스템 설계들 및 구성들도 적합하다. 일반적으로, 본 명세서에 개시된 바와 같은 프로세서 및/또는 다른 실행 로직을 통합할 수 있는 매우 다양한 시스템들 또는 전자 디바이스들이 일반적으로 적합하다.

이제 도 11을 참조하면, 본 발명의 일 실시예에 따른 시스템(1100)의 블럭도가 도시된다. 시스템(1100)은 하나 이상의 프로세서들(1110, 1115)을 포함할 수 있고, 이는 제어기 허브(1120)에 결합된다. 일 실시예에서, 제어기 허브(1120)는 GMCH(Graphics Memory Controller Hub)(1190) 및 IOH(Input/Ouput Hub)(1150)(개별 칩들 상에 존재할 수 있음)를 포함하고; GMCH(1190)는 메모리(1140) 및 코프로세서(1145)에 연결되는 메모리 및 그래픽 제어기들을 포함하고; IOH(1150)는 I/O(Input/Output) 디바이스들(1160)을 GMCH(1190)에 연결한다. 대안적으로, 메모리 및 그래픽 제어기들 중 하나 또는 양자 모두는 (본 명세서에서 개시되는 바와 같이) 프로세서 내에 통합되고, 메모리(1140) 및 코프로세서(1145)는 프로세서(1110) 및 IOH(1150)와 단일 칩에 있는 제어기 허브(1120)에 직접 연결된다.

추가적인 프로세서들(1115)의 옵션적 속성이 도 11에 파선들로 표시된다. 각각의 프로세서(1110, 1115)는 본 명세서에 개시되는 처리 코어들 중 하나 이상을 포함할 수 있고, 프로세서(1000)의 일부 버전일 수 있다.

메모리(1140)는, 예를 들어, DRAM(Dynamic Random Access Memory), PCM(Phase Change Memory), 또는 이 둘의 조합일 수 있다. 적어도 하나의 실시예에 대해, 제어기 허브(1120)는 FSB(Front Side Bus), QPI(QuickPath Interconnect) 등의 지점-대-지점 인터페이스, 또는 유사한 접속(1195) 등의 멀티-드롭 버스를 통해 프로세서(들)(1110, 1115)와 통신한다.

일 실시예에서, 코프로세서(1145)는 예를 들어 하이-스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등의 특수 목적 프로세서이다. 일 실시예에서, 제어기 허브(1120)는 통합 그래픽 가속기를 포함할 수 있다.

아키텍처, 마이크로 아키텍처, 열, 전력 소비 특성들 등을 포함하는 장점의 다양한 메트릭들과 관련하여 물리적 리소스들(1110, 1115) 사이에는 다양한 차이점들이 존재할 수 있다.

일 실시예에서, 프로세서(1110)는 일반적인 타입의 데이터 처리 작업들을 제어하는 명령어들을 실행한다. 명령어들 내에는 코프로세서 명령어들이 내장될 수 있다. 프로세서(1110)는 이러한 코프로세서 명령어들을 부속된 코프로세서(1145)에 의해 실행되어야 하는 타입의 것으로 인식한다. 따라서, 프로세서(1110)는 이러한 코프로세서 명령어들(또는 코프로세서 명령어들을 나타내는 제어 신호들)을 코프로세서 버스 또는 다른 상호접속 상에서 코프로세서(1145)에 발행한다. 코프로세서(들)(1145)는 수신된 코프로세서 명령어들을 수락 및 실행한다.

이제, 도 12를 참조하면, 본 발명의 일 실시예에 따른 제1의 보다 구체적인 예시적인 시스템(1200)의 블럭도가 도시된다. 도 12에 도시된 바와 같이, 멀티프로세서 시스템(1200)은 지점-대-지점 상호접속 시스템이며, 지점-대-지점 상호접속(1250)을 통해 연결되는 제1 프로세서(1270) 및 제2 프로세서(1280)를 포함한다. 프로세서들(1270, 1280) 각각은 일부 버전의 프로세서(1000)일 수 있다. 본 발명의 일 실시예에서, 프로세서들(1270, 1280)은 각각 프로세서들(1110, 1115)이고, 코프로세서(1238)는 코프로세서(1145)이다. 다른 실시예에서는, 프로세서들(1270, 1280)이 각각 프로세서(1110) 및 코프로세서(1145)이다.

프로세서들(1270, 1280)은 각각 IMC(Integrated Memory Controller) 유닛들(1272, 1282)을 포함하는 것으로 도시된다. 프로세서(1270)는 또한 그의 버스 제어기 유닛들의 일부로서 P-P(Pont-to-Point) 인터페이스들(1276, 1278)을 포함한다; 유사하게 제2 프로세서(1280)는 P-P 인터페이스들(1286, 1288)을 포함한다. 프로세서들(1270, 1280)은 P-P 인터페이스(Pont-to-Point) 회로들(1278, 1288)을 이용하여 P-P 인터페이스(1250)를 통해 정보를 교환할 수 있다. 도 12에 도시된 바와 같이, IMC들(1272 및 1282)은 프로세서들을 각자의 메모리, 즉 메모리(1232) 및 메모리(1234)에 연결하며, 이들 메모리는 각 프로세서에 국부적으로 부속되는 메인 메모리의 일부일 수 있다.

프로세서들(1270, 1280)은 지점 대 지점 인터페이스 회로들(1276, 1294, 1286, 1298)을 사용하여 개별 P-P 인터페이스들(1252, 1254)을 통해 칩셋(1290)과 정보를 각각 교환할 수 있다. 칩셋(1290)은 고-성능 인터페이스(1239)를 통해 코프로세서(1238)와 정보를 선택적으로 교환할 수 있다. 일 실시예에서, 코프로세서(1238)는 예를 들어 하이-쓰루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등 특수 목적 프로세서이다.

공유된 캐시(도시되지 않음)는 어느 한 프로세서에 포함되거나, 양자 모두의 프로세서의 외부이지만 여전히 P-P 상호접속을 통해 프로세서들과 접속될 수 있어서, 프로세서가 저 전력 모드에 놓이는 경우 어느 한쪽 또는 양자 모두의 프로세서의 로컬 캐시 정보가 공유된 캐시에 저장될 수 있다.

칩셋(1290)은 인터페이스(1296)를 통해 제1 버스(1216)에 연결될 수 있다. 일 실시예에서, 제1 버스(1216)는 PCI(Peripheral Component Interconnect) 버스일 수 있거나, 또는 PCI 익스프레스 버스 또는 다른 3세대 I/O 상호접속 버스 등의 버스일 수 있지만, 본 발명의 범위가 이에 제한되는 것은 아니다.

도 12에 도시된 바와 같이, 다양한 I/O 디바이스들(1214)이 제1 버스(1216)에 연결될 수 있으며, 이와 함께 버스 브릿지(1218)가 제1 버스(1216)를 제2 버스(1220)에 연결한다. 일 실시예에서는, 코프로세서들, 하이-쓰루풋 MIC 프로세서들, GPGPU들, 가속기들(예를 들어, 그래픽 가속기 또는 DSP(Digital Signal Processing) 유닛 등), 필드 프로그래머블 게이트 어레이들 또는 임의의 다른 프로세서 등 하나 이상의 추가적인 프로세서(들)(1215)가 제1 버스(1216)에 연결된다. 일 실시예에서, 제2 버스(1220)는 LPC(Low Pin Count) 버스일 수 있다. 일 실시예에서는, 예를 들어 키보드 및/또는 마우스(1222), 통신 디바이스들(1227) 및 명령어들/코드 및 데이터(1230)를 포함할 수 있는 디스크 드라이브 또는 기타 대용량 저장 디바이스 등의 저장 유닛(1228)을 포함하는 다양한 디바이스들이 제2 버스(1220)에 연결될 수 있다. 또한, 오디오 I/O(1224)가 제2 버스(1220)에 연결될 수 있다. 다른 아키텍처들도 가능하다는 점에 주의한다. 예를 들어, 도 12의 지점-대-지점 아키텍처 대신에, 시스템은 멀티-드롭 버스 또는 다른 그러한 아키텍처를 구현할 수 있다.

이제, 도 13을 참조하면, 본 발명의 일 실시예에 따른 제2의 보다 구체적인 예시적인 시스템(1300)의 블럭도가 도시된다. 도 12 및 13에서 동일한 엘리먼트들은 동일한 참조 번호들을 가지며, 도 12의 특정 양상들은 도 13의 다른 양상들을 모호하게 하는 것을 회피하기 위해 도 13으로부터 생략되었다.

도 13은 프로세서들(1270, 1280)이 각각 통합 메모리 및 I/O 제어 로직("CL")(1272, 1282)을 포함할 수 있다는 점을 도시한다. 따라서, CL(1272, 1282)은 통합 메모리 제어기 유닛들을 포함하며, I/O 제어 로직을 포함한다. 도 13은 메모리들(1232, 1234)이 CL(1272, 1282)에 연결될 뿐만 아니라, I/O 디바이스들(1314) 또한 제어 로직(1272, 1282)에 연결된다는 것을 도시한다. 레거시 I/O 디바이스들(1315)은 칩셋(1290)에 연결된다.

이제, 도 14를 참조하면, 본 발명의 일 실시예에 따른 SoC(1400)의 블럭도가 도시된다. 도 10에서의 유사한 엘리먼트들은 동일한 참조 번호를 갖는다. 또한, 점선 박스는 더욱 개선된 SoC들에 관한 선택적 특징들이다. 도 14에서, 상호접속 유닛(들)(1402)은: 하나 이상의 코어들(202A-N)의 세트 및 공유 캐시 유닛(들)(1006)을 포함하는 애플리케이션 프로세서(1410); 시스템 에이전트 유닛(1010); 버스 제어기 유닛(들)(1016); 통합 메모리 제어기 유닛(들)(1014); 통합 그래픽 로직, 이미지 프로세서, 오디오 프로세서 및 비디오 프로세서를 포함할 수 있는 하나 이상의 코프로세서들(1420)의 세트; SRAM(Static Random Access Memory) 유닛(1430); DMA(Direct Memory Access) 유닛(1432); 및 하나 이상의 외부 디스플레이들에 연결하기 위한 디스플레이 유닛(1440)에 연결된다. 일 실시예에서, 코프로세서(들)(1420)는, 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 하이-쓰루풋 MIC 프로세서, 임베디드 프로세서 등의 특수 목적 프로세서를 포함한다.

본 명세서에 개시되는 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어 또는 이러한 구현 접근방식들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 적어도 하나의 프로세서, 스토리지 시스템(휘발성 및 불휘발성 메모리 및/또는 스토리지 엘리먼트들을 포함함), 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함하는 프로그래머블 시스템들 상에서 실행되는 컴퓨터 프로그램들 또는 프로그램 코드로서 구현될 수 있다.

도 12에 도시된 코드(1230) 등의 프로그램 코드는 본 명세서에 개시되는 펑션들을 수행하고 출력 정보를 생성하기 위한 입력 명령어들에 적용될 수 있다. 출력 정보는 알려진 방식으로 하나 이상의 출력 디바이스에 적용될 수 있다. 본 출원의 목적으로, 처리 시스템은, 예를 들어, DSP(Digital Signal Processor), 마이크로제어기, ASIC(Application Specific Integrated Circuit) 또는 마이크로프로세서 등의 프로세서를 갖는 임의의 시스템을 포함한다.

프로그램 코드는 하이 레벨 절차적 또는 객체 지향적 프로그래밍 언어로 구현되어 처리 시스템과 통신할 수 있다. 프로그램 코드는, 또한, 요구되는 경우, 어셈블리 또는 기계 언어로 구현될 수 있다. 사실상, 본 명세서에 개시되는 메커니즘들이 임의의 특정 프로그래밍 언어로 범위가 제한되는 것은 아니다. 어느 경우에나, 언어는 컴파일되거나 또는 해석되는 언어일 수 있다.

적어도 일 실시예의 하나 이상의 양상은, 머신에 의해 판독될 때 머신으로 하여금 본 명세서에서 개시되는 기술들을 수행하는 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 표현하는, 머신 판독-가능 매체 상에 저장되는 대표적인 명령어들에 의해 구현될 수 있다. "IP 코어들"로서 알려진 그러한 표현들은 유형의 머신 판독가능 매체 상에 저장될 수 있으며, 다양한 고객들 또는 제조 설비에 공급되어, 로직 또는 프로세서를 실제로 제작하는 제조 머신들 내에 로드될 수 있다.

이러한 머신-판독가능 저장 매체들은, 하드 디스크들, 플로피 디스크들, 광 디스크들, CD-ROM들(Compact Disk Read-Only Memories), CD-RW들(Compact Disk ReWritable's) 및 광자기 디스크들 포함하는 임의의 다른 타입의 디스크들, ROM들(Read-Only Memories), DRAM들(Dynamic Random Access Memories), SRAM들(Static Random Access Memories) 등의 RAM들(Random Access Memories), EPROM들(Electrically Erasable Programmable Read-Only Memories), 플래시 메모리들, EEPROM들(Electrically Erasable Programmable Read-Only Memories), PCM(Phase Change Memory) 등의 반도체 장치, 자기 또는 광학 카드, 또는 전자적 명령어들을 저장하기에 적합한 임의의 다른 타입의 매체와 같은 저장 매체를 포함하는 머신 또는 디바이스에 의해 제조되거나 또는 형성되는 물품들의 비-일시적이고 유형인 배열들을 포함할 수 있고, 이에 제한되는 것은 아니다.

따라서, 본 발명의 실시예들은, 또한, 명령어들을 포함하거나, 또는 본 명세서에 개시되는 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 특징들을 정의하는, HDL(Hardware Description Language) 등의 설계 데이터를 포함하는 비-일시적이고 유형인 머신 판독가능 매체를 포함한다. 이러한 실시예들은 또한 프로그램 제품들이라고 할 수 있다.

에뮬레이션(바이너리 해석, 코드 모핑 등을 포함함)

일부 경우에는, 명령어 변환기가 소스 명령어 세트로부터 타겟 명령어 세트로 명령어를 변환하는데 사용될 수 있다. 예를 들어, 명령어 변환기는 코어에 의해 처리될 하나 이상의 다른 명령어들로 명령어를 (예를 들어, 정적 바이너리 해석, 동적 컴필레이션을 포함하는 동적 바이너리 해석을 이용하여) 해석하거나, 모프하거나, 에뮬레이트하거나, 또는 다른 방식으로 변환할 수 있다. 명령어 변환기는 소프트웨어, 하드웨어, 펌웨어, 또는 그의 조합으로 구현될 수 있다. 명령어 변환기는 온 프로세서(on processor), 오프 프로세서(off processor), 또는 부분 온 및 부분 오프 프로세서(part on and part off processor)일 수 있다.

도 15는 본 발명의 실시예들에 따라 소스 명령어 세트 내의 바이너리 명령어들을 타겟 명령어 세트 내의 바이너리 명령어들로 변환하는 소프트웨어 명령어 변환기의 사용을 대조하는 블럭도이다. 도시된 실시예에서, 명령어 변환기는 소프트웨어 명령어 변환기이지만, 대안적으로 명령어 변환기가 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 다양한 조합들로 구현될 수 있다. 도 15는 하이 레벨 언어(1502)의 프로그램을 x86 컴파일러(1504)를 사용하여 컴파일하여, 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1516)에 의해 선천적으로 실행될 수 있는 x86 바이너리 코드(1506)를 생성할 수 있다는 것을 도시한다. 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1516)는, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위해서, (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 상당 부분 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서 상에서 실행되는 것을 목적으로 하는 오브젝트 코드 버전들의 애플리케이션들 또는 다른 소프트웨어를 호환가능하게 실행하거나 또는 다른 방식으로 처리함으로써, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 펑션을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(1504)는 추가적인 링크 처리(linkage processing)를 갖거나 갖지 않고서 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1516) 상에서 실행될 수 있는 x86 바이너리 코드(1506)(예를 들어, 오브젝트 코드)를 생성하도록 작동될 수 있는 컴파일러를 나타낸다. 유사하게, 도 15는 하이 레벨 언어(1502)의 프로그램을 대안적인 명령어 세트 컴파일러(1508)를 사용하여 컴파일하여, 적어도 하나의 x86 명령어 세트 코어를 갖지 않는 프로세서(1514)(예를 들어, 캘리포니아주 서니베일의 MIPS 테크놀로지스의 MIPS 명령어 세트를 실행하고/실행하거나 캘리포니아주 서니베일의 ARM 홀딩스의 ARM 명령어 세트를 실행하는 코어들을 갖는 프로세서)에 의해 선천적으로 실행될 수 있는 대안적인 명령어 세트 바이너리 코드(1510)를 생성할 수 있다는 점을 도시한다. 명령어 변환기(1512)는 x86 바이너리 코드(1506)를, x86 명령어 세트 코어(1514)를 갖지 않는 프로세서에 의해 선천적으로 실행될 수 있는 코드로 변환하는데 사용된다. 이러한 변환된 코드는 대안적인 명령어 세트 바이너리 코드(1510)와 동일할 가능성이 없는데, 그 이유는 이를 행할 수 있는 명령어 변환기를 제조하기 어렵기 때문이다; 그러나, 변환된 코드는 일반적인 작업을 달성할 것이며, 대안적인 명령어 세트로부터의 명령어들로 이루어질 것이다. 따라서, 명령어 변환기(1512)는, 에뮬레이션, 시뮬레이션 또는 임의의 다른 프로세스를 통해 x86 명령어 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스가 x86 바이너리 코드(1506)를 실행하는 것을 허용하는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 나타낸다.

설명 및 청구범위에서, "연결되는(coupled)" 및/또는 "접속되는(connected)"이라는 용어들이, 이들의 파생어와 함께, 사용될 수 있다. 이들 용어가 상호 동의어로서 의도되는 것은 아니라는 점이 이해되어야 한다. 오히려, 실시예들에서, "접속되는"이란 2 이상의 엘리먼트들이 상호 직접적인 물리적 및/또는 전기적 접촉을 이루고 있다는 점을 나타내는데 사용될 수 있다. "연결되는"이란 2 이상의 엘리먼트들이 직접적인 물리적 및/또는 전기적 접촉을 이루고 있다는 점을 의미할 수 있다. 그러나, "연결되는"이란 2 이상의 엘리먼트들이 상호 직접적인 접촉을 이루고 있지는 않지만, 여전히 상호 협력하거나 상호작용하고 있다는 점을 또한 의미할 수 있다. 예를 들어, 리턴 타겟 제한 유닛은 하나 이상의 중간 컴포넌트들을 통해 디코드 유닛과 연결될 수 있다. 도면들에서, 화살표들은 접속들 및 연결들을 보여주는데 사용된다.

설명 및 청구범위에서, "로직(logic)"이라는 용어가 사용되었을 수 있다. 본 명세서에 사용되는 바와 같이, 로직은, 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합을 포함할 수 있다. 로직의 예들은, 집적 회로, 주문형 집적 회로들, 아날로그 회로들, 디지털 회로들, 프로그램 논리 디바이스들, 명령어들을 포함하는 메모리 디바이스들 등을 포함한다. 일부 실시예들에서, 하드웨어 로직은 잠재적으로 다른 회로 컴포넌트들과 함께 트랜지스터들 및/또는 게이트들을 포함할 수 있다.

"및/또는(and/or)"이란 용어가 사용되었을 수 있다. 본 명세서에서 사용되는 바와 같이, "및/또는"이란 용어는 하나 또는 나머지 또는 양자 모두를 의미한다(예를 들어, A 및/또는 B는 A 또는 B 또는 A와 B 양자 모두를 의미한다).

위의 설명에서는 설명의 목적으로 본 발명의 실시예들의 충분한 이해를 제공하기 위해 다양한 구체적 상세사항들이 설명되었다. 그러나, 하나 이상의 다른 실시예는 이들 구체적 상세사항의 일부 없이 실시될 수 있다는 것은 통상의 기술자에게 명백할 것이다. 설명되는 특정 실시예들은 본 발명을 한정하는 것이 아니라 실시예들을 통해 본 발명을 설명하기 위해 제공된다. 본 발명의 범위는 특정 예들에 의해서가 아니라 청구항들에 의해서만 결정되어야 한다. 다른 경우들에서, 잘 알려진 회로들, 구조들, 디바이스들, 및 동작들은 설명의 이해를 불명료하게 하는 것을 피하기 위해 블럭도 형태로 또는 상세사항 없이 도시되었다.

적절한 것으로 고려되는 경우, 참조 번호들 또는 참조 번호들의 종단 부분들은, 달리 특정되거나 명백하게 분명하지 않는 한, 선택적으로 유사하거나 동일한 특성들을 가질 수 있는 대응하는 또는 유사한 엘리먼트들을 나타내기 위해서 도면들 사이에서 반복되었다. 일부 경우들에서, 다수의 컴포넌트가 설명되는 경우, 이들은 단일 컴포넌트로 통합될 수 있다. 다른 경우들에서, 단일 컴포넌트가 설명된 경우, 이것은 다수의 컴포넌트로 분할될 수 있다.

다양한 연산들 및 방법들이 개시되었다. 방법들 중 일부는 흐름도에서 비교적 기본적인 형태로 개시되었지만, 연산들은 선택적으로 방법들에 추가될 수 있거나 및/또는 방법들에서 제거될 수 있다. 또한, 흐름도들이 실시예들에 따른 연산의 특정 순서를 도시하지만, 그 순서는 예시적이다. 대안적인 실시예들은 상이한 순서로 연산들을 수행할 수 있고, 특정 연산들을 조합할 수 있고, 특정 연산들을 중복할 수 있는 등등이다.

일부 실시예들은 머신-판독가능 매체를 포함하는 제조 물품(예를 들어, 컴퓨터 프로그램 제품)을 포함한다. 매체는 머신에 의해 판독가능한 형태로 정보를 제공하는, 예를 들어, 저장하는 메커니즘을 포함할 수 있다. 머신-판독가능 매체는 머신에 의해 실행되면 및/또는 실행될 때 머신으로 하여금 본 명세서에 개시되는 하나 이상의 연산들, 방법들, 또는 기술들을 수행하게 하고 및/또는 수행하는 결과가 머신에 생기게 하도록 동작가능한 명령어들 또는 명령어들의 시퀀스를 제공하거나 저장할 수 있다. 일부 실시예들에서, 머신-판독가능 매체는 유형의 및/또는 비-일시적 머신-판독가능 저장 매체를 포함할 수 있다. 예를 들어, 유형의 비-일시적 머신-판독가능 저장 매체는, 플로피 디스켓, 광 저장 매체, 광 디스크, CD-ROM, 자기 디스크, 광자기 디스크, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable-and-Programmable ROM), EEPROM(Electrically-Erasable-and-Programmable ROM), RAM(Random Access Memory), SRAM(Static-RAM), DRAM(Dynamic-RAM), 플래시 메모리, 상 변화 메모리 등을 포함할 수 있다. 유형의 매체는, 예를 들어, 반도체 재료, 상 변화 재료, 자기 재료 등과 같은 하나 이상의 솔리드 또는 유형의 물리적 데이터 스토리지 재료들을 포함할 수 있다. 데이터 저장 매체는 일시적 전파되는 신호(transitory propagated signal)로 이루어지지 않는다. 일부 실시예들에서, 저장 매체는 불휘발성이다. 적절한 머신들의 예들은, 이에 제한되는 것은 아니지만, 서버들, 데스크탑들, 랩탑들, 노트북들, 태블릿들, 스마트폰들, 셀룰러 폰들, MID들(Mobile Internet devices), 미디어 플레이어들, 스마트 텔레비전들, 넷탑들, 네트워크 엘리먼트들(예를 들어, 라우터들 및 스위치들 등) 넷탑들, 셋-톱 박스들, 비디오 게임 제어기들, 및 하나 이상의 프로세서들을 갖는 다른 컴퓨터 시스템들 또는 전자 디바이스들을 포함한다.

본 명세서 전반에 걸쳐서 예를 들어, "일 실시예", "실시예", "하나 이상의 실시예들", "일부 실시예들"에 대한 언급은, 예를 들어, 특정한 특징이 본 발명의 실시에 포함될 수 있다는 것을 의미한다는 점이 또한 이해되어야 한다. 유사하게, 본 개시내용을 간소화하고 다양한 본 발명의 양상들의 이해를 도울 목적으로, 설명에서는 다양한 특징들이 때때로 단일 실시예, 도면, 또는 그의 설명에서 함께 그룹화된다는 점이 이해되어야 한다. 그러나, 이러한 개시의 방법이, 본 발명은 각 청구범위에 명백하게 기재된 것보다 더 많은 특징들을 요구하는 의도를 반영하는 것으로서 해석되어서는 안 된다. 오히려, 이하 청구범위들이 반영하는 바에 따라, 본 발명의 양상들은 단일 개시된 실시예의 모든 특징들보다 적게 놓일 수 있다. 따라서, 상세한 설명에 후속하는 청구범위들은 이에 의해 본 상세한 설명에 명백하게 통합되고, 각 청구범위는 본 발명의 개별 실시예로서 자립한다.

예시적인 실시예들

이하의 예들은 추가적 실시예들과 관련된다. 이러한 예들에서의 상세사항들은 하나 이상의 실시예들에서 어디에서나 사용될 수 있다.

예 1은 패킹된 데이터를 저장할 수 있는 레지스터들의 세트를 포함하는 프로세서이다. 이러한 프로세서는 레지스터들의 세트와 연결되는 실행 유닛을 또한 포함한다. 이러한 실행 유닛은 명령어들에 응답하여 적어도 2가지 상이한 방식들로 레지스터들의 세트를 액세스한다. 적어도 2가지 상이한 방식들은, 레지스터들의 세트가 복수의 N 비트 레지스터들을 나타내는 제1 방식, 및 레지스터들의 세트가 적어도 2N 비트의 단일 레지스터를 나타내고, 적어도 2N 비트는 적어도 256 비트인, 제2 방식을 포함한다.

예 2는, 예 1의 프로세서를 포함하고, 옵션으로, 제2 방식에서 레지스터들의 세트는 4N 비트의 단일 레지스터를 나타내고, 실행 유닛은 또한 레지스터들의 세트가 복수의 2N 비트 레지스터들을 나타내는 제3 방식으로 레지스터들의 세트를 액세스한다.

예 3은, 예 2의 프로세서를 포함하고, 옵션으로, 제2 방식에서 레지스터들의 세트는 적어도 512 비트를 갖는 단일 레지스터를 나타낸다.

예 4는, 예 1의 프로세서를 포함하고, 옵션으로, 실행 유닛은 또한 레지스터들의 세트가 복수의 N/2 비트 레지스터들을 나타내는 제3 방식으로 레지스터들의 세트를 액세스한다.

예 5는, 예 1의 프로세서를 포함하고, 옵션으로, 제1 방식에서 레지스터들의 세트는 복수의 256 비트 레지스터들을 나타내고, 제2 방식에서 레지스터들의 세트는 512 비트의 단일 레지스터를 나타낸다.

예 6은, 예 1의 프로세서를 포함하고, 옵션으로, 제2 방식에서 레지스터들의 세트는 적어도 512 비트의 단일 레지스터를 나타낸다.

예 7은, 예 1의 프로세서를 포함하고, 옵션으로, 제1 방식에서 레지스터들의 세트는 복수의 128 비트 레지스터들을 나타내고, 제2 방식에서 레지스터들의 세트는 256 비트의 단일 레지스터를 나타낸다.

예 8은, 예 1-7 중 어느 하나의 프로세서를 포함하고, 옵션으로, 실행 유닛은 실행 유닛이 해당 명령어에 대해 레지스터들의 세트를 액세스하는 방식을 나타내는 오피코드를 갖는 명령어에 응답한다.

예 9는, 예 1-7 중 어느 하나의 프로세서를 포함하고, 옵션으로, 실행 유닛은 실행 유닛이 해당 명령어에 대해 레지스터들의 세트를 액세스하는 방식을 나타내는 오피코드 이외의 필드를 갖는 명령어에 응답한다.

예 10은, 예 1-7 중 어느 하나의 프로세서를 포함하고, 옵션으로, 프로세서는 RISC(Reduced Instruction Set Computing) 프로세서를 포함하고, 레지스터들의 세트는 N/2 비트 레지스터들이다.

예 11은, 예 1-7 중 어느 하나의 프로세서를 포함하고, 옵션으로, 프로세서는 RISC(Reduced Instruction Set Computing) 프로세서를 포함하고, 레지스터들의 세트는 N 비트 레지스터들이다.

예 12는, 예 1-7 중 어느 하나의 프로세서를 포함하고, 옵션으로, 실행 유닛은 제2 방식으로 단일 레지스터를 나타내는 레지스터들의 세트를 명시하는 하나 이상의 필드들을 갖는 명령어에 응답한다.

예 13은 프로세서에 의해 수행되는 방법으로서, 레지스터들의 세트를 제1 방식으로 액세스하는 단계- 제1 방식에서, 레지스터들의 세트는 복수의 N 비트 레지스터들을 나타내며, 복수의 N 비트 레지스터들 각각으로부터 대응하는 N 비트 패킹된 데이터를 검색함 -를 포함한다. 본 방법은 또한 레지스터들의 세트를 제2 방식으로 액세스하는 단계- 제2 방식에서, 레지스터들의 세트는 적어도 2N 비트의 단일 레지스터를 나타내며, 단일 레지스터로부터 적어도 2N 비트의 대응하는 패킹된 데이터를 검색하고, 적어도 2N 비트는 적어도 256 비트임 -를 포함한다.

예 14는, 예 13의 방법을 포함하고, 옵션으로, 제2 방식으로 액세스하는 단계는 4N 비트의 단일 레지스터를 나타내는 레지스터들의 세트를 액세스하는 단계를 포함하고, 레지스터들의 세트를 레지스터들의 세트가 복수의 2N 비트 레지스터들을 나타내는 제3 방식으로 액세스하는 단계를 더 포함한다.

예 15는, 예 13의 방법을 포함하고, 옵션으로, 제2 방식으로 액세스하는 단계는 적어도 512 비트를 갖는 단일 레지스터를 나타내는 레지스터들의 세트들을 액세스하는 단계를 포함한다.

예 16은, 예 13의 방법을 포함하고, 옵션으로, 레지스터들의 세트를 레지스터들의 세트가 복수의 N/2 비트 레지스터들을 나타내는 제3 방식으로 액세스하는 단계를 더 포함한다.

예 17은, 예 13의 방법을 포함하고, 옵션으로, 제1 방식으로 액세스하는 단계는 복수의 256 비트 레지스터들을 나타내는 레지스터들의 세트를 액세스하는 단계를 포함하고, 제2 방식으로 액세스하는 단계는 512 비트의 단일 레지스터를 나타내는 레지스터들의 세트를 액세스하는 단계를 포함한다.

예 18은, 예 13의 방법을 포함하고, 옵션으로, 제1 방식으로 액세스하는 단계는 복수의 128 비트 레지스터들을 나타내는 레지스터들의 세트를 액세스하는 단계를 포함하고, 제2 방식으로 액세스하는 단계는 256 비트의 단일 레지스터를 나타내는 레지스터들의 세트를 액세스하는 단계를 포함한다.

예 19는, 예 13-18 중 어느 하나의 방법을 포함하고, 옵션으로, 제2 방식으로 액세스하는 단계는 레지스터들의 세트가 제2 방식으로 액세스되는 것을 나타내는 오피코드를 갖는 명령어에 응답한다.

예 20은, 예 13-18 중 어느 하나의 방법을 포함하고, 옵션으로, 제2 방식으로 액세스하는 단계는 레지스터들의 세트가 제2 방식으로 액세스되는 것을 나타내는 오피코드 이외의 필드를 갖는 명령어에 응답한다.

예 21은, 예 13-18 중 어느 하나의 방법을 포함하고, 옵션으로, 제2 방식으로 액세스하는 단계는 N/2 비트 레지스터들인 레지스터들의 세트를 액세스하는 단계를 포함한다.

예 22는, 예 13-18 중 어느 하나의 방법을 포함하고, 옵션으로, 제2 방식으로 액세스하는 단계는 N 비트 레지스터들인 레지스터들의 세트를 액세스하는 단계를 포함한다.

예 23은 명령어들을 처리하는 시스템으로서, 상호접속, 및 상호접속과 연결되는 프로세서를 포함한다. 이러한 프로세서는, 레지스터들의 세트, 및 레지스터들의 세트와 연결되는 실행 유닛을 포함한다. 이러한 실행 유닛은 패킹된 데이터 명령어들에 응답하여 적어도 3가지 상이한 방식들로 레지스터들의 세트를 액세스한다. 적어도 3가지 상이한 방식들은 레지스터들의 세트가 패킹된 데이터를 저장하는 복수의 N 비트 레지스터들을 나타내는 제1 방식을 포함한다. 또한, 레지스터들의 세트가 패킹된 데이터를 저장하는 적어도 2N 비트의 단일 레지스터를 나타내는 제2 방식이 포함된다. 또한, 레지스터들의 세트가 N 비트 이외이고 적어도 2N 비트보다 작은 폭을 갖는 복수의 레지스터들을 나타내는 제3 방식이 포함된다. 시스템은 또한 상호접속과 연결되는 DRAM(Dynamic Random Access Memory)을 포함한다.

예 24는, 예 23의 시스템을 포함하고, 옵션으로 제2 방식에서 레지스터들의 세트는 적어도 256 비트의 단일 레지스터를 나타낸다.

예 25는, 명령어들을 저장하는 비-일시적 머신-판독가능 저장 매체를 포함하는 제조 물품으로서, 명령어들은, 머신에 의해 실행되면, 머신으로 하여금, 레지스터들의 세트를 제1 방식으로 액세스하는 단계- 제1 방식에서 레지스터들의 세트는 복수의 N 비트 레지스터들을 나타내며, 복수의 N 비트 레지스터들 각각으로부터 대응하는 N 비트 패킹된 데이터를 검색함 -를 포함하는 연산들을 수행하게 한다. 이러한 연산들은 또한 레지스터들의 세트를 제2 방식으로 액세스하는 단계- 제2 방식에서, 레지스터들의 세트는 적어도 2N 비트의 단일 레지스터를 나타내며, 단일 레지스터로부터 적어도 2N 비트의 대응하는 패킹된 데이터를 검색하고, 적어도 2N 비트는 적어도 256 비트임 -를 포함한다. 이러한 연산들은 또한 레지스터들의 세트를 제3 방식으로 액세스하는 단계- 제3 방식에서, 레지스터들의 세트는 제1 및 제2 방식들에서와는 상이한 수의 비트들을 각각 갖는 복수의 레지스터들을 나타냄 -를 포함한다.

예 26은, 예 25의 제조 물품을 포함하고, 옵션으로, 머신-판독가능 저장 매체는, 머신에 의해 실행되면 머신으로 하여금, 레지스터들의 세트를 레지스터들의 세트가 적어도 256 비트를 나타내는 단일 레지스터를 나타내는 제2 방식으로 액세스하는 단계를 포함하는 연산들을 수행하게 할 명령어들을 더 저장한다.

예 27은 제1 방식으로 레지스터들의 세트를 액세스하는 수단- 제1 방식에서, 레지스터들의 세트는 복수의 N 비트 레지스터들을 나타내고, 복수의 N 비트 레지스터들 각각으로부터 대응하는 N 비트 패팅된 데이터를 검색함 -을 포함하는 프로세서이다. 이러한 프로세서는 또한 제2 방식으로 레지스터들의 세트를 액세스하는 수단- 제2 방식에서, 레지스터들의 세트는 적어도 2N 비트의 단일 레지스터를 나타내며, 단일 레지스터로부터 적어도 2N 비트의 대응하는 패킹된 데이터를 검색하고, 적어도 2N 비트는 적어도 256 비트임 -를 포함한다.

예 28은, 예 27의 프로세서를 포함하고, 옵션으로, 제2 방식으로 액세스하는 수단은 4N 비트의 단일 레지스터를 나타내는 레지스터들의 세트를 액세스하는 수단을 포함하고, 레지스터들의 세트가 복수의 2N 비트 레지스터들을 나타내는 제3 방식으로 레지스터들의 세트를 액세스하는 수단을 더 포함한다.

예 29는, 머신에 의해 실행되면 머신으로 하여금 예 13-22 중 어느 하나의 방법을 수행하게 하는 명령어들을 저장하는 머신-판독가능 저장 매체이다.

예 30은 예 13-22 중 어느 하나의 방법을 수행하는 프로세서이다.

예 31은 예 13-22 중 어느 하나의 방법을 수행하는 수단을 포함하는 프로세서이다.

예 32는 예 13-22 중 어느 하나의 방법을 수행하는 집적 회로 및/또는 로직 및/또는 유닛들 및/또는 컴포넌트들 및/또는 모듈들 또는 이들의 임의의 조합을 포함하는 프로세서이다.

예 33은 예 13-22 중 어느 하나의 방법을 수행하는 컴퓨터 시스템이다.

예 34는 본 명세서에 설명되는 바와 같은 하나 이상의 연산들 또는 방법을 실질적으로 수행하는 프로세서이다.

예 35는 본 명세서에 설명되는 바와 같은 하나 이상의 연산들 또는 방법을 실질적으로 수행하는 수단을 포함하는 프로세서이다.

Claims

프로세서로서,
레지스터들의 세트 - 각 레지스터는 패킹된 데이터를 저장할 수 있음 -;
명령어들을 디코딩하는 디코드 유닛; 및
상기 레지스터들의 세트와 연결되고 상기 디코드 유닛과 연결된 실행 유닛- 상기 실행 유닛은 디코딩된 상기 명령어들에 응답하여 적어도 2가지 상이한 방식들로 상기 레지스터들의 세트를 액세스함 -
을 포함하고,
상기 적어도 2가지 상이한 방식들은,
상기 레지스터들의 세트가 복수의 순차적(sequential) N 비트 아키텍처 레지스터들(architectural registers)을 나타내는 제1 방식 - 상기 프로세서의 명령어 세트의 복수의 명령어는 상기 복수의 순차적 N 비트 아키텍처 레지스터 중 임의의 하나를 명시적으로 특정할 수 있는 적어도 하나의 필드를 각각 가짐 - ; 및
상기 제1 방식에서 상기 복수의 순차적 N 비트 아키텍처 레지스터를 나타내는 상기 레지스터들의 세트가 적어도 2N 비트의 단일 아키텍처 레지스터를 나타내고, 상기 적어도 2N 비트는 적어도 256 비트인, 제2 방식
을 포함하는 프로세서.
제1항에 있어서,
상기 제2 방식에서 상기 레지스터들의 세트는 4N 비트의 단일 아키텍처 레지스터를 나타내고, 상기 실행 유닛은 또한 상기 레지스터들의 세트가 복수의 순차적 2N 비트 아키텍처 레지스터들을 나타내는 제3 방식으로 상기 레지스터들의 세트를 액세스하는 프로세서.
제2항에 있어서,
상기 제2 방식에서 상기 레지스터들의 세트는 적어도 512 비트를 갖는 상기 단일 아키텍처 레지스터를 나타내는 프로세서.
제1항에 있어서,
상기 실행 유닛은 또한 상기 레지스터들의 세트가 복수의 순차적 N/2 비트 아키텍처 레지스터들을 나타내는 제3 방식으로 상기 레지스터들의 세트를 액세스하는 프로세서.
제1항에 있어서,
상기 제1 방식에서 상기 레지스터들의 세트는 256 비트의, 상기 복수의 순차적 아키텍처 레지스터들을 나타내고, 상기 제2 방식에서 상기 레지스터들의 세트는 512 비트의 상기 단일 아키텍처 레지스터를 나타내는 프로세서.
제1항에 있어서,
상기 제2 방식에서 상기 레지스터들의 세트는 적어도 512 비트의 상기 단일 아키텍처 레지스터를 나타내는 프로세서.
제1항에 있어서,
상기 제1 방식에서 상기 레지스터들의 세트는 128 비트의, 상기 복수의 순차적 아키텍처 레지스터들을 나타내고, 상기 제2 방식에서 상기 레지스터들의 세트는 256 비트의 상기 단일 아키텍처 레지스터를 나타내는 프로세서.
제1항에 있어서,
상기 실행 유닛은, 상기 실행 유닛이 해당 명령어에 대해 상기 레지스터들의 세트를 액세스하는 방식을 나타내는 오피코드를 갖는 명령어에 응답하는 프로세서.
제1항에 있어서,
상기 실행 유닛은 상기 실행 유닛이 해당 명령어에 대해 상기 레지스터들의 세트를 액세스하는 방식을 나타내는 오피코드 이외의 필드를 갖는 명령어에 응답하는 프로세서.
제1항에 있어서,
상기 프로세서는 RISC(Reduced Instruction Set Computing) 프로세서를 포함하고, 상기 레지스터들의 세트는 N/2 비트 레지스터들인 프로세서.
제1항에 있어서,
상기 프로세서는 RISC 프로세서를 포함하고, 상기 레지스터들의 세트는 N 비트 레지스터들인 프로세서.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
명령어들을 처리하는 시스템으로서,
상호접속;
상기 상호접속과 연결되는 프로세서; 및
상기 상호접속과 연결되는 DRAM(Dynamic Random Access Memory)
을 포함하고,
상기 프로세서는,
레지스터들의 세트 - 각 레지스터는 패킹된 데이터를 저장할 수 있음 -; 및
상기 레지스터들의 세트와 연결되는 실행 유닛- 상기 실행 유닛은 패킹된 데이터 명령어들에 응답하여 적어도 3가지 상이한 방식들로 상기 레지스터들의 세트를 액세스함 -
을 포함하고,
상기 적어도 3가지 상이한 방식들은,
상기 레지스터들의 세트가 패킹된 데이터를 저장하는 복수의 순차적 N 비트 아키텍처 레지스터들을 나타내는 제1 방식 - 상기 프로세서의 명령어 세트의 복수의 명령어는 상기 복수의 순차적 N 비트 아키텍처 레지스터 중 임의의 하나를 명시적으로 특정할 수 있는 적어도 하나의 필드를 각각 가짐 - ;
상기 제1 방식에서 상기 복수의 순차적 N 비트 아키텍처 레지스터를 나타내는 상기 레지스터들의 세트가 패킹된 데이터를 저장하는 적어도 2N 비트의 단일 아키텍처 레지스터를 나타내는 제2 방식; 및
상기 레지스터들의 세트가 N 비트 이외이고 상기 적어도 2N 비트보다 작은 폭을 갖는 복수의 순차적 아키텍처 레지스터들을 나타내는 제3 방식
을 포함하는 시스템.
삭제
삭제
삭제
삭제
프로세서로서,
제1 N 비트 레지스터를 명시적으로 특정하는 필드를 갖는 제1 명령어를 디코딩하고, 적어도 2N 비트의 레지스터를 명시적으로 특정하는 필드를 갖는 제2 명령어를 디코딩하는 디코드 유닛; 및
상기 디코드 유닛과 연결된 실행 유닛- 상기 실행 유닛은 디코딩된 상기 제1 명령어에 응답하여 상기 제1 N 비트 레지스터에 액세스하고, 디코딩된 상기 제2 명령어에 응답하여 상기 적어도 2N 비트의 레지스터에 액세스함 -
을 포함하고,
상기 적어도 2N 비트는 적어도 256 비트이고,
상기 적어도 2N 비트의 레지스터의 일 부분은 상기 제1 N 비트 레지스터에 맵핑되고, 상기 적어도 2N 비트의 레지스터의 다른 부분은 상기 제1 N 비트 레지스터를 순차적으로 뒤따르는 제2 N 비트 레지스터에 맵핑되는,
프로세서.
프로세서로서,
제1 명령어와 제2 명령어를 디코딩하는 디코드 유닛 - 상기 제1 명령어는 제1 128-비트 레지스터를 명시적으로 특정하는 필드를 갖고, 상기 제2 명령어는 적어도 512-비트의 제2 레지스터를 명시적으로 특정하는 필드를 가짐 -; 및
상기 디코드 유닛과 연결된 실행 유닛- 상기 실행 유닛은 디코딩된 상기 제1 명령어에 응답하여 상기 제1 128-비트 레지스터에 액세스하고, 디코딩된 상기 제2 명령어에 응답하여 상기 적어도 512-비트의 상기 제2 레지스터에 액세스함 -
을 포함하고,
상기 적어도 512-비트의 상기 제2 레지스터는, 상기 제1 128-비트 레지스터와, 상기 제1 128-비트 레지스터를 순차적으로 뒤따르는 복수의 순차적 128-비트 레지스터들에 맵핑되는,
프로세서.