KR20150138343A

KR20150138343A - 다중 레지스터 메모리 액세스 명령어들, 프로세서들, 방법들 및 시스템들

Info

Publication number: KR20150138343A
Application number: KR1020157031473A
Authority: KR
Inventors: 글렌 힌톤; 브렛 톨; 로낙 싱할
Original assignee: 인텔 코포레이션
Priority date: 2013-06-28
Filing date: 2014-06-26
Publication date: 2015-12-09
Also published as: US20180122429A1; KR101964350B1; RU2636675C2; US10141033B2; US20150006848A1; CN108845826B; EP3014416A1; KR20180034684A; US9786338B2; US10170165B2; US10163468B2; TW201508767A; WO2014210363A1; US20180122432A1; US20180033468A1; US10153011B2; CN105247477B; CN105247477A; US20180122431A1; CN108845826A

Abstract

프로세서는 N-비트 레지스터들, 및 다중 레지스터 메모리 액세스 명령어를 수신하는 디코드 유닛을 포함한다. 다중 레지스터 메모리 액세스 명령어는 메모리 위치 및 레지스터를 표시한다. 프로세서는, 디코드 유닛 및 N-비트 레지스터들과 연결된 메모리 액세스 유닛을 포함한다. 메모리 액세스 유닛은, 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행한다. 이 연산은, 표시된 레지스터를 포함하는 N-비트 레지스터들 각각에서의 N-비트 데이터를 수반한다. 이 연산은, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 또한 수반한다. 다중 레지스터 메모리 액세스 연산에 수반되는 N-비트 레지스터들에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

Description

다중 레지스터 메모리 액세스 명령어들, 프로세서들, 방법들 및 시스템들{MULTIPLE REGISTER MEMORY ACCESS INSTRUCTIONS, PROCESSORS, METHODS, AND SYSTEMS}

본 명세서에 설명된 실시예들은 일반적으로 프로세서들에 관한 것이다. 구체적으로는, 본 명세서에 설명된 실시예들은 일반적으로 프로세서들을 사용하여 메모리에서의 데이터에 액세스하는 것에 관한 것이다.

많은 프로세서가 SIMD(Single Instruction, Multiple Data) 아키텍처들을 갖는다. SIMD 아키텍처들에서, 패킹된 데이터 명령어(packed data instruction), 벡터 명령어 또는 SIMD 명령어는 다수의 데이터 요소(예를 들어, 데이터 요소들의 다수의 쌍)에 대해 동시에 또는 병렬로 연산할 수 있다. 다수의 데이터 요소는 패킹된 데이터로서 레지스터 또는 메모리 위치 내에 패킹될 수 있다. 패킹된 데이터에서, 레지스터 또는 다른 스토리지 위치의 비트들은 데이터 요소들의 시퀀스로 논리적으로 분할될 수 있다. 예를 들어, 64-비트 폭의 패킹된 데이터 레지스터는 2개의 패킹된 32-비트 데이터 요소, 4개의 패킹된 16-비트 데이터 요소, 또는 8개의 패킹된 8-비트 데이터 요소를 가질 수 있다. 프로세서는, 패킹된 데이터 명령어에 응답하여, 다수의 연산을 동시에(예를 들어, 병렬로) 수행하는 병렬 실행 하드웨어를 가질 수 있다.

일부 프로세서들에서, 수년에 걸쳐 패킹된 데이터 피연산자들의 폭에 있어서 점진적인 증가가 있었다. 이러한 패킹된 데이터 피연산자들의 폭에서의 증가는 일반적으로 더 많은 데이터 요소들이 동시에(예를 들어, 병렬로) 처리되는 것을 허용하여, 일반적으로 성능의 개선을 돕는다. 예를 들어, 128-비트 폭의 패킹된 데이터 피연산자는 (64-비트 폭의 패킹된 데이터 피연산자의 경우에 단지 2개 대신에) 4개의 32-비트 데이터 요소, (64-비트 폭의 패킹된 데이터 피연산자의 경우에 단지 4개 대신에) 8개의 패킹된 16-비트 데이터 요소 등을 가질 수 있다.

특정 프로세서들에서, 패킹된 데이터 피연산자들의 폭에서의 증가는 레지스터들의 폭에서의 대응하는 증가를 동반한다. 그러나, 레지스터들의 폭을 증가시키는 것에 대한 한가지 가능한 결점은 다이 상에서 레지스터들에 의해 점유되는 면적 또는 풋프린트에서의 증가이다. 예를 들어, 각각 128-비트 레지스터들이도록 64-비트 레지스터들의 세트의 각각의 레지스터를 확장하는 것은 다이 상에서 레지스터들에 의해 점유되는 면적 또는 풋프린트를 대략 2배로 할 가능성이 있을 것이다. 그 영향은, 아키텍처 레지스터들보다 더 많은 물리적 레지스터들이 구현되는 구현예들에서 훨씬 더 클 가능성이 있을 것인데, 그 이유는 더 많은 개수의 레지스터들의 크기가 대략 2배로 될 수 있기 때문이다. 레지스터들의 폭에서의 이러한 증가에 대한 다른 가능한 결점은, 콘텍스트 스위치, 전력 모드 상태 세이브 및 유사한 천이에 따라 레지스터들로/로부터 이동(예를 들어, 세이브 및 복구)될 필요가 있는, 레지스터들에 저장된 상태, 콘텍스트 또는 다른 데이터의 양에서의 대응하는 증가이다. 예를 들어, 각각의 레지스터에 대해, 단지 64 비트 대신에 128 비트가 콘텍스트 변화에 따라 스왑-인 및 스왑-아웃될 필요가 있을 수 있다.

통상적으로, 프로세서들은, 메모리로부터 데이터(예를 들어, 패킹된 데이터 피연산자들)를 로딩하고 메모리로 데이터(예를 들어, 패킹된 데이터 피연산자들)를 저장하기 위해 명령어들을 실행한다. 예를 들어, 프로세서는, 메모리로부터 목적지 레지스터로 패킹된 데이터 피연산자를 로딩하거나 판독하기 위해 메모리로부터의 로드 명령어(load from memory instruction)를 실행할 수 있다. 프로세서는, 소스 레지스터로부터 메모리로 패킹된 데이터 피연산자를 기입하거나 저장하기 위해 메모리에 대한 기입 명령어(write to memory instruction)를 실행할 수 있다.

본 발명은, 실시예들을 예시하는데 이용되는 첨부 도면들 및 다음의 설명을 참조함으로써 최상으로 이해될 수 있다.
도 1은 컴퓨터 시스템의 실시예의 블록도이다.
도 2는 다중 레지스터 메모리 액세스 명령어의 실시예를 처리하는 방법의 실시예의 블록 흐름도이다.
도 3은 메모리로부터의 다중 레지스터 로드 명령어(multiple register load from memory instruction)의 실시예를 처리하는 방법의 실시예의 블록 흐름도이다.
도 4는 메모리에 대한 다중 레지스터 기입 명령어(multiple register write to memory instruction)의 실시예를 처리하는 방법의 실시예의 블록 흐름도이다.
도 5는 적합한 다중 레지스터 메모리 액세스 연산의 제1의 예시적인 실시예의 블록도이다.
도 6은 적합한 다중 레지스터 메모리 액세스 연산의 제2의 예시적인 실시예의 블록도이다.
도 7은 적합한 다중 레지스터 메모리 액세스 연산의 제3의 예시적인 실시예의 블록도이다.
도 8은 레지스터들의 세트가 상이한 뷰들에서 64-비트 레지스터들, 128-비트 레지스터들 및 256-비트 레지스터들로서 보여지거나 액세스될 수 있는 실시예를 도시하는 블록도이다.
도 9a 내지 도 9c는 다중 레지스터 메모리 액세스 명령어들에 적합한 명령어 포맷들의 실시예들의 블록도들이다.
도 10a는 본 발명의 실시예들에 따른 예시적인 순차 파이프라인 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 파이프라인(register renaming, out-of-order issue/execution pipeline)의 양쪽 모두를 도시하는 블록도이다.
도 10b는 본 발명의 실시예들에 따른 프로세서에 포함될 순차 아키텍처 코어의 예시적인 실시예 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 아키텍처 코어의 양쪽 모두를 도시하는 블록도이다.
도 11a는 본 발명의 실시예들에 따른 단일 프로세서 코어를, 온-다이(on-die) 상호접속 네트워크로의 그것의 접속 및 레벨 2(L2) 캐시의 그것의 로컬 서브세트와 함께 도시하는 블록도이다.
도 11b는 본 발명의 실시예들에 따른 도 11a의 프로세서 코어의 일부의 확대도이다.
도 12는 본 발명의 실시예들에 따른 하나보다 많은 코어를 가질 수 있고 통합된 메모리 제어기를 가질 수 있으며 통합된 그래픽스(integrated graphics)를 가질 수 있는 프로세서의 블록도이다.
도 13은 본 발명의 일 실시예에 따른 시스템의 블록도를 도시한다.
도 14는 본 발명의 실시예에 따른 제1의 보다 구체적인 예시적인 시스템의 블록도를 도시한다.
도 15는 본 발명의 실시예에 따른 제2의 보다 구체적인 예시적인 시스템의 블록도를 도시한다.
도 16은 본 발명의 실시예에 따른 SoC의 블록도를 도시한다.
도 17은 본 발명의 실시예들에 따른 소스 명령어 세트에서의 바이너리 명령어들을 타깃 명령어 세트에서의 바이너리 명령어들로 변환하기 위한 소프트웨어 명령어 변환기의 이용을 대조하는 블록도이다.

다음의 설명에서, 다수의 특정 상세가 제시된다(예를 들어, 명령어들에 응답하여 수행되는 특정 연산들, 특정 개수의 레지스터들, 특정 크기의 레지스터들, 특정 크기의 캐시 라인들, 특정 프로세서 구성들, 특정 마이크로아키텍처 상세들, 연산들의 특정 시퀀스들 등). 그러나, 실시예들은 이들 특정 상세 없이 실시될 수 있다. 다른 경우에, 본 설명의 이해를 모호하게 하는 것을 회피하기 위해서 잘 알려진 회로들, 구조들 및 기술들은 상세하게 제시되지 않았다.

통상의 메모리 액세스 명령어들은 종종 메모리 액세스에서 단일 레지스터만을 수반한다. 메모리와 단일 레지스터 사이에 교환되는 데이터의 양은 단지 단일 레지스터의 폭(예를 들어, 64-비트 레지스터들의 경우에 64 비트)이다. 그러나, 일반적으로 메모리에서의 데이터는 더 넓은 "라인들"로서 구성된다. 이러한 메모리의 라인들은 메모리와 프로세서, 예를 들어 프로세서의 하나 이상의 캐시 사이에 교환되거나 전송되는 데이터의 양을 나타낸다. 예를 들어, 데이터의 64 비트만이 실제로 레지스터 파일로 또는 레지스터 파일로부터 전송될 수 있을 지라도, 일반적으로 데이터의 64 비트를 갖는 메모리의 더 넓은 전체 라인이 메모리와 프로세서의 캐시 사이에 전송될 수 있다. 메모리의 라인은 캐시 내의 캐시 라인에 저장될 수 있다. 일반적으로, 많은 프로세서는 메모리의 512-비트 폭의 라인들 및 대응하는 512-비트 폭의 캐시 라인들을 이용한다. 단일 목적지 레지스터로의 64-비트 데이터의 로드는 64-비트 데이터를 갖는 메모리의 전체 512-비트 라인을 프로세서의 캐시의 512-비트 캐시 라인으로 로딩하거나 회수(retrieve)하고, 64-비트 데이터만을 단일 목적지 레지스터로 로딩할 수 있다. 데이터의 64-비트만이 실제로 캐시로부터 레지스터 파일로 전송될 것이다.

이러한 통상의 "단일 레지스터" 메모리 액세스 명령어들의 한가지 잠재적인 결점은, 특히 패킹된 데이터를 저장하기 위해 비교적 좁은 레지스터들을 이용하는 프로세서들에서, 캐시와 레지스터들 사이에 이용된 대역폭이 비교적 낮은 경향이 있을 수 있다는 것이다. 일부 경우에, 캐시 라인 및/또는 메모리의 동일한 라인 내의 다른 데이터도 또한 처리를 위해 필요할 수 있지만, 통상적으로 명령어에 의해 레지스터들로 이동되지 않는다. 예를 들어, 이것은 프로세서의 레지스터들보다 더 넓은 메모리에서의 넓은 패킹된 데이터 피연산자들에 대한 경우일 수 있다. 일부 경우에, 메모리의 라인의 적어도 절반을 또는 다른 경우에는 메모리의 전체 라인을 프로세서의 레지스터들로 로딩하는 것이 바람직할 수 있다. 메모리의 전체 512-비트 라인을 8개의 64-비트 레지스터로 로딩하는 한가지 가능한 방식은 메모리로부터의 8개의 별개의 단일 64-비트 레지스터 로드 명령어를 이용하는 것이다. 예를 들어, 메모리에서의 512-비트 라인의 제1 64-비트 데이터를 표시하는 메모리로부터의 제1 단일 64-비트 레지스터 로드 명령어는 표시된 제1 64-비트 부분을 제1 표시된 레지스터로 로딩하고 저장할 수 있다. 메모리의 전체 512-비트 라인은 메모리로부터 프로세서로 회수되고, 512-비트 캐시 라인에 저장될 수 있다. 메모리에서의 512-비트 라인의 제2 64-비트 데이터를 표시하는 메모리로부터의 제2 단일 64-비트 레지스터 로드 명령어는 이미 로딩된 512-비트 캐시 라인으로부터 표시된 제2 64-비트 부분을 로딩하고, 제2 64-비트 데이터를 제2 표시된 레지스터에 저장할 수 있다. 유사하게, 메모리로부터의 제3 내지 제8 단일 64-비트 레지스터 로드 명령어도 또한 캐시에 이미 로딩된 캐시 라인으로부터의 데이터를 이용할 수 있다. 그러나, 이러한 접근법에 대한 가능한 결점은 다수의 명령어를 실행할 필요성인데, 이는 코드 크기 및 처리 시간을 증가시키는 경향이 있고, 다수의 캐시 액세스를 수반할 수 있다.

다중 레지스터 메모리 액세스 명령어들, 이들 명령어들을 실행하는 프로세서들, 이들 명령어들을 처리하거나 실행할 때 프로세서들에 의해 수행되는 방법들, 및 이들 명령어들을 처리하거나 실행하는 하나 이상의 프로세서를 통합하는 시스템들이 본 명세서에 개시되어 있다.

도 1은 컴퓨터 시스템(100)의 실시예의 블록도이다. 다양한 실시예들에서, 컴퓨터 시스템은 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 넷북, 스마트폰, PDA(personal digital assistant), 셀룰러 폰, 서버, 네트워크 디바이스(예를 들어, 라우터 또는 스위치), 모바일 인터넷 디바이스(MID: Mobile Internet device), 미디어 플레이어, 스마트 텔레비전, 셋톱 박스, 비디오 게임 제어기, 또는 적어도 하나의 프로세서를 갖는 다른 타입의 전자 디바이스를 나타낼 수 있다.

컴퓨터 시스템은 프로세서(102) 및 메모리(120)를 포함한다. 메모리는 동일하거나 상이한 타입의 하나 이상의 메모리 디바이스를 포함할 수 있다. 실시예들에 적합한 한가지 일반적인 타입의 메모리는 동적 랜덤 액세스 메모리(DRAM)이지만, 다른 타입의 메모리(예를 들어, 플래시 메모리)도 또한 사용될 수 있다. 프로세서 및 메모리는 상호접속 메커니즘(124)에 의해 서로 연결된다. 메모리와 프로세서를 연결하기 위해 관련 기술분야에 공지되어 있는 임의의 통상의 상호접속 메커니즘이 적합하다. 이러한 메커니즘들의 예들은 상호접속부들(interconnects), 버스들, 허브들, 메모리 제어기들, 칩셋들, 칩셋 컴포넌트들 등, 및 이들의 조합들을 포함하지만, 이에 제한되지는 않는다.

프로세서(102)는 명령어들을 처리하도록 동작가능한 명령어 처리 장치를 나타낸다. 일부 실시예들에서, 프로세서는 범용 프로세서(예를 들어, 데스크톱, 랩톱 및 유사한 컴퓨터들에서 이용되는 타입의 범용 마이크로프로세서)일 수 있다. 대안적으로, 프로세서는 특수 목적 프로세서일 수 있다. 적합한 특수 목적 프로세서들의 예들은, 몇 가지 예를 들자면, 네트워크 프로세서들, 통신 프로세서들, 암호화 프로세서들, 그래픽 프로세서들, 코프로세서들, 임베디드 프로세서들, 디지털 신호 프로세서들(DSP들) 및 제어기들(예를 들어, 마이크로컨트롤러들)을 포함하지만, 이에 제한되지는 않는다. 프로세서는 다양한 CISC(complex instruction set computing) 프로세서들, 다양한 RISC(reduced instruction set computing) 프로세서들, 다양한 VLIW(very long instruction word) 프로세서들, 이들의 다양한 하이브리드들, 또는 완전히 다른 타입의 프로세서들 중 임의의 것일 수 있다.

프로세서(102)는 다중 레지스터 메모리 액세스 명령어(104)를 수신할 수 있다. 일부 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리로부터의 다중 레지스터 로드 명령어를 나타낼 수 있다. 다른 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리에 대한 다중 레지스터 저장 명령어를 나타낼 수 있다. 다중 레지스터 메모리 액세스 명령어는 머신 코드 명령어, 어셈블리 언어 명령어, 매크로명령어, 또는 프로세서의 명령어 세트의 제어 신호를 나타낼 수 있다. 일부 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리(120)에서의 메모리 위치(118)를 (예를 들어, 하나 이상의 필드 또는 비트들의 세트를 통해) 명시적으로 특정하거나 다른 방식으로 표시(예를 들어, 암시적으로 표시)할 수 있으며, 레지스터(112)(예를 들어, N-비트 레지스터들(110)의 세트에 의해 구현된 레지스터)를 명시적으로 특정하거나 다른 방식으로 표시할 수 있다.

프로세서는 명령어 디코드 유닛(106)을 포함한다. 명령어 디코드 유닛은 디코드 유닛, 디코더 또는 디코드 로직으로 또한 지칭될 수 있다. 디코드 유닛은 상대적으로 상위 레벨의 명령어들(예를 들어, 머신 코드 명령어들, 어셈블리 언어 명령어들, 매크로명령어들)을 수신하여 디코딩하고, 이들 상위 레벨의 명령어들을 반영하고, 나타내고, 그리고/또는 이들 상위 레벨의 명령어들로부터 도출되는 하나 이상의 상대적으로 하위 레벨의 명령어들 또는 제어 신호들(예를 들어, 마이크로명령어들, 마이크로연산들, 마이크로코드 엔트리 포인트들)을 출력할 수 있다. 하나 이상의 하위 레벨의 명령어들 또는 제어 신호들은 하나 이상의 하위 레벨(예를 들어, 회로 레벨 또는 하드웨어 레벨) 연산들을 통해 상위 레벨 명령어를 구현할 수 있다. 디코드 유닛은, 관련 기술분야에 공지되어 있는 디코드 유닛들을 구현하는데 이용되는 마이크로코드 판독 전용 메모리들(ROM들), 룩업 테이블들, 하드웨어 구현들, 프로그램가능 로직 어레이들(PLA들) 및 다른 메커니즘들을 포함하지만 이에 제한되지는 않는 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다.

다른 실시예들에서, 명령어 에뮬레이터, 번역기, 모퍼(morpher), 해석기 또는 다른 명령어 변환 로직이 이용될 수 있다. 다양한 상이한 타입의 명령어 변환 로직이 관련 기술분야에 공지되어 있으며, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 명령어 변환 로직은 명령어를 하나 이상의 대응하는 도출된 명령어들 또는 제어 신호들로 에뮬레이트하거나, 번역하거나, 모핑하거나, 해석하거나 또는 다른 방식으로 변환할 수 있다. 일부 실시예들에서, 명령어 변환 로직 및 디코드 유닛 양쪽 모두가 이용될 수 있다. 예를 들어, 명령어 변환 로직은 명령어를 하나 이상의 중간 명령어로 변환할 수 있고, 디코드 유닛은 하나 이상의 중간 명령어를 프로세서의 집적 회로에 의해 실행가능한 하나 이상의 하위 레벨의 명령어들 또는 제어 신호들로 디코드할 수 있다. 명령어 변환 로직은 프로세서의 외부에(예를 들어, 별개의 다이 상에 또는 메모리에), 프로세서 상에, 또는 이들의 조합으로 위치될 수 있다.

다시 도 1을 참조하면, 메모리 액세스 유닛(108)이 디코드 유닛(106)과 연결된다. 메모리 액세스 유닛은, 다중 레지스터 메모리 액세스 명령어(104)를 나타내고/나타내거나 다중 레지스터 메모리 액세스 명령어로부터 도출되는 하나 이상의 디코딩되거나 다른 방식으로 변환된 명령어를 수신할 수 있다. 메모리 액세스 유닛은 상호접속 메커니즘(124)을 통해 메모리(120)와 또한 연결된다. 메모리 액세스 유닛은 메모리와 상호작용하거나 메모리에 액세스하도록 프로세서들의 메모리 서브시스템에서 종종 발견되는 하나 이상의 컴포넌트를 구현할 수 있다. 이러한 컴포넌트들의 예들은 메모리 액세스 로직, 버스 인터페이스 유닛, 하나 이상의 레벨의 캐시, 하나 이상의 변환 색인 버퍼(TLS), 가상 어드레스 변환 로직 등을 포함하지만, 이에 제한되지는 않는다. 도시된 바와 같이, 메모리 액세스 유닛은 적어도 하나의 캐시(109)를 가질 수 있다.

프로세서(102)는 N-비트 레지스터들(110)의 세트를 또한 포함한다. 레지스터들 각각은 데이터, 예를 들어 N-비트 데이터를 저장하도록 동작가능한 온-다이 스토리지 위치를 나타낼 수 있다. 일부 실시예들에서, N-비트 레지스터들은 N-비트 패킹된 데이터, 벡터 데이터 또는 SIMD(single instruction multiple data) 데이터를 저장하도록 동작가능한 패킹된 데이터 레지스터들을 나타낼 수 있지만, 이것이 요구되지는 않는다. 다양한 실시예들에서, N-비트 레지스터들은 64-비트 레지스터들, 128-비트 레지스터들 또는 256-비트 레지스터들일 수 있다. 대안적으로, N-비트 레지스터들은 다른 크기들(예를 들어, 32-비트 레지스터들, 80-비트 레지스터들 등)을 가질 수 있다. 일부 실시예들에서, N-비트 레지스터들의 세트는 다중 레지스터 메모리 액세스 명령어에 의해 표시되는 레지스터(112)를 구비하거나, 구현하거나 또는 다른 방식으로 포함할 수 있다. 레지스터들은 소프트웨어 및/또는 프로그래머에 가시될 수 있고/있거나, 피연산자들을 식별하기 위해 명령어 세트의 명령어들에 의해 특정될 수 있다. 레지스터들은 잘 알려진 기술들을 이용하여 상이한 마이크로아키텍처들에서 상이한 방식들로 구현될 수 있으며, 임의의 특정 타입의 회로에 제한되지는 않는다. 적합한 타입의 레지스터들의 예들은 전용 물리적 레지스터들, 레지스터 리네이밍을 이용하여 동적으로 할당된 물리적 레지스터들, 및 이들의 조합들을 포함하지만, 이에 제한되지는 않는다.

이전에 언급된 바와 같이, 일부 실시예들에서, 다중 레지스터 메모리 액세스 명령어(104)는 레지스터(112)를 (예를 들어, 하나 이상의 필드 또는 비트들의 세트를 통해) 명시적으로 특정하거나 다른 방식으로 표시(예를 들어, 암시적으로 표시)할 수 있다. 일부 실시예들에서, N-비트 레지스터들의 세트는 다중 레지스터 메모리 액세스 명령어에 의해 표시된 레지스터(112)를 구비하거나, 구현하거나 또는 다른 방식으로 포함할 수 있다. 또한, 일부 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리에서의 메모리 위치(118)를 명시적으로 특정하거나 다른 방식으로 표시할 수 있다. 일부 실시예들에서, 메모리에서의 데이터는 메모리의 라인들로서 구성될 수 있다. 예시는 표시된 메모리 위치(118)에 대응하는(예를 들어, 표시된 메모리 위치에서의 데이터를 포함하는) 메모리의 MxN-비트 라인(116)을 도시한다. 메모리의 MxN-비트 라인은 정수 M개의 N-비트 폭의 데이터 부분들을 갖는다. 도시된 바와 같이, 메모리의 MxN-비트 라인은 제1 N-비트 데이터(114-1) 내지 제M N-비트 데이터(114-M)를 가질 수 있다. 일부 실시예들에서, MxN-비트 라인은 적어도 512 비트이다. 일 실시예에서, 정수 N은 128 비트일 수 있으며, 정수 M은 4일 수 있다. 다른 실시예에서, 정수 N은 256 비트일 수 있으며, 정수 M은 2일 수 있다. 또 다른 실시예에서, 정수 N은 64 비트일 수 있으며, 정수 M은 8일 수 있다. 다른 실시예들에서, MxN-비트 라인 폭은 다른 폭들(예를 들어, 256 비트, 적어도 512-비트, 1024 비트 등)을 가질 수 있다. N-비트 데이터 요소들의 개수 M은 일반적으로 N-비트 데이터 요소들의 폭에 의해 나누어진 메모리의 라인의 폭과 동등하다. 일부 실시예들에서, MxN-비트 라인은 프로세서의 캐시 라인의 폭과 동등한 폭을 가질 수 있다.

일부 실시예들에서, 메모리 액세스 유닛(108)은, 다중 레지스터 메모리 액세스 명령어(104)의 결과로서 및/또는 다중 레지스터 메모리 액세스 명령어에 응답하여(예를 들어, 다중 레지스터 메모리 액세스 명령어를 나타내고/나타내거나 다중 레지스터 메모리 액세스 명령어로부터 도출되는 하나 이상의 디코딩되거나 다른 방식으로 변환된 명령어들 또는 제어 신호들에 응답하여), 다중 레지스터 메모리 액세스 연산을 수행하도록 동작가능할 수 있다. 일부 실시예들에서, 다중 레지스터 메모리 액세스 연산은, 명령어(104)에 의해 표시된 레지스터(112)를 구비하거나, 구현하거나 또는 다른 방식으로 포함하는 복수의 N-비트 레지스터(110) 각각에서의 N-비트 데이터를 수반할 수 있다. 또한, 일부 실시예들에서, 다중 레지스터 메모리 액세스 연산은, 표시된 메모리 위치(118)에 대응하는 메모리의 MxN-비트 라인(116)의 상이한 대응하는 N-비트 부분들(114)을 또한 수반할 수 있다. 도시된 바와 같이, 메모리의 MxN-비트 라인은 예를 들어 일반적으로 통상의 방식으로 캐시(109)의 MxN-비트 캐시 라인(122)에 저장될 수 있다. 메모리 액세스 유닛 및/또는 프로세서는 명령어에 응답하여 연산들을 수행하도록 동작가능한 특정 또는 특별 로직(예를 들어, 펌웨어 및/또는 소프트웨어와 잠재적으로 결합되는 회로 또는 다른 하드웨어)을 포함할 수 있다.

일부 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리로부터의 다중 레지스터 로드 명령어일 수 있다. 메모리로부터의 다중 레지스터 로드 명령어에 응답하여, 일부 실시예들에서, 프로세서는 복수의 N-비트 레지스터 각각에서 메모리의 MxN-비트 라인의 상이한 N-비트 부분들을 로딩할 수 있다. 다른 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리에 대한 다중 레지스터 기입 명령어일 수 있다. 메모리에 대한 다중 레지스터 기입 명령어에 응답하여, 일부 실시예들에서, 프로세서는 복수의 N-비트 레지스터 각각으로부터의 N-비트 데이터를 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들로 기입할 수 있다.

일부 실시예들에서, 다중 레지스터 메모리 액세스 연산에 수반되는 전체 비트 수(예를 들어, 이러한 연산에 수반되는 복수의 N-비트 레지스터(110) 각각에서의 N-비트 데이터의 합계)는 메모리의 라인(116)의 MxN-비트의 적어도 절반에 달하거나, 또는 일부 경우에는 최대 그 비트 전체에 달할 수 있다. 일부 실시예들에서, 메모리의 라인의 MxN-비트의 적어도 절반 또는 일부 경우에는 최대 그 비트 전체는 캐시(109)로부터 레지스터들(110)의 세트로 전송될 수 있다. 다양한 실시예들에서, 적어도 2개, 3개, 4개 또는 그 이상의 레지스터가 수반될 수 있다. 일례로서, MxN-비트가 512 비트와 동등하며 N이 128 비트와 동등한 실시예에서, 다양한 양태들에서, 적어도 2개의 128-비트 레지스터(110), 일부 경우에는 3개의 128-비트 레지스터(110), 또는 일부 경우에는 4개의 128-비트 레지스터(110)가 다중 레지스터 메모리 액세스 연산에 수반될 수 있다. 다른 예로서, MxN-비트가 512 비트와 동등하며 N이 64 비트와 동등한 실시예에서, 다양한 양태들에서, 적어도 3개의 64-비트 레지스터(110), 적어도 4개의 64-비트 레지스터(110), 또는 일부 경우에는 최대 8개의 64-비트 레지스터(110)가 다중 레지스터 메모리 액세스 연산에 수반될 수 있다. 또 다른 예로서, MxN-비트가 512 비트와 동등하며 N이 256 비트와 동등한 실시예에서, 2개의 256-비트 레지스터(110)가 다중 레지스터 메모리 액세스 연산에 수반될 수 있다.

본 설명을 모호하게 하는 것을 회피하기 위해서, 비교적 단순한 프로세서(102)가 제시 및 설명되었다. 다른 실시예들에서, 프로세서는 프로세서들에서 발견되는 다른 잘 알려진 컴포넌트들을 선택적으로 포함할 수 있다. 이러한 컴포넌트들의 예들은 분기 예측 유닛, 명령어 페치 유닛, 명령어 및 데이터 변환 색인 버퍼들, 프리페치 버퍼들, 마이크로명령어 큐들, 마이크로명령어 시퀀서들, 레지스터 리네이밍 유닛, 명령어 스케줄링 유닛, 리타이어먼트 유닛(retirement unit), 프로세서들에 포함되는 다른 컴포넌트들, 및 이들의 다양한 조합들을 포함하지만, 이에 제한되지는 않는다. 사실상 프로세서들에서의 컴포넌트들의 다수의 상이한 조합 및 구성이 존재하며, 실시예들은 임의의 특정 조합 또는 구성에 제한되지는 않는다. 실시예들은, 적어도 하나가 다중 레지스터 메모리 액세스 명령어의 실시예를 수행할 수 있는 다수의 코어, 논리 프로세서 또는 실행 엔진을 갖는 프로세서들에 포함될 수 있다.

도 2는 다중 레지스터 메모리 액세스 명령어의 실시예를 처리하는 방법(230)의 실시예의 블록 흐름도이다. 이 방법은 프로세서, 명령어 처리 장치, 집적 회로 등 내에서 그리고/또는 그것에 의해서 수행될 수 있다.

이 방법은, 블록(231)에서, 다중 레지스터 메모리 액세스 명령어를 수신하는 것을 포함한다. 일부 실시예들에서, 다중 레지스터 메모리 액세스 명령어는 메모리 위치를 특정하거나 다른 방식으로 표시할 수 있으며, 레지스터를 특정하거나 다른 방식으로 표시할 수 있다. 다양한 양태들에서, 이 명령어는 프로세서, 명령어 처리 장치 또는 그것의 일부(예를 들어, 명령어 페치 유닛, 디코드 유닛, 명령어 변환기 등)에서 수신될 수 있다. 다양한 양태들에서, 이 명령어는 오프-다이(off-die) 소스로부터(예를 들어, 메모리, 디스크, 상호접속부 등으로부터) 또는 온-다이 소스로부터(예를 들어, 명령어 캐시, 명령어 페치 유닛 등으로부터) 수신될 수 있다.

이 방법은, 블록(232)에서, 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행하는 것을 포함한다. 일부 실시예들에서, 메모리 액세스 유닛 또는 프로세서의 다른 부분이 메모리 액세스 연산을 수행할 수 있다. 일부 실시예들에서, 다중 레지스터 메모리 액세스 연산은, 표시된 레지스터를 구비하거나 구현하거나 또는 다른 방식으로 포함하는 복수의 N-비트 레지스터 각각에서의 N-비트 데이터, 및 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 수반할 수 있다(예를 들어, 메모리의 MxN-비트 라인은 표시된 메모리 위치에서의 데이터를 포함함).

일부 실시예들에서, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달하거나, 또는 일부 경우에는 최대 그 비트 전체에 달할 수 있다. 일부 실시예들에서, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 적어도 256 비트, 적어도 512 비트, 또는 일부 경우에는 그 이상의 비트(예를 들어, 1024 비트)에 달할 수 있다. 다양한 실시예들에서, 적어도 2개, 3개, 4개 또는 그 이상의 레지스터가 다중 레지스터 메모리 액세스 연산에 수반될 수 있다.

도 3은 메모리로부터의 다중 레지스터 로드 명령어의 실시예를 처리하는 방법(330)의 실시예의 블록 흐름도이다. 이 방법은 프로세서, 명령어 처리 장치, 집적 회로 등 내에서 그리고/또는 그것에 의해서 수행될 수 있다.

이 방법은, 블록(331)에서, 메모리로부터의 다중 레지스터 로드 명령어를 수신하는 것을 포함한다. 일부 실시예들에서, 메모리로부터의 다중 레지스터 로드 명령어는 메모리 위치를 특정하거나 다른 방식으로 표시할 수 있으며, 레지스터를 특정하거나 다른 방식으로 표시할 수 있다. 이 명령어는 도 2와 관련하여 위에서 설명된 다양한 방식들로 수신될 수 있다.

이 방법은, 블록(332)에서, 메모리로부터의 다중 레지스터 로드 명령어에 응답하여, 메모리로부터의 다중 레지스터 로드 연산을 수행하는 것을 또한 포함한다. 일부 실시예들에서, 메모리 액세스 유닛 또는 프로세서의 다른 부분이 이러한 연산을 수행할 수 있다. 일부 실시예들에서, 이러한 연산을 수행하는 것은, 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각에서, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 N-비트 부분들을 로딩하는 것을 포함할 수 있다. 일부 실시예들에서, 이것은 MxN-비트 캐시 라인으로부터의 상이한 N-비트 부분들을 캐시로부터 상이한 N-비트 레지스터들 각각으로 전송하는 것을 포함할 수 있다.

일부 실시예들에서, 메모리의 MxN-비트 라인으로부터 복수의 N-비트 레지스터에 로딩되는 상이한 N-비트 부분들의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달하거나, 또는 일부 경우에는 최대 그 비트 전체에 달한다. 일부 실시예들에서, 메모리의 MxN-비트 라인으로부터 복수의 N-비트 레지스터에 로딩되는 상이한 N-비트 부분들의 전체 비트 수는 적어도 256 비트, 적어도 512 비트, 또는 일부 경우에는 그 이상의 비트(예를 들어, 1024 비트)에 달할 수 있다. 다양한 실시예들에서, 적어도 2개, 3개, 4개 또는 그 이상의 레지스터가 메모리로부터의 다중 레지스터 로드 연산에 수반될 수 있다. 하나의 특정 예에서, 이러한 연산은, 적어도 4개의 128-비트 레지스터들 각각에서, 적어도 512 비트인 메모리의 라인의 상이한 128-비트 부분들을 로딩할 수 있다. 다른 특정 예에서, 이러한 연산은, 적어도 2개의 256-비트 레지스터들 각각에서, 적어도 512 비트인 메모리의 라인의 상이한 256-비트 부분들을 로딩할 수 있다.

도 4는 메모리에 대한 다중 레지스터 저장 명령어의 실시예를 처리하는 방법(430)의 실시예의 블록 흐름도이다. 이 방법은 프로세서, 명령어 처리 장치, 집적 회로 등 내에서 그리고/또는 그것에 의해서 수행될 수 있다.

이 방법은, 블록(431)에서, 메모리에 대한 다중 레지스터 저장 명령어를 수신하는 것을 포함한다. 일부 실시예들에서, 메모리에 대한 다중 레지스터 저장 명령어는 메모리 위치를 특정하거나 다른 방식으로 표시할 수 있으며, 레지스터를 특정하거나 다른 방식으로 표시할 수 있다. 이 명령어는 도 2와 관련하여 위에서 설명된 다양한 방식들로 수신될 수 있다.

이 방법은, 블록(432)에서, 메모리에 대한 다중 레지스터 저장 명령어에 응답하여, 메모리에 대한 다중 레지스터 저장 연산을 수행하는 것을 또한 포함한다. 일부 실시예들에서, 메모리 액세스 유닛 또는 프로세서의 다른 부분이 이러한 연산을 수행할 수 있다. 일부 실시예들에서, 이러한 연산을 수행하는 것은, 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각으로부터, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들로 N-비트 데이터를 기입하는 것을 포함할 수 있다. 일부 실시예들에서, 이것은 복수의 N-비트 레지스터 각각으로부터 캐시로 N-비트 데이터를 전송하고, 상이한 N-비트 데이터 각각을 MxN-비트 캐시 라인의 상이한 N-비트 부분에 저장하는 것을 포함할 수 있다.

일부 실시예들에서, 복수의 N-비트 레지스터로부터 메모리의 MxN-비트 라인으로 기입되는 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달하거나, 또는 일부 경우에는 최대 그 비트 전체에 달할 수 있다. 일부 실시예들에서, 복수의 N-비트 레지스터로부터 메모리의 MxN-비트 라인으로 기입되는 N-비트 데이터의 전체 비트 수는 적어도 256 비트, 적어도 512 비트, 또는 일부 경우에는 그 이상의 비트(예를 들어, 1024 비트)에 달할 수 있다. 다양한 실시예들에서, 적어도 2개, 3개, 4개 또는 그 이상의 레지스터가 메모리에 대한 다중 레지스터 저장 연산에 수반될 수 있다.

도 2 내지 도 4의 방법들은 비교적 기본적인 형태로 설명되었다. 그러나, 선택적으로 방법들에 동작들이 부가되고/되거나 방법들로부터 동작들이 제거될 수 있다. 예를 들어, 일부 실시예들에서, 복수의 N-비트 레지스터와 연관되는(예를 들어, N-비트 레지스터들에 로딩되거나 또는 N-비트 레지스터로부터 기입되는) N-비트 데이터를 캐시에서의 MxN-비트 캐시 라인의 상이한 대응하는 N-비트 부분들에 저장하기 위해 이들 방법들 중 임의의 것에 동작이 선택적으로 부가될 수 있다. 다른 예로서, 일부 실시예들에서, 복수의 N-비트 레지스터와 연관되는(예를 들어, N-비트 레지스터들에 로딩되거나 또는 N-비트 레지스터로부터 기입되는) N-비트 데이터를 캐시와 N-비트 레지스터들 사이에 전송하기 위해 이들 방법들 중 임의의 것에 동작이 선택적으로 부가될 수 있다. 추가 예들로서, 명령어들을 페치하거나, 명령어들을 디코드하거나, 명령어들을 리타이어하거나 하기 위해 또는 이들의 다양한 조합들을 수행하기 위해 하나 이상의 동작이 선택적으로 부가될 수 있다.

일부 실시예들에서, 도 2 내지 도 4 중 임의의 것의 동작들 및/또는 방법들은 도 1의 프로세서 내에서 그리고/또는 이러한 프로세서에 의해서 수행될 수 있다. 선택적으로, 도 1의 프로세서에 대해 위에서 설명된 상세들 및 선택적인 상세들은, 실시예들에서 이러한 프로세서 내에서 그리고/또는 이러한 프로세서에 의해서 수행될 수 있는 도 2 내지 도 4의 동작들 및/또는 방법들에 또한 선택적으로 적용된다. 대안적으로, 도 2 내지 도 4 중 임의의 것의 동작들 및/또는 방법은 유사하거나 상이한 프로세서 내에서 그리고/또는 이러한 프로세서에 의해서 수행될 수 있다. 또한, 도 1의 프로세서는 도 2 내지 도 4 중 임의의 것과 동일하거나 유사하거나 또는 상이한 동작들 및/또는 방법들을 수행할 수 있다.

도 5는 다중 레지스터 메모리 액세스 명령어의 제1의 예시적인 실시예에 응답하여 수행될 수 있는 적합한 다중 레지스터 메모리 액세스 연산(530)의 제1의 예시적인 실시예의 블록도이다. 다중 레지스터 메모리 액세스 명령어는 프로세서(502)의 레지스터(512) 및 메모리(520)에서의 메모리 위치(518)를 표시할 수 있다. 이 실시예에서, 표시된 메모리 위치는 4개의 128-비트 데이터 부분(514-1 내지 514-4)을 갖는 메모리의 512-비트 라인(516)에 대응한다. 예를 들어, 메모리의 512-비트 라인은 표시된 메모리 위치에 데이터를 저장할 수 있다. 이 실시예에서, 표시된 레지스터는 4개의 128-비트 레지스터(510)의 세트를 구비하거나, 그것에 의해 구현되거나 또는 다른 방식으로 그것을 포함한다. 일부 실시예들에서, 4개의 128-비트 레지스터는 인접하거나 순차적인 레지스터들일 수 있다.

이 실시예에서, 다중 레지스터 메모리 액세스 연산은 4개의 128-비트 레지스터(510) 각각에서의 4개의 상이한 128-비트 데이터 부분들(514), 및 메모리의 512-비트 라인(516)의 상이한 대응하는 128-비트 부분들(514)을 수반한다. 예를 들어, 이러한 연산은 메모리의 512-비트 라인과 4개의 128-비트 레지스터의 세트 사이에 데이터를 교환 또는 전달할 수 있다. 일부 실시예들에서, 이러한 연산은 메모리로부터의 다중 레지스터 로드 연산의 실시예일 수 있으며, 128-비트 데이터 부분들(514)은 메모리의 512-비트 라인(516)으로부터 4개의 128-비트 레지스터(510)로 로딩되거나 판독될 수 있다. 다른 실시예들에서, 이러한 연산은 메모리에 대한 다중 레지스터 기입 연산의 실시예일 수 있으며, 128-비트 데이터 부분들(514)은 4개의 128-비트 레지스터(510)로부터 메모리의 512-비트 라인(516)으로 기입되거나 저장될 수 있다.

메모리의 512-비트 라인은 캐시(509)의 512-비트 캐시 라인(522)에 또한 저장될 수 있다. 일부 실시예들에서, 데이터는 상호접속부(524)를 통해 메모리와 프로세서(예를 들어, 캐시) 사이에 교환될 수 있다. 일부 실시예들에서, 상호접속부(524)는 클록 레이트들 등에 종속하여 512 비트의 비트 폭, 256 비트의 비트 폭 또는 일부 다른 비트 폭을 가질 수 있다. 일부 실시예들에서, 데이터는 상호접속부(534)를 통해 캐시와 4개의 128-비트 레지스터의 세트 사이에 교환될 수 있다. 일부 실시예들에서, 상호접속부(534)는 클록 레이트들 등에 종속하여 512 비트 또는 적어도 256 비트의 비트 폭 또는 대역폭을 가질 수 있다. 본 발명의 범위는 상호접속부(524 또는 534)의 비트 폭들에 제한되지는 않는다.

도 6은 다중 레지스터 메모리 액세스 명령어의 제2의 예시적인 실시예에 응답하여 수행될 수 있는 적합한 다중 레지스터 메모리 액세스 연산(630)의 제2의 예시적인 실시예의 블록도이다. 다중 레지스터 메모리 액세스 명령어는 프로세서(602)의 레지스터(612), 및 메모리(620)에서의 메모리 위치(618)를 표시할 수 있다. 이 실시예에서, 표시된 메모리 위치는 2개의 256-비트 데이터 부분(614-1 내지 614-2)을 갖는 메모리의 512-비트 라인(616)에 대응한다. 예를 들어, 메모리의 512-비트 라인은 표시된 메모리 위치에 데이터를 저장할 수 있다. 이 실시예에서, 표시된 레지스터는 2개의 256-비트 레지스터(610-1, 610-2)의 세트를 구비하거나, 그것에 의해 구현되거나 또는 다른 방식으로 그것을 포함한다. 일부 실시예들에서, 2개의 256-비트 레지스터는 인접하거나 순차적인 레지스터들일 수 있다.

이 실시예에서, 다중 레지스터 메모리 액세스 연산은 2개의 256-비트 레지스터(610) 각각에서의 2개의 상이한 256-비트 데이터 부분(614), 및 메모리의 512-비트 라인(616)의 상이한 대응하는 256-비트 부분들(614)을 수반한다. 예를 들어, 이러한 연산은 메모리의 512-비트 라인과 2개의 256-비트 레지스터 사이에 데이터를 교환 또는 전달할 수 있다. 일부 실시예들에서, 이러한 연산은 메모리로부터의 다중 레지스터 로드 연산의 실시예일 수 있으며, 256-비트 데이터 부분들(614)은 메모리의 512-비트 라인(616)으로부터 2개의 256-비트 레지스터(610)로 로딩되거나 판독될 수 있다. 다른 실시예들에서, 이러한 연산은 메모리에 대한 다중 레지스터 기입 연산의 실시예일 수 있으며, 256-비트 데이터 부분들(614)은 2개의 256-비트 레지스터(610)로부터 메모리의 512-비트 라인(616)으로 기입되거나 저장될 수 있다.

메모리의 512-비트 라인은 캐시(609)의 512-비트 캐시 라인(622)에 또한 저장될 수 있다. 일부 실시예들에서, 데이터는 상호접속부(624)를 통해 메모리와 프로세서(예를 들어, 캐시) 사이에 교환될 수 있다. 일부 실시예들에서, 상호접속부(624)는 클록 레이트들 등에 종속하여 512 비트의 비트 폭, 256 비트의 비트 폭 또는 일부 다른 비트 폭을 가질 수 있다. 일부 실시예들에서, 데이터는 상호접속부(634)를 통해 캐시와 2개의 256-비트 레지스터의 세트 사이에 교환될 수 있다. 일부 실시예들에서, 상호접속부(634)는 클록 레이트들 등에 종속하여 512 비트 또는 적어도 256 비트의 비트 폭 또는 대역폭을 가질 수 있다. 본 발명의 범위는 상호접속부(624 또는 634)의 비트 폭들에 제한되지는 않는다.

도 7은 다중 레지스터 메모리 액세스 명령어의 제3의 예시적인 실시예에 응답하여 수행될 수 있는 적합한 다중 레지스터 메모리 액세스 연산(730)의 제3의 예시적인 실시예의 블록도이다. 다중 레지스터 메모리 액세스 명령어는 프로세서(702)의 레지스터(712), 및 메모리(720)에서의 메모리 위치(718)를 표시할 수 있다. 이 실시예에서, 표시된 메모리 위치는 8개의 64-비트 데이터 부분(714-1 내지 714-8)을 갖는 메모리의 512-비트 라인(716)에 대응한다. 예를 들어, 메모리의 512-비트 라인은 표시된 메모리 위치에 데이터를 저장할 수 있다. 이 실시예에서, 표시된 레지스터는 4개의 64-비트 레지스터(710)의 세트를 구비하거나, 그것에 의해 구현되거나 또는 다른 방식으로 그것을 포함한다. 다른 실시예들에서, 4개 내지 8개의 64-비트 레지스터(710)가 이용될 수 있다(예를 들어, 6개, 8개 등). 일부 실시예들에서, 4개 또는 최대 8개의 64-비트 레지스터는 인접하거나 순차적인 레지스터들일 수 있다.

이 실시예에서, 다중 레지스터 메모리 액세스 연산은 4개(또는 최대 8개)의 64-비트 레지스터(710) 각각에서의 4개(또는 최대 8개)의 상이한 64-비트 데이터 부분(714), 및 메모리의 512-비트 라인(716)의 상이한 대응하는 64-비트 부분들(714)을 수반한다. 예를 들어, 이러한 연산은 메모리의 512-비트 라인의 4개(또는 최대 8개)의 데이터 부분들과 4개(또는 최대 8개)의 64-비트 레지스터 사이에 데이터를 교환 또는 전달할 수 있다. 일부 실시예들에서, 이러한 연산은 메모리로부터의 다중 레지스터 로드 연산의 실시예일 수 있으며, 4개(또는 최대 8개)의 64-비트 데이터 부분들(714)은 메모리의 512-비트 라인(716)으로부터 4개(또는 최대 8개)의 64-비트 레지스터(710)로 로딩되거나 판독될 수 있다. 다른 실시예들에서, 이러한 연산은 메모리에 대한 다중 레지스터 기입 연산의 실시예일 수 있으며, 4개(또는 최대 8개)의 64-비트 데이터 부분들(714)은 4개(또는 최대 8개)의 64-비트 레지스터(710)로부터 메모리의 512-비트 라인(716)으로 기입되거나 저장될 수 있다. 도시된 예시적인 실시예에서, 메모리의 512-비트 라인의 최하위 절반(즉, 최하위의 4개의 데이터 부분(714-1 내지 714-4)을 포함함)이 이용되지만, 이것이 요구되지는 않는다. 다른 실시예에서, 최상위 절반 또는 일부 다른 부분이 대신에 이용될 수 있다.

메모리의 512-비트 라인은 캐시(709)의 512-비트 캐시 라인(722)에 또한 저장될 수 있다. 일부 실시예들에서, 데이터는 상호접속부(724)를 통해 메모리와 프로세서(예를 들어, 캐시) 사이에 교환될 수 있다. 일부 실시예들에서, 상호접속부(724)는 클록 레이트들 등에 종속하여 512 비트의 비트 폭, 256 비트의 비트 폭 또는 일부 다른 비트 폭을 가질 수 있다. 일부 실시예들에서, 데이터는 상호접속부(734)를 통해 캐시와 4개(또는 최대 8개)의 64-비트 레지스터의 세트 사이에 교환될 수 있다. 일부 실시예들에서, 상호접속부(734)는, 클록 레이트들 등에 종속하여, (예를 들어, 4개의 레지스터만이 이용되는 경우에는) 128 비트 또는 256 비트의 비트 폭 또는 대역폭을 가지거나, 또는 (예를 들어, 최대 8개의 레지스터가 이용되는 경우에는) 256 비트 또는 512 비트의 비트 폭 또는 대역폭을 가질 수 있다. 본 발명의 범위는 상호접속부(724 또는 734)의 비트 폭들에 제한되지는 않는다.

적합한 동작들의 단지 몇 가지 예시적인 예가 존재한다는 것이 인식되어야 한다. 메모리의 더 좁거나(예를 들어, 256 비트) 또는 더 넓은(예를 들어, 1024 비트) 라인들이 이용되는 다른 예들이 고려된다. 또한, 다른 크기의 데이터 부분들 및/또는 레지스터들(예를 들어, 32-비트 레지스터들)이 이용되는 다른 예들이 고려된다.

일부 실시예들에서, 레지스터들의 동일한 세트는 많은 수의 더 작은 레지스터들로서 또는 더 적은 수의 더 큰 레지스터들로서 프로세서(예를 들어, 메모리 액세스 유닛, 실행 유닛 등)에 의해 액세스되거나 보여질 수 있다. 하나의 뷰에서 별개의 더 작은 레지스터들로서 액세스되거나 보여질 수 있는 동일한 2개 이상의 레지스터는 다른 뷰에서 결합된 더 큰 단일의 레지스터로서 액세스되거나 보여질 수 있다. 예를 들어, 일부 실시예들에서, 인접한 레지스터들의 쌍이 2개의 N/2-비트 레지스터로서 별개로 보여질 수 있거나, 또는 함께 논리적으로 결합되거나 그룹화되어 단일의 N-비트 레지스터로서 집합적으로 보여질 수 있다. 동일한 물리적 레지스터들 및 물리적 레지스터의 동일한 전체 비트 수는 양 시나리오에서 수반될 수 있지만, 이들은 상이한 방식들로 액세스되고 보여질 수 있다. 이러한 배열의 한가지 잠재적인 이점은, 기저의 물리적 레지스터들의 폭을 증가시킬 필요 없이 더 큰 피연산자들(예를 들어, 패킹된 데이터 피연산자들)을 저장하는 능력이다. 이것은, 다이 상에서 레지스터 파일이 점유하는 면적 또는 풋프린트에서의 증가를 회피하는 것, 콘텍스트 스위치 또는 전력 모드 천이에 따라 레지스터들에서 스왑-인 및 스왑-아웃될 필요가 있는 데이터의 양에서의 증가를 회피하는 것 등과 같은 잠재적인 이점들을 가질 수 있다.

도 8은 레지스터들의 세트가 제1 뷰(840)에서 64-비트 레지스터들로서 보여지거나 액세스될 수 있고, 제2 뷰(842)에서 128-비트 레지스터들로서 보여지거나 액세스될 수 있고, 제3 뷰(844)에서 256-비트 레지스터들로서 보여지거나 액세스될 수 있는 예시적인 실시예를 도시하는 블록도이다. 제1 뷰(840)에서, 레지스터들(예를 들어, 물리적 레지스터들)의 세트는 X0-X3으로 표시된 4개의 64-비트 패킹된 데이터 레지스터로서 논리적으로 보여지거나 액세스된다.

제2 뷰(842)에서, 레지스터들(예를 들어, 물리적 레지스터들)의 동일한 세트는 Y0-Y1로 표시된 2개(즉, 절반)의 128-비트 레지스터로서 논리적으로 보여지거나 액세스된다. 제2 뷰(842)에서, 128-비트 레지스터 Y0의 최하위 64 비트(즉, 비트 63:0)는 64-비트 레지스터 X0에 대응하거나 매핑하는 한편, 128-비트 레지스터 Y0의 최상위 64 비트(즉, 비트 127:64)는 64-비트 레지스터 X1에 대응하거나 매핑한다. 유사하게, 128-비트 레지스터 Y1의 최하위 64 비트(즉, 비트 63:0)는 64-비트 레지스터 X2에 대응하거나 매핑하는 한편, 128-비트 레지스터 Y1의 최상위 64 비트(즉, 비트 127:64)는 64-비트 레지스터 X3에 대응하거나 매핑한다. 다수(이 경우에는 2개)의 더 작은(이 경우에는 64-비트) 레지스터들이 논리적으로 결합되거나 그룹화되어, 단일의 더 큰(이 경우에는 128-비트) 레지스터를 형성한다.

제3 뷰(844)에서, 레지스터들(예를 들어, 물리적 레지스터들)의 동일한 세트는 Z0으로 표시된 단일의 256-비트 레지스터로서 논리적으로 보여지거나 액세스된다. 제3 뷰(844)에서, 256-비트 레지스터 Z0의 최하위 64 비트(즉, 비트 63:0)는 64-비트 레지스터 X0에 대응하거나 매핑하고, 256-비트 레지스터 Z0의 중간의 하위 64 비트(즉, 비트 127:64)는 64-비트 레지스터 X1에 대응하거나 매핑하고, 256-비트 레지스터 Z0의 중간의 상위 64 비트(즉, 비트 191:128)는 64-비트 레지스터 X2에 대응하거나 매핑하고, 256-비트 레지스터 Z0의 최상위 64 비트(즉, 비트 255:192)는 64-비트 레지스터 X3에 대응하거나 매핑한다. 제3 뷰(844)에서, 256-비트 레지스터 Z0의 최하위 128 비트(즉, 비트 127:0)는 128-비트 레지스터 Y0에 대응하거나 매핑하고, 256-비트 레지스터 Z0의 최상위 128 비트(즉, 비트 255:128)는 128-비트 레지스터 Y1에 대응하거나 매핑한다.

다양한 실시예들에서, 이러한 뷰들을 구현하는데 이용되는 실제의 물리적 레지스터들은 64-비트 레지스터들, 32-비트 레지스터들 또는 128-비트 레지스터들일 수 있지만, 이것이 요구되지는 않는다. 예시된 실시예에서, 인접하거나 순차적인 레지스터들이 이용되지만, 이것이 요구되지는 않는다. 다른 실시예들에서, 비인접 레지스터들(예를 들어, 상이한 뱅크들에서의 비인접 레지스터들, 교호 레지스터들 등)은 결합될 수 있다. 예시된 실시예에서, 3개의 상이한 뷰가 지원되지만, 다른 실시예들에서는 더 적거나(예를 들어, 2개) 더 많은(예를 들어, 4개 이상) 상이한 뷰들이 지원될 수 있다.

또한, 다른 실시예들에서, 뷰들은 상이한 비트 수를 이용할 수 있다. 예를 들어, 일부 실시예들에서, 레지스터들의 세트가 하나의 뷰에서는 단일의 512-비트 레지스터로서 논리적으로 보여지거나 액세스될 수 있고, 다른 뷰에서는 다수의 더 작은 레지스터들(예를 들어, 2개의 256-비트 레지스터, 4개의 128-비트 레지스터, 8개의 64-비트 레지스터 등)로서 논리적으로 보여지거나 액세스될 수 있는 뷰가 존재할 수 있다. 또한, 다른 실시예들에서, 레지스터들의 세트가 하나의 뷰에서는 단일의 1024-비트 레지스터로서 논리적으로 보여지거나 액세스될 수 있고, 다른 뷰에서는 다수의 더 작은 레지스터들(예를 들어, 2개의 512-비트 레지스터 및/또는 4개의 256-비트 레지스터 및/또는 8개의 128-비트 레지스터 및/또는 16개의 64-비트 레지스터 등)로서 논리적으로 보여지거나 액세스될 수 있는 뷰가 존재할 수 있다.

도 9a는 다중 레지스터 메모리 액세스 명령어에 적합한 명령어 포맷의 제1 실시예의 블록도이다. 명령어 포맷은 연산 코드 또는 오피코드(950A)를 갖는다. 오피코드는 수행될 연산(예를 들어, 메모리로부터의 다중 레지스터 로드 연산, 메모리에 대한 다중 레지스터 저장 연산, 또는 다른 다중 레지스터 메모리 액세스 연산) 및/또는 명령어를 식별하도록 동작가능한 하나 이상의 필드 또는 복수의 비트를 나타낼 수 있다. 제1 명령어 포맷은 메모리 위치를 특정하는 메모리 위치 특정자(952A)를 또한 포함한다. 메모리 위치 특정자는 복수의 비트 또는 하나 이상의 필드를 나타낼 수 있다. 특정된 메모리 위치는 메모리로부터의 로드 명령어의 경우에는 소스를 나타내거나, 또는 메모리에 대한 기입 명령어의 경우에는 목적지를 나타낼 수 있다. 예로서, 특정자는 로딩될 데이터의 시작 위치(예를 들어, 데이터의 제1 바이트)를 특정하는데 이용될 수 있다. 제1 명령어 포맷은 선택적인 레지스터 특정자(954A)를 또한 포함한다. 레지스터 특정자는 레지스터를 특정할 수 있다. 레지스터 특정자는 복수의 비트 또는 하나 이상의 필드를 나타낼 수 있다. 특정된 레지스터는 메모리로부터의 로드 명령어의 경우에는 목적지 레지스터를 나타내거나, 또는 메모리에 대한 기입 명령어의 경우에는 소스 레지스터를 나타낼 수 있다. 대안적으로, 레지스터 특정자는 선택적으로 생략될 수 있다(예를 들어, 레지스터는 명시적으로 특정되는 대신에 명령어에 의해 암시적으로 표시될 수 있다). 일부 실시예들에서, 명시적으로 특정되거나 암시적으로 표시된 레지스터에 기초하여 하나 이상의 다른 레지스터가 표시될 수 있다. 예를 들어, 하나 이상의 미리 결정된 레지스터는 명시적으로 특정되거나 암시적으로 표시된 레지스터와 암시적으로 연관되거나 암시적으로 표시될 수 있다. 예를 들어, 하나 이상의 인접, 순차 또는 연속 레지스터가 이러한 레지스터와 연관될 수 있다. 다른 예로서, 모든 다른 레지스터가 이러한 레지스터와 연관될 수 있다. 또 다른 예로서, 상이한 레지스터 뱅크들에서의 미리 결정된 순차적인 레지스터들이 이러한 레지스터와 연관될 수 있다. 명령어가 레지스터들을 암시적으로 표시할 수 있는 이러한 실시예의 하나의 특정 예는, 로드 또는 저장 연산이 아키텍처에서의 아키텍처 가시적 레지스터들(architecturally visible registers) 모두를 수반하는 경우이다. 대안적으로, 주어진 레지스터는 다중 레지스터 로드, 저장 또는 다른 연산에 전용일 수 있으므로, 암시적일 수 있다.

도 9b는 다중 레지스터 메모리 액세스 명령어에 적합한 명령어 포맷의 제2 실시예의 블록도이다. 제2 명령어 포맷은 연산 코드 또는 오피코드(950B), 메모리 위치 특정자(952B) 및 레지스터 특정자(954B)를 갖는다. 이들 각각은 이전에 설명된 바와 같을 수 있다. 제2 명령어 포맷은 메모리 액세스 연산에 수반되는(예를 들어, 메모리에 대한 기입 연산의 경우에는 소스로서 이용되거나 또는 메모리로부터의 로드 연산의 경우에는 목적지로서 이용되는) 다수의 레지스터를 특정하는 선택적인 레지스터들의 개수 특정자(956)를 또한 포함한다. 예로서, 레지스터들의 개수 특정자는 2개의 레지스터, 3개의 레지스터, 4개의 레지스터, 또는 일부 다른 개수의 레지스터를 특정하거나 표시할 수 있다. 다른 실시예들에서, 레지스터들의 개수를 특정하는 것보다는, (예를 들어, 주어진 레지스터 크기 또는 비트 수의 배수로서) 메모리 연산과 연관된 비트 수를 특정하는 것도 가능하다. 이 필드는 선택적이며, 요구되지는 않는다. 다른 실시예에서, 레지스터들의 개수는 암시적(예를 들어, 레지스터 특정자(954B)에 대해 암시적, 오피코드(950B)에 대해 암시적 등)일 수 있다.

도 9c는 다중 레지스터 메모리 액세스 명령어에 적합한 명령어 포맷의 제3 실시예의 블록도이다. 제3 명령어 포맷은 연산 코드 또는 오피코드(950C) 및 메모리 위치 특정자(952C)를 갖는다. 이들 각각은 이전에 설명된 바와 같을 수 있다. 제3 명령어 포맷은 복수의 선택적인 레지스터 특정자(958)를 또한 포함한다. 예시된 실시예에서, 4개의 레지스터 특정자(958-1 내지 958-4)가 도시되어 있지만, 4개보다 더 많거나 더 적은(예를 들어, 2개, 3개) 것이 대안적으로 포함될 수 있다. 이들 특정자 각각은 복수의 비트 또는 하나 이상의 필드를 나타낼 수 있다. 이들 다중 레지스터 특정자들은 메모리 액세스 연산에 수반되도록 결합되는 레지스터들의 명시적인 특정을 허용할 수 있다. 일부 경우에, 이러한 선택적인 피처는, 코드의 성능을 적어도 개선하거나 최적화하고, 주위에 데이터를 이동시키는 레지스터-대-레지스터 연산들의 수를 적어도 감소시키거나 회피하거나 하기 위해 이용될 수 있다. 이들 다중 레지스터 특정자들은 선택적이며, 요구되지는 않는다.

이들은 적합한 명령어 포맷들의 단지 몇 가지 예들이다. 이들 명령어 포맷들 중 임의의 것에 부가적인 필드들이 선택적으로 부가될 수 있다는 것이 인식되어야 한다. 다른 실시예들에서, 특정의 명시적으로 특정된 필드들은 대신에 선택적으로 명령어에 대해 암시적일 수 있다. 특정자들 또는 필드들은 비트들의 인접 시퀀스들을 포함할 필요는 없지만, 대신에 선택적으로 비인접 비트들로 형성될 수 있다는 것이 인식되어야 한다. 특정자들 또는 필드들은 선택적으로 중첩될 수 있다. 부가적으로, 예시된 특정자들 또는 필드들의 순서/배열은 예시적일 뿐이다. 다른 실시예들은 필드들을 이동시키거나 재배열할 수 있다.

예시적인 코어 아키텍처들, 프로세서들 및 컴퓨터 아키텍처들

프로세서 코어들은 상이한 프로세서들에서 상이한 목적들을 위해 상이한 방식들로 구현될 수 있다. 예를 들어, 이러한 코어들의 구현들은, 1) 범용 컴퓨팅을 위해 의도된 범용 순차 코어; 2) 범용 컴퓨팅을 위해 의도된 고성능 범용 비순차 코어; 3) 주로 그래픽 및/또는 과학(스루풋) 컴퓨팅을 위해 의도된 특수 목적 코어를 포함할 수 있다. 상이한 프로세서들의 구현들은, 1) 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 순차 코어 및/또는 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 비순차 코어를 포함하는 CPU; 및 2) 주로 그래픽 및/또는 과학(스루풋)을 위해 의도된 하나 이상의 특수 목적 코어를 포함하는 코프로세서를 포함할 수 있다. 이러한 상이한 프로세서들은 상이한 컴퓨터 시스템 아키텍처들을 초래하고, 이들 컴퓨터 시스템 아키텍처들은, 1) CPU와는 별개의 칩 상의 코프로세서; 2) CPU와 동일한 패키지에서의 별개의 다이 상의 코프로세서; 3) CPU와 동일한 다이 상의 코프로세서(이 경우, 이러한 코프로세서는 때때로 통합된 그래픽 및/또는 과학(스루풋) 로직과 같은 특수 목적 로직 또는 특수 목적 코어로 지칭됨); 및 4) 부가적인 기능성, 전술한 코프로세서 및 전술한 CPU(때때로 애플리케이션 코어(들) 또는 애플리케이션 프로세서(들)로 지칭됨)와 동일한 다이 상에 포함될 수 있는 시스템 온 칩을 포함할 수 있다. 다음에, 예시적인 코어 아키텍처들이 설명된 다음, 예시적인 프로세서들 및 컴퓨터 아키텍처들이 설명된다.

예시적인 코어 아키텍처들

순차 및 비순차 코어 블록도

도 10a는 본 발명의 실시예들에 따른 예시적인 순차 파이프라인 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 파이프라인의 양쪽 모두를 도시하는 블록도이다. 도 10b는 본 발명의 실시예들에 따른 프로세서에 포함될 순차 아키텍처 코어의 예시적인 실시예 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 아키텍처 코어의 양쪽 모두를 도시하는 블록도이다. 도 10a 및 도 10b에서의 실선 박스들은 순차 파이프라인 및 순차 코어를 예시하는 한편, 파선 박스들의 선택적인 추가는 레지스터 리네이밍, 비순차 발행/실행 파이프라인 및 코어를 예시한다. 순차 양태가 비순차 양태의 서브세트라는 것을 고려하여, 비순차 양태가 설명될 것이다.

도 10a에서, 프로세서 파이프라인(1000)은 페치 스테이지(1002), 길이 디코드 스테이지(1004), 디코드 스테이지(1006), 할당 스테이지(1008), 리네이밍 스테이지(1010), 스케줄링(디스패치 또는 발행으로도 알려져 있음) 스테이지(1012), 레지스터 판독/메모리 판독 스테이지(1014), 실행 스테이지(1016), 라이트 백(write back)/메모리 기입 스테이지(1018), 예외 핸들링 스테이지(1022) 및 커미트 스테이지(1024)를 포함한다.

도 10b는 실행 엔진 유닛(1050)에 연결된 프론트 엔드 유닛(1030) - 이들 양자는 메모리 유닛(1070)에 연결됨 - 을 포함하는 프로세서 코어(1090)를 도시한다. 코어(1090)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어, 또는 하이브리드 또는 대안적인 코어 타입일 수 있다. 다른 옵션으로서, 코어(1090)는, 예를 들어, 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, 범용 컴퓨팅 그래픽 처리 유닛(GPGPU: general purpose computing graphics processing unit) 코어, 그래픽 코어 등과 같은 특수 목적 코어일 수 있다.

프론트 엔드 유닛(1030)은 명령어 캐시 유닛(1034)에 연결된 분기 예측 유닛(1032)을 포함하고, 이 명령어 캐시 유닛은 명령어 변환 색인 버퍼(TLB: translation lookaside buffer)(1036)에 연결되고, 이 명령어 변환 색인 버퍼는 명령어 페치 유닛(1038)에 연결되고, 이 명령어 페치 유닛은 디코드 유닛(1040)에 연결된다. 디코드 유닛(1040)(또는 디코더)은 명령어들을 디코딩하고, 출력으로서 하나 이상의 마이크로연산들, 마이크로코드 엔트리 포인트들, 마이크로명령어들, 다른 명령어들, 또는 다른 제어 신호들을 생성할 수 있는데, 이들은 오리지널 명령어들로부터 디코딩되거나, 또는 다른 방식으로 오리지널 명령어들을 반영하거나 오리지널 명령어들로부터 도출된다. 디코드 유닛(1040)은 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적합한 메커니즘들의 예들은 룩업 테이블들, 하드웨어 구현들, 프로그램가능 로직 어레이들(PLA들), 마이크로코드 판독 전용 메모리들(ROM들) 등을 포함하지만, 이에 제한되지는 않는다. 일 실시예에서, 코어(1090)은 (예를 들어, 디코드 유닛(1040)에서 또는 다른 방식으로 프론트 엔드 유닛(1030) 내에) 특정 매크로명령어들을 위한 마이크로코드를 저장하는 마이크로코드 ROM 또는 다른 매체를 포함한다. 디코드 유닛(1040)은 실행 엔진 유닛(1050)에서의 리네임/할당자 유닛(1052)에 연결된다.

실행 엔진 유닛(1050)은, 하나 이상의 스케줄러 유닛(들)(1056)의 세트 및 리타이어먼트 유닛(1054)에 연결된 리네임/할당자 유닛(1052)을 포함한다. 스케줄러 유닛(들)(1056)은, 예약 스테이션들, 중앙 명령어 윈도우 등을 비롯한 임의의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(1056)은 물리적 레지스터 파일(들) 유닛(들)(1058)에 연결된다. 물리적 레지스터 파일(들) 유닛들(1058) 각각은 하나 이상의 물리적 레지스터 파일을 나타내고, 이들 중 상이한 물리적 레지스터 파일들은 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등과 같은 하나 이상의 상이한 데이터 타입을 저장한다. 일 실시예에서, 물리적 레지스터 파일(들) 유닛(1058)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛 및 스칼라 레지스터 유닛을 포함한다. 이들 레지스터 유닛들은 아키텍처 벡터 레지스터들, 벡터 마스크 레지스터들 및 범용 레지스터들을 제공할 수 있다. 물리적 레지스터 파일(들) 유닛(들)(1058)은, (예를 들어, 재정렬 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용하여; 미래 파일(들), 이력 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용하여; 레지스터 맵들 및 레지스터들의 풀을 이용하거나 하여) 레지스터 리네이밍 및 비순차 실행이 구현될 수 있는 다양한 방식들을 예시하기 위해서 리타이어먼트 유닛(1054)에 의해 중첩된다. 리타이어먼트 유닛(1054) 및 물리적 레지스터 파일(들) 유닛(들)(1058)은 실행 클러스터(들)(1060)에 연결된다. 실행 클러스터(들)(1060)는 하나 이상의 실행 유닛들(1062)의 세트 및 하나 이상의 메모리 액세스 유닛들(1064)의 세트를 포함한다. 실행 유닛들(1062)은 다양한 타입의 데이터(예를 들어, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예를 들어, 시프트, 가산, 감산, 승산)을 수행할 수 있다. 일부 실시예들은 특정 기능들이나 기능들의 세트들에 전용인 다수의 실행 유닛을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛, 또는 모두가 모든 기능을 수행하는 다수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(1056), 물리적 레지스터 파일(들) 유닛(들)(1058) 및 실행 클러스터(들)(1060)는 가능하게는 복수개인 것으로 도시되어 있는데, 그 이유는 특정 실시예들이 특정 타입의 데이터/연산들에 대해 별개의 파이프라인들(예를 들어, 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 자신의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛 및/또는 실행 클러스터를 각각 갖는 메모리 액세스 파이프라인 - 별개의 메모리 액세스 파이프라인의 경우에, 이 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(1064)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 또한, 별개의 파이프라인들이 이용되는 경우, 이들 파이프라인들 중 하나 이상은 비순차 발행/실행일 수 있고, 나머지는 순차적일 수 있다는 것이 이해되어야 한다.

메모리 액세스 유닛들(1064)의 세트는 메모리 유닛(1070)에 연결되고, 이 메모리 유닛은 레벨 2(L2) 캐시 유닛(1076)에 연결되는 데이터 캐시 유닛(1074)에 연결된 데이터 TLB 유닛(1072)을 포함한다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛들(1064)은 로드 유닛(load unit), 어드레스 저장 유닛(store address unit) 및 데이터 저장 유닛(store data unit)을 포함할 수 있으며, 이들 각각은 메모리 유닛(1070)에서의 데이터 TLB 유닛(1072)에 연결된다. 명령어 캐시 유닛(1034)은 메모리 유닛(1070)에서의 레벨 2(L2) 캐시 유닛(1076)에 또한 연결된다. L2 캐시 유닛(1076)은 하나 이상의 다른 레벨의 캐시에 그리고 궁극적으로는 메인 메모리에 연결된다.

예로서, 예시적인 레지스터 리네이밍, 비순차 발행/실행 코어 아키텍처는 다음과 같이 파이프라인(1000)을 구현할 수 있다: 1) 명령어 페치(1038)는 페치 및 길이 디코딩 스테이지들(1002 및 1004)을 수행하고; 2) 디코드 유닛(1040)은 디코드 스테이지(1006)를 수행하고; 3) 리네임/할당자 유닛(1052)은 할당 스테이지(1008) 및 리네이밍 스테이지(1010)를 수행하고; 4) 스케줄러 유닛(들)(1056)은 스케줄 스테이지(1012)를 수행하고; 5) 물리적 레지스터 파일(들) 유닛(들)(1058) 및 메모리 유닛(1070)은 레지스터 판독/메모리 판독 스테이지(1014)를 수행하고; 실행 클러스터(1060)는 실행 스테이지(1016)를 수행하고; 6) 메모리 유닛(1070) 및 물리적 레지스터 파일(들) 유닛(들)(1058)은 라이트 백/메모리 기입 스테이지(1018)를 수행하고; 7) 다양한 유닛들이 예외 핸들링 스테이지(1022)에 수반될 수 있고; 8) 리타이어먼트 유닛(1054) 및 물리적 레지스터 파일(들) 유닛(들)(1058)은 커미트 스테이지(1024)를 수행한다.

코어(1090)는 본 명세서에 설명된 명령어(들)를 비롯한 하나 이상의 명령어 세트들(예를 들어, (더 새로운 버전이 추가된 소정의 확장을 갖는) x86 명령어 세트; 캘리포니아주 서니베일에 있는 MIPS Technologies의 MIPS 명령어 세트; 캘리포니아주 서니베일에 있는 ARM Holdings의 (NEON과 같은 선택적인 부가 확장을 갖는) ARM 명령어 세트)을 지원할 수 있다. 일 실시예에서, 코어(1090)는 패킹된 데이터 명령어 세트 확장(예를 들어, AVX1, AVX2)을 지원하는 로직을 포함하며, 그에 따라 많은 멀티미디어 애플리케이션들에 의해 이용되는 연산들이 패킹된 데이터를 이용하여 수행되는 것을 허용한다.

코어는 (스레드들 또는 연산들의 2개 이상의 병렬 세트를 실행하는) 멀티스레딩을 지원할 수 있고, 시간 분할 멀티스레딩(time sliced multithreading), 동시적 멀티스레딩(단일의 물리적 코어는, 물리적 코어가 동시에 멀티스레딩하는 스레드들 각각에 대한 논리적 코어를 제공함), 또는 이들의 조합(예를 들어, 인텔® Hyperthreading 기술에서와 같이 시간 분할 페칭과 디코딩 및 그 이후의 동시적 멀티스레딩)을 비롯한 각종 방식들로 그렇게 할 수 있다는 것이 이해되어야 한다.

레지스터 리네이밍이 비순차 실행의 콘텍스트에서 설명되지만, 레지스터 리네이밍은 순차 아키텍처에서 이용될 수 있다는 것이 이해되어야 한다. 프로세서의 예시된 실시예가 별개의 명령어 및 데이터 캐시 유닛들(1034/1074) 및 공유 L2 캐시 유닛(1076)을 또한 포함하지만, 대안적인 실시예들은, 예를 들어 레벨 1(L1) 내부 캐시 또는 다중 레벨의 내부 캐시와 같이, 명령어들 및 데이터 양쪽 모두에 대한 단일의 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은, 코어 및/또는 프로세서의 외부에 있는 외부 캐시와 내부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서의 외부에 있을 수 있다.

특정의 예시적인 순차 코어 아키텍처

도 11a 및 도 11b는 코어가 칩에서의 수개의 로직 블록들(동일한 타입 및/또는 상이한 타입의 다른 코어들을 포함함) 중 하나의 로직 블록인 보다 구체적인 예시적인 순차 코어 아키텍처의 블록도를 도시한다. 로직 블록들은, 애플리케이션에 따라, 일부 고정된 기능 로직, 메모리 I/O 인터페이스들 및 다른 필요한 I/O 로직과 고대역폭 상호접속 네트워크(예를 들어, 링 네트워크)를 통해 통신한다.

도 11a는 본 발명의 실시예들에 따른 단일 프로세서 코어를, 온-다이 상호접속 네트워크(1102)로의 그것의 접속 및 레벨 2(L2) 캐시의 그것의 로컬 서브세트(1104)와 함께 도시하는 블록도이다. 일 실시예에서, 명령어 디코더(1100)는 패킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(1106)는 스칼라 유닛 및 벡터 유닛에 대한 캐시 메모리로의 낮은 레이턴시 액세스들을 허용한다. (설계를 단순화하기 위해) 일 실시예에서 스칼라 유닛(1108) 및 벡터 유닛(1110)은 별개의 레지스터 세트들(각각 스칼라 레지스터들(1112) 및 벡터 레지스터들(1114))을 이용하고, 이들 사이에 전달되는 데이터는 메모리에 기입된 다음, 레벨 1(L1) 캐시(1106)로부터 다시 판독되지만, 본 발명의 대안적인 실시예들은 상이한 접근법을 이용할 수 있다(예를 들어, 단일의 레지스터 세트를 이용하거나, 또는 기입 및 다시 판독되지 않고 2개의 레지스터 파일들 사이에서 데이터가 전달되는 것을 허용하는 통신 경로를 포함함).

L2 캐시의 로컬 서브세트(1104)는 프로세서 코어당 하나씩 별개의 로컬 서브세트들로 분할되는 글로벌 L2 캐시의 일부이다. 각각의 프로세서 코어는 L2 캐시의 그 자신의 로컬 서브세트(1104)에 대한 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 그것의 L2 캐시 서브세트(1104)에 저장되고, 다른 프로세서 코어들이 그들 자신의 로컬 L2 캐시 서브세트들에 액세스하는 것과 병렬로 신속하게 액세스될 수 있다. 프로세서 코어에 의해 기입된 데이터는 그 자신의 L2 캐시 서브세트(1104)에 저장되고, 필요한 경우에 다른 서브세트들로부터 플러싱된다. 링 네트워크는 공유 데이터에 대한 일관성(coherency)을 보장한다. 링 네트워크는 프로세서 코어들, L2 캐시들 및 다른 로직 블록들과 같은 에이전트들이 칩 내에서 서로 통신할 수 있게 하기 위해 양방향성이다. 각각의 링 데이터 경로는 방향당 1012 비트 폭이다.

도 11b는 본 발명의 실시예들에 따른 도 11a의 프로세서 코어의 일부의 확대도이다. 도 11b는 L1 캐시(1104)의 L1 데이터 캐시(1106A) 부분뿐만 아니라, 벡터 유닛(1110) 및 벡터 레지스터들(1114)에 관한 추가 상세를 포함한다. 구체적으로는, 벡터 유닛(1110)은 16-와이드 벡터 처리 유닛(VPU)(16-와이드 ALU(1128) 참조)인데, 이는 정수, 싱글-정밀도 부동 및 더블-정밀도 부동 명령어들 중 하나 이상을 실행한다. VPU는 스위즐 유닛(1120)을 이용한 레지스터 입력들의 스위즐링, 수치 변환 유닛들(1122A 및 1122B)을 이용한 수치 변환, 및 메모리 입력에 대한 복제 유닛(1124)을 이용한 복제를 지원한다. 기입 마스크 레지스터들(1126)은 결과적인 벡터 기입들의 프리디케이팅(predicating)을 허용한다.

통합된 메모리 제어기 및 그래픽스를 갖는 프로세서

도 12는 본 발명의 실시예들에 따른 하나보다 많은 코어를 가질 수 있고 통합된 메모리 제어기를 가질 수 있으며 통합된 그래픽스를 가질 수 있는 프로세서(1200)의 블록도이다. 도 12의 실선 박스들은, 단일 코어(1202A), 시스템 에이전트(1210), 하나 이상의 버스 제어기 유닛들(1216)의 세트를 갖는 프로세서(1200)를 예시하는 한편, 파선 박스들의 선택적인 추가는, 다수의 코어들(1202A 내지 1202N), 시스템 에이전트 유닛(1210)에서의 하나 이상의 통합된 메모리 제어기 유닛(들)(1214)의 세트 및 특수 목적 로직(1208)을 갖는 대안적인 프로세서(1200)를 예시한다.

따라서, 프로세서(1200)의 상이한 구현들은, 1) (하나 이상의 코어를 포함할 수 있는) 통합된 그래픽 및/또는 과학(스루풋) 로직인 특수 목적 로직(1208), 및 하나 이상의 범용 코어들(예를 들어, 범용 순차 코어들, 범용 비순차 코어들, 이 둘의 조합)인 코어들(1202A 내지 1202N)을 갖는 CPU; 2) 주로 그래픽 및/또는 과학(스루풋)을 위해 의도된 다수의 특수 목적 코어들인 코어들(1202A 내지 1202N)을 갖는 코프로세서; 및 3) 다수의 범용 순차 코어들인 코어들(1202A 내지 1202N)을 갖는 코프로세서를 포함할 수 있다. 따라서, 프로세서(1200)는 범용 프로세서, 코프로세서 또는 특수 목적 프로세서, 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(general purpose graphics processing unit), 고스루풋 MIC(many integrated core) 코프로세서(30개 이상의 코어를 포함함), 임베디드 프로세서 등일 수 있다. 프로세서는 하나 이상의 칩 상에 구현될 수 있다. 프로세서(1200)는, 예를 들어 BiCMOS, CMOS 또는 NMOS와 같은 다수의 프로세스 기술 중 임의의 것을 이용하여 하나 이상의 기판 상에 구현될 수 있고/있거나 그 일부일 수 있다.

메모리 계층구조는, 코어들 내의 하나 이상의 레벨의 캐시, 하나 이상의 공유 캐시 유닛들(1206)의 세트, 및 통합된 메모리 제어기 유닛들(1214)의 세트에 연결된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1206)의 세트는, 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 다른 레벨 캐시와 같은 하나 이상의 중간 레벨 캐시, 최종 레벨 캐시(LLC: last level cache) 및/또는 이들의 조합을 포함할 수 있다. 일 실시예에서 링 기반 상호접속 유닛(1212)은 통합된 그래픽 로직(1208), 공유 캐시 유닛들(1206)의 세트 및 시스템 에이전트 유닛(1210)/통합된 메모리 제어기 유닛(들)(1214)을 상호접속하지만, 대안적인 실시예들은 이러한 유닛들을 상호접속하기 위해 임의의 수의 잘 알려진 기술을 이용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛들(1206)과 코어들(1202A 내지 1202N) 사이에 일관성이 유지된다.

일부 실시예들에서, 코어들(1202A 내지 1202N) 중 하나 이상은 멀티스레딩을 할 수 있다. 시스템 에이전트(1210)는 코어들(1202A 내지 1202N)을 조정하며 동작시키는 이러한 컴포넌트들을 포함한다. 시스템 에이전트 유닛(1210)은 예를 들어 전력 제어 유닛(PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는, 코어들(1202A 내지 1202N) 및 통합된 그래픽 로직(1208)의 전력 상태를 조절하기 위해 필요한 로직 및 컴포넌트들일 수 있거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속된 디스플레이를 구동시키기 위한 것이다.

코어들(1202A 내지 1202N)은 아키텍처 명령어 세트에 관하여 동질적일 수도 있고 이질적일 수도 있는데; 즉, 코어들(1202A 내지 1202N) 중 2개 이상은 동일한 명령어 세트를 실행가능할 수 있는 한편, 다른 것들은 그 명령어 세트의 서브세트만을 또는 상이한 명령어 세트를 실행가능할 수 있다.

예시적인 컴퓨터 아키텍처들

도 13 내지 도 16은 예시적인 컴퓨터 아키텍처들의 블록도들이다. 랩톱들, 데스크톱들, 핸드헬드 PC들, 개인용 정보 단말기들, 엔지니어링 워크스테이션들, 서버들, 네트워크 디바이스들, 네트워크 허브들, 스위치들, 임베디드 프로세서들, 디지털 신호 프로세서들(DSP들), 그래픽 디바이스들, 비디오 게임 디바이스들, 셋톱 박스들, 마이크로컨트롤러들, 셀 폰들, 휴대용 미디어 플레이어들, 핸드헬드 디바이스들 및 다양한 다른 전자 디바이스들에 대하여 관련 기술분야에 공지된 다른 시스템 설계들 및 구성들도 또한 적합하다. 일반적으로, 본 명세서에 개시된 바와 같은 프로세서 및/또는 다른 실행 로직을 통합할 수 있는 매우 다양한 시스템들 또는 전자 디바이스들이 일반적으로 적합하다.

이하 도 13을 참조하면, 본 발명의 일 실시예에 따른 시스템(1300)의 블록도가 도시되어 있다. 시스템(1300)은 제어기 허브(1320)에 연결된 하나 이상의 프로세서(1310, 1315)를 포함할 수 있다. 일 실시예에서, 제어기 허브(1320)는 그래픽 메모리 제어기 허브(GMCH)(1390) 및 입/출력 허브(IOH)(1350)(이들은 별개의 칩들 상에 있을 수 있음)를 포함하고; GMCH(1390)는, 메모리(1340) 및 코프로세서(1345)에 연결되는 메모리 및 그래픽 제어기들을 포함하고; IOH(1350)는 입/출력(I/O) 디바이스들(1360)을 GMCH(1390)에 연결한다. 대안적으로, 메모리 및 그래픽 제어기들 중 하나 또는 양쪽 모두는 (본 명세서에 설명되는 바와 같이) 프로세서 내에 통합되고, 메모리(1340) 및 코프로세서(1345)는 IOH(1350)와 단일 칩에 있는 제어기 허브(1320) 및 프로세서(1310)에 직접 연결된다.

부가적인 프로세서들(1315)의 선택적인 속성은 도 13에서 파선들로 표시되어 있다. 각각의 프로세서(1310, 1315)는 본 명세서에 설명된 처리 코어들 중 하나 이상을 포함할 수 있으며, 프로세서(1200)의 소정의 버전일 수 있다.

메모리(1340)는 예를 들어 DRAM(dynamic random access memory), PCM(phase change memory) 또는 이 둘의 조합일 수 있다. 적어도 하나의 실시예에서, 제어기 허브(1320)는, FSB(frontside bus)와 같은 다분기 버스(multi-drop bus), QPI(QuickPath Interconnect)와 같은 점대점 인터페이스, 또는 유사한 접속(1395)을 통해, 프로세서(들)(1310, 1315)와 통신한다.

일 실시예에서, 코프로세서(1345)는, 예를 들어, 고스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다. 일 실시예에서, 제어기 허브(1320)는 통합된 그래픽 가속기를 포함할 수 있다.

아키텍처, 마이크로아키텍처, 열, 전력 소모 특성 등을 포함하는 다양한 성능 메트릭(metrics of merit)에 관하여 물리적 자원들(1310, 1315) 사이에 각종 차이가 존재할 수 있다.

일 실시예에서, 프로세서(1310)는 일반 타입의 데이터 처리 연산들을 제어하는 명령어들을 실행한다. 명령어들 내에는 코프로세서 명령어들이 임베딩될 수 있다. 프로세서(1310)는 부착된 코프로세서(1345)에 의해 실행되어야 하는 타입인 것으로서 이들 코프로세서 명령어들을 인식한다. 따라서, 프로세서(1310)는, 코프로세서(1345)에 대해, 코프로세서 버스 또는 다른 상호접속부 상에서 이들 코프로세서 명령어들(또는 코프로세서 명령어들을 나타내는 제어 신호들)을 발행한다. 코프로세서(들)(1345)는 수신된 코프로세서 명령어들을 수락하여 실행한다.

이하 도 14를 참조하면, 본 발명의 실시예에 따른 제1의 보다 구체적인 예시적인 시스템(1400)의 블록도가 도시되어 있다. 도 14에 도시된 바와 같이, 멀티프로세서 시스템(1400)은 점대점 상호접속 시스템이고, 점대점 상호접속부(1450)를 통해 연결되는 제1 프로세서(1470) 및 제2 프로세서(1480)를 포함한다. 프로세서들(1470 및 1480) 각각은 프로세서(1200)의 소정의 버전일 수 있다. 본 발명의 일 실시예에서, 프로세서들(1470 및 1480)은 각각 프로세서들(1310 및 1315)인 한편, 코프로세서(1438)는 코프로세서(1345)이다. 다른 실시예에서, 프로세서들(1470 및 1480)은 각각 프로세서(1310) 및 코프로세서(1345)이다.

프로세서들(1470 및 1480)은 각각 통합된 메모리 제어기(IMC) 유닛들(1472 및 1482)을 포함하는 것으로 도시되어 있다. 또한, 프로세서(1470)는 그 버스 제어기 유닛들의 일부로서 점대점(P-P) 인터페이스들(1476 및 1478)을 포함하고; 유사하게, 제2 프로세서(1480)는 P-P 인터페이스들(1486 및 1488)을 포함한다. 프로세서들(1470, 1480)은 점대점(P-P) 인터페이스 회로들(1478, 1488)을 이용하여 P-P 인터페이스(1450)를 통해 정보를 교환할 수 있다. 도 14에 도시된 바와 같이, IMC들(1472 및 1482)은 프로세서들을 각각의 메모리들, 즉 각각의 프로세서들에 로컬로 부착된 메인 메모리의 부분들일 수 있는 메모리(1432) 및 메모리(1434)에 연결한다.

프로세서들(1470, 1480) 각각은 점대점 인터페이스 회로들(1476, 1494, 1486, 1498)을 이용하여 개별적인 P-P 인터페이스들(1452, 1454)을 통해 칩셋(1490)과 정보를 교환할 수 있다. 선택적으로, 칩셋(1490)은 고성능 인터페이스(1439)를 통해 코프로세서(1438)와 정보를 교환할 수 있다. 일 실시예에서, 코프로세서(1438)는, 예를 들어, 고스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다.

공유 캐시(도시되지 않음)가 양쪽 프로세서들의 외부에 또는 어느 하나의 프로세서에 포함될 수 있지만, P-P 상호접속부를 통해 프로세서들과 접속되어, 프로세서가 저전력 모드에 들어가는 경우에 어느 하나의 프로세서 또는 양쪽 프로세서의 로컬 캐시 정보가 공유 캐시에 저장될 수 있게 된다.

칩셋(1490)은 인터페이스(1496)를 통해 제1 버스(1416)에 연결될 수 있다. 일 실시예에서, 제1 버스(1416)는 PCI(Peripheral Component Interconnect) 버스이거나, 또는 PCI Express 버스 또는 다른 제3세대 I/O 상호접속 버스와 같은 버스일 수 있지만, 본 발명의 범위는 이에 제한되지는 않는다.

도 14에 도시된 바와 같이, 제1 버스(1416)를 제2 버스(1420)에 연결하는 버스 브리지(1418)와 함께, 다양한 I/O 디바이스들(1414)이 제1 버스(1416)에 연결될 수 있다. 일 실시예에서, 코프로세서, 고스루풋 MIC 프로세서, GPGPU, (예를 들어, 그래픽 가속기 또는 디지털 신호 처리(DSP) 유닛과 같은) 가속기, 필드 프로그램가능 게이트 어레이 또는 임의의 다른 프로세서와 같은 하나 이상의 부가적인 프로세서(들)(1415)가 제1 버스(1416)에 연결된다. 일 실시예에서, 제2 버스(1420)는 LPC(low pin count) 버스일 수 있다. 일 실시예에서, 예를 들어, 키보드 및/또는 마우스(1422), 통신 디바이스들(1427), 및 명령어들/코드 및 데이터(1430)를 포함할 수 있는 디스크 드라이브나 다른 대용량 저장 디바이스와 같은 저장 유닛(1428)을 포함하는 다양한 디바이스들이 제2 버스(1420)에 연결될 수 있다. 또한, 오디오 I/O(1424)가 제2 버스(1420)에 연결될 수 있다. 다른 아키텍처들도 가능하다는 점에 유의한다. 예를 들어, 도 14의 점대점 아키텍처 대신에, 시스템은 다분기 버스 또는 다른 이러한 아키텍처를 구현할 수 있다.

이하 도 15를 참조하면, 본 발명의 실시예에 따른 제2의 보다 구체적인 예시적인 시스템(1500)의 블록도가 도시되어 있다. 도 14 및 도 15에서의 유사한 요소들은 유사한 참조 번호들을 지니며, 도 15의 다른 양태들을 모호하게 하는 것을 회피하기 위해서 도 15로부터 도 14의 특정 양태들이 생략되었다.

도 15는 프로세서들(1470, 1480)이 각각 통합된 메모리 및 I/O 제어 로직("CL")(1472 및 1482)을 포함할 수 있는 것을 도시한다. 따라서, CL(1472, 1482)은 통합된 메모리 제어기 유닛들을 포함하며, I/O 제어 로직을 포함한다. 도 15는 메모리들(1432, 1434)이 CL(1472, 1482)에 연결될 뿐만 아니라 I/O 디바이스들(1514)도 제어 로직(1472, 1482)에 연결되는 것을 도시한다. 레거시 I/O 디바이스들(1515)이 칩셋(1490)에 연결된다.

이하 도 16을 참조하면, 본 발명의 실시예에 따른 SoC(1600)의 블록도가 도시되어 있다. 도 12에서의 유사한 요소들은 유사한 참조 번호들을 지닌다. 또한, 파선 박스들은 더 진보된 SoC들에 대한 선택적인 특징들이다. 도 16에서, 상호접속 유닛(들)(1602)은, 하나 이상의 코어들(202A 내지 202N)의 세트 및 공유 캐시 유닛(들)(1206)을 포함하는 애플리케이션 프로세서(1610); 시스템 에이전트 유닛(1210); 버스 제어기 유닛(들)(1216); 통합된 메모리 제어기 유닛(들)(1214); 통합된 그래픽 로직, 이미지 프로세서, 오디오 프로세서 및 비디오 프로세서를 포함할 수 있는 하나 이상의 코프로세서들(1620)의 세트; SRAM(static random access memory) 유닛(1630); DMA(direct memory access) 유닛(1632); 및 하나 이상의 외부 디스플레이에 연결하기 위한 디스플레이 유닛(1640)에 연결된다. 일 실시예에서, 코프로세서(들)(1620)는, 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 고스루풋 MIC 프로세서, 임베디드 프로세서 등과 같은 특수 목적 프로세서를 포함한다.

본 명세서에 개시된 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 이러한 구현 접근법들의 조합으로 구현될 수 있다. 본 발명의 실시예들은, 적어도 하나의 프로세서, 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스를 포함하는 프로그램가능 시스템들 상에서 실행되는 컴퓨터 프로그램들 또는 프로그램 코드로서 구현될 수 있다.

도 14에 도시된 코드(1430)와 같은 프로그램 코드는 입력 명령어들에 적용되어, 본 명세서에 설명된 기능들을 수행하고 출력 정보를 생성할 수 있다. 출력 정보는 공지된 방식으로 하나 이상의 출력 디바이스에 적용될 수 있다. 이 애플리케이션을 위해, 처리 시스템은, 예를 들어, 디지털 신호 프로세서(DSP), 마이크로컨트롤러, 주문형 집적 회로(ASIC) 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.

프로그램 코드는 처리 시스템과 통신하기 위해 하이 레벨 절차형 또는 객체 지향형 프로그래밍 언어로 구현될 수 있다. 또한, 프로그램 코드는 요구되는 경우에 어셈블리 또는 기계 언어로 구현될 수 있다. 사실상, 본 명세서에 설명된 메커니즘들은 임의의 특정 프로그래밍 언어로 범위가 제한되지는 않는다. 임의의 경우에, 이 언어는 컴파일형 또는 해석형 언어일 수 있다.

적어도 하나의 실시예의 하나 이상의 양태는, 머신에 의해 판독될 때에 이 머신으로 하여금 본 명세서에 설명된 기술들을 수행하는 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 나타내는 머신 판독가능 매체 상에 저장된 대표적인 명령어들에 의해 구현될 수 있다. "IP 코어들"로서 알려진 이러한 표현들은 유형의(tangible) 머신 판독가능 매체 상에 저장되고, 다양한 고객들 또는 제조 설비들에 공급되어, 로직 또는 프로세서를 실제로 제조하는 제조 머신들로 로딩될 수 있다.

이러한 머신 판독가능 저장 매체는, 하드 디스크들, 플로피 디스크들, 광학 디스크들, CD-ROM들(compact disk read-only memories), CD-RW들(compact disk rewritable's) 및 광자기 디스크들을 포함하는 임의의 다른 타입의 디스크, ROM들(read-only memories), RAM들(random access memories), 예컨대 DRAM들(dynamic random access memories), SRAM들(static random access memories), EPROM들(erasable programmable read-only memories), 플래시 메모리들, EEPROM들(electrically erasable programmable read-only memories), 상변화 메모리(PCM)와 같은 반도체 디바이스들, 자기 또는 광학 카드들, 또는 전자 명령어들을 저장하기에 적합한 임의의 다른 타입의 매체와 같은 저장 매체를 비롯하여, 머신 또는 디바이스에 의해 제조되거나 형성되는 제조물들의 비일시적인 유형의 배열들을 포함할 수 있지만, 이에 제한되지는 않는다.

따라서, 본 발명의 실시예들은, 명령어들을 포함하거나, 또는 본 명세서에 설명된 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 피처들을 정의하는 HDL(Hardware Description Language)과 같은 설계 데이터를 포함하는 비일시적인 유형의 머신 판독가능 매체를 또한 포함한다. 이러한 실시예들은 프로그램 제품들로 또한 언급될 수 있다.

에뮬레이션(바이너리 번역(binary translation), 코드 모핑 등을 포함함)

일부 경우에, 소스 명령어 세트로부터 타깃 명령어 세트로 명령어를 변환하기 위해 명령어 변환기가 이용될 수 있다. 예를 들어, 명령어 변환기는 명령어를 코어에 의해 처리될 하나 이상의 다른 명령어로 (예를 들어, 정적 바이너리 번역, 동적 번역(dynamic compilation)을 포함하는 동적 바이너리 번역을 이용하여) 번역하거나, 모핑하거나, 에뮬레이트하거나, 또는 다른 방식으로 변환할 수 있다. 명령어 변환기는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 명령어 변환기는 온 프로세서(on processor), 오프 프로세서(off processor), 또는 부분 온 및 부분 오프 프로세서(part on and part off processor)일 수 있다.

도 17은 본 발명의 실시예들에 따른 소스 명령어 세트에서의 바이너리 명령어들을 타깃 명령어 세트에서의 바이너리 명령어들로 변환하기 위한 소프트웨어 명령어 변환기의 이용을 대조하는 블록도이다. 도시된 실시예에서, 명령어 변환기는 소프트웨어 명령어 변환기이지만, 대안적으로 명령어 변환기는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 다양한 조합으로 구현될 수 있다. 도 17은 하이 레벨 언어(1702)로 된 프로그램이 x86 컴파일러(1704)를 이용하여 컴파일링되어, 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1716)에 의해 본래 실행될 수 있는 x86 바이너리 코드(1706)를 생성할 수 있는 것을 도시한다. 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1716)는, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위해서, (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 상당부 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서 상에서 실행되도록 되어 있는 오브젝트 코드 버전의 애플리케이션들 또는 다른 소프트웨어를 호환가능하게 실행하거나 또는 다른 방식으로 처리함으로써, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 기능을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(1704)는, 부가적인 링크 처리(linkage processing)를 갖거나 갖지 않고서 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1716) 상에서 실행될 수 있는 x86 바이너리 코드(1706)(예를 들어, 오브젝트 코드)를 생성하도록 동작가능한 컴파일러를 나타낸다. 유사하게, 도 17는 하이 레벨 언어(1702)로 된 프로그램이 대안적인 명령어 세트 컴파일러(1708)를 이용하여 컴파일링되어, 적어도 하나의 x86 명령어 세트 코어를 갖지 않는 프로세서(1714)(예를 들어, 캘리포니아주 서니베일에 있는 MIPS Technologies의 MIPS 명령어 세트를 실행하고/하거나 캘리포니아주 서니베일에 있는 ARM Holdings의 ARM 명령어 세트를 실행하는 코어들을 갖는 프로세서)에 의해 본래 실행될 수 있는 대안적인 명령어 세트 바이너리 코드(1710)를 생성할 수 있는 것을 도시한다. 명령어 변환기(1712)는, x86 바이너리 코드(1706)를, x86 명령어 세트 코어를 갖지 않는 프로세서(1714)에 의해 본래 실행될 수 있는 코드로 변환하는데 이용된다. 이러한 변환된 코드는 대안적인 명령어 세트 바이너리 코드(1710)와 동일할 가능성이 낮은데, 그 이유는 이것을 할 수 있는 명령어 변환기가 제조되기 어렵기 때문이다; 그러나, 변환된 코드는 일반 연산을 달성할 것이며, 대안적인 명령어 세트로부터의 명령어들로 이루어질 것이다. 따라서, 명령어 변환기(1712)는, 에뮬레이션, 시뮬레이션 또는 임의의 다른 프로세스를 통해, x86 명령어 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스가 x86 바이너리 코드(1706)를 실행하는 것을 허용하는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 나타낸다.

도 3 및 도 4 중 임의의 것에 대해 설명된 컴포넌트들, 특징들 및 상세들은 도 1 및 도 2 중 임의의 것에서 또한 선택적으로 이용될 수 있다. 도 5 내지 도 9 중 임의의 것에 대해 설명된 컴포넌트들, 특징들 및 상세들은 도 1 내지 도 4 중 임의의 것에서 또한 선택적으로 이용될 수 있다. 또한, 프로세서들 또는 명령어 처리 장치 중 임의의 것에 대해 본 명세서에서 설명된 컴포넌트들, 특징들 및 상세들은, 실시예들에서 이러한 프로세서들 또는 장치에 의해 그리고/또는 이러한 프로세서들 또는 장치를 이용하여 수행될 수 있는 본 명세서에 설명된 방법들 중 임의의 것에서 또한 선택적으로 이용될 수 있다.

본 설명 및 청구항들에서, "연결된(coupled)" 및/또는 "접속된(connected)"이라는 용어들은 그들의 파생어들과 함께 이용되었다. 이들 용어들은 서로에 대한 동의어로서 의도되지는 않는다고 이해되어야 한다. 오히려, 특정 실시예들에서, "접속된"은, 2개 이상의 요소가 서로 직접 물리적으로 또는 전기적으로 접촉하는 것을 나타내는데 이용될 수 있다. "연결된"은, 2개 이상의 요소가 직접 물리적으로 또는 전기적으로 접촉하는 것을 의미할 수 있다. 그러나, "연결된"은, 2개 이상의 요소가 서로 직접 접촉하지는 않지만 여전히 서로 상호작용하거나 협력하는 것을 또한 의미할 수 있다. 예를 들어, 메모리 액세스 유닛은 하나 이상의 중간 컴포넌트를 통해 디코드 유닛 및/또는 레지스터들의 세트와 연결될 수 있다. 도면들에서, 화살표들은 연결들을 나타내는데 이용된다.

본 설명 및 청구항들에서, "로직"이라는 용어가 이용되었을 수 있다. 본 명세서에서 이용된 바와 같이, 로직은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 다양한 조합들을 포함할 수 있다. 로직의 예들은 집적 회로, 주문형 집적 회로, 아날로그 회로, 디지털 회로, 프로그램된 로직 디바이스, 명령어들을 포함한 메모리 디바이스 등을 포함한다. 일부 실시예들에서, 하드웨어 로직은 잠재적으로 다른 회로 컴포넌트들과 함께 트랜지스터들 및/또는 게이트들을 포함할 수 있다.

전술한 설명에서, 실시예들의 철저한 이해를 제공하기 위해서 특정 상세들이 제시되었다. 그러나, 다른 실시예들은 이들 특정 상세 중 일부 없이 실시될 수 있다. 본 발명의 범위는 위에서 제공된 특정 예들에 의해서가 아니라 아래의 청구항들에 의해서만 결정되어야 한다. 다른 경우에, 본 설명의 이해를 모호하게 하는 것을 회피하기 위해서 잘 알려진 회로들, 구조들, 디바이스들 및 동작들은 블록도 형태로 또는 상세 없이 제시되었다. 다수의 컴포넌트가 제시 및 설명되었지만, 일부 경우에 이들 다수의 컴포넌트는 하나의 컴포넌트로 통합될 수 있다. 단일의 컴포넌트가 제시 및 설명되었지만, 일부 경우에 이러한 단일의 컴포넌트는 2개 이상의 컴포넌트로 분리될 수 있다.

다양한 동작들 및 방법들이 설명되었다. 이들 방법들 중 일부는 흐름도들에서 비교적 기본적인 형태로 설명되었지만, 선택적으로 방법들에 동작들이 부가되고/되거나 방법들로부터 동작들이 제거될 수 있다. 또한, 흐름도들은 예시적인 실시예들에 따라 동작들의 특정 순서를 도시하지만, 그 특정 순서는 예시적이다. 대안적인 실시예들은 선택적으로 동작들을 상이한 순서로 수행하고, 특정 동작들을 결합하고, 특정 동작들을 중첩하거나 할 수 있다.

특정 동작들은 하드웨어 컴포넌트들에 의해 수행될 수 있거나, 또는 명령어들로 프로그램된 머신, 회로 또는 하드웨어 컴포넌트(예를 들어, 프로세서, 프로세서의 일부, 회로 등)가 동작들을 수행하는 것을 야기시키고/시키거나 초래하는데 이용될 수 있는 머신 실행가능 또는 회로 실행가능 명령어들로 구현될 수 있다. 또한, 동작들은 하드웨어와 소프트웨어의 조합에 의해 선택적으로 수행될 수 있다. 프로세서, 머신, 회로 또는 하드웨어는, 명령어를 실행 및/또는 처리하고, 명령어에 응답하여 결과를 저장하도록 동작가능한 특정 또는 특별 회로 또는 다른 로직(예를 들어, 펌웨어 및/또는 소프트웨어와 잠재적으로 결합되는 하드웨어)을 포함할 수 있다.

일부 실시예들은 머신 판독가능 매체를 포함하는 제조물(예를 들어, 컴퓨터 프로그램 제품)을 포함한다. 이 매체는 머신에 의해 판독가능한 형태로 정보를 제공하는, 예를 들어 저장하는 메커니즘을 포함할 수 있다. 머신 판독가능 매체는, 머신에 의해 실행되는 경우 그리고/또는 실행될 때 이 머신으로 하여금 본 명세서에 개시된 하나 이상의 동작들, 방법들 또는 기술들을 수행하게 하고/하거나 이 머신이 이들을 수행하는 것을 초래하도록 동작가능한 명령어 또는 명령어들의 시퀀스를 제공하거나 저장할 수 있다. 머신 판독가능 매체는 본 명세서에 개시된 명령어들의 실시예들 중 하나 이상을 제공, 예를 들어 저장할 수 있다.

일부 실시예들에서, 머신 판독가능 매체는 유형의 그리고/또는 비일시적인 머신 판독가능 저장 매체를 포함할 수 있다. 예를 들어, 유형의 그리고/또는 비일시적인 머신 판독가능 저장 매체는 플로피 디스켓, 광학 저장 매체, 광학 디스크, 광학 데이터 저장 디바이스, CD-ROM, 자기 디스크, 광자기 디스크, ROM(read only memory), PROM(programmable ROM), EPROM(erasable-and-programmable ROM), EEPROM(electrically-erasable-and-programmable ROM), RAM(random access memory), 정적 RAM(SRAM), 동적 RAM(DRAM), 플래시 메모리, 상변화 메모리, 상변화 데이터 저장 재료, 비휘발성 메모리, 비휘발성 데이터 저장 디바이스, 비일시적인 메모리, 비일시적인 데이터 저장 디바이스 등을 포함할 수 있다. 비일시적인 머신 판독가능 저장 매체는 일시 전파 신호(transitory propagated signal)로 구성되지 않는다. 다른 실시예에서, 머신 판독가능 매체는 일시적인 머신 판독가능 통신 매체, 예를 들어 전기, 광학, 음향 또는 다른 형태의 전파 신호들, 예컨대 반송파들, 적외선 신호들, 디지털 신호들 등을 포함할 수 있다.

적합한 머신들의 예들은 범용 프로세서들, 특수 목적 프로세서들, 명령어 처리 장치, 디지털 로직 회로들, 집적 회로들 등을 포함하지만, 이에 제한되지는 않는다. 적합한 머신들의 다른 예들은, 이러한 프로세서들, 명령어 처리 장치, 디지털 로직 회로들 또는 집적 회로들을 포함하는 컴퓨팅 디바이스들 및 다른 전자 디바이스들을 포함한다. 이러한 컴퓨팅 디바이스들 및 전자 디바이스들의 예들은 데스크톱 컴퓨터들, 랩톱 컴퓨터들, 노트북 컴퓨터들, 태블릿 컴퓨터들, 넷북들, 스마트폰들, 셀룰러 폰들, 서버들, 네트워크 디바이스들(예를 들어, 라우터들 및 스위치들), MID들(Mobile Internet devices), 미디어 플레이어들, 스마트 텔레비전들, 넷톱들, 셋톱 박스들 및 비디오 게임 제어기들을 포함하지만, 이에 제한되지는 않는다.

예를 들어 본 명세서 전체에 걸쳐 "일 실시예(one embodiment)", "실시예(an embodiment)", "하나 이상의 실시예(one or more embodiments)", "일부 실시예들(some embodiments)"에 대한 언급은, 특정 특징이 본 발명의 실시에 포함될 수 있지만 반드시 그러하도록 요구되지는 않는다는 것을 나타낸다. 유사하게, 본 설명에서, 본 개시물을 간소화하며 다양한 본 발명의 양태들의 이해를 돕기 위해, 다양한 특징들은 때때로 단일의 실시예, 도면 또는 그것의 설명에서 함께 그룹화된다. 그러나, 이러한 개시물의 방법은, 본 발명이 각각의 청구항에서 명백하게 기재되는 것보다 더 많은 특징들을 요구한다는 의도를 반영하는 것으로서 해석되어서는 안 된다. 오히려, 다음의 청구항들이 나타내는 바와 같이, 본 발명의 양태들은 단일의 개시된 실시예의 모든 특징보다 더 적은 특징에 있다. 따라서, 본 상세한 설명에 후속하는 청구항들은 이에 의해 본 상세한 설명에 명백하게 포함되고, 각각의 청구항은 본 발명의 별개의 실시예로서 자립한다.

예시적인 실시예들

다음의 예들은 추가의 실시예들에 관한 것이다. 이 예들에서의 구체사항들은 하나 이상의 실시예에서의 어디에서나 이용될 수 있다.

예 1은 복수의 N-비트 레지스터를 포함하는 프로세서이다. 프로세서는 다중 레지스터 메모리 액세스 명령어를 수신하는 디코드 유닛을 또한 포함한다. 다중 레지스터 메모리 액세스 명령어는 메모리 위치를 표시하며, 레지스터를 표시한다. 프로세서는, 디코드 유닛 및 복수의 N-비트 레지스터와 연결된 메모리 액세스 유닛을 또한 포함한다. 메모리 액세스 유닛은, 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행한다. 다중 레지스터 메모리 액세스 연산은, 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반한다. 다중 레지스터 메모리 액세스 연산은, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 또한 수반한다. 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 2는 예 1의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수가 메모리의 라인의 MxN-비트 전체에 달하는 연산을 수행한다.

예 3은 예 1의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수가 적어도 256 비트에 달하는 연산을 수행한다.

예 4는 예 3의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수가 적어도 512 비트에 달하는 연산을 수행한다.

예 5는 예 1 내지 예 4 중 어느 하나의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 적어도 3개의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반하는 연산을 수행한다.

예 6은 예 1 내지 예 5 중 어느 하나의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 적어도 4개의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반하는 연산을 수행한다.

예 7은 예 1의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 적어도 4개의 128-비트 레지스터 각각에서의 128-비트 데이터, 및 적어도 512 비트인 메모리의 라인의 상이한 대응하는 128-비트 부분들을 수반하는 연산을 수행한다.

예 8은 예 1의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 적어도 2개의 256-비트 레지스터 각각에서의 256-비트 데이터, 및 적어도 512 비트인 메모리의 라인의 상이한 대응하는 256-비트 부분들을 수반하는 연산을 수행한다.

예 9는 예 1 내지 예 8 중 어느 하나의 프로세서를 포함하는데, 선택적으로, 프로세서는 RISC(reduced instruction set computing) 프로세서를 포함하고, 다중 레지스터 메모리 액세스 명령어는 메모리로부터의 다중 레지스터 로드 명령어를 포함하고, 메모리 액세스 유닛은, 메모리로부터의 다중 레지스터 로드 명령어에 응답하여, 복수의 N-비트 레지스터 각각에서, 메모리의 MxN-비트 라인의 상이한 N-비트 부분들을 로딩한다. 선택적으로, 메모리의 MxN-비트 라인으로부터 복수의 N-비트 레지스터에 로딩되는 상이한 N-비트 부분들의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 10은 예 9의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 적어도 4개의 128-비트 레지스터 각각에서, 적어도 512 비트인 메모리의 라인의 상이한 128-비트 부분들을 로딩한다.

예 11은 예 9의 프로세서를 포함하는데, 선택적으로, 메모리 액세스 유닛은, 적어도 2개의 256-비트 레지스터 각각에서, 적어도 512 비트인 메모리의 라인의 상이한 256-비트 부분들을 로딩한다.

예 12는 예 1 내지 예 8 중 어느 하나의 프로세서를 포함하는데, 선택적으로, 프로세서는 RISC(reduced instruction set computing) 프로세서를 포함하고, 다중 레지스터 메모리 액세스 명령어는 메모리에 대한 다중 레지스터 기입 명령어를 포함하고, 메모리 액세스 유닛은, 메모리에 대한 다중 레지스터 기입 명령어에 응답하여, 복수의 N-비트 레지스터 각각으로부터, 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들로 N-비트 데이터를 기입한다. 선택적으로, 복수의 N-비트 레지스터로부터 메모리의 MxN-비트 라인으로 기입되는 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다. 선택적으로, 메모리의 라인의 MxN-비트의 적어도 절반은 적어도 256 비트이다.

예 13은 예 1 내지 예 8 중 어느 하나의 프로세서를 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 명령어는 복수의 레지스터 각각을 명시적으로 특정한다.

예 14는 예 1 내지 예 8 중 어느 하나의 프로세서를 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 명령어는 복수의 레지스터의 개수를 특정한다.

예 15는 프로세서에 의해 수행되는 방법이며, 이 방법은 다중 레지스터 메모리 액세스 명령어를 수신하는 단계를 포함한다. 다중 레지스터 메모리 액세스 명령어는 메모리 위치를 표시하며, 레지스터를 표시한다. 이 방법은, 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행하는 단계를 포함한다. 이 연산은, 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반한다. 이 연산은, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 또한 수반한다. 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 16은 예 15의 방법을 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트 전체에 달한다.

예 17은 예 15의 방법을 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 적어도 256 비트에 달한다.

예 18은 예 15 내지 예 17 중 어느 하나의 방법을 포함하는데, 선택적으로, 수행하는 단계는, 적어도 4개의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반하는 연산을 수행하는 단계를 포함한다.

예 19는 예 15의 방법을 포함하는데, 선택적으로, 수행하는 단계는, 적어도 4개의 128-비트 레지스터 각각에서의 128-비트 데이터, 및 적어도 512 비트인 메모리의 라인의 상이한 대응하는 128-비트 부분들을 수반하는 연산을 수행하는 단계를 포함한다.

예 20은 예 15의 방법을 포함하는데, 선택적으로, 수행하는 단계는, 적어도 2개의 256-비트 레지스터 각각에서의 256-비트 데이터, 및 적어도 512 비트인 메모리의 라인의 상이한 대응하는 256-비트 부분들을 수반하는 연산을 수행하는 단계를 포함한다.

예 21은 예 15 내지 예 20 중 어느 하나의 방법을 포함하는데, 선택적으로, 수신하는 단계는 메모리로부터의 다중 레지스터 로드 명령어를 수신하는 단계를 포함하고, 수행하는 단계는, 메모리로부터의 다중 레지스터 로드 명령어에 응답하여, 복수의 N-비트 레지스터 각각에서, 메모리의 MxN-비트 라인의 상이한 N-비트 부분들을 로딩하는 단계를 포함한다. 선택적으로, 메모리의 MxN-비트 라인으로부터 복수의 N-비트 레지스터에 로딩되는 상이한 N-비트 부분들의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 22는 예 21의 방법을 포함하는데, 선택적으로, 수행하는 단계는, 적어도 4개의 128-비트 레지스터 각각에서, 적어도 512 비트인 메모리의 라인의 상이한 128-비트 부분들을 로딩하는 단계를 포함한다.

예 23은 예 21의 방법을 포함하는데, 선택적으로, 수행하는 단계는, 적어도 2개의 256-비트 레지스터 각각에서, 적어도 512 비트인 메모리의 라인의 상이한 256-비트 부분들을 로딩하는 단계를 포함한다.

예 24는 예 15 내지 예 20 중 어느 하나의 방법을 포함하는데, 선택적으로, 수신하는 단계는 메모리에 대한 다중 레지스터 기입 명령어를 포함하고, 수행하는 단계는, 메모리에 대한 다중 레지스터 기입 명령어에 응답하여, 복수의 N-비트 레지스터 각각으로부터, 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들로 N-비트 데이터를 기입하는 단계를 포함한다. 선택적으로, 복수의 N-비트 레지스터로부터 메모리의 MxN-비트 라인으로 기입되는 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다. 선택적으로, 메모리의 라인의 MxN-비트의 적어도 절반은 적어도 256 비트이다.

예 25는 명령어들을 처리하는 시스템이며, 이 시스템은 상호접속부, 상호접속부와 연결된 동적 랜덤 액세스 메모리(DRAM), 및 상호접속부와 연결된 프로세서를 포함한다. 프로세서는, 레지스터 및 DRAM에서의 메모리 위치를 표시하는 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행한다. 이 연산은, 표시된 레지스터를 포함하는 프로세서의 복수의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반한다. 이 연산은, 표시된 메모리 위치에 대응하는 DRAM의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 또한 수반한다. 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 26은 예 25의 시스템을 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 적어도 512 비트인 메모리의 라인의 MxN-비트 전체에 달한다.

예 27은 다중 레지스터 메모리 액세스 명령어를 저장하는 비일시적인 머신 판독가능 저장 매체를 포함하는 제조물이다. 다중 레지스터 메모리 액세스 명령어는 메모리 위치 및 레지스터를 표시한다. 다중 레지스터 메모리 액세스 명령어는, 머신에 의해 처리되는 경우, 이 머신으로 하여금, 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반하는 다중 레지스터 메모리 액세스 연산을 수행하는 것을 포함하는 동작들을 수행하게 하도록 동작가능하다. 이 연산은, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 또한 수반한다. 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 28은 예 27의 제조물을 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 적어도 512 비트인 메모리의 라인의 MxN-비트 전체에 달한다.

예 29는 다중 레지스터 메모리 액세스 명령어를 수신하는 수단을 포함하는 프로세서이다. 다중 레지스터 메모리 액세스 명령어는 메모리 위치를 표시하며, 레지스터를 표시한다. 프로세서는, 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행하는 수단을 또한 포함한다. 이 연산은, 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각에서의 N-비트 데이터를 수반한다. 이 연산은, 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 또한 수반한다. 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트의 적어도 절반에 달한다.

예 30은 예 29의 프로세서를 포함하는데, 선택적으로, 다중 레지스터 메모리 액세스 연산에 수반되는 복수의 N-비트 레지스터에서의 N-비트 데이터의 전체 비트 수는 메모리의 라인의 MxN-비트 전체에 달한다.

예 31은, 머신에 의해 실행되는 경우, 이 머신으로 하여금 예 15 내지 예 24 중 어느 하나의 방법을 수행하게 하는 명령어를 저장하는 머신 판독가능 저장 매체이다.

예 32는 예 15 내지 예 24 중 어느 하나의 방법을 수행하는 프로세서이다.

예 33은 예 15 내지 예 24 중 어느 하나의 방법을 수행하는 수단을 포함하는 프로세서이다.

예 34는 예 15 내지 예 24 중 어느 하나의 방법을 수행하기 위해 집적 회로 및/또는 로직 및/또는 유닛 및/또는 컴포넌트 및/또는 모듈, 또는 이들의 임의의 조합을 포함하는 프로세서이다.

예 35는 컴퓨터 시스템인데, 이 컴퓨터 시스템은 프로세서를 포함하고, 동적 랜덤 액세스 메모리(DRAM)를 선택적으로 포함하며, 이 컴퓨터 시스템은 예 15 내지 예 24 중 어느 하나의 방법을 수행한다.

예 36은 실질적으로 본 명세서에 설명된 바와 같은 방법 또는 동작을 수행하는 프로세서이다.

예 37은 실질적으로 본 명세서에 설명된 바와 같은 방법 또는 동작을 수행하는 수단을 포함하는 프로세서이다.

예 38은 실질적으로 본 명세서에 설명된 바와 같은 명령어를 실행하는 프로세서이다.

예 39는 실질적으로 본 명세서에 설명된 바와 같은 명령어의 연산들을 수행하는 수단을 포함하는 프로세서이다.

Claims

프로세서로서,
복수의 N-비트 레지스터;
다중 레지스터 메모리 액세스 명령어를 수신하는 디코드 유닛 - 상기 다중 레지스터 메모리 액세스 명령어는 메모리 위치를 표시하며, 레지스터를 표시함 -; 및
상기 디코드 유닛 및 상기 복수의 N-비트 레지스터와 연결된 메모리 액세스 유닛 - 상기 메모리 액세스 유닛은, 상기 다중 레지스터 메모리 액세스 명령어에 응답하여, 다중 레지스터 메모리 액세스 연산을 수행하고, 상기 다중 레지스터 메모리 액세스 연산은, 상기 표시된 레지스터를 포함하는 상기 복수의 N-비트 레지스터 각각에서의 N-비트 데이터, 및 상기 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 수반하고, 상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수는 상기 메모리의 라인의 MxN-비트의 적어도 절반에 달함 -
을 포함하는 프로세서.
제1항에 있어서,
상기 메모리 액세스 유닛은, 상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수가 상기 메모리의 라인의 MxN-비트 전체에 달하는 상기 연산을 수행하는 프로세서.
제1항에 있어서,
상기 메모리 액세스 유닛은, 상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수가 적어도 256 비트에 달하는 상기 연산을 수행하는 프로세서.
제3항에 있어서,
상기 메모리 액세스 유닛은, 상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수가 적어도 512 비트에 달하는 상기 연산을 수행하는 프로세서.
제1항에 있어서,
상기 메모리 액세스 유닛은, 적어도 3개의 N-비트 레지스터 각각에서의 상기 N-비트 데이터를 수반하는 상기 연산을 수행하는 프로세서.
제5항에 있어서,
상기 메모리 액세스 유닛은, 적어도 4개의 N-비트 레지스터 각각에서의 상기 N-비트 데이터를 수반하는 상기 연산을 수행하는 프로세서.
제1항에 있어서,
상기 메모리 액세스 유닛은, 적어도 4개의 128-비트 레지스터 각각에서의 128-비트 데이터, 및 적어도 512 비트인 상기 메모리의 라인의 상이한 대응하는 128-비트 부분들을 수반하는 상기 연산을 수행하는 프로세서.
제1항에 있어서,
상기 메모리 액세스 유닛은, 적어도 2개의 256-비트 레지스터 각각에서의 256-비트 데이터, 및 적어도 512 비트인 상기 메모리의 라인의 상이한 대응하는 256-비트 부분들을 수반하는 상기 연산을 수행하는 프로세서.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 프로세서는 RISC(reduced instruction set computing) 프로세서를 포함하고, 상기 다중 레지스터 메모리 액세스 명령어는 메모리로부터의 다중 레지스터 로드 명령어(multiple register load from memory instruction)를 포함하고, 상기 메모리 액세스 유닛은, 상기 메모리로부터의 다중 레지스터 로드 명령어에 응답하여, 상기 복수의 N-비트 레지스터 각각에서, 상기 메모리의 MxN-비트 라인의 상이한 N-비트 부분들을 로딩하고, 상기 메모리의 MxN-비트 라인으로부터 상기 복수의 N-비트 레지스터에 로딩되는 상기 상이한 N-비트 부분들의 전체 비트 수는 상기 메모리의 라인의 MxN-비트의 적어도 절반에 달하는 프로세서.
제9항에 있어서,
상기 메모리 액세스 유닛은, 적어도 4개의 128-비트 레지스터 각각에서, 적어도 512 비트인 상기 메모리의 라인의 상이한 128-비트 부분들을 로딩하는 프로세서.
제9항에 있어서,
상기 메모리 액세스 유닛은, 적어도 2개의 256-비트 레지스터 각각에서, 적어도 512 비트인 상기 메모리의 라인의 상이한 256-비트 부분들을 로딩하는 프로세서.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 프로세서는 RISC(reduced instruction set computing) 프로세서를 포함하고, 상기 다중 레지스터 메모리 액세스 명령어는 메모리에 대한 다중 레지스터 기입 명령어(multiple register write to memory instruction)를 포함하고, 상기 메모리 액세스 유닛은, 상기 메모리에 대한 다중 레지스터 기입 명령어에 응답하여, 상기 복수의 N-비트 레지스터 각각으로부터, 상기 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들로 상기 N-비트 데이터를 기입하고, 상기 복수의 N-비트 레지스터로부터 상기 메모리의 MxN-비트 라인으로 기입되는 상기 N-비트 데이터의 전체 비트 수는 상기 메모리의 라인의 MxN-비트의 적어도 절반에 달하고, 상기 메모리의 라인의 MxN-비트의 적어도 절반은 적어도 256 비트인 프로세서.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 다중 레지스터 메모리 액세스 명령어는 상기 복수의 레지스터 각각을 명시적으로 특정하는 프로세서.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 다중 레지스터 메모리 액세스 명령어는 상기 복수의 레지스터의 개수를 특정하는 프로세서.
프로세서에 의해 수행되는 방법으로서,
다중 레지스터 메모리 액세스 명령어를 수신하는 단계 - 상기 다중 레지스터 메모리 액세스 명령어는 메모리 위치를 표시하며, 레지스터를 표시함 -; 및
상기 다중 레지스터 메모리 액세스 명령어에 응답하여, 상기 표시된 레지스터를 포함하는 복수의 N-비트 레지스터 각각에서의 N-비트 데이터, 및 상기 표시된 메모리 위치에 대응하는 메모리의 MxN-비트 라인의 상이한 대응하는 N-비트 부분들을 수반하는 다중 레지스터 메모리 액세스 연산을 수행하는 단계 - 상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수는 상기 메모리의 라인의 MxN-비트의 적어도 절반에 달함 -
를 포함하는 방법.
제15항에 있어서,
상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수는 상기 메모리의 라인의 MxN-비트 전체에 달하는 방법.
제15항에 있어서,
상기 다중 레지스터 메모리 액세스 연산에 수반되는 상기 복수의 N-비트 레지스터에서의 상기 N-비트 데이터의 전체 비트 수는 적어도 256 비트에 달하는 방법.
제17항에 있어서,
수행하는 단계는, 적어도 4개의 N-비트 레지스터 각각에서의 상기 N-비트 데이터를 수반하는 상기 연산을 수행하는 단계를 포함하는 방법.
제15항에 있어서,
수행하는 단계는, 적어도 4개의 128-비트 레지스터 각각에서의 128-비트 데이터, 및 적어도 512 비트인 상기 메모리의 라인의 상이한 대응하는 128-비트 부분들을 수반하는 상기 연산을 수행하는 단계를 포함하는 방법.
제15항에 있어서,
수행하는 단계는, 적어도 2개의 256-비트 레지스터 각각에서의 256-비트 데이터, 및 적어도 512 비트인 상기 메모리의 라인의 상이한 대응하는 256-비트 부분들을 수반하는 상기 연산을 수행하는 단계를 포함하는 방법.
제15항에 있어서,
수신하는 단계는 메모리로부터의 다중 레지스터 로드 명령어를 수신하는 단계를 포함하고, 수행하는 단계는, 상기 메모리로부터의 다중 레지스터 로드 명령어에 응답하여, 상기 복수의 N-비트 레지스터 각각에서, 상기 메모리의 MxN-비트 라인의 상이한 N-비트 부분들을 로딩하는 단계를 포함하고, 상기 메모리의 MxN-비트 라인으로부터 상기 복수의 N-비트 레지스터에 로딩되는 상이한 N-비트 부분들의 전체 비트 수는 상기 메모리의 라인의 MxN-비트의 적어도 절반에 달하는 방법.
제21항에 있어서,
수행하는 단계는, 적어도 4개의 128-비트 레지스터 각각에서, 적어도 512 비트인 상기 메모리의 라인의 상이한 128-비트 부분들을 로딩하는 단계를 포함하는 방법.
머신에 의해 실행되는 경우, 상기 머신으로 하여금 제15항 내지 제22항 중 어느 한 항의 방법을 수행하게 하는 명령어를 저장하는 머신 판독가능 저장 매체.
제15항 내지 제22항 중 어느 한 항의 방법을 수행하는 수단을 포함하는 프로세서.
제1항 내지 제8항 중 어느 한 항의 프로세서, 및 상기 프로세서와 연결된 동적 랜덤 액세스 메모리를 포함하는 시스템.