KR20170098803A - 데이터 추론 실행을 위한 시스템, 장치 및 방법 - Google Patents

데이터 추론 실행을 위한 시스템, 장치 및 방법 Download PDF

Info

Publication number
KR20170098803A
KR20170098803A KR1020177014244A KR20177014244A KR20170098803A KR 20170098803 A KR20170098803 A KR 20170098803A KR 1020177014244 A KR1020177014244 A KR 1020177014244A KR 20177014244 A KR20177014244 A KR 20177014244A KR 20170098803 A KR20170098803 A KR 20170098803A
Authority
KR
South Korea
Prior art keywords
dsx
instruction
register
execution
hardware
Prior art date
Application number
KR1020177014244A
Other languages
English (en)
Other versions
KR102453594B1 (ko
Inventor
엘무스타파 울드 아메드 발
크리스토퍼 제이. 휴즈
로버트 발렌타인
밀린드 비. 기르카르
히데끼 이도
유펑 우
청 왕
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20170098803A publication Critical patent/KR20170098803A/ko
Application granted granted Critical
Publication of KR102453594B1 publication Critical patent/KR102453594B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3824Operand accessing
    • G06F9/3834Maintaining memory consistency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30065Loop control instructions; iterative instructions, e.g. LOOP, REPEAT
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3842Speculative instruction execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline or look ahead
    • G06F9/3861Recovery, e.g. branch miss-prediction, exception handling
    • G06F9/3863Recovery, e.g. branch miss-prediction, exception handling using multiple copies of the architectural state, e.g. shadow registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • G06F9/526Mutual exclusion algorithms
    • G06F9/528Mutual exclusion algorithms by using speculative mechanisms

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Advance Control (AREA)
  • Executing Machine-Instructions (AREA)

Abstract

데이터 추론 실행(DSX)을 위한 시스템들, 방법들 및 장치들이 설명된다. 일부 실시예에서, DSX를 수행하기 위한 하드웨어 장치는, 명령어를 디코딩하는 하드웨어 디코더 - 명령어는 폴백 어드레스의 일부를 저장하기 위한 피연산자 및 오피코드를 포함함 - 및 추론 메모리 액세스를 트래킹하고 데이터 추론 실행(DSX) 영역에서의 순서화 위반을 검출하기 위해 DSX 트래킹 하드웨어를 활성화하고 폴백 어드레스를 저장함으로써 DSX 영역을 개시하기 위해 디코딩된 명령어를 실행하는 실행 하드웨어를 포함한다.

Description

데이터 추론 실행을 위한 시스템, 장치 및 방법{SYSTEMS, APPARATUSES, AND METHODS FOR DATA SPECULATION EXECUTION}
본 발명의 분야는 일반적으로 컴퓨터 프로세서 아키텍처에 관한 것으로, 보다 구체적으로는 추론 실행(speculative execution)에 관한 것이다.
가능한 교차 반복 의존성을 포함하는 벡터화 루프들(vectorizing loops)은 어렵기로 악명이 높다. 이런 타입의 예시적인 루프는 다음과 같다:
Figure pct00001
이 루프의 단순한(그리고 부정확한) 벡터화는 다음과 같다:
Figure pct00002
그러나, 루프의 벡터화된 버전을 생성하는 컴파일러가 A, B 및 C의 어드레스들 또는 정렬에 대한 선험적 지식이 없다면, 상기 벡터화는 안전하지 못하다.
본 발명은 유사한 참조 번호가 유사한 요소를 표시하는 첨부 도면의 도면들에서 예시로서 도시된 것이지 제한적인 것이 아니다.
도 1은 하드웨어에서 데이터 추론 확장(data speculation extension)(DSX)을 실행할 수 있는 프로세서 코어의 예시적인 블록도의 실시예이다.
도 2는 실시예에 따른 추론 명령어 실행의 예를 도시한다.
도 3은 DSX 트래킹 하드웨어의 상세한 실시예를 예시하는 DSX 트래킹 하드웨어의 상세한 실시예를 도시한다.
도 4는 DSX 트래킹 하드웨어에 의해 수행되는 DSX 추론 오류 검출(mis-speculation detection)의 예시적인 방법을 도시한다.
도 5(a)-(b)는 DSX 트래킹 하드웨어에 의해 수행된 DSX 추론 오류 검출의 예시적인 방법을 도시한다.
도 6은 DSX를 시작하기 위한 명령어의 실행의 실시예를 도시한다.
도 7은 YBEGIN 명령어 포맷의 일부 예시적인 실시예를 도시한다.
도 8은 YBEGIN 명령어과 같은 명령어의 실행의 상세한 실시예를 도시한다.
도 9는 YBEGIN 명령어과 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
도 10은 DSX를 시작하기 위한 명령어의 실행의 실시예를 도시한다.
도 11은 YBEGIN WITH STRIDE 명령어 포맷의 일부 예시적인 실시예를 도시한다.
도 12는 YBEGIN WITH STRIDE 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다.
도 13은 DSX를 종료하지 않고 DSX를 계속하기 위한 명령어의 실행의 실시예를 도시한다.
도 14는 YCONTINUE 명령어 포맷의 일부 예시적인 실시예를 도시한다.
도 15는 YCONTINUE 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다.
도 16은 YCONTINUE 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
도 17은 DSX를 중단시키기 위한 명령어의 실행의 실시예를 도시한다.
도 18은 YABORT 명령어 포맷의 일부 예시적인 실시예를 도시한다.
도 19는 YABORT 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다.
도 20은 YABORT 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
도 21은 DSX의 상태를 테스트하기 위한 명령어의 실행의 실시예를 도시한다.
도 22는 YTEST 명령어 포맷의 일부 예시적인 실시예를 도시한다.
도 23은 YTEST 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
도 24는 DSX를 종료하기 위한 명령어의 실행의 실시예를 도시한다.
도 25는 YEND 명령어 포맷의 일부 예시적인 실시예를 도시한다.
도 26은 YEND 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다.
도 27은 YEND 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
도 28a-28b는 본 발명의 실시예에 따른 일반적 벡터 친화적 명령어 포맷 및 그것의 명령어 템플릿들을 도시하는 블록도들이다.
도 29a-d는 필드의 위치, 사이즈, 해석 및 순서뿐만 아니라 이들 필드의 일부에 대한 값들을 특정한다는 의미에서 특정적인 특정적 벡터 친화적 명령어 포맷(2900)을 도시한다.
도 30은 본 발명의 일 실시예에 따른 레지스터 아키텍처의 블록도이다.
도 31a는 본 발명의 실시예들에 따른 예시적인 순차 파이프라인 및 예시적인 레지스터 리네이밍, 비순차 발행/실행 파이프라인(register renaming, out-of-order issue/execution pipeline)의 양쪽 모두를 도시하는 블록도이다.
도 31b는 본 발명의 실시예들에 따른 프로세서에 포함될 순차 아키텍처 코어의 예시적인 실시예와 예시적인 레지스터 리네이밍, 비순차 발행/실행 아키텍처 코어의 양자 모두를 도시하는 블록도이다.
도 32a-b는 코어가 칩 내의 여러 로직 블록들(동일한 타입 및/또는 상이한 타입의 다른 코어들을 포함함) 중 하나의 로직 블록인, 보다 구체적인 예시적인 순차 코어 아키텍처의 블록도를 도시한다.
도 33은 본 발명의 실시예들에 따른 하나보다 많은 코어를 가질 수 있고, 통합된 메모리 제어기를 가질 수 있고, 통합된 그래픽을 가질 수 있는 프로세서의 블록도이다.
도 34는 본 발명의 실시예에 따른 시스템의 블록도를 도시한다.
도 35는 본 발명의 실시예에 따른 제1의 보다 구체적인 예시적인 시스템의 블록도를 도시한다.
도 36은 본 발명의 실시예에 따른 제2의 보다 구체적인 예시적인 시스템의 블록도를 도시한다.
도 37은 본 발명의 실시예에 따른 SoC의 블록도를 도시한다.
도 38은 본 발명의 실시예들에 따른 소스 명령어 세트에서의 바이너리 명령어들을 타깃 명령어 세트에서의 바이너리 명령어들로 변환하기 위한 소프트웨어 명령어 변환기의 사용을 대조하는 블록도이다.
후속하는 설명에서는 다수의 특정 상세 내용이 개시된다. 그러나, 본 발명의 실시예들은 이러한 상세 내용 없이도 실시될 수 있다는 것이 이해된다. 다른 경우들에서, 공지된 회로들, 구조들, 및 기술들은 이 설명의 이해를 모호하게 하지 않기 위해 상세히 나타내어지지 않는다.
본 명세서에서 "일 실시예", "실시예", "예시적인 실시예" 등을 참조하는 것은 기술되는 실시예가 특별한 피처, 구조, 또는 특징을 포함할 수 있음을 나타내지만, 모든 실시예가 반드시 그 특별한 피처, 구조, 또는 특징을 포함하는 것은 아닐 수 있다. 또한, 이러한 구문들은 반드시 동일한 실시예를 지칭하는 것은 아니다. 더욱이, 특별한 피처, 구조, 또는 특징이 실시예와 연계하여 설명될 때, 이것은 명백히 기술되든지 아니든지 간에 그 외의 실시예들과 연계하여 그러한 피처, 구조, 또는 특징에 영향을 미치도록 본 기술 분야의 통상의 기술자의 지식 내에 있는 것으로 제시된다.
이 설명을 통해 데이터 추론 확장(DSX)이라고 하는 추론 실행의 기술이 상세히 설명된다. 이 설명에는 DSX 하드웨어와 DSX를 지원하는 새로운 명령어가 포함되어 있다.
DSX는 제한된 트랜잭션 메모리(restricted transactional memory)(RTM) 구현과 본질적으로 유사하지만 더 간단하다. 예를 들어, DSX 영역에는 암시된 펜스가 필요하지 않다. 오히려 통상의 로드/저장 순서화 규칙이 유지된다. 또한 DSX 영역은 프로세서에서 로드에 대한 원자적 동작(atomic behavior)을 강제하는 임의의 구성을 설정하지 않는 반면, RTM에서는 트랜잭션의 로드 및 저장이 원자적으로 처리된다(트랜잭션 완료시 커밋된다). 게다가, 로드들은 이들이 RTM에 있는 것처럼 버퍼링되지 않는다. 그러나 추론이 더 이상 필요하지 않을 때 스토어들은 즉시 버퍼링되고 커밋된다. 이들 스토어는 실시예에 따라 전용 추론 실행 스토리지 또는 공유된 레지스터들 또는 메모리 위치들에 버퍼링될 수 있다. 일부 실시예에서, 추론 벡터화는 단일 스레드에서만 발생하는데, 이는 다른 스레드로부터의 간섭을 보호할 필요가 없다는 것을 의미한다.
이전에 상세히 설명된 벡터화된 루프에서는, 안전을 위한 동적 체크가 필요할 것이다. 예를 들어, 주어진 벡터 반복에서 A에 기입하는 보증은 스칼라 루프에서, 차후 반복에서 판독되는 B 또는 C 내의 요소들과 중첩되지 않는다. 아래의 실시예는 추론의 사용을 통해 벡터화 케이스를 처리하는 것을 상세히 설명한다. 추론 버전은, 각각의 루프 반복이 추론적으로 실행되어야 함을 표시하며(예를 들어, 아래에 설명된 명령어들을 사용하여) 하드웨어가 어드레스 체크를 수행하는 데 도움이 되어야 함을 표시한다. 하드웨어에 의존하여 어드레스 체크를 단독으로 담당하는 대신에(이는 매우 고가의 하드웨어가 필요함), 상세한 접근법은 소프트웨어를 사용하여 하드웨어를 지원하는 정보를 제공하므로, 실행 시간에 영향을 미치지 않거나 프로그래머나 컴파일러에 과도한 부담을 주지 않으면서 훨씬 저렴한 하드웨어 솔루션을 가능하게 할 수 있다.
불행하게도, 벡터화를 사용하면 순서화 위반이 있을 수 있다. 위에 설명된 스칼라 루프 예를 다시 참조한다:
Figure pct00003
이 루프의 처음 네 번의 반복 동안, 후속 메모리 연산들은 다음과 같은 순서로 일어날 것이다:
Figure pct00004
동일한 어레이에 대한 액세스들 간의 거리(연산들의 수)는 3이고, 이는 또한 벡터화될 때(SIMD로 이루어질 때) 루프 내의 추론적 메모리 명령어들의 수이다. 그 거리는 "스트라이드(stride)"라고 불린다. 이것은 또한, 루프가 벡터화될 때 메모리 명령어들에 대해 수행되는 어드레스 체크를 가지게 될 루프 내의 메모리 명령어들의 수이다. 일부 실시예에서, 이 스트라이드는 루프의 시작에서 특수 명령어를 통해 어드레스 트래킹 하드웨어로 전달된다(후술됨). 일부 실시예에서, 해당 명령어는 또한 어드레스 트래킹 하드웨어를 클리어한다.
본 명세서에서는, 벡터화된 루프 실행과 같은 경우에 DSX에서 사용되는 새로운 명령어(DSX 메모리 명령어)가 상세히 설명된다. 각각의 DSX 메모리 명령어(예를 들어, 로드, 저장, 수집 및 스캐터)는 DSX 실행 내의 위치(예를 들어, 실행 중인 루프 내의 위치)를 표시하는 DSX 중에 사용될 피연산자를 포함한다. 일부 실시예에서, 피연산자는 즉치(즉, 8비트 즉치)이며, 즉치 내의 인코딩된 순서의 수치 값을 갖는다. 다른 실시예에서, 피연산자는 인코딩된 순서의 수치 값을 저장하는 레지스터 또는 메모리 위치이다.
게다가, 일부 실시예에서, 이들 명령어는 이들의 정상 카운터파트(normal counterpart)와는 상이한 오피코드를 갖는다. 이러한 명령어는 스칼라 또는 수퍼스칼라(예를 들어, SIMD 또는 MIMD)일 수 있다. 이러한 명령어들 중 일부의 예는, 오피코드의 니모닉(mneumonic)이 추론 버전임을 표시하는 "S"(아래에 밑줄 쳐 있음)를 포함하고 imm8이 실행의 위치(예를 들어, 실행 중인 루프 내의 위치)를 표시하는 데 사용되는 즉치 피연산자인 것으로 아래에서 찾아진다:
Figure pct00005
물론, 다른 명령어들은 또한 로직(AND, OR, XOR 등) 및 데이터 조작(덧셈, 뺄셈 등) 명령어들과 같은 상세한 피연산자 및 오피코드 니모닉(및 기저 오피코드(underlying opcode)) 변경을 이용할 수 있다.
상기 스칼라 예의 벡터화된 버전(4개의 패킹된 데이터 요소의 SIMD 폭을 가정 함)에서, 메모리 연산의 순서는 다음과 같다:
Figure pct00006
예를 들어 B[C[1]]가 A[0]과 중첩되는 경우 이 순서는 잘못된 실행으로 이어질 수 있다. 원래 스칼라 순서에서, B[C[1]]의 판독은 A[0]에 대한 기입 이후에 발생하지만 벡터화된 실행에서는 이전에 발생한다.
부정확한 실행을 초래할 수 있는 루프 내의 연산을 위한 추론 메모리 명령어를 사용하는 것은 이런 문제를 처리하는 데 도움이 된다. 후술되는 바와 같이, 각각의 추론 메모리 명령어는 DSX 트래킹 하드웨어(후술됨)에게 루프 바디 내의 위치를 통지한다:
Figure pct00007
Figure pct00008
각각의 추론적 메모리 연산에 의해 제공된 루프 위치 정보는 스트라이드와 결합되어 스칼라 메모리 연산을 재구성할 수 있다. 추론 메모리 명령어가 실행되면, 식별자(id)는 각각의 요소에 대한 DSX 하드웨어 트래커에 의해 계산된다(id = 시퀀스 번호 + SIMD 연산 내의 스트라이드 * 요소 번호). 하드웨어 트래커는 시퀀스 번호, 계산된 id, 및 각각의 패킹된 데이터 요소의 어드레스 및 사이즈를 사용하여 순서화 위반이 있는지(즉, 요소가 다른 요소와 중첩되고 비순차로 판독 또는 기입되는지)를 결정한다.
각각의 벡터 메모리 명령어를 포함하는 개별적인 메모리 연산들을 언롤링하고, 언롤링마다 스트라이드를 누산하고, 최종 숫자들을 "ids"로서 할당하는 것은 다음과 같은 결과를 초래한다:
Figure pct00009
id에 의한 상기 개별적인 메모리 연산들의 소팅은 원래의 스칼라 메모리 순서화를 재구성할 것이다.
도 1은 하드웨어에서 데이터 추론 확장(DSX)을 실행할 수 있는 프로세서 코어의 예시적인 블록도의 실시예이다.
프로세서 코어(106)는 코어(106)에 의한 실행을 위한 명령어들을 페치하는 페치 유닛(102)을 포함할 수 있다. 예를 들어, 명령어들은 L1 캐시 또는 메모리로부터 페치될 수 있다. 코어(106)는 또한 이하에서 설명되는 것들을 포함하는 페치된 명령어를 디코딩하는 디코드 유닛(104)을 포함할 수 있다. 예를 들어, 디코드 유닛(104)은 페치된 명령어를 복수의 마이크로-연산들(마이크로-ops)로 디코딩할 수 있다.
게다가, 코어(106)는 스케줄 유닛(107)을 포함할 수 있다. 스케줄 유닛(107)은, 명령어들이 디스패치(dispatch)를 위해 준비될 때까지, 예를 들어 디코딩된 명령어의 피연산자들로부터의 모든 소스 값들이 이용 가능하게 될 때까지, 디코딩된 명령어들(예를 들어, 디코드 유닛(104)으로부터 수신됨)을 저장하는 것과 연관되는 다양한 동작들을 수행할 수 있다. 일 실시예에서, 스케줄 유닛(107)은 실행을 위한 하나 이상의 실행 유닛(108)에 디코딩된 명령어를 스케줄링 및/또는 발행(또는 디스패치) 할 수 있다. 실행 유닛(108)은 메모리 실행 유닛, 정수 실행 유닛, 부동 소수점 실행 유닛, 또는 다른 실행 유닛을 포함할 수 있다. 리타이어먼트 유닛(110)은 명령어들이 커밋된 후에 실행된 명령어들을 리타이어할 수 있다. 일 실시예에서, 실행된 명령어들의 리타이어먼트는 결과적으로, 프로세서 상태가 명령어들의 실행으로부터 커밋되고, 명령어들에 의해 사용된 물리적 레지스터들이 할당 해제되는(de-allocated) 등등을 야기할 수 있다.
메모리 순서 버퍼(memory order buffer)(MOB)(118)는 로드 버퍼, 저장 버퍼 및 메인 메모리에 로딩되거나 라이트백되지 않은 펜딩 메모리 연산을 저장하는 로직을 포함할 수 있다. 일부 실시예에서, MOB(118) 또는 이와 유사한 회로는 DSX 영역의 추론 스토어(기입)을 저장한다. 다양한 실시예에서, 코어는 로컬 캐시, 예를 들어 하나 이상의 캐시 라인(124)(예를 들어, 캐시 라인 0 내지 W를 포함할 수 있고 캐시 회로(139)에 의해 관리됨)을 포함할 수 있는 캐시(116)와 같은 프라이빗 캐시(private cache)를 포함할 수 있다. 실시예에서, 캐시(116)의 각 라인은 코어(106) 상에서 실행하는 각각의 스레드에 대한 DSX 판독 비트(126) 및/또는 DSX 기입 비트(128)를 포함할 수 있다. 비트들(126 및 128)은 DSX 메모리 액세스 요청에 의해 대응하는 캐시 라인에 대한 액세스를 표시(로드 및/또는 저장)하도록 설정되거나 클리어될 수 있다. 도 1의 실시예에서, 각각의 캐시 라인(124)은 각각의 비트(126 및 128)를 갖는 것으로 도시되어 있지만, 다른 구성도 가능함에 유의한다. 예를 들어, DSX 판독 비트(126)(또는 DSX 기입 비트(128))는 캐시 블록 또는 캐시(116)의 다른 부분과 같은 캐시(116)의 선택 부분에 대응할 수 있다. 또한, 비트들(126 및/또는 128)은 캐시(116) 이외의 위치에 저장될 수 있다.
DSX 연산을 실행하는데 도움을 주기 위해, 코어(106)는 일치하는 DSX 종료 없이 마주치는 DSX 시작의 수에 대응하는 값을 저장하는 DSX 네스트 카운터(130)를 포함할 수 있다. 카운터(130)는 메모리(예를 들어, 시스템 메모리 또는 캐시(116))에 저장된 하드웨어 레지스터 또는 변수와 같은 임의의 타입의 스토리지 디바이스로서 구현될 수 있다. 코어(106)는 또한 카운터(130)에 저장된 값을 업데이트하기 위한 DSX 네스트 카운터 회로(132)를 포함할 수 있다. 코어(106)는 코어(106)의 다양한 컴포넌트의 상태를 체크 포인트(또는 저장)하기 위한 DSX 체크 포인팅 회로(134), 및 코어(106)의 다양한 컴포넌트의 상태를 복원하는, 예를 들어 주어진 DSX의 중단시에 그것이 레지스터(140)와 같은 다른 위치에 저장하거나 저장되는 폴백 어드레스(fallback address)를 사용하는 DSX 복원 회로(136)를 포함할 수 있다. 게다가, 코어(106)는 DSX가 활성인지에 대한 표시를 저장하기 위한 DSX 상태 및 제어 레지스터(DSXSR), DSX 명령어 포인터(DSXXIP)(예를 들어, 대응하는 DSX의 시작(또는 바로 이전)에 있는 명령어에 대한 명령어 포인터일 수 있음), 및/또는 DSX 스택 포인터(DSXSP)(예를 들어, 코어(106)의 하나 이상의 컴포넌트의 다양한 상태를 저장하는 스택의 헤드에 대한 스택 포인터일 수 있음)와 같은, 다양한 DSX 메모리 액세스 요청에 대응하는 하나 이상의 추가 레지스터(140)를 포함할 수 있다. 이들 레지스터는 또한 MSRs(150)일 수 있다.
DSX 어드레스 트래킹 하드웨어(152)(간단히 DSX 트래킹 하드웨어라고도 함)는 추론 메모리 액세스를 트래킹하고 DSX에서의 순서화 위반을 검출한다. 특히, 이런 트래킹 하드웨어(152)는 원래의 스칼라 메모리 순서를 재구성한 후 시행하기 위한 정보를 취하는 어드레스 트래커(address tracker)를 포함한다. 전형적으로, 입력들은 트래킹될 필요가 있는 루프 바디 내의 추론 메모리 명령어들의 수와, 다음과 같은 이러한 명령어들 각각에 대한 일부 정보이다: (1) 시퀀스 번호, (2) 명령어가 액세스하는 어드레스들, 및 (3) 명령어가 메모리에 대한 판독 또는 기입을 초래하는지 여부. 2개의 추론 메모리 명령어가 메모리의 중첩 부분에 액세스하는 경우, 하드웨어 트래커(152)는 이 정보를 사용하여 메모리 연산의 원래 스칼라 순서가 변경되었는지를 결정한다. 만약 그렇고, 어느 쪽의 연산이 기입인 경우, 하드웨어는 추론 오류를 트리거한다. 도 1은 DSX 트래킹 하드웨어(152)를 단독으로 도시하고 있지만, 일부 실시예에서는 이 하드웨어가 다른 코어 컴포넌트의 일부이다.
도 2는 실시예에 따른 추론 명령어 실행의 예를 도시한다. 201에서, 추론 명령어가 페치된다. 예를 들어, 상술한 바와 같은 추론 메모리 명령어가 페치된다. 일부 실시예에서, 이런 명령어는 그 추론 속성을 표시하는 오피코드 및 DSX에 순서화를 표시하기 위한 피연산자를 포함한다. 순서화 피연산자는 즉치 값 또는 레지스터/메모리 위치일 수 있다.
페치된 추론 명령어는 203에서 디코딩된다.
디코딩된 추론 명령어가 DSX의 일부인지에 대한 결정은 205에서 이루어진다. 예를 들어, 상술한 DSX 상태 및 제어 레지스터(DSXSR)에 DSX가 표시되었는가?. DSX가 활성이 아닐 때, 명령어는 실시예에 따라 무연산(nop)이 되거나 207에서 정상, 비추론 명령어로서 실행된다.
DSX가 활성일 때, 209에서 추론 명령어는 추론적으로 실행되고(예를 들어, 커밋되지 않고) DSX 트래킹 하드웨어는 업데이트된다.
도 3은 DSX 어드레스 트래킹 하드웨어의 상세한 실시예를 도시한다. 이 하드웨어는 추론 메모리 인스턴스를 트래킹한다. 전형적으로, DSX 트래킹 하드웨어에 의해 분석된 요소(예를 들어, SIMD 요소)는 사이즈가 "B" 바이트 이하인 청크라고 불리는 부분으로 분할된다.
시프팅 회로(301)는 청크의 어드레스(예를 들어, 시작 어드레스)를 시프트한다. 대부분의 실시예에서, 시프팅 회로(301)는 우측 시프트를 수행한다. 전형적으로, 우측 시프트는 log2B만큼이다. 시프트된 어드레스는 해시 함수 유닛 회로(303)에 의해 수행되는 해시 함수에 종속된다.
해시 함수의 출력은 해시 테이블(305)에 대한 인덱스이다. 예시된 바와 같이, 해시 테이블(305)은 복수의 버킷(307)을 포함한다. 일부 실시예에서, 해시 테이블(305)은 블룸 필터(Bloom filter)이다. 해시 테이블(305)은 추론 오류를 검출하고, 추론적으로 액세스된 데이터의 어드레스들, 액세스 타입, 시퀀스 번호들 및 id 번호들을 기록하는 데 사용된다. 해시 테이블(305)은 N 개의 "세트"를 포함하고 각각의 세트는 M 개의 엔트리(309)를 포함한다. 각각의 엔트리(309)는 이전에 실행된 추론 메모리 명령어의 요소에 대한 유효 비트, 시퀀스 번호, id 번호 및 액세스 타입을 유지한다. 일부 실시예에서, 각각의 엔트리(309)는 또한 대응하는 어드레스(도면에서 점선 박스로 도시됨)를 포함한다. DSX 개시 명령어(예를 들어, YBEGIN 및 이하에 설명되는 변형들)에 대해서는, 모든 유효 비트들이 클리어되고 "추론 활성" 플래그가 설정되며, DSX를 종료하는 명령어에 대해서는, 추론 활성 플래그가 클리어된다.
충돌 체크 회로(311)는 테스트중인 요소(또는 그 청크)(315)에 대한 엔트리(309)마다 충돌을 체크한다. 일부 실시예에서, 엔트리(309)가 유효하고, i) 엔트리(309) 내의 액세스 타입이 기입인 것 또는 ⅱ) 테스트중인 액세스 타입이 기입인 것 중 적어도 하나가, 다음 중 하나와 함께 있을 때 충돌이 존재한다: i) 테스트중인 요소(315)의 시퀀스 번호보다 작은 엔트리(309) 내의 시퀀스 번호, 및 테스트중인 요소(315)의 id 번호보다 큰 엔트리(309) 내의 id 번호, 또는 ⅱ) 테스트중인 요소(315)의 시퀀스 번호보다 큰 엔트리(309) 내의 시퀀스 번호 및 테스트중인 요소(315)의 id 번호보다 작은 엔트리(309) 내의 id 번호.
즉, 다음과 같을 때 충돌이 존재한다:
Figure pct00010
대부분의 실시예들에서는, 어드레스 중첩에 대한 테스트가 존재하지 않는다. 이 중첩은 해시 테이블에서 엔트리를 히트하는 것으로부터 암시된다. 히트는 해쉬 함수 및/또는 매우 코스-그레인드(coarse-grained)(즉, B가 너무 큼)한 체크로부터의 에일리어싱(aliasing)로 인해 어드레스 중첩이 없는 경우에 발생할 수 있다. 그러나 어드레스 중첩이 존재할 때 히트가 존재할 것이다. 따라서 정확성은 보장되지만 긍정 오류(false positive)가 있을 수 있다(즉, 하드웨어는 이것이 없는 곳에서 추론 오류를 검출할 수 있다). 일 실시예에서, 청크 어드레스는 각각의 엔트리(309)에 저장되고, 추론 오류에 대한 테스팅을 위한 추가 조건이 적용되고(즉, 상기 조건과 논리적으로 AND하고), 여기서 엔트리(309) 내의 어드레스는 테스트중인 요소(315) 내의 어드레스와 동일하다.
OR 게이트(313)(또는 등가물)는 충돌 체크의 결과를 논리적으로 OR한다. ORing의 결과가 1일 때, 추론 오류가 발생했을 가능성이 있으며, OR 게이트(313)는 그 출력으로 이를 표시한다.
이 실시예의 총 스토리지는 M * N 개의 엔트리이다. 이는 M * N까지 추론적으로 액세스된 데이터 요소를 트래킹할 수 있음을 의미한다. 그러나 실제로 루프는 N 개의 세트 중 일부에 대한 액세스가 다른 것보다 더 많을 수 있다. 임의의 세트 내의 공간이 모두 소모된다면, 일부 실시예에서는 정확성을 보장하기 위해 추론 오류가 트리거된다. M을 늘리면 이 문제는 해결되지만, 충돌 체킹 하드웨어의 더 많은 카피가 존재하게 강제할 수 있다. (일부 실시예에서 행해지듯이) 모든 M 충돌 체크를 동시에 수행하기 위해서, 충돌 체킹 로직의 M개의 카피가 존재한다.
특정 방식으로 B, N, M 및 해시 함수를 선택하는 것은, 구조체가 LI 데이터 캐시와 매우 유사한 방식으로 조직되게 허용한다. 특히, B를 캐시 라인 사이즈라고 하고, N을 LI 데이터 캐시 내의 세트들의 수라고 하고, M을 LI 데이터 캐시의 연관성(associativity)이라고 하고, 해시 함수를 어드레스의 최하위 비트(우측 시프트 이후)라고 한다. 이 구조체는 LI 데이터 캐시와 동일한 수의 엔트리 및 조직을 가지므로 구현을 단순화할 수 있다.
마지막으로, 대안의 실시예는 액세스 타입 정보를 저장할 필요가 없고, 충돌 체크 동안 액세스 타입을 체크할 필요가 없도록, 판독 및 기입을 위한 별개의 블룸 필터들을 사용한다는 점에 유의한다. 오히려, 판독에 대해, 실시예는 "기입" 필터에 대해서만 충돌 체크를 수행하고, 추론 오류가 없는 경우, 요소를 "판독" 필터에 삽입한다. 유사하게, 기입에 대해, 실시예는 "판독" 및 "기입" 필터 모두에 대해 충돌 체크를 수행하고, 추론 오류가 없는 경우, 요소를 "기입" 필터에 삽입한다.
도 4는 DSX 트래킹 하드웨어에 의해 수행되는 DSX 추론 오류 검출의 예시적인 방법을 도시한다. 401에서는 DSX가 시작되거나 이전의 추론 반복이 커밋된다. 예를 들어, YBEGIN 명령어가 실행된다. 이 명령어의 실행은 엔트리들(309)에서 유효 비트를 클리어하고, 상태 레지스터(예를 들어, 이전에 상세히 설명한 DSX 상태 레지스터)에 추론 활성 플래그를 설정한다(아직 설정되지 않은 경우). 추론 메모리 명령어는 DSX가 시작된 후에 실행되며 테스트중인 데이터 요소를 제공한다.
403에서, 추론 메모리 명령어로부터 테스트중인 데이터 요소는 B 바이트 이하의 청크들로 분할된다. 해시 테이블은 B 바이트의 세분성(granularity)에서 액세스된다(즉, 어드레스의 하위 비트는 폐기된다). 요소들이 충분히 크고/크거나 정렬되지 않은 경우, 이들은 B 바이트 경계를 넘을 수 있으며, 그렇다면 요소가 다수의 청크로 분할된다.
청크마다, 다음의 것(405-421)이 수행된다. 청크의 시작 어드레스는 log2B만큼 우측으로 시프트된다. 시프트된 어드레스는 407에서 해시되어 인덱스 값을 생성한다.
인덱스 값을 사용하여, 409에서 해시 테이블의 대응하는 세트의 룩업(look-up)이 이루어지고, 세트의 모든 엔트리가 411에서 판독된다.
각각의 판독된 엔트리에 대해, 413에서 테스트중인 요소에 대한 충돌 체크(위에서 설명한 바와 같은)가 수행된다. 모든 충돌 체크의 ORing은 415에서 수행된다. 임의의 체크가 417에서 충돌을 표시하는 경우(따라서, OR이 1인 경우), 419에서 추론 오류의 표시가 이루어진다. DSX는 전형적으로 이 시점에서 중단된다. 추론 오류가 없다면, 421에서, 세트 내의 무효 엔트리는 찾아지고 테스트중인 요소에 대한 정보로 채워지고 유효하다고 마킹된다. 무효 엔트리가 존재하지 않으면 추론 오류가 트리거된다.
도 5(a)-(b)는 DSX 트래킹 하드웨어에 의해 수행된 DSX 추론 오류 검출의 예시적인 방법을 도시한다. 501에서는 DSX가 시작되거나 이전의 추론 반복이 커밋된다. 예를 들어, YBEGIN 명령어가 실행된다.
이 명령어의 실행은 엔트리들(309)에서 유효 비트를 클리어함으로써 트래킹 하드웨어를 리셋하고 503에서 상태 레지스터(예를 들어, 이전에 상세히 설명한 DSX 상태 레지스터)에 추론 활성 플래그를 설정한다(아직 설정되지 않은 경우).
505에서, 추론 메모리 명령어가 실행된다. 이들 명령어의 예는 위에 자세히 설명되어 있다. 추론 명령어로부터 테스트중인 요소 번호(e)인 카운터는 507에서 0으로 설정되고, id는 509에서 계산된다(id = 시퀀스 번호 + 스트라이드 * e).
임의의 이전 기입이 카운터 값(e)과 중첩되는지에 대한 결정은 511에서 이루어진다. 이것은 이전의 스토어들(기입들)에 대한 종속성 체크로서 작용한다. 임의의 중첩 기입에 대해, 513에서 충돌 체크가 수행된다. 일부 실시예에서, 이런 충돌 체크는, i) 엔트리(309) 내의 시퀀스 번호가 테스트중인 요소(315)의 시퀀스 번호보다 작고, 엔트리(309) 내의 id 번호가 테스트중인 요소(315)의 id 번호보다 큰지, 또는 ⅱ) 엔트리(309) 내의 시퀀스 번호가 테스트중인 요소(315)의 시퀀스 번호보다 크고, 엔트리(309) 내의 id 번호가 테스트중인 요소(315)의 id 번호보다 작은지를 알기 위한 것이다.
충돌이 존재한다면, 515에서 추론 오류가 트리거된다. 그렇지 않거나 중첩된 이전 기입들이 없는 경우, 추론 메모리 명령어가 기입인지에 대한 결정은 517에서 이루어진다.
예이면, 519에서 카운터 값 e와의 임의의 이전 판독 중첩의 결정이 이루어진다. 이것은 이전 로드(판독)들에 대한 종속성 체크로서 작용한다. 임의의 중첩하는 판독들에 대해, 521에서 충돌 체크가 수행된다. 일부 실시예에서, 이런 충돌 체크는, i) 엔트리(309) 내의 시퀀스 번호가 테스트중인 요소(315)의 시퀀스 번호보다 작고, 엔트리(309) 내의 id 번호가 테스트중인 요소(315)의 id 번호보다 큰지, 또는 ⅱ) 엔트리(309) 내의 시퀀스 번호가 테스트중인 요소(315)의 시퀀스 번호보다 크고, 엔트리(309) 내의 id 번호가 테스트중인 요소(315)의 id 번호보다 작은지를 알기 위한 것이다.
충돌이 존재한다면, 523에서 추론 오류가 트리거된다. 그렇지 않거나 중첩된 이전 기입들이 없는 경우, 카운터 e가 525에서 증분된다.
카운터 e가 추론 메모리 명령어 내의 요소들의 수와 동일한지에 대한 결정은 526에서 이루어진다. 즉, 모든 요소가 평가되었는가?. 아니오이면, 509에서 다른 id가 계산된다. 예이면, 하드웨어는 527에서 다른 명령어가 실행될 때까지 대기한다. 다음 명령어가 다른 추론 메모리 명령어인 경우, 카운터는 507에서 리셋된다. 다음 명령어가 YBEGIN일 때, 하드웨어는 503에서 리셋된다. 다음 명령어가 YEND일 때, DSX는 529에서 디스에이블된다.
YBEGIN 명령어
도 6은 DSX를 시작하기 위한 명령어의 실행의 실시예를 도시한다. 본 명세서에서 설명되는 바와 같이, 이 명령어는 "YBEGIN"으로 지칭되며 DSX 영역의 시작을 시그널링하는 데 사용된다. 물론, 그 명령어는 다른 이름으로 지칭될 수 있다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
601에서, YBEGIN 명령어가 수신/페치된다. 예를 들어, 명령어는 메모리로부터 명령어 캐시로 페치되거나 명령어 캐시로부터 페치된다. 페치된 명령어는 아래에 설명된 것처럼 여러 형태 중 하나를 취할 수 있다.
도 7은 YBEGIN 명령어 포맷의 일부 예시적인 실시예를 도시한다. 일 실시예에서, YBEGIN 명령어는 701에 도시된 바와 같이, 오피코드(YBEGIN), 및 프로그램 실행이 추론 오류를 처리하기 위해 가야 하는 폴백 어드레스에 대한 변위를 제공하기 위한 단일 피연산자를 포함한다. 본질적으로, 변위 값은 폴백 어드레스의 일부이다. 일부 일부 실시예에서, 이 변위 값은 즉치 피연산자로서 제공된다. 다른 실시예에서, 이 변위 값은 레지스터 또는 메모리 위치 피연산자에 저장된다. DSX 상태 레지스터에 대한 YBEGIN 구현 암시적 피연산자에 따라, 네스팅 카운트 레지스터 및/또는 RTM 상태 레지스터가 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다.
다른 실시예에서, YBEGIN 명령어는 오피코드 및 변위 피연산자뿐만 아니라 703에 도시된 DSX 상태 레지스터와 같은 DSX 상태에 대한 명시적 피연산자를 포함한다. YBEGIN 구현에 따라, 네스팅 카운트 레지스터 및/또는 RTM 상태 레지스터에 대한 암시적 피연산자들이 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다.
또 다른 실시예에서, YBEGIN 명령어는 오피코드 및 변위 피연산자뿐만 아니라 705에 도시된 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다. YBEGIN 구현에 따라, DSX 상태 레지스터 및/또는 RTM 상태 레지스터에 대한 암시적 피연산자들이 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다.
또 다른 실시예에서, YBEGIN 명령어는 오피코드 및 변위 피연산자뿐만 아니라 707에 도시된, DSX 상태 레지스터와 같은 DSX 상태, 및 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자들을 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있고, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다. YBEGIN 구현에 따라, RTM 상태 레지스터에 대한 암시적 피연산자가 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다.
또 다른 실시예에서, YBEGIN 명령어는 오피코드 및 변위 피연산자뿐만 아니라 709에 도시된, DSX 상태 레지스터와 같은 DSX 상태, DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트, 및 RTM 상태에 대한 명시적 피연산자들을 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등일 수 있고, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다.
물론 YBEGIN의 다른 변형도 가능하다. 예를 들어, 변위 값을 제공하는 대신 명령어는 즉치, 레지스터 또는 메모리 위치 중 어느 하나에 폴백 어드레스 자체를 포함한다.
도 6을 다시 참조하면, 페치된/수신된 YBEGIN 명령어는 603에서 디코딩된다. 일부 실시예에서, 명령어는 후술되는 바와 같은 하드웨어 디코더에 의해 디코딩된다. 일부 실시예에서, 명령어는 마이크로-연산들(마이크로-ops)로 디코딩된다. 예를 들어, 일부 CISC 기반 머신은 전형적으로 매크로 명령어로부터 도출된 마이크로 연산들을 사용한다. 다른 실시예에서, 디코딩은 적시 컴파일(just in time compilation)과 같은 소프트웨어 루틴의 일부이다.
605에서, 디코딩된 명령어와 연관된 임의의 피연산자가 검색된다. 예를 들어, DSX 레지스터, DSX 네스트 카운트 레지스터 및/또는 RTM 상태 레지스터 중 하나 이상으로부터 데이터가 검색된다.
디코딩된 YBEGIN 명령어는 607에서 실행된다. 명령어가 마이크로-ops로 디코딩되는 실시예에서, 이들 마이크로-ops가 실행된다. 디코딩된 명령어의 실행은 하드웨어로 하여금 다음 동작 중 하나 이상이 수행되게 한다: 1) RTM 트랜잭션이 활성인 것을 결정하고 해당 트랜잭션을 계속하는 동작; 2) YBEGIN 명령어의 명령어 포인터에 부가된 변위 값을 사용하여 폴백 어드레스를 계산하는 동작; 3) DSX 네스팅 카운트를 증분하는 동작; 4) 중단 동작; 5) DSX 상태를 활성으로 설정하는 동작; 및/또는 6) DSX 트래킹 하드웨어를 리셋하는 동작.
전형적으로, YBEGIN 명령어의 인스턴스에서, 활성 RTM 트랜잭션이 존재하지 않는 경우, DSX 상태는 활성으로 설정되고, DSX 네스트 카운트는 증분되고(카운트가 최대치보다 작으면), DSX 트래킹 하드웨어는 리셋되고(예를 들어, 상술한 바와 같이), 폴백 어드레스는 DSX 영역을 시작하기 위해 변위 값을 사용하여 계산된다. 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. DSX 트래킹 하드웨어 리셋에 대해서도 이전에 설명했다. 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나, 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 이 레지스터는, DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다.
DSX가 시작될 수 없는 어떤 이유가 있다면, 하나 이상의 다른 잠재적인 동작이 발생한다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성인 경우, DSX가 먼저 활성이 되어서는 안 되고 RTM이 추구된다. 처음에 DSX의 셋업에 문제가 있는 경우(네스트 카운트가 올바르지 않은 경우), 중단이 발생할 것이다. 게다가, 일부 실시예에서, DSX가 존재하지 않는 경우, 결함이 생성되고 무연산(NOP)이 수행된다. 어떤 동작이 수행되었는지에 관계없이, 대부분의 실시예에서, 해당 동작 이후에 DSX 상태는 펜딩 중인 DSX가 없음을 표시하기 위해 리셋된다(설정되었던 경우).
도 8은 YBEGIN 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다. 예를 들어, 일부 실시예에서, 이러한 흐름은 도 6의 박스(607)이다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
일부 실시예에서, 예를 들어 RTM 트랜잭션을 지원하는 프로세서에서, RTM 트랜잭션이 발생했는지에 대한 결정은 801에서 이루어진다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성인 경우, DSX가 먼저 활성이 되어서는 안 된다. 이 경우 RTM 트랜잭션에서 문제가 발생되고 그 종료 프로시저가 활성화되어야 한다. 전형적으로, RTM 트랜잭션 상태는 RTM 제어 및 상태 레지스터와 같은 레지스터에 저장된다. 프로세서의 하드웨어는 이 레지스터의 내용을 평가하여 RTM 트랜잭션이 발생하는지를 결정한다. RTM 트랜잭션이 발생하고 있을 때, RTM 트랜잭션은 803에서 처리를 계속한다.
RTM 트랜잭션이 발생하지 않거나 RTM이 지원되지 않을 때, 현재 DSX 네스트 카운트가 최대 네스트 카운트보다 작은지에 대한 결정은 805에서 이루어진다. 일부 실시예에서, 현재 네스트 카운트를 저장하는 네스트 카운트 레지스터는 YBEGIN 명령어에 의해 피연산자로서 제공된다. 대안적으로, 전용 네스트 카운트 레지스터는 현재 네스트 카운트를 저장하는데 사용되는 하드웨어에 존재할 수 있다. 최대 네스트 카운트는 대응하는 DSX 종료 없이(예를 들어, YEND 명령어를 통해) 발생할 수 있는 (예를 들어, YBEGIN 명령어를 통한) DSX 시작들의 최대 수이다.
현재의 DSX 네스트 카운트가 최대치보다 클 때, 중단이 807에서 발생한다. 일부 실시예에서, 중단은 DSX 복원 회로(135)와 같은 복원 회로를 사용하여 롤백을 트리거한다. 다른 실시예에서, YABORT 명령어는 아래에 상세히 설명된 바와 같이 실행되어, 폴백 어드레스에 대한 롤백을 수행할 뿐만 아니라 추론적으로 저장된 기입들을 폐기하고 현재 네스트 카운트를 리셋하고 DSX 상태를 비활성으로 설정한다. 위에서 자세히 설명한 바와 같이, DSX 상태는 전형적으로 도 1에 도시된 DSX 상태 및 제어 레지스터(DSXSR)와 같은 제어 레지스터에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다.
현재 네스트 카운트가 최대치보다 크지 않을 때, 현재 DSX 네스트 카운트는 809에서 증분된다.
현재 DSX 네스트 카운트가 1과 동일한지에 대한 결정은 811에서 이루어진다. 그것이 존재할 때, 일부 실시예에서, 폴백 어드레스는 813에서 YBEGIN 명령어에 의해 제공된 변위 값을 YBEGIN 명령에 후속하는 명령어의 어드레스에 가산함으로써 계산된다. YBEGIN 명령어가 폴백 어드레스를 제공하는 실시예에서, 이 계산은 필요하지 않다.
815에서, DSX 상태는 활성으로 설정되고(필요하다면), DSX 트래킹 하드웨어는 리셋된다(예를 들어, 상술한 바와 같이). 예를 들어, 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 이 레지스터는 DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다.
도 9는 YBEGIN 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
YBEGIN WITH STRIDE 명령어
도 10은 DSX를 시작하기 위한 명령어의 실행의 실시예를 도시한다. 본 명세서에서 설명되는 바와 같이, 이 명령어는 "YBEGIN WITH STRIDE"로 지칭되며 DSX 영역의 시작을 시그널링하는 데 사용된다. 물론, 그 명령어는 다른 이름으로 지칭될 수 있다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
1001에서, YBEGIN WITH STRIDE 명령어가 수신/페치된다. 예를 들어, 명령어는 메모리로부터 명령어 캐시로 페치되거나 명령어 캐시로부터 페치된다. 페치된 명령어는 아래에 설명된 것처럼 여러 가지 형태 중 하나를 취할 수 있다.
도 11은 YBEGIN WITH STRIDE 명령어 포맷의 일부 예시적인 실시예를 도시한다. 일 실시예에서, YBEGIN WITH STRIDE 명령어는 1101에 도시된 바와 같이 프로그램 실행이 추론 오류 및 스트라이드 값 피연산자를 처리하기 위해 가야 하는 폴백 어드레스에 대한 변위를 제공하기 위한 피연산자, 및 오피코드(YBEGIN WITH STRIDE)를 포함한다. 본질적으로 변위는 폴백 어드레스의 일부이다. 일부 실시예에서, 변위는 즉치 피연산자로서 제공된다. 다른 실시예에서, 변위 값은 레지스터 또는 메모리 위치 피연산자에 저장된다. 일부 실시예에서, 스트라이드는 즉치 피연산자로서 제공된다. 다른 실시예에서, 스트라이드는 레지스터 또는 메모리 위치 피연산자에 저장된다. YBEGIN WITH STRIDE 구현에 따라, DSX 상태 레지스터, 네스팅 카운트 레지스터 및/또는 RTM 상태 레지스터에 대한 암시적 피연산자들이 사용된다.
또 다른 실시예에서, YBEGIN WITH STRIDE 명령어는 오피코드, 변위 피연산자 및 스트라이드 값 피연산자뿐만 아니라, 1103에 도시된 바와 같은 DSX 상태 레지스터와 같은 DSX 상태에 대한 명시적 피연산자를 포함한다. 일부 실시예에서, 변위는 즉치 피연산자로서 제공된다. 다른 실시예에서, 변위 값은 레지스터 또는 메모리 위치 피연산자에 저장된다. 일부 실시예에서, 스트라이드는 즉치 피연산자로서 제공된다. 다른 실시예에서, 스트라이드는 레지스터 또는 메모리 위치 피연산자에 저장된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다. YBEGIN WITH STRIDE 구현에 따라, 네스팅 카운트 레지스터 및/또는 RTM 상태 레지스터에 대한 암시적 피연산자들이 사용된다.
또 다른 실시예에서, YBEGIN WITH STRIDE 명령어는 오피 코드, 변위 피연산자, 스트라이드 값 피연산자 및 스트라이드 값 피연산자뿐만 아니라, 1105에 도시된 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자를 포함한다. 일부 실시예에서, 변위는 즉치 피연산자로서 제공된다. 다른 실시예에서, 변위 값은 레지스터 또는 메모리 위치 피연산자에 저장된다. 일부 실시예에서, 스트라이드는 즉치 피연산자로서 제공된다. 다른 실시예에서, 스트라이드는 레지스터 또는 메모리 위치 피연산자에 저장된다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다. YBEGIN WITH STRIDE 구현에 따라, DSX 상태 레지스터 및/또는 RTM 상태 레지스터에 대한 암시적 피연산자들이 사용된다.
또 다른 실시예에서, YBEGIN WITH STRIDE 명령어는 오피코드, 변위 피연산자 및 스트라이드 값 피연산자뿐만 아니라 1107에 도시된, DSX 상태 레지스터와 같은 DSX 상태 및 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자들을 포함한다. 일부 실시예에서, 변위는 즉치 피연산자로서 제공된다. 다른 실시예에서, 변위 값은 레지스터 또는 메모리 위치 피연산자에 저장된다. 일부 실시예에서, 스트라이드는 즉치 피연산자로서 제공된다. 다른 실시예에서, 스트라이드는 레지스터 또는 메모리 위치 피연산자에 저장된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있고, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다. YBEGIN WITH STRIDE 구현에 따라, RTM 상태 레지스터에 대한 암시적 피연산자가 사용된다.
또 다른 실시예에서, YBEGIN WITH STRIDE 명령어는 오피코드, 변위 피연산자 및 스트라이드 값 피연산자를 포함할 뿐만 아니라 409에 도시된, DSX 상태 레지스터와 같은 DSX 상태, DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트, 및 RTM 상태 레지스터를 포함한다. 일부 실시예에서, 변위는 즉치 피연산자로서 제공된다. 다른 실시예에서, 변위 값은 레지스터 또는 메모리 위치 피연산자에 저장된다. 일부 실시예에서, 스트라이드는 즉치 피연산자로서 제공된다. 다른 실시예에서, 스트라이드는 레지스터 또는 메모리 위치 피연산자에 저장된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있고, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다.
물론 YBEGIN WITH STRIDE의 다른 변형도 가능하다. 예를 들어, 변위 값을 제공하는 대신 명령어는 즉치, 레지스터 또는 메모리 위치 중 어느 하나에 폴백 어드레스 자체를 포함한다.
도 10을 다시 참조하면, 페치된/수신된 YBEGIN WITH STRIDE 명령어는 1003에서 디코딩된다. 일부 실시예에서, 명령어는 후술하는 바와 같은 하드웨어 디코더에 의해 디코딩된다. 일부 실시예에서, 명령어는 마이크로-연산들(마이크로-ops)로 디코딩된다. 예를 들어, 일부 CISC 기반 머신은 전형적으로 매크로 명령어로부터 도출된 마이크로 연산들을 사용한다. 다른 실시예에서, 디코딩은 적시 컴파일과 같은 소프트웨어 루틴의 일부이다.
1005에서, 디코딩된 YBEGIN WITH STRIDE 명령어와 연관된 임의의 피연산자가 검색된다. 예를 들어, DSX 레지스터, DSX 네스트 카운트 레지스터 및/또는 RTM 상태 레지스터 중 하나 이상으로부터 데이터가 검색된다.
디코딩된 YBEGIN WITH STRIDE 명령어는 1007에서 실행된다. 명령어가 마이크로-ops로 디코딩되는 실시예에서, 이들 마이크로-ops가 실행된다. 디코딩된 명령어의 실행은 하드웨어로 하여금 다음의 동작들 중 하나 이상이 수행되게 한다: 1) RTM 트랜잭션이 활성인 것을 결정하고 해당 트랜잭션을 시작하는 동작; 2) YBEGIN WITH STRIDE 명령어의 명령어 포인터에 부가된 변위 값을 사용하여 폴백 어드레스를 계산하는 동작; 3) DSX 네스팅 카운트를 증분하는 동작; 4) 중단 동작; 5) DSX 상태를 활성으로 설정하는 동작; 6) DSX 트래킹 하드웨어 리셋하는 동작; 및/또는 7) 스트라이드 값을 DSX 하드웨어 트래커에 제공하는 동작.
전형적으로, YBEGIN WITH STRIDE 명령어의 제1 인스턴스에서, 활성 RTM 트랜잭션이 없는 경우, DSX 상태는 활성으로 설정되고, DSX 트래킹 하드웨어는 리셋되고(예를 들어, 제공된 스트라이드 값을 사용하여 위에 상세히 설명한 바와 같이), 폴백 어드레스는 DSX 영역을 시작하기 위해 변위 값을 사용하여 계산된다. 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. DSX 트래킹 하드웨어의 리셋에 대해서도 이전에 설명했다.
전형적으로, YBEGIN WITH STRIDE 명령어의 인스턴스에서, 활성 RTM 트랜잭션이 없는 경우, DSX 상태는 활성으로 설정되고, DSX 네스트 카운트는 증분되고(카운트가 최대치보다 작으면), DSX 트래킹 하드웨어는 리셋되고(예를 들어, 제공된 스트라이드를 사용하여 위에서 설명한 바와 같이), 폴백 어드레스는 DSX 영역을 시작하기 위해 변위 값을 사용하여 계산된다. 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. DSX 트래킹 하드웨어의 리셋에 대해서도 이전에 설명했다. 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 이 레지스터는 DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다.
DSX가 시작될 수 없는 어떤 이유가 있다면, 하나 이상의 다른 잠재적인 동작이 발생한다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성인 경우, DSX가 먼저 활성이 되어서는 안 되고 RTM이 추구된다. 처음에 DSX 설정에 문제가 있는 경우(네스팅 카운트가 올바르지 않은 경우), 중단이 발생할 것이다. 게다가, 일부 실시예에서, DSX가 존재하지 않으면, 결함이 생성되고 무연산(NOP)이 수행된다. 어떤 동작이 수행되었는지에 관계없이, 대부분의 실시예에서, 해당 동작 후에 DSX 상태는 펜딩 중인 DSX가 없음을 표시하기 위해 리셋된다(설정되었던 경우).
도 12는 YBEGIN WITH STRIDE 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다. 일부 실시예에서, 이러한 흐름은 도 10의 박스(1007)이다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
일부 실시예에서, 예를 들어, RTM 트랜잭션을 지원하는 프로세서에서, RTM 트랜잭션이 발생했는지에 대한 결정은 1201에서 이루어진다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성인 경우, DSX가 먼저 활성이 되어서는 안 된다. 이 경우 RTM 트랜잭션에서 문제가 발생하고 종료 프로시저가 활성화되어야 한다. 전형적으로, RTM 트랜잭션 상태는 RTM 제어 및 상태 레지스터와 같은 레지스터에 저장된다. 프로세서의 하드웨어는 이 레지스터의 내용을 평가하여 RTM 트랜잭션이 발생했는지를 결정한다. RTM 트랜잭션이 발생했을 때 RTM 트랜잭션은 1203을 처리하도록 계속된다.
RTM 트랜잭션이 발생하지 않거나 RTM이 지원되지 않을 때, 현재 DSX 네스트 카운트가 최대 네스트 카운트보다 작은지에 대한 결정은 1205에서 이루어진다. 일부 실시예에서, 현재 네스트 카운트를 저장하는 네스트 카운트 레지스터는 피연산자로서 YBEGIN WITH STRIDE 명령어에 의해 제공된다. 대안적으로, 전용 네스트 카운트 레지스터는 현재 네스트 카운트를 저장하는데 사용될 하드웨어에 존재할 수 있다. 최대 네스트 카운트는 대응하는 DSX 종료 없이(예를 들어, YEND 명령어를 통해) 발생할 수 있는 (예를 들어, YBEGIN 명령어를 통한) DSX 시작들의 최대 수이다.
현재 네스트 카운트가 최대치보다 클 때, 중단은 1207에서 발생한다. 일부 실시예에서, 중단은 롤백을 트리거한다. 다른 실시예에서, YABORT는 아래에 상세히 설명된 바와 같이 실행되어, 폴백 어드레스에 대한 롤백을 수행할 뿐만 아니라 추론적으로 저장된 기입들을 페기하고 현재 네스트 카운트를 리셋하고 DSX 상태를 비활성으로 설정한다. 위에서 자세히 설명한 바와 같이, DSX 상태는 전형적으로 도 1에 도시된 DSX 상태 및 제어 레지스터(DSXSR)와 같은 제어 레지스터에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다.
현재 네스트 카운트가 최대치보다 크지 않을 때, 현재 DSX 네스트 카운트는 1209에서 증분된다.
현재 DSX 네스트 카운트가 1과 동일한지에 대한 결정은 1211에서 이루어진다. 그것이 존재할 때, 일부 실시예에서, 폴백 어드레스는 1213에서 YBEGIN WITH STRIDE 명령어에 의해 제공된 변위 값을 YBEGIN WITH STRIDE 명령어에 후속하는 명령어의 어드레스에 가산함으로써 계산된다. YBEGIN WITH STRIDE 명령어가 폴백 어드레스를 제공하는 실시예에서, 이 계산은 필요하지 않다.
1215에서, DSX 상태는 활성으로 설정되고(필요하다면), DSX 트래킹 하드웨어는 리셋된다(예를 들어, 제공된 스트라이드 값을 사용하는 것을 포함하는 상술한 바와 같이). 예를 들어, 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 이 레지스터는 DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다.
YCONTINUE 명령어
DSX가 아무런 문제없이 종료됨에 따라(예를 들어, 루프의 반복이 그 과정을 거킴에 따라), 일부 실시예에서, 명령어(YEND)는 아래에 설명된 바와 같이 추론 영역의 종료를 표시하기 위해 실행된다. 간단히 말해, 이 명령어의 실행은 현재 추론 상태의 커미트먼트(commitment)(기입되지 않은 모든 기입)와 아래에서 논의될 바와 같은 현재 추론 영역으로부터의 탈출을 야기한다. 그 후, 루프의 다른 반복은 다른 YBEGIN을 호출함으로써 시작될 수 있다.
그러나, 일부 실시예에서, YBEGIN, YEND, YBEGIN 등의 이런 사이클에 대한 최적화는 추론이 더 이상 필요하지 않을 때(예를 들어, 스토어들 간에 충돌이 존재하지 않을 때) 현재 루프 반복을 커밋하기 위한 계속 명령어(continue instruction)의 사용을 통해 이용 가능하다. 계속 명령어는 또한 YBEGIN을 호출할 필요없이 새로운 추론 루프 반복을 시작한다.
도 13은 DSX를 종료하지 않고 DSX를 계속하기 위한 명령어의 실행의 실시예를 도시한다. 본 명세서에서 설명되는 바와 같이, 이 명령어는 "YCONTINUE"로 지칭되며, 트랜잭션의 종료를 시그널링하는 데 사용된다. 물론, 그 명령어는 다른 이름으로 지칭될 수 있다.
일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
1301에서, YCONTINUE 명령어가 수신/페치된다. 예를 들어, 명령어는 메모리로부터 명령어 캐시로 페치되거나 명령어 캐시로부터 페치된다. 페치된 명령어는 여러 형태 중 하나를 취할 수 있다.
도 14는 YCONTINUE 명령어 포맷의 일부 예시적인 실시예를 도시한다. 실시예에서, YCONTINUE 명령어는 오피코드(YCONTINUE)를 포함하지만, 1401에 도시된 바와 같은 명시적 피연산자는 포함하지 않는다. YCONTINUE 구현에 따라, DSX 상태 레지스터 및 네스팅 카운트 레지스터에 대한 암시적 피연산자들. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그 등일 수 있다. 게다가, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등일 수 있다.
또 다른 실시예에서, YCONTINUE 명령어는 오피코드뿐만 아니라 1403에 도시된 DSX 상태 레지스터와 같은 DSX 상태에 대한 명시적 피연산자를 포함한다. YCONTINUE 구현에 따라, 네스팅 카운트 레지스터에 대한 암시적 피연산자가 사용된다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그 등일 수 있다. 게다가, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등일 수 있다.
또 다른 실시예에서, YCONTINUE 명령어는 오피코드뿐만 아니라 1405에 도시된 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자를 포함한다. YCONTINUE 구현에 따라, DSX 상태 레지스터에 대한 암시적 피연산자가 사용된다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그 등일 수 있다. 게다가, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등일 수 있다.
또 다른 실시예에서, YCONTINUE 명령어는 오피코드뿐만 아니라 1407에 도시된, DSX 상태 레지스터와 같은 DSX 상태 및 DSX 네스트 카운트 레지스터와 같은 DSX 네스트 카운트에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그 등일 수 있다. 게다가, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등일 수 있다.
도 13을 다시 참조하면, 페치된/수신된 YCONTINUE 명령어는 1303에서 디코딩된다. 일부 실시예에서, 명령어는 후술하는 바와 같은 하드웨어 디코더에 의해 디코딩된다. 일부 실시예에서, 명령어는 마이크로-연산들(마이크로-ops)로 디코딩된다. 예를 들어, 일부 CISC 기반 머신은 전형적으로 매크로 명령어로부터 도출된 마이크로 연산들을 사용한다. 다른 실시예에서, 디코딩은 적시 컴파일과 같은 소프트웨어 루틴의 일부이다.
1305에서, 디코딩된 YCONTINUE 명령어와 연관된 임의의 피연산자가 검색된다. 예를 들어, DSX 레지스터 및 DSX 네스트 카운트 레지스터 중 하나 이상으로부터 데이터가 검색된다.
디코딩된 YCONTINUE 명령어는 1307에서 실행된다. 명령어가 마이크로-ops로 디코딩되는 실시예에서, 이들 마이크로-ops가 실행된다. 디코딩된 명령어의 실행은 하드웨어로 하여금 다음의 동작 중 하나 이상이 수행되게 한다: 1) 추론이 더 이상 필요하지 않을 때 DSX와 연관된 추론 기입들을 만드는 것이 커밋될 것이고 이들을 커밋한다고 결정하고, 새로운 추론 루프 반복(예를 들어, 새 DSX 영역)을 시작하는 동작; 및/또는, 2) 무연산 동작.
이들 동작 중 첫 번째(추론 기입을 최종적으로 만들고 새로운 추론 루프 반복을 시작하는 동작)는 이전에 상세히 설명된 DSX 체킹 하드웨어에 의해 수행될 수 있다. 이런 동작에서, DSX의 루프 반복과 연관된 모든 추론 기입은 커밋되지만(DSX 외부에서 액세스할 수 있도록 저장되지만), YEND 명령어와 달리 DSX 상태는 DSX가 존재하지 않는다는 것을 표시하도록 설정되지 않는다. 예를 들어 DSX와 연관된(예를 들어, 캐시, 레지스터 또는 메모리에 저장된) 모든 기입은, DSX 외부에서 마무리되고 볼 수 있도록 커밋된다. 전형적으로, DSX 네스트 카운트가 1이 아닌 한 DSX 커밋은 발생하지 않는다. 그렇지 않으면, 일부 실시예에서, nop가 수행된다.
DSX가 활성이 아닌 경우, nop는 일부 실시예에서 수행될 수 있다.
도 15는 YCONTINUE 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다. 일부 실시예에서, 이 흐름은 도 13의 박스(1307)이다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이성의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
DSX가 활성인지에 대한 결정은 1501에서 이루어진다. 상술한 바와 같이, DSX 상태는 통상적으로 도 1에 도시된 DSX 상태 및 제어 레지스터(DSXSR)와 같은 제어 레지스터에 저장된다. 그러나 DSX 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 상태 플래그와 같은 다른 수단이 활용될 수 있다. 상태가 저장되는 위치와 관계없이, 위치는 DSX가 실제로 발생했는지를 결정하기 위해 프로세서의 하드웨어에 의해 체크된다.
DSX가 발생하지 않을 때, 1503에서 nop가 수행된다.
DSX가 발생할 때, DSX 네스트 카운트가 1과 동일한지에 대한 결정은 1505에서 이루어진다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전형적으로 네스팅 카운트 레지스터에 저장된다. DSX 네스트 카운트가 1이 아닐 때, nop가 507에서 수행된다. DSX 네스트 카운트가 1일 때, 커밋 및 DSX 재시작은 1509에서 행해진다. 커밋 및 DSX 재시작이 발생할 때, 일부 실시예에서, 1) DSX 트래킹 하드웨어가 리셋되고(예를 들어 상술된 바와 같이), 2) 폴백 어드레스가 계산되고, 3) 이전 추론 영역의 추론적으로 실행된 명령어(기입)의 커밋이 이루어지는 것 중 하나 이상이 일어난다.
도 16은 YCONTINUE 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
YBORT 명령어
때때로, DSX가 중단되도록 요구하는 DSX 내의 문제(예를 들어, 추론 오류)가 존재한다. 도 17은 DSX를 중단시키기 위한 명령어의 실행의 실시예를 도시한다. 본 명세서에서 설명될 바와 같이, 이런 명령어는 "YABORT"로 지칭된다. 물론, 그 명령어는 다른 이름으로 지칭될 수 있다. 일부 실시예에서, 이런 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
1701에서, YABORT 명령어가 수신/페치된다. 예를 들어, 명령어는 메모리로부터 명령어 캐시로 페치되거나 명령어 캐시로부터 페치된다. 페치된 명령어는 아래에 설명되는 바와 같이 여러 형태 중 하나를 취할 수 있다.
도 18은 YABORT 명령어 포맷의 일부 예시적인 실시예를 도시한다. 실시예에서, YABORT 명령어는 1801에 도시된 바와 같이 오피코드(YABORT)만을 포함한다. YABORT 구현에 따라, DSX 상태 레지스터 및/또는 RTM 상태 레지스터에 대한 암시적 피연산자들이 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다.
또 다른 실시예에서, YABORT 명령어는 오피코드뿐만 아니라 1803에 도시된 DSX 상태 레지스터와 같은 DSX 상태 레지스터에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다. YABORT 구현에 따라, RTM 상태 레지스터에 대한 암시적 피연산자가 사용된다.
또 다른 실시예에서, YABORT 명령어는 오피코드뿐만 아니라 1805에 도시된, DSX 상태 레지스터와 같은 DSX 상태 레지스터 및 RTM 상태 레지스터에 대한 명시적 피연산자들을 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터) 내의 플래그 등 일 수 있다.
도 17로 다시 참조하면, 페치/수신된 YABORT 명령어는 1703에서 디코딩된다. 일부 실시예에서, 명령어는 후술되는 바와 같은 하드웨어 디코더에 의해 디코딩된다. 일부 실시예에서, 명령어는 마이크로-연산들(마이크로-ops)로 디코딩된다. 예를 들어, 일부 CISC 기반 머신은 전형적으로 매크로 명령어로부터 도출된 마이크로 연산을 사용한다. 다른 실시예에서, 디코딩은 적시 컴파일과 같은 소프트웨어 루틴의 일부이다.
1705에서, 디코딩된 YABORT 명령어와 연관된 임의의 피연산자가 검색된다. 예를 들어, DSX 레지스터 및/또는 RTM 상태 레지스터 중 하나 이상으로부터 데이터가 검색된다.
디코딩된 YABORT 명령어는 1707에서 실행된다. 명령어가 마이크로-ops로 디코딩되는 실시예에서, 이들 마이크로-ops가 실행된다. 디코딩된 명령어의 실행은 하드웨어로 하여금 다음 동작 중 하나 이상이 수행되게 한다: 1) RTM 트랜잭션이 활성인 것을 결정하고 RTM 트랜잭션을 중단하는 동작; 2) DSX가 활성이 아닌 것을 결정하고 무연산을 수행하는 동작; 및/또는 3) 임의의 DSX 네스트 카운트를 리셋하고, 추론적으로 실행된 모든 기입을 폐기하고, DSX 상태를 비활성으로 설정하고, 실행을 폴백 어드레스로 롤백함으로써 DSX를 중단하는 동작.
제1 동작과 관련하여, RTM 상태는 전형적으로 RTM 상태 및 제어 레지스터에 저장된다. 이런 레지스터가 RTM 트랜잭션이 발생하고 있음을 나타낼 때, YABORT 명령어가 실행되어서는 안 된다. 이와 같이, RTM 트랜잭션에 문제가 존재하고 이는 중단되어야 한다.
제2 및 제3 동작과 관련하여, 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나, 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 이 레지스터는 DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다. 이 레지스터에 의해 표시되는 DSX가 없을 때, YABORT 명령어를 실행할 이유가 없기 때문에, 그런 무연산(또는 유사한 연산)이 수행된다. 이 레지스터에 의해 표시되는 DSX가 존재할 때, DSX 트래킹 하드웨어를 리셋하고, 저장된 모든 추론적으로 실행된 기입을 폐기하고, DSX 상태를 비활성으로 리셋하고, 실행을 롤백하는 것을 포함하는 DSX 중단 처리가 발생한다.
도 19는 YABORT 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다. 예를 들어, 일부 실시예에서, 이러한 흐름은 도 17의 박스(1707)이다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
일부 실시예에서, 예를 들어, RTM 트랜잭션을 지원하는 프로세서에서, RTM 트랜잭션이 발생했는지에 대한 결정은 1901에서 이루어진다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성이면, DSX가 먼저 활성이 되어서는 안 된다. 이 경우 RTM 트랜잭션에 문제가 발생하고 그 종료 프로시저가 활성화되어야 한다. 전형적으로 RTM 트랜잭션 상태는 RTM 제어 및 상태 레지스터와 같은 레지스터에 저장된다. 프로세서의 하드웨어는 이 레지스터의 내용을 평가하여 RTM 트랜잭션이 발생했는지를 결정한다. RTM 트랜잭션이 발생했을 때, RTM 트랜잭션은 1903을 처리하도록 계속된다.
RTM 트랜잭션이 발생하지 않거나 RTM이 지원되지 않을 때, DSX가 활성인지에 대한 결정은 1905에서 이루어진다. DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 액세스 가능한 위치에 저장된다. 그러나, 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 이 레지스터는 DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다.
이 레지스터에 의해 표시되는 DSX가 없을 때, nop가 1907에서 수행된다. 이 레지스터에 의해 표시되는 DSX가 존재할 때, DSX 트래킹 하드웨어를 리셋하고, 저장된 모든 추론적으로 실행된 기입을 폐기하고, DSX 상태를 비활성으로 리셋하고, 실행을 롤백하는 것을 포함하는 DSX 중단 처리가 1909에서 발생한다.
도 20은 YABORT 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
YTEST 명령어
일반적으로 소프트웨어는 새로운 DSX 추론 영역을 시작하기 전에 DSX가 활성인지 아닌지를 아는 것이 바람직하다. 도 21은 DSX의 상태를 테스트하기 위한 명령어의 실행의 실시예를 도시한다. 본 명세서에서 설명되는 바와 같이, 이 명령어는 "YTEST"로 지칭되며, 플래그의 사용을 통해 DSX 활성의 표시를 제공하는데 사용된다. 물론, 그 명령어는 다른 이름으로 지칭될 수 있다.
일부 실시예에서, 이 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
2101에서, YTEST 명령어가 수신/페치된다. 예를 들어, 명령어는 메모리로부터 명령어 캐시로 페치되거나 명령어 캐시로부터 페치된다. 페치된 명령어는 여러 형태 중 하나를 취할 수 있다. 도 22는 YTEST 명령어 포맷의 일부 예시적인 실시예를 도시한다. 일 실시예에서, YTEST 명령어는 오피코드(YTEST)를 포함하지만, 2201에 도시된 바와 같은 명시적 피연산자는 포함하지 않는다. DSX 상태 레지스터 및 플래그 레지스터에 대한 암시적 피연산자들이 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있다. 예시적인 플래그 레지스터는 EFLAGS 레지스터를 포함한다. 특히, 플래그 레지스터는 제로 플래그(ZF)를 저장한다.
또 다른 실시예에서, YTEST 명령어는 오피코드뿐만 아니라 2203에 도시된 DSX 상태 레지스터와 같은 DSX 상태에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있다. 플래그 레지스터에 대한 암시적 피연산자가 사용된다. 예시적인 플래그 레지스터는 EFLAGS 레지스터를 포함한다. 특히, 플래그 레지스터는 제로 플래그(ZF)를 저장한다.
또 다른 실시예에서, YTEST 명령어는 오피코드뿐만 아니라 2205에 도시된 바와 같은 플래그 레지스터에 대한 명시적 피연산자를 포함한다. 예시적인 플래그 레지스터는 EFLAGS 레지스터를 포함한다. 특히, 플래그 레지스터는 제로 플래그(ZF)를 저장한다. DSX 상태 레지스터에 대한 암시적 피연산자가 사용된다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있다.
또 다른 실시예에서, YTEST 명령어는 오피코드뿐만 아니라 2207에 도시된, DSX 상태 레지스터와 같은 DSX 상태 및 플래그 레지스터에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있다. 플래그 레지스터에 대한 암시적 피연산자가 사용된다. 예시적인 플래그 레지스터는 EFLAGS 레지스터를 포함한다. 특히, 플래그 레지스터는 제로 플래그(ZF)를 저장한다.
도 21을 다시 참조하면, 페치/수신된 YTEST 명령어는 2103에서 디코딩된다. 일부 실시예에서, 명령어는 후술하는 바와 같은 하드웨어 디코더에 의해 디코딩된다. 일부 실시예에서, 명령어는 마이크로-연산들(마이크로-ops)로 디코딩된다. 예를 들어, 일부 CISC 기반 머신은 전형적으로 매크로 명령어로부터 도출된 마이크로 연산을 사용한다. 다른 실시예에서, 디코딩은 적시 컴파일과 같은 소프트웨어 루틴의 일부이다.
2105에서, 디코딩된 YTEST 명령어와 연관된 임의의 피연산자가 검색된다. 예를 들어, DSX 상태 레지스터로부터 데이터가 검색된다.
디코딩된 YTEST 명령어는 2107에서 실행된다. 명령어가 마이크로-ops로 디코딩되는 실시예에서, 이들 마이크로-ops가 실행된다. 디코딩된 명령어의 실행은 하드웨어로 하여금 다음의 동작들 중 하나 이상이 수행되게 한다: 1) DSX 상태 레지스터가 DSX가 활성임을 표시한다고 결정하고, 만약 그렇다면 플래그 레지스터 내의 제로 플래그를 0으로 설정하는 동작, 또는 2) DSX 상태 레지스터가 DSX가 활성이 아님을 표시한다고 결정하고, 만약 그렇다면 플래그 레지스터 내의 제로 플래그를 1로 설정하는 동작. 물론, 제로 플래그가 DSX 활성 상태를 표시하는 데 사용될지라도, 다른 플래그들은 실시예들에 따라 사용된다.
도 23은 YTEST 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
YEND 명령어
DSX가 아무런 문제없이 종료됨에 따라(예를 들어, 루프의 반복이 그 과정을 거킴에 따라), 일부 실시예에서, 명령어는 추론 영역의 종료를 표시하기 위해 실행된다. 간단히 말해, 이 명령어의 실행은 현재 추론 상태의 커미트먼트(기입되지 않은 모든 기입)와 현재 추론 영역으로부터의 탈출을 야기한다.
도 24는 DSX를 종료하기 위한 명령어의 실행의 실시예를 도시한다. 본 명세서에서 설명되는 바와 같이, 이 명령어는 "YEND"로 지칭되고 DSX의 종료를 시그널링하는 데 사용된다. 물론, 그 명령어는 다른 이름으로 지칭될 수 있다.
일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코어 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
2401에서, YEND 명령어가 수신/페치된다. 예를 들어, 명령어는 메모리로부터 명령어 캐시로 페치되거나 명령어 캐시로부터 페치된다. 페치된 명령어는 여러 형태 중 하나를 취할 수 있다. 도 25는 YEND 명령어 포맷의 일부 예시적인 실시예를 도시한다. 실시예에서, YEND 명령어는 오피코드(YEND)를 포함하지만, 2501에 도시된 바와 같은 명시적 피연산자는 포함하지 않는다. YEND 구현에 따라, DSX 상태, 네스팅 카운트 및/또는 RTM 상태에 대한 암시적 레지스터 피연산자들이 사용된다.
또 다른 실시예에서, YEND 명령어는 오피코드뿐만 아니라 2503에 도시된 DSX 상태 레지스터와 같은 DSX 상태에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있다. YEND 구현에 따라, 네스팅 카운트 및/또는 RTM 상태에 대한 암시적 레지스터 피연산자들이 사용된다.
또 다른 실시예에서, YEND 명령어는 오피코드뿐만 아니라 2505에 도시된 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다. YEND 구현에 따라, DSX 상태 및/또는 RTM 상태에 대한 암시적 레지스터 피연산자들이 사용된다.
또 다른 실시예에서, YEND 명령어는 오피코드뿐만 아니라 2507에 도시된, DSX 상태 레지스터와 같은 DSX 상태 및 DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있고, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다. YEND 구현에 따라, RTM 상태에 대한 암시적 피연산자가 사용된다.
다른 실시예에서, YEND 명령어는 오피코드뿐만 아니라 2509에 도시된, DSX 상태 레지스터와 같은 DSX 상태, DSX 네스트 카운트 레지스터와 같은 DSX 네스팅 카운트 및 RTM 상태에 대한 명시적 피연산자를 포함한다. 이전에 상세히 설명한 바와 같이, DSX 상태 레지스터는 전용 레지스터, DSX 상태에 전용이 아닌 레지스터(예를 들어, 플래그 레지스터와 같은 전체 상태 레지스터 등) 내의 플래그일 수 있고, DSX 네스트 카운트는 전용 레지스터, DSX 네스트 카운트에 전용이 아닌 레지스터(예를 들어, 전체 상태 레지스터) 내의 플래그일 수 있다.
도 24를 다시 참조하면, 페치/수신된 YEND 명령어는 2403에서 디코딩된다. 일부 실시예에서, 명령어는 후술하는 바와 같은 하드웨어 디코더에 의해 디코딩된다. 일부 실시예에서, 명령어는 마이크로-연산들(마이크로-ops)로 디코딩된다. 예를 들어, 일부 CISC 기반 머신은 전형적으로 매크로 명령어로부터 도출된 마이크로 연산을 사용한다. 다른 실시예에서, 디코딩은 적시 컴파일과 같은 소프트웨어 루틴의 일부이다.
2405에서, 디코딩된 YEND 명령어와 연관된 임의의 피연산자가 검색된다. 예를 들어, DSX 레지스터, DSX 네스트 카운트 레지스터 및/또는 RTM 상태 레지스터 중 하나 이상으로부터 데이터가 검색된다.
디코딩된 YEND 명령어는 2407에서 실행된다. 명령어가 마이크로-ops로 디코딩되는 실시예에서, 이들 마이크로-ops가 실행된다. 디코딩된 명령어의 실행은 하드웨어로 하여금 다음 동작 중 하나 이상이 수행되게 한다: 1) DSX와 연관된 추론 기입들을 최종적으로 만드는 동작(이들을 커밋하는 동작); 2) 결함(예를 들어, 일반 보호 결함)을 시그널링하고 무연산을 수행하는 동작; 3) DSX를 중단하는 동작; 및/또는 4) RTM 트랜잭션을 종료하는 동작.
이들 동작 중 첫 번째(추론 기입들을 최종적으로 만드는 동작)는 DSX와 연관된 모든 추론 기입이 커밋되게 하고(이들이 DSX 외부에서 액세스 가능하도록 저장되게 하고), DSX 상태는 DSX가 DSX 상태 레지스터에 존재하지 않음을 표시하도록 설정된다. 예를 들어, DSX와 연관된(예를 들어, 캐시, 레지스터 또는 메모리에 저장된) 모든 기입은, DSX 외부에서 마무리되고 볼 수 있도록 커밋된다. 전형적으로, 그런 추론에 대한 네스트 카운트가 0이 아닌 한 DSX은 마무리될 수 없다. 네스트 카운트가 0보다 크면, 일부 실시예에서, NOP가 수행된다.
DSX가 마무리될 수 없는 어떤 이유가 있다면, 다른 3개의 잠재적인 동작 중 하나 이상이 발생한다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성인 경우, DSX가 먼저 활성이 되어서는 안 된다. 이 경우 RTM 트랜잭션에서 문제가 발생하고 위의 네 번째 동작에 표시된 바와 같이 종료 프로시저가 활성화되어야 한다.
일부 실시예에서, DSX가 존재하지 않으면, 결함이 생성되고 무연산(NOP)이 수행된다. 예를 들어, 이전에 상세히 설명한 바와 같이, DSX에 대한 상태는 전형적으로 도 1과 관련하여 전술한 DSX 상태 및 제어 레지스터(DSXSR)와 같은 레지스터와 같은 액세스 가능한 위치에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 수단이 활용될 수 있다. 이 레지스터는 DSX가 실제로 발생했는지를 결정하기 위해 코어의 하드웨어에 의해 체크될 수 있다.
일부 실시예에서, 트랜잭션의 커밋시 실패가 있으면, 중단 프로시저가 구현된다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 중단 프로시저가 활성화된다.
대부분의 실시예에서, 어떤 동작이 수행되는지에 관계없이, DSX 상태는 펜딩 중인 DSX가 없음을 표시하기 위해 리셋된다(설정된 경우).
도 26은 YEND 명령어와 같은 명령어의 실행의 상세한 실시예를 도시한다. 예를 들어, 일부 실시예에서, 이러한 흐름은 도 24의 박스(2407)이다. 일부 실시예에서, 이러한 실행은 중앙 처리 유닛(CPU), 그래픽 처리 유닛(GPU), 가속화된 처리 유닛(APU), 디지털 신호 프로세서(DSP) 등과 같은 하드웨어 디바이스의 하나 이상의 하드웨어 코드 상에서 수행된다. 다른 실시예에서, 명령어의 실행은 에뮬레이션이다.
일부 실시예에서, 예를 들어, RTM 트랜잭션을 지원하는 프로세서에서, RTM 트랜잭션이 발생했는지에 대한 결정은 2601에서 이루어진다. 예를 들어, RTM을 지원하는 프로세서의 일부 실시예에서, RTM 트랜잭션이 활성이면, DSX가 먼저 활성이 되어서는 안 된다. 이 경우 RTM 트랜잭션에 문제가 발생하고 그 종료 프로시저가 활성화되어야 한다. 전형적으로 RTM 트랜잭션 상태는 RTM 제어 및 상태 레지스터와 같은 레지스터에 저장된다. 프로세서의 하드웨어는 이 레지스터의 내용을 평가하여 RTM 트랜잭션이 발생했는지를 결정한다.
RTM 트랜잭션이 발생하면, 2603에서 해당 RTM 트랜잭션을 종료하기 위한 호출이 이루어진다. 예를 들어, RTM 트랜잭션을 종료하라는 명령어가 호출되어 실행된다. 그러한 명령어의 예는 XEND이다.
RTM 트랜잭션이 발생하지 않았을 때, 2605에서 DSX가 활성인지에 대한 결정이 이루어진다. 이전에 상세히 설명한 바와 같이, DSX 상태는 전형적으로 도 1에 도시된 DSX 상태 및 제어 레지스터(DSXSR)와 같은 제어 레지스터에 저장된다. 그러나 비전용 제어/상태 레지스터(예를 들어, FLAGS 레지스터) 내의 DSX 상태 플래그와 같은 다른 수단이 활용될 수 있다. 상태가 저장되는 위치에 관계없이, 위치는 DSX가 실제로 발생했는지를 결정하기 위해 프로세서의 하드웨어에 의해 체크된다.
DSX가 발생하지 않았을 때, 2607에서 결함이 생성된다. 예를 들어, 일반적 보호 결함이 생성된다. 게다가, 일부 실시예에서는 무연산(nop)이 수행된다.
DSX가 발생할 때, 2609에서 DSX 네스트 카운트가 감분된다. 예를 들어, 위에 설명된 바와 같이 DSX 네스트 카운트 레지스터에 저장된, 저장된 DSX 네스트 카운트가 감분된다.
DSX 네스트 카운트가 0과 동일한지에 대한 결정은 2611에서 이루어진다. 위에 상세히 설명한 바와 같이, DSX 네스트 카운트는 전형적으로 레지스터에 저장된다. DSX 네스트 카운트가 0이 아닐 때, 일부 실시예에서, NOP가 수행된다. DSX 네스트 카운트가 0일 때, 현재 DSX의 추론 상태는 2615에서 최종적인 것으로 되어 커밋된다.
커미트먼트가 성공했는지에 대한 결정은 2617에서 이루어진다. 예를 들어, 저장시 에러가 존재했는가?. 만약 그렇지 않다면, DSX는 2621에서 중단된다. 커미트먼트가 성공했다면, 2619에서 (DSX 상태 및 제어 레지스터에 저장된 것과 같은) DSX 상태 표시는 DSX가 활성이 아님을 표시하기 위해 설정된다. 일부 실시예에서, 이런 표시의 설정은 결함의 생성(2607) 또는 DSX의 중단(2621) 이후에 발생한다.
도 27은 YEND 명령어와 같은 명령어의 실행을 나타내는 의사 코드의 예를 도시한다.
이하, 전술한 명령어를 실행하기 위한 명령어 포맷 및 실행 리소스의 실시예가 설명된다.
명령어 세트는 하나 이상의 명령어 포맷을 포함한다. 주어진 명령어 포맷은 다양한 필드들(비트들의 수, 비트들의 위치)을 정의하여, 다른 것들 중에서, 수행될 연산(오피코드), 및 그 연산이 수행되어야 하는 피연산자(들)를 특정한다. 일부 명령어 포맷들은 명령어 템플릿들(또는 서브포맷들)의 정의를 통해 추가로 세분된다. 예를 들어, 주어진 명령어 포맷의 명령어 템플릿은 명령어 포맷의 필드의 상이한 서브세트를 갖도록 정의될 수 있고(포함된 필드는 전형적으로 동일 순서에 있지만, 적어도 일부는 더 적은 필드가 포함되기 때문에 상이한 비트 위치를 가짐)/있거나 상이하게 해석되는 주어진 필드를 갖도록 정의될 수 있다. 따라서, ISA의 각각의 명령어는 주어진 명령어 포맷을 사용하여(정의된 경우, 그 명령어 포맷의 명령어 템플릿들 중 주어진 템플릿에서) 표현되고, 연산 및 피연산자들을 특정하기 위한 필드들을 포함한다. 예를 들어, 예시적인 ADD 명령어는 특정 오피코드, 및 그 오피코드를 특정하는 오피코드 필드 및 피연산자들(소스 1/목적지 및 소스 2)을 선택하는 피연산자 필드들을 포함하는 명령어 포맷을 갖고; 명령어 스트림에서의 이러한 ADD 명령어의 출현은 특정 피연산자들을 선택하는 피연산자 필드들에서 특정 내용을 가질 것이다. 향상된 벡터 확장(Advanced Vector Extensions)(AVX)(AVX1 및 AVX2)을 지칭하며 VEX(Vector Extensions) 코딩 방식을 사용하는 SIMD 확장의 세트가 릴리스 및 게시되었다(예를 들어, 2011년 10월의 Intel® 64 및 IA-32 아키텍처 소프트웨어 개발자들 메뉴얼 참조; 및 2011년 6월의 Intel® 향상된 벡터 확장 프로그래밍 참조를 참고한다).
예시적인 명령어 포맷들
본 명세서에 설명되는 명령어(들)의 실시예들은 상이한 포맷들로 구현될 수 있다. 부가적으로, 예시적 시스템들, 아키텍처들, 및 파이프라인들이 아래에 상세하게 설명된다. 명령어(들)의 실시예들은 그러한 시스템들, 아키텍처들, 및 파이프라인들 상에서 실행될 수 있지만, 이들 상세에 한정되지는 않는다.
일반적 벡터 친화적 명령어 포맷
벡터 친화적 명령어 포맷은 벡터 명령어들에 적합한 명령어 포맷이다(예를 들어, 벡터 연산들에 특정적인 소정 필드들이 존재한다). 벡터 연산 및 스칼라 연산 양쪽 모두가 벡터 친화적 명령어 포맷을 통해 지원되는 실시예들이 설명되었지만, 대안적인 실시예들은 벡터 친화적 명령어 포맷의 벡터 연산들만을 사용한다.
도 28a-28b는 본 발명의 실시예들에 따른 일반적 벡터 친화적 명령어 포맷 및 이것의 명령어 템플릿들을 도시하는 블록도들이다. 도 28a는 본 발명의 실시예들에 따른 일반적 벡터 친화적 명령어 포맷 및 이것의 클래스 A 명령어 템플릿들을 도시하는 블록도이며; 도 28b는 본 발명의 실시예들에 따른 일반적 벡터 친화적 명령어 포맷 및 이것의 클래스 B 명령어 템플릿들을 도시하는 블록도이다. 구체적으로, 일반적 벡터 친화적 명령어 포맷(2800)은 클래스 A 및 클래스 B 명령어 템플릿들이 정의된 것이고, 이 양자는 메모리 액세스 없음(no memory access)(2805) 명령어 템플릿들 및 메모리 액세스(2820) 명령어 템플릿들을 포함한다. 벡터 친화적 명령어 포맷의 맥락에서 일반적(generic)이라는 용어는 임의의 특정 명령어 세트에 얽매이지 않는 명령어 포맷을 지칭한다.
본 발명의 실시예들은 벡터 친화적 명령어 포맷이 다음을 지원하는 것으로 설명될 것이다: 32비트(4바이트) 또는 64비트(8바이트) 데이터 요소 폭(또는 사이즈)을 갖는 64바이트 벡터 피연산자 길이(또는 사이즈)(따라서 64바이트 벡터는 16개의 더블 워드-사이즈 요소 또는 대안적으로 8개의 쿼드 워드-사이즈 요소 중 어느 하나로 구성됨); 16비트(2바이트) 또는 8비트(1바이트) 데이터 요소 폭(또는 사이즈)을 갖는 64바이트 벡터 피연산자 길이(또는 사이즈); 32비트(4바이트), 64비트(8바이트), 16비트(2바이트) 또는 8비트(1바이트) 데이터 요소 폭(또는 사이즈)을 갖는 32바이트 벡터 피연산자 길이(또는 사이즈); 및 32비트(4바이트), 64비트(8바이트), 16비트(2바이트) 또는 8비트(1바이트) 데이터 요소 폭(또는 사이즈)을 갖는 16바이트 벡터 피연산자 길이(또는 사이즈); 대안적인 실시예들은 더 많거나, 적거나 또는 상이한 데이터 요소 폭(예를 들어, 128비트(16바이트) 데이터 요소 폭)을 갖는 더 많거나, 적거나 및/또는 상이한 벡터 피연산자 사이즈(예를 들어, 256바이트 벡터 피연산자)를 지원할 수 있다.
도 28a의 클래스 A 명령어 템플릿들은 다음을 포함한다: 1) 메모리 액세스 없음(2805) 명령어 템플릿들 내에, 메모리 액세스 없음, 풀 라운드 제어형 연산(2810) 명령어 템플릿 및 메모리 액세스 없음, 데이터 변환형 연산(2815) 명령어 템플릿이 도시되어 있고; 2) 메모리 액세스(2820) 명령어 템플릿들 내에, 메모리 액세스, 일시적(2825) 명령어 템플릿 및 메모리 액세스, 비일시적(2830) 명령어 템플릿이 도시되어 있다. 도 28b의 클래스 B 명령어 템플릿들은 다음을 포함한다: 1) 메모리 액세스 없음(2805) 명령어 템플릿들 내에, 메모리 액세스 없음, 기입 마스크 제어, 부분 라운드 제어형 연산(2812) 명령어 템플릿 및 메모리 액세스 없음, 기입 마스크 제어, vsize형 연산(2817) 명령어 템플릿이 도시되어 있고; 2) 메모리 액세스(2820) 명령어 템플릿들 내에, 메모리 액세스, 기입 마스크 제어(2827) 명령어 템플릿이 도시되어 있다.
일반적 벡터 친화적 명령어 포맷(2800)은 도 28a-28b에 도시된 순서로 아래 나열된 다음의 필드들을 포함한다.
포맷 필드(2840) - 이 필드 내의 특정 값(명령어 포맷 식별자 값)은 벡터 친화적 명령어 포맷, 및 따라서 명령어 스트림들 내의 벡터 친화적 명령어 포맷에서의 명령어들의 발생들을 고유하게 식별한다. 이와 같이, 이런 필드는 이것이 일반적 벡터 친화적 명령어 포맷만을 갖는 명령어 세트를 필요로 하지 않는다는 점에서 옵션이다.
베이스 연산 필드(2842) - 그의 내용은 상이한 베이스 연산들을 구별한다.
레지스터 인덱스 필드(2844) - 그의 내용은, 직접 또는 어드레스 생성을 통해, 그것들이 레지스터들 내에 있든지 메모리 내에 있든지, 소스 및 목적지 피연산자들의 위치들을 특정한다. 이들은 PxQ(예를 들어, 32x512, 16x128, 32x1024, 64x1024) 레지스터 파일로부터 N 개의 레지스터를 선택하기에 충분한 비트 수를 포함한다. 일 실시예에서 N은 최대 3개의 소스 및 1개의 목적지 레지스터일 수 있지만, 대안적인 실시예들은 더 많거나 더 적은 소스들 및 목적지 레지스터들을 지원할 수 있다(예를 들어, 이러한 소스들 중 하나가 또한 목적지의 역할을 하는 경우에 최대 2개의 소스까지 지원할 수 있고, 이러한 소스들 중 하나가 또한 목적지의 역할을 하는 경우에 최대 3개의 소스를 지원할 수 있고, 최대 2개의 소스 및 1개의 목적지까지를 지원할 수 있다).
변경자 필드(Modifier field)(2846) - 그의 내용은 메모리 액세스하지 않는 것들로부터 메모리 액세스를 특정하는 일반 벡터 명령어 포맷 내의 명령어들의 발생들을 구별하는데, 즉, 메모리 액세스 없음(2805) 명령어 템플릿들과 메모리 액세스(2820) 명령어 템플릿들 사이에서 구별한다. 메모리 액세스 연산들은 (일부 경우에서 레지스터들 내의 값들을 사용하여 소스 및/또는 목적지 어드레스들을 특정하는) 메모리 계층구조에 대해 판독 및/또는 기입하는 반면에, 메모리 액세스 없음 연산들은 그렇게 하지 않는다(예를 들어, 소스 및 목적지들이 레지스터들임). 일 실시예에서 이 필드는 메모리 어드레스 계산들을 수행하는 3가지 상이한 방식들 사이에서 또한 선택하지만, 대안적인 실시예들은 메모리 어드레스 계산들을 수행하는 더 많거나, 더 적거나 또는 상이한 방식들을 지원할 수 있다.
증강(Augmentation) 연산 필드(2850) - 그의 내용은 베이스 연산 이외에 수행될 다양한 상이한 연산들 중 어느 하나를 구별한다. 이 필드는 콘텍스트 특정적(context specific)이다. 본 발명의 일 실시예에서, 이 필드는 클래스 필드(2868), 알파 필드(2852), 및 베타 필드(2854)로 분할된다. 증강 연산 필드(2850)는 연산들의 공통 그룹들이 2, 3, 또는 4개의 명령어보다는 단일 명령어에서 수행될 수 있게 한다.
스케일 필드(2860) - 그의 내용은 메모리 어드레스 생성을 위한(예를 들어, 2scale * index + base를 사용하는 어드레스 생성을 위한) 인덱스 필드의 내용의 스케일링(scaling)을 허용한다.
변위 필드(2862A) - 그의 내용은(예를 들어, 2scale * index + base + displacement를 사용하는 어드레스 생성을 위한) 메모리 어드레스 생성의 부분으로서 사용된다.
변위 인자 필드(Displacement Factor Field)(2862B)(변위 인자 필드(2862B) 바로 위의 변위 필드(2862A)의 병치(juxtaposition)는 하나 또는 다른 것이 사용됨을 나타낸다는 것에 유의한다) - 그의 내용은 어드레스 생성의 부분으로서 사용되고, 그것은 메모리 액세스의 사이즈(N)에 의해 스케일링될 변위 인자를 특정하며, 여기서 N은(예를 들어, 2scale * index + base + scaled displacement를 사용하는 어드레스 생성을 위한) 메모리 액세스에서의 바이트들의 수이다. 잉여 하위 비트들(redundant low-order bits)은 무시되고, 따라서, 변위 인자 필드의 내용은 유효 어드레스를 계산하는 데 사용될 최종 변위를 생성하기 위하여 메모리 피연산자 총 사이즈(N)로 곱해진다. N의 값은 풀 오피코드 필드(2874)(본 명세서에서 나중에 설명됨) 및 데이터 조작 필드(2854C)에 기초하여 실행시간에서 프로세서 하드웨어에 의해 결정된다. 변위 필드(2862A) 및 변위 인자 필드(2862B)는 그것들이 메모리 액세스 없음(2805) 명령어 템플릿들을 위해 사용되지 않고/않거나 상이한 실시예들이 둘 중 하나만 구현하거나 또는 아무것도 구현하지 않을 수 있다는 점에서 옵션이다.
데이터 요소 폭 필드(2864) - 그의 내용은 사용될 다수의 데이터 요소 폭들 중 하나를 구별한다(일부 실시예들에서 모든 명령어들에 대해; 다른 실시예들에서 명령어들 중 일부만에 대해). 이 필드는, 단 하나의 데이터 요소 폭만이 지원되고/되거나 데이터 요소 폭들이 오피코드들의 일부 양태를 이용하여 지원되는 경우에 필요하지 않는다는 점에서 옵션이다.
기입 마스크 필드(2870) - 그의 내용은, 데이터 요소 위치 기초로, 목적지 벡터 피연산자 내의 그 데이터 요소 위치가 베이스 연산 및 증강 연산의 결과를 반영하는지를 제어한다. 클래스 A 명령어 템플릿들은 병합-기입마스킹(merging-writemasking)을 지원하는 반면에, 클래스 B 명령어 템플릿들은 병합-기입마스킹 및 제로화-기입마스킹(zeroing-writemasking) 양쪽 모두를 지원한다. 병합할 때에, 벡터 마스크들은 목적지 내의 임의의 세트의 요소들이(베이스 연산 및 증대 연산에 의해 특정되는) 임의의 연산의 실행 동안 업데이트들로부터 보호될 수 있게 해주고; 다른 일 실시예에서는, 대응하는 마스크 비트가 0을 갖는 경우에 목적지의 각각의 요소의 이전의 값을 보존할 수 있게 해준다. 이에 반해, 제로화할 때에, 벡터 마스크들은 목적지 내의 임의의 세트의 요소들이(베이스 연산 및 증대 연산에 의해 특정되는) 임의의 연산의 실행 동안 제로화될 수 있게 하고; 일 실시예에서는, 목적지의 요소는 대응하는 마스크 비트가 0 값을 가질 때에 0으로 설정된다. 이러한 기능성의 서브세트는 수행되는 연산의 벡터 길이를 제어하는 능력이지만(즉, 요소들의 범위(span)는 첫 번째 것으로부터 마지막 것까지 수정됨); 수정되는 요소들이 연속적인 것은 필요하지 않는다. 따라서, 기입 마스크 필드(2870)는 로드, 저장, 산술, 논리 등을 포함한 부분 벡터 연산들을 허용한다. 기입 마스크 필드(2870)의 내용이 사용될 기입 마스크를 포함하는 다수의 기입 마스크 레지스터들 중 하나를 선택하는(및 따라서 기입 마스크 필드(2870)의 내용은 수행될 마스킹을 간접적으로 식별하는) 본 발명의 실시예들이 설명되지만, 대안적인 실시예들은 그 대신에 또는 부가적으로 마스크 기입 필드(2870)의 내용이 수행될 마스킹을 직접 특정할 수 있게 한다.
즉치 필드(2872) - 그의 내용은 즉치(immediate)의 명세(specification)를 허용한다. 이 필드는, 이것이 즉치를 지원하지 않는 일반적 벡터 친화적 포맷의 구현에 존재하지 않으며, 즉치를 사용하지 않는 명령어들에 존재하지 않는다는 점에서 옵션이다.
클래스 필드(2868) - 그의 내용은 명령어들의 상이한 클래스들 간을 구별한다. 도 28a-b를 참조하면, 이 필드의 콘텐츠들은 클래스 A 및 클래스 B 명령어들 간을 선택한다. 도 28a-b에서, 라운딩된 코너 정사각형들(rounded corner squares)을 사용하여 특정 값이 필드(예를 들어, 도 28a-b에서 클래스 필드(2868)에 대해 각각 클래스 A(2868A) 및 클래스 B(2868B))에 존재함을 나타낸다.
클래스 A의 명령어 템플릿들
클래스 A의 메모리 액세스 없음(2805) 명령어 템플릿들의 경우, 알파 필드(2852)는 RS 필드(2852A)로서 해석되고, 그 내용은 수행될 상이한 증강 연산 타입들 중 하나를 구별하고(예를 들어, 라운드(2852A.1) 및 데이터 변환(2852A.2)은 각각 메모리 액세스 없음, 라운드형 연산(2810) 및 메모리 액세스 없음, 데이터 변환형 연산(2815) 명령어 템플릿들에 대해 특정되고), 베타 필드(2854)는 수행될 특정된 타입의 연산들 중 어느 하나를 구별한다. 메모리 액세스 없음(2805) 명령어 템플릿들에서, 스케일 필드(2860), 변위 필드(2862A), 및 변위 스케일 필드(2862B)는 존재하지 않는다.
메모리 액세스 없음 명령어 템플릿들 - 풀 라운드 제어형 연산들
메모리 액세스 없음 풀 라운드 제어형 연산(2810) 명령어 템플릿에서, 베타 필드(2854)는 라운드 제어 필드(2854A)로서 해석되고, 그 내용(들)은 정적 라운딩을 제공한다. 본 발명의 설명된 실시예들에서, 라운드 제어 필드(2854A)는 SAE(suppress all floating point exceptions) 필드(2856) 및 라운드 연산 제어 필드(2858)를 포함하지만, 대안적인 실시예들은 이러한 개념들 양자를 동일한 필드에 인코딩하거나 이러한 개념들/필드들 중 하나 또는 다른 하나만을 갖는 것(예를 들어, 라운드 연산 제어 필드(2858)만을 가질 수 있다)을 지원할 수 있다.
SAE 필드(2856) - 그의 내용은 예외 이벤트 보고를 디스에이블할 것인지 여부를 구별하고; SAE 필드(2856)의 내용이 억제가 인에이블됨을 나타낼 때, 주어진 명령어는 임의의 종류의 부동 소수점 예외 플래그를 보고하지 않고, 임의의 부동 소수점 예외 핸들러를 발생시키지 않는다.
라운드 연산 제어 필드(2858) - 그의 내용은 수행할 라운딩 연산들(예를 들어, 라운드-업, 라운드-다운, 제로를 향해 라운드(Round-towards-zero) 및 근사치로 라운드(Round-to-nearest))의 그룹 중 하나를 구별한다. 따라서, 라운드 연산 제어 필드(2858)는 명령어 당 기준으로 라운딩 모드의 변경을 허용한다. 프로세서가 라운딩 모드들을 특정하기 위한 제어 레지스터를 포함하는 본 발명의 일 실시예에서, 라운드 연산 제어 필드(2850)의 내용은 그 레지스터 값을 오버라이드한다.
메모리 액세스 없음 명령어 템플릿들 - 데이터 변환형 연산
메모리 액세스 없음 데이터 변환형 연산(2815) 명령어 템플릿들에서, 베타 필드(2854)는 데이터 변환 필드(2854B)로서 해석되고, 그 내용은 수행될 다수의 데이터 변환들(예를 들어, 데이터 변환 없음, 스위즐(swizzle), 브로드캐스트) 중 하나를 구별한다.
클래스 A의 메모리 액세스(2820) 명령어 템플릿의 경우에서, 알파 필드(2852)는 축출 힌트 필드(2852B)로서 해석되고, 그 내용은 사용될 축출 힌트들 중 하나를 구별하지만(도 28a에서, 일시적(2852B.1) 및 비일시적(2852B.2)이 각각 메모리 액세스, 일시적(2825) 명령어 템플릿 및 메모리 액세스, 비일시적(2830) 명령어 템플릿에 대해 특정된다), 베타 필드(2854)는 데이터 조작 필드(2854C)로서 해석되고, 그 내용은 수행될 다수의 데이터 조작 연산들(프리미티브들(primitives)이라고도 알려짐)(예를 들어, 조작 없음, 브로드캐스트, 소스의 상향 변환, 및 목적지의 하향 변환) 중 하나를 구별한다. 메모리 액세스(2820) 명령어 템플릿들은 스케일 필드(2860), 및 옵션으로 변위 필드(2862A) 또는 변위 스케일 필드(2862B)를 포함한다.
벡터 메모리 명령어들은 변환 지원으로 메모리로부터의 벡터 로드들 및 메모리로의 벡터 스토어들을 수행한다. 정규 벡터 명령어들에서와 같이, 벡터 메모리 명령어들은 데이터 요소-관련 방식으로 메모리로부터/로 데이터를 전달하고, 실제로 전달되는 요소들은 기입 마스크로서 선택되는 벡터 마스크의 내용에 의해 지시된다.
메모리 액세스 명령어 템플릿들 - 일시적
일시적 데이터는 캐싱으로부터 이익을 얻기에 충분한 곧 재사용될 가능성이 있는 데이터이다. 그러나 이것은 힌트이고, 상이한 프로세서들은 힌트를 완전히 무시하는 것을 포함하는 상이한 방식들로 그것을 구현할 수 있다.
메모리 액세스 명령어 템플릿들 - 비일시적
비일시적 데이터는 제1 레벨 캐시에서의 캐싱으로부터 이득을 얻기에 충분하도록 곧 재사용될 가능성이 없는 데이터이고, 축출을 위한 우선순위가 주어져야 한다. 그러나 이것은 힌트이고, 상이한 프로세서들은 힌트를 완전히 무시하는 것을 포함하는 상이한 방식들로 그것을 구현할 수 있다.
클래스 B의 명령어 템플릿들
클래스 B의 명령어 템플릿들의 경우에, 알파 필드(2852)는 기입 마스크 제어(Z) 필드(2852C)로서 해석되고, 그 내용은 기입 마스크 필드(2870)에 의해 제어된 기입 마스킹이 병합 또는 제로잉이어야 하는지를 구별한다.
클래스 B의 메모리 액세스 없음(2805) 명령어 템플릿들의 경우에, 베타 필드(2854)의 부분은 RL 필드(2857A)로서 해석되고, 그 내용은 수행될 상이한 증강 연산 타입들 중 하나를 구별하지만(예를 들어, 라운드(2857A.1) 및 벡터 길이(VSIZE)(2857A.2)는 각각 메모리 액세스 없음, 기입 마스크 제어, 부분 라운드 제어형 연산(2812) 명령어 템플릿, 및 메모리 액세스 없음, 기입 마스크 제어, VSIZE형 연산(2817) 명령어 템플릿에 대해 특정된다), 베타 필드(2854)의 나머지는 특정된 타입의 연산들 중 어느 것이 수행될지를 구별한다. 메모리 액세스 없음(2805) 명령어 템플릿들에서, 스케일 필드(2860), 변위 필드(2862A), 및 변위 스케일 필드(2862B)는 존재하지 않는다.
메모리 액세스 없음, 기입 마스크 제어, 부분 라운드 제어형 연산(2810) 명령어 템플릿에서, 베타 필드(2854)의 나머지는 라운드 연산 필드(2859A)로서 해석되고, 예외 이벤트 보고는 디스에이블된다(주어진 명령어는 임의의 종류의 부동 소수점 예외 플래그를 보고하지 않고, 임의의 부동 소수점 예외 핸들러를 발생시키지 않는다).
라운드 연산 제어 필드(2859A)는 - 라운드 연산 제어 필드(2858)처럼, 이것의 내용은 한 그룹의 라운드 연산들 중 어느 것을 실행할지를 구별해 준다(예컨대, 라운드 업, 라운드 다운, 제로를 향한 라운드 및 근사치로 라운드). 따라서, 라운드 연산 제어 필드(2859A)는 명령어 당 기준으로 라운딩 모드의 변경을 허용한다. 프로세서가 라운딩 모드들을 특정하기 위한 제어 레지스터를 포함하는 본 발명의 일 실시예에서, 라운드 연산 제어 필드(2850)의 내용은 그 레지스터 값을 오버라이드한다.
메모리 액세스 없음, 기입 마스크 제어, VSIZE형 연산(2817) 명령어 템플릿에서, 베타 필드(2854)의 나머지는 벡터 길이 필드(2859B)로서 해석되고, 그 내용은 수행될 다수의 데이터 벡터 길이들(예를 들어, 128, 256, 또는 512바이트) 중 하나를 구별한다.
클래스 B의 메모리 액세스(2820) 명령어 템플릿의 경우에, 베타 필드(2854)의 부분은 브로드캐스트 필드(2857B)로서 해석되고, 그 내용은 브로드캐스트 타입 데이터 조작 연산이 수행될 것인지 여부를 구별하지만, 베타 필드(2854)의 나머지는 벡터 길이 필드(2859B)로서 해석된다. 메모리 액세스(2820) 명령어 템플릿들은 스케일 필드(2860), 및 옵션으로 변위 필드(2862A) 또는 변위 스케일 필드(2862B)를 포함한다.
일반적 벡터 친화적 명령어 포맷(2800)과 관련하여, 포맷 필드(2840), 베이스 연산 필드(2842), 및 데이터 요소 폭 필드(2864)를 포함하는 풀 오피코드 필드(2874)가 도시된다. 풀 오피코드 필드(2874)가 이들 필드 전부를 포함하는 일 실시예가 도시되지만, 풀 오피코드 필드(2874)는 그것들 전부를 지원하지 않는 실시예들에 있어서 이들 필드 전부보다 적게 포함한다. 풀 오피코드 필드(2874)는 연산 코드(오피코드)를 제공한다.
증강 연산 필드(2850), 데이터 요소 폭 필드(2864), 및 기입 마스크 필드(2870)는 이러한 특징들이 일반적 벡터 친화적 명령어 포맷에서 명령어 당 기준으로 특정될 수 있게 한다.
기입 마스크 필드와 데이터 요소 폭 필드의 조합들은, 마스크가 상이한 데이터 요소 폭들에 기초하여 적용되는 것을 그것들이 허용한다는 점에서 타이핑된 명령어들(typed instructions)을 생성한다.
클래스 A 및 클래스 B 내에서 발견되는 다양한 명령어 템플릿들은 상이한 상황들에서 이롭다. 본 발명의 일부 실시예에서, 상이한 프로세서들 또는 프로세서 내의 상이한 코어들은 클래스 A만을, 클래스 B만을, 또는 양자의 클래스들을 지원할 수 있다. 예를 들어, 범용 컴퓨팅에 대해 의도된 고성능 범용 비순차 코어는 클래스 B만을 지원할 수 있고, 주로 그래픽 및/또는 과학적(쓰루풋) 컴퓨팅에 대해 의도된 코어는 클래스 A만을 지원할 수 있고, 양쪽 모두를 위해 의도된 코어는 양쪽 모두를 지원할 수 있다(물론, 양자의 클래스들로부터의 명령어들 및 템플릿들의 소정의 혼합을 갖지만 양자의 클래스들로부터의 명령어들 및 템플릿들 전부를 갖지는 않는 코어는 본 발명의 범위 내에 있다). 또한, 단일 프로세서가 복수의 코어를 포함할 수 있는데, 이들 모두는 동일한 클래스를 지원하거나 또는 상이한 코어들이 상이한 클래스를 지원한다. 예를 들어, 별개의 그래픽 및 범용 코어들을 갖는 프로세서에서, 주로 그래픽 및/또는 과학적 컴퓨팅에 대해 의도된 그래픽 코어들 중 하나는 클래스 A만을 지원할 수 있는 반면에, 범용 코어들 중 하나 이상은, 클래스 B만을 지원하는, 범용 컴퓨팅에 대해 의도된 비순차적 실행 및 레지스터 리네이밍을 갖는 고성능 범용 코어들일 수 있다. 별개의 그래픽 코어를 갖지 않는 다른 프로세서는 클래스 A 및 클래스 B 양쪽 모두를 지원하는 하나 이상의 범용 순차적 또는 비순차적 코어를 포함할 수 있다. 물론, 하나의 클래스로부터의 피처들은 본 발명의 상이한 실시예들에서의 다른 클래스에서 또한 구현될 수 있다. 하이 레벨 언어로 작성된 프로그램은 다음을 포함하는 다양한 상이한 실행 가능 형태가 될 것이다(예로서, 적시 컴파일 또는 정적 컴파일될 것이다): 1) 실행을 위해 타겟 프로세서에 의해 지원되는 클래스(들)의 명령어만을 갖는 형태; 또는 2) 모든 클래스의 명령어의 상이한 조합을 사용하여 작성되는 대안적 루틴들, 및 코드를 현재 실행하고 있는 프로세서에 의해 지원되는 명령어에 기초하여 실행하기 위한 루틴들을 선택하는 제어 흐름 코드를 갖는 형태.
예시적인 특정적 벡터 친화적 명령어 포맷
도 29는 본 발명의 실시예들에 따른 예시적인 특정적 벡터 친화적 명령어 포맷을 도시하는 블록도이다. 도 29는 필드들의 위치, 사이즈, 해석 및 순서뿐만 아니라, 이들 필드들의 일부에 대한 값들을 특정한다는 점에서 특정적인 특정적 벡터 친화적 명령어 포맷(2900)을 도시한다. 특정적 벡터 친화적 명령어 포맷(2900)은 x86 명령어 세트를 확장하는 데 사용될 수 있고, 따라서 필드들 중 일부는 기존의 x86 명령어 세트 및 그의 확장(예를 들어, AVX)에서 사용된 것들과 유사하거나 동일하다. 이 포맷은 확장들을 갖는 기존의 x86 명령어 세트의 프리픽스 인코딩 필드, 실제 오피코드 바이트 필드(real opcode byte field), MOD R/M 필드, SIB 필드, 변위 필드 및 즉치 필드들과 일관되게 유지된다. 도 29으로부터의 필드들이 매핑하는 도 28으로부터의 필드들이 예시된다.
본 발명의 실시예들은 예시의 목적으로 일반적 벡터 친화적 명령어 포맷(2800)의 문맥에서 특정적 벡터 친화적 명령어 포맷(2900)을 참조하여 설명되지만, 본 발명은 청구되는 경우를 제외하고 특정적 벡터 친화적 명령어 포맷(2900)으로 한정되지 않는다. 예를 들어, 일반적 벡터 친화적 명령어 포맷(2800)은 다양한 필드에 대한 다양한 가능한 사이즈들을 고려하지만, 특정적 벡터 친화적 명령어 포맷(2900)은 특정 사이즈들의 필드들을 갖는 것으로서 도시된다. 특정 예에 의해, 데이터 요소 폭 필드(2864)는 특정적 벡터 친화적 명령어 포맷(2900)에서 1비트 필드로서 도시되지만, 본 발명은 그것으로 한정되지 않는다(즉, 일반적 벡터 친화적 명령어 포맷(2800)은 데이터 요소 폭 필드(2864)의 다른 사이즈들을 고려한다).
일반적 벡터 친화적 명령어 포맷(2800)은 도 29a에 도시된 순서로 아래에 나열된 다음의 필드들을 포함한다.
EVEX 프리픽스(바이트들 0-3)(2902) - 4-바이트 형태로 인코딩된다.
포맷 필드(2840)(EVEX 바이트 0, 비트들 [7:0]) - 제1 바이트(EVEX 바이트 0)는 포맷 필드(2840)이고, 그것은 0x62(본 발명의 일 실시예에서 벡터 친화적 명령어 포맷을 구별하는 데 사용되는 고유 값)를 포함한다.
제2 내지 제4 바이트(EVEX 바이트 1-3)는 특정 능력을 제공하는 복수의 비트 필드를 포함한다.
REX 필드(2905)(EVEX 바이트 1, 비트들 [7-5]) - EVEX.R 비트 필드(EVEX 바이트 1, 비트 [7] - R), EVEX.X 비트 필드(EVEX 바이트 1, 비트 [6] - X), 및 2857BEX 바이트 1, 비트 [5] - B로 이루어진다. EVEX.R, EVEX.X 및 EVEX.B 비트 필드들은 대응하는 VEX 비트 필드들과 동일 기능성을 제공하며, 1의 보수 형태를 사용하여 인코딩된다(즉, ZMM0는 1111B로서 인코딩되고, ZMM15는 0000B로서 인코딩된다). 명령어들의 다른 필드들은 관련 기술분야에 공지된 바와 같이 레지스터 인덱스들의 하위 3비트를 인코딩하여(rrr, xxx, 및 bbb), EVEX.R, EVEX.X 및 EVEX.B를 추가함으로써 Rrrr, Xxxx, 및 Bbbb가 형성될 수 있다.
REX' 필드(2810) - 이것은 REX' 필드(2810)의 제1 부분이고, 확장된 32개의 레지스터 세트의 상위 16 또는 하위 16을 인코딩하는 데 사용되는 EVEX.R' 비트 필드(EVEX 바이트 1, 비트 [4] - R')이다. 본 발명의 일 실시예에서, 이 비트는, 아래에 표시되는 바와 같은 다른 것들과 함께, (잘 알려진 x86 32-비트 모드에서) BOUND 명령어와 구분하기 위해 비트 반전된 포맷으로 저장되고, 그것의 실제 오피코드 바이트는 62이지만, (후술되는) MOD R/M 필드에서 MOD 필드 내의 11의 값을 수락하지 않으며; 본 발명의 대안적인 실시예들은 반전된 포맷으로 이것 및 아래에 표시되는 다른 비트들을 저장하지 않는다. 하위 16개의 레지스터를 인코딩하는 데 1의 값이 사용된다. 다시 말해서, R'Rrrr는 다른 필드들로부터의 EVEX.R', EVEX.R, 및 다른 RRR를 결합시킴으로써 형성된다.
오피코드 맵 필드(2915)(EVEX 바이트 1, 비트[3:0] - mmmm) - 그의 내용은 암시적인 선단 오피코드 바이트(implied leading opcode byte)(0F, 0F 38 또는 0F 3)를 인코딩한다.
데이터 요소 폭 필드(2864)(EVEX 바이트 2, 비트 [7] - W) - 표기법 EVEX.W에 의해 표현된다. EVEX.W는 데이터타입(32비트 데이터 요소 또는 64비트 데이터 요소 중 어느 하나)의 입도(사이즈)를 정의하는 데 사용된다.
EVEX.vvvv(2920)(EVEX 바이트 2, 비트 [6:3]-vvvv) - EVEX.vvvv의 역할은 다음을 포함할 수 있다: 1) EVEX.vvvv는 반전된(1의 보수) 형태로 특정된 제1 소스 레지스터 피연산자를 인코딩하고 2개 이상의 소스 피연산자를 갖는 명령어에 대해 유효하다; 2) EVEX.vvvv는 특정 벡터 시프트에 대해 1의 보수 형태로 특정된 목적지 레지스터 피연산자를 인코딩한다; 또는 3) EVEX.vvvv는 임의의 피연산자를 인코딩하지 않으며, 그 필드는 예약되어 있고 1111b를 포함해야 한다. 따라서, EVEX.vvvv 필드(2920)는 반전된(1의 보수) 형태로 저장되는 제1 소스 레지스터 특정자의 하위 4비트를 인코딩한다. 명령어에 따라, 추가의 상이한 EVEX 비트 필드가 특정자 사이즈를 32개의 레지스터로 확장하기 위해 사용된다.
EVEX.U 클래스 필드(2868)(EVEX 바이트 2, 비트 [2]-U) - EVEX.U = 0이면, 그것은 클래스 A 또는 EVEX.U0를 나타내고; EVEX.U = 1이면, 그것은 클래스 B 또는 EVEX.U1를 나타낸다.
프리픽스 인코딩 필드(2925)(EVEX 바이트 2, 비트[1:0]-pp) - 베이스 연산 필드에 대한 추가 비트들을 제공한다. EVEX 프리픽스 포맷의 레거시 SSE 명령어들에 대한 지원을 제공하는 것에 외에, 이것은 또한 SIMD 프리픽스를 콤팩트화하는 이득을 갖는다(SIMD 프리픽스를 표현하기 위해 바이트를 요구하는 것이 아니라, EVEX 프리픽스는 2비트만을 요구함). 일 실시예에서, 레거시 포맷 및 EVEX 프리픽스 포맷 양자에서 SIMD 프리픽스(66H, F2H, F3H)를 사용하는 레거시 SSE 명령어를 지원하기 위해, 이들 레거시 SIMD 프리픽스는 SIMD 프리픽스 인코딩 필드에 인코딩되고; 런타임에서 디코더의 PLA에 제공되기 전에 레거시 SIMD 프리픽스 내로 확장된다(그래서, PLA는 수정 없이 레거시와, 이들 레거시 명령어의 EVEX 포맷 양자를 실행할 수 있다). 더 새로운 명령어들이 오피코드 확장으로서 직접 EVEX 프리픽스 인코딩 필드의 내용을 사용할 수 있지만, 소정 실시예들은 일관성을 위해 유사한 방식으로 확장되고, 오히려 상이한 의미들이 이들 레거시 SIMD 프리픽스들에 의해 특정되는 것을 허용한다. 대안적인 실시예는 2비트 SIMD 프리픽스 인코딩들을 지원하도록 PLA를 재설계할 수 있고, 따라서 확장을 요구하지 않는다.
알파 필드(2852)(EVEX 바이트 3, 비트[7] - EH; EVEX.EH, EVEX.rs, EVEX.RL, EVEX.기입 마스크 제어, 및 EVEX.N이라고도 알려짐; 또한 α로 예시됨) - 앞서 설명된 바와 같이, 이 필드는 콘텍스트 특정적이다.
베타 필드(2854)(EVEX 바이트 3, 비트 [6:4] - SSS; EVEX.s2-0, EVEX.r2-0, EVEX.rr1, EVEX.LL0, EVEX.LLB로도 알려짐; 또한 βββ로 예시됨) - 앞서 설명된 바와 같이, 이 필드는 콘텍스트 특정적이다.
REX' 필드(2810) - 이것은 REX' 필드의 나머지이고, 확장된 32 레지스터 세트의 상위 16 또는 하위 16 중 어느 하나를 인코딩하는 데 사용될 수 있는 EVEX.V' 비트 필드(EVEX 바이트 3, 비트 [3] - V')이다. 이 비트는 비트 반전된 포맷으로 저장된다. 하위 16개의 레지스터를 인코딩하는 데 1의 값이 사용된다. 다시 말하면, V'VVVV는 EVEX.V', EVEX.vvvv를 결합함으로써 형성된다.
기입 마스크 필드(2870)(EVEX 바이트 3, 비트들 [2:0] - kkk) - 그의 내용은 전술한 바와 같은 기입 마스크 레지스터들에 레지스터의 인덱스를 특정한다. 본 발명의 일 실시예에서, 특정 값 EVEX.kkk=000은 특정 명령어에 대해 어떤 기입 마스크도 사용되지 않음을 암시하는 특정한 거동을 갖는다(이것은 모든 것들에 하드와이어드된 기입 마스크의 사용 또는 마스킹 하드웨어를 바이패스하는 하드웨어의 사용을 포함하는 각종 방식들로 구현될 수 있음).
실제 오피코드 필드(2930)(바이트 4)는 또한 오피코드 바이트로 알려진다. 오피코드의 일부는 이 필드에서 특정된다.
MOD R/M 필드(2940)(바이트 5)는 MOD 필드(2942), Reg 필드(2944), 및 R/M 필드(2946)를 포함한다. 전술한 바와 같이, MOD 필드(2942)의 내용은 메모리 액세스와 메모리 액세스 없음 연산들 사이를 구별한다. Reg 필드(2944)의 역할은, 목적지 레지스터 피연산자 또는 소스 레지스터 피연산자 중 어느 하나를 인코딩하는 것 또는 오피코드 확장으로서 취급되고 임의의 명령어 피연산자를 인코딩하는데 사용되지 않는 두 가지 상황으로 요약될 수 있다. R/M 필드(2946)의 역할은 메모리 어드레스를 참조하는 명령어 피연산자를 인코딩하거나 목적지 레지스터 피연산자 또는 소스 레지스터 피연산자를 인코딩하는 것을 포함할 수 있다.
SIB(Scale, Index, Base) 바이트(바이트 6) - 전술한 바와 같이, 스케일 필드(2850)의 내용은 메모리 어드레스 생성을 위해 사용된다. SIB.xxx(2954) 및 SIB.bbb(2956) - 이 필드들의 내용은 레지스터 인덱스들 Xxxx 및 Bbbb과 관련하여 앞서 언급하였다.
변위 필드(2862A)(바이트들 7-10) - MOD 필드(2942)가 10을 포함할 때, 바이트들 7-10은 변위 필드(2862A)이고, 그것은 레거시 32-비트 변위(disp32)와 동일하게 작용하고, 바이트 입도에서 작용한다.
변위 인자 필드(2862B)(바이트 7) - MOD 필드(2942)가 01을 포함할 때, 바이트 7은 변위 인자 필드(2862B)이다. 이 필드의 위치는 바이트 입도로 작용하는 레거시 x86 명령어 세트 8비트 변위(disp8)의 위치와 동일하다. disp8이 부호 확장되기(sign extended) 때문에, 이것은 단지 -128과 127바이트 오프셋들 사이를 어드레싱할 수 있고; 64바이트 캐시 라인들에 관하여, disp8은 4개의 실제 유용한 값들인 -128, -64, 0, 64로만 설정될 수 있는 8비트를 사용하며; 더 큰 범위가 종종 필요하기 때문에, disp32가 사용되지만; disp32는 4바이트를 요구한다. disp8 및 disp32와 반대로, 변위 인자 필드(2862B)는 disp8의 재해석이고; 변위 인자 필드(2862B)를 사용할 때, 실제 변위는 메모리 피연산자 액세스의 사이즈(N)로 곱해진 변위 인자 필드의 내용에 의해 결정된다. 이러한 유형의 변위는 disp8*N으로 지칭된다. 이것은 평균 명령어 길이를 감소시킨다(단일 바이트가 그 변위에 사용되지만 훨씬 더 큰 범위를 갖는다). 이러한 압축된 변위는, 유효 변위가 메모리 액세스의 입도의 배수이고, 그에 따라 어드레스 오프셋의 잉여 하위 비트들이 인코딩될 필요가 없다는 가정에 기초한다. 다시 말해, 변위 인자 필드(2862B)는 레거시 x86 명령어 세트 8-비트 변위를 대체한다. 따라서, 변위 인자 필드(2862B)는 disp8이 disp8*N로 오버로드된다는 것만 제외하고 x86 명령어 세트 8-비트 변위와 동일한 방식으로 인코딩된다(그래서 ModRM/SIB 인코딩 규칙들에서 어떠한 것도 변하지 않는다). 다시 말하면, 인코딩 규칙들 또는 인코딩 길이들에서 어떤 변경도 존재하지 않지만, (바이트-관련 어드레스 오프셋(byte-wise address offset)을 획득하기 위해 메모리 피연산자의 사이즈에 의해 변위를 스케일링할 필요가 있는) 하드웨어에 의한 변위 값의 해석에서만 변경이 존재한다.
즉치 필드(2872)는 전술한 바와 같이 동작한다.
풀 오피코드 필드
도 29b는 본 발명의 일 실시예에 따른 풀 오피코드 필드(2874)를 구성하는 특정적 벡터 친화적 명령어 포맷(2900)의 필드들을 도시하는 블록도이다. 구체적으로, 풀 오피코드 필드(2874)는 포맷 필드(2840), 베이스 연산 필드(2842), 및 데이터 요소 폭(W) 필드(2864)를 포함한다. 베이스 연산 필드(2842)는 프리픽스 인코딩 필드(2925), 오피코드 맵 필드(2915), 및 실제 오피코드 필드(2930)를 포함한다.
레지스터 인덱스 필드
도 29c는 본 발명의 일 실시예에 따른 레지스터 인덱스 필드(2844)를 구성하는 특정적 벡터 친화적 명령어 포맷(2900)의 필드들을 도시하는 블록도이다. 구체적으로, 레지스터 인덱스 필드(2844)는 REX 필드(2905), REX' 필드(2910), MODR/M.reg 필드(2944), MODR/M.r/m 필드(2946), VVVV 필드(2920), xxx 필드(2954), 및 bbb 필드(2956)를 포함한다.
증강 연산 필드
도 29d는 본 발명의 일 실시예에 따른 증강 연산 필드(2850)를 구성하는 특정적 벡터 친화적 명령어 포맷(2900)의 필드들을 도시하는 블록도이다. 클래스(U) 필드(2868)가 0을 포함할 때, 그것은 EVEX.U0(클래스 A(2868A))를 의미하고; 그것이 1을 포함할 때, 그것은 EVEX.U1(클래스 B(2868B))을 의미한다. U=0이고 MOD 필드(2942)가 11을 포함할 때(메모리 액세스 없음 연산을 의미함), 알파 필드(2852)(EVEX 바이트 3, 비트 [7] - EH)는 rs 필드(2852A)로서 해석된다. rs 필드(2852A)가 1을 포함할 때(라운드(2852A.1)), 베타 필드(2854)(EVEX 바이트 3, 비트들 [6:4]- SSS)는 라운드 제어 필드(2854A)로서 해석된다. 라운드 제어 필드(2854A)는 1비트 SAE 필드(2856) 및 2비트 라운드 연산 필드(2858)를 포함한다. rs 필드(2852A)가 0을 포함할 때(데이터 변환(2852A.2)), 베타 필드(2854)(EVEX 바이트 3, 비트들 [6:4]- SSS)는 3비트 데이터 변환 필드(2854B)로서 해석된다. U=0이고 MOD 필드(2942)가 00, 01, 또는 10을 포함할 때(메모리 액세스 연산을 의미함), 알파 필드(2852)(EVEX 바이트 3, 비트 [7] - EH)는 축출 힌트(eviction hint)(EH) 필드(2852B)로서 해석되고, 베타 필드(2854)(EVEX 바이트 3, 비트들 [6:4]- SSS)는 3비트 데이터 조작 필드(2854C)로서 해석된다.
U=1일 때, 알파 필드(2852)(EVEX 바이트 3, 비트 [7] - EH)는 기입 마스크 제어(Z) 필드(2852C)로서 해석된다. U=1이고 MOD 필드(2942)가 11을 포함할 때(메모리 액세스 없음 연산을 의미함), 베타 필드(2854)의 부분(EVEX 바이트 3, 비트 [4]- S0)은 RL 필드(2857A)로서 해석되고; 그것이 1을 포함할 때(라운드(2857A.1)), 베타 필드(2854)의 나머지(EVEX 바이트 3, 비트 [6-5]- S2-1)는 라운드 연산 필드(2859A)로서 해석되고, RL 필드(2857A)가 0을 포함할 때(VSIZE(2857.A2)), 베타 필드(2854)의 나머지(EVEX 바이트 3, 비트 [6-5]- S2-1)는 벡터 길이 필드(2859B)(EVEX 바이트 3, 비트 [6-5]- L1-0)로서 해석된다. U=1이고 MOD 필드(2942)가 00, 01, 또는 10을 포함할 때(메모리 액세스 연산을 의미함), 베타 필드(2854)(EVEX 바이트 3, 비트들 [6:4]- SSS)는 벡터 길이 필드(2859B)(EVEX 바이트 3, 비트 [6-5]- L1-0) 및 브로드캐스트 필드(2857B)(EVEX 바이트 3, 비트 [4]- B)로서 해석된다.
예시적인 레지스터 아키텍처
도 30은 본 발명의 일 실시예에 따른 레지스터 아키텍처(3000)의 블록도이다. 도시된 실시예에서, 폭이 512비트인 32개의 벡터 레지스터들(3010)이 존재하고; 이들 레지스터들은 zmm0 내지 zmm31로서 참조된다. 하위 16개의 zmm 레지스터들의 하위 256비트는 레지스터들 ymm0-16에 오버레이된다. 하위 16개의 zmm 레지스터들의 하위 128비트(ymm 레지스터들의 하위 128비트)는 레지스터들 xmm0-15에 오버레이된다. 특정적 벡터 친화적 명령어 포맷(2900)은 아래 표에 예시된 바와 같이 이들 오버레이된 레지스터 파일에 대해 동작한다.
Figure pct00011
다시 말해, 벡터 길이 필드(2859B)는 최대 길이와 하나 이상의 다른 더 짧은 길이들 사이에서 선택하고, 각각의 그러한 더 짧은 길이는 선행 길이의 절반 길이이고; 벡터 길이 필드(2859B)를 갖지 않는 명령어 템플릿들은 최대 벡터 길이에 대해 동작한다. 또한, 일 실시예에서, 특정적 벡터 친화적 명령어 포맷(2900)의 클래스 B 명령어 템플릿들은 패킹된 또는 스칼라 단일/2배 정밀도 부동 소수점 데이터 및 패킹된 또는 스칼라 정수 데이터에 대해 동작한다. 스칼라 연산들은 zmm/ymm/xmm 레지스터 내의 최하위 데이터 요소 위치에서 수행되는 연산들이고; 상위 데이터 요소 위치들은 실시예에 따라 명령어 이전에 이들이 있었던 것과 동일하게 남겨지거나 또는 제로화된다.
기입 마스크 레지스터들(3015) - 예시된 실시예에서, 각각 64비트 사이즈인 8개의 기입 마스크 레지스터(k0 내지 k7)가 존재한다. 대안적인 실시예에서, 기입 마스크 레지스터들(3015)은 16비트 사이즈이다. 전술한 바와 같이, 본 발명의 일 실시예에서, 벡터 마스크 레지스터 k0은 기입 마스크로서 사용될 수 없고; 통상적으로 k0을 나타내는 인코딩이 기입 마스크를 위해 사용될 때, 이것은 0xFFFF의 하드와이어드 기입 마스크(hardwired write mask)를 선택하여, 그 명령어에 대한 기입 마스킹을 효과적으로 디스에이블한다.
범용 레지스터들(3025) - 예시된 실시예에서, 메모리 피연산자들을 어드레싱하기 위해 기존의 x86 어드레싱 모드들과 함께 사용되는 16개의 64-비트 범용 레지스터들이 존재한다. 이들 레지스터들은 RAX, RBX, RCX, RDX, RBP, RSI, RDI, RSP 및 R8 내지 R15라는 이름들로 참조된다.
MMX 패킹된 정수 플랫 레지스터 파일(3050)이 에일리어싱되는 스칼라 부동 소수점 스택 레지스터 파일(x87 스택)(3045) - 예시된 실시예에서, x87 스택은 x87 명령어 세트 확장을 사용하여 32/64/80-비트 부동 소수점 데이터에 대해 스칼라 부동 소수점 연산들을 수행하는 데 사용된 8-요소 스택이고; MMX 레지스터들을 사용하여 64-비트 패킹된 정수 데이터에 대해 연산들을 수행하고, 또한 MMX 및 XMM 레지스터들 사이에서 수행되는 일부 연산들에 대한 피연산자들을 홀드한다.
본 발명의 대안적인 실시예들은 더 넓거나 더 좁은 레지스터들을 사용할 수 있다. 부가적으로, 본 발명의 대안적인 실시예들은 더 많거나, 더 적거나 또는 상이한 레지스터 파일들 및 레지스터들을 사용할 수 있다.
예시적인 코어 아키텍처들, 프로세서들, 및 컴퓨터 아키텍처들
프로세서 코어들은, 상이한 방식으로, 상이한 목적을 위해, 상이한 프로세서에서 구현될 수 있다. 예를 들어, 그런 코어들의 구현은, 1) 범용 컴퓨팅을 위해 의도된 범용 순차 코어, 2) 범용 컴퓨팅을 위해 의도된 고성능 범용 비순차 코어, 및 3) 주로 그래픽 및/또는 과학적(쓰루풋) 컴퓨팅을 위해 의도된 특수 목적 코어를 포함할 수 있다. 상이한 프로세서의 구현은, 1) 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 순차 코어 및/또는 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 비순차 코어를 포함하는 CPU; 및 2) 주로 그래픽 및/또는 과학적(쓰루풋) 컴퓨팅을 위해 의도된 하나 이상의 특수 목적 코어를 포함하는 코프로세서를 포함할 수 있다. 이러한 상이한 프로세서들은 상이한 컴퓨터 시스템 아키텍처들을 초래하고, 이들 컴퓨터 시스템 아키텍처들은, 1) CPU와는 별개의 칩 상의 코프로세서; 2) CPU와 동일한 패키지에서의 별개의 다이 상의 코프로세서; 3) CPU와 동일한 다이 상의 코프로세서(이 경우, 이러한 코프로세서는 때때로 통합된 그래픽 및/또는 과학적(쓰루풋) 로직과 같은 특수 목적 로직 또는 특수 목적 코어로 지칭됨); 및 4) 부가적인 기능성, 전술한 코프로세서 및 전술한 CPU(때때로 애플리케이션 코어(들) 또는 애플리케이션 프로세서(들)로 지칭됨)와 동일한 다이 상에 포함될 수 있는 시스템 온 칩을 포함할 수 있다. 예시적 코어 아키텍처들이 다음에 설명되고, 예시적 프로세서들 및 컴퓨터 아키텍처들의 설명들이 후속된다.
예시적 코어 아키텍처들
순차 및 비순차 코어 블록도
도 31a는 본 발명의 실시예들에 따른, 예시적인 순차 파이프라인과, 예시적인 레지스터 리네이밍, 비순차 발행/실행 파이프라인 양자 모두를 도시하는 블록도이다. 도 31b는 본 발명의 실시예들에 따른 프로세서에 포함될 순차 아키텍처 코어의 예시적인 실시예와, 예시적인 레지스터 리네이밍, 비순차 발행/실행 아키텍처 코어 양자 모두를 도시하는 블록도이다. 도 31a-b에서 실선 박스들은 파이프라인 및 순차 코어를 도시하는 한편, 점선 박스들의 옵션 추가는 레지스터 리네이밍, 비순차 발행/실행 파이프라인 및 코어를 도시한다. 순차적 양태가 비순차적 양태의 서브세트인 것으로 주어진다면, 비순차 양태가 설명될 것이다.
도 31a에서, 프로세서 파이프라인(3100)은 페치 스테이지(3102), 길이 디코드 스테이지(3104), 디코드 스테이지(3106), 할당 스테이지(3108), 리네이밍 스테이지(3110), 스케줄링(디스패치 또는 발행으로도 알려져 있음) 스테이지(3112), 레지스터 판독/메모리 판독 스테이지(3114), 실행 스테이지(3116), 라이트 백(write back)/메모리 기입 스테이지(3118), 예외 처리 스테이지(3122) 및 커밋 스테이지(3124)를 포함한다.
도 31b는 실행 엔진 유닛(3150)에 결합된 프론트 엔드 유닛(3130) - 이들 양자는 메모리 유닛(3170)에 결합됨 - 을 포함하는 프로세서 코어(3190)를 도시한다. 코어(3190)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어, 또는 하이브리드 또는 대안적인 코어 타입일 수 있다. 또 다른 옵션으로서, 코어(3190)는, 예를 들어 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, 범용 컴퓨팅 그래픽 처리 유닛(general purpose computing graphics processing unit)(GPGPU) 코어, 그래픽 코어 등과 같은 특수 목적 코어일 수 있다.
프론트 엔드 유닛(3130)은 명령어 캐시 유닛(3134)에 결합된 분기 예측 유닛(3132)을 포함하고, 이 명령어 캐시 유닛은 명령어 변환 색인 버퍼(translation lookaside buffer)(TLB)(3136)에 결합되고, 이 명령어 변환 색인 버퍼는 명령어 페치 유닛(3138)에 결합되고, 이 명령어 페치 유닛은 디코드 유닛(3140)에 결합된다. 디코드 유닛(3140)(또는 디코더)은 명령어들을 디코딩하고, 출력으로서 하나 이상의 마이크로연산들, 마이크로코드 엔트리 포인트들, 마이크로명령어들, 다른 명령어들, 또는 다른 제어 신호들을 생성할 수 있는데, 이들은 오리지널 명령어들로부터 디코딩되거나, 또는 다른 방식으로 오리지널 명령어들을 반영하거나 오리지널 명령어들로부터 도출된다. 디코드 유닛(3140)은 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘의 예는 탐색 테이블, 하드웨어 구현, 프로그램 가능 로직 어레이(PLA), 마이크로코드 판독 전용 메모리(ROM) 등을 포함하지만 이에 한정되지 않는다. 일 실시예에서, 코어(3190)는 (예를 들어, 디코드 유닛(3140)에서 또는 다른 방식으로 프론트 엔드 유닛(3130) 내에) 특정 매크로명령어들을 위한 마이크로코드를 저장하는 마이크로코드 ROM 또는 다른 매체를 포함한다. 디코드 유닛(3140)은 실행 엔진 유닛(3150)에서의 리네임/할당자 유닛(3152)에 결합된다.
실행 엔진 유닛(3150)은, 하나 이상의 스케줄러 유닛(들)(3156)의 세트 및 리타이어먼트 유닛(3154)에 결합된 리네임/할당자 유닛(3152)을 포함한다. 스케줄러 유닛(들)(3156)은, 예약 스테이션들, 중앙 명령어 윈도우 등을 포함하는 임의의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(3156)은 물리적 레지스터 파일(들) 유닛(들)(3158)에 결합된다. 물리적 레지스터 파일(들) 유닛들(3158) 각각은 하나 이상의 물리적 레지스터 파일을 나타내고, 이들 중 상이한 물리적 레지스터 파일들은 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등과 같은 하나 이상의 상이한 데이터 타입을 저장한다. 일 실시예에서, 물리적 레지스터 파일(들) 유닛(3158)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛 및 스칼라 레지스터 유닛을 포함한다. 이들 레지스터 유닛들은 아키텍처 벡터 레지스터들, 벡터 마스크 레지스터들 및 범용 레지스터들을 제공할 수 있다. 물리적 레지스터 파일(들) 유닛(들)(3158)은, (예를 들어, 재정렬 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하여; 미래 파일(들), 이력 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하여; 레지스터 맵들 및 레지스터들의 풀을 사용하여) 레지스터 리네이밍 및 비순차 실행이 구현될 수 있는 다양한 방식들을 예시하기 위해서 리타이어먼트 유닛(3154)에 의해 중첩된다. 리타이어먼트 유닛(3154) 및 물리적 레지스터 파일(들) 유닛(들)(3158)은 실행 클러스터(들)(3160)에 결합된다. 실행 클러스터(들)(3160)는 하나 이상의 실행 유닛(3162)의 세트 및 하나 이상의 메모리 액세스 유닛(3164)의 세트를 포함한다. 실행 유닛들(3162)은 다양한 타입의 데이터(예를 들어, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예를 들어, 시프트, 가산, 감산, 승산)을 수행할 수 있다. 일부 실시예들은 특정 기능들이나 기능들의 세트들에 전용의 복수의 실행 유닛을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛, 또는 모두가 모든 기능들을 수행하는 복수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(3156), 물리적 레지스터 파일(들) 유닛(들)(3158) 및 실행 클러스터(들)(3160)는 가능하게는 복수 개인 것으로 도시되어 있는데, 그 이유는 특정 실시예들이 특정 타입의 데이터/연산들에 대해 별개의 파이프라인들(예를 들어, 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 자신의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛 및/또는 실행 클러스터를 각각 갖는 메모리 액세스 파이프라인 - 별개의 메모리 액세스 파이프라인의 경우에, 이 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(3164)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 개별 파이프라인들이 사용되는 경우, 이들 파이프라인 중 하나 이상은 비순차적 발행/실행일 수 있고 나머지는 순차적일 수 있다는 점도 이해해야 한다.
메모리 액세스 유닛들(3164)의 세트는 메모리 유닛(3170)에 결합되고, 이 메모리 유닛은 레벨 2(L2) 캐시 유닛(3176)에 결합되는 데이터 캐시 유닛(3174)에 결합된 데이터 TLB 유닛(3172)을 포함한다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛들(3164)은 로드 유닛(load unit), 어드레스 저장 유닛(store address unit) 및 데이터 저장 유닛(store data unit)을 포함할 수 있으며, 이들 각각은 메모리 유닛(3170)에서의 데이터 TLB 유닛(3172)에 결합된다. 명령어 캐시 유닛(3134)은 메모리 유닛(3170)에서의 레벨 2(L2) 캐시 유닛(3176)에 또한 결합된다. L2 캐시 유닛(3176)은 하나 이상의 다른 레벨의 캐시에 그리고 궁극적으로는 메인 메모리에 결합된다.
예로서, 예시적 레지스터 리네이밍, 비순차 발행/실행 코어 아키텍처는 다음과 같이 파이프라인(3100)을 구현할 수 있다: 1) 명령어 페치(3138)는 페치 및 길이 디코딩 스테이지들(3102 및 3104)을 수행하고; 2) 디코드 유닛(3140)은 디코드 스테이지(3106)를 수행하고; 3) 리네임/할당자 유닛(3152)은 할당 스테이지(3108) 및 리네이밍 스테이지(3110)를 수행하고; 4) 스케줄러 유닛(들)(3156)은 스케줄 스테이지(3112)를 수행하고; 5) 물리적 레지스터 파일(들) 유닛(들)(3158) 및 메모리 유닛(3170)은 레지스터 판독/메모리 판독 스테이지(3114)를 수행하고; 실행 클러스터(3160)는 실행 스테이지(3116)를 수행하고; 6) 메모리 유닛(3170) 및 물리적 레지스터 파일(들) 유닛(들)(3158)은 라이트 백/메모리 기입 스테이지(3118)를 수행하고; 7) 다양한 유닛들이 예외 처리 스테이지(3122)에 수반될 수 있고; 8) 리타이어먼트 유닛(3154) 및 물리적 레지스터 파일(들) 유닛(들)(3158)은 커밋 스테이지(3124)를 수행한다.
코어(3190)는, 본 명세서에 설명된 명령어(들)를 포함하는, 하나 이상의 명령어 세트들(예를 들어, (더 새로운 버전들이 추가된 소정의 확장들을 갖는) x86 명령어 세트; 캘리포니아주 서니베일 소재의 MIPS Technologies의 MIPS 명령어 세트; 캘리포니아주 서니베일 소재의 ARM Holdings의 (NEON과 같은 옵션의 추가 확장을 갖는) ARM 명령어 세트)을 지원할 수 있다. 일 실시예에서, 코어(3190)는 패킹된 데이터 명령어 세트 확장(예를 들어, AVX1, AVX2)을 지원하는 로직을 포함하며, 그에 따라 많은 멀티미디어 애플리케이션들에 의해 사용되는 연산들이 패킹된 데이터를 사용하여 수행되는 것을 허용한다.
코어가 (연산들 또는 스레드들의 2개 이상의 병렬 세트를 실행하는) 멀티스레딩을 지원할 수 있고, 시간 슬라이싱된 멀티스레딩, 동시 멀티스레딩을 포함하는 다양한 방식으로(이 경우 단일 물리적 코어는 물리적 코어가 동시 멀티스레딩인 스레드들 각각에 로직 코어를 제공한다), 또는 이들의 조합(예를 들어, Intel® Hyperthreading technology에서와 같은 시간 슬라이싱된 페칭 및 디코딩과, 그 후의 동시 멀티스레딩)으로 지원할 수 있음을 이해해야 한다.
레지스터 리네이밍이 비순차적 실행의 맥락에서 설명되었지만, 레지스터 리네이밍은 순차적 아키텍처에서 사용될 수도 있다는 점을 이해해야 한다. 프로세서의 예시된 실시예가 별개의 명령어 및 데이터 캐시 유닛들(3134/3174) 및 공유 L2 캐시 유닛(3176)을 또한 포함하지만, 대안적인 실시예들은, 예를 들어 레벨 1(L1) 내부 캐시 또는 다수의 레벨의 내부 캐시와 같이, 명령어들 및 데이터 양쪽 모두에 대한 단일 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와, 코어 및/또는 프로세서에 대해 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서에 대해 외부에 있을 수 있다.
특정한 예시적 비순차 코어 아키텍처
도 32a-b는 코어가 칩 내의 여러 로직 블록들(동일한 타입 및/또는 상이한 타입의 다른 코어들을 포함함) 중 하나의 로직 블록인 보다 구체적인 예시적인 순차 코어 아키텍처의 블록도를 도시한다. 로직 블록들은 애플리케이션에 따라, 일부 고정된 기능 로직, 메모리 I/O 인터페이스들, 및 다른 필요한 I/O 로직을 갖는 고 대역폭 인터커넥트 네트워크(예를 들어, 링 네트워크)를 통해 통신한다.
도 32a는, 본 발명의 실시예들에 따른, 단일 프로세서 코어를, 온-다이 인터커넥트 네트워크(3202)로의 그 접속 및 레벨 2(L2) 캐시의 그 로컬 서브세트(3204)와 함께, 나타낸 블록도이다. 일 실시예에서, 명령어 디코더(3200)는 패킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(3206)는 스칼라 유닛 및 벡터 유닛에 대한 캐시 메모리로의 낮은 레이턴시 액세스들을 허용한다. (설계를 간략화하기 위한) 일 실시예에서, 스칼라 유닛(3208) 및 벡터 유닛(3210)은 개별 레지스터 세트들(각각, 스칼라 레지스터들(3212) 및 벡터 레지스터들(3214))을 사용하고, 이들 사이에 전송되는 데이터는 메모리에 기입되고 나서 레벨 1(L1) 캐시(3206)로부터 리드 백(read back)되는 반면, 본 발명의 대안적인 실시예들은 상이한 접근방식을 사용할 수 있다(예를 들어, 단일 레지스터 세트를 사용하거나, 또는 기입 및 리드 백되지 않고 데이터가 2개의 레지스터 파일들 사이에서 전송되게 하는 통신 경로를 포함함).
L2 캐시의 로컬 서브세트(3204)는, 프로세서 코어 당 하나씩인 개별 로컬 서브세트들로 분할되는 글로벌 L2 캐시의 일부이다. 각각의 프로세서 코어는 L2 캐시의 그 자신의 로컬 서브세트(3204)에 대한 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 자신의 L2 캐시 서브세트(3204)에 저장되며, 다른 프로세서 코어들이 그들 자신의 로컬 L2 캐시 서브세트들에 액세스하는 것과 병렬로 빠르게 액세스될 수 있다. 프로세서 코어에 의해 기입되는 데이터는 그 자신의 L2 캐시 서브세트(3204)에 저장되고 필요하다면 다른 서브세트들로부터 플러싱된다. 링 네트워크는 공유 데이터에 대한 코히런시를 보장한다. 링 네트워크는 양-방향성이어서, 프로세서 코어들, L2 캐시들 및 다른 로직 블록들과 같은 에이전트들이 칩 내에서 상호 통신하는 것을 허용한다. 각각의 링 데이터-경로는 방향당 1012비트 폭이다.
도 32b는 본 발명의 실시예들에 따른 도 32a의 프로세서 코어의 일부분의 확대도이다. 도 32b는 L1 캐시(3204)의 일부인 LI 데이터 캐시(3206A)뿐만 아니라 벡터 유닛(3210) 및 벡터 레지스터들(3214)에 관한 보다 상세한 내용을 포함한다. 구체적으로, 벡터 유닛(3210)은 정수, 단일 정밀도 부동 소수점, 및 2배 정밀도 부동 소수점 명령어들 중 하나 이상을 실행하는 16-와이드(16-wide) 벡터 처리 유닛(VPU)(16-와이드 ALU(3228)를 참조)이다. VPU는 스위즐링 유닛(3220)을 이용한 레지스터 입력들의 스위즐링(swizzling), 수치 변환 유닛(3222A-B)을 이용한 수치 변환, 및 복제 유닛(3224)을 이용한 메모리 입력에 대한 복제를 지원한다. 기입 마스크 레지스터들(3226)은 결과적인 벡터 기입들을 서술하는 것(predicating)을 허용한다.
통합된 메모리 제어기 및 그래픽스를 구비한 프로세서
도 33은 본 발명의 실시예들에 따른, 하나보다 많은 코어를 가질 수 있고 통합된 메모리 제어기를 가질 수 있으며, 통합된 그래픽스를 가질 수 있는 프로세서(3300)의 블록도이다. 도 33의 실선 박스들은, 단일 코어(3302A), 시스템 에이전트(3310), 하나 이상의 버스 제어기 유닛(3316)의 세트를 갖는 프로세서(3300)를 예시하는 한편, 파선 박스들의 옵션 추가는, 다수의 코어(3302A-N), 시스템 에이전트 유닛(3310)에서의 하나 이상의 통합된 메모리 제어기 유닛(들)(3314)의 세트 및 특수 목적 로직(3308)을 갖는 대안적인 프로세서(3300)를 예시한다.
따라서, 프로세서(3300)의 상이한 구현들은, 1) (하나 이상의 코어를 포함할 수 있는) 통합된 그래픽스 및/또는 과학적(쓰루풋) 로직인 특수 목적 로직(3308), 및 하나 이상의 범용 코어(예를 들어, 범용 순차 코어들, 범용 비순차 코어들, 이 둘의 조합)인 코어들(3302A-N)을 갖는 CPU; 2) 주로 그래픽스 및/또는 과학적(쓰루풋)을 위해 의도된 다수의 특수 목적 코어인 코어들(3302A-N)을 갖는 코프로세서; 및 3) 다수의 범용 순차 코어인 코어들(3302A-N)을 갖는 코프로세서를 포함할 수 있다. 따라서, 프로세서(3300)는 범용 프로세서, 코프로세서 또는 특수 목적 프로세서, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(general purpose graphics processing unit), 고스루풋 MIC(many integrated core) 코프로세서(30개 이상의 코어를 포함함), 임베디드 프로세서 등일 수 있다. 프로세서는 하나 이상의 칩 상에 구현될 수 있다. 프로세서(3300)는, 예를 들어 BiCMOS, CMOS 또는 NMOS와 같은 다수의 프로세스 기술 중 임의의 것을 사용하여 하나 이상의 기판 상에 구현될 수 있고/있거나 그 일부일 수 있다.
메모리 계층구조는, 코어들 내의 하나 이상의 레벨의 캐시, 하나 이상의 공유 캐시 유닛(3306)의 세트, 및 통합된 메모리 제어기 유닛(3314)의 세트에 결합된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(3306)의 세트는, 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 다른 레벨 캐시와 같은 하나 이상의 중간 레벨 캐시, 최종 레벨 캐시(last level cache)(LLC) 및/또는 이들의 조합을 포함할 수 있다. 일 실시예에서, 링 기반 인터커넥트 유닛(3312)은 통합된 그래픽 로직(3308), 공유 캐시 유닛들(3306)의 세트 및 시스템 에이전트 유닛(3310)/통합된 메모리 제어기 유닛(들)(3314)을 인터커넥트하지만, 대안적인 실시예들은 이러한 유닛들을 인터커넥트하기 위해 임의의 수의 잘 알려진 기술을 사용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛(3306)과 코어들(3302-A-N) 사이에 코히런스(coherency)가 유지된다.
일부 실시예에서, 코어들(3302A-N) 중 하나 이상은 멀티스레딩을 할 수 있다. 시스템 에이전트(3310)는 코어들(3302A-N)을 조정하며 동작시키는 이러한 컴포넌트들을 포함한다. 시스템 에이전트 유닛(3310)은, 예를 들어 전력 제어 유닛(PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는, 코어들(3302A-N) 및 통합된 그래픽 로직(3308)의 전력 상태를 조절하기 위해 필요한 로직 및 컴포넌트들일 수 있거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속된 디스플레이들을 구동하기 위한 것이다.
코어들(3302A-N)은 아키텍처 명령어 세트에 관하여 동종이거나 이종일 수 있는데; 즉, 코어들(3302A-N) 중 2개 이상은 동일한 명령어 세트를 실행 가능할 수 있는 한편, 다른 것들은 그 명령어 세트의 서브세트만을 또는 상이한 명령어 세트를 실행 가능할 수 있다.
예시적인 컴퓨터 아키텍처들
도 34-37은 예시적인 컴퓨터 아키텍처들의 블록도들이다. 랩톱들, 데스크톱들, 핸드헬드 PC들, 퍼스널 디지털 어시스턴트들, 엔지니어링 워크스테이션들, 서버들, 네트워크 디바이스들, 네트워크 허브들, 스위치들, 임베디드 프로세서들, DSP(digital signal processor)들, 그래픽 디바이스들, 비디오 게임 디바이스들, 셋톱박스들, 마이크로 제어기들, 휴대 전화들, 휴대용 미디어 플레이어들, 핸드헬드 디바이스들, 및 다양한 다른 전자 디바이스들에 대해 본 기술분야에 알려진 다른 시스템 설계들 및 구성들 또한 적합하다. 일반적으로, 본 명세서에 개시되는 바와 같은 프로세서 및/또는 다른 실행 로직을 통합할 수 있는 매우 다양한 시스템들 또는 전자 디바이스들이 일반적으로 적합하다.
이하 도 34를 참조하면, 본 발명의 일 실시예에 따른 시스템(3400)의 블록도가 도시되어 있다. 시스템(3400)은 제어기 허브(3420)에 결합된 하나 이상의 프로세서(3410, 3415)를 포함할 수 있다. 일 실시예에서, 제어기 허브(3420)는 그래픽 메모리 제어기 허브(GMCH)(3490) 및 입/출력 허브(IOH)(3450)(이들은 별개의 칩들 상에 있을 수 있음)를 포함하고; GMCH(3490)는, 메모리(3440) 및 코프로세서(3445)에 결합되는 메모리 및 그래픽 제어기들을 포함하고; IOH(3450)는 입/출력(I/O) 디바이스들(3460)을 GMCH(3490)에 결합한다. 대안적으로, 메모리 및 그래픽 제어기들 중 하나 또는 양쪽 모두는 (본 명세서에 설명되는 바와 같이) 프로세서 내에 통합되고, 메모리(3440) 및 코프로세서(3445)는 IOH(3450)와 단일 칩에 있는 제어기 허브(3420) 및 프로세서(3410)에 직접 결합된다.
추가 프로세서들(3415)의 옵션 속성은 도 34에서 파선들로 표시되어 있다. 각각의 프로세서(3410, 3415)는 본 명세서에 설명된 처리 코어들 중 하나 이상을 포함할 수 있으며, 프로세서(3300)의 소정의 버전일 수 있다.
메모리(3440)는, 예를 들어 DRAM(dynamic random access memory), PCM(phase change memory) 또는 이 둘의 조합일 수 있다. 적어도 하나의 실시예에 있어서, 제어기 허브(3420)는, FSB(frontside bus)와 같은 다분기 버스(multi-drop bus), QPI(QuickPath Interconnect)와 같은 점대점 인터페이스, 또는 유사한 접속(3495)을 통해, 프로세서(들)(3410, 3415)와 통신한다.
일 실시예에서, 코프로세서(3445)는, 예를 들어 고스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다. 일 실시예에서, 제어기 허브(3420)는 통합된 그래픽 가속기를 포함할 수 있다.
아키텍처, 마이크로아키텍처, 열, 전력 소모 특성 등을 포함하는 다양한 성능 메트릭(metrics of merit)에 관하여 물리적 리소스들(3410, 3415) 사이에는 각종 차이가 존재할 수 있다.
일 실시예에서, 프로세서(3410)는 일반적 타입의 데이터 처리 연산들을 제어하는 명령어들을 실행한다. 명령어들 내에는 코프로세서 명령어들이 임베드될 수 있다. 프로세서(3410)는 부착된 코프로세서(3445)에 의해 실행되어야 하는 타입인 것으로서 이들 코프로세서 명령어들을 인식한다. 따라서, 프로세서(3410)는, 코프로세서(3445)에 대해, 코프로세서 버스 또는 다른 인터커넥트 상에서 이들 코프로세서 명령어들(또는 코프로세서 명령어들을 나타내는 제어 신호들)을 발행한다. 코프로세서(들)(3445)는 수신된 코프로세서 명령어들을 수락하여 실행한다.
이하 도 35를 참조하면, 본 발명의 일 실시예에 따른 제1의 보다 구체적인 예시적 시스템(3500)의 블록도가 도시되어 있다. 도 35에 도시된 바와 같이, 멀티프로세서 시스템(3500)은 점대점 인터커넥트 시스템이고, 점대점 인터커넥트(3550)를 통해 결합되는 제1 프로세서(3570) 및 제2 프로세서(3580)를 포함한다. 프로세서들(3570 및 3580) 각각은 프로세서(3300)의 소정의 버전일 수 있다. 본 발명의 일 실시예에서, 프로세서들(3570 및 3580)은 각각 프로세서들(3410 및 3415)인 한편, 코프로세서(3538)는 코프로세서(3445)이다. 다른 실시예에서, 프로세서들(3570 및 3580)은 각각 프로세서(3410) 및 코프로세서(3445)이다.
프로세서들(3570 및 3580)은 각각 통합된 메모리 제어기(IMC) 유닛들(3572 및 3582)을 포함하는 것으로 도시되어 있다. 또한, 프로세서(3570)는 그 버스 제어기 유닛들의 일부로서 점대점(P-P) 인터페이스들(3576 및 3578)을 포함하고; 유사하게, 제2 프로세서(3580)는 P-P 인터페이스들(3586 및 3588)을 포함한다. 프로세서들(3570, 3580)은 점대점(P-P) 인터페이스 회로들(3578, 3588)을 사용하여 P-P 인터페이스(3550)를 통해 정보를 교환할 수 있다. 도 35에 도시된 바와 같이, IMC들(3572 및 3582)은 프로세서들을 각각의 메모리들, 즉 각각의 프로세서들에 로컬로 부착된 메인 메모리의 부분들일 수 있는 메모리(3532) 및 메모리(3534)에 결합한다.
프로세서들(3570, 3580) 각각은 점대점 인터페이스 회로들(3576, 3594, 3586, 3598)을 사용하여 개별적인 P-P 인터페이스들(3552, 3554)을 통해 칩셋(3590)과 정보를 교환할 수 있다. 선택적으로, 칩셋(3590)은 고성능 인터페이스(3539)를 통해 코프로세서(3538)와 정보를 교환할 수 있다. 일 실시예에서, 코프로세서(3538)는, 예를 들어 고스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다.
공유 캐시(도시되지 않음)는 어느 한 프로세서에 포함되거나, 둘 모두의 프로세서의 외부이지만 여전히 P-P 인터커넥트를 통해 프로세서들과 접속될 수 있어서, 프로세서가 저 전력 모드에 놓이는 경우 어느 한쪽 또는 둘 모두의 프로세서의 로컬 캐시 정보가 공유된 캐시에 저장될 수 있다.
칩셋(3590)은 인터페이스(3596)를 통해 제1 버스(3516)에 결합될 수 있다. 일 실시예에서, 제1 버스(3516)는 PCI(Peripheral Component Interconnect) 버스이거나, 또는 PCI Express 버스 또는 다른 제3세대 I/O 인터커넥트 버스와 같은 버스일 수 있지만, 본 발명의 범위는 이에 제한되지는 않는다.
도 35에 도시된 바와 같이, 제1 버스(3516)를 제2 버스(3520)에 결합하는 버스 브리지(3518)와 함께, 다양한 I/O 디바이스들(3514)이 제1 버스(3516)에 결합될 수 있다. 일 실시예에서, 코프로세서, 고스루풋 MIC 프로세서, GPGPU, (예를 들어, 그래픽 가속기 또는 디지털 신호 처리(DSP) 유닛과 같은) 가속기, 필드 프로그램가능 게이트 어레이 또는 임의의 다른 프로세서와 같은 하나 이상의 추가적인 프로세서(들)(3515)가 제1 버스(3516)에 결합된다. 일 실시예에서, 제2 버스(3520)는 LPC(low pin count) 버스일 수 있다. 일 실시예에서, 예를 들어 키보드 및/또는 마우스(3522), 통신 디바이스들(3527), 및 명령어들/코드 및 데이터(3530)를 포함할 수 있는 디스크 드라이브나 다른 대용량 저장 디바이스와 같은 저장 유닛(3528)을 포함하는 다양한 디바이스들이 제2 버스(3520)에 결합될 수 있다. 또한, 오디오 I/O(3524)가 제2 버스(3520)에 결합될 수 있다. 다른 아키텍처들도 가능하다는 점에 유의한다. 예를 들어, 도 35의 점대점 아키텍처 대신에, 시스템은 다분기 버스 또는 다른 이러한 아키텍처를 구현할 수 있다.
이하 도 36을 참조하면, 본 발명의 일 실시예에 따른 제2의 보다 구체적인 예시적인 시스템(3600)의 블록도가 도시되어 있다. 도 35 및 도 36에서의 유사한 요소들은 유사한 참조 번호들을 지니며, 도 36의 다른 양태들을 모호하게 하는 것을 회피하기 위해서 도 36로부터 도 35의 특정 양태들이 생략되었다.
도 36은 프로세서들(3570, 3580)이 통합된 메모리 및 I/O 제어 로직("CL")(3572 및 3582)을 각각 포함할 수 있는 것을 도시한다. 따라서, CL(3572, 3582)은 통합된 메모리 제어기 유닛들을 포함하며, I/O 제어 로직을 포함한다. 도 36은 메모리들(3532, 3534)이 CL(3572, 3582)에 결합될 뿐만 아니라 I/O 디바이스들(3614)도 제어 로직(3572, 3582)에 결합되는 것을 도시한다. 레거시 I/O 디바이스들(3615)이 칩셋(3590)에 결합된다.
이하 도 37을 참조하면, 본 발명의 일 실시예에 따른 SoC(3700)의 블록도가 도시되어 있다. 도 33에서의 유사한 요소들은 유사한 참조 번호들을 지닌다. 또한, 파선 박스들은 더 진보된 SoC들에 대한 선택적인 피처들이다. 도 37에서, 인터커넥트 유닛(들)(3702)은, 하나 이상의 코어(202A 내지 202N)의 세트 및 공유 캐시 유닛(들)(3306)을 포함하는 애플리케이션 프로세서(3710); 시스템 에이전트 유닛(3310); 버스 제어기 유닛(들)(3316); 통합된 메모리 제어기 유닛(들)(3314); 통합된 그래픽 로직, 이미지 프로세서, 오디오 프로세서 및 비디오 프로세서를 포함할 수 있는 코프로세서들(3720)의 세트 또는 하나 이상의 코프로세서(3720); 정적 랜덤 액세스 메모리(static random access memory)(SRAM) 유닛(3730); 다이렉트 메모리 액세스(direct memory access)(DMA) 유닛(3732); 및 하나 이상의 외부 디스플레이에 결합하기 위한 디스플레이 유닛(3740)에 결합된다. 일 실시예에서, 코프로세서(들)(3720)는, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 고스루풋 MIC 프로세서, 임베디드 프로세서 등과 같은 특수 목적 프로세서를 포함한다.
본 명세서에 개시된 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 이러한 구현 접근법들의 조합으로 구현될 수 있다. 본 발명의 실시예들은,적어도 하나의 프로세서, 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 디바이스 및적어도 하나의 출력 디바이스를 포함하는 프로그램가능 시스템들 상에서 실행되는 컴퓨터 프로그램들 또는 프로그램 코드로서 구현될 수 있다.
도 35에 도시된 코드(3530)와 같은 프로그램 코드는 입력 명령어들에 적용되어, 본 명세서에 설명된 기능들을 수행하고 출력 정보를 생성할 수 있다. 출력 정보는 공지된 방식으로 하나 이상의 출력 디바이스에 적용될 수 있다. 이 애플리케이션을 위해, 처리 시스템은, 예를 들어 디지털 신호 프로세서(DSP), 마이크로컨트롤러, 주문형 집적 회로(ASIC) 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.
프로그램 코드는 처리 시스템과 통신하기 위해 하이 레벨 절차형 또는 객체 지향형 프로그래밍 언어로 구현될 수 있다. 또한, 프로그램 코드는 요구되는 경우에 어셈블리 또는 기계 언어로 구현될 수 있다. 사실상, 본 명세서에 설명된 메커니즘들은 임의의 특정 프로그래밍 언어로 범위가 제한되지는 않는다. 임의의 경우에, 이 언어는 컴파일형 또는 해석형 언어일 수 있다.
적어도 하나의 실시예의 하나 이상의 양태는, 머신에 의해 판독될 때에 이 머신으로 하여금 본 명세서에 설명된 기술들을 수행하는 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 나타내는 머신 판독가능 매체 상에 저장된 대표적인 명령어들에 의해 구현될 수 있다. "IP 코어들"로서 알려진 이러한 표현들은 유형의(tangible) 머신 판독가능 매체 상에 저장되고, 다양한 고객들 또는 제조 설비들에 공급되어, 로직 또는 프로세서를 실제로 제조하는 제조 머신들로 로딩될 수 있다.
이러한 머신 판독가능 저장 매체는, 하드 디스크와, 플로피 디스크, 광 디스크, CD-ROM(compact disk read-only memory)들, CD-RW(compact disk rewritable)들 및 광자기 디스크를 포함하는 임의의 다른 유형의 디스크, 랜덤 액세스 메모리(DRAM)들, SRAM(static random access memory)들, EPROM(erasable programmable read-only memory)들, 플래시 메모리들, EEPROM(electrically erasable programmable read-only memory)들과 같은 랜덤 액세스 메모리(RAM)들, 판독 전용 메모리(ROM)들, PCM(phase change memory)을 포함하는 반도체 디바이스, 자기 또는 광 카드, 또는 전자 명령어들을 저장하는 데 적합한 임의의 다른 타입의 매체와 같은 저장 매체를 포함하는, 머신 또는 디바이스에 의해 제조 또는 형성되는 물품들의 비일시적인 유형의(tangible) 구성들을 포함할 수 있지만, 이들로 제한되지 않는다.
따라서, 본 발명의 실시예들은, 명령어들을 포함하거나, 또는 본 명세서에 설명된 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 피처들을 정의하는 HDL(Hardware Description Language)과 같은 설계 데이터를 포함하는 비일시적인 유형의 머신 판독가능 매체를 또한 포함한다. 이러한 실시예들은 프로그램 제품들로 또한 언급될 수 있다.
에뮬레이션(바이너리 번역, 코드 모핑 등을 포함함)
일부 경우에, 소스 명령어 세트로부터 타깃 명령어 세트로 명령어를 변환하기 위해 명령어 변환기가 사용될 수 있다. 예를 들어, 명령어 변환기는 명령어를 코어에 의해 처리될 하나 이상의 다른 명령어로 (예를 들어, 정적 바이너리 번역, 동적 번역을 포함하는 동적 바이너리 번역을 사용하여) 번역하거나, 모핑하거나, 에뮬레이트하거나, 또는 다른 방식으로 변환할 수 있다. 명령어 변환기는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 명령어 변환기는 온 프로세서(on processor), 오프 프로세서(off processor), 또는 부분 온 및 부분 오프 프로세서(part on and part off processor)일 수 있다.
도 38은 실시예에 따른 소스 명령어 세트에서의 바이너리 명령어들을 타깃 명령어 세트에서의 바이너리 명령어들로 변환하기 위한 소프트웨어 명령어 변환기의 사용을 대조하는 블록도이다. 예시된 실시예에서, 명령어 변환기는 소프트웨어 명령어 변환기이지만, 대안적으로 명령어 변환기는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 다양한 조합으로 구현될 수 있다. 도 38은 하이 레벨 언어(3802)로된 프로그램이 x86 컴파일러(3804)를 사용하여 컴파일링되어, 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(3816)에 의해 본래 실행될 수 있는 x86 바이너리 코드(3806)를 생성할 수 있는 것을 도시한다. 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(3816)는, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위해서, (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 상당부 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서 상에서 실행되도록 되어 있는 오브젝트 코드 버전의 애플리케이션들 또는 다른 소프트웨어를, 호환가능하게 실행하거나 또는 다른 방식으로 처리함으로써, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 기능을 수행할 수 있는 임의의 프로세서를 표현한다. x86 컴파일러(3804)는, 부가적인 링크 처리(linkage processing)를 갖거나 갖지 않고서 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(3816) 상에서 실행될 수 있는 x86 바이너리 코드(3806)(예를 들어, 오브젝트 코드)를 생성하도록 동작 가능한 컴파일러를 나타낸다. 유사하게, 도 38은 하이 레벨 언어(3802)로 된 프로그램이 대안 명령어 세트 컴파일러(3808)를 사용하여 컴파일링되어, 적어도 하나의 x86 명령어 세트 코어를 갖지 않는 프로세서(3814)(예를 들어, 캘리포니아주 서니베일 소재의 MIPS Technologies의 MIPS 명령어 세트를 실행하고/하거나 캘리포니아주 서니베일 소재의 ARM Holdings의 ARM 명령어 세트를 실행하는 코어들을 갖는 프로세서)에 의해 본래 실행될 수 있는 대안 명령어 세트 바이너리 코드(3810)를 생성할 수 있는 것을 도시한다. 명령어 변환기(3812)는, x86 바이너리 코드(3806)를, x86 명령어 세트 코어를 갖지 않는 프로세서(3814)에 의해 본래 실행될 수 있는 코드로 변환하는데 사용된다. 이러한 변환된 코드는 대안 명령어 세트 바이너리 코드(3810)와 동일할 가능성이 낮은데, 그 이유는 이것을 할 수 있는 명령어 변환기가 제조되기 어렵기 때문이다; 그러나 변환된 코드는 일반 연산을 달성할 것이며, 대안 명령어 세트로부터의 명령어들로 이루어질 것이다. 따라서, 명령어 변환기(3812)는, 에뮬레이션, 시뮬레이션 또는 임의의 다른 프로세스를 통해, x86 명령어 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스가 x86 바이너리 코드(3806)를 실행하는 것을 허용하는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 나타낸다.

Claims (18)

  1. 장치로서,
    명령어를 디코딩하는 하드웨어 디코더 - 상기 명령어는 폴백 어드레스(fallback address)의 일부를 저장하기 위한 피연산자 및 오피코드(opcode)를 포함함 - ; 및
    추론 메모리 액세스들을 트래킹하고 데이터 추론 실행(data speculative execution)(DSX) 영역에서의 순서화 위반을 검출하기 위해 DSX 트래킹 하드웨어를 활성화하고 상기 폴백 어드레스를 저장함으로써, 상기 DSX 영역을 개시하기 위해 상기 디코딩된 명령어를 실행하는 실행 하드웨어
    를 포함하는 장치.
  2. 제1항에 있어서, 상기 폴백 어드레스의 일부는 상기 실행 하드웨어에 의해 상기 디코딩된 명령어에 바로 후속하는 명령어의 명령어 포인터에 가산될 변위 값(displacement value)인, 장치.
  3. 제1항에 있어서, 상기 폴백 어드레스의 일부는 완전한(complete) 어드레스인, 장치.
  4. 제1항에 있어서, 상기 폴백 어드레스의 일부를 저장하기 위한 상기 피연산자는 즉치 값(immediate value)인, 장치.
  5. 제1항에 있어서, 상기 폴백 어드레스의 일부를 저장하기 위한 상기 피연산자는 레지스터인, 장치.
  6. 제1항에 있어서, 상기 실행 하드웨어는 추가로, 제한된 트랜잭션 메모리(restricted transactional memory)(RTM) 트랜잭션이 발생하고 있다고 결정하고 상기 RTM 트랜잭션을 처리하는, 장치.
  7. 제1항에 있어서,
    대응하는 DSX 영역 종료들(ends)이 없는 DSX 영역 시작들(starts)의 수에 대응하는 값을 저장하는 DSX 네스팅 카운터(nesting counter)를 더 포함하는 장치.
  8. 방법으로서,
    하드웨어 디코더를 사용하여 명령어를 디코딩하는 단계 - 상기 명령어는 폴백 어드레스의 일부를 저장하기 위한 피연산자 및 오피코드를 포함함 -; 및
    추론 메모리 액세스들을 트래킹하고 데이터 추론 실행(DSX) 영역에서의 순서화 위반을 검출하기 위해 DSX 트래킹 하드웨어를 활성화하고 상기 폴백 어드레스를 저장함으로써, 상기 DSX 영역을 개시하기 위해 디코딩된 명령어를 실행하는 단계
    를 포함하는 방법.
  9. 제8항에 있어서, 상기 폴백 어드레스의 일부는 상기 실행 하드웨어에 의해 상기 디코딩된 명령어에 바로 후속하는 명령어의 명령어 포인터에 가산될 변위 값인, 방법.
  10. 제8항에 있어서, 상기 폴백 어드레스의 일부는 완전한 어드레스인, 방법.
  11. 제8항에 있어서, 상기 폴백 어드레스의 일부를 저장하기 위한 상기 피연산자는 즉치 값인, 방법.
  12. 제8항에 있어서, 상기 폴백 어드레스의 일부를 저장하기 위한 상기 피연산자는 레지스터인, 방법.
  13. 제8항에 있어서, 상기 실행하는 단계는,
    제한된 트랜잭션 메모리(RTM) 트랜잭션이 발생하고 있다고 결정하고 상기 RTM 트랜잭션을 처리하는 단계를 더 포함하는 방법.
  14. 제8항에 있어서,
    대응하는 DSX 영역 종료들이 없는 DSX 영역 시작들의 수에 대응하는 값을 저장하는 단계를 더 포함하는 방법.
  15. 명령어들을 저장하는 비일시적인 머신 판독 가능 매체로서, 상기 명령어들은 머신에 의해 실행될 때 회로가 제조되게 하고, 상기 회로는,
    명령어를 디코딩하는 하드웨어 디코더 - 상기 명령어는 폴백 어드레스의 일부를 저장하기 위한 피연산자 및 오피코드를 포함함 - ; 및
    추론 메모리 액세스들을 트래킹하고 데이터 추론 실행(DSX) 영역에서의 순서화 위반을 검출하기 위해 DSX 트래킹 하드웨어를 활성화하고 상기 폴백 어드레스를 저장함으로써, 상기 DSX 영역을 개시하기 위해 상기 디코딩된 명령어를 실행하는 실행 하드웨어
    를 포함하는 비일시적인 머신 판독 가능 매체.
  16. 제15항에 있어서, 상기 폴백 어드레스의 일부는 상기 실행 하드웨어에 의해 상기 디코딩된 명령어에 바로 후속하는 명령어의 명령어 포인터에 가산될 변위 값인, 비일시적인 머신 판독 가능 매체.
  17. 제15항에 있어서, 상기 폴백 어드레스의 일부는 완전한 어드레스인, 비일시적인 머신 판독 가능 매체.
  18. 제15항에 있어서, 상기 폴백 어드레스의 일부를 저장하기 위한 상기 피연산자는 즉치 값인, 비일시적인 머신 판독 가능 매체.
KR1020177014244A 2014-12-24 2015-11-24 데이터 추론 실행을 위한 시스템, 장치 및 방법 KR102453594B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/582,717 2014-12-24
US14/582,717 US10303525B2 (en) 2014-12-24 2014-12-24 Systems, apparatuses, and methods for data speculation execution
PCT/US2015/062249 WO2016105786A1 (en) 2014-12-24 2015-11-24 Systems, apparatuses, and methods for data speculation execution

Publications (2)

Publication Number Publication Date
KR20170098803A true KR20170098803A (ko) 2017-08-30
KR102453594B1 KR102453594B1 (ko) 2022-10-12

Family

ID=56151336

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020177014244A KR102453594B1 (ko) 2014-12-24 2015-11-24 데이터 추론 실행을 위한 시스템, 장치 및 방법

Country Status (9)

Country Link
US (1) US10303525B2 (ko)
EP (1) EP3238032A4 (ko)
JP (1) JP6867082B2 (ko)
KR (1) KR102453594B1 (ko)
CN (1) CN107003853B (ko)
BR (1) BR112017011104A2 (ko)
SG (1) SG11201704300TA (ko)
TW (1) TWI657371B (ko)
WO (1) WO2016105786A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10942744B2 (en) 2014-12-24 2021-03-09 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US10387156B2 (en) 2014-12-24 2019-08-20 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US10387158B2 (en) 2014-12-24 2019-08-20 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US10061589B2 (en) 2014-12-24 2018-08-28 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US10061583B2 (en) 2014-12-24 2018-08-28 Intel Corporation Systems, apparatuses, and methods for data speculation execution
WO2017086983A1 (en) * 2015-11-19 2017-05-26 Hewlett Packard Enterprise Development Lp Prediction models for concurrency control types
GB2554096B (en) * 2016-09-20 2019-03-20 Advanced Risc Mach Ltd Handling of inter-element address hazards for vector instructions
CN107506329B (zh) * 2017-08-18 2018-06-19 浙江大学 一种自动支持循环迭代流水线的粗粒度可重构阵列及其配置方法
CN113168371A (zh) 2018-12-11 2021-07-23 华为技术有限公司 多主共享存储数据库的写-写冲突检测
CN114489518B (zh) * 2022-03-28 2022-09-09 山东大学 测序数据质量控制方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050204119A1 (en) * 2004-03-09 2005-09-15 Bratin Saha Synchronization of parallel processes
US20080184011A1 (en) * 2007-01-30 2008-07-31 Nema Labs Ab Speculative Throughput Computing
US20140059333A1 (en) * 2012-02-02 2014-02-27 Martin G. Dixon Method, apparatus, and system for speculative abort control mechanisms
US20150032998A1 (en) * 2012-02-02 2015-01-29 Ravi Rajwar Method, apparatus, and system for transactional speculation control instructions

Family Cites Families (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4864930A (en) 1985-05-09 1989-09-12 Graphics Microsystems, Inc. Ink control system
US5511172A (en) 1991-11-15 1996-04-23 Matsushita Electric Co. Ind, Ltd. Speculative execution processor
ES2143490T3 (es) 1992-08-12 2000-05-16 Advanced Micro Devices Inc Decodificador de instrucciones.
JP3670290B2 (ja) 1995-02-14 2005-07-13 富士通株式会社 特殊機能を提供する高性能投機的実行プロセッサの構造及び方法
US5872947A (en) 1995-10-24 1999-02-16 Advanced Micro Devices, Inc. Instruction classification circuit configured to classify instructions into a plurality of instruction types prior to decoding said instructions
KR100203131B1 (ko) 1996-06-24 1999-06-15 김영환 반도체 소자의 초저접합 형성방법
US6128703A (en) 1997-09-05 2000-10-03 Integrated Device Technology, Inc. Method and apparatus for memory prefetch operation of volatile non-coherent data
US6640315B1 (en) 1999-06-26 2003-10-28 Board Of Trustees Of The University Of Illinois Method and apparatus for enhancing instruction level parallelism
US6748589B1 (en) 1999-10-20 2004-06-08 Transmeta Corporation Method for increasing the speed of speculative execution
US6629234B1 (en) 2000-03-30 2003-09-30 Ip. First, L.L.C. Speculative generation at address generation stage of previous instruction result stored in forward cache for use by succeeding address dependent instruction
US6854048B1 (en) 2001-08-08 2005-02-08 Sun Microsystems Speculative execution control with programmable indicator and deactivation of multiaccess recovery mechanism
US7117347B2 (en) 2001-10-23 2006-10-03 Ip-First, Llc Processor including fallback branch prediction mechanism for far jump and far call instructions
US6845442B1 (en) 2002-04-30 2005-01-18 Advanced Micro Devices, Inc. System and method of using speculative operand sources in order to speculatively bypass load-store operations
US6950925B1 (en) 2002-08-28 2005-09-27 Advanced Micro Devices, Inc. Scheduler for use in a microprocessor that supports data-speculative execution
US20040049657A1 (en) * 2002-09-10 2004-03-11 Kling Ralph M. Extended register space apparatus and methods for processors
TWI231450B (en) 2002-10-22 2005-04-21 Ip First Llc Processor including fallback branch prediction mechanism for far jump and far call instructions
US6862664B2 (en) 2003-02-13 2005-03-01 Sun Microsystems, Inc. Method and apparatus for avoiding locks by speculatively executing critical sections
US20040163082A1 (en) 2003-02-13 2004-08-19 Marc Tremblay Commit instruction to support transactional program execution
US7363470B2 (en) 2003-05-02 2008-04-22 Advanced Micro Devices, Inc. System and method to prevent in-flight instances of operations from disrupting operation replay within a data-speculative microprocessor
US7185323B2 (en) 2003-05-16 2007-02-27 Sun Microsystems, Inc. Using value speculation to break constraining dependencies in iterative control flow structures
US20070006195A1 (en) 2004-03-31 2007-01-04 Christof Braun Method and structure for explicit software control of data speculation
TWI305323B (en) 2004-08-23 2009-01-11 Faraday Tech Corp Method for verification branch prediction mechanisms and readable recording medium for storing program thereof
US7856537B2 (en) 2004-09-30 2010-12-21 Intel Corporation Hybrid hardware and software implementation of transactional memory access
US20070118696A1 (en) 2005-11-22 2007-05-24 Intel Corporation Register tracking for speculative prefetching
US7404041B2 (en) 2006-02-10 2008-07-22 International Business Machines Corporation Low complexity speculative multithreading system based on unmodified microprocessor core
CN100568173C (zh) * 2006-09-01 2009-12-09 上海大学 多微控制器系统任务调用方法
US7711678B2 (en) * 2006-11-17 2010-05-04 Microsoft Corporation Software transaction commit order and conflict management
JP5154119B2 (ja) 2007-03-26 2013-02-27 テレフオンアクチーボラゲット エル エム エリクソン(パブル) プロセッサ
US9075622B2 (en) 2008-01-23 2015-07-07 Arm Limited Reducing errors in pre-decode caches
CN101546282B (zh) * 2008-03-28 2011-05-18 国际商业机器公司 用于在处理器中执行写拷贝的方法和设备
US8739141B2 (en) 2008-05-19 2014-05-27 Oracle America, Inc. Parallelizing non-countable loops with hardware transactional memory
US8407455B2 (en) * 2008-07-28 2013-03-26 Advanced Micro Devices, Inc. Coexistence of advanced hardware synchronization and global locks
US9569254B2 (en) 2009-07-28 2017-02-14 International Business Machines Corporation Automatic checkpointing and partial rollback in software transaction memory
US20120227045A1 (en) 2009-12-26 2012-09-06 Knauth Laura A Method, apparatus, and system for speculative execution event counter checkpointing and restoring
US8438571B2 (en) 2010-02-24 2013-05-07 International Business Machines Corporation Thread speculative execution and asynchronous conflict
CN101872299B (zh) * 2010-07-06 2013-05-01 浙江大学 冲突预测实现方法及所用冲突预测处理装置事务存储器
US20120079245A1 (en) 2010-09-25 2012-03-29 Cheng Wang Dynamic optimization for conditional commit
US10387324B2 (en) 2011-12-08 2019-08-20 Intel Corporation Method, apparatus, and system for efficiently handling multiple virtual address mappings during transactional execution canceling the transactional execution upon conflict between physical addresses of transactional accesses within the transactional execution
CN102725741B (zh) * 2011-12-31 2014-11-05 华为技术有限公司 高速缓冲存储器控制方法、装置和系统
US9268596B2 (en) 2012-02-02 2016-02-23 Intel Corparation Instruction and logic to test transactional execution status
US9652242B2 (en) 2012-05-02 2017-05-16 Apple Inc. Apparatus for predicate calculation in processor instruction set
US8688661B2 (en) * 2012-06-15 2014-04-01 International Business Machines Corporation Transactional processing
US9298631B2 (en) 2012-06-15 2016-03-29 International Business Machines Corporation Managing transactional and non-transactional store observability
US9348642B2 (en) 2012-06-15 2016-05-24 International Business Machines Corporation Transaction begin/end instructions
US9811340B2 (en) 2012-06-18 2017-11-07 Intel Corporation Method and apparatus for reconstructing real program order of instructions in multi-strand out-of-order processor
US9396115B2 (en) 2012-08-02 2016-07-19 International Business Machines Corporation Rewind only transactions in a data processing system supporting transactional storage accesses
US9367471B2 (en) 2012-09-10 2016-06-14 Apple Inc. Fetch width predictor
GB2519107B (en) * 2013-10-09 2020-05-13 Advanced Risc Mach Ltd A data processing apparatus and method for performing speculative vector access operations
US9262206B2 (en) 2014-02-27 2016-02-16 International Business Machines Corporation Using the transaction-begin instruction to manage transactional aborts in transactional memory computing environments
US9454370B2 (en) 2014-03-14 2016-09-27 International Business Machines Corporation Conditional transaction end instruction
US10061589B2 (en) 2014-12-24 2018-08-28 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US10387156B2 (en) 2014-12-24 2019-08-20 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US9785442B2 (en) 2014-12-24 2017-10-10 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US20160357556A1 (en) 2014-12-24 2016-12-08 Elmoustapha Ould-Ahmed-Vall Systems, apparatuses, and methods for data speculation execution
US10387158B2 (en) 2014-12-24 2019-08-20 Intel Corporation Systems, apparatuses, and methods for data speculation execution
US10061583B2 (en) * 2014-12-24 2018-08-28 Intel Corporation Systems, apparatuses, and methods for data speculation execution

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050204119A1 (en) * 2004-03-09 2005-09-15 Bratin Saha Synchronization of parallel processes
US20080184011A1 (en) * 2007-01-30 2008-07-31 Nema Labs Ab Speculative Throughput Computing
US20140059333A1 (en) * 2012-02-02 2014-02-27 Martin G. Dixon Method, apparatus, and system for speculative abort control mechanisms
US20150032998A1 (en) * 2012-02-02 2015-01-29 Ravi Rajwar Method, apparatus, and system for transactional speculation control instructions

Also Published As

Publication number Publication date
JP2017539008A (ja) 2017-12-28
CN107003853B (zh) 2020-12-22
WO2016105786A1 (en) 2016-06-30
SG11201704300TA (en) 2017-07-28
US10303525B2 (en) 2019-05-28
US20160188382A1 (en) 2016-06-30
EP3238032A4 (en) 2018-08-15
BR112017011104A2 (pt) 2017-12-26
TWI657371B (zh) 2019-04-21
KR102453594B1 (ko) 2022-10-12
TW201643700A (zh) 2016-12-16
CN107003853A (zh) 2017-08-01
JP6867082B2 (ja) 2021-04-28
EP3238032A1 (en) 2017-11-01

Similar Documents

Publication Publication Date Title
KR102453594B1 (ko) 데이터 추론 실행을 위한 시스템, 장치 및 방법
KR102453086B1 (ko) 데이터 추론 실행을 위한 시스템, 장치 및 방법
US9785442B2 (en) Systems, apparatuses, and methods for data speculation execution
US10387156B2 (en) Systems, apparatuses, and methods for data speculation execution
US20160357556A1 (en) Systems, apparatuses, and methods for data speculation execution
KR20170097621A (ko) 충돌 검출을 수행하기 위한 방법 및 장치
US10061589B2 (en) Systems, apparatuses, and methods for data speculation execution
US10387158B2 (en) Systems, apparatuses, and methods for data speculation execution
US20220318014A1 (en) Method and apparatus for data-ready memory operations
US10942744B2 (en) Systems, apparatuses, and methods for data speculation execution

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant