KR101655713B1 - 이동 제거 연산들에서의 플래그 트래킹을 위한 시스템들 및 방법들 - Google Patents

이동 제거 연산들에서의 플래그 트래킹을 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR101655713B1
KR101655713B1 KR1020157024506A KR20157024506A KR101655713B1 KR 101655713 B1 KR101655713 B1 KR 101655713B1 KR 1020157024506 A KR1020157024506 A KR 1020157024506A KR 20157024506 A KR20157024506 A KR 20157024506A KR 101655713 B1 KR101655713 B1 KR 101655713B1
Authority
KR
South Korea
Prior art keywords
data structure
register
data
flag
bit
Prior art date
Application number
KR1020157024506A
Other languages
English (en)
Other versions
KR20150119038A (ko
Inventor
비자이쿠마 비. 카드기
제레미 알. 앤더슨
제임스 디. 해들리
통 리
매튜 씨. 메텐
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20150119038A publication Critical patent/KR20150119038A/ko
Application granted granted Critical
Publication of KR101655713B1 publication Critical patent/KR101655713B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30105Register structure
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/44Encoding
    • G06F8/443Optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30007Arrangements for executing specific machine instructions to perform operations on data operands
    • G06F9/30032Movement instructions, e.g. MOVE, SHIFT, ROTATE, SHUFFLE
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30094Condition code generation, e.g. Carry, Zero flag
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/3012Organisation of register space, e.g. banked or distributed register file
    • G06F9/3013Organisation of register space, e.g. banked or distributed register file according to data content, e.g. floating-point registers, address registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding
    • G06F9/384Register renaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3854Instruction completion, e.g. retiring, committing or graduating
    • G06F9/3858Result writeback, i.e. updating the architectural state or memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3838Dependency mechanisms, e.g. register scoreboarding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Executing Machine-Instructions (AREA)
  • Advance Control (AREA)
  • Storage Device Security (AREA)

Abstract

이동 제거를 포함하는 데이터 조작 연산들에서 플래그 트래킹을 위한 시스템들 및 방법들. 예시적인 처리 시스템은, 복수의 물리적 레지스터 값들을 포함하는 제1 데이터 구조; 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 포함하는 제2 데이터 구조; 복수의 이동 제거 세트들을 포함하는 제3 데이터 구조- 각각의 이동 제거 세트는 2개 이상의 논리적 데이터 레지스터들을 나타내는 2개 이상의 비트들을 포함하고, 제3 데이터 구조는, 각각의 이동 제거 세트와 관련되는 적어도 하나의 비트를 더 포함하고, 적어도 하나의 비트는 하나 이상의 논리적 플래그 레지스터들을 나타냄 -; 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 포함하는 제4 데이터 구조; 및 이동 제거 연산을 수행하도록 구성되는 이동 제거 로직을 포함한다.

Description

이동 제거 연산들에서의 플래그 트래킹을 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR FLAG TRACKING IN MOVE ELIMINATION OPERATIONS}
본 개시내용은 일반적으로 컴퓨터 시스템들에 관련되는 것으로, 구체적으로는 컴퓨터 시스템들에 의해 데이터 조작 연산들을 실행하는 효율성을 향상시키는 것에 관련된다.
데이터 조작 연산들은 프로세서에 의해 수행되는 연산들의 중요한 부분을 나타낸다. 그러므로, 그 실행의 최적화는 프로세서의 전체 성능을 증가시킬 수 있다.
본 개시내용은, 제한으로가 아니라 예로 도시되며, 도면들과 관련하여 고려될 때 다음의 상세한 설명을 참조하여 더 잘 이해될 수 있다.
도 1은, 본 개시내용의 하나 이상의 양상들에 따라, 예시적인 컴퓨터 시스템의 하이 레벨 컴포넌트 도면을 도시한다.
도 2는, 본 개시내용의 하나 이상의 양상들에 따라, 프로세서의 블럭도를 도시한다.
도 3a 내지 3b는, 본 개시내용의 하나 이상의 양상들에 따라, 프로세서 마이크로 아키텍쳐의 엘리먼트들을 개략적으로 도시한다.
도 4는, 본 개시내용의 하나 이상의 양상들에 따라, 도 1의 예시적인 컴퓨터 시스템(100)의 예시적인 프로세서 및 다른 컴포넌트들의 여러 양상들을 개략적으로 도시한다.
도 5는, 본 개시내용의 하나 이상의 양상들에 따라, 레지스터 에일리어싱(aliasing)에 의해 이동 연산을 실행하는 일 예를 개략적으로 도시한다.
도 6a-6b는 본 개시내용의 하나 이상의 양상들에 따른 플래그 트래커(Flag Tracker) 데이터 구조의 예들을 개략적으로 도시한다.
도 7a-7c는, 본 개시내용의 하나 이상의 양상들에 따라, PRF(Physical Register File) 엔트리 트래킹을 위해 MIT(Multiple Instantiation Table)을 사용하는 여러 예들을 개략적으로 도시한다.
도 8a-8c는, 본 개시내용의 하나 이상의 양상들에 따라, MIT 엔트리 트래킹을 위해 플래그 트래커 데이터 구조를 이용하는 일 예를 개략적으로 도시한다.
도 9a-9d 및 10a-10d는, 본 개시내용의 하나 이상의 양상들에 따라, 이동 제거 연산들에서 플래그 트래킹 로직의 예들을 개략적으로 도시한다.
도 11은, 본 개시내용의 하나 이상의 양상들에 따라, 이동 제거 연산들에서 플래그 트래킹을 위한 예시적 방법의 흐름도를 도시한다.
도 12는, 본 개시내용의 하나 이상의 양상들에 따라, 예시적인 컴퓨터 시스템의 블럭도를 도시한다.
이동 제거를 포함하는 데이터 조작 연산들에서 플래그 트래킹을 위한 컴퓨터 시스템들 및 관련된 기술들이 본 명세서에 설명된다. 본 명세서에서 "이동 제거"란, 실행의 효율을 향상시키기 위해, 실행 유닛을 이용하지 않고 레지스터 복사 연산을 실행하는 것을 언급할 것이다.
특정 구현들에서, 이동 제거는 레지스터 에일리어싱에 의해 구현될 수 있고; 물리적 레지스터 값들을 저장하기 위해 PRF(Physical Register File)라 하는 제1 데이터 구조가 이용될 수 있고, 논리적 레지스터 식별자들을 PRF 엔트리들에 맵핑하는 포인터들을 저장하기 위해 RAT(Register Alias Table)라 하는 제2 데이터 구조가 이용될 수 있다. 레지스터 에일리어싱은, RAT에서 하나 이상의 포인터들을 변경함으로써 특정 명령어들을 실행하는 것을 허용하는데, 이러한 명령어들을 실행 유닛에 보내지 않는다. 이러한 명령어들의 예들은 (예를 들어, XOR AX, AX와 같은) 레지스터 제로화 명령어 및 (MOV 명령어들과 같은) 레지스터 복사 명령어들을 포함한다. 레지스터 복사 명령어는 새로운 값을 생성하지 않기 때문에, 소스 레지스터 포인터는 RAT에서 목적지 레지스터 포인터에 복사될 수 있어, 명령어는 실행 유닛 및 다른 PRF 엔트리를 이용할 필요가 없을 것이다. 실행 유닛에 전송되는 스트림으로부터 이동 명령어들이 제거되기 때문에, 이러한 프로세스는 "이동 제거"라 한다.
정수 명령어는 목적지 레지스터 값 뿐만 아니라 프로세서 상태 플래그들 중 하나 이상을 변경할 수 있다. 플래그 값들을 저장하기 위해, 각각의 PRF 엔트리는, 데이터 레지스터 값을 위한 필드와 함께, 플래그 값들을 위한 하나 이상의 필드들을 포함할 수 있다.
물리적 레지스터들 및 플래그들에 의한 PRF 테이블 엔트리들의 사용은, 새로운 명령어에 의한 사용을 위해 PRF 엔트리가 릴리즈될 때를 결정하기 위해서, 트래킹될 필요가 있을 수 있다. 이동 제거 연산들의 효율적 플래그 트래킹을 위한 시스템들 및 방법들이 이하 본 명세서에 설명된다. 위에 언급된 방법들 및 시스템들의 다양한 양상들이, 제한으로 보다는 오히려 예들로 이하 본 명세서에 상세히 설명된다.
이하의 설명에서는, 본 발명의 철저한 이해를 제공하기 위하여, 특정 타입들의 프로세서들 및 시스템 구성들, 특정 하드웨어 구조들, 특정 아키텍처 및 마이크로 아키텍처 세부사항들, 특정 레지스터 구성들, 특정 명령어 타입들, 특정 시스템 컴포넌트들, 특정 측정들/높이들, 특정 프로세서 파이프라인 단계들 및 연산 등의 예들과 같은, 다수의 특정 세부사항들이 제시된다. 그러나, 이러한 특정 세부사항들이 본 발명을 실시하는데 반드시 이용될 필요는 없다는 점이 기술분야의 숙련된 자에게 명백할 것이다. 다른 경우들에서는, 본 발명을 불필요하게 불명료하게 하는 것을 회피하기 위해서, 특정 및 대안적인 프로세서 아키텍처들, 설명되는 알고리즘들을 위한 특정 로직 회로들/코드, 특정 펌웨어 코드, 특정 상호접속 연산, 특정 로직 구성들, 특정 제조 기술들 및 재료들, 특정 컴파일러 구현들, 코드에서 알고리즘들의 특정 표현, 특정 파워 다운 및 게이팅 기술들/로직, 및 컴퓨터 시스템의 다른 특정 연산 세부사항들과 같은, 잘 알려진 컴포넌트들 또는 방법들이 상세히 설명되지는 않는다.
이하의 실시예들은 프로세서를 참조하여 설명되지만, 다른 실시예들은 다른 타입들의 집적 회로들 및 로직 디바이스들에 적용될 수 있다. 본 발명의 실시예들의 유사한 기술들 및 교시사항들은, 더 높은 파이프라인 처리량 및 향상된 성능으로부터 이득을 얻을 수 있는 다른 타입의 회로들 또는 반도체 디바이스들에 적용될 수 있다. 본 발명의 실시예들의 교시사항들은 데이터 조작들을 수행하는 임의의 프로세서 또는 머신에 적용될 수 있다. 그러나, 본 발명은, 512 비트, 256 비트, 128 비트, 64 비트, 32 비트, 또는 16 비트 데이터 연산들을 수행하는 프로세서들 또는 머신들에 제한되는 것이 아니며, 데이터의 조작 또는 관리가 수행되는 임의의 프로세서 및 머신에 적용될 수 있다. 또한, 이하의 설명은 예들을 제공하고, 첨부 도면들은 설명을 위해 다양한 예들을 보여준다. 그러나, 이러한 예들은, 본 발명의 실시예들의 모든 가능한 구현의 빠짐없는 목록을 제공하는 것 보다는 본 발명의 실시예들의 예를 제공하기 위함일 뿐이므로, 제한적 의미로 해석되어서는 안 된다.
이하의 예들은 실행 유닛들 및 로직 회로들의 맥락에서 명령어 취급 및 분배를 설명하지만, 본 발명의 다른 실시예들은, 머신에 의해 실행될 때 머신으로 하여금 본 발명의 적어도 하나의 실시예와 일치하는 기능들을 수행하게 하는 머신 판독가능, 유형의(tangible) 매체 상에 저장되는 데이터 또는 명령어들에 의해 달성될 수 있다. 일 실시예에서, 본 발명의 실시예들과 연관된 기능들은 머신 실행가능 명령어들로 구현된다. 이러한 명령어들은, 이러한 명령어들로 프로그램되는 범용 또는 특수 목적 프로세서로 하여금 본 발명의 단계들을 수행하게 하는데 사용될 수 있다. 본 발명의 실시예들은, 본 발명의 실시예들에 따른 하나 이상의 연산들을 수행하도록 컴퓨터(또는 다른 전자 디바이스들)를 프로그램하는데 사용될 수 있는 명령어들 저장하고 있는 머신 또는 컴퓨터 판독가능 매체를 포함할 수 있는 컴퓨터 프로그램 제품 또는 소프트웨어로서 제공될 수 있다. 대안적으로, 본 발명의 실시예들의 연산들은, 이러한 연산들을 수행하기 위한 고정형 기능 로직을 포함하는 특정 하드웨어 컴포넌트들에 의해, 또는 프로그램된 컴퓨터 컴포넌트들 및 고정형 기능 하드웨어 컴포넌트들의 임의의 조합에 의해 수행될 수 있다.
본 발명의 실시예들을 수행하는 로직을 프로그래밍하는데 사용되는 명령어들은, DRAM, 캐시, 플래시 메모리, 또는 기타 스토리지와 같은, 시스템에서의 메모리 내에 저장될 수 있다. 더욱이, 이러한 명령어들은 네트워크를 통해 또는 다른 컴퓨터 판독가능 매체들에 의해 배포될 수 있다. 따라서, 머신 판독가능 매체는, 머신(예컨대, 컴퓨터)에 의해 판독가능 형태로 정보를 저장하거나 또는 송신하는 임의의 메커니즘, 이에 제한되는 것은 아니지만, 플로피 디스켓들, 광 디스크들, CD-ROM들(Compact Disc, Read-Only Memory), 및 자기 광 디스크들, ROM들(Read-Only Memory), RAM(Random Access Memory), EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 자기 또는 광 카드들, 플래시 메모리, 또는 전기적, 광학적, 음향적, 또는 다른 형태의 전파된 신호들(예를 들어, 반송파들, 적외선 신호들, 디지털 신호들 등)을 통해 인터넷에서 정보의 송신에 사용되는 유형의, 머신 판독가능 스토리지를 포함할 수 있다. 따라서, 컴퓨터 판독가능 매체는, 머신(예를 들어, 컴퓨터)에 의해 판독가능한 형태로 전자 명령어들 또는 정보를 저장하거나 또는 송신하는데 적합한 임의 타입의 유형의 머신 판독가능 매체를 포함한다.
본 명세서에서 "프로세서"는 산술, 논리 또는 I/O 연산들을 인코딩하는 명령어들을 실행할 수 있는 디바이스를 말한다. 하나의 예시적인 예에서, 프로세서는, 폰 노이만(Von Neumann) 아키텍쳐 모델을 따를 수 있고, ALU(Arithmetic Logic Unit), 제어 유닛, 및 복수의 레지스터들을 포함할 수 있다. 다른 양상에서, 프로세서는, 하나 이상의 프로세서 코어들을 포함할 수 있고, 따라서, 통상적으로 단일 명령어 파이프라인을 처리할 수 있는 싱글 코어 프로세서, 또는 동시에 다수의 명령어 파이프라인들을 처리할 수 있는 멀티 코어 프로세서일 수 있다. 다른 양상에서, 프로세서는, 단일 집적 회로, 2개 이상의 집적 회로들로서 구현될 수 있거나, 또는 (예를 들어, 개별 마이크로프로세서 다이들이 단일 집적 회로 패키지에 포함되어, 단일 소켓을 공유하는) 멀티칩 모듈의 컴포넌트일 수 있다.
도 1은 본 개시내용의 하나 이상의 양상들에 따라 컴퓨터 시스템의 일 예의 하이 레벨 컴포넌트 도면을 도시한다. 컴퓨터 시스템(100)은, 본 명세서에 설명되는 실시예에 따라, 데이터를 처리하는 알고리즘들을 수행하는 로직을 포함하는 실행 유닛들을 이용하는 프로세서(102)를 포함할 수 있다. 시스템(100)은, 캘리포니아주 산타 클라라 소재의 Intel Corporation으로부터 입수가능한 PENTIUM IIITM, PENTIUM 4TM, XeonTM, Itanium, XScaleTM 및/또는 StrongARMTM 마이크로프로세서들에 기초하는 처리 시스템들을 나타내지만, (다른 마이크로프로세서를 갖는 PC들, 엔지니어링 워크스테이션들, 셋톱 박스들 등을 포함하는) 기타 시스템들도 사용될 수 있다. 일 실시예에서, 샘플 시스템(100)은, 워싱턴주 레드몬드 소재의 Microsoft Corporation으로부터 입수가능한 WINDOWSTM 운영 체제의 한 버전을 실행할 수 있지만, 기타 운영 체제들(예를 들어, UNIX 및 Linux), 임베디드 소프트웨어, 및/또는 그래픽 사용자 인터페이스도 사용될 수 있다. 따라서, 본 발명의 실시예들이 하드웨어 회로 및 소프트웨어의 임의의 특정 조합으로 제한되는 것은 아니다.
실시예들은 컴퓨터 시스템들에 제한되는 것은 아니다. 본 발명의 대안적인 실시예들은 핸드헬드 디바이스들과 같은 다른 디바이스들 및 임베디드 애플리케이션들에서 사용될 수 있다. 핸드헬드 디바이스들의 일부 예들은, 셀룰러 폰들, 인터넷 프로토콜 디바이스들, 디지털 카메라, PDA들(Personal Digital Assistants), 및 핸드헬드 PC들을 포함한다. 임베디드 애플리케이션들은, 마이크로컨트롤러, DSP(Digital Signal Processor), 시스템 온 칩, 네트워크 컴퓨터들(NetPC), 셋톱 박스들, 네트워크 허브들, WAN(Wide Area Network) 스위치들, 또는 적어도 하나의 실시예에 따라 하나 이상의 명령어들을 수행할 수 있는 임의의 다른 시스템을 포함할 수 있다.
이러한 도시된 실시예에서, 프로세서(102)는 적어도 하나의 명령어를 수행할 알고리즘을 구현하기 위한 하나 이상의 실행 유닛들(108)을 포함한다. 일 실시예가 단일 프로세서 데스크톱 또는 서버 시스템의 맥락에서 설명될 수 있지만, 대안 실시예들이 멀티프로세서 시스템에 포함될 수 있다. 시스템(100)은 '허브' 시스템 아키텍쳐의 일 예이다. 컴퓨터 시스템(100)은 데이터 신호들을 처리하는 프로세서(102)를 포함한다. 프로세서(102)는, 하나의 예시적인 예로서, 예를 들어 CISC(Complex Instruction Set Computer) 마이크로프로세서, RISC(Reduced Instruction Set Computing) 마이크로프로세서, VLIW(Very Long Instruction Word) 마이크로프로세서, 명령어 세트들의 조합을 구현하는 프로세서, 또는 디지털 신호 프로세서와 같은 임의의 기타 프로세서 디바이스를 포함한다. 프로세서(102)는, 프로세서(102)와 시스템(100)에서의 기타 컴포넌트들 사이에서 데이터 신호들을 송신하는 프로세서 버스(110)에 연결된다. 시스템(100)의 엘리먼트들(예를 들어, 그래픽 가속기(112), 메모리 제어기 허브(116), 메모리(120), I/O 제어기 허브(124), 무선 송수신기(126), 플래시 바이오스(Flash BIOS)(128), 네트워크 제어기(134), 오디오 제어기(136), 직렬 확장 포트(138), I/O 제어기(140) 등)은 기술분야에 친숙한 자들에게 잘 알려진 그들의 종래의 기능들을 수행한다.
일 실시예에서, 프로세서(102)는 레벨 1(L1) 내부 캐시(104)를 포함한다. 아키텍처에 의존하여, 프로세서(102)는 단일 내부 캐시 또는 다중 레벨의 내부 캐시들을 가질 수 있다. 다른 실시예들은 특정 구현 및 요구사항들에 의존하는 내부 및 외부 캐시들 양자 모두의 조합을 포함한다. 레지스터 파일(106)은, 정수 레지스터들, 부동 소수점 레지스터들, 벡터 레지스터들, 뱅크형 레지스터들, 섀도우 레지스터들, 체크포인트 레지스터들, 상태 레지스터들, 및 명령어 포인터 레지스터를 포함하는 다양한 레지스터들에 상이한 타입들의 데이터를 저장하기 위한 것이다.
정수 및 부동 소수점 연산들을 수행하는 로직을 포함하는, 실행 유닛(108) 또한 프로세서(102) 내에 존재한다. 프로세서(102)는, 일 실시예에서, 실행될 때, 특정 매크로 명령어들에 대한 알고리즘들을 수행하거나 또는 복잡한 시나리오들을 취급하는 마이크로코드를 저장하는 마이크로코드(ucode) ROM을 포함한다. 여기서, 마이크로코드는 프로세서(102)에 대한 로직 버그들(bugs)/픽스들(fixes)들을 취급하도록 잠재적으로 업데이트될 수 있다. 일 실시예에 대해, 실행 유닛(108)은 패킹된(packed) 명령어 세트(109)를 취급하는 로직을 포함한다. 명령어들을 실행하는 관련 회로와 함께, 범용 프로세서(102)의 명령어 세트에 패킹된 명령어 세트(109)를 포함함으로써, 많은 멀티미디어 애플리케이션에 의해 사용되는 연산들은, 범용 프로세서(102)에서 패킹된 데이터를 사용하여, 수행될 수 있다. 따라서, 많은 멀티미디어 애플리케이션들은, 패킹된 데이터에 대한 연산들을 수행하기 위해 프로세서의 데이터 버스의 전체 폭(full width)을 사용함으로써, 가속화될 수 있고 보다 효율적으로 실행될 수 있다. 이는, 하나 이상의 연산들을 수행하기 위해 프로세서의 데이터 버스에 걸쳐 보다 작은 단위들의 데이터를, 한 번에 하나의 데이터 엘리먼트로 송신할 필요를 잠재적으로 제거한다.
실행 유닛(108)의 대안 실시예들이, 또한, 마이크로 제어기들, 임베디드 프로세서들, 그래픽 디바이스들, DSP들, 및 기타 타입들의 로직 회로에 사용될 수 있다. 시스템(100)은 메모리(120)를 포함한다. 메모리(120)는, DRAM(Dynamic Random Access Memory) 디바이스, SRAM(Static Random Access Memory) 디바이스, 플래시 메모리 디바이스, 또는 기타 메모리 디바이스를 포함한다. 메모리(120)는 프로세서(102)에 의해 실행될 데이터 신호들에 의해 표현되는 명령어들 및/또는 데이터를 저장한다.
시스템 로직 칩(116)은 프로세서 버스(110) 및 메모리(120)에 연결된다. 도시된 실시예에서의 시스템 로직 칩(116)은 MCH(Memory Controller Hub)이다. 프로세서(102)는 프로세서 버스(110)를 통해 MCH(116)와 통신할 수 있다. MCH(116)는, 명령어 및 데이터 저장을 위해, 그리고, 그래픽 커맨드들, 데이터 및 텍스처들의 저장을 위해, 메모리(120)에 고 대역폭 메모리 경로(118)를 제공한다. MCH(116)는, 프로세서(102), 메모리(120), 및 시스템(100)에서의 다른 컴포넌트들 사이에서 데이터 신호들을 지시하고, 이러한 데이터 신호들을 프로세서 버스(110), 메모리(120), 및 시스템 I/O(122) 사이에서 브릿지하기 위한 것이다. 일부 실시예들에서, 시스템 로직 칩(116)은 그래픽 제어기(112)에 연결하기 위한 그래픽 포트를 제공할 수 있다. MCH(116)는 메모리 인터페이스(118)를 통해 메모리(120)에 연결된다. 그래픽 카드(112)는 AGP(Accelerated Graphics Port) 상호접속(114)을 통해 MCH(116)에 연결된다.
시스템(100)은 독점 허브 인터페이스 버스(122)를 사용하여 MCH(116)를 ICH(I/O Controller Hub)(130)에 연결시킨다. ICH(130)는 로컬 I/O 버스를 통해 일부 I/O 디바이스들로의 직접 접속들을 제공한다. 로컬 I/O 버스는 주변기기들을 메모리(120), 칩셋, 및 프로세서(102)에 접속하는 고속 I/O 버스이다. 일부 예들은 오디오 제어기, 펌웨어 허브(플래시 바이오스)(128), 무선 송수신기(126), 데이터 스토리지(124), 사용자 입력 및 키보드 인터페이스들을 포함하는 레거시 I/O 제어기, USB(Universal Serial Bus)와 같은 직렬 확장 포트, 및 네트워크 제어기(134)이다. 데이터 스토리지 디바이스(124)는, 하드 디스크 드라이브, 플로피 디스크 드라이브, CD-ROM 디바이스, 플래시 메모리 디바이스, 또는 기타 대용량 스토리지 디바이스를 포함할 수 있다.
시스템의 다른 실시예에 대해, 일 실시예에 따른 명령어는 시스템 온 칩과 함께 사용될 수 있다. 시스템 온 칩의 일 실시예는 프로세서 및 메모리를 포함한다. 하나의 이러한 시스템에 대한 메모리는 플래시 메모리이다. 플래시 메모리는 프로세서 및 다른 시스템 컴포넌트들과 동일한 다이 상에 배치될 수 있다. 또한, 메모리 제어기 또는 그래픽 제어기와 같은 다른 로직 블럭들도 시스템 온 칩 상에 또한 배치될 수 있다.
도 2는 본 발명의 일 실시예에 따른 명령어들을 수행하는 로직 회로들을 포함하는 프로세서(200)에 대한 마이크로 아키텍처의 블럭도이다. 일부 실시예에서, 일 실시예에 따른 명령어는, 바이트, 워드, 더블워드, 쿼드워드 등의 사이즈들 뿐만 아니라 단정도(single precision) 및 배정도(double precision) 정수 및 부동 소수점 데이터타입들과 같은 데이터타입들을 갖는 데이터 엘리먼트들에 대해 연산하도록 구현될 수 있다. 일 실시예에서, 순차적(in-order) 프론트 엔드(201)는, 실행될 명령어들을 페치하여, 이들을 프로세서 파이프라인에서 차후 사용되도록 준비하는 프로세서(200)의 부분이다. 프론트 엔드(201)는 몇몇 유닛들을 포함할 수 있다. 일 실시예에서, 명령어 프리페처(prefetcher)(226)는, 메모리로부터 명령어들을 페치하여, 이들을 명령어 디코더(228)에 공급하고, 명령어 디코더(228)는 결국 이들을 디코드하거나 해석한다. 예를 들어, 일 실시예에서, 디코더는, 수신된 명령어를 머신이 실행할 수 있는 "마이크로 명령어들" 또는 "마이크로 연산들"(uop들이라고도 함)이라 불리우는 하나 이상의 연산들로 디코드한다. 다른 실시예에서, 디코더는, 명령어들을, 마이크로-아키텍쳐에 의해 일 실시예에 따른 연산들을 수행하는데 사용되는 오피코드 및 대응 데이터와 제어 필드들로 분석한다. 일 실시예에서, 트레이스 캐시(230)는, 디코드된 uop를 취하여, 실행을 위해 uop 큐(234)에 이들을 프로그램 정렬된 시퀀스들 또는 트레이스들로 어셈블한다. 트레이스 캐시(230)가 복잡한 명령어들을 만나면, 마이크로코드 ROM(232)은 연산을 완료하는데 필요한 uop들을 제공한다.
일부 명령어들은 단일 마이크로-op로 변환되는 반면, 다른 것들은 전체 연산을 완료하는데 여러 마이크로-op들을 필요로 한다. 일 실시예에서, 명령어를 완료하는데 4개를 넘는 마이크로-op들이 필요하면, 디코더(228)는 그 명령어를 행하기 위해 마이크로코드 ROM(232)에 액세스한다. 일 실시예에 대해, 명령어는 명령어 디코더(228)에서 처리하기 위한 작은 수의 마이크로 op들로 디코드될 수 있다. 다른 실시예에서, 연산을 달성하는데 다수의 마이크로-op들이 필요하다면, 명령어는 마이크로코드 ROM(232) 내에 저장될 수 있다. 트레이스 캐시(230)는, 마이크로 코드 ROM(232)으로부터 일 실시예에 따라 하나 이상의 명령어들을 완료하기 위해 마이크로 코드 시퀀스들을 판독하도록 정확한 마이크로 명령어 포인터를 결정하기 위해서 엔트리 포인트 PLA(Programmable Logic Array)를 참조한다. 마이크로코드 ROM(232)가 명령어에 대한 마이크로-op들의 시퀀싱을 완료한 후에, 머신의 프론트 엔드(201)는 트레이스 캐시(230)로부터의 마이크로-op들의 페치를 재개한다.
비순차적(out-of-order) 실행 엔진(203)은 명령어들이 실행을 위해 준비되는 곳이다. 비순차적 실행 로직은, 명령어들이 파이프라인을 중단하고 실행을 위해 스케줄링됨에 따라 명령의 흐름을 제거(smooth out)하고 재정렬하여 성능을 최적화하는 다수의 버퍼를 갖는다. 할당기 로직은 실행하기 위하여 각 uop가 필요로 하는 머신 버퍼들 및 리소스들을 할당한다. 레지스터 에일리어싱 로직은 논리적 레지스터들을 레지스터 파일 내의 엔트리들 상에 맵핑한다. 할당기는 또한 명령어 스케줄러들: 메모리 스케줄러, 고속 스케줄러(202), 저속(slow)/일반 부동 소수점 스케줄러(204) 및 단순 부동 소수점 스케줄러(206)의 앞에서, 하나는 메모리 연산들을 위한 것이고 하나는 비메모리 연산들을 위한 것인 2개의 uop 큐들 중의 하나에 있는 각각의 uop에 대한 엔트리를 할당한다. uop 스케줄러들(202, 204, 206)은, uop가 그들의 연산을 완료하는데 필요로 하는 그들의 종속 입력 레지스터 오퍼랜드 소스들의 준비 및 실행 리소스들의 이용가능성에 기초하여, uop가 실행될 준비가 된 때를 판정한다. 일 실시예의 고속 스케줄러(202)는 메인 클럭 사이클의 각 절반 상에서 스케줄링할 수 있지만, 다른 스케줄러들은 메인 프로세서 클럭 사이클 당 한 번 스케줄링할 수 있다. 스케줄러들은 디스페치(dispatch) 포트들이 실행을 위해 uop들을 스케줄링는 것을 중재한다.
물리적 레지스터 파일들(208, 210)은 스케줄러들(202, 204, 206)과 실행 블럭(211) 내의 실행 유닛들(212, 214, 216, 218, 220, 222, 224) 사이에 있다. 정수 및 부동 소수점 연산들을 위한 개별 레지스터 파일들(208, 210)이 각각 존재한다. 일 실시예의 각각의 레지스터 파일들(208, 210)은 또한 레지스터 파일에 아직 기입되지 않은 방금 완료된 결과들을 바이패스하거나 새로운 종속 uop들에 전달할 수 있는 바이패스 네트워크를 포함한다. 정수 레지스터 파일(208) 및 부동 소수점 레지스터 파일(210)은 또한 다른 것과 데이터를 통신할 수 있다. 일 실시예에 대해, 정수 레지스터 파일(208)은 2개의 개별 레지스터 파일들로 분리되는데, 하나의 레지스터 파일은 데이터의 하위 32비트들에 대한 것이고, 두 번째 레지스터 파일은 데이터의 상위 32 비트들에 대한 것이다. 부동 소수점 명령어들은 통상적으로 폭이 64 내지 128 비트인 오퍼랜드들을 갖기 때문에, 일 실시예의 부동 소수점 레지스터 파일(210)은 128비트 폭의 엔트리들을 갖는다.
실행 블럭(211)은 명령어들이 실제로 실행되는 실행 유닛들(212, 214, 216, 218, 220, 222, 224)을 포함한다. 이 섹션은 마이크로-명령어들이 실행될 필요가 있는 정수 및 부동 소수점 데이터 오퍼랜드 값들을 저장하는 레지스터 파일들(208, 210)을 포함한다. 일 실시예의 프로세서(200)는 다수의 실행 유닛: AGU(Address Generation Unit)(212), AGU(214), 고속 ALU(216), 고속 ALU(218), 저속 ALU(220), 부동 소수점 ALU(222), 부동 소수점 이동 유닛(224)을 포함한다. 일 실시예에 대해, 부동 소수점 실행 블럭들(222, 224)은, 부동 소수점, MMX, SIMD 및 SSE 또는 다른 연산들을 실행한다. 일 실시예의 부동 소수점 ALU(222)는 제산, 제곱근 및 나머지 마이크로-op를 실행하는 64비트 × 64비트 부동 소수점 제산기를 포함한다. 본 발명의 실시예에들에 대해, 부동 소수점 값을 포함하는 명령어들은 부동 소수점 하드웨어로 핸들링될 수 있다. 일 실시예에서, ALU 연산들은 고속 ALU 실행 유닛들(216, 218)로 간다. 일 실시예의 고속 ALU들(216, 218)은 절반 클럭 사이클의 유효 레이턴시로 고속 연산들을 실행할 수 있다. 일 실시예에 대해, 저속 ALU(220)는 승산기, 시프트들, 플래그 로직 및 분기 처리와 같은 롱 레이턴시 타입의 연산들을 위한 정수 실행 하드웨어를 포함하기 때문에, 가장 복잡한 정수 연산들은 저속 ALU(220)로 간다. 메모리 로드/저장 연산은 AGU들(212, 214)에 의해 실행된다. 일 실시예에 대해, 정수 ALU들(216, 218, 220)은 64비트 데이터 오퍼랜드들에 대해 정수 연산을 수행하는 정황에서 설명된다. 대안적인 실시예들에서, ALU들(216, 218, 220)은 16, 32, 128, 256 등을 포함하는 다양한 데이터 비트들을 지원하도록 구현될 수 있다. 유사하게, 부동 소수점 유닛들(222, 224)은 다양한 폭들의 비트들을 갖는 오퍼랜드의 범위를 지원하도록 구현될 수 있다. 일 실시예에 대해, 부동 소수점 유닛들(222, 224)은 SIMD 및 멀티미디어 명령어들과 결합하여 128 비트 폭 패킹된 데이터 오퍼랜드들에 대해 연산할 수 있다.
일 실시예에서, uop들 스케줄러들(202, 204, 206)은 페어런트 로드(parent load)가 실행을 종료하기 전에 종속 연산들을 디스페치(dispatch)한다. uop들이 프로세서(200)에서 추측에 근거하여(speculatively) 스케줄링되고 실행됨에 따라, 프로세서(200)는 또한 메모리 미스들(misses)을 핸들링하는 로직을 포함한다. 데이터 캐시에서 데이터 로드가 미스되면, 일시적으로 부정확한 데이터를 갖는 스케줄러를 남긴 파이프라인에서 인 플라이트(in flight)인 종속 연산들이 존재할 수 있다. 리플레이(replay) 메커니즘은 부정확한 데이터를 사용하는 명령어들을 트래킹하고 재실행한다. 종속 연산들은 리플레이되어야 하고 독립적인 연산은 완료되도록 허용된다. 프로세서의 일 실시예의 스케줄러들 및 리플레이 메커니즘은 또한 텍스트 스트링 비교 연산들에 대한 명령어 시퀀스를 캐치(catch)하도록 설계된다.
"레지스터"라는 용어는 오퍼랜드들을 식별하는 명령어들의 일부로서 사용되는 온-보드(on-board) 프로세서 스토리지 위치들을 지칭할 수 있다. 환언하면, 레지스터들은 (프로그래머의 관점으로부터) 프로세서의 외부로부터 사용가능한 것들일 수 있다. 그러나, 일 실시예의 레지스터들은 특정 타입의 회로에 대한 의미로 제한되어서는 안 된다. 오히려, 일 실시예의 레지스터는, 데이터를 저장 및 제공할 수 있고 본 명세서에 설명되는 기능들을 수행할 수 있다. 본 명세서에 설명되는 레지스터들은, 전용 물리적 레지스터들, 레지스터 에일리어싱을 사용하여 동적으로 할당되는 물리적 레지스터들, 전용 및 동적으로 할당되는 물리적 레지스터들의 조합과 같은, 임의의 수의 상이한 기술들을 사용하여 프로세서 내의 회로에 의해 구현될 수 있다. 일 실시예에서, 정수 레지스터들은 32비트 정수 데이터를 저장한다. 일 실시예의 레지스터 파일은 또한 패킹된 데이터에 대한 8개의 멀티미디어 SIMD 레지스터들을 포함한다. 이하의 논의에 대해, 레지스터들은 캘리포니아주 산타 클라라의 Intel Corporation으로부터의 MMXTM 기술로 인에이블되는 마이크로프로세서들 내의 64비트 폭 MMX 레지스터들(일부 경우들에서는 "mm" 레지스터들이라고도 함)과 같은, 패킹된 데이터를 유지하도록 설계되는 데이터 레지스터들인 것으로 이해된다. 정수 및 부동 소수점 형태들로 이용가능한 이러한 MMX 레지스터들은 SIMD 및 SSE 명령어들을 수반하는 패킹된 데이터 엘리먼트들로 연산할 수 있다. 유사하게, SSE2, SSE3, SSE4 또는 그 이상의(일반적으로, "SSEx"라 함) 기술에 관한 128 비트 폭 XMM 레지스터들은 또한 이러한 패킹된 데이터 오퍼랜드들을 유지하는데 사용될 수 있다. 일 실시예에서, 패킹된 데이터 및 정수 데이터를 저장하는데 있어서, 레지스터들은 이러한 2개의 데이터 타입들 사이를 구별할 필요가 없다. 일 실시예에서, 정수 및 부동 소수점은 동일한 레지스터 파일 또는 상이한 레지스터 파일들에 포함된다. 또한, 일 실시예에서, 부동 소수점 및 정수 데이터는 상이한 레지스터들 또는 동일한 레지스터들에 저장될 수 있다.
도 3a 내지 3b는, 본 개시내용의 하나 이상의 양상에 따라, 프로세서 마이크로 아키텍쳐의 엘리먼트들을 개략적으로 도시한다. 도 3a에서, 프로세서 파이프라인(400)은, 페치 스테이지(402), 길이 디코드 스테이지(404), 디코드 스테이지(406), 할당 스테이지(408), 리네이밍 스테이지(410), 스케줄링(또한 디스페치 또는 발행(issue)으로 알려짐) 스테이지(412), 레지스터 판독/메모리 판독 스테이지(414), 실행 스테이지(416), 되기입(write back)/메모리 기입 스테이지(418), 예외 핸들링 스테이지(422) 및 커밋(commit) 스테이지(424)를 포함한다.
도 3b에서, 화살표들은 2개 이상의 유닛들 사이의 연결을 나타내고, 화살표의 방향은 이러한 유닛들 사이의 데이터 흐름의 방향을 나타낸다. 도 3b는 실행 엔진 유닛(450)에 연결되는 프론트 엔드 유닛(430)을 포함하는 프로세서 코어(490)를 도시하고, 이들 양자 모두는 메모리 유닛(470)에 연결된다.
코어(490)는 RISC(Reduced Instruction Set Computing) 코어, CISC(Complex Instruction Set Computing) 코어, VLIW(Very Long Instruction Word) 코어, 또는 하이브리드 또는 대안적인 코어 타입일 수 있다. 다른 옵션으로서, 코어(490)는, 예를 들어, 네트워크 또는 통신 코어, 압축 엔진, 그래픽 코어 등과 같은 특수 목적 코어일 수 있다.
프론트 엔드 유닛(430)은 명령어 캐시 유닛(434)에 연결되는 분기 예측 유닛(432)을 포함하고, 명령어 캐시 유닛(434)은 명령어 TLB(Translation Lookaside Buffer)(436)에 연결되고, 명령어 TLB(436)는 명령어 페치 유닛(438)에 연결되고, 명령어 페치 유닛(438)은 디코드 유닛(440)에 연결된다. 디코드 유닛 또는 디코더는, 명령어들을 디코드하여, 출력으로서 본래의 명령어들로부터 디코드되거나, 또는 본래의 명령어들을 다른 방식으로 반영하거나, 또는 본래의 명령어들로부터 도출되는 하나 이상의 마이크로-연산들, 마이크로-코드 엔트리 포인트들, 마이크로명령어들, 다른 명령어들 또는 다른 제어 신호들을 생성할 수 있다. 디코더는 다양한 상이한 메커니즘들을 사용하여 구현될 수 있다. 적절한 메커니즘들의 예들은, 이에 제한되는 것은 아니지만, 룩업 테이블들, 하드웨어 구현들, PLA들(Programmable Logic Arrays), 마이크로코드 ROM들(Read Only Memories) 등을 포함한다. 명령어 캐시 유닛(434)은 또한 메모리 유닛(470) 내의 레벨 2(L2) 캐시 유닛(476)에 연결된다. 디코드 유닛(440)은 실행 엔진 유닛(450) 내의 리네이밍/할당기 유닛(452)에 연결된다.
실행 엔진 유닛(450)은 리타이어먼트(retirement) 유닛(454) 및 하나 이상의 스케줄러 유닛(들)(456)의 세트에 연결되는 리네이밍/할당기 유닛(452)을 포함한다. 스케줄러 유닛(들)(456)은, 예약 스테이션들, 중앙 명령어 윈도우 등을 포함하는 임의의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(456)은 물리적 레지스터 파일(들) 유닛(들)(458)에 연결된다. 물리적 레지스터 파일(들) 유닛(458)의 각각은, 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점 등과 같은 하나 이상의 상이한 데이터 타입들, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등을 저장하는 하나 이상의 물리적 레지스터 파일들을 나타낸다. 물리적 레지스터 파일(들) 유닛(들)(458)은 리타이어먼트 유닛(454)에 의해 중첩되어(overlapped) 레지스터 에일리어싱 및 비순차적 실행이 (예를 들어, 재정렬 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하여; 미래 파일(들), 이력 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 사용하여; 레지스터 맵 및 레지스터들의 풀(pool)을 사용하여 등으로) 구현될 수 있는 다양한 방식들을 나타낸다. 일반적으로, 아키텍쳐 레지스터들은 프로세서의 외부로부터 또는 프로그래머의 관점으로부터 볼 수 있다. 레지스터들은 임의의 알려진 특정 타입의 회로에 제한되지 않는다. 본 명세서에 설명되는 바와 같이 데이터를 저장하고 제공할 수 있는 한, 다양한 다른 타입들의 레지스터가 적합하다. 적합한 레지스터들의 예들은, 이에 제한되는 것은 아니지만, 전용 물리적 레지스터들, 레지스터 에일리어싱을 사용하여 동적으로 할당되는 물리적 레지스터들, 전용 및 동적으로 할당되는 물리적 레지스터들의 조합들 등을 포함한다. 리타이어먼트 유닛(454) 및 물리적 레지스터 파일(들) 유닛(들)(458)은 실행 클러스터(들)(460)에 연결된다. 실행 클러스터(들)(460)는 하나 이상의 실행 유닛들(162)의 세트 및 하나 이상의 메모리 액세스 유닛들(464)의 세트를 포함한다. 실행 유닛들(462)은 다양한 타입들의 데이터(예를 들어, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예를 들어, 시프트, 가산, 감산, 승산)을 수행할 수 있다. 일부 실시예들은 특정 기능들 또는 기능들의 세트에 전용인 다수의 실행 유닛들을 포함할 수 있지만, 다른 실시예들은 모든 기능들을 모두 수행하는 하나의 실행 유닛 또는 다수의 실행 유닛들을 포함할 수 있다. 특정 실시예들이 특정 타입들의 데이터/연산에 대해 개별 파이프라인들(예를 들어, 각각 자신의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛, 및/또는 실행 클러스터를 갖는 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 메모리 액세스 파이프라인 - 개별 메모리 액세스 파이프라인의 경우에, 이러한 파이프라인의 실행 클러스터가 메모리 액세스 유닛(들)(464)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문에, 스케줄러 유닛(들)(456), 물리적 레지스터파일(들) 유닛(들)(458), 및 실행 클러스터(들)(460)는 가능하게는 복수인 것으로 도시된다. 개별 파이프라인들이 사용되면, 이러한 파이프라인들 중 하나 이상은 비순차적 발행/실행일 수 있고 나머지는 순차적일 수 있다.
메모리 액세스 유닛들(464)의 세트는 메모리 유닛(470)에 연결되고, 이는 레벨 2(L2) 캐시 유닛(476)에 연결되는 데이터 캐시 유닛(474)에 연결되는 데이터 TLB 유닛(472)을 포함한다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛들(464)은, 로드 유닛, 저장 어드레스 유닛(store address unit), 및 저장 데이터 유닛(store data unit)을 포함할 수 있고, 이들 각각은 메모리 유닛(470) 내의 데이터 TLB 유닛(472)에 연결된다. L2 캐시 유닛(476)은 하나 이상의 다른 레벨들의 캐시에 연결되어 궁극적으로 메인 메모리에 연결된다.
예로써, 예시적인 레지스터 에일리어싱, 비순차적 발행/실행 코어 아키텍쳐는 다음과 같이 파이프라인(400)을 구현할 수 있다: 명령어 페치(438)는 페치 및 길이 디코딩 스테이지들(402 및 404)을 수행하고; 디코드 유닛(440)은 디코드 스테이지(406)를 수행하고; 리네임/할당기 유닛(452)은 할당 스테이지(408) 및 리네이밍 스테이지(410)를 수행하고; 스케줄러 유닛(들)(456)은 스케줄 스테이지(412)를 수행하고; 물리적 레지스터 파일(들) 유닛(들)(458) 및 메모리 유닛(470)은 레지스터 판독/메모리 판독 스테이지(414)를 수행하고; 실행 클러스터(460)는 실행 스테이지(416)를 수행하고; 메모리 유닛(470) 및 물리적 레지스터 파일(들) 유닛(들)(458)은 되기입/메모리 기입 스테이지(418)를 수행하고; 다양한 유닛들은 예외 핸들링 스테이지(422)에 포함될 수 있으며; 리타이어먼트 유닛(454) 및 물리적 레지스터 파일(들) 유닛(들)(458)은 커밋 스테이지(424)를 수행한다.
코어(490)는 하나 이상의 명령어 세트들(예를 들어, (새로운 버전들이 추가된 일부의 확장을 갖는) x86 명령어 세트); 캘리포니아주 서니베일의 MIPS Technologies의 MIPS 명령어 세트; (캘리포니아주 서니베일의 ARM Holdins의 NEON과 같은 추가적 확장들을 갖는) ARM 명령어 세트를 지원할 수 있다.
특정 구현들에서, 코어는 (연산들 또는 쓰레드들(threads)의 2개 이상의 병렬 세트를 실행하는) 멀티쓰레딩을 지원할 수 있고, 타임 슬라이스형 멀티쓰레딩, (물리적 코어가 동시에 멀티쓰레딩되는 쓰레드들 각각에 대해 단일 물리적 코어가 논리적 코어를 제공하는) 동시 멀티쓰레딩, 또는 그 조합(예를 들어, Intel? Hyperthreading 기술과 같이 타임 슬라이스 페칭 및 디코딩 및 동시 멀티쓰레딩)을 포함하는 다양한 방식으로 지원할 수 있다.
레지스터 에일리어싱은 비순차적 실행의 맥락에서 설명되지만, 레지스터 에일리어싱은 순차적 아키텍쳐에 사용될 수 있다는 점이 이해되어야 한다. 프로세서의 도시된 실시예는 또한 개별 명령어 및 데이터 캐시 유닛들(434/474) 및 공유 L2 캐시 유닛(476)을 포함하지만, 대안적인 실시예들은, 예를 들어, 레벨 1(L1) 내부 캐시, 또는 다수 레벨의 내부 캐시와 같은, 명령어들 및 데이터 양자 모두를 위한 단일 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 코어 및/또는 프로세서의 외부에 있는 외부 캐시 및 내부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시가 코어 및/또는 프로세서의 외부에 있을 수 있다.
도 4는, 본 개시내용의 하나 이상의 양상에 따라, 예시적인 프로세서(102) 및 컴퓨터 시스템(100)의 다른 컴포넌트들의 블럭도를 도시한다. 도 4를 참조하면, 프로세서 코어(490)는 코어(490)에 의한 실행을 위한 명령어들을 페치하는 페치 유닛(202)을 포함할 수 있다. 명령어들은 메모리(115)와 같은 하나 이상의 스토리지 디바이스들로부터 페치될 수 있다. 프로세서 코어(490)는 페치된 명령어를 하나 이상의 마이크로-연산들(μop)로 디코드하는 디코드 유닛(440)을 더 포함할 수 있다. 프로세서 코어(490)는 명령어들이 발행될 준비가 될 때까지, 예를 들어, 디코드된 명령어에 대한 오퍼랜드 값들이 이용가능하게 될 때까지, 디코드 유닛(440)으로부터 수신된 디코드된 명령어들을 저장하는 스케줄 유닛(446)을 더 포함할 수 있다. 스케줄 유닛(446)은 디코드된 명령어를 실행 유닛(450)에 스케줄 및/또는 발행할 수 있다.
실행 유닛(450)은 하나 이상의 ALU들(Arithmetic and Logic Units), 하나 이상의 정수 실행 유닛들, 하나 이상의 부동 소수점 실행 유닛들, 및/또는 다른 실행 유닛들을 포함할 수 있다. 특정 구현들에서, 실행 유닛(450)은 명령어들을 비순차적으로(OOO(Out-Of-Order)로) 실행할 수 있다. 프로세서 코어(490)는 실행된 명령어들을 커밋된 후에 리타이어(retire)하는 리타이어먼트 유닛(454)을 더 포함할 수 있다.
프로세서 코어(490)는, RAT(Register Alias Table)(421), PRF(Physical Register File)(423), MIT(Move Elimination Table)(425), 플래그 트래커(427), 및 PRF 트래킹 로직(150)을 더 포함할 수 있다. 도 4에서 로직(150)은 코어(490) 내부에 있는 것으로 도시되지만, 로직(150)은 컴퓨터 시스템(100) 내의 다른 곳에 제공될 수 있다. 또한, 로직(150) 및/또는 그 컴포넌트들 중 일부는 복수의 프로세서 코어들 사이에 공유될 수 있다.
상술된 바와 같이, 이동 명령어는 RAT에서 소스 레지스터 포인터를 목적지 레지스터 포인터에 복사함으로써 제거될 수 있다. 도 5는, 레지스터 에일리어싱에 의해 MOV DX, AX 명령어를 실행하는 것을 개략적으로 도시하며: PRF 내의 엔트리(X)에 대한 포인터인, AX에 대한 RAT 엔트리의 콘텐츠는 DX에 대한 RAT 엔트리에 복사된다. 도 5에 의해 도시되는 바와 같이, 특정 구현예에서, PRF는 물리적 레지스터 값들의 어레이에 의해 제공될 수 있고, RAT는 PRF 엔트리들에 대한 포인터들의 어레이에 의해 제공될 수 있다.
정수 명령어는, 목적지 레지스터 값, 뿐만 아니라, 예를 들어, 캐리 플래그(C), 부호 플래그(S), 패리티 플래그(P), 조절 플래그(A), 제로 플래그(Z), 및/또는 오버플로 플래그(O)를 포함하는, 프로세서 상태 플래그들 중 하나 이상을 변경할 수 있다. 플래그 값들을 저장하기 위해, 각각의 PRF 엔트리는, 데이터 레지스터 값을 위한 필드와 함께, 플래그 값들을 위한 하나 이상의 필드들을 포함할 수 있다. 특정 구현들에서, 프로세서 상태 플래그들은, 캐리 플래그의 값을 저장하기 위한 C 비트 필드, 및 S, P, A, Z 및 O 플래그들의 값들을 저장하기 위한 SPAZO 5 비트 필드인, 2개의 PRF 필드들에 저장될 수 있다. 필드 내의 하나 이상 비트들이 새로운 값으로 업데이트되어야 한다면, 나머지 비트들은 그 비트들의 이전 버전과 마찬가지로 업데이트되어야 한다. 환언하면, 프로그램 실행의 주어진 포인트에 대해, 단일 PRF 엔트리는 그 프로그램 포인트에 대한 필드에 이러한 플래그들의 최근 값들을 포함한다. C 및 SPAZO 그룹핑들을 위해, 단일 PRF 엔트리 또는 2개의 물리적 레지스터들의 조합은 프로그램에서 주어진 포인트에서 정확한 플래그 상태를 나타낼 것이 요구된다. 따라서, 정수 마이크로 연산의 결과는, 3가지 상술된 필드들을 포함하는 하나의 PRF 엔트리에 기입될 수 있는 플래그 값들 및 목적지 데이터 레지스터 값을 포함할 수 있다. 다른 구현들은 프로그램 포인트에서 플래그 상태를 나타내는데 단 하나의 PRF를 요구하는 하나의 필드에 플래그 비트들 모두를 그룹화할 수 있고; 다른 구현들은 각각의 플래그 비트를 별도의 필드로서 관리할 수 있어, 이미 설명된 바와 같은 CSPAZO 플래그 상태를 갖는 프로세서에 대해, 프로그램 포인트에서 플래그 상태를 나타내는데 6개 까지의 PRF 엔트리들을 요구한다.
RAT는 플래그 값들을 PRF 엔트리들에 맵핑하는 하나 이상 포인터들을 포함할 수 있다. 특정 구현들에서, RAT는, C 플래그 값을 PRF 엔트리에 맵핑하는 엔트리, 및 SPAZO 플래그 값들을 PRF 엔트리에 맵핑하는 엔트리를 포함할 수 있다. 그러므로, 프로세서 상태 플래그들은 RAT("플래그 논리적 레지스터들"이라고도 함)에 그들 자신의 논리적 엔트리들을 가질 수 있지만, PRF 엔트리들을 데이터 레지스터들과 공유할 수 있다: 아키텍처상 데이터 및 상태 플래그들 양자 모두를 업데이트하는 연산의 결과로서, 여러 RAT 엔트리들은 동일한 PRF 엔트리에 맵핑하도록 업데이트될 수 있다.
여러 RAT 엔트리들에 의해 참조되는 PRF 엔트리는, 데이터 및 플래그 포인터들을 포함하는, 여러 RAT 포인터들이 하나 이상의 명령어들에 의해 중복기입된 후 후속 명령어들에 의해 사용할 수 있게 될 수 있다. 그러므로, 트래킹 메커니즘은 PRF 엔트리를 참조하는 여러 RAT 포인터들을 트래킹하는데 필요하다.
특정 구현들에서, 플래그 트래커라 하는 데이터 구조는 데이터 및 플래그 논리적 레지스터들에 의해 PRF 엔트리들의 공유된 사용을 트래킹하는데 이용될 수 있다. 플래그 트래커는 하나 이상의 상태 플래그들을 나타내는 필드들의 하나 이상 세트들을 포함할 수 있다. 일 예에서, 도 6a에 의해 개략적으로 도시되는 바와 같이, 플래그 트래커는, 각각 C 및 SPAZO 상태 플래그들을 나타내는 2개 열들을 갖는 2차원 어레이에 의해 제공될 수 있다. LDstV 비트는 LDst 필드에 의해 식별되는 논리적 데이터 레지스터가 PRF 엔트리를 대응하는 (예를 들어, C 또는 SPAZO) 플래그 레지스터와 공유하는 것을 나타내도록 설정될 수 있다. 할당 시에, 논리적 레지스터가 중복기입되었고, 플래그들이 또한 중복기입될 때(이동 제거를 전혀 가정하지 않음), 관련된 물리적 레지스터는 중복기입 명령어가 리타이어된 후 복구될 수 있다. 현재 물리적 레지스터를 플래그들과 공유하는 논리적 레지스터가 중복기입되었지만, 플래그들의 전부 또는 일부가 중복기입되지 않았을 때, 이러한 플래그 필드들에 대응하는 LDstV 필드들은 클리어된다. 이러한 특별한 플래그 그룹들이 또한 중복된 후에만, 물리적 레지스터가 복구될 수 있다.
특정 구현들에서는, MIT(Multiple Instantiation Table)라 하는, 데이터 구조가 PRF 엔트리들에 대한 참조들을 트래킹하는데 이용될 수 있다. 특정 구현들에서, MIT는 여러 세트들의 비트들을 저장할 수 있으며, 여기서 한 세트의 비트들은 이동 제거 연산을 나타낼 수 있고, 한 세트 내에서의 한 비트는 논리적 데이터 레지스터를 나타낼 수 있다. MIT는, 논리적 레지스터들을 나타내는 복수의 행들, 및 이동 제거 세트들을 나타내는 복수의 열들을 갖는 2차원 어레이(예를 들어, 비트 행렬)로서 구현될 수 있고, 여기서 한 세트 비트는 대응 데이터 레지스터가 이동 제거 세트에 참여한다는 점을 나타낸다.
단 하나의 레지스터 맵핑이 이동 제거 세트에 남아서, 해당 PRF 엔트리가 남아있는 단 하나의 참조를 가지면, MIT 열에 의해 제공되는 이동 제거 세트는 다른 이동 명령어로의 할당에 대해 여전히 사용가능하지 않을 수 있다. 이러한 세트는 단 하나의 레지스터 맵핑을 갖기 때문에 "고아(orphan)" 세트라 할 수 있다. 고아 세트를 클리어하는 어떤 액션이 없이는, 마지막 논리적 레지스터가 중복기입될 때까지 이는 사용가능하지 않은 채 남아 있을 수 있고, 따라서, 가능한 이동 제거들의 수를 감소시킨다.
도 7a-7c는, 본 개시내용의 하나 이상의 양상에 따라, PRF(Physical Register File) 엔트리 트래킹을 위해 MIT(Multiple Instantiation Table)을 사용하는 몇몇 예들을 개략적으로 나타내는 도시한다. 이동 연산이 제거될 때는, 도 7a에 의해 개략적으로 도시되는 바와 같이, 소스 및 목적지 논리적 레지스터들에 대응하는 비트들이 설정될 수 있어, 이들 논리적 레지스터들이 이동 제거 세트의 일부라는 것을 나타낸다. 이동 명령어의 소스가 이동 제거 세트에 이미 참여한 논리적 레지스터이면, 도 7b에 의해 개략적으로 도시되는 바와 같이, 목적지 논리적 레지스터가 세트에 추가된다. 이동 제거 세트에 참여하는 레지스터가 또 다른 명령어에 의해 중복기입될 때는, 도 7c에 의해 개략적으로 도시되는 바와 같이, (이미 설정된) 대응하는 MIT 비트가 클리어될 수 있고, 이에 따라 논리적 레지스터를 이동 제거 세트로부터 분리한다. 물리적 레지스터에 대한 모든 참조들이 하나 이상의 명령어들에 의해 중복 기입되고 후속하여 리타이어되면, 임의의 이동 제거 세트의 일부가 아니거나 또는 이동 제거 세트의 유일한 멤버인 대응하는 물리적 레지스터는 새로운 명령어에 의해 재사용될 수 있다.
도 7a-7c에 의해 도시되는 예는 데이터 및 플래그 논리적 레지스터들에 의한 PRF 엔트리들의 공유를 가능한 것으로 고려하지 않는다. 특정 구현들에서, 플래그 트래커는, C 및 SPAZO 플래그들이 동일한 PRF 엔트리를 공유하는지를 나타내는 SharedFlag 비트를 더 포함할 수 있다. C 또는 SPAZO 플래그들 중 하나가 명령어에 의해 중복기입되는 상황들에서, 다른 플래그 논리적 레지스터는 제2 플래그가 또한 다른 명령어에 의해 중복기입될 때까지 동일한 PRF 엔트리에 대해 계속 포인트할 수 있다.
일 예에서는, 도 6b에 의해 개략적으로 도시되는 바와 같이, 플래그 트래커가 MEV(Move Elimination Valid) 및 MECol(Move Elimination Column) 필드들을 포함하도록 개선될 수 있다. MEV 비트는, 플래그 레지스터가 논리적 레지스터들과 PRF 엔트리를 공유하는 이동 제거 세트를 나타내는 MIT 열의 유효 식별자를 MECol 필드가 저장한다는 점을 나타내도록 설정될 수 있다. 특정 구현들에서, LDst 및 MECol 필드들은 공유된 필드에 의해 나타날 수 있는데, 이들 중 단 하나만이 임의의 주어진 시간에 유효할 수 있기 때문이다.
도 8a-8c는 데이터 및 플래그 논리적 레지스터들에 의한 PRF 엔트리들의 공유된 사용을 트래킹하는데 플래그 트래커를 이용하는 일 예를 도시한다. 도 8a는 C 플래그 트래커의 초기 상태를 도시하는 것으로: EAX 레지스터 및 C 플래그가 실행되는 명령어에 의해 업데이트된 이후, LDstV 비트는 C 플래그가 LDst 필드에 의해 식별되는 논리적 레지스터와 PRF 엔트리를 공유한다는 점을 나타내도록 설정된다. 도 8b는 EAX를 EBX에 복사하는 연산의 결과를 도시하는 것으로: RAT에서의 EAX 포인터가 EBX에 복사되고(도시되지 않음); EAX, EBX 및 이와 관련된 C 플래그를 포함하는 이동 제거 세트가 생성되고(도시되지 않음); 플래그 트래커에서, LDstV 비트는 LDst의 값이 더 이상 관련이 없다는 것을 나타내도록 클리어되고, MEV 비트가 설정되고, 이동 제거 세트 식별자(대응하는 MIT 열의 번호)가 MECol에 기입된다. 도 8c는 EAX 레지스터가 C 플래그를 업데이트하지 않고 새로운 값으로 중복기입되는 결과를 도시하는 것으로: LDst 필드는 C 플래그가 단 하나의 레지스터와 PRF 엔트리를 공유한다는 점을 나타내도록 업데이트되고(EBX), LDstV 비트는 LDst 필드(EBX)에 의해 식별되는 논리적 레지스터와 PRF 엔트리를 공유한다는 점을 나타내도록 설정되며, MEV 비트는 MECol이 유효 이동 제거 세트를 참조하지 않는다는 점을 나타내도록 클리어된다.
특정 구현들에서, MIT는 하나 이상의 논리적 플래그 레지스터들을 나타내는 하나 이상의 비트들을 각각의 이동 제거 세트와 관련시키도록 개선될 수 있다. 이러한 관련은 하나 이상의 논리적 플래그 레지스터들을 나타내는 하나 이상의 비트들을 각각의 MIT 열에 추가함으로써 수행될 수 있다. 그러므로, MIT 컬럼은, (논리적 데이터 레지스터들을 나타내는 복수의 비트들을 포함하는) 이동 제거 세트 및 하나 이상의 논리적 플래그 레지스터들을 나타내는 하나 이상의 비트들을 포함할 수 있다. 특정 구현들에서는, 단일 비트가 2개 이상의 논리적 플래그 레지스터들을 나타낼 수 있다. 일 예에서, C 플래그를 나타내는 제1 비트 및/또는 SPAZO 플래그들을 나타내는 제2 비트가 각각의 MIT 열에 추가될 수 있다.
MIT 열들에 논리적 플래그 레지스터들을 추가하는 것은 이동 제거 세트가 고아가 된 후 LDst 및 LDstV 필드들을 설정하는 필요성(도 8c의 예에 의해 도시되는 상황)을 제거하며, 이에 따라 도 9-10의 예들을 참조하여 이하 본 명세서에 보다 상세히 설명되는 바와 같이 시스템 설계를 간단하게 하고 실행 효율성을 개선한다. MIT 열에 플래그 비트를 설정하는 목적은 단 하나의 논리적 데이터 레지스터만이 세트에 남을 때 고아 회복 로직이 대응하는 이동 제거 세트를 복구하는 것을 예방하는 것이다.
실행 효율을 더욱 개선하기 위해, C 및 SPAZO 상태 플래그들과 PRF 엔트리를 공유하는 논리적 레지스터를 임의의 이동 제거 연산이 포함할 수 있다는 점을 로직(150)이 보수적으로 가정할 수 있다. 그러므로, 트래킹 로직은 이동 제거 세트에 레지스터를 생성하거나 또는 추가하는 것에 응답하여 MIT에 플래그 비트들(예를 들어, C 및 SPAZO 플래그 비트들)을 추측에 근거하여 설정할 수 있다. 플래그가 중복기입될 때, 대응하는 MIT 비트는, 플래그가 이동 제거 세트들과 관련되지 않는다는 점을 나타내지 않도록, MIT에서의 모든 열들로부터 클리어될 수 있다. 상술된 바와 같이, 특정 구현들에서는, 논리적 및 산술적 연산들만이 플래그 비트를 기입할 수 있고, 그러므로 이러한 연산들의 결과는 후속 이동 연산이 이후 공유만 될 수 있는 새로운 물리적 레지스터에 항상 기입된다.
일부 구현들에서 MIT 플래그 비트들은 추측에 근거하여 설정될 수 있으므로, 대응하는 플래그가 이동 제거 세트의 다른 멤버들과 PRF 엔트리를 공유한다는 점을 MIT 플래그 비트가 반드시 나타낼 필요는 없다. 플래그 트래킹을 용이하게 하기 위해, 로직(150)은, 할당된 마이크로 연산, 및 그 마이크로 연산에 대한 목적지 레지스터가 다른 논리적 레지스터와 공유되는지를 나타내는, LDstIsME라 하는, 신호로 인해 논리적 레지스터가 제거될 이동 제거 세트(예를 들어, 다수의 대응하는 MIT 열에 의함)를 식별하는, MITOvrWrCol이라 하는, 신호를 포함하는, MIT 업데이트들을 반영하는 여러 신호들을 생성할 수 있다. 플래그에 대한 MEV 비트가 설정되고(플래그 레지스터가 이동 제거 세트와 관련됨을 나타냄), MITOvrWrCol 신호가 MECol과 일치하며(플래그 논리적 레지스터와 PRF 엔트리를 공유하는 이동 제거 세트로부터 논리적 레지스터를 자유롭게 한다는 점을 실행되는 연산이 나타냄), LDstIsME 신호가 거짓(연산의 LDst에 의해 중복기입되는 논리적 레지스터가 이동 제거 세트에서 마지막 남은 레지스터였다는 점을 나타냄)일 때, 플래그 레지스터는 데이터 레지스터와 PRF 엔트리를 더 이상 공유하지 않는다. 따라서, MEV 비트는 클리어될 수 있고, 다음 플래그 기입 연산이 PRF 엔트리를 복구할 수 있다.
플래그 트래킹 로직은 도 9a-9d 및 10a-10d에 의해 개략적으로 도시되는 예들을 참조하여 더욱 설명된다. 설명의 명료성을 위해, 하나의 MIT 열, 하나의 상태 플래그 및 2개 레지스터들만이 도시되지만, 구현은 복수의 MIT 열들, 복수의 상태 플래그 필드들 및 복수의 논리적 레지스터들을 포함할 수 있다는 점이 이해되어야 한다.
일 예에서, 도 9a는 MIT 열 0과 C 플래그 트래커의 초기 상태를 도시한다: 실행된 명령어에 의해 EAX 레지스터 및 C 플래그가 업데이트된 후, LDstV 비트는 C 플래그가 LDst 필드에 의해 식별된 논리적 레지스터와 PRF 엔트리를 공유하는 것을 나타내도록 설정된다. 도 9b는 EAX를 EBX로 복사하는 연산의 결과를 도시한다: RAT 내의 EAX 포인터는 EBX에 복사된다(도시되지 않음); EAX, EBX 및 C 플래그를 포함하는 이동 제거 세트가 생성된다; 플래그 트래커에서, LDstV 비트는 Ldst의 값이 더 이상 적절하지 않는 것을 나타내도록 클리어되고, MEV 비트가 설정되며, 이동 제거 세트 식별자(대응하는 MIT 열의 수)가 MECol에 기입된다. 도 9c는 새로운 값으로 중복기입되는 EAX 레지스터의 결과를 도시한다: MIT 엔트리는 EAX를 나타내는 비트를 클리어함으로써 이동 제거 세트로부터의 EAX의 제거를 반영한다; 플래그 트래커는 동일하게 유지된다; 플래그 비트가 여전히 설정되기 때문에 고아 복구가 디스에이블되며, 플래그들이 PRF 엔트리를 EBX와 공유할 수 있다는 것을 나타낸다. 도 9d는, 이동 제거 세트에서 마지막으로 남아있는 데이터 레지스터인, EBX 레지스터가 새로운 값으로 중복기입되지만, 상태 플래그들은 중복기입되지 않는 결과를 도시한다: MIT 엔트리는 대응하는 비트를 클리어함으로써 이동 제거 세트로부터의 EBX의 제거를 반영한다; 플래그 트래커에서, MEV 비트는 클리어되고, 그러므로, C 플래그로의 다음 기입자는 PRF 엔트리를 복구할 것이다. 이와 같이, MIT 열 0은 다른 이동 제거에 사용되는 것이 자유롭다; C 플래그는 다른 어떤 논리적 레지스터들과도 공유되지 않고, 따라서 구조들의 어느 쪽에서도 공유가 트래킹될 필요가 없다. C 플래그가 EBX 업데이트와 함께 업데이트되면, PRF 엔트리는 이러한 사이클에서 복구를 위해 표시될 것이다.
다른 예에서, 도 10a는 여러 데이터 구조들의 초기 상태를 도시한다: 실행된 명령어에 의해 EAX 레지스터 및 C 플래그가 업데이트된 후, LDstV 비트는 C 플래그가 LDst 필드에 의해 식별된 논리적 레지스터와 PRF 엔트리를 공유하는 것을 나타내도록 설정된다. 도 10b는 이동 제거 연산 MOV EBX, EAX의 결과를 도시한다: RAT 내의 EAX 포인터는 EBX에 복사된다(도시되지 않음); 이동 제거 세트는 그와 관련된 EAX, EBX 및 C 플래그를 포함하여, 생성된다; 플래그 트래커에서, LDstV 비트가 클리어되고, MEV 비트가 설정되고, 이동 제거된 세트 식별자(대응하는 MIT 열의 수)가 MECol에 기입된다. 도 10c는 EAX 레지스터 및 C 플래그 양자 모두가 새로운 값들로 중복기입하는 결과를 도시한다: MIT 엔트리는 대응하는 비트들을 클리어함으로써 이동 제거 세트로부터의 EAX 및 C 플래그의 제거를 반영한다; 플래그 트래커는 C 플래그 및 EAX 레지스터의 관련성을 반영하도록 업데이트된다: LDstV 비트가 설정되고, MEV 비트가 클리어된다. 그러므로, 도 lOd에 의해 개략적으로 도시되는 바와 같이, EBX는 이동 제거 세트에 남아 있는 마지막 레지스터이고, 다음 사이클에서 고아 복구 메커니즘은 대응하는 이동 제거 열을 복구할 것이다. EBX가 새로운 이동 제거된 세트의 멤버가 되지 않는 것으로 가정하면, EBX에 의해 사용된 PRF 엔트리는 중복기입되는 다음 번에 복구를 위해 표시될 것이다.
도 11은, 본 개시내용의 하나 이상의 양상들에 따라서, 이동 제거 연산들에서 플래그 트래킹을 위한 예시적 방법의 흐름도를 도시한다. 방법(800)은, 하드웨어(예를 들어, 회로, 전용 로직, 및/또는 프로그래머블 로직), 소프트웨어(예를 들어, 하드웨어 시뮬레이션을 실행하는 컴퓨터 시스템 상의 실행가능 명령어들), 또는 이들의 조합을 포함할 수 있는 컴퓨터 시스템에 의해 수행될 수 있다. 방법(800) 및/또는 그 기능들, 루틴들, 서브루틴들, 또는 연산들의 각각은, 방법을 실행하는 컴퓨터 시스템의 하나 이상의 물리적 프로세서들에 의해 수행될 수 있다. 방법(800)의 2개 이상의 기능들, 루틴들, 서브루틴들, 또는 연산들은, 상술한 순서와 상이할 수 있는 순서로 또는 병렬로 수행될 수 있다. 일 예에서는, 도 11에 의해 도시되는 바와 같이, 방법(800)이 도 1의 컴퓨터 시스템(100)에 의해 수행될 수 있다.
도 11을 참조하면, 블럭 810에서, 컴퓨팅 시스템은 복수의 물리적 레지스터 값들을 PRF라 하는 제1 데이터 구조에 저장할 수 있다.
블럭 820에서, 컴퓨팅 시스템은 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 RAT라 하는 제2 데이터 구조에 저장할 수 있다.
블럭 830에서, 컴퓨팅 시스템은 복수의 논리적 레지스터들을 나타내는 복수의 비트들을 MIT라 하는 제3 데이터 구조에 저장할 수 있다.
블럭 840에서, 컴퓨팅 시스템은 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 플래그 트래커라 하는 제4 데이터 구조에 저장할 수 있다.
블럭 850에서, 컴퓨팅 시스템은 제2 데이터 구조의 엘리먼트로 하여금 제1 데이터 구조의 엘리먼트를 참조하게 함으로써 이동 제거 연산을 수행할 수 있다.
블럭 860에서, 컴퓨팅 시스템은, 제3 데이터 구조 및 제4 데이터 구조 중 적어도 하나를 사용하여, 제1 데이터 구조의 엘리먼트들의 가용성을 트래킹할 수 있다. 블럭 850에 의해 참조되는 연산들을 완료하면, 본 방법이 종료될 수 있다.
도 12는, 본 개시내용의 하나 이상의 양상들에 따라서, 예시적인 컴퓨터 시스템의 블럭도를 도시한다. 도 12에 도시된 바와 같이, 멀티프로세서 시스템(700)은, 포인트 투 포인트(point-to-point) 상호접속 시스템이고, 포인트 투 포인트 상호접속(750)을 통해 연결되는 제1 프로세서(770) 및 제2 프로세서(780)를 포함한다. 프로세서들(770 및 780) 각각은, 위에서 더 상세히 설명하는 바와 같이, 트랜잭션형 메모리 액세스 연산 및/또는 비트랜잭션형 메모리 액세스 연산을 실행할 수 있는 일부 버전의 프로세서(102)일 수 있다.
단 2개의 프로세서들(770, 780)을 갖는 것으로 도시되지만, 본 발명의 범위는 이에 한정되지 않는다는 것이 이해되어야 한다. 다른 실시예들에서는, 하나 이상의 추가적인 프로세서들이 주어진 프로세서에 존재할 수도 있다.
프로세서들(770, 780)은 각각 집적된 메모리 제어기 유닛(772, 782)을 포함하는 것으로 도시된다. 프로세서(770)는, 또한, 그 버스 제어기 유닛들의 일부로서 P-P(Point-to-Point) 인터페이스들(776, 778)을 포함하고; 유사하게, 제2 프로세서(780)는 P-P 인터페이스들(786, 788)을 포함한다. 프로세서들(770, 780)은 P-P 인터페이스 회로들(778, 788)을 사용하는 포인트 투 포인트(P-P) 인터페이스(750)를 통해 정보를 교환할 수 있다. 도 12에 도시된 바와 같이, IMC들(772 및 782)은 프로세서들을 각각의 메모리들, 즉, 각각의 프로세서들에 국부적으로 부착된 메인 메모리의 일부들일 수 있는 메모리(732) 및 메모리(734)에 연결한다.
프로세서들(770, 780)은 각각 포인트 투 포인트 인터페이스 회로들(776, 794, 786, 798)을 사용하는 개별 P-P 인터페이스들(752, 754)을 통해 칩셋(790)과 정보를 교환할 수 있다. 칩셋(790)은 또한 고 성능 그래픽 인터페이스(739)를 통해 고성능 그래픽 회로(738)와 정보를 교환할 수 있다.
공유된 캐시(도시되지 않음)가 양자 모두의 프로세서들의 외부에 또는 어느 하나의 프로세서에 포함될 수 있지만, P-P 상호접속을 통해 프로세서들과 여전히 접속되어, 프로세서가 저 전력 모드에 놓이면, 어느 하나의 프로세서 또는 양자 모두의 프로세서들의 로컬 캐시 정보가 공유 캐시에 저장될 수 있다.
칩셋(790)은 인터페이스(796)를 통해 제1 버스(716)에 연결될 수 있다. 일 실시예에서, 제1 버스(716)는, PCI(Peripheral Component Interconnect) 버스, 또는 PCI Express 버스 또는 다른 3세대 I/O 상호접속 버스와 같은 버스일 수 있지만, 본 발명의 범위가 이에 한정되는 것은 아니다.
도 12에 도시된 바와 같이, 다양한 I/O 디바이스들(714)은, 제1 버스(716)를 제2 버스(720)에 연결하는 버스 브리지(718)와 함께, 제1 버스(716)에 연결될 수 있다. 일 실시예에서, 제2 버스(720)는 LPC(Low Pin Count) 버스일 수 있다. 예를 들어, 키보드 및/또는 마우스(722), 통신 디바이스들(727), 및 일 실시예에서 명령어들/코드 및 데이터(730)를 포함할 수 있는 디스크 드라이브 또는 기타 대용량 스토리지 디바이스와 같은 스토리지 유닛(728)을 포함하는 다양한 디바이스들이 제2 버스(720)에 연결될 수 있다. 또한, 오디오 I/O(724)가 제2 버스(720)에 연결될 수 있다. 다른 아키텍처들도 가능하다는 점에 주목한다. 예를 들어, 도 12의 포인트-투-포인트 아키텍처 대신에, 시스템은 멀티 드롭 버스 또는 다른 이러한 아키텍처를 구현할 수 있다.
이하의 예들은 본 개시내용의 하나 이상의 양상들에 따른 다양한 구현들을 보여준다.
예 1은, 복수의 물리적 레지스터 값들을 포함하는 제1 데이터 구조; 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 포함하는 제2 데이터 구조; 복수의 이동 제거 세트들을 포함하는 제3 데이터 구조- 각각의 이동 제거 세트는 2개 이상의 논리적 데이터 레지스터들을 나타내는 2개 이상의 비트들을 포함하고, 제3 데이터 구조는, 각각의 이동 제거 세트와 관련되는 적어도 하나의 비트를 더 포함하고, 적어도 하나의 비트는 하나 이상의 논리적 플래그 레지스터들을 나타냄 -; 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 포함하는 제4 데이터 구조; 및 제2 데이터 구조의 엘리먼트로 하여금 제1 데이터 구조의 엘리먼트를 참조하게 함으로써 이동 제거 연산을 수행하도록 구성되는 이동 제거 로직- 이동 제거 로직은, 제3 데이터 구조 및 제4 데이터 구조 중 적어도 하나를 사용하여, 제1 데이터 구조의 엘리먼트들의 가용성을 트래킹하도록 더 구성됨 -을 포함하는 처리 시스템이다.
예 2에서, 예 1의 처리 시스템의 이동 제거 로직은, 제1 데이터 구조에서 새로운 이동 제거 세트를 생성하는 것, 이동 제거 세트에 레지스터를 추가하는 것, 또는 플래그 레지스터에 새로운 데이터를 기입하는 것 중 적어도 하나에 응답하여, 제3 데이터 구조에서 플래그 비트의 값을 변경하도록 구성될 수 있다.
예 3에서, 예1의 처리 시스템의 이동 제거 로직은 단 하나의 논제로(non-zero) 비트를 갖는 이동 제거 세트를 검출하고 복구하도록 더 구성될 수 있다.
예 4에서, 예 1의 처리 시스템의 이동 제거 로직은, 이동 제거 세트와 관련되고 논리적 플래그 레지스터를 나타내는 적어도 하나의 비트가 논제로 값을 갖는다는 판정에 응답하여, 적어도 하나의 논제로 비트를 갖는 이동 제거 세트를 복구하는 것을 취소하도록 구성될 수 있다.
예 5에서, 예 1의 처리 시스템의 제4 데이터 구조는, 이동 제거 세트의 유효성을 나타내는 비트, 논리적 플래그 레지스터가 제1 데이터 구조의 엔트리를 데이터 레지스터와 공유한다는 것을 나타내는 비트, 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터를 식별하는 제1 식별자, 및 이동 제거 세트를 식별하는 제2 식별자를 포함할 수 있다.
예 6에서, 예 5의 처리 시스템의 제1 식별자 및 제2 식별자는 공통 데이터 필드에 의해 표현될 수 있다.
예 7에서, 예 1의 처리 시스템의 이동 제거 로직은, 할당된 마이크로 연산에 의해 중복기입되는 하나 이상의 논리적 레지스터들을 갖는 이동 제거 세트를 식별하는 제1 신호, 및 마이크로 연산에 대한 목적지 레지스터의 공유된 사용을 나타내는 제2 신호를 생성하도록 더 구성될 수 있다.
예 8에서, 예 7의 처리 시스템의 이동 제거 로직은, 플래그 레지스터에 대응하는 논리적 플래그 레지스터가 제1 이동 제거 세트와 관련되고, 제1 신호는 제1 이동 제거 세트의 식별자와 일치하며, 제2 신호는 거짓이라는 판정에 응답하여, 플래그 레지스터가 제1 데이터 구조의 엘리먼트를 데이터 레지스터와 더 이상 공유하지 않는다는 것을 나타내도록 제4 데이터 구조를 업데이트하도록 더 구성될 수 있다.
예 9는, 컴퓨팅 시스템에 의해, 제1 데이터 구조에 복수의 물리적 레지스터 값들을 저장하는 단계; 제2 데이터 구조에, 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 저장하는 단계; 제3 데이터 구조에, 복수의 이동 제거 세트들 및 각각의 이동 제거 세트와 관련된 적어도 하나의 비트를 저장하는 단계- 적어도 하나의 비트는 하나 이상의 논리적 플래그 레지스터들을 나타내고, 각각의 이동 제거 세트는 2개 이상의 논리적 데이터 레지스터들을 나타내는 2개 이상의 비트들을 포함함 -; 제4 데이터 구조에, 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 저장하는 단계; 제2 데이터 구조의 엘리먼트로 하여금 제1 데이터 구조의 엘리먼트를 참조하게 함으로써 이동 제거 연산을 수행하는 단계; 및 제3 데이터 구조 및 제4 데이터 구조 중 적어도 하나를 사용하여, 제1 데이터 구조의 엘리먼트들의 가용성을 트래킹하는 단계를 포함하는, 데이터 조작 연산을 수행하는 방법이다.
예 10에서, 예 9의 방법은, 제1 데이터 구조에서 새로운 이동 제거 세트를 생성하는 것, 이동 제거 세트에 레지스터를 추가하는 것, 또는 플래그 레지스터에 새로운 데이터를 기입하는 것 중 적어도 하나에 응답하여, 제3 데이터 구조에서 플래그 비트의 값을 변경하는 단계를 더 포함할 수 있다.
예 11에서, 예 9의 방법은, 단 하나의 논제로(non-zero) 비트를 갖는 이동 제거 세트를 검출하고 복구하는 단계를 더 포함할 수 있다.
예 12에서, 예 11의 방법은, 이동 제거 세트와 관련되고 논리적 플래그 레지스터를 나타내는 적어도 하나의 비트가 논제로 값을 갖는다는 판정에 응답하여, 적어도 하나의 논제로 비트를 갖는 이동 제거 세트의 복구를 취소하는 단계를 더 포함할 수 있다.
예 13에서, 예 9의 방법의 제4 데이터 구조는, 이동 제거 세트의 유효성을 나타내는 비트, 논리적 플래그 레지스터가 제1 데이터 구조의 엔트리를 데이터 레지스터와 공유한다는 것을 나타내는 비트, 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터를 식별하는 제1 식별자, 및 이동 제거 세트를 식별하는 제2 식별자를 포함할 수 있다.
예 14에서, 예 13의 방법의 제1 식별자 및 제2 식별자는 공통 데이터 필드에 의해 표현될 수 있다.
예 15에서, 예 9의 방법은, 할당된 마이크로 연산에 의해 중복기입되는 하나 이상의 논리적 레지스터들을 갖는 이동 제거 세트를 식별하는 제1 신호, 및 마이크로 연산에 대한 목적지 레지스터의 공유된 사용을 나타내는 제2 신호를 생성하는 단계를 더 포함할 수 있다.
예 16에서, 예 15의 방법은, 플래그 레지스터에 대응하는 논리적 플래그 레지스터가 제1 이동 제거 세트와 관련되고, 제1 신호는 제1 이동 제거 세트의 식별자와 일치하며, 제2 신호는 거짓이라는 판정에 응답하여, 플래그 레지스터가 제1 데이터 구조의 엘리먼트를 데이터 레지스터와 더 이상 공유하지 않는다는 것을 나타내도록 제4 데이터 구조를 업데이트하는 단계를 더 포함할 수 있다.
예 17은 메모리 및 메모리에 연결되는 처리 시스템을 포함하는 장치이고, 처리 시스템은 예 9-16 중 임의의 것의 방법을 수행하도록 구성된다.
예 18은, 컴퓨터 시스템에 의해 실행될 때, 컴퓨터 시스템으로 하여금, 컴퓨팅 시스템에 의해, 제1 데이터 구조에 복수의 물리적 레지스터 값들을 저장하는 단계; 제2 데이터 구조에, 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 저장하는 단계; 제3 데이터 구조에, 복수의 이동 제거 세트들 및 각각의 이동 제거 세트와 관련된 적어도 하나의 비트를 저장하는 단계- 적어도 하나의 비트는 하나 이상의 논리적 플래그 레지스터들을 나타내고, 각각의 이동 제거 세트는 2개 이상의 논리적 데이터 레지스터들을 나타내는 2개 이상의 비트들을 포함함 -; 제4 데이터 구조에, 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 저장하는 단계; 제2 데이터 구조의 엘리먼트로 하여금 제1 데이터 구조의 엘리먼트를 참조하게 함으로써 이동 제거 연산을 수행하는 단계; 및 제3 데이터 구조 및 제4 데이터 구조 중 적어도 하나를 사용하여, 제1 데이터 구조의 엘리먼트들의 가용성을 트래킹하는 단계를 포함하는, 연산들을 수행하게 하는 실행가능 명령어들을 포함하는 컴퓨터 판독가능 비일시적 스토리지 매체이다.
예 19에서, 예 18의 컴퓨터 판독가능 비일시적 스토리지 매체는, 컴퓨팅 시스템으로 하여금, 제1 데이터 구조에서 새로운 이동 제거 세트를 생성하는 것, 이동 제거 세트에 레지스터를 추가하는 것, 또는 플래그 레지스터에 새로운 데이터를 기입하는 것 중 적어도 하나에 응답하여, 제3 데이터 구조에서 플래그 비트의 값을 변경하게 하는 실행가능 명령어들을 더 포함할 수 있다.
예 20에서, 예 18의 컴퓨터 판독가능 비일시적 스토리지 매체는, 컴퓨팅 시스템으로 하여금, 단 하나의 논제로(non-zero) 비트를 갖는 이동 제거 세트를 검출하고 복구하게 하는 실행가능 명령어들을 더 포함할 수 있다.
예 21에서, 예 20의 컴퓨터 판독가능 비일시적 스토리지 매체는, 컴퓨팅 시스템으로 하여금, 이동 제거 세트와 관련되고 논리적 플래그 레지스터를 나타내는 적어도 하나의 비트가 논제로 값을 갖는다는 판정에 응답하여, 적어도 하나의 논제로 비트를 갖는 이동 제거 세트의 복구를 취소하게 하는 실행가능 명령어들을 더 포함할 수 있다.
예 22에서, 예 18의 컴퓨터 판독가능 비일시적 스토리지 매체의 제4 데이터 구조는, 이동 제거 세트의 유효성을 나타내는 비트, 논리적 플래그 레지스터가 제1 데이터 구조의 엔트리를 데이터 레지스터와 공유한다는 것을 나타내는 비트, 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터를 식별하는 제1 식별자, 및 이동 제거 세트를 식별하는 제2 식별자를 포함할 수 있다.
예 23에서, 예 22의 제1 식별자 및 제2 식별자는 공통 데이터 필드에 의해 표현될 수 있다.
예 24에서, 예 18의 컴퓨터 판독가능 비일시적 스토리지 매체는, 컴퓨팅 시스템으로 하여금, 할당된 마이크로 연산에 의해 중복기입되는 하나 이상의 논리적 레지스터들을 갖는 이동 제거 세트를 식별하는 제1 신호, 및 마이크로 연산에 대한 목적지 레지스터의 공유된 사용을 나타내는 제2 신호를 생성하게 하는 실행가능 명령어들을 더 포함할 수 있다.
예 25에서, 예 18의 컴퓨터 판독가능 비일시적 스토리지 매체는, 컴퓨팅 시스템으로 하여금, 플래그 레지스터에 대응하는 논리적 플래그 레지스터가 제1 이동 제거 세트와 관련되고, 제1 신호는 제1 이동 제거 세트의 식별자와 일치하며, 제2 신호는 거짓이라는 판정에 응답하여, 플래그 레지스터가 제1 데이터 구조의 엘리먼트를 데이터 레지스터와 더 이상 공유하지 않는다는 것을 나타내도록 제4 데이터 구조를 업데이하게 하는 실행가능 명령어들을 더 포함할 수 있다.
상세한 설명의 일부 부분들은 컴퓨터 메모리 내의 데이터 비트들에 대한 연산들의 기호적 표현들 및 알고리즘들에 관하여 제시된다. 이러한 알고리즘 설명 및 표현은 데이터 처리 기술 분야의 통상의 기술자가 그들의 작업의 내용을 그 기술 분야의 다른 통상의 기술자에게 가장 효과적으로 전달하기 위해 사용하는 수단이다. 알고리즘은 여기서 그리고 일반적으로, 원하는 결과로 이어지는 일관성 있는 연산들의 시퀀스인 것으로 생각된다. 연산들은 물리적 양들의 물리적 조작들을 필요로 하는 것들이다. 반드시 그렇지는 않지만, 일반적으로, 이러한 양들은 저장되고, 전송되고, 연결되고, 비교되고 다른 식으로 조작될 수 있는 전기 또는 자기 신호들의 형태를 가진다. 주로 통상적 사용의 이유로 이러한 신호들을 비트들, 값들, 엘리먼트들, 기호들, 문자들, 용어들, 숫자들 또는 이와 유사한 것들로서 지칭하는 것이 때때로 편리하다는 것이 판명되었다.
그러나, 명심해야 할 점은 이들 및 그와 유사한 용어들 전부가 적절한 물리량들과 연관되는 것이고, 단지 이러한 양들에 적용되는 편리한 레이블들일 뿐이라는 점이다. 상기 논의로부터 명백한 바와 같이 구체적으로 다르게 기술되지 않는 한, 설명의 전체에 걸쳐, "암호화", "암호 해독", "저장", "제공", "도출", "획득", "수신", "인증", "삭제", "실행", "요청", "통신" 또는 기타 유사한 것과 같은 용어들을 이용하는 논의들은, 컴퓨팅 시스템의 레지스터들 및 메모리들 내의 물리적(또는 전기적) 양들로서 표현되는 데이터를 조작하여 컴퓨팅 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 스토리지, 전송 또는 디스플레이 디바이스들 내의 물리적 양들로서 유사하게 표현되는 다른 데이터로 변환하는, 컴퓨팅 시스템, 또는 유사한 전자 컴퓨팅 디바이스의 액션들 및 프로세스들을 말하는 것이라는 점이 이해된다.
"예" 또는 "예시적"이라는 단어들은 본 명세서에서 예, 사례 또는 예시의 역할을 하는 것을 의미하는데 사용된다. 본 명세서에서 "예" 또는 "예시적"으로 설명되는 임의의 양상 또는 설계가 반드시 다른 양상들 또는 설계들보다 바람직하거나 유리한 것으로 이해되어야 하는 것은 아니다. 오히려, "예" 또는 "예시적"이라는 단어의 사용은 개념들을 구체적인 방식으로 제시하기 위한 것이다. 본 출원에서 사용되는 바와 같이, "또는"이라는 용어는 배타적 "또는"이 아니라 포괄적 "또는"을 의미하려는 것이다. 즉, 다르게 명시되거나, 문맥으로부터 명백하지 않는 한, "X는 A 또는 B를 포함한다"는 것은 자연적인 포괄적 치환들 중 임의의 것을 의미하려는 것이다. 즉, X가 A를 포함하거나; X가 B를 포함하거나; 또는 X가 A 및 B 양자 모두를 포함한다면, "X는 A 또는 B를 포함한다"는 것은 전술한 사례들 중 임의의 것에서 충족된다. 또한, 본 출원 및 첨부된 청구항들에서 사용되는 바와 같은 관사들("a", "an")은, 일반적으로, 단수 형태에 관한 것으로 다르게 명시되거나 문맥으로부터 명백하지 않는 한, "하나 이상"을 의미하는 것으로 이해되어야 한다. 더욱이, 전반적으로 "실시예" 또는 "일 실시예" 또는 "구현" 또는 "일 구현"이라는 용어의 사용은 그와 같이 설명되지 않는 한 동일한 실시예 또는 구현을 의미하려는 것은 아니다. 또한, 본 명세서에 사용되는 바와 같은 "제1", "제2", "제3", "제4" 등의 용어는, 상이한 엘리먼트들 사이를 구별하는 레이블들로서 의도되는 것으로, 반드시 그들의 수치 지정에 따라 서수 의미를 가질 필요는 없다.
본 명세서에 설명되는 실시예는 본 명세서에 설명되는 연산들을 수행하는 장치에 관한 것일 수 있다. 이러한 장치는 특별히 필요한 목적을 위해 구성될 수 있거나, 컴퓨터에 저장된 컴퓨터 프로그램에 의해 선택적으로 활성화되거나 재구성되는 범용 컴퓨터를 포함할 수 있다. 이러한 컴퓨터 프로그램은, 이에 제한되는 것은 아니지만, 플로피 디스크들, 광 디스크들, CD-ROM들 및 광자기 디스크들을 포함하는 임의 타입의 디스크, ROM들(Read-Only Memories), RAM들(Random Access Memories), EPROM들, EEPROM들, 자기 또는 광 카드들, 플래시 메모리, 또는 전자 명령어들을 저장하기에 적합한 임의 타입의 매체와 같은, 비일시적 컴퓨터 판독가능 스토리지 매체에 저장될 수 있다. "컴퓨터 판독가능 스토리지 매체"라는 용어는 명령어들의 하나 이상의 세트들을 저장하는 단일 매체 또는 다수의 매체(예를 들어, 중앙집중형 또는 분산형 데이터베이스 및/또는 관련된 캐시들 및 서버들)를 포함하는 것으로 고려되어야 한다. "컴퓨터 판독가능 매체"라는 용어는, 또한, 머신에 의한 실행을 위해 명령어들의 세트를 저장, 인코딩 또는 전달할 수 있고, 머신으로 하여금 본 실시예들의 방법론들 중의 임의의 하나 이상을 수행하게 하는 임의의 매체를 포함하는 것으로 고려되어야 한다. "컴퓨터 판독가능 스토리지 매체"라는 용어는, 이에 제한되는 것은 아니지만, 솔리드 스테이트 메모리들, 광 매체, 자기 매체, 머신에 의한 실행을 위해 명령어들의 세트를 저장할 수 있고, 머신으로 하여금 본 실시예들의 방법론들 중의 임의의 하나 이상을 수행하게 하는 임의의 매체를 포함하는 것으로 고려되어야 한다.
본 명세서에 제시되는 알고리즘들 및 디스플레이들이 임의의 특정 컴퓨터 또는 다른 장치에 본질적으로 관련되는 것은 아니다. 다양한 범용 시스템이 본 명세서에서의 교시들에 따라 프로그램과 함께 사용될 수 있거나, 또는 필요한 방법 연산들을 수행하도록 더 특수화된 장치를 구성하는 것이 편리한 것으로 입증될 수 있다. 다양한 이러한 시스템들에 대한 요구되는 구조는 이하의 설명으로부터 나타날 것이다. 또한, 본 실시예들은 임의의 특정한 프로그래밍 언어를 참조하여 설명되지 않는다. 다양한 프로그래밍 언어들이 본 명세서에 설명되는 실시예들의 교시들을 구현하는데 사용될 수 있다는 것이 이해될 것이다.
상술한 설명은 몇몇 실시예들의 양호한 이해를 제공하기 위하여 특정 시스템들, 컴포넌트들, 방법들 등의 예들과 같은 다수의 특정 세부사항들을 제시한다. 그러나, 적어도 일부 실시예들은 이러한 특정 세부사항들 없이 실행될 수 있다는 점이 기술분야의 숙련된 자에게 자명할 것이다. 다른 경우들에서, 공지된 컴포넌트들 또는 방법들은 본 실시예들을 불필요하게 불명료하게 하는 것을 회피하기 위하여 상세히 설명되지 않거나 간단한 블럭도 포맷으로 제시된다. 따라서, 상술된 특정 세부사항들 단지 예시적이다. 특정 구현예들은, 이러한 예시적인 세부사항들로부터 변형될 수 있고, 본 실시예들의 범위 내에 여전히 있는 것으로 고려된다.
위 설명은 제한적인 것이 아니라 예시적인 것으로 의도된다는 점이 이해될 것이다. 위 설명을 읽고 이해하면 많은 다른 실시예들이 기술분야의 숙련된 자들에게 명백하게 될 것이다. 따라서, 본 실시예들의 범위는 첨부된 청구항들을 참조하여, 그러한 청구항들이 자격이 주어지는 균등물들의 전체 범위와 함께 결정되어야 한다.

Claims (17)

  1. 처리 시스템으로서,
    복수의 물리적 레지스터 값들을 포함하는 제1 데이터 구조;
    상기 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 포함하는 제2 데이터 구조;
    복수의 이동 제거 세트들을 포함하는 제3 데이터 구조- 각각의 이동 제거 세트는 2개 이상의 논리적 데이터 레지스터들을 나타내는 2개 이상의 비트들을 포함하고, 상기 제3 데이터 구조는, 각각의 이동 제거 세트와 관련되는 적어도 하나의 비트를 더 포함하고, 상기 적어도 하나의 비트는 하나 이상의 논리적 플래그 레지스터들을 나타냄 -;
    상기 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 포함하는 제4 데이터 구조; 및
    상기 제2 데이터 구조의 엘리먼트로 하여금 상기 제1 데이터 구조의 엘리먼트를 참조하게 함으로써 이동 제거 연산을 수행하도록 구성되는 이동 제거 로직- 상기 이동 제거 로직은, 상기 제3 데이터 구조 및 상기 제4 데이터 구조 중 적어도 하나를 사용하여, 상기 제1 데이터 구조의 엘리먼트들의 가용성을 트래킹하도록 더 구성됨 -
    을 포함하는 처리 시스템.
  2. 제1항에 있어서,
    상기 이동 제거 로직은, 상기 제1 데이터 구조에서 새로운 이동 제거 세트를 생성하는 것, 이동 제거 세트에 레지스터를 추가하는 것, 또는 플래그 레지스터에 새로운 데이터를 기입하는 것 중 적어도 하나에 응답하여, 상기 제3 데이터 구조에서 플래그 비트의 값을 변경하도록 구성되는 처리 시스템.
  3. 제1항에 있어서,
    상기 이동 제거 로직은 단 하나의 논제로(non-zero) 비트를 갖는 이동 제거 세트를 검출하고 복구하도록 더 구성되는 처리 시스템.
  4. 제3항에 있어서,
    상기 이동 제거 로직은, 상기 이동 제거 세트와 관련되고 논리적 플래그 레지스터를 나타내는 적어도 하나의 비트가 논제로 값을 갖는다는 판정에 응답하여, 적어도 하나의 논제로 비트를 갖는 이동 제거 세트를 복구하는 것을 취소하도록 구성되는 처리 시스템.
  5. 제1항에 있어서,
    상기 제4 데이터 구조는, 상기 이동 제거 세트의 유효성을 나타내는 비트, 논리적 플래그 레지스터가 상기 제1 데이터 구조의 엔트리를 데이터 레지스터와 공유한다는 것을 나타내는 비트, 상기 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터를 식별하는 제1 식별자, 및 이동 제거 세트를 식별하는 제2 식별자를 포함하는 처리 시스템.
  6. 제5항에 있어서,
    상기 제1 식별자 및 상기 제2 식별자는 공통 데이터 필드에 의해 표현되는 처리 시스템.
  7. 제1항에 있어서,
    상기 이동 제거 로직은, 할당된 마이크로 연산에 의해 중복기입되는 하나 이상의 논리적 레지스터들을 갖는 이동 제거 세트를 식별하는 제1 신호, 및 상기 마이크로 연산에 대한 목적지 레지스터의 공유된 사용을 나타내는 제2 신호를 생성하도록 더 구성되는 처리 시스템.
  8. 제7항에 있어서,
    상기 이동 제거 로직은, 플래그 레지스터에 대응하는 논리적 플래그 레지스터가 제1 이동 제거 세트와 관련되고, 상기 제1 신호는 상기 제1 이동 제거 세트의 식별자와 일치하며, 상기 제2 신호는 거짓이라는 판정에 응답하여, 플래그 레지스터가 상기 제1 데이터 구조의 엘리먼트를 데이터 레지스터와 더 이상 공유하지 않는다는 것을 나타내도록 상기 제4 데이터 구조를 업데이트하도록 더 구성되는 처리 시스템.
  9. 데이터 조작 연산을 수행하는 방법으로서,
    컴퓨팅 시스템에 의해, 제1 데이터 구조에 복수의 물리적 레지스터 값들을 저장하는 단계;
    제2 데이터 구조에, 상기 제1 데이터 구조의 엘리먼트들을 참조하는 복수의 포인터들을 저장하는 단계;
    제3 데이터 구조에, 복수의 이동 제거 세트들 및 각각의 이동 제거 세트와 관련된 적어도 하나의 비트를 저장하는 단계- 상기 적어도 하나의 비트는 하나 이상의 논리적 플래그 레지스터들을 나타내고, 각각의 이동 제거 세트는 2개 이상의 논리적 데이터 레지스터들을 나타내는 2개 이상의 비트들을 포함함 -;
    제4 데이터 구조에, 상기 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터의 식별자를 저장하는 단계;
    상기 제2 데이터 구조의 엘리먼트로 하여금 상기 제1 데이터 구조의 엘리먼트를 참조하게 함으로써 이동 제거 연산을 수행하는 단계; 및
    상기 제3 데이터 구조 및 상기 제4 데이터 구조 중 적어도 하나를 사용하여, 상기 제1 데이터 구조의 엘리먼트들의 가용성을 트래킹하는 단계
    를 포함하는 방법.
  10. 제9항에 있어서,
    상기 제1 데이터 구조에서 새로운 이동 제거 세트를 생성하는 것, 이동 제거 세트에 레지스터를 추가하는 것, 또는 플래그 레지스터에 새로운 데이터를 기입하는 것 중 적어도 하나에 응답하여, 상기 제3 데이터 구조에서 플래그 비트의 값을 변경하는 단계를 더 포함하는 방법.
  11. 제9항에 있어서,
    단 하나의 논제로(non-zero) 비트를 갖는 이동 제거 세트를 검출하고 복구하는 단계를 더 포함하는 방법.
  12. 제11항에 있어서,
    상기 이동 제거 세트와 관련되고 논리적 플래그 레지스터를 나타내는 적어도 하나의 비트가 논제로 값을 갖는다는 판정에 응답하여, 적어도 하나의 논제로 비트를 갖는 이동 제거 세트의 복구를 취소하는 단계를 더 포함하는 방법.
  13. 제9항에 있어서,
    상기 제4 데이터 구조는, 상기 이동 제거 세트의 유효성을 나타내는 비트, 논리적 플래그 레지스터가 상기 제1 데이터 구조의 엔트리를 데이터 레지스터와 공유한다는 것을 나타내는 비트, 상기 제1 데이터 구조의 엘리먼트를 플래그 레지스터와 공유하는 데이터 레지스터를 식별하는 제1 식별자, 및 이동 제거 세트를 식별하는 제2 식별자를 포함하는 방법.
  14. 제13항에 있어서,
    상기 제1 식별자 및 상기 제2 식별자는 공통 데이터 필드에 의해 표현되는 방법.
  15. 제9항에 있어서,
    할당된 마이크로 연산에 의해 중복기입되는 하나 이상의 논리적 레지스터들을 갖는 이동 제거 세트를 식별하는 제1 신호, 및 상기 마이크로 연산에 대한 목적지 레지스터의 공유된 사용을 나타내는 제2 신호를 생성하는 단계를 더 포함하는 방법.
  16. 제15항에 있어서,
    플래그 레지스터에 대응하는 논리적 플래그 레지스터가 제1 이동 제거 세트와 관련되고, 상기 제1 신호는 상기 제1 이동 제거 세트의 식별자와 일치하며, 상기 제2 신호는 거짓이라는 판정에 응답하여, 플래그 레지스터가 상기 제1 데이터 구조의 엘리먼트를 데이터 레지스터와 더 이상 공유하지 않는다는 것을 나타내도록 상기 제4 데이터 구조를 업데이트하는 단계를 더 포함하는 방법.
  17. 장치로서,
    메모리; 및
    상기 메모리에 연결되는 처리 시스템
    을 포함하고,
    상기 처리 시스템은 제9항 내지 16항 중 어느 한 항의 방법을 수행하도록 구성되는 장치.
KR1020157024506A 2013-04-11 2014-04-09 이동 제거 연산들에서의 플래그 트래킹을 위한 시스템들 및 방법들 KR101655713B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/861,009 2013-04-11
US13/861,009 US9292288B2 (en) 2013-04-11 2013-04-11 Systems and methods for flag tracking in move elimination operations
PCT/US2014/033486 WO2014169032A1 (en) 2013-04-11 2014-04-09 Systems and methods for flag tracking in move elimination operations

Publications (2)

Publication Number Publication Date
KR20150119038A KR20150119038A (ko) 2015-10-23
KR101655713B1 true KR101655713B1 (ko) 2016-09-07

Family

ID=51687620

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157024506A KR101655713B1 (ko) 2013-04-11 2014-04-09 이동 제거 연산들에서의 플래그 트래킹을 위한 시스템들 및 방법들

Country Status (8)

Country Link
US (1) US9292288B2 (ko)
EP (1) EP2984557B1 (ko)
KR (1) KR101655713B1 (ko)
CN (1) CN105190538B (ko)
BR (1) BR112015022683B1 (ko)
RU (1) RU2628156C2 (ko)
TW (1) TWI528291B (ko)
WO (1) WO2014169032A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9823925B2 (en) * 2014-03-28 2017-11-21 Intel Corporation Instruction and logic for a logical move in an out-of-order processor
US11221853B2 (en) 2015-08-26 2022-01-11 Huawei Technologies Co., Ltd. Method of dispatching instruction data when a number of available resource credits meets a resource requirement
US10853077B2 (en) * 2015-08-26 2020-12-01 Huawei Technologies Co., Ltd. Handling Instruction Data and Shared resources in a Processor Having an Architecture Including a Pre-Execution Pipeline and a Resource and a Resource Tracker Circuit Based on Credit Availability
US10198264B2 (en) * 2015-12-15 2019-02-05 Intel Corporation Sorting data and merging sorted data in an instruction set architecture
US20170177336A1 (en) * 2015-12-22 2017-06-22 Intel Corporation Hardware cancellation monitor for floating point operations
US10261790B2 (en) * 2016-03-31 2019-04-16 Intel Corporation Memory copy instructions, processors, methods, and systems
US10114768B2 (en) * 2016-08-29 2018-10-30 Intel Corporation Enhance memory access permission based on per-page current privilege level
US10713177B2 (en) 2016-09-09 2020-07-14 Intel Corporation Defining virtualized page attributes based on guest page attributes
CN110419030B (zh) * 2016-09-28 2024-04-19 英特尔公司 测量非均匀存储器访问(numa)系统内按节点的带宽
US10282296B2 (en) * 2016-12-12 2019-05-07 Intel Corporation Zeroing a cache line
US10949205B2 (en) 2018-12-20 2021-03-16 International Business Machines Corporation Implementation of execution compression of instructions in slice target register file mapper
CN112286577B (zh) * 2020-10-30 2022-12-06 上海兆芯集成电路有限公司 处理器及其操作方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327661A1 (en) 2008-06-30 2009-12-31 Zeev Sperber Mechanisms to handle free physical register identifiers for smt out-of-order processors

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5499352A (en) * 1993-09-30 1996-03-12 Intel Corporation Floating point register alias table FXCH and retirement floating point register array
US6047369A (en) * 1994-02-28 2000-04-04 Intel Corporation Flag renaming and flag masks within register alias table
US5838941A (en) 1996-12-30 1998-11-17 Intel Corporation Out-of-order superscalar microprocessor with a renaming device that maps instructions from memory to registers
US6341370B1 (en) * 1998-04-24 2002-01-22 Sun Microsystems, Inc. Integration of data prefetching and modulo scheduling using postpass prefetch insertion
US6122656A (en) * 1998-07-31 2000-09-19 Advanced Micro Devices, Inc. Processor configured to map logical register numbers to physical register numbers using virtual register numbers
US6253310B1 (en) * 1998-12-31 2001-06-26 Intel Corporation Delayed deallocation of an arithmetic flags register
US6625723B1 (en) * 1999-07-07 2003-09-23 Intel Corporation Unified renaming scheme for load and store instructions
US6594754B1 (en) * 1999-07-07 2003-07-15 Intel Corporation Mapping destination logical register to physical register storing immediate or renamed source register of move instruction and using mapping counters
US6505293B1 (en) 1999-07-07 2003-01-07 Intel Corporation Register renaming to optimize identical register values
US6591332B1 (en) 2000-04-28 2003-07-08 Hewlett-Packard Development Company, L.P. Apparatus and method for tracking flushes of cache entries in a data processing system
US7155599B2 (en) * 2000-12-29 2006-12-26 Intel Corporation Method and apparatus for a register renaming structure
US6772317B2 (en) * 2001-05-17 2004-08-03 Intel Corporation Method and apparatus for optimizing load memory accesses
US6889344B2 (en) 2001-08-09 2005-05-03 International Business Machines Corporation System and method for exposing hidden events on system buses
US6910121B2 (en) 2002-01-02 2005-06-21 Intel Corporation System and method of reducing the number of copies from alias registers to real registers in the commitment of instructions
US20030217249A1 (en) * 2002-05-20 2003-11-20 The Regents Of The University Of Michigan Method and apparatus for virtual register renaming to implement an out-of-order processor
US20050050310A1 (en) 2003-07-15 2005-03-03 Bailey Daniel W. Method, system, and apparatus for improving multi-core processor performance
US7711898B2 (en) * 2003-12-18 2010-05-04 Intel Corporation Register alias table cache to map a logical register to a physical register
US7895382B2 (en) 2004-01-14 2011-02-22 International Business Machines Corporation Method and apparatus for qualifying collection of performance monitoring events by types of interrupt when interrupt occurs
WO2009076324A2 (en) 2007-12-10 2009-06-18 Strandera Corporation Strand-based computing hardware and dynamically optimizing strandware for a high performance microprocessor system
US8799882B2 (en) * 2005-12-07 2014-08-05 Microsoft Corporation Compiler support for optimizing decomposed software transactional memory operations
US7721119B2 (en) 2006-08-24 2010-05-18 International Business Machines Corporation System and method to optimize multi-core microprocessor performance using voltage offsets
TWI342498B (en) 2007-01-12 2011-05-21 Asustek Comp Inc Multi-processor system and performance enhancement method thereof
US8914617B2 (en) * 2009-12-26 2014-12-16 Intel Corporation Tracking mechanism coupled to retirement in reorder buffer for indicating sharing logical registers of physical register in record indexed by logical register
US20120005459A1 (en) 2010-12-28 2012-01-05 Advanced Micro Devices, Inc. Processor having increased performance and energy saving via move elimination
US8661230B2 (en) * 2011-04-15 2014-02-25 International Business Machines Corporation Allocation of counters from a pool of counters to track mappings of logical registers to physical registers for mapper based instruction executions
US9298460B2 (en) * 2011-11-29 2016-03-29 International Business Machines Corporation Register management in an extended processor architecture
US9454371B2 (en) * 2011-12-30 2016-09-27 Intel Corporation Micro-architecture for eliminating MOV operations
US9733939B2 (en) * 2012-09-28 2017-08-15 Intel Corporation Physical reference list for tracking physical register sharing
US10417001B2 (en) * 2012-12-27 2019-09-17 Intel Corporation Physical register table for eliminating move instructions
US9182986B2 (en) * 2012-12-29 2015-11-10 Intel Corporation Copy-on-write buffer for restoring program code from a speculative region to a non-speculative region
US9256433B2 (en) * 2013-03-15 2016-02-09 Intel Corporation Systems and methods for move elimination with bypass multiple instantiation table
US9823925B2 (en) * 2014-03-28 2017-11-21 Intel Corporation Instruction and logic for a logical move in an out-of-order processor

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090327661A1 (en) 2008-06-30 2009-12-31 Zeev Sperber Mechanisms to handle free physical register identifiers for smt out-of-order processors

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Zhang, Weifeng, et al. 'Dynamic code value specialization using the trace cache fill unit.' 2006 International Conference on Computer Design. IEEE, 2007.

Also Published As

Publication number Publication date
EP2984557B1 (en) 2020-03-04
KR20150119038A (ko) 2015-10-23
RU2628156C2 (ru) 2017-08-15
TW201506797A (zh) 2015-02-16
US9292288B2 (en) 2016-03-22
BR112015022683A2 (pt) 2018-07-31
CN105190538A (zh) 2015-12-23
US20140310504A1 (en) 2014-10-16
RU2015138900A (ru) 2017-03-16
TWI528291B (zh) 2016-04-01
CN105190538B (zh) 2018-11-09
WO2014169032A1 (en) 2014-10-16
EP2984557A1 (en) 2016-02-17
EP2984557A4 (en) 2017-12-20
BR112015022683B1 (pt) 2021-12-21

Similar Documents

Publication Publication Date Title
KR101655713B1 (ko) 이동 제거 연산들에서의 플래그 트래킹을 위한 시스템들 및 방법들
US9495159B2 (en) Two level re-order buffer
JP5758515B2 (ja) バイパスマルチプルインスタンス化テーブルを用いた移動除去のためのシステム及び方法
KR101574007B1 (ko) 트랜잭션 메모리를 구현하기 위한 시스템들 및 방법들
US9823925B2 (en) Instruction and logic for a logical move in an out-of-order processor
EP3123304B1 (en) Instruction and logic for sorting and retiring stores
US9652236B2 (en) Instruction and logic for non-blocking register reclamation
US10540178B2 (en) Eliminating redundant stores using a protection designator and a clear designator
US20180004526A1 (en) System and Method for Tracing Data Addresses
US10235177B2 (en) Register reclamation
US10095522B2 (en) Instruction and logic for register based hardware memory renaming
US20160364237A1 (en) Processor logic and method for dispatching instructions from multiple strands
US20180004512A1 (en) System and Method for Out-of-Order Clustered Decoding
WO2017168197A1 (en) Apparatus and method for improving performance of inter-strand communications
EP3274815B1 (en) Apparatus and method for inter-strand communication

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190829

Year of fee payment: 4