KR101780303B1 - 시스템 호출을 위한 강건하고 높은 성능의 명령어들 - Google Patents

시스템 호출을 위한 강건하고 높은 성능의 명령어들 Download PDF

Info

Publication number
KR101780303B1
KR101780303B1 KR1020160071646A KR20160071646A KR101780303B1 KR 101780303 B1 KR101780303 B1 KR 101780303B1 KR 1020160071646 A KR1020160071646 A KR 1020160071646A KR 20160071646 A KR20160071646 A KR 20160071646A KR 101780303 B1 KR101780303 B1 KR 101780303B1
Authority
KR
South Korea
Prior art keywords
registers
instruction
privilege level
processor
operating system
Prior art date
Application number
KR1020160071646A
Other languages
English (en)
Other versions
KR20160072085A (ko
Inventor
바이주 브이. 파텔
제임스 비. 크로스랜드
아툴 에이. 카레
토비 옵퍼맨
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Publication of KR20160072085A publication Critical patent/KR20160072085A/ko
Application granted granted Critical
Publication of KR101780303B1 publication Critical patent/KR101780303B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • G06F9/30101Special purpose registers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30145Instruction analysis, e.g. decoding, instruction word fields
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/121Restricting unauthorised execution of programs
    • G06F21/125Restricting unauthorised execution of programs by manipulating the program code, e.g. source code, compiled code, interpreted code, machine code
    • G06F21/126Interacting with the operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • G06F9/30054Unconditional branch instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30098Register arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30181Instruction operation extension or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/34Addressing or accessing the instruction operand or the result ; Formation of operand address; Addressing modes
    • G06F9/342Extension of operand address space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/545Interprogram communication where tasks reside in different layers, e.g. user- and kernel-space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/52Indexing scheme relating to G06F9/52
    • G06F2209/521Atomic

Abstract

강건한 시스템 호출 및 시스템 리턴 명령어들이 프로세서에 의해 실행되어, 요청자와 운영 체제 커널 사이에서 제어를 전달한다. 프로세서는 실행 회로 및 메모리 내에 데이터 구조들에 대한 포인터들을 저장하는 레지스터들을 포함한다. 실행 회로는 요청자로부터 제어를 제1 특권 레벨의 상기 요청자로부터 제2 특권 레벨의 운영 체제 커널로 전달하기 위한 시스템 호출 명령어를 수신한다. 이에 응답하여, 실행 유닛은 하나의 원자 전이에서 레지스터들에 의해 지시되는 데이터 구조들을 요청자와 운영 체제 커널 사이에서 교환한다.

Description

시스템 호출을 위한 강건하고 높은 성능의 명령어들{ROBUST AND HIGH PERFORMANCE INSTRUCTIONS FOR SYSTEM CALL}
본 발명은 처리 논리, 마이크로프로세서, 및 프로세서 또는 기타 처리 논리에 의해 실행될 때 논리적, 수학적, 또는 다른 기능적 동작들을 수행하는 관련 명령어 세트 아키텍처에 관한 것이다.
명령어 세트 또는 명령어 세트 아키텍처(ISA)는 프로그래밍과 관련된 컴퓨터 아키텍처의 일부이며, 고유 데이터 타입들, 명령어들, 레지스터 아키텍처, 어드레싱 모드들, 메모리 아키텍처, 인터럽트 및 예외 핸들링 및 외부 입출력(I/O)을 포함할 수 있다. 본 명세서에서 명령어라는 용어는 일반적으로, 프로세서의 디코더가 매크로 명령어들을 디코딩한 결과인 마이크로 명령어들 또는 마이크로 연산들(micro-ops)과 달리, 실행을 위해 프로세서(또는 (예를 들어, 명령어를 프로세서에 의해 처리될 하나 이상의 다른 명령어로 (예를 들어, 정적 이진 번역, 동적 컴파일을 포함하는 동적 이진 번역을 이용하여) 번역, 변형, 에뮬레이션 또는 변환하는 명령어 컨버터)에 제공되는 명령어들인 매크로 명령어들을 지칭한다.
ISA는 명령어 세트를 구현하는 프로세서의 내부 설계인 마이크로 아키텍처와 구별된다. 상이한 마이크로 아키텍처들을 갖는 프로세서들은 공통 명령어 세트를 공유할 수 있다. 예를 들어, 인텔(등록상표) 코어(상표) 프로세서들 및 CA 서니베일의 어드밴스트 마이크로 디바이스즈 사로부터의 프로세서들은 (더 새로운 버전들과 함께 추가된 일부 확장들을 갖는) x86 명령어 세트의 거의 동일한 버전들을 구현하지만, 상이한 내부 설계들을 갖는다. 예를 들어, ISA의 동일한 레지스터 아키텍처는 전용 물리 레지스터들, 하나 이상의 동적 할당 물리 레지스터들을 포함하는 공지 기술들을 이용하여, 레지스터 재명명 메커니즘 등을 이용하여, 상이한 마이크로 아키텍처들에서 상이한 방식으로 구현될 수 있다.
통상적으로, ISA는 시스템 호출을 행하기 위한 애플리케이션 프로그램에 대한 하나 이상의 명령어를 제공한다. 시스템 호출을 통해, 애플리케이션 프로그램은 운영 체제 커널로부터 서비스를 요청할 수 있다. 서비스는 하드웨어 관련 서비스들(예컨대, 하드 디스크 액세스), 새로운 프로세스들의 생성 및 실행, 및 통합 커널 서비스들과의 통신(예로서, 스케줄링)을 포함한다. 따라서, 시스템 호출들은 애플리케이션 프로그램과 운영 체제 커널 간의 인터페이스를 제공한다.
통상적으로, 시스템 호출들은 소프트웨어 인터럽트 또는 트랩을 이용하여 구현된다. 인터럽트들은 제어를 애플리케이션 프로그램으로부터 운영 체제 커널로 전달한다. 일부 기존 아키텍처들은 시스템 호출을 행하기 위한 제어 전달 명령어들을 제공한다. 이러한 제어 전달 명령어들은 인터럽트의 오버헤드 없이 애플리케이션 프로그램이 제어를 운영 체제로 빠르게 전달하게 하도록 설계된다. 그러나, 기존의 제어 전달 명령어들은 장애 및 공격에 취약한 큰 약점을 갖는다. 이러한 취약성은 소프트웨어를 덜 강건하게 한다. 예를 들어, 제어 스택들이 스위칭되기 전에 시스템 호출 또는 시스템 리턴 동안 장애가 발생하는 경우, 운영 체제 내의 장애 핸들러는 시스템 스택 대신에 사용자 모드 스택을 이용하여 실행될 수 있다. 사용자 모드 스택은 특권이 없고, 신뢰되지 않는다. 일부 시나리오들에서, 사용자 모드 스택은 악성 코드를 포함할 수 있으며, 사용자 모드 스택을 이용한 실행은 시스템을 악성 스택들에 노출시킬 수 있다.
실시예들은 첨부 도면들에 한정이 아니라 예시적으로 도시된다.
도 1은 일 실시예에 따른 제어 전달을 나타내는 블록도이다.
도 2는 일 실시예에 따른 명령어 처리 장치의 블록도이다.
도 3은 일 실시예에 따른 레지스터 아키텍처의 블록도이다.
도 4a는 일 실시예에 따른 RBSTCALL 명령어의 제1 버전의 일례를 나타낸다.
도 4b는 일 실시예에 따른 RBSTRET 명령어의 제1 버전의 일례를 나타낸다.
도 5a는 일 실시예에 따른 RBSTCALL 명령어의 제2 버전의 일례를 나타낸다.
도 5b는 일 실시예에 따른 RBSTRET 명령어의 제2 버전의 일례를 나타낸다.
도 6a는 일 실시예에 따른 RBSTCALL 명령어에 응답하여 수행될 동작들을 나타내는 흐름도이다.
도 6b는 일 실시예에 따른 RBSTRET 명령어에 응답하여 수행될 동작들을 나타내는 흐름도이다.
도 6c는 일 실시예에 따른 소스 명령어 세트 내의 이진 명령어들을 타겟 명령어 세트 내의 이진 명령어들로 변화하기 위한 소프트웨어 명령어 컨버터의 사용을 나타내는 블록도이다.
도 7a는 일 실시예에 따른 순차 및 비순차 파이프라인의 블록도이다.
도 7b는 일 실시예에 따른 순차 및 비순차 코어의 블록도이다.
도 8a-8b는 일 실시예에 따른 더 특정한 예시적인 순차 코어 아키텍처의 블록도들이다.
도 9는 일 실시예에 따른 프로세서의 블록도이다.
도 10은 일 실시예에 따른 시스템의 블록도이다.
도 11은 일 실시예에 따른 제2 시스템의 블록도이다.
도 12는 일 실시예에 따른 제3 시스템의 블록도이다.
도 13은 일 실시예에 따른 시스템 온 칩(Soc)의 블록도이다.
아래의 설명에서는 다수의 특정 상세가 설명된다. 그러나, 본 명세서에서 설명되는 실시예들은 이러한 특정 상세 없이도 실시될 수 있다는 것을 이해한다. 다른 예들에서는, 본 설명의 이해를 불명확하게 하지 않기 위해 공지 회로들, 구조들 및 기술들은 상세히 설명되지 않았다.
본 명세서에서 설명되는 실시예들은 한 세트의 제어 전달 명령어들을 제공하며, 각각의 명령어는 하나의 단일 원자(atomic) 명령어 내에서 관리자 모드와 사용자 모드 간의 전이를 달성한다. 전통적인 시스템 호출 및 리턴 메커니즘들에서 관리자 모드와 사용자 모드 간의 전이를 달성하기 위해서는 명령어들의 시퀀스가 필요하다. 이러한 전통적인 명령어 시퀀스의 중간에서의 장애는 관리자 모드에서의 비관리 상태를 갖는 실행을 유발한다. 통상적으로, 그러한 장애의 발생은 시스템 충돌, 장애로부터의 복구 불능, 또는 특권 상승 공격을 유발한다.
본 명세서에서 사용될 때, 용어 "관리자 모드"는 "특권 모드", "커널 모드" 또는 "링 0"으로도 지칭되며, 용어 "사용자 모드"는 "비특권 모드", "비관리자 모드" 또는 "링 3"으로도 지칭된다. 또한, 본 명세서에서 사용될 때, 소프트웨어 엔티티의 "특권 레벨"은 그의 링 레벨과 동일한데, 예를 들어 링-3 프로그램은 3의 특권 레벨을 갖는다. 링 0과 링 3 간의 전이가 아래의 예들 중 하나 이상에서 설명되지만, 본 명세서에서 설명되는 새로운 명령어들은 임의의 2개의 상이한 링 사이의 또는 동일 링 내의 프로세스들 사이의 전이들에 적용될 수 있다는 것을 이해한다.
일 실시예에 따르면, 새로운 명령어들은 "RBSTCALL" 및 "RBSTRET" 명령어들을 포함하며, 여기서 "RBST"는 단어 "강건한(robust)"을 나타낸다. RBSTCALL 명령어는 시스템 호출 명령어이고, RBSTRET 명령어는 시스템 리턴 명령어이다. 이러한 새로운 명령어들은 악성 공격들에 강하며, 또한 높은 성능을 갖는다.
도 1은 "RBSTCALL" 및 "RBSTRET" 명령어들에 응답하여 발생하는 제어 전달들의 일례를 나타낸다. RBSTCALL 명령어는 비특권 명령어이며, 링 0, 1, 2 또는 3 안에 있을 수 있는 요청자 프로그램(110)에 의해 호출될 수 있다. 프로세서(예를 들어, 처리 시스템 내의 중앙 처리 유닛(CPU))가 요청자 프로그램(110) 내에서 RBSTCALL 명령어를 실행할 때, 제어는 운영 체제(OS) 커널(120) 내의 호출 핸들러(125)로 전달된다. 호출 핸들러(125)는 링 0에서 실행된다. 호출 핸들러(125)가 호출 핸들링을 마칠 때, 프로세서는 OS(120)에서 RBSTRET 명령어를 실행하여 제어를 요청자 프로그램(110)으로 리턴한다. RBSTRET 명령어는 특권 명령어이며, OS와 같은 링-0 소프트웨어에 의해서만 호출될 수 있다. 일 실시예에서, "RBSTCALL" 및 "RBSTRET" 명령어들의 실행은 중첩될 수 있다. 예를 들어, 실행은 요청자 프로그램(110) -> RBSTCALL(111) -> 호출 핸들러(125) -> RBSTRET(121) -> 요청자 프로그램(110) -> RBSTCALL(112) -> 호출 핸들러(125) -> RBSTRET(121) -> 요청자 프로그램(110) -> RBSTCALL(113) -> 호출 핸들러(125) -> RBSTRET(121) -> 요청자 프로그램(110)의 시퀀스를 따를 수 있다. 따라서, 제어가 요청자 프로그램(110)으로 리턴될 때마다, 요청자 프로그램(110)의 코드 세그먼트가 다음 시스템 호출 전에 실행될 수 있다.
RBSTCALL 명령어의 일 실시예는 인터럽트 및 예외 스택 프레임들과 유사한 포맷을 이용하여 커널 스택 상의 CS(코드 선택기), RIP(명령어 포인터) 및 RGLAGS의 내용들을 저장한다. 포맷의 이용은 중첩된 실행에서의 쉬운 재진입을 위한 경로를 용이하게 한다.
전술한 바와 같이, RBSTCALL 명령어는 링 0으로부터 생성되는 링내 호출들(intra-ring calls)은 물론, 링 1, 2 또는 3으로부터 생성되는 링간(inter-ring) 호출들도 가능하게 한다. 유사하게, RBSTRET 명령어는 링-0 코드가 임의의 링(예를 들어, 링 0, 1, 2 또는 3)으로 리턴되는 것을 가능하게 한다. RBSTCALL 명령어 및 RBSTRET 명령어 각각은 링 전이의 경우에 세그먼트 레지스터(예로서, GS)를 올바른 선택기 값으로 자동으로 로딩하며, 따라서 전달 달성 전의 장애가 GS에서 비관리자 상태를 갖는 관리자 모드 실행을 유발할 수 있는 기회를 없앤다. 또한, 타겟 스택 선택기(예로서, SS) 및/또는 스택 포인터(예로서, RSP)를 원자적으로 복구함으로써, RBSTRET 명령어는 커널 모드 장애 핸들러가 무효 SS 및/또는 RSP를 이용하여 실행할 수 있는 기회를 없앰으로써 신뢰성을 개선한다.
RBSTCALL 및 RBSTRET 명령어들의 실시예들은 커널 스택 상의 타겟 선택기들(예를 들어, CS 및 SS)의 유효성에 대한 건전성 검사를 수행하고, 또한 타겟 RIP 및 RSP 내의 어드레스 포맷의 유효성에 대한 표준 검사를 수행하여, 잠재적 손상에 대해 OS에 경고한다. RIP 내의 어드레스 포맷의 표준 검사는 RIP 내에 로딩된 어드레스가 비표준 어드레스 범위 내에 있는지를 검사함으로써 수행된다. 이 범위는 아키텍처에 의해 제공되는 어드레스 범위(예로서, 64 비트)가 사용중인 어드레스 범위(예로서, 48 비트)보다 크기 때문에 존재한다. 따라서, 64 비트 어드레스 공간의 영역이 사용되지 않는다. 이러한 미사용 영역은 장래의 어드레스 공간 확장을 가능하게 한다. 그러나, 미사용 영역은 비표준 어드레스 범위이며, 그 범위 내에 있는 RIP 내의 임의의 어드레스는 무효 어드레스이다. 표준 어드레스 검사는 RIP가 로딩된 후에 그러나 RIP 내의 어드레스가 커미트되기 전에 수행될 수 있다. 표준 어드레스 검사는 멀웨어에 의해 이용될 수 있는 RIP의 어드레스 포맷 취약성을 제거한다. 일부 실시예들에서, 표준 어드레스 검사는 다른 레지스터들에 대해서도 수행될 수 있다.
일부 실시예들에서, RBSTCALL 및 RBSTRET 명령어들은 어드레스 및 세그먼트 검증들의 대부분을 제거하고 링 전이들에 대한 가정들, 예를 들어 타겟 링이 0이라는 가정을 행함으로써 고속 버전이 되도록 최적화될 수 있다. 예를 들어, 고속 버전은 모델 고유 레지스터들(MSR) 내의 값들을 검증하지 않는데, 그 이유는 MSR들이 OS 커널에 의해서만 로딩될 수 있기 때문이다. 고속 버전은 실질적으로 더 적은 비용으로 제어 전달들의 이익의 대부분을 제공한다.
RBSTCALL 및 RBSTRET 명령어들의 다른 버전들과 유사하게, 고속 버전은 GS가 올바른 선택기 값으로 자동으로 로딩되는 원자 특징을 유지하며, 따라서 전달 완료 전의 장애가 비관리자 모드 GS를 갖는 관리자 모드 실행을 유발할 수 있는 기회를 없앤다. RBSTCALL 및 RBSTRET 명령어들의 다른 버전들과 유사하게, 고속 버전은 멀웨어에 의해 이용될 수 있는 표준 RIP 관련 취약성을 제거한다. 또한, RBSTRET 명령어들의 다른 버전들과 유사하게, 고속 버전은 타겟 SS 및/또는 RSP를 원자적으로 리스토어하여, 커널 모드 장애 핸들러가 무효 SS 및/또는 RSP와 함께 실행될 수 있는 기회를 제거함으로써 신뢰성을 개선한다. RBSTCALL 및 RBSTRET 명령어들은 후술하는 바와 같은 명령어 처리 장치에 의해 실행될 수 있다.
도 2는 RBSTCALL/RBSTRET 명령어들을 포함하는 명령어들을 실행하도록 동작할 수 있는 회로를 포함하는 실행 유닛(240)을 갖는 명령어 처리 장치(215)의 일 실시예의 블록도이다. 일부 실시예들에서, 명령어 처리 장치(215)는 프로세서, 멀티코어 프로세서의 프로세서 코어, 또는 전자 시스템 내의 처리 요소일 수 있다.
디코더(230)는 상위 레벨 기계 명령어들 또는 매크로 명령어들의 형태의 입력 명령어들을 수신하고, 이들을 디코딩하여, 오리지널 상위 레벨 명령어를 반영하고/하거나 그로부터 도출되는 하위 레벨 마이크로 연산들, 마이크로 코드 엔트리 포인트들, 마이크로 명령어들, 또는 다른 하위 레벨 명령어들 또는 제어 신호들을 생성한다. 하위 레벨 명령어들 또는 제어 신호들은 하위 레벨(예로서, 회로 레벨 또는 하드웨어 레벨) 동작들을 통해 상위 레벨 명령어의 동작을 구현할 수 있다. 디코더(230)는 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘들의 예는 마이크로코드, 탐색표, 하드웨어 구현, 프로그래밍 가능 논리 어레이(PLA), 이 분야에 공지된 디코더들을 구현하는 데 사용되는 다른 메커니즘 등을 포함하지만 이에 한정되지 않는다.
디코더(230)는 캐시(210), 메모리(220) 또는 소스들에 대한 입력 명령어들을 수신할 수 있다. 디코딩된 명령어들은 실행 유닛(240)으로 전송된다. 실행 유닛(240)은 디코더(230)로부터, 수신된 명령어들을 반영하거나 그들로부터 도출되는 하나 이상의 마이크로 연산, 마이크로 코드 엔트리 포인트, 마이크로 명령어, 다른 명령어 또는 다른 제어 신호를 수신할 수 있다. 실행 유닛(240)은 레지스터 파일(270), 캐시(210) 및/또는 메모리(220)로부터 데이터 입력을 수신하고 그들에 대한 데이터 출력을 생성한다.
일 실시예에서, 레지스터 파일(270)은 레지스터들로도 참조되는 아키텍처 레지스터들을 포함한다. 달리 지정되거나 분명하지 않는 한, 아키텍처 레지스터, 레지스터 파일 및 레지스터라는 표현은 본 명세서에서 소프트웨어 및/또는 프로그래머에게 보이는(예로서, 소프트웨어-가시적인) 레지스터들 및/또는 피연산자들을 식별하기 위해 매크로 명령어들에 의해 지정되는 레지스터들을 지칭하는 데 사용된다. 이러한 레지스터들은 소정의 마이크로 아키텍처 내의 다른 논-아키텍처 레지스터들(예로서, 임시 레지스터, 재배열 버퍼, 리타이어먼트 레지스터 등)과 대비된다.
설명의 모호함을 피하기 위해, 비교적 간단하나 명령어 처리 장치(215)가 도시되고 설명되었다. 다른 실시예들은 둘 이상의 실행 유닛을 가질 수 있다는 것을 알아야 한다. 예를 들어, 장치(215)는 예를 들어 산술 유닛, 산술 논리 유닛(ALU), 정수 유닛, 부동 소수점 유닛 등과 같은 다수의 상이한 타입의 실행 유닛들을 포함할 수 있다. 명령어 처리 장치 또는 프로세서의 또 다른 실시예들은 다수의 코어, 논리 프로세서 또는 실행 엔진을 가질 수 있다. 명령어 처리 장치(215)의 다양한 실시예들이 도 7-13과 관련하여 제공된다.
일 실시예에 따르면, 레지스터 파일(270)은 RBSTCALL 및 RBSTRET 명령어들에 의해 사용될 수 있는 레지스터들의 세트를 포함한다. 레지스터들 중 일부는 세그먼트들 및 명령어들에 대한 포인터들을 포함하는 시스템 상태를 저장하는 데 사용될 수 있다. 레지스터 파일의 일례가 도 3을 참조하여 아래에 설명된다.
도 3은 본 명세서에서 설명되는 명령어들을 지원하는 기본 레지스터 아키텍처(300)의 일 실시예를 나타낸다. 레지스터 아키텍처(300)는 x86, MMX(상표), 스트리밍 SIMD 확장(SSE), SSE2, SSE3, SSE4.1 및 SSE4.2 명령어들은 물론, 진보된 벡터 확장(AVX)(AVX1, AVX2, AVX3)으로 지칭되는 SIMD 확장들의 추가적인 세트로 포함하는 명령어 세트를 구현하는 인텔(등록상표) 코어(상표) 프로세서들에 기초한다. 그러나, 상이한 레지스터 길이들, 상이한 레지스터 타입들 및/또는 상이한 수의 레지스터들을 지원하는 상이한 레지스터 아키텍처도 사용될 수 있다는 것을 이해한다.
도시된 실시예에서는, 512 비트 폭을 갖는 32개의 벡터 레지스터(310)가 존재하며, 이 레지스터들은 zmm0 내지 zmm31로서 참조된다. 하위 16개의 zmm 레지스터의 하위 256 비트는 레지스터 ymm0-16 상에 오버레이된다. 하위 16개의 zmm 레지스터의 하위 128 비트(ymm 레지스터들의 하위 128 비트)는 레지스터 xmm0-15 상에 오버레이된다. 도시된 실시예에서는, 각각 64 비트의 길이를 갖는 8개의 마스크 레지스터(320)(k0 내지 k7)가 존재한다. 대안 실시예에서, 마스크 레지스터들(320)은 16 비트의 폭을 갖는다.
도시된 실시예에서, 레지스터 아키텍처(300)는 16개의 64 비트 범용(GP) 레지스터(330)를 더 포함한다. 일 실시예에서, GP 레지스터들(330)은 기존의 x86 어드레싱 모드들과 함께 메모리 피연산자들을 어드레싱하는 데 사용된다. 레지스터 아키텍처(300)는 6개의 16 비트 세그먼트 레지스터(CS: 코드 선택기, DS: 데이터 선택기, SS: 세그먼트 선택기, EX: 여분, FS 및 GS)도 포함한다. 이 실시예는 또한 RFLAGS 레지스터(360), RIP 레지스터(370) 및 모델 고유 레지스터들(MSR들)(380)도 도시한다.
이 실시예는 스칼라 부동 소수점(FP) 스택 레지스터 파일(x87 스택)(340)도 도시하며, 그 위에는 MMX 팩킹된 정수 플랫 레지스터 파일(350)이 앨리어싱된다. 도시된 실시예에서, x87 스택은 x87 명령어 세트 확장을 이용하여 32/64/80 비트 부동 소수점 데이터에 대해 스칼라 부동 소수점 연산을 수행하는 데 사용되는 8-요소 스택인 반면, MMX 레지스터들은 64 비트 팩킹된 정수 데이터에 대해 연산을 수행하는 것은 물론, MMX 및 xmm 레지스터들 사이에서 수행되는 일부 연산들에 대한 피연산자들을 유지하는 데에도 사용된다.
대안 실시예들은 더 넓거나 좁은 레지스터들을 사용할 수 있다. 게다가, 대안 실시예들은 더 많거나 적거나 상이한 레지스터 파일들 또는 레지스터들을 사용할 수 있다.
도 4a는 일 실시예에 따른 RBSTCALL 명령어의 제1 버전의 일례를 나타낸다. RBSTCALL 명령어는 제어를 요청자로부터 OS 커널로 전달한다. 일 실시예에서, RBSTCALL 명령어는 호출이 유효하고 인에이블되는지를 검사하기 위한 코드 블록(410)을 포함하며, 호출이 유효하지 않거나 인에이블되지 않는 경우에는, 장애(예로서, 일반적인 보호(#GP 장애) 또는 무효 연산 코드(#UD 장애))가 생성된다. 예를 들어, 요청자가 64 비트 코드 세그먼트 내에 있지 않거나, 64 비트 모드가 인에이블되지 않거나, RBSTCALL 및 RBSTRET 명령어들이 인에이블되지 않는 경우에, 장애가 생성될 수 있다. 일 실시예에서, RBSTCALL 및 RBSTRET 명령어들은 레지스터들 중 하나의 레지스터 내의 한 비트가 설정될 때 인에이블된다.
RBSTCALL 명령어는 (링내 호출을 위해) 0이거나 (링간 호출을 위해) 0이 아닌 특권 레벨을 갖는 요청자에 의해 호출될 수 있다. 링내 호출 및 링간 호출 양자에 대해, RBSTCALL 명령어를 실행하는 프로세서는 코드 블록들(420, 430)에서 (예를 들어, RIP 비표준 어드레스에 대한) 어드레스 일치를 검증한다. 일 실시예에서, 프로세서는 코드 블록(430)에서 세그먼트 레지스터들(CS, SS)이 유효 어드레스들을 포함하는지도 검증한다. RBSTCALL 명령어는 OS 커널과 요청자 간의 제어 스택 스왑핑의 동작들을 수행하기 위한 (링내 호출 및 링간 호출 각각을 위한) 코드 블록들(425, 435)을 더 포함한다. 여기서, 제어 스택은 실행의 추적을 유지하기 위해 운영 체제에 의해 사용되는 데이터 구조들을 지칭한다. 이러한 데이터 구조들은 메모리에 저장되며, 세그먼트 레지스터들(CS, SS, GS)은 물론, 포인터들(RIP, RSP)에 의해서도 지시된다. 링-0 데이터 구조들(예로서, OS 커널과 관련된 제어 스택)은 그들의 링-3 대응물들(예로서, 사용자 모드 프로그램과 관련된 제어 스택)과 상이하므로, 레거시 SYSCALL/SYSRET 명령어들에 바로 이어지는 개별 SWAPGS의 사용을 필요로 한다. RBSTCALL(및 유사하게 RBSTRET) 명령어는 OS 커널과 요청자 사이에서 데이터 구조들에 대한 포인터들을 스왑핑하기 위한 어떠한 개별 명령어도 필요로 하지 않는다. 스왑핑 동작은 RBSTCALL/RBSTRET 내에서 단일 원자 명령어로서 수행된다. 링간 호출을 위해, 코드 블록(435)은 올바른 코드 선택기 값으로 GS를 로딩한다. 따라서, RBSTCALL 명령어 내에서 하나의 원자 명령어에서의 검증 및 제어 스택 스왑핑을 이용하여 제어 전달이 달성된다는 것을 알 수 있다.
도 4b는 일 실시예에 따른 RBSTRET 명령어의 제1 버전의 일례를 도시한다. RBSTRET 명령어는 제어를 OS 커널로부터 요청자(즉, RBSTCALL의 요청자)로 리턴함으로써 RBSTCALL 명령어의 동작들을 반전시킨다. RBSTRET 명령어는 특권 명령어인데, 즉 링 0으로부터만 호출될 수 있다. 이 실시예에서, RBSTRET 명령어는 호출이 유효하고 인에이블되는지를 검사하기 위한 코드 블록(440)을 포함하며, 호출이 유효하지 않거나 인에이블되지 않는 경우에는 장애가 생성된다(도 4a의 코드 블록(410)과 유사함). RBSTRET 명령어를 실행하는 프로세서는 코드 블록(450)에서 (예로서, RIP 및 RSP 비표준 어드레스 포맷들에 대한) 어드레스 일치를 검증한다. 일부 실시예들에서, RBSTRET 명령어를 실행하는 프로세서는 코드 블록(450)에서 세그먼트 레지스터들(CS, SS)이 유효 어드레스를 포함하는지도 검증한다. RBSTRET 명령어는 OS 커널과 요청자 간의 제어 스택 스왑핑의 동작들을 수행하기 위한 코드 블록들(460, 470)을 더 포함한다. 코드 블록(470)은 요청자의 특권 레벨이 0이 아닌 경우에(즉, 링간 호출을 위해) 실행되고, GS가 올바른 코드 선택기 값으로 로딩된다. 따라서, RBSTRET 명령어 내에서 하나의 원자 명령어에서의 검증 및 소프트웨어 스택 스왑핑을 이용하여 제어 전달이 달성된다는 것을 알 수 있다.
도 5a 및 도 5b는 일 실시예에 따른 RBSTCALL 명령어 및 RBSTRET 명령어의 제2 버전의 일례를 각각 나타낸다. RBSTCALL 및 RBSTRET 명령어들의 제2 버전은 제1 버전에서 수행되는 검증의 일부(예를 들어, 어드레스 및 세그먼트 검증들의 대부분)가 제거된다는 점에서 고속 버전이다. 고속 버전은 또한 링 전이들에 대한 가정들(예를 들어, 타겟 링이 링 0이고, CS 내에 로딩되는 코드 선택기가 유효 코드 세그먼트라는 것 등)을 행한다. 또한, 고속 버전에서는, 범용 레지스터들(RCX, R10, R11)이 출력 레지스터들로서 사용되는 것으로 가정한다. 이러한 레지스터들 내에 출력을 저장함으로써 명령어들의 성능을 개선할 수 있고, 시스템 호출을 위해 기존의 마이크로코드의 일부를 사용할 수 있다. 고속 버전에서는 올바른 값들이 세그먼트 레지스터들(GS, CS, SS) 내에 로딩된다. 고속 버전의 RBSTCALL 명령어 및 RBSTRET 명령어 각각 내에서 하나의 원자 명령어에서의 검증 및 제어 스택 스왑핑을 이용하여 제어 전달이 달성된다는 것을 알 수 있다.
도 6a는 일 실시예에 따른 제어 전달 명령어(예로서, RBSTCALL 명령어)를 실행하기 위한 방법(600)의 블록 흐름도이다. 방법(600)은 프로세서가 제1 특권 레벨의 요청자로부터 제2 특권 레벨의 OS 커널로 제어를 전달하기 위한 시스템 호출 명령어를 요청자로부터 수신하는 것으로부터 시작된다(블록 611). 시스템 호출 명령어에 응답하여, 프로세서는 하나의 원자 전이에서 레지스터들 중 하나 이상에 의해 지시되는 데이터 구조들을 요청자와 OS 커널 사이에서 스왑핑한다(블록 612). 도 6b는 일 실시예에 따른 제어 전달 명령어(예로서, RBSTRET 명령어)를 실행하기 위한 방법(610)의 블록 흐름도이다. 방법(610)은 프로세서가 OS 커널로부터 시스템 리턴 명령어를 수신하는 것으로부터 시작된다(블록 613). 시스템 리턴 명령어에 응답하여, 프로세서는 하나의 원자 전이에서 제어를 OS 커널로부터 요청자에게 리스토어한다(블록 614).
일 실시예에서, 제1 특권 레벨은 제2 특권 레벨과 동일하다. 다른 실시예에서, 제1 특권 레벨은 비관리자 모드에 있고, 제2 특권 레벨은 관리자 모드에 있다. 일 실시예에서, 프로세서는 시스템 호출 명령어에 응답하여 하나 이상의 세그먼트 레지스터를 올바른 값들로 원자적으로 로딩한다. 일 실시예에서, 프로세서는 시스템 호출 명령어에 응답하여 하나 이상의 세그먼트 레지스터에 대해 원자적으로 유효성 검사를 수행한다. 일 실시예에서, 프로세서는 명령어에 응답하여 하나 이상의 레지스터 내에 로딩될 하나 이상의 타겟 포인터에 대해 어드레스 일치에 대한 표준 검사를 원자적으로 수행한다.
다양한 실시예들에서, 도 6a-6b의 방법들은 범용 프로세서, 특수 목적 프로세서(예로서, 그래픽 프로세서 또는 디지털 신호 프로세서) 또는 다른 타입의 디지털 논리 디바이스 또는 명령어 처리 장치에 의해 수행될 수 있다. 일부 실시예들에서, 도 6a-6b의 방법들은 도 2의 명령어 처리 장치(215) 또는 도 7-13에 도시된 실시예들과 같은 유사한 프로세서, 장치 또는 시스템에 의해 수행될 수 있다. 더욱이, 도 2의 명령어 처리 장치(215)는 물론, 도 7-13에 도시된 프로세서, 장치 또는 시스템도 도 6a-6b의 방법들과 동일하거나 유사한 동작들 및 방법들의 실시예들을 수행할 수 있다.
일부 실시예들에서, 도 2의 명령어 처리 장치(215)는 명령어를 소스 명령어 세트로부터 타겟 명령어 세트로 변환하는 명령어 컨버터와 연계하여 동작할 수 있다. 예를 들어, 명령어 컨버터는 코어에 의해 처리될 하나 이상의 명령어를 (예를 들어, 정적 이진 번역, 동적 컴파일을 포함하는 동적 이진 번역을 이용하여) 번역, 변형, 에뮬레이션 또는 변환할 수 있다. 명령어 컨버터는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 조합에서 구현될 수 있다. 명령어 컨버터는 프로세서 상에, 프로세서 밖에 또는 일부는 프로세서 상에 그리고 일부는 프로세서 밖에 있을 수 있다.
도 6c는 일 실시예에 따른 소프트웨어 명령어 컨버터의 사용을 대비시키는 블록도이다. 도시된 실시예에서, 명령어 컨버터는 소프트웨어 명령어 컨버터이지만, 대안으로서 명령어 컨버터는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 다양한 조합에서 구현될 수 있다. 도 6c는 하이 레벨 언어(602)의 프로그램을 x86 컴파일러(604)를 이용하여 컴파일하여, 적어도 하나의 x86 명령어 세트 코어(626)를 갖는 프로세서에 의해 고유하게 실행될 수 있는 x86 이진 코드(606)를 생성할 수 있다는 것을 나타낸다. 적어도 하나의 x86 명령어 세트 코어(626)를 갖는 프로세서는 적어도 하나의 x86 명령어 세트를 갖는 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위하여 (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 실질적 부분 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서 상에서 실행되는 것을 목적으로 하는 애플리케이션들 또는 다른 소프트웨어의 객체 코드 버전들을 적절히 실행 또는 처리함으로써 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 기능을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(604)는 추가적인 링크 처리를 갖거나 갖지 않고서 적어도 하나의 x86 명령어 세트 코어(626)를 갖는 프로세서 상에서 실행될 수 있는 x86 이진 코드(606)(예로서, 객체 코드)를 생성하도록 동작할 수 있는 컴파일러를 나타낸다. 유사하게, 도 6c는 하이 레벨 언어(602)의 프로그램을 대안적인 명령어 세트 컴파일러(608)를 이용하여 컴파일하여, 적어도 하나의 x86 명령어 세트 코어(624)를 갖지 않는 프로세서(예로서, CA 서니베일의 MIPS 테크놀로지스의 MIPS 명령어 세트를 실행하고/하거나 CA 서니베일의 ARM 홀딩스의 ARM 명령어 세트를 실행하는 코어들을 갖는 프로세서)에 의해 고유하게 실행될 수 있는 대안적인 명령어 세트 이진 코드(620)를 생성할 수 있다는 것을 나타낸다. 명령어 컨버터(622)는 x86 이진 코드(606)를, x86 명령어 세트 코어(624)를 갖지 않는 프로세서에 의해 고유하게 실행될 수 있는 코드로 변환하는 데 사용된다. 이러한 변환된 코드는 대안적인 명령어 세트 이진 코드(620)와 동일할 가능성이 없는데, 그 이유는 이를 행할 수 있는 명령어 컨버터를 제조하기 어렵기 때문이며, 그러나 변환된 코드는 일반적인 동작을 완수하며, 대안 명령어 세트로부터의 명령어들로 구성될 것이다. 따라서, 명령어 컨버터(622)는 에뮬레이션, 시뮬레이션 또는 임의의 다른 프로세스를 통해 x86 명령어 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스가 x86 이진 코드(606)를 실행할 수 있게 하는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합을 나타낸다.
예시적인 코어 아키텍처들
순차 및 비순차 코어 블록도
도 7a는 일 실시예에 따른 예시적인 순차적 파이프라인 및 예시적인 레지스터 재명명, 비순차적 발행/실행 파이프라인 양자를 나타내는 블록도이다. 도 7b는 일 실시예에 따른 순차 아키텍처 코어의 예시적인 실시예 및 프로세서에 포함될 예시적인 레지스터 재명명, 비순차 발행/실행 아키텍처 코어 양자를 나타내는 블록도이다. 도 7a-b 내의 실선 박스들은 순차 파이프라인 및 순차 코어를 나타내는 반면, 옵션인 점선 박스들의 추가는 레지스터 재명명, 비순차 발행/실행 파이프라인 및 코어를 나타낸다. 순차 양태가 비순차 양태의 서브세트인 경우, 비순차 양태가 설명된다.
도 7a에서, 프로세서 파이프라인(700)은 인출 스테이지(702), 길이 디코드 스테이지(704), 디코드 스테이지(706), 할당 스테이지(708), 재명명 스테이지(710), (발송 또는 발행으로도 알려진) 스케줄링 스테이지(712), 레지스터 판독/메모리 판독 스테이지(714), 실행 스테이지(716), 되기록(write back)/메모리 기록 스테이지(718), 예외 핸들링 스테이지(722) 및 커미트 스테이지(724)를 포함한다.
도 7b는 실행 엔진 유닛(750)에 결합된 프론트엔드 유닛(730)을 포함하는 프로세서 코어(790)를 나타내며, 이들 양자는 메모리 유닛(770)에 결합된다. 코어(790)는 축소 명령어 세트 컴퓨팅(RISC) 코어, 복합 명령어 세트 컴퓨팅(CISC) 코어, 매우 긴 명령어 워드(VLIW) 코어, 또는 하이브리드 또는 대안 코어 타입일 수 있다. 또 다른 옵션으로서, 코어(790)는 예를 들어 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, 범용 컴퓨팅 그래픽 처리 유닛(GPGPU) 코어, 그래픽 코어 등과 같은 특수 목적 코어일 수 있다.
프론트엔드 유닛(730)은 디코드 유닛(740)에 결합된 명령어 인출 유닛(738)에 결합된 명령어 변환 색인 버퍼(TLB)(736)에 결합된 명령어 캐시 유닛(734)에 결합된 분기 예측 유닛(732)을 포함한다. 디코드 유닛(740)(또는 디코더)은 명령어들을 디코딩할 수 있으며, 오리지널 명령어들로부터 디코딩되거나 그들을 반영하거나 그들로부터 도출되는 하나 이상의 마이크로 연산들, 마이크로코드 엔트리 포인트들, 마이크로 명령어들, 다른 명령어들 또는 다른 제어 신호들을 출력으로서 생성할 수 있다. 디코드 유닛(740)은 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘들의 예들은 탐색표, 하드웨어 구현, 프로그래밍 가능 논리 어레이(PLA), 마이크로코드 판독 전용 메모리(ROM) 등을 포함하지만 이에 한정되지 않는다. 일 실시예에서, 코어(790)는 (예를 들어, 디코드 유닛(740) 내에 또는 프론트엔트 유닛(730) 내에) 소정의 마이크로 명령어들에 대한 마이크로코드를 저장하는 마이크로코드 ROM 또는 기타 매체를 포함한다. 디코드 유닛(740)은 실행 엔진 유닛(750) 내의 재명명/할당 유닛(752)에 결합된다.
실행 엔진 유닛(750)은 리타이어먼트 유닛(754) 및 하나 이상의 스케줄러 유닛(들)(756)의 세트에 결합된 재명명/할당 유닛(752)을 포함한다. 스케줄러 유닛(들)(756)은 예약 스테이션, 중앙 명령어 윈도 등을 포함하는 임의 수의 상이한 스케줄러를 나타낸다. 스케줄러 유닛(들)(756)은 물리 레지스터 파일(들) 유닛(들)(758)에 결합된다. 물리 레지스터 파일(들) 유닛들(758) 각각은 하나 이상의 물리 레지스터 파일들을 나타내고, 이들 중 상이한 것들은 스칼라 정수, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예로서, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등과 같은 하나 이상의 상이한 데이터 타입들을 저장한다. 일 실시예에서, 물리 레지스터 파일(들) 유닛(758)은 벡터 레지스터 유닛, 기록 마스크 레지스터 유닛 및 스칼라 레지스터 유닛을 포함한다. 이러한 레지스터 유닛들은 아키텍처 벡터 레지스터들, 벡터 마스크 레지스터들 및 범용 레지스터들을 제공할 수 있다. 물리 레지스터 파일(들) 유닛(들)(758)은 레지스터 재명명 및 비순차 실행이 (예를 들어, 재배열 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용하여; 미래 파일(들), 과거 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용하여; 레지스터 맵들 및 레지스터들의 풀을 이용하여; 기타 등등을 이용하여) 구현될 수 있는 다양한 방식들을 나타내기 위해 리타이어먼트 유닛(754)에 의해 오버랩된다. 리타이어먼트 유닛(754) 및 물리 레지스터 파일(들) 유닛(들)(758)은 실행 클러스터(들)(760)에 결합된다. 실행 클러스터(들)(760)는 하나 이상의 실행 유닛들(762)의 세트 및 하나 이상의 메모리 액세스 유닛들(764)의 세트를 포함한다. 실행 유닛들(762)은 다양한 타입의 데이터(예로서, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 동작들(예로서, 시프트, 가산, 감산, 승산)을 수행할 수 있다. 일부 실시예들은 특정 기능들 또는 기능들의 세트들에 전용화된 다수의 실행 유닛을 포함할 수 있지만, 다른 실시예들은 하나의 실행 유닛만을 또는 모든 기능들을 모두 수행하는 다수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(756), 물리 레지스터 파일(들) 유닛(들)(758) 및 실행 클러스터(들)(760)는 아마도 복수 개인 것으로 도시되는데, 그 이유는 소정 실시예들이 소정 타입의 데이터/동작들을 위한 개별 파이프라인들을 생성하기 때문이다(예를 들어, 자신들의 스케줄러 유닛, 물리 레지스터 파일(들) 유닛 및/또는 실행 클러스터를 각각 갖는 스칼라 정수 파이프라인, 스칼라 부동 소수점/팩킹된 정수/팩킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인 및/또는 메모리 액세스 파이프라인 - 그리고 개별 메모리 액세스 파이프라인의 경우, 이 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(764)을 갖는 소정 실시예들이 구현된다). 개별 파이프라인들이 사용되는 경우에 이러한 파이프라인들 중 하나 이상은 비순차 발행/실행 파이프라인이고, 나머지는 순차 파이프라인일 수 있다는 것도 이해해야 한다.
메모리 액세스 유닛들(764)의 세트는 레벨 2 (L2) 캐시 유닛(776)에 결합된 데이터 캐시 유닛(774)에 결합된 데이터 TLB 유닛(772)을 포함하는 메모리 유닛(770)에 결합된다. 일 실시예에서, 메모리 액세스 유닛들(764)은 로딩 유닛, 저장 어드레스 유닛 및 저장 데이터 유닛을 포함할 수 있으며, 이들 각각은 메모리 유닛(770) 내의 데이터 TLB 유닛(772)에 결합된다. 명령어 캐시 유닛(734)은 메모리 유닛(770) 내의 레벨 2 (L2) 캐시 유닛(776)에 더 결합된다. L2 캐시 유닛((776)은 캐시의 하나 이상의 다른 레벨에 그리고 결국 메인 메모리에 결합된다.
예를 들어, 예시적인 레지스터 재명명, 비순차 발행/실행 코어 아키텍처는 다음과 같이 파이프라인(700)을 구현할 수 있는데, 즉 1) 명령어 인출(738)은 인출 및 길이 디코딩 스테이지들(702, 704)을 수행하고, 2) 디코드 유닛(740)은 디코드 스테이지(706)를 수행하고, 3) 재명명/할당기 유닛(752)은 할당 스테이지(708) 및 재명명 스테이지(710)를 수행하고, 4) 스케줄러 유닛(들)(756)은 스케줄 스테이지(712)를 수행하고, 5) 물리 레지스터 파일(들) 유닛(들)(758) 및 메모리 유닛(770)은 레지스터 판독/메모리 판독 스테이지(714)를 수행하고, 실행 클러스터(760)는 실행 스테이지(716)를 수행하고, 6) 메모리 유닛(770) 및 물리 레지스터 파일(들) 유닛(들)(758)은 되기록/메모리 기록 스테이지(718)를 수행하고, 7) 다양한 유닛들이 예외 핸들링 스테이지(722) 내에 포함될 수 있고, 8) 리타이어먼트 유닛(754) 및 물리 레지스터 파일(들) 유닛(들)(758)은 커미트 스테이지(724)를 수행한다.
코어(790)는 본 명세서에서 설명되는 명령어(들)를 포함하는 하나 이상의 명령어 세트들(예로서, (더 새로운 버전들과 함께 추가된 일부 확장들을 갖는) x86 명령어 세트; CA 서니베일의 MIPS 테크놀로지스의 MIPS 명령어 세트; CA 서니베일의 ARM 홀딩스의 (NEON과 같은 옵션인 추가적인 확장들을 갖는) ARM 명령어 세트)을 지원할 수 있다. 일 실시예에서, 코어(790)는 팩킹된 데이터 명령어 세트 확장(예로서, SSE, AVX1, AVX2 등)을 지원하기 위한 논리를 포함하며, 따라서 많은 멀티미디어 애플리케이션들에 의해 사용되는 동작들이 팩킹된 데이터를 이용하여 수행되는 것을 가능하게 한다.
코어는 (동작들 또는 스레드들의 둘 이상의 병렬 세트를 실행하는) 다중 스레딩을 지원할 수 있으며, 시간 슬라이싱 다중 스레딩, (단일 물리 코어가 동시에 다중 스레딩하는 스레드들 각각에 대한 논리 코어를 그 물리 코어가 제공하는) 동시 다중 스레딩 또는 이들의 조합(예로서, 인텔(등록상표) 하이퍼 스레딩 기술에서와 같은 시간 슬라이싱 인출 및 디코딩 및 동시 다중 스레딩)을 포함하는 다양한 방식으로 그렇게 할 수 있다.
레지스터 재명명이 비순차 실행과 관련하여 설명되지만, 레지스터 재명명은 순차 아키텍처에서 사용될 수 있다는 것을 이해해야 한다. 도시된 프로세서의 실시예는 개별 명령어 및 데이터 캐시 유닛들(734/774) 및 공유 L2 캐시 유닛(776)도 포함하지만, 대안 실시예들은 예를 들어 레벨 1 (L1) 내부 캐시 또는 내부 캐시의 다수의 레벨과 같은, 명령어들 및 데이터 양자를 위한 단일 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와 코어 및/또는 프로세서 외부의 외부 캐시의 조합을 포함할 수 있다. 대안으로서, 모든 캐시는 코어 및/또는 프로세서 외부에 위치할 수 있다.
특정한 예시적인 순차 코어 아키텍처
도 8a-b는 코어가 칩 내의 (동일 타입 및/또는 상이한 타입들의 다른 코어들을 포함하는) 여러 개의 논리 블록 중 하나인 더 특정한 예시적인 순차 코어 아키텍처의 블록도를 나타낸다. 논리 블록들은 응용에 따라 고대역폭 상호접속 네트워크(예로서, 링 네트워크)를 통해 소정의 고정 기능 논리, 메모리 I/O 인터페이스들 및 다른 필요한 I/O 논리와 통신한다.
도 8a는 일 실시예에 따른 단일 프로세서 코어, 온-다이 상호접속 네트워크(802)에 대한 그의 접속 및 레벨 2 (L2) 캐시(804)의 그의 로컬 서브세트의 블록도이다. 일 실시예에서, 명령어 디코더(800)는 팩킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(806)는 스칼라 및 벡터 유닛들 내로의 캐시 메모리에 대한 저지연 액세스들을 가능하게 한다. (설계를 간소화하기 위한) 일 실시예에서는 스칼라 유닛(808) 및 벡터 유닛(810)이 개별 레지스터 세트들(각각, 스칼라 레지스터들(812) 및 벡터 레지스터들(814))을 사용하고, 그들 사이에 전송되는 데이터가 메모리에 기록된 후에 레벨 1 (L1) 캐시(806)로부터 다시 판독되지만, 본 발명의 대안 실시예들은 상이한 접근법을 이용할 수 있다(예를 들어, 단일 레지스터 세트를 사용하거나, 기록 및 재판독 없이 2개의 레지스터 파일 사이에서 데이터가 전송되게 하는 통신 경로를 포함할 수 있다).
L2 캐시(804)의 로컬 서브세트는 프로세서 코어당 하나씩인 개별 로컬 서브세트들로 분할되는 글로벌 L2 캐시의 일부이다. 각각의 프로세서 코어는 L2 캐시(804)의 그 자신의 로컬 서브세트에 대한 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 그의 L2 캐시 서브세트(804) 내에 저장되며, 다른 프로세서 코어들이 그들 자신의 로컬 L2 캐시 서브세트들에 액세스하는 것과 병렬로 빠르게 액세스될 수 있다. 프로세서 코어에 의해 기록된 데이터는 그 자신의 L2 캐시 서브세트(804) 내에 저장되며, 필요한 경우에는 다른 서브세트들로부터 청소된다. 링 네트워크는 공유 데이터에 대한 일관성을 보증한다. 링 네트워크는 프로세서 코어들, L2 코어들 및 다른 논리 블록들과 같은 에이전트들이 칩 내에서 서로 통신하는 것을 가능하게 하기 위한 양방향 네트워크이다.
도 8b는 일 실시예에 따른 도 8a의 프로세서 코어의 일부의 확대도이다. 도 8b는 L1 캐시(804)의 L1 데이터 캐시(806A) 부분은 물론, 벡터 유닛(810) 및 벡터 레지스터들(814)에 관한 더 많은 상세도 포함한다. 구체적으로, 벡터 유닛(810)은 정수, 단일 정밀도 부동 및 이중 정밀도 부동 명령어들 중 하나 이상을 실행하는 16-폭 벡터 처리 유닛(VPU)(16-폭 ALU(828) 참조)이다. VPU는 메모리 입력 상에서 스위즐(swizzle) 유닛(820)을 이용하는 레지스터 입력들의 스위즐, 수치 변환 유닛들(822A-B)을 이용하는 수치 변환 및 복제 유닛(824)을 이용하는 복제를 지원한다. 기록 마스크 레지스터들(826)은 결과적인 벡터 기록들의 예측을 가능하게 한다.
통합 메모리 제어기 및 그래픽을 구비한 프로세서
도 9는 일 실시예에 따른, 둘 이상의 코어를 가질 수 있는, 통합 메모리 제어기를 가질 수 있는, 그리고 통합 그래픽을 가질 수 있는 프로세서(900)의 블록도이다. 도 9의 실선 박스들은 단일 코어(902A), 시스템 에이전트(910), 하나 이상의 버스 제어기 유닛들(916)의 세트를 갖는 프로세서(900)를 나타내는 반면, 옵션인 점선 박스들의 추가는 다수의 코어(902A-N), 시스템 에이전트 유닛(910) 내의 하나 이상의 통합 메모리 제어기 유닛(들)(914)의 세트, 및 특수 목적 논리(908)를 갖는 대안적인 프로세서(900)를 나타낸다.
따라서, 프로세서(900)의 상이한 구현들은 1) 통합 그래픽 및/또는 과학 (처리량) 논리(하나 이상의 코어를 포함할 수 있음)인 특수 목적 논리(908) 및 하나 이상의 범용 코어들(예로서, 범용 순차 코어들, 범용 비순차 코어들, 이 두 가지의 조합)인 코어들(902A-N)을 갖는 CPU; 2) 그래픽 및/또는 과학(처리량)을 위해 주로 의도된 다수의 특수 목적 코어들인 코어들(902A-N)을 갖는 코프로세서; 및 3) 다수의 범용 순차 코어들인 코어들(902A-N)을 갖는 코프로세서를 포함할 수 있다. 따라서, 프로세서(900)는 범용 프로세서, 코프로세서 또는 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(범용 그래픽 처리 유닛), 고처리량 다중 통합 코어(MIC) 코프로세서(30개 이상의 코어를 포함함), 내장 프로세서 등과 같은 특수 목적 프로세서일 수 있다. 프로세서는 하나 이상의 칩 상에 구현될 수 있다. 프로세서(900)는 하나 이상의 기판의 일부일 수 있고/있거나, 예를 들어 BiCMOS, CMOS 또는 NMOS와 같은 임의의 다수의 프로세스 기술을 이용하여 하나 이상의 기판 상에 구현될 수 있다.
메모리 계층 구조는 코어들 내의 캐시의 하나 이상의 레벨, 하나 이상의 공유 캐시 유닛들(906)의 세트, 및 통합 메모리 제어기 유닛들(914)의 세트에 결합된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(906)의 세트는 하나 이상의 중간 레벨 캐시, 예를 들어 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 다른 레벨의 캐시, 최종 레벨 캐시(LLC) 및/또는 이들의 조합들을 포함할 수 있다. 일 실시예에서는 링 기반 상호접속 유닛(912)이 통합 그래픽 논리(908), 공유 캐시 유닛들(906)의 세트 및 시스템 에이전트 유닛(910)/통합 메모리 제어기 유닛(들)(914)을 상호접속하지만, 대안 실시예들은 그러한 유닛들을 상호접속하기 위해 임의 수의 공지된 기술들을 이용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛들(906)과 코어들(902A-N) 사이에 일관성이 유지된다.
일부 실시예들에서, 코어들(902A-N) 중 하나 이상은 다중 스레딩이 가능하다. 시스템 에이전트(910)는 코어들(902A-N)을 조정 및 조작하는 컴포넌트들을 포함한다. 시스템 에이전트 유닛(910)은 예를 들어 전력 제어 유닛(PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(902A-N) 및 통합 그래픽 논리(908)의 전력 상태를 조절하는 데 필요한 논리 및 컴포넌트들이거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부에 접속된 디스플레이들을 구동한다.
코어들(902A-N)은 아키텍처 명령어 세트와 관련하여 동종 또는 이종일 수 있는데, 즉 코어들(902A-N) 중 둘 이상은 동일 명령어 세트를 실행할 수 있는 반면, 다른 코어들은 그 명령어 세트의 서브세트만을 또는 상이한 명령어 세트를 실행할 수 있다.
예시적인 컴퓨터 아키텍처들
도 10-13은 예시적인 컴퓨터 아키텍처들의 블록도들이다. 랩탑들, 데스크탑들, 핸드헬드 PC들, 개인용 휴대 단말기들, 엔지니어링 워크스테이션들, 서버들, 네트워크 디바이스들, 네트워크 허브들, 스위치들, 내장 프로세서들, 디지털 신호 프로세서들(DSP들), 그래픽 디바이스들, 비디오 게임 디바이스들, 셋톱 박스들, 마이크로컨트롤러들, 셀 폰들, 휴대용 미디어 플레이어들, 핸드헬드 디바이스들 및 다양한 다른 전자 디바이스들에 대해 이 분야에 공지된 다른 시스템 설계들 및 구성들도 적합하다. 일반적으로, 본 명세서에서 개시되는 바와 같은 프로세서 및/또는 기타 실행 논리를 포함할 수 있는 다양한 시스템들 또는 전자 디바이스들이 일반적으로 적합하다.
이제, 도 10을 참조하면, 일 실시예에 따른 시스템(1000)의 블록도가 도시된다. 시스템(1000)은 제어기 허브(1020)에 결합되는 하나 이상의 프로세서들(1010, 1015)을 포함할 수 있다. 일 실시예에서, 제어기 허브(1020)는 그래픽 메모리 제어기 허브(GMCH)(1090) 및 입출력 허브(IOH)(1050)(개별 칩들 상에 위치할 수 있음)를 포함하고, GMCH(1090)는 메모리(1040) 및 코프로세서(1045)에 결합되는 메모리 및 그래픽 제어기들을 포함하고, IOH(1050)는 입출력(I/O) 디바이스들(1060)을 GMCH(1090)에 결합한다. 대안으로서, 메모리 및 그래픽 제어기들 중 하나 또는 양자는 (본 명세서에서 설명되는 바와 같이) 프로세서 내에 통합되고, 메모리(1040) 및 코프로세서(1045)는 프로세서(1010)에 직접 결합되며, 제어기 허브(1020)는 IOH(1050)와 함께 단일 칩 내에 위치한다.
추가적인 프로세서들(1015)의 옵션 특성이 도 10에 파선들로 표시된다. 각각의 프로세서(1010, 1015)는 본 명세서에서 설명되는 프로세서 코어들 중 하나 이상을 포함할 수 있으며, 프로세서(900)의 소정 버전일 수 있다.
메모리(1040)는 예를 들어 동적 랜덤 액세스 메모리(DRAM), 상변화 메모리(PCM), 또는 이 둘의 조합일 수 있다. 적어도 일 실시예에서, 제어기 허브(1020)는 프론트 사이드 버스(FSB), 점대점 인터페이스, 예를 들어 고속 경로 상호접속(QPI) 또는 유사한 접속(1095)과 같은 멀티-드롭 버스를 통해 프로세서(들)(1010, 1015)와 통신한다.
일 실시예에서, 코프로세서(1045)는 특수 목적 프로세서, 예를 들어 고처리량 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 내장 프로세서 등이다. 일 실시예에서, 제어기 허브(1020)는 통합 그래픽 가속기를 포함할 수 있다.
아키텍처, 마이크로 아키텍처, 열, 전력 소비 특성 등을 포함하는 장점의 기준들의 스펙트럼과 관련하여 물리 자원들(1010, 1015) 사이에는 다양한 차이들이 존재할 수 있다.
일 실시예에서, 프로세서(1010)는 일반적인 타입의 데이터 처리 동작들을 제어하는 명령어들을 실행한다. 명령어들 내에는 코프로세서 명령어들이 내장될 수 있다. 프로세서(1010)는 이러한 코프로세서 명령어들을 부속된 코프로세서(1045)에 의해 실행되어야 하는 타입인 것으로 인식한다. 따라서, 프로세서(1010)는 이러한 코프로세서 명령어들(또는 코프로세서 명령어들을 나타내는 제어 신호들)을 코프로세서 버스 또는 다른 상호접속 상에서 코프로세서(1045)로 제공한다. 코프로세서(1045)는 수신된 코프로세서 명령어들을 수락 및 실행한다.
이제, 도 11을 참조하면, 일 실시예에 따른 제1의 더 구체적인 예시적인 시스템(1100)의 블록도가 도시된다. 도 11에 도시된 바와 같이, 멀티프로세서 시스템(1100)은 점대점 상호접속 시스템이며, 점대점 상호접속(1150)을 통해 결합된 제1 프로세서(1170) 및 제2 프로세서(1180)를 포함한다. 프로세서들(1170, 1180) 각각은 프로세서(900)의 소정 버전일 수 있다. 일 실시예에서, 프로세서들(1170, 1180)은 각각 프로세서들(1010, 1015)이고, 코프로세서(1138)는 코프로세서(1045)이다. 다른 실시예에서, 프로세서들(1170, 1180)은 각각 프로세서(1010), 코프로세서(1045)이다.
프로세서들(1170, 1180)은 각각 통합 메모리 제어기(IMC) 유닛들(1172, 1182)을 포함하는 것으로 도시된다. 프로세서(1170)는 또한 그의 버스 제어기 유닛들의 일부로서 점대점(P-P) 인터페이스들(1176, 1178)을 포함하며, 유사하게 제2 프로세서(1180)는 P-P 인터페이스들(1186, 1188)을 포함한다. 프로세서들(1170, 1180)은 P-P 인터페이스 회로들(1178, 1188)을 이용하여 점대점(P-P) 인터페이스(1150)를 통해 정보를 교환할 수 있다. 도 11에 도시된 바와 같이, IMC들(1172, 1182)은 각각의 프로세서들에 국지적으로 부착된 메인 메모리의 부분들일 수 있는 각각의 메모리들, 즉 메모리(1132) 및 메모리(1134)에 프로세서들을 결합한다.
프로세서들(1170, 1180)은 각각 점대점 인터페이스 회로들(1176, 1194, 1186, 1198)을 이용하여 개별 P-P 인터페이스들(1152, 1154)을 통해 칩셋(1190)과 정보를 교환할 수 있다. 칩셋(1190)은 옵션으로서 고성능 인터페이스(1139)를 통해 코프로세서(1138)와 정보를 교환할 수 있다. 일 실시예에서, 코프로세서(1138)는 특수 목적 프로세서, 예를 들어 고처리량 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 내장 프로세서 등이다.
공유 캐시(도시되지 않음)가 프로세서 내에 포함될 수 있거나, 양 프로세서 밖에 포함되지만 P-P 상호접속을 통해 프로세서들과 접속될 수 있으며, 따라서 어느 하나의 프로세서 또는 양 프로세서의 로컬 캐시 정보는 프로세서가 저전력 모드에 있는 경우에 공유 캐시에 저장될 수 있다.
칩셋(1190)은 인터페이스(1196)를 통해 제1 버스(1116)에 결합될 수 있다. 일 실시예에서, 제1 버스(1116)는 주변 컴포넌트 상호접속(PCI) 버스, 또는 PCI 익스프레스 버스 또는 다른 3세대 I/O 상호접속 버스와 같은 버스일 수 있다. 대안 실시예들도 사용될 수 있다.
도 11에 도시된 바와 같이, 다양한 I/O 디바이스들(1114)이 제1 버스(1116)에 결합될 수 있으며, 이와 함께 버스 브리지(1118)가 제1 버스(1116)를 제2 버스(1120)에 결합한다. 일 실시예에서, 하나 이상의 추가적인 프로세서(들)(1115), 예를 들어 코프로세서, 고처리량 MIC 프로세서, GPGPU, 가속기(예를 들어, 그래픽 가속기 또는 디지털 신호 처리(DSP) 유닛 등), 필드 프로그래머블 게이트 어레이 또는 임의의 다른 프로세서가 제1 버스(1116)에 결합된다. 일 실시예에서, 제2 버스(1120)는 로우 핀 카운트(LPC) 버스일 수 있다. 예를 들어 키보드 및/또는 마우스(1122), 통신 디바이스들(1127) 및 저장 유닛(1128), 예를 들어 일 실시예에서 명령어들/코드 및 데이터(1130)를 포함할 수 있는 디스크 드라이브 또는 기타 대용량 저장 디바이스를 포함하는 다양한 디바이스들이 제2 버스(1120)에 결합될 수 있다. 또한, 오디오 I/O(1124)가 제2 버스(1120)에 결합될 수 있다. 다른 아키텍처들이 가능하다는 점에 유의한다. 예를 들어, 도 11의 점대점 아키텍처 대신에, 시스템은 멀티-드롭 버스 또는 다른 그러한 아키텍처들을 구현할 수 있다.
이제, 도 12를 참조하면, 일 실시예에 따른 제2의 더 구체적인 예시적인 시스템(1200)이 도시된다. 도 11 및 12에서 동일한 요소들은 동일한 참조 번호들을 가지며, 도 11의 소정 양태들은 도 12의 다른 양태들을 불명확하게 하지 않기 위해 도 12로부터 제외되었다.
도 12는 프로세서들(1170, 1180)이 각각 통합 메모리 및 I/O 제어 논리("CL")(1172, 1182)를 포함할 수 있다는 것을 나타낸다. 따라서, CL(1172, 1182)은 통합 메모리 제어기 유닛들을 포함하며, I/O 제어 논리를 포함한다. 도 12는 메모리들(1132, 1134)이 CL(1172, 1182)에 결합될 뿐만 아니라, I/O 디바이스들(1214)도 제어 논리(1172, 1182)에 결합되는 것을 나타낸다. 레거시 I/O 디바이스들(1215)은 칩셋(1190)에 결합된다.
이제, 도 13을 참조하면, 본 발명의 일 실시예에 따른 SoC(1300)의 블록도가 도시된다. 도 9의 유사한 요소들은 동일한 참조 번호들을 갖는다. 또한, 점선 박스들은 더 진보된 SoC들 상의 옵션인 특징들이다. 도 13에서, 상호접속 유닛(들)(1302)은 하나 이상의 코어들(902A-N)의 세트 및 공유 캐시 유닛(들)(906)을 포함하는 애플리케이션 프로세서(1310); 시스템 에이전트 유닛(910); 버스 제어기 유닛(들)(916); 통합 메모리 제어기 유닛(들)(914); 통합 그래픽 논리, 이미지 프로세서, 오디오 프로세서 및 비디오 프로세서를 포함할 수 있는 하나 이상의 코프로세서들(1320)의 세트; 정적 랜덤 액세스 메모리(SRAM) 유닛(1330); 직접 메모리 액세스(DMA) 유닛(1332); 및 하나 이상의 외부 디스플레이들에 결합하기 위한 디스플레이 유닛(1340)에 결합된다. 일 실시예에서, 코프로세서(들)(1320)는 특수 목적 프로세서, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 고처리량 MIC 프로세서, 내장 프로세서 등을 포함한다.
본 명세서에서 설명되는 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어 또는 이러한 구현 접근법들의 조합에서 구현될 수 있다. 실시예들은 적어도 하나의 프로세서, (휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함하는) 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스를 포함하는 프로그래밍 가능한 시스템들 상에서 실행되는 컴퓨터 프로그램들 또는 프로그램 코드로서 구현될 수 있다.
도 11에 도시된 코드(1130)와 같은 프로그램 코드는 입력 명령어들에 적용되어, 본 명세서에서 설명되는 기능들을 수행하고 출력 정보를 생성할 수 있다. 출력 정보는 하나 이상의 출력 디바이스에 공지 방식으로 적용될 수 있다. 본원의 목적을 위해, 처리 시스템은 예를 들어 디지털 신호 프로세서(DSP), 마이크로컨트롤러, 주문형 집적 회로(ASIC) 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.
프로그램 코드는 처리 시스템과 통신하기 위해 하이 레벨 절차 또는 객체 지향 프로그래밍 언어로 구현될 수 있다. 프로그램 코드는 원할 경우에 어셈블리 또는 기계 언어로도 구현될 수 있다. 사실상, 본 명세서에서 설명되는 메커니즘들은 범위에 있어서 임의의 특정 프로그래밍 언어로 한정되지 않는다. 어느 경우에나, 언어는 컴파일되거나 해석되는 언어일 수 있다.
적어도 일 실시예의 하나 이상의 양태는 프로세서 내의 다양한 논리를 나타내는 기계 판독 가능 매체 상에 저장되는 대표적인 명령어들에 의해 구현될 수 있으며, 이러한 명령어들은 기계에 의해 판독될 때 기계로 하여금 본 명세서에서 설명되는 기술들을 수행하기 위한 논리를 제조하게 한다. "IP 코어들"로서 알려진 그러한 표현들은 유형의 기계 판독 가능 매체 상에 저장되고, 다양한 고객들 또는 제조 설비들에 제공되어, 논리 또는 프로세서를 실제로 제조하는 제조 기계들 내로 로딩될 수 있다.
그러한 기계 판독 가능 저장 매체들은 기계 또는 디바이스에 의해 제조 또는 형성되는 물건들의 비일시적 유형 배열들을 포함할 수 있지만, 이에 한정되지 않으며, 이들은 저장 매체들, 예를 들어 하드 디스크들, 플로피 디스크들, 광 디스크들, 컴팩트 디스크 판독 전용 메모리들(CD-ROM들), 재기록 가능 컴팩트 디스크들(CD-RW들) 및 광자기 디스크들을 포함하는 임의의 다른 타입의 디스크, 반도체 디바이스들, 예를 들어 판독 전용 메모리들(ROM들), 랜덤 액세스 메모리들(RAM들), 예를 들어 동적 랜덤 액세스 메모리들(DRAM들), 정적 랜덤 액세스 메모리들(SRAM들), 소거 및 프로그래밍 가능 판독 전용 메모리들(EPROM들), 플래시 메모리들, 전기적으로 소거 및 프로그래밍 가능한 판독 전용 메모리들(EEPROM들), 상변화 메모리(PCM), 자기 또는 광학 카드들, 또는 전자 명령어들을 저장하는 데 적합한 임의의 다른 타입의 매체들을 포함할 수 있다.
따라서, 실시예들은 본 명세서에서 설명되는 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 특징들을 정의하는 하드웨어 기술 언어(HDL)와 같은 명령어들을 포함하거나 설계 데이터를 포함하는 비일시적 유형의 기계 판독 가능 매체들도 포함한다. 그러한 실시예들은 프로그램 제품들로도 지칭될 수 있다.
소정의 실시예들이 설명되고, 첨부 도면들에서 도시되었지만, 그러한 실시예들은 한정이 아니라 예시적일 뿐이며, 본 명세서를 검토할 때 이 분야의 통상의 기술자들에게는 다양한 다른 변경들이 떠오를 수 있으므로, 도시되고 설명된 특정 구성들 및 배열들로 한정되지 않는다는 것을 이해해야 한다. 성장이 빠르고 추가적인 진보가 쉽게 예측되지 않는 이와 같은 기술의 분야에서, 개시된 실시예들은 본 발명의 원리들 또는 첨부된 청구항들의 범위로부터 벗어나지 않고서 기술적 진보를 가능하게 함으로써 촉진되는 바와 같이 배열 및 상세에 있어서 쉽게 변경 가능할 수 있다.

Claims (22)

  1. 장치로서,
    메모리 내의 데이터 구조들에 대한 포인터들을 저장하는 복수의 레지스터;
    제1 특권 레벨의 요청자로부터 제2 특권 레벨의 운영 체제 커널로 제어를 전달하기 위한 시스템 호출 명령어를 요청자로부터 수신하는 디코더; 및
    상기 레지스터들에 결합되고 적어도 일부 회로를 포함하는 실행 유닛 - 상기 실행 유닛은, 상기 시스템 호출 명령어에 응답하여, 하나의 원자 전이(atomic transition)에서 상기 요청자와 상기 운영 체제 커널 사이에서 상기 레지스터들에 의해 지시되는 데이터 구조들을 스왑핑(swap)함 -
    을 포함하는 장치.
  2. 제1항에 있어서,
    상기 디코더는 상기 운영 체제 커널로부터 시스템 리턴 명령어를 수신하고, 상기 실행 유닛은 상기 시스템 리턴 명령어에 응답하여 하나의 원자 전이에서 상기 운영 체제 커널로부터 상기 요청자에게 제어를 리스토어(restore)하는 장치.
  3. 제1항에 있어서,
    상기 제1 특권 레벨은 상기 제2 특권 레벨과 동일한 장치.
  4. 제1항에 있어서,
    상기 제1 특권 레벨은 비관리자 모드(non-supervisor mode)에 있고, 상기 제2 특권 레벨은 관리자 모드에 있는 장치.
  5. 제1항에 있어서,
    상기 실행 유닛은 상기 명령어에 응답하여 하나 이상의 세그먼트 레지스터를 올바른 값들로 원자적으로 로딩하는, 장치.
  6. 제1항에 있어서,
    상기 실행 유닛은 상기 명령어에 응답하여 하나 이상의 세그먼트 레지스터에 대해 유효성 검사를 원자적으로 수행하는 장치.
  7. 제1항에 있어서,
    상기 실행 유닛은 상기 명령어에 응답하여 상기 레지스터들 중 하나 이상의 레지스터 내로 로딩될 하나 이상의 타겟 포인터에 대해 어드레스 일치(address conformity)에 대한 표준 검사(canonical check)를 원자적으로 수행하는 장치.
  8. 방법으로서,
    제1 특권 레벨의 요청자로부터 제2 특권 레벨의 운영 체제 커널로 제어를 전달하기 위한 시스템 호출 명령어를 요청자로부터 수신하는 단계; 및
    상기 시스템 호출 명령어에 응답하여, 하나의 원자 전이에서 상기 요청자와 상기 운영 체제 커널 사이에서 메모리 내에 저장되고 레지스터들에 의해 지시되는 데이터 구조들을 스왑핑하는 단계
    를 포함하는 방법.
  9. 제8항에 있어서,
    상기 운영 체제 커널로부터 시스템 리턴 명령어를 수신하는 단계; 및
    상기 시스템 리턴 명령어에 응답하여 하나의 원자 전이에서 상기 운영 체제 커널로부터 상기 요청자에게 제어를 리스토어하는 단계
    를 더 포함하는 방법.
  10. 제8항에 있어서,
    상기 제1 특권 레벨은 상기 제2 특권 레벨과 동일한 방법.
  11. 제8항에 있어서,
    상기 제1 특권 레벨은 비관리자 모드에 있고, 상기 제2 특권 레벨은 관리자 모드에 있는 방법.
  12. 제8항에 있어서,
    하나 이상의 세그먼트 레지스터를 올바른 값들로 원자적으로 로딩하는 단계를 더 포함하는 방법.
  13. 제8항에 있어서,
    하나 이상의 세그먼트 레지스터에 대해 유효성 검사를 원자적으로 수행하는 단계를 더 포함하는 방법.
  14. 제8항에 있어서,
    상기 레지스터들 중 하나 이상의 레지스터 내로 로딩될 하나 이상의 타겟 포인터에 대해 어드레스 일치에 대한 표준 검사를 원자적으로 수행하는 단계를 더 포함하는 방법.
  15. 시스템으로서,
    메모리; 및
    상기 메모리에 결합된 프로세서
    를 포함하고,
    상기 프로세서는
    메모리 내의 데이터 구조들에 대한 포인터들을 저장하기 위한 복수의 레지스터; 및
    제1 특권 레벨의 요청자로부터 제2 특권 레벨의 운영 체제 커널로 제어를 전달하기 위한 시스템 호출 명령어를 요청자로부터 수신하는 디코더; 및
    상기 레지스터들에 결합되고 적어도 일부 회로를 포함하는 실행 유닛 - 상기 실행 유닛은, 상기 시스템 호출 명령어에 응답하여, 하나의 원자 전이에서 상기 요청자와 상기 운영 체제 커널 사이에서 상기 레지스터들에 의해 지시되는 데이터 구조들을 스왑핑함 -
    을 포함하는 시스템.
  16. 제15항에 있어서,
    상기 디코더는 상기 운영 체제 커널로부터 시스템 리턴 명령어를 수신하고, 상기 실행 유닛은 상기 시스템 리턴 명령어에 응답하여 하나의 원자 전이에서 상기 운영 체제 커널로부터 상기 요청자에게 제어를 리스토어하는 시스템.
  17. 제15항에 있어서,
    상기 제1 특권 레벨은 상기 제2 특권 레벨과 동일한 시스템.
  18. 제15항에 있어서,
    상기 제1 특권 레벨은 비관리자 모드에 있고, 상기 제2 특권 레벨은 관리자 모드에 있는 시스템.
  19. 제15항에 있어서,
    상기 실행 유닛은 상기 명령어에 응답하여 하나 이상의 세그먼트 레지스터를 올바른 값들로 원자적으로 로딩하고, 하나 이상의 세그먼트 레지스터에 대해 유효성 검사를 원자적으로 수행하는 시스템.
  20. 제15항에 있어서,
    상기 실행 유닛은 상기 명령어에 응답하여 상기 레지스터들 중 하나 이상의 레지스터 내로 로딩될 하나 이상의 타겟 포인터에 대해 어드레스 일치에 대한 표준 검사를 원자적으로 수행하는 시스템.
  21. 장치로서,
    메모리 내의 데이터 구조들에 대한 포인터들을 저장하는 복수의 레지스터;
    제1 특권 레벨의 요청자로부터 제2 특권 레벨의 운영 체제 커널로 제어를 전달하기 위한 시스템 호출 명령어를 요청자로부터 수신하기 위한 수단; 및
    상기 시스템 호출 명령어에 응답하여, 하나의 원자 전이에서 상기 요청자와 상기 운영 체제 커널 사이에서 상기 레지스터들에 의해 지시되는 데이터 구조들을 스왑핑하기 위한 수단
    을 포함하는 장치.
  22. 제21항에 있어서,
    상기 시스템 호출 명령어를 수신하는 상기 수단은 상기 운영 체제 커널로부터 시스템 리턴 명령어를 수신하고, 상기 장치는 상기 시스템 리턴 명령어에 응답하여 하나의 원자 전이에서 상기 운영 체제 커널로부터 상기 요청자에게 제어를 리스토어하기 위한 수단을 더 포함하는 장치.
KR1020160071646A 2013-03-15 2016-06-09 시스템 호출을 위한 강건하고 높은 성능의 명령어들 KR101780303B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/837,878 2013-03-15
US13/837,878 US9207940B2 (en) 2013-03-15 2013-03-15 Robust and high performance instructions for system call

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020140030547A Division KR20140113557A (ko) 2013-03-15 2014-03-14 시스템 호출을 위한 강건하고 높은 성능의 명령어들

Publications (2)

Publication Number Publication Date
KR20160072085A KR20160072085A (ko) 2016-06-22
KR101780303B1 true KR101780303B1 (ko) 2017-09-21

Family

ID=50554831

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020140030547A KR20140113557A (ko) 2013-03-15 2014-03-14 시스템 호출을 위한 강건하고 높은 성능의 명령어들
KR1020160071646A KR101780303B1 (ko) 2013-03-15 2016-06-09 시스템 호출을 위한 강건하고 높은 성능의 명령어들

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020140030547A KR20140113557A (ko) 2013-03-15 2014-03-14 시스템 호출을 위한 강건하고 높은 성능의 명령어들

Country Status (7)

Country Link
US (2) US9207940B2 (ko)
JP (1) JP5985526B2 (ko)
KR (2) KR20140113557A (ko)
CN (1) CN104050415B (ko)
DE (1) DE102014003854A1 (ko)
GB (1) GB2514881B (ko)
IN (1) IN2014CH00978A (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6370098B2 (ja) * 2014-05-16 2018-08-08 杉中 順子 情報処理装置、情報処理監視方法、プログラム、及び記録媒体
US10528345B2 (en) * 2015-03-27 2020-01-07 Intel Corporation Instructions and logic to provide atomic range modification operations
US10761877B2 (en) * 2017-07-21 2020-09-01 Intel Corporation Apparatuses, methods, and systems for blockchain transaction acceleration
CN108958798B (zh) * 2018-06-15 2021-04-20 上海兆芯集成电路有限公司 指令翻译电路、处理器电路及其执行方法
US11366663B2 (en) * 2018-11-09 2022-06-21 Intel Corporation Systems and methods for performing 16-bit floating-point vector dot product instructions
US20200409711A1 (en) * 2019-06-29 2020-12-31 Intel Corporation Processor instruction support for mitigating controlled-channel and cache-based side-channel attacks
CN111679857B (zh) * 2020-06-15 2024-01-23 上海兆芯集成电路股份有限公司 高效能复杂指令译码的微处理器
US20240028336A1 (en) * 2022-07-21 2024-01-25 Vmware, Inc. Techniques for reducing cpu privilege boundary crossings

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62286155A (ja) * 1986-06-05 1987-12-12 Sharp Corp マルチcpu制御方式
JPH03163630A (ja) * 1989-11-21 1991-07-15 Mitsubishi Electric Corp プロセッサのスタック制御方法
US6901505B2 (en) * 2001-08-09 2005-05-31 Advanced Micro Devices, Inc. Instruction causing swap of base address from segment register with address from another register
US20030226014A1 (en) * 2002-05-31 2003-12-04 Schmidt Rodney W. Trusted client utilizing security kernel under secure execution mode
US8607235B2 (en) * 2004-12-30 2013-12-10 Intel Corporation Mechanism to schedule threads on OS-sequestered sequencers without operating system intervention
CN100470571C (zh) * 2006-08-23 2009-03-18 北京同方微电子有限公司 一种用于密码学运算的微处理器内核装置
CN200941211Y (zh) * 2006-08-23 2007-08-29 北京同方微电子有限公司 用于密码学运算的微处理器内核
JP2008102847A (ja) * 2006-10-20 2008-05-01 Nec Corp マルチスレッドプログラム処理方法及び装置
US8578483B2 (en) * 2008-07-31 2013-11-05 Carnegie Mellon University Systems and methods for preventing unauthorized modification of an operating system
US8312468B2 (en) * 2009-06-09 2012-11-13 Open Kernel Labs Methods and apparatus for fast context switching in a virtualized system
US9135215B1 (en) * 2009-09-21 2015-09-15 Tilera Corporation Route prediction in packet switched networks

Also Published As

Publication number Publication date
CN104050415A (zh) 2014-09-17
IN2014CH00978A (ko) 2015-05-08
KR20160072085A (ko) 2016-06-22
US20160092227A1 (en) 2016-03-31
KR20140113557A (ko) 2014-09-24
JP2014182799A (ja) 2014-09-29
US9207940B2 (en) 2015-12-08
US20140281437A1 (en) 2014-09-18
GB201404223D0 (en) 2014-04-23
DE102014003854A1 (de) 2014-09-18
GB2514881B (en) 2015-09-30
GB2514881A (en) 2014-12-10
JP5985526B2 (ja) 2016-09-06
CN104050415B (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
US11562063B2 (en) Encoded inline capabilities
KR101780303B1 (ko) 시스템 호출을 위한 강건하고 높은 성능의 명령어들
US10503505B2 (en) Read and write masks update instruction for vectorization of recursive computations over independent data
KR101703743B1 (ko) 가속된 레인 간 벡터 감축 명령어들
US11663006B2 (en) Hardware apparatuses and methods to switch shadow stack pointers
US9378182B2 (en) Vector move instruction controlled by read and write masks
US10387148B2 (en) Apparatus and method to reverse and permute bits in a mask register
JP2015534188A (ja) ユーザレベルのスレッディングのために即時のコンテキスト切り替えを可能とする新規の命令および高度に効率的なマイクロアーキテクチャ
CN113051192A (zh) 具有能够实现tdx keyid缩放的自包含范围的tdx岛
US20160170767A1 (en) Temporary transfer of a multithreaded ip core to single or reduced thread configuration during thread offload to co-processor
WO2019133091A1 (en) Apparatus and method for vectored machine check bank reporting
CN111512309A (zh) 用于抵抗交叉特权线性探查的系统、方法和装置
CN114691598A (zh) 用于处理器的独立于存储器的和可缩放状态组件初始化

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right