KR102496402B1 - 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어 - Google Patents

사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어 Download PDF

Info

Publication number
KR102496402B1
KR102496402B1 KR1020177023685A KR20177023685A KR102496402B1 KR 102496402 B1 KR102496402 B1 KR 102496402B1 KR 1020177023685 A KR1020177023685 A KR 1020177023685A KR 20177023685 A KR20177023685 A KR 20177023685A KR 102496402 B1 KR102496402 B1 KR 102496402B1
Authority
KR
South Korea
Prior art keywords
user
instruction
level
processor
fork
Prior art date
Application number
KR1020177023685A
Other languages
English (en)
Other versions
KR20170130383A (ko
Inventor
오렌 벤-키키
일란 파도
아치 디. 로비슨
제임스 에이치. 코니
Original Assignee
인텔 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인텔 코포레이션 filed Critical 인텔 코포레이션
Priority to KR1020237003774A priority Critical patent/KR20230020590A/ko
Publication of KR20170130383A publication Critical patent/KR20170130383A/ko
Application granted granted Critical
Publication of KR102496402B1 publication Critical patent/KR102496402B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3818Decoding for concurrent execution
    • G06F9/3822Parallel decoding, e.g. parallel decode units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0811Multiuser, multiprocessor or multiprocessing cache systems with multilevel cache hierarchies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0862Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with prefetch
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0893Caches characterised by their organisation or structure
    • G06F12/0895Caches characterised by their organisation or structure of parts of caches, e.g. directory or tag array
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/30087Synchronisation or serialisation instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/30076Arrangements for executing specific machine instructions to perform miscellaneous control operations, e.g. NOP
    • G06F9/3009Thread control instructions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3802Instruction prefetching
    • G06F9/3804Instruction prefetching for branches, e.g. hedging, branch folding
    • G06F9/3806Instruction prefetching for branches, e.g. hedging, branch folding using address prediction, e.g. return stack, branch history buffer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3836Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
    • G06F9/3851Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution from multiple instruction streams, e.g. multistreaming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/38Concurrent instruction execution, e.g. pipeline, look ahead
    • G06F9/3877Concurrent instruction execution, e.g. pipeline, look ahead using a slave processor, e.g. coprocessor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/10Providing a specific technical effect
    • G06F2212/1016Performance improvement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/28Using a specific disk cache architecture
    • G06F2212/283Plural cache memories
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/60Details of cache memory
    • G06F2212/6028Prefetching based on hints or prefetch instructions

Abstract

일 양태의 프로세서는 복수의 프로세서 요소, 및 제1 프로세서 요소를 포함한다. 제1 프로세서 요소는 소프트웨어 스레드의 사용자-레벨 포크 명령어를 수행할 수 있다. 제1 프로세서 요소는 사용자-레벨 포크 명령어를 디코딩하는 디코더를 포함할 수 있다. 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시하는 것이다. 제1 프로세서 요소는 또한 사용자-레벨 스레드 포크 모듈을 포함할 수 있다. 사용자-레벨 포크 모듈은, 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 복수의 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성할 수 있다. 다른 프로세서들, 방법들, 시스템들, 및 명령어들이 개시된다.

Description

사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어
본 명세서에 설명된 실시예들은 일반적으로 프로세서에 관한 것이다. 특히, 본 명세서에 설명된 실시예들은 일반적으로 프로세서에서의 병렬 처리에 관한 것이다.
하나 이상의 프로세서를 갖는 컴퓨터 시스템들 및 다른 전자 디바이스들에서 성능을 향상시키기 위해 사용된 하나의 기술은 병렬 처리이다. 병렬 처리는 일반적으로 둘 이상의 하드웨어 스레드, 코어, 중앙 처리 유닛, 프로세서 또는 다른 프로세서 요소를 동시에 사용하여 프로그램 또는 다수의 스레드를 수행하는 것을 말한다. 병렬 처리는 프로그램이 더 빨리 실행되게 하는 데 도움이 될 수 있는데 그 이유는 프로그램을 병렬로 실행하는 더 많은 그러한 프로세서 요소가 있기 때문이다.
본 발명은 본 발명의 실시예들을 예시하기 위해 사용되는 이하의 상세한 설명 및 첨부 도면들을 참조함으로써 최상으로 이해될 수 있다. 도면들 중:
도 1은 프로세서의 실시예의 블록도이다.
도 2는 사용자-레벨 포크 명령어의 실시예, 및 다수의 사용자-레벨 동기화 및 종료 명령어의 실시예를 사용하여 구현된 포크-조인 구문(fork-join construct)의 예를 도시하는 도면이다.
도 3은 스레드가 동기화 장벽에서 대기하게 하도록 동작하는 사용자-레벨 포크 명령어의 실시예를 갖는 포크-조인 코드의 블록도이다.
도 4는 스레드가 동기화 장벽에서 대기하게 하도록 동작하는 사용자-레벨 포크 명령어 및 별도의 사용자-레벨 동기화 및 조인 명령어의 실시예를 갖는 포크-조인 코드의 블록도이다.
도 5는 적합한 한 쌍의 동종 프로세서 요소들의 예시적인 실시예의 블록도이다.
도 6은 적합한 한 쌍의 이종 프로세서 요소들의 적합한 쌍의 예시적인 실시예의 블록도이다.
도 7은 사용자-레벨 포크 명령어의 실시예를 수행하기 위한 프로세서의 예시적인 실시예의 블록도이다.
도 8은 사용자-레벨 동기화 및 종료 명령어의 실시예를 수행하기 위한 프로세서의 예시적인 실시예의 블록도이다.
도 9a는 순차적(in-order) 파이프라인의 실시예 및 레지스터 리네이밍 비순차적(out-of-order) 발행/실행 파이프라인의 실시예를 나타내는 블록도이다.
도 9b는 실행 엔진에 결합된 프런트 엔드 유닛을 포함하고 둘 다가 메모리 유닛에 결합된 프로세서 코어의 실시예의 블록도이다.
도 10a는 단일 프로세서 코어와 함께, 온-다이 인터커넥트 네트워크와의 그것의 연결, 및 레벨 2(L2) 캐시의 그것의 로컬 서브세트를 갖는 실시예의 블록도이다.
도 10b는 도 10a의 프로세서 코어의 일부의 확대도의 실시예의 블록도이다.
도 11은 둘 이상의 코어를 가질 수 있고, 통합 메모리 제어기를 가질 수 있고, 통합 그래픽을 가질 수 있는 프로세서의 실시예의 블록도이다.
도 12은 컴퓨터 아키텍처의 제1 실시예의 블록도이다.
도 13은 컴퓨터 아키텍처의 제2 실시예의 블록도이다.
도 14는 컴퓨터 아키텍처의 제3 실시예의 블록도이다.
도 15는 컴퓨터 아키텍처의 제4 실시예의 블록도이다.
도 16은 본 발명의 실시예들에 따른, 소스 명령어 세트에서의 바이너리 명령어들을 타깃 명령어 세트에서의 바이너리 명령어들로 변환하기 위한 소프트웨어 명령어 변환기의 사용에 대한 블록도이다.
본 명세서에서는 사용자-레벨 포크 명령어들(예를 들어, 사용자-레벨 포크, 사용자-레벨 포크 및 동기화된 조인 명령어), 사용자-레벨 동기화 및 종료 명령어들, 사용자-레벨 동기화 및 종료 명령어들, 이 명령어들을 실행 또는 수행하는 프로세서들, 이 명령어들을 실행 또는 수행할 때 프로세서들에 의해 수행되는 방법들, 및 이 명령어들을 실행 또는 수행하기 위한 하나 이상의 프로세서를 통합하는 시스템이 개시된다. 이하의 설명에서는, 수많은 구체적인 상세 사항들이 제시된다(예를 들어, 특정 명령어 연산들, 프로세서 구성들, 마이크로아키텍처의 상세 사항들, 동작들의 시퀀스들 등). 그러나 실시예들은 이들 구체적인 상세 사항들 없이도 실시될 수 있다. 다른 경우들에서, 본 설명의 이해를 불명료하게 하는 것을 회피하기 위해서 잘 알려진 회로들, 구조들 및 기술들은 상세하게 도시되지 않았다.
도 1은 프로세서(100)의 실시예의 블록도이다. 일부 실시예들에서, 프로세서는 범용 프로세서(예를 들어, 데스크톱, 랩톱, 스마트폰, 또는 다른 컴퓨터들에서 사용되는 유형의 범용 마이크로프로세서 또는 중앙 처리 유닛(CPU))일 수 있다. 대안적으로, 프로세서는 특수 목적 프로세서일 수 있다. 적합한 특수 목적 프로세서들의 예로는 그래픽 프로세서들, 코프로세서들, 네트워크 프로세서들, 통신 프로세서들, 암호화 프로세서들, 임베디드 프로세서들, 디지털 신호 프로세서들(DSP들) 및 제어기들(예를 들어, 마이크로컨트롤러들)을 포함하지만, 이에 한정되지는 않는다. 프로세서는 다양한 CISC(complex instruction set computing) 아키텍처들, RISC(reduced instruction set computing) 아키텍처들, VLIW(very long instruction word) 아키텍처들, 하이브리드 아키텍처들, 다른 유형의 아키텍처들 중 임의의 것을 갖거나, 상이한 아키텍처들의 조합을 가질 수 있다.
프로세서는 제1 프로세서 요소(102) 및 복수의 추가 프로세서 요소(114)를 갖는다. 제1 프로세서 요소 및 추가 프로세서 요소들은 하나 이상의 버스 또는 다른 인터커넥트(112)(예를 들어, 하나 이상의 링, 토러스, 메시 등)에 의해 함께 연결되거나 달리 결합될 수 있다. 도시된 바와 같이, 복수의 추가 프로세서 요소는 제1 추가 프로세서 요소(114-1) 내지 제N 추가 프로세서 요소(114-N)를 포함할 수 있다. 추가 프로세서 요소의 수는 특정 구현들에 대해 적절한 임의의 원하는 수를 나타낼 수 있다. 예로서, 추가 프로세서 요소의 수는 2 내지 수백 정도, 또는 일부 경우에는 10 내지 약 200, 또는 일부 경우에는 20 내지 약 200의 범위에 있을 수 있고, 또는 일부 경우에는 10, 20, 또는 30보다 많을 수도 있지만, 본 발명의 범위는 그렇게 제한되지 않는다. 일례로서, 약 40 내지 약 200일 수도 있지만, 이는 필수적인 것은 아니다. 일부 실시예들에서, 제1 프로세서 요소(102) 및 추가 프로세서 요소들(114) 각각은 모두 단일 집적 회로 다이 또는 다른 반도체 기판상에 배치될 수 있다. 대안적으로, 추가 프로세서 요소들(106)의 일부 또는 전부는 선택적으로 제1 프로세서 요소와 상이한 다이 또는 다른 반도체 기판상에 배치될 수 있으며, 선택적으로 제1 프로세서 요소와 동일한 집적 회로 패키지에 포함될 수 있다. 일부 실시예들에서, 추가 프로세서 요소들(114)은 일반적으로 드라이버, 미들웨어, 또는 기타 등등을 통해서만 액세스될 수 있는 그래픽 카드, GPGPU, 또는 다른 그러한 개별 디바이스들을 나타내지 않을 수 있다.
제1 프로세서 요소(102) 및 추가 프로세서 요소들(114) 각각에 적합한 프로세서 요소들의 예로는 코어, 하드웨어 스레드, 스레드 유닛, 스레드 슬롯, 컨텍스트 또는 아키텍처 상태를 저장하도록 동작하는 로직 및 프로그램 카운터(이 기술 분야에서 명령어 포인터라고도 함), 상태를 저장하고 코드와 독립적으로 관련되도록 동작하는 로직, 및 다른 로직 프로세서를 포함할 수 있지만, 이들에 제한되는 것은 아니다. 코어라는 용어는 독립적인 아키텍처 상태(예를 들어, 실행 상태)를 유지할 수 있고, 아키텍처 상태가 전용 실행 및 특정 다른 리소스들과 관련되는 집적 회로 상에 위치하는 로직을 언급하기 위해 종종 사용된다. 대조적으로, 하드웨어 스레드라는 용어는 독립적인 아키텍처 상태를 유지할 수 있고, 아키텍처 상태가 실행 또는 특정 다른 리소스들에 대한 액세스를 공유하는 집적 회로에 위치하는 로직을 언급하기 위해 종종 사용된다. 일부 실행 또는 특정 리소스들이 둘 이상의 아키텍처 상태에 대해 공유되고, 다른 실행 또는 특정 리소스들이 아키텍처 상태에 전용되는 경우, 코어라는 용어와 하드웨어 스레드라는 용어의 사용 간의 경계가 덜 명확할 수 있다. 그럼에도 불구하고, 코어, 하드웨어 스레드, 및 다른 프로세서 요소들은 종종 소프트웨어에 의해 개개의 로직 프로세서 또는 프로세서 요소로 간주된다. 일반적으로, 스레드, 프로세서, 또는 작업 부하는 코어, 하드웨어 스레드, 또는 다른 프로세서 요소 각각에서 스케줄링되고, 그와 독립적으로 관련될 수 있다.
제1 프로세서 요소(102)는 명령어 세트(104)를 갖는다. 복수의 추가 프로세서 요소(114) 각각은 또한 대응하는 명령어 세트(116)를 갖는다. 제1 프로세서 요소의 명령어 세트(104)는 추가 프로세서 요소들 각각의 명령어 세트들(116)과 동일할 수 있거나, 그와 상이할 수 있다(예를 들어, 일부 중첩 명령어들 및 일부 비중첩 명령어들을 가질 수 있다). 명령어 세트들은 각각의 프로세서 요소들의 명령어 세트 아키텍처(ISA)들의 일부이고 프로세서 요소들이 수행하도록 동작하는 네이티브 명령어들을 포함한다. 명령어 세트들의 명령어들은 매크로 명령어들, 머신 레벨 명령어들 또는 어셈블리 언어 명령어들을 나타낼 수 있다.
제1 프로세서 요소의 명령어 세트(104)는 사용자-레벨 포크 명령어(106)를 포함한다. 일부 실시예들에서, 사용자-레벨 포크 명령어(106)는 동기화 및 조인 기능을 생략할 수 있다(예를 들어, 동기화 및 조인 기능은 별도의 사용자-레벨 동기화 및 조인 명령어 또는 그러한 기능을 구현하기 위한 다수의 다른 명령어에 의해 제공될 수 있다). 다른 실시예들에서, 명령어(106)는 동기화 및 조인 기능을 통합하는 사용자-레벨 포크 및 동기화된 조인 명령어일 수 있다. 추가 프로세서 요소들 각각의 명령어 세트들(116)은 사용자-레벨 동기화 및 종료 명령어(118)을 포함한다. 사용자-레벨 포크 명령어 및 사용자-레벨 동기화 및 종료 명령어들은 비 특권 레벨 또는 사용자 실행 레벨에서 실행될 수 있는 사용자-레벨 명령어들이다. 명령어 세트들 각각은 또한 비 특권 레벨 또는 사용자 실행 레벨에서 실행되지 않을 수 있는, 하나 이상의 비-사용자-레벨 또는 특권 명령어들(도시되지 않음)을 선택적으로 포함할 수 있다. 오히려, 비-사용자-레벨 또는 특권 명령어들은 운영 체제, 하이퍼바이저, 가상 머신 관리자, 또는 다른 특권 또는 관리 엔티티를 위해 예비될 수 있는, 비-사용자-레벨에서 또는 적어도 부분적으로 특권 실행 레벨에서(예를 들어, 링 0에서)만 실행될 수 있다.
일부 실시예들에서, 사용자-레벨 포크 명령어(106), 및 사용자-레벨 동기화 및 종료 명령어들(118)은 사용자가 사용자-레벨 애플리케이션들 또는 소프트웨어에서 포크 및 조인 구문(fork-and-join construct)들을 구현할 수 있게 한다. 포크 및 조인 구문들에서, 소프트웨어의 주어진 부분(예를 들어, 주어진 소프트웨어 스레드)의 실행은 소프트웨어의 다수의 병렬 실행(예를 들어, 다수의 데이터 병렬 작업 부하 또는 병렬 소프트웨어 스레드)으로 분기하거나 포크(fork)할 수 있으며, 그 후 이들 다수의 병렬 실행은 종료 또는 양보 (yield)하고 병합 또는 조인할 수 있으며, 소프트웨어의 주어진 부분(예를 들어, 주어진 소프트웨어 스레드)의 실행이 재개될 수 있다. 일부 실시예들에서, 사용자-레벨 포크 명령어(106)는 복수의 추가 프로세서 요소(114) 각각에서 병렬로 수행되어야 하는 소프트웨어의 부분의 시작을 특정(specify), 획정(demarcate), 또는 달리 지시하도록 동작할 수 있으며, 사용자-레벨 동기화 및 종료 명령어들(118)은 소프트웨어의 부분의 끝을 특정, 획정, 또는 달리 지시하도록 동작할 수 있다.
제1 프로세서 요소는 제1 디코드 유닛(108)을 가질 수 있다. 사용자-레벨 포크 명령어는 제1 디코드 유닛(108)에 제공될 수 있다. 제1 디코드 유닛은 사용자-레벨 포크 명령어를 디코딩하도록 동작할 수 있다. 일부 실시예들에서, 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 명시적으로 특정하거나 달리 지시할 수 있다. 일부 실시예들에서, 명령어는 추가 프로세서 요소들 각각이 시작해야 하는 추가 프로세서 요소들 각각에서 병렬로 실행될 코드의 부분의 처음 또는 시작 명령어를 나타내는 단일 명령어 어드레스를 특정하거나 달리 지시할 수 있다. 다른 실시예들에서, 명령어는 복수의 잠재적으로/선택적으로 상이한 명령어 어드레스를 특정할 수 있고(예를 들어, 벡터 가치의 명령어 어드레스들을 각각 갖는 하나 또는 복수의 벡터 레지스터를 특정할 수 있고) 그 각각은 추가 프로세서 요소들 중 상이한 것에 의해 사용될 수 있다(예를 들어, 각각의 프로세서 요소는 데이터 병렬 작업 부하의 상이한 부분들에서 병렬로 작업하기 위해 상이한 명령어 어드레스들에서 시작할 수 있다). 제1 프로세서 요소는 또한 디코드 유닛과 결합되는 사용자-레벨 스레드 포크 모듈(110)을 가질 수 있다. 사용자-레벨 스레드 포크 모듈은 사용자-레벨 포크 명령어를 수행하거나 구현하기 위한 하나 이상의 실행 유닛 또는 다른 실행 로직을 나타낼 수 있다. 일부 실시예들에서, 사용자-레벨 스레드 포크 모듈(110)은 사용자-레벨 포크 명령어(106)에 응답하여(예를 들어, 사용자-레벨 포크 명령어가 디코딩되는 것 및/또는 사용자-레벨 포크 명령어로부터 하나 이상의 제어 신호가 디코딩되거나 달리 생성되는 것에 응답하여) 프로그램 제어 흐름에서 분기 또는 포크를 야기할 수 있다. 일부 실시예들에서, 사용자-레벨 스레드 포크 모듈(110)은, 사용자-레벨 포크 명령어에 응답하여, 복수의 추가 프로세서 요소(114) 각각이 명령어 세트 또는 소프트웨어의 일부를 병렬로 수행하도록 구성하거나 달리 야기하도록 동작할 수 있다. 일부 실시예들에서, 추가 프로세서 요소들 각각은 사용자-레벨 포크 명령어(106)에 의해 지시된 적어도 하나의 명령어 어드레스 중 하나에서 실행을 시작하도록 구성되거나 달리 야기될 수 있다. 전술한 바와 같이, 일부 실시예들에서, 명령어는 단일 어드레스를 지시할 수 있는 반면, 다른 실시예들에서는 복수의 잠재적으로/선택적으로 상이한 어드레스(예를 들어, 하나 이상의 벡터 가치의 어드레스)를 지시할 수 있다. 일부 실시예들에서, 사용자-레벨 포크 명령어는 정적인 또는 고정된 수의 추가 프로세서 요소들을 암시적으로 지시할 수 있다(예를 들어, 이용 가능한 추가 프로세서 요소들 모두가 사용될 수 있다). 대안적으로, 사용자-레벨 포크 명령어는 유연한 수의 추가 프로세서 요소들을 명시적으로 특정하거나 달리 지시할 수 있고, 그 수는 동적으로 할당될 수 있다(예를 들어, 추가 프로세서 요소들의 총수 중 하나 이상이 병렬 소프트웨어를 실행하는 데 사용될 수 있다).
복수의 추가 프로세서 요소(114) 각각은 사용자-레벨 동기화 및 종료 명령어(118)을 수행하도록 동작할 수 있다. 일부 실시예들에서, 추가 프로세서 요소들 각각은 사용자-레벨 동기화 및 종료 명령어를 디코딩하는 대응하는 디코드 유닛(120)을 가질 수 있다. 일부 실시예들에서, 추가 프로세서 요소들(114) 각각은 대응하는 디코드 유닛(120)과 결합되는 대응하는 사용자-레벨 동기화된 스레드 종료 모듈(122)을 가질 수 있다. 각각의 사용자-레벨 동기화된 스레드 종료 모듈(122)은 사용자-레벨 동기화 및 종료 명령어(118)를 수행하거나 구현하는 하나 이상의 실행 유닛 또는 다른 실행 로직을 나타낼 수 있다. 일부 실시예들에서, 각각의 사용자-레벨 동기화된 스레드 종료 모듈(122)은 사용자-레벨 동기화 및 종료 명령어(118)에 응답하여(예를 들어, 명령어가 디코딩되는 것 및/또는 명령어로부터 하나 이상의 제어 신호가 디코딩되거나 달리 생성되는 것에 응답하여), (그것이 포함되어 있는) 그의 대응하는 프로세서 요소가 프로그램 제어 흐름에서 동기화된 조인 및 병합에 대비하여 대응하는 스레드 또는 실행의 동기화된 종료를 수행하도록 구성하거나 달리 야기할 수 있다. 일부 실시예들에서, 각각의 프로세서 요소(114)는, 사용자-레벨 동기화 및 종료 명령어(118)을 수행할 때, 동기화 장벽과 동기화된 제어 흐름이 제1 프로세서 요소에서 실행되는 소프트웨어 스레드 또는 소프트웨어의 다른 부분으로 다시 넘어가는 것 둘 다를 구현할 수 있다. 일부 실시예들에서, 각각의 프로세서 요소(114)는, 사용자-레벨 동기화 및 종료 명령어를 수행할 때, 추가 명령어들을 수행하는 것을 중지할 수 있고, 다른 추가 프로세서 요소들(114) 각각이 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행할 때까지(예를 들어, 동기화 장벽에 도달할 때까지) 대기한다(예를 들어, 동기화 장벽에서). 그 후, 일부 실시예들에서, 모든 추가 프로세서 요소가 그의 대응하는 사용자-레벨 동기화 및 종료 명령어들을 수행했을 때, 프로그램 제어 흐름의 조인 또는 병합이 수행될 수 있고, 제어 흐름은 제1 프로세서 요소(102)상에서 실행되는 소프트웨어의 부분의 적절한 명령어로 다시 넘어갈 수 있다. 일 양태에서, 추가 프로세서 요소들에서의 모든 병렬 실행은 종료될 수 있고 실행은 제1 프로세서 요소에서만 계속될 수 있다.
유리하게는, 사용자-레벨 포크 및 사용자-레벨 동기화 및 종료 명령어들은 사용자, 프로그래머, 또는 컴파일러가 사용자-레벨 애플리케이션들에서 포크 및 조인 구문들 또는 시맨틱들을 명시적으로 프로그램하거나 구현하게 할 수 있는 사용자-레벨 아키텍처 메커니즘을 나타낼 수 있다. 포크 및 조인 구문들은 운영 체제(또는 다른 관리 시스템 소프트웨어) 관리 스레드들에 대한 시스템 호출을 수반하는 소프트웨어 런타임에 의해 정의될 필요가 없고, 이는 일반적으로 높은 오버헤드를 갖는 경향이 있고(예를 들어, 메시징 등으로 인해), 결과적으로 일반적으로 실제로는 병렬로 실행되는 비교적 큰 작업 부하들 또는 코드의 부분들(예를 들어, 크게 나눈(coarse-grained) 병렬 처리)로 제한되는 경향이 있다. 오히려, 이들 사용자-레벨 포크 및 사용자-레벨 동기화 및 종료 명령어들의 사용을 통해, 포크 및 조인을 구현하기 위해 운영 체제 또는 다른 관리 시스템 소프트웨어의 개입의 필요가 없고/없거나 그것에 양보할 필요가 없을 수도 있다.
또한, 일부 실시예들에서, 추가 프로세서 요소들에서 실행되는 병렬 실행들(예를 들어, 병렬 소프트웨어 스레드들)은 운영 체제 또는 다른 관리 시스템 소프트웨어에 의해 직접적으로 관리되지 않을 수 있다. 일 양태에서, 추가 프로세서 요소들에서 실행되는 병렬 실행들(예를 들어, 병렬 소프트웨어 스레드들)은 선택적으로 운영 체제 또는 다른 관리 시스템 소프트웨어에 보이지 않거나, 적어도 실질적으로 보이지 않을 수 있다(예를 들어, OS는 이들 병렬 실행들이 추가 프로세서 요소들에서 실행되는 것을 알지 못할 수 있다). 대조적으로, 일부 실시예들에서, 사용자-레벨 포크 명령어(106)을 가진 제1 프로세서 요소에서 실행되는 소프트웨어의 스레드 또는 부분은 관리 시스템 소프트웨어(예를 들어, 운영 체제의 스레드 스케줄러 모듈)에 의해 제1 프로세서 요소(102)에서 스케줄링되었을 수 있고, 관리 시스템 소프트웨어에 보이거나, 그에 의해 관리할 수 있다. 결과적으로, 사용자-레벨 포크 및 사용자-레벨 동기화 및 종료 명령어들은 그러한 병렬 실행에 대해 일반적으로 예상되는 오버헤드를 줄이는 데 도움이 될 수 있다. 일 양태에서, 사용자-레벨 포크 및 사용자-레벨 동기화 및 종료 명령어들은 선택적으로/잠재적으로, 대신 스레드들이 운영 체제(또는 다른 관리 시스템 소프트웨어)에 대한 호출에 의해 소프트웨어 런타임을 통해 스케줄링되고 관리되는 경우에 일반적으로 실제적인 것보다 더 작은 작업 부하들 또는 코드의 부분들을 병렬로 효율적으로 실행하는 데 사용될 수 있다(예를 들어, 더 잘게 나눈(finer-grained) 병렬 처리).
프로세서(100)의 상세한 예시적인 실시예가 도시되고 설명되었지만, 다양한 대안적인 실시예들이 고려된다. 일부 실시예들에서, 프로세서는 사용자-레벨 포크 명령어를 구현할 수 있지만, 선택적으로 사용자-레벨 동기화 및 종료 명령어를 구현하지 않는다. 예를 들어, 프로세서는 선택적으로 사용자-레벨 포크 명령어(106)을 포함하는 명령어 세트를 갖는 제1 프로세서 요소(102)를 가질 수 있지만, 추가 프로세서 요소들(114)은 설명된 사용자-레벨 동기화 및 종료 명령어들(118)을 생략하는 명령어 세트들을 가질 수 있다. 다른 실시예들에서, 프로세서는 사용자-레벨 동기화 및 종료 명령어를 구현할 수 있지만, 선택적으로 사용자-레벨 포크 명령어를 구현하지 않는다. 예를 들어, 프로세서는 선택적으로 설명된 사용자-레벨 동기화 및 종료 명령어들(118)을 포함하는 명령어 세트를 갖는 추가 프로세서 요소들(114)을 가질 수 있지만, 제1 프로세서 요소(102)는 선택적으로 설명된 사용자-레벨 포크 명령어(106)를 생략하는 명령어 세트를 가질 수 있다. 일부 실시예들에서, 사용자-레벨 동기화 및 종료 명령어 대신에, 사용자-레벨 종료 명령어는 선택적으로 동기화 기능 또는 능력 없이 구현될 수 있다. 예를 들어, (예를 들어, 상이한 opcode를 갖는) 별도의 명령어가 동기화 기능을 구현하는 데 사용될 수 있으며, 동기화 능력을 생략하는 사용자-레벨 종료 명령어와 조합하여 사용될 수 있다. 본 기술분야에 숙련되고 본 개시의 이익을 갖는 자들에게는 다른 변형들이 명백할 것이다.
설명을 모호하게 하는 것을 피하기 위해, 단순화된 프로세서(100)가 도시되고 설명되었다. 그러나, 프로세서는 선택적으로 다른 컴포넌트들을 포함할 수 있다. 예를 들어, 다양한 상이한 실시예들은 도 9 내지 도 11 중 임의의 것에 대해 도시되고 설명된 컴포넌트들의 다양한 상이한 조합들 및 구성들을 포함할 수 있다. 프로세서의 모든 컴포넌트들은 이들이 동작할 수 있도록 함께 연결되거나 결합될 수 있다.
도 2는 사용자-레벨 포크 명령어(206)의 실시예, 및 다수의 사용자-레벨 동기화 및 종료 명령어(218)의 실시예를 사용하여 구현된 포크-조인 구문(230)의 예를 도시하는 도면이다. 포크-조인 구문은 제1 프로세서 요소(예를 들어, 제1 프로세서 요소(102))상에서 수행될 수 있는 마스터 소프트웨어 스레드(232)를 포함할 수 있다. 이 마스터 소프트웨어 스레드는 사용자-레벨 포크 명령어(206)을 포함한다. 일부 실시예들에서, 사용자-레벨 포크 명령어는 적어도 하나의 어드레스(예를 들어, 복수의 추가 프로세서 요소 각각에서 병렬로 수행되어야 하는, 명령어 세트의 시작 명령어의 어드레스)를 명시적으로 특정하거나 달리 지시할 수 있다. 예를 들어, 다양한 실시예들에서, 사용자-레벨 포크 명령어는 적어도 하나의 어드레스를 명시적으로 특정하거나 달리 지시하는(예를 들어 적어도 하나의 어드레스에 대한 적어도 하나의 오프셋을 제공하거나 달리 지시하는) 적어도 하나의 값을 갖는 레지스터(예를 들어, 아키텍처 범용 레지스터)를 명시적으로 특정하는 필드를 가질 수도 있고, 적어도 하나의 어드레스를 명시적으로 특정하거나 달리 지시하는 적어도 하나의 값을 갖는 메모리 위치를 명시적으로 특정하는 필드를 가질 수도 있고, 적어도 하나의 어드레스를 명시적으로 특정하거나 달리 지시하는 적어도 하나의 값을 갖는 레지스터를 암시적으로 지시할 수도 있고, 적어도 하나의 어드레스를 명시적으로 특정하거나 달리 지시하는 적어도 하나의 값을 제공하는 즉치를 가질 수도 있다.
사용자-레벨 포크 명령어(206)는, (예를 들어, 제1 프로세서 요소에 의해) 수행될 때, 제1 프로세서 요소로 하여금 복수의 추가 프로세서 요소(예를 들어, 추가 프로세서 요소들(114)) 중 상이한 것에서 각각 병렬로 다수의 도우미 소프트웨어 스레드(236)의 실행을 개시할 수 있는 프로그램 제어 흐름에서의 분기 또는 포크(234)를 생성, 스케줄링, 달리 구성하거나, 달리 야기하게 할 수 있다. 다수의 도우미 소프트웨어 스레드는 제1 도우미 소프트웨어 스레드(236-1) 내지 제N 도우미 소프트웨어 스레드(236-N)를 포함할 수 있으며, 여기서 도우미 소프트웨어 스레드의 수는 특정 구현에 적절한 임의의 원하는 수일 수 있다(예를 들어, 때때로 2 내지 약 100). 예로서, 도우미 소프트웨어 스레드들은, 예를 들어, 그래픽, 오디오, 신호 처리, 과학 계산, 트랜잭션, 데이터베이스 처리, 또는 다양한 상이한 프로시저 또는 작업 부하와 같은 다수의 상이한 유형의 프로시저 또는 작업 부하를 나타낼 수 있다. 일부 실시예들에서, 도우미 소프트웨어 스레드들 각각은 사용자-레벨 포크 명령어에 의해 지시되는 단일 명령어 어드레스에서 동일한 명령어(235)의 상이한 대응하는 인스턴스를 실행함으로써 시작될 수 있다. 예를 들어, 사용자-레벨 포크 명령어는 동일한 명령어 어드레스가, 대응하는 도우미 소프트웨어 스레드들(236)을 수행하기 위해 사용되고 있는 다수의 추가 프로세서 요소 중 상이한 것에 각각 대응할 수 있는 복수의 프로그램 카운터(예를 들어, 레지스터) 각각에 저장되게 할 수 있다. 프로그램 카운터들은 또한 이 기술분야에서 명령어 포인터들로서 알려져 있다. 대안적으로, 상이한 명령어 어드레스들이 명령어에 의해 지시될 수 있고, 상이한 명령어 어드레스들이 프로그램 카운터들에 저장될 수 있고, 상이한 대응 명령어들이 상이한 프로세서 요소들에 의해 초기에 실행될 수 있다. 각각의 도우미 소프트웨어 스레드가 그의 대응하는 시작 명령어(235)을 수행한 후에, 이들은 선택적으로/잠재적으로 상이한 명령어 시퀀스들을 실행할 수 있다(예를 들어, 상이한 분기를 취할 수도 있고, 상이하게 점프하거나 이동할 수도 있고, 상이한 프로시저 호출을 할 수도 있고, 등등). 유리하게는, 이들 병렬 도우미 소프트웨어 스레드는 데이터 처리량 및/또는 성능을 증가시키는 데 도움을 줄 수 있다. 예를 들어, 병렬 도우미 소프트웨어 스레드들 각각은, 예를 들어 그래픽 작업 부하, 과학 계산 작업 부하 등과 같은 병렬화 가능 또는 스레드 가능 작업 부하의 상이한 부분에서 동작할 수 있다. 전체 작업 부하에 관련된 모든 작업을 수행할 필요가 있는 마스터 스레드보다는, 병렬 도우미 소프트웨어 스레드들이 적어도 부분적으로 병렬로 전체 작업 부하의 상이한 부분들을 수행할 수 있다.
어느 시점에서, 병렬로 도우미 소프트웨어 스레드들(236) 중 하나를 수행하고 있는 각각의 프로세서 요소는 사용자-레벨 동기화 및 종료 명령어(218)의 대응하는 인스턴스를 수행할 수 있다. 예를 들어, 제1 도우미 소프트웨어 스레드는 제1 사용자-레벨 동기화 및 종료 명령어(218-1)을 포함할 수 있고, 제N 도우미 소프트웨어 스레드는 제N 사용자-레벨 동기화 및 종료 명령어(218-N)을 포함할 수 있다. 이들 사용자-레벨 동기화 및 종료 명령어는 상이한 도우미 소프트웨어 스레드들이 실행하는 (예를 들어, 분기, 점프 등) 상이한 방식들에 부분적으로 의존하여 상이한 시간들에 수행될 수 있다. 일부 실시예들에서, 사용자-레벨 동기화 및 종료 명령어들(218)은 동기화 장벽(238)을 구성하거나 달리 야기하도록 동작할 수 있다. 일부 실시예들에서, 프로세서 요소들 각각은, 대응하는 사용자-레벨 동기화 및 종료 명령어(218)를 수행하는 것에 응답하여, 대응하는 도우미 소프트웨어 스레드(236)의 추가 명령어들의 수행을 중지할 수 있고, 도우미 소프트웨어 스레드들(236)을 수행하는 데 사용되고 있는 다른 프로세서 요소들 모두가 그들의 대응하는 사용자-레벨 동기화 및 종료 명령어들(218)을 수행 완료할 때까지 동기화 장벽(238)에서 대기할 수 있다(예를 들어, 대응하는 프로그램 카운터가 진행하지 않을 수 있다). 다른 프로세서 요소들 모두가 그들의 대응하는 사용자-레벨 동기화 및 종료 명령어들(218)을 수행 완료할 때, 마지막으로 수행된 사용자-레벨 동기화 및 종료 명령어(218)는 병렬 도우미 소프트웨어 스레드들(236)의 실행을 야기할 수 있는 제어 흐름에서의 동기화된 병합 또는 조인(240) 및 마스터 스레드(232)의 적절한 조인 어드레스에서의 명령어(242)의 계속 실행을 야기할 수 있다.
도 3은 마스터 스레드(332)가 실행을 중지하고 암시적 동기화 장벽(338)에서 대기하도록 구성하거나 달리 야기하도록 동작하는 사용자-레벨 포크 및 동기화된 조인 명령어(306)의 실시예를 포함하는 포크-조인 코드(330)의 블록도이다. 마스터 스레드(332)는 제1 프로세서 요소(예를 들어, 프로세서 요소(102))상에서 실행될 수 있다. 마스터 스레드는 사용자-레벨 포크 및 동기화된 조인 명령어(306)를 포함한다. 사용자-레벨 포크 및 동기화된 조인 명령어는 수행될 때, 복수의 병렬 도우미 소프트웨어 스레드(336)가 각각 복수의 추가 프로세서 요소(예를 들어, 추가 프로세서 요소들(114)) 중 상이한 것에서 실행되도록 개시될 수 있는 제어 흐름에서의 분기 또는 포크(334)를 구성하거나 달리 야기할 수 있다. 이 실시예에서, 사용자-레벨 포크 및 동기화된 조인 명령어는 수행될 때, 또한 마스터 소프트웨어 스레드(332)를 수행하는 프로세서 요소가 마스터 소프트웨어 스레드(332)의 추가 명령어들의 수행을 중지하고, 더 이상의 실행이 암시적 동기화 장벽(338)에서 대기하고, 그 후 사용자-레벨 포크 및 동기화된 조인 명령어에 의해 결정된 명령어 어드레스(예를 들어, 원래의 프로그램 순서에서 사용자-레벨 포크 및 동기화된 조인 명령어(306) 바로 다음에 오는 명령어(350))에서 조인이 발생하도록 구성하거나 달리 야기할 수 있다.
일부 실시예들에서, 사용자-레벨 포크 및 동기화된 조인 명령어는 단일 명령어 어드레스를 나타낼 수 있고, 병렬 도우미 소프트웨어 스레드들(336) 각각은 사용자-레벨 포크 명령어(306)에 의해 특정되거나 달리 지시되는 단일 명령어 어드레스에 위치하는, 동일한 명령어(335)의 대응하는 인스턴스에서 실행을 시작할 수 있다. 그 후, 병렬 도우미 소프트웨어 스레드들 각각은 (예를 들어, 상이한 분기, 점핑, 프로시저 호출 등에 기인하여) 잠재적으로 상이한 추가 명령어 세트를 수행할 수 있다. 대안적으로, 사용자-레벨 포크 명령어는 다수의 잠재적으로/선택적으로 상이한 명령어 어드레스들을 지시할 수 있고, 병렬 도우미 소프트웨어 스레드들 각각은 선택적으로/잠재적으로 상이한 명령어 어드레스에서 실행을 시작할 수 있다. 결과적으로, 병렬 도우미 소프트웨어 스레드들 각각은 전형적으로 상이한 시간에, 사용자-레벨 동기화 및 종료 명령어(318)의 대응하는 인스턴스를 수행할 수 있다. 프로세서 요소들 각각은, 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행할 때, 대응하는 도우미 소프트웨어 스레드의 추가 명령어들의 수행을 중지할 수 있고, 더 이상의 실행은 마스터 소프트웨어 스레드(332)에 의해 관찰되고 있는 동일한 암시적 동기화 장벽(338)에서 대기할 수 있다. 다른 병렬 도우미 소프트웨어 스레드들 각각 및 모두가 그의 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료했을 때, 그의 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행하는 마지막 프로세서 요소는 적절한 조인 어드레스(예를 들어, 사용자-레벨 포크 및 동기화된 조인 명령어에 의해 결정된 조인 명령어 어드레스)로 다시 제어 흐름에서의 병합 또는 조인(340)을 구성하거나 달리 야기할 수 있다. 병렬 도우미 소프트웨어 스레드들 각각의 실행은 종료될 수 있다. 마스터 소프트웨어 스레드(332*)의 계속된 실행은 마스터 스레드에서의 사용자-레벨 포크 및 동기화된 조인 명령어 바로 다음의 명령어(350)로 계속될 수 있다. 이 실시예에서, 암시적이라는 용어가 동기화 장벽에 사용되는데 그 이유는 동기화 장벽은 명시적 동기화 장벽을 생성하기 위해 사용되는 별도의 명령어 대신에 사용자-레벨 포크 및 동기화된 조인 명령어에 대해 암시적이거나 내재적이기 때문이다.
도 4는 마스터 스레드(432)가 실행을 중지하고 명시적 동기화 장벽(438)에서 대기하도록 구성하거나 달리 야기하도록 동작하는 사용자-레벨 포크 명령어(406) 및 별도의 사용자-레벨 동기화 및 조인 명령어(452)의 실시예를 포함하는 포크-조인 코드(430)의 블록도이다.
마스터 스레드(432)는 제1 프로세서 요소(예를 들어, 프로세서 요소(102))상에서 실행될 수 있다. 마스터 스레드는 사용자-레벨 포크 명령어(406)을 포함한다. 사용자-레벨 포크 명령어는 수행될 때, 복수의 병렬 도우미 소프트웨어 스레드(436)가 각각 복수의 추가 프로세서 요소(예를 들어, 추가 프로세서 요소들(114)) 중 상이한 것에서 실행되도록 개시될 수 있는 제어 흐름에서의 분기 또는 포크(434)를 구성하거나 달리 야기할 수 있다. 이 실시예에서, 사용자-레벨 포크 명령어(406)은 수행될 때, 마스터 소프트웨어 스레드(432)를 수행하고 있는 프로세서 요소로 하여금 추가 명령어의 수행을 중지하거나 동기화 장벽에서 대기하도록 야기하지 않는다. 오히려, 프로세서 요소는 마스터 스레드에서의 원래의 프로그램 순서에서 사용자-레벨 포크 명령어(406) 바로 다음의 명령어(450)를 포함하는 마스터 소프트웨어 스레드의 하나 이상의 추가 명령어를 계속 수행할 수 있다.
마스터 소프트웨어 스레드는 또한 사용자-레벨 동기화 및 조인 명령어(452)를 포함할 수 있다. 사용자-레벨 동기화 및 조인 명령어는 수행될 때, 마스터 소프트웨어 스레드를 수행하는 프로세서 요소가 마스터 소프트웨어 스레드의 추가 명령어들을 실행을 중지하고 계속된 실행이 명시적 동기화 장벽(438)에서 대기하도록 구성하거나 달리 야기하도록 동작할 수 있다. 일부 실시예들에서, 사용자-레벨 동기화 및 조인 명령어(452)는 사용자-레벨 포크 명령어(406)와는 상이한 opcode를 가질 수 있다. 일부 실시예들에서, 사용자-레벨 동기 및 조인 명령어(452)는 사용자-레벨 동기화 및 종료 명령어(418)와 동일한 opcode를 가질 수 있다. 다른 실시예들에서, 사용자-레벨 동기화 및 조인 명령어(452)는 사용자-레벨 동기화 및 종료 명령어(418)과 상이한 opcode를 가질 수 있다.
일부 실시예들에서, 사용자-레벨 포크 명령어는 선택적으로 단일 명령어 어드레스를 나타낼 수 있고, 병렬 도우미 소프트웨어 스레드들(436) 각각은 사용자-레벨 포크 명령어(406)에 의해 특정되거나 달리 지시되는 단일 명령어 어드레스에 위치하는 동일한 명령어(435)의 대응하는 인스턴스에서 실행을 시작할 수 있다. 그 후, 병렬 도우미 소프트웨어 스레드들 각각은 (예를 들어, 상이한 분기, 점핑, 프로시저 호출 등에 기인하여) 잠재적으로 상이한 추가 명령어 세트를 수행할 수 있다. 대안적으로, 사용자-레벨 포크 명령어는 다수의 잠재적으로/선택적으로 상이한 명령어 어드레스를 나타낼 수 있고, 병렬 도우미 소프트웨어 스레드들 각각은 선택적으로/잠재적으로 상이한 명령어 어드레스에서 실행을 시작할 수 있다. 결과적으로, 병렬 도우미 소프트웨어 스레드들 각각은 전형적으로 상이한 시간에, 사용자-레벨 동기화 및 종료 명령어(418)의 대응하는 인스턴스를 수행할 수 있다. 프로세서 요소들 각각은, 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행할 때, 대응하는 도우미 소프트웨어 스레드의 추가 명령어들의 수행을 중지할 수 있고, 더 이상의 실행은 사용자-레벨 동기화 및 조인 명령어(452)로 인해 마스터 소프트웨어 스레드(432)에 의해 관찰되고 있는 동일한 명시적 동기화 장벽(438)에서 대기할 수 있다. 다른 병렬 도우미 소프트웨어 스레드들 각각 및 모두가 그의 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료했을 때, 그의 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행하는 마지막 프로세서 요소는 제어 흐름에서의 병합 또는 조인(440)을 구성하거나 달리 야기할 수 있다. 병렬 도우미 소프트웨어 스레드들 각각의 실행은 종료될 수 있다. 마스터 소프트웨어 스레드(432*)의 계속된 실행은 예를 들어 마스터 스레드에서의 원래의 프로그램 순서에서 사용자-레벨 동기화 및 조인 명령어(452) 바로 다음의 명령어(454)와 같은 사용자-레벨 동기화 및 조인 명령어에 의해 결정된 적절한 조인 어드레스에서의 명령어로 계속될 수 있다.
전술한 바와 같이, 제1 프로세서 요소(예를 들어, 제1 프로세서 요소(102))는 사용자-레벨 포크 명령어(예를 들어, 사용자-레벨 포크 명령어(106))의 실시예를 수행할 수 있고, 복수의 추가 프로세서 요소(예를 들어, 추가 프로세서 요소들(114)) 각각은 사용자-레벨 동기화 및 종료 명령어(예를 들어, 사용자-레벨 동기화 및 종료 명령어(118))의 실시예를 수행할 수 있다. 일부 실시예들에서, 동종 프로세서 요소들이 제1 프로세서 요소 및 추가 프로세서 요소들 각각에 대해 사용될 수 있다. 다른 실시예들에서, 제1 프로세서 요소는 추가 프로세서 요소들 각각에 대해 이종이거나 상이한 설계를 가질 수 있다.
도 5는 사용자-레벨 포크 명령어를 포함하는 직렬 스레드를 수행하기에 적합한 제1 프로세서 요소(502) 및 사용자-레벨 동기화 및 종료 명령어를 포함하는 복수의 병렬 스레드 중 하나를 수행하기에 적합한 추가 프로세서 요소(514)를 포함하는 한 쌍의 동종 프로세서 요소들(560)의 예시적인 실시예의 블록도이다. 이 한 쌍의 동종 프로세서 요소들은 실질적으로 동일할 수 있다. 예를 들어, 동종 프로세서 요소들 각각은 동일한 설계를 갖는 코어, 하드웨어 스레드, 또는 기타 등등일 수 있다. 일부 실시예들에서, 제1 프로세서 요소와 추가 프로세서 요소 둘 다는 동일한 명령어 세트(504)를 가질 수 있고, 제1 프로세서 요소와 추가 프로세서 요소 둘 다는 동일한 아키텍처 피처 세트(562)(예를 들어, 아키텍처 레지스터, 데이터 유형 등)를 가질 수 있고, 제1 프로세서 요소와 추가 프로세서 요소 둘 다는 동일한 마이크로아키텍처(564)를 가질 수 있다.
대안적으로, 동종 프로세서 요소들을 사용하는 것보다는, 이종 프로세서 요소들을 사용하는 것이 유리할 수 있다. 예를 들어, 직렬 스레드를 수행해야 하는 프로세서 요소와 상이하게 병렬 스레드들을 수행해야 하는 프로세서 요소들을 설계 또는 최적화하는 것이 유리할 수 있다. 도 6은 사용자-레벨 포크 명령어를 포함하는 직렬 스레드를 수행하기에 적합한 제1 프로세서 요소(602) 및 사용자-레벨 동기화 및 종료 명령어를 포함하는 복수의 병렬 스레드 중 하나를 수행하기에 적합한 추가 프로세서 요소(614)를 포함하는 한 쌍의 이종 프로세서 요소들(668)의 예시적인 실시예의 블록도이다.
이종 프로세서 요소들은 상이한 실시예들에서 상이한 방식들로 상이할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 제1 프로세서 요소의 명령어 세트(604)는 선택적으로 추가 프로세서 요소의 명령어 세트(616)와 상이할 수 있다. 예를 들어, 이 명령어 세트들 둘 다는 중첩 명령어 세트(670)를 포함할 수 있지만, 제1 프로세서 요소의 명령어 세트는 선택적으로 추가 프로세서의 명령어 세트(616)에 포함되지 않은 하나 이상의 비중첩 명령어(671)를 포함할 수 있고/있거나, 추가 프로세서 요소의 명령어 세트는 선택적으로 제1 프로세서 요소의 명령어 세트(604)에 포함되지 않은 하나 이상의 비중첩 명령어 세트(672)를 포함할 수 있다. 일례로서, 일부 실시예들에서, 추가 프로세서 요소(614)(즉, 병렬 스레드들 및 사용자-레벨 동기화 및 종료 명령어를 실행해야 하는 것)는 선택적으로 사용자 레벨 또는 비 특권 레벨의 실행 특권에만 전용될 수 있다. 이러한 실시예들에서, 추가 프로세서 요소는 선택적으로 제1 프로세서 요소의 명령어 세트에 포함되는 모든 특권 레벨 또는 비-사용자 레벨 명령어를 생략할 수 있다. 다른 실시예들에서, 명령어 세트는 상이한 방식들로 상이할 수 있다. 예를 들어, 병렬 스레드들을 위해 의도된 주어진 유형의 코드를 수행하는 데 필요하지 않은 임의의 명령어들은 선택적으로 추가 프로세서 요소의 명령어 세트로부터 생략될 수 있다.
도시된 바와 같이, 일부 실시예들에서, 제1 프로세서 요소의 마이크로아키텍처(664)는 선택적으로 추가 프로세서 요소의 마이크로아키텍처(674)와 상이할 수 있다. 예를 들어, 일부 실시예들에서, 제1 프로세서 요소의 마이크로아키텍처는 선택적으로 명령어 수행 대기 시간의 감소를 강조하도록 설계될 수 있는 반면, 추가 프로세서 요소의 마이크로아키텍처는 수행 대기 시간의 감소를 강조하기 보다는 오히려 증가된 처리량을 강조하도록 설계될 수 있다. 예를 들어, 대기 시간을 감소시키기 위해, 비순차적 실행 및/또는 다른 정교한 메커니즘들이 선택적으로 사용될 수 있다. 그러나, 비순차적 실행 리소스들 및 다른 정교한 리소스들은 최대 병렬 처리량을 달성하기 위해 프로세서를 설계하는 능력과 경쟁하는 경향이 있다. 예를 들어, 각각의 코어가 비순차적 및/또는 다른 정교한 리소스들을 수용하기 위해 비교적 더 커질 때, 그러한 리소스들을 생략하는 더 작은 코어들의 수에 비하여 더 적은 수의 이들 더 큰 리소스들이 동일한 크기의 다이에 맞을 수 있다. 대신에 더 많은 수의 더 작은 코어가 다이에 포함된 경우, 더 많은 스레드를 실행함으로써(이들 스레드 각각이 더 높은 대기 시간을 갖더라도) 더 높은 처리량을 달성할 수 있다. 이러한 스레드가 많으면, 스레드들을 비지(busy) 상태로 유지하는 것이 개별 스레드들의 대기 시간을 감소시키는 것보다 더 중요해진다. 또한, 비순차적 실행 리소스들은 동일한 처리량에 대해 더 많은 전력을 소비하는 경향이 있다.
따라서, 일부 실시예들에서, 제1 프로세서 요소의 마이크로아키텍처는 선택적으로 비순차적 실행 마이크로아키텍처일 수 있는 반면, 추가 프로세서 요소의 마이크로아키텍처는 선택적으로 순차적 마이크로아키텍처, 실질적으로 순차적 마이크로아키텍처, 또는 제1 프로세서 요소의 마이크로아키텍처보다 적어도 상당히 더 순차적인 마이크로아키텍처일 수 있다. 일부 실시예들에서, 제1 프로세서 요소의 마이크로아키텍처는 하나 이상의 비순차적 실행 리소스(675)를 포함할 수 있는 반면, 추가 프로세서 요소의 마이크로아키텍처는 선택적으로 이러한 비순차적 실행 리소스들을 생략할 수 있다(677). 이러한 비순차적 리소스들의 예로는 예약 스테이션, 명령어 버퍼, 또는 그들의 입력 피연산자들이 이용 가능할 때까지 명령어들을 저장하는 다른 명령어 큐, 실행 유닛들에 비순차적으로 명령어들을 발행하는 비순차적 발행 유닛, 명령어들 및 그 결과들을 다시 원래의 프로그램 순서로 재순서화하기 위한 재순서화 버퍼 또는 다른 명령어 버퍼 또는 큐, 및 비순차적으로 실행된 명령어들의 결과들을 원래의 프로그램 순서의 아키텍처 상태로 커밋하기 위한 커밋 유닛을 포함하지만, 이들에 제한되지 않는다. 다양한 실시예들에서, 제1 프로세서 요소(즉, 사용자-레벨 포크 명령어를 수행하는 것)는 커밋 유닛을 가질 수 있지만 추가 프로세서 요소(즉, 사용자-레벨 동기화 및 종료 명령어를 수행하는 것)는 그렇지 않을 수 있고/있거나, 제1 프로세서 요소는 재순서화 버퍼를 가질 수 있지만 추가 프로세서 요소는 그렇지 않을 수 있고/있거나, 제1 프로세서 요소는 예약 스테이션을 가질 수 있지만 추가 프로세서 요소는 그렇지 않을 수 있다. 일부 실시예들에서, 제1 프로세서 요소는 비교적 더 낮은 평균 명령어 수행 대기 시간을 가질 수 있는 반면, 추가 프로세서 요소는 비교적 더 높은 평균 명령어 수행 대기 시간을 가질 수 있다.
또 다른 예로서, 일부 실시예들에서, 사용자-레벨 포크 명령어를 갖는 하나의 유형의 코드(예를 들어, 마스터 스레드)를 수행하는 데 필요하거나 비교적 더 도움이 되는, 그러나 사용자-레벨 동기화 및 종료 명령어를 갖는 또 다른 유형의 코드(예를 들어, 병렬 도우미 스레드들 중 하나)를 수행하는 데는 필요하거나 도움이 되지 않는 하나 이상의 마이크로아키텍처 리소스가 선택적으로 제1 프로세서 요소(602)에 포함될 수 있지만, 선택적으로 추가 프로세서 요소(614)로부터 생략될 수 있다. 일부 실시예들에서, 상이한 유형들의 코드 또는 객체들이 제1 프로세서 요소 및 추가 프로세서 요소를 위해 의도될 수 있고, 그들의 마이크로아키텍처들은 그에 상응하여 다를 수 있다. 일부 실시예들에서, 추가 프로세서 요소의 마이크로아키텍처는 선택적으로 단순화된 스레드 상호 의존성 및/또는 순서화 리소스들(678)을 포함할 수 있고, 이는 선택적으로 제1 프로세서 요소의 마이크로아키텍처의 스레드 상호 의존성 및/또는 순서화 리소스들(676)에 비해 단순화될 수 있다. 일 양태에서, 제1 프로세서 요소와 추가 프로세서 요소 둘 다는 공유 메모리에 액세스하는 것과 관련된 순서화 규칙들을 준수할 필요가 있을 수 있지만, 추가 프로세서 요소는 순차적이거나 순차적 제1 프로세서 요소보다 적어도 덜 순차적일 수 있으므로, 이러한 공유 메모리 액세스 순서화 규칙들을 시행하기 위한 추가 프로세서 요소 내의 메커니즘들은 단순화될 수 있다. 환언하면, 비순차적 제1 프로세서 요소에서 종종 요구되는 복잡성은 선택적으로 순차적인 또는 덜 순차적인 추가 프로세서 요소로부터 생략될 수 있다. 예를 들어, 메모리 액세스 펜싱 명령어들(예를 들어, 저장 펜스 명령어, 로드 펜스 명령어, 메모리 펜스 명령어 등)을 구현하기 위한 메커니즘들은 선택적으로 제1 프로세서 요소의 것들에 비해 추가 프로세서 요소에서 단순화될 수 있다. 다른 실시예들에서, 제1 프로세서 요소의 마이크로아키텍처에 포함되는 다른 마이크로아키텍처 리소스들은 선택적으로 병렬 코드(예를 들어, 병렬 도우미 스레드들)가 그러한 리소스들을 필요로 하지 않거나 그러한 리소스들을 가짐으로써 크게 도움이 되지 않는다면 추가 프로세서 요소의 마이크로아키텍처로부터 생략될 수 있다.
또 다른 예로서, 일부 실시예들에서, 추가 프로세서 요소들(예를 들어, 추가 프로세서 요소(614)를 포함함)은 제1 프로세서 요소(602)에 의해 공유되지 않는 리소스들을 공유할 수 있고/있거나, 추가 프로세서 요소들(예를 들어, 추가 프로세서 요소(614)를 포함함)은 제1 프로세서 요소(602)보다 더 많이 리소스들을 공유할 수 있다. 일례로서, 일부 실시예들에서, 더 많은 수의 추가 프로세서 요소(614)가 디코더를 공유할 수 있는 반면, 더 적은 수의 제1 프로세서 요소(602)가 디코더를 공유할 수 있다. 예를 들어, 다양한 실시예들에서, 1개 내지 약 10개, 또는 1개 내지 약 5개의 제1 프로세서 요소(602)가 디코더를 공유할 수 있는 반면, 10개 내지 300개, 또는 20개 내지 300개, 또는 50개 내지 300개의 추가 프로세서 요소(614)가 디코더를 공유할 수 있다. 일부 실시예들에서, 추가 프로세서 요소들(614)은 디코딩된 명령어의 캐시를 이용할 수 있으며, 추가 프로세서 요소들은 대부분 동일하거나 유사한 명령어를 실행할 수 있으므로 대부분의 경우 디코딩된 명령어들이 이미 캐시에 존재할 수 있으며, 따라서 디코더는 더 많은 이종 코드를 실행하는 제1 프로세서 요소에 대해 일반적으로 실제적인 것보다 더 많은 수의 추가 프로세서 요소에 의해 이용될 수 있다.
또 다른 예로서, 일부 실시예들에서, 최하위 레벨 레벨 1(L1) 캐시를 공유하는 제1 프로세서 요소 또는 요소들(602)의 수와 비교하여, 더 많은 수의 추가 프로세서 요소(614)가 실행 유닛들에 가장 가까운 최하위 레벨 또는 레벨 1(L1) 캐시를 공유할 수 있다. 예를 들어, 다양한 실시예들에서, 1개 내지 8개, 또는 1개 내지 4개의 제1 프로세서 요소(602)가 L1 캐시를 공유할 수 있는 반면, 10개 초과 또는 20개 초과의 추가 프로세서 요소가 L1 캐시를 공유할 수 있다.
도 7은 사용자-레벨 포크 명령어(706)의 실시예를 수행하기 위한 프로세서(700)의 예시적인 실시예의 블록도이다. 프로세서는 제1 프로세서 요소(702) 및 제1 추가 프로세서 요소(714-1) 내지 제N 추가 프로세서 요소(714-N)를 포함하는 복수의 추가 프로세서 요소(714)를 포함한다. 제1 프로세서 요소는 명령어 페치 유닛(781)을 갖는다. 페치 유닛은 예를 들어 제1 프로세서 요소의 프로그램 카운터(783)로부터 페치할 다음 명령어의 지시에 기초하여 메모리로부터 사용자-레벨 포크 명령어를 페치할 수 있다. 사용자-레벨 포크 명령어는 매크로 명령어, 어셈블리 언어 명령어, 머신 코드 명령어, 또는 제1 프로세서 요소의 명령어 세트의 다른 명령어 또는 제어 신호를 나타낼 수 있다. 일부 실시예들에서, 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 명시적으로 특정하거나(예를 들어, 하나 이상의 필드 또는 비트들의 세트를 통해), 다른 방법으로 지시(예를 들어, 암시적으로 지시)할 수 있다. 전술한 명령어 어드레스를 지시하는 상이한 방식들이 적합하다.
페치 유닛은 사용자-레벨 포크 명령어를 디코드 유닛(708)에 제공할 수 있다. 디코드 유닛은 사용자-레벨 포크 명령어를 디코딩할 수 있다. 디코드 유닛은 비교적 상위 레벨의 사용자-레벨 포크 명령어를 반영하고, 나타내고, 그리고/또는 그로부터 도출되는, 하나 이상의 비교적 하위 레벨의 명령어 또는 제어 신호(예를 들어, 하나 이상의 마이크로 명령어, 마이크로 연산, 마이크로코드 엔트리 포인트, 디코딩된 명령어 또는 제어 신호 등)을 출력할 수 있다. 일부 실시예들에서, 디코드 유닛은, 사용자-레벨 포크 명령어를 수신하는 하나 이상의 입력 구조(예를 들어, 포트(들), 인터커넥트(들), 인터페이스), 그와 결합되어 사용자-레벨 포크 명령어를 인식하고 디코딩하는 명령어 인식 및 디코드 로직, 및 그와 결합되어 하위 레벨 명령어(들) 또는 제어 신호(들)를 출력하는 하나 이상의 출력 구조(예를 들어, 포트(들), 인터커넥트(들), 인터페이스)를 포함할 수 있다. 디코드 유닛은 마이크로코드 판독 전용 메모리(ROM), 탐색표, 하드웨어 구현, 프로그래밍 가능 로직 어레이(PLA), 및 디코드 유닛들을 구현하기에 적합한 다른 메커니즘들을 포함하지만 이에 한정되지는 않는 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다.
사용자-레벨 스레드 포크 모듈(710)이 디코드 유닛(708)과 결합된다. 사용자-레벨 스레드 포크 모듈은 사용자-레벨 포크 명령어를 수행하거나 구현하는 하나 이상의 실행 유닛을 나타낼 수 있다. 사용자-레벨 스레드 포크 모듈은 사용자-레벨 포크 명령어를 나타내고 및/또는 그로부터 도출된 하나 이상의 디코딩된 또는 다른 방법으로 변환된 명령어 또는 제어 신호를 수신할 수 있다. 사용자-레벨 스레드 포크 모듈 및/또는 프로세서는 (예를 들어, 사용자-레벨 포크 명령어로부터 디코딩된 하나 이상의 명령어 또는 제어 신호에 응답하여) 사용자-레벨 포크 명령어를 수행하도록 동작하는 특정 또는 특정한 로직(예를 들어, 트랜지스터, 집적 회로, 또는 잠재적으로 펌웨어(예를 들어, 비휘발성 메모리에 저장된 명령어들) 및/또는 소프트웨어와 결합된 다른 하드웨어)을 포함할 수 있다. 사용자-레벨 스레드 포크 모듈은 사용자-레벨 포크 명령어에 응답하여 및/또는 사용자-레벨 포크 명령어의 결과로서(예를 들어, 명령어로부터 디코딩된 하나 이상의 명령어 또는 제어 신호에 응답하여) 복수의 추가 프로세서 요소(714) 각각을 사용자-레벨 포크 명령어에 의해 지시된 하나 이상의 명령어 어드레스에서 시작하여 병렬로 명령어들을 수행하도록 구성하도록 동작할 수 있다.
일부 실시예들에서, 명령어에 응답하는 사용자-레벨 스레드 포크 모듈은 제1 프로세서 요소와 추가 프로세서 요소들 각각의 둘 다에 의해 액세스 가능한 하나 이상의 저장 위치(785)에 하나 이상의 명령어 어드레스(786)를 저장할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 명령어 어드레스(786-1 내지 786-N)는 선택적으로 병렬 처리를 위해 사용되어야 하는 추가 프로세서 요소들(714-1 내지 714-N) 각각에 대해 저장될 수 있다. 전술한 바와 같이, 일부 실시예들에서, 동일한 단일 어드레스가 추가 프로세서 요소들 각각에 대해 저장될 수 있거나, 다른 실시예들에서 잠재적으로/선택적으로 상이한 명령어 어드레스(예를 들어, 벡터 레지스터의 상이한 데이터 요소로부터의)가 추가 프로세서 요소들 각각에 대해 저장될 수 있다. 추가 프로세서 요소들 각각은 하나 이상의 명령어 어드레스(786)에 액세스하고 그 명령어 어드레스에서 병렬 처리를 시작할 수 있다. 일부 실시예들에서, 추가 프로세서 요소들 각각은 이 명령어 어드레스를 대응하는 프로그램 카운터 또는 명령어 포인터로 복사 또는 저장할 수 있다. 대안적으로, 사용자-레벨 스레드 포크 모듈은 사용자-레벨 포크 명령어에 응답하여 이 어드레스를 프로그램 카운터들 또는 명령어 포인터들 각각에 직접 저장하도록 동작할 수 있다.
제1 프로세서 요소는 또한 아키텍처 상태(784)를 갖는다. 일부 실시예들에서, 아키텍처 상태(784)는 예를 들어 범용 레지스터, 패킹된 데이터 레지스터, 부동 소수점 레지스터, 상태 레지스터, 또는 기타 등등과 같은 하나 이상의 아키텍처 레지스터의 콘텐츠 또는 값들을, 잠재적으로 제1 프로세서 요소의 다른 아키텍처 상태와 함께 포함할 수 있다. 일부 실시예들에서, 명령어에 응답하는 사용자-레벨 스레드 포크 모듈은 아키텍처 상태(784)의 일부 또는 전부의 하나 이상의 복사본을 하나 이상의 저장 위치(785)에 아키텍처 상태(787)로서 저장할 수 있다. 일 실시예에서, 아키텍처 상태는 전술한 바와 같이, 프로세서의 하나 이상의 아키텍처 레지스터 세트의 값들 또는 콘텐츠를 포함할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 병렬 처리를 위해 사용되어야 하는 추가 프로세서 요소들(714-1 내지 714-N) 각각에 대해 아키텍처 상태(787-1 내지 787-N)의 상이한 대응 복사본이 선택적으로 저장될 수 있다. 그 후, 추가 프로세서 요소들 각각은 하나 이상의 아키텍처 상태 세트에 액세스하고 병렬 처리에서 그 아키텍처 상태를 사용할 수 있다. 일부 실시예들에서, 추가 프로세서 요소들 각각은 선택적으로 복제 아키텍처 레지스터 세트(replicate set of architectural registers), 하나 이상의 캐시(예를 들어, 레지스터 캐시)와, 또는 다른 로컬 저장 디바이스와 같은, 추가 프로세서 요소들 각각에 대응하는 로컬 저장소에 이 아키텍처 상태를 복사 또는 저장할 수 있다.
상이한 유형의 저장 위치들(785)이 상이한 실시예들에 대해 적합하다. 적합한 저장 위치들의 예로는 제1 프로세서 요소의 하나 이상의 레지스터, 추가 프로세서 요소들의 하나 이상의 레지스터, 제1 프로세서 요소와 추가 프로세서 요소들 각각에 의해 공유되는 메모리 내의 메모리 위치들, 및 기타 등등, 및 이들의 조합들을 포함할 수 있지만, 이에 제한되지 않는다. 일부 실시예들에서, 저장 위치들은 제1 프로세서 요소와 추가 프로세서 요소들 각각에 의해 공유되는 병렬 처리 제어 데이터 구조를 구현하는 데 사용되는 사용자-어드레스 지정 가능한 메모리 공간 내의 하나 이상의 메모리 위치를 나타낼 수 있다. 일부 실시예들에서, 이 병렬 처리 제어 데이터 구조는 운영 체제에 의해 사용되는 프로시저 호출 스택과는 별개이다. 일부 실시예들에서, 이 병렬 처리 제어 데이터 구조는 제1 프로세서 요소와 추가 프로세서 요소들 각각의 둘 다에 의해 액세스 가능할 수 있으며, 제1 프로세서 요소와 추가 프로세서 요소들 각각의 사이에 특정 구현을 위해 원하는 다양한 상이한 유형의 제어 및 데이터를 전달하는 데 사용될 수 있다. 대안적으로, 다양한 상이한 유형의 저장 위치들이 선택적으로 대신 사용될 수 있다.
일부 실시예들에서, 하나 이상의 명령어 어드레스 및 하나 이상의 아키텍처 상태 세트가 저장된 후에, 사용자-레벨 스레드 포크 모듈은, 명령어에 응답하여, 병렬 처리를 수행하도록 추가 프로세서 요소들 각각을 활성화 및 개시하는 하나 이상의 제어 신호를 전송할 수 있다. 대안적으로, 다른 실시예들에서, 이 추가 동작은 선택적으로 생략될 수 있는데, 그 이유는 그것이 다른 기준들(예를 들어, 프로그램 카운터 또는 저장 위치들(785)에 프로그래밍되는 값, 저장 위치들(785)에 프로그래밍되는 아키텍처 상태 등)에 기초하여 추론될 수도 있기 때문이다. 일부 실시예들에서, 병렬 처리를 수행하도록 이들 추가 프로세서 요소들을 개시하기 위해, 발명의 필요가 없을 수도 있고, 운영 체제에 양보할 필요가 없을 수도 있다.
일부 실시예들에서, 사용자-레벨 포크 명령어는 또한 선택적으로 제1 프로세서 요소에서 실행되는 스레드 또는 다른 코드에 동기화 장벽을 부과할 수 있지만, 이는 필수적인 것은 아니다(예를 들어, 별도의 사용자-레벨 동기화 및 조인 명령어가 선택적으로 사용될 수 있다). 도시된 바와 같이, 이러한 실시예들에서, 제1 프로세서 요소는 선택적으로 동기화된 조인 모듈(782)을 포함할 수 있다. 동기화된 조인 모듈은 디코드 유닛과 결합될 수 있다. 일부 실시예들에서, 사용자-레벨 포크 명령어에 응답하여, 동기화된 조인 모듈은 프로그램 카운터(783)를 동결시키거나 달리 프로그램 카운터가 증가를 중지하게 하도록 동작할 수 있다. 이것은 스레드 및/또는 제1 프로세서 요소에 의한 추가 명령어들의 실행이 중지되게 할 수 있다. 도시된 바와 같이, 동기화된 조인 모듈은 동기화 장벽 구조(788)와 결합될 수 있다. 복수의 추가 프로세서 요소는 각각 동기화 장벽 구조와 결합될 수도 있다. 추가 프로세서 요소들 각각은 사용자-레벨 동기화 및 종료 명령어를 수행할 때 동기화 장벽 구조에서 대응하는 상태를 업데이트할 수 있다. 일례로서, 동기화 장벽 구조는 추가 프로세서 요소들 중 하나가 사용자-레벨 동기화 및 종료 명령어를 수행할 때마다 증가 또는 감소되는 카운터일 수 있다. 또 다른 예로서, 동기화 장벽 구조는 추가 프로세서 요소들 각각에 대해 상이한 대응 비트를 갖는 레지스터를 포함할 수 있고, 대응 비트는, 추가 프로세서 요소들 각각이 그것의 사용자-레벨 동기화 및 종료 명령어를 수행할 때, 특정 구현을 위해 원하는 대로 설정되거나 클리어될 수 있다. 동기화된 조인 모듈(782)은 동기화 장벽 구조에서 상태를 관찰할 수 있고, 그 상태가 추가 프로세서 요소들 모두가 그들의 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료했음을 나타내는 경우, 프로그램 카운터(783)가 증가를 재개하게 할 수 있다. 그 후, 페치 유닛은 스레드 또는 코드의 다른 부분이 제1 프로세서 요소에 의해 계속 수행됨에 따라 디코딩되고 실행될 수 있는, 추가 명령어들을 페치할 수 있다.
도 8은 사용자-레벨 동기화 및 종료 명령어(818)의 실시예를 수행하기 위한 프로세서(800)의 예시적인 실시예의 블록도이다. 프로세서는 사용자-레벨 동기화 및 종료 명령어를 수행하기 위한 추가 프로세서 요소(814)를 포함한다. 프로세서는 또한 제1 프로세서 요소(802)(예를 들어, 이는 제한 없이 사전에 사용자-레벨 동기화 및 종료 명령어(예를 들어, 명령어(706))을 수행 완료했을 수도 있음)을 포함한다. 추가 프로세서 요소는 추가 프로세서 요소의 프로그램 카운터(883)로부터 페치할 다음 명령어의 지시에 기초하여 (예를 들어, 메모리로부터) 사용자-레벨 동기화 및 종료 명령어를 페치할 수 있는 명령어 페치 유닛(881)을 갖는다. 사용자-레벨 동기화 및 종료 명령어는 매크로 명령어, 어셈블리 언어 명령어, 머신 코드 명령어, 또는 추가 프로세서 요소의 명령어 세트의 다른 명령어 또는 제어 신호를 나타낼 수 있다. 페치 유닛은 사용자-레벨 동기화 및 종료 명령어를 디코드 유닛(808)에 제공할 수 있다. 디코드 유닛은 사용자-레벨 동기화 및 종료 명령어(818)를 디코딩할 수 있다. 디코드 유닛은 비교적 높은 레벨의 사용자-레벨 동기화 및 종료 명령어를 반영하고, 나타내고, 그리고/또는 그로부터 유도되는, 하나 이상의 비교적 낮은 레벨의 명령어 또는 제어 신호(예를 들어, 하나 이상의 마이크로 명령어, 마이크로 연산, 마이크로 코드 엔트리 포인트, 디코딩된 명령어 또는 제어 신호 등)을 출력할 수 있다. 디코드 유닛은 본 명세서에서 설명된 다른 디코더들과 동일한 접근법들을 사용하여 구현될 수 있다.
사용자-레벨 동기화된 스레드 종료 유닛 또는 모듈(890)은 디코드 유닛(808)의 출력과 결합된다. 사용자-레벨 동기화된 스레드 종료 모듈은 사용자-레벨 동기화 및 종료 명령어를 수행하거나 구현하기 위한 하나 이상의 실행 유닛을 나타낼 수 있다. 사용자-레벨 동기화된 스레드 종료 모듈은 사용자-레벨 동기화 및 종료 명령어를 나타내고, 그리고/또는 그로부터 유도되는 하나 이상의 디코딩되거나 달리 변환된 명령어 또는 제어 신호를 수신할 수 있다. 사용자-레벨 동기화된 스레드 종료 모듈 및/또는 프로세서는 (예를 들어, 사용자-레벨 동기화 및 종료 명령어로부터 디코딩된 하나 이상의 명령어 또는 제어 신호에 응답하여) 사용자-레벨 동기화 및 종료 명령어를 수행하도록 동작하는 특정 또는 특정한 로직(예를 들어, 트랜지스터, 집적 회로, 또는 잠재적으로 펌웨어(예를 들어, 비휘발성 메모리에 저장된 명령어들) 및/또는 소프트웨어와 결합된 다른 하드웨어)을 포함할 수 있다. 사용자-레벨 동기화된 스레드 종료 모듈은 사용자-레벨 동기화 및 종료 명령어에 응답하여 및/또는 사용자-레벨 동기화 및 종료 명령어의 결과로서(예를 들어, 명령어로부터 디코딩된 하나 이상의 명령어 또는 제어 신호에 응답하여) 추가 프로세서 요소가 추가 명령어들의 수행을 중지하는 것, 및 모든 다른 추가 프로세서 요소들(예를 들어, 동일한 사용자-레벨 포크 명령어에 의해 개시된 것들)이 그의 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료하고/하거나 동기화 장벽에 도달할 때까지 동기화 장벽에서 대기하는 것을 구성하거나, 야기하거나, 또는 달리 야기하도록 동작할 수 있다. 일부 실시예들에서, 이는 추가 명령어들이 페치되거나 처리되지 않도록 프로그램 카운터를 동결 또는 중지하기 위해 프로그램 카운터(883)에 신호(891)를 전송하거나 달리 제공하는 동기화된 스레드 종료 모듈을 포함할 수 있다. 일부 실시예들에서, 이는 추가 프로세서 요소가 그의 사용자-레벨 동기화 및 조인 명령어를 수행하고 있고/있거나 동기화 장벽에 도달했음을 지시하기 위해 선택적 동기화 장벽 구조(888)에 신호(892)를 전송하거나 달리 제공하는 동기화된 스레드 종료 모듈을 포함할 수 있다. 전술한 바와 같이, 예를 들어, 추가 프로세서 요소들 중 상이한 것들에 대해 상이한 비트들을 갖는 레지스터, 증가 또는 감소하는 카운터 등과 같은, 장벽 구조를 구현하는 상이한 방식들이 가능하다.
일부 실시예들에서, 추가 프로세서 요소가 주어진 사용자-레벨 포크 명령어에 의해 활성화된 모든 추가 프로세서 요소들 중 동기화 장벽에 도달하는 마지막 추가 프로세서 요소인 경우, 사용자-레벨 동기화된 스레드 종료 모듈은 추가 프로세서 요소들 각각이 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료한 후에 제1 프로세서 요소상의 스레드로 다시 제어를 넘겨주도록 동작할 수 있다. 예를 들어, 일부 실시예들에서, 장벽에 도달하는 마지막 추가 프로세서 요소의 동기화된 스레드 종료 모듈은 선택적으로 추가 프로세서 요소들 모두가 장벽에 도달하였고 조인이 완료되어야 하고 제1 프로세서 요소에서의 스레드의 실행이 재개되어야 함을 지시하기 위해 제1 프로세서 요소에 신호(893)를 전송하거나 달리 제공할 수 있다. 다른 실시예들에서, 제1 프로세서 요소는, 활성화된 추가 프로세서 요소들 모두가 동기화 장벽에 도달했을 때, 선택적으로 동기화 장벽에서의 상태를 관찰하거나 동기화 장벽으로부터 신호를 수신할 수 있다.
추가 프로세서 요소는 아키텍처 상태(884)를 가질 수 있다. 아키텍처 상태는 예를 들어 범용 레지스터, 패킹된 데이터 레지스터, 부동 소수점 레지스터, 상태 레지스터, 명령어 포인터, 및 기타 등등과 같은, 이전에 언급된 아키텍처 상태의 유형들을 포함할 수 있다. 도시된 바와 같이, 일부 실시예들에서, 아키텍처 상태는 하나 이상의 소위 스티키 플래그(sticky flag)들(예를 들어, 스티키 에러 플래그들)(894)를 포함할 수 있다. 예로서, 이들 스티키 플래그는 스티키 부동 소수점 상태 또는 에러 플래그, 예를 들어 제로로 나누기(divide by zero) 플래그, 유효하지 않은 연산 플래그, 비정규 플래그(denormal flag), 및 기타 등등을 포함할 수 있다. 하나의 특정 예로서, 스티키 플래그들은 x86 프로세서의 MXCSR 레지스터 내의 스티키 부동 소수점 에러 플래그를 포함할 수 있다. 이들 플래그는 비교적 스티키(sticky)일 수 있고 이는 일단 그것들이 설정되면 그것들은 가능한 에러 상태가 정당하게 조사되고 적절한 경우 해결될 때까지 일반적으로 클리어되지 않음을 의미한다. 스티키 플래그는 캐리 플래그, 오버플로 플래그, 제로 플래그, 및 다른 산술 플래그와 같은 비-스티키 플래그와 대조된다.
일부 실시예들에서, 사용자-레벨 동기화된 스레드 종료 모듈은, 사용자-레벨 동기화 및 종료 명령어에 응답하여, 에러 상태 정보 및/또는 추가 프로세서 요소들이 마주치는 하나 이상의 에러 상태의 지시를 제1 프로세서 요소에 전달하도록 동작할 수 있다. 일부 실시예들에서, 에러 상태 정보는 스티키 플래그들(894) 중 하나 이상과 관련될 수 있고/있거나 이를 지시할 수 있다. 스티키 플래그들 또는 에러 상태 정보를 제1 프로세서 요소로 전달 또는 지시하는 것은 제1 프로세서 요소가 스티키 플래그들 또는 다른 에러 상태 정보를 분석하고 적절한 경우 적절한 조치를 취할 수 있게 하는 데 도움이 될 수 있다. 이 에러 상태 정보는 상이한 실시예들에서 상이한 방식들로 전달되거나 지시될 수 있다. 일부 실시예들에서, 추가 프로세서 요소들 각각은 별도의 그러한 정보의 세트를 제1 프로세서 요소에 전달할 수 있다. 다른 실시예들에서, 병합 또는 조합된 그러한 정보의 세트가 제1 프로세서 요소에 전달될 수 있다. 일례로서, 추가 프로세서 요소들 각각이 그의 동기화 및 종료 명령어를 수행할 때, 그것은 이 에러 상태 정보를 제1 프로세서 요소에 직접 전달할 수 있다. 대표적으로, 제1 프로세서 요소는 그 정보를 그의 대응하는 아키텍처 레지스터들에 동화시킨 다음 그에 따라 에러 상태 정보를 처리할 수 있다.
또 다른 예로서, 추가 프로세서 요소들 각각이 그의 동기화 및 종료 명령어를 수행할 때, 그것은 추가 프로세서 요소 및 제1 프로세서 요소에 의해 액세스 가능한 저장 위치(885)로 이 에러 상태 정보를 시그널링하거나(897) 달리 전달할 수 있다. 상이한 유형의 저장 위치들이 상이한 실시예들에 적합하다. 적합한 저장 위치들의 예로는 추가 프로세서 요소의 하나 이상의 레지스터, 제1 프로세서 요소의 하나 이상의 레지스터, 제1 프로세서 요소와 추가 프로세서 요소에 의해 공유되는 메모리 내의 하나 이상의 메모리 위치, 및 기타 등등, 및 이들의 조합을 포함하지만, 이에 제한되지는 않는다. 일부 실시예들에서, 저장 위치는 제1 프로세서 요소와 추가 프로세서 요소들 각각에 의해 공유되는, 그리고 병렬 처리 제어 데이터 구조를 구현하는 데 사용되는 사용자-어드레스 지정 가능한 메모리 공간 내의 하나 이상의 메모리 위치를 나타낼 수 있다. 일부 실시예들에서, 이 병렬 처리 제어 데이터 구조는 운영 체제에 의해 사용되는 프로시저 호출 스택과 별개일 수 있다. 일부 실시예들에서, 이 병렬 처리 제어 데이터 구조는 제1 프로세서 요소와 추가 프로세서 요소들 각각의 둘 다에 의해 액세스 가능할 수 있고, 제1 프로세서 요소와 추가 프로세서 요소들 각각의 사이에 특정 구현을 위해 원하는 다양한 상이한 유형의 제어 및 데이터를 전달하는 데 사용될 수 있다. 대안적으로, 다양한 다른 유형의 저장 위치들이 선택적으로 대신 사용될 수 있다.
별개의 이 에러 상태 정보의 세트들이 추가 프로세서 요소들 각각에 대해 저장 위치(885)에 저장될 수 있거나, 또는 단일의 조합 또는 병합된 이 에러 상태 정보의 세트가 저장 위치에 유지되고 저장될 수 있다. 예를 들어, 병합 또는 조합된 에러 상태 정보의 세트는 주어진 스티키 에러 상태 플래그가 추가 프로세서 요소들 중 임의의 것에서 설정되면 주어진 스티키 에러 상태 플래그를 설정할 수 있다. 환언하면, 추가 프로세서 요소들 중 임의의 것에서 임의의 에러 상태를 나타내는 단일 누적 에러 상태 정보의 세트가 유지될 수 있고, 이 단일 누적 에러 상태 정보의 세트는 제1 프로세서 요소에 전달될 수 있다. 이들은 단지 몇 가지 예시적인 예들일 뿐이다. 에러 상태 정보를 전달하는 다른 방식들도 또한 고려된다. 일부 실시예들에서, 사용자-레벨 동기화 및 조인 명령어에 응답하는 추가 프로세서 요소는 또한 실행의 결과들(896)을 예를 들어 공유 사용자 메모리 공간과 같은 저장 위치(885)에 보존하거나 저장할 수 있다.
예시적인 코어 아키텍처들, 프로세서들, 및 컴퓨터 아키텍처들
프로세서 코어들은 상이한 방식들로, 상이한 목적들을 위해, 그리고 상이한 프로세서들에서 구현될 수 있다. 예를 들어, 그러한 코어의 구현은 다음을 포함할 수 있다: 1) 범용 컴퓨팅을 위해 의도된 범용 순차적 코어; 2) 범용 컴퓨팅을 위해 의도된 고성능 범용 비순차적 코어; 3) 주로 그래픽 및/또는 과학적 (스루풋) 컴퓨팅을 위해 의도된 특수 목적 코어. 상이한 프로세서들의 구현들은 다음을 포함할 수 있다: 1) 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 순차적 코어 및/또는 범용 컴퓨팅을 위해 의도된 하나 이상의 범용 비순차적 코어를 포함하는 CPU; 및 2) 주로 그래픽 및/또는 과학적 (스루풋)을 위해 의도된 하나 이상의 특수 목적 코어를 포함하는 코프로세서. 이러한 상이한 프로세서들은 다음에 언급한 것들을 포함할 수 있는 상이한 컴퓨터 시스템 아키텍처들로 이어진다: 1) CPU와 별도의 칩 상에 있는 코프로세서; 2) CPU와 별도의 다이에 있지만 동일한 패키지에 있는 코프로세서; 3) CPU와 동일한 다이상에 있는 코프로세서(이 경우, 이러한 코프로세서는 때때로 통합 그래픽 및/또는 과학적 (스루풋) 로직과 같은 특수 목적 로직, 또는 특수 목적 코어로 언급됨); 및 4) 설명된 CPU(때로는 애플리케이션 코어(들) 또는 애플리케이션 프로세서(들)로 언급됨), 전술한 코프로세서, 및 추가의 기능을 동일한 다이상에 포함될 수 있는 시스템 온 칩. 예시적인 코어 아키텍처들이 다음에 설명되고, 이어서 예시적인 프로세서들 및 컴퓨터 아키텍처들이 설명된다.
예시적인 코어 아키텍처들
순차적 및 비순차적 코어 블록도
도 9a는 본 발명의 실시예들에 따른, 예시적인 순차적 파이프라인 및 예시적인 레지스터 리네이밍 비순차적 발행/실행 파이프라인 둘 다를 도시하는 블록도이다. 도 9b는 본 발명의 실시예들에 따른 프로세서에 포함될 순차적 아키텍처 코어의 예시적인 실시예 및 예시적인 레지스터 리네이밍, 비순차적 발행/실행 아키텍처 코어의 둘 다를 도시하는 블록도이다. 도 9a 및 도 9b에서의 실선 박스들은 순차적 파이프라인 및 순차적 코어를 도시하는 반면, 파선 박스들의 선택적 추가는 레지스터 리네이밍, 비순차적 발행/실행 파이프라인 및 코어를 도시한다. 순차적 양태가 비순차적 양태의 서브세트라는 점을 고려하여, 비순차적 양태가 설명될 것이다.
도 9a에서, 프로세서 파이프라인(900)은 페치 스테이지(902), 길이 디코드 스테이지(904), 디코드 스테이지(906), 할당 스테이지(908), 리네이밍 스테이지(910), 스케줄링(디스패치 또는 발행으로도 알려져 있음) 스테이지(912), 레지스터 판독/메모리 판독 스테이지(914), 실행 스테이지(916), 라이트백(write back)/메모리 기입 스테이지(918), 예외 처리 스테이지(922) 및 커밋 스테이지(924)를 포함한다.
도 9b는 실행 엔진 유닛(950)에 결합되는 프런트 엔드 유닛(930)을 포함하는 프로세서 코어(990)를 도시하며, 이들 두 개의 유닛 모두는 메모리 유닛(970)에 결합된다. 코어(990)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어, 또는 하이브리드 또는 대안적인 코어 유형일 수 있다. 또 다른 옵션으로서, 코어(990)는, 예를 들어, 네트워크 또는 통신 코어, 압축 엔진, 코프로세서 코어, 범용 컴퓨팅 그래픽스 처리 유닛(GPGPU: general purpose computing graphics processing unit) 코어, 그래픽스 코어 등과 같은 특수 목적 코어일 수 있다.
프런트 엔드 유닛(930)은 명령어 캐시 유닛(934)에 결합된 분기 예측 유닛(932)을 포함하고, 이 명령어 캐시 유닛은 명령어 변환 색인 버퍼(translation lookaside buffer, TLB)(936)에 결합되고, 이 명령어 변환 색인 버퍼는 명령어 페치 유닛(938)에 결합되고, 이 명령어 페치 유닛은 디코드 유닛(940)에 결합된다. 디코드 유닛(940)(또는 디코더)은 명령어들을 디코딩하고, 출력으로서 하나 이상의 마이크로 연산들, 마이크로코드 엔트리 포인트들, 마이크로 명령어들, 다른 명령어들, 또는 다른 제어 신호들을 생성할 수 있는데, 이들은 오리지널 명령어들로부터 디코딩되거나, 또는 다른 방식으로 오리지널 명령어들을 반영하거나 오리지널 명령어들로부터 도출된다. 디코드 유닛(940)은 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적절한 메커니즘의 예는 탐색표, 하드웨어 구현, 프로그램 가능 로직 어레이(PLA), 마이크로코드 판독 전용 메모리(ROM) 등을 포함하지만 이에 한정되지 않는다. 일 실시예에서, 코어(990)는(예를 들어, 디코드 유닛(940)에서 또는 다른 방식으로 프런트 엔드 유닛(930) 내에) 특정 매크로명령어들을 위한 마이크로코드를 저장하는 마이크로코드 ROM 또는 다른 매체를 포함한다. 디코드 유닛(940)은 실행 엔진 유닛(950)에서의 리네임/할당자 유닛(952)에 결합된다.
실행 엔진 유닛(950)은, 하나 이상의 스케줄러 유닛(들)(956)의 세트 및 리타이어먼트 유닛(954)에 결합된 리네임/할당자 유닛(952)을 포함한다. 스케줄러 유닛(들)(956)은, 예약 스테이션들, 중앙 명령어 윈도우 등을 비롯한 임의의 수의 상이한 스케줄러들을 나타낸다. 스케줄러 유닛(들)(956)은 물리적 레지스터 파일(들) 유닛(들)(958)에 결합된다. 물리적 레지스터 파일(들) 유닛들(958) 각각은 하나 이상의 물리적 레지스터 파일을 나타내고, 이들 중 상이한 물리적 레지스터 파일들은 스칼라 정수, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터) 등과 같은 하나 이상의 상이한 데이터 유형을 저장한다. 일 실시예에서, 물리적 레지스터 파일(들) 유닛(958)은 벡터 레지스터 유닛, 기입 마스크 레지스터 유닛 및 스칼라 레지스터 유닛을 포함한다. 이들 레지스터 유닛들은 아키텍처 벡터 레지스터들, 벡터 마스크 레지스터들 및 범용 레지스터들을 제공할 수 있다. 물리적 레지스터 파일(들) 유닛(들)(958)은, (예를 들어, 재순서화 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용하여; 미래 파일(들), 이력 버퍼(들) 및 리타이어먼트 레지스터 파일(들)을 이용하여; 레지스터 맵들 및 레지스터들의 풀을 이용하거나 하여) 레지스터 리네이밍 및 비순차적 실행이 구현될 수 있는 다양한 방식들을 예시하기 위해 리타이어먼트 유닛(954)에 의해 중첩된다. 리타이어먼트 유닛(954) 및 물리적 레지스터 파일(들) 유닛(들)(958)은 실행 클러스터(들)(960)에 결합된다. 실행 클러스터(들)(960)는 하나 이상의 실행 유닛들(962)의 세트 및 하나 이상의 메모리 액세스 유닛들(964)의 세트를 포함한다. 실행 유닛들(962)은 다양한 유형의 데이터(예를 들어, 스칼라 부동 소수점, 패킹된 정수, 패킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 다양한 연산들(예를 들어, 시프트, 덧셈, 뺄셈, 곱셈)을 수행할 수 있다. 일부 실시예들은 특정 기능들이나 기능들의 세트들에 전용의 복수의 실행 유닛들을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛, 또는 모두가 모든 기능들을 수행하는 복수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(956), 물리적 레지스터 파일(들) 유닛(들)(958) 및 실행 클러스터(들)(960)는 가능하게는 복수 개인 것으로 도시되어 있는데, 그 이유는 특정 실시예들이 특정 유형의 데이터/연산들에 대해 별개의 파이프라인들(예를 들어, 스칼라 정수 파이프라인, 스칼라 부동 소수점/패킹된 정수/패킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 자신의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛 및/또는 실행 클러스터를 각각 갖는 메모리 액세스 파이프라인 - 별개의 메모리 액세스 파이프라인의 경우에, 이 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(964)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 별개의 파이프라인들이 사용되는 경우, 이들 파이프라인 중 하나 이상은 비순차적 발행/실행일 수 있고 나머지는 순차적일 수 있다는 점도 이해해야 한다.
메모리 액세스 유닛들(964)의 세트는 메모리 유닛(970)에 결합되고, 이 메모리 유닛은 레벨 2(L2) 캐시 유닛(976)에 결합되는 데이터 캐시 유닛(974)에 결합된 데이터 TLB 유닛(972)을 포함한다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛들(964)은 로드 유닛(load unit), 어드레스 저장 유닛(store address unit) 및 데이터 저장 유닛(store data unit)을 포함할 수 있으며, 이들 각각은 메모리 유닛(970)에서의 데이터 TLB 유닛(972)에 결합된다. 명령어 캐시 유닛(934)은 메모리 유닛(970)에서의 레벨 2(L2) 캐시 유닛(976)에 또한 결합된다. L2 캐시 유닛(976)은 하나 이상의 다른 레벨의 캐시에 그리고 궁극적으로는 메인 메모리에 결합된다.
예로서, 예시적인 레지스터 리네이밍, 비순차적 발행/실행 코어 아키텍처는 다음과 같이 파이프라인 (900)을 구현할 수 있다: 1) 명령어 페치(938)는 페치 및 길이 디코딩 스테이지들(902 및 904)을 수행하고; 2) 디코드 유닛(940)은 디코드 스테이지(906)를 수행하고; 3) 리네임/할당자 유닛(952)은 할당 스테이지(908) 및 리네이밍 스테이지(910)를 수행하고; 4) 스케줄러 유닛(들)(956)은 스케줄 스테이지(912)를 수행하고; 5) 물리적 레지스터 파일(들) 유닛(들)(958) 및 메모리 유닛(970)은 레지스터 판독/메모리 판독 스테이지(914)를 수행하고; 실행 클러스터(960)는 실행 스테이지(916)를 수행하고; 6) 메모리 유닛(970) 및 물리적 레지스터 파일(들) 유닛(들)(958)은 라이트백/메모리 기입 스테이지(918)를 수행하고; 7) 다양한 유닛들이 예외 처리 스테이지(922)에 수반될 수 있고; 8) 리타이어먼트 유닛(954) 및 물리적 레지스터 파일(들) 유닛(들)(958)은 커밋 스테이지(924)를 수행한다.
코어(990)는 본 명세서에 설명된 명령어(들)를 포함하여, 하나 이상의 명령어 세트들(예를 들어, (더 새로운 버전이 추가된 일부 확장들을 갖는) x86 명령어 세트; 캘리포니아주 서니베일에 있는 MIPS Technologies의 MIPS 명령어 세트; 캘리포니아주 서니베일에 있는 ARM Holdings의 (NEON과 같은 선택적 추가 확장을 갖는) ARM 명령어 세트)을 지원할 수 있다. 일 실시예에서, 코어(990)는 패킹된 데이터 명령어 세트 확장(예를 들어, AVX1, AVX2)을 지원하는 로직을 포함하며, 따라서 많은 멀티미디어 애플리케이션들에 의해 사용되는 연산들이 패킹된 데이터를 사용하여 수행되는 것을 허용한다.
코어가 (연산들 또는 스레드들의 2개 이상의 병렬 세트를 실행하는) 멀티스레딩을 지원할 수 있고, 시간 슬라이싱된 멀티스레딩, 동시 멀티스레딩을 포함하는 다양한 방식으로(이 경우 단일 물리 코어는 물리 코어가 동시에 멀티스레딩하고 있는 각각의 스레드에게 로직 코어를 제공한다), 또는 이들의 조합(예를 들어, Intel® 하이퍼스레딩 기술(Hyperthreading technology)에서와 같은 시간 슬라이싱된 페칭 및 디코딩 및 그 후의 동시 멀티스레딩)으로 지원할 수 있음을 이해해야 한다.
레지스터 리네이밍이 비순차적 실행의 상황에서 설명되었지만, 레지스터 리네이밍은 순차적 아키텍처에서 사용될 수도 있다는 점을 이해해야 한다. 프로세서의 예시된 실시예가 별개의 명령어 및 데이터 캐시 유닛들(934/974) 및 공유 L2 캐시 유닛(976)을 또한 포함하지만, 대안적인 실시예들은, 예를 들어 레벨 1(L1) 내부 캐시 또는 다중 레벨의 내부 캐시와 같이, 명령어들 및 데이터 둘 다에 대한 단일의 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와, 코어 및/또는 프로세서에 대해 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서에 대해 외부에 있을 수 있다.
구체적인 예시적인 순차적 코어 아키텍처
도 10a 및 도 10b는 더 구체적인 예시적인 순차적 코어 아키텍처의 블록도를 예시하고, 이 코어는 칩에 있는 수개의 로직 블록들(동일한 유형 및/또는 상이한 유형들의 다른 코어들을 포함함) 중 하나일 것이다. 로직 블록들은 애플리케이션에 따라, 일부 고정된 기능 로직, 메모리 I/O 인터페이스들, 및 다른 필요한 I/O 로직을 갖는 고 대역폭 인터커넥트 네트워크(예를 들어, 링 네트워크)를 통해 통신한다.
도 10a는 본 발명의 실시예들에 따른, 레벨 2(L2) 캐시의 로컬 서브세트(1004)를 갖는 단일 프로세서 코어를, 온-다이 인터커넥트 네트워크(1002)로의 그의 접속과 함께 예시하는 블록도이다. 본 발명의 실시예들에서, 명령어 디코더(1000)는 패킹된 데이터 명령어 세트 확장을 갖는 x86 명령어 세트를 지원한다. L1 캐시(1006)는 스칼라 유닛 및 벡터 유닛에 대한 캐시 메모리로의 낮은 레이턴시 액세스들을 허용한다. (설계를 간략화하기 위한) 일 실시예에서, 스칼라 유닛(1008) 및 벡터 유닛(1010)은 별개의 레지스터 세트(각기, 스칼라 레지스터들(1012) 및 벡터 레지스터들(1014))를 사용하고, 이들 사이에 전송되는 데이터는 메모리에 기입되고 이후 레벨 1(L1) 캐시(1006)로부터 리드 백(read back)되는 반면, 본 발명의 대안적인 실시예들은 상이한 접근법을 사용할 수 있다(예를 들어, 단일 레지스터 세트를 사용하거나, 또는 기입 및 리드 백되지 않고 데이터가 2개의 레지스터 파일 사이에서 전송되게 허용하는 통신 경로를 포함함).
L2 캐시의 로컬 서브세트(1004)는, 프로세서 코어 당 하나씩인 별개의 로컬 서브세트들로 분할되는 글로벌 L2 캐시의 일부이다. 각각의 프로세서 코어는 L2 캐시의 그 자신의 로컬 서브세트(1004)에 대한 직접 액세스 경로를 갖는다. 프로세서 코어에 의해 판독된 데이터는 자신의 L2 캐시 서브세트(1004)에 저장되며, 다른 프로세서 코어들이 그들 자신의 로컬 L2 캐시 서브세트들에 액세스하는 것과 병렬로 빠르게 액세스될 수 있다. 프로세서 코어에 의해 기입되는 데이터는 그 자신의 L2 캐시 서브세트(1004)에 저장되고 또한 필요하다면 다른 서브세트들로부터 플러싱된다. 링 네트워크는 공유 데이터에 대한 일관성을 보장한다. 링 네트워크는 양방향성이어서, 프로세서 코어들, L2 캐시들 및 다른 로직 블록들과 같은 에이전트들이 칩 내에서 서로 통신하는 것을 허용한다. 각각의 링 데이터-경로는 방향당 1012 비트 폭이다.
도 10b는 본 발명의 실시예들에 따른 도 10a의 프로세서 코어의 일부분의 확대도이다. 도 10b는 L1 캐시(1004)의 L1 데이터 캐시(1006A) 부분뿐만 아니라, 벡터 유닛(1010) 및 벡터 레지스터들(1014)에 관한 보다 상세한 사항을 포함한다. 구체적으로, 벡터 유닛(1010)은 16-폭 벡터 처리 유닛(VPU)(16-폭 ALU(1028) 참조)이고, 이는 정수, 단정밀도 부동 소수점 및 배정밀도 부동 소수점 명령어 중 하나 이상을 실행한다. VPU는 스위즐 유닛(swizzle unit)(1020)을 이용하는 레지스터 입력들의 스위즐링, 수치 변환 유닛들(1022A-B)을 이용하는 수치 변환, 및 메모리 입력에 대한 복제 유닛(1024)을 이용하는 복제를 지원한다. 기입 마스크 레지스터들(1026)은 결과적인 벡터 기입들을 프레디케이트하는 것을 허용한다.
통합 메모리 제어기 및 그래픽을 갖는 프로세서
도 11은 본 발명의 실시예들에 따라 2개 이상의 코어를 가질 수 있고, 통합 메모리 제어기를 가질 수 있고 통합 그래픽을 가질 수 있는 프로세서(1100)의 블록도이다. 도 11에서 실선으로 도시된 박스는 단일 코어(1102A), 시스템 에이전트(1110), 하나 이상의 버스 제어기 유닛(1116)의 세트를 갖는 프로세서(1100)를 도시하고, 점선으로 된 박스의 선택적 추가는 다중 코어(1102A-N), 시스템 에이전트 유닛(1110) 내의 하나 이상의 통합 메모리 제어기 유닛(들)(1114)의 세트, 및 특수 목적 로직(1108)을 갖는 프로세서(1100)를 도시한다.
그러므로, 프로세서(1100)의 상이한 구현들은 다음을 포함할 수 있다: 1) (하나 이상의 코어들을 포함할 수 있는) 통합 그래픽 및/또는 과학적 (스루풋) 로직인 특수 목적 로직(1108), 및 하나 이상의 범용 코어들(예를 들어, 범용 순차적 코어들, 범용 비순차적 코어들, 이 둘의 조합)인 코어(1102A-N)를 구비한 CPU; 2) 그래픽 및/또는 과학적 (스루풋)을 위해 주로 의도된 많은 수의 특수 목적 코어들인 코어들(1102A-N)을 구비한 코프로세서; 및 3) 많은 수의 범용 순차적 코어들인 코어들(1102A-N)을 구비한 코프로세서. 따라서, 프로세서(1100)는 범용 프로세서와, 예를 들어 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU(general purpose graphics processing unit), 고스루풋 MIC(many integrated core) 코프로세서(30개 이상의 코어를 포함함), 임베디드 프로세서와 같은 코프로세서 또는 특수 목적 프로세서, 또는 그와 유사한 것일 수 있다. 프로세서는 하나 이상의 칩 상에 구현될 수 있다. 프로세서(1100)는, 예를 들어, BiCMOS, CMOS, 또는 NMOS와 같은 다수의 프로세스 기술들 중 임의의 것을 사용하여 하나 이상의 기판 상에 구현될 수 있고/있거나 그 일부일 수 있다.
메모리 계층구조는 코어들 내의 하나 이상의 레벨의 캐시, 하나 이상의 공유 캐시 유닛들(1106)의 세트, 및 통합 메모리 제어기 유닛들(1114)의 세트에 결합된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1106)의 세트는, 레벨 2(L2), 레벨 3(L3), 레벨 4(L4) 또는 다른 레벨 캐시와 같은 하나 이상의 중간 레벨 캐시, 최종 레벨 캐시(last level cache)(LLC) 및/또는 이들의 조합을 포함할 수 있다. 일 실시예에서는 링 기반 인터커넥트 유닛(1112)이 통합 그래픽 로직(1108), 공유 캐시 유닛들(1106)의 세트 및 시스템 에이전트 유닛(1110)/통합 메모리 제어기 유닛(들)(1114)을 상호접속하지만, 대안적인 실시예들은 이러한 유닛들을 상호접속하는 임의의 수의 공지된 기술들을 사용할 수 있다. 일 실시예에서, 하나 이상의 캐시 유닛들(1106)과 코어들(1102A-N) 사이의 일관성이 유지된다.
일부 실시예들에서, 코어들(1102A-N) 중 하나 이상은 멀티스레딩이 가능하다. 시스템 에이전트(1110)는 코어(1102A-N)를 조정 및 동작시키는 컴포넌트들을 포함한다. 시스템 에이전트 유닛(1110)은 예를 들어 전력 제어 유닛(power control unit, PCU) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(1102A-N) 및 통합 그래픽 로직(1108)의 전력 상태를 조절하기 위해 필요한 로직 및 컴포넌트들일 수 있거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속된 디스플레이들을 구동하기 위한 것이다.
코어들(1102A-N)은 아키텍처 명령어 세트에 관하여 동종일 수도 있고 이종일 수도 있는데; 즉, 코어들(1102A-N) 중 2개 이상은 동일한 명령어 세트의 실행이 가능할 수 있는 한편, 다른 것들은 그 명령어 세트의 서브세트만을 또는 상이한 명령어 세트의 실행이 가능할 수 있다.
예시적인 컴퓨터 아키텍처
도 12 내지 도 16은 예시적인 컴퓨터 아키텍처의 블록도이다. 랩톱들, 데스크톱들, 핸드헬드 PC들, 퍼스널 디지털 어시스턴트들, 엔지니어링 워크스테이션들, 서버들, 네트워크 디바이스들, 네트워크 허브들, 스위치들, 임베디드 프로세서들, DSP들(digital signal processors), 그래픽 디바이스들, 비디오 게임 디바이스들, 셋톱박스들, 마이크로 제어기들, 휴대 전화들, 휴대용 미디어 플레이어들, 핸드헬드 디바이스들, 및 다양한 다른 전자 디바이스들에 대해 본 기술분야에 알려진 다른 시스템 설계들 및 구성들 또한 적합하다. 일반적으로, 본 명세서에 개시되는 바와 같은 프로세서 및/또는 다른 실행 로직을 통합할 수 있는 매우 다양한 시스템들 또는 전자 디바이스들이 일반적으로 적합하다.
이제 도 12을 참조하면, 본 발명의 일 실시예에 따른 시스템(1200)의 블록도가 도시되어 있다. 시스템(1200)은 제어기 허브(1220)에 결합되는 하나 이상의 프로세서(1210, 1215)를 포함할 수 있다. 일 실시예에서, 제어기 허브(1220)는 그래픽 메모리 제어기 허브(GMCH)(1290) 및 입력/출력 허브(IOH)(1250)를 포함한다(이들은 별개의 칩들에 있을 수도 있음); GMCH(1290)는 메모리(1240) 및 코프로세서(1245)에 결합되는 메모리 및 그래픽 제어기를 포함한다; IOH(1250)는 입력/출력(I/O) 디바이스(1260)를 GMCH(1290)에 결합한다. 대안적으로, 메모리 및 그래픽 제어기들 중 하나 또는 둘 다는 프로세서 내에 통합되고(본 명세서에 설명된 바와 같이), 메모리(1240) 및 코프로세서(1245)는 IOH(1250)와 단일 칩에 있는 제어기 허브(1220) 및 프로세서(1210)에 직접 결합된다.
추가 프로세서들(1215)의 선택적 속성은 도 12에서 파선들로 표시되어 있다. 각각의 프로세서(1210, 1215)는 본 명세서에 설명된 하나 이상의 처리 코어를 포함할 수 있고 프로세서(1100)의 일부 버전일 수 있다.
메모리(1240)는 예를 들어, DRAM(dynamic random access memory), PCM(phase change memory), 또는 이 둘의 조합일 수 있다. 적어도 하나의 실시예에서, 제어기 허브(1220)는 프런트사이드 버스(FSB)와 같은 멀티 드롭 버스, QPI(QuickPath Interconnect)와 같은 포인트-투-포인트 인터페이스, 또는 유사한 접속(1295)을 통해 프로세서(들)(1210, 1215)와 통신한다.
일 실시예에서, 코프로세서(1245)는, 예를 들어, 고스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다. 일 실시예에서, 제어기 허브(1220)는 통합 그래픽 가속기를 포함할 수 있다.
아키텍처, 마이크로아키텍처, 열, 전력 소비 특성, 및 그와 유사한 것을 포함하여 이점에 대한 여러 기준들의 관하여 물리적인 리소스들(1210, 1215) 간에 다양한 차이가 있을 수 있다.
일 실시예에서, 프로세서(1210)는 일반 유형의 데이터 처리 연산들을 제어하는 명령어들을 실행한다. 명령어들 내에는 코프로세서 명령어들이 임베딩될 수 있다. 프로세서(1210)는 이들 코프로세서 명령어들을 부속된 코프로세서(1245)에 의해 실행되어야 하는 유형의 것으로 인식한다. 따라서, 프로세서(1210)는 이들 코프로세서 명령어들(또는 코프로세서 명령어들을 나타내는 제어 신호들)을 코프로세서 버스 또는 다른 인터커넥트 상에서 코프로세서(1245)에 발행한다. 코프로세서(들)(1245)는 수신된 코프로세서 명령어들을 수신하고 실행한다.
이제 도 13을 참조하면, 본 발명의 실시예에 따른 제1의 더 구체적인 예시적인 시스템(1300)의 블록도가 도시되어 있다. 도 13에 도시된 바와 같이, 멀티프로세서 시스템(1300)은 포인트-투-포인트 인터커넥트 시스템이며, 포인트-투-포인트 인터커넥트(1350)를 통해 결합되는 제1 프로세서(1370) 및 제2 프로세서(1380)를 포함한다. 프로세서(1370 및 1380) 각각은 프로세서(1100)의 일부 버전일 수 있다. 본 발명의 일 실시예에서, 프로세서(1370 및 1380)는 각각 프로세서(1210 및 1215)이고, 코프로세서(1338)는 코프로세서(1245)이다. 또 다른 실시예에서, 프로세서(1370 및 1380)는 각각 프로세서(1210) 코프로세서(1245)이다.
통합 메모리 제어기(IMC) 유닛(1372 및 1382)을 각각 포함하는 프로세서(1370 및 1380)가 도시되어 있다. 프로세서(1370)는 또한 버스 제어기 유닛들의 일부로서 포인트-투-포인트(P-P) 인터페이스(1376 및 1378)를 포함한다; 유사하게, 제2 프로세서(1380)는 P-P 인터페이스(1386 및 1388)를 포함한다. 프로세서(1370 및 1380)는 P-P 인터페이스 회로(1378 및 1388)를 사용하여 포인트-투-포인트(P-P) 인터페이스(1350)를 통해 정보를 교환할 수 있다. 도 13에 도시된 바와 같이, IMC들(1372 및 1382)은 프로세서들을, 각각의 프로세서에 로컬로 부속된 메인 메모리의 일부일 수도 있는, 각각의 메모리들, 즉, 메모리(1332) 및 메모리(1334)에 결합한다.
프로세서(1370, 1380)는 각각 포인트 투 포인트 인터페이스 회로(1376, 1394, 1386, 1398)를 사용하여 별개의 P-P 인터페이스(1352, 1354)를 통해 칩셋(1390)과 정보를 교환할 수 있다. 칩셋(1390)은 선택적으로 고성능 인터페이스(1339)를 통해 코프로세서(1338)와 정보를 교환할 수 있다. 일 실시예에서, 코프로세서(1338)는, 예를 들어, 고스루풋 MIC 프로세서, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, GPGPU, 임베디드 프로세서 등과 같은 특수 목적 프로세서이다.
공유 캐시(도시되지 않음)는 어느 한 프로세서에 포함되거나, 둘 다의 프로세서의 외부이지만 여전히 P-P 인터커넥트를 통해 프로세서들과 접속될 수 있어서, 프로세서가 저 전력 모드에 놓이는 경우 어느 한쪽 또는 둘 다의 프로세서의 로컬 캐시 정보가 공유된 캐시에 저장될 수 있다.
칩셋(1390)은 인터페이스(1396)를 통해 제1 버스(1316)에 결합될 수 있다. 일 실시예에서, 제1 버스(1316)는 PCI(Peripheral Component Interconnect) 버스, 또는 PCI 익스프레스 버스 또는 또 다른 3세대 I/O 인터커넥트 버스와 같은 버스일 수 있지만, 본 발명의 범위는 그에 한정되지는 않는다.
도 13에 도시된 바와 같이, 다양한 I/O 디바이스(1314)가 제1 버스(1316)를 제2 버스(1320)에 결합하는 버스 브리지(1318)와 함께 제1 버스(1316)에 결합될 수 있다. 일 실시예에서, 코프로세서, 고스루풋 MIC 프로세서, GPGPU, (예를 들어, 그래픽 가속기 또는 디지털 신호 처리(DSP) 유닛과 같은) 가속기, 필드 프로그램가능 게이트 어레이 또는 임의의 다른 프로세서와 같은 하나 이상의 추가 프로세서(들)(1315)가 제1 버스(1316)에 결합된다. 일 실시예에서, 제2 버스(1320)는 LPC(low pin count) 버스일 수 있다. 일 실시예에서, 예를 들어, 키보드 및/또는 마우스(1322), 통신 디바이스(1327) 및 명령어/코드 및 데이터(1330)를 포함할 수 있는 디스크 드라이브 또는 다른 대용량 저장 디바이스와 같은 저장 유닛(1328)을 포함하는 다양한 디바이스가 제2 버스(1320)에 결합될 수 있다. 또한, 오디오 I/O(1324)가 제2 버스(1320)에 결합될 수 있다. 다른 아키텍처들도 가능하다는 점에 유의한다. 예를 들어, 도 13의 포인트-투-포인트 아키텍처 대신에, 시스템은 멀티 드롭 버스 또는 다른 이러한 아키텍처를 구현할 수 있다.
이제 도 14를 참조하면, 본 발명의 실시예에 따른 제2의 더 구체적인 예시적인 시스템(1400)의 블록도가 도시되어 있다. 도 13 및 도 14에서의 유사한 요소들은 유사한 참조 번호들을 지니며, 도 14의 다른 양태들을 모호하게 하는 것을 피하기 위해 도 14로부터 도 13의 특정 양태들이 생략되었다.
도 14는 프로세서(1370, 1380)가 각각 통합 메모리 및 I/O 제어 로직("CL")(1372 및 1382)을 포함할 수 있음을 도시한다. 따라서, CL(1372, 1382)는 통합 메모리 제어기 유닛을 포함하고 I/O 제어 로직을 포함한다. 도 14는 메모리들(1332, 1334)만이 CL(1372, 1382)에 결합되는 것이 아니라, I/O 디바이스들(1414)도 또한 제어 로직(1372, 1382)에 결합되는 것을 도시한다. 레거시 I/O 디바이스들(1415)이 칩셋(1390)에 결합된다.
이제 도 15를 참조하면, 본 발명의 실시예에 따른 SoC(1500)의 블록도를 도시한다. 도 11에서의 유사한 요소들은 유사한 참조 번호들을 지닌다. 또한, 파선 박스들은 더 진보된 SoC들에 대한 선택적인 특징들이다. 도 15에서, 인터커넥트 유닛(들)(1502)은: 하나 이상의 코어(1102A-N)의 세트 및 공유 캐시 유닛(들)(1106)을 포함하는 애플리케이션 프로세서(1510); 시스템 에이전트 유닛(1110); 버스 제어기 유닛(들)(1116); 통합 메모리 제어기 유닛(들)(1114); 통합 그래픽 로직, 이미지 프로세서, 오디오 프로세서 및 비디오 프로세서를 포함할 수 있는 세트 또는 하나 이상의 코프로세서(1520); 정적 랜덤 액세스 메모리(SRAM) 유닛(1530); 직접 메모리 액세스(DMA) 유닛(1532); 및 하나 이상의 외부 디스플레이에 결합하기 위한 디스플레이 유닛(1540)에 결합된다. 일 실시예에서, 코프로세서(들)(1520)는, 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, GPGPU, 고스루풋 MIC 프로세서, 임베디드 프로세서 등과 같은 특수 목적 프로세서를 포함한다.
본 명세서에 개시된 메커니즘들의 실시예들은 하드웨어, 소프트웨어, 펌웨어, 또는 이러한 구현 접근법들의 조합으로 구현될 수 있다. 본 발명의 실시예들은 적어도 하나의 프로세서, 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함함), 적어도 하나의 입력 디바이스, 및 적어도 하나의 출력 디바이스를 포함하는 프로그램가능 시스템들 상에서 실행되는 컴퓨터 프로그램들 또는 프로그램 코드로서 구현될 수 있다.
도 13에 도시된 코드(1330)와 같은 프로그램 코드가 본 명세서에 설명된 기능을 수행하고 출력 정보를 생성하기 위해 입력 명령어에 적용될 수 있다. 출력 정보는 공지된 방식으로 하나 이상의 출력 디바이스에 적용될 수 있다. 이 애플리케이션을 위해, 처리 시스템은, 예를 들어, 디지털 신호 프로세서(DSP), 마이크로컨트롤러, 주문형 집적 회로(ASIC) 또는 마이크로프로세서와 같은 프로세서를 갖는 임의의 시스템을 포함한다.
프로그램 코드는 처리 시스템과 통신하기 위해 하이 레벨 절차형 또는 객체 지향형 프로그래밍 언어로 구현될 수 있다. 또한, 프로그램 코드는 요구되는 경우에 어셈블리 또는 머신 언어로 구현될 수 있다. 사실상, 본 명세서에 설명된 메커니즘들은 임의의 특정 프로그래밍 언어로 범위가 한정되지는 않는다. 임의의 경우에, 이 언어는 컴파일형 또는 해석형 언어일 수 있다.
적어도 하나의 실시예의 하나 이상의 양태들은, 머신에 의해 판독될 때에 이 머신으로 하여금 본 명세서에 설명된 기술들을 수행하기 위한 로직을 제조하게 하는, 프로세서 내의 다양한 로직을 표현하는 머신 판독 가능 매체 상에 저장된 대표적인 명령어들에 의해 구현될 수 있다. "IP 코어"라고 알려진 이러한 표현들은, 유형인 머신 판독 가능한 매체에 저장될 수 있으며, 로직이나 프로세서를 실제로 만드는 제작 머신 내에 로딩하기 위해 다양한 고객이나 제조 설비에 공급될 수도 있다.
이러한 머신 판독 가능 저장 매체는 하드 디스크와, 플로피 디스크, 광 디스크, CD-ROM(compact disk read-only memory), CD-RW(compact disk rewritable) 및 광자기 디스크를 포함하는 임의의 다른 유형의 디스크, DRAM(dynamic random access memory), SRAM(static random access memory), EPROM(erasable programmable read-only memory), 플래시 메모리, EEPROM(electrically erasable programmable read-only memory)과 같은 ROM(read-only memory), RAM(random access memory), PCM(phase change memory)을 포함하는 반도체 디바이스, 자기 또는 광 카드, 또는 전자 명령어들을 저장하는 데 적합한 임의의 다른 유형의 매체와 같은 저장 매체를 포함하는, 머신 또는 디바이스에 의해 제조 또는 형성되는 물품들의 비일시적이고 유형인 구성들을 포함할 수 있지만, 이들로 한정되지 않는다.
따라서, 본 발명의 실시예들은, 또한, 명령어들을 포함하거나, 또는 본 명세서에 개시되는 구조들, 회로들, 장치들, 프로세서들 및/또는 시스템 특징들을 정의하는, HDL(Hardware Description Language) 등의 설계 데이터를 포함하는 비일시적이고 유형인 머신 판독 가능 매체를 포함한다. 이러한 실시예들은 프로그램 제품들로 또한 언급될 수 있다.
에뮬레이션(바이너리 변환, 코드 모핑 등을 포함함)
일부 경우에, 명령어 변환기가 소스 명령어 세트로부터의 명령어를 타깃 명령어 세트로 변환하는 데 사용될 수 있다. 예를 들어, 명령어 변환기는 명령어를 코어에 의해 처리될 하나 이상의 다른 명령어로(예를 들어, 정적 바이너리 변환, 동적 컴파일(dynamic compilation)을 포함하는 동적 바이너리 변환을 이용하여) 번역하거나, 모핑하거나, 에뮬레이트하거나, 또는 다른 방식으로 변환할 수 있다. 명령어 변환기는 소프트웨어, 하드웨어, 펌웨어 또는 이들의 조합으로 구현될 수 있다. 명령어 변환기는 온 프로세서(on processor), 오프 프로세서(off processor), 또는 부분 온 및 부분 오프 프로세서(part on and part off processor)일 수 있다.
도 16은 본 발명의 실시예들에 따른 소스 명령어 세트에서의 바이너리 명령어들을 타깃 명령어 세트에서의 바이너리 명령어들로 변환하는 소프트웨어 명령어 변환기의 사용을 대조하는 블록도이다. 도시된 실시예에서, 명령어 변환기는 소프트웨어 명령어 변환기이지만, 대안적으로 명령어 변환기는 소프트웨어, 펌웨어, 하드웨어 또는 이들의 다양한 조합으로 구현될 수 있다. 도 16은 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1616)에 의해 기본적으로 실행될 수 있는 x86 바이너리 코드(1606)를 생성하기 위해 하이 레벨 언어(1602)의 프로그램이 x86 컴파일러(1604)를 사용하여 컴파일될 수 있는 것을 도시한다. 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1616)는, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 결과를 달성하기 위해서, (1) 인텔 x86 명령어 세트 코어의 명령어 세트의 상당부 또는 (2) 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서 상에서 실행되도록 되어 있는 오브젝트 코드 버전의 애플리케이션들 또는 다른 소프트웨어를 호환가능하게 실행하거나 또는 다른 방식으로 처리함으로써, 적어도 하나의 x86 명령어 세트 코어를 갖는 인텔 프로세서와 실질적으로 동일한 기능을 수행할 수 있는 임의의 프로세서를 나타낸다. x86 컴파일러(1604)는, 추가 연계 처리(linkage processing)를 수반하거나 수반하지 않고서 적어도 하나의 x86 명령어 세트 코어를 갖는 프로세서(1616)상에서 실행될 수 있는 x86 바이너리 코드(1606)(예를 들어, 오브젝트 코드)를 발생하도록 동작할 수 있는 컴파일러를 나타낸다. 유사하게, 도 16은 적어도 하나의 x86 명령어 세트 코어가 없는 프로세서(1614)(예를 들어, 미국 캘리포니아주 서니베일 소재의 MIPS Technologies의 MIPS 명령어 세트를 실행하는 및/또는 미국 캘리포니아주 서니베일 소재의 ARM Holdings의 ARM 명령어 세트를 실행하는 코어들을 갖는 프로세서)에 의해 기본적으로 실행될 수 있는 대안 명령어 세트 바이너리 코드(1610)를 생성하기 위해 하이 레벨 언어(1602)의 프로그램이 대안 명령어 세트 컴파일러(1608)를 사용하여 컴파일될 수 있다는 것을 나타낸 것이다. 명령어 변환기(1612)는 x86 바이너리 코드(1606)를 x86 명령어 세트 코어를 구비하지 않은 프로세서(1614)에 의해 기본적으로 실행될 수 있는 코드로 변환하는 데 사용된다. 이러한 변환된 코드는 대안적인 명령어 세트 바이너리 코드(1610)와 동일할 가능성이 낮은데, 그 이유는 이것을 할 수 있는 명령어 변환기가 제조되기 어렵기 때문이다; 그러나, 변환된 코드는 일반 연산을 달성할 것이며, 대안적인 명령어 세트로부터의 명령어들로 이루어질 것이다. 따라서, 명령어 변환기(1612)는 에뮬레이션, 시뮬레이션, 또는 임의의 다른 처리를 통해 x86 명령어 세트 프로세서 또는 코어를 갖지 않는 프로세서 또는 다른 전자 디바이스로 하여금 x86 바이너리 코드(1606)를 실행하도록 허용하는 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 나타낸다.
도 2 내지 도 6 중 임의의 것에 대해 설명된 컴포넌트, 특징, 및 세부 사항은 또한 선택적으로 도 1, 도 7, 및 도 8 중 임의의 것에 적용될 수 있다. 또한, 임의의 장치에 대해 설명된 컴포넌트, 특징, 및 세부 사항은 또한 선택적으로, 실시예들에서 그러한 장치에 의해 및/또는 그러한 장치에 의해 수행될 수 있는 임의의 방법에 적용될 수 있다. 본 명세서에 설명된 프로세서들 중 임의의 것은 본 명세서에 개시된 컴퓨터 시스템들(예를 들어, 도 12 내지 도 15) 임의의 것에 포함될 수 있다. 일부 실시예들에서, 컴퓨터 시스템은 인터커넥트, 인터커넥트와 결합된 프로세서, 인터커넥트와 결합된 DRAM(dynamic random access memory)을 포함할 수 있다. 대안적으로, DRAM 대신에, 리프레시될 필요가 없는 다른 유형의 휘발성 메모리가 사용될 수 있거나, 플래시 메모리가 사용될 수 있다.
본 설명 및 청구항들에서, "결합된(coupled)" 및/또는 "연결된(connected)"이라는 용어들이 그 파생어들과 함께 사용되었을 수 있다. 이들 용어들은 서로에 대한 동의어로서 의도되지는 않는다. 오히려, 실시예들에서, "연결된"은 2개 이상의 요소들이 서로 직접 물리적으로 그리고/또는 전기적으로 접촉하는 것을 나타내기 위해 사용될 수 있다. "결합된"은 2개 이상의 요소들이 서로 직접 물리적으로 그리고/또는 전기적으로 접촉하는 것을 의미할 수 있다. 그러나, "결합된"은 2개 이상의 요소들이 서로 직접 접촉을 이루지는 않지만 여전히 서로 협업하거나 또는 상호작용하는 것을 또한 의미할 수 있다. 예를 들어, 디코드 유닛은 하나 이상의 중간 유닛, 모듈, 또는 다른 컴포넌트를 통해 스레드 스케줄러 모듈 및/또는 동기화 모듈과 결합될 수 있다. 도면에서, 화살표들은 연결들 및 결합들을 보여주는 데 사용된다.
본 설명 및/또는 청구항들에서, "로직", "유닛", "모듈" 또는 "컴포넌트"라는 용어들이 사용되었을 수 있다. 이들 용어들 각각은 하드웨어, 펌웨어, 소프트웨어 또는 이들의 다양한 조합들을 지칭하는 데 사용될 수 있다. 예시적인 실시예들에서, 이들 용어들 각각은 집적 회로, 주문형 집적 회로, 아날로그 회로, 디지털 회로, 프로그램된 로직 디바이스, 명령어들 등을 포함한 메모리 디바이스, 및 이들의 다양한 조합들을 지칭할 수 있다. 일부 실시예들에서, 이들은 적어도 일부 하드웨어(예를 들어, 트랜지스터들, 게이트들, 다른 회로 컴포넌트들 등)를 포함할 수 있다.
"및/또는"이라는 용어가 사용되었을 수 있다. 본 명세서에서 사용되는 바와 같이, "및/또는"이란 용어는 하나 또는 나머지 또는 둘 다를 의미한다(예를 들어, A 및/또는 B는 A 또는 B 또는 A와 B 둘 다를 의미한다).
상기 설명에서는, 실시예들의 충분한 이해를 제공하기 위해 구체적 상세 사항들이 제시되었다. 그러나 다른 실시예들이 이들 구체적 상세 사항의 일부 없이 실시될 수 있다. 본 발명의 범위는 위에서 제공되는 특정한 예들에 의해서가 아니라 이하의 청구항들에 의해서만 결정되어야 한다. 다른 경우들에서, 잘 알려진 회로들, 구조들, 디바이스들, 및 동작들은 설명의 이해를 불명료하게 하는 것을 회피하기 위해 블록도 형태로 및/또는 상세 사항 없이 도시되었다. 적절한 것으로 고려되는 경우, 참조 번호들 또는 참조 번호들의 종단 부분들은, 달리 특정되거나 명백하게 자명하지 않는 한, 선택적으로 유사하거나 동일한 특성들을 가질 수 있는 대응하는 또는 유사한 요소들을 지시하기 위해 도면들 사이에서 반복되었다.
소정 동작들은 하드웨어 컴포넌트들에 의해 수행될 수 있거나, 또는 머신 실행가능 또는 회로 실행가능 명령어들로 구현될 수 있으며, 이 명령어들은 이 명령어들로 프로그램된 머신, 회로, 또는 하드웨어 컴포넌트(예를 들어, 프로세서, 프로세서의 일부, 회로 등)가 동작들을 수행하는 것을 야기하고/하거나 초래하는 데 사용될 수 있다. 동작들은 선택적으로 하드웨어와 소프트웨어의 조합에 의해 수행될 수도 있다.
프로세서, 머신, 회로 또는 하드웨어는, 명령어를 실행 및/또는 처리하고, 명령어에 응답하여 결과를 저장하도록 동작하는 특정 또는 특정한 회로 또는 다른 로직(예를 들어, 펌웨어 및/또는 소프트웨어와 잠재적으로 조합되는 하드웨어)을 포함할 수 있다.
일부 실시예들은 머신 판독가능 매체를 포함하는 제조물(예를 들어, 컴퓨터 프로그램 제품)을 포함한다. 매체는 머신에 의해 판독가능한 형태로 정보를 제공하는, 예를 들어 저장하는 메커니즘을 포함할 수 있다. 머신 판독가능 매체는, 머신에 의해 실행되는 경우 그리고/또는 실행될 때 이 머신으로 하여금 본 명세서에 개시된 하나 이상의 연산들, 방법들 또는 기술들을 수행하게 하고/하거나 이 머신이 이들을 수행하는 결과를 가져오도록 동작하는 명령어 또는 명령어들의 시퀀스를 제공하거나 저장하고 있을 수 있다.
일부 실시예들에서, 머신 판독가능 매체는 비일시적 머신 판독가능 저장 매체를 포함할 수 있다. 예를 들어, 비일시적 머신 판독가능 저장 매체는, 플로피 디스켓, 광 저장 매체, 광 디스크, 광 데이터 저장 디바이스, CD-ROM, 자기 디스크, 광자기 디스크, ROM(read only memory), PROM(Programmable ROM), EPROM(erasable-and-programmable ROM), EEPROM(electrically-erasable-and-programmable ROM), RAM(random access memory), SRAM(static-RAM), DRAM(dynamic-RAM), 플래시 메모리, 상 변화 메모리, 상 변화 데이터 저장 재료, 비휘발성 메모리, 비휘발성 데이터 저장 디바이스, 비일시적 메모리, 비일시적 데이터 저장 디바이스 등을 포함할 수 있다. 비일시적 머신 판독가능 저장 매체는 일시적으로 전파되는 신호로 이루어지지 않는다. 일부 실시예에서, 이 저장 매체는 고형물을 포함하는 유형 매체를 포함할 수 있다.
적합한 머신들의 예들은 범용 프로세서, 특수 목적 프로세서, 디지털 로직 회로, 집적 회로, 또는 등등을 포함하지만, 이에 한정되지는 않는다. 적합한 머신들의 또 다른 예들은, 프로세서, 디지털 논리 회로, 또는 집적 회로를 포함하는 컴퓨터 시스템 또는 다른 전자 디바이스를 포함한다. 이러한 컴퓨터 시스템들 및 전자 디바이스들의 예들은 데스크톱 컴퓨터들, 랩톱 컴퓨터들, 노트북 컴퓨터들, 태블릿 컴퓨터들, 넷북들, 스마트폰들, 셀룰러 폰들, 서버들, 네트워크 디바이스들(예를 들어, 라우터들 및 스위치들), 모바일 인터넷 디바이스(MID)들, 미디어 플레이어들, 스마트 텔레비전들, 넷톱들, 셋톱 박스들, 및 비디오 게임 제어기들을 포함하지만, 이에 한정되지는 않는다.
본 명세서 전반에 걸쳐서, "일 실시예", "실시예", "하나 이상의 실시예", "일부 실시예들"에 대한 언급은, 예를 들어, 특정한 특징이 본 발명의 실시에 포함될 수 있지만 반드시 그럴 필요는 없다는 것을 지시한다. 유사하게, 본 개시를 간소화하고 다양한 본 발명의 양태들의 이해를 도울 목적으로, 설명에서는 다양한 특징들이 때때로 단일 실시예에서, 도면, 또는 그의 설명에서 함께 그룹화된다. 그러나 이러한 개시의 방법은 본 발명이 각각의 청구항에 명백하게 기재된 것보다 많은 피처를 요구하는 의도를 반영하는 것으로서 해석해서는 안 된다. 오히려, 이하 청구항들에 반영된 바와 같이, 본 발명의 양태들은 단일 개시된 실시예의 모든 특징들보다 적은 것에 있다. 따라서, 상세한 설명을 뒤따르는 청구항들은 이로써 본 상세한 설명 내로 명백하게 통합되고, 각각의 청구항은 본 발명의 별개의 실시예로서 자립한다.
예시적인 실시예들
다음의 예들은 추가 실시예들에 관한 것이다. 이러한 예들에서의 구체적인 사항들은 하나 이상의 실시예에서 어디에서든 사용될 수 있다.
예 1은 복수의 프로세서 요소, 및 소프트웨어 스레드의 사용자-레벨 포크 명령어를 수행하는 제1 프로세서 요소를 포함하는 프로세서 또는 다른 장치이다. 상기 제1 프로세서 요소는 상기 사용자-레벨 포크 명령어를 디코딩하는 디코더를 포함한다. 상기 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시하는 것이다. 상기 제1 프로세서 요소는 또한 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성하는 사용자-레벨 스레드 포크 모듈을 포함한다.
예 2는 예 1의 프로세서를 포함하고, 상기 디코더는 선택적으로 단일 명령어 어드레스를 지시하는 것인 사용자-레벨 포크 명령어를 디코딩하는 것이고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 상기 선택적 단일 명령어 어드레스를 저장하는 것이다.
예 3은 예 1의 프로세서를 포함하고, 상기 디코더는 선택적으로 복수의 상이한 명령어 어드레스를 지시하는 것인 사용자-레벨 포크 명령어를 디코딩하는 것이고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 선택적으로 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 상기 복수의 상이한 명령어 어드레스 중 상이한 것을 저장하는 것이다.
예 4는 예 1 내지 예 3 중 어느 하나의 프로세서를 포함하고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 선택적으로 상기 제1 프로세서 요소의 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 각각에 제공하는 것이다.
예 5는 예 4의 프로세서를 포함하고, 상기 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 각각에 제공하는 것은 선택적으로 상기 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 것인 복수의 메모리 위치 각각에 저장하는 것을 포함한다.
예 6은 예 1 내지 예 5 중 어느 하나의 프로세서를 포함하고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 각각을 선택적으로 관리 시스템 소프트웨어로부터의 개입 없이 병렬로 상기 명령어들을 수행하도록 구성하는 것이다.
예 7은 예 1 내지 예 6 중 어느 하나의 프로세서를 포함하고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 선택적으로 상기 제1 프로세서 요소로 하여금 상기 소프트웨어 스레드의 명령어들의 수행을 중지하고, 선택적으로 동기화 장벽에서 대기하게 하는 것이다.
예 8은 예 1 내지 예 6 중 어느 하나의 프로세서를 포함하고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 선택적으로 상기 제1 프로세서 요소로 하여금 상기 소프트웨어 스레드의 명령어들의 수행을 중지하게 하지 않는다.
예 9는 예 1 내지 예 8 중 어느 하나의 프로세서를 포함하고, 상기 복수의 프로세서 요소 각각은 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행하는 것이고, 상기 복수의 프로세서 요소 각각은 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 디코딩하는 디코더, 및 사용자-레벨 동기화된 스레드 종료 모듈을 포함하고, 상기 사용자-레벨 동기화된 스레드 종료 모듈은, 상기 대응하는 사용자-레벨 동기화 및 종료 명령어가 디코딩되는 것에 응답하여, 그것이 포함되어 있는 대응하는 프로세서 요소로 하여금 추가 명령어들의 수행을 중지하고, 상기 복수의 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료할 때까지 대기하고, 상기 복수의 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료한 후에, 상기 제1 프로세서 요소에서 수행될 상기 소프트웨어 스레드의 제2 명령어에 제어를 넘겨주게 하는 것이다.
예 10은 예 9의 프로세서를 포함하고, 각각의 사용자-레벨 동기화된 스레드 종료 모듈은, 상기 대응하는 사용자-레벨 동기화 및 종료 명령어가 디코딩되는 것에 응답하여, 선택적으로 하나 이상의 플래그와 관련된 하나 이상의 에러 상태의 지시를 상기 제1 프로세서 요소에 전달하는 것이다.
예 11은 예 1 내지 예 10 중 어느 하나의 프로세서를 포함하고, 상기 제1 프로세서 요소는 선택적으로 상기 복수의 프로세서 요소 각각의 명령어 세트에 또한 포함되는 명령어들을 포함하는 명령어 세트를 갖는다.
예 12는 예 1 내지 예 11 중 어느 하나의 프로세서를 포함하고, 상기 제1 프로세서 요소는 선택적으로 상기 복수의 프로세서 요소 각각보다 더 낮은 평균 명령어 수행 대기 시간을 갖는다.
예 13은 예 1 내지 예 11 중 어느 하나의 프로세서를 포함하고, 상기 제1 프로세서 요소는 선택적으로 명령어 실행이 상기 복수의 프로세서 요소 각각의 마이크로아키텍처보다 더 비순차적인 마이크로아키텍처를 갖는다.
예 14는 예 1 내지 예 11 중 어느 하나의 프로세서를 포함하고, 상기 제1 프로세서 요소는 선택적으로 비순차적으로 실행된 것인 명령어들의 결과들을 원래의 프로그램 순서의 아키텍처 상태로 커밋하는 커밋 유닛을 갖고, 상기 복수의 프로세서 요소 각각은 커밋 유닛을 갖지 않는다.
예 15는 예 1 내지 예 11 중 어느 하나의 프로세서를 포함하고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 선택적으로 상기 복수의 프로세서 요소 중 적어도 20개의 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성하는 것이고, 상기 복수의 프로세서 요소 중 상기 적어도 20개의 프로세서 요소는 모두 단일 디코더를 공유한다.
예 16은 예 1 내지 예 11 중 어느 하나의 프로세서를 포함하고, 분기들을 예측하는 분기 예측 유닛, 상기 분기 예측 유닛과 결합된 명령어 프리페치 유닛 - 상기 명령어 프리페치 유닛은 상기 사용자-레벨 포크 명령어를 포함하는 명령어들을 프리페치하는 것임 -, 상기 명령어 프리페치 유닛과 결합된 레벨 1(L1) 명령어 캐시 - 상기 L1 명령어 캐시는 명령어들을 저장하는 것임 -, 데이터를 저장하는 L1 데이터 캐시, 데이터 및 명령어들을 저장하는 레벨 2(L2) 캐시, 상기 디코드 유닛, 상기 L1 명령어 캐시, 및 상기 L2 캐시와 결합되어, 상기 L1 명령어 캐시 및 상기 L2 캐시 중 하나로부터 상기 사용자-레벨 포크 명령어를 페치하고, 상기 사용자-레벨 포크 명령어를 상기 디코드 유닛에 제공하는 명령어 페치 유닛, 레지스터들을 리네이밍하는 레지스터 리네임 유닛, 실행을 위해 상기 사용자-레벨 포크 명령어로부터 디코딩된 하나 이상의 연산을 스케줄링하는 스케줄러, 및 커밋 유닛을 추가로 포함한다.
예 17은 제1 프로세서 요소에서, 소프트웨어 스레드의 사용자-레벨 포크 명령어를 수신하는 단계를 포함하는 프로세서에서의 방법이다. 상기 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시한다. 이 방법은 또한, 상기 제1 프로세서 요소를 이용하여, 복수의 추가 프로세서 요소 각각을, 상기 사용자-레벨 포크 명령어에 응답하여, 병렬로 명령어들을 수행하도록 구성하는 단계를 포함한다. 상기 복수의 추가 프로세서 요소 각각은 상기 사용자-레벨 포크 명령어에 의해 지시된 상기 적어도 하나의 명령어 어드레스 중의 명령어 어드레스에서 명령어들을 수행하기 시작하는 것이다.
예 18은 예 17의 방법을 포함하고, 수신하는 단계는 단일 명령어 어드레스를 지시하는 상기 사용자-레벨 포크 명령어를 수신하는 단계를 포함하고, 구성하는 단계는 상기 단일 명령어 어드레스를 상기 복수의 추가 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 저장하는 단계를 포함한다.
예 19는 예 17의 방법을 포함하고, 수신하는 단계는 복수의 명령어 어드레스를 지시하는 상기 사용자-레벨 포크 명령어를 수신하는 단계를 포함하고, 구성하는 단계는 상기 복수의 명령어 어드레스 각각을 상기 복수의 추가 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 중 상이한 것에 저장하는 단계를 포함한다.
예 20은 예 17 내지 예 19 중 어느 하나의 방법을 포함하고, 구성하는 단계는 상기 복수의 추가 프로세서 요소 각각에 대해 상기 제1 프로세서 요소의 아키텍처 상태의 복사본을 저장하는 단계를 포함한다.
예 21은 예 17 내지 예 20 중 어느 하나의 방법을 포함하고, 구성하는 단계는 상기 제1 프로세서 요소가 상기 복수의 추가 프로세서 요소 각각을 관리 시스템 소프트웨어로부터의 개입 없이 병렬로 상기 명령어들을 수행하도록 구성하는 단계를 포함한다.
예22는 예 17 내지 예 21 중 어느 하나의 방법을 포함하고, 상기 제1 프로세서 요소가, 상기 사용자-레벨 포크 명령어를 수행하는 것에 응답하여 상기 소프트웨어 스레드의 명령어들의 수행을 중지하고, 동기화 장벽에서 대기하는 단계를 추가로 포함한다.
예 23은 예 17 내지 예 22 중 어느 하나의 방법을 포함하고, 상기 복수의 추가 프로세서 요소 각각이, 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행하는 것에 응답하여 추가 명령어들의 수행을 중지하는 단계, 상기 복수의 추가 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료할 때까지 대기하는 단계, 및 상기 복수의 추가 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료한 후에, 상기 소프트웨어 스레드의 제2 명령어에 제어를 넘겨주는 단계를 추가로 포함한다.
예 24는 예 23의 방법을 포함하고, 상기 복수의 추가 프로세서 요소 각각이, 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행하는 것에 응답하여, 에러 상태 정보를 상기 제1 프로세서 요소에 전달하는 단계를 추가로 포함한다.
예 25는 예 17 내지 예 24 중 어느 하나의 방법을 포함하고, 상기 복수의 추가 프로세서 요소 각각이 상기 제1 프로세서 요소의 명령어 세트에 포함된 명령어들을 디코딩하는 단계를 추가로 포함한다.
예 26은 예 17 내지 예 25 중 어느 하나의 방법을 포함하고, 상기 제1 프로세서 요소에서 비순차적으로 명령어들을 실행하는 단계, 및 상기 복수의 추가 프로세서 요소 각각에서 순차적으로 명령어들을 실행하는 단계를 추가로 포함한다.
예 27은 명령어들을 처리하기 위한 컴퓨터 시스템 또는 다른 시스템으로서, 인터커넥트, 상기 인터커넥트와 결합된 프로세서 - 상기 프로세서는 복수의 프로세서 요소 및 소프트웨어 스레드의 사용자-레벨 포크 명령어를 수행하는 제1 프로세서 요소를 포함하고, 상기 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시하는 것이고, 상기 제1 프로세서 요소는, 상기 사용자-레벨 포크 명령어에 응답하여, 상기 복수의 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성하는 것임 -, 및 상기 인터커넥트와 결합된 DRAM(dynamic random access memory)을 포함하고, 상기 DRAM은 적어도 하나의 사용자-레벨 포크 명령어를 포함하는 코드를 저장한다.
예 28은 예 27의 시스템이고, 상기 제1 프로세서 요소는 명령어 실행이 상기 복수의 프로세서 요소 각각의 마이크로아키텍처보다 더 비순차적인 마이크로아키텍처를 갖고, 상기 제1 프로세서 요소는 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 적어도 20개의 프로세서 요소 각각을 병렬로 상기 명령어들을 수행하도록 구성하는 것이다.
예 29. 비일시적 머신 판독 가능 저장 매체를 포함하는 제조품으로서, 상기 비일시적 머신 판독 가능 저장 매체는 사용자-레벨 포크 명령어를 저장하고, 상기 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시하는 것이고, 상기 사용자-레벨 포크 명령어는 프로세서의 제1 프로세서 요소에 의해 실행되는 경우 상기 제1 프로세서 요소로 하여금 상기 사용자-레벨 포크 명령어에 응답하여 상기 프로세서의 복수의 추가 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성하는 것을 포함하는 동작들을 수행하게 하는 것이고, 상기 복수의 추가 프로세서 요소 각각은 상기 사용자-레벨 포크 명령어에 의해 지시된 상기 적어도 하나의 명령어 어드레스 중의 명령어 어드레스에서 명령어들을 수행하기 시작하는 것이고, 상기 복수의 추가 프로세서 요소 각각은 상기 제1 프로세서 요소의 비순차적 명령어 실행 파이프라인보다 더 순차적인 명령어 실행 파이프라인을 갖는다.
예 30은 예 29의 제조품을 포함하고, 실행되는 경우 상기 복수의 추가 프로세서 요소 중의 추가 프로세서 요소가 상기 추가 프로세서 요소로 하여금 추가 명령어들의 수행을 중지하는 것, 및 상기 복수의 추가 프로세서 요소 각각이 동기화 장벽에 도달할 때까지 상기 동기화 장벽에서 대기하는 것을 포함하는 동작들을 수행하도록 하는 것인 사용자-레벨 동기화 및 종료 명령어를 추가로 포함한다.
예 31은 예 17 내지 예 26 중 어느 하나의 방법을 수행하거나 수행하도록 동작하는 프로세서 또는 다른 장치이다.
예 32는 예 17 내지 예 26 중 어느 하나의 방법을 수행하기 위한 수단을 포함하는 프로세서 또는 다른 장치이다.
예 33은 예 17 내지 예 26 중 어느 하나의 방법을 수행하기 위한 모듈들 및/또는 유닛들 및/또는 로직 및/또는 회로 및/또는 수단의 임의의 조합을 포함하는 프로세서이다.
예 34는 프로세서, 컴퓨터 시스템, 전자 디바이스, 또는 다른 머신에 의해 실행되는 경우 및/또는 실행될 때, 상기 머신으로 하여금 예 17 내지 예 21 중 어느 하나의 방법을 수행하게 하도록 동작하는 명령어를 선택적으로 저장하거나 다른 방법으로 제공하는, 선택적으로 비일시적인 머신 판독 가능 매체를 포함하는 제조물이다.
예 35는 버스 또는 다른 인터커넥트, 상기 인터커넥트와 결합된 예 1 내지 예 16 중 어느 하나의 프로세서, 및 선택적 DRAM(dynamic random access memory), 선택적 정적 RAM, 선택적 플래시 메모리, 선택적 그래픽 제어기 또는 칩, 선택적 비디오 카드, 선택적 무선 통신 칩, 선택적 무선 송수신기, 선택적 GSM(Global System for Mobile Communications) 안테나, 선택적 코프로세서(예를 들어, CISC 코프로세서), 선택적 오디오 디바이스, 선택적 오디오 입력 디바이스, 선택적 오디오 출력 디바이스, 선택적 비디오 입력 디바이스(예를 들어, 비디오 카메라), 선택적 네트워크 인터페이스, 선택적 통신 인터페이스, 선택적 영구 메모리(예를 들어, 선택적 상변화 메모리, 멤리스터 등) 및 이들의 조합들 중에서 선택되는 상기 인터커넥트와 결합된 하나 이상의 컴포넌트를 포함하는 포함하는 컴퓨터 시스템 또는 다른 전자 디바이스이다.
예 36은 실질적으로 본 명세서에 설명된 바와 같은 임의의 사용자-레벨 포크 명령어를 수행하는(예를 들어, 수행하는 컴포넌트들을 갖는 또는 수행하도록 동작하는) 프로세서 또는 다른 장치이다.
예 37은 실질적으로 본 명세서에 설명된 바와 같은 임의의 사용자-레벨 동기화 및 종료 명령어를 수행하는(예를 들어, 수행하는 컴포넌트들을 갖는 또는 수행하도록 동작하는) 프로세서 또는 다른 장치이다.
예 38은 제1 명령어 세트의 명령어들을 디코딩하는 디코드 유닛을 갖는 프로세서를 포함하는 컴퓨터 시스템 또는 다른 전자 디바이스이다. 상기 프로세서는 또한 하나 이상의 실행 유닛을 포함한다. 이 전자 디바이스는 또한 상기 프로세서와 결합된 저장 디바이스를 포함한다. 상기 저장 디바이스는 실질적으로 본 명세서에 개시된 바와 같은 명령어들(예를 들어, 상기 사용자-레벨 포크 명령어 또는 상기 사용자-레벨 동기화 및 조인 명령어) 중 임의의 것일 수 있고, 제2 명령어 세트의 것인 제1 명령어를 저장하는 것이다. 상기 저장 디바이스는 또한 상기 제1 명령어를 상기 제1 명령어 세트의 하나 이상의 명령어로 변환하기 위한 명령어들을 저장하는 것이다. 상기 제1 명령어 세트의 상기 하나 이상의 명령어는, 상기 프로세서에 의해 수행될 때, 상기 프로세서로 하여금 상기 제1 명령어에 의해 특정된 연산들을 수행하게 하는 것이다.
예 39는 실질적으로 본 명세서에 설명된 바와 같은 프로세서 또는 다른 장치이다.
예 40은 실질적으로 본 명세서에 설명된 바와 같은 임의의 방법을 수행하도록 동작하는 프로세서 또는 다른 장치이다.

Claims (28)

  1. 프로세서로서,
    복수의 프로세서 요소; 및
    소프트웨어 스레드의 사용자-레벨 포크 명령어(user-level fork instruction)를 수행하는 제1 프로세서 요소를 포함하고,
    상기 제1 프로세서 요소는:
    상기 사용자-레벨 포크 명령어를 디코딩하는 디코더 - 상기 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시하는 것임 -; 및
    상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성하는 사용자-레벨 스레드 포크 모듈(user-level thread fork module)을 포함하고,
    상기 복수의 프로세서 요소 각각은 대응하는 사용자-레벨 동기화 및 종료 명령어(user-level synchronize and end instruction)를 수행하는 것이고, 상기 복수의 프로세서 요소 각각은:
    상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 디코딩하는 디코더; 및
    사용자-레벨 동기화된 스레드 종료 모듈(user-level synchronized thread end module)을 포함하고,
    상기 사용자-레벨 동기화된 스레드 종료 모듈은, 상기 대응하는 사용자-레벨 동기화 및 종료 명령어가 디코딩되는 것에 응답하여, 그것이 포함되어 있는 대응하는 프로세서 요소로 하여금:
    추가 명령어들의 수행을 중지하고;
    상기 복수의 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료할 때까지 대기하고;
    상기 복수의 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료한 후에, 상기 제1 프로세서 요소에서 수행될 상기 소프트웨어 스레드의 제2 명령어에 제어를 넘겨주게(transfer) 하는 것인, 프로세서.
  2. 제1항에 있어서,
    상기 디코더는 단일 명령어 어드레스를 지시하는 것인 상기 사용자-레벨 포크 명령어를 디코딩하는 것이고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 상기 단일 명령어 어드레스를 저장하는 것인, 프로세서.
  3. 제1항에 있어서,
    상기 디코더는 복수의 상이한 명령어 어드레스를 지시하는 것인 상기 사용자-레벨 포크 명령어를 디코딩하는 것이고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 상기 복수의 상이한 명령어 어드레스 중 상이한 것을 저장하는 것인, 프로세서.
  4. 제1항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 제1 프로세서 요소의 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 각각에 제공하는 것인, 프로세서.
  5. 제4항에 있어서,
    상기 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 각각에 제공하는 것은 상기 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 것인 복수의 메모리 위치 각각에 저장하는 것을 포함하는, 프로세서.
  6. 제1항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 각각을 관리 시스템 소프트웨어로부터의 개입 없이 병렬로 상기 명령어들을 수행하도록 구성하는 것인, 프로세서.
  7. 제1항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 제1 프로세서 요소로 하여금:
    상기 소프트웨어 스레드의 명령어들의 수행을 중지하고;
    동기화 장벽(synchronization barrier)에서 대기하게 하는 것인, 프로세서.
  8. 제1항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 제1 프로세서 요소로 하여금 상기 소프트웨어 스레드의 명령어들의 수행을 중지하게 하지 않는, 프로세서.
  9. 제1항에 있어서,
    각각의 사용자-레벨 동기화된 스레드 종료 모듈은, 상기 대응하는 사용자-레벨 동기화 및 종료 명령어가 디코딩되는 것에 응답하여, 하나 이상의 플래그와 관련된 하나 이상의 에러 상태의 지시를 상기 제1 프로세서 요소에 전달(communicate)하는 것인, 프로세서.
  10. 제1항에 있어서,
    상기 제1 프로세서 요소는 상기 복수의 프로세서 요소 각각의 명령어 세트에 또한 포함되는 명령어들을 포함하는 명령어 세트를 갖는, 프로세서.
  11. 제1항에 있어서,
    상기 제1 프로세서 요소는 상기 복수의 프로세서 요소 각각보다 더 낮은 평균 명령어 수행 대기 시간(average instruction performance latency)을 갖는, 프로세서.
  12. 제1항에 있어서,
    상기 제1 프로세서 요소는 명령어 실행이 상기 복수의 프로세서 요소 각각의 마이크로아키텍처보다 더 비순차적인 마이크로아키텍처를 갖는, 프로세서.
  13. 제1항에 있어서,
    상기 제1 프로세서 요소는 비순차적으로 실행된 것인 명령어들의 결과들을 원래의 프로그램 순서의 아키텍처 상태로 커밋하는 커밋 유닛을 갖고, 상기 복수의 프로세서 요소 각각은 커밋 유닛을 갖지 않는, 프로세서.
  14. 제1항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 적어도 20개의 프로세서 요소 각각을 병렬로 상기 명령어들을 수행하도록 구성하는 것인, 프로세서.
  15. 프로세서로서,
    복수의 프로세서 요소;
    소프트웨어 스레드의 사용자-레벨 포크 명령어를 수행하는 제1 프로세서 요소;
    분기들을 예측하는 분기 예측 유닛;
    상기 분기 예측 유닛과 결합된 명령어 프리페치 유닛 - 상기 명령어 프리페치 유닛은 상기 사용자-레벨 포크 명령어를 포함하는 명령어들을 프리페치하는 것임 -;
    상기 명령어 프리페치 유닛과 결합된 레벨 1(L1) 명령어 캐시 - 상기 L1 명령어 캐시는 명령어들을 저장하는 것임 -;
    데이터를 저장하는 L1 데이터 캐시;
    데이터 및 명령어들을 저장하는 레벨 2(L2) 캐시;
    디코드 유닛, 상기 L1 명령어 캐시, 및 상기 L2 캐시와 결합되어, 상기 L1 명령어 캐시 및 상기 L2 캐시 중 하나로부터 상기 사용자-레벨 포크 명령어를 페치하고, 상기 사용자-레벨 포크 명령어를 상기 디코드 유닛에 제공하는 명령어 페치 유닛;
    상기 사용자-레벨 포크 명령어를 디코딩하는, 상기 제1 프로세서 요소의 디코더 - 상기 사용자-레벨 포크 명령어는 적어도 하나의 명령어 어드레스를 지시하는 것임 -;
    레지스터들을 리네이밍하는 레지스터 리네임 유닛;
    실행을 위해 상기 사용자-레벨 포크 명령어로부터 디코딩된 하나 이상의 연산을 스케줄링하는 스케줄러;
    상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 각각을 병렬로 명령어들을 수행하도록 구성하는, 상기 제1 프로세서 요소의 사용자-레벨 스레드 포크 모듈; 및
    커밋 유닛
    을 포함하는, 프로세서.
  16. 제15항에 있어서,
    상기 디코더는 단일 명령어 어드레스를 지시하는 것인 상기 사용자-레벨 포크 명령어를 디코딩하는 것이고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 상기 단일 명령어 어드레스를 저장하는 것인, 프로세서.
  17. 제15항에 있어서,
    상기 디코더는 복수의 상이한 명령어 어드레스를 지시하는 것인 상기 사용자-레벨 포크 명령어를 디코딩하는 것이고, 상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 복수의 프로그램 카운터 각각에 상기 복수의 상이한 명령어 어드레스 중 상이한 것을 저장하는 것인, 프로세서.
  18. 제15항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 제1 프로세서 요소의 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 각각에 제공하는 것인, 프로세서.
  19. 제18항에 있어서,
    상기 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 각각에 제공하는 것은 상기 아키텍처 상태의 복사본을 상기 복수의 프로세서 요소 중 상이한 것에 각각 대응하는 것인 복수의 메모리 위치 각각에 저장하는 것을 포함하는, 프로세서.
  20. 제15항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 각각을 관리 시스템 소프트웨어로부터의 개입 없이 병렬로 상기 명령어들을 수행하도록 구성하는 것인, 프로세서.
  21. 제15항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 제1 프로세서 요소로 하여금:
    상기 소프트웨어 스레드의 명령어들의 수행을 중지하고;
    동기화 장벽에서 대기하게 하는 것인, 프로세서.
  22. 제15항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 제1 프로세서 요소로 하여금 상기 소프트웨어 스레드의 명령어들의 수행을 중지하게 하지 않는, 프로세서.
  23. 제15항에 있어서,
    상기 복수의 프로세서 요소 각각은 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행하는 것이고, 상기 복수의 프로세서 요소 각각은:
    상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 디코딩하는 디코더; 및
    사용자-레벨 동기화된 스레드 종료 모듈을 포함하고,
    상기 사용자-레벨 동기화된 스레드 종료 모듈은, 상기 대응하는 사용자-레벨 동기화 및 종료 명령어가 디코딩되는 것에 응답하여, 그것이 포함되어 있는 대응하는 프로세서 요소로 하여금:
    추가 명령어들의 수행을 중지하고;
    상기 복수의 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료할 때까지 대기하고;
    상기 복수의 프로세서 요소 각각이 상기 대응하는 사용자-레벨 동기화 및 종료 명령어를 수행 완료한 후에, 상기 제1 프로세서 요소에서 수행될 상기 소프트웨어 스레드의 제2 명령어에 제어를 넘겨주게 하는 것인, 프로세서.
  24. 제15항에 있어서,
    상기 제1 프로세서 요소는 상기 복수의 프로세서 요소 각각의 명령어 세트에 또한 포함되는 명령어들을 포함하는 명령어 세트를 갖는, 프로세서.
  25. 제15항에 있어서,
    상기 제1 프로세서 요소는 상기 복수의 프로세서 요소 각각보다 더 낮은 평균 명령어 수행 대기 시간을 갖는, 프로세서.
  26. 제15항에 있어서,
    상기 제1 프로세서 요소는 명령어 실행이 상기 복수의 프로세서 요소 각각의 마이크로아키텍처보다 더 비순차적인 마이크로아키텍처를 갖는, 프로세서.
  27. 제15항에 있어서,
    상기 제1 프로세서 요소는 비순차적으로 실행된 것인 명령어들의 결과들을 원래의 프로그램 순서의 아키텍처 상태로 커밋하는 커밋 유닛을 갖고, 상기 복수의 프로세서 요소 각각은 커밋 유닛을 갖지 않는, 프로세서.
  28. 제15항에 있어서,
    상기 사용자-레벨 스레드 포크 모듈은, 상기 사용자-레벨 포크 명령어가 디코딩되는 것에 응답하여, 상기 복수의 프로세서 요소 중 적어도 20개의 프로세서 요소 각각을 병렬로 상기 명령어들을 수행하도록 구성하는 것이고, 상기 복수의 프로세서 요소 중 상기 적어도 20개의 프로세서 요소는 모두 단일 디코더를 공유하는, 프로세서.
KR1020177023685A 2015-03-27 2016-02-05 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어 KR102496402B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237003774A KR20230020590A (ko) 2015-03-27 2016-02-05 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/671,475 US9747108B2 (en) 2015-03-27 2015-03-27 User-level fork and join processors, methods, systems, and instructions
US14/671,475 2015-03-27
PCT/US2016/016700 WO2016160125A1 (en) 2015-03-27 2016-02-05 User-level fork and join processors, methods, systems, and instructions

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237003774A Division KR20230020590A (ko) 2015-03-27 2016-02-05 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어

Publications (2)

Publication Number Publication Date
KR20170130383A KR20170130383A (ko) 2017-11-28
KR102496402B1 true KR102496402B1 (ko) 2023-02-06

Family

ID=56975369

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020237003774A KR20230020590A (ko) 2015-03-27 2016-02-05 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어
KR1020177023685A KR102496402B1 (ko) 2015-03-27 2016-02-05 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020237003774A KR20230020590A (ko) 2015-03-27 2016-02-05 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어

Country Status (7)

Country Link
US (1) US9747108B2 (ko)
EP (1) EP3274816B1 (ko)
JP (1) JP6708335B2 (ko)
KR (2) KR20230020590A (ko)
CN (1) CN107408036B (ko)
TW (1) TWI628594B (ko)
WO (1) WO2016160125A1 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107533518B (zh) 2015-01-20 2020-09-18 乌尔特拉塔有限责任公司 用于容错对象存储器结构的分布式索引
EP3248097B1 (en) * 2015-01-20 2022-02-09 Ultrata LLC Object memory data flow instruction execution
US9971542B2 (en) 2015-06-09 2018-05-15 Ultrata, Llc Infinite memory fabric streams and APIs
US10698628B2 (en) 2015-06-09 2020-06-30 Ultrata, Llc Infinite memory fabric hardware implementation with memory
US9886210B2 (en) 2015-06-09 2018-02-06 Ultrata, Llc Infinite memory fabric hardware implementation with router
US10241676B2 (en) 2015-12-08 2019-03-26 Ultrata, Llc Memory fabric software implementation
CA3006776A1 (en) 2015-12-08 2017-06-15 Ultrata, Llc. Memory fabric operations and coherency using fault tolerant objects
US10248337B2 (en) 2015-12-08 2019-04-02 Ultrata, Llc Object memory interfaces across shared links
EP3387547B1 (en) 2015-12-08 2023-07-05 Ultrata LLC Memory fabric software implementation
US10387154B2 (en) * 2016-03-14 2019-08-20 International Business Machines Corporation Thread migration using a microcode engine of a multi-slice processor
US10318356B2 (en) * 2016-03-31 2019-06-11 International Business Machines Corporation Operation of a multi-slice processor implementing a hardware level transfer of an execution thread
US10387152B2 (en) * 2017-07-06 2019-08-20 Arm Limited Selecting branch instruction execution paths based on previous branch path performance
GB2569273B (en) 2017-10-20 2020-01-01 Graphcore Ltd Synchronization in a multi-tile processing arrangement
GB2569269B (en) * 2017-10-20 2020-07-15 Graphcore Ltd Synchronization in a multi-tile processing arrangement
GB2569274B (en) 2017-10-20 2020-07-15 Graphcore Ltd Synchronization amongst processor tiles
CN109117260B (zh) * 2018-08-30 2021-01-01 百度在线网络技术(北京)有限公司 一种任务调度方法、装置、设备和介质
EP3674939A1 (en) * 2018-12-31 2020-07-01 SafeNet, Inc. Method, system and device for managing an execution of a program relating to part or all of a first application
US11157283B2 (en) * 2019-01-09 2021-10-26 Intel Corporation Instruction prefetch based on thread dispatch commands
KR20210003370A (ko) 2019-07-02 2021-01-12 삼성전자주식회사 하드웨어 로직을 이용하여 통신 오버헤드를 감소시킨 스토리지 장치
GB2595303B (en) * 2020-05-22 2024-04-17 Advanced Risc Mach Ltd Profiling of sampled operations processed by processing circuitry
FR3121249B1 (fr) * 2021-03-29 2024-03-08 Vitesco Technologies Procédé d’implémentation d’un module logiciel défini par un graphe orienté non cyclique non imbriqué en environnement multi-cœur
US11853764B2 (en) 2021-05-14 2023-12-26 Nvidia Corporation Accelerated processing via a physically based rendering engine
US11875444B2 (en) 2021-05-14 2024-01-16 Nvidia Corporation Accelerated processing via a physically based rendering engine
US11830123B2 (en) 2021-05-14 2023-11-28 Nvidia Corporation Accelerated processing via a physically based rendering engine
US11704860B2 (en) 2021-05-14 2023-07-18 Nvidia Corporation Accelerated processing via a physically based rendering engine
US11908064B2 (en) * 2021-05-14 2024-02-20 Nvidia Corporation Accelerated processing via a physically based rendering engine
US20220391264A1 (en) * 2021-06-03 2022-12-08 Nvidia Corporation Techniques for efficiently synchronizing multiple program threads

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030014473A1 (en) * 2001-07-12 2003-01-16 Nec Corporation Multi-thread executing method and parallel processing system
US20070006231A1 (en) * 2005-06-30 2007-01-04 Hong Wang Mechanism for instruction set based thread execution on a plurality of instruction sequencers
JP2015015041A (ja) 2004-03-31 2015-01-22 インテル コーポレイション ユーザーレベルのマルチスレッドを提供する方法およびシステム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0473714A1 (en) * 1989-05-26 1992-03-11 Massachusetts Institute Of Technology Parallel multithreaded data processing system
US5812811A (en) * 1995-02-03 1998-09-22 International Business Machines Corporation Executing speculative parallel instructions threads with forking and inter-thread communication
JP2000305795A (ja) 1999-04-20 2000-11-02 Nec Corp 並列処理装置
US6651163B1 (en) * 2000-03-08 2003-11-18 Advanced Micro Devices, Inc. Exception handling with reduced overhead in a multithreaded multiprocessing system
CN1842770A (zh) * 2003-08-28 2006-10-04 美普思科技有限公司 一种在处理器中挂起和释放执行过程中计算线程的整体机制
JP4740851B2 (ja) 2003-08-28 2011-08-03 ミップス テクノロジーズ インコーポレイテッド 仮想プロセッサリソースの動的構成のための機構体
US8359513B2 (en) 2005-01-19 2013-01-22 Intel Corporation Data communications methods and apparatus
CN100492296C (zh) * 2005-04-12 2009-05-27 松下电器产业株式会社 处理器
US8010969B2 (en) 2005-06-13 2011-08-30 Intel Corporation Mechanism for monitoring instruction set based thread execution on a plurality of instruction sequencers
DE102007025397B4 (de) * 2007-05-31 2010-07-15 Advanced Micro Devices, Inc., Sunnyvale System mit mehreren Prozessoren und Verfahren zu seinem Betrieb
CN101344843B (zh) * 2007-07-10 2012-11-21 北京简约纳电子有限公司 一种指令级并行处理方法
US8769207B2 (en) * 2008-01-16 2014-07-01 Via Technologies, Inc. Caching method and apparatus for a vertex shader and geometry shader
TWI473016B (zh) * 2008-07-16 2015-02-11 Sisvel Internat S A 用以處理多視圖視訊位元串流之方法與裝置及電腦可讀媒體
JP2011090592A (ja) * 2009-10-26 2011-05-06 Sony Corp 情報処理装置とその命令デコーダ
US8667253B2 (en) * 2010-08-04 2014-03-04 International Business Machines Corporation Initiating assist thread upon asynchronous event for processing simultaneously with controlling thread and updating its running status in status register
US8561070B2 (en) * 2010-12-02 2013-10-15 International Business Machines Corporation Creating a thread of execution in a computer processor without operating system intervention
WO2012093488A1 (ja) * 2011-01-07 2012-07-12 富士通株式会社 スケジューリング方法、およびマルチコアプロセッサシステム
US9213551B2 (en) * 2011-03-11 2015-12-15 Oracle International Corporation Return address prediction in multithreaded processors
US9582287B2 (en) 2012-09-27 2017-02-28 Intel Corporation Processor having multiple cores, shared core extension logic, and shared core extension utilization instructions
US9361116B2 (en) 2012-12-28 2016-06-07 Intel Corporation Apparatus and method for low-latency invocation of accelerators
US9053025B2 (en) 2012-12-28 2015-06-09 Intel Corporation Apparatus and method for fast failure handling of instructions
US10140129B2 (en) 2012-12-28 2018-11-27 Intel Corporation Processing core having shared front end unit
US20140189333A1 (en) 2012-12-28 2014-07-03 Oren Ben-Kiki Apparatus and method for task-switchable synchronous hardware accelerators
US9542193B2 (en) * 2012-12-28 2017-01-10 Intel Corporation Memory address collision detection of ordered parallel threads with bloom filters
US9417873B2 (en) 2012-12-28 2016-08-16 Intel Corporation Apparatus and method for a hybrid latency-throughput processor
US10346195B2 (en) 2012-12-29 2019-07-09 Intel Corporation Apparatus and method for invocation of a multi threaded accelerator
WO2014190263A2 (en) * 2013-05-24 2014-11-27 Coherent Logix, Incorporated Memory-network processor with programmable optimizations
US20150007196A1 (en) 2013-06-28 2015-01-01 Intel Corporation Processors having heterogeneous cores with different instructions and/or architecural features that are presented to software as homogeneous virtual cores

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030014473A1 (en) * 2001-07-12 2003-01-16 Nec Corporation Multi-thread executing method and parallel processing system
JP2015015041A (ja) 2004-03-31 2015-01-22 インテル コーポレイション ユーザーレベルのマルチスレッドを提供する方法およびシステム
US20070006231A1 (en) * 2005-06-30 2007-01-04 Hong Wang Mechanism for instruction set based thread execution on a plurality of instruction sequencers

Also Published As

Publication number Publication date
TWI628594B (zh) 2018-07-01
CN107408036A (zh) 2017-11-28
JP2018509687A (ja) 2018-04-05
KR20230020590A (ko) 2023-02-10
WO2016160125A1 (en) 2016-10-06
KR20170130383A (ko) 2017-11-28
US9747108B2 (en) 2017-08-29
CN107408036B (zh) 2021-08-31
US20160283245A1 (en) 2016-09-29
JP6708335B2 (ja) 2020-06-10
EP3274816A4 (en) 2018-11-07
EP3274816A1 (en) 2018-01-31
EP3274816B1 (en) 2020-03-25
TW201702866A (zh) 2017-01-16

Similar Documents

Publication Publication Date Title
KR102496402B1 (ko) 사용자-레벨 포크 및 조인 프로세서, 방법, 시스템, 및 명령어
US11698787B2 (en) Interruptible and restartable matrix multiplication instructions, processors, methods, and systems
JP6526609B2 (ja) プロセッサ
JP6143872B2 (ja) 装置、方法、およびシステム
US10678541B2 (en) Processors having fully-connected interconnects shared by vector conflict instructions and permute instructions
CN108885586B (zh) 用于以有保证的完成将数据取出到所指示的高速缓存层级的处理器、方法、系统和指令
EP3014424B1 (en) Instruction order enforcement pairs of instructions, processors, methods, and systems
US10838734B2 (en) Apparatus and method for processing structure of arrays (SoA) and array of structures (AoS) data
US20200097291A1 (en) Apparatus and method for tile gather and tile scatter
US9361101B2 (en) Extension of CPU context-state management for micro-architecture state
KR20170001568A (ko) 영구 커밋 프로세서들, 방법들, 시스템들 및 명령어들
CN108701101B (zh) 处理器系统管理中断事件的基于仲裁器的串行化
US10761979B2 (en) Bit check processors, methods, systems, and instructions to check a bit with an indicated check bit value
WO2019133172A1 (en) Processor, method, and system for reducing latency in accessing remote registers

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant