KR101703401B1 - 다중 엔진 마이크로프로세서용 가속 코드 최적화기 - Google Patents
다중 엔진 마이크로프로세서용 가속 코드 최적화기 Download PDFInfo
- Publication number
- KR101703401B1 KR101703401B1 KR1020147016764A KR20147016764A KR101703401B1 KR 101703401 B1 KR101703401 B1 KR 101703401B1 KR 1020147016764 A KR1020147016764 A KR 1020147016764A KR 20147016764 A KR20147016764 A KR 20147016764A KR 101703401 B1 KR101703401 B1 KR 101703401B1
- Authority
- KR
- South Korea
- Prior art keywords
- instruction
- sequence
- optimized
- code
- optimization
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 94
- 238000005457 optimization Methods 0.000 claims abstract description 69
- 230000001419 dependent effect Effects 0.000 claims abstract description 28
- 239000011159 matrix material Substances 0.000 claims description 21
- 230000000903 blocking effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 abstract description 32
- 238000010586 diagram Methods 0.000 description 34
- 239000012634 fragment Substances 0.000 description 4
- 238000000638 solvent extraction Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005192 partition Methods 0.000 description 3
- 101100058681 Drosophila melanogaster Btk29A gene Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/30145—Instruction analysis, e.g. decoding, instruction word fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3802—Instruction prefetching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/3017—Runtime instruction translation, e.g. macros
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3802—Instruction prefetching
- G06F9/3808—Instruction prefetching for instruction reuse, e.g. trace cache, branch target cache
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3838—Dependency mechanisms, e.g. register scoreboarding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3836—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution
- G06F9/3853—Instruction issuing, e.g. dynamic instruction scheduling or out of order instruction execution of compound instructions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/30—Arrangements for executing machine instructions, e.g. instruction decode
- G06F9/38—Concurrent instruction execution, e.g. pipeline or look ahead
- G06F9/3885—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units
- G06F9/3887—Concurrent instruction execution, e.g. pipeline or look ahead using a plurality of independent parallel functional units controlled by a single instruction for multiple data lanes [SIMD]
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Advance Control (AREA)
- Devices For Executing Special Programs (AREA)
- Memory System Of A Hierarchy Structure (AREA)
Abstract
마이크로프로세서에서 코드 최적화를 가속화하는 방법이 개시된다. 상기 방법은 명령어 페치 컴포넌트를 이용하여 인입 매크로명령어 시퀀스를 페치하는 단계 및 페치된 매크로명령어를 마이크로명령어로 디코딩하는 디코딩 컴포넌트로 전달하는 단계를 포함한다. 상기 마이크로명령어 시퀀스를 복수의 의존적 코드 그룹을 포함하는 최적화된 마이크로명령어 시퀀스로 재순서화함으로써 최적화 처리가 수행된다. 그 다음에, 복수의 의존적 코드 그룹은 실행을 위해 상기 마이크로프로세서의 복수의 엔진으로 병렬로 출력된다. 최적화된 마이크로명령어 시퀀스에 대한 후속 히트시 후속 사용을 위해 최적화된 마이크로명령어 시퀀스의 사본이 시퀀스 캐시에 저장된다.
Description
관련 출원에 대한 상호 참조
본 출원은 2010년 1월 5일 모하메드 에이. 압달라(Mohammad A. Abdallah)에 의해 "APPARATUS AND METHOD FOR PROCESSING COMPLEX INSTRUCTION FORMATS IN A MULTITHREADED ARCHITECTURE SUPPORTING VARIOUS CONTEXT SWITCH MODES AND VIRTUALIZATION SCHEMES"라는 명칭으로 출원되어 동시계류중인 본 출원과 공동으로 양도된 미국 특허 출원 제2010/0161948호와 관련되며, 이 출원은 그 전체가 본 명세서에서 인용된다.
본 출원은 2008년 12월 19일 모하메드 에이. 압달라에 의해 "APPARATUS AND METHOD FOR PROCESSING AN INSTRUCTION MATRIX SPECIFYING PARALLEL IN DEPENDENT OPERATIONS"라는 명칭으로 출원되어 동시계류중인 본 출원과 공동으로 양도된 미국 특허 출원 제2009/0113170호와 관련되며, 이 출원은 그 전체가 본 명세서에서 인용된다.
본 출원은 2010년 9월 17일 모하메드 에이. 압달라에 의해 "SINGLE CYCLE MULTI-BRANCH PREDICTION INCLUDING SHADOW CACHE FOR EARLY FAR BRANCH PREDICTION"라는 명칭으로 출원되어 동시계류중인 본 출원과 공동으로 양도된 미국 특허 출원 제61/384,198호와 관련되며, 이 출원은 그 전체가 본 명세서에서 인용된다.
본 출원은 2011년 3월 25일 모하메드 에이. 압달라에 의해 "EXECUTING INSTRUCTION SEQUENCE CODE BLOCKS BY USING VIRTUAL CORES INSTANTIATED BY PARTITIONABLE ENGINES"라는 명칭으로 출원되어 동시계류중인 본 출원과 공동으로 양도된 미국 특허 출원 제61/467,944호와 관련되며, 이 출원은 그 전체가 본 명세서에서 인용된다.
발명의 분야
본 발명은 일반적으로 디지털 컴퓨터 시스템에 관한 것으로, 특히, 명령어 시퀀스(instruction sequence)를 포함하는 명령어를 선택하는 시스템 및 방법에 관한 것이다.
프로세서는 의존적이거나 완전히 독립적인 다중 태스크를 처리하는 것이 필요하다. 이러한 프로세서의 내부 상태는 일반적으로 프로그램 실행의 각 특정 순간에 상이한 값들을 유지(hold)할 수 있는 레지스터들로 이루어진다. 프로그램 실행의 각 순간에, 내부 상태 이미지는 프로세서의 아키텍처 상태로 불린다.
다른 함수(예를 들어, 다른 스레드(thread), 프로세스 또는 프로그램)을 실행하기 위해 코드 실행이 전환된 경우, 머신(machine)/프로세서의 상태는 새로운 함수가 내부 레지스터를 이용하여 그의 새로운 상태를 구축할 수 있도록 저장되어야 한다. 일단 새로운 함수가 끝나면, 그의 상태는 폐기될 수 있고 이전 콘텍스트(context)의 상태가 복원될 것이고 실행이 재개된다. 이러한 전환 처리는 콘텍스트 전환(context switch)으로 불리고 일반적으로 특히 많은 수의 레지스터(예를 들어, 64, 128, 256) 및/또는 비순차적 실행을 이용하는 현대 아키텍처의 경우 수십 또는 수백 사이클을 포함한다.
스레드 인지 하드웨어 아키텍처(thread-aware hardware architectures)에서, 하드웨어가 제한된 수의 하드웨어 지원 스레드에 대해 다중 콘텍스트의 상태를 지원하는 것이 일반적이다. 이 경우, 하드웨어는 각 지원 스레드마다 모든 아키텍처 상태 요소(architecture state element)를 이중화한다(duplicate). 이는 새로운 스레드를 실행할 때 콘텍스트 전환에 대한 필요성을 제거한다. 그러나, 이는 여전히 많은 단점, 즉 하드웨어에서 지원되는 각 추가 스레드마다 모든 아키텍처 상태 요소(즉, 레지스터)를 이중화하기 위한 면적, 전력 및 복잡도를 갖는다. 추가로, 만일 소프트웨어 스레드의 개수가 명백히 지원되는 하드웨어 스레드의 개수를 초과한 경우, 여전히 콘텍스트 전환이 수행되어야 한다.
이는 많은 수의 스레드를 요구하는 미세 단위로(on a fine granularity basis) 병렬성(parallelism)이 필요함에 따라 흔해진다. 이중화 콘텍스트-상태 하드웨어 스토리지(duplicate context-state hardware storage)를 갖는 하드웨어 스레드 인지 아키텍처는 스레드되지 않은 소프트웨어 코드(non-threaded software code)에 도움이 되지 못하고 단지 스레드된 소프트웨어에 대해 콘텍스트 전환의 수만 줄여준다. 그러나, 이러한 스레드는 일반적으로 조립자(coarse grain) 병렬성을 위해 구축되어, 개시 및 동기화를 위해 소프트 오버헤드(overhead)를 가중시키는 결과를 가져와, 효율적인 스레딩 개시/자동 생성 없이, 함수 호출 및 루프 병렬 실행과 같은 미립자(fine grain) 병렬성을 유지(leave)한다. 이러한 설명된 오버헤드는 비-명백하게/쉽게 병렬화된/스레드된 소프트웨어 코드(non-explicitly/easily parallelized/threaded software codes)에 대해 종래 기술의 컴파일러 또는 사용자 병렬화 기술을 이용한 그러한 코드의 자동 병렬화의 어려움을 수반한다.
일 실시예에서, 본 발명은 마이크로프로세서에서 코드 최적화를 가속화하는 방법으로서 구현된다. 상기 방법은 명령어 페치(fetch) 컴포넌트를 이용하여 인입(incoming) 매크로명령어(macro instruction) 시퀀스를 페치하는 단계 및 페치된 매크로명령어를 마이크로명령어로 디코딩하는 디코딩 컴포넌트로 전달하는 단계를 포함한다. 상기 마이크로명령어 시퀀스를 복수의 의존적 코드 그룹을 포함하는 최적화된 마이크로명령어 시퀀스로 재순서화(reordering)함으로써 최적화 처리가 수행된다. 다음에, 상기 복수의 의존적 코드 그룹은 실행을 위해 상기 마이크로프로세서의 복수의 엔진으로 병렬로 출력된다. 최적화된 마이크로명령어 시퀀스에 대한 후속 히트(hit)시 후속 사용을 위해 최적화된 마이크로명령어 시퀀스의 사본이 시퀀스 캐시에 저장된다.
전술한 바는 개요이므로 필요에 의해 세부 사항의 간략화, 일반화 및 생략을 포함하고; 따라서, 이 기술분야의 통상의 기술자는 이 개요가 단지 예시적이며 어떤 방식으로든 제한적인 것으로 의도되지 않음을 인식할 것이다. 오직 특허청구범위에 의해서만 규정된 바와 같은 본 발명의 다른 양태, 발명적 특징, 및 이점은 아래에 기술된 비제한적인 상세한 설명에서 명확해질 것이다.
본 발명은 첨부 도면에서 제한이 아닌 예시적으로 설명되고, 첨부 도면에서 같은 참조 부호는 유사한 구성 요소를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 마이크로프로세서의 할당/발행 스테이지의 개요도를 도시한다.
도 2는 본 발명의 일 실시예에 따른 최적화 처리를 예시하는 개요도를 도시한다.
도 3은 본 발명의 일 실시예에 따른 다단계의 최적화 처리를 도시한다.
도 4는 본 발명의 일 실시예에 따른 다단계의 최적화 및 명령어 이동 처리를 도시한다.
도 5는 본 발명의 일 실시예에 따른 예시적인 하드웨어 최적화 처리의 단계 흐름도를 도시한다.
도 6은 본 발명의 일 실시예에 따른 대안의 예시적인 하드웨어 최적화 처리의 단계 흐름도를 도시한다.
도 7은 본 발명의 일 실시예에 따른 할당/발행 스테이지의 CAM 매칭 하드웨어 및 우선순위 인코딩 하드웨어의 동작을 도시하는 도면을 도시한다.
도 8은 본 발명의 일 실시예에 따른 분기(branch) 앞에 최적화된 스케줄링을 예시하는 도면을 도시한다.
도 9는 본 발명의 일 실시예에 따른 스토어(store) 앞에 최적화된 스케줄링을 예시하는 도면을 도시한다.
도 10은 본 발명의 일 실시예에 따른 예시적인 소프트웨어 최적화 처리의 도면을 도시한다.
도 11은 본 발명의 일 실시예에 따른 SIMD 소프트웨어 기반 최적화 처리의 흐름도를 도시한다.
도 12는 본 발명의 일 실시예에 따른 예시적인 SIMD 소프트웨어 기반 최적화 처리의 동작 단계 흐름도를 도시한다.
도 13은 본 발명의 일 실시예에 따른 소프트웨어 기반 의존성 브로드캐스팅 처리(software based dependency broadcast process)를 도시한다.
도 14는 본 발명의 일 실시예에 따라 의존성 명령어 그룹화(dependency grouping of instructions)가 가변 제한된 의존성 명령어 그룹(variably bounded groups of dependent instructions)을 구축하는데 어떻게 사용될 수 있는지를 보여주는 예시적인 흐름도를 도시한다.
도 15는 본 발명의 일 실시예에 따른 계층적 명령어 스케줄링을 묘사하는 흐름도를 도시한다.
도 16은 본 발명의 일 실시예에 따른 3 슬롯 의존성 그룹 명령어의 계층적 스케줄링을 묘사하는 흐름도를 도시한다.
도 17은 본 발명의 일 실시예에 따른 3 슬롯 의존성 그룹 명령어의 계층적 이동 윈도우 스케줄링(hierarchical moving window scheduling)을 묘사하는 흐름도를 도시한다.
도 18은 본 발명의 일 실시예에 따라 가변 크기의 의존성 명령어 체인(예를 들어, 가변 제한된 명령어 그룹)이 복수의 컴퓨팅 엔진에 어떻게 할당되는지를 보여준다.
도 19는 본 발명의 일 실시예에 따라 스케줄링 큐에의 블록 할당 및 3 슬롯 의존성 그룹 명령어의 계층적 이동 윈도우 스케줄링을 묘사하는 흐름도를 도시한다.
도 20은 본 발명의 일 실시예에 따라 의존성 코드 블록(예를 들어, 의존성 그룹 또는 의존성 체인)이 엔진에서 어떻게 실행되는지를 도시한다.
도 21은 본 발명의 일 실시예에 따라 다중코어 프로세서를 위한 글로벌 프론트 엔드 페치 & 스케줄러 및 레지스터 파일, 글로벌 상호접속부 및 프래그먼트된 메모리 서브시스템(a fragmented memory subsystem)을 포함하여 복수의 엔진 및 이들의 컴포넌트의 개요도를 도시한다.
도 22는 본 발명의 일 실시예에 따른 복수의 세그먼트, 복수의 세그먼트된 공통 분할 스케줄러 및 상호접속부 및 세그먼트의 포트를 도시한다.
도 23은 본 발명의 일 실시예에 따른 예시적인 마이크로프로세서 파이프라인의 도면을 도시한다.
도 1은 본 발명의 일 실시예에 따른 마이크로프로세서의 할당/발행 스테이지의 개요도를 도시한다.
도 2는 본 발명의 일 실시예에 따른 최적화 처리를 예시하는 개요도를 도시한다.
도 3은 본 발명의 일 실시예에 따른 다단계의 최적화 처리를 도시한다.
도 4는 본 발명의 일 실시예에 따른 다단계의 최적화 및 명령어 이동 처리를 도시한다.
도 5는 본 발명의 일 실시예에 따른 예시적인 하드웨어 최적화 처리의 단계 흐름도를 도시한다.
도 6은 본 발명의 일 실시예에 따른 대안의 예시적인 하드웨어 최적화 처리의 단계 흐름도를 도시한다.
도 7은 본 발명의 일 실시예에 따른 할당/발행 스테이지의 CAM 매칭 하드웨어 및 우선순위 인코딩 하드웨어의 동작을 도시하는 도면을 도시한다.
도 8은 본 발명의 일 실시예에 따른 분기(branch) 앞에 최적화된 스케줄링을 예시하는 도면을 도시한다.
도 9는 본 발명의 일 실시예에 따른 스토어(store) 앞에 최적화된 스케줄링을 예시하는 도면을 도시한다.
도 10은 본 발명의 일 실시예에 따른 예시적인 소프트웨어 최적화 처리의 도면을 도시한다.
도 11은 본 발명의 일 실시예에 따른 SIMD 소프트웨어 기반 최적화 처리의 흐름도를 도시한다.
도 12는 본 발명의 일 실시예에 따른 예시적인 SIMD 소프트웨어 기반 최적화 처리의 동작 단계 흐름도를 도시한다.
도 13은 본 발명의 일 실시예에 따른 소프트웨어 기반 의존성 브로드캐스팅 처리(software based dependency broadcast process)를 도시한다.
도 14는 본 발명의 일 실시예에 따라 의존성 명령어 그룹화(dependency grouping of instructions)가 가변 제한된 의존성 명령어 그룹(variably bounded groups of dependent instructions)을 구축하는데 어떻게 사용될 수 있는지를 보여주는 예시적인 흐름도를 도시한다.
도 15는 본 발명의 일 실시예에 따른 계층적 명령어 스케줄링을 묘사하는 흐름도를 도시한다.
도 16은 본 발명의 일 실시예에 따른 3 슬롯 의존성 그룹 명령어의 계층적 스케줄링을 묘사하는 흐름도를 도시한다.
도 17은 본 발명의 일 실시예에 따른 3 슬롯 의존성 그룹 명령어의 계층적 이동 윈도우 스케줄링(hierarchical moving window scheduling)을 묘사하는 흐름도를 도시한다.
도 18은 본 발명의 일 실시예에 따라 가변 크기의 의존성 명령어 체인(예를 들어, 가변 제한된 명령어 그룹)이 복수의 컴퓨팅 엔진에 어떻게 할당되는지를 보여준다.
도 19는 본 발명의 일 실시예에 따라 스케줄링 큐에의 블록 할당 및 3 슬롯 의존성 그룹 명령어의 계층적 이동 윈도우 스케줄링을 묘사하는 흐름도를 도시한다.
도 20은 본 발명의 일 실시예에 따라 의존성 코드 블록(예를 들어, 의존성 그룹 또는 의존성 체인)이 엔진에서 어떻게 실행되는지를 도시한다.
도 21은 본 발명의 일 실시예에 따라 다중코어 프로세서를 위한 글로벌 프론트 엔드 페치 & 스케줄러 및 레지스터 파일, 글로벌 상호접속부 및 프래그먼트된 메모리 서브시스템(a fragmented memory subsystem)을 포함하여 복수의 엔진 및 이들의 컴포넌트의 개요도를 도시한다.
도 22는 본 발명의 일 실시예에 따른 복수의 세그먼트, 복수의 세그먼트된 공통 분할 스케줄러 및 상호접속부 및 세그먼트의 포트를 도시한다.
도 23은 본 발명의 일 실시예에 따른 예시적인 마이크로프로세서 파이프라인의 도면을 도시한다.
비록 본 발명이 일 실시예와 관련하여 설명되었지만, 본 발명은 본 명세서에 기술된 특정 형태로 제한되는 것으로 의도되지 않는다. 반대로, 첨부의 특허청구범위에 의해 규정된 바와 같은 본 발명의 범주 내에 합당하게 포함될 수 있는 바와 같은 대안, 변형, 및 균등물을 망라하는 것으로 의도된다.
후술하는 상세한 설명에서, 특정 방법 순서, 구조, 구성 요소, 및 커넥션과 같은 많은 구체적인 세부 사항이 기술되었다. 그러나, 이러한 구체적인 세부 사항 및 다른 구체적인 세부 사항이 본 발명의 실시예를 실시하는데 사용될 필요는 없음이 이해될 것이다. 다른 경우에, 이와 같은 설명을 불필요하게 불명확하게 하지 않도록 하기 위해 공지의 구조, 구성 요소, 또는 커넥션은 생략되었거나, 특별히 구체적으로 설명되지 않았다.
본 명세서 내에서 "일 실시예" 또는 "하나의 실시예"라는 언급은 그 실시예와 관련하여 기술된 특정한 특징, 구조, 또는 특성이 본 발명의 적어도 하나의 실시예에 포함된다는 것을 나타내는 것으로 의도된다. 본 명세서 내 여러 곳에서 "일 실시예에서"라는 문구의 출현은 반드시 모두가 동일한 실시예를 언급하는 것은 아니며, 별개의 또는 대안의 실시예도 다른 실시예와 상호 배타적인 것은 아니다. 또한, 일부 실시예에 의해 나타날 수 있지만 다른 실시예에 의해 나타나지 않는 다양한 특징이 기술된다. 유사하게, 일부 실시예에 대한 요건일 수 있지만 다른 실시예에 대해서는 아닌 다양한 요건이 기술된다.
다음의 상세한 설명의 일부 부분은 절차, 단계, 논리 블록, 처리, 및 컴퓨터 메모리 내의 데이터 비트에 대한 다른 동작 기호 표현으로 제시된다. 이러한 설명 및 표현은 데이터 처리 기술의 통상의 기술자에 의해 이들의 연구의 본질을 본 기술 분야의 다른 숙련자들에게 가장 효율적으로 전달하기 위해 이용되는 수단이다. 여기에는, 절차, 컴퓨터 실행 단계, 논리 블록, 프로세스 등이 있고, 이들은 일반적으로 원하는 결과를 도출하는 단계 또는 명령어들의 자기 일치(self-consistent) 시퀀스로 인식된다. 이러한 단계는 물리량에 대한 물리적 조작을 필요로 하는 것이다. 일반적으로, 반드시는 아니지만, 이러한 양은 컴퓨터 판독가능한 저장 매체의 전기 또는 자기 신호의 형태를 취하고 컴퓨터 시스템에 저장되고, 전달되고, 결합되고, 비교되고, 다른 방식으로 조작될 수 있다. 주로 일반적인 사용의 이유로, 때때로 이러한 신호를 비트, 값, 요소, 기호, 문자, 항(terms), 또는 숫자 등으로 나타내는 것이 편리한 것으로 입증되었다.
그러나, 이러한 용어 및 유사 용어는 모두 적절한 물리량과 관련될 것이며 단지 이러한 양에 적용된 편리한 표시에 불과하다는 것을 유념해야 할 것이다. 다음의 설명으로부터 명백하듯이 특별히 달리 언급되지 않는 한, 본 발명 전체에 걸쳐, "처리하는" 또는 "액세스하는" 또는 "기록하는" 또는 "저장하는" 또는 "복제하는" 등과 같은 용어를 이용하는 설명은 컴퓨터 시스템, 또는 컴퓨터 시스템의 레지스터 및 메모리 및 다른 컴퓨터 판독가능한 매체 내의 물리(전자)량으로 표현된 데이터를 조작하여 컴퓨터 시스템 메모리 또는 레지스터 또는 다른 그러한 정보 저장, 전송 또는 디스플레이 장치 내의 물리량으로 유사하게 표현된 다른 데이터로 변환하는 유사 전자 컴퓨팅 장치의 동작 및 처리를 나타낸다는 것을 이해할 것이다.
일 실시예에서, 본 발명은 마이크로프로세서에서 코드 최적화를 가속화하는 방법으로서 구현된다. 본 방법은 명령어 페치(fetch) 컴포넌트를 이용하여 인입(incoming) 매크로명령어 시퀀스를 페치하는 단계 및 페치된 매크로명령어를 마이크로명령어로 디코딩하는 디코딩 컴포넌트로 전달하는 단계를 포함한다. 마이크로명령어 시퀀스를 복수의 의존적 코드 그룹을 포함하는 최적화된 마이크로명령어 시퀀스로 재순서화(reordering)함으로써 최적화 처리가 수행된다. 최적화된 마이크로명령어 시퀀스는 실행을 위해 마이크로프로세서 파이프라인으로 출력된다. 최적화된 마이크로명령어 시퀀스에 대한 후속 히트(hit)시 후속 사용을 위해 최적화된 마이크로명령어 시퀀스의 사본이 시퀀스 캐시에 저장된다.
도 1은 본 발명의 일 실시예에 따른 마이크로프로세서(100)의 할당/발행(issue) 스테이지의 개요도를 도시한다. 도 1에 예시된 바와 같이, 마이크로프로세서(100)는 페치 컴포넌트(101), 네이티브(native) 디코드 컴포넌트(102), 및 명령어 스케줄링 및 최적화 컴포넌트(110) 및 마이크로프로세서의 나머지 파이프라인(105)을 포함한다.
도 1의 실시예에서, 페치 컴포넌트(101)에 의해 매크로명령어가 페치되고 네이티브 디코드 컴포넌트(102)에 의해 네이티브 마이크로명령어로 디코드되며, 그 다음에 마이크로명령어를 마이크로명령어 캐시(121) 및 명령어 스케줄링 및 최적화기 컴포넌트(110)로 제공한다. 일 실시예에서, 페치된 매크로명령어는 소정의 분기(branches)를 예측함으로써 어셈블링된(assembled) 명령어 시퀀스를 포함한다.
매크로명령어 시퀀스는 네이티브 디코드 컴포넌트(102)에 의해 결과적인 마이크로명령어 시퀀스로 디코딩된다. 다음에, 이러한 마이크로명령어 시퀀스는 멀티플렉서(103)를 통해 명령어 스케줄링 및 최적화 컴포넌트(110)로 전송된다. 명령어 스케줄링 및 최적화기 컴포넌트는, 예를 들어, 더 효율적인 실행을 위해 마이크로명령어 시퀀스의 특정 명령어를 재순서화하여 최적화 처리를 수행함으로써 작동한다. 이는 결과적으로 최적화된 마이크로명령어 시퀀스를 얻고 이것은 그 다음에 멀티플렉서(104)를 통해 나머지 파이프라인(105)(예를 들어, 할당, 디스패치(dispatch), 실행, 및 방출(retirement) 스테이지 등)으로 전달된다. 최적화된 마이크로명령어 시퀀스는 명령어를 더 빠르고 더 효율적으로 실행하게 한다.
일 실시예에서, 매크로명령어는 고레벨 명령어 세트 아키텍처로부터의 명령어일 수 있는 반면, 마이크로명령어는 저레벨 머신 명령어이다. 다른 실시예에서, 매크로명령어는 복수의 상이한 명령어 세트 아키텍처(예를 들어, CISC 계열, x86 RISC 계열, MIPS, SPARC, ARM, 가상 계열, 및 JAVA 등)로부터의 게스트(guest) 명령어일 수 있는 반면, 마이크로명령어는 저레벨 머신 명령어 또는 상이한 네이티브 명령어 세트 아키텍처의 명령어이다. 유사하게, 일 실시예에서, 매크로명령어는 어떤 아키텍처의 네이티브 명령어일 수 있고, 마이크로명령어는 재순서화되고 최적화된 그와 동일한 아키텍처의 네이티브 마이크로명령어일 수 있다. 예를 들어, X86 매크로명령어 및 X86 마이크로 코딩된 마이크로명령어이다.
일 실시예에서, 빈번히 발생되는 코드(예를 들어, 핫코드(hot code))의 실행 성능을 가속화하기 위해, 빈번히 발생되는 마이크로명령어 시퀀스의 사본이 마이크로명령어 캐시(121)에 캐시되고 빈번히 발생되는 최적화된 마이크로명령어 시퀀스의 사본이 시퀀스 캐시(122) 내에 캐시된다. 코드가 페치되고, 디코딩되고, 최적화되고, 실행됨에 따라, 특정 최적화된 마이크로명령어 시퀀스는 도시된 축출(eviction) 및 채움(fill) 경로(130)를 통해 시퀀스 캐시의 크기에 따라 축출되거나 페치될 수 있다. 이러한 축출 및 채움 경로는 최적화된 마이크로명령어 시퀀스를 마이크로프로세서의 메모리 계층(예를 들어, L1 캐시, L2 캐시, 또는 특수 캐시 가능 메모리 범위 등)으로 및 그로부터 전달하게 해준다.
일 실시예에서, 마이크로명령어 캐시(121)는 생략될 수 있음이 주목되어야 한다. 이러한 실시예에서, 핫코드의 가속은 시퀀스 캐시(122) 내에 최적화된 마이크로명령어 시퀀스의 저장에 의해 제공된다. 예를 들어, 마이크로명령어 캐시(121)를 생략하여 절약된 공간은, 예를 들어, 더 큰 시퀀스 캐시(122)를 구현하는데 사용될 수 있다.
도 2는 본 발명의 일 실시예에 따른 최적화 처리를 예시하는 개요도를 도시한다. 도 2의 좌측은, 예를 들어, 네이티브 디코드 컴포넌트(102) 또는 마이크로명령어 캐시(121)에서 수신된 것으로서 인입 마이크로명령어 시퀀스를 보여준다. 처음에 이들 명령어의 수신시, 이들은 최적화되지 않는다.
최적화 처리의 한가지 목적은 서로 의존하는 명령어를 찾고 그 명령어를 식별하며 이들이 좀 더 효율적으로 실행할 수 있도록 이들을 이들 각각의 의존성 그룹(dependency groups)으로 이동시키는 것이다. 일 실시예에서, 의존성 명령어 그룹은 집약성(locality)을 위해 이들 각각의 소스 및 목적지가 함께 그룹화되기 때문에 이들이 좀 더 효율적으로 실행할 수 있도록 함께 디스패치(dispatch)될 수 있다. 이러한 최적화 처리는 비순차적 프로세서뿐만 아니라 순차적 프로세서 둘 다에서 사용될 수 있음이 주목되어야 한다. 예를 들어, 순차적 프로세서 내에서, 명령어는 순차적으로 디스패치된다. 그러나, 전술한 바와 같이 이들은 의존성 명령어들이 각 그룹에 배치되어 그룹들이 독립적으로 실행할 수 있도록 이동될 수 있다.
예를 들어, 인입 명령어는, 로드(loads), 연산(operations) 및 스토어(stores)를 포함한다. 예를 들어, 명령어 1은 소스 레지스터(예를 들어, 레지스터 9 및 레지스터 9를 추가하고 그 결과를 레지스터 5에 저장하는 연산을 포함한다. 따라서, 레지스터 5는 목적지이고 레지스터 9 및 레지스터 5는 소스이다. 이러한 방식으로, 16개 명령어의 시퀀스는 도시된 바와 같이 목적지 레지스터 및 소스 레지스터를 포함한다.
도 2의 실시예는 하나의 그룹에 속하는 명령어들이 서로 의존하는 의존성 그룹을 생성하는 명령어의 재순서화를 구현한다. 이를 달성하기 위해, 16개의 인입 명령어의 로드 및 스토어에 대해 위험성 체크를 수행하는 알고리즘이 실행된다. 예를 들어, 스토어는 의존성 체크 없이 이전 로드를 이동할 수 없다. 스토어는 이전 스토어를 통과할 수 없다. 로드는 의존성 체크 없이 이전 스토어를 통과할 수 없다. 로드는 로드를 통과할 수 있다. 명령어는 재명명(renaming) 기술을 이용하여 사전 경로 예측 분기(prior path predicted branch)(예를 들어, 동적으로 구축된 분기)를 통과할 수 있다. 비-동적으로 예측된 분기의 경우, 명령어의 이동은 분기의 범위를 고려할 필요가 있다. 전술한 각 규칙은 가상 의존성을 추가함으로써(예를 들어, 명령어에 가상 소스 또는 목적지를 인위적으로 추가하여 규칙을 시행함으로써) 구현될 수 있다.
계속해서 도 2를 참조하면, 전술한 바와 같이, 최적화 처리의 목적은 의존성 명령어의 위치를 파악하고 이들을 공통 의존성 그룹으로 이동하는 것이다. 이러한 처리는 위험성 체크 알고리즘에 따라 행해져야 한다. 최적화 알고리즘은 명령어 의존성을 찾는 것이다. 명령어 의존성은 사실 의존성(true dependencies), 출력 의존성(output dependencies) 및 반 의존성(anti-dependencies)을 더 포함한다.
이러한 알고리즘은 먼저 사실 의존성을 찾음으로써 시작한다. 사실 의존성을 식별하기 위해, 16개의 명령어 시퀀스의 각 목적지는 16개의 명령어 시퀀스에서 나중에 일어나는 다른 후속 소스와 비교된다. 이전 명령어에 정말로 의존하는(truly dependent) 후속 명령어는 "_1"로 표시되어 이들의 사실 의존성을 나타낸다. 이는 도 2에서 16개의 명령어 시퀀스에 걸쳐 좌측에서 우측으로 진행하는 명령어 번호로 도시된다. 예를 들어, 명령어 번호 4를 고려하면, 목적지 레지스터 R3는 후속 명령어의 소스와 비교되고, 각 후속 소스는 "_1"로 표시되어 그 명령어의 사실 의존성을 나타낸다. 이 경우, 명령어 6, 명령어 7, 명령어 11, 및 명령어 15는 "_1"로 표시된다.
다음에, 알고리즘은 출력 의존성을 찾는다. 출력 의존성을 식별하기 위해, 각 목적지는 다른 후속 명령어의 목적지와 비교된다. 그리고 16개 명령어 각각에 대해, 매치하는 각 후속 목적지는 "1_"로 표시된다(예를 들어, 때때로 적색 1로 나타냄).
다음에, 알고리즘은 반 의존성을 찾는다. 반 의존성을 식별하기 위해, 16개 명령어 각각에 대해, 각 소스는 이전 명령어의 소스와 비교되어 매치를 식별한다. 매치가 일어나면, 고려 중에 있는 명령어는 그 자체를 "1_"로 표시된다(예를 들어, 때때로 적색 1로 나타냄).
이러한 방식으로, 알고리즘은 16개 명령어의 시퀀스에 대해 행(rows) 및 열(columns)의 의존성 매트릭스를 채운다(populate). 의존성 매트릭스는 16개 명령어 각각에 대해 서로 다른 형태의 의존성을 나타내는 표시를 포함한다. 일 실시예에서, 의존성 매트릭스는 한 사이클 내에 CAM 매칭 하드웨어 및 적절한 브로드캐스팅 로직을 이용하여 채워진다. 예를 들어, 목적지는 나머지 명령어를 통해 하향 브로드캐스팅되어 후속 명령어의 소스(예를 들어, 사실 의존성) 및 후속 명령어의 목적지(예를 들어, 출력 의존성)와 비교되는 반면, 목적지는 이전 명령어를 통해 상향 브로드캐스팅되어 이전 명령어의 소스(예를 들어, 반 의존성)와 비교될 수 있다.
최적화 알고리즘은 의존성 매트릭스를 이용하여 어느 명령어를 함께 공통 의존성 그룹으로 이동할지 선택한다. 서로 정말로 의존하는 명령어들이 동일한 그룹으로 이동하는 것이 바람직하다. 레지스터 재명명은 반 의존성을 제거하여 그 반 의존성 명령어를 이동시키는데 사용된다. 이동은 전술한 규칙 및 위험성 체크에 따라 행해진다. 예를 들어, 스토어는 의존성 체크 없이 이전 로드를 이동할 수 없다. 스토어는 이전 스토어를 통과할 수 없다. 로드는 의존성 체크 없이 이전 스토어를 통과할 수 없다. 로드는 로드를 통과할 수 있다. 명령어는 재명명 기술을 이용하여 사전 경로 예측 분기(예를 들어, 동적으로 구축된 분기)를 통과할 수 있다. 비-동적으로 예측된 분기의 경우, 명령어의 이동은 분기의 범위를 고려할 필요가 있다. 설명에 주목한다.
일 실시예에서, 어느 명령어를 다른 명령어와 그룹화하도록 이동시킬지 판단하기 위해 우선순위(priority) 인코더가 구현될 수 있다. 우선순위 인코더는 의존성 매트릭스에 의해 제공된 정보에 따라 작동할 것이다.
도 3 및 도 4는 본 발명의 일 실시예에 따른 다단계의 최적화 처리를 도시한다. 일 실시예에서, 최적화 처리는 명령어가 제1 패스(pass)에서 이들의 의존성 열을 이동시킴으로써 이동된 후, 명령어를 이동시킬 새로운 기회에 대해 의존성 매트릭스가 다시 채워지고 다시 검사된다는 점에서 반복적이다. 일 실시예에서, 이러한 의존성 매트릭스 채움(population) 처리는 세 번 반복된다. 이에 대해서는 도 4에 도시되고, 이 도면은 이동된 다음 검사되어 다른 명령어를 이동시킬 기회를 다시 찾는 명령어를 보여준다. 16개 명령어 각각의 우측 상의 번호 시퀀스는 그 명령어가 처리를 시작했을 때에 있던 그룹 및 그 명령어가 처리의 마지막에 있던 그룹을 보여주며, 이때 중간 그룹 번호가 그 사이에 있다. 예를 들어, 도 4는 명령어 6이 처음에 그룹 4에 있었지만 이동하여 그룹 1에 있는 것을 도시한다.
이러한 방식으로, 도 2 내지 도 4는 본 발명의 일 실시예에 따른 최적화 알고리즘의 동작을 예시한다. 비록 도 2 내지 도 4가 할당/발행 스테이지를 예시하지만, 이러한 기능성은 또한 로컬 스케줄러/디스패치 스테이지에서도 구현될 수 있음이 주목되어야 한다.
도 5는 본 발명의 일 실시예에 따른 예시적인 하드웨어 최적화 처리(500)의 단계 흐름도를 도시한다. 도 5에 도시된 바와 같이, 흐름도는 본 발명의 일 실시예에 따라 마이크로프로세서의 할당/발행 스테이지에서 구현된 바와 같은 최적화 처리의 동작 단계를 도시한다.
처리(500)는 단계(501)에서 시작하고, 이 단계에서 명령어 페치 컴포넌트(예를 들어, 도 1의 페치 컴포넌트(20))를 이용하여 인입 매크로명령어 시퀀스가 페치된다. 전술한 바와 같이, 페치된 명령어는 특정 명령어 분기를 예측함으로써 어셈블링된 시퀀스를 포함한다.
단계(502)에서, 페치된 매크로명령어는 마이크로명령어로 디코딩하는 디코딩 컴포넌트로 전달된다. 매크로명령어 시퀀스는 분기 예측에 따라 마이크로명령어 시퀀스로 디코딩된다. 일 실시예에서, 마이크로명령어 시퀀스는 이어서 마이크로명령어 캐시에 저장된다.
다음에, 단계(503)에서, 시퀀스를 포함하는 마이크로명령어를 의존성 그룹으로 재순서화함으로써 마이크로명령어 시퀀스에 대해 최적화 처리가 수행된다. 재순서화는 명령어 재순서화 컴포넌트(예를 들어, 명령어 스케줄링 및 최적화기 컴포넌트(110))에 의해 구현된다. 이러한 처리는 도 2 내지 도 4에서 설명된다.
단계(504)에서, 최적화된 마이크로명령어 시퀀스는 실행을 위해 마이크로프로세서 파이프라인으로 출력된다. 전술한 바와 같이, 최적화된 마이크로명령어 시퀀스는 실행을 위해 머신의 나머지 부분(예를 들어, 나머지 파이프라인(105))으로 전달된다.
그 다음에, 단계(505)에서, 최적화된 마이크로명령어 시퀀스의 사본이 그 시퀀스에 대한 후속 히트시 후속 사용을 위해 시퀀스 캐시에 저장된다. 이러한 방식으로, 시퀀스 캐시는 그 시퀀스에 대한 후속 히트시 최적화된 마이크로명령어 시퀀스에의 액세스를 가능하게 하고, 이로써 핫 코드를 가속화한다.
도 6은 본 발명의 일 실시예에 따른 대안의 예시적인 하드웨어 최적화 처리(600)의 단계 흐름도를 도시한다. 도 6에 도시된 바와 같이, 흐름도는 본 발명의 대안의 실시예에 따라 마이크로프로세서의 할당/발행 스테이지에서 구현되는 바와 같은 최적화 처리의 동작 단계를 도시한다.
처리(600)는 단계(601)에서 시작하고, 이 단계에서 명령어 페치 컴포넌트(예를 들어, 도 1의 페치 컴포넌트(20))를 이용하여 인입 매크로명령어 시퀀스가 페치된다. 전술한 바와 같이, 페치된 명령어는 특정 명령어 분기를 예측함으로써 어셈블링된 시퀀스를 포함한다.
단계(602)에서, 페치된 매크로명령어는 마이크로명령어로 디코딩하는 디코딩 컴포넌트로 전달된다. 매크로명령어 시퀀스는 분기 예측에 따라 마이크로명령어 시퀀스로 디코딩된다. 일 실시예에서, 마이크로명령어 시퀀스는 이어서 마이크로명령어 캐시에 저장된다.
단계(603)에서, 디코딩된 마이크로명령어는 마이크로명령어 시퀀스 캐시 내의 시퀀스로 저장된다. 마이크로명령어 캐시 내의 시퀀스는 기본적인 블록 경계에 따라 시작하도록 형성된다. 이때 이러한 시퀀스는 최적화되지 않는다.
다음에, 단계(604)에서, 시퀀스를 포함하는 마이크로명령어를 의존성 그룹으로 재순서화함으로써 마이크로명령어 시퀀스에 대해 최적화 처리가 수행된다. 재순서화는 명령어 재순서화 컴포넌트(예를 들어, 명령어 스케줄링 및 최적화기 컴포넌트(110))에 의해 구현된다. 이러한 처리는 도 2 내지 도 4에서 설명된다.
단계(605)에서, 최적화된 마이크로명령어 시퀀스는 실행을 위해 마이크로프로세서 파이프라인으로 출력된다. 전술한 바와 같이, 최적화된 마이크로명령어 시퀀스는 실행을 위해 머신의 나머지 부분(예를 들어, 나머지 파이프라인(105))으로 전달된다.
그 다음에, 단계(606)에서, 최적화된 마이크로명령어 시퀀스의 사본이 그 시퀀스에 대한 후속 히트시 후속 사용을 위해 시퀀스 캐시에 저장된다. 이러한 방식으로, 시퀀스 캐시는 그 시퀀스에 대한 후속 히트시 최적화된 마이크로명령어 시퀀스에의 액세스를 가능하게 하고, 이로써 핫 코드를 가속화한다.
도 7은 본 발명의 일 실시예에 따른 할당/발행 스테이지의 CAM 매칭 하드웨어 및 우선순위 인코딩 하드웨어의 동작을 도시하는 도면을 도시한다. 도 7에 도시된 바와 같이, 명령어의 목적지는 좌측으로부터 CAM 어레이로 브로드캐스팅된다. 세 개의 예시적인 명령어 목적지가 도시된다. 더 밝은 음영 CAM(예를 들어, 녹색)은 사실 의존성 매치 및 출력 의존성 매치에 대한 것이고, 따라서 그 목적지는 하향 브로드캐스팅된다. 더 어두운 음영 CAM(예를 들어, 청색)은 반 의존성 매치에 대한 것이고, 따라서 그 목적지는 상향 브로드캐스팅된다. 이들 매치는 전술한 바와 같이 의존성 매트릭스를 채운다. 우선순위 인코더는 우측에 도시되고, 이들은 CAM의 행을 스캔하여 첫 번째 매치, "_1" 또는 "1_"를 찾음으로써 작동한다. 도 2 내지 도 4의 설명에서 전술한 바와 같이, 처리는 반복적인 것으로 구현될 수 있다. 예를 들어, 만일 "_1"이 "1_"에 의해 차단되면, 그 목적지는 재명명되고 이동될 수 있다.
도 8은 본 발명의 일 실시예에 따른 분기 앞에 최적화된 스케줄링 명령어를 예시하는 도면을 도시한다. 도 8에 예시된 바와 같이, 전통적인 저스트 인 타임(just-in-time; JIT) 컴파일러 예와 함께 하드웨어 최적화된 예가 도시된다. 도 8의 좌측은 "Branch C to L1"이라는 미획득 분기 바이어스(branch biased untaken)를 포함하는 원래의 최적화되지 않은 코드를 보여준다. 도 8의 중간 열은 전통적인 저스트 인 타임 컴파일러 최적화를 보여주고, 여기서 레지스터는 재명명되고 명령어는 분기 앞으로 이동된다. 이러한 예에서, 저스트 인 타임 컴파일러는 분기 바이어스 판단이 잘못된 경우(예를 들어, 분기가 실제로는 미획득이 아니라 획득된 경우)를 설명하는 보상 코드를 삽입한다. 반대로, 도 8의 우측 열은 하드웨어 언롤된(unrolled) 최적화를 보여준다. 이 경우, 레지스터가 재명명되고 명령어가 분기 앞으로 이동된다. 그러나, 어떤 보상 코드도 삽입되지 않음이 주목되어야 한다. 하드웨어는 분기 바이어스 판단이 사실인지 여부를 추적한다. 잘못 예측된 분기의 경우, 하드웨어는 정확한 명령어 시퀀스를 실행하기 위해 그의 상태를 자동으로 롤백(roll back)한다. 하드웨어 최적화기 해결책은 분기가 잘못 예측된 경우에 하드웨어가 잘못 예측된 명령어 시퀀스를 플러싱(flushing)하면서 메모리 내의 원래 코드로 점프하고 그로부터 정확한 시퀀스를 실행하기 때문에 보상 코드의 사용을 피할 수 있다.
도 9는 본 발명의 일 실시예에 따른 스토어 앞에 로드의 최적화된 스케줄링을 예시하는 도면을 도시한다. 도 9에 예시된 바와 같이, 전통적인 저스트 인 타임 컴파일러 예와 함께 하드웨어 최적화된 예가 도시된다. 도 9의 좌측은 스토어 "R3<- LD[R5]"를 포함하여 최적화되지 않은 원래의 코드를 보여준다. 도 9의 중간 열은 전통적인 저스트 인 타임 컴파일러 최적화를 보여주고, 여기서 레지스터는 재명명되고 로드는 스토어 앞으로 이동된다. 이 예에서, 저스트 인 타임 컴파일러는 로드 명령어의 어드레스가 스토어 명령어의 어드레스를 엘리어싱(alias)하는 경우(예를 들어, 스토어 앞에 로드 이동이 적절하지 않은 경우)를 설명하는 보상 코드를 삽입한다. 반대로, 도 9의 우측 열은 하드웨어 언롤된 최적화를 보여준다. 이 경우, 레지스터는 재명명되고 로드는 또한 스토어 앞으로 이동된다. 그러나, 어떤 보상 코드도 삽입되지 않음이 주목되어야 한다. 스토어 앞으로 로드를 이동시키는 것이 잘못된 경우, 하드웨어는 정확한 명령어 시퀀스를 실행하기 위해 그의 상태를 자동으로 롤백한다. 하드웨어 최적화기 해결책은 어드레스 엘리어스 체크 분기(address alias-check branch)가 잘못 예측된 경우 하드웨어는 잘못 예측된 명령어 시퀀스를 플러싱하면서 메모리 내의 원래 코드로 점프하고 그로부터 정확한 시퀀스를 실행하기 때문에 보상 코드의 사용을 피할 수 있다. 이 경우, 시퀀스는 엘리어싱이 없다고 가정한다. 일 실시예에서, 도 9에 도식화된 기능성은 도 1의 명령어 스케줄링 및 최적화기 컴포넌트(110)에 의해 구현될 수 있음이 주목되어야 한다. 마찬가지로, 일 실시예에서, 도 9에 도식화된 기능성은 아래의 도 10에 설명된 소프트웨어 최적화기(1000)에 의해서도 구현될 수 있음이 주목되어야 한다.
추가적으로, 동적으로 언롤된 시퀀스에 대해, 명령어는 재명명을 이용하여 사전 경로 예측 분기(예를 들어, 동적으로 구축된 분기)를 통과할 수 있음이 주목되어야 한다. 비-동적으로 예측된 분기의 경우, 명령어의 이동은 분기의 범위를 고려해야 한다. 루프는 원하는 범위까지 언롤될 수 있고 최적화는 시퀀스 전체에 걸쳐 적용될 수 있다. 예를 들어, 이는 분기 전체에 걸쳐 이동하는 명령어의 목적지 레지스터를 재명명함으로써 구현될 수 있다. 이러한 특징의 이점들 중 하나는 분기의 범위의 어떤 보상 코드 또는 광범위한 분석도 필요하지 않다는 사실이다. 따라서, 이러한 특징은 속도를 크게 높이고 최적화 처리를 간략화한다.
분기 예측 및 명령어 시퀀스의 어셈블링에 관한 추가 정보는 2010년 9월 17일 모하메드 에이. 압달라(Mohammad A. Abdallah)에 의해 "SINGLE CYCLE MULTI-BRANCH PREDICTION INCLUDING SHADOW CACHE FOR EARLY FAR BRANCH PREDICTION"이라는 명칭으로 출원되어 본 출원과 공동으로 양도된 미국 특허 출원 제61/384,198호에서 찾아볼 수 있으며, 이 출원은 그 전체가 본 명세서에서 인용된다.
도 10은 본 발명의 일 실시예에 따른 예시적인 소프트웨어 최적화 처리의 도면을 도시한다. 도 10의 실시예에서, 명령어 스케줄링 및 최적화기 컴포넌트(예를 들어, 도 1의 컴포넌트(110))는 소프트웨어 기반 최적화기(1000)로 대체된다.
도 10의 실시예에서, 소프트웨어 최적화기(1000)는 하드웨어 기반 명령어 스케줄링 및 최적화기 컴포넌트(110)에 의해 수행된 최적화 처리를 수행한다. 소프웨어 최적화기는 최적화된 시퀀스의 사본을 메모리 계층(예를 들어, L1, L2, 시스템 메모리)에 유지한다. 이렇게 하면 소프트웨어 최적화기가 시퀀스 캐시에 저장된 것과 비교하여 최적화된 시퀀스의 집합(collection)을 훨씬 더 크게 유지하는 것이 가능해진다.
소프트웨어 최적화기(1000)는 최적화에 입력되고 최적화 처리로부터 출력된 것으로서 메모리 계층에 상주하는 코드를 포함할 수 있음이 주목되어야 한다.
일 실시예에서, 마이크로명령어 캐시는 생략될 수 있음이 주목되어야 한다. 이러한 실시예에서, 단지 최적화된 마이크로명령어 시퀀스만 캐시된다.
도 11은 본 발명의 일 실시예에 따른 SIMD 소프트웨어 기반 최적화 처리의 흐름도를 도시한다. 도 11의 윗부분은 소프트웨어 기반 최적화기가 입력 명령어 시퀀스의 각 명령어를 어떻게 검사하는지를 보여준다. 도 11은 SIMD 비교가 하나 를 다수에 매칭(예를 들어, SIMD 바이트가 제1 소스 "Src1"를 모든 제2 소스 바이트 "Src2"와 비교)하는데 어떻게 사용될 수 있는지를 보여준다. 일 실시예에서, Src1은 임의의 명령어의 목적지 레지스터를 포함하고 Src2는 각 다른 후속 명령어로부터의 하나의 소스를 포함한다. 매칭은 모든 목적지에 대해 모든 후속 명령어 소스와 이루어진다(예를 들어, 사실 의존성 체크). 이는 해당 명령어에 대해 원하는 그룹을 나타내는 페어링(pairing) 매치이다. 매칭은 각 목적지와 모든 후속 명령어 목적지 사이에서 이루어진다(예를 들어, 출력 의존성 체크). 이는 재명명으로 해결(resolve)될 수 있는 블로킹 매치이다. 매칭은 각 목적지와 모든 이전의 명령어 소스 사이에서 이루어진다(예를 들어, 반 의존성 체크). 이는 재명명에 의해 해결될 수 있는 블로킹 매치이다. 그 결과는 의존성 매트픽스의 행 및 열을 채우는데 사용된다.
도 12는 본 발명의 일 실시예에 따른 예시적인 SIMD 소프트웨어 기반 최적화 처리(1200)의 동작 단계 흐름도를 도시한다. 처리(1200)는 도 9의 흐름도의 문맥에서 설명된다.
단계(1201)에서, 입력 명령어 시퀀스는 메모리에 인스턴스화된(instantiated) 소프트웨어 기반 최적화기를 이용하여 액세스된다.
단계(1202)에서, 의존성 매트릭스는 SIMD 명령어를 이용하여, SIMD 비교 명령어 시퀀스를 이용하여 입력 명령어 시퀀스에서 추출된 의존성 정보로 채워진다.
단계(1203)에서, 제1 매치에 대해 매트릭스의 행들이 우측에서 좌측으로 스캔된다(예를 들어, 의존성 표시).
단계(1204)에서, 각 제1 매치가 분석되어 그 매치의 유형을 결정한다.
단계(1205)에서, 만일 제1 표시된 매치가 블로킹 의존성이면, 이 목적지에 대해 재명명이 행해진다.
단계(1206)에서, 매트릭스의 각 행에 대해 모든 제1 매치가 식별되고 그 매치에 대해 대응하는 열이 주어진 의존성 그룹으로 이동된다.
단계(1207)에서, 스캐닝 처리가 여러 번 반복되어 입력 시퀀스를 포함하는 명령어를 재순서화하여 최적화된 출력 시퀀스를 생성한다.
단계(1208)에서, 최적화된 명령어 시퀀스는 실행을 위해 마이크로프로세서의 실행 파이프라인으로 출력된다.
단계(1209)에서, 최적화된 출력 시퀀스는 후속 사용을 위해(예를 들어, 핫코드를 가속화하기 위해) 시퀀스 캐시에 저장된다.
소프트웨어 최적화는 SIMD 명령어의 사용과 함께 연속적으로 행해질 수 있음이 주목되어야 한다. 예를 들어, 최적화는 한번에 명령어의 소스 및 목적지를 스캐닝하는 하나의 명령어를 처리함으로써(예를 들어, 시퀀스에서 이전 명령어부터 후속 명령어까지) 구현될 수 있다. 소프트웨어는 전술한 최적화 알고리즘 및 SIMD 명령어에 따라 SIMD 명령어를 이용하여 현재 명령어 소스 및 목적지를 이전 명령어 소스 및 목적지와 병렬로 비교한다(예를 들어, 사실 의존성, 출력 의존성 및 반 의존성을 검출한다).
도 13은 본 발명의 일 실시예에 따른 소프트웨어 기반 의존성 브로드캐스팅 처리를 도시한다. 도 13의 실시예는 전술한 바와 같이 완전 병렬(full parallel) 하드웨어 구현의 비용 부담없이 명령어 그룹을 처리하는 예시적인 소프트웨어 스케줄링 처리의 흐름도를 도시한다. 그러나, 도 13의 실시예는 여전히 SIMD를 이용하여 더 작은 명령어 그룹들을 병렬로 처리할 수 있다.
도 13의 소프트웨어 스케줄링 처리는 다음과 같이 진행된다. 먼저, 처리는 세 개의 레지스터를 초기화한다. 처리는 명령어 번호를 취하고 이들을 제1 레지스터에 로드한다. 다음에, 처리는 목적지 레지스터 번호를 취하고 이들을 제2 레지스터에 로드한다. 다음에, 처리는 제1 레지스터 내의 값들을 취하고 이들을 제2 레지스터 내의 위치 번호에 따라 제3 결과 레지스터 내의 위치로 브로드캐스팅한다. 다음에, 처리는 제2 레지스터 내에서 좌측에서 우측으로 진행하여 오버라이트(over write)하고, 맨 좌측 값은 브로드캐스팅이 결과 레지스터 내의 동일 위치로 진행하는 경우에 우측 값을 오버라이트할 것이다. 제3 레지스터 내에서 기록되지 않은 위치는 바이패스된다. 이러한 정보는 의존성 매트릭스를 채우는데 사용된다.
도 13의 실시예는 입력 명령어 시퀀스가 복수의 그룹으로 처리될 수 있는 방식을 또한 보여준다. 예를 들어, 16개의 명령어 입력 시퀀스는 8개 명령어의 제1 그룹 및 8개 명령어의 제2 그룹으로 처리될 수 있다. 제1 그룹에서, 명령어 번호는 제1 레지스터에 로드되고, 명령어 목적지 번호는 제2 레지스터에 로드되며, 제1 레지스터 내의 값들은 제2 레지스터 내의 위치 번호에 따라 제3 레지스터(예를 들어, 결과 레지스터) 내의 위치로 브로드캐스팅된다(예를 들어, 그룹 브로드캐스팅). 제3 레지스터 내에서 기록되지 않은 위치는 바이패스된다. 이제 제3 레지스터는 제2 그룹의 처리를 위한 기준(base)이 된다. 예를 들어, 그룹 1의 결과 레지스터는 이제 그룹 2의 처리를 위한 결과 레지스터가 된다.
제2 그룹에서, 명령어 번호는 제1 레지스터에 로드되고, 명령어 목적지 번호는 제2 레지스터에 로드되며, 제1 레지스터 내의 값들은 제2 레지스터 내의 위치 번호에 따라 제3 레지스터(예를 들어, 결과 레지스터) 내의 위치로 브로드캐스팅된다. 제3 레지스터 내의 위치는 제1 그룹의 처리 동안 기록된 결과를 오버라이트할 수 있다. 제3 레지스터 내에서 기록되지 않은 위치는 바이패스된다. 이러한 방식으로, 제2 그룹은 제1 그룹으로부터의 기준을 업데이트하고, 그럼으로써 제3 그룹 등의 처리를 위한 새로운 기준을 생성한다.
제2 그룹 내의 명령어는 제1 그룹의 처리에서 생성된 의존성 정보를 승계(inherit)할 수 있다. 결과 레지스터 내의 의존성을 업데이트하기 위해 제2 그룹 전체가 처리되지 않아도 된다는 점이 주목되어야 한다. 예를 들어, 명령어 12에 대한 의존성은 제1 그룹의 처리에서, 그 다음 제2 그룹에서 명령어 11까지 명령어 처리에서 생성될 수 있다. 이는 결과 레지스터를 명령어 12까지의 상태로 업데이트한다. 일 실시예에서, 제2 그룹의 나머지 명령어(예를 들어, 명령어 12 내지 16)에 대한 업데이트를 막기 위해 마스크가 사용될 수 있다. 명령어 12에 대한 의존성을 판단하기 위해, R2 및 R5에 대해 결과 레지스터가 검사된다. R5는 명령어 1로 업데이트될 것이고, R2는 명령어 11로 업데이트될 것이다. 그룹 2가 모두 처리된 경우, R2는 명령어 15로 업데이트될 것임이 주목되어야 한다.
추가로, 제2 그룹의 모든 명령어(예를 들어, 명령어 9-16)는 서로 독립적으로 처리될 수 있음이 주목되어야 한다. 이러한 경우, 제2 그룹의 명령어들은 단지 제1 그룹의 결과 레지스터에만 의존한다. 일단 결과 레지스터가 제1 그룹의 처리로부터 업데이트되면 제2 그룹의 명령어들은 병렬로 처리될 수 있다. 이러한 방식으로, 명령어 그룹들은 차례대로(one after another) 병렬로 처리될 수 있다. 일 실시예에서, 각 그룹은 SIMD 명령어(예를 들어, SIMD 브로드캐스팅 명령어)를 이용하여 처리되고, 그럼으로써 상기 각 그룹의 모든 명령어들을 병렬로 처리할 수 있다.
도 14는 본 발명의 일 실시예에 따라 명령어의 의존성 그룹화가 가변 제한된 의존성 명령어 그룹을 구축하는데 어떻게 사용될 수 있는지를 보여주는 예시적인 흐름도를 도시한다. 도 2 내지 도 4의 설명에서, 그룹 크기는, 그 경우 그룹 당 세 개의 명령어로 제한된다. 도 14는 명령어들이 어떻게 가변 크기의 그룹들로 재순서화될 수 있고, 그 다음에 복수의 컴퓨팅 엔진에 할당될 수 있는지를 도시한다. 예를 들어, 도 14는 4개의 엔진을 도시한다. 그룹들은 자신들의 특성에 따라 가변 크기를 가질 수 있기 때문에, 엔진 1에는, 예를 들어, 엔진 2보다 더 큰 그룹이 할당될 수 있다. 이는, 예를 들어, 엔진 2가 그 그룹 내 다른 명령어들에 특별히 의존하지 않는 명령어를 갖는 경우에 일어날 수 있다.
도 15는 본 발명의 일 실시예에 따른 계층적 명령어 스케줄링을 묘사하는 흐름도를 도시한다. 전술한 바와 같이, 명령어 의존성 그룹화는 가변 제한된 그룹들을 구축하는데 사용될 수 있다. 도 15는 의존성 그룹 내에 다양한 의존성 레벨이 존재하는 특징을 도시한다. 예를 들어, 명령어 1은 이러한 명령어 시퀀스 내의 어떤 다른 명령어에도 의존하지 않으므로, 명령어 1은 L0 의존성 레벨이 된다. 그러나, 명령어 4는 명령어 1에 의존하므로, 명령어 4는 L1 의존성 레벨이 된다. 이러한 방식으로, 명령어 시퀀스의 각 명령어에는 도시된 바와 같이 의존성 레벨이 할당된다.
각 명령어의 의존성 레벨은 자원이 의존성 명령어 실행에 확실하게 이용가능한 방식으로 제2 레벨의 계층적 스케줄러에 의해 명령어를 디스패치하는데 사용된다. 예를 들어, 일 실시예에서, L0 명령어는 제2 레벨의 스케줄러(1-4)에 의해 처리되는 명령어 큐(queues)에 로드된다. L0 명령어는 이들이 각 큐 앞에 있도록 로드되고, L1 명령어는 이들이 각 큐에서 후속하도록 로드되고, L2 명령어는 이들에 후속하도록 하는 등으로 로드된다. 이는 도 15에서 L0에서 Ln까지의 의존성 레벨로 도시된다. 스케줄러(1-4)의 계층적 스케줄링은 유리하게 시간 집약성(locality-in-time) 및 명령어 간(instruction-to-instruction) 의존성을 이용하여 스케줄링 판단을 최적의 방식으로 내리게 한다.
이러한 방식으로, 본 발명의 실시예는 명령어 시퀀스의 명령어들에 대한 의존성 그룹 슬롯 할당을 시사한다. 예를 들어, 비순차적 마이크로명령어를 구현하기 위해, 명령어 시퀀스의 명령어 디스패칭은 비순차적이다. 일 실시예에서, 각 사이클마다, 명령어 준비도(readiness)가 체크된다. 어떤 명령어가 의존하는 모든 명령어가 이전에 디스패치하였다면 그 명령어는 준비가 된 것이다. 스케줄러 구조는 그 의존성을 체크함으로써 작동한다. 일 실시예에서, 스케줄러는 통합된 스케줄러이고 그 통합된 스케줄러 구조에서 모든 의존성 체크가 수행된다. 다른 실시예에서, 스케줄러 기능성은 복수의 엔진의 실행 유닛의 디스패치 큐 전체에 걸쳐 분산된다. 따라서, 일 실시예에서, 스케줄러는 통합형인 반면, 다른 실시예에서 스케줄러는 분산형이다. 이들 두 해결책에 따라, 사이클마다 디스패치 명령어의 목적지에 대해 각 명령어 소스가 체크된다.
따라서, 도 15는 본 발명의 실시예에 의해 수행된 계층적 스케줄링을 도시한다. 전술한 바와 같이, 먼저 의존성 체인(예를 들어, 의존성 그룹)을 형성하기 위해 명령어들이 그룹화된다. 이러한 의존성 체인의 형성은 소프트웨어 또는 하드웨어에 의해 정적으로 또는 동적으로 행해질 수 있다. 일단 이러한 의존성 체인이 형성되었다면, 이들은 엔진으로 분산/디스패치될 수 있다. 이러한 방식으로, 의존성에 의한 그룹화는 순차적으로 형성된 그룹들에 대해 비순차적 스케줄링을 가능하게 한다. 의존성에 의한 그룹화는 또한 전체 의존성 그룹들을 복수의 엔진(예를 들어, 코어 또는 스레드)에 분산한다. 의존성에 의한 그룹화는 또한 전술한 바와 같이 계층적 스케줄링을 용이하게 하기도 하며, 이 경우 의존성 명령어는 제1 단계에서 그룹화된 다음 제2 단계에서 스케줄된다.
도 14 내지 도 19에 도식화된 기능성은 명령어들을 그룹화하는 어떤 방법과도 관계없이(예를 들어, 그룹화 기능성이 하드웨어, 소프트웨어 등으로 구현되든) 작동할 수 있음이 주목되어야 한다. 또한, 도 14 내지 도 19에 도시된 의존성 그룹은 독립형 그룹들의 매트릭스를 포함할 수 있으며, 여기서 각 그룹은 의존성 명령어를 더 포함한다. 추가로, 스케줄러는 또한 엔진일 수 있음이 주목되어야 한다. 이러한 실시예에서, 각각의 스케줄러(1-4)는 (예를 들어, 도 22에 도시된 바와 같이 각 세그먼트가 공통 분할 스케줄러를 포함하는 경우) 그의 각 엔진 내에 포함될 수 있다.
도 16은 본 발명의 일 실시예에 따른 3 슬롯 의존성 그룹 명령어의 계층적 스케줄링을 묘사하는 흐름도를 도시한다. 전술한 바와 같이, 명령어 의존성 그룹화는 가변 제한된 그룹들을 구축하는데 사용될 수 있다. 이 실시예에서, 의존성 그룹은 세 개의 슬롯을 포함한다. 도 16은 3 슬롯 의존성 그룹 내에서조차도 다양한 의존성 레벨을 도시한다. 전술한 바와 같이, 명령어 1은 이러한 명령어 시퀀스 내에서 어떤 다른 명령어에도 의존하지 않으므로, 명령어 1은 L0 의존성 레벨이 된다. 그러나, 명령어 4는 명령어 1에 의존하므로, 명령어 4는 L1 의존성 레벨이 된다. 이러한 방식으로, 명령어 시퀀스의 각 명령어에는 도시된 바와 같이 의존성 레벨이 할당된다.
전술한 바와 같이, 각 명령어의 의존성 레벨은 자원이 의존성 명령어 실행에 확실하게 이용가능한 방식으로 제2 레벨의 계층적 스케줄러에 의해 명령어를 디스패치하는데 사용된다. L0 명령어는 제2 레벨의 스케줄러(1-4)에 의해 처리되는 명령어 큐에 로드된다. 도 16에서 L0에서 Ln까지의 의존성 레벨로 도시된 바와 같이, L0 명령어는 이들이 각 큐 앞에 있도록 로드되고, L1 명령어는 이들이 각 큐에서 후속하도록 로드되고, L2 명령어는 이들에 후속하도록 하는 등으로 로드된다. 그룹 번호 4(예를 들어, 위에서부터 네 번째 그룹)는 그것이 별개의 그룹이더라도 L2에서 시작한다는 것이 주목되어야 한다. 이는 명령어 7이 명령어 4에 의존하고, 이는 명령어 1에 의존함으로써, 명령어 7에 L2 의존성을 부여할 수 있기 때문이다.
이러한 방식으로, 도 16은 매 세 개의 의존성 명령어가 스케줄러(1-4) 중 주어진 하나의 스케줄러에서 어떻게 함께 스케줄되는지를 보여준다. 스케줄된 제2 레벨의 그룹은 제1 레벨의 그룹 뒤에 있고, 그 다음 그 그룹들은 회전된다.
도 17은 본 발명의 일 실시예에 따른 3 슬롯 의존성 그룹 명령어의 계층적 이동 윈도우(moving window) 스케줄링을 묘사하는 흐름도를 도시한다. 이 실시예에서, 3 슬롯 의존성 그룹에 대한 계층적 스케줄링은 통합된 이동 윈도우 스케줄러를 통해 구현된다. 이동 윈도우 스케줄러는 큐에서 명령어를 처리하여 자원이 의존성 명령어 실행에 확실하게 이용가능한 방식으로 명령어를 디스패치한다. 전술한 바와 같이, L0 명령어는 제2 레벨의 스케줄러(1-4)에 의해 처리된 명령어 큐에 로드된다. 도 17에서 L0에서 Ln까지의 의존성 레벨로 도시된 바와 같이, L0 명령어는 이들이 각 큐 앞에 있도록 로드되고, L1 명령어는 이들이 각 큐에서 후속하도록 로드되고, L2 명령어는 이들에 후속하도록 하는 등으로 로드된다. 이동 윈도우는 L0 명령어들이 어떻게 각 큐에서 디스패치될 수 있는지를 예시하며, L0 명령어들은 하나의 큐에서 다른 것보다 더 많을 수 있다. 이러한 방식으로, 이동 윈도우 스케줄러는 큐가 도 17에 예시된 바와 같이 좌측에서 우측으로 흐름에 따라 명령어를 디스패치한다.
도 18은 본 발명의 일 실시예에 따라 가변 크기의 의존성 명령어 체인(예를 들어, 가변 제한된 명령어 그룹)이 복수의 컴퓨팅 엔진에 어떻게 할당되는지를 보여준다.
도 18에 도시된 바와 같이, 프로세서는 명령어 스케줄러 컴포넌트(10) 및 복수의 엔진(11-14)을 포함한다. 명령어 스케줄러 컴포넌트는 이들의 각 엔진에서 의존성 코드 블록(예를 들어, 가변 제한 그룹)의 실행을 지원하기 위해 코드 블록 및 승계 벡터(inheritance vectors)를 생성한다. 각 의존성 코드 블록은 동일한 논리 코어/스레드에 또는 서로 다른 논리 코어/스레드에 속할 수 있다. 명령어 스케줄러 컴포넌트는 의존성 코드 블록을 처리하여 각 승계 벡터를 생성할 것이다. 이러한 의존성 코드 블록 및 각 승계 벡터는 도시된 바와 같이 특정 엔진(11-14)에 할당된다. 글로벌 상호접속부(interconnect)(30)는 각 엔진(11-14) 전반에 걸쳐 필요한 통신을 지원한다. 명령어 의존성 그룹화가 도 14의 설명에서 전술한 바와 같은 의존성 명령어들의 가변 제한된 그룹들을 구축하는 기능성은 도 18의 실시예의 명령어 스케줄러 컴포넌트(10)에 의해 구현된다는 점이 주목되어야 한다.
도 19는 본 발명의 일 실시예에 따라 스케줄링 큐에의 블록 할당 및 3 슬롯 의존성 그룹 명령어의 계층적 이동 윈도우 스케줄링을 묘사하는 흐름도를 도시한다. 전술한 바와 같이, 3 슬롯 의존성 그룹에 대한 계층적 스케줄링은 통합된 이동 윈도우 스케줄러를 통해 구현될 수 있다. 도 19는 의존성 그룹이 어떻게 스케줄링 큐에 로드된 블록이 되는지를 보여준다. 도 19의 실시예에서, 두 개의 독립 그룹이 각 큐에서 절반 블록으로 로드될 수 있다. 이는 도 19의 윗부분에서 도시되며, 여기서 그룹 1이 하나의 절반 블록을 형성하고 그룹 4가 제1 스케줄링 큐에 로드된 또 다른 절반 블록을 형성한다.
전술한 바와 같이, 이동 윈도우 스케줄러는 큐에서 명령어를 처리하여 자원이 의존성 명령어 실행에 확실하게 이용가능한 방식으로 명령어를 디스패치한다. 도 19의 아래 부분은 L0 명령어가 어떻게 제2 레벨의 스케줄러에 의해 처리된 명령어 큐에 로드되는지를 보여준다.
도 20은 본 발명의 일 실시예에 따라 의존성 코드 블록(예를 들어, 의존성 그룹 또는 의존성 체인)이 엔진(11-14)에서 어떻게 실행되는지를 보여준다. 전술한 바와 같이, 명령어 스케줄러 컴포넌트는 이들의 각 엔진에서 의존성 코드 블록(예를 들어, 가변 제한 그룹, 3 슬롯 그룹 등)의 실행을 지원하기 위해 코드 블록 및 승계 벡터를 생성한다. 도 19에서 전술한 바와 같이, 도 20은 두 개의 독립 그룹이 코드 블록으로서 각 엔진에 어떻게 로드될 수 있는지를 더 보여준다. 도 20은 이들 코드 블록이 어떻게 엔진(11-14)으로 디스패치되는지를 보여주며, 여기서 의존성 명령어는 각 엔진의 스택된(stacked)(예를 들어, 직렬 접속된) 실행 유닛에서 실행한다. 예를 들어, 제1 의존성 그룹, 또는 코드 블록에서, 도 20의 좌측 상부에서, 명령어는 엔진(11)으로 디스패치되고 여기서 이들은 L0이 L1의 상부에 스택되고 이는 L2 상에 더 스택되도록 이들의 의존성의 순서로 실행 유닛 상에 스택된다. 그렇게 할 때, L0의 결과는 L1의 실행 유닛으로 흐르고 그 다음에 L2의 실행으로 흐를 수 있다.
이러한 방식으로, 도 20에 도시된 의존성 그룹들은 독립 그룹들의 매트릭스를 포함할 수 있고, 여기서 각 그룹은 의존성 명령어를 더 포함한다. 독립적인 그룹들의 이득은 이들을 병렬로 디스패치 및 실행할 수 있는 능력 및 엔진들 간의 상호접속부에 걸친 통신의 필요성이 최소화된다는 특성이다. 추가로, 엔진(11-14)에 도시된 실행 유닛이 CPU 또는 GPU를 포함할 수 있다는 것이 주목되어야 한다.
본 발명의 실시예에 따르면, 명령어들이 이들의 의존성에 따라 의존성 그룹 또는 블록 또는 명령어 매트릭스로 추상화(abstract)된다는 점이 인식되어야 한다. 명령어들을 이들의 의존성에 따라 그룹화하면 더 큰 명령어 윈도우(예를 들어, 더 큰 입력 명령어 시퀀스)를 이용하여 더 간략화된 스케줄링 처리를 용이하게 한다. 전술한 바와 같은 그룹화는 명령어 변화를 제거하고 그러한 변화를 균일하게 추상화하며, 그럼으로써 간단하고, 균일하고 획일적인 스케줄링 의사 결정(decision-making)을 구현할 수 있도록 한다. 전술한 그룹화 기능성은 스케줄러의 복잡도를 증가시키지 않고 스케줄러의 처리율을 증대시킨다. 예를 들어, 네 개의 엔진에 대한 스케줄러에서, 스케줄러는 각 그룹이 세 개의 명령어를 갖는 네 개의 그룹을 디스패치할 수 있다. 그렇게 할 때, 스케줄러는 12개의 명령어를 디스패치하면서 단지 슈퍼 스케일러 복잡도(super scaler complexity)를 갖는 네 개의 레인(lanes)만을 처리한다. 또한, 각 블록은 디스페치된 명령어의 개수를 더 증가시키는 병렬의 독립 그룹을 포함할 수 있다.
도 21은 본 발명의 일 실시예에 따라 다중코어 프로세서를 위한 글로벌 프론트 엔드 페치 & 스케줄러 및 레지스터 파일, 글로벌 상호접속부 및 프래그먼트된 메모리 서브시스템을 포함하여 복수의 엔진 및 이들의 컴포넌트의 개요도를 도시한다. 도 21에 도시된 바와 같이, 네 개의 메모리 프래그먼트(101-104)가 도시된다. 메모리 프래그멘테이션 계층(memory fragmentation hierarchy)은 각 캐시 계층(예를 들어, L1 캐시, L2 캐시, 및 로드 스토어 버퍼)에 걸쳐 동일하다. 각 L1 캐시, 각 L2 캐시 및 각 로드 스토어 버퍼 사이에서 메모리 글로벌 상호접속부(110a)를 통해 데이터가 교환될 수 있다.
메모리 글로벌 상호접속부는 복수의 코어(예를 들어, 어드레스 연산 및 실행 유닛(121-124))가 프래그먼트된 캐시 계층(예를 들어, L1 캐시, 로드 스토어 버퍼 및 L2 캐시)에서 어느 지점에서든 저장될 수 있는 데이터를 액세스하게 하는 라우팅 매트릭스를 포함한다. 도 21은 또한 각 프래그먼트(101-104)를 메모리 글로벌 상호접속부(110a)를 통해 어드레스 연산 및 실행 유닛(121-124)에 의해 액세스할 수 있는 방식을 도시한다.
실행 글로벌 상호접속부(110b)는 유사하게 복수의 코어(예를 들어, 어드레스 연산 및 실행 유닛(121-124))가 세그먼트된 레지스터 파일들 중 어떤 것에라도 저장될 수 있는 데이터를 액세스하게 하는 라우팅 매트릭스를 포함한다. 따라서, 코어는 메모리 글로벌 상호접속부(110a) 또는 실행 글로벌 상호접속부(110b)를 통해 프래그먼트들 중 어떤 것에라도 저장된 데이터 및 세그먼트들 중 어떤 것에라도 저장된 데이터에 액세스할 수 있다.
도 21은 머신 전체도를 갖고 레지스터 파일 세그먼트 및 프래그먼트된 메모리 서브시스템의 이용을 관리하는 글로벌 프론트 엔드 페치 & 스케줄러를 더 도시한다. 어드레스 생성은 프래그먼트 정의에 대한 기준을 포함한다. 글로벌 프론트 엔드 페치 & 스케줄러는 명령어 시퀀스를 각 세그먼트에 할당함으로써 작동한다.
도 22는 본 발명의 일 실시예에 따른 복수의 세그먼트, 복수의 세그먼트된 공통 분할 스케줄러 및 상호접속부 및 세그먼트 포트를 도시한다. 도 22에 도시된 바와 같이, 각 세그먼트는 공통 분할 스케줄러를 포함하여 도시된다. 공통 분할 스케줄러는 그의 각 세그먼트 내에서 명령어를 스케줄링함으로써 작동한다. 이러한 명령어는 다시 글로벌 프론트 엔드 페치 및 스케줄러로부터 수신되었다. 이 실시예에서, 공통 분할 스케줄러는 글로벌 프론트 엔드 페치 및 스케줄러와 협력하여 작동하도록 구성된다. 세그먼트는 또한 피연산자(operand)/결과 버퍼, 스레드된 레지스터 파일, 및 공통 분할 또는 스케줄러에의 판독/기록 액세스를 제공하는 4개의 판독 기록 포트를 포함하여 도시된다.
일 실시예에서, 상호접속부를 이용하기 위해 비중앙집중형 액세스 처리가 구현되고 로컬 상호접속부는 각 경쟁 자원, 이 경우, 각 세그먼트의 포트에의 예약 가산기(reservation adder) 및 임계 리미터(threshold limiter) 제어 액세스를 이용한다. 이러한 실시예에서, 자원에 액세스하기 위해, 코어는 필요한 버스를 예약하고 필요한 포트를 예약할 필요가 있다.
도 23은 본 발명의 일 실시예에 따른 예시적인 마이크로프로세서 파이프라인(2300)의 도면을 도시한다. 마이크로프로세서 파이프라인(2300)은 전술한 바와 같이 실행을 포함하는 명령어를 식별 및 추출하는 처리의 기능성을 구현하는 페치 모듈(2301)을 포함한다. 도 23의 실시예에서, 페치 모듈 다음에는 디코드 모듈(2302), 할당 모듈(2303), 디스패치 모듈(2304), 실행 모듈(2305) 및 방출 모듈(2306)이 온다. 마이크로프로세서 파이프라인(2300)은 전술한 본 발명의 실시예의 기능성을 구현하는 파이프라인의 일례에 불과함이 주목되어야 한다. 이 기술분야의 통상의 기술자는 전술한 디코드 모듈의 기능성을 포함하는 다른 마이크로프로세서 파이프라인도 구현될 수 있음을 인식할 것이다.
설명 목적상, 전술한 설명은 본 발명을 제한하거나 완전하게 하는 것으로 의도되지 않는 특정 실시예를 언급한다. 전술한 교시와 일치하는 많은 수정 및 변경도 가능하다. 이 기술분야의 통상의 기술자가 본 발명 및 이들의 특정 용도에 적합할 수 있는 것으로서 다양한 수정을 갖는 그의 다양한 실시예를 잘 활용할 수 있도록 본 발명의 원리 및 그의 실시 응용을 잘 설명하도록 실시예가 선별되어 설명되었다.
Claims (21)
- 마이크로프로세서에서 코드 최적화를 가속화하는 방법으로서,
명령어 페치 컴포넌트를 이용하여 인입 매크로명령어(incoming macro instruction) 시퀀스를 페치하는 단계와,
상기 페치된 매크로명령어를 마이크로명령어(microinstructions)로 디코딩하는 디코딩 컴포넌트로 전달하는 단계와,
마이크로명령어 시퀀스를 최적화된 마이크로명령어 시퀀스 - 상기 최적화된 마이크로명령어 시퀀스에서 상기 마이크로명령어는 복수의 의존적 코드 그룹(a plurality of dependent code groups)으로 그룹화됨 - 로 재순서화(reordering)함으로써 최적화 처리를 수행하는 단계와,
상기 복수의 의존적 코드 그룹을 실행을 위해 상기 마이크로프로세서의 복수의 엔진으로 병렬로 출력하는 단계와,
상기 최적화된 마이크로명령어 시퀀스에 대한 후속 히트(hit)시 후속 사용을 위해 상기 최적화된 마이크로명령어 시퀀스의 사본을 시퀀스 캐시에 저장하는 단계를 포함하는
코드 최적화의 가속화 방법. - 제1항에 있어서,
상기 디코딩된 마이크로명령어의 사본이 마이크로명령어 캐시에 저장되는
코드 최적화의 가속화 방법. - 제1항에 있어서,
상기 최적화 처리는 상기 마이크로프로세서의 할당 및 발행 스테이지(allocation and issue stage)를 이용하여 수행되는
코드 최적화의 가속화 방법. - 제3항에 있어서,
상기 할당 및 발행 스테이지는 상기 마이크로명령어 시퀀스를 상기 최적화된 마이크로명령어 시퀀스로 재순서화하는 명령어 스케줄링 및 최적화기 컴포넌트를 더 포함하는
코드 최적화의 가속화 방법. - 제1항에 있어서,
상기 최적화 처리는 마이크로명령어 시퀀스를 동적으로 언롤링(unrolling)하는 단계를 더 포함하는
코드 최적화의 가속화 방법. - 제1항에 있어서,
상기 최적화 처리는 복수의 반복을 통해 구현되는
코드 최적화의 가속화 방법. - 제1항에 있어서,
상기 최적화 처리는 상기 재순서화를 가능하게 하는 레지스터 재명명(renaming) 처리를 통해 구현되는
코드 최적화의 가속화 방법. - 코드 최적화된 마이크로프로세서(code optimized microprocessor)로서,
인입 매크로명령어 시퀀스를 페치하는 명령어 페치 컴포넌트와,
상기 명령어 페치 컴포넌트에 결합되어, 상기 페치된 매크로명령어 시퀀스를 수신하고, 마이크로명령어 시퀀스로 디코딩하는 디코딩 컴포넌트와,
상기 디코딩 컴포넌트에 결합되어, 상기 마이크로명령어 시퀀스를 수신하고 상기 마이크로명령어 시퀀스를 최적화된 마이크로명령어 시퀀스 - 상기 최적화된 마이크로명령어 시퀀스에서 마이크로명령어는 복수의 의존적 코드 그룹으로 그룹화됨 - 로 재순서화함으로써 최적화 처리를 수행하는 할당 및 발행 스테이지와,
상기 할당 및 발행 스테이지에 결합되어, 상기 복수의 의존적 코드 그룹을 실행을 위해 병렬로 수신하는 상기 마이크로프로세서의 복수의 엔진과,
상기 할당 및 발행 스테이지에 결합되어, 상기 최적화된 마이크로명령어 시퀀스에 대한 후속 히트시 후속 사용을 위해 상기 최적화된 마이크로명령어 시퀀스의 사본을 수신 및 저장하는 시퀀스 캐시를 포함하는
코드 최적화된 마이크로프로세서. - 제8항에 있어서,
상기 디코딩된 마이크로명령어의 사본이 마이크로명령어 캐시에 저장되는
코드 최적화된 마이크로프로세서. - 제8항에 있어서,
상기 최적화 처리는 상기 마이크로프로세서의 할당 및 발행 스테이지를 이용하여 수행되는
코드 최적화된 마이크로프로세서. - 제10항에 있어서,
상기 할당 및 발행 스테이지는 상기 마이크로명령어 시퀀스를 상기 최적화된 마이크로명령어 시퀀스로 재순서화하는 명령어 스케줄링 및 최적화기 컴포넌트를 더 포함하는
코드 최적화된 마이크로프로세서. - 제8항에 있어서,
상기 최적화 처리는 마이크로명령어 시퀀스를 동적으로 언롤링(unrolling)하는 것을 더 포함하는
코드 최적화된 마이크로프로세서. - 제8항에 있어서,
상기 최적화 처리는 복수의 반복을 통해 구현되는
코드 최적화된 마이크로프로세서. - 제8항에 있어서,
상기 최적화 처리는 상기 재순서화를 가능하게 하는 레지스터 재명명(renaming) 처리를 통해 구현되는
코드 최적화된 마이크로프로세서. - 마이크로프로세서에서 코드 최적화를 가속화하는 방법으로서,
메모리에 인스턴스화된(instantiated) 소프트웨어 기반 최적화기를 이용하여 입력 마이크로명령어(microinstruction) 시퀀스에 액세스하는 단계와,
SIMD 명령어들을 이용하여 의존성 매트릭스를 상기 입력 마이크로명령어 시퀀스에서 추출된 의존성 정보로 채우는(populate) 단계와,
상기 의존성 매트릭스의 복수의 행들(rows)을 스캐닝하여 상기 마이크로명령어 시퀀스를 최적화된 마이크로명령어 시퀀스 - 상기 최적화된 마이크로명령어 시퀀스에서 마이크로명령어는 복수의 의존적 코드 그룹으로 그룹화됨 - 로 재순서화함으로써 최적화 처리를 수행하는 단계와,
상기 복수의 의존적 코드 그룹을 실행을 위해 상기 마이크로프로세서의 복수의 엔진으로 병렬로 출력하는 단계와,
상기 최적화된 마이크로명령어 시퀀스에 대한 후속 히트시 후속 사용을 위해 상기 최적화된 마이크로명령어 시퀀스의 사본을 시퀀스 캐시에 저장하는 단계를 포함하는
코드 최적화의 가속화 방법. - 제15항에 있어서,
상기 최적화 처리는 상기 의존성 매트릭스의 복수의 행들을 스캐닝하여 매칭 명령어들(matching instructions)을 식별하는 단계를 더 포함하는
코드 최적화의 가속화 방법. - 제16항에 있어서,
상기 최적화 처리는 상기 매칭 명령어들을 분석하여 상기 매칭 명령어들이 블로킹 의존성(blocking dependency)을 포함하는지를 판단하는 단계를 더 포함하고, 상기 블로킹 의존성을 제거하기 위해 재명명(renaming)이 수행되는
코드 최적화의 가속화 방법. - 제17항에 있어서,
상기 의존성 매트릭스의 각 행의 제1 매치들에 대응하는 명령어들이 대응하는 의존성 그룹으로 이동되는
코드 최적화의 가속화 방법. - 제15항에 있어서,
상기 최적화된 마이크로명령어 시퀀스들의 사본들이 상기 마이크로프로세서의 메모리 계층에 저장되는
코드 최적화의 가속화 방법. - 제19항에 있어서,
상기 메모리 계층은 L1 캐시 및 L2 캐시를 포함하는
코드 최적화의 가속화 방법. - 제20항에 있어서,
상기 메모리 계층은 시스템 메모리를 더 포함하는
코드 최적화의 가속화 방법.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2011/061953 WO2013077875A1 (en) | 2011-11-22 | 2011-11-22 | An accelerated code optimizer for a multiengine microprocessor |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177002473A Division KR101842550B1 (ko) | 2011-11-22 | 2011-11-22 | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140094014A KR20140094014A (ko) | 2014-07-29 |
KR101703401B1 true KR101703401B1 (ko) | 2017-02-06 |
Family
ID=48470171
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147016764A KR101703401B1 (ko) | 2011-11-22 | 2011-11-22 | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 |
KR1020177002473A KR101842550B1 (ko) | 2011-11-22 | 2011-11-22 | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020177002473A KR101842550B1 (ko) | 2011-11-22 | 2011-11-22 | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10191746B2 (ko) |
EP (1) | EP2783280B1 (ko) |
KR (2) | KR101703401B1 (ko) |
CN (1) | CN104040490B (ko) |
IN (1) | IN2014CN03678A (ko) |
WO (1) | WO2013077875A1 (ko) |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8327115B2 (en) | 2006-04-12 | 2012-12-04 | Soft Machines, Inc. | Plural matrices of execution units for processing matrices of row dependent instructions in single clock cycle in super or separate mode |
EP2523101B1 (en) | 2006-11-14 | 2014-06-04 | Soft Machines, Inc. | Apparatus and method for processing complex instruction formats in a multi- threaded architecture supporting various context switch modes and virtualization schemes |
KR101685247B1 (ko) | 2010-09-17 | 2016-12-09 | 소프트 머신즈, 인크. | 조기 원거리 분기 예측을 위한 섀도우 캐시를 포함하는 단일 사이클 다중 분기 예측 |
EP2689327B1 (en) | 2011-03-25 | 2021-07-28 | Intel Corporation | Executing instruction sequence code blocks by using virtual cores instantiated by partitionable engines |
CN108376097B (zh) | 2011-03-25 | 2022-04-15 | 英特尔公司 | 用于通过使用由可分割引擎实例化的虚拟核来支持代码块执行的寄存器文件段 |
KR101966712B1 (ko) | 2011-03-25 | 2019-04-09 | 인텔 코포레이션 | 분할가능한 엔진에 의해 인스턴스화된 가상 코어를 이용한 코드 블록의 실행을 지원하는 메모리 프래그먼트 |
CN103649931B (zh) | 2011-05-20 | 2016-10-12 | 索夫特机械公司 | 用于支持由多个引擎执行指令序列的互连结构 |
KR101639853B1 (ko) | 2011-05-20 | 2016-07-14 | 소프트 머신즈, 인크. | 복수의 엔진에 의해 명령어 시퀀스들의 실행을 지원하기 위한 자원들 및 상호접속 구조들의 비집중 할당 |
KR101703401B1 (ko) | 2011-11-22 | 2017-02-06 | 소프트 머신즈, 인크. | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 |
WO2013077876A1 (en) | 2011-11-22 | 2013-05-30 | Soft Machines, Inc. | A microprocessor accelerated code optimizer |
US9904625B2 (en) | 2013-03-15 | 2018-02-27 | Intel Corporation | Methods, systems and apparatus for predicting the way of a set associative cache |
WO2014150991A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for implementing a reduced size register view data structure in a microprocessor |
US9569216B2 (en) | 2013-03-15 | 2017-02-14 | Soft Machines, Inc. | Method for populating a source view data structure by using register template snapshots |
WO2014151018A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for executing multithreaded instructions grouped onto blocks |
US10140138B2 (en) | 2013-03-15 | 2018-11-27 | Intel Corporation | Methods, systems and apparatus for supporting wide and efficient front-end operation with guest-architecture emulation |
US9891924B2 (en) | 2013-03-15 | 2018-02-13 | Intel Corporation | Method for implementing a reduced size register view data structure in a microprocessor |
WO2014151043A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for emulating a guest centralized flag architecture by using a native distributed flag architecture |
US9886279B2 (en) | 2013-03-15 | 2018-02-06 | Intel Corporation | Method for populating and instruction view data structure by using register template snapshots |
US10275255B2 (en) | 2013-03-15 | 2019-04-30 | Intel Corporation | Method for dependency broadcasting through a source organized source view data structure |
US9811342B2 (en) | 2013-03-15 | 2017-11-07 | Intel Corporation | Method for performing dual dispatch of blocks and half blocks |
WO2014150971A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for dependency broadcasting through a block organized source view data structure |
WO2014150806A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for populating register view data structure by using register template snapshots |
US10353680B2 (en) | 2014-07-25 | 2019-07-16 | Intel Corporation | System converter that implements a run ahead run time guest instruction conversion/decoding process and a prefetching process where guest code is pre-fetched from the target of guest branches in an instruction sequence |
US9733909B2 (en) | 2014-07-25 | 2017-08-15 | Intel Corporation | System converter that implements a reordering process through JIT (just in time) optimization that ensures loads do not dispatch ahead of other loads that are to the same address |
US20160026487A1 (en) | 2014-07-25 | 2016-01-28 | Soft Machines, Inc. | Using a conversion look aside buffer to implement an instruction set agnostic runtime architecture |
US20160026486A1 (en) * | 2014-07-25 | 2016-01-28 | Soft Machines, Inc. | An allocation and issue stage for reordering a microinstruction sequence into an optimized microinstruction sequence to implement an instruction set agnostic runtime architecture |
US11281481B2 (en) | 2014-07-25 | 2022-03-22 | Intel Corporation | Using a plurality of conversion tables to implement an instruction set agnostic runtime architecture |
US9946549B2 (en) * | 2015-03-04 | 2018-04-17 | Qualcomm Incorporated | Register renaming in block-based instruction set architecture |
US20170302438A1 (en) * | 2016-04-15 | 2017-10-19 | The Florida International University Board Of Trustees | Advanced bus architecture for aes-encrypted high-performance internet-of-things (iot) embedded systems |
KR20180038793A (ko) * | 2016-10-07 | 2018-04-17 | 삼성전자주식회사 | 영상 데이터 처리 방법 및 장치 |
KR102195103B1 (ko) * | 2017-06-26 | 2020-12-24 | 삼성전자주식회사 | 프로그램 컴파일 방법 |
US10884751B2 (en) * | 2018-07-13 | 2021-01-05 | Advanced Micro Devices, Inc. | Method and apparatus for virtualizing the micro-op cache |
CN113795823A (zh) * | 2019-02-13 | 2021-12-14 | 诺基亚技术有限公司 | 处理器资源的可编程控制 |
US11500803B2 (en) * | 2019-09-03 | 2022-11-15 | Qorvo Us, Inc. | Programmable slave circuit on a communication bus |
US20230367600A1 (en) * | 2022-05-12 | 2023-11-16 | Nokia Solutions And Networks Oy | Affinity groups in a micro-operations cache of a processor |
CN115629807B (zh) * | 2022-10-31 | 2023-04-14 | 海光信息技术股份有限公司 | 多线程处理器的译码方法、处理器、芯片及电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5517651A (en) * | 1993-12-29 | 1996-05-14 | Intel Corporation | Method and apparatus for loading a segment register in a microprocessor capable of operating in multiple modes |
US5710902A (en) * | 1995-09-06 | 1998-01-20 | Intel Corporation | Instruction dependency chain indentifier |
US20100161948A1 (en) * | 2006-11-14 | 2010-06-24 | Abdallah Mohammad A | Apparatus and Method for Processing Complex Instruction Formats in a Multi-Threaded Architecture Supporting Various Context Switch Modes and Virtualization Schemes |
Family Cites Families (470)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US727487A (en) | 1902-10-21 | 1903-05-05 | Swan F Swanson | Dumping-car. |
US4075704A (en) | 1976-07-02 | 1978-02-21 | Floating Point Systems, Inc. | Floating point data processor for high speech operation |
US4228496A (en) | 1976-09-07 | 1980-10-14 | Tandem Computers Incorporated | Multiprocessor system |
US4245344A (en) | 1979-04-02 | 1981-01-13 | Rockwell International Corporation | Processing system with dual buses |
US4527237A (en) | 1979-10-11 | 1985-07-02 | Nanodata Computer Corporation | Data processing system |
US4414624A (en) | 1980-11-19 | 1983-11-08 | The United States Of America As Represented By The Secretary Of The Navy | Multiple-microcomputer processing |
US4524415A (en) | 1982-12-07 | 1985-06-18 | Motorola, Inc. | Virtual machine data processor |
US4597061B1 (en) | 1983-01-03 | 1998-06-09 | Texas Instruments Inc | Memory system using pipleline circuitry for improved system |
US4577273A (en) | 1983-06-06 | 1986-03-18 | Sperry Corporation | Multiple microcomputer system for digital computers |
US4682281A (en) | 1983-08-30 | 1987-07-21 | Amdahl Corporation | Data storage unit employing translation lookaside buffer pointer |
US4600986A (en) | 1984-04-02 | 1986-07-15 | Sperry Corporation | Pipelined split stack with high performance interleaved decode |
US4633434A (en) | 1984-04-02 | 1986-12-30 | Sperry Corporation | High performance storage unit |
JPS6140643A (ja) | 1984-07-31 | 1986-02-26 | Hitachi Ltd | システムの資源割当て制御方式 |
US4835680A (en) | 1985-03-15 | 1989-05-30 | Xerox Corporation | Adaptive processor array capable of learning variable associations useful in recognizing classes of inputs |
JPS6289149A (ja) | 1985-10-15 | 1987-04-23 | Agency Of Ind Science & Technol | 多ポ−トメモリシステム |
JPH0658650B2 (ja) | 1986-03-14 | 1994-08-03 | 株式会社日立製作所 | 仮想計算機システム |
US4920477A (en) | 1987-04-20 | 1990-04-24 | Multiflow Computer, Inc. | Virtual address table look aside buffer miss recovery method and apparatus |
US4943909A (en) | 1987-07-08 | 1990-07-24 | At&T Bell Laboratories | Computational origami |
US5339398A (en) | 1989-07-31 | 1994-08-16 | North American Philips Corporation | Memory architecture and method of data organization optimized for hashing |
US5471593A (en) | 1989-12-11 | 1995-11-28 | Branigin; Michael H. | Computer processor with an efficient means of executing many instructions simultaneously |
US5197130A (en) | 1989-12-29 | 1993-03-23 | Supercomputer Systems Limited Partnership | Cluster architecture for a highly parallel scalar/vector multiprocessor system |
US5317754A (en) | 1990-10-23 | 1994-05-31 | International Business Machines Corporation | Method and apparatus for enabling an interpretive execution subset |
US5317705A (en) | 1990-10-24 | 1994-05-31 | International Business Machines Corporation | Apparatus and method for TLB purge reduction in a multi-level machine system |
US6282583B1 (en) | 1991-06-04 | 2001-08-28 | Silicon Graphics, Inc. | Method and apparatus for memory access in a matrix processor computer |
US5539911A (en) | 1991-07-08 | 1996-07-23 | Seiko Epson Corporation | High-performance, superscalar-based computer system with out-of-order instruction execution |
JPH0820949B2 (ja) | 1991-11-26 | 1996-03-04 | 松下電器産業株式会社 | 情報処理装置 |
JPH07502358A (ja) | 1991-12-23 | 1995-03-09 | インテル・コーポレーション | マイクロプロセッサーのクロックに依るマルチプル・アクセスのためのインターリーブ・キャッシュ |
KR100309566B1 (ko) | 1992-04-29 | 2001-12-15 | 리패치 | 파이프라인프로세서에서다중명령어를무리짓고,그룹화된명령어를동시에발행하고,그룹화된명령어를실행시키는방법및장치 |
EP0638183B1 (en) | 1992-05-01 | 1997-03-05 | Seiko Epson Corporation | A system and method for retiring instructions in a superscalar microprocessor |
DE69329260T2 (de) | 1992-06-25 | 2001-02-22 | Canon K.K., Tokio/Tokyo | Gerät zum Multiplizieren von Ganzzahlen mit vielen Ziffern |
JPH0637202A (ja) | 1992-07-20 | 1994-02-10 | Mitsubishi Electric Corp | マイクロ波ic用パッケージ |
JPH06110781A (ja) | 1992-09-30 | 1994-04-22 | Nec Corp | キャッシュメモリ装置 |
US5493660A (en) | 1992-10-06 | 1996-02-20 | Hewlett-Packard Company | Software assisted hardware TLB miss handler |
US5513335A (en) | 1992-11-02 | 1996-04-30 | Sgs-Thomson Microelectronics, Inc. | Cache tag memory having first and second single-port arrays and a dual-port array |
US5819088A (en) | 1993-03-25 | 1998-10-06 | Intel Corporation | Method and apparatus for scheduling instructions for execution on a multi-issue architecture computer |
JPH0784883A (ja) | 1993-09-17 | 1995-03-31 | Hitachi Ltd | 仮想計算機システムのアドレス変換バッファパージ方法 |
US6948172B1 (en) | 1993-09-21 | 2005-09-20 | Microsoft Corporation | Preemptive multi-tasking with cooperative groups of tasks |
US5469376A (en) | 1993-10-14 | 1995-11-21 | Abdallah; Mohammad A. F. F. | Digital circuit for the evaluation of mathematical expressions |
US5956753A (en) | 1993-12-30 | 1999-09-21 | Intel Corporation | Method and apparatus for handling speculative memory access operations |
US5761476A (en) | 1993-12-30 | 1998-06-02 | Intel Corporation | Non-clocked early read for back-to-back scheduling of instructions |
JP3048498B2 (ja) | 1994-04-13 | 2000-06-05 | 株式会社東芝 | 半導体記憶装置 |
JPH07287668A (ja) | 1994-04-19 | 1995-10-31 | Hitachi Ltd | データ処理装置 |
CN1084005C (zh) | 1994-06-27 | 2002-05-01 | 国际商业机器公司 | 用于动态控制地址空间分配的方法和设备 |
US5548742A (en) | 1994-08-11 | 1996-08-20 | Intel Corporation | Method and apparatus for combining a direct-mapped cache and a multiple-way cache in a cache memory |
US5813031A (en) | 1994-09-21 | 1998-09-22 | Industrial Technology Research Institute | Caching tag for a large scale cache computer memory system |
US5640534A (en) | 1994-10-05 | 1997-06-17 | International Business Machines Corporation | Method and system for concurrent access in a data cache array utilizing multiple match line selection paths |
US5835951A (en) | 1994-10-18 | 1998-11-10 | National Semiconductor | Branch processing unit with target cache read prioritization protocol for handling multiple hits |
JP3569014B2 (ja) | 1994-11-25 | 2004-09-22 | 富士通株式会社 | マルチコンテキストをサポートするプロセッサおよび処理方法 |
US5724565A (en) | 1995-02-03 | 1998-03-03 | International Business Machines Corporation | Method and system for processing first and second sets of instructions by first and second types of processing systems |
US5655115A (en) | 1995-02-14 | 1997-08-05 | Hal Computer Systems, Inc. | Processor structure and method for watchpoint of plural simultaneous unresolved branch evaluation |
US5675759A (en) | 1995-03-03 | 1997-10-07 | Shebanow; Michael C. | Method and apparatus for register management using issue sequence prior physical register and register association validity information |
US5634068A (en) | 1995-03-31 | 1997-05-27 | Sun Microsystems, Inc. | Packet switched cache coherent multiprocessor system |
US5751982A (en) | 1995-03-31 | 1998-05-12 | Apple Computer, Inc. | Software emulation system with dynamic translation of emulated instructions for increased processing speed |
US6209085B1 (en) | 1995-05-05 | 2001-03-27 | Intel Corporation | Method and apparatus for performing process switching in multiprocessor computer systems |
US6643765B1 (en) | 1995-08-16 | 2003-11-04 | Microunity Systems Engineering, Inc. | Programmable processor with group floating point operations |
US6341324B1 (en) | 1995-10-06 | 2002-01-22 | Lsi Logic Corporation | Exception processing in superscalar microprocessor |
US5864657A (en) | 1995-11-29 | 1999-01-26 | Texas Micro, Inc. | Main memory system and checkpointing protocol for fault-tolerant computer system |
US5983327A (en) | 1995-12-01 | 1999-11-09 | Nortel Networks Corporation | Data path architecture and arbitration scheme for providing access to a shared system resource |
US5793941A (en) | 1995-12-04 | 1998-08-11 | Advanced Micro Devices, Inc. | On-chip primary cache testing circuit and test method |
US5911057A (en) | 1995-12-19 | 1999-06-08 | Texas Instruments Incorporated | Superscalar microprocessor having combined register and memory renaming circuits, systems, and methods |
US5699537A (en) | 1995-12-22 | 1997-12-16 | Intel Corporation | Processor microarchitecture for efficient dynamic scheduling and execution of chains of dependent instructions |
US6882177B1 (en) | 1996-01-10 | 2005-04-19 | Altera Corporation | Tristate structures for programmable logic devices |
US5754818A (en) | 1996-03-22 | 1998-05-19 | Sun Microsystems, Inc. | Architecture and method for sharing TLB entries through process IDS |
US5904892A (en) | 1996-04-01 | 1999-05-18 | Saint-Gobain/Norton Industrial Ceramics Corp. | Tape cast silicon carbide dummy wafer |
US5752260A (en) | 1996-04-29 | 1998-05-12 | International Business Machines Corporation | High-speed, multiple-port, interleaved cache with arbitration of multiple access addresses |
US5806085A (en) | 1996-05-01 | 1998-09-08 | Sun Microsystems, Inc. | Method for non-volatile caching of network and CD-ROM file accesses using a cache directory, pointers, file name conversion, a local hard disk, and separate small database |
US5829028A (en) | 1996-05-06 | 1998-10-27 | Advanced Micro Devices, Inc. | Data cache configured to store data in a use-once manner |
US6108769A (en) | 1996-05-17 | 2000-08-22 | Advanced Micro Devices, Inc. | Dependency table for reducing dependency checking hardware |
US5881277A (en) | 1996-06-13 | 1999-03-09 | Texas Instruments Incorporated | Pipelined microprocessor with branch misprediction cache circuits, systems and methods |
US5860146A (en) | 1996-06-25 | 1999-01-12 | Sun Microsystems, Inc. | Auxiliary translation lookaside buffer for assisting in accessing data in remote address spaces |
US5903760A (en) | 1996-06-27 | 1999-05-11 | Intel Corporation | Method and apparatus for translating a conditional instruction compatible with a first instruction set architecture (ISA) into a conditional instruction compatible with a second ISA |
US5974506A (en) | 1996-06-28 | 1999-10-26 | Digital Equipment Corporation | Enabling mirror, nonmirror and partial mirror cache modes in a dual cache system |
US6167490A (en) | 1996-09-20 | 2000-12-26 | University Of Washington | Using global memory information to manage memory in a computer network |
KR19980032776A (ko) | 1996-10-16 | 1998-07-25 | 가나이 츠토무 | 데이타 프로세서 및 데이타 처리시스템 |
KR19990076967A (ko) | 1996-11-04 | 1999-10-25 | 요트.게.아. 롤페즈 | 처리 장치 및 메모리내의 명령 판독 |
US6253316B1 (en) | 1996-11-19 | 2001-06-26 | Advanced Micro Devices, Inc. | Three state branch history using one bit in a branch prediction mechanism |
US5978906A (en) | 1996-11-19 | 1999-11-02 | Advanced Micro Devices, Inc. | Branch selectors associated with byte ranges within an instruction cache for rapidly identifying branch predictions |
US5903750A (en) | 1996-11-20 | 1999-05-11 | Institute For The Development Of Emerging Architectures, L.L.P. | Dynamic branch prediction for branch instructions with multiple targets |
US6212542B1 (en) | 1996-12-16 | 2001-04-03 | International Business Machines Corporation | Method and system for executing a program within a multiscalar processor by processing linked thread descriptors |
US6134634A (en) | 1996-12-20 | 2000-10-17 | Texas Instruments Incorporated | Method and apparatus for preemptive cache write-back |
US5918251A (en) | 1996-12-23 | 1999-06-29 | Intel Corporation | Method and apparatus for preloading different default address translation attributes |
US6016540A (en) | 1997-01-08 | 2000-01-18 | Intel Corporation | Method and apparatus for scheduling instructions in waves |
US6065105A (en) | 1997-01-08 | 2000-05-16 | Intel Corporation | Dependency matrix |
US5802602A (en) | 1997-01-17 | 1998-09-01 | Intel Corporation | Method and apparatus for performing reads of related data from a set-associative cache memory |
US6088780A (en) | 1997-03-31 | 2000-07-11 | Institute For The Development Of Emerging Architecture, L.L.C. | Page table walker that uses at least one of a default page size and a page size selected for a virtual address space to position a sliding field in a virtual address |
US6075938A (en) | 1997-06-10 | 2000-06-13 | The Board Of Trustees Of The Leland Stanford Junior University | Virtual machine monitors for scalable multiprocessors |
US6073230A (en) | 1997-06-11 | 2000-06-06 | Advanced Micro Devices, Inc. | Instruction fetch unit configured to provide sequential way prediction for sequential instruction fetches |
JPH1124929A (ja) | 1997-06-30 | 1999-01-29 | Sony Corp | 演算処理装置およびその方法 |
US6170051B1 (en) | 1997-08-01 | 2001-01-02 | Micron Technology, Inc. | Apparatus and method for program level parallelism in a VLIW processor |
US6128728A (en) | 1997-08-01 | 2000-10-03 | Micron Technology, Inc. | Virtual shadow registers and virtual register windows |
US6085315A (en) | 1997-09-12 | 2000-07-04 | Siemens Aktiengesellschaft | Data processing device with loop pipeline |
US6101577A (en) | 1997-09-15 | 2000-08-08 | Advanced Micro Devices, Inc. | Pipelined instruction cache and branch prediction mechanism therefor |
US5901294A (en) | 1997-09-18 | 1999-05-04 | International Business Machines Corporation | Method and system for bus arbitration in a multiprocessor system utilizing simultaneous variable-width bus access |
US6185660B1 (en) | 1997-09-23 | 2001-02-06 | Hewlett-Packard Company | Pending access queue for providing data to a target register during an intermediate pipeline phase after a computer cache miss |
US5905509A (en) | 1997-09-30 | 1999-05-18 | Compaq Computer Corp. | Accelerated Graphics Port two level Gart cache having distributed first level caches |
US6226732B1 (en) | 1997-10-02 | 2001-05-01 | Hitachi Micro Systems, Inc. | Memory system architecture |
US5922065A (en) | 1997-10-13 | 1999-07-13 | Institute For The Development Of Emerging Architectures, L.L.C. | Processor utilizing a template field for encoding instruction sequences in a wide-word format |
US6178482B1 (en) | 1997-11-03 | 2001-01-23 | Brecis Communications | Virtual register sets |
US6021484A (en) | 1997-11-14 | 2000-02-01 | Samsung Electronics Co., Ltd. | Dual instruction set architecture |
US6256728B1 (en) | 1997-11-17 | 2001-07-03 | Advanced Micro Devices, Inc. | Processor configured to selectively cancel instructions from its pipeline responsive to a predicted-taken short forward branch instruction |
US6260131B1 (en) | 1997-11-18 | 2001-07-10 | Intrinsity, Inc. | Method and apparatus for TLB memory ordering |
US6016533A (en) | 1997-12-16 | 2000-01-18 | Advanced Micro Devices, Inc. | Way prediction logic for cache array |
US6219776B1 (en) | 1998-03-10 | 2001-04-17 | Billions Of Operations Per Second | Merged array controller and processing element |
US6609189B1 (en) | 1998-03-12 | 2003-08-19 | Yale University | Cycle segmented prefix circuits |
JP3657424B2 (ja) | 1998-03-20 | 2005-06-08 | 松下電器産業株式会社 | 番組情報を放送するセンター装置と端末装置 |
US6216215B1 (en) | 1998-04-02 | 2001-04-10 | Intel Corporation | Method and apparatus for senior loads |
US6157998A (en) | 1998-04-03 | 2000-12-05 | Motorola Inc. | Method for performing branch prediction and resolution of two or more branch instructions within two or more branch prediction buffers |
US6205545B1 (en) | 1998-04-30 | 2001-03-20 | Hewlett-Packard Company | Method and apparatus for using static branch predictions hints with dynamically translated code traces to improve performance |
US6115809A (en) | 1998-04-30 | 2000-09-05 | Hewlett-Packard Company | Compiling strong and weak branching behavior instruction blocks to separate caches for dynamic and static prediction |
US6256727B1 (en) | 1998-05-12 | 2001-07-03 | International Business Machines Corporation | Method and system for fetching noncontiguous instructions in a single clock cycle |
JPH11338710A (ja) | 1998-05-28 | 1999-12-10 | Toshiba Corp | 複数種の命令セットを持つプロセッサのためのコンパイル方法ならびに装置および同方法がプログラムされ記録される記録媒体 |
US6272616B1 (en) | 1998-06-17 | 2001-08-07 | Agere Systems Guardian Corp. | Method and apparatus for executing multiple instruction streams in a digital processor with multiple data paths |
US6988183B1 (en) * | 1998-06-26 | 2006-01-17 | Derek Chi-Lan Wong | Methods for increasing instruction-level parallelism in microprocessors and digital system |
US6260138B1 (en) | 1998-07-17 | 2001-07-10 | Sun Microsystems, Inc. | Method and apparatus for branch instruction processing in a processor |
US6122656A (en) | 1998-07-31 | 2000-09-19 | Advanced Micro Devices, Inc. | Processor configured to map logical register numbers to physical register numbers using virtual register numbers |
US6272662B1 (en) | 1998-08-04 | 2001-08-07 | International Business Machines Corporation | Distributed storage system using front-end and back-end locking |
JP2000057054A (ja) | 1998-08-12 | 2000-02-25 | Fujitsu Ltd | 高速アドレス変換システム |
US8631066B2 (en) | 1998-09-10 | 2014-01-14 | Vmware, Inc. | Mechanism for providing virtual machines for use by multiple users |
US6339822B1 (en) | 1998-10-02 | 2002-01-15 | Advanced Micro Devices, Inc. | Using padded instructions in a block-oriented cache |
US6332189B1 (en) | 1998-10-16 | 2001-12-18 | Intel Corporation | Branch prediction architecture |
GB9825102D0 (en) | 1998-11-16 | 1999-01-13 | Insignia Solutions Plc | Computer system |
JP3110404B2 (ja) | 1998-11-18 | 2000-11-20 | 甲府日本電気株式会社 | マイクロプロセッサ装置及びそのソフトウェア命令高速化方法並びにその制御プログラムを記録した記録媒体 |
US6490673B1 (en) | 1998-11-27 | 2002-12-03 | Matsushita Electric Industrial Co., Ltd | Processor, compiling apparatus, and compile program recorded on a recording medium |
US6519682B2 (en) | 1998-12-04 | 2003-02-11 | Stmicroelectronics, Inc. | Pipelined non-blocking level two cache system with inherent transaction collision-avoidance |
US7020879B1 (en) | 1998-12-16 | 2006-03-28 | Mips Technologies, Inc. | Interrupt and exception handling for multi-streaming digital processors |
US6477562B2 (en) | 1998-12-16 | 2002-11-05 | Clearwater Networks, Inc. | Prioritized instruction scheduling for multi-streaming processors |
US6247097B1 (en) | 1999-01-22 | 2001-06-12 | International Business Machines Corporation | Aligned instruction cache handling of instruction fetches across multiple predicted branch instructions |
US6321298B1 (en) | 1999-01-25 | 2001-11-20 | International Business Machines Corporation | Full cache coherency across multiple raid controllers |
JP3842474B2 (ja) | 1999-02-02 | 2006-11-08 | 株式会社ルネサステクノロジ | データ処理装置 |
US6327650B1 (en) | 1999-02-12 | 2001-12-04 | Vsli Technology, Inc. | Pipelined multiprocessing with upstream processor concurrently writing to local register and to register of downstream processor |
US6732220B2 (en) | 1999-02-17 | 2004-05-04 | Elbrus International | Method for emulating hardware features of a foreign architecture in a host operating system environment |
US6668316B1 (en) | 1999-02-17 | 2003-12-23 | Elbrus International Limited | Method and apparatus for conflict-free execution of integer and floating-point operations with a common register file |
US6418530B2 (en) | 1999-02-18 | 2002-07-09 | Hewlett-Packard Company | Hardware/software system for instruction profiling and trace selection using branch history information for branch predictions |
US6437789B1 (en) | 1999-02-19 | 2002-08-20 | Evans & Sutherland Computer Corporation | Multi-level cache controller |
US6850531B1 (en) | 1999-02-23 | 2005-02-01 | Alcatel | Multi-service network switch |
US6212613B1 (en) | 1999-03-22 | 2001-04-03 | Cisco Technology, Inc. | Methods and apparatus for reusing addresses in a computer |
US6529928B1 (en) | 1999-03-23 | 2003-03-04 | Silicon Graphics, Inc. | Floating-point adder performing floating-point and integer operations |
EP1050808B1 (en) | 1999-05-03 | 2008-04-30 | STMicroelectronics S.A. | Computer instruction scheduling |
US6449671B1 (en) | 1999-06-09 | 2002-09-10 | Ati International Srl | Method and apparatus for busing data elements |
US6473833B1 (en) | 1999-07-30 | 2002-10-29 | International Business Machines Corporation | Integrated cache and directory structure for multi-level caches |
US6643770B1 (en) | 1999-09-16 | 2003-11-04 | Intel Corporation | Branch misprediction recovery using a side memory |
US6772325B1 (en) | 1999-10-01 | 2004-08-03 | Hitachi, Ltd. | Processor architecture and operation for exploiting improved branch control instruction |
US6704822B1 (en) | 1999-10-01 | 2004-03-09 | Sun Microsystems, Inc. | Arbitration protocol for a shared data cache |
US6457120B1 (en) | 1999-11-01 | 2002-09-24 | International Business Machines Corporation | Processor and method including a cache having confirmation bits for improving address predictable branch instruction target predictions |
US7441110B1 (en) | 1999-12-10 | 2008-10-21 | International Business Machines Corporation | Prefetching using future branch path information derived from branch prediction |
US7107434B2 (en) | 1999-12-20 | 2006-09-12 | Board Of Regents, The University Of Texas | System, method and apparatus for allocating hardware resources using pseudorandom sequences |
AU2597401A (en) | 1999-12-22 | 2001-07-03 | Ubicom, Inc. | System and method for instruction level multithreading in an embedded processor using zero-time context switching |
US6557095B1 (en) | 1999-12-27 | 2003-04-29 | Intel Corporation | Scheduling operations using a dependency matrix |
US6542984B1 (en) | 2000-01-03 | 2003-04-01 | Advanced Micro Devices, Inc. | Scheduler capable of issuing and reissuing dependency chains |
WO2001050253A1 (en) | 2000-01-03 | 2001-07-12 | Advanced Micro Devices, Inc. | Scheduler capable of issuing and reissuing dependency chains |
US6594755B1 (en) | 2000-01-04 | 2003-07-15 | National Semiconductor Corporation | System and method for interleaved execution of multiple independent threads |
US6728872B1 (en) | 2000-02-04 | 2004-04-27 | International Business Machines Corporation | Method and apparatus for verifying that instructions are pipelined in correct architectural sequence |
GB0002848D0 (en) | 2000-02-08 | 2000-03-29 | Siroyan Limited | Communicating instruction results in processors and compiling methods for processors |
GB2365661A (en) | 2000-03-10 | 2002-02-20 | British Telecomm | Allocating switch requests within a packet switch |
US6615340B1 (en) | 2000-03-22 | 2003-09-02 | Wilmot, Ii Richard Byron | Extended operand management indicator structure and method |
US6604187B1 (en) | 2000-06-19 | 2003-08-05 | Advanced Micro Devices, Inc. | Providing global translations with address space numbers |
US6557083B1 (en) | 2000-06-30 | 2003-04-29 | Intel Corporation | Memory system for multiple data types |
US6704860B1 (en) | 2000-07-26 | 2004-03-09 | International Business Machines Corporation | Data processing system and method for fetching instruction blocks in response to a detected block sequence |
US7206925B1 (en) | 2000-08-18 | 2007-04-17 | Sun Microsystems, Inc. | Backing Register File for processors |
US6728866B1 (en) * | 2000-08-31 | 2004-04-27 | International Business Machines Corporation | Partitioned issue queue and allocation strategy |
US6721874B1 (en) | 2000-10-12 | 2004-04-13 | International Business Machines Corporation | Method and system for dynamically shared completion table supporting multiple threads in a processing system |
US7757065B1 (en) | 2000-11-09 | 2010-07-13 | Intel Corporation | Instruction segment recording scheme |
JP2002185513A (ja) | 2000-12-18 | 2002-06-28 | Hitachi Ltd | パケット通信ネットワークおよびパケット転送制御方法 |
US6877089B2 (en) | 2000-12-27 | 2005-04-05 | International Business Machines Corporation | Branch prediction apparatus and process for restoring replaced branch history for use in future branch predictions for an executing program |
US6907600B2 (en) | 2000-12-27 | 2005-06-14 | Intel Corporation | Virtual translation lookaside buffer |
US6647466B2 (en) | 2001-01-25 | 2003-11-11 | Hewlett-Packard Development Company, L.P. | Method and apparatus for adaptively bypassing one or more levels of a cache hierarchy |
FR2820921A1 (fr) | 2001-02-14 | 2002-08-16 | Canon Kk | Dispositif et procede de transmission dans un commutateur |
US6985951B2 (en) | 2001-03-08 | 2006-01-10 | International Business Machines Corporation | Inter-partition message passing method, system and program product for managing workload in a partitioned processing environment |
US6950927B1 (en) | 2001-04-13 | 2005-09-27 | The United States Of America As Represented By The Secretary Of The Navy | System and method for instruction-level parallelism in a programmable multiple network processor environment |
US7200740B2 (en) | 2001-05-04 | 2007-04-03 | Ip-First, Llc | Apparatus and method for speculatively performing a return instruction in a microprocessor |
US7707397B2 (en) | 2001-05-04 | 2010-04-27 | Via Technologies, Inc. | Variable group associativity branch target address cache delivering multiple target addresses per cache line |
US6658549B2 (en) | 2001-05-22 | 2003-12-02 | Hewlett-Packard Development Company, Lp. | Method and system allowing a single entity to manage memory comprising compressed and uncompressed data |
US6985591B2 (en) | 2001-06-29 | 2006-01-10 | Intel Corporation | Method and apparatus for distributing keys for decrypting and re-encrypting publicly distributed media |
US7203824B2 (en) | 2001-07-03 | 2007-04-10 | Ip-First, Llc | Apparatus and method for handling BTAC branches that wrap across instruction cache lines |
US7024545B1 (en) | 2001-07-24 | 2006-04-04 | Advanced Micro Devices, Inc. | Hybrid branch prediction device with two levels of branch prediction cache |
US6954846B2 (en) | 2001-08-07 | 2005-10-11 | Sun Microsystems, Inc. | Microprocessor and method for giving each thread exclusive access to one register file in a multi-threading mode and for giving an active thread access to multiple register files in a single thread mode |
US6718440B2 (en) | 2001-09-28 | 2004-04-06 | Intel Corporation | Memory access latency hiding with hint buffer |
US7150021B1 (en) | 2001-10-12 | 2006-12-12 | Palau Acquisition Corporation (Delaware) | Method and system to allocate resources within an interconnect device according to a resource allocation table |
US7117347B2 (en) | 2001-10-23 | 2006-10-03 | Ip-First, Llc | Processor including fallback branch prediction mechanism for far jump and far call instructions |
US7272832B2 (en) | 2001-10-25 | 2007-09-18 | Hewlett-Packard Development Company, L.P. | Method of protecting user process data in a secure platform inaccessible to the operating system and other tasks on top of the secure platform |
US6964043B2 (en) | 2001-10-30 | 2005-11-08 | Intel Corporation | Method, apparatus, and system to optimize frequently executed code and to use compiler transformation and hardware support to handle infrequently executed code |
GB2381886B (en) | 2001-11-07 | 2004-06-23 | Sun Microsystems Inc | Computer system with virtual memory and paging mechanism |
US7092869B2 (en) | 2001-11-14 | 2006-08-15 | Ronald Hilton | Memory address prediction under emulation |
US7363467B2 (en) * | 2002-01-03 | 2008-04-22 | Intel Corporation | Dependence-chain processing using trace descriptors having dependency descriptors |
US6640333B2 (en) | 2002-01-10 | 2003-10-28 | Lsi Logic Corporation | Architecture for a sea of platforms |
US7055021B2 (en) | 2002-02-05 | 2006-05-30 | Sun Microsystems, Inc. | Out-of-order processor that reduces mis-speculation using a replay scoreboard |
US7331040B2 (en) | 2002-02-06 | 2008-02-12 | Transitive Limted | Condition code flag emulation for program code conversion |
US6839816B2 (en) | 2002-02-26 | 2005-01-04 | International Business Machines Corporation | Shared cache line update mechanism |
US6731292B2 (en) | 2002-03-06 | 2004-05-04 | Sun Microsystems, Inc. | System and method for controlling a number of outstanding data transactions within an integrated circuit |
JP3719509B2 (ja) | 2002-04-01 | 2005-11-24 | 株式会社ソニー・コンピュータエンタテインメント | シリアル演算パイプライン、演算装置、算術論理演算回路およびシリアル演算パイプラインによる演算方法 |
US7565509B2 (en) | 2002-04-17 | 2009-07-21 | Microsoft Corporation | Using limits on address translation to control access to an addressable entity |
US6920530B2 (en) | 2002-04-23 | 2005-07-19 | Sun Microsystems, Inc. | Scheme for reordering instructions via an instruction caching mechanism |
US7113488B2 (en) | 2002-04-24 | 2006-09-26 | International Business Machines Corporation | Reconfigurable circular bus |
US7281055B2 (en) | 2002-05-28 | 2007-10-09 | Newisys, Inc. | Routing mechanisms in systems having multiple multi-processor clusters |
US7117346B2 (en) | 2002-05-31 | 2006-10-03 | Freescale Semiconductor, Inc. | Data processing system having multiple register contexts and method therefor |
US6938151B2 (en) | 2002-06-04 | 2005-08-30 | International Business Machines Corporation | Hybrid branch prediction using a global selection counter and a prediction method comparison table |
US8024735B2 (en) | 2002-06-14 | 2011-09-20 | Intel Corporation | Method and apparatus for ensuring fairness and forward progress when executing multiple threads of execution |
JP3845043B2 (ja) | 2002-06-28 | 2006-11-15 | 富士通株式会社 | 命令フェッチ制御装置 |
JP3982353B2 (ja) | 2002-07-12 | 2007-09-26 | 日本電気株式会社 | フォルトトレラントコンピュータ装置、その再同期化方法及び再同期化プログラム |
US6944744B2 (en) | 2002-08-27 | 2005-09-13 | Advanced Micro Devices, Inc. | Apparatus and method for independently schedulable functional units with issue lock mechanism in a processor |
US6950925B1 (en) | 2002-08-28 | 2005-09-27 | Advanced Micro Devices, Inc. | Scheduler for use in a microprocessor that supports data-speculative execution |
US7546422B2 (en) | 2002-08-28 | 2009-06-09 | Intel Corporation | Method and apparatus for the synchronization of distributed caches |
TW200408242A (en) | 2002-09-06 | 2004-05-16 | Matsushita Electric Ind Co Ltd | Home terminal apparatus and communication system |
US6895491B2 (en) | 2002-09-26 | 2005-05-17 | Hewlett-Packard Development Company, L.P. | Memory addressing for a virtual machine implementation on a computer processor supporting virtual hash-page-table searching |
US7334086B2 (en) | 2002-10-08 | 2008-02-19 | Rmi Corporation | Advanced processor with system on a chip interconnect technology |
US6829698B2 (en) | 2002-10-10 | 2004-12-07 | International Business Machines Corporation | Method, apparatus and system for acquiring a global promotion facility utilizing a data-less transaction |
US7213248B2 (en) | 2002-10-10 | 2007-05-01 | International Business Machines Corporation | High speed promotion mechanism suitable for lock acquisition in a multiprocessor data processing system |
US7222218B2 (en) | 2002-10-22 | 2007-05-22 | Sun Microsystems, Inc. | System and method for goal-based scheduling of blocks of code for concurrent execution |
US20040103251A1 (en) | 2002-11-26 | 2004-05-27 | Mitchell Alsup | Microprocessor including a first level cache and a second level cache having different cache line sizes |
CN1720494A (zh) | 2002-12-04 | 2006-01-11 | 皇家飞利浦电子股份有限公司 | 减少微处理器的功率消耗的寄存器堆选通方法 |
US6981083B2 (en) | 2002-12-05 | 2005-12-27 | International Business Machines Corporation | Processor virtualization mechanism via an enhanced restoration of hard architected states |
US7073042B2 (en) | 2002-12-12 | 2006-07-04 | Intel Corporation | Reclaiming existing fields in address translation data structures to extend control over memory accesses |
US20040117594A1 (en) | 2002-12-13 | 2004-06-17 | Vanderspek Julius | Memory management method |
US20040122887A1 (en) | 2002-12-20 | 2004-06-24 | Macy William W. | Efficient multiplication of small matrices using SIMD registers |
US7191349B2 (en) | 2002-12-26 | 2007-03-13 | Intel Corporation | Mechanism for processor power state aware distribution of lowest priority interrupt |
US20040139441A1 (en) | 2003-01-09 | 2004-07-15 | Kabushiki Kaisha Toshiba | Processor, arithmetic operation processing method, and priority determination method |
US6925421B2 (en) | 2003-01-09 | 2005-08-02 | International Business Machines Corporation | Method, system, and computer program product for estimating the number of consumers that place a load on an individual resource in a pool of physically distributed resources |
US7178010B2 (en) | 2003-01-16 | 2007-02-13 | Ip-First, Llc | Method and apparatus for correcting an internal call/return stack in a microprocessor that detects from multiple pipeline stages incorrect speculative update of the call/return stack |
US7089374B2 (en) | 2003-02-13 | 2006-08-08 | Sun Microsystems, Inc. | Selectively unmarking load-marked cache lines during transactional program execution |
US7278030B1 (en) | 2003-03-03 | 2007-10-02 | Vmware, Inc. | Virtualization system for computers having multiple protection mechanisms |
US6912644B1 (en) | 2003-03-06 | 2005-06-28 | Intel Corporation | Method and apparatus to steer memory access operations in a virtual memory system |
US7111145B1 (en) | 2003-03-25 | 2006-09-19 | Vmware, Inc. | TLB miss fault handler and method for accessing multiple page tables |
US7143273B2 (en) | 2003-03-31 | 2006-11-28 | Intel Corporation | Method and apparatus for dynamic branch prediction utilizing multiple stew algorithms for indexing a global history |
CN1214666C (zh) | 2003-04-07 | 2005-08-10 | 华为技术有限公司 | 位置业务中限制位置信息请求流量的方法 |
US7058764B2 (en) | 2003-04-14 | 2006-06-06 | Hewlett-Packard Development Company, L.P. | Method of adaptive cache partitioning to increase host I/O performance |
US7139855B2 (en) | 2003-04-24 | 2006-11-21 | International Business Machines Corporation | High performance synchronization of resource allocation in a logically-partitioned system |
US7290261B2 (en) | 2003-04-24 | 2007-10-30 | International Business Machines Corporation | Method and logical apparatus for rename register reallocation in a simultaneous multi-threaded (SMT) processor |
US7469407B2 (en) | 2003-04-24 | 2008-12-23 | International Business Machines Corporation | Method for resource balancing using dispatch flush in a simultaneous multithread processor |
EP1471421A1 (en) | 2003-04-24 | 2004-10-27 | STMicroelectronics Limited | Speculative load instruction control |
US7055003B2 (en) | 2003-04-25 | 2006-05-30 | International Business Machines Corporation | Data cache scrub mechanism for large L2/L3 data cache structures |
US7007108B2 (en) | 2003-04-30 | 2006-02-28 | Lsi Logic Corporation | System method for use of hardware semaphores for resource release notification wherein messages comprises read-modify-write operation and address |
WO2004114128A2 (en) | 2003-06-25 | 2004-12-29 | Koninklijke Philips Electronics N.V. | Instruction controlled data processing device |
JP2005032018A (ja) | 2003-07-04 | 2005-02-03 | Semiconductor Energy Lab Co Ltd | 遺伝的アルゴリズムを用いたマイクロプロセッサ |
US7149872B2 (en) | 2003-07-10 | 2006-12-12 | Transmeta Corporation | System and method for identifying TLB entries associated with a physical address of a specified range |
WO2006082091A2 (en) | 2005-02-07 | 2006-08-10 | Pact Xpp Technologies Ag | Low latency massive parallel data processing device |
US7089398B2 (en) | 2003-07-31 | 2006-08-08 | Silicon Graphics, Inc. | Address translation using a page size tag |
US8296771B2 (en) | 2003-08-18 | 2012-10-23 | Cray Inc. | System and method for mapping between resource consumers and resource providers in a computing system |
US7133950B2 (en) | 2003-08-19 | 2006-11-07 | Sun Microsystems, Inc. | Request arbitration in multi-core processor |
US9032404B2 (en) | 2003-08-28 | 2015-05-12 | Mips Technologies, Inc. | Preemptive multitasking employing software emulation of directed exceptions in a multithreading processor |
US7594089B2 (en) | 2003-08-28 | 2009-09-22 | Mips Technologies, Inc. | Smart memory based synchronization controller for a multi-threaded multiprocessor SoC |
US7610473B2 (en) | 2003-08-28 | 2009-10-27 | Mips Technologies, Inc. | Apparatus, method, and instruction for initiation of concurrent instruction streams in a multithreading microprocessor |
US7849297B2 (en) | 2003-08-28 | 2010-12-07 | Mips Technologies, Inc. | Software emulation of directed exceptions in a multithreading processor |
US7111126B2 (en) | 2003-09-24 | 2006-09-19 | Arm Limited | Apparatus and method for loading data values |
JP4057989B2 (ja) | 2003-09-26 | 2008-03-05 | 株式会社東芝 | スケジューリング方法および情報処理システム |
FR2860313B1 (fr) | 2003-09-30 | 2005-11-04 | Commissariat Energie Atomique | Composant a architecture reconfigurable dynamiquement |
US7047322B1 (en) | 2003-09-30 | 2006-05-16 | Unisys Corporation | System and method for performing conflict resolution and flow control in a multiprocessor system |
US7373637B2 (en) | 2003-09-30 | 2008-05-13 | International Business Machines Corporation | Method and apparatus for counting instruction and memory location ranges |
TWI281121B (en) | 2003-10-06 | 2007-05-11 | Ip First Llc | Apparatus and method for selectively overriding return stack prediction in response to detection of non-standard return sequence |
US8407433B2 (en) | 2007-06-25 | 2013-03-26 | Sonics, Inc. | Interconnect implementing internal controls |
US7395372B2 (en) | 2003-11-14 | 2008-07-01 | International Business Machines Corporation | Method and system for providing cache set selection which is power optimized |
US7243170B2 (en) | 2003-11-24 | 2007-07-10 | International Business Machines Corporation | Method and circuit for reading and writing an instruction buffer |
US20050120191A1 (en) | 2003-12-02 | 2005-06-02 | Intel Corporation (A Delaware Corporation) | Checkpoint-based register reclamation |
US20050132145A1 (en) | 2003-12-15 | 2005-06-16 | Finisar Corporation | Contingent processor time division multiple access of memory in a multi-processor system to allow supplemental memory consumer access |
US7310722B2 (en) | 2003-12-18 | 2007-12-18 | Nvidia Corporation | Across-thread out of order instruction dispatch in a multithreaded graphics processor |
US7293164B2 (en) | 2004-01-14 | 2007-11-06 | International Business Machines Corporation | Autonomic method and apparatus for counting branch instructions to generate branch statistics meant to improve branch predictions |
US20050204118A1 (en) | 2004-02-27 | 2005-09-15 | National Chiao Tung University | Method for inter-cluster communication that employs register permutation |
US20050216920A1 (en) | 2004-03-24 | 2005-09-29 | Vijay Tewari | Use of a virtual machine to emulate a hardware device |
EP1731998A1 (en) | 2004-03-29 | 2006-12-13 | Kyoto University | Data processing device, data processing program, and recording medium containing the data processing program |
US7383427B2 (en) | 2004-04-22 | 2008-06-03 | Sony Computer Entertainment Inc. | Multi-scalar extension for SIMD instruction set processors |
US20050251649A1 (en) | 2004-04-23 | 2005-11-10 | Sony Computer Entertainment Inc. | Methods and apparatus for address map optimization on a multi-scalar extension |
US7418582B1 (en) | 2004-05-13 | 2008-08-26 | Sun Microsystems, Inc. | Versatile register file design for a multi-threaded processor utilizing different modes and register windows |
US7478198B2 (en) | 2004-05-24 | 2009-01-13 | Intel Corporation | Multithreaded clustered microarchitecture with dynamic back-end assignment |
US7594234B1 (en) | 2004-06-04 | 2009-09-22 | Sun Microsystems, Inc. | Adaptive spin-then-block mutual exclusion in multi-threaded processing |
US7284092B2 (en) | 2004-06-24 | 2007-10-16 | International Business Machines Corporation | Digital data processing apparatus having multi-level register file |
US20050289530A1 (en) | 2004-06-29 | 2005-12-29 | Robison Arch D | Scheduling of instructions in program compilation |
EP1628235A1 (en) | 2004-07-01 | 2006-02-22 | Texas Instruments Incorporated | Method and system of ensuring integrity of a secure mode entry sequence |
US8044951B1 (en) | 2004-07-02 | 2011-10-25 | Nvidia Corporation | Integer-based functionality in a graphics shading language |
US7339592B2 (en) | 2004-07-13 | 2008-03-04 | Nvidia Corporation | Simulating multiported memories using lower port count memories |
US7398347B1 (en) | 2004-07-14 | 2008-07-08 | Altera Corporation | Methods and apparatus for dynamic instruction controlled reconfigurable register file |
EP1619593A1 (en) | 2004-07-22 | 2006-01-25 | Sap Ag | Computer-Implemented method and system for performing a product availability check |
JP4064380B2 (ja) | 2004-07-29 | 2008-03-19 | 富士通株式会社 | 演算処理装置およびその制御方法 |
US8443171B2 (en) | 2004-07-30 | 2013-05-14 | Hewlett-Packard Development Company, L.P. | Run-time updating of prediction hint instructions |
US7213106B1 (en) | 2004-08-09 | 2007-05-01 | Sun Microsystems, Inc. | Conservative shadow cache support in a point-to-point connected multiprocessing node |
US7318143B2 (en) | 2004-10-20 | 2008-01-08 | Arm Limited | Reuseable configuration data |
US20090150890A1 (en) | 2007-12-10 | 2009-06-11 | Yourst Matt T | Strand-based computing hardware and dynamically optimizing strandware for a high performance microprocessor system |
US7707578B1 (en) | 2004-12-16 | 2010-04-27 | Vmware, Inc. | Mechanism for scheduling execution of threads for fair resource allocation in a multi-threaded and/or multi-core processing system |
US7257695B2 (en) | 2004-12-28 | 2007-08-14 | Intel Corporation | Register file regions for a processing system |
US7996644B2 (en) | 2004-12-29 | 2011-08-09 | Intel Corporation | Fair sharing of a cache in a multi-core/multi-threaded processor by dynamically partitioning of the cache |
US8719819B2 (en) | 2005-06-30 | 2014-05-06 | Intel Corporation | Mechanism for instruction set based thread execution on a plurality of instruction sequencers |
US7050922B1 (en) | 2005-01-14 | 2006-05-23 | Agilent Technologies, Inc. | Method for optimizing test order, and machine-readable media storing sequences of instructions to perform same |
US7681014B2 (en) | 2005-02-04 | 2010-03-16 | Mips Technologies, Inc. | Multithreading instruction scheduler employing thread group priorities |
US7657891B2 (en) | 2005-02-04 | 2010-02-02 | Mips Technologies, Inc. | Multithreading microprocessor with optimized thread scheduler for increasing pipeline utilization efficiency |
US7400548B2 (en) | 2005-02-09 | 2008-07-15 | International Business Machines Corporation | Method for providing multiple reads/writes using a 2read/2write register file array |
US7343476B2 (en) | 2005-02-10 | 2008-03-11 | International Business Machines Corporation | Intelligent SMT thread hang detect taking into account shared resource contention/blocking |
US7152155B2 (en) | 2005-02-18 | 2006-12-19 | Qualcomm Incorporated | System and method of correcting a branch misprediction |
US20060200655A1 (en) | 2005-03-04 | 2006-09-07 | Smith Rodney W | Forward looking branch target address caching |
US8195922B2 (en) | 2005-03-18 | 2012-06-05 | Marvell World Trade, Ltd. | System for dynamically allocating processing time to multiple threads |
US20060212853A1 (en) | 2005-03-18 | 2006-09-21 | Marvell World Trade Ltd. | Real-time control apparatus having a multi-thread processor |
GB2424727B (en) | 2005-03-30 | 2007-08-01 | Transitive Ltd | Preparing instruction groups for a processor having a multiple issue ports |
US8522253B1 (en) | 2005-03-31 | 2013-08-27 | Guillermo Rozas | Hardware support for virtual machine and operating system context switching in translation lookaside buffers and virtually tagged caches |
US7313775B2 (en) | 2005-04-06 | 2007-12-25 | Lsi Corporation | Integrated circuit with relocatable processor hardmac |
US20060230243A1 (en) | 2005-04-06 | 2006-10-12 | Robert Cochran | Cascaded snapshots |
US20060230409A1 (en) | 2005-04-07 | 2006-10-12 | Matteo Frigo | Multithreaded processor architecture with implicit granularity adaptation |
US8230423B2 (en) | 2005-04-07 | 2012-07-24 | International Business Machines Corporation | Multithreaded processor architecture with operational latency hiding |
US20060230253A1 (en) | 2005-04-11 | 2006-10-12 | Lucian Codrescu | Unified non-partitioned register files for a digital signal processor operating in an interleaved multi-threaded environment |
US20060236074A1 (en) | 2005-04-14 | 2006-10-19 | Arm Limited | Indicating storage locations within caches |
US7437543B2 (en) | 2005-04-19 | 2008-10-14 | International Business Machines Corporation | Reducing the fetch time of target instructions of a predicted taken branch instruction |
US7461237B2 (en) | 2005-04-20 | 2008-12-02 | Sun Microsystems, Inc. | Method and apparatus for suppressing duplicative prefetches for branch target cache lines |
US8713286B2 (en) | 2005-04-26 | 2014-04-29 | Qualcomm Incorporated | Register files for a digital signal processor operating in an interleaved multi-threaded environment |
GB2426084A (en) | 2005-05-13 | 2006-11-15 | Agilent Technologies Inc | Updating data in a dual port memory |
US7861055B2 (en) | 2005-06-07 | 2010-12-28 | Broadcom Corporation | Method and system for on-chip configurable data ram for fast memory and pseudo associative caches |
US8010969B2 (en) | 2005-06-13 | 2011-08-30 | Intel Corporation | Mechanism for monitoring instruction set based thread execution on a plurality of instruction sequencers |
GB2444455A (en) * | 2005-08-29 | 2008-06-04 | Searete Llc | Scheduling mechanism of a hierarchical processor including multiple parallel clusters |
US7765350B2 (en) | 2005-09-14 | 2010-07-27 | Koninklijke Philips Electronics N.V. | Method and system for bus arbitration |
US7350056B2 (en) | 2005-09-27 | 2008-03-25 | International Business Machines Corporation | Method and apparatus for issuing instructions from an issue queue in an information handling system |
US7676634B1 (en) | 2005-09-28 | 2010-03-09 | Sun Microsystems, Inc. | Selective trace cache invalidation for self-modifying code via memory aging |
US7231106B2 (en) | 2005-09-30 | 2007-06-12 | Lucent Technologies Inc. | Apparatus for directing an optical signal from an input fiber to an output fiber within a high index host |
US7613131B2 (en) | 2005-11-10 | 2009-11-03 | Citrix Systems, Inc. | Overlay network infrastructure |
US7681019B1 (en) * | 2005-11-18 | 2010-03-16 | Sun Microsystems, Inc. | Executing functions determined via a collection of operations from translated instructions |
US7861060B1 (en) | 2005-12-15 | 2010-12-28 | Nvidia Corporation | Parallel data processing systems and methods using cooperative thread arrays and thread identifier values to determine processing behavior |
US7634637B1 (en) | 2005-12-16 | 2009-12-15 | Nvidia Corporation | Execution of parallel groups of threads with per-instruction serialization |
US7770161B2 (en) | 2005-12-28 | 2010-08-03 | International Business Machines Corporation | Post-register allocation profile directed instruction scheduling |
US8423682B2 (en) | 2005-12-30 | 2013-04-16 | Intel Corporation | Address space emulation |
GB2435362B (en) | 2006-02-20 | 2008-11-26 | Cramer Systems Ltd | Method of configuring devices in a telecommunications network |
WO2007097019A1 (ja) | 2006-02-27 | 2007-08-30 | Fujitsu Limited | キャッシュ制御装置およびキャッシュ制御方法 |
US7543282B2 (en) | 2006-03-24 | 2009-06-02 | Sun Microsystems, Inc. | Method and apparatus for selectively executing different executable code versions which are optimized in different ways |
US8327115B2 (en) | 2006-04-12 | 2012-12-04 | Soft Machines, Inc. | Plural matrices of execution units for processing matrices of row dependent instructions in single clock cycle in super or separate mode |
US7577820B1 (en) | 2006-04-14 | 2009-08-18 | Tilera Corporation | Managing data in a parallel processing environment |
US7610571B2 (en) | 2006-04-14 | 2009-10-27 | Cadence Design Systems, Inc. | Method and system for simulating state retention of an RTL design |
CN100485636C (zh) | 2006-04-24 | 2009-05-06 | 华为技术有限公司 | 一种基于模型驱动进行电信级业务开发的调试方法及装置 |
US7804076B2 (en) | 2006-05-10 | 2010-09-28 | Taiwan Semiconductor Manufacturing Co., Ltd | Insulator for high current ion implanters |
US8145882B1 (en) | 2006-05-25 | 2012-03-27 | Mips Technologies, Inc. | Apparatus and method for processing template based user defined instructions |
US20080126771A1 (en) | 2006-07-25 | 2008-05-29 | Lei Chen | Branch Target Extension for an Instruction Cache |
CN100495324C (zh) | 2006-07-27 | 2009-06-03 | 中国科学院计算技术研究所 | 复杂指令集体系结构中的深度优先异常处理方法 |
US7904704B2 (en) | 2006-08-14 | 2011-03-08 | Marvell World Trade Ltd. | Instruction dispatching method and apparatus |
US8046775B2 (en) | 2006-08-14 | 2011-10-25 | Marvell World Trade Ltd. | Event-based bandwidth allocation mode switching method and apparatus |
US7539842B2 (en) | 2006-08-15 | 2009-05-26 | International Business Machines Corporation | Computer memory system for selecting memory buses according to physical memory organization information stored in virtual address translation tables |
US7594060B2 (en) | 2006-08-23 | 2009-09-22 | Sun Microsystems, Inc. | Data buffer allocation in a non-blocking data services platform using input/output switching fabric |
US7752474B2 (en) | 2006-09-22 | 2010-07-06 | Apple Inc. | L1 cache flush when processor is entering low power mode |
US7716460B2 (en) | 2006-09-29 | 2010-05-11 | Qualcomm Incorporated | Effective use of a BHT in processor having variable length instruction set execution modes |
US7774549B2 (en) | 2006-10-11 | 2010-08-10 | Mips Technologies, Inc. | Horizontally-shared cache victims in multiple core processors |
TWI337495B (en) | 2006-10-26 | 2011-02-11 | Au Optronics Corp | System and method for operation scheduling |
US7680988B1 (en) | 2006-10-30 | 2010-03-16 | Nvidia Corporation | Single interconnect providing read and write access to a memory shared by concurrent threads |
US7617384B1 (en) | 2006-11-06 | 2009-11-10 | Nvidia Corporation | Structured programming control flow using a disable mask in a SIMD architecture |
US7493475B2 (en) | 2006-11-15 | 2009-02-17 | Stmicroelectronics, Inc. | Instruction vector-mode processing in multi-lane processor by multiplex switch replicating instruction in one lane to select others along with updated operand address |
US7934179B2 (en) | 2006-11-20 | 2011-04-26 | Et International, Inc. | Systems and methods for logic verification |
US20080235500A1 (en) | 2006-11-21 | 2008-09-25 | Davis Gordon T | Structure for instruction cache trace formation |
JP2008130056A (ja) | 2006-11-27 | 2008-06-05 | Renesas Technology Corp | 半導体回路 |
US7783869B2 (en) | 2006-12-19 | 2010-08-24 | Arm Limited | Accessing branch predictions ahead of instruction fetching |
WO2008077088A2 (en) | 2006-12-19 | 2008-06-26 | The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations | System and method for branch misprediction prediction using complementary branch predictors |
EP1940028B1 (en) | 2006-12-29 | 2012-02-29 | STMicroelectronics Srl | Asynchronous interconnection system for 3D inter-chip communication |
US8321849B2 (en) | 2007-01-26 | 2012-11-27 | Nvidia Corporation | Virtual architecture and instruction set for parallel thread computing |
TW200833002A (en) | 2007-01-31 | 2008-08-01 | Univ Nat Yunlin Sci & Tech | Distributed switching circuit having fairness |
US20080189501A1 (en) | 2007-02-05 | 2008-08-07 | Irish John D | Methods and Apparatus for Issuing Commands on a Bus |
US7685410B2 (en) | 2007-02-13 | 2010-03-23 | Global Foundries Inc. | Redirect recovery cache that receives branch misprediction redirects and caches instructions to be dispatched in response to the redirects |
US7647483B2 (en) | 2007-02-20 | 2010-01-12 | Sony Computer Entertainment Inc. | Multi-threaded parallel processor methods and apparatus |
JP4980751B2 (ja) | 2007-03-02 | 2012-07-18 | 富士通セミコンダクター株式会社 | データ処理装置、およびメモリのリードアクティブ制御方法。 |
US8452907B2 (en) | 2007-03-27 | 2013-05-28 | Arm Limited | Data processing apparatus and method for arbitrating access to a shared resource |
US20080250227A1 (en) | 2007-04-04 | 2008-10-09 | Linderman Michael D | General Purpose Multiprocessor Programming Apparatus And Method |
US7716183B2 (en) | 2007-04-11 | 2010-05-11 | Dot Hill Systems Corporation | Snapshot preserved data cloning |
US7941791B2 (en) | 2007-04-13 | 2011-05-10 | Perry Wang | Programming environment for heterogeneous processor resource integration |
US7769955B2 (en) | 2007-04-27 | 2010-08-03 | Arm Limited | Multiple thread instruction fetch from different cache levels |
US7711935B2 (en) | 2007-04-30 | 2010-05-04 | Netlogic Microsystems, Inc. | Universal branch identifier for invalidation of speculative instructions |
US8555039B2 (en) | 2007-05-03 | 2013-10-08 | Qualcomm Incorporated | System and method for using a local condition code register for accelerating conditional instruction execution in a pipeline processor |
US8219996B1 (en) | 2007-05-09 | 2012-07-10 | Hewlett-Packard Development Company, L.P. | Computer processor with fairness monitor |
CN101344840B (zh) | 2007-07-10 | 2011-08-31 | 苏州简约纳电子有限公司 | 一种微处理器及在微处理器中执行指令的方法 |
US7937568B2 (en) | 2007-07-11 | 2011-05-03 | International Business Machines Corporation | Adaptive execution cycle control method for enhanced instruction throughput |
US20090025004A1 (en) | 2007-07-16 | 2009-01-22 | Microsoft Corporation | Scheduling by Growing and Shrinking Resource Allocation |
US8108545B2 (en) | 2007-08-27 | 2012-01-31 | International Business Machines Corporation | Packet coalescing in virtual channels of a data processing system in a multi-tiered full-graph interconnect architecture |
US7711929B2 (en) | 2007-08-30 | 2010-05-04 | International Business Machines Corporation | Method and system for tracking instruction dependency in an out-of-order processor |
US8725991B2 (en) | 2007-09-12 | 2014-05-13 | Qualcomm Incorporated | Register file system and method for pipelined processing |
US8082420B2 (en) | 2007-10-24 | 2011-12-20 | International Business Machines Corporation | Method and apparatus for executing instructions |
US7856530B1 (en) | 2007-10-31 | 2010-12-21 | Network Appliance, Inc. | System and method for implementing a dynamic cache for a data storage system |
US7877559B2 (en) | 2007-11-26 | 2011-01-25 | Globalfoundries Inc. | Mechanism to accelerate removal of store operations from a queue |
US8245232B2 (en) | 2007-11-27 | 2012-08-14 | Microsoft Corporation | Software-configurable and stall-time fair memory access scheduling mechanism for shared memory systems |
US7809925B2 (en) | 2007-12-07 | 2010-10-05 | International Business Machines Corporation | Processing unit incorporating vectorizable execution unit |
US8145844B2 (en) | 2007-12-13 | 2012-03-27 | Arm Limited | Memory controller with write data cache and read data cache |
US7870371B2 (en) | 2007-12-17 | 2011-01-11 | Microsoft Corporation | Target-frequency based indirect jump prediction for high-performance processors |
US7831813B2 (en) | 2007-12-17 | 2010-11-09 | Globalfoundries Inc. | Uses of known good code for implementing processor architectural modifications |
US20090165007A1 (en) | 2007-12-19 | 2009-06-25 | Microsoft Corporation | Task-level thread scheduling and resource allocation |
US8782384B2 (en) | 2007-12-20 | 2014-07-15 | Advanced Micro Devices, Inc. | Branch history with polymorphic indirect branch information |
US7917699B2 (en) | 2007-12-21 | 2011-03-29 | Mips Technologies, Inc. | Apparatus and method for controlling the exclusivity mode of a level-two cache |
US9244855B2 (en) | 2007-12-31 | 2016-01-26 | Intel Corporation | Method, system, and apparatus for page sizing extension |
US8645965B2 (en) | 2007-12-31 | 2014-02-04 | Intel Corporation | Supporting metered clients with manycore through time-limited partitioning |
US7877582B2 (en) | 2008-01-31 | 2011-01-25 | International Business Machines Corporation | Multi-addressable register file |
WO2009101563A1 (en) | 2008-02-11 | 2009-08-20 | Nxp B.V. | Multiprocessing implementing a plurality of virtual processors |
US7987343B2 (en) | 2008-03-19 | 2011-07-26 | International Business Machines Corporation | Processor and method for synchronous load multiple fetching sequence and pipeline stage result tracking to facilitate early address generation interlock bypass |
US7949972B2 (en) | 2008-03-19 | 2011-05-24 | International Business Machines Corporation | Method, system and computer program product for exploiting orthogonal control vectors in timing driven synthesis |
US9513905B2 (en) | 2008-03-28 | 2016-12-06 | Intel Corporation | Vector instructions to enable efficient synchronization and parallel reduction operations |
US8120608B2 (en) | 2008-04-04 | 2012-02-21 | Via Technologies, Inc. | Constant buffering for a computational core of a programmable graphics processing unit |
TWI364703B (en) | 2008-05-26 | 2012-05-21 | Faraday Tech Corp | Processor and early execution method of data load thereof |
US8145880B1 (en) | 2008-07-07 | 2012-03-27 | Ovics | Matrix processor data switch routing systems and methods |
US8516454B2 (en) | 2008-07-10 | 2013-08-20 | Rocketick Technologies Ltd. | Efficient parallel computation of dependency problems |
JP2010039536A (ja) | 2008-07-31 | 2010-02-18 | Panasonic Corp | プログラム変換装置、プログラム変換方法およびプログラム変換プログラム |
US8316435B1 (en) | 2008-08-14 | 2012-11-20 | Juniper Networks, Inc. | Routing device having integrated MPLS-aware firewall with virtual security system support |
US8135942B2 (en) | 2008-08-28 | 2012-03-13 | International Business Machines Corpration | System and method for double-issue instructions using a dependency matrix and a side issue queue |
US7769984B2 (en) | 2008-09-11 | 2010-08-03 | International Business Machines Corporation | Dual-issuance of microprocessor instructions using dual dependency matrices |
US8225048B2 (en) | 2008-10-01 | 2012-07-17 | Hewlett-Packard Development Company, L.P. | Systems and methods for resource access |
US9244732B2 (en) | 2009-08-28 | 2016-01-26 | Vmware, Inc. | Compensating threads for microarchitectural resource contentions by prioritizing scheduling and execution |
US7941616B2 (en) | 2008-10-21 | 2011-05-10 | Microsoft Corporation | System to reduce interference in concurrent programs |
US8423749B2 (en) | 2008-10-22 | 2013-04-16 | International Business Machines Corporation | Sequential processing in network on chip nodes by threads generating message containing payload and pointer for nanokernel to access algorithm to be executed on payload in another node |
GB2464703A (en) | 2008-10-22 | 2010-04-28 | Advanced Risc Mach Ltd | An array of interconnected processors executing a cycle-based program |
CA2742416A1 (en) | 2008-10-30 | 2010-05-06 | Nokia Corporation | Method and apparatus for interleaving a data block |
US8032678B2 (en) | 2008-11-05 | 2011-10-04 | Mediatek Inc. | Shared resource arbitration |
US7848129B1 (en) | 2008-11-20 | 2010-12-07 | Netlogic Microsystems, Inc. | Dynamically partitioned CAM array |
US8868838B1 (en) | 2008-11-21 | 2014-10-21 | Nvidia Corporation | Multi-class data cache policies |
US8171223B2 (en) | 2008-12-03 | 2012-05-01 | Intel Corporation | Method and system to increase concurrency and control replication in a multi-core cache hierarchy |
US8200949B1 (en) | 2008-12-09 | 2012-06-12 | Nvidia Corporation | Policy based allocation of register file cache to threads in multi-threaded processor |
US8312268B2 (en) | 2008-12-12 | 2012-11-13 | International Business Machines Corporation | Virtual machine |
US8099586B2 (en) | 2008-12-30 | 2012-01-17 | Oracle America, Inc. | Branch misprediction recovery mechanism for microprocessors |
US20100169578A1 (en) | 2008-12-31 | 2010-07-01 | Texas Instruments Incorporated | Cache tag memory |
US20100205603A1 (en) | 2009-02-09 | 2010-08-12 | Unisys Corporation | Scheduling and dispatching tasks in an emulated operating system |
JP5417879B2 (ja) | 2009-02-17 | 2014-02-19 | 富士通セミコンダクター株式会社 | キャッシュ装置 |
US8505013B2 (en) | 2010-03-12 | 2013-08-06 | Lsi Corporation | Reducing data read latency in a network communications processor architecture |
US8805788B2 (en) | 2009-05-04 | 2014-08-12 | Moka5, Inc. | Transactional virtual disk with differential snapshots |
US8332854B2 (en) | 2009-05-19 | 2012-12-11 | Microsoft Corporation | Virtualized thread scheduling for hardware thread optimization based on hardware resource parameter summaries of instruction blocks in execution groups |
US8533437B2 (en) | 2009-06-01 | 2013-09-10 | Via Technologies, Inc. | Guaranteed prefetch instruction |
GB2471067B (en) | 2009-06-12 | 2011-11-30 | Graeme Roy Smith | Shared resource multi-thread array processor |
US9122487B2 (en) | 2009-06-23 | 2015-09-01 | Oracle America, Inc. | System and method for balancing instruction loads between multiple execution units using assignment history |
CN101582025B (zh) | 2009-06-25 | 2011-05-25 | 浙江大学 | 片上多处理器体系架构下全局寄存器重命名表的实现方法 |
US8397049B2 (en) | 2009-07-13 | 2013-03-12 | Apple Inc. | TLB prefetching |
US8539486B2 (en) | 2009-07-17 | 2013-09-17 | International Business Machines Corporation | Transactional block conflict resolution based on the determination of executing threads in parallel or in serial mode |
JP5423217B2 (ja) | 2009-08-04 | 2014-02-19 | 富士通株式会社 | 演算処理装置、情報処理装置、および演算処理装置の制御方法 |
US8127078B2 (en) | 2009-10-02 | 2012-02-28 | International Business Machines Corporation | High performance unaligned cache access |
US20110082983A1 (en) | 2009-10-06 | 2011-04-07 | Alcatel-Lucent Canada, Inc. | Cpu instruction and data cache corruption prevention system |
US8695002B2 (en) | 2009-10-20 | 2014-04-08 | Lantiq Deutschland Gmbh | Multi-threaded processors and multi-processor systems comprising shared resources |
US8364933B2 (en) | 2009-12-18 | 2013-01-29 | International Business Machines Corporation | Software assisted translation lookaside buffer search mechanism |
JP2011150397A (ja) | 2010-01-19 | 2011-08-04 | Panasonic Corp | バス調停装置 |
KR101699910B1 (ko) | 2010-03-04 | 2017-01-26 | 삼성전자주식회사 | 재구성 가능 프로세서 및 그 제어 방법 |
US20120005462A1 (en) | 2010-07-01 | 2012-01-05 | International Business Machines Corporation | Hardware Assist for Optimizing Code During Processing |
US8312258B2 (en) | 2010-07-22 | 2012-11-13 | Intel Corporation | Providing platform independent memory logic |
US8751745B2 (en) | 2010-08-11 | 2014-06-10 | Advanced Micro Devices, Inc. | Method for concurrent flush of L1 and L2 caches |
CN101916180B (zh) | 2010-08-11 | 2013-05-29 | 中国科学院计算技术研究所 | Risc处理器中执行寄存器类型指令的方法和其系统 |
US9201801B2 (en) | 2010-09-15 | 2015-12-01 | International Business Machines Corporation | Computing device with asynchronous auxiliary execution unit |
US8856460B2 (en) | 2010-09-15 | 2014-10-07 | Oracle International Corporation | System and method for zero buffer copying in a middleware environment |
KR101685247B1 (ko) | 2010-09-17 | 2016-12-09 | 소프트 머신즈, 인크. | 조기 원거리 분기 예측을 위한 섀도우 캐시를 포함하는 단일 사이클 다중 분기 예측 |
US20120079212A1 (en) | 2010-09-23 | 2012-03-29 | International Business Machines Corporation | Architecture for sharing caches among multiple processes |
TWI525541B (zh) | 2010-10-12 | 2016-03-11 | 軟體機器公司 | 輸出可靠可預測指令序列的方法與系統,以及實施識別指令方法的微處理器 |
EP2628072B1 (en) | 2010-10-12 | 2016-10-12 | Soft Machines, Inc. | An instruction sequence buffer to enhance branch prediction efficiency |
US8370553B2 (en) | 2010-10-18 | 2013-02-05 | International Business Machines Corporation | Formal verification of random priority-based arbiters using property strengthening and underapproximations |
US9047178B2 (en) | 2010-12-13 | 2015-06-02 | SanDisk Technologies, Inc. | Auto-commit memory synchronization |
US8677355B2 (en) | 2010-12-17 | 2014-03-18 | Microsoft Corporation | Virtual machine branching and parallel execution |
WO2012103245A2 (en) | 2011-01-27 | 2012-08-02 | Soft Machines Inc. | Guest instruction block with near branching and far branching sequence construction to native instruction block |
EP2689327B1 (en) | 2011-03-25 | 2021-07-28 | Intel Corporation | Executing instruction sequence code blocks by using virtual cores instantiated by partitionable engines |
KR101966712B1 (ko) | 2011-03-25 | 2019-04-09 | 인텔 코포레이션 | 분할가능한 엔진에 의해 인스턴스화된 가상 코어를 이용한 코드 블록의 실행을 지원하는 메모리 프래그먼트 |
CN108376097B (zh) | 2011-03-25 | 2022-04-15 | 英特尔公司 | 用于通过使用由可分割引擎实例化的虚拟核来支持代码块执行的寄存器文件段 |
US20120254592A1 (en) | 2011-04-01 | 2012-10-04 | Jesus Corbal San Adrian | Systems, apparatuses, and methods for expanding a memory source into a destination register and compressing a source register into a destination memory location |
US9740494B2 (en) | 2011-04-29 | 2017-08-22 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Low complexity out-of-order issue logic using static circuits |
US8843690B2 (en) | 2011-07-11 | 2014-09-23 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Memory conflicts learning capability |
US8930432B2 (en) | 2011-08-04 | 2015-01-06 | International Business Machines Corporation | Floating point execution unit with fixed point functionality |
US20130046934A1 (en) | 2011-08-15 | 2013-02-21 | Robert Nychka | System caching using heterogenous memories |
US8839025B2 (en) | 2011-09-30 | 2014-09-16 | Oracle International Corporation | Systems and methods for retiring and unretiring cache lines |
WO2013077876A1 (en) | 2011-11-22 | 2013-05-30 | Soft Machines, Inc. | A microprocessor accelerated code optimizer |
KR101703401B1 (ko) | 2011-11-22 | 2017-02-06 | 소프트 머신즈, 인크. | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 |
EP2783282B1 (en) | 2011-11-22 | 2020-06-24 | Intel Corporation | A microprocessor accelerated code optimizer and dependency reordering method |
US8930674B2 (en) | 2012-03-07 | 2015-01-06 | Soft Machines, Inc. | Systems and methods for accessing a unified translation lookaside buffer |
KR20130119285A (ko) | 2012-04-23 | 2013-10-31 | 한국전자통신연구원 | 클러스터 컴퓨팅 환경에서의 자원 할당 장치 및 그 방법 |
US9684601B2 (en) | 2012-05-10 | 2017-06-20 | Arm Limited | Data processing apparatus having cache and translation lookaside buffer |
US9940247B2 (en) | 2012-06-26 | 2018-04-10 | Advanced Micro Devices, Inc. | Concurrent access to cache dirty bits |
US9740612B2 (en) | 2012-07-30 | 2017-08-22 | Intel Corporation | Systems and methods for maintaining the coherency of a store coalescing cache and a load cache |
US9916253B2 (en) | 2012-07-30 | 2018-03-13 | Intel Corporation | Method and apparatus for supporting a plurality of load accesses of a cache in a single cycle to maintain throughput |
US9229873B2 (en) | 2012-07-30 | 2016-01-05 | Soft Machines, Inc. | Systems and methods for supporting a plurality of load and store accesses of a cache |
US9430410B2 (en) | 2012-07-30 | 2016-08-30 | Soft Machines, Inc. | Systems and methods for supporting a plurality of load accesses of a cache in a single cycle |
US9710399B2 (en) | 2012-07-30 | 2017-07-18 | Intel Corporation | Systems and methods for flushing a cache with modified data |
US9678882B2 (en) | 2012-10-11 | 2017-06-13 | Intel Corporation | Systems and methods for non-blocking implementation of cache flush instructions |
US10037228B2 (en) | 2012-10-25 | 2018-07-31 | Nvidia Corporation | Efficient memory virtualization in multi-threaded processing units |
US9195506B2 (en) | 2012-12-21 | 2015-11-24 | International Business Machines Corporation | Processor provisioning by a middleware processing system for a plurality of logical processor partitions |
WO2014150806A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for populating register view data structure by using register template snapshots |
US10275255B2 (en) | 2013-03-15 | 2019-04-30 | Intel Corporation | Method for dependency broadcasting through a source organized source view data structure |
WO2014150991A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for implementing a reduced size register view data structure in a microprocessor |
US9886279B2 (en) | 2013-03-15 | 2018-02-06 | Intel Corporation | Method for populating and instruction view data structure by using register template snapshots |
WO2014151018A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for executing multithreaded instructions grouped onto blocks |
WO2014150971A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for dependency broadcasting through a block organized source view data structure |
US9891924B2 (en) | 2013-03-15 | 2018-02-13 | Intel Corporation | Method for implementing a reduced size register view data structure in a microprocessor |
WO2014151043A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for emulating a guest centralized flag architecture by using a native distributed flag architecture |
US9904625B2 (en) | 2013-03-15 | 2018-02-27 | Intel Corporation | Methods, systems and apparatus for predicting the way of a set associative cache |
US9569216B2 (en) | 2013-03-15 | 2017-02-14 | Soft Machines, Inc. | Method for populating a source view data structure by using register template snapshots |
US9811342B2 (en) | 2013-03-15 | 2017-11-07 | Intel Corporation | Method for performing dual dispatch of blocks and half blocks |
WO2014150941A1 (en) | 2013-03-15 | 2014-09-25 | Soft Machines, Inc. | A method for executing blocks of instructions using a microprocessor architecture having a register view, source view, instruction view, and a plurality of register templates |
US9632825B2 (en) | 2013-03-15 | 2017-04-25 | Intel Corporation | Method and apparatus for efficient scheduling for asymmetrical execution units |
-
2011
- 2011-11-22 KR KR1020147016764A patent/KR101703401B1/ko not_active Application Discontinuation
- 2011-11-22 US US14/360,284 patent/US10191746B2/en active Active
- 2011-11-22 WO PCT/US2011/061953 patent/WO2013077875A1/en active Application Filing
- 2011-11-22 CN CN201180076244.2A patent/CN104040490B/zh active Active
- 2011-11-22 IN IN3678CHN2014 patent/IN2014CN03678A/en unknown
- 2011-11-22 KR KR1020177002473A patent/KR101842550B1/ko active IP Right Grant
- 2011-11-22 EP EP11876128.7A patent/EP2783280B1/en not_active Not-in-force
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5517651A (en) * | 1993-12-29 | 1996-05-14 | Intel Corporation | Method and apparatus for loading a segment register in a microprocessor capable of operating in multiple modes |
US5710902A (en) * | 1995-09-06 | 1998-01-20 | Intel Corporation | Instruction dependency chain indentifier |
US20100161948A1 (en) * | 2006-11-14 | 2010-06-24 | Abdallah Mohammad A | Apparatus and Method for Processing Complex Instruction Formats in a Multi-Threaded Architecture Supporting Various Context Switch Modes and Virtualization Schemes |
Also Published As
Publication number | Publication date |
---|---|
KR20170016514A (ko) | 2017-02-13 |
EP2783280A4 (en) | 2016-07-20 |
US20150186144A1 (en) | 2015-07-02 |
CN104040490A (zh) | 2014-09-10 |
CN104040490B (zh) | 2017-12-15 |
EP2783280A1 (en) | 2014-10-01 |
KR101842550B1 (ko) | 2018-03-28 |
KR20140094014A (ko) | 2014-07-29 |
IN2014CN03678A (ko) | 2015-09-25 |
WO2013077875A1 (en) | 2013-05-30 |
EP2783280B1 (en) | 2019-09-11 |
US10191746B2 (en) | 2019-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101703401B1 (ko) | 다중 엔진 마이크로프로세서용 가속 코드 최적화기 | |
KR101703400B1 (ko) | 마이크로프로세서 가속 코드 최적화기 | |
KR101648278B1 (ko) | 마이크로프로세서 가속 코드 최적화기 및 의존성 재순서화 방법 | |
KR102502780B1 (ko) | 디커플링된 프로세서 명령어 윈도우 및 피연산자 버퍼 | |
KR101966712B1 (ko) | 분할가능한 엔진에 의해 인스턴스화된 가상 코어를 이용한 코드 블록의 실행을 지원하는 메모리 프래그먼트 | |
KR101620676B1 (ko) | 분할가능한 엔진에 의해 인스턴스화된 가상 코어를 이용한 코드 블록의 실행을 지원하는 레지스터 파일 세그먼트 | |
KR101638225B1 (ko) | 분할가능한 엔진에 의해 인스턴스화된 가상 코어를 이용한 명령어 시퀀스 코드 블록의 실행 | |
EP3264263A1 (en) | Sequential monitoring and management of code segments for run-time parallelization | |
US11327791B2 (en) | Apparatus and method for operating an issue queue | |
TWI610224B (zh) | 微處理器加速編碼最佳化器 | |
TWI512613B (zh) | 多引擎微處理器之加速編碼最佳化器 | |
TWI506548B (zh) | 微處理器加速編碼最佳化器與相依性重排序之方法 | |
US20180129500A1 (en) | Single-thread processing of multiple code regions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
FPAY | Annual fee payment |
Payment date: 20200103 Year of fee payment: 4 |