KR20160075669A

KR20160075669A - 하이브리드 프로세서 코어를 포함하는 시스템-온-칩(soc)

Info

Publication number: KR20160075669A
Application number: KR1020167013621A
Authority: KR
Inventors: 후 타이거 첸; 리앙 첸; 천시아오 린; 사이 루오; 하이 게 티안; 루이 강 왕; 틴-푸크 엔가이
Original assignee: 인텔 코포레이션
Priority date: 2013-12-23
Filing date: 2013-12-23
Publication date: 2016-06-29
Also published as: WO2015096001A1; EP3087481A1; US20160283438A1; DE112013007701T5; EP3087481A4; JP2016537717A; CN105793819A; JP6309623B2

Abstract

프로세싱 디바이스는 제1 명령어 세트(ISA)에 따라 설계된 제1 코어를 포함하는 제1 프로세서 모듈, 및 제2 ISA에 따라 설계된 제2 코어를 포함하는 제2 프로세서 모듈을 포함한다. 제1 및 제2 프로세서 모듈은 동일한 다이 상에 제조된다.

Description

하이브리드 프로세서 코어를 포함하는 시스템-온-칩(SOC){SYSTEM-ON-A-CHIP(SOC) INCLUDING HYBRID PROCESSOR CORES}

개시 내용의 실시예는 일반적으로 프로세싱 디바이스에 관한 것이고, 보다 상세하게는 각각 상이한 명령어 세트 아키텍처(ISA)들에 따라 설계된 이종 코어(heterogeneous core)를 갖는 프로세서들을 포함한 시스템-온-칩과 관한 것이다.

최종 사용자들은 수많은 에코시스템들 또는 운영체계(OS들) 중 하나에서 선택적으로 작동하기 위해 랩톱 컴퓨터, 태블릿 컴퓨터, 또는 스마트폰과 같은 단일 컴퓨팅 디바이스를 요구할 수 있다. 예를 들어, 그들은 디바이스가 개인 용도의 제1 OS(예를 들어, Android™) 그리고 업무 용도의 제2 OS(예를 들어, Windows®) 하에서 작동하기를 원할 수 있다.

상이한 타입의 OS는 상이한 명령어 세트 아키텍처(ISA)에 따라 설계된 프로세서 상에 구축될 수 있다. 예를 들어, Intel® 아키텍처(IA)는 윈도우 OS가 작동할 수 있는 일종의 ISA이고 ARM®은 안드로이드가 작동할 수 있는 ISA의 또 다른 타입이다. 추가적으로, 각각의 ISA는 프로세서 내의 구성요소들 간의 또는 프로세서와 주변 디바이스 간의 통신 인터페이스로서 상이한 세트의 통신 프로토콜을 사용할 수 있다. 현재, 디바이스 제조자는 2개의 기법들 중 하나를 통해 동일한 컴퓨팅 디바이스 상에서 이중 에코시스템을 달성한다. 첫째로, 디바이스 제조자는 간단하게 단일 컴퓨팅 디바이스 내에 상이한 ISA의 프로세서를 설계한다. 예를 들어, 디바이스 제조자는 윈도우 애플리케이션이 윈도우가 선두(forefront) OS일 때 IA 프로세서 상에서 구동할 수 있고 안드로이드 애플리케이션이 안드로이드가 선두 OS일 때 ARM 프로세서 상에서 구동할 수 있도록 컴퓨팅 디바이스 내에서 하나의 IA 프로세서와 하나의 ARM 프로세서를 구현시킬 수 있다. 대안적으로, 디바이스 제조자는 컴퓨팅 디바이스 내의 동일한 타입의 ISA 프로세서의 상부 상의 가상 머신을 구동할 수 있다. 가상 머신은 동일한 타입의 ISA 명령어로부터 상이한 에코시스템을 에뮬레이션(emulate)할 수 있다. 예를 들어, 컴퓨팅 디바이스는 윈도우 가상 머신에 대한 윈도우 애플리케이션과 안드로이드 가상 머신에 대한 안드로이드 애플리케이션을 실행할 수 있으며, 컴퓨팅 디바이스의 프로세서는 배타적으로 IA 프로세서일 수 있거나 배타적으로 ARM 프로세서일 수 있다.

본 개시 내용은 아래에 주어지는 상세한 설명으로부터 그리고 본 개시 내용의 다양한 실시예들의 첨부 도면들로부터 더 충분히 이해될 것이다. 그러나, 도면들은 설명 및 이해를 위한 것일 뿐이며, 본 개시 내용을 특정 실시예들로 한정하는 것으로 간주되지 않아야 한다.
도 1은 실시예에 따른 프로세싱 디바이스를 설명한다.
도 2a는 실시예에 따른 버스 브리지를 포함하는 프로세싱 디바이스를 설명한다.
도 2b는 실시예에 따른 시스템 에이전트 컨버터를 포함하는 프로세싱 디바이스를 설명한다.
도 2c는 실시예에 따른 다중 프로세서 모듈을 포함하는 프로세싱 디바이스를 설명한다.
도 3a는 실시예에 따른 프로세싱 디바이스의 상세한 개략을 설명한다.
도 3b는 또 다른 실시예에 따른 프로세싱 디바이스의 상세한 개략을 설명한다.
도 4는 실시예에 따른 이중-OS 컴퓨팅 디바이스에서 OS들을 스위칭하기 위한 방법의 블록도이다.
도 5a는 개시 내용의 일 실시예가 이용될 수 있는 이종 코어를 포함하는 프로세서를 위한 마이크로-아키텍처를 설명하는 블록도이다.
도 5b는 본 개시 내용의 적어도 하나의 실시예에 따라 구현된 순차적 파이프라인 및 레지스터 리네이밍 스테이지, 비순차적 발행/실행 파이프라인을 도시하는 블록도이다.
도 6은 개시 내용의 일 실시예에 따른 로직을 포함하는 프로세서를 위한 마이크로-아키텍처의 블록도를 설명한다.
도 7은 개시 내용의 실시예가 이용될 수 있는 시스템을 설명하는 블록도이다.
도 8은 개시 내용의 실시예가 작동할 수 있는 시스템의 블록도이다.
도 9는 개시 내용의 실시예가 작동할 수 있는 시스템의 블록도이다.
도 10은 본 개시 내용의 실시예에 따른 시스템-온-칩(SoC)의 블록도이다.
도 11은 본 개시 내용에 따른 SoC 설계의 실시예의 블록도이다.
도 12는 컴퓨터 시스템의 일 실시예의 블록도를 설명한다.

동일한 디바이스 상에서 이중 에코시스템을 구동하기 위한 방식은, 상이한 ISA들에 따라 설계된 중복 프로세서 때문에 높은 비용, 성능 저하, 및 높은 전력 소모를 겪는다. 현재 방식으로 인한 또 다른 문제는 상이한 ISA 마이크로시스템에서 구동하는 이진 코드의 호환성이다. 예를 들어, ARM 플랫폼 용으로 컴파일된 애플리케이션은 포팅(porting) 노력 없이 IA 플랫폼 상에서 직접적으로 구동할 수 없다. 이원 변환은 상이한 타입의 ISA들 중에서 호환성 문제를 해결하는데 사용되었다. 그러나, 이러한 해결책은 비-네이티브 ISA에 대해 기입된 네이티브 라이브러리를 네이티브 ISA로 동적으로 또는 정적으로 변환하는 런타임 소프트웨어를 필요로 한다. 불행하게도, 이원 변환은 성능 손실을 도입하고, 모든 시나리오를 다루지는 않는다.

다중 에코시스템을 구동하는 컴퓨팅 디바이스의 최종 사용자들은 최소 성능 저하, 전력 소모, 및 시스템 풋프린트를 가진 컴퓨팅 디바이스 상에서 이용 가능한 OS의 상이한 타입들 간의 신속한 전환들을 요구한다.

단일 컴퓨팅 디바이스 상의 다중 에코 시스템들을 효율적으로 달성하기 위해서, 개시 내용의 실시예들은, 각각 이종 ISA 코어를 포함하는 적어도 하나의 중앙 처리 유닛(CPU)를 포함할 수 있는 시스템-온-칩(SoC)을 제공한다. 이종 코어는 제1 ISA 타입에 따라 설계된 적어도 하나의 코어, 및 제2 ISA 타입에 따라 설계된 적어도 하나의 코어를 포함할 수 있으며, 여기서 제1 및 제2 ISA 타입들은 상이하다. 예를 들어, CPU의 제1 코어는 CISC(complex instruction set computing) 코어로서 설계될 수 있고, 동일한 CPU를 위한 제2 코어는 RISC(reduced instruction set computing) 코어로서 설계될 수 있다. 보다 상세하게는, 제1 ISA 타입은 IA일 수 있고, 제2 ISA 타입은 ARM일 수 있다. 본 애플리케이션이 종종 편의상 2개의 예시적 ISA로서 IA와 ARM을 지칭할지라도, 본 애플리케이션은 이러한 2개의 특정 예로 제한되지 않는다는 것이 주목되어야 한다. 본 애플리케이션의 원리들은 동등하게 PowerPC® 아키텍처와 같은 다른 타입의 ISA에 적용 가능하다.

개시 내용의 실시예는 SoC를 형성하기 위해 동일한 다이 상에 이종 코어들을 통합하여, 효율적이고 고성능의 다중 또는 이중 OS들은 단일 컴퓨팅 디바이스 상에 구축될 수 있다.

본 개시 내용의 실시예는 현재 기술들을 통해 낮은 비용와 전력 소모, 작은 풋프린트, 및 고성능의 장점을 갖는 아키텍처를 구별하는 것을 제공한다.

다음의 실시예들이 컴퓨팅 플랫폼 또는 마이크로프로세서에서와 같은 특정 집적 회로를 참조로 설명될지라도, 다른 실시예들은 다른 타입의 집적 회로 및 로직 디바이스에 적용될 수 있다. 본 명세서에서 설명된 실시예의 유사한 기술 및 교시는, 다른 타입의 회로 또는 반도체 디바이스에 적용될 수 있다. 예를 들어, 개시된 실시예는 데스크톱 컴퓨터 시스템 또는 Ultrabooks™로 제한되지 않는다. 그리고 또한 핸드헬드 디바이스, 태블릿, 다른 얇은노트북, SoC(system on a chip) 디바이스, 및 임베디드 애플리케이션과 같은, 다른 디바이스들에 내에 사용될 수 있다. 핸드헬드 장치의 일부 예는 휴대폰, 인터넷 프로토콜 디바이스, 디지털 카메라, PDA(personal digital assistant), 및 핸드헬드 PC를 포함한다. 임베디드 애플리케이션들은 전형적으로 마이크로컨트롤러, DSP(digital signal processor), 시스템 온 칩, NetPC(network computer), 셋톱 박스, 네트워크 허브, WAN(wide area network) 스위치, 또는 후술하는 기능들 및 동작들을 수행할 수 있는 임의의 다른 시스템을 포함한다.

다음의 실시예들은 프로세서와 관련하여 설명되지만, 다른 실시예들은 다른 타입의 집적 회로들 및 로직 디바이스들에 적용 가능하다. 본 개시 내용의 실시예들의 유사한 기술 및 교시는, 더 높은 파이프라인 스루풋 및 개선된 성능으로부터 이익을 얻을 수 있는 다른 타입의 회로들 또는 반도체 디바이스들에 적용될 수 있다. 본 개시 내용의 실시예들의 교시들은 데이터 조작들을 수행하는 임의의 프로세서 또는 머신에 적용 가능하다. 그러나, 본 개시 내용은, 512 비트, 256 비트, 128 비트, 64 비트, 32 비트, 또는 16 비트 데이터 연산들을 수행하는 프로세서들 또는 머신들에 제한되지는 않으며, 데이터의 조작 또는 관리가 수행되는 임의의 프로세서 및 머신에 적용될 수 있다. 또한, 다음의 설명은 예들을 제공하고, 첨부 도면들은 설명을 위해 다양한 예들을 도시한다. 그러나, 이러한 예들은 제한적인 의미로 해석되어서는 안 되는데, 그 이유는 이들이 본 발명의 실시예들의 모든 가능한 구현들의 빠짐없는 목록을 제공하는 것이 아니라 단순히 본 개시 내용의 실시예들의 예들을 제공하도록 의도된 것이기 때문이다.

더 많은 컴퓨터 시스템들이 인터넷, 텍스트, 및 멀티미디어 애플리케이션들에 이용됨에 따라, 부가적 프로세서 지원이 시간이 지남에 따라 도입되었다. 일 실시예에서, 명령어 세트는, 데이터 타입들, 명령어들, 레지스터 아키텍처, 어드레싱 모드들, 메모리 아키텍처, 인터럽트 및 예외 핸들링, 및 외부 입력 및 출력(I/O)을 포함하는, 하나 이상의 컴퓨터 아키텍처들과 연관될 수 있다.

일 실시예에서, 명령어 세트 아키텍처(ISA: instruction set architecture)는, 하나 이상의 명령어 세트들을 구현하는데 이용되는 프로세서 로직 및 회로들을 포함하는 하나 이상의 마이크로-아키텍처들에 의해 구현될 수 있다. 따라서, 상이한 마이크로-아키텍처들을 갖는 프로세서들은 공통의 명령어 세트의 적어도 일부를 공유할 수 있다. 예를 들어, Intel® Pentium 4 프로세서들, Intel® Core™ 프로세서들, 및 캘리포니아주 서니베일 소재의 Advanced Micro Devices, Inc.로부터의 프로세서들은 (더 새로운 버전들이 추가된 소정의 확장들을 가진) x86 명령어 세트의 거의 동일한 버전들을 구현하지만, 상이한 내부 설계들을 갖는다. 유사하게, ARM Holdings, Ltd., MIPS, 또는 그들의 실시권자들 또는 채택자들과 같은 다른 프로세서 개발 회사들에 의해 설계된 프로세서들은, 공통 명령어 세트의 적어도 일부를 공유할 수 있지만, 상이한 프로세서 설계들을 포함할 수 있다. 예를 들어, ISA의 동일한 레지스터 아키텍처는, 전용 물리적 레지스터들, 레지스터 리네이밍 메커니즘을 이용(예를 들어, RAT(Register Alias Table), ROB(Reorder Buffer) 및 리타이어먼트 레지스터 파일(retirement register file)을 이용)하는 하나 이상의 동적으로 할당된 물리적 레지스터들을 포함하여, 새로운 또는 잘 알려진 기술들을 이용하는 상이한 마이크로-아키텍처들에서 상이한 방식들로 구현될 수 있다. 일 실시예에서, 레지스터들은, 소프트웨어 프로그래머에 의해 어드레싱 가능할 수도 있고 가능하지 않을 수도 있는 하나 이상의 레지스터들, 레지스터 아키텍처들, 레지스터 파일들, 또는 다른 레지스터 세트들을 포함할 수 있다.

일 실시예에서, 명령어는 하나 이상의 명령어 포맷들을 포함할 수 있다. 일 실시예에서, 명령어 포맷은, 다양한 필드들(비트들의 수, 비트들의 위치, 등)을 표시하여, 다른 무엇보다도, 수행될 연산, 및 그 연산이 수행되어야 하는 피연산자(들)를 명시할 수 있다. 일부 명령어 포맷들은 명령어 템플릿들(또는 서브포맷들)의 정의를 통해 추가로 쪼개질 수 있다. 예를 들어, 주어진 명령어 포맷의 명령어 템플릿들은 명령어 포맷의 필드들의 상이한 서브세트들을 갖는 것으로 정의될 수 있고 및/또는 상이하게 해석되는 주어진 필드를 갖는 것으로 정의될 수 있다. 일 실시예에서, 명령어는 명령어 포맷을 이용하여(그리고, 정의되는 경우에, 그 명령어 포맷의 명령어 템플릿들 중 주어진 명령어 템플릿으로) 표현되고, 연산 및 이러한 연산이 연산되는 피연산자들을 명시하거나 나타낸다.

도 1은 실시예에 따른 프로세싱 디바이스(100)를 설명한다. 프로세싱 디바이스(100)는 동일한 다이 또는 동일한 기판 상에 배치된 SoC일 수 있고, SoC 상에 제조된 중앙 처리 유닛(CPU)을 나타낸다. SoC는 동일한 반도체 제조 프로세스에서 효율적으로 제조되는 집적 회로를 포함할 수 있다. 도 1에 도시된 바와 같은 프로세싱 디바이스(100)는, 제1 프로세서 모듈(102), 제2 프로세서 모듈(104), 및 프로세서 모듈(102와 104)들 사이에, 그리고 프로세서 모듈(102, 104)과 SoC 상의 다른 구성요소들(도시 생략)과의 사이에 또는 SoC 외측에 통신 인터페이스를 제공하는 버스 및/또는 통신 패브릭(106)을 포함할 수 있다.

실시예에서, 프로세서 모듈(102)은 제1 타입의 ISA에 따라 설계되는 하나 이상의 프로세싱 코어를 포함할 수 있고, 프로세서 모듈(104)은 제2 타입의 ISA에 따라 설계되는 하나 이상의 프로세싱 코어를 포함할 수 있는데, 여기서 제2 타입은 제1 타입과는 다르다. ISA 타입들은 CISC 또는 RISC 아키텍처의 상이한 특색을 포함할 수 있다. 예를 들어, ISA는 IA, ARM, 및 PowerPC 아키텍처들 중 임의의 것일 수 있다. 실시예에서, 프로세서 모듈(102)은 구체적으로 윈도우 OS를 지원하는데 적합할 수 있는 IA에 따라 설계된 프로세싱 코어를 포함할 수 있고, 프로세서 모듈(104)은 구체적으로 안드로이드 OS를 지원하는데 적합할 수 있는 ARM에 따라 설계된 프로세싱 코어를 포함할 수 있다. 실시예에서, 다중 또는 이중 에코시스템을 지원하는 컴퓨팅 디바이스는 프로세싱 디바이스(100)를 이용하여 구축될 수 있다. 컴퓨팅 디바이스가 윈도우 디바이스로서 스위칭되거나 부팅 업되면, 프로세서 모듈(102)은 본래 윈도우 애플리케이션의 실행을 지원하기 위해 전경(foreground) 상에서 액티브하게 구동할 수 있으며, 프로세싱 모듈(104)은 배경 상에서 구동하거나 유휴 상태에 있을 수 있다. 대안적으로, 컴퓨팅 디바이스가 안드로이드 디바이스로서 스위칭되거나 부팅 업되면, 프로세서 모듈(104)은 본래 안드로이드 애플리케이션의 실행을 지원하기 위해 전경(foreground) 상에서 구동할 수 있으며, 프로세서 모듈(102)은 배경 상에서 구동하거나 유휴 상태에 있을 수 있다. 이런 방식으로, 효율적이고 고성능의, 이중-에코시스템 컴퓨팅 디바이스가 달성된다.

버스(106)는 데이터 통신과 제어 시그널링을 위한 인터페이스를 제공하기 위해 프로세서 모듈(102, 104)에 연결될 수 있다. 실제로, 버스(106)는 ISA들의 특별한 타입에 따라 설계될 수 있다. 그러므로, 상이한 타입의 ISA에 따라 설계된 프로세서 모듈(102, 104)들 사이에 통신 채널을 제공하기 위해, 데이터와 메시지를 변환하기 위한 추가 모듈들이 필요할 수 있다. 도 2a는 실시예에 따른 상이한 ISA 코어들 사이의 통신을 위한 회로 모듈을 포함하는 프로세싱 디바이스(200)를 설명한다. 도 2a에 도시된 바와 같은 프로세싱 디바이스(200)는 도 1에 도시된 바와 같은 프로세싱 디바이스와 유사한 프로세서 모듈(102, 104), 및 버스 및/또는 패브릭(106)을 포함할 수 있다. 추가적으로, 프로세싱 디바이스(200)는 프로세서 모듈(104)과 버스(106) 사이에 연결된 버스 브리지(202)를 포함할 수 있다. 버스(106)는 프로세서 모듈(102)의 ISA 타입을 위해 설계될 수 있고, 그러므로 상이한 ISA 타입의 프로세서 모듈(104)과의 직접 통신이 가능하지 않을 수 있다. 프로세서 모듈(104)과 버스(106) 사이에 연결된 버스 브리지(202)는 프로세서 모듈(104)로부터의 메시지를, 버스(106)에 적합하고 프로세서 모듈(102)에 의해 이해되는 포맷으로 변환할 수 있다. 반대로, 버스 브리지(202)는 버스(106)를 통한 프로세서 모듈(102)로부터의 메시지를 프로세서 모듈(104)에 적합한 포맷으로 변환할 수 있다.

실시예에서, 프로세서 모듈(102)은 IA 타입의 코어를 포함할 수 있고 버스(106)는 IA 코어로부터의 메시지를 다루기 위해 구체적으로 설계될 수 있다. 예를 들어, 버스(106)는 Intel® 인-다이 인터커넥트(IDI) 메시지를 다룰 수 있는 시스템 에이전트(SA)일 수 있다. 프로세서 모듈(104)은 타입들이 IA와는 다른 코어를 포함할 수 있다. 실시예에서, 프로세서 모듈(104) 내의 코어는 ARM 타입일 수 있고 진보된 마이크로컨트롤러 버스 아키텍처(AMBA: Advanced Microcontroller Bus Architecture) 프로토콜에 따른 메시지를 전달하도록 설계된다. 버스 브리지(202)는 프로세서 모듈(102)로부터의 IDI 메시지를 프로세서 모듈(104)을 위한 AMBA 메시지로 변환하여 판독하고, 또는 반대로, 프로세서 모듈(104)로부터의 AMBA 메시지를 프로세서 모듈(102)을 위한 IDI 메시지로 변환하여 판독할 수 있다.

대안적인 실시예에서, 프로세서 모듈(102)은 ARM 타입의 코어를 포함할 수 있고 버스(106)는 ARM 코어로부터의 메시지를 다루기 위해 구체적으로 설계될 수 있다. 예를 들어, 버스(106)는 AMBA 메시지를 다룰 수 있는 SA일 수 있다. 프로세서 모듈(104)은 타입들이 AMBA와는 다른 코어를 포함할 수 있다. 실시예에서, 프로세서 모듈(104) 내의 코어는 IA 타입일 수 있고 IDI 메시지에 따른 메시지를 전달하도록 설계된다. 버스 브리지(202)는 프로세서 모듈(102)로부터의 AMBA 메시지를 프로세서(104)를 위한 IDI 메시지로 변환하여 판독하고, 또는 반대로, 프로세서 모듈(104)로부터의 IDI 메시지를 프로세서 모듈(102)을 위한 AMBA 메시지로 변환하여 판독할 수 있다.

프로세싱 디바이스(200)의 이종 코어는 SoC 상에 존재하지 않을 수 있는 주변 디바이스와 통신할 수 있다. 도 2b는 실시예에 따른 코어와 주변 디바이스 간의 통신을 위한 회로 모듈을 포함하는 프로세싱 디바이스(200)를 설명한다. 도 2a와 비교하여, 도 2b에 도시된 바와 같은, 프로세싱 디바이스(200)는 프로세싱 디바이스(200)와 주변 디바이스(208, 210) 사이에서 메시지와 제어 신호를 통신하기 위해 컨버터(204)와 주변 브리지(206)를 추가로 포함할 수 있다. 컨버터(204)는 시스템 에이전트의 일부일 수 있고, 버스(106)와 연결되고, 주변 브리지(206)는 컨버터(204)와 주변 디바이스(208, 210) 사이에 연결될 수 있다. SoC의 일부가 아닐 수 있는 주변 디바이스(208, 210)는, 각각의 주변 디바이스가 프로세싱 모듈들 중 임의의 하나에 의해 어드레스될 수 있도록 이종 프로세싱 모듈(102, 104)에 의해 세트적으로 제어된다. 컨버터(204)는 프로세싱 모듈(102, 104) 내의 이종 코어로부터의 상이한 타입들의 메시지와 제어 신호를 주변 브리지(206)가 인식할 수 있는 포맷으로 변환하여, 그 메시지와 제어 신호를 적절한 주변 디바이스로 전달할 수 있게 한다.

실시예에서, 컨버터(204)는 이종 코어를 포함하는 다른 SoC에 연결될 수 있는 주변 디바이스에 대한 코어를 포함하는 코어로의 및 이로부터의 내부 명령/인터럽트를 다룰 수 있다. 이와 관련하여, 컨버터는 제2 타입에 대한 코어의 제1 타입을 위해 설계된 내부 명령/인터럽트를 적응시킬 수 있다. 예를 들어, 컨버터(204)는 IA 코어가 ARM 코어와 통신하기 위해 설계된 Intel® 온-칩 시스템 패브릭(IOSF) 버스와 주변 디바이스를 적응시킬 수 있다. 또 다른 실시예에서, 컨버터(204)는 코어와 주변 디바이스 사이의 직접적 데이터 접속을 관리할 수 있다. 예를 들어, 컨버터(204)는, 제1 타입의 ISA를 위해 배타적으로 설계된 주변 디바이스가 제2 타입의 코어에 교신(메시지와 인터럽트를 전송)할 수 있고, 제2 타입의 ISA를 위해 배타적으로 설계된 주변 디바이스가 제1 타입의 코어에 교신할 수 있도록 주변 디바이스의 메모리-맵핑된 I/O(MMIO) 레지스터에 제어 코드를 기입할 수 있다.

도 2a와 2b에 도시된 바와 같은 실시예가 2가지 타입의 ISA 코어를 포함하는 프로세싱 디바이스(200)의 관점에서 논의될지라도, 본 개시 내용의 양태는 여러 타입의 ISA 코어들로 쉽게 확장될 수 있다. 도 2c는 실시예에 따른 다수의 ISA의 프로세서 모듈을 포함하는 프로세싱 디바이스를 설명한다. 도 2b와 비교하여, 도 2c에 도시된 바와 같은 프로세싱 디바이스(200)는 제3 프로세서 모듈(212)과 추가의 버스 브리지(214)를 추가로 포함한다. 프로세서 모듈(212)은 프로세서 모듈(102 또는 104)의 ISA와 다른 ISA의 제3 타입에 따라 설계된 코어를 포함할 수 있다. (프로세서 모듈(102)의 ISA에 따라 설계되는) 프로세서 모듈(212)과 버스(106) 사이에 연결된 버스 브리지(214)는 프로세서 모듈(212)과 버스(106) 사이의 메시지를 변환할 수 있다. 그러므로, 프로세싱 디바이스(200)는 2개보다 많은 타입의 이종 코어를 포함할 수 있고 2개보다 많은 에코시스템을 지원할 수 있는 컴퓨팅 디바이스 내에 설계된다.

도 3a는 실시예에 따른 프로세싱 디바이스(300)의 상세한 개략을 설명한다. 도 3a에 도시된 바와 같은, 프로세싱 디바이스는 제1 프로세서 모듈(302), 제2 프로세서 모듈(304), 및 IA 시스템 에이전트(SA)(306)을 포함할 수 있는데, 이 IA 시스템 에이전트(SA)(306)는 버스/패브릭(도시 생략)과 SA 컨버터(308)를 포함할 수 있다. 프로세서 모듈(302)은 하나 이상의 제1 타입의 ISA 또는 ISA 1(IA와 같은) 코어(310, 312), 및 IA 코어(310, 312)에 대한 스테이지 데이터에 사용될 수 있는 레벨-2 캐시(314)를 더 포함할 수 있다. 프로세서 모듈(304)은 하나 이상의 제2 타입 또는 ISA 2(ARM과 같은) 코어(316, 318), 레벨-2 캐시(320), 레벨-2 캐시(320)가 ARM 코어(316, 318)에 대한 그리고 버스 브리지(322)에 대한 스테이지 데이터에 사용될 수 있는 버스 브리지(322)를 더 포함할 수 있다. 버스 브리지(322)는 ARM 코어(316, 318)와 SA(306) 사이에 전송된 메시지를 변환할 수 있다.

프로세싱 디바이스(300)는 또한 전력 관리(PM) 링크를 통해 프로세서 모듈(302, 304)에 공급된 전력을 관리하기 위해, 프로세서 모듈(302, 304)과 SA(306)에 연결된 전력 제어기(324)를 포함할 수 있다. 프로세싱 디바이스(300)는 또한 메모리 인터페이스(MI) 프로토콜을 이용하여 SA(306)에 연결될 수 있는 메모리 제어기(326)를 포함할 수 있다. 메모리 제어기(326)는 메모리 디바이스(336)(DDR 메모리와 같은)에 대한 데이터 판독/기입을 제어할 수 있다.

추가적으로, SA(306)는 컨버터(308)를 통해 주변 디바이스(328-334)에 연결될 수 있다. 주변 디바이스는 배타적 IA, 배타적 ARM, 및 비배타적인 것을 포함하는 3개의 카테고리 중 하나에 속할 수 있다. 배타적-IA 주변 디바이스는 프로세싱 디바이스(300)가 액티브하게 전경 상의 프로세서 모듈(302)을 구동할 때에만 작동한다. 배타적-AMR 디바이스는 프로세싱 디바이스(300)가 액티브하게 전경 상의 프로세서 모듈(304)을 구동할 때에만 작동한다. 비-배타적 주변 디바이스는 프로세서 모듈(302)이 전경 상에 있을 때 또는 프로세서 모듈(304)이 전경 상에 있을 때 작동할 수 있다. 컨버터(308)와 주변 디바이스(328-334) 사이의 통신은 Intel® 온-시스템 패브릭(IOSF) 프로토콜 또는 패브릭 인터페이스(FI) 프로토콜에 따른 버스 통신을 통해 달성될 수 있다.

동작 시에, IA 코어(310, 312)는 IDI 프로토콜에 따라 SA(306)에 메시지를 전송할 수 있다. 버스 브리지(322)는 ARM 코어(316, 318)에 의해 판독될 수 있는 포맷으로 IA 코어(310, 312)로부터의 IDI 메시지를 변환할 수 있다. 반대로, 버스 브리지(322)는 ARM 코어(316, 318)로부터의 AMBA 메시지를 IDI 메시지로 변환하고 이 IDI 메시지를 SA(306)로 전송할 수 있다. 메시지는 코어-개시 메모리(core-initiated memory)와 I/O 동작들과 에이전트-개시 스누프(agent-initiated snoops)와 인터럽트 및 전력 관리 인터페이스를 포함할 수 있다.

SA(306)는 SoC 상의 다른 모듈에 연결될 수 있는 내부의 제어 IOSF 버스를 제어할 수 있다. SA(306)는 또한 이종 코어로 및 이로부터의 내부 명령 및/또는 인터럽트를 다룰 수 있다. ARM 코어(316, 318)에 대해 SA(306) 및 다른 디바이스 내의 IOSF 버스를 적응시키기 위해, SA 컨버터(306)는 ARM 코어(316, 318)를 위해 IOSF 버스 프로토콜 메시지 및 내부 명령/인터럽트를 변환할 수 있다.

실시예에서, 프로세싱 디바이스(300)는 직접적으로 IA 코어(310, 312)와 ARM 코어(316, 318)를 메모리(336)의 공유 메모리(SM) 부분에 링크시키는 인터-코어 통신 터널을 제공할 수 있다. 이런 방식으로, 이종 코어는 고속으로 메모리에 액세스할 수 있다.

전력 제어기(324)는, SA(306)를 통한 FI 프로토콜 메시지를 통해, 프로세서 모듈(302, 304)과 통신할 수 있다. 예를 들어, 전력 제어기는 현재-구동중인 운영체계(OS)를 스위칭시키기 위해 전경 코어에 의해 생성된 요청을 수신할 수 있다. 이러한 요구에 응답하여, 전력 제어기는 전경 액티브 코어들로의 전력 공급을 감소시키도록 PM 링크를 통해 명령을 발행하여 그들을 유휴 상태로 하고, 동시에, 배경 코어들로의 전력 공급을 증가시켜 그들을 액티브 상태로 한다. 예를 들어, 프로세싱 디바이스(300)가 스위칭 요구에 응답하여, IA 코어(310, 312)를 액티브하게 구동하고 ARM 코어(316, 318)를 유휴 상태로 하면, 전력 제어기(324)는 프로세서 모듈(302)로의 전력 공급을 감소시키고 프로세서 모듈(304)로의 전력 공급을 증가시켜, IA 코어(310, 312)가 유휴 상태가 될 수 있고 ARM 코어(316, 318)가 액티브 상태가 될 수 있게 한다.

도 3a에 도시된 바와 같은 프로세싱 디바이스(300)는 IA 시스템 에이전트(306) 주위에 구축된다. 대안적으로, 프로세싱 디바이스는 다른 타입의 시스템 에이전트 주위에 구축될 수 있다. 도 3b는 실시예에 따른 ARM 시스템 에이전트 주위에 구축된 프로세싱 디바이스(340)를 설명한다. 도 3b에 도시된 바와 같은 프로세싱 디바이스(340)는 AMBA와 같은 ARM 통신 프로토콜에 따라 설계된 ARM 시스템 에이전트(SA)(346)를 포함할 수 있다. 프로세싱 디바이스(340)는 또한 프로세서 모듈(342, 344), 전력 제어기(346), 및 메모리 제어기(366)를 포함할 수 있다. 프로세서 모듈(342)은 하나 이상의 제2 타입의 ISA, 또는 ISA 2(ARM과 같은) 코어(350, 352) 및 레벨-2 캐시(354)를 더 포함할 수 있고, 프로세서 모듈(344)은 하나 이상의 제1 타입의 ISA 또는 ISA 1(IA와 같은) 코어(356, 358), 레벨-2 캐시(360), 및 버스 브리지(362)를 더 포함할 수 있다. SA(346)는 ARM 버스(도시 생략)와 컨버터(348)를 더 포함할 수 있다. SA(346)가 ARM 코어와 협동해서 작동하도록 설계되기 때문에, 프로세서 모듈(342)은 AMBA 프로토콜에 따라 ARM SA(346)와 통신할 수 있다. 대조적으로, IA 코어(356, 358)을 포함하는 프로세서 모듈(344)은 IA 코어 메시지를 AMBA 포맷으로 또는 그와 반대로 변환할 수 있는 버스 브리지(362)를 통해 SA(346)와 통신할 수 있어, 프로세서 모듈(342)은 SA(346)를 통해 프로세서 모듈(344)과 메시지를 교환할 수 있게 한다. 유사하게, 컨버터(348)는 IA 코어(356, 358)으로부터 IA 디바이스로서 지정된 주변 디바이스(328-334)로의 또는 그와 반대로의 명령 및/또는 인터럽트를 변환할 수 있다. 실제로, 프로세싱 디바이스(340)는 도 3a에 도시된 바와 같은 프로세싱 디바이스(300)와 유사한 방식으로 작동할 수 있다.

이중 또는 다중 OS들로 구성된 컴퓨팅 디바이스는 하드웨어-공유 액세스가능 모드, 소프트웨어-공유 액세스가능 모드, 또는 배타적-액세스가능 모드로 작동할 수 있다. 하드웨어-공유 액세스가능 모드 하에서, 컴퓨팅 디바이스는 하나보다 많은 OS(윈도우와 안드로이드 모두와 같은)를 동시에 그리고 액티브하게 작동시킬 수 있다. 하드웨어-공유 액세스가능 모드를 달성하기 위해, 각각의 프로세싱 모듈(도 3a에 도시된 바와 같은 302, 304, 또는 도 3b에 도시된 바와 같은 342, 344와 같은)은 그들의 각각 드라이버를 갖출 수 있다. 코어와 주변 디바이스 간의 메시지 교환과 이벤트 디스패치를 제어하는 SA(308)(또는 348) 내에 내장된 컨버터(308)(또는 348)는 동시에 구동하고 있는 각각의 OS들에 인터럽트를 다중화할 수 있다.

소프트웨어-공유 액세스가능 모드 하에서, 컴퓨팅 디바이스는 가상화에 의해 하나보다 많은 OS를 동시에 그리고 액티브하게 작동시킬 수 있다. 가상 드라이버는 이종 코어 중에 OS들 사이에 메시지를 전하도록 구성될 수 있다. 하드웨어-공유 액세스가능 및 소프트웨어-공유 액세스가능 모드의 양쪽이 주변 디바이스에 대하여 하나보다 많은 OS를 동시에 구동할지라도, OS 중 하나는 마스터일 수 있고, 나머지 OS들은 슬레이브일 수 있다. 마스터 OS는 주로 주변 디바이스를 관리하고, 주변 디바이스에 배타적으로 액세스하고, 또는 주변 디바이스를 슬레이브 OS들과 공유할 수 있다.

배타적-액세스가능 모드 하에서, 컴퓨팅 디바이스는 전경 상의 하나의 OS만을 구동하고 OS들의 나머지를 배경 내에 또는 유휴 상태에 위치시킬 수 있다. 전경 OS는 전경 OS에 고유한 코어를 포함하는 프로세서 모듈 상에서 구동할 수 있다. 예를 들어, 전경 상에 있을 때의 윈도우와 그것의 애플리케이션은 IA 코어 상에서 구동할 수 있고, 전경 상에 있을 때의 안드로이드와 그것의 애플리케이션은 ARM 코어 상에서 구동할 수 있다. 스위칭 요구에 응답하여, 전경과 배경 OS들은 스위칭될 수 있다.

도 4는 실시예에 따른 이중-OS 컴퓨팅 디바이스에서 OS들을 스위칭하기 위한 방법의 블록도이다. 방법(400)은 하드웨어(예로서, 회로, 전용 로직, 프로그래밍 가능 로직, 마이크로코드, 등), 소프트웨어(예로서, 프로세싱 디바이스, 범용 컴퓨터 시스템, 또는 전용 머신 상에서 구동하는 명령어들), 펌웨어, 또는 이들의 조합을 포함할 수 있는 프로세싱 로직에 의해 수행될 수 있다. 일 실시예에서, 방법(400)은 도 1, 2a-2c, 3a-3b에 대하여 상술한 프로세서 모듈(102, 104, 212, 302, 304, 342, 344) 중 임의의 하나의 로직을 처리함으로써 부분적으로 수행될 수 있다.

설명의 단순화를 위해, 방법(400)은 일련의 동작들로서 도시되고 설명되어 있다. 그러나, 본 개시 내용에 따른 동작들은, 다양한 순서로 및/또는 동시에, 그리고 본 명세서에 제시되고 설명되지 않은 다른 동작들과 함께 발생할 수 있다. 또한, 도시된 모든 동작들이 개시된 주제에 따른 방법(400)들을 구현하기 위해 수행되는 것은 아닐 수 있다. 그에 부가하여, 본 분야의 숙련자들은 방법(400)이 대안적으로 상태도 또는 이벤트들을 통해 일련의 상호 관련된 상태들로서 표현될 수 있다는 것을 이해하고 알 것이다.

도 4를 참조하면, 프로세싱 로직은 OS들의 스위칭 요구를 수신할 수 있다. 요구는 컴퓨팅 디바이스의 사용자에 의해 발행된 명령어를 응답하여, 또는 컴퓨팅 디바이스 내의 로직에 의해 트리거된 이벤트를 응답하여, 또는 (일 또는 월 각각의 일정한 시간에서와 같은) 스케줄에 응답하여 생성될 수 있다. 요구에 응답하여, 402에서, 현재 구동하는 OS를 실행하는 프로세싱 로직은 현재 구동하는 OS 하에서 작동하도록 배타적으로 설계된 디바이스들의 제1 세트를 결정하고 디바이스들의 제1 세트를 중지하게 하는 명령어를 발행하게 할 수 있다. 실시예에서, 결정은 디바이스들의 카테고리를 상세화하는 테이블과 디바이스들의 세트의 식별들을 매칭시킴으로써 달성될 수 있다. 404에서, 현재 구동하는 OS를 실행하는 프로세싱 로직은 테이블을 조회함으로써, 현재-구동중인 전경 OS 또는 배경 OS에 배타적이지 않은 디바이스들의 제2 세트를 더 결정하고, 시스템 에이전트 내의 컨버터를 통해, 디바이스들의 제2 세트를 재구성하여, 디바이스들의 제2 세트가 배경 OS하에서 구동하기에 적절한 상태에 있게 한다. 재구성은 이러한 디바이스들의 MMIO 레지스터를 재기입하는 것을 포함할 수 있다. 406에서, 현재 구동하는 전경 OS를 실행하는 프로세싱 로직은 테이블을 조회함으로써, 그들이 배경 OS 하에서 배타적으로 작동하기 때문에 현재 유휴 상태인 디바이스들의 제3 세트를 결정하고, 컨버터를 통해, 디바이스들의 제3 세트를 인에이블/재개할 수 있게 한다. 408에서, 현재 구동하는 OS를 실행하는 프로세서는 배경 OS를 전경으로 활성화하고 동시에 이전에 구동중인 전경 OS를 비활성화시킬 수 있다. OS들의 스위칭은 또한 본 개시 내용의 실시예에 도시된 바와 같이 상이한 프로세서 모듈에서 이종 코어 간의 스위칭의 원인이 될 수 있다.

도 5a는 개시 내용의 일 실시예에 따라서 이종 코어를 포함하는 프로세싱 디바이스를 구현시킨 프로세서(500)를 위한 마이크로-아키텍처를 설명하는 블록도이다. 구체적으로는, 프로세서(500)는 개시 내용의 적어도 하나의 실시예에 따른, 프로세서에 포함될 순차적 아키텍처 코어(in-order architecture core) 및 레지스터 리네이밍 로직, 비순차적 발행/실행 로직(register renaming logic, out-of-order issue/execution logic)을 나타낸다.

프로세서(500)는 실행 엔진 유닛(550)에 연결된 프론트 엔드 유닛(front end unit)(530)을 포함하고, 둘 다는 메모리 유닛(570)에 연결되어 있다. 프로세서(500)는 RISC(reduced instruction set computing) 코어, CISC(complex instruction set computing) 코어, VLIW(very long instruction word) 코어, 또는 하이브리드 또는 대안의 코어 타입을 포함할 수 있다. 또 다른 옵션으로서, 프로세서(500)는, 예를 들어, 네트워크 또는 통신 코어, 압축 엔진, 그래픽 코어, 등과 같은 특수 목적 코어를 포함할 수 있다. 일 실시예에서, 프로세서(500)는 멀티 코어 프로세서일 수 있거나 멀티 프로세서 시스템의 일부일 수 있다.

프론트 엔드 유닛(530)은 명령어 캐시 유닛(534)에 연결된 분기 예측 유닛(532)을 포함하고, 이 명령어 캐시 유닛은 명령어 변환 색인 버퍼(TLB: translation lookaside buffer)(536)에 연결되고, 이 명령어 변환 색인 버퍼는 명령어 페치 유닛(538)에 연결되고, 이 명령어 페치 유닛은 디코드 유닛(540)에 연결된다. 디코드 유닛(540)(디코더라고도 알려져 있음)은 명령어들을 디코딩할 수 있고, 원래의 명령어들로부터 디코딩되거나, 원래의 명령어들을 다른 방식으로 반영하거나, 원래의 명령어들로부터 도출되는 하나 이상의 마이크로-연산(micro-operation)들, 마이크로-코드 진입점들, 마이크로명령어들, 다른 명령어들, 또는 기타 제어 신호들을 출력으로서 생성할 수 있다. 디코더(540)는 다양한 상이한 메커니즘들을 이용하여 구현될 수 있다. 적합한 메커니즘들의 예들은, 이에 제한되는 것은 아니지만, 룩-업 테이블들, 하드웨어 구현들, PLA(Programmable Logic Array)들, 마이크로코드 ROM(Read Only Memory)들, 등을 포함한다. 명령어 캐시 유닛(534)은 메모리 유닛(570)에 더 연결된다. 디코드 유닛(540)은 실행 엔진 유닛(550) 내의 리네임/할당기 유닛(552)에 연결된다.

실행 엔진 유닛(550)은 리타이어먼트 유닛(554) 및 하나 이상의 스케줄러 유닛(들)(556)의 세트에 연결되는 리네임/할당기 유닛(552)을 포함한다. 스케줄러 유닛(들)(556)은 예약 스테이션(RS), 중심 명령어 윈도우, 등을 포함하는 임의의 수의 상이한 스케줄러를 나타낸다. 스케줄러 유닛(들)(556)은 물리적 레지스터 파일(들) 유닛(들)(558)에 연결된다. 각각의 물리적 레지스터 파일(들) 유닛(558)은 하나 이상의 물리적 레지스터 파일을 나타내는데, 이들 상이한 것들은 스칼라 정수, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점, 등과 같은 하나 이상의 상이한 데이터 타입, 상태(예를 들어, 실행될 다음 명령어의 어드레스인 명령어 포인터), 등을 저장한다. 물리적 레지스터 파일(들) 유닛(들)(558)은 리타이어먼트 유닛(554)에 의해 중첩되어, 레지스터 리네이밍과 비순차적 실행이 구현될 수 있는 상이한 방법을 설명한다(예를 들어, 재정렬 버퍼(들)와 리타이어먼트 레지스터 파일(들)을 이용하여, 미래의 파일(들), 이력 버퍼(들), 및 리타이어먼트 레지스터 파일(들)을 이용하여; 레지스터 맵과 레지스터들의 풀을 이용하여; 등).

한 구현에서, 프로세서(500)는 도 1, 2a-2c, 3a 및 3b에 관하여 설명된 프로세서(100, 200, 300, 및 340)와 동일할 수 있다.

일반적으로, 아키텍처 레지스터들은 프로세서 외부로부터 또는 프로그래머의 관점으로부터 가시적이다. 레지스터는 임의의 알려진 특정 타입의 회로로 제한되지 않는다. 본 명세서에 설명된 바와 같이 데이터를 저장하고 제공할 수 있는 한, 다양한 상이한 타입의 레지스터들이 적합하다. 적절한 레지스터의 예는, 이에 한정되지는 않지만, 전용의 물리적 레지스터, 레지스터 리네이밍을 이용하여 동적으로 할당된 물리적 레지스터, 전용의 그리고 동적으로 할당된 물리적 레지스터의 조합, 등을 포함한다. 리타이어먼트 유닛(554)과 물리적 레지스터 파일(들) 유닛(들)(558)은 실행 클러스터(들)(560)에 연결된다. 실행 클러스터(들)(560)는 하나 이상의 실행 유닛(562)들의 세트 및 하나 이상의 메모리 액세스 유닛(564)들의 세트를 포함한다. 실행 유닛(562)들은 다양한 연산들(예컨대, 시프트, 덧셈, 뺄셈, 곱셈)을 수행하고 다양한 타입의 데이터(예컨대, 스칼라 부동 소수점, 팩킹된 정수, 팩킹된 부동 소수점, 벡터 정수, 벡터 부동 소수점)에 대해 연산할 수 있다.

일부 실시예들은 특정 기능들이나 기능들의 세트들에 전용된 다수의 실행 유닛들을 포함할 수 있지만, 다른 실시예들은 단 하나의 실행 유닛 또는 모두가 모든 기능들을 수행하는 다수의 실행 유닛을 포함할 수 있다. 스케줄러 유닛(들)(556), 물리적 레지스터 파일(들) 유닛(들)(558), 및 실행 클러스터(들)(560)는 가능한 복수인 것으로 도시되는데, 그 이유는 특정 실시예들이 특정 타입들의 데이터/연산들에 대한 개별 파이프라인들(예를 들어, 자신들의 스케줄러 유닛, 물리적 레지스터 파일(들) 유닛, 및/또는 실행 클러스터를 각각 갖는 스칼라 정수 파이프라인, 스칼라 부동 소수점/팩킹된 정수/팩킹된 부동 소수점/벡터 정수/벡터 부동 소수점 파이프라인, 및/또는 메모리 액세스 파이프라인 - 그리고 개별 메모리 액세스 파이프라인의 경우, 이러한 파이프라인의 실행 클러스터만이 메모리 액세스 유닛(들)(564)을 갖는 특정 실시예들이 구현됨)을 생성하기 때문이다. 개별 파이프라인들이 사용되는 경우에, 이들 파이프라인들 중 하나 이상은 비순차적 발행/실행일 수 있고 나머지는 순차적일 수 있다는 점도 이해되어야 한다.

메모리 액세스 유닛들(564)들의 세트는 메모리 유닛(570)에 연결되어 있고, 이 메모리 유닛(570)은, 몇 가지 예를 들자면, 데이터 프리페처(580), 데이터 TLB 유닛(572), 데이터 캐시 유닛(data cache unit, DCU)(574), 및 레벨 2(L2) 캐시 유닛(576)을 포함할 수 있다. 일부 실시예들에서, DCU(574)는 또한 제1 레벨 데이터 캐시(L1 캐시)라고도 알려져 있다. DCU(574)는 다수의 미해결 캐시 미스(cache miss)들을 처리할 수 있고, 인입하는 스토어(store)들 및 로드(load)들을 계속하여 서비스할 수 있다. 이는 또한 캐시 일관성을 유지하는 것을 지원할 수 있다. 데이터 TLB 유닛(572)은 가상 및 물리적 어드레스 공간들을 맵핑하는 것에 의해 가상 어드레스 변환 속도를 개선시키는데 사용되는 캐시이다. 하나의 예시적인 실시예에서, 메모리 액세스 유닛(564)들은 로드 유닛(load unit), 스토어 어드레스 유닛(store address unit), 및 스토어 데이터 유닛(store data unit)을 포함할 수 있으며, 이들 각각은 메모리 유닛(570) 내의 데이터 TLB 유닛(572)에 연결된다. L2 캐시 유닛(576)은 하나 이상의 다른 레벨의 캐시에 그리고 궁극적으로는 메인 메모리(main memory)에 연결될 수 있다.

일 실시예에서, 데이터 프리페처(580)는 프로그램이 어느 데이터를 사용할 것인지를 자동으로 예측하는 것에 의해 데이터를 추측에 근거하여 DCU(574)에 로드/프리페치한다. 프리페칭은 메모리 계층구조(예컨대, 하위 레벨 캐시들 또는 메모리)의 하나의 메모리 장소에 저장된 데이터를, 데이터가 프로세서에 의해 실제로 요구되기 전에, 프로세서에 더 가까운(예컨대, 보다 낮은 액세스 대기 시간을 가져오는) 상위 레벨 메모리 장소로 전송하는 것을 지칭할 수 있다. 보다 구체적으로는, 프리페칭은, 프로세서가 반환되는 특정 데이터에 대한 요구를 발행하기 전에, 하위 레벨 캐시들/메모리 중 하나로부터 데이터 캐시 및/또는 프리페치 버퍼로의 데이터의 조기 검색을 지칭할 수 있다.

프로세서(500)는 하나 이상의 명령어 세트들(예컨대, (보다 최신 버전들이 추가된 소정의 확장들을 갖는) x86 명령어 세트); 미국 캘리포니아주 서니베일 소재의 MIPS Technologies사의 MIPS 명령어 세트; 미국 캘리포니아주 서니베일 소재의 ARM Holdings사의 (NEON과 같은 선택적인 부가의 확장들을 갖는) ARM 명령어 세트)을 지원할 수 있다.

코어는 (2개 이상의 병렬 세트들의 연산들 또는 스레드들을 실행하는) 멀티스레딩을 지원할 수 있고, 시분할 멀티스레딩(time sliced multithreading), (단일의 물리적 코어가, 물리적 코어가 동시에 멀티스레딩하는 스레드들 각각에 대해 로직 코어를 제공하는 경우에) 동시적 멀티스레딩, 또는 이들의 조합(예를 들어, Intel® Hyperthreading 기술에서와 같이 시분할 페칭 및 디코딩과 그 이후의 동시적 멀티스레딩)을 포함하는 다양한 방식으로 멀티스레딩을 지원할 수 있다는 점이 이해되어야 한다.

레지스터 리네이밍이 비순차적 실행의 정황에서 설명되었지만, 레지스터 리네이밍은 순차적 아키텍처에서 사용될 수도 있다는 점이 이해되어야 한다. 프로세서의 예시된 실시예가 또한 개별적인 명령어 및 데이터 캐시 유닛들과 공유 L2 캐시 유닛을 포함하고 있지만, 대안의 실시예들은, 예를 들어, 레벨 1(L1) 내부 캐시, 또는 다수의 레벨의 내부 캐시와 같은, 명령어들 및 데이터 둘 다에 대한 단일의 내부 캐시를 가질 수 있다. 일부 실시예들에서, 시스템은 내부 캐시와, 코어 및/또는 프로세서 외부에 있는 외부 캐시의 조합을 포함할 수 있다. 대안적으로, 모든 캐시는 코어 및/또는 프로세서 외부에 있을 수 있다.

도 5b는 개시 내용의 일부 실시예들에 따른, 도 5a의 프로세싱 디바이스(500)에 의해 구현되는 순차 파이프라인(in-order pipeline) 및 레지스터 리네이밍 스테이지, 비순차 발행/실행 파이프라인(register renaming stage, out-of-order issue/execution pipeline)을 나타내는 블록도이다. 도 5b에서의 실선 상자들은 순차 파이프라인을 나타내는 반면, 파선 상자들은 레지스터 리네이밍, 비순차 발행/실행 파이프라인을 나타낸다. 도 5b에서, 프로세서 파이프라인(500)은 페치 스테이지(502), 길이 디코드 스테이지(504), 디코드 스테이지(506), 할당 스테이지(508), 리네이밍 스테이지(510), 스케줄링(또한 디스패치 또는 발행으로 알려짐) 스테이지(512), 레지스터 판독/메모리 판독 스테이지(514), 실행 스테이지(516), 라이트 백/메모리 기입 스테이지(518), 예외 처리 스테이지(522), 및 커밋 스테이지(commit stage)(524)를 포함한다. 일부 실시예들에서, 스테이지(502-524)들의 정렬은 예시된 것과 다를 수 있고, 도 5b에 도시된 특정한 순서화로 제한되지 않는다.

도 6은 개시 내용의 일 실시예에 따른 하이브리드 코어를 포함하는 프로세서(600)를 위한 마이크로-아키텍처의 블록도를 설명한다. 일부 실시예들에서, 일 실시예에 따른 명령어는, 단정도(single precision) 및 배정도(double precision) 정수 및 부동 소수점 데이터 타입들과 같은, 데이터 타입들뿐만 아니라, 바이트, 워드, 더블워드, 쿼드워드 등의 사이즈들을 갖는 데이터 요소들에 대해 연산하도록 구현될 수 있다. 일 실시예에서, 순차(in-order) 프론트 엔드(601)는, 실행될 명령어들을 페치하여 이들을 프로세서 파이프라인 내에서 나중에 이용되도록 준비하는 프로세서(600)의 일부이다.

프론트 엔드(601)는 수 개의 유닛들을 포함할 수 있다. 일 실시예에서, 명령어 프리페처(instruction prefetcher)(626)는 메모리로부터 명령어들을 페치하고 이들을 명령어 디코더(628)에 피딩하고, 다음에 명령어 디코더는 명령어들을 디코딩하거나 해석한다. 예를 들어, 일 실시예에서, 디코더는 수신된 명령어를, 머신이 실행할 수 있는 "마이크로-명령어" 또는 "마이크로-연산"(또는 마이크로 op 또는 uop라고도 함)이라 불리는 하나 이상의 연산으로 디코딩한다. 다른 실시예들에서, 디코더는, 명령어를, 일 실시예에 따른 연산들을 수행하기 위해서 마이크로-아키텍처에 의해 이용되는 오피코드 및 대응하는 데이터 및 제어 필드들로 파싱한다. 일 실시예에서, 트레이스 캐시(630)는 디코딩된 uop들을 취하고 그것들을 실행을 위해 uop 큐(634) 내의 프로그램 순서 시퀀스들 및 트레이스들로 어셈블한다. 트레이스 캐시(630)가 복합 명령어를 만날 때, 마이크로코드 ROM(632)은 연산을 완료하는데 필요한 uop들을 제공한다.

일부 명령어들은 단일의 마이크로-op로 변환되는 한편, 다른 것들은 전체 연산(full operation)을 완료하는데 수 개의 마이크로-op를 필요로 한다. 일 실시예에서, 명령어를 완료하는데 4개보다 많은 마이크로-op가 필요한 경우, 디코더(628)는 이 명령어를 행하기 위해 마이크로코드 ROM(632)에 액세스한다. 일 실시예에 있어서, 명령어는 명령어 디코더(628)에서 처리하기 위한 적은 수의 마이크로-op들로 디코딩될 수 있다. 다른 실시예에서, 연산을 달성하는데 다수의 마이크로-op가 필요한 경우, 명령어는 마이크로코드 ROM(632) 내에 저장될 수 있다. 트레이스 캐시(630)는, 마이크로코드 ROM(632)으로부터 일 실시예에 따른 하나 이상의 명령어들을 완료하기 위해 마이크로-코드 시퀀스들을 판독하기 위한 올바른 마이크로-명령어 포인터를 결정하기 위해서 엔트리 포인트 프로그램가능 로직 어레이(PLA: programmable logic array)를 참조한다. 마이크로코드 ROM(632)이 명령어에 대한 마이크로-op들의 시퀀싱을 완료한 이후에, 머신의 프론트 엔드(601)는 트레이스 캐시(630)로부터 마이크로-op들을 페치하는 것을 재개한다.

명령어가 실행을 위해 준비되는 비순차적 실행 엔진(603)이 있다. 비순차 실행 로직은, 명령어들이 파이프라인을 따라 진행하고 실행을 위해 스케줄링됨에 따라 성능을 최적화하기 위해서 명령어들의 흐름을 평활화하고 재정렬하기 위해 다수의 버퍼를 갖는다. 할당기 로직은 각각의 uop가 실행하기 위해서 필요로 하는 머신 버퍼들 및 리소스들을 할당한다. 레지스터 리네이밍 로직은 로직 레지스터들을 레지스터 파일 내의 엔트리들 상에 리네이밍한다. 할당기는 또한 명령어 스케줄러: 메모리 스케줄러, 고속 스케줄러(602), 저속/일반적 부동 소수점 스케줄러(604), 및 간단한 부동 소수점 스케줄러(606) 앞에, 2개의 uop 큐 중 하나, 즉 메모리 동작을 위한 하나와 비-메모리 동작을 위한 하나에서 각각의 uop를 위한 엔트리를 할당한다. uop 스케줄러(602, 604, 606)들은 그들의 종속 입력 레지스터 피연산자 소스들의 준비성 및 실행 리소스들의 가용성에 기초하여 uop가 실행할 준비가 되어 있을 때 그들의 연산을 완료하는데 필요한 uop들을 결정한다. 일 실시예의 고속 스케줄러(602)는 메인 클럭 사이클의 각각의 절반마다 스케줄링할 수 있는 한편, 다른 스케줄러들은 단지 메인 프로세서 클럭 사이클마다 한번 스케줄링할 수 있다. 스케줄러들은 디스패치 포트들에 대하여 중재하여 실행을 위해 uop들을 스케줄링한다.

레지스터 파일(608, 610)들은 스케줄러(602, 604, 606)들과 실행 블록(611) 내의 실행 유닛(612, 614, 616, 618, 620, 622, 624)들과의 사이에 위치한다. 각각, 정수 및 부동 소수점 동작들에 대하여, 개별 레지스터 파일(608, 610)이 존재한다. 일 실시예의 각각의 레지스터 파일(608, 610)은, 레지스터 파일에 아직 기입되지 않은 방금 완료된 결과들을 새로운 종속 uop들에 포워딩하거나 바이패스할 수 있는 바이패스 네트워크를 또한 포함한다. 정수 레지스터 파일(608) 및 부동 소수점 레지스터 파일(610)은 또한 서로 데이터를 통신할 수 있다. 일 실시예에 있어서, 정수 레지스터 파일(608)은 2개의 개별 레지스터 파일들, 즉 데이터의 하위 32 비트에 대한 하나의 레지스터 파일과 데이터의 상위 32 비트에 대한 제2 레지스터 파일로 분할된다. 일 실시예의 부동 소수점 레지스터 파일(610)은 128 비트 폭 엔트리들을 갖는데, 그 이유는 부동 소수점 명령어들은 통상적으로 폭이 64 내지 128 비트의 피연산자를 갖기 때문이다.

실행 블록(611)은 실행 유닛(612, 614, 616, 618, 620, 622, 624)들을 포함하며, 여기서 명령어는 실제로 실행된다. 이러한 섹션은 마이크로명령들이 실행할 필요가 있는 정수 및 부동 소수점 데이터 피연산자 값들을 저장하는 레지스터 파일(608, 610)들을 포함한다. 일 실시예의 프로세서(600)는 수많은 실행 유닛으로 구성된다: 어드레스 생성 유닛(AGU)(612), AGU(614), 고속 ALU(616), 고속 ALU(618), 저속 ALU(620), 부동 소수점 ALU(622), 부동 소수점 이동 유닛(624). 일 실시예에 있어서, 부동 소수점 실행 블록(622, 624)들은 부동 소수점, MMX, SIMD, 및 SSE, 또는 다른 연산들을 실행한다. 일 실시예의 부동 소수점 ALU(622)는, 제산, 제곱근, 및 나머지 마이크로-op들을 실행하기 위해 64 비트 x 64 비트 부동 소수점 제산기(divider)를 포함한다. 본 개시 내용의 실시예들에 대해서, 부동 소수점 값을 포함하는 명령어들은 부동 소수점 하드웨어에서 처리될 수 있다.

일 실시예에서, ALU 연산들은 고속 ALU 실행 유닛들(616, 618)로 진행한다. 일 실시예의 고속 ALU들(616, 618)은 클럭 사이클의 절반의 유효 대기 시간으로 고속 연산들을 실행할 수 있다. 일 실시예에 있어서, 가장 복잡한 정수 연산들은 저속 ALU(620)로 진행하는데, 이는 저속 ALU(620)가 승산기, 시프트, 플래그 로직, 및 분기 프로세싱과 같은 긴 대기 시간 타입의 연산들을 위한 정수 실행 하드웨어를 포함하기 때문이다. 메모리 로드/스토어 동작들은 AGU들(612, 614)에 의해 실행된다. 일 실시예에 있어서, 정수 ALU들(616, 618, 620)은 64 비트 데이터 피연산자들에 대한 정수 연산들을 수행하는 정황에서 설명된다. 대안 실시예에서, ALU들(616, 618, 620)은 16, 32, 128, 256 등을 포함하는 다양한 데이터 비트를 지원하도록 구현될 수 있다. 마찬가지로, 부동 소수점 유닛들(622, 624)은 다양한 폭의 비트를 갖는 피연산자의 범위를 지원하도록 구현될 수 있다. 일 실시예에 있어서, 부동 소수점 유닛들(622, 624)은 SIMD 및 멀티미디어 명령어들과 함께 128 비트 폭의 팩킹된 데이터 피연산자들에 대해 연산할 수 있다.

일 실시예에서, uop 스케줄러들(602, 604, 606)은, 페어런트 로드(parent load)가 실행을 완료하기 이전에 종속 연산들을 디스패치한다. uop들은 프로세서(600) 내에서 추론적으로 스케줄링되고 실행되므로, 프로세서(600)는 또한 메모리 미스들을 처리하는 로직을 포함한다. 만일 데이터 로드가 데이터 캐시 내에서 미스되면, 일시적으로 부정확한 데이터를 갖는 스케줄러를 남긴 파이프라인 내에서 인플라이트의 종속 연산들(dependent operations in flight)이 있을 수 있다. 리플레이 메커니즘은 부정확한 데이터를 이용하는 명령들을 추적하고 재실행한다. 종속 연산들만이 리플레이될 필요가 있고 비종속 연산들은 완료하도록 허용된다. 프로세서의 일 실시예의 스케줄러들 및 리플레이 메커니즘은 텍스트 스트링 비교 연산들을 위한 명령어 시퀀스들을 캐치하도록 또한 설계된다.

프로세서(600)는 개시 내용의 실시예에 따른 메모리 명확화(memory disambiguation)를 위한 스토어 어드레스 예측을 구현시키기 위한 로직을 또한 포함한다. 일 실시예에서, 프로세서(600)의 실행 블록(611)은 메모리 명확화를 위한 스토어 어드레스 예측을 구현하기 위한 스토어 어드레스 예측기(도시 생략)를 포함할 수 있다.

"레지스터들"이라는 용어는, 피연산자들을 식별하기 위해 명령어들의 일부로서 이용되는 온-보드 프로세서 스토리지 장소들을 지칭할 수 있다. 다시 말하면, 레지스터들은 (프로그래머의 관점에서) 프로세서의 외부로부터 이용 가능한 것들일 수 있다. 그러나, 실시예의 레지스터들은 특정 타입의 회로에 대한 의미로 제한되어서는 안 된다. 오히려, 실시예의 레지스터는 데이터를 저장 및 제공할 수 있고, 본 명세서에 설명된 기능들을 수행할 수 있다. 본 명세서에서 설명된 레지스터들은 전용의 물리적 레지스터들, 레지스터 리네이밍을 이용하여 동적으로 할당된 물리적 레지스터들, 전용의 및 동적으로 할당된 물리적 레지스터들의 조합, 등과 같은 임의의 수의 상이한 기법들을 이용하여 프로세서 내의 회로에 의해 구현될 수 있다. 일 실시예에서, 정수 레지스터들은 32 비트 정수 데이터를 저장한다. 일 실시예의 레지스터 파일은 또한 팩킹된 데이터에 대하여 8개의 멀티미디어 SIMD 레지스터들을 포함한다.

이하에서의 논의를 위해, 레지스터들은 팩킹된 데이터를 보유하도록 설계된 데이터 레지스터, 예컨대 미국 캘리포니아주 산타 클라라 소재의 Intel Corporation사의 MMX 기술에 의해 인에이블된 마이크로프로세서에서의 64 비트 폭의 MMX™ 레지스터(일부 경우, "mm" 레지스터라고도 함)인 것으로 이해된다. 정수 및 부동 소수점 형식들 모두에서 이용 가능한, 이들 MMX 레지스터들은, SIMD 및 SSE 명령어들을 동반하는 팩킹된 데이터 요소들과 함께 작동할 수 있다. 유사하게, SSE2, SSE3, SSE4, 또는 그 이상(일반적으로 "SSEx"라고 함)의 기술과 관련된 128 비트 폭의 XMM 레지스터들은 또한 그러한 팩킹된 데이터 피연산자를 보유하는 데 사용될 수 있다. 일 실시예에서, 팩킹된 데이터 및 정수 데이터를 저장하는데 있어서, 레지스터들은 2개의 데이터 타입을 구별할 필요는 없다. 일 실시예에서, 정수 및 부동 소수점은 동일한 레지스터 파일 또는 상이한 레지스터 파일들에 포함된다. 또한, 일 실시예에서, 부동 소수점 및 정수 데이터는 상이한 레지스터들 또는 동일한 레지스터들 내에 저장될 수 있다.

이제 도 7을 참조하면, 개시 내용의 실시예가 이용될 수 있는 시스템(700)을 설명하는 블록도가 도시된다. 도 7에 도시된 바와 같이, 멀티프로세서 시스템(700)은 점대점(point-to-point) 인터커넥트 시스템이고, 점대점 인터커넥트(750)를 통해 연결된 제1 프로세서(770) 및 제2 프로세서(780)를 포함한다. 2개의 프로세서(770, 780)만을 갖는 것으로 도시되어 있지만, 개시 내용의 실시예의 범위는 그렇게 제한되지는 않는다는 것이 이해되어야 한다. 다른 실시예들에서, 하나 이상의 부가적인 프로세서들이 주어진 프로세서 내에 존재할 수 있다. 일 실시예에서, 멀티프로세서 시스템(700)은 본 명세서에서 설명된 하이브리드 코어를 구현시킬 수 있다.

프로세서들(770 및 780)은 각각, 통합 메모리 제어기 유닛들(772 및 782)을 포함하는 것으로 도시되어 있다. 또한, 프로세서(770)는 그것의 버스 제어기 유닛들의 일부로서 점대점(P-P) 인터페이스들(776 및 778)을 포함하고; 유사하게, 제2 프로세서(780)는 P-P 인터페이스들(786 및 788)을 포함한다. 프로세서들(770, 780)은 P-P 인터페이스 회로들(778, 788)을 이용하여 점대점(P-P) 인터페이스(750)를 통해 정보를 교환할 수 있다. 도 7에 도시된 바와 같이, IMC들(772 및 782)은 프로세서들을 각각의 메모리들, 즉 각각의 프로세서들에 로컬로 부착된 메인 메모리의 부분들일 수 있는 메모리(732) 및 메모리(734)에 연결한다.

프로세서들(770, 780)은 각각 점대점 인터페이스 회로들(776, 794, 786, 798)을 이용하여 개별 P-P 인터페이스들(752, 754)을 통해 칩셋(790)과 정보를 교환할 수 있다. 또한, 칩셋(790)은 고성능 그래픽스 인터페이스(739)를 통해 고성능 그래픽스 회로(738)와 정보를 교환할 수 있다.

공유된 캐시(도시되지 않음)는 어느 한 프로세서에 포함되거나 양자 모두의 프로세서의 외부이지만, 여전히 P-P 인터커넥트를 통해 프로세서들과 접속될 수 있어서, 프로세서가 저 전력 모드에 놓이는 경우 어느 한쪽 또는 양자 모두의 프로세서의 로컬 캐시 정보가 공유된 캐시에 저장될 수 있다.

칩셋(790)은 인터페이스(796)를 통해 제1 버스(716)에 연결될 수 있다. 일 실시예에서, 제1 버스(716)는 PCI(peripheral component interconnect) 버스, 또는 PCI 익스프레스 버스 또는 또 다른 3세대 I/O 인터커넥트 버스와 같은 버스일 수 있지만, 본 발명의 범위는 이것에만 한정되지는 않는다.

도 7에 도시된 바와 같이, 제1 버스(716)를 제2 버스(720)에 연결하는 버스 브리지(718)와 함께, 다양한 I/O 디바이스들(714)이 제1 버스(716)에 연결될 수 있다. 일 실시예에서, 제2 버스(720)는 LPC(low pin count) 버스일 수 있다. 일 실시예에서, 예를 들어, 키보드 및/또는 마우스(722), 통신 디바이스들(727) 및 명령어들/코드 및 데이터(730)를 포함할 수 있는 디스크 드라이브 또는 다른 대용량 스토리지 디바이스와 같은 스토리지 유닛(728)을 포함하는 다양한 디바이스들이 제2 버스(720)에 연결될 수 있다. 또한, 오디오 I/O(724)는 제2 버스(720)에 연결될 수 있다. 다른 아키텍처가 가능하다는 점에 유의한다. 예를 들어, 도 7의 점대점 아키텍처 대신에, 시스템은 멀티-드롭 버스 또는 다른 그러한 아키텍처를 구현할 수 있다.

이제 도 8을 참조하면, 개시 내용의 일 실시예가 작동할 수 있는 시스템(800)의 블록도가 도시된다. 시스템(800)은 그래픽 메모리 제어기 허브(GMCH: graphics memory controller hub)(820)에 연결된 하나 이상의 프로세서(810, 815)를 포함할 수 있다. 부가적인 프로세서들(815)의 선택적 특성은 도 8에서 점선으로 표시된다. 일 실시예에서, 프로세서(810, 815)는 개시 내용의 실시예에 따른 하이브리드 코어를 구현시킨다.

각각의 프로세서(810, 815)는 상술한 바와 같이 회로, 집적 회로, 프로세서, 및/또는 실리콘 집적 회로의 일부 버전일 수 있다. 그러나, 통합 그래픽 로직 및 통합 메모리 제어 유닛들이 프로세서들(810, 815) 내에 존재할 가능성이 낮다는 것에 유의해야 한다. 도 8은 GMCH(820)가 예를 들어, 동적 랜덤 액세스 메모리(DRAM)일 수 있는 메모리(840)에 연결될 수 있음을 도시한다. DRAM은, 적어도 일 실시예에서, 비휘발성 캐시와 연관될 수 있다.

GMCH(820)는 칩셋, 또는 칩셋의 일부일 수 있다. GMCH(820)는 프로세서(들)(810, 815)와 통신하고, 프로세서(들)(810, 815)와 메모리(840) 사이의 상호작용을 제어할 수 있다. GMCH(820)는 시스템(800)의 프로세서(들)(810, 815)와 다른 요소들 간의 가속 버스 인터페이스로서도 동작할 수 있다. 적어도 일 실시예에서, GMCH(820)는 프론트사이드 버스(FSB)(895)와 같은, 멀티-드롭 버스를 통해 프로세서(들)(810, 815)와 통신한다.

더욱이, GMCH(820)는 (평판 패널 또는 터치스크린 디스플레이와 같은) 디스플레이(845)에 연결된다. GMCH(820)는 통합 그래픽 가속기를 포함할 수 있다. GMCH(820)는 다양한 주변 장치들을 시스템(800)에 연결하는 데 사용될 수 있는 입출력(I/O) 제어기 허브(ICH)(850)에 더 연결된다. 예를 들어, 도 8의 실시예에서 도시된 것은, 다른 주변 장치(870)와 함께, ICH(850)에 연결된 별도의 그래픽 디바이스일 수 있는 외부 그래픽 디바이스(860)이다.

대안적으로, 부가적인 또는 상이한 프로세서들도 또한 시스템(800) 내에 존재할 수 있다. 예를 들어, 부가적인 프로세서(들)(815)는 프로세서(810)와 동일한 부가적인 프로세서(들), 프로세서(810)에 대해 이종 또는 비대칭인 부가적인 프로세서(들), 가속기들(예를 들어, 그래픽 가속기들 또는 디지털 신호 처리(DSP) 유닛들과 같은), 필드 프로그래머블 게이트 어레이들, 또는 임의의 다른 프로세서를 포함할 수 있다. 아키텍처, 마이크로-아키텍처, 열, 전력 소비 특성, 및 그와 유사한 것을 포함하는 장점의 범위를 놓고 볼 때, 프로세서들(810, 815) 사이에는 다양한 차이들이 존재할 수 있다. 이러한 차이점들은 프로세서들(810, 815) 사이의 비대칭성 및 이질성으로서 효과적으로 나타날 수 있다. 적어도 하나의 실시예에 있어서, 다양한 프로세서들(810, 815)은 동일한 다이 패키지 내에 상주할 수 있다.

이제, 도 9를 참조하면, 개시 내용의 일 실시예가 작동할 수 있는 시스템(900)의 블록도가 도시된다. 도 9는 프로세서들(970, 980)을 설명한다. 일 실시예에서, 프로세서들(970, 980)은 상술한 바와 같은 하이브리드 코어를 구현시킬 수 있다. 프로세서들(970, 980)은 통합 메모리와 I/O 제어 로직("CL")(972 및 982)를 각각 포함할 수 있고, 점대점(P-P) 인터페이스(978 및 988)사이의 점대점 인터커넥트(950)를 통해 각자 서로 상호 통신한다. 프로세서들(970, 980) 각각은 도시된 바와 같이 각각의 P-P 인터페이스들(976 내지 994 및 986 내지 998)을 통해 점대점 인터커넥트(952 및 954)를 통해 칩셋(990)과 통신한다. 적어도 하나의 실시예에 있어서, CL(972, 982)은 통합 메모리 제어기 유닛을 포함할 수 있다. CL들(972, 982)은 I/O 제어 로직을 포함할 수 있다. 도시된 바와 같이, 메모리들(932, 934)은 CL들(972, 982)에 연결되어 있고 I/O 디바이스들(914)은 또한 제어 로직(972, 982)에 연결되어 있다. 레거시 I/O 디바이스들(915)은 인터페이스(996)를 통해 칩셋(990)에 연결되어 있다.

실시예들은 많은 상이한 시스템 타입들로 구현될 수 있다. 도 10은 본 개시 내용의 실시예에 따른 SoC(1000)의 블록도이다. 점선 박스들은 더 진보된 SoC들 상의 선택적 특징들이다. 도 10에서, 인터커넥트 유닛(들)(1012)은 다음에 연결된다: 하나 이상의 코어(1002A-N)들의 세트 및 공유 캐시 유닛(들)(1006)을 포함하는 애플리케이션 프로세서(1020); 시스템 에이전트 유닛(1010); 버스 제어기 유닛(들)(1016); 통합 메모리 제어기 유닛(들)(1014); 통합 그래픽 로직(1008), 정지 및/또는 비디오 카메라 기능을 제공하기 위한 이미지 프로세서(1024), 하드웨어 오디오 가속을 제공하기 위한 오디오 프로세서(1026), 및 비디오 인코드/디코드 가속을 제공하기 위한 비디오 프로세서(1028)를 포함할 수 있는 한 세트 또는 하나 이상의 미디어 프로세서(1018); 정적 랜덤 액세스 메모리(SRAM) 유닛(1030); 직접 메모리 액세스(DMA) 유닛(1032); 및 하나 이상의 외부 디스플레이에 연결하기 위한 디스플레이 유닛(1040). 일 실시예에서, 메모리 모듈은 통합 메모리 제어기 유닛(들)(1014)에 포함될 수 있다. 또 다른 실시예에서, 메모리 모듈은 메모리를 액세스 및/또는 제어하는데 사용될 수 있는 SoC(1000)의 하나 이상의 다른 구성요소에 포함될 수 있다. 애플리케이션 프로세서(1020)는 본 명세서의 실시예에서 설명된 바와 같은 하이브리드 코어를 구현시키기 위한 스토어 어드레스 예측기를 포함할 수 있다.

메모리 계층구조는 코어들 내의 하나 이상의 레벨들의 캐시, 한 세트 또는 하나 이상의 공유 캐시 유닛들(1006), 및 통합 메모리 제어기 유닛들(1014)의 세트에 연결된 외부 메모리(도시되지 않음)를 포함한다. 공유 캐시 유닛들(1006)의 세트는, 레벨 2(L2), 레벨 3(L3), 레벨 4(L4), 또는 다른 레벨들의 캐시와 같은 하나 이상의 중간 레벨 캐시, 최종 레벨 캐시(LLC: last level cache), 및/또는 이들의 조합을 포함할 수 있다.

일부 실시예들에서, 코어들(1002A-N) 중 하나 이상은 멀티-스레딩이 가능하다. 시스템 에이전트(1010)는 코어들(1002A-N)을 조정 및 조작하는 구성요소들을 포함한다. 시스템 에이전트 유닛(1010)은 예를 들어, PCU(Power Control Unit) 및 디스플레이 유닛을 포함할 수 있다. PCU는 코어들(1002A-N) 및 통합 그래픽 로직(1008)의 전력 상태를 조절하는 데 필요한 로직 및 구성요소들이거나 이들을 포함할 수 있다. 디스플레이 유닛은 하나 이상의 외부 접속되는 디스플레이들을 구동하기 위한 것이다.

코어들(1002A-N)은 아키텍처 및/또는 명령어 세트 측면에서 동종이거나 이종일 수 있다. 예를 들어, 코어들(1002A-N)의 일부는 순차적일 수 있고 반면에 다른 것은 비순차적일 수 있다. 다른 예로서, 코어들(1002A-N) 중 2개 이상은 동일한 명령어 세트를 실행할 수 있는 한편, 다른 것들은 그 명령어 세트의 서브세트 또는 다른 명령어 세트만을 실행할 수 있다.

애플리케이션 프로세서(1020)는, 캘리포니아주 산타 클라라 소재의 Intel™ Corporation사로부터 입수 가능한, Core™ i3, i5, i7, 2 Duo 및 Quad, Xeon™, Itanium™, Atom™ 또는 Quark™ 프로세서와 같은 범용 프로세서일 수 있다. 대안적으로, 애플리케이션 프로세서(1020)는, ARM Holdings™, Ltd, MIPS™, 등과 같은 다른 회사로부터 얻을 수 있다. 애플리케이션 프로세서(1020)는 예를 들어, 네트워크 또는 통신 프로세서, 압축 엔진, 그래픽 프로세서, 코-프로세서, 임베디드 프로세서, 등과 같은 전용 프로세서일 수 있다. 애플리케이션 프로세서(1020)는 하나 이상의 칩 상에 구현될 수 있다. 애플리케이션 프로세서(1020)는, 예를 들어, BiCMOS, CMOS, 또는 NMOS와 같은, 다수의 프로세스 기술 중 임의의 기술을 이용하여 하나 이상의 기판의 일부이거나 및/또는 하나 이상의 기판 상에 구현될 수 있다.

도 11은 본 개시 내용에 따른 시스템-온-칩(SoC) 설계의 실시예의 블록도이다. 특정한 예시적인 예로서, SoC(1100)는 사용자 장비(UE)에 포함되어 있다. 일 실시예에서, UE는 핸드헬드 전화, 스마트폰, 태블릿, 초박형 노트북, 광대역 어댑터를 가진 노트북, 또는 임의의 다른 유사한 통신 디바이스와 같이, 최종 사용자가 통신에 사용하는 임의의 디바이스를 지칭한다. 종종, UE는 사실상 GSM 네트워크 내의 이동국(MS)에 잠재적으로 대응하는 기지국 또는 노드에 접속한다.

여기에서, SOC(1100)는 2개의 코어 - 1106 및 1107을 포함한다. 코어(1106 및 1107)들은 Intel® Architecture Core™ 기반 프로세서, Advanced Micro Devices, Inc.(AMD) 프로세서, MIPS-기반 프로세서, ARM-기반 프로세서 설계와 같은 명령어 세트 구조, 또는 그의 고객은 물론이고, 이들의 라이센스 소지자 또는 채택자에 부응할 수 있다. 코어(1106 및 1107)들은 시스템(1100)의 다른 부분들과 통신하기 위해 버스 인터페이스 유닛(1109) 및 L2 캐시(1110)와 연관되어 있는 캐시 제어(1108)에 연결되어 있다. 인터커넥트(1110)는 설명된 개시 내용의 하나 이상의 양태를 잠재적으로 구현하는, IOSF, AMBA, 또는 위에 논의된 다른 인터커넥트와 같은 온-칩 인터커넥트를 포함한다. 일 실시예에서, 코어(1106, 1107)들은 본 명세서의 실시예에서 설명된 바와 같이 하이브리드 코어를 구현시킬 수 있다.

인터커넥트(1110)는, SIM 카드와 인터페이스하는 SIM(Subscriber Identity Module)(1130), SoC(1100)를 초기화하고 부팅하기 위해 코어들(1106 및 1107)에 의해 실행하기 위한 부트 코드를 보유하는 부트 ROM(1135), 외부 메모리(예컨대, DRAM(1160))와 인터페이스하는 SDRAM 제어기(1140), 비휘발성 메모리(예컨대, 플래시(1165))와 인터페이스하는 플래시 제어기(1145), 주변 디바이스들과 인터페이스하는 주변 제어(1150)(예컨대, 직렬 주변 인터페이스(Peripheral Interface)), 입력(예컨대, 터치 기반 입력(touch enabled input))을 디스플레이하고 수신하는 비디오 코덱들(1120)과 비디오 인터페이스(1125), 그래픽 관련 계산들을 수행하는 GPU(1115), 등과 같은 다른 구성요소들에 통신 채널들을 제공한다. 이들 인터페이스들 중 임의의 인터페이스는 본 명세서에서 설명된 개시 내용의 양태들을 포함할 수 있다. 게다가, 시스템(1100)은 블루투스 모듈(1170), 3G 모뎀(1175), GPS(1180), 및 Wi-Fi(1185)와 같은 통신용 주변 기기를 예시하고 있다.

도 12는 여기서 논의되는 방법론들 중 임의의 하나 이상을 머신이 실행하게 하는 명령어 세트가 실행될 수 있는 컴퓨터 시스템(1200)의 예시적인 형태의 머신의 도식적 표현을 도시하고 있다. 대안 실시예들에서, 머신은 LAN, 인트라넷, 엑스트라넷, 또는 인터넷 내에서 다른 머신들에 접속(예로서, 네트워킹)될 수 있다. 머신은 클라이언트-서버 네트워크 환경에서 서버 또는 클라이언트 디바이스의 용량 내에서, 또는 피어 대 피어(또는 분산) 네트워크 환경에서 피어 머신으로서 동작할 수 있다. 머신은 개인용 컴퓨터(PC), 태블릿 PC, 셋톱 박스(STB), 개인용 휴대 단말기(PDA), 셀룰러 전화, 웹 기기, 서버, 네트워크 라우터, 스위치 또는 브리지, 또는 그 머신에 의해 취해질 액션들을 지정하는 (순차적인 또는 다른) 명령어들의 세트를 실행할 수 있는 임의의 머신일 수 있다. 또한, 단일 머신만이 도시되지만, 용어 "머신"은 본 명세서에서 논의된 방법론들 중 임의의 하나 이상을 수행하기 위해 명령어들의 세트(또는 다수의 세트)를 개별적으로 또는 공동으로 실행하는 머신들의 임의의 집합을 포함하는 것으로도 되어 있다.

컴퓨터 시스템(1200)은 프로세싱 디바이스(1202), 메인 메모리(1204)(예를 들면, 판독 전용 메모리(ROM)), 플래시 메모리, 동적 랜덤 액세스 메모리(DRAM)(예를 들면, 동기식 DRAM(SDRAM) 또는 램버스 DRAM(RDRAM), 등), 정적 메모리(1206)(예를 들면, 플래시 메모리, 정적 랜덤 액세스 메모리(SRAM), 등), 및 데이터 저장 디바이스(1218)를 포함할 수 있으며, 이들은 서로 버스(1230)를 통해서 통신한다.

프로세싱 디바이스(1202)는 마이크로프로세서, 중앙 처리 유닛 등과 같은 하나 이상의 범용 프로세싱 디바이스들을 나타낸다. 더 구체적으로, 프로세싱 디바이스는 복합 명령어 세트 컴퓨팅(CISC) 마이크로프로세서, 축소 명령어 세트 컴퓨터(RISC) 마이크로프로세서, 매우 긴 명령어 워드(VLIW) 마이크로프로세서, 또는 다른 명령어 세트들을 구현하는 프로세서, 또는 명령어 세트들의 조합을 구현하는 프로세서들일 수 있다. 프로세싱 디바이스(1202)는 또한 주문형 집적 회로 (ASIC), 필드 프로그래머블 게이트 어레이(FPGA), 디지털 신호 프로세서(DSP), 네트워크 프로세서, 등과 같은 하나 이상의 전용 프로세싱 디바이스일 수 있다. 일 실시예에서, 프로세싱 디바이스(1202)는 하나 이상의 프로세싱 코어를 포함할 수 있다. 프로세싱 디바이스(1202)는 본 명세서에서 논의된 동작과 단계를 수행하기 위해 프로세싱 로직(1226)을 실행하도록 구성된다. 일 실시예에서, 프로세싱 디바이스(1202)는 개시 내용의 실시예로 본 명세서에서 설명된 바와 같은 하이브리드 코어를 구현시킨 도 1에 관하여 설명된 프로세서 아키텍처(100)와 동일하다.

컴퓨터 시스템(1200)은 네트워크(1220)에 통신 가능하게 연결된 네트워크 인터페이스 디바이스(1208)를 더 포함할 수 있다. 컴퓨터 시스템(1200)은 또한 비디오 디스플레이 유닛(1210)(예를 들면, 액정 표시 장치(LCD) 또는 음극선관(CRT)), 문자 숫자 입력 디바이스(1212)(예를 들면, 키보드), 커서 제어 디바이스(1214)(예를 들면, 마우스), 및 신호 생성 디바이스(1216)(예를 들면, 스피커)를 포함할 수 있다. 더욱이, 컴퓨터 시스템(1200)은 그래픽 처리 유닛(1222), 비디오 처리 유닛(1228), 및 오디오 처리 유닛(1232)을 포함할 수 있다.

데이터 저장 디바이스(1218)는 본 명세서에서 설명되는 기능들의 방법들 중 임의의 하나 이상을 구현하는, 예를 들어 전술한 바와 같은 메모리 명확화에 대한 스토어 어드레스 예측을 구현하는 소프트웨어(1226)가 저장되어 있는 머신-액세스가능 저장 매체(1224)를 포함할 수 있다. 소프트웨어(1226)는 또한 컴퓨터 시스템(1200)에 의한 그것의 실행 동안 명령어(1226)로서 메인 메모리(1204) 내에 및/또는 프로세싱 로직(1226)으로서 프로세싱 디바이스(1202) 내에 완전히 또는 최소한 부분적으로 상주할 수 있으며; 메인 메모리(1204) 및 프로세싱 디바이스(1202)는 또한 머신-액세스가능한 기억 매체를 구성한다.

머신-판독가능 저장 매체(1224)는 또한 개시 내용의 실시예에 따라 설명된 것과 같은 하이브리드 코어를 위한 스토어 어드레스 예측을 구현하는 명령어(1226)를 저장하는데 사용될 수 있다. 머신-액세스가능 저장 매체(1128)는 예시적인 실시예에서 단일 매체인 것으로 도시되지만, 용어 "머신-액세스가능 저장 매체"는 명령어들의 하나 이상의 세트를 저장하는 단일 매체 또는 다수의 매체(예로서, 중앙 또는 분산 데이터베이스 및/또는 관련 캐시들 및 서버들)를 포함하는 것으로 되어야 한다. 용어 "머신-판독가능 저장 매체"는 또한, 머신에 의한 실행을 위한 명령어들의 세트를 저장, 인코딩 또는 이송할 수 있고, 본 개시 내용의 방법론들 중 임의의 하나 이상을 머신이 실행하게 해주는 임의의 매체를 포함하는 것으로 되어야 한다. 따라서, 용어 "머신-액세스가능 저장 매체"는 고체 메모리들, 및 광학 및 자기 매체들을 포함하지만, 이에 한정되지 않는 것으로 되어야 한다.

하기 예들은 추가의 실시예들에 관련된다. 예 1은 제1 명령어 세트 아키텍처(ISA)에 따라 설계된 제1 코어를 포함한 제1 프로세서 모듈, 및 제2 ISA에 따라 설계된 제2 코어를 포함한 제2 프로세서 모듈을 포함할 수 있으며, 제2 프로세서 모듈은 제1 프로세서 모듈과 동일한 다이 상에 제조되는 프로세싱 디바이스이다.

예 2에서, 예 1의 주제는 제1 및 제2 프로세서 모듈에 통신 가능하게 연결된 버스를 포함한 시스템 에이전트(SA)를 선택적으로 포함할 수 있다.

예 3에서, 예 2의 주제는 버스가 제1 코어로 및 이로부터 메시지를 본래 전송하도록 설계된다는 것을 선택적으로 규정할 수 있다.

예 4에서, 예 2와 3 중 임의의 하나의 주제는 제2 프로세서 모듈이 제2 코어와 버스 사이에 전송된 메시지를 변환하기 위한 버스 브리지를 포함한다는 것을 선택적으로 규정할 수 있다.

예 5에서, 예 2와 3 중 임의의 하나의 주제는 SA가 컨버터를 더 포함하고 이를 통해 SA가 복수의 주변 디바이스에 연결되는 것을 선택적으로 규정할 수 있다.

예 6에서, 예 1-3 중 임의의 하나의 주제는 프로세싱 디바이스가 동일한 다이 상에 제조된 시스템-온-칩(SoC) 디바이스라는 것을 선택적으로 규정할 수 있다.

예 7에서, 예 1-3 중 임의의 하나의 주제는 프로세싱 디바이스가, 2개 이상의 운영체계로 포팅되는(ported) 컴퓨팅 디바이스의 부분이라는 것을 선택적으로 규정할 수 있다.

예 8에서, 예 1-3 중 임의의 하나의 주제는 제1 운영체계가, 활성화될 때, 제1 프로세서 모듈 상에서 구동하고, 제2 운영체계가, 활성화될 때, 제2 프로세서 모듈 상에서 구동한다는 것을 선택적으로 규정할 수 있다.

예 9에서, 예 8의 주제는 프로세싱 디바이스가 중앙 컴퓨팅 유닛(CPU)과 이중 운영체계로 포팅되는 컴퓨팅 디바이스의 부분이라는 것을 선택적으로 규정할 수 있다.

예 10에서, 예 1-3 중 임의의 하나의 주제는 제1 및 제2 ISA와는 다른 제3 명령어 세트(ISA)에 따라 설계된 제3 코어를 포함한 제3 프로세서 모듈을 선택적으로 더 포함할 수 있다.

예 11에서, 예 1-3 중 임의의 하나의 주제는 제3 프로세서 모듈이 제1, 제2, 및 제3 코어 간에 전송된 메시지를 변환하기 위한 제3 버스 브리지를 포함한다는 것을 선택적으로 규정할 수 있다.

예 12는 제1 명령어 세트 아키텍처(ISA)에 따라 설계된 제1 코어, 및 제2 ISA에 따라 설계된 제2 코어를 포함할 수 있는 프로세서이고, 여기서 프로세서는 단일 다이 상에 제조된 시스템-온-칩(SoC) 디바이스이다.

예 13에서, 예 13의 주제는 제1 및 제2 코어에 통신 가능하게 연결된 버스를 포함한 시스템 에이전트(SA)를 선택적으로 더 포함할 수 있고, 여기서 버스는 제1 코어로 및 이로부터 메시지를 본래 전송하도록 설계된다.

예 14에서, 예 12와 13 중 임의의 하나의 주제는 제2 코어와 버스 사이에 연결된 버스 브리지를 선택적으로 더 포함할 수 있고, 여기서 버스 브리지는 제2 코어와 버스 사이에 전송된 메시지를 변환한다.

예 15에서, 예 12-14 중 임의의 하나의 주제는 SA가 컨버터를 더 포함하고 이를 통하여 SA가 복수의 주변 디바이스에 연결되는 것을 선택적으로 규정할 수 있다.

예 16에서, 예 12-14 중 임의의 하나의 주제는 제1 운영체계가, 활성화될 때, 제1 프로세서 모듈 상에서 구동하고, 제2 운영체계가, 활성화될 때, 제2 프로세서 모듈 상에서 구동한다는 것을 선택적으로 규정할 수 있다.

예 17에서, 예 17의 주제는 프로세싱 디바이스가 중앙 컴퓨팅 유닛(CPU)과 이중 운영체계로 포팅되는 컴퓨팅 디바이스의 부분이라는 것을 선택적으로 규정할 수 있다.

예 18에서, 예 12-14 중 임의의 하나의 주제는 제1 및 제2 ISA와는 다른 제3 명령어 세트(ISA)에 따라 설계된 제3 코어를 더 포함할 수 있다.

예 19에서, 예 12-14 중 임의의 하나의 주제는 제3 코어가 제1, 제2, 및 제3 코어 간에 전송된 메시지를 변환하기 위한 제3 버스 브리지를 포함한다는 것을 선택적으로 규정할 수 있다.

예 20은, 중앙 처리 유닛(CPU) 상의 전경에서 실행하는 제1 운영체계(OS)로부터 CPU 상의 배경에서 실행하는 제2 OS로의 스위칭 요구에 응답하여, CPU의 제1 코어에 의해, 제1 OS와 배타적으로 연관된 제1 세트의 디바이스들을 결정하는 단계 - 상기 제1 코어는 명령어 세트 아키텍처(ISA)의 제1 타입에 따라 설계되고, 제1 세트의 디바이스들은 제1 OS에 대해 배타적임 -, 상기 제1 세트의 디바이스들을 중지하는 단계, 상기 제1 및 제2 OS들에 배타적이지 않은 제2 세트의 디바이스들을 결정하는 단계, 상기 제2 OS에 대해 제2 세트의 디바이스들을 재구성하는 단계, 및 상기 제2 OS를 전경으로 스위칭하고 상기 제1 OS를 배경으로 스위칭하는 단계를 포함할 수 있으며, 여기서 상기 스위칭 단계는 ISA의 제2 타입에 따라 설계된 CPU의 제2 코어를 활성화하고, 제1 코어를 유휴 상태로 하는 단계를 포함하는 방법이다.

예 21에서, 예 21의 주제는 제2 OS에 배타적인 제3 세트의 디바이스들을 결정하고, 제3 세트의 디바이스들을 인에이블시키는 것을 선택적으로 포함할 수 있다.

예 22는 중앙 컴퓨팅 유닛(CPU) 상에서 실행되는 것에 응답하여, 상기 CPU가 방법을 수행하게 하는 복수의 명령을 포함하는 비-일시적 컴퓨터 판독가능 매체이고, 상기 방법은 중앙 처리 유닛 (CPU) 상의 전경에서 실행하는 제1 운영 체제(OS)로부터 CPU 상의 배경에서 실행하는 제2 OS로의 스위칭 요구에 응답하여, CPU의 제 1 코어에 의해, 제1 OS와 배타적으로 연관된 제1 세트의 디바이스들을 결정하는 단계 - 상기 제1 코어는 명령어 세트 아키텍처(ISA)의 제1 타입에 따라 설계되고, 제1 세트의 디바이스들은 제1 OS에 대해 배타적임 -, 상기 제1 세트의 디바이스들을 중지하는 단계, 상기 제1 및 제2 OS들에 배타적이지 않은 제2 세트의 디바이스들을 결정하는 단계, 상기 제2 OS에 대해 제2 세트의 디바이스들을 재구성하는 단계, 및 상기 제2 OS를 전경으로 스위칭하고 상기 제1 OS를 배경으로 스위칭하는 단계를 포함하며, 여기서 상기 스위칭 단계는 ISA의 제2 타입에 따라 설계된 CPU의 제2 코어를 활성화하고, 제1 코어를 유휴 상태로 하는 단계를 포함한다.

예 23에서, 예 22의 주제는 제2 OS에 배타적인 제3 세트의 디바이스들을 결정하고, 상기 제3 세트의 디바이스들을 인에이블시키는 것을 선택적으로 더 포함할 수 있다.

예 24는, 중앙 처리 유닛(CPU) 상의 전경에서 실행하는 제1 운영 체제(OS)로부터 CPU 상의 배경에서 실행하는 제2 OS로의 스위칭 요구에 응답하여, 제1 OS와 배타적으로 연관된 제1 세트의 디바이스들을 결정하기 위한 수단 - 상기 제1 코어는 명령어 세트 아키텍처(ISA)의 제1 타입에 따라 설계됨 -, 제1 세트의 디바이스들을 중지하기 위한 수단, 제1 및 제2 OS들에 배타적이지 않은 제2 세트의 디바이스들을 결정하기 위한 수단, 제2 OS에 대해 제2 세트의 디바이스들을 구성하기 위한 수단, 및 제2 OS를 전경으로 스위칭하고 제1 OS를 배경으로 스위칭하기 위한 수단을 포함할 수 있는 장치이고, 여기에서 스위칭 수단은 ISA의 제2 타입에 따라 설계된 CPU의 제2 코어를 활성화하고, 제1 코어를 유휴 상태로 하는 수단을 포함한다.

예 25에서, 예 24의 주제는 제2 OS에 배타적인 제3 세트의 디바이스들을 결정하기 위한 수단, 및 상기 제3 세트의 디바이스들을 인에이블시키기 위한 수단을 선택적으로 더 포함할 수 있다.

본 개시 내용은 제한된 수의 실시예들과 관련하여 설명되었지만, 본 분야의 기술자들은 그로부터의 다수의 변경들 및 변형들을 이해할 것이다. 첨부된 청구항들은 본 개시 내용의 진정한 사상 및 범위 내에 속하는 바와 같은 그러한 모든 변경들 및 변형들을 커버하는 것이 의도된다.

설계는 작성으로부터 시뮬레이션을 거쳐 제조에 이르기까지 상이한 단계들을 거칠 수 있다. 설계를 나타내는 데이터는 다수의 방식으로 설계를 나타낼 수 있다. 먼저, 시뮬레이션들에서 유용한 바와 같이, 하드웨어는 하드웨어 기술 언어(hardware description language) 또는 또 다른 기능적 기술 언어를 사용하여 나타내어질 수 있다. 또한, 로직 및/또는 트랜지스터 게이트들을 갖는 회로 레벨 모델이 설계 프로세스의 일부 단계들에서 생성될 수 있다. 더욱이, 대부분의 설계들은, 일부 단계에서, 하드웨어 모델의 다양한 디바이스들의 물리적 배치를 표현하는 데이터의 레벨에 도달한다. 종래의 반도체 제조 기법들이 이용되는 경우, 하드웨어 모델을 표현하는 데이터는 집적 회로를 생성하는데 사용되는 마스크들에 대한 상이한 마스크 층들 상의 다양한 특징들의 유무를 명시하는 데이터일 수 있다. 설계의 임의의 표현에서, 데이터는 임의의 형태의 머신 판독가능한 매체에 저장될 수 있다. 메모리, 또는 디스크와 같은 자기 또는 광학 스토리지는, 정보를 전송하기 위해 변조되거나 다른 방식으로 발생하는 광학 또는 전기적 파동을 통해 전송되는 그러한 정보를 저장하는 머신 판독가능 매체일 수 있다. 코드 또는 설계를 나타내거나 전달하는 전기 반송파가 전송될 때, 전기 신호의 복사, 버퍼링 또는 재전송이 수행되는 한, 새로운 사본이 만들어진다. 따라서, 통신 제공자 또는 네트워크 제공자는 본 개시 내용의 실시예들의 기술들을 구체화하는, 반송파로 인코딩된 정보와 같은 항목(article)을, 적어도 일시적으로, 유형의 머신 판독가능 매체 상에 저장할 수 있다.

본 명세서에 사용된 모듈은 하드웨어, 소프트웨어 및/또는 펌웨어의 임의의 조합을 지칭한다. 예로서, 모듈은 마이크로-컨트롤러에 의해 실행되도록 적응된 코드를 저장하는 비일시적인 매체와 연관된 마이크로-컨트롤러와 같은 하드웨어를 포함한다. 따라서, 일 실시예에서, 모듈에 대한 참조는 비-일시적인 매체 상에 유지될 코드를 인식 및/또는 실행하도록 특별히 구성되는 하드웨어를 지칭한다. 게다가, 또 다른 실시예에서, 모듈의 사용은 미리 결정된 동작들을 수행하기 위해 마이크로컨트롤러에 의해 실행되도록 특별히 적응되는 코드를 포함하는 비-일시적인 매체를 지칭한다. 그리고, 추정될 수 있는 바와 같이, 또 다른 실시예에서, (이 예에서) 모듈이라는 용어는 마이크로컨트롤러와 비-일시적 매체의 조합을 지칭할 수 있다. 별개의 것으로 도시되는 모듈 경계들은 종종 공통적으로 변하고 잠재적으로 겹친다. 예를 들어, 제1 및 제2 모듈은, 일부의 독립적인 하드웨어, 소프트웨어, 또는 펌웨어를 잠재적으로 보유하면서, 하드웨어, 소프트웨어, 펌웨어, 또는 그 조합을 공유할 수 있다. 일 실시예에서, 로직이라는 용어의 사용은 트랜지스터, 레지스터와 같은 하드웨어, 또는 프로그램가능한 로직 디바이스와 같은 그 외의 하드웨어를 포함한다.

일 실시예에서, '~하도록 구성된(configured to)'이라는 문구의 사용은, 지정되거나 결정된 작업을 수행하기 위해 장치, 하드웨어, 로직, 또는 요소를 배열하는 것(arranging), 조립하는 것(putting together), 제조하는 것(manufacturing), 판매 제안하는 것(offering to sell), 수입(importing), 및/또는 설계하는 것을 지칭한다. 이 예에서, 동작하고 있지 않은 장치 또는 그의 요소는 여전히, 지정된 작업을 수행하도록 설계되고 연결되고, 및/또는 상호 접속되는 경우에는 상기 지정된 작업을 수행"하도록 구성"된다. 전적으로 예시적인 예로서, 로직 게이트는 동작 동안 0 또는 1를 제공할 수 있다. 그러나, 클럭에 인에이블 신호를 제공"하도록 구성되는" 로직 게이트는 1 또는 0을 제공할 수 있는 모든 잠재적인 로직 게이트를 포함하지는 않는다. 그 대신에, 로직 게이트는, 동작 동안 1 또는 0 출력이 클럭을 인에이블시키는 일부 방식으로 연결된 것이다. "~하도록 구성되는"이라는 용어의 사용은 동작을 필요로 하지 않는 대신에, 장치, 하드웨어, 및/또는 요소의 잠재적인 상태에 집중한다는 점에 다시 한 번 유의하고, 여기서 잠재적인 상태에서 장치, 하드웨어, 및/또는 요소는 장치, 하드웨어, 및/또는 요소가 동작할 때 특정 작업을 수행하도록 설계된다.

더구나, 일 실시예에서, '~로(to)', '~하도록/를 할 수 있는(capable of/to)', 및/또는 '~하도록 동작가능한(operable to)'이라는 문구의 사용은 특정한 방식으로 장치, 로직, 하드웨어, 및/또는 요소의 사용을 인에이블시키는 그러한 방식으로 설계된 일부 장치, 로직, 하드웨어, 및/또는 요소를 지칭한다. 위와 같이 유의할 점은, 일 실시예에서, '~로', '~하도록 할 수 있는' 또는 '~로 동작 가능한'의 사용은 장치, 로직, 하드웨어, 및/또는 요소의 잠재 상태를 지칭하며, 여기서 장치, 로직 하드웨어, 및/또는 요소는 동작 중이지는 않지만, 특정 방식으로 장치의 사용을 인에이블시키는 그러한 방식으로 설계되어 있다는 것이다.

본 명세서에서 사용된 값은, 숫자, 상태, 로직 상태, 또는 이진 로직 상태의 임의의 공지된 표현을 포함한다. 종종, 로직 레벨(logic level), 로직 값(logic value), 또는 로직적 값(logical value)의 사용은 단순히 이진 로직 상태를 나타내는 1 및 0이라고도 지칭된다. 예를 들어, 1은 높은 로직 레벨을 지칭하고 0은 낮은 로직 레벨을 지칭한다. 일 실시예에서, 트랜지스터 또는 플래시 셀과 같은 저장 셀은 단일 로직 값 또는 다중 로직 값을 보유할 수 있다. 그러나, 컴퓨터 시스템에서의 값들에 대한 그 외의 표현들이 사용되어 왔다. 예를 들어, 십진법 수 10은 이진 값의 910 및 16진법의 문자 A로서 표현될 수도 있다. 따라서, 값은 컴퓨터 시스템 내에 보유될 수 있는 정보의 임의의 표현을 포함한다.

게다가, 상태들은 값들 또는 값들의 부분에 의해 표현될 수 있다. 일례로서, 로직 1과 같은 제1 값은 디폴트 또는 초기 상태를 나타낼 수 있고, 로직 0과 같은 제2 값은 디폴트가 아닌 상태를 나타낼 수 있다. 또한, 일 실시예에서, 재설정 및 설정이라는 용어들은 각각 디폴트 및 업데이트된 값 또는 상태를 지칭한다. 예를 들어, 디폴트 값은 높은 로직 값, 즉 재설정을 잠재적으로 포함하지만, 업데이트된 값은 낮은 로직 값, 즉 설정을 잠재적으로 포함한다. 임의의 수의 상태들을 나타내기 위하여 값들의 임의의 조합이 사용될 수 있다는 것을 유의한다.

전술한 방법들, 하드웨어, 소프트웨어, 펌웨어 또는 코드의 실시예들은 처리 요소에 의해 실행 가능한 머신-액세스가능, 머신 판독가능, 컴퓨터 액세스가능, 또는 컴퓨터 판독가능 매체 상에 저장된 명령어들 또는 코드를 통해 구현될 수 있다. 비-일시적 머신-액세스가능/판독가능 매체는 컴퓨터 또는 전자식 시스템과 같은, 머신에 의해 판독가능한 형태로 정보를 제공(즉, 저장 및/또는 전송)하는 임의의 메커니즘을 포함한다. 예를 들어, 비-일시적인 머신 액세스가능 매체는 랜덤 액세스 메모리(RAM), 이를테면, 정적 RAM(SRAM) 또는 동적 RAM(DRAM); ROM; 자기 또는 광학 스토리지 매체; 플래시 메모리 디바이스; 전기 스토리지 디바이스; 광학 스토리지 디바이스; 음향 스토리지 디바이스; 그로부터 정보를 수신할 수 있는 비-일시적인 매체들과 구별되는, 일시적(전파된) 신호들(예컨대, 반송파, 적외선 신호, 디지털 신호)로부터 수신된 정보를 유지하기 위한 다른 형태의 스토리지 디바이스, 등을 포함한다.

본 개시 내용의 실시예들을 수행하도록 로직을 프로그래밍하는 데 사용되는 명령어들은 DRAM, 캐시, 플래시 메모리, 또는 다른 스토리지와 같은 시스템 내의 메모리 내에 저장될 수 있다. 또한, 이러한 명령어들은 네트워크를 통해 또는 다른 컴퓨터 판독가능 매체에 의해 분포될 수 있다. 따라서, 머신 판독가능 매체는 머신(예를 들어, 컴퓨터)에 의해 판독가능한 형태로 정보를 저장하거나 전송하기 위한 임의의 메커니즘, 예를 들어, 플로피 디스켓, 광학 디스크, CD-ROM(Compact Disc, Read-Only Memory), 광자기 디스크, 판독 전용 메모리(ROM), 랜덤 액세스 메모리(RAM), EPROM(Erasable Programmable Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), 자기 또는 광학 카드, 플래시 메모리, 또는 전기, 광학, 음향 또는 다른 형태의 전파 신호들(예를 들어, 반송파들, 적외선 신호들, 디지털 신호들 등)을 통해 인터넷 상에서 정보를 전송하는데 이용되는 유형의 머신 판독가능 스토리지를 포함할 수 있는데, 이것들에만 제한되지는 않는다. 따라서, 컴퓨터 판독가능 매체는, 머신(예를 들어, 컴퓨터)에 의해 판독가능한 형태로 전자적 명령어들 또는 정보를 저장하거나 전송하기에 적합한 임의 타입의 유형의 머신 판독가능 매체를 포함한다.

이러한 명세서 전체를 통한 "일 실시예" 또는 "실시예"에 대한 참조는, 실시예와 관련하여 설명된 특별한 특징, 구조, 또는 특성이 본 개시 내용의 적어도 하나의 실시예에 포함된다는 것을 의미한다. 따라서, 본 명세서 전반에 걸쳐 다양한 위치들에서의 어구들 "일 실시예에서" 또는 "실시예에서"의 출현은 반드시 동일한 실시예를 모두 지칭하는 것은 아니다. 더욱이, 특정한 특징들, 구조들, 또는 특성들은 하나 이상의 실시예에서 임의의 적합한 방식으로 조합될 수 있다.

상기 명세서에서, 상세한 설명은 특정한 예시적인 실시예들과 관련하여 주어졌다. 그러나, 첨부된 청구항들에서 설명되는 바와 같은 본 개시 내용의 더 넓은 사상 및 범위로부터 벗어나지 않고서 실시예들에 대해 다양한 수정들 및 변경들이 이루어질 수 있다는 것이 명백할 것이다. 따라서, 명세서와 도면들은 한정적 의미가 아니라 예시적 의미로서 간주되어야 한다. 또한, 실시예 및 기타 예시적인 언어의 앞선 사용은 반드시 동일한 실시예 또는 동일한 예를 지칭할 필요는 없지만, 상이하고 구별되는 실시예들 뿐만 아니라, 잠재적으로 동일한 실시예를 지칭할 수도 있다.

Claims

프로세싱 디바이스로서,
제1 명령어 세트 아키텍처(ISA)에 따라 설계된 제1 코어를 포함한 제1 프로세서 모듈; 및
제2 ISA에 따라 설계된 제2 코어를 포함한 제2 프로세서 모듈
을 포함하고,
상기 제2 프로세서 모듈은 상기 제1 프로세서 모듈과 동일한 다이 상에 제조되는, 프로세싱 디바이스.
제1항에 있어서,
상기 제1 및 제2 프로세서 모듈에 통신 가능하게 연결된 버스를 포함한 시스템 에이전트(SA)를 더 포함하는, 프로세싱 디바이스.
제2항에 있어서, 상기 버스는 상기 제1 코어로 및 상기 제1 코어로부터 메시지들을 본래(natively) 전송하도록 설계되는, 프로세싱 디바이스.
제2항 또는 제3항에 있어서, 상기 제2 프로세서 모듈은 상기 제2 코어와 상기 버스 사이에 전송된 메시지들을 변환하기 위한 버스 브리지를 포함하는, 프로세싱 디바이스.
제2항 또는 제3항에 있어서, 상기 SA는 컨버터를 더 포함하고 이를 통해 상기 SA가 복수의 주변 디바이스에 연결되는, 프로세싱 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 프로세싱 디바이스는 상기 동일한 다이 상에 제조된 시스템-온-칩(SoC) 디바이스인, 프로세싱 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 프로세싱 디바이스는 2개 이상의 운영체계로 포팅되는(ported) 컴퓨팅 디바이스의 일부인, 프로세싱 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 제1 운영체계는, 활성화될 때, 상기 제1 프로세서 모듈 상에서 구동하고, 제2 운영체계는, 활성화될 때, 상기 제2 프로세서 모듈 상에서 구동하는, 프로세싱 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 프로세싱 디바이스는 중앙 컴퓨팅 유닛(CPU)이고, 이중 운영체계로 포팅되는 컴퓨팅 디바이스의 부분인, 프로세싱 디바이스.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 제1 및 상기 제2 ISA들과는 다른 제3 명령어 세트(ISA)에 따라 설계된 제3 코어를 포함한 제3 프로세서 모듈을 더 포함하는, 프로세싱 디바이스.
제10항에 있어서, 상기 제3 프로세서 모듈은 상기 제1, 제2, 및 제3 코어들 간에 전송된 메시지들을 변환하기 위한 제3 버스 브리지를 포함하는, 프로세싱 디바이스.
프로세서로서,
제1 명령어 세트 아키텍처(ISA)에 따라 설계된 제1 코어; 및
제2 ISA에 따라 설계된 제2 코어
를 포함하고,
상기 프로세서는 단일 다이 상에 제조된 시스템-온-칩(SoC) 디바이스인, 프로세서.
제12항에 있어서,
상기 제1 및 제2 코어들에 통신 가능하게 연결된 버스를 포함한 시스템 에이전트(SA)를 더 포함하고,
상기 버스는 상기 제1 코어로 및 상기 제1 코어로부터 메시지들을 본래 전송하도록 설계되는, 프로세서.
제12항 또는 제13항에 있어서,
상기 제2 코어와 상기 버스 사이에 연결된 버스 브리지를 더 포함하고,
상기 버스 브리지는 상기 제2 코어와 상기 버스 사이에 전송된 메시지들을 변환하는, 프로세서.
제12항 내지 제14항 중 어느 한 항에 있어서, 상기 SA는 컨버터를 더 포함하고 이를 통하여 상기 SA가 복수의 주변 디바이스에 연결되는, 프로세서.
제12항 내지 제14항 중 어느 한 항에 있어서,
제1 운영체계는, 활성화될 때, 상기 제1 프로세서 모듈 상에서 구동하고, 제2 운영체계는, 활성화될 때, 상기 제2 프로세서 모듈 상에서 구동하는, 프로세서.
제16항에 있어서, 상기 프로세싱 디바이스는 중앙 컴퓨팅 유닛(CPU)이고, 이중 운영체계로 포팅되는 컴퓨팅 디바이스의 부분인, 프로세서.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 제1 및 상기 제2 ISA들과는 다른 제3 명령어 세트(ISA)에 따라 설계된 제3 코어를 더 포함하는, 프로세서.
제12항 내지 제14항 중 어느 한 항에 있어서,
상기 제3 코어는 상기 제1, 제2, 및 제3 코어들 간에 전송된 메시지들을 변환하기 위한 제3 버스 브리지를 포함하는, 프로세서.
방법으로서,
중앙 처리 유닛(CPU) 상의 전경(foreground)에서 실행하는 제1 운영체계(OS)로부터 상기 CPU 상의 배경(background)에서 실행하는 제2 OS로 스위칭하라는 요구에 응답하여, 상기 CPU의 제1 코어에 의해, 상기 제1 OS와 배타적으로 연관된 제1 세트의 디바이스들을 결정하는 단계 - 상기 제1 코어는 명령어 세트 아키텍처(ISA)의 제1 타입에 따라 설계됨 -;
상기 제1 세트의 디바이스들을 중지하는 단계;
상기 제1 및 제2 OS들에 배타적이지 않은 제2 세트의 디바이스들을 결정하는 단계;
상기 제2 OS에 대해 상기 제2 세트의 디바이스들을 구성하는 단계; 및
상기 제2 OS를 상기 전경으로 그리고 상기 제1 OS를 상기 배경으로 스위칭하는 단계
를 포함하며,
상기 스위칭 단계는 ISA의 제2 타입에 따라 설계된 상기 CPU의 제2 코어를 활성화하고, 상기 제1 코어를 유휴 상태로 하는 단계
를 포함하는, 방법.
제20항에 있어서,
상기 제2 OS에 배타적인 제3 세트의 디바이스들을 결정하는 단계; 및
상기 제3 세트의 디바이스들을 인에이블시키는(enabling) 단계를 더 포함하는, 방법.
중앙 처리 유닛(CPU) 상에서 실행되는 것에 응답하여, 상기 CPU가 방법을 수행하게 하는 복수의 명령어를 포함한 적어도 하나의 머신 판독가능 매체로서, 상기 방법은,
중앙 처리 유닛(CPU) 상의 전경에서 실행하는 제1 운영체계(OS)로부터 상기 CPU 상의 배경에서 실행하는 제2 OS로 스위칭하라는 요구에 응답하여, 상기 CPU의 제1 코어에 의해, 상기 제1 OS와 배타적으로 연관된 제1 세트의 디바이스들을 결정하는 단계 - 상기 제1 코어는 명령어 세트 아키텍처(ISA)의 제1 타입에 따라 설계됨 -;
상기 제1 세트의 디바이스들을 중지하는 단계;
상기 제1 및 제2 OS들에 배타적이지 않은 제2 세트의 디바이스들을 결정하는 단계;
상기 제2 OS들에 대해 상기 제2 세트의 디바이스들을 구성하는 단계; 및
상기 제2 OS를 상기 전경으로 그리고 상기 제1 OS를 상기 배경으로 스위칭하는 단계를 포함하며,
상기 스위칭 단계는 ISA의 제2 타입에 따라 설계된 상기 CPU의 제2 코어를 활성화하고, 상기 제1 코어를 유휴 상태로 하는 단계를 포함하는, 적어도 하나의 머신 판독가능 매체.
제22항에 있어서, 상기 방법은,
상기 제2 OS에 배타적인 제3 세트의 디바이스들을 결정하는 단계; 및
상기 제3 세트의 디바이스들을 인에이블시키는 단계를 더 포함하는, 적어도 하나의 머신 판독가능 매체.
장치로서,
제20항 또는 제21항의 방법을 수행하기 위한 수단을 포함하는, 장치.