KR101561496B1

KR101561496B1 - 이종 멀티프로세서 컴퓨팅 플랫폼 내에서의 애플리케이션 스케줄링

Info

Publication number: KR101561496B1
Application number: KR1020137007312A
Authority: KR
Inventors: 라비샨카르 이예르; 사다고판 스리니바산; 리 자오; 라메쉬쿠마르 지 일리칼
Original assignee: 인텔 코포레이션
Priority date: 2010-09-25
Filing date: 2011-09-24
Publication date: 2015-10-20
Also published as: GB2497449B; GB201303285D0; TWI450104B; CN103119580A; WO2012040684A2; TWI550413B; TW201229781A; WO2012040684A3; KR20140114074A; JP2013537346A; US20160132354A1; DE112011103216T5; TW201437828A; CN103119580B; TWI603207B; TW201714103A; GB2497449A; JP5774707B2; BR112013006483A2; KR20130062999A

Abstract

이종 멀티프로세서 컴퓨팅 플랫폼 내에서 애플리케이션을 스케줄링하는 방법 및 장치가 설명된다. 하나의 실시예에서, 프로세서의 복수의 프로세서 코어의 성능(예를 들어, 실행 성능 및/또는 전력 소비 성능)에 관한 정보가 계수기 및/또는 테이블 내에 저장(및 트래킹)될 수 있다. 프로세서 내의 로직은 저장된 정보에 기반하여 어떤 프로세서 코어가 애플리케이션을 실행해야 하는지를 판단한다. 다른 실시예가 또한 청구되고 개시된다.

Description

이종 멀티프로세서 컴퓨팅 플랫폼 내에서의 애플리케이션 스케줄링{APPLICATION SCHEDULING IN HETEROGENEOUS MULTIPROCESSOR COMPUTING PLATFORMS}

본 개시는 일반적으로 전자 공학 분야에 관한 것이다. 보다 구체적으로, 본 발명의 일 실시예는 이종 멀티프로세서 컴퓨팅 플랫폼 내에서 애플리케이션을 스케줄링하기 위한 기법에 관한 것이다.

성능을 향상시키기 위해, 일부 컴퓨팅 시스템은 복수의 프로세서를 포함한다. 그러나, 멀티프로세서 컴퓨팅 시스템의 크기 조정(scaling)은 전력 제약에 의해 제한된다. 즉, 하나의 시스템에 보다 많은 프로세서가 추가됨에 따라 전력 소비가 증가한다. 또한, 추가 전력 소비는 보다 많은 열을 발생시킨다. 그러므로, 열 및 전력 요건은 멀티프로세서 컴퓨팅 시스템의 크기 조정을 제한할 수 있다.

첨부 도면을 참조하여 상세한 설명이 제공된다. 도면에서, 참조 부호의 가장 왼쪽 숫자는 참조 부호가 처음으로 나타나는 도면을 식별한다. 상이한 도면에서 동일한 참조 부호의 사용은 유사하거나 동일한 항목을 표시한다.
도 1, 도 5, 및 도 6은 컴퓨팅 시스템의 실시예의 블록도를 도시하며, 컴퓨팅 시스템은 여기에서 논의된 다양한 실시예를 구현하기 위해 이용될 수 있다.
도 2는 일 실시예에 따른 컴퓨팅 시스템의 프로세서 코어 및 다른 컴포넌트의 일부에 대한 블록도를 도시한다.
도 3 및 도 4는 일부 실시예에 따른 흐름도를 도시한다.

이하의 설명에서, 다양한 실시예의 완전한 이해를 제공하기 위해 다양한 구체적인 세부 사항이 제시된다. 그러나, 본 발명의 다양한 실시예는 구체적인 세부 사항 없이 실시될 수 있다. 다른 경우에, 본 발명의 특정 실시예를 불명료하게 하지 않도록, 주지된 방법, 과정, 컴포넌트 및 회로는 상세하게 설명되지 않았다. 추가로, 본 발명의 실시예의 다양한 양태는 집적된 반도체 회로("하드웨어(hardware)"), 하나 이상의 프로그램 내로 체계화된 컴퓨터 판독 가능한 명령어("소프트웨어(software)"), 또는 하드웨어와 소프트웨어의 일종의 조합과 같은 다양한 수단을 사용하여 수행될 수 있다. 이러한 개시의 목적을 위해서, "로직(logic)"이라는 언급은 하드웨어, 소프트웨어, 또는 이들의 일종의 조합을 의미할 것이다. 또한, "명령어(instruction)" 및 "미세 동작(micro-operation)"(uop)의 사용은 여기에서 논의된 바와 같이 상호 교환 가능할 것이다.

예를 들어 서버 및 클라이언트 플랫폼에 대해 칩-멀티프로세서(Chip-MultiProcessor, CMP) 시스템이 일반적이 됨에 따라, 이종 CMP(heterogeneous CMP)가 힘을 얻기 시작한다. 예를 들어, 보다 작은 프로세서 코어가 보다 양호한 성능/와트(watt) 장점을 제공할 수 있다. 따라서, 보다 큰 프로세서 코어에 덧붙여 보다 작은 프로세서 코어를 추가하는 것이 매력적일 수 있다. 본 명세서에서 논의된 바와 같이, 이종 CMP는 성능, 면적, 및/또는 전력 손실에서 상이한 한 세트의 코어를 포함한다. 이러한 플랫폼은 다양한 애플리케이션에 대한 컴퓨팅 리소스의 보다 양호한 매핑을 허용할 기회를 제공하므로, 일부 실시예에서 성능 및 전력 효율이 달성될 수 있다.

그러나, 이종 CMP 플랫폼 설계에서 중요한 도전 중 하나는 애플리케이션 스케줄링, 즉, 성능 및/또는 전력 효율을 최적화하는 복수의 프로세서 코어에 애플리케이션을 매핑하는 것이다. 이를 위해, 하나의 실시예는 (예를 들어, 단일 집적 회로(integrated circuit, IC) 칩/다이 상에서) 상이한 코어들 사이에서 애플리케이션을 동적으로 스케줄링하는 것에 관한 것이다. 하나의 실시예에서, 애플리케이션을 스케줄링하기 위해 두 개의 컴포넌트가 사용될 수 있다. 첫째, 프로세서 코어 모델링 예측 휴리스틱스(processor core modeling predication heuristics)가 제공될 수 있다. 둘째, 코어 모델링 예측 휴리스틱스에 기반하여 이종 프로세서 코어에 대해 애플리케이션을 스케줄링하기 위해 스케줄링 로직(scheduling logic)이 사용될 수 있다.

여기에서 논의된 기법은 도 1, 도 5, 및 도 6과 관련하여 논의된 프로세서와 같은 성능 상태 설정(performance state setting)을 갖는 모든 유형의 프로세서에서 사용될 수 있다. 보다 구체적으로, 도 1은 본 발명의 일 실시예에 따른 컴퓨팅 시스템(100)의 블록도를 도시한다. 시스템(100)은 하나 이상의 프로세서(102-1 내지 102-N)(일반적으로 본 명세서에서 "프로세서들(102)" 또는 "프로세서(102)"로 지칭됨)를 포함할 수 있다. 프로세서들(102)은 상호접속 네트워크(interconnection network) 또는 버스(104)를 통해 통신할 수 있다. 각각의 프로세서는 다양한 컴포넌트를 포함할 수 있으며, 명료하게 하기 위해 다양한 컴포넌트 중에서 단지 일부 컴포넌트만이 프로세서(102-1)와 관련하여 논의된다. 따라서, 나머지 프로세서(102-2 내지 102-N) 각각은 프로세서(102-1)와 관련하여 논의된 동일하거나 유사한 컴포넌트를 포함할 수 있다.

일 실시예에서, 프로세서(102-1)는 하나 이상의 프로세서 코어(106-1 내지 106-M)(본 명세서에서 "코어들(106)"로 지칭되거나 보다 일반적으로 "코어(106)"로 지칭됨), 공유 캐시(shared cache)(108), 및/또는 라우터(router)(110)를 포함할 수 있다. 프로세서 코어(106)는 단일 집적 회로(IC) 칩 상에서 구현될 수 있다. 더군다나, 칩은 (캐시(108)와 같은) 하나 이상의 공유 및/또는 사유 캐시, (버스 또는 상호접속 네트워크(112)와 같은) 버스 또는 상호접속, (도 5 및 도 6과 관련하여 논의된 것과 같은) 메모리 제어기, 또는 다른 컴포넌트를 포함할 수 있다. 또한, 코어(106)는 이종일 수 있다(예를 들어, 본 명세서에 논의된 바와 같이 상이한 크기, 성능 특성, 전력 소비 특성 등을 가지는).

하나의 실시예에서, 프로세서(102-1) 및/또는 시스템(100)의 다양한 컴포넌트들 사이에서 통신하기 위해 라우터(110)가 사용될 수 있다. 더군다나, 프로세서(102-1)는 하나 초과의 라우터(110)를 포함할 수 있다. 추가로, 프로세서(102-1) 내부의 또는 프로세서(102-1) 외부의 다양한 컴포넌트들 사이에 데이터 라우팅을 가능하게 위해 복수의 라우터(110)는 통신 상태일 수 있다.

공유 캐시(108)는 코어(106)와 같은 프로세서(102-1)의 하나 이상의 컴포넌트에 의해 이용되는 (예를 들어, 명령어를 포함한) 데이터를 저장할 수 있다. 예를 들어, 공유 캐시(108)는 프로세서(102)의 컴포넌트에 의한 보다 빠른 접근을 위해 메모리(114) 내에 저장된 데이터를 국부적으로 캐싱할 수 있다. 일 실시예에서, 캐시(108)는 (레벨 2(L2)의 캐시, 레벨 3(L3)의 캐시, 레벨 4(L4)의 캐시, 또는 다른 레벨의 캐시와 같은) 미드-레벨(mid-level)의 캐시, 마지막 레벨의 캐시(last level cache, LLC), 및/또는 이들의 조합을 포함할 수 있다. 더군다나, 프로세서(102-1)의 다양한 컴포넌트는 버스(예를 들어, 버스(112)), 및/또는 메모리 제어기 또는 허브를 통해 공유 캐시(108)와 직접 통신할 수 있다. 도 1에 도시된 바와 같이, 일부 실시예에서, 코어(106) 중에서 하나 이상의 코어는 레벨 1(L1) 및/또는 레벨 2(L2) 캐시(116-1)(일반적으로 본 명세서에서 "L1/L2 캐시(116)"로 지칭됨)를 포함할 수 있다. L1 및/또는 L2 캐시(116)는 다양한 실시예에서 사유이거나 공유될 수 있다.

하나의 실시예에서, 도 2 내지 도 4를 참조하여 추가로 후술되는 바와 같이, 각각의 코어는 시스템 내의 다양한 프로세서 코어로 애플리케이션을 할당하는데 도움을 주는 로직(120)을 포함할 수 있다. 예를 들어, (시스템 내의 하나 이상의 다른 코어의 성능을 표시하는 성능 계수기와 같은) 계수기(122) 내에 저장된 정보에 기반하여(예를 들어, 운영 체제(Operating System, OS)에 의해) 애플리케이션이 할당될 수 있다. (성능 이력 테이블(performance history table, PHT)(124-1)과 같은) 테이블 내로 인덱싱하기 위해 사용될 수 있는 프로세스 식별자(process identifier, ID)에 기반하여 (예를 들어, OS에 의해) 애플리케이션이 또한 할당될 수 있다. 테이블은 (메모리(114) 및/또는 공유 캐시(108)와 같은) 공유 메모리 내에 저장되거나 또는 사유 캐시(예를 들어, L1/L2 캐시(116))와 같은 프로세서(102) 또는 코어(106) 내의 전용 저장 장치 내에 저장(예를 들어, PHT(124-1))될 수 있다. 테이블은 예를 들어 도 2 내지 도 4를 참조하여 추가로 후술되는 바와 같이 애플리케이션을 스케줄링할 때 운영 체제(OS)로 정보/힌트를 제공할 수 있다. 일부 실시예에서, OS 및 애플리케이션은 메모리(114)(또는 도 5의 메모리(512) 및 도 6의 메모리(610/612)) 내에 저장될 수 있다.

도 2는 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 프로세서 코어(106) 및 다른 컴포넌트의 일부에 대한 블록도를 도시한다. 하나의 실시예에서, 도 2에 도시된 화살표는 코어(106)를 통한 명령어의 흐름 방향을 도시한다. (프로세서 코어(106)와 같은) 하나 이상의 프로세서 코어는 도 1과 관련하여 논의된 바와 같은 단일 집적 회로 칩(또는 다이) 상에서 구현될 수 있다. 더군다나, 칩은 하나 이상의 공유 및/또는 사유 캐시(예를 들어, 도 1의 캐시(106 및 108)), 상호접속(예를 들어, 도 1의 상호접속(104 및/또는 112)), 로직(120), 계수기(122), 메모리 제어기, 또는 다른 컴포넌트를 포함할 수 있다.

도 2에 도시된 바와 같이, 프로세서 코어(106)는 코어(106)에 의한 실행을 위한(조건 브랜치(conditional branch)를 갖는 명령어를 포함한) 명령어를 인출하는 인출 유닛(fetch unit)(202)을 포함할 수 있다. 명령어는 도 4 및 도 5와 관련하여 논의된 메모리(114) 및/또는 메모리 장치와 같은 모든 저장 장치로부터 인출될 수 있다. 코어(106)는 인출된 명령어를 디코딩하는 디코드 유닛(204) 또한 포함할 수 있다. 예를 들어, 디코드 유닛(204)은 인출된 명령어를 복수의 uop(미세 동작(micro-operation))로 디코딩할 수 있다. 추가로, 코어(106)는 스케줄 유닛(206)을 포함할 수 있다. 스케줄 유닛(206)은 명령어가 발송 준비가 될 때까지, 예를 들어 디코딩된 명령어의 소스값이 이용 가능하게 될 때까지 (예를 들어, 디코드 유닛(204)으로부터 수신된) 디코딩된 명령어를 저장하는 것과 연관된 다양한 동작을 수행할 수 있다. 하나의 실시예에서, 스케줄 유닛(206)은 디코딩된 명령어를 실행을 위한 실행 유닛(208)으로 스케줄링하고/하거나 발행(또는 발송)할 수 있다. 실행 유닛(208)은 발송된 명령어가 (예를 들어, 디코드 유닛(204)에 의해) 디코딩되고 (예를 들어, 스케줄 유닛(206)에 의해) 발송된 후에 발송된 명령어를 실행할 수 있다. 일 실시예에서, 실행 유닛(208)은 하나 초과의 실행 유닛을 포함할 수 있다. 실행 유닛(208)은 가산, 감산, 승산, 및/또는 제산과 같은 다양한 산술 연산을 또한 수행할 수 있고, 하나 이상의 산술 로직 유닛(arithmetic logic unit, ALU)을 포함할 수 있다. 일 실시예에서, 코프로세서(co-processor)(도시되지 않음)가 실행 유닛(208)과 함께 다양한 산술 연산을 수행할 수 있다.

추가로, 실행 유닛(208)은 명령어를 비순차(out-of-order)로 실행할 수 있다. 그러므로, 프로세서 코어(106)는 하나의 실시예에서 비순차(out-of-order) 프로세서 코어일 수 있다. 코어(106)는 또한 회수 유닛(retirement unit, 210)을 포함할 수 있다. 회수 유닛(210)은 실행된 명령어가 완료된 후에 실행된 명령어를 회수할 수 있다. 일 실시예에서, 실행된 명령어의 회수는 프로세서 상태가 명령어의 실행으로부터 완료되는 것, 명령어에 의해 사용된 물리적 레지스터가 할당 해제되는 것 등을 야기할 수 있다.

코어(106)는 또한 하나 이상의 버스(예를 들어, 버스(104 및/또는 112))를 통해 프로세서 코어(106)의 컴포넌트와 (도 1과 관련하여 논의된 컴포넌트와 같은) 다른 컴포넌트 사이의 통신을 가능하게 하는 버스 유닛(214)을 포함할 수 있다. 코어(106)는 도 1, 도 3, 및 도 4와 관련하여 논의된 바와 같은 로직(120)을 포함하는 코어(106)의 다양한 컴포넌트에 의해 접근된 데이터를 저장하는 하나 이상의 계수기(122)를 또한 포함할 수 있다.

더군다나, 일부 실시예에서, 로직(120)은 애플리케이션의 성능을 기록할 뿐만 아니라 (예를 들어, 계수기(122) 내에 저장된 값에 기반하여) 시스템 내의 또 다른 코어 상에서 실행된다고 가정할 때의 애플리케이션의 실행 및/또는 전력 소비 성능을 예측한다. 이러한 정보는 전력, 성능, 에너지, 및 이들의 조합과 같은 다양한 문턱값에 기반하여 스케줄링을 수행할 수 있는 OS로 제공될 수 있다. 예를 들어, OS 및/또는 로직(120)은 고려되고 있는 프로세서 코어의 다양한 실행 또는 전력 소비 성능 데이터를 비교할 수 있고, (본 명세서에서 논의된 다양한 문턱값에 기반하여) 어떤 코어가 더 양호한 실행 또는 전력 소비 성능을 제공할 것인 지에 관하여 판단할 수 있다.

일 실시예에 따라, 서명 기반 접근이 사용될 수 있다. 예를 들어, 각각의 애플리케이션은 시스템 내의 하나 이상의 코어 상에서 실행될 수 있고, 애플리케이션 성능 통계는 성능 이력 테이블(performance history table, PHT) 내에 저장될 수 있다. 성능 통계는 명령어 당 사이클(Cycles Per Instruction, CPI), 명령어 당 미스(Misses Per Instruction, MPI) 등을 포함할 수 있다. 예를 들어, 샘플 테이블 1에 도시된 바와 같이, 각각의 테이블 엔트리(table entry)는 세 개 이상의 필드를 가질 수 있다. 제 1 필드는 프로세스 ID를 표시하고, 제 2 필드는 대형 코어 상에서 실행하는 동안 애플리케이션의 CPI를 저장하기 위한 것이고, 마지막 필드는 소형 코어 상에서 실행하는 동안 애플리케이션의 성능을 저장한다. 애플리케이션이 나머지 코어로 콘텍스트 스위치(context switch)될 때마다, 로직(120)은 새로운 정보를 획득할 수 있고 PHT(124)를 업데이트할 수 있다.

PHT(124)의 크기는 매우 작을 수 있다. 예를 들어, 오직 CPI만 사용되면, 이력 정보를 저장하기 위해 요구된 메모리는 엔트리 당 12 바이트이다. 애플리케이션이 실행되도록 스케줄링될 때마다, PHT(124)는 또한 애플리케이션의 프로세스 제어 블록(Process Control Block, PCB) 내에 저장될 수 있고/있거나 또 다른 메모리(예를 들어, PHT(124), 캐시(106), 메모리(114), 캐시(108) 등) 내로 로딩될 수 있다. 이러한 방법론은 하나의 프로세스를 넘어 확장될 수 있고, 하나의 프로세스 내의 다양한 핫스폿(hotspot)을 위해 사용될 수 있다.

일단 PHT가 설정되면, 애플리케이션이 실행되도록 스케줄링될 때마다, 도 3에 도시된 바와 같이, 로직(120)은 PHT로부터 정보를 판독하고, (전력/성능 등과 같은) 미리 정해진 메트릭스(metrics)에 기반하여 최적 스케줄링 정책을 위한 힌트를 OS로 제공한다.

도 3을 참조하면, 일 실시예에 따라, 서명 기반 코어 모델링 예측 휴리스틱스 접근법을 위한 흐름도가 도시된다. 일부 실시예에서, 도 1, 도 2, 도 5, 및 도 6과 관련하여 논의된 다양한 컴포넌트가 도 3과 관련하여 논의된 동작 중에서 하나 이상의 동작을 수행하기 위해 이용될 수 있다.

도 1 내지 도 3을 참조하면, 동작 302에서, 콘텍스트 스위치 상에 (예를 들어, 본 명세서에서 논의된 바와 같이 프로세스 제어 블록 또는 또 다른 위치로부터) 애플리케이션이 로딩된다. 동작 304에서, 로직(120)은 PHT로부터 정보를 판독한다. 동작 306에서, 대형 또는 소형 프로세스 코어에 대해, 프로세스가 (예를 들어, 성능 또는 전력 소비 목적을 위해) 최적인지 여부가 PHT 정보에 기반하여 판단된다. 그런 다음, 동작 308에서, 이러한 정보는 (일 실시예에서 예를 들어 로직(120)에 의해 판단된 바와 같은 전력 소비 및/또는 성능 고려 사항에 기반하여) OS로 송신된다. 동작 310에서, 로직(120)은 (예를 들어, 동작 306에서의 마지막 판단에 기반하여) 추가 이력 정보를 수집하고 PHT 정보를 업데이트한다.

도 4를 참조하면, 일 실시예에 따라, 성능 기반 코어 모델링 예측 휴리스틱스 접근법을 위한 흐름도가 도시된다. 일부 실시예에서, 도 1, 도 2, 도 5, 및 도 6과 관련하여 논의된 다양한 컴포넌트가 도 4와 참조하여 논의된 동작 중에서 하나 이상의 동작을 수행하기 위해 이용될 수 있다.

도 1, 도 2 및 도 4를 참조하면, 동작 402에서, 콘텍스트 스위치 상에 (예를 들어, 본 명세서에서 논의된 바와 같이 프로세스 제어 블록 또는 또 다른 위치로부터) 애플리케이션이 로딩된다. 동작 404에서, 로직(120)은 성능 계수기(예를 들어, 계수기 122) 내에 저장된 값을 판독한다. 동작 406에서, 대형 또는 소형 프로세스 코어에 대해, 프로세스가 (예를 들어, 성능 또는 전력 소비 목적을 위해) 최적인지 여부가 성능 계수기 정보에 기반하여 판단된다. 그런 다음, 동작 408에서, 이러한 정보는 (일 실시예에서 예를 들어 로직(120)에 의해 판단된 바와 같은 전력 소비 및/또는 성능 고려 사항에 기반하여) OS로 송신된다. 동작 410에서, 로직(120)은 (예를 들어, 동작 406에서의 마지막 판단에 기반하여) 추가 이력 정보를 수집하고 성능 계수기(예를 들어, 계수기(122))를 업데이트한다.

성능 계수기 기반 접근법에서, 일부 실시예에 따라, 대형 코어 상에서 애플리케이션이 실행 중에 있는 동안 소형 코어 상에서의 애플리케이션의 성능을 효율적으로 예측할 수 있고 그리고 그 반대로도 예측할 수 있는 동적 모델이 사용될 수 있다. 이러한 접근법은 성능 계수기(예를 들어, 계수기(122))를 사용하고, 이하의 방정식에 기반하여 성능을 예측한다.

소형 코어에서의 사이클 = ((대형 코어에서의 사이클 - 대형 코어 상에서의 스톨 사이클(stall cycle)) * 소형 코어의 발행 폭(issue width)/대형 코어의 발행 폭 * 승산 계수(multiplication factor)) + (대형 코어에서의 L1 미스(miss) * 소형 코어의 L1 미스 페널티(miss penalty)) + (대형 코어에서의 L2 미스 * 소형 코어의 L2 미스 페널티)

일 실시예에서, 승산 계수는 L2 미스 및 로딩/저장 명령어의 개수에 기반하여 경험적으로 유도될 수 있다. 일부 실시예에서, 대형 코어는 소형 코어에 비해 두 배의 로딩/저장 유닛의 개수를 가질 수 있다. 추가로, 일부 실시예에서, 중요한 L2 미스 애플리케이션은 일부 작업량에서 관찰된 메모리 레벨 병렬처리(memory level parallelism)의 결여로 인한 대형 코어의 비순차 특성(out-of-order nature)에 의해 유익하지 않을 수 있다.

대형 코어에서의 사이클 = ((소형 코어에서의 사이클 - 소형 코어 상에서의 스톨 사이클) * 대형 코어의 발행 폭/소형 코어의 발행 폭)/(1-스톨 인자)

스톨 인자(stall factor)는 대형 코어 상에서 일단 애플리케이션을 실행함으로써 그리고 스톨 사이클(stall cycle) 및 전체 사이클 성능 데이터를 수집함으로써 유도될 수 있다. 또한, 일부 플랫폼은 캐시 미스, 플로팅 포인트 스톨(floating point stall) 등과 같은 장기 대기시간 동작(long latency operation)으로 인해 스톨을 식별하는 다양한 성능 계수기를 포함할 수 있다. 실행 완료된 로딩/저장 명령어, L2 미스 등과 같은 다른 계수기와 조합된 이들 스톨은 로직(120)에서 사용될 때 애플리케이션이 또 다른 코어 상에서 실행된다고 가정할 때의 애플리케이션의 성능을 예측하는 것을 도울 수 있다. 설사 플랫폼 내에 구체적인 메모리 스톨 계수기가 존재하지 않더라도, 플랫폼 내에 다른 스톨 계수기를 사용하여 스톨이 추정될 수 있다.

스케줄링에 관하여, 일부 실시예는 다음과 같은 로직(120)에 의해 제공된 성능 정보에 기반하여 대형 및 소형 코어에 다양한 애플리케이션을 매핑할 수 있다. 즉, (1) 단일 애플리케이션인 경우에, 대형 코어 대 소형 코어의 성능 비율이 프로그래밍 가능한 값보다 크면, 대형 코어 상에서 애플리케이션을 스케줄링하고, 그렇지 않으면 소형 코어 상에서 애플리케이션을 스케줄링한다. 이러한 프로그래밍 가능한 값은 코어 내에 존재할 수 있고, 다양한 전력/성능 메트릭스에 기반하여 머신 상태 레지스터(Machine State Register, MSR)를 사용하여 기록될 수 있다. (2) 예를 들어, 스케줄링될 필요가 있는 N 개의 애플리케이션을 갖는 복수의 애플리케이션인 경우에, 대형 코어 대 소형 코어의 성능 비율에 기반하여 애플리케이션을 배열한다. 상부 N/2 개의 애플리케이션(예를 들어, 최대 이득을 갖는 애플리케이션)은 대형 코어 상으로 스케줄링되고, 하부 N/2 개의 애플리케이션은 소형 코어 상에 스케줄링된다.

일부 실시예에서, 이하의 계수기, 즉,

(1) 코어 클록 사이클(core clock cycle): 이 계수기는 코어가 활성 실행 명령어이었던 사이클의 개수를 계수함

(2) 실행 완료된 명령어(instruction retired): 이 계수기는 주어진 시간 샘플 동안에 코어가 회수했던 명령어의 개수를 계수함

(3) L2 미스(L2 miss): 이 계수기는 L2를 미스(miss)한 메모리 참조의 개수를 계수함

(4) 스케줄러 스톨(scheduler stall): 이 계수기는 소형 코어가 명령어를 스케줄링할 수 없었던 사이클의 개수를 계수함(이 계수기는 또한 소형 코어 내에서의 L2 미스와 L2 미스 대기시간(miss latency)의 곱에 기반하여 유도될 수 있다).

(5) 리소스 스톨(resource stall): 이 계수기는 대형 코어가 예약 스테이션, 장기 대기시간 미스 등과 같은 리소스의 이용 불가능성으로 인해 대형 코어가 스톨(stall)했던 사이클의 개수를 계수함, 및/또는

(6) 브랜치 스톨(branch stall): 이 계수기는 브랜치 예측 실패로 인해 잃어버린 사이클의 전체 개수를 계수함

중에서 하나 이상의 계수기가 (예를 들어, 계수기(122)를 위해) 사용될 수 있다.

도 5는 본 발명의 일 실시예에 따른 컴퓨팅 시스템(500)의 블록도를 도시한다. 컴퓨팅 시스템(500)은 상호접속 네트워크(또는 버스)(504)를 통해 통신하는 하나 이상의 중앙 처리 장치(central processing unit, CPU)(502) 또는 프로세서를 포함할 수 있다. 프로세서(502)는 일반적인 목적의 프로세서, (컴퓨터 네트워크(503)를 거쳐 통신된 데이터를 처리하는) 네트워크 프로세서, 또는 (감소된 명령어 세트 컴퓨터(reduced instruction set computer, RISC) 프로세서 또는 복잡한 명령어 세트 컴퓨터(complex instruction set computer, CISC)를 포함한) 다른 유형의 프로세서를 포함할 수 있다. 더군다나, 프로세서(502)는 단일 또는 복수의 코어 설계를 가질 수 있다. 복수의 코어 설계를 갖는 프로세서(502)는 동일한 집적 회로(IC) 다이 상에 상이한 유형의 프로세서 코어를 집적할 수 있다. 또한, 복수의 코어 설계를 갖는 프로세서(502)는 대칭 또는 비대칭 멀티프로세서로서 구현될 수 있다. 일 실시예에서, 프로세서(502) 중에서 하나 이상의 프로세서는 도 1의 프로세서(102)와 동일하거나 유사할 수 있다. 예를 들어, 프로세서(502) 중에서 하나 이상의 프로세서는 도 1 내지 도 4와 참조하여 논의된 코어(106)를 포함할 수 있다. 또한, 도 1 내지 도 4와 참조하여 논의된 동작은 컴퓨팅 시스템(500)의 하나 이상의 컴포넌트에 의해 수행될 수 있다.

칩셋(506)은 또한 상호접속 네트워크(504)와 통신할 수 있다. 칩셋(506)은 메모리 제어 허브(memory control hub(MCH))(508)를 포함할 수 있다. MCH(508)는 (도 1의 메모리(114)와 동일하거나 유사할 수 있는) 메모리(512)와 통신하는 메모리 제어기(510)를 포함할 수 있다. 메모리(512)는 컴퓨팅 시스템(500) 내에 포함된 CPU(502) 또는 모든 다른 장치에 의해 실행될 수 있는 명령어의 시퀀스들을 포함한 데이터를 저장할 수 있다. 본 발명의 하나의 실시예에서, 메모리(512)는 RAM(random access memory), 동적 RAM(dynamic RAM, DRAM), 동기 DRAM(synchronous DRAM, SDRAM), 정적 RAM(static RAM, SRAM), 또는 다른 유형의 저장 장치와 같은 하나 이상의 휘발성 저장(또는 메모리) 장치를 포함할 수 있다. 하드 디스크와 같은 비휘발성 메모리도 또한 이용될 수 있다. 추가 장치는 복수의 CPU 및/또는 복수의 시스템 메모리와 같은 상호접속 네트워크(504)를 통해 통신할 수 있다.

MCH(508)은 디스플레이 장치(516)와 통신하는 그래픽 인터페이스(514)를 또한 포함할 수 있다. 본 발명의 하나의 실시예에서, 그래픽 인터페이스(514)는 가속 그래픽 포트(accelerated graphics port, AGP)를 통해 디스플레이 장치(516)와 통신할 수 있다. 본 발명의 일 실시예에서, (평판 디스플레이와 같은) 디스플레이(516)는 예를 들어 비디오 메모리 또는 시스템 메모리와 같은 저장 장치 내에 저장된 영상의 디지털 표현을 디스플레이(516)에 의해 해석되고 디스플레이되는 디스플레이 신호로 변환하는 신호 변환기를 통해 그래픽 인터페이스(514)와 통신할 수 있다. 디스플레이 장치에 의해 생성된 디스플레이 신호는 디스플레이(516)에 의해 해석된 다음에 디스플레이(516) 상에 디스플레이 되기 전에 다양한 제어 장치를 통해 지나갈 수 있다.

허브 인터페이스(518)는 MCH(508) 및 입력/출력 제어 허브(input/output control hub, ICH)(520)가 통신하는 것을 허용한다. ICH(520)는 컴퓨팅 시스템(500)과 통신하는 I/O 장치로 인터페이스를 제공할 수 있다. ICH(520)는 주변 컴포넌트 인터커넥트(peripheral component interconnect, PCI) 브리지, 유니버셜 시리얼 버스(universal serial bus, USB) 제어기, 또는 다른 유형의 주변 브리지 또는 제어기와 같은 주변 브리지(또는 제어기)(524)를 통해 버스(522)와 통신할 수 있다. 브리지(524)는 CPU(502)와 주변 장치 사이에 데이터 경로를 제공할 수 있다. 다른 유형의 토폴로지가 이용될 수 있다. 또한, 예를 들어 복수의 브리지 또는 제어기를 통해 복수의 버스가 ICH(520)와 통신할 수 있다. 더군다나, 본 발명의 다양한 실시예에서, ICH(520)와 통신 상태에 있는 다른 주변 장치는 인테그레이티드 드라이브 일렉트로닉스(integrated drive electronics, IDE) 또는 스몰 컴퓨터 시스템 인터페이스(small computer system interface, SCSI) 하드 드라이브, USB 포트, 키보드, 마우스, 병렬 포트, 직렬 포트, 플로피 디스크 드라이브, 디지털 출력 지지대(예를 들어, 디지털 비디오 인터페이스(digital video interface, DVI)), 또는 다른 장치를 포함할 수 있다.

버스(522)는 오디오 장치(526), 하나 이상의 디스크 드라이브(528), 및 (컴퓨터 네트워크(503)와 통신 상태에 있는) 네트워크 인터페이스 장치(530)와 통신할 수 있다. 다른 장치는 버스(522)를 통해 통신할 수 있다. 또한, 본 발명의 일부 실시예에서, (네트워크 인터페이스 장치(530)와 같은) 다양한 컴포넌트는 MCH(508)와 통신할 수 있다. 또한, 프로세서(502) 및 MCH(508)는 단일 칩을 형성하기 위해 조합될 수 있다. 추가로, 본 발명의 다른 실시예에서, 그래픽 가속기(graphics accelerator)(516)는 MCH(508) 내에 포함될 수 있다.

추가로, 컴퓨팅 시스템(500)은 휘발성 및/또는 비휘발성 메모리(또는 저장소)를 포함할 수 있다. 예를 들어, 비휘발성 메모리는 판독 전용 메모리(read-only memory, ROM), 프로그래밍 가능한 ROM(PROM), 삭제 가능한 PROM(EPROM), 전기적 EPROM(EEPROM), 디스크 드라이브(예를 들어, 528), 플로피 디스크, 콤팩트 디스크 ROM(CD-ROM), 디지털 버서타일 디스크(digital versatile disk, DVD), 플래시 메모리, 광자기 디스크(magneto-optical disk), 또는 (예를 들어, 명령어를 포함한) 전자 데이터를 저장할 수 있는 다른 유형의 비휘발성 머신 판독 가능한 매체 중에서 하나 이상의 매체를 포함할 수 있다.

도 6은 본 발명의 일 실시예에 따라 점 대 점(point-to-point(PtP)) 구성 내에 배열되는 컴퓨팅 시스템을 도시한다. 특히, 도 6은 프로세서, 메모리, 및 입력/출력 장치가 복수의 점 대 점 인터페이스에 의해 상호접속되는 시스템을 도시한다. 도 1 내지 도 5와 참조하여 논의된 동작은 시스템(600)의 하나 이상의 컴포넌트에 의해 수행될 수 있다.

도 6에 도시된 바와 같이, 시스템(600)은 복수의 프로세서를 포함할 수 있으며, 명료성을 위해 그 중에서 단지 두 개의 프로세서(602 및 604)만이 도시되어 있다. 프로세서(602 및 604)는 메모리(610 및 612)와의 통신을 가능하게 하는 국부 메모리 제어기 허브(memory controller hub, MCH)(606)를 각각 포함할 수 있다. 메모리(610 및/또는 612)는 도 5의 메모리(512)와 참조하여 논의된 것과 같은 다양한 데이터를 저장할 수 있다.

일 실시예에서, 프로세서(602 및 604)는 도 5와 관련하여 논의된 프로세서(502) 중에서 하나의 프로세서일 수 있다. 프로세서(602 및 604)는 점 대 점(point-to-point(PtP)) 인터페이스 회로(616 및 618)를 사용하여 PtP 인터페이스(614)를 통해 데이터를 각각 교환할 수 있다. 또한, 프로세서(602 및 604)는 각각 점 대 점 인터페이스(626, 628, 630 및 632)를 사용하여 개별 PtP 인터페이스(622 및 624)를 통해 칩셋(620)과 데이터를 교환할 수 있다. 칩셋(620)은 예를 들어 PtP 인터페이스 회로(637)를 사용하여 그래픽 인터페이스(636)를 통해 그래픽 회로(634)와 데이터를 더 교환할 수 있다.

본 발명의 적어도 하나의 실시예는 프로세서(602 및 604) 내에서 제공될 수 있다. 예를 들어, 도 1 내지 도 5의 코어(106)는 프로세서(602 및 604) 내에 위치될 수 있다. 그러나, 본 발명의 다른 실시예는 도 6의 시스템(600) 내의 다른 회로, 로직 유닛, 또는 장치 내에 존재할 수 있다. 추가로, 본 발명의 다른 실시예는 도 6에 도시된 복수의 회로, 로직 유닛, 또는 장치를 통해 분산될 수 있다.

칩셋(620)은 PtP 인터페이스 회로(641)를 사용하여 버스(640)와 통신할 수 있다. 버스(640)는 버스 브리지(642) 및 I/O 장치(643)와 같은 하나 이상의 장치와 통신할 수 있다. 버스(644)를 통해, 버스 브리지(642)는 키보드/마우스(645), (모뎀, 네트워크 인터페이스 장치, 또는 컴퓨터 네트워크(503)와 통신할 수 있는 다른 통신 장치와 같은) 통신 장치(646), 오디오 I/O 장치(647), 및/또는 데이터 저장 장치(648)와 같은 다른 장치와 통신할 수 있다. 데이터 저장 장치(648)는 프로세서(602 및/또는 604)에 의해 실행될 수 있는 코드(649)를 저장할 수 있다.

본 발명의 다양한 실시예에서, 예를 들어 도 1 내지 도 6과 관련하여 본 명세서에서 논의된 동작은 하드웨어(예를 들어, 로직 회로), 소프트웨어, 펌웨어, 또는 이들의 조합으로서 구현될 수 있으며, 이는 예를 들어 본 명세서에서 논의된 프로세스를 수행하도록 컴퓨터를 프로그래밍하기 위해 사용된 명령어(또는 소프트웨어 절차)을 저장하는 (예를 들어, 비일시적인(non-transitory)) 머신 판독 가능한 또는 컴퓨터 판독 가능 매체를 포함한 컴퓨터 프로그램 제품으로서 제공될 수 있다. 머신 판독 가능한 매체는 도 1 내지 도 6과 관련하여 논의된 것과 같은 저장 장치를 포함할 수 있다.

추가로, 이러한 컴퓨터 판독 가능 매체는 컴퓨터 프로그램 제품으로서 다운로드될 수 있고, 프로그램은 통신 링크(예를 들어, 버스, 모뎀, 또는 네트워크 접속)를 통해 반송파 또는 다른 전파 매체 내에 구현된 데이터 신호를 매개로 원격 컴퓨터(예를 들어, 서버)로부터 요청 컴퓨터(예를 들어, 클라이언트)로 전달될 수 있다.

명세서에서 "하나의 실시예(one embodiment)", "일 실시예(an embodiment)" 또는 "일부 실시예(some embodiments)"라는 지칭은 실시예와 관련하여 설명된 특별한 특징, 구조, 또는 특성이 적어도 일 구현예 내에 포함될 수 있다는 것을 의미한다. 명세서 내의 다양한 곳에서 어구 "하나의 실시예에서(in one embodiment)"의 출현은 동일한 실시예를 모두 지칭할 수 있거나 또는 지칭하지 않을 수 있다.

또한, 명세서 및 특허청구범위에서, 용어 "결합된(coupled)" 및 "접속된(connected)"이 그에 대한 파생어와 함께 사용될 수 있다. 본 발명의 일부 실시예에서, 두 개 이상의 요소가 서로 물리적으로 또는 전기적으로 직접 접촉한다는 것을 표시하기 위해 "접속된"이 사용될 수 있다. "결합된"은 두 개 이상의 요소가 물리적으로 또는 전기적으로 직접 접촉한다는 의미할 수 있다. 그러나, "결합된"은 또한 두 개 이상의 요소가 직접 서로 접촉하지 않지만 여전히 서로 협동하거나 상호작용할 수 있다는 것을 의미할 수 있다.

따라서, 본 발명의 실시예가 구조적인 특징 및/또는 방법론적 행위에 특유한 언어로 설명되었지만, 청구된 발명 대상은 설명된 특별한 특징 또는 행위로 제한되지 않을 수 있다는 점이 이해될 것이다. 오히려, 특별한 특징 및 행위는 청구된 발명 대상을 구현하는 예시적 형태로서 개시된다.

Claims

프로세서로서,
상기 프로세서의 복수의 프로세서 코어의 성능에 상응하는 정보를 저장하는 저장 유닛과,
애플리케이션이 상기 복수의 프로세서 코어 중 제 1 프로세서 코어 상에서 실행되는 경우와 상기 복수의 프로세서 코어 중 다른 프로세서 코어 상에서 실행되는 경우를 비교한 상기 애플리케이션의 예측된 성능의 비율에 기초하여, 상기 복수의 프로세서 코어 중 상기 애플리케이션을 실행하는 상기 제 1 프로세서 코어를 결정하고, 상기 제 1 프로세서 코어 상에서의 실행을 위해 상기 애플리케이션의 스케줄링을 야기하는 로직을 포함하되,
상기 성능은 상기 다른 프로세서 코어에 대하여 상기 저장된 정보로부터 상기 제 1 프로세서 코어에 대하여 예측된 것이며,
상기 로직은 상기 제 1 프로세서 코어 상에서의 상기 애플리케이션의 스케줄링을 야기하기 위해 운영 체제로 데이터를 전송하는
프로세서.
제 1 항에 있어서,
상기 로직은 콘텍스트 스위치의 검출에 응답하여 상기 제 1 프로세서 코어 상에서의 상기 애플리케이션의 스케줄링을 야기하기 위해 상기 운영 체제로 데이터를 전송하는
프로세서.
제 1 항에 있어서,
상기 프로세서의 상기 복수의 프로세서 코어의 상기 성능에 상응하는 상기 저장된 정보는 실행 성능 데이터 또는 전력 소비 성능 데이터를 포함하는
프로세서.
제 1 항에 있어서,
상기 로직은 수집된 정보에 기반하여 상기 저장된 정보를 업데이트하는
프로세서.
제 1 항에 있어서,
상기 로직은 상기 복수의 프로세서 코어 중에서 적어도 일부 프로세서 코어 상에서의 상기 애플리케이션의 실행 성능 또는 전력 소비 성능을 예측하는
프로세서.
제 1 항에 있어서,
상기 복수의 프로세서 코어는 이종(heterogeneous)인
프로세서.
제 1 항에 있어서,
상기 저장 유닛은 공유 메모리, 사유 캐시, 공유 캐시, 또는 전용 메모리를 포함하는
프로세서.
제 1 항에 있어서,
상기 저장된 정보는 상기 애플리케이션의 프로세스 제어 블록 내에 저장되는
프로세서.
제 1 항에 있어서,
상기 저장 유닛은 성능 이력 테이블(performance history table(PHT))을 저장하는
프로세서.
제 9 항에 있어서,
상기 PHT 내의 각각의 엔트리는 적어도 프로세스 식별자와, 상기 복수의 프로세서 코어에 상응하는 복수의 명령어 당 사이클(cycles per instruction)을 저장하는
프로세서.
제 1 항에 있어서,
상기 저장 유닛은 하나 이상의 성능 계수기를 저장하는
프로세서.
제 11 항에 있어서,
상기 하나 이상의 성능 계수기는 코어 클록 사이클, 실행 완료된 명령어(instructions retired), 레벨 2 캐시 미스, 스케줄러 스톨, 리소스 스톨, 또는 브랜치 스톨을 포함하는
프로세서.
프로세서의 복수의 이종 프로세서 코어의 성능에 상응하는 정보를 저장하는 단계와,
애플리케이션이 상기 복수의 프로세서 코어 중 제 1 프로세서 코어 상에서 실행되는 경우와 상기 복수의 프로세서 코어 중 다른 프로세서 코어 상에서 실행되는 경우를 비교한 상기 애플리케이션의 예측된 성능의 비율에 기초하여, 상기 복수의 프로세서 코어 중 상기 애플리케이션을 실행하는 상기 제 1 프로세서 코어를 결정하는 단계―상기 성능은 상기 다른 프로세서 코어에 대하여 상기 저장된 정보로부터 상기 제 1 프로세서 코어에 대하여 예측된 것임―와,
상기 제 1 프로세서 코어에 상응하는 데이터의 운영 체제로의 전송에 응답하여 상기 제 1 프로세서 코어 상에서의 실행을 위해 상기 애플리케이션을 스케줄링하는 단계를 포함하는
방법.
제 13 항에 있어서,
상기 데이터의 전송은 콘텍스트 스위치의 검출에 응답하는
방법.
제 13 항에 있어서,
상기 프로세서의 상기 복수의 프로세서 코어의 상기 성능에 상응하는 상기 저장된 정보는 실행 성능 데이터 또는 전력 소비 성능 데이터를 포함하는
방법.
제 13 항에 있어서,
수집된 정보에 기반하여 상기 저장된 정보를 업데이트하는 단계를 더 포함하는
방법.
제 13 항에 있어서,
상기 복수의 프로세서 코어 중에서 적어도 일부 프로세서 코어 상에서의 상기 애플리케이션의 실행 성능 또는 전력 소비 성능을 예측하는 단계를 더 포함하는
방법.
제 13 항에 있어서,
상기 정보를 저장하는 단계는 상기 정보를 상기 애플리케이션의 프로세스 제어 블록 내에 저장하는
방법.
제 13 항에 있어서,
상기 저장된 정보는
성능 이력 테이블(PHT) - 상기 PHT 내의 각각의 엔트리는 프로세스 식별자와, 상기 복수의 프로세서 코어에 상응하는 복수의 명령어 당 사이클을 적어도 저장함 -, 또는
코어 클록 사이클, 실행 완료된 명령어, 레벨 2 캐시 미스, 스케줄러 스톨, 리소스 스톨, 또는 브랜치 스톨을 포함하는 하나 이상의 성능 계수기 내에 저장되는
방법.
복수의 프로세서 코어를 포함하는 프로세서와,
상기 프로세서의 상기 복수의 프로세서 코어의 성능에 상응하는 정보를 저장하는 저장 유닛―상기 복수의 프로세서 코어 중에서 적어도 하나의 프로세서 코어는, 애플리케이션이 상기 복수의 프로세서 코어 중 제 1 프로세서 코어 상에서 실행되는 경우와 상기 복수의 프로세서 코어 중 다른 프로세서 코어 상에서 실행되는 경우를 비교한 상기 애플리케이션의 예측된 성능의 비율에 기초하여, 상기 복수의 프로세서 코어 중 상기 애플리케이션을 실행하는 상기 제 1 프로세서 코어를 결정하고 상기 제 1 프로세서 코어 상에서의 실행을 위해 상기 애플리케이션의 스케줄링을 야기하는 로직을 포함하되, 상기 성능은 상기 다른 프로세서 코어에 대하여 상기 저장된 정보로부터 상기 제 1 프로세서 코어에 대하여 예측된 것이며, 상기 로직은 콘텍스트 스위치의 검출에 응답하여 상기 제 1 프로세서 코어 상에서의 상기 애플리케이션의 스케줄링을 야기하기 위해 운영 체제로 데이터를 전송함―을 포함하는
컴퓨팅 시스템.
제 20 항에 있어서,
상기 프로세서의 상기 복수의 프로세서 코어의 상기 성능에 상응하는 상기 저장된 정보는 실행 성능 데이터 또는 전력 소비 성능 데이터를 포함하는
컴퓨팅 시스템.
제 20 항에 있어서,
상기 로직은 상기 복수의 프로세서 코어 중에서 적어도 일부 프로세서 코어 상에서의 상기 애플리케이션의 실행 성능 또는 전력 소비 성능을 예측하는
컴퓨팅 시스템.
제 20 항에 있어서,
상기 복수의 프로세서 코어는 이종인
컴퓨팅 시스템.
제 20 항에 있어서,
상기 저장 유닛은 성능 이력 테이블(PHT)을 저장하며, 상기 PHT 내의 각각의 엔트리는 프로세스 식별자와, 상기 복수의 프로세서 코어에 상응하는 복수의 명령어 당 사이클을 적어도 저장하는
컴퓨팅 시스템.
제 20 항에 있어서,
상기 저장 유닛은 하나 이상의 성능 계수기를 저장하며, 상기 하나 이상의 성능 계수기는 코어 클록 사이클, 실행 완료된 명령어, 레벨 2 캐시 미스, 스케줄러 스톨, 리소스 스톨, 또는 브랜치 스톨을 포함하는
컴퓨팅 시스템.
제 20 항에 있어서,
상기 프로세서 코어에 결합된 오디오 장치를 더 포함하는
컴퓨팅 시스템.
명령어를 저장하는 컴퓨터 판독가능 매체로서,
상기 명령어는 프로세서에 의해 실행될 때 상기 프로세서로 하여금,
상기 프로세서의 복수의 이종 프로세서 코어의 성능에 상응하는 정보를 저장하게 하고,
애플리케이션이 상기 복수의 프로세서 코어 중 제 1 프로세서 코어 상에서 실행되는 경우와 상기 복수의 프로세서 코어 중 다른 프로세서 코어 상에서 실행되는 경우를 비교한 상기 애플리케이션의 예측된 성능의 비율에 기초하여, 상기 복수의 프로세서 코어 중 상기 애플리케이션을 실행하는 상기 제 1 프로세서 코어를 결정―상기 성능은 상기 다른 프로세서 코어에 대하여 상기 저장된 정보로부터 상기 제 1 프로세서 코어에 대하여 예측된 것임―하게 하며,
상기 제 1 프로세서 코어에 상응하는 데이터의 운영 체제로의 전송에 응답하여 상기 제 1 프로세서 코어 상에서의 실행을 위해 상기 애플리케이션을 스케줄링하게 하는
컴퓨터 판독가능 매체.
제 27 항에 있어서,
상기 명령어는 상기 프로세서로 하여금,
콘텍스트 스위치의 검출에 응답하여 상기 데이터의 전송을 야기하게 하는
컴퓨터 판독가능 매체.
제 27 항에 있어서,
상기 프로세서의 상기 복수의 프로세서 코어의 상기 성능에 상응하는 상기 저장된 정보는 실행 성능 데이터 또는 전력 소비 성능 데이터를 포함하는
컴퓨터 판독가능 매체.
제 27 항에 있어서,
상기 명령어는 상기 프로세서로 하여금,
상기 복수의 프로세서 코어 중에서 적어도 일부 프로세서 코어 상에서의 상기 애플리케이션의 실행 성능 또는 전력 소비 성능을 예측하게 하는
컴퓨터 판독가능 매체.