KR20140134190A

KR20140134190A - 멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법

Info

Publication number: KR20140134190A
Application number: KR1020130054031A
Authority: KR
Inventors: 웅 서; 조연곤; 류수정; 송석우; 김동준; 이민석
Original assignee: 삼성전자주식회사; 한국과학기술원
Priority date: 2013-05-13
Filing date: 2013-05-13
Publication date: 2014-11-21
Also published as: US20150331719A1; US20140337849A1; US10585709B2; US9645855B2; KR101553649B1; US9274845B2; US20150143383A1

Abstract

멀티 코어 시스템의 각 코어에 할당되는 작업의 최대 건수를 동적으로 관리하여 공유되는 자원에 기인한 코어의 성능 감소를 최소화하는 멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법이 개시된다.
일 측면에 따른 멀티 코어 시스템은, 액티브 사이클의 개수를 저장하는 액티브 사이클 계수부 및 스톨 사이클의 개수를 저장하는 스톨 사이클 계수부를 포함하는 적어도 하나의 코어; 상기 적어도 하나의 코어마다 적어도 하나의 작업을 할당하는 작업 스케줄러; 상기 코어와 상기 작업 스케줄러의 입출력 데이터를 저장하는 메모리; 및 상기 적어도 하나의 코어, 상기 작업 스케줄러 및 상기 메모리를 연결하는 네트워크를 포함한다.

Description

멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법{MULTICORE SYSTEM AND JOB SCHEDULING METHOD THEREOF}

멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법에 관련된다. 보다 상세하게는, 멀티 코어 시스템의 각 코어에 할당되는 작업의 최대 건수를 동적으로 관리하는 멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법에 관련된다.

멀티 코어 시스템의 응용(application), 특히 그래픽스 및 범용 GPU(GPGPU: General Purpose computing on Graphics Processing Units)의 응용은 처리 대상이 되는 대량의 데이터를 병렬화(parallelism)하기 왕이하다. 처리 대상이 되는 데이터 상호 간에 의존성(dependency)가 없기 때문이다.

도 1은 일반적인 멀티 코어 시스템의 구성을 예시한 블록도이다.

도 1에서 나타낸 바와 같이, 멀티 코어 시스템(1)은 작업 스케줄러(10), 다수의 코어(11), 다수의 메모리(12) 및 이들을 상호 연결하는 네트워크(13)를 포함하여 이루어진다.

작업 스케줄러(job scheduler)(10)는 멀티 코어를 이루는 각 코어의 자원(resource) 상태에 따라 작업(job)을 코어마다 분배한다. 작업은 코어에서 일괄 처리되는 다수의 데이터의 묶음을 말한다.

코어(11)는 할당된 하나의 작업 또는 다수의 작업을 처리한다. 이 때, 한 사이클(cycle)에 동시에 처리할 수 있는 단위로 나누어 관리하기 위하여 레지스터 파일 및 소규모의 캐시(pivate cache) 또는 메모리(scratchpad memory)를 갖는다.

메모리(12)는 입출력 데이터를 저장한다. 메모리(12)는 모든 코어(11)에 의해 공유된다.

네트워크(13)는 작업 스케줄러(10), 다수의 코어(11), 다수의 메모리(12)를 서로 연결하며, 데이터와 제어 신호의 전달 경로가 된다.

한편, 일반적으로, 가용 컴퓨팅 자원을 최대로 활용할수록 병렬화에 의한 성능 향상의 효과가 더욱 두드러지는 것으로 알려져 있다. 코어마다 독립적인 자원(코어 내의 레지스터 파일, 스크래치패드 메모리, 컴퓨팅 유닛 등)을 주로 사용하는 응용의 경우, 작업의 건수를 증가시킬 수록 메모리 액세스 지연(memory access latency)이나 파이프라인 지연(pipeline patency)으로 인한 영향이 감소되어 전체적인 성능이 향상된다.

따라서, 작업 스케줄러(10)는 코어(11)의 자원 상태, 예컨대 레지스터 파일의 상태 및 공유 메모리의 상태를 고려하여 각 코어(11)가 처리할 수 있는 최대 건수의 작업을 할당한다.

그러나, 모든 코어가 공유하는 메모리, 예컨대 도 1의 메모리(12)를 주로 사용하는 응용의 경우, 네트워크(13) 및 메모리(12)의 최대 대역폭(bandwidth)의 한계로 인하여, 작업의 건수를 증가시켜도 성능 향상이 이루어지지 않는 경우가 있다. 또한, 과도한 트래픽이 유발하는 네트워크 정체(network congestion) 및 L2 캐시 용량의 고갈 등에 따라, 오히려 작업의 건수를 증가시킬 때 성능이 저하되는 경우가 발생하기도 한다.

도 2는 응용별 작업의 건수에 따른 IPC의 변화를 예시한 그래프이다.

도 2에서 예시한 바와 같이, 응용 A(application A)의 경우, 작업 건수가 4건이 되는 지점(20)까지는 성능(Normalized IPC)이 향상된다. 그러나, 작업 건수가 4건을 초과하는 경우에는 오히려 성능이 저하되는 양상을 나타낸다.

마찬가지로, 응용 B(application B)의 경우, 작업 건수가 5건이 되는 지점(21)까지는 성능이 향상되는 반면, 작업 건수가 5건을 초과하는 경우에는 성능이 저하되며, 응용 C(application C)의 경우, 작업 건수가 2건이 되는 지점(22)까지는 성능이 향상되는 반면, 작업 건수가 5건을 초과하는 경우에는 성능이 저하되는 양상을 나타낸다.

따라서, 성능이 저하되지 않는 작업 건수의 한도 내에서 각 코어에 작업을 할당하는 스케줄링이 필요하다.

멀티 코어 시스템의 각 코어에 할당되는 작업의 최대 건수를 동적으로 관리하여 공유되는 자원에 기인한 코어의 성능 감소를 최소화하는 멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법을 제공하는 것을 목적으로 한다.

일 측면에 따른 멀티 코어 시스템은, 액티브 사이클의 개수를 저장하는 액티브 사이클 계수부 및 스톨 사이클의 개수를 저장하는 스톨 사이클 계수부를 포함하는 적어도 하나의 코어; 상기 적어도 하나의 코어마다 적어도 하나의 작업을 할당하는 작업 스케줄러; 상기 코어와 상기 작업 스케줄러의 입출력 데이터를 저장하는 메모리; 및 상기 적어도 하나의 코어, 상기 작업 스케줄러 및 상기 메모리를 연결하는 네트워크를 포함한다.

다른 측면에 따른 멀티 코어 시스템의 작업 스케줄링 방법은, 코어로부터 전송된 액티브 사이클의 개수 및 스톨 사이클의 개수를 기초로 상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율을 계산하는 단계; 및 상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율이 임계값을 초과한 경우, 상기 특정 코어에 할당하는 작업 건수를 감소시키고, 상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율이 임계값을 초과하지 않은 경우, 상기 특정 코어에 할당하는 작업 건수를 유지하는 단계;를 포함한다.

멀티 코어 시스템의 각 코어에 할당되는 작업의 최대 건수를 동적으로 관리하여 공유되는 자원에 기인한 코어의 성능 감소를 최소화하는 멀티 코어 시스템 및 멀티 코어 시스템의 작업 스케줄링 방법을 구현할 수 있는 효과가 있다.

도 1은 일반적인 멀티 코어 시스템의 구성을 예시한 블록도이다.
도 2는 응용별 작업의 건수에 따른 IPC의 변화를 예시한 그래프이다.
도 3은 일 측면에 따른 멀티 코어 시스템을 예시한 블록도이다.
도 4는 멀티 코어 시스템의 동적 스케줄링 방법을 예시한 흐름도이다.
도 5는 다른 측면에 따른 멀티 코어 시스템을 예시한 블록도이다.
도 6은 L1 캐시를 포함하는 멀티 코어 시스템의 작업 스케줄링 방법을 예시한 흐름도이다.

이하, 첨부된 도면을 참조하여 실시를 위한 구체적인 예를 상세히 설명한다.

도 3은 일 측면에 따른 멀티 코어 시스템을 예시한 블록도이다.

도 3에서 나타낸 바와 같이, 멀티 코어 시스템(3)은 작업 스케줄러(30), 다수의 코어(31), 다수의 메모리(32) 및 이들을 상호 연결하는 네트워크(33)를 포함하여 이루어진다.

작업 스케줄러(30)는 멀티 코어를 이루는 각 코어의 자원(resource) 상태에 따라 작업(job)을 코어마다 분배하여 할당한다.

코어(31)는 할당된 하나의 작업 또는 다수의 작업을 처리한다. 이 때, 한 사이클(cycle)에 동시에 처리할 수 있는 단위로 나누어 관리하기 위하여 레지스터 파일 및 소규모의 캐시(pivate cache) 또는 스크래치패드 메모리(scratchpad memory)를 갖는다.

메모리(32)는 입출력 데이터를 저장한다. 메모리(32)는 모든 코어(31)에 의해 공유된다.

네트워크(33)는 작업 스케줄러(30), 다수의 코어(31), 다수의 메모리(32)를 서로 연결하며, 데이터와 제어 신호의 전달 경로가 된다.

한편, 각각의 코어(31)는 프론트엔드부(300), 실행부(310), 메모리 액세스부(320), 기록부(330), 액티브 사이클 계수부(340) 및 스톨 사이클 계수부(350)를 더 포함한다.

프론트엔드부(300)는 할당된 작업의 명령어(instruction)를 메모리(32) 또는 캐시(도면에 나타내지 않음)로부터 읽어오며, 이를 실행부(310)로 전달한다.

또한, 프론트엔드부(300)는 명령어 상호 간의 의존성을 확인하여, 사이클(cycle) 내에서 의존성이 해소되지 않은 경우에는 그 사이클에서 명령어의 전달을 보류한다. 시스템의 자원이 부족한 경우에도 명령어의 전달을 보류할 수 있다. 이처럼 프론트엔드부(300)로부터 실행부(310)로 유효한 명령어가 전달되지 못한 상황을 스톨 상황(stall condition)이라고 하며, 스톨 상황이 발생한 사이클을 스톨 사이클(stall cycle)이라 한다.

프론트엔드부(300)가 실행부(310)로 유효한 명령어를 전달한 경우, 액티브 상황(active condition)이라고 하며, 액티브 상황이 발생한 사이클을 액티브 사이클(active cycle)이라 한다.

실행부(310)는 프론트엔드부(300)로부터 입력된 데이터를 명령어의 유형에 따라 처리한다.

메모리 액세스부(320)는 메모리(32)로부터 데이터를 읽어 오거나, 메모리(32)에 데이터를 기록한다.

기록부(330)는 실행부(310)에서 처리를 마친 데이터 또는 메모리 액세스부(320)에 의해 메모리(32)로부터 읽어온 데이터를 코어(31)의 레지스터 파일(도면에 나타내지 않음)에 기록한다.

액티브 사이클 계수부(340)는 프론트엔드부(300)에서 실행부(310)로 명령어를 전달할 때에, 액티브 사이클의 개수를 기록한다. 또한, 스톨 사이클 계수부(350)는 프론트엔드부(300)에서 실행부(310)로 명령어를 전달할 때에 스톨 사이클의 개수를 기록한다.

스톨 사이클 개수와 액티브 사이클 개수 사이에는 표 1과 같이 사이클비를 정의할 수 있다.

[표 1]

(사이클비) = (스톨 사이클 개수)/(액티브 사이클 개수).

앞서 설명한 바와 같이, 응용에 따라서는 작업 건수가 임계값(threshold)을 초과하는 경우 오히려 성능이 저하되는 양상을 나타낸다. 이 경우, 스톨 사이클의 개수가 증가하는 현상이 나타난다.

따라서, 사이클비가 증가한다는 것은 코어의 처리 성능이 저하된다는 의미로 해석할 수 있다.

도 3의 멀티 코어 시스템(3)에서, 작업 스케줄러(30)는 다수의 코어(31) 중 특정 코어의 사이클비가 일정 값, 예컨대 "1"을 초과하는 경우에는, 그 코어에 대한 최대 작업 건수를 낮춤으로써 작업 스케줄링을 수행한다.

이를 위하여, 작업 스케줄러(30)는 다수의 코어(31)의 각각의 액티브 사이클 계수부(340) 및 스톨 사이클 계수부(350)로부터 그 코어의 액티브 사이클 개수 및 스톨 사이클 개수를 수신한 후, 사이클비를 계산하여 각 코어에 대한 작업 스케줄링을 수행할 수 있다.

또는, 다수의 코어(31)의 각각의 프론트엔드부(300)는, 그 코어의 액티브 사이클 계수부 사이클 계수부(340) 및 스톨 사이클 계수부(350)에 저장된 그 코어의 액티브 사이클 개수 및 스톨 사이클 개수에 기초하여 사이클비를 계산할 수 있다. 이 경우, 작업 스케줄러(30)는 각 코어의 프론트엔드부(300)로부터 그 코어의 사이클비를 수신한 후, 각 코어의 최대 작업 건수를 조정함으로써 작업 스케줄링을 수행할 수 있다.

도 4는 멀티 코어 시스템의 작업 스케줄링 방법을 예시한 흐름도이다.

도 4에서는 도 3의 멀티 코어 시스템의 멀티 코어 중 하나의 코어에 대해서 이루어지는 작업 스케줄러의 작업 스케줄링을 예시하였다.

먼저, 작업 스케줄러는 그 코어에 대한 최대 할당 작업 건수(N_max)를 그 코어에 대한 최적 할당 작업 건수(N_optimal)로 설정한 후, 최대 할당 작업 건수(N_max)만큼의 작업을 할당한다(S100).

코어는 작업 스케줄러가 할당한 작업을 수행한다(S110). 모든 작업이 완료되지 않았으면, 모든 작업이 완료될 때까지 계속 작업을 수행한다(S120).

코어에서 모든 작업의 수행이 완료되면, 코어는 네트워크를 통하여 작업 스케줄러에 작업 수행 완료 사실을 알린다. 이 때, 액티브 사이클 개수 및 스톨 사이클 개수를 작업 스케줄러에 함께 알린다. 이와 함께, 작업 스케줄러는 그 코어로부터 전송된 액티브 사이클 개수 및 스톨 사이클 개수에 기초하여, 표 1에서 정의한 바와 같이 사이클비를 계산한다(S130).

만약 코어의 사이클비가 1을 초과하면, 코어에서 스톨 사이클이 차지하는 비율이 높다는 의미이므로, 작업 스케줄러는 코어에 대한 최적 할당 작업 건수(N_optimal)를 "1"만큼 감소시킨다(S140). 반면, 코어의 사이클비가 1을 초과하지 않는다면, 코어에서 스톨 사이클이 차지하는 비율이 높지 않다는 의미이므로, 작업 스케줄러는 코어에 대한 최적 할당 작업 건수를 변경하지 않는다(S140).

코어에서 모든 작업의 수행이 완료되었으므로, 작업 스케줄러는 신규 작업을 할당하여야 한다. 이 때, 작업 스케줄러는 신규 작업 할당 건수(N)가 최적 작업 할당 건수(N_optimal)보다 적은 경우, 최적 작업 할당 건수(N_optimal)를 "1"만큼 증가시키고, 그렇지 않은 경우 최적 작업 할당 건수(N-optimal)를 변경하지 않는다(S160).

이후, 작업 스케줄러는 단계(S160)에서 신규 작업 할당 건수(N)가 최적 작업 할당 건수(N_optimal)보다 적은 경우, 코어에 신규 작업을 할당한다(S170).

단계(S100~S170)는 각각의 코어에 대해서 독립적으로 수행됨으로써, 각 코어마다 그 코어에 대한 최적 작업 할당 건수가 할당될 수 있다. 또한, 최적 작업 할당 건수가 사이클비를 고려하여 작업 스케줄러에 의하여 동적으로 증가 또는 감소되므로, 코어의 성능이 저하되지 않도록 실시간으로 코어에 할당되는 작업의 건수가 변화한다.

한편, 작업 스케줄러는 코어에서 최초로 할당받은 작업을 실행할 때에는, 최적 작업 할당 건수(N-optimal)을 구하기 위하여 소정 시간(T_monitor)동안 모니터링을 할 수 있다. 소정 시간(T_monitor)은 예컨대 각 코어에서 처음 CTA가 종료하는 데에 소요된 사이클이 될 수 있다. 작업 스케줄러는 소정 시간(T_monitor)동안 액티브 사이클 개수와 스톨 사이클 개수를 지속적으로 관찰하여 사이클비(r)를 구한 후 최적 작업 할당 건수(N_optimal)를 구할 수 있다.

도 5는 다른 측면에 따른 멀티 코어 시스템을 예시한 블록도이다.

도 5에서 나타낸 바와 같이, 멀티 코어 시스템(5)은 작업 스케줄러(50), 다수의 코어(51), 다수의 메모리(52) 및 이들을 상호 연결하는 네트워크(53)를 포함하여 이루어진다. 도 5의 멀티 코어 시스템(5)의 각 구성요소의 기능은 도 3의 멀티 코어 시스템(3)의 각 구성요소의 기능에 대응된다.

또한, 각각의 코어(51)는 프론트엔드부(500), 실행부(510), 메모리 액세스부(520), 기록부(530), 액티브 사이클 계수부(540), 스톨 사이클 계수부(550) 및 L1 캐시(560)를 더 포함한다.

프론트엔드부(500)는 할당된 작업의 명령어(instruction)를 메모리(52) 또는 L1 캐시(560)로부터 읽어오며, 이를 실행부(510)로 전달한다.

또한, 프론트엔드부(500)는 명령어 상호 간의 의존성을 확인하여, 사이클(cycle) 내에서 의존성이 해소되지 않은 경우에는 그 사이클에서 명령어의 전달을 보류한다. 시스템의 자원이 부족한 경우에도 명령어의 전달을 보류할 수 있다. 이처럼 프론트엔드부(500)로부터 실행부(510)로 유효한 명령어가 전달되지 못한 상황을 스톨 상황(stall condition)이라고 하며, 스톨 상황이 발생한 사이클을 스톨 사이클(stall cycle)이라 한다.

프론트엔드부(500)가 실행부(510)로 유효한 명령어를 전달한 경우, 액티브 상황(active condition)이라고 하며, 액티브 상황이 발생한 사이클을 액티브 사이클(active cycle)이라 한다.

실행부(510)는 프론트엔드부(500)로부터 입력된 데이터를 명령어의 유형에 따라 처리한다.

메모리 액세스부(520)는 메모리(52)로부터 데이터를 읽어 오거나, 메모리(52)에 데이터를 기록한다.

기록부(530)는 실행부(510)에서 처리를 마친 데이터 또는 메모리 액세스부(520)에 의해 메모리(52)로부터 읽어온 데이터를 코어(51)의 레지스터 파일(도면에 나타내지 않음)에 기록한다.

액티브 사이클 계수부(540)는 프론트엔드부(500)에서 실행부(510)로 명령어를 전달할 때에, 액티브 사이클의 개수를 기록한다. 또한, 스톨 사이클 계수부(550)는 프론트엔드부(500)에서 실행부(510)로 명령어를 전달할 때에 스톨 사이클의 개수를 기록한다.

L1 캐시(560)는 코어(51)에서 처리되는 작업, 명령어 및 데이터 등을 임시 저장한다. L1 캐시(560)는 접근 속도가 빠를 뿐만 아니라, 코어마다 독립적으로 처리될 수 있으므로 시스템의 성능 향상에 기여한다. 그러나, 일반적으로 작은 크기의 캐시 메모리로 인하여, 참조되는 데이터 간의 충돌이 빈번하게 발생하며, 이는 성능 저하를 유발한다. 따라서, L1 캐시(560)를 사용하는 경우에는 코어에 할당된 작업 상호 간의 데이터 로컬리티(data locality)를 고려하여야 한다.

도 6은 L1 캐시를 포함하는 멀티 코어 시스템의 작업 스케줄링 방법을 예시한 흐름도이다.

도 6에서 나타낸 바와 같이, 먼저 특정 코어의 L1 캐시의 라인 사이즈(LS: line size)를 작업의 연속한 입력 데이터의 크기(JS: job size)로 나누었을 때의 몫(quotient)을 비교대상값(t_r)으로 설정한다(S200).

그 코어에서 하나의 작업이 수행되면(S210), 작업 스케줄러는 코어에 할당될 수 있는 작업의 건수(vs)를 비교대상값(t_r)과 비교한다(S220).

만약 코어에 할당될 수 있는 작업의 건수(vs)가 비교대상값(t_r)보다 크지 않으면, 코어는 계속해서 다음 작업을 수행하되, 만약 코어에 할당될 수 있는 작업의 건수(vs)가 비교대상값(t_r)보다 크면, 작업 스케줄러는 그 코어에 신규 작업을 할당한다(S230).

비교대상값(t_r), 즉 코어의 L1 캐시의 라인 사이즈(LS: line size)를 작업의 연속한 입력 데이터의 크기(JS: job size)로 나누었을 때의 몫(quotient)이 할당된 작업 건수(N)인 경우, 연속하거나 인접한 작업들의 입력 데이터는 하나의 캐시 라인을 공유하여 접근할 가능성이 크다. 따라서, L1 캐시를 포함하는 멀티 코어 시스템에서, 작업 스케줄러는 매 작업이 종료할 때마다 신규 작업을 할당하는 것이 아니라, N개의 작업을 동시에 할당할 수 있을 때까지 기다린 후 할당함으로써 캐시 라인의 활용도를 향상시킬 수 있다.

한편, 본 발명의 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

나아가 전술한 실시 예들은 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 권리범위가 특정 실시 예에 한정되지 아니할 것이다.

Claims

액티브 사이클의 개수를 저장하는 액티브 사이클 계수부 및 스톨 사이클의 개수를 저장하는 스톨 사이클 계수부를 포함하는 적어도 하나의 코어;
상기 적어도 하나의 코어마다 적어도 하나의 작업을 할당하는 작업 스케줄러;
상기 코어와 상기 작업 스케줄러의 입출력 데이터를 저장하는 메모리; 및
상기 적어도 하나의 코어, 상기 작업 스케줄러 및 상기 메모리를 연결하는 네트워크를 포함하는 멀티 코어 시스템.
제1항에 있어서,
상기 코어는 프론트엔드부 및 실행부를 더 포함하며,
상기 프론트엔드부는 명령어가 상기 실행부로 전달될 때에 상기 액티브 사이클 및 상기 스톨 사이클을 상기 액티브 사이클 계수부 및 상기 스톨 사이클 계수부에 각각 저장하는 멀티 코어 시스템.
제2항에 있어서,
상기 작업 스케줄러는, 상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율에 기초하여 상기 적어도 하나의 코어마다 할당할 작업 건수를 결정하는 멀티 코어 시스템.
제3항에 있어서,
상기 작업 스케줄러는, 특정 코어의 액티브 사이클의 개수에 대한 스톨 사이클의 개수의 비율이 임계값을 초과한 경우, 상기 특정 코어에 할당하는 작업 건수를 감소시키는 멀티 코어 시스템.
코어로부터 전송된 액티브 사이클의 개수 및 스톨 사이클의 개수를 기초로 상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율을 계산하는 단계; 및
상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율이 임계값을 초과한 경우, 상기 특정 코어에 할당하는 작업 건수를 감소시키고, 상기 액티브 사이클의 개수에 대한 상기 스톨 사이클의 개수의 비율이 임계값을 초과하지 않은 경우, 상기 특정 코어에 할당하는 작업 건수를 유지하는 단계;를 포함하는 멀티 코어 시스템의 작업 스케줄링 방법.
제5항에 있어서,
상기 특정 코어에 현재 할당되어 있는 작업의 건수가 상기 특정 코어의 최적 작업 건수보다 작은 경우, 신규 작업을 상기 특정 코어에 할당함과 함께 상기 최적 작업 건수를 증가시키는 단계;를 더 포함하는 멀티 코어 시스템의 작업 스케줄링 방법.
제5항에 있어서,
상기 특정 코어에 현재 할당되어 있는 작업의 건수가 상기 특정 코어의 최적 작업 건수보다 작지 않은 경우, 상기 특정 코어에 신규 작업을 할당하지 않는 단계;를 더 포함하는 멀티 코어 시스템의 작업 스케줄링 방법.
제5항에 있어서,
상기 멀티 코어 시스템이 L1 캐시를 갖는 경우, 작업의 연속한 입력 데이터의 크기와 L1 캐시 라인 사이즈를 고려하여 각 코어에 동시 할당되는 작업의 건수를 조절하는 단계;를 더 포함하는 멀티 코어 시스템의 작업 스케줄링 방법.