WO2014175636A1

WO2014175636A1 - 심드 구조 기반의 쓰레드 분기 관리 장치 및 방법

Info

Publication number: WO2014175636A1
Application number: PCT/KR2014/003504
Authority: WO
Inventors: 진승훈
Original assignee: 삼성전자 주식회사
Priority date: 2013-04-22
Filing date: 2014-04-22
Publication date: 2014-10-30
Also published as: KR102102166B1; US10831490B2; US20160132338A1; KR20140126193A

Abstract

조건 분기 등에 의해 발생하는 쓰레드 분기를 효율적으로 관리하기 위한 심드(SIMD) 구조 기반의 장치에 관한 것이다. 일 실시예에 따르면, 장치는 둘 이상의 프론트 엔드 유닛(Front End Unit) 및 심드 레인(SIMD LANE) 가용 정보에 기초하여 쓰레드 그룹을 스케줄링하고, 둘 이상의 프론트 엔드 유닛 중에서 적어도 하나의 프론트 엔드 유닛을 활성화하여 그 활성화된 프론트 엔드 유닛으로 하여금 스케줄링 된 쓰레드 그룹을 처리하기 위한 명령어를 인출하도록 제어하는 제어 유닛을 포함할 수 있다.

Description

심드 구조 기반의 쓰레드 분기 관리 장치 및 방법

조건 분기 등에 의해 발생하는 쓰레드 분기를 효율적으로 관리하기 위한 심드(SIMD) 구조 기반의 장치와 그 방법에 관한 것이다.

그래픽스나 물리 연산 등의 응용은 많은 데이터에 대해 동일한 연산을 반복적으로 수행하는 특징이 있다. 따라서, 이러한 응용에는 단일 명령어로 다중 데이터를 처리하는 SIMD(Single Instruction, Multiple Data) 프로그래밍 모델이 일반적으로 사용된다. 또한, 최근에는 보다 유연한 프로그래밍 모델의 지원을 위해 SIMD의 각 레인(Lane)을 하나의 데이터 대신 하나의 논리적 쓰레드에 대응하여 쓰레드 수준의 병렬성을 이용한 방식이 널리 사용된다.

하지만, SIMD의 각 레인은 하나의 논리적 쓰레드에 대응하기 때문에 조건 분기가 발생하는 경우 SIMD 레인이 다른 제어 경로를 따를 수 있으며, 다른 제어 경로의 명령어가 발행될 때에는 그 명령어를 실행할 필요가 없는 SIMD 레인은 쉬어야 하기 때문에 상당한 성능의 저하가 일어난다. 이와 같이, 쓰레드 그룹에서 분기가 발생하는 경우 플래그(flag)를 두어 각 분기에 대하여 실행할 쓰레드를 구분하고 이로 인해 쉬게 되는 SIMD 레인에 대하여는 동일한 PC(Program Counter)를 가진 다른 쓰레드 그룹의 쓰레드를 병합하여 효율성을 높이는 방법이 제시되고 있으나, 각 쓰레드 그룹간의 상관 관계를 모니터링하여야 하고 일반적으로 쓰레드 그룹의 진행 정도는 일정하지 않기 때문에 성능 향상을 기대하기 어렵다.

둘 이상의 프론트-엔드 유닛을 구비한 SIMD 구조 기반의 분기 쓰레드 관리 장치와 그 장치를 통해 분기 등에 의해 제어가 나뉘는 경우 유휴 SIMD 레인을 최소화하여 성능을 향상시키는 분기 쓰레드 관리 방법이 제시된다.

일 양상에 따르면, 심드 구조(SIMD Architecture) 기반의 쓰레드 분기(thread divergence)를 관리하는 장치는 둘 이상의 프론트 엔드 유닛(Front End Unit) 및 심드 레인(SIMD LANE) 가용 정보에 기초하여 쓰레드 그룹을 스케줄링하고, 둘 이상의 프론트 엔드 유닛 중에서 적어도 하나의 프론트 엔드 유닛을 활성화하여 그 활성화된 프론트 엔드 유닛으로 하여금 스케줄링 된 쓰레드 그룹을 처리하기 위한 명령어를 인출하도록 제어하는 제어 유닛을 포함할 수 있다.

제어 유닛은 분기 명령어에 의해 쓰레드 그룹에서 쓰레드 분기가 발생하면 상기 쓰레드 그룹에 대한 액티브 쓰레드의 정보를 관리하는 액티브 쓰레드 매니저를 포함할 수 있다.

제어 유닛은 액티브 쓰레드 매니저의 액티브 쓰레드 정보를 기초로 가용한 심드 레인을 확인하여 심드 레인 가용 정보를 관리하는 심드 레인 매니저를 더 포함할 수 있다.

추가적인 양상에 따르면, 장치는 액티브 쓰레드 매니저의 액티브 쓰레드 정보를 기초로 활성화된 프론트 엔드 유닛에 의해 인출된 명령어를 해당하는 심드 레인으로 전달하는 분배 네트워크를 더 포함할 수 있다.

이때, 심드 레인은 둘 이상으로 이루어지고, 심드 레인 각각은 분배 네트워크를 통해 전달되는 명령어를 수행하는 실행 유닛을 포함할 수 있다.

또한, 제어 유닛은 쓰레드 그룹의 메모리 접근 특성, 연산 지연 시간 및 사용자 입력 정보 중의 하나 이상에 더 기초하여 쓰레드 그룹을 스케줄링할 수 있다.

제어 유닛은 심드 레인 가용 정보 중의 유휴 심드 레인의 수를 고려하여 하나 이상의 쓰레드 그룹을 결정하고 결정된 하나 이상의 쓰레드 그룹에 대하여 심드 폭(depth)과 깊이(depth)를 스케줄링할 수 있다.

제어 유닛은 소정 쓰레드 그룹에 대하여 쓰레드 분기가 발생하기 전 또는 발생한 쓰레드 분기가 종료하여 다시 병합된 이후에는 미리 정의된 하나의 프론트 엔드 유닛을 활성화하고 그 활성화된 프론트 엔드 유닛이 전체 심드 레인을 사용하여 소정 쓰레드 그룹을 수행하도록 명령어 인출을 제어할 수 있다.

일 양상에 따르면, 심드 구조(SIMD Architecture) 기반의 쓰레드 분기(thread divergence)를 관리하는 방법은 제1 프론트 엔드 유닛이 명령어를 인출하는 단계, 인출된 명령어에 의해 제1 쓰레드 그룹에서 쓰레드 분기가 발생하는지 판단하는 단계, 판단 결과 쓰레드 분기가 발생하면 가용한 프론트 엔드 유닛 중에서 제2 프론트 엔드 유닛을 활성화하는 단계, 심드 레인 가용 정보를 기초로 제2 프론트 엔드 유닛을 통해 처리할 쓰레드 그룹을 스케줄링하는 단계 및 제1 및 제2 프론트 엔드 유닛이 명령어를 인출하는 단계를 포함할 수 있다.

추가적인 양상에 따르면, 쓰레드 분기 관리 방법은 제1 쓰레드 그룹 또는 제2 쓰레드 그룹에 대한 액티브 쓰레드 정보를 관리하는 단계를 더 포함할 수 있다.

또한, 쓰레드 분기 관리 방법은 제1 쓰레드 그룹 또는 제2 쓰레드 그룹에 대한 액티브 쓰레드 정보를 기초로 현재 가용한 심드 레인을 확인하여 심드 레인 가용 정보를 관리하는 단계를 더 포함할 수 있다.

또한, 쓰레드 분기 관리 방법은 판단 결과 쓰레드 분기가 발생하면 쓰레드 분기 발생 직전의 심드 레인의 사용 상태 정보를 관리하는 단계를 더 포함할 수 있다.

또한, 쓰레드 분기 관리 방법은 판단 결과 조건 분기에 의해 쓰레드 분기가 발생하면 Taken-PC로 점프하는 단계를 더 포함할 수 있다.

추가적인 양상에 따르면 쓰레드 분기 관리 방법은 제1 프론트 엔드 유닛에 의해 인출된 명령어가 분기 조인 명령어인지 판단하는 단계, 판단 결과 분기 조인 명령어이면 제1 쓰레드 그룹에 대한 쓰레드 분기에 의해 아직 처리되지 않은 Not-Taken PC가 존재하는지 판단하는 단계 및 제1 프론트 엔드 유닛은 Not-Taken PC가 존재하지 않으면 심드 레인 사용 상태 정보를 기초로 제1 쓰레드 그룹에 대하여 명령어를 인출하는 단계를 더 포함할 수 있다.

한편, 제2 쓰레드 그룹을 스케줄링하는 단계는 쓰레드 그룹의 메모리 접근 특성, 연산 지연 시간 및 사용자 입력 정보 중의 하나 이상에 더 기초하여 쓰레드 그룹을 스케줄링할 수 있다.

제2 쓰레드 그룹을 스케줄링하는 단계는 심드 레인 가용 정보 중의 유휴 심드 레인의 수를 고려하여 제2 쓰레드 그룹을 결정하고 결정된 제2 쓰레드 그룹에 대하여 심드 폭(depth)과 깊이(depth)를 스케줄링할 수 있다.

제시되는 SIMD 구조 기반의 분기 쓰레드 관리 장치 및 방법을 통해 분기 등에 의해 제어가 나뉘는 경우 각 쓰레드 그룹별로 최적의 시공간적 분할 처리를 적용하여 유휴 SIMD 레인의 활용도를 높이고 처리 성능을 향상시킬 수 있다.

도 1은 일 실시예에 따른 심드 구조 기반의 쓰레드 분기 관리 장치의 구성도이다.

도 2는 일 실시예에 따른 심드 구조 기반의 쓰레드 분기 관리 방법의 흐름도이다.

도 3은 일반적인 장치에서 쓰레드 분기 발생에 따른 심드 레인의 상태 변화를 나타낸 것이다.

도 4는 일 실시예에 따른 장치에서 쓰레드 분기 발생시 심드 레인의 상태 변화의 일 예를 나타낸 것이다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

이하, 심드 구조(SIMD Architecture) 기반의 쓰레드 분기 관리 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.

도 1은 일 실시예에 따른 심드 구조 기반의 쓰레드 분기 관리 장치의 블록도이다. 일 실시예에 따른 쓰레드 분기 관리 장치(100)는 단일 명령으로 다중 데이터, 특히 다중 쓰레드를 처리하기 위한 심드 구조를 기반으로 하는 데이터 처리 장치일 수 있다. 일반적인 심드 구조 기반의 데이터 처리 장치는 다중 쓰레드를 쓰레드 그룹 단위로 스케줄링하여 단일 명령어로 다중 쓰레드가 처리되도록 한다.

도 1을 참조하면, 일 실시예에 따른 쓰레드 분기 관리 장치(100)는 프론트 엔드 유닛(Front End Unit)(120), 분배 네트워크(130), 심드 레인(SIMD Lane)(140) 및 제어 유닛(150)을 포함할 수 있다.

프론트 엔드 유닛(120)은 명령어를 인출 및 해독하고 분배 유닛(130)은 프론트 엔드 유닛(120)이 인출한 명령어를 심드 레인(140)에 전달한다.

일반적인 심드 구조 기반의 데이터 처리 장치와 달리 본 실시예에 따른 쓰레드 분기 관리 장치(100)는 프론트 엔드 유닛(120)을 둘 이상(FEU 0 ~ FEU m) 구비할 수 있다. 심드 레인(140) 역시 둘 이상(SL 0 ~ SL n)으로 이루어지고, 각각의 심드 레인(SL 0 ~ SL n)은 프론트 엔드 유닛(120)에 의해 인출된 명령어를 수행할 실행 유닛(EU 0 ~ EU n)을 포함할 수 있다. 이때, 쓰레드 분기 관리 장치(100)는 프론트 엔드 유닛(120)의 개수가 심드 레인(140)의 개수를 초과하지 않도록 구현될 수 있다.

일반적인 심드 구조 기반의 데이터 처리 장치는 하나의 프론트 엔드 유닛을 구비하여 하나의 프론트 엔드 유닛이 전체 심드 레인을 사용하여 다중 쓰레드를 처리하기 위한 명령어를 인출하도록 한다. 하지만, 프로그램 흐름 상에 조건 분기 명령어 등이 인출되어 쓰레드 분기(divergence)가 발생하면 일부의 심드 레인은 쉬게 되어 처리 성능이 감소하게 된다.

이하에서 자세히 설명하는 바와 같이, 쓰레드 분기 관리 장치(100)는 둘 이상의 프론트 엔드 유닛을 구비함으로써 이와 같이 쓰레드 분기가 발생하여 쉬는 심드 레인이 존재하는 경우 그 쉬는 심드 레인을 활용하여 효율적인 쓰레드 처리를 가능하게 할 수 있다.

제어 유닛(150)은 프론트 엔드 유닛(120)에서 인출된 명령어가 수행되어 처리될 쓰레드 그룹을 심드 레인 가용 정보를 기초로 스케줄링한다. 이때, 스케줄링된 쓰레드 그룹은 쓰레드 풀(110)에서 해당하는 심드 레인(140)에서 처리될 때까지 대기한다.

제어 유닛(150)은 심드 레인 가용 정보를 기초로 둘 이상의 프론트 엔드 유닛(FEU 0 ~ FEU m) 중에서 하나 이상을 활성화하고, 그 활성화된 프론트 엔드 유닛으로 하여금 해당하는 쓰레드 그룹을 처리하기 위한 명령어를 인출하도록 제어할 수 있다.

한편, 제어 유닛(150)은 쓰레드 풀(110)에서 스케줄링되는 각 쓰레드 그룹에 대한 액티브 쓰레드 정보를 관리하는 액티브 쓰레드 매니저(151)를 포함할 수 있다. 액티브 쓰레드 정보는 쓰레드 그룹에서 실제 동작하게 되는 즉, 프론트 엔드 유닛(120)에서 인출되는 명령어에 의해 처리되어 레지스터 파일에 기록(write-back)되어야 하는 쓰레드에 대한 정보이다. 한편, 액티브 쓰레드 매니저(151)는 액티브 쓰레드 정보를 저장하는 공간(예: 스택(stack) 메모리)일 수 있다.

예를 들어, 조건 분기 등에 의해 쓰레드 그룹에서 쓰레드 분기가 발생하게 되면 Taken 또는 Not-Taken 경로에 따라 일부의 쓰레드만이 액티브 상태에 있을 수 있다. 또한, 가용한 심드 레인이 존재하여 그 가용 심드 레인을 이용하여 처리할 쓰레드 그룹을 스케줄링하면 그 스케줄링된 쓰레드 그룹에 대한 액티브 쓰레드 정보를 액티브 쓰레드 매니저(151)에 관리할 수 있다.

도 1의 액티브 쓰레드 매니저(151)를 참조하면, 심드 레인(140)의 수가 16(n=15)이라 가정할 때 쓰레드 그룹 0의 경우에는 총 16개의 쓰레드 중에서 8개의 쓰레드만 액티브 상태에 있음을 알 수 있으며, 쓰레드 그룹 1의 경우에는 총 16개의 쓰레드 중에서 4개의 쓰레드만 액티브 상태에 있음을 알 수 있다.

또한, 제어 유닛(150)은 현재 가용한 심드 레인의 아이디, 가용 심드 레인의 갯수 등의 정보를 포함하는 심드 레인 가용 정보와 쓰레드 분기가 발생하기 직전의 심드 레인 상태 정보를 관리하는 심드 레인 매니저(152)를 포함할 수 있다. 심드 레인 매니저(152)는 액티브 쓰레드 매니저(151)와 마찬가지로 각종 정보를 저장하기 위한 공간으로서 예를 들어 스택 메모리일 수 있다. 제어 유닛(150)은 액티브 쓰레드 매니저(151)에 관리되는 쓰레드 그룹의 액티브 쓰레드 정보에 기초하여 현재 가용한 심드 레인의 아이디 및 가용 심드 레인의 갯수를 파악할 수 있다. 이와 같이 파악된 심드 레인 가용 정보를 심드 레인 매니저(152)에 기록하여 관리할 수 있다.

예를 들어, 제어 유닛(150)은 최초에 미리 정의되어 있는 어느 하나의 프론트 엔드 유닛, 예컨대, FEU 0을 활성화한다. 한편, 도 1에 도시된 심드 레인(140)의 수가 16(n=15)이라 가정하면, 처음에는 전체의 심드 레인(140) SL 0 내지 SL 15가 모두 가용 상태일 것이므로 제어 유닛(150)은 쓰레드 그룹 0의 심드 폭을 16으로 하고 깊이를 1로 하여 16개의 쓰레드가 16개의 심드 레인 SL 0 내지 SL 15에서 한 번에 처리되도록 스케줄링할 수 있다.

활성화된 프론트 엔드 유닛 FEU 0는 쓰레드 그룹 0을 처리하기 위한 명령어를 인출하고, 명령어가 인출되면 분배 네트워크(130)는 각 심드 레인(140) SL 0 내지 SL 15에 명령어를 전달하다. 이때, 분배 네트워크(130)는 액티브 쓰레드 매니저(151)를 참조하여 명령어를 해당하는 심드 레인(140)에 전달할 수 있다. 명령어를 전달받은 심드 레인 SL 0 내지 SL 15는 각 실행 유닛 EU 0 내지 EU 15를 통해 명령어를 수행하여 각 쓰레드를 처리하여 처리 결과를 레지스터 파일에 기록한다. 또한, 처리가 완료되면 PC(Program Counter)를 증가시키고 프론트 엔드 유닛 FEU 0이 다음 명령어를 인출하는 과정이 반복 수행된다.

이때, 프로그램 흐름 상에서 조건 분기가 존재하여 프론트 엔드 유닛 FEU 0이 분기 명령어를 인출하게 되고, 그 결과 쓰레드 그룹 0에서 쓰레드 분기가 발생하면 제어 유닛(150)은 쓰레드 분기로 인해 쓰레드 그룹 0에 대한 액티브 쓰레드 정보를 액티브 쓰레드 매니저(151)에 기록하여 관리할 수 있다. 또한, 현재 쓰레드 분기가 발생하기 직전의 심드 레인의 사용 상태 정보를 심드 레인 매니저(152)에 기록하고, 액티브 쓰레드 매니저(151)에 기록된 액티브 쓰레드 정보를 기초로 현재 가용한 심드 레인의 정보를 파악하여 심드 레인 매니저(152)에 기록할 수 있다.

제어 유닛(150)은 쓰레드 그룹 0이 Taken 경로를 따르게 되어 쉬게 되는 심드 레인(140)이 발생하면 현재 활성화되어 있지 않은 나머지 프론트 엔드 유닛(FEU 1 ~ FEU m)을 활성화하여 쉬는 심드 레인(140)을 통해 명령어를 수행하도록 쓰레드 그룹을 스케줄링할 수 있다. 이때, 제어 유닛(150)은 가용한 심드 레인(140)의 수를 고려하여 쓰레드 그룹을 스케줄링할 수 있다.

예를 들어, 제어 유닛(150)은 하나의 프론트 엔드 유닛(예: FEU 1)을 추가로 활성화하여 가용한 심드 레인(140) 전체를 사용하여 쓰레드 그룹 0의 Not-Taken 경로를 처리하도록 하거나, 다른 쓰레드 그룹(예 쓰레드 그룹 1)의 쓰레드들을 처리하도록 스케줄링할 수 있다.

또는, 둘 이상의 프론트 엔드 유닛(예: FEU 1과 FEU 2 등)을 활성화하여 가용한 심드 레인(140) 중에서 일부의 심드 레인을 나누어 두 개 이상의 쓰레드 그룹(예:쓰레드 그룹 0의 Not-Taken 경로와 쓰레드 그룹 1 또는, 쓰레드 그룹 2와 3 등)을 처리하도록 스케줄링할 수 있다.

또한, 제어 유닛(150)은 쓰레드 그룹의 메모리 접근 특성 및 연산 지연 시간, 사용자 입력 정보 등을 고려하여 쓰레드 그룹을 스케줄링할 수 있다. 예를 들어, 쓰레드 그룹 1과 2가 특정 주소 영역을 빈번하게 접근한다면, 두 개의 프론트 엔드 유닛(예: FEU 1과 FEU 2)를 활성화하고, 가용한 심드 레인(140)을 나누어 쓰레드 그룹 1과 2를 동시에 처리하도록 스케줄링할 수 있다.

또한, 특정 쓰레드 그룹의 현재 PC 값이 4 클럭 사이클인 명령어를 수행해야 하는 것처럼 연산의 지연이 발생하게 되는 상황에서는 특정 쓰레드 그룹에 대해 가용한 전체 심드 레인(120)을 사용하도록 스케줄링하면 다음 사이클에 다른 쓰레드 그룹으로 스위칭되어야 할 수 있다. 따라서, 이러한 경우에는 가용한 심드 레인(140) 중에서 4개의 심드 레인만 사용하여 4클럭 사이클 동안 수행되도록 하고 나머지 가용 심드 레인은 다른 쓰레드 그룹에 대해 처리되도록 스케줄링할 수 있다.

이후, 제어 유닛(150)은 프론트 엔드 유닛 FEU 0에서 분기 조인 명령어가 인출되고 Not-Taken 경로가 모두 종료되면 분기를 조인하고 현재 가용한 심드 레인(140)을 이용하여 쓰레드 그룹 0에 대해 계속 수행하도록 한다. 이때, 심드 레인 가용 정보에 따라 새로 스케줄링 된 쓰레드 그룹에 대한 처리가 모두 종료하면 심드 레인 매니저(152)에서 분기 발생 전의 심드 레인 사용 상태 정보를 인출하여 그 심드 레인 사용 상태에 따라 쓰레드 그룹 0을 스케줄링하여 처리되도록 할 수 있다.

도 2는 일 실시예에 따른 심드 구조 기반의 쓰레드 분기 관리 방법의 흐름도이다. 도 2의 심드 구조 기반의 쓰레드 분기 관리 방법은 도 1의 실시예에 따른 쓰레드 분기 관리 장치(100)에 의해 수행될 수 있다.

도 2를 참조하여, 쓰레드 분기 관리 장치(100)가 수행할 수 있는 쓰레드 분기 관리 방법 중에서 하나의 실시예를 설명한다.

먼저, 현재 활성화되어 있는 프론트 엔드 유닛(120)이 명령어를 인출한다(201). 전술한 바와 같이, 프로그램 흐름 상에서 쓰레드 분기가 발생하기 전 또는 모든 쓰레드 분기가 종료하고 다시 병합된 이후에는 미리 정의된 하나의 프론트 엔드 유닛(120)만을 활성화하여 심드로 동작하도록 한다. 하지만, 프로그램 흐름 상에서 쓰레드 분기가 발생한 이후에는 하나 이상의 프론트 엔드 유닛(120)이 현재 활성화되어 있는 프론트 엔드 유닛(120)일 수 있다.

프론트 엔드 유닛(120)이 인출한 명령어가 분기 명령어가 아니면(단계 202) 인출된 해당 명령어는 분배 네트워크(130)를 통해 해당하는 심드 레인(140)으로 전달되고 실행 유닛(EU 0 ~ EU n)이 명령어를 실행하여 쓰레드를 처리한다(단계 203). 그 다음, PC를 증가시키고(단계 204) 현재 활성화되어 있는 프론트 엔드 유닛(120)은 해당하는 PC의 명령어를 인출한다(단계 201).

이러한 과정은 프로그램 흐름에서 조건 분기 등을 만나 분기 명령어가 인출될 때까지 반복 수행되고, 프론트 엔드 유닛(120)이 인출한 명령어가 분기 명령어이면(단계 202), 그 분기 명령어가 쓰레드 분기를 발생하는 명령어인지, 분기된 쓰레드를 다시 조인하는 분기 조인 명령어인지를 판단한다(단계 205).

판단 결과(단계 205) 쓰레드 분기를 발생하는 명령어이면 현재 동작중인 심드 레인 사용 상태 정보, 즉 쓰레드 분기가 발생하기 바로 직전에 사용중인 심드 레인의 상태 정보를 심드 레인 매니저(152)에 기록하여 관리한다(단계 206).

구체적으로, 심드 레인 매니저(152)는 심드 레인 사용 상태 정보를 저장하는 제이-스택(J-STACK) 및 현재 심드 레인 가용 정보를 저장하는 엔-스택(N-STACK)을 포함할 수 있다. 조건 분기 등에 의해 쓰레드 분기가 발생하면 현재 동작중인 심드 레인의 정보는 제이-스택에 푸시(Push)된다.

한편, 쓰레드 분기가 발생하게 되면 쓰레드 그룹에 대하여 Taken 경로를 따르게 되어 동작하게 되는 액티브 쓰레드 정보가 액티브 쓰레드 매니저(151)에 관리될 수 있다.

또한, 액티브 쓰레드 매니저(151)에 쓰레드 그룹에 대한 액티브 쓰레드 정보가 기록되면, Not-Taken PC와, Not-Taken 심드 레인 즉, 쓰레드 분기에 의해 가용해진 심드 레인 정보를 엔-스택에 푸시한다.

그 다음, 쓰레드 분기에 의해 Taken PC로 점프하고(단계 207) 현재 활성화되어 있는 프론트 엔드 유닛(120)이 그 Taken PC에 위치하는 명령어를 인출하도록 할 수 있다. 현재 활성화되어 있는 프론트 엔드 유닛(120)이 Taken PC에 위치한 명령어를 인출하면(단계 201) 마찬가지로 그 명령어가 새로운 분기를 발생하는 명령어인지 판단하고(단계 202), 분기 명령어가 아니면 분배 네트워크(130)는 액티브 쓰레드 매니저(151)에서 그 쓰레드 그룹에서 Taken 경로를 따르는 액티브 쓰레드 정보를 읽어 해당하는 심드 레인(140)으로 명령어를 전달하여 명령어가 실행되도록 한다(단계 203). 그 다음, PC를 증가하여(204) 현재 활성화되어 있는 프론트 엔드 유닛(120)이 증가된 PC 위치에서 명령어를 인출하여 처리되는 과정은 분기 조인 명령어를 만날 때까지 반복 수행된다.

한편, 쓰레드 분기에 의해 심드 레인의 가용 정보가 심드 레인 매니저(152)에 기록되면(단계 206), 심드 레인 매니저를 참조하여 현재 가용한 심드 레인의 아이디 및 개수를 파악하고(단계 208), 가용한 심드 레인이 존재하게 되면 가용한 프론트 엔드 유닛(120)이 존재하는지 판단한다(단계 209).

가용한 프론트 엔드 유닛(120)이 존재하면 하나 이상의 프론트 엔드 유닛(120)을 추가로 활성화하고(단계 210), 새로 활성화된 프론트 엔드 유닛(120)에서 처리될 쓰레드 그룹을 스케줄링할 수 있다(단계 211). 전술한 바와 같이, 가용한 심드 레인의 갯수, 특정 쓰레드 그룹의 메모리 접근 특성, 연산 지연시간 등의 정보를 활용하여 하나 또는 둘 이상의 쓰레드 그룹을 스케줄링하고, 스케줄링된 쓰레드 그룹 각각을 추가로 활성화된 프론트 엔드 유닛(120) 각각이 처리하도록 할 수 있다.

예를 들어, 하나의 쓰레드 그룹이 16개의 쓰레드를 가진다고 할 때, 현재 4개의 심드 레인(140)이 가용하다면 그 쓰레드 그룹은 심드 폭을 4로 하고, 깊이를 4로 하여 전체 16개의 쓰레드 중 4개씩을 4번에 걸쳐 수행한 후 해당 쓰레드 그룹의 PC가 증가하도록 할 수 있다. 만약, 현재 3개의 심드 레인(140)이 가용한 경우에는 두 개의 쓰레드 그룹을 스케줄링하여, 어느 한 쓰레드 그룹에 대해서는 2개의 심드 레인을 할당하고 심드 폭 2, 깊이 8로 하여 수행되도록 하고, 다른 쓰레드 그룹에 대해서는 1개의 심드 레인(140)을 할당하여 심드 폭 1, 깊이 16으로 하여 수행되도록 스케줄링할 수 있다.

앞에서 설명한 바와 같이, 새로 활성화된 프론트 엔드 유닛(120)은 해당하는 명령어를 인출하고(단계 201), 각 프론트 엔드 유닛(120)에서 인출된 명령어들은 각각 할당된 심드 레인(140)에서 처리된다.

도 2에 도시된 프로그램 흐름도 상의 전부 또는 일부의 단계는 전체 프로그램 흐름 상에서 수회 반복 수행될 수 있다. 예를 들어, 최초에 조건 분기 등에 의해 쓰레드 분기가 발생한 후 모든 쓰레드 분기가 해소될 때까지, 상황에 따라 가용한 심드 레인의 개수, 쓰레드 그룹의 메모리 접근 패턴, 연산 지연 시간 등의 정보, 가용한 프론트 엔드 유닛의 수가 가변적일 수 있다. 즉, 조건 분기를 만나 쓰레드가 분기되는 시점에 심드 레인(140)이 가용해질 수 있으며, 또한, 분기에 의해 어느 하나의 경로가 먼저 종료되는 경우, 새로 활성화된 프론트 엔드 유닛(120)에서 새로 스케줄링 된 쓰레드 그룹에 대한 처리가 먼저 종료되는 경우 등 다양한 상황에서 가용한 심드 레인의 수는 달라질 수 있다. 따라서, 가용 심드 레인의 상태에 따라 스케줄링하는 단계(208 ~ 211)는 여러 번 반복 수행되는 것이 가능하다.

한편, Taken 경로 상의 처리가 완료하여 Taken 경로의 끝까지 도달하여 현재 활성화된 프론트 엔드 유닛(120)이 쓰레드 분기를 조인하는 분기 조인 명령어를 인출하면(단계 205), Not-Taken 경로의 처리가 모두 완료되었는지를 판단한다(단계 213).

예를 들어, 심드 레인 매니저(512)의 엔-스택을 확인하고 아직 처리되지 않은 Not-Taken PC에 대한 정보가 존재하는 경우에는 아직 Not-Taken 경로가 완료되지 않은 상태이므로 Not-Taken PC 정보를 꺼내 Not-Taken PC로 점프하고(단계 216) 다음 명령어를 인출하여(단계 201) 처리되도록 한다. 만약, Not-Taken 경로의 마지막에 도달하여 분기 조인 명령어를 만나게 되면(단계 205), 심드 레인 매니저(512)의 엔-스택에는 아직 처리되지 않은 Not-Taken PC가 존재하지 않으므로(단계 213), 쓰레드 분기가 조인된다(단계 214).

쓰레드 분기가 조인되면(단계 214) 쓰레드 분기가 발생할 때 심드 레인 매니저(152)의 제이-스택에 기록된 분기 발생 직전의 심드 레인 사용 상태 정보를 꺼내(단계 215) 조인된 쓰레드가 계속 수행되도록 한다.

도 2에 도시된 바와 같은 실시예는 앞서 언급한 바와 같이, 쓰레드 분기 관리 장치(100)에서 수행될 수 있는 하나의 예일 뿐이며, 쓰레드 분기 관리 장치(100)는 다양한 상황에 적절하게 쓰레드 분기 관리를 수행할 수 있다.

도 3은 일반적인 장치에서 쓰레드 분기 발생에 따른 심드 레인의 상태 변화를 나타낸 것이다. 도 4는 일 실시예에 따른 장치에서 쓰레드 분기 발생시 심드 레인의 상태 변화의 일 예를 나타낸 것이다. 도 3 및 도 4를 참조하여, 일 실시예에 따른 쓰레드 분기 관리 장치(100)가 쓰레드 그룹을 스케줄링하고 그에 따라 심드 레인(140)의 상태가 변화하는 것을 예를 들어 설명한다.

먼저, 도 3은 하나의 프론트 엔드 유닛(FEU 0)과 8개의 심드 레인(0~7)을 가지는 일반적인 심드 구조 기반의 데이터 처리 장치에서 쓰레드 분기가 발생하였을 때 심드 레인의 상태 변화를 도시한 것이다.

상태 1에서는 하나의 프론트 엔드 유닛(FEU 0)을 통해 쓰레드 그룹 0의 8개의 쓰레드가 8개의 심드 레인(0~7)에서 각각 처리된다.

상태 2 내지 5는 조건 분기 등에 의해 쓰레드 분기가 발생한 상태로서, 쓰레드 그룹 0에서 Taken 경로를 따르는 액티브 쓰레드 5개가 5 개의 심드 레인(0~4)에서 처리된다. 이때, 나머지 3 개의 심드 레인(5~7)은 쉬게 된다.

그 다음, Taken 경로가 종료하여 분기 조인 명령어가 인출되면 상태 6 및 7에서 Not-Taken 경로에 대한 처리가 3개의 심드 레인(5~7)을 통해 수행되고, 이때, 나머지 심드 레인(0~4)은 쉬게 된다.

이후, 상태 8에서 Not-Taken의 처리가 모두 종료하여 쓰레드 분기가 병합되어 전체 심드 레인(0~7)을 이용하여 쓰레드 그룹 0을 계속 처리하게 된다.

도 3에 도시된 바를 통해 알 수 있듯이, 특정 쓰레드 그룹을 처리하는 도중 조건 분기에 의해 쓰레드가 분기하게 되면 쉬게 되는 심드 레인이 발생하여 처리 성능이 감소하게 된다.

한편, 도 4를 참조하면, 일 실시예에 따른 쓰레드 분기 관리 장치(100)는 4개의 프론트 엔드 유닛(FEU 0 ~ FEU 3)과 8개의 심드 레인(0~7)을 구비한다. 상태 1에서 하나의 프론트 엔드 유닛 FEU 0을 통해 쓰레드 그룹 0에 포함된 8개의 쓰레드가 전체의 심드 레인(0~7)에서 처리된다.

상태 2가 되어 조건 분기를 만나 쓰레드 그룹 0의 쓰레드가 분기되면, 먼저, 프론트 엔드 유닛 FEU 0을 통해 분기의 Taken 경로를 수행한다. 쓰레드 그룹 0에서 Taken 경로를 따르는 5개의 쓰레드는 5 개의 심드 레인(0~4)를 이용하여 처리되고, 쓰레드 분기에 의해 심드 레인(5~7)은 쉬게 된다.

이때, 쓰레드 분기 관리 장치(100)는 심드 레인의 가용 정보를 확인하여 3개의 심드 레인(5~7)이 가용하므로 새로운 프론트 엔드 유닛 FEU 1을 활성화한다. 그리고, 새로 활성화된 프론트 엔드 유닛 FEU 1을 통해 쓰레드 그룹 0의 Not-Taken 경로를 수행하도록 한다. 쓰레드 그룹 0의 Taken 경로는 상태 5까지 수행된 후 종료하고, 스케줄링된 쓰레드 그룹 0의 Not-Taken 경로는 상태 3을 수행한 후 종료한다.

상태 4가 되면 쓰레드 그룹 0의 Not-Taken 경로의 수행이 종료하게 되어 다시 3개의 심드 레인(5~7)이 가용하게 되고, 쓰레드 분기 관리 장치(100)는 바뀐 심드 레인 가용 정보를 확인하여 새로운 프론트 엔드 유닛 FEU 2를 활성화한다. 그리고, 프론트 엔드 유닛 FEU 1과 FEU 2를 통해 처리될 쓰레드 그룹 1과 2를 스케줄링한다. 도시된 바에 따르면, 프론트 엔드 유닛 FEU 1을 통해 처리될 쓰레드 그룹 1은 2 개의 심드 레인(5,6)을 사용하여 4 번 수행된 후 PC가 증가되도록 스케줄링하고, 프론트 엔드 유닛 FEU 2를 통해 처리될 쓰레드 그룹 2는 하나의 심드 레인(7)을 사용하여 수행되도록 스케줄링한다.

상태 6이 되면, 쓰레드 그룹 0에 대한 분기가 모두 종료하여 조인되고, 이때, 3 개의 심드 레인(5~7)은 사용중이며 5 개의 심드 레인(0~4)가 가용하게 되므로 5개의 가용 심드 레인(0~4)을 이용하여 쓰레드 그룹을 다시 스케줄링한다. 도시된 바에 따르면, 병합된 쓰레드 그룹 0은 프론트 엔드 유닛 FEU 0을 통해 4개의 심드 레인(0~3)을 사용하여 처리되도록 스케줄링하고, 나머지 하나의 심드 레인(4)는 새로운 프론트 엔드 유닛 FEU 3을 추가로 활성화하여 그 프론트 엔드 유닛 FEU 3을 통해 쓰레드 그룹 3을 처리하도록 스케줄링할 수 있다.

이러한 스케줄링 과정은 특정한 시점까지 반복될 수 있으며, 이후 특정한 시점이 되면 다시 프론트 엔드 유닛(예: FEU 0)만을 활성화하고 그 프론트 엔드 유닛(예: FEU 0)을 통해 전체 심드 레인(0~7)을 사용하여 하나의 쓰레드 그룹이 처리되도록 스케줄링할 수 있다.

이와 같이, 변화되는 심드 레인의 가용 상태에 따라 적절하게 하나 이상의 프론트 엔드 유닛을 활성화하고, 쓰레드 그룹을 동적으로 스케줄링하여 처리함으로써 처리 성능을 향상시킬 수 있다.

한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.

본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

심드 구조(SIMD Architecture) 기반의 쓰레드 분기(thread divergence)를 관리하는 장치에 있어서,

둘 이상의 프론트 엔드 유닛(Front End Unit); 및

심드 레인(SIMD LANE) 가용 정보에 기초하여 쓰레드 그룹을 스케줄링하고, 상기 둘 이상의 프론트 엔드 유닛 중에서 적어도 하나의 프론트 엔드 유닛을 활성화하여 그 활성화된 프론트 엔드 유닛으로 하여금 상기 스케줄링 된 쓰레드 그룹을 처리하기 위한 명령어를 인출하도록 제어하는 제어 유닛;을 포함하는 장치.
제1항에 있어서, 상기 제어 유닛은

분기 명령어에 의해 쓰레드 그룹에서 쓰레드 분기가 발생하면 상기 쓰레드 그룹에 대한 액티브 쓰레드의 정보를 관리하는 액티브 쓰레드 매니저를 포함하는 장치.
제2항에 있어서, 상기 제어 유닛은

상기 액티브 쓰레드 매니저의 액티브 쓰레드 정보를 기초로 가용한 심드 레인을 확인하여 상기 심드 레인 가용 정보를 관리하는 심드 레인 매니저;를 더 포함하는 장치.
제2항에 있어서,

상기 액티브 쓰레드 매니저의 액티브 쓰레드 정보를 기초로 상기 활성화된 프론트 엔드 유닛에 의해 인출된 명령어를 해당하는 심드 레인으로 전달하는 분배 네트워크;를 더 포함하는 장치.
제4항에 있어서,

상기 심드 레인은 둘 이상으로 이루어지고, 심드 레인 각각은 상기 분배 네트워크를 통해 전달되는 명령어를 수행하는 실행 유닛을 포함하는 장치.
제1항에 있어서, 상기 제어 유닛은

쓰레드 그룹의 메모리 접근 특성, 연산 지연 시간 및 사용자 입력 정보 중의 하나 이상에 더 기초하여 쓰레드 그룹을 스케줄링하는 장치.
제1항에 있어서, 상기 제어 유닛은

상기 심드 레인 가용 정보 중의 유휴 심드 레인의 수를 고려하여 하나 이상의 쓰레드 그룹을 결정하고 상기 결정된 하나 이상의 쓰레드 그룹에 대하여 심드 폭(depth)과 깊이(depth)를 스케줄링하는 장치.
제1항에 있어서, 상기 제어 유닛은

소정 쓰레드 그룹에 대하여 쓰레드 분기가 발생하기 전 또는 발생한 쓰레드 분기가 종료하여 다시 병합된 이후에는 미리 정의된 하나의 프론트 엔드 유닛을 활성화하고 그 활성화된 프론트 엔드 유닛이 전체 심드 레인을 사용하여 상기 소정 쓰레드 그룹을 수행하도록 명령어 인출을 제어하는 장치.
심드 구조(SIMD Architecture) 기반의 쓰레드 분기(thread divergence)를 관리하는 방법에 있어서,

제1 프론트 엔드 유닛이 명령어를 인출하는 단계;

상기 인출된 명령어에 의해 제1 쓰레드 그룹에서 쓰레드 분기가 발생하는지 판단하는 단계;

상기 판단 결과 쓰레드 분기가 발생하면 가용한 프론트 엔드 유닛 중에서 제2 프론트 엔드 유닛을 활성화하는 단계;

심드 레인 가용 정보를 기초로 상기 제2 프론트 엔드 유닛을 통해 처리할 쓰레드 그룹을 스케줄링하는 단계; 및

상기 제1 및 제2 프론트 엔드 유닛이 명령어를 인출하는 단계;를 포함하는 쓰레드 분기 관리 방법.
제9항에 있어서,

상기 제1 및 제2 쓰레드 그룹에 대한 액티브 쓰레드 정보를 관리하는 단계;를 더 포함하는 쓰레드 분기 관리 방법.
제10항에 있어서,

상기 제1 및 제2 쓰레드 그룹에 대한 액티브 쓰레드 정보를 기초로 현재 가용한 심드 레인을 확인하여 심드 레인 가용 정보를 관리하는 단계;를 더 포함하는 쓰레드 분기 관리 방법.
제9항에 있어서,

상기 판단 결과 쓰레드 분기가 발생하면 상기 쓰레드 분기 발생 직전의 심드 레인의 사용 상태 정보를 관리하는 단계;를 더 포함하는 쓰레드 분기 관리 방법.
제12항에 있어서,

상기 판단 결과 조건 분기에 의해 쓰레드 분기가 발생하면 Taken-PC로 점프하는 단계;를 더 포함하는 쓰레드 분기 관리 방법.
제12항에 있어서,

상기 제1 프론트 엔드 유닛에 의해 인출된 명령어가 분기 조인 명령어인지 판단하는 단계;

상기 판단 결과 분기 조인 명령어이면 제1 쓰레드 그룹에 대한 쓰레드 분기에 의해 아직 처리되지 않은 Not-Taken PC가 존재하는지 판단하는 단계; 및

상기 제1 프론트 엔드 유닛은 Not-Taken PC가 존재하지 않으면 상기 심드 레인 사용 상태 정보를 기초로 상기 제1 쓰레드 그룹에 대하여 명령어를 인출하는 단계;를 더 포함하는 쓰레드 분기 관리 방법.
제9항에 있어서, 상기 제2 쓰레드 그룹을 스케줄링하는 단계는

쓰레드 그룹의 메모리 접근 특성, 연산 지연 시간 및 사용자 입력 정보 중의 하나 이상에 더 기초하여 쓰레드 그룹을 스케줄링하는 쓰레드 분기 관리 방법.
제9항에 있어서, 상기 제2 쓰레드 그룹을 스케줄링하는 단계는

상기 심드 레인 가용 정보 중의 유휴 심드 레인의 수를 고려하여 제2 쓰레드 그룹을 결정하고 상기 결정된 제2 쓰레드 그룹에 대하여 심드 폭(depth)과 깊이(depth)를 스케줄링하는 쓰레드 분기 관리 방법.