KR102177871B1

KR102177871B1 - 멀티 쓰레딩을 지원하기 위한 연산 유닛, 이를 포함하는 프로세서 및 프로세서의 동작 방법

Info

Publication number: KR102177871B1
Application number: KR1020130160231A
Authority: KR
Inventors: 조연곤; 류수정
Original assignee: 삼성전자주식회사
Priority date: 2013-12-20
Filing date: 2013-12-20
Publication date: 2020-11-12
Also published as: EP2887209A3; CN104731560B; JP2015122063A; CN104731560A; US20150178132A1; US9858116B2; KR20150072734A; EP2887209B1; EP2887209A2; JP6434791B2

Abstract

멀티 쓰레딩을 지원하기 위한 연산 유닛, 이를 포함하는 프로세서 및 프로세서의 동작 방법이 개시된다. 일 양상에 따른, 멀티 쓰레딩을 지원하기 위한 연산 유닛은, 오피코드 및 오퍼랜드를 쓰레드별로 입력 받기 위한 복수의 입력 포트와, 오퍼랜드에 대한 소정의 연산을 수행하는 복수의 연산자와, 각 오피코드를 기반으로 복수의 연산자 중에서 각 오퍼랜드에 대한 연산을 수행할 연산자를 선택하는 연산자 선택부와, 연산 수행 결과를 쓰레드 별로 출력하기 위한 복수의 출력 포트를 포함할 수 있다.

Description

멀티 쓰레딩을 지원하기 위한 연산 유닛, 이를 포함하는 프로세서 및 프로세서의 동작 방법{FUNCTION UNIT FOR SUPPORTING MULTITHREADING, PROCESSOR COMPRISING THE SAME, AND OPERATING METHOD THEREOF}

멀티 쓰레딩 프로세서와 관련된 것으로, 특히, 멀티 쓰레딩을 지원하기 위한 연산 유닛, 이를 포함하는 프로세서 및 프로세서의 동작 방법에 관한 것이다.

컴퓨터 분야의 기술이 발달함에 따라 하나의 작업뿐만 아니라 다수의 작업을 동시에 실행해야 하는 경우가 빈번하게 발생한다. 이러한 동시에 여러 작업을 처리하는 것을 다중 처리(Multiprocessing)라고 한다.

이러한 다중 처리는 멀티 태스킹(Multitasking), 다중화(Multiplexing) 등의 방법으로 제공되는데, 전자의 경우 다수의 작업을 다수의 프로세스(또는, 쓰레드)들이 나누어 처리하는 것을 의미하고, 후자의 경우 한 프로세스 내에서 다수의 작업을 처리하는 것을 의미한다.

특히, 멀티 태스킹은 여러 작업(즉, 태스크)을 병행하여 처리하는 것으로서, 운영체제(OS)는 멀티 태스킹을 위해 프로세스를 다수 개 실행시키거나(멀티 프로세스) 쓰레드를 다수 개 실행시키는 기법(멀티 쓰레드)을 사용한다.

이때, 멀티 프로세스와 멀티 쓰레드는 양쪽 모두 여러 흐름이 동시에 진행된다는 공통점을 가지고 있다. 하지만 멀티 프로세스에서 각 프로세스는 독립적으로 실행되며 각각 별개의 메모리를 차지하고 있는 것과 달리 멀티 쓰레드는 프로세스 내의 메모리를 공유할 수 있다. 또한, 프로세스 간의 전환 속도보다 쓰레드 간의 전환 속도가 빠르며, 쓰레드간 스케줄링도 프로세스간 스케줄링보다 상대적으로 빠르게 이루어진다.

멀티 쓰레딩을 지원하기 위한 연산 유닛, 이를 포함하는 프로세서 및 프로세서의 동작 방법을 제공하는 것을 목적으로 한다.

일 양상에 따른, 멀티 쓰레딩을 지원하기 위한 연산 유닛은, 오피코드 및 오퍼랜드를 쓰레드별로 입력 받기 위한 복수의 입력 포트와, 오퍼랜드에 대한 소정의 연산을 수행하는 복수의 연산자와, 각 오피코드를 기반으로 복수의 연산자 중에서 각 오퍼랜드에 대한 연산을 수행할 연산자를 선택하는 연산자 선택부와, 연산 수행 결과를 쓰레드 별로 출력하기 위한 복수의 출력 포트를 포함할 수 있다.

여기서, 복수의 연산자는, 데이터 패스 상에 각 쓰레드에 할당되어 연산 수행 결과를 저장하는 복수의 레지스터를 더 포함할 수 있다.

여기서, 복수의 연산자는 각각 서로 다른 연산을 수행할 수 있다.

또한, 복수의 연산자 중 일부는 서로 동일한 연산을 수행할 수 있다.

여기서, 일부 연산자는 연산 유닛 내에서 수행 빈도가 높은 연산을 수행하기 위한 연산자일 수 있다.

여기서, 일부 연산자 각각은 자신의 현재 상태를 나타내는 신호를 생성하여 상기 연산자 선택부에 전송할 수 있다.

다른 양상에 따른 프로세서는, 복수의 쓰레드를 동시에 처리할 수 있는 적어도 하나 이상의 연산 유닛을 포함하는 프로세싱부와, 복수의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌을 감지하는 리소스 충돌 감지부와, 설정된 기준에 따라, 충돌된 쓰레드간의 처리 순서를 결정하는 리소스 스케줄러를 포함할 수 있다.

여기서, 리소스 충돌 감지부는, 적어도 하나 이상의 연산 유닛의 연산자 정보를 저장하는 리소스 정보 저장부와, 복수의 쓰레드의 각 오피코드를 각 연산 유닛 별로 비교하는 오피코드 비교부와, 비교 결과 및 상기 연산자 정보를 기반으로 리소스의 충돌 여부를 판단하는 리소스 충돌 여부 판단부를 포함할 수 있다.

여기서, 연산자 정보는 각 연산 유닛에 포함되어 있는 연산자의 종류, 개수 및 각 연산자의 상태 정보 중 적어도 하나를 포함할 수 있다.

여기서, 리소스 스케줄러는 충돌된 쓰레드 중 처리 순서가 낮은 쓰레드에 대한 스톨(stall) 신호를 생성할 수 있다.

또한, 프로세서는, 리소스의 충돌 감지 결과를 저장하는 큐를 더 포함할 수 있다.

또한, 프로세서는, 복수의 쓰레드 중 일부에 포함된 제어문의 실행에 따라 큐에 저장된 리소스 충돌 감지 결과가 유효하지 않을 경우, 큐를 플러쉬하는 플러쉬부를 더 포함할 수 있다.

또 다른 양상에 따른, 복수의 쓰레드를 동시에 처리할 수 있는 적어도 하나 이상의 연산 유닛을 포함하는 프로세서의 동작 방법은, 복수의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌을 감지하는 단계와, 기 설정된 기준에 따라, 충돌된 쓰레드간의 처리 순서를 결정하는 단계를 포함할 수 있다.

여기서, 감지하는 단계는, 복수의 쓰레드의 각 오피코드를 각 연산 유닛 별로 비교하는 단계와, 비교 결과 및 기 저장된 연산자 정보를 기반으로 리소스의 충돌 여부를 판단하는 단계를 포함할 수 있다.

또한, 프로세서의 동작 방법은, 충돌된 쓰레드 중 처리 순서가 낮은 쓰레드를 스톨하는 단계를 더 포함할 수 있다.

또한, 프로세서의 동작 방법은, 리소스 충돌 감지 결과를 큐에 저장하는 단계를 더 포함할 수 있다.

또한, 프로세서의 동작 방법은, 복수의 쓰레드 중 일부에 포함된 제어문의 실행에 따라 큐에 저장된 리소스 충돌 감지 결과가 유효하지 않을 경우, 큐를 플러쉬하는 단계를 더 포함할 수 있다.

다수의 연산자를 동시에 사용하여 다수의 쓰레드를 처리할 수 있는 연산 유닛을 제공함으로써, 쓰레드 레벨 병렬성(Thread Level Parallelism, TLP)을 극대화하는 것이 가능하다.

또한, 프로세서의 면적을 감소시키고 효율적인 동시 멀티 쓰레딩을 가능하게 한다.

동시 멀티 쓰레딩을 지원하기 위한 저장 장치가 별도로 존재하여 쓰레드 스위치에 따른 오버헤드가 전혀 없다.

연산 유닛 내의 다수의 연산자를 동시에 사용함으로써, 연산 유닛의 수가 늘어나는 효과를 볼 수 있어. 컴파일러가 단순해 질 수 있다.

도 1은 일 실시 예에 따른 멀티 쓰레딩을 지원하기 위한 연산 유닛의 대략적인 구성도이다.
도 2는 일 실시 예에 따른 멀티 쓰레딩을 지원하기 위한 연산 유닛의 예시도이다.
도 3는 일 실시 예에 따른 프로세서의 구성도이다.
도 4는 도 3의 리소스 충돌 감지부(320)의 상세 구성도이다.
도 5는 다른 실시 예에 따른 프로세서의 구성도이다.
도 6은 일 실시 예에 따른 프로세서(500)의 동작 방법을 도시한 도면이다.
도 7은 도 6의 리소스의 충돌을 감지하는 과정(610)의 상세 흐름도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 일 실시 예에 따른 멀티 쓰레딩을 지원하기 위한 연산 유닛의 구성도이다.

도 1을 참조하면, 연산 유닛(Function Unit, FU)(100)은 입력포트(110a 내지 110c), 연산자(120a 내지 120c), 연산자 선택부(130) 및 출력 포트(140a 내지 140c)를 포함할 수 있다.

입력포트(110a 내지 110c)는 오피코드 및 오퍼랜드를 쓰레드별로 입력 받을 수 있다. 예를 들어, 입력포트 #1(110a)는 쓰레드 1에 대한 오피코드 및 오퍼랜드를, 입력포트 #2(110b)는 쓰레드 2에 대한 오피코드 및 오퍼랜드를, 입력포트 #n(110c)는 쓰레드 n에 대한 오피코드 및 오퍼랜드를 입력 받을 수 있다. 이때, 입력포트의 개수는 동시에 처리하고자 하는 쓰레드의 개수와 동일할 수도 있으나, 이에 한정되는 것은 아니다.

연산자(120a 내지 120c)는 오퍼랜드(operand)에 대한 소정의 연산을 수행할 수 있다. 연산자(120a 내지 120c)는 덧셈기, 곱셈기, 나눗셈기, 비교기 등으로 구현될 수 있으나, 이에 한정되는 것은 아니다.

일 실시 예에 따르면, 각 연산자(120a 내지 120c)는 멀티 쓰레딩을 위하여, 각 연산자(120a 내지 120c)의 데이터 패스 상에 각 쓰레드에 할당되어 연산 결과를 저장하는 레지스터(register#1, register#n)를 포함할 수 있다. 이때, register#1은 쓰레드 1에 할당되고, register#n은 쓰레드 n에 할당될 수 있다.

연산자 선택부(130)는 각 입력 포트(110a 내지 110c)를 통하여 입력 받은 오피코드를 기반으로 각 오퍼랜드에 대한 연산을 수행할 연산자를 선택할 수 있다. 예를 들어, 연산자(120a)는 덧셈기, 연산자(120b)는 곱셈기, 연산자(120c)는 비교기라고 가정한다. 이때, 쓰레드 1의 오피코드가 덧셈 명령이고, 쓰레드 2의 오피코드가 곱셈 명령인 경우, 연산자 선택부(130)는 쓰레드 1의 오퍼랜드를 처리할 연산자로서 연산자(120a)를, 쓰레드 2의 오퍼랜드를 처리할 연산자로서 연산자(120b)를 선택할 수 있다. 이 경우, 연산자(120a)는 쓰레드 1의 오퍼랜드에 대하여 덧셈 연산을 수행하고, 이와 동시에, 연산자(120b)는 쓰레드 2의 오퍼랜드에 대하여 곱셈 연산을 수행하게 된다.

출력 포트(140a 내지 140c)는 연산 수행 결과를 쓰레드 별로 출력할 수 있다. 예를 들어, 출력포트 #1(140a)는 쓰레드 1에 대한 연산 수행 결과를, 출력포트 #2(140b)는 쓰레드 2에 대한 연산 수행 결과를, 출력포트 #n(140c)는 쓰레드 n에 대한 연산 수행 결과를 출력할 수 있다. 이때, 출력 포트의 개수는 동시에 처리하고자 하는 쓰레드의 개수와 동일할 수도 있으나, 이에 한정되는 것은 아니다.

이에 따르면, 연산 유닛(100)은 복수의 쓰레드를 동시에 처리하는 것이 가능하므로 쓰레드 레벨 병렬성(Thread Level Parallelism, TLP)을 극대화시키는 것이 가능하다.

한편, 일 실시 예에 따르면, 연산자(120a 내지 120c)는 서로 다른 연산을 수행하도록 구현될 수 있다. 이 경우, 연산 유닛(100)은 복수의 쓰레드에 대한 서로 다른 오피코드를 동시에 처리하는 것이 가능하다.

그러나, 연산자(120a 내지 120c)가 서로 다른 연산을 수행하도록 구현되고, 2 이상의 쓰레드가 동일한 연산 유닛(100)을 이용하여 동일한 연산을 수행하고자 하는 경우는 리소스 충돌(resource conflict)이 발생하여 우선 순위가 낮은 쓰레드가 스톨(stall)되어, 시스템의 성능 저하를 야기시킬 수 있다.

일 실시 예에 따르면, 이러한 문제를 해결하기 위해, 연산자(120a 내지 120c) 중 일부는 서로 동일한 연산을 수행하도록 구현될 수 있다. 즉, 연산 유닛(100) 내에서 수행 빈도가 높은 연산을 리소스 충돌 없이 수행하기 위해, 사용 빈도가 높은 연산자를 연산 유닛(100)에 복수 개 배치할 수 있다. 예를 들어, 다양한 쓰레드의 동작을 미리 프로파일링하여 자주 사용되는 연산자를 연산 유닛(100)에 복수 개 배치할 수 있다. 만약 프로파일링 결과, 덧셈 연산을 자주 사용하는 쓰레드들에 의해 리소스 충돌이 자주 발생하여 시스템의 성능 저하가 발생하였다면, 연산 유닛(100)에 덧셈기를 하나 더 추가하고, 각 덧셈기는 자신의 현재 상태 정보 즉, 현재 사용 가능한지 여부를 알려주는 신호를 생성하여 연산자 선택부(130)에 전송함으로써, 연산자 선택부(130)가 적절한 선택을 할 수 있도록 도와줄 수 있다.

즉, 동일한 연산을 수행하도록 구현된 일부 연산자 각각은 자신의 현재 상태를 나타내는 신호를 생성하여 출력할 수 있다. 여기서, 현재 상태를 나타내는 신호는 각 연산자의 사용 가능 여부를 알려주는 신호를 의미한다. 예를 들어, 일부 연산자 각각은 자신이 현재 연산을 수행하고 있어서, 다른 쓰레드에 대한 연산을 수행할 수 없을 때, busy 신호를 생성하여 연산자 선택부(130)로 전송할 수 있다. 이 경우, 연산자 선택부(130)는 busy 신호를 송신한 연산자를 제외한 나머지 연산자 중에서 연산을 수행할 연산자를 선택하게 된다.

또한, busy 신호를 연산자 선택부(130)로 송신한 연산자는, busy 신호 송신 당시에 수행 중이던 연산이 완료되면, 다른 쓰레드가 해당 연산자를 이용할 수 있도록 완료 신호를 생성하여 출력할 수 있다.

도 2는 일 실시 예에 따른 멀티 쓰레딩을 지원하기 위한 연산 유닛의 예시도이다. 도 2의 연산 유닛(200)은 2개의 쓰레드의 동시 처리를 지원하기 위한 연산 유닛의 예로서, 2개의 연산자(가산기 및 비교기)를 포함한다. 도 2는 설명의 편의를 위하여 2개의 연산자를 포함하는 것으로 도시한 것뿐이며, 발명의 용도 및 성능에 따라 다양한 연산자를 포함하는 것도 가능하다.

도 2를 참조하면, 연산 유닛(200)은 쓰레드 1 및 쓰레드 2에 대한 오퍼랜드 및 오피코드를 입력 받는다. 연산 유닛(200)은 각 오피코드를 기반으로 각 쓰레드의 오퍼랜드에 대한 연산을 수행할 연산자를 쓰레드 별로 선택하고, 쓰레드 별로 선택한 연산자를 이용하여 각 쓰레드의 오퍼랜드에 대한 연산을 수행한다. 예를 들어, 쓰레드 1의 오피코드가 덧셈 명령이고, 쓰레드 2의 오피코드가 비교 명령인 경우, 연산 유닛(200)은 가산기를 이용하여 쓰레드 1의 오퍼랜드에 대하여 덧셈 연산을 수행하고, 이와 동시에 비교기를 이용하여 쓰레드 2의 오퍼랜드에 대하여 비교 연산을 수행한다.

한편, 각 연산자의 데이터 패스 상에는 각 쓰레드를 위한 레지스터가 포함된다. 예를 들어, register#1은 쓰레드 1을 위한 레지스터이고, register#2는 쓰레드 2를 위한 레지스터이다. 즉, 쓰레드 1의 오퍼랜드에 대한 연산 결과는 register#1에 저장되며, 쓰레드 2의 오퍼랜드에 대한 연산 결과는 register#2에 저장된다.

그 후, 연산 유닛(200)은 2개의 출력 단자를 통하여 연산 수행 결과를 각 쓰레드 별로 출력한다.

도 3는 일 실시 예에 따른 프로세서의 구성도이다.

도 3를 참조하면, 프로세서(300)는 프로세싱부(310), 리소스 충돌 감지부(320) 및 리소스 스케줄러(330)을 포함할 수 있다.

프로세싱부(310)는 복수의 쓰레드를 동시에 처리할 수 있다. 이를 위해, 프로세싱부(310)는 복수의 쓰레드에 대한 복수의 연산을 동시에 수행할 수 있는 하나 이상의 연산 유닛(FU#0 내지 FU#n)을 포함할 수 있다. 이때, 복수의 쓰레드에 대한 복수의 연산을 동시에 수행할 수 있는 연산 유닛은 도 1을 참조하여 설명한 연산 유닛과 동일하므로, 그 상세한 설명은 생략하기로 한다.

리소스 충돌 감지부(320)는 2 이상의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌을 감지할 수 있다. 예를 들어, 쓰레드 1은 FU#0 내에서 덧셈 연산을 수행하고, 쓰레드 2는 FU#0 내에서 곱셈 연산을 수행한다면, FU#0은 덧셈 연산 및 곱셈 연산을 동시에 수행하는 것이 가능하므로, 리소스 충돌이 발생하지 않는다. 그러나, 쓰레드 1 및 쓰레드 2가 FU#1 내에서 동일한 연산인 비교 연산을 수행한다면, 비교 연산을 수행하는 비교기가 FU#1 내에 1개만 있는 경우, 리소스 충돌이 발생하게 된다. 이 경우, 리소스 충돌 감지부(320)는 FU#1의 리소스 충돌을 감지할 수 있다.

리소스 충돌 감지부(320)의 자세한 설명은 도 4을 참조하여 후술하기로 한다.

리소스 스케줄러(330)는 기 설정된 기준에 따라 충돌된 쓰레드들 간에 처리 순서를 결정할 수 있다. 예를 들면, 리소스 스케줄러(330)는 각 쓰레드에서 캐시 미스(cache miss)가 발생하였는지 지 여부를 직접 판단하거나 외부로부터 이에 관한 정보를 수신하여, 이에 따라 쓰레드들 간에 처리 순서를 결정할 수 있다. 다른 예를 들면, 리소스 스케줄러(330)는 사용자 또는 시스템에 의해 설정된 우선 순위에 따라 각 쓰레드의 처리 순서를 결정할 수도 있다. 그러나, 상술한 예에 한정되는 것은 아니다.

리소스 스케줄러(330)는 결정된 처리 순서를 기반으로 처리 순서가 낮은 쓰레드의 데이터패스(datapath)를 스톨(stall)시킬 수 있도록 스톨 신호를 생성할 수 있다. 또한, 리소스 스케줄러(330)는 스톨된 쓰레드의 리소스 사용권이 허가되면 그랜트(grant) 신호를 생성할 수 있다.

프로세싱부(310)는 스톨 신호를 수신하면, 처리 순서가 낮은 쓰레드의 데이터패스를 스톨시키고, 이 후, 스톨된 쓰레드의 리소스 사용권이 허가되어 발생한 그랜트 신호를 수신하면, 스톨이 풀리고 스레드의 처리를 재개하게 된다.

도 4는 도 3의 리소스 충돌 감지부(320)의 상세 구성도이다.

도 4를 참조하면, 리소스 충돌 감지부(320)는 리소스 정보 저장부(410), 오피코드 비교부(420) 및 리소스 충돌 여부 판단부(430)를 포함할 수 있다.

리소스 정보 저장부(410)는 쓰레드 정보, 연산 유닛 정보 및 연산자 정보 등을 리소스 테이블로 저장할 수 있다. 이때, 쓰레드 정보는 동시에 처리하고자 하는 쓰레드의 아이디, 현재 처리 중인 쓰레드의 아이디 등을 포함할 수 있다. 연산 유닛 정보는 프로세싱부(310)에 포함되어 있는 연산 유닛의 갯수, 연산 유닛 아이디 등을 포함할 수 있다. 연산자 정보는 각 연산 유닛에 포함되어 있는 연산자의 종류, 개수, 연산자의 상태 정보 등을 포함할 수 있다. 이때, 연산자의 상태 정보는 각 연산자가 현재 연산을 수행하고 있는지 여부에 관한 정보를 말한다.

한편, 연산 유닛(100)에 포함된 연산자(120a 내지 120c) 중 일부가 동일한 오피코드를 처리하도록 구현된 경우로서, busy 신호를 연산자 선택부(130)로 송신한 연산자가 busy 신호 송신 당시 처리 중이던 오피코드의 처리가 완료되어 완료 신호를 송신하면, 리소스 정보 저장부(410)는 이를 수신하여 해당 연산 유닛의 연산자의 상태 정보를 갱신할 수 있다. 이때, 연산자 테이블의 운영은 다양한 방법에 의해 가능하다.

오피코드 비교부(420)는 각 쓰레드의 오피코드를 연산 유닛 별로 비교할 수 있다. 예를 들어, 각 쓰레드의 명령어를 해석(decoding)하면, 각 연산 유닛 별로 수행하고자 하는 연산의 종류를 오피코드를 통해 알 수 있다. 이때, 오피코드 비교부(420)는 연산 유닛 별로 각 쓰레드의 오피코드를 상호 비교함으로써, 각 연산 유닛이 동시에 동일한 연산을 수행하는 지 여부를 판단할 수 있다.

리소스 충돌 여부 판단부(430)는 리소스 정보 저장부(410)에 저장된 정보 및 오피코드 비교부(420)에서 비교한 결과를 기반으로 리소스 충돌 여부를 판단할 수 있다. 예를 들어, 쓰레드 1 및 쓰레드 2가 동시에 FU#0에서 덧셈 연산을 수행하고자 한다고 가정한다. 이 경우, 리소스 정보 저장부(410)에 저장된 FU#0의 연산자 정보에 비추어 FU#0에 2개의 덧셈기가 포함되어 있는 경우, FU#0은 2개의 덧셈기를 동시에 사용할 수 있으므로, 리소스의 충돌이 발생하지 않는다. 반면에, FU#0에 1개의 덧셈기만을 포함되어 있는 경우는 FU#0는 1개의 덧셈기만을 사용할 수 있어 2개의 덧셈 연산을 동시에 할 수 없으므로, 쓰레드 1 및 쓰레드 2의 오피코드를 동시에 처리할 수 없다. 이 경우, 리소스 충돌 여부 판단부(430)는 FU#0에서 리소스 충돌이 발생한다고 판단할 수 있다.

한편, 프로세서(300)는 파이프라인 기법을 적용한다. 일반적으로 프로세서 파이프라인은 명령어의 인출(fetch) 단계, 명령어 해석(decoding) 단계, 명령어 실행(execute) 단계, 결과 저장(write back) 단계를 포함한다.

일 실시 예에 따르면, 리소스 충돌 감지부(320)는 프로세서 파이프라인 중 명령어 해석 단계에서 각 쓰레드의 오피코드를 비교하여 리소스 충돌 여부를 감지할 수 있다.

도 5는 다른 실시 예에 따른 프로세서의 구성도이다.

도 5를 참조하면, 프로세서(500)는 큐(510) 및 플러쉬부(520)를 더 포함할 수 있다.

프로세서(500)에서 동시에 처리되는 일부 쓰레드에 branch 등과 같은 제어문이 포함되어 있는 경우, 제어문의 실행에 따라, 리소스 충돌 감지부(320)가 명령어 해석 단계에서 감지한 결과가 유효하지 않을 수도 있다. 이를 위해, 프로세서(500)는 도 3의 프로세서(300)의 각 구성에 큐(510) 및 플러쉬부(520)를 더 포함할 수 있다.

큐(510)는 리소스 충돌 감지부(320)의 감지 결과를 저장할 수 있다.

플러쉬부(520)는 제어문의 실행에 따라 큐(510)에 저장되어 있는 감지 결과가 유효하지 않을 경우, 큐(510)를 플러쉬(flush)할 수 있다.

만약, 쓰레드에 제어문이 포함되어 있지 않은 경우 또는 제어문을 실행하여도 큐(510)에 저장되어 있는 감지 결과가 유효한 경우는 큐(510)는 감지 결과를 리소스 스케줄러(330)로 전송하고, 리소스 스케줄러(330)는 감지 결과를 기반으로 충돌된 쓰레드의 데이터패스를 스톨시킬 수 있다. 이 때, 어떠한 쓰레드를 스톨시킬 지는 리소스 스케줄러(330)에서 기 설정된 기준에 따라 결정된 처리 순서에 따른다.

도 6은 일 실시 예에 따른 프로세서의 동작 방법을 도시한 도면이다.

도 6을 참조하면, 프로세서의 동작 방법은 먼저, 복수의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌 여부를 감지한다(610).

그 후, 충돌 감지 결과를 큐(510)에 저장한다(620).

그 후, 복수의 쓰레드 중 일부에 포함된 제어문의 실행에 따라 큐(510)에 저장되어 있는 감지 결과가 유효한지 여부를 판단한다(630).

단계 630의 판단 결과, 큐(510)에 저장된 감지 결과가 유효한 경우, 기 설정된 기준에 따라 충돌된 쓰레드간의 처리 순서를 결정하고(640), 충돌된 쓰레드 중 처리 순서가 낮은 쓰레드를 스톨한다(650).

단계 630의 판단 결과, 큐(510)에 저장된 감지 결과가 유효하지 않은 경우, 큐를 플러쉬하고(660), 단계 610로 돌아간다.

도 7은 도 6의 리소스의 충돌을 감지하는 과정(610)의 상세 흐름도이다.

도 7을 참조하면, 리소스의 충돌을 감지하는 과정(610)은 먼저, 동시에 처리하고자 하는 복수의 쓰레드의 오피코드를 각 연산 유닛 별로 비교한다(710). 예를 들어, 각 쓰레드의 명령어를 해석(decoding)하면, 각 연산 유닛 별로 수행하고자 하는 연산의 종류를 오피코드를 통해 알 수 있다. 따라서, 명령어 파이프라인 중 명령어 해석 단계에서 연산 유닛 별로 각 쓰레드의 오피코드를 상호 비교함으로써, 각 연산 유닛이 동시에 동일한 연산을 수행하는 지 여부를 판단할 수 있다.

그 후, 비교 결과 및 기 저장된 연산자 정보를 기반으로 리소스의 충돌 여부를 판단한다(720). 이때, 연산자 정보는 각 연산 유닛에 포함되어 있는 연산자의 종류, 개수 및 각 연산자의 상태 정보 등을 포함할 수 있다.

본 발명의 일 양상은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현될 수 있다. 상기의 프로그램을 구현하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함할 수 있다. 컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 디스크 등을 포함할 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드로 작성되고 실행될 수 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

100: 연산 유닛
110a 내지 110c: 입력 포트
120a 내지 120c: 연산자
130: 연산자 선택부
140a 내지 140c: 출력 포트

Claims

복수의 쓰레드에 대한 오피코드 및 오퍼랜드를 쓰레드별로 입력 받기 위한 복수의 입력 포트;
오퍼랜드에 대한 소정의 연산을 수행하는 복수의 연산자;
각 오피코드를 기반으로 상기 복수의 연산자 중에서 각 오퍼랜드에 대한 연산을 수행할 연산자를 선택하는 연산자 선택부;
연산 수행 결과를 쓰레드 별로 출력하기 위한 복수의 출력 포트;
디코딩 동작에서 수행되는 상기 복수의 쓰레드의 상기 오피코드의 비교를 기반으로 상기 복수의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌을 감지하는 리소스 충돌 감지부; 및
상기 복수의 쓰레드 중 우선 순위가 낮은 하나의 쓰레드를 스톨함으로써 충돌된 쓰레드간의 처리 순서를 결정하는 리소스 스케줄러;를 포함하되,
상기 복수의 연산자는 적어도 덧셈기, 곱셈기, 나눗셈기, 비교기 중 하나를 포함할 수 있고,
각각의 상기 복수의 연산자는 각각 서로 다른 연산을 수행하는 멀티 쓰레딩을 지원하기 위한 연산 유닛.
제 1항에 있어서,
상기 복수의 연산자는,
데이터 패스 상에 각 쓰레드에 할당되어 연산 수행 결과를 저장하는 복수의 레지스터; 를 더 포함하는 멀티 쓰레딩을 지원하기 위한 연산 유닛.
삭제
삭제
제 1항에 있어서,
상기 복수의 연산자 중 일부는 상기 연산 유닛 내에서 수행 빈도가 높은 연산을 수행하기 위한 연산자인 멀티 쓰레딩을 지원하기 위한 연산 유닛.
제 1항에 있어서,
상기 복수의 연산자 중 일부 각각은 자신의 현재 상태를 나타내는 신호를 생성하여 상기 연산자 선택부에 전송하는 멀티 쓰레딩을 지원하기 위한 연산 유닛.
복수의 쓰레드를 동시에 처리할 수 있는 적어도 하나 이상의 연산 유닛을 포함하는 프로세싱부;
디코딩 동작에서 수행되는 상기 복수의 쓰레드의 오피코드의 비교를 기반으로 상기 복수의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌을 감지하는 리소스 충돌 감지부; 및
상기 리소스 충돌이 감지된 것에 반응하여 기 설정된 기준에 따라, 충돌된 쓰레드간의 처리 순서를 결정하고, 충돌된 쓰레드 중 처리 순서가 낮은 쓰레드에 대한 스톨 신호를 생성하는 리소스 스케줄러; 를 포함하되,
상기 적어도 하나 이상의 연산 유닛은 상기 복수의 쓰레드로부터 입력된 오퍼랜드를 이용하여 연산을 수행하는 복수의 연산자를 포함하고,
상기 복수의 연산자는 적어도 덧셈기, 곱셈기, 나눗셈기, 비교기 중 하나를 포함할 수 있고,
각각의 상기 복수의 연산자는 각각 서로 다른 연산을 수행하는 프로세서.
제 7항에 있어서,
상기 리소스 충돌 감지부는,
상기 적어도 하나 이상의 연산 유닛의 연산자 정보를 저장하는 리소스 정보 저장부;
상기 복수의 쓰레드의 각 오피코드를 각 연산 유닛 별로 비교하는 오피코드 비교부; 및
비교 결과 및 상기 연산자 정보를 기반으로 리소스의 충돌 여부를 판단하는 리소스 충돌 여부 판단부; 를 포함하는 프로세서.
제 8항에 있어서,
상기 연산자 정보는 각 연산 유닛에 포함되어 있는 연산자의 종류, 개수 및 각 연산자의 상태 정보 중 적어도 하나를 포함하는 프로세서.
삭제
제 7항에 있어서,
리소스 충돌 감지 결과를 저장하는 큐; 를 더 포함하는 프로세서.
제 11항에 있어서,
상기 복수의 쓰레드 중 일부에 포함된 제어문의 실행에 따라 상기 큐에 저장된 리소스 충돌 감지 결과가 유효하지 않을 경우, 상기 큐를 플러쉬하는 플러쉬부; 를 더 포함하는 프로세서.
복수의 쓰레드를 동시에 처리할 수 있고, 상기 복수의 쓰레드 각각은 연산을 수행하는 것을 시도하는 적어도 하나 이상의 연산 유닛을 포함하는 프로세서의 동작 방법에 있어서,
리소스 충돌이 감지된 것에 반응하여 디코딩 동작에서 수행되는 상기 복수의 쓰레드의 오피코드의 비교를 기반으로 상기 복수의 쓰레드가 동시에 동일한 연산 유닛 내에서 동일한 연산을 수행하는지 검사하여 리소스의 충돌을 감지하는 단계;
기 설정된 기준에 따라, 충돌된 쓰레드간의 처리 순서를 결정하는 단계; 및
충돌된 쓰레드 중 처리 순서가 낮은 쓰레드에 대한 스톨 신호를 생성하는 단계를 포함하되,
상기 연산은 산술 논리 연산으로 수행되고,
상기 산술 논리 연산은 적어도 덧셈, 곱셈, 나눗셈, 비교 연산 중에 하나를 포함하는 프로세서의 동작 방법.
제 13항에 있어서,
상기 감지하는 단계는,
상기 복수의 쓰레드의 각 오피코드를 각 연산 유닛 별로 비교하는 단계; 및
비교 결과 및 기 저장된 연산자 정보를 기반으로 리소스의 충돌 여부를 판단하는 단계; 를 포함하는 프로세서의 동작 방법.
제 14항에 있어서,
상기 연산자 정보는 각 연산 유닛에 포함되어 있는 연산자의 종류, 개수 및 각 연산자의 상태 정보 중 적어도 하나를 포함하는 프로세서의 동작 방법.
삭제
제 13항에 있어서,
리소스 충돌 감지 결과를 큐에 저장하는 단계; 를 더 포함하는 프로세서의 동작 방법.
제 17항에 있어서,
상기 복수의 쓰레드 중 일부에 포함된 제어문의 실행에 따라 상기 큐에 저장된 리소스 충돌 감지 결과가 유효하지 않을 경우, 상기 큐를 플러쉬하는 단계; 를 더 포함하는 프로세서의 동작 방법.