KR101585980B1

KR101585980B1 - 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서

Info

Publication number: KR101585980B1
Application number: KR1020140043422A
Authority: KR
Inventors: 정혜동; 손재기
Original assignee: 전자부품연구원
Priority date: 2014-04-11
Filing date: 2014-04-11
Publication date: 2016-01-19
Also published as: US20150293786A1; KR20150118227A

Abstract

멀티-프로세서의 공유 메모리를 적극 활용한 CR 알고리즘 처리 방법 및 이를 적용한 프로세서가 제공된다. 본 발명의 실시예에 따른 프로세서는, 행렬의 원소들 중 제1 그룹을 알고리즘으로 처리하는 제1 멀티-프로세서, 행렬의 원소들 중 제2 그룹을 알고리즘으로 처리하는 제2 멀티-프로세서 및 '제1 그룹의 일부 원소들', '제2 그룹의 일부 원소들' 및 '제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을 알고리즘으로 처리하는 제3 멀티-프로세서를 포함한다. 이에 의해, 원소의 수가 많은 TDM에 대해서도 빠르게 계산할 수 있다.

Description

멀티-프로세서의 공유 메모리를 적극 활용한 CR 알고리즘 처리 방법 및 이를 적용한 프로세서{CR Algorithm Processing Method for Actively Utilizing Shared Memory of Multi-Proceoosr and Processor using the same}

본 발명은 CR(Cyclic Reduction) 알고리즘 처리에 관한 것으로, 더욱 상세하게는 TDM(Tri-Diagonal Matrix : 삼중 대각 행렬) 계산(solve)을 위해 CR 알고리즘을 처리하는 방법 및 이를 적용한 프로세서에 관한 것이다.

TDM Solver는 CFD(Computational Fluid Dynamics)에 사용되는 알고리즘이지만 연산 속도에 문제가 있어, TDM을 CR 알고리즘으로 병렬 처리하는 것이 널리 활용되고 있다.

도 1은 종래 기술에 따라 TDM을 CR 알고리즘으로 병렬 처리하는 과정의 설명에 제공되는 도면이다.

도 1에 도시된 바와 같이, TDM의 원소들을 MP(Multi Processor)가 처리할 수 있는 개수(7개) 만큼 나누어 MP들에 할당한다. 도 1에 도시된 바에 따르면, TDM의 원소들 중 0번째 ~ 6번째 원소들이 하나의 MP에서 처리되고, 8번째 ~ 14번째 원소들이 다른 하나의 MP에서 처리됨을 확인할 수 있다.

이 2개의 MP에 의한 CR 알고리즘 처리는 공유 메모리에 원소들을 저장하여 계산하기 때문에, 매우 빠르게 수행된다. 하지만, 이후 7번째 원소에 대한 CR 알고리즘 처리는 전역 메모리에 접근하여 계산하여야 하기 때문에, 매우 느린 속도로 수행된다.

그 결과, TDM을 CR 알고리즘으로 처리함에 있어 많은 시간이 소요되어, 영상에 대한 CFD 속도 저하 문제가 발생한다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 접근 시간이 느린 전역 메모리 대신 접근 속도가 빠른 멀티-프로세서의 공유 메모리를 적극적으로 활용하여 CR 알고리즘을 처리하는 방법 및 이를 적용한 프로세서를 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 프로세서는, 행렬의 원소들 중 제1 그룹을, 알고리즘으로 처리하는 제1 멀티-프로세서; 상기 행렬의 원소들 중 제2 그룹을, 상기 알고리즘으로 처리하는 제2 멀티-프로세서; 및 '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 알고리즘으로 처리하는 제3 멀티-프로세서;를 포함한다.

그리고, 상기 제3 멀티-프로세서는, 상기 제3 그룹의 원소들이 저장된 제3 공유 메모리에 접근하면서, 상기 알고리즘을 처리할 수 있다.

또한, 상기 제1 멀티-프로세서는, 상기 제1 그룹의 원소들이 저장된 제1 공유 메모리에 접근하면서, 상기 알고리즘을 처리하고, 상기 제2 멀티-프로세서는, 상기 제2 그룹의 원소들이 저장된 제2 공유 메모리에 접근하면서, 상기 알고리즘을 처리할 수 있다.

그리고, 상기 행렬을 일차원 벡터로 표현하는 경우, 상기 제1 그룹의 원소들의 순번들은 상기 제2 그룹의 원소들의 순번들 보다 빠를 수 있다.

또한, 상기 제1 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제1 그룹에만 포함된 원소들의 순번들 보다 느릴 수 있다.

그리고, 상기 제2 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제2 그룹에만 포함된 원소들의 순번들 보다 빠를 수 있다.

또한, 상기 제1 그룹의 원소들과 상기 제2 그룹의 원소들은, 중복되지 않을 수 있다.

그리고, 상기 행렬은, TDM(Tri-Diagonal Matrix)일 수 있다.

또한, 상기 알고리즘은, 상기 TDM에 대한 CR(Cyclic Reduction) 알고리즘일 수 있다.

한편, 본 발명의 다른 실시예에 따른, 알고리즘 처리 방법은, 제1 멀티-프로세서가, 행렬의 원소들 중 제1 그룹을, 알고리즘으로 처리하는 단계; 제2멀티-프로세서가, 상기 행렬의 원소들 중 제2 그룹을, 상기 알고리즘으로 처리하는 단계; 및 제2멀티-프로세서가, '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 알고리즘으로 처리하는 단계;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 접근 시간이 느린 전역 메모리 대신 접근 속도가 빠른 멀티-프로세서의 공유 메모리를 적극적으로 활용하여 CR 알고리즘을 처리하므로, 원소의 수가 많은 TDM에 대해서도 빠르게 계산할 수 있다.

특히, 의료 영상 처리, 3차원 가시화 등과 같은 분야에서 최적의 병렬성을 높임으로서 전체적인 알고리즘 성능을 향상시킬 수 있게 된다.

도 1은 종래 기술에 따라 TDM을 CR 알고리즘으로 병렬 처리하는 과정의 설명에 제공되는 도면,
도 2는 본 발명의 일 실시예에 따른 GP-GPU의 블럭도, 그리고,
도 3은, 도 2에 도시된 GP-GPU가 TDM을 CR 알고리즘으로 처리하는 방법의 설명에 제공되는 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 GP-GPU(General Purpose-Graphics Processing Unit)의 블럭도이다. 본 발명의 실시예에 따른 GP-GPU는, 의료 영상 처리, 3차원 가시화 등을 수행하기 위한 프로세서이다.

이 과정에서, 본 발명의 실시예에 따른 GP-GPU는 TDM(Tri-Diagonal Matrix : 삼중 대각 행렬)을 CR(Cyclic Reduction) 알고리즘으로 처리한다.

이와 같은 기능을 수행하는 GP-GPU는, 도 2에 도시된 바와 같이, 전역-메모리(110), 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 및 공유-메모리들(130-0, 130-1, 130-2, ..., 130-n)을 포함한다.

멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 각각은 다수의 단위-프로세서들(미도시)을 포함하고 있다. 즉, 도 2에 도시된 GP-GPU는 다중 멀티-프로세서 구조이다.

멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n)은 병렬적으로 알고리즘을 처리한다. 즉, 도 2에 도시된 GP-GPU는 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n)에 의한 병렬 처리가 가능한 프로세서이다.

전역-메모리(110)는 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 모두가 접근 가능한 메모리이고, 공유-메모리들(130-0, 130-1, 130-2, ..., 130-n)은 해당 멀티-프로세서만 접근 가능한 메모리이다.

구체적으로, 0) 공유-메모리 #0(130-0)은 멀티-프로세서 #0(120-0)만이 접근하여 사용할 수 있고, 1) 공유-메모리 #1(130-1)은 멀티-프로세서 #1(120-1)만이 접근하여 사용할 수 있으며, 2) 공유-메모리 #2(130-2)는 멀티-프로세서 #2(120-2)만이 접근하여 사용할 수 있고, ... , n) 공유-메모리 #n(130-n)은 멀티-프로세서 #n(120-n)만이 접근하여 사용할 수 있다.

모든 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 모두가 접근 가능한 전역-메모리(110)에 비해, 해당 멀티-프로세서만 접근 가능한 공유-메모리들(130-0, 130-1, 130-2, ..., 130-n)의 접근 속도가 빠름은 물론이다.

이하에서, 도 2에 도시된 GP-GPU가 TDM을 CR 알고리즘으로 처리하는 방법에 대해 도 3을 참조하여 상세히 설명한다.

도 3에 도시된 바와 같이, MP0[멀티-프로세서 #0(120-0)]은 TDM의 원소들 중 일부(0번째 ~ 6번째 원소들)를 CR 알고리즘으로 처리하고, MP2[멀티-프로세서 #2(120-2)]는 TDM의 원소들 중 다른 일부(8번째 ~ 14번째 원소들)를 CR 알고리즘으로 처리한다.

MP0[멀티-프로세서 #0(120-0)]은 TDM의 원소들 중 앞 부분(0번째 ~ 6번째 원소들)을 처리한다. 구체적으로, TDM을 일차원 벡터로 표현하는 경우에 순번들이 빠른 원소들(0번째 ~ 6번째 원소들)을 할당 받아 처리한다.

반면, MP2[멀티-프로세서 #2(120-2)]는 TDM의 원소들 중 뒷 부분(8번째 ~ 14번째 원소들)을 처리한다. 구체적으로, TDM을 일차원 벡터로 표현하는 경우에 순번들이 느린 원소들(8번째 ~ 14번째 원소들)을 할당 받아 처리한다.

MP0[멀티-프로세서 #0(120-0)]에 의해 처리되는 원소들(0번째 ~ 6번째 원소들)과 MP2[멀티-프로세서 #2(120-2)]에 의해 처리되는 원소들(8번째 ~ 14번째 원소들)은 중복되지 않는다.

한편, MP1[멀티-프로세서 #1(120-1)]은 TDM의 원소들 중 또 다른 일부(4번째 ~ 10번째 원소들)를 CR 알고리즘으로 처리한다.

MP1[멀티-프로세서 #1(120-1)]에 의한 처리는 MP0[멀티-프로세서 #0(120-0)]에 의한 처리 및 MP2[멀티-프로세서 #2(120-2)]에 의한 처리와 병렬적이다. 즉, MP0[멀티-프로세서 #0(120-0)], MP1[멀티-프로세서 #1(120-1)] 및 MP2[멀티-프로세서 #2(120-2)]에 의한 처리는, 모두 함께 이루어진다.

MP1[멀티-프로세서 #1(120-1)]은 TDM의 원소들 중 중간 부분(4번째 ~ 10번째 원소들)을 처리한다. 구체적으로, TDM을 일차원 벡터로 표현하는 경우에 순번들이 중간인 원소들(4번째 ~ 10번째 원소들)을 할당 받아 처리한다.

이에 의해, MP1[멀티-프로세서 #1(120-1)]에 의해 처리되는 원소들은 MP0[멀티-프로세서 #0(120-0)]과 일부 중복되고, MP2[멀티-프로세서 #2(120-2)]와도 일부 중복된다.

구체적으로, MP1[멀티-프로세서 #1(120-1)]은, MP0[멀티-프로세서 #0(120-0)]에서 처리되는 원소들 중 순번이 느린 원소들(4번째 ~ 6번째 원소들)을 할당받아 처리하고, MP2[멀티-프로세서 #2(120-2)]에서 처리되는 원소들 중 순번이 빠른 원소들(8번째 ~ 10번째 원소들)을 할당받아 처리한다.

또한, MP1[멀티-프로세서 #1(120-1)]은, MP0[멀티-프로세서 #0(120-0)]과 MP2[멀티-프로세서 #2(120-2)]에서 처리되지 않는 원소(7번째 원소들)도 할당받아 처리한다.

한편, MP0[멀티-프로세서 #0(120-0)]은 할당 받은 원소들을 공유-메모리 #0(130-0)에 저장하여 이용하고, MP1[멀티-프로세서 #1(120-1)]은 할당 받은 원소들을 공유-메모리 #1(130-1)에 저장하여 이용하며, MP2[멀티-프로세서 #2(120-2)]는 할당 받은 원소들을 공유-메모리 #2(130-2)에 저장하여 이용한다.

따라서, MP0[멀티-프로세서 #0(120-0)], MP1[멀티-프로세서 #1(120-1)] 및 MP2[멀티-프로세서 #2(120-2)]가 원소들을 CR 알고리즘으로 처리함에 있어 전역-메모리(110)를 이용하지 않으므로, 접근 속도가 빨라져 처리 속도 향상으로 이어진다.

나아가, 도 1에서 "전역-메모리로 계산하는 구간"이 없어져, 그 구간의 시간 만큼 전체 처리 속도가 빨라지게 된다.

한편, MP0[멀티-프로세서 #0(120-0)], MP1[멀티-프로세서 #1(120-1)] 및 MP2[멀티-프로세서 #2(120-2)]에 의한 처리가 완료되면, 이후 이들 중 하나가 i) 3번째, 7번째 및 11번째 원소를 CR 알고리즘 처리하고, ii) 11번째 및 15번째 원소를 CR 알고리즘 처리하며, iii) 7번째 및 15번째 원소를 CR 알고리즘 처리한다.

"i)", "ii)" 및 "iii)"에 대한 처리 역시 해당 공유-메모리에 원소들을 저장/접근하여 수행된다.

지금까지, 멀티-프로세서의 공유 메모리를 적극 활용한 CR 알고리즘 처리 방법 및 이를 적용한 GP-GPU에 대해 바람직한 실시예를 들어 상세히 설명하였다.

위 실시에서, TDM의 원소 개수는 16개인 것을 상정하였으나, 이해와 설명의 편의를 위한 예시적인 것으로, 그와 다른 사이즈의 TDM에도 본 발명의 기술적 사상이 적용될 수 있다.

또한, 위 실시예에서는, TDM을 CR 알고리즘으로 처리하는 것을 상정하였는데, 이는 발명의 이해와 설명의 편의를 위한 예시적인 것에 불과하다. TDM을 다른 종류의 행렬로 대체하고, CR 알고리즘을 다른 종류의 알고리즘으로 대체하는 경우에도 본 발명의 기술적 사상이 적용될 수 있다.

아울러, 본 발명의 기술적 사상은 GP-GPU가 아닌 다른 종류의 프로세서를 구현하는 경우에도 적용될 수 있다.

나아가, 본 발명의 기술적 사상은, 의료 영상 처리, 3차원 가시화 등과 같은 영상 처리 분야는 물론, 통신, 암호화 등에서도 활용될 수 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

110 : 전역-메모리
120-0, 120-1, 120-2, ..., 120-n : 멀티-프로세서
130-0, 130-1, 130-2, ..., 130-n : 공유-메모리

Claims

TDM(Tri-Diagonal Matrix)의 원소들 중 제1 그룹을, CR(Cyclic Reduction) 알고리즘으로 처리하는 제1 멀티-프로세서;
상기 TDM의 원소들 중 제2 그룹을, 상기 CR 알고리즘으로 처리하는 제2 멀티-프로세서; 및
'상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 CR 알고리즘으로 처리하는 제3 멀티-프로세서;를 포함하는 것을 특징으로 하는 GPU(Graphics Processing Unit).
청구항 1에 있어서,
상기 제3 멀티-프로세서는,
상기 제3 그룹의 원소들이 저장된 제3 공유 메모리에 접근하면서, 상기 CR 알고리즘을 처리하는 것을 특징으로 하는 GPU.
제 2항에 있어서,
상기 제1 멀티-프로세서는,
상기 제1 그룹의 원소들이 저장된 제1 공유 메모리에 접근하면서, 상기 CR 알고리즘을 처리하고,
상기 제2 멀티-프로세서는,
상기 제2 그룹의 원소들이 저장된 제2 공유 메모리에 접근하면서, 상기 CR 알고리즘을 처리하는 것을 특징으로 하는 GPU.
제 1항에 있어서,
상기 TDM을 일차원 벡터로 표현하는 경우, 상기 제1 그룹의 원소들의 순번들은 상기 제2 그룹의 원소들의 순번들 보다 빠른 것을 특징으로 하는 GPU.
제 4항에 있어서,
상기 제1 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제1 그룹에만 포함된 원소들의 순번들 보다 느린 것을 특징으로 하는 GPU.
제 5항에 있어서,
상기 제2 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제2 그룹에만 포함된 원소들의 순번들 보다 빠른 것을 특징으로 하는 GPU.
제 1항에 있어서,
상기 제1 그룹의 원소들과 상기 제2 그룹의 원소들은, 중복되지 않는 것을 특징으로 하는 GPU.
삭제
삭제
제1 멀티-프로세서가, TDM(Tri-Diagonal Matrix)의 원소들 중 제1 그룹을, CR(Cyclic Reduction) 알고리즘으로 처리하는 단계;
제2멀티-프로세서가, 상기 TDM의 원소들 중 제2 그룹을, 상기 CR 알고리즘으로 처리하는 단계; 및
제2멀티-프로세서가, '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 CR 알고리즘으로 처리하는 단계;를 포함하는 것을 특징으로 하는 그래픽 처리 방법.