KR101585980B1 - 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서 - Google Patents

멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서 Download PDF

Info

Publication number
KR101585980B1
KR101585980B1 KR1020140043422A KR20140043422A KR101585980B1 KR 101585980 B1 KR101585980 B1 KR 101585980B1 KR 1020140043422 A KR1020140043422 A KR 1020140043422A KR 20140043422 A KR20140043422 A KR 20140043422A KR 101585980 B1 KR101585980 B1 KR 101585980B1
Authority
KR
South Korea
Prior art keywords
elements
processor
group
algorithm
processing
Prior art date
Application number
KR1020140043422A
Other languages
English (en)
Other versions
KR20150118227A (ko
Inventor
정혜동
손재기
Original Assignee
전자부품연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 전자부품연구원 filed Critical 전자부품연구원
Priority to KR1020140043422A priority Critical patent/KR101585980B1/ko
Priority to US14/564,508 priority patent/US20150293786A1/en
Publication of KR20150118227A publication Critical patent/KR20150118227A/ko
Application granted granted Critical
Publication of KR101585980B1 publication Critical patent/KR101585980B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • G06F12/023Free address space management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/167Interprocessor communication using a common memory, e.g. mailbox

Abstract

멀티-프로세서의 공유 메모리를 적극 활용한 CR 알고리즘 처리 방법 및 이를 적용한 프로세서가 제공된다. 본 발명의 실시예에 따른 프로세서는, 행렬의 원소들 중 제1 그룹을 알고리즘으로 처리하는 제1 멀티-프로세서, 행렬의 원소들 중 제2 그룹을 알고리즘으로 처리하는 제2 멀티-프로세서 및 '제1 그룹의 일부 원소들', '제2 그룹의 일부 원소들' 및 '제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을 알고리즘으로 처리하는 제3 멀티-프로세서를 포함한다. 이에 의해, 원소의 수가 많은 TDM에 대해서도 빠르게 계산할 수 있다.

Description

멀티-프로세서의 공유 메모리를 적극 활용한 CR 알고리즘 처리 방법 및 이를 적용한 프로세서{CR Algorithm Processing Method for Actively Utilizing Shared Memory of Multi-Proceoosr and Processor using the same}
본 발명은 CR(Cyclic Reduction) 알고리즘 처리에 관한 것으로, 더욱 상세하게는 TDM(Tri-Diagonal Matrix : 삼중 대각 행렬) 계산(solve)을 위해 CR 알고리즘을 처리하는 방법 및 이를 적용한 프로세서에 관한 것이다.
TDM Solver는 CFD(Computational Fluid Dynamics)에 사용되는 알고리즘이지만 연산 속도에 문제가 있어, TDM을 CR 알고리즘으로 병렬 처리하는 것이 널리 활용되고 있다.
도 1은 종래 기술에 따라 TDM을 CR 알고리즘으로 병렬 처리하는 과정의 설명에 제공되는 도면이다.
도 1에 도시된 바와 같이, TDM의 원소들을 MP(Multi Processor)가 처리할 수 있는 개수(7개) 만큼 나누어 MP들에 할당한다. 도 1에 도시된 바에 따르면, TDM의 원소들 중 0번째 ~ 6번째 원소들이 하나의 MP에서 처리되고, 8번째 ~ 14번째 원소들이 다른 하나의 MP에서 처리됨을 확인할 수 있다.
이 2개의 MP에 의한 CR 알고리즘 처리는 공유 메모리에 원소들을 저장하여 계산하기 때문에, 매우 빠르게 수행된다. 하지만, 이후 7번째 원소에 대한 CR 알고리즘 처리는 전역 메모리에 접근하여 계산하여야 하기 때문에, 매우 느린 속도로 수행된다.
그 결과, TDM을 CR 알고리즘으로 처리함에 있어 많은 시간이 소요되어, 영상에 대한 CFD 속도 저하 문제가 발생한다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 접근 시간이 느린 전역 메모리 대신 접근 속도가 빠른 멀티-프로세서의 공유 메모리를 적극적으로 활용하여 CR 알고리즘을 처리하는 방법 및 이를 적용한 프로세서를 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 프로세서는, 행렬의 원소들 중 제1 그룹을, 알고리즘으로 처리하는 제1 멀티-프로세서; 상기 행렬의 원소들 중 제2 그룹을, 상기 알고리즘으로 처리하는 제2 멀티-프로세서; 및 '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 알고리즘으로 처리하는 제3 멀티-프로세서;를 포함한다.
그리고, 상기 제3 멀티-프로세서는, 상기 제3 그룹의 원소들이 저장된 제3 공유 메모리에 접근하면서, 상기 알고리즘을 처리할 수 있다.
또한, 상기 제1 멀티-프로세서는, 상기 제1 그룹의 원소들이 저장된 제1 공유 메모리에 접근하면서, 상기 알고리즘을 처리하고, 상기 제2 멀티-프로세서는, 상기 제2 그룹의 원소들이 저장된 제2 공유 메모리에 접근하면서, 상기 알고리즘을 처리할 수 있다.
그리고, 상기 행렬을 일차원 벡터로 표현하는 경우, 상기 제1 그룹의 원소들의 순번들은 상기 제2 그룹의 원소들의 순번들 보다 빠를 수 있다.
또한, 상기 제1 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제1 그룹에만 포함된 원소들의 순번들 보다 느릴 수 있다.
그리고, 상기 제2 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제2 그룹에만 포함된 원소들의 순번들 보다 빠를 수 있다.
또한, 상기 제1 그룹의 원소들과 상기 제2 그룹의 원소들은, 중복되지 않을 수 있다.
그리고, 상기 행렬은, TDM(Tri-Diagonal Matrix)일 수 있다.
또한, 상기 알고리즘은, 상기 TDM에 대한 CR(Cyclic Reduction) 알고리즘일 수 있다.
한편, 본 발명의 다른 실시예에 따른, 알고리즘 처리 방법은, 제1 멀티-프로세서가, 행렬의 원소들 중 제1 그룹을, 알고리즘으로 처리하는 단계; 제2멀티-프로세서가, 상기 행렬의 원소들 중 제2 그룹을, 상기 알고리즘으로 처리하는 단계; 및 제2멀티-프로세서가, '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 알고리즘으로 처리하는 단계;를 포함한다.
이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 접근 시간이 느린 전역 메모리 대신 접근 속도가 빠른 멀티-프로세서의 공유 메모리를 적극적으로 활용하여 CR 알고리즘을 처리하므로, 원소의 수가 많은 TDM에 대해서도 빠르게 계산할 수 있다.
특히, 의료 영상 처리, 3차원 가시화 등과 같은 분야에서 최적의 병렬성을 높임으로서 전체적인 알고리즘 성능을 향상시킬 수 있게 된다.
도 1은 종래 기술에 따라 TDM을 CR 알고리즘으로 병렬 처리하는 과정의 설명에 제공되는 도면,
도 2는 본 발명의 일 실시예에 따른 GP-GPU의 블럭도, 그리고,
도 3은, 도 2에 도시된 GP-GPU가 TDM을 CR 알고리즘으로 처리하는 방법의 설명에 제공되는 도면이다.
이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 GP-GPU(General Purpose-Graphics Processing Unit)의 블럭도이다. 본 발명의 실시예에 따른 GP-GPU는, 의료 영상 처리, 3차원 가시화 등을 수행하기 위한 프로세서이다.
이 과정에서, 본 발명의 실시예에 따른 GP-GPU는 TDM(Tri-Diagonal Matrix : 삼중 대각 행렬)을 CR(Cyclic Reduction) 알고리즘으로 처리한다.
이와 같은 기능을 수행하는 GP-GPU는, 도 2에 도시된 바와 같이, 전역-메모리(110), 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 및 공유-메모리들(130-0, 130-1, 130-2, ..., 130-n)을 포함한다.
멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 각각은 다수의 단위-프로세서들(미도시)을 포함하고 있다. 즉, 도 2에 도시된 GP-GPU는 다중 멀티-프로세서 구조이다.
멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n)은 병렬적으로 알고리즘을 처리한다. 즉, 도 2에 도시된 GP-GPU는 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n)에 의한 병렬 처리가 가능한 프로세서이다.
전역-메모리(110)는 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 모두가 접근 가능한 메모리이고, 공유-메모리들(130-0, 130-1, 130-2, ..., 130-n)은 해당 멀티-프로세서만 접근 가능한 메모리이다.
구체적으로, 0) 공유-메모리 #0(130-0)은 멀티-프로세서 #0(120-0)만이 접근하여 사용할 수 있고, 1) 공유-메모리 #1(130-1)은 멀티-프로세서 #1(120-1)만이 접근하여 사용할 수 있으며, 2) 공유-메모리 #2(130-2)는 멀티-프로세서 #2(120-2)만이 접근하여 사용할 수 있고, ... , n) 공유-메모리 #n(130-n)은 멀티-프로세서 #n(120-n)만이 접근하여 사용할 수 있다.
모든 멀티-프로세서들(120-0, 120-1, 120-2, ..., 120-n) 모두가 접근 가능한 전역-메모리(110)에 비해, 해당 멀티-프로세서만 접근 가능한 공유-메모리들(130-0, 130-1, 130-2, ..., 130-n)의 접근 속도가 빠름은 물론이다.
이하에서, 도 2에 도시된 GP-GPU가 TDM을 CR 알고리즘으로 처리하는 방법에 대해 도 3을 참조하여 상세히 설명한다.
도 3에 도시된 바와 같이, MP0[멀티-프로세서 #0(120-0)]은 TDM의 원소들 중 일부(0번째 ~ 6번째 원소들)를 CR 알고리즘으로 처리하고, MP2[멀티-프로세서 #2(120-2)]는 TDM의 원소들 중 다른 일부(8번째 ~ 14번째 원소들)를 CR 알고리즘으로 처리한다.
MP0[멀티-프로세서 #0(120-0)]은 TDM의 원소들 중 앞 부분(0번째 ~ 6번째 원소들)을 처리한다. 구체적으로, TDM을 일차원 벡터로 표현하는 경우에 순번들이 빠른 원소들(0번째 ~ 6번째 원소들)을 할당 받아 처리한다.
반면, MP2[멀티-프로세서 #2(120-2)]는 TDM의 원소들 중 뒷 부분(8번째 ~ 14번째 원소들)을 처리한다. 구체적으로, TDM을 일차원 벡터로 표현하는 경우에 순번들이 느린 원소들(8번째 ~ 14번째 원소들)을 할당 받아 처리한다.
MP0[멀티-프로세서 #0(120-0)]에 의해 처리되는 원소들(0번째 ~ 6번째 원소들)과 MP2[멀티-프로세서 #2(120-2)]에 의해 처리되는 원소들(8번째 ~ 14번째 원소들)은 중복되지 않는다.
한편, MP1[멀티-프로세서 #1(120-1)]은 TDM의 원소들 중 또 다른 일부(4번째 ~ 10번째 원소들)를 CR 알고리즘으로 처리한다.
MP1[멀티-프로세서 #1(120-1)]에 의한 처리는 MP0[멀티-프로세서 #0(120-0)]에 의한 처리 및 MP2[멀티-프로세서 #2(120-2)]에 의한 처리와 병렬적이다. 즉, MP0[멀티-프로세서 #0(120-0)], MP1[멀티-프로세서 #1(120-1)] 및 MP2[멀티-프로세서 #2(120-2)]에 의한 처리는, 모두 함께 이루어진다.
MP1[멀티-프로세서 #1(120-1)]은 TDM의 원소들 중 중간 부분(4번째 ~ 10번째 원소들)을 처리한다. 구체적으로, TDM을 일차원 벡터로 표현하는 경우에 순번들이 중간인 원소들(4번째 ~ 10번째 원소들)을 할당 받아 처리한다.
이에 의해, MP1[멀티-프로세서 #1(120-1)]에 의해 처리되는 원소들은 MP0[멀티-프로세서 #0(120-0)]과 일부 중복되고, MP2[멀티-프로세서 #2(120-2)]와도 일부 중복된다.
구체적으로, MP1[멀티-프로세서 #1(120-1)]은, MP0[멀티-프로세서 #0(120-0)]에서 처리되는 원소들 중 순번이 느린 원소들(4번째 ~ 6번째 원소들)을 할당받아 처리하고, MP2[멀티-프로세서 #2(120-2)]에서 처리되는 원소들 중 순번이 빠른 원소들(8번째 ~ 10번째 원소들)을 할당받아 처리한다.
또한, MP1[멀티-프로세서 #1(120-1)]은, MP0[멀티-프로세서 #0(120-0)]과 MP2[멀티-프로세서 #2(120-2)]에서 처리되지 않는 원소(7번째 원소들)도 할당받아 처리한다.
한편, MP0[멀티-프로세서 #0(120-0)]은 할당 받은 원소들을 공유-메모리 #0(130-0)에 저장하여 이용하고, MP1[멀티-프로세서 #1(120-1)]은 할당 받은 원소들을 공유-메모리 #1(130-1)에 저장하여 이용하며, MP2[멀티-프로세서 #2(120-2)]는 할당 받은 원소들을 공유-메모리 #2(130-2)에 저장하여 이용한다.
따라서, MP0[멀티-프로세서 #0(120-0)], MP1[멀티-프로세서 #1(120-1)] 및 MP2[멀티-프로세서 #2(120-2)]가 원소들을 CR 알고리즘으로 처리함에 있어 전역-메모리(110)를 이용하지 않으므로, 접근 속도가 빨라져 처리 속도 향상으로 이어진다.
나아가, 도 1에서 "전역-메모리로 계산하는 구간"이 없어져, 그 구간의 시간 만큼 전체 처리 속도가 빨라지게 된다.
한편, MP0[멀티-프로세서 #0(120-0)], MP1[멀티-프로세서 #1(120-1)] 및 MP2[멀티-프로세서 #2(120-2)]에 의한 처리가 완료되면, 이후 이들 중 하나가 i) 3번째, 7번째 및 11번째 원소를 CR 알고리즘 처리하고, ii) 11번째 및 15번째 원소를 CR 알고리즘 처리하며, iii) 7번째 및 15번째 원소를 CR 알고리즘 처리한다.
"i)", "ii)" 및 "iii)"에 대한 처리 역시 해당 공유-메모리에 원소들을 저장/접근하여 수행된다.
지금까지, 멀티-프로세서의 공유 메모리를 적극 활용한 CR 알고리즘 처리 방법 및 이를 적용한 GP-GPU에 대해 바람직한 실시예를 들어 상세히 설명하였다.
위 실시에서, TDM의 원소 개수는 16개인 것을 상정하였으나, 이해와 설명의 편의를 위한 예시적인 것으로, 그와 다른 사이즈의 TDM에도 본 발명의 기술적 사상이 적용될 수 있다.
또한, 위 실시예에서는, TDM을 CR 알고리즘으로 처리하는 것을 상정하였는데, 이는 발명의 이해와 설명의 편의를 위한 예시적인 것에 불과하다. TDM을 다른 종류의 행렬로 대체하고, CR 알고리즘을 다른 종류의 알고리즘으로 대체하는 경우에도 본 발명의 기술적 사상이 적용될 수 있다.
아울러, 본 발명의 기술적 사상은 GP-GPU가 아닌 다른 종류의 프로세서를 구현하는 경우에도 적용될 수 있다.
나아가, 본 발명의 기술적 사상은, 의료 영상 처리, 3차원 가시화 등과 같은 영상 처리 분야는 물론, 통신, 암호화 등에서도 활용될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
110 : 전역-메모리
120-0, 120-1, 120-2, ..., 120-n : 멀티-프로세서
130-0, 130-1, 130-2, ..., 130-n : 공유-메모리

Claims (10)

  1. TDM(Tri-Diagonal Matrix)의 원소들 중 제1 그룹을, CR(Cyclic Reduction) 알고리즘으로 처리하는 제1 멀티-프로세서;
    상기 TDM의 원소들 중 제2 그룹을, 상기 CR 알고리즘으로 처리하는 제2 멀티-프로세서; 및
    '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 CR 알고리즘으로 처리하는 제3 멀티-프로세서;를 포함하는 것을 특징으로 하는 GPU(Graphics Processing Unit).
  2. 청구항 1에 있어서,
    상기 제3 멀티-프로세서는,
    상기 제3 그룹의 원소들이 저장된 제3 공유 메모리에 접근하면서, 상기 CR 알고리즘을 처리하는 것을 특징으로 하는 GPU.
  3. 제 2항에 있어서,
    상기 제1 멀티-프로세서는,
    상기 제1 그룹의 원소들이 저장된 제1 공유 메모리에 접근하면서, 상기 CR 알고리즘을 처리하고,
    상기 제2 멀티-프로세서는,
    상기 제2 그룹의 원소들이 저장된 제2 공유 메모리에 접근하면서, 상기 CR 알고리즘을 처리하는 것을 특징으로 하는 GPU.
  4. 제 1항에 있어서,
    상기 TDM을 일차원 벡터로 표현하는 경우, 상기 제1 그룹의 원소들의 순번들은 상기 제2 그룹의 원소들의 순번들 보다 빠른 것을 특징으로 하는 GPU.
  5. 제 4항에 있어서,
    상기 제1 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제1 그룹에만 포함된 원소들의 순번들 보다 느린 것을 특징으로 하는 GPU.
  6. 제 5항에 있어서,
    상기 제2 그룹과 상기 제3 그룹 모두에 포함된 원소들의 순번들은, 상기 제2 그룹에만 포함된 원소들의 순번들 보다 빠른 것을 특징으로 하는 GPU.
  7. 제 1항에 있어서,
    상기 제1 그룹의 원소들과 상기 제2 그룹의 원소들은, 중복되지 않는 것을 특징으로 하는 GPU.
  8. 삭제
  9. 삭제
  10. 제1 멀티-프로세서가, TDM(Tri-Diagonal Matrix)의 원소들 중 제1 그룹을, CR(Cyclic Reduction) 알고리즘으로 처리하는 단계;
    제2멀티-프로세서가, 상기 TDM의 원소들 중 제2 그룹을, 상기 CR 알고리즘으로 처리하는 단계; 및
    제2멀티-프로세서가, '상기 제1 그룹의 일부 원소들', '상기 제2 그룹의 일부 원소들' 및 '상기 제1 그룹과 상기 제2 그룹에 포함되지 않은 원소들 중 일부'로 구성한 제3 그룹을, 상기 CR 알고리즘으로 처리하는 단계;를 포함하는 것을 특징으로 하는 그래픽 처리 방법.
KR1020140043422A 2014-04-11 2014-04-11 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서 KR101585980B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140043422A KR101585980B1 (ko) 2014-04-11 2014-04-11 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서
US14/564,508 US20150293786A1 (en) 2014-04-11 2014-12-09 Method for processing cr algorithm by actively utilizing shared memory of multi-processor, and processor using the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140043422A KR101585980B1 (ko) 2014-04-11 2014-04-11 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서

Publications (2)

Publication Number Publication Date
KR20150118227A KR20150118227A (ko) 2015-10-22
KR101585980B1 true KR101585980B1 (ko) 2016-01-19

Family

ID=54265149

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140043422A KR101585980B1 (ko) 2014-04-11 2014-04-11 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서

Country Status (2)

Country Link
US (1) US20150293786A1 (ko)
KR (1) KR101585980B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115119048B (zh) * 2019-08-10 2024-02-23 荣耀终端有限公司 一种视频流处理方法及电子设备
KR102162427B1 (ko) * 2020-03-13 2020-10-06 (주)아이준 공작설비 이상 감지 모니터링 방법
CN112214443B (zh) * 2020-10-22 2021-12-03 上海壁仞智能科技有限公司 设置于图形处理器中的二次卸载装置和方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163246A (ja) * 2000-11-24 2002-06-07 Fujitsu Ltd 共有メモリ型スカラ並列計算機における並列行列処理方法、及び記録媒体
US8244029B1 (en) * 2006-01-25 2012-08-14 Pixar Recursive filters on GPUs

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101371264A (zh) * 2006-01-10 2009-02-18 光明测量公司 用于在并行处理系统中处理多媒体数据的子块的方法和装置
US9858369B2 (en) * 2012-10-18 2018-01-02 Helic, Inc. Large-scale power grid analysis on parallel architectures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002163246A (ja) * 2000-11-24 2002-06-07 Fujitsu Ltd 共有メモリ型スカラ並列計算機における並列行列処理方法、及び記録媒体
US20020091909A1 (en) * 2000-11-24 2002-07-11 Makoto Nakanishi Matrix processing method of shared-memory scalar parallel-processing computer and recording medium
US8244029B1 (en) * 2006-01-25 2012-08-14 Pixar Recursive filters on GPUs

Also Published As

Publication number Publication date
US20150293786A1 (en) 2015-10-15
KR20150118227A (ko) 2015-10-22

Similar Documents

Publication Publication Date Title
Liu et al. CUDASW++ 3.0: accelerating Smith-Waterman protein database search by coupling CPU and GPU SIMD instructions
Shanbhag et al. Efficient top-k query processing on massively parallel hardware
Busato et al. An efficient implementation of the Bellman-Ford algorithm for Kepler GPU architectures
Sarıyüce et al. Regularizing graph centrality computations
US20170344514A1 (en) System and method for speeding up general matrix-matrix multiplication on the gpu
US20070198986A1 (en) Load balancing for parallel tasks
US9317456B2 (en) Method and system for performing event-matching with a graphical processing unit
Koza et al. Compressed multirow storage format for sparse matrices on graphics processing units
KR101585980B1 (ko) 멀티-프로세서의 공유 메모리를 적극 활용한 cr 알고리즘 처리 방법 및 이를 적용한 프로세서
Klenk et al. Relaxations for high-performance message passing on massively parallel SIMT processors
Rucci et al. An energy‐aware performance analysis of SWIMM: Smith–Waterman implementation on Intel's Multicore and Manycore architectures
Tran et al. Memory-efficient parallelization of 3D lattice Boltzmann flow solver on a GPU
Szustak et al. Toward efficient distribution of MPDATA stencil computation on Intel MIC architecture
US9928033B2 (en) Single-pass parallel prefix scan with dynamic look back
Fosin et al. A GPU implementation of local search operators for symmetric travelling salesman problem
Kim et al. Quantifying the performance and energy efficiency of advanced cache indexing for gpgpu computing
Sariyuce et al. Hardware/software vectorization for closeness centrality on multi-/many-core architectures
Rojek et al. Parallelization of 3D MPDATA algorithm using many graphics processors
Morari et al. Efficient sorting on the tilera manycore architecture
Tran et al. High performance string matching for security applications
Löhner et al. On maximum achievable speeds for field solvers
Anzt et al. On block-asynchronous execution on GPUs
Honda et al. A warp-synchronous implementation for multiple-length multiplication on the GPU
Wlotzka et al. Energy-efficient multigrid smoothers and grid transfer operators on multi-core and GPU clusters
Liu et al. Reducing communication overhead in the high performance conjugate gradient benchmark on Tianhe-2

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190107

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 5