KR20150145167A

KR20150145167A - 단채널 컨볼루션 레이어를 위한 처리 방법 및 장치, 및 다채널 컨볼루션 레이어를 위한 처리 방법 및 장치

Info

Publication number: KR20150145167A
Application number: KR1020140192137A
Authority: KR
Inventors: 렌 우; 쉬강 리; 다롱 두; 웬지 류
Original assignee: 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date: 2014-06-18
Filing date: 2014-12-29
Publication date: 2015-12-29
Also published as: CN104077233A; CN104077233B; JP6147244B2; KR101687081B1; US20150371359A1; EP2958048A2; EP2958048A3; JP2016004572A; US9367892B2

Abstract

본 개시에서는, 단채널 컨볼루션 레이어를 위한 처리 방법 및 처리 장치, 및 다채널 컨볼루션 레이어를 위한 처리 방법 및 처리 장치가 제공된다. 단채널 컨볼루션 레이어를 위한 처리 방법은 다음의 단계들을 포함한다. 처리될 데이터가 복수의 데이터 블럭으로 분할되고, 복수의 데이터 블럭이 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독되며, 복수의 필터가 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독되고, 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들이 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 동시에 계산된다.

Description

단채널 컨볼루션 레이어를 위한 처리 방법 및 장치, 및 다채널 컨볼루션 레이어를 위한 처리 방법 및 장치{PROCESSING METHOD AND APPARATUS FOR SINGLE-CHANNEL CONVOLUTION LAYER, AND PROCESSING METHOD AND APPARATUS FOR MULTI-CHANNEL CONVOLUTION LAYER}

본 출원은 2014년 6월 18일자로 중국 특허청에 출원된 중국 특허출원 제CN201410274196.3호에 대한 우선권 및 그 이익을 주장하는 것으로, 그 전체 내용이 참조로 본 명세서에 포함된다.

본 개시의 실시예들은 일반적으로 정보 처리 기술 분야에 관한 것으로, 보다 구체적으로 단채널 컨볼루션 레이어를 위한 처리 방법 및 처리 장치, 및 다채널 컨볼루션 레이어를 위한 처리 방법 및 처리 장치에 관한 것이다.

컨볼루션 신경망(convolution neural network)은 다양한 응용 분야에서, 특히 이미지 및 비디오 응용 분야에서 광범위하게 사용되고 있다. 컨볼루션 레이어는 컨볼루션 신경망에서 필수 연산부이다. 컨볼루션 레이어에서, 이미지를 예로 들면, 복수의 필터는 컨볼루션을 계산하도록 각각 이미지에 작용한다. 관련 기술 분야에서, 컨볼루션 계산은 다음과 같은 2개의 모드로 구현된다. (1) 필터는 컨볼루션을 계산하도록 직접 이미지에 작용하며, 그래픽 프로세서 스레드(thread) 그룹이 2차원(X 및 Y) 모드에 있고, X 차원은 모든 이미지의 수로 분할되고 Y 차원은 모든 필터의 수로 분할되며, 각 그래픽 프로세서 스레드는 복수의 이미지에 대한 복수의 필터의 컨볼루션들을 계산하지만, 하나의 데이터 포인트에 대응하는 컨볼루션 커널(kernel)만을 계산하고; (2) 모든 이미지 데이터는 컨볼루션 계산이 복잡한 행렬 곱셈으로 이송되도록 필터의 사이즈에 따라 하나의 데이터 포인트씩(one data point by one data point) 언폴딩된다(unfolded).

그러나, 관련 기술 분야에서는 다음의 결점들이 있다. 제1 모드에서, 인접하는 출력 데이터 포인트들에 대응하는 입력 데이터 포인트들이 서로 중첩된다. 예를 들면, 1의 스텝 길이 및 5*5 필터를 갖는 컨볼루션 커널에 대하여, 인접하는 출력 데이터 포인트들에 대응하는 입력 데이터 포인트들 간의 중첩된 데이터는, 다수의 데이터가 로컬 메모리로 반복해서 판독되도록 80%의 비율을 가지고 있고, 이에 따라 빈약한 성능을 초래한다. 제2 모드에서, 이미지를 저장하기 위해서, 우선 언폴딩되고, 이에 따라 필요한 메모리 공간이 컨볼루션 커널의 사이즈에 정비례한다. 예를 들면, 5*5 필터는 25배의 추가 메모리를 필요로 하고, 9*9 필터는 81배의 추가 메모리를 필요로 한다. 실제 응용 분야에서, 필터는 보다 큰 사이즈를 가질 수 있고 그래픽 프로세서의 글로벌 메모리 비용이 크게 증가되고 있다.

본 개시의 실시예들은 적어도 어느 정도 관련 기술 분야에 존재하는 적어도 하나의 문제점을 해결하려고 한다.

따라서, 본 개시의 제1 목적은, 메모리 공간의 사용을 양호하게 하고, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 전력 소비에 대한 성능비를 향상시키는, 단채널 컨볼루션 레이어를 위한 처리 방법을 제공하는 것이다.

본 개시의 제2 목적은, 단채널 컨볼루션 레이어를 위한 방법을 처리하기 위한 장치를 제공하는 것이다.

본 개시의 제3 목적은 다채널 컨볼루션 레이어를 위한 처리 방법을 제공하는 것이다.

본 개시의 제4 목적은 다채널 컨볼루션 레이어를 위한 처리 장치를 제공하는 것이다.

상기 목적들을 달성하기 위해서, 본 개시의 제1 양태의 실시예들은 단채널 컨볼루션 레이어를 위한 처리 방법을 제공하며, 이 처리 방법은, 처리될 데이터를 복수의 데이터 블럭으로 분할하는 단계; 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하는 단계; 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하는 단계; 및 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 복수의 필터 및 복수의 데이터 블럭 내의 대응하는 데이터 포인트들의 컨볼루션들을 동시에 계산하는 단계를 포함한다.

단채널 컨볼루션 레이어를 위한 처리 방법에 의하면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

상기 목적들을 달성하기 위해서, 본 개시의 제2 양태의 실시예들은 단채널 컨볼루션 레이어를 위한 처리 장치를 제공하고, 이 처리 장치는, 처리될 데이터를 복수의 데이터 블럭으로 분할하도록 구성된 분할 모듈; 복수의 그래픽 프로세서 스레드 그룹을 통하여 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하도록 구성된 제1 판독 모듈; 복수의 그래픽 프로세서 스레드 그룹을 통하여 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하도록 구성된 제2 판독 모듈; 및 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산하도록 구성된 계산 모듈을 포함한다.

본 개시의 실시예들에 따른 단채널 컨볼루션 레이어를 위한 처리 장치에 따르면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

상기 목적들을 달성하기 위해서, 본 개시의 제3 양태의 실시예들은 다채널 컨볼루션 레이어를 위한 처리 방법을 제공하며, 이 처리 방법은, 각 채널 내의 처리될 데이터를 복수의 데이터 블럭으로 분할하는 단계; 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하는 단계; 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하는 단계; 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 하나의 채널 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산하는 단계; 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 각 채널의 컨볼루션 결과를 얻도록 각 채널 내의 컨볼루션들을 하나씩 계산하고 최종 컨볼루션 결과를 얻도록 각 채널의 컨볼루션 결과를 축적하는 단계; 및 최종 컨볼루션 결과를 복수의 그래픽 프로세서 스레드 그룹의 글로벌 메모리 내에 기록하는 단계를 포함한다.

본 개시의 실시예들에 따른 다채널 컨볼루션 레이어를 위한 처리 방법에 따르면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이 데이터 이동 수를 더욱 감소시켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

상기 목적들을 달성하기 위해서, 본 개시의 제4 양태의 실시예들은 다채널 컨볼루션 레이어를 위한 처리 장치를 제공하고, 이 처리 장치는, 각 채널 내의 처리될 데이터를 복수의 데이터 블럭으로 분할하도록 구성된 분할 모듈; 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하도록 구성된 제1 판독 모듈; 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하도록 구성된 제2 판독 모듈; 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 하나의 채널 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산하도록 구성된 계산 모듈; 각 채널의 컨볼루션 결과를 얻도록 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 각 채널 내의 컨볼루션들을 하나씩 계산하고 최종 컨볼루션을 얻도록 각 채널의 컨볼루션 결과를 축적하도록 구성된 축적 모듈; 및 최종 컨볼루션 결과를 복수의 그래픽 프로세서 스레드 그룹의 글로벌 메모리 내에 기록하도록 구성된 기록 모듈을 포함한다.

본 개시의 실시예들에 따른 다채널 컨볼루션 레이어를 위한 처리 장치에 따르면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

본 개시의 부가적인 양태들 및 이점들은 다음의 설명 부분에서 주어지거나, 다음의 설명 부분으로부터 명백해지거나, 본 개시의 실시예들의 실행으로부터 학습될 것이다.

본 개시의 실시예들의 이들 및 다른 양태들 및 이점들은 첨부된 도면을 참조하여 이루어지는 다음의 설명으로부터 분명해지고 더욱 용이하게 인식될 것이다.
도 1은 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 방법의 플로 차트.
도 2는 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 방법의 개략도.
도 3은 본 개시의 다른 실시예예에 따른 단채널 컨볼루션 레이어를 위한 처리 방법의 플로 차트.
도 4는 본 개시의 실시예에 따른 비정규 데이터 블럭들을 판독하는 개략도.
도 5는 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 장치의 블럭도.
도 6은 본 개시의 다른 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 장치의 블럭도.
도 7은 본 개시의 실시예에 따른 다채널 컨볼루션 레이어를 위한 처리 방법의 플로 차트.
도 8은 본 개시의 실시예에 따른 다채널 컨볼루션 레이어를 위한 처리 방법의 개략도.
도 9는 본 개시의 실시예에 따른 다채널 컨볼루션 레이어를 위한 처리 장치의 블럭도.

본 개시의 실시예들에 대하여 상세히 참조가 이루어질 것이다. 본 개시의 실시예들을 도면에 나타낼 것이고, 동일 또는 유사한 구성요소들 및 동일하거나 유사한 기능을 갖는 구성요소들에 대해서는 설명 전반에 걸쳐서 동일한 참조번호로 표기되어 있다. 도면에 따라 본 명세서에서 설명되는 실시예들은 예시적이고, 본 개시를 한정하고자 하는 것이 아니다.

설명에서, "제1" 및 "제2" 등의 용어는 설명을 위해 본 명세서에서 사용되고 비교적 중요도 또는 중요성을 표시하거나 암시하고자 하는 것이 아니다. 또한, 특정되거나 한정되지 않는 한, 용어 "탑재", "접속" 및 " 결합" 및 그들의 변형들이 광범위하게 사용되며 기계적 또는 전기적 탑재들, 접속들 및 결합들 등을 망라하며, 또한 내부 탑재들, 2개의 컴포넌트의 접속들 및 결합들일 수도 있고, 더욱이는 직접 및 간접 탑재들, 접속들, 및 결합들일 있고, 본 개시의 상세한 실시예에 따라 당업자에게 이해될 수 있음을 이해하여야 한다. 본 개시의 설명에서, 용어 "복수의"란 특정하지 않는 한, 2개 이상을 의미한다.

플로 차트로 설명되거나 본 명세서에서 다른 방식으로 설명되는 임의의 프로세스 또는 방법은, 프로세스 내의 특정한 논리 기능들 또는 단계들을 달성하기 위해서 하나 이상의 모듈, 세그먼트 또는 실행 가능한 명령들의 코드들의 일부분을 포함하는 것이 이해될 수 있고, 본 개시의 바람직한 실시예의 범주가 다른 실시들을 포함하며, 이는 당업자가 이해하여야 한다.

본 개시의 실시예들에 따른 단채널 컨볼루션 레이어를 위한 처리 방법 및 장치, 및 다채널 컨볼루션 레이어를 위한 처리 방법 및 장치에 대하여 도면을 참조하여 설명할 것이다.

도 1은 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 방법의 플로 차트이다. 도 2는 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 방법의 개략도이다.

도 1에 나타낸 바와 같이, 단채널 컨볼루션 레이어를 위한 처리 방법은 다음의 단계들을 포함한다.

단계 S101에서, 처리될 데이터가 복수의 데이터 블럭으로 분할된다.

본 개시의 실시예에서, 처리될 데이터는 이미지, 비디오, 오디오 및 워드 등의 컴퓨터 판독 가능한 데이터일 수 있다. 일부 실시예에서, 이미지 데이터의 예를 들면, 이미지는 그래픽 프로세서 스레드 그룹의 사이즈 및 이미지의 사이즈에 따라 복수의 데이터 블럭으로 분할될 수 있고, 그래픽 프로세서 스레드 그룹은 복수의 스레드를 포함한다. 예를 들면, 도 2에 나타낸 바와 같이, 그래픽 프로세서 스레드 그룹의 사이즈가 32*16이고 이미지(즉, image0)의 사이즈가 64*64(즉, Width=64 및 Height=64)인 경우, 이미지는 8개의 데이터 블럭(즉, Block0 내지 Block7)으로 분할될 수 있고, 각 데이터 블럭의 사이즈는 32*16(Size A=32 및 Size B=16)이다. 물론, 각 그래픽 프로세서 스레드 그룹이 분할된 데이터 블럭들을 처리할 수 있는 한, 이미지는 평균적으로 분할되지 않을 수 있고, 이에 한정되지 않는다. 도 2에 나타낸 실시예는 예시적일 뿐이며, 본 개시는 또한 다른 실시예들에 의해서도 구현될 수 있고 다른 실시예에 적용될 수도 있음을 이해하여야 한다. 당업자는 도 2의 실시예를 사용하여 임의의 사이즈의 데이터 및 임의의 사이즈의 그래픽 프로세서 스레드 그룹에 따라 데이터를 복수의 데이터 블럭으로 분할할 수 있고, 데이터를 복수의 데이터 블럭으로 분할하는 것의 이러한 확장들 및 변형들은 본 개시의 보호 범주 내에 속해야 한다.

단계 S102에서, 복수의 그래픽 프로세서 스레드 그룹은 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독한다.

본 개시의 실시예에서, 각 그래픽 프로세서 스레드 그룹은 대응하는 데이터 블럭을 각 그래픽 프로세서 스레드 그룹의 로컬 메모리로 각각 판독한다.

단계 S103에서, 복수의 그래픽 프로세서 스레드 그룹은 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독한다.

본 개시의 실시예에서, 각 그래픽 프로세서 스레드 그룹은 복수의 필터를 각 그래픽 프로세서 스레드 그룹의 로컬 메모리로 각각 판독한다.

본 개시의 실시예에서, 단계 S103은 단계 S102 전에 실행될 수 있거나, 또는 단계 S102 및 단계 S103은 동시에 실행될 수 있고, 이에 한정되지 않는다.

단계 S104에서, 복수의 그래픽 프로세서 스레드 그룹의 복수의 스레드는 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산한다.

본 개시의 실시예에서, 데이터 포인트는 단위 데이터이다. 각 그래픽 프로세서 스레드 그룹은 대응하는 데이터 블럭 및 복수의 필터를 각 그래픽 프로세서 스레드 그룹의 로컬 메모리 내에 저장하고, 각 그래픽 프로세서 스레드 그룹 내의 복수의 스레드는 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 계산한다.

본 개시의 실시예들에 따른 단채널 컨볼루션 레이어를 위한 처리 방법에 의하면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

본 개시의 실시예에서, 복수의 데이터 블럭은 비정규 데이터 블럭들이다. 물론, 복수의 데이터 블럭은 정규 데이터 블럭들일 수 있고, 이에 한정되지 않는다.

도 3은 본 개시의 다른 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 방법의 플로 차트이다. 도 4는 본 개시의 실시예에 따른 비정규 데이터 블럭들을 판독하는 개략도이다.

도 3에 나타낸 바와 같이, 단채널 컨볼루션 레이어를 위한 처리 방법은 다음의 단계들을 포함한다.

단계 S301에서, 처리될 데이터가 복수의 데이터 블럭으로 분할된다.

본 개시의 실시예에서, 처리될 데이터는 이미지, 비디오, 오디오 및 워드 등의 컴퓨터 판독 가능한 데이터일 수 있다. 일부 실시예에서, 이미지 데이터의 예를 들면, 이미지는 그래픽 프로세서 스레드 그룹의 사이즈 및 이미지의 사이즈에 따라 복수의 데이터 블럭으로 분할될 수 있고, 그래픽 프로세서 스레드 그룹은 복수의 스레드를 포함한다. 예를 들면, 도 2에 나타낸 바와 같이, 그래픽 프로세서 스레드 그룹의 사이즈가 32*16이고 이미지(즉, image0)의 사이즈가 64*64(즉, Width=64 및 Height=64)인 경우, 이미지는 8개의 데이터 블럭(즉, Block0 내지 Block7)으로 분할될 수 있고, 각 데이터 블럭의 사이즈는 32*16(Size A=32 및 Size B=16)이다. 물론, 각 그래픽 프로세서 스레드 그룹이 분할된 데이터 블럭들을 처리할 수 있는 한, 이미지는 평균적으로 분할되지 않을 수 있고, 이에 한정되지 않는다. 도 2에 나타낸 실시예는 예시적일 뿐이며, 본 개시는 또한 다른 실시예들에 의해서도 구현될 수 있고 다른 실시예에 적용될 수도 있음을 이해하여야 한다. 당업자는 도 2의 실시예를 사용하여 임의의 사이즈의 데이터 및 임의의 사이즈의 그래픽 프로세서 스레드 그룹에 따라 데이터를 복수의 데이터 블럭으로 분할할 수 있고, 데이터를 복수의 데이터 블럭으로 분할하는 것의 이러한 확장들 및 변형들이 본 개시의 보호 범주 내에 속해야 한다.

단계 S302에서, 각 데이터 블럭은 복수의 서브 데이터 블럭으로 분할되고, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭된다.

본 개시의 실시예에서, 복수의 그래픽 프로세서 스레드 그룹이 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독할 때에, 복수의 데이터 블럭에 대응하는 패딩(padding) 데이터가 로컬 메모리들로 판독될 수 있다. 패딩 데이터로 인하여, 데이터 블럭 내의 데이터 포인트들의 수가 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수보다 많다. 데이터 포인트들과 복수의 스레드 간에 일대일 매핑이 설정되는 경우, 복잡한 서브스크립 동작을 초래하여, 데이터 전송 지연을 증가시킨다. 비정규 데이터를 판독하기 위해서, 간단한 그래픽 프로세서 스레드 그룹을 사용하여 비정규 데이터 블럭들과 매핑한다. 일부 실시예에서, 각 데이터 블럭은 복수의 서브 데이터 블럭으로 분할되고, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭된다.

예를 들면, 도 4에 나타낸 바와 같이, 데이터 블럭은 Block load 0, Block load 1, Block load 2 및 Block load 3과 같이 4개의 서브 데이터 블럭으로 분할된다.

단계 S303에서, 대응하는 그래픽 프로세서 스레드 그룹은 복수의 서브 데이터 블럭을 대응하는 그래픽 프로세서 스레드 그룹의 로컬 메모리로 하나씩 판독한다.

본 개시의 실시예에서, 도 4에 나타낸 바와 같이 회색 음영 영역은 최초로 대응하는 그래픽 프로세서 스레드 그룹에 의해 판독된 처리될 데이터를 표현한다. 그러면, 회색 음영 영역의 우측에 있는 영역 내의 데이터가 판독될 수 있고 나머지가 두번째로 순차적으로 판독될 수 있다. 따라서, 데이터 블럭을 판독하는 것은 4회로 마무리된다. 대부분의 스레드가 제1 내지 제3 판독 시에 아이들이지만, 복잡한 서브스크립 동작은 회피된다.

단계 S304에서, 복수의 그래픽 프로세서 스레드 그룹은 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독한다.

본 개시의 실시예에서, 단계 S304는 단계 S302 전에 실행될 수 있거나, 또는 단계 S304는 단계 S302 및 단계 S303과 동시에 실행될 수 있고, 이에 한정되지 않는다.

단계 S305에서, 복수의 그래픽 프로세서 스레드 그룹의 복수의 스레드는 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산한다.

본 개시의 실시예들에 따른 단채널 컨볼루션 레이어를 처리하기 위한 방법에 의하면, 데이터 블럭이 판독되었을 때, 각 데이터 블럭은 복수의 서브 데이터 블럭으로 분할되고, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭되며, 그러면 대응하는 그래픽 프로세서 스레드 그룹이 복수의 서브 데이터 블럭을 대응하는 그래픽 프로세서 스레드 그룹의 로컬 메모리로 하나씩 판독한다. 이 방법은 비정규 데이터 블럭들을 판독하는데 상당히 적용할 수 있어, 복잡한 서브스크립 동작이 회피될 수 있고 데이터 전송 지연이 감소될 수 있다.

상기 실시예들을 달성하기 위해서, 단채널 컨볼루션 레이어를 위한 처리 장치가 본 개시의 실시예들에 의해 제공된다.

도 5는 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 장치의 블럭도이다.

도 5에 나타낸 바와 같이, 장치(100)는 분할 모듈(110), 제1 판독 모듈(120), 제2 판독 모듈(130) 및 계산 모듈(140)을 포함한다.

분할 모듈(110)은 처리될 데이터를 복수의 데이터 블럭으로 분할하도록 구성된다. 일부 실시예에서, 처리될 데이터는 이미지, 비디오, 오디오 및 워드 등의 컴퓨터 판독 가능한 데이터일 수 있다. 일부 실시예에서, 이미지 데이터의 예를 들면, 분할 모듈(110)은 이미지를 그래픽 프로세서 스레드 그룹의 사이즈 및 이미지의 사이즈에 따라 복수의 데이터 블럭으로 분할할 수 있고, 그래픽 프로세서 스레드 그룹은 복수의 스레드를 포함한다. 예를 들면, 도 2에 나타낸 바와 같이, 그래픽 프로세서 스레드 그룹의 사이즈가 32*16이고 이미지(즉, image0)의 사이즈가 64*64(즉, Width=64 및 Height=64)인 경우, 이미지는 8개의 데이터 블럭(즉, Block0 내지 Block7)으로 분할될 수 있고, 각 데이터 블럭의 사이즈는 32*16(Size A=32 및 Size B=16)이다. 물론, 각 그래픽 프로세서 스레드 그룹이 분할된 데이터 블럭들을 처리할 수 있는 한, 이미지는 평균적으로 분할되지 않을 수 있고, 이에 한정되지 않는다. 도 2에 나타낸 실시예는 예시적일 뿐이며, 본 개시는 또한 다른 실시예들에 의해서도 구현될 수 있고 다른 실시예에 적용될 수도 있음을 이해하여야 한다. 당업자는 도 2의 실시예를 사용하여 임의의 사이즈의 데이터 및 임의의 사이즈의 그래픽 프로세서 스레드 그룹에 따라 데이터를 복수의 데이터 블럭으로 분할할 수 있고, 데이터를 복수의 데이터 블럭으로 분할하는 것의 이러한 확장들 및 변형들이 본 개시의 보호 범주 내에 속해야 한다.

제1 판독 모듈(120)은 복수의 그래픽 프로세서 스레드 그룹을 통하여 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하도록 구성된다. 일부 실시예에서, 각 그래픽 프로세서 스레드 그룹은 대응하는 데이터 블럭을 각 그래픽 프로세서 스레드 그룹의 로컬 메모리로 각각 판독한다.

제2 판독 모듈(130)은 복수의 그래픽 프로세서 스레드 그룹을 통하여 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하도록 구성된다. 일부 실시예에서, 각 그래픽 프로세서 스레드 그룹은 복수의 필터를 각 그래픽 프로세서 스레드 그룹의 로컬 메모리로 각각 판독한다.

계산 모듈(140)은 복수의 그래픽 프로세서 스레드 그룹의 복수의 스레드를 통하여 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산하도록 구성된다. 본 개시의 실시예에서, 데이터 포인트는 단위 데이터이다. 각 그래픽 프로세서 스레드 그룹은 대응하는 데이터 블럭 및 복수의 필터를 각 그래픽 프로세서 스레드 그룹의 로컬 메모리 내에 저장하고, 각 그래픽 프로세서 스레드 그룹 내의 복수의 스레드는 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 계산한다.

본 개시의 실시예들에 따른 단채널 컨볼루션 레이어를 위한 처리 장치에 의하면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

도 6은 본 개시의 실시예에 따른 단채널 컨볼루션 레이어를 위한 처리 장치의 블럭도이다.

도 6에 나타낸 바와 같이, 장치(100)는, 분할 모듈(110), 제1 판독 모듈(120), 제2 판독 모듈(130) 및 계산 모듈(140)을 포함하고, 제1 판독 모듈(120)은 분할 유닛(121) 및 판독 유닛(122)을 포함한다.

일부 실시예에서, 분할 유닛(121)은 각 데이터 블럭을 복수의 서브 데이터 블럭으로 분할하도록 구성된다. 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈는 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭된다.

본 개시의 실시예에서, 복수의 그래픽 프로세서 스레드 그룹이 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독할 때에, 제1 판독 모듈은 또한 복수의 데이터 블럭에 대응하는 패딩 데이터를 로컬 메모리들로 판독하도록 구성된다. 패딩 데이터로 인하여, 데이터 블럭 내의 데이터 포인트들의 수가 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수보다 많다. 데이터 포인트들과 복수의 스레드 간에 일대일 매핑이 설정되는 경우, 복잡한 서브스크립 동작을 초래하여, 데이터 전송 지연을 증가시킨다. 비정규 데이터를 판독하기 위해서, 간단한 그래픽 프로세서 스레드 그룹을 사용하여 비정규 데이터 블럭들과 매핑한다. 일부 실시예에서, 각 데이터 블럭은 복수의 서브 데이터 블럭으로 분할되고, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭된다.

판독 유닛(122)은, 대응하는 그래픽 프로세서 스레드 그룹을 통하여 복수의 서브 데이터 블럭을 대응하는 그래픽 프로세서 스레드 그룹의 로컬 메모리로 하나씩 판독하도록 구성된다. 도 4에 나타낸 바와 같이 본 개시의 실시예에서, 회색 음영 영역은 최초로 대응하는 그래픽 프로세서 스레드 그룹에 의해 판독된 처리될 데이터를 표현한다. 그러면, 회색 음영 영역의 우측에 있는 영역 내의 데이터가 판독될 수 있고 나머지가 두번째로 순차적으로 판독될 수 있다. 따라서, 데이터 블럭을 판독하는 것은 4회로 마무리된다. 대부분의 스레드가 제1 내지 제3 판독 시에 아이들이지만, 복잡한 서브스크립 동작은 회피된다.

본 개시의 실시예들에 따른 단채널 컨볼루션 레이어를 위한 처리 장치에 의하면, 데이터 블럭이 판독되었을 때, 각 데이터 블럭은 복수의 서브 데이터 블럭으로 분할되고, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭되며, 그러면 대응하는 그래픽 프로세서 스레드 그룹이 복수의 서브 데이터 블럭을 대응하는 그래픽 프로세서 스레드 그룹의 로컬 메모리로 하나씩 판독한다. 이 방법은 비정규 데이터 블럭들을 판독하는데 상당히 적용할 수 있어, 복잡한 서브스크립 동작이 회피될 수 있고 데이터 전송 지연이 감소될 수 있다.

본 개시의 실시예들은 다채널 컨볼루션 레이어를 처리하기 위한 방법을 제공한다.

도 7은 본 개시의 실시예에 따른 다채널 컨볼루션 레이어를 위한 처리 방법의 플로 차트이다.

도 7에 나타낸 바와 같이, 다채널 컨볼루션 레이어를 위한 처리 방법은 다음의 단계들을 포함한다.

단계 S701에서, 처리될 데이터 및 필터는 복수의 채널을 포함하며 각 채널 내의 처리될 데이터는 복수의 데이터 블럭으로 분할된다.

일부 실시예에서, 처리될 데이터는 이미지, 비디오, 오디오 및 워드 등의 컴퓨터 판독 가능한 데이터일 수 있다. 본 개시의 실시예에서, 이미지 데이터의 예를 들면, 다채널 컨볼루션 레이어 내의 처리될 입력 데이터(처리될 데이터)는 복수의 이미지 및 복수의 필터를 포함하고, 각 이미지 및 각 필터는 복수의 채널을 포함한다. 도 8에 나타낸 바와 같이, 입력 이미지는 64개의 이미지(즉, Image 0 내지 Image 63) 및 64개의 필터(즉, Filter 0 내지 Filter 63)를 포함하고, 각 이미지는 3개의 채널(Channel 10, Channel 11 및 Channel 12)을 갖고 각 필터는 3개의 채널(Channel 10, Channel 11 및 Channel 12)을 갖는다. 도 8에서의 실시예는 예시적일 뿐이며, 본 개시는 또한 다른 실시예들에 의해 구현될 수도 있고 다른 실시예들에 적용될 수도 있음을 이해하여야 한다. 당업자는 도 8에서의 실시예에 따라 임의 수량의 채널들을 갖는 임의 수량의 데이터 및 필터들을 처리할 수 있다.

또한, 각 채널 내의 처리될 데이터를 복수의 데이터 블럭으로 분할하기 위한 방법은 본 개시의 상기 실시예들에 의해 제공된 단채널 컨볼루션 레이어를 위한 처리 방법에서의 것을 인용할 수 있어 여기서는 생략된다.

단계 S702에서, 복수의 그래픽 프로세서 스레드 그룹은 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독한다.

단계 S703에서, 복수의 그래픽 프로세서 스레드 그룹은 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독한다.

본 개시의 실시예에서, 이미지 데이터의 예를 들면, 복수의 그래픽 프로세서 스레드 그룹이 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하기 전에, 복수의 이미지 및 복수의 필터는 그래픽 프로세서의 글로벌 메모리로 판독된다. 대안으로, 복수의 이미지 및 복수의 필터는 중앙 처리 유닛(CPU) 메모리(즉, 호스트 메모리) 내에 저장된다. 우선, 복수의 이미지 및 복수의 필터가 주변 컴포넌트 인터페이스 익스프레스(PCIE)를 통하여 CPU로부터 그래픽 프로세서의 글로벌 메모리로 이송되고, 그러면 그래픽 프로세서의 각 연산 유닛 내의 복수의 스레드가 협동하여 복수의 이미지 및 복수의 필터를 글로벌 메모리로부터 로컬 메모리로 로딩한다.

본 개시의 실시예에서, 단계 S703은 단계 S702 전에 실행될 수 있거나, 단계 S702 및 단계 S703이 동시에 실행될 수 있고, 이에 한정되지 않는다.

단계 S704에서, 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드는 하나의 채널 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산한다.

본 개시의 실시예에서, 데이터 포인트는 단위 데이터이다. 그래픽 프로세서 내의 각 연산 유닛은 그래픽 프로세서 스레드 그룹을 포함하고, 각 연산 유닛 내의 각 스레드는 로컬 메모리 내의 처리될 데이터 및 필터들의 컨볼루션들을 계산한다. 예를 들면, 대응하는 스레드는 Channel 10 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 계산하고, 각 데이터 포인트는 Channel 10 내의 복수의 필터와 컨볼루션된다.

단계 S705에서, 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드는 각 채널 내의 컨볼루션들을 하나씩 계산하여 각 채널의 컨볼루션 결과를 얻고 각 채널의 컨볼루션 결과를 축적하여 최종 컨볼루션 결과를 얻는다.

단계 S706에서, 최종 컨볼루션 결과가 복수의 그래픽 프로세서 스레드 그룹의 글로벌 메모리 내에 기록된다.

도 8에 나타낸 바와 같이, 최종 컨볼루션 결과가 글로벌 메모리에 다시 기록된다.

본 개시의 실시예들에 따른 다채널 컨볼루션 레이어를 위한 처리 방법에 의하면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

본 개시의 실시예에서, 복수의 그래픽 프로세서 스레드 그룹이 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독할 때에, 복수의 데이터 블럭에 대응하는 패딩 데이터가 로컬 메모리들로 판독될 수 있다. 복수의 패딩된 데이터 블럭은 비정규 데이터 블럭들이다. 물론, 복수의 데이터 블럭은 또한 정규 데이터 블럭들일 수도 있고, 이에 한정되지 않는다.

패딩 데이터로 인하여, 데이터 블럭 내의 데이터 포인트들의 수가 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수보다 많다. 데이터 포인트들과 복수의 스레드 간에 일대일 매핑이 설정되는 경우, 복잡한 서브스크립 동작을 초래하여, 데이터 전송 지연을 증가시킨다. 비정규 데이터를 판독하기 위해서, 간단한 그래픽 프로세서 스레드 그룹을 사용하여 비정규 데이터 블럭들과 매핑한다. 일부 실시예에서, 단계 S702는 다음의 단계들을 더 포함한다: 각 데이터 블럭은 복수의 서브 데이터 블럭으로 분할되고, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭되고; 대응하는 그래픽 프로세서 스레드 그룹은 복수의 서브 데이터 블럭을 대응하는 그래픽 프로세서 스레드 그룹의 로컬 메모리로 하나씩 판독한다. 이들 단계는 상기 실시예들에서 설명한 단채널 컨볼루션 레이어를 위한 처리 방법에서의 것과 유사하여 여기서는 생략된다. 따라서, 복잡한 서브스크립 동작이 회피되고 데이터 전송 지연이 감소된다.

본 개시의 실시예에서, 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 하나의 채널 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 계산하는 것은, 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들에 대한 레지스터 분할 처리를 수행하는 것을 포함한다.

본 개시의 상기 실시예들을 달성하기 위해서, 다채널 컨볼루션 레이어를 위한 처리 장치가 본 개시의 실시예들에 의해 제공된다.

도 9는 본 개시의 실시예에 따른 다채널 컨볼루션 레이어를 위한 처리 장치의 블럭도이다.

도 9에 나타낸 바와 같이, 장치(200)는 분할 모듈(210), 제1 판독 모듈(220), 제2 판독 모듈(230), 제3 판독 모듈(240), 계산 모듈(250), 축적 모듈(260) 및 기록 모듈(270)을 포함한다.

일부 실시예에서, 처리될 데이터는 이미지, 비디오, 오디오 및 워드 등의 컴퓨터 판독 가능한 데이터일 수 있다. 본 개시의 실시예에서, 이미지 데이터의 예를 들면, 처리될 데이터 및 필터는 복수의 채널을 가지며, 즉 다채널 컨볼루션 레이어 내의 처리될 입력 데이터(처리될 데이터)는 복수의 이미지 및 복수의 필터를 포함하고, 각 이미지 및 각 필터는 복수의 채널을 포함한다. 도 8에 나타낸 바와 같이, 입력 이미지는 64개의 이미지(즉, Image 0 내지 Image 63) 및 64개의 필터(즉, Filter 0 내지 Filter 63)를 포함하고, 각 이미지는 3개의 채널(Channel 10, Channel 11 및 Channel 12)을 갖고 각 필터는 3개의 채널(Channel 10, Channel 11 및 Channel 12)을 갖는다. 도 8에서의 실시예는 예시적일 뿐이며, 본 개시는 또한 다른 실시예들에 의해 구현될 수도 있고 다른 실시예들에 적용될 수도 있음을 이해하여야 한다. 당업자는 도 8에서의 실시예에 따라 임의 수량의 채널들을 갖는 임의 수량의 데이터 및 필터들을 처리할 수 있다.

분할 유닛(210)은 각 채널 내의 처리될 데이터를 복수의 데이터 블럭으로 분할하도록 구성되고, 상기 실시예들에서 설명한 단채널 컨볼루션 레이어를 위한 처리 방법에서의 것을 인용할 수 있다.

제1 판독 모듈(220)은 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하도록 구성된다. 제2 판독 모듈(230)은 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하도록 구성된다.

본 개시의 실시예에서, 이미지 데이터의 예를 들면, 복수의 그래픽 프로세서 스레드 그룹이 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하기 전에, 제3 판독 모듈(230)은 복수의 이미지 및 복수의 필터를 그래픽 프로세서의 글로벌 메모리로 판독한다. 대안으로, 복수의 이미지 및 복수의 필터는 중앙 처리 유닛(CPU) 메모리(즉, 호스트 메모리) 내에 저장된다. 우선, 제3 판독 모듈(240)은 복수의 이미지 및 복수의 필터를 주변 컴포넌트 인터페이스 익스프레스(PCIE)를 통하여 CPU로부터 그래픽 프로세서의 글로벌 메모리로 이송하고, 그러면 그래픽 프로세서의 각 연산 유닛 내의 복수의 스레드가 협동하여, 복수의 이미지 및 복수의 필터를 글로벌 메모리로부터, 즉 제1 판독 모듈(220) 및 제2 판독 모듈(230)을 통하여, 로컬 메모리로 로딩한다.

계산 모듈(250)은 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 하나의 채널 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 동시에 계산하도록 구성된다. 본 개시의 실시예에서, 데이터 포인트는 단위 데이터이다. 그래픽 프로세서 내의 각 연산 유닛은 그래픽 프로세서 스레드 그룹을 포함하고, 각 연산 유닛 내의 각 스레드는 로컬 메모리 내의 처리될 데이터 및 필터들의 컨볼루션들을 계산한다. 예를 들면, 대응하는 스레드는 Channel 10 내의 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들을 계산한다.

축적 모듈(260)은 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 각 채널 내의 컨볼루션들을 하나씩 계산하여 각 채널의 컨볼루션 결과를 얻고 각 채널의 컨볼루션 결과를 축적하여 최종 컨볼루션 결과를 얻도록 구성된다. 기록 모듈(270)은 최종 컨볼루션 결과를 복수의 그래픽 프로세서 스레드 그룹의 글로벌 메모리 내에 기록하도록 구성된다.

본 개시의 실시예에 따른 다채널 컨볼루션 레이어를 위한 처리 장치에 의하면, 다음과 같은 효과들이 있다. (1) 컨볼루션이 데이터를 하나의 데이터 포인트씩 언폴딩하지 않고 직접 입력 데이터 상에서 계산되고, 이에 따라 추가 메모리가 필요하지 않으며 메모리 공간이 양호하게 사용될 수 있고; (2) 동일한 그래픽 프로세서 스레드 그룹 내의 그래픽 프로세서 스레드들이, 시리얼 출력 데이터 포인트들을 계산하고 시리얼 입력 데이터 포인트들을 사용하여, 로컬 메모리 내의 데이터의 재사용을 증가시키며, 그래픽 프로세서 스레드들이, 고속의 그래픽 프로세서의 로컬 메모리 내의 처리될 데이터 및 컨볼루션 커널 데이터를 임시로 저장하여, 저속의 그래픽 프로세서 스레드의 글로벌 메모리의 판독 수를 감소시키고, 이에 따라 우수한 성능을 초래하며, 그래픽 프로세서 스레드들이, 데이터 이동 수를 더욱 감소시켜, 전력 소비를 감소시키고 전력 소비에 대한 성능비를 증가시키며; (3) 데이터를 복수의 데이터 블럭으로 분할하는 중에, 메모리 액세스 계산 비율이 레지스터 분할 방법을 사용함으로써 감소되고, 레지스터 분할 방법이 관련 기술 분야에서 사용될 수도 있지만, 그의 데이터 구조화 모드에 의한 효과를 취하기는 어렵다.

본 개시의 실시예에서, 복수의 그래픽 프로세서 스레드 그룹이 복수의 데이터 블럭을 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독할 때에, 제1 판독 모듈(220)은 또한 복수의 데이터 블럭에 대응하는 패딩 데이터를 로컬 메모리들로 판독하도록 구성된다. 복수의 패딩된 데이터 블럭은 비정규 데이터 블럭들이다. 물론, 복수의 데이터 블럭은 또한 정규 데이터 블럭들일 수도 있고, 이에 한정되지 않는다.

패딩 데이터로 인하여, 데이터 블럭 내의 데이터 포인트들의 수가 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수보다 많다. 데이터 포인트들과 복수의 스레드 간에 일대일 매핑이 설정되는 경우, 복잡한 서브스크립 동작을 초래하여, 데이터 전송 지연을 증가시킨다. 비정규 데이터를 판독하기 위해서, 간단한 그래픽 프로세서 스레드 그룹을 사용하여 비정규 데이터 블럭들과 매핑한다. 일부 실시예에서, 제1 판독 모듈(220)은 분할 유닛(221) 및 판독 유닛(222)을 포함한다. 분할 유닛(221)은 각 데이터 블럭을 복수의 서브 데이터 블럭으로 분할하도록 구성되며, 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭되고, 판독 유닛(222)은 대응하는 그래픽 프로세서 스레드 그룹을 통하여 복수의 서브 데이터 블럭을 대응하는 그래픽 프로세서 스레드 그룹의 로컬 메모리로 하나씩 판독하도록 구성되며, 상기 실시예들에서 설명한 단채널 컨볼루션 레이어를 위한 처리 장치에서의 것과 유사하여 여기서는 생략된다. 따라서, 복잡한 서브스크립 동작이 회피되고 데이터 전송 지연이 감소된다.

본 개시의 실시예에서, 계산 모듈(250)은 또한 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 복수의 필터의 컨볼루션들에 대한 레지스터 분할 처리를 수행하도록 구성된다.

본 개시의 각 부분은 하드웨어, 소프트웨어, 펌웨어 또는 그들의 조합에 의해 구현될 수 있음을 이해하여야 한다. 상기 실시예들에서, 복수의 단계 또는 방법은 컴퓨터 메모리 내에 저장되어 적절한 명령 실행 시스템에 의해 실행되는 소프트웨어 또는 펌웨어에 의해 실현될 수 있다. 예를 들면, 하드웨어에 의해 실현되고 있는 경우, 다른 실시예에서와 같이, 단계들 또는 방법들은 다음과 같은 본 기술 분야에서 공지된 기술들, 즉 데이터 신호의 논리 기능을 실현하기 위한 논리 게이트 회로를 갖는 이산 논리 회로, 적절한 조합의 논리 게이트 회로를 갖는 ASIC(Application Specific Integrated Circuit), PGA(Programmable Gate Array), FPGA(Field Programmable Gate Array) 등 중 하나 또는 조합에 의해 실현될 수 있다.

본 명세서 전반에 걸친 "실시예", "일부 실시예", "일 실시예", "다른 예", "예", "특정예", 또는 "일부 예"에 대한 참조는 실시예 또는 예와 관련하여 설명된 특정한 특징, 구조, 물질, 또는 특성이 본 개시의 적어도 하나의 실시예 또는 예에 포함되는 것을 의미한다. 따라서, 본 명세서 전반에 걸쳐서 다양한 곳에서 "일부 실시예에서", "일 실시예에서", "실시예에서, "다른 예에서", "예에서", "특정예에서", 또는 "일부 예에서" 등의 문구의 출현이 반드시 본 개시의 동일 실시예 또는 예를 언급하는 것은 아니다. 또한, 특정한 특징, 구성, 물질 또는 특성은 하나 이상의 실시예 또는 예에서 임의의 적절한 방식으로 조합될 수 있다.

예시적인 실시예들을 나타내고 설명했지만, 상기 실시예들이 본 개시를 한정하는 것으로 이해될 수 없고, 본 개시의 사상, 원리 및 범주를 이탈하지 않고 변경, 대체 및 변형이 이루어질 수 있음이 당업자에게는 자명할 것이다.

Claims

단채널 컨볼루션 레이어(single-channel convolution layer)를 위한 처리 방법으로서,
처리될 데이터를 복수의 데이터 블럭으로 분할하는 단계;
복수의 그래픽 프로세서 스레드(thread) 그룹에 의해 상기 복수의 데이터 블럭을 상기 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하는 단계;
상기 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 상기 복수의 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리들로 판독하는 단계; 및
상기 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 컨볼루션들을 동시에 계산하는 단계
를 포함하는 단채널 컨볼루션 레이어를 위한 처리 방법.
제1항에 있어서,
상기 복수의 데이터 블럭은 비정규 데이터 블럭들인 단채널 컨볼루션 레이어를 위한 처리 방법.
제1항에 있어서,
상기 복수의 그래픽 프로세서 스레드 그룹에 의해 상기 복수의 데이터 블럭을 상기 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하는 단계는,
각 데이터 블럭을 복수의 서브 데이터 블럭으로 분할하는 단계 - 상기 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 상기 복수의 스레드의 수와 매칭됨 -; 및
상기 대응하는 그래픽 프로세서 스레드 그룹에 의해 상기 복수의 서브 데이터 블럭을 상기 대응하는 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리로 하나씩 판독하는 단계
를 포함하는 단채널 컨볼루션 레이어를 위한 처리 방법.
제1항에 있어서,
상기 복수의 데이터 블럭에 대응하는 패딩(padding) 데이터를 상기 로컬 메모리들로 판독하는 단계를 더 포함하는 단채널 컨볼루션 레이어를 위한 처리 방법.
단채널 컨볼루션 레이어를 위한 처리 장치로서,
처리될 데이터를 복수의 데이터 블럭으로 분할하도록 구성된 분할 모듈;
복수의 그래픽 프로세서 스레드 그룹을 통하여 복수의 데이터 블럭을 상기 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 판독하도록 구성된 제1 판독 모듈;
상기 복수의 그래픽 프로세서 스레드 그룹을 통하여 복수의 필터를 상기 복수의 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리들로 판독하도록 구성된 제2 판독 모듈; 및
상기 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 컨볼루션들을 동시에 계산하도록 구성된 계산 모듈
을 포함하는 단채널 컨볼루션 레이어를 위한 처리 장치.
제5항에 있어서,
상기 복수의 데이터 블럭은 비정규 데이터 블럭들인 단채널 컨볼루션 레이어를 위한 처리 장치.
제5항에 있어서,
상기 제1 판독 모듈은,
각 데이터 블럭을 복수의 서브 데이터 블럭으로 분할하도록 구성된 분할 유닛 - 상기 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 상기 복수의 스레드의 수와 매칭됨 -; 및
상기 대응하는 그래픽 프로세서 스레드 그룹을 통하여 상기 복수의 서브 데이터 블럭을 상기 대응하는 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리로 하나씩 판독하도록 구성된 판독 유닛
을 포함하는 단채널 컨볼루션 레이어를 위한 처리 장치.
제5항에 있어서,
상기 제1 판독 모듈은 또한 상기 복수의 데이터 블럭에 대응하는 패딩 데이터를 상기 로컬 메모리들로 판독하도록 구성되는 단채널 컨볼루션 레이어를 위한 처리 장치.
처리될 데이터 및 필터가 복수의 채널을 포함하는, 다채널(multi-channel) 컨볼루션 레이어를 위한 처리 방법으로서,
각 채널 내의 상기 처리될 데이터를 복수의 데이터 블럭으로 분할하는 단계;
복수의 그래픽 프로세서 스레드 그룹에 의해 상기 복수의 데이터 블럭을 상기 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하는 단계;
상기 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 상기 복수의 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리들로 동시에 판독하는 단계;
상기 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 하나의 채널 내의 상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 컨볼루션들을 동시에 계산하는 단계;
상기 복수의 그래픽 프로세서 스레드 그룹 내의 상기 복수의 스레드에 의해 각 채널의 컨볼루션 결과를 얻도록 각 채널 내의 컨볼루션들을 하나씩 계산하고 최종 컨볼루션 결과를 얻도록 각 채널의 상기 컨볼루션 결과를 축적하는 단계; 및
상기 최종 컨볼루션 결과를 상기 복수의 그래픽 프로세서 스레드 그룹의 글로벌 메모리 내에 기록하는 단계
를 포함하는 다채널 컨볼루션 레이어를 위한 처리 방법.
제9항에 있어서,
상기 복수의 데이터 블럭에 대응하는 패딩 데이터를 상기 로컬 메모리들로 판독하는 단계를 더 포함하고,
상기 복수의 패딩된 데이터 블럭은 비정규 데이터 블럭들인 다채널 컨볼루션 레이어를 위한 처리 방법.
제10항에 있어서,
상기 처리될 데이터는 이미지 데이터이고,
상기 방법은,
복수의 이미지 및 상기 복수의 필터를 상기 복수의 그래픽 프로세서 스레드 그룹의 상기 글로벌 메모리로 판독하는 단계를 더 포함하는 다채널 컨볼루션 레이어를 위한 처리 방법.
제9항에 있어서,
상기 복수의 그래픽 프로세서 스레드 그룹에 의해 상기 복수의 데이터 블럭을 상기 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하는 단계는,
각 데이터 블럭을 복수의 서브 데이터 블럭으로 분할하는 단계 - 상기 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 복수의 스레드의 수와 매칭됨 -; 및
상기 대응하는 그래픽 프로세서 스레드 그룹에 의해 상기 복수의 서브 데이터 블럭을 상기 대응하는 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리로 하나씩 판독하는 단계
를 포함하는 다채널 컨볼루션 레이어를 위한 처리 방법.
제9항에 있어서,
상기 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드에 의해 하나의 채널 내의 상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 컨볼루션들을 동시에 계산하는 단계는,
상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 상기 컨볼루션들에 대한 레지스터 분할 처리를 수행하는 단계
를 포함하는 다채널 컨볼루션 레이어를 위한 처리 방법.
처리될 데이터 및 필터가 복수의 채널을 포함하는, 다채널 컨볼루션 레이어를 위한 처리 장치로서,
각 채널 내의 상기 처리될 데이터를 복수의 데이터 블럭으로 분할하도록 구성된 분할 모듈;
복수의 그래픽 프로세서 스레드 그룹에 의해 상기 복수의 데이터 블럭을 상기 복수의 그래픽 프로세서 스레드 그룹의 로컬 메모리들로 동시에 판독하도록 구성된 제1 판독 모듈;
상기 복수의 그래픽 프로세서 스레드 그룹에 의해 복수의 필터를 상기 복수의 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리들로 동시에 판독하도록 구성된 제2 판독 모듈;
상기 복수의 그래픽 프로세서 스레드 그룹 내의 복수의 스레드를 통하여 하나의 채널 내의 상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 컨볼루션들을 동시에 계산하도록 구성된 계산 모듈;
각 채널의 컨볼루션 결과를 얻도록 상기 복수의 그래픽 프로세서 스레드 그룹 내의 상기 복수의 스레드를 통하여 각 채널 내의 상기 컨볼루션들을 하나씩 계산하고 최종 컨볼루션을 얻도록 각 채널의 상기 컨볼루션 결과를 축적하도록 구성된 축적 모듈; 및
상기 최종 컨볼루션 결과를 상기 복수의 그래픽 프로세서 스레드 그룹의 글로벌 메모리 내에 기록하도록 구성된 기록 모듈
을 포함하는 다채널 컨볼루션 레이어를 위한 처리 장치.
제14항에 있어서,
상기 제1 판독 모듈은 또한 상기 복수의 데이터 블럭에 대응하는 패딩 데이터를 상기 로컬 메모리들로 판독하도록 구성되며, 상기 복수의 패딩된 데이터 블럭은 비정규 데이터 블럭들인 다채널 컨볼루션 레이어를 위한 처리 장치.
제15항에 있어서,
상기 처리될 데이터는 이미지 데이터이고,
상기 장치는,
복수의 이미지 및 상기 복수의 필터를 상기 복수의 그래픽 프로세서 스레드 그룹의 상기 글로벌 메모리로 판독하도록 구성된 제3 판독 모듈
을 더 포함하는 다채널 컨볼루션 레이어를 위한 처리 장치.
제14항에 있어서,
싱기 제1 판독 모듈은,
각 데이터 블럭을 복수의 서브 데이터 블럭으로 분할하도록 구성된 분할 유닛 - 상기 복수의 서브 데이터 블럭 중 적어도 하나의 데이터 사이즈가 대응하는 그래픽 프로세서 스레드 그룹 내의 상기 복수의 스레드의 수와 매칭됨 -; 및
상기 대응하는 그래픽 프로세서 스레드 그룹을 통하여 상기 복수의 서브 데이터 블럭을 상기 대응하는 그래픽 프로세서 스레드 그룹의 상기 로컬 메모리로 하나씩 판독하도록 구성된 판독 유닛
을 포함하는 다채널 컨볼루션 레이어를 위한 처리 장치.
제14항에 있어서,
상기 계산 모듈은 상기 복수의 데이터 블럭 내의 대응하는 데이터 포인트들 및 상기 복수의 필터의 컨볼루션들에 대한 레지스터 분할 처리를 수행하도록 구성되는 다채널 컨볼루션 레이어를 위한 처리 장치.