KR102228586B1

KR102228586B1 - Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법

Info

Publication number: KR102228586B1
Application number: KR1020180006966A
Authority: KR
Inventors: 홍승태; 김영주; 김정시; 설진호
Original assignee: 한국전자통신연구원
Priority date: 2018-01-19
Filing date: 2018-01-19
Publication date: 2021-03-16
Also published as: US20190228344A1; US11151474B2; KR20190088643A

Abstract

GPU 기반의 적응적 BLAS 연산 가속화 장치 및 방법이 개시된다. 본 발명에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치는, 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 BLAS 연산 가속화부, OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하여 임베디드 시스템에서의 기계학습을 가속화하는 OpenCL 실행부, 그리고 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 가속 장치 응용부를 포함한다.

Description

GPU 기반의 적응적 BLAS 연산 가속화 장치 및 방법{GPU-BASED ADAPTIVE BLAS OPERATION ACCELERATION APPARATUS AND METHOD THEREOF}

본 발명은 적응적으로 BLAS 연산을 가속화하는 기술에 관한 것으로, 특히 임베디드 시스템에서 기계학습의 가속화를 위하여, OpenCL을 기반으로 BLAS 연산을 가속화하는 기술에 관한 것이다.

최근 기계학습이 각광받으며, 기계학습을 가속화하기 위한 다양한 연구들이 진행되고 있다. 기계학습의 전체 연산 중 대부분은 행렬 연산으로, 행렬 연산은 범용성에 초점을 맞추어 설계된 CPU에 비하여, 산술연산에 특화되어 설계된 GPU에서 더 우수한 성능을 나타낸다. 이에 따라, 기계학습 수행 시 행렬 연산을 가속화하기 위하여 OpenCL(Open Computing Language)과 같은 병렬 컴퓨팅 언어가 각광받고 있다.

OpenCL은 개방형 범용 병렬 컴퓨팅 프레임워크로, CPU, GPU 및 기타 프로세서들의 조합으로 구성된 이종 플랫폼에서 병렬 컴퓨팅을 제공한다. OpenCL은 다양한 하드웨어 제조 업체에서 제조한 각각의 하드웨어에서 동작 가능하며, 이를 통해 OpenCL은 동일한 프로그램을 휴대폰, 노트북, 슈퍼 컴퓨터 등의 다양한 종류의 플랫폼에서 실행할 수 있다.

OpenCL은 호스트(host)에서 실행되는 호스트 프로그램과 컴퓨팅 장치(computing device)에서 실행되는 커널(kernel)로 구성된다. 호스트 프로그램은 커널을 실행하기 위한 인덱스 공간을 정의하며, 커널의 각 인스턴스(instance), 즉 워크 아이템(work-item)은 인덱스 공간의 각 점에 해당되어 실행된다. 워크 그룹(work-group)은 여러 워크 아이템들로 구성되며, 모든 워크 그룹은 서로 동일한 크기를 가진다. 인덱스 공간은 동일한 크기를 가진 워크 그룹으로 분할되며, 각 워크 그룹은 장치내의 하나의 계산 유닛(compute unit)에서 병렬적으로 수행된다.

따라서 OpenCL에서 연산 수행 시 성능을 극대화하기 위해서는 각 워크 그룹을 계산 유닛에서 최대한 병렬적으로 수행해야 한다. 이에 따라 커널별 작업량을 극대화하기 위한 최적의 워크 그룹의 크기를 설정하는 연구, 그리고 장치 내의 메모리 접근 비용을 최소화하기 위해 장치의 로컬(local) 메모리를 활용하는 연구 등 OpenCL 연산 성능을 향상하기 위한 연구가 현재 활발히 진행 중이다.

그러나 임베디드 시스템의 경우 기존 데스크탑과 상이한 구조적 차이로 인하여 OpenCL을 기반으로 행렬 연산을 가속화하는 기술에 대한 연구가 미흡한 실정이다. 특히 임베디드 시스템은 호스트와 장치가 메모리를 공유하는 통합 메모리(unified memory) 구조가 대부분이며, 임베디드 시스템의 칩셋 벤더에 따라서 GPU 내의 로컬 메모리가 글로벌(global) 메모리 보다 성능 상 이점을 가지지 않는 경우가 존재한다.

이에 따라, 임베디드 시스템의 경우 기존의 최적화 기법으로는 성능을 극대화하지 못하거나, 기존 최적화 기법이 오히려 오버헤드로 작용하는 문제점이 발생한다.

따라서, 이러한 문제점을 해결하고, 임베디드 시스템에서 기계학습을 가속화하기 위하여, GPU를 기반으로 적응적으로 BLAS 연산을 가속화하는 기술의 개발이 필요하다.

한국 공개 특허 제10-2014-0093593호, 2014년 07월 28일 공개(명칭: 워크 그룹 크기 결정 방법, 시스템 및 컴퓨터 판독가능 기록매체)

본 발명의 목적은 임베디드 시스템에서 기계학습을 가속화하는 것이다.

또한, 본 발명의 목적은 임베디드 시스템 및 BLAS 연산의 종류에 최적화된 OpenCL 파라미터 및 커널을 자동으로 생성하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 하는 것이다.

또한, 본 발명의 목적은 호스트 프로그램 설정 및 최적화 관련 기능을 사용자의 제어 없이 내부적으로 수행하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 하는 것이다.

상기한 목적을 달성하기 위한 본 발명에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치는 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 BLAS 연산 가속화부, OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하여 임베디드 시스템에서의 기계학습을 가속화하는 OpenCL 실행부, 그리고 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 가속 장치 응용부를 포함한다.

이때, 초기 분석 과정 수행 시 상기 OpenCL 장치 정보를 생성하는 가속 장치 분석부를 더 포함하고, 상기 OpenCL 장치 정보는, 상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용될 수 있다.

이때, 상기 가속 장치 응용부는, 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다.

이때, 상기 기계학습 데이터 특징 정보는, 행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이한 것일 수 있다.

이때, 상기 OpenCL 파라미터는, 벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함할 수 있다.

이때, 상기 OpenCL 실행부는, 메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU가 상기 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다.

이때, 상기 OpenCL 실행부는, 상기 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사할 수 있다.

이때, 상기 BLAS 연산 가속화부는, 상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 상기 커널 소스코드를 컴파일하여 상기 바이너리 형태의 커널을 생성할 수 있다.

이때, 상기 OpenCL 실행부는, 기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용할 수 있다.

이때, 상기 BLAS 연산 가속화부는, OpenCL 장치가 로컬 메모리를 지원하는 경우, 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정할 수 있다.

또한, 본 발명의 또 다른 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치는, 임베디드 시스템에서의 기계학습 알고리즘에서 BLAS 연산을 호출하면, 상기 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보를 BLAS 연산 가속화부로 전달하는 가속 장치 응용부, 상기 가속 장치 응용부로부터 전달받은 상기 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 상기 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성하는 BLAS 연산 가속화부, 그리고 상기 OpenCL 파라미터 및 상기 커널을 통해 가속화된 상기 BLAS 연산을 수행하고, 상기 BLAS 연산의 수행 결과를 상기 가속 장치 응용부를 통해 상기 기계학습 알고리즘에 반환하는 OpenCL 실행부를 포함할 수 있다.

또한, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치에 의해 수행되는 GPU 기반의 적응적 BLAS 연산 가속화 방법은 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하는 단계, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계, OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하는 단계, 임베디드 시스템에서의 기계학습을 가속화하기 위하여, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하는 단계, 그리고 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계를 포함한다.

이때, 상기 OpenCL 장치 정보는, 초기 분석 과정 수행 시 생성된 것으로, 상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용될 수 있다.

이때, 상기 기계학습 데이터 특징 정보는, 행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이할 수 있다.

이때, 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증하는 단계를 더 포함할 수 있다.

이때, 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는, 메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU가 상기 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다.

이때, 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는, 상기 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사할 수 있다.

이때, 상기 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계는, 상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하는 단계, 선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하는 단계, 그리고 상기 커널 소스코드를 컴파일하여, 상기 바이너리 형태의 커널을 생성하는 단계를 포함할 수 있다.

이때, 기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용할 수 있다.

본 발명에 따르면, 임베디드 시스템에서 기계학습을 가속화 할 수 있다.

또한 본 발명에 따르면, 임베디드 시스템 및 BLAS 연산의 종류에 최적화된 OpenCL 파라미터 및 커널을 자동으로 생성하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 할 수 있다.

또한 본 발명에 따르면, 호스트 프로그램 설정 및 최적화 관련 기능을 사용자의 제어 없이 내부적으로 수행하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 할 수 있다.

도 1은 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치가 적용되는 환경을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 가속 장치 응용부의 구성을 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 BLAS 연산 가속화부의 구성을 나타낸 블록도이다.
도 5는 본 발명의 일 실시예에 따른 행렬의 곱셈 과정을 나타낸 예시도이다.
도 6은 본 발명의 일 실시예에 따른 행렬의 덧셈 과정을 나타낸 예시도이다.
도 7은 통합 메모리 구조에서의 일반적인 BLAS 연산을 나타낸 예시도이다.
도 8은 통합 메모리 구조에서 메모리 매핑 기법을 적용한 BLAS 연산을 나타낸 예시도이다.
도 9는 본 발명의 일 실시예에 따른 가속 장치 분석부의 구성을 나타낸 블록도이다.
도 10은 본 발명의 일 실시예에 따른 OpenCL 장치 정보를 나타낸 예시도이다.
도 11은 본 발명의 일 실시예에 따른 OpenCL 실행부의 구성을 나타낸 블록도이다.
도 12는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 방법을 설명하기 위한 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.

도 1은 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치가 적용되는 환경을 개략적으로 나타낸 도면이다.

도 1에 도시한 바와 같이, 기계학습 알고리즘(100)에서 BLAS 연산을 호출하면, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템(300)의 메모리 구조 및 기계학습 데이터 특징 정보에 따라 적응적으로 BLAS(Basic Linear Algebra Subprograms) 연산을 가속화한다.

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템(300) 및 기계학습 데이터에 대한 초기 분석을 수행하고, OpenCL 장치(OpenCL Device) 정보 및 기계학습 데이터 특징 정보를 이용하여 임베디드 시스템(300)에 특화된 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성할 수 있다.

여기서, 초기 분석은 가속 장치인 OpenCL 장치에 대한 분석이 수행된 적이 없는 경우에만 수행될 수 있다. 그리고 OpenCL 장치 정보는 임베디드 시스템(300)의 OpenCL 장치에 대한 분석을 수행하여 구축된 정보로, OpenCL 파라미터 및 커널을 생성할 때 이용될 수 있다.

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 기계학습 알고리즘(100)에서 적응적 BLAS 연산 가속 기능을 사용하기 위한 사용자 인터페이스를 제공한다. 그리고 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 파라미터 및 커널을 통해 임베디드 시스템(300)에서 가속화된 BLAS 연산을 수행하고, BLAS 연산의 수행 결과를 기계학습 알고리즘(100)에 반환할 수 있다.

이와 같이, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템(300)의 메모리 구조 및 기계학습 데이터의 특징 정보에 최적화된 OpenCL 파라미터 및 커널을 자동으로 생성하고, 호스트 프로그램 설정 및 최적화 관련 기능을 사용자의 제어 없이 내부적으로 수행함으로써, 임베디드 시스템(300)과 OpenCL에 대한 지식이 없더라도 바로 기계학습 알고리즘에 적용하여, BLAS 연산을 가속화할 수 있다.

이하에서는 도 2 내지 도 11을 통하여 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치의 구성에 대하여 더욱 상세하게 설명한다.

도 2는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치의 구성을 나타낸 블록도이다.

도 2에 도시한 바와 같이, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 가속 장치 응용부(210), BLAS 연산 가속화부(220), 가속 장치 분석부(230) 및 OpenCL 실행부(240)를 포함한다.

먼저, 가속 장치 응용부(210)는 임베디드 시스템에서 기계학습 알고리즘이 BLAS 연산을 호출하면, 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보를 BLAS 연산 가속화부(220)로 전달한다. 그리고 가속 장치 응용부(210)는 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환한다.

또한, 가속 장치 응용부(210)는 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다. 이때, 가속 장치 응용부(210)는 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 여부를 판단하여, 유효성을 검증할 수 있다.

다음으로 BLAS 연산 가속화부(220)는 가속 장치 응용부(210)로부터 전달받은 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성한다.

이때, BLAS 연산 가속화부(220)는 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성할 수 있다.

또한, BLAS 연산 가속화부(220)는 BLAS 연산의 종류 및 기계학습 데이터 특징 정보를 기반으로 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 템플릿에서 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성할 수 있다.

그리고 BLAS 연산 가속화부(220)는 OpenCL 장치가 로컬 메모리를 지원하는 경우, OpenCL 파라미터의 로컬 메모리 크기를 기반으로, 로컬 메모리에 복사할 데이터의 크기를 지정할 수 있다.

가속 장치 분석부(230)는 초기 분석 과정 수행 시, OpenCL 장치 정보를 생성하고, 생성한 OpenCL 장치 정보를 관리한다. 여기서, OpenCL 장치 정보는, 임베디드 시스템의 로컬 파일 시스템에 저장되고, 임베디드 시스템에서 기계학습을 수행할 때마다, OpenCL 파라미터의 설정에 활용될 수 있다.

마지막으로 OpenCL 실행부(240)는 OpenCL 파라미터 및 커널을 통해 가속화된 BLAS 연산을 수행하고, BLAS 연산의 수행 결과를 가속 장치 응용부(210)를 통해 기계학습 알고리즘에 반환한다.

이때, OpenCL 실행부(240)는 기계학습의 데이터가 일정한 경우, BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 커널을 재사용하여 BLAS 연산을 수행할 수 있다.

OpenCL 실행부(240)는 OpenCL 실행 환경 정보 및 최적 OpenCL 파라미터를 이용하여, BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 OpenCL 버퍼를 전달받은 커널을 통해 BLAS 연산을 수행하여, 임베디드 시스템의 기계학습을 가속화할 수 있다.

이때, OpenCL 실행부(240)는 메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 임베디드 시스템의 CPU가 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다. 그리고 OpenCL 실행부(240)는 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여, GPU의 메모리 영역에서 CPU의 메모리 영역으로 BLAS 연산의 수행 결과를 복사할 수 있다.

도 3은 본 발명의 일 실시예에 따른 가속 장치 응용부의 구성을 나타낸 블록도이다.

도 3에 도시한 바와 같이, 가속 장치 응용부(210)는 응용 인터페이스 모듈 및 기계학습 데이터 특징 정보 검증 모듈을 포함할 수 있다.

응용 인터페이스 모듈은 기계학습 알고리즘이 BLAS 연산 가속 기능을 호출할 수 있도록 하는 BLAS API, 가속 장치 분석부(230)에서 임베디드 시스템의 OpenCL 장치 정보를 임의로 재구축할 수 있는 장치 재분석 API를 제공한다. 그리고 응용 인터페이스 모듈에서 제공하는 API들은 기계학습 알고리즘에서 용이하게 사용될 수 있도록 하나의 라이브러리 형태로 제공될 수 있다.

BLAS API는 BLAS 연산 수행 시마다 호출하여 사용할 수 있으며, OpenCL 실행부(240)로부터 BLAS 연산의 수행 결과를 전달받아, 기계학습 알고리즘에 최종 BLAS 연산 결과를 반환할 수 있다.

BLAS API는 기계학습에 불필요한 연산이나 관리 비용을 최소화하여 기계학습을 가속화할 수 있다. 이를 위하여, BLAS API는 SGEMM/DGEMM, SGEMV/DGEMV, SAXPY/DAXPY, SSCAL/DSCAL, SAXPBY/DAXPBY, SDOT/DDOT, SASUM/DASUM, SCOPY/DCOPY의 BLAS 루틴을 제공할 수 있다.

각각의 BLAS API는 BLAS 연산을 수행하기 위하여, 원본 데이터의 주소와 함께 기계학습 데이터 특징 정보를 인자로 입력받을 수 있다. 기계학습 데이터 특징 정보는 행렬의 크기 파악을 위한 값, 스칼라 곱 연산을 위한 값을 포함하며, SGEMM/DGEMM, SGEMV/DGEMV 등의 특정 BLAS 연산들은 입력 행렬의 전치 행렬(transpose matrix) 여부를 더 포함할 수 있다.

즉, 기계학습 데이터 특징 정보는 BLAS 연산의 종류에 따라 선별적으로 구성될 수 있다. 예를 들어, SAXPY(또는 DAXPY)의 경우, Y = αX + Y(X와 Y는 M크기의 벡터)와 같은 연산이 수행되며, 기계학습 데이터 특징 정보는 스칼라 α, 벡터의 크기 M으로 구성될 수 있다.

반면, SGEMM(또는 DGEMM)의 경우, C = αAB + βC(A, B, C는 행렬)와 같은 연산이 수행되며, 기계학습 데이터 특징 정보는 스칼라 α, β, 행렬 A, B, C의 크기 파악을 위한 M, N, K와 입력 행렬(행렬 A, 행렬 B)의 전치 행렬 여부로 구성될 수 있다. 이때, 행렬 A는 M * K의 크기, 행렬 B는 K * N의 크기, 그리고 행렬 C는 M * N의 크기라고 가정한다.

다음으로, 가속 장치 응용부(210)의 기계학습 데이터 특징 정보 검증 모듈은 응용 인터페이스 모듈을 통해 입력된 기계학습 데이터 특징 정보의 유효성을 검증한다. 이때, 기계학습 데이터 특징 정보 검증 모듈은 입력된 행렬 크기의 값(M, N, K)과 데이터 유형(float, double)을 통해 전달된 데이터 특징 정보가 실제 데이터의 크기(byte)와 일치하는지 여부를 판단하여, 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다.

일치하는 것으로 판단된 경우, 기계학습 데이터 특징 정보 검증 모듈은 기계학습 데이터 특징 정보를 BLAS 연산 가속화부(220)로 전달한다. 반면, 일치하지 않는 것으로 판단된 경우 기계학습 데이터 특징 정보 검증 모듈은 응용 인터페이스 모듈을 통해 기계학습 알고리즘(100)에 에러 코드(-1)를 반환할 수 있다.

도 4는 본 발명의 일 실시예에 따른 BLAS 연산 가속화부의 구성을 나타낸 블록도이다.

도 4와 같이, BLAS 연산 가속화부(220)는 OpenCL 가속화 관리 모듈, OpenCL 파라미터 관리 모듈 및 커널 소스코드 관리 모듈을 포함할 수 있다.

OpenCL 가속화 관리 모듈은 가속 장치 분석부(230)로부터 OpenCL 장치 정보를 획득한 적이 없거나 장치 재분석 API가 호출된 경우, 초기 분석 과정을 수행할 수 있다.

OpenCL 가속화 관리 모듈이 처음 실행되어 OpenCL 장치 정보가 OpenCL 파라미터 관리 모듈에 저장되어 있지 않은 경우, 또는 장치 재분석 API가 호출된 경우, BLAS 연산 가속화부(220)는 가속 장치 분석부(230)에 OpenCL 장치 정보를 요청할 수 있다. 그리고 OpenCL 가속화 관리 모듈은 가속 장치 분석부(230)로부터 OpenCL 장치 정보를 수신할 수 있다.

또한, OpenCL 가속화 관리 모듈은 가속 장치 분석부(230)로부터 획득한 OpenCL 장치 정보와 가속 장치 응용부(210)로부터 전달된 기계학습 데이터 특징 정보를 OpenCL 파라미터 관리 모듈로 전달하고, OpenCL 파라미터 관리 모듈로부터 임베디드 시스템 및 기계학습 데이터에 최적화된 OpenCL 파라미터를 수신할 수 있다.

그리고 OpenCL 가속화 관리 모듈은 임베디드 시스템에 최적화된 OpenCL 실행 환경을 생성할 수 있다. 이때, OpenCL 가속화 관리 모듈은 OpenCL 플랫폼(platform) 생성 과정, OpenCL 장치 생성 과정, 콘텍스트(context) 생성 과정 및 커맨드 큐(command queue) 생성 과정을 통하여 OpenCL 실행 환경을 생성할 수 있다.

여기서, OpenCL 가속화 관리 모듈이 생성한 OpenCL 실행 환경은 BLAS 연산의 종류와 무관하게 사용 가능하므로, OpenCL 가속화 관리 모듈은 처음 실행될 때에만 OpenCL 실행 환경을 생성하는 과정을 수행할 수 있다.

또한, OpenCL 가속화 관리 모듈은 OpenCL 소스코드 관리 모듈로부터 BLAS 연산을 수행하기 위한 커널 소스코드를 획득하여 커널을 생성한다. OpenCL 가속화 관리 모듈은 커널 소스코드를 컴파일하여 바이너리 형태로 변환하고, 바이너리(binary) 형태의 커널을 현재 장치의 메모리에 캐싱한다. 그리고 동일한 행렬 크기의 BLAS 연산을 수행할 경우, OpenCL 가속화 관리 모듈은 캐싱된 커널을 재사용할 수 있다.

기계학습의 데이터 크기가 일정한 경우, OpenCL 가속화 관리 모듈은 첫 번째 BLAS 연산 수행 시에만 커널 소스코드를 컴파일하고, 두 번째 BLAS 연산 수행부터는 캐싱된 커널을 재사용하여 BLAS 연산 수행에 소요되는 시간을 최소화할 수 있다.

그리고 OpenCL 가속화 관리 모듈은 콘텍스트 및 커맨드 큐를 포함하는 OpenCL 실행 환경 정보, OpenCL 파라미터 및 커널을 OpenCL 실행부(240)로 전달하여, BLAS 연산을 수행할 수 있다.

다음으로 OpenCL 파라미터 관리 모듈은 OpenCL 장치 정보 및 기계학습 데이터 특징 정보를 이용하여, 임베디드 시스템에 최적화된 OpenCL 파라미터를 생성한다. OpenCL 파라미터 관리 모듈은 벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑(mapping) 적용 여부, OpenCL 장치의 통합 메모리 구조 지원 여부, OpenCL 장치의 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나를 포함하는 OpenCL 파라미터를 생성할 수 있다.

첫째, OpenCL 파라미터 중 벡터 그룹화 수 파라미터는, BLAS 연산 수행 시 메모리 접근 횟수 및 연산 비용을 최소화하기 위해 행렬의 일부 요소를 벡터로 그룹화하여 연산을 수행할 때, 그룹에 포함될 행렬 원소의 수를 결정하기 위하여 사용된다. 벡터 그룹화 수 파라미터는, 4, 8, 16 등의 값을 가질 수 있으며, OpenCL 장치 정보 중 CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE의 값에 따라 결정될 수 있다.

OpenCL 파라미터 관리 모듈은 BLAS 연산 수행 시, 행렬의 곱셈, 행렬의 스칼라 곱, 행렬의 덧셈 여부에 따라 그룹화할 행렬을 선택할 수 있다. 행렬 A 및 행렬 B 간의 곱셈 수행 시, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 행렬 B에서 동일 행의 일정 원소들을 벡터 그룹화 수에 따라 하나의 벡터로 그룹화하여, 행렬 A의 각 원소와 곱셈 연산을 수행할 수 있다. 이를 통하여, 본 발명의 일 실시예에 따른 두 행렬 A, B의 연산 결과인 행렬 C의 각 행은 GPU 내의 하나의 커널에서 계산됨으로써, 각 커널의 작업량을 극대화할 수 있다.

도 5는 본 발명의 일 실시예에 따른 행렬의 곱셈 과정을 나타낸 예시도이다.

도 5에 도시한 바와 같이, 벡터 그룹화 수는 4이고, M은 4이며, N은 8이고, K는 4인 것으로 가정한다. 즉, 행렬 A의 크기는 4x4이고, 행렬 B의 크기는 4x8이다. 그리고 도 5에서 벡터 그룹화를 기반으로 행렬 A와 행렬 B에 대한 곱셈을 수행하여 행렬 C의 첫 번째 행을 계산할 때, 한 커널에서 8번의 연산 과정을 수행하여 행렬 A와 행렬 B의 곱셈 결과인 행렬 C의 첫 번째 행을 연산할 수 있다.

그리고 행렬의 스칼라 곱인 αA(α는 스칼라 값, A는 행렬) 연산을 수행할 경우, 행렬 A에서 동일 행의 일정 원소들을 벡터 그룹화 수에 다라 하나의 벡터로 그룹화하고, 그룹화된 벡터에 스칼라 값인 α를 곱하는 곱셈을 수행할 수 있다.

또한, 행렬 A와 행렬 B의 덧셈을 수행하는 과정은 도 6과 같다.

도 6은 본 발명의 일 실시예에 따른 행렬의 덧셈 과정을 나타낸 예시도이다.

도 6에서 행렬 A와 행렬 B의 동일 행의 일정 원소들을 벡터 그룹화 수에 따라 하나의 벡터로 그룹화하고, 그룹화된 벡터들에 대해 덧셈 연산을 수행할 수 있다.

도 6에서 벡터 그룹화 수는 4이고, M, N, K 각각은 4인 것으로 가정한다. 즉, 행렬 A의 크기는 4x4이고, 행렬 B의 크기는 4x4이다.

도 6에 도시한 바와 같이, 벡터 그룹화를 기반으로 행렬 A와 행렬 B에 대한 덧셈을 수행하여 행렬 C의 첫 번째 행을 계산할 수 있다. 행렬 덧셈 연산은 한 커널에서 1번의 연산 과정을 통하여 행렬 C의 첫 번째 행에 대한 덧셈을 수행할 수 있다.

둘째, OpenCL 파라미터 중 워크 그룹의 크기 파라미터는, 세부적으로 로컬 워크 그룹의 크기와 글로벌 워크 그룹의 크기로 구분될 수 있다. 그리고 로컬 워크 그룹의 크기는 다음의 수학식 1에 의해 결정되고, 글로벌 워크 그룹의 크기는 수학식 2에 의해 결정될 수 있다.

[수학식 1]

[수학식 2]

본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 행렬을 2차원 공간 인덱스로 구성하여 커널을 수행하므로, 로컬 워크 그룹의 크기와 글로벌 워크 그룹의 크기는 2차원 공간의 행 및 열을 의미하는 i, j 값을 가진다.

수학식 1 및 수학식 2에서, G는 벡터 그룹화 수 파라미터를 의미하고, M 및 N은 기계학습 데이터 특징 정보 중 행렬을 크기를 나타내는 파라미터이며, 수학식 2에서 RoundUp(A,B)는 A를 B로 나눌 때 나머지가 0이 아닌 경우 나머지가 0이 되도록 A의 값을 올림하는 함수를 의미한다.

셋째, OpenCL 파라미터 중 메모리 매핑(mapping) 적용 여부 파라미터는, 임베디드 시스템에서 호스트 프로세서인 CPU와 실제 커널을 수행할 GPU 사이에 기계학습 데이터의 복사 비용을 최소화하기 위하여 사용되는 파라미터이다. 메모리 매핑 적용 여부는 OpenCL 장치 정보 중 CL_DEVICE_HOST_UNIFIED_MEMORY의 값을 통해 설정될 수 있으며, CL_DEVICE_HOST_UNIFIED_MEMORY의 값이 CL_TRUE인 경우 메모리 매핑 적용 여부 파라미터를 TRUE로 설정하고, 그렇지 않은 경우 메모리 매핑 적용 여부 파라미터를 FALSE로 설정한다.

도 7은 통합 메모리 구조에서 메모리 매핑 기법을 적용하지 않는 일반적인 BLAS 연산을 나타낸 예시도이고, 도 8은 통합 메모리 구조에서 메모리 매핑 기법을 적용한 BLAS 연산을 나타낸 예시도이다.

도 7에 도시한 바와 같이, 통합 메모리 구조에서는 CPU(710)와 GPU(720)가 하나의 메모리 구조(730)를 공유하므로, 도 7과 같이 CPU(710)에서 생성한 OpenCL 버퍼(731)의 데이터를 GPU(720)의 OpenCL 버퍼(732)로 복사하는 과정을 수행하는 것이 불필요하다.

따라서, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 장치 정보를 통해 현재 임베디드 시스템의 통합 메모리 구조 지원 여부를 확인한다. 그리고 통합 메모리 구조를 지원하는 경우, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 실행부(240)를 통해 메모리 매핑을 적용한 호스트 프로그램을 자동으로 생성하여, 도 8과 같이 GPU(720)가 CPU(710)에서 생성한 OpenCL 버퍼(735)에 바로 접근할 수 있도록 한다.

넷째, OpenCL 파라미터 중 OpenCL 장치의 로컬 메모리 지원 여부 파라미터는, GPU 내에서 커널 수행 시 메모리 접근 비용을 최소화하기 위하여 사용된다. OpenCL 장치의 메모리는 글로벌 메모리와 로컬 메모리로 구분된다. 글로벌 메모리는 각 워크 그룹의 모든 워크 아이템들이 접근할 수 있는 반면, 로컬 메모리에 비해 처리 속도가 느리다. 이로 인하여 일반적으로 OpenCL에서는 커널의 연산 성능을 극대화하기 위하여, 하나의 워크 그룹 내의 워크 아이템들이 접근 가능한 데이터를 로컬 메모리에 복사하여 연산을 수행한다.

그러나, 임베디드 시스템의 칩셋 벤더에 따라, 로컬 메모리가 글로벌 메모리보다 성능이 좋지 못한 경우가 있을 수 있으며, 이러한 경우 기존 로컬 메모리를 활용한 BLAS 연산은 오히려 연산 성능이 저하될 수 있다.

따라서, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 이러한 문제점을 해결하기 위하여 OpenCL 장치의 로컬 메모리 지원 여부 파라미터를 설정하고, 설정된 OpenCL 장치의 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성할 수 있다.

여기서, OpenCL 장치의 로컬 메모리 지원 여부 파라미터는, OpenCL 장치 정보 중 CL_DEVICE_LOCAL_MEM_TYPE의 값을 기반으로 설정될 수 있다. CL_DEVICE_LOCAL_MEM_TYPE의 값이 CL_LOCAL인 경우 OpenCL 장치의 로컬 메모리 지원 여부 파라미터는 TRUE로 설정되고, CL_DEVICE_LOCAL_MEM_TYPE의 값이 CL_GLOBAL인 경우 OpenCL 장치의 로컬 메모리 지원 여부 파라미터는 FALSE로 설정된다.

다섯째, OpenCL 파라미터 중 OpenCL 장치의 로컬 메모리 크기 파라미터는, 로컬 메모리에 복사할 데이터의 크기를 지정하기 위하여 사용되며, OpenCL 장치의 로컬 메모리 지원 여부 파라미터가 TRUE인 경우에 사용될 수 있다.

그리고 OpenCL 장치의 로컬 메모리 크기 파라미터는 OpenCL 장치 정보 중 CL_DEVICE_LOCAL_MEM_SIZE의 값을 통해 설정되며, 해당 파라미터의 단위는 킬로바이트(KB)일 수 있다. 예를 들어, 로컬 메모리의 크기가 32KB인 경우, OpenCL 장치의 로컬 메모리 크기 파라미터는 32로 설정된다.

다시 도 4의 커널 소스 코드 관리 모듈에 대하여 설명하면, 커널 소스코드 관리 모듈은 기 정의된 커널 소스코드 템플릿을 기반으로 현재 OpenCL 장치에 최적화된 커널 소스코드를 자동으로 생성하고, 생성된 커널 소스코드를 OpenCL 가속화 관리 모듈로 전송한다.

커널 소스코드 관리 모듈은 OpenCL 가속화 관리 모듈로부터 수행할 BLAS 연산의 종류, 기계학습 데이터 특징 정보 및 OpenCL 파라미터 등을 전달받을 수 있다. 여기서, OpenCL 파라미터는 벡터 그룹화 수, 워크 그룹의 크기, OpenCL 장치의 로컬 메모리 지원 여부 및 OpenCL 장치의 로컬 메모리 크기를 포함할 수 있다. 그리고 OpenCL 장치의 로컬 메모리 크기는 OpenCL 장치의 로컬 메모리 지원 여부가 TRUE인 경우에만 전달받을 수 있다.

커널 소스코드 관리 모듈은 BLAS 연산에 적합한 템플릿을 선택하고, 선택된 템플릿에서 벡터 그룹화 수에 적합한 벡터 그룹화 소스코드를 선택하며, OpenCL 장치의 로컬 메모리 크기를 기반으로 각각의 커널에서 사용 가능한 로컬 메모리의 크기를 설정하며, 해당 로컬 메모리의 크기를 반영하여 커널 소스코드를 생성한다. 그리고 커널 소스코드 관리 모듈은 템플릿의 최종 소스코드인 커널 소스코드를 스트링(String) 타입으로 OpenCL 가속화 관리 모듈로 전달한다. 이때, 커널 소스코드를 전달받은 OpenCL 가속화 관리 모듈은 커널 소스코드를 컴파일할 수 있다.

커널 소스코드 관리 모듈은 템플릿을 선택할 때, 수행할 BLAS 연산의 종류 및 기계학습 데이터의 특징 정보를 기반으로 해당 BLAS 연산에 적합한 템플릿을 선택할 수 있다. 그리고 커널 소스코드 관리 모듈은 선택된 템플릿에서 지정된 벡터 그룹화 수에 적합한 벡터 그룹화 소스코드를 선택할 수 있으며, 벡터 그룹화 소스코드는 전처리 지시어를 이용하여 벡터 그룹화 수에 따라 구분되어 있을 수 있다.

본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)에서 벡터 그룹화는 OpenCL의 내장 벡터 함수인 vloadn 및 vstoren을 이용하여 벡터로 그룹화된 행렬 데이터에 적재(load) 및 저장(store)하며, 벡터 그룹화 수는 vloadn 및 vstoren에서 벡터 내 원소의 수를 의미하는 n을 결정할 수 있다.

그리고 커널 소스코드 관리 모듈은 OpenCL 장치의 로컬 메모리 지원 여부 파라미터가 TRUE로 설정된 경우, 워크 그룹의 크기 및 OpenCL 장치의 로컬 메모리 크기 중 적어도 어느 하나를 고려하여, 각 커널에서 사용 가능한 로컬 메모리의 크기를 설정하고, 설정된 로컬 메모리의 크기를 템플릿에 반영하여 로컬 메모리를 활용하는 커널 소스코드를 생성할 수 있다.

도 9는 본 발명의 일 실시예에 따른 가속 장치 분석부의 구성을 나타낸 블록도이다.

도 9와 같이, 가속 장치 분석부(230)는 OpenCL 장치 정보 관리 모듈 및 OpenCL 장치 정보 분석 모듈을 포함한다.

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)의 가속 장치 분석부(230)는 BLAS 연산 가속화부(220)에서 분석 요청을 수신한 경우에만 동작을 수행할 수 있다. 그리고 가속 장치 분석부(230)는 OpenCL 장치 정보 관리 모듈 및 OpenCL 장치 정보 분석 모듈로 구성될 수 있다.

OpenCL 장치 정보 관리 모듈은 OpenCL 장치 정보 분석 모듈을 통해 OpenCL 장치 정보를 구축 및 관리하고, BLAS 연산 가속화부(220)로 OpenCL 장치 정보를 전달한다. 이때, OpenCL 장치 정보 관리 모듈은 OpenCL 장치 정보가 구축되지 않았거나, 장치 재분석 API가 호출된 경우에만 OpenCL 장치 정보 분석 모듈을 통해 OpenCL 장치 정보를 구축할 수 있다.

하드웨어 구성이 변경되지 않은 동일한 임베디드 시스템에서 기계학습을 수행하는 경우, OpenCL 장치 정보는 변경되지 않는다. 따라서, 기계학습을 수행할 때 마다 OpenCL 장치 정보를 분석하는 것은 불필요하므로, OpenCL 장치 정보가 이미 구축되어 있고 장치 재분석 API가 호출되지 않은 경우, OpenCL 장치 정보 관리 모듈은 현재의 임베디드 시스템의 로컬 파일 시스템에 저장된 파일에서 저장된 정보를 읽어오고, 읽어온 정보를 BLAS 연산 가속화부(220)로 전달할 수 있다.

다음으로 OpenCL 장치 정보 분석 모듈은 현재 임베디드 시스템에 최적화된 OpenCL 파라미터 및 커널을 생성하기 위하여, 도 10과 같은 임베디드 시스템의 OpenCL 장치 정보를 분석한다.

도 10은 본 발명의 일 실시예에 따른 OpenCL 장치 정보를 나타낸 예시도이다.

도 10에 도시한 바와 같이, OpenCL 장치 정보 분석 모듈이 분석하는 OpenCL 장치 정보는, CL_PLATFORM_VERSION (OpenCL 버전 정보), CL_DEVICE_TYPE (디바이스 유형), CL_DEVICE_HOST_UNIFIED_MEMORY (통합 메모리 구조 지원 여부), CL_DEVICE_MAX_WORK_ITEM_DIMENSIONS (인덱스 공간의 최대 차원 수), CL_DEVICE_LOCAL_MEM_TYPE (로컬 메모리 지원 여부), CL_DEVICE_LOCAL_MEM_SIZE (로컬 메모리의 크기) 및 CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE (워크 그룹 크기의 기본 배수) 중 적어도 어느 하나를 포함할 수 있다.

여기서, CL_PLATFORM_VERSION, CL_DEVICE_TYPE, CL_DEVICE_MAX_WORK_ITEM_ DIMENSIONS은 현재 임베디드 시스템의 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 기능을 활용할 수 있는지 검증하는 데 사용될 수 있다. 예를 들어, CL_PLATFORM_VERSION이 1.1 이하이거나 CL_DEVICE_TYPE이 GPU가 아니거나, CL_ DEVICE_MAX_WORK_ITEM_DIMENSIONS이 2 이상이 아닌 경우, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 기능을 활용할 수 없는 것으로 판단하여, 에러 코드(-1)를 반환할 수 있다.

도 11은 본 발명의 일 실시예에 따른 OpenCL 실행부의 구성을 나타낸 블록도이다.

도 11에 도시한 바와 같이, OpenCL 실행부는 OpenCL 버퍼 관리 모듈 및 커널 실행 모듈을 포함한다.

OpenCL 버퍼 관리 모듈은 BLAS 연산 가속화부(220)로부터 전달된 OpenCL 실행 환경 정보와 OpenCL 파라미터를 이용하여, BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성한 OpenCL 버퍼를 커널에 전달할 수 있다.

이때, 메모리 매핑 적용 여부 파라미터가 TRUE로 설정된 경우, OpenCL 버퍼 관리 모듈은 메모리 매핑을 적용할 수 있도록 OpenCL 버퍼를 생성하고, OpenCL의 메모리 매핑 함수를 이용하여, CPU에서 생성한 OpenCL 버퍼에 GPU가 직접 접근할 수 있도록 한다.

그리고 커널 실행 모듈은 임베디드 시스템의 GPU를 통해 BLAS 연산을 실행하고, BLAS 연산의 수행 결과를 가속 장치 응용부(210)로 전달한다. 이때, 메모리 매핑 적용 여부 파라미터가 TRUE로 설정된 경우, CPU는 메모리 매핑 함수를 이용하여 CPU는 BLAS 연산의 수행 결과에 직접 접근할 수 있다. 반면, 메모리 매핑 적용 여부 파라미터가 FALSE로 설정된 경우, OpenCL의 버퍼 읽기 함수를 이용하여, GPU의 메모리 영역에 저장된 BLAS 연산의 수행 결과를 CPU의 메모리 영역으로 복사할 수 있다.

이하에서는 도 12를 통하여, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치에 의해 수행되는 GPU 기반의 적응적 BLAS 연산 가속화 방법에 대하여 더욱 상세하게 설명한다.

도 12는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 방법을 설명하기 위한 순서도이다.

먼저, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 초기 분석 과정을 수행하고, OpenCL 장치 정보를 생성한다(S1210).

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 가속 장치인 OpenCL 장치에 대한 분석이 수행된 적이 없는 경우 또는 OpenCL 장치 재분석 API가 호출된 경우, 초기 분석 과정을 수행할 수 있다. 그리고 초기 분석 과정 수행 시, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 장치 정보를 생성하여 관리할 수 있다.

그리고 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 BLAS 연산 호출 시, 기계학습 데이터 특징 정보를 검증한다(S1220).

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템의 기계학습 알고리즘이 BLAS 연산을 호출하면, 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보의 유효성을 검증한다. 이때, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 여부를 판단하여, 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다.

다음으로 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 최적 OpenCL 파라미터를 설정하고(S1230), BLAS 연산을 위한 커널을 생성한다(S1240).

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 유효성 검증이 완료된 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, 최적 OpenCL 파라미터 및 커널을 생성할 수 있다.

이때, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 BLAS 연산의 종류 및 기계학습 데이터 특징 정보를 기반으로 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 템플릿에서 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성할 수 있다.

그리고 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 버퍼를 생성한다(S1250).

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 실행 환경 정보 및 최적 OpenCL 파라미터를 이용하여, BLAS 연산을 위한 OpenCL 버퍼를 생성한다.

또한, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템의 GPU를 통해 BLAS 연산을 실행한다(S1260).

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 생성된 OpenCL 버퍼를 커널로 전달하여, 커널을 통해 BLAS 연산을 수행할 수 있다. 즉, 이를 통하여 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템의 기계학습을 가속화할 수 있다.

마지막으로, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환한다(S1270).

GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 메모리 매핑 적용 여부가 TRUE로 설정되어 있는 경우 메모리 매핑 함수를 이용하여 임베디드 시스템의 CPU가 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다.

반면, 메모리 매핑 적용 여부가 TRUE로 설정되어 있지 않은 경우, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL의 버퍼 읽기 함수를 이용하여 GPU의 메모리 영역에서 CPU의 메모리 영역으로 BLAS 연산의 수행 결과를 복사할 수 있다.

이상에서와 같이 본 발명에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

100: 기계학습 알고리즘
200: GPU 기반의 적응적 BLAS 연산 가속화 장치
210: 가속 장치 응용부
220: BLAS 연산 가속화부
230: 가속 장치 분석부
240: OpenCL 실행부
300: 임베디드 시스템
710: CPU
720: GPU
730: 통합 메모리
731: CPU의 OpenCL 버퍼
732: GPU의 OpenCL 버퍼
735: OpenCL 버퍼

Claims

기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 BLAS 연산 가속화부,
OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하여 임베디드 시스템에서의 기계학습을 가속화하는 OpenCL 실행부, 그리고
상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 가속 장치 응용부를 포함하되,
상기 OpenCL 파라미터는
OpenCL 장치의 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 파라미터 및 로컬 메모리 크기 파라미터를 포함하되,
BLAS 연산 가속화부는,
설정된 OpenCL 장치의 통합 메모리 구조 및 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성하되,
OpenCL 장치가 통합 메모리 구조를 지원하는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU와 GPU가 입력 데이터 및 연산 결과에 바로 접근 가능하도록 하고,
OpenCL 장치의 로컬 메모리 지원 여부에 따라, BLAS 연산 수행 시 로컬 메모리 활용 유무와 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정하는, GPU 기반의 적응적 BLAS 연산 가속화 장치.
제1항에 있어서,
초기 분석 과정 수행 시 상기 OpenCL 장치 정보를 생성하는 가속 장치 분석부를 더 포함하고,
상기 OpenCL 장치 정보는,
상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용되는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
제1항에 있어서,
상기 가속 장치 응용부는,
입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
제3항에 있어서,
상기 기계학습 데이터 특징 정보는,
행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이한 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
제1항에 있어서,
상기 OpenCL 파라미터는,
벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
삭제
제1항에 있어서,
상기 OpenCL 실행부는, 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 상기 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
제5항에 있어서,
상기 BLAS 연산 가속화부는,
상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 상기 커널 소스코드를 컴파일하여 상기 바이너리 형태의 커널을 생성하는 단계를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
제8항에 있어서,
상기 OpenCL 실행부는,
기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
삭제
임베디드 시스템에서의 기계학습 알고리즘에서 BLAS 연산을 호출하면, 상기 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보를 BLAS 연산 가속화부로 전달하는 가속 장치 응용부,
상기 가속 장치 응용부로부터 전달받은 상기 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 상기 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성하는 BLAS 연산 가속화부, 그리고
GPU가 상기 OpenCL 파라미터 및 상기 커널을 통해 가속화된 상기 BLAS 연산을 수행하고, 상기 BLAS 연산의 수행 결과를 상기 가속 장치 응용부를 통해 상기 기계학습 알고리즘에 반환하는 OpenCL 실행부를 포함하되,
상기 OpenCL 파라미터는
OpenCL 장치의 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 파라미터 및 로컬 메모리 크기 파라미터를 포함하되,
BLAS 연산 가속화부는,
설정된 OpenCL 장치의 통합 메모리 구조 및 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성하되,
OpenCL 장치가 통합 메모리 구조를 지원하는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU와 GPU가 입력 데이터 및 연산 결과에 바로 접근 가능하도록 하고,
OpenCL 장치의 로컬 메모리 지원 여부에 따라, BLAS 연산 수행 시 로컬 메모리 활용 유무와 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정하는, GPU 기반의 적응적 BLAS 연산 가속화 장치.
GPU 기반의 적응적 BLAS 연산 가속화 장치에 의해 수행되는 GPU 기반의 적응적 BLAS 연산 가속화 방법에 있어서,
기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하는 단계,
커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계,
OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하는 단계,
임베디드 시스템에서의 기계학습을 가속화하기 위하여, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하는 단계, 그리고
상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계를 포함하되,
상기 OpenCL 파라미터는
OpenCL 장치의 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 파라미터 및 로컬 메모리 크기 파라미터를 포함하되,
설정하는 단계는,
설정된 OpenCL 장치의 통합 메모리 구조 및 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성하되,
OpenCL 장치가 통합 메모리 구조를 지원하는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU와 GPU가 입력 데이터 및 연산 결과에 바로 접근 가능하도록 하고,
OpenCL 장치의 로컬 메모리 지원 여부에 따라, BLAS 연산 수행 시 로컬 메모리 활용 유무와 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정하는, GPU 기반의 적응적 BLAS 연산 가속화 방법.
제12항에 있어서,
상기 OpenCL 장치 정보는,
초기 분석 과정 수행 시 생성된 것으로, 상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용되는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제12항에 있어서,
상기 기계학습 데이터 특징 정보는,
행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이한 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제12항에 있어서,
입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증하는 단계를 더 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제12항에 있어서,
상기 OpenCL 파라미터는,
벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제12항에 있어서,
상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는,
메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU가 상기 BLAS 연산의 수행 결과에 바로 접근 가능하도록 하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제17항에 있어서,
상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는,
상기 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 상기 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제16항에 있어서,
상기 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계는,
상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하는 단계,
선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하는 단계, 그리고
상기 커널 소스코드를 컴파일하여, 상기 바이너리 형태의 커널을 생성하는 단계를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
제19항에 있어서,
기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.