KR102228586B1 - Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법 - Google Patents

Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법 Download PDF

Info

Publication number
KR102228586B1
KR102228586B1 KR1020180006966A KR20180006966A KR102228586B1 KR 102228586 B1 KR102228586 B1 KR 102228586B1 KR 1020180006966 A KR1020180006966 A KR 1020180006966A KR 20180006966 A KR20180006966 A KR 20180006966A KR 102228586 B1 KR102228586 B1 KR 102228586B1
Authority
KR
South Korea
Prior art keywords
opencl
blas
machine learning
gpu
kernel
Prior art date
Application number
KR1020180006966A
Other languages
English (en)
Other versions
KR20190088643A (ko
Inventor
홍승태
김영주
김정시
설진호
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180006966A priority Critical patent/KR102228586B1/ko
Priority to US16/013,847 priority patent/US11151474B2/en
Publication of KR20190088643A publication Critical patent/KR20190088643A/ko
Application granted granted Critical
Publication of KR102228586B1 publication Critical patent/KR102228586B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/44Encoding
    • G06F8/443Optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/45Exploiting coarse grain parallelism in compilation, i.e. parallelism between groups of instructions

Abstract

GPU 기반의 적응적 BLAS 연산 가속화 장치 및 방법이 개시된다. 본 발명에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치는, 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 BLAS 연산 가속화부, OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하여 임베디드 시스템에서의 기계학습을 가속화하는 OpenCL 실행부, 그리고 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 가속 장치 응용부를 포함한다.

Description

GPU 기반의 적응적 BLAS 연산 가속화 장치 및 방법{GPU-BASED ADAPTIVE BLAS OPERATION ACCELERATION APPARATUS AND METHOD THEREOF}
본 발명은 적응적으로 BLAS 연산을 가속화하는 기술에 관한 것으로, 특히 임베디드 시스템에서 기계학습의 가속화를 위하여, OpenCL을 기반으로 BLAS 연산을 가속화하는 기술에 관한 것이다.
최근 기계학습이 각광받으며, 기계학습을 가속화하기 위한 다양한 연구들이 진행되고 있다. 기계학습의 전체 연산 중 대부분은 행렬 연산으로, 행렬 연산은 범용성에 초점을 맞추어 설계된 CPU에 비하여, 산술연산에 특화되어 설계된 GPU에서 더 우수한 성능을 나타낸다. 이에 따라, 기계학습 수행 시 행렬 연산을 가속화하기 위하여 OpenCL(Open Computing Language)과 같은 병렬 컴퓨팅 언어가 각광받고 있다.
OpenCL은 개방형 범용 병렬 컴퓨팅 프레임워크로, CPU, GPU 및 기타 프로세서들의 조합으로 구성된 이종 플랫폼에서 병렬 컴퓨팅을 제공한다. OpenCL은 다양한 하드웨어 제조 업체에서 제조한 각각의 하드웨어에서 동작 가능하며, 이를 통해 OpenCL은 동일한 프로그램을 휴대폰, 노트북, 슈퍼 컴퓨터 등의 다양한 종류의 플랫폼에서 실행할 수 있다.
OpenCL은 호스트(host)에서 실행되는 호스트 프로그램과 컴퓨팅 장치(computing device)에서 실행되는 커널(kernel)로 구성된다. 호스트 프로그램은 커널을 실행하기 위한 인덱스 공간을 정의하며, 커널의 각 인스턴스(instance), 즉 워크 아이템(work-item)은 인덱스 공간의 각 점에 해당되어 실행된다. 워크 그룹(work-group)은 여러 워크 아이템들로 구성되며, 모든 워크 그룹은 서로 동일한 크기를 가진다. 인덱스 공간은 동일한 크기를 가진 워크 그룹으로 분할되며, 각 워크 그룹은 장치내의 하나의 계산 유닛(compute unit)에서 병렬적으로 수행된다.
따라서 OpenCL에서 연산 수행 시 성능을 극대화하기 위해서는 각 워크 그룹을 계산 유닛에서 최대한 병렬적으로 수행해야 한다. 이에 따라 커널별 작업량을 극대화하기 위한 최적의 워크 그룹의 크기를 설정하는 연구, 그리고 장치 내의 메모리 접근 비용을 최소화하기 위해 장치의 로컬(local) 메모리를 활용하는 연구 등 OpenCL 연산 성능을 향상하기 위한 연구가 현재 활발히 진행 중이다.
그러나 임베디드 시스템의 경우 기존 데스크탑과 상이한 구조적 차이로 인하여 OpenCL을 기반으로 행렬 연산을 가속화하는 기술에 대한 연구가 미흡한 실정이다. 특히 임베디드 시스템은 호스트와 장치가 메모리를 공유하는 통합 메모리(unified memory) 구조가 대부분이며, 임베디드 시스템의 칩셋 벤더에 따라서 GPU 내의 로컬 메모리가 글로벌(global) 메모리 보다 성능 상 이점을 가지지 않는 경우가 존재한다.
이에 따라, 임베디드 시스템의 경우 기존의 최적화 기법으로는 성능을 극대화하지 못하거나, 기존 최적화 기법이 오히려 오버헤드로 작용하는 문제점이 발생한다.
따라서, 이러한 문제점을 해결하고, 임베디드 시스템에서 기계학습을 가속화하기 위하여, GPU를 기반으로 적응적으로 BLAS 연산을 가속화하는 기술의 개발이 필요하다.
한국 공개 특허 제10-2014-0093593호, 2014년 07월 28일 공개(명칭: 워크 그룹 크기 결정 방법, 시스템 및 컴퓨터 판독가능 기록매체)
본 발명의 목적은 임베디드 시스템에서 기계학습을 가속화하는 것이다.
또한, 본 발명의 목적은 임베디드 시스템 및 BLAS 연산의 종류에 최적화된 OpenCL 파라미터 및 커널을 자동으로 생성하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 하는 것이다.
또한, 본 발명의 목적은 호스트 프로그램 설정 및 최적화 관련 기능을 사용자의 제어 없이 내부적으로 수행하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 하는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치는 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 BLAS 연산 가속화부, OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하여 임베디드 시스템에서의 기계학습을 가속화하는 OpenCL 실행부, 그리고 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 가속 장치 응용부를 포함한다.
이때, 초기 분석 과정 수행 시 상기 OpenCL 장치 정보를 생성하는 가속 장치 분석부를 더 포함하고, 상기 OpenCL 장치 정보는, 상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용될 수 있다.
이때, 상기 가속 장치 응용부는, 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다.
이때, 상기 기계학습 데이터 특징 정보는, 행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이한 것일 수 있다.
이때, 상기 OpenCL 파라미터는, 벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함할 수 있다.
이때, 상기 OpenCL 실행부는, 메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU가 상기 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다.
이때, 상기 OpenCL 실행부는, 상기 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사할 수 있다.
이때, 상기 BLAS 연산 가속화부는, 상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 상기 커널 소스코드를 컴파일하여 상기 바이너리 형태의 커널을 생성할 수 있다.
이때, 상기 OpenCL 실행부는, 기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용할 수 있다.
이때, 상기 BLAS 연산 가속화부는, OpenCL 장치가 로컬 메모리를 지원하는 경우, 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정할 수 있다.
또한, 본 발명의 또 다른 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치는, 임베디드 시스템에서의 기계학습 알고리즘에서 BLAS 연산을 호출하면, 상기 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보를 BLAS 연산 가속화부로 전달하는 가속 장치 응용부, 상기 가속 장치 응용부로부터 전달받은 상기 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 상기 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성하는 BLAS 연산 가속화부, 그리고 상기 OpenCL 파라미터 및 상기 커널을 통해 가속화된 상기 BLAS 연산을 수행하고, 상기 BLAS 연산의 수행 결과를 상기 가속 장치 응용부를 통해 상기 기계학습 알고리즘에 반환하는 OpenCL 실행부를 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치에 의해 수행되는 GPU 기반의 적응적 BLAS 연산 가속화 방법은 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하는 단계, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계, OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하는 단계, 임베디드 시스템에서의 기계학습을 가속화하기 위하여, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하는 단계, 그리고 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계를 포함한다.
이때, 상기 OpenCL 장치 정보는, 초기 분석 과정 수행 시 생성된 것으로, 상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용될 수 있다.
이때, 상기 기계학습 데이터 특징 정보는, 행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이할 수 있다.
이때, 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증하는 단계를 더 포함할 수 있다.
이때, 상기 OpenCL 파라미터는, 벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함할 수 있다.
이때, 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는, 메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU가 상기 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다.
이때, 상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는, 상기 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사할 수 있다.
이때, 상기 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계는, 상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하는 단계, 선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하는 단계, 그리고 상기 커널 소스코드를 컴파일하여, 상기 바이너리 형태의 커널을 생성하는 단계를 포함할 수 있다.
이때, 기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용할 수 있다.
본 발명에 따르면, 임베디드 시스템에서 기계학습을 가속화 할 수 있다.
또한 본 발명에 따르면, 임베디드 시스템 및 BLAS 연산의 종류에 최적화된 OpenCL 파라미터 및 커널을 자동으로 생성하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 할 수 있다.
또한 본 발명에 따르면, 호스트 프로그램 설정 및 최적화 관련 기능을 사용자의 제어 없이 내부적으로 수행하여, 비 전문가도 BLAS 연산 가속 기능을 기계학습 알고리즘에 적용할 수 있도록 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치가 적용되는 환경을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 가속 장치 응용부의 구성을 나타낸 블록도이다.
도 4는 본 발명의 일 실시예에 따른 BLAS 연산 가속화부의 구성을 나타낸 블록도이다.
도 5는 본 발명의 일 실시예에 따른 행렬의 곱셈 과정을 나타낸 예시도이다.
도 6은 본 발명의 일 실시예에 따른 행렬의 덧셈 과정을 나타낸 예시도이다.
도 7은 통합 메모리 구조에서의 일반적인 BLAS 연산을 나타낸 예시도이다.
도 8은 통합 메모리 구조에서 메모리 매핑 기법을 적용한 BLAS 연산을 나타낸 예시도이다.
도 9는 본 발명의 일 실시예에 따른 가속 장치 분석부의 구성을 나타낸 블록도이다.
도 10은 본 발명의 일 실시예에 따른 OpenCL 장치 정보를 나타낸 예시도이다.
도 11은 본 발명의 일 실시예에 따른 OpenCL 실행부의 구성을 나타낸 블록도이다.
도 12는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 방법을 설명하기 위한 순서도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치가 적용되는 환경을 개략적으로 나타낸 도면이다.
도 1에 도시한 바와 같이, 기계학습 알고리즘(100)에서 BLAS 연산을 호출하면, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템(300)의 메모리 구조 및 기계학습 데이터 특징 정보에 따라 적응적으로 BLAS(Basic Linear Algebra Subprograms) 연산을 가속화한다.
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템(300) 및 기계학습 데이터에 대한 초기 분석을 수행하고, OpenCL 장치(OpenCL Device) 정보 및 기계학습 데이터 특징 정보를 이용하여 임베디드 시스템(300)에 특화된 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성할 수 있다.
여기서, 초기 분석은 가속 장치인 OpenCL 장치에 대한 분석이 수행된 적이 없는 경우에만 수행될 수 있다. 그리고 OpenCL 장치 정보는 임베디드 시스템(300)의 OpenCL 장치에 대한 분석을 수행하여 구축된 정보로, OpenCL 파라미터 및 커널을 생성할 때 이용될 수 있다.
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 기계학습 알고리즘(100)에서 적응적 BLAS 연산 가속 기능을 사용하기 위한 사용자 인터페이스를 제공한다. 그리고 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 파라미터 및 커널을 통해 임베디드 시스템(300)에서 가속화된 BLAS 연산을 수행하고, BLAS 연산의 수행 결과를 기계학습 알고리즘(100)에 반환할 수 있다.
이와 같이, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템(300)의 메모리 구조 및 기계학습 데이터의 특징 정보에 최적화된 OpenCL 파라미터 및 커널을 자동으로 생성하고, 호스트 프로그램 설정 및 최적화 관련 기능을 사용자의 제어 없이 내부적으로 수행함으로써, 임베디드 시스템(300)과 OpenCL에 대한 지식이 없더라도 바로 기계학습 알고리즘에 적용하여, BLAS 연산을 가속화할 수 있다.
이하에서는 도 2 내지 도 11을 통하여 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치의 구성에 대하여 더욱 상세하게 설명한다.
도 2는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치의 구성을 나타낸 블록도이다.
도 2에 도시한 바와 같이, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 가속 장치 응용부(210), BLAS 연산 가속화부(220), 가속 장치 분석부(230) 및 OpenCL 실행부(240)를 포함한다.
먼저, 가속 장치 응용부(210)는 임베디드 시스템에서 기계학습 알고리즘이 BLAS 연산을 호출하면, 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보를 BLAS 연산 가속화부(220)로 전달한다. 그리고 가속 장치 응용부(210)는 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환한다.
또한, 가속 장치 응용부(210)는 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다. 이때, 가속 장치 응용부(210)는 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 여부를 판단하여, 유효성을 검증할 수 있다.
다음으로 BLAS 연산 가속화부(220)는 가속 장치 응용부(210)로부터 전달받은 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성한다.
이때, BLAS 연산 가속화부(220)는 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성할 수 있다.
또한, BLAS 연산 가속화부(220)는 BLAS 연산의 종류 및 기계학습 데이터 특징 정보를 기반으로 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 템플릿에서 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성할 수 있다.
그리고 BLAS 연산 가속화부(220)는 OpenCL 장치가 로컬 메모리를 지원하는 경우, OpenCL 파라미터의 로컬 메모리 크기를 기반으로, 로컬 메모리에 복사할 데이터의 크기를 지정할 수 있다.
가속 장치 분석부(230)는 초기 분석 과정 수행 시, OpenCL 장치 정보를 생성하고, 생성한 OpenCL 장치 정보를 관리한다. 여기서, OpenCL 장치 정보는, 임베디드 시스템의 로컬 파일 시스템에 저장되고, 임베디드 시스템에서 기계학습을 수행할 때마다, OpenCL 파라미터의 설정에 활용될 수 있다.
마지막으로 OpenCL 실행부(240)는 OpenCL 파라미터 및 커널을 통해 가속화된 BLAS 연산을 수행하고, BLAS 연산의 수행 결과를 가속 장치 응용부(210)를 통해 기계학습 알고리즘에 반환한다.
이때, OpenCL 실행부(240)는 기계학습의 데이터가 일정한 경우, BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 커널을 재사용하여 BLAS 연산을 수행할 수 있다.
OpenCL 실행부(240)는 OpenCL 실행 환경 정보 및 최적 OpenCL 파라미터를 이용하여, BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 OpenCL 버퍼를 전달받은 커널을 통해 BLAS 연산을 수행하여, 임베디드 시스템의 기계학습을 가속화할 수 있다.
이때, OpenCL 실행부(240)는 메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 임베디드 시스템의 CPU가 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다. 그리고 OpenCL 실행부(240)는 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여, GPU의 메모리 영역에서 CPU의 메모리 영역으로 BLAS 연산의 수행 결과를 복사할 수 있다.
도 3은 본 발명의 일 실시예에 따른 가속 장치 응용부의 구성을 나타낸 블록도이다.
도 3에 도시한 바와 같이, 가속 장치 응용부(210)는 응용 인터페이스 모듈 및 기계학습 데이터 특징 정보 검증 모듈을 포함할 수 있다.
응용 인터페이스 모듈은 기계학습 알고리즘이 BLAS 연산 가속 기능을 호출할 수 있도록 하는 BLAS API, 가속 장치 분석부(230)에서 임베디드 시스템의 OpenCL 장치 정보를 임의로 재구축할 수 있는 장치 재분석 API를 제공한다. 그리고 응용 인터페이스 모듈에서 제공하는 API들은 기계학습 알고리즘에서 용이하게 사용될 수 있도록 하나의 라이브러리 형태로 제공될 수 있다.
BLAS API는 BLAS 연산 수행 시마다 호출하여 사용할 수 있으며, OpenCL 실행부(240)로부터 BLAS 연산의 수행 결과를 전달받아, 기계학습 알고리즘에 최종 BLAS 연산 결과를 반환할 수 있다.
BLAS API는 기계학습에 불필요한 연산이나 관리 비용을 최소화하여 기계학습을 가속화할 수 있다. 이를 위하여, BLAS API는 SGEMM/DGEMM, SGEMV/DGEMV, SAXPY/DAXPY, SSCAL/DSCAL, SAXPBY/DAXPBY, SDOT/DDOT, SASUM/DASUM, SCOPY/DCOPY의 BLAS 루틴을 제공할 수 있다.
각각의 BLAS API는 BLAS 연산을 수행하기 위하여, 원본 데이터의 주소와 함께 기계학습 데이터 특징 정보를 인자로 입력받을 수 있다. 기계학습 데이터 특징 정보는 행렬의 크기 파악을 위한 값, 스칼라 곱 연산을 위한 값을 포함하며, SGEMM/DGEMM, SGEMV/DGEMV 등의 특정 BLAS 연산들은 입력 행렬의 전치 행렬(transpose matrix) 여부를 더 포함할 수 있다.
즉, 기계학습 데이터 특징 정보는 BLAS 연산의 종류에 따라 선별적으로 구성될 수 있다. 예를 들어, SAXPY(또는 DAXPY)의 경우, Y = αX + Y(X와 Y는 M크기의 벡터)와 같은 연산이 수행되며, 기계학습 데이터 특징 정보는 스칼라 α, 벡터의 크기 M으로 구성될 수 있다.
반면, SGEMM(또는 DGEMM)의 경우, C = αAB + βC(A, B, C는 행렬)와 같은 연산이 수행되며, 기계학습 데이터 특징 정보는 스칼라 α, β, 행렬 A, B, C의 크기 파악을 위한 M, N, K와 입력 행렬(행렬 A, 행렬 B)의 전치 행렬 여부로 구성될 수 있다. 이때, 행렬 A는 M * K의 크기, 행렬 B는 K * N의 크기, 그리고 행렬 C는 M * N의 크기라고 가정한다.
다음으로, 가속 장치 응용부(210)의 기계학습 데이터 특징 정보 검증 모듈은 응용 인터페이스 모듈을 통해 입력된 기계학습 데이터 특징 정보의 유효성을 검증한다. 이때, 기계학습 데이터 특징 정보 검증 모듈은 입력된 행렬 크기의 값(M, N, K)과 데이터 유형(float, double)을 통해 전달된 데이터 특징 정보가 실제 데이터의 크기(byte)와 일치하는지 여부를 판단하여, 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다.
일치하는 것으로 판단된 경우, 기계학습 데이터 특징 정보 검증 모듈은 기계학습 데이터 특징 정보를 BLAS 연산 가속화부(220)로 전달한다. 반면, 일치하지 않는 것으로 판단된 경우 기계학습 데이터 특징 정보 검증 모듈은 응용 인터페이스 모듈을 통해 기계학습 알고리즘(100)에 에러 코드(-1)를 반환할 수 있다.
도 4는 본 발명의 일 실시예에 따른 BLAS 연산 가속화부의 구성을 나타낸 블록도이다.
도 4와 같이, BLAS 연산 가속화부(220)는 OpenCL 가속화 관리 모듈, OpenCL 파라미터 관리 모듈 및 커널 소스코드 관리 모듈을 포함할 수 있다.
OpenCL 가속화 관리 모듈은 가속 장치 분석부(230)로부터 OpenCL 장치 정보를 획득한 적이 없거나 장치 재분석 API가 호출된 경우, 초기 분석 과정을 수행할 수 있다.
OpenCL 가속화 관리 모듈이 처음 실행되어 OpenCL 장치 정보가 OpenCL 파라미터 관리 모듈에 저장되어 있지 않은 경우, 또는 장치 재분석 API가 호출된 경우, BLAS 연산 가속화부(220)는 가속 장치 분석부(230)에 OpenCL 장치 정보를 요청할 수 있다. 그리고 OpenCL 가속화 관리 모듈은 가속 장치 분석부(230)로부터 OpenCL 장치 정보를 수신할 수 있다.
또한, OpenCL 가속화 관리 모듈은 가속 장치 분석부(230)로부터 획득한 OpenCL 장치 정보와 가속 장치 응용부(210)로부터 전달된 기계학습 데이터 특징 정보를 OpenCL 파라미터 관리 모듈로 전달하고, OpenCL 파라미터 관리 모듈로부터 임베디드 시스템 및 기계학습 데이터에 최적화된 OpenCL 파라미터를 수신할 수 있다.
그리고 OpenCL 가속화 관리 모듈은 임베디드 시스템에 최적화된 OpenCL 실행 환경을 생성할 수 있다. 이때, OpenCL 가속화 관리 모듈은 OpenCL 플랫폼(platform) 생성 과정, OpenCL 장치 생성 과정, 콘텍스트(context) 생성 과정 및 커맨드 큐(command queue) 생성 과정을 통하여 OpenCL 실행 환경을 생성할 수 있다.
여기서, OpenCL 가속화 관리 모듈이 생성한 OpenCL 실행 환경은 BLAS 연산의 종류와 무관하게 사용 가능하므로, OpenCL 가속화 관리 모듈은 처음 실행될 때에만 OpenCL 실행 환경을 생성하는 과정을 수행할 수 있다.
또한, OpenCL 가속화 관리 모듈은 OpenCL 소스코드 관리 모듈로부터 BLAS 연산을 수행하기 위한 커널 소스코드를 획득하여 커널을 생성한다. OpenCL 가속화 관리 모듈은 커널 소스코드를 컴파일하여 바이너리 형태로 변환하고, 바이너리(binary) 형태의 커널을 현재 장치의 메모리에 캐싱한다. 그리고 동일한 행렬 크기의 BLAS 연산을 수행할 경우, OpenCL 가속화 관리 모듈은 캐싱된 커널을 재사용할 수 있다.
기계학습의 데이터 크기가 일정한 경우, OpenCL 가속화 관리 모듈은 첫 번째 BLAS 연산 수행 시에만 커널 소스코드를 컴파일하고, 두 번째 BLAS 연산 수행부터는 캐싱된 커널을 재사용하여 BLAS 연산 수행에 소요되는 시간을 최소화할 수 있다.
그리고 OpenCL 가속화 관리 모듈은 콘텍스트 및 커맨드 큐를 포함하는 OpenCL 실행 환경 정보, OpenCL 파라미터 및 커널을 OpenCL 실행부(240)로 전달하여, BLAS 연산을 수행할 수 있다.
다음으로 OpenCL 파라미터 관리 모듈은 OpenCL 장치 정보 및 기계학습 데이터 특징 정보를 이용하여, 임베디드 시스템에 최적화된 OpenCL 파라미터를 생성한다. OpenCL 파라미터 관리 모듈은 벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑(mapping) 적용 여부, OpenCL 장치의 통합 메모리 구조 지원 여부, OpenCL 장치의 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나를 포함하는 OpenCL 파라미터를 생성할 수 있다.
첫째, OpenCL 파라미터 중 벡터 그룹화 수 파라미터는, BLAS 연산 수행 시 메모리 접근 횟수 및 연산 비용을 최소화하기 위해 행렬의 일부 요소를 벡터로 그룹화하여 연산을 수행할 때, 그룹에 포함될 행렬 원소의 수를 결정하기 위하여 사용된다. 벡터 그룹화 수 파라미터는, 4, 8, 16 등의 값을 가질 수 있으며, OpenCL 장치 정보 중 CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE의 값에 따라 결정될 수 있다.
OpenCL 파라미터 관리 모듈은 BLAS 연산 수행 시, 행렬의 곱셈, 행렬의 스칼라 곱, 행렬의 덧셈 여부에 따라 그룹화할 행렬을 선택할 수 있다. 행렬 A 및 행렬 B 간의 곱셈 수행 시, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 행렬 B에서 동일 행의 일정 원소들을 벡터 그룹화 수에 따라 하나의 벡터로 그룹화하여, 행렬 A의 각 원소와 곱셈 연산을 수행할 수 있다. 이를 통하여, 본 발명의 일 실시예에 따른 두 행렬 A, B의 연산 결과인 행렬 C의 각 행은 GPU 내의 하나의 커널에서 계산됨으로써, 각 커널의 작업량을 극대화할 수 있다.
도 5는 본 발명의 일 실시예에 따른 행렬의 곱셈 과정을 나타낸 예시도이다.
도 5에 도시한 바와 같이, 벡터 그룹화 수는 4이고, M은 4이며, N은 8이고, K는 4인 것으로 가정한다. 즉, 행렬 A의 크기는 4x4이고, 행렬 B의 크기는 4x8이다. 그리고 도 5에서 벡터 그룹화를 기반으로 행렬 A와 행렬 B에 대한 곱셈을 수행하여 행렬 C의 첫 번째 행을 계산할 때, 한 커널에서 8번의 연산 과정을 수행하여 행렬 A와 행렬 B의 곱셈 결과인 행렬 C의 첫 번째 행을 연산할 수 있다.
그리고 행렬의 스칼라 곱인 αA(α는 스칼라 값, A는 행렬) 연산을 수행할 경우, 행렬 A에서 동일 행의 일정 원소들을 벡터 그룹화 수에 다라 하나의 벡터로 그룹화하고, 그룹화된 벡터에 스칼라 값인 α를 곱하는 곱셈을 수행할 수 있다.
또한, 행렬 A와 행렬 B의 덧셈을 수행하는 과정은 도 6과 같다.
도 6은 본 발명의 일 실시예에 따른 행렬의 덧셈 과정을 나타낸 예시도이다.
도 6에서 행렬 A와 행렬 B의 동일 행의 일정 원소들을 벡터 그룹화 수에 따라 하나의 벡터로 그룹화하고, 그룹화된 벡터들에 대해 덧셈 연산을 수행할 수 있다.
도 6에서 벡터 그룹화 수는 4이고, M, N, K 각각은 4인 것으로 가정한다. 즉, 행렬 A의 크기는 4x4이고, 행렬 B의 크기는 4x4이다.
도 6에 도시한 바와 같이, 벡터 그룹화를 기반으로 행렬 A와 행렬 B에 대한 덧셈을 수행하여 행렬 C의 첫 번째 행을 계산할 수 있다. 행렬 덧셈 연산은 한 커널에서 1번의 연산 과정을 통하여 행렬 C의 첫 번째 행에 대한 덧셈을 수행할 수 있다.
둘째, OpenCL 파라미터 중 워크 그룹의 크기 파라미터는, 세부적으로 로컬 워크 그룹의 크기와 글로벌 워크 그룹의 크기로 구분될 수 있다. 그리고 로컬 워크 그룹의 크기는 다음의 수학식 1에 의해 결정되고, 글로벌 워크 그룹의 크기는 수학식 2에 의해 결정될 수 있다.
[수학식 1]
Figure 112018006544394-pat00001
[수학식 2]
Figure 112018006544394-pat00002
본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 행렬을 2차원 공간 인덱스로 구성하여 커널을 수행하므로, 로컬 워크 그룹의 크기와 글로벌 워크 그룹의 크기는 2차원 공간의 행 및 열을 의미하는 i, j 값을 가진다.
수학식 1 및 수학식 2에서, G는 벡터 그룹화 수 파라미터를 의미하고, M 및 N은 기계학습 데이터 특징 정보 중 행렬을 크기를 나타내는 파라미터이며, 수학식 2에서 RoundUp(A,B)는 A를 B로 나눌 때 나머지가 0이 아닌 경우 나머지가 0이 되도록 A의 값을 올림하는 함수를 의미한다.
셋째, OpenCL 파라미터 중 메모리 매핑(mapping) 적용 여부 파라미터는, 임베디드 시스템에서 호스트 프로세서인 CPU와 실제 커널을 수행할 GPU 사이에 기계학습 데이터의 복사 비용을 최소화하기 위하여 사용되는 파라미터이다. 메모리 매핑 적용 여부는 OpenCL 장치 정보 중 CL_DEVICE_HOST_UNIFIED_MEMORY의 값을 통해 설정될 수 있으며, CL_DEVICE_HOST_UNIFIED_MEMORY의 값이 CL_TRUE인 경우 메모리 매핑 적용 여부 파라미터를 TRUE로 설정하고, 그렇지 않은 경우 메모리 매핑 적용 여부 파라미터를 FALSE로 설정한다.
도 7은 통합 메모리 구조에서 메모리 매핑 기법을 적용하지 않는 일반적인 BLAS 연산을 나타낸 예시도이고, 도 8은 통합 메모리 구조에서 메모리 매핑 기법을 적용한 BLAS 연산을 나타낸 예시도이다.
도 7에 도시한 바와 같이, 통합 메모리 구조에서는 CPU(710)와 GPU(720)가 하나의 메모리 구조(730)를 공유하므로, 도 7과 같이 CPU(710)에서 생성한 OpenCL 버퍼(731)의 데이터를 GPU(720)의 OpenCL 버퍼(732)로 복사하는 과정을 수행하는 것이 불필요하다.
따라서, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 장치 정보를 통해 현재 임베디드 시스템의 통합 메모리 구조 지원 여부를 확인한다. 그리고 통합 메모리 구조를 지원하는 경우, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 실행부(240)를 통해 메모리 매핑을 적용한 호스트 프로그램을 자동으로 생성하여, 도 8과 같이 GPU(720)가 CPU(710)에서 생성한 OpenCL 버퍼(735)에 바로 접근할 수 있도록 한다.
넷째, OpenCL 파라미터 중 OpenCL 장치의 로컬 메모리 지원 여부 파라미터는, GPU 내에서 커널 수행 시 메모리 접근 비용을 최소화하기 위하여 사용된다. OpenCL 장치의 메모리는 글로벌 메모리와 로컬 메모리로 구분된다. 글로벌 메모리는 각 워크 그룹의 모든 워크 아이템들이 접근할 수 있는 반면, 로컬 메모리에 비해 처리 속도가 느리다. 이로 인하여 일반적으로 OpenCL에서는 커널의 연산 성능을 극대화하기 위하여, 하나의 워크 그룹 내의 워크 아이템들이 접근 가능한 데이터를 로컬 메모리에 복사하여 연산을 수행한다.
그러나, 임베디드 시스템의 칩셋 벤더에 따라, 로컬 메모리가 글로벌 메모리보다 성능이 좋지 못한 경우가 있을 수 있으며, 이러한 경우 기존 로컬 메모리를 활용한 BLAS 연산은 오히려 연산 성능이 저하될 수 있다.
따라서, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 이러한 문제점을 해결하기 위하여 OpenCL 장치의 로컬 메모리 지원 여부 파라미터를 설정하고, 설정된 OpenCL 장치의 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성할 수 있다.
여기서, OpenCL 장치의 로컬 메모리 지원 여부 파라미터는, OpenCL 장치 정보 중 CL_DEVICE_LOCAL_MEM_TYPE의 값을 기반으로 설정될 수 있다. CL_DEVICE_LOCAL_MEM_TYPE의 값이 CL_LOCAL인 경우 OpenCL 장치의 로컬 메모리 지원 여부 파라미터는 TRUE로 설정되고, CL_DEVICE_LOCAL_MEM_TYPE의 값이 CL_GLOBAL인 경우 OpenCL 장치의 로컬 메모리 지원 여부 파라미터는 FALSE로 설정된다.
다섯째, OpenCL 파라미터 중 OpenCL 장치의 로컬 메모리 크기 파라미터는, 로컬 메모리에 복사할 데이터의 크기를 지정하기 위하여 사용되며, OpenCL 장치의 로컬 메모리 지원 여부 파라미터가 TRUE인 경우에 사용될 수 있다.
그리고 OpenCL 장치의 로컬 메모리 크기 파라미터는 OpenCL 장치 정보 중 CL_DEVICE_LOCAL_MEM_SIZE의 값을 통해 설정되며, 해당 파라미터의 단위는 킬로바이트(KB)일 수 있다. 예를 들어, 로컬 메모리의 크기가 32KB인 경우, OpenCL 장치의 로컬 메모리 크기 파라미터는 32로 설정된다.
다시 도 4의 커널 소스 코드 관리 모듈에 대하여 설명하면, 커널 소스코드 관리 모듈은 기 정의된 커널 소스코드 템플릿을 기반으로 현재 OpenCL 장치에 최적화된 커널 소스코드를 자동으로 생성하고, 생성된 커널 소스코드를 OpenCL 가속화 관리 모듈로 전송한다.
커널 소스코드 관리 모듈은 OpenCL 가속화 관리 모듈로부터 수행할 BLAS 연산의 종류, 기계학습 데이터 특징 정보 및 OpenCL 파라미터 등을 전달받을 수 있다. 여기서, OpenCL 파라미터는 벡터 그룹화 수, 워크 그룹의 크기, OpenCL 장치의 로컬 메모리 지원 여부 및 OpenCL 장치의 로컬 메모리 크기를 포함할 수 있다. 그리고 OpenCL 장치의 로컬 메모리 크기는 OpenCL 장치의 로컬 메모리 지원 여부가 TRUE인 경우에만 전달받을 수 있다.
커널 소스코드 관리 모듈은 BLAS 연산에 적합한 템플릿을 선택하고, 선택된 템플릿에서 벡터 그룹화 수에 적합한 벡터 그룹화 소스코드를 선택하며, OpenCL 장치의 로컬 메모리 크기를 기반으로 각각의 커널에서 사용 가능한 로컬 메모리의 크기를 설정하며, 해당 로컬 메모리의 크기를 반영하여 커널 소스코드를 생성한다. 그리고 커널 소스코드 관리 모듈은 템플릿의 최종 소스코드인 커널 소스코드를 스트링(String) 타입으로 OpenCL 가속화 관리 모듈로 전달한다. 이때, 커널 소스코드를 전달받은 OpenCL 가속화 관리 모듈은 커널 소스코드를 컴파일할 수 있다.
커널 소스코드 관리 모듈은 템플릿을 선택할 때, 수행할 BLAS 연산의 종류 및 기계학습 데이터의 특징 정보를 기반으로 해당 BLAS 연산에 적합한 템플릿을 선택할 수 있다. 그리고 커널 소스코드 관리 모듈은 선택된 템플릿에서 지정된 벡터 그룹화 수에 적합한 벡터 그룹화 소스코드를 선택할 수 있으며, 벡터 그룹화 소스코드는 전처리 지시어를 이용하여 벡터 그룹화 수에 따라 구분되어 있을 수 있다.
본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)에서 벡터 그룹화는 OpenCL의 내장 벡터 함수인 vloadn 및 vstoren을 이용하여 벡터로 그룹화된 행렬 데이터에 적재(load) 및 저장(store)하며, 벡터 그룹화 수는 vloadn 및 vstoren에서 벡터 내 원소의 수를 의미하는 n을 결정할 수 있다.
그리고 커널 소스코드 관리 모듈은 OpenCL 장치의 로컬 메모리 지원 여부 파라미터가 TRUE로 설정된 경우, 워크 그룹의 크기 및 OpenCL 장치의 로컬 메모리 크기 중 적어도 어느 하나를 고려하여, 각 커널에서 사용 가능한 로컬 메모리의 크기를 설정하고, 설정된 로컬 메모리의 크기를 템플릿에 반영하여 로컬 메모리를 활용하는 커널 소스코드를 생성할 수 있다.
도 9는 본 발명의 일 실시예에 따른 가속 장치 분석부의 구성을 나타낸 블록도이다.
도 9와 같이, 가속 장치 분석부(230)는 OpenCL 장치 정보 관리 모듈 및 OpenCL 장치 정보 분석 모듈을 포함한다.
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)의 가속 장치 분석부(230)는 BLAS 연산 가속화부(220)에서 분석 요청을 수신한 경우에만 동작을 수행할 수 있다. 그리고 가속 장치 분석부(230)는 OpenCL 장치 정보 관리 모듈 및 OpenCL 장치 정보 분석 모듈로 구성될 수 있다.
OpenCL 장치 정보 관리 모듈은 OpenCL 장치 정보 분석 모듈을 통해 OpenCL 장치 정보를 구축 및 관리하고, BLAS 연산 가속화부(220)로 OpenCL 장치 정보를 전달한다. 이때, OpenCL 장치 정보 관리 모듈은 OpenCL 장치 정보가 구축되지 않았거나, 장치 재분석 API가 호출된 경우에만 OpenCL 장치 정보 분석 모듈을 통해 OpenCL 장치 정보를 구축할 수 있다.
하드웨어 구성이 변경되지 않은 동일한 임베디드 시스템에서 기계학습을 수행하는 경우, OpenCL 장치 정보는 변경되지 않는다. 따라서, 기계학습을 수행할 때 마다 OpenCL 장치 정보를 분석하는 것은 불필요하므로, OpenCL 장치 정보가 이미 구축되어 있고 장치 재분석 API가 호출되지 않은 경우, OpenCL 장치 정보 관리 모듈은 현재의 임베디드 시스템의 로컬 파일 시스템에 저장된 파일에서 저장된 정보를 읽어오고, 읽어온 정보를 BLAS 연산 가속화부(220)로 전달할 수 있다.
다음으로 OpenCL 장치 정보 분석 모듈은 현재 임베디드 시스템에 최적화된 OpenCL 파라미터 및 커널을 생성하기 위하여, 도 10과 같은 임베디드 시스템의 OpenCL 장치 정보를 분석한다.
도 10은 본 발명의 일 실시예에 따른 OpenCL 장치 정보를 나타낸 예시도이다.
도 10에 도시한 바와 같이, OpenCL 장치 정보 분석 모듈이 분석하는 OpenCL 장치 정보는, CL_PLATFORM_VERSION (OpenCL 버전 정보), CL_DEVICE_TYPE (디바이스 유형), CL_DEVICE_HOST_UNIFIED_MEMORY (통합 메모리 구조 지원 여부), CL_DEVICE_MAX_WORK_ITEM_DIMENSIONS (인덱스 공간의 최대 차원 수), CL_DEVICE_LOCAL_MEM_TYPE (로컬 메모리 지원 여부), CL_DEVICE_LOCAL_MEM_SIZE (로컬 메모리의 크기) 및 CL_KERNEL_PREFERRED_WORK_GROUP_SIZE_MULTIPLE (워크 그룹 크기의 기본 배수) 중 적어도 어느 하나를 포함할 수 있다.
여기서, CL_PLATFORM_VERSION, CL_DEVICE_TYPE, CL_DEVICE_MAX_WORK_ITEM_ DIMENSIONS은 현재 임베디드 시스템의 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 기능을 활용할 수 있는지 검증하는 데 사용될 수 있다. 예를 들어, CL_PLATFORM_VERSION이 1.1 이하이거나 CL_DEVICE_TYPE이 GPU가 아니거나, CL_ DEVICE_MAX_WORK_ITEM_DIMENSIONS이 2 이상이 아닌 경우, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 기능을 활용할 수 없는 것으로 판단하여, 에러 코드(-1)를 반환할 수 있다.
도 11은 본 발명의 일 실시예에 따른 OpenCL 실행부의 구성을 나타낸 블록도이다.
도 11에 도시한 바와 같이, OpenCL 실행부는 OpenCL 버퍼 관리 모듈 및 커널 실행 모듈을 포함한다.
OpenCL 버퍼 관리 모듈은 BLAS 연산 가속화부(220)로부터 전달된 OpenCL 실행 환경 정보와 OpenCL 파라미터를 이용하여, BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성한 OpenCL 버퍼를 커널에 전달할 수 있다.
이때, 메모리 매핑 적용 여부 파라미터가 TRUE로 설정된 경우, OpenCL 버퍼 관리 모듈은 메모리 매핑을 적용할 수 있도록 OpenCL 버퍼를 생성하고, OpenCL의 메모리 매핑 함수를 이용하여, CPU에서 생성한 OpenCL 버퍼에 GPU가 직접 접근할 수 있도록 한다.
그리고 커널 실행 모듈은 임베디드 시스템의 GPU를 통해 BLAS 연산을 실행하고, BLAS 연산의 수행 결과를 가속 장치 응용부(210)로 전달한다. 이때, 메모리 매핑 적용 여부 파라미터가 TRUE로 설정된 경우, CPU는 메모리 매핑 함수를 이용하여 CPU는 BLAS 연산의 수행 결과에 직접 접근할 수 있다. 반면, 메모리 매핑 적용 여부 파라미터가 FALSE로 설정된 경우, OpenCL의 버퍼 읽기 함수를 이용하여, GPU의 메모리 영역에 저장된 BLAS 연산의 수행 결과를 CPU의 메모리 영역으로 복사할 수 있다.
이하에서는 도 12를 통하여, 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치에 의해 수행되는 GPU 기반의 적응적 BLAS 연산 가속화 방법에 대하여 더욱 상세하게 설명한다.
도 12는 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 방법을 설명하기 위한 순서도이다.
먼저, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 초기 분석 과정을 수행하고, OpenCL 장치 정보를 생성한다(S1210).
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 가속 장치인 OpenCL 장치에 대한 분석이 수행된 적이 없는 경우 또는 OpenCL 장치 재분석 API가 호출된 경우, 초기 분석 과정을 수행할 수 있다. 그리고 초기 분석 과정 수행 시, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 장치 정보를 생성하여 관리할 수 있다.
그리고 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 BLAS 연산 호출 시, 기계학습 데이터 특징 정보를 검증한다(S1220).
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템의 기계학습 알고리즘이 BLAS 연산을 호출하면, 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보의 유효성을 검증한다. 이때, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 입력된 행렬 크기 값 및 데이터 유형을 기반으로, 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 여부를 판단하여, 기계학습 데이터 특징 정보의 유효성을 검증할 수 있다.
다음으로 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 최적 OpenCL 파라미터를 설정하고(S1230), BLAS 연산을 위한 커널을 생성한다(S1240).
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 유효성 검증이 완료된 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, 최적 OpenCL 파라미터 및 커널을 생성할 수 있다.
이때, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 BLAS 연산의 종류 및 기계학습 데이터 특징 정보를 기반으로 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 템플릿에서 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성할 수 있다.
그리고 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 버퍼를 생성한다(S1250).
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL 실행 환경 정보 및 최적 OpenCL 파라미터를 이용하여, BLAS 연산을 위한 OpenCL 버퍼를 생성한다.
또한, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템의 GPU를 통해 BLAS 연산을 실행한다(S1260).
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 생성된 OpenCL 버퍼를 커널로 전달하여, 커널을 통해 BLAS 연산을 수행할 수 있다. 즉, 이를 통하여 본 발명의 일 실시예에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 임베디드 시스템의 기계학습을 가속화할 수 있다.
마지막으로, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환한다(S1270).
GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 메모리 매핑 적용 여부가 TRUE로 설정되어 있는 경우 메모리 매핑 함수를 이용하여 임베디드 시스템의 CPU가 BLAS 연산의 수행 결과에 바로 접근 가능하도록 할 수 있다.
반면, 메모리 매핑 적용 여부가 TRUE로 설정되어 있지 않은 경우, GPU 기반의 적응적 BLAS 연산 가속화 장치(200)는 OpenCL의 버퍼 읽기 함수를 이용하여 GPU의 메모리 영역에서 CPU의 메모리 영역으로 BLAS 연산의 수행 결과를 복사할 수 있다.
이상에서와 같이 본 발명에 따른 GPU 기반의 적응적 BLAS 연산 가속화 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 기계학습 알고리즘
200: GPU 기반의 적응적 BLAS 연산 가속화 장치
210: 가속 장치 응용부
220: BLAS 연산 가속화부
230: 가속 장치 분석부
240: OpenCL 실행부
300: 임베디드 시스템
710: CPU
720: GPU
730: 통합 메모리
731: CPU의 OpenCL 버퍼
732: GPU의 OpenCL 버퍼
735: OpenCL 버퍼

Claims (20)

  1. 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하고, 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 BLAS 연산 가속화부,
    OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하고, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하여 임베디드 시스템에서의 기계학습을 가속화하는 OpenCL 실행부, 그리고
    상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 가속 장치 응용부를 포함하되,
    상기 OpenCL 파라미터는
    OpenCL 장치의 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 파라미터 및 로컬 메모리 크기 파라미터를 포함하되,
    BLAS 연산 가속화부는,
    설정된 OpenCL 장치의 통합 메모리 구조 및 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성하되,
    OpenCL 장치가 통합 메모리 구조를 지원하는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU와 GPU가 입력 데이터 및 연산 결과에 바로 접근 가능하도록 하고,
    OpenCL 장치의 로컬 메모리 지원 여부에 따라, BLAS 연산 수행 시 로컬 메모리 활용 유무와 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정하는, GPU 기반의 적응적 BLAS 연산 가속화 장치.
  2. 제1항에 있어서,
    초기 분석 과정 수행 시 상기 OpenCL 장치 정보를 생성하는 가속 장치 분석부를 더 포함하고,
    상기 OpenCL 장치 정보는,
    상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용되는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  3. 제1항에 있어서,
    상기 가속 장치 응용부는,
    입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  4. 제3항에 있어서,
    상기 기계학습 데이터 특징 정보는,
    행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이한 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  5. 제1항에 있어서,
    상기 OpenCL 파라미터는,
    벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  6. 삭제
  7. 제1항에 있어서,
    상기 OpenCL 실행부는, 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 상기 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  8. 제5항에 있어서,
    상기 BLAS 연산 가속화부는,
    상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하고, 선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하며, 상기 커널 소스코드를 컴파일하여 상기 바이너리 형태의 커널을 생성하는 단계를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  9. 제8항에 있어서,
    상기 OpenCL 실행부는,
    기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 장치.
  10. 삭제
  11. 임베디드 시스템에서의 기계학습 알고리즘에서 BLAS 연산을 호출하면, 상기 기계학습 알고리즘에 상응하는 기계학습 데이터 특징 정보를 BLAS 연산 가속화부로 전달하는 가속 장치 응용부,
    상기 가속 장치 응용부로부터 전달받은 상기 기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 기반으로 상기 임베디드 시스템에 대한 OpenCL 실행 환경을 설정하고, OpenCL 파라미터 및 커널을 생성하는 BLAS 연산 가속화부, 그리고
    GPU가 상기 OpenCL 파라미터 및 상기 커널을 통해 가속화된 상기 BLAS 연산을 수행하고, 상기 BLAS 연산의 수행 결과를 상기 가속 장치 응용부를 통해 상기 기계학습 알고리즘에 반환하는 OpenCL 실행부를 포함하되,
    상기 OpenCL 파라미터는
    OpenCL 장치의 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 파라미터 및 로컬 메모리 크기 파라미터를 포함하되,
    BLAS 연산 가속화부는,
    설정된 OpenCL 장치의 통합 메모리 구조 및 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성하되,
    OpenCL 장치가 통합 메모리 구조를 지원하는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU와 GPU가 입력 데이터 및 연산 결과에 바로 접근 가능하도록 하고,
    OpenCL 장치의 로컬 메모리 지원 여부에 따라, BLAS 연산 수행 시 로컬 메모리 활용 유무와 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정하는, GPU 기반의 적응적 BLAS 연산 가속화 장치.
  12. GPU 기반의 적응적 BLAS 연산 가속화 장치에 의해 수행되는 GPU 기반의 적응적 BLAS 연산 가속화 방법에 있어서,
    기계학습 데이터 특징 정보 및 OpenCL 장치 정보를 이용하여, 최적 OpenCL 파라미터를 설정하는 단계,
    커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계,
    OpenCL 실행 환경 정보 및 상기 최적 OpenCL 파라미터를 이용하여 BLAS 연산을 위한 OpenCL 버퍼를 생성하는 단계,
    임베디드 시스템에서의 기계학습을 가속화하기 위하여, 생성된 상기 OpenCL 버퍼에 접근 가능한 GPU가 커널을 통해 상기 BLAS 연산을 수행하는 단계, 그리고
    상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계를 포함하되,
    상기 OpenCL 파라미터는
    OpenCL 장치의 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 파라미터 및 로컬 메모리 크기 파라미터를 포함하되,
    설정하는 단계는,
    설정된 OpenCL 장치의 통합 메모리 구조 및 로컬 메모리 지원 여부 파라미터를 기초로 커널 소스코드 관리 모듈에서 현재 임베디드 시스템에 최적화된 커널 소스코드를 자동으로 생성하되,
    OpenCL 장치가 통합 메모리 구조를 지원하는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU와 GPU가 입력 데이터 및 연산 결과에 바로 접근 가능하도록 하고,
    OpenCL 장치의 로컬 메모리 지원 여부에 따라, BLAS 연산 수행 시 로컬 메모리 활용 유무와 상기 OpenCL 파라미터의 상기 로컬 메모리 크기를 기반으로 로컬 메모리에 복사할 데이터의 크기를 지정하는, GPU 기반의 적응적 BLAS 연산 가속화 방법.
  13. 제12항에 있어서,
    상기 OpenCL 장치 정보는,
    초기 분석 과정 수행 시 생성된 것으로, 상기 임베디드 시스템의 로컬 파일 시스템에 저장되고, 상기 임베디드 시스템에서 상기 기계학습을 수행할 때마다 상기 OpenCL 파라미터의 설정에 활용되는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  14. 제12항에 있어서,
    상기 기계학습 데이터 특징 정보는,
    행렬 크기 설정 인자, 스칼라 값 및 전치행렬 여부 정보 중 적어도 어느 하나를 포함하며, 상기 BLAS 연산의 종류에 따라 상이한 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  15. 제12항에 있어서,
    입력된 행렬 크기 값 및 데이터 유형을 기반으로, 상기 기계학습 데이터 특징 정보가 실제 데이터의 크기와 일치하는지 판단하여, 상기 기계학습 데이터 특징 정보의 유효성을 검증하는 단계를 더 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  16. 제12항에 있어서,
    상기 OpenCL 파라미터는,
    벡터 그룹화 수, 워크 그룹의 크기, 메모리 매핑 적용 여부, 통합 메모리 구조 지원 여부, 로컬 메모리 지원 여부 및 로컬 메모리 크기 중 적어도 어느 하나에 대한 파라미터를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  17. 제12항에 있어서,
    상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는,
    메모리 매핑 적용 여부가 설정되어 있는 경우, 메모리 매핑 함수를 이용하여 상기 임베디드 시스템의 CPU가 상기 BLAS 연산의 수행 결과에 바로 접근 가능하도록 하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  18. 제17항에 있어서,
    상기 BLAS 연산의 수행 결과를 기계학습 알고리즘에 반환하는 단계는,
    상기 메모리 매핑 적용 여부가 설정되어 있지 않은 경우, OpenCL의 버퍼 읽기 함수를 이용하여 상기 GPU의 메모리 영역에서 CPU의 메모리 영역으로 상기 BLAS 연산의 수행 결과를 복사하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  19. 제16항에 있어서,
    상기 커널 소스코드를 컴파일하여 바이너리 형태의 커널을 생성하는 단계는,
    상기 BLAS 연산의 종류 및 상기 기계학습 데이터 특징 정보를 기반으로 상기 BLAS 연산에 상응하는 템플릿을 선택하는 단계,
    선택된 상기 템플릿에서 상기 OpenCL 파라미터에 상응하는 커널 소스코드를 생성하는 단계, 그리고
    상기 커널 소스코드를 컴파일하여, 상기 바이너리 형태의 커널을 생성하는 단계를 포함하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
  20. 제19항에 있어서,
    기계학습의 데이터가 일정한 경우, 상기 BLAS 연산의 수행 시간을 최소화하기 위하여 기 생성된 상기 커널을 재사용하는 것을 특징으로 하는 GPU 기반의 적응적 BLAS 연산 가속화 방법.
KR1020180006966A 2018-01-19 2018-01-19 Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법 KR102228586B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180006966A KR102228586B1 (ko) 2018-01-19 2018-01-19 Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법
US16/013,847 US11151474B2 (en) 2018-01-19 2018-06-20 GPU-based adaptive BLAS operation acceleration apparatus and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180006966A KR102228586B1 (ko) 2018-01-19 2018-01-19 Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190088643A KR20190088643A (ko) 2019-07-29
KR102228586B1 true KR102228586B1 (ko) 2021-03-16

Family

ID=67298158

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180006966A KR102228586B1 (ko) 2018-01-19 2018-01-19 Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법

Country Status (2)

Country Link
US (1) US11151474B2 (ko)
KR (1) KR102228586B1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102267920B1 (ko) * 2020-03-13 2021-06-21 성재모 매트릭스 연산 방법 및 그 장치
KR102455310B1 (ko) * 2020-05-08 2022-10-18 한국전자통신연구원 콘볼루션 신경망 양자화 추론 장치 및 방법
KR20210157636A (ko) 2020-06-22 2021-12-29 삼성전자주식회사 가속기, 가속기의 동작 방법 및 이를 포함한 가속기 시스템
US11782835B2 (en) 2020-11-30 2023-10-10 Electronics And Telecommunications Research Institute Host apparatus, heterogeneous system architecture device, and heterogeneous system based on unified virtual memory

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7219085B2 (en) * 2003-12-09 2007-05-15 Microsoft Corporation System and method for accelerating and optimizing the processing of machine learning techniques using a graphics processing unit
US7548892B2 (en) 2004-04-30 2009-06-16 Microsoft Corporation Processing machine learning techniques using a graphics processing unit
US20130141443A1 (en) * 2011-12-01 2013-06-06 Michael L. Schmit Software libraries for heterogeneous parallel processing platforms
KR101537725B1 (ko) 2013-01-18 2015-07-20 서울대학교산학협력단 워크 그룹 크기 결정 방법, 시스템 및 컴퓨터 판독가능 기록매체
KR102263359B1 (ko) 2014-03-04 2021-06-11 한국전자통신연구원 운영 환경에 따라 목표 시스템을 적응적으로 제어하기 위한 장치 및 방법
US10705964B2 (en) * 2015-04-28 2020-07-07 Intel Corporation Controlling displacement in a co-operative and adaptive multiple-level memory system
US20170083827A1 (en) 2015-09-23 2017-03-23 Qualcomm Incorporated Data-Driven Accelerator For Machine Learning And Raw Data Analysis
KR102034662B1 (ko) * 2016-01-14 2019-11-18 서울대학교산학협력단 병렬 연산을 수행하는 장치 및 방법
KR20170102726A (ko) 2016-03-02 2017-09-12 한국전자통신연구원 이종 컴퓨팅 방법
EP3812900B1 (en) * 2016-12-31 2023-11-29 Intel Corporation Systems, methods, and apparatuses for heterogeneous computing
WO2018165753A1 (en) * 2017-03-14 2018-09-20 University Of Manitoba Structure defect detection using machine learning algorithms
US10387160B2 (en) * 2017-04-01 2019-08-20 Intel Corporation Shared local memory tiling mechanism
US10186011B2 (en) * 2017-04-28 2019-01-22 Intel Corporation Programmable coarse grained and sparse matrix compute hardware with advanced scheduling
EP3637325A4 (en) * 2017-05-23 2020-05-27 Shanghai Cambricon Information Technology Co., Ltd TREATMENT METHOD AND ACCELERATION DEVICE
EP3631690A4 (en) * 2017-05-23 2021-03-31 Intel Corporation METHOD AND DEVICE FOR IMPROVING A NEURAL NETWORK USING BINARY TENSOR AND SCALE FACTOR PAIRS
US20190087713A1 (en) * 2017-09-21 2019-03-21 Qualcomm Incorporated Compression of sparse deep convolutional network weights
CN110263909B (zh) * 2018-03-30 2022-10-28 腾讯科技(深圳)有限公司 图像识别方法及装置
US20190370647A1 (en) * 2019-01-24 2019-12-05 Intel Corporation Artificial intelligence analysis and explanation utilizing hardware measures of attention
US11127167B2 (en) * 2019-04-29 2021-09-21 Nvidia Corporation Efficient matrix format suitable for neural networks
US11514136B2 (en) * 2019-05-17 2022-11-29 Aspiring Sky Co. Limited Circuit for neural network convolutional calculation of variable feature and kernel sizes
US20200387799A1 (en) * 2019-06-06 2020-12-10 Amazon Technologies, Inc. Reducing computation in neural networks using self-modifying code

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"CLBlast: A Tuned OpenCL BLAS Library", arXiv:1705.05249v1 [cs.MS], 12 May 2017*

Also Published As

Publication number Publication date
US20190228344A1 (en) 2019-07-25
US11151474B2 (en) 2021-10-19
KR20190088643A (ko) 2019-07-29

Similar Documents

Publication Publication Date Title
US10942716B1 (en) Dynamic computational acceleration using a heterogeneous hardware infrastructure
KR102228586B1 (ko) Gpu 기반의 적응적 blas 연산 가속화 장치 및 방법
US20080178165A1 (en) Computation of elementwise expression in parallel
JP6027021B2 (ja) アジャイル通信演算子
JP5936118B2 (ja) コード変換方法、プログラム及びシステム
US10152312B2 (en) Dynamic compiler parallelism techniques
US8930921B2 (en) Compilation and placement of instructions in a memory system
WO2021000971A1 (zh) 操作数据的生成方法、装置及相关产品
Dong et al. Characterizing the microarchitectural implications of a convolutional neural network (cnn) execution on gpus
WO2022134307A1 (zh) 一种可重构芯片的内存耦合编译方法及系统
Wang et al. Partition scheduling on heterogeneous multicore processors for multi-dimensional loops applications
Wang et al. SOLAR: Services-oriented deep learning architectures-deep learning as a service
Zhong et al. Using arm scalable vector extension to optimize open mpi
Tian et al. Compiler transformation of nested loops for general purpose GPUs
Zhai et al. Lit: A high performance massive data computing framework based on cpu/gpu cluster
Bernabé et al. Auto-tuning techniques for linear algebra routines on hybrid platforms
Zou et al. Supernodal sparse Cholesky factorization on graphics processing units
Chichin et al. Capability to embed deep neural networks: Study on cpu processor in avionics context
Hwang et al. {ARK}:{GPU-driven} Code Execution for Distributed Deep Learning
Mishra et al. Data transfer and reuse analysis tool for gpu-offloading using openmp
Bhimani et al. Design space exploration of GPU Accelerated cluster systems for optimal data transfer using PCIe bus
Ponte et al. Evaluation of openmp simd directives on xeon phi coprocessors
Balogh et al. Automatic Parallelisation of Sturctured Mesh Computations with SYCL
Popescu et al. Python-Based Programming Framework for a Heterogeneous MapReduce Architecture
Ast et al. A general approach for an automatic parallelization applied to the finite element code PERMAS

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant