KR20210090349A

KR20210090349A - 인공지능 모델 구동 가속 장치 및 방법

Info

Publication number: KR20210090349A
Application number: KR1020200003447A
Authority: KR
Inventors: 김용호; 양정오; 박정우; 엄동원
Original assignee: 주식회사 소이넷
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2021-07-20

Abstract

본 발명은 인공지능 모델 구동 가속 장치 및 방법에 관한 것이다. 본 발명의 일 실시 예에 따르면, 인공지능 모델 구동 가속 장치 및 방법은 연산을 분해하여 분해된 연산에 필요한 가중치만 메모리에 올려 처리하는 방식으로 제공된 자원의 허용 한계를 넘는 딥러닝 인공지능 모델을 구동할 수 있다.

Description

인공지능 모델 구동 가속 장치 및 방법 {ARTIFICAIL INTELLIGENCE MODEL ACCELERATOR AND METHOD THEREOF}

본 발명은 인공지능 모델 구동 가속 장치 및 방법에 관한 것으로, 보다 상세하게는 메모리나 연산 처리 능력이 제한된 소형 임베디드 장치 상에서 인공지능 모델 구동이 가능한 인공지능 모델 구동 가속 장치 및 방법에 관한 것이다.

딥러닝 인공지능(Artifitial Intellgence: AI) 모델은 구동하기 위해 성능이 좋은 하드웨어가 필요하다. 그래서 인공지능 모델을 단순화하여 연산량과 사용 메모리를 줄이는 방법을 이용한다. 인공지능 모델을 단순화하기 위해 인공지능 채널 중 중요도가 낮은 채널을 제거할 수도 있고, 원본 모델을 단순화시켜 만든 목표 모델로 모델 간 지식을 압축 전이하는 방법(Teacher-student Knowledge Distillation) 등이 있다. 또는 처리할 인공지능 모델의 가중치와 활성화 값을 양자화하여 정보 표현에 필요한 비트를 줄이는 인공지능 모델 단순화 방법도 있다. 인공지능 모델의 구성과 구동에 필요한 연산량과 필요 메모리를 줄이는 방법은 다양하지만 각 기술마다 적용이 가능한 모델 종류가 제한되거나 성능이 떨어지는 문제가 있다.

반면, 소형 및 경량의 임베디드 장치 일수록 연산 처리능력이나 메모리 같은 자원의 제약이 클 수 밖에 없다. 이런 장치는 소요 전력이 낮고 휴대성이 용이하기 때문에 다양한 장소에서 사용할 수 있는 장점에도 불구하고 이런 하드웨어 용량적인 제약 때문에 딥러닝 인공지능을 이런 장치에서 구동하기에는 적절하지 않았으며 딥러닝을 올릴 경우에도 정확도가 현저히 떨어지는 모델을 사용할 수 밖에 없는 한계가 있었다. 예를 들어 Arm Cortex M4 MPU의 경우 Heap 메모리가 128KB에 불과하다. 딥러닝 인공지능 모델이 이미 압축된 상태에서도 모델의 층(Layer) 별 연산을 수행해 나가기 위해서는 Heap 메모리 상에 올라와 있어야 하는 가중치(Weight) 값과 입력값/활성화 값을 감안 할 경우 최대 필요 메모리는 가중치 크기 보다 훨씬 커질 수 밖에 없다. 이러한 이유로 소형 임베디드 장치는 대부분 딥러닝 인공지능 모델 대신 머신러닝 방법을 사용하기도 한다. 소형 임베디드 장치에 딥러닝 인공지능 모델을 올려 구동하기 위해 소형 임베디드 장치에서 사용 가능한 수준으로 극히 단순화된 모델을 적용하거나 원본 모델보다 현저히 성능이 떨어지는 압축 모델을 적용해 구동할 수 밖에 없다. 따라서 소형 임베디드 장치를 이용하기 위해서는 압축 과정을 거친 모델이라 하더라도 하드웨어의 메모리 사양에 비해 가중치(Weight) 조차도 올리기 힘든 인공지능 모델을 구동할 수 있는 방법이 필요하다.

한편, 딥러닝 기술을 이용하여 만들어진 인공지능 모델은 통상 깊이가 깊고 채널의 크기가 크면 모델이 처리할 수 있는 능력이 커진다. 반면 모델의 구조를 뒷받침 하기 위한 가중치값과 활성값 저장에 필요한 메모리 양과 입력값으로부터 모델의 계층 단계 마다 처리를 위해 필요한 연산량이 증가하게 된다. 이런 제약사항 때문에 소형 임베디드 장치에서는 처음부터 처리 능력이 제한된 극히 작은 모델을 통해서만 구현해 왔고, 사용하고자 하는 모델의 가중치 크기가 이미 소형 임베디드 장치의 메모리 허용 한계를 벗어날 정도일 경우라면 더더욱 이런 구현이 불가능하다고 생각해 왔다. 예를 들어, 환자 신체에 부착되는 의료장치의 경우 장시간 동작이 가능하면서도 부착이 용이하여야 실제 사용이 가능하다. 이런 소형 임베디드 장치가 센서를 통해 실시간으로 환자의 상태를 측정하고, 측정된 의료 정보들을 통해 전문 의료진이 환자의 현재 상태를 지속적 점검하고 문제 상황이 생겼을 때 대처할 수 있다. 이처럼 소형 임베디드 장치에서 딥러닝 인공지능 모델을 구동하는 것으로 장치 착용(부착) 환자에게는 생명활동을 모니터링하여 문제 상황에 대한 전문 의료진과의 유기적 지원이 가능하므로 생명 유지에 큰 도움을 줄 수 있다. 그 외에도 소형 경량화된 임베디드의 장치 특성상 가축관리 등 농수산업의 각종 현장에서 딥러닝이 다양한 문제를 풀 수 있도록 하는 것이 가능해지게 되므로 그 사회적 효과는 중대하다. 이렇게 소형 임베디드 장치에 딥러닝 모델을 구동할 수 있게 될 경우 예시한 환자 부착 장치 외에도 기존에는 네트워크나 이동성 등 제한 된 환경에서만 사용 되던 딥러닝 기술이 보다 다양한 장소에서 다양한 문제들을 해결하거나 돕도록 하는 길이 열리게 되는 것이기에 이런 제한된 자원을 가진 하드웨어 환경에서 딥러닝 인공지능 모델을 구동하기 위한 방법과 절차가 중요하다.

본 발명은 제한된 자원을 가진 하드웨어 환경에서 자원의 허용 한계를 넘는 딥러닝 인공지능 모델 구동이 가능한 인공지능 모델 구동 가속 장치 및 방법을 제공한 다.

본 발명은 인공지능 모델을 8비트 양자화하여 연산을 효율적으로 할 수 있는 인공지능 모델 구동 가속 장치 및 방법을 제공한다.

본 발명은 인공지능 모델의 레이어(Layer)에서 수행되는 연산을 분해하고, 분해된 연산에 필요한 가중치만 메모리에 올려 처리하는 방식으로 제공된 자원의 허용 한계를 넘는 인공지능 모델 구동 가속 장치 및 방법을 제공한다.

본 발명의 일 측면에 따르면, 인공지능 모델 구동 가속 장치가 제공된다.

본 발명의 일 실시예에 따른 인공지능 모델 구동 가속 장치는 인공지능 모델의 연산량과 메모리 필요량을 압축하는 압축부, 상기 인공지능 모델의 컨볼루션 레이어에서 연산을 빠르게 하기 위해 데이터를 변환부, 상기 데이터를 더 작게 분해하여 연산하는 부분연산부 및 상기 부분연산부의 연산결과를 저장하고 취합하는 취합부를 포함할 수 있다.

본 발명의 다른 일 측면에 따르면, 소형 임베디드 장치에서 구동되는 인공지능 모델 구동 방법을 제공한다.

본 발명의 일 실시 예에 따른 인공지능 모델 구동 방법은 인공지능 모델의 입력값을 자원 필요량에 따라 분해하는 단계, 상기 인공지능 모델의 레이어(Layer) 별 연산을 수행하면서 더 작은 행렬로 연산을 분해하는 단계 및 상기 연산 결과를 저장하고 취합하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따르면, 인공지능 모델의 레이어(Layer)에서 수행되는 연산을 분해하고, 분해된 연산에 필요한 가중치만 메모리에 올려 처리하는 방식으로 제공된 자원의 허용 한계를 넘는 딥러닝 인공지능 모델을 구동할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 인공지능 모델 구동 가속 장치를 설명하기 위한 도면.
도2내지 도 3은 본 발명의 일 실시 예에 따른 인공지능 모델 가속 장치가 인공지능 모델을 구동하는 방법을 설명하기 위한 도면들.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 이를 상세한 설명을 통해 상세히 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서 및 청구항에서 사용되는 단수 표현은, 달리 언급하지 않는 한 일반적으로 "하나 이상"을 의미하는 것으로 해석되어야 한다.

이하, 본 발명의 바람직한 실시 예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시 예에 따른 인공지능 모델 구동 가속 장치를 설명하기 위한 도면이다.

도 1을 참조하면, 인공지능 모델 구동 가속 장치 (10)는 압축부(100), 변환부(200), 부분연산부(300) 및 취합부(400)를 포함한다.

압축부(100)는 인공지능 모델 구동 가속 장치(10)에서 구동될 인공지능 모델의 연산량과 메모리 필요량을 압축한다. 인공지능 모델은 가중치와 활성값이 32비트(bit) 부동소수점(FP32모델)으로 표현된다.

압축부(100)는 32비트(bit) 인공지능 원본 모델을 8비트(bit) 양자화 모델로 변환한다. 예를 들면 압축부(100)는 8비트 정수값으로 변환한다. 압축부(100)는 가중치와 활성값을 8비트로 변환하고, 양자화 활성값을 다시 복양자화한다. 이때 양자화 과정을 거치면서 통상 성능(Accuracy)저하가 발생한다. 압축부(100)는 성능 저하는 최소화하기 위해 양자 상태 인지 학습(Quantization-aware training)방법을 이용해 인공지능 모델을 압축시킨다. 압축부(100)는 8비트 양자화를 진행하면서 산출된 예측값이 기존 FP32모델의 목표값에 얼마나 이격되었는지를 측정하여 인공지능 모델의 가중치를 조정한다.

변환부(200)는 인공지능 모델의 컨볼루션 레이어(Convolution Layer)에서 연산을 빠르게 하기 위해 데이터를 변환한다. 예를 들면 변환부(200)는 im2col 변환 방식으로 컨볼루션 연산량을 줄일 수 있는 행렬연산으로 변환한다. 변환부(200)는 인공지능 모델의 컨볼루션 레이어 행렬의 차원을 축소하여 연산속도를 높일 수 있다.

부분연산부(300)는 변환된 행렬을 더 작은 행렬로 분해하고 연산한다. 예를 들면 부분연산부(300)는 슈트라센 알고리즘, 위노그라드 알고리즘 등과 같은 행렬 곱셈 알고리즘을 통해 큰 행렬 연산을 작은 크기의 행렬 곱으로 분해하여 연산할 수 있다. 즉, 부분연산부(300)는 행렬 곱셈 알고리즘을 이용하면 정방형의 행렬 연산을 작은 행렬의 연산을 분해하여 전체 연산량을 줄일 수 있다. 예를 들면 슈트라센 알고리즘을 기반으로 개선된 위노그라드 알고리즘은 시간복잡도가 O(N^3)인 연산량을 O(N^2.3737)까지 줄일 수 있다.

취합부(400)는 부분연산부의 연산결과를 저장하고 취합하여 인공지능 모델 구동 가속 장치의 자원 허용 한계를 넘는 인공지능 모델을 구동시킬 수 있다. 취합부(400)는 인공지능 모델의 레이어(Layer) 내에서도 분해된 연산의 결과값을 저장한다. 취합부(400)는 분해된 연산에 필요한 가중치 만을 메모리에 올려서 처리하고 각 결과값을 저장한다.

도2내지 도 3은 본 발명의 일 실시 예에 따른 인공지능 모델 가속 장치에서 인공지능 모델을 구동하는 방법을 설명하기 위한 도면들이다. 이하 설명하는 각 과정은 인공지능 모델 구동 가속 장치를 구성하는 각 기능부가 수행하는 과정이나, 본 발명의 간결하고 명확한 설명을 위해 각 단계의 주체를 인공지능 모델 구동 가속 장치로 통칭하도록 한다.

도2를 참조하면, 단계 S210에서 인공지능 모델 구동 가속 장치(10)는 32비트(bit) 인공지능 원본 모델을 8비트(bit) 양자화 모델로 변환한다. 예를 들면 압축부(100)는 가중치와 활성값을 8비트로 변환한다.

단계 S220에서 인공지능 모델 구동 가속 장치(10)는 양자화 활성값을 다시 복양자화한다.

단계 S230에서 인공지능 모델 구동 가속 장치(10)는 8비트 양자화를 진행하면서 산출된 예측값이 기존 FP32모델의 목표값에 얼마나 이격되었는지를 측정하여 손실값을 산출한다.

단계 S240에서 인공지능 모델 구동 가속 장치(10)는 산출된 손실값을 기반으로 인공지능 모델의 가중치를 조정하여 학습을 진행한다.

도 3을 참조하면, 단계 S310에서 인공지능 모델 구동 가속 장치(10)는 인공지능 모델의 레이어(Layer)별 연산 분해 방식을 결정한다.

단계 S320에서 인공지능 모델 구동 가속 장치(10)는 인공지능 모델의 가중치를 분해하고 저장한다.

단계 S330에서 인공지능 모델 구동 가속 장치(10)는 인공지능 모델의 입력값을 자원 필요량에 따라 분해한다.

단계 S340에서 인공지능 모델 구동 가속 장치(10)는 한다. 예를 들면 im2col 방식으로 행렬의 차원을 축소하여 행렬 연산을 분해한다.

단계 S350에서 인공지능 모델 구동 가속 장치(10)는 분해된 행렬 연산을 레이어가 종료될 때까지 반복적으로 수행한다.

단계 S360에서 인공지능 모델 구동 가속 장치(10)는 부분 연산 결과를 저장하고 취합한다

단계 S370에서 인공지능 모델 구동 가속 장치(10)는 모든 레이어를 거쳐 후 인공지능 모델을 종료한다.

상술한 인공지능 모델 구동 가속 장치의 인공지능 모델 구동 방법은 컴퓨터가 읽을 수 있는 매체 상에 컴퓨터가 읽을 수 있는 코드로 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체는, 예를 들어 이동형 기록 매체(CD, DVD, 블루레이 디스크, USB 저장 장치, 이동식 하드 디스크)이거나, 고정식 기록 매체(ROM, RAM, 컴퓨터 구비형 하드 디스크)일 수 있다. 상기 컴퓨터로 읽을 수 있는 기록 매체에 기록된 상기 컴퓨터 프로그램은 인터넷 등의 네트워크를 통하여 다른 컴퓨팅 장치에 전송되어 상기 다른 컴퓨팅 장치에 설치될 수 있고, 이로써 상기 다른 컴퓨팅 장치에서 사용될 수 있다.

이상에서, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합되거나 결합되어 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.

도면에서 동작들이 특정한 순서로 도시되어 있지만, 반드시 동작들이 도시된 특정한 순서로 또는 순차적 순서로 실행되어야만 하거나 또는 모든 도시 된 동작들이 실행되어야만 원하는 결과를 얻을 수 있는 것으로 이해되어서는 안 된다. 특정 상황에서는, 멀티태스킹 및 병렬 처리가 유리할 수도 있다. 더욱이, 위에 설명한 실시 예 들에서 다양한 구성들의 분리는 그러한 분리가 반드시 필요한 것으로 이해되어서는 안 되고, 설명된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합되거나 다수의 소프트웨어 제품으로 패키지 될 수 있음을 이해하여야 한다.

이제까지 본 발명에 대하여 그 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10: 인공지능 모델 구동 가속 장치
100: 압축부
200: 변환부
300: 부분연산부
400: 취합부

Claims

인공지능 모델 구동 가속 장치에 있어서,
인공지능 모델의 연산량과 메모리 필요량을 압축하는 압축부;
상기 인공지능 모델의 컨볼루션 레이어에서 연산을 빠르게 하기 위해 데이터를 변환부;
상기 데이터를 더 작게 분해하여 연산하는 부분연산부 및
상기 부분연산부의 연산결과를 저장하고 취합하는 취합부를 포함하는 인공지능 모델 구동 가속 장치.
인공지능 모델 구동 가속 장치의 인공지능 모델 구동 방법에 있어서,
인공지능 모델의 입력값을 자원 필요량에 따라 분해하는 단계;
상기 인공지능 모델의 레이어(Layer) 별 연산을 수행하면서 더 작은 행렬로 연산을 분해하는 단계 및
상기 연산 결과를 저장하고 취합하는 단계를 포함하는 인공지능 모델 구동 방법.