WO2023085457A1

WO2023085457A1 - 효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법

Info

Publication number: WO2023085457A1
Application number: PCT/KR2021/016376
Authority: WO
Inventors: 이상설; 장성준; 박종희
Original assignee: 한국전자기술연구원
Priority date: 2021-11-11
Filing date: 2021-11-11
Publication date: 2023-05-19
Also published as: KR20230068508A

Abstract

효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법이 제공된다. 본 발명의 실시예에 따른 딥러닝 모델 학습 방법은, 동일 클래스에 해당하는 학습 데이터들을 선별하여 저장하고, 저장된 학습 데이터들을 해당 클래스에 매핑된 양자화 파라미터로 양자화 하며, 저장된 학습 데이터들을 이용하여 딥러닝 모델을 학습시킨다. 이에 의해, 추가학습이나 재학습을 위한 학습 데이터에 대해 클래스 별로 구별되는 양자화를 적용하고, 표현형 변경과 압축을 통해 학습 데이터의 용량을 최소화할 수 있어, 메모리 자원이 제한적인 모바일 디바이스에서 딥러닝 모델의 추가학습과 재학습이 용이해지며, 학습 데이터의 보안도 강화할 수 있게 된다.

Description

효율적인 딥러닝 학습을 위한 메모리 구조 및 제어 방법

본 발명은 딥러닝 학습 방법에 관한 것으로, 더욱 상세하게는 서버에서 학습이 완료된 모델을 모바일 디바이스에서 추가학습 및 재학습하는 방법에 관한 것이다.

서버에서 학습이 완료된 모델을 신규 디바이스에 동작시키기 위해서는 학습에 사용된 모든 데이터 및 테스트에 사용된 모든 데이터를 이용하여 딥러닝 파라미터 재생성을 위한 재학습을 수행하여야 한다.

즉 신규 디바이스의 딥러닝 모델에 대해 재학습을 수행하여 최소한의 성능 손실을 갖는 딥러닝 파라미터를 생성한 후 최종 어플리케이션에 업데이트하는 형태로 개발하고 있다.

하지만, 신규 디바이스가 리소스가 충분하지 않은 모바일 디바이스인 경우 추가학습이나 재학습을 위해 모든 학습 데이터들을 메모리에 저장하고 있는 것은 불가능하거나 부적절하다는 문제가 있다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 메모리 자원이 제한적인 모바일 디바이스에서 추가학습이나 재학습을 위한 학습 데이터로 가공하여 저장하고 딥러닝 모델을 학습시키는 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 딥러닝 모델 학습 방법은, 동일 클래스에 해당하는 학습 데이터들을 선별하여 저장하는 단계; 저장된 학습 데이터들을 해당 클래스에 매핑된 양자화 파라미터로 양자화 하는 단계; 저장된 학습 데이터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함한다.

그리고, 양자화 파라미터는, 클래스에 따라 각기 다르게 설정되어 있을 수 있다.

본 발명의 실시예에 따른 딥러닝 모델 학습 방법은, 양자화된 학습 데이터들의 표현형을 변경하는 단계;를 더 포함할 수 있다.

변경 단계는, 양자화된 학습 데이터들을 특정 비트가 많은 데이터로 변경할 수 있다.

본 발명의 실시예에 따른 딥러닝 모델 학습 방법은, 표현형이 변경된 학습 데이터들을 압축하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에 따른 딥러닝 모델 학습 방법은, 압축된 학습 데이터와 압축 전의 학습 데이터의 크기를 비교하는 단계; 및 압축된 학습 데이터가 압축 전의 학습 데이터 보다 크기가 크면, 압축된 학습 데이터를 압축해제하는 단계;를 포함할 수 있다.

학습 단계는, 압축된 학습 데이터들을 압축해제하는 단계; 압축해제된 학습 데이터들의 표현형을 원래의 표현형으로 복원하는 단계; 및 복원된 양자화된 학습 데이터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함할 수 있다.

한편, 본 발명의 다른 실시예에 따른, 모바일 디바이스는, 동일 클래스에 해당하는 학습 데이터들을 선별하여 저장하는 프로세서; 저장된 학습 데이터들을 해당 클래스에 매핑된 양자화 파라미터로 양자화 하는 양자화부; 저장된 학습 데이터들을 이용하여, 딥러닝 모델을 학습시키는 딥러닝 가속장치;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 추가학습이나 재학습을 위한 학습 데이터에 대해 클래스 별로 구별되는 양자화를 적용하고, 표현형 변경과 압축을 통해 학습 데이터의 용량을 최소화할 수 있어, 메모리 자원이 제한적인 모바일 디바이스에서 딥러닝 모델의 추가학습과 재학습이 용이해지며, 학습 데이터의 보안도 강화할 수 있게 된다.

도 1은 학습 과정에서 추론 과정(Forward path)을 나타낸 도면,

도 2는 학습 과정에서 역전파 과정(Backward path)을 나타낸 도면,

도 3은 웨이트 업데이트 개념을 나타낸 수식들,

도 4는 본 발명의 일 실시예에 따른 모바일 디바이스의 블럭도,

도 5는 본 발명의 다른 실시예에 따른 학습 데이터를 가공하여 저장하는 방법의 설명에 제공되는 흐름도,

도 6은 학습 데이터들을 클래스에 따라 분류한 도면이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

현재 대부분의 딥러닝 네트워크는 다수의 고성능 GPU와 많은 양의 메모리를 보유하고 있는 서버 단에서 학습을 진행하기 때문에 컴퓨팅 리소스에 의해 비롯되는 문제가 없다.

하지만 모바일 디바이스와 같이 리소스와 파워가 제한적인 경우, 필요한 연산량과 중간 데이터 연산을 위한 메모리 사용량을 줄이는 방법으로 하드웨어 개발이 진행되어야 한다.

특히 모바일 다바이스를 위한 학습 전용 ASIC 및 FPGA 플랫폼에서 대량의 원본 학습 데이터를 이용한 추가학습이나 재학습은 불가능하기 때문에 이를 보완하기 위한 기술을 필요로 한다.

또한 클라우드 기반 인공지능 학습은 개인 정보 유출 문제와 통신 데이터량의 막대한 사용이 필요하므로, 이에 대한 대책도 필요하다.

한편 학습은 크게 추론(inference) 과정과 역전파(back-propagation) 과정으로 이루어진다. 추론 과정인 Forward path를 도 1에 나타내었고, 역전파 과정인 Backward path를 도 2에 나타내었다.

딥러닝 네트워크의 학습을 위해서는 현재 웨이트를 기반으로 추론 과정을 거친 후에 에러 값을 연산하고 그래디언트를 계산하여 이전 웨이트를 업데이트 하는 과정을 거치며, 이를 수식으로 나타내면 도 3과 같다.

본 발명의 실시예가 적용될 환경은 외부에서 모든 학습 데이터 셋을 제공받을 수 없는 모바일 환경으로, 제한된 메모리 자원으로 인해 추가학습이나 재학습을 위해 기존 학습 데이터를 가공하여 저장할 것이 요구된다.

도 4는 본 발명의 일 실시예에 따른 모바일 디바이스의 블럭도이다. 본 발명의 실시예에 따른 모바일 디바이스는, 도시된 바와 같이, 메모리(110), 프로세서(120), 딥러닝 가속장치(130), 양자화부(140), 데이터 변환부(150) 및 코덱(160)을 포함하여 구성된다.

프로세서(120)는 서버로부터 학습 데이터를 전달 받아 메모리(110)에 저장한다. 양자화부(140)는 메모리(110)에 저장된 학습 데이터에 대해 양자화를 수행하고, 데이터 변환부(150)는 양자화된 학습 데이터에 대해 표현형을 변환하며, 코덱(160)은 변환된 학습 데이터를 압축한다.

딥러닝 가속장치(130)는 메모리(110)에 저장된 학습 데이터로 서버에서 학습된 딥러닝 모델을 추가학습이나 재학습시킨다. 이를 위해, 코덱(160)은 메모리(110)에 저장된 압축된 학습 데이터를 압축 해제하고, 데이터 변환부(150)는 압축 해제된 학습 데이터의 표현형을 원래의 표현형으로 복원한다. 이에 의해, 딥러닝 가속장치(130)는 양자화된 학습 데이터로 딥러닝 모델을 추가학습 또는 재학습할 수 있게 된다.

이하에서는 도 4에 도시된 모바일 디바이스가 학습 데이터를 가공하여 저장하는 방법에 대해 도 5를 참조하여 상세히 설명한다. 원본 학습 데이터의 용량을 줄여 메모리(110)에 저장함으로써, 딥러닝 가속장치(150)가 딥러닝 모델을 추가학습이나 재학습시킬 수 있도록 하기 위한 방법이다.

도시된 바와 같이, 먼저 프로세서(120)는 동일 클래스에 해당하는 원본 학습 데이터들을 선별하여 메모리(110)에 저장한다(S210). 원본 학습 데이터들은 서버로부터 획득하는데, 특정 클래스만이 대상이 된다.

이를 테면, 도 6에 도시된 비행기, 자동차, 새, 고양이, ... , 트럭 클래스에 해당하는 학습 데이터들 중 하나, 이를 테면, 비행기 클래스에 해당하는 학습 데이터들만 메모리(110)에 저장한다.

양자화부(140)는 S210단계에서 메모리(110)에 선별/저장된 학습 데이터들을 클래스에 매핑된 양자화 파라미터로 양자화 한다(S220). 여기서는 비행기 클래스의 학습 데이터에 최적의 양자화 파라미터로 학습 데이터들을 양자화 한다.

클래스에 따라 학습 데이터의 최대값과 최소값 분포는 다르기 때문에, 클래스에 따라 최적의 양자화 파라미터(Scale/exponent/bias)가 다르게 설정되어 있다. 즉, 비행기 클래스의 학습 데이터에 최적의 양자화 파라미터와 자동차 클래스의 학습 데이터에 최적의 양자화 파라미터는 서로 다르다.

한편 S220단계에서 양자화부(140)는 양자화된 학습 데이터들에 적용한 양자화 파라미터들도 메모리(110)에 함께 저장한다.

다음 데이터 변환부(150)는 메모리(110)에 저장된 양자화된 학습 데이터의 표현형을 특정 비트가 많은 표현형의 데이터로 변경한다(S230). S240단계에서 수행할 데이터 압축율을 높이기 위한 절치이다. S230단계를 위해, Thermometer 방식, One-hot encoding 등이 적용될 수 있다.

이후 코덱(160)은 S230단계에서 표현형이 변경된 학습 데이터를 압축하고(S240), 압축 전의 학습 데이터와 크기를 비교한다(S250).

S250단계에서의 비교 결과, 압축된 학습 데이터가 압축 전의 학습 데이터 보다 크기가 크면(S250-N), 코덱(160)은 메모리(110)에 저장되어 있는 압축된 학습 데이터를 압축 해제한다(S260).

반면 압축된 학습 데이터가 압축 전의 학습 데이터 보다 크기가 작으면(S250-Y), 메모리(110)에 저장되어 있는 압축된 학습 데이터를 그대로 유지시킨다.

이후, 다음 클래스에 대해 S210단계 내지 S260단계를 반복하는데, 모든 클래스들에 대해 완료될 때까지 반복된다(S270). 도 6에서 비행기 클래스 → 자동차 클래스 → 새 클래스 → 고양이 클래스 → ... → 트럭 클래스 각각에 대해, S210단계 내지 S260단계가 수행되는 것이다.

메모리(110)에 저장된 학습 데이터는 원본 학습 데이터로부터 가공된 것으로 정보 보안성이 높다.

의미 있는 데이터는 학습 진행 시 인식 확률이 낮은 객체와 인식이 잘되는 객체를 제외한 학습 데이터를 이용하여 학습을 진행하면 기존 학습 방법에서 정확도(Accuracy)가 저하되지 않는 것을 의미한다. 이를 다양한 데이터 셋(CIFAR-10, ImageNet 등)을 이용하여 측정해 본 결과 확률이 낮은 부분과 높은 부분을 제외하고 성능을 측정했을 성능 열화가 거의 없음을 확인하였다.

또한, 사용자가 필요 없는 클래스의 학습 데이터 셋의 경우 아예 학습 과정에서 배제하여 메모리 사용량을 더 줄일 수 있도 있으며, 해당 학습 데이터가 저장되어 있는 저장공간에 새로운 학습 데이터들로 변경하는 것도 가능하다.

도 6에 제시된 데이터들을 테스트 데이터로 이용하여 정확도를 측정해본 결과 확률적으로 가우시안 분포와 유사한 형태로 결과가 나옴을 확인하여, 메모리(110)의 크기에 따라 확률(α와 β) 값을 변경하여 데이터 셋의 저장 크기를 조절할 수 있음을 알 수 있다.

또한 기존 부족한 데이터 셋을 데이터 가공/전처리를 통하여 다수의 클래스 데이터 추가가 가능하여, 데이터로 인한 성능 향상 확률이 높을 뿐만 아니라 데이터의 활용 범위를 극적으로 늘릴 수 있어 학습 성능을 높일 수도 있다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

Claims

동일 클래스에 해당하는 학습 데이터들을 선별하여 저장하는 단계;

저장된 학습 데이터들을 해당 클래스에 매핑된 양자화 파라미터로 양자화 하는 단계;

저장된 학습 데이터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
청구항 1에 있어서,

양자화 파라미터는,

클래스에 따라 각기 다르게 설정되어 있는 것을 특징으로 하는 딥러닝 모델 학습 방법.
청구항 1에 있어서,

양자화된 학습 데이터들의 표현형을 변경하는 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
청구항 3에 있어서,

변경 단계는,

양자화된 학습 데이터들을 특정 비트가 많은 데이터로 변경하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
청구항 4에 있어서,

표현형이 변경된 학습 데이터들을 압축하는 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
청구항 5에 있어서,

압축된 학습 데이터와 압축 전의 학습 데이터의 크기를 비교하는 단계; 및

압축된 학습 데이터가 압축 전의 학습 데이터 보다 크기가 크면, 압축된 학습 데이터를 압축해제하는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
청구항 5에 있어서,

학습 단계는,

압축된 학습 데이터들을 압축해제하는 단계;

압축해제된 학습 데이터들의 표현형을 원래의 표현형으로 복원하는 단계; 및

복원된 양자화된 학습 데이터들을 이용하여, 딥러닝 모델을 학습시키는 단계;를 포함하는 것을 특징으로 하는 딥러닝 모델 학습 방법.
동일 클래스에 해당하는 학습 데이터들을 선별하여 저장하는 프로세서;

저장된 학습 데이터들을 해당 클래스에 매핑된 양자화 파라미터로 양자화 하는 양자화부;

저장된 학습 데이터들을 이용하여, 딥러닝 모델을 학습시키는 딥러닝 가속장치;를 포함하는 것을 특징으로 하는 모바일 디바이스.