WO2022146080A1

WO2022146080A1 - 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법

Info

Publication number: WO2022146080A1
Application number: PCT/KR2021/020293
Authority: WO
Inventors: 류욱상; 전지예; 이혁재; 임경종
Original assignee: 서울대학교산학협력단
Priority date: 2020-12-31
Filing date: 2021-12-30
Publication date: 2022-07-07
Also published as: KR20220097329A; US20240071070A1

Abstract

본 발명은 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계와, 상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계와, 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계와, 상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계 및 상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 한다.

Description

딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘 및 방법

본 발명은 딥러닝 네트워크의 양자화 정밀도를 동적으로 변경할 수 있는 알고리즘에 관한 것이다.

딥 러닝은 인공 지능(artificial intelligence, AI) 및 컴퓨터 비전(computer vision) 분야에서 널리 사용되는 기술이다. 컨볼루션 뉴럴 네트워크들(convolution neural networks, CNNs), 심층-신뢰 네트워크들(deep-belief networks, DBNs), 및 오토인코더들(autoencoders)과 같은 다양한 딥-러닝 아키텍쳐들은 시각적인 객체 인식, 자동 대화 인식, 자연 언어 처리, 및 음악/음향 신호 처리와 같은 작업들에 대한 최신의 결과들을 생성하는 것으로 보여왔다. 딥 러닝의 주된 노력은 다양한 네트워크 아키텍쳐들, 러닝 알고리즘들, 및 어플리케이션들에 대한 소프트웨어 구현에 포커싱 되어왔다.

최근에는, 심층 신경망(Deep Neural Network, DNN)을 저전력으로 효율적으로 사용하기 위한 하드웨어 가속기에 대한 연구가 활발히 진행되고 있다. 뉴럴 네트워크를 처리하는 장치는 복잡한 입력 데이터에 대한 많은 양의 연산을 필요로 한다.

특히 저전력 및 저성능으로 구현되는 디바이스에서, 뉴럴 네트워크를 이용하여 대량의 입력 데이터를 실시간으로 분석하여 원하는 정보를 추출하기 위해서는 뉴럴 네트워크에 관한 연산을 효율적으로 처리할 수 있는 기술이 요구된다.

구체적으로, 딥러닝 연산량을 줄이기 위해 양자화 방법이 도입되었다. 그러나, 기존의 딥러닝 네트워크 양자화는 학습이 완료되면 레이어마다 비트의 양자화 정밀도가 고정되어, 딥러닝 네트워크의 런타임(Run-time) 시 양자화 정밀도가 변경되지 않으므로, 효율적인 연산을 수행할 수 없는 문제점이 있었다.

즉, 일반적으로 사용되는 딥러닝 네트워크 양자화 기술은, 해당 딥러닝 네트워크가 학습을 마치고 양자화 정밀도가 결정되게 되면, 추후 런타임에는 변경이 불가능한 단점이 있었다.

입력 데이터마다 요구되는 최적의 정밀도가 다를 수 있지만 위와 같은 기존의 양자화 방법으로는 추론 시에 정밀도 가변이 불가능하기 때문에 이에 따른 신경망 가속기의 소비전력 효율이 떨어지는 문제점이 존재한다.

본 발명의 기술적 과제는 위와 같은 기존 양자화의 한계를 극복하고 저전력에서 구현 가능한 딥러닝 네트워크의 양자화 정밀도 가변 알고리즘을 제공하는 것이다.

본 발명의 기술적 과제는 입력 데이터에 따라 양자화 정밀도를 동적으로 변경할 수 있는 딥러닝 네트워크 및 그의 양자화 정밀도 가변 알고리즘을 제공하는 것이다.

본 발명의 기술적 과제는 신경망 가속기의 소비 전력 효율을 향상시키기 위해, 입력 데이터에 최적화된 양자화 정밀도를 적용하여 추론을 할 수 있는 딥러닝 네트워크 및 그의 양자화 정밀도 가변 알고리즘을 제공하는 것이다.

상기한 과제를 해결하기 위해 본 발명은 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계와, 상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계와, 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계와, 상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계 및 상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 입력 데이터의 특성에 따라 딥러닝 네트워크의 양자화 정밀도가 동적으로 변경하므로, 딥러닝 네트워크의 연상 효율성이 극대화되는 장점이 있다.

도 1은 본 발명에 따른 영상인식장치가 수행하는 동적 양자화 방법을 나타내는 흐름도이다.

도 2는 본 발명에 따른 영상인식장치의 제어부에 포함된 구성요소를 나타내는 개념도이다.

도 3은 불확실도 판단 주기와 관련된 개념도이다.

임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계;

상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계;

미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계;

상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계; 및

상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 하는 영상 인식 방법.

본 발명의 목적 및 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이나 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 이하에서 개시되는 실시 예에 한정되지 않는다. 또한 도면에서 본 발명을 명확하게 개시하기 위해서 본 발명과 관계없는 부분은 생략하였으며, 도면에서 동일하거나 유사한 부호들은 동일하거나 유사한 구성요소들을 나타낸다.

도 1에서는 본 발명에 따른 딥러닝 네트워크의 동적 양자화 정밀도 가변 알고리즘을 적용한 영상 인식 방법이 도시된다.

도 1에 도시된 것과 같이, 본 발명에 따른 영상 인식 장치의 제어부는 임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성할 수 있다(S101).

예를 들어, 메인 네트워크를 8비트로 양자화 하여 제1 양자화 모델을 생성할 수 있다. 또한, 메인 네트워크를 4비트로 양자화 하여 제2 양자화 모델을 생성하고, 2비트로 양자화 하여 제3 양자화 모델을 생성할 수 있다.

한편, 상기 예는 설명의 편의를 위한 것이고, 메인 네트워크의 복잡도에 따라, 양자화 모델의 개수는 가변적으로 설정될 수 있으며, 양자화 거리 또한 다양하게 적용될 수 있다.

또한, 양자화 모델의 개수는 영상인식장치의 프로세서 성능이나, 메모리 성능에 따라 가변적으로 조절될 수도 있다.

서버 환경에 비해 전력 소모에 대한 제약이 많은 모바일 환경 또는 엣지 환경에서는 전력 효율을 높이기 위해서 실수 연산을 정수 연산으로 대체하기 위한 데이터 양자화 (quantization) 기술이 개발되고 있다.

신경망 처리에 작은 비트-너비(bit-width)의 정수 연산을 사용하면 단위 연산당 소모 전력과 데이터 전송 전력을 줄일 수 있어 전력 소모 효과가 상당하다.

하지만, 연산 정밀도를 낮춘만큼 인식 정화도가 저하되는 트레이드-오프가 발생하는 문제점이 있다.

본 발명에서는 이를 해결하기 위해, 양자화 모델을 복수 개 생성하고, 입력 데이터의 불확실도에 근거하여 미리 생성된 복수의 양자화 모델 중 어느 하나를 선택함으로써, 성능 저하를 최소화한 가변적 양자화 방법을 제안한다.

양자화 모델링이 완료된 후, 사물인식의 객체인 이미지 데이터를 입력 받는다(S102).

아울러, 본 발명에 따른 영상 인식 장치의 제어부는 입력된 이미지 데이터의 불확실도를 판단할 수 있다(S103).

상술한 바와 같이 복수의 양자화 모델 중 어느 하나를 가변적으로 적용하기 위해서, 본 발명에 따른 영상 인식 장치의 제어부는 입력된 이미지 데이터의 불확실도를 판단할 수 있다.

구체적으로, 상기 제어부는 메인 네트워크의 사물인식과 관련된 클래스에 근거하여, 상기 이미지 데이터의 불확실도를 판단할 수 있다.

다만, 불확실도 판단 단계(S103)를 수행하기 위해 소요되는 연산량은 딥러닝 네트워크가 사물인식을 수행하기 위해 소요되는 연산량보다 작다.

즉, 불확실도 판단 단계(S103)를 수행하는 별도의 네트워크로서, 제어부는 불확실도 판단 네트워크를 상술한 메인 네트워크와 별도로 탑재할 수 있다.

이때, 불확실도 판단 네트워크는, 메인 네트워크(딥러닝 네트워크)보다 작은 수의 레이어로 구성되는 것이 바람직하다.

한편, 다른 실시예에서, 불확실도를 이미지 데이터의 매 프레임마다 판단하지 않고, 이전 프레임의 메인 네트워크에서 추출된 불확실도를 활용하는 경우, 불확실도 판단 네트워크를 사용하지 않을 수도 있다. 불확실도를 일정 주기의 프레임마다 판단하는 실시예에 대해서는 이하 도 3과 관련된 설명에서 보다 자세히 서술한다.

또한, 불확실도 판단 단계(S103) 역시, 상기 불확실도 판단 네트워크를 소정의 비트 수로 양자화한 모델에 의해 수행되는 것이 바람직하다.

일 실시예에서, 불확실도를 판단하는 단계(103)는, 입력된 이미지 데이터가 딥러닝 네트워크의 사물인식과 관련된 복수의 클래스에 대응될 확률을 산출하는 과정과, 복수의 클래스 별로 산출된 확률에 근거하여 불확실도 점수를 산출하는 과정을 포함할 수 있다.

일 실시예에서, 불확실도는 입력된 이미지 데이터의 매 프레임 마다 판단될 수 있다.

다른 실시예에서, 도 3을 참조하면, 불확실도는 입력된 이미지 데이터에 대해, 미리 설정된 주기마다 판단될 수 있다.

즉, 미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계는, 소정 개수의 프레임 마다 불확실도를 판단하는 과정을 포함할 수 있다.

이와 같이, 매 프레임마다 불확실도를 판단하지 않고, 일정 주기마다 판단하는 경우, 불확실도를 판단하기 위한 연산량을 감소시킬 수 있는 효과가 도출된다.

동영상과 같은 연속성을 가진 이미지 데이터의 경우, 불확실도를 판단하지 않는 프레임에 대해서는, 이전 프레임에서 판단 또는 산출된 불확실도를 이용하더라도 정확도 측면에서 거의 손해가 없으므로, 매 프레임이 아닌 일정 주기의 프레임 마다 불확실도를 산출함으로써, 효율적인 연산이 가능하다.

일 예에서, 불확실도를 판단하는 주기의 디폴트 값은 2 프레임 또는 3 프레임일 수 있다. 아울러, 불확실도를 판단하는 주기는 소정의 조건에 따라 변경될 수도 있다.

예를 들어, 불확실도를 판단하는 주기는 일 프레임에서 판단된 불확실도 값에 근거하여 변경될 수 있다. 여기에서 일 프레임은 마지막으로 불확실도가 판단된 프레임일 수 있다.

이와 같이, 불확실도가 판단되면, 제어부는 복수의 양자화 모델 중 어느 하나를 선택(S104)할 수 있으며, 선택된 양자화 모델을 이용하여 입력된 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력(S105)할 수 있다.

구체적으로 제어부는 복수의 양자화 모델 중 어느 하나를 선택하는 단계(S104)를 수행함에 있어서, 판단된 불확실도가 미리 설정된 제1 기준치 이상인 경우, 제1 양자화 모델을 선택할 수 있다.

또한, 제어부는 판단된 불확실도가 미리 설정된 제2 기준치 이하인 경우, 제3 양자화 모델을 선택할 수 있다.

즉, 제어부는 입력 이미지 데이터의 불확실도가 상한 기준치인 제1 기준치 이상인 경우, 상대적으로 성능이 높은 제1 양자화 모델을 선택하여 사물인식을 수행할 수 있다. 반대로, 제어부는 입력 이미지 데이터의 불확실도가 하한 기준치인 제2 기준치 이하인 경우, 보다 성능이 낮은 제3 양자화 모델을 선택하여 사물인식을 수행할 수 있다.

일 실시예에서, 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는, 불확실도가 판단된 프레임의 경우, 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정과, 불확실도가 판단되지 않은 프레임의 경우, 이전 프레임에서 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정을 포함할 수 있다.

이와 같이, 본 발명에서는 사물인식을 수행하는 양자화 모델을 가변적으로 선택함으로써, 전력 소모와 성능 유지 목표를 동시에 달성할 수 있다.

도 2에서는 상술한 양자화 방법을 적용한 사물인식을 수행하는 영상인식장치의 구성요소를 나타내는 개념도가 도시된다.

도 2를 참조하면, 영상인식장치의 제어부(200)의 구성요소로서, 정밀도 결정기술을 수행하는 불확실도 판단부(202), 복수의 양자화 모델 중 어느 하나로 동적 가변을 수행하는 신경망 가속기(204), 신경망 가속기(204)로부터 출력받은 결과를 근거로, 사물인식 후처리를 수행하는 후처리부(205)가 도시된다.

상기 제어부(200)의 구성요소들은 물리적으로 동일한 연산장치에 구현될 수도 있으며, 필요에 따라 서로 다른 연산장치에 구현될 수도 있다. 일 예로, 후처리부(20

상기한 본 발명의 바람직한 실시예는 예시의 목적으로 개시된 것이고, 본 발명에 대해 통상의 지식을 가진 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경 및 부가가 가능할 것이며 이러한 수정, 변경 및 부가는 상기의 특허청구 범위에 속하는 것으로 보아야 할 것이다. 또한 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니다.

상술한 예시적인 시스템에서, 방법들은 일련의 단계 또는 블록으로써 순서도를 기초로 설명되고 있지만, 본 발명은 단계들의 순서에 한정되는 것은 아니며, 어떤 단계는 상술한 바와 다른 단계와 다른 순서로 또는 동시에 발생할 수 있다. 또한, 당업자라면 순서도에 나타낸 단계들이 배타적이지 않고, 다른 단계가 포함되거나 순서도의 하나 또는 그 이상의 단계가 본 발명의 범위에 영향을 미치지 않고 삭제될 수 있음을 이해할 수 있을 것이다.

Claims

임의의 이미지에 대해 사물인식을 수행하는 딥러닝 네트워크에 대해, 복수의 서로 다른 비트수에 대응되는 양자화를 수행하여, 상기 비트수에 각각 대응되는 복수의 양자화 모델을 생성하는 단계;

상기 딥러닝 네트워크의 입력으로서, 이미지 데이터를 입력받는 단계;

미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계;

상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계; 및

상기 선택된 양자화 모델을 이용하여 상기 이미지 데이터의 사물인식을 수행하고, 사물인식 결과로서 상기 이미지 데이터에 대응되는 레이블을 출력하는 단계를 포함하는 것을 특징으로 하는 영상 인식 방법.
제1항에 있어서,

상기 미리 설정된 주기마다 상기 입력된 이미지 데이터의 불확실도를 판단하는 단계는,

소정 개수의 프레임 마다 불확실도를 판단하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
제2항에 있어서,

상기 판단된 불확실도에 근거하여, 상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,

불확실도가 판단된 프레임의 경우, 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정과,

불확실도가 판단되지 않은 프레임의 경우, 이전 프레임에서 판단된 불확실도를 이용하여 상기 복수의 양자화 모델 중 어느 하나를 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
제2항에 있어서,

상기 판단된 불확실도에 근거하여, 불확실도를 판단하는 주기를 변경하는 단계를 더 포함하는 것을 특징으로 하는 영상 인식 방법.
제1항에 있어서,

상기 복수의 양자화 모델을 생성하는 단계는,

8 비트에 대응되는 제1 양자화 모델을 생성하는 과정과,

4 비트에 대응되는 제2 양자화 모델을 생성하는 과정과,

2 비트에 대응되는 제3 양자화 모델을 생성하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
제5항에 있어서,

상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,

상기 판단된 불확실도가 미리 설정된 제1 기준치 이상인 경우, 제1 양자화 모델을 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
제6항에 있어서,

상기 복수의 양자화 모델 중 어느 하나를 선택하는 단계는,

상기 판단된 불확실도가 미리 설정된 제2 기준치 이하인 경우, 제3 양자화 모델을 선택하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
제1항에 있어서,

상기 불확실도를 판단하는 단계는,

상기 입력된 이미지 데이터가 상기 딥러닝 네트워크의 사물인식과 관련된 복수의 클래스에 대응될 확률을 산출하는 과정과,

상기 복수의 클래스 별로 산출된 확률에 근거하여 불확실도 점수를 산출하는 과정을 포함하는 것을 특징으로 하는 영상 인식 방법.
제1항에 있어서,

상기 불확실도를 판단하는 단계는,

상기 딥러닝 네트워크와 별도의 불확실도 판단 네트워크에 의해 수행되며,

상기 불확실도 판단 네트워크는, 상기 딥러닝 네트워크보다 작은 수의 레이어로 구성되는 것을 특징으로 하는 영상 인식 방법.