KR20210144510A

KR20210144510A - 뉴럴 네트워크를 이용하는 데이터 처리 방법 및 데이터 처리 장치

Info

Publication number: KR20210144510A
Application number: KR1020200080379A
Authority: KR
Inventors: 손창용; 강민수; 한보형
Original assignee: 삼성전자주식회사; 서울대학교산학협력단
Priority date: 2020-05-22
Filing date: 2020-06-30
Publication date: 2021-11-30
Also published as: US20210365790A1

Abstract

뉴럴 네트워크를 이용하는 데이터 처리 방법 및 데이터 처리 장치가 개시된다. 데이터 처리 방법은 입력 데이터를 수신하는 단계, 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로, 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정하는 단계, 및 뉴럴 네트워크의 해당 결정된 일부의 채널들을 이용하여 입력 데이터에 대해 계산을 수행하는 단계를 포함할 수 있다.

Description

뉴럴 네트워크를 이용하는 데이터 처리 방법 및 데이터 처리 장치 {METHOD AND APPARATUS FOR PROCESSING DATA USING NEURAL NETWORK}

아래의 실시예들은 뉴럴 네트워크를 이용하는 데이터 처리 방법 및 데이터 처리 장치에 관한 것이다.

최근, 분류기 등의 인식 모델을 통해 사용자의 얼굴이나 지문을 통해 사용자 인증을 수행하는 기술에 대한 연구가 활발히 이루어지고 있다. 인식 모델은 인간의 생물학적 신경 세포의 특성을 수학적 표현에 의해 모델링한 뉴럴 네트워크(neural network)에 기초한다. 뉴럴 네트워크는 입력된 정보의 입력 패턴에 대응하는 인식 결과를 출력하는데 이용될 수 있다. 뉴럴 네트워크는 학습을 통해 입력 패턴과 출력 패턴 간의 사상(mapping)을 생성할 수 있고, 학습 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력 값을 생성할 수 있는 능력을 가지고 있다.

일 실시예에 따른 뉴럴 네트워크를 이용하는 데이터 처리 방법은, 입력 데이터를 수신하는 단계; 상기 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로, 상기 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정하는 단계; 및 상기 뉴럴 네트워크의 상기 결정된 일부의 채널들을 이용하여 상기 입력 데이터에 대해 계산을 수행하는 단계를 포함할 수 있다.

상기 결정되는 일부의 채널들의 개수는, 상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 따라 달라질 수 있다.

상기 결정하는 단계는, 상기 뉴럴 네트워크의 각 채널의 중요도 값의 크기 순서를 기초로 상기 경량화 정도를 만족시키는 일부의 채널들을 결정하는 단계를 포함할 수 있다.

상기 결정하는 단계는, 상기 뉴럴 네트워크에 포함된 현재 채널의 중요도 값이 임계 값보다 큰 경우, 상기 현재 채널을 상기 계산에 이용할 채널로 결정하는 단계를 포함할 수 있다.

상기 결정하는 단계는, 상기 현재 채널의 상기 중요도 값이 상기 임계 값보다 크지 않은 경우, 상기 현재 채널을 비활성화하는 것으로 결정하는 단계를 포함할 수 있다.

상기 임계 값은, 상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 결정될 수 있다.

상기 현재 채널의 중요도 값은, 상기 현재 채널이 비활성화되었을 때 상기 입력 데이터의 계산에 영향을 미치는 정도에 관한 확률 값일 수 있다.

상기 각 채널에 대응하는 중요도 값은, 상기 뉴럴 네트워크의 학습 과정에서 결정된 각 채널의 누적 분포 함수에 기초할 수 있다.

상기 뉴럴 네트워크의 학습 과정에서, 로지스틱 함수의 형태로 연속적인 값을 가지는 마스크를 이용하여 상기 누적 분포 함수의 파라미터들이 학습될 수 있다.

상기 학습 과정에서, 검벨-소프트맥스 함수를 이용하여 미분이 가능한 소프트 마스크를 정의하고, 상기 소프트 마스크를 기초로 역전파의 학습이 수행될 수 있다.

상기 결정하는 단계는, 상기 뉴럴 네트워크의 각각의 히든 레이어마다 계산에 이용할 채널들을 결정하는 단계를 포함할 수 있다.

일 실시예에 따른 뉴럴 네트워크를 이용하는 데이터 처리 장치는, 프로세서; 및 상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리를 포함하고, 상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는 입력 데이터를 수신하고, 상기 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로, 상기 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정하고, 상기 뉴럴 네트워크의 상기 결정된 일부의 채널들을 이용하여 상기 입력 데이터에 대해 계산을 수행할 수 있다.

상기 프로세서는, 상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 상기 계산에 이용할 일부의 채널들을 결정할 수 있다.

도 1은 일 실시예에 따른 뉴럴 네트워크를 이용하는 데이터 처리 시스템의 개요를 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 뉴럴 네트워크를 이용하는 데이터 처리 방법의 동작을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 뉴럴 네트워크의 채널 프루닝의 일례를 설명하기 위한 도면이다.
도 4는 일 실시예에 따른 배치 정규화 분포의 케이스들을 도시하는 도면이다.
도 5는 일 실시예에 따른 학습 과정의 동작을 설명하기 위한 흐름도이다.
도 6은 일 실시예에 따른 학습 과정에서 마스크를 특징 맵에 적용하는 일례를 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 뉴럴 네트워크를 이용하여 데이터 처리를 수행하는 데이터 처리 장치의 구성을 도시하는 도면이다.
도 8은 일 실시예에 따른 전자 장치의 구성을 도시하는 도면이다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 또한, 어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 달리 명시되지 않는 한 일반적으로 "하나 이상의"를 의미하는 것으로 해석되어야 한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

도 1은 일 실시예에 따른 뉴럴 네트워크를 이용하는 데이터 처리 시스템의 개요를 설명하기 위한 도면이다.

도 1을 참조하면, 데이터 처리 시스템(100)은 뉴럴 네트워크(neural network, 110)를 이용하여 입력 데이터를 처리하고, 입력 데이터(130)의 처리 결과로서 출력 데이터(140)를 출력하는 시스템이다. 일 실시예에서, 데이터 처리 시스템(100)은 뉴럴 네트워크(110)를 이용하여 입력 데이터(130)로부터 객체 인식을 위한 특징 값을 출력 데이터(140)로서 추출하고, 추출된 특징 값에 기반하여 객체 인식의 결과를 결정할 수 있다. 뉴럴 네트워크(110)와 관련된 처리 동작의 적어도 일부는 소프트웨어로 구현되거나, 혹은 뉴럴 프로세서(neural processor)를 포함하는 하드웨어로 구현되거나, 또는 소프트웨어 및 하드웨어의 조합으로 구현될 수 있다. 데이터 처리 시스템(100)은 예를 들어 모바일 폰, 데스크 탑, 노트북, 태블릿 PC, 웨어러블 디바이스, 스마트 TV, 지능형 자동차, 보안 시스템, 스마트 홈 시스템, 스마트 가전기기 등에 탑재될 수 있다.

뉴럴 네트워크(110)는 딥 러닝(deep learning)에 기반하여 비선형적 관계에 있는 입력과 출력을 서로 매핑함으로써 입력에 대응하는 최적의 출력을 제공할 수 있다. 딥 러닝은 빅 데이터 세트로부터 주어진 문제를 해결하기 위한 기계 학습 기법으로, 뉴럴 네트워크(110)의 구조를 나타내는 모델 내지 파라미터들(예, 가중치(weight))를 찾아 뉴럴 네트워크(110)를 최적화하는 과정이다.

뉴럴 네트워크(110)는 딥 뉴럴 네트워크(deep neural network)로서, 예를 들어 컨볼루셔널 뉴럴 네트워크(Convolutional Neural Network; CNN)일 수 있으나, 데이터 처리 시스템(100)이 이용하는 뉴럴 네트워크(110)가 이에 한정되는 것은 아니다. 컨볼루셔널 뉴럴 네트워크는 영상과 같은 2차원의 데이터를 처리하는데 적합할 수 있다. 컨볼루셔널 뉴럴 네트워크에서는 2차원의 데이터를 처리하기 위해 입력 맵 및 웨이트 커널(weight kernel) 간에 컨볼루션 연산이 수행될 수 있는데, 모바일 단말과 같은 자원이 제한된 환경에서 이러한 컨볼루션 연산의 수행은 많은 자원과 짧지 않은 처리 시간을 요구한다. 일반적으로, 모바일 단말에서 수행되는 얼굴 인식의 경우 제한된 자원 환경에서 동작이 가능해야 하며, 다양한 조건에 강인한 인식 성능을 제공할 것을 요구한다. 이러한 요구를 만족시키기 위해서는 인식 성능의 큰 저하 없이 고속으로 처리하는 문제가 해결되어야 한다.

데이터 처리 시스템(100)는 뉴럴 네트워크(110)를 이용하여 입력 데이터(130)를 처리할 때, 콘트롤러(120)의 제어 하에 뉴럴 네트워크(110)를 경량화(lightening)함으로써 위 언급된 문제를 효과적으로 해결할 수 있다. 이러한 경량화는 뉴럴 네트워크(110) 내 레이어들(112, 114, 116)의 채널들(channels)에서 하나 이상의 채널을 프루닝(pruning)하는 것을 포함한다. 뉴럴 네트워크(110)의 채널을 프루닝하는 것은, 예를 들어 뉴럴 네트워크(110)의 채널들 중에서 일부 채널을 비활성화(deactivation)시키거나 또는 일부 채널의 입력과 출력을 제거(removing)하는 것을 의미한다. 프루닝에 의해 뉴럴 네트워크(110)의 동작 과정에서 이용되는 채널의 개수는 줄어든다.

콘트롤러(120)는 뉴럴 네트워크(110)의 채널을 프루닝할 때, 채널의 중요도 값(importance value)에 기초하여 동적으로(dynamically) 채널을 프루닝할 수 있다. 일 실시예에서, 콘트롤러(120)는 시스템의 요구 사항에 따라 채널을 프루닝할 수 있다. 예를 들어, 요구 사항은 허용 가능한 메모리 사용량이나 요구되는 처리 속도/처리 시간 등에 관한 사항을 포함할 수 있다. 시스템 요구 사항에 따라 뉴럴 네트워크(110)에 요구되는 경량화 정도가 결정될 수 있고, 결정된 경량화 정도에 따라 프루닝될 채널이나 채널의 개수가 결정될 수 있다. 예를 들어, 시스템의 요구 사항에 따라 메모리 사용량 등 자원의 제한이 커지면, 뉴럴 네트워크(110)에 요구되는 경량화 정도가 커질 수 있고, 이 경우 뉴럴 네트워크(110)의 계산 과정에서 비활성화되는 채널의 개수가 증가하고, 중요도 값이 상대적으로 낮은 채널이 비활성화될 확률이 높아질 수 있다.

채널의 중요도 값은, 채널이 프루닝되어 비활성화되었을 때 해당 비활성화된 채널이 뉴럴 네트워크(110)가 입력 데이터(130)를 계산하는데 영향을 미치는 정도를 나타내고, 확률 값으로서 정의 또는 모델링될 수 있다. 특정한 채널이 뉴럴 네트워크(110) 내에서의 계산 과정에 있어 중요한 역할을 수행한다면, 해당 채널의 중요도 값은 높게 설정될 것이고, 이와 다르게 해당 계산 과정에 있어 특정한 채널이 상대적으로 덜 중요한 역할을 수행한다면 해당 채널의 중요도 값은 낮게 설정될 것이다. 뉴럴 네트워크(110)의 각 채널의 중요도 값은 뉴럴 네트워크(110)의 학습(training) 과정에서 결정될 수 있고, 예를 들어, 역전파(backward propagation)의 학습 과정을 통해 최적화될 수 있다. 일 실시예에 따른 학습 과정에서, 각 채널의 중요도 값은 배치 정규화(batch normalization) 파라미터 값을 기반으로 각 채널의 누적 분포 함수(cumulative density function; CDF)를 결정하고, 로지스틱 함수(logistic function)를 해당 누적 분포 함수에 적용하여 각 채널이 비활성화되는 경우 계산에 영향을 미치는 정도에 관한 확률을 모델링하는 것에 의해 결정될 수 있다. 본 명세서에서 '중요도 값'은 '채널 민감도'로 지칭될 수도 있다.

본 명세서에서 설명되는 실시예들은 채널의 중요도 값을 이용하여 동적으로 뉴럴 네트워크(110)의 프루닝을 실행함으로써, 추가적인 하드웨어 구조의 변경 및 가속기 사용 없이도, 모바일 장치, 휴대용 장치, 스마트 센서 등의 제한된 자원 환경에서 처리 속도나 자원 활용을 증대 시켜 뉴럴 네트워크(110)의 큰 성능 저하 없이 처리 속도를 고속화할 수 있다. 채널의 프루닝에 의해 전체의 채널이 이용되지 못함에 따라 뉴럴 네트워크(110)의 성능이 저하될 수 있으나, 실시예들에 의하면 제한된 자원 환경에서 높은 정확도를 유지하면서 고속으로 처리하는 것이 가능해 진다.

도 2는 일 실시예에 따른 뉴럴 네트워크를 이용하는 데이터 처리 방법의 동작을 설명하기 위한 흐름도이다.

단계(210)에서, 데이터 처리 장치는 입력 데이터를 수신한다. 예를 들어, 데이터 처리 장치는 입력 데이터로서 이미지 데이터나 음성 데이터 등을 수신할 수 있으나, 데이터 처리 장치가 처리하는 입력 데이터의 종류에는 제한이 없다.

단계(220)에서, 데이터 처리 장치는 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로 채널의 프루닝을 수행하여, 뉴럴 네트워크의 채널들 중에서 계산에 이용할 일부의 채널들을 결정할 수 있다. 해당 결정된 일부의 채널에서는 예를 들어 컨볼루션 연산이나 배치 정규화(batch normalization) 연산 등이 수행될 수 있다. 뉴럴 네트워크의 각 채널의 중요도 값은 각 채널이 비활성화되었을 때 입력 데이터의 계산에 영향을 미치는 정도에 관한 확률 값일 수 있다. 이러한 뉴럴 네트워크의 각 채널에 대응하는 중요도 값은, 뉴럴 네트워크의 학습 과정에서 결정된 각 채널의 누적 분포 함수에 기초할 수 있다.

데이터 처리 장치는 뉴럴 네트워크에 대해 요구되는 경량화 정도에 따라 뉴럴 네트워크에서 어떠한 채널을 프루닝하여 비활성화시킬지 또는 유지할 지를 결정할 수 있다. 뉴럴 네트워크에 대해 요구되는 경량화 정도에 따라 뉴럴 네트워크에서 계산에 이용될 일부의 채널들의 개수가 달라질 수 있다. 예를 들어, 요구되는 경량화 정도가 크면 계산에 이용될 채널들의 개수가 적어지고, 요구되는 경량화 적도가 작으면 계산에 이용될 채널의 개수가 상대적으로 많아질 수 있다. 일 실시예에서, 데이터 처리 장치는 뉴럴 네트워크의 각 채널의 중요도 값의 크기 순서를 기초로 경량화 정도를 만족시키는 일부의 채널들을 결정할 수 있다. 데이터 처리 장치는 중요도 값의 크기를 기준으로 하여 각 채널들을 정렬하고, 중요도 값의 크기가 큰 순서대로 특정한 개수의 채널들을 선택하여, 선택되지 않은 채널들을 비활성화시킬 수 있다. 예를 들어, 요구되는 경량화 정도가 30%라고 가정하면, 데이터 처리 장치는 뉴럴 네트워크의 전체 채널들 중에서 중요도 값이 큰 70%의 채널들만을 계산에 이용할 일부 채널들로 선택할 수 있다.

일 실시예에서, 데이터 처리 장치는 각 채널의 중요도 값과 임계 값을 비교하여 채널의 프루닝을 수행할 수 있다. 예를 들어, 데이터 처리 장치는 뉴럴 네트워크에 포함된 현재 채널의 중요도 값이 임계 값보다 큰 경우에는 현재 채널을 계산에 이용할 채널로 결정하고, 현재 채널의 중요도 값이 임계 값보다 크지 않은 경우에는 현재 채널을 비활성화하는 것으로 결정할 수 있다. 여기서, 임계 값은 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 결정될 수 있다. 예를 들어, 요구되는 경량화 정도가 크면 임계 값은 큰 값으로 설정되고, 요구되는 경량화 정도가 작으면 임계 값은 상대적으로 작은 값으로 설정될 수 있다.

일 실시예에서, 데이터 처리 장치는 뉴럴 네트워크의 각 채널의 누적 분포 함수와 임계 값에 기초하여 바이너리 마스크(binary mask)를 결정하고, 결정된 바이너리 마스크를 기초로 계산에 이용할 일부의 채널들을 결정할 수 있다. 각 채널의 누적 분포 함수는 뉴럴 네트워크의 학습 과정에서 결정될 수 있고, 누적 분포 함수의 면적 값은 중요도 값에 대응할 수 있다. 뉴럴 네트워크의 학습 과정에서, 로지스틱 함수의 형태로 연속적인(continuous) 값을 가지는 마스크(확률 마스크(probability mask) 또는 연속-마스크(continuous-mask))를 이용하여 각 채널에 대응하는 누적 분포 함수의 파라미터들이 학습될 수 있다. 해당 마스크에서 확률 값이 작은 채널은 상대적으로 중요하다는 것을 나타내고, 이에 따라 해당 채널은 높은 중요도 값을 가질 수 있다. 또한, 뉴럴 네트워크의 학습 과정에서, 검벨-소프트맥스(Gumbel-softmax) 함수를 이용하여 미분이 가능한 소프트 마스크(soft mask)가 정의되고, 해당 소프트 마스크를 기초로 역전파의 학습이 수행될 수 있다.

위와 같은 채널의 프루닝 과정은 뉴럴 네트워크의 각각의 히든 레이어마다 수행되어, 각 히든 레이어의 출력 채널들 중에서 중요도 값을 기초로 비활성화될 채널이 결정될 수 있다. 채널 프루닝 결과로서, 뉴럴 네트워크의 n 번째 레이어에서 프루닝(또는 비활성화)될 채널들의 개수에 따라, n 번째 레이어의 다음 레이어인 n+1 번째 레이어에서 비활성화되는 입력 채널들이 제거될 수 있다. 이러한 제거 과정이 연속된 레이어들 사이에서 순차적으로 처리될 수 있다.

단계(230)에서, 데이터 처리 장치는 단계(220)에서 결정된 뉴럴 네트워크의 일부의 채널들을 이용하여 입력 데이터에 대해 계산을 수행할 수 있다. 계산 결과로서, 뉴럴 네트워크로부터 특정한 결과 값이 출력될 수 있다. 뉴럴 네트워크를 이용한 입력 데이터의 처리 과정에서 프루닝되어 비활성화된 채널에서는 계산이 수행되지 않기 때문에 처리 시간이 줄어들어 고속 처리가 가능해 진다. 또한, 위와 같은 채널의 중요도 값에 기초한 프루닝 과정을 통해, 뉴럴 네트워크의 성능 저하를 최소화하면서 뉴럴 네트워크의 사이즈를 줄이고, 메모리 스토리지 등의 자원 요구량을 줄일 수 있다.

도 3은 일 실시예에 따른 뉴럴 네트워크의 채널 프루닝의 일례를 설명하기 위한 도면이다.

도 3의 실시예에서는, 뉴럴 네트워크가 컨볼루셔널 뉴럴 네트워크라고 가정한다. 제1 케이스(310)에는 컨볼루셔널 뉴럴 네트워크의 부분으로서 입력 레이어(322)와 입력 레이어(322)에 연결된 히든 레이어가 도시되어 있다. 히든 레이어는 컨볼루셔널 레이어(324), 배치 정규화 레이어(326) 및 렐루(ReLU) 레이어(328)가 순차적으로 연결된 구성을 가질 수 있다. 다른 히든 레이어들도 이와 동일 또는 유사한 구성을 가질 수 있다. 제2 케이스(340)의 컨볼루셔널 뉴럴 네트워크도 입력 레이어(352)와 입력 레이어(352)에 연결된 히든 레이어를 포함하며, 히든 레이어는 컨볼루셔널 레이어(354), 배치 정규화 레이어(356) 및 렐루 레이어(358)가 순차적으로 연결된 구성을 가진다고 가정한다. 컨볼루셔널 레이어(324, 354)는 입력된 데이터에 컨볼루션 연산을 수행하여 특징 값을 결정하며, 배치 정규화 레이어(326, 356)는 정규화 및 아핀 변환(affine transformation)을 포함하는 배치 정규화 처리를 수행할 수 있다. 배치 정규화 처리는 예를 들어 입력 값을 평균 및 분산으로 정규화한 후 배치 정규화 파라미터들을 이용하여 아핀 변환을 수행하는 것을 포함한다. 렐루 레이어(328, 358)는 활성화 함수인 렐루 함수의 기능을 수행하는 레이어이다.

제1 케이스(310)는 채널의 프루닝 없이 히든 레이어의 전체 채널(330)이 계산에 사용되는 케이스를 나타낸다. 제1 케이스(310)의 경우 계산을 위한 자원의 소모가 많고 처리 시간이 오래 걸릴 수 있다는 문제가 발생할 수 있다. 이와 같은 문제를 해결하기 위한 일 방안으로서, 데이터 처리 장치는 제2 케이스(340)와 같이 채널 프루닝을 수행할 수 있다. 채널 프루닝의 결과, 히든 레이어의 전체 채널들(362, 364, 366, 368) 중에서 일부의 채널들(362, 366)만이 계산에 이용되고, 나머지 채널들(364, 368)은 비활성화될 수 있다. 계산에 이용할 일부의 채널들을 결정하는 채널 프루닝 과정은, 뉴럴 네트워크의 각각의 히든 레이어마다 수행될 수 있다.

데이터 처리 장치는 채널 프루닝 과정에서 뉴럴 네트워크에 대해 요구되는 경량화 정도에 따라 동적으로 계산에 이용할 일부의 채널들을 결정할 수 있다. 일 실시예에서, 데이터 처리 장치는 요구되는 경량화 정도에 따라 특정한 임계 값을 설정하고, 각 채널의 중요도 값과 임계 값을 비교하여 비활성화시킬 채널을 결정할 수 있다. 각 채널의 중요도 값은 뉴럴 네트워크의 학습 과정에서 결정된 각 채널의 누적 분포 함수의 값에 기초할 수 있다. 채널의 중요도 값과 누적 분포 함수의 값은 서로 간에 반비례 관계를 가질 수 있다. 다른 실시예에서, 데이터 처리 장치는 요구되는 경량화 정도에 따라 중요도 값이 높은 순서대로 특정 개수의 상위의 채널들을 선택하고, 해당 선택된 채널들을 이용하여 계산을 수행할 수 있다. 선택되지 않은 채널은 비활성화될 수 있다. 이와 같이, 경량화 정도를 고려하여 상대적으로 중요한 채널들만이 계산에 이용됨으로써, 뉴럴 네트워크 성능의 큰 저하 없이 시스템의 요구 사항을 충족시키는 고속 처리가 가능해 진다.

도 4는 일 실시예에 따른 배치 정규화 분포의 케이스들을 도시하는 도면이다.

배치 정규화 레이어와 렐루 레이어가 함께 적용된 뉴럴 네트워크의 경우, 배치 정규화 레이어를 통하여 뉴럴 네트워크의 수렴(convergence) 속도를 가속화시킬 수 있고, 뉴럴 네트워크의 학습이 보다 안정화될 수 있다. 배치 정규화 레이어는 각 채널의 평균과 표준편차를 계산하여 해당 채널의 값들을 정규화하고, 정규화된 값들에 대해 시프트 파라미터(shift parameter)

와 스케일 파라미터(scale parameter)

를 이용하여 아핀 변환을 수행할 수 있다. 도 4에 도시된 케이스 1(410), 케이스 2(420), 케이스 3(430) 및 케이스 4(440)는 다양한 조건에서의 배치 정규화 분포들을 도시한다. 본 케이스들(410, 420, 430, 440)에서는 정규화된 값들이 표준 정규 분포(standard normal distribution)를 따르고, 아핀 변환의 수행 결과가 평균

, 분산

를 가지는 정규 분포를 따른다고 가정한다.

위 가정이 적용되는 경우, 배치 정규화 레이어의 각 채널을 통해 출력된 값이 렐루 레이어에 입력되었을 때, 렐루 함수에 의해 채널이 비활성화될 확률이 높다고 생각할 수 있는 케이스는 도 4의 케이스 3(430)과 케이스 4(440)일 수 있다. 이는 입력된 값에 무관하게 케이스 3(430)이나 케이스 4(440)에 해당하는 채널들은 음수 부분도 비활성화시키는 렐루 함수에 의해 높은 확률로 비활성화되거나 또는 0에 가까운 값이 되기 때문이다. 이에 따라, 케이스3(430)이나 케이스4(440)에 해당하는 채널을 프루닝하여 비활성화시켜도 이후의 계산에는 큰 영향은 미치지 않을 것이다. 각 채널의 중요도 값이 모델링될 때, 렐루 함수에 의해 비활성화될 케이스인 케이스 3(430)에 해당하는 채널이 프루닝될 가능성이 높아지도록 중요도 값이 모델링될 수 있고, 이에 따라 영향도가 낮은 채널을 보다 많이 비활성화시킬 수 있다. 케이스 1(410)과 케이스 2(420)는 렐루 함수에 의해 채널이 비활성화되지 않을 가능성이 높다.

채널이 비활성화된 확률을 모델링하기 위하여 정규 분포

의 누적 분포 함수를 이용하여 0에 가까운 하이퍼파라미터(hyperparameter)

보다 작은 확률이 계산되고, 해당 채널을 프루닝하여 비활성화시킬지 아니면 유지할지를 나타내는 바이너리 마스크가 결정될 수 있다. 바이너리 마스크의 값은, 누적 분포 함수의 값이 특정한 값 c 이상이면 1로 설정되고, 해당 특정한 값 c보다 작으면 0으로 설정될 수 있다. 예를 들어, 특정한 임계 값인 하이퍼파라미터

에 기초하여 가우시안(Gaussian) 분포 형태의 누적 분포 함수

과 누적 분포 함수

에 기초한 바이너리 마스크

는 다음의 수학식 1과 같이 결정될 수 있다.

위 수학식 1과 같이 마스크가 지시 함수(indicator function)의 형태로 정의되면, 미분(differentiation)이 불가능하게 되어 일반적인 역전파 방식의 학습이 불가능할 수 있다. 역전파 방식의 학습을 가능하게 하기 위해, 뉴럴 네트워크의 학습 과정에서는 위 바이너리 마스크

가 연속적인 값으로 표현될 수 있도록 로지스틱 함수가 이용될 수 있다. 로지스틱 함수를 통해, 누적 분포 함수의 값이 특정한 값 c 이상이면 0.5 이상의 값을 가지도록 하고, 특정한 값 c보다 작으면 0.5 미만의 값을 가지도록 하는 근사(approximation) 과정이 수행될 수 있다.

학습 과정이 아닌 실제 데이터 처리 과정에서는 바이너리 마스크와 같이 마스크의 값을 0 또는 1로 설정해야 하기 때문에, 학습 과정과 실제 데이터 처리 과정 사이에는 큰 차이(discrepancy)가 생길 수 있다. 이러한 차이로 인한 성능 저하를 해결하기 위해, 학습 과정에서 검벨-소프트맥스(Gumbel-softmax) 함수가 이용될 수 있다. 검벨-소프트맥스 함수를 이용하여 미분이 가능한 소프트 마스크(soft mask)를 정의하고, 소프트 마스크를 기초로 역전파의 학습이 수행될 수 있다. 검벨-소프트 맥스 함수를 이용함으로써 소프트 마스크의 값이 최대한 바이너리 값에 가깝도록 유지되고, 역전파를 통합 학습이 가능해 질 수 있다. 또한, 뉴럴 네트워크의 학습 과정에서 뉴럴 네트워크의 파라미터들과 마스크가 서로 상호 작용하여 학습이 되기 때문에 별도의 미세 조정(fine tuning) 과정 없이도 고성능의 학습된 뉴럴 네트워크를 얻을 수 있다.

다른 실시예에 따르면, 케이스 4(440)와 같이 배치 정규화 분포의 범위가 좁고 누적 분포 함수의 절대 값이 작은 경우만을 고려하여 채널의 프루닝이 수행될 수도 있다. 이를 위해 누적 분포 함수를 통하여 채널을 프루닝시킬지 말지에 관한 확률을 모델링하는 것 대신에, 절대 값이 작은 하이퍼파라미터 a(음수), b(양수)를 이용하여 해당 채널의 누적 분포 함수의 값이 a보다는 크지만 b보다는 작을 확률을 계산하고, 계산된 확률을 기초로 채널의 중요도 값(또는 해당 채널이 프루닝될 확률)이 모델링될 수도 있다.

도 5는 일 실시예에 따른 학습 과정의 동작을 설명하기 위한 흐름도이다. 학습 과정은 프로세서를 포함하는 학습 장치에 의해 수행될 수 있다.

도 5를 참조하면, 단계(510)에서 학습 장치는 배치 정규화 파라미터를 이용하여 누적 분포 함수(CDF)의 값을 계산할 수 있다. 배치 정규화 파라미터는 시프트 파라미터

와 스케일 파라미터

를 포함하고, 누적 분포 함수의 값은 예를 들어 수학식 1에서의 누적 분포 함수

에 기초하여 정의될 수 있다.

단계(520)에서, 학습 장치는 로지스틱 함수를 누적 분포 함수의 값에 적용하여 미분 가능한 확률 마스크(또는 연속-마스크)를 정의할 수 있다. 학습 과정에서는 데이터 처리 과정에서와 다르게 바이너리 마스크 대신 미분 가능한 확률 마스크가 사용될 수 있다. 해당 확률 마스크는 각 채널의 배치 정규화 파라미터에 기초한 누적 분포 함수에 의해 정의될 수 있다.

바이너리 마스크는 미분이 불가능한 형태이기 때문에, 미분이 가능한 형태를 위해 로지스틱 함수를 누적 분포 함수

에 적용하는 과정이 수행될 수 있고, 적용 결과로서 정의되는 확률 마스크

는 다음의 수학식 2와 같이 미분 가능한 함수의 형태로 정의될 수 있다. 수학식 2를 통해 바이너리 마스크의 지시 함수는 로지스틱 함수로 근사화될 수 있다.

여기서, k는 상수이고, c는 수학식 1에서 정의한 특정한 값 c에 해당한다. 확률 마스크

의 값은 대응하는 특징 맵이 렐루 레이어에 의해 비활성화될 확률을 나타낼 수 있다.

단계(530)에서, 학습 장치는 검벨-소프트맥스(Gumbel-softmax) 함수를 이용하여 미분이 가능한 소프트 마스크

를 정의할 수 있다. 검벨-소프트맥스 함수는 이산 확률 변수(discrete random variable)를 근사화하기 위해 샘플링을 수행하는 소프트맥스 함수이다. 일 실시예에서, 소프트 마스크

는 확률 마스크

에 기초하여 다음의 수학식 3과 같이 정의 또는 샘플링될 수 있다.

여기서, g₀과 g₁은 검벨(0,1) 분포로부터 샘플링된 샘플들을 나타낸다. g₀과 g₁은 u ~ Uniform(0,1)이라고 할 때 g(u) = -log(-log(u))의 관계식에 의해 주어질 수 있다.

는 설정된 작은 값이다.

단계(540)에서, 학습 장치는 해당 소프트 마스크

를 기초로 역전파의 학습을 수행할 수 있다. 학습은 뉴럴 네트워크의 파라미터들과 채널의 프루닝을 위한 마스크를 함께 최적화하는 과정을 포함하고, 뉴럴 네트워크의 파라미터들은 예를 들어 그래디언트 기반 기법(gradient-based method)에 의해 업데이트될 수 있다.

소프트 마스크

의 학습 과정은 다음과 같다.

먼저, 뉴럴 네트워크의 배치 정규화 레이어에서 이루어지는 정규화의 결과 z는 아래 수학식 4와 같이 정의될 수 있고, 배치 정규화 레이어의 출력에 소프트 마스크

가 적용된 결과 x^out은 아래 수학식 5와 같이 나타낼 수 있다.

여기서, xⁱⁿ은 배치 정규화 레이어에 입력되는 입력 값이고,

와

는 각각 해당 입력 값의 평균(mean)과 분산(variance)을 나타낸다.

는 수학식 4의 분모가 0이 되는 것을 막기 위한 작은 값이다. b와 g는 학습이 가능한 파라미터들로서, 각각 배치 정규화 레이어의 시프트 파라미터와 스케일 파라미터를 나타낸다.

와

각각에 대하여 x^out를 편미분(partial derivative)한 결과는 다음의 수학식 6과 수학식 7과 같이 나타낼 수 있다.

여기서,

는 아래의 수학식 8과 같이 나타낼 수 있고,

는 수학식 9와 같이 나타낼 수 있다.

위 수학식 8과 수학식 9의 편미분들은 다음의 수학식 10 내지 수학식 12로 정리될 수 있다.

여기서,

는 다음의 수학식 13으로 주어지고, 수학식 11의

는 0을 제외한 다른 구간에서 미분이 가능하다는 것을 알 수 있다. 위 수학식 10 내지 수학식 12는 파라미터

와

이 일반적인 역전파의 학습 기법을 통해 학습될 수 있음을 나타낸다.

수학식 13은 누적 분포 함수

에 관한 로지스틱 함수의 편미분을 나타내고, k는 수학식 2의 k에 대응한다.

위와 같은 학습 과정에서, 뉴럴 네트워크의 각 채널의 중요도 값은 배치 정규화 파라미터 값을 기반으로 각 채널의 누적 분포 함수를 결정하고, 로지스틱 함수를 해당 누적 분포 함수에 적용하여 각 채널이 비활성화되는 경우 계산에 영향을 미치는 정도에 관한 확률을 모델링하는 것에 의해 결정될 수 있다. 중요도 값을 이용하는 것에 의해, 채널 프루닝에 따른 뉴럴 네트워크의 정확도 저하를 최소화하기 위한 미세 조정 과정이 수행될 필요가 없다. 채널의 중요도 값이 크다는 것은, 해당 채널이 비활성화된 채로 실행된 결과가 큰 에러나 오차를 일으킬 수 있음을 의미하고, 채널의 중요도 값이 작다는 것은 해당 채널이 비활성화된 채로 실행된 결과가 상대적으로 작은 에러나 오차를 일으킬 수 있음을 의미할 수 있다.

도 6은 일 실시예에 따른 학습 과정에서 마스크를 특징 맵에 적용하는 일례를 설명하기 위한 도면이다.

도 6을 참조하면, 참조번호(610)는 기존의 학습 과정과 관련하여 0의 마스크 값(621, 623)과 1의 마스크 값(622, 624, 625)을 나타내는 바이너리 마스크(620)를 특징 맵(630)에 적용하여 바이너리 마스크(620)가 적용된 특징 맵(640)을 도시한다. 바이너리 마스크(620)의 적용에 의해, 특징 맵(630)에서 특징 값(631, 633)은 0의 마스크 값(621, 623)이 적용 되어 특징 맵(640)에 해당 특징 값(631, 633)이 반영되지 않으며, 1의 마스크 값(622, 624, 625)이 적용된 특징 값(632, 634, 635)만이 특징 맵(640)에 반영된다. 학습 과정에서, 바이너리 마스크(620)의 적용에 따라 뉴럴 네트워크의 커패시티(capacity)가 줄어 들게 되고, 특징 값(631, 633)에 기초한 뉴럴 네트워크의 파라미터 업데이트는 이루어지지 않는다. 이는 뉴럴 네트워크의 성능 저하로 이어질 수 있고, 이를 극복하기 위한 뉴럴 네트워크의 파라미터들에 대한 미세 조정 과정이 요구되어 학습 과정이 복잡하고 학습 시간이 길어질 수 있다.

참조번호(650)는 일 실시예에 따른 학습 과정에서 미분이 가능한 소프트 마스크(660)를 특징 맵(670)에 적용하여 소프트 마스크(660)가 적용된 특징 맵(680)을 도시한다. 미분이 가능한 소프트 마스크(660)는 바이너리 값을 가지는 것이 아닌 누적 분포 함수에 기초한 확률 값으로 정의될 수 있다. 예를 들어, 마스크 값(661, 663)은 낮은 확률 값을 가질 수 있고, 마스크 값(662, 664, 665)는 상대적으로 높은 확률 값을 가질 수 있다. 각각의 마스크 값(661, 662, 663, 664, 665)는 각 특징 값(671, 672, 673, 674, 675)에 적용되어, 특징 맵(680)의 특징 값들이 결정된다. 학습 과정에서, 미분이 가능한 소프트 마스크(660)를 이용함으로써 특징 맵(680)의 크기가 줄어드는 것 없이, 특징 맵(670) 전체 특징 값들(671, 672, 673, 674, 675)에 기초한 뉴럴 네트워크의 파라미터 업데이트와 마스크(660)의 전체 마스크 값들(661, 662, 663, 664, 665)에 대한 업데이트가 함께 이루어질 수 있다. 또한, 뉴럴 네트워크의 커패시티가 유지되면서 학습이 수행되기 때문에 별도의 미세 조정 과정 없이도 고성능의 뉴럴 네트워크를 획득할 수 있으며, 학습 과정이 보다 빠르게 수행될 수 있다.

특징 맵(630, 670)은 '액티베이션(activation)', '액티베이션 데이터(activation data)' 또는 '액티베이션 맵(activation map)'으로도 지칭될 수 있고, 컨볼루셔널 레이어의 출력에 해당할 수 있다.

도 7은 일 실시예에 따른 뉴럴 네트워크를 이용하여 데이터 처리를 수행하는 데이터 처리 장치의 구성을 도시하는 도면이다.

데이터 처리 장치(700)는 데이터 처리 방법과 관련하여 본 명세서에서 기술되거나 또는 도시된 하나 이상의 동작을 수행할 수 있다. 도 7을 참조하면, 데이터 처리 장치(700)는 하나 이상의 프로세서(710) 및 메모리(720)를 포함할 수 있다. 메모리(720)는 프로세서(710)에 연결되고, 프로세서(710)에 의해 실행가능한 명령어들, 프로세서(710)가 연산할 데이터 또는 프로세서(710)에 의해 처리된 데이터를 저장할 수 있다. 메모리(720)는 비일시적인 컴퓨터 판독가능 매체, 예컨대 고속 랜덤 액세스 메모리 및/또는 비휘발성 컴퓨터 판독가능 저장 매체를 포함할 수 있다.

프로세서(710)는 뉴럴 네트워크를 이용하여 데이터 처리를 수행할 수 있고, 도 1의 콘트롤러(120)의 기능을 수행할 수 있다. 뉴럴 네트워크를 구현하기 위한 파라미터들은 데이터베이스(730)에 저장되어 있을 수 있다.

프로세서(710)는 뉴럴 네트워크를 이용하여 입력 데이터를 처리할 때 시스템의 요구 사항에 따라 채널 프루닝을 수행할 수 있다. 프로세서(710)는 입력 데이터를 수신하고, 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로 해당 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정할 수 있다. 각 채널에 대응하는 중요도 값은 뉴럴 네트워크의 학습 과정에서 결정된 각 채널의 누적 분포 함수에 기초할 수 있고, 데이터베이스(730)에 저장되어 있을 수 있다.

프로세서(710)는 시스템의 요구 사항에 따라 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여, 계산에 이용할 일부의 채널들을 결정할 수 있다. 예를 들어, 프로세서(710)는 시스템의 요구 사항에 따라 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 임계 값을 결정하고, 임계 값과 뉴럴 네트워크의 각 채널의 중요도 값을 비교할 수 있다. 뉴럴 네트워크에 포함된 채널의 중요도 값이 임계 값보다 큰 경우에는 해당 채널은 계산에 이용할 채널로 결정되고, 중요도 값이 임계 값보다 크지 않은 경우에는 해당 채널은 프루닝되어 비활성화될 수 있다. 비활성화된 채널에서는 계산이 수행되지 않을 수 있다. 다른 예로, 프로세서(710)는 뉴럴 네트워크에 대해 요구되는 경량화 정도를 기초로 중요도 값이 높은 순서대로 특정 개수의 채널들을 선택하고, 해당 선택된 채널들을 기초로 계산을 수행할 수 있다. 선택되지 않은 채널들은 비활성화될 수 있다. 프로세서(710)는 결정된 일부의 채널들을 이용하여 입력 데이터에 대해 계산을 수행하고, 출력 데이터를 결정할 수 있다.

도 8은 일 실시예에 따른 전자 장치의 구성을 도시하는 도면이다.

본 명세서에서 설명된 데이터 처리 시스템/장치는 전자 장치(800)에 포함되어 동작할 수 있고, 전자 장치(800)는 데이터 처리 시스템/장치가 수행할 수 있는 하나 이상의 동작을 수행할 수 있다. 전자 장치(800)는 예를 들어 모바일 폰, 웨어러블 기기, 태블릿 컴퓨터, 넷북, 랩탑, 데스크탑, PDA, 셋탑 박스, 스마트 가전 기기, 보안 장치 등일 수 있다.

도 8을 참조하면, 전자 장치(800)는 프로세서(810), 메모리(820), 카메라(830), 저장 장치(840), 입력 장치(850), 출력 장치(860) 및 통신 장치(870)를 포함할 수 있다. 프로세서(810), 메모리(820), 카메라(830), 저장 장치(840), 입력 장치(850), 출력 장치(860) 및 통신 장치(870)는 통신 버스(880)를 통해 서로 통신할 수 있다.

카메라(830)는 영상 데이터로서 정지 영상, 비디오 영상, 또는 이들 모두를 획득할 수 있다. 획득된 영상 데이터는 예를 들어, 컬러 영상, 흑백 영상 또는 적외선 영상일 수 있다.

프로세서(810)는 전자 장치(800) 내에서 실행하기 위한 기능 및 인스트럭션들을 실행한다. 예를 들어, 프로세서(810)는 메모리(820) 또는 저장 장치(840)에 저장된 명령어들을 처리할 수 있고, 도 1 내지 도 7을 통하여 전술한 하나 이상의 동작을 수행할 수 있다. 일 실시예에서, 프로세서(810)는 객체 인식이나 객체 인증을 위해 카메라(830)를 통해 획득된 영상 데이터를 뉴럴 네트워크를 이용하여 처리할 수 있다.

프로세서(810)는 뉴럴 네트워크를 이용하여 입력 데이터를 처리할 때 시스템의 요구 사항에 따라 채널 프루닝을 수행하여 뉴럴 네트워크를 경량화할 수 있다. 프로세서(810)는 입력 데이터를 수신하고, 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로 해당 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정할 수 있다. 프로세서(810)는 결정된 일부의 채널들을 이용하여 입력 데이터에 대해 계산을 수행하고, 출력 데이터를 결정할 수 있다.

저장 장치(840)는 컴퓨터 판독가능한 저장 매체 또는 컴퓨터 판독가능한 저장 장치를 포함한다. 저장 장치(840)는 뉴럴 네트워크를 저장하는 데이터베이스를 포함할 수 있다. 저장 장치(840)는 자기 하드 디스크, 광 디스크, 플래쉬 메모리, 전기적으로 프로그래밍가능한 메모리(EPROM), 플로피 디스크 또는 이 기술 분야에서 알려진 다른 형태의 비휘발성 메모리를 포함할 수 있다.

입력 장치(850)는 촉각, 비디오, 오디오 또는 터치 입력을 통해 사용자로부터 입력을 수신할 수 있다. 예를 들어, 입력 장치(850)는 키보드, 마우스, 터치스크린, 마이크로폰, 또는 사용자로부터 입력을 검출하고, 검출된 입력을 전자 장치(800)에 전달할 수 있는 임의의 다른 장치를 포함할 수 있다.

출력 장치(860)는 시각적, 청각적 또는 촉각적인 채널을 통해 사용자에게 전자 장치(800)의 출력을 제공할 수 있다. 출력 장치(860)는 예를 들어, 액정 디스플레이, LED 디스플레이, 터치 스크린, 스피커, 진동 발생 장치 또는 사용자에게 출력을 제공할 수 있는 임의의 다른 장치를 포함할 수 있다.

통신 장치(870)는 유선 또는 무선 네트워크를 통해 외부 장치와 통신할 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

프로세서에 의해 실행되는, 뉴럴 네트워크를 이용하는 데이터 처리 방법에 있어서,
입력 데이터를 수신하는 단계;
상기 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값(importance value)을 기초로, 상기 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정하는 단계; 및
상기 뉴럴 네트워크의 상기 결정된 일부의 채널들을 이용하여 상기 입력 데이터에 대해 계산을 수행하는 단계
를 포함하는 데이터 처리 방법.
제1항에 있어서,
상기 결정되는 일부의 채널들의 개수는, 상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 따라 달라지는,
데이터 처리 방법.
제2항에 있어서,
상기 결정하는 단계는,
상기 뉴럴 네트워크의 각 채널의 중요도 값의 크기 순서를 기초로 상기 경량화 정도를 만족시키는 일부의 채널들을 결정하는 단계
를 포함하는 데이터 처리 방법.
제1항에 있어서,
상기 결정하는 단계는,
상기 뉴럴 네트워크에 포함된 현재 채널의 중요도 값이 임계 값보다 큰 경우, 상기 현재 채널을 상기 계산에 이용할 채널로 결정하는 단계
를 포함하는 데이터 처리 방법.
제4항에 있어서,
상기 결정하는 단계는,
상기 현재 채널의 상기 중요도 값이 상기 임계 값보다 크지 않은 경우, 상기 현재 채널을 비활성화하는 것으로 결정하는 단계
를 포함하는 데이터 처리 방법.
제4항에 있어서,
상기 임계 값은,
상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 결정되는, 데이터 처리 방법.
제4항에 있어서,
상기 현재 채널의 중요도 값은,
상기 현재 채널이 비활성화(deactivation)되었을 때 상기 입력 데이터의 계산에 영향을 미치는 정도에 관한 확률 값인, 데이터 처리 방법.
제1항에 있어서,
상기 각 채널에 대응하는 중요도 값은,
상기 뉴럴 네트워크의 학습 과정에서 결정된 각 채널의 누적 분포 함수(cumulative density function; CDF)에 기초하는, 데이터 처리 방법.
제8항에 있어서,
상기 결정하는 단계는,
상기 누적 분포 함수와 임계 값에 기초하여 바이너리 마스크(binary mask)를 결정하는 단계; 및
상기 결정된 바이너리 마스크를 기초로 상기 계산에 이용할 일부의 채널들을 결정하는 단계
를 포함하는 데이터 처리 방법.
제1항에 있어서,
상기 뉴럴 네트워크의 학습 과정에서, 로지스틱 함수(logistic function)의 형태로 연속적인(continuous) 값을 가지는 마스크를 이용하여 상기 누적 분포 함수의 파라미터들이 학습되는, 데이터 처리 방법.
제10항에 있어서,
상기 학습 과정에서, 검벨-소프트맥스(Gumbel-softmax) 함수를 이용하여 미분이 가능한 소프트 마스크(soft mask)를 정의하고, 상기 소프트 마스크를 기초로 역전파(backward propagation)의 학습이 수행되는, 데이터 처리 방법.
제1항에 있어서,
상기 뉴럴 네트워크는, 컨볼루셔널 뉴럴 네트워크(convolutional neural network)이고,
상기 컨볼루셔널 뉴럴 네트워크의 히든 레이어(hidden layer)는, 컨볼루셔널 레이어(convolutional layer), 배치 정규화 레이어(batch normalization layer) 및 렐루(Rectified Linear Unit; ReLU) 레이어를 포함하는,
데이터 처리 방법.
제1항에 있어서,
상기 결정하는 단계는,
상기 뉴럴 네트워크의 각각의 히든 레이어마다 계산에 이용할 채널들을 결정하는 단계
를 포함하는 데이터 처리 방법.
제1항 내지 제13항 중 어느 하나의 항의 방법을 실행하기 위한 인스트럭션들을 저장하는 컴퓨터 판독 가능한 저장매체.
뉴럴 네트워크를 이용하는 데이터 처리 장치에 있어서,
프로세서; 및
상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리
를 포함하고,
상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는
입력 데이터를 수신하고,
상기 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로, 상기 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정하고,
상기 뉴럴 네트워크의 상기 결정된 일부의 채널들을 이용하여 상기 입력 데이터에 대해 계산을 수행하는,
데이터 처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 상기 계산에 이용할 일부의 채널들을 결정하는,
데이터 처리 장치.
제15항에 있어서,
상기 프로세서는,
상기 뉴럴 네트워크에 포함된 현재 채널의 중요도 값이 임계 값보다 큰 경우, 상기 현재 채널을 상기 계산에 이용할 채널로 결정하고,
상기 임계 값은,
상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 결정되는,
데이터 처리 장치.
제15항에 있어서,
상기 각 채널에 대응하는 중요도 값은,
상기 뉴럴 네트워크의 학습 과정에서 결정된 각 채널의 누적 분포 함수에 기초하는, 데이터 처리 장치.
뉴럴 네트워크를 이용하는 계산을 수행하는 전자 장치에 있어서,
프로세서; 및
상기 프로세서에서 실행가능한 명령어들을 포함하는 메모리
를 포함하고,
상기 명령어들이 상기 프로세서에서 실행되면, 상기 프로세서는
입력 데이터를 수신하고,
상기 뉴럴 네트워크에 포함된 각 채널에 대응하는 중요도 값을 기초로, 상기 뉴럴 네트워크의 전체 채널들 중에서 계산에 이용할 일부의 채널들을 결정하고,
상기 뉴럴 네트워크의 상기 결정된 일부의 채널들을 이용하여 상기 입력 데이터에 대해 계산을 수행하는,
전자 장치.
제19항에 있어서,
상기 프로세서는,
상기 뉴럴 네트워크에 포함된 현재 채널의 중요도 값이 임계 값보다 큰 경우, 상기 현재 채널을 상기 계산에 이용할 채널로 결정하고,
상기 임계 값은,
상기 뉴럴 네트워크에 대해 요구되는 경량화 정도에 기초하여 결정되는,
전자 장치.