KR102650992B1

KR102650992B1 - 블록 변환을 이용한 신경망 압축 장치 및 방법

Info

Publication number: KR102650992B1
Application number: KR1020220058217A
Authority: KR
Inventors: 최종원; 서승모; 조승현; 정승진
Original assignee: 중앙대학교 산학협력단
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2024-03-22
Anticipated expiration: 2042-05-12
Also published as: KR20230158735A

Abstract

미리 학습된 딥러닝 모델로부터 타겟에 적합하게 압축된 신경망 모델을 생성하기 위한 블록 변환을 이용한 신경망 압축 장치 및 방법이 개시된다. 일 실시예에 따른 블록 변환을 이용한 신경망 압축 방법은 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계; 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함할 수 있다.

Description

블록 변환을 이용한 신경망 압축 장치 및 방법{apparatus and method for neural network compression using block transform}

블록 변환을 이용한 신경망 압축 장치 및 방법에 관한 것이다.

최근 인공 신경망은 높은 성능을 위하여 딥러닝 모델 구조를 기반으로 하고 있으며, 딥러닝 모델은 두꺼운 레이어 구조 및 매우 많은 파라미터로 구성된다. 이에 따라, 딥러닝 모델은 높은 하드웨어의 성능이 요구되며, 연산을 위하여 다량의 에너지를 소비하는 문제가 있다.

반면, 신경망 모델은 다양한 장비에 적용되는 추세이며, 특히, 모바일 장비는 한정된 하드웨어 성능 및 에너지만을 이용할 수 있어 딥러닝 모델을 그대로 구현하는데 문제가 발생한다. 또한, 장비 별로 타겟팅하는 대상이 다른 바, 각각의 타겟 및 하드웨어 규격에 최적화된 신경망 모델을 적용할 필요가 있다.

한국등록특허공보 제10-2332490호(2021.12.01)

미리 학습된 딥러닝 모델로부터 타겟에 적합하게 압축된 신경망 모델을 생성하기 위한 블록 변환을 이용한 신경망 압축 장치 및 방법을 제공하는데 목적이 있다.

일 양상에 따르면, 블록 변환을 이용한 신경망 압축 방법은 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계; 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함할 수 있다.

블록 변환 단계는 m개의 잔여 블록으로 구성된 원본 신경망 S₀으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁ 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S_m-1을 생성할 수 있다.

사전 학습 단계는 변환 신경망의 집합 S₁ 내지 변환 신경망의 집합 S_m-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시킬 수 있다.

사전 학습 단계는 레이블이 부여된 소스 데이터 중 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며, 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산할 수 있다.

정규화 손실은 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.

정규화 손실은 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산될 수 있다.

사전 학습 단계는 원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다.

사전 학습 단계는 정규화 손실 및 교차 엔트로피 손실에 기초하여 하나 이상의 선택 변환 신경망을 학습시킬 수 있다.

정규화 점수는 타겟 데이터에 대한 원본 신경망의 예측값과 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.

타겟 적응 단계는 타겟 데이터 중 원본 신경망과 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 정규화 점수는 정규화 손실을 더 기초하여 계산될 수 있다.

타겟 적응 단계는 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다.

타겟 적응 단계는 정규화 손실 및 교차 엔트로피 손실에 기초하여 선별 변환 신경망을 학습할 수 있다.

일 양상에 따르면, 블록 변환을 이용한 신경망 압축 장치는 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환부; 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습부; 및 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응부를 포함할 수 있다.

상기 블록 변환부는, m개의 잔여 블록으로 구성된 원본 신경망 S₀으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁ 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S_m-1을 생성할 수 있다.

상기 사전 학습부는, 변환 신경망의 집합 S₁ 내지 변환 신경망의 집합 S_m-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시킬 수 있다.

상기 사전 학습부는, 상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며, 상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산할 수 있다.

상기 정규화 손실은, 상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.

상기 정규화 손실은, 상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되고, 상기 사전 학습부는, 원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하며, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시킬 수 있다.

상기 정규화 점수는, 타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되고, 상기 타겟 적응부는, 타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산될 수 있다.

상기 타겟 적응부는, 상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다.

상기 타겟 적응부는, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습할 수 있다.

미리 학습된 딥러닝 모델로부터 타겟에 적합하게 압축된 신경망 모델을 생성할 수 있다.

도 1은 일 실시예에 따른 블록 변환을 이용한 신경망 압축 방법을 도시한 흐름도이다.
도 2는 일 예에 따른 블록 변환 방법을 설명하기 위한 예시도이다.
도 3은 일 예에 따른 클러스터링 방법을 설명하기 위한 예시도이다.
도 4는 일 실시예에 따른 블록 변환을 이용한 신경망 압축 장치의 구성도이다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 블록 변환을 이용한 신경망 압축 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.

도 1은 일 실시예에 따른 블록 변환을 이용한 신경망 압축 방법을 도시한 흐름도이다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 둘 이상의 잔여 블록(residual block, 이하, 0으로 표시)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block, 이하, B로 표시) 및 재활용 블록(recycling block, 이하, R로 표시) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성할 수 있다(110).

도 2를 참조하면, 원본 신경망(200)은 둘 이상의 잔여 블록(210, 220)으로 구성될 수 있으며, 원본 신경망(200)에 포함된 둘 이상의 잔여 블록(210, 220) 중 적어도 하나는 우회 블록 및 재활용 블록 중 적어도 하나로 변환될 수 있다. 예를 들어, 하나의 잔여 블록(220)이 우회 블록(221)으로 변환되어 신경망(201)을 구성하거나, 재활용 블록(222)으로 변환되어 신경망(202)을 구성할 수 있다.

일 예를 들어, 우회 블록은 입력 데이터를 별도의 처리 없이 출력 데이터로 바로 출력하는 블록이며, 재활용 블록은 입력 데이터를 앞 단의 블록의 입력으로 다시 입력한 후 앞 단의 블록에서 출력한 데이터를 출력 데이터로 출력하는 블록일 수 있다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 m개의 잔여 블록으로 구성된 원본 신경망 S₀으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁ 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S_m-1을 생성할 수 있다.

일 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 원본 신경망 S₀이 3개의 잔여 블록으로 구성되는 경우, S₀={<000>}과 같이 표현될 수 있으며, 원본 신경망 S₀으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁의 경우 S₁={<00R>, <0R0>, <00B>, <0B0>, <B00>}과 같이 생성할 수 있다. 다른 예로, 우회 블록 및 재활용 블록은 앞 단의 블록 결과를 이용하여야 하는 바, 가장 앞 단의 블록은 변환하지 않도록 설정할 수 있다. 예를 들어, S₁={<00R>, <0R0>, <00B>, <0B0>}과 같이 생성될 수 있다.

일 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 하나 이상의 변환 신경망의 집합 중 일부를 선택적으로 생성하거나, 변환 신경망의 집합에 포함되는 하나 이상의 변환 신경망 중 일부를 선택적으로 생성할 수 있다. 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 원본 신경망 S₀이 3개의 잔여 블록으로 구성되는 경우, 변환 신경망의 집합 S₁, S₂중 S₁만을 선택적으로 생성할 수 있다. 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁={<00R>, <0R0>, <00B>, <0B0>, <B00>} 중 {<00R>, <00B>}만을 선택적으로 생성할 수 있다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시킬 수 있다(120).

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 변환 신경망의 집합 S₁ 내지 변환 신경망의 집합 S_m-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시킬 수 있다.

일 예로, 블록 변환을 이용한 신경망 압축 장치는 변환 신경망의 집합 S₁ 내지 변환 신경망의 집합 S_m-1의 집합들 각각으로부터 하나의 변환 신경망을 선택할 수 있다. 예를 들어, 원본 신경망 S₀이 3개의 잔여 블록으로 구성되는 경우, 블록 변환을 이용한 신경망 압축 장치는 변환 신경망의 집합 S₁, S₂, 각각에 포함된 변환 신경망 중 하나를 선택할 수 있다. 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 S₁={<00R>} 및 S₂={<0BR>}를 선택할 수 있다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 레이블이 부여된 소스 데이터 중 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출할 수 있다.

예를 들어, 소스 데이터가 sd₁~sd_n로 구성되며, 이 중 sd₁, sd₂에 대하여 변환 신경망들이 모두 레이블 값을 정확히 예측한 경우, sd₁, sd₂가 양성 샘플 소스 데이터가 될 수 있다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산할 수 있다.

일 실시예에 따르면, 정규화 손실은 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.

일 예로, 정규화 손실은 아래 수학식과 같이 정의될 수 있다.

[수학식 1]

여기서, X는 소스 데이터, x_p는 양성 샘플 소스 데이터를 나타내며, || ||_H는 후버 놈(Huber norm)을 나타낸다. 또한, D_s(x)는 젠슨-섀넌 발산(Jensen-Shannon Divergence, JSD)에 의해 계산되는 원본 신경망과 변환 신경망 사이의 확률 분포 차이일 수 있으며, 아래와 같이 정의될 수 있다.

[수학식 2]

여기서, f^s는 신경망 s의 예측값, s()는 소프트맥스(softmax) 함수, t는 소프트맥스 함수의 출력값을 조절하기 위한 온도 하이퍼파라미터(temperature hyperparameter)를 나타낸다.

일 실시예에 따르면, 정규화 손실은 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산될 수 있다. 예를 들어, 소스 데이터의 레이블은 원-핫 인코딩 레이블(one-hot encoded label)일 수 있다. 이때, 레이블 스무딩을 적용하면, 원-핫 인코딩 레이블의 0 및 1의 0 내지 1의 실수로 변경될 수 있다. 예를 들어, 원-핫 인코딩 레이블이 [0, 0, 1]인 경우, 레이블 스무딩이 적용되면 레이블은 [0.001, 0.002, 0.998]과 같이 변환될 수 있다. 일 예에 따르면, 수학식 1은 레이블 스무딩된 레이블을 이용하여 계산될 수 있다.

일 예에 따르면, 레이블 스무딩을 적용하여 원본 신경망과 변환 신경망의 예측값의 차이를 일정한 범위 내로 조절하는 클러스터링을 수행할 수 있다. 예를 들어, 도 3(a)는 원본 신경망(<00>)과 변환 신경망(<0B>)에 원-핫 인코딩 레이블의 소스 데이터를 적용하는 경우의 예측값 분포를 나타낸다. 도 3(a)에서 나타나는 바와 같이, 원-핫 인코딩 레이블이 적용된 소스 데이터를 이용하는 경우, 일부 소스 데이터에 대한 변환 신경망(<0B>)의 예측값과 원본 신경망(<00>)의 예측값의 차이가 일정 범위를 벗어날 수 있다. 반면, 레이블 스무딩이 적용된 소스 데이터를 이용하는 경우 예측값이 클러스터링될 수 있으며, 도 3(b)와 같이 변환 신경망(<0B>)의 예측값이 원본 신경망(<00>)의 예측값을 중심으로 일정 범위 내에서 위치하는 것을 볼 수 있다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다. 일 예로, 교차 엔트로피 손실은 아래 수학식과 같이 정의될 수 있다.

[수학식 3]

여기서, y는 원-핫 인코딩 레이블이 적용된 소스 데이터를 나타내며, g()는 레이블 스무딩을 위한 함수로 아래와 같이 정의될 수 있다.

[수학식 4]

여기서, 1_y는 원-핫 인코딩 벡터이며, C는 클래스의 개수, a는 하이퍼파라미터를 나타낸다.

일 예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 정규화 손실 및 교차 엔트로피 손실에 기초하여 하나 이상의 선택 변환 신경망을 학습할 수 있다. 예를 들어, 소스 데이터를 이용하여 선택 변환 신경망을 사전 학습시키기 위한 손실함수는 아래 수학식과 같이 정의될 수 있다.

[수학식 5]

여기서, l는 임의의 파라미터이다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시킬 수 있다(130).

일 실시예에 따르면, 정규화 점수는 타겟 데이터에 대한 원본 신경망의 예측값과 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다. 예를 들어, 타겟 데이터에 대한 원본 신경망의 예측값과 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포의 차이는 쿨백-라이블러 발산(Kullback-Leibler divergence, KLD)을 이용하여 계산될 수 있다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 타겟 데이터 중 원본 신경망과 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출할 수 있으며, 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산할 수 있다. 예를 들어, 정규화 손실은 수학식 1을 이용하여 계산될 수 있다.

일 실시예에 따르면, 정규화 점수는 쿨백-라이블러 발산을 통한 원본 신경망과 사전 학습된 선택 변환 신경망의 확률 분포의 차이와 정규화 손실을 이용하여 계산될 수 있다. 예를 들어, 정규화 점수는 아래 수학식과 같이 정의될 수 있다.

[수학식 6]

여기서, KL()은 쿨백-라이블러 발산을 나타내며, 는 양성 샘플 타겟 데이터를 나타낸다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다. 일 예로, 타겟 데이터에 대한 원본 신경망의 교차 엔트로피 손실은 아래 수학식과 같이 정의될 수 있다.

[수학식 7]

여기서, 합성 레이블은 레이블이 지정되지 않은 타겟 데이터의 대표 특징을 클러스터링하여 생성되며, 교차 엔트로피 손실에 대한 의사 레이블(pseudo label)로 사용될 수 있다. 일 예로, 합성 레이블에 의한 손실은 아래 수학식과 같이 정의될 수 있다.

[수학식 8]

여기서, 는 합성 레이블을 나타낸다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 정규화 손실 및 교차 엔트로피 손실에 기초하여 선별 변환 신경망을 학습할 수 있다. 예를 들어, 타겟 데이터에 적응하기 위한 학습 손실은 아래 수학식과 같이 정의될 수 있다.

[수학식 9]

여기서, 과 는 사용자에 의해 정의되는 하이퍼파라미터이다.

일 예에 따르면, 타겟 데이터에 적응하는 과정은 수차례 반복될 수 있다. 예를 들어, 타겟 데이터에 적응하는 과정은 매 수행 시마다 수학식 6의 정규화 점수를 이용하여 사전 학습된 하나 이상의 선택 변환 신경망을 일정 비율로 선택할 수 있으며, 최종 하나의 선택 변환 신경망이 남을 때까지 반복될 수 있다.

도 4는 일 실시예에 따른 블록 변환을 이용한 신경망 압축 장치의 구성도이다.

일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치(400)는 블록 변환부(410), 사전 학습부(420) 및 타겟 적응부(430)를 포함할 수 있다.

일 실시예에 따르면, 블록 변환부(410)는 둘 이상의 잔여 블록으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록 및 재활용 블록 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성할 수 있다.

일 실시예에 따르면, 사전 학습부(420)는 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시킬 수 있다.

일 실시예에 따르면, 타겟 적응부(430)는 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시킬 수 있다.

도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 블록 변환을 이용한 신경망 압축 장치(400)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

400: 블록 변환을 이용한 신경망 압축 장치
410: 블록 변환부
420 : 사전 학습부
430: 타겟 적응부

Claims

신경망 압축 장치에서 수행되는 방법으로서,
둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계;
상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및
상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함하고,
상기 정규화 점수는,
타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 블록 변환을 이용한 신경망 압축 방법.
제 1 항에 있어서,
상기 블록 변환 단계는
m개의 잔여 블록으로 구성된 원본 신경망 S₀으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁ 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S_m-1을 생성하는, 블록 변환을 이용한 신경망 압축 방법.
제 2 항에 있어서,
상기 사전 학습 단계는
변환 신경망의 집합 S₁ 내지 변환 신경망의 집합 S_m-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시키는, 블록 변환을 이용한 신경망 압축 방법.
제 1 항에 있어서,
상기 사전 학습 단계는
상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며,
상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
제 4 항에 있어서,
상기 정규화 손실은
상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및
상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
제 4 항에 있어서,
상기 정규화 손실은
상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
제 6 항에 있어서,
상기 사전 학습 단계는
원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
제 7 항에 있어서,
상기 사전 학습 단계는
상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시키는, 블록 변환을 이용한 신경망 압축 방법.
삭제
제 1 항에 있어서,
상기 타겟 적응 단계는
타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며,
상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며,
상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
제 10 항에 있어서,
상기 타겟 적응 단계는
상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
제 11 항에 있어서,
상기 타겟 적응 단계는
상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습하는, 블록 변환을 이용한 신경망 압축 방법.
둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환부;
상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습부; 및
상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응부를 포함하고,
상기 정규화 점수는,
타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 블록 변환을 이용한 신경망 압축 장치.
청구항 13에 있어서,
상기 블록 변환부는,
m개의 잔여 블록으로 구성된 원본 신경망 S₀으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S₁ 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S_m-1을 생성하는, 블록 변환을 이용한 신경망 압축 장치.
청구항 14에 있어서,
상기 사전 학습부는,
변환 신경망의 집합 S₁ 내지 변환 신경망의 집합 S_m-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시키는, 블록 변환을 이용한 신경망 압축 장치.
청구항 13에 있어서,
상기 사전 학습부는,
상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며,
상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산하는, 블록 변환을 이용한 신경망 압축 장치.
청구항 16에 있어서,
상기 정규화 손실은,
상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 장치.
청구항 16에 있어서,
상기 정규화 손실은, 상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되고,
상기 사전 학습부는,
원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하며, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시키는, 블록 변환을 이용한 신경망 압축 장치.
청구항 13에 있어서,
상기 타겟 적응부는,
타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 장치.
청구항 19에 있어서,
상기 타겟 적응부는,
상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 장치.
청구항 20에 있어서,
상기 타겟 적응부는,
상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습하는, 블록 변환을 이용한 신경망 압축 장치.
비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 갖는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계;
상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및
상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 수행하도록 하며,
상기 정규화 점수는,
타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 컴퓨터 프로그램.