KR102507014B1 - 에너지 보존을 통한 심층 신경망 경량화 기법 및 장치 - Google Patents

에너지 보존을 통한 심층 신경망 경량화 기법 및 장치 Download PDF

Info

Publication number
KR102507014B1
KR102507014B1 KR1020210060862A KR20210060862A KR102507014B1 KR 102507014 B1 KR102507014 B1 KR 102507014B1 KR 1020210060862 A KR1020210060862 A KR 1020210060862A KR 20210060862 A KR20210060862 A KR 20210060862A KR 102507014 B1 KR102507014 B1 KR 102507014B1
Authority
KR
South Korea
Prior art keywords
network
energy
processor
importance score
computer device
Prior art date
Application number
KR1020210060862A
Other languages
English (en)
Other versions
KR20220153365A (ko
Inventor
염슬기
심경환
채명수
김태호
Original Assignee
주식회사 노타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 노타 filed Critical 주식회사 노타
Priority to KR1020210060862A priority Critical patent/KR102507014B1/ko
Priority to US17/742,269 priority patent/US11875263B2/en
Publication of KR20220153365A publication Critical patent/KR20220153365A/ko
Application granted granted Critical
Publication of KR102507014B1 publication Critical patent/KR102507014B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Processing (AREA)

Abstract

에너지 보존을 통한 심층 신경망 경량화 기법 및 장치가 개시된다. 심층 신경망 경량화를 위한 네트워크 프루닝 방법은, 딥러닝 모델에 대해 에너지 기반 기준을 사용하여 네트워크 단위의 중요도 점수를 측정하는 단계; 및 상기 중요도 점수에 기초하여 상기 딥러닝 모델의 네트워크 프루닝을 수행하는 단계를 포함한다.

Description

에너지 보존을 통한 심층 신경망 경량화 기법 및 장치{METHOD AND APPARATUS FOR ENERGY-AWARE DEEP NEURAL NETWORK COMPRESSION}
아래의 설명은 에너지 인식 프루닝(energy-aware pruning) 기술에 관한 것이다.
DNN(deep neural network)은 이미지 분류(image classification), 탐지(detection), 및 의미 분할(semantic segmentation)과 같은 다양한 애플리케이션에서 큰 성공을 거두고 있다.
그러나, DNN은 상당한 계산 비용과 스토리지를 필요로 하기 때문에 고효율 GPU(Graphic Processing Unit)의 지원 없이는 실시간 애플리케이션에 배치하기가 어려운 문제가 있다.
이를 해결하기 위해 프루닝(pruning), 양자화(quantization), 낮은 계수 근사법(low-rank approximation), 및 지식 증류(knowledge distillation)와 같은 다양한 네트워크 압축 방법이 지속적으로 연구되고 있다.
다양한 네트워크 압축 전략 중 하나인 네트워크 프루닝은 구조화되거나 구조화되지 않은 방식으로 네트워크 단위의 가장 중요하지 않은 부분 집합(즉, 뉴런 또는 필터)을 제거하는 것을 목표로 하는 필수 도구로 꾸준히 성장해 오고 있다.
네트워크 프루닝의 경우 삭제에 사용되는 매개변수의 무관한(irrelevant) 부분 집합을 식별하는 방법을 결정하는 것이 중요하다.
무관한 부분 집합을 식별하기 위해 기존에는 네트워크의 복잡성과 계산 비용을 줄이기 위해 테일러 근사치(Taylor approximation), 그라디언트(gradient), 가중치(weight), 계층별 관련도 전파법(LRP) 등과 같은 특정 기준을 활용하고 있다.
에너지 기반 기준을 사용하여 필터의 중요도 점수를 측정할 수 있는 에너지 인식 프루닝 방법을 제안한다.
SVD(singular values decomposition)에서 파생된 NN(nuclear-norm)을 계산하여 필터를 에너지 비용으로 정량화할 수 있는 에너지 인식 프루닝 방법을 제안한다.
컴퓨터 장치에서 실행되는 네트워크 프루닝 방법에 있어서, 상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 네트워크 프루닝 방법은, 상기 적어도 하나의 프로세서에 의해, 딥러닝 모델에 대해 에너지 기반 기준을 사용하여 네트워크 단위의 중요도 점수를 측정하는 단계; 및 상기 적어도 하나의 프로세서에 의해, 상기 중요도 점수에 기초하여 상기 딥러닝 모델의 네트워크 프루닝을 수행하는 단계를 포함하는 네트워크 프루닝 방법을 제공한다.
일 측면에 따르면, 상기 측정하는 단계는, 네트워크의 특정 계층에서 출력 채널의 에너지를 정량화하는 분해(decomposition) 접근법을 통해 상기 중요도 점수를 측정할 수 있다.
다른 측면에 따르면, 상기 측정하는 단계는, SVD(singular values decomposition)를 이용하여 상기 중요도 점수를 측정할 수 있다.
또 다른 측면에 따르면, 상기 측정하는 단계는, SVD(singular values decomposition)를 통한 NN(nuclear-norm)을 사용하여 상기 네트워크 단위를 에너지 비용으로 정량화하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 측정하는 단계는, 모든 입력에 대해 각 필터 맵을 평탄화(flattening) 및 결합(concatenating)하는 단계; 및 SVD(singular values decomposition)를 이용하여 각 필터의 중요도 점수를 나타내는 NN(nuclear-norm) 값을 검색하는 단계를 포함할 수 있다.
또 다른 측면에 따르면, 상기 수행하는 단계는, 사전 훈련된 모델과 프루닝된 모델의 에너지 차이를 최소화하는 정규화 함수를 통해 상기 네트워크 프루닝을 수행할 수 있다.
컴퓨터 장치에 있어서, 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고, 상기 적어도 하나의 프로세서는, 딥러닝 모델에 대해 에너지 기반 기준을 사용하여 네트워크 단위의 중요도 점수를 측정하는 과정; 및 상기 중요도 점수에 기초하여 상기 딥러닝 모델의 네트워크 프루닝을 수행하는 과정을 처리하는 컴퓨터 장치를 제공한다.
본 발명의 실시예들에 따르면, SVD에서 파생된 NN을 계산하여 필터를 에너지 비용으로 정량화할 수 있고, 이를 통해 네트워크 복잡성을 효율적으로 감소시킬 수 있다.
본 발명의 실시예들에 따르면, NN 기반 에너지 인식 프루닝을 통해 네트워크 전체에서 최소한의 에너지로 필터를 제거할 수 있고 네트워크 아키텍처와 데이터셋에 관계없이 네트워크 성능을 보장할 수 있다.
도 1은 본 발명의 일 실시예에 따른 에너지 인식 프루닝 프로세스의 전체적인 프레임워크를 도시한 것이다.
도 2는 데이터셋에 대한 네트워크 별 GFLOP를 비교한 결과와 네트워크 별 남은 매개변수 개수를 비교한 결과를 나타낸 것이다.
도 3은 프루닝 기준 별로 토이 데이터셋을 이용한 의사 결정 기능에 미치는 영향을 비교한 결과를 나타낸 것이다.
도 4는 본 발명의 일실시예에 있어서 에너지 인식 프루닝 방법을 수행하기 위한 컴퓨터 장치의 예를 도시한 블록도이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
본 발명의 실시예들은 딥러닝 모델 경량화를 위한 에너지 인식 프루닝 기술에 관한 것이다.
본 명세서에서 구체적으로 개시되는 것들을 포함하는 실시예들은 NN을 사용하여 네트워크 단위(뉴런 또는 필터)의 중요성을 정량화할 수 있고, 이를 통해 네트워크 전체에서 최소한의 에너지로 네트워크 복잡성을 효율적으로 감소시킬 수 있다.
관련 연구는 다음과 같다.
필터 분해(filter decomposition)
필터 분해 접근 방식은 네트워크 행렬을 벡터 공간에 대한 몇 가지 기준으로 분해하여 낮은 계수 근사법/인수분해를 통해 DNN의 정보 매개변수를 추정하므로 SVD, CP 분해(Candecomp/Parafac decomposition), 터커(Tucker) 분해와 같은 네트워크의 계산 비용을 절감할 수 있다. 원래 필터 수를 변경하지 않고 가중치 행렬을 2D 분리 가능 필터의 더 작은 베이스 집합으로 표현하여 컨볼루션 연산을 근사화한다. PCA(Principal Component Analysis)는 모든 계층들 사이에서 각 계층에 보존될 정보의 양을 계산하기 위해 최대 풀 특징 맵(max-pooled feature map)과 평면화 특징 맵(flattened feature map)에 적용되어 서로 통합이 가능하다.
필터 프루닝
네트워크 필터 프루닝은 주어진 모델에서 원샷 프루닝 또는 반복적인 프루닝을 통해 성능에 덜 유용한 중복 필터 또는 비정보적인 필터를 제거하는 기술이다. 대부분의 네트워크 필터 프루닝 기술은 연결을 제거함으로써 필터를 희소하게 만들고 그것이 중요한지 아닌지를 구별하기 위한 적절한 기준을 채택한다. 명백히 삭제 모델의 현재 상태에서 필터의 중요성을 수량화하는 방법을 결정하는 것은 중요한 포인트이다. 프루닝 기준은 테일러 근사치, 그라디언트, 가중치, 계층별 관련도 전파법에 기초하여 결정된다.
분해에 의한 프루닝(Pruning by decomposition)
프루닝 측면에서 분해를 이용한 DNN 압축 기법에 대한 관심이 증가하고 있다. 두 가지 압축 방법 간의 긴밀한 연결로 인해 분해 기반 접근 방식이 필터 수준에서도 모델 압축에 있어 프루닝 성능을 향상시킬 수 있다.
일부 연구에서는 하드웨어 친화적인 CNN 모델 압축 프레임워크를 제안하며, 필터 분해를 적용하여 소수의 기본 커널 공유와 적응 기반 및 희소 제약 조건을 가진 계수를 수행한다.
다른 연구에서는 그룹 희소성을 사용하여 프루닝 접근법과 분해 접근법을 동시에 결합할 수 있는 통합 프레임워크를 제안한다.
또 다른 연구에서는 낮은 계수 근사법 및 정규화를 훈련 프로세스에 통합하는 TRP(Trained Ranking Pruning)를 제안한다. 모델을 낮은 계수 공간으로 제한하기 위해 확률적 서브-그라디언트 하강 최적화 nuclear-norm 정규화를 사용하고 있다.
또 다른 연구에서는 SVD 계층별에서 각 특징 맵의 전체 순위를 계산하여 높은 계수 기반 프루닝 기법을 기준으로 제안하며, 이는 배치 크기에 관계없이 일관성 없는 계수 순서로 이어진다.
본 실시예들은 분해 기반 접근 방식으로서 NN을 사용하여 네트워크 필터의 중요성을 정량화할 수 있는 새로운 에너지 인식 프루닝 방법에 관한 것이다.
본 실시예에서는 에너지 기반 기준을 사용하여 필터의 중요도 점수를 측정할 수 있고, 특히 SVD에서 파생된 NN을 계산하여 네트워크 필터를 에너지 비용으로 효율적이고 직관적으로 정량화할 수 있다.
프루닝 기준으로서 특이치의 크기, 즉 각 차원의 중요성을 고려하는 것이 중요하다. 특이치의 크기는 필터의 전체 에너지를 나타내는 NN 값으로 표현 가능하다.
도 1은 본 발명의 일 실시예에 따른 에너지 인식 프루닝 프로세스의 전체적인 프레임워크를 도시한 것이다.
도 1을 참조하면, 모든 입력에 대해 각 필터 맵을 평탄화(flattening) 및 결합(concatenating)한 후 SVD를 적용하여 해당 필터의 중요도 점수를 나타내는 NN 값을 검색한다.
다시 말해, 각 필터 맵에 대한 NN을 계산함으로써 각 필터를 에너지 비용으로 정량화할 수 있다.
그런 다음, 각 레이어에 대해 계산된 순서에 따라 각 필터의 중요도 점수에 기초하여 프루닝 프로세스를 수행할 수 있다.
도 2는 데이터셋에 대해 5개의 네트워크 아키텍처를 사용하여 GFLOP와 남은 매개변수 개수를 비교한 결과를 나타낸 것이다. 왼쪽 상단이 더 나은 성능을 나타낸다.
도 2를 보면, NN 기반 에너지 인식 프루닝 기법(Ours)이 모든 종류의 프루닝 접근 방식과 비교했을 때 유사한 압축율로 높은 성능을 달성하고 있음을 알 수 있다.
또한, NN 기반 에너지 인식 프루닝 기법은 데이터의 품질과 양에 대한 높은 안정성을 유도할 수 있으며, 이는 실질적인 산업 측면에 큰 도움이 될 수 있다.
본 발명에 따른 에너지 인식 프루닝 방법을 구체적으로 설명하면 다음과 같다.
사전 훈련된 CNN 모델에서 먼저 훈련 가능한 매개변수, 가중치를
Figure 112021054491774-pat00001
Figure 112021054491774-pat00002
로 정의한다. 여기서,
Figure 112021054491774-pat00003
Figure 112021054491774-pat00004
은 입력 및 출력 채널의 수를 나타내고, k는 l번째 컨볼루션 계층에서 제곱 커널의 높이/폭이다. 단순성을 위해 여기서 편향 조건을 생략한다.
프루닝은 네트워크 전체에 걸쳐 과잉 매개변수화된 사전 훈련된 전체 크기 네트워크
Figure 112021054491774-pat00005
로 시작된다.
DNN의 경우 본 발명에서 원래 목적 함수는 주어진 데이터셋과 매개변수 W의 손실을 최소화하는 것이다.
[수학식 1]
Figure 112021054491774-pat00006
여기서,
Figure 112021054491774-pat00007
Figure 112021054491774-pat00008
는 각각 쌍을 이루는 훈련 입력과 레이블의 집합을 나타낸다. N은 총 배치 수를 나타낸다.
구조화된 프루닝을 얻기 위해 희소성 정규화는 수학식 1에 추가됨에 따라 수학식 2와 같이 정의될 수 있다.
[수학식 2]
Figure 112021054491774-pat00009
여기서, R은 희소성 정규화 함수를 나타내고 λ는 정규화 인자를 나타낸다. 여기서, 프루닝의 주요 문제는 주어진 제약 조건 하에서 R 함수를 정의하는 방법이다.
본 실시예에서는 에너지 인식 프루닝 기준을 채택하여 R 함수를 정의할 수 있다. 본 발명에 따른 에너지 인식 프루닝의 가설은 필터가 더 많은 에너지를 가질수록 더 많은 양의 정보를 포함한다는 것이다. 다시 말하면, 본 발명은 사전 훈련된 모델과 프루닝된 모델의 에너지 차이를 최소화할 수 있는 정규화 함수를 정의할 수 있다. 따라서, 에너지 효율 측면에 따라 수학식 2에서 R은 다음과 같이 정의될 수 있다.
[수학식 3]
Figure 112021054491774-pat00010
여기서
Figure 112021054491774-pat00011
는 네트워크의 총 에너지 양을 나타낸다. 그리고, 각
Figure 112021054491774-pat00012
은 계층의 에너지 양을 나타내며 프루닝 기준을 사용하여 해당 피처 맵에서 계산된다.
또한, 본 실시예에서는
Figure 112021054491774-pat00013
을 도입하여 M이 벡터화 시 다음과 같이 피드-포워드 전파 중에 필터가 남아 있는지 또는 제거되는지 여부를 결정한다.
그리고,
Figure 112021054491774-pat00014
는 W와 M 사이의 요소별 곱이다. 본 실시예에서는 각
Figure 112021054491774-pat00015
이 분해 접근법에 의해 계산된
Figure 112021054491774-pat00016
에 의해 근사될 수 있다고 가정한다. 여기서는 필터별 에너지 소비를 정량화하기 위해 분해 접근 방식인 SVD를 채택한다.
SVD는 축소된 주문 모델(ROM)을 얻기 위해 사용되는 차원 감소에서 많은 관련 기술의 기초이다. 프루닝의 경우, SVD는 각 점의 데이터셋에 대한 최상의 k차원 수직 하위 공간을 찾는 데 도움이 된다. 특히, 특이치는 대수적 복잡도 이론에서 중요한 역할을 한다. 즉, 특이치는 각 1순위 행렬의 에너지를 나타낸다. 특이치는 연관된 1순위 행렬의 중요성을 나타낸다.
필터 프루닝 및 분해는 소형 텐서 근사치 관점에서 높은 관련이 있다. 다양한 애플리케이션 시나리오에서 서로 다른 작동을 사용함에도 불구하고 텐서의 소형 근사치를 조사하는 두 전략 사이에는 힌지 포인트가 있다. 분해는 배치 정규화(BN) 계층에서 출력 채널의 에너지를 정량화하기 위해 수행된다. 중요도 점수를 측정하기 위한 계층으로 배치 정규화 계층을 명시하고 있으나, 이에 한정되는 것은 아니며, 실시예에 따라서는 합성곱 계층, 활성화 계층 등 다른 계층을 적용하는 것 또한 가능하다.
채널 수준 희소성의 효율적인 절충 외에도, BN은 모든 척도에 대한 미니 배치 통계를 사용하여 내부 활성화의 정규화된 값을 제공한다. 이 프로세스는 3D 필터
Figure 112021054491774-pat00017
를 적용하여 수행한다. 여기서 h와 ω는 각각 l번째 BN 층의 높이와 너비를 나타낸다. 읽기 쉽도록 wl에서 첨자 l이 생략된다.
Figure 112021054491774-pat00018
를 기반으로, 본 발명에서는 먼저 원래의 3D 텐서를 2D 텐서
Figure 112021054491774-pat00019
로 재구성한다.
SVD에서, l번째 계층의 채널 출력은 다음과 같이 분해될 수 있다.
[수학식 4]
Figure 112021054491774-pat00020
여기서 U와 V는 각각 왼쪽과 오른쪽 고유 벡터 행렬을 나타내고 S는 특이치
Figure 112021054491774-pat00021
의 대각 행렬을 나타내며 여기서
Figure 112021054491774-pat00022
이다.
[수학식 5]
Figure 112021054491774-pat00023
Figure 112021054491774-pat00024
는 모델의 에너지를 나타낼 수 있는 단수 값의 합인 NN 값을 나타낸다. 여기서, 본 발명의 가설을 기반으로 효율적인 필터 프루닝을 위한 유용한 규칙은 네트워크 전체에 걸쳐 에너지를 최적으로 보존하는 것이다. 이러한 측면에서, 수학식 5에 기초하여 분포를 평가할 수 있을 뿐만 아니라, 프루닝 기준에 적용할 수 있는 특징 공간의 기여도를 동시에 추정할 수 있다. 또한, 모델 손실을 최소화하면서 순위 일관성을 위한 필수적이고 충분한 조건을 제공한다. 따라서 데이터 품질과 데이터 양에 관계없이 일관된 결과를 얻을 수 있다.
본 발명에 따른 에너지 인식 프루닝 방법에 기초한 절차는 표 1의 알고리즘 1과 같다.
[표 1]
Figure 112021054491774-pat00025
도 3은 프루닝 기준 중 선택된 뉴런 집합을 제거할 때 모델의 결정 경계에 대한 질적 영향을 보기 위해 생성된 다중 클래스 토이 데이터셋의 데이터 분포를 나타낸 것이다.
도 3은 토이 모델의 결정 경계가 다섯 가지 기준 모두와 함께 프루닝의 영향 아래에서 어떻게 변화하는지 보여준다.
테일러와 그라디언트는 정확도가 크게 저하된 반면, 가중치와 LRP는 클래스 No.0(갈색)과 클래스 No.2(녹색)와 클래스 No3(검은색) 사이의 분류 영역을 제외하고 프루닝된 모델에서 결정 경계를 합리적으로 보존하고 있음을 알 수 있다.
한편, 본 발명은 다른 속성 중요도 기반 프루닝 기준과 대조적으로 NN은 프루닝 과정 후에도 다중 클래스를 유의하게 분류하여 중요하지 않은 요소를 안전하게 제거할 수 있음을 명확히 알 수 있다. 도 3에서 볼 수 있듯이, NN 기반 프루닝은 다른 기준과 비교하여 의사결정 경계에서 최소한의 변화만 초래한다.
도 4는 본 발명의 일실시예에 따른 컴퓨터 장치의 예를 도시한 블록도이다. 본 발명에 따른 에너지 인식 프루닝 방법은 도 4와 같이 구성된 컴퓨터 장치(400)에 의해 수행될 수 있다.
도 4에 도시된 바와 같이 컴퓨터 장치(400)는 본 발명의 실시예들에 따른 에너지 인식 프루닝 방법을 실행하기 위한 구성요소로서, 메모리(410), 프로세서(420), 통신 인터페이스(430) 그리고 입출력 인터페이스(440)를 포함할 수 있다.
메모리(410)는 컴퓨터에서 판독 가능한 기록매체로서, RAM(random access memory), ROM(read only memory) 및 디스크 드라이브와 같은 비소멸성 대용량 기록장치(permanent mass storage device)를 포함할 수 있다. 여기서 ROM과 디스크 드라이브와 같은 비소멸성 대용량 기록장치는 메모리(410)와는 구분되는 별도의 영구 저장 장치로서 컴퓨터 장치(400)에 포함될 수도 있다. 또한, 메모리(410)에는 운영체제와 적어도 하나의 프로그램 코드가 저장될 수 있다. 이러한 소프트웨어 구성요소들은 메모리(410)와는 별도의 컴퓨터에서 판독 가능한 기록매체로부터 메모리(410)로 로딩될 수 있다. 이러한 별도의 컴퓨터에서 판독 가능한 기록매체는 플로피 드라이브, 디스크, 테이프, DVD/CD-ROM 드라이브, 메모리 카드 등의 컴퓨터에서 판독 가능한 기록매체를 포함할 수 있다. 다른 실시예에서 소프트웨어 구성요소들은 컴퓨터에서 판독 가능한 기록매체가 아닌 통신 인터페이스(430)를 통해 메모리(410)에 로딩될 수도 있다. 예를 들어, 소프트웨어 구성요소들은 네트워크(460)를 통해 수신되는 파일들에 의해 설치되는 컴퓨터 프로그램에 기반하여 컴퓨터 장치(400)의 메모리(410)에 로딩될 수 있다.
프로세서(420)는 기본적인 산술, 로직 및 입출력 연산을 수행함으로써, 컴퓨터 프로그램의 명령을 처리하도록 구성될 수 있다. 명령은 메모리(410) 또는 통신 인터페이스(430)에 의해 프로세서(420)로 제공될 수 있다. 예를 들어 프로세서(420)는 메모리(410)와 같은 기록 장치에 저장된 프로그램 코드에 따라 수신되는 명령을 실행하도록 구성될 수 있다.
통신 인터페이스(430)는 네트워크(460)를 통해 컴퓨터 장치(400)가 다른 장치와 서로 통신하기 위한 기능을 제공할 수 있다. 일례로, 컴퓨터 장치(400)의 프로세서(420)가 메모리(410)와 같은 기록 장치에 저장된 프로그램 코드에 따라 생성한 요청이나 명령, 데이터, 파일 등이 통신 인터페이스(430)의 제어에 따라 네트워크(460)를 통해 다른 장치들로 전달될 수 있다. 역으로, 다른 장치로부터의 신호나 명령, 데이터, 파일 등이 네트워크(460)를 거쳐 컴퓨터 장치(400)의 통신 인터페이스(430)를 통해 컴퓨터 장치(400)로 수신될 수 있다. 통신 인터페이스(430)를 통해 수신된 신호나 명령, 데이터 등은 프로세서(420)나 메모리(410)로 전달될 수 있고, 파일 등은 컴퓨터 장치(400)가 더 포함할 수 있는 저장 매체(상술한 영구 저장 장치)로 저장될 수 있다.
통신 방식은 제한되지 않으며, 네트워크(460)가 포함할 수 있는 통신망(일례로, 이동통신망, 유선 인터넷, 무선 인터넷, 방송망)을 활용하는 통신 방식뿐만 아니라 기기들 간의 근거리 유선/무선 통신 역시 포함될 수 있다. 예를 들어, 네트워크(460)는, PAN(personal area network), LAN(local area network), CAN(campus area network), MAN(metropolitan area network), WAN(wide area network), BBN(broadband network), 인터넷 등의 네트워크 중 하나 이상의 임의의 네트워크를 포함할 수 있다. 또한, 네트워크(460)는 버스 네트워크, 스타 네트워크, 링 네트워크, 메쉬 네트워크, 스타-버스 네트워크, 트리 또는 계층적(hierarchical) 네트워크 등을 포함하는 네트워크 토폴로지 중 임의의 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
입출력 인터페이스(440)는 입출력 장치(450)와의 인터페이스를 위한 수단일 수 있다. 예를 들어, 입력 장치는 마이크, 키보드, 카메라 또는 마우스 등의 장치를, 그리고 출력 장치는 디스플레이, 스피커와 같은 장치를 포함할 수 있다. 다른 예로 입출력 인터페이스(440)는 터치스크린과 같이 입력과 출력을 위한 기능이 하나로 통합된 장치와의 인터페이스를 위한 수단일 수도 있다. 입출력 장치(450)는 컴퓨터 장치(400)와 하나의 장치로 구성될 수도 있다.
또한, 다른 실시예들에서 컴퓨터 장치(400)는 도 4의 구성요소들보다 더 적은 혹은 더 많은 구성요소들을 포함할 수도 있다. 그러나, 대부분의 종래기술적 구성요소들을 명확하게 도시할 필요성은 없다. 예를 들어, 컴퓨터 장치(400)는 상술한 입출력 장치(450) 중 적어도 일부를 포함하도록 구현되거나 또는 트랜시버(transceiver), 각종 데이터베이스 등과 같은 다른 구성요소들을 더 포함할 수도 있다.
이처럼 본 발명의 실시예들에 따르면, SVD에서 파생된 NN을 계산하여 필터를 에너지 비용으로 정량화할 수 있고, 이를 통해 네트워크 복잡성을 효율적으로 감소시킬 수 있다. NN 기반 에너지 인식 프루닝을 통해 네트워크 전체에서 최소한의 에너지로 필터를 제거할 수 있고 네트워크 아키텍처와 데이터셋에 관계없이 최고의 성능을 보장할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 이때, 매체는 컴퓨터로 실행 가능한 프로그램을 계속 저장하거나, 실행 또는 다운로드를 위해 임시 저장하는 것일 수도 있다. 또한, 매체는 단일 또는 수 개의 하드웨어가 결합된 형태의 다양한 기록수단 또는 저장수단일 수 있는데, 어떤 컴퓨터 시스템에 직접 접속되는 매체에 한정되지 않고, 네트워크 상에 분산 존재하는 것일 수도 있다. 매체의 예시로는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등을 포함하여 프로그램 명령어가 저장되도록 구성된 것이 있을 수 있다. 또한, 다른 매체의 예시로, 어플리케이션을 유통하는 앱 스토어나 기타 다양한 소프트웨어를 공급 내지 유통하는 사이트, 서버 등에서 관리하는 기록매체 내지 저장매체도 들 수 있다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 컴퓨터 장치에서 실행되는 네트워크 프루닝 방법에 있어서,
    상기 컴퓨터 장치는 메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서를 포함하고,
    상기 네트워크 프루닝 방법은,
    상기 적어도 하나의 프로세서에 의해, 딥러닝 모델에 대해 에너지 기반 기준을 사용하여 네트워크 단위의 중요도 점수를 측정하는 단계; 및
    상기 적어도 하나의 프로세서에 의해, 상기 중요도 점수에 기초하여 상기 딥러닝 모델의 네트워크 프루닝을 수행하는 단계
    를 포함하고,
    상기 측정하는 단계는,
    상기 딥러닝 모델의 특정 계층에서 출력 채널의 에너지를 정량화하는 분해(decomposition) 접근법을 통해 상기 중요도 점수를 측정하는 것
    을 특징으로 하는 네트워크 프루닝 방법.
  2. 제1항에 있어서,
    상기 측정하는 단계는,
    SVD(singular values decomposition)를 이용하여 상기 중요도 점수를 측정하는 것
    을 특징으로 하는 네트워크 프루닝 방법.
  3. 제1항에 있어서,
    상기 측정하는 단계는,
    SVD(singular values decomposition)를 통한 NN(nuclear-norm)을 사용하여 상기 네트워크 단위를 에너지 비용으로 정량화하는 단계
    를 포함하는 네트워크 프루닝 방법.
  4. 제1항에 있어서,
    상기 측정하는 단계는,
    모든 입력에 대해 각 필터 맵을 평탄화(flattening) 및 결합(concatenating)하는 단계; 및
    SVD(singular values decomposition)를 이용하여 각 필터의 중요도 점수를 나타내는 NN(nuclear-norm) 값을 검색하는 단계
    를 포함하는 네트워크 프루닝 방법.
  5. 제1항에 있어서,
    상기 수행하는 단계는,
    사전 훈련된 상기 딥러닝 모델과 프루닝된 모델의 에너지 차이를 최소화하는 정규화 함수를 통해 상기 네트워크 프루닝을 수행하는 것
    을 특징으로 하는 네트워크 프루닝 방법.
  6. 컴퓨터 장치에 있어서,
    메모리에 포함된 컴퓨터 판독가능한 명령들을 실행하도록 구성된 적어도 하나의 프로세서
    를 포함하고,
    상기 적어도 하나의 프로세서는,
    딥러닝 모델에 대해 에너지 기반 기준을 사용하여 네트워크 단위의 중요도 점수를 측정하는 과정; 및
    상기 중요도 점수에 기초하여 상기 딥러닝 모델의 네트워크 프루닝을 수행하는 과정
    을 처리하고,
    상기 적어도 하나의 프로세서는,
    상기 딥러닝 모델의 특정 계층에서 출력 채널의 에너지를 정량화하는 분해(decomposition) 접근법을 통해 상기 중요도 점수를 측정하는 것
    을 특징으로 하는 컴퓨터 장치.
  7. 제6항에 있어서,
    상기 적어도 하나의 프로세서는,
    SVD(singular values decomposition)를 이용하여 상기 중요도 점수를 측정하는 것
    을 특징으로 하는 컴퓨터 장치.
  8. 제6항에 있어서,
    상기 적어도 하나의 프로세서는,
    SVD(singular values decomposition)를 통한 NN(nuclear-norm)을 사용하여 상기 네트워크 단위를 에너지 비용으로 정량화하는 것
    을 특징으로 하는 컴퓨터 장치.
  9. 제6항에 있어서,
    상기 적어도 하나의 프로세서는,
    모든 입력에 대해 각 필터 맵을 평탄화(flattening) 및 결합(concatenating)하고,
    SVD(singular values decomposition)를 이용하여 각 필터의 중요도 점수를 나타내는 NN(nuclear-norm) 값을 검색하는 것
    을 특징으로 하는 컴퓨터 장치.
  10. 제6항에 있어서,
    상기 적어도 하나의 프로세서는,
    사전 훈련된 상기 딥러닝 모델과 프루닝된 모델의 에너지 차이를 최소화하는 정규화 함수를 통해 상기 네트워크 프루닝을 수행하는 것
    을 특징으로 하는 컴퓨터 장치.
KR1020210060862A 2021-05-11 2021-05-11 에너지 보존을 통한 심층 신경망 경량화 기법 및 장치 KR102507014B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210060862A KR102507014B1 (ko) 2021-05-11 2021-05-11 에너지 보존을 통한 심층 신경망 경량화 기법 및 장치
US17/742,269 US11875263B2 (en) 2021-05-11 2022-05-11 Method and apparatus for energy-aware deep neural network compression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210060862A KR102507014B1 (ko) 2021-05-11 2021-05-11 에너지 보존을 통한 심층 신경망 경량화 기법 및 장치

Publications (2)

Publication Number Publication Date
KR20220153365A KR20220153365A (ko) 2022-11-18
KR102507014B1 true KR102507014B1 (ko) 2023-03-08

Family

ID=84104003

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210060862A KR102507014B1 (ko) 2021-05-11 2021-05-11 에너지 보존을 통한 심층 신경망 경량화 기법 및 장치

Country Status (2)

Country Link
US (1) US11875263B2 (ko)
KR (1) KR102507014B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863279B (zh) * 2023-09-01 2023-11-21 南京理工大学 用于移动端模型轻量化的基于可解释指导的模型蒸馏方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Koen Goetschalckx et al., Efficiently Combining SVD, Pruning, Clustering and Retraining for Enhanced Neural Network Compression, EMDL’18, 1-6pages (2018. 6. 15.)*
Tien-Ju Yang, Designing Energy-Efficient Convolutional Neural Networks using Energy-Aware Pruning, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 5687-5695pages*

Also Published As

Publication number Publication date
KR20220153365A (ko) 2022-11-18
US11875263B2 (en) 2024-01-16
US20220374717A1 (en) 2022-11-24

Similar Documents

Publication Publication Date Title
Phan et al. Stable low-rank tensor decomposition for compression of convolutional neural network
US20190278600A1 (en) Tiled compressed sparse matrix format
RU2641447C1 (ru) Способ обучения глубоких нейронных сетей на основе распределений попарных мер схожести
Yaseen et al. Deep learning hyper-parameter optimization for video analytics in clouds
US20230115700A1 (en) Automated generation of machine learning models
CN116011510A (zh) 用于优化机器学习架构的框架
CN110956272A (zh) 实现数据处理的方法和系统
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
JP6950756B2 (ja) ニューラルネットワークのランク最適化装置および最適化方法
AU2019371339B2 (en) Finite rank deep kernel learning for robust time series forecasting and regression
US11763150B2 (en) Method and system for balanced-weight sparse convolution processing
CN109740734B (zh) 一种利用优化神经元空间排布的卷积神经网络的图像分类方法
WO2020149971A2 (en) Robust and data-efficient blackbox optimization
US20200265307A1 (en) Apparatus and method with multi-task neural network
KR102507014B1 (ko) 에너지 보존을 통한 심층 신경망 경량화 기법 및 장치
EP4009239A1 (en) Method and apparatus with neural architecture search based on hardware performance
CA3143928A1 (en) Dynamic image resolution assessment
CN114358274A (zh) 训练用于图像识别的神经网络的方法和设备
JP7150651B2 (ja) ニューラルネットワークのモデル縮約装置
KR102289396B1 (ko) 군장비 수리부속 품목 수요예측의 고도화를 위한 강화학습 적용
EP4109374A1 (en) Data processing method and device
Nsimba et al. An information-theoretic wavelet-based texture descriptor using Gaussian Markov random field models
WO2023162133A1 (ja) 学習装置、学習方法および学習プログラム
US11429864B1 (en) System and method for bank-balanced sparse activation and joint-activation-weight-sparse training of neural networks
US11908193B2 (en) Obtaining custom artificial neural network architectures

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right