KR102124171B1 - 엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템 - Google Patents

엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템 Download PDF

Info

Publication number
KR102124171B1
KR102124171B1 KR1020180117221A KR20180117221A KR102124171B1 KR 102124171 B1 KR102124171 B1 KR 102124171B1 KR 1020180117221 A KR1020180117221 A KR 1020180117221A KR 20180117221 A KR20180117221 A KR 20180117221A KR 102124171 B1 KR102124171 B1 KR 102124171B1
Authority
KR
South Korea
Prior art keywords
weights
pruning
entropy
weight
equation
Prior art date
Application number
KR1020180117221A
Other languages
English (en)
Other versions
KR20200037700A (ko
Inventor
강상길
허청환
Original Assignee
인하대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인하대학교 산학협력단 filed Critical 인하대학교 산학협력단
Priority to KR1020180117221A priority Critical patent/KR102124171B1/ko
Publication of KR20200037700A publication Critical patent/KR20200037700A/ko
Application granted granted Critical
Publication of KR102124171B1 publication Critical patent/KR102124171B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 콘볼루션 신경망(Convolutional Neural Networks)을 이용한 학습에 있어서, 학습의 부하를 줄이면서도 정확도를 유지할 수 있는 방법 및 시스템에 관한 것으로, 더욱 상세하게는 엔트로피에 기반한 가중치 평가에 의한 콘볼루션 신경망의 가지치기 방법 및 시스템에 관한 것으로, NN(Neural Networks)을 이용한 학습 방법에 있어서, CNN의 복수의 가중치들의 엔트로피에 기반한 정보의 양을 연산하는 (a) 단계; 상기 복수의 가중치들 중 가지치기할 가중치를 결정하기 위한 임계값을 연산하는 (b) 단계; 및 상기 정보의 양이 임계값 이하의 값을 가지는 가중치들을 가지치기하는 (c) 단계;를 포함하는 구성을 개시한다.

Description

엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템{ENTROPY-BASED PRUNING METHOD AND SYSTEM FOR NEURAL NETWORKS}
본 발명은 콘볼루션 신경망(Convolutional Neural Networks)을 이용한 학습에 있어서, 학습의 부하를 줄이면서도 정확도를 유지할 수 있는 방법 및 시스템에 관한 것으로, 더욱 상세하게는 엔트로피에 기반한 가중치 평가에 의한 콘볼루션 신경망의 가지치기 방법 및 시스템에 관한 것이다.
깊은 신경망(DNN)이 다양한 분야에 성공적으로 적용되었다. 특히 컨벌루션뉴럴네트워크(CNN)은 폐쇄회로(CCTV)를 통해 촬영된 비디오에서 위험한 상황을 탐지하고, 콘서트를 통해 음성을 인식하며, 해커의 정보를 이용한 컴퓨터 시각 및 음향 모델링에 매우 능하다. 이러한 복잡한 작업을 실행하기 위해, DNN(CNN과 마찬가지로)은 대개 더 무거운 레이어와 엄청난 양의 학습 매개변수(또는 가중치)로 설계된다. 이 DNN은 일반적으로 큰 클라우드 서버에 있어야 작동시킬 수 있다. 그러나 원활한 운영을 위해서는 1) 리소스가 제한된 클라우드 서버와 휴대용 장치(스마트폰, 가전 제품, 군사 무기, 랩톱 등) 간의 원활한 데이터 전송을 유지하기 위한 안정적인 통신 환경과 2) 정보 전송으로 인해 취약해진 개인정보 보안이 필요하다. 컴퓨팅 및 메모리 리소스가 제한된 휴대용 장치에 DNN을 직접 포트하기 위해 일부 연구자는 DNN 구조의 압축과 높은 컴퓨팅 및 메모리 학습 복잡성을 완화하기 위해 DNN의 가중치를 제거한다.
신경망(NN)의 연산 복잡성을 줄이기 위해 다양한 압축 접근법이 제안되었다. 대부분의 방법은 가중치 매트릭스를 분해하고 완전히 연결된 뉴럴네트워크(NN)에 기초한 주요 구성 요소 분석을 통해 중요한 가중치를 추출한 다음 추출된 가중치를 사용하여 압축 구조로 개조한다. 또한 많은 수의 가중치를 정량화하거나 클러스터링하여 NN을 소수의 가중치와 공유하는 방식으로 압축할 수 있다. 기존 기술은 입력 기능 간의 상관 관계 분석을 통해 부분적으로 연결된 NN을 모델링할 수 있는 압축 기술이 있었다. 부분적으로 연결된 NN은 상관된 입력을 위해 숨겨진 레이어에 연결을 연결하고 관련되지 않은 입력을 위해 연결을 분리하여 구조화된다. 이 방법은 정확도를 향상시켰지만 위의 다른 압축 방법처럼 압축 성능이 만족스럽지 않았다.
또 다른 방법(정리 접근 방식)은 second derivative을 사용한 손실 균형, 테일러 확장을 사용한 손실 근사치와 같은 다양한 학문적 방법을 사용하여 NN 출력에 대한 가중치의 중요성을 판단함으로써 비중요 가중치를 제거한다. NN은 학습 및 백프로파게이션 훈련 기법을 적용할 때, 이러한 방법에서 도출된 지표는 높은 계산적 복잡성을 필요로 한다. 절대값 비교를 사용한 반복 소거 방법은 위의 방법에 비해 메트릭이 더 단순하다. 하지만, 그것은 정확성을 떨어트린다. 상기 방법은 훈련을 종료한 후 가중치 값의 크기에 따라 가중치의 중요성을 결정한다. 가중치의 값이 설정된 임계값보다 작으면 작은 값이 출력에 거의 영향을 미치지 않는다는 가정이 있기 때문에 가중치는 제거된다. 기존 기술은 훈련 중 가중치가 출력에 미치는 영향을 고려하지 않기 때문에 원래 NN의 정확도가 저하되지 않지만 네트워크 압축 성능에 제한이 있다. 또한 교육을 마친 후 가중치 값에 대한 통계적 분석을 바탕으로 임계값을 정하고, 상대적으로 중요하지 않은 가중치를 잘라내고 정확도가 저하되기 전까지 이 프로세스를 반복하는 것은 시간이 많이 걸리는 작업이다.
따라서, 본 발명은 상기한 바와 같은 문제점을 해결하기 위한 것으로서, 훈련하는 동안 가중치가 출력에 기여하는 정보의 평균 양을 고려하여 임계치를 결정한다. NN은 블랙박스 방식으로 훈련되므로 훈련 중 가중치의 기여도에 대한 정보를 엄격하게 식별하기는 어렵다. 따라서 본 발명에서 정보는 정보 이론에 일반적으로 사용되는 엔트로피 기법을 사용함으로써 확률적으로 측정된다.
본 발명은 엔트로피 기반 정보를 일반적으로 사용되는 가우스 분포로 가정한 가중치의 통계 분포에 매핑한다. 매핑에서 임계값의 메트릭을 도출하여 훈련 중 가중치의 중요성을 정량화한다. 임계값은 교육이 종료될 때까지 모든 반복 중에 반복적으로 변경될 수 있다.
상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법은 신경망(Neural Networks)을 이용한 학습 방법에 있어서, CNN의 복수의 가중치들의 엔트로피에 기반한 정보의 양을 연산하는 (a) 단계; 상기 복수의 가중치들 중 가지치기할 가중치를 결정하기 위한 임계값을 연산하는 (b) 단계; 및 상기 정보의 양이 임계값 이하의 값을 가지는 가중치들을 가지치기하는 (c) 단계;를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 (a) 단계 내지 (c) 단계는 상기 신경망이 학습을 수행하는 중에 수행되는 것일 수 있다.
본 발명의 일 실시 예에 따르면, 상기 임계값은 하기 수학식 1을 연산해 얻을 수 있다.
[수학식 1]
Figure 112018097025781-pat00001
(여기서,
Figure 112018097025781-pat00002
는 가중치의 표준 편차, α는 조정 계수이다.)
본 발명의 일 실시 예에 따르면, 상기 정보의 양은 하기 수학식 2를 연산해 얻을 수 있다.
[수학식 2]
Figure 112018097025781-pat00003
(여기서,
Figure 112018097025781-pat00004
는 가중치의 표준 편차,
Figure 112018097025781-pat00005
은 n번째 가중치
Figure 112018097025781-pat00006
는 가중치의 평균이다.)
상기한 문제를 해결하기 위한 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템은 신경망(Neural Networks)을 이용한 학습 시스템에 있어서, 신경망(Neural Networks)을 이용한 학습을 수행하는 학습부; CNN의 복수의 가중치들의 엔트로피에 기반한 정보의 양 및 상기 복수의 가중치들 중 가지치기할 가중치를 결정하기 위한 임계값을 연산하는 연산부; 및 상기 정보의 양이 임계값 이하의 값을 가지는 제거 가중치들을 가지치기하는 가지치기부;를 포함할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 연산부 및 가지치기부는, 상기 학습부가 학습을 수행하는 중에 연산 및 가지치기를 수행할 수 있다.
본 발명의 일 실시 예에 따르면, 상기 임계값은 하기 수학식 1을 연산해 얻을 수 있다.
[수학식 1]
Figure 112018097025781-pat00007
(여기서,
Figure 112018097025781-pat00008
는 가중치의 표준 편차, α는 조정 계수이다.)
본 발명의 일 실시 예에 따르면, 상기 정보의 양은 하기 수학식 2를 연산해 얻을 수 있다.
[수학식 2]
Figure 112018097025781-pat00009
(여기서,
Figure 112018097025781-pat00010
는 가중치의 표준 편차,
Figure 112018097025781-pat00011
은 n번째 가중치
Figure 112018097025781-pat00012
는 가중치의 평균이다.)
본 발명에 따르면, 기존의 방법보다 압축보다 성능이 뛰어나며, 기존 압축 방법인 MNIST(Mixed National Institute of Standards and Technology) 데이터를 사용하여 처리 시간의 오버헤드를 줄여준다.
또한, 학습 중에 가중치에 따른 가지치기를 수행하여 연산 중간에도 시스템의 부하를 감소시킬 수 있다.
한편, 본 발명의 효과는 이상에서 언급한 효과들로 제한되지 않으며, 이하에서 설명할 내용으로부터 통상의 기술자에게 자명한 범위 내에서 다양한 효과들이 포함될 수 있다.
도 1은 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법의 개념도이다.
도 2는 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템의 블록도이다.
도 3은 신경망(Neural Networks)의 학습 곡선이다.
도 4는 본 발명의 일 실시 예에 따른 문턱, 엔트로피 및 반복 8000에서 각 레이어의 작은 값의 가중치 정보를 도시한 그래프이다.
도 5는 본 발명의 일 실시 예에 따른 각 레이어에 대한 αk의 값에 따른 훈련 정확도이다.
도 6는 본 발명의 일 실시 예에 따른 훈련 중 α1 = 0.5, α2 = 0.7, α3 = 1.1, α4 = 0.6 인 각 레이어의 압축률이다.
도 7은 테스트 데이터의 정확도와 8000에서 시작하는 1000 회 반복마다의 전체 압축률을 도시한 것이다.
도 8은 본 발명의 일 실시 예에 따른 방법과 기존의 방법의 압축 성능을 비교한 것이다.
도 9은 본 발명의 일 실시 예에 방법과 기존의 방법의 가지치기 속도를 비교한 것이다.
도 10은 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법의 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 '엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템'을 상세하게 설명한다. 설명하는 실시 예들은 본 발명의 기술 사상을 당업자가 용이하게 이해할 수 있도록 제공되는 것으로 이에 의해 본 발명이 한정되지 않는다. 또한, 첨부된 도면에 표현된 사항들은 본 발명의 실시 예들을 쉽게 설명하기 위해 도식화된 도면으로 실제로 구현되는 형태와 상이할 수 있다.
한편, 이하에서 표현되는 각 구성부는 본 발명을 구현하기 위한 예일 뿐이다. 따라서, 본 발명의 다른 구현에서는 본 발명의 사상 및 범위를 벗어나지 않는 범위에서 다른 구성부가 사용될 수 있다.
또한, 각 구성부는 순전히 하드웨어 또는 소프트웨어의 구성만으로 구현될 수도 있지만, 동일 기능을 수행하는 다양한 하드웨어 및 소프트웨어 구성들의 조합으로 구현될 수도 있다. 또한, 하나의 하드웨어 또는 소프트웨어에 의해 둘 이상의 구성부들이 함께 구현될 수도 있다.
또한, 어떤 구성요소들을 '포함'한다는 표현은, '개방형'의 표현으로서 해당 구성요소들이 존재하는 것을 단순히 지칭할 뿐이며, 추가적인 구성요소들을 배제하는 것으로 이해되어서는 안 된다.
도 1은 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법의 개념도이다.
도 1을 참조하면, 엔트로피 기반 가중치 제거 방법의 전체 과정을 개략적으로 도시 한 것으로, CNN을 학습하는 동안 가중치의 엔트로피를 통계적 가중치로 매핑하는 가지치기를 위한 임계값을 결정할 수 있다. 훈련을 반복하는 동안 임계값은 엔트로피 및 가중치의 분포에 따라 동적으로 결정될 수 있다. 이러한 프로세스는 훈련이 끝날 때까지 반복적으로 계속 진행되므로 정리된 CNN이 도 1의 오른쪽에 표시된 것과 같이 가중치가 일부 제거된 형태를 가질 수 있다. 엔트로피는 하기 수학식 1에서 볼 수 있듯이 가중치의 확률 정보를 기대하여 얻을 수 있다.
[수학식 1]
Figure 112018097025781-pat00013
여기서 E[W]는 가중치의 엔트로피이고, ωk는 CNN의 k번째 가중치이고, Pr(ωk)은 가중치가 발생할 확률이며, A[ωk]는 정보의 양이다. A[ωk] 및 Pr(ωk)은 반비례 관계이다. A[ωk]는 하기 수학식 2에서와 같이 가중치의 확률론적 사건 로그로 추정할 수 있다.
[수학식 2]
Figure 112018097025781-pat00014
CNN의 불확실성이 크다는 것은 훈련 중 가중치의 출력 기여도에 대한 정보를 얻을 수 있다는 것을 의미한다. 다시 말해서 엔트로피가 높으면 더 많은 정보를 얻을 수 있다. 반대로 엔트로피가 낮으면, CNN은 이미 안정된 상태에 있고, 이용할 수 있는 정보가 거의 없다. 엔트로피가 높을 때 가지를 치면 가중치와 관련된 정보를 더 쉽게 얻을 수 있다. 따라서 현재 엔트로피보다 낮은 정보를 가진 가중치는 중요하지 않은 것으로 간주될 수 있다. 따라서 현재 엔트로피보다 낮은 정보를 가진 가중치가 더 잘 제거될 수 있다. 수학식 2와 같이 정보는 확률론적 분포를 사용하여 계산한다. 데이터 크기가 클 경우 확률 분포는 중심 극한 정리에 따라 가우스 분포로 가정할 수 있다. 일반적으로 CNN의 가중치는 매우 많기 때문에, 본 발명은 다음과 같은 수학식 3과 같이 가중치가 가우스 분포를 가지고 있다는 가정 하에 가우스 분포에 대한 수식을 도출한다.
[수학식 3]
Figure 112018097025781-pat00015
여기서 μω는 가중치 평균이고, σω는 가중치 표준 편차이며, g(ωkω, σω)는 가중치의 분포다. 일반적으로, 가중치의 값이 매우 작으면, 가중치의 산출 기여도는 중요하지 않은 것으로 간주되므로, 훈련 중에 가중치를 줄일 수 있다. 이러한 관점에서, 본 발명에서는 그 가중치의 값이 작다는 이유만으로 안정적이지 않다고 판단할 수 없기 ‹š문에 작은 가중치 값에 대한 잠재성을 분석할 필요가 있다. 훈련 반복 중에는 훈련 성과가 수렴될 때까지 작은 값의 가중치의 기여도가 증가될 수도 있다. 작은 가중치의 잠재력은 엔트로피를 사용하여 추정할 수 있다. 수학식 2에서 볼 수 있듯이 가중치의 값이 작고 μω에 가까울 경우 가우스 분포가 평균에 및 근처에 있을 확률이 가장 높기 때문에 가중치의 정보 양이 작다. 그것은 다음 반복에 거의 기여하지 않는 것으로 간주될 수 있다. 따라서 가지치기를 하는 것은 훈련 성능을 해치지 않는다. 가중치 및 엔트로피 공식의 가우스 분포를 사용하면 수학식 3을 수학식 1에 대입시켜 다음과 같은 수학식 4를 얻을 수 있다.
[수학식 4]
Figure 112018097025781-pat00016
여기서 σω는 가중치의 표준 편차다. 가중치는 가우스 분포로 가정되기 때문에 다음과 같이 수학식 5에 가중치 분포를 간단한 확률 간격으로 통합함으로써 수학식 2을 사용하여 n번째 중량, ωn의 정보를 얻을 수 있다.
[수학식 5]
Figure 112018097025781-pat00017
수학식 5을 사용하여 계산된 ωn, A[ωn]에 대한 정보량이 수학식 4을 사용하여 계산된 임계값보다 작으면 훈련 중 중요하지 않은 가중치로 판단하여 상기 ωn을 삭제할 수 있다. 그러나 가중치의 분포가 일반적으로 가우스 분포에 완전히 맞지 않기 때문에 수학식 5와 수학식 4를 직접 비교하면 무게의 중요성이 결정될 수 없다. 가지치기 결정은 수학식 6과 같이 조정해야 한다.
[수학식 6]
Figure 112018097025781-pat00018
여기서 α는 조정 계수이다.
일반적으로, 가중치의 수는 완전히 연결된 레이어가 CNN의 커널을 사용하는 컨벌루션레이어의 수보다 훨씬 더 크다. 이것은 완전히 연결된 레이어의 가중치 분포가 가우스 분포에 가깝다는 것을 의미한다. 상기 수학식 6은 완전히 연결된 레이어의 가중치 가지치기에 잘 맞는다. 컨벌루션 레이어의 임계치는 완전히 연결된 층보다 약간 큰 α의 값으로 설정해야 한다. 또한, 훈련 초기에 임계값을 결정하고 가중치를 줄이기 시작할 때 문제가 된다. 훈련을 시작할 때부터 가지치기 작업을 수행하면 가중치가 임의로 초기화되기 때문에 가중치에 대한 엔트로피 정보가 신뢰할 수 없다. 따라서, 가지치기 시작점을 찾기 위해 학습 비용과 학습 중 결과 노드 사이의 비교에서 안정적인 상태를 제공하는 학습 곡선을 사용할 수 있다. 일단 시작점이 결정되면, 본 발명의 일 실시 예에 따른 가지치기 프로세스는 정확도가 저하되지 않는 한 반복적으로 계속될 수 있다.
도 2는 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템의 블록도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템은 연산부(210), 가지치기부(220) 및 학습부(230)를 포함할 수 있다.
상기 연산부(210)는 시스템에 포함되는 CNN의 가중치의 정보의 양을 계산할 수 있다. 상기 연산부(210)는 시스템에 포함되는 CNN의 가중치를 가지치기 하기 위한 임계값을 연산할 수 있다.
상기 연산부(210)는 엔트로피는 하기 수학식 1에서 볼 수 있듯이 가중치의 확률 정보를 기대하여 얻을 수 있다.
[수학식 1]
Figure 112018097025781-pat00019
여기서 E[W]는 가중치의 엔트로피이고, ωk는 CNN의 k번째 가중치이고, Pr(ωk)은 가중치가 발생할 확률이며, A[ωk]는 정보의 양이다. A[ωk] 및 Pr(ωk)은 반비례 관계이다.
상기 연산부(210)는 A[ωk]를 하기 수학식 2에서와 같이 가중치의 확률론적 사건 로그로 추정할 수 있다.
[수학식 2]
Figure 112018097025781-pat00020
CNN의 불확실성이 크다는 것은 훈련 중 가중치의 출력 기여도에 대한 정보를 얻을 수 있다는 것을 의미한다. 다시 말해서 엔트로피가 높으면 더 많은 정보를 얻을 수 있다. 반대로 엔트로피가 낮으면, CNN은 이미 안정된 상태에 있고, 이용할 수 있는 정보가 거의 없다. 엔트로피가 높을 때 가지를 치면 가중치와 관련된 정보를 더 쉽게 얻을 수 있다. 따라서 현재 엔트로피보다 낮은 정보를 가진 가중치는 중요하지 않은 것으로 간주될 수 있다. 따라서 현재 엔트로피보다 낮은 정보를 가진 가중치가 더 잘 제거될 수 있다. 수학식 2와 같이 정보는 확률론적 분포를 사용하여 계산한다. 데이터 크기가 클 경우 확률 분포는 중심 극한 정리에 따라 가우스 분포로 가정할 수 있다. 일반적으로 CNN의 가중치는 매우 많기 때문에, 상기 연산부(210)는 다음과 같은 수학식 3과 같이 가중치가 가우스 분포를 가지고 있다는 가정 하에 가우스 분포를 추정할 수 있다.
[수학식 3]
Figure 112018097025781-pat00021
여기서 μω는 가중치 평균이고, σω는 가중치 표준 편차이며, g(ωkω, σω)는 가중치의 분포다. 일반적으로, 가중치의 값이 매우 작으면, 가중치의 산출 기여도는 중요하지 않은 것으로 간주되므로, 훈련 중에 가중치를 줄일 수 있다. 이러한 관점에서, 본 발명에서는 그 가중치의 값이 작다는 이유만으로 안정적이지 않다고 판단할 수 없기 ‹š문에 작은 가중치 값에 대한 잠재성을 분석할 수 있다. 훈련 반복 중에는 훈련 성과가 수렴될 때까지 작은 값의 가중치의 기여도가 증가될 수도 있다. 작은 가중치의 잠재력은 엔트로피를 사용하여 추정할 수 있다. 수학식 2에서 볼 수 있듯이 가중치의 값이 작고 μω에 가까울 경우 가우스 분포가 평균에 및 근처에 있을 확률이 가장 높기 때문에 가중치의 정보 양이 작다. 그것은 다음 반복에 거의 기여하지 않는 것으로 간주될 수 있다. 따라서 가지치기를 하는 것은 훈련 성능을 해치지 않는다. 상기 연산부(210)는 다음과 같은 수학식 4를 연산해 엔트로피의 값을 얻을 수 있다.
[수학식 4]
Figure 112018097025781-pat00022
여기서 σω는 가중치의 표준 편차다. 가중치는 가우스 분포로 가정되기 때문에 상기 연산부(210)는 다음과 같이 수학식 5에 가중치 분포를 간단한 확률 간격으로 통합함으로써 수학식 2을 사용하여 n번째 중량, ωn의 정보를 얻을 수 있다.
[수학식 5]
Figure 112018097025781-pat00023
상기 가지치기부(220)는 상기 연산부(210)의 연산 결과를 이용해 가지치기할 가중치를 결정하고 제거할 수 있다. 상기 가지치기부(220)는 상기 CNN의 복수의 가중치 중 정보의 양이 상기 임계값 이하인 가중치를 제거할 수 있다. 상기 임계값은
Figure 112018097025781-pat00024
일 수 있다.
상기 가지치기부(220)는 수학식 5을 사용하여 계산된 ωn, A[ωn]에 대한 정보량이 수학식 4을 사용하여 계산된 임계값보다 작으면 훈련 중 중요하지 않은 가중치로 판단하여 상기 ωn을 삭제할 수 있다. 그러나 가중치의 분포가 일반적으로 가우스 분포에 완전히 맞지 않기 때문에 수학식 5와 수학식 4를 직접 비교하면 무게의 중요성이 결정될 수 없다. 가지치기 결정은 수학식 6과 같이 조정해야 한다.
[수학식 6]
Figure 112018097025781-pat00025
여기서 α는 조정 계수이다.
상기 가지치기부(220)는 컨벌루션 레이어의 임계치는 완전히 연결된 층보다 약간 큰 α의 값으로 설정할 수 있다. 또한, 상기 가지치기부(220)는 훈련 초기에 임계값을 결정하고 가중치를 줄이기 시작할 때 문제가 된다. 훈련을 시작할 때부터 가지치기 작업을 수행하면 가중치가 임의로 초기화되기 때문에 가중치에 대한 엔트로피 정보가 신뢰할 수 없다. 따라서, 가지치기 시작점을 찾기 위해 학습 비용과 학습 중 결과 노드 사이의 비교에서 안정적인 상태를 제공하는 학습 곡선을 사용할 수 있다. 일단 시작점이 결정되면, 본 발명의 일 실시 예에 따른 가지치기 프로세스는 정확도가 저하되지 않는 한 반복적으로 계속될 수 있다.
상기 α는 상기 시스템에 포함되는 복수의 컨벌루션 레이어 및 복수의 완전 연결 레이어가 각각의 값을 가질 수 있다.
상기 학습부(230)는 CNN을 이용한 학습 또는 트레이닝을 수행할 수 있다. 상기 학습부(230)가 학습 또는 트레이닝을 수행하는 동안 상기 연산부(210) 및 상기 가지치기부(220)는 상기 학습부(230)의 CNN의 가중치를 가지치기할 수 있다. 상기 학습부(230)는 상기 임계값 기준에 따라 일부 가중치를 제거하여 가지치기된 CNN을 이용해 계속해서 학습 또는 트레이닝을 수행할 수 있다.
상기 연산부(210) 및 상기 가지치기부(220)는 상기 학습부(230)가 학습을 수행하는 동안 반복적으로 가지치기를 수행할 수 있다. 예를 들어, 가지치기 후 학습을 통해 안정화되는 가중치가 생기면 추가적 작업을 통해 추가적 가지치기를 수행해 학습의 부하를 감소시켜 학습 속도를 점진적으로 증가시킬 수 있다.
도 3은 신경망(Neural Networks)의 학습 곡선이다.
도 3을 참조하면, 본 바발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법은 2 개의 컨벌루션 레이어와 2 개의 완전히 연결된 레이어로 구성된 CNN으로 구성된 LeNet-5 네트워크를 포함할 수 있다. 입력 레이어의 다음 레이어인 첫 번째 콘볼루션 레이어 (C1)에는 500 개의 가중치가 포함될 수 있다. 제 1 콘볼 루션 레이어의 다음 층인 제 2 콘볼 루션 레이어(C2)는 25,000 개의 가중치를 가지며; 제 1 완전 연결 레이어(F1)는 400,000 가중치를 가지며, 제 2 완전 연결 레이어(F2)는 5000 개의 가중치를 갖는다. CNN은 TensorFlow 프레임 워크를 사용하여 50,000 개의 이미지로 학습을 하고 MNIST 데이터 세트에서 10,000 개의 이미지로 테스트 했다. 본 발명의 일 실시 예에서 컴퓨터의 사양에는 NVIDIA Titan X Pascal 그래픽 처리 장치가 포함될 수 있다. 본 발명은 TensorFlow를 수정하여 훈련 중에 잘라내 진 체중을 무시하는 마스크를 추가할 수 있다. 도 3은 약 8000 회 반복에서 학습 곡선이 채도 방향으로 수렴한다는 것을 보여준다. 본 발명의 일 실시 예에서 반복 8000회에서 가지치기를 시작할 수 있다.
도 4는 본 발명의 일 실시 예에 따른 문턱, 엔트로피 및 반복 8000에서 각 레이어의 작은 값의 가중치 정보를 도시한 그래프이다.
도 4를 참조하면, 도 4 (a), 도 4 (b), 도 4 (c), 도 4 (d)는 각각 C1, C2, F1, F2의 가중치 정보를 도시한 것이다. 엔트로피와 각 레이어에 대한 작은 가중치 정보의 양에서 결정된 임계 값에 의한 가지 치기 프로세스를 확인할 수 있다. 본 발명의 일 실시 예에서 반복 8000회에서 시작하여 매 100 회 반복 한 후에 가지치기를 수행할 수 있다. 반복 횟수 8000에서 도 4의 위 그래프는 도 4의 아래 그래프인 가중치 분포에서 상기 수학식 5를 사용하여 계산 된 각 가중치의 플롯이다. 본 발명읠 일 실시 예에서 이러한 분포를 바탕으로 수학식 4를 이용하여 계산 된 C1, C2, F1, F2의 엔트로피는 각각 1.66, 1.52, 1.16 및 1.71이다. 도 4 아래 그래프에서와 같이 가중치 분포가 완벽하게 가우스가 아니기 때문에 엔트로피를 직접 적용 할 수 없다.
도 5는 본 발명의 일 실시 예에 따른 각 레이어에 대한 αk의 값에 따른 훈련 정확도이다.
도 5를 참조하면, 수학식 6에서 확인할 수 있는 바와 같이, 각 레이어에 대한 αk의 값에 따른 훈련 정확도이다. αk의 값은 0.1에서 1.2까지 0.1씩 증가할 수 있다. C1의 경우, α1 = 0.1에 대한 훈련 정확도는 98.89 %이며, α1의 값을 증가 시키면 α1 = 0.5까지 눈에 띄는 성능 저하는 없다. 그러나 정확도는 α1 = 0.6에서 현저하게 떨어진다. 따라서, 0.5는 제 1 콘볼 루션 레이어의 최적 조정 인자일 수 있다. 이는 C1 (1.66)에 대한 엔트로피의 값을 가지 치기 후에 정확도를 떨어 뜨리지 않기 위해 0.83으로 조정해야 함을 의미한다. 같은 방식으로, C2, F1 및 F2에 대한 최적 조정 계수는 각각 α2 = 0.7, α3 = 1.1 및 α4 = 0.6으로 설정될 수 있다. 따라서, C2, F1 및 F2의 엔트로피는 각각 1.52, 1.16 및 1.71에서 1.05, 1.27 및 1.02로 조정된다. 상기 결과에서, C1은 가장 많이 조정되었지만 F1은 가장 작다. 왜냐하면 C1은 이전 섹션에서 설명한 것처럼 F1 (400,000)에 비해 매우 적은 가중치 (500)를 갖기 때문이다.
도 6는 본 발명의 일 실시 예에 따른 훈련 중 α1 = 0.5, α2 = 0.7, α3 = 1.1, α4 = 0.6 인 각 레이어의 압축률이다.
도 6을 참조하면, 훈련 중 α1 = 0.5, α2 = 0.7, α3 = 1.1, α4 = 0.6 인 각 레이어의 압축률을 보여준다. C1의 압축률은 C2, F1 및 F2에 비해 점차적으로 증가한다. 이는 가중치의 제거가 입력 레이어에 가까울수록 성능에 더 민감하기 때문이다.
도 7은 테스트 데이터의 정확도와 8000에서 시작하는 1000 회 반복마다의 전체 압축률을 도시한 것이다.
도 7을 참조하면, 테스트 데이터의 정확도와 8000에서 시작하는 1000 회 반복마다의 전체 압축률을 보여준다. 결과에서 볼 수 있듯이 테스트 데이터의 정확도는 잘라낸 CNN에 대해 허용 가능한 수준에 도달하며 전체 압축률은 94 %이다.
도 8은 본 발명의 일 실시 예에 따른 방법과 기존의 방법의 압축 성능을 비교한 것이고, 도 9는 본 발명의 일 실시 예에 방법과 기존의 방법의 가지치기 속도를 비교한 것이다.
도 8 및 도 9를 참조하면, 본 발명의 일 실시 예에 따른 방법을 압축 방법과 가지치키 실행 시간과 관련하여 Han의 방법(HAN, Song, et al. Learning both weights and connections for efficient neural network. In: Advances in Neural Information Processing Systems. 2015. p. 1135-1143.)과 비교했다. Han의 방법은 가중치의 평균 및 분산을 기반으로 결정된 특정 임계 값보다 작은 값의 가중치를 잘라낸다. 정확도 성능에 대해서도 비슷한 비교를 하였다. 첫 번째 컨볼루션 레이어(C1)의 경우, 본 발명의 방법과 관련 방법은 각각 500 개의 가중치 중 235와 170을 잘라 냈다. 두 번째 컨볼 루션 레이어 (C2)의 경우 25,000 개의 가중치 중 23,000 및 22,000 개다. 첫 번째 완전히 연결된 레이어 (F1)의 경우 400,000 개의 가중치 중 376,000 및 368,000 개다. 제 2 완전 연결 레이어 (F2)의 경우, 5000 가중치 중 4250 및 4050 개다. 결과는 본 발명의 방법이 기존의 기술에 비해 C1, C2, F1 및 F2에 대해 프로세스를 20 %, 33 %, 25 % 및 31 % 향상시키는 것을 보여준다. 전체적으로 우리의 방법은 관련 방법에 비해 압축률을 28.25 % 향상시킨다.
도 9를 참조하면, 기존 기술에 대비한 본 발명의 방법의 가지 치기 속도는 각각 395 및 459 초다. 본 발명의 방법은 기존 기술의 방법보다 14 % 빠르다. 이는 본 발명의 방법이 하나의 완전한 트레이닝 기간 동안에 재귀적으로 제거 프로세스를 실행하기 때문이다. 그러나, 기존 기술은 잘라낸 CNN 모델을 미세 조정 한 후에 반복적으로 제거 프로세스를 실행한다.
본 발명은 CNN을 훈련하는 동안 가중치에서 나온 평균 정보량을 바탕으로 엔트로피 기반의 가지치기 방법을 수행한다. 정보는 엔트로피 기법을 사용하여 확률적 방식으로 측정한다. 임계치에 대한 수학 공식을 도출하기 위해, 본 발명은 가중치의 통계적 분포가 가우스라고 가정했다. 기존의 가지치기 방법은 훈련이 완전히 종료된 후 무게 또는 입력 기능의 중요성을 파악한다. 이러한 제거 프로세스는 정확도가 저하될 때까지 반복된다. 하지만, 본 발명의 방법은 훈련하는 동안 가중치의 중요성을 고려한다. 그렇기 때문에 본 발명의 방법은 훈련 중 가중치가 결과 노드에 미치는 영향을 고려할 수 있다. 이 실험에서 우리는 우리의 방법이 압축률과 제거 속도에 관해서 잘 알려진 제거 기술을 어떻게 능가하는지를 보여주었다.
도 10은 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법의 흐름도이다.
도 10을 참조하면, 본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법은 CNN의 복수의 가중치들의 엔트로피에 기반한 정보의 양을 연산하는 (a) 단계(S1310)를 포함할 수 있다.
S1310 단계에서, 상기 연산부(210)는 시스템에 포함되는 CNN의 가중치의 정보의 양을 계산할 수 있다. 상기 연산부(210)는 시스템에 포함되는 CNN의 가중치를 가지치기 하기 위한 임계값을 연산할 수 있다.
상기 연산부(210)는 엔트로피는 하기 수학식 1에서 볼 수 있듯이 가중치의 확률 정보를 기대하여 얻을 수 있다.
[수학식 1]
Figure 112018097025781-pat00026
여기서 E[W]는 가중치의 엔트로피이고, ωk는 CNN의 k번째 가중치이고, Pr(ωk)은 가중치가 발생할 확률이며, A[ωk]는 정보의 양이다. A[ωk] 및 Pr(ωk)은 반비례 관계이다.
상기 연산부(210)는 A[ωk]를 하기 수학식 2에서와 같이 가중치의 확률론적 사건 로그로 추정할 수 있다.
[수학식 2]
Figure 112018097025781-pat00027
CNN의 불확실성이 크다는 것은 훈련 중 가중치의 출력 기여도에 대한 정보를 얻을 수 있다는 것을 의미한다. 다시 말해서 엔트로피가 높으면 더 많은 정보를 얻을 수 있다. 반대로 엔트로피가 낮으면, CNN은 이미 안정된 상태에 있고, 이용할 수 있는 정보가 거의 없다. 엔트로피가 높을 때 가지를 치면 가중치와 관련된 정보를 더 쉽게 얻을 수 있다. 따라서 현재 엔트로피보다 낮은 정보를 가진 가중치는 중요하지 않은 것으로 간주될 수 있다. 따라서 현재 엔트로피보다 낮은 정보를 가진 가중치가 더 잘 제거될 수 있다. 수학식 2와 같이 정보는 확률론적 분포를 사용하여 계산한다. 데이터 크기가 클 경우 확률 분포는 중심 극한 정리에 따라 가우스 분포로 가정할 수 있다. 일반적으로 CNN의 가중치는 매우 많기 때문에, 상기 연산부(210)는 다음과 같은 수학식 3과 같이 가중치가 가우스 분포를 가지고 있다는 가정 하에 가우스 분포를 추정할 수 있다.
[수학식 3]
Figure 112018097025781-pat00028
여기서 μω는 가중치 평균이고, σω는 가중치 표준 편차이며, g(ωkω, σω)는 가중치의 분포다. 일반적으로, 가중치의 값이 매우 작으면, 가중치의 산출 기여도는 중요하지 않은 것으로 간주되므로, 훈련 중에 가중치를 줄일 수 있다. 이러한 관점에서, 본 발명에서는 그 가중치의 값이 작다는 이유만으로 안정적이지 않다고 판단할 수 없기 ‹š문에 작은 가중치 값에 대한 잠재성을 분석할 수 있다. 훈련 반복 중에는 훈련 성과가 수렴될 때까지 작은 값의 가중치의 기여도가 증가될 수도 있다. 작은 가중치의 잠재력은 엔트로피를 사용하여 추정할 수 있다. 수학식 2에서 볼 수 있듯이 가중치의 값이 작고 μω에 가까울 경우 가우스 분포가 평균에 및 근처에 있을 확률이 가장 높기 때문에 가중치의 정보 양이 작다. 그것은 다음 반복에 거의 기여하지 않는 것으로 간주될 수 있다. 따라서 가지치기를 하는 것은 훈련 성능을 해치지 않는다. 상기 연산부(210)는 다음과 같은 수학식 4를 연산해 엔트로피의 값을 얻을 수 있다.
[수학식 4]
Figure 112018097025781-pat00029
여기서 σω는 가중치의 표준 편차다. 가중치는 가우스 분포로 가정되기 때문에 상기 연산부(210)는 다음과 같이 수학식 5에 가중치 분포를 간단한 확률 간격으로 통합함으로써 수학식 2을 사용하여 n번째 중량, ωn의 정보를 얻을 수 있다.
[수학식 5]
Figure 112018097025781-pat00030
본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법은 상기 복수의 가중치들 중 가지치기할 가중치를 결정하기 위한 임계값을 연산하는 (b) 단계(S1320)를 포함할 수 있다.
S1320 단계에서, 상기 임계값은
Figure 112018097025781-pat00031
일 수 있다.
상기 가지치기부(220)는 수학식 5을 사용하여 계산된 ωn, A[ωn]에 대한 정보량이 수학식 4을 사용하여 계산된 임계값보다 작으면 훈련 중 중요하지 않은 가중치로 판단하여 상기 ωn을 삭제할 수 있다. 그러나 가중치의 분포가 일반적으로 가우스 분포에 완전히 맞지 않기 때문에 수학식 5와 수학식 4를 직접 비교하면 무게의 중요성이 결정될 수 없다. 가지치기 결정은 수학식 6과 같이 조정해야 한다.
[수학식 6]
Figure 112018097025781-pat00032
여기서 α는 조정 계수이다.
상기 가지치기부(220)는 컨벌루션 레이어의 임계치는 완전히 연결된 층보다 약간 큰 α의 값으로 설정할 수 있다. 또한, 상기 가지치기부(220)는 훈련 초기에 임계값을 결정하고 가중치를 줄이기 시작할 때 문제가 된다. 훈련을 시작할 때부터 가지치기 작업을 수행하면 가중치가 임의로 초기화되기 때문에 가중치에 대한 엔트로피 정보가 신뢰할 수 없다. 따라서, 가지치기 시작점을 찾기 위해 학습 비용과 학습 중 결과 노드 사이의 비교에서 안정적인 상태를 제공하는 학습 곡선을 사용할 수 있다.
상기 α는 상기 시스템에 포함되는 복수의 컨벌루션 레이어 및 복수의 완전 연결 레이어가 각각의 값을 가질 수 있다.
본 발명의 일 실시 예에 따른 엔트로피 기반 신경망(Neural Networks) 가지치기 방법은 상기 정보의 양이 임계값 이하의 값을 가지는 가중치들을 가지치기하는 (c) 단계(S1330)를 포함할 수 있다.
S1330 단계에서, 상기 가지치기부(220)는 상기 연산부(210)의 연산 결과를 이용해 가지치기할 가중치를 결정하고 제거할 수 있다. 상기 가지치기부(220)는 상기 CNN의 복수의 가중치 중 정보의 양이 상기 임계값 이하인 가중치를 제거할 수 있다.
일단 시작점이 결정되면, 본 발명의 일 실시 예에 따른 가지치기 프로세스는 정확도가 저하되지 않는 한 반복적으로 계속될 수 있다.
본 발명의 일 실시 예에 따르면, 상기 (a) ~ (c) 단계는 상기 CNN이 학습을 수행하는 중에 수행될 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통 상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (8)

  1. 컴퓨팅 장치에 의해 수행되는 신경망(Neural Networks)을 이용한 학습 방법에 있어서,
    상기 컴퓨팅 장치의 프로세서가 복수의 가중치들의 엔트로피에 기반한 정보의 양을 연산하는 (a) 단계;
    상기 프로세서가 상기 복수의 가중치들 중 가지치기할 가중치를 결정하기 위한 임계값을 연산하는 (b) 단계; 및
    상기 프로세서가 상기 정보의 양이 임계값 이하의 값을 가지는 가중치들을 가지치기하는 (c) 단계;를 포함하고,
    상기 임계값은 하기 수학식 1을 연산해 얻는 엔트로피 기반 신경망(Neural Networks) 가지치기 방법.
    [수학식 1]
    Figure 112020043651724-pat00058

    (여기서,
    Figure 112020043651724-pat00059
    는 가중치의 표준 편차, α는 조정 계수이다.)
  2. 제1항에 있어서,
    상기 (a) 단계 내지 (c) 단계는,
    상기 신경망이 학습을 수행하는 중에 수행되는 것을 특징으로 하는 엔트로피 기반 신경망(Neural Networks) 가지치기 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 정보의 양은 하기 수학식 2를 연산해 얻는 엔트로피 기반 신경망(Neural Networks) 가지치기 방법.
    [수학식 2]
    Figure 112020043651724-pat00035

    (여기서,
    Figure 112020043651724-pat00036
    는 가중치의 표준 편차,
    Figure 112020043651724-pat00037
    은 n번째 가중치
    Figure 112020043651724-pat00038
    는 가중치의 평균이다.)
  5. 신경망(Neural Networks)을 이용한 학습 시스템에 있어서,
    신경망(Neural Networks)을 이용한 학습을 수행하는 학습부;
    상기 신경망의 복수의 가중치들의 엔트로피에 기반한 정보의 양 및 상기 복수의 가중치들 중 가지치기할 가중치를 결정하기 위한 임계값을 연산하는 연산부; 및
    상기 정보의 양이 임계값 이하의 값을 가지는 제거 가중치들을 가지치기하는 가지치기부;를 포함하고,
    상기 임계값은 하기 수학식 1을 연산해 얻는 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템.
    [수학식 1]
    Figure 112020043651724-pat00060

    (여기서,
    Figure 112020043651724-pat00061
    는 가중치의 표준 편차, α는 조정 계수이다.)
  6. 제5항에 있어서,
    상기 연산부 및 가지치기부는,
    상기 학습부가 학습을 수행하는 중에 연산 및 가지치기를 수행하는 것을 특징으로 하는 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템.
  7. 삭제
  8. 제5항에 있어서,
    상기 정보의 양은 하기 수학식 2를 연산해 얻는 엔트로피 기반 신경망(Neural Networks) 가지치기 시스템.
    [수학식 2]
    Figure 112020043651724-pat00041

    (여기서,
    Figure 112020043651724-pat00042
    는 가중치의 표준 편차,
    Figure 112020043651724-pat00043
    은 n번째 가중치
    Figure 112020043651724-pat00044
    는 가중치의 평균이다.)
KR1020180117221A 2018-10-01 2018-10-01 엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템 KR102124171B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180117221A KR102124171B1 (ko) 2018-10-01 2018-10-01 엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180117221A KR102124171B1 (ko) 2018-10-01 2018-10-01 엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20200037700A KR20200037700A (ko) 2020-04-09
KR102124171B1 true KR102124171B1 (ko) 2020-06-17

Family

ID=70276065

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180117221A KR102124171B1 (ko) 2018-10-01 2018-10-01 엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR102124171B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052300B (zh) * 2021-03-29 2024-05-28 商汤集团有限公司 神经网络训练方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173583A1 (en) 2011-12-30 2013-07-04 Certona Corporation Keyword index pruning
US20190197406A1 (en) 2017-12-22 2019-06-27 Microsoft Technology Licensing, Llc Neural entropy enhanced machine learning

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070059015A (ko) * 2007-02-28 2007-06-11 성균관대학교산학협력단 시간 가중치 엔트로피를 이용한 결정 트리 생성 방법 및이를 기록한 기록매체
KR102190484B1 (ko) * 2013-11-11 2020-12-11 삼성전자주식회사 인식기 학습 방법 및 장치, 데이터 인식 방법 및 장치
US10832138B2 (en) * 2014-11-27 2020-11-10 Samsung Electronics Co., Ltd. Method and apparatus for extending neural network
US11423311B2 (en) * 2015-06-04 2022-08-23 Samsung Electronics Co., Ltd. Automatic tuning of artificial neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130173583A1 (en) 2011-12-30 2013-07-04 Certona Corporation Keyword index pruning
US20190197406A1 (en) 2017-12-22 2019-06-27 Microsoft Technology Licensing, Llc Neural entropy enhanced machine learning

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Entropy-based Pruning Method for CNN Compression. Jian-Hao Luo et al. 2017.*
Learning both Weights and Connections for Efficient Neural networks. 한송 et al. 2015.

Also Published As

Publication number Publication date
KR20200037700A (ko) 2020-04-09

Similar Documents

Publication Publication Date Title
US8327443B2 (en) MDL compress system and method for signature inference and masquerade intrusion detection
Kalluri et al. Adaptive weighted myriad filter algorithms for robust signal processing in/spl alpha/-stable noise environments
CN106899440B (zh) 一种面向云计算的网络入侵检测方法及系统
Zhao et al. A neural-network based DDoS detection system using hadoop and HBase
Aissa et al. Semi-supervised statistical approach for network anomaly detection
Zhang et al. Grading learning for blind source separation
CN111709022B (zh) 基于ap聚类与因果关系的混合报警关联方法
US20160269431A1 (en) Predictive analytics utilizing real time events
CN115378733B (zh) 一种基于动态图嵌入的多步攻击场景构建方法及系统
De Paola et al. A hybrid system for malware detection on big data
Shahraki et al. An outlier detection method to improve gathered datasets for network behavior analysis in IoT
WO2022064656A1 (ja) 処理システム、処理方法及び処理プログラム
CN116992986A (zh) 一种基于时间序列分解网络流量预测系统
KR102124171B1 (ko) 엔트로피 기반 신경망(Neural Networks) 가지치기 방법 및 시스템
Höner et al. Minimizing trust leaks for robust sybil detection
Davis et al. Feature selection for deep neural networks in cyber security applications
Hlaing Feature selection and fuzzy decision tree for network intrusion detection
Chen et al. Stochastic information gradient algorithm with generalized Gaussian distribution model
Qiao et al. Mining of attack models in ids alerts from network backbone by a two-stage clustering method
CN114172706A (zh) 智能音箱网络流量异常的检测方法、系统、设备和介质
CN113742718A (zh) 一种工业互联网设备攻击路径还原方法、相关设备及系统
CN117176436A (zh) 一种网络攻击检测方法、装置、电子设备及存储介质
CN114726634B (zh) 一种基于知识图谱的黑客攻击场景构建方法和设备
Mukhopadhyay et al. Denoising of digital images through pso based pixel classification
Bekkerman et al. Heuristic approximation method for a random flow of events by an MC-flow with arbitrary number of states

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant