KR20190105368A - 심층신경망 모델의 선형 근사화 방법 및 장치 - Google Patents

심층신경망 모델의 선형 근사화 방법 및 장치 Download PDF

Info

Publication number
KR20190105368A
KR20190105368A KR1020180025816A KR20180025816A KR20190105368A KR 20190105368 A KR20190105368 A KR 20190105368A KR 1020180025816 A KR1020180025816 A KR 1020180025816A KR 20180025816 A KR20180025816 A KR 20180025816A KR 20190105368 A KR20190105368 A KR 20190105368A
Authority
KR
South Korea
Prior art keywords
polynomial
input
neural network
deep neural
network model
Prior art date
Application number
KR1020180025816A
Other languages
English (en)
Inventor
정훈
박전규
이성주
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020180025816A priority Critical patent/KR20190105368A/ko
Priority to US16/121,836 priority patent/US10789332B2/en
Publication of KR20190105368A publication Critical patent/KR20190105368A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

일반적으로 심층신경망 모델은 다양한 생성 및 분류 문제에서 좋은 성능을 보이고 있다. 그러나 심층신경망은 본질적으로 비선형 특성을 갖는바, 블랙박스 모델로 주어지는 입력에 대해 어떻게 그 결과를 도출하게 되었는지 해석하는 데 어려움을 겪고 있다. 본 발명에서는 이러한 문제를 해결하고자, 심층신경망 모델의 선형 근사화를 제안한다. 상기 과제해결을 위하여 본 발명의 한 측면에 따르면, 1) 심층신경망 모델을 구성하는 뉴런을 다항식 형태로 변환하는 단계, 2) 상기 단계에서 얻은 다항식을 입력신호의 다항식과 가중치 w의 다항식으로 구분하는 단계를 포함하는 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법이 제공된다.

Description

심층신경망 모델의 선형 근사화 방법 및 장치 {Method and apparatus for linear approximation of deep neural network}
본 발명은 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법 및 장치에 관한 것이다.
일반적으로 도 1과 같이 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성되는 심층신경망의 은닉층은 수학식 1과 같이 표현할 수 있다.
Figure pat00001
입력 신호
Figure pat00002
에 대한 Weight matrix와 Bias vector
Figure pat00003
의 아핀변환(Affine Transform)을 수행해
Figure pat00004
를 구하고 비선형 활성화 함수
Figure pat00005
를 적용하여 결과값
Figure pat00006
를 구하게 된다. 아핀기하학에서 아핀 변환은 공선점을 보존하는, 두 아핀 공간 사이의 변환이다. 아핀 변환 f: A→B는 그에 맞는 두 벡터 공간(아핀 공간의 두 점을 잇는 벡터들이 이루는 공간) 사이의 변환
Figure pat00007
에 대응하는데, 이는 선형성을 만족한다.
은닉층에서는 다음과 같은 다양한 비선형 함수들이 사용된다.
Figure pat00008
일반적으로 심층신경망 모델은 다양한 생성 및 분류 문제에서 좋은 성능을 보이고 있다. 그러나 심층신경망은 본질적으로 비선형 특성을 갖는바, 블랙박스 모델로 주어지는 입력에 대해 어떻게 그 결과를 도출하게 되었는지 해석하는 데 어려움을 겪고 있다. 본 발명에서는 이러한 문제를 해결하고자, 심층신경망 모델의 선형 근사화를 제안한다.
상기 과제해결을 위하여 본 발명의 한 측면에 따르면,
- DNN(심층신경망)의 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1단계,
- 상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2단계,
- 상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3단계를 포함하는, 심층신경망 모델의 선형 근사화 방법이 제공된다.
입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력은 p(x)이다. 그리고 테일러급수에 의한 근사화를 수행하면, 비선형 활성화 함수
Figure pat00009
를 얻게 되고, 이로부터
Figure pat00010
의 다항식을 얻을 수 있다.
상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 단계는 상기 다항식
Figure pat00011
Figure pat00012
형태의 식으로 변환하는 단계를 포함할 수 있다. 이 변환된 식은
Figure pat00013
의 형태를 가지며 결국, 심층신경망 모델의 선형 근사화가 가능해져, 일반적인 선형 시스템의 해를 구하는 것과 동일한 방식으로 취급할 수 있게 된다.
상기 식
Figure pat00014
에서, p(x)는 입력신호에 대한 n차 다항식
Figure pat00015
이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식
Figure pat00016
이다.
한편, 상기 과제해결을 위한 본 발명의 다른 측면에 따르면,
- DNN(심층신경망) 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1수단,
- 상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2수단,
- 상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3수단을 포함하는, 심층신경망 모델의 선형 근사화 장치가 제공된다.
상기 장치의 제1수단~제3수단은 신호처리 및 데이터연산을 수행하도록 설계된 전기회로 또는 소자들을 포함하는 컨트롤러, 프로세서 등의 컴퓨팅 하드웨어로 구현가능하다.
이상에서 소개한 본 발명의 구성 및 작용은 차후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.
본 발명에서는 심층신경망을 선형으로 근사화함으로써 널리 사용되는 선형 시스템 해석 방식으로 심층신경망을 분석할 수 있게 된다. 본 발명에 의해 심층신경망과 다른 단층 시스템을 얻을 수 있게 되어 그 훈련 및 해석이 용이해진다.
도 1은 일반적인 심층신경망의 개략 구성도
도 2는 2개의 입력을 가지는 뉴런의 개략도
도 3은 본 발명의 선형 근사화 방법의 프로세스 흐름도
도 4는 본 발명의 선형 근사화 방법의 한 실시예의 프로세스 흐름도
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 기술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.
먼저, 본 발명의 실시예 설명을 위해 도 2와 같이 두 개의 입력 x1, x2와 출력 y를 갖는 뉴런을 상정한다. 입력 x1, x2 신호가 뉴런에 입력되면 각 신호에 가중치를 곱하여, 다음 뉴런에 전달한다. 다음 뉴런에서는 이들 신호의 값을 더하여 그 합이 0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력한다. 입력신호의 총합을 출력신호로 변환하는 함수를 일반적으로 활성화함수(activation function)라고 한다. 인공신경망 모델에서 뉴런의 주요 기능은 입력과 연결강도의 가중합을 구한 다음 활성화함수에 의해 출력을 내보내는 것이다. 따라서 어떤 활성화함수를 선택하느냐에 따라 뉴런의 출력이 달라질 수 있다.
도 3은 도 2의 뉴런에 대해서 선형 근사화 처리를 하는 구성도이다.
최초 입력 x에 대해서 다항식 전개(polynomial expansion)를 수행하여 다항식 전개된 p(x)를 얻는다(100).
도 2의 뉴런에서 은닉층의 출력은 수학식 2와 같이 두 입력 x1, x2에 대한 가중치 w1, w2의 가중치 합으로 구하게 된다(은닉층의 출력=h)
Figure pat00017
다시 도 3에서, 상기 다항식 전개(100)와 병행하여 최초의 DNN(심층신경망) 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행한다(200).
비활성화 함수로 tanh(x)를 사용한다고 가정하고 이를 Taylor series로 근사화하면 비선형 활성화 함수는 수학식 3과 같이 근사화된다.
Figure pat00018
수학식 2를 수학식 3에 대입해 정리하면 도 2의 뉴런은 수학식 4와 같은 다항식 형태로 표현된다.
Figure pat00019
다항식 전개된 p(x)와 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치 w의 다항식으로 구분하면 수학식 5와 같이 선형 시스템의 형태로 정리할 수 있다.
Figure pat00020
여기서, p(x)는 수학식 6과 같이 입력신호에 대한 n차 다항식이고, 가중치 행렬 a는 수학식 7과 같이 원래 가중치 행렬 W에 대한 다항식이 된다.
Figure pat00021
Figure pat00022
수학식 6과 같은 입력신호에 대한 n차 다항식과 수학식 7과 같은 원래 가중치 행렬 W에 대한 다항식으로 분리한 결과, 앞의 수학식 1과 같은 심층신경망 모델은 아래의 수학식 8과 같은 형태로 선형 근사화가 가능해진다(300).
Figure pat00023
따라서, 수학식 8은 일반적인 선형 시스템의 해를 구하는 것과 동일한 방식으로 구할 수 있게 된다.
이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술한 특허청구범위에 의하여 정해지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 기술적 범위에 포함되는 것으로 해석되어야 한다.

Claims (8)

  1. 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법으로서,
    DNN(심층신경망)의 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1단계,
    상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2단계,
    상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3단계를 포함하는, 심층신경망 모델의 선형 근사화 방법.
  2. 제1항에 있어서, 상기 DNN의 뉴런의 입력은 x1 및 x2, 출력은 y, 가중치는 w1, w2이며,
    상기 제2단계에서 DNN 뉴런에 대한 테일러급수에 의한 근사화의 수행 결과로 비선형 활성화 함수
    Figure pat00024
    (여기서, h는 은닉층의 출력으로,
    Figure pat00025
    임)를 얻게되어, 최종적으로
    Figure pat00026

    의 다항식이 취득되는 심층신경망 모델의 선형 근사화 방법.
  3. 제1항에 있어서, 상기 DNN의 뉴런의 입력은 x, 출력은 y이며,
    상기 제1단계에서 입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력은 p(x)이고,
    상기 제3단계는 상기 다항식 전개된 입력 p(x) 및 상기 테일러급수에 의해 근사화된 뉴런을
    Figure pat00027
    형태의 식으로 변환하는 단계를 포함하는 심층신경망 모델의 선형 근사화 방법.
  4. 제2항에 있어서, 상기 제3단계는
    상기 다항식
    Figure pat00028
    Figure pat00029
    (여기서, p(x)는 입력신호에 대한 n차 다항식
    Figure pat00030
    이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식
    Figure pat00031
    임) 형태의 식으로 변환하는 단계를 포함하는 심층신경망 모델의 선형 근사화 방법.
  5. 비선형 함수인 심층신경망 모델을 선형 근사화하는 장치로서,
    DNN(심층신경망) 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1수단,
    상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2수단,
    상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3수단을 포함하는, 심층신경망 모델의 선형 근사화 장치.
  6. 제5항에 있어서, 상기 DNN의 뉴런의 입력은 x1 및 x2, 출력은 y, 가중치는 w1, w2이며,
    상기 제2수단에서 DNN 뉴런에 대한 테일러급수에 의한 근사화의 수행 결과로 비선형 활성화 함수
    Figure pat00032
    (여기서, h는 은닉층의 출력으로,
    Figure pat00033
    임)를 계산하여, 최종적으로
    Figure pat00034

    의 다항식이 출력되는 심층신경망 모델의 선형 근사화 장치.
  7. 제5항에 있어서, 상기 DNN의 뉴런의 입력은 x, 출력은 y이며,
    상기 제1수단에서 입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력 p(x)가 출력되고,
    상기 제3수단은 상기 다항식 전개된 입력 p(x) 및 상기 테일러급수에 의해 근사화된 뉴런을
    Figure pat00035
    형태의 식으로 변환하는 수단을 추가로 포함하는 심층신경망 모델의 선형 근사화 장치.
  8. 제6항에 있어서, 상기 제3수단은
    상기 다항식
    Figure pat00036
    Figure pat00037
    (여기서, p(x)는 입력신호에 대한 n차 다항식
    Figure pat00038
    이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식
    Figure pat00039
    임) 형태의 식으로 변환하는 수단을 추가로 포함하는 심층신경망 모델의 선형 근사화 장치.
KR1020180025816A 2018-03-05 2018-03-05 심층신경망 모델의 선형 근사화 방법 및 장치 KR20190105368A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180025816A KR20190105368A (ko) 2018-03-05 2018-03-05 심층신경망 모델의 선형 근사화 방법 및 장치
US16/121,836 US10789332B2 (en) 2018-03-05 2018-09-05 Apparatus and method for linearly approximating deep neural network model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180025816A KR20190105368A (ko) 2018-03-05 2018-03-05 심층신경망 모델의 선형 근사화 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20190105368A true KR20190105368A (ko) 2019-09-17

Family

ID=67768655

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180025816A KR20190105368A (ko) 2018-03-05 2018-03-05 심층신경망 모델의 선형 근사화 방법 및 장치

Country Status (2)

Country Link
US (1) US10789332B2 (ko)
KR (1) KR20190105368A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379031A (zh) * 2021-06-01 2021-09-10 北京百度网讯科技有限公司 神经网络的处理方法、装置、电子设备和存储介质
KR20230082525A (ko) * 2021-12-01 2023-06-08 주식회사 딥엑스 프로그래밍 가능 활성화 함수 생성 방법 및 이를 이용하는 장치
US11836604B2 (en) 2021-12-01 2023-12-05 Deepx Co., Ltd. Method for generating programmable activation function and apparatus using the same

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9477925B2 (en) 2012-11-20 2016-10-25 Microsoft Technology Licensing, Llc Deep neural networks training for speech and pattern recognition
US20140279778A1 (en) * 2013-03-18 2014-09-18 The Trustees Of Columbia University In The City Of New York Systems and Methods for Time Encoding and Decoding Machines
US9508347B2 (en) * 2013-07-10 2016-11-29 Tencent Technology (Shenzhen) Company Limited Method and device for parallel processing in model training
KR101844932B1 (ko) 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113379031A (zh) * 2021-06-01 2021-09-10 北京百度网讯科技有限公司 神经网络的处理方法、装置、电子设备和存储介质
KR20230082525A (ko) * 2021-12-01 2023-06-08 주식회사 딥엑스 프로그래밍 가능 활성화 함수 생성 방법 및 이를 이용하는 장치
US11836604B2 (en) 2021-12-01 2023-12-05 Deepx Co., Ltd. Method for generating programmable activation function and apparatus using the same

Also Published As

Publication number Publication date
US10789332B2 (en) 2020-09-29
US20190272309A1 (en) 2019-09-05

Similar Documents

Publication Publication Date Title
US20220004870A1 (en) Speech recognition method and apparatus, and neural network training method and apparatus
Chen et al. Robust global exponential stability of Cohen-Grossberg neural networks with time delays
Oja et al. Independent component analysis: algorithms and applications
Bollt et al. On matching, and even rectifying, dynamical systems through Koopman operator eigenfunctions
KR20190105368A (ko) 심층신경망 모델의 선형 근사화 방법 및 장치
Burnaev et al. Regression on the basis of nonstationary Gaussian processes with Bayesian regularization
Feichtinger et al. Approximate dual Gabor atoms via the adjoint lattice method
Luo et al. Gfanc-kalman: Generative fixed-filter active noise control with cnn-kalman filtering
Ernst et al. A Legendre-based computational method for solving a class of Itô stochastic delay differential equations
Lyu et al. Identifiability-guaranteed simplex-structured post-nonlinear mixture learning via autoencoder
Yang et al. Weighted rule based adaptive algorithm for simultaneously extracting generalized eigenvectors
Abbas et al. Enhancing Linear Independent Component Analysis: Comparison of Various Metaheuristic Methods.
CN115952493A (zh) 一种黑盒模型的逆向攻击方法、攻击装置以及存储介质
Zhang et al. Extended gaussianization method for blind separation of post-nonlinear mixtures
CN108122033B (zh) 神经网络的训练方法和通过该训练方法获得的神经网络
Zeng et al. Certified defense via latent space randomized smoothing with orthogonal encoders
Wu et al. Convergence of gradient method for Elman networks
Saifullah et al. Voice keyword spotting on edge devices
Sun et al. Numerical simulations for near-field acoustic holographic data extrapolation based on the neural network ELM method
Tripathi et al. Effective Independent Component Analysis Algorithm (EICA) for Blind Source Separation of Mixed Images for Biomedical Applications
KR20180019347A (ko) 심층 신경망 기반의 음성인식 시스템
Xu et al. Convergence of approximated gradient method for Elman network
Mavaddati Blind Voice Separation Based on Empirical Mode Decomposition and Grey Wolf Optimizer Algorithm.
Schmitt et al. Analysis and simulations of multifractal random walks
Yazid et al. Estimation of Response Transfer Functions of Offshore Structures Using the Time-Varying ARX Model

Legal Events

Date Code Title Description
A201 Request for examination