KR20190105368A - 심층신경망 모델의 선형 근사화 방법 및 장치 - Google Patents
심층신경망 모델의 선형 근사화 방법 및 장치 Download PDFInfo
- Publication number
- KR20190105368A KR20190105368A KR1020180025816A KR20180025816A KR20190105368A KR 20190105368 A KR20190105368 A KR 20190105368A KR 1020180025816 A KR1020180025816 A KR 1020180025816A KR 20180025816 A KR20180025816 A KR 20180025816A KR 20190105368 A KR20190105368 A KR 20190105368A
- Authority
- KR
- South Korea
- Prior art keywords
- polynomial
- input
- neural network
- deep neural
- network model
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 10
- 210000002569 neuron Anatomy 0.000 claims abstract description 34
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003325 tomography Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/17—Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
일반적으로 심층신경망 모델은 다양한 생성 및 분류 문제에서 좋은 성능을 보이고 있다. 그러나 심층신경망은 본질적으로 비선형 특성을 갖는바, 블랙박스 모델로 주어지는 입력에 대해 어떻게 그 결과를 도출하게 되었는지 해석하는 데 어려움을 겪고 있다. 본 발명에서는 이러한 문제를 해결하고자, 심층신경망 모델의 선형 근사화를 제안한다. 상기 과제해결을 위하여 본 발명의 한 측면에 따르면, 1) 심층신경망 모델을 구성하는 뉴런을 다항식 형태로 변환하는 단계, 2) 상기 단계에서 얻은 다항식을 입력신호의 다항식과 가중치 w의 다항식으로 구분하는 단계를 포함하는 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법이 제공된다.
Description
본 발명은 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법 및 장치에 관한 것이다.
일반적으로 도 1과 같이 입력층(input layer), 은닉층(hidden layer), 출력층(output layer)으로 구성되는 심층신경망의 은닉층은 수학식 1과 같이 표현할 수 있다.
입력 신호 에 대한 Weight matrix와 Bias vector 의 아핀변환(Affine Transform)을 수행해 를 구하고 비선형 활성화 함수 를 적용하여 결과값 를 구하게 된다. 아핀기하학에서 아핀 변환은 공선점을 보존하는, 두 아핀 공간 사이의 변환이다. 아핀 변환 f: A→B는 그에 맞는 두 벡터 공간(아핀 공간의 두 점을 잇는 벡터들이 이루는 공간) 사이의 변환
에 대응하는데, 이는 선형성을 만족한다.
은닉층에서는 다음과 같은 다양한 비선형 함수들이 사용된다.
일반적으로 심층신경망 모델은 다양한 생성 및 분류 문제에서 좋은 성능을 보이고 있다. 그러나 심층신경망은 본질적으로 비선형 특성을 갖는바, 블랙박스 모델로 주어지는 입력에 대해 어떻게 그 결과를 도출하게 되었는지 해석하는 데 어려움을 겪고 있다. 본 발명에서는 이러한 문제를 해결하고자, 심층신경망 모델의 선형 근사화를 제안한다.
상기 과제해결을 위하여 본 발명의 한 측면에 따르면,
- DNN(심층신경망)의 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1단계,
- 상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2단계,
- 상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3단계를 포함하는, 심층신경망 모델의 선형 근사화 방법이 제공된다.
입력 x에 대해서 다항식 전개를 수행하여 다항식 전개된 입력은 p(x)이다. 그리고 테일러급수에 의한 근사화를 수행하면, 비선형 활성화 함수
를 얻게 되고, 이로부터
의 다항식을 얻을 수 있다.
상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 단계는 상기 다항식 를 형태의 식으로 변환하는 단계를 포함할 수 있다. 이 변환된 식은 의 형태를 가지며 결국, 심층신경망 모델의 선형 근사화가 가능해져, 일반적인 선형 시스템의 해를 구하는 것과 동일한 방식으로 취급할 수 있게 된다.
이고 가중치 행렬 a는 가중치 행렬 W에 대한 다항식
이다.
한편, 상기 과제해결을 위한 본 발명의 다른 측면에 따르면,
- DNN(심층신경망) 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1수단,
- 상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2수단,
- 상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3수단을 포함하는, 심층신경망 모델의 선형 근사화 장치가 제공된다.
상기 장치의 제1수단~제3수단은 신호처리 및 데이터연산을 수행하도록 설계된 전기회로 또는 소자들을 포함하는 컨트롤러, 프로세서 등의 컴퓨팅 하드웨어로 구현가능하다.
이상에서 소개한 본 발명의 구성 및 작용은 차후에 도면과 함께 설명하는 구체적인 실시예를 통하여 더욱 명확해질 것이다.
본 발명에서는 심층신경망을 선형으로 근사화함으로써 널리 사용되는 선형 시스템 해석 방식으로 심층신경망을 분석할 수 있게 된다. 본 발명에 의해 심층신경망과 다른 단층 시스템을 얻을 수 있게 되어 그 훈련 및 해석이 용이해진다.
도 1은 일반적인 심층신경망의 개략 구성도
도 2는 2개의 입력을 가지는 뉴런의 개략도
도 3은 본 발명의 선형 근사화 방법의 프로세스 흐름도
도 4는 본 발명의 선형 근사화 방법의 한 실시예의 프로세스 흐름도
도 2는 2개의 입력을 가지는 뉴런의 개략도
도 3은 본 발명의 선형 근사화 방법의 프로세스 흐름도
도 4는 본 발명의 선형 근사화 방법의 한 실시예의 프로세스 흐름도
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 기술되어 있는 실시예를 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다.
한편, 본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부 도면을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.
먼저, 본 발명의 실시예 설명을 위해 도 2와 같이 두 개의 입력 x1, x2와 출력 y를 갖는 뉴런을 상정한다. 입력 x1, x2 신호가 뉴런에 입력되면 각 신호에 가중치를 곱하여, 다음 뉴런에 전달한다. 다음 뉴런에서는 이들 신호의 값을 더하여 그 합이 0을 넘으면 1을 출력하고 그렇지 않으면 0을 출력한다. 입력신호의 총합을 출력신호로 변환하는 함수를 일반적으로 활성화함수(activation function)라고 한다. 인공신경망 모델에서 뉴런의 주요 기능은 입력과 연결강도의 가중합을 구한 다음 활성화함수에 의해 출력을 내보내는 것이다. 따라서 어떤 활성화함수를 선택하느냐에 따라 뉴런의 출력이 달라질 수 있다.
도 3은 도 2의 뉴런에 대해서 선형 근사화 처리를 하는 구성도이다.
최초 입력 x에 대해서 다항식 전개(polynomial expansion)를 수행하여 다항식 전개된 p(x)를 얻는다(100).
도 2의 뉴런에서 은닉층의 출력은 수학식 2와 같이 두 입력 x1, x2에 대한 가중치 w1, w2의 가중치 합으로 구하게 된다(은닉층의 출력=h)
다시 도 3에서, 상기 다항식 전개(100)와 병행하여 최초의 DNN(심층신경망) 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행한다(200).
비활성화 함수로 tanh(x)를 사용한다고 가정하고 이를 Taylor series로 근사화하면 비선형 활성화 함수는 수학식 3과 같이 근사화된다.
수학식 2를 수학식 3에 대입해 정리하면 도 2의 뉴런은 수학식 4와 같은 다항식 형태로 표현된다.
다항식 전개된 p(x)와 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치 w의 다항식으로 구분하면 수학식 5와 같이 선형 시스템의 형태로 정리할 수 있다.
여기서, p(x)는 수학식 6과 같이 입력신호에 대한 n차 다항식이고, 가중치 행렬 a는 수학식 7과 같이 원래 가중치 행렬 W에 대한 다항식이 된다.
수학식 6과 같은 입력신호에 대한 n차 다항식과 수학식 7과 같은 원래 가중치 행렬 W에 대한 다항식으로 분리한 결과, 앞의 수학식 1과 같은 심층신경망 모델은 아래의 수학식 8과 같은 형태로 선형 근사화가 가능해진다(300).
따라서, 수학식 8은 일반적인 선형 시스템의 해를 구하는 것과 동일한 방식으로 구할 수 있게 된다.
이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술한 특허청구범위에 의하여 정해지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태는 본 발명의 기술적 범위에 포함되는 것으로 해석되어야 한다.
Claims (8)
- 비선형 함수인 심층신경망 모델을 선형 근사화하는 방법으로서,
DNN(심층신경망)의 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1단계,
상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2단계,
상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3단계를 포함하는, 심층신경망 모델의 선형 근사화 방법. - 비선형 함수인 심층신경망 모델을 선형 근사화하는 장치로서,
DNN(심층신경망) 뉴런의 입력에 대해서 다항식 전개(polynomial expansion)를 수행하는 제1수단,
상기 입력에 대한 다항식 전개와 병행하여 DNN 뉴런에 대해서 테일러급수에 의한 근사화(Taylor series approximation)를 수행하는 제2수단,
상기 다항식 전개된 입력과 상기 테일러급수에 의해 근사화된 뉴런을 입력신호의 다항식과 가중치의 다항식으로 구분하는 제3수단을 포함하는, 심층신경망 모델의 선형 근사화 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180025816A KR20190105368A (ko) | 2018-03-05 | 2018-03-05 | 심층신경망 모델의 선형 근사화 방법 및 장치 |
US16/121,836 US10789332B2 (en) | 2018-03-05 | 2018-09-05 | Apparatus and method for linearly approximating deep neural network model |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180025816A KR20190105368A (ko) | 2018-03-05 | 2018-03-05 | 심층신경망 모델의 선형 근사화 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20190105368A true KR20190105368A (ko) | 2019-09-17 |
Family
ID=67768655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180025816A KR20190105368A (ko) | 2018-03-05 | 2018-03-05 | 심층신경망 모델의 선형 근사화 방법 및 장치 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10789332B2 (ko) |
KR (1) | KR20190105368A (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379031A (zh) * | 2021-06-01 | 2021-09-10 | 北京百度网讯科技有限公司 | 神经网络的处理方法、装置、电子设备和存储介质 |
KR20230082525A (ko) * | 2021-12-01 | 2023-06-08 | 주식회사 딥엑스 | 프로그래밍 가능 활성화 함수 생성 방법 및 이를 이용하는 장치 |
US11836604B2 (en) | 2021-12-01 | 2023-12-05 | Deepx Co., Ltd. | Method for generating programmable activation function and apparatus using the same |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9477925B2 (en) | 2012-11-20 | 2016-10-25 | Microsoft Technology Licensing, Llc | Deep neural networks training for speech and pattern recognition |
US20140279778A1 (en) * | 2013-03-18 | 2014-09-18 | The Trustees Of Columbia University In The City Of New York | Systems and Methods for Time Encoding and Decoding Machines |
US9508347B2 (en) * | 2013-07-10 | 2016-11-29 | Tencent Technology (Shenzhen) Company Limited | Method and device for parallel processing in model training |
KR101844932B1 (ko) | 2014-09-16 | 2018-04-03 | 한국전자통신연구원 | 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법 |
KR102069699B1 (ko) | 2016-01-18 | 2020-01-23 | 한국전자통신연구원 | 음성인식 장치 및 방법 |
-
2018
- 2018-03-05 KR KR1020180025816A patent/KR20190105368A/ko active Search and Examination
- 2018-09-05 US US16/121,836 patent/US10789332B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113379031A (zh) * | 2021-06-01 | 2021-09-10 | 北京百度网讯科技有限公司 | 神经网络的处理方法、装置、电子设备和存储介质 |
KR20230082525A (ko) * | 2021-12-01 | 2023-06-08 | 주식회사 딥엑스 | 프로그래밍 가능 활성화 함수 생성 방법 및 이를 이용하는 장치 |
US11836604B2 (en) | 2021-12-01 | 2023-12-05 | Deepx Co., Ltd. | Method for generating programmable activation function and apparatus using the same |
Also Published As
Publication number | Publication date |
---|---|
US10789332B2 (en) | 2020-09-29 |
US20190272309A1 (en) | 2019-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220004870A1 (en) | Speech recognition method and apparatus, and neural network training method and apparatus | |
Chen et al. | Robust global exponential stability of Cohen-Grossberg neural networks with time delays | |
Oja et al. | Independent component analysis: algorithms and applications | |
Bollt et al. | On matching, and even rectifying, dynamical systems through Koopman operator eigenfunctions | |
KR20190105368A (ko) | 심층신경망 모델의 선형 근사화 방법 및 장치 | |
Burnaev et al. | Regression on the basis of nonstationary Gaussian processes with Bayesian regularization | |
Feichtinger et al. | Approximate dual Gabor atoms via the adjoint lattice method | |
Luo et al. | Gfanc-kalman: Generative fixed-filter active noise control with cnn-kalman filtering | |
Ernst et al. | A Legendre-based computational method for solving a class of Itô stochastic delay differential equations | |
Lyu et al. | Identifiability-guaranteed simplex-structured post-nonlinear mixture learning via autoencoder | |
Yang et al. | Weighted rule based adaptive algorithm for simultaneously extracting generalized eigenvectors | |
Abbas et al. | Enhancing Linear Independent Component Analysis: Comparison of Various Metaheuristic Methods. | |
CN115952493A (zh) | 一种黑盒模型的逆向攻击方法、攻击装置以及存储介质 | |
Zhang et al. | Extended gaussianization method for blind separation of post-nonlinear mixtures | |
CN108122033B (zh) | 神经网络的训练方法和通过该训练方法获得的神经网络 | |
Zeng et al. | Certified defense via latent space randomized smoothing with orthogonal encoders | |
Wu et al. | Convergence of gradient method for Elman networks | |
Saifullah et al. | Voice keyword spotting on edge devices | |
Sun et al. | Numerical simulations for near-field acoustic holographic data extrapolation based on the neural network ELM method | |
Tripathi et al. | Effective Independent Component Analysis Algorithm (EICA) for Blind Source Separation of Mixed Images for Biomedical Applications | |
KR20180019347A (ko) | 심층 신경망 기반의 음성인식 시스템 | |
Xu et al. | Convergence of approximated gradient method for Elman network | |
Mavaddati | Blind Voice Separation Based on Empirical Mode Decomposition and Grey Wolf Optimizer Algorithm. | |
Schmitt et al. | Analysis and simulations of multifractal random walks | |
Yazid et al. | Estimation of Response Transfer Functions of Offshore Structures Using the Time-Varying ARX Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination |