KR20180019347A - 심층 신경망 기반의 음성인식 시스템 - Google Patents

심층 신경망 기반의 음성인식 시스템 Download PDF

Info

Publication number
KR20180019347A
KR20180019347A KR1020160103586A KR20160103586A KR20180019347A KR 20180019347 A KR20180019347 A KR 20180019347A KR 1020160103586 A KR1020160103586 A KR 1020160103586A KR 20160103586 A KR20160103586 A KR 20160103586A KR 20180019347 A KR20180019347 A KR 20180019347A
Authority
KR
South Korea
Prior art keywords
neural network
power series
speech recognition
recognition system
activation function
Prior art date
Application number
KR1020160103586A
Other languages
English (en)
Other versions
KR102116054B1 (ko
Inventor
정훈
박전규
이성주
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160103586A priority Critical patent/KR102116054B1/ko
Publication of KR20180019347A publication Critical patent/KR20180019347A/ko
Application granted granted Critical
Publication of KR102116054B1 publication Critical patent/KR102116054B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 심층 신경망 기반의 음향 모델의 파라미터인 비선형 활성화 함수를 훈련 가능한 형태로 표현함으로써 음향 모델의 훈련을 효과적으로 달성할 수 있으며 성능을 개선할 수 있도록 구현된 심층 신경망 기반의 음성인식 시스템에 관한 것이다. 상기 시스템은 각종 정보를 입력받는 입력부; 음성처리 알고리즘을 저장하는 저장부; 및 상기 입력부를 통해 입력되는 음성신호에 상기 저장부에 저장된 음성처리 알고리즘을 적용하여 음성인식을 수행하는 심층 신경망 기반의 처리부를 포함하고, 상기 처리부는 음향 모델 파라미터인 비선형 활성화 함수로서 거듭제곱 급수로 표현되는 활성화 함수를 이용하는 것을 특징으로 한다.

Description

심층 신경망 기반의 음성인식 시스템{Voice recognition system based on deep neural network}
본 발명은 심층 신경망 기반의 음성인식 시스템에 관한 것으로, 상세하게는 심층 신경망 기반의 음향 모델의 파라미터인 비선형 활성화 함수를 훈련 가능한 형태로 표현함으로써 음향 모델의 훈련을 효과적으로 달성할 수 있으며 성능을 개선할 수 있도록 구현된 심층 신경망 기반의 음성인식 시스템에 관한 것이다.
최근 들어 공학분야에서 빈번하게 접하게 되는 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하는 방안으로서, 인간이 지니고 있는 효율적인 패턴 인식 방법을 실제 컴퓨터에 적용시키려는 연구가 활발히 진행되고 있다.
여러 가지 컴퓨터 적용 연구들 중에서 효율적인 패턴 인식 작용이 일어나는 인간두뇌 세포구조를 공학적으로 모델링한 인공신경망(Artificial Neural Network)에 대한 연구가 있다. 입력 패턴을 특정 그룹으로 분류하는 문제를 해결하기 위해, 인공신경망은 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 사용한다.
또한, 인공신경망은 학습된 결과를 바탕으로 학습에 사용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력이 있다. 학습과 일반화라는 두 대표적인 성능 때문에 인공신경망은 기존의 순차적 프로그래밍 방법에 의해서는 좀처럼 해결하기 힘든 문제에 적용되고 있다. 그리고, 인공신경망은 그 사용범위가 넓어 패턴 분류 문제, 연속 사상, 비선형 시스템 식별, 비선형 제어 및 로봇 제어 분야, 음성 인식 등에 활발히 응용되고 있다.
현재의 음성 인식은 특징 파라미터 X에 대해 최대 우도를 출력하는 단어(W)를 구하는 문제로 귀결되는데, 이는 아래 수학식 1과 같이 표현될 수 있다.
[수학식 1]
Figure pat00001
상기에서 확인할 수 있듯이, 수학식 1에는 3개의 확률 모델이 포함되는데, P(X|M)는 음향 모델이고, P(M|W)는 발음 모델이며, P(W)는 언어 모델이라고 한다.
이때, 언어 모델 P(W)는 단어 연결에 대한 확률 정보를 포함하고, 발음 모델 P(M|W)는는 단어가 어떤 발음 기호로 구성되었는지에 대한 정보를 표현한다.
그리고, 음향 모델 P(X|M)는는 발음 기호에 대해 실제 특징 벡터 X를 관측할 확률을 모델링한다.
그리고, 일반적으로 음성 인식 시스템은 음향 모델의 산출을 위해 심층 신경망(Deep Neural Network)을 사용하는데, 심층 신경망은 입력층과 출력층 사이에 다수의 은닉층(hidden layer)을 가지는 것을 특징으로 한다.
심층 신경망에서의 각 은닉층들은 하기 수학식 2와 같이 표현될 수 있다.
[수학식 2]
Figure pat00002
즉, 입력층을 통해 입력되는 입력신호 xt에 대한 W, b의 아핀 변환(affine transformation)을 수행하여 y를 구하고, y에 비선형 활성화 함수 σ를 적용하여 결과값 z를 구한다. 여기서, W는 weight matrix이고, b는 bias 항이다.
은닉층에서 널리 사용되는 비선형 활성화 함수들은 하기 표 1과 다음과 같다.
[표 1]
Figure pat00003

그리고, 출력층에서는 하기의 수학식 3과 같이 sfotmax 연산을 통해 은닉층의 각 노드의 출력값을 확률값으로 정규화한다.
[수학식 3]
Figure pat00004
즉, 출력층에서는 L번째 은닉층의 N개의 모든 노드에 대한 출력 exp(yj L)을 구한 후 각 노드 출력값을
Figure pat00005
으로 정규화한다. 결국, 심층 신경망 기반의 음향 모델 θ은 다음의 수학식 4와 같이 정의될 수 있다.
[수학식 4]
θ = {W, b, σ}
즉, 심층 신경망 기반의 음향 모델 θ는 파라미터 W, b 및 σ로 구성되며, W는 weight matrix이고, b는 bias 항이며, σ는 비선형 활성화 함수이다.
일반적으로 심층 신경망 기반의 음향 모델 θ에 대한 훈련은 파라미터를 임의의 초기화 값으로 설정하고, 오류 역전파(back-propagation) 알고리즘과 추계적 경사 강화(stochastic gradient descent, SGD) 알고리즘을 통해 이루어진다.
경우에 따라서는, 파라미터를 임의의 초기화 값으로 설정한 후, 오류 역전파(back-propagation) 알고리즘과 추계적 경사 강화(stochastic gradient descent, SGD) 알고리즘을 수행하기 전에 pre-training이라는 prior 추정 과정이 이루어질 수도 있다.
이때, 모델 파라미터 W는 수학식 5와 같이 정의되는 추계적 경사 강화(SGD) 알고리즘을 통해 훈련될 수 있고, 모델 파라미터 b는 수학식 6과 같이 정의되는 추계적 경사 강화(SGD) 알고리즘을 통해 훈련될 수 있다.
[수학식 5]
Figure pat00006

[수학식 6]
Figure pat00007
상기 수학식 5 및 6에 있어서 J는 비용(cost) 함수로서, cross entropy가 널리 사용되며, 하기 수학식 7과 같이 표현될 수 있다.
[수학식 7]
Figure pat00008
여기서, p(x)와 q(x)는 확률 분포로서, 비용 함수(J)는 두 확률 분포 p(x)와 q(x) 사이에 존재하는 정보량을 계산하기 위한 것으로서, 확률 분포 p(x)에서 q(x)로 정보를 바꾸기 위해 필요한 정보량을 의미한다.
문제는 수학식 4와 같이 정의되는 음향 모델 θ의 파라미터 W와 b는 오류 역전파 알고리즘을 이용하여 훈련 가능하나, 대부분 비선형 활성화 함수 σ는 고정된 함수를 사용하기 때문에 훈련 불가능하다는 것이다.
그리고, 비선형 활성화 함수 σ에 대한 훈련이 가능하더라도, 비선형 활성화 함수 σ의 기본 형태는 유지되기 때문에, 비선형 활성화 함수 σ에 대한 효과적인 훈련을 할 수 없다.
따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 본 발명의 목적은, 심층 신경망 기반의 음향 모델의 파라미터인 비선형 활성화 함수를 훈련 가능한 형태로 표현함으로써 음향 모델의 훈련을 효과적으로 달성할 수 있으며 성능을 개선할 수 있도록 구현된 심층 신경망 기반의 음성인식 시스템을 제공함에 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 측면에 따른 심층 신경망 기반의 음성인식 시스템은, 각종 정보를 입력받는 입력부; 음성처리 알고리즘을 저장하는 저장부; 및 상기 입력부를 통해 입력되는 음성신호에 상기 저장부에 저장된 음성처리 알고리즘을 적용하여 음성인식을 수행하는 심층 신경망 기반의 처리부를 포함하고, 상기 처리부는 음향 모델 파라미터인 비선형 활성화 함수로서 거듭제곱 급수로 표현되는 활성화 함수를 이용하는 것을 특징으로 한다.
상기 거듭제곱 급수로 표현되는 활성화 함수는 하기와 같이 표현되는 것을 특징으로 한다.
Figure pat00009
여기서, N은 거듭제곱 급수의 차원이고,
Figure pat00010
는 l번째 층의 i번째 노드의 n번째 거듭제곱 급수의 계수를 의미하고,
Figure pat00011
는 l번째 층의 i번째 노드의 n번째 거듭제곱 급수의 bias를 의미한다.
상기 거듭제곱 급수의 계수와 상기 거듭제곱 급수의 bias는 오류 역전파를 통해 훈련되는 것을 특징으로 한다.
상기 거듭제곱 급수의 계수의 초기값과 상기 거듭제곱 급수의 bias의 초기값은 테일러 급수를 이용하여 설정되는 것을 특징으로 한다.
상기 처리부는 테일러 급수
Figure pat00012
를 이용하여 초기값이 설정되는 계수와 bias로 표현되는 거듭제곱 급수로 표현되는 활성화 함수 sigmoid(x)를 이용하는 것을 특징으로 한다.
상기 처리부는 테일러 급수
Figure pat00013
를 이용하여 초기값이 설정되는 계수와 bias로 표현되는 거듭제곱 급수로 표현되는 활성화 함수 tanh(x)를 이용하는 것을 특징으로 한다.
상기 처리부는 테일러 급수
Figure pat00014
를 이용하여 초기값이 설정되는 계수와 bias로 표현되는 거듭제곱 급수로 표현되는 활성화 함수 ReLU(x)를 이용하는 것을 특징으로 한다.
이와 같은 본 발명의 실시 예에 따른 시스템은 심층 신경망 기반의 음향 모델의 파라미터인 비선형 활성화 함수로서 훈련 가능한 형태로 표현되는 비선형 활성화 함수를 이용한다.
따라서, 본 발명의 실시 예에 따른 시스템을 이용하여 음성인식을 수행하면, 심층 신경망 모델 훈련시 좀 더 빠른 훈련이 가능하고, 음성인식 성능을 개선할 수 있다.
도 1은 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템에서 이용되는 심층 신경망에 대한 모델링을 도시한 다이어그램이다.
도 2는 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템의 음향 모델에서 이용되는 테일러 급수로 근사화된 활성화 함수 sigmoid(x)에 대한 epoch별 훈련 결과를 도시한 그래프이다.
도 3은 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템의 일례의 구성을 도시한 것이다.
본문에 개시되어 있는 본 발명의 실시 예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시 예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시 예들에 한정되는 것으로 해석되어서는 안 된다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 “~사이에”와 “바로 ~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.
본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함하다” 또는 “가지다” 등의 용어는 개시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
한편, 어떤 실시 예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.
본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템에 대해서 살펴보기 전에, 본 발명의 음성인식 시스템에서 음성인식을 위해 인용되는 음향 모델의 파라미터인 활성화 함수에 관해서 먼저 살펴보기로 한다.
본 발명은 심층 신경망 기반의 음향 모델의 파라미터인 비선형 활성화 함수를 좀 더 일반적인 parametric 형태로 표현함으로써 비선형 활성화 함수에 대한 훈련이 가능하도록 하여 음향 모델의 훈련을 효과적으로 달성할 수 있으며 성능을 개선할 수 있는 심층 신경망 기반의 음성인식 시스템을 제공하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위해서는, 활성화 함수를 어떠한 형태로 표현할 것인가와 초기값을 어떻게 설정할 것인가에 대한 고려가 이루어져야 한다.
이에, 본 발명에서는 활성화 함수를 수학식 8과 같은 거듭제곱 급수(power series)로 표현하는 것을 제안한다.
[수학식 8]
Figure pat00015
여기서, N은 거듭제곱 급수의 차원이고,
Figure pat00016
는 l번째 층의 i번째 노드의 n번째 거듭제곱 급수의 계수를 의미하고,
Figure pat00017
는 l번째 층의 i번째 노드의 n번째 거듭제곱 급수의 bias를 의미한다.
수학식 8과 같이 정의되는 거듭제곱 급수 기반의 활성화 함수를 사용하는 경우에는 심층 신경망에서의 하나의 노드는 도 1과 같이 표현될 수 있다.
도 1은 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템에서 이용되는 심층 신경망에 대한 모델링을 도시한 다이어그램이다.
그리고, 거듭제곱 급수 기반의 활성화 함수를 사용하면, 심층 신경망 기반의 음향 모델 θ는 수학식 9와 같이 표현될 수 있다. 즉, 활성화 함수는 훈련 가능한 파라미터 A와 C로 표현될 수 있다.
[수학식 9]
θ = {W, b, A, C}
여기서, A는 이고, C는 으로서, A와 C는 오류 역전파 알고리즘을 이용하여 훈련될 수 있다.
그리고, 파라미터 A와 C의 초기값의 설정은 비선형 함수들의 테일러 급수(Taylor series)를 이용하여 이루어질 수 있으며, 테일러 급수는 하기 수학식 10과 같이 정의될 수 있다.
[수학식 10]
Figure pat00018
그리고, 널리 사용되는 비선형 활성화 함수들을 테일러 급수로 표현하면 하기 수학식 11과 같다.
[수학식 11]
Figure pat00019
도 2는 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템의 음향 모델에서 이용되는 테일러 급수로 근사화된 활성화 함수 sigmoid(x)에 대한 epoch별 훈련 결과를 도시한 그래프이다.
이상에서는 본 발명에서 제안하는 음성인식 시스템에서 이용되는 활성화 함수에 대해서 살펴보았다. 이하에서는 상기에서 살펴본 훈련 가능한 활성화 함수로 표현되는 음향 모델을 이용하는 음성인식 시스템에 대해서 살펴보기로 한다.
도 3은 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템의 일례의 구성을 도시한 것이다.
도 3에 도시된 바와 같이, 본 발명의 실시 예에 따른 심층 신경망 기반의 음성인식 시스템(300, 이하 ‘시스템’)은 각종 정보들을 입력받는 입력부(310), 다양한 프로그램들과 정보들을 저장하는 저장부(330), 입력부(310)를 통해 입력되는 정보를 프로그램들을 이용해 처리하는 처리부(350) 및 처리부(350)에 의해 처리된 결과를 출력하는 출력부(370)를 포함할 수 있다. 그리고, 상기 처리부(350)는 적어도 하나 이상의 프로세서로 이루어질 수 있다.
예를 들어, 상기 입력부(310)로는 음성입력을 입력받을 수 있고, 상기 저장부(330)에는 처리부(350)에 의해 실행되는 신호처리 알고리즘이 저장될 수 있으며, 상기 출력부(370)는 처리부(350)에 의해 처리된 음성처리 결과를 표시할 수 있다.
특히, 상기 처리부(350)는 입력된 음성신호에서 음성인식을 위한 특징 파라미터를 추출하고, 추출된 파라미터를 이용하여 음성인식을 수행한다.
그리고, 상기 처리부(350)는 음성인식을 위해 심층 신경망 기반으로 표현되는 특정 신호처리 알고리즘을 이용하는데, 음향 모델 파라미터 중 하나인 비선형 활성화 함수로는 도 1 및 2를 통해 살펴본 바와 같이 훈련 가능한 형태로 표현되는 것을 이용한다.
즉, 상기 처리부(350)는 음향 파라미터 중 하나인 비선형 활성화 함수로 power series 기반의 함수를 이용한다.
한편, 상기 처리부(350)는 입력층, 은닉층 및 출력층을 포함하여 구성될 수 있는데, 전방향 신경망 구조를 갖는다. 각각의 층은 입력된 값을 연산 처리하는 복수의 노드로 구성되는데, 한 노드에서의 출력 값은 그 노드의 활성화 함수 출력 값으로 결정되고, 활성화 함수의 입력은 그 노드로 연결된 모든 노드들의 가중된 합이다.
한편, 본 발명에 따른 심층 신경망 기반의 음성인식 시스템을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.
따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
300 : 음성인식 시스템
310 : 입력부
330 : 저장부
350 : 처리부
370 : 출력부

Claims (7)

  1. 각종 정보를 입력받는 입력부;
    음성처리 알고리즘을 저장하는 저장부; 및
    상기 입력부를 통해 입력되는 음성신호에 상기 저장부에 저장된 음성처리 알고리즘을 적용하여 음성인식을 수행하는 심층 신경망 기반의 처리부를 포함하고,
    상기 처리부는 음향 모델 파라미터인 비선형 활성화 함수로서 거듭제곱 급수로 표현되는 활성화 함수를 이용하는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
  2. 제 1 항에 있어서,
    상기 거듭제곱 급수로 표현되는 활성화 함수는 하기와 같이 표현되는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
    Figure pat00020

    여기서, N은 거듭제곱 급수의 차원이고,
    Figure pat00021
    는 l번째 층의 i번째 노드의 n번째 거듭제곱 급수의 계수를 의미하고,
    Figure pat00022
    는 l번째 층의 i번째 노드의 n번째 거듭제곱 급수의 bias를 의미한다.
  3. 제 2 항에 있어서,
    상기 거듭제곱 급수의 계수와 상기 거듭제곱 급수의 bias는 오류 역전파를 통해 훈련되는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
  4. 제 2 항에 있어서,
    상기 거듭제곱 급수의 계수의 초기값과 상기 거듭제곱 급수의 bias의 초기값은 테일러 급수를 이용하여 설정되는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
  5. 제 4 항에 있어서,
    상기 처리부는 테일러 급수
    Figure pat00023
    를 이용하여 초기값이 설정되는 계수와 bias로 표현되는 거듭제곱 급수로 표현되는 활성화 함수 sigmoid(x)를 이용하는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
  6. 제 4 항에 있어서,
    상기 처리부는 테일러 급수
    Figure pat00024
    를 이용하여 초기값이 설정되는 계수와 bias로 표현되는 거듭제곱 급수로 표현되는 활성화 함수 tanh(x)를 이용하는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
  7. 제 4 항에 있어서,
    상기 처리부는 테일러 급수
    Figure pat00025
    를 이용하여 초기값이 설정되는 계수와 bias로 표현되는 거듭제곱 급수로 표현되는 활성화 함수 ReLU(x)를 이용하는 것을 특징으로 하는
    심층 신경망 기반의 음성인식 시스템.
KR1020160103586A 2016-08-16 2016-08-16 심층 신경망 기반의 음성인식 시스템 KR102116054B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160103586A KR102116054B1 (ko) 2016-08-16 2016-08-16 심층 신경망 기반의 음성인식 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160103586A KR102116054B1 (ko) 2016-08-16 2016-08-16 심층 신경망 기반의 음성인식 시스템

Publications (2)

Publication Number Publication Date
KR20180019347A true KR20180019347A (ko) 2018-02-26
KR102116054B1 KR102116054B1 (ko) 2020-05-28

Family

ID=61531260

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160103586A KR102116054B1 (ko) 2016-08-16 2016-08-16 심층 신경망 기반의 음성인식 시스템

Country Status (1)

Country Link
KR (1) KR102116054B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429180B2 (en) 2019-01-04 2022-08-30 Deepx Co., Ltd. Trained model creation method for performing specific function for electronic device, trained model for performing same function, exclusive chip and operation method for the same, and electronic device and system using the same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016037311A1 (en) * 2014-09-09 2016-03-17 Microsoft Technology Licensing, Llc Variable-component deep neural network for robust speech recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016037311A1 (en) * 2014-09-09 2016-03-17 Microsoft Technology Licensing, Llc Variable-component deep neural network for robust speech recognition

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11429180B2 (en) 2019-01-04 2022-08-30 Deepx Co., Ltd. Trained model creation method for performing specific function for electronic device, trained model for performing same function, exclusive chip and operation method for the same, and electronic device and system using the same

Also Published As

Publication number Publication date
KR102116054B1 (ko) 2020-05-28

Similar Documents

Publication Publication Date Title
Sharmin et al. A comprehensive analysis on adversarial robustness of spiking neural networks
CN109308318B (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
KR102492318B1 (ko) 모델 학습 방법 및 장치, 및 데이터 인식 방법
Andersson et al. Deep convolutional networks in system identification
KR102410820B1 (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
EP3570222A1 (en) Information processing device and method, and computer readable storage medium
Singh et al. Layer-specific adaptive learning rates for deep networks
CN107301864A (zh) 一种基于Maxout神经元的深度双向LSTM声学模型
KR20160032536A (ko) 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
KR20180045635A (ko) 뉴럴 네트워크 간소화 방법 및 장치
CN111695415A (zh) 图像识别模型的构建方法、识别方法及相关设备
CN110188794B (zh) 一种深度学习模型的训练方法、装置、设备及存储介质
KR20200128938A (ko) 모델 학습 방법 및 장치
CN109523493A (zh) 一种图像生成方法、装置及电子设备
CN110930996B (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
CN112365885A (zh) 唤醒模型的训练方法、装置和计算机设备
CN110299149A (zh) 一种基于注意力机制的语音增强算法
CN111598213A (zh) 网络训练方法、数据识别方法、装置、设备和介质
CN114332545A (zh) 一种基于低比特脉冲神经网络的图像数据分类方法和装置
CN115511069A (zh) 神经网络的训练方法、数据处理方法、设备及存储介质
Toloo et al. Evaluation efficiency of large-scale data set with negative data: an artificial neural network approach
CN109886402B (zh) 深度学习模型训练方法、装置、计算机设备及存储介质
JP2022522807A (ja) 回帰型ニューラルネットワークのルジャンドルメモリユニット
CN107798384B (zh) 一种基于可进化脉冲神经网络的鸢尾花卉分类方法和装置
Pal Deep learning parameterization of subgrid scales in wall-bounded turbulent flows

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right