KR101640188B1 - 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 - Google Patents

심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 Download PDF

Info

Publication number
KR101640188B1
KR101640188B1 KR1020140182736A KR20140182736A KR101640188B1 KR 101640188 B1 KR101640188 B1 KR 101640188B1 KR 1020140182736 A KR1020140182736 A KR 1020140182736A KR 20140182736 A KR20140182736 A KR 20140182736A KR 101640188 B1 KR101640188 B1 KR 101640188B1
Authority
KR
South Korea
Prior art keywords
neural network
speech
quot
signal
feature vector
Prior art date
Application number
KR1020140182736A
Other languages
English (en)
Other versions
KR20160073874A (ko
Inventor
장준혁
황인영
김남수
Original Assignee
서울대학교산학협력단
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단, 한양대학교 산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020140182736A priority Critical patent/KR101640188B1/ko
Publication of KR20160073874A publication Critical patent/KR20160073874A/ko
Application granted granted Critical
Publication of KR101640188B1 publication Critical patent/KR101640188B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하기 위한 음성 검출 장치에 관한 것으로서, 보다 구체적으로는 음성 검출 장치가, (1) 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하는 단계; (2) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키는 단계; (3) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 단계; 및 (4) 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치에 따르면, 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하며, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류함으로써, 다수의 비선형 은닉 층을 이용하여 음성이 존재하는 경우와 존재하지 않는 경우에 대한 우도비의 분포를 보다 효과적으로 모델링할 수 있고, 음성 검출 성능을 향상시킬 수 있으며, 계산 소요시간을 감소시킬 수 있다.

Description

심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치{VOICE ACTIVITY DETECTION METHOD BASED ON STATISTICAL MODEL EMPLOYING DEEP NEURAL NETWORK AND VOICE ACTIVITY DETECTION DEVICE PERFORMING THE SAME}
본 발명은 음성 검출 방법 및 이를 수행하는 음성 검출 장치에 관한 것으로서, 보다 구체적으로는 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치에 관한 것이다.
음성 검출 기술은 입력된 음성 신호로부터 실제 음성이 존재하는 음성(voice) 구간과, 음성이 존재하지 않는 비음성(non-voice) 구간을 분류하는 기술이다. 최근에는 음성 검출 기술에 통계적인 모델을 적용하여 연산량을 감소시키고 음성 검출 성능을 향상시키기 위한 연구들이 많이 진행되고 있다.
이러한 통계 모델 기반의 음성 검출 방법 중 하나는, 각각의 주파수 대역으로부터 구해진 우도비(likelihood ratio, LR)의 기하 평균값과 주어진 문턱 값(threshold)을 비교하여, 기하 평균값이 문턱 값보다 큰 경우 음성 구간으로 분류하고, 기하 평균값이 문턱 값보다 작은 경우 비음성 구간으로 분류할 수 있다.
그러나 종래의 연구의 경우, 각각의 주파수 채널로부터 구해진 우도비(LR) 값이 특징 공간(feature space)상에서 상당 부분 겹치게 되어, 선형적으로 분류하는 것이 검출 성능을 향상시키는 데에 적합하지 않을 수 있다.
이를 보완하기 위하여 커널 함수(kernel function)가 도입된 서포트 벡터 머신(support vector machine, SVM)을 적용한 음성 검출 기술이 시도되고 있다. 서포트 벡터 머신(SVM)을 적용한 음성 검출 기술은 비선형 분포를 보다 잘 모델링 할 수 있어 검출 성능이 우수하지만, 은닉 층(hidden layer)이 없거나, 많아야 1개만 존재하는 얕은 구조를 갖는 기계학습 기법이라는 구조적 한계로 인하여, 우도비의 비선형적 분포를 충분히 모델링 하는 데에 한계가 있다. 또한, 서포트 벡터 머신(SVM)을 이용할 경우, 학습 단계에서 상당한 계산 로드가 요구됨에 따라, 학습을 완료하기까지 상당한 시간이 소요되는 문제가 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR)와 사후(a posteriori) 신호 대 잡음비 및 우도비를 이용한 특징 벡터를 추출하며, 상기 추출된 특징벡터를 입력하여 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징벡터와 음성의 존재/부재에 대한 레이블링 값을 입력하여 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류함으로써, 다수의 비선형 은닉 층을 이용하여 음성이 존재하는 경우와 존재하지 않는 경우에 대한 우도비의 분포를 보다 효과적으로 모델링할 수 있고, 음성 검출 성능을 향상시킬 수 있으며, 계산 소요시간을 감소시킬 수 있는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치를 제공하는 것을 그 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법은, 음성 검출 장치가,
(1) 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하는 단계;
(2) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키는 단계;
(3) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 단계; 및
(4) 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)은,
(1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;
(1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;
(1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전 신호 대 잡음비를 산출하는 단계; 및
(1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비(LR)를 산출하는 단계를 포함하여 구성될 수 있다.
바람직하게는,
상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고,
상기 단계 (2)는,
(2-1) 상기 선행 학습을 위하여, 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)를 순차적으로 초기화하는 단계를 포함하며,
상기 단계 (2)에서는,
상기 선행 학습에 의해, 하기의 [수학식 1]과 같이 에너지 함수 E(v,h)가 최소화되되,
[수학식 1]
Figure 112014122912039-pat00001
v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내며, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내도록 구성될 수 있다.
바람직하게는, 상기 단계 (2)에서는,
하기의 [수학식 2]에 따른 학습 규칙을 갖되,
[수학식 2]
Figure 112014122912039-pat00002
i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 <·>는 각 분포의 기대치를 나타내며,
상기 학습 규칙은,
하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되고,
[수학식 3]
Figure 112014122912039-pat00003
상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]와 같이 상기 에너지 함수를 이용해 나타내어지도록 구성될 수 있다.
[수학식 4]
Figure 112014122912039-pat00004

바람직하게는, 상기 단계 (3)에서,
상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,
[수학식 5]
Figure 112014122912039-pat00005
M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내며,
상기 단계 (4)에서는,
특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과가 하기의 [수학식 6]과 같이 나타나되,
[수학식 6]
Figure 112014122912039-pat00006
w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,
상기 학습된 특징 벡터의 결과는 하기의 [수학식 7]과 같이 단순화되되,
[수학식 7]
Figure 112014122912039-pat00007
yout은 단순화된 결과 값을 나타내며,
상기 단계 (4)에서,
상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하도록 구성될 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치는,
학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하며, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 제어부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고, 상기 선행 학습에서는 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)가 순차적으로 초기화되며, 상기 선행 학습에 의해, 가시 층 및 은닉 층의 노드 벡터에 의해 표현되는 에너지 함수가 최소화되도록 구성될 수 있다.
바람직하게는,
상기 에너지 함수는, 하기의 [수학식 1]과 같이 정의되되,
[수학식 1]
Figure 112014122912039-pat00008
v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내며, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내도록 구성될 수 있다.
바람직하게는,
상기 선행 학습에서는 하기의 [수학식 2]에 따른 학습 규칙을 갖되,
[수학식 2]
Figure 112014122912039-pat00009
i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 <·>는 각 분포의 기대치를 나타내고,
상기 학습 규칙은,
하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되며,
[수학식 3]
Figure 112014122912039-pat00010
상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]와 같이 상기 에너지 함수를 이용해 나타내어지도록 구성될 수 있다.
[수학식 4]
Figure 112014122912039-pat00011

바람직하게는,
상기 심화 신경망의 최적화에 사용되는 상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,
[수학식 5]
Figure 112014122912039-pat00012
M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내고,
상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 6]과 같이 나타나되,
[수학식 6]
Figure 112014122912039-pat00013
w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,
특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 7]과 같이 단순화되되,
[수학식 7]
Figure 112014122912039-pat00014
yout은 단순화된 결과 값으로서,
상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하도록 구성될 수 있다.
본 발명에서 제안하고 있는 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치에 따르면, 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR)와 사후(a posteriori) 신호 대 잡음비 및 우도비를 이용한 특징 벡터를 추출하며, 상기 추출된 특징벡터를 입력하여 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징벡터와 음성의 존재/부재에 대한 레이블링 값을 입력하여 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류함으로써, 다수의 비선형 은닉 층을 이용하여 음성이 존재하는 경우와 존재하지 않는 경우에 대한 우도비의 분포를 보다 효과적으로 모델링할 수 있고, 음성 검출 성능을 향상시킬 수 있으며, 계산 소요시간을 감소시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치의 구성을 블록 도시한 도면.
도 2는 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 단계 S110의 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 개념적으로 도시한 도면.
도 5 내지 도 8은 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 성능을 다른 음성 검출 방법과 비교하여 평가한 그래프를 도시한 도면들.
도 9 및 도 10은 본 발명의 다른 실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 성능을 다른 음성 검출 방법과 비교하여 평가한 그래프를 도시한 도면들.
이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치의 구성을 블록 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치는 제어부(100)를 포함하여 구성될 수 있다. 실시예에 따라, 제어부(100)는 메모리(110)를 더 포함하여 구성될 수 있다. 제어부(100)는 입력부(200)와 전기적으로 연결될 수 있다.
제어부(100)는 학습 과정을 통하여 최적화된 심화신경망을 이용한 음성 검출 방법을 수행하는 부분으로서, 소정의 연산 속도를 갖는 연산 유닛을 포함할 수 있다. 예를 들어, 제어부(100)는 CPU(central processing unit), GPU(graphical processing unit) 등과 같은 연산 유닛을 포함할 수 있다. 또한, 제어부(100)는 소정의 프로세스에 필요한 데이터를 저장하기 위한 메모리(110)를 더 포함할 수 있다.
입력부(200)는 제어부(100)에 대하여 소정의 입력 데이터를 전송하는 부분으로서, 예를 들어, 마이크로폰 등과 같이 소리를 전기 신호로 변환하는 입력 수단을 포함할 수 있다. 예를 들어, 입력부(200)에 제공되는 오염된 음성 신호(즉, 주변 잡음에 의해 오염된 음성 신호)는, 제어부(100)에 제공될 수 있다.
도 2는 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법은, 음성 검출 장치가, 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전 SNR, 사후 SNR 및 우도비를 이용한 특징 벡터를 추출하는 단계(S110), 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 심화 신경망을 선행 학습시키는 단계(S130), 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 심화 신경망을 최적화시키는 단계(S150), 및 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계(S170)를 포함하여 구성될 수 있다. 이하에서는, 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 각각의 단계에 대해 상세히 설명하도록 한다.
단계 S110에서는, 학습 단계로서, 음성 검출 장치의 제어부(100)가, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전 SNR, 사후 SNR 및 우도비를 이용한 특징 벡터를 추출할 수 있다. 이러한 단계 S110의 과정은 도 3을 참조하여 보다 상세히 설명하도록 한다.
도 3은 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 단계 S110의 흐름을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 단계 S110은 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계(S111), 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계(S113), 산출된 주파수 대역의 분산을 이용하여 사후 SNR 및 사전 SNR을 산출하는 단계(S115), 및 사전 SNR과 사후 SNR을 이용하여 주파수 대역의 우도비를 산출하는 단계(S117)를 포함하여 구성될 수 있다.
단계 S111에서는, 음성 검출 장치의 제어부(100)가, 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환할 수 있다. 이 경우, 시간 축 상에서 잡음에 의해 오염된 음성 신호 y(t)는 하기의 [수학식 1]에서와 같이, 잡음 신호 d(t)가 깨끗한 음성 신호 x(t)에 더해져 형성된다고 가정할 수 있다.
Figure 112014122912039-pat00015
이렇게 잡음에 의하여 오염된 음성 신호 y(t)는 short-time Fourier transform (STFT)를 통해서 주파수 축 상에서 하기의 [수학식 2]와 같이 변환될 수 있다.
Figure 112014122912039-pat00016
여기서, Y(k,n)은 잡음에 의해 오염된 음성 신호의 STFT 계수를 나타내고, X(k,n)은 깨끗한 음성 신호의 STFT 계수를 나타내며, D(k,n)은 잡음의 STFT 계수를 나타낸다. 또한, k는 주파수 채널의 인덱스를 나타내고, n은 프레임 인덱스를 나타낸다.
단계 S113에서는, 음성 검출 장치의 제어부(100)가, 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출할 수 있다.
이를 위해, 음성이 존재하는 경우와, 음성이 존재하지 않는 경우에 대한 2가지 가설을 하기와 같이 각각 나타낼 수 있다.
H0: 음성 부재:
Figure 112014122912039-pat00017
H1: 음성 존재:
Figure 112014122912039-pat00018

이때, 2가지 가설 H0와 H1이 가우시안 확률 분포를 따른다고 가정하면, 2가지 가설 H0와 H1에 대한 조건부 확률 밀도 함수는 각각, 하기의 [수학식 3] 및 [수학식 4]와 같이 나타낼 수 있다.
Figure 112014122912039-pat00019
Figure 112014122912039-pat00020
여기서, λx(k,n)은 깨끗한 음성 신호의 주파수 대역의 분산을 나타내고, λd(k,n)은 잡음 신호의 주파수 대역의 분산을 나타낸다.
단계 S115에서는, 음성 검출 장치의 제어부(100)가, 산출된 주파수 대역의 분산을 이용하여 사후 SNR 및 사전 SNR을 산출할 수 있다. 예를 들어, 사후(a posteriori) SNR(signal to noise ratio)(신호 대 잡음비)는 음성이 존재하지 않는 구간에서 잡음 신호의 분산을 이용하여 업데이트 되도록 구성될 수 있다. 예를 들어, 사전(a priori) SNR(신호 대 잡음비)는, 음성이 존재하는 구간에서 본 발명이 속하는 기술분야에서 잘 알려진 결정 지향(decision-directed) 기법을 이용하여 하기의 [수학식 5]와 같이 산출될 수 있다.
Figure 112014122912039-pat00021
여기서, ξ(k,n)은 사전 SNR(a priori SNR)이고, γ(k,n)은 사후 SNR(a posteriori SNR)로서, 각각 하기의 [수학식 6] 및 [수학식 7]과 같이 나타낼 수 있다.
Figure 112014122912039-pat00022
Figure 112014122912039-pat00023
또한, 상기 [수학식 5]에서, hat{X(k,n-1)}은 이전 프레임(즉, n-1 프레임)의 진폭의 예측 값을 나타내며, 최소 평균 제곱 오차 추정량(minimum mean square error estimator, MMSE)에 의해 얻어질 수 있다. 또한, α는 스무딩(smoothing) 파라미터로서, 약 0.95 내지 약 0.99의 범위의 값을 가질 수 있다.
단계 S117에서는, 음성 검출 장치의 제어부(100)가, 사전 SNR 및 사후 SNR을 이용하여 주파수 대역의 우도비를 산출할 수 있다. 이때, k번째 주파수 대역의 우도비(likelihood)는 하기의 [수학식 8]과 같이 산출될 수 있다.
Figure 112014122912039-pat00024
이와 같이 산출된 사전 SNR, 사후 SNR 및 우도비로부터, 특징 벡터를 형성할 수 있는데, 음성 검출 성능을 향상시키기 위하여, 이러한 특징 정보들의 delta 성분 및 delta-delta 성분들 또한 특징 정보로 사용할 수 있다.
한편, 종래 기술에 의한 통계 모델 기반의 음성 검출기의 경우, 최종적인 결정 규칙으로서, 하기의 [수학식 9]와 같이, 각 주파수 채널로부터 구해지는 우도비의 기하 평균에 기초하여 음성을 검출할 수 있다.
Figure 112014122912039-pat00025
여기서, L은 주파수 대역의 개수를 나타내고, η는 음성 검출을 위한 문턱 값을 나타낼 수 있다. 이처럼 각각의 프레임에서, [수학식 9]에 의해 각 주파수 채널로부터 구해진 우도비의 기하 평균이 주어진 문턱 값보다 큰 경우 음성으로 분류하고, 작은 경우 비음성으로 분류할 수 있으나, 이러한 기하 평균 이용 방법의 경우, 우도비 값이 특징 공간(feature space)상에서 상당 부분 겹치게 되어, 음성 검출 성능을 향상시키는 데에 적절하지 않을 수 있다. 이에 대해, 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법에서는, 후술할 단계 S130, 단계 S150 및 단계 S170에 의해 음성 검출 성능이 향상될 수 있다.
단계 S130에서는, 학습 단계로서, 음성 검출 장치의 제어부(100)가, 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 심화 신경망을 선행 학습시킬 수 있다.
이 경우, 심화 신경망으로서 딥 빌리프 네트워크(deep belief network, DBN) 기반의 심화 신경망을 사용할 수 있다. DBN 기반의 심화 신경망은, 양방향, 그래프 모델 기반의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)를 적층하여 형성할 수 있다. 본 단계에서 수행되는 선행 학습의 목적은, 하기의 [수학식 10]과 같이 표현되는 에너지 함수 E(v,h)를 최소화하는 데에 있다.
Figure 112014122912039-pat00026
여기서, v는 가시 층의 노드 벡터를 의미하고, h는 은닉 층의 노드 벡터를 의미하며, a와 b는 각각 바이어스 벡터를 나타낸다. 또한, w는 은닉 층의 가중치 매트릭스를 나타낸다.
상기 에너지 함수 E(v,h)를 이용하여 가시 층과 은닉 층 사이의 확률 p(v)는 하기의 [수학식 11]과 같이 나타낼 수 있다.
Figure 112014122912039-pat00027
이러한 가시 층 및 은닉 층 사이의 확률로부터 로그 확률의 미분 값을, 하기의 [수학식 12]와 같이 유도할 수 있다.
Figure 112014122912039-pat00028
여기서, 연산 <·>는 각각의 분포의 기대치를 나타내고, w는 은닉 층의 가중치 매트릭스를 나타내며, 아래첨자 i 및 j는 각각, 가시 노드 및 은닉 노드의 인덱스를 나타낸다.
이와 같은 로그 확률의 미분 값을 이용하면 하기의 [수학식 13]과 같은 학습 규칙을 유도할 수 있다.
Figure 112014122912039-pat00029
여기서, ε은 학습률을 나타낸다.
이러한 선행 학습에 의해, 은닉 층이 많은 신경망에서 임의로 초기화된 가중치, 바이어스 등의 파라미터로 인한 지역 최적화, 과학습 등이 발생하는 문제를 감소시킬 수 있다.
단계 S150에서는, 학습 단계로서, 음성 검출 장치의 제어부(100)가, 추출된 특징 벡터의 결과를 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 심화 신경망을 최적화시킬 수 있다.
각각의 제한 볼츠만 기계(RBM)의 선행 학습 과정을 거친 심화 신경망은, 본 발명이 속하는 기술분야에서 잘 알려진 기울기 하강(gradient decent) 기반의 역전이 알고리즘을 통해 최적화될 수 있다. 이때, 역전이 알고리즘을 위한 비용 함수 J는 하기의 [수학식 14]와 같이 표현될 수 있다.
Figure 112014122912039-pat00030
M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타낸다. 또한, w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타낸다.
단계 S170에서는, 분류 단계로서, 음성 검출 장치의 제어부(100)가, 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류할 수 있다.
즉, 이전 단계들을 통해 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 최종적으로 원하는 결과 값 y=[y0 y1]T의 형태를 가질 수 있는데, 이는 하기의 [수학식 15]와 같이 표현될 수 있다.
Figure 112014122912039-pat00031
여기서, wi는 i번째 은닉 층의 가중치 매트릭스를 나타내고, bi는 i번째 은닉 층의 바이어스 벡터를 나타내며, g는 활성 함수를 나타낸다. 본 발명의 실시예들에서, 활성 함수로서 시그모이드(sigmoid) 함수가 사용될 수 있다.
한편, 음성 검출 장치는, 음성이 존재하는지 또는 부재하는지의 2가지 경우를 고려하기 때문에, 학습된 심화 신경망의 출력 층은 2개의 노드를 가질 수 있다. 이 경우, 원하는 결과는, 음성이 존재할 경우, [1 0]T를 나타내고, 음성이 부재할 경우, [0 1]T를 나타내는 것이다. 그러므로 심화 신경망의 결과를 하기의 [수학식 16]과 같이, 하나의 결과 값으로 단순화하여 나타낼 수 있다.
Figure 112014122912039-pat00032
이 경우, 결정 함수는 이처럼 단순화된 결과 값을, 미리 설정된 문턱 값(threshold)과 비교하여, 단순화된 결과 값이 미리 설정된 문턱 값보다 큰 경우, 입력된 음성 신호를 음성 구간으로 분류하고, 단순화된 결과 값이 미리 설정된 문턱 값보다 작은 경우, 입력된 음성 신호를 잡음 구간으로 분류할 수 있다.
도 4는 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 개념적으로 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법은 학습 단계(310) 및 테스트 단계(320)의 오염된 음성 신호를 기초로 하여, 단구간 푸리에 변환된 음성 신호의 분산으로부터 사전/사후 신호 대 잡음비 및 우도비를 산출하여 특징 벡터를 추출(330)하고, 선행 학습 후 최적화(340)된 심화 신경망(350)에 이를 입력하여, 최종 결과 값을 결정 함수(360)에 의해 음성 구간 또는 비음성(즉, 잡음) 구간으로 분류할 수 있다.
도 5 내지 도 8은 본 발명의 일실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 성능을 다른 음성 검출 방법과 비교하여 평가한 그래프를 도시한 도면들이고, 도 9 및 도 10은 본 발명의 다른 실시예에 따른 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법의 성능을 다른 음성 검출 방법과 비교하여 평가한 그래프를 도시한 도면들이다. 본 발명의 실시예들에서, 음성 검출 장치를 구현하기 위한 심화 신경망의 최적화에는, 8㎑로 표면화된 200초의 깨끗한 음성이 사용되었다. 이 음성은 10㎳(millisecond)마다 수동으로 음성의 존재와 부재가 레이블링(labeling)되었다. 본 실시예들에서, 상기 음성은, 45.42%의 유성음, 14.02%의 무성음 및 40.56%의 비음성(잡음)으로 구성되었다.
한편, 잡음에 의해 오염된 음성 신호를 생성하기 위해서는, Noisex-98 데이터베이스의 vehicular, destroyer-operation, street, white 잡음 신호들을, 각각 5㏈, 10㏈, 15㏈, 20㏈의 SNR을 유지하며 깨끗한 음성 신호에 더하였다. 본 실시예들에 따른 심화 신경망의 은닉 층은 총 3개로 구성되었으며, 각 은닉 층의 노드의 개수는 각각 256, 128, 64로 구성되었다.
선행 학습 과정에서는 0.002 의 학습률로 80번 반복학습을 수행하였고, 미세 조정 과정에서는 0.004의 학습률로 150번 반복학습을 수행하였다.
본 발명의 실시예들에 따른 음성 검출 방법을 종래 기술에 의한 음성 검출 방법과 비교하기 위하여, 학습 과정에 사용되지 않은 256초의 깨끗한 음성을 사용하였으며, 잡음 환경을 모사하기 위하여 학습 과정과 마찬가지로 Noisex-98 데이터베이스의 vehicular, destroyer-operation, street, white 잡음 신호들을, 각각 5㏈, 10㏈, 15㏈, 20㏈의 SNR을 유지하며 깨끗한 음성 신호에 더하였다. 나아가, 미스매치된(mismatched) 환경에서의 비교를 위하여, Noisex-98 데이터베이스의 factory, destroyer-engine 잡음 신호들을 각각 5㏈, 10㏈, 15㏈, 20㏈의 SNR을 유지하며 깨끗한 음성 신호에 더하였다.
이하, 도 5 내지 도 10에서는 ROC (receive operation characteristic) 곡선을 통해서 각각의 음성 검출 방법들을 비교하였다. 즉, 본 발명의 실시예에 따른 음성 검출 방법과, 종래 기술에 따른 기하 평균 기반의 결정 함수를 이용한 음성 검출 방법과, 종래 기술에 따른 서포트 벡터 머신(SVM) 기반의 결정 함수를 이용한 음성 검출 방법을 비교하였다.
도 5에서는, vehicular 환경에서의 본 발명의 실시예에 따른 음성 검출 방법(실선)과, 기하평균 기반의 결정 함수를 이용한 음성 검출 방법(점선)과, 서포트 벡터 머신(SVM) 기반의 결정 함수를 이용한 음성 검출 방법(일점쇄선)의 결과를 비교하였다. 비교 결과, 본 발명의 실시예에 따른 음성 검출 방법이 다른 2가지 방법에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
도 6에서는, Destroyer-operation 환경에서의 본 발명의 실시예에 따른 음성 검출 방법(실선)과, 기하평균 기반의 결정 함수를 이용한 음성 검출 방법(점선)과, 서포트 벡터 머신(SVM) 기반의 결정 함수를 이용한 음성 검출 방법(일점쇄선)의 결과를 비교하였다. 비교 결과, vehicular 환경에서 보다는 다소 낮지만, 본 발명의 실시예에 따른 음성 검출 방법이 다른 2가지 방법에 비해 여전히 음성 검출 성능이 우수한 것을 확인할 수 있다.
도 7에서는, street 환경에서의 본 발명의 실시예에 따른 음성 검출 방법(실선)과, 기하평균 기반의 결정 함수를 이용한 음성 검출 방법(점선)과, 서포트 벡터 머신(SVM) 기반의 결정 함수를 이용한 음성 검출 방법(일점쇄선)의 결과를 비교하였다. 비교 결과, vehicular 환경에서 보다는 다소 낮지만, Destroyer-operation 환경에서보다는 우수한 음성 검출 성능을 보이면서, 본 발명의 실시예에 따른 음성 검출 방법이 다른 2가지 방법에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
도 8에서는, white 환경에서의 본 발명의 실시예에 따른 음성 검출 방법(실선)과, 기하평균 기반의 결정 함수를 이용한 음성 검출 방법(점선)과, 서포트 벡터 머신(SVM) 기반의 결정 함수를 이용한 음성 검출 방법(일점쇄선)의 결과를 비교하였다. 비교 결과, 앞선 환경들과 마찬가지로, 본 발명의 실시예에 따른 음성 검출 방법이 다른 2가지 방법에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
도 9 및 도 10에서는, 미스매치된(mismatched) 환경에서의 평가를 위하여, 5 dB SNR의 Destroyer-engine 및 factory 환경에서 평가된 ROC 곡선을 도시하였다.
도 9에서는 Destroyer-engine 환경에서의 결과가 도시되며, 도 10에서는 factory 환경에서의 결과가 도시되었다. 도 9 및 도 10에서도 역시, 본 발명의 실시예에 따른 음성 검출 방법(실선)의 결과가, 기하평균 기반의 결정 함수를 이용한 음성 검출 방법(점선)이나, 서포트 벡터 머신(SVM) 기반의 결정 함수를 이용한 음성 검출 방법(일점쇄선)의 결과에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 제어부 110: 메모리
200: 입력부
S110: 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전 SNR, 사후 SNR 및 우도비를 이용한 특징 벡터를 추출하는 단계
S111: 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계
S113: 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계
S115: 산출된 주파수 대역의 분산을 이용하여 사후 SNR 및 사전 SNR을 산출하는 단계
S117: 사전 SNR 및 사후 SNR을 이용하여 주파수 대역의 우도비를 산출하는 단계
S130: 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 심화 신경망을 선행 학습시키는 단계
S150: 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 심화 신경망을 최적화시키는 단계
S170: 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계

Claims (10)

  1. 음성 검출 장치에서 수행되는 통계모델 기반의 음성 검출 방법으로서, 음성 검출 장치가,
    (1) 학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비(SNR) 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하는 단계;
    (2) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키는 단계;
    (3) 상기 학습 단계에서, 상기 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 단계; 및
    (4) 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 단계를 포함하되,
    상기 단계 (1)은,
    (1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;
    (1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;
    (1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전신호 대 잡음비를 산출하는 단계; 및
    (1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비를 산출하는 단계를 포함하며,
    상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고,
    상기 단계 (2)는,
    (2-1) 상기 선행 학습을 위하여, 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)를 순차적으로 초기화하는 단계를 포함하며,
    상기 단계 (2)에서는,
    상기 선행 학습에 의해, 하기의 [수학식 1]과 같이 에너지 함수 E(v,h)가 최소화되되,
    [수학식 1]
    Figure 112016022108442-pat00057

    v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내며, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내고,
    상기 단계 (2)에서는,
    하기의 [수학식 2]에 따른 학습 규칙을 갖되,
    [수학식 2]
    Figure 112016022108442-pat00058

    i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 <·>는 각 분포의 기대치를 나타내며,
    상기 학습 규칙은,
    하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되고,
    [수학식 3]
    Figure 112016022108442-pat00059

    상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]과 같이 상기 에너지 함수를 이용해 나타내어지는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법.
    [수학식 4]
    Figure 112016022108442-pat00060

  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서, 상기 단계 (3)에서,
    상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,
    [수학식 5]
    Figure 112016022108442-pat00037

    M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내며,
    상기 단계 (4)에서는,
    특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과가 하기의 [수학식 6]과 같이 나타나되,
    [수학식 6]
    Figure 112016022108442-pat00038

    w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,
    특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 7]과 같이 단순화되되,
    [수학식 7]
    Figure 112016022108442-pat00039

    yout은 단순화된 결과 값을 나타내며,
    상기 단계 (4)에서,
    상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법.
  6. 통계모델 기반의 음성 검출 장치로서,
    학습 단계에서, 주변 잡음에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여 사전(a priori) 신호 대 잡음비(SNR), 사후(a posteriori) 신호 대 잡음비 및 우도비(likelihood ratio, LR)를 이용한 특징 벡터를 추출하며, 상기 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화 신경망을 선행 학습시키고, 상기 추출된 특징 벡터의 결과를 이용하여, 기울기 하강 기반의 역전이 알고리즘에 기초하여 상기 심화 신경망을 최적화시키며, 분류 단계에서, 상기 특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과를 이용한 결정 함수에 기초하여, 상기 입력된 음성 신호를 음성 구간 또는 잡음 구간으로 분류하는 제어부를 포함하되,
    상기 특징 벡터는,
    (1-1) 상기 입력된 음성 신호에 단구간 푸리에 변환(STFT)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;
    (1-2) 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 분산을 산출하는 단계;
    (1-3) 산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비 및 사전신호 대 잡음비를 산출하는 단계; 및
    (1-4) 사전 신호 대 잡음비 및 사후 신호 대 잡음비를 이용하여 주파수 대역의 우도비를 산출하는 단계를 통해 추출되고,
    상기 심화 신경망은 딥 빌리프 네트워크(deep belief network, DBN)에 기초한 신경망이고, 상기 선행 학습에서는 각각의 제한 볼츠만 기계(restricted Boltzmann machine, RBM)가 순차적으로 초기화되며, 상기 선행 학습에 의해, 가시 층 및 은닉 층의 노드 벡터에 의해 표현되는 에너지 함수가 최소화되며,
    상기 에너지 함수는, 하기의 [수학식 1]과 같이 정의되되,
    [수학식 1]
    Figure 112016022108442-pat00061

    v는 가시 층의 노드 벡터를 나타내고, h는 은닉 층의 노드 벡터를 나타내고, a와 b는 각각 바이어스 벡터를 나타내며, w는 은닉 층의 가중치 매트릭스를 나타내며,
    상기 선행 학습에서는 하기의 [수학식 2]에 따른 학습 규칙을 갖되,
    [수학식 2]
    Figure 112016022108442-pat00062

    i 및 j는 각각 가시 노드 및 은닉 노드의 인덱스를 나타내고, ε은 학습률을 나타내며, 연산 <·>는 각 분포의 기대치를 나타내고,
    상기 학습 규칙은,
    하기의 [수학식 3]에 따른 확률 p의 로그 확률 미분으로부터 유도되며,
    [수학식 3]
    Figure 112016022108442-pat00063

    상기 확률 p는 가시 층 및 은닉 층 사이의 확률로서, 하기의 [수학식 4]와 같이 상기 에너지 함수를 이용해 나타내어지는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치.
    [수학식 4]
    Figure 112016022108442-pat00064

  7. 삭제
  8. 삭제
  9. 삭제
  10. 제6항에 있어서,
    상기 심화 신경망의 최적화에 사용되는 상기 역전이 알고리즘을 위한 비용 함수는 하기의 [수학식 5]와 같이 정의되되,
    [수학식 5]
    Figure 112016022108442-pat00044

    M은 학습에 사용되는 데이터의 개수를 나타내고, K는 출력 노드의 개수를 나타내며, yij 및 tij는 각각, i번째 데이터의 j번째 출력 노드의 음성 신호 및 결과 값을 나타내고,
    특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 결과는 하기의 [수학식 6]과 같이 나타나되,
    [수학식 6]
    Figure 112016022108442-pat00045

    w는 은닉 층의 가중치 매트릭스를 나타내고, b는 바이어스 벡터를 나타내며, 아래첨자 숫자는 은닉 층의 인덱스를 나타내고, g는 활성 함수로서 시그모이드(sigmoid) 함수를 나타내며, y는 결과 값을 나타내고,
    특징벡터 추출 방법을 통해서 얻어진 특징벡터로부터 상기 학습된 심화신경망을 통해서 얻어진 벡터의 결과는 하기의 [수학식 7]과 같이 단순화되되,
    [수학식 7]
    Figure 112016022108442-pat00046

    yout은 단순화된 결과 값으로서,
    상기 결정 함수는, 상기 단순화된 결과 값을 미리 설정된 문턱 값과 비교하여, 상기 단순화된 결과 값이 상기 문턱 값보다 큰 경우 상기 음성 구간으로 분류하고, 상기 단순화된 결과 값이 상기 문턱 값보다 작은 경우, 상기 잡음 구간으로 분류하는 것을 특징으로 하는, 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치.
KR1020140182736A 2014-12-17 2014-12-17 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 KR101640188B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140182736A KR101640188B1 (ko) 2014-12-17 2014-12-17 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140182736A KR101640188B1 (ko) 2014-12-17 2014-12-17 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치

Publications (2)

Publication Number Publication Date
KR20160073874A KR20160073874A (ko) 2016-06-27
KR101640188B1 true KR101640188B1 (ko) 2016-07-15

Family

ID=56344491

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140182736A KR101640188B1 (ko) 2014-12-17 2014-12-17 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치

Country Status (1)

Country Link
KR (1) KR101640188B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102358151B1 (ko) * 2021-06-11 2022-02-08 주식회사 위스타 컨볼루션 순환신경망을 이용한 잡음 제거 방법

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101943381B1 (ko) * 2016-08-22 2019-01-29 에스케이텔레콤 주식회사 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
US10242696B2 (en) 2016-10-11 2019-03-26 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications
KR101871604B1 (ko) * 2016-12-15 2018-06-27 한양대학교 산학협력단 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
KR102095132B1 (ko) * 2018-11-29 2020-03-30 한국과학기술원 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치
KR102351021B1 (ko) * 2019-11-15 2022-01-14 주식회사 셀바스에이아이 음성 트레이닝 데이터 선별 방법 및 이를 이용하는 장치
KR102316627B1 (ko) 2020-08-04 2021-10-22 한양대학교 산학협력단 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치
KR102560263B1 (ko) * 2021-02-03 2023-07-28 주식회사 크로커스 모드 분해와 신경망을 이용한 전력 예측 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Q. H. Jo et al., ‘Statistical model-based voice activity detection using support vector machine’, IET Signal Process., Vol.3, Iss.3, pp.205~210, 2009.*
Xiao-Lei Zhang et al., ‘Deep belief networks based voice activity detection’, IEEE Transactions on audio, speech, and language processing, Vol.21, No.4, pp.697~710, April 2013.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102358151B1 (ko) * 2021-06-11 2022-02-08 주식회사 위스타 컨볼루션 순환신경망을 이용한 잡음 제거 방법

Also Published As

Publication number Publication date
KR20160073874A (ko) 2016-06-27

Similar Documents

Publication Publication Date Title
KR101640188B1 (ko) 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치
CN110097755B (zh) 基于深度神经网络的高速公路交通流量状态识别方法
KR101877127B1 (ko) 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법
CN112216271B (zh) 一种基于卷积块注意机制的视听双模态语音识别方法
JP6235938B2 (ja) 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム
WO2020043160A1 (en) Method and system for detecting voice activity innoisy conditions
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN108172238A (zh) 一种语音识别系统中基于多个卷积神经网络的语音增强算法
Hwang et al. Ensemble of deep neural networks using acoustic environment classification for statistical model-based voice activity detection
US20220208198A1 (en) Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN105206270A (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
Rouvier et al. Speaker diarization through speaker embeddings
CN102663432A (zh) 结合支持向量机二次识别的模糊核聚类语音情感识别方法
CN110930976A (zh) 一种语音生成方法及装置
CN109378014A (zh) 一种基于卷积神经网络的移动设备源识别方法及系统
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
KR101704925B1 (ko) Evs 코덱 파라미터를 이용한 심화 신경망 기반의 음성 검출 장치 및 그 방법
KR101620866B1 (ko) 학습 기법을 적용한 사전 학습 알고리즘 기반의 음원 분리 방법
Pei et al. Multimodal dimensional affect recognition using deep bidirectional long short-term memory recurrent neural networks
KR101811524B1 (ko) 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법
López-Espejo et al. A deep neural network approach for missing-data mask estimation on dual-microphone smartphones: application to noise-robust speech recognition
Zhao et al. Variable-component deep neural network for robust speech recognition
Wang et al. Robust speech recognition from ratio masks
Yang et al. A chaotic time series prediction model for speech signal encoding based on genetic programming

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190902

Year of fee payment: 4