KR101704926B1 - 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 - Google Patents
음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 Download PDFInfo
- Publication number
- KR101704926B1 KR101704926B1 KR1020150148297A KR20150148297A KR101704926B1 KR 101704926 B1 KR101704926 B1 KR 101704926B1 KR 1020150148297 A KR1020150148297 A KR 1020150148297A KR 20150148297 A KR20150148297 A KR 20150148297A KR 101704926 B1 KR101704926 B1 KR 101704926B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- neural network
- acoustic environment
- voice
- noise
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 185
- 238000013179 statistical model Methods 0.000 title claims abstract description 45
- 230000000694 effects Effects 0.000 title abstract 3
- 238000001514 detection method Methods 0.000 title description 96
- 238000000034 method Methods 0.000 claims abstract description 86
- 239000013598 vector Substances 0.000 claims abstract description 74
- 230000006870 function Effects 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000008447 perception Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 206010002953 Aphonia Diseases 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000003786 synthesis reaction Methods 0.000 claims 1
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 238000012706 support-vector machine Methods 0.000 description 18
- 238000012545 processing Methods 0.000 description 14
- 238000009826 distribution Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 108090000461 Aurora Kinase A Proteins 0.000 description 1
- 102100032311 Aurora kinase A Human genes 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법이 제시된다. 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법에 있어서, 분류 단계에서, 입력되는 잡음환경에 의해 오염된 음성 신호로부터 특징 벡터를 추출하고 미리 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계; 및 상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함할 수 있다.
Description
아래의 실시예들은 음향환경 분류를 이용한 심화신경망의 앙상블로 구성된 통계모델 기반의 음성검출 장치 및 검출 방법에 관한 것이다. 더욱 상세하게는, 각 잡음환경에서 학습된 심화신경망을 이용하여, 통계모델 파라미터로부터 음성존재확률을 각각 추정하고, 별도의 심화신경망으로부터 구해진 각 음향환경에 대한 확률을 가중치로써 적용하여 최종적인 음성 존재확률을 추정하는 음성 검출장치 및 음성 검출 방법에 관한 것이다.
음성 검출은 마이크로폰으로 입력된 음성 신호로부터 실제 음성이 존재하는 구간과 음성이 존재하는 구간과 존재하지 않는 구간을 분류하는 기술이며, 최근 통계모델 기반의 음성 검출기가 적은 연산량으로도 우수한 음성 검출 성능을 보여 많이 사용되고 있다. 초기의 통계모델 기반의 음성 검출기는 각 주파수 채널로부터 구해진 음성 존재/부재에 대한 우도비(LR, likelihood ratio)의 기하평균값과 주어진 문턱 값이 비교하여 더 클 경우 음성으로, 작을 경우 비음성으로 분류한다.
하지만 선행연구로부터 각 주파수 채널로부터 구해진 우도비 값이 특징공간상에서 상당한 겹침이 존재하여 이를 선형적인 방법으로 분류하는 것은 적합하지 않음이 밝혀졌으며, 우도비 파라미터의 비선형적 분포를 모델링하기 위하여 비선형 분류기로써 커널함수가 도입된 서포트 벡터 머신(SVM, support vector machine)이 도입되어 우수한 음성 검출 성능을 도출하였다. 하지만, 서포트 벡터 머신은 은닉 층이 없거나 한 개만 가지는 얕은 구조 기반의 머신러닝 기법으로써 우도비의 비선형적 분포를 충분히 모델링하는데 한계가 있다.
이러한 문제를 해결하기 위하여 깊은 구조 머신러닝 기법인 심화신경망(DNN, deep neural network)을 도입되었으며, 기존의 서포트 벡터 머신 기반의 음성 검출기에 비하여 향상된 성능을 도출하였다. 하지만, 다양한 잡음에 의하여 오염된 음성으로부터 구해진 우도비 파라미터의 비선형적 분포를 하나의 심화신경망으로 모델링하는 것은 성능 저하의 원인이 된다.
실시예들은 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법에 관하여 기술하며, 보다 구체적으로는, 각 잡음환경에서 학습된 심화신경망을 이용하여, 통계모델 파라미터로부터 음성존재확률을 각각 추정하고, 별도의 심화신경망으로부터 구해진 각 음향환경에 대한 확률을 가중치로써 적용하여 최종적인 음성 존재확률을 추정하는 음성 검출장치 및 음성 검출 방법에 관한 기술을 제공한다.
실시예들은 각 잡음환경에서 오염된 음성 신호로부터 구해진 우도비(LR, likelihood)의 비선형적 분포 특성을 각각의 심화신경망을 통해서 모델링하여 음성존재확률을 추정하고, 각 잡음환경에서 학습된 모델을 이용하여 구해진 음성존재확률로부터 최종적인 음성존재확률 추정하기 위하여 별도의 심화신경망을 통해서 구해진 각 잡음환경에 대한 확률을 가중치로 적용함으로써, 성능이 향상된 음향 환경 분류를 이용한 심화신경망의 앙상블로 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법을 제공하는데 있다.
일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법에 있어서, 분류 단계에서, 입력되는 잡음환경에 의해 오염된 음성 신호로부터 특징 벡터를 추출하고 미리 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계; 및 상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함한다.
여기서, 상기 심화신경망을 학습시키는 단계를 더 포함하고, 상기 심화신경망을 학습시키는 단계는, 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받고, 입력된 상기 신호로부터 추정된 음성 및 잡음 신호의 분산 값에 기초하여, 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출하는 단계; 각 잡음환경에서 추출된 상기 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습하는 단계; 학습이 완료된 후, 상기 특징 벡터를 학습된 상기 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 시그모이드(sigmoid) 함수를 적용하여 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구하는 단계; 분류 단계에서, 입력된 잡음에 의하여 오염된 음성 신호로부터 상기 특징 벡터를 추출하고 학습된 각 상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계; 및 상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지를 위한 심화신경망에 기반하는 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함할 수 있다.
상기 특징 벡터를 추출하는 단계는, 입력된 상기 음성 신호에 단구간 푸리에 변환(STFT, short-time Fourier transform)을 적용하여 주파수 축 상의 성분으로 변환하는 단계; 변환된 주파수 축 상의 성분에 대하여 주파수 대역에서의 음성 및 잡음의 분산을 산출하는 단계; 산출된 주파수 대역에서의 음성 및 잡음신호의 분산을 이용하여 사후 신호 대 잡음비(a priori SNR)와 사전 신호 대 잡음비 (a posteriori SNR) 및 음성존재에 대한 상기 우도비를 산출하는 단계; 및 상기 사후 신호 대 잡음비(a posteriori SNR)는 음성이 존재하지 않는 구간에서 잡음 신호의 분산 값을 이용하여 업데이트 되며, 상기 사전 신호 대 잡음비(a priori SNR)는 음성이 존재하는 구간에서 판정의거(decision-directed) 기법을 통해서 업데이트 되는 단계를 포함할 수 있다.
상기 다수의 심화신경망을 개별적으로 학습하는 단계는, 추출된 상기 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화신경망을 선행 학습(pre-training)시키는 단계; 및 추출된 상기 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이(back-propagation) 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 미세 조정(fine-tuning) 단계를 포함할 수 있다.
상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계는, 상기 분류 단계에서, 입력된 잡음에 의하여 오염된 음성 신호로부터 상기 단구간 푸리에 변환(STFT)를 통해서 각 프레임의 스펙트럼을 구하여, 상기 통계모델 파라미터, 사전 신호대 잡음비(a priori SNR), 사후 신호대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출하는 단계; 및 각 음성존재확률 추정을 위한 상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계를 포함할 수 있다.
상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는, 상기 기울기 파라미터와 바이어스 파라미터가 적용된 시그모이드(sigmoid) 함수를 이용하여, 상기 음향환경인지를 위한 심화신경망을 통과시킨 결과 값으로부터 각 잡음환경에 대한 확률을 추정하는 단계; 및 상기 분류 단계에서, 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률은 각 잡음환경에서 학습된 다수의 상기 심화신경망으로부터 구해진 상기 음성존재확률을 합성하는 과정에서 가중치로 적용하여 최종적인 음성존재확률을 결정하는 단계를 포함할 수 있다.
상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는, 이전 프레임의 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음향환경을 추정하며, 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률을 각 음성존재확률에 가중치로 적용하여 상기 최종적인 음성존재확률을 결정할 수 있다.
각 상기 음성 신호에서 잡음에 해당되는 각 프레임의 로그-스펙트럼을 특징 벡터로 사용하여 상기 음향환경인지를 위한 심화신경망의 학습하는 단계를 더 포함할 수 있다.
상기 최종적인 음성존재확률을 결정하는 단계는, 상기 가중치의 값은 음성이 존재하지 않는 구간에서 업데이트 될 수 있다.
상기 최종적인 음성존재확률을 결정하는 단계는, 이전 프레임에서 구해진 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음성이 존재하지 않는 구간으로 간주되고, 상기 음성이 존재하지 않는 구간에서 각 상기 가중치의 값은 판정의거(decision-directed) 기법을 통해서 업데이트 될 수 있다.
다른 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치에 있어서, 분류 단계에서, 입력된 잡음에 의하여 오염된 음성 신호로부터 상기 특징 벡터를 추출하고 학습된 각 상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 음성존재확률 예측부; 및 상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지를 위한 심화신경망에 기반하는 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 음성존재확률 판단부를 포함한다.
여기서, 입력부로부터 주변 잡음환경에 의해 오염된 음성 신호를 입력 받아, 입력된 상기 음성 신호 및 잡음의 분산 값에 기초하여, 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출하는 특징 벡터 추출부; 각 잡음환경에서 추출된 상기 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습하는 심화신경망 학습부; 및 학습이 완료된 후, 상기 특징 벡터를 학습된 상기 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 시그모이드(sigmoid) 함수를 적용하여 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구하는 시그모이드 함수부를 더 포함할 수 있다.
상기 특징 벡터 추출부는, 입력된 상기 음성 신호에 단구간 푸리에 변환(STFT, short-time Fourier transform)을 적용하여 주파수 축 상의 성분으로 변환하는 단구간 푸리에 변환부; 변환된 주파수 축 상의 성분에 대하여 주파수 대역의 음성 및 잡음신호의 분산을 산출하는 분산 산출부; 및 산출된 주파수 대역에서의 음성 및 잡음신호의 분산을 이용하여 상기 사후 신호 대 잡음비 (a posteriori SNR)와 사전 신호 대 잡음비(a priori SNR) 및 음성존재에 대한 상기 우도비(LR, likelihood ratio)를 산출하는 통계모델 파라미터 추출부를 포함하고, 상기 통계모델 파라미터 추출부는, 상기 사후 신호 대 잡음비(a posteriori SNR)는 음성이 존재하지 않는 구간에서 잡음 신호의 분산 값을 이용하여 업데이트 되며, 상기 사전 신호 대 잡음비(a priori SNR)는 음성이 존재하는 구간에서 판정의거(decision-directed) 기법을 통해서 업데이트 될 수 있다.
상기 심화신경망 학습부는, 추출된 상기 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화신경망을 선행 학습(pre-training)시키는 선행 학습부; 및 추출된 상기 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이(back-propagation) 알고리즘에 기초하여 상기 심화 신경망을 최적화(fine-tuning)시키는 미세 조정부를 포함할 수 있다.
상기 음성존재확률 판단부는, 기울기 파라미터와 바이어스 파라미터가 적용된 시그모이드(sigmoid) 함수를 이용하여, 상기 음향환경인지를 위한 심화신경망을 통과시킨 결과 값으로부터 각 잡음환경에 대한 확률을 추정하고, 상기 분류 단계에서, 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률은 각 잡음환경에서 학습된 다수의 상기 심화신경망으로부터 구해진 상기 음성존재확률을 합성하는 과정에서 가중치로 적용하여 최종적인 음성존재확률을 결정할 수 있다.
상기 특징 벡터 추출부는, 분류 단계에서, 상기 입력부를 통해 입력된 잡음에 의하여 오염된 음성 신호로부터 상기 단구간 푸리에 변환(STFT)를 통해서 각 프레임의 스펙트럼을 구하고, 상기 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출하여, 각 음성존재확률 추정을 위한 상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하고, 상기 음성존재확률 판단부는, 이전 프레임의 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음향환경을 추정하며, 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률을 각 음성존재확률에 가중치로 적용하여 상기 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류할 수 있다.
각 상기 음성 신호에서 잡음에 해당되는 각 프레임의 로그-스펙트럼을 특징 벡터로 사용하여 상기 음향환경인지를 위한 심화신경망의 학습하는 음향환경인지 심화신경망 학습부를 더 포함할 수 있다.
상기 음성존재확률 판단부는, 상기 가중치의 값은 음성이 존재하지 않는 구간에서 업데이트 되며, 이전 프레임에서 구해진 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음성이 존재하지 않는 구간으로 간주되고, 상기 음성이 존재하지 않는 구간에서 각 상기 가중치의 값은 판정의거(decision-directed) 기법을 통해서 업데이트 될 수 있다.
실시예들에 따르면 각 잡음환경에서 나타나는 통계모델 파라미터의 비선형적 분포적 특성을 각각의 심화신경망으로 모델링함으로써, 보다 정확히 추정하여 음성 검출 성능을 개선하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법을 제공할 수 있다.
또한, 실시예들에 따르면 심화신경망에 기반하는 음향환경 추정기술을 통해서 가중치를 적응적으로 적용함으로써, 각 잡음환경에 대하여 유사도가 높을수록 많이 반영되고 유사도가 낮을수록 적게 반영되어 학습 단계에서 고려되지 않았던 미리 고려되지 않은(unseen) 환경에 대한 성능도 개선할 수 있다.
도 1은 일 실시예에 따른 음성 검출 방법을 수행하기 위한 음성 검출 장치의 구성을 나타내는 블록도이다.
도 2는 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 개념적으로 나타낸 도면이다.
도 3은 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 나타내는 흐름도이다.
도 4 내지 도 11에서는 각각의 음성 검출 방법들을 비교하기 위해 ROC 곡선을 나타낸다.
도 12 및 도 13은 일 실시예에 따른 학습 단계에서 사용되지 않은 factory, office 환경에서 측정된 ROC 곡선을 나타낸다.
도 2는 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 개념적으로 나타낸 도면이다.
도 3은 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 나타내는 흐름도이다.
도 4 내지 도 11에서는 각각의 음성 검출 방법들을 비교하기 위해 ROC 곡선을 나타낸다.
도 12 및 도 13은 일 실시예에 따른 학습 단계에서 사용되지 않은 factory, office 환경에서 측정된 ROC 곡선을 나타낸다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
아래의 실시예들은 각 잡음환경에서 오염된 음성 신호로부터 구해진 우도비(LR, likelihood ratio)의 비선형적 분포 특성을 각각의 심화신경망을 통해서 모델링하여 음성존재확률을 추정할 수 있다. 또한, 각 잡음환경에서 구해진 음성존재확률로부터 최종적인 음성존재확률 추정하기 위하여 별도의 심화신경망을 통해서 구해진 각 잡음환경에 대한 확률을 가중치로써 적용할 수 있다.
음성 검출 장치(음성 검출기)는 마이크로폰으로 입력된 음성 신호로부터 음성이 존재하는 구간과 음성이 존재하지 않는 구간을 분류하는 역할을 한다. 이는 음성인식, 음성향상, 음성 부호화기와 같은 음성 신호처리 기술의 필수적인 요소이다. 예를 들어, 음성 향상 기술은 비음성 구간에서 잡음신호의 전력을 추정하여 잡음이 섞인 음성 구간에서 잡음전력을 빼줌으로써 깨끗한 음성 신호의 전력을 추정한다. 우수한 음성향상 성능을 도출하기 위해서는 잡음신호의 전력을 정확히 추정하는 것이 중요한데, 이를 위해서 비음성 구간을 정확히 검출할 수 있어야 한다. 또한, 음성부호화기의 경우에는, 제한된 대역을 통해서 음성 신호를 효율적으로 전송하기 위하여 음성이 존재하는 구간은 높은 비트전송률로 부호화하여 전송하고, 비음성 구간은 낮은 비트 전송률로 부호화하여 전송하는데, 이 또한 음성/비음성 구간을 잘 구분할 수 있어야 한다. 음성인식의 경우에는 음성 구간에서만 음향모델을 통해서 음성을 인식함으로써 높은 정확도를 도출할 수 있다.
마이크로 입력된 잡음신호에 오염된 음성 신호로부터 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 추출한 후 학습된 심화신경망을 통해서 음성존재확률을 추정하는 기술을 제공할 수 있다. 그러나, 각 잡음환경에서 다르게 관측되는 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)의 비선형적 분포특성을 단일 심화신경망으로 모델링하는 것은 성능 저하를 초래할 수 있다.
이에 따라, 각 잡음환경에서 다르게 관측되는 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)의 비선형적 분포특성을 보다 잘 모델링하기 위하여 통계모델 파라미터를 각 잡음환경마다 별도의 심화신경망으로 모델링할 수 있다. 또한, 각 심화신경망으로부터 추정된 음성존재확률을 합성하기 위하여 별도의 심화신경망에 기반하는 음향환경인지 기술을 통해서 구해진 각 음향환경에 대한 확률을 가중치로써 적용하여 최종적인 음성존재확률을 추정할 수 있다.
도 1은 일 실시예에 따른 음성 검출 방법을 수행하기 위한 음성 검출 장치의 구성을 나타내는 블록도이다.
도 1을 참조하면, 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치는 음성 검출 제어부(100)를 포함할 수 있다. 실시예에 따라 음성 검출 제어부(100)는 메모리를 더 포함하여 이루어질 수 있으며, 음성 검출 제어부(100)는 입력부(200)와 전기적으로 연결될 수 있다.
음성 검출 제어부(100)는 학습 과정을 통하여 최적화된 심화신경망을 이용한 음성 검출 방법을 수행하는 부분으로서, 소정의 연산 속도를 갖는 연산 유닛을 포함할 수 있다. 예를 들어, 음성 검출 제어부(100)는 CPU(central processing unit), GPU(graphical processing unit) 등과 같은 연산 유닛을 포함할 수 있다. 또한, 음성 검출 제어부(100)는 소정의 프로세스에 필요한 데이터를 저장하기 위한 메모리를 더 포함할 수 있다.
입력부(200)는 음성 검출 제어부(100)에 대하여 소정의 입력 데이터를 전송하는 부분으로서, 예를 들어 마이크로폰 등과 같이 소리를 전기 신호로 변환하는 입력 수단을 포함할 수 있다. 예를 들어, 입력부(200)에 제공되는 오염된 음성 신호(즉, 주변 잡음에 의해 오염된 음성 신호)는, 음성 검출 제어부(100)에 제공될 수 있다.
또한, 실시예에 따라 음성 검출 제어부(100)는 특징 벡터 추출부(110), 심화신경망 학습부(120), 시그모이드 함수부(130), 음성존재확률 예측부(140), 및 음성존재확률 판단부(150)를 포함할 수 있다.
여기서, 특징 벡터 추출부(110)는 입력부(200)로부터 주변 잡음환경에 의해 오염된 음성 신호를 입력 받아, 입력된 음성 신호의 분산 값에 기초하여, 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출할 수 있다.
그리고 심화신경망 학습부(120)는 각 잡음환경에서 추출된 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습할 수 있다.
시그모이드 함수부(130)는 학습이 완료된 후, 특징 벡터를 학습된 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 시그모이드(sigmoid) 함수를 적용하여 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구할 수 있다.
음성존재확률 예측부(140)는 분류 단계에서, 입력된 잡음에 의하여 오염된 음성 신호로부터 특징 벡터를 추출하고 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정할 수 있다.
마지막으로 음성존재확률 판단부(150)는, 분류 단계에서, 각각의 학습된 심화신경망을 통해서 추정된 음성존재확률을 합성하기 위하여 음향환경인지를 위한 심화신경망에 기반하는 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정할 수 있다. 이에 따라 입력된 음성 신호를 음성 구간(음성이 존재하는 구간)과 비음성 구간(음성이 존재하지 않는 구간)으로 구분할 수 있다.
도 2는 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 개념적으로 나타낸 도면이다.
도 2를 참조하면, 일 실시예에 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법은 학습 단계(210)와 분류 단계(220)로 나눌 수 있다.
학습 단계(210)에서는 미리 확보된 주변 환경잡음에 의하여 오염된 음성 샘플로부터 단구간 푸리에 변환(STFT, short-time Fourier transform)(211)을 통해서 각 프레임의 스펙트럼을 구한 후 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 구하여 특징 벡터를 추출(212)할 수 있다. 각 잡음환경에서 추출된 특징 벡터를 이용하여 다수의 심화신경망을 개별적으로 학습(213)하는데, 선행 학습(pre-training) 과정에서는 CD(contrastive divergence) 알고리즘을 통해서 학습하며, 미세 조정(fine-tuning) 과정에서는 역전이(back-propagation) 알고리즘을 통해서 학습할 수 있다. 또한, 학습이 완료된 후에는 학습 데이터를 학습된 심화신경망을 통과시켜(feed-forward) 결과 값을 얻을 후에 결과 값과 라벨 값으로부터 모델 트러스트(model-trust) 알고리즘을 이용하여 음성존재확률 추정을 위한 시그모이드(sigmoid) 함수(214)의 기울기 파라미터와 바이어스 파라미터를 구할 수 있다. 음향환경인지를 위한 심화신경망의 학습은 각 음성 샘플에서 잡음에 해당되는 프레임의 로그-스펙트럼을 특징 벡터로써 사용하며, 학습하는 과정은 음성존재확률 추정을 위한 심화신경망의 학습과정과 동일한 방법으로 수행(215, 216)할 수 있다. 즉, 음향환경인지를 위한 심화신경망의 학습을 위하여 음성존재확률 추정을 위한 심화 신경망 학습 과정과 동일한 방법으로 선행 학습(pre-training) 및 미세 조정(fine-tuning) 단계를 수행할 수 있다.
분류 단계(220)(또는 테스트 단계)에서는 입력되는 잡음환경에 의하여 오염된 음성 신호로부터 단구간 푸리에 변환(STFT, short-time Fourier transform)(223)을 통해서 각 프레임의 스펙트럼을 구하고, 이로부터 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 추출(224)할 수 있다. 추출된 통계모델 파라미터를 이용한 특징 벡터를 각 음성존재확률 추정을 위한 심화신경망(deep neural network)(225)을 통과시켜 음성존재확률을 각각 추정(226)할 수 있다. 또한, 음향환경 추정 과정(221, 222)은 이전 프레임의 음성존재확률이 주어진 문턱 값보다 작을 경우 동작하며, 이를 통해서 구해진 각 확률 값(222)을 각 음성존재확률에 가중치로써 적용(227)하여 최종적인 음성존재확률을 추정(228)할 수 있다. 특히, 초기의 M 프레임은 비음성 구간으로 간주할 수 있으며, 이때 음향환경인지 알고리즘만 동작할 수 있다.
아래에서는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법에 대해 하나의 실시예를 이용하여 더 구체적으로 설명하기로 한다.
도 3은 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법을 나타내는 흐름도이다.
도 3을 참조하면, 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법은, 분류 단계에서, 입력된 잡음에 의하여 오염된 음성 신호로부터 특징 벡터를 추출하고 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계, 및 분류 단계에서, 각각의 학습된 심화신경망을 통해서 추정된 음성존재확률을 합성하기 위하여 음향환경인지를 위한 심화신경망에 기반하는 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계를 포함하여 이루어질 수 있다.
여기서, 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법은 심화신경망을 학습시키는 단계를 더 포함할 수 있다. 상기 심화신경망을 학습시키는 단계는, 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 및 잡음 신호의 분산 값에 기초하여, 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출하는 단계, 각 잡음환경에서 추출된 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습하는 단계, 학습이 완료된 후, 특징 벡터를 학습된 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 시그모이드(sigmoid) 함수를 적용하여 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구하는 단계를 포함할 수 있다.
최종적인 음성존재확률을 결정하는 단계는 이전 프레임에서 구해진 음성존재확률이 주어진 문턱 값보다 작을 경우 음성이 존재하지 않는 구간으로 간주되고, 음성이 존재하지 않는 구간에서 각 가중치의 값은 판정의거(decision-directed) 기법을 통해서 업데이트 될 수 있다.
이에 따라, 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법은 각 잡음환경에서 나타나는 통계모델 파라미터의 비선형적 분포적 특성을 각각의 심화신경망으로 모델링함으로써 보다 정확히 추정하여 음성 검출 성능을 개선할 수 있다.
또한, 심화신경망에 기반하는 음향환경 추정기술을 통해서 가중치를 적응적으로 적용함으로써, 각 잡음환경에 대하여 유사도가 높을수록 많이 반영되고 유사도가 낮을수록 적게 반영되어 학습 단계에서 고려되지 않았던 미리 고려되지 않은(unseen) 환경에 대한 성능도 개선할 수 있다.
아래에서는 일 실시예에 따른 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법의 각 단계에 대해 상세히 설명하기로 한다.
단계(410)에서, 학습 단계로서, 음성 검출 장치의 특징 벡터 추출부(110)는 주변 잡음환경에 의해 오염된 음성 신호를 입력 받고, 입력된 음성 신호의 분산 값에 기초하여, 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR) , 사후 신호 대 잡음비(a posteriori SNR) , 및 우도비(LR, likelihood ratio) 를 이용한 특징 벡터를 추출할 수 있다.
더 구체적으로, 음성 검출 장치의 특징 벡터 추출부(110)는 입력된 음성 신호에 단구간 푸리에 변환(STFT, short-time Fourier transform)을 적용하여 주파수 축 상의 성분으로 변환하는 단계, 변환된 주파수 축 상의 성분에 대하여 주파수 대역에서의 음성 및 잡음신호의 분산을 산출하는 단계, 산출된 주파수 대역의 음성 및 잡음신호의 분산을 이용하여 사후 신호 대 잡음비(a posteriori SNR)와 사전 신호 대 잡음비(a priori SNR) 및 음성존재에 대한 우도비(LR, likelihood ratio)를 나타내는 단계, 및 사후 신호 대 잡음비(a posteriori SNR)는 음성이 존재하지 않는 구간에서 잡음 신호의 분산 값을 이용하여 업데이트 되며, 사전 신호 대 잡음비(a priori SNR)는 음성이 존재하는 구간에서 판정의거(decision-directed) 기법을 통해서 업데이트 되는 단계를 수행할 수 있다
음성 검출 장치의 특징 벡터 추출부(110)는 입력된 음성 신호에 단구간 푸리에 변환(STFT, short-time Fourier transform)을 적용하여 주파수 축 상의 성분으로 변환할 수 있다. 이 경우, 시간 도메인에서 잡음에 의하여 오염된 음성 신호 y(t)는 잡음신호 d(t)가 깨끗한 음성 신호 x(t)에 더해져 형성된다고 가정할 수 있다.
이렇게 잡음에 의하여 오염된 음성 신호 y(t)는 단구간 푸리에 변환(STFT, short-time Fourier transform)을 통하여 주파수 도메인에서 다음과 같이 나타낼 수 있다.
여기서, Y(k, n), X(k, n), D(k, n)은 각각 잡음에 의하여 오염된 음성 신호, 깨끗한 음성 신호, 잡음신호의 단구간 푸리에 변환(STFT) 계수를 나타내며, k는 주파수 채널의 인덱스를 나타내고, n은 프레임 인덱스를 나타낼 수 있다.
음성 검출 장치의 특징 벡터 추출부(110)는 변환된 주파수 축 상의 성분에 대하여 주파수 대역에서의 음성 및 잡음신호의 분산을 산출할 수 있다. 이를 위해, 음성이 존재하는 경우와 음성이 존재하지 않는 경우에 대한 두 가지의 가설을 다음과 같이 나타낼 수 있다.
H0: 음성부재: Y(k, n) = D(k, n)
H1: 음성존재: Y(k, n) = X(k, n) + D(k, n)
이때 두 가지의 가설 H0과 H1이 가우시안 확률분포를 따른다고 가정하면, 두 가지의 가설 H0과 H1에 대한 조건부 확률밀도 함수를 다음과 같이 나타낼 수 있다.
음성 검출 장치의 특징 벡터 추출부(110)는 산출된 주파수 대역에서의 음성 및 잡음신호의 분산을 이용하여 사후 신호 대 잡음비(a posteriori SNR) 및 사전 신호 대 잡음비(a priori SNR)를 산출할 수 있고, 음성존재에 대한 우도비(LR, likelihood ratio)를 나타낼 수 있다.
즉, 음성존재에 대한 우도비(LR, likelihood ratio)는 다음과 같이 유도될 수 있다.
음성 검출 장치의 특징 벡터 추출부(110)는 사후 신호 대 잡음비(a posteriori SNR)는 음성이 존재하지 않는 구간(비음성 구간)에서 잡음 신호의 분산 값을 이용하여 업데이트 하고, 사전 신호 대 잡음비(a priori SNR)는 음성이 존재하는 구간(음성 구간)에서 판정의거(decision-directed) 기법을 통해서 업데이트 할 수 있으며, 다음과 같이 구할 수 있다.
여기서, 은 이전 프레임(즉, n-1 프레임)의 진폭의 예측 값을 나타내며, 최소 평균 제곱 오차 추정량(MMSE, minimum mean square error estimator)를 통하여 구할 수 있다. 또한, 는 스무딩(smoothing) 파라미터로, 약 0.95 내지 약 0.99의 범위의 값으로 설정할 수 있다.
이와 같이, 음성 검출을 위한 특징 벡터는 통계모델 파라미터 사전 신호 대 잡음비(a priori SNR) , 사후 신호 대 잡음비(a posteriori SNR) , 및 우도비(LR, likelihood ratio) 로 구성되며, 성능 향상을 위하여 이들의 델타(delta)와 델타-델타(delta-delta) 성분 또한 특징정보로써 사용될 수 있다.
이후, 통계모델로부터 구해진 통계모델 파라미터 특징 벡터는 학습된 심화신경망으로 입력되어 다수의 은닉 층을 통하여 보다 변별력을 가지는 특징 벡터로 재표현되고, 최종적으로 음성 존재/부재 확률로 맵핑될 수 있다.
단계(320)에서, 학습 단계로서, 음성 검출 장치의 심화신경망 학습부(120)는 각 잡음환경에서 추출된 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습할 수 있다. 다수의 심화신경망을 개별적으로 학습하는 단계는, 추출된 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 심화신경망을 선행 학습(pre-training)시키는 단계, 및 추출된 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이(back-propagation) 알고리즘에 기초하여 심화 신경망을 최적화시키는 미세 조정 단계(fine-tuning)를 포함할 수 있다.
여기서, Z(n)는 n 번째 프레임에서 구해진 특징 벡터를 의미하며, W i 와 b i 는 각각 i 번째 은닉 층의 가중치 매트릭스와 바이어스 벡터를 나타낼 수 있다. 또한, 는 활성함수를 나타내며, 시그모이드(sigmoid) 함수를 적용할 수 있다. 음성 검출 장치는 음성의 존재와 부재에 대한 두 가지 경우를 고려하기 때문에 심화신경망의 출력 층은 두 개의 노드로 구성되며, 목표 값은 음성 존재에 대하여 [1 0], 음성 부재에 대하여 [0 1] 로 나타낼 수 있다. 따라서 심화신경망의 결과 값은 아래와 같이 하나의 값으로 단순화될 수 있다.
단계(330)에서, 학습 단계로서, 음성 검출 장치의 시그모이드 함수부(130)는 학습이 완료된 후, 특징 벡터를 학습된 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 시그모이드(sigmoid) 함수를 적용하여 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구할 수 있다.
이 경우, 단순화된 심화신경망의 결과 값(출력 값)으로부터 음성존재확률을 추정하기 위하여 시그모이드(sigmoid) 함수를 도입할 수 있다. 음성존재확률은 단순화된 심화신경망의 출력 값으로부터 시그모이드(sigmoid) 함수를 통해서 다음과 같이 구할 수 있다.
여기서, A와 B는 음성존재확률 추정을 위한 시그모이드(sigmoid) 함수의 기울기 파라미터와 바이어스 파라미터를 각각 의미할 수 있다. 음성존재확률 추정을 위한 시그모이드(sigmoid) 함수의 두 파라미터(A, B)는 네거티브 로그-우도(negative log-likelihood, cross entropy error function)를 최소화하는 변별적 학습을 통해서 구할 수 있다. 심화신경망은 각 잡음환경에 대하여 별도로 학습되며, 음성존재확률 추정을 위한 시그모이드(sigmoid) 함수의 파라미터 또한 각 잡음환경마다 따로 학습될 수 있다.
일 실시예에 따르면 음성존재확률 추정을 위하여 각 잡음환경에서 학습된 다수의 심화신경망을 도입할 수 있다. 분류 단계에서, 각 심화신경망을 통해서 추정된 음성존재확률로부터 최종적인 음성존재확률을 결정하기 위해서 별도의 심화신경망을 통해서 주변의 음향으로부터 음향환경을 분류할 수 있는 환경음향인지 기술을 도입할 수 있다. 음향환경인지를 위한 특징 벡터로써 각 프레임의 로그-스펙트럼을 이용하는데, 로그-스펙트럼이 음향정보를 잘 담고 있어, 특징 벡터로써 쓰이기에 적합하기 때문이다. 음성존재확률 추정과 마찬가지로, 특징 벡터는 심화신경망으로 입력되며, 심화신경망을 통하여 각 잡음환경에 대한 확률을 추정할 수 있다.
단계(340)에서, 분류 단계로서, 음성 검출 장치의 음성존재확률 예측부(140)는 입력된 잡음에 의하여 오염된 음성 신호로부터 특징 벡터를 추출하고 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정할 수 있다.
단계(350)에서, 분류 단계로서, 음성 검출 장치의 음성존재확률 판단부(150)는 각각의 학습된 심화신경망을 통해서 추정된 음성존재확률을 합성하기 위하여 음향환경인지를 위한 심화신경망에 기반하는 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류할 수 있다.
한편, 음향환경인지 심화신경망 학습부를 통해 각 음성 신호에서 잡음에 해당되는 각 프레임의 로그-스펙트럼을 특징 벡터로 사용하여 음향환경인지를 위한 심화신경망의 학습할 수도 있다.
각 잡음환경에 대한 확률을 보다 정확히 추정하기 위하여, 음성존재확률 추정과 마찬가지로 기울기 파라미터 A와 바이어스 파라미터 B가 적용된 시그모이드(sigmoid) 함수를 도입할 수 있다.
시그모이드(sigmoid) 함수를 도입하기 위하여 각 출력노드의 출력 값을 다음과 같이 단순화할 수 있다.
여기서, N은 잡음환경의 가지 수를 의미할 수 있다.
단순화된 음향환경인지를 위한 심화신경망의 출력 값으로부터 각 잡음환경에 대한 확률은 다음과 같이 추정할 수 있다.
음성 검출 장치의 음성존재확률 판단부(150)는 분류 단계에서, 음향환경인지 기술을 통해서 구해진 각 잡음환경에 대한 확률은 각 잡음환경에서 학습된 다수의 심화신경망으로부터 구해진 음성존재확률을 합성하는 과정에서 가중치로 적용하여 최종적인 음성존재확률을 결정할 수 있다.
이와 같이 분류 단계에서 각 잡음환경에 대한 확률은 각 잡음환경에서 학습된 심화신경망으로부터 구해진 음성존재확률의 합성을 위하여 가중치로써 적용되며, 각 잡음환경에 대한 확률 값은 아래 조건을 만족하도록 할 수 있다.
다시 말하면, 이전 프레임의 음성존재확률이 주어진 문턱 값보다 작을 경우 음향환경을 추정하며, 음향환경인지 기술을 통해서 구해진 각 잡음환경에 대한 확률을 각 음성존재확률에 가중치로 적용하여 최종적인 음성존재확률을 결정할 수 있다.
위 조건을 만족하는 가중치 값은 다음과 같이 구할 수 있다.
최종적인 음성존재확률은 다음과 같이 구할 수 있다.
여기서, 는 i 번째 잡음환경에서 학습된 심화신경망으로부터 구해진 음성존재확률을 의미할 수 있다. 가중치를 적응적으로 설정하기 위하여, 음성 검출 장치의 음성존재확률 판단부(150)가 가중치 값을 음성이 존재하지 않는 구간에서 업데이트 할 수 있다. 이전 프레임에서 구해진 음성존재확률이 주어진 문턱 값보다 작을 경우 음성이 존재하지 않는다고 간주할 수 있으며, 음성이 존재하지 않는 구간에서 각 가중치 값은 판정의거(decision-directed) 기법을 통해서 다음과 같이 업데이트 할 수 있다.
아래에서는 일 실시예에 따른 음성 검출 방법의 성능을 평가하기 위하여 하나의 실시예를 이용하여 기존 기술들과 비교한 결과를 나타낸다.
일 실시예에 따른 음성 검출 방법의 성능을 평가하기 위하여 다양한 잡음 조건에서 기존의 서포트 벡터 머신 기반의 음성 검출기, 단일 심화신경망에 기반하는 음성 검출기와 ROC(receiver operation characteristics) 커브와 비교할 수 있다. 또한, 오류 확률, 미스-알람(miss-alarm) 확률, 폴스-알람(false-alarm) 확률로써 기존의 음성 검출 방법과 성능을 비교할 수 있다.
음성존재확률 추정을 위한 심화신경망과 음향환경인지를 위한 심화신경망의 학습을 위하여 약 304초 길이의 깨끗한 음성 샘플을 사용할 수 있다. 학습을 위한 음성 파일은 매 10 ms 마다 음성의 존재여부를 수동으로 라벨링 하고, 유성음, 무성음, 비음성의 비율은 각각 45.29%, 13.37%, 41.34%로 설정할 수 있다. 주변잡음에 의하여 오염된 음성 파일을 생성하기 위하여 깨끗한 음성 파일에 airport, babble, car, exhibition, restaurant, street, subway, train 잡음을 각각 -5, 0, 5, 10, 15, 20 dB의 SNR로 합성할 수 있다. 최종적으로 약 4시간 길이의 학습 데이터를 생성할 수 있다.
음성 검출을 위한 심화신경망과 음향환경인지를 위한 심화신경망의 선행 학습 (pre-training)단계에서의 정규화 성능을 높이기 위하여 Aurora2, TIMIT corpus에 잡음신호를 같은 조건으로 합성하여 생성 후 선행 학습 단계에서 사용할 수 있다. 음성존재추정을 위한 심화신경망의 선행 학습 단계에서 약 467시간의 음성 샘플이 사용되며, 미세 조정 단계에서는 약 4시간의 음성 샘플이 사용될 수 있다. 음성존재확률 추정을 위한 심화신경망의 설정은 다음과 같이 설정할 수 있다. 심화신경망은 은닉 층은 3개로 설정되며, 각 은닉 층의 유닛 수는 256, 128, 64로 각각 설정할 수 있다. 음성존재확률 추정을 위한 심화신경망의 선행 학습(pre-training) 및 미세 조정(fine-tuning) 단계에서의 미니-배치(mini-batch) 크기는 각각 100, 1000으로 설정할 수 있다, 선행 학습 단계에서의 학습률(learning rate)은 0.001로 설정하고, 미세 조정 단계에서는 0.1로 설정 후 11 번째 에포크(epoch)부터 10%씩 감소시킬 수 있다.
음향환경인지를 위한 심화신경망의 학습을 위하여 비음성으로 라벨링된 프레임의 특징 벡터를 사용할 수 있다. 환경음향 분류를 위한 심화신경망의 설정은 다음과 같이 설정할 수 있다. 심화신경망의 은닉 층은 3개로 구성하였으며, 은닉 유닛의 수는 동일하게 512개로 설정할 수 있다. 심화신경망의 선행 학습 및 미세 조정 단계에서의 미니-배치(mini-batch) 크기는 각각 100, 1000으로 설정할 수 있다, 선행 학습 단계에서의 학습률(learning rate)은 0.001로 설정하며, 미세 조정 단계에서는 0.1로 설정하고 학습과정에서 11 번째 에포크(epoch)부터 10%씩 감소시킬 수 있다. 음성존재확률 추정을 위한 심화신경망과 환경음향인지를 위한 심화신경망의 선행 학습 과정 및 미세 조정 과정은 각각 80번, 150 반복 학습하며, 심화신경망의 단순화된 출력 값으로부터 확률 추정을 위한 시그모이드 함수의 기울기 파라미터 A와 바이어스 파라미터 B를 구하기 위하여 모델 트러스트(model-trust) 알고리즘을 이용할 수 있다.
그리고 본 실시예에 따른 음향환경인지 기술 및 음성존재확률 추정 기술의 평가를 위하여 약 256초의 음성 샘플을 사용할 수 있다. 평가를 위한 음성 파일을 매10 ms마다 수동으로 라벨링 하며, 유성음, 무성음, 비음성의 비율은 각각 43.86%, 13.10%, 42.74% 가 될 수 있다. 잡음환경을 시뮬레이션하기 위하여 앞서 언급한 잡음신호 airport, babble, car, exhibition, restaurant, street, subway, train 잡음을 각각 -5, 0, 5, 10, 15, 20 dB의 SNR로 합성할 수 있다. 또한, 제안하는 음성 검출 방법을 미리 고려되지 않은(unseen) 환경에서 평가하기 위하여 factory, office 잡음을 각각 -5, 0, 5, 10, 15, 20 dB의 SNR로 합성할 수 있다. 본 실시예에 따른 음성 검출 방법과의 비교를 위한 SVM을 이용한 통계모델 기반의 음성 검출기의 학습을 위하여 RBF(radial basis function) 커널을 적용하고, 커널 파라미터는 1.0으로 설정할 수 있다.
표 1은 일 실시예에 따른 심화신경망에 기반하는 음향환경인지 기술의 분류 성능을 나타낸다.
표 1을 참조하면, 심화신경망을 이용한 음향환경인지 기술의 성능을 혼동 행렬(confusion matrix)로 보여주는 것으로, 일 실시예에 따른 심화신경망에 기반하는 음향환경인지 기술이 최소 97.16%, 평균적으로 99.33%의 우수한 분류성능을 도출함을 확인할 수 있다.
이하, 도 4 내지 도 11에서는 ROC(receive operation characteristic) 곡선을 통해서 각각의 음성 검출 방법들을 비교할 수 있다. 즉, 각 잡음환경(5dB SNR)에서 평가된 기존의 서포트 벡터 머신(SVM) 기반의 음성 검출 방법, 단일 심화신경망에 기반하는 음성 검출 방법과 본 실시예에 따른 앙상블 DNN 및 음향환경인지 기술에 기반하는 음성 검출 방법의 ROC 곡선을 나타낸다.
도 4는 Airport 잡음환경에서 측정된 ROC 곡선을 나타내는 것으로, 본 실시예에 따른 음성 검출 방법(실선)과, 단일 심화신경망에 기반하는 음성 검출 기법(점선)과, 서포트 벡터 머신(SVM) 기반의 음성 검출 방법(일점 쇄선)의 결과를 비교하였다. 비교 결과, 본 실시예에 따른 음성 검출 방법이 다른 2가지 방법에 비해 음성 검출 성능이 우수하며, 특히 서포트 벡터 머신(SVM) 기반의 음성 검출 방법에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
마찬가지로, 도 5는 Babble 잡음환경에서 측정된 ROC 곡선을 나타내는 것으로, 본 실시예에 따른 음성 검출 방법(실선)과, 단일 심화신경망에 기반하는 음성 검출 기법(점선)과, 서포트 벡터 머신(SVM) 기반의 음성 검출 방법(일점 쇄선)의 결과를 비교하였다. 비교 결과, 본 실시예에 따른 음성 검출 방법이 다른 2가지 방법에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
도 6은 Car 잡음환경에서 측정된 ROC 곡선을 나타내며, 도 7은 Exhibition 잡음환경에서 측정된 ROC 곡선을 나타내는 것이다. 그리고 도 8은 Restaurant 잡음환경에서 측정된 ROC 곡선을 나타내며, 도 9는 Street 잡음환경에서 측정된 ROC 곡선을 나타낸다. 또한 도 10은 Subway 잡음환경에서 측정된 ROC 곡선을 나타내며, 도 11은 Train 잡음환경에서 측정된 ROC 곡선을 나타내는 것이다. 각각의 경우에서의 비교 결과, 본 실시예에 따른 음성 검출 방법(실선)이 단일 심화신경망에 기반하는 음성 검출 기법(점선)과, 서포트 벡터 머신(SVM) 기반의 음성 검출 방법(일점 쇄선)에 비해 음성 검출 성능이 우수한 것을 확인할 수 있다.
다시 말하면, 본 실시예에 따른 음성 검출 방법이 기존의 서포트 벡터 머신(SVM) 기반의 음성 검출 방법뿐만 아니라 단일 심화신경망에 기반하는 음성 검출 방법보다 우수한 성능을 도출함을 확인할 수 있다.
도 12 및 도 13은 일 실시예에 따른 학습 단계에서 사용되지 않은 factory, office 환경에서 측정된 ROC 곡선을 나타낸다.
도 13는 Factory 잡음환경에서 측정된 ROC 곡선을 나타내며, 도 14는 Office 잡음환경에서 측정된 ROC 곡선을 나타내는 것이다.
도 12 및 도 13에 도시된 바와 같이, 본 실시예에 따른 음성 검출 방법이 미리 고려되지 않은(unseen) 환경에서도 기존의 서포트 벡터 머신(SVM) 기반의 음성 검출 방법 및 단일 심화신경망에 기반하는 음성 검출 방법에 비하여 우수한 음성 검출 성능을 도출함을 확인할 수 있다.
표 2는 일 실시예에 따른 SVM기반의 음성 검출기, 단일 심화신경망기반의 음성 검출기, 제안하는 음성 검출기의 성능비교를 나타낼 수 있다.
이상과 같이, 실시예들에 따르면 각 잡음환경에서 관측되는 통계모델 파라미터의 비선형적 분포특성을 각각의 심화신경망을 통하여 개별적으로 학습함으로써 보다 정확히 통계모델 파라미터의 분포특성을 모델링할 수 있으며 음성존재확률을 추정할 수 있다.
또한, 실시예들에 따르면 심화신경망에 기반하는 환경음향인지 기술에서 음향정보를 충분히 잘 표현할 수 있는 로그-스펙트럼을 특징 벡터로써 적용하고, 이를 깊은 구조 기계학습 기법인 심화신경망을 통해서 모델링함으로써 보다 우수한 상황인지 기술을 도출할 수 있다.
그리고, 실시예들에 따르면 음향환경인지 기술을 통해서 구해진 각 잡음환경에 대한 확률(유사도)을 다중 심화신경망으로부터 구해진 음성존재확률을 합성하는 과정에서의 가중치로써 적용하고 비음성 구간에서의 가중치 업데이트를 통해서 적응적으로 업데이트 함으로써, 각 잡음환경에 대하여 유사도가 높을수록 많이 반영되고 유사도가 낮을수록 적게 반영되어 학습 단계에서 고려되지 않았던 미리 고려되지 않은(unseen) 환경에 대한 성능도 개선할 수 있다.
이러한 실시예들에 따른 음성 검출 장치는 음성 향상 기법의 음성 검출 모듈에 적용되어 잡음전력 추정의 성능을 높임으로써 음성향상 성능을 높일 수 있으며, 음성부호화기의 음성 검출 모듈에 적용되어 비트전송률을 보다 효율적으로 결정하여 제한된 통신 대역폭을 효율적으로 사용할 수 있다. 또한, 음성인식에서 주로 사용되는 끝점 검출기(EPD, end point detection)의 첫 단계로서 음성 검출 장치로 적용되어 음성 구간에서의 음성인식을 통한 성능 개선을 기대할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.
Claims (17)
- 심화신경망을 학습시키는 단계;
분류 단계에서, 입력되는 잡음환경에 의해 오염된 음성 신호로부터 특징 벡터를 추출하고 미리 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계; 및
상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계
를 포함하고,
상기 심화신경망을 학습시키는 단계는,
상기 학습 단계에서, 주변 잡음환경에 의해 오염된 음성 신호를 입력 받고, 상기 음성 신호의 분산 값에 기초하여 통계모델 파라미터를 이용한 특징 벡터를 추출하는 단계;
각 상기 잡음환경에서 추출된 상기 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습하는 단계; 및
학습이 완료된 후, 상기 특징 벡터를 학습된 상기 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구하는 단계
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 삭제
- 제1항에 있어서,
상기 특징 벡터를 추출하는 단계는,
입력된 상기 음성 신호에 단구간 푸리에 변환(STFT, short-time Fourier transform)을 적용하여 주파수 축 상의 성분으로 변환하는 단계;
변환된 주파수 축 상의 성분에 대하여 주파수 대역에서의 음성과 잡음신호의 분산을 산출하는 단계;
산출된 주파수 대역의 분산을 이용하여 음성존재에 대한 사후 신호 대 잡음비(a posteriori SNR) 및 사전 신호 대 잡음비(a priori SNR)을 산출하고 우도비(LR, likelihood)를 나타내는 단계; 및
상기 사후 신호 대 잡음비(a posteriori SNR)는 음성이 존재하지 않는 구간에서 잡음 신호의 분산 값을 이용하여 업데이트 되며, 상기 사전 신호 대 잡음비(a priori SNR)는 음성이 존재하는 구간에서 판정의거(decision-directed) 기법을 통해서 업데이트 되는 단계
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 제1항에 있어서,
상기 다수의 심화신경망을 개별적으로 학습하는 단계는,
추출된 상기 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화신경망을 선행 학습(pre-training)시키는 단계; 및
추출된 상기 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이(back-propagation) 알고리즘에 기초하여 상기 심화 신경망을 최적화시키는 미세 조정(fine-tuning) 단계
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 제1항에 있어서,
상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계는,
상기 분류 단계에서, 입력되는 잡음환경에 의해 오염된 음성 신호로부터 단구간 푸리에 변환(STFT)를 통해서 각 프레임의 스펙트럼을 구하여, 상기 통계모델 파라미터의 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 상기 특징 벡터를 추출하는 단계; 및
각 음성존재확률 추정을 위한 상기 심화신경망을 통과시켜 상기 음성존재확률을 각각 추정하는 단계
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 제1항에 있어서,
상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는,
상기 기울기 파라미터와 바이어스 파라미터가 적용된 시그모이드(sigmoid) 함수를 이용하여, 음향환경인지를 위한 심화신경망을 통과시킨 결과 값으로부터 각 잡음환경에 대한 확률을 추정하는 단계; 및
상기 분류 단계에서, 상기 음향환경인지를 위한 심화신경망에 기반하는 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률은 각 잡음환경에서 학습된 다수의 상기 심화신경망으로부터 구해진 상기 음성존재확률을 합성하는 과정에서 가중치로 적용하여 최종적인 음성존재확률을 결정하는 단계
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 분류 단계에서, 입력되는 잡음환경에 의해 오염된 음성 신호로부터 특징 벡터를 추출하고 미리 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 단계; 및
상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계
를 포함하고,
상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는,
이전 프레임의 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음향환경을 추정하며, 상기 음향환경인지 기술을 통해서 구해진 각 잡음환경에 대한 확률을 각 상기 음성존재확률에 가중치로 적용하여 상기 최종적인 음성존재확률을 결정하는 것
을 특징으로 하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 제1항 또는 제7항에 있어서,
각 상기 음성 신호에서 잡음에 해당되는 각 프레임의 로그-스펙트럼을 특징 벡터로 사용하여 상기 음향환경인지를 위한 심화신경망의 학습하는 단계
를 더 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 제6항에 있어서,
상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 단계는,
상기 가중치의 값은 음성이 존재하지 않는 구간에서 업데이트 되며, 이전 프레임에서 구해진 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음성이 존재하지 않는 구간으로 간주되고, 상기 음성이 존재하지 않는 구간에서 각 상기 가중치의 값은 판정의거(decision-directed) 기법을 통해서 업데이트 되는 것
을 특징으로 하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 방법. - 삭제
- 입력부로부터 주변 잡음환경에 의해 오염된 음성 신호를 입력 받아, 입력된 상기 음성 신호의 분산 값에 기초하여, 통계모델 파라미터를 이용한 특징 벡터를 추출하는 특징 벡터 추출부;
각 잡음환경에서 추출된 상기 특징 벡터를 이용하여 다수의 심화신경망(DNN, deep neural network)을 개별적으로 학습하는 심화신경망 학습부;
학습이 완료된 후, 상기 특징 벡터를 학습된 상기 심화신경망을 통과시킨(feed-forward) 결과 값으로부터 각 잡음환경에 대한 기울기 파라미터와 바이어스 파라미터를 구하는 시그모이드 함수부;
분류 단계에서, 입력부로 입력되는 잡음환경에 의하여 오염된 음성 신호로부터 특징 벡터를 추출하고 미리 학습된 각 심화신경망을 통과시켜 음성존재확률을 각각 추정하는 음성존재확률 예측부; 및
상기 분류 단계에서, 각각의 학습된 상기 심화신경망을 통해서 추정된 상기 음성존재확률을 합성하기 위하여 음향환경인지 기술을 적용하여 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 음성존재확률 판단부
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치. - 제11항에 있어서,
상기 특징 벡터 추출부는,
입력된 상기 음성 신호에 단구간 푸리에 변환(STFT, short-time Fourier transform)을 적용하여 주파수 축 상의 성분으로 변환하는 단구간 푸리에 변환부;
변환된 주파수 축 상의 성분에 대하여 주파수 대역에서의 음성 및 잡음 신호의 분산을 산출하는 분산 산출부; 및
산출된 주파수 대역의 분산을 이용하여 사후 신호 대 잡음비(a posteriori SNR)와 사전 신호 대 잡음비(a priori SNR)를 산출 및 우도비(LR, likelihood)를 산출하는 통계모델 파라미터 추출부를 포함하고,
상기 통계모델 파라미터 추출부는,
상기 사후 신호 대 잡음비는 음성이 존재하지 않는 구간에서 잡음 신호의 분산 값을 이용하여 업데이트 되며, 상기 사전 신호 대 잡음비는 음성이 존재하는 구간에서 판정의거(decision-directed) 기법을 통해서 업데이트 되는 것
을 특징으로 하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치. - 제11항에 있어서,
상기 심화신경망 학습부는,
추출된 상기 특징 벡터의 결과를 이용하여, 복수의 비선형 은닉 층을 갖는 심화 신경망의 가중치 및 바이어스를 초기화하여 상기 심화신경망을 선행 학습(pre-training)시키는 선행 학습부; 및
추출된 상기 특징 벡터의 결과와 음성의 존재/부재에 대한 레이블링 값을 이용하여, 기울기 하강 기반의 역전이(back-propagation) 알고리즘에 기초하여 상기 심화 신경망을 최적화(fine-tuning)시키는 미세 조정부
를 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치. - 제11항에 있어서,
상기 음성존재확률 판단부는,
상기 기울기 파라미터와 바이어스 파라미터가 적용된 시그모이드(sigmoid) 함수를 이용하여, 상기 음향환경인지를 위한 심화신경망을 통과시킨 결과 값으로부터 각 잡음환경에 대한 확률을 추정하고, 상기 분류 단계에서, 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률은 각 잡음환경에서 학습된 다수의 상기 심화신경망으로부터 구해진 상기 음성존재확률을 합성하는 과정에서 가중치로 적용하여 최종적인 음성존재확률을 결정하는 것
을 특징으로 하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치. - 제11항에 있어서,
상기 특징 벡터 추출부는,
분류 단계에서, 상기 입력부를 통해 입력된 잡음에 의하여 오염된 음성 신호로부터 단구간 푸리에 변환(STFT)를 통해서 각 프레임의 스펙트럼을 구하고, 상기 통계모델 파라미터인 사전 신호 대 잡음비(a priori SNR), 사후 신호 대 잡음비(a posteriori SNR), 및 우도비(LR, likelihood ratio)를 이용한 특징 벡터를 추출하여, 각 음성존재확률 추정을 위한 상기 심화신경망을 통과시켜 음성존재확률을 각각 추정하고,
상기 음성존재확률 판단부는,
이전 프레임의 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음향환경을 추정하며, 상기 음향환경인지 기술을 통해서 구해진 상기 각 잡음환경에 대한 확률을 각 음성존재확률에 가중치로 적용하여 상기 최종적인 음성존재확률을 결정하고, 상기 입력된 음성 신호를 음성 구간 또는 비음성 구간으로 분류하는 것
을 특징으로 하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치. - 제11항에 있어서,
각 상기 음성 신호에서 잡음에 해당되는 각 프레임의 로그-스펙트럼을 특징 벡터로 사용하여 상기 음향환경인지를 위한 심화신경망의 학습하는 음향환경인지 심화신경망 학습부
를 더 포함하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치. - 제14항에 있어서,
상기 음성존재확률 판단부는,
상기 가중치의 값은 음성이 존재하지 않는 구간에서 업데이트 되며, 이전 프레임에서 구해진 상기 음성존재확률이 주어진 문턱 값보다 작을 경우 음성이 존재하지 않는 구간으로 간주되고, 상기 음성이 존재하지 않는 구간에서 각 상기 가중치의 값은 판정의거(decision-directed) 기법을 통해서 업데이트 되는 것
을 특징으로 하는 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150148297A KR101704926B1 (ko) | 2015-10-23 | 2015-10-23 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020150148297A KR101704926B1 (ko) | 2015-10-23 | 2015-10-23 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101704926B1 true KR101704926B1 (ko) | 2017-02-23 |
Family
ID=58315524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020150148297A KR101704926B1 (ko) | 2015-10-23 | 2015-10-23 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101704926B1 (ko) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2557425A (en) * | 2016-10-11 | 2018-06-20 | Cirrus Logic Int Semiconductor Ltd | Detection of acoustic impulse events in voice applications using a neural network |
KR20190020471A (ko) * | 2017-08-21 | 2019-03-04 | 국방과학연구소 | 음성 존재 구간 판별 장치 및 방법 |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
KR20190032868A (ko) * | 2017-09-20 | 2019-03-28 | 현대자동차주식회사 | 음성인식 방법 및 그 장치 |
KR20200101495A (ko) * | 2019-01-29 | 2020-08-28 | 한양대학교 산학협력단 | 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치 |
CN111788629A (zh) * | 2018-02-20 | 2020-10-16 | 三菱电机株式会社 | 学习装置、声音区间检测装置及声音区间检测方法 |
CN112116916A (zh) * | 2019-06-03 | 2020-12-22 | 北京小米智能科技有限公司 | 确定语音增强算法的性能参数的方法、装置、介质及设备 |
KR20210029816A (ko) * | 2018-07-12 | 2021-03-16 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어 |
KR20210058116A (ko) * | 2019-11-13 | 2021-05-24 | 주식회사 테서 | 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 |
KR102287499B1 (ko) | 2020-09-15 | 2021-08-09 | 주식회사 에이아이더뉴트리진 | 음소 단위 운율을 반영한 음성 합성 방법 및 장치 |
WO2021195429A1 (en) * | 2020-03-27 | 2021-09-30 | Dolby Laboratories Licensing Corporation | Automatic leveling of speech content |
KR20210133662A (ko) * | 2020-04-29 | 2021-11-08 | 한국전력공사 | 이종 기관 간 협업을 위한 빅데이터 플랫폼 및 전역 학습 모델을 이용한 빅데이터 학습 방법 |
KR20210142443A (ko) * | 2020-05-18 | 2021-11-25 | 국방과학연구소 | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 |
WO2022031061A1 (ko) * | 2020-08-04 | 2022-02-10 | 한양대학교 산학협력단 | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 |
CN117392979A (zh) * | 2023-10-23 | 2024-01-12 | 深圳市茂捷智能科技有限公司 | 一种智慧语音led/lcd时钟及语音处理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100115093A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
-
2015
- 2015-10-23 KR KR1020150148297A patent/KR101704926B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20100115093A (ko) * | 2009-04-17 | 2010-10-27 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
Non-Patent Citations (1)
Title |
---|
Inyoung Hwang et al., ‘Voice activity detection based on statistical model employing deep neural network’, IIHMSP 2014, pp.582~585, 2014.* * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2557425B (en) * | 2016-10-11 | 2020-02-19 | Cirrus Logic Int Semiconductor Ltd | Detection of acoustic impulse events in voice applications using a neural network |
US10242696B2 (en) | 2016-10-11 | 2019-03-26 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications |
GB2557425A (en) * | 2016-10-11 | 2018-06-20 | Cirrus Logic Int Semiconductor Ltd | Detection of acoustic impulse events in voice applications using a neural network |
US10475471B2 (en) | 2016-10-11 | 2019-11-12 | Cirrus Logic, Inc. | Detection of acoustic impulse events in voice applications using a neural network |
KR20190020471A (ko) * | 2017-08-21 | 2019-03-04 | 국방과학연구소 | 음성 존재 구간 판별 장치 및 방법 |
KR102044520B1 (ko) * | 2017-08-21 | 2019-11-13 | 국방과학연구소 | 음성 존재 구간 판별 장치 및 방법 |
KR20190032868A (ko) * | 2017-09-20 | 2019-03-28 | 현대자동차주식회사 | 음성인식 방법 및 그 장치 |
KR102406512B1 (ko) * | 2017-09-20 | 2022-06-10 | 현대자동차주식회사 | 음성인식 방법 및 그 장치 |
CN111788629A (zh) * | 2018-02-20 | 2020-10-16 | 三菱电机株式会社 | 学习装置、声音区间检测装置及声音区间检测方法 |
CN111788629B (zh) * | 2018-02-20 | 2023-08-15 | 三菱电机株式会社 | 学习装置、声音区间检测装置及声音区间检测方法 |
US11500610B2 (en) | 2018-07-12 | 2022-11-15 | Dolby Laboratories Licensing Corporation | Transmission control for audio device using auxiliary signals |
KR20210029816A (ko) * | 2018-07-12 | 2021-03-16 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어 |
KR102466293B1 (ko) | 2018-07-12 | 2022-11-14 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 보조 신호를 사용하는 오디오 디바이스에 대한 송신 제어 |
KR20200101495A (ko) * | 2019-01-29 | 2020-08-28 | 한양대학교 산학협력단 | 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치 |
KR102203991B1 (ko) * | 2019-01-29 | 2021-01-18 | 한양대학교 산학협력단 | 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치 |
CN112116916A (zh) * | 2019-06-03 | 2020-12-22 | 北京小米智能科技有限公司 | 确定语音增强算法的性能参数的方法、装置、介质及设备 |
KR20210058116A (ko) * | 2019-11-13 | 2021-05-24 | 주식회사 테서 | 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 |
KR102275658B1 (ko) * | 2019-11-13 | 2021-07-12 | 주식회사 테서 | 기계학습 모델을 이용한 자동 데이터 수집 및 학습 방법 및 그 시스템 |
WO2021195429A1 (en) * | 2020-03-27 | 2021-09-30 | Dolby Laboratories Licensing Corporation | Automatic leveling of speech content |
US20230162754A1 (en) * | 2020-03-27 | 2023-05-25 | Dolby Laboratories Licensing Corporation | Automatic Leveling of Speech Content |
KR20210133662A (ko) * | 2020-04-29 | 2021-11-08 | 한국전력공사 | 이종 기관 간 협업을 위한 빅데이터 플랫폼 및 전역 학습 모델을 이용한 빅데이터 학습 방법 |
KR102393109B1 (ko) * | 2020-04-29 | 2022-05-03 | 한국전력공사 | 이종 기관 간 협업을 위한 빅데이터 플랫폼 및 전역 학습 모델을 이용한 빅데이터 학습 방법 |
KR20210142443A (ko) * | 2020-05-18 | 2021-11-25 | 국방과학연구소 | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 |
KR102405799B1 (ko) | 2020-05-18 | 2022-06-07 | 국방과학연구소 | 사이버 공간에서 실시간 공격 탐지를 위한 시간에 따른 지속적인 적응형 학습을 제공하는 방법 및 시스템 |
WO2022031061A1 (ko) * | 2020-08-04 | 2022-02-10 | 한양대학교 산학협력단 | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 |
US11790929B2 (en) | 2020-08-04 | 2023-10-17 | Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) | WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network |
KR102287499B1 (ko) | 2020-09-15 | 2021-08-09 | 주식회사 에이아이더뉴트리진 | 음소 단위 운율을 반영한 음성 합성 방법 및 장치 |
CN117392979A (zh) * | 2023-10-23 | 2024-01-12 | 深圳市茂捷智能科技有限公司 | 一种智慧语音led/lcd时钟及语音处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101704926B1 (ko) | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 | |
KR102294638B1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
KR101807948B1 (ko) | 잔향 환경에서의 음성인식을 위한 결합 학습된 심화신경망 앙상블 기반의 음향 모델 및 이를 이용한 음성인식 방법 | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
KR102316537B1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
KR101640188B1 (ko) | 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
US11900949B2 (en) | Signal extraction system, signal extraction learning method, and signal extraction learning program | |
US11972751B2 (en) | Method and apparatus for detecting voice end point using acoustic and language modeling information for robust voice | |
Santosh et al. | Non-negative matrix factorization algorithms for blind source sepertion in speech recognition | |
KR20180038219A (ko) | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 | |
KR101704925B1 (ko) | Evs 코덱 파라미터를 이용한 심화 신경망 기반의 음성 검출 장치 및 그 방법 | |
Nuthakki et al. | Speech enhancement based on deep convolutional neural network | |
Mallidi et al. | Autoencoder based multi-stream combination for noise robust speech recognition. | |
KR101811524B1 (ko) | 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법 | |
Ferrer et al. | A phonetically aware system for speech activity detection | |
Hadjahmadi et al. | Robust feature extraction and uncertainty estimation based on attractor dynamics in cyclic deep denoising autoencoders | |
Kang et al. | Discriminative weight training for a statistical model-based voice activity detection | |
Hwang et al. | End-to-end speech endpoint detection utilizing acoustic and language modeling knowledge for online low-latency speech recognition | |
KR101711302B1 (ko) | 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법 | |
JP5740362B2 (ja) | 雑音抑圧装置、方法、及びプログラム | |
KR102203991B1 (ko) | 음향특징벡터 임베딩과 음성인식 컨텍스트를 결합 학습한 심화신경망 기반의 음성 끝점 검출 방법 및 장치 | |
Ng et al. | I2cr: Improving noise robustness on keyword spotting using inter-intra contrastive regularization | |
Maka et al. | An analysis of the influence of acoustical adverse conditions on speaker gender identification | |
Nicolson et al. | Sum-product networks for robust automatic speaker identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20200102 Year of fee payment: 4 |