KR101877127B1 - 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 - Google Patents
심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 Download PDFInfo
- Publication number
- KR101877127B1 KR101877127B1 KR1020160129031A KR20160129031A KR101877127B1 KR 101877127 B1 KR101877127 B1 KR 101877127B1 KR 1020160129031 A KR1020160129031 A KR 1020160129031A KR 20160129031 A KR20160129031 A KR 20160129031A KR 101877127 B1 KR101877127 B1 KR 101877127B1
- Authority
- KR
- South Korea
- Prior art keywords
- vector
- feature vector
- voice
- speech
- training
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 238000000034 method Methods 0.000 title claims description 10
- 238000001514 detection method Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims description 97
- 238000012549 training Methods 0.000 claims description 32
- 230000003595 spectral effect Effects 0.000 claims description 27
- 238000013145 classification model Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000001228 spectrum Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 7
- 238000013179 statistical model Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000004891 communication Methods 0.000 abstract description 10
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000003657 Likelihood-ratio test Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 206010002953 Aphonia Diseases 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 음성 검출기 및 음성 검출 방법에 관한 것으로, 보다 구체적으로는 시간 및 주파수 간의 상관도를 바탕으로 심화 신경망을 이용한 음성 검출기 및 음성 검출 방법에 관한 것이다. 이와 밀접한 관련이 있는 기술 분야는 무선 음성통신 기술, 인터넷 망을 이용한 실시간 음성 전송, 음성인식, 음성 코덱 등의 분야에서 사용되고 있다. 본 발명의 기술은 음성통신 단말기, 인터넷 망 음성통화 서비스, 모바일 인터넷 망 음성통화 서비스, 음성인식 어플리케이션, 스마트폰 블루투스 통신 시스템, 음성 향상 시스템, 무선 통신 시스템 등에 적용 가능하다.
Description
본 발명은 음성 검출기 및 음성 검출 방법에 관한 것으로, 보다 구체적으로는 시간 및 주파수 간의 상관도를 바탕으로 심화 신경망을 이용한 음성 검출기 및 음성 검출 방법에 관한 것이다. 이와 밀접한 관련이 있는 기술 분야는 무선 음성통신 기술, 인터넷 망을 이용한 실시간 음성 전송, 음성인식, 음성 코덱 등의 분야에서 사용되고 있다. 본 발명의 기술은 음성통신 단말기, 인터넷 망 음성통화 서비스, 모바일 인터넷 망 음성통화 서비스, 음성인식 어플리케이션, 스마트폰 블루투스 통신 시스템, 음성 향상 시스템, 무선 통신 시스템 등에 적용 가능하다.
음성 검출 기술은 음성 신호의 음성과 비음성 구간에 대해 잡음 환경에서 두 구간을 분류하는 기술로 음성통신 시스템, 음성인식, 잡음 제거 기술, 음향학적 반향 제거기 등에서 핵심적인 역할을 수행한다.
음성 통신 기술의 핵심이라고 여겨지는 음성 코덱에서는 제한된 주파수를 효율적으로 사용하기 위해 음성의 유무에 따라 음성 신호를 가변적으로 부호화한다. 즉, 음성이 존재하지 않는 경우에는 낮은 비트율로, 음성이 존재하는 경우에는 높은 비트율로 음성 신호를 부호화하여 전송하는 것인데 여기서 음성의 유무 판별에 적용된 기술이 음성 검출 기술이다.
종래의 기술로는 "J.Sohn, N.S. Kim and W.Sung, A statistical model-based voice activity detection", IEEE Signal Processing Letters, Vol. 6, No. 1 pp. 1-3, Jan. 1999"이 제안되었으며, 해당 기술은 통계적 모델을 채택하여 가설에 따른 우도비 검사를 거쳐 음성 활성 여부를 판단한다.
본 발명은 기존의 우도비 검사를 통한 통계적 모델에 기초하는 음성 검출 기술과는 달리, 시간 및 주파수 사이의 상관도를 가지는 음성 신호의 특성을 고려해주기 위해 입력 신호의 특정 시간과 특정 주파수에 해당하는 스펙트럼 성분에 시간 및 주파수 축을 기준으로 인접한 스펙트럼 성분을 포함하여 벡터로 확장시킨다. 확장된 벡터를 통해 통계적 모델의 우도비 및 음향 모델의 전력 스펙트럼 밀도를 추정하고 이들을 결합한 다중 특징을 심화 신경망의 입력 특징 벡터로 사용한다. 심화 신경망의 학습 과정으로부터 생성된 이항 분류 모델로 음성 활성 여부를 판별하는 음성 검출기 및 음성 검출 방법을 제공하는 것을 그 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 특징에 따른 음성 검출기는, 음성 신호를 입력하는 입력 수단; 상관도가 고려된 특징 벡터를 산출하는 특징 벡터 산출 모듈; 특징 벡터를 추출하고 결합하는 특징 벡터 추출 및 결합 모듈; 결합된 특징 벡터를 심화 신경망에서 학습하는 훈련 모듈; 및 학습된 모델을 바탕으로 음성을 검출하는 음성 검출 모듈;을 포함한다.
여기서, 상기 특징 벡터 산출 모듈은, 스펙트럼 상에서 특정 시간, 특정 주파수에 해당하는 스펙트럼 계수의 시간 축 및 주파수 축으로 인접한 스펙트럼 계수들을 포함하여 벡터를 생성하여 특징 벡터를 산출하는 것을 특징으로 할 수 있다.
또한, 상기 특징 벡터 추출 및 결합 모듈은, 매 프레임마다 누적 연산된 입력 신호의 누적 전력 스펙트럼 밀도 행렬의 대각합 및 일반화된 우도비를 추출하고 이 특징 벡터들을 하나의 다중 특징으로 결합하는 것을 특징으로 할 수 있다.
또한, 상기 훈련 모듈은, 훈련 단계에서 대조적 발산 알고리즘을 통해 분류 모델을 초기화하고 상대 엔트로피 오차를 최소화하는 방향으로 각 층의 가중치 매개 변수에 대한 상대 엔트로피 오차 함수의 도함수를 이용한 역전파 알고리즘을 통해 분류 모델을 갱신하는 것을 특징으로 할 수 있다.
또한, 상기 음성 검출 모듈은, 검증 단계에서 훈련 단계와 마찬가지로 입력 특징 벡터를 구성하고 훈련 단계에서 생성된 분류 모델을 입력 특징 벡터에 적용하여 산출된, 출력 노드 값에 소프트맥스 알고리즘을 적용하여 나오는 확률 값을 특정 문턱값과 비교하여 음성을 검출하는 것을 특징으로 할 수 있다.
또한, 본 발명의 특징에 따른 음성 검출 방법은, 입력 수단에 음성 신호를 입력하는 단계; 입력 신호를 단구간 푸리에 변환을 통해 주파수 영역으로 나타내는 단계; 해당 스펙트럼의 시간 축 및 주파수 축으로 인접한 스펙트럼을 통해 시간 및 주파수 사이의 상관도가 고려된 벡터를 생성하는 단계; 확장된 벡터를 통헤 입력 신호의 전력 스펙트럼 밀도 행렬을 연산하고 재귀 평균을 통한 전력 스펙트럼 밀도를 누적하는 단계; 누적된 전력 스펙트럼 밀도를 통해 깨끗한 음성 전력 스펙트럼 밀도를 추정하고 음성 존재 확률을 추정하는 단계; 추정된 음성 존재 확률 및 가변 매개 변수를 통한 잡음 전력 스펙트럼 밀도를 추정하는 단계; 입력 신호의 전력 스펙트럼 밀도 행렬의 대각합과 음성 존재 확률을 통해 추정되는 일반화된 우도비를 특징벡터로 추출하고 결합하는 단계; 심화 신경망을 이용한 분류 모델을 훈련하는 단계; 및 학습된 분류 모델을 이용한 음성 검출을 수행하는 단계를 포함한다.
본 발명에 따른 음성 검출기 및 음성 검출 방법을 사용하여, 음성 신호의 시간 및 주파수 사이의 상관도를 반영하고 심화 신경망의 학습을 통해 다양한 잡음 환경에서 기존 기술에 비해 보다 강인하고 우수한 음성 검출 성능을 가지며, 상관도의 고려 정도에 따라 다양한 잡음 환경에서 음성 검출 성능의 기여도를 파악할 수 있는 이점이 있다.
도 1은 본 발명의 일시시예에 대해서, 단구간 푸리에 변환 영역에서의 입력 신호의 단구간 푸리에 변환 계수 및 상관도 기반의 벡터를 도시한 도면.
도 2는 본 발명의 일시시예에 대해서, 심화 신경망을 이용한 시간 및 주파수 사이의 상관도가 고려된 음성 검출 방법에서 각 단계의 순서도를 도시한 도면.
도 3은 본 발명의 일시시예에 대해서, 시간 및 주파수 사이의 상관도가 고려된 특징 벡터 추출과 심화 신경망을 결합한 음성 검출 방법을 도시한 도면.
도 4는 본 발명의 일시시예에 대해서, 음성 검출기에서의 신호 흐름을 도시한 도면.
도 5는 본 발명의 일시시예에 대해서, 시간 및 주파수 사이의 상관도의 고려 정도에 따른 여러 유형의 벡터 차원을 도시한 도면.
도 6는 본 발명의 일시시예에 대해서, 음성 검출 방법을 종래 기술과 비교하여 도시한 그래프 도면.
도 2는 본 발명의 일시시예에 대해서, 심화 신경망을 이용한 시간 및 주파수 사이의 상관도가 고려된 음성 검출 방법에서 각 단계의 순서도를 도시한 도면.
도 3은 본 발명의 일시시예에 대해서, 시간 및 주파수 사이의 상관도가 고려된 특징 벡터 추출과 심화 신경망을 결합한 음성 검출 방법을 도시한 도면.
도 4는 본 발명의 일시시예에 대해서, 음성 검출기에서의 신호 흐름을 도시한 도면.
도 5는 본 발명의 일시시예에 대해서, 시간 및 주파수 사이의 상관도의 고려 정도에 따른 여러 유형의 벡터 차원을 도시한 도면.
도 6는 본 발명의 일시시예에 대해서, 음성 검출 방법을 종래 기술과 비교하여 도시한 그래프 도면.
시간 영역에서 단일 채널 마이크로 들어오는 입력 신호(input signal) 는 깨끗한 음성 신호(clean signal) 와 배경 잡음 신호(noise signal)인 의 합으로 나타낼 수 있고, 여기서 는 시간 인덱스를 의미한다. 입력 신호 를 단구간 푸리에 변환(short-time Fourier transform, 이하 "STFT"이라 표기함)을 통해 생성된 STFT 계수(coefficient) 는 수학식 1과 같이 표현된다.
수학식 1에서 는 주파수 성분(frequency bin), 은 프레임 인덱스(frame index)를 의미하며 , 는 각각 깨끗한 음성 신호, 배경 잡음 신호의 STFT 계수를 나타낸다.
음성 신호는 시간 및 주파수 사이에서 상관도(correlation)를 가지는 특성이 있다. 따라서 이를 고려해주기 위해 해당 계수를 이에 이웃한 계수들을 포함한 하나의 벡터 로 확장하며 수학식 4로 표현된다.
수학식 4의 이해를 돕기 위해 도 1에 본 발명의 일시시예에 대해서, 단구간 푸리에 변환 영역에서의 입력 신호의 푸리에 변환 계수 및 상관도 기반의 벡터를 도시하였다.
상관도가 고려된 벡터가 정의됨에 따라 이에 대해 STFT 계수에 적용되었던 수학식 2와 3의 가설이 마찬가지로 벡터에 적용되며 이를 통해 다변량 복소 가우시안 통계 모델(multivariate complex Gaussian distribution)의 조건부 확률밀도(conditional probability density) , 은 각각 수학식 5와 수학식 6으로 표현된다.
수학식 5와 수학식 6에서 는 음성 신호의 상관행렬(correlation matrix), 는 잡음 신호에 해당하는 상관행렬을 의미하며 연산자는 기댓값(expectation), 연산자는 정방 행렬에 대한 행렬식 (determinant), 은 다변량 통계적 모델의 차원 수를 의미한다. 식의 복잡도를 줄이기 위해 시간 및 주파수에 해당하는 인덱스 과 은 생략하였다.
각 가설에 따른 다변량 복소 가우시안 분포가 정의됨에 따라 일반화된 우도비(generalized likelihood ratio, 이하 "GLR"이라 표기함) 는 수학식 7로 정의된다.
수학식 7에서 는 선행 음성 부재 확률(a priori probability of speech absence)을 나타낸다. 계산의 복잡도를 줄이기 위하여 를 행렬의 계수(rank)가 1인 행렬로 가정하며, 역행렬 보조정리(matrix inversion lemma)에 의해 GLR은 수학식 8과 같이 간단히 정리된다.
시간 및 주파수 사이의 상관도가 고려된 전력 스펙트럼 밀도(power spectral density, 이하 "PSD"라 표기함)는 상관행렬로 간주한다. 즉, 로 간주할 수 있고, 실제 연산에서는 재귀 평균(recursive averaging)을 이용한다. 번째 프레임의 번째 주파수 성분에 해당하는 는 수학식 9로 나타낸다.
수학식 7의 GLR를 추정하기 위해서는 가 필수적이며 이는 연판정 (soft-decision) 기반의 음성 존재 확률(speech presence probability)을 통해 추정할 수 있다. 음성 존재 확률은 미리 알 수 없기 때문에 입력 신호를 바탕으로 추정해야 한다. 음성 존재에 대한 사후 확률(a posteriori probability of speech presence) 은 수학식 10으로 표현된다.
추정된 음성 존재 확률을 바탕으로 을 갱신하게 되며, 번째 프레임의 번째 주파수 성분에 해당하는 PSD 추정치 와 가변 가중치 매개 변수 는 수학식 11과 수학식 12로 표현된다.
도 2는 본 발명의 일시시예에 대해서, 심화 신경망을 이용한 시간 및 주파수 사이의 상관도가 고려된 음성 검출 방법에서 각 단계의 순서도를 도시한 도면이다. 입력 수단에 신호 입력 단계(S100), 단계 S100에서 입력받은 STFT계수를 바탕으로 상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계(S200), 입력 신호 PSD 행렬의 대각합과 SPP 연산을 통해 추정되는 일반화된 우도비를 특징 벡터로 추출 및 결합 단계(S300), DNN 이용하여 훈련된 분류 모델 생성 단계(S400), 생성된 분류 모델 이용하여 음성 검출 수행 단계(S500)로 순서가 진행된다. 상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계(S200)는 입력 신호를 단구간 푸리에 변환(STFT) 단계(S210), 시간 축과 주파수 축으로 인접한 스펙트럼을 통해 시간 및 주파수 사이의 상관도가 고려된 벡터 생성 단계(S220), 확장된 벡터를 통해 입력 신호의 전력 스펙트럼 밀도(PSD) 행렬을 연산하고 재귀 평균을 통한 PSD 누적 단계(S230), 깨끗한 음성 PSD 추정 및 음성 존재 확률(SPP) 추정 단계(S240), 추정된 SPP와 가변 매개 변수를 통해 잡음 PSD 추정 단계(S250)로 구성된다.
구체적으로, 단계 S200은 입력 신호의 STFT 변환을 이용(S210)하여 스펙트럼 성분을 나타내고, 해당 성분의 시간 및 주파수 축으로 인접한 스펙트럼 성분들을 바탕으로 시간 및 주파수 사이의 상관도가 고려된 벡터를 생성(S210)한다. 확장된 벡터를 통해 입력 신호의 PSD 행렬을 연산하고 재귀 평균을 이용하여 PSD 행렬을 누적(S230)한다. 누적된 PSD 행렬을 바탕으로 깨끗한 음성 PSD 추정하고 SPP를 추정(S240)한다. 추정된 SPP를 통해 가변 매개 변수를 갱신하고 그 후 잡음 PSD를 추정(S250)한다.
본 발명에서 사용하는 심화 신경망(deep neural networks, 이하 "DNN"이라 표기함) 알고리즘은 이항 분류 (binary classification)를 위해 제한된 볼츠만 머신(restricted Boltzmann machine, 이하 "RBM"이라 표기함)을 여러 층으로 쌓은 구조인 심층 신뢰망(deep belief networks, 이하 "DBN"이라 표기함)과 역전파 알고리즘(backpropagation)을 사용하였다. 심층 신뢰망은 심화 신경망에서 사용되는 분류 모델을 사전 훈련(feed-forward 혹은 pre-training)을 통해 각 층마다 초기화할 수 있다. 사전 훈련 과정은 대조적 발산 알고리즘(contrastive divergence)을 사용한다. 역전파 알고리즘은 후술하여 설명하기로 한다.
수학식 13에서 , 는 각각 번째 층에 대한 바이어스 벡터 집합(vector set), 가중치 매개 변수 벡터 집합을 나타내며, 는 활성화 함수(activation function)이다. 초기 가중치 합에 대한 식은 으로 나타내며, 여기서 은 입력 벡터의 집합을 의미한다.
역전파 알고리즘은 베르누이 기반의 상대 엔트로피 오차(cross-entropy error)를 최소화 하는 방향으로 가중치 매개 변수를 갱신하게 된다. 상대 엔트로피 오차 는 수학식 14와 같이 정의된다.
상대 엔트로피 오차를 최소화하는 방법은 각 층의 가중치 매개 변수에 대한 오차 함수의 도함수를 이용한 경사 하강법(gradient descent method)을 적용한다. 각 층을 통과한 입력 벡터는 마지막 층의 활성화 함수인 로지스틱 함수(logistic function)를 거치게 되면 0과 1 사이의 값을 가지게 되며 이들을 두 개의 출력 노드로 분류하기 위해서 각 노드들에 대한 확률 값을 부여하는 소프트맥스(softmax) 알고리즘을 도입하며, 확률 는 수학식 15로 표현된다.
도 3은 본 발명의 일시시예에 대해서, 시간 및 주파수 사이의 상관도가 고려된 특징 벡터 추출과 심화 신경망을 결합한 음성 검출 방법을 도시한 도면이다. 도 3에 도시된 바와 같이, 훈련 단계(training stage)와 검증 단계(test stage)로 입력 데이터 신호를 각각 분리한 후 특징 벡터를 추출하고 결합한다. 그와 동시에 추출된 벡터의 프레임이 음성 존재 구간 혹은 음성 부재 구간인지에 대한 미리 알고 있는 정답을 추출한다. 훈련 단계에서 결합된 특징 벡터는 DNN의 입력 특징 벡터로 사용되며, 훈련 목표값은 음성 존재에 대해서는 , 음성 부재에 대해서는 의 값을 설정한다. 입력된 특징 벡터는 DNN의 각 층을 통과하는 사전 훈련 과정을 거쳐 분류 모델을 초기화한다. 또한, 역전파 알고리즘을 통해 초기화된 분류 모델의 상대 엔트로피 오차를 줄이는 방향으로 모델을 갱신하는 과정을 거친다. 훈련 단계를 거쳐 얻어진 가중치 매개 변수 및 바이어스로 구성된 분류 모델은 검증 단계에서 소프트맥스 알고리즘을 통해 적용되어 확률 값을 얻는다. 음성 검출 단계에서 구해진 확률 값은 특정 문턱값(threshold)과의 비교를 통해 음성 검출을 수행한다.
도 4는 본 발명의 일시시예에 대해서, 음성 검출기에서의 신호 흐름을 도시한 도면이다. 입력 수단(100)에 입력된 신호를 STFT을 통해 시간 및 주파수에 대한 스펙트럼으로 분해한다. 그 후 상관도가 고려된 특징 벡터 산출 모듈(200)과 특징 벡터 추출 및 결합 모듈(300)을 통해 입력 PSD의 대각합(trace)과 GLR을 특징 벡터로 추출한다. 그 후 DNN 훈련 모듈(400)을 거쳐 이항 분류 모델을 생성하여 음성 검출 모듈(500)에서 음성 활성 여부를 검출하며 이 과정은 앞서 도 2, 도 3의 내용과 유사하므로 상세한 설명은 생략한다.
실험결과
본 발명의 실시예에서는 종래의 기술이었던 Sohn의 기존 음성 검출 기술과 본 발명의 여러 벡터 차원에 따른 기술을 비교하였다.
도 5는 본 발명의 일시시예에 대해서, 시간 및 주파수 사이의 상관도의 고려 정도에 따른 여러 유형의 벡터 차원을 도시한 도면이다. 고려 정도에 따라 각각은 , , , , 로 나타냈으며 훈련 단계에서는 , , , , 로, 검증 단계에서는 , , , 로 구성하여 특징 벡터를 추출하였다.
도 6는 백색 잡음(white noise) 환경에서 신호 대 잡음비(signal-to-noise ratio, 이하 "SNR"이라 표기함)가 5 dB의 수신자 조작 특성 (receiver operating characteristics, 이하 "ROC"이라 표기함) 곡선을 나타낸다. ROC 곡선의 가로 축은 비음성을 음성이라 판단한 오경보 확률 (false-alarm probability, 이하 ""이라 표기함), 세로 축은 실제 음성을 음성이라 판단한 음성 검출 확률 (speech detection probability, 이하 ""이라 표기함)이다. ROC 곡선은 가 낮을수록 또한 가 높을수록, 즉, 축을 기준으로 그래프가 에 가까이 다가갈수록 우수한 성능의 음성 검출기로 판단할 수 있다. 해당 잡음의 경우 정상적인 잡음 특성으로 인해 시간 및 주파수 사이의 상관도가 고려된 기술이 상관도를 고려해주지 않을 경우인 Sohn의 음성 검출 기술보다 전체적으로 우수한 성능을 나타냈으며, 본 발명의 기술 중에서는 상관도의 고려 정도가 인 경우의 음성 검출 성능이 제일 뛰어났다.
수신자 조작 특성 곡선 이외의 음성 검출 성능 평가 방법 중 음성 검출의 오류 확률 (error probability, 이하 ""이라 표기함) 비교가 있다. 는 와 미검출 확률(miss-alarm probability)의 합으로 정의되며 음성 검출 성능의 객관적인 지표로 나타낼 수 있다. 표 1은 Sohn의 기존 음성 검출 기술과 본 발명의 여러 벡터 차원에 따른 기술을 백색, factory1, babble 잡음에 대해 SNR별 5 dB 단위로 0 dB부터 15 dB 까지의 를 나타낸다.
[표 1]
표 1로부터, 가 낮을수록 해당 기술의 음성 검출의 성능이 우수하다고 평가할 수 있다. 표 1은 도 6과 마찬가지로 본 발명의 기술이 기존의 음성 검출 기술인 Sohn보다 우수한 성능을 보였다.
이상 설명한 본 발명은 본 발명의 기술적 사상을 벗어나지 않은 범위 내에서 본 발명의 기술 분야에 대해 통상의 지식을 습득한 자에 의하여 다양한 형태의 변형이 가능하며, 본 발명에서 상기한 실시예와 설명 내용에만 한정되는 것은 아니며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
S100: 입력 수단에 신호 입력
S200: 상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계
S210: 입력 신호를 단구간 푸리에 변환(STFT)
S220: 시간 축과 주파수 축으로 인접한 스펙트럼을 통해 시간 및 주파수 사이의 상관도가 고려된 벡터 생성
S230: 확장된 벡터를 통해 입력 신호의 전력 스펙트럼 밀도(PSD) 행렬을 연산하고 재귀 평균을 통한 PSD 누적
S240: 깨끗한 음성 PSD 추정 및 음성 존재 확률(SPP) 추정
S250: 추정된 SPP와 가변 매개 변수를 통해 잡음 PSD 추정
S300: 입력 신호 PSD 행렬의 대각합과 SPP 연산을 통해 추정되는 일반화된 우도비를 특징 벡터로 추출 및 결합
S400: 심화 신경망을 이용한 분류 모델 훈련
S500: 학습된 분류 모델 이용하여 음성 검출 수행
100: 입력 수단
200: 상관도가 고려된 특징 벡터 산출 모듈
300: 특징 벡터 추출 및 결합 모듈
400: DNN 훈련 모듈
500: 음성 검출 모듈
S200: 상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계
S210: 입력 신호를 단구간 푸리에 변환(STFT)
S220: 시간 축과 주파수 축으로 인접한 스펙트럼을 통해 시간 및 주파수 사이의 상관도가 고려된 벡터 생성
S230: 확장된 벡터를 통해 입력 신호의 전력 스펙트럼 밀도(PSD) 행렬을 연산하고 재귀 평균을 통한 PSD 누적
S240: 깨끗한 음성 PSD 추정 및 음성 존재 확률(SPP) 추정
S250: 추정된 SPP와 가변 매개 변수를 통해 잡음 PSD 추정
S300: 입력 신호 PSD 행렬의 대각합과 SPP 연산을 통해 추정되는 일반화된 우도비를 특징 벡터로 추출 및 결합
S400: 심화 신경망을 이용한 분류 모델 훈련
S500: 학습된 분류 모델 이용하여 음성 검출 수행
100: 입력 수단
200: 상관도가 고려된 특징 벡터 산출 모듈
300: 특징 벡터 추출 및 결합 모듈
400: DNN 훈련 모듈
500: 음성 검출 모듈
Claims (11)
- 입력 신호를 입력하는 입력 수단;
상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 특징 벡터 산출 모듈;
입력 신호에 대한 전력 스펙트럼 밀도 행렬의 대각합과 음성 존재 확률 연산을 통해 추정되는 일반화된 우도비를 특징 벡터로 추출하고 결합하는 특징 벡터 추출 및 결합 모듈;
결합된 특징 벡터를 심화 신경망에서 분류 모델을 학습하는 훈련 모듈; 및
학습된 분류 모델을 이용하여 음성을 검출하는 음성 검출 모듈;을 포함하며,
상기 특징 벡터 산출 모듈은,
스펙트럼 상에서 특정 시간, 특정 주파수에 해당하는 스펙트럼 계수의 시간 축 및 주파수 축으로 인접한 스펙트럼 계수들을 포함하는 벡터를 생성하여 특징 벡터를 추정하며,
상기 특징 벡터 추출 및 결합 모듈은,
매 프레임마다 누적 연산된 입력 신호의 전력 스펙트럼 밀도 행렬의 대각합 및 일반화된 우도비를 추출하고 이 특징 벡터들을 하나의 다중 특징으로 결합하며,
상기 훈련 모듈은,
훈련 단계에서 대조적 발산 알고리즘을 통해 분류 모델을 초기화하고 상대 엔트로피 오차를 최소화하는 방향으로 각 층의 가중치 매개 변수에 대한 상대 엔트로피 오차 함수의 도함수를 이용한 역전파 알고리즘을 통해 분류 모델을 갱신하고,
상기 음성 검출 모듈은,
검증 단계에서 훈련 단계와 마찬가지로 입력 특징 벡터를 구성하고 훈련 단계에서 생성된 분류 모델을 입력 특징 벡터에 적용하여 산출된, 출력 노드 값에 소프트맥스 알고리즘을 적용하여 나오는 확률 값을 특정 문턱값과 비교하여 음성을 검출하고,
상기 결합된 특징 벡터는 상기 입력 신호가 훈련 스테이지(training stage) 및 검증 스테이지(test stage)로 각각 분리된 후 특징 벡터가 추출되고 결합되어 생성되며,
추출된 벡터의 프레임이 음성 존재 또는 음성 부존재에 따라 훈련 목표값이 다르게 설정되는 것을 특징으로 하는 음성 검출기.
- 삭제
- 삭제
- 삭제
- 삭제
- 입력 수단에 신호 입력 단계;
상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계;
입력 신호에 대한 전력 스펙트럼 밀도 행렬의 대각합과 음성 존재 확률 연산을 통해 추정되는 일반화된 우도비를 특징 벡터로 추출 및 결합 단계;
심화 신경망을 이용한 분류 모델 훈련 단계; 및
학습된 분류 모델 이용하여 음성 검출 수행 단계;를 포함하며,
상기 상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계는,
스펙트럼 상에서 특정 시간, 특정 주파수에 해당하는 스펙트럼 계수의 시간 축 및 주파수 축으로 인접한 스펙트럼 계수들을 포함하는 벡터를 생성하여 특징 벡터를 추정하며,
상기 일반화된 우도비를 특징 벡터로 추출 및 결합 단계는,
매 프레임마다 누적 연산된 입력 신호의 전력 스펙트럼 밀도 행렬의 대각합 및 일반화된 우도비를 추출하고 이 특징 벡터들을 하나의 다중 특징으로 결합하며,
심화 신경망을 이용한 분류 모델 훈련 단계는,
훈련 단계에서 대조적 발산 알고리즘을 통해 분류 모델을 초기화하고 상대 엔트로피 오차를 최소화하는 방향으로 각 층의 가중치 매개 변수에 대한 상대 엔트로피 오차 함수의 도함수를 이용한 역전파 알고리즘을 통해 분류 모델을 갱신하고,
학습된 분류 모델 이용하여 음성 검출 수행 단계는,
검증 단계에서 훈련 단계와 마찬가지로 입력 특징 벡터를 구성하고 훈련 단계에서 생성된 분류 모델을 입력 특징 벡터에 적용하여 산출된, 출력 노드 값에 소프트맥스 알고리즘을 적용하여 나오는 확률 값을 특정 문턱값과 비교하여 음성을 검출하고,
상기 결합된 특징 벡터는 상기 입력 신호가 훈련 스테이지(training stage) 및 검증 스테이지(test stage)로 각각 분리된 후 특징 벡터가 추출되고 결합되어 생성되며,
추출된 벡터의 프레임이 음성 존재 또는 음성 부존재에 따라 훈련 목표값이 다르게 설정되는 것을 특징으로 하는 음성 검출 방법.
- 제6 항에 있어서,
상관도가 고려된 벡터를 통해 특징 벡터를 추정하는 단계는,
입력 신호를 단구간 푸리에 변환하는 단계;
시간 축과 주파수 축으로 인접한 스펙트럼을 통해 시간 및 주파수 사이의 상관도가 고려된 벡터 생성하는 단계;
확장된 벡터를 통해 입력 신호의 전력 스펙트럼 밀도 행렬을 연산하고 재귀 평균을 통해 전력 스펙트럼 밀도를 누적하는 단계;
깨끗한 음성의 전력 스펙트럼 밀도 추정 및 음성 존재 확률 추정하는 단계; 및
추정된 음성 존재 확률과 가변 매개 변수를 통해 잡음 신호의 전력 스펙트럼 밀도 추정하는 단계;를 포함하는 것을 특징으로 하는 음성 검출 방법. - 제6 항에 있어서,
시간 축과 주파수 축으로 인접한 스펙트럼을 통해 시간 및 주파수 사이의 상관도가 고려된 벡터 생성하는 단계는,
단구간 푸리에 변환을 통해 스펙트럼 상의 입력 신호에 대한 단구간 푸리에 변환 계수를 이에 시간 축과 주파수 축으로 인접한 단구간 푸리에 변환 계수를 추가하여 새롭게 생성된 상관도가 고려된 벡터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 검출 방법.
- 제6 항에 있어서,
입력 신호에 대한 전력 스펙트럼 밀도 행렬의 대각합과 음성 존재 확률 연산을 통해 추정되는 일반화된 우도비를 특징 벡터로 추출 및 결합 단계는,
통계적 모델을 가정하고 산출한 일반화된 우도비와 음향 모델에 해당하는 전력 스펙트럼 밀도 행렬의 대각합을 각각 특징 벡터로 추출하고 추출된 벡터를 합쳐 다중 특징으로 결합하는 것을 특징으로 하는 음성 검출 방법.
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160129031A KR101877127B1 (ko) | 2016-10-06 | 2016-10-06 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160129031A KR101877127B1 (ko) | 2016-10-06 | 2016-10-06 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180038219A KR20180038219A (ko) | 2018-04-16 |
KR101877127B1 true KR101877127B1 (ko) | 2018-07-10 |
Family
ID=62082163
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160129031A KR101877127B1 (ko) | 2016-10-06 | 2016-10-06 | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101877127B1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11972752B2 (en) | 2022-09-02 | 2024-04-30 | Actionpower Corp. | Method for detecting speech segment from audio considering length of speech segment |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102137151B1 (ko) * | 2018-12-27 | 2020-07-24 | 엘지전자 주식회사 | 노이즈 캔슬링 장치 및 그 방법 |
CN110265065B (zh) * | 2019-05-13 | 2021-08-03 | 厦门亿联网络技术股份有限公司 | 一种构建语音端点检测模型的方法及语音端点检测系统 |
KR20210038051A (ko) | 2019-09-30 | 2021-04-07 | 국방과학연구소 | 음성 복원 장치 및 그 방법, 그 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체 및 컴퓨터 프로그램 |
CN111524525B (zh) * | 2020-04-28 | 2023-06-16 | 平安科技(深圳)有限公司 | 原始语音的声纹识别方法、装置、设备及存储介质 |
KR102598285B1 (ko) * | 2020-09-16 | 2023-11-06 | 서울과학기술대학교 산학협력단 | FS-Net 기반의 심층 신경망을 이용한 MIMO 무선 통신 시스템 및 방법 |
CN112414446B (zh) * | 2020-11-02 | 2023-01-17 | 南昌智能新能源汽车研究院 | 一种数据驱动的变速器传感器故障诊断方法 |
KR102688359B1 (ko) * | 2022-11-18 | 2024-07-26 | 광주과학기술원 | 음성 및 잡음 파워 스펙트럼 추정을 이용한 음성 향상 장치 및 방법 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240214A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
JP2015057630A (ja) * | 2013-08-13 | 2015-03-26 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
-
2016
- 2016-10-06 KR KR1020160129031A patent/KR101877127B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004240214A (ja) * | 2003-02-06 | 2004-08-26 | Nippon Telegr & Teleph Corp <Ntt> | 音響信号判別方法、音響信号判別装置、音響信号判別プログラム |
JP2015057630A (ja) * | 2013-08-13 | 2015-03-26 | 日本電信電話株式会社 | 音響イベント識別モデル学習装置、音響イベント検出装置、音響イベント識別モデル学習方法、音響イベント検出方法及びプログラム |
Non-Patent Citations (9)
Title |
---|
Inyoung Hwang, et al. Voice Activity Detection based on Statistical Model Employing Deep Neural Network. IEEE 2014 Tenth International Conference on IIH-MSP. 2014.08.29. * |
Inyoung Hwang, et al. Voice Activity Detection based on Statistical Model Employing Deep Neural Network. IEEE 2014 Tenth International Conference on IIH-MSP. 2014.08.29.* |
논문1:2014 * |
논문2:KSCSP2015 * |
논문3:한국통신학회지(2016.09) * |
표은종, et al. 시간 및 주파수 상관도를 고려한 음성 검출기. 음성통신 및 신호처리 학술대회. 2015.08. * |
표은종, et al. 시간 및 주파수 상관도를 고려한 음성 검출기. 음성통신 및 신호처리 학술대회. 2015.08.* |
황인영, et al. 통계모델 기반의 음성검출기를 위한 주변잡음식별기술을 이용한 다중심화신경망. 음성통신 및 신호처리 학술대회. 2015.08. * |
황인영, et al. 통계모델 기반의 음성검출기를 위한 주변잡음식별기술을 이용한 다중심화신경망. 음성통신 및 신호처리 학술대회. 2015.08.* |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11972752B2 (en) | 2022-09-02 | 2024-04-30 | Actionpower Corp. | Method for detecting speech segment from audio considering length of speech segment |
Also Published As
Publication number | Publication date |
---|---|
KR20180038219A (ko) | 2018-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101877127B1 (ko) | 심화 신경망을 이용한 시간 및 주파수 간 상관도 기반의 음성 검출기 및 음성 검출 방법 | |
US10672414B2 (en) | Systems, methods, and computer-readable media for improved real-time audio processing | |
Heymann et al. | Neural network based spectral mask estimation for acoustic beamforming | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110767223B (zh) | 一种单声道鲁棒性的语音关键词实时检测方法 | |
US9489965B2 (en) | Method and apparatus for acoustic signal characterization | |
KR101640188B1 (ko) | 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 | |
CN111653288A (zh) | 基于条件变分自编码器的目标人语音增强方法 | |
KR102206546B1 (ko) | 잡음 환경 분류 및 제거 기능을 갖는 보청기 및 그 방법 | |
US20040199384A1 (en) | Speech model training technique for speech recognition | |
KR102406512B1 (ko) | 음성인식 방법 및 그 장치 | |
Tashev et al. | DNN-based causal voice activity detector | |
Liu et al. | Loss and double-edge-triggered detector for robust small-footprint keyword spotting | |
Pandharipande et al. | An unsupervised frame selection technique for robust emotion recognition in noisy speech | |
Kang et al. | Discriminative weight training for a statistical model-based voice activity detection | |
CN112289337B (zh) | 一种滤除机器学习语音增强后的残留噪声的方法及装置 | |
Sivapatham et al. | Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions | |
Kang et al. | NMF-based speech enhancement incorporating deep neural network. | |
WO2005029463A9 (en) | A method for recovering target speech based on speech segment detection under a stationary noise | |
Aralikatti et al. | Global snr estimation of speech signals using entropy and uncertainty estimates from dropout networks | |
Ram et al. | Recognition of fear from speech using adaptive algorithm with MLP classifier | |
Kim et al. | iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement. | |
Cheng et al. | Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement | |
Chazan et al. | LCMV beamformer with DNN-based multichannel concurrent speakers detector | |
Jakati et al. | A Novel Speech Enhancement Solution Using Hybrid Wavelet Transformation Least Means Square Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |