KR20200015225A - 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법. - Google Patents

심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법. Download PDF

Info

Publication number
KR20200015225A
KR20200015225A KR1020180090783A KR20180090783A KR20200015225A KR 20200015225 A KR20200015225 A KR 20200015225A KR 1020180090783 A KR1020180090783 A KR 1020180090783A KR 20180090783 A KR20180090783 A KR 20180090783A KR 20200015225 A KR20200015225 A KR 20200015225A
Authority
KR
South Korea
Prior art keywords
signal
voice
vad
frame
feature vector
Prior art date
Application number
KR1020180090783A
Other languages
English (en)
Other versions
KR102270954B1 (ko
Inventor
김희만
정겨운
조남현
Original Assignee
주식회사 엔씨소프트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔씨소프트 filed Critical 주식회사 엔씨소프트
Priority to KR1020180090783A priority Critical patent/KR102270954B1/ko
Publication of KR20200015225A publication Critical patent/KR20200015225A/ko
Application granted granted Critical
Publication of KR102270954B1 publication Critical patent/KR102270954B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

심층 신경망과 순환 신경망에 의해 조합된 모델을 이용하여 잡음 신호가 포함된 오디오 신호에서 음성 신호가 존재하는 구간을 정확히 검출하여 음성 인식 성능이 향상될 수 있다. 이를 위해, 잡음 신호와 음성 신호를 포함하는 오디오 신호를 수신하고, 오디오 신호로부터 프레임(frame)마다 특징 벡터를 추출하며, 심층 신경망과 순환 신경망이 조합된 모델을 이용하여 프레임에서 추출된 특징 벡터를 처리한 결과, 음성 신호 또는 잡음 신호에 대응하는 VAD 레이블(label)을 판단하는 동작을 수행하는 음성 검출 장치 일 수 있다.

Description

심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법.{APPARATUS AND METHOD FOR SPEECH DETECTION BASED ON A MULTI-LAYER STRUCTURE OF A DEEP NEURAL NETWORK AND A RECURRENT NEURAL NETWROK}
아래 설명은 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법에 관한 것으로, 구체적으로 잡음에 강인한 음성 검출 장치 및 방법에 관한 것이다.
음성 검출 기술은 오디오 신호로부터 음성 신호가 존재하는 구간을 검출하는 기술이다. 음성 검출 기술을 활용할 경우, 정확한 음성 구간의 검출로 인해 잡음 신호에 의한 오인식을 줄일 수 있어 음성 인식 성능이 향상될 수 있다. 또한, 음성 검출 장치에서 음성 인식 장치로 전송해야 하는 데이터량의 감소 및 음성 인식 장치에서 처리해야 하는 연산량이 줄어들 수 있다. 따라서, 최근에 활발히 연구되는 신경망을 적용하여 음성 검출 기술에 대한 연구가 필요하다.
일 측면에 따르면, 잡음 신호와 음성 신호를 포함하는 오디오 신호를 수신하는 동작; 상기 수신한 오디오 신호로부터 프레임(frame)마다 특징 벡터를 추출하는 동작; 딥 뉴럴 네트워크(Deep Neural Networks, DNNs)와 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)가 조합된 모델을 이용하여 상기 프레임에서 추출된 특징 벡터를 처리하는 동작; 및 상기 특징 벡터를 처리한 결과, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 음성활동감지(Voice Activity Detection, VAD) 레이블(label)을 판단하는 동작을 포함하는 음성 검출 방법일 수 있다.
상기 특징 벡터를 처리한 결과, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단하는 동작은, 상기 모델이, 상기 프레임에 음성 신호가 포함될 확률을 결정하고, 상기 확률과 미리 설정된 임계치를 비교하여 VAD 레이블을 판단하는 동작을 포함하는 음성 검출 방법일 수 있다.
상기 모델은, 상기 복수의 딥 뉴럴 네트워크 사이에 적어도 하나의 상기 순환 뉴럴 네트워크가 배치되는 음성 검출 방법일 수 있다.
상기 판단된 VAD 레이블이 연속적으로 배치된 VAD 레이블 구간을 나타내는 구역을 결정하는 동작을 더 포함하는 음성 검출 방법일 수 있다.
상기 판단된 VAD 레이블이 연속적으로 배치된 VAD 레이블 구간을 나타내는 구역을 결정하는 동작은, 상기 구역에서 잘못 판단된 VAD 레이블을 조정하는 시간적 평활화(Temporal smoothing)를 수행하는 동작을 포함하는 음성 검출 방법일 수 있다.
상기 순환 뉴럴 네트워크는, 입력(input), 출력(output), 리셋 게이트(Reset gate) 및 업데이트 게이트(Update gate)를 포함하는 GRU(Gated Recurrent Units)인 음성 검출 방법일 수 있다.
상기 딥 뉴럴 네트워크는, 다수의 노드를 갖는 활성화 함수(activation function)로서 ReLu(Rectified Linear Unit) 및 오버피팅(overfitting)를 방지하기 위해 드랍 아웃(drop out)를 적용하는 음성 검출 방법일 수 있다.
상기 미리 설정된 임계치는, 상기 모델의 손실함수(loss function)로서 Cross-Entropy binary를 이용하여 결정되는 음성 검출 방법일 수 있다.
상기 확률이 상기 임계치보다 큰 경우 상기 VAD 레이블은 1로서 상기 프레임에 상기 음성 신호가 존재하는 것을 나타내며, 상기 확률이 상기 임계치보다 작은 경우 상기 VAD 레이블은 0로서 상기 프레임에 상기 잡음 신호가 존재하는 것을 나타내는 음성 검출 방법일 수 있다.
상기 특징 벡터를 추출하는 동작은, MFCC(Mel-Frequency Cepstral Coefficients) 방식을 이용하여 특징 벡터를 추출하는 음성 검출 방법일 수 있다.
일 측면에 따르면, 음성 검출 장치에 있어서, 상기 음성 검출 장치는 프로세서를 포함하고, 상기 프로세서는, 잡음 신호와 음성 신호를 포함하는 오디오 신호를 수신하고, 상기 수신한 오디오 신호로부터 프레임(frame)마다 특징 벡터를 추출하고, 딥 뉴럴 네트워크(Deep Neural Networks, DNNs)와 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)가 조합된 모델을 이용하여 상기 프레임에서 추출된 특징 벡터를 처리하고, 상기 특징 벡터를 처리한 결과, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단하는 음성 검출 장치일 수 있다.
상기 프로세서는, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단할 때, 상기 모델의 출력으로서 상기 프레임에 음성 신호가 포함될 확률을 결정하고, 상기 확률과 미리 설정된 임계치를 비교하여 VAD 레이블을 판단하는 음성 검출 장치일 수 있다.
상기 모델은, 상기 복수의 딥 뉴럴 네트워크 사이에 적어도 하나의 상기 순환 뉴럴 네트워크가 배치되는 음성 검출 장치일 수 있다.
상기 프로세서는, 상기 판단된 VAD 레이블에 따라, 상기 프레임마다 상기 음성 신호가 존재하는 것으로 결정된 구간을 판단하는 음성 검출 장치일 수 있다.
상기 프로세서는, 상기 음성 신호가 존재하는 것으로 결정된 구간을 판단할 때, 상기 구간에서 잘못 판단된 VAD 레이블을 조정하는 시간적 평활화(Temporal smoothing)를 수행하는 음성 검출 장치일 수 있다.
상기 미리 설정된 임계치는, 상기 모델의 손실함수(loss function)로서 Cross-Entropy binary를 이용하여 결정되는 음성 검출 장치일 수 있다.
상기 확률이 상기 임계치보다 큰 경우 상기 VAD 레이블은 1로서 상기 프레임에 상기 음성 신호가 존재하는 것을 나타내며, 상기 확률이 상기 임계치보다 작은 경우 상기 VAD 레이블은 0로서 상기 프레임에 상기 잡음 신호가 존재하는 것을 나타내는 음성 검출 장치일 수 있다.
상기 프로세서는, 상기 특징 벡터를 추출할 때, MFCC(Mel-Frequency Cepstral Coefficients) 방식을 이용하여 특징 벡터를 추출하는 음성 검출 장치일 수 있다.
도 1은 일 실시예에 따른, 오디오 신호로부터 음성 신호를 검출하는 음성 검출 장치를 나타낸 도면이다.
도 2a는 일 실시예에 따른, 오디오 신호로부터 특징 벡터를 추출하는 과정을 나타낸 도면이다.
도 2b는 일 실시예에 따른, 특징 벡터로서 13차 MFCC 가 추출된 것을 나타낸 도면이다.
도 3은 일 실시예에 따른, 적어도 하나의 DNN 및 GRU에 의해 구성된 모델을 나타낸다.
도 4는 일 실시예에 따른, VAD 레이블을 조정하는 시간적 평활화(Temporal smoothing)를 나타낸 도면이다.
도 5는 일 실시예에 따른, 음성 검출 장치가 수행하는 음성 검출 방법을 나타낸 도면이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제 1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소는 제 1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 일 실시예에 따른, 오디오 신호로부터 음성 신호를 검출하는 음성 검출 장치를 나타낸 도면이다.
오디오 신호는 잡음 신호와 음성 신호를 포함할 수 있다. 여기서, 잡음 신호는 노이즈로서 검출하려는 음성 신호를 제외한 신호를 포함할 수 있고, 음성 신호는 검출 대상으로서 사람의 음성인 스피치(Speech) 를 포함할 수 있다.
음성 검출 장치(100)는 오디오 신호를 수신하고, 오디오 신호로부터 검출 대상인 음성 신호를 검출할 수 있다. 이때, 음성 신호의 검출은 음성 신호가 존재하는 것으로 판단된 음성 구간의 검출을 포함할 수 있다.
일 실시예에 따르면, 음성 검출 장치(100)가 정확한 음성 구간의 검출을 함으로써, 음성 인식의 성능은 잡음 신호에 의한 오인식을 줄일 수 있어 향상될 수 있다. 또한, 음성 검출 장치(100)에서 음성 인식 장치로 전송할 데이터량 및 음성 인식 장치에서 처리할 연산량을 줄일 수 있다.
음성 검출 장치(100)는 수신한 오디오 신호에서 각각의 프레임(frame)마다 특징 벡터를 추출할 수 있다. 이때, MFCC(Mel-Frequency Cepstral Coefficients) 방식이 이용될 수 있으며, 자세한 내용은 도 2를 참조한다.
음성 검출 장치(100)는 추출된 특징 벡터를 딥 뉴럴 네트워크(Deep Neural Networks, DNNs)와 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)가 조합된 모델을 이용하여 처리할 수 있고, 처리 결과 음성 신호와 잡음 신호에 대응하는 VAD 레이블(Voice Activity Detection label, VAD label)을 판단할 수 있다.
여기서, 음성 활동 감지(VAD, Voice Activity Detection)는 사람의 음성 유/무를 검출하는 음성 처리에 적용되는 기술로서, 구체적으로 프레임에 사람의 음성인 스피치가 존재하는지 여부를 검출하는 기술이다.
일 실시예에 따르면, 음성 검출 장치(100)는 사용자 단말 또는 휴대 기기에 포함될 수 있다. 또한, 음성 검출 장치(100)는 적어도 1개의 마이크를 사용하여 동작 가능할 수 있을 뿐만 아니라, 다른 장치와 결합되거나 독립된 장치일 수 있다. 예를 들면, 음성 검출 장치(100)는 헤드셋(headset)일 수 있고, 헤드셋은 수신한 오디오 신호에서 검출 대상인 음성 신호를 검출할 수 있다. 따라서, PC방에서 사용되는 헤드셋은 수많은 잡음 신호를 포함하는 오디오 신호에서 음성 신호를 검출할 수 있다.
도 2a는 일 실시예에 따른, 오디오 신호로부터 특징 벡터를 추출하는 과정을 나타낸 도면이다.
음성 검출 장치(100)가 일례로, MFCC(Mel-Frequency Cepstral Coefficients) 방식을 이용하여 오디오 신호로부터 특징 벡터를 추출할 수 있다. 다만, 특징 벡터를 추출하는 방법은 이에 한정되는 것은 아니며, 음성 검출 장치는 다른 방식에 의해 특징 벡터를 추출할 수 있다.
일 실시예에 의하면, 음성 인식을 위해서는 노이즈 및 배경 소리와 같은 잡음 신호로부터 실제 유효한 소리의 특징을 추출해야 하고, 이는 입력된 오디오 신호 전체가 아니라 프레임 별로 스펙트럼 분석을 하여 추출될 수 있다. 이때, 소리의 특징을 추출하는 방식으로 MFCC(Mel-Frequency Cepstral Coefficients) 방식은 인간의 청각 인지 시스템을 모델링하여, 이를 특징 추출 알고리즘으로 사용하는 방식을 나타낸다.
Pre-emphasis 과정은 음성신호나 음악의 가청신호의 대부분의 에너지가 낮은 주파수대 (약 400Hz 이하) 에 집중되고, 높은 주파수에서는 비교적 에너지가 낮은 특성을 개선하고자 오디오 신호 x(n)의 고주파 성분을 강화시켜 전 주파수대역에서 고른 에너지 분포를 갖도록 할 수 있다.
그 후, Pre-emphasis 과정이 수행된 오디오 신호는 오디오 신호의 특성이 변하지 않는 안정적이라고 가정할 수 있는 매우 짧은 시간 동안의 프레임 단위로 분석될 수 있다. 구체적으로, 해밍(Hamming) 윈도우나 해닝(Hanning) 윈도우를 통해 프레임을 분석할 수 있다. 이때, 해밍 윈도우나 해닝 윈도우에 한정되지 않으며, 다른 윈도우를 사용하여 프레임을 분석할 수 있다.
예를 들면, 음성 검출 장치는 30ms(milli second) 사이즈의 해밍 윈도우를 이용하여 20ms(milli second) 마다 해밍 윈도우를 이동하며 특징 벡터를 추출할 수 있다. 이때, 오디오 신호의 주파수 대역은 60 Hz ~ 16000 Hz 로서, 음성 신호의 특징을 풍부하게(abundantly) 포함할 수 있다.
Pre-emphasis된 오디오 신호 x'(n)은 DFT(Discrete Fourier Transform)에 의해 주파수 대역으로 변환되고, 변환된 신호는 Mel Filter Banks를 통과할 수 있다. 여기서, Mel Filter Banks는 인간의 청각 구조에 근접한 여러 개의 band-pass filter들로 구성되어 있어, 변환된 신호를 사람의 청각 시스템에서 인지하는 스펙트럼 신호와 유사하도록 처리할 수 있다. 각각의 필터의 중심 주파수 배열은 1kHz 이하에서는 균일하게 구성될 수 있고, 1kHz 이상에서는 로그 스케일 단위로 구성될 수 있다.
Mel Filter Banks를 통과한 신호에 logarithm 과정이 적용될 수 있다. Logarithm 과정을 통해 신호의 크기 성분은 남겨두고, 중요성이 낮은 위상 성분은 제외될 수 있다. 따라서, logarithm 과정을 통과한 신호는 음성 검출 장치와 음성 신호를 생성한 사람의 입 간의 거리 변화에 민감하지 않을 수 있다.
Logarithm 과정을 통과한 신호는 실수이며, 신호에 DCT(Discrete Cosine Transform) 연산이 수행되는 IDFT(Inverse DFT)가 적용되어 MFCC를 획득할 수 있다. 이때, k번째 Mel Filter Bank를 통과한 신호를 S[k], 필터 뱅크 개수를 M, MFCC 차수를 L이라 할 경우, 아래의 수학식 1과 같이 표현될 수 있다.
Figure pat00001
도 2b는 일 실시예에 따른, 특징 벡터로서 13차 MFCC 가 추출된 것을 나타낸 도면이다. 음성 검출 장치는 특징 벡터로 13차 MFCC(13 dimensional Mel-Frequency Cepstral Coefficients)를 추출하고, 추출된 특징 벡터는 모델에 입력될 수 있다.
도 3은 일 실시예에 따른, 적어도 하나의 DNN 및 GRU에 의해 구성된 모델을 나타낸다.
일 실시예에 따르면, 모델은 적어도 하나의 딥 뉴럴 네트워크(Deep Neural Networks, DNNs) 및 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)의 조합을 포함할 수 있다. 구체적으로, 모델은 딥 뉴럴 네트워크 사이에 적어도 하나의 순환 뉴럴 네트워크를 포함할 수 있다.
예를 들면, 모델은 DNN-RNN-DNN이거나 또는 DNN-RNN-RNN-DNN를 포함할 수 있다. 이때, input를 수신한 DNN은 특징 벡터를 매핑(mapping)할 수 있고, 가중치(weight) 벡터 W와 편향(bias) 벡터 b로 구성된 실수를 출력할 수 있다. 여기서, 가중치 벡터 W의 크기는 노드 수*입력 크기이고, 편향 벡터 b의 크기는 노드수이다. DNN 이후의 RNN(GRU)는 사람의 음성의 시계열 특성을 반영할 수 있고, RNN 이후의 DNN은 클래스 기반 구분(class-based discrimination)을 수행할 수 있다.
이때, 딥 뉴럴 네트워크 사이에 포함되는 순환 뉴럴 네트워크의 최적화된 수는 특수한 환경 및/또는 모델을 트레이닝 시키는 훈련 데이터와 테스트 데이터를 고려하여 결정될 수 있다. 예를 들면, 조용한 사무실 환경인 경우와 PC 방인 경우, 딥 뉴럴 네트워크 사이에 포함되는 순환 뉴럴 네트워크의 최적화된 수는 상이할 수 있다. 다른 예를 들면, 동일한 환경이라도 훈련 데이터와 테스트 데이터가 다른 경우, 딥 뉴럴 네트워크 사이에 포함되는 순환 뉴럴 네트워크의 최적화된 수는 상이할 수 있다.
DNN은 도 2에서 추출된 13차 MFCC를 입력으로 사용할 수 있다. DNN은 입력 레이어와 출력 레이어 사이에 적어도 하나의 히든 레이어를 포함할 수 있다. 예를 들면, DNN은 입력 레이어, 히든 레이어 1, 히든 레이어 2, 히든 레이어 3, 출력 레이어를 포함할 수 있다. 도 3에 나타난 바와 같이, 3개의 히든 레이어, 각각의 히든 레이어에 포함된 4개의 노드(node)는 일례에 불과하며, 이에 한정되지 않는다.
DNN은 훈련 데이터를 학습하여, 각각의 가중치(weights)를 조정할 수 있다. 이때, DNN은 RNN과 비교하여 빠른 학습 속도를 나타낼 수 있다. 또한, lower layer에서 특징 벡터를 매핑(mappin)하는 것에 강인하며, upper layer에서 클래스 기반 구분(class-based discrimination)을 수행할 수 있다.
구체적으로, DNN은 48 노드를 갖는 활성화 함수(activation function)로서 ReLu(Rectified Linear Unit)를 이용할 수 있고, 오버피팅(overfitting)을 방지하기 위해 드랍 아웃(drop out)을 이용할 수 있다. 이때, 48 노드(node)는 일례에 불과하며, 이에 한정되지 않는다.
RNN은 DNN의 출력을 입력으로 사용할 수 있다. RNN은 시계열 정보를 학습할 수 구조로서, 시간 흐름에 따른 음성 신호의 변화 특성을 학습할 수 있다. GRU(Gated Recurrent Units)는 RNN의 vanishing gradient problem을 해결하기 위해, 모델에서 RNN을 대신하여 사용될 수 있다. 예를 들면, 모델은 DNN-GRU-DNN을 포함할 수 있거나, 또는 DNN-GRU-GRU-DNN을 포함할 수 있다. GRU의 출력은 DNN의 입력으로 사용될 수 있다.
GRU는 입력, 출력, 리셋 게이트(Reset gate), 업데이트 게이트(Update gate)를 포함할 수 있다. 구체적으로, GRU는 활성화 함수로서 Tanh를 이용할 수 있고, 48 셀(cell)을 가질 수 있다. 또한, 과거 정보를 삭제할 수 있는 드랍 아웃을 사용하는 DNN과 달리, GRU는 드랍 아웃을 사용하지 않을 수 있다. 이때, 48 셀(cell)은 일례에 불과하며, 이에 한정되지 않는다.
DNN과 GRU의 조합에 의해 구성된 모델은 손실 함수로서 Cross-Entropy binary를 활용할 수 있다. 손실 함수는 Cross-Entropy binary에 한정되는 것은 아니며, 다른 손실 함수 또한 포함할 수 있다. 여기서, 임계값은 손실 함수인 Cross-Entropy binary를 이용하여 결정될 수 있다. 모델에 포함된 DNN과 GRU에 대한 세부 사항을 아래의 표 1과 같다.
Output 1(speech)/0(non-speech)
Loss function Cross-Entropy binary
DNN layer ReLU Dropout=0.1 48 nodes
GRU layer(s) Tanh 128 times of unrolling 48 cells
DNN layer ReLU Dropout=0.1 48 nodes
Input MFCC 13-dimensions
일 실시예에 따르면, 모델은 특징 벡터가 추출된 프레임 구간에서 음성 신호의 존재 유무를 결정하기 위해 특징 벡터를 처리할 수 있다. 처리 결과는 프레임 구간에 음성 신호가 존재하는지 여부를 나타내는 확률을 나타낼 수 있고, 확률과 미리 설정된 임계치를 비교하여 VAD 레이블을 판단할 수 있다. 이때, VAD 레이블이 1인 경우 프레임에 음성 신호가 포함되어 있음을 나타내며, VAD 레이블이 0인 경우 프레임에 음성 신호가 포함되어 있지 않음을 나타낸다.
도 4는 일 실시예에 따른, VAD 레이블을 조정하는 시간적 평활화(Temporal smoothing)를 나타낸 도면이다.
모델에서 특징 벡터를 처리하여 판단된 VAD 레이블에 대해 시간적 평활화가 적용될 수 있다. 모델에서 판단된 프레임에 대한 VAD 레이블이 잘못 판단된 경우, 시간적 평활화에 의해 VAD 레이블이 조정될 수 있다. 여기서, 시간적 평활화는 hang-over scheme를 포함할 수 있으며, 이에 한정되지 않는다.
구체적으로, 프레임에 음성 신호가 존재함에도 음성 신호가 존재하지 않는 것으로 판단되어 VAD 레이블이 0인 경우, 음성 검출 장치는 잘못 판단된 VAD 레이블 주변의 VAD 레이블을 고려할 수 있고, 따라서 음성 검출 장치는 VAD 레이블 0을 1로 조정할 수 있다. 따라서, 음성 검출 장치는 프레임에 음성 신호가 존재하는 것으로 인식할 수 있다.
예를 들면, 도 4에 표시된 구역 {1111111111111011111001111}는 {1111111111111111111001111}로 조정된 것을 확인할 수 있다. 해당 구역에 시간적 평활화가 적용될 경우, 프레임 주변을 분석하여 VAD 레이블 0은 잘못 판단된 것으로 인식하여 음성 검출 장치는 0을 1로 조정할 수 있다.
이때, 음성 검출 장치는 시간적 평활화에 따라 비음성구간이라도 음성구간으로 인식할 수 있다. 예를 들면, 비음성구간의 프레임이 2개 있는 경우 음성구간에 포함되도록 시간적 평활화를 설정한 경우, {1111111111111111111001111} 구역에 비음성구간의 프레임이 2개 있음을 나타내는 00은 음성구간에 포함될 수 있다. 여기서, 시간적 평활화의 설정은 경험적 실험에 따라 결정될 수 있다.
일 실시예에 따르면, 음성 검출 장치는 프레임 단위에 시간적 평활화를 적용하여 구역을 설정할 수 있다.
도 5는 일 실시예에 따른, 음성 검출 장치가 수행하는 음성 검출 방법을 나타낸 도면이다.
단계(510)에서, 음성 검출 장치는 잡음 신호와 음성 신호를 포함하는 오디오 신호를 수신할 수 있다. 여기서, 잡음 신호는 노이즈로서 검출하려는 음성 신호를 제외한 신호를 포함할 수 있고, 음성 신호는 검출 대상으로서 스피치를 포함할 수 있다.
잡음 신호는 시간에 따라 상태가 급격히 변화하는지 여부에 따라 정상적 잡음 신호와 비정상적 잡음 신호로 구분될 수 있다. 구체적으로, 정상적 잡음 신호는 에어컨, PC 팬과 같이 시간에 따라 상태가 유지되는 것으로서, 필터에 의해 제거 가능한 잡음 신호일 수 있다. 또한, 비정상적 잡음 신호는 TV와 같이 시간에 따라 상태가 급격히 변화하는 것을 나타낼 수 있다.
단계(520)에서, 음성 검출 장치는 오디오 신호로부터 프레임(frame)마다 특징 벡터를 추출할 수 있다. 구체적으로, 음성 검출 장치는 MFCC(Mel-Frequency Cepstral Coefficients) 방식을 이용하여 특징 벡터를 추출할 수 있으며, 이에 대해 자세한 설명은 도 2를 참조한다.
단계(530)에서, 음성 검출 장치는 딥 뉴럴 네트워크(Deep Neural Networks, DNNs)와 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)가 조합된 모델을 이용하여 프레임에서 추출된 특징 벡터를 처리할 수 있다.
구체적으로, 모델은 딥 뉴럴 네트워크 사이에 적어도 하나의 순환 뉴럴 네트워크를 포함하는 복층 구조일 수 있다. 이때, 순환 뉴럴 네트워크의 일례로서, 입력/출력/리셋 게이트/업데이트 게이트를 포함하는 GRU를 포함할 수 있다. 모델에 대해 자세한 설명은 도 3을 참조한다.
단계(540)에서, 음성 검출 장치는 특징 벡터를 처리한 결과, 음성 신호와 잡음 신호에 대응하는 VAD 레이블(Voice Activity Detection label)을 판단할 수 있다.
음성 검출 장치에 포함된 모델은 프레임에 음성 신호가 포함될 확률을 결정할 수 있고, 확률과 미리 설정된 임계치를 비교하여 VAD 레이블을 판단할 수 있다. 이때, 임계치는 모델의 손실 함수에 따라 결정될 수 있으며, 예를 들면, 손실 함수 Cross-Entropy binary에 따른 임계치는 실험결과로서 0.9로 결정될 수 있다.
구체적으로, 음성 신호가 포함될 확률이 임계치보다 큰 경우 VAD 레이블은 1로서 프레임에 음성 신호가 존재하는 것을 나타낼 수 있고, 음성 신호가 포함될 확률이 임계치보다 낮은 경우 VAD 레이블은 0로서 프레임에 음성 신호가 존재하지 않는 것을 나타낼 수 있다.
또한, 음성 검출 장치는 판단된 VAD 레이블이 연속적으로 배치된 VAD 레이블 구간을 나타내는 구역을 결정할 수 있다. 이때, 구역에 대해 잘못 판단된 VAD 레이블이 포함된 경우, 음성 검출 장치는 이를 조정하는 시간적 평활화를 수행할 수 있다.
아래 실시예에 따르면, 심층 신경망(딥 뉴럴 네트워크) 및 순환 신경망(ex: GRU)를 이용한 복층 구조에 기반한 음성 검출 장치를 사용할 경우, 아래의 표 2 및 표 3과 같은 효과를 확인할 수 있다.
PC 방은 키보드 소리, 마우스 소리, 스피커 소리, PC 팬(fan) 소리, 게임 사운드 등 여러 잡음 신호를 포함할 수 있다. 이때, 음성 검출 장치로서 헤드셋(headset)을 이용하여, PC 방에서 발생되는 오디오 신호에서 사람의 음성 신호를 검출하는 실험을 수행하였다. 여기서, PC 방에서 발생하는 잡음 신호는 정상적 잡음 신호와 비정상적 잡음 신호가 포함될 수 있다. 정상적 잡음 신호는 PC 방이라는 특수한 환경에서 시간에 따라 상태가 유지되는 신호로서 필터를 통해 제거 가능하며, 비정상적 잡음 신호는 PC 방이라는 특수한 환경에서 시간에 따라 상태가 유지되는 신호를 나타낸다.
잡음 신호와 음성 신호가 포함된 오디오 신호에서 음성 신호를 검출하기 위해, 모델은 사전에 PC 방 환경을 고려한 훈련 데이터와 테스트 데이터를 통해 트레이닝 될 수 있다. 이때, PC 방은 일례에 불과하며, 다른 특수한 환경(예를 들면, 조용한 사무실 환경)을 고려한 훈련 데이터와 테스트 데이터를 통해 트레이닝 될 수 있다.
표 2는 PC방에서 음성 검출 장치를 사용한 경우를 나타내며, 표 3은 표 2와 동일한 조건에서 시간적 평활화를 적용한 경우를 나타낸다.
Network SNR to PC game cafe noise
Signal-to-noise ratio (SNR(db)) Clean Avg.
0 5 10 15
DDD 65.9 73.4 79.8 84.4 92.2 79.1
GGG 81.1 88.8 92.1 93.6 95.4 90.2
DGD 83.6 90.2 93.1 94.5 96.9 91.7
DGGD 85.6 91.3 93.7 95.0 96.8 92.5
DGGGD 84.4 90.7 93.5 94.8 96.7 92.0
Network SNR to PC game cafe noise with temporal smoothing
Signal-to-noise ratio(SNR(db)) Clean Avg.
0 5 10 15
DDD 75.7 82.1 85.7 87.2 91.1 84.4
GGG 87.5 91.4 92.4 92.8 93.2 91.5
DGD 88.7 93.0 94.1 94.5 94.9 93.0
DGGD 90.3 93.7 94.5 94.8 95.1 93.7
DGGGD 89.6 93.5 94.6 94.9 95.3 93.6
표 2와 표 3에서 나타난, DDD는 3개의 심층 신경망으로 구성된 모델에 의한 실험 결과를 나타내며, GGG는 3개의 순환 신경망으로 구성된 모델에 의한 실험 결과를 나타내며, DGD는 심층 신경망-순환 신경망-심층 신경망으로 구성된 모델에 의한 실험 결과를 나타낸다. 표 2와 표 3에서 확인 가능하듯이, clean 환경 즉 소음이 없는 경우는 모든 모델에서 90%가 넘는 높은 정확도를 나타내는 것을 확인할 수 있다. 그러나, 소음이 있는 경우 DDD 또는 GGG만 사용된 것과 비교하여, DGD/DGGD/DGGGD가 더 향상된 성능을 나타내는 것을 확인 가능하다. 또한, 표 2와 표 3을 비교할 경우, 동일한 조건이라 하더라도 temporal smoothing가 적용된 경우, 모든 모델에서 향상된 성능을 나타내는 것을 확인 가능하다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다

Claims (19)

  1. 잡음 신호와 음성 신호를 포함하는 오디오 신호를 수신하는 동작;
    상기 수신한 오디오 신호로부터 프레임(frame)마다 특징 벡터를 추출하는 동작;
    딥 뉴럴 네트워크(Deep Neural Networks, DNNs)와 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)가 조합된 모델을 이용하여 상기 프레임에서 추출된 특징 벡터를 처리하는 동작; 및
    상기 특징 벡터를 처리한 결과, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단하는 동작
    를 포함하는 음성 검출 방법.
  2. 제1항에 있어서,
    상기 특징 벡터를 처리한 결과, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단하는 동작은,
    상기 모델이,
    상기 프레임에 음성 신호가 포함될 확률을 결정하고, 상기 확률과 미리 설정된 임계치를 비교하여 VAD 레이블을 판단하는 동작을 포함하는 음성 검출 방법.
  3. 제1항에 있어서,
    상기 모델은,
    상기 복수의 딥 뉴럴 네트워크 사이에 적어도 하나의 상기 순환 뉴럴 네트워크가 배치되는 음성 검출 방법.
  4. 제1항에 있어서,
    상기 판단된 VAD 레이블이 연속적으로 배치된 VAD 레이블 구간을 나타내는 구역을 결정하는 동작을 더 포함하는 음성 검출 방법.
  5. 제4항에 있어서,
    상기 판단된 VAD 레이블이 연속적으로 배치된 VAD 레이블 구간을 나타내는 구역을 결정하는 동작은,
    상기 구역에서 잘못 판단된 VAD 레이블을 조정하는 시간적 평활화(Temporal smoothing)를 수행하는 동작을 포함하는 음성 검출 방법.
  6. 제3항에 있어서,
    상기 순환 뉴럴 네트워크는,
    입력(input), 출력(output), 리셋 게이트(Reset gate) 및 업데이트 게이트(Update gate)를 포함하는 GRU(Gated Recurrent Units)인 음성 검출 방법.
  7. 제3항에 있어서,
    상기 딥 뉴럴 네트워크는,
    다수의 노드를 갖는 활성화 함수(activation function)로서 ReLu(Rectified Linear Unit) 및 오버피팅(overfitting)를 방지하기 위해 드랍 아웃(drop out)를 적용하는 음성 검출 방법.
  8. 제2항에 있어서,
    상기 미리 설정된 임계치는,
    상기 모델의 손실함수(loss function)로서 Cross-Entropy binary를 이용하여 결정되는 음성 검출 방법.
  9. 제2항에 있어서,
    상기 확률이 상기 임계치보다 큰 경우 상기 VAD 레이블은 1로서 상기 프레임에 상기 음성 신호가 존재하는 것을 나타내며,
    상기 확률이 상기 임계치보다 작은 경우 상기 VAD 레이블은 0로서 상기 프레임에 상기 잡음 신호가 존재하는 것을 나타내는
    음성 검출 방법.
  10. 제1항에 있어서,
    상기 특징 벡터를 추출하는 동작은,
    MFCC(Mel-Frequency Cepstral Coefficients) 방식을 이용하여 특징 벡터를 추출하는 음성 검출 방법.
  11. 제1항 내지 제10항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 컴퓨터에서 판독 가능한 기록 매체.
  12. 음성 검출 장치에 있어서,
    상기 음성 검출 장치는 프로세서를 포함하고,
    상기 프로세서는,
    잡음 신호와 음성 신호를 포함하는 오디오 신호를 수신하고, 상기 수신한 오디오 신호로부터 프레임(frame)마다 특징 벡터를 추출하고, 딥 뉴럴 네트워크(Deep Neural Networks, DNNs)와 순환 뉴럴 네트워크(Recurrent Neural Networks, RNNs)가 조합된 모델을 이용하여 상기 프레임에서 추출된 특징 벡터를 처리하고, 상기 특징 벡터를 처리한 결과, 상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단하는 음성 검출 장치.
  13. 제12항에 있어서,
    상기 프로세서는,
    상기 음성 신호 또는 상기 잡음 신호에 대응하는 VAD 레이블(label)을 판단할 때,
    상기 모델의 출력으로서 상기 프레임에 음성 신호가 포함될 확률을 결정하고, 상기 확률과 미리 설정된 임계치를 비교하여 VAD 레이블을 판단하는 음성 검출 장치.
  14. 제12항에 있어서,
    상기 모델은,
    상기 복수의 딥 뉴럴 네트워크 사이에 적어도 하나의 상기 순환 뉴럴 네트워크가 배치되는 음성 검출 장치.
  15. 제12항에 있어서,
    상기 프로세서는,
    상기 판단된 VAD 레이블에 따라, 상기 프레임마다 상기 음성 신호가 존재하는 것으로 결정된 구간을 판단하는 음성 검출 장치.
  16. 제15항에 있어서,
    상기 프로세서는,
    상기 음성 신호가 존재하는 것으로 결정된 구간을 판단할 때, 상기 구간에서 잘못 판단된 VAD 레이블을 조정하는 시간적 평활화(Temporal smoothing)를 수행하는 음성 검출 장치.
  17. 제13항에 있어서,
    상기 미리 설정된 임계치는,
    상기 모델의 손실함수(loss function)로서 Cross-Entropy binary를 이용하여 결정되는 음성 검출 장치.
  18. 제13항에 있어서,
    상기 확률이 상기 임계치보다 큰 경우 상기 VAD 레이블은 1로서 상기 프레임에 상기 음성 신호가 존재하는 것을 나타내며,
    상기 확률이 상기 임계치보다 작은 경우 상기 VAD 레이블은 0로서 상기 프레임에 상기 잡음 신호가 존재하는 것을 나타내는
    음성 검출 장치.
  19. 제1항에 있어서,
    상기 프로세서는,
    상기 특징 벡터를 추출할 때, MFCC(Mel-Frequency Cepstral Coefficients) 방식을 이용하여 특징 벡터를 추출하는 음성 검출 장치.
KR1020180090783A 2018-08-03 2018-08-03 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법. KR102270954B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180090783A KR102270954B1 (ko) 2018-08-03 2018-08-03 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180090783A KR102270954B1 (ko) 2018-08-03 2018-08-03 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법.

Publications (2)

Publication Number Publication Date
KR20200015225A true KR20200015225A (ko) 2020-02-12
KR102270954B1 KR102270954B1 (ko) 2021-06-30

Family

ID=69569693

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180090783A KR102270954B1 (ko) 2018-08-03 2018-08-03 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법.

Country Status (1)

Country Link
KR (1) KR102270954B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735470A (zh) * 2020-12-28 2021-04-30 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质
CN112820287A (zh) * 2020-12-31 2021-05-18 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法
KR20220014163A (ko) * 2020-07-28 2022-02-04 주식회사 이엠텍 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160012537A (ko) * 2014-07-24 2016-02-03 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
KR20170133459A (ko) * 2015-09-24 2017-12-05 구글 엘엘씨 음성 액티비티 검출

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160012537A (ko) * 2014-07-24 2016-02-03 삼성전자주식회사 신경망 학습 방법 및 장치, 데이터 처리 장치
KR20170133459A (ko) * 2015-09-24 2017-12-05 구글 엘엘씨 음성 액티비티 검출

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
G. Jung, N. Cho, H. Kim and H. Cho, "DNN-GRU Multiple Layers for VAD in PC Game Cafe," 2018 IEEE International Conference on Consumer Electronics - Asia, pp. 206-212. (2018. 6. 24.~ 26.) 1부.* *
Khandelwal, Shubham et al. "COMPARING GRU AND LSTM FOR AUTOMATIC SPEECH RECOGNITION." (2016) 1부.* *
T. Hughes and K. Mierle, "Recurrent neural networks for voice activity detection," 2013 IEEE International Conference on Acoustics, Speech and Signal Processing, Vancouver, BC, pp.7378-7382. (2013) 1부* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220014163A (ko) * 2020-07-28 2022-02-04 주식회사 이엠텍 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치
CN112735470A (zh) * 2020-12-28 2021-04-30 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质
CN112735470B (zh) * 2020-12-28 2024-01-23 携程旅游网络技术(上海)有限公司 基于时延神经网络的音频切割方法、系统、设备及介质
CN112820287A (zh) * 2020-12-31 2021-05-18 乐鑫信息科技(上海)股份有限公司 分布式语音处理系统及方法

Also Published As

Publication number Publication date
KR102270954B1 (ko) 2021-06-30

Similar Documents

Publication Publication Date Title
JP7152514B2 (ja) 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム
Basu et al. Emotion recognition from speech using convolutional neural network with recurrent neural network architecture
Meng et al. Adversarial speaker verification
CN106251874B (zh) 一种语音门禁和安静环境监控方法及系统
US9530417B2 (en) Methods, systems, and circuits for text independent speaker recognition with automatic learning features
KR102270954B1 (ko) 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법.
Wu et al. Dilated residual networks with multi-level attention for speaker verification
CN114255766A (zh) 用于说话者验证的广义负对数似然损失
KR20200023893A (ko) 화자 인증 방법, 화자 인증을 위한 학습 방법 및 그 장치들
Droghini et al. An end-to-end unsupervised approach employing convolutional neural network autoencoders for human fall detection
CN115605946A (zh) 多通道语音检测的系统和方法
CN111755029B (zh) 语音处理方法、装置、存储介质以及电子设备
Vecchiotti et al. Convolutional neural networks with 3-d kernels for voice activity detection in a multiroom environment
Williams et al. Privacy-Preserving Occupancy Estimation
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
Narendra et al. Classification of Pitch Disguise Level with Artificial Neural Networks
Chen et al. ARASID: Artificial Reverberation-Adjusted Indoor Speaker Identification Dealing with Variable Distances.
Putra Voice Verification System Based on Bark-Frequency Cepstral Coefficient
Kanrar Impact of threshold to identify vocal tract
Hu et al. Speaker Recognition Based on 3DCNN-LSTM.
Dua et al. Speaker recognition using noise robust features and LSTM-RNN
Tahliramani et al. Performance Analysis of Speaker Identification System With and Without Spoofing Attack of Voice Conversion
Xue et al. Matlab-based intelligent voiceprint recognition system
Gadikar et al. A Survey on Speech Emotion Recognition by Using Neural Networks
Le et al. Discriminate natural versus loudspeaker emitted speech

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant