KR102095132B1 - 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치 - Google Patents

음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치 Download PDF

Info

Publication number
KR102095132B1
KR102095132B1 KR1020180150690A KR20180150690A KR102095132B1 KR 102095132 B1 KR102095132 B1 KR 102095132B1 KR 1020180150690 A KR1020180150690 A KR 1020180150690A KR 20180150690 A KR20180150690 A KR 20180150690A KR 102095132 B1 KR102095132 B1 KR 102095132B1
Authority
KR
South Korea
Prior art keywords
dnn
sound quality
voice
detection
speech
Prior art date
Application number
KR1020180150690A
Other languages
English (en)
Inventor
김회린
정영문
김영관
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180150690A priority Critical patent/KR102095132B1/ko
Priority to JP2019158891A priority patent/JP6818372B2/ja
Application granted granted Critical
Publication of KR102095132B1 publication Critical patent/KR102095132B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치가 제시된다. 본 발명에서 제안하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법은 훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 단계, 음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 단계 및 음질 개선 DNN에서 잡음제거 변분 오토인코더(Denoising Variational Autoencoder)를 이용하는 단계를 포함하고, 상기 음성 검출을 위한 통합 훈련 방법은 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행한다.

Description

음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치{Method and Apparatus for Joint Learning based on Denoising Variational Autoencoders for Voice Activity Detection}
본 발명은 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치에 관한 것이다.
프레임을 음성 또는 비 음성으로 분류하는 과정 인 음성 활동 감지(Voice Activity Detection, VAD)는 음성 코딩, 자동 음성 인식(Automatic Speech Recognition, ASR), 음성 향상(Speech Enhancement, SE), 화자 인식 및 음성 인식과 같은 많은 음성 어플리케이션에서 중요한 모듈이다.
초기의 VAD 접근법의 대부분은 시간 영역 에너지, 피치 및 제로 크로싱 속도를 포함한 원시 음향 특성을 기반으로 한다. 기존의 VAD 방법의 또 다른 유형은 음성 및 잡음 프레임의 분포를 DFT(Discrete Fourier Transform) 영역의 가우시안 분포로 모델링하고 우도 비율을 사용하여 프레임이 음성인지 아닌지를 결정하는 통계 모델 기반 접근법이다. 이후 VAD에 SVM(Support Vector Machine) 및 HMM(hidden Markov Model)과 같은 기계 학습 기반 방법을 적용한다. 최근 완전히 연결된 심층 신경 네트워크(Deep Neural Networks, DNNs), 컨볼루션 신경 네트워크(Convolutional Neural Networks, CNNs) 및 롱 숏-텀 메모리(Long Short-Term Memory, LSTM), 반복적 신경 네트워크와 같은 심층적인 학습 아키텍처가 VAD에서 엄청난 성공을 거두었으며 VAD 모델링에 널리 보급되었다.
수년에 걸친 지속적인 개발에도 불구하고, VAD는 여전히 매우 낮은 신호 대 잡음비(SNR)에 도전하고 있다. 시끄러운 환경에 대한 견고성을 향상시키기 위해 VAD에 대한 통합 훈련 방법을 사용한다. 종래기술에 따른 음성 향상과 음성 활동 탐지 DNN의 통합 훈련 접근법이 VAD에 대해 더 나은 결과를 산출 함을 확인했다.
본 발명이 이루고자 하는 기술적 과제는 두 네트워크 사이의 배치 정규화 레이어를 추가하여 내부 공변량 이동 현상을 감소시키고, 음질 개선 DNN의 파라미터 업데이트를 통해 음질 개선 DNN이 음성 검출에 도움이 되는 특징을 출력하며, VAE에 잡음제거 과정을 도입하는 DVAE를 적용하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치를 제공하는데 있다.
일 측면에 있어서, 본 발명에서 제안하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법은 훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 단계, 음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 단계 및 음질 개선 DNN에서 잡음제거 변분 오토인코더(Denoising Variational Autoencoder)를 이용하는 단계를 포함하고, 상기 음성 검출을 위한 통합 훈련 방법은 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행한다.
훈련 시 발생하는 내부 공변량 이동 현상을 감소시키기 위해 배치 정규화를 이용하는 단계는 두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시킨다.
음질 개선 DNN이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅 기법을 이용하는 단계는 음질 개선 DNN과 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 그레디언트를 이용하여 두 네트워크의 파라미터를 업데이트하며, 음질 개선 DNN의 파라미터 업데이트를 통해 음질 개선 DNN의 비용 함수뿐만 아니라 음성 검출 DNN의 비용 함수도 줄이도록 훈련을 수행하고, 이를 바탕으로 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력한다.
음질 개선 DNN에서 잡음제거 변분 오토인코더를 이용하는 단계는 인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하여, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 추정하고, 사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 결정적으로 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트한다.
또 다른 일 측면에 있어서, 본 발명에서 제안하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 장치는 훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 정규화부, 음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 가중치부 및 음질 개선 DNN에서 잡음제거 변분 오토인코더(denoising variational autoencoder)를 이용하는 부호화부를 포함하고, 상기 음성 검출을 위한 통합 훈련 방법은 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행한다.
본 발명의 실시예들에 따르면 두 네트워크 사이의 배치 정규화 레이어를 추가하여 내부 공변량 이동 현상을 감소시킬 수 있고, 음질 개선 DNN의 파라미터 업데이트를 통해 음질 개선 DNN이 음성 검출에 도움이 되는 특징을 출력하며, VAE에 디노이징 과정을 도입하는 DVAE를 적용하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치를 제안한다.
도 1은 본 발명의 일 실시예에 따른 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 SE-DVAE를 위한 잡음제거 변분 오토인코더를 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 세 가지 유형의 통합 훈련 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 장치의 구성을 나타내는 도면이다.
음성 검출(Voice Activity Detection, VAD) 은 프레임(frame) 단위의 입력 신호에 대해 해당 프레임이 음성인지 비음성인지 분류하는 과정으로 음성 인식, 음질 개선, 화자 인식 등의 다양한 음성 어플리케이션 분야의 중요한 전처리 과정으로 이용된다. 음성 검출은 낮은 신호 대 잡음 비(Signal-to-Noise Ratio, SNR) 환경에서 낮은 성능을 보인다. 이러한 문제를 해결하기 위하여 본 발명에서는 음성 검출을 위한 통합 훈련 방법을 제안한다. 이하, 본 발명의 실시 예를 첨부된 도면을 참조하여 상세하게 설명한다.
VAE(Variational Autoencoder)는 변분 추론의 접근법과 심층 학습법을 결합한 잠재 변수 생성 모델이다. 여기서 관측된 변수 x에 대한 잠재 변수 생성 모델
Figure 112018119461184-pat00001
(디코더라고도 함)은 매개 변수
Figure 112018119461184-pat00002
를 갖는 심층 신경 네트워크에 의해 매개 변수화된다. 추론 모델
Figure 112018119461184-pat00003
(인코더라고도 함)는 매개 변수
Figure 112018119461184-pat00004
를 갖는 두 번째 심층 신경망에 의해 매개 변수화된다. 잠재 변수 z는 데이터 x의 압축 정보를 임베딩하도록 정의되며, 인코더는 데이터 공간을 대응하는 잠재 공간에 맵핑한다. 디코더는 잠재적 공간의 샘플 지점으로부터 데이터를 재구성한다. 매개 변수
Figure 112018119461184-pat00005
Figure 112018119461184-pat00006
는 수학식(1)과 같이 로그 한계 우도의 변분 하한
Figure 112018119461184-pat00007
을 최대화함으로써 통합 훈련된다.
Figure 112018119461184-pat00008
(1)
본 발명의 VAE 프레임 워크에서, 인코더와 디코더는 대각선 가우시안 분포를 사용하여 파라미터화된다. 이러한 가우시안 분포는 각각 다음과 같다:
Figure 112018119461184-pat00009
Figure 112018119461184-pat00010
. 사전 확률(prior)은 자유 매개 변수가 없는 등방성 가우스 분포
Figure 112018119461184-pat00011
로 가정한다.
표본 추출 후 차별화 가능한 네트워크를 산출하기 위해, 확률 변수
Figure 112018119461184-pat00012
가 결정 변수
Figure 112018119461184-pat00013
로 재매개화(reparametrization) 되는 재매개화 트릭(reparametrization trick)을 사용한다. 여기서,
Figure 112018119461184-pat00014
는 엘리먼트-단위의 곱을 나타내고 (보조) 잡음 변수
Figure 112018119461184-pat00015
Figure 112018119461184-pat00016
으로 샘플링된다. 이 방법으로 잠재 변수를 모델링하면 수학식(1)의 KL 분산이 분석적으로 통합되어 다음과 같이 나타낼 수 있다.
Figure 112018119461184-pat00017
(2)
여기서
Figure 112018119461184-pat00018
Figure 112018119461184-pat00019
는 각각 z와 x의 차원이며
Figure 112018119461184-pat00020
는 벡터 x의
Figure 112018119461184-pat00021
번째 엘리먼트이다.
Figure 112018119461184-pat00022
Figure 112018119461184-pat00023
는 벡터
Figure 112018119461184-pat00024
Figure 112018119461184-pat00025
Figure 112018119461184-pat00026
번째 엘리먼트를 나타낸다. 마찬가지로,
Figure 112018119461184-pat00027
Figure 112018119461184-pat00028
는 벡터
Figure 112018119461184-pat00029
Figure 112018119461184-pat00030
Figure 112018119461184-pat00031
번째 요소를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법을 설명하기 위한 흐름도이다.
음질 개선(speech enhancement) DNN(Deep Neural Network)과 음성 검출 DNN의 통합 훈련 방법에 있어서, 우선 음질 개선 DNN을 이용하여 잡음이 섞인 음성의 특징(feature)을 깨끗한 음성의 특징으로 변환하고, 음성 검출 DNN은 개선된 음성 특징을 이용하여 음성 검출을 수행한다. 이러한 방식은 종래기술에서 음성 검출에 있어 통합 훈련 방법을 이용하는 것이 그렇지 않은 것보다 더 좋은 성능을 보인다는 것을 확인했다. 본 발명에서는 통합 훈련 방법을 세 가지 측면에서 발전시켰다.
제안하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법은 훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 단계(110), 음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 단계(120) 및 음질 개선 DNN에서 잡음제거 변분 오토인코더(denoising variational autoencoder)를 이용하는 단계(130)를 포함한다. 제안하는 음성 검출을 위한 통합 훈련 방법은 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행한다.
단계(110)에서, 훈련 시 발생하는 내부 공변량 이동 현상을 감소시키기 위해 배치 정규화를 이용한다. 두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시킨다.
본 발명의 실시예에 따른 배치 정규화는 음질 개선과 음성 인식의 통합 훈련 방법에 있어서, 두 네트워크 사이의 배치 정규화 레이어를 추가함으로써 내부 공변량 이동(internal covariate shift) 현상을 감소시켜 훈련을 더욱 용이하게 한다. 두 네트워크를 결합하여 통합 훈련을 수행하면 음질 개선 DNN의 출력 분포, 다시 말해 음성 검출 DNN의 입력 분포가 계속해서 바뀌게 된다. 이러한 현상을 내부 공변량 이동 현상이라고 하며 이로 인해 전체 네트워크의 훈련이 어려워진다. 음성 검출 DNN이 비정상적(non-stationary) 이며 정규화되지 않은(unnormalized) 입력 분포를 다뤄야 하기 때문이다. 따라서 본 발명의 실시예에 따른 배치 정규화를 통해 이러한 내부 공변량 이동 현상을 감소시킬 수 있다.
단계(120)에서, 음질 개선 DNN이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅 기법을 이용한다. 음질 개선 DNN과 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 그레디언트를 이용하여 두 네트워크의 파라미터를 업데이트한다. 음질 개선 DNN의 파라미터 업데이트를 통해 음성 검출 DNN의 비용 함수를 줄이도록 훈련을 수행하고, 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력한다.
단계(120)에서는 우선 음질 개선 DNN과 음성 검출 DNN의 비용 함수(loss function)를 계산하고, 역전파(backpropagation) 방식을 이용하여 각 비용 함수에 대한 그레디언트(gradient) 를 구한다. 이후, 계산된 그레디언트를 이용하여 두 네트워크의 파라미터를 업데이트한다.
그레이언트를 구하는 단계에서 음성 검출 그레디언트는 음성 검출 DNN 뿐만 아니라 음질 개선 DNN까지 역전파가 된다. 따라서 음질 개선 DNN의 파라미터 업데이트는 음질 개선 비용 함수뿐만 아니라 음성 검출 비용 함수에도 영향을 받는다.
음질 개선 DNN의 파라미터 업데이트를 통해 음질 개선 DNN은 음성 검출 DNN의 비용 함수를 줄이기 위하여 훈련이 이루어지며, 따라서 음질 개선 DNN이 음성 검출에 도움이 되는 특징을 출력할 수 있게 된다.
단계(130)에서, 음질 개선 DNN에서 잡음제거 변분 오토인코더를 이용한다. 인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하여, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 추정한다. 그리고, 사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 결정적으로 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트한다.
VAE(Variational Autoencoder) 는 잠재 변수 생성 모델(Latent Variable Generative Model)로서, 딥러닝과 변분 추론(Variational Inference)를 결합한 것이다. VAE는 크게 인코더(encoder) 와 디코더(decoder)로 이루어지며, 인코더는 파라미터
Figure 112018119461184-pat00032
를 갖는 DNN을 통해 잠재 변수 z에 대한 확률 분포
Figure 112018119461184-pat00033
를 모델링한다. 디코더는 파라미터
Figure 112018119461184-pat00034
를 갖는 DNN을 통해 관측 변수 x에 대한 확률 분포
Figure 112018119461184-pat00035
를 모델링한다. 관측 변수 x의 로그 주변 가능도(log marginal likelihood)의 변분 하한(variational lower bound)인
Figure 112018119461184-pat00036
를 수학식(1)과 같이 유도할 수 있다.
본 발명에서는 인코더 확률 분포
Figure 112018119461184-pat00037
와 디코더 확률 분포
Figure 112018119461184-pat00038
를 모두 대각 가우시안 분포(diagonal Gaussian distribution)로 가정하였으며, 인코더 DNN과 디코더 DNN은 각각 대응되는 확률 분포의 평균 및 로그 분산을 추정한다. 사전 확률(prior)은 등방 가우시안 분포(isotropic Gaussian distribution)로 가정한다. 인코더 확률 분포와 디코더 확률 분포로부터 각각 잠재변수 z와 관측 변수 x를 샘플링하면 전체 네트워크가 미분 불가능해지므로, 재매개화 트릭(reparametrization trick)을 도입하여 z와 x를 결정적(deterministic)으로 구한다. 수학식(2)와 같이 변분 하한을 정리할 수 있으며, 이를 최대화하는 방향으로 네트워크 파라미터인
Figure 112018119461184-pat00039
Figure 112018119461184-pat00040
Figure 112018119461184-pat00041
를 업데이트한다.
본 발명의 음질 개선 DNN에서는 VAE에 디노이징(denoising) 과정을 도입하는 DVAE(denoising variational autoencoder)를 적용한다. DVAE의 훈련 과정은 VAE의 훈련 과정과 거의 동일하며, 차이점으로는 입력이 잡음이 섞인 음성이고, 출력이 깨끗한 음성이라는 점이다. VAE와 AE(autoencoder)를 이용하여 필터 뱅크 특징(filter-bank feature)을 복원(reconstruction)하는 실험에서, VAE가 AE에 비하여 복원 능력이 뛰어나다는 것이 확인되었으며, 이러한 사실에 착안하여 음질 개선 DNN에 DVAE를 적용하였다.
도 2는 본 발명의 일 실시예에 따른 SE-DVAE를 위한 잡음제거 변분 오토인코더를 설명하기 위한 도면이다.
음성 향상 DVAE(SE-DVAE)의 구조를 도 2에 나타내었다. 인코더는 입력으로 잡음이 있는 음성 특징
Figure 112018119461184-pat00042
을 취하고 사후 분포
Figure 112018119461184-pat00043
를 매개 변수로 하는 로그 분산 로그
Figure 112018119461184-pat00044
와 64 차원 평균
Figure 112018119461184-pat00045
를 예측한다. 디코더는 샘플링 된 z를 입력으로 취해 조건부 우도
Figure 112018119461184-pat00046
를 매개 변수로 하는 평균
Figure 112018119461184-pat00047
및 로그 분산 로그
Figure 112018119461184-pat00048
를 예측한다. z의 경우에서와 같이, 향상된 특성
Figure 112018119461184-pat00049
는 재 매개 변수화 트릭을 사용하여
Figure 112018119461184-pat00050
로서 재매개화된다.
인코더 및 디코더 DNN은 모두 2048 개의 두 개의 숨겨진 레이어로 구성된다. 모든 숨겨진 레이어는 ReLU 활성화 함수를 사용하며 활성화 함수는 가우시안 파라미터 레이어에 적용되지 않는다. DVAE의 안정적인 최적화를 보장하기 위해
Figure 112018119461184-pat00051
값에 대한 제약 조건을 특정 임계 값
Figure 112018119461184-pat00052
보다 크게 설정한다. 이것은 식 (2)의
Figure 112018119461184-pat00053
가 0에 가까우면, DVAE 손실(네거티브 변분 하한 범위)은 무한대에 가깝게 되어 네트워크 훈련이 이루어지지 않기 때문이다. 본 발명의 실시예에 따르면,
Figure 112018119461184-pat00054
에 대한 활성화
Figure 112018119461184-pat00055
를 갖는 이동된 ReLU를 사용함으로써 이 문제를 해결한다.
Figure 112018119461184-pat00056
을 -9로 설정하면
Figure 112018119461184-pat00057
가 10-4보다 크거나 같다. SE-DVAE에는 입력으로 21 개의 잡음이 섞인 프레임 단위의 특징이 제공되고 이에 대응되는 21 개의 개선된 프레임 단위의 특징이 예측된다.
배치 정규화(BN) 및 드롭 아웃은 가우시안 매개 변수 레이어를 제외한 모든 숨겨진 레이어에서 사용된다. 앞서 설명한 바와 같이 BN이 통합 훈련에 큰 영향을 미치는 것으로 알려져 있다. 통합 훈련 시, SE 네트워크의 출력 분포(즉, VAD 네트워크의 입력 분포)는 트레이닝 프로세스 동안 크게 변화하므로, VAD 모듈은 비정규적이고 비정규화된 입력 분포를 처리해야 한다. 내부 공변량 이동이라고하는 이러한 문제로 인해 전체 네트워크를 훈련하기 어렵다. BN를 이용하여 두 모듈 사이의 경계에서 내부 공변량 이동을 줄이고 사전 훈련 없이 전체 네트워크를 효율적으로 훈련할 수 있다.
도 3은 본 발명의 일 실시예에 따른 세 가지 유형의 통합 훈련 방법을 설명하기 위한 도면이다.
DVAE를 이용한 통합 훈련 방법으로 크게 세 가지 방식을 제안하였으며, 각각 도 3의 (a) JL-DVAE-1 방식, (b) JL-DVAE-2 방식 및 (c) JL-DVAE-3 방식이다. JL-DVAE-1 방식은 음질 개선 네트워크 출력인 개선된 특징이 직접적으로 음성 검출 DNN의 입력으로 들어가는 것이다. JL-DVAE-2 방식은 잠재 변수 z가 음성 검출 DNN의 입력으로 들어가는 것이고, JL-DVAE-3은 개선된 특징과 잠재 변수가 동시에 음성 검출 DNN의 입력으로 들어가는 것이다. 실험을 통해 JL-DVAE-3 방식이 가장 우수하다는 것을 보였다.
통합 DNN은 SE-DVAE와 VAD-DNN을 연결하여 만들어진다. 본 발명에서는 도 3(a), 도 3(b), 도 3(c)와 같은 세 가지 종류의 통합 훈련 방법을 제안한다. SE-DVAE의 입력은 컨텍스트 윈도우로 둘러싸인 잡음 특징이다. 상응하는 잡음이 제거된 특징 x를 재구성하기 위해, SE-DVAE는 잡음이 섞인 음성의 특징(
Figure 112018119461184-pat00058
)과 그에 상응하는 깨끗한 음성의 특징(x)에 대해 훈련되어 SE 비용 함수를 최소화한다. VAD-DNN은 SE-DVAE 로부터 향상된 특징(도 3(a)에 표시), 잠재적 코드 z(도 3(b)에 표시) 또는 두 가지 모두(도 3(c)에 표시)를 입력으로 받는다. 이후, VAD-DNN은 프레임 이진 음성/비 음성 예측인 ypred로 추정하고 교차 엔트로피 기준을 최소화하도록 훈련된다. 입력은 VAD-DNN에 공급하기 전에 일괄 정규화된다. VAD-DNN에는 2 개의 숨겨진 레이어가 있으며 각 레이어에는 ReLU가 활성화된 2048 개의 유닛이 있다. SE-DVAE와 마찬가지로 BN과 드롭 아웃을 모든 숨겨진 레이어에 적용한다. 통합 훈련 절차는 다음과 같이 요약 할 수 있다.
1. SEDVAE 및 VAD-DNN의 출력에서 손실 함수를 계산한다.
2. 역전파를 사용하여 비용 그래디언트를 계산한다.
3. SE-DVAE 및 VADDNN의 매개 변수를 업데이트한다.
단계 2에서 VAD 그래디언트도 SE-DVAE를 통해 역전파된다. 그러므로 SEDVAE의 파라미터 업데이트는 SE 비용 함수뿐만 아니라 VAD 비용 함수에도 의존한다.
Figure 112018119461184-pat00059
(3)
수학식 (3)에서
Figure 112018119461184-pat00060
는 SE-DVAE의 파라미터이고,
Figure 112018119461184-pat00061
Figure 112018119461184-pat00062
에 대한 SE 비용 그레디언트이며,
Figure 112018119461184-pat00063
Figure 112018119461184-pat00064
에 대한 VAD 비용 그레디언트이다. 마지막으로
Figure 112018119461184-pat00065
Figure 112018119461184-pat00066
에 가중치를 주는 하이퍼 매개 변수이며
Figure 112018119461184-pat00067
Figure 112018119461184-pat00068
에 대한 학습률이다. 개선 프로세스가 부분적으로 VAD 비용 함수에 의해 안내되기 때문에, 프론트엔드는 후속 VAD 작업에보다 적합하고 차별화된 향상된 특징을 제공할 수 있을 것이다. VADDNN의 매개 변수 업데이트는 아래에 표시된 VAD 비용 함수에만 의존한다.
Figure 112018119461184-pat00069
(4)
수학식 (4)에서
Figure 112018119461184-pat00070
는 VAD-DNN의 매개 변수이며,
Figure 112018119461184-pat00071
Figure 112018119461184-pat00072
에 대한 VAD 비용 그레디언트이며,
Figure 112018119461184-pat00073
Figure 112018119461184-pat00074
에 대한 학습률이다. 수학식(4)에서
Figure 112018119461184-pat00075
는 수학식(3)에서
Figure 112018119461184-pat00076
와 다르다.
도 4는 본 발명의 일 실시예에 따른 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 장치의 구성을 나타내는 도면이다.
제안하는 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 장치는 정규화부(410), 가중치부(420), 부호화부(430)를 포함한다.
정규화부(410)는 훈련 시 발생하는 내부 공변량 이동 현상을 감소시키기 위해 배치 정규화를 이용한다. 두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시킨다.
본 발명의 실시예에 따른 배치 정규화는 음질 개선과 음성 인식의 통합 훈련 방법에 있어서, 두 네트워크 사이의 배치 정규화 레이어를 추가함으로써 내부 공변량 이동(internal covariate shift) 현상을 감소시켜 훈련을 더욱 용이하게 한다. 두 네트워크를 결합하여 통합 훈련을 수행하면 음질 개선 DNN의 출력 분포, 다시 말해 음성 검출 DNN의 입력 분포가 계속해서 바뀌게 된다. 이러한 현상을 내부 공변량 이동 현상이라고 하며 이로 인해 전체 네트워크의 훈련이 어려워진다. 음성 검출 DNN이 비정상적(non-stationary) 이며 정규화 되지 않은(unnormalized) 입력 분포를 다뤄야 하기 때문이다. 따라서 본 발명의 실시예에 따른 배치 정규화를 통해 이러한 내부 공변량 이동 현상을 감소시킬 수 있다.
가중치부(420)는 음질 개선 DNN이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅 기법을 이용한다. 음질 개선 DNN과 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 그레디언트를 이용하여 두 네트워크의 파라미터를 업데이트한다. 음질 개선 DNN의 파라미터 업데이트를 통해 음성 검출 DNN의 비용 함수를 줄이도록 훈련을 수행하고, 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력한다.
가중치부(420)는 우선 음질 개선 DNN과 음성 검출 DNN의 비용 함수(loss function)를 계산하고, 역전파(backpropagation) 방식을 이용하여 각 비용 함수에 대한 그레디언트(gradient) 를 구한다. 이후, 계산된 그레디언트를 이용하여 두 네트워크의 파라미터를 업데이트한다.
그레이언트를 구하는 단계에서 음성 검출 그레디언트는 음성 검출 DNN 뿐만 아니라 음질 개선 DNN까지 역전파가 된다. 따라서 음질 개선 DNN의 파라미터 업데이트는 음질 개선 비용 함수뿐만 아니라 음성 검출 비용 함수에도 영향을 받는다.
음질 개선 DNN의 파라미터 업데이트를 통해 음질 개선 DNN은 음성 검출 DNN의 비용 함수를 줄이기 위하여 훈련이 이루어지며, 따라서 음질 개선 DNN이 음성 검출에 도움이 되는 특징을 출력할 수 있게 된다.
부호화부(430)는 음질 개선 DNN에서 잡음제거 변분 오토인코더를 이용한다. 인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하여, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 추정한다. 그리고, 사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 결정적으로 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트한다.
본 발명에서는 기존의 통합 훈련 방법을 세 가지 방법으로 확장한다. 첫째, 훈련 중 내부 공변량 변분을 줄이기 위해 배치 정규화를 사용한다. 배치 정규화가 음성 인식 작업에서의 통합 훈련 접근법에 대한 내부 공변량 변분을 감소 시키는데 효과적이라는 것이 이미 증명되었다. 이것은 VAD 작업에서도 마찬가지이다. 둘째, SE 네트워크의 파라미터 갱신은 SE 비용 함수뿐만 아니라 VAD 비용 함수에도 의존한다. 이 때문에 프론트 엔드는 후속 VAD 작업에 보다 적합한 향상된 특징을 제공 할 수 있다. 마지막으로 음성 향상을 위해 DVAE(denoising variational autoencoder)를 적용한다. DVAE는 잡음이 있는 특징을 잠복 코드에 매핑 한 다음 잠복 코드를 복호화하여 깨끗한 기능을 재구성한다. 본 발명의 실시예에 따르면 VAD 네트워크에 향상된 기능뿐만 아니라 잠재적 코드도 제공한다. 실험 결과는 제안된 방법이 기존의 통합 훈련 기반 방법보다 우월하다는 것을 보여준다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 어플리케이션을 수행할 수 있다.  또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다.  이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다.  예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다.  또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.  소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다.  소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다.  상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.  상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.  컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.  프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다.  예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (10)

  1. 음성 검출을 위한 통합 훈련 방법에 있어서,
    훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 단계;
    음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 단계; 및
    음질 개선 DNN에서 잡음제거 변분 오토인코더(denoising variational autoencoder)를 이용하는 단계
    를 포함하고,
    상기 음성 검출을 위한 통합 훈련 방법은 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행하고,
    음질 개선 DNN이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅 기법을 이용하는 단계는,
    음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수 각각에 대한 두 개의 그레디언트를 모두 이용하여 두 네트워크의 파라미터를 업데이트하고,
    음질 개선 DNN에서 잡음제거 변분 오토인코더를 이용하는 단계는,
    인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하고, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 예측하기 위하여,
    잡음제거 변분 오토인코더의 인코더는 잡음이 있는 음성 특징을 입력으로 이용하여 사후 분포를 매개 변수로 하는 로그 분산 로그와 평균을 예측하고, 잡음제거 변분 오토인코더의 디코더는 인코더의 출력을 샘플링한 값을 입력으로 이용하여 조건부 우도를 매개 변수로 하는 평균 및 로그 분산 로그를 예측하며,
    사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트하는
    음성 검출을 위한 통합 훈련 방법.
  2. 제1항에 있어서,
    훈련 시 발생하는 내부 공변량 이동 현상을 감소시키기 위해 배치 정규화를 이용하는 단계는,
    두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시키는
    음성 검출을 위한 통합 훈련 방법.
  3. 삭제
  4. 제1항에 있어서,
    음질 개선 DNN의 파라미터 업데이트를 통해 음성 검출 DNN의 비용 함수를 줄이도록 훈련을 수행하고, 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력하는
    음성 검출을 위한 통합 훈련 방법.
  5. 삭제
  6. 음성 검출을 위한 통합 훈련 장치에 있어서,
    훈련 시 발생하는 내부 공변량 이동(internal covariate shift) 현상을 감소시키기 위해 배치 정규화(batch normalization)를 이용하는 정규화부;
    음질 개선 DNN(Deep neural network)이 음성 검출에 필요한 음성 특징을 출력하도록 그레디언트 웨이팅(gradient weighting) 기법을 이용하는 가중치부; 및
    음질 개선 DNN에서 잡음제거 변분 오토인코더(denoising variational autoencoder)를 이용하는 부호화부
    를 포함하고,
    상기 음성 검출을 위한 통합 훈련 장치는 음질 개선 DNN을 통해 음성 특징에서 잡음을 제거하도록 음성 특징을 변환하고, 잡음이 제거된 음성 특징을 이용하여 음성 검출 DNN을 통해 음성 검출을 수행하고,
    가중치부는,
    음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수를 계산하고, 역전파 방식을 이용하여 각 비용 함수에 대한 그레디언트를 구한 후, 계산된 음질 개선 DNN의 비용 함수와 음성 검출 DNN의 비용 함수 각각에 대한 두 개의 그레디언트를 모두 이용하여 두 네트워크의 파라미터를 업데이트하고,
    부호화부는,
    인코더 확률 분포와 디코더 확률 분포를 모두 대각 가우시안 분포로 가정하고, 인코더 DNN과 디코더 DNN를 통해 각각 대응되는 확률 분포의 평균 및 로그 분산을 예측하기 위하여,
    잡음제거 변분 오토인코더의 인코더는 잡음이 있는 음성 특징을 입력으로 이용하여 사후 분포를 매개 변수로 하는 로그 분산 로그와 평균을 예측하고, 잡음제거 변분 오토인코더의 디코더는 인코더의 출력을 샘플링한 값을 입력으로 이용하여 조건부 우도를 매개 변수로 하는 평균 및 로그 분산 로그를 예측하며,
    사전 확률을 등방 가우시안 분포로 가정하여, 인코더 확률 분포와 디코더 확률 분포로부터 잠재변수와 관측 변수를 구하여, 변분 하한을 최대화하도록 네트워크 파라미터를 업데이트하는
    음성 검출을 위한 통합 훈련 장치.
  7. 제6항에 있어서,
    정규화부는,
    두 네트워크를 결합하여 통합 훈련을 수행하는 경우 발생하는 음질 개선 DNN의 출력 분포의 변분을 감소시키기 위해 두 네트워크 사이에 배치 정규화 레이어를 추가하여 비정규적인 입력 분포를 처리함으로써 내부 공변량 이동 현상을 감소시키는
    음성 검출을 위한 통합 훈련 장치.
  8. 삭제
  9. 제6항에 있어서,
    음질 개선 DNN의 파라미터 업데이트를 통해 음성 검출 DNN의 비용 함수를 줄이도록 훈련을 수행하고, 음질 개선 DNN을 통한 음성 검출에 필요한 특징을 출력하는
    음성 검출을 위한 통합 훈련 장치.
  10. 삭제
KR1020180150690A 2018-11-29 2018-11-29 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치 KR102095132B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180150690A KR102095132B1 (ko) 2018-11-29 2018-11-29 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치
JP2019158891A JP6818372B2 (ja) 2018-11-29 2019-08-30 音声検出のための雑音除去変分オートエンコーダ基盤の統合トレーニング方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180150690A KR102095132B1 (ko) 2018-11-29 2018-11-29 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치

Publications (1)

Publication Number Publication Date
KR102095132B1 true KR102095132B1 (ko) 2020-03-30

Family

ID=70003251

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180150690A KR102095132B1 (ko) 2018-11-29 2018-11-29 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치

Country Status (2)

Country Link
JP (1) JP6818372B2 (ko)
KR (1) KR102095132B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077810A (zh) * 2021-03-19 2021-07-06 杨予诺 一种基于β-VAE算法的声源分离方法
KR102358151B1 (ko) * 2021-06-11 2022-02-08 주식회사 위스타 컨볼루션 순환신경망을 이용한 잡음 제거 방법
CN115588436A (zh) * 2022-09-29 2023-01-10 沈阳新松机器人自动化股份有限公司 基于变分自编码器生成对抗网络的语音增强方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345423B (zh) * 2021-06-24 2024-02-13 中国科学技术大学 语音端点检测方法、装置、电子设备和存储介质
CN116499607B (zh) * 2023-06-27 2023-09-08 之江实验室 一种光纤传感信号降噪方法、装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170008748A (ko) * 2014-05-12 2017-01-24 퀄컴 인코포레이티드 공통 피처들에 대한 커스텀화된 분류자
US20180144242A1 (en) * 2016-11-23 2018-05-24 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
JP2018152004A (ja) * 2017-03-15 2018-09-27 富士ゼロックス株式会社 情報処理装置及びプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101640188B1 (ko) * 2014-12-17 2016-07-15 서울대학교산학협력단 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치
US10229700B2 (en) * 2015-09-24 2019-03-12 Google Llc Voice activity detection
WO2018071389A1 (en) * 2016-10-10 2018-04-19 Google Llc Very deep convolutional neural networks for end-to-end speech recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170008748A (ko) * 2014-05-12 2017-01-24 퀄컴 인코포레이티드 공통 피처들에 대한 커스텀화된 분류자
US20180144242A1 (en) * 2016-11-23 2018-05-24 Microsoft Technology Licensing, Llc Mirror deep neural networks that regularize to linear networks
JP2018152004A (ja) * 2017-03-15 2018-09-27 富士ゼロックス株式会社 情報処理装置及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113077810A (zh) * 2021-03-19 2021-07-06 杨予诺 一种基于β-VAE算法的声源分离方法
KR102358151B1 (ko) * 2021-06-11 2022-02-08 주식회사 위스타 컨볼루션 순환신경망을 이용한 잡음 제거 방법
CN115588436A (zh) * 2022-09-29 2023-01-10 沈阳新松机器人自动化股份有限公司 基于变分自编码器生成对抗网络的语音增强方法

Also Published As

Publication number Publication date
JP2020086434A (ja) 2020-06-04
JP6818372B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
KR102095132B1 (ko) 음성 검출을 위한 잡음제거 변분 오토인코더 기반의 통합 훈련 방법 및 장치
Drude et al. NARA-WPE: A Python package for weighted prediction error dereverberation in Numpy and Tensorflow for online and offline processing
Chang et al. Temporal modeling using dilated convolution and gating for voice-activity-detection
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
CN107077860B (zh) 用于将有噪音频信号转换为增强音频信号的方法
Welker et al. Speech enhancement with score-based generative models in the complex STFT domain
Martin Speech enhancement based on minimum mean-square error estimation and supergaussian priors
US20170076719A1 (en) Apparatus and method for generating acoustic model, and apparatus and method for speech recognition
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
Droppo et al. Noise robust speech recognition with a switching linear dynamic model
US11521622B2 (en) System and method for efficient processing of universal background models for speaker recognition
Veisi et al. Hidden-Markov-model-based voice activity detector with high speech detection rate for speech enhancement
US11694677B2 (en) Decoding method and apparatus in artificial neural network for speech recognition
KR20200119414A (ko) 음향 이벤트 별로 특성을 고려한 음향 이벤트 검출 방법 및 장치
Vafeiadis et al. Two-dimensional convolutional recurrent neural networks for speech activity detection
Saleem et al. A review of supervised learning algorithms for single channel speech enhancement
KR102410850B1 (ko) 잔향 제거 오토 인코더를 이용한 잔향 환경 임베딩 추출 방법 및 장치
KR20220018271A (ko) 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
Gabrea Robust adaptive Kalman filtering-based speech enhancement algorithm
Nicolson et al. Sum-product networks for robust automatic speaker identification
JP2021526669A (ja) 音声特徴量抽出装置、音声特徴量抽出方法、及びプログラム
JP7231181B2 (ja) 耐雑音音声認識装置及び方法、並びにコンピュータプログラム
Windmann et al. Approaches to iterative speech feature enhancement and recognition
Pardede et al. Spectral subtraction based on non-extensive statistics for speech recognition

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant