KR20210036692A - 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 - Google Patents

적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 Download PDF

Info

Publication number
KR20210036692A
KR20210036692A KR1020190119037A KR20190119037A KR20210036692A KR 20210036692 A KR20210036692 A KR 20210036692A KR 1020190119037 A KR1020190119037 A KR 1020190119037A KR 20190119037 A KR20190119037 A KR 20190119037A KR 20210036692 A KR20210036692 A KR 20210036692A
Authority
KR
South Korea
Prior art keywords
latent variable
feature vector
speech
neural network
artificial neural
Prior art date
Application number
KR1020190119037A
Other languages
English (en)
Other versions
KR102275656B1 (ko
Inventor
김남수
배수현
최인규
김형용
김석민
나선필
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020190119037A priority Critical patent/KR102275656B1/ko
Publication of KR20210036692A publication Critical patent/KR20210036692A/ko
Application granted granted Critical
Publication of KR102275656B1 publication Critical patent/KR102275656B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Machine Translation (AREA)

Abstract

적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법이 개시된다. 음성 향상 훈련 방법은 잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계, 추출된 특징 벡터를 제1 인공 신경망의 입력으로하여 잠재 변수를 추출하는 단계, 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계, 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계 및, 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계를 포함한다.

Description

적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 {METHOD AND APPARATUS FOR ROBUST SPEECH ENHANCEMENT TRAINING USING ADVERSARIAL TRAINING}
본 발명은 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치에 관한 것으로, 보다 상세하게는 잡음이 섞인 음성에서 잡음을 제거하여 음성의 품질을 향상시킬 수 있는 강인한 음성 향상 훈련 방법 및 장치에 관한 것이다.
음성 향상 기술은 잡음이 섞인 음성에서 깨끗한 음성을 추정하는 기술로, 음성통신 분야에서는 음성의 명료도 향상에 도움을 주고, 음성 인식 등에서는 전처리 기술로 이용하는 등 다양한 음성 관련 어플리케이션에 활용될 수 있는 중요한 기술이다.
초기 연구에서는 비음성 구간(노이즈만 있는 구간)에서 노이즈를 추정하여 그 정보를 바탕으로 노이즈를 제거하는 통계적 방법이 많이 사용되었다. 그러나, 이러한 기술은 노이즈가 시간에 따라 변하거나(non-stationary) 심하게 섞인 환경(low signal to ratio(SNR))에서는 성능이 저하되는 경향이 있었다.
최근에는 딥 러닝(deep learning)의 발달로 인해 음성 향상 기술 분야에서도 다양한 딥 러닝 기법이 적용되고 있다. 딥 러닝 기반의 음성향상에서는 잡음이 섞인 음성을 인풋으로 하고, 잡음이 섞이기 전 깨끗한 음성을 타겟으로 하여 모델을 훈련시키는데, 이는 전형적인 회귀(regression) 모델의 학습이라고 할 수 있다.
즉, 기존의 딥 러닝 음성 향상 기법은 잡음이 섞인 음성을 입력으로 하고, 그에 매칭되는 깨끗한 음성을 추정하는 모델의 설계에만 관심을 집중하고, 딥 러닝 모델 중간의 은닉층(hidden layer)에서 입력이 어떻게 학습되는지에 대하여는 연구가 진행되지 않았다.
본 발명에서는 음성 향상을 효과적으로 수행하기 위하여 적대적 학습(adversatial training) 모델을 이용한 음성 향상 훈련 방법 및 그 장치를 제공하는데에 있다.
본 발명의 일 실시 예에 따른, 적대적 학습 모델을 이용한 강인한 음성 향상 훈련 방법은 잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계, 상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계, 상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계, 상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계 및, 상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계를 포함한다.
이때, 상기 적대적 학습은 상기 제3 인공 신경망에서의 역전파(back-propagation) 시, 상기 그레이디언트 반전 레이어(gradient reversal layer)를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 상기 추출된 잠재 변수에서 잡음 특성이 제거되도록 학습할 수 있다.
또한, 상기 제1 동작은 상기 추출된 잠재변수를 디코딩하여 원음을 추정하고, 상기 음성 특징 벡터로부터, 상기 추정된 원음의 매그니튜드 스펙트럼(magnitude spectrum)을 출력할 수 있다.
본 발명의 일 실시 예에 따른, 적대적 학습(adversarial training) 모델을 이용한 음성 향상 훈련 장치는 잡음이 섞인 음성으로부터 특징 벡터를 추출하는 특징 벡터 추출부, 상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 인코더, 상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 디코더, 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 잡음잠재변수 제거부 및, 복원 음성을 생성하는 음성복원부를 포함하고, 상기 디코더 및 잡음잠재변수 제거부는 서로 적대적 학습을 수행하여 잡음 성분이 제거된 잠재 변수를 출력하고, 상기 음성복원부는 상기 출력된 잠재 변수에 기초하여 복원된 상기 복원 음성을 생성할 수 있다.
이때, 상기 적대적 학습은 상기 제3 인공 신경망에서의 역전파(back-propagation) 시, 상기 그레이디언트 반전 레이어를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 상기 추출된 잠재 변수에서 잡음 특성이 제거되도록 학습할 수 있다.
또한, 상기 제1 동작은 상기 추출된 잠재변수를 디코딩하여 원음을 추정하고, 상기 음성 특징 벡터로부터, 상기 추정된 원음의 매그니튜드 스펙트럼(magnitude spectrum)을 출력할 수 있다.
본 발명의 일 실시 예에 따른, 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계, 상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계, 상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계, 상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계 및 상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계를 포함하는 음성 향상 훈련 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
본 발명의 일 실시 예에 따른, 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면, 잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계, 상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계, 상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계, 상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계, 및 상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계를 포함하는 음성 향상 훈련 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
기존의 기존의 음성 향상 모델에서 제시되지 않았던 딥 러닝 모델의 중간 은닉층에서의 잡음 음성의 잠재변수에 직접 접근함으로써, 잡음의 특징을 제거하고 원음의 특징만을 남길 수 있으므로 음성 향상 성능을 현저히 높일 수 있다.
도 1은 본 발명의 일 실시 예에 따른 음성 향상 훈련 방법의 과정을 간략히 설명하기 위한 흐름도,
도 2는 본 발명의 일 실시 예에 따른 음성 향상 훈련 장치의 구성을 간략히 나타낸 블록도이다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어일 수 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조 번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명하도록 한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성 요소를 모두 도시하고 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 '제1', '제2' 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성 요소들을 서로 구별하기 위하여 사용하는 것이며, 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안될 것이다. 일 예로, 이러한 서수와 결합된 구성 요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한 해석되어서는 안된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다름을 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, '포함하다' 또는 '구성하다' 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명을 더욱 구체적으로 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 음성 향상 훈련 방법의 과정을 간략히 설명하기 위한 흐름도이다.
적대적 학습 모델을 이용한 강인한 음성 향상 훈련 방법에 있어서, 도 1을 참조하면, 먼저 잡음이 섞인 음성(이하, 잡음 음성)으로부터 특징 벡터를 추출한다(S110).
구체적으로는, 입력된 잡음 음성을 시간 단위의 프레임 신호로 분할하고, 분할된 각각의 프레임 신호를 주파수 도메인의 신호로 변환하여 음성 특징 벡터인 매그니튜드 스펙트럼(magnitude spectrum)을 획득할 수 있다.
예를 들어, 잡음 음성은 16~32ms 단위의 프레임 신호로 분할될 수 있다.
예를 들어, 획득한 매그니튜드 스펙트럼 자체가 특징 벡터가 될 수도 있고, 여기에서 파생되는 피치와 관련된 특징 벡터, 음색과 관련된 특징 벡터 등을 포함할 수 있다.
특징 벡터는 주로 단구간 푸리에 분석(STFT) 등을 이용하여 계산될 수 있는데, 특징 벡터는 MFCC(mel frequency cepstral coefficient), 스펙트럴 롤오프(Spectral rolloff), 스펙트럴 플럭스(Spectral flux), 자동 상관 계수(Autocorrelation coefficient) 등이 있다.
MFCC는 켑스트럼(cepstrum) 영역으로 변환 된 오디오 신호를 청각 특성이 반영된 멜-주파수(mel-frequency) 필터뱅크를 이용하여 하위 대역으로 나눈 후 DCT를 이용하여 구한 계수로써 음성 신호처리 분야에서 많이 사용된다.
스펙트럴 롤오프(Spectral rolloff)는 주파수 영역에서 저대역 신호부터 85%의 에너지가 분포하는 주파수의 값을 계산한 것으로서, 스텍트럴 센트로이드(Spectral centroid)와 함께 주파수 영역의 분포를 파악할 수 있는 특징 벡터이다.
스펙트럴 플럭스(Spectral flux)는 각 주파수 단위마다 시간 축으로의 변화 정도를 표현한 것으로 지역적인 주파수의 변화를 측정하는 파라미터이다.
자동 상관 계수(Autocorrelation coefficient)는 신호의 스펙트럼 분포를 시간 영역에서 표현하는 것으로, 예를 들어 1번째 계수부터 12번째 계수까지 사용할 수 있다.
이후, 추출된 특징 벡터를 인코더 인공신경망(제1 인공신경망)의 입력으로 하여 잠재 변수(latent feature)를 추출한다(S120). 잠재 변수는 적대적 학습 모델의 다층 인공 신경망을 구성하는 은닉 변수이다.
이후, 추출된 잠재 변수를 음성을 추정하는 디코더 인공신경망(제2 인공 신경망)의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작을 수행한다(S130). 여기서, 제1 동작에 의해, 잠재변수를 입력받은 디코더 인공신경망은 추정된 원음 음성 특징 벡터를 출력한다.
이와 함께, 추출된 잠재 변수를 잡음 추정 인공신경망(제3 인공신경망)의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행한다(S140). 여기서 그레이디언트 반전 레이어(gradient reversal layer; GRL)를 이용하여 잠재 변수에서 잡음 성분을 제거하는 방향으로 학습을 진행한다.
이때, 제1 동작 및 제2 동작은 서로 적대적 학습 모델에 기반한 학습을 하여 훈련된다(S150).
적대적 학습 모델이란, 대표적인 비지도 학습 모델 중 하나로서, 최대한 실제와 동일한 데이터를 생성하려는 생성 모델과 모조 데이터를 판별하려는 판별 모델이 서로 적대적으로 학습하는 방식으로 경쟁적으로 발전하는 구조의 인공신경망 모델을 의미한다.
적대적 학습 모델에서는 판별 모델을 먼저 학습 시킨 후, 생성 모델을 학습시키는 과정을 반복하며, 대표적으로는 생성적 적대적 신경망(Generative Adversarial Network; GAN)이 있다.
이러한 생성적 적대적 신경망(GAN)은 종종 위폐범('생성 모델'에 대응)이 위폐감별사('판별 모델'에 대응)를 속이는 방향을 취하는 것과 위폐감별사가 위폐범에 의하여 위작된 지폐를 진폐와 구별하는 방향을 취하는 것에 비유된다.
생성적 적대적 신경망(GAN)에 의하여 음성 향상 훈련 모델이 더 정확해지도록 지속적으로 갱신되어 그 성능이 향상될 수 있다.
본 발명에서 적대적 학습 모델이란, 인공신경망 학습 시, 두 개의 모델이 한 쪽은 목적 함수를 최대화하는 방향으로, 다른 한 쪽은 목적 함수를 최소화하는 방향으로 서로 적대적으로 훈련이 진행되는 것을 의미한다. 즉, 음성과 잡음의 특징이 섞여 있는 잠재 변수를 입력으로 하여, 디코더 인공신경망은 목적 음성과 최대한 비슷해지는 방향으로 학습이 되고, 잡음 추정 인공 신경망은 원래의 잡음과 최대한 비슷해지게 학습을 하되, GRL을 통해서 오차 전파 시 부호를 바꿔줌으로써, 결과적으로 잡음은 최대한 추정을 하지 못하도록 학습이 진행된다.
제1 및 제2 동작에서의, 적대적 학습은 제2 인공 신경망에서의 역전파(back-propagation) 시, 그레이디언트 반전 레이어를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 추출된 잠재 변수에서 잡음 성분이 제거되도록 학습한다.
즉, 인코더를 통해 출력된 잠재 변수가 그레이디언트 반전 레이어를 통과하도록 하는 구조를 통해 역전파 과정에서 잡음들 간 구분을 하기 어려운 방향으로 학습되어 잡음 특성이 제거된다.
따라서, 제1 인공 신경망에서는 깨끗한 음성인 원음을 잘 추정하는 방향으로 학습되고, 제2 인공 신경망에서는 잡음을 잘 추정하지 못하는 방향으로 학습하면서, 이 두 가지 학습이 서로 적대적으로 실시되는 형태가 된다.
이에 따라, 인코더가 잡음 성분이 제거되고 음성 성분만 남은 잠재 변수를 추출하는 방향으로 학습된다.
이때, 제1 동작은 추출된 잠재 변수를 디코딩하여 잡음이 제거된 음성을 추정하고, 추정된 음성의 매그니튜드 스펙트럼을 음성 특징 벡터로 출력할 수 있다.
이후, 학습이 완료되고 실제 적용 단계에서는, 인코더 인공신경망에서 출력된 잠재 변수는 잡음 성분이 제거되고 음성 성분은 남겨져 있는 잠재 변수를 출력한다(S160). 이때, 디코더 인공신경망을 이용하여, 음성 매그니튜드 스펙트럼을 출력할 수 있다.
이후, 출력된 추정 음성 매그니튜드 스펙트럼을 다시 시간 도메인의 음성 신호로 복원함으로써, 복원 음성을 생성한다(S170).
도 2는 본 발명의 일 실시 예에 따른 음성 향상 훈련 장치의 구성을 간략히 나타낸 블록도이다.
본 발명의 일 실시 예에 따른 음성 향상 훈련 장치(100)는 특징 벡터 추출부(110), 인코더(encoder)(120), 디코더(decoder)(130), 잡음잠재변수 제거부(140) 및 음성복원부(150)를 포함한다.
음성 향상 훈련 장치(100)는 일종의 컴퓨팅 장치로서, 데이터를 가공 및 처리할 수 있는 프로세서(미도시)를 포함할 수 있다. 프로세서는 MPU(micro processing unit), CPU(central processing unit), GPU(graphics processing unit), NPU(neural processing unit) 또는 TPU(tensor processing unit), 캐시 메모리(cache memory), 데이터 버스(data bus) 등의 하드웨어 구성을 포함할 수 있다. 또한, 운영체제, 특정 목적을 수행하는 애플리케이션의 소프트웨어 구성을 더 포함할 수도 있다.
특징 벡터 추출부(110)는 잡음이 섞인 음성(이하, 잡음 음성)을 딥 러닝(deep learning) 모델의 입력으로 사용하기 위한 구성이다.
구체적으로, 특징 벡터 추출부(110)는 음성 향상 훈련 장치(100)에 입력된 잡음 음성을 시간 단위의 프레임 신호로 분할하고, 분할된 각각의 프레임 신호를 주파수 도메인 신호로 변환하여 음성 특징 벡터인 매그니튜드 스펙트럼을 생성할 수 있다.
인코더(120)는 특징 벡터 추출부(110)로부터, 생성된 매그니튜드 스펙트럼을 입력받아, 잠재변수를 출력하는 인코더 인공 신경망(제1 인공 신경망)을 구현하는 구성이다. 인코더(120)는 인지 네트워크(recognition network)라고도 하며, 쉽게 말해 입력을 내부 표현으로 변환하는 역할을 한다.
디코더(130)는 인코더(120)에서 출력된 잠재변수를 입력받고, 입력된 잠재변수를 디코딩하여 잡음이 제거된 음성을 추정한다. 디코더(130)는 추정된 원음의 매그니튜드 스펙트럼을 출력할 수 있는 디코더 인공 신경망(제2 인공 신경망)을 구현할 수 있다.
디코더(130)는 생성 네트워크(generative network)라고도 하며, 쉽게 말해 내부 표현을 출력으로 변환하는 역할을 한다. 디코더(130)는 어떤 프레임에 대한 잠재 변수에 주목(attention)할지 계산하여 주목도에 따라 음성 특징 벡터를 추정해낼 수 있다.
잡음잠재변수 제거부(140)는 인코더(120)에서 출력된 잠재변수를 입력받아, 추정된 잡음의 매그니튜드 스펙트럼을 출력으로 하는 잡음 추정 인공 신경망(제3 인공 신경망)을 구현하는 구성이다.
여기서, 디코더(130)와 잡음잠재변수 제거부(140)는 서로 적대적 학습을 통해 인공 신경망을 훈련시킬 수 있다.
구체적으로, 디코더(130)는 입력되는 잠재변수로부터 깨끗한 음성, 즉 원음을 추정하려고 하고, 잡음잠재변수 제거부(140)는 입력되는 잠재변수로부터 잡음을 추정하려고 한다.
즉, 디코더(130)는 생성 모델로서, 원음과 최대한 비슷한 음성을 만들도록 학습되며, 잡음잠재변수 제거부(140)는 입력되는 잡음들 간의 특성을 최대한 구별하지 못하게 학습되면서, 서로 적대적으로 학습하게 된다.
이때, 잡음잠재변수 제거부(140)의 잡음 추정 인공 신경망은 그레이디언트 반전 레이어를 포함하고, 이 그레이디언트 반전 레이어를 통해 역전파(back-propagation) 과정에서 그레이디언트의 부호를 반대로 변환하게 된다.
즉, 잡음잠재변수 제거부(140)의 잡음 추정 인공 신경망은 잡음 성분을 잘 추정하지 않는 방향으로 훈련되며, 결과적으로 입력된 잠재변수가 잡음 성분을 가지지 않게 된다.
이러한 적대적 학습을 통해, 인코더(120)는 원음 성분을 제외한 잡음 성분은 제거되는 특징을 갖는 잠재 변수를 학습하여 출력하게 된다.
이러한 과정으로 학습되어 인코더(120)로부터 출력된 잠재 변수는 디코더(130)를 통해 원음의 특징만 보존되어 있는 매그니튜드 스펙트럼을 출력하게 된다.
이러한 적대적 학습 훈련이 종료된 후, 실제 추정 단계에서는 잡음잠재변수 제거부(140)의 동작이 생략되고, 인코더(120) 및 디코더(130)의 동작만으로 음성 향상이 수행될 수 있다.
즉, 학습 이후에는 적대적 학습 모델 중 생성 모델만을 사용하게 된다.
음성복원부(150)는 디코더(130)를 통해 출력된 음성 특징 벡터의 매그니튜드 스펙트럼을 다시 시간 도메인의 음성 신호로 복원함으로써, 복원 음성을 생성할 수 있다.
상술한 다양한 실시 예에 따르면, 기존의 방법에서 제시되지 않았던 딥 러닝 모델의 중간 은닉층에서 잡음 음성의 잠재변수에 직접 접근함으로써, 잡음의 특징을 제거하고 음성의 특징만을 남겨, 디코더가 기존의 모델보다 잡음 성분을 더욱 효과적으로 제거함으로써 음성 향상 성능을 높일 수 있게 된다.
상술한 다양한 실시 예에 따른 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 잡음제거 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.
일 예로, ⅰ)잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계, ⅱ)추출된 특징 벡터를 제1 인공 신경망(예: 인코더 인공 신경망)의 입력으로 하여 잠재 변수를 추출하는 단계, ⅲ)추출된 잠재 변수를 제2 인공 신경망(예: 디코더 인공신경망)의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 추출된 잠재 변수를 제3 인공 신경망(예: 잡음 추정 인공신경망)의 입력으로 하여, 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계 및, ⅳ)학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계 및, ⅴ)출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
한편, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 음성 향상 훈련 장치 110: 특징 벡터 추출부
120: 인코더 130: 디코더
140: 잡음잠재변수 제거부 150: 음성 복원부

Claims (8)

  1. 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법에 있어서,
    잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계;
    상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계;
    상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계;
    상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계; 및
    상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계; 를 포함하는 음성 향상 훈련 방법.
  2. 제1항에 있어서,
    상기 적대적 학습은,
    상기 제3 인공 신경망에서의 역전파(back-propagation) 시, 상기 그레이디언트 반전 레이어를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 상기 추출된 잠재 변수에서 잡음 특성이 제거되도록 학습하는 것을 특징으로 하는 음성 향상 훈련 방법.
  3. 제1항에 있어서,
    상기 제1 동작은,
    상기 추출된 잠재변수를 디코딩하여 원음을 추정하고, 상기 음성 특징 벡터로부터, 상기 추정된 원음의 매그니튜드 스펙트럼(magnitude spectrum)을 출력하는 것을 특징으로 하는 음성 향상 훈련 방법.
  4. 적대적 학습(adversarial training) 모델을 이용한 음성 향상 훈련 장치에 있어서,
    잡음이 섞인 음성으로부터 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 인코더;
    상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 디코더;
    상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 잡음잠재변수 제거부; 및
    복원 음성을 생성하는 음성복원부; 를 포함하고,
    상기 디코더 및 잡음잠재변수 제거부는,
    서로 적대적 학습을 수행하여 잡음 성분이 제거된 잠재 변수를 출력하고,
    상기 음성복원부는,
    상기 출력된 잠재 변수에 기초하여 복원된 상기 복원 음성을 생성하는 것을 특징으로 하는 음성 향상 훈련 장치.
  5. 제4항에 있어서,
    상기 적대적 학습은,
    상기 제3 인공 신경망에서의 역전파(back-propagation) 시, 상기 그레이디언트 반전 레이어를 통해 그레이디언트(gradient)의 부호를 반대로 변환하여 상기 추출된 잠재 변수에서 잡음 특성이 제거되도록 학습하는 것을 특징으로 하는 음성 향상 훈련 장치.
  6. 제5항에 있어서,
    상기 제1 동작은,
    상기 추출된 잠재변수를 디코딩하여 원음을 추정하고, 상기 음성 특징 벡터로부터, 상기 추정된 원음의 매그니튜드 스펙트럼(magnitude spectrum)을 출력하는 것을 특징으로 하는 음성 향상 훈련 장치.
  7. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
    잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계;
    상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계;
    상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계;
    상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계; 및
    상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계; 를 포함하는 음성 향상 훈련 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 판독 가능한 기록매체.
  8. 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은, 프로세서에 의해 실행되면,
    잡음이 섞인 음성으로부터 특징 벡터를 추출하는 단계;
    상기 추출된 특징 벡터를 제1 인공 신경망의 입력으로 하여 잠재 변수를 추출하는 단계;
    상기 추출된 잠재 변수를 제2 인공 신경망의 입력으로 하여 추정된 음성 특징 벡터를 출력하는 제1 동작 및 상기 추출된 잠재 변수를 제3 인공 신경망의 입력으로 하여 추정된 잡음 특징 벡터를 출력하는 제2 동작을 수행하며, 상기 제1 동작 및 제2 동작이 서로 적대적 학습을 하여 훈련되는 단계;
    상기 학습에 의해 잡음 성분이 제거된 잠재 변수를 출력하는 단계; 및
    상기 출력된 잠재 변수에 기초하여 복원된 복원 음성을 생성하는 단계;를 포함하는 음성 향상 훈련 방법을 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는, 컴퓨터 프로그램.
KR1020190119037A 2019-09-26 2019-09-26 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치 KR102275656B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190119037A KR102275656B1 (ko) 2019-09-26 2019-09-26 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190119037A KR102275656B1 (ko) 2019-09-26 2019-09-26 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20210036692A true KR20210036692A (ko) 2021-04-05
KR102275656B1 KR102275656B1 (ko) 2021-07-09

Family

ID=75461923

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190119037A KR102275656B1 (ko) 2019-09-26 2019-09-26 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102275656B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823293A (zh) * 2021-09-28 2021-12-21 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN113823298A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
KR20230007767A (ko) * 2021-07-06 2023-01-13 한국전자통신연구원 데이터 증강 방법 및 장치
KR20230080939A (ko) * 2021-11-30 2023-06-07 광운대학교 산학협력단 콜드 스타트 환경에서 사용자 추천을 위한 데이터 특징 추출 기법 기반 추천 방법 및 장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102613030B1 (ko) * 2022-02-18 2023-12-12 한양대학교 산학협력단 적대적 학습 기법을 이용한 음성 합성 방법 및 장치
KR20240059350A (ko) * 2022-10-27 2024-05-07 삼성전자주식회사 음성 신호 비식별화 처리 방법 및 그 전자 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Chien-Feng Liao et al., ‘Noise Adaptive Speech Enhancement using Domain Adversarial Training’, arXiv:1807.07501v3 [cs.SD], 1 July 2019.* *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113823298A (zh) * 2021-06-15 2021-12-21 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
CN113823298B (zh) * 2021-06-15 2024-04-16 腾讯科技(深圳)有限公司 语音数据处理方法、装置、计算机设备及存储介质
KR20230007767A (ko) * 2021-07-06 2023-01-13 한국전자통신연구원 데이터 증강 방법 및 장치
CN113823293A (zh) * 2021-09-28 2021-12-21 武汉理工大学 一种基于语音增强的说话人识别方法及系统
CN113823293B (zh) * 2021-09-28 2024-04-26 武汉理工大学 一种基于语音增强的说话人识别方法及系统
KR20230080939A (ko) * 2021-11-30 2023-06-07 광운대학교 산학협력단 콜드 스타트 환경에서 사용자 추천을 위한 데이터 특징 추출 기법 기반 추천 방법 및 장치

Also Published As

Publication number Publication date
KR102275656B1 (ko) 2021-07-09

Similar Documents

Publication Publication Date Title
Ravanelli et al. Multi-task self-supervised learning for robust speech recognition
KR102275656B1 (ko) 적대적 학습(adversarial training) 모델을 이용한 강인한 음성 향상 훈련 방법 및 그 장치
CN110739002B (zh) 基于生成对抗网络的复数域语音增强方法、系统及介质
Sehgal et al. A convolutional neural network smartphone app for real-time voice activity detection
Adeel et al. Lip-reading driven deep learning approach for speech enhancement
Hsieh et al. Improving perceptual quality by phone-fortified perceptual loss using wasserstein distance for speech enhancement
Chung et al. A recurrent latent variable model for sequential data
Liao et al. Noise adaptive speech enhancement using domain adversarial training
KR20130133858A (ko) 청각 주의 큐를 사용하여 스피치 음절/모음/음의 경계 검출
CN107731233A (zh) 一种基于rnn的声纹识别方法
Zhang et al. Birdsoundsdenoising: Deep visual audio denoising for bird sounds
Shao et al. Bayesian separation with sparsity promotion in perceptual wavelet domain for speech enhancement and hybrid speech recognition
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Besbes et al. Multi-class SVM for stressed speech recognition
Airaksinen et al. Data augmentation strategies for neural network F0 estimation
Rehr et al. SNR-based features and diverse training data for robust DNN-based speech enhancement
Rahman et al. Detecting synthetic speech manipulation in real audio recordings
Raghib et al. Emotion analysis and speech signal processing
Skariah et al. Review of speech enhancement methods using generative adversarial networks
Fakoor et al. Constrained convolutional-recurrent networks to improve speech quality with low impact on recognition accuracy
López et al. Normal-to-shouted speech spectral mapping for speaker recognition under vocal effort mismatch
Wang et al. Feature denoising for speech separation in unknown noisy environments
Milner et al. Reconstructing intelligible audio speech from visual speech features
Franzreb et al. A comprehensive evaluation framework for speaker anonymization systems
KR102044520B1 (ko) 음성 존재 구간 판별 장치 및 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant