KR20210153677A - 심층 필터를 결정하기 위한 방법 및 장치 - Google Patents

심층 필터를 결정하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR20210153677A
KR20210153677A KR1020217037382A KR20217037382A KR20210153677A KR 20210153677 A KR20210153677 A KR 20210153677A KR 1020217037382 A KR1020217037382 A KR 1020217037382A KR 20217037382 A KR20217037382 A KR 20217037382A KR 20210153677 A KR20210153677 A KR 20210153677A
Authority
KR
South Korea
Prior art keywords
filter
mixture
depth filter
time
frequency
Prior art date
Application number
KR1020217037382A
Other languages
English (en)
Inventor
엠마누엘 하베츠
울프강 맥
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20210153677A publication Critical patent/KR20210153677A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Paper (AREA)
  • Measurement Of Radiation (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
  • Image Analysis (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Noise Elimination (AREA)

Abstract

심층 필터를 결정하기 위한 방법은 혼합물을 수신하는 단계, 심층 신경망을 사용하여 심층 필터를 추정하는 단계를 포함하고, 추정은 혼합물의 성분들에 적용할 때 심층 필터가 원하는 표현의 각각의 성분들의 추정치들을 얻도록 수행되며, 적어도 하나의 차원의 심층 필터는 성분들을 갖는 텐서를 포함한다.

Description

심층 필터를 결정하기 위한 방법 및 장치
본 발명의 실시예들은 심층 필터를 결정하기 위한 방법 및 장치를 설명한다. 다른 실시예들은 신호 추출, 신호 분리 또는 신호 복원을 위한 방법을 설명한다.
신호가 센서에 의해 캡처되는 경우, 일반적으로 원하는 성분 및 원하지 않는 성분을 포함한다. 추가적인 간섭 스피커 또는 지향성 노이즈 소스(원하지 않는 것)가 있는 시끄러운 환경에서의 음성(원하는 것)을 고려해보자. 혼합물로부터 원하는 음성을 추출하는 것은 고품질의 노이즈 없는 녹음을 얻기 위해 필요하고, 이는 예를 들어, 원격회의 시스템들 또는 이동 통신에서의된 음성 품질에 유리할 수 있다. 생체의학 신호들이 센서들에 의해 캡처되는 심전도, 근전도 또는 뇌전도 내의 상이한 시나리오를 고려하면, 간섭 또는 노이즈는 또한, 예컨대 의사들에 의해서 캡처된 신호들의 최적의 해석 및 추가적인 처리를 가능하게 하기 위해 상쇄되어야 한다. 일반적으로, 혼합물로부터 원하는 신호를 추출하거나 혼합물에서 다수의 원하는 신호를 분리하는 것은 여러 상이한 시나리오에서 바람직하다.
추출 및 분리 외에도 캡처된 신호의 일부에 더 이상 액세스할 수 없는 시나리오가 있다. 일부 패키지가 손실된 전송 시나리오, 또는 실내 음향이 공간 콤 필터(comb filter)를 초래하여 특정 주파수의 상쇄/소멸을 초래하는 오디오 기록을 고려하자. 신호의 나머지 부분들에 손실된 부분들의 콘텐츠에 관해 정보가 존재한다고 가정하면, 누락된 신호 부분들을 복원하는 것은 또한 여러 상이한 시나리오들에서 매우 바람직하다.
아래에서는, 현재의 신호 추출 및 분리 접근법이 설명될 것이다.
원하는 신호 통계치와 원하지 않는 신호 통계치의 적절한 추정치를 고려하면, Wiener 필터링과 같은 통상적인 방법들은 혼합물로부터 원하는 신호를 추출하기 위해 복소 혼합 단기 푸리에 변환(STFT: short-time Fourier transform) 표현에 대해 실수값 이득을 적용한다[예: [01], [02]].
또 다른 가능성은 각각의 혼합된 시간-주파수 빈에 대해 STFT 도메인 내의 복소 값 다차원 필터를 통계치로부터 추정하고, 추출을 수행하는 데 이를 적용하는 것이다. 분리 시나리오의 경우, 각각의 원하는 신호는 그 자신의 필터를 필요로 한다[02].
통계 기반 방법들은 정적인 신호들이 주어지는 경우 잘 수행하지만, 통계 추정은 종종 높은 비-정적인 신호들이 주어지는 경우 잘 수행되기가 어렵다.
다른 접근법은 비음수 행렬 인수 분해(NMF: non-negative matrix factorization)를 사용하는 것이다. 이는 테스팅 동안에 인식될 수 있는 데이터의 훈련 데이터 기반 벡터들을 제공하는 것으로부터 비지도 방식으로 학습한다[예: [03], [04]]. 음성이 백색 소음으로부터 분리되어야 하는 경우, NMF는 훈련 예들에서 가장 두드러진 기저 벡터들을 학습한다. 백색 소음은 시간적으로 상관되지 않기 때문에, 이들 벡터는 음성에 속한다. 테스트 중에, 기저 벡터들 중 하나가 추출을 수행하기 위해 현재 활성화되어 있는지 여부가 결정될 수 있다.
상이한 발화자들로부터의 음성 신호들은 매우 상이하므로, 제한된 수의 기저 벡터들에 의해 모든 가능한 음성 신호들을 근사화하는 것은 원하는 데이터 내의 이러한 높은 분산을 충족시키지 않는다. 또한, 백색 소음과 달리, 훈련 중에 노이즈가 고도로 비-정적이고 알려져 있지 않은 경우, 기저 벡터들은 추출 성능을 감소시키는 노이즈 세그먼트를 커버할 수 있다.
최근에, 특히, 딥러닝 기반의 시간-주파수 마스킹 기법들은 성능 면에서 주요한 개선을 보여주었다[예: [05]]. 라벨링된 훈련 데이터가 주어진 경우, 심층 신경망(DNN: deep neural network)은 시간-주파수 마스크를 추정하도록 훈련된다. 이 마스크는 신호 추출을 수행하기 위해 또는 다수의 마스크들인 경우 신호 분리를 수행하기 위해 복소 혼합 STFT에 적용된다. 혼합 시간-주파수 빈이 오직 하나의 소스에 의해 지배되는 경우, 마스크 성분들은 바이너리일 수 있다 [예: [06]]. 또한, 마스크 성분들은 시간-주파수 빈마다 다수의 활성 소스들이 주어지는 경우, 실수 값 비율 [예: [07]] 또는 복소수 값 비율 [예: [08]]일 수 있다.
이러한 추출은 도 1에 의해 도시된다. 도 1은 다수의 빈들(sx,y)에 대한 2개의 주파수/시간 다이어그램들을 도시한다. 빈들은 입력 STFT이며, 여기서 입력 STFT의 A에 의해 마킹된 영역은 그 안의 각각의 시간-주파수 빈에 대한 이득을 추정하기 위해 DNN에 제공된다. 이러한 이득은 복소 입력 STFT에 성분 별로 적용된다(참고로, 추출 다이어그램 및 입력 내에서 x로 표시된 빈(bin)). 이는 각각의 원하는 성분을 추정하기 위한 것이다.
혼합 시간-주파수 빈이 원하는 신호와 원하지 않는 신호의 상쇄되는 간섭으로 인해 0(zero)이 되는 경우, 각각의 마스크 값이 존재하지 않기 때문에 마스크들은 이 빈에만 이득을 적용함으로써 원하는 신호를 복원할 수는 없다. 혼합 시간-주파수 빈이 원하는 신호와 원하지 않은 신호의 상쇄되는 간섭으로 인해 0에 가깝더라도, 각각의 마스크는 특정 시간-주파수 빈들에서의 상쇄되는 간섭을 고려하여 그들의 성능을 제한하는 크기로 일반적으로 제한되기 때문에, 마스크들이 일반적으로 이 빈에만 이득을 적용함으로써 원하는 신호들을 완전히 복원할 수는 없다. 또한, 신호의 일부가 손실된 경우, 마스크들은 원하는 신호를 추정하기 위해 해당 시간-주파수 빈에만 이득을 적용하므로, 이러한 부분들을 복원할 수 없다.
따라서 개선된 접근법이 필요하다.
본 발명의 일 목적은 신호 추출, 분리 및 복원을 위한 개선된 접근법을 제공하는 것이다.
이 목적은 독립 청구항들의 청구 대상에 의해 해결된다.
본 발명의 일 실시예는 적어도 하나의 차원의 심층 필터를 결정하기 위한 방법을 제공한다. 방법은 혼합물을 수신하는 단계, 심층 신경망을 사용하여 심층 필터를 추정을 수행하는 단계를 포함하며, 추정은, 혼합물의 성분들에 적용될 때 심층 필터가 원하는 표현의 각각의 성분들의 추정치를 얻도록 수행된다. 여기서, 적어도 하나의 차원의 심층 필터는 성분들을 갖는 텐서를 포함한다.
본 발명은, 심층 신경망을 갖는 통계적 방법 부분들로부터의 복소 시간-주파수 필터들의 개념의 조합이, 다차원 텐서로부터 원하는 값들을 추출/분리/복원할 수 있게 한다는 발견에 기초한다(다차원 텐서가 입력 표현인 것으로 가정함). 이러한 일반적인 프레임워크는 신경망(비용 함수 및 훈련 데이터를 사용하여 훈련될 수 있음)의 사용에 의해 처리되는 왜곡된/노이즈 입력 신호에 기초하는 심층 필터로 지칭된다. 예를 들어, 텐서는 1차원 또는 2차원 복소 STFT 또는 추가적인 센서 차원을 갖는 STFT일 수 있지만, 이러한 시나리오들로 제한되지 않는다. 여기서, 심층 신경망은 등분된 텐서 성분(A) 1차원 또는 심지어 다차원(복소) 심층 필터 각각에 대해 추정하는 데 사용된다. 이러한 필터들은 개선된 텐서에서 원하는 값들의 추정치들을 얻기 위해 열화된 텐서의 정의된 영역들에 적용된다. 이런 식으로, 그들의 추정치에 대해 여러 개의 텐서 값들을 통합함으로써 그들의 경계값들로 인한 상쇄되는 간섭을 갖는 마스크들의 문제를 극복할 수 있다. DNN의 사용으로 인해, 시간-주파수 필터들에 대한 통계치 추정을 극복할 수 있다.
일 실시예에 따르면, 혼합물은 (단기 푸리에 변환과 같은) 실수 값 또는 복소수 값의 시간-주파수 표현 또는 그것의 특징 표현을 포함할 수 있다. 여기서, 원하는 표현은 원하는 실수 값 또는 복소수 값의 시간-주파수 표현 또는 그것의 특징 표현을 포함한다. 실시예들에 따르면, 결과는, 심층 필터가 실수 값 또는 복소수 값의 시간-주파수 필터를 포함하는 것일 수 있다. 이 경우에, 심층 필터의 하나의 차원이 단기 푸리에 변환 도메인으로 기술되는 것은 선택적이다.
또한, 상기 적어도 하나의 차원은 시간-차원, 주파수-차원 또는 센서 신호-차원을 포함하는 그룹 외에 있을 수 있다. 다른 실시예들에 따르면, 추정은, 혼합물의 각각의 성분에 대해, 또는 혼합물의 성분들의 미리 결정된 부분에 대해, 또는 혼합물의 텐서 성분들의 미리 결정된 부분에 대해 수행된다. 실시예들에 따르면, 이러한 추정은 적어도 2개의 소스들과 같이, 하나 이상에 대해 수행될 수 있다.
필터의 정의와 관련하여, 본 방법은, 실시예들에 따라, 적어도 하나의 차원의 심층 필터에 대한 필터 변수들을 갖는 필터 구조를 정의하는 단계를 포함할 수 있다. 이 단계는 심층 신경망이 다수의 출력 파라미터들을 포함하는 실시예와 관련하여 유지될 수 있고, 여기서 출력 파라미터들의 수는 심층 필터의 필터 함수에 대한 필터 값들의 수와 동일할 수 있다. 훈련할 수 있는 파라미터들의 수는 통상적으로 훨씬 더 크며, 실수부 및 허수부 필터 성분들의 수와 동일한 출력의 개수를 정의하는 것이 유리하다는 점에 유의해야 한다. 실시예들에 따르면, 심층 신경망은 배치 정규화 층, 양방향 장단기 메모리 층, 피드포워드 출력 층, tanh 활성화를 갖는 피드포워드 출력 층 및/또는 하나 이상의 추가 층을 포함한다. 전술한 바와 같이, 이러한 심층 신경망은 훈련될 수 있다. 따라서, 방법은, 실시예들에 따라, 심층 신경망을 훈련시키는 단계를 포함한다. 이 단계는 참 값과 원하는 표현과 원하는 표현의 추정치 사이의 평균 제곱 오차(MSE: mean-squared error)를 사용하는 훈련의 하위 단계에 의해 수행될 수 있다. 훈련 절차를 위한 예시적인 접근법은 DNN의 훈련 동안 평균 제곱 오차를 최소화하고 있음에 유의해야 한다. 대안적으로, 심층 신경망은 원하는 표현과 원하는 표현의 추정치 사이의 복원 오차를 감소시킴으로써 훈련될 수 있다. 다른 실시예에 따르면, 훈련은 크기 복원에 의해 수행된다.
일 실시예에 따르면, 추정은 다음 식을 사용하여 수행될 수 있다:
Figure pct00001
여기서
Figure pct00002
은 시간-프레임 방향에서의 필터 차원이고
Figure pct00003
는 주파수 방향의 필터 차원이며
Figure pct00004
은 복소 켤레 2D 필터이다. 완전성을 위해서, 위의 식
Figure pct00005
은 "적용 단계"에서 수행되어야 하는 것을 나타낸다는 점에 유의해야 한다.
이 식으로부터 시작하여, 훈련은 다음 식을 사용하여 수행될 수 있거나,
Figure pct00006
[여기서,
Figure pct00007
은 원하는 표현이고
Figure pct00008
는 추정된 원하는 표현임]
다음 식을 사용하여 수행될 수 있다.
Figure pct00009
[여기서,
Figure pct00010
은 원하는 표현이고,
Figure pct00011
는 추정된 원하는 표현임]
실시예들에 따르면, 심층 필터의 성분들은 크기가 제한되거나, 다음의 식을 사용하여 크기가 제한되며,
Figure pct00012
여기서
Figure pct00013
은 복소 켤레 2D 필터이다. 바람직한 실시예에서, 경계는 DNN 출력 층의 tanh 활성화 함수에 기인하는 점에 유의해야 한다.
또 다른 실시예는 필터링을 위한 방법을 제공한다. 이 방법은, 심층 필터를 결정하기 위한 전술한 방법의 기본적인 단계는 물론 선택적인 단계들, 및 심층 필터를 혼합물에 적용하는 단계를 포함한다. 여기서, 실시예들에 따르면, 적용하는 단계는 원하는 표현의 추정치를 얻기 위해 성분별 곱셈 및 연속적인 합산에 의해 수행됨을 유의해야 한다.
다른 실시예에 따르면, 이러한 필터링 방법은 적어도 두 개의 소스들의 신호 추출 및/또는 신호 분리를 위해 사용될 수 있다. 다른 실시예에 따른 다른 응용예는 이 방법이 신호 복원을 위해 사용될 수 있다는 것이다. 대개의 신호 복원 응용예들은 패킷 손실 은폐 및 대역폭 확장이다.
신호 추출/신호 분리 및 신호 복원을 위한 방법뿐만 아니라 필터링을 위한 방법은 컴퓨터의 사용에 의해 수행될 수 있다는 점에 유의해야 한다. 이는 적어도 하나의 차원의 심층 필터를 결정하기 위한 방법에 대해 성립한다. 이는 추가적인 실시예가, 컴퓨터 상에서 실행될 때, 전술한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 제공한다는 것을 의미한다.
또 다른 실시예는 심층 필터를 결정하기 위한 장치를 제공한다. 장치는 혼합물을 수신하기 위한 입력부,
혼합물의 성분들에 적용될 때, 심층 필터가 원하는 표현의 각각의 성분들의 추정치를 얻도록 하는 심층 필터를 추정하기 위한 심층 신경망을 포함한다. 여기서, 필터는 적어도 하나의 차원의 텐서(성분들을 포함)를 포함한다.
다른 실시예에 따르면, 혼합물을 필터링할 수 있는 장치가 제공된다. 이 장치는 혼합물에 적용되는 상기 정의된 바와 같은 심층 필터를 포함한다. 이 장치는 신호 추출/신호 분리/신호 복원을 가능하게 하는 것과 같이 향상될 수 있다.
본 발명의 실시예들은 후속하여 첨부된 도면들을 참조하여 설명될 것이다.
도 1은 통상적인 접근법에 따라 필터를 생성/결정하기 위한 원리를 설명하기 위해 추출을 나타내는 다이어그램과 함께 입력으로서 혼합물을 나타내는 다이어그램(주파수-시간 다이어그램)을 개략적으로 도시한다.
도 2a는 본 발명의 일 실시예에 따른 필터 추정의 원리를 설명하기 위한 입력 다이어그램(주파수-시간 다이어그램) 및 추출 다이어그램(주파수-시간 다이어그램)을 도시한다.
도 2b는 일 실시예에 따른 심층 필터를 결정하기 위한 방법을 도시하는 개략적인 흐름도를 도시한다.
도 3은 일 실시예에 따른 DNN 아키텍처에 대한 개략적인 블록도를 도시한다.
도 4는 다른 실시예에 따른 DNN 아키텍처의 개략적인 블록도를 도시한다.
도 5a 내지 도 5b는 실시예들의 이점들을 설명하기 위한 2개의 테스트들의 MSE 결과들을 나타내는 2개의 다이어그램들을 도시한다.
도 6a 내지 도 6c는 본 발명의 실시예들의 원리 및 이점들을 설명하기 위한 로그-크기 STFT 스펙트럼의 일부를 개략적으로 도시한다.
이하, 본 발명의 실시예들은 후속하여 첨부된 도면들을 참조하여 설명될 것이며, 동일하거나 유사한 기능을 갖는 성분들/객체들에 대해서는 해당 설명이 상호 적용 가능하고 상호 교환 가능하도록 동일한 도면부호들이 제공된다.
도 2a는 두 개의 주파수-시간 다이어그램들을 도시하는데, 도면 부호(10)로 표시된 좌측 주파수-시간 다이어그램은 입력으로서 수신된 혼합물을 나타낸다. 여기서, 혼합물은 다수의 빈(bin)들(sx,y)을 갖는 STFT(단기 푸리에 변환)이다. 도면 부호(10a)로 표시되는 일부 빈들은 도 2a 및 도 2b와 관련하여 설명된 방법(100)의 목적인 필터를 추정하기 위한 입력으로서 사용된다.
도 2b에 도시된 바와 같이, 방법(100)은 2개의 기본 단계들(110 및 120)을 포함한다. 도 2a의 좌측 다이어그램에 도시된 바와 같이, 기본 단계(110)는 혼합물(110)을 수신한다.
다음 단계(120)에서, 심층 필터가 추정된다. 이 단계(120)는 추출로서 사용되는 우측 주파수-시간 다이어그램의 표시된 빈(10x)을 매핑하는 화살표(12)로 도시된다. 추정된 필터는 엑스 표시(10x)로 시각화되고, 혼합물의 성분들에 적용될 때 심층 필터가 원하는 표현(11)의 각각의 성분의 추정치를 얻도록, 추정된다(참고: 추상화 다이어그램). 즉, 이는 필터가 각각의 원하는 성분을 추정하기 위해 복소 입력(STFT)의 정의된 영역에 적용될 수 있다는 것을 의미한다(참고: 추출 다이어그램).
여기서, DNN은 10x로 예시되는 바와 같이, 각각의 열화된(degraded) 텐서 성분(sx,y)에 대해 적어도 하나의 차원, 또는 바람직하게는 다차원 (복소) 심층 필터를 추정하는 데에 사용된다. (열화된 텐서 성분에 대한) 필터(10x)는 향상된 텐서에서의 원하는 값의 추정치를 얻기 위해, 열화된 텐서(sx,y)의 정의된 영역(10a)에 적용된다. 이런 식으로, 추정치들에 대한 몇 개의 텐서 값들을 통합함으로써 그들의 경계값들로 인해 상쇄되는 간섭을 갖는 마스크 문제를 극복할 수 있다. DNN 출력들은 통상적으로 (0,1)의 제한된 범위 내에 있기 때문에, 마스크들은 제한됨에 유의해야 한다. 이론적 관점에서, 완벽한 복원을 수행하기 위해 범위 (0, ∞)가 바람직한 변량일 것인데, 여기서는 전술한 제한된 범위가 충분한 것으로 실질적으로 도시되었다. 이러한 접근법으로 인해, DNN을 사용함으로써 시간-주파수 필터들에 대한 통계치 추정을 극복할 수 있다.
도 2a에 도시된 예와 관련하여, 여기에서는 정사각형 필터가 사용되지만, 필터(10)는 이러한 형상으로 제한되지 않는다는 점에 유의해야 한다. 또한, 필터(10x)는 2차원, 즉 주파수 차원 및 시간 차원을 가지며, 다른 실시예에 따르면, 필터(10x)는 단지 하나의 차원, 즉, 주파수 차원 또는 시간 차원 또는 다른(도시되지 않은) 차원을 가질 수 있음에 유의해야 한다. 또한, 필터(10a)가 도시된 2개의 차원보다 더 많이, 즉, 다차원 필터로서 구현될 수 있음에 유의해야 한다. 필터(10x)가 2D 복소 STFT 필터로서 예시되었지만, 다른 가능한 옵션은 필터가 부가적인 센서 차원을 갖는 STFT로서 구현되는 것이며, 즉 필터가 반드시 복소 필터일 필요는 없다. 대안은 실수 값 필터 또는 4원수(quaternion) 값 필터이다. 이들 필터는 또한 다차원 심층 필터를 형성하기 위해 적어도 하나의 차원 또는 다차원을 가질 수 있다.
다차원 필터는 다양한 상이한 작업(신호 분리, 신호 복원, 신호 추출, 노이즈 감소, 대역폭 확장, ...)을 위한 다목적 솔루션을 제공한다. 이들은 시간-주파수 마스크(최신)보다 더 양호하게 신호 추출 및 분리를 수행할 수 있다. 상쇄되는 간섭을 감소시키기 때문에, 이들은 상쇄되는 간섭과 유사한, 따라서 시간-주파수 마스크에 의해 어드레싱가능하지 않은 문제인 패킷-손실-은폐 또는 대역폭 확장을 위해 적용될 수 있다. 또한, 이들은 신호 디클립핑(declipping)을 위해 적용될 수 있다.
심층 필터들은 상이한 차원들, 예를 들어 시간, 주파수 또는 센서를 따라 특이적일 수 있으며, 이는 매우 유연하고 다양한 상이한 작업들에 적용될 수 있다.
통상적인 종래 기술과 비교 시, 시간/주파수(TF: time/frequency) 마스크를 사용하여 가장 일반적으로 수행되는, 추가적인 원하지 않은 신호를 갖는 단일-채널 혼합물로부터의 신호 추출은, DNN을 사용하여 추정되는, 각각의 혼합물 내의 STFT 영역을 원하는 TF 빈에 매핑하는 복소 TF 필터가, 각각의 혼합물 TF 빈에 대해 추정됨을 분명하게 하여, TF 빈들의 상쇄되는 간섭을 해결한다. 전술한 바와 같이, DNN은, 참 값인 TF 필터들을 특정하지 않고 훈련하게 하지만 오차 감소에 의해 필터들을 학습하게 하는, 추출된 신호 및 참인 원하는 신호 사이의 오차를 최소화함으로써 최적화될 수 있다. 단지 완전함을 위해, 추가적인 원하지 않는 신호들을 갖는 단일-채널 혼합물로부터의 신호 추출을 위한 통상적인 접근법은 가장 일반적으로 시간-주파수(TF) 마스크들을 사용하여 수행된다는 점에 유의해야 한다. 통상적으로, 마스크는 추출을 수행하기 위해 심층 신경망(DNN)으로 추정되고, 복소 혼합 단기 푸리에 변환(STFT) 표현에 성분 별로 적용된다. 이상적인 마스크 크기들은 TF 빈 내의 오직 원하지 않는 신호들에 대해서는 0이고, 총 상쇄 간섭에 대해서는 무한대이다. 일반적으로, 마스크는 제한된 추출 능력의 비용으로 잘 정의된 DNN 출력을 제공하기 위해 상한을 갖는다.
이하, 필터의 설계 프로세스는 도 3을 참조하여 보다 상세히 설명될 것이다.
도 3은 DNN(20)을 이용하여 입력 STFT(10)의 실수 및 허수 값을 필터(10x)로 매핑하는 예시적인 DNN 아키텍처를 도시한다(도 3a 참조). 도 3b에 도시된 바와 같이 일 구현예에 따르면, DNN 아키텍처는 매핑이 3개의 양방향 장단기 메모리 층들인 BLTSMS(bidirectional long-short term memory layers)(또는 3개의 장단기 메모리 층들), LSTMS(둘 모두 심층 필터들의 실수 값 및 허수 값들에 대해 tanh 활성화를 갖는 피드포워드 계층이 더 부가됨)를 이용하여 수행되도록, 복수의 층들을 포함할 수 있다. BLSTMS는 시간적으로 순방향 및 역방향에 LSTM 경로를 갖는다.
첫 번째 단계는 문제 특이적 필터 구조를 정의하는 것이다. 방법(100) 내에서(도 2b 참조), 이 선택적인 단계는 도면부호(105)로 표시된다. 이러한 구조 설계는 계산 복잡도 사이의 절충(tradeoff)이다(즉, 필터 값들이 많은 경우 더 많은 계산들이 요구되고, 필터 값들이 너무 적게 주어진 경우, 성능에서 예를 들어, 상쇄되는 간섭 또는 데이터 손실이 다시 발생할 수 있기 때문에, 복원 한계가 주어진다).
심층 필터(10x)는 혼합물(10) 또는 그것의 특징 표현을 DNN(20)에 제공함으로써 얻어진다. 특징 표현은, 예를 들어, 입력(10)으로서 복소 혼합 STFT의 실수부 및 허수부일 수 있다.
위에 설명된 바와 같이, DNN 아키텍처는 예를 들어, tanh 활성화를 갖는 배치 정규화(batch-normalization) 층, (양방향) 장단기 메모리 층(BLSTM) 및 피드포워드(feed-forward) 출력 층으로 구성될 수 있다. tanh 활성화는 [-1,1]의 DNN 출력 층을 초래한다. 구체적인 예는 부록에 제공되어 있다. BLSTMS 대신 LSTM이 사용되는 경우, 시간상 역방향 경로가 DNN 아키텍처에서 회피되므로 온라인 분리/복원이 수행될 수 있다. 물론, 추가적인 층들 또는 대안적인 층들이 DNN 아키텍처(10) 내에서 사용될 수 있다.
추가적인 실시예에 따르면, DNN은 혼합물에 필터들을 적용함으로써 제공되는 추정된 신호들과 참 값 사이의 평균 제곱 오차(mean-squared error)를 이용하여 훈련될 수 있다. 도 2는 DNN에 의해 추정된 예시적인 필터의 적용예를 나타낸다. 입력 내의 적색 X 표시들은, 추출에서 대응하는 STFT 빈(적색 X로 표시됨)을 추정하기 위해 복소 필터 값들이 추정된 STFT 빈들을 표시한다. 추출 STFT 내의 각각의 값에 대한 필터 추정이 존재한다. 분리될 입력 STFT 내에 N개의 원하는 소스가 존재하는 경우, 추출 프로세스는 이들 각각에 대해 개별적으로 수행된다. 필터는 각각의 소스에 대해, 예를 들어 도 4에 도시된 아키텍처와 함께 추정되어야 한다.
도 4는 입력 STFT(10)의 실수 및 허수 값을 복수의 필터들(10x1 내지 10xn)에 매핑하는 예시적인 DNN 아키텍처를 도시한다. 각각의 필터들(10x1 내지 10xn)은 상이한 원하는 소스들에 대해 설계된다. 이러한 매핑은, DNN(20)을 사용하여 도 3과 관련하여 설명된 바와 같이 수행된다.
일 실시예에 따르면, 추정된/결정된 심층 필터는 상이한 적용 시나리오들에 대해 사용될 수 있다. 일 실시예는 전술한 원리에 따라 결정된 심층 필터의 사용에 의한 신호 추출 및 분리 방법을 제공한다.
하나 또는 여러 개의 원하는 신호가 혼합 STFT 로부터 추출되어야 하는 경우, 가능한 필터 형태는 원하는 신호의 분리/추출을 수행하기 위해 원하는 소스 당 STFT 빈 당 2D 직사각형 필터이다. 이러한 심층 필터는 도 2a에 도시되어 있다.
다른 실시예에 따르면, 심층 필터는 신호 복원을 위해 사용될 수 있다. STFT 혼합물이 사전 필터링(예를 들어, 노치 필터)에 의해 열화되는 경우, 절단 아티팩트(clipping artifacts)가 발생하거나, 또는 원하는 신호(들)의 일부가 누락된다(예를 들어, 송신 또는 협대역 송신 동안 손실되는 패킷들 [예: [9]]로 인해).
이러한 경우에, 원하는 신호들은 시간 및/또는 주파수 정보를 이용하여 복원되어야 한다.
고려된 시나리오들은 STFT 빈들이 시간 또는 주파수 차원에서 누락되었던 복원 문제들을 다루고 있다. 대역폭 확장과 관련하여(예를 들어, 협대역 송신의 경우), 특정 STFT 영역들이 누락된다(예를 들어, 높은 주파수들). 열화되지 않은 STFT 빈들에 대한 사전 지식을 이용하여, 필터들의 개수를 열화된 STFT 빈들의 수(즉, 누락된 높은 주파수들)로 감소시킬 수 있다. 본 발명자들은 직사각형 필터 구조를 유지할 수 있지만, 대역폭 확장을 수행하기 위해 주어진 더 낮은 주파수들에 심층 필터들을 적용할 수 있다.
위의 실시예들의 실시예/구현예는 복소 시간-주파수 필터들을 이용한 신호 추출을 위해 사용되는 심층 필터를 기술한다. 아래 접근법에서는, Google AudioSet 코퍼스로부터의 다양한 상이한 음향 및 노이즈 클래스들로부터 음성을 분리함으로써, 복소 값 및 실수 값의 TF 마스크들을 가진 접근법 사이의 비교가 주어진다. 여기서, 혼합 STFT는 노치 필터들 및 0의 전체 시간-프레임들로 처리되어 이 접근법의 복원 능력을 증명할 수 있다. 제안된 방법은 특히 노치 필터 및 0으로 처리된(zeroing) 시간-프레임이 적용되었을 때 기준 성능 보다 우월했다.
실세계 신호들은 종종 마이크의 백색 자가 소음, 왁자지껄한 소음, 또는 교통수단과 같은 배경 소리, 박수 소리와 같은 충격음과 같은 원하지 않는 노이즈 소스들 또는 간섭자들에 의해 손상된다. 노치 필터링과 같은 전처리, 또는 공간 콤 필터를 야기하는 특정 실내 음향 또한 녹음 신호의 품질 감소에 기여할 수 있다. 고품질의 신호가 필요한 경우, 이러한 혼합물로부터 원하는 신호를 추출 및/또는 복원하는 것이 크게 요구된다. 가능한 응용들은 예를 들어 녹음된 음성 신호들을 개선하는 것, 서로 다른 소스들을 서로 분리하는 것 또는 패킷-손실을 은폐하는 것일 수 있다. 신호 추출 방법들은 단일 채널 및 다채널 접근법들로 폭넓게 분류될 수 있다. 본 명세서에서, 본 발명자들은 단일 채널 접근법에 초점을 맞추고, 원하는 신호와 원하지 않는 신호의 혼합물로부터 원하는 신호를 추출하는 문제를 해결한다.
일반적인 접근법들은, 원하는 스펙트럼 크기(예: [1]) 또는 시간-주파수(TF) 마스크가 추정된 다음, 추출을 수행하기 위해 복소 혼합 STFT에 성분 별로 적용되는, 단기 푸리에 변환(STFT) 도메인으로 이러한 추출을 수행한다. 일반적으로 성능상의 이유로 인해 스펙트럼 크기를 직접 추정하는 것보다는 TF 마스크를 추정하는 것이 선호된다 [2]. 대개, TF 마스크는 심층 신경망(DNN)(예: [2] 내지 [9])에 의해 혼합 표현으로부터 추정되며, 여기서 출력 층은 종종 STFT 마스크를 직접적으로 산출한다. 이러한 DNN을 훈련시키기 위해 두 가지 통상적인 접근법이 존재한다. 먼저, 참 값인 마스크가 정의되고, DNN은 참 값인 마스크 및 추정된 마스크 사이의 오차 함수를 최소화함으로써 혼합물을 마스크 매핑에 대해 학습한다 (예: [3], [5]). 두 번째 접근법에서, DNN은 추정된 신호와 원하는 신호 사이의 오차 함수를 직접 최소화함으로써 매핑을 학습한다 (예: [8], [10], [11]). 문헌[Erdogan et al. [12]]은 직접 최적화가 제곱 혼합 크기로 가중된 마스크 최적화와 동일함을 보여주었다. 결과적으로, 손실에 대한 높은 에너지 TF 빈들의 영향이 증가되고, 낮은 에너지의 영향이 감소된다. 또한, 참 값인 마스크는 참 값인 원하는 신호에서 암시적으로 주어지므로 정의될 필요가 없다.
다른 추출 작업의 경우, 다른 유형의 TF 마스크가 제안되었다. 각각의 TF 빈에서의 신호가 원하는 신호 또는 원하지 않는 신호에만 속하는 STFT 도메인으로의 혼합물이 주어지는 경우, 추출은 예를 들어 [5], [7]에 사용된 이진 마스크들[13]을 사용하여 수행될 수 있다. 동일한 TF 빈에서 여러 소스가 활성인 STFT 도메인으로의 혼합물이 주어지는 경우, 비율 마스크(RM: ratio mask)[14] 또는 복소 비율 마스크(cRM)[15]가 적용될 수 있다. 이들 모두는 각각의 혼합물 TF 빈에 이득을 할당하여 원하는 스펙트럼을 추정한다. RM의 실수 값 이득은 혼합물로부터 원하는 스펙트럼으로 TF 빈 별로 크기 보정을 수행한다. 이 경우, 추정 단계는 혼합물 단계와 동일하다. cRM은 실수 값 이득 대신에 복소수 값 이득을 적용하고 추가적으로 위상 보정을 수행한다. 발화자 분리, 탈반향(dereverberation), 및 노이즈 제거는 RM(예: [6], [8], [10], [11], [16]) 및 cRM(예: [3], [4])을 사용하여 달성되었다. 이상적으로, RM 및 cRM의 크기는 하나의 TF 빈 안에 원하지 않는 신호만 활성인 경우에는 0이 되고, 특정 TF 빈에서 원하는 신호 및 원하지 않는 신호가 상쇄적으로 중첩되는 경우 무한대이다. 무한대에 접근하는 출력은 DNN으로 추정될 수 없다. 잘 정의된 DNN 출력들을 획득하기 위해, DNN을 이용하여 압축된 마스크(예: [4])를 추정하고, 큰 크기들을 갖는 마스크 값들을 얻도록 압축 해제 후에 추출을 수행할 수 있다. 그러나, DNN 출력 상에서의 약한 노이즈는 추정된 마스크들의 큰 변화로 이어져, 큰 오차들을 초래할 수 있다. 또한, TF 빈 내의 원하는 신호 및 원하지 않는 신호들이 0까지 더해지는 경우, 압축된 마스크는 각각의 크기를 곱셈에 의해 0으로부터 복원할 수도 없다. 종종, 상쇄 간섭이 무시되는 경우(예: [6], [11], [17]), 더 높은 값들이 노이즈 증폭의 위험과 함께 제공되므로, 1로 제한된 마스크 값이 추정된다. 마스크 외에도, 복소 값 TF 필터(예: [18])가 신호 추출을 위해 적용되었다. 현재의 TF 필터 접근법은 일반적으로 실제 시나리오에 존재하는 바와 같이 빠르게 변화하는 통계치를 갖는 매우 다양한 알려지지 않은 간섭 신호를 고려하여 중요할 수 있는 통계치 추정 단계(예: [18] 내지 [21])를 포함한다.
본 명세서에서, 본 발명자들은, DNN을 사용하여, STFT 도메인 내의 각각의 TF 빈에 대한 복소 값 TF 필터를 추정하여, 미지의 통계치를 갖는 고도로 정적이지 않은(non-stationary) 신호들에 대한 추출을 해결하는 것을 제안한다. 필터는 각각의 혼합 STFT 내의 정의된 영역에 성분 별로 적용된다. 그 결과는 각각의 TF 빈에서 원하는 신호의 추정치를 얻기 위해 합산된다. 개별적인 복소 필터 값들은 잘 정의된 DNN 출력들을 제공하기 위해 크기가 제한된다. 각각의 추정된 TF 빈은 복소 혼합물 내의 TF 빈 영역의 복소 가중된 합이다. 이는 마스크 압축의 노이즈 감도 없이, 단일 TF 빈에서의 상쇄되는 간섭의 경우를 해결할 수 있게 한다. 이는 또한 0이 아닌 크기를 갖는 이웃하는 TF 빈들을 고려함으로써 0인 TF 빈을 복원할 수 있게 한다. DNN과 TF 필터의 조합은 TF 마스크의 단점 및 기존 TF 필터 접근법 모두를 개선시킨다.
본 명세서는 다음과 같이 구성된다. 섹션 II에서, 본 발명자들은 TF 마스크를 이용한 신호 추출 프로세스를 제공하고, 그 후 섹션 III에서는, 제안된 방법을 설명한다. 섹션 IV는 본 발명자들이 사용한 데이터 세트를 포함하고, 섹션 V는 본 발명자들의 이론적인 고려사항을 검증하기 위한 실험의 결과를 포함한다.
이 추출로부터 시작하여, STFT 마스크 기반 추출이 수행된다. TF 마스크로 처리된 추출이 설명되지만, 성능 평가에서 기준으로 사용되는 마스크의 구현 세부사항도 제공된다.
A. 목적
본 발명자들은 STFT 도메인으로, 원하는 신호 Xd(n, k) 및 원하지 않는 신호 Xu(n, k)의 혼합물 X(n, k)의 복소 단일 채널 스펙트럼을 정의하며, 여기서 n은 시간-프레임이고, k는 주파수 인덱스이다. 본 발명자들은 혼합물 X(n, k)가 중첩된 것으로 고려한다.
Figure pct00014
(1)
일 목적은 마스크를 X(n, k)에 중첩되게 적용함으로써 Xd(n, k)의 추정치를 획득하는 것이다.
Figure pct00015
(2)
여기서,
Figure pct00016
은 추정된 원하는 신호이고,
Figure pct00017
는 추정된 TF 마스크이다. 이진 마스크의 경우,
Figure pct00018
이고, RM의 경우 상한
Figure pct00019
와 함께
Figure pct00020
이며, cRM의 경우
Figure pct00021
이고,
Figure pct00022
이다. 상한 b는 대개, 1 또는 1에 가깝다. 이진 마스크들은 TF 빈들을 분류하고, RM은 크기 보정을 수행하며, cRM은 추가적으로 X(n, k)로부터
Figure pct00023
로 위상 보정을 수행한다. 이 경우, 추출 문제를 해결하는 것은 마스크 추정 문제를 해결하는 것과 같다.
일반적으로, TF 마스크들은 모든 N ㆍ K TF 빈들에 대한 사전 정의된 참 값인 TF 마스크를 추정하도록(여기서 N은 시간-프레임들의 총 개수이고, K는 시간-프레임당 주파수 빈들의 개수임),
Figure pct00024
(3)
(참 값인 마스크는 M(n, k)임), 또는 복원 오차를 감소시키기 위해
Xd(n, k) 및
Figure pct00025
Figure pct00026
(4)
또는 크기 복원을 감소시키기 위해 최적화된 DNN을 이용하여 추정된다.
Figure pct00027
(5)
복원 오차를 최적화하는 것은 손실에 대한 낮은 에너지를 가진 TF 빈들의 영향을 감소시키고 높은 에너지 TF 빈들의 영향을 증가시키는 마스크들의 가중된 최적화와 같다[12]. (1)의 상쇄되는 간섭의 경우, 다음에 의해 주어지는 잘 알려진 삼각 부등식이 성립한다
Figure pct00028
(6)
이때,
Figure pct00029
이다. 따라서, 전역 최적 값은 마스크 상한 b을 초과하여 도달될 수 없다.
B. 구현예
마스크 추정을 위해, 본 발명자들은 배치 정규화 층에 이어서, 층 당 1200개 뉴런을 갖는 3개의 양방향 장단기 메모리(BLSTM) 층[22] 및 TF 빈
Figure pct00030
마다의 허수부 출력과 실수부 출력을 나타내는 (N, K, 2) 차원의 출력 O를 산출하는 tanh 활성화를 갖는 피드포워드 출력층을 갖는 DNN을 사용한다.
마스크 추정의 경우, RM 및 cRM 접근법들에 대해 동일한 수의 훈련 가능한 파라미터들 및
Figure pct00031
의 동일한 최대값을 갖도록 모델을 설계했다. 본 발명자들은 입력 X으로서 적층된 허수부 및 실수부 및 2개의 출력들, 즉, TF 빈 당 O rO i를 갖는 실수 값 DNN을 사용하였다. 이들은 허수부 마스크 성분 및 실수부 마스크 성분으로 해석될 수 있다. RM 추정의 경우,
Figure pct00032
를 계산하여
Figure pct00033
을 산출하였다. cRM의 경우,
Figure pct00034
크기는 1과 √2 사이이며, 여기서 1O i (n, k)의 경우에 달성된다. 이 설정은 위상 의존적 최대 cRM 순 실수부 마스크 값 또는 순 허수부 마스크 값을 산출하고,
Figure pct00035
인 경우 √2를 산출하며, RM과 비교하여 cRM의 증폭 단점을 초래한다. 본 발명자들은 (5)를 이용하여 최적화된 RM 및 (4)를 이용하여 최적화된 cRM을 추정하기 위해 2개의 DNN을 훈련시켰다. cRM의 경우 (2)에서 X(n, k)
Figure pct00036
의 복소 곱셈은 다음과 같이 계산하였다.
Figure pct00037
단순화를 위해 (n, k)는 생략되었음에 유의해야 한다. 본 발명자들은 100개의 에포크를 훈련시켰고, Adam[23] 최적화, BLSTM에서 0.4의 드롭아웃[24], 64의 배치 크기, 각각의 에피소드 이후에 0.9를 곱한 1e-4의 초기 학습 속도를 사용했으며, 검증 손실은 감소하지 않았다.
이하, 제안된 STFT 필터 기반 추출의 개선된 접근법이 설명될 것이다. 여기서, 특히, TF 마스크들 대신에 STFT 도메인 필터를 사용하여 xd를 추정하는 방법이 설명될 것이다. 이 필터는 심층 필터(DF)로 지칭된다.
A. 목적
본 발명자들은 복소 필터를 적용하여
Figure pct00038
에서
Figure pct00039
을 얻는 것을 제안한다
Figure pct00040
(9)
여기서,
Figure pct00041
은 시간-프레임 방향에서의 필터 차원이고,
Figure pct00042
은 주파수 방향에서의 필터 차원이며,
Figure pct00043
은 TF 빈(n, k)의 복소 공액 2D 필터이다. 일반성을 잃지 않고, 단순화를 위해서만, (9)에서 정사각형 필터를 사용했음에 유의해야 한다. 필터 값들은 잘 정의된 DNN 출력들을 제공하기 위해 크기가 제한된 마스크 값들과 같다
Figure pct00044
(10)
DNN은 참 값인 필터(GTF: ground-truth filter)를 정의하거나 복원 평균 제곱 오차(MSE)를 직접적으로 최적화할 필요 없이 훈련을 가능하게 하는 (4)에 따라 최적화된다. 일반적으로 동일한 추출 결과를 초래하는 서로 다른 필터 값의 조합이 무한히 많기 때문에 GTF에 대한 결정은 매우 중요하다. 만일 GTF가 무한히 많은 GTF 세트로부터 TF 빈에 무작위로 선택된 경우, 선택된 필터들 사이에 일관성이 없을 것이기 때문에 훈련은 실패할 것이다. 이 상황은 GTF 설계자에 대해 부분적으로 관찰할 수 있는, 그리고 DNN에 대해 완전히 관찰할 수 있는 프로세스로서 해석할 수 있다. 입력 데이터 특성으로부터, DNN은 모호함이 없이 어떤 필터를 취할지를 정확하게 결정할 수 있다. GTF 설계자는 무한히 큰 세트의 가능한 GTF를 가지고 있지만, 현재의 DNN 업데이트가 이전 업데이트들과 관련하여 일관되게 하기 위해 어떤 GTF를 취할 것인지를 결정하기 위해서 해당 입력 데이터를 해석할 수는 없다. (4)를 이용하여 훈련함으로써, 본 발명자들은 GTF 선택의 문제를 회피한다.
B. 구현예
본 발명자들은 섹션 II-B에서 제안된 것과 동일한 DNN을 사용하여 출력 형상을 (N, K, 2, 2 L + 1, 2 I + 1)로 변경하였으며, 여기서 마지막 2개의 성분은 필터 차원들이다. (9)에서의 복소 곱셈은 (7) 및 (8)에 나타낸 바와 같이 수행되었다. 본 발명자들의 실험에서, L = 2 I = 1로 설정하여, 필터에서 |H n,k (l, i)|의 최대값이 (5, 3)의 차원의 경우 위상 의존되게
Figure pct00045
이었다. 서브섹션 II-B의 cRM와 유사하게, 출력 층 활성화가 사용되었다. 모든
Figure pct00046
는 적어도 1일 수 있기 때문에, DNN은 다음과 같은 경우 이론적으로는 (4)를 그의 전역 최적치인 영(0)으로 최적화할 수 있다
Figure pct00047
(11)
여기서,
Figure pct00048
는 모든 필터 값들이 도달할 수 있는 최대 크기이고, c = 1로 설정되었다. 따라서, 상쇄 간섭을 해결하기 위해, c로 가중된 필터에 의해 고려되는 모든 혼합 크기들의 합산은 원하는 TF 빈 크기와 적어도 동일해야 한다. 필터가 엣지(edge)에서 TF 빈에 대한 스펙트럼을 초과함에 따라, 스펙트럼은 시간 축 상에서 L개의 0 및 주파수 축 상에서 I개의 0으로 패딩되었다.
IV. 데이터 세트
본 발명자들은 AudioSet[25]를 간섭자로서(음성 샘플이 없음), 그리고 LIBRI[26]를 원하는 음성 데이터 코퍼스로서 사용하였다. 모든 데이터는 8 kHz 샘플링 주파수로 다운샘플링되었고, 5초의 지속기간을 가졌다. STFT의 경우, 홉(hop) 크기를 10 ms로 설정하였고, 프레임 길이를 32 ms로 설정했으며, Hann 윈도우를 사용하였다. 결과적으로, 본 발명자들의 테스트에서 K = 129 및 N = 501이다.
본 발명자들은 백색 소음, AudioSet로부터의 간섭, 노치 필터링 및 랜덤 시간-프레임 제로잉(zeroing)(T-kill)을 추가함으로써 원하는 스피치 샘플들을 열화시켰다. 각각의 열화를 50%의 확률로 샘플에 적용하였다. AudioSet 간섭의 경우, 본 발명자들은 무작위로 5초의 AudioSet와 LIBRI로부터 원하는 음성을 선택하여 하나의 훈련 샘플을 계산하였다. 음성 및 간섭은 세그먼트 신호 대 잡음비(SNR)
Figure pct00049
로 혼합되었고, 백색 소음은 SNR
Figure pct00050
로 혼합되었다. 노치 필터링의 경우, 본 발명자들은 품질 계수(quality factor)
Figure pct00051
를 갖는 중심 주파수를 랜덤하게 선택하였다. T-kill이 적용된 경우, 매 시간-프레임은 10퍼센트의 확률로 0으로 되었다. 본 발명자들은 각각의 LIBRI 세트 및 전술한 열화들을 이용하여 100000개의 훈련, 5000개의 검증 및 50000개의 테스트 샘플을 생성하였다. 오버피팅을 방지하기 위해, 훈련, 검증 및 테스트 샘플들은 AudioSet 및 LIBRI로부터의 별개의 음성 및 간섭 샘플들로부터 생성되었다. 테스트 샘플들은 3개의 서브세트들(즉, 테스트 1, 테스트 2 및 테스트 3)로 나누어졌다. 테스트 1에서, 음성은 AudioSet로부터의 간섭에 의해서만 열화되었다. 테스트 2에서, 음성은 노치 필터링 및 T-kill 모두에 의해서만 열화되었다. 테스트 3에서, 음성은 간섭, 노치 필터링 및 T-kill에 의해 동시에 열화되었다. 모든 서브세트들은 백색 소음이 있는 샘플과 없는 샘플을 포함한다.
D. 성능 평가
성능 평가를 위해, 신호 대 왜곡비(SDR: signal-to-distortion-ratio), 신호 대 아티팩트 비(SIR: signal-to-artifact-ratio), 신호 대 간섭비(SIR: signal-to-interference-ratio) [27], 복원 MSE((4) 참조), 단기 객관적 지능(STOI: short-time objective intelligibility) [28], [29], 및 테스트 데이터 세트가 사용되었다.
먼저, 본 발명자들은 처리되었을 때 깨끗한 음성이 얼마나 열화되는지를 테스트했다. RM, cRM, DF 적용 이후의 MSE들은 각각 -33.5, -30.7, 및 -30.2 dB이었다. 오차들은 매우 작으며, 이러한 오차들이 DNN 출력들 상에서의 노이즈에 의해 야기되는 것으로 추정하였다. RM은 DNN 출력에 대한 노이즈가 크기에만 영향을 미치기 때문에 가장 작은 MSE를 생성하고, 그 다음에는 위상 및 크기에 영향을 받는 cRM이며, 마지막으로는 DF가 가장 높은 MSE를 생성한다. 비공식적인 듣기 테스트에서는 차이가 감지되지 않았다. 표 1은 테스트 1 내지 테스트 3의 평균 결과를 나타낸다. 테스트 1에서, DF, cRM 및 RM은 보이지 않는 간섭을 잘 일반화하는 것으로 나타났다. RM 대신에 cRM을 이용한 처리는 성능이 향상되지 않았지만, cRM은 크기 보정에 더해 위상 보정을 수행한다.
Figure pct00052
이는 서브섹션 II-B에 기술된 사용된 DNN 구조에 의해 야기된 RM과 비교하여 cRM의 증폭 단점으로부터 초래될 수 있다. 지표 STOI의 경우, DF 및 RM은 동등하게 수행되는 반면, 다른 지표들의 경우, DF는 더 양호하게 수행되었고, SDR에서 0.61 dB의 추가적인 개선을 달성하였다. MSE 결과의 박스 플롯은 도 5에 도시되어 있다. 본 발명자들은 이것이 상쇄되는 간섭에 대하여 DF의 개선된 복원 능력에 의해 야기되는 것으로 가정한다. 테스트 2에서, DF는 테스트 조건들이 상쇄되는 간섭에 비교할만한 시나리오를 제공하였기 때문에 예상한 바와 같이, cRM 및 RM의 성능보다 분명하게 우월하였다. 도 6은 깨끗한 음성의 로그-크기 스펙트럼과, 매 5번째 시간-프레임 및 주파수 축마다 0으로 열화된 음성의 로그-크기 스펙트럼, 및 DF로 개선된 후의 음성의 로그-크기 스펙트럼을 도시한다. 이러한 도 6에서의 열화는 데이터 세트들에서의 랜덤한 시간-프레임 제로잉(zeroing)과 달리, 예시를 위해서만 수행되었다. 격자의 트레이스는 여전히 가시성이 낮지만 (4)에서의 손실에 의해 집중되는 높은 에너지 스펙트럼 영역에서는 그렇지 않다. 테스트 3에서, DF는 모든 열화를 해결하여 가장 잘 수행한 반면, RM 및 cRM는 그렇지 않았다. 기준 cRM 및 RM은 동등하게 수행되었다.
결론은 다음과 같다.
본 발명자들은 신호 추출을 위한 시간-주파수 마스크의 개념을 복잡한 필터로 확장하여 간섭 감소를 증가시키고 신호 왜곡을 감소시키고, 원하는 신호 및 원하지 않는 신호의 상쇄 간섭을 해결한다. 본 발명자들은 원하는 신호와 추정된 신호 사이의 MSE를 최소화함으로써 훈련되는 심층 신경망을 갖는 필터를 추정하는 것을 제안하였고, 무한히 많은 가능성이 주어진 경우 네트워크 훈련을 위한 필터들을 일관되게 정의할 필요가 있기 때문에 심각할 수 있는 훈련용 참 값 필터들을 정의하는 것을 회피하는 것을 제안하였다. 필터 및 마스크 방법들은 그들의 일반화 능력을 나타내고 깨끗한 음성을 처리할 때 매우 작은 오차만을 도입하는 AudioSet로부터 알려지지 않은 간섭 신호들을 고려하여, 음성 추출을 수행할 수 있었다. 본 발명자들의 접근법은, 모든 지표에서 복소 비율 마스크보다 우월한 성능을 보였고, 성능이 동등한 한가지 지표 외 모든 지표에 대해서 비율 마스크 기준보다 성능이 우월했다. 간섭 감소 외에도, 본 발명자들은 시간-프레임 제로잉 또는 노치 필터를 이용한 필터링에 의해 시뮬레이션된 데이터 손실이 해결될 수 있는지 여부를 테스트하였으며, 단지 제안된 방법이 원하는 신호를 복원할 수 있었음을 제시하였다. 따라서, 심층 필터들을 이용하는 경우, 신호 추출 및/또는 복원은 패킷 손실 또는 알려지지 않은 간섭이 있는 매우 불리한 조건들 하에서 실행 가능한 것으로 보인다.
전술한 바와 같이, 전술한 접근법은 컴퓨터에 의해 수행될 수 있으며, 즉, 일 실시예는 전술한 방법들 중 하나를 수행하는 컴퓨터 프로그램을 지칭한다. 유사하게, 이러한 접근법은 장치를 사용하여 수행될 수 있다.
몇몇 양태들은 장치의 맥락에서 설명되었지만, 이들 양태들은 또한 대응하는 방법의 설명을 나타내는 것이 분명하며, 여기서, 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계와 관련하여 설명되는 양태들은 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이를 사용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 일부는 이러한 장치에 의해 실행될 수 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나, 또는 인터넷과 같은 유선 전송 매체 또는 무선 전송 매체와 같은 전송 매체 상에서 전송될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현예는, 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독가능한 제어 신호들이 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독가능한 매체일 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에 설명된 방법들 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 상기 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작한다. 예를 들어, 프로그램 코드는 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시예들은 기계 판독가능 캐리어 상에 저장된, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 일 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하고 이것이 기록된 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 대개, 유형의(tangible) 것이고/이거나 비-일시적이다.
본 발명의 방법의 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들어, 인터넷을 통해 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
다른 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어, 컴퓨터, 또는 프로그램 가능한 논리 장치를 포함한다.
다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수신기에 대해 수행하기 위한 컴퓨터 프로그램을 전송(예를 들어, 전자적으로 또는 광학적으로)하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예를 들어, 컴퓨터 프로그램을 수신기에 대해 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 본 명세서에 설명된 방법들의 기능들 중 일부 또는 전부를 수행하기 위해 프로그램 가능한 논리 장치(예를 들면, 필드 프로그래머블 게이트 어레이)가 사용될 수 있다. 일부 실시예들에서, 필드 프로그래머블 게이트 어레이는 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 상기 방법들은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
전술한 실시예들은 단지 본 발명의 원리를 설명하기 위한 것이다. 통상의 기술자에게는 본 명세서에 설명된 배열 및 상세한 설명의 수정 및 변형이 명백할 것이라는 점을 이해할 것이다. 따라서, 본 발명은, 본 명세서의 실시예들의 설명에 의해 제시되는 구체적인 세부사항들에 의해서가 아니라, 첨부된 특허 청구항들의 범위에 의해서만 제한되는 것으로 의도된다.
참고문헌
[01] J. Le Roux and E. Vincente, "Consistent Wiener filtering for audio source separation," IEEE Signal Processing Letters, pp. 217-220, March 2013.
[02] B. Jacob , J. Chen and E. A. P. Habets, Speech enhancement in the STFT domain, Springer Science & Business Media., 2011.
[03] T. Virtanen, "Monaural sound source separation by nonnegative matrix factorization with temporal continuity and sparseness criteria," IEEE TRANS. ON AUDIO, SPEECH, AND LANGUAGE PROCES., pp. 1066-1074, February 2007.
[04] F. Weninger, J. L. Roux, J. R. Hershey and S. Watanabe, "Discriminative NMF and its application to single-channel source separation," In Fifteenth Annual Conf. of the Intl. Speech Commun. Assoc., September 2014.
[05] D. Wang and J. Chen, "Supervised speech separation based on deep learning: An overview," Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 1702 - 1726, May 2018.
[06] J. R. Hershey, Z. Chen, J. L. Roux and S. Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 31-35, March 2016.
[07] Y. Dong, M. Kolbaek, Z. H. Tan and J. Jensen, "Permutation invariant training of deep models for speaker-independent multi-talker speech separation," Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 241-245, March 2017.
[08] D. S. Williamson and D. Wang, "Speech dereverberation and denoising using complex ratio masks," Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 5590-5594, March 2017.
[09] J. Lecomte et al., "Packet-loss concealment technology advances in EVS," Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 5708-5712, August 2015.
[1] K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks, and T. Zhang, "Learning spectral mapping for speech dereverberation and denoising," IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 6, pp. 982-992, June 2015.
[2] Y. Wang, A. Narayanan, and D. Wang, "On training targets for supervised speech separation," IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1849-1858, December 2014.
[3] D. S. Williamson, Y. Wang, and D. Wang, "Complex ratio masking for monaural speech separation," IEEE Trans. Audio, Speech, Lang. Process., vol. 24, no. 3, pp. 483-492, March 2016.
[4] D. S. Williamson and D. Wang, "Speech dereverberation and denoising using complex ratio masks," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 5590-5594.
[5] J. R. Hershey, Z. Chen, J. L. Roux, and S. Watanabe, "Deep clustering: Discriminative embeddings for segmentation and separation," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2016, pp. 31-35.
[6] Z. Chen, Y. Luo, and N. Mesgarani, "Deep attractor network for single-microphone speaker separation," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 246-250.
[7] Y. Isik, J. L. Roux, Z. Chen, S. Watanabe, and J. R. Hershey, "Single-channel multi-speaker separation using deep clustering," in Proc. Inter-speech Conf., September 2016, pp. 545-549.
[8] D. Yu, M. Kolbaek, Z. H. Tan, and J. Jensen, "Permutation invariant training of deep models for speaker-independent multi-talker speech separation," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 241-245.
[9] Y. Luo, Z. Chen, J. R. Hershey, J. L. Roux, and N. Mesgarani, "Deep clustering and conventional networks for music separation: Stronger together," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 61-65.
[10] M. Kolbaek, D. Yu, Z.-H. Tan, J. Jensen, M. Kolbaek, D. Yu, Z.-H. Tan, and J. Jensen, "Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks," IEEE Trans. Audio, Speech, Lang. Process., vol. 25, no. 10, pp. 1901-1913, October 2017.
[11] W. Mack, S. Chakrabarty, F.-R. Stoter, S. Braun, B. Edler, and E. A. P. Habets, "Single-channel dereverberation using direct MMSE optimization and bidirectional LSTM networks," in Proc. Interspeech Conf., September 2018, pp. 1314-1318.
[12] H. Erdogan and T. Yoshioka, "Investigations on data augmentation and loss functions for deep learning based speech-background separation," in Proc. Interspeech Conf., September 2018, pp. 3499-3503.
[13] D. Wang, "On ideal binary mask as the computational goal of audi-tory scene analysis," in Speech Separation by Humans and Machines, P. Divenyi, Ed. Kluwer Academic, 2005, pp. 181-197.
[14] C. Hummersone, T. Stokes, and T. Brookes, "On the ideal ratio mask as the goal of computational auditory scene analysis," in Blind Source Separation, G. R. Naik and W. Wang, Eds. Springer, 2014, pp. 349- 368.
[0] F. Mayer, D. S. Williamson, P. Mowlaee, and D. Wang, "Impact of phase estimation on single-channel speech separation based on time-frequency masking," J. Acoust. Soc. Am., vol. 141, no. 6, pp. 4668-4679, 2017.
[1] F. Weninger, H. Erdogan, S. Watanabe, E. Vincent, J. Roux, J. R. Hershey, and B. Schuller, "Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR," in Proc. of the 12th Int. Conf. on Lat.Var. An. and Sig. Sep., ser. LVA/ICA. New York, USA: Springer-Verlag, 2015, pp. 91-99.
[2] X. Li, J. Li, and Y. Yan, "Ideal ratio mask estimation using deep neural networks for monaural speech segregation in noisy reverberant conditions," August 2017, pp. 1203-1207.
[3] J. Benesty, J. Chen, and E. A. P. Habets, Speech Enhancement in the STFT Domain, ser. SpringerBriefs in Electrical and Computer Engineering. Springer-Verlag, 2011.
[4] J. Benesty and Y. Huang, "A single-channel noise reduction MVDR filter," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2011, pp. 273-276.
[5] D. Fischer, S. Doclo, E. A. P. Habets, and T. Gerkmann, "Com-bined single-microphone Wiener and MVDR filtering based on speech interframe correlations and speech presence probability," in Speech Communication; 12. ITG Symposium, Oct 2016, pp. 1-5.
[6] D. Fischer and S. Doclo, "Robust constrained MFMVDR filtering for single-microphone speech enhancement," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), 2018, pp. 41-45.
[7] S. Hochreiter and J. Schmidhuber, "Long short-term memory," Neural Computation, vol. 9, no. 8, pp. 1735-1780, Nov 1997.
[8] J. B. D. Kingma, "Adam: A method for stochastic optimization," in Proc. IEEE Intl. Conf. on Learn. Repr. (ICLR), May 2015, pp. 1-15.
[9] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, "Dropout: A simple way to prevent neural networks from overfitting," J. Mach. Learn. Res., vol. 15, no. 1, pp. 1929-1958, January 2014. [Online]. Available: http://dl.acm.org/citation.cfm?id=2627435.2670313
[10] J. F. Gemmeke, D. P. W. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter, "Audio Set: An ontology and human-labeled dataset for audio events," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), March 2017, pp. 776-780.
[11] V. Panayotov, G. Chen, D. Povey, and S. Khudanpur, "Librispeech: An ASR corpus based on public domain audio books," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 2015, pp. 5206-5210.
[12] C. Raffel, B. McFee, E. J. Humphrey, J. Salamon, O. Nieto, D. Liang, and D. P. W. Ellis, "MIR EVAL: A transparent implementation of common MIR metrics," in Intl. Soc. of Music Inf. Retrieval, October 2014, pp. 367-372.
[13] C. H. Taal, R. C. Hendriks, R. Heusdens, and J. Jensen, "An algorithm for intelligibility prediction of time-frequency weighted noisy speech," IEEE Trans. Audio, Speech, Lang. Process., vol. 19, no. 7, pp. 2125- 2136, September 2011.
[14] M. Pariente, "pystoi," https://github.com/mpariente/pystoi, 2018.

Claims (21)

  1. 혼합물을 필터링하기 위한 방법으로서,
    적어도 하나의 차원의 심층 필터(deep filter)(10x)를 결정하는 단계(100)를 포함하되, 상기 심층 필터를 결정하는 단계는,
    혼합물(10)을 수신하는 단계(110);
    심층 신경망(Deep Neural Network)을 이용하여 상기 심층 필터(10x)를 추정하는 단계(120) - 상기 추정(120)은, 상기 혼합물(10)의 성분들에 적용될 때 상기 심층 필터(10x)가 원하는 표현(11)의 각각의 성분들의 추정치들을 얻도록 수행됨 -,
    상기 적어도 1차원의 심층 필터(10x)는 성분들(sx,y)을 갖는 텐서를 포함하는, 단계; 및
    상기 혼합물(10)에 상기 심층 필터(10x)를 적용하는 단계를 포함하는, 방법.
  2. 제1항에 있어서, 상기 혼합물(10)은 실수 값 또는 복소수 값의 시간-주파수 표현 또는 그것의 특징 표현을 포함하고,
    상기 원하는 표현(11)은 원하는 실수 값의 또는 복소수 값의 시간-주파수 표현 또는 그것의 특징 표현을 포함하는, 방법(100).
  3. 제1항 내지 제2항 중 어느 한 항에 있어서, 상기 심층 필터(10x)는 실수 값 또는 복소수 값의 시간-주파수 필터를 포함하고, 그리고/또는 상기 적어도 하나의 차원의 차원 필터(10x)는 상기 단기 푸리에 변환 도메인으로 기술되는, 방법(100).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 추정 단계(120)는 상기 혼합물(10)의 각각의 성분에 대해 또는 상기 혼합물(10)의 성분들의 미리 결정된 부분에 대해 수행되는, 방법(100).
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 추정(120)은 적어도 2개의 소스들에 대해 수행되는, 방법(100).
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 적어도 하나의 차원의 심층 필터(10x)에 대한 필터 변수들을 갖는 필터 구조를 정의하는 단계를 더 포함하는, 방법(100).
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 심층 신경망은 상기 심층 필터(10x)의 필터 함수의 필터 값들의 개수와 동일한 수의 출력 파라미터들을 포함하는, 방법(100).
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 적어도 하나의 차원은 시간, 주파수 및 센서를 포함하는 그룹 외에 있거나,
    상기 적어도 하나의 차원은 시간 또는 주파수에 걸쳐 있는, 방법(100).
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 심층 신경망은 배치 정규화 층, 양방향 장단기 메모리 층, tanh 활성화를 갖는 피드포워드(feed-forward) 출력층 및/또는 하나 이상의 추가적인 층을 포함하는, 방법(100).
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 심층 신경망을 훈련시키는 단계를 더 포함하는, 방법(100).
  11. 제10항에 있어서, 상기 심층 신경망은 상기 원하는 표현(11)의 참 값 및 상기 원하는 표현(11)의 추정치 사이의 평균 제곱 오차를 최적화함으로써 훈련되거나,
    상기 심층 신경망은 상기 원하는 표현(11) 및 상기 원하는 표현(11)의 추정치 사이의 복원 오차를 감소시킴으로써 훈련되거나, 또는
    상기 훈련은 크기 복원에 의해 수행되는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 추정(120)은 다음 식을 사용하여 수행되고,
    Figure pct00053
    ,
    여기서,
    Figure pct00054
    는 시간-프레임 방향에서의 필터 차원이고
    Figure pct00055
    은 주파수 방향에서의 필터 차원이며
    Figure pct00056
    는 복소 켤레 1D 또는 2D 필터이며,
    Figure pct00057
    는 추정된 원하는 표현(11)이고, 여기서 n은 시간-프레임이며, k는 주파수 인덱스인, 방법.
  13. 제10항, 제11항 또는 제12항에 있어서, 상기 훈련은 다음 식:
    Figure pct00058
    을 사용하여 수행되거나 - 여기서
    Figure pct00059
    는 원하는 표현(11)이고,
    Figure pct00060
    은 추정된 원하는 표현(11)이며, N은 시간-프레임들의 총 수이고, K는 시간-프레임당 주파수 빈들의 수임-,
    다음 식:
    Figure pct00061
    을 사용하여 - 여기서,
    Figure pct00062
    는 원하는 표현(11)이고,
    Figure pct00063
    은 추정된 원하는 표현(11)이며, N은 시간-프레임들의 총 수이고, K는 시간-프레임당 주파수 빈들의 수임- 수행되는, 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 있어서, 상기 심층 필터(10x)의 텐서 성분들(sx,y)은 크기가 제한되거나, 또는 다음의 식을 사용하여 크기가 제한되되,
    Figure pct00064
    , 여기서
    Figure pct00065
    는 복소 켤레 2D 필터인, 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 상기 적용하는 단계는 성분 단위로 수행되는, 방법(100).
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 적용하는 단계는 각각의 텐서 성분(sx,y)에서 상기 원하는 표현(11)의 추정치를 얻기 위해 합산함으로써 수행되는, 방법(100).
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 적어도 두 개의 소스들의 신호 추출을 위한 또는 신호 분리를 위한 방법(100).
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 신호 복원을 위한 방법(100).
  19. 컴퓨터에서 실행될 때, 제1항 내지 제18항 중 어느 한 항에 따른 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램.
  20. 심층 필터(10x)를 결정하기 위한 장치로서, 상기 장치는
    혼합물(10)을 수신하기 위한 입력부(110);
    상기 심층 필터(10x)가 상기 혼합물(10)의 성분들에 적용될 때, 원하는 표현(11)의 각각의 성분들의 추정치를 얻도록, 상기 심층 필터(10x)를 추정(120)하기 위한 심층 신경망을 포함하고,
    적어도 하나의 차원의 상기 심층 필터(10x)는 성분들(sx,y)을 갖는 텐서를 포함하는, 장치.
  21. 혼합물을 필터링하는 장치로서, 제20항의 장치에 의해 결정된 바와 같은 심층 필터, 및 상기 심층 필터를 상기 혼합물에 적용하기 위한 수단을 포함하는, 장치.
KR1020217037382A 2019-04-16 2020-04-15 심층 필터를 결정하기 위한 방법 및 장치 KR20210153677A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19169585.7 2019-04-16
EP19169585.7A EP3726529A1 (en) 2019-04-16 2019-04-16 Method and apparatus for determining a deep filter
PCT/EP2020/060586 WO2020212419A1 (en) 2019-04-16 2020-04-15 Method and apparatus for determining a deep filter

Publications (1)

Publication Number Publication Date
KR20210153677A true KR20210153677A (ko) 2021-12-17

Family

ID=66217806

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217037382A KR20210153677A (ko) 2019-04-16 2020-04-15 심층 필터를 결정하기 위한 방법 및 장치

Country Status (9)

Country Link
US (1) US20220059114A1 (ko)
EP (2) EP3726529A1 (ko)
JP (2) JP7486266B2 (ko)
KR (1) KR20210153677A (ko)
CN (1) CN114041185A (ko)
BR (1) BR112021020361A2 (ko)
CA (1) CA3136870A1 (ko)
MX (1) MX2021012603A (ko)
WO (1) WO2020212419A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022533300A (ja) * 2019-03-10 2022-07-22 カードーム テクノロジー リミテッド キューのクラスター化を使用した音声強化
US11676598B2 (en) 2020-05-08 2023-06-13 Nuance Communications, Inc. System and method for data augmentation for multi-microphone signal processing
GB2620747A (en) * 2022-07-19 2024-01-24 Samsung Electronics Co Ltd Method and apparatus for speech enhancement
US20240112690A1 (en) * 2022-09-26 2024-04-04 Cerence Operating Company Switchable Noise Reduction Profiles

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
US9881631B2 (en) 2014-10-21 2018-01-30 Mitsubishi Electric Research Laboratories, Inc. Method for enhancing audio signal using phase information
US9666183B2 (en) * 2015-03-27 2017-05-30 Qualcomm Incorporated Deep neural net based filter prediction for audio event classification and extraction
US10339921B2 (en) * 2015-09-24 2019-07-02 Google Llc Multichannel raw-waveform neural networks
KR102151682B1 (ko) * 2016-03-23 2020-09-04 구글 엘엘씨 다중채널 음성 인식을 위한 적응성 오디오 강화
US11373672B2 (en) * 2016-06-14 2022-06-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US10224058B2 (en) * 2016-09-07 2019-03-05 Google Llc Enhanced multi-channel acoustic models
EP3649642A1 (en) * 2017-07-03 2020-05-13 Yissum Research Development Company of The Hebrew University of Jerusalem Ltd. Method and system for enhancing a speech signal of a human speaker in a video using visual information

Also Published As

Publication number Publication date
EP3726529A1 (en) 2020-10-21
JP2024038369A (ja) 2024-03-19
US20220059114A1 (en) 2022-02-24
MX2021012603A (es) 2021-11-12
CN114041185A (zh) 2022-02-11
CA3136870A1 (en) 2020-10-22
WO2020212419A1 (en) 2020-10-22
JP7486266B2 (ja) 2024-05-17
EP3956888A1 (en) 2022-02-23
BR112021020361A2 (pt) 2021-12-07
JP2022529912A (ja) 2022-06-27

Similar Documents

Publication Publication Date Title
Mack et al. Deep filtering: Signal extraction and reconstruction using complex time-frequency filters
JP7486266B2 (ja) 深層フィルタを決定するための方法および装置
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
Han et al. Learning spectral mapping for speech dereverberation
US9008329B1 (en) Noise reduction using multi-feature cluster tracker
Xu et al. Generalized spatio-temporal rnn beamformer for target speech separation
EP4044181A1 (en) Deep learning speech extraction and noise reduction method fusing signals of bone vibration sensor and microphone
Liu et al. Deep CASA for talker-independent monaural speech separation
EP4211686A1 (en) Machine learning for microphone style transfer
Tan et al. Improving robustness of deep learning based monaural speech enhancement against processing artifacts
Quan et al. Multichannel long-term streaming neural speech enhancement for static and moving speakers
Ram et al. Deep neural network based speech enhancement
Sun et al. Enhanced time-frequency masking by using neural networks for monaural source separation in reverberant room environments
Fan et al. Joint Training for Simultaneous Speech Denoising and Dereverberation with Deep Embedding Representations.
Aichner et al. Post-processing for convolutive blind source separation
RU2788939C1 (ru) Способ и устройство для определения глубокого фильтра
Parchami et al. Speech reverberation suppression for time-varying environments using weighted prediction error method with time-varying autoregressive model
Rosca et al. Multi-channel psychoacoustically motivated speech enhancement
Gui et al. Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank
Dam et al. Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments
Fan et al. Simultaneous denoising and dereverberation using deep embedding features
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
Kothapally et al. Monaural Speech Dereverberation using Deformable Convolutional Networks
TWI749547B (zh) 應用深度學習的語音增強系統
Buragohain et al. Single Channel Speech Enhancement System using Convolutional Neural Network based Autoencoder for Noisy Environments

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal