KR20180069879A - 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링 - Google Patents

음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링 Download PDF

Info

Publication number
KR20180069879A
KR20180069879A KR1020187013790A KR20187013790A KR20180069879A KR 20180069879 A KR20180069879 A KR 20180069879A KR 1020187013790 A KR1020187013790 A KR 1020187013790A KR 20187013790 A KR20187013790 A KR 20187013790A KR 20180069879 A KR20180069879 A KR 20180069879A
Authority
KR
South Korea
Prior art keywords
covariance matrix
audio signals
noise
sound field
output
Prior art date
Application number
KR1020187013790A
Other languages
English (en)
Other versions
KR102064902B1 (ko
Inventor
이텡 후앙
알레잔드로 루에브스
얀 스코글런드
빌럼 바스티안 클레인
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20180069879A publication Critical patent/KR20180069879A/ko
Application granted granted Critical
Publication of KR102064902B1 publication Critical patent/KR102064902B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0205
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

마이크로폰 어레이 음성 강화를 위한 기존의 포스트 필터링 방법들은 두 가지 공통적인 결함들을 갖는다. 첫째, 이들은 잡음이 백색 또는 확산 잡음이라고 가정하며, 포인트 간섭자들을 다룰 수 없다. 둘째, 이들은 한 번에 2개의 마이크로폰들만을 사용하여 포스트 필터 계수들을 추정하여, 모든 마이크로폰 쌍들에 걸쳐 평균을 수행하여, 차선의 해를 산출한다. 제공된 방법은 백색 잡음, 확산 잡음 및 포인트 간섭자들을 처리하는 신호 모델들을 구현하는 포스트 필터링 해법을 기술한다. 이 방법은 또한 마이크로폰 어레이에서 마이크로폰들의 전역적으로 최적화된 최소 제곱 접근 방식을 구현하여, 기존의 종래의 방법들보다 더 최적의 해법을 제공한다. 실험 결과들은 설명된 방법이 다양한 음향 시나리오들에서 종래의 방법들을 능가함을 보여준다.

Description

음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링
[0001] 불리한 음향 환경들에서 음성 포착을 위해 잡음, 간섭 및 잔향을 방지하기 위한 효과적인 도구로서 마이크로폰 어레이들이 점점 더 많이 인식되고 있다. 애플리케이션들은 몇 가지만 예로 들자면, 견고한 음성 인식, 핸즈프리 음성 통신 및 원격 화상 회의, 보청기들을 포함한다. 빔 형성은 특정 방향들에서 오는 신호들을 수신하면서 다른 방향들로부터의 신호들을 감쇠시키는 형태의 공간 필터링을 제공하는 종래의 마이크로폰 어레이 처리 기술이다. 공간 필터링이 가능하지만, 이는 신호 재구성의 관점에서 최소 평균 제곱 오차(MMSE: minimum mean square error)의 의미에서는 최적이 아니다.
[0002] 포스트 필터링(post-filtering)을 위한 한 가지 종래의 방법은 최소 분산 무왜곡 응답(MVDR: minimum variance distortionless response) 빔 형성기와 단일 채널 포스트 필터로 분해될 수 있는 다채널 위너 필터(MCWF: multichannel Wiener filter)이다. 현재 공지된 종래의 포스트 필터링 방법들은 빔 형성 후에 음성 품질을 향상시킬 수 있지만, 이러한 기존의 방법들은 두 가지 공통적인 한계들 또는 결함들을 갖는다. 첫째, 이러한 방법들은 관련 잡음이 단지 백색(비간섭성) 잡음 또는 확산 잡음일 뿐이라고 가정하며, 따라서 이 방법들은 포인트 간섭자들을 다루지 않는다. 포인트 간섭자들은 예를 들어, 여러 사람들이 말하고 있고 한 사람이 원하는 오디오 소스인 환경에서, 다른 화자들로부터 나오는 원치 않는 잡음이다. 둘째, 이러한 기존의 접근 방식들은 한 번에 2개의 마이크로폰들을 사용하여 포스트 필터 계수들이 추정되고 그 다음에 모든 마이크로폰 쌍들에 대해 평균되는 경험적(heuristic) 기법을 적용하며, 이는 차선의 결과들로 이어진다.
[0003] 이 발명의 내용은 본 개시내용의 일부 양상들의 기본적인 이해를 제공하기 위해 선택된 개념들을 단순화된 형태로 소개한다. 이 발명의 내용은 본 개시내용의 포괄적인 개요가 아니며, 본 개시내용의 주요 또는 핵심 엘리먼트들을 식별하거나 본 개시내용의 범위를 기술하는 것으로 의도되는 것이 아니다. 이 발명의 내용은 단순히 아래에 제공되는 발명을 실시하기 위한 구체적인 내용에 대한 서론으로서 본 개시내용의 개념들 중 일부를 제시한다.
[0004] 일반적으로, 본 명세서에서 설명되는 요지의 하나의 양상은 방법들, 장치들 및 컴퓨터 판독 가능 매체로 구현될 수 있다. 예시적인 장치는 하나 또는 그보다 많은 처리 디바이스들, 및 하나 또는 그보다 많은 처리 디바이스들에 의해 실행될 때 하나 또는 그보다 많은 처리 디바이스들로 하여금 예시적인 방법을 구현하게 하는 명령들을 저장하는 하나 또는 그보다 많은 저장 디바이스들을 포함한다. 예시적인 컴퓨터 판독 가능 매체는 예시적인 방법을 구현하기 위한 명령들의 세트들을 포함한다. 본 개시내용의 일 실시예는 포스트 필터에 대한 잡음을 감소시키기 위한 계수 값들을 추정하기 위한 방법에 관한 것으로, 이 방법은: 환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하는 단계; 수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우는 단계; 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하는 단계; 가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하는 단계; 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하는 단계; 결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 음원들의 거듭제곱을 추정하는 단계; 추정된 거듭제곱에 기초하여 포스트 필터 계수들을 계산하고 적용하는 단계; 및 수신된 오디오 신호들 및 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키는 단계를 포함한다.
[0005] 하나 또는 그보다 많은 실시예들에서, 본 명세서에 설명되는 방법들은 다음의 추가 특징들: 다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설을 세우는 것 ― 발생된 다수의 출력 신호들이 비교되어, 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택됨 ―; 거듭제곱의 추정이 프로베니우스 노름(Frobenius norm)에 기초하는 것 ― 프로베니우스 노름은 공분산 행렬들의 에르미트(Hermitian) 대칭을 사용하여 계산됨 ―; 음장 시나리오의 가설을 세우고, 공분산 행렬 모델들을 결정하며, 공분산 행렬을 계산하기 위해, 음원 위치 결정 방법들을 사용하여 음원들 중 적어도 하나의 음원의 위치를 결정하는 것; 가설이 세워진 복수의 음장 시나리오들에 기초하여 공분산 행렬 모델들이 생성되는 것 ― 공분산 행렬 모델은 잡음을 감소시키는 목적 함수를 최대화하도록 선택되고, 목적 함수는 최종 출력 오디오 신호의 표본 분산임 ― 중 하나 이상을 선택적으로 포함할 수 있다.
[0006] 본 개시내용의 적용 가능성의 추가 범위는 아래에 주어지는 발명을 실시하기 위한 구체적인 내용으로부터 명백해질 것이다. 그러나 본 개시내용의 취지 및 범위 내의 다양한 변경들 및 수정들이 발명을 실시하기 위한 구체적인 내용으로부터 당해 기술분야에서 통상의 지식을 가진 자들에게 명백해질 것이므로, 이 발명을 실시하기 위한 구체적인 내용은 바람직한 실시예들을 설명하지만 단지 예시로만 주어진다고 이해되어야 한다.
[0007] 본 개시내용의 이들 및 다른 목적들, 특징들 및 특성들은, 모두 본 명세서의 일부를 형성하는 첨부된 청구항들 및 도면들과 함께 다음의 발명을 실시하기 위한 구체적인 내용의 연구로부터 당해 기술분야에서 통상의 지식을 가진 자들에게 보다 명백해질 것이다. 도면들에서:
[0008] 도 1은 본 명세서에서 설명되는 하나 또는 그보다 많은 실시예들에 따라 가설이 세워진 음장 시나리오에 기초하여 포스트 필터링된 출력 신호를 발생시키기 위한 예시적인 시스템을 예시하는 기능 블록도이다.
[0009] 도 2는 예시적인 시스템에서 잡음 환경으로부터 발생된 빔 형성된 단일 채널 출력을 예시하는 기능 블록도이다.
[0010] 도 3은 예시적인 시스템에서 가설이 세워진 음장 시나리오에 기초한 공분산 행렬 모델들의 결정을 예시하는 기능 블록도이다.
[0011] 도 4는 주파수 빈에 대한 포스트 필터 추정을 예시하는 기능 블록도이다.
[0012] 도 5는 본 개시내용의 일 실시예에 따라, 주파수 빈에 대한 포스트 필터 계수들을 계산하기 위한 예시적인 단계들을 예시하는 흐름도이다.
[0013] 도 6은 실험 결과들과 관련된 마이크로폰 어레이 및 음원들의 공간적 배열을 예시한다.
[0014] 도 7은 예시적인 컴퓨팅 디바이스를 예시하는 블록도이다.
[0015] 본 명세서에서 제공되는 제목들은 편의를 위한 것일 뿐이며 청구항들의 범위 또는 의미에 반드시 영향을 주는 것은 아니다.
[0016] 본 개시내용은 일반적으로 오디오 신호 처리를 위한 시스템들 및 방법들에 관한 것이다. 보다 구체적으로, 본 개시내용의 양상들은 마이크로폰 어레이 음성 강화를 위한 포스트 필터링 기술들에 관한 것이다.
[0017] 다음의 설명은 개시내용의 완전한 이해를 위한 그리고 설명을 가능하게 하기 위한 특정 세부 사항들을 제공한다. 그러나 당해 기술분야에서 통상의 지식을 가진 자는 본 명세서에 설명되는 실시예들이 이러한 많은 세부사항들 없이도 실시될 수 있다고 이해할 것이다. 마찬가지로, 당해 기술분야에서 통상의 지식을 가진 자는 본 명세서에서 설명되는 예시적인 실시예들이 본 명세서에서 상세히 설명되지 않는 많은 다른 명백한 특징들을 포함할 수 있다고 또한 이해할 것이다. 추가로, 일부 잘 알려진 구조들 또는 기능들은 관련 설명을 불필요하게 모호하게 하는 것을 피하도록, 아래에 상세히 설명되거나 도시하지 않을 수 있다.
[0018] 1. 서문
[0019] 본 개시내용의 특정 실시예들 및 특징들은 확산 및 백색 잡음뿐만 아니라 포인트 간섭 소스들도 고려하는 신호 모델을 이용하는, 오디오 신호들을 포스트 필터링하기 위한 방법들 및 시스템들에 관한 것이다. 아래에서 보다 상세히 설명되는 바와 같이, 이 방법들 및 시스템들은 마이크로폰 어레이에서 마이크로폰들의 전역적으로 최적화된 최소 제곱(LS: least-squares) 해를 달성하도록 설계된다. 특정 구현들에서, 개시되는 방법의 성능은 합성된 확산 및 백색 잡음을 포함하여 원하는 소스 및 간섭 소스에 대한 실제 녹음된 임펄스 응답들을 사용하여 평가된다. 임펄스 응답은 임펄스라고 하는 짧은 입력 신호에 대한 동적 시스템의 출력 또는 반응이다.
[0020] 도 1은 가설이 세워진 음장 시나리오(111)에 기초하여 포스트 필터링된 출력 신호(175)를 발생시키기 위한 예시적인 시스템을 예시한다. 가설이 세워진 음장 시나리오(111)는 잡음 환경(105)에서 잡음 성분들(106-108)의 구성의 결정이다. 실제로, 실제 음장 구성에 대한 정확한 지식에 접근하기 어려울 때, 가능한 구성에 대한 몇 가지 서로 다른 가설들이 세워질 수 있다. 그 다음, 이러한 가설들 각각은 독립적으로 처리되고, 최상의 결과들이 출력된다. 이 전략에 따르면, 가설이 세워진 각각의 음장 구성은 가설이 세워진 음장 시나리오라고 할 수 있다. 본 명세서에서 개시되는 시스템들 및 방법들에 따르면, 복수의 합성 시나리오들이 사용되는데, 각각의 합성 시나리오는 음원들 각각에 대한 물리적 위치들 및/또는 물리적 타입들인 시나리오들의 세트들로 구성되며, 여기서는 원하는 음원을 위해 시나리오들의 세트에 걸쳐 목적 함수를 최대화하는 것 그리고 간섭 음원들 중 적어도 하나를 위해 시나리오들의 세트에 걸쳐 상기 목적 함수를 최소화하는 것을 기초로 하나의 합성 시나리오가 선택된다. 그 결과, 이러한 개시된 접근 방식은 다른 다중 시나리오 접근 방식들의 보다 일반화된 형태로 보일 수 있다. 이 예시적인 실시예에서는, 가설이 세워진 하나의 음장 시나리오(111)가 다양한 주파수 빈들(F1-Fn)(165a-c)에 입력되어 출력/원하는 신호(175)를 발생시킨다. 가설이 세워진 음장 시나리오(111)에서, 신호들은 주파수 도메인으로 변환된다. 빔 형성 및 포스트 필터링은 주파수마다 독립적으로 실행된다.
[0021] 이 예시적인 실시예에서, 가설이 세워진 음장 시나리오는 하나의 간섭 소스를 포함한다. 다른 예시적인 실시예에서, 가설이 세워진 음장 시나리오들은 다수의 간섭 시나리오들을 포함하여 더 복잡할 수 있다. 다른 예시적인 실시예들에서는, 원하는 음원 외에 간섭 음원은 없지만 확산 잡음만이 있는 경우, 보다 단순한, 가설이 세워진 음장 시나리오가 사용될 수 있다. 복수의 간섭 음원들이 있는 다른 경우들에는, 더 많은 수의 음향 성분들을 가진 보다 복잡한 가설이 세워진 음장 시나리오가 사용된다.
[0022] 또한, 다른 예시적인 실시예들에서, 가설이 세워진 다수의 음장 시나리오들이 결정되어 다수의 출력 신호들을 발생시킬 수 있다. 당해 기술분야에서 통상의 지식을 가진 자는 환경에 대해 알려지거나 결정될 수 있는 정보와 같은 다양한 인자들에 기초하여 다수의 음장 시나리오들의 가설이 세워질 수 있다고 이해할 것이다. 당해 기술분야에서 통상의 지식을 가진 자는 또한 출력 신호들의 품질이 (예를 들어, 아래에 논의되는 실험들에서 측정된 바와 같이) 신호대 잡음비를 측정하는 것과 같은 다양한 인자들을 사용하여 결정될 수 있다고 이해할 것이다. 다른 예시적인 실시예들에서, 당해 기술분야에서 통상의 지식을 가진 자는 음장 시나리오들의 가설을 세우고 출력 신호들의 품질을 결정하기 위해 다른 방법들을 적용할 수 있다.
[0023] 도 1은 하나 또는 그보다 많은 잡음 성분들(106-108)을 포함할 수 있는 잡음 환경(105)을 예시한다. 환경(105) 내의 잡음 성분들(106-108)은 예를 들어 확산 잡음, 백색 잡음 및/또는 포인트 간섭 잡음 소스들을 포함할 수 있다. 환경(105) 내의 잡음 성분들(106-108) 또는 잡음 소스들은 다양한 위치들에 배치되어, 다양한 방향들로 그리고 다양한 전력/강도 레벨들로 잡음을 방출할 수 있다. 각각의 잡음 성분(106-108)은 마이크로폰 어레이(130)에서 복수의 마이크로폰들(M1…Mn)(115, 120, 125)에 의해 수신될 수 있는 오디오 신호들을 발생시킨다. 환경(105) 내의 잡음 성분들(106-108)에 의해 발생되어 마이크로폰 어레이(130)의 마이크로폰들(115, 120, 125) 각각에 의해 수신되는 오디오 신호들은 명확성을 위해 예시적인 예시에서 단일 화살표인 109로 표시된다.
[0024] 마이크로폰 어레이(130)는 복수의 개별 무지향성 마이크로폰들(115, 120, 125)을 포함한다. 이 실시예는 무지향성 마이크로폰을 가정한다. 다른 예시적인 실시예들은 공분산 행렬 모델들을 변경할 수 있는 다른 타입들의 마이크로폰들을 구현할 수 있다. 마이크로폰들(M1-Mn)(여기서, "n"은 임의의 정수임)(115, 120, 125) 각각에 의해 수신된 오디오 신호들(109)은 예를 들어, 이산 시간 푸리에 변환(DTFT: Discrete-time Fourier Transformation)(116, 121, 126)과 같은 변환 방법을 통해 주파수 도메인으로 변환될 수 있다. 다른 예시적인 변환 방법들은 고속 푸리에 변환(FFT: Fast Fourier Transformation) 또는 단시간 푸리에 변환(STFT: Short-time Fourier Transformation)을 포함할 수 있지만, 이에 한정되는 것은 아니다. 단순화를 위해, 하나의 주파수에 대응하는 DTFT들(116, 121, 126) 각각을 통해 발생된 출력 신호들은 단일 화살표로 표현된다. 예를 들어, 마이크로폰(M1)(115)에 의해 수신된 오디오로 발생된, 제1 주파수 빈(F1)(165a)에서의 DTFT 오디오 신호는 단일 화살표(117a)로 표현된다.
[0025] 도 1은 또한 다양한 성분들을 포함하고 각각의 주파수 빈의 포스트 필터 성분이 포스트 필터 출력 신호를 발생시키는 다수의 주파수 빈들(165a-c)을 예시한다. 예컨대, 주파수 빈(F1)(165a)의 포스트 필터 성분(160a)은 제1 주파수 빈(161a)의 포스트 필터 출력 신호를 발생시킨다. 각각의 주파수 빈(165a-c)에 대한 출력 신호들은 역 DTFT 성분(170)에 입력되어, 감소된 원치 않는 잡음을 갖는 최종 시간 도메인 출력/원하는 신호(175)를 발생시킨다. 이 예시적인 시스템(100)의 주파수 빈들(165a-c) 내의 다양한 성분들의 세부사항들 및 단계들은 아래에서 더 상세히 설명된다.
[0026] 2. 신호 모델들
[0027] 도 2는 잡음 환경(105)으로부터 발생된 빔 형성된 단일 채널 출력(136a)을 예시한다. 여기서 논의되지 않는 (도 1에 도시된 바와 같은) 전체 시스템(100)으로부터의 컴포넌트들은 단순화를 위해 도 2에서 생략되었다. 잡음 환경(105)은 사운드로서 출력을 발생시키는 다양한 잡음 성분들(106-108)을 포함한다. 이 예시적인 실시예에서, 잡음 성분(106)은 원하는 사운드를 출력하고, 잡음 성분들(107, 108)은 백색 잡음, 확산 잡음 또는 포인트 간섭 잡음의 형태일 수 있는 원치 않는 사운드를 출력한다. 잡음 성분들(106-108) 각각은 사운드를 발생시키지만; 단순화를 위해 잡음 성분들(106-108)의 결합된 출력이 단일 화살표(109)로서 도시된다. 어레이(130)의 마이크로폰들(115, 120, 125)은 마이크로폰의 물리적 위치들 및 환경 잡음(109) 내에서 착신 오디오 신호들의 방향들 및 강도에 기초하여 다양한 시간 간격들로 환경 잡음(109)을 수신한다. 마이크로폰들(115, 120, 125) 각각에서 수신된 오디오 신호들은 하나의 단일 주파수에 대한 단일 채널 출력(137a)을 발생시키도록 변환되고(116, 121, 126) 빔 형성된다(135a). 고정 빔 형성기(135a)의 단일 채널 출력(137a)은 포스트 필터(160a)로 전달된다. 아래의 식(6)과 연관된, h()로 표현된 빔 형성 계수들(138a)은 빔 형성 필터들(136a)을 생성하고 있으며, 이들은 포스트 필터 계수들(155a)을 계산하기 위해 전달된다.
[0028] 환경 잡음(109)을 포착하고 빔 형성된 단일 채널 출력 신호(137a) 및 빔 형성 필터들(136a)을 생성하는 것에 대한 보다 상세한 설명이 여기서 설명된다. M개의 엘리먼트들(115, 120, 125)의 마이크로폰 어레이(130)를 가정하는데, 여기서 임의의 정수 값인 M은 잡음이 있는 음향 환경(105)에서 원하는 포인트 음원(106)으로부터 신호 s(t)를 포착하기 위한 어레이(130) 내 마이크로폰들의 수이다. 시간 도메인에서 제m 마이크로폰의 출력은 다음과 같이 작성되며:
Figure pct00001
여기서 g s,m은 원하는 성분(106)으로부터 제m 마이크로폰(예컨대, 125)까지의 임펄스 응답을 나타내고, *은 선형 컨볼루션을 나타내며, ψ m(t)는 원치 않는 부가 잡음(즉, 잡음 성분들(107, 108)에 의해 발생된 사운드)이다.
개시된 방법은 다수의 포인트 간섭 소스들을 처리할 수 있지만; 명확성을 위해, 본 명세서에서 제공되는 예들에서는 하나의 포인트 간섭자가 설명된다. 부가 잡음은 일반적으로 세 가지 서로 다른 타입들의 사운드 성분들: 1) 포인트 간섭 소스로부터의 간섭성 잡음 v(t), 2) 확산 잡음 u m(t), 및 3) 백색 잡음 w m(t)로 구성된다. 또한,
Figure pct00002
여기서 gv,m은 포인트 잡음 소스로부터 제m 마이크로폰까지의 임펄스 응답이다. 이 예시적인 실시예에서, 원하는 신호 및 이들 잡음 성분들(106-108)은 단시간 고정되어 상호 상관되지 않는 것으로 여겨진다. 다른 예시적인 실시예들에서, 잡음 성분들은 서로 다르게 구성될 수 있다. 예를 들어, 주위를 돌아다니는 다수의 원하는 음원들 및 목표로 하는 원하는 음원을 포함하는 잡음 환경은 일정 시간 기간에 걸쳐 번갈아 나올 수 있다. 즉, 혼잡한 방에서 두 사람이 대화를 하면서 걷고 있다.
[0029] 주파수 도메인에서, 식(1)의 이러한 일반화된 마이크로폰 어레이 신호 모델은 다음 식으로 변환되며:
Figure pct00003
여기서
Figure pct00004
이며, ω는 각주파수(angular frequency)이고, X m (), G s,m (), S(), G v,m (), V(), U(), W()는 각각 x m (t), g s,m , s(t), g v,m , v(t), u(t), w(t)의 이산 시간 푸리에 변환(DTFT)들이다. 예시적인 실시예들에서는, DTFT가 구현되지만; 본 발명의 범위를 제한하는 것으로 해석되어서는 안 된다. 다른 예시적인 실시예들은 STFT(Short Time Fourier Transformation) 또는 FFT(Fast Fourier Transformation)와 같은 다른 방법들을 구현할 수 있다. 벡터/행렬 형태의 식(3)은 다음과 같고:
Figure pct00005
여기서
Figure pct00006
(·) T 는 벡터 또는 행렬의 전치를 나타낸다. 다음에 마이크로폰 어레이 공간 공분산 행렬이 다음과 같이 결정되며:
Figure pct00007
상호 상관되지 않은 신호들이 가정되는 경우,
Figure pct00008
그리고 E{·}, (·) H 및 (·)*은 각각 수학적 기대값, 벡터 또는 행렬의 에르미트 전치, 및 복소 변수의 공액을 나타낸다.
[0030] 빔 형성기(135a)는 유한 임펄스 응답(FIR: finite impulse response) 필터 H m ()(m = 1, 2,…, M)로 각각의 마이크로폰 신호를 필터링하고 결과들을 합산하여 단일 채널 출력(137a)인
Figure pct00009
및 빔 형성 필터들(136a)을 발생시키는데, 여기서
Figure pct00010
이다.
[0031] 식(6)에서, 원하는 음원의 공분산 행렬이 또한 모델링된다. 그 모델은 원하는 소스와 간섭 소스가 모두 포인트 소스이기 때문에 간섭 소스의 모델과 비슷하다. 이들은 마이크로폰 어레이와 관련하여 그 방향들이 다르다.
[0032] 3. 잡음 공분산 행렬들의 모델링
[0033] 도 3은 가설이 세워진 음장 시나리오(111)에 기초하여 공분산 행렬 모델들을 결정하기 위한 단계들을 예시한다. 여기서 논의되지 않는 (도 1에 도시된 바와 같은) 전체 시스템(100)으로부터의 컴포넌트들은 단순화를 위해 도 3에서 생략되었다. 가설이 세워진 음장 시나리오(111)는 잡음 환경(105)에서 잡음 성분들(106-108)의 구성에 기초하여 결정되며 각각의 주파수 빈(165a-c)에 대한 공분산 모델들(140a-c)에 각각 입력된다.
[0034] 실제 환경에서, 잡음 성분들의 구성, 즉 포인트 간섭 소스들의 수와 위치 그리고 백색 또는 확산 잡음 소스들의 존재는 알려지지 않을 수 있다. 따라서 음장 시나리오의 가설이 세워진다. 위의 식(2)은 하나의 포인트 간섭 소스, 확산 잡음 및 백색 잡음을 갖는 시나리오를 나타내며, 이는 4개의 미지수들을 야기한다. 시나리오가 포인트 간섭 소스 없이 백색 및 확산 잡음만 가설을 세우거나 가정한다면, 위의 식(5)이 단순화되어, 단 3개의 미지수들만을 야기할 수 있다.
[0035] 식(5)에서, 3개의 간섭/잡음 관련 성분들(106-108)은 다음과 같이 모델링된다:
[0036] (1) 포인트 간섭자: 포인트 간섭 소스 v(t)로 인한 공분산 행렬 P g v ()는 랭크 1을 갖는다. 일반적으로, 잔향이 존재하거나 소스가 마이크로폰 어레이의 근접장에 있을 때, 임펄스 응답 벡터(g v )의 복소 엘리먼트들은 서로 다른 크기들을 가질 수 있다. 그러나 직접 경로만이 고려된다면 또는 포인트 소스가 원거리장에 있다면,
Figure pct00011
이는 공통 기준점에 대한 다수의 마이크로폰들(τ v,m )(m = 1, 2,…, M)에서의 간섭자의 도달 시간차들만을 포함한다.
[0037] (2) 확산 잡음: 확산 잡음장은 여러 방향들로 동시에 전파하는 동일한 전력의 비상관 잡음 신호들로 특성화된다는 점에서, 구형 또는 원통형 등방성으로 간주된다. 그 공분산 행렬은 다음과 같이 주어지며:
Figure pct00012
여기서 Γ uu (ω)의 제(p, q) 엘리먼트는 다음과 같고:
Figure pct00013
d pq 는 제p 마이크로폰과 제q 마이크로폰 사이의 거리이며, c는 사운드의 속도이고, J 0(·)은 첫 번째 종류의 0차 베셀(Bessel) 함수이다.
[0038] (3) 백색 잡음: 부가 백색 잡음의 공분산 행렬은 단순히 가중된 항등 행렬이다:
Figure pct00014
[0039] 4. 다채널 위너 필터(MCWF), MVDR 빔 형성 및 포스트 필터링
[0040] 마이크로폰 어레이가 원하는 광대역 사운드 신호(예를 들어, 음성 및/또는 음악)를 포착하는 데 사용될 때, 식(6)에서의 Y()와 ω들에 대한 S() 사이의 거리를 최소화하는 것이 의도이다. MMSE 의미에서 최적인 MCWF는 단일 채널 위너 필터(SCWF: single-channel Wiener filter)가 뒤따르는 MVDR 빔 형성기로 분해될 수 있으며:
Figure pct00015
여기서
Figure pct00016
이는 MVDR 빔 형성기의 출력에서 각각 원하는 신호 및 잡음의 거듭제곱이다. 이 분해는 마이크로폰 어레이 음성 포착을 위한 다음의 구조로 이어지는데: SCWF는 MVDR 빔 형성기 뒤의 포스트 필터로 간주된다.
[0041] 5. 포스트 필터 추정
[0042] 도 4는 주파수 빈에서의 포스트 필터 추정 단계들을 예시한다. 식(11)으로 주어진 후처리기로서 SCWF 및 프런트 엔드 MVDR 빔 형성기를 구현하기 위해, 마이크로폰 신호들의 계산된 공분산 행렬로부터 신호 및 잡음 공분산 행렬들이 추정된다. 다채널 마이크로폰 신호들은 먼저 프레임들에서 (예컨대, 가중된 중첩 가산(overlap-add) 분석 윈도우에 의해 윈도우 처리된 다음 FFT에 의해 변환되어 x( , i)를 결정하며, 여기서 i는 프레임 인덱스이다. 마이크로폰 신호의 공분산 행렬(145a)의 추정치는 동적으로 또는 메모리 컴포넌트를 사용하여, 아래 식에 의해 귀납적으로 업데이트되며:
Figure pct00017
여기서 0 < λ < 1은 망각 인자(forgetting factor)이다.
[0043] 또, 식(7)과 유사하게, 잔향이 무시될 수 있어, 아래 식을 야기하며:
Figure pct00018
여기서 τ s,m 은 공통 기준점에 대한 제m 마이크로폰에 대한 원하는 신호의 도달 시간차이다.
[0044] 다른 예에서, τ s,m τ v,m 모두 알려져 있고 시간에 따라 변화하지 않는다고 가정한다. 따라서 식(5)에 따라, 식(8) 및 식(10)을 이용하여, 제i 시간 프레임에서, 공분산 행렬 모델들(140a)의 결정은 다음과 같이 결정될 수 있다:
Figure pct00019
이 동등성은 식(14)의 좌변과 우변 간의 차의 프로베니우스 노름에 기초한 기준을 정의하는 것을 가능하게 한다. 이러한 기준을 최소화함으로써,
Figure pct00020
에 대한 LS 추정량이 추론될 수 있다. 식(14)의 행렬들은 에르미트라는 점에 주목한다. 이 공식의 중복 정보는 명확성을 위해 생략되었다.
[0045] M × M 에르미트 행렬 A = [a pq ]의 경우, 2개의 벡터들이 정의될 수 있다. 하나의 벡터는 대각 엘리먼트들이고 다른 벡터는 그 아래 삼각형 부분의 비대각 절반 벡터화(odhv: off-diagonal half vectorization)이다:
Figure pct00021
동일한 크기의 복수의 N개의 에르미트 행렬들은 다음과 같이 정의될 수 있다:
Figure pct00022
이 표기법들을 사용함으로써, 식(14)은 다음을 얻도록 재구성되며:
Figure pct00023
여기서 명확성을 위해 파라미터()는 생략되고,
Figure pct00024
여기서 결과는 M (M + 1)/2개의 식들과 4개의 미지수들이다. M ≥ 3이라면, 이는 중복 결정 문제이다. 즉, 미지수들보다 더 많은 식들이 있다.
[0046] 앞서 언급한 오차 기준은 다음과 같이 작성될 수 있다:
Figure pct00025
음원들의 거듭제곱을 추정(150a)하는 것으로 구현되는, 이 기준을 최소화하는 것은 다음으로 이어지는데:
Figure pct00026
여기서
Figure pct00027
{ㆍ}는 복소수/벡터의 실수부를 나타낸다. 추정 가능하게는,
Figure pct00028
의 추정 오차들은 독립 항등 분포(IID: independent and identically distributed) 확률 변수들이다. 따라서 포스트 필터 계수들(155a)을 계산할 때 구현되는 바와 같이, 식(21)으로 주어진 LS(least-squares) 해는 MMSE 의미에서 최적이다. 이 추정치를 식(11)에 대입하면, 본 개시내용에서 언급된 바와 같이, LS 포스트 필터(LSPF: LS post-filter)(160a)가 된다.
[0047] 앞서 설명한 예시적인 실시예에서, 추론된 LS 해는 M≥3이라고 가정한다. 이것은 네 가지 타입들의 사운드 신호들로 구성된 보다 일반화된 음장 모델의 사용에 기인한다. 다른 예시적인 실시예들에서, 음장에 관한 추가 정보가 이용 가능하여, 일부 타입들의 간섭 신호들이 무시될 수 있는(예를 들어, 포인트 간섭자가 없고 그리고/또는 단지 백색 잡음만이 있는) 경우, 식(19)에서 그러한 무시할 수 있는 음원들에 대응하는 그러한 열들은 제거될 수 있으며, 본 개시내용에서 설명된 LSPF는 M = 2인 경우에도 여전히 개발될 수 있다.
[0048] 도 5는 본 개시내용의 일 실시예에 따라, 주파수 빈(165a)에 대한 포스트 필터 계수들을 계산하기 위한 예시적인 단계들을 예시하는 흐름도이다. 도 5의 다음의 예시는 위에 개시된 상세한 설명 및 앞서 설명한 수학적 개념들의 예시적인 구현을 반영한다. 개시된 단계들은 단지 예시로만 주어진다. 당해 기술분야에서 통상의 지식을 가진 자에게 명백하듯이, 일부 단계들은 이 발명을 실시하기 위한 구체적인 내용의 취지 및 범위 내에서 병렬로 또는 대체 시퀀스로 행해질 수 있다.
[0049] 도 5를 참조하면, 단계(501)에서 예시적인 단계들이 시작된다. 단계(502)에서, 환경(105) 내에서 음원들(106-108)에 의해 발생된 잡음(109)으로부터 마이크로폰 어레이(130)를 통해 오디오 신호들이 수신된다. 단계(503)에서, 음장 시나리오(111)의 가설이 세워진다. 단계(504)에서, 주파수 빈(165a)에 대한 수신된 오디오 신호들(117a, 122a, 127a)에 기초하여 고정 빔 형성기 계수들(138a)이 계산된다. 단계(505)에서, 가설이 세워진 음장 시나리오(111)에 기반한 공분산 행렬 모델들(140a)이 결정된다. 단계(506)에서, 수신된 오디오 신호들(117a, 122a, 127a)에 기초한 공분산 행렬(145a)이 계산된다. 단계(507)에서, 결정된 공분산 행렬 모델들(140a) 및 계산된 공분산 행렬(145a)에 기초하여 음원들의 거듭제곱(150a)이 추정된다. 단계(508)에서, 음원들의 추정된 거듭제곱(150a) 및 계산된 고정 빔 형성기 계수들(138a)에 기초하여 포스트 필터 계수들(155a)이 계산된다. 예시적인 단계들은 종료 단계(509)로 진행할 수 있다. 앞서 언급한 단계들은 포스트 필터링된 출력 신호들(161a-c)을 각각 발생시키도록 주파수 빈(165a-c)마다 구현될 수 있다. 포스트 필터링된 신호들(161a-c)은 다음에, 최종 출력/원하는 신호(175)를 발생시키도록 변환될 수 있다(170).
[0050] 앞서 언급한 바와 같이, 종래의 포스트 필터링 방법들은 최적이 아니며, 본 명세서에 설명된 방법들 및 시스템들과 비교할 때 결함들을 갖는다. 본 개시내용과 관련하여 기존 접근 방식들의 한계들 및 결함들이 아래에서 추가 설명된다.
[0051] (a) Zelinski의 포스트 필터(ZPF: Zelinski’s Post-Filter)는: 1) 포인트 간섭자 없음, 즉
Figure pct00029
, 2) 확산 잡음 없음, 즉
Figure pct00030
, 그리고 3) 부가 가간섭성 백색 잡음만이 존재함을 가정한다. 따라서 식(19)은 다음과 같이 단순화된다:
Figure pct00031
식(21)을 사용하여
Figure pct00032
에 대한 최적의 LS 해를 계산하는 대신, ZPF는 식(22)의 아래쪽 odhv 부분만을 사용하여 다음 식을 얻는다:
Figure pct00033
식(13)으로부터
Figure pct00034
{odhv{Pgs}}p = 1이라는 점에 주목한다. 따라서 식(23)은 다음과 같이 된다:
Figure pct00035
LSPF에 대한 동일한 음향 모델이 ZPF(예컨대, 백색 잡음만)에 대해 사용된다면, M = 2일 때 ZPF와 LSPF가 동일하다는 것이 확인될 수 있다. 그러나 M ≥ 3일 때 이들은 기본적으로 다르다.
[0052] (b) McCowan의 포스트 필터(MPF: McCowan’s Post-Filter)는: 1) 포인트 간섭자 없음, 즉
Figure pct00036
, 2) 부가 백색 잡음 없음, 즉
Figure pct00037
, 그리고 3) 확산 잡음만이 존재함을 가정한다. 이러한 가정들 하에서, 식(19)은 다음과 같이 된다:
Figure pct00038
식(9)으로부터 diag{Γ uu } = 1 1이라는 점에 주목한다.
[0053] 식(25)은 중복 결정 시스템이다. 또, 식(21)을 따름으로써 전역적 LS 해를 구하는 대신, MPF는 다음과 같이 서브시스템을 형성하도록 식(25)으로부터 제p 마이크로폰과 제q 마이크로폰의 쌍에 대응하는 3개의 식들을 적용하며:
Figure pct00039
여기서
Figure pct00040
이다.
MPF 방법은
Figure pct00041
에 대해 다음과 같이 식(26)을 푼다:
Figure pct00042
M (M - 1)/2개의 서로 다른 마이크로폰 쌍들이 있기 때문에, 최종 MPF 추정치는 단순히 다음과 같이 서브시스템들의 결과들의 평균이다:
Figure pct00043
[0054] 확산 잡음 모델은 실제로 화이트 잡음 모델보다 더 일반적이다. 후자는 Γ uu = I M ×M 일 때 형성기의 특별한 경우로 간주될 수 있다. 그러나 식(25)을 푸는 것에 대한 MPF의 접근 방식은 경험적이며 또한 최적이 아니다. 또, LSPF가 확산 잡음 전용 모델을 사용한다면, 이는 M = 2일 때 MPF와 동일하지만, 이들은 M ≥ 3일 때는 기본적으로 다르다.
[0055] (c) Leukimmiatis의 포스트 필터
Figure pct00044
를 추정하기 위해 MPF에서 제안된 알고리즘을 따른다. Leukimmiatis 등은 (11)의 포스트 필터의 분모가
Figure pct00045
보다는
Figure pct00046
가 되어야 한다는 Zelinski의 포스트 필터 및 McCowan의 포스트 필터의 버그를 간단히 수정한다.
[0056] 6. 실험 결과들
[0057] 다음은 본 개시내용의 LSPF 방법 및 시스템들을 검증하기 위해 수행된 예시적인 음성 강화 실험들의 결과들을 제공한다. 도 6은 실험들의 마이크로폰 어레이(610) 및 음원들(620, 630)의 공간적 배열을 예시한다. 도면들 내의 엘리먼트들의 위치는 정확한 스케일 또는 거리를 전달하는 것으로 의도되는 것은 아니며, 이들은 다음의 설명에서 제공된다. 마이크로폰 어레이(610)의 처음 4개의 마이크로폰들(M1-M4)(601-604)을 고려한 한 세트의 실험들이 제공되며, 여기서 각각의 마이크로폰들 사이의 간격은 3㎝이다. 60㏈ 잔향 시간은 360㎳이다. 원하는 소스(620)는 어레이의 측면(0°)에 있는 한편, 간섭 소스(630)는 45° 방향에 있다. 둘 다 어레이에서 2m 떨어져 있다. 명확하고 연속적인 16㎑/16 비트 음성 신호들이 이러한 포인트 음원들에 사용된다. 원하는 소스(620)는 암형(female) 스피커이고 간섭 소스(630)는 수형(male) 스피커이다. 두 신호들의 유성음 부분들은 많은 중첩들을 갖는다. 이에 따라, 임펄스 응답들은 16㎑에서 재샘플링되고 4096개의 샘플들로 절단되어 구형 등방성 확산 잡음이 발생된다. 실험 시뮬레이션들에서는, 큰 구체 상에 분포된 72 × 36 = 2592개의 포인트 소스들이 사용된다. 신호들은 20초로 절단된다.
[0058] 위의 실험들에서, 음장(아래첨자 SF)을 특성화하기 위해 3개의 전대역 측정치들: 즉, 신호대 간섭비(SIR: signal-to-interference ratio), 신호대 잡음비(SNR: signal-to-noise ratio) 및 확산 잡음대 백색 잡음비(DWR: diffuse-to-white-noise ratio)가 다음과 같이 정의되며:
Figure pct00047
여기서
Figure pct00048
이다.
[0059] 성능 평가를 위해, 두 가지 객관적인 메트릭들: 신호대 간섭 및 잡음비(SINR: signal-to-interference-and-noise ratio)와 지각적 평가 음성 품질(PESQ: perceptual evaluation speech quality)이 분석된다. SINR 및 PESQ는 각각의 마이크로폰들에서 계산되고 입력 SINR 및 PESQ로 각각 평균화된다. (각각 SINRo 및 PESQo로 표시된) 출력 SINR 및 PESQ는 유사하게 추정된다. 입력 측정치와 출력 측정치 간의 차(즉, 델타 값들)가 분석된다. 출력에서 잡음 감소 및 음성 왜곡의 양을 더 잘 평가하기 위해, 간섭 및 잡음 감소(INR: interference and noise reduction) 및 원하는 음성만의 PESQ(dPESQ: desired-speech only PESQ)가 또한 계산된다. dPESQ의 경우, 처리된 원하는 음성 및 깨끗한 음성이 PESQ 추정기로 전달된다. 출력 PESQ는 강화된 신호의 품질을 나타내는 한편, dPESQ 값은 삽입된 음성 왜곡의 양을 정량화한다. 이 연구에서는 Hu & Loizou의 PESQ용 매트랩 코드들이 사용된다.
[0060] 룸 잔향으로 인한 MVDR(minimum variance distortionless response) 빔 형성기에서의 잘 알려진 신호 제거 문제를 피하기 위해, 지연 및 합산(D&S: delay-and-sum) 빔 형성기가 프런트 엔드 처리를 위해 구현되고 다음의 네 가지 서로 다른 포스트 필터링 알고리즘들: 없음, ZPF, MPF 및 LSPF와 비교된다. D&S 전용 구현은 벤치마크로 사용된다. ZPF 및 MPF의 경우, Leukimmiatis의 보정이 이용되었다. 다음 세 가지 서로 다른 설정들: 1) 백색 잡음만: SIRSF = 30㏈, SNRSF = 5㏈, DWRSF = -30㏈, 2) 확산 잡음만: SIRSF = 30㏈, SNRSF = 10㏈, DWRSF = 30㏈, 3) 혼합 잡음/간섭자: SIRSF = 0㏈, SNRSF = 10㏈, DWRSF = 0㏈ 하에서 테스트들이 수행되었다. 결과들은 다음과 같다:
[0061]
Figure pct00049
[0062] 이러한 테스트들에서는, STFT 분석에 제곱근 해밍 윈도우 및 512-점 FFT가 사용된다. 인접한 2개의 윈도우들은 50% 중복된 샘플들을 갖는다. 가중된 중첩 가산 방법이 처리된 신호를 재구성하는 데 사용된다.
[0063] 실험 결과들은 표 1로 요약된다. 먼저, 백색 잡음 전용 음장에 대한 결과들이 분석된다. 이것은 ZPF 방법으로 처리된 음장 타입이기 때문에, ZPF는 잡음을 억제하고 음성 품질을 향상시키는 데 상당히 능숙하다. 그러나 제안된 LSPF는 더 많은 잡음 감소를 달성하고 더 높은 출력 PESQ를 제공하지만, 이는 약간 더 낮은 dPESQ로 더 많은 음성 왜곡을 삽입한다. MPF는 그 SINR 이득이 ZPF 및 LSPF의 이득보다 더 낮기 때문에 이는 믿을 수 없게 높은 INR을 발생시킨다. 이는 MPF가 잡음뿐만 아니라 음성 신호들도 상당히 억제함을 의미한다. 그 PESQ 및 dPESQ는 LSPF보다 더 낮다.
[0064] 두 번째 음장에서는, 예상대로 D&S 빔 형성기가 확산 잡음을 처리하는 데 덜 효과적이며 ZPF의 성능도 역시 저하된다. 이 경우, MPF의 성능은 상당히 좋지만, 여전히 LSPF가 분명히 최상의 결과들을 산출한다.
[0065] 세 번째 음장은 시변하는 간섭 음성 소스의 존재로 인해 해결해야 할 가장 어려운 경우이다. 그러나 LSPF는 모든 메트릭들에서 다른 종래의 방법들을 능가한다.
[0066] 마지막으로, 이 순수한 객관적인 성능 평가 결과들이 소수의 동료들과 수행된 비공식적인 청취 테스트에서 네 가지 기술들에 대한 주관적 인식과 일치한다는 것이 주목할 만하다.
[0067] 본 개시내용은 마이크로폰 어레이 애플리케이션들에 대한 LS 포스트 필터링 방법을 위한 방법들 및 시스템들을 기술한다. 종래의 포스트 필터링 기술들과는 달리, 설명된 방법은 확산 및 백색 잡음뿐만 아니라 포인트 간섭자들도 고려한다. 더욱이, 이는 종래의 방법보다 더 효율적으로 마이크로폰 어레이에 의해 수집된 정보를 활용하는 전역적으로 최적인 해법이다. 게다가, 기존의 방법들에 비해 개시된 기술의 이점들이 다양한 음향 시나리오들에서의 시뮬레이션들에 의해 검증되고 정량화되었다.
[0068] 도 7은 컴퓨팅 디바이스(700) 상의 애플리케이션을 보여주기 위한 고 레벨 블록도이다. 기본 구성(701)에서, 컴퓨팅 디바이스(700)는 일반적으로 하나 또는 그보다 많은 프로세서들(710), 시스템 메모리(720) 및 메모리 버스(730)를 포함한다. 메모리 버스는 프로세서들과 시스템 메모리 간의 통신을 수행하는 데 사용된다. 이 구성은 또한 앞서 설명한 방법을 구현하는 독립형 포스트 필터링 컴포넌트(726)를 포함할 수 있거나, 애플리케이션(722, 723)으로 통합될 수 있다.
[0069] 서로 다른 구성들에 따라, 프로세서(710)는 마이크로프로세서(μP), 마이크로컨트롤러(μC), 디지털 신호 프로세서(DSP: digital signal processor) 또는 이들의 임의의 조합일 수 있다. 프로세서(710)는 L1 캐시(711) 및 L2 캐시(712)와 같은 하나 또는 그보다 많은 캐싱 레벨들, 프로세서 코어(713) 및 레지스터들(714)을 포함할 수 있다. 프로세서 코어(713)는 산술 논리 유닛(ALU: arithmetic logic unit), 부동 소수점 유닛(FPU: floating point unit), 디지털 신호 처리 코어(DSP 코어: digital signal processing core), 또는 이들의 임의의 조합을 포함할 수 있다. 메모리 제어기(715)는 프로세서(710)의 독립적인 부분 또는 내부 부분일 수 있다.
[0070] 원하는 구성에 따라, 시스템 메모리(720)는 (RAM과 같은) 휘발성 메모리, (ROM, 플래시 메모리 등과 같은) 비휘발성 메모리 또는 이들의 임의의 조합을 포함하지만 이에 한정된 것은 아닌 임의의 타입일 수 있다. 시스템 메모리(720)는 일반적으로 운영 시스템(721), 하나 또는 그보다 많은 애플리케이션들(722) 및 프로그램 데이터(724)를 포함한다. 애플리케이션(722)은 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링(723)을 적용하기 위한 시스템 및 방법 또는 포스트 필터링 컴포넌트(726)를 포함할 수 있다. 프로그램 데이터(724)는 하나 또는 그보다 많은 처리 디바이스들에 의해 실행될 때, 설명된 방법 및 컴포넌트(723)에 대한 시스템 및 방법을 구현하는 명령들을 저장하는 것을 포함한다. 또는 방법의 명령들 및 구현은 포스트 필터링 컴포넌트(726)를 통해 실행될 수 있다. 일부 실시예들에서, 애플리케이션(722)은 운영 시스템(721) 상의 프로그램 데이터(724)로 동작하도록 배치될 수 있다.
[0071] 컴퓨팅 디바이스(700)는 기본 구성(701)과 임의의 요구되는 디바이스들 및 인터페이스들 간의 통신들을 가능하게 할 추가 특징들 또는 기능 및 추가 인터페이스들을 가질 수 있다.
[0072] 시스템 메모리(720)는 컴퓨터 저장 매체의 일례이다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, 디지털 다기능 디스크(DVD: digital versatile disk)들 또는 다른 광학 저장소, 자기 카세트들, 자기 테이프, 자기 디스크 저장소 또는 다른 자기 저장 디바이스들, 또는 원하는 정보를 저장하는 데 사용될 수 있고 컴퓨팅 디바이스(700)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만 이에 한정된 것은 아니다. 임의의 그러한 컴퓨터 저장 매체는 디바이스(700)의 일부일 수 있다.
[0073] 컴퓨팅 디바이스(700)는 셀폰, 스마트폰, 개인용 디지털 보조기기(PDA: personal data assistant), 개인용 미디어 플레이어 디바이스, 태블릿 컴퓨터(태블릿), 무선 웹 감시 디바이스, 개인용 헤드셋 디바이스, 주문형 디바이스, 또는 위의 기능들 중 임의의 기능을 포함하는 하이브리드 디바이스와 같은 소형 폼 팩터 휴대용(또는 모바일) 전자 디바이스의 일부로서 구현될 수 있다. 컴퓨팅 디바이스(700)는 또한 랩톱 컴퓨터 및 비-랩톱 컴퓨터 구성들 모두를 포함하는 개인용 컴퓨터로서 구현될 수 있다.
[0074] 앞서 언급한 상세한 설명은 블록도들, 흐름도들 및/또는 예들의 사용을 통해 디바이스들 및/또는 프로세스들의 다양한 실시예들을 제시하였다. 그러한 블록도들, 순서도들 및/또는 예들이 하나 또는 그보다 많은 기능들 및/또는 동작들을 포함하는 한, 그러한 블록도들, 흐름도들 또는 예들 내의 각각의 기능 및/또는 동작이 개별적으로 그리고/또는 집합적으로, 광범위한 하드웨어, 소프트웨어, 펌웨어, 또는 사실상 이들의 임의의 조합에 의해 구현될 수 있다고 당해 기술분야에서 통상의 지식을 가진 자들에 의해 이해될 것이다. 일 실시예에서, 본 명세서에 설명된 요지의 여러 부분들은 주문형 집적 회로(ASIC: Application Specific Integrated Circuit)들, 필드 프로그래밍 가능 게이트 어레이(FPGA: Field Programmable Gate Array)들, 디지털 신호 프로세서(DSP)들 또는 다른 통합된 포맷들을 통해 구현될 수 있다. 그러나 당해 기술분야에서 통상의 지식을 가진 자들은, 본 명세서에 개시된 실시예들의 일부 양상들이 전체 또는 일부가 집적 회로들에, 하나 또는 그보다 많은 컴퓨터들 상에서 실행되는 하나 또는 그보다 많은 컴퓨터 프로그램들로서, 하나 또는 그보다 많은 프로세서들 상에서 실행되는 하나 또는 그보다 많은 프로그램들로서, 펌웨어로서, 또는 사실상 이들의 임의의 조합으로 동등하게 구현될 수 있으며, 회로의 설계 그리고/또는 소프트웨어 및/또는 펌웨어에 대한 코드의 작성이 본 개시내용에 비추어 당해 기술분야에서 통상의 지식을 가진 자들의 기술 범위 내에 있을 것이라고 인식할 것이다. 또한, 당해 기술분야에서 통상의 지식을 가진 자들은, 본 명세서에서 설명된 요지의 메커니즘들이 다양한 형태들의 프로그램 제품으로서 배포될 수 있고, 본 명세서에서 설명된 요지의 예시적인 실시예는 배포를 실제로 실행하는 데 사용되는 비-일시적 신호 전달 매체의 특정 타입과 관계없이 적용된다고 인식할 것이다. 비-일시적 신호 전달 매체의 예들은: 플로피 디스크, 하드 디스크 드라이브, 콤팩트 디스크(CD: Compact Disc), 디지털 비디오 디스크(DVD: Digital Video Disk), 디지털 테이프, 컴퓨터 메모리 등과 같은 기록 가능한 타입의 매체; 및 디지털 및/또는 아날로그 통신 매체(예컨대, 광섬유 케이블, 도파관, 유선 통신 링크, 무선 통신 링크 등)와 같은 송신 타입의 매체를 포함하지만 이에 한정된 것은 아니다.
[0075] 본 명세서에서의 임의의 복수 및/또는 단수 용어들의 사용과 관련하여, 당해 기술분야에서 통상의 지식을 가진 자들은 맥락 및/또는 적용에 적절하게 복수에서 단수로 그리고/또는 단수에서 복수로 해석할 수 있다. 다양한 단수/복수 치환들은 명료성을 위해 본 명세서에서 명백하게 제시될 수 있다.
[0076] 이와 같이, 요지의 특정 실시예들이 설명되었다. 다른 실시예들이 다음의 청구항들의 범위 내에 있다. 어떤 경우들에, 청구항들에서 언급되는 동작들은 다른 순서로 수행되며 여전히 바람직한 결과들을 달성할 수 있다. 추가로, 첨부 도면들에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 반드시 도시된 특정 순서 또는 순차적인 순서를 필요로 하는 것은 아니다. 특정 구현들에서는, 다중 작업 및 병렬 처리가 유리할 수도 있다.
[0077] 다음에, 본 개시내용에 따른 시스템 및 방법의 추가 예들이 설명된다.
[0078] 컴퓨터 구현 방법의 제1 예는, 환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하는 단계, 수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우는 단계, 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하는 단계, 가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하는 단계, 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하는 단계, 결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 음원들의 거듭제곱을 추정하는 단계, 추정된 거듭제곱에 기초하여 포스트 필터 계수들을 계산하고 적용하는 단계, 및 수신된 오디오 신호들 및 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키는 단계를 포함한다.
[0079] 제2 예: 제1 예의 방법은, 다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설을 세우는 단계를 더 포함한다.
[0080] 제3 예: 제2 예의 방법에서, 발생된 다수의 출력 신호들이 비교되어, 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택된다.
[0081] 제4 예: 예 1 내지 예 3 중 어느 한 예의 방법에서, 거듭제곱의 추정은 프로베니우스 노름에 기초한다.
[0082] 제5 예: 예 1 내지 예 4 중 어느 한 예의 방법에서, 프로베니우스 노름은 공분산 행렬들의 에르미트 대칭을 사용하여 계산된다.
[0083] 제6 예: 예 1 내지 예 5 중 어느 한 예의 방법은: 음장 시나리오의 가설을 세우고, 공분산 행렬 모델들을 결정하며, 공분산 행렬을 계산하기 위해, 음원 위치 결정 방법들을 사용하여 음원들 중 적어도 하나의 음원의 위치를 결정하는 단계를 더 포함한다.
[0084] 제7 예: 예 1 내지 예 6 중 어느 한 예의 방법에서, 공분산 행렬 모델들은 가설이 세워진 복수의 음장 시나리오들에 기초하여 생성된다.
[0085] 제8 예: 예 7의 방법에서, 공분산 행렬 모델은 잡음을 감소시키는 목적 함수를 최대화하도록 선택된다.
[0086] 제9 예: 예 8의 방법에서, 목적 함수는 최종 출력 오디오 신호의 표본 분산이다.
[0087] 제10 예: 장치는, 하나 또는 그보다 많은 처리 디바이스들, 및 하나 또는 그보다 많은 처리 디바이스들에 의해 실행될 때, 하나 또는 그보다 많은 처리 디바이스들로 하여금: 환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하게 하고, 수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우게 하고, 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하게 하고, 가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하게 하고, 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하게 하고, 결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 음원들의 거듭제곱을 추정하게 하고, 추정된 거듭제곱에 기초하여 포스트 필터 계수들을 계산하고 적용하게 하고, 그리고 수신된 오디오 신호들 및 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키게 하는 명령들을 저장하는 하나 또는 그보다 많은 저장 디바이스들을 포함한다.
[0088] 제11 예: 예 10의 장치는, 다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설을 세우는 것을 더 포함한다.
[0089] 제12 예: 제11 예의 장치에서, 발생된 다수의 출력 신호들이 비교되어, 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택된다.
[0090] 제13 예: 예 10 내지 예 12 중 어느 한 예의 장치에서, 거듭제곱의 추정은 프로베니우스 노름에 기초한다.
[0091] 제14 예: 예 10 내지 예 13 중 어느 한 예의 장치에서, 프로베니우스 노름은 공분산 행렬들의 에르미트 대칭을 사용하여 계산된다.
[0092] 제15 예: 예 10 내지 예 14 중 어느 한 예의 장치는, 음장 시나리오의 가설을 세우고, 공분산 행렬 모델들을 결정하며, 공분산 행렬을 계산하기 위해, 음원 위치 결정 방법들을 사용하여 음원들 중 적어도 하나의 음원의 위치를 결정하는 것을 더 포함한다.
[0093] 제16 예: 컴퓨터 판독 가능 매체는: 환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하고, 수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우고, 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하고, 가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하고, 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하고, 결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 음원들의 거듭제곱을 추정하고, 추정된 거듭제곱에 기초하여 포스트 필터 계수들을 계산하고 적용하고, 그리고 수신된 오디오 신호들 및 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키기 위한 명령들의 세트들을 포함한다.
[0094] 제17 예: 예 16의 컴퓨터 판독 가능 매체에서, 다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설이 세워진다.
[0095] 제18 예: 예 17의 컴퓨터 판독 가능 매체에서, 발생된 다수의 출력 신호들이 비교되어, 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택된다.
[0096] 제19 예: 예 16 내지 예 18 중 어느 한 예의 컴퓨터 판독 가능 매체에서, 거듭제곱의 추정은 프로베니우스 노름에 기초한다.
[0097] 제20 예: 예 16 내지 예 19 중 어느 한 예의 컴퓨터 판독 가능 매체에서, 프로베니우스 노름은 공분산 행렬들의 에르미트 대칭을 사용하여 계산된다.
[0098] 제21 예: 컴퓨터 프로그램은, 컴퓨터에 의해 실행될 때 예 1 내지 예 9 중 어느 한 예의 방법을 실행하는 명령들의 세트들을 포함한다.
[0099] 마이크로폰 어레이 음성 강화를 위한 기존의 포스트 필터링 방법들은 두 가지 공통적인 결함들을 갖는다. 첫째, 이들은 잡음이 백색 또는 확산 잡음이라고 가정하며, 포인트 간섭자들을 다룰 수 없다. 둘째, 이들은 한 번에 2개의 마이크로폰들만을 사용하여 포스트 필터 계수들을 추정하여, 모든 마이크로폰 쌍들에 걸쳐 평균을 수행하여, 차선의 해를 산출한다. 본 명세서에서 설명된 실시예들에 따르면, 백색 잡음, 확산 잡음 및 포인트 간섭자들을 처리하는 신호 모델들을 구현하는 포스트 필터링 해법을 기술하는 방법들이 제공된다. 실시예들에 따르면, 이 방법들은 또한 마이크로폰 어레이에서 마이크로폰들의 전역적으로 최적화된 최소 제곱 접근 방식을 구현하여, 기존의 종래의 방법들보다 더 최적의 해법을 제공한다. 실험 결과들은 설명된 방법이 다양한 음향 시나리오들에서 종래의 방법들을 능가함을 보여준다.

Claims (21)

  1. 컴퓨터 구현 방법으로서,
    환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하는 단계;
    수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우는 단계;
    상기 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하는 단계;
    가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하는 단계;
    상기 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하는 단계;
    결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 상기 음원들의 거듭제곱을 추정하는 단계;
    추정된 거듭제곱에 기초하여 포스트 필터(post-filter) 계수들을 계산하고 적용하는 단계; 및
    상기 수신된 오디오 신호들 및 상기 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키는 단계를 포함하는,
    컴퓨터 구현 방법.
  2. 제1 항에 있어서,
    다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설을 세우는 단계를 더 포함하는,
    컴퓨터 구현 방법.
  3. 제2 항에 있어서,
    발생된 다수의 출력 신호들이 비교되어 상기 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택되는,
    컴퓨터 구현 방법.
  4. 제1 항에 있어서,
    상기 거듭제곱의 추정은 프로베니우스 노름(Frobenius norm)에 기초하는,
    컴퓨터 구현 방법.
  5. 제4 항에 있어서,
    상기 프로베니우스 노름은 상기 공분산 행렬들의 에르미트(Hermitian) 대칭을 사용하여 계산되는,
    컴퓨터 구현 방법.
  6. 제1 항에 있어서,
    상기 음장 시나리오의 가설을 세우고, 상기 공분산 행렬 모델들을 결정하며, 상기 공분산 행렬을 계산하기 위해, 음원 위치 결정 방법들을 사용하여 상기 음원들 중 적어도 하나의 음원의 위치를 결정하는 단계를 더 포함하는,
    컴퓨터 구현 방법.
  7. 제1 항에 있어서,
    상기 공분산 행렬 모델들은 가설이 세워진 복수의 음장 시나리오들에 기초하여 생성되는,
    컴퓨터 구현 방법.
  8. 제7 항에 있어서,
    공분산 행렬 모델은 잡음을 감소시키는 목적 함수를 최대화하도록 선택되는,
    컴퓨터 구현 방법.
  9. 제8 항에 있어서,
    목적 함수는 최종 출력 오디오 신호의 표본 분산인,
    컴퓨터 구현 방법.
  10. 장치로서,
    하나 또는 그보다 많은 처리 디바이스들, 및 명령들을 저장하는 하나 또는 그보다 많은 저장 디바이스들을 포함하며,
    상기 명령들은 하나 또는 그보다 많은 처리 디바이스들에 의해 실행될 때 상기 하나 또는 그보다 많은 처리 디바이스들로 하여금:
    환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하게 하고;
    수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우게 하고;
    상기 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하게 하고;
    가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하게 하고;
    상기 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하게 하고;
    결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 상기 음원들의 거듭제곱을 추정하게 하고;
    추정된 거듭제곱에 기초하여 포스트 필터 계수들을 계산하고 적용하게 하고; 그리고
    상기 수신된 오디오 신호들 및 상기 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키게 하는,
    장치.
  11. 제10 항에 있어서,
    다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설을 세우는 것을 더 포함하는,
    장치.
  12. 제11 항에 있어서,
    발생된 다수의 출력 신호들이 비교되어 상기 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택되는,
    장치.
  13. 제10 항에 있어서,
    상기 거듭제곱의 추정은 프로베니우스 노름에 기초하는,
    장치.
  14. 제13 항에 있어서,
    상기 프로베니우스 노름은 상기 공분산 행렬들의 에르미트 대칭을 사용하여 계산되는,
    장치.
  15. 제10 항에 있어서,
    상기 음장 시나리오의 가설을 세우고, 상기 공분산 행렬 모델들을 결정하며, 상기 공분산 행렬을 계산하기 위해, 음원 위치 결정 방법들을 사용하여 상기 음원들 중 적어도 하나의 음원의 위치를 결정하는 것을 더 포함하는,
    장치.
  16. 컴퓨터 판독 가능 매체로서,
    환경 내에서 음원들로부터 마이크로폰 어레이를 통해 오디오 신호들을 수신하고;
    수신된 오디오 신호들에 기초하여 음장 시나리오의 가설을 세우고;
    상기 수신된 오디오 신호들에 기초하여 고정 빔 형성기 계수들을 계산하고;
    가설이 세워진 음장 시나리오에 기초하여 공분산 행렬 모델들을 결정하고;
    상기 수신된 오디오 신호들에 기초하여 공분산 행렬을 계산하고;
    결정된 공분산 행렬 모델들과 계산된 공분산 행렬 간의 차이를 최소화하는 해를 구하기 위해 상기 음원들의 거듭제곱을 추정하고;
    추정된 거듭제곱에 기초하여 포스트 필터 계수들을 계산하고 적용하고; 그리고
    상기 수신된 오디오 신호들 및 상기 포스트 필터 계수들에 기초하여 출력 오디오 신호를 발생시키기 위한 명령들의 세트들을 포함하는,
    컴퓨터 판독 가능 매체.
  17. 제16 항에 있어서,
    다수의 출력 신호들을 발생시키기 위해 다수의 음장 시나리오들의 가설이 세워지는,
    컴퓨터 판독 가능 매체.
  18. 제17 항에 있어서,
    발생된 다수의 출력 신호들이 비교되어 상기 발생된 다수의 출력 신호들 중 가장 높은 신호대 잡음비를 갖는 출력 신호가 최종 출력 신호로서 선택되는,
    컴퓨터 판독 가능 매체.
  19. 제16 항에 있어서,
    상기 거듭제곱의 추정은 프로베니우스 노름에 기초하는,
    컴퓨터 판독 가능 매체.
  20. 제16 항에 있어서,
    상기 프로베니우스 노름은 상기 공분산 행렬들의 에르미트 대칭을 사용하여 계산되는,
    컴퓨터 판독 가능 매체.
  21. 컴퓨터에 의해 실행될 때 제1 항의 방법을 실행하는 명령들의 세트들을 포함하는,
    컴퓨터 프로그램.
KR1020187013790A 2016-02-03 2017-02-02 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링 KR102064902B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/014,481 2016-02-03
US15/014,481 US9721582B1 (en) 2016-02-03 2016-02-03 Globally optimized least-squares post-filtering for speech enhancement
PCT/US2017/016187 WO2017136532A1 (en) 2016-02-03 2017-02-02 Globally optimized least-squares post-filtering for speech enhancement

Publications (2)

Publication Number Publication Date
KR20180069879A true KR20180069879A (ko) 2018-06-25
KR102064902B1 KR102064902B1 (ko) 2020-01-10

Family

ID=58044200

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187013790A KR102064902B1 (ko) 2016-02-03 2017-02-02 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링

Country Status (9)

Country Link
US (1) US9721582B1 (ko)
JP (1) JP6663009B2 (ko)
KR (1) KR102064902B1 (ko)
CN (1) CN107039045B (ko)
AU (1) AU2017213807B2 (ko)
CA (1) CA3005463C (ko)
DE (2) DE202017102564U1 (ko)
GB (1) GB2550455A (ko)
WO (1) WO2017136532A1 (ko)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
EP3223279B1 (en) * 2016-03-21 2019-01-09 Nxp B.V. A speech signal processing circuit
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
US10182290B2 (en) * 2017-02-23 2019-01-15 Microsoft Technology Licensing, Llc Covariance matrix estimation with acoustic imaging
DE102018117557B4 (de) * 2017-07-27 2024-03-21 Harman Becker Automotive Systems Gmbh Adaptives nachfiltern
US10110994B1 (en) * 2017-11-21 2018-10-23 Nokia Technologies Oy Method and apparatus for providing voice communication with spatial audio
CN108172235B (zh) * 2017-12-26 2021-05-14 南京信息工程大学 基于维纳后置滤波的ls波束形成混响抑制方法
EP3804356A1 (en) 2018-06-01 2021-04-14 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US10986437B1 (en) * 2018-06-21 2021-04-20 Amazon Technologies, Inc. Multi-plane microphone array
CN109194422B (zh) * 2018-09-04 2021-06-22 南京航空航天大学 一种基于子空间的snr估计方法
EP3723372A4 (en) * 2018-09-05 2021-03-31 LG Electronics Inc. VIDEO SIGNAL CODING / DECODING PROCESS AND ASSOCIATED EQUIPMENT
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11902758B2 (en) 2018-12-21 2024-02-13 Gn Audio A/S Method of compensating a processed audio signal
CN109932689A (zh) * 2019-02-24 2019-06-25 华东交通大学 一种适用于特定定位场景的任意阵列优化方法
EP3942842A1 (en) 2019-03-21 2022-01-26 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
TW202044236A (zh) 2019-03-21 2020-12-01 美商舒爾獲得控股公司 具有抑制功能的波束形成麥克風瓣之自動對焦、區域內自動對焦、及自動配置
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
EP3973716A1 (en) 2019-05-23 2022-03-30 Shure Acquisition Holdings, Inc. Steerable speaker array, system, and method for the same
JP7461347B2 (ja) * 2019-05-30 2024-04-03 シャープ株式会社 画像復号装置、画像符号化装置、画像復号方法及び画像符号化方法
JP2022535229A (ja) 2019-05-31 2022-08-05 シュアー アクイジッション ホールディングス インコーポレイテッド 音声およびノイズアクティビティ検出と統合された低レイテンシオートミキサー
CN110277087B (zh) * 2019-07-03 2021-04-23 四川大学 一种广播信号预判预处理方法
CN114467312A (zh) 2019-08-23 2022-05-10 舒尔获得控股公司 具有改进方向性的二维麦克风阵列
US12028678B2 (en) 2019-11-01 2024-07-02 Shure Acquisition Holdings, Inc. Proximity microphone
CN110838307B (zh) * 2019-11-18 2022-02-25 思必驰科技股份有限公司 语音消息处理方法及装置
CN113035216B (zh) * 2019-12-24 2023-10-13 深圳市三诺数字科技有限公司 麦克风阵列语音的增强方法、及其相关设备
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
WO2021243368A2 (en) 2020-05-29 2021-12-02 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
WO2022165007A1 (en) 2021-01-28 2022-08-04 Shure Acquisition Holdings, Inc. Hybrid audio beamforming system
CN113506556B (zh) * 2021-06-07 2023-08-08 哈尔滨工业大学(深圳) 主动噪声控制方法、装置、存储介质和计算机设备
CN115249485A (zh) * 2021-06-30 2022-10-28 达闼机器人股份有限公司 语音增强方法、装置、电子设备及存储介质
CN114205708B (zh) * 2021-12-17 2024-05-31 深圳市鑫正宇科技有限公司 一种骨传导蓝牙耳机的智能语音触控系统和方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5729613A (en) * 1993-10-15 1998-03-17 Industrial Research Limited Reverberators for use in wide band assisted reverberation systems
US7218741B2 (en) * 2002-06-05 2007-05-15 Siemens Medical Solutions Usa, Inc System and method for adaptive multi-sensor arrays
EP1473964A3 (en) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Microphone array, method to process signals from this microphone array and speech recognition method and system using the same
US7872583B1 (en) * 2005-12-15 2011-01-18 Invisitrack, Inc. Methods and system for multi-path mitigation in tracking objects using reduced attenuation RF technology
EP2026597B1 (en) 2007-08-13 2009-11-11 Harman Becker Automotive Systems GmbH Noise reduction by combined beamforming and post-filtering
EP2081189B1 (en) 2008-01-17 2010-09-22 Harman Becker Automotive Systems GmbH Post-filter for beamforming means
JP5267982B2 (ja) * 2008-09-02 2013-08-21 Necカシオモバイルコミュニケーションズ株式会社 音声入力装置、雑音除去方法及びコンピュータプログラム
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction
US20100217590A1 (en) * 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
JP2010210728A (ja) * 2009-03-09 2010-09-24 Univ Of Tokyo 音響信号処理方法及び装置
CN103125104B (zh) * 2010-07-22 2015-10-21 伊卡诺斯通讯公司 用于操作矢量化vdsl线路组的方法
EP3462452A1 (en) * 2012-08-24 2019-04-03 Oticon A/s Noise estimation for use with noise reduction and echo cancellation in personal communication
EP2738762A1 (en) 2012-11-30 2014-06-04 Aalto-Korkeakoulusäätiö Method for spatial filtering of at least one first sound signal, computer readable storage medium and spatial filtering system based on cross-pattern coherence
CN105230044A (zh) * 2013-03-20 2016-01-06 诺基亚技术有限公司 空间音频装置
DK2916321T3 (en) * 2014-03-07 2018-01-15 Oticon As Processing a noisy audio signal to estimate target and noise spectral variations

Also Published As

Publication number Publication date
CA3005463A1 (en) 2017-08-10
GB2550455A (en) 2017-11-22
US20170221502A1 (en) 2017-08-03
DE102017102134B4 (de) 2022-12-15
AU2017213807A1 (en) 2018-04-19
CN107039045B (zh) 2020-10-23
AU2017213807B2 (en) 2019-06-06
GB201701727D0 (en) 2017-03-22
CA3005463C (en) 2020-07-28
DE102017102134A1 (de) 2017-08-03
JP2019508719A (ja) 2019-03-28
US9721582B1 (en) 2017-08-01
WO2017136532A1 (en) 2017-08-10
KR102064902B1 (ko) 2020-01-10
CN107039045A (zh) 2017-08-11
JP6663009B2 (ja) 2020-03-11
DE202017102564U1 (de) 2017-07-31

Similar Documents

Publication Publication Date Title
KR102064902B1 (ko) 음성 강화를 위해 전역적으로 최적화된 최소 제곱 포스트 필터링
Wang et al. Deep learning based target cancellation for speech dereverberation
Kinoshita et al. A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research
Schwartz et al. Multi-microphone speech dereverberation and noise reduction using relative early transfer functions
Benesty et al. Speech enhancement in the STFT domain
Krueger et al. Speech enhancement with a GSC-like structure employing eigenvector-based transfer function ratios estimation
Schmid et al. Variational Bayesian inference for multichannel dereverberation and noise reduction
Schwartz et al. An expectation-maximization algorithm for multimicrophone speech dereverberation and noise reduction with coherence matrix estimation
Huang et al. Globally optimized least-squares post-filtering for microphone array speech enhancement
Yousefian et al. A coherence-based noise reduction algorithm for binaural hearing aids
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Habets et al. Dereverberation
Yousefian et al. Using power level difference for near field dual-microphone speech enhancement
Tammen et al. Joint estimation of RETF vector and power spectral densities for speech enhancement based on alternating least squares
Li et al. A noise reduction system based on hybrid noise estimation technique and post-filtering in arbitrary noise environments
Zohourian et al. GSC-based binaural speaker separation preserving spatial cues
Li et al. A hybrid microphone array post-filter in a diffuse noise field
Huang et al. Dereverberation
Pfeifenberger et al. Blind source extraction based on a direction-dependent a-priori SNR.
Bai et al. Speech Enhancement by Denoising and Dereverberation Using a Generalized Sidelobe Canceller-Based Multichannel Wiener Filter
Ji et al. Coherence-Based Dual-Channel Noise Reduction Algorithm in a Complex Noisy Environment.
Martın-Donas et al. A postfiltering approach for dual-microphone smartphones
Schwartz et al. Cramér–Rao bound analysis of reverberation level estimators for dereverberation and noise reduction
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
KR101537653B1 (ko) 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant