KR20170039126A

KR20170039126A - 오디오 신호들을 정제하는 멀티 오럴 mmse 분석 기술들

Info

Publication number: KR20170039126A
Application number: KR1020177001307A
Authority: KR
Inventors: 프레드릭 가이거; 브라이언트 번더슨; 칼 그런드스톰
Original assignee: 사이퍼 엘엘씨
Priority date: 2014-06-18
Filing date: 2015-06-12
Publication date: 2017-04-10
Anticipated expiration: 2035-06-12
Also published as: JP6789827B2; CN106797517A; KR102378207B1; US20150373453A1; US10149047B2; WO2015195482A1; EP3158775A1; CN106797517B; EP3158775A4; JP2017522594A

Abstract

오디오 신호들을 처리하는 기술들은 오디오 신호들을 출력하기 전에 오디오 신호들로부터 잡음을 제거하는 것 또는 다른 방식으로 오디오 신호들을 정제하는 것을 포함한다. 개시된 기술들은 일차 마이크로폰 및 적어도 하나의 기준 마이크로폰으로부터 수신되는 오디오 신호들에 대해 최소 평균 제곱 에러(MMSE) 분석들을 이용할 수 있고, 일차 마이크로폰에 의해 수신되는 오디오 신호들로부터 잡음을 감소시키거나 제거하기 위해 MMSE 분석들이 사용되는 기술들에 관한 것이다. 선택사항적으로, 오디오 신호의 상이한 주파수 대역들에 신뢰 구간들이 할당될 수 있으며, 각각의 신뢰 구간은 그것의 각자의 주파수 대역이 타겟팅된 오디오를 포함할 가능성에 대응하고, 각각의 신뢰 구간은 잡음이 제거된 재구성된 오디오 신호에서 그것의 각자의 주파수 대역의 기여를 나타낸다.

Description

오디오 신호들을 정제하는 멀티 오럴 MMSE 분석 기술들{MULTI-AURAL MMSE ANALYSIS TECHNIQUES FOR CLARIFYING AUDIO SIGNALS}

본 개시내용은 일반적으로 오디오 신호들을 출력하기 전에 오디오 신호들로부터 잡음을 제거하거나 다른 방식으로 오디오 신호들을 정제하는 기술들을 포함하는, 오디오 신호들을 처리하는 기술들에 관한 것이다. 더 구체적으로, 본 개시내용은 최소 평균 제곱 에러(minimum mean squared error)(MMSE) 분석들이 일차 마이크로폰 및 적어도 하나의 기준 마이크로폰으로부터 수신되는 오디오 신호들에 대해 수행되는 기술들, 및 일차 마이크로폰에 의해 수신되는 오디오 신호들로부터 잡음을 감소시키거나 제거하기 위해 MMSE 분석들이 사용되는 기술들에 관한 것이다.

다양한 양태들에서, 본 개시내용에 따른 방법은 오디오 신호의 타겟팅된 부분(targeted portion), 또는 성분을 식별하는 단계 및 오디오 신호의 타겟팅된 부분을 동반하는 잡음을 감소시키거나 제거하는 단계를 포함하는 정제 프로세스(clarification process)이다. 정제 프로세스가 사용될 때, 일차 오디오 신호의 타겟팅된 부분, 또는 일차 오디오 신호의 타겟팅된 부분의 적어도 상당한 부분은 정제 프로세스 후에 남거나, 존속할 것이다. 정제 프로세스 후에 남아 있는 일차 오디오 신호의 각각의 부분은 본원에서 "정제된 오디오 신호(clarified audio signal)"로 언급된다. 일차 오디오 신호의 상이한 주파수 대역들이 개별적으로 정제되는 실시예들에서, 정제된 오디오 신호들은 일차 오디오 신호의 재구성된 버전에 포함될 수 있으며, 일차 오디오 신호는 또한 본원에서 "재구성된 오디오 신호"로 언급된다. 정제 프로세스가 오디오 통신 디바이스, 예컨대 이동 전화에서 사용되는 실시예들에서, 일차 오디오 신호의 타겟팅된 부분은 개인의 음성을 포함할 수 있다. 일차 오디오 신호가 정제되었고 정제된 오디오 신호가 재구성된 오디오 신호에 임의로 포함되었다면, 정제된 및/또는 재구성된 오디오 신호가 저장되고, 다른 디바이스에 송신되고 및/또는 가청으로 출력될 수 있다.

오디오 신호를 처리하는 방법은 적어도 2개의 마이크로폰이 서로 근접한 상태에서, 오디오 신호를 사운드의 형태로 수신하지만, 상이한 배향들 또는 관점들을 제공하는 단계, 및 따라서, 오디오 신호를 서로 상이한 방식들로, 또는 상이한 관점들로부터 수신하는 단계를 포함한다. 그러한 배열은 "바이노럴 환경(binaural environment)"으로 언급된다. 마이크로폰들은 일차 마이크로폰 및 하나 이상의 기준 마이크로폰들을 포함한다. 일차 마이크로폰은 의도된 소스로부터 오디오 신호를 수신하도록 위치될 수 있으며; 예를 들어, 일차 마이크로폰은 개인이 이동 전화를 사용하면서 말하는 이동 전화의 마이크로폰을 포함할 수 있다. 의도된 소스로부터의 오디오 신호는 타겟팅된 오디오, 또는 타겟팅된 사운드를 포함할 수 있다. 그것의 배향 또는 관점 때문에, 일차 마이크로폰에 의해 수신되는 오디오 신호는 본원에서 "일차 오디오 신호"로 언급된다.

각각의 기준 마이크로폰은 위치 및 배향, 또는 관점에서, 사운드의 의도된 소스로부터 다소 원격으로 위치될 수 있으며, 그것은 기준 마이크로폰이 배경 사운드를 동일한 정도로 또는 배경 사운드가 일차 마이크로폰에 의해 수신되는 것보다 더 큰 정도로 수신할 수 있게 하고, 일차 마이크로폰이 타겟팅된 오디오를 수신하는 것보다 더 작은 정도로 타겟팅된 오디오를 수신할 수 있게 한다. 각각의 기준 마이크로폰의 관점으로부터 수신되는 오디오 신호는 본원에서 "기준 오디오 신호"로 언급된다.

오디오 신호가 일차 오디오 신호 및 하나 이상의 기준 오디오 신호들로 수신되었다면, 일차 오디오 신호는 정제될 수 있다. 정제 프로세스의 일부로서, 일차 오디오 신호 및 각각의 기준 오디오 신호에 하나 이상의 적응 시간 도메인 필터들이 가해질 수 있다. 특정 실시예에서, 일차 오디오 신호 및/또는 각각의 기준 오디오 신호에 최소 제곱 평균들(LMS) 필터가 가해질 수 있다.

일차 오디오 신호 또는 임의의 기준 오디오 신호에 하나 이상의 적응 시간 도메인 필터들이 가해지는지의 여부에 상관없이, 잡음 추정값이 획득된다. 잡음 추정값은 하나 이상의 기준 오디오 신호들로부터 획득될 수 있다. 더 구체적으로, 잡음 추정값은 적어도 하나의 타겟팅된 오디오의 하나 이상의 부분들(예를 들어, 인간 음성의 포먼트들, 또는 스펙트럼 피크들; 등)이 존재하는 것으로 공지되어 있는 하나 이상의 주파수 대역들로부터 획득될 수 있다. 잡음 추정값은 기준 오디오 신호(들)로부터 단독으로 획득되거나, 기준 오디오 신호(들)의 적절한 부분들(예를 들어, 관심의 각각의 주파수 대역 등)을 잡음에 더하여, 타겟 오디오를 포함하는 일차 오디오 신호의 대응하는 부분들과 비교함으로써 획득될 수 있다. 훨씬 더 구체적으로, 일차 오디오 신호의 특정 주파수 대역의 샘플은 일차 오디오 신호의 그 주파수 대역에 존재하는 예상적, 또는 개연적 잡음(즉, 잡음 추정값)을 식별하기 위해 하나 이상의 기준 오디오 신호들의 동일한 특정 주파수 대역의 동시에 획득된 샘플과 비교될 수 있다. 그것이 어떻게 획득되는지에 상관없이, 각각의 잡음 추정값은 일차 오디오 신호에 존재하거나 일차 오디오 신호의 하나 이상의 주파수 대역들에 존재하는, 예상적 잡음, 또는 개연적 잡음을 식별하기 위해 사용될 수 있다. 바이노럴 환경에서 오디오 신호들을 분석함으로써, 잡음 추정은 잡음이 기준 오디오 신호의 사용 없이 추정될 때 요구되는 바와 같이, 음성 활동 검출기 없이 수행될 수 있다.

각각의 잡음 추정값은 일차 오디오 신호 또는 일차 오디오 신호의 하나 이상의 주파수 대역들 상에 최소 평균 제곱 에러(MMSE) 분석을 수행하는 동안에 고려될 수 있다. MMSE 분석은 잡음 추정값들의 함수 및 일차 오디오 신호들의 주파수 분해에 의해 정의되는, 에러를 최소화하기 위해 사용될 수 있다. 그러한 최소화의 결과는 일차 오디오 신호의 하나 이상의 주파수 대역들을 수정하기 위해 사용될 수 있다. 일부 실시예들에서, MMSE 분석은 하나 이상의 잡음 추정값들에 기초하여 조정될 수 있다. 대안적으로, 하나 이상의 잡음 추정값들은 일차 오디오 신호 또는 일차 오디오 신호의 하나 이상의 주파수 대역들의 MMSE 분석을 위해 감안(account for)되거나 MMSE 분석에 통합(incorporate)될 수 있다. MMSE 분석은 일차 오디오 신호 또는 일차 오디오 신호의 하나 이상의 주파수 대역들로부터 잡음을 적어도 부분적으로 제거하여, 하나 이상의 정제된 오디오 신호들을 제공한다. 다른 방법으로 명시되면, 정제된 오디오 신호(들)의 하나 이상의 주파수 대역들 내의 잡음의 전체 존재가 감소될 수 있거나, 잡음을 포함하지만 타겟팅된 오디오가 없는 각각의 주파수 대역의 경우에, 재구성된 출력 신호 내의 주파수 대역의 전체 존재가 감소될 수 있다.

상이한 주파수 대역들 상에 수행되는 MMSE 분석이 복수의 정제된 오디오 신호들을 야기했던 것들뿐만 아니라, 일차 오디오 신호가 복수의 상이한 주파수 대역들로 분리되었던 것들을 포함하는 일부 실시예들에서, 각각의 정제된 오디오 신호는 복수의 주파수 대역들의 주파수 대역에 대응하며, 신뢰 구간은 각각의 주파수 대역 또는 정제된 오디오 신호에 할당될 수 있다. 각각의 주파수 대역, 또는 정제된 오디오 신호에 대한 신뢰 레벨은 그 주파수 대역, 또는 정제된 오디오 신호가 재구성된 오디오 신호에 포함되는 정도에 대응할 수 있다. 각각의 신뢰 구간은 실시간 분석에 기초하고 및/또는, 일부 실시예들에서, 이력 데이터에 기초할 수 있다. 더 구체적으로, 각각의 주파수 대역 또는 정제된 오디오 신호에 대한 신뢰 구간은 일차 오디오 신호 및 각각의 기준 오디오 신호로부터 얻어지는 정보(예를 들어, 대응하는 주파수 대역에 대한 잡음 추정값, 대응하는 주파수 대역에 대한 MMSE 분석의 결과들 등)에 대응할 수 있다.

신뢰 구간은 그것의 대응하는 주파수 대역 또는 정제된 오디오 신호가 일차 오디오 신호의 타겟팅된 오디오의 적어도 일부, 예컨대 인간 음성, 음악 등을 포함할 가능에 적어도 부분적으로 대응할 수 있다. 일부 실시예들에서, 특정 주파수 대역 또는 정제된 오디오 신호에 대한 신뢰 구간은 주파수 대역 또는 정제된 오디오 신호가 타겟팅된 오디오의 적어도 일부를 포함할 가능성에 대응할 수 있다. 대안적으로, 또는 부가적으로, 특정 주파수 대역 또는 정제된 오디오 신호에 대한 신뢰 구간은 기준 오디오 신호의 대응하는 부분의 대응하는 주파수 대역에 존재하는 잡음과 비교할 때 정제된 오디오 신호로부터 제거되는 잡음의 양(예를 들어, 잡음의 퍼센티지 등)에 대응할 수 있다.

각각의 신뢰 구간은 이득 값; 예를 들어, 영(0)과 일(1) 사이의 값으로 구체화될 수 있으며, 이득 값은 그것의 대응하는 미리 결정된 주파수 대역에 대한 승수로 사용되고, 따라서, 그러한 대응하는 미리 결정된 주파수 대역이 재구성된 출력 오디오 신호에 포함되는 정보를 제어하기 위해 사용될 수 있다. 일 예로서, 주파수 대역 또는 정제된 오디오 신호가 (예를 들어, 그 주파수 대역에 대한 MMSE 분석 등으로부터) 일차 오디오 신호의 타겟팅된 오디오의 일부에 대응하는 높은 신뢰 레벨이 있으면, 비교적 높은 이득 값(예를 들어, 0.5 초과, 0.6과 1 사이 등)이 그 주파수 대역에 할당될 수 있다. 주파수 대역이 일차 오디오 신호의 타겟팅된 오디오의 일부에 대응할 가능성이 더 적으면, 대응하는 신뢰 구간은 낮을 수 있고, 대응적으로 낮은 이득 값(예를 들어, 0.5 이하의 이득 값 등)이 그 특정 주파수 대역에 할당될 수 있다. 주파수 대역이 타겟팅된 오디오의 일부에 대응하거나, 주파수 대역이 잡음으로 주로 구성될 가능성이 매우 있는 매우 낮은 신뢰 레벨이 있으면, 매우 낮은 이득 값(예를 들어, 0.3 미만 등)이 그 특정 주파수 대역에 할당될 수 있다.

복수의 주파수 대역들이 일차 오디오 신호로부터 분리되거나, 추출되었고 신뢰 구간이 각각의 주파수 대역에 할당되었을 경우, 신뢰 구간들은 이때 주파수 대역들 각각이 재구성된 오디오 신호에 포함되는 정도를 결정하기 위해 사용될 수 있으며; 즉 재구성된 오디오 출력 신호의 각각의 주파수 대역의 존재는 그것의 신뢰 구간에 대응할 수 있다. 더 구체적으로, 각각의 신뢰 구간은 최종 재구성된 신호의 신호 대 잡음 비(SNR)를 개선하기 위해 그것의 대응하는 주파수 대역의 크기를 동적으로 조정하도록 사용될 수 있다. 더 높은 신뢰 구간들을 갖는 주파수 대역들은 더 낮은 신뢰 구간들을 갖는 주파수 대역들보다 더 큰 존재를 가져서, 높은 신뢰 구간들을 갖는 주파수 대역들을 낮은 신뢰 구간들을 갖는 주파수 대역들보다 재구성된 오디오 신호에서 더 현저하게 한다. 신뢰 구간들이 할당되었다면, 주파수 대역들은 재구성된 오디오 신호를 발생시키기 위해 다시 수집될 수 있다.

개시된 정제 프로세스는 연속적 또는 실질적으로 연속적으로(예를 들어, 일련의 시간 세그먼트들 등으로) 수행될 수 있다.

본 개시내용에 따른 정제 프로세스의 임의의 실시예는 전자 디바이스의 처리 요소의 동작을 제어하는 프로그램(예를 들어, 소프트웨어 애플리케이션, 또는 "앱"; 펌웨어; 등)으로 구체화될 수 있다. 따라서, 본 개시내용의 전자 디바이스는 잡음이 소스 오디오 신호에 존재한 정도에 상관없이, 거의 없는 잡음을 갖는 정제된 오디오 신호 및/또는 재구성된 오디오 신호를 제공하도록 구성될 수 있다. 그 다음, 전자 디바이스는 정제된 오디오 신호 및/또는 재구성된 오디오 신호의 가청 출력을 저장하고, 송신하고 및/또는 제공하도록 구성될 수 있다.

구체적이지만, 비제한적 실시예에서, 그러한 전자 디바이스는 이동 전화 또는 다른 오디오 통신 디바이스를 포함할 수 있다. 프로그램 및 프로세서를 포함하는 것에 더하여, 오디오 통신 디바이스는 일차 마이크로폰 및 하나 이상의 기준 마이크로폰들을 포함할 수 있다. 오디오 통신 디바이스는 또한 오디오 신호를 송신하는 안테나와 같은 송신 요소를 포함할 수 있다. 일차 마이크로폰 및 각각의 기준 마이크로폰은 오디오 신호를 수신하고 오디오 신호를 프로세서에 전달하도록 구성된다. 프로세서는 상기 설명된 방법의 일 실시예에 따라 일차 마이크로폰으로부터 일차 오디오 신호를 처리하고 각각의 기준 마이크로폰으로부터 기준 오디오 신호를 처리하며, 정제된 오디오 신호 및/또는 재구성된 오디오 신호를 발생시킨다. 그 다음, 정제된 오디오 신호 및/또는 재구성된 오디오 신호는 오디오 통신 디바이스의 출력 요소에 의해; 예를 들어, 셀룰러 캐리어 네트워크에 송신될 수 있으며, 그것으로부터, 정제된 오디오 신호 및/또는 재구성된 오디오 신호는 결국 수신자 디바이스, 예컨대 다른 전화에 의해 수신될 수 있다.

개시된 발명 대상의 다른 양태들뿐만 아니라, 다양한 양태들의 특징들 및 장점들은 다음의 설명, 첨부 도면들 및 첨부된 청구항들의 고려를 통해 본 기술분야의 통상의 기술자들에게 분명해질 것이다.

도면들에서,
도 1은 오디오 신호들을 정제하는 방법의 일 실시예를 도시하는 흐름도이다.
도 2는 본 개시내용의 교시들에 따라 오디오 신호들을 정제하는 방법의 일 실시예에서 적응 최소 제곱 평균들(least mean squares)(LMS) 필터링의 사용의 일 실시예를 예시하는 흐름도이다.
도 3은 본 개시내용의 교시들에 따라 오디오 신호들을 정제하는 방법의 일 실시예를 실행하도록 구성되는 전자 디바이스의 일 실시예를 개략적으로 도시한다.

도 1을 참조하여, 오디오 신호를 정제하는 방법의 일 실시예가 예시되고 설명된다. 일반적으로, 방법은 3개의 구성요소를 포함한다: 참조(10)에서, 오디오 신호를 수신하는 단계; 참조(20)에서, 정제된 오디오 신호 및/또는 재구성된 오디오 신호를 제공하기 위해, 오디오 신호를 처리하는 단계; 및 참조(40)에서, 정제된 오디오 신호 및/또는 재구성된 오디오 신호를 출력하는 단계.

참조(10)에서, 오디오 신호를 수신하는 행동은 복수의 오디오 신호들을 수신하는 행동을 포함할 수 있다. 참조(12)에서, 일차 오디오 신호는 도 3에 도시된 바와 같이, 제1 소스, 예컨대 이동 전화 또는 다른 오디오 통신 디바이스(100)의 일차 마이크로폰(112)으로부터 수신될 수 있다. 도 1의 참조(14)에서, 오디오 통신 디바이스(100)의 하나 이상의 기준 마이크로폰들(114)은 기준 오디오 신호를 수신할 수 있다. 일차 마이크로폰(112) 및 각각의 기준 마이크로폰(114)은 일차 오디오 신호 및 각각의 기준 오디오 신호를 동시에 및 같은 위상에서 각각 수신할 수 있다. 일부 실시예들에서, 일차 오디오 신호 및 각각의 기준 오디오 신호의 성분들은 일차 오디오 신호 및 기준 오디오 신호(들)가 획득된 각각의 일차 마이크로폰(112) 및 기준 마이크로폰(들)(114)의 상이한 배향들, 또는 관점들 사이의 인트라오럴 레벨 차이(intraaural level difference)(ILD)로 인해, 실질적으로 동일한 것이지만, 상이한 양들로 있을 수 있다.

일차 오디오 신호 및 각각의 기준 오디오 신호를 수신하면, 도 3에 도시된 오디오 통신 디바이스(100)의 일차 마이크로폰(112) 및 각각의 기준 마이크로폰(114)은 도 1의 참조(16)에서, 이러한 신호들을 오디오 통신 디바이스(100)의 프로세서(120)에 전달할 수 있다.

도 1의 참조(20)에서, 일차 오디오 신호 및 각각의 기준 오디오 신호는 정제된 오디오 신호를 제공하는 방식으로 처리될 수 있다. 이러한 정제 프로세스는 도 2에 상세히 제시되는 다수의 행동들을 포함할 수 있다. 도 2의 참조(22)에서, 일차 오디오 신호, 및 선택사항적으로, 각각의 기준 오디오 신호에 하나 이상의 적응 시간 도메인 필터들이 가해질 수 있다. 저역 통과 필터를 포함할 수 있는 그러한 필터는 필터링된 신호들로부터, 에러, 또는 개연적 잡음을 제거할 수 있어, 추가 처리 후에, 더 개선된 신호(more refined signal), 또는 더 클린한 신호(clearer signal)를 야기한다. 특정 실시예에서, 최소 제곱 평균 필터(LMS)는 적응 시간 도메인 필터로 사용될 수 있다. 적응 시간 도메인 필터는 각각 필터링된 신호로부터 일부 잡음 및/또는 다른 원하지 않은 인공물들을 제거하는 러프(rough), 또는 패시브 필터를 제공할 수 있다.

도 2의 참조(24)에서, 잡음 추정값이 획득될 수 있다. 더 구체적으로, 기준 오디오 신호, 또는 복수의 기준 오디오 신호들이 수신되는 실시예들에서, 기준 오디오 신호들은 잡음 추정값을 제공하는 방식으로 처리될 수 있다. 그러한 처리는 개인이 오디오 통신 디바이스(100)(도 3)의 일차 마이크로폰(112)으로 말하는 음성의 일부를 형성하는 포먼트와 같은 타겟 오디오를 포함할 가능성이 있는 하나 이상의 주파수 대역들의 평가를 포함할 수 있다. 그러한 처리에 의해 제공되는 잡음 추정값은 각각의 기준 오디오 신호의 각각 평가된 주파수 대역으로부터 오디오 신호들에 오로지 기초할 수 있다. 대안적으로, 잡음 추정값은 각각의 기준 오디오 신호의 각각의 평가된 주파수 대역과 기준 오디오 신호(들)에 대응하는 일차 오디오 신호의 각각의 대응하는 주파수 대역 사이의 차이들에 기초할 수 있다. 특정 실시예에서, 기준 오디오 신호로부터의 특정 주파수 대역이 실질적으로 동일한 전력을 갖거나 대응하는 일차 오디오 신호의 동일한 주파수 대역보다 더 큰 전력을 가지면, 그 주파수 대역은 잡음으로 주로 구성될 가능성이 가장 많고, 따라서 잡음으로 주로 구성되는 것으로 간주될 수 있다. 일차 오디오 신호로부터의 주파수 대역이 대응하는 기준 오디오 신호 내의 동일한 주파수 대역보다 더 큰 전력을 가지면, 그것은 타겟팅된 오디오의 적어도 일부를 포함할 가능성이 있고 따라서 타겟팅된 오디오의 적어도 일부를 포함하는 것으로 간주될 수 있다.

잡음 추정값이 획득되었다면, 잡음 추정값은 도 2의 참조(26)에서 제시되는 바와 같이, 일차 오디오 신호의 최소 평균 제곱 에러(MMSE) 분석과 함께 사용될 수 있다. 일부 실시예들에서, MMSE 분석은 잡음 추정값을 감안할 수 있다. 더 구체적으로, MMSE 분석은 잡음 추정값에 기초하여 조정될 수 있다. 예를 들어, 잡음 추정값은 MMSE 분석으로 통합될 수 있다. 그 다음, MMSE 분석은 적어도 하나의 정제된 오디오 신호를 제공하기 위해 본 기술분야에 공지된 방식으로 일차 오디오 신호에 적용될 수 있다. 일차 오디오 신호에 적응 시간 도메인 필터가 가해졌던 실시예들에서, 일차 오디오 신호의 스펙트럼 특성들은 수정되었고, MMSE 분석은 적절히 수정될 수 있다. 일부 실시예들에서, MMSE 분석은 일차 오디오 신호의 주파수 대역들 중 하나에 각각 대응하는, 복수의 정제된 오디오 신호들을 제공하기 위해 일차 오디오 신호의 상이한 주파수 대역들에 개별적으로 적용될 수 있다.

도 2의 참조(28)에서, 신뢰 구간은 일차 오디오 신호의 각각의 주파수 대역에 할당될 수 있다. 신뢰 구간들은 일차 오디오 신호의 비처리된 주파수 대역들에 적용되거나, 일차 오디오 신호의 필터링된 주파수 대역들에 적용되거나 일차 오디오 신호의 주파수 대역들 상의 MMSE 분석들에서 기인하는 정제된 오디오 신호들에 적용될 수 있다. 각각의 신뢰 구간은 일차 오디오 신호의 대응하는 주파수 대역이 타겟팅된 오디오의 적어도 일부에 대응할 가능성의 표시자를 제공할 수 있다. 일부 실시예들에서, 일차 오디오 신호 및 각각의 기준 오디오 신호, 또는 그러한 신호들 중 어느 하나 또는 둘 다로부터 획득되는 정보(예를 들어, 각각의 주파수 대역에 대한 잡음 추정값, 각각의 주파수 대역에 대한 MMSE 분석의 결과들 등)는 신뢰 구간을 일차 오디오 신호의 각각의 주파수 대역에 할당하는 동안에 고려될 수 있다.

각각의 신뢰 구간은 대응하는 미리 결정된 주파수 대역이 재구성된 출력 오디오 신호에 포함되는 정도를 제어할 수 있다. 각각의 신뢰 구간의 실제적 효과는 타겟팅된 오디오에 기여(contribute)하는 것으로 생각되지 않는 주파수 대역들을 약화시키는 것이다. 특정한 미리 결정된 주파수 대역에 대한 신뢰 구간은 임의의 적절한 방식으로 그러한 미리 결정된 주파수 대역에 적용될 수 있다. 제한 없이, 신뢰 구간은 그것의 대응하는 미리 결정된 주파수 대역에 대한 승수를 포함할 수 있다. 특정 실시예에서, 각각의 신뢰 구간은 이득 값; 즉, 영(0)과 일(1) 사이의 값으로 구체화될 수 있다. 예를 들어, 특정 주파수 대역이 일차 오디오 신호의 타겟팅된 오디오의 일부일 가능성이 있으며, 비교적 높은 이득 값(예를 들어, 0.5 초과, 0.6과 1 사이 등)이 그 주파수 대역에 할당될 수 있다. 특정 주파수 대역은 타겟팅된 오디오의 일부를 포함할 가능성만큼 잡음을 포함할 가능성이 적어도 있으면, 그 주파수 대역에 대한 신뢰 구간은 낮을 수 있고, 대응적으로 낮은 이득 값(예를 들어, 0.5 이하의 이득 값 등)이 그 주파수 대역에 할당될 수 있다. 특정 주파수 대역이 타겟팅된 오디오의 일부를 포함할 가능성이 없거나, 특정 주파수 대역이 잡음의 결과일 가능성이 매우 있으면, 매우 낮은 신뢰 구간 및 매우 낮은 이득 값(예를 들어, 0.3 미만 등)이 그 주파수 대역에 할당될 수 있다.

일차 오디오 신호의 각각의 주파수 대역에 할당되는 적절한 신뢰 구간의 경우, 그 주파수 대역은 도 2의 참조(30)에서, 적절한 방식으로 조정될 수 있다. 신뢰 구간이 이득 값에 대응하는 실시예들에서, 이득 값은 주파수 대역에 적용될 수 있다.

도 2의 참조(32)에서, 재구성된 오디오 신호는 수정되었던 하나 이상의 주파수 대역들을 조합함으로써 구성될 수 있다. 조합되는 주파수 대역들은 상기 설명된 MMSE 분석에 의해 수정되거나, 신뢰 구간을 사용하여 수정되건, 또는 MMSE 분석 및 신뢰 구간들의 조합에 의해 수정될 수 있다.

그 다음, 재구성된 오디오 신호는 도 1의 참조(40)에서 출력될 수 있다. 도 1 및 도 2를 참조하여 설명되었던 타입의 프로세스가 도 3에 의해 도시되는 이동 전화와 같은 오디오 통신 디바이스(100)의 일차 마이크로폰 및 하나 이상의 기준 마이크로폰들에 의해 수신되었던 오디오를 수정하기 위해 사용되는 실시예들에서, 수정된 일차 오디오 신호는 오디오 통신 디바이스(100)의 프로세서(110)에 의해 오디오 통신 디바이스(100)의 안테나(130)에 전달될 수 있으며, 그 다음 안테나는 수정된 일차 오디오 신호를 다른 오디오 통신 디바이스 또는 네트워크에 송신하며, 그 다음 네트워크는 수정된 일차 오디오 신호를 다른 오디오 통신 디바이스에 송신할 수 있다. 그 다음, 수정된 일차 오디오 신호를 수신하는 오디오 통신 디바이스는 거의 없는 잡음을 갖는 가청 출력을 제공하는 방식으로 그러한 신호를 처리할 수 있다.

이전 개시내용은 오디오 통신 디바이스들의 맥락에서 주로 제공되었지만, 개시된 발명 대상은 또한 여러가지 다른 맥락들에서 오디오 신호들에 적용될 수 있다. 제한 없이, 개시된 발명 대상은 사운드를 수신하고 증폭하기 위해 사용되는 장치들(예를 들어, 마이크로폰들, 증폭기들, 및 선택사항적으로, 혼합기들 등을 포함하는 시스템들), 오디오를 수신하고 기록하는 장치들(예를 들어, 음성 레코더들, 비디오 레코더들, 사운드 스튜디오들 등), 오디오 헤드셋들(예를 들어, 유선, 무선(예를 들어, BLUETOOTH^® 등) 등) 및 여러가지 다른 맥락들에서 유용할 수 있다. 더 구체적으로, 도 3에 의해 예시된 바와 같이, 재구성된 오디오 신호는 오디오 출력 디바이스(100) 또는 오디오를 수신하고 저장하도록 구성되는 다른 디바이스(예를 들어, 음성 레코더, 오디오 레코더, 비디오 카메라 등)와 같은, 전자 디바이스의 프로세서(110)와 연관되는 메모리(120)에 의해 저장될 수 있다. 대안적으로, 재구성된 오디오 신호는 전자 디바이스의 스피커(140), 예컨대 스테레오, 휴대용 전자 디바이스, 컴퓨터, 사운드 시스템 등의 라우드 스피커에 의해 가청으로 출력될 수 있다.

일차 오디오 신호는 실시간 또는 실질적인 실시간으로 (예를 들어, 오디오 통신 디바이스(100)의 일차 마이크로폰(112)에 의해―도 3) 획득되고 (예를 들어, 오디오 통신 디바이스(100)의 프로세서(110)와 연관되는 메모리(120) 등에 의해) 저장되고, (예를 들어, 오디오 통신 디바이스(100)의 안테나(130) 등에 의해) 송신되거나 (예를 들어, 오디오 통신 디바이스(100)의 스피커(140) 등에 의해) 출력되는 신호를 포함하는 실시예들에서, 도 1 및 도 2를 참조하여 설명되었던 프로세스들은 반복적으로 수행될 수 있다.

정제 프로세스(들)의 반복은 일차 오디오 신호의 연속적 수정을 제공하고, 일차 오디오 신호 내의 잡음 및 타겟팅된 오디오의 상대 레벨들의 변화들을 감안하는 빠른 조정들을 제공할 수 있다.

상술한 개시내용이 많은 세부 사항들을 제공하지만, 이들은 다음의 청구항들 중 어느 것에 대한 범위를 제한하는 것으로 해석되지 않아야 한다. 청구항들의 범위들로부터 벗어나지 않는 다른 실시예들이 고안될 수 있다. 상이한 실시예들로부터의 특징들은 조합으로 이용될 수 있다. 따라서, 각 청구항의 범위는 그것의 평범한 언어 및 그것의 요소들에 대한 이용가능 법적 균등물들의 전체 범위에 의해서만 표시되고 제한된다.

Claims

오디오 신호를 정제(clarifying)하는 방법으로서,
전자 디바이스의 적어도 2개의 마이크로폰에 의해 오디오 신호들을 수신하는 단계 - 각각의 오디오 신호는 복수의 주파수 대역들, 타겟 성분 및 잡음 성분을 포함하며, 상기 적어도 2개의 마이크로폰은 기준 마이크로폰이 상기 타겟 성분을 수신하는 것보다 더 높은 전력으로 상기 타겟 성분을 수신하는 일차 마이크로폰을 포함함 -;
상기 기준 마이크로폰에 의해 수신되는 기준 오디오 신호로부터 잡음 추정값을 결정하는 단계;
상기 잡음 추정값을 최소 평균 제곱 에러 분석(minimum mean squared error analysis)에 통합(incorporating)시키는 단계;
상기 일차 마이크로폰에 의해 수신되는 일차 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 상기 최소 평균 제곱 에러 분석을 가하는(subjecting) 단계;
상기 최소 평균 제곱 분석의 결과에 기초하여 상기 복수의 주파수 대역들의 각각의 주파수 대역에 신뢰 구간(confidence interval)을 할당하는 단계;
수정된 출력 주파수 대역을 제공하기 위해 그 주파수 대역의 신뢰 구간에 기초하여 상기 일차 오디오 신호의 각각의 주파수 대역의 오디오 출력 레벨을 수정하는 단계; 및
정제된 출력 오디오 신호를 제공하기 위해 상기 일차 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 대한 수정된 출력 주파수 대역들을 조합(combining)하는 단계
를 포함하는 방법.
제1항에 있어서, 상기 잡음 추정값을 결정하는 단계는 상기 일차 마이크로폰에 의해 수신되는 일차 오디오 신호로부터의 적어도 하나의 주파수 대역을 상기 기준 마이크로폰에 의해 수신되는 기준 오디오 신호의 적어도 하나의 대응하는 주파수 대역과 비교하는 단계를 포함하는 방법.
제2항에 있어서, 상기 잡음 추정값을 결정하는 단계는 상기 일차 마이크로폰에 의해 수신되는 일차 오디오 신호로부터의 복수의 주파수 대역들을 상기 기준 마이크로폰에 의해 수신되는 기준 오디오 신호의 대응하는 복수의 주파수 대역들과 비교하는 단계를 포함하는 방법.
제1항에 있어서,
상기 기준 마이크로폰에서 수신되는 기준 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 상기 최소 평균 제곱 에러 분석을 가하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 신뢰 구간을 할당하는 단계는,
상기 일차 마이크로폰에 의해 수신되는 주파수 대역보다 더 큰 전력으로 상기 기준 마이크로폰에 의해 수신되는 주파수 대역에 매우 낮은 신뢰 구간을 할당하는 단계;
실질적으로 동일한 전력으로 상기 일차 마이크로폰과 상기 기준 마이크로폰 둘 다에 의해 수신되는 주파수 대역에 낮은 신뢰 구간을 할당하는 단계; 및
상기 기준 마이크로폰에 의해 수신되는 주파수 대역보다 더 큰 전력으로 상기 일차 마이크로폰에 의해 수신되는 주파수 대역에 높은 신뢰 구간을 할당하는 단계를 포함하는 방법.
제5항에 있어서, 상기 매우 낮은 신뢰 구간을 할당하는 단계는 0.3 미만의 이득을 상기 주파수 대역에 할당하는 단계를 포함하는 방법.
제5항에 있어서, 상기 낮은 신뢰 구간을 할당하는 단계는 약 0.5 이하의 이득을 상기 주파수 대역에 할당하는 단계를 포함하는 방법.
제5항에 있어서, 상기 높은 신뢰 구간을 할당하는 단계는 0.6보다 더 큰 이득을 상기 주파수 대역에 할당하는 단계를 포함하는 방법.
제1항에 있어서, 상기 신뢰 구간을 할당하는 단계는 적절한 이득을 각각의 주파수 대역에 할당하는 단계를 포함하는 방법.
제1항에 있어서, 상기 신뢰 구간을 할당하는 단계는 상기 오디오 신호들에서 잡음을 동적으로 추정하는 단계를 포함하는 방법.
제1항에 있어서, 음성 활동(voice activity)을 검출하는 것 없이 수행되는 방법.
제1항에 있어서,
상기 일차 오디오 신호 및 상기 기준 오디오 신호에 적응 시간 도메인 필터를 가하는 단계를 더 포함하는 방법.
제12항에 있어서, 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 상기 적응 시간 도메인 필터를 가하는 단계는 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 최소 제곱 평균 필터(least mean square filter)를 가하는 단계를 포함하는 방법.
제12항에 있어서, 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 상기 적응 시간 도메인 필터를 가하는 단계는 상기 제1 및 기준 오디오 신호들의 복수의 주파수 대역들의 각각의 주파수 대역에 상기 최소 평균 제곱 에러 분석들을 가하기 전에 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 상기 적응 시간 도메인 필터를 가하는 단계를 포함하는 방법.
오디오 신호를 정제하는 방법으로서,
전자 디바이스의 적어도 2개의 마이크로폰에 의해 오디오 신호들을 수신하는 단계 - 각각의 오디오 신호는 복수의 주파수 대역들, 타겟 성분 및 잡음 성분을 포함하며, 상기 적어도 2개의 마이크로폰은 기준 마이크로폰이 상기 타겟 성분을 수신하는 것보다 더 높은 전력으로 상기 타겟 성분을 수신하는 일차 마이크로폰을 포함함 -;
필터링된 오디오 신호를 제공하기 위해 상기 일차 마이크로폰에 의해 수신되는 일차 오디오 신호에 적응 시간 도메인 필터를 가하는 단계;
상기 기준 마이크로폰에 의해 수신되는 기준 오디오 신호를 사용하여 잡음 추정값을 결정하는 단계;
상기 잡음 추정값에 기초하여 최소 평균 제곱 에러 분석을 조정(tailoring)하는 단계; 및
상기 필터링된 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 상기 최소 평균 제곱 에러 분석을 가하는 단계
를 포함하는 방법.
제15항에 있어서, 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 상기 적응 시간 도메인 필터를 가하는 단계는 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 최소 제곱 평균 필터를 가하는 단계를 포함하는 방법.
제15항에 있어서,
필터링된 기준 오디오 신호를 제공하기 위해 상기 기준 마이크로폰에 의해 수신되는 기준 오디오 신호에 상기 적응 시간 도메인 필터를 가하는 단계를 더 포함하는 방법.
제17항에 있어서, 상기 기준 마이크로폰에 의해 수신되는 기준 오디오 신호에 상기 적응 시간 도메인 필터를 가하는 단계는 상기 기준 오디오 신호에 최소 제곱 평균 필터를 가하는 단계를 포함하는 방법.
제17항에 있어서, 상기 기준 오디오 신호를 사용하여 상기 잡음 추정값을 결정하는 단계는 상기 필터링된 기준 오디오 신호를 사용하여 상기 잡음 추정값을 결정하는 단계를 포함하는 방법.
제17항에 있어서,
상기 필터링된 기준 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 상기 최소 평균 제곱 분석을 가하는 단계를 더 포함하는 방법.
제15항에 있어서,
상기 기준 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 상기 최소 평균 제곱 분석을 가하는 단계를 더 포함하는 방법.
제15항에 있어서,
상기 최소 평균 제곱 분석들의 결과에 기초하여 신뢰 구간을 상기 복수의 주파수 대역들의 각각의 주파수 대역에 할당하는 단계;
수정된 출력 주파수 대역을 제공하기 위해 그 주파수 대역의 신뢰 구간에 기초하여 상기 필터링된 오디오 신호의 각각의 주파수 대역의 오디오 출력 레벨을 수정하는 단계; 및
정제된 출력 오디오 신호를 제공하기 위해 상기 필터링된 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 대한 수정된 출력 주파수 대역들을 조합하는 단계를 더 포함하는 방법.
오디오 신호를 수신하도록 구성되는 전자 디바이스로서,
일차 오디오 신호를 수신하고 전달(communicating)하는 일차 마이크로폰;
기준 오디오 신호를 수신하고 전달하는 기준 마이크로폰;
프로세서; 및
상기 프로세서와 통신하는 출력 요소
를 포함하고,
상기 프로세서는,
상기 일차 오디오 신호 및 상기 기준 오디오 신호를 수신하고;
잡음 추정값을 제공하기 위해 상기 기준 오디오 신호를 처리하고;
상기 잡음 추정값을 감안(account for)하는 최소 평균 제곱 에러 분석을 발생시키고;
상기 일차 오디오 신호의 복수의 주파수 대역들에 상기 최소 평균 제곱 에러 분석을 가하고;
주파수 대역 비교를 제공하기 위해 상기 일차 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 대한 최소 평균 제곱 분석의 결과를 상기 기준 오디오 신호의 복수의 주파수 대역들의 대응하는 주파수 대역에 대한 최소 평균 제곱 분석의 결과와 비교하고;
그 주파수 대역에 대응하는 주파수 대역 비교에 기초하여 상기 일차 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 신뢰 구간을 할당하고;
수정된 출력 주파수 대역을 제공하기 위해 상기 신뢰 구간에 기초하여 상기 주파수 대역의 출력 전력을 조정하고;
정제된 출력 오디오 신호를 제공하기 위해 상기 일차 오디오 신호의 복수의 주파수 대역들의 각각의 주파수 대역에 대한 수정된 출력 주파수 대역들을 조합하고;
상기 출력 요소가 상기 정제된 출력 오디오 신호를 출력하게 하도록 프로그래밍되는 전자 디바이스.
제23항에 있어서, 상기 프로세서는,
상기 기준 오디오 신호의 복수의 주파수 대역들에 상기 최소 평균 제곱 에러 분석을 가하도록 더 프로그래밍되며, 상기 일차 오디오 신호의 복수의 주파수 대역들 및 상기 기준 오디오 신호의 복수의 주파수 대역들의 주파수 범위들은 서로에 대응하는 전자 디바이스.
제23항에 있어서, 이동 전화를 포함하는 전자 디바이스.
제23항에 있어서, 상기 출력 요소는 스피커를 포함하는 전자 디바이스.
제23항에 있어서, 상기 스피커는 상기 전자 디바이스에 의해 휴대되는(carried) 전자 디바이스.
제23항에 있어서, 상기 스피커는 상기 전자 디바이스에 선택적으로 결합되도록 구성되는 전자 디바이스.
제23항에 있어서, 상기 프로세서는,
상기 일차 오디오 신호 및 상기 기준 오디오 신호에 적응 시간 도메인 필터를 적용하도록 더 프로그래밍되는 전자 디바이스.
제29항에 있어서, 상기 프로세서는,
상기 일차 오디오 신호 및 상기 기준 오디오 신호에 적응 최소 제곱 평균 필터를 적용하도록 프로그래밍되는 전자 디바이스.
제29항에 있어서, 상기 프로세서는,
상기 일차 오디오 신호의 복수의 주파수 대역들 및 상기 기준 오디오 신호의 복수의 주파수 대역들에 상기 최소 평균 제곱 에러 분석들을 가하기 전에 상기 적응 시간 도메인 필터를 상기 일차 오디오 신호 및 상기 기준 오디오 신호에 적용하도록 프로그래밍되는 전자 디바이스.