KR20140033488A

KR20140033488A - 오디오 신호의 처리 기법

Info

Publication number: KR20140033488A
Application number: KR1020147000062A
Authority: KR
Inventors: 스테판 스트로머; 카스텐 밴드보그 소렌슨
Original assignee: 마이크로소프트 코포레이션
Priority date: 2011-07-05
Filing date: 2012-07-05
Publication date: 2014-03-18
Also published as: EP2715725A2; EP2715725B1; CN103827966A; GB201111474D0; CN103827966B; JP2014523003A; GB2493327A; WO2013006700A3; US9269367B2; US20130013303A1; KR101970370B1; WO2013006700A2; GB2493327B

Abstract

모바일 사용자들 사이에서 실시간 비디오 세션들의 QoE를 향상시키기 위한 컴퓨터 구현 시스템 및 방법이 설명된다. 예를 들어, 본 발명의 일 실시예에 따른 방법은 서비스 제공자 네트워크의 주변에 하나 이상의 서버들을 구성하는 단계와, 제1모바일 장치로부터 제2모바일 장치와 실시간 통신 세션을 설정하라는 요청을 수신하는 단계와, 제1 및 제2모바일 장치들에게 서버들로 연결하기 위한 네트워킹 정보를 제공하는 단계와, 서버를 통해 실시간 통신 세션을 설정하는 단계를 포함한다.

Description

오디오 신호의 처리 기법{PROCESSING AUDIO SIGNALS}

본 발명은 통신 세션 중에 오디오 신호를 처리하는 것에 관한 것이다.

통신 시스템들은 사용자들이 네트워크를 통해 서로 통신할 수 있게 한다. 네트워크는 예컨대 인터넷이나 공중 교환 전화망(Public Switched Telephone Network(PSTN))일 수 있다. 오디오 신호가 네트워크의 노드들 사이에서 전송될 수 있고, 그에 의해 사용자들이 통신 시스템을 통해 통신 세션에서 서로 오디오 데이터(음성 데이터 같은 것)를 송수신하게 할 수 있다.

사용자 장치는 사용자로부터 음성과 같은 오디오 신호를 수신하는 데 사용될 수 있는 마이크로폰과 같은 오디오 입력 수단을 가질 수 있다. 사용자는 다른 사용자와 함께 개인 통화(해당 통화 시 단 두 사용자들만 존재)나 전화 회의(해당 통화 시 둘을 넘는 사용자들이 존재)와 같은 어떤 통신 세션으로 진입할 수 있다. 사용자의 음성이 마이크로폰으로 수신되어 처리되고, 그런 다음 네트워크를 통해 통화 중인 다른 사용자(들)에게 송신된다.

사용자로부터의 오디오 신호와 마찬가지로, 마이크로폰은 사용자로부터 수신된 오디오 신호를 방해할 수 있는 배경 잡음과 같은 다른 오디오 신호를 또한 수신할 수 있다.

사용자 장치는 통화 중에 사용자(들)로부터 네트워크를 통해 수신되는 오디오 신호를 사용자에게 출력하기 위한 스피커와 같은 출력 수단을 역시 가질 수 있다. 그러나, 스피커들은 사용자 장치에서 실행되는 다른 애플리케이션들로부터 오디오 신호를 출력하는 데 사용될 수도 있다. 예를 들어, 사용자 장치는 네트워크를 통해 통신하기 위해 통신 클라이언트와 같은 애플리케이션을 실행하는 TV일 수 있다. 사용자 장치가 통화에 개입하고 있을 때, 사용자 장치에 연결된 마이크로폰은 그 통화에서 다른 사용자(들)에게 전송하기 위해 사용자에 의해 제공되는 음성이나 다른 오디오 신호들을 수신하도록 되어 있다. 그러나 마이크로폰이 사용자 장치의 스피커들로부터 출력되는 원하지 않는 오디오 신호들을 주워담을 수 있다. 사용자 장치로부터 출력되는 원하지 않는 오디오 신호들은 통화 시 전송하기 위해 마이크로폰에서 사용자로부터 수신된 오디오 신호에 대한 방해의 원인이 될 수 있다.

통화 시 사용하기 위한 것과 같은 신호의 품질을 향상시키기 위해, 사용자 장치의 오디오 입력 수단에서 수신되는 원하지 않는 오디오 신호들(배경 잡음 및 사용자 장치로부터 출력되는 원하지 않는 오디오 신호들)을 억제하는 것이 바람직할 수 있다.

복수의 마이크로폰들이 단일 장치로서 동작하는 스테레오 마이크로폰들 및 마이크로폰 어레이들의 사용이 점점 보편화되고 있다. 이것들은 단일 마이크로폰에서 수행될 수 있는 것 외에, 추출된 공간 정보의 사용을 가능하게 한다. 그러한 장치들을 사용할 때, 원하지 않는 오디오 신호를 억제하고자 하는 하나의 접근 방식은 빔 형성기(beamformer)를 적용하는 것이다. 빔 형성(beamforming)은 하나 이상의 바람직한 방향들로부터 들어오는 소리들을 개선하기 위해 신호 처리를 적용하여 마이크로폰 어레이에 의해 수신되는 신호들을 포커싱하고자 하는 프로세스이다. 단순화를 위해, 이하에서 하나의 바람직한 방향을 이용하는 경우를 기술할 것이지만, 더 많은 관심 방향들이 존재할 때 동일한 방법이 적용될 것이다. 빔 형성은 원하는 신호들이 마이크로폰에서 수신되는 각도, 소위 도달 방향("DOA") 정보를 우선 추정함으로써 수행된다. 적응적 빔 형성기들은 마이크로폰 어레이에서 원하는 신호들이 수신되는 방향으로 높은 이득을 가지고 어떤 다른 방향에서는 낮은 이익을 가지는 빔을 형성하기 위해 어레이로 된 마이크로폰들로부터의 신호들을 필터링하는 데 DOA 정보를 이용한다.

빔 형성기는 원하지 않는 방향들로부터 들어오는 원하지 않는 오디오 신호들을 억제하고자 시도할 수 있지만, 마이크로폰들의 개수 및 마이크로폰 어레이의 모양과 사이즈가 그러한 빔 형성기의 효과에 영향을 미칠 것이고, 그 결과, 원하지 않는 오디오 신호들이 억제는 되지만 여전히 청취 가능한 상태를 유지하게 된다.

후속 단일 채널 처리에 있어서, 빔 형성기의 출력은 전형적으로, 단일 채널 잡음 감소 단에 입력 신호로서 제공된다. 단일 채널 잡음 감소를 구현하는 다양한 방법들이 이전에 제안되어 왔다. 사용 중인 대다수의 단일 채널 잡음 감소 방법들은 스펙트럼 감산 방법들의 변형들이다.

스펙트럼 감산 방법은 잡음 신호가 더해진 음성으로부터 잡음을 분리하고자 시도한다. 잡음 감산은 잡음 신호가 더해진 음성의 파워 스펙트럼(power spectrum)을 산출하고 잡음 스펙트럼의 추정치를 얻는 동작을 수반한다. 잡음 신호가 더해진 음성의 파워 스펙트럼이 추정된 잡음 스펙트럼과 비교된다. 잡음 감소는 예컨대 잡음 신호가 더해진 음성의 크기로부터 잡음 스펙트럼의 크기를 감산함으로써 구현될 수 있다. 잡음 신호가 더해진 음성이 높은 SNNR(Signal- plus-Noise to Noise Ratio)을 가질 경우, 매우 적은 잡음 감소만이 적용된다. 그러나, 잡음 신호가 더해진 음성이 낮은 SNNR을 가지는 경우, 잡음 감소는 잡음 에너지를 상당히 줄일 것이다.

스펙트럼 감산의 문제는 그것이 보통 음성을 왜곡시키고 보통 악음(musical tones)으로 지칭되는 일종의 잔류 잡음의 모습으로 귀결되는 시간 및 스펙트럼 상에서 변동하는 이득 변화를 발생시키며, 이는 통화 시 전송된 음성 품질에 영향을 미칠 수 있다. 다양한 정도의 이러한 문제는 또한 단일 채널 잡음 감소를 구현하는 다른 알려진 방법들에서도 발생한다.

본 발명의 제1양태에 따르면, 사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호들을 처리하는 방법이 제공되며, 방법은 사용자 장치에 있는 오디오 입력 수단에서 적어도 하나의 기본 오디오 신호 및 원하지 않는 신호들을 포함하는 복수의 오디오 신호들을 수신하는 단계와; 잡음 억제 수단에서 오디오 신호들의 도달 방향 정보를 수신하는 단계와; 원하지 않는 신호들 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 잡음 억제 수단으로 제공하는 단계와; 잡음 억제 수단에서 오디오 신호들을 오디오 신호들의 도달 방향 정보 및 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로서 식별되는 신호의 일부를 잡음으로 취급하도록 처리하는 단계를 포함한다.

바람직하게, 오디오 입력 수단은 적어도 하나의 기본 오디오 신호가 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향을 추정하고 적어도 하나의 주요 방향으로 빔을 형성함과 아울러 주요 방향 이외의 어떤 방향으로부터의 오디오 신호들을 실질적으로 억제함으로써 단일 채널 오디오 출력 신호를 생성하도록 복수의 오디오 신호들을 처리하도록 구성되는 빔 형성기를 포함한다.

바람직하게, 단일 채널 오디오 출력 신호는 일련의 프레임들을 포함하고, 잡음 억제 수단은 일련의 프레임들 각각을 처리한다.

바람직하게, 처리되고 있는 현재 프레임의 주요 신호 성분에 대한 도달 방향 정보가 잡음 억제 수단에서 수신되고, 방법은 현재 프레임의 주요 신호 성분에 대한 도달 방향 정보 및 알려진 도달 방향 정보를 비교하는 단계를 더 포함한다.

알려진 도달 방향 정보는 원단 신호들이 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함한다. 대안적으로 혹은 추가적으로, 알려진 도달 방향 정보는 적어도 하나의 분류된 방향을 포함하고, 적어도 하나의 분류된 방향은 적어도 하나의 원하지 않는 오디오 신호가 오디오 입력 수단에 도달하는 방향이며 적어도 하나의 원하지 않는 오디오 신호의 신호 특성들에 기반하여 식별된다. 대안으로, 혹은 추가적으로, 알려진 도달 방향 정보는 적어도 하나의 기본 오디오 신호가 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향을 포함한다. 대안으로, 혹은 추가적으로, 알려진 도달 방향 정보는 빔 형성기의 빔 패턴을 더 포함한다.

일 실시예에서, 방법은 비교에 기반하여 현재 프레임의 주요 신호 성분이 원하지 않는 신호인지 여부를 판단하는 단계와; 현재 프레임의 주요 신호 성분이 원하지 않는 신호라고 판단되면 처리 중인 현재 프레임에 최대 감쇠를 적용하는 단계를 더 포함한다. 현재 프레임의 주요 신호 성분은 주요 신호 성분이 원단 신호들이 오디오 입력 수단에서 수신되는 적어도 하나의 방향으로부터 수신되는 경우; 또는 주요 신호 성분이 오디오 입력 수단에서 적어도 하나의 분류된 방향으로부터 수신되는 경우; 또는 주요 신호 성분이 오디오 입력 수단에서 적어도 하나의 주요 방향으로부터 수신되지 않는 경우, 원하지 않는 신호라고 판단될 수 있다.

방법은 신호 처리 수단에서 복수의 오디오 신호들 및 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와; 잡음 억제 수단으로 추가 정보를 제공하기 위해 신호 처리 수단에서 적어도 하나의 주요 방향에 대한 정보를 이용하여 복수의 오디오 신호들을 처리하는 단계와; 추가 정보 및 비교에 따라 잡음 억제 수단에서 처리 중인 현재 프레임에 어떤 감쇠 레벨을 적용하는 단계를 더 포함할 수 있다.

대안으로, 방법은 신호 처리 수단에서 단일 채널 오디오 출력 신호 및 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와; 잡음 억제 수단으로 추가 정보를 제공하기 위해 신호 처리 수단에서 적어도 하나의 주요 방향에 대한 정보를 이용하여 단일 채널 오디오 출력 신호들을 처리하는 단계와; 추가 정보 및 비교에 따라, 잡음 억제 수단에서 처리 중인 현재 프레임에 어떤 감쇠 레벨을 적용하는 단계를 더 포함할 수 있다.

추가 정보는 현재 프레임의 주요 신호 성분의 바람직함에 대한 표시, 또는 적어도 하나의 기본 오디오 신호의 평균 파워 레벨 대비 현재 프레임의 주요 신호 성분의 파워 레벨, 또는 현재 프레임의 주요 신호 성분의 신호 구분, 또는 현재 프레임의 주요 신호 성분이 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함할 수 있다.

바람직하게, 적어도 하나의 주요 방향은 오디오 입력 수단에서 수신되고 있는 오디오 신호들 사이의 교차 상관을 최대화하는 시간 지연을 판단하고 최대 교차 상관의 시간 지연과 함께 오디오 입력 수단에서 수신된 오디오 신호들에서 음성 특성들을 검출함으로써 판단된다.

바람직하게, 사용자 장치에서 통신 세션 중에 원격 노드로부터 수신되는 오디오 데이터는 사용자 장치의 오디오 출력 수단으로부터 출력된다.

원하지 않는 신호들은 사용자 장치에 있는 소스에 의해 생성될 수 있고, 소스는 사용자 장치의 오디오 출력 수단; 사용자 장치에서의 활동 소스 중 적어도 하나를 포함하고, 활동은 버튼 클릭 활동, 키보드 클릭 활동, 및 마우스 클릭 활동을 포함하는 클릭 활동을 포함한다. 대안으로, 원하지 않는 신호들은 사용자 장치 외부의 소스에 의해 생성된다.

대안적으로, 적어도 하나의 기본 오디오 신호는 오디오 입력 수단에서 수신된 음성 신호이다.

본 발명의 제2양태에 따르면, 사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호들을 처리하기 위한 사용자 장치가 제공되며, 사용자 단말은 적어도 하나의 기본 오디오 신호 및 원하지 않는 신호들을 포함하는 복수의 오디오 신호들을 수신하기 위한 오디오 입력 수단과; 오디오 신호들의 도달 방향 정보 및 원하지 않는 신호들 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 수신하는 잡음 억제 수단을 포함하고, 잡음 억제 수단은 오디오 신호들을 오디오 신호들의 도달 방향 정보 및 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로서 식별되는 신호의 일부를 잡음으로서 취급하도록 구성된다.

본 발명의 제3양태에 따르면, 사용자 장치 및 원격 노드 간의 통신 세션 중에 오디오 신호를 처리하기 위해 사용자 장치에서 컴퓨터 처리 수단에 의해 실행하기 위한 컴퓨터 판독 가능 명령어를 포함하고, 명령어는 본 발명의 제1양태에 따른 방법을 수행하기 위한 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.

이하에 기술된 실시예들에서, 도달 방향 정보는 후속 단일 채널 잡음 감소 방법들에 얼마나 많은 억제가 적용되어야 하는지에 대한 결정을 개선하기 위해 사용된다. 대부분의 단일 채널 잡음 감소 방법들은 자연스러운 소리와 감쇠된 배경 잡음을 보장하기 위해 입력 신호에 적용되는 최대 억제 팩터를 가지므로, 도달 방향 정보는 빔 형성기가 초점을 맞춘 것 이외의 어떤 각도로부터 소리가 도달될 때 그 최대 억제 팩터가 적용되는 것을 보장하기 위해 사용될 것이다. 예를 들어, TV가 아마도 원단 음성을 재생하기 위해 사용되는 것과 동일한 스피커들을 통해 낮춰진 볼륨으로 재생되는 경우, 마이크로폰에 의해 그 출력이 주워 담겨질 것이라는 문제가 있다. 본 발명의 기술된 실시예들을 통해, 오디오가 스피커들의 각도로부터 도달하고 있다는 것이 검출될 것이며, 빔 형성기에 의해 시도되는 억제 이외에 최대 잡음 감소가 적용될 것이다. 그 결과, 원하지 않는 신호가 덜 들리게 되고 그에 따라 원단 스피커를 덜 방해할 것이며, 감소된 에너지로 인해 원단에 신호를 전송하기 위해 사용되는 평균 비트 레이트를 낮추게 될 것이다.

본 발명에 대한 보다 나은 이해를 위해 그리고 본 발명이 실행될 수 있는 방법을 보여주기 위해, 이제 예로서 이하의 도면들이 참조된다.
도 1은 바람직한 실시예에 따른 통신 시스템을 도시한다.
도 2는 바람직한 실시예에 따른 사용자 단말의 개략도를 도시한다.
도 3은 사용자 단말의 예시적 환경을 도시한다.
도 4는 일 실시예에 따라 사용자 단말에 있는 오디오 입력 수단의 개략도를 도시한다.
도 5는 일 실시예에서 DOA 정보가 어떻게 추정되는지를 나타내는 다이어그램을 도시한다.

이하의 본 발명의 실시예들에서, 포커스 방향에서 나오지 않는 소리들을 감쇠시키기 위해 전적으로 빔 형성기에 의존하는 대신, 후속 단일 채널 잡음 감소방법에 DOA 정보를 이용하는 것이 빔 형성기가 포커싱 하는 것들과 다른 어떤 방향으로부터의 소리들에 대한 최대 단일 채널 잡음 억제를 보장하는 기술이 설명된다. 이것은 공간 정보를 이용함으로써 원하는 근단(nearend) 음성 신호로부터 원하지 않는 신호가 구별될 수 있을 때 큰 이점이 된다. 그러한 소스의 예들은 확성 스피커가 음악을 재생하는 것, 팬들이 공기를 부는 것 및 문들이 닫히는 것이다.

신호 분류를 이용하여, 다른 소스들의 방향 또한 발견될 수 있다. 그러한 소스의 예들은 예컨대 냉각 팬들/에어컨 시스템, 배경에서 재생되는 음악 및 키보드 두드림일 수 있다.

두 가지 접근 방식들이 취해질 수 있다: 첫째, 소정 방향들로부터 도달되는 바람직하지 않은 소스들 및 최대 억제에 사용되는 것보다 높은 잡음 억제 이득이 허용되는 각도들로부터 제외된 각도들이 식별될 수 있다. 예컨대, 소정의 바람직하지 않은 방향으로부터의 오디오 세그먼트들이 그 신호가 잡음만을 포함한 것처럼 축소되게 하는 것이 가능할 것이다. 실제상에서, 잡음 추정치는 그러한 세그먼트에 대한 입력 신호와 동일하게 세팅될 수 있고, 결과적으로 잡음 감소 방법은 그에 따라 최대 감쇠를 적용할 것이다.

둘째, 잡음 감소는 근단 음성이 도달된다고 예상되는 것들과 다른 임의의 방향의 음성에 대해 덜 민감하게 이뤄질 수 있다. 즉, 잡음 있는 신호에 적용할 이득들을 SNNR(siganl-plus-noise to noise ratio)의 함수로서 산출할 때, SNNR의 함수로서의 이득은 예상 인입 음성의 각도가 얼마나 바람직한가에 좌우될 수도 있을 것이다. 바람직한 방향들에 대해, SNNR의 함수로서의 이득은 덜 바람직한 방향에 대한 것보다 높을 것이다. 두 번째 방법은 기본 스피커(들)과 같은 방향으로부터 도달하지 않고 잡음 소스로 검출되지도 않았던 이동하는 잡음 소스들에 기반하여 우리가 조정하지 않도록 보장할 것이다.

본 발명의 실시예들은 특히 단일 채널을 통한 모노포닉(monophonic) 음 감소(종종 모노라 칭함)와 관련된다. 스테레오 적용예들(둘 이상의 독립적 오디오 채널들이 존재하는 예들)에서의 잡음 감소는 통상적으로 독립적인 단일 채널 잡음 감소 방법들에 의해 수행되지 않으며, 그보다는 스테레오 이미지가 잡음 감소 방법에 의해 왜곡되지 않게 보장하는 방법에 의해 수행된다.

먼저, 바람직한 실시예의 통신 시스템(100)을 예시한 도 1이 참조된다. 통신 시스템의 제1사용자(사용자 A(102))가 사용자 장치(104)를 조작한다. 사용자 장치(104)는 예를 들어 모바일 전화, 텔레비전, PDA(personal digital assistant), 퍼스널 컴퓨터(PC)(예컨대 Windows^TM Mac OS^TM 및 LInux^TM PC들을 포함하는), 게임기나 통신 시스템(100)을 통해 통신할 수 있는 다른 내장 장치일 수 있다.

사용자 장치(104)는 통신 시스템(100)을 통해 통신하기 위한 통신 클라이언트와 같은 애플리케이션을 실행하도록 구성될 수 있는 중앙 처리부(CPU)(108)를 포함한다. 애플리케이션은 사용자 장치(104)가 통신 시스템(100)을 통한 통화 및 다른 통신 세션(가령, 즉석 메시징 통신 세션)에 관여할 수 있게 한다. 사용자 장치(104)는 예컨대 인터넷이나 공중 교환 전화망(PSTN)일 수 있는 네트워크(106)를 통해 통신 시스템(100)으로 통신할 수 있다. 사용자 장치(104)는 링크(110)를 통해 네트워크로/로부터 데이터를 송/수신할 수 있다.

도 1은 또한 사용자 장치(104)가 통신 시스템(100)을 통해 통신할 수 있는 원격 노드를 보여준다. 도 1에 도시된 예에서, 원격 노드는 제2사용자(112)에 의해 사용될 수 있고, 사용자 장치(104)가 통신 시스템(100) 안에서 통신 네트워크(106)를 통해 통신하는 것과 같은 방식으로 통신 네트워크(106)를 통해 통신하도록 애플리케이션(가령, 통신 클라이언트)을 실행할 수 있는 제2사용자 장치(114)이다. 사용자 장치(114)는 예를 들어, 모바일 전화, 텔레비전, PDA(personal digital assistant), 퍼스널 컴퓨터(PC)(예컨대 윈도우즈의 Mac OS 및 리눅스 PC들을 포함), 게임기나 통신 시스템(100)을 통해 통신할 수 있는 다른 내장 장치일 수 있다. 사용자 장치(114)는 링크(118)를 통해 네트워크로/로부터 데이터를 송/수신할 수 있다. 따라서, 사용자 A(102) 및 사용자 B(112)는 통신 네트워크(106)를 통해 서로와 통신할 수 있다.

도 2는 클라이언트로 실행되는 사용자 단말(104)의 개략도를 예시한다. 사용자 단말(104)은 CPU(108)를 포함하며, 거기에 스크린과 같은 디스플레이(204), 키보드(214)와 같은 입력 장치들 및 마우스(212)와 같은 포인팅 장치가 연결된다. 디스플레이(204)는 데이터를 CPU(108)에 입력하기 위한 터치 스크린을 포함할 수 있다. 출력 오디오 장치(206)(가령, 스피커)가 CPU(108)에 연결된다. 마이크로폰(208)과 같은 입력 오디오 장치는 잡음 억제 수단(227)을 경유하여 CPU(108)에 연결된다. 잡음 억제 수단(227)은 도 2에서 단독형 하드웨어 장치로서 표현되고 있지만, 잡음 억제 수단(227)은 소프트웨어로 구현될 수도 있을 것이다. 예를 들어, 잡음 억제 수단(227)은 클라이언트 안에 포함될 수도 있다.

CPU(108)는 네트워크(106)와 통신하기 위한 모뎀과 같은 네트워크 인터페이스(226)에 연결된다.

이제 도 3이 참조되며, 도 3은 사용자 단말(104)의 예시적 환경(300)을 도시한다.

오디오 신호들이 마이크로폰(208)에서 수신되어 처리될 때 원하는 오디오 신호들이 식별된다. 처리 중에, 원하는 오디오 신호들이 음성 유사 품질의 검출에 기반하여 식별되며, 메인 스피커의 주요 방향이 판단된다. 이것은 메인 스피커(사용자(102))가 주요 방향 d1으로부터 마이크로폰(208)에 도달한 원하는 오디오 신호들의 소스로서 도시된 도 3에 도시된다. 단순화를 위해 하나의 메인 스피커가 도 3에 도시되어 있지만, 원하는 오디오 신호들에 대한 어떤 수의 소스들이라도 환경(300) 안에 존재할 수 있다는 것을 예상할 수 있을 것이다.

원하지 않는 잡음 신호들의 소스들이 환경(300) 안에 존재할 수 있다. 도 3은 환경(300) 안에서 방향 d3으로부터 마이크로폰(208)에 도달할 수 있는 원하지 않는 잡음 신호의 잡음 소스(304)를 도시한다. 원하지 않는 잡음 신호들의 소스들은 예컨대 팬, 에어컨 시스템 및 음악을 재생하는 장치를 포함한다.

원하지 않는 잡음 신호들은 또한 사용자 단말(104)에서의 어떤 잡음 소스, 예컨대 마우스(212)의 클릭, 키보드(214) 두드리기 및 스피커(206)로부터 출력되는 오디오 신호들로부터 마이크로폰(208)에 도달할 수 있다. 도 3은 마이크로폰(208) 및 스피커(206)에 연결된 사용자 단말(104)을 도시한다. 도 3에서 스피커(206)는 방향 d2로부터 마이크로폰(208)에 도달할 수 있는 원하지 않는 오디오 신호의 소스이다.

마이크로폰(208) 및 스피커(206)가 사용자 단말에 연결된 외부 장치들로서 도시되었지만, 마이크로폰(208) 및 스피커(206)는 사용자 단말(104) 안에 통합될 수 있다는 것을 이해할 수 있다.

이제, 일 실시예에 따라 마이크로폰(208) 및 잡음 억제 수단(227)의 보다 상세한 보기를 예시한 도 4를 참조한다. 마이크로폰(208)은 복수의 마이크로폰들을 포함하는 마이크로폰 어레이(402) 및 빔 형성기(404)를 포함한다. 마이크로폰 어레이(402) 내 각각의 마이크로폰의 출력은 빔 형성기(404)와 연결된다. 당업자들은 빔 형성을 구현하기 위해 여러 입력들이 필요로 된다는 것을 이해할 수 있다. 마이크로폰 어레이(402)는 세 개의 마이크로폰들을 가지는 것으로 도 4에 도시되나, 이러한 마이크로폰들의 개수는 단지 예일 뿐이며 어떤 식으로든 한정하는 것이 아님을 이해해야 한다.

빔 형성기(404)는 마이크로폰 어레이(402)로부터 오디오 신호들을 수신하는 처리 블록(409)을 포함한다. 처리 블록(409)은 음성 활동 검출기(VAD)(411) 및 DOA 추정 블록(413)(그 동작은 나중에 기술될 것이다)을 포함한다. 처리 블록(409)은 마이크로폰 어레이(402)에 의해 수신된 오디오 신호들의 성격을 확인하고, VAD(411)에 의해 검출된 음성 유사 품질들의 검출 및 블록(413)에서 추정된 DOA 정보에 기반하여 메인 스피커(들)의 하나 이상의 주요 방향(들)이 판단된다. 빔 형성기(404)는 원하는 신호들이 마이크로폰 어레이에서 수신되는 하나 이상의 주요 방향(들)로부터의 방향으로 높은 이득을 가지고 어떤 다른 방향으로는 낮은 이득을 가지는 빔을 형성함으로써 오디오 신호들을 처리하도록 DOA 정보를 사용한다. 위에서는 처리 블록(409)이 임의 개의 주요 방향들을 판단할 수 있는 것으로 설명하였지만, 판단된 주요 방향들의 개수는 빔 형성기의 특성들, 예컨대 마이크로폰 어레이에서 하나의 주요 방향만이 판단되는 경우가 아닌 다른 (원하지 않는) 방향들로부터 수신되는 신호들의 보다 적은 감쇠에 영향을 미친다. 빔 형성기(404)의 출력은 처리될 단일 채널의 형식으로 잡음 감소 단(227) 및 그런 다음 자동 이득 제어 수단(도 4에 도시되지 않음)으로 라인(406)을 통해 제공된다.

자동 이득 제어 수단에 의해 이득 레벨이 적용되기 전에, 잡음 억제가 빔 형성기의 출력에 적용됨이 바람직하다. 이것은 잡음 억제가 이론상으로는 음성 레벨을 (의도적이지 않게) 다소 감소시킬 수 있고, 자동 이득 제어 수단이 잡음 억제 이후의 음성 레벨을 증가시키고 잡음 억제에 의해 야기된 음성 레벨의 약간의 감소를 보상할 것이기 때문이다.

빔 형성기(404)에서 추정된 DOA 정보가 잡음 감소 단(227) 및 신호 처리 회로(420)로 제공된다.

빔 형성기(404)에서 추정된 DOA 정보는 자동 이득 제어 수단으로도 제공될 수 있다. 자동 이득 제어 수단은 잡음 감소 단(227)의 출력에 어떤 이득 레벨을 적용한다. 잡음 감소 단(227)으로부터 출력된 채널에 적용되는 이득 레벨은 자동 이득 제어 수단에서 수신되는 DOA 정보에 좌우된다. 자동 이득 제어 수단의 동작이 영국특허출원 제1108885.3에 기술되며, 여기에서는 더 상세히 논의되지 않을 것이다.

잡음 감소 단(227)은 단일 채널 신호에 잡음 감소를 적용한다. 잡음 감소는 다만 예로서, 스펙트럼 감산(예를 들어, 1979년 4월, 음향, 음성 및 신호 처리에 관한 IEEE 회보, 제27권 제2논제, 페이지 113-120에서 Boll, S에 의한 논문 "스펙트럼 감산을 이용한 음성의 음향 잡음 억제(Suppression of acoustic noise in speech using spectral subtraction)"에 기술됨)을 포함하는 여러 다양한 방식으로 실행될 수 있다.

이러한 기법은 (다른 알려진 기법과 마찬가지로) 신호 대 잡음 비를 개선하기 위해 잡음으로 식별된 신호의 성분들을 억제하며, 여기서 신호는 이 경우의 음성과 같이 의도된 유용한 신호이다.

이후 보다 상세히 기술되는 바와 같이, 도달 방향 정보는 잡음 감소를 개선하고 그에 따라 신호의 품질을 높이기 위해 잡음 감소 단 안에서 사용된다.

DOA 추정 블록(413)의 동작이 이제 도 5를 참조하여 보다 상세히 기술될 것이다.

DOA 추정 블록(413)에서, DOA 정보는 복수의 마이크로폰들에서 수신된 오디오 신호들 사이에서 예컨대 상관 방법들을 이용하여 시간 지연을 추정하고 복수의 마이크로폰들의 위치에 대한 사전 지식을 이용하여 오디오 신호의 소스를 추정함으로써 추정된다.

도 5는 오디오 소스(516)로부터 오디오 신호들을 수신하는 마이크로폰들(403 및 405)을 도시한다. 거리 d만큼 떨어진 마이크로폰들(403 및 405)에서의 오디오 신호들의 도달 방향은 수학식 1을 이용하여 추정될 수 있다.

여기서 v는 소리의 속도이고,

는 소스(516)로부터의 오디오 신호들이 마이크로폰들(403 및 405)에 도달한 시점들 간의 차이, 즉 시간 지연이다. 시간 지연은 마이크로폰들(403 및 405)의 출력들에서의 신호들 간 교차 상관을 최대화하는 시간 차이(time lag)로서 획득된다. 그런 다음 이러한 시간 지연에 상응하는 각도

가 찾아질 수 있다.

신호들의 교차 상관을 산출하는 것은 이 신호처리 분야에서 일반적인 기법이라는 것을 이해할 수 있으며 여기에서 더 상세히 기술되지는 않을 것이다.

이제 잡음 감소 단(227)의 동작이 이하에서 보다 상세히 기술될 것이다. 본 발명의 모든 실시예들에서, 잡음 감소 단(227)은 사용자 단말에 알려지고 DOA 블록(227)에 의해 표현된 DOA 정보를 이용하며 처리될 오디오 신호를 수신한다. 잡음 감소 단(227)은 프레임 단위로 오디오 신호를 처리한다. 프레임은 예컨대 5 및 20 밀리 초 사이의 길이일 수 있고, 하나의 잡음 억제 기법에 따라 예컨대 프레임 당 64 및 256 빈들 사이의 스펙트럼 빈들로 분할된다.

잡음 감소 단(227)에서 수행되는 처리는 잡음 감소 단(227)으로 입력된 오디오 신호의 각각의 프레임에 대해 잡음 억제의 레벨을 적용하는 것을 포함한다. 오디오 신호의 각각의 프레임에 잡음 감소 단(227)에 의해 적용된 잡음 억제의 레벨은 처리되고 있는 현재 프레임의 DOA 추출 정보 및 사용자 단말에 알려진 다양한 오디오 소스들의 DOA 정보에 대해 쌓여진 지식 사이의 비교 결과에 좌우된다. 추출된 DOA 정보는 프레임을 따라 전달되어, 프레임 자체 이외에 잡음 감소 단(227)으로의 입력 파라미터로서 사용된다.

잡음 감산 단(227)에 의해 입력 오디오 신호에 적용된 잡음 억제 레벨은 여러 방식으로 DOA 정보에 의해 영향을 받을 수 있다.

원하는 소스로부터 식별되었던 방향들에서 마이크로폰(208)에 도달한 오디오 신호들은 음성 유사 특성들의 검출에 기반하여 식별될 수 있으며 메인 스피커의 주요 방향으로부터 나온 것으로서 식별될 수 있다.

사용자 단말에 알려진 DOA 정보(427)는 빔 형성기의 빔 패턴(408)을 포함할 수 있다. 잡음 감소 단(227)은 프레임 단위로 오디오 입력 신호를 처리한다. 한 프레임의 처리 중에, 잡음 감소 단(227)은 해당 프레임 내 오디오 신호의 메인 성분이 마이크로폰(208)에서 수신되었던 각도를 찾기 위해 프레임의 DOA 정보를 판독한다. 프레임의 DOA 정보는 사용자 단말에 알려진 DOA 정보(427)와 비교된다. 이 비교는 처리되고 있는 프레임 내 오디오 신호의 주요 성분이 원하는 소스의 방향으로부터 마이크로폰(208)에 수신되었는지 여부를 판단한다.

대안으로, 또는 추가적으로, 사용자 단말에 알려진 DOA 정보(427)는 원단 신호들이 사용자 단말에 있는 스피커들(206과 같은 스피커)로부터 마이크로폰(308)에서 수신되는 각도

(잡음 감소 단(227)으로 제공됨, 라인 407)를 포함할 수 있다.

대안으로, 또는 추가적으로, 사용자 단말에 알려진 DOA 정보(427)는 가능하다면 고정된 잡음 소스의 결과로서 매우 잡음이 많은 소정 방향을 찾기 위해 여러 방향들로부터의 오디오를 분류하는 함수(425)로부터 도출될 수 있다.

DOA 정보(427)가 원하는 주요 방향을 나타낼 때, 비교를 통해 처리 중인 프레임의 주요 성분이 그 주요 방향으로부터 마이크로폰(208)에 수신된다고 판단된다. 잡음 감소 단(227)은 상술한 종래의 방법들을 이용하여 잡음 억제 레벨을 결정한다.

제1접근 방식에서, 처리 중인 프레임의 주요 성분이 주요 방향이 아닌 방향으로부터 마이크로폰(208)에 수신된다고 판단되면, 해당 프레임과 관련된 빈들이 모두, 마치 그들이 잡음인 듯이(정상적 잡음 감소 기법이 양호한 SNNR을 식별하고 그에 따라 잡음을 크게 억제하지 않을지라도) 다뤄진다. 이것은 그러한 프레임에 대해 입력 신호와 동일한 잡음 추정치를 설정함으로써 수행될 수 있으며, 결과적으로 이후 잡음 감소 단이 해당 프레임에 최대 감쇠를 적용할 것이다. 이런 방식으로 원하는 방향이 아닌 방향들로부터 도달하는 프레임들이 잡음으로서 억제될 수 있고, 신호의 품질이 개선된다.

상술한 바와 같이, 잡음 감소 단(227)은 잡음 소스(들)로부터 여러 방향으로 마이크로폰(208)에 도달하는 원하지 않는 오디오 신호들을 식별하는 함수(425)로부터 DOA 정보를 수신할 수 있다. 그러한 원하지 않는 오디오 신호들은 그들의 특성들로부터 식별된다, 예컨대 키보드 상의 키 두드리기나 팬으로부터 나오는 오디오 신호들은 사람의 음성과는 다른 특성들을 가진다. 최대 억제에 사용되는 것보다 높은 잡음 억제 이득이 허용되는 경우 원하지 않는 오디오 신호들이 마이크로폰(208)에 도달하는 각도는 제외될 수 있다. 따라서, 처리 중인 프레임 내 오디오 신호의 주요 성분이 예외 방향으로부터 마이크로폰에 수신될 때, 잡음 감소 단(227)은 해당 프레임에 최대 감쇠를 적용한다.

검증 수단(423)이 더 포함될 수 있다. 예를 들어 하나 이상의 주요 방향들이 (예컨대 빔 형성기의 경우 빔 패턴(408)에 기반하여) 검출되었으면, 클라이언트는 사용자(102)에게 클라이언트 사용자 인터페이스를 통해 검출된 주요 방향에 대해 알리며 사용자(102)에게 검출된 주요 방향이 맞는지를 물어본다. 이러한 검증은 도 4에 점선으로 표시된 것과 같이 선택적이다.

사용자(102)가 검출된 주요 방향이 옳다고 확인하면, 검출된 주요 방향이 잡음 감소 단(227)으로 보내지고 잡음 감소 단(227)은 상술한 바와 같이 동작한다. 사용자(102)가 클라이언트에 로그인하여 검출된 주요 방향이 옳다고 확인했으면 통신 클라이언트는 검출된 주요 방향을 메모리(210)에 저장할 수 있고, 후속 클라이언트로의 로그인들에 따라 검출된 주요 방향이 메모리 안의 확인된 올바른 주요 방향과 매칭되는 경우에 검출된 주요 방향이 옳은 것으로 간주된다. 이것은 사용자(102)가 클라이언트에 로그인할 때마다 주요 방향을 승인해야 하는 필요성을 방지한다.

사용자가 검출된 주요 방향이 옳지 않다는 것을 나타내면, 검출된 주요 방향은 DOA 정보로서 잡음 감소 단(227)으로 보내지지 않는다. 이 경우, 상관 기반 방법(도 5를 참조하여 위에서 기술함)은 계속해서 주요 방향을 검출할 것이고, 다만 사용자(102)가 그 검출된 주요 방향이 옳다고 승인하면 검출된 하나 이상의 주요 방향들을 전송할 것이다.

첫 번째 접근 방식에서 동작 모드는 처리중인 프레임의 DOA 정보에 기반하여 프레임에 최대 감쇠가 적용될 수 있도록 하는 것이다.

두 번째 접근 방식에서 잡음 감소 단(227)은 그러한 엄격한 동작 모드로 동작하지 않는다.

두 번째 접근 방식에서는 프레임 안의 오디오 신호에 적용할 이득들을 SNNR의 함수로서 산출할 때, SNNR의 함수인 그 이득은 추가 정보에 좌우된다. 그 추가 정보는 신호 처리 블록(도 4에 도시되지 않음)에서 산출될 수 있다.

제1구현예에서 신호 처리 블록은 마이크로폰(208) 내에서 구현될 수 있다. 신호 처리 블록은 (오디오 신호들이 빔 형성기(404)에 적용되기 전에) 마이크로폰 어레이(402)로부터 원단 오디오 신호들을 입력으로서 수신하고, 상관 방법으로부터 획득된 주요 방향(들)에 대한 정보를 또한 수신한다. 이 구현예에서 신호 처리 블록은 추가 정보를 잡음 감소 단(227)으로 출력한다.

제2구현예에서 신호 처리 블록은 잡음 감소 단(227) 내에서 구현될 수 있다. 신호 처리 블록은 빔 형성기(404)로부터 신호 채널 출력 신호를 입력으로서 수신하며 상관 방법으로부터 획득된 주요 방향(들)에 대한 정보를 또한 수신한다. 이 구현예에서 잡음 감소 단(227)은 스피커들(206)이 동작상태에 있다는 것을 나타내는 정보를 수신할 수 있으며, 처리 중인 프레임 내 주요 신호 성분이 원하는 음성의 각도와 상이한 경우 그것이 잡음으로서만 다뤄지도록 할 수 있다.

두 구현예들에 있어서, 신호 처리 블록에서 산출된 추가 정보는 처리 중인 프레임 내 오디오 신호에 적용할 이득을 SNNR의 함수로서 산출하기 위해 잡음 감소 단(227)에 의해 사용된다.

추가 정보는 예컨대 원하는 음성이 특정 방향/각도로부터 도달할 가능성을 포함할 수 있다.

이 시나리오에서 신호 처리 블록은 출력으로서, 잡음 감소 단(227)에 의해 현재 처리 중인 프레임이 잡음 감소 단이 보존해야 할 원하는 성분을 포함할 가능성이 얼마나 있는지를 나타내는 값을 제공한다. 신호 처리 블록은 들어오는 음성이 마이크로폰(208)에서 수신되는 각도들의 바람직함을 정량화한다. 예를 들어 에코음 도중에 오디오 신호들이 마이크로폰(208)에 수신되면, 그 오디오 신호들이 마이크로폰(208)에서 수신되는 각도는 바람직하지 않은 각도일 가능성이 있는데, 이는 사용자 단말에 있는 스피커들(206과 같은 것)로부터 수신되는 모든 원단 신호들을 보존하는 것이 바람직하지 않기 때문이다.

이 시나리오에서 잡음 감소 단(227)에 의해 프레임에 적용되는 SNNR의 함수인 잡음 억제 이득은 그러한 정량화된 바람직함의 척도에 좌우된다. 원하는 방향들에 대해, 주어진 SNNR의 함수인 이득은 덜 바람직한 방향에 대한 것보다 높을 것이다, 즉 보다 바람직한 방향들에 대해 잡음 감소 단(227)에 의해 보다 적은 감쇠가 적용된다.

추가 정보는 대안으로 원하는 방향(들)로부터 수신된 오디오 신호들의 평균 파워 대비 현재 프레임의 주요 신호 성분의 파워를 포함할 수 있다. 이 시나리오에서 잡음 감소 단(227)에 의해 프레임에 적용되는 SNNR의 함수인 잡음 억제 이득은 그러한 정량화된 파워비율에 좌우된다. 주요 신호 성분의 파워가 주요 방향들로부터의 평균 파워에 가까울수록, 잡음 감소 단(227)에 의해 적용되는 주어진 SNNR의 함수인 이득은 더 높다, 즉 보다 적은 감쇠가 적용된다.

추가 정보가 대안으로 현재 프레임의 주요 신호 성분의 신호 분류를 제공하는 신호 분류기 출력일 수 있다. 이 시나리오에서 잡음 감소 단(227)은 가변 레벨의 감쇠를 프레임에 적용할 수 있으며, 이때 프레임의 메인 성분은 신호 분류기 출력에 따른 특정 방향으로부터 마이크로폰 어레이(402)에 수신된다. 따라서 어느 각도가 바람직하지 않은 방향이라고 판단되면, 잡음 감소 단(227)은 같은 바람직하지 않은 방향으로부터의 음성보다 그 바람직하지 않은 방향으로부터의 잡음을 더 많이 줄일 수 있다. 원하는 음성이 그 바람직하지 않은 방향으로부터 도달되리라 예상되는 경우 이러한 것이 가능하고 실제로 현실적이다. 그러나 그것은 잡음이 변조될 것이라는 큰 단점을 가진다, 즉 원하는 스피커가 동작 중일 때 잡음이 보다 높을 것이고 원하지 않은 스피커가 동작 중일 때 잡음은 보다 낮을 것이다. 대신, 그 방향으로부터의 신호들에서 음성 레벨을 다소 낮추는 것이 바람직하다. 같은 감쇠 정도를 적용하게 함으로써 그것을 정확히 잡음으로서 다루지 않는다면, 그것을 원하는 음성과 잡음 사이의 어딘가에 있는 것으로 다룬다. 이것은 바람직하지 않은 방향들에 대해 다소 상이한 감쇠 함수를 이용함으로써 달성될 수 있다.

추가 정보는 대안으로, 현재 프레임의 주요 신호 성분이 오디오 입력 수단에 수신되는 각도 자체, 즉 라인 407로 잡음 감소 단(227)에 공급되는

일 수 있다. 이것은 오디오 소스가 주요 방향(들)로부터 멀어질 때 잡음 감소 단이 더 많은 감쇠를 적용할 수 있게 한다.

이러한 두 번째 접근 방식에서는, 잡음 감소 단(227)이 프레임을 잡음으로만 다루는 것과 단일 채널 잡음 감소 방법들에서 전통적으로 행하는 것으로서 다루는 두 극단의 것들 사이에서 동작할 수 있기 때문에, 보다 큰 정밀도가 제공된다. 따라서, 잡음 감소 단(227)은 바람직하지 않은 방향들로부터 도달하는 오디오 신호들에 대해 전적으로 그것이 단지 잡음 것처럼 다루지 않고 약간 더 적극적으로 만들어질 수 있다. 즉, 예컨대 음성 신호에 어떤 감쇠를 적용할 것이라는 의미에서 적극적이다.

상술한 실시예들은 단일 사용자(102)로부터 오디오 신호들을 수신하는 마이크로폰(208)을 언급하였지만, 그 마이크로폰이 예컨대 전화 회의 중인 복수의 사용자들로부터 오디오 신호들을 수신할 수 있다는 것을 알 수 있을 것이다. 이러한 시나리오에서는, 여러 소스의 원하는 오디오 신호들이 마이크로폰(208)에 도달한다.

본 발명은 특히 바람직한 실시예들과 관련하여 도시되고 기술되었으나, 당업자는 첨부된 청구범위에서 정의되는 바와 같은 본 발명의 범위로부터 벗어나지 않으면서 형식 및 세부에 있어 다양한 변경이 이루어질 수 있다는 것을 알 수 있을 것이다.

Claims

사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호를 처리하는 방법으로서,
상기 사용자 장치에 있는 오디오 입력 수단에서 적어도 하나의 기본 오디오 신호(primary audio signal) 및 원하지 않는 신호(unwanted signal)를 포함하는 복수의 오디오 신호를 수신하는 단계와,
잡음 억제 수단에서 상기 오디오 신호의 도달 방향 정보를 수신하는 단계와,
상기 원하지 않는 신호 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 상기 잡음 억제 수단으로 제공하는 단계와,
상기 오디오 신호의 상기 도달 방향 정보 및 상기 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로 식별되는 상기 신호의 일부를 잡음으로서 취급하도록 상기 잡음 억제 수단에서 상기 오디오 신호를 처리하는 단계
를 포함하는 방법.
제1항에 있어서,
상기 오디오 입력 수단은 빔 형성기를 포함하고,
상기 빔 형성기는
상기 적어도 하나의 기본 오디오 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향을 추정하고,
상기 적어도 하나의 주요 방향에서 빔을 형성하고 상기 주요 방향 이외의 임의의 방향으로부터의 오디오 신호를 실질적으로 억제함으로써 단일 채널 오디오 출력 신호를 생성하도록 상기 복수의 오디오 신호를 처리하도록 구성되며,
상기 단일 채널 오디오 출력 신호는 일련의 프레임을 포함하고 상기 잡음 억제 수단은 상기 일련의 프레임의 각각을 처리하는
방법.
제1항 또는 제2항에 있어서,
처리되고 있는 현재 프레임의 주요 신호 성분에 대한 도달 방향 정보가 상기 잡음 억제 수단에서 수신되고,
상기 방법은
상기 현재 프레임의 상기 주요 신호 성분에 대한 상기 도달 방향 정보 및 상기 알려진 도달 방향 정보를 비교하는 단계 - 상기 알려진 도달 방향 정보는 (i) 원단 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향, (ii) 적어도 하나의 원하지 않는 오디오 신호가 상기 오디오 입력 수단에 도달하고 상기 적어도 하나의 원하지 않는 오디오 신호의 신호 특성에 기반하여 식별되는 적어도 하나의 분류된 방향, (iii) 상기 적어도 하나의 기본 오디오 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향, 및 (iv) 상기 빔 형성기의 빔 패턴 중 적어도 하나를 포함함 -
를 더 포함하는 방법.
제3항에 있어서,
상기 비교에 기반하여 상기 현재 프레임의 상기 주요 신호 성분이 원하지 않는 신호인지 여부를 판단하는 단계와,
상기 현재 프레임의 상기 주요 신호 성분이 원하지 않는 신호라고 판단되면 처리 중인 상기 현재 프레임에 최대 감쇠를 적용하는 단계와,
원단 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향으로부터 상기 주요 신호 성분이 상기 오디오 입력 수단에서 수신되는 경우, 또는 상기 주요 신호 성분이 상기 오디오 입력 수단에서 상기 적어도 하나의 분류된 방향으로부터 수신되는 경우, 또는 상기 주요 신호 성분이 상기 오디오 입력 수단에서 적어도 하나의 주요 방향으로부터 수신되지 않는 경우 상기 현재 프레임의 상기 주요 신호 성분이 원하지 않는 신호라고 판단하는 단계
를 더 포함하는 방법.
제3항에 있어서,
신호 처리 수단에서 상기 복수의 오디오 신호 및 상기 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와,
상기 잡음 억제 수단으로 추가 정보를 제공하기 위해 상기 신호 처리 수단에서 상기 적어도 하나의 주요 방향에 대한 정보를 이용하여 상기 복수의 오디오 신호를 처리하는 단계와,
상기 추가 정보 및 상기 비교에 따라 상기 잡음 억제 수단에서 처리 중인 상기 현재 프레임에 어떤 감쇠 레벨을 적용하는 단계 - 상기 추가 정보는 (i) 상기 현재 프레임의 상기 주요 신호 성분의 바람직함에 대한 표시, (ii) 상기 적어도 하나의 기본 오디오 신호의 평균 파워 레벨 대비 상기 현재 프레임의 상기 주요 신호 성분의 파워 레벨, (iii) 상기 현재 프레임의 상기 주요 신호 성분의 신호 구분(signal classification), 및 (iv) 상기 현재 프레임의 상기 주요 신호 성분이 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함함 -
를 더 포함하는 방법.
제4항 내지 제8항 중 어느 한 항에 있어서,
신호 처리 수단에서 상기 단일 채널 오디오 출력 신호 및 상기 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와,
상기 잡음 억제 수단으로 추가 정보를 제공하기 위해 상기 신호 처리 수단에서 상기 적어도 하나의 주요 방향에 대한 정보를 이용하여 상기 단일 채널 오디오 출력 신호를 처리하는 단계와,
상기 추가 정보 및 상기 비교에 따라 상기 잡음 억제 수단에서 처리 중인 상기 현재 프레임에 감쇠 레벨을 적용하는 단계 - 상기 추가 정보는 (i) 상기 현재 프레임의 상기 주요 신호 성분의 바람직함에 대한 표시, (ii) 상기 적어도 하나의 기본 오디오 신호의 평균 파워 레벨 대비 상기 현재 프레임의 상기 주요 신호 성분의 파워 레벨, (iii) 상기 현재 프레임의 상기 주요 신호 성분의 신호 구분, 및 (iv) 상기 현재 프레임의 상기 주요 신호 성분이 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함함 -
를 더 포함하는 방법.
제2항 내지 제6항 중 어느 한 항에 있어서,
상기 적어도 하나의 주요 방향은
상기 오디오 입력 수단에서 수신되고 있는 오디오 신호 사이의 교차 상관을 최대화하는 시간 지연을 판단하고,
상기 오디오 입력 수단에서 상기 최대 교차 상관의 시간 지연을 이용하여 수신되는 상기 오디오 신호의 음성 특성을 검출함으로써 결정되는
방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 원하지 않는 신호는 상기 사용자 장치 외부의 소스나 상기 사용자 장치에 있는 소스에 의해 생성되고, 상기 소스는 상기 사용자 장치의 오디오 출력 수단, 상기 사용자 장치에서의 활동 소스 중 적어도 하나를 포함하고, 상기 활동은 버튼 클릭 활동, 키보드 클릭 활동, 및 마우스 클릭 활동을 포함하는 클릭 활동을 포함하는
방법.
사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호를 처리하기 위한 사용자 장치로서,
적어도 하나의 기본 오디오 신호 및 원하지 않는 신호를 포함하는 복수의 오디오 신호를 수신하기 위한 오디오 입력 수단과,
상기 오디오 신호의 도달 방향 정보 및 상기 원하지 않는 신호 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 수신하는 잡음 억제 수단 - 상기 잡음 억제 수단은 상기 오디오 신호의 상기 도달 방향 정보 및 상기 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로서 식별되는 상기 신호의 일부를 잡음으로서 취급함으로써 상기 오디오 신호를 처리하도록 구성되는 -
을 포함하는 사용자 장치.
사용자 장치 및 원격 노드 간의 통신 세션 중에 오디오 신호를 처리하기 위해 상기 사용자 장치에서 컴퓨터 처리 수단에 의해 실행하기 위한 컴퓨터 판독 가능 명령어를 포함하고, 상기 명령어는 제1항 내지 제8항 중 어느 한 항에 따른 상기 방법을 수행하기 위한 명령어를 포함하는
컴퓨터 프로그램 제품.