KR20140033488A - 오디오 신호의 처리 기법 - Google Patents

오디오 신호의 처리 기법 Download PDF

Info

Publication number
KR20140033488A
KR20140033488A KR1020147000062A KR20147000062A KR20140033488A KR 20140033488 A KR20140033488 A KR 20140033488A KR 1020147000062 A KR1020147000062 A KR 1020147000062A KR 20147000062 A KR20147000062 A KR 20147000062A KR 20140033488 A KR20140033488 A KR 20140033488A
Authority
KR
South Korea
Prior art keywords
signal
audio
main
information
noise
Prior art date
Application number
KR1020147000062A
Other languages
English (en)
Other versions
KR101970370B1 (ko
Inventor
스테판 스트로머
카스텐 밴드보그 소렌슨
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20140033488A publication Critical patent/KR20140033488A/ko
Application granted granted Critical
Publication of KR101970370B1 publication Critical patent/KR101970370B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

모바일 사용자들 사이에서 실시간 비디오 세션들의 QoE를 향상시키기 위한 컴퓨터 구현 시스템 및 방법이 설명된다. 예를 들어, 본 발명의 일 실시예에 따른 방법은 서비스 제공자 네트워크의 주변에 하나 이상의 서버들을 구성하는 단계와, 제1모바일 장치로부터 제2모바일 장치와 실시간 통신 세션을 설정하라는 요청을 수신하는 단계와, 제1 및 제2모바일 장치들에게 서버들로 연결하기 위한 네트워킹 정보를 제공하는 단계와, 서버를 통해 실시간 통신 세션을 설정하는 단계를 포함한다.

Description

오디오 신호의 처리 기법{PROCESSING AUDIO SIGNALS}
본 발명은 통신 세션 중에 오디오 신호를 처리하는 것에 관한 것이다.
통신 시스템들은 사용자들이 네트워크를 통해 서로 통신할 수 있게 한다. 네트워크는 예컨대 인터넷이나 공중 교환 전화망(Public Switched Telephone Network(PSTN))일 수 있다. 오디오 신호가 네트워크의 노드들 사이에서 전송될 수 있고, 그에 의해 사용자들이 통신 시스템을 통해 통신 세션에서 서로 오디오 데이터(음성 데이터 같은 것)를 송수신하게 할 수 있다.
사용자 장치는 사용자로부터 음성과 같은 오디오 신호를 수신하는 데 사용될 수 있는 마이크로폰과 같은 오디오 입력 수단을 가질 수 있다. 사용자는 다른 사용자와 함께 개인 통화(해당 통화 시 단 두 사용자들만 존재)나 전화 회의(해당 통화 시 둘을 넘는 사용자들이 존재)와 같은 어떤 통신 세션으로 진입할 수 있다. 사용자의 음성이 마이크로폰으로 수신되어 처리되고, 그런 다음 네트워크를 통해 통화 중인 다른 사용자(들)에게 송신된다.
사용자로부터의 오디오 신호와 마찬가지로, 마이크로폰은 사용자로부터 수신된 오디오 신호를 방해할 수 있는 배경 잡음과 같은 다른 오디오 신호를 또한 수신할 수 있다.
사용자 장치는 통화 중에 사용자(들)로부터 네트워크를 통해 수신되는 오디오 신호를 사용자에게 출력하기 위한 스피커와 같은 출력 수단을 역시 가질 수 있다. 그러나, 스피커들은 사용자 장치에서 실행되는 다른 애플리케이션들로부터 오디오 신호를 출력하는 데 사용될 수도 있다. 예를 들어, 사용자 장치는 네트워크를 통해 통신하기 위해 통신 클라이언트와 같은 애플리케이션을 실행하는 TV일 수 있다. 사용자 장치가 통화에 개입하고 있을 때, 사용자 장치에 연결된 마이크로폰은 그 통화에서 다른 사용자(들)에게 전송하기 위해 사용자에 의해 제공되는 음성이나 다른 오디오 신호들을 수신하도록 되어 있다. 그러나 마이크로폰이 사용자 장치의 스피커들로부터 출력되는 원하지 않는 오디오 신호들을 주워담을 수 있다. 사용자 장치로부터 출력되는 원하지 않는 오디오 신호들은 통화 시 전송하기 위해 마이크로폰에서 사용자로부터 수신된 오디오 신호에 대한 방해의 원인이 될 수 있다.
통화 시 사용하기 위한 것과 같은 신호의 품질을 향상시키기 위해, 사용자 장치의 오디오 입력 수단에서 수신되는 원하지 않는 오디오 신호들(배경 잡음 및 사용자 장치로부터 출력되는 원하지 않는 오디오 신호들)을 억제하는 것이 바람직할 수 있다.
복수의 마이크로폰들이 단일 장치로서 동작하는 스테레오 마이크로폰들 및 마이크로폰 어레이들의 사용이 점점 보편화되고 있다. 이것들은 단일 마이크로폰에서 수행될 수 있는 것 외에, 추출된 공간 정보의 사용을 가능하게 한다. 그러한 장치들을 사용할 때, 원하지 않는 오디오 신호를 억제하고자 하는 하나의 접근 방식은 빔 형성기(beamformer)를 적용하는 것이다. 빔 형성(beamforming)은 하나 이상의 바람직한 방향들로부터 들어오는 소리들을 개선하기 위해 신호 처리를 적용하여 마이크로폰 어레이에 의해 수신되는 신호들을 포커싱하고자 하는 프로세스이다. 단순화를 위해, 이하에서 하나의 바람직한 방향을 이용하는 경우를 기술할 것이지만, 더 많은 관심 방향들이 존재할 때 동일한 방법이 적용될 것이다. 빔 형성은 원하는 신호들이 마이크로폰에서 수신되는 각도, 소위 도달 방향("DOA") 정보를 우선 추정함으로써 수행된다. 적응적 빔 형성기들은 마이크로폰 어레이에서 원하는 신호들이 수신되는 방향으로 높은 이득을 가지고 어떤 다른 방향에서는 낮은 이익을 가지는 빔을 형성하기 위해 어레이로 된 마이크로폰들로부터의 신호들을 필터링하는 데 DOA 정보를 이용한다.
빔 형성기는 원하지 않는 방향들로부터 들어오는 원하지 않는 오디오 신호들을 억제하고자 시도할 수 있지만, 마이크로폰들의 개수 및 마이크로폰 어레이의 모양과 사이즈가 그러한 빔 형성기의 효과에 영향을 미칠 것이고, 그 결과, 원하지 않는 오디오 신호들이 억제는 되지만 여전히 청취 가능한 상태를 유지하게 된다.
후속 단일 채널 처리에 있어서, 빔 형성기의 출력은 전형적으로, 단일 채널 잡음 감소 단에 입력 신호로서 제공된다. 단일 채널 잡음 감소를 구현하는 다양한 방법들이 이전에 제안되어 왔다. 사용 중인 대다수의 단일 채널 잡음 감소 방법들은 스펙트럼 감산 방법들의 변형들이다.
스펙트럼 감산 방법은 잡음 신호가 더해진 음성으로부터 잡음을 분리하고자 시도한다. 잡음 감산은 잡음 신호가 더해진 음성의 파워 스펙트럼(power spectrum)을 산출하고 잡음 스펙트럼의 추정치를 얻는 동작을 수반한다. 잡음 신호가 더해진 음성의 파워 스펙트럼이 추정된 잡음 스펙트럼과 비교된다. 잡음 감소는 예컨대 잡음 신호가 더해진 음성의 크기로부터 잡음 스펙트럼의 크기를 감산함으로써 구현될 수 있다. 잡음 신호가 더해진 음성이 높은 SNNR(Signal- plus-Noise to Noise Ratio)을 가질 경우, 매우 적은 잡음 감소만이 적용된다. 그러나, 잡음 신호가 더해진 음성이 낮은 SNNR을 가지는 경우, 잡음 감소는 잡음 에너지를 상당히 줄일 것이다.
스펙트럼 감산의 문제는 그것이 보통 음성을 왜곡시키고 보통 악음(musical tones)으로 지칭되는 일종의 잔류 잡음의 모습으로 귀결되는 시간 및 스펙트럼 상에서 변동하는 이득 변화를 발생시키며, 이는 통화 시 전송된 음성 품질에 영향을 미칠 수 있다. 다양한 정도의 이러한 문제는 또한 단일 채널 잡음 감소를 구현하는 다른 알려진 방법들에서도 발생한다.
본 발명의 제1양태에 따르면, 사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호들을 처리하는 방법이 제공되며, 방법은 사용자 장치에 있는 오디오 입력 수단에서 적어도 하나의 기본 오디오 신호 및 원하지 않는 신호들을 포함하는 복수의 오디오 신호들을 수신하는 단계와; 잡음 억제 수단에서 오디오 신호들의 도달 방향 정보를 수신하는 단계와; 원하지 않는 신호들 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 잡음 억제 수단으로 제공하는 단계와; 잡음 억제 수단에서 오디오 신호들을 오디오 신호들의 도달 방향 정보 및 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로서 식별되는 신호의 일부를 잡음으로 취급하도록 처리하는 단계를 포함한다.
바람직하게, 오디오 입력 수단은 적어도 하나의 기본 오디오 신호가 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향을 추정하고 적어도 하나의 주요 방향으로 빔을 형성함과 아울러 주요 방향 이외의 어떤 방향으로부터의 오디오 신호들을 실질적으로 억제함으로써 단일 채널 오디오 출력 신호를 생성하도록 복수의 오디오 신호들을 처리하도록 구성되는 빔 형성기를 포함한다.
바람직하게, 단일 채널 오디오 출력 신호는 일련의 프레임들을 포함하고, 잡음 억제 수단은 일련의 프레임들 각각을 처리한다.
바람직하게, 처리되고 있는 현재 프레임의 주요 신호 성분에 대한 도달 방향 정보가 잡음 억제 수단에서 수신되고, 방법은 현재 프레임의 주요 신호 성분에 대한 도달 방향 정보 및 알려진 도달 방향 정보를 비교하는 단계를 더 포함한다.
알려진 도달 방향 정보는 원단 신호들이 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함한다. 대안적으로 혹은 추가적으로, 알려진 도달 방향 정보는 적어도 하나의 분류된 방향을 포함하고, 적어도 하나의 분류된 방향은 적어도 하나의 원하지 않는 오디오 신호가 오디오 입력 수단에 도달하는 방향이며 적어도 하나의 원하지 않는 오디오 신호의 신호 특성들에 기반하여 식별된다. 대안으로, 혹은 추가적으로, 알려진 도달 방향 정보는 적어도 하나의 기본 오디오 신호가 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향을 포함한다. 대안으로, 혹은 추가적으로, 알려진 도달 방향 정보는 빔 형성기의 빔 패턴을 더 포함한다.
일 실시예에서, 방법은 비교에 기반하여 현재 프레임의 주요 신호 성분이 원하지 않는 신호인지 여부를 판단하는 단계와; 현재 프레임의 주요 신호 성분이 원하지 않는 신호라고 판단되면 처리 중인 현재 프레임에 최대 감쇠를 적용하는 단계를 더 포함한다. 현재 프레임의 주요 신호 성분은 주요 신호 성분이 원단 신호들이 오디오 입력 수단에서 수신되는 적어도 하나의 방향으로부터 수신되는 경우; 또는 주요 신호 성분이 오디오 입력 수단에서 적어도 하나의 분류된 방향으로부터 수신되는 경우; 또는 주요 신호 성분이 오디오 입력 수단에서 적어도 하나의 주요 방향으로부터 수신되지 않는 경우, 원하지 않는 신호라고 판단될 수 있다.
방법은 신호 처리 수단에서 복수의 오디오 신호들 및 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와; 잡음 억제 수단으로 추가 정보를 제공하기 위해 신호 처리 수단에서 적어도 하나의 주요 방향에 대한 정보를 이용하여 복수의 오디오 신호들을 처리하는 단계와; 추가 정보 및 비교에 따라 잡음 억제 수단에서 처리 중인 현재 프레임에 어떤 감쇠 레벨을 적용하는 단계를 더 포함할 수 있다.
대안으로, 방법은 신호 처리 수단에서 단일 채널 오디오 출력 신호 및 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와; 잡음 억제 수단으로 추가 정보를 제공하기 위해 신호 처리 수단에서 적어도 하나의 주요 방향에 대한 정보를 이용하여 단일 채널 오디오 출력 신호들을 처리하는 단계와; 추가 정보 및 비교에 따라, 잡음 억제 수단에서 처리 중인 현재 프레임에 어떤 감쇠 레벨을 적용하는 단계를 더 포함할 수 있다.
추가 정보는 현재 프레임의 주요 신호 성분의 바람직함에 대한 표시, 또는 적어도 하나의 기본 오디오 신호의 평균 파워 레벨 대비 현재 프레임의 주요 신호 성분의 파워 레벨, 또는 현재 프레임의 주요 신호 성분의 신호 구분, 또는 현재 프레임의 주요 신호 성분이 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함할 수 있다.
바람직하게, 적어도 하나의 주요 방향은 오디오 입력 수단에서 수신되고 있는 오디오 신호들 사이의 교차 상관을 최대화하는 시간 지연을 판단하고 최대 교차 상관의 시간 지연과 함께 오디오 입력 수단에서 수신된 오디오 신호들에서 음성 특성들을 검출함으로써 판단된다.
바람직하게, 사용자 장치에서 통신 세션 중에 원격 노드로부터 수신되는 오디오 데이터는 사용자 장치의 오디오 출력 수단으로부터 출력된다.
원하지 않는 신호들은 사용자 장치에 있는 소스에 의해 생성될 수 있고, 소스는 사용자 장치의 오디오 출력 수단; 사용자 장치에서의 활동 소스 중 적어도 하나를 포함하고, 활동은 버튼 클릭 활동, 키보드 클릭 활동, 및 마우스 클릭 활동을 포함하는 클릭 활동을 포함한다. 대안으로, 원하지 않는 신호들은 사용자 장치 외부의 소스에 의해 생성된다.
대안적으로, 적어도 하나의 기본 오디오 신호는 오디오 입력 수단에서 수신된 음성 신호이다.
본 발명의 제2양태에 따르면, 사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호들을 처리하기 위한 사용자 장치가 제공되며, 사용자 단말은 적어도 하나의 기본 오디오 신호 및 원하지 않는 신호들을 포함하는 복수의 오디오 신호들을 수신하기 위한 오디오 입력 수단과; 오디오 신호들의 도달 방향 정보 및 원하지 않는 신호들 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 수신하는 잡음 억제 수단을 포함하고, 잡음 억제 수단은 오디오 신호들을 오디오 신호들의 도달 방향 정보 및 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로서 식별되는 신호의 일부를 잡음으로서 취급하도록 구성된다.
본 발명의 제3양태에 따르면, 사용자 장치 및 원격 노드 간의 통신 세션 중에 오디오 신호를 처리하기 위해 사용자 장치에서 컴퓨터 처리 수단에 의해 실행하기 위한 컴퓨터 판독 가능 명령어를 포함하고, 명령어는 본 발명의 제1양태에 따른 방법을 수행하기 위한 명령어를 포함하는 컴퓨터 프로그램 제품이 제공된다.
이하에 기술된 실시예들에서, 도달 방향 정보는 후속 단일 채널 잡음 감소 방법들에 얼마나 많은 억제가 적용되어야 하는지에 대한 결정을 개선하기 위해 사용된다. 대부분의 단일 채널 잡음 감소 방법들은 자연스러운 소리와 감쇠된 배경 잡음을 보장하기 위해 입력 신호에 적용되는 최대 억제 팩터를 가지므로, 도달 방향 정보는 빔 형성기가 초점을 맞춘 것 이외의 어떤 각도로부터 소리가 도달될 때 그 최대 억제 팩터가 적용되는 것을 보장하기 위해 사용될 것이다. 예를 들어, TV가 아마도 원단 음성을 재생하기 위해 사용되는 것과 동일한 스피커들을 통해 낮춰진 볼륨으로 재생되는 경우, 마이크로폰에 의해 그 출력이 주워 담겨질 것이라는 문제가 있다. 본 발명의 기술된 실시예들을 통해, 오디오가 스피커들의 각도로부터 도달하고 있다는 것이 검출될 것이며, 빔 형성기에 의해 시도되는 억제 이외에 최대 잡음 감소가 적용될 것이다. 그 결과, 원하지 않는 신호가 덜 들리게 되고 그에 따라 원단 스피커를 덜 방해할 것이며, 감소된 에너지로 인해 원단에 신호를 전송하기 위해 사용되는 평균 비트 레이트를 낮추게 될 것이다.
본 발명에 대한 보다 나은 이해를 위해 그리고 본 발명이 실행될 수 있는 방법을 보여주기 위해, 이제 예로서 이하의 도면들이 참조된다.
도 1은 바람직한 실시예에 따른 통신 시스템을 도시한다.
도 2는 바람직한 실시예에 따른 사용자 단말의 개략도를 도시한다.
도 3은 사용자 단말의 예시적 환경을 도시한다.
도 4는 일 실시예에 따라 사용자 단말에 있는 오디오 입력 수단의 개략도를 도시한다.
도 5는 일 실시예에서 DOA 정보가 어떻게 추정되는지를 나타내는 다이어그램을 도시한다.
이하의 본 발명의 실시예들에서, 포커스 방향에서 나오지 않는 소리들을 감쇠시키기 위해 전적으로 빔 형성기에 의존하는 대신, 후속 단일 채널 잡음 감소방법에 DOA 정보를 이용하는 것이 빔 형성기가 포커싱 하는 것들과 다른 어떤 방향으로부터의 소리들에 대한 최대 단일 채널 잡음 억제를 보장하는 기술이 설명된다. 이것은 공간 정보를 이용함으로써 원하는 근단(nearend) 음성 신호로부터 원하지 않는 신호가 구별될 수 있을 때 큰 이점이 된다. 그러한 소스의 예들은 확성 스피커가 음악을 재생하는 것, 팬들이 공기를 부는 것 및 문들이 닫히는 것이다.
신호 분류를 이용하여, 다른 소스들의 방향 또한 발견될 수 있다. 그러한 소스의 예들은 예컨대 냉각 팬들/에어컨 시스템, 배경에서 재생되는 음악 및 키보드 두드림일 수 있다.
두 가지 접근 방식들이 취해질 수 있다: 첫째, 소정 방향들로부터 도달되는 바람직하지 않은 소스들 및 최대 억제에 사용되는 것보다 높은 잡음 억제 이득이 허용되는 각도들로부터 제외된 각도들이 식별될 수 있다. 예컨대, 소정의 바람직하지 않은 방향으로부터의 오디오 세그먼트들이 그 신호가 잡음만을 포함한 것처럼 축소되게 하는 것이 가능할 것이다. 실제상에서, 잡음 추정치는 그러한 세그먼트에 대한 입력 신호와 동일하게 세팅될 수 있고, 결과적으로 잡음 감소 방법은 그에 따라 최대 감쇠를 적용할 것이다.
둘째, 잡음 감소는 근단 음성이 도달된다고 예상되는 것들과 다른 임의의 방향의 음성에 대해 덜 민감하게 이뤄질 수 있다. 즉, 잡음 있는 신호에 적용할 이득들을 SNNR(siganl-plus-noise to noise ratio)의 함수로서 산출할 때, SNNR의 함수로서의 이득은 예상 인입 음성의 각도가 얼마나 바람직한가에 좌우될 수도 있을 것이다. 바람직한 방향들에 대해, SNNR의 함수로서의 이득은 덜 바람직한 방향에 대한 것보다 높을 것이다. 두 번째 방법은 기본 스피커(들)과 같은 방향으로부터 도달하지 않고 잡음 소스로 검출되지도 않았던 이동하는 잡음 소스들에 기반하여 우리가 조정하지 않도록 보장할 것이다.
본 발명의 실시예들은 특히 단일 채널을 통한 모노포닉(monophonic) 음 감소(종종 모노라 칭함)와 관련된다. 스테레오 적용예들(둘 이상의 독립적 오디오 채널들이 존재하는 예들)에서의 잡음 감소는 통상적으로 독립적인 단일 채널 잡음 감소 방법들에 의해 수행되지 않으며, 그보다는 스테레오 이미지가 잡음 감소 방법에 의해 왜곡되지 않게 보장하는 방법에 의해 수행된다.
먼저, 바람직한 실시예의 통신 시스템(100)을 예시한 도 1이 참조된다. 통신 시스템의 제1사용자(사용자 A(102))가 사용자 장치(104)를 조작한다. 사용자 장치(104)는 예를 들어 모바일 전화, 텔레비전, PDA(personal digital assistant), 퍼스널 컴퓨터(PC)(예컨대 WindowsTM Mac OSTM 및 LInuxTM PC들을 포함하는), 게임기나 통신 시스템(100)을 통해 통신할 수 있는 다른 내장 장치일 수 있다.
사용자 장치(104)는 통신 시스템(100)을 통해 통신하기 위한 통신 클라이언트와 같은 애플리케이션을 실행하도록 구성될 수 있는 중앙 처리부(CPU)(108)를 포함한다. 애플리케이션은 사용자 장치(104)가 통신 시스템(100)을 통한 통화 및 다른 통신 세션(가령, 즉석 메시징 통신 세션)에 관여할 수 있게 한다. 사용자 장치(104)는 예컨대 인터넷이나 공중 교환 전화망(PSTN)일 수 있는 네트워크(106)를 통해 통신 시스템(100)으로 통신할 수 있다. 사용자 장치(104)는 링크(110)를 통해 네트워크로/로부터 데이터를 송/수신할 수 있다.
도 1은 또한 사용자 장치(104)가 통신 시스템(100)을 통해 통신할 수 있는 원격 노드를 보여준다. 도 1에 도시된 예에서, 원격 노드는 제2사용자(112)에 의해 사용될 수 있고, 사용자 장치(104)가 통신 시스템(100) 안에서 통신 네트워크(106)를 통해 통신하는 것과 같은 방식으로 통신 네트워크(106)를 통해 통신하도록 애플리케이션(가령, 통신 클라이언트)을 실행할 수 있는 제2사용자 장치(114)이다. 사용자 장치(114)는 예를 들어, 모바일 전화, 텔레비전, PDA(personal digital assistant), 퍼스널 컴퓨터(PC)(예컨대 윈도우즈의 Mac OS 및 리눅스 PC들을 포함), 게임기나 통신 시스템(100)을 통해 통신할 수 있는 다른 내장 장치일 수 있다. 사용자 장치(114)는 링크(118)를 통해 네트워크로/로부터 데이터를 송/수신할 수 있다. 따라서, 사용자 A(102) 및 사용자 B(112)는 통신 네트워크(106)를 통해 서로와 통신할 수 있다.
도 2는 클라이언트로 실행되는 사용자 단말(104)의 개략도를 예시한다. 사용자 단말(104)은 CPU(108)를 포함하며, 거기에 스크린과 같은 디스플레이(204), 키보드(214)와 같은 입력 장치들 및 마우스(212)와 같은 포인팅 장치가 연결된다. 디스플레이(204)는 데이터를 CPU(108)에 입력하기 위한 터치 스크린을 포함할 수 있다. 출력 오디오 장치(206)(가령, 스피커)가 CPU(108)에 연결된다. 마이크로폰(208)과 같은 입력 오디오 장치는 잡음 억제 수단(227)을 경유하여 CPU(108)에 연결된다. 잡음 억제 수단(227)은 도 2에서 단독형 하드웨어 장치로서 표현되고 있지만, 잡음 억제 수단(227)은 소프트웨어로 구현될 수도 있을 것이다. 예를 들어, 잡음 억제 수단(227)은 클라이언트 안에 포함될 수도 있다.
CPU(108)는 네트워크(106)와 통신하기 위한 모뎀과 같은 네트워크 인터페이스(226)에 연결된다.
이제 도 3이 참조되며, 도 3은 사용자 단말(104)의 예시적 환경(300)을 도시한다.
오디오 신호들이 마이크로폰(208)에서 수신되어 처리될 때 원하는 오디오 신호들이 식별된다. 처리 중에, 원하는 오디오 신호들이 음성 유사 품질의 검출에 기반하여 식별되며, 메인 스피커의 주요 방향이 판단된다. 이것은 메인 스피커(사용자(102))가 주요 방향 d1으로부터 마이크로폰(208)에 도달한 원하는 오디오 신호들의 소스로서 도시된 도 3에 도시된다. 단순화를 위해 하나의 메인 스피커가 도 3에 도시되어 있지만, 원하는 오디오 신호들에 대한 어떤 수의 소스들이라도 환경(300) 안에 존재할 수 있다는 것을 예상할 수 있을 것이다.
원하지 않는 잡음 신호들의 소스들이 환경(300) 안에 존재할 수 있다. 도 3은 환경(300) 안에서 방향 d3으로부터 마이크로폰(208)에 도달할 수 있는 원하지 않는 잡음 신호의 잡음 소스(304)를 도시한다. 원하지 않는 잡음 신호들의 소스들은 예컨대 팬, 에어컨 시스템 및 음악을 재생하는 장치를 포함한다.
원하지 않는 잡음 신호들은 또한 사용자 단말(104)에서의 어떤 잡음 소스, 예컨대 마우스(212)의 클릭, 키보드(214) 두드리기 및 스피커(206)로부터 출력되는 오디오 신호들로부터 마이크로폰(208)에 도달할 수 있다. 도 3은 마이크로폰(208) 및 스피커(206)에 연결된 사용자 단말(104)을 도시한다. 도 3에서 스피커(206)는 방향 d2로부터 마이크로폰(208)에 도달할 수 있는 원하지 않는 오디오 신호의 소스이다.
마이크로폰(208) 및 스피커(206)가 사용자 단말에 연결된 외부 장치들로서 도시되었지만, 마이크로폰(208) 및 스피커(206)는 사용자 단말(104) 안에 통합될 수 있다는 것을 이해할 수 있다.
이제, 일 실시예에 따라 마이크로폰(208) 및 잡음 억제 수단(227)의 보다 상세한 보기를 예시한 도 4를 참조한다. 마이크로폰(208)은 복수의 마이크로폰들을 포함하는 마이크로폰 어레이(402) 및 빔 형성기(404)를 포함한다. 마이크로폰 어레이(402) 내 각각의 마이크로폰의 출력은 빔 형성기(404)와 연결된다. 당업자들은 빔 형성을 구현하기 위해 여러 입력들이 필요로 된다는 것을 이해할 수 있다. 마이크로폰 어레이(402)는 세 개의 마이크로폰들을 가지는 것으로 도 4에 도시되나, 이러한 마이크로폰들의 개수는 단지 예일 뿐이며 어떤 식으로든 한정하는 것이 아님을 이해해야 한다.
빔 형성기(404)는 마이크로폰 어레이(402)로부터 오디오 신호들을 수신하는 처리 블록(409)을 포함한다. 처리 블록(409)은 음성 활동 검출기(VAD)(411) 및 DOA 추정 블록(413)(그 동작은 나중에 기술될 것이다)을 포함한다. 처리 블록(409)은 마이크로폰 어레이(402)에 의해 수신된 오디오 신호들의 성격을 확인하고, VAD(411)에 의해 검출된 음성 유사 품질들의 검출 및 블록(413)에서 추정된 DOA 정보에 기반하여 메인 스피커(들)의 하나 이상의 주요 방향(들)이 판단된다. 빔 형성기(404)는 원하는 신호들이 마이크로폰 어레이에서 수신되는 하나 이상의 주요 방향(들)로부터의 방향으로 높은 이득을 가지고 어떤 다른 방향으로는 낮은 이득을 가지는 빔을 형성함으로써 오디오 신호들을 처리하도록 DOA 정보를 사용한다. 위에서는 처리 블록(409)이 임의 개의 주요 방향들을 판단할 수 있는 것으로 설명하였지만, 판단된 주요 방향들의 개수는 빔 형성기의 특성들, 예컨대 마이크로폰 어레이에서 하나의 주요 방향만이 판단되는 경우가 아닌 다른 (원하지 않는) 방향들로부터 수신되는 신호들의 보다 적은 감쇠에 영향을 미친다. 빔 형성기(404)의 출력은 처리될 단일 채널의 형식으로 잡음 감소 단(227) 및 그런 다음 자동 이득 제어 수단(도 4에 도시되지 않음)으로 라인(406)을 통해 제공된다.
자동 이득 제어 수단에 의해 이득 레벨이 적용되기 전에, 잡음 억제가 빔 형성기의 출력에 적용됨이 바람직하다. 이것은 잡음 억제가 이론상으로는 음성 레벨을 (의도적이지 않게) 다소 감소시킬 수 있고, 자동 이득 제어 수단이 잡음 억제 이후의 음성 레벨을 증가시키고 잡음 억제에 의해 야기된 음성 레벨의 약간의 감소를 보상할 것이기 때문이다.
빔 형성기(404)에서 추정된 DOA 정보가 잡음 감소 단(227) 및 신호 처리 회로(420)로 제공된다.
빔 형성기(404)에서 추정된 DOA 정보는 자동 이득 제어 수단으로도 제공될 수 있다. 자동 이득 제어 수단은 잡음 감소 단(227)의 출력에 어떤 이득 레벨을 적용한다. 잡음 감소 단(227)으로부터 출력된 채널에 적용되는 이득 레벨은 자동 이득 제어 수단에서 수신되는 DOA 정보에 좌우된다. 자동 이득 제어 수단의 동작이 영국특허출원 제1108885.3에 기술되며, 여기에서는 더 상세히 논의되지 않을 것이다.
잡음 감소 단(227)은 단일 채널 신호에 잡음 감소를 적용한다. 잡음 감소는 다만 예로서, 스펙트럼 감산(예를 들어, 1979년 4월, 음향, 음성 및 신호 처리에 관한 IEEE 회보, 제27권 제2논제, 페이지 113-120에서 Boll, S에 의한 논문 "스펙트럼 감산을 이용한 음성의 음향 잡음 억제(Suppression of acoustic noise in speech using spectral subtraction)"에 기술됨)을 포함하는 여러 다양한 방식으로 실행될 수 있다.
이러한 기법은 (다른 알려진 기법과 마찬가지로) 신호 대 잡음 비를 개선하기 위해 잡음으로 식별된 신호의 성분들을 억제하며, 여기서 신호는 이 경우의 음성과 같이 의도된 유용한 신호이다.
이후 보다 상세히 기술되는 바와 같이, 도달 방향 정보는 잡음 감소를 개선하고 그에 따라 신호의 품질을 높이기 위해 잡음 감소 단 안에서 사용된다.
DOA 추정 블록(413)의 동작이 이제 도 5를 참조하여 보다 상세히 기술될 것이다.
DOA 추정 블록(413)에서, DOA 정보는 복수의 마이크로폰들에서 수신된 오디오 신호들 사이에서 예컨대 상관 방법들을 이용하여 시간 지연을 추정하고 복수의 마이크로폰들의 위치에 대한 사전 지식을 이용하여 오디오 신호의 소스를 추정함으로써 추정된다.
도 5는 오디오 소스(516)로부터 오디오 신호들을 수신하는 마이크로폰들(403 및 405)을 도시한다. 거리 d만큼 떨어진 마이크로폰들(403 및 405)에서의 오디오 신호들의 도달 방향은 수학식 1을 이용하여 추정될 수 있다.
Figure pct00001
여기서 v는 소리의 속도이고,
Figure pct00002
는 소스(516)로부터의 오디오 신호들이 마이크로폰들(403 및 405)에 도달한 시점들 간의 차이, 즉 시간 지연이다. 시간 지연은 마이크로폰들(403 및 405)의 출력들에서의 신호들 간 교차 상관을 최대화하는 시간 차이(time lag)로서 획득된다. 그런 다음 이러한 시간 지연에 상응하는 각도
Figure pct00003
가 찾아질 수 있다.
신호들의 교차 상관을 산출하는 것은 이 신호처리 분야에서 일반적인 기법이라는 것을 이해할 수 있으며 여기에서 더 상세히 기술되지는 않을 것이다.
이제 잡음 감소 단(227)의 동작이 이하에서 보다 상세히 기술될 것이다. 본 발명의 모든 실시예들에서, 잡음 감소 단(227)은 사용자 단말에 알려지고 DOA 블록(227)에 의해 표현된 DOA 정보를 이용하며 처리될 오디오 신호를 수신한다. 잡음 감소 단(227)은 프레임 단위로 오디오 신호를 처리한다. 프레임은 예컨대 5 및 20 밀리 초 사이의 길이일 수 있고, 하나의 잡음 억제 기법에 따라 예컨대 프레임 당 64 및 256 빈들 사이의 스펙트럼 빈들로 분할된다.
잡음 감소 단(227)에서 수행되는 처리는 잡음 감소 단(227)으로 입력된 오디오 신호의 각각의 프레임에 대해 잡음 억제의 레벨을 적용하는 것을 포함한다. 오디오 신호의 각각의 프레임에 잡음 감소 단(227)에 의해 적용된 잡음 억제의 레벨은 처리되고 있는 현재 프레임의 DOA 추출 정보 및 사용자 단말에 알려진 다양한 오디오 소스들의 DOA 정보에 대해 쌓여진 지식 사이의 비교 결과에 좌우된다. 추출된 DOA 정보는 프레임을 따라 전달되어, 프레임 자체 이외에 잡음 감소 단(227)으로의 입력 파라미터로서 사용된다.
잡음 감산 단(227)에 의해 입력 오디오 신호에 적용된 잡음 억제 레벨은 여러 방식으로 DOA 정보에 의해 영향을 받을 수 있다.
원하는 소스로부터 식별되었던 방향들에서 마이크로폰(208)에 도달한 오디오 신호들은 음성 유사 특성들의 검출에 기반하여 식별될 수 있으며 메인 스피커의 주요 방향으로부터 나온 것으로서 식별될 수 있다.
사용자 단말에 알려진 DOA 정보(427)는 빔 형성기의 빔 패턴(408)을 포함할 수 있다. 잡음 감소 단(227)은 프레임 단위로 오디오 입력 신호를 처리한다. 한 프레임의 처리 중에, 잡음 감소 단(227)은 해당 프레임 내 오디오 신호의 메인 성분이 마이크로폰(208)에서 수신되었던 각도를 찾기 위해 프레임의 DOA 정보를 판독한다. 프레임의 DOA 정보는 사용자 단말에 알려진 DOA 정보(427)와 비교된다. 이 비교는 처리되고 있는 프레임 내 오디오 신호의 주요 성분이 원하는 소스의 방향으로부터 마이크로폰(208)에 수신되었는지 여부를 판단한다.
대안으로, 또는 추가적으로, 사용자 단말에 알려진 DOA 정보(427)는 원단 신호들이 사용자 단말에 있는 스피커들(206과 같은 스피커)로부터 마이크로폰(308)에서 수신되는 각도
Figure pct00004
(잡음 감소 단(227)으로 제공됨, 라인 407)를 포함할 수 있다.
대안으로, 또는 추가적으로, 사용자 단말에 알려진 DOA 정보(427)는 가능하다면 고정된 잡음 소스의 결과로서 매우 잡음이 많은 소정 방향을 찾기 위해 여러 방향들로부터의 오디오를 분류하는 함수(425)로부터 도출될 수 있다.
DOA 정보(427)가 원하는 주요 방향을 나타낼 때, 비교를 통해 처리 중인 프레임의 주요 성분이 그 주요 방향으로부터 마이크로폰(208)에 수신된다고 판단된다. 잡음 감소 단(227)은 상술한 종래의 방법들을 이용하여 잡음 억제 레벨을 결정한다.
제1접근 방식에서, 처리 중인 프레임의 주요 성분이 주요 방향이 아닌 방향으로부터 마이크로폰(208)에 수신된다고 판단되면, 해당 프레임과 관련된 빈들이 모두, 마치 그들이 잡음인 듯이(정상적 잡음 감소 기법이 양호한 SNNR을 식별하고 그에 따라 잡음을 크게 억제하지 않을지라도) 다뤄진다. 이것은 그러한 프레임에 대해 입력 신호와 동일한 잡음 추정치를 설정함으로써 수행될 수 있으며, 결과적으로 이후 잡음 감소 단이 해당 프레임에 최대 감쇠를 적용할 것이다. 이런 방식으로 원하는 방향이 아닌 방향들로부터 도달하는 프레임들이 잡음으로서 억제될 수 있고, 신호의 품질이 개선된다.
상술한 바와 같이, 잡음 감소 단(227)은 잡음 소스(들)로부터 여러 방향으로 마이크로폰(208)에 도달하는 원하지 않는 오디오 신호들을 식별하는 함수(425)로부터 DOA 정보를 수신할 수 있다. 그러한 원하지 않는 오디오 신호들은 그들의 특성들로부터 식별된다, 예컨대 키보드 상의 키 두드리기나 팬으로부터 나오는 오디오 신호들은 사람의 음성과는 다른 특성들을 가진다. 최대 억제에 사용되는 것보다 높은 잡음 억제 이득이 허용되는 경우 원하지 않는 오디오 신호들이 마이크로폰(208)에 도달하는 각도는 제외될 수 있다. 따라서, 처리 중인 프레임 내 오디오 신호의 주요 성분이 예외 방향으로부터 마이크로폰에 수신될 때, 잡음 감소 단(227)은 해당 프레임에 최대 감쇠를 적용한다.
검증 수단(423)이 더 포함될 수 있다. 예를 들어 하나 이상의 주요 방향들이 (예컨대 빔 형성기의 경우 빔 패턴(408)에 기반하여) 검출되었으면, 클라이언트는 사용자(102)에게 클라이언트 사용자 인터페이스를 통해 검출된 주요 방향에 대해 알리며 사용자(102)에게 검출된 주요 방향이 맞는지를 물어본다. 이러한 검증은 도 4에 점선으로 표시된 것과 같이 선택적이다.
사용자(102)가 검출된 주요 방향이 옳다고 확인하면, 검출된 주요 방향이 잡음 감소 단(227)으로 보내지고 잡음 감소 단(227)은 상술한 바와 같이 동작한다. 사용자(102)가 클라이언트에 로그인하여 검출된 주요 방향이 옳다고 확인했으면 통신 클라이언트는 검출된 주요 방향을 메모리(210)에 저장할 수 있고, 후속 클라이언트로의 로그인들에 따라 검출된 주요 방향이 메모리 안의 확인된 올바른 주요 방향과 매칭되는 경우에 검출된 주요 방향이 옳은 것으로 간주된다. 이것은 사용자(102)가 클라이언트에 로그인할 때마다 주요 방향을 승인해야 하는 필요성을 방지한다.
사용자가 검출된 주요 방향이 옳지 않다는 것을 나타내면, 검출된 주요 방향은 DOA 정보로서 잡음 감소 단(227)으로 보내지지 않는다. 이 경우, 상관 기반 방법(도 5를 참조하여 위에서 기술함)은 계속해서 주요 방향을 검출할 것이고, 다만 사용자(102)가 그 검출된 주요 방향이 옳다고 승인하면 검출된 하나 이상의 주요 방향들을 전송할 것이다.
첫 번째 접근 방식에서 동작 모드는 처리중인 프레임의 DOA 정보에 기반하여 프레임에 최대 감쇠가 적용될 수 있도록 하는 것이다.
두 번째 접근 방식에서 잡음 감소 단(227)은 그러한 엄격한 동작 모드로 동작하지 않는다.
두 번째 접근 방식에서는 프레임 안의 오디오 신호에 적용할 이득들을 SNNR의 함수로서 산출할 때, SNNR의 함수인 그 이득은 추가 정보에 좌우된다. 그 추가 정보는 신호 처리 블록(도 4에 도시되지 않음)에서 산출될 수 있다.
제1구현예에서 신호 처리 블록은 마이크로폰(208) 내에서 구현될 수 있다. 신호 처리 블록은 (오디오 신호들이 빔 형성기(404)에 적용되기 전에) 마이크로폰 어레이(402)로부터 원단 오디오 신호들을 입력으로서 수신하고, 상관 방법으로부터 획득된 주요 방향(들)에 대한 정보를 또한 수신한다. 이 구현예에서 신호 처리 블록은 추가 정보를 잡음 감소 단(227)으로 출력한다.
제2구현예에서 신호 처리 블록은 잡음 감소 단(227) 내에서 구현될 수 있다. 신호 처리 블록은 빔 형성기(404)로부터 신호 채널 출력 신호를 입력으로서 수신하며 상관 방법으로부터 획득된 주요 방향(들)에 대한 정보를 또한 수신한다. 이 구현예에서 잡음 감소 단(227)은 스피커들(206)이 동작상태에 있다는 것을 나타내는 정보를 수신할 수 있으며, 처리 중인 프레임 내 주요 신호 성분이 원하는 음성의 각도와 상이한 경우 그것이 잡음으로서만 다뤄지도록 할 수 있다.
두 구현예들에 있어서, 신호 처리 블록에서 산출된 추가 정보는 처리 중인 프레임 내 오디오 신호에 적용할 이득을 SNNR의 함수로서 산출하기 위해 잡음 감소 단(227)에 의해 사용된다.
추가 정보는 예컨대 원하는 음성이 특정 방향/각도로부터 도달할 가능성을 포함할 수 있다.
이 시나리오에서 신호 처리 블록은 출력으로서, 잡음 감소 단(227)에 의해 현재 처리 중인 프레임이 잡음 감소 단이 보존해야 할 원하는 성분을 포함할 가능성이 얼마나 있는지를 나타내는 값을 제공한다. 신호 처리 블록은 들어오는 음성이 마이크로폰(208)에서 수신되는 각도들의 바람직함을 정량화한다. 예를 들어 에코음 도중에 오디오 신호들이 마이크로폰(208)에 수신되면, 그 오디오 신호들이 마이크로폰(208)에서 수신되는 각도는 바람직하지 않은 각도일 가능성이 있는데, 이는 사용자 단말에 있는 스피커들(206과 같은 것)로부터 수신되는 모든 원단 신호들을 보존하는 것이 바람직하지 않기 때문이다.
이 시나리오에서 잡음 감소 단(227)에 의해 프레임에 적용되는 SNNR의 함수인 잡음 억제 이득은 그러한 정량화된 바람직함의 척도에 좌우된다. 원하는 방향들에 대해, 주어진 SNNR의 함수인 이득은 덜 바람직한 방향에 대한 것보다 높을 것이다, 즉 보다 바람직한 방향들에 대해 잡음 감소 단(227)에 의해 보다 적은 감쇠가 적용된다.
추가 정보는 대안으로 원하는 방향(들)로부터 수신된 오디오 신호들의 평균 파워 대비 현재 프레임의 주요 신호 성분의 파워를 포함할 수 있다. 이 시나리오에서 잡음 감소 단(227)에 의해 프레임에 적용되는 SNNR의 함수인 잡음 억제 이득은 그러한 정량화된 파워비율에 좌우된다. 주요 신호 성분의 파워가 주요 방향들로부터의 평균 파워에 가까울수록, 잡음 감소 단(227)에 의해 적용되는 주어진 SNNR의 함수인 이득은 더 높다, 즉 보다 적은 감쇠가 적용된다.
추가 정보가 대안으로 현재 프레임의 주요 신호 성분의 신호 분류를 제공하는 신호 분류기 출력일 수 있다. 이 시나리오에서 잡음 감소 단(227)은 가변 레벨의 감쇠를 프레임에 적용할 수 있으며, 이때 프레임의 메인 성분은 신호 분류기 출력에 따른 특정 방향으로부터 마이크로폰 어레이(402)에 수신된다. 따라서 어느 각도가 바람직하지 않은 방향이라고 판단되면, 잡음 감소 단(227)은 같은 바람직하지 않은 방향으로부터의 음성보다 그 바람직하지 않은 방향으로부터의 잡음을 더 많이 줄일 수 있다. 원하는 음성이 그 바람직하지 않은 방향으로부터 도달되리라 예상되는 경우 이러한 것이 가능하고 실제로 현실적이다. 그러나 그것은 잡음이 변조될 것이라는 큰 단점을 가진다, 즉 원하는 스피커가 동작 중일 때 잡음이 보다 높을 것이고 원하지 않은 스피커가 동작 중일 때 잡음은 보다 낮을 것이다. 대신, 그 방향으로부터의 신호들에서 음성 레벨을 다소 낮추는 것이 바람직하다. 같은 감쇠 정도를 적용하게 함으로써 그것을 정확히 잡음으로서 다루지 않는다면, 그것을 원하는 음성과 잡음 사이의 어딘가에 있는 것으로 다룬다. 이것은 바람직하지 않은 방향들에 대해 다소 상이한 감쇠 함수를 이용함으로써 달성될 수 있다.
추가 정보는 대안으로, 현재 프레임의 주요 신호 성분이 오디오 입력 수단에 수신되는 각도 자체, 즉 라인 407로 잡음 감소 단(227)에 공급되는
Figure pct00005
일 수 있다. 이것은 오디오 소스가 주요 방향(들)로부터 멀어질 때 잡음 감소 단이 더 많은 감쇠를 적용할 수 있게 한다.
이러한 두 번째 접근 방식에서는, 잡음 감소 단(227)이 프레임을 잡음으로만 다루는 것과 단일 채널 잡음 감소 방법들에서 전통적으로 행하는 것으로서 다루는 두 극단의 것들 사이에서 동작할 수 있기 때문에, 보다 큰 정밀도가 제공된다. 따라서, 잡음 감소 단(227)은 바람직하지 않은 방향들로부터 도달하는 오디오 신호들에 대해 전적으로 그것이 단지 잡음 것처럼 다루지 않고 약간 더 적극적으로 만들어질 수 있다. 즉, 예컨대 음성 신호에 어떤 감쇠를 적용할 것이라는 의미에서 적극적이다.
상술한 실시예들은 단일 사용자(102)로부터 오디오 신호들을 수신하는 마이크로폰(208)을 언급하였지만, 그 마이크로폰이 예컨대 전화 회의 중인 복수의 사용자들로부터 오디오 신호들을 수신할 수 있다는 것을 알 수 있을 것이다. 이러한 시나리오에서는, 여러 소스의 원하는 오디오 신호들이 마이크로폰(208)에 도달한다.
본 발명은 특히 바람직한 실시예들과 관련하여 도시되고 기술되었으나, 당업자는 첨부된 청구범위에서 정의되는 바와 같은 본 발명의 범위로부터 벗어나지 않으면서 형식 및 세부에 있어 다양한 변경이 이루어질 수 있다는 것을 알 수 있을 것이다.

Claims (10)

  1. 사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호를 처리하는 방법으로서,
    상기 사용자 장치에 있는 오디오 입력 수단에서 적어도 하나의 기본 오디오 신호(primary audio signal) 및 원하지 않는 신호(unwanted signal)를 포함하는 복수의 오디오 신호를 수신하는 단계와,
    잡음 억제 수단에서 상기 오디오 신호의 도달 방향 정보를 수신하는 단계와,
    상기 원하지 않는 신호 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 상기 잡음 억제 수단으로 제공하는 단계와,
    상기 오디오 신호의 상기 도달 방향 정보 및 상기 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로 식별되는 상기 신호의 일부를 잡음으로서 취급하도록 상기 잡음 억제 수단에서 상기 오디오 신호를 처리하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 오디오 입력 수단은 빔 형성기를 포함하고,
    상기 빔 형성기는
    상기 적어도 하나의 기본 오디오 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향을 추정하고,
    상기 적어도 하나의 주요 방향에서 빔을 형성하고 상기 주요 방향 이외의 임의의 방향으로부터의 오디오 신호를 실질적으로 억제함으로써 단일 채널 오디오 출력 신호를 생성하도록 상기 복수의 오디오 신호를 처리하도록 구성되며,
    상기 단일 채널 오디오 출력 신호는 일련의 프레임을 포함하고 상기 잡음 억제 수단은 상기 일련의 프레임의 각각을 처리하는
    방법.
  3. 제1항 또는 제2항에 있어서,
    처리되고 있는 현재 프레임의 주요 신호 성분에 대한 도달 방향 정보가 상기 잡음 억제 수단에서 수신되고,
    상기 방법은
    상기 현재 프레임의 상기 주요 신호 성분에 대한 상기 도달 방향 정보 및 상기 알려진 도달 방향 정보를 비교하는 단계 - 상기 알려진 도달 방향 정보는 (i) 원단 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향, (ii) 적어도 하나의 원하지 않는 오디오 신호가 상기 오디오 입력 수단에 도달하고 상기 적어도 하나의 원하지 않는 오디오 신호의 신호 특성에 기반하여 식별되는 적어도 하나의 분류된 방향, (iii) 상기 적어도 하나의 기본 오디오 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 주요 방향, 및 (iv) 상기 빔 형성기의 빔 패턴 중 적어도 하나를 포함함 -
    를 더 포함하는 방법.
  4. 제3항에 있어서,
    상기 비교에 기반하여 상기 현재 프레임의 상기 주요 신호 성분이 원하지 않는 신호인지 여부를 판단하는 단계와,
    상기 현재 프레임의 상기 주요 신호 성분이 원하지 않는 신호라고 판단되면 처리 중인 상기 현재 프레임에 최대 감쇠를 적용하는 단계와,
    원단 신호가 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향으로부터 상기 주요 신호 성분이 상기 오디오 입력 수단에서 수신되는 경우, 또는 상기 주요 신호 성분이 상기 오디오 입력 수단에서 상기 적어도 하나의 분류된 방향으로부터 수신되는 경우, 또는 상기 주요 신호 성분이 상기 오디오 입력 수단에서 적어도 하나의 주요 방향으로부터 수신되지 않는 경우 상기 현재 프레임의 상기 주요 신호 성분이 원하지 않는 신호라고 판단하는 단계
    를 더 포함하는 방법.
  5. 제3항에 있어서,
    신호 처리 수단에서 상기 복수의 오디오 신호 및 상기 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와,
    상기 잡음 억제 수단으로 추가 정보를 제공하기 위해 상기 신호 처리 수단에서 상기 적어도 하나의 주요 방향에 대한 정보를 이용하여 상기 복수의 오디오 신호를 처리하는 단계와,
    상기 추가 정보 및 상기 비교에 따라 상기 잡음 억제 수단에서 처리 중인 상기 현재 프레임에 어떤 감쇠 레벨을 적용하는 단계 - 상기 추가 정보는 (i) 상기 현재 프레임의 상기 주요 신호 성분의 바람직함에 대한 표시, (ii) 상기 적어도 하나의 기본 오디오 신호의 평균 파워 레벨 대비 상기 현재 프레임의 상기 주요 신호 성분의 파워 레벨, (iii) 상기 현재 프레임의 상기 주요 신호 성분의 신호 구분(signal classification), 및 (iv) 상기 현재 프레임의 상기 주요 신호 성분이 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함함 -
    를 더 포함하는 방법.
  6. 제4항 내지 제8항 중 어느 한 항에 있어서,
    신호 처리 수단에서 상기 단일 채널 오디오 출력 신호 및 상기 적어도 하나의 주요 방향에 대한 정보를 수신하는 단계와,
    상기 잡음 억제 수단으로 추가 정보를 제공하기 위해 상기 신호 처리 수단에서 상기 적어도 하나의 주요 방향에 대한 정보를 이용하여 상기 단일 채널 오디오 출력 신호를 처리하는 단계와,
    상기 추가 정보 및 상기 비교에 따라 상기 잡음 억제 수단에서 처리 중인 상기 현재 프레임에 감쇠 레벨을 적용하는 단계 - 상기 추가 정보는 (i) 상기 현재 프레임의 상기 주요 신호 성분의 바람직함에 대한 표시, (ii) 상기 적어도 하나의 기본 오디오 신호의 평균 파워 레벨 대비 상기 현재 프레임의 상기 주요 신호 성분의 파워 레벨, (iii) 상기 현재 프레임의 상기 주요 신호 성분의 신호 구분, 및 (iv) 상기 현재 프레임의 상기 주요 신호 성분이 상기 오디오 입력 수단에서 수신되는 적어도 하나의 방향을 포함함 -
    를 더 포함하는 방법.
  7. 제2항 내지 제6항 중 어느 한 항에 있어서,
    상기 적어도 하나의 주요 방향은
    상기 오디오 입력 수단에서 수신되고 있는 오디오 신호 사이의 교차 상관을 최대화하는 시간 지연을 판단하고,
    상기 오디오 입력 수단에서 상기 최대 교차 상관의 시간 지연을 이용하여 수신되는 상기 오디오 신호의 음성 특성을 검출함으로써 결정되는
    방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 원하지 않는 신호는 상기 사용자 장치 외부의 소스나 상기 사용자 장치에 있는 소스에 의해 생성되고, 상기 소스는 상기 사용자 장치의 오디오 출력 수단, 상기 사용자 장치에서의 활동 소스 중 적어도 하나를 포함하고, 상기 활동은 버튼 클릭 활동, 키보드 클릭 활동, 및 마우스 클릭 활동을 포함하는 클릭 활동을 포함하는
    방법.
  9. 사용자 장치 및 원격 노드 사이의 통신 세션 중에 오디오 신호를 처리하기 위한 사용자 장치로서,
    적어도 하나의 기본 오디오 신호 및 원하지 않는 신호를 포함하는 복수의 오디오 신호를 수신하기 위한 오디오 입력 수단과,
    상기 오디오 신호의 도달 방향 정보 및 상기 원하지 않는 신호 중 적어도 일부를 나타내는 알려진 도달 방향 정보를 수신하는 잡음 억제 수단 - 상기 잡음 억제 수단은 상기 오디오 신호의 상기 도달 방향 정보 및 상기 알려진 도달 방향 정보 간의 비교에 따라 원하지 않는 것으로서 식별되는 상기 신호의 일부를 잡음으로서 취급함으로써 상기 오디오 신호를 처리하도록 구성되는 -
    을 포함하는 사용자 장치.
  10. 사용자 장치 및 원격 노드 간의 통신 세션 중에 오디오 신호를 처리하기 위해 상기 사용자 장치에서 컴퓨터 처리 수단에 의해 실행하기 위한 컴퓨터 판독 가능 명령어를 포함하고, 상기 명령어는 제1항 내지 제8항 중 어느 한 항에 따른 상기 방법을 수행하기 위한 명령어를 포함하는
    컴퓨터 프로그램 제품.
KR1020147000062A 2011-07-05 2012-07-05 오디오 신호의 처리 기법 KR101970370B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB1111474.1A GB2493327B (en) 2011-07-05 2011-07-05 Processing audio signals
GB1111474.1 2011-07-05
US13/212,688 2011-08-18
US13/212,688 US9269367B2 (en) 2011-07-05 2011-08-18 Processing audio signals during a communication event
PCT/US2012/045556 WO2013006700A2 (en) 2011-07-05 2012-07-05 Processing audio signals

Publications (2)

Publication Number Publication Date
KR20140033488A true KR20140033488A (ko) 2014-03-18
KR101970370B1 KR101970370B1 (ko) 2019-04-18

Family

ID=44512127

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147000062A KR101970370B1 (ko) 2011-07-05 2012-07-05 오디오 신호의 처리 기법

Country Status (7)

Country Link
US (1) US9269367B2 (ko)
EP (1) EP2715725B1 (ko)
JP (1) JP2014523003A (ko)
KR (1) KR101970370B1 (ko)
CN (1) CN103827966B (ko)
GB (1) GB2493327B (ko)
WO (1) WO2013006700A2 (ko)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012252240A (ja) * 2011-06-06 2012-12-20 Sony Corp 再生装置、信号処理装置、信号処理方法
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
JP6267860B2 (ja) * 2011-11-28 2018-01-24 三星電子株式会社Samsung Electronics Co.,Ltd. 音声信号送信装置、音声信号受信装置及びその方法
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9813262B2 (en) 2012-12-03 2017-11-07 Google Technology Holdings LLC Method and apparatus for selectively transmitting data using spatial diversity
US9979531B2 (en) 2013-01-03 2018-05-22 Google Technology Holdings LLC Method and apparatus for tuning a communication device for multi band operation
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
JP6446913B2 (ja) * 2014-08-27 2019-01-09 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
CN105763956B (zh) * 2014-12-15 2018-12-14 华为终端(东莞)有限公司 视频聊天中录音的方法和终端
WO2016209295A1 (en) * 2015-06-26 2016-12-29 Harman International Industries, Incorporated Sports headphone with situational awareness
US9646628B1 (en) * 2015-06-26 2017-05-09 Amazon Technologies, Inc. Noise cancellation for open microphone mode
US9407989B1 (en) 2015-06-30 2016-08-02 Arthur Woodrow Closed audio circuit
CN105280195B (zh) * 2015-11-04 2018-12-28 腾讯科技(深圳)有限公司 语音信号的处理方法及装置
US20170270406A1 (en) * 2016-03-18 2017-09-21 Qualcomm Incorporated Cloud-based processing using local device provided sensor data and labels
CN106251878A (zh) * 2016-08-26 2016-12-21 彭胜 会务语音录入设备
US10127920B2 (en) 2017-01-09 2018-11-13 Google Llc Acoustic parameter adjustment
US20180218747A1 (en) * 2017-01-28 2018-08-02 Bose Corporation Audio Device Filter Modification
US10602270B1 (en) 2018-11-30 2020-03-24 Microsoft Technology Licensing, Llc Similarity measure assisted adaptation control
US10811032B2 (en) * 2018-12-19 2020-10-20 Cirrus Logic, Inc. Data aided method for robust direction of arrival (DOA) estimation in the presence of spatially-coherent noise interferers

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040213419A1 (en) * 2003-04-25 2004-10-28 Microsoft Corporation Noise reduction systems and methods for voice applications
US20070003078A1 (en) * 2005-05-16 2007-01-04 Harman Becker Automotive Systems-Wavemakers, Inc. Adaptive gain control system

Family Cites Families (109)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3313918A (en) 1964-08-04 1967-04-11 Gen Electric Safety means for oven door latching mechanism
DE2753278A1 (de) 1977-11-30 1979-05-31 Basf Ag Aralkylpiperidinone
US4849764A (en) 1987-08-04 1989-07-18 Raytheon Company Interference source noise cancelling beamformer
DE69011709T2 (de) 1989-03-10 1994-12-15 Nippon Telegraph & Telephone Einrichtung zur Feststellung eines akustischen Signals.
FR2682251B1 (fr) 1991-10-02 1997-04-25 Prescom Sarl Procede et systeme de prise de son, et appareil de prise et de restitution de son.
US5542101A (en) 1993-11-19 1996-07-30 At&T Corp. Method and apparatus for receiving signals in a multi-path environment
US6157403A (en) 1996-08-05 2000-12-05 Kabushiki Kaisha Toshiba Apparatus for detecting position of object capable of simultaneously detecting plural objects and detection method therefor
US6232918B1 (en) 1997-01-08 2001-05-15 Us Wireless Corporation Antenna array calibration in wireless communication systems
US6549627B1 (en) 1998-01-30 2003-04-15 Telefonaktiebolaget Lm Ericsson Generating calibration signals for an adaptive beamformer
JP4163294B2 (ja) * 1998-07-31 2008-10-08 株式会社東芝 雑音抑圧処理装置および雑音抑圧処理方法
US6049607A (en) 1998-09-18 2000-04-11 Lamar Signal Processing Interference canceling method and apparatus
DE19943872A1 (de) 1999-09-14 2001-03-15 Thomson Brandt Gmbh Vorrichtung zur Anpassung der Richtcharakteristik von Mikrofonen für die Sprachsteuerung
EP1254513A4 (en) 1999-11-29 2009-11-04 Syfx SYSTEMS AND METHODS FOR SIGNAL PROCESSING
ATE370608T1 (de) 2000-05-26 2007-09-15 Koninkl Philips Electronics Nv Verfahren und gerät zur akustischen echounterdrückung mit adaptiver strahlbildung
US6885338B2 (en) 2000-12-29 2005-04-26 Lockheed Martin Corporation Adaptive digital beamformer coefficient processor for satellite signal interference reduction
JP2004537233A (ja) 2001-07-20 2004-12-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ エコー抑圧回路及びラウドスピーカ・ビームフォーマを有する音響補強システム
US20030059061A1 (en) 2001-09-14 2003-03-27 Sony Corporation Audio input unit, audio input method and audio input and output unit
JP3812887B2 (ja) * 2001-12-21 2006-08-23 富士通株式会社 信号処理システムおよび方法
US8098844B2 (en) 2002-02-05 2012-01-17 Mh Acoustics, Llc Dual-microphone spatial noise suppression
JP4195267B2 (ja) 2002-03-14 2008-12-10 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、その音声認識方法及びプログラム
JP4161628B2 (ja) 2002-07-19 2008-10-08 日本電気株式会社 エコー抑圧方法及び装置
US8233642B2 (en) 2003-08-27 2012-07-31 Sony Computer Entertainment Inc. Methods and apparatuses for capturing an audio signal based on a location of the signal
CA2469674C (en) 2002-09-19 2012-04-24 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
US6914854B1 (en) 2002-10-29 2005-07-05 The United States Of America As Represented By The Secretary Of The Army Method for detecting extended range motion and counting moving objects using an acoustics microphone array
US6990193B2 (en) 2002-11-29 2006-01-24 Mitel Knowledge Corporation Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity
CA2413217C (en) 2002-11-29 2007-01-16 Mitel Knowledge Corporation Method of acoustic echo cancellation in full-duplex hands free audio conferencing with spatial directivity
CN100534001C (zh) 2003-02-07 2009-08-26 日本电信电话株式会社 声音获取方法和声音获取装置
WO2004071130A1 (ja) 2003-02-07 2004-08-19 Nippon Telegraph And Telephone Corporation 収音方法及び収音装置
GB0321722D0 (en) 2003-09-16 2003-10-15 Mitel Networks Corp A method for optimal microphone array design under uniform acoustic coupling constraints
CN100488091C (zh) 2003-10-29 2009-05-13 中兴通讯股份有限公司 应用于cdma系统中的固定波束成形装置及其方法
US7426464B2 (en) 2004-07-15 2008-09-16 Bitwave Pte Ltd. Signal processing apparatus and method for reducing noise and interference in speech communication and speech recognition
US20060031067A1 (en) 2004-08-05 2006-02-09 Nissan Motor Co., Ltd. Sound input device
ATE413769T1 (de) 2004-09-03 2008-11-15 Harman Becker Automotive Sys Sprachsignalverarbeitung für die gemeinsame adaptive reduktion von störgeräuschen und von akustischen echos
US20070230712A1 (en) 2004-09-07 2007-10-04 Koninklijke Philips Electronics, N.V. Telephony Device with Improved Noise Suppression
DE602004015987D1 (de) * 2004-09-23 2008-10-02 Harman Becker Automotive Sys Mehrkanalige adaptive Sprachsignalverarbeitung mit Rauschunterdrückung
JP2006109340A (ja) 2004-10-08 2006-04-20 Yamaha Corp 音響システム
US7983720B2 (en) 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
KR20060089804A (ko) 2005-02-04 2006-08-09 삼성전자주식회사 다중입출력 시스템을 위한 전송방법
JP4805591B2 (ja) 2005-03-17 2011-11-02 富士通株式会社 電波到来方向の追尾方法及び電波到来方向追尾装置
DE602005008914D1 (de) 2005-05-09 2008-09-25 Mitel Networks Corp Verfahren und System zum Reduzieren der Trainingszeit eines akustischen Echokompensators in einem Vollduplexaudiokonferenzsystem durch akustische Strahlbildung
JP2006319448A (ja) 2005-05-10 2006-11-24 Yamaha Corp 拡声システム
JP2006333069A (ja) 2005-05-26 2006-12-07 Hitachi Ltd 移動体用アンテナ制御装置およびアンテナ制御方法
JP2007006264A (ja) 2005-06-24 2007-01-11 Toshiba Corp ダイバーシチ受信機
WO2007029536A1 (ja) 2005-09-02 2007-03-15 Nec Corporation 雑音抑圧の方法及び装置並びにコンピュータプログラム
NO323434B1 (no) 2005-09-30 2007-04-30 Squarehead System As System og metode for a produsere et selektivt lydutgangssignal
KR100749451B1 (ko) 2005-12-02 2007-08-14 한국전자통신연구원 Ofdm 기지국 시스템에서의 스마트 안테나 빔 형성 방법및 장치
CN1809105B (zh) 2006-01-13 2010-05-12 北京中星微电子有限公司 适用于小型移动通信设备的双麦克语音增强方法及系统
JP4771311B2 (ja) 2006-02-09 2011-09-14 オンセミコンダクター・トレーディング・リミテッド フィルタ係数設定装置、フィルタ係数設定方法、及びプログラム
WO2007127182A2 (en) * 2006-04-25 2007-11-08 Incel Vision Inc. Noise reduction system and method
JP2007318438A (ja) 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
JP4747949B2 (ja) 2006-05-25 2011-08-17 ヤマハ株式会社 音声会議装置
US8000418B2 (en) 2006-08-10 2011-08-16 Cisco Technology, Inc. Method and system for improving robustness of interference nulling for antenna arrays
JP4910568B2 (ja) * 2006-08-25 2012-04-04 株式会社日立製作所 紙擦れ音除去装置
RS49875B (sr) 2006-10-04 2008-08-07 Micronasnit, Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza
EP1919251B1 (en) 2006-10-30 2010-09-01 Mitel Networks Corporation Beamforming weights conditioning for efficient implementations of broadband beamformers
CN101193460B (zh) 2006-11-20 2011-09-28 松下电器产业株式会社 检测声音的装置及方法
CN100524465C (zh) * 2006-11-24 2009-08-05 北京中星微电子有限公司 一种噪声消除装置和方法
US7945442B2 (en) 2006-12-15 2011-05-17 Fortemedia, Inc. Internet communication device and method for controlling noise thereof
KR101365988B1 (ko) 2007-01-05 2014-02-21 삼성전자주식회사 지향성 스피커 시스템의 자동 셋-업 방법 및 장치
JP4799443B2 (ja) 2007-02-21 2011-10-26 株式会社東芝 受音装置及びその方法
US8005238B2 (en) * 2007-03-22 2011-08-23 Microsoft Corporation Robust adaptive beamforming with enhanced noise suppression
US20090010453A1 (en) 2007-07-02 2009-01-08 Motorola, Inc. Intelligent gradient noise reduction system
JP4854630B2 (ja) 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
US8391522B2 (en) 2007-10-16 2013-03-05 Phonak Ag Method and system for wireless hearing assistance
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8379891B2 (en) 2008-06-04 2013-02-19 Microsoft Corporation Loudspeaker array design
NO328622B1 (no) 2008-06-30 2010-04-06 Tandberg Telecom As Anordning og fremgangsmate for reduksjon av tastaturstoy i konferanseutstyr
JP5555987B2 (ja) 2008-07-11 2014-07-23 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
EP2146519B1 (en) 2008-07-16 2012-06-06 Nuance Communications, Inc. Beamforming pre-processing for speaker localization
JP5339501B2 (ja) * 2008-07-23 2013-11-13 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声収集方法、システム及びプログラム
JP5206234B2 (ja) 2008-08-27 2013-06-12 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
CN101685638B (zh) 2008-09-25 2011-12-21 华为技术有限公司 一种语音信号增强方法及装置
US8401178B2 (en) 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
US9159335B2 (en) 2008-10-10 2015-10-13 Samsung Electronics Co., Ltd. Apparatus and method for noise estimation, and noise reduction apparatus employing the same
US8724829B2 (en) 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US8218397B2 (en) * 2008-10-24 2012-07-10 Qualcomm Incorporated Audio source proximity estimation using sensor array for noise reduction
US8150063B2 (en) 2008-11-25 2012-04-03 Apple Inc. Stabilizing directional audio input from a moving microphone array
EP2197219B1 (en) 2008-12-12 2012-10-24 Nuance Communications, Inc. Method for determining a time delay for time delay compensation
US8401206B2 (en) 2009-01-15 2013-03-19 Microsoft Corporation Adaptive beamformer using a log domain optimization criterion
EP2222091B1 (en) 2009-02-23 2013-04-24 Nuance Communications, Inc. Method for determining a set of filter coefficients for an acoustic echo compensation means
US20100217590A1 (en) 2009-02-24 2010-08-26 Broadcom Corporation Speaker localization system and method
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
JP5197458B2 (ja) 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
EP2237271B1 (en) 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
US8249862B1 (en) 2009-04-15 2012-08-21 Mediatek Inc. Audio processing apparatuses
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US8174932B2 (en) 2009-06-11 2012-05-08 Hewlett-Packard Development Company, L.P. Multimodal object localization
FR2948484B1 (fr) 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
US8644517B2 (en) 2009-08-17 2014-02-04 Broadcom Corporation System and method for automatic disabling and enabling of an acoustic beamformer
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
CN101667426A (zh) 2009-09-23 2010-03-10 中兴通讯股份有限公司 一种消除环境噪声的装置及方法
EP2339574B1 (en) 2009-11-20 2013-03-13 Nxp B.V. Speech detector
TWI415117B (zh) 2009-12-25 2013-11-11 Univ Nat Chiao Tung 使用在麥克風陣列之消除殘響與減低噪音方法及其裝置
CN102111697B (zh) 2009-12-28 2015-03-25 歌尔声学股份有限公司 一种麦克风阵列降噪控制方法及装置
US8219394B2 (en) 2010-01-20 2012-07-10 Microsoft Corporation Adaptive ambient sound suppression and speech tracking
US8525868B2 (en) * 2011-01-13 2013-09-03 Qualcomm Incorporated Variable beamforming with a mobile platform
GB2491173A (en) 2011-05-26 2012-11-28 Skype Setting gain applied to an audio signal based on direction of arrival (DOA) information
US9226088B2 (en) 2011-06-11 2015-12-29 Clearone Communications, Inc. Methods and apparatuses for multiple configurations of beamforming microphone arrays
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040213419A1 (en) * 2003-04-25 2004-10-28 Microsoft Corporation Noise reduction systems and methods for voice applications
US20070003078A1 (en) * 2005-05-16 2007-01-04 Harman Becker Automotive Systems-Wavemakers, Inc. Adaptive gain control system

Also Published As

Publication number Publication date
EP2715725A2 (en) 2014-04-09
EP2715725B1 (en) 2019-04-24
CN103827966A (zh) 2014-05-28
GB201111474D0 (en) 2011-08-17
CN103827966B (zh) 2018-05-08
JP2014523003A (ja) 2014-09-08
GB2493327A (en) 2013-02-06
WO2013006700A3 (en) 2013-06-06
US9269367B2 (en) 2016-02-23
US20130013303A1 (en) 2013-01-10
KR101970370B1 (ko) 2019-04-18
WO2013006700A2 (en) 2013-01-10
GB2493327B (en) 2018-06-06

Similar Documents

Publication Publication Date Title
KR101970370B1 (ko) 오디오 신호의 처리 기법
US8842851B2 (en) Audio source localization system and method
US9591123B2 (en) Echo cancellation
US20120303363A1 (en) Processing Audio Signals
GB2495472B (en) Processing audio signals
US20120063610A1 (en) Signal enhancement using wireless streaming
CN108447496B (zh) 一种基于麦克风阵列的语音增强方法及装置
US8718562B2 (en) Processing audio signals
JP2014523003A5 (ko)
US9185506B1 (en) Comfort noise generation based on noise estimation
US8804981B2 (en) Processing audio signals
US9031836B2 (en) Method and apparatus for automatic communications system intelligibility testing and optimization
US9392365B1 (en) Psychoacoustic hearing and masking thresholds-based noise compensator system
WO2018129086A1 (en) Sound leveling in multi-channel sound capture system
JP2007151047A (ja) 音声スイッチ方法、音声スイッチ装置、音声スイッチプログラム及びそのプログラムを記録した記録媒体
US10701483B2 (en) Sound leveling in multi-channel sound capture system
JP2019537071A (ja) 分散したマイクロホンからの音声の処理
CN117079661A (zh) 一种声源处理方法及相关装置
JP2011182292A (ja) 収音装置、収音方法及び収音プログラム
Alisher et al. Control Approaches for Audio Signal Quality Improvement in the Developed Conference System Based on the Personal User Devices

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right