KR101149571B1

KR101149571B1 - 적응성 빔 형성기, 사이드로브 소거기, 핸즈프리 음성 통신 디바이스

Info

Publication number: KR101149571B1
Application number: KR1020067022147A
Authority: KR
Inventors: 바하아 에. 사르로우크; 코르넬리스 뻬. 얀세
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2004-04-28
Filing date: 2005-04-20
Publication date: 2012-05-29
Also published as: TW200615902A; CN1947171A; EP1743323A1; WO2005106841A1; EP1743323B1; JP2007535853A; US20070273585A1; KR20070004893A; CN1947171B; JP5313496B2; US7957542B2

Abstract

적응성 빔 형성기 유닛(191)은,

각 마이크(101, 103)의 배열로부터 입력 오디오 신호(u1, u2)를 처리하도록 배치되고, 입력 오디오 신호 중 제 1 신호(u1)를 제 1 적응성 필터{f1(-t)}로 필터링하고, 입력 오디오 신호 중 제 2 신호(u2)를 제 2 적응성 필터{f2(-t)}로 필터링함으로써, 원하는 오디오 소스(160)로부터의 소리에 주로 대응하는 제 1 오디오 신호를 출력으로서 만들어내도록 배치되는 필터링된 합 빔 형성기로서, 제 1 필터{f1(-t)}의 계수와 제 2 필터{f2(-t)}의 계수는 각각 제 1 스텝 크기(α1)와 제 2 스텝 크기(α2)로 적응 가능한, 필터링된 합 빔 형성기(107),

- 입력 오디오 신호(u1, u2)로부터 제 1 잡음 측정값(x1)과 제 2 잡음 측정값(x2)을 유도하도록 배치된 잡음 측정값 유도 수단(111) 및

- 분모에 각각 제 1 스텝 크기(α1)에 관한 제 1 잡음 측정값(x1)과 제 2 스텝 크기(α2)에 관한 제 2 잡음 측정값(x2)을 포함하는 수학식을 사용하여, 제 1 스텝 크기와 제 2 스텝 크기(α1, α2)를 결정하도록 배치된 갱신 유닛(192)을 포함한다. 이는 이러한 빔 형성기를 상관된 오디오 간섭의 영향에 대해 비교적 강력하게 만든다. 빔 형성기는 또한 더 많은 잡음이 제거된 원하는 소리 추정값을 만들어 내는 사이드로브 소거기 토폴로지에 통합될 수 있고, 이는 관련된 더 개선된 적응성 필터{f1(-t), f2(-t)} 갱신에 사용될 수 있다. 그러한 빔 형성기는 통상 핸즈프리 음성 통신 시스템에서의 애플리케이션에 있어 유용하다.

Description

적응성 빔 형성기, 사이드로브 소거기, 핸즈프리 음성 통신 디바이스{ADAPTIVE BEAMFORMER, SIDELOBE CANCELLER, HANDSFREE SPEECH COMMUNICATION DEVICE}

본 발명은 적응성 빔 형성기 유닛과 그러한 빔 형성기를 포함하는 사이드로브 소거기(sidelobe canceller)에 관한 것이다.

본 발명은 또한 핸즈프리 음성 통신 시스템, 휴대 가능한 음성 통신 디바이스, 목소리 제어 유닛과, 그러한 적응성 빔 형성기나 사이드로브 소거기를 포함하는 오디오 생성 물체를 추적하기 위한 추적 디바이스에 관한 것이다.

본 발명은 또한 그러한 목소리 제어 유닛을 포함하는 가전 장치에 관한 것이다.

본 발명은 또한 적응성 빔 형성 또는 사이드로브 소거의 방법과, 그러한 방법의 코드를 포함하는 컴퓨터 프로그램 제품에 관한 것이다.

첫 문단에서 언급된 바와 같은 사이드로브 소거기와 빔 형성기가 포함된 일 실시예는 C. Fancourt와 L. Parra에 의해 "2001년 오디오 및 음향에 대한 신호 처리의 적용에 관한 IEEE 워크샵의 회의록에 실린 일반화된 사이드로브 상관해제기(The generalized sidelobe decorrelator)"라는 제목의 발표문으로부터 알려져 있다. 빔 형성기와 사이드로브 소거기는 원하는 음원에 국한되도록, 즉 원하는 음원로부터 소리에 주로 대응하는 출력 오디오 신호를 만들어내면서, 소리가 잡음이라고 하는 다른 소스로부터 가능한 많이 회피하도록 설계된다. 사이드로브 소거기는, 빔 형성기 필터가 최적화될 수 있는 마이크의 배열로부터 신호를 처리하도록 배치된 적응 빔 형성기를 포함하여, 이들 필터가 원하는 음원으로부터 각 마이크로의 원하는 오디오의 경로의 반전을 나타낸다(즉, 원하는 오디오는, 예컨대 다양한 표면에서 반사되고 마지막으로 상이한 방향으로부터 특별한 마이크에 들어감으로써 수정된다). 필터링된 신호를 합쳐서, 빔 형성기는 방향에 민감한 패턴을 효과적으로 실현하고, 이러한 패턴은 원하는 음원의 방향으로 높은 민감도의 로브(lobe)를 가진다. 예컨대, 순수한 지연을 나타내는 필터에 관해서는, 빔 형성기가 메인 로브와 사이드 로브를 가진 sin(x)/x 패턴을 실현한다. 하지만 그러한 민감도 패턴이 가진 문제점은, 또한 다른 소스로부터의 소리가 선택될 수 있다는 점인데, 예컨대 잡음 소스는 사이드로브 중 하나의 방향으로 위치할 수 있다. 이러한 문제점을 해결하기 위해서는, 사이드로브 소거기가 또한 적응성 잡음 소거 스테이지를 포함한다. 마이크 측정값으로부터, 잡음 참조 신호들로부터 원하는 소리 성분을 차단함으로써, 잡음 참조 신호가 계산되는데, 이 경우에서는 사이드로브에서의 잡음이 결정된다. 적응성 필터에 의해, 이들 잡음 측정값으로부터 원하는 소리 쪽으로 향하는 로브 패턴에서 얼마나 많은 잡음 소스가 누설되는지가 추정된다. 마지막으로, 이러한 잡음은 메인 로브에서 선택된것으로부터 빼져서, 최종 오디오 신호로서 주로 원하는 소리만을 남긴다. 이러한 최적화된 사이드로브 소거기에 따라 지향성 패턴이 계산되면, 원하는 음원 쪽으로의 메인 로브를 포함하고, 잡음 소스의 방향에서 제로(zero)가 된다.

종래 기술의 사이드로브 소거기와 빔 형성기는 많은 문제점이 존재하여, 실제로는 이상적으로는 그래야 하는 것들을 그러한 사이드로브 소거기와 빔 형성기는 종종 그렇게 하지 않는다는 사실을 초래한다. 특히, 양호한 사이드로브 소거기나 빔 형성기는, 원하는 음원 및/또는 잡음 소스의 방향이 바뀌는 환경에 관해 설계하기가 특히 어렵고, 따라서 그러한 이유로 필터는 비교적 짧은 시간 간격 동안에 다시 적응되어야 할 수 있다. 하지만, 예컨대 방에서 이동하는 말하는 사람을 추적하려고 시도하는 원격회의 시스템이나, 또는 예컨대 핸즈프리 자동차 전화기 장비(kit)에서 발생되는 것과 같이 사람이 다양한 환경을 통해 이동하는 이동 전화기에 통합된 사이드로브 소거기에 말하는 사람이 있는 시스템에서 이러한 상황은 상당히 흔하다.

조기 공개되지 않은 유럽 특허 출원 03104334.2호는 2가지 종류의 문제점을 다루기 위한 빔 형성기/사이드로브 소거기 최적화 기술을 설명한다. 첫 번째 문제는, 예컨대 차내 애플리케이션에 있어서의 바람과 같은 상당한 양의 상관되지 않은 잡음(이론적으로는 무한대의 소스에 대응하는)이 존재하는 것이다. 이러한 애플리케이션에서 다루어진 두 번째 문제는, 빔 형성기의 메인 로브가 그것의 최적인 방향으로부터 원하는 음원과 간섭 음원 사이의 방향 쪽으로 이동하는 경우 일어나는, 잡음의 측정값으로 상당한 "음성 누설"이 도입되는 것을 방지하는 것이다. 간섭 음원은 또한 아래에서 상관된 잡음이라고 부르게 되는데, 이는 그것이 각 마이크에서의 관련된 신호 성분(예컨대, 서로에 관해 순수하게 지연된 버전)을 도입하기 때문이다.

상관되지 않은 잡음과 음성 누설을 처리하기 위해 자체적으로 설계된 03104334.2호의 빔 형성기/사이드로브 소거기는, 팬(fan)이나 지나가는 모터사이클과 같이 상관된 잡음, 즉 교란 음원이 존재시 올바르게 작용할 수 없다.

가까운 쪽에 있는 말하는 사람과 같이 원하는 음원으로부터의 소리와, 말하는 사람에 국한하거나 심지어 말하는 사람에 국한된 채로 유지되는 대신 상관된 잡음 소스로부터의 교란하는 소리 사이의 물리적인 차이가 반드시 존재하는 것은 아니므로, 시스템은 예컨대 잡음 소스가 시간 간격 동안에 원하는 음원보다 큰 진폭을 가지는 경우, 잡음 소스 쪽으로 발산할 수 있고, 이는 예컨대 가까이에 있는 말하는 사람이 다소 조용하게 말하고, 시끄러운 트럭이 지나갈 때 일어난다. 특히, 비록 최적인 필터의 양호한 추정치에 도달할 수 있을지라도, 다수의 처리 단계 후에 얻어진 깨끗해진 신호를 사용하여 그것의 필터를 적응시키는 사이드로브 소거기는, 쉽게 그것의 최적인 상태로부터 벗어나게 되고, 그 후에는 특히 큰 진폭 상관된 잡음이 존재시 그것의 최적인 상태로 시스템을 되돌리기가 어렵다.

본 발명의 제 1 목적은, 상관된 잡음, 즉 원치 않는 제 2 음원의 영향에 대해 상대적으로 튼튼한 적응성 빔 형성기 유닛을 제공하는 것이다.

이러한 제 1 목적은 본 발명에 따른 적응성 빔 형성기 유닛에서 실현되는데, 이러한 적응성 빔 형성기 유닛은

- 각 마이크의 배열로부터 입력 오디오 신호를 처리하도록 배치되고, 입력 오디오 신호 중 제 1 신호를 제 1 적응성 필터로 필터링하고, 입력 오디오 신호 중 제 2 신호를 제 2 적응성 필터로 필터링함으로써, 원하는 오디오 소스로부터의 소리에 주로 대응하는 제 1 오디오 신호를 출력으로서 만들어내도록 배치되는 필터링된 합 빔 형성기로서, 제 1 필터의 계수와 제 2 필터의 계수는 각각 제 1 스텝 크기와 제 2 스텝 크기로 적응 가능한, 필터링된 합 빔 형성기,

- 입력 오디오 신호로부터 제 1 잡음 측정값과 제 2 잡음 측정값을 유도하도록 배치된 잡음 측정값 유도 수단 및,

- 제 1 스텝 크기에 관한 제 1 잡음 측정값의 함수와, 제 2 스텝 크기에 관한 제 2 잡음 측정값의 함수에 반비례하는 제 1 스텝 크기와 제 2 스텝 크기를 결정하도록 배치된 갱신 유닛을 포함한다.

이러한 빔 형성기와 잡음 측정 수단은 03104334.2호에 알려져 있지만, 교란 음원으로부터의 상관된 잡음에 대한 강력함을 증가시키기 위해, 본 발명의 빔 형성기에 의해 새로운 갱신 전략이 사용된다.

잡음 유도 수단은 마이크 신호에 대한 일부 적응성 필터링을 적용하는 것이 바람직한데, 예컨대 전체적으로 선택된 신호로부터 특별한 필터 경로에서, 다시 말해 특별한 마이크에 의해, 선택된 원하는 오디오(예컨대 음성)의 추정치를 소거하는데 차단 매트릭스가 사용될 수 있어서, 잡음의 양호한 측정값을 만들어낸다.

각 필터에 관한 갱신 유닛 부분에 그것 자체의 잡음 측정값을 공급하고, 잡음의 양에 반비례하는 순간적인 갱신 스텝을 유도함으로써, 필터는 잡음에 크게 민감하지 않게 될 수 있다. 만약 현저하게 원하는 오디오가 존재한다면, 그러한 스텝 크기는 필터가 움직이는 원하는 소스를 따라갈 수 있도록, 최상으로 상대적으로 크게 설정된다. 상당한 양의 잡음이 존재한다면, 분모가 커지게 되어, 작은 갱신 스텝을 만들어 내고, 따라서 필터는 잡음의 유해한 영향에 거의 반응하지 않게 효과적으로 작용이 정지된다. 특히, 필터가 원하는 소스, 방 특성, 마이크 위치 등에 관해 최적화된다면, 작은 갱신 스텝으로도 최적화된 설정을 크게 유지하게 된다.

적응성 빔 형성 유닛의 바람직한 일 실시예에서, 잡음 측정값 유도 수단은 제 1 마이크에 의해 선택된 원하는 오디오 소스로부터 소리의 원하는 소리 측정값을 뺌으로써, 제 1 입력 오디오 신호로부터 제 1 잡음 측정값을 유도하고, 제 2 마이크에 의해 선택된 원하는 오디오 소스로부터 소리의 제 2의 원하는 소리 측정값을 뺌으로써, 제 2 입력 오디오 신호로부터 제 2 잡음 측정값을 유도하도록 배치된다.

이상적으로, 특별한 빔 형성기 필터에 대응하는 마이크에 의해 실제로 선택된 잡음은 적응 스텝 수학식에서 사용된다. 예컨대, 2개의 잡음 소스, 즉 팬(fan)과 모터 사이클이 존재한다면, 각 마이크는 2개의 소스로부터의 소리의 결합체인 총 잡음 신호를 선택하게 되어, 마이크 신호가 각 잡음 소스에 의해 도입된 하위 신호의 상관이 결정될 수 있도록 상관된다. 필터 갱신 수학식이 통상 원하는 오디오의 측정값과, 총 잡음 교란의 측정값의 내적(in-product)을 전형적으로 포함하므로, 후자의 경우는 특히 그것이 큰 경우에 그것들의 최적 설정으로부터 필터를 멀리 이동시킬 수 있는 것이다. 이상적으로는, 정확히 이러한 총 잡음이 상쇄되어야(countered) 한다.

이러한 적응성 빔 형성기 유닛 실시예의 특별한 실현예는,

과 같은 스텝 크기를 얻기 위해 하나의 수학식을 사용하고, 이 경우 m은 필터{f1(-t), f2(-t)}중 어느 것이 결과 스텝 크기(α_m)를 사용하여 적응되는지를 표시하는 인덱스이며, f는 주파수를, t는 시간 순간(instant), z는 제 1 오디오 신호, x_m은 첫 번째의 각각의 제 2 잡음 측정값, 즉 이 실시예에서는 대응하는 m번째 마이크에 의해 선택된 잡음의 측정값이고, 원하는 오디오는 잡음 측정값을 얻기 위해 마이크 입력 오디오 신호(u_m)로부터 빼지며, P..는 신호의 전력을 얻기 위한 수학식을 표시하고(. 그것의 첨자에 표시된 것처럼), β와 γ는 미리 결정된 상수이다. 당업자라면 대안적인 전력 측정값이 사용될 수 있음을 알고, 그 중 전형적인 것은 예컨대 신호를 자승한 것의 시간 간격에 대해 적분한 것이다.

하지만, 또 다른 실시예에서 제 1 잡음 측정값과 제 2 잡음 측정값은 입력 오디오 신호의 각 선형 조합으로부터 결정된다.

상관된 잡음의 좋지 않은 작용은, 예컨대 스텝 크기 수학식의 분모가 모든 잡음 소스의 합에 따라 달라지게 함으로써 상쇄될 수 있게 된다. 또는 원하는 오디오(통상 음성)-소거된 마이크 신호의 선형 조합이 적응성 잡음 추정기로부터 얻어질 수 있고, 이는 출력으로서 각 잡음 소스의 측정값을 각각 가진다(팬의 잡음에 관한 측정값과 모터사이클의 잡음에 관한 또 다른 측정값 등). 이후 이들 잡음 측정값은 분모에 사용될 수 있거나, 갱신 스텝 수학식의 분모에 이미 존재하는 잡음 측정값에 가산될 수 있다. 많은 경우, 이는 특별한 필터 채널에서의 총 잡음에 관한 측정값이 전술한 바와 같이 사용될 때보다 어느 정도 덜 강력한 갱신 작용을 제공한다.

적응성 빔 형성기는 또한 사이드로브 소거기 토폴로지에 포함될 수 있고, 이러한 토폴로지는

- 적응 가능한 필터를 가진 입력 오디오 신호로부터 유도된 제 1 잡음 측정값과 제 2 잡음 측정값을 필터링함으로써, 추정된 잡음 신호를 유도하도록 배치된 적응성 잡음 추정기,

- 잡음이 제거된 제 2 오디오 신호를 얻기 위해, 제 1 오디오 신호로부터 추정된 잡음 신호를 빼기 위한 감산기 및

- 제 1 및 제 2 스텝 크기를 결정하도록 배치된 대안적인 갱신 유닛으로서, 함수는 제 2 오디오 신호의 진폭 측정값과, 분모에 각각 제 1 스텝 크기에 관한 제 1 잡음 측정값과 제 2 스텝 크기에 관한 제 2 잡음 측정값을 포함하는 대안적인 갱신 유닛을 더 포함한다.

사이드로브 소거기는 더 깨끗한 원하는 오디오 신호 - 제 2 오디오 신호 - 와 또한 잡음에 관한 더 깨끗한 측정값(즉, 그것에 여전히 남아있는 원하는 오디오 신호로부터의 가능한 나머지가 거의 없는, 실제로 선택된 잡음에만 크게 대응하는 신호)의 유도를 허용한다. 이러한 토폴로지를 사용하여 전술한 빔 형성기 유닛보다 훨씬 양호한 최적화가 이루어지지만, 통상 최적화된 빔 형성기 필터뿐만 아니라, 음성 차단 매트릭스의 필터와 잡음 추정기 또한 갖는 사이드로브 소거기는 잡음에 훨씬 더 민감하여, 현재의 새로운 갱신 방식을 중요하게 만든다. 당업자라면 어떻게 차단 매트릭스와 잡음 추정기 필터를 최적화하는지를 알 수 있고, 이들은 조기 공개되지 않은 유럽 출원 번호 03104334.2로부터의 빔 형성기의 필터에 관련된다.

사이드로브 소거기의 예시적인 실시예는

와 같은 스텝 크기를 얻기 위한 수학식을 사용함으로써, 제 2 오디오 신호에 기초하여 갱신을 실현하고, 여기서 m은 필터{f1(-t), f2(-t)}중 어느 것이 결과 스텝 크기(α_m)를 사용하여 적응되는지를 표시하는 인덱스이며, f는 주파수를, t는 시간 순간, r은 제 2 오디오 신호, v_m은 대응하는 m번째 마이크에 의해 선택된 잡음의 측정값이고, 원하는 오디오의 측정값으로서 잡음이 제거된 제 2 오디오 신호(r)는 빼지며, P는 신호의 전력을 얻기 위한 수학식을 표시하고, β와 γ는 미리 결정된 상수이다.

이는 다시 각각의 분리된 필터링 채널에 관한 잡음 측정값(v_m){잡음 측정값은 빔 형성기 유닛 갱신의 측정값(x_m)에 대한 이러한 사이드로브 소거기 갱신 토폴로지에 일대일로 대응하는}을 사용하는 최선의 수학식이다.

적응성 빔 형성기 또는 사이드로브 소거기의 실시예는, 빔 형성기의 제 1 필터와 제 2 필터 모두의 스텝 크기를 스케일링하기 위한 단일 스케일 인자를 결정하도록 배치된 스케일링 인자 결정 유닛을 포함하고, 이러한 스케일 인자는 음성 누출 및/또는 상관되지 않은 잡음량에 기초하여 결정된다.

현재 상관된 잡음에 강한 갱신 방식과, 다른 종류의 이상적이지 않은 것에 강한 방식, 즉 03104334.2호에 개시된 방식을 조합하는 것이 유리하다. 빔 형성기/사이드로브 소거기가 최적인 것에 가깝다면, 본 발명의 적응 스텝 크기 결정 방식이 올바른 스텝 크기를 결정한다. 하지만 필터가 최적인 것으로부터 약간 벗어나면(또는 적어도 최적인 것으로부터 벗어나는 경향이 있다면), 본 발명의 방식은 잘 작동하지 않지만, 03104334.2호의 스텝 크기 결정은 그것들의 최적인 설정으로 필터를 되돌리는데 사용될 수 있다.

음성에 기초한 말하는 사람의 공간에서의 위치를 결정하기 위해 배치된 오디오 기반의 말하는 사람 추적기 및/또는 포착된 이미지에 기초한 말하는 사람의 공간에서의 위치를 결정하기 위해 배치된 비디오 기반의 말하는 사람 추적기로부터 위치 데이터를 수신하기 위해 적응성 빔 형성기나 사이드로브 소거기를 배치하는 것이 또한 유리하고, 이 경우 제 1 필터와 제 2 필터 계수는 오디오 기반의 말하는 사람 추적기 및/또는 비디오 기반의 말하는 사람 추적기에 의해 결정된 위치에 기초하여 결정된다.

많은 강력한 음원이 존재한다면, 2가지 전술한 갱신 방식을 조합할 때도, 최적인 것으로 향하는 필터 커버리지를 갖는 것이 어려울 수 있다. 이러한 시스템은 다른 수단의 도움을 받을 수 있는데, 예컨대 비디오 기반의 말하는 사람 추적기가 포착된 이미지에서의 말하는 사람에 대응하는 얼굴을 검출하기 위해 이미지 처리 소프트웨어를 이용할 수 있고, 이 경우 필터 계수는 메인 로브가 말하는 사람의 얼굴 공간에서의 위치 쪽으로 적어도 약간 더 향하게 되도록, 다시 초기화된다.

적응성 빔 형성기와 사이드로브 소거기는 통상, 예컨대 테이블 위에 놓일 원격 화상 회의용 포드(pod) 또는, 자동차 장비(kit)(자동차에 장착된 마이크)를 포함하는 모든 종류의(예컨대, 통상 핸즈프리) 음성 통신 시스템에서 적용될 수 있다. 빔 형성기 유닛이나 사이드로브 소거기 또한, 이동 전화기, PDA, 방향지시 장치 또는 유사한 통신 능력을 갖춘 다른 디바이스와 같은 휴대용 음성 통신 디바이스에 포함될 수 있다. 적응성 빔 형성기/사이드로브 소거기는 또한 장치의 음성 식별 능력을 개선하기 위해, 텔레비전을 위한 원격 제어 또는 pc 상의 음성-텍스트 시스템과 같은 목소리로 제어된 장치에서 유리하며, 잡음이 중요한 문제가 된다. 다른 디바이스는 모든 종류의 가전 디바이스, 엘리베이터 또는 지능형 주택의 부분들, 목소리 인식에 의존하는 시스템과 같은 보안 시스템, 소비자 대화형(consumer interaction) 단말기 등이 될 수 있다.

시스템은 또한 보안 애플리케이션이나 몇 가지 이유로 사용자 행동을 감시하는 애플리케이션에서 통상 사용된 추적 디바이스에서 사용될 수 있다. 일예로는 특색있는 잡음에 기초한 강도에 대해 확대하는(zoom in) 카메라를 들 수 있다.

적응성 빔 형성기의 대응하는 방법 또한 개시되는데, 방법은

a) 제 1 적응성 필터{f1(-t)}를 구비한 제 1 마이크로부터의 제 1 입력 오디오 신호와, 제 2 적응성 필터{f2(-t)}를 구비한 제 2 마이크로부터의 제 2 입력 오디오 신호를 필터링하고, 원하는 오디오 소스로부터의 소리에 주로 대응하는 제 1 오디오 신호를 만들어 내기 위해, 필터링된 입력 오디오 신호를 더하는 단계,

b) 입력 오디오 신호로부터 제 1 잡음 측정값과 제 2 잡음 측정값을 유도하는 단계,

c) 각각 제 1 필터 스텝 크기(α1)와 제 2 스텝 크기(α2)를 구비한 제 1 필터{f1(-t)}와 제 2 필터{f2(-t)}의 계수를 적응시키는 단계로서, 이러한 스텝 크기는 각각 제 1 스텝 크기(α1)에 관해서는 제 1 잡음 측정값(x1)의 함수, 및 제 2 스텝 크기에 관해서는 제 2 잡음 측정값(x2)의 함수에 반비례하는 적응시키는 단계를 포함한다.

본 발명에 따른 빔 형성기와 사이드로브 소거기의 이들 및 다른 양상은, 이후 설명된 구현예와 실시예 및 첨부 도면을 참조하여 분명해지고 상세히 설명되며, 이러한 참조 도면은 단지 더 일반적인 개념을 예증하는 비제한적인 특정한 실례의 역할을 한다.

도 1은 제 1 오디오 신호에 기초한 비율식에 대응하는 사이드로브 소거기의 일 실시예를 개략적으로 도시하는 도면.

도 2는 제 2 오디오 신호에 기초한 비율식에 대응하는 사이드로브 소거기의 일 실시예를 개략적으로 도시하는 도면.

도 3은 비디오 회의 애플리케이션을 개략적으로 도시하는 도면.

도 1에서, 원하는 음원(160)으로부터의 소리와, 또한 가능하게는 하나 이상의 원하지 않는 잡음 소스(161)로부터의 소리{잡음은 전자 열 잡음과 같은 확률 신호로만 해석되어서는 안 되고, 임의의 원하지 않는/간섭 오디오 신호로 해석되어야 함}가, 적어도 2개의 마이크(101, 103)의 배열로 전해진다. 이들 마이크에 의해 출력된 신호(u1, u2)는 빔 형성기(107)의 제 1 세트의 각 필터{f1(-t), f2(-t)}에 의해 필터링되고, 그것들의 계수 - 통상 주파수 대역마다 한 계수 - 는, 예컨대 이동하는 원하는 음원(160)의 방에서의 변경 상황에 적응 가능하다. 각 필터에 의해 출력된 결과 신호는 가산기(110)에 의해 합해져, 제 1 오디오 신호(z)를 만들어 낸다. 이상적으로, 필터는 특별한 마이크 쪽으로의 원하는 소리의 반전 경로를 나타내고, 따라서 제 1 필터{f1(-t)}에 의해 제 1 마이크 신호(u1)를 필터링함으로써, 이상적으로 정확하게 원하는 소리가 얻어진다. 따라서 필터가 잘 적응되면, 제 1 오디오 신호(z)는 원하는 소리에 대한 양호한 근사치가 된다. 하지만, 마이크가 잡음도 선택하기 때문에, 불가피하게 제 1 오디오 신호(z) 또한 잡음을 포함한다. 마이크 신호(u1, u2)는 또한 잡음 측정값(x1, x2)을 만들어 내기 위해 사용된다. 오직 잡음만을 나타내는 신호(원하는 오디오 신호에 직교한다고 수학적으로 말하는)를 얻기 위해서는, 원하는 신호가 각 감산기(115, 121)에 의해 마이크 신호(u1, u2)로부터 빼진다. 마이크에 의해 선택된 것과 같은 원하는 소리의 추정값을 얻기 위해서는, 소위 차단 매트릭스(111)가 제 1 오디오 신호(z)에 대해 소리가 이동하는 경로 필터를 이 매트릭스(111)에 다시 적용한다. 따라서 빔 형성기(107)의 필터와 차단 매트릭스는 실질적으로 시간 반전으로부터 동일하게 떨어져 있게 된다. 적응성 잡음 추정기(150)는 각 마이크로부터 얻어진 것과 같은 잡음 측정값(x, x2,...)에 기초하여, 원하는 소스 쪽으로 향하는 빔 형성기의 메인 로브에서 또는, 그러한 패턴의 사이드로브와 같은 원하는 소리 쪽으로 향하는 로브 패턴의 또 다른 부분에서 얼마나 많은 잡음이 선택되는지, 따라서 제 1 오디오 신호(z)에서의 잡음이 무슨 영향을 미치는지를 추정한다. 잡음 추정기(150)는 빔 형성기 필터{f1(-t), f2(-t)}에 재차 관련되는 적응 가능한 필터{(g1)(153)}를 적용해야 한다. 잡음 측정값(x1, x2) 중 하나에 대한 수학적인 의존성{제 1 오디오 신호(z)인 원하는 오디오 신호와 2개의 잡음 측정값(x1, x2)을 가져오는 오직 2개의 마이크 측정값이 존재한다} 때문에, 제 2 필터{(g1)(153)}를 적용하기 전에, 03104334.2호에 개시된 것처럼 크기 감소가 적용될 수 있다.

마지막으로, 제 1 오디오 신호(z)로부터 추정된 잡음 신호를 빼기 위한 감산기(142)가 포함되고, 이러한 감산기(142)는 잡음 추정기(150)와 함께 잡음 소거기를 구성하여 비교적 잡음이 없는 제 2 오디오 신호(r)를 만들어 낸다. 바람직하게, 지연 요소(141)는 잡음 신호(y)의 것에 대응하는 올바른 시간 샘플(또는 아날로그 등가물)을 나타내기 위해 존재한다.

전술한 시스템은 종래 기술로부터 알려진 바와 같은 사이드로브 소거기이다.

빔 형성기 필터(그리고 바람직하게는 모든 관련 필터들, 즉 차단 매트릭스 필터와 잡음 추정 필터)는 갱신 유닛(117, 123)에 의해 그것들의 순간적인 최적 상태 쪽으로 갱신된다.

종래 기술의 빔 형성기에 있어서의 통상적인 갱신 규칙은, 제 1 오디오 신호(z)와 입력으로서의 각 잡음 측정값을 선택하고, 특별한 주파수 범위나 주파수(f) 부근의 대역에 관한 새로운 필터 계수를 평가한다.

이 수학식에서 F는 분리된 시간인 t와 t+1에서의 특별한 주파수 범위에 관한 특별한 필터 계수이고, α는 상수이며, P_zz[f, t]는 제 1 오디오 신호의 전력 측정값이고, x는 각각의 잡음 측정값{예컨대, 제 1 필터인 f1(-t)에 대응하는 x1은 제 1 마이크(101)에 의해 선택된 잡음의 측정값이고, 제 1 빔 형성기 채널에서 추가로 다루어지며, 통상 제 1 마이크(101)에 의해 실제로 선택된 제 1 입력 오디오 신호로부터 원하는 오디오 신호 - 또한 제 1 마이크에 의해 선택되는 - 의 추정값을 뺌으로써 얻어지는}이며, *는 공액 복소수를 표시한다. 따라서 잡음이 원래 그래야 하는 것처럼 원하는 제 1 오디오 신호(z)에 거의 직교하게 되면, 사이드로브 소거기가 최적화되고, 필터 계수는 거의 갱신되지 않으며, 일시적으로 잡음이 없는 경우에 동일하게 적용한다. 그 결과 갱신 유닛에 의해 얻어진 새로운 계수는, 빔 형성기 필터{f1(-t), f2(-t)}와 같은 각 필터에 복사된다.

필터{(g1)(153)}를 갱신하기 위한 종래 기술의 잡음 소거기 갱신 유닛(159)에서의 통상적인 갱신 규칙은 다음과 같다.

여기서 r은 제 2 오디오 신호이고, p_yy[f, t]는 잡음 신호(y)의 전력의 측정 값이다.

본 발명에 따르면, 최적의 스텝 크기는 빔 형성기 필터의 각각의 갱신 수학식인 [수학식 1]에 관한 고정된 스텝 크기(α)를 사용하는 대신, 특별한 채널에서 선택된 상관 잡음의 양에 따라 다르게 결정된다. 필터가 최적화될 때 빔 형성기의 특별한 m번째 필터에 관한 성능 측정값이

과 같이 주어질 수 있다는 것이 이론적으로 유도될 수 있고, 여기서 α는 갱신 스텝 크기이며, γ는 예컨대 마이크의 개수와 거의 같은 상수이다. 스텝 크기의 감소는 성능의 향상을 초래하는데 반해, 선택된 잡음의 전력이 증가하면 성능은 감소한다.

또한, 갱신 수학식 1은 다음 기여도(contribution), 즉

로 이루어지는 것으로 개념상으로/대략적으로 해석될 수 있다

최적화된 상황 하에서, 처음 선택된 상관 잡음 항(n_c)은 원하는 오디오(λs){여기서 λ는 비례상수인데, 이는 원하는 오디오 측정값(z)이 정확하지 않고, 여전히 다른 인자를 포함하기 때문이다}에 비해 무시할 수 있다고 가정할 수 있다. μ는 잡음 측정값에서의 음성 누설을 나타내는 또 다른 상수이다. 최적의 상황 하에서 음성 누설 또한 무시할 수 있다고 가정되는데, 이는 차단 매트릭스 필터가 최적인 상태이기 때문이다. 따라서 근사 분석을 수행함으로써, 필터가 상관된 잡음의 양을 사용하여 선형으로 분기하는 경향을 가진다는 것을 알게 된다.

제안된 해결책은, 스텝 크기(α)를 특히 전력 측정값에서 상관된 잡음의 진폭 측정값으로 나누는 것이다. 이러한 후자의 경우, 두 번째 전력은 분자에서의 선형 상관된 잡음항에 비해 우세한데, 즉 잡음의 진폭이 더 클수록 갱신은 덜 민감하게 된다. 하지만 정확한 상관된 잡음은 알려져 있지 않고, 따라서 그것의 측정값 또는 상관값이 사용될 필요가 있다. 각 입력 오디오 신호(u_i) 각각으로부터 제 1 오디오 신호(z)와 같은 원하는 오디오의 측정값을 빼서 얻어진, 잡음 추정기(150) 앞에 있는 잡음 측정값(x_i)은 양호한 측정값이다.

바람직하게, 강력한 갱신 스텝은

과 같이 결정되고,

이 경우 m은 필터{f1(-t), f2(-t)}중 어느 것이 결과 스텝 크기(α_m)를 사용하여 적응되는지를 표시하는 인덱스이며, f는 주파수를, t는 시간 순간, z는 제 1 오디오 신호, x_m은 대응하는 m번째 마이크에 의해 선택된 잡음의 측정값이고, 원하는 오디오는 마이크 입력 오디오 신호(u_m)로부터 빼지며, P는 신호의 전력을 얻기 위한 수학식을 표시하고, β와 γ는 미리 결정된 상수이다.

필터가 최적인 것에 가까울 때, 강한 간섭 잡음 소스가 존재하더라도, 전술한 갱신 규칙을 구비한 빔 형성기는 잘 작동한다. 하지만 이러한 시스템은 최적인 상태 쪽으로 수렴하는 것을 돕는 성분을 추가함으로써 개선될 수 있다. 그러므로 빔 형성기는 카메라(272)에 의해 포착된 이미지로부터 원하는 음원의 위치를 결정하도록 배치되는 비디오 기반의 말하는 사람 추적기(274)와 협력할 수 있다. 원하는 오디오가 음성인 경우, 이미지 처리의 종래 기술로부터 알려진 바와 같은 얼굴 검출(예컨대, 피부-색조 검출, 눈 검출, 얼굴 형상 확인 등)이 1명 이상의 말하는 사람을 식별하기 위해 이용될 수 있다. 입술 추적{예컨대, 스네이크(snake)를 사용하는 수학적인 곡선 추적 기술}이 또한 사람이 실제로 말하고 있는지 또는 예컨대 라디오로부터의 음성이 검출되는지를 체크하기 위해 사용될 수 있다.

이미지 처리로부터 개략적인 또는 더 정확한 위치 추정값이 얻어지고, 이러한 내용이 빔 형성기에 송신된다. 빔 형성기는 위치 추정값에 기초한 그것의 계수를 다시 결정하는데, 즉 다수의 위치에 관한 더 많은 최적의 시작 계수에 관한 룩업 테이블을 포함할 수 있다. 방에 대한 이전의 지식이 사용될 수 있다. 개략적인 위치 선정 알고리즘은, 이미지의 중간 어느 쪽에서 말하는 사람이 있는지를 간단히 결정하고, 이후 빔 형성기의 메인 로브를 오른쪽을 향해 각각 왼쪽 면에서 다시 초기화한다. 말하는 사람의 위치를 예컨대 2개의 카메라가 사용되는 3차원으로 더 정확하게 결정하기 위해, 더 복잡한 이미지 분석이 사용될 수 있다. 얼굴 모델을 맵핑함으로써, 말하는 사람 머리의 방향이 또한 결정될 수 있다(눈과 같은 중요한 포인트의 기하학적 형상에 기초한 간단한 알고리즘이 존재한다). 마지막으로, 방에 대한 지식이 존재한다면, 필터는 그러한 특별한 방에 머리가 관련된 전달 함수의 더 정확한 계수를 사용하여 다시 결정될 수 있다.

추가적으로 또는 대안적으로, 오디오 기반의 말하는 사람 추적기(270)가 본 발명에 따른 빔 형성기를 포함하는 장치에 연결되거나 포함될 수 있다. 이 추적기(270)는, WO 00/28740호에 있는 것처럼 주위에 존재하는 오디오 소스에 대응하는 방향 후보를 결정하기 위해, 예컨대 선택된 입력 오디오 신호(u1, u2,...)의 상관 분석을 사용할 수 있다. 개선된 버전은 음성 분석{예컨대, 여자 음성의 포먼트(formant)는 남자 음성의 포먼트와는 상이한 주파수를 가진다}에 기초하여 말하는 사람이 누군지를 또한 결정할 수 있고, 메인 로브의 위치를 식별된 특별한 말하는 사람에 대응하는 방향으로 다시 옮길 수 있다.

통상, 이러한 방향 고정은 오직 "처음에" 이루어지고, 이후 빔 형성기/사이드로브 소거기는 전술한 적응성 알고리즘을 사용하여 자체적인 미세 조정(fine-tune)에 남겨 진다. 하지만 미세 조정된 방향이 미리 결정된 정확도 입체각 외부로 이동하게 되면, 본 발명의 추적기가 필터를 다시 초기화한다.

두 추정값 모두 미리 결정된 조합 알고리즘을 사용하여 조합될 수 있다.

도 2는 제 2 오디오 신호(r)의 함수로서 빔 형성/차단 필터{이 예에서는 3개의 필터(f1(-t), f2(-t), f3(-t), f1, f2, f3)의 갱신을 수행하도록 배치되는 사이드로브 소거기(200) 토폴로지를 도시한다. 그러므로 제 2 빔 형성기 갱신 유닛(219, 215, 211)은 전술한 바와 같은 종래 기술의 사이드로브 소거기 부분 위에 개략적으로 도시되어 있다. 제 2 빔 형성기 갱신 유닛(219, 215, 211)은, 예컨대 제 1 차단 필터(f1)를 사용하여 제 2 오디오 신호(r)의 필터링된 버전을 제 1 마이크 신호(u1)로부터 빼는 감산기(227) 등과 같은 각각의 감산기로 구성되는 제 2 잡음 측정값(v1, v2, v3)의 유사하게 구성된 세트를 제 2 입력으로서 가진다.

수학식 1과 유사하게 기본 갱신 공식은

와 같이 지적으로 선택될 수 있다는 것이 수학적으로 증명될 수 있으며, 여기서 r은 제 2 오디오 신호이며, v는 갱신될 특별한 빔 형성기 필터에 대응하는 제 2 잡음 측정값(v1, v2, v3) 중 하나이고, P_rr[f]는 제 2 오디오 신호(r)의 전력 측정값이다.

상관된 잡음에 강한 갱신 스텝 수학식은 이러한 제 2 갱신 토폴로지에 관한 수학식 5와 유사하게 유도될 수 있다. 즉

이 경우, 제 2 오디오 신호(r)가 사용되고(이는 훨씬 더 잡음이 제거된, 즉 실제 음성의 훨씬 나아진 추정값이다), 본 발명에 따른 스텝 크기 수학식의 분모에서의 대응하는 잡음 측정값(v_m)도 역시 사용된다. 이렇게 작용하는 이유는, 이러한 토폴로지에 관해 근사 수학식 4의 타원들(λs만큼만 남기는) 사이의 제 1 항에서 n_c 항을 버림으로써 알 수 있다.

사이드로브 소거기는 또한 예컨대 03104334.2호에 개시된 것{비록, 도시되지는 않았지만, 비슷하게 자체적인 빔 형성기의 필터 또한 03104334.2로부터 배울 수 있는 것처럼 그러한 스케일링 인자 결정 유닛(250)에 의해 조정될 수 있다}과 같이 스케일링 인자 결정 유닛(250)과 협력할 수 있다. 이러한 스케일링 인자 결정 유닛(250)은 빔 형성기의 모든 필터(그리고, 적용 가능하다면 차단 매트릭스와 잡음 추정기에 관해서도)에 관해 하나의 스케일 인자를 유도한다. 많은 상관되지 않은 잡음이나 음성 누설이 존재시, 빔 형성기나 사이드로브 소거기가 수렴하는 것이 어려우므로, 스텝 크기는 이들의 발생에 관해서는 작게 설정되고, 심지어 모든 필터가 최적인 것에 가까운 때도 그러하다. 이들 2개의 갱신 전략은 함께 훨씬 더 강력한 시스템을 만든다.

도 3에서는, 예컨대 주택이나 전문적인 용도로의 비디오 회의 애플리케이션이 도시된다. 이 경우 핸즈프리 음성 통신 디바이스(301)는 포드(pod)이고, 이러한 포드는 전화 기능과, 예컨대 소리를 선택하기 위한 2개의 마이크(303, 305)(예컨대, 4개의 마이크로폰이 테이블 둘레의 4명의 말하는 사람을 위해 교차하는 토폴로지로 구성될 수 있다)를 구비한다. 가까이에 있는 말하는 사람(160)은 멀리 있는 말하는 사람(360)과 통신한다. 이상적으로 말하는 사람(160)은 잡음 소스가 존재하는 경우에도, 그를 계속해서 자동으로 추적하는 빔 형성기/사이드로브 소거기를 사 용하여 자유롭게 걸어다니기를 원한다. 말하는 사람은 또한, 예컨대 PC와 TV와 같은 가전 장치(350), 중앙 난방 등과 같은 홈 어플라이언스(home appliance)의 행동을 제어하기 위해, 목소리 제어 유닛에서 빔 형성기/사이드로브 소거기를 사용할 수 있고, 이러한 장치는 이후 통상 복수의 마이크와 본 발명을 포함하게 된다. 더 저렴한 디바이스는 목소리 제어 유닛을 포함하는 홈 중앙 컴퓨터로부터 그들의 명령을 선택할 수 있다.

사용자(160)는 또한 빔 형성 유닛이나 사이드로브 소거기를 통합하는 마이크(371, 372)를 구비한 휴대용 음성 통신 디바이스(370)를 가진다. 앞으로는, 회의 시스템이 통합된 시스템 솔루션으로부터, 각 참여자가 자신의 옷에 부착되거나 사진의 목에 거는 것과 같은 개인용 모바일 디바이스를 가지는 무선 시스템 쪽으로 옮겨갈 수 있다.

개시된 알고리즘 성분은, 실제로 하드웨어(예컨대, 애플리케이션 특정 IC의 부분)나, 특별한 디지털 신호 프로세서와 일반적인 프로세서 등에서 실행되는 소프트웨어로서 (전체적으로 또는 부분적으로) 실현될 수 있다.

컴퓨터 프로그램 제품을 사용하여, 프로세서 내로 명령을 선택하기 위한 일련의 로딩 단계 후, - 일반적이거나 특별한 목적의 - 프로세서가 본 발명의 임의의 특징적인 기능을 실행하게 하는 명령 집합의 임의의 물리적인 실현되는 것을 이해해야 한다. 특히, 이러한 컴퓨터 프로그램 제품은 디스크나 테이프와 같은 운반체 상의 데이터, 메모리에 존재하는 데이터, - 유선 또는 무선인 - 네트워크 연결을 통해 이동하는 데이터, 또는 종이 위의 프로그램 코드로서 실현될 수 있다. 프로그 램 코드와는 별개로, 그러한 프로그램에 관해 요구된 특징적인 데이터는 컴퓨터 프로그램 제품으로서 구현될 수도 있다.

전술한 실시예는 본 발명을 제한하기보다는 예시하기 위한 것임을 주목해야 한다. 청구항에서 조합된 바와 같은 본 발명의 요소들의 조합과는 별개로, 이러한 요소들의 다른 조합도 가능하다. 요소들의 임의의 조합은 단일 전용 요소로 실현될 수 있다.

청구항에서, 괄호들 사이에 놓인 임의의 참조 기호는 그 청구항을 제한하기 위한 것으로 의도되지 않는다. "포함하는"이라는 단어는 청구항에 나열되지 않은 요소나 양상의 존재를 배제하지 않는다. 요소 앞의 단수 표현은 복수의 그러한 요소의 존재를 배제하지 않는다.

전술한 바와 같이, 본 발명은 적응성 빔 형성기 유닛과 그러한 빔 형성기를 포함하는 사이드로브 소거기 및 핸즈프리 음성 통신 시스템, 휴대 가능한 음성 통신 디바이스, 즉 목소리 제어 유닛과, 그러한 적응성 빔 형성기나 사이드로브 소거기를 포함하는 오디오 생성 물체를 추적하기 위한 추적 디바이스에 이용 가능하다.

Claims

적응성 빔 형성기 유닛(191)으로서,

- 각 마이크(101, 103)의 배열로부터 입력 오디오 신호(u1, u2)를 처리하도록 배치되고, 입력 오디오 신호 중 제 1 신호(u1)를 제 1 적응성 필터{f1(-t)}로 필터링하고, 입력 오디오 신호 중 제 2 신호(u2)를 제 2 적응성 필터{f2(-t)}로 필터링함으로써, 원하는 오디오 소스(160)로부터의 소리에 대응하는 제 1 오디오 신호(z)를 출력으로서 생성하도록 배치되는, 필터링된 합 빔 형성기(107)로서, 제 1 필터{f1(-t)}의 계수와 제 2 필터{f2(-t)}의 계수는 각각 제 1 스텝 크기(α1)와 제 2 스텝 크기(α2)로 적응 가능한, 필터링된 합 빔 형성기(107),

- 입력 오디오 신호(u1, u2)로부터 제 1 잡음 측정값(x1)과 제 2 잡음 측정값(x2)을 유도하도록 배치된 잡음 측정값 유도 수단(111) 및,

- 제 1 스텝 크기(α1)에 관한 제 1 잡음 측정값(x1)의 함수와, 제 2 스텝 크기(α2)에 관한 제 2 잡음 측정값(x2)의 함수에 반비례하는 제 1 스텝 크기와 제 2 스텝 크기(α1, α2)를 결정하도록 배치된 갱신 유닛(192)을

포함하는, 적응성 빔 형성기 유닛.
제 1항에 있어서, 상기 잡음 측정값 유도 수단(111)은 제 1 마이크(101)에 의해 선택될 때 원하는 오디오 소스로부터 소리의 원하는 소리 측정값(m1)을 뺌으로써, 제 1 입력 오디오 신호(u1)로부터 제 1 잡음 측정값(x1)을 유도하고, 제 2 마이크(103)에 의해 선택될 때 원하는 오디오 소스로부터 소리의 제 2의 원하는 소리 측정값(m2)을 뺌으로써, 제 2 입력 오디오 신호(u2)로부터 제 2 잡음 측정값(x2)을 유도하도록 배치되는, 적응성 빔 형성기 유닛.
제 2항에 있어서, 제 1 및 제 2 스텝 크기(각각 α1, α2)를 얻기 위한 함수는

와 같고,

여기서 m은 필터{f1(-t), f2(-t)}중 어느 것이 결과 스텝 크기(α_m)를 사용하여 적응되는지를 표시하는 인덱스이며, f는 주파수를, t는 시간 순간(instant), z는 제 1 오디오 신호, x_m은 첫 번째의 각각의 제 2 잡음 측정값, P_ss는 그것의 첨자(s)로 식별된 신호의 전력을 얻기 위한 함수를 표시하고, β와 γ는 미리 결정된 상수인, 적응성 빔 형성기 유닛.
제 1항에 있어서, 제 1 잡음 측정값(x1)과 제 2 잡음 측정값(x2)은, 입력 오디오 신호(u1, u2)의 각각의 선형 조합으로부터 결정되는, 적응성 빔 형성기 유닛.
사이드로브 소거기(200)로서,

- 제 1항에 따른 필터링된 합 빔 형성기(107),

- 적응 가능한 필터(g1, g2)로 입력 오디오 신호(u1, u2)로부터 유도된 제 1 잡음 측정값과 제 2 잡음 측정값(x1, x2)을 필터링함으로써, 추정된 잡음 신호(y)를 유도하도록 배치된 적응성 잡음 추정기(150),

- 잡음이 제거된 제 2 오디오 신호(r)를 얻기 위해, 제 1 오디오 신호(z)로부터 추정된 잡음 신호(y)를 빼기 위한 감산기(142) 및

- 제 1 및 제 2 스텝 크기(α1, α2)를 결정하도록 배치된 대안적인 갱신 유닛(292)으로서, 함수는 제 2 오디오 신호(r)의 진폭 측정값과 분모에 각각 제 1 스텝 크기(α1)에 관한 제 1 잡음 측정값(x1)과 제 2 스텝 크기(α2)에 관한 제 2 잡음 측정값(x2)을 포함하는 대안적인 갱신 유닛(292)을

포함하는, 사이드로브 소거기.
제 5항에 있어서, 스텝 크기를 얻기 위한 함수는

여기서, m은 필터{f1(-t), f2(-t)}중 어느 것이 결과 스텝 크기(α_m)를 사용하여 적응되는지를 표시하는 인덱스이며, f는 주파수를, t는 시간 순간, r은 제 2 오디오 신호, v_m은 대응하는 m번째 마이크에 의해 발생된 잡음의 측정값이고, 원하는 오디오 소스로부터의 소리의 측정값으로서의 잡음이 제거된 제 2 오디오 신호(r)는 잡음 측정값(v_m)을 얻기 위해 각각의 입력 신호(u1, u2)로부터 빼지며, P는 신호의 전력을 얻기 위한 함수를 표시하고, β와 γ는 미리 결정된 상수인, 사이드로브 소거기.
제 1항에 있어서, 빔 형성기(107)의 제 1 필터{f1(-t)}와 제 2 필터{f2(-t)} 모두의 스텝 크기(각각, α1, α2)를 스케일링하기 위한 단일 스케일 인자(S)를 결정하도록 배치된 스케일링 인자 결정 유닛(250)을 포함하고, 상기 스케일 인자(S)는 음성 누출 및 상관되지 않은 잡음 중 적어도 하나의 양에 기초하여 결정되는, 적응성 빔 형성기 유닛.
제 5항에 있어서, 빔 형성기(107)의 제 1 필터{f1(-t)}와 제 2 필터{f2(-t)} 둘 다의 스텝 크기(각각, α1, α2)를 스케일링하기 위한 단일 스케일 인자(S)를 결정하도록 배치된 스케일링 인자 결정 유닛(250)을 포함하고, 상기 스케일링 인자(S)는 음성 누설 및 상관되지 않은 잡음 중 적어도 하나의 양에 기초하여 결정되는, 사이드로브 소거기.
제 1항에 있어서, 말하는 사람의 음성에 기초하여 말하는 사람의 공간에서의 위치를 결정하도록 배치된 오디오 기반의 말하는 사람 추적기(270) 및 포착된 이미지에 기초하여 말하는 사람의 공간에서의 위치를 결정하도록 배치된 비디오 기반의 말하는 사람의 추적기(274) 중 적어도 하나로부터의 위치 데이터를 수신하도록 배치되고, 제 1 필터{f1(-t)}와 제 2 필터{f2(-t)} 계수는 오디오 기반의 말하는 사람 추적기(270) 및 비디오 기반의 말하는 사람 추적기(274) 중 적어도 하나에 의해 결정된 위치에 기초하여 처음에 결정되는, 적응성 빔 형성기 유닛.
핸즈프리 음성 통신 시스템(301, 303, 305)으로서, 제 1항에 따른 적응성 빔 형성기 유닛(191)이나, 제 5항에 따른 사이드로브 소거기(200)를 포함하는, 핸즈프리 음성 통신 시스템.
휴대 가능한 음성 통신 디바이스(370)로서, 입력 오디오 신호(u1, u2)를 만들기 위한 적어도 2개의 마이크(371, 372)를 포함하고, 제 1항에 따른 적응성 빔 형성기 유닛(191) 또는 입력 오디오 신호(u1, u2)를 처리하기 위해 제 5항에 따른 사이드로브 소거기(200)를 더 포함하는, 음성 통신 디바이스.
제 1항에 따른 적응성 빔 형성기 유닛(191) 또는 제 5항에 따른 사이드로브 소거기(200)를 포함하고, 목소리 명령을 인식하도록 배치된 오디오 기반의 말하는 사람 추적기를 더 포함하는, 목소리 제어 유닛.
가전 장치(350)로서, 제 12항에 따른 목소리 제어 유닛을 포함하는, 가전 장치.
적응성 빔 형성 방법으로서,

a) 제 1 적응성 필터{f1(-t)}로 제 1 마이크(101)로부터의 제 1 입력 오디오 신호(u1)를 필터링하고, 제 2 적응성 필터{f2(-t)}로 제 2 마이크(103)로부터의 제 2 입력 오디오 신호(u2)를 필터링하며, 원하는 오디오 소스(160)로부터의 소리에 대응하는 제 1 오디오 신호(z)를 만들어 내기 위해 필터링된 입력 오디오 신호를 더하는 단계,

b) 입력 오디오 신호(u1, u2)로부터 제 1 잡음 측정값(x1)과 제 2 잡음 측정값(x2)을 유도하는 단계, 및

c) 각각 제 1 스텝 크기(α1)와 제 2 스텝 크기(α2)로 제 1 필터{f1(-t)}와 제 2 필터{f2(-t)}의 계수를 적응시키는 단계로서, 이러한 스텝 크기는 각각 제 1 스텝 크기(α1)에 관해서는 제 1 잡음 측정값(x1)의 함수, 및 제 2 스텝 크기(α2)에 관해서는 제 2 잡음 측정값(x2)의 함수에 반비례하는, 적응시키는 단계를

포함하는, 적응성 빔 형성 방법.
프로세서로 하여금 제 14항의 방법을 실행하게 하는 코드를 포함하는 프로그램을 기록한 컴퓨터 판독가능한 매체.