요약
빔성형 시스템들에서는, 마이크로폰 어레이의 마이크로폰들로부터 포착된 다수의 오디오 신호들을 조합하는 능력이 빈번하게 사용된다. 일반적으로, 빔성형 동작들은, 마이크로폰 어레이들, 소나 어레이들, 지향성 라디오 안테나 어레이들, 레이더 어레이들 등을 포함하는, 다수 수신 어레이들의 신호들을 프로세싱하는데 적용될 수 있다. 예를 들어, 마이크로폰 어레이의 경우, 빔성형은, 마이크로폰 어레이가 고지향성 마이크로폰으로 동작하게 하는 방식으로, 마이크로폰 어레이의 출력 오디오 신호들을 프로세싱하는 것과 관련이 있다. 다시 말해, 빔성형은, 예를 들어, 반사들, 반향들, 간섭, 및 주된 빔 외부의 다른 방향들 또는 포인트들로부터 입력되는 사운드들 또는 잡음을 포함하는 다른 사운드들 및 잡음을 억제하면서, 소정 음원을 포인팅하고 수신하는 "리스닝 빔"을 제공한다. 이러한 빔들의 포인팅을 통상적으로 "빔조종"이라 한다.
또한, 빔성형 시스템들은 빔성형기의 신호 출력에 다수 유형의 잡음 감소나 다른 필터링 또는 후행-프로세싱을 적용한다. 또한, 종래의 빔성형 시스템들에서는 빔성형 동작들 이전의 센서 어레이 출력들에 대한 시간- 또는 주파수-영역의 선행-프로세싱도 빈번하게 사용된다. 그러나, 설명을 위해, 다음의 논의는 임의 구조 및 마이크로폰 유형의 마이크로폰 어레이들에 대한 빔성형 설계에 초점을 맞출 것이며, 빔성형 및 빔조종 동작들로부터 초래되는 공간 필터링의 자연스러운 결과인 잡음 감소만을 고려할 것이다. 빔성형기 입력 또는 출력에 대한 종래의 바람직한 선행- 또는 후행-프로세싱 또는 필터링 어떤 것도 여기에서 제공된 일반적 빔성형기의 설명 범위내에 해당되는 것으로 이해해야 한다.
여기에 설명된 "일반적 빔성형기(generic beamformer)"는 소정의 각도 공간 범위를 커버하는 한 세트의 빔들을 자동적으로 설계(즉, 빔성형)한다. 그러나, 종래의 빔성형 기술들과 달리, 여기에 설명된 일반적 빔성형기는 임의의 마이크로폰 어레이 구조 및 임의 유형의 마이크로폰에 자동적으로 적응할 수 있다. 구체적으로, 일반적 빔성형기는, 주파수의 함수로서, 주변 및 오프-빔 잡음원들에 대해서는 최적의 감쇠 또는 필터링을 제공하면서 인-빔 음원들에 대해서는 최적의 SNR을 제공하기 위한 최적 빔 폭들을 판정하는 것에 의해, 임의 구조 및 마이크로폰 유형의 마이크로폰 어레이들에 대해 최적화된 한 세트의 조종 가능한 빔들을 자동적으로 설계한다. 일반적 빔성형기는, 로컬 잡음 조건들 및 마이크로폰 어레이 동작 특징들이 주어진 상태에서 자동적으로 최적의 주파수-종속 빔 폭들을 판정하는 신규의 오류 최소화 프로세스를 통해 이러한 자동적 빔성형 설계를 제공한다. 일반적 빔성형기가 다양한 유형의 센서 어레이들에 적용될 수는 있지만, 명료한 설명을 위해, 다음의 논의는, 센서 어레이가 주지의 구조 및 마이크로폰 지향성을 가진 다수의 마이크로폰들을 구비하는 마이크로폰 어레이라고 가정할 것이다.
일반적으로, 일반적 빔성형기는 우선, 마이크로폰 어레이의 주위 환경에 대해 자동적으로 생성되거나 계산된 하나 이상의 잡음 모델들과 합동하여, 마이크로폰 어레이의 동작 특징들 및 구조를 설명하는 파라메트릭 정보를 사용해 주파수-종속 "가중 행렬"을 계산하는 것에 의해, 마이크로폰 어레이에 대해 최적화된 고정 빔들의 설계를 시작한다. 다음으로, 이 가중 행렬은, 마이크로폰 어레이에 의해 수신된 오디오 신호들의 주파수-영역 빔성형 프로세싱에서, 마이크로폰 어레이의 마이크로폰 각각에 대한 출력의 주파수 영역 가중화에 사용된다.
가중 행렬을 위해 계산된 가중치들은, 마이크로폰 어레이 주위의 작업 공간 전체에 분산되어 있는 소정 "포커스 포인트들"에 대해 주파수-영역 가중치들을 계산하는 것에 의해 판정된다. 이 가중 행렬의 가중치들은, 각각의 주파수 대역에 대한 임의의 특정 포커스 포인트에서의 단위 이득(unit gain) 및 영 위상 시프트(zero phase shift)의 제한들하에서 (계산된 잡음 모델들에 기초해) 일반적 빔성형기에 의해 설계된 빔들이 최대 잡음 억제를 제공하도록 최적화되어 있다. 이들 제한들은, "포커스 폭"이라는, 포커스 포인트 주위의 각도 영역에 적용된다. 관심있 는 주파수 대역 각각에 대해 이 프로세스를 반복함으로써, 임의의 소정 포커스 포인트에 대해, 주파수의 함수로서 변화하는 최적 빔 폭들을 얻는다.
일 실시예에서는, MCLT(Modulated Complex Lapped Transforms)라는 주파수-영역 기술을 사용해 빔성형 프로세싱이 수행된다. 그러나, 여기에 설명된 개념들은 일례로써 MCLT 영역 프로세싱을 사용하지만, 당업자들은, 이 개념들이, 예를 들어, FFT(fast Fourier transform) 또는 FFT-기반의 필터 뱅크들과 같은, 주파수-영역의 다른 분해에도 용이하게 적용될 수 있다는 것을 알 수 있을 것이다. 주파수 영역 가중화를 위한 가중치들이 계산되기 때문에, 가중 행렬은 N×M 행렬인데, 여기서 N은 오디오 프레임 각각에서의 MCLT 주파수 대역들(즉, 하부 대역들)의 수이고 M은 어레이의 마이크로폰들 수이다. 따라서, 예를 들어, MCLT 계산들을 위해 320개 주파수 빈들(bins)의 사용을 가정하면, 임의의 특정 포커스 포인트에 대한 최적 빔 폭은, 입사각과 주파수의 함수로서 320개 MCLT 주파수 계수들 각각에 대한 이득을 플로팅하는 것에 의해, 설명될 수 있다. 다수의 MCLT 하부 대역들(예를 들어, 320)을 사용하는 것으로 인해, i) 각각의 주파수 하부 대역에 대한 빔 형태들의 미세 튜닝(fine tuning); 및 ⅱ) 각각의 하부 대역들에 대한 필터 계수들을 단일 복소수값의 이득 팩터들로 단순화하는 것과 같은, 주파수-영역 기술의 2가지 중요한 이점들이 가능해짐으로써, 계산 효율적인 구현들이 가능해진다.
가중 행렬을 계산하는데 사용된 파라메트릭 정보는 어레이의 마이크로폰들의 수, 어레이의 마이크로폰들에 대한 구조 레이아웃, 및 어레이의 마이크로폰 각각에 대한 지향성 패턴을 포함한다. 가중 행렬을 계산하는데 사용하기 위해 생성된 잡 음 모델들은, 등방성 주변 잡음(즉, "백색 잡음"과 같은 배경 잡음 또는 비교적 고르게 분포되어 있는 다른 잡음), 계기 잡음(즉, 마이크로폰 어레이 및 외장형 컴퓨팅 장치 또는 다른 외장형 전기 장치로의 어레이 접속 전기 회로내의 전기 활동으로 인한 잡음), 및 (예를 들어, 컴퓨터 팬들, 열려진 창문을 통한 차량 잡음, 억제되어야 할 스피커들 등과 같은) 포인트 잡음원들을 포함하여, 3가지 이상의 잡음 유형들을 구분한다.
따라서, 상술한 잡음 모델들이 주어질 경우, 마이크로폰 어레이에 대해 최적화된 고정 빔들을 설계하는 문제에 대한 솔루션은, 수학적인 다차원 최적화 방법들을 사용해 해결되는 제한들(단체, 기울기 등;simplex, gradient, etc.)을 가진 통상적인 최소화 문제와 유사해진다. 그러나, 다중 모드의 초표면(multimodal hypersurface)으로 간주될 수 있는, 비교적 높은 차원의 가중 행렬(주파수 대역당 2M개의 실수들로, 총 N×2M개의 숫자들)이 주어진다면, 함수들이 비선형이기 때문에, 다중 모드 초표면에서의 포인트들로서 최적 가중치들을 찾아내는 것은, 통상적으로 로컬 최소값들을 위해 다수의 점검들을 요하기 때문에, 상당히 계산집약적이다.
따라서, 일 실시예에서는, 다중 모드 초표면의 최적 포인트들을 직접적으로 찾아내는 대신에, 일반적 빔성형기는 우선, 가중 행렬을 계산하기 위한 직접적인 다차원 최적화를, 최적의 빔 포커스 폭을 위한 단일 차원의 검색이 수반되는, 오류 최소화 패턴 합성으로 치환한다. 예를 들어, 최소 제곱 또는 MMSE(minimum mean-square error) 계산들, 최소 절대값 오류 계산들, 최소-최대 오류 계산들, 등리플 솔루션들 등과 같은, 종래의 임의적 오류 최소화 기술도 여기에 사용될 수 있다.
일반적으로, 가중 행렬에 대한 최적 솔루션을 찾아내는 과정에서, 2개의 모순되는 효과들이 상쇄된다. 구체적으로, 빔 형태를 위해 좁은 포커스 영역이 주어지면, 주변의 잡음 에너지는 증가된 지향성으로 인해 자연스럽게 감소할 것이다. 또한, 좀더 나은 지향성을 위한 솔루션은 마이크로폰들로부터의 출력 신호들간에 더 작고 작은 위상차들을 고려할 것이고, 그로 인해 무상관 잡음(non-correlated noise)을 증대시킬 것이므로, (전기 회로 잡음을 포함하는) 무상관 잡음은 자연스럽게 증가할 것이다. 반대로, 빔 형태의 목표 포커스 영역이 커질 경우에는, 주변 잡음의 에너지는 자연스럽게 커지겠지만, 무상관 잡음 에너지는 감소할 것이다.
따라서, 일반적 빔성형기는, 어레이의 마이크로폰 각각에 대해 각각의 MCLT 주파수 대역을 가중하기 위한 최적 솔루션을 식별하기 위해 소정의 포커스 영역 폭에 대한 최소 오류를 계산하는 과정에서 상기 팩터들의 균형을 고려한다. 다음으로, 소정의 목표 빔 형태들에 대한 최소 제곱 (또는 다른 오류 최소화 기술) 요구 사항을 충족시키는 가중치들을 식별하는 패턴 합성을 통해 이러한 최적 솔루션이 판정된다. 다행스럽게도, 이런 방식으로 문제에 대처하는 것에 의해, 다차원 최적화보다 훨씬 빠른, 방정식들의 선형 시스템에 대한 수치 솔루션을 사용해 문제가 해결될 수 있다. 어레이의 개개 마이크로폰 각각에 대한 구조 및 지향성에 기초해 이러한 최적화가 계산되기 때문에, 최적 빔 설계는, 각각의 특정 주파수 대역내에서 조차도, 마이크로폰 어레이 주위의 임의의 소정 빔에 대한 목표 포커스 포인트의 함수로서, 변화할 것이다.
구체적으로, 빔성형기 설계 프로세스는 우선, 소정의 목표 빔 폭 포커스 영역(즉, 2-도, 5-도, 10-도 등)의 함수로서 한 세트의 "목표 빔 형태들"을 정의한다. 일반적으로, 1의 최대값을 가지며 0으로 감소하는, 예를 들어, 사각 함수들, 스플라인 함수들, 코사인 함수들 등과 같은, 임의의 종래 함수가 목표 빔 형태를 정의하는데 사용될 수 있다. 그러나, 사각 함수들과 같은 비약적인 함수들(abrupt functions)은 빔 형태에 리플들을 발생시킬 수 있다. 따라서, 1에서 0으로 완만하게 감소하는, 예를 들어, 코사인 함수들과 같은, 함수들을 사용하면 통상적으로 보다 양호한 결과들을 실현할 수 있다. 그러나, 상기 제한들의 관점에서는, 1에서 0으로의 (선형 또는 비선형) 감소 함수, 또는 1에서 0으로의 레벨들을 강조하기 위해 가중화된 감소 함수의 임의의 소정 함수도 여기에 사용될 수 있다.
목표 빔 형태들이 주어지면, 각각의 목표 또는 포커스 포인트가 소정 목표 빔 형태의 내부, 외부, 또는 전이 영역내에 있는지에 따라 "목표 가중 함수"가 정의된다. 통상적으로 목표 빔 폭의 약 1 내지 3배의 전이 영역이 양호한 결과들을 제공한다는 것이 관찰되었지만, 전이 영역의 최적 사이즈는 실제로 어레이의 센서들의 유형들 및 센서 어레이 주위의 작업 공간 환경에 의존한다. 포커스 포인트들은 단지, 어레이 주위의 작업 공간 전체로 동일하게(즉, 원형 어레이에 대해서는 동일한 원형 확산을 또는 선형 어레이에 대해서는 동일한 호형 확산을 사용해) 확산되는 (마이크로폰들의 수보다는 큰 것이 바람직한) 다수의 포인트들일 뿐이다. 다음으로는, 목표 가중 함수들이, 소정 목표 빔과 관련한 목표 포인트들의 위치에 따라, 각각의 목표 포인트를 가중하기 위한 이득을 제공한다.
목표 가중 함수들을 제공하는 목적은 빔성형기 계산들에서 메인 빔 외부의 포인트들로부터 발생되는 신호들의 영향들을 최소화하기 위한 것이다. 따라서, 테스트된 실시예에서는, 목표 빔 내부의 목표 포인트들에는 1.0의 이득(단위 이득)이 할당되었고, 전이 영역내의 목표 포인트들에는, 이러한 포인트들의 영향을 여전히 고려하면서 빔성형 계산들에 대한 이러한 포인트들의 영향을 최소화하기 위해 0.1의 이득이 할당되었으며, 마지막으로 목표 빔의 전이 영역 외부의 포인트들에는, 최종 설계된 빔들상의 부대엽들에 대한 진폭들을 좀더 완전하게 고려하면서 강하게 감소시키기 위해 2.0의 이득이 할당되었다. 전이 영역 외부의 목표 포인트들에 대해 지나치게 높은 이득을 사용하는 것은 목표 빔내에서 목표 포인트들의 영향을 매몰시키는 효과를 가질 수 있고, 그로 인해, 최적 빔성형 계산들에 미치지 못하는 결과가 초래될 수 있다.
다음으로, 목표 빔 공간 및 목표 가중 함수들이 주어지면, 다음 단계는, 각각의 목표 빔 형태에 대한 각각의 MCLT 주파수 하부 대역의 총 잡음 에너지를 최소화하기 위해 오류 최소화 기술을 사용하는 것에 의해, (어레이의 마이크로폰 각각에 대한 공지의 지향성 패턴들을 실제 빔 형태들로서 사용하는) 실제 빔 형태들을 목표 포인트 각각에 대한 목표 빔 형태로 피팅할 한 세트의 가중치들을 계산하는 것이다. 이 계산의 솔루션은, 실제 빔 형태를 목표 빔 형태로 매칭하는 한 세트의 가중치이다. 그러나, 한 세트의 이러한 가중치들이, 각각의 작업 주파수 대역에 대한 포커스 포인트에서 단위 이득 및 영 위상 시프트의 상기 제한들을 반드시 충족시켜야 하는 것은 아니다. 다시 말해, 가중치들의 초기 세트는 빔내의 음원에 단위 이득 이상을 또는 단위 이득 미만을 제공할 수 있다. 따라서, 계산된 가중치들은, 포커스 포인트로부터 발생하는 임의의 신호들에 대해 단위 이득 및 영 위상 시프트가 존재하도록, 정규화된다.
이 시점에서, 일반적 빔성형기는 아직까지 총 잡음 에너지의 전반적인 최소화를 빔 폭의 함수로서 고려하지 않았다. 따라서, 상술한 바와 같이, 하나의 소정 목표 빔 폭에 대한 가중치들을 단순히 계산하기보다는, 정규화된 가중치들이, 소정의 최소 각도에서 소정의 최대 각도에 이르는, 목표 빔 폭들의 범위에 대해 계산된다. 빔 폭의 스텝 사이즈는 원하는 만큼 작을 수도 클 수도 있다(즉, 필요에 따라, 0.5, 1, 2, 5, 10도의 스텝 사이즈들, 또는 임의의 다른 스텝 사이즈가 사용될 수 있다). 다음으로는, 주파수 대역 각각에 대한 최적 빔 폭을 식별하기 위해 1차원 최적화가 사용된다. 기울기 감소 방법들, 검색 방법들 등과 같은, 널리-공지되어 있는 다수의 비선형 함수 최적화 기술들 중 하나가 채용될 수 있다. 다시 말해, 원하는 임의 각도의 스텝 사이즈를 사용해, 일정 범위의 목표 빔 폭들 전체에 걸쳐 목표 빔 폭 각각에 대한 총 잡음 에너지가 계산된다. 다음으로는, 각각의 주파수에서 그 주파수에 대해 최저의 총 잡음 에너지를 나타내는 빔 폭을 식별하기 위해, 이들 총 잡음 에너지들이 단순 비교된다. 최종 결과는, 센서 어레이 주위의 목표 포인트 각각에 대해 주파수의 함수로서 변화하는 최적화된 빔 폭이다.
일 실시예에서는, 잡음이 모든 주파수 범위들에 걸쳐 동일하게 감쇠되어야 한다고 가정하기보다는, 이러한 최저의 총 잡음 에너지를 특정 주파수 범위들의 함수로서 고려한다. 특히, 일부의 경우들에서는, 일부 주파수 영역들내의 총 잡음 에너지만을 감소시키거나 소정 주파수 영역들내의 잡음을 보다 강하게 감쇠시키는 것이 바람직하다. 이러한 경우들에서는, 최저의 잡음 에너지를 가진 목표 빔 폭을 식별하는 과정에서 그러한 특정 주파수 영역들을 좀더 많이 고려하게 된다. 잡음이 임의의 소정 주파수 영역에서 좀더 두드러지는지의 여부를 판정하는 한가지 방법은 단순히 종래의 주파수 분석을 수행하여 특정 주파수 범위들에 대한 잡음 에너지 레벨들을 판정하는 것이다. 그 다음, 특별히 높은 잡음 에너지 레벨들을 가진 주파수 범위들은 전반적인 빔성형 계산들에 대한 이들의 영향을 증가시키기 위해 좀더 강하게 가중화되고, 그로 인해, 이러한 주파수 범위들내의 잡음이 좀더 강하게 감쇠된다.
다음으로는, 각각의 주파수 레벨에서 최저의 총 잡음 에너지를 갖는 빔 폭에 대해 정규화된 가중치들이 상기 가중 행렬에 제공된다. 그 다음, 작업 공간은, 빔이 향하고 있는 목표 포인트에 대한 임의의 소정 주파수의 최적 빔 폭에 대응되는 다수의 각도 영역들로 분할된다. 빔들은, 예를 들어, SSL과 같은, 종래의 기술들을 사용해 유도되었다. 이러한 빔들을 어레이 주위의 특정 포인트들로 유도하는 것은 당업자들에게 널리 공지되어 있는 개념이므로, 여기에서는 자세하게 설명하지 않을 것이다.
또한, 특정 애플리케이션들은 향상된 신호원 정위를 제공하기 위해 어느 정도의 빔 중첩을 필요로 할 수 있다. 이러한 경우들에서, 빔들간의 소정 중첩량은 단순히 원하는 작업 공간에 대한 완전 커버리지를 제공하는데 필요한 빔들의 수를 판정하는데 사용된다. 여기에서 그 주제를 참조하고 있는, "A SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF LOCALIZATION ESTIMATES"라는 명칭으로 TBD에 출원된, 계류 중인 특허출원 TBD호에, 빔 중첩이 사용되는 애플리케이션의 일례가 제시되어 있다. 따라서, 예를 들어, 50% 빔 중첩이 필요한 경우, 빔들의 수는 2배가 될 것이므로, 원형 작업 공간을 위해 특정 주파수에서 20도 빔 폭의 상기 예를 사용한다면, 작업 공간은, 18개의 빔들을 사용하는 것이 아니라, 36개의 중첩하는 20도 빔들로 분할될 것이다.
추가적 실시예에서, 빔성형 프로세스는 시간의 함수로서 발전할 수 있다. 특히, 상술한 바와 같이, 가중 행렬 및 최적 빔 폭들은, 부분적으로, 마이크로폰 어레이 주위의 작업 공간에 대해 계산된 잡음 모델들에 기초해, 계산된다. 그러나, 잡음 레벨들 및 소스들은 대개 시간의 함수로서 변화한다는 것을 알 수 있을 것이다. 따라서, 일 실시예에서는, 작업 공간 환경의 잡음 모델링을 연속적으로, 또는 일정한 간격이나 사용자 특정 간격에서 수행한다. 새로운 잡음 모델들이 주어지면, 다음으로는, 상술한 빔성형 설계 프로세스들이 사용되어 작업 공간에 대한 최적 빔들의 세트를 자동적으로 업데이트한다.
상기 요약의 관점에서, 여기에서 설명된 일반적 빔성형기는 임의 구조 및 마이크로폰 유형의 마이크로폰 어레이들에 대한 최적 빔 세트를 설계하는 시스템 및 방법을 제공한다. 방금 설명한 이점들 이외에, 이 시스템 및 방법의 다른 이점들은 첨부된 도면들을 참조하는 상세한 설명으로부터 명백해질 것이다.
다음의 설명, 첨부된 청구항들, 및 첨부된 도면들을 고려한다면, 본 발명의 특징적인 사양들, 태양들, 및 이점들을 더 잘 이해할 수 있을 것이다.
바람직한 실시예들의 상세한 설명
본 발명의 바람직한 실시예들에 대한 다음의 설명에서는, 그 일부를 형성하며, 본 발명이 실시될 수 있는 구체적인 실시예들의 예시로써 도시되어 있는 첨부 도면들을 참조한다. 본 발명의 범위를 벗어나지 않으면서, 다른 실시예들이 이용될 수도 있고 구조적 변경들이 이루어질 수도 있다는 것을 알 수 있을 것이다.
1.0
예시적인 동작 환경
도 1은 본 발명이 구현될 수 있는 적당한 컴퓨팅 시스템 환경(100)의 일례를 도시한다. 컴퓨팅 시스템 환경(100)은 적당한 컴퓨팅 환경의 일례일 뿐이며, 본 발명의 사용 또는 기능 범위를 한정하려는 것은 아니다. 컴퓨팅 환경(100)이, 예시적인 동작 환경(100)에 도시된 컴포넌트들 중의 어느 하나 또는 컴포넌트들의 조합과 관련하여 어떠한 의존성이나 요구 사항을 갖는 것으로 해석되어서는 안된다.
본 발명은 다수의 다른 범용 또는 특수 목적의 컴퓨팅 시스템 환경들 또는 구성들로도 동작할 수 있다. 본 발명에 사용하기에 적당할 수 있는 널리-공지된 컴퓨팅 시스템들, 환경들 및/또는 구성들의 예로는 퍼스널 컴퓨터들, 서버 컴퓨터들, 핸드-헬드, 랩탑 또는 모바일 컴퓨터 또는 셀폰들 및 PDA들과 같은 통신 장치들, 멀티-프로세서 시스템들, 마이크로프로세서-기반 시스템들, 셋톱 박스들, 프로그램 가능한 상용 전자제품들, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들, 상기 시스템들 또는 장치들 중 어느 하나를 포함하는 분산 컴퓨팅 환경들 등을 들 수 있지만, 이에 한정되는 것은 아니다.
본 발명은, 마이크로폰 어레이(198) 또는, 예를 들어, 지향성 라디오 안테나 어레이, 레이더 수신기 어레이 등과 같은, (나타내지 않은) 다른 수신기 어레이의 컴포넌트들을 포함하는, 하드웨어 모듈들과 합동하여 컴퓨터에 의해 실행되는, 프로그램 모듈들과 같은, 컴퓨터-실행가능 명령어들의 일반적인 문맥으로 설명될 수 있다. 일반적으로, 프로그램 모듈들은 특정한 태스크들을 수행하거나 특정한 추상적 데이터형들을 구현하는 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들 등을 포함한다. 또한, 본 발명은, 통신 네트워크를 통해 링크되어 있는 원격 프로세싱 장치들에 의해 태스크들이 수행되는 분산 컴퓨팅 환경에서 실시될 수도 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 저장 장치들을 포함하는 로컬 및 원격 메모리 저장 매체 모두에 배치될 수 있다. 도 1을 참조하면, 본 발명을 구현하기 위한 예시적 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다.
컴퓨터(110)의 컴포넌트들로는 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리(130)를 포함하는 다양한 시스템 컴포넌트들을 프로세싱 유닛(120)에 결합시키는 시스템 버스(121)를 들 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변장치 버스 및 다양한 버스 아키텍처들 중 하나를 사용하는 로컬 버스를 포함하는 몇가지 유형의 버스 구조들 중 하나일 수 있다. 한정이 아닌 일례로써, 이러한 버스 아키텍처들로는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 및 Mezzanine 버스라고도 하는 PCI(peripheral Component Interconnects) 버스를 들 수 있다.
컴퓨터(110)는 통상적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는, 컴퓨터(110)에 의해 액세스될 수 있으며 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체 모두를 포함하는 이용 가능한 임의의 매체일 수 있다. 한정이 아닌 일례로써, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 구비할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 다른 데이터와 같은 정보의 저장을 위해 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 포함한다.
컴퓨터 저장 매체는 RAM, ROM, PROM, EPROM, EEPROM, 플래시 메모리, 또는 다른 메모리 기술; CD-ROM, DVD, 또는 다른 광학 디스크 저장 장치; 자기 카세트들, 자기 테이프, 자기 디스크 저장 장치, 또는 다른 자기 저장 장치들; 또는 소정 정보를 저장하는데 사용될 수 있으며 컴퓨터(110)에 의해 액세스될 수 있는 임의의 다른 매체를 포함하지만, 이에 한정되는 것은 아니다. 통신 매체는 통상적으로 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 반송파나 다른 전송 메커니즘과 같은 변조 데이터 신호의 다른 데이터를 구현하며 임의의 정보 전달 매체를 포함한다. "변조 데이터 신호"라는 용어는, 그에 관한 특징들이 하나 이상인 세트를 가지거나 정보를 신호로 인코딩하는 것과 같은 방식으로 변경된 신호를 의미한다. 한정이 아닌 일례로써, 통신 매체는 유선 네트워크 또는 직접-유선 접속과 같은 유선 매체, 및 음향, RF, 적외선, 및 다른 무선 매체와 같은 무선 매체를 포함한다. 상기한 것들의 임의 조합들 또한 컴퓨터 판독가능 매체의 범위내에 포함되어야 한다.
시스템 메모리(130)는 ROM(read only memory;131) 및 RAM(random access memory;132)과 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 스타트-업(start-up) 동안과 같은 때에, 컴퓨터(110)내의 소자들 사이에서 정보 전달을 지원하는 기본 루틴들을 포함하는 BIOS(basic input/output system;133)는 ROM(131)에 저장된다. RAM(132)은 통상적으로, 프로세싱 유닛(120)으로 즉시 액세스 가능하거나 그리고/또는 프로세싱 유닛(120)에 의해 현재 연산 중인 데이터 및/또는 프로그램 모듈들을 포함한다. 한정이 아닌 일례로써, 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)를 도시한다.
컴퓨터(110)는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체도 포함할 수 있다. 단지 일례로써, 도 1은 비분리형, 비휘발성 자기 매체로부터 판독하고 그에 기입하는 하드 디스크 드라이브(141), 분리형, 비휘발성 자기 디스크(152)로부터 판독하고 그에 기입하는 자기 디스크 드라이브(151) 및, CD-ROM 또는 다른 광학 매체와 같은, 분리형, 비휘발성 광학 디스크(156)로부터 판독하고 그에 기입하는 광학 디스크 드라이브(155)를 도시한다. 예시적 동작 환경에 사용될 수 있는 다른 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체로는 자기 테이프 카세트들, 플래시 메모리 카드들, DVD들, 디지털 비디오 테이프, 반도체 RAM, 반도체 ROM 등을 들 수 있지만, 이에 한정되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광학 디스크 드라이브(155)는 통상적으로, 인터페이스(150)와 같은, 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
상술되고 도 1에 도시된 드라이브들 및 그들과 관련된 컴퓨터 저장 매체는 컴퓨터(110)에 컴퓨터-실행 가능 명령어들, 데이터 구조들, 프로그램 모듈들 및 다른 데이터의 저장을 제공한다. 도 1에는, 예를 들어, 하드 디스크 드라이브(141)가 오퍼레이팅 시스템(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 이들 컴포넌트들은 오퍼레이팅 시스템(134), 애플리케이션 프로그램들(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)와 동일하거나 상이할 수 있다. 여기에서는, 최소한, 이들이 상이한 복사본임을 지시하기 위해, 오퍼레이팅 시스템(144), 애플리케이션 프로그램들(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)에 상이한 번호가 부여되어 있다. 사용자는 키보드(162) 및, 대개 마우스, 트랙볼, 또는 터치패드라고 하는, 포인팅 장치(161)와 같은 입력 장치를 통해 명령들 및 정보를 컴퓨터(110)에 입력할 수 있다.
(나타내지 않은) 다른 입력 장치들로는 조이스틱, 게임 패드, 위성 안테나, 스캐너, 라디오 수신기, 및 텔레비전 또는 방송 비디오 수신기 등을 들 수 있다. (나타내지 않은) 또 다른 입력 장치들로는, 예를 들어, 지향성 라디오 안테나 어레이, 레이더 수신기 어레이 등과 같은, 수신 어레이들 또는 신호 입력 장치들을 들 수 있다. 이들 및 다른 입력 장치들은 대개, 시스템 버스에 결합되어 있는 유선 또는 무선의 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 접속되지만, 예를 들어, 병렬 포트, 게임 포트, 또는 USB(universal serial bus), IEEE 1394 인터페이스, BluetoothTM 무선 인터페이스, IEEE 802.11 무선 인터페이스 등과 같은, 종래의 다른 인터페이스 및 버스 구조들에 의해 접속될 수도 있다. 또한, 컴퓨터(110)는, 예를 들어, 병렬, 직렬, USB, IEEE 1394, BluetoothTM 등과 같은, 종래의 유무선 인터페이스들을 다시 포함하는, 오디오 인터페이스(199)를 통해 접속되는, 마이크로폰 또는 마이크로폰 어레이(198)와 같은, 음성 또는 오디오 입력 장치 뿐만 아니라, 확성기 또는 다른 사운드 출력 장치를 포함할 수도 있다.
모니터(191) 또는 다른 유형의 디스플레이 장치 또한, 비디오 어댑터(190)와 같은, 인터페이스를 통해 버스(121)에 접속된다. 모니터 이외에, 컴퓨터들은 출력 주변 장치 인터페이스(195)를 통해 접속될 수 있는, 프린터(196)와 같은 다른 주변 출력 장치들도 포함할 수 있다.
컴퓨터(110)는, 원격 컴퓨터(180)와 같은, 하나 이상의 원격 컴퓨터들로의 논리적 접속을 사용하는 네트워크 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 서버, 라우터, 네트워크 PC, 피어 장치, 또는 다른 공통 네트워크 노드일 수 있으며, 도 1에는 메모리 저장 장치(181)만이 도시되어 있지만, 통상적으로 컴퓨터(110)와 관련하여 상술한 소자들 중 많은 것을 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속들은 LAN(local area network;171) 및 WAN(wide area network;173)을 포함하지만, 다른 네트워크들을 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 기업-범위의 컴퓨터 네트워크, 인트라넷, 및 인터넷에서 흔히 볼 수 있다.
LAN 네트워킹 환경에서 사용될 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 경우, 컴퓨터(110)는 통상적으로 모뎀(172) 또는, 인터넷과 같은, WAN(173)을 통해 통신을 확립하기 위한 다른 수단을 포함한다. 내장형이거나 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 다른 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워크 환경에서, 컴퓨터(110)와 관련하여 도시된 프로그램 모듈들 또는 그 일부는 원격 메모리 저장 장치에 저장될 수 있다. 한정이 아닌 일례로써, 도 1은 원격 애플리케이션 프로그램들(185)을 메모리 장치(181)에 상주하는 것으로 도시하고 있다. 나타낸 네트워크 접속들은 예시적인 것이며 컴퓨터들간에 통신 링크를 확립하는 다른 수단들이 사용될 수도 있다는 것을 알 수 있을 것이다.
이제 예시적 동작 환경이 논의되었으므로, 이 명세서의 나머지 부분은 임의 구조 및 마이크로폰 유형의 마이크로폰들에 대한 최적 빔들을 자동적으로 설계하는 시스템 및 방법에 대한 논의에 할애될 것이다.
2.0
도입
여기에서 설명된 "일반적 빔성형기"는 소정 각도의 공간 범위 또는 "작업 공간"을 커버하는 한 세트의 빔들을 자동적으로 설계(즉, 빔성형)한다. 다음으로, 이러한 빔들은 특정 신호원들을 센서 어레이 주위 작업 공간내의 소정 검색 영역내 에 정위하는데 사용될 수 있다. 예를 들어, 통상적인 작업 범위들은 회의실의 원형 마이크로폰 어레이를 위한 360도 범위 또는 간혹 데스크탑 또는 PC-형 컴퓨터에서 개인적 용도를 위해 채용되는 선형 마이크로폰 어레이를 위한 약 120 내지 150도의 각도 범위를 포함할 수 있다.
그러나, 종래의 빔성형 기술들과 달리, 여기에 설명된 빔성형기는 구조 및 센서 특징들이 주어진 임의의 센서 어레이에 대해 한 세트의 최적 빔들을 설계할 수 있다. 예를 들어, 마이크로폰 어레이의 경우, 구조는 어레이의 마이크로폰들 수 및 위치일 것이고, 특징들은 어레이의 마이크로폰 각각에 대한 마이크로폰 지향성을 포함할 것이다.
구체적으로, 일반적 빔성형기는, 주파수의 함수로서, 주변 및 오프-빔 잡음원들에 대해서는 최적 감쇠 또는 필터링을 제공하면서 인-빔 음원들(in-beam sound sources)에 대해서는 최적 SNR을 제공하기 위한 최적 빔 폭들을 판정하는 것에 의해, 임의 구조 및 센서 유형의 센서 어레이들에 대한 최적화된 한 세트의 조종 가능한 빔들을 설계한다. 일반적 빔성형기는, 로컬 잡음 조건들 및 마이크로폰 어레이 동작 특징들이 주어진 상태에서 최적의 주파수-종속 빔 폭들을 판정하는 신규의 오류 최소화 프로세스를 통해 이러한 빔성형 설계를 제공한다. 일반적 빔성형기는 다양한 유형의 센서 어레이들에 적용될 수 있지만, 명료한 설명을 위해, 다음의 논의는, 센서 어레이가 주지의 구조 및 마이크로폰 지향성을 가진 다수의 마이크로폰들을 구비하는 마이크로폰 어레이라고 가정할 것이다.
또한, 빔성형 시스템들은 종종 빔성형기의 신호 출력에 다수 유형의 잡음 감 소나 다른 필터링 또는 후행-프로세싱을 적용한다. 또한, 종래의 빔성형 시스템들에서는 빔성형 동작들 이전의 센서 어레이 입력들에 대한 시간- 또는 주파수-영역의 선행-프로세싱도 빈번하게 사용된다. 그러나, 설명을 위해, 다음의 논의는 임의 구조 및 마이크로폰 유형의 마이크로폰 어레이들에 대한 빔성형 설계에 초점을 맞출 것이며, 빔성형 및 빔조종 동작들로부터 초래되는 공간 필터링의 자연스러운 결과인 잡음 감소만을 고려할 것이다. 빔성형기 입력 또는 출력에 대한 종래의 바람직한 선행- 또는 후행-프로세싱 또는 필터링 어느 것도 여기에서 제공된 일반적 빔성형기의 설명 범위내에 해당되는 것으로 이해해야 한다.
또한, 통상적으로 시간-영역에서 동작하는 종래의 고정-빔성형 및 적응적 빔성형 기술들과 달리, 일반적 빔성형기는 모든 빔성형 동작들을 주파수 영역에서 제공한다. 예를 들어, 필터링, 스펙트럼 분석, 오디오 압축, 서명 추출 등을 포함하는 종래의 대다수 오디오 프로세싱은 통상적으로 FFT 등을 사용하는 주파수 영역에서 동작한다. 따라서, 종래의 빔성형 시스템들은 대개 일차적으로 시간 영역에서의 빔성형 동작들을 제공한 다음, 추가적 프로세싱을 위해 그 신호들을 주파수 영역으로 변환한 다음, 마지막으로, 재생을 위해 그 신호들을 다시 시간-영역으로 변환한다.
따라서, 여기에 설명된 일반적 빔성형기의 한가지 장점은, 종래의 대다수 빔성형 기술들과 달리, 전적으로 주파수 영역내에서 빔성형 프로세싱을 제공한다는 것이다. 또한, 일 실시예에서는, 이러한 주파수 영역 빔성형 프로세싱이 MCLT라고 하는 주파수-영역 기술을 사용해 수행되는데, MCLT-영역 프로세싱은, 압축 및 압축 해제 모듈들(코덱들)과 같은, 다른 오디오 프로세싱 모듈들과의 통합에 있어 몇가지 장점들을 갖기 때문이다.
그러나, 여기에 설명된 개념들은 일례로써 MCLT 영역 프로세싱을 사용하지만, 이 개념들은, 예를 들어, FFT 또는 FFT-기반의 필터 뱅크들과 같은, 주파수-영역의 다른 분해들에도 용이하게 적용될 수 있다는 것을 알 수 있을 것이다. 따라서, 추가적 필터링, 디지털 오디오 서명들의 생성, 오디오 압축 등과 같은, 신호 프로세싱이, 일차적으로 시간-영역에서 빔성형 프로세싱을 수행한 다음 주파수 영역으로 변환할 필요없이, 빔성형기 출력으로부터 직접적으로 주파수 영역에서 수행될 수 있다. 또한, 일반적 빔성형기의 설계는 출력 신호에 비선형 왜곡들이 존재하지 않는 선형 프로세싱을 보장함으로써, 계산 오버헤드 및 신호 왜곡들을 추가적으로 감소시킨다.
2.1
시스템 개요
일반적으로, 일반적 빔성형기는 우선적으로, 마이크로폰 어레이 주위의 환경에 대해 자동적으로 생성되거나 계산된 하나 이상의 잡음 모델들과 합동하여, 마이크로폰 어레이의 동작 특징들 및 구조를 기술하는 파라메트릭 정보를 사용해 주파수-종속 "가중 행렬"을 계산하는 것에 의해, 마이크로폰 어레이에 대한 최적 고정 빔들의 설계를 시작한다. 다음으로, 이 가중 행렬은, 마이크로폰 어레이에 의해 수신된 오디오 신호들의 주파수-영역 빔성형 프로세싱에서, 마이크로폰 어레이의 마이크로폰 각각의 출력에 대한 주파수 영역 가중화에 사용된다.
가중 행렬을 위해 계산된 가중치들은, 마이크로폰 어레이 주위의 작업 공간 전체에 분산되어 있는 소정 "포커스 포인트들"에 대해 주파수-영역 가중치들을 계산하는 것에 의해 판정된다. 이 가중 행렬의 가중치들은, 주파수 대역 각각에 대한 임의의 특정 포커스 포인트에서의 단위 이득 및 영 위상 시프트의 제한들하에서 (계산된 잡음 모델들에 기초해) 일반적 빔성형기에 의해 설계된 빔들이 최대 잡음 억제를 제공하도록 최적화되어 있다. 이들 제한들은, "포커스 폭"이라는, 포커스 포인트 주위의 각도 영역에 적용된다. 관심있는 주파수 대역 각각에 대해 이 프로세스를 반복함으로써, 임의의 소정 포커스 포인트에 대해 주파수의 함수로서 변화하는 최적 빔 폭들을 얻는다.
일 실시예에서는, MCLT라는 주파수-영역 기술을 사용해 빔성형 프로세싱이 수행된다. 그러나, 여기에 설명된 개념들은 일례로써 MCLT 영역 프로세싱을 사용하지만, 당업자들은, 이 개념들이, 예를 들어, FFT 또는 FFT-기반의 필터 뱅크들과 같은, 주파수-영역의 다른 분해들에도 용이하게 적용될 수 있다는 것을 알 수 있을 것이다. 주파수 영역 가중화를 위한 가중치들이 계산되기 때문에, 가중 행렬은 N×M 행렬인데, 여기서 N은 오디오 프레임 각각에서의 MCLT 주파수 대역들(즉, MCLT 하부 대역들)의 수이고 M은 어레이의 마이크로폰들 수이다. 따라서, 예를 들어, MCLT 계산들을 위해 320개 주파수 빈들의 사용을 가정하면, 임의의 특정 포커스 포인트에 대한 최적 빔 폭은, 320개의 MCLT 주파수 계수들 각각에 대해 입사각과 주파수의 함수로서 이득을 플로팅하는 것에 의해, 설명될 수 있다.
또한, 빔성형 동작들을 위해 MCLT 프로세싱을 사용할 경우, 다수의 MCLT 하부 대역들(예를 들어, 선행 예에서와 같은, 320개 하부 대역들)을 사용하는 것으로 인해, i) 각각의 주파수 하부 대역에 대한 빔 형태들의 미세 튜닝; 및 ⅱ) 각각의 하부 대역들에 대한 필터 계수들을 단일 복소수값의 이득 팩터들로 단순화하는 것과 같은, 이러한 주파수-영역 기술의 2가지 중요한 이점들이 가능해짐으로써, 계산 효율적인 구현들이 가능해진다.
가중 행렬을 계산하는데 사용된 파라메트릭 정보는 어레이의 마이크로폰들의 수, 어레이의 마이크로폰들에 대한 구조 레이아웃, 및 어레이의 마이크로폰 각각에 대한 지향성 패턴을 포함한다. 가중 행렬을 계산하는데 사용하기 위해 생성된 잡음 모델들은, 등방성 주변 잡음(즉, "백색 잡음"과 같은 배경 잡음 또는 비교적 고르게 분포되어 있는 다른 잡음), 계기 잡음(즉, 마이크로폰 어레이 및 외장형 컴퓨팅 장치 또는 다른 외장형 전기 장치로의 어레이 접속 전기 회로내의 전기 활동으로 인한 잡음), 및 (예를 들어, 컴퓨터 팬들, 열려진 창문을 통한 차량 잡음, 억제되어야 할 스피커들 등과 같은) 포인트 잡음원들을 포함하여, 3가지 이상의 잡음 유형들을 구분한다.
따라서, 상술한 잡음 모델들이 주어질 경우, 마이크로폰 어레이에 대해 최적의 고정 빔들을 설계하는 문제에 대한 솔루션은, 수학적인 다차원 최적화 방법들을 사용하는 것에 의해 해결되는 제한들(단체, 기울기 등)을 가진 통상적인 최소화 문제와 유사해진다. 그러나, 다중 모드의 초표면으로 간주할 수 있는, 비교적 높은 차원의 가중 행렬(주파수 대역당 2M개의 실수들로, 총 N×2M개의 숫자들)이 주어진다면, 함수들이 비선형이기 때문에, 다중 모드 초표면에서의 포인트들로서 최적 가중치들을 찾아내는 것은, 통상적으로 로컬 최소값들을 위해 다수의 점검들을 요하 기 때문에, 상당히 계산집약적이다.
따라서, 일 실시예에서는, 다중 모드 초표면의 최적 포인트들을 직접적으로 찾아내는 대신에, 일반적 빔성형기는 우선, 가중 행렬을 계산하기 위한 직접적인 다차원 최적화를, 최적의 빔 포커스 폭을 위한 단일 차원의 검색이 수반되는, 오류 최소화 패턴 합성으로 치환한다. 예를 들어, 최소 제곱 또는 MMSE 계산들, 최소 절대값 오류 계산들, 최소-최대 오류 계산들, 등리플 솔루션들 등과 같은, 종래의 임의적 오류 최소화 기술도 여기에 사용될 수 있다.
일반적으로, 가중 행렬을 위한 최적 솔루션을 찾아내는 과정에서, 2개의 모순되는 효과들이 상쇄된다. 구체적으로, 빔 형태를 위해 좁은 포커스 영역이 주어지면, 주변의 잡음 에너지는 증가된 지향성으로 인해 자연스럽게 감소할 것이다. 또한, 좀더 나은 지향성을 위한 솔루션은 마이크로폰들로부터의 출력 신호들간에 더 작고 작은 위상차들을 고려할 것이고, 그로 인해 무상관 잡음을 증대시킬 것이므로, (전기 회로 잡음을 포함하는) 무상관 잡음은 자연스럽게 증가할 것이다. 반대로, 빔 형태의 목표 포커스 영역이 커질 경우에는, 주변 잡음의 에너지는 자연스럽게 커지겠지만, 무상관 잡음 에너지는 감소할 것이다.
따라서, 일반적 빔성형기는, 어레이의 마이크로폰 각각에 대해 각각의 MCLT 주파수 대역을 가중하기 위한 최적 솔루션을 식별하기 위해 소정의 포커스 영역 폭에 대한 최소 오류를 계산하는 과정에서 상기 팩터들의 균형을 고려한다. 다음으로는, 소정의 목표 빔 형태들에 대한 최소 제곱 (또는 다른 오류 최소화 기술) 요구 사항을 충족시키는 가중치들을 식별하는 패턴 합성을 통해 이러한 최적 솔루션 이 판정된다. 다행스럽게도, 이런 방식으로 문제에 대처하는 것에 의해, 다차원 최적화보다 훨씬 빠른, 방정식들의 선형 시스템에 대한 수치 솔루션을 사용해 문제가 해결될 수 있다. 어레이의 개개 마이크로폰 각각에 대한 구조 및 지향성에 기초해 이러한 최적화가 계산되기 때문에, 최적 빔 설계는, 각각의 특정 주파수 대역내에서 조차도, 마이크로폰 어레이 주위의 임의의 소정 빔에 대한 목표 포커스 포인트의 함수로서 변화할 것이다.
구체적으로, 빔성형기 설계 프로세스는 우선, 소정의 목표 빔 폭 포커스 영역(즉, 2-도, 5-도, 10-도 등)의 함수로서 한 세트의 "목표 빔 형태들"을 정의한다. 일반적으로, 1의 최대값을 가지며 0으로 감소하는, 예를 들어, 사각 함수들, 스플라인 함수들, 코사인 함수들 등과 같은, 임의의 종래 함수가 목표 빔 형태를 정의하는데 사용될 수 있다. 그러나, 사각 함수들과 같은 비약적인 함수들은 빔 형태에 리플들을 발생시킬 수 있다. 따라서, 1에서 0으로 완만하게 감소하는, 예를 들어, 코사인 함수들과 같은, 함수들을 사용하면 통상적으로 보다 양호한 결과들이 실현될 수 있다. 그러나, 상기 제한들의 관점에서는, 1에서 0으로의 (선형 또는 비선형) 감소 함수, 또는 1에서 0으로의 레벨들을 강조하기 위해 가중화된 감소 함수의 임의의 소정 함수도 여기에 사용될 수 있다.
목표 빔 형태들이 주어지면, 각각의 목표 또는 포커스 포인트가 소정 목표 빔 형태의 내부, 외부, 또는 전이 영역내에 있는지에 따라 "목표 가중 함수"가 정의된다. 통상적으로 목표 빔 폭의 약 1 내지 3배의 전이 영역이 양호한 결과들을 제공한다는 것이 관찰되었지만, 실제로는 전이 영역의 최적 사이즈가 어레이의 센 서들의 유형들 및 센서 어레이 주위의 작업 공간의 환경에 의존한다. 포커스 포인트들은 단지, 어레이 주위의 작업 공간 전체로 동일하게(즉, 원형 어레이에 대해서는 동일한 원형 확산을 또는 선형 어레이에 대해서는 동일한 호형 확산을 사용해) 확산되어 있는 (마이크로폰들의 수보다는 큰 것이 바람직한) 다수의 포인트들일 뿐이다. 다음으로는, 목표 가중 함수들이, 소정 목표 빔과 관련한 목표 포인트들의 위치에 따라, 각각의 목표 포인트를 가중하기 위한 이득을 제공한다.
목표 가중 함수들을 제공하는 목적은 빔성형기 계산들에 대한 메인 빔 외부의 포인트들로부터 발생되는 신호들의 영향들을 최소화하기 위한 것이다. 따라서, 테스트된 실시예에서는, 목표 빔 내부의 목표 포인트들에는 1.0의 이득(단위 이득)이 할당되었고, 전이 영역내의 목표 포인트들에는, 이러한 포인트들의 영향을 여전히 고려하면서도 이러한 포인트들의 빔성형 계산들에 대한 영향을 최소화하기 위해 0.1의 이득이 할당되었으며, 마지막으로 목표 빔의 전이 영역 외부의 포인트들에는, 최종 설계된 빔들상의 부대엽들을 좀더 완전하게 고려하면서도 그에 대한 진폭들을 강하게 감소시키기 위해 2.0의 이득이 할당되었다. 전이 영역 외부의 목표 포인트들에 대해 지나치게 높은 이득을 사용하는 것은 목표 빔내에서 목표 포인트들의 영향을 매몰시키는 효과를 가질 수 있고, 그로 인해, 최적 빔성형 계산들에 미치지 못하는 결과가 초래될 수 있다.
다음으로, 목표 빔 공간 및 목표 가중 함수들이 주어지면, 다음 단계는, 각각의 목표 빔 형태에 대한 MCLT 주파수 하부 대역 각각의 총 잡음 에너지를 최소화하기 위해 오류 최소화 기술을 사용하는 것에 의해, (어레이의 마이크로폰 각각에 대한 공지의 지향성 패턴들을 실제 빔 형태들로서 사용하는) 실제 빔 형태들을 목표 포인트 각각을 위한 목표 빔 형태로 피팅할 한 세트의 가중치들을 계산하는 것이다. 이 계산의 솔루션은, 실제 빔 형태를 목표 빔 형태로 매칭하는 한 세트의 가중치이다. 그러나, 한 세트의 이러한 가중치들이, 각각의 작업 주파수 대역에 대한 포커스 포인트에서 단위 이득 및 영 위상 시프트의 상기 제한들을 반드시 충족시켜야 하는 것은 아니다. 다시 말해, 가중치들의 초기 세트는 빔내의 음원에 대해 단위 이득 이상을 또는 단위 이득 미만을 제공할 수도 있다. 따라서, 계산된 가중치들은, 포커스 포인트로부터 발생하는 임의의 신호들에 대해 단위 이득 및 영 위상 시프트가 존재하도록, 정규화된다.
이 시점에서, 일반적 빔성형기는 아직까지 총 잡음 에너지의 전반적인 최소화를 빔 폭의 함수로서 고려하지 않았다. 따라서, 상술한 바와 같이, 가중치들을 하나의 소정 목표 빔 폭에 대해 단순히 계산하기보다는, 정규화된 가중치들이, 소정의 최소 각도에서 소정의 최대 각도에 이르는 목표 빔 폭들의 범위에 대해 계산된다. 빔 폭의 스텝 사이즈는 원하는 만큼 작을 수도 클 수도 있다(즉, 필요에 따라, 0.5, 1, 2, 5, 10도의 스텝 사이즈들, 또는 임의의 다른 스텝 사이즈가 사용될 수 있다).
다음으로는, 주파수 대역 각각에 대한 최적 빔 폭을 식별하기 위해 1차원 최적화가 사용된다. 기울기 감소 방법들, 검색 방법들 등과 같은, 널리-공지되어 있는 다수의 비선형 함수 최적화 기술들 중 하나가 채용될 수 있다. 다시 말해, 원하는 임의 각도의 스텝 사이즈를 사용해, 일정 범위의 목표 빔 폭들 전체에 걸쳐 목표 빔 폭 각각에 대한 총 잡음 에너지가 계산된다. 다음으로는, 각각의 주파수에서 그 주파수에 대해 최저의 총 잡음 에너지를 나타내는 빔 폭을 식별하기 위해, 이들 총 잡음 에너지들이 단순 비교된다. 최종 결과는, 센서 어레이 주위의 목표 포인트 각각에 대해 주파수의 함수로서 변화하는 최적화된 빔 폭이다.
일 실시예에서는, 잡음이 모든 주파수 범위들에 걸쳐 동일하게 감쇠되어야 한다고 가정하기보다는, 특정 주파수 범위들의 함수로서 이러한 최저의 총 잡음 에너지를 고려한다. 특히, 일부의 경우들에서는, 일부 주파수 영역들내의 총 잡음 에너지만을 감소시키거나 소정 주파수 영역들내의 잡음을 보다 강하게 감쇠시키는 것이 바람직하다. 이러한 경우들에서는, 최저의 잡음 에너지를 가진 목표 빔 폭을 식별하는 과정에서 그러한 특정 주파수 영역들을 좀더 많이 고려하게 된다. 잡음이 임의의 소정 주파수 영역에서 좀더 두드러지는지의 여부를 판정하는 한가지 방법은 단순히 종래의 주파수 분석을 수행하여 특정 주파수 범위들에 대한 잡음 에너지 레벨들을 판정하는 것이다. 그 다음, 특별히 높은 잡음 에너지 레벨들을 가진 주파수 범위들은 전반적인 빔성형 계산들에 대한 이들의 영향을 증가시키기 위해 좀더 강하게 가중화되고, 그에 의해, 이러한 주파수 범위들내의 잡음이 좀더 강하게 감쇠된다.
다음으로는, 각각의 주파수 레벨에서 최저의 총 잡음 에너지를 갖는 빔 폭에 대해 정규화된 가중치들이 상기 가중 행렬에 제공된다. 그 다음, 작업 공간은, 빔이 향하고 있는 목표 포인트에 관한 임의의 소정 주파수에 대한 최적 빔 폭에 대응되는 다수의 각도 영역들로 분할된다. 빔들은, 예를 들어, SSL과 같은, 종래의 기 술들을 사용해 조종된다. 이러한 빔들을 어레이 주위의 특정 포인트들로 유도하는 것은 당업자들에게 널리 공지되어 있는 개념이므로, 여기에서 자세하게 설명하지는 않을 것이다.
또한, 특정 애플리케이션들은 향상된 신호원 정위를 제공하기 위해 어느 정도의 빔 중첩을 필요로 할 수 있다. 이러한 경우들에서, 빔들간의 소정 중첩량은 단순히 원하는 작업 공간에 대한 완전 커버리지를 제공하는데 필요한 빔들의 수를 판정하는데 사용된다. 여기에서 그 주제를 참조하고 있는, "A SYSTEM AND METHOD FOR IMPROVING THE PRECISION OF LOCALIZATION ESTIMATES"라는 명칭으로 TBD에 출원된, 계류 중인 특허출원 TBD호에, 빔 중첩이 사용되는 애플리케이션의 일례가 제시되어 있다. 따라서, 예를 들어, 50% 빔 중첩이 필요한 경우, 빔들의 수는 2배가 될 것이므로, 원형 작업 공간에 대해 상기한 20도 빔 폭의 예를 사용한다면, 작업 공간은, 18개의 빔들을 사용하는 것이 아니라, 36개의 중첩하는 20도 빔들로 분할될 것이다.
일반적 빔 성형기의 추가적 실시예에서, 빔성형 프로세스는 시간의 함수로서 발전할 수 있다. 특히, 상술한 바와 같이, 가중 행렬 및 최적 빔 폭들은, 부분적으로, 마이크로폰 어레이 주위의 작업 공간에 대해 계산된 잡음 모델들에 기초해, 계산된다. 그러나, 잡음 레벨들 및 소스들은 대개 시간의 함수로서 변화한다는 것이 명백하다. 따라서, 일 실시예에서는, 작업 공간 환경의 잡음 모델링을 연속적으로, 또는 일정한 간격이나 사용자 특정 간격에서 수행한다. 새로운 잡음 모델들이 주어지면, 다음으로는, 상술한 빔성형 설계 프로세스들을 사용해 작업 공간에 대해 한 세트의 새로운 최적 빔들을 자동적으로 정의한다.
일 실시예에서, 일반적 빔성형기는 전적으로 마이크로폰 어레이내의 컴퓨터 프로세스로서 동작하여, 마이크로폰 어레이 자체가 자신의 여러 마이크로폰들로부터 미가공의 오디오 입력들을 수신한 다음, 프로세싱된 오디오 출력들을 제공한다. 이러한 실시예에서, 마이크로폰 어레이는, 여기에서 설명된 빔성형 프로세싱 기술들을 제공하는 통합 컴퓨터 프로세서를 포함한다. 그러나, 컴퓨터 프로세싱 기능들이 통합된 마이크로폰 어레이들은, 컴퓨터 프로세싱 기능들이 마이크로폰 어레이 외장형인 경우보다 상당히 고가인 경향이 있으므로, 마이크로폰 어레이에는 마이크로폰들, 프리앰프들, A/D 컨버터들 및, 예를 들어, PC-형 컴퓨터와 같은, 외장형 컴퓨팅 장치에 접속하기 위한 일부 수단들만이 포함될 것이다.
따라서, 이러한 문제를 해결하기 위해, 일 실시예에서는, 마이크로폰 어레이가 단순히, 각각의 마이크로폰 어레이로부터 오디오 신호들을 수신하고 그 신호들을, 여기에서 설명된 빔성형 프로세스들을 수행하는 외장형 컴퓨팅 장치로 제공하기에 충분한 컴포넌트들만을 포함한다. 이러한 실시예에서, 외장형 컴퓨팅 장치내에 상주하는 일반적 빔성형기가 여기에서 설명된 시스템 및 방법에 따라 특정 마이크로폰 어레이에 대해 자동적으로 최적화된 한 세트의 빔들을 자동적으로 설계할 수 있도록 하기 위해, 이득, 민감도, 어레이 구조 등과 같은, 마이크로폰 어레이의 동작 특징들을 정의하는 데이터를 포함하는 장치 드라이버들 또는 장치 기술 파일들(device description files)이 마이크로폰 어레이에 대해 개별적으로 제공된다.
밀접하게 관련된 일 실시예에서, 마이크로폰 어레이는 그 구성 및 동작 파라 미터들을 외장형 컴퓨팅 장치로 자동적으로 보고하는 메커니즘을 포함한다. 특히, 이 실시예에서, 마이크로폰 어레이는, 예를 들어, ROM, PROM, EPROM, EEPROM, 또는 종래의 다른 메모리와 같은, 마이크로폰 어레이 메모리에 상주하는, 마이크로폰 어레이 장치 기술을 포함하는 컴퓨터 판독 가능 파일 또는 테이블을 포함한다. 이러한 장치 기술은, 마이크로폰 어레이의 동작 특징들 및 구성을 정의하는 파라메트릭 정보를 포함한다.
이 실시예에서는, 일단 외장형 컴퓨팅 장치가 접속되고 나면, 마이크로폰 어레이는 자신의 장치 기술을, 접속된 마이크로폰 어레이에 대해 일반적 빔성형기를 사용해 자동적으로 최적화된 한 세트의 빔들을 자동적으로 생성하는 외장형 컴퓨팅 장치에 제공한다. 또한, 다음으로는, 외장형 컴퓨팅 장치내에서 동작하는 일반적 빔성형기가 마이크로폰 어레이 외부의 모든 빔성형 동작들을 수행한다. 여기에서 그 주제를 참조하고 있는, "SELF-DESCRIPTIVE MICROPHONE ARRAY"라는 명칭으로 2004년 2월 9일에 출원된, 계류 중인 특허출원 TBD호에, 마이크로폰 어레이 구성 및 동작 파라미터들을 외장형 컴퓨팅 장치에 자동적으로 보고하는 이러한 메커니즘이 부연되어 있다.
또 다른 관련 실시예에서, 마이크로폰 어레이에는, 마이크로폰 어레이의 프리앰프 각각에 대한 주파수-영역 응답들을 자동적으로 판정한 다음, 주파수-영역 보상 이득들을 계산하여, 일반적 빔성형기가 이들 보상 이득들을 프리앰프 각각의 출력을 매칭하는데 사용할 수 있게 하는 통합형 자체-캘리브레이션 시스템(integral self-calibration system)이 제공된다. 그 결과, 마이크로폰 어레이의 채널 각각에 대한 정확한 동작 특징들을 사전에 판정하거나 고가의 매칭된 전자 컴포넌트들을 사용할 필요가 없다.
특히, 일 실시예에서는, 통합형 자체-캘리브레이션 시스템이 주지의 크기 및 위상을 가진 여기 펄스들을 마이크로폰 어레이내의 모든 프리앰프 입력들에 주입한다. 다음으로는, 프리앰프 각각의 출력으로부터 얻어진 아날로그 파형이 측정된다. 다음으로는, 얻어진 파형들 각각에 대해, 예를 들어, FFT 또는 종래의 다른 주파수 분석과 같은, 주파수 분석이 수행된다. 다음으로, 주파수 분석의 결과들은, 모든 프리앰프들의 응답들을 서로 매칭시키거나 상쇄시키기 위한, 프리앰프 각각에 대한 주파수-영역의 보상 이득들을 계산하는데 사용된다. 여기에서 그 주제를 참조하고 있는, "ANALOG PREAMPLIFIER MEASUREMENT FOR A MICROPHONE ARRAY"라는 명칭으로 2004년 2월 4일에 출원된, 계류 중인 특허출원 TBD호에, 이러한 통합형 자체-캘리브레이션 시스템이 상세하게 부연되어 있다.
2.2
시스템 아키텍처
위에서 요약된 프로세스들이 도 2의 일반적 시스템 도면으로 도시되어 있다. 특히, 도 2의 시스템 도면은, 임의 구조의 마이크로폰 어레이들에 대해 한 세트의 최적 빔들을 자동적으로 설계하는 일반적 빔성형기를 구현하는 프로그램 모듈들간의 상호관계를 도시한다. 도 2에서 파선 또는 점선들로 표현된 임의의 박스들 및 박스들간의 상호 접속들은 여기에 설명된 일반적 빔성형기에 대한 대체 실시예들을 표현하며, 이러한 대체 실시예들 중 어느 하나 또는 모두는, 후술하는 바와 같이, 이 문서 전체에 걸쳐 설명되는 다른 대체 실시예들과 결합되어 사용될 수 있다.
일반적으로, 일반적 빔성형기는 주지의 구조 및 동작 특징들을 가진 마이크로폰들 또는 다른 센서 어레이들에 대해 최적화된 빔들을 설계하도록 동작한다. 또한, 이들 빔들은 로컬 환경에 대해서도 최적화된다. 다시 말해, 빔 최적화는, 신호 주파수의 함수로서, 어레이 구조, 어레이 동작 특징들, 및 (마이크로폰 어레이를 둘러싸고 있는 영역내의 주변 또는 등방성 잡음 뿐만 아니라 마이크로폰 어레이의 계기 잡음의 영향들을 포함하는) 작업 공간 환경에 자동적으로 적응된다.
일반적 빔성형기의 동작은, 마이크로폰 어레이와 같은, 센서 어레이(200)를 형성하는 복수개 센서들 각각을 사용해 센서 어레이 주위의 로컬 환경내에서 (주변 또는 등방성, 포인트 소스, 및 계기) 잡음 레벨들을 모니터링하는 것으로 시작한다. 다음으로, 센서 어레이(200)의 각 센서로부터 모니터링된 잡음(M)은 시간 함수로서 신호 입력 모듈(205)에 대한 입력(xM(n))으로 제공된다.
다음 단계는, 센서 어레이(200) 주위의 로컬 환경에서 측정된 잡음 레벨들에 기초해 하나 이상의 잡음 모델들을 계산하는 것과 관련이 있다. 그러나, 일 실시예에서는, 먼저 주파수-영역 분해 모듈(210)이 사용되어 입력 신호 프레임들을 시간 영역에서 주파수 영역으로 변환한다. 여기에서 설명된 빔성형 동작들은, 시간 영역이나 주파수 영역에서 동작하는 필터들을 사용해 수행될 수 있다는 것에 주목해야 한다. 그러나, 감소된 계산 복잡도, 다른 오디오 프로세싱 소자들과의 용이한 통합, 및 추가적인 호환성을 위해, 통상적으로 주파수 영역에서 신호 프로세싱을 수행하는 것이 더 낫다.
예를 들어, 보통 FFT에 의해 구현되는 이산 퓨리에 변환들을 포함하여, 다수의 가능한 주파수-영역 신호 프로세싱 도구들이 사용될 수 있다. 또한, 일 실시예의 일반적 빔성형기는 MCLT를 사용하는 주파수-영역 프로세싱을 제공한다. 다음의 논의는, 시간-영역의 프로세싱 사용이나 FFT와 같은 다른 주파수-영역 기술들의 사용을 설명하기보다는, MCLT의 사용에만 초점을 맞출 것이다. 그러나, 당업자들은, MCLT의 사용에 관해 설명된 기술들이 다른 주파수-영역 또는 시간-영역 프로세싱 기술들에 용이하게 적용될 수 있으며, 여기에서 설명된 일반적 빔성형기가 MCLT 프로세싱의 사용에 한정되는 것은 아니라는 것을 알 수 있을 것이다.
따라서, MCLT 신호 변환들의 사용을 가정하면, 주파수-영역 분해 모듈(210)은 (어레이의 각 센서로부터의 입력을 표현하는) 입력 신호 프레임들을 시간 영역에서 주파수 영역으로 변환하여 센서 입력(xM(n)) 모두에 대해 N개의 MCLT 계수들(XM(N))을 생성한다. 다음으로는, 잡음 모델 계산 모듈(215)이, 널리 공지되어 있는 다수의 잡음 모델링 기술들을 사용함으로써, 센서 어레이(200) 주위의 로컬 환경에 대한 잡음을 표현하는 종래의 잡음 모델들을 계산한다. 그러나, 잡음 모델들의 계산이, 필요하다면, 소정 신호 프레임들에 대해서는 생략될 수도 있다는 것에 주목해야 한다.
일반적으로, 여기에서는, 센서 어레이(200)를 둘러싸는 영역내의 주변 또는 등방성 잡음, 센서 어레이 회로의 계기 잡음, 및 포인트 잡음 소스들을 포함하여, 몇가지 유형의 잡음 모델들이 고려된다. 이러한 잡음 모델링 기술들은 당업자들에 게 널리 공지되어 있기 때문에, 여기에서 자세히 설명하지는 않을 것이다. 잡음 모델 계산 모듈(215)이 입력 신호들로부터 잡음 모델들을 계산하고 나면, 이들 잡음 모델들은 가중치 계산 모듈(220)로 제공된다. 일 실시예에서는, 오프-라인으로 잡음 모델들을 미리-계산하고, 예를 들어, 단순히 (임의 방향 및 특정한 주파수 스펙트럼 형태로부터의 에너지가 동일한) 등방성 잡음들을 가정하는 것과 같은, 고정된 모듈들을 사용하는 것에 의해, 계산 오버헤드가 감소된다.
잡음 모델들 이외에, 가중치 계산 모듈(220)은, 센서 어레이(200)의 구조 및 (지향성 패턴들을 포함하는) 동작 특징들을 정의하는 센서 어레이 파라메트릭 정보(230)도 수신한다. 예를 들어, 마이크로폰 어레이를 고려할 경우, 일반적 빔성형기로 제공된 파라메트릭 정보는, 각각이 공지의 위치 벡터 및 지향성 패턴을 갖는 M개 센서들(마이크로폰들)의 어레이를 정의한다. 당업자들에게 공지되어 있는 바와 같이, 지향성 패턴은, 민감도 및 위상 시프트를 제공하는, 소정 위치들로부터 입력되는 사운드들에 대해 마이크로폰에 의해 도입된 복소수 함수이다.
마이크로폰 각각의 위치 및 지향성이 공지되어 있기만 하다면, 마이크로폰 어레이가 동일한 유형 또는 지향성의 마이크로폰들을 사용해야 한다는 요구 사항은 불필요하다. 또한, 상술한 바와 같이, 일 실시예에서는, 이러한 센서 어레이 파라메트릭 정보(230)가 장치 기술 파일 또는 장치 드라이버 등으로 제공된다. 또한, 상술한 바와 같이, 관련 실시예에서는, 이러한 파라메트릭 정보가 마이크로폰 어레이 자체내에 포함되어 있으며, 여기에 설명된 방식으로 일반적 빔성형기를 작동시키는 외장형 컴퓨팅 장치에 자동적으로 보고된다.
또한, 잡음 모델들 및 센서 어레이 파라메트릭 정보(230) 이외에, 가중치 계산 모듈(220)은 목표 빔 형태 정의 모듈(230)로부터 "목표 빔 형태들" 및 대응되는 "목표 가중 함수들"의 입력도 수신한다. 목표 빔 형태 및 목표 가중 함수들은 목표 빔 형태 정의 모듈(225)에 의해 자동적으로 제공된다. 일반적으로, 상술한 바와 같이, 목표 빔 형태 정의 모듈(230)은 각각의 다수 목표 포커스 포인트들 주위의 소정 목표 빔 폭 포커스 영역의 함수로서 한 세트의 "목표 빔 형태들"을 정의한다. 상기한 바와 같이, 최적 목표 빔 형태를 정의하는 것은, 목표 빔 형태들, 및 관심있는 각각의 주파수 또는 주파수 대역에 대한 소정 범위의 목표 빔 폭들(즉, 2-도, 5-도, 10-도 등)에 걸쳐 대응되는 목표 가중 함수들을 생성하는 것에 의한 반복 프로세스로서, 가장 양호하게 접근될 수 있다.
빔성형 계산들에 사용되는 목표 포커스 포인트들의 수는 일반적으로 센서 어레이(200)의 센서 수보다 커야 하고, 실제로, 수가 클수록 증가된 빔성형 해상도를 제공하는 경향이 있다. 구체적으로, 목표 포커스 포인트들의 수(L)는 센서들의 수(M)보다 큰 값으로 선택된다. 그 다음, 이들 목표 포커스 포인트들은 빔성형 계산들을 위해 센서 어레이 주위의 작업 공간에 균일하게 확산된다. 예를 들어, 실험된 실시예에서는, 8개의 마이크로폰들(L)을 가진 원형 마이크로폰 어레이에 대해 500개의 목표 포커스 포인트들(L)이 선택되었다. 그 다음, 이들 목표 포커스 포인트들은, 이들이 목표 빔 폭 포커스 영역내에 있는지, 목표 빔 폭 포커스 영역 주위의 "전이 영역"내에 있는지, 아니면 목표 빔 폭 포커스 영역 외부 및 전이 영역 외부에 있는지의 여부를 판정하기 위해, 개별적으로 평가된다. 다음으로는, 현재 분 석 중인 빔에 대한 포커스 포인트 각각의 위치에 따라, 목표 가중 함수들에 의해 제공되는 대응 이득들이 각각의 포커스 포인트에 적용된다.
구체적으로, 상술한 목표 가중 함수들은, 목표 포커스 포인트가 목표 빔 형태내에 있는지(VPass), 목표 포커스 포인트 주위의 "전이 영역"내에 있는지(VTrans), 아니면 목표 빔 형태 및 전이 영역을 완전히 벗어나 있는지(VStop)의 여부에 대응되는 3개 가중치 파라미터들(VPass, VTrans, 및 VStop)의 세트로서 정의된다. 전이 영역은, 목표 빔 형태 경계 주위의 어떤 델타에 의해 정의된다. 예를 들어, 실험된 실시예들에서는, 목표 빔 폭의 3배인 델타가 전이 영역을 정의하는데 사용되었다. 따라서, 포커스 포인트 주위의 ±10-도 목표 빔 폭을 가정하고, 목표 빔 폭의 3배인 델타를 가정하면, 전이 영역은 목표 포인트로부터의 ±10-도에서 시작해 목표 포인트로부터의 ±40-도로 연장한다. 이 예에서는, 목표 포인트 주위의 ±40-도를 벗어난 모든 것이 정지 영역(VStop)에 속한다. 다음으로는, 목표 가중 함수들이, 특정 목표 빔에 대한 목표 포인트들의 위치에 따라, 각각의 목표 포인트를 가중하기 위한 이득을 제공한다.
이 시점에서, 가중치 계산 모듈(220)에는 목표 빔 형태들, 목표 가중 함수, 한 세트의 목표 포인트들, 계산된 잡음 모델들, 및 마이크로폰 어레이의 마이크로폰들에 대한 지향성 패턴들이 제공되었다. 이 정보가 주어지면, 가중치 계산 모듈(220)은, (어레이의 마이크로폰 각각에 대한 공지의 지향성 패턴들을 실제 빔 형태들로 사용하여) 각각의 실제 빔 형태를 현재의 MCLT 주파수 하부 대역의 목표 포인 트 각각에 대한 현재의 목표 빔 형태로 피팅할 마이크로폰 각각에 대한 한 세트의 가중치들을 계산한다. 섹션 3에서 후술하는 바와 같이, 가중치들의 이 세트는, 오류 최소화 기술을 사용해 현재의 MCLT 주파수 하부 대역에 대한 총 잡음 에너지를 최소화할 가중치들을 선택하는 것에 의해, 최적화된다.
다음으로는, 가중치 정규화 모듈(235)이 각각의 목표 빔 형태에 대해 최적화된 가중치들의 세트를 정규화하여 각각의 목표 빔 형태에 대응되는 목표 포인트로부터 발생하는 임의의 신호들에 대해 단위 이득 및 영 위상 시프트를 보장한다.
다음으로는, 목표 빔 형태들의 범위 각각에 대해 상술한 단계들이 반복된다. 다시 말해, 특정한 목표 빔 형태에 대해 한 세트의 정규화된 최적 가중치들을 생성하는 상술된 단계들이 임의의 소정 스텝 사이즈를 사용해 빔 각도들의 소정 범위 전체에 걸쳐 반복된다. 예를 들어, 5-도의 스텝 사이즈, 10-도의 최소 각도, 및 60-도의 최대 각도가 주어지면, 10-도에서 60-도에 이르는 각각의 목표 형태에 대해 5-도의 증분으로 정규화된 최적 가중치들이 계산될 것이다. 따라서, 저장되어 있는 목표 빔들 및 가중치들(240)은 현재의 MCLT 주파수 하부 대역의 목표 포인트 각각에 대한 소정 범위의 목표 빔 형태들 전체에 걸쳐 정규화된 최적 가중치들 및 빔 형태들을 포함할 것이다.
다음으로는, 총 잡음 에너지 비교 모듈(245)이, 저장된 목표 빔들 및 가중치들(240)에 걸쳐 간단한 일-차원의 검색을 수행하는 것에 의해, 현재의 MCLT 하부 대역에서의 각각의 목표 포인트 주위에 최저의 총 잡음 에너지를 제공하는 빔 형태(즉, 빔 각도) 및 대응되는 가중치들을 식별하기 위한 총 잡음 에너지를 계산한다. 이들 빔 형태들 및 대응되는 가중치들은, 최적화된 빔 및 가중 행렬 모듈(250)에 의해 현재의 MCLT 하부 대역에 대응되는 최적 빔 및 가중 행렬(255)에 대한 입력으로서 출력된다.
다음으로는, 각각의 MCLT 서브 대역에 대해 상술한 단계들을 반복하는 것에 의해, 최적 빔 및 가중 행렬(255)이 완전히 채워진다. 구체적으로, 모든 MCLT 하부 대역에 대해, 일반적 빔성형기는 소정 범위의 빔 각도들에 걸쳐 각각의 목표 빔 형태에 대해 한 세트의 정규화된 최적 가중치들을 개별적으로 생성한다. 상술한 바와 같이, 다음으로, 일반적 빔성형기는 저장된 이들 목표 빔 형태들 및 가중치들을 검색하여, 각각의 MCLT 하부 대역에 대한 각각의 목표 포인트 주위에 최저의 총 잡음 에너지를 제공하는 빔 형태들 및 대응되는 가중치들을 식별하는데, 이러한 빔 형태들 및 대응되는 가중치들은, 상술한 바와 같이, 최적 빔 및 가중 행렬(255)에 저장된다.
무지향성 마이크로폰들(omni-directional microphones)과 같은, 이상적으로 균일한 센서들의 경우를 제외하면, 센서 어레이(200)의 각 센서는 지향성에 차이를 나타낼 수 있다. 또한, 상이한 유형들의 센서들 및 그에 따른 상이한 지향성이 동일한 센서 어레이(200)에 포함될 수 있다. 따라서, 최적 빔 및 가중 행렬(255)에 정의된 최적 빔 형태들(즉, 최저의 총 잡음 에너지를 나타내는 빔 형태들)은 상이한 지향성 패턴들의 센서들에 적합하도록 재계산되어야 한다.
3.0
동작 개요
상술한 프로그램 모듈들이 여기에서 설명된 일반적 빔성형기를 구현하기 위 해 채용된다. 상술한 바와 같이, 일반적 빔성형기 시스템 및 방법은 센서 어레이 주위 작업 공간에서의 목표 포인트 및 주파수의 함수로서 그리고 센서 어레이 주위의 로컬 잡음 조건들에 대해 자동적으로 한 세트의 최적 빔들을 정의한다. 다음 섹션들은 상술한 프로그램 모듈들을 구현하기 위한 예시적 방법들의 상세한 동작 논의를 제공한다. "포커스 포인트", "목표 포인트", 및 "목표 포커스 포인트"라는 용어들은 다음의 논의 전체에 걸쳐 호환적으로 사용된다.
3.1
초기 조건들
다음 논의는 임의의, 하지만 주지의, 구조 및 동작 특징들을 가진 마이크로폰 어레이에 대해 한 세트의 최적 빔들을 정의하는 일반적 빔성형기의 사용에 관한 것이다. 그러나, 상술한 바와 같이, 여기에 설명된 일반적 빔성형기는 다른 유형의 센서 어레이들을 이용하는 사용에도 용이하게 적용될 수 있다.
또한, 여기에 설명된 빔성형기는, 시간 영역이나 주파수 영역에서 동작하는 필터들을 이용하는 사용에도 적용될 수 있다. 그러나, 상술한 바와 같이, 주파수 영역에서 빔성형 프로세싱을 수행하는 것이 감소된 계산 복잡도, 다른 오디오 프로세싱 소자들과의 보다 용이한 통합, 및 추가적 호환성을 제공한다.
일 실시예에서, 일반적 빔성형기는, 오디오 압축 모듈들과 같은, 다른 오디오 프로세싱 컴포넌트들과의 통합을 위한 MCLT의 장점들 때문에, MCLT를 빔 설계에 사용한다. 그러나, 상술한 바와 같이, 여기에 설명된 기술들은, 예를 들어, FFT 또는 FFT-기반 필터 뱅크들과 같은, 다른 주파수-영역 분해들과의 사용에도 용이하게 적용될 수 있다.
3.1.1
센서 어레이 구조 및 특징들
상술한 바와 같이, 일반적 빔성형기는 주지의 임의 구조 및 동작 특징들을 가진 마이크로폰 어레이들에 대해 최적 빔 설계를 제공할 수 있다. 구체적으로, 주지의 위치 벡터(
)를 가진 M개 마이크로폰들의 어레이를 상정한다. 어레이의 마이크로폰들은 어레이 주위의 작업 공간 (p
m = (x
m, y
m, z
m):m = 0, 1, ..., M-1) 위치들에서 신호 필드를 샘플링할 것이다. 이 샘플링으로 인해, 신호 벡터
에 의해 지시되는 한 세트의 신호들이 얻어진다.
또한, 각각의 마이크로폰은 주지의 지향성 패턴 Um(f, c)를 갖는데, f는 주파수이고, c = {φ, θ, ρ}는 음원에 대한 방사 좌표계에서의 좌표들을 표현한다. 유사한 표기법이 직각 좌표계에서 동일한 좌표들을 표현하는데 사용되는데, 이 경우, c = {x, y, z}이다. 당업자들에게 공지되어 있는 바와 같이, 마이크로폰의 지향성 패턴은, 소정 위치들 또는 방향들에서 입력되는 사운드들에 대해 마이크로폰에 의해 도입되는 민감도 및 위상 시프트를 제공하는 복소수 함수이다. 이상적인 무지향성 마이크로폰의 경우, Um(f, c)=상수이다. 그러나, 상술한 바와 같이, 마이크로폰 어레이는, 일반적 빔성형기의 일반성을 상실하지 않으면서, 상이한 유형 및 지향성 패턴들의 마이크로폰들을 사용할 수 있다.
3.1.2
신호 정의들:
당업자들에게 공지되어 있는 바와 같이, 마이크로폰 어레이에 관한 특정 위 치 c에서 발생하는 사운드 신호는 다수의 팩터들에 의해 영향을 받는다. 예를 들어, 포인트 c에서 발생하는 사운드 신호 S(f)가 주어지면, 각각의 마이크로폰에 의해 실제로 포착되는 신호는 다음과 같은 수학식 1에 의해 정의될 수 있는데,
다음의 수학식 2로써 정의되는 제 1 멤버 Dm(f, c)는 포인트 c로부터 마이크로폰까지의 거리로 인한 위상 시프트 및 신호 감쇠를 표현한다. 공기중의 에너지 손실로 인한 신호 감쇠는, 마이크로폰 어레이들과 통상적으로 관련된 작업 거리들의 경우 상당히 낮기 때문에, 생략하였다. 그러나, 더 먼 거리들이 관련되거나, 다른 센서 유형들, 전달 매체들(즉, 물 또는 다른 유체들) 또는 신호 유형들이 관련될 경우에는, 이러한 손실들이 좀더 중요할 수 있다.
수학식 1의 제 2 멤버 A(f)m은 각각의 마이크로폰 m에 대한 마이크로폰 어레이 프리앰프/ADC 회로의 주파수 응답이다. 수학식 1의 제 3 멤버 Um(f, c)는 포인트 c에 관한 마이크로폰 지향성을 설명한다. 마지막으로, 상기한 바와 같이, 수학식 1의 제 4 멤버 S(f)는 실제 신호 자체이다.
3.1.3
잡음 모델들:
포착된 신호 Xm(f, pm)가 주어질 경우, 첫번째 작업은 마이크로폰 어레이의 로컬 환경내에서 다양한 잡음 유형들을 모델링하기 위한 잡음 모델들을 계산하는 것이다. 여기에서 설명된 잡음 모델들은, 등방성 주변 잡음, 계기 잡음, 및 포인트 잡음원들과 같은, 3가지 잡음 유형들을 구분한다. 잡음원들의 시간 및 주파수-영역 모델링 모두가 당업자들에게 널리 공지되어 있다. 따라서, 다음에서는 고려되는 잡음 유형들의 모델들만을 대략적으로 설명할 것이다.
구체적으로, NA(f) 항목으로 지시되는 스펙트럼을 가진 등방성 주변 잡음은 마이크로폰 어레이 주위의 작업 용적(working volume) 또는 작업 공간 전체에 걸쳐 균등하게 확산되어 있는 것으로 가정된다. 이러한 등방성 주변 잡음 NA(f)은 모든 채널들과 상관되어 있으며 수학식 1에 따라 마이크로폰 어레이에 의해 포착된다. 실험된 실시예에서, 잡음 모델 NA(f)는 정상적인 조건들의 잡음(즉, 마이크로폰 어레이가 사용될 사무실 또는 회의실의 주변 잡음)을 직접적으로 샘플링하고 평균하는 것에 의해 획득되었다.
또한, NI(f) 항목으로 지시되는 스펙트럼을 가진 계기 잡음은 마이크로폰, 프리앰프, 및 ADC 회로로부터의 전기 회로 잡음을 표현한다. 계기 잡음 NI(f)은 모든 채널들에서 무상관이며 통상적으로 백색 잡음 스펙트럼과 유사하다. 실험된 실 시예에서, 잡음 모델 NI(f)은 (잡음들이 마이크로폰들 및 프리앰프들의 회로에서만 발생하도록 하기 위해) 잡음 및 반향이 없는 "이상적인 방(ideal room)"에서 어레이의 마이크로폰들에 대해 직접적으로 샘플링하고 평균하는 것에 의해 획득되었다.
잡음의 제 3 유형은, 잡음을 표현하는 것으로 간주되는 개개의 포인트 소스들로부터 발생한다. 예를 들어, 포인트 잡음원들로는, 예를 들어, 컴퓨터 팬, 억제되어야 하는 제 2 스피커 등과 같은, 사운드들을 들 수 있다.
3.1.4
정규 형태의 일반적 빔성형기:
선행 논의로부터 명백히 알 수 있는 바와 같이, 여기에서 설명된 빔 설계 동작들은, 마이크로폰으로부터 직접적으로 수신된 아날로그 신호들에 대해 직접적으로 작용하기보다는 디지털 영역에서 동작한다. 따라서, 마이크로폰 어레이에 의해 포착된 임의의 오디오 신호들은 먼저 종래의 A/D 변환 기술들을 사용해 디지털화된다. 불필요한 주파수 중복(aliasing) 영향들을 방지하기 위해, 오디오 신호는 MCLT 작업 대역의 최저 주파수에 대한 주기의 2배보다 더 긴 프레임들로 프로세싱되는 것이 바람직하다.
이러한 디지털 신호가 주어지면, 여기에서 설명된 일반적 빔성형기 동작들에 의해 생성되는 빔 설계 정보의 실제적인 사용이 간단해진다. 구체적으로, 설계된 빔들을 사용해 마이크로폰 어레이의 전체 입력에 기초해 소정 목표 포인트에 대한 오디오 출력을 생성하는 것은 대략적으로 마이크로폰 어레이에 의해 포착된 입력 오디오 프레임들의 가중화된 합들의 조합으로서 설명될 수 있다. 구체적으로, 빔 성형기에 의해 설계된 소정 빔 출력은 다음의 수학식 3으로 표현될 수 있는데,
여기서, Wm(f)는 관심있는 목표 포인트에 대한 센서 각각의 가중 행렬 W이고, Y(f)는, 그 목표 포인트에서 전체적인 마이크로폰 어레이 입력을 사용해 오디오 신호를 포착하기 위한 최적 솔루션을 표현하는 빔성형기 출력이다. 상술한 바와 같이, 벡터들 Wm(f)의 세트는 N×M 행렬인데, N은 오디오 프레임에서의 MCLT 주파수 빈들의 수이고 M은 마이크로폰들의 수이다. 따라서, 수학식 3으로 나타낸 바와 같이, 이러한 정규 형태(canonical form)의 빔성형기는 출력 신호 Y(f)에 비선형 왜곡들이 존재하지 않는 선형 프로세싱을 보장한다. 이러한 정규형 빔성형기의 블록도가 도 3에 제시되어 있다.
가중치들의 각 세트
에 대해, 빔성형기의 지향성을 제공하는 빔 형태 함수 B(f, c)가 존재한다. 구체적으로, 빔 형태 함수 B(f, c)는, 음원의 위치에 대한 함수로서 마이크로폰 어레이의 복소수값 이득을 표현하며 다음의 수학식 4로써 주어진다.
당업자들은, 도 3의 대략적인 도면이 용이하게 확장되어 보다 복잡한 시스템들에 적용될 수 있다는 것을 알 수 있을 것이다. 예를 들어, 일반적 빔성형기에 의해 설계된 빔들은, 예를 들어, SSL 시스템들, AEC(acoustic echo cancellation) 시스템들, 지향성 필터링 시스템들, 및 선택 신호 포착 시스템들 등을 포함하는, 다수의 시스템들에 사용될 수 있다. 또한, 필요하다면, 이러한 시스템들이 조합될 수 있다는 것도 알 수 있을 것이다.
3.1.5
빔성형기 파라미터들
당업자들에게 널리 공지되어 있는 바와 같이, 마이크로폰 어레이들을 사용하는 목적들 중의 하나는, 이러한 어레이들의 지향적 능력들(즉, "지향성")을 이용함으로써, 공간의 특정 포인트들로부터 또는 특정 방향들로부터 발생하는 신호들에 대한 SNR을 향상시키는 것이다. 다양한 잡음 유형들의 특징들을 조사한 다음 이러한 잡음을 자동적으로 보상하는 것에 의해, 일반적 빔성형기는 포착된 오디오 신호들에 대한 SNR의 추가적인 향상을 제공한다. 상술한 바와 같이, 일반적 빔성형기에 의해 3가지 잡음 유형들이 고려된다. 구체적으로, 등방성 주변 잡음, 계기 잡음, 및 포인트 소스 잡음이 고려된다.
3.1.5.1
빔성형기의 잡음 고려들:
주변 잡음 이득 GAN(f)은, 특정 작업 공간내의 전체 마이크로폰 어레이 빔의 용적 함수로서 모델링된다. 이 잡음 모델은, 단순히, 주변 잡음에 대한 이득 GAN(f)이 전체로서 어레이에 의해 표현되는 조합된 빔의 전체 용적에 걸쳐 계산된다는 것을 나타내는 다음의 수학식 5로써 도시되는데,
여기서, V는 마이크로폰 어레이의 작업 용적, 즉 모든 좌표들 c의 세트이다.
특정한 목표 포인트에 대한 마이크로폰 어레이 및 프리앰프들의 계기, 또는 무상관 잡음 이득 GIN(f)은 단순히 그 목표 포인트에 대해 어레이의 마이크로폰들에 할당된 가중치들로부터 얻어지는 이득들의 합으로 모델링된다. 구체적으로, 마이크로폰들 및 프리앰프들로부터의 무상관 잡음 이득 GIN(f)은 다음의 수학식 6으로써 제시된다.
마지막으로, 포인트 잡음원들에 대한 이득들은 단순히 특정 빔에 대한 빔 형 태와 관련된 이득에 의해 주어진다. 다시 말해, 포인트 c에서의 잡음원에 대한 이득은 단순히 빔 형태 B(f, c)에 대한 이득으로써 주어진다.
다양한 잡음 유형들과 관련된 이득들의 관점에서, 빔성형기 출력의 총 잡음 에너지는 다음의 수학식 7로써 주어진다
3.1.5.2
빔성형기의 지향성 고려들:
잡음의 영향들을 고려하는 것에 부가하여, 일반적 빔성형기는 일반적 빔성형기의 빔 설계로부터 얻어지는 마이크로폰 어레이의 지향성도 특징짓는다. 구체적으로, 마이크로폰 어레이의 지향성 인덱스 DI는, 다음에 도시된 바와 같은, 수학식 8 내지 수학식 10에 의해 특징지워질 수 있는데,
여기서, P(f, φ, θ)는 "전력 패턴(power pattern)"이라 하고, ρ0는 작업 용적의 평균 거리(깊이)이며, (φT, θT)는 조종 방향이다.
3.2
문제 정의 및 제한들
일반적으로, 마이크로폰 어레이에 대한 최적 빔들을 설계하는 과정에서 일반적 빔성형기에 의해 직면하게 되는 2개의 주된 문제점은,
1. 빔성형기에서 사용되는 바와 같이, 수학식 3으로써 도시된, 임의의 소정 포커스 포인트 cT에 대한 상기 가중 행렬 W를 계산하는 것; 및
2. 작업 주파수 대역의 포커스 포인트에서 단위 이득 및 영 위상 시프트의 조건들에 따라 출력 신호에 최대 잡음 억제를 제공하는 것, 즉, 총 잡음 에너지를 최소화하는 것(예를 들어, 수학식 7 참고)이다. 이들 제한들은 다음의 수학식 11로써 도시되는데,
여기서, fBEG 및 fEND는 작업 주파수 대역의 경계들을 표현한다.
포커스 또는 목표 포인트에서의 단위 이득 및 영 위상 시프트라는 이들 제한들은 포커스 폭이라는 포커스 포인트 주위의 영역에 대해 적용된다. 상기한 잡음 모델들이 주어지면, 상기한 문제점들의 일반적인 솔루션은 수학적 다차원 최적화를 위한 방법들을 사용해 해결될 수 있는 제한들(즉, 단체, 기울기 등)을 가진 통상적인 최소화 문제와 유사해진다. 안타깝게도, 비교적 높은 차원의 가중 행렬 W(주파수 대역당 2M개의 실수들로, 총 N×2M개의 숫자들), 다중 모드의 초표면으로 인해, 그리고 함수들이 비선형적이기 때문에, 다중 모드 초표면에서의 포인트들로서 최적 가중치들을 찾아내는 것은, 통상적으로 로컬 최소값들을 위해 다수의 점검들을 요하기 때문에, 상당히 계산집약적이다.
3.3
가중 행렬 W에 대한 저차원의 오류 최소화 솔루션
대략적으로 상기한 다중 모드의 초표면 문제를 해결하기 위한 몇가지 종래의 방법들이 존재하긴 하지만, 이러한 방법들은 통상적으로, 빔성형 동작들을 위해 고속 응답이 필요한 빔성형 시스템들에 사용하기에는 너무 느리다. 따라서, 이 문제를 직접적으로 해결하려 하기보다는, 마이크로폰 어레이 주위의 목표 또는 포커스 포인트 각각에 대한 포커스 폭을 위한 단일 차원의 검색이 수반되는 최소 제곱, 또 는 다른 오류 최소화 기술, 오류 패턴 합성에 의해, 수학식 11의 제한들하에서 수학식 7에 의해 정의된 함수의 직접적인 다차원 최적화를 해결한다.
수학식 11의 2개 제한들을 고려하면, 2개의 모순되는 프로세스들이 존재한다는 것을 알 수 있을 것이다.
구체적으로, 좁은 포커스 영역이 주어지면, 수학식 11의 제 1 제한인 포커스 포인트에서의 단위 이득은 좁은 포커스 영역을 사용하는 것으로부터 초래되는 증가된 지향성의 결과로서 도 7에 도시된 주변 잡음 에너지가 감소하는 것을 강화하는 경향이 있다. 반대로, 좁은 포커스 영역이 주어지면, 양호한 지향성을 위한 솔루션은 마이크로폰들로부터의 신호들간의 더 작고 작은 위상차들을 이용하려 한다는 사실로 인해, 도 7의 무상관 잡음 에너지 성분이 증가하는 경향을 보일 것이고, 그로 인해, 마이크로폰 어레이 회로내의 무상관 잡음이 증가할 것이다.
한편, 목표 포커스 영역이 더 커지면, 단순히 더 커진 빔 폭으로 인해, 그 영역내에 더 많은 주변 잡음 에너지가 존재하게 된다. 그러나, 마이크로폰으로부터의 신호들간의 위상차들이 덜 중요해지고, 그로 인해, 마이크로폰 어레이 회로의 잡음 영향들이 더 작아지므로, 무상관 잡음 에너지는 낮아진다.
이들 모순되는 프로세스들의 최적화로 인해, 수학식 7로써 도시된 총 잡음 에너지가 최소화되는 임의의 소정 포커스 또는 목표 포인트 주위의 포커스 영역 폭에 대한 가중 행렬 솔루션이 얻어진다. 이러한 최적 솔루션을 획득하기 위한 프로세스를 여기에서는 "패턴 합성(pattern synthesis)"이라 한다. 일반적으로, 이러한 패턴 합성 솔루션은, (상기한 최소 제곱 또는 다른 오류 최소화 기술을 사용해) 소정 목표 빔 형태에 대한 오류를 최소화하는 최적 빔 형태의 가중 행렬에 대한 가중치들을 찾아낸다. 따라서, 가중 행렬에 대한 솔루션은 방정식들의 선형 시스템을 해결하기 위한 종래의 수치 방법들을 사용해 실현된다. 이러한 수치 방법들은 종래의 다차원 최적화 방법들보다 실현이 상당히 빠르다.
3.3.1.
목표 빔 형태들의 세트 정의
상술한 오류 최소화 기술들의 관점에서, 목표 빔 형태들을 정의하는 것은 좀더 다루기 쉬운 문제이다. 구체적으로, 목표 빔 형태들은 기본적으로 일 파라미터 - 목표 포커스 영역 폭의 함수이다. 상기한 바와 같이, 1의 최대값을 가지며 0으로 감소하는 어떤 함수도 목표 빔 형태를 정의하는데 사용될 수 있다(이 함수는 목표 빔내에서 이득, 즉, 포커스 포인트에서 1의 이득을 제공한 다음 빔 경계들에서 0으로 감소한다). 그러나, 사각형의 목표 영역을 정의하는, 사각 함수들과 같은, 비약적인 함수들은 빔 형태에 리플들을 발생시키는 경향이 있으며, 그로 인해, 일반적 빔성형기의 전반적인 성능을 감소시킨다. 따라서, 1에서 0으로 완만하게 전이하는 목표 형태 함수들을 사용하는 것에 의해, 보다 양호한 결과들이 실현될 수 있다.
실험된 실시예에서 양호한 결과들을 생성하는 것으로 밝혀진 완만하게 감소하는 함수의 일례가, 다음의 수학식 12로써 도시된 바와 같은, 종래의 코사인-형태 함수인데,
여기서, (ρT, φT, θT)는 목표 포커스 포인트이고, δ는 목표 영역 사이즈이며, k는 형태 함수를 변형하기 위한 스케일링 팩터이다.
또한, 상술한 바와 같이, 상기한 목표 가중 함수 V(ρ, φ, θ)는, 목표 포커스 포인트가 목표 빔 형태내에 있는지(VPass), 목표 포커스 포인트 주위의 "전이 영역"내에 있는지(VTrans), 아니면 목표 빔 형태 및 전이 영역을 완전히 벗어나 있는지(VStop)의 여부에 대응되는 3개 가중 파라미터들(VPass, VTrans, 및 VStop)의 세트로서 정의된다. 섹션 2.1에서 부연한 바와 같이, 목표 가중 함수들은, 특정 목표 빔과 관련된 목표 포인트들의 위치에 따라, 각각의 목표 포인트를 가중하기 위한 이득을 제공하는데, 이러한 가중화의 목적은 메인 빔 외부의 포인트들로부터 발생하는 신호들의 빔성형기 계산들에 관한 영향들을 최소화하는 것이다.
3.3.2
패턴 합성:
목표 빔 형태 및 목표 가중 함수들이 정의되고 나면, 최소 제곱 요구 사항(또는 다른 오류 최소화 기술)을 충족시키는 것에 의해, (마이크로폰 지향성 패턴들에 기초한) 실제 빔 형태를 목표 함수로 피팅하는 한 세트의 가중치들을 식별하는 것은 간단한 일이다.
구체적으로, 제 1 단계는 작업 공간에 균일하게 확산되어 있는 L개의 포인트들을 선택하는 것이다(L > M). 다음으로는, 주어진 주파수(f)에 대해, 소정 포커스 영역 폭(δ)에 대한 빔 형태들(T;수학식 12 참고)이 목표 가중 함수들 V, 어레이의 마이크로폰 수 M, 위상 시프트 및 신호 감쇠(D;수학식 2 참고), 마이크로폰 지향성 응답들(U), 및 가중 행렬 또는 "가중 벡터"(W)의 복소곱으로 정의될 수 있다. 이 곱은 다음은 수학식 13으로 도시된 복소수 방정식으로 표현될 수 있다.
다음으로는, 가중 벡터(W)에 대한 MMSE(minimum mean-square error) 솔루션(또는 종래의 다른 오류 최소화 기술들을 사용하는 최소값)을 찾아 내는 것에 의해, 이 복소수 방정식에 대한 솔루션이 식별된다. 다음에서, 이 가중 벡터(W)는
로 표기된다.
3.3.3
가중치들의 정규화
섹션 3.3.2에서 설명된 패턴 합성 프로세스에서 식별된 가중치 솔루션들은 어레이의 마이크로폰들 각각에 대한 실제 지향성 패턴을 소정 빔 형태(T)로 피팅한다. 그러나, 상기한 바와 같이, 이들 가중치들은 아직 수학식 11의 제한들을 만족시키지 않는다. 따라서, 이 문제를 해결하기 위해, 가중치들은 포커스 포인트(cT)로부터 발생하는 신호들에 대한 단위 이득 및 영 위상 시프트를 강조하기 위해 정 규화된다. 이러한 정규화는 다음의 수학식 14로써 도시되는데,
여기서,
는 수학식11의 제한들에 따라 정규화된 최적 가중치들을 표현한다.
3.3.4
빔 폭의 최적화
상술한 바와 같이, 각각의 주파수에 대해, 출력 신호에 최소 잡음 에너지를 제공하는 가중치들을 식별하고 정규화하기 위한 섹션들 3.3.1 내지 3.3.3에서 상술된 프로세스들은, 임의의 소정 스텝 사이즈를 사용해, 일정 범위의 목표 빔 형태들 각각에 대해 반복된다. 구체적으로, 이들 프로세스들은 [δ
MIN, δ
MAX]의 범위에 걸쳐 반복되는데, 여기서, δ는 특정한 목표 포커스 포인트 주위의 목표 영역 폭을 표현한다. 다시 말해, 특정한 목표 빔 형태에 대해 한 세트의 정규화된 최적 가중치들, 즉, 가중 벡터(
)를 생성하기 위한 상기 프로세스들이, 현 MCLT 주파수 하부 대역의 목표 포인트 각각에 대한 소정 범위의 빔 각도들 전체에 걸쳐 임의의 소정 스텝 사이즈를 사용해 반복된다. 얻어진 가중 벡터(
)는 소정 주파수에 대한 "의사-최적(pseudo-optimal)" 솔루션이다.
3.3.5
전체 주파수 대역에 대한 계산
특정한 목표 포커스 포인트에 대해 완전한 가중 행렬(
)을 획득하기 위해, 섹션들 3.3.1 내지 3.3.4에 설명된 프로세스들이, 마이크로폰 어레이에 의해 프로세싱 중인 주파수 범위의 MCLT 주파수 하부 대역 각각에 대해 단순 반복된다.
3.3.6
빔 세트의 계산
섹션들 3.3.1 내지 3.3.5에 설명된 프로세스들을 완료한 후, 가중 행렬(
)은 특정 포커스 포인트(C
T)의 단일 빔을 위한 가중치들의 N×M 행렬을 표현한다. 따라서, 섹션들 3.3.1 내지 3.3.5에서 상술된 프로세스들은 K개 빔들에 대해 K번 반복되는데, 빔들은 작업 공간에 걸쳐 고르게 배치되어 있다. 얻어진 N×M×K의 3차원 가중 행렬은, 그 로컬 환경에 대한 현재의 잡음 조건들이 주어진 현 로컬 환경의 마이크로폰 어레이에 대해 일반적 빔성형기에 의해 생성된 완전한 빔 설계를 특정한다.
4.0
구현
일 실시예에서는, 로컬 잡음 조건들이 주어진 특정 센서 어레이에 대해 최적 빔들을 설계하기 위한, 섹션 3에서 상술한 빔성형 프로세스들이, 상기 가중 행렬을 계산하는 오프-라인 설계 프로그램, 및 도 3의 도면에 따라 이 가중치들을 사용하는 런타임 마이크로폰 어레이 신호 프로세싱 엔진의 개별적인 2개 부분들로 구현된다. 가중치들을 오프라인으로 계산하는 한가지 이유는, 최적 가중치들을 계산하는 것이 최적 가중치들을 도 3에 도시된 신호 프로세싱 동작에서 사용하는 것보다 훨씬 계산집약적이기 때문이다.
그러나, 예를 들어, 종래의 PC형 컴퓨터들을 포함하는, 종래 컴퓨터들의 속도가 주어진다면, 실시간, 또는 실시간에 근접한 가중 행렬의 계산들이 가능하다. 따라서, 다른 실시예에서는, 가중 행렬이, 이용 가능한 컴퓨터 프로세싱 파워가 허용하는만큼 실시간에 근접하게, 진행 중에 계산된다. 따라서, 일반적 빔성형기에 의해 설계된 빔들은 로컬 환경의 주변 잡음 레벨들에서의 변화들에 지속적으로 그리고 자동적으로 적응한다.
도 2 및 도 3과 관련하여 상술되고 섹션들 2 및 3에서 제공된 상세한 설명에서 부연된 프로세스들이 도 5의 대략적인 동작 흐름도로 도시되어 있다. 구체적으로, 도 5는, 일반적 빔성형기의 동작을 도시하는 예시적 동작 흐름도를 제공한다. 파선 또는 실선들로써 표현된 박스들 및 박스들간의 상호접속들은 여기에서 설명된 일반적 빔성형기의 대체 실시예들을 표현하며, 후술하는 바와 같이, 이러한 대체 실시예들 중 하나 또는 전부는 본 출원 전체에 걸쳐 설명되고 있는 다른 대체 실시예들과 결합되어 사용될 수 있다.
일반적으로, 도 5로써 도시된 바와 같이, 빔성형 동작들은, 어레이 입력으로부터 잡음 모델들을 생성하기에 충분한 일정 시간에 걸쳐 마이크로폰 어레이(500)로부터의 입력 신호들을 모니터링하는 것으로 시작한다(박스 505). 일반적으로, 당업자들에게 공지되어 있는 바와 같이, 잡음 모델들은 입력 신호의 비교적 짧은 샘플들에 기초해 계산될 수 있다. 또한, 상기한 바와 같이, 일 실시예에서는, 마 이크로폰 어레이(500)가 지속적으로, 또는 사용자 지정 시점들이나 구간들에서 모니터링됨으로써, 시간의 함수로서 로컬 잡음 환경에 적응하는 마이크로폰 어레이에 대한 최적 빔들의 설계에 사용하기 위한 잡음 모델들이 실시간으로 또는 거의 실시간으로 업데이트될 수 있다.
입력 신호가 수신되고 나면, 종래의 A/D 변환 기술들(510)이 사용되어 입력 오디오 신호들로부터 디지털 신호 프레임들이 구성된다. 상기한 바와 같이, 이러한 프레임들의 길이는, 주파수 중복 효과들을 최소화하기 위해, 통상적으로 MCLT 작업 대역에서의 최저 주파수에 대한 주기보다 2배 이상 길어야 한다. 그 다음, 디지털 오디오 프레임들은 MCLT 계수들로 분해된다(515). 실험된 실시예에서는, MCLT 주파수 대역들의 사용(320)이, 통상적인 회의실 유형의 환경에서 통상적인 원형 마이크로폰 어레이에 대해 빔들을 설계할 경우에 양호한 결과들을 제공한다는 것을 알 수 있었다.
이 시점에서, 분해된 오디오 신호는 MCLT 계수들에 의해 주파수-영역 신호로 표현되기 때문에, 예를 들어, 소정 주파수 또는 주파수 범위에서의 필터링과 같은, 임의의 소정 주파수 영역 프로세싱을 적용하는 것이 훨씬 간단해진다. 예를 들어, 잡음 모델들로부터 주파수 범위들의 어떤 창 이외에 모두를 제외하고 싶다면, 이 단계에서 대역 통과형 필터를 적용할 수 있다. 마찬가지로, 예를 들어, 고역 통과, 저역 통과, 다중 대역 통과 필터들, 노치 필터들 등을 포함하는 다른 필터링 효과들이 개별적으로 또는 결합되어 적용될 수도 있다. 따라서, 일 실시예에서는, 오디오 프레임들로부터 잡음 모델들을 생성하기 전에, 입력 오디오 프레임들의 선 행 프로세싱(520)이 수행된다.
다음으로는, 선행 프로세싱의 수행 여부에 따라, 종래의 잡음 모델링 기술들을 사용해, 잡음 모델들이 생성된다(525). 예를 들어, 등방성 주변 잡음은 마이크로폰 어레이 주위의 작업 용적 또는 작업 공간 전체에 걸쳐 고르게 확산되어 있는 것으로 가정된다. 따라서, 등방성 주변 잡음은, 어레이가 사용될 장소의 정상 조건들에서 잡음을 직접적으로 샘플링하고 평균하는 것에 의해 모델링된다. 마찬가지로, 계기 잡음은, (잡음들이 마이크로폰들 및 프리앰프들의 회로로부터만 발생하도록) 잡음 및 반향이 없는 "이상적인 방"에서 어레이의 마이크로폰들에 대해 직접적으로 샘플링하고 평균하는 것에 의해 모델링된다.
잡음 모델들이 생성되고 나면(525), 다음 단계는 빔성형 설계에 사용하기 위한 다수의 변수들을 정의하는 것이다(박스 530). 구체적으로, 이들 변수들은 1) 상술한 바와 같이, 소정 감쇠 함수에 기초한 목표 빔 형태; 2) 어레이 주위로 확산되어 있는 목표 포커스 포인트들; 3) 목표 포커스 포인트들이 특정 목표 빔내에 있는지, 그 빔 주위의 전이 영역내에 있는지, 아니면 빔 및 전이 영역 외부에 있는지의 여부에 따라 목표 포커스 포인트들을 가중하기 위한 목표 가중 함수들; 4) 최소 및 최대의 소정 빔 형태 각도들; 및 5) 최적 빔 형태를 검색하는 동안 목표 빔 폭을 증분하기 위한 빔 스텝 사이즈를 포함한다. 이들 변수 모두는 소정 어레이에 대해 사전 정의된 다음, 빔 설계에 사용하기 위해 단순히 역판독된다. 다른 방법으로, 빔 설계 프로세스에 대해 더 많은 사용자 제어를 제공하기 위해, 이들 변수들 중 하나 이상은 사용자에 의해 조정될 수 있다.
다음으로는, 박스 540 내지 박스 585에 도시된 단계들로써 표현된 빔 설계 프로세스를 시작하기 전에, 포인트 cT(k)에서의 현 목표 빔 형태 각도(즉, 현 목표 빔 폭), 현재의 MCLT 하부 대역, 및 현 목표 빔을 추적하기 위한 카운터들이 초기화된다(박스 535).
구체적으로, 잡음 모델들 및 상기 변수들이 주어지면, 우선 마이크로폰 각각에 대한 현재의 MCLT 하부 대역 및 마이크로폰 각각의 지향성이 주어진 목표 포커스 포인트에서의 목표 빔 폭에 대한 가중치들을 계산하는 것(540)에 의해, 최적 빔 설계가 시작된다. 상기한 바와 같이, 마이크로폰 파라메트릭 정보(230)는 일정 종류의 테이블 또는 데이터베이스에 보관되거나, 일 실시예에서는, 예를 들어, "Self-Descriptive Microphone Array"에 설명되어 있는 바와 같이, 마이크로폰 파라메트릭 정보(230)가 마이크로폰 자체에 자동적으로 저장되어 마이크로폰 자체에 의해 보고된다. 다음으로는, 계산된 이들 가중치들이, 대응되는 목표 포커스 포인트에서 단위 이득 및 영 위상 시프트를 보장하도록 정규화된다(550). 그 다음, 정규화된 가중치들은 대응되는 빔 형태와 함께 저장된다(240).
다음으로는, 현 빔 형태 각도가 단계 530으로부터 특정된 최대 각도 이상인지에 대한 판정이 이루어진다(555). 현재의 빔 각도가 단계 530에서 특정된 최대 빔 각도 미만이면, 빔 각도는 상기한 빔 각도의 스텝 사이즈만큼 증분된다(박스 560). 다음으로는, 새로운 목표 빔 폭에 기초해 가중치들의 새로운 세트가 계산되고(540), 정규화되며(550), 저장된다(240). 다음으로는, 목표 빔 폭이 최대 각도 (555) 이상이 될 때까지, 이 단계들(540, 550, 240, 및 555)이 반복된다.
이 시점에서, 포인트 cT(k)에서의 현 목표 빔에 대한 현 MCLT 대역에 대해 최적 빔 폭을 선택하기 위해(박스 565), 저장된 목표 빔들 및 대응되는 가중치들이 검색된다. 이러한 최적 빔 폭 및 대응되는 가중 벡터는 현 MCLT 하부 대역에 대한 최적 빔 및 가중 행렬(255)에 저장된다. 다음으로는, 현 MCLT 하부 대역, 예를 들어, MCLT 하부 대역(i)이 최대 MCLT 하부 대역인지의 여부에 대한 판정이 이루어진다(박스 570). MCLT 하부 대역(i)이 최대 MCLT 하부 대역이 아니라면, MCLT 하부 대역 식별자(i)는 다음 MCLT 하부 대역을 가리키도록 증분되고, 현 빔 폭은 최소 각도로 리셋된다(박스 575).
그 다음 현 MCLT 하부 대역이 최대 MCLT 하부 대역일 때까지 새로운 현 MCLT 하부 대역에 의하여, 현 MCLT 하부 대역에 대한 최적 빔 및 가중 행렬 엔트리를 계산하기 위한 상술한 단계들(540, 550, 240, 555, 560, 565, 255, 570, 및 575)이 반복된다. 현 MCLT 하부 대역이 최대 MCLT 하부 대역과 동일해지면(박스 570), 최적 빔 및 가중 행렬은 포인트 cT(k)에서의 현 목표 빔에 대한 각각의 MCLT 하부 대역에 걸쳐 완전히 채워질 것이다.
그러나, 마이크로폰 어레이에 대해 하나 이상의 빔을 제공하는 것이 통상적으로 바람직하다. 따라서, 단계들 580 및 585로써 도시된 바와 같이, 포인트 cT(k)에서의 현 목표 빔에 대한 MCLT 하부 대역 각각의 최적 빔 및 가중 행렬을 채우도록 상술된 단계들은 일반적으로 작업 공간 전체에 걸쳐 고르게 배치된 K개 빔들에 대해 K번 반복된다. 얻어진 N×M×K의 3차원 가중 행렬(255)은, 그 로컬 환경의 현 잡음 조건들이 주어진 현 로컬 환경에서의 마이크로폰 어레이에 대해 일반적 빔 성형기에 의해 생성되는 완전한 빔 설계를 특정한다.
임의 구조 및 마이크로폰 지향성의 마이크로폰 어레이들에 대해 한 세트의 최적 빔들을 설계하는 일반적 빔성형기에 대한 상기 기술은 예시 및 설명을 위해 제시되었다. 개시된 정확한 형태로 본 발명을 총망라하거나 한정하려는 것은 아니 다. 상기 내용을 고려하여 많은 변경들 및 변형들이 가능할 수 있다. 또한, 상술한 대체 실시예들중 하나 또는 전부는 일반적 빔성형기의 추가적인 혼성 실시예들을 형성하기에 적합한 임의의 조합으로 사용될 수도 있다. 본 발명의 범위는 이러한 상세한 설명에 의해서가 아니라 여기에 첨부된 청구항들에 의해 한정되어야 한다.