KR20130116271A

KR20130116271A - 다중 마이크에 의한 3차원 사운드 포착 및 재생

Info

Publication number: KR20130116271A
Application number: KR1020137013367A
Authority: KR
Inventors: 래-훈 김; 에릭 비세르; 페이 시앙; 이안 엘난 리우; 디네시 라마크리시난
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-10-25
Filing date: 2011-10-25
Publication date: 2013-10-23
Also published as: JP6121481B2; CN103181192B; CN103181192A; US20120128160A1; JP5762550B2; EP2633697A1; JP2015213328A; WO2012061149A1; KR101547035B1; JP2014501064A; EP2633697B1; US9552840B2

Abstract

다중 마이크 설정을 사용하여 3차원 사운드 녹음 및 재생을 위한 시스템, 방법, 장치 및 기계 판독가능 매체가 기술되어 있다.

Description

다중 마이크에 의한 3차원 사운드 포착 및 재생{THREE-DIMENSIONAL SOUND CAPTURING AND REPRODUCING WITH MULTI-MICROPHONES}

미국 특허법 제119조 하에서의 우선권 주장

본 특허 출원은 2010년 10월 25일자로 출원되고 본 출원의 양수인에게 양도된, 발명의 명칭이 "다중 마이크에 의한 3차원 사운드 포착 및 재생(THREE-DIMENSIONAL SOUND CAPTURING AND REPRODUCING WITH MULTI-MICROPHONES)"인 미국 가특허 출원 제61/406,396호를 기초로 우선권을 주장한다. 본 특허 출원은 또한 2011년 3월 22일자로 출원되고 본 출원의 양수인에게 양도된, 발명의 명칭이 "와이드 스테레오 및 서라운드 사운드 녹음을 위한 다중 마이크 설정 및 처리 방식(MULTI-MICROPHONE SETUP AND PROCESSING SCHEME FOR WIDE STEREO AND SURROUND SOUND RECORDING)"인 미국 가특허 출원 제61/466,432호를 기초로 우선권을 주장한다.

본 개시 내용은 오디오 신호 처리에 관한 것이다.

일반 구성에 따른 오디오 신호 처리 방법은 녹음된 청각 장면을 국소화가능 음원의 제1 카테고리 및 주변 사운드의 제2 카테고리로 분해하는 단계, 및 국소화가능 음원 각각의 방향의 표시를 기록하는 단계를 포함한다. 특징을 판독하는 기계로 하여금 이러한 방법을 수행하게 하는 유형적 특징을 가지는 컴퓨터 판독가능 저장 매체(예컨대, 비일시적 매체)가 또한 개시되어 있다. 일반 구성에 따른 오디오 신호 처리 장치는 녹음된 청각 장면을 국소화가능 음원의 제1 카테고리 및 주변 사운드의 제2 카테고리로 분해하는 수단, 및 국소화가능 음원 각각의 방향의 표시를 기록하는 수단을 포함한다. 다른 일반 구성에 따른 오디오 신호 처리 장치는 녹음된 청각 장면을 국소화가능 음원의 제1 카테고리 및 주변 사운드의 제2 카테고리로 분해하도록 구성되어 있는 공간 선택적 필터, 및 국소화가능 음원 각각의 방향의 표시를 기록하도록 구성되어 있는 방향 추정기를 포함한다.

도 1은 셀룰러폰에 대한 대표적인 핸드셋 상의 마이크 배치를 나타낸 도면.
도 2a는 사용자 인터페이스 입력에 기초한 마이크/빔형성기 선택 방법의 플로우차트.
도 2b는 마이크 쌍에 대한 공간 선택성의 영역을 나타낸 도면.
도 3은 2차원에서 원하는 녹음 방향을 선택하는 사용자 인터페이스를 나타낸 도면.
도 4는 능동 잡음 제거(active noise cancellation, ANC)를 수행하도록 구성되어 있는 헤드셋 주위에 정의된 가능한 공간 섹터를 나타낸 도면.
도 5는 3-마이크 배열을 나타낸 도면.
도 6은 2개의 국소화가능 음원(가수 및 드럼) 및 국소화되지 않은 주변음에 대한 경우의 개념도.
도 7은 음원 방향 및/또는 수를 추정하기 위해 위상차의 분포를 사용하는 예를 나타낸 도면.
도 8은 음원 방향 및/또는 수를 추정하기 위해 다수의 빔형성기를 사용하는 예를 나타낸 도면.
도 9는 4-마이크 구성을 사용한 공간 코딩을 위한 무지향성 및 1차 포착을 나타낸 도면.
도 10은 휴대용 통신 디바이스의 한 예의 정면도 및 배면도.
도 11은 가로 방향으로부터 도착하는 음원 신호를 녹음하는 경우를 나타낸 도면.
도 12는 가로 방향으로부터 도착하는 음원 신호를 녹음하는 다른 경우를 나타낸 도면.
도 13은 세로 방향 빔을 결합하는 경우를 나타낸 도면.
도 14는 전방 중앙, 전방 좌측, 전방 우측, 후방 좌측, 및 후방 우측 방향에서의 빔에 대한 플롯의 예를 나타낸 도면.
도 15는 후방 우측 공간 방향에 대한 신호를 획득하기 위한 처리의 한 예를 나타낸 도면.
도 16은 3개의 마이크의 어레이에서 2-마이크 쌍 BSS를 사용한 널 빔형성(null beamforming) 방식을 나타낸 도면.
도 17은 전방 우측 방향에 대한 결과를 획득하기 위해 전방 우측 방향에서의 어느 빔이 결합되는지의 한 예를 나타낸 도면.
도 18은 도 16에 나타낸 방식에 대한 널 빔(null beam)의 예를 나타낸 도면.
도 19는 4개의 마이크의 어레이에서 4-채널 BSS를 사용한 널 빔형성 방식을 나타낸 도면.
도 20은 코너 방향 FL, FR, BL 및 BR에 대한 4개의 필터의 세트에 대한 빔 패턴의 예를 나타낸 도면.
도 21은 모바일 스피커 데이터를 바탕으로 학습된 IVA 수렴된 필터 빔 패턴의 예를 나타낸 도면.
도 22는 가공된(refined) 모바일 스피커 데이터를 바탕으로 학습된 IVA 수렴된 필터 빔 패턴의 예를 나타낸 도면.
도 23a는 세로 방향 빔을 결합하는 방법의 플로우차트.
도 23b는 일반적인 듀얼-쌍(dual-pair) 경우에 대한 방법의 플로우차트.
도 23c는 3-마이크 경우에 대한 도 23b의 방법의 구현예를 나타낸 도면.
도 24는 4개의 마이크의 어레이에서 4-채널 BSS를 사용하는 방법의 플로우차트.
도 25는 다수의 무지향성 마이크를 사용하여 녹음된 신호로부터의 5.1-채널 녹음을 제공하고 헤드폰을 사용하여 이러한 녹음을 재생하는 시스템을 나타낸 도면.
도 26은 BSS 필터 뱅크에 대한 부분 경로 표시도(routing diagram)를 나타낸 도면.
도 27은 2x2 필터 뱅크에 대한 경로 표시도를 나타낸 도면.
도 28a는 어레이(R100)의 구현예(R200)의 블록도.
도 28b는 어레이(R200)의 구현예(R210)의 블록도.
도 29a는 일반 구성에 따른 다중 마이크 오디오 감지 디바이스(D10)의 블록도.
도 29b는 디바이스(D10)의 구현예인 통신 디바이스(D20)의 블록도.

그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "신호"라는 용어는 와이어, 버스 또는 기타 전송 매체 상에 표현되는 바와 같은 메모리 위치(또는 메모리 위치들의 세트)의 상태를 포함하는 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "발생"이라는 용어는 컴퓨팅 또는 다른 방식으로 생성하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "계산"이라는 용어는 컴퓨팅, 평가, 평활화 및/또는 복수의 값 중에서 선택하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "획득"이라는 용어는 계산, 도출, (예컨대, 외부 디바이스로부터의) 수신, 및/또는 (예컨대, 저장 요소들의 어레이로부터의) 검색하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "선택"이라는 용어는 2개 이상으로 된 세트 중 적어도 하나 및 전부보다 적은 것의 식별, 표시, 적용 및/또는 사용하는 것과 같은 그의 통상의 의미들 중 어느 하나를 나타내기 위해 사용된다. "포함하는(comprising)"이라는 용어가 본 설명 및 특허청구범위에서 사용되는 경우, 이는 다른 요소들 또는 동작들을 배제하지 않는다. ("A가 B에 기초한다"와 같이) "~에 기초한다"라는 용어는 사례들 (i) "~로부터 도출된다"(예컨대, "B는 A의 전구체이다"), (ii) "적어도 ~에 기초한다"(예컨대, "A는 적어도 B에 기초한다") 및 특정 문맥에서 적절한 경우에 (iii) "~와 동일하다"(예컨대, "A는 B와 동일하다")를 비롯한 그의 통상의 의미들 중 어느 하나를 나타내는 데 사용된다. 이와 유사하게, "~에 응답하여"라는 용어는 "적어도 ~에 응답하여"를 비롯한 그의 통상의 의미들 중 어느 하나를 나타내는 데 사용된다.

다중 마이크 오디오 감지 디바이스의 마이크의 "위치"에 대한 참조는, 문맥이 달리 나타내지 않는 한, 마이크의 음향학적으로 민감한 면의 중앙의 위치를 나타낸다. "채널"이라는 용어는, 특정 문맥에 따라, 어떤 때는 신호 경로를 나타내는 데 사용되고, 다른 때는 그러한 경로에 의해 전달되는 신호를 나타내는 데 사용된다. 달리 언급하지 않는 한, "일련의"라는 용어는 둘 이상의 항목의 시퀀스를 나타내는 데 사용된다. "로그"라는 용어는 밑수 10의 로그를 나타내는 데 사용되지만, 그러한 연산의 다른 밑수로의 확장도 본 발명의 범위 내에 있다. "주파수 성분"이라는 용어는 (예컨대, 고속 푸리에 변환에 의해 생성되는 바와 같은) 신호의 주파수 영역 표현의 샘플 또는 신호의 서브대역(예컨대, 바크(Bark) 스케일 또는 멜(mel) 스케일 서브대역)과 같은 신호의 주파수들 또는 주파수 대역들의 세트 중 하나를 나타내는 데 사용된다.

달리 나타내지 않는 한, 특정의 특징을 가지는 장치의 동작에 대한 임의의 개시는 또한 유사한 특징을 가지는 방법을 개시하는 것도 명확히 의도하며(그 반대도 마찬가지임), 특정의 구성에 따른 장치의 동작에 대한 임의의 개시는 또한 유사한 구성에 따른 방법을 개시하는 것도 명확히 의도하고 있다(그 반대도 마찬가지임). "구성"이라는 용어는, 그의 특정의 문맥이 나타내는 바와 같이, 방법, 장치 및/또는 시스템과 관련하여 사용될 수 있다. "방법", "프로세스", "절차" 및 "기술"이라는 용어들은, 특정의 문맥이 달리 나타내지 않는 한, 총칭적으로 그리고 서로 바꾸어 사용될 수 있다. "장치" 및 "디바이스"라는 용어들이 또한, 특정의 문맥이 달리 나타내지 않는 한, 총칭적으로 그리고 서로 바꾸어 사용될 수 있다. "요소" 및 "모듈"이라는 용어들은 통상적으로 더 큰 구성의 일부분을 나타내는 데 사용된다. 그의 문맥에 의해 명확히 제한되지 않는 한, 본 명세서에서 "시스템"이라는 용어는 "공통의 목적을 이루기 위해 상호작용하는 요소들의 그룹"을 비롯한 그의 통상의 의미들 중 어느 하나를 나타내는 데 사용된다. 문헌의 일부분의 참조 문헌으로서의 임의의 포함은 또한 그 부분 내에서 참조되는 용어들 또는 변수들의 정의들을 포함하는 것으로도 이해되어야 하며, 그러한 정의들은 포함된 부분에서 참조되는 임의의 도면들은 물론, 문헌의 다른 곳에도 나온다.

본 명세서에 기술된 방법은 포착된 신호를 일련의 세그먼트로서 처리하도록 구성되어 있을 수 있다. 통상적인 세그먼트 길이는 약 5 또는 10 밀리초 내지 약 40 또는 50 밀리초의 범위에 있고, 세그먼트가 중첩되어 있거나(예컨대, 인접한 세그먼트가 25% 또는 50% 정도 중첩되어 있음) 비중첩되어 있을 수 있다. 하나의 특정의 예에서, 신호가 일련의 비중첩 세그먼트 또는 "프레임" - 각각이 10 밀리초의 길이를 가짐 - 으로 나누어진다. 이러한 방법에 의해 처리되는 세그먼트가 또한 상이한 동작에 의해 처리되는 보다 큰 세그먼트의 세그먼트(즉, "서브프레임")일 수 있거나, 그 반대일 수 있다.

현재, 페이스북, 트위터 등과 같은 빠르게 보편화되는 소셜 네트워크 서비스를 통해 개인 정보의 빠른 교환을 경험하고 있다. 이와 동시에, 이미 텍스트 뿐만 아니라 멀티미디어 데이터도 지원하는 네트워크 속도 및 저장 장치의 괄목할 만한 성장이 또한 있다. 이러한 환경에서, 중요한 점은 보다 현실감있고 몰입감있는 개인의 청각 경험의 교환을 위해 3차원(3D) 오디오를 포착 및 재생할 필요가 있다는 것이다.

3차원 오디오 재생은 헤드폰 또는 스피커 어레이를 사용하여 수행되어 왔다. 그렇지만, 온라인 제어성이 없으며, 따라서 정확한 음상(sound image)의 재생의 강인성이 제한되어 있다. HRTF(head-related transfer function, 머리 전달 함수)에 기초한 헤드폰 재생의 경우에, 음상은 통상적으로 사용자의 머리 내에 정위(localize)되고, 그에 따라 깊이 및 공간성(spaciousness) 지각이 제한될 수 있다.

음성 통신을 향상시키는 것과 관련하여 다중 마이크 기반 오디오 처리 알고리즘이 최근에 개발되었다. 본 개시 내용은 하나 이상의 이러한 알고리즘과 결합될 수 있는 다중 마이크 토폴로지에 기초한 3D 오디오에 대한 몇가지 독자적인 특징을 기술하고 있다. 이들 특징은 녹음 관점에서 그리고 재생 관점에서 이하에 기술되어 있다.

이들 특징은 3D 오디오의 전체 경로를 지원하기 위해 사용될 수 있고, 세분화된 특징들이 이하에 열거되어 있다. 녹음 관점은 방향 정보와 함께 재생을 위해 사용되는 모노럴 오디오 채널(monaural audio channel)을 전송하기 위한 방향 포착(directional capturing)을 다루고 있다. 재생 관점은, 다시 말하지만, 다중 마이크 토폴로지에 의한 강인하고 충실한 음상 재구성 방법을 도입하고 있다.

도 1은 상이한 음원 방향에 대한 구성가능한 마이크 어레이 기하형태를 가지는 디바이스의 3개의 상이한 도면을 나타낸 것이다. 사용 사례에 따라, 상이한 음원 방향에서 공간 선택적 오디오 녹음을 지원하기 위해 디바이스의 마이크들의 상이한 조합(예컨대, 쌍)이 선택될 수 있다. 예를 들어, 도 1을 참조하면, 비디오 카메라 상황(예컨대, 디바이스의 배면에 카메라 렌즈를 가짐)에서, 전후 방향을 녹음하기 위해(즉, 빔을 카메라 지점 방향 내로 그리고 그로부터 멀어지는 쪽으로 조종하기 위해) 전후 마이크 쌍(예를 들어, 마이크 2 및 4, 마이크 2 및 3, 마이크 5 및 4)이 사용될 수 있고, 이 때 좌우 방향 환경 설정은 수동으로 또는 자동으로 구성될 수 있다. 전후축에 직교인 방향에서의 녹음의 경우, 마이크 쌍 (1, 2)은 또 하나의 옵션이다.

일정 범위의 설계 방법(즉, MVDR, LCMV, 위상 어레이 등)이 주어진 경우, 다양한 마이크 조합에 대해 상이한 빔형성기 데이터뱅크가 오프라인으로 계산될 수 있다. 사용 중에, 이들 빔형성기 중 원하는 빔형성기가 현재의 사용 사례 요건에 따라 사용자 인터페이스에서의 메뉴를 통해 선택될 수 있다. 도 2a는 작업(T110 및 T120)을 포함하는 이러한 방법의 개념적 플로우차트를 나타낸 것이다. 작업(T110)은 하나 이상의 선호된 사운드 포착 방향을 지정하고(예컨대, 자동으로 및/또는 사용자 인터페이스를 통해 선택됨), 작업(T120)은 지정된 지향성을 제공하는 빔형성기 및 마이크 어레이)의 조합(예컨대, 쌍)을 선택한다. 도 3은 녹음 방향을 선택하는 사용자 인터페이스의 한 예를 나타낸 것이다.

도 4는 음성 포착 및/또는 능동 잡음 제거(active noise cancellation, ANC) 등의 적용례를 지원하기 위해 3개의 마이크를 포함하는 스테레오 헤드셋에 대한 관계된 사용 사례의 예시를 나타낸 것이다. 이러한 적용례에 대해, 이러한 3-마이크 구성을 사용하여(도 4, 무지향성 마이크를 사용하여) 녹음을 위한 머리 주위의 상이한 섹터들이 정의될 수 있다.

3차원 오디오 포착이 또한 도 5에 도시된 바와 같은 3-마이크 배열 등의 특수 마이크 설정에 의해 수행될 수 있다. 이러한 배열은 유선으로 또는 무선으로 비디오 녹화 디바이스(D400) 등의 녹음 디바이스에 연결될 수 있다. 디바이스(D400)는 디바이스 배향의 검출 및 선택된 오디오 녹음 방향에 따른 마이크들(ML10, MR10 및 MC10) 중에서의 한 쌍의 선택을 위한 본 명세서에 기술된 장치를 포함할 수 있다. 대안의 배열에서, 마이크(MC10)는 녹음 장치 상에 위치되어 있다.

자동 장면 분석 및 분해 기능을 제공하는 것이 바람직할 수 있다. 이러한 기능은 디바이스의 사용자가 선호된 오디오 녹음 방향을 지정하지 않았거나 이러한 정보가 다른 방식으로 이용가능하지 않은 경우에 바람직할 수 있다.

자동화된 장면 분석 및 분해의 한 예에서, 청각 장면이 2개의 주 카테고리로 분해된다. 제1 주 카테고리는 국소화가능 음원이다. 이러한 음원으로부터의 신호 성분은, 각자의 추정된 도착 방향에 따라 설계(예컨대, 오프라인으로 계산)되고 선택될 수 있는 적당한 빔형성기를 사용하여 포착될 수 있다. 각각의 국소화가능 음원의 녹음은 음원의 도착 방향을 기록하고 대응하는 모노(monophonic) 오디오 신호를 녹음하는 것을 포함할 수 있다. 녹음된 신호의 재생 동안, 이들 음원이 적절한 방향 정보와 합성될 수 있다.

장면이 녹음되고 있는 것에 응답하여, 기지의 방향으로 배향되어 있는 빔형성기의 출력을 비교함으로써 도착 방향(DOA)의 추정이 수행될 수 있다. 그에 부가하여 또는 다른 대안으로서, 방향 추정기는 하나 이상의 마이크 채널 쌍의 대응하는 주파수 성분의 위상차를 계산하도록 구성되어 있을 수 있다(이 경우, 도착 방향은 위상차와 주파수 사이의 비로 표시됨). 그에 부가하여 또는 다른 대안으로서, 방향 추정기는 하나 이상의 마이크 채널 쌍의 레벨의 차(예컨대, 에너지 차)를 계산하도록 구성되어 있을 수 있다.

국소화된 음원 신호가 개별적으로 또는 결합하여 재생될 수 있다. 공간화된 모노 음원이 재생측에서 궁극적으로 믹싱되어야 하는 경우에, 분리 요건이 완화될 수 있다. 예를 들어, 녹음 동안 단지 6 dB만큼의 다른 지향성 음원 또는 음원들의 억압이 충분한 정도의 분리를 제공하는 것으로 간주될 수 있다.

제2 주 카테고리는 포착된 국소화가능하지 않은 주변음이다. 이러한 주변음은, 예를 들어, 국소화된 음원으로부터의 성분을 녹음된 신호로부터 차감함으로써 잔차로서 획득될 수 있다. 주변음 신호는 재생측에 있는 서라운드 스피커에 의해 추가로 처리될 수 있거나, 헤드폰 청취의 경우에 확산될 수 있다.

이러한 자동화된 분석 및 분해는 장면에서 국소화될 사용자가 정의한 수의 우세 음원(dominant source)에 의해 안내될 수 있다. 그렇지만, 원하는 수의 우세 음원이 이용가능하지 않은 경우, 이는 또한 자동적으로(예컨대, 도착 방향 정보의 분석에 기초하여) 판정될 수 있다. 도 6은 마이크 어레이에 대해 상이한 도착 방향 θ에 위치해 있는 2개의 국소화가능 음원(가수 및 드럼)의 개념도를 나타낸 것이다.

한 예(예컨대, 도 7에 도시됨)에서, 국소화된 음원의 수는 일정 범위의 주파수에 걸쳐 각각의 방향으로부터 도착하는 주파수 성분의 수를 나타내는 히스토그램에서의 피크의 수에 따라 계산된다. 다른 예(예컨대, 도 8에 도시됨)에서, 국소화된 음원의 수는 장면이 녹음되고 있는 것에 응답하여, 상이한 방향으로 배향되어 있는 한 세트의 빔형성기 중에, 임계값보다 높은(다른 대안으로서, 적어도 임계값과 같은) 출력을 가지는 빔형성기의 수에 따라 계산된다.

일반적으로, 원단 사용자가 녹음된 공간 사운드를 스테레오 헤드셋(예컨대, 적응적 잡음 제거 또는 ANC 헤드셋)을 사용하여 청취하고 있는 것으로 가정한다. 그렇지만, 다른 적용례에서, 3개 이상의 공간 방향을 재생할 수 있는 다중 스피커 어레이가 원단에서 이용가능할 수 있다. 이러한 사용 사례를 지원하기 위해, 녹음 동안 2개 이상의 마이크/빔형성기 조합을 동시에 활성화시키는 것이 바람직할 수 있다.

하나 이상의 음원 방향 각각에 대해 모노 사운드를 생성하기 위해 다중 마이크 어레이가 공간 선택적 필터와 함께 사용될 수 있다. 그렇지만, 이러한 어레이는 또한 2차원 또는 3차원에서의 공간 오디오 인코딩을 지원하기 위해 사용될 수 있다. 본 명세서에 기술된 바와 같이 다중 마이크 어레이에 의해 지원될 수 있는 공간 오디오 인코딩 방법의 예로는 5.1 서라운드, 7.1 서라운드, 돌비 서라운드(Dolby Surround), 돌비 프로로직(Dolby Pro-Logic), 또는 임의의 다른 위상-진폭 매트릭스 스테레오 형식; 돌비 디지털(Dolby Digital), DTS 또는 임의의 이산 다중 채널 형식(discrete multi-channel format); 및 파면 음장 합성(wavefield synthesis)이 있다. 5-채널 인코딩의 한 예로는 좌 채널, 우 채널, 중앙 채널, 좌 서라운드 채널 및 우 서라운드 채널이 있다.

본 명세서에 기술된 바와 같이 다중 마이크 어레이에 의해 지원될 수 있는 공간 오디오 인코딩 방법의 예로는 또한 원래 Ambisonic B 포맷(format) 또는 고차 Ambisonic 포맷 등의 특수 마이크와 함께 사용하기 위한 것이었던 방법이 있다. 예를 들어, Ambisonic 인코딩 방식의 처리된 다중 채널 출력은 도 9에 도시된 바와 같은 3차원적으로 위치된 마이크 어레이를 사용하여 적어도 1차까지 근사화될 수 있는, 측정 지점에 대한 3차원 테일러 전개(Taylor expansion)이다. 더 많은 마이크가 있는 경우, 근사화 차수를 증가시킬 수 있다.

몰입감있는 사운드 경험을 사용자에게 전달하기 위해, 서라운드 사운드 녹음은 통상적으로 단독으로 또는 비디오 녹화와 함께 행해진다. 서라운드 사운드 녹음은 일반적으로 단일 지향성 마이크를 사용하는 개별 마이크 설정을 필요로 하며, 이는 통상적으로 개별적으로 클리핑될 필요가 있고 따라서 휴대용 오디오 감지 디바이스(예컨대, 스마트폰 또는 태블릿)에는 적합하지 않다. 본 개시 내용에서, 공간 필터링과 결합된 다수의 무지향성 마이크에 기초한 대안의 방식이 제시되어 있다. 이 해결 방안은 다수의 사용 사례를 지원하기 위해 스마트폰 또는 태블릿에 내장되어 있는 무지향성 마이크에 기초하고 있다. 따라서, 비디오 녹화 응용을 지원하기 위해 커다란 단일 지향성 마이크 설정이 필요하지 않다.

스마트폰 또는 태블릿 디바이스에서 다중 서라운드 채널을 녹음하기 위해 와이드 스테레오를 위한 2개의 마이크, 및 서라운드 사운드를 위한 적절한 마이크 축을 갖는 적어도 3개의 무지향성 마이크가 사용된다. 이들 채널은 차례로 원하는 주시 방향에서 특정의 공간 수음 패턴을 가지도록 설계되어 있는 필터를 사용하여 쌍으로 처리되거나 모두가 동시에 필터링된다. 공간 엘리어싱으로 인해, 그 패턴이 가장 관련성있는 주파수 대역에서 효과적이도록 마이크간 거리가 선택될 수 있다. 발생된 스테레오 또는 5.1 출력 채널은 몰입감있는 사운드 경험을 발생하기 위해 서라운드 사운드 설정에서 재생될 수 있다.

도 10은 휴대용 통신 디바이스(예컨대, 스마트폰)의 한 예의 정면도 및 배면도를 나타낸 것이다. 전방 마이크 2 및 후방 마이크 4의 어레이는 스테레오 녹음을 하기 위해 사용될 수 있는 하나의 전형적인 듀얼 마이크 구성이며, 몇가지 다른 쌍 어레이[예컨대, (1,2), (3,4), (1,4)]도 가능하다. 디바이스의 보유 위치에 의존할 수 있는 음원에 대한 마이크의 상이한 위치는 공간 필터링을 사용하여 강조될 수 있는 스테레오 효과를 생성한다. (예컨대, 비디오 녹화 동안) 해설자와 녹화되는 장면 사이의 스테레오 음상(stereo image)을 생성하기 위해, (도 1의 측면도에 도시된 바와 같이) 디바이스의 두께의 거리를 가지는 전방 마이크 2 및 후방 마이크 4를 사용하는 세로 방향 쌍을 사용하는 것이 바람직할 수 있다. 그렇지만, 유의할 점은, (도 1의 배면도에 도시된 바와 같이) z-축 쪽으로의 거리를 갖는 세로 방향 쌍을 생성하기 위해 상이한 보유 위치에서 동일한 마이크를 사용할 수 있다는 것이다. 후자의 경우에, 장면 쪽으로의 스테레오 음상을 생성할 수 있다(예컨대, 장면에서 좌측으로부터 나오는 사운드가 좌측에서 오는 사운드(left-coming sound)로서 포착된다).

도 11은 가로 방향으로부터 도착하는 음원 신호를 녹음하기 위해 디바이스의 두께의 거리를 갖는 전방 마이크 2 및 후방 마이크 4의 세로 방향 쌍을 사용하는 경우를 나타낸 것이다. 이 예에서, 2개의 마이크의 좌표는 (x=0, y=0, z=0) 및 (x=0, y=0.10, z=-0.01)이다. y=0 평면을 따른 영역이 가로 방향에서의 빔을 나타내고 (x=0, y=-0.5, z=0) 주위의 영역이 세로 방향에서의 널빔을 나타내도록 스테레오 빔형성이 적용된다. 해설자가 가로 방향으로부터(예컨대, 디바이스의 배면에) 말을 하고 있을 때, 마이크 쌍의 축을 중심으로 한 회전과 관련한 모호함으로 인해, 해설자의 목소리와 디바이스의 전면에서의 장면으로부터의 사운드를 구별하는 것이 어려울 수 있다. 그 결과, 해설자의 목소리를 장면으로부터 분리시키기 위한 스테레오 효과가 향상되지 않는다.

도 12는 가로 방향으로부터 도착하는 음원 신호를 녹음하기 위해 디바이스의 두께의 거리를 갖는 전방 마이크 2 및 후방 마이크 4의 세로 방향 쌍을 사용하는 다른 경우를 나타낸 것이며, 여기서 마이크 좌표는 도 11에서와 동일하다. 이 예에서, 사용자(예컨대, 해설자)의 목소리가 한 채널에서 소거(null out)되도록 빔이 세로 방향 쪽으로[지점 (x=0, y=-0.5, z=0)을 통해] 배향된다. 빔은 널 빔형성기 또는 다른 방식을 사용하여 형성될 수 있다. 예를 들어, ICA(independent component analysis, 독립 성분 분석) 또는 IVA(independent vector analysis, 독립 벡터 분석) 등의 BSS(blind source separation, 블라인드 음원 분리) 방식은 널 빔형성기보다 더 와이드한 스테레오 효과를 제공할 수 있다. 유의할 점은, 녹화된 장면 자체에 더 와이드한 스테레오 효과를 제공하기 위해, (도 1의 배면도에 도시된 바와 같이) z-축 쪽으로의 거리를 갖는 동일한 마이크의 세로 방향 쌍을 사용하는 것으로 충분할 수 있다는 것이다.

디바이스가 가로 방향 보유 위치에 있는 경우, 원래의 녹음과 비교하여 스테레오 효과를 향상시키기 위해 (예컨대, 도 12 및 도 13에 도시된 바와 같이) 좌우측에 세로 방향 빔을 결합시키는 것이 바람직할 수 있다. 이러한 처리는 또한 (예컨대, 마이크 간격을 시뮬레이트하기 위해) 채널간 지연을 부가하는 것을 포함할 수 있다. 이러한 지연은 공간에서의 공통 기준점에 대한 양쪽 빔형성기의 출력 지연을 정규화시키는 역할을 할 수 있다. 스테레오 채널이 헤드폰을 통해 재생될 때, 지연을 조작하는 것은 선호된 방향에서의 공간 음상(spatial image)을 회전시키는 데 도움을 줄 수 있다. 디바이스는 보유 위치를 나타내는 가속도계, 자기계, 및/또는 자이로스코프를 포함할 수 있다[예컨대, 발명의 명칭: “배향 감지 녹음 제어를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체(SYSTEMS, METHODS, APPARATUS, AND COMPUTER-READABLE MEDIA FOR ORIENTATION-SENSITIVE RECORDING CONTROL)”인 미국 특허 출원 제13/XXX,XXX호(대리인 사건 번호 102978U1)에 기술되어 있음]. 도 23a는 이러한 방법의 플로우차트를 나타낸 것이다.

디바이스가 세로 방향 보유 위치에 있을 때, 녹음은 이미 와이드 스테레오 효과를 제공하는 것으로 예상될 수 있다. 이 경우에, 공간 필터링(예컨대, 널 빔형성기 또는 ICA 또는 IVA 등의 BSS 해결 방안을 사용함)은 그 효과를 약간만 향상시킬 수 있다.

듀얼 마이크 경우에서, 앞서 기술된 바와 같이, (예컨대, 사용자의 음성 및 녹음된 장면의 분리를 개선시키기 위해) 스테레오 녹음된 파일이 공간 필터링을 통해 향상될 수 있다. 신호를 3개 이상의 채널로 업믹싱하는 등을 위해, (예컨대, 서라운드 사운드를 위해) 포착된 스테레오 신호로부터 몇개의 상이한 방향 채널을 발생하는 것이 바람직할 수 있다. 예를 들어, 각각의 채널에 대해 5개의 스피커의 어레이 중의 상이한 스피커를 사용하여 신호가 재생될 수 있도록 (예를 들어, 5.1 서라운드 사운드 방식을 위해) 신호를 5개의 채널로 업믹싱하는 것이 바람직할 수 있다. 이러한 방식은 업믹싱된 채널을 획득하기 위해 대응하는 방향에서 공간 필터링을 적용하는 것을 포함할 수 있다. 이러한 방식은 또한 업믹싱된 채널(예컨대, 돌비 서라운드의 한 형태)에 다중 채널 인코딩 방식을 적용하는 것을 포함할 수 있다.

녹음을 위해 3개 이상의 마이크가 사용되는 경우에, 공간 필터링 및 상이한 마이크 조합을 사용하여 다수의 방향(예컨대, 5.1 표준에 따른 5개 방향)에서 녹음하고, 이어서 (예컨대, 5개의 스피커를 사용하여) 녹음된 신호를 재생하는 것이 가능하다. 이러한 처리는 업믹싱 없이 수행될 수 있다.

도 1은 3개 이상의 마이크를 가지는 휴대용 통신 디바이스(예컨대, 스마트폰)의 한 예의 정면도, 배면도 및 측면도를 나타낸 것이다. 특정의 주시 방향에서 향상된 구분을 달성하기 위해 상이한 마이크 쌍으로부터의 빔 및/또는 널 빔을 결합시키는 것이 바람직할 수 있다. 하나의 다중 채널 녹음 방식은 전후 마이크 쌍(예컨대, 마이크 2 및 3) 및 좌우 마이크 쌍(예컨대, 마이크 1 및 2)을 사용하여 5개의 상이한 주시 방향에서 2차원 빔을 설계하는 것을 포함한다. 도 14는 전방 중앙(FC), 전방 좌측(FL), 전방 우측(FR), 후방 좌측(BL), 및 후방 우측(BR) 방향에서의 이러한 빔에 대한 플롯의 예를 나타낸 것이다. X, Y 및 Z는 이들 플롯 모두에서 유사하게 배향되어 있고(각각의 범위의 중간은 0이고 양극단은 +/- 0.5이며, X축은 우측으로 증가하고, Y축은 좌측으로 증가하며, Z축은 위쪽으로 증가함), 어두운 영역은 언급한 바와 같이 빔 또는 널 빔 방향을 나타낸다. 각각의 플롯에 대한 빔은 하기의 지점(z=0)을 통해 지나간다: FC의 경우 (x=0, y=+0.5), FR의 경우 (x=+0.5, y=+0.5), BR의 경우 (x=+0.5, y=-0.5), BL의 경우 (x=-0.5, y=-0.5), 및 FL의 경우 (x=-0.5, y=+0.5).

공간 필터링 기법의 유효성이 작은 마이크간 간격, 공간 엘리어싱, 및 고주파에서의 산란 등의 인자들에 따라 대역 통과 범위로 제한될 수 있다. 한 예에서, 신호가 공간 필터링 이전에 (예컨대, 8 kHz의 차단 주파수로) 저역 통과 필터링된다.

단일 점 음원으로부터의 사운드가 포착되고 있는 경우에, 이러한 빔형성을 다른 방향으로부터 도착하는 신호를 마스킹하는 것으로 보완하는 것은 원하는 마스킹 효과를 달성하는 데 필요한 적극성의 레벨에서 비직접 경로 신호의 강한 감쇠 및/또는 가청 왜곡을 가져올 수 있다. 이러한 아티팩트는 HD(high-definition) 오디오에 바람직하지 않을 수 있다. 한 예에서, HD 오디오는 48 kHz의 샘플링 레이트로 녹음된다. 이러한 아티팩트를 완화시키기 위해, 적극적으로 공간 필터링된 신호를 사용하는 대신에, 각각의 채널에 대한 처리된 신호의 에너지 프로파일만을 사용하고 마스킹 이전에 원래의 입력 신호 또는 공간적으로 처리된 출력에 대해 각각의 채널에 대한 에너지 프로파일에 따라 이득 패닝 규칙(gain panning rule)을 적용하는 것이 바람직할 수 있다. 유의할 점은, 사운드 이벤트가 통상적으로 시간-주파수 맵에서 아주 희소하기 때문에, 다중 음원 경우에 대해서도 이러한 사후 이득 패닝(post-gain-panning) 방법을 사용하는 것이 가능하다는 것이다. 도 15는 후방 우측 공간 방향에 대한 신호를 획득하기 위한 처리의 한 예를 나타낸 것이다. 플롯 A(진폭 대 시간)는 원래의 마이크 녹음을 나타낸 것이다. 플롯 B(진폭 대 시간)는 마이크 신호를 (8 kHz의 차단 주파수로) 저역 통과 필터링하고 마스킹에 의해 공간 필터링을 수행한 결과를 나타낸 것이다. 플롯 C(크기 대 시간)는 플롯 B에서의 신호의 에너지에 기초한 관련 공간 에너지(예컨대, 샘플값 제곱의 합)를 나타낸 것이다. 플롯 D(상태 대 시간)는 저주파 공간 필터링에 의해 표시되는 에너지 차에 기초한 패닝 프로파일을 나타낸 것이고, 플롯 E(진폭 대 시간)는 48 kHz 패닝된 출력을 나타낸 것이다.

듀얼 마이크 쌍 경우에 대해, 하나의 쌍에 대한 적어도 하나의 빔 및 다른 쌍에 대한 상이한 방향에서의 적어도 2개의 빔을 설계하는 것이 바람직할 수 있다. 빔은 (예컨대, ICA 또는 IVA 등의 BSS 방식에 의해) 설계되거나 학습될 수 있다. 이들 빔 각각은 녹음의 상이한 채널을 획득하는 데(예컨대, 서라운드 사운드 녹음을 위해) 사용될 수 있다.

도 16은 3개의 마이크의 어레이에서 2-마이크 쌍 BSS를 사용한 널 빔형성 방식(예컨대, ICA 또는 IVA)을 나타낸 것이다. 전후 방향에 대해, 마이크 쌍 (2,3)이 사용된다. 좌우 방향에 대해, 마이크 쌍 (1,2)가 사용된다. 2개의 마이크 쌍의 축이 직교이거나 적어도 실질적으로 직교(예컨대, 직교로부터 5도, 10도, 15도, 또는 20도 이하)인 것이 바람직할 수 있다.

채널들 중 일부는 빔들 중 2개 이상의 빔을 결합하여 생성될 수 있다. 도 17은 전방 우측 방향에 대한 결과를 획득하기 위해 전방 우측 방향에서의 어느 빔이 결합되는지의 한 예를 나타낸 것이다. 전방 좌측, 후방 우측, 및/또는 후방 좌측 방향에 대한 결과가 동일한 방식으로 획득될 수 있다. 이 예에서, 이러한 방식으로 중첩하는 빔을 결합하는 것은 대응하는 코너로부터 도착하는 신호에 대해 다른 위치로부터 도착하는 신호보다 6 dB 더 큰 신호를 제공한다. 도 23b는 일반적인 듀얼-쌍 경우에 대한 이러한 방법의 플로우차트를 나타낸 것이다. 도 23c는 3-마이크 경우에 대한 도 23b의 방법의 구현예를 나타낸 것이다. 공간에서의 공통 기준점에 대한 양쪽 빔형성기의 출력 지연을 정규화시키기 위해 채널간 지연을 적용하는 것이 바람직할 수 있다. "좌우 세로 방향 쌍" 및 "전후 세로 방향 쌍"이 결합될 때, 기준점을 마이크 어레이의 무게 중심으로 설정하는 것이 바람직할 수 있다. 이러한 동작은 2개의 쌍 사이의 지연의 조정에 의해 원하는 코너 위치에서 최대화된 빔 발생(beaming)을 지원할 수 있다.

도 18은 도 16에 나타낸 방식에 대한 널 빔의 예를 나타낸 것으로서, 이는 디바이스와 음원(또는 음원들)의 상대적 위치가 고정되어 있는 시나리오에서 학습된 MVDR 빔형성기 또는 수렴된 BSS(예컨대, ICA 또는 IVA)를 사용하여 설계될 수 있다. 이들 예에서, 도시된 주파수 빈의 범위는 0 내지 8 kHz의 대역에 대응한다. 공간 빔 패턴이 상보적이라는 것을 알 수 있다. 또한, 좌우쌍의 마이크와 전후쌍의 마이크 사이의 상이한 간격으로 인해, 이들 예에서, 공간 엘리어싱이 이들 빔 패턴에 상이하게 영향을 미치고 있다는 것을 알 수 있다.

공간 엘리어싱으로 인해, 마이크간 거리에 따라, 포착된 신호의 전체 주파수 범위 미만에(예컨대, 앞서 살펴본 바와 같이, 0 내지 8 kHz의 범위에) 빔을 적용하는 것이 바람직할 수 있다. 저주파 성분이 공간적으로 필터링된 후에, 공간 지연, 처리 지연 및/또는 이득 정합에 대한 어떤 조정과 함께, 고주파 성분이 다시 부가될 수 있다. 어떤 경우(예컨대, 핸드헬드 디바이스 폼 팩터)에, 중간 주파수 범위만(예컨대, 200 또는 500 Hz까지만)을 필터링하는 것이 또한 바람직할 수 있는데, 그 이유는 마이크 간격 제한으로 인해 어쨋든 얼마간의 지향성의 상실이 예상될 수 있기 때문이다.

어떤 종류의 비선형 위상 왜곡이 존재하는 경우(보통 항상 그러함), 동일한 DOA에 따라 모든 주파수에 대해 동일한 지연에 기초하는 표준의 빔/널형성 기법은 비선형 위상 왜곡에 의해 야기되는 어떤 주파수에 대한 차등 지연으로 인해 성능이 좋지 않을 수 있다. 그렇지만, 본 명세서에 기술된 바와 같은 IVA에 기초한 방법은 음원 분리에 기초하여 동작하며, 따라서 이러한 방법은 동일한 DOA에 대해 차등 지연의 존재 시에도 양호한 결과를 생성할 것으로 예상될 수 있다. 이러한 강인성은 서라운드 처리 계수를 얻기 위해 IVA를 사용하는 것의 잠재적인 이점일 수 있다.

어떤 차단 주파수(예컨대, 8 kHz)를 넘어서 공간 필터링이 행해지지 않는 경우에, 최종적인 HD 신호를 제공하는 것은 원래의 전/후 채널을 고역 통과 필터링하고 8 내지 24 kHz의 대역을 다시 부가하는 것을 포함할 수 있다. 이러한 동작은 공간 및 고역 통과 필터링 지연을 조정하는 것을 포함할 수 있다. (예컨대, 공간 분리 효과와 혼동하지 않기 위해) 8 내지 24 kHz 대역의 이득을 조정하는 것이 또한 바람직할 수 있다. 도 15에 예시된 예가 시간 영역에서 필터링되었지만, 본 명세서에 기술된 방식을 다른 영역(예컨대, 주파수 영역)에서의 필터링에 적용하는 것이 명백히 생각되고 있고 본 명세서에 개시되어 있다.

도 19는 4개의 마이크의 어레이에서 4-채널 BSS를 사용한 널 빔형성 방식(예컨대, ICA 또는 IVA)을 나타낸 것이다. 4개의 마이크의 다양한 쌍 중 적어도 2개의 쌍의 축이 직교이거나 적어도 실질적으로 직교(예컨대, 직교로부터 5도, 10도, 15도, 또는 20도 이하)인 것이 바람직할 수 있다. 코너 방향으로의 빔 패턴을 생성하기 위해 듀얼 마이크 쌍에 부가하여, 이러한 4-마이크 필터가 사용될 수 있다. 한 예에서, IVA 및 훈련 데이터를 사용하여 필터가 학습되고, 5.1 서라운드 사운드(FL,FC,FR,BR,BL)에서 각자의 5개의 채널 방향 각각에 대한 신호를 생성하기 위해, 얻어진 수렴된 IVA 필터가 4개의 녹음된 마이크 입력에 적용되는 고정된 필터로서 구현된다. 5개의 스피커를 충분히 이용하기 위해, 예를 들어, 하기의 규칙을 사용하여, 전방 중앙 채널(FC)이 획득될 수 있다:

. 도 24는 이러한 방법에 대한 플로우차트를 나타낸 것이다. 도 26은 이러한 필터 뱅크에 대한 부분 경로 표시도를 나타낸 것이고, 여기서 마이크 n(단, 1<=n<=4임)은 열 n에 있는 필터에의 입력을 제공하고, 각각의 출력 채널은 대응하는 행에 있는 필터들의 출력의 합이다.

이러한 학습 프로세스의 한 예에서, 독립적인 음원이 4-마이크 어레이 주위의 4개의 지정된 위치(예컨대, 4개의 코너 위치 FL, FR, BL 및 BR) 각각에 배치되고, 어레이는 4-채널 신호를 포착하는 데 사용된다. 유의할 점은, 포착된 4-채널 출력 각각이 4개의 음원 모두의 혼합음이라는 것이다. 4개의 독립적인 음원을 분리시키기 위해 BSS 기법(예컨대, IVA)이 이어서 적용된다. 수렴 후에, 분리된 4개의 독립적인 음원은 물론, 본질적으로 목표 코너 쪽으로 빔을 발생하고 다른 3개의 코너 쪽으로 널링하는 수렴된 필터 세트를 획득한다.

도 20은 코너 방향 FL, FR, BL 및 BR에 대한 이러한 4개의 필터의 세트에 대한 빔 패턴의 예를 나타낸 것이다. 가로 녹음 모드(landscape recording mode)에서, 필터를 획득하고 적용하는 것은 2개의 전방 마이크 및 2개의 후방 마이크를 사용하는 것, 어레이에 대해 고정된 위치에 있는 음원에 대해 4-채널 IVA 학습 알고리즘을 실행하는 것, 및 수렴된 필터를 적용하는 것을 포함할 수 있다.

빔 패턴은 획득된 혼합음 데이터에 따라 달라질 수 있다. 도 21은 모바일 스피커 데이터를 바탕으로 학습된 IVA 수렴된 필터 빔 패턴의 예를 나타낸 것이다. 도 22는 가공된 모바일 스피커 데이터를 바탕으로 학습된 IVA 수렴된 필터 빔 패턴의 예를 나타낸 것이다. 이들 예는, FR 빔 패턴을 제외하고는, 도 21에 도시된 것과 동일하다.

IVA를 사용하여 4-마이크 필터를 훈련시키는 프로세스는 원하는 방향 쪽으로 빔을 발생하는 것은 물론, 간섭 방향을 널링하는 것도 포함한다. 예를 들어, 전방 좌측(FL) 방향에 대한 필터는 FL 방향 쪽으로의 빔을 포함하고 전방 우측(FR), 후방 좌측(BL) 및 후방 우측(BR) 방향에서 널링하는 해로 수렴된다. 정확한 마이크 어레이 기하형태가 이미 알려져 있는 경우, 이러한 훈련 동작은 결정론적으로 행해질 수 있다. 다른 대안으로서, 풍부한 훈련 데이터로 IVA 프로세스가 수행될 수 있고, 이 때 하나 이상의 오디오 소스(예컨대, 음성, 악기 등)가 각각의 코너에 위치해 있고 4-마이크 어레이에 의해 포착된다. 이 경우에, 마이크 구성에 관계없이(즉, 마이크 기하형태에 관한 정보를 필요로 하지 않고), 훈련 프로세스가 수행될 수 있고, 나중에 특정의 어레이 구성에 대해 필터가 고정될 수 있다. 어레이가 투영된 2차원(x-y) 평면에 4개의 마이크를 포함하는 한, 4개의 코너 필터의 적절한 세트를 생성하기 위해 이 학습 처리의 결과가 적용될 수 있다. 명백히 유의할 점은, 어레이의 마이크가 2개의 직교 또는 거의 직교(예컨대, 직교로부터 15도 이내)인 축에 배열되어 있는 한, 이러한 훈련된 필터가 특정의 마이크 어레이 구성의 제약 조건 없이 서라운드 음상을 녹음하는 데 사용될 수 있다는 것이다. 예를 들어, 2개의 축이 직교에 아주 가까운 경우 3-마이크 어레이로 충분하고, 각각의 축에서의 마이크들 간의 분리의 비가 중요하지 않다.

앞서 살펴본 바와 같이, 저주파 항을 공간적으로 처리하고 고주파 항을 통과시킴으로써 광대역(예컨대, HD) 신호가 획득될 수 있다. 그렇지만, 계산 복잡도의 증가가 특정의 설계에 중요한 관심사가 아닌 경우에, 그 대신에 주파수 영역 전체를 처리하는 것이 수행될 수 있다. 4-마이크 IVA 방식이 빔 발생보다는 널링에 더 중점을 두고 있기 때문에, 고주파 항에서의 엘리어싱의 효과가 감소된다. 빔 발생 방향에서는 희소 주파수에서만 널 엘리어싱이 일어나고, 따라서 빔 발생 방향에서의 대부분의 주파수 영역이 널 엘리어싱에 의해 영향을 받지 않은 채로 있을 것이며, 작은 마이크간 거리에 대해 특히 그렇다. 보다 큰 마이크간 거리에 대해, 널링은 실제로 랜덤하게 되고, 따라서 효과는 미처리된 고주파 항을 단지 통과시키는 경우와 유사하다.

작은 폼 팩터(예컨대, 핸드헬드 디바이스)의 경우, 저주파에서 공간 필터링을 수행하는 것을 피하는 것이 바람직할 수 있는데, 그 이유는 마이크 간격이 너무 작아 양호한 결과를 지원할 수 없고 고주파에서의 성능이 열화될 수 있기 때문이다. 이와 마찬가지로, 고주파에서 공간 필터링을 수행하는 것을 피하는 것이 바람직할 수 있는데, 그 이유는 이러한 주파수가 통상적으로 이미 지향성이고, 공간 엘리어싱 주파수보다 높은 주파수에서 필터링이 효과적이지 않을 수 있기 때문이다.

4개 미만의 마이크가 사용되는 경우, (예컨대, 불충분한 자유도로 인해) 3개의 다른 코너에 널을 형성하는 것이 어려울 수 있다. 이 경우에, 도 17, 도 23b 및 도 23c를 참조하여 앞서 논의한 바와 같은 세로 방향 쌍 등의 대안을 사용하는 것이 바람직할 수 있다.

이 설명은 (예컨대, 도 25의 중앙으로부터 좌측으로의 경로에 예시된 바와 같이) 다수의 무지향성 마이크를 사용하여 녹음된 신호로부터 5.1 채널 녹음을 제공하는 것의 개시 내용을 포함하고 있다. 다수의 무지향성 마이크를 사용하여 포착된 신호로부터 바이노럴(binaural) 녹음을 생성하는 것이 바람직할 수 있다. 예를 들어, 사용자측에 5.1 채널 서라운드 시스템이 없는 경우, 사용자가 서라운드 사운드 시스템에 의한 실제의 음향 공간에 있는 경험을 가질 수 있도록, 5.1 채널을 스테레오 바이노럴 녹음으로 다운믹싱(downmix)하는 것이 바람직할 수 있다. 또한, 이 기능은 사용자가 현장에서 장면을 녹음하는 동안 서라운드 녹음을 모니터링하고 및/또는 녹화된 비디오 및 녹음된 서라운드 사운드를 홈 씨어터 시스템 대신에 스테레오 헤드셋을 사용하여 그의 모바일 디바이스에서 재생할 수 있는 옵션을 제공할 수 있다.

전형적인 거실 공간에서 지정된 위치에 있는 스피커[FL, FR, C, BL (또는 좌 서라운드), 및 BR (또는 우 서라운드)]를 통해 재생되도록 되어 있는 무지향성 마이크의 어레이로부터의 지향성 음원을 가질 수 있다. (예컨대, 도 25에서 중앙으로부터 우측으로의 경로에 예시된 바와 같이) 헤드폰만으로 이 상황을 재현하는 한가지 방법은 각각의 스피커로부터 원하는 음향 공간에서 각각의 귀 내부에 위치해 있는 마이크로의 바이노럴 임펄스 응답(binaural impulse response, BIR)을 측정하는 오프라인 프로세스를 포함한다. BIR은, 스피커의 어레이와 2개의 귀 중의 모든 음원-수신기 쌍에 대해, 직접 경로는 물론, 각각의 스피커로부터의 반사 경로를 비롯한 음향 경로 정보를 인코딩한다. 실제 사람의 귀 내부에 작은 마이크를 위치시키거나 실리콘 귀를 갖는 HATS(Head and Torso Simulator)(덴마크의 Bruel and Kjaer) 등의 더미 헤드(dummy head)를 사용할 수 있다.

바이노럴 재생을 위해, 지정된 스피커 위치에 대해, 측정된 BIR이 각각의 지향성 음원과 콘벌루션된다. 모든 지향성 음원을 BIR과 콘벌루션한 후에, 각각의 귀 녹음에 대해 결과들이 합산된다. 최종 결과는 사람의 귀에 의해 포착된 좌 신호 및 우 신호와 똑같은 2개의 채널(예컨대, 좌 및 우)이고, 헤드폰을 통해 재생될 수 있다. 유의할 점은, 무지향성 마이크의 어레이로부터의 5.1 서라운드 발생이 실제로 어레이로부터 바이노럴 재생으로의 경유점(via-point)으로서 사용된다는 것이다. 따라서, 경유점이 어떻게 발생되느냐에 따라 이 방식이 일반화될 수 있다. 예를 들어, 어레이에 의해 포착된 신호로부터 더 많은 지향성 음원을 생성하는 경우, 이들을 원하는 스피커 위치로부터 귀로의 적절히 측정된 BIR을 갖는 경유점으로서 사용할 수 있다.

음향 신호를 수신하도록 구성되어 있는 2개 이상의 마이크의 어레이(R100)를 가지는 휴대용 오디오 감지 디바이스 내에서 본 명세서에 기술된 방법을 수행하는 것이 바람직할 수 있다. 이러한 어레이를 포함하도록 구현될 수 있고 오디오 녹음 및/또는 음성 통신 응용을 위해 사용될 수 있는 휴대용 오디오 감지 디바이스의 예는 전화 핸드셋(예컨대, 셀룰러 전화 핸드셋); 유선 또는 무선 헤드셋(예컨대, 블루투스 헤드셋); 핸드헬드 오디오 및/또는 비디오 레코더; 오디오 및/또는 비디오 콘텐츠를 레코딩하도록 구성되어 있는 개인 미디어 플레이어(personal media player); PDA(personal digital assistant) 또는 다른 핸드헬드 컴퓨팅 디바이스; 및 노트북 컴퓨터, 랩톱 컴퓨터, 넷북 컴퓨터, 태블릿 컴퓨터, 또는 다른 휴대용 컴퓨팅 디바이스를 포함한다. 휴대용 컴퓨팅 디바이스의 부류는 현재 랩톱 컴퓨터, 노트북 컴퓨터, 넷북 컴퓨터, 울트라 포터블 컴퓨터, 태블릿 컴퓨터, 모바일 인터넷 디바이스, 스마트북, 및 스마트폰 등의 이름을 가지는 디바이스를 포함한다. 이러한 디바이스는 디스플레이 화면을 포함하는 상부 패널 및 키보드를 포함할 수 있는 하부 패널을 가질 수 있고, 여기서 2개의 패널은 클램쉘(clamshell) 또는 기타 힌지로 결합된(hinged) 관계로 연결되어 있을 수 있다. 이러한 디바이스는 상부 표면 상에 터치스크린 디스플레이를 포함하는 태블릿 컴퓨터와 유사하게 구현될 수 있다. 이러한 방법을 수행하고 어레이(R100)의 인스턴스를 포함하도록 구성될 수 있고 오디오 녹음 및/또는 음성 통신 응용에 사용될 수 있는 오디오 감지 디바이스의 다른 예로는 셋톱 박스, 및 음성-회의 및/또는 화상 회의 디바이스가 있다.

도 29a는 일반 구성에 따른 다중 마이크 오디오 감지 디바이스(D10)의 블록도를 나타낸 것이다. 디바이스(D10)는 본 명세서에 개시된 마이크 어레이(R100)의 구현예들 중 임의의 것의 인스턴스를 포함하고, 본 명세서에 개시된 오디오 감지 디바이스들 중 임의의 것이 디바이스(D10)의 인스턴스로서 구현될 수 있다. 디바이스(D10)는 또한 본 명세서에 개시된 방법의 구현예를 수행함으로써 다중 채널 오디오 신호(MCS)를 처리하도록 구성되어 있는 장치(A100)를 포함한다. 장치(A100)는 하드웨어(예컨대, 프로세서)와 소프트웨어 및/또는 펌웨어와의 조합으로서 구현될 수 있다.

도 29b는 디바이스(D10)의 구현예인 통신 디바이스(D20)의 블록도를 나타낸 것이다. 디바이스(D20)는 장치(A100)를 포함하는 칩 또는 칩셋(CS10)[예컨대, MSM(mobile station modem, 이동국 모뎀) 칩셋]을 포함하고 있다. 칩/칩셋(CS10)은 하나 이상의 프로세서를 포함할 수 있다. 칩/칩셋(CS10)은 또한 어레이(R100)의 처리 요소[예컨대, 이하에 기술된 것과 같은 오디오 전처리 스테이지(AP10)의 요소]를 포함할 수 있다. 칩/칩셋(CS10)은 무선 주파수(RF) 통신 신호를 수신하고 RF 신호 내에 인코딩된 오디오 신호를 디코딩하여 재생하도록 구성되어 있는 수신기, 및 장치(A100)에 의해 생성되는 처리된 신호에 기초하는 오디오 신호를 인코딩하고 인코딩된 오디오 신호를 나타내는 RF 통신 신호를 전송하도록 구성되어 있는 송신기를 포함하고 있다. 예를 들어, 칩/칩셋(CS10)의 하나 이상의 프로세서는, 인코딩된 오디오 신호가 잡음 감소된 신호에 기초하도록, 다중 채널 신호의 하나 이상의 채널에 대해 앞서 기술된 바와 같은 잡음 감소 동작을 수행하도록 구성되어 있을 수 있다.

어레이(R100)의 각각의 마이크는 무지향성(omnidirectional), 양지향성(bidirectional), 또는 단일 지향성(unidirectional)(예컨대, 카디오이드)인 응답을 가질 수 있다. 어레이(R100)에서 사용될 수 있는 다양한 유형의 마이크는 압전 마이크(piezoelectric microphone), 다이나믹 마이크(dynamic microphone), 및 일렉트렛 마이크(electret microphone)(이들로 제한되지 않음)를 포함한다. 핸드셋 또는 헤드셋 등의 휴대용 음성 통신 디바이스에서, 어레이(R100)의 인접한 마이크 사이의 중심간 간격은 통상적으로 약 1.5 cm 내지 약 4.5 cm의 범위에 있지만, 핸드셋 또는 스마트폰 등의 디바이스에서는 더 큰 간격(예컨대, 최대 10 또는 15 cm)도 가능하고, 태블릿 컴퓨터 등의 디바이스에서는 훨씬 더 큰 간격(예컨대, 최대 20, 25 또는 30 cm 또는 그 이상)이 가능하다. 어레이(R100)의 마이크는 선을 따라 (균일한 또는 불균일한 마이크 간격으로), 또는 다른 대안으로서, 그의 중심이 2차원(예컨대, 삼각형) 또는 3차원 형상의 정점에 있도록 배열될 수 있다.

명백히 유의할 점은, 마이크가 보다 일반적으로 사운드 이외의 방사선 또는 방출물에 민감한 트랜스듀서로서 구현될 수 있다는 것이다. 하나의 이러한 예에서, 마이크 쌍은 한 쌍의 초음파 트랜스듀서(예컨대, 15, 20, 25, 30, 40 또는 50 kHz 또는 그 이상보다 큰 음향 주파수에 민감한 트랜스듀서)로서 구현되어 있다.

다중 마이크 오디오 감지 디바이스의 동작 동안에, 어레이(R100)는 다중 채널 신호를 생성하고, 여기서 각각의 채널은 마이크들 중 대응하는 마이크의 음향 환경에 대한 응답에 기초하고 있다. 하나의 마이크가 다른 마이크보다 더 직접적으로 특정의 사운드를 수신할 수 있고, 따라서 대응하는 채널이 서로 상이하여 단일 마이크를 사용해 포착될 수 있는 것보다 음향 환경의 전체적으로 더 완전한 표현을 제공한다.

어레이(R100)가 마이크에 의해 생성된 신호에 대해 하나 이상의 처리 동작을 수행하여 다중 채널 신호(MCS)를 생성하는 것이 바람직할 수 있다. 도 28a는 임피던스 정합, 아날로그-디지털 변환, 이득 제어, 및/또는 아날로그 및/또는 디지털 영역에서의 필터링(이들로 제한되지 않음)을 포함할 수 있는 하나 이상의 이러한 동작을 수행하도록 구성되어 있는 오디오 전처리 스테이지(AP10)를 포함하는 포함하는 어레이(R100)의 구현예(R200)의 블록도를 나타낸 것이다.

도 28b는 어레이(R200)의 구현예(R210)의 블록도를 나타낸 것이다. 어레이(R210)는 아날로그 전처리 스테이지(P10a 및 P10b)를 포함하는 오디오 전처리 스테이지(AP10)의 구현예(AP20)를 포함하고 있다. 한 예에서, 스테이지(P10a 및 P10b) 각각은 대응하는 마이크 신호에 대해 고역 통과 필터링 동작(예컨대, 50, 100 또는 200 Hz의 차단 주파수를 가짐)을 수행하도록 구성되어 있다.

어레이(R100)가 다중 채널 신호를 디지털 신호로서, 즉 샘플 시퀀스로서 생성하는 것이 바람직할 수 있다. 어레이(R210)는, 예를 들어, 아날로그-디지털 변환기(ADC)(C10a 및 C10b) - 각각이 대응하는 아날로그 채널을 샘플링하도록 배열되어 있음 - 를 포함하고 있다. 음향 응용에 대한 통상적인 샘플링 레이트는 8 kHz, 12 kHz, 16 kHz 및 약 8 내지 약 16 kHz의 범위에 있는 기타 주파수를 포함하고 있지만, 약 44 kHz와 같이 높은 샘플링 레이트도 사용될 수 있다. 이 특정의 예에서, 어레이(R210)는 또한 각각이 대응하는 디지털화된 채널에 대해 하나 이상의 전처리 동작(예컨대, 반향 제거, 잡음 감소, 및/또는 스펙트럼 정형)을 수행하여 다중 채널 신호(MCS)의 대응하는 채널(MCS-1, MCS-2)을 생성하도록 구성되어 있는 디지털 전처리 스테이지(P20a 및 P20b)를 포함하고 있다. 도 28a 및 도 28b가 2 채널 구현예를 나타내고 있지만, 동일한 원리가 임의의 수의 마이크 및 다중 채널 신호(MCS)의 대응하는 채널로 확장될 수 있다는 것을 잘 알 것이다.

본 명세서에 개시된 방법 및 장치가 일반적으로 임의의 송수신 및/또는 오디오 감지 응용, 특히 이러한 응용의 모바일 또는 다른 휴대용 인스턴스에 적용될 수 있다. 예를 들어, 본 명세서에서 개시되는 구성의 범위는 코드 분할 다중 접속(CDMA) 공중파 인터페이스를 이용하도록 구성된 무선 전화 통신 시스템 내에 존재하는 통신 디바이스를 포함한다. 그러나, 이 기술 분야의 당업자라면 본 명세서에서 설명되는 바와 같은 특징들을 갖는 방법 및 장치가 유선 및/또는 무선(예를 들어, CDMA, TDMA, FDMA 및/또는 TD-SCDMA) 전송 채널을 통해 VoIP(Voice over IP)를 이용하는 시스템과 같이 이 기술 분야의 당업자에게 알려진 광범위한 기술을 이용하는 임의의 다양한 통신 시스템 내에 존재할 수 있다는 것을 잘 알 것이다.

본 명세서에서 개시되는 통신 디바이스는 패킷 교환 네트워크(예를 들어, VoIP와 같은 프로토콜에 따라 오디오 전송을 전달하도록 배열된 유선 및/또는 무선 네트워크) 및/또는 회선 교환 네트워크에서 사용되도록 구성될 수 있다는 점이 명백히 고려되고 본 명세서에 개시되어 있다. 또한, 본 명세서에 개시되어 있는 통신 디바이스는 협대역 코딩 시스템(예를 들어, 약 4 또는 5 kHz의 오디오 주파수 범위를 인코딩하는 시스템)에서 사용되도록 및/또는 전체 대역 광대역 코딩 시스템 및 분할 대역 광대역 코딩 시스템을 포함하는 광대역 코딩 시스템(예를 들어, 5 kHz보다 높은 오디오 주파수를 인코딩하는 시스템)에서 사용되도록 구성될 수 있다는 점이 명백히 고려되고 본 명세서에 개시되어 있다.

기술된 구성에 대한 이상의 제시는 이 기술 분야의 당업자가 본 명세서에 개시되는 방법 및 기타 구조를 실시하거나 이용할 수 있게 하기 위해 제공된다. 본 명세서에 도시되고 설명되는 흐름도, 블록도 및 기타 구조는 예시를 위한 것에 불과하고, 이러한 구조의 다른 변형들도 본 발명의 범위 내에 있다. 이러한 구성에 대한 다양한 변경들이 가능하며, 본 명세서에서 설명되는 일반 원리가 다른 구성들에도 적용될 수 있다. 따라서, 본 발명은 전술한 구성들로 한정되는 것을 의도하는 것이 아니라, 최초 명세서의 일부를 형성하는 출원시의 첨부된 청구항들에서 개시되는 것을 포함하여, 본 명세서에서 임의의 방식으로 개시되는 원리 및 새로운 특징과 일치하는 가장 넓은 범위를 부여받아야 한다.

이 기술 분야의 당업자들은 정보 또는 신호가 임의의 다양한 상이한 기술 및 기법을 이용하여 표현될 수 있다는 것을 잘 알 것이다. 예를 들어, 상기 설명 전반에서 참조될 수 있는 데이터, 명령어, 명령, 정보, 신호, 비트 및 심볼은 전압, 전류, 전자기파, 자기장 또는 입자, 광학 장 또는 입자 또는 이들의 임의의 조합에 의해 표현될 수 있다.

본 명세서에서 개시되는 바와 같은 구성의 구현을 위한 중요한 설계 요건은 특히, 압축된 오디오 또는 시청각 정보(예를 들어, 본 명세서에서 식별되는 예들 중 하나와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림)의 재생과 같은 계산 집약적인 응용 또는 광대역 통신(예를 들어, 12, 16 또는 44 kHz와 같은 8 kHz보다 높은 샘플링 레이트에서의 음성 통신)을 위한 응용을 위해 처리 지연 및/또는 계산 복잡성(통상적으로 초당 수백 만개의 명령어, 즉 MIPS 단위로 측정됨)을 최소화하는 것을 포함할 수 있다.

다중 마이크 처리 시스템의 목표는 10 내지 12 dB의 전체 잡음 감소를 달성하는 것, 원하는 스피커의 움직임 동안 음성 레벨 및 컬러를 유지하는 것, 적극적인 잡음 제거 대신에 잡음이 배경 내로 이동하였다는 지각을 획득하는 것, 음성의 잔향 제거(dereverberation) 및/또는 더 적극적인 잡음 감소를 위해 후처리의 옵션을 가능하게 하는 것을 포함할 수 있다.

본 명세서에서 개시되는 바와 같은 장치의 구현예의 다양한 요소들은 의도된 응용에 적합한 것으로 간주되는 하드웨어와 소프트웨어 및/또는 펌웨어의 임의의 조합으로 구현될 수 있다. 예를 들어, 이러한 요소들은, 예를 들어, 동일 칩 상에 또는 칩셋 내의 2개 이상의 칩 사이에 존재하는 전자 및/또는 광학 디바이스로서 제조될 수 있다. 그러한 디바이스의 일례는 트랜지스터 또는 논리 게이트와 같은 논리 요소들의 고정 또는 프로그래밍 가능 어레이이며, 이들 요소 중 임의의 요소는 하나 이상의 그러한 어레이로서 구현될 수 있다. 이들 요소 중 임의의 2개 이상 또는 심지어 전부가 동일한 어레이 또는 어레이들 내에 구현될 수 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩 내에(예를 들어, 둘 이상의 칩을 포함하는 칩셋 내에) 구현될 수 있다.

본 명세서에서 개시되는 장치의 다양한 구현들의 하나 이상의 요소는 또한, 전체적으로 또는 부분적으로, 마이크로프로세서, 내장 프로세서, IP 코어, 디지털 신호 처리기, FPGA(field-programmable gate array), ASSP(application-specific standard product) 및 ASIC(application-specific integrated circuit)과 같은 논리 요소들의 하나 이상의 고정 또는 프로그래밍가능 어레이 상에서 실행되도록 배열된 하나 이상의 명령어 세트로서 구현될 수 있다. 본 명세서에서 개시되는 바와 같은 장치의 일 구현의 임의의 다양한 요소는 또한 하나 이상의 컴퓨터(예를 들어, 하나 이상의 명령어 세트 또는 시퀀스를 실행하도록 프로그래밍되는 하나 이상의 어레이를 포함하는 기계, "프로세서"라고도 함)로서 구현될 수 있으며, 이들 요소 중 임의의 둘 이상 또는 심지어 전부가 동일한 그러한 컴퓨터 또는 컴퓨터들 내에 구현될 수 있다.

본 명세서에서 개시되는 바와 같은 처리를 위한 프로세서 또는 다른 수단은 예를 들어 동일 칩 상에 또는 칩셋 내의 둘 이상의 칩 사이에 존재하는 하나 이상의 전자 및/또는 광학 디바이스로서 제조될 수 있다. 그러한 디바이스의 일례는 트랜지스터 또는 논리 게이트와 같은 논리 요소들의 고정 또는 프로그래밍 가능 어레이이며, 이들 요소 중 임의의 요소는 하나 이상의 그러한 어레이로서 구현될 수 있다. 그러한 어레이 또는 어레이들은 하나 이상의 칩 내에(예를 들어, 둘 이상의 칩을 포함하는 칩셋 내에) 구현될 수 있다. 그러한 어레이들의 예들은 마이크로프로세서, 내장 프로세서, IP 코어, DSP, FPGA, ASSP 및 ASIC과 같은 논리 요소의 고정 또는 프로그래밍 가능 어레이를 포함한다. 본 명세서에서 개시되는 바와 같은 처리를 위한 프로세서 또는 다른 수단은 또한 하나 이상의 컴퓨터(예를 들어, 하나 이상의 명령어 세트 또는 시퀀스를 실행하도록 프로그래밍되는 하나 이상의 어레이를 포함하는 기계들) 또는 다른 프로세서들로서 구현될 수 있다. 프로세서가 내장된 디바이스 또는 시스템(예컨대, 오디오 감지 디바이스)의 다른 동작에 관련된 작업 등 방향 인코딩 절차에 직접 관계되지 않은 다른 명령어 세트들을 실행하거나 작업들을 수행하기 위해 본 명세서에 기술된 것과 같은 프로세서가 사용되는 것이 가능하다. 본 명세서에서 설명되는 바와 같은 방법의 일부는 오디오 감지 디바이스의 프로세서에 의해 수행되고, 방법의 다른 부분은 하나 이상의 다른 프로세서의 제어 하에 수행되는 것도 가능하다.

이 기술 분야의 당업자들은 본 명세서에서 개시되는 구성들과 관련하여 설명되는 다양한 예시적인 모듈, 논리 블록, 회로 및 테스트 및 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어 또는 이 둘의 조합으로서 구현될 수 있다는 것을 알 것이다. 이러한 모듈, 논리 블록, 회로 및 동작은 범용 프로세서, 디지털 신호 처리기(DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래밍가능 논리 디바이스, 개별 게이트 또는 트랜지스터 논리, 개별 하드웨어 구성요소, 또는 본 명세서에 개시되는 바와 같은 구성을 생성하도록 설계된 이들의 임의의 조합을 이용하여 구현 또는 수행될 수 있다. 예를 들어, 그러한 구성은 하드-와이어드 회로로서, 주문형 집적 회로 내에 제조된 회로 구성으로서, 또는 비휘발성 저장 장치 내에 로딩된 펌웨어 프로그램 또는 데이터 저장 매체로부터 또는 그 안에 기계 판독 가능 코드로서 로딩된 소프트웨어 프로그램으로서 적어도 부분적으로 구현될 수 있으며, 그러한 코드는 범용 프로세서 또는 다른 디지털 신호 처리 유닛과 같은 논리 요소들의 어레이에 의해 실행될 수 있는 명령어이다. 범용 프로세서는 마이크로프로세서일 수 있지만, 대안으로서, 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로컨트롤러 또는 상태 기계일 수 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합, 예를 들어 DSP와 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 연계된 하나 이상의 마이크로프로세서 또는 임의의 다른 그러한 구성으로서 구현될 수 있다. 소프트웨어 모듈은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 플래시 RAM과 같은 비휘발성 RAM(NVRAM), 소거 및 프로그래밍 가능한 ROM(EPROM), 전기적으로 소거 및 프로그래밍 가능한 ROM(EEPROM), 레지스터, 하드 디스크, 이동식 디스크, CD-ROM에 또는 이 기술 분야에 공지된 임의의 다른 형태의 저장 매체에 존재할 수 있다. 예시적인 저장 매체가 프로세서에 결합되며, 따라서 프로세서는 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있다. 대안으로서, 저장 매체는 프로세서와 일체일 수 있다. 프로세서와 저장 매체는 ASIC 내에 위치할 수 있다. ASIC은 사용자 단말기 내에 위치할 수 있다. 대안으로서, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 구성요소로서 존재할 수 있다.

본 명세서에서 개시되는 다양한 방법이 프로세서와 같은 논리 요소들의 어레이에 의해 수행될 수 있고, 본 명세서에서 설명되는 바와 같은 장치의 다양한 요소들이 이러한 어레이 상에서 실행되도록 설계된 모듈로서 구현될 수 있다는 점에 유의한다. 본 명세서에서 사용될 때, "모듈" 또는 "서브모듈"이라는 용어는 소프트웨어, 하드웨어 또는 펌웨어 형태의 컴퓨터 명령어(예를 들어, 논리 표현)를 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터 판독 가능 데이터 저장 매체를 지칭할 수 있다. 동일 기능을 수행하기 위해 다수의 모듈 또는 시스템이 하나의 모듈 또는 시스템으로 결합될 수 있고, 하나의 모듈 또는 시스템이 다수의 모듈 또는 시스템으로 분할될 수 있다는 것을 이해해야 한다. 소프트웨어 또는 다른 컴퓨터 실행 가능 명령어에서 구현될 때, 본질적으로 프로세스의 요소들은 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등과 더불어 관련 작업들을 수행하기 위한 코드 세그먼트이다. "소프트웨어"라는 용어는 소스 코드, 어셈블리 언어 코드, 기계 코드, 이진 코드, 펌웨어, 매크로코드, 마이크로코드, 논리 요소들의 어레이에 의해 실행 가능한 임의의 하나 이상의 명령어 세트 또는 시퀀스 및 이러한 예들의 임의 조합을 포함하는 것으로 이해되어야 한다. 프로그램 또는 코드 세그먼트는 프로세서 판독가능 매체에 저장되거나, 전송 매체 또는 통신 링크를 통해 반송파에 구현된 컴퓨터 데이터 신호에 의해 전송될 수 있다.

본 명세서에서 개시되는 방법, 방식 및 기술의 구현은 논리 요소들의 어레이(예를 들어, 프로세서, 마이크로프로세서, 마이크로컨트롤러, 또는 다른 유한 상태 기계)를 포함하는 기계에 의해 실행 가능한 하나 이상의 명령어 세트로서 유형적으로 (예를 들어, 본 명세서에 열거된 바와 같은 하나 이상의 컴퓨터 판독 가능 매체에) 구현될 수 있다. "컴퓨터 판독 가능 매체"라는 용어는 정보를 저장하거나 전송할 수 있는, 휘발성, 비휘발성, 이동식 및 비이동식 매체를 포함하는 임의의 매체를 포함할 수 있다. 컴퓨터 판독 가능 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래시 메모리, 소거 가능 ROM(EROM), 플로피 디스켓 또는 다른 자기 저장 장치, CD-ROM/DVD 또는 다른 광학 저장 장치, 하드 디스크, 광섬유 매체, 라디오 주파수(RF) 링크, 또는 원하는 정보를 저장하는 데 사용될 수 있고 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널, 광섬유, 공기, 전자기파, RF 링크 등과 같은 전송 매체를 통해 전송될 수 있는 임의의 신호를 포함할 수 있다. 코드 세그먼트는 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크를 통해 다운로드될 수 있다. 어느 경우에나, 본 발명의 범위는 그러한 실시예들에 의해 한정되는 것으로 해석되지 않아야 한다.

본 명세서에서 설명되는 방법들의 작업들 각각은 하드웨어에서 직접, 프로세서에 의해 실행되는 소프트웨어 모듈에서 또는 이 둘의 조합에서 구현될 수 있다. 본 명세서에서 개시되는 바와 같은 방법의 일 구현의 통상적인 응용에서는, 논리 요소들(예를 들어, 논리 게이트들)의 어레이가 방법의 다양한 작업들 중 하나, 둘 이상 또는 심지어 전부를 수행하도록 구성된다. 작업들 중 하나 이상(아마도 전부)은 또한 논리 요소들의 어레이(예를 들어, 프로세서, 마이크로프로세서, 마이크로컨트롤러 또는 다른 유한 상태 기계)를 포함하는 기계(예를 들어, 컴퓨터)에 의해 판독 및/또는 실행될 수 있는 컴퓨터 프로그램 제품(예를 들어, 디스크, 플래시 또는 다른 비휘발성 메모리 카드, 반도체 메모리 칩 등과 같은 하나 이상의 데이터 저장 매체) 내에 구현되는 코드(예를 들어, 하나 이상의 명령어 세트)로서 구현될 수 있다. 본 명세서에서 개시되는 바와 같은 방법의 일 구현의 작업들은 또한 둘 이상의 그러한 어레이 또는 기계에 의해 수행될 수 있다. 이들 또는 다른 구현들에서, 작업들은 무선 통신 능력을 갖는 셀룰러 전화 또는 다른 디바이스와 같은 무선 통신을 위한 디바이스 내에서 수행될 수 있다. 그러한 디바이스는 (예를 들어, VoIP와 같은 하나 이상의 프로토콜을 이용하여) 회선 교환 및/또는 패킷 교환 네트워크들과 통신하도록 구성될 수 있다. 예를 들어, 그러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로를 포함할 수 있다.

본 명세서에서 개시되는 다양한 방법들은 휴대용 통신 디바이스(핸드셋, 헤드셋, 또는 PDA(portable digital assistant) 등)에 의해 수행될 수 있으며, 본 명세서에서 설명되는 다양한 장치들은 그러한 디바이스 내에 포함될 수 있다는 것이 명백히 개시되어 있다. 통상적인 실시간(예를 들어, 온라인) 응용은 그러한 이동 디바이스를 이용하여 수행되는 전화 통화이다.

하나 이상의 예시적인 실시예에서, 본 명세서에서 설명되는 동작들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의 조합에서 구현될 수 있다. 소프트웨어에서 구현되는 경우, 그러한 동작들은 컴퓨터 판독 가능 매체 상에 하나 이상의 명령어 또는 코드로서 저장되거나 그를 통해 전송될 수 있다. "컴퓨터 판독가능 매체"라는 용어는 컴퓨터 프로그램을 한 곳에서 다른 곳으로 전달하는 것을 용이하게 해주는 임의의 매체를 비롯한 컴퓨터 저장 매체 및 통신 매체 둘 다를 포함한다. 저장 매체는 컴퓨터에 의해 액세스될 수 있는 이용가능한 매체라면 어느 것이라도 될 수 있다. 제한이 아니라 예로서, 이러한 컴퓨터 판독가능 매체는 명령어 또는 데이터 구조 형태의 원하는 프로그램 코드를 컴퓨터에 의해 액세스될 수 있는 유형적 구조로 저장하는 데 사용될 수 있는 반도체 메모리(동적 또는 정적 RAM, ROM, EEPROM 및/또는 플래시 RAM을 포함할 수 있지만 이에 한정되지 않음), 또는 강유전성, 자기 저항, 오보닉, 중합체 또는 상변화 메모리; CD-ROM 또는 기타 광 디스크 저장 장치, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 임의의 다른 매체 등의 저장 요소의 어레이를 포함할 수 있다. 또한, 임의의 접속도 적절히 컴퓨터 판독 가능 매체로서 지칭된다. 예를 들어, 소프트웨어가 동축 케이블, 광섬유 케이블, 트위스트 쌍, 디지털 가입자 회선(DSL), 또는 적외선, 라디오 및/또는 마이크로파와 같은 무선 기술을 이용하여 웹사이트, 서버 또는 다른 원격 소스로부터 전송되는 경우, 동축 케이블, 광섬유 케이블, 트위스트 쌍, DSL, 또는 적외선, 라디오 및/또는 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 본 명세서에서 사용되는 바와 같은 디스크(disk, disc)는 컴팩트 디스크(compact disc; CD), 레이저 디스크(disc), 광 디스크(disc), 디지털 다기능 디스크(digital versatile disc; DVD), 플로피 디스크(floppy disk) 및 블루레이 디스크(Blu-ray Disc)(상표)(Blu-Ray Disc Association, Universal City, CA)를 포함하며, 여기서 디스크(disk)는 일반적으로 데이터를 자기적으로 재생하고, 디스크(disc)는 데이터를 레이저를 이용하여 광학적으로 재생한다. 위의 것들의 조합들도 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.

본 명세서에 기술된 바와 같은 음향 신호 처리 장치는 특정의 동작을 제어하기 위하여 음성 입력을 수신하는 전자 디바이스 내에 통합될 수 있거나, 통신 디바이스와 같은 배경 잡음으로부터의 원하는 잡음의 분리로부터 이익을 얻을 수 있다. 많은 응용은 다수의 방향으로부터 발생하는 배경 사운드들로부터 선명한 원하는 사운드를 분리하거나 향상시키는 것으로부터 이익을 얻을 수 있다. 그러한 응용들은 음성 인식 및 검출, 음성 향상 및 분리, 음성 작동 제어 등과 같은 능력들을 포함하는 전자 또는 컴퓨팅 디바이스들 내의 사람-기계 인터페이스들을 포함할 수 있다. 제한된 처리 능력들만을 제공하는 디바이스들에 적합하도록 그러한 음향 신호 처리 장치를 구현하는 것이 바람직할 수 있다.

본 명세서에서 설명되는 모듈들, 요소들 및 디바이스들의 다양한 구현들의 요소들은 예를 들어 동일 칩 상에 또는 칩셋 내의 둘 이상의 칩 사이에 존재하는 전자 및/또는 광학 디바이스들로서 제조될 수 있다. 그러한 디바이스의 일례는 트랜지스터 또는 게이트와 같은 논리 요소들의 고정 또는 프로그래밍 가능 어레이이다. 본 명세서에서 설명되는 장치의 다양한 구현들의 하나 이상의 요소는 또한 마이크로프로세서, 내장 프로세서, IP 코어, 디지털 신호 프로세서, FPGA, ASSP 및 ASIC과 같은 논리 요소들의 하나 이상의 고정 또는 프로그래밍 가능 어레이 상에서 실행되도록 배열되는 하나 이상의 명령어 세트로서 완전히 또는 부분적으로 구현될 수 있다.

본 명세서에서 설명되는 바와 같은 장치의 일 구현의 하나 이상의 요소는 장치가 내장된 디바이스 또는 시스템의 다른 동작과 관련된 작업과 같이 장치의 동작과 직접 관련되지 않은 다른 명령어 세트들을 실행하거나 작업들을 수행하는 데 사용될 수 있다. 그러한 장치의 일 구현의 하나 이상의 요소는 공통 구조를 갖는 것도 가능하다(예를 들어, 상이한 시간들에 상이한 요소들에 대응하는 코드의 부분들을 실행하는 데 사용되는 프로세서, 상이한 시간들에 상이한 요소들에 대응하는 작업들을 수행하도록 실행되는 명령어들의 세트, 또는 상이한 시간들에 상이한 요소들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열).

Claims

오디오 신호 처리 방법으로서,
녹음된 청각 장면을 국소화가능 음원(source)들의 제1 카테고리 및 주변 사운드의 제2 카테고리로 분해하는 단계; 및
상기 국소화가능 음원들 각각의 방향들의 표시를 기록하는 단계를 포함하는 방법.
제1항에 있어서, 상기 방법이 상기 기록된 표시들 중에서 녹음 방향을 선택하는 단계를 포함하는 방법.
제1항 또는 제2항에 있어서, 상기 방법이 각각의 음원의 도착 방향을 추정하는 단계를 포함하는 국소화가능 음원의 수를 결정하는 단계를 포함하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 방법이 3차원 오디오 인코딩 방식에 따라 녹음된 다중 채널 신호를 인코딩하는 단계를 포함하는 방법.
제4항에 있어서, 상기 3차원 오디오 인코딩 방식이 Ambisonic 방식 및 파면 음장 합성(wavefield synthesis) 방식 중 적어도 하나인 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 방법이
제1 필터링된 신호를 획득하기 위해 하나의 세로 방향(endfire direction)에서의 빔을 적용하는 단계;
제2 필터링된 신호를 획득하기 위해 다른 세로 방향에서의 빔을 적용하는 단계; 및
상기 제1 필터링된 신호를 상기 제2 필터링된 신호의 지연된 버전과 결합시키는 단계를 포함하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 방법이
제1 필터링된 신호를 획득하기 위해 하나의 세로 방향에서의 빔을 적용하는 단계;
제2 필터링된 신호를 획득하기 위해 다른 세로 방향에서의 빔을 적용하는 단계; 및
결합된 신호를 획득하기 위해 상기 제1 및 제2 필터링된 신호를 결합시키는 단계를 포함하고,
상기 제1 및 제2 필터링된 신호 각각은 적어도 2개의 채널을 가지며,
상기 결합된 신호의 하나의 채널은 상기 결합된 신호의 다른 채널에 대해 지연되어 있는 방법.
제7항에 있어서, 상기 방법이 상기 결합시키는 단계 이전에, 상기 제1 필터링된 신호의 하나의 채널을 상기 제1 필터링된 신호의 다른 채널에 대해 지연시키고 상기 제2 필터링된 신호의 하나의 채널을 상기 제2 필터링된 신호의 다른 채널에 대해 지연시키는 단계를 포함하는 방법.
제7항에 있어서, 상기 방법이 상기 결합된 신호의 하나의 채널을 상기 결합된 신호의 다른 채널에 대해 지연시키는 단계를 포함하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 방법이
제1 공간적으로 필터링된 신호를 획득하기 위해 제1 방향에서의 빔을 가지는 필터를 제1 마이크 쌍에 의해 생성된 신호에 적용하는 단계;
제2 공간적으로 필터링된 신호를 획득하기 위해 상기 제1 방향과 상이한 제2방향에서의 빔을 가지는 필터를 상기 제1 마이크 쌍과 상이한 제2 마이크 쌍에 의해 생성된 신호에 적용하는 단계; 및
상기 제1 및 제2 방향과 상이한 제3 방향에서의 음원에 대응하는 출력 신호를 획득하기 위해 상기 제1 및 제2 공간적으로 필터링된 신호를 결합시키는 단계를 포함하는 방법.
제10항에 있어서, 상기 제1 마이크 쌍의 축이 상기 제2 마이크 쌍의 축과 적어도 실질적으로 직교인 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 방법이
어레이에서의 복수의 마이크 각각에 대해, 대응하는 입력 채널을 녹음하는 단계; 및
복수의 주시 방향 각각에 대해, 대응하는 출력 채널을 획득하기 위해 대응하는 다중 채널 필터를 복수의 상기 녹음된 입력 채널에 적용하는 단계를 포함하고,
상기 다중 채널 필터 각각은 상기 복수의 주시 방향 중의 대응하는 주시 방향에서 빔을 적용하고 다른 주시 방향에서 널 빔을 적용하는 방법.
제12항에 있어서, 상기 복수의 마이크 중의 제1 마이크 쌍의 축이 상기 복수의 마이크 중의 제2 마이크 쌍의 축에 대해 직교로부터 15도 이하 벗어나 있는 방법.
제12항 또는 제13항에 있어서, 상기 복수의 마이크가 적어도 4개인 방법.
제12항 내지 제14항 중 어느 한 항에 있어서, 상기 복수의 주시 방향이 적어도 4개인 방법.
제12항 내지 제15항 중 어느 한 항에 있어서, 상기 방법이 바이노럴(binaural) 녹음을 생성하기 위해 상기 복수의 출력 채널을 처리하는 단계를 포함하고,
상기 처리하는 단계가 상기 복수의 출력 채널 각각에 대해, 대응하는 바이노럴 신호를 획득하기 위해 대응하는 바이노럴 임펄스 응답을 상기 출력 채널에 적용하는 단계를 포함하며,
상기 바이노럴 녹음이 상기 바이노럴 신호의 합에 기초하는 방법.
제1항에 있어서, 상기 방법이 휴대용 오디오 감지 디바이스의 배향에 기초하여 녹음 방향을 선택하는 단계를 포함하는 방법.
제10항에 있어서, 상기 필터를 적용하는 단계가 하위 임계값과 상위 임계값 사이의 주파수로 제한되고,
상기 하위 임계값 및 상기 상위 임계값 중의 적어도 하나가 마이크들 사이의 거리에 기초하는 방법.
오디오 신호 처리 장치로서,
녹음된 청각 장면을 국소화가능 음원들의 제1 카테고리 및 주변 사운드의 제2 카테고리로 분해하는 수단; 및
상기 국소화가능 음원들 각각의 방향들의 표시를 기록하는 수단을 포함하는 장치.
제19항에 있어서, 상기 장치가 상기 기록된 표시들 중에서 녹음 방향을 선택하는 수단을 포함하는 장치.
제19항 또는 제20항에 있어서, 상기 장치가 각각의 음원의 도착 방향을 추정하는 수단을 포함하는 국소화가능 음원의 수를 결정하는 수단을 포함하는 장치.
제19항 내지 제21항 중 어느 한 항에 있어서, 상기 장치가 3차원 오디오 인코딩 방식에 따라 녹음된 다중 채널 신호를 인코딩하는 수단을 포함하는 장치.
제22항에 있어서, 상기 3차원 오디오 인코딩 방식이 Ambisonic 방식 및 파면 음장 합성 방식 중 적어도 하나인 장치.
제19항 내지 제23항 중 어느 한 항에 있어서, 상기 장치가
제1 필터링된 신호를 획득하기 위해 하나의 세로 방향에서의 빔을 적용하는 수단;
제2 필터링된 신호를 획득하기 위해 다른 세로 방향에서의 빔을 적용하는 수단; 및
상기 제1 필터링된 신호를 상기 제2 필터링된 신호의 지연된 버전과 결합시키는 수단을 포함하는 장치.
제19항 내지 제23항 중 어느 한 항에 있어서, 상기 장치가
제1 필터링된 신호를 획득하기 위해 하나의 세로 방향에서의 빔을 적용하는 수단;
제2 필터링된 신호를 획득하기 위해 다른 세로 방향에서의 빔을 적용하는 수단; 및
결합된 신호를 획득하기 위해 상기 제1 및 제2 필터링된 신호를 결합시키는 수단을 포함하고,
상기 제1 및 제2 필터링된 신호 각각은 적어도 2개의 채널을 가지며,
상기 결합된 신호의 하나의 채널은 상기 결합된 신호의 다른 채널에 대해 지연되어 있는 장치.
제25항에 있어서, 상기 장치가 상기 결합시키는 동작 이전에, 상기 제1 필터링된 신호의 하나의 채널을 상기 제1 필터링된 신호의 다른 채널에 대해 지연시키고 상기 제2 필터링된 신호의 하나의 채널을 상기 제2 필터링된 신호의 다른 채널에 대해 지연시키는 수단을 포함하는 장치.
제25항에 있어서, 상기 장치가 상기 결합된 신호의 하나의 채널을 상기 결합된 신호의 다른 채널에 대해 지연시키는 수단을 포함하는 장치.
제19항 내지 제23항 중 어느 한 항에 있어서, 상기 장치가
제1 공간적으로 필터링된 신호를 획득하기 위해 제1 방향에서의 빔을 가지는 필터를 제1 마이크 쌍에 의해 생성된 신호에 적용하는 수단;
제2 공간적으로 필터링된 신호를 획득하기 위해 상기 제1 방향과 상이한 제2방향에서의 빔을 가지는 필터를 상기 제1 마이크 쌍과 상이한 제2 마이크 쌍에 의해 생성된 신호에 적용하는 수단; 및
상기 제1 및 제2 방향과 상이한 제3 방향에서의 음원에 대응하는 출력 신호를 획득하기 위해 상기 제1 및 제2 공간적으로 필터링된 신호를 결합시키는 수단을 포함하는 장치.
제28항에 있어서, 상기 제1 마이크 쌍의 축이 상기 제2 마이크 쌍의 축과 적어도 실질적으로 직교인 장치.
제19항 내지 제23항 중 어느 한 항에 있어서, 상기 장치가
어레이에서의 복수의 마이크 각각에 대해, 대응하는 입력 채널을 녹음하는 수단; 및
복수의 주시 방향 각각에 대해, 대응하는 출력 채널을 획득하기 위해 대응하는 다중 채널 필터를 복수의 상기 녹음된 입력 채널에 적용하는 수단을 포함하고,
상기 다중 채널 필터 각각은 상기 복수의 주시 방향 중의 대응하는 주시 방향에서 빔을 적용하고 다른 주시 방향에서 널 빔을 적용하는 장치.
제30항에 있어서, 상기 복수의 마이크 중의 제1 마이크 쌍의 축이 상기 복수의 마이크 중의 제2 마이크 쌍의 축에 대해 직교로부터 15도 이하 벗어나 있는 장치.
제30항 또는 제31항에 있어서, 상기 복수의 마이크가 적어도 4개인 장치.
제30항 내지 제32항 중 어느 한 항에 있어서, 상기 복수의 주시 방향이 적어도 4개인 장치.
제30항 내지 제33항 중 어느 한 항에 있어서, 상기 장치가 바이노럴 녹음을 생성하기 위해 상기 복수의 출력 채널을 처리하는 수단을 포함하고,
상기 처리하는 동작이 상기 복수의 출력 채널 각각에 대해, 대응하는 바이노럴 신호를 획득하기 위해 대응하는 바이노럴 임펄스 응답을 상기 출력 채널에 적용하는 동작을 포함하며,
상기 바이노럴 녹음이 상기 바이노럴 신호의 합에 기초하는 장치.
제19항에 있어서, 상기 장치가 휴대용 오디오 감지 디바이스의 배향에 기초하여 녹음 방향을 선택하는 수단을 포함하는 장치.
제24항에 있어서, 상기 빔을 적용하는 수단이 하위 임계값과 상위 임계값 사이의 주파수에만 상기 빔을 적용하도록 구성되어 있고,
상기 하위 임계값 및 상기 상위 임계값 중의 적어도 하나가 마이크들 사이의 거리에 기초하는 장치.
오디오 신호 처리 장치로서,
녹음된 청각 장면을 국소화가능 음원들의 제1 카테고리 및 주변 사운드의 제2 카테고리로 분해하도록 구성되어 있는 공간 선택적 필터; 및
상기 국소화가능 음원들 각각의 방향들의 표시를 기록하도록 구성되어 있는 방향 추정기를 포함하는 장치.
기계에 의해 판독될 때, 상기 기계로 하여금 제1항 내지 제14항 중 어느 한 항에 따른 방법을 수행하게 하는 유형적 특징을 포함하는 기계 판독가능 저장 매체.
제1항 내지 제18항 중 어느 한 항에 있어서, 상기 방법이
대응하는 복수의 고정된 수렴된 필터를 발생하기 위해 복수의 필터를 훈련시키는 단계; 및
상기 분해하는 단계를 수행하기 위해 상기 고정된 수렴된 필터들을 상기 녹음된 청각 장면에 적용하는 단계를 포함하는 방법.