KR20150021052A - 3 차원 사운드 압축 및 호출 동안의 오버-디-에어 송신 - Google Patents
3 차원 사운드 압축 및 호출 동안의 오버-디-에어 송신 Download PDFInfo
- Publication number
- KR20150021052A KR20150021052A KR1020147035519A KR20147035519A KR20150021052A KR 20150021052 A KR20150021052 A KR 20150021052A KR 1020147035519 A KR1020147035519 A KR 1020147035519A KR 20147035519 A KR20147035519 A KR 20147035519A KR 20150021052 A KR20150021052 A KR 20150021052A
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- communication device
- circuitry
- wireless communication
- audio signals
- Prior art date
Links
- 230000006835 compression Effects 0.000 title claims description 24
- 238000007906 compression Methods 0.000 title claims description 24
- 230000005540 biological transmission Effects 0.000 title claims description 15
- 230000005236 sound signal Effects 0.000 claims abstract description 434
- 238000004891 communication Methods 0.000 claims abstract description 261
- 238000000034 method Methods 0.000 claims abstract description 180
- 238000012545 processing Methods 0.000 claims description 32
- 230000001965 increasing effect Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 13
- 230000003111 delayed effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000001934 delay Effects 0.000 claims description 7
- 230000008878 coupling Effects 0.000 claims 4
- 238000010168 coupling process Methods 0.000 claims 4
- 238000005859 coupling reaction Methods 0.000 claims 4
- 238000000354 decomposition reaction Methods 0.000 claims 2
- 230000000875 corresponding effect Effects 0.000 description 33
- 238000010586 diagram Methods 0.000 description 27
- 238000001914 filtration Methods 0.000 description 24
- 238000003491 array Methods 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 18
- 238000003860 storage Methods 0.000 description 18
- 238000000926 separation method Methods 0.000 description 16
- 238000013459 approach Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 12
- 230000004044 response Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000012800 visualization Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 238000007781 pre-processing Methods 0.000 description 7
- 210000005069 ears Anatomy 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012880 independent component analysis Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000010267 cellular communication Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 238000011045 prefiltration Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 2
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 2
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 2
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RXKGHZCQFXXWFQ-UHFFFAOYSA-N 4-ho-mipt Chemical compound C1=CC(O)=C2C(CCN(C)C(C)C)=CNC2=C1 RXKGHZCQFXXWFQ-UHFFFAOYSA-N 0.000 description 1
- 101000591286 Homo sapiens Myocardin-related transcription factor A Proteins 0.000 description 1
- 101710116852 Molybdenum cofactor sulfurase 1 Proteins 0.000 description 1
- 101710116850 Molybdenum cofactor sulfurase 2 Proteins 0.000 description 1
- 102100034099 Myocardin-related transcription factor A Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000003855 balanced salt solution Substances 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/06—Receivers
- H04B1/16—Circuits
- H04B1/20—Circuits for coupling gramophone pick-up, recorder output, or microphone to receiver
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/24—Radio transmission systems, i.e. using radiation field for communication between two or more posts
- H04B7/26—Radio transmission systems, i.e. using radiation field for communication between two or more posts at least one of which is mobile
- H04B7/2662—Arrangements for Wireless System Synchronisation
- H04B7/2671—Arrangements for Wireless Time-Division Multiple Access [TDMA] System Synchronisation
- H04B7/2678—Time synchronisation
- H04B7/2687—Inter base stations synchronisation
- H04B7/2696—Over the air autonomous synchronisation, e.g. by monitoring network activity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/006—Systems employing more than two channels, e.g. quadraphonic in which a plurality of audio signals are transformed in a combination of audio signals and modulated signals, e.g. CD-4 systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Circuit For Audible Band Transducer (AREA)
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Stereophonic Arrangements (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Abstract
무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법이 개시된다. 무선 통신 디바이스는 복수의 국소화가능한 오디오 소스들의 표시를 검출한다. 무선 통신 디바이스는 또한 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩한다. 무선 통신 디바이스는 또한 복수의 오디오 신호들로 인코딩한다.
Description
이 출원은 "THREE-DIMENSIONAL SOUND COMPRESSION AND OVER-THE-AIR TRANSMISSION DURING A CALL" 에 대한 2012 년 5 월 24 일자로 출원된 미국 특허 가출원 제 61/651,185 호와 관련되고 이로부터 우선권을 주장한다.
이 개시내용은 오디오 신호 프로세싱에 관한 것이다. 더욱 구체적으로, 이 개시내용은 3 차원 사운드 압축 및 호출 동안의 오버-디-에어 (over-the-air) 송신에 관한 것이다.
기술이 진보함에 따라, 우리는 네트워크 속도 및 저장의 구별가능한 성장을 보고 있고, 이것은 텍스트 뿐만 아니라, 멀티미디어 데이터도 이미 지원한다. 실시간 셀룰러 통신 시스템들에서는, 3 차원 (3-D) 오디오를 캡처, 압축, 및 송신하기 위한 능력이 현재 이용가능하지 않다. 과제들 중의 하나는 3 차원 오디오 신호들의 캡처링 (capturing) 이다. 그러므로, 개별적인 청각적 경험들의 더욱 현실적이고 실감적인 교환을 위하여 3 차원 오디오를 캡처 및 재현함으로써 장점이 실현될 수도 있다.
무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법이 설명된다. 방법은 복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하는 단계를 포함한다. 방법은 또한 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩하는 단계를 포함한다. 방법은 또한 복수의 오디오 신호들을 인코딩하는 단계를 더 포함한다. 국소화가능한 오디오 소스의 공간적 방향의 표시는 수신된 입력에 기초할 수도 있다.
방법은 국소화가능한 오디오 소스들의 수를 결정하는 단계를 포함할 수도 있다. 방법은 또한 각각의 국소화가능한 오디오 소스의 도달 방향을 추정하는 단계를 포함할 수도 있다. 방법은 3 차원 오디오 인코딩 방식에 따라 멀티채널 신호를 인코딩하는 단계를 포함할 수도 있다.
방법은 제 1 필터링된 신호를 획득하기 위하여 제 1 엔드-파이어 (end-fire) 방향에서 빔을 적용하는 단계를 포함할 수도 있다. 방법은 또한 제 2 필터링된 신호를 획득하기 위하여 제 2 엔드-파이어 방향에서 빔을 적용하는 단계를 포함할 수도 있다. 방법은 제 1 필터링된 신호를 제 2 필터링된 신호의 지연된 버전 (version) 과 결합할 수도 있다. 제 1 및 제 2 필터링된 신호들의 각각은 적어도 2 개의 채널들을 가질 수도 있다. 필터링된 신호들 중의 하나는 다른 필터링된 신호에 관하여 지연될 수도 있다. 방법은 제 1 필터링된 신호의 제 2 채널에 관하여 제 1 필터링된 신호의 제 1 채널을 지연시킬 수도 있고, 제 2 필터링된 신호의 제 2 채널에 관하여 제 2 필터링된 신호의 제 1 채널을 지연시킬 수도 있다. 방법은 결합된 신호의 제 2 채널에 관하여 결합된 신호의 제 1 채널을 지연시킬 수도 있다.
방법은 제 1 공간적으로 필터링된 신호를 획득하기 위하여 제 1 방향에서의 빔을 갖는 필터를 제 1 쌍의 마이크로폰들에 의해 생성된 신호에 적용할 수도 있고, 제 2 공간적으로 필터링된 신호를 획득하기 위하여 제 2 방향에서의 빔을 갖는 필터를 제 2 쌍의 마이크로폰들에 의해 생성된 신호에 적용할 수도 있다. 다음으로, 방법은 출력 신호를 획득하기 위하여 제 1 및 제 2 공간적으로 필터링된 신호들을 결합할 수도 있다.
방법은 어레이 (array) 에서의 복수의 마이크로폰들의 각각에 대하여, 대응하는 입력 채널을 레코딩하는 단계를 포함할 수도 있다. 방법은 또한, 복수의 시야 방향 (look direction) 들의 각각에 대하여, 대응하는 출력 채널을 획득하기 위하여, 대응하는 멀티채널 필터를 복수의 레코딩된 입력 채널들에 적용하는 단계를 포함할 수도 있다. 멀티채널 필터들의 각각은 대응하는 시야 방향에서의 빔 및 다른 시야 방향들에서의 널 빔 (null beam) 을 적용할 수도 있다. 방법은 바이노럴 레코딩 (binaural recording) 생성하기 위하여 복수의 출력 채널들을 프로세싱하는 단계를 더 포함할 수도 있다. 방법은 빔을 하위 임계치 및 상위 임계치 사이의 주파수들에 적용하는 단계를 포함할 수도 있다. 하위 및 상위 임계치들 중의 적어도 하나는 마이크로폰들 사이의 거리에 기초한다.
무선 통신 디바이스에 의해 코덱을 선택하기 위한 방법이 설명된다. 방법은 복수의 오디오 신호들의 에너지 프로파일을 결정하는 단계를 포함한다. 방법은 또한, 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하는 단계를 포함한다. 방법은 또한 에너지 프로파일을 선택하는 입력을 검출하는 단계를 포함한다. 방법은 또한 코덱을 입력과 연관시키는 단계를 포함한다. 방법은 패킷을 생성하기 위하여 코덱에 기초하여 복수의 오디오 신호들을 압축하는 단계를 더 포함한다. 방법은 패킷을 오버 디 에어로 송신하는 단계를 포함할 수도 있다. 방법은 채널 식별정보를 송신하는 단계를 포함할 수도 있다.
무선 통신 디바이스에 의한 비트 할당을 증가시키기 위한 방법이 설명된다. 방법은 복수의 오디오 신호들의 에너지 프로파일을 결정하는 단계를 포함한다. 방법은 또한, 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하는 단계를 포함한다. 방법은 또한 에너지 프로파일을 선택하는 입력을 검출하는 단계를 포함한다. 방법은 또한 코덱을 입력과 연관시키는 단계를 포함한다. 방법은 입력에 기초하여 오디오 신호들을 압축하기 위하여 이용되는 코덱에 대한 비트 할당을 증가시키는 단계를 더 포함한다. 오디오 신호들의 압축은 4 개의 패킷들이 오버 디 에어로 송신되는 것으로 귀착될 수도 있다.
무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스가 설명된다. 무선 통신 디바이스는 복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하는 공간적 방향 회로부를 포함한다. 무선 통신 디바이스는 또한 공간적 방향 회로부에 커플링된 레코딩 회로부를 포함한다. 레코딩 회로부는 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩한다. 무선 통신 디바이스는 또한 레코딩 회로부에 커플링된 인코더를 포함한다. 인코더는 복수의 오디오 신호들을 인코딩한다.
무선 통신 디바이스에 의해 코덱을 선택하기 위한 무선 통신 디바이스가 설명된다. 무선 통신 디바이스는 복수의 오디오 신호들의 에너지 프로파일을 결정하는 에너지 프로파일 회로부를 포함한다. 무선 통신 디바이스는 에너지 프로파일 회로부에 커플링된 디스플레이를 포함한다. 디스플레이는 복수의 오디오 신호들 각각의 에너지 프로파일을 디스플레이한다. 무선 통신 디바이스는 디스플레이에 커플링된 입력 검출 회로부를 포함한다. 입력 검출 회로부는 에너지 프로파일을 선택하는 입력을 검출한다. 무선 통신 디바이스는 입력 검출 회로부에 커플링된 연관 회로부를 포함한다. 연관 회로부는 코덱을 입력과 연관시킨다. 무선 통신 디바이스는 연관 회로부에 커플링된 압축 회로부를 포함한다. 압축 회로부는 패킷을 생성하기 위하여 코덱에 기초하여 복수의 오디오 신호들을 압축한다.
무선 통신 디바이스에 의한 비트 할당을 증가시키기 위한 무선 통신 디바이스가 설명된다. 무선 통신 디바이스는 복수의 오디오 신호들의 에너지 프로파일을 결정하는 에너지 프로파일 회로부를 포함한다. 무선 통신 디바이스는 에너지 프로파일 회로부에 커플링된 디스플레이를 포함한다. 디스플레이는 복수의 오디오 신호들 각각의 에너지 프로파일을 디스플레이한다. 무선 통신 디바이스는 디스플레이에 커플링된 입력 검출 회로부를 포함한다. 입력 검출 회로부는 에너지 프로파일을 선택하는 입력을 검출한다. 무선 통신 디바이스는 입력 검출 회로부에 커플링된 연관 회로부를 포함한다. 연관 회로부는 코덱을 입력과 연관시킨다. 무선 통신 디바이스는 연관 회로부에 커플링된 비트 할당 회로부를 포함한다. 비트 할당 회로부는 입력에 기초하여 오디오 신호들을 압축하기 위하여 이용되는 코덱에 대한 비트 할당을 증가시킨다.
3 차원 오디오를 인코딩하기 위한 컴퓨터-프로그램 제품이 설명된다. 컴퓨터-프로그램 제품은 명령들을 갖는 비-일시적인 (non-transitory) 유형의 (tangible) 컴퓨터-판독가능한 매체를 포함한다. 명령들은 이동 통신 디바이스로 하여금 복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하게 하기 위한 코드를 포함한다. 명령들은 무선 통신 디바이스로 하여금 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩하게 하기 위한 코드를 포함한다. 명령들은 무선 통신 디바이스로 하여금 복수의 오디오 신호들을 인코딩하게 하기 위한 코드를 포함한다.
코덱을 선택하기 위한 컴퓨터-프로그램 제품이 설명된다. 컴퓨터-프로그램 제품은 명령들을 갖는 비-일시적인 유형의 컴퓨터-판독가능한 매체를 포함한다. 명령들은 무선 통신 디바이스로 하여금 복수의 오디오 신호들의 에너지 프로파일을 결정하게 하기 위한 코드를 포함한다. 명령들은 무선 통신 디바이스로 하여금 복수의 오디오 신호들 각각의 에너지 프로파일을 디스플레이하게 하기 위한 코드를 포함한다. 명령들은 무선 통신 디바이스로 하여금 에너지 프로파일을 선택하는 입력을 검출하게 하기 위한 코드를 포함한다. 방법은 또한 코덱을 입력과 연관시키는 단계를 포함한다. 명령들은 무선 통신 디바이스로 하여금 패킷을 생성하기 위하여 코덱에 기초하여 복수의 오디오 신호들을 압축하게 하기 위한 코드를 포함한다.
비트 할당을 증가시키기 위한 컴퓨터-프로그램 제품이 설명된다. 컴퓨터-프로그램 제품은 명령들을 갖는 비-일시적인 유형의 컴퓨터-판독가능한 매체를 포함한다. 명령들은 무선 통신 디바이스로 하여금 복수의 오디오 신호들의 에너지 프로파일을 결정하게 하기 위한 코드를 포함한다. 명령들은 무선 통신 디바이스로 하여금 복수의 오디오 신호들 각각의 에너지 프로파일을 디스플레이하게 하기 위한 코드를 포함한다. 명령들은 무선 통신 디바이스로 하여금 에너지 프로파일을 선택하는 입력을 검출하게 하기 위한 코드를 포함한다. 방법은 또한 코덱을 입력과 연관시키는 단계를 포함한다. 명령들은 무선 통신 디바이스로 하여금 입력에 기초하여 오디오 신호들을 압축하기 위해 이용된 코덱에 대한 비트 할당을 증가시키게 하기 위한 코드를 포함한다.
도 1 은 셀룰러 전화에 대한 대표적인 핸드셋 상에서의 마이크로폰 배치를 예시한다.
도 2a 는 사용자 인터페이스 입력들에 기초한 마이크로폰/빔포머 선택의 방법에 대한 플로우차트를 예시한다.
도 2b 는 마이크로폰 쌍에 대한 공간적 선택성의 영역들을 예시한다.
도 3 은 2 차원에서 희망하는 레코딩 방향을 선택하기 위한 사용자 인터페이스를 예시한다.
도 4 는 능동 잡음 상쇄 (active noise cancellation; ANC) 를 수행하도록 구성되는 헤드셋 주위에 정의된 가능한 공간적 섹터들을 예시한다.
도 5 는 3-마이크로폰 배열을 예시한다.
도 6 은 4-마이크로폰 설정을 이용한 공간적 코딩을 위한 무지향성인 1-차 캡처링을 예시한다.
도 7 은 휴대용 통신 디바이스의 하나의 예의 정면도 및 후면도를 예시한다.
도 8 은 브로드사이드 (broadside) 방향으로부터 도달하는 소스 신호를 레코딩하는 경우를 예시한다.
도 9 는 브로드사이드 방향으로부터 도달하는 소스 신호를 레코딩하는 또 다른 경우를 예시한다.
도 10 은 엔드-파이어 빔 (end-fire beam) 들을 결합하는 경우를 예시한다.
도 11 은 전방 중심, 전방 좌측, 전방 우측, 후방 좌측, 및 후방 우측 방향들에서의 빔들에 대한 도표들의 예들을 예시한다.
도 12 는 후방-우측 공간적 방향에 대한 신호를 획득하기 위한 프로세싱의 예를 예시한다.
도 13 은 3 개의 마이크로폰들의 어레이를 갖는 2-마이크로폰-쌍 블라인드 소스 분리 (blind source separation) 를 이용한 널 빔포밍 (null beamforming) 접근법을 예시한다.
도 14 는 전방-우측 방향에 대한 결과를 획득하기 위하여 전방 및 우측 방향들에서의 빔들이 결합되는 예를 예시한다.
도 15 는 도 13 에 예시된 바와 같은 접근법에 대한 널 빔 (null beam) 들의 예들을 예시한다.
도 16 은 4 개의 마이크로폰들의 어레이를 갖는 4-채널 블라인드 소스 분리를 이용한 널 빔포밍 접근법을 예시한다.
도 17 은 코너 방향들 FL, FR, BL, 및 BR 에 대한 4 개의 필터들의 세트에 대한 빔 패턴들의 예들을 예시한다.
도 18 은 이동 스피커 데이터에 대해 학습된 독립적인 벡터 분석 수렴된 필터 빔 패턴들의 예들을 예시한다.
도 19 는 정제된 이동 스피커 데이터에 대해 학습된 독립적인 벡터 분석 수렴된 필터 빔 패턴들의 예들을 예시한다.
도 20 은 엔드-파이어 빔들을 결합하는 방법의 플로우차트를 예시한다.
도 21 은 일반적인 듀얼-쌍 (dual-pair) 의 경우에 대한 방법의 플로우차트를 예시한다.
도 22 는 3-마이크로폰의 경우에 대한 도 21 의 방법의 구현예를 예시한다.
도 23 은 4 개의 마이크로폰들의 어레이를 갖는 4-채널 블라인드 소스 분리를 이용하는 방법에 대한 플로우차트를 예시한다.
도 24 는 블라인드 소스 분리 필터 뱅크에 대한 부분적인 라우팅 도면을 예시한다.
도 25 는 2x2 필터 뱅크에 대한 라우팅 도면을 예시한다.
도 26a 는 일반적인 구성에 따른 멀티-마이크로폰 오디오 센싱 디바이스의 블록도를 예시한다.
도 26b 는 통신 디바이스의 블록도를 예시한다.
도 27a 는 마이크로폰 어레이의 블록도를 예시한다.
도 27b 는 마이크로폰 어레이의 블록도를 예시한다.
도 28 은 상이한 스피치 코덱들이 동작하는 상이한 주파수 범위들 및 대역들의 차트를 예시한다.
도 29a, 도 29b, 및 도 29c 는 압축될 수도 있는 신호의 각각의 타입, 즉, 전대역 (fullband; FB), 수퍼 광대역 (superwideband; SWB) 및 광대역 (wideband; WB) 에 대한 4 개의 비-협대역 (non-narrowband) 코덱들을 이용한 제 1 구성에 대한 가능한 방식들을 각각 예시한다.
도 30a 는 2 개의 코덱들이 오디오 신호들을 평균화한 제 2 구성에 대한 가능한 방식을 예시한다.
도 30b 는 하나 이상의 코덱들이 오디오 신호들을 평균화한 제 2 구성에 대한 가능한 방식을 예시한다.
도 31a 는 코덱들 중의 하나 이상이 하나 이상의 오디오 신호들을 평균화할 수도 있는 제 3 구성에 대한 가능한 방식을 예시한다.
도 31b 는 비-협대역 코덱들 중의 하나 이상이 오디오 신호들을 평균화한 제 3 구성에 대한 가능한 방식을 예시한다.
도 32 는 4 개의 협대역 코덱들을 예시한다.
도 33 은 도 29a, 도 29b 또는 도 29c 의 임의의 방식의 4 개의 비-협대역 코덱들을 이용한 인코더/디코더 시스템의 엔드-투-엔드 (end-to-end) 시스템을 예시하는 플로우차트이다.
도 34 는 (예를 들어, 도 30a 또는 도 30b 의 어느 하나로부터의) 4 개의 코덱들을 이용한 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 35 는 (예를 들어, 도 31a 또는 도 31b 의 어느 하나로부터의) 4 개의 코덱들을 이용한 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 36 은 인코딩하기 위한 (예를 들어, 도 29a, 도 29b 또는 도 29c 로부터의) 4 개의 비-협대역 코덱들과, 디코딩하기 위한 4 개의 광대역 코덱들 또는 협대역 코덱들 중의 어느 하나와의 조합을 이용하여 오디오 신호 패킷들을 생성하고 수신하기 위한 또 다른 방법을 예시하는 플로우차트이다.
도 37 은 사운드의 4 개의 코너들의 에너지의 시각화 (visualization) 와 연관된 사용자 선택에 기초한 1 개 또는 2 개의 오디오 신호들의 압축 동안의 상이한 비트 할당이지만, 4 개의 패킷들이 오버 디 에어 채널들에서 송신되는 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 38 은 하나의 오디오 신호가 사운드의 4 개의 코너들의 에너지의 시각화와 연관된 사용자 선택에 기초하여 압축 및 송신되는 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 39 는 코덱 조합들의 4 개의 구성들을 포함하는 무선 통신 디바이스의 구현예를 예시하는 블록도이다.
도 40 은 도 29 의 4 개의 광대역 코덱들이 압축하기 위하여 이용되는 구성을 예시하는 무선 통신 디바이스의 구현예를 예시하는 블록도이다.
도 41 은 선택적인 코덱 프리-필터 (pre-filter) 가 이용될 수도 있는, 코덱 조합들의 4 개의 구성들을 포함하는 통신 디바이스의 구현예를 예시하는 블록도이다.
도 42 는 선택적인 필터링이 필터 뱅크 어레이 (filter bank array) 의 일부로서 발생할 수도 있는, 코덱 조합들의 4 개의 구성들을 포함하는 통신 디바이스의 구현예를 예시하는 블록도이다.
도 43 은 청각 장면 (auditory scene) 으로부터의 사운드 소스 데이터가 코덱 구성들 중의 하나로 인코딩하기 이전에 하나 이상의 파일들로부터의 데이터와 믹스 (mix) 될 수도 있는, 코덱 조합들의 4 개의 구성들을 포함하는 통신 디바이스의 구현예를 예시하는 블록도이다.
도 44 는 통합된 코덱을 이용하여 다수의 지향성 오디오 신호들을 인코딩하기 위한 방법을 예시하는 플로우차트이다.
도 45 는 오디오 신호 프로세싱을 위한 방법을 예시하는 플로우차트이다.
도 46 은 3 차원 오디오를 인코딩하기 위한 방법을 예시하는 플로우차트이다.
도 47 은 코덱을 선택하기 위한 방법을 예시하는 플로우차트이다.
도 48 은 비트 할당을 증가시키기 위한 방법을 예시하는 플로우차트이다.
도 49 는 무선 통신 디바이스 내에 포함될 수도 있는 어떤 컴포넌트들을 예시한다.
도 2a 는 사용자 인터페이스 입력들에 기초한 마이크로폰/빔포머 선택의 방법에 대한 플로우차트를 예시한다.
도 2b 는 마이크로폰 쌍에 대한 공간적 선택성의 영역들을 예시한다.
도 3 은 2 차원에서 희망하는 레코딩 방향을 선택하기 위한 사용자 인터페이스를 예시한다.
도 4 는 능동 잡음 상쇄 (active noise cancellation; ANC) 를 수행하도록 구성되는 헤드셋 주위에 정의된 가능한 공간적 섹터들을 예시한다.
도 5 는 3-마이크로폰 배열을 예시한다.
도 6 은 4-마이크로폰 설정을 이용한 공간적 코딩을 위한 무지향성인 1-차 캡처링을 예시한다.
도 7 은 휴대용 통신 디바이스의 하나의 예의 정면도 및 후면도를 예시한다.
도 8 은 브로드사이드 (broadside) 방향으로부터 도달하는 소스 신호를 레코딩하는 경우를 예시한다.
도 9 는 브로드사이드 방향으로부터 도달하는 소스 신호를 레코딩하는 또 다른 경우를 예시한다.
도 10 은 엔드-파이어 빔 (end-fire beam) 들을 결합하는 경우를 예시한다.
도 11 은 전방 중심, 전방 좌측, 전방 우측, 후방 좌측, 및 후방 우측 방향들에서의 빔들에 대한 도표들의 예들을 예시한다.
도 12 는 후방-우측 공간적 방향에 대한 신호를 획득하기 위한 프로세싱의 예를 예시한다.
도 13 은 3 개의 마이크로폰들의 어레이를 갖는 2-마이크로폰-쌍 블라인드 소스 분리 (blind source separation) 를 이용한 널 빔포밍 (null beamforming) 접근법을 예시한다.
도 14 는 전방-우측 방향에 대한 결과를 획득하기 위하여 전방 및 우측 방향들에서의 빔들이 결합되는 예를 예시한다.
도 15 는 도 13 에 예시된 바와 같은 접근법에 대한 널 빔 (null beam) 들의 예들을 예시한다.
도 16 은 4 개의 마이크로폰들의 어레이를 갖는 4-채널 블라인드 소스 분리를 이용한 널 빔포밍 접근법을 예시한다.
도 17 은 코너 방향들 FL, FR, BL, 및 BR 에 대한 4 개의 필터들의 세트에 대한 빔 패턴들의 예들을 예시한다.
도 18 은 이동 스피커 데이터에 대해 학습된 독립적인 벡터 분석 수렴된 필터 빔 패턴들의 예들을 예시한다.
도 19 는 정제된 이동 스피커 데이터에 대해 학습된 독립적인 벡터 분석 수렴된 필터 빔 패턴들의 예들을 예시한다.
도 20 은 엔드-파이어 빔들을 결합하는 방법의 플로우차트를 예시한다.
도 21 은 일반적인 듀얼-쌍 (dual-pair) 의 경우에 대한 방법의 플로우차트를 예시한다.
도 22 는 3-마이크로폰의 경우에 대한 도 21 의 방법의 구현예를 예시한다.
도 23 은 4 개의 마이크로폰들의 어레이를 갖는 4-채널 블라인드 소스 분리를 이용하는 방법에 대한 플로우차트를 예시한다.
도 24 는 블라인드 소스 분리 필터 뱅크에 대한 부분적인 라우팅 도면을 예시한다.
도 25 는 2x2 필터 뱅크에 대한 라우팅 도면을 예시한다.
도 26a 는 일반적인 구성에 따른 멀티-마이크로폰 오디오 센싱 디바이스의 블록도를 예시한다.
도 26b 는 통신 디바이스의 블록도를 예시한다.
도 27a 는 마이크로폰 어레이의 블록도를 예시한다.
도 27b 는 마이크로폰 어레이의 블록도를 예시한다.
도 28 은 상이한 스피치 코덱들이 동작하는 상이한 주파수 범위들 및 대역들의 차트를 예시한다.
도 29a, 도 29b, 및 도 29c 는 압축될 수도 있는 신호의 각각의 타입, 즉, 전대역 (fullband; FB), 수퍼 광대역 (superwideband; SWB) 및 광대역 (wideband; WB) 에 대한 4 개의 비-협대역 (non-narrowband) 코덱들을 이용한 제 1 구성에 대한 가능한 방식들을 각각 예시한다.
도 30a 는 2 개의 코덱들이 오디오 신호들을 평균화한 제 2 구성에 대한 가능한 방식을 예시한다.
도 30b 는 하나 이상의 코덱들이 오디오 신호들을 평균화한 제 2 구성에 대한 가능한 방식을 예시한다.
도 31a 는 코덱들 중의 하나 이상이 하나 이상의 오디오 신호들을 평균화할 수도 있는 제 3 구성에 대한 가능한 방식을 예시한다.
도 31b 는 비-협대역 코덱들 중의 하나 이상이 오디오 신호들을 평균화한 제 3 구성에 대한 가능한 방식을 예시한다.
도 32 는 4 개의 협대역 코덱들을 예시한다.
도 33 은 도 29a, 도 29b 또는 도 29c 의 임의의 방식의 4 개의 비-협대역 코덱들을 이용한 인코더/디코더 시스템의 엔드-투-엔드 (end-to-end) 시스템을 예시하는 플로우차트이다.
도 34 는 (예를 들어, 도 30a 또는 도 30b 의 어느 하나로부터의) 4 개의 코덱들을 이용한 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 35 는 (예를 들어, 도 31a 또는 도 31b 의 어느 하나로부터의) 4 개의 코덱들을 이용한 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 36 은 인코딩하기 위한 (예를 들어, 도 29a, 도 29b 또는 도 29c 로부터의) 4 개의 비-협대역 코덱들과, 디코딩하기 위한 4 개의 광대역 코덱들 또는 협대역 코덱들 중의 어느 하나와의 조합을 이용하여 오디오 신호 패킷들을 생성하고 수신하기 위한 또 다른 방법을 예시하는 플로우차트이다.
도 37 은 사운드의 4 개의 코너들의 에너지의 시각화 (visualization) 와 연관된 사용자 선택에 기초한 1 개 또는 2 개의 오디오 신호들의 압축 동안의 상이한 비트 할당이지만, 4 개의 패킷들이 오버 디 에어 채널들에서 송신되는 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 38 은 하나의 오디오 신호가 사운드의 4 개의 코너들의 에너지의 시각화와 연관된 사용자 선택에 기초하여 압축 및 송신되는 인코더/디코더 시스템의 엔드-투-엔드 시스템을 예시하는 플로우차트이다.
도 39 는 코덱 조합들의 4 개의 구성들을 포함하는 무선 통신 디바이스의 구현예를 예시하는 블록도이다.
도 40 은 도 29 의 4 개의 광대역 코덱들이 압축하기 위하여 이용되는 구성을 예시하는 무선 통신 디바이스의 구현예를 예시하는 블록도이다.
도 41 은 선택적인 코덱 프리-필터 (pre-filter) 가 이용될 수도 있는, 코덱 조합들의 4 개의 구성들을 포함하는 통신 디바이스의 구현예를 예시하는 블록도이다.
도 42 는 선택적인 필터링이 필터 뱅크 어레이 (filter bank array) 의 일부로서 발생할 수도 있는, 코덱 조합들의 4 개의 구성들을 포함하는 통신 디바이스의 구현예를 예시하는 블록도이다.
도 43 은 청각 장면 (auditory scene) 으로부터의 사운드 소스 데이터가 코덱 구성들 중의 하나로 인코딩하기 이전에 하나 이상의 파일들로부터의 데이터와 믹스 (mix) 될 수도 있는, 코덱 조합들의 4 개의 구성들을 포함하는 통신 디바이스의 구현예를 예시하는 블록도이다.
도 44 는 통합된 코덱을 이용하여 다수의 지향성 오디오 신호들을 인코딩하기 위한 방법을 예시하는 플로우차트이다.
도 45 는 오디오 신호 프로세싱을 위한 방법을 예시하는 플로우차트이다.
도 46 은 3 차원 오디오를 인코딩하기 위한 방법을 예시하는 플로우차트이다.
도 47 은 코덱을 선택하기 위한 방법을 예시하는 플로우차트이다.
도 48 은 비트 할당을 증가시키기 위한 방법을 예시하는 플로우차트이다.
도 49 는 무선 통신 디바이스 내에 포함될 수도 있는 어떤 컴포넌트들을 예시한다.
통신 디바이스들의 예들은 셀룰러 전화 기지국들 또는 노드들, 액세스 포인트들, 무선 게이트웨이들 및 무선 라우터들을 포함한다. 통신 디바이스는 3 세대 파트너쉽 프로젝트 (Third Generation Partnership Project; 3GPP) 롱텀 에볼루션 (Long Term Evolution; LTE) 표준들과 같은 어떤 산업 표준들에 따라 동작할 수도 있다. 통신 디바이스가 준수할 수도 있는 표준들의 다른 예들은 전기전자 기술자 협회 (Institute of Electrical and Electronics Engineers; IEEE) 802.11a, 802.11b, 802.11g, 802.11n 및/또는 802.11ac (예를 들어, 무선 충실도 (Wireless Fidelity) 또는 "Wi-Fi") 표준들, IEEE 802.16 (예를 들어, 마이크로파 액세스를 위한 전세계 상호운용성 (Worldwide Interoperability for Microwave Access) 또는 "WiMAX") 표준 등등을 포함한다. 일부의 표준들에서, 통신 디바이스는 노드 B, 진화형 노드 B, 등으로서 지칭될 수도 있다. 본원에서 개시된 시스템들 및 방법들의 일부는 하나 이상의 표준들의 측면에서 설명될 수도 있지만, 시스템들 및 방법들은 다수의 시스템들 및/또는 표준들에 적용가능할 수도 있으므로, 이것은 개시내용의 범위를 제한하지 않아야 한다.
일부의 통신 디바이스들 (예를 들어, 액세스 단말들, 클라이언트 디바이스들, 클라이언트 스테이션들, 등) 은 다른 통신 디바이스들과 무선으로 통신할 수도 있다. 일부의 통신 디바이스들 (예를 들어, 무선 통신 디바이스들) 은 이동 디바이스들, 이동 스테이션들, 가입자 스테이션들, 클라이언트들, 클라이언트 스테이션들, 사용자 장비 (user equipment; UE), 원격 스테이션들, 액세스 단말들, 이동 단말들, 단말들, 사용자 단말들, 가입자 유닛들, 등으로서 지칭될 수도 있다. 통신 디바이스들의 추가적인 예들은 랩톱 또는 데스크톱 컴퓨터들, 셀룰러 전화들, 스마트폰들, 무선 모뎀들, e-리더들, 태블릿 디바이스들, 게임용 시스템들, 등을 포함한다. 이 통신 디바이스들의 일부는 위에서 설명된 바와 같은 하나 이상의 산업 표준들에 따라 동작할 수도 있다. 따라서, 일반적인 용어 "통신 디바이스" 는 산업 표준들에 따라 변동되는 명명법들로 설명된 통신 디바이스들 (예를 들어, 액세스 단말, 사용자 장비, 원격 단말, 액세스 포인트, 기지국, 노드 B, 진화형 노드 B, 등) 을 포함할 수도 있다.
일부의 통신 디바이스들은 통신 네트워크에 대한 액세스를 제공할 수도 있다. 통신 네트워크들의 예들은 전화 네트워크 (예를 들어, 교중-교환 전화 네트워크 (Public-Switched Telephone Network; PSTN) 또는 셀룰러 전화 네트워크와 같은 "지상-통신선 (land-line)" 네트워크), 인터넷, 로컬 영역 네트워크 (Local Area Network; LAN), 광역 네트워크 (Wide Area Network; WAN), 도시 영역 네트워크 (Metropolitan Area Network; MAN) 를 포함하지만, 이것으로 제한되지 않는다.
그 문맥에 의해 분명히 제한되지 않으면, 용어 "신호" 는 배선, 버스, 또는 다른 송신 매체 상에서 표현되는 바와 같은 메모리 로케이션 (memory location) (또는 메모리 로케이션들의 세트) 의 상태를 포함한, 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 본원에서 이용된다. 그 문맥에 의해 분명히 제한되지 않으면, 용어 "생성" 은 컴퓨팅 또는 이와 다르게 생성과 같은 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 본원에서 이용된다. 그 문맥에 의해 분명히 제한되지 않으면, 용어 "계산" 은 컴퓨팅, 평가, 평활화 (smoothing) 및/또는 복수의 값들로부터의 선택과 같은 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 본원에서 이용된다. 그 문맥에 의해 분명히 제한되지 않으면, 용어 "획득" 은 계산, 유도, (예를 들어, 외부 디바이스로부터의) 수신, 및/또는 (예를 들어, 저장 엘리먼트들의 어레이로부터의) 취출과 같은 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 이용된다. 그 문맥에 의해 분명히 제한되지 않으면, 용어 "선택" 은 식별, 표시, 적용, 및/또는 2 개 이상의 세트 중의 적어도 하나 또는 전부보다 더 적은 것의 이용과 같은 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 이용된다. 용어 "포함" 이 본 설명 및 청구항들에서 이용될 경우, 그것은 다른 엘리먼트들 또는 동작들을 제외하지 않는다. ("A 는 B 에 기초로 한다" 에서와 같은) 용어 "기초로 하는" 은 (i) "~ 로부터 유도되는" (예를 들어, "B 는 A 의 전구체이다") (ii) "적어도 기초로 하는" (예를 들어, "A 는 적어도 B 에 기초로 한다"), 그리고 적절한 경우에 특별한 문맥에서 (iii) "~ 와 동일한" (예를 들어, "A 는 B 와 동일하다") 경우들을 포함한, 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 이용된다. 유사하게, 용어 "~ 에 응답하여" 는 "적어도 ~ 에 응답하여" 를 포함한, 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 이용된다.
멀티-마이크로폰 오디오 센싱 디바이스의 마이크로폰의 "로케이션 (location)" 에 대한 참조들은 문맥에 의해 이와 다르게 표시되지 않으면, 마이크로폰의 음향적 감지면의 중심의 로케이션을 표시한다. 용어 "채널" 은 신호 경로를 표시하고 그리고 다른 때에는, 특별한 문맥에 따라, 이러한 경로에 의해 운반되는 신호를 표시하기 위하여 이용된다. 이와 다르게 표시되지 않으면, 용어 "일련의 (series)" 는 2 개 이상의 항목들의 시퀀스 (sequence) 를 표시하기 위하여 이용된다. 용어 "로그 (logarithm)" 는 밑수-10 (base-ten) 로그를 표시하기 위하여 이용되지만, 다른 밑수들로의 이러한 연산의 확장들은 이 개시내용의 범위 내에 있다. 용어 "주파수 컴포넌트" 는 (예를 들어, 고속 퓨리에 변환 (fast Fourier transform) 에 의해 생성된 바와 같은) 신호의 주파수 도메인 표현의 샘플 또는 신호의 서브대역 (예를 들어, 바크 스케일 (Bark scale) 또는 멜 스케일 (mel scale) 서브대역) 과 같은, 신호의 주파수들 또는 주파수 대역들의 세트 중에서 하나를 표시하기 위하여 이용된다.
이와 다르게 표시되지 않으면, 특별한 특징을 갖는 장치의 동작의 임의의 개시내용은 또한, 유사한 특징을 갖는 방법을 개시하도록 분명히 의도된 것이고 (그리고 그 반대도 성립함), 특별한 구성에 따른 장치의 동작의 임의의 개시내용은 또한 유사한 구성에 따른 방법을 개시하도록 분명히 의도된 것이다 (그리고 그 반대도 성립함). 용어 "구성" 은 그 특별한 문맥에 의해 표시된 바와 같이 방법, 장치 및/또는 시스템을 참조하여 이용될 수도 있다. 용어들 "방법", "프로세스", "절차", 및 "기법" 은 특별한 문맥에 의해 이와 다르게 표시되지 않으면 총칭하여 그리고 상호 교환가능하게 이용된다. 용어들 "장치" 및 "디바이스" 는 특별한 문맥에 의해 이와 다르게 표시되지 않으면 총칭하여 그리고 상호 교환가능하게 이용된다. 용어들 "엘리먼트" 및 "모듈" 은 더 큰 구성의 일부분을 표시하기 위하여 전형적으로 이용된다. 그 문맥에 의해 분명히 제한되지 않으면, 용어 "시스템" 은 "공통의 목적을 제공하도록 상호작용하는 엘리먼트들의 그룹" 을 포함한, 그 정상적인 의미들 중의 임의의 것을 표시하기 위하여 본원에서 이용된다. 문서의 일부분의 참조에 의한 임의의 편입은 일부분 내에서 참조되는 용어들 또는 변수들의 정의들을 편입하도록 또한 이해되어야 할 것이고, 여기서, 이러한 정의들은 편입된 일부분에서 참조된 임의의 도면들뿐 아니라, 문서 내의 다른 곳에도 나타난다.
본원에서 설명된 바와 같은 방법은 캡처된 신호를 일련의 세그먼트들로서 프로세싱하도록 구성될 수도 있다. 전형적인 세그먼트 길이들은 약 5 또는 10 밀리초 (millisecond) 로부터 약 40 또는 50 밀리초까지의 범위이고, 세그먼트들은 중첩 (예를 들어, 인접한 세그먼트들은 25 % 또는 50 % 만큼 중첩함) 또는 비중첩 (nonoverlapping) 할 수도 있다. 하나의 특별한 예에서, 신호는 10 밀리초의 길이를 각각 갖는 일련의 비중첩 세그먼트들 또는 "프레임 (frame) 들" 로 분할된다. 이러한 방법에 의해 프로세싱된 바와 같은 세그먼트는 또한, 상이한 동작에 의해 프로세싱된 바와 같은 더 큰 세그먼트의 세그먼트 (즉, "서브프레임") 일 수도 있거나, 그 반대도 성립한다. 요즘에는, 우리는 페이스북, 트위터, 등과 같은 급속하게 성장하는 소셜 네트워크 서비스들을 통해 개인 정보의 즉각적인 교환을 경험하고 있다. 이와 동시에, 우리는 네트워크 속도 및 저장의 구별가능한 성장을 또한 보고 있고, 이것은 텍스트 뿐만 아니라, 멀티미디어 데이터도 이미 지원한다. 이 환경에서는, 우리는 개별적인 청각적 경험들의 더욱 현실적이고 실감적인 교환을 위하여 3 차원 (3D) 오디오를 캡처 및 재현하기 위한 중요한 필요성을 목격하게 된다. 실시간 셀룰러 통신 시스템들에서는, 3-D 오디오를 캡처, 압축, 및 송신하기 위한 능력이 현재 이용가능하지 않다. 과제들 중의 하나는 3-D 오디오 신호들의 캡처링이다. 2011 년 10 월 24 일자로 출원된 "THREE-DIMENSIONAL SOUND CAPTURING AND REPRODUCING WITH MULTI-MICROPHONES (멀티-마이크로폰들에 의한 3 차원 사운드 캡처 및 재현)" 라는 명칭의 미국 특허 출원 제 13/280,303 호, 대리인 일람 번호 102978U2 에 설명된 기법들의 일부는 또한, 3-D 오디오 정보가 어떻게 캡처되는지, 그리고 그것이 어떻게 레코딩될 수도 있는지를 설명하기 위하여 본원에서 이용될 수도 있다. 그러나, 이 출원은 3-D 오디오가 실시간 셀룰러 통신 시스템들에서 발견된 스피치 코덱들과 어떻게 조합될 수도 있는지를 설명함으로써 이전에 개시된 기능을 확장한다.
먼저, 3-D 오디오의 캡처가 설명된다. 일부의 구현예들에서, 가청 정보 (audible information) 는 레코딩될 수도 있다. 본원에서 설명된 가청 정보는 또한, 하나 이상의 독립적 스피치 코덱들에 의해 압축될 수도 있고 하나 이상의 오버-디-에어 채널들에서 송신될 수도 있다.
도 1 은 상이한 사운드 소스 방향들에 대한 구성가능한 마이크로폰 (104a 내지 104e) 어레이 기하구조를 갖는 무선 통신 디바이스 (102) 의 3 개의 상이한 도면들을 예시한다. 무선 통신 디바이스 (102) 는 수화기 (108) 및 하나 이상의 라우드스피커 (loudspeaker) 들 (110a 내지 110b) 을 포함할 수도 있다. 사용 케이스에 따라서는, 상이한 소스 방향들에서 공간적으로 선택적인 오디오 레코딩을 지원하기 위하여, 디바이스 (102) 의 마이크로폰들 (104a 내지 104e) 의 상이한 조합들 (예를 들어, 쌍들) 이 선택될 수도 있다. 예를 들어, (예를 들어, 무선 통신 디바이스 (102) 의 후면 상에 카메라 렌즈 (106) 를 갖는) 비디오 카메라의 상황에서는, 전방-후방 마이크로폰 (104a 내지 104e) 쌍 (예를 들어, 제 1 마이크 (104a) 및 제 4 마이크 (104d), 제 1 마이크 (104a) 및 제 5 마이크 (104e), 또는 제 3 마이크 (104c) 및 제 4 마이크 (104d)) 은, 수동으로 또는 자동으로 구성될 수도 있는 좌측 및 우측 방향 선호도들로, 전방 및 후방 방향들을 레코딩하기 위하여 (즉, 빔들을 카메라 렌즈 (106) 로 그리고 카메라 렌즈 (106) 로부터 멀어지게 조향하기 위하여) 이용될 수도 있다. 전방-후방 축에 직교하는 방향에서의 사운드 레코딩을 위하여, 마이크로폰 (104a 내지 104e) 쌍 (예를 들어, 제 1 마이크 (104a) 및 제 2 마이크 (104b)) 은 또 다른 옵션일 수도 있다. 추가적으로, 구성가능한 마이크로폰 (104a 내지 104e) 어레이 기하구조는 또한 3-D 오디오를 압축 및 송신하기 위하여 이용될 수도 있다.
설계 방법들 (즉, 최소 분산 무왜곡 응답 (minimum variance distortionless response; MVDR), 선형 제약 최소 분산 (linearly constrained minimum variance; LCMV), 위상조절된 어레이들, 등) 의 범위를 고려하면, 상이한 빔포머 데이터 뱅크들은 다양한 마이크로폰 (104a 내지 104e) 조합들에 대해 오프라인으로 컴퓨팅될 수도 있다. 이용 동안에, 이 빔포머들 중의 희망하는 하나는 현재의 사용 케이스 요건들에 따라 사용자 인터페이스에서의 메뉴를 통해 선택될 수도 있다.
도 2a 는 이러한 방법 (200) 을 위한 개념적인 플로우차트를 예시한다. 먼저, 무선 통신 디바이스 (102) 는 (예를 들어, 자동으로 및/또는 사용자 인터페이스를 통해 선택된 바와 같은) 하나 이상의 선호된 사운드 캡처 방향들을 획득 (201) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 특정된 지향성을 제공하는 마이크로폰 어레이 및 빔포머의 조합 (예를 들어, 쌍) 을 선택 (203) 할 수도 있다. 특정된 지향성은 또한 하나 이상의 스피치 코덱들과 조합하여 이용될 수도 있다.
도 2b 는 마이크로폰들 (204a 내지 204b) 의 쌍에 대한 공간적 선택성의 영역들을 예시한다. 예를 들어, 제 1 공간 (205a) 은 제 1 마이크로폰 (204a) 및 제 2 마이크로폰 (204b) 을 이용하여 엔드-파이어 빔포밍을 적용함으로써 오디오가 포커싱될 수도 있는 공간을 나타낼 수도 있다. 유사하게, 제 2 공간 (205b) 은 제 2 마이크로폰 (204b) 및 제 1 마이크로폰 (204a) 을 이용하여 엔드-파이어 빔포밍을 적용함으로써 오디오가 포커싱될 수도 있는 공간을 나타낼 수도 있다.
도 3 은 무선 통신 디바이스 (302) 의 사용자 인터페이스 (312) 의 예를 예시한다. 위에서 설명된 바와 같이, 일부의 구현예들에서, 레코딩 방향은 사용자 인터페이스 (312) 를 통해 선택될 수도 있다. 예를 들어, 사용자 인터페이스 (312) 는 하나 이상의 레코딩 방향들을 디스플레이할 수도 있다. 사용자 인터페이스 (312) 를 통해, 사용자는 희망하는 레코딩 방향들을 선택할 수도 있다. 일부의 예들에서, 사용자 인터페이스 (312) 는 또한, 사용자가 더 많은 비트들로 압축하는 것을 희망하는 특별한 방향과 연관된 오디오 정보를 선택하기 위하여 이용될 수도 있다. 일부의 구현예들에서, 무선 통신 디바이스 (302) 는 수화기 (308), 하나 이상의 라우드스피커들 (310a 내지 310b) 및 하나 이상의 마이크로폰들 (304a 내지 304c) 을 포함할 수도 있다.
도 4 는 3 개의 마이크로폰들 (404a 내지 404c) 을 포함할 수도 있는 스테레오 헤드셋 (414a 내지 414b) 에 대한 관련된 사용 케이스를 예시한다. 예를 들어, 스테레오 헤드셋 (414a 내지 414b) 은 중심 마이크로폰 (404a), 좌측 마이크로폰 (404b) 및 우측 마이크로폰 (404c) 을 포함할 수도 있다. 마이크로폰들 (404a 내지 404c) 은 음성 캡처 및/또는 능동 잡음 상쇄 (ANC) 와 같은 애플리케이션들을 지원할 수도 있다. 이러한 애플리케이션을 위하여, 머리 주위의 상이한 섹터들 (416a 내지 416d) (즉, 후방 섹터 (416a), 좌측 섹터 (416b), 우측 섹터 (416c) 및 전방 섹터 (416d)) 은 이 3-마이크로폰 (404a 내지 404c) 구성 (도 4, 무지향성 마이크로폰들을 이용함) 을 이용한 레코딩을 위해 정의될 수도 있다. 유사하게, 이 사용 케이스는 3-D 오디오를 압축 및 송신하기 위하여 이용될 수도 있다.
3-차원 오디오 캡처링은 또한, 도 5 에 도시된 바와 같은 3-마이크로폰 (504a 내지 504c) 배열과 같은 특화된 마이크로폰 설정들로 수행될 수도 있다. 이러한 배열은 코드 (518) 를 통해 또는 무선으로 레코딩 디바이스 (520) 에 접속될 수도 있다. 레코딩 디바이스 (520) 는 선택된 오디오 레코딩 방향에 따라 마이크로폰들 (504a 내지 504c) 중에서 (즉, 중심 마이크로폰 (504a), 좌측 마이크로폰 (504b) 및 우측 마이크로폰 (504c) 중으로부터) 한 쌍의 선택 및 디바이스 (520) 방위의 검출을 위하여 본원에서 설명된 바와 같은 장치를 포함할 수도 있다. 대안적인 배열에서는, 중심 마이크로폰 (504a) 이 레코딩 디바이스 (520) 상에 위치될 수도 있다. 유사하게, 이 사용 케이스는 3-D 오디오를 압축 및 송신하기 위하여 이용될 수도 있다.
원단 (far-end) 사용자는 스테레오 헤드셋 (예를 들어, 적응적 잡음 상쇄 또는 ANC 헤드셋) 을 이용하여 레코딩된 공간적 사운드를 청취하는 것으로 일반적으로 가정된다. 그러나, 다른 애플리케이션들에서는, 2 개를 초과하는 공간적 방향들을 재현할 수 있는 멀티-라우드스피커 어레이가 원단에서 이용가능할 수도 있다. 이러한 사용 케이스를 지원하기 위해서는, 3-D 오디오 신호의 레코딩 또는 캡처링 동안에 동시에 하나를 초과하는 마이크로폰/빔포머 조합이 3-D 오디오를 압축 및 송신하기 위해 이용되는 것을 가능하게 하는 것이 바람직할 수도 있다.
멀티-마이크로폰 어레이는 하나 이상의 소스 방향들의 각각에 대한 모노포닉 사운드 (monophonic sound) 를 생성하기 위하여 공간적으로 선택적인 필터와 함께 이용될 수도 있다. 그러나, 이러한 어레이는 또한 2 또는 3 차원들에서 공간적 오디오 인코딩을 지원하기 위하여 이용될 수도 있다. 본원에서 설명된 바와 같은 멀티-마이크로폰 어레이로 지원될 수도 있는 공간적 오디오 인코딩 방법들의 예들은 5.1 서라운드 (surround), 7.1 서라운드, 돌비 서라운드 (Dolby Surround), 돌비 프로-로직 (Dolby Pro-Logic), 또는 임의의 다른 위상-진폭 매트릭스 스테레오 포맷; 돌비 디지털 (Dolby Digital), DTS 또는 임의의 이산 멀티-채널 포맷; 및 파동장 합성 (wavefield synthesis) 을 포함한다. 5-채널 인코딩의 하나의 예는 좌측, 우측, 중심, 좌측 서라운드, 및 우측 서라운드 채널들을 포함한다.
도 6 은 4-마이크로폰 (604a 내지 604d) 설정을 이용한 공간적 코딩을 위한 1 차 캡처링을 근사화하기 위한 무지향성 마이크로폰 (604a 내지 604d) 배열을 예시한다. 본원에서 설명된 바와 같은 멀티-마이크로폰 (604a 내지 604d) 어레이로 지원될 수도 있는 공간적 오디오 인코딩 방법들의 예들은 또한, 앰비소닉 (Ambisonic) B 포맷 또는 더 상위 차수 앰비소닉 포맷과 같은 특수한 마이크로폰 (604a 내지 604d) 과 함께 이용하기 위하여 원래 의도될 수도 있는 방법들을 포함할 수도 있다. 앰비소닉 인코딩 방식의 프로세싱된 멀티채널 출력들은 예를 들어, 도 6 에 도시된 바와 같이 3 차원적으로 위치된 마이크로폰 어레이를 이용하여 적어도 1 차까지 근사화될 수 있는, 측정 포인트에 대한 3 차원 테일러 전개 (Taylor expansion) 를 포함할 수도 있다. 더 많은 마이크로폰들에 의해, 우리는 근사화 차수 (approximation order) 를 증가시킬 수도 있다. 일 예에 따르면, 제 2 마이크로폰 (604b) 은 z 방향에서의 거리 △z 만큼 제 1 마이크로폰 (604a) 으로부터 분리될 수도 있다. 제 3 마이크로폰 (604c) 은 y 방향에서의 거리 △y 만큼 제 1 마이크로폰 (604a) 으로부터 분리될 수도 있다. 제 4 마이크로폰 (604d) 은 x 방향에서의 거리 △x 만큼 제 1 마이크로폰 (604a) 으로부터 분리될 수도 있다.
실감적인 사운드 경험을 사용자에게 전달하기 위하여, 서라운드 사운드 레코딩들은 단독형 (stand-alone) 일 수 있거나, 비디오녹화 (videotaping) 와 함께 할 수도 있다. 서라운드 사운드 레코딩은 단일-지향성 (uni-directional) 마이크로폰들 (604a 내지 604d) 을 이용하는 별도의 마이크로폰 설정을 이용할 수도 있다. 이 예에서, 하나 이상의 단일-지향성 마이크로폰들 (604a 내지 604d) 은 별도로 클립 고정 (clip on) 될 수도 있다. 이 개시내용에서는, 공간적 필터링과 결합된 다수의 무지향성 마이크로폰들 (604a 내지 604d) 에 기초한 대안적인 방식이 제시된다. 이 구성의 예에서는, 스마트폰 또는 태블릿 상에 내장된 하나 이상의 무지향성 마이크로폰들 (604a 내지 604d) 이 다수의 사운드 레코딩 애플리케이션들을 지원할 수도 있다. 예를 들어, 2 개의 마이크로폰들 (604a 내지 604d) 은 와이드 스테레오 (wide stereo) 를 위해 이용될 수도 있고, 적절한 마이크로폰 (604a 내지 604d) 축들을 갖는 적어도 3 개의 무지향성 마이크로폰들 (604a 내지 604d) 은 서라운드 사운드를 위해 이용될 수도 있고, 스마트폰 또는 태블릿 디바이스 상에서 다수의 사운드 채널들을 레코딩하기 위해 이용될 수도 있다. 이 채널들은 결국 쌍들로 프로세싱될 수도 있거나, 희망하는 시야 방향 (look direction) 들에서 특정 공간적 픽업 패턴들을 가지도록 설계된 필터들과 동시에 필터링될 수도 있다. 공간적 에일리어싱 (spatial aliasing) 으로 인해, 마이크로폰간 거리들은 패턴들이 가장 관련된 주파수 대역들에서 효과적이도록 선택될 수도 있다. 생성된 스테레오 또는 5.1 출력 채널들은 실감적인 사운드 경험을 생성하기 위하여 서라운드 사운드 설정에서 재생될 수도 있다.
도 7 은 무선 통신 디바이스 (702) (예를 들어, 스마트폰) 의 하나의 예의 정면도 및 후면도를 예시한다. 전방 마이크로폰 (704a) 및 제 1 후방 마이크로폰 (704c) 의 어레이는 스테레오 레코딩을 행하기 위하여 이용될 수도 있다. 다른 마이크로폰 (704) 페어링 (pairing) 들의 예들은 제 1 마이크로폰 (704a) (전방) 및 제 2 마이크로폰 (704b) (전방), 제 3 마이크로폰 (704c) (후방) 및 제 4 마이크로폰 (704d) (후방), 그리고 제 2 마이크로폰 (704b) (전방) 및 제 4 마이크로폰 (704d) (후방) 을 포함한다. 디바이스 (702) 의 유지 위치에 종속될 수도 있는, 소스와 관련된 마이크로폰들 (704a 내지 704d) 의 상이한 로케이션들은 공간적 필터링을 이용하여 강조될 수도 있는 스테레오 효과를 생성할 수도 있다. (예를 들어, 비디오 녹화 동안에) 레코딩되고 있는 장면 및 해설자 사이의 스테레오 이미지를 생성하기 위해서는, (도 1 의 측면도에서 도시된 바와 같은) 디바이스의 두께의 거리를 갖는 제 1 마이크로폰 (704a) (전방) 및 제 3 마이크로폰 (704c) (후방) 을 이용한 엔드-파이어 페어링 (end-fire pairing) 을 이용하는 것이 바람직할 수도 있다. 그러나, 우리는 또한 상이한 유지 위치에서 동일한 마이크로폰들 (704a 내지 704d) 을 이용할 수도 있고 (예를 들어, 도 1 의 후면도에 도시된 바와 같이) z-축을 향한 거리를 갖는 엔드-파이어 페어링을 생성할 수도 있다는 것을 주목해야 한다. 후자의 경우에 있어서, 우리는 장면을 향하는 스테레오 이미지를 생성할 수 있다 (예를 들어, 장면에서 좌측으로부터 나오는 사운드는 좌측-도출 사운드로서 캡처된다). 일부의 구현예들에서, 무선 통신 디바이스는 수화기 (708), 하나 이상의 라우드스피커들 (710a 내지 710b) 및/또는 카메라 렌즈 (706) 를 포함할 수도 있다.
도 8 은 브로드사이드 방향으로부터 도달하는 소스 신호를 레코딩하기 위하여 디바이스 (702) 의 두께의 거리를 갖는 제 1 마이크로폰 (704a) (전방) 및 제 3 마이크로폰 (704c) (후방) 의 엔드-파이어 페어링을 이용하는 경우를 예시한다. 이 경우, X 축 (874) 은 우측으로 증가하고, Y 축 (876) 은 좌측으로 증가하고, Z 축 (878) 은 상부로 증가한다. 이 예에서, 2 개의 마이크로폰들 (704a, 704c) 의 좌표들은 (x=0, y=0, z=0) 및 (x=0, y=0.10, z=-0.01) 일 수도 있다. 스테레오 빔포밍은, y=0 평면을 따르는 면적은 브로드사이드 방향에서의 빔을 예시할 수도 있고 (x=0, y=-0.5, z=0) 주위의 면적은 엔드-파이어 방향에서의 널 빔을 예시할 수도 있도록 적용될 수도 있다. 해설자가 브로드사이드 방향으로부터 (예를 들어, 디바이스 (702) 의 후면으로) 이야기하고 있을 때, 마이크로폰 (704a, 704c) 쌍의 축 둘레의 회전에 대한 모호성으로 인해, 해설자의 음성을 디바이스 (702) 의 정면에서의 장면으로부터의 사운드들과 구별하는 것이 어려울 수도 있다. 이 예에서, 해설자의 음성을 장면으로부터 분리하기 위한 스테레오 효과는 증대되지 않을 수도 있다.
도 9 는 브로드사이드 방향으로부터 도달하는 소스 신호를 레코딩하기 위하여 디바이스 (702) 의 두께의 거리를 갖는 제 1 마이크로폰 (704a) (전방) 및 제 3 마이크로폰 (704c) (후방) 의 엔드-파이어 페어링을 이용하는 또 다른 경우를 예시하고, 마이크로폰 (704a) (전방), (704c) (후방) 좌표들은 도 8 과 동일할 수도 있다. 이 경우, X 축 (974) 은 우측으로 증가하고, Y 축 (976) 은 좌측으로 증가하고, Z 축 (978) 은 상부로 증가한다. 이 예에서는, 사용자의 (예를 들어, 해설자의) 음성이 하나의 채널에서 널 아웃 (null out) 될 수도 있도록, 빔이 (포인트 (x=0, y=-0.5, z=0) 를 통해) 엔드-파이어 방향을 향해 방위가 정해질 수도 있다. 빔은 널 빔포머 또는 또 다른 접근법을 이용하여 형성될 수도 있다. 예를 들어, 독립적 컴포넌트 분석 (independent component analysis; ICA) 또는 독립적 벡터 분석 (independent vector analysis; IVA) 과 같은 블라인드 소스 분리 (BSS) 접근법은 널 빔포머보다 더 폭넓은 스테레오 효과를 제공할 수도 있다. 녹화된 장면 자체에 대한 더 폭넓은 스테레오 효과를 제공하기 위해서는, (예를 들어, 도 1 의 후면도에서 도시된 바와 같이) z-축 (978) 을 향한 거리를 갖는 동일한 마이크로폰들 (704a, 704c) 의 엔드-파이어 페어링을 이용하는 것이 충분할 수도 있다는 것에 주목해야 한다.
도 10 은 엔드-파이어 빔들을 결합하는 경우를 예시하는 도표이다. 이 경우, X 축 (1074) 은 우측으로 증가하고, Y 축 (1076) 은 좌측으로 증가하고, Z 축 (1078) 은 상부로 증가한다. 브로드사이드 유지 위치에 있는 무선 통신 디바이스 (702) 에 있어서는, 원래의 레코딩에 비해 스테레오 효과를 증대시키기 위하여 (예를 들어, 도 9 및 도 10 에 도시된 바와 같이) 좌측 및 우측 사이드들의 엔드-파이어 빔들을 결합하는 것이 바람직할 수도 있다. 이러한 프로세싱은 (예를 들어, 마이크로폰 간격을 시뮬레이션하기 위하여) 채널간 지연을 추가하는 것을 또한 포함할 수도 있다. 이러한 지연은 공간에서의 공통 기준 포인트까지의 두 빔포머들의 출력 지연을 정규화하도록 작용할 수도 있다. 스테레오 채널들이 헤드폰들을 통해 재생될 때, 조작 지연들은 또한 선호된 방향에서 공간적 이미지를 회전시키는 것을 도울 수 있다. 디바이스 (702) 는 (예를 들어, "SYSTEMS, METHODS, APPARATUS AND COMPUTER-READABLE MEDIA FOR ORIENTATION-SENSITIVE RECORDING CONTROL (방위-감지 레코딩 제어를 위한 시스템들, 방법들, 장치 및 컴퓨터-판독가능한 매체들)" 이라는 명칭의 미국 특허 출원 제 13/280,211 호, 대리인 일람 번호 102978U1 에서 설명될 수도 있는 바와 같이) 유지 위치를 표시하는 가속도계 (accelerometer), 자력계 (magnetometer), 및/또는 자이로스코프 (gyroscope) 를 포함할 수도 있다. 이하에서 논의된 도 20 은 이러한 방법의 플로우차트를 예시한다.
디바이스가 엔드-파이어 유지 위에 있을 때, 레코딩은 폭넓은 스테레오 효과를 제공할 수도 있다. 이 경우, (예를 들어, 널 빔포머, 또는 ICA 또는 IVA 와 같은 BSS 솔루션을 이용한) 공간적 필터링은 효과를 약간 증대시킬 수도 있다.
듀얼-마이크로폰의 경우, 스테레오 레코딩된 파일은 위에서 설명된 바와 같이 (예를 들어, 사용자의 음성 및 레코딩된 장면의 분리를 증가시키기 위하여) 공간적 필터링을 통해 증대될 수도 있다. 예컨대, 신호를 2 개를 초과하는 채널들에 업믹스 (upmix) 하기 위하여, (예를 들어, 서라운드 사운드에 대한) 캡처된 스테레오 신호로부터 몇몇 상이한 지향성 채널들을 생성하는 것이 바람직할 수도 있다. 예를 들어, 신호가 각각의 채널에 대한 5 개의 스피커들의 어레이의 상이한 하나를 이용하여 재생될 수도 있도록 (예를 들어, 5.1 서라운드 사운드 방식에 대하여) 신호를 5 개의 채널들에 업믹스하는 것이 바람직할 수도 있다. 이러한 접근법은 업믹스된 채널들을 획득하기 위하여 대응하는 방향들에서 공간적 필터링을 적용하는 것을 포함할 수도 있다. 이러한 접근법은 또한, 멀티채널 인코딩 방식을 업믹스된 채널들 (예를 들어, 돌비 서라운드의 버전) 에 적용하는 것을 포함할 수도 있다.
2 개를 초과하는 마이크로폰들 (704a 내지 704d) 이 레코딩을 위해 이용되는 경우에 대해서는, 공간적 필터링 및 상이한 마이크로폰 (704a 내지 704d) 조합들을 이용하여 다수의 방향들 (5.1 표준에 따라, 예를 들어, 5 개의 방향들) 에서 레코딩하는 것이 가능할 수도 있다. 이러한 프로세싱은 업믹싱 (upmixing) 없이 수행될 수도 있다.
도 11 은 전방 중심 (FC) (1180), 전방 좌측 (FL) (1182), 전방 우측 (FR) (1184), 후방 좌측 (BL) (1186), 및 후방 우측 (BR) (1188) 방향들에서의 이러한 빔들에 대한 도표들의 예들을 예시한다. X, Y, 및 Z 축들은 이 도표들에서 유사하게 방위가 정해지고 (각각의 범위의 중간은 제로이고, 극단들은 +/- 0.5 이고, X 축은 우측으로 증가하고, Y 축은 좌측을 향해 증가하고, Z 축은 상부를 향해 증가한다), 어두운 구역들은 기재된 바와 같은 빔 또는 널 빔 방향들을 표시한다. 각각의 도표에 대한 빔들은 다음의 포인트들 (z=0) 을 통해 지향된다: 전방 중심 (FC) (1180) 에 대하여 (x=0, y=+0.5), 전방 우측 (FR) (1184) 에 대하여 (x=+0.5, y=+0.5), 후방 우측 (BR) (1188) 에 대하여 (x=+0.5, y=-0.5), 후방 좌측 (BL) (1186) 에 대하여 (x=-0.5, y=-0.5), 및 전방 좌측 (FL) (1182) 에 대하여 (x=-0.5, y=+0.5).
4 개의 상이한 방향들 (FR (1184), BR (1188), BL (1186), FL (1182)) 과 연관된 오디오 신호들은 무선 통신 디바이스 (702) 상에서 스피치 코덱들을 이용하여 압축될 수도 있다. 수신기 측에서는, 사용자가 상이한 지향성 사운드들과 연관된 4 개의 재구성된 오디오 신호들을 재생/또는 디코딩하는 중심 사운드가 FR (1184), BR (1188), BL (1186), FL (1182) 채널들의 조합에 의해 생성될 수도 있다. 상이한 방향들과 연관된 이 오디오 신호들은 무선 통신 디바이스 (702) 를 이용하여 실시간으로 압축 및 송신될 수도 있다. 4 개의 독립적인 소스들의 각각은 어떤 하부 대역 주파수 (low band frequency; LB) 주파수로부터 어떤 상부 대역 주파수 (upper band frequency; UB) 에 이르기까지 압축 및 송신될 수도 있다.
공간적 필터링 기법의 유효성은 작은 마이크로폰간 간격, 고주파수들에서의 공간적 에이리어싱 및 산란과 같은 인자들에 따라 대역통과 범위로 제한될 수도 있다. 하나의 예에서, 신호는 공간적 필터링 전에 (예를 들어, 8 kHz 의 차단 주파수로) 저역통과-필터링될 수도 있다.
단일 포인트 소스로부터의 사운드가 캡처되고 있는 경우에 대하여, 다른 방향들로부터 도달하는 신호들의 마스킹으로 이러한 빔포밍을 보완하는 것은 비-직접-경로 (non-direct-path) 신호들의 강한 감쇠 (attenuation) 및/또는 희망하는 마스킹 효과를 달성하기 위하여 필요한 공격성 (aggressiveness) 의 레벨에서의 가청 왜곡으로 이어질 수도 있다. 이러한 아티팩트 (artifact) 들은 고해상도 (high-definition; HD) 오디오에 대해 바람직하지 않을 수도 있다. 하나의 예에서, HD 오디오는 48 kHz 의 샘플링 레이트에서 레코딩될 수도 있다. 이러한 아티팩트들을 완화시키기 위하여, 공격적으로 공간적으로 필터링된 신호를 이용하는 대신에, 각각의 채널에 대한 프로세싱된 신호의 에너지 프로파일만을 이용하고, 원래의 입력 신호들 상의 각각의 채널에 대한 에너지 프로파일 또는 마스킹 전의 공간적으로 프로세싱된 출력에 따라 이득 패닝 규칙 (gain panning rule) 을 적용하는 것이 바람직할 수도 있다. 사운드 이벤트들이 시간-주파수 맵에서 희박할 수도 있으므로, 다수-소스의 경우들에도 이러한 포스트-이득-패닝 (post-gain-panning) 방법을 이용하는 것이 가능할 수도 있다.
도 12 는 후방-우측 공간적 방향에 대한 신호를 획득하기 위한 프로세싱의 예를 예시한다. 도표 A (1290) (진폭 대 시간) 는 원래의 마이크로폰 레코딩을 예시한다. 도표 B (1292) (진폭 대 시간) 는 마이크로폰 신호를 (8 kHz 의 차단 주파수로) 저역통과-필터링하고 마스킹을 갖는 공간적 필터링을 수행하는 결과를 예시한다. 도표 C (1294) (진폭 대 시간) 는 도표 B (1292) 에서의 신호의 에너지에 기초하여 관련된 공간적 에너지를 예시한다 (예를 들어, 제곱된 샘플 값들의 합). 도표 D (1296) (상태 대 시간) 는 저주파수 공간적 필터링에 의해 표시된 에너지 차이들에 기초하여 패닝 프로파일을 예시하고, 도표 E (1298) (진폭 대 시간) 는 48-kHz 패닝된 출력을 예시한다.
듀얼-마이크-쌍의 경우에 대해서는, 하나의 쌍에 대한 적어도 하나의 빔과, 다른 쌍에 대한 상이한 방향들에서의 적어도 2 개의 빔들을 설계하는 것이 바람직할 수도 있다. 빔들은 (예를 들어, 독립적인 컴폰넌트 분석 또는 독립적인 벡터 분석과 같은 블라인드 소스 분리 접근법으로) 설계 또는 학습될 수도 있다. 이 빔들의 각각은 (예를 들어, 서라운드 사운드 레코딩에 대한) 레코딩의 상이한 채널을 획득하기 위하여 이용될 수도 있다.
도 13 은 3 개의 마이크로폰들 (1304a 내지 1304c) 의 어레이를 갖는 2-마이크로폰-쌍 블라인드 소스 분리 (예를 들어, 독립적 컴포넌트 분석 또는 독립적 벡터 분석) 를 이용한 널 빔포밍 접근법을 예시한다. 전방 및 후방 국소화가능한 오디오 소스들 (1380a, 1380b) 에 대하여, 제 2 마이크 (1304b) 및 제 3 마이크 (1304c) 가 이용될 수도 있다. 좌측 및 우측 국소화가능한 오디오 소스들 (1380c, 1380,d) 에 대하여, 제 1 마이크 (1304a) 및 제 2 마이크 (1304b) 가 이용될 수도 있다. 2 개의 마이크로폰 (1304a 내지 1304c) 쌍들의 축들이 직교하거나 적어도 실질적으로 직교 (예를 들어, 직교로부터 5, 10, 15 또는 20 도보다 더 많지 않음) 하는 것이 바람직할 수도 있다.
채널들의 일부는 빔들의 2개 이상을 결합함으로써 생성될 수도 있다. 도 14 는 전방 빔 (1422a) 및 우측 빔 (1422b) (즉, 전방 및 우측 방향들에서의 빔들) 이 전방 우측 방향에 대한 결과를 획득하기 위하여 결합될 수도 있는 예를 예시한다. 빔들은 하나 이상의 마이크로폰들 (1404a 내지 1404c) (예를 들어, 제 1 마이크 (1404a), 제 2 마이크 (1404b) 및 제 3 마이크 (1404c)) 에 의해 레코딩될 수도 있다. 전방 좌측, 후방 우측, 및/또는 후방 좌측 방향들에 대한 결과들은 동일한 방법으로 획득될 수도 있다. 이 예에서, 중첩하는 빔들 (1422a 내지 1422d) 을 이러한 방식으로 결합하는 것은 다른 로케이션들로부터 도달하는 신호들에 대한 것보다 대응하는 코너로부터 도달하는 신호들에 대하여 6 dB 더 큰 신호를 제공할 수도 있다. 일부의 구현예들에서는, 후방 널 빔 (1422c) 및 좌측 널 빔 (1422d) 이 형성될 수도 있다 (즉, 좌측 및 후방 방향들에서의 빔들은 널일 수도 있다). 일부의 경우들에 있어서, 채널간 지연은 공간에서의 공통 기준 포인트까지의 두 빔포머들의 출력 지연을 정규화하기 위하여 적용될 수도 있다. "좌측-우측 엔드-파이어 쌍" 및 "전방-후방 엔드-파이어 쌍" 이 결합될 때에는, 기준 포인트를 마이크로폰 (1404a 내지 1404c) 어레이의 중력의 중심으로 설정하는 것이 바람직할 수도 있다. 이러한 동작은 2 개의 쌍들 사이의 조절된 지연을 갖는 희망하는 코너 로케이션에서의 최대화된 비밍 (beaming) 을 지원할 수도 있다.
도 15 는 도 13 에 예시된 바와 같은 접근법에 대한 전방 (1501), 후방 (1503), 좌측 (1505) 및 우측 (1507) 방향들에서의 널 빔들의 예들을 예시한다. 빔들은 디바이스 (702) 및 사운드 소스 (또는 소스들) 의 상대적 위치들이 고정되는 시나리오들에 대해 학습된 최소 분산 무왜곡 응답 빔포머들 또는 수렴된 블라인드 소스 분리 (예를 들어, 독립적 컴포넌트 분석 또는 독립적 벡터 분석) 필터들을 이용하여 설계될 수도 있다. 이 예들에서, 도시된 주파수 빈 (bin) 들의 범위는 0 으로부터 8 kHz 까지의 대역에 대응한다. 공간적 빔 패턴들이 상보적인 것으로 보여질 수도 있다. 또한, 이 예들에서 좌측-우측 쌍의 마이크로폰들 (1304a 내지 1304c) 및 전방-후방 쌍의 마이크로폰들 (1304a 내지 1304c) 사이의 상이한 간격으로 인해, 공간적 에일리어싱은 이 빔 패턴들에 상이하게 영향을 주는 것으로 보여질 수도 있다.
공간적 에일리어싱으로 인해, 마이크로폰간 거리들에 따라서는, 빔들을 캡처된 신호들의 전체 주파수 범위 미만에 (예를 들어, 위에서 언급된 바와 같이 0 으로부터 8 kHz 까지의 범위에) 적용하는 것이 바람직할 수도 있다. 저주파수 컨텐츠 (low-frequency content) 가 공간적으로 필터링된 후, 고주파수 컨텐츠 (high-frequency content) 는 공간적 지연, 프로세싱 지연 및/또는 이득 정합을 위한 일부의 조절과 함께 다시 추가될 수도 있다. 일부의 경우들 (예를 들어, 핸드헬드 디바이스 폼팩터 (form factor) 들) 에서는, 마이크로폰 간격 제한들로 인해 지향성의 일부 손실이 여하튼 예상될 수도 있으므로, 주파수들의 중간 범위만 (예를 들어, 200 또는 500 Hz 까지 아래로만) 을 필터링하는 것이 또한 바람직할 수도 있다.
일부의 종류의 비-선형 위상 왜곡이 존재할 경우, 동일한 도달 방향 (direction of arrival; DOA) 에 따른 모든 주파수들에 대한 동일한 지연에 기초하는 표준 빔/널-포밍 기법은 비-선형 위상 왜곡에 의해 야기된 바와 같은 일부의 주파수들에 대한 차등 지연 (differential delay) 으로 인해 열악하게 수행할 수도 있다. 그러나, 본원에서 설명된 바와 같은 독립적 벡터 분석에 기초한 방법은 소스 분리에 기초하여 동작하고, 그러므로, 이러한 방법은 동일한 도달 방향에 대한 차등 지연의 존재 시에도 양호한 결과들을 생성하는 것으로 예상될 수도 있다. 이러한 견고성 (robustness) 은 서라운드 프로세싱 계수들을 획득하기 위한 독립적 벡터 분석을 이용하는 잠재적인 장점일 수도 있다.
일부의 차단 주파수 (예를 들어, 8 kHz) 를 초과하는 공간적 필터링이 행해지지 않는 경우에 대하여, 최종적인 고해상도 신호를 제공하는 것은 원래의 전방/후방 채널들을 고역-통과 필터링하는 것과, 8 로부터 24 kHz 까지의 대역을 다시 추가하는 것을 포함할 수도 있다. 이러한 동작은 공간적이고 고역-통과 필터링 지연들에 대해 조절하는 것을 포함할 수도 있다. 또한, (예를 들어, 공간적 분리 효과를 혼란시키지 않도록 하기 위하여) 8-24 kHz 대역의 이득을 조절하는 것이 바람직할 수도 있다. 도 12 에 예시된 예들은 시간 도메인에서 필터링될 수도 있지만, 다른 도메인들 (예를 들어, 주파수 도메인) 에서의 필터링으로의 본원에서 설명된 접근법들의 적용은 분명히 구상되고 이것에 의해 개시되어 있다.
도 16 은 4 개의 마이크로폰들 (1604a 내지 1604d) 의 어레이를 갖는 4-채널 블라인드 소스 분리 (예를 들어, 독립적 컴포넌트 분석 또는 독립적 벡터 분석) 를 이용한 널 빔포밍 접근법을 예시한다. 4 개의 마이크로폰들 (1604a 내지 1604d) 의 다양한 쌍들 중의 적어도 2 개의 축들이 직교하거나 적어도 실질적으로 직교 (예를 들어, 직교로부터 5, 10, 15 또는 20 도보다 더 많지 않음) 하는 것이 바람직할 수도 있다. 이러한 4-마이크로폰 (1604a 내지 1604d) 필터들은 코너 방향들로의 빔 패턴들을 생성하기 위한 듀얼-마이크로폰 페어링에 추가적으로 이용될 수도 있다. 하나의 예에서, 필터들은 독립적 벡터 분석 및 트레이닝 데이터를 이용하여 학습될 수도 있고, 결과적인 수렴된 독립적 벡터 분석 필터들은 5.1 서라운드 사운드에서의 각각의 5 개의 채널 방향들 (FL, FC, FR, BR, BL) 의 각각에 대한 신호들을 생성하기 위하여 4 개의 레코딩된 마이크로폰 (1604a 내지 1604d) 입력들에 적용된 고정된 필터들로서 구현된다. 5 개의 스피커들을 완전히 활용하기 위하여, 전방-중심 채널 FC 는 예를 들어, 다음의 수학식을 이용하여 획득될 수도 있다: . 이하에서 설명된 도 23 은 이러한 방법에 대한 플로우차트를 예시한다. 이하에서 설명된 도 25 는 이러한 필터 뱅크에 대한 부분적인 라우팅 도면을 예시하고, 마이크 n 은 1<=n<=4 에 대하여 열 (column) 에서의 필터들에 대한 입력을 제공하고, 출력 채널들의 각각은 대응하는 행 (row) 에서의 필터들의 출력들의 합이다.
이러한 학습 프로세스의 하나의 예에서, 독립적인 사운드 소스는 4-마이크로폰 (1604a 내지 1604d) 어레이 주위의 4 개의 지정된 로케이션들 (예를 들어, 4 개의 코너 로케이션들 FL, FR, BL 및 BR) 의 각각에 위치되고, 어레이는 4-채널 신호를 캡처하기 위해 이용된다. 캡처된 4-채널 출력들의 각각은 모두 4 개의 소스들의 혼합인 것에 주목해야 한다. 다음으로, 블라인드 소스 분리 기법 (예를 들어, 독립적 벡터 분석) 은 4 개의 독립적인 소스들을 분리시키기 위하여 적용될 수도 있다. 수렴 후에, 타겟 코너를 향해 본질적으로 비밍하고 다른 3 개의 코너들을 향해 널링 (nulling) 하는 수렴된 필터 세트뿐만 아니라 분리된 4 개의 독립적인 소스들이 획득될 수도 있다.
도 17 은 코너 방향들 전방 좌측 (FL) (1709), 전방 우측 (FR) (1711), 후방 좌측 (BL) (1713), 및 후방 우측 (BR) (1715) 에 대한 4 개의 필터들의 이러한 세트에 대한 빔 패턴들의 예들을 예시한다. 랜드스케이프 (landscape) 레코딩 모드에 대하여, 필터들을 획득 및 적용하는 것은 2 개의 전방 마이크로폰들 및 2 개의 후방 마이크로폰들을 이용하는 것, 어레이와 관련하여 고정된 위치에서 소스에 대한 4-채널 독립적 벡터 분석 학습 알고리즘을 실행하는 것, 및 수렴된 필터들을 적용하는 것을 포함할 수도 있다.
빔 패턴은 취득된 혼합 데이터에 따라 변동될 수도 있다. 도 18 은 후방 좌측 (BL) (1817) 방향, 후방 우측 (BR) (1819) 방향, 전방 좌측 (FL) (1821) 방향 및 전방 우측 (FR) (1823) 방향에서 이동 스피커 데이터에 대해 학습된 독립적 벡터 분석 수렴된 필터 빔 패턴들의 예들을 예시한다. 도 19 는 후방 좌측 (BL) (1917) 방향, 후방 우측 (BR) (1919) 방향, 전방 좌측 (FL) (1921) 방향 및 전방 우측 (FR) (1923) 방향에서 정제된 이동 스피커 데이터에 대해 학습된 독립적 벡터 분석 수렴된 필터 빔 패턴들의 예들을 예시한다. 이 예들은 전방 우측 빔 패턴을 제외하고는 도 18 에 도시된 것과 동일하다.
독립적 벡터 분석을 이용하여 4-마이크로폰 필터를 트레이닝하는 프로세스는 희망하는 방향을 향해 비밍하는 것뿐만 아니라, 간섭 방향들을 널링하는 것을 포함할 수도 있다. 예를 들어, 전방 좌측 (FL) 방향에 대한 필터는, 전방 좌측 (FL) 방향을 향하는 빔과, 전방 우측 (FR), 후방 좌측 (BL) 및 후방 우측 (BR) 방향들에서의 널들을 포함하는 솔루션으로 수렴된다. 이러한 트레이닝 동작은 정확한 마이크로폰 어레이 기하구조가 이미 알려져 있을 경우에 결정론적으로 행해질 수도 있다. 대안적으로, 독립적 벡터 분석 프로세스는, 하나 이상의 오디오 소스들 (예를 들어, 스피치, 악기, 등) 이 각각의 코너에 위치되고 4-마이크로폰 어레이에 의해 캡처되는 풍부한 트레이닝 데이터로 수행될 수도 있다. 이 경우, 트레이닝 프로세스는 마이크로폰 구성에 관계 없이 (즉, 마이크로폰 기하구조에 관한 정보의 필요성 없이) 한번 수행될 수도 있고, 필터는 더 이후의 시간에 특별한 어레이 구성에 대해 고정될 수도 있다. 어레이가 투영된 2 차원 (x-y) 평면에서 4 개의 마이크로폰들을 포함하기만 하면, 이 학습 프로세싱의 결과들은 4 개의 코너 필터들의 적절한 세트를 생성하기 위하여 적용될 수도 있다. 어레이의 마이크로폰들이 2 개의 직교 또는 거의 직교하는 축들 (예를 들어, 직교의 15 도 이내) 에서 배열될 경우, 이러한 트레이닝된 필터는 특별한 마이크로폰 어레이 구성의 제약 없이 서라운드 사운드 이미지를 레코딩하기 위하여 이용될 수도 있다. 예를 들어, 2 개의 축들이 직교에 매우 근접하고 각각의 축 상의 마이크로폰들 사이의 간격들 사이의 비율이 중요하지 않을 경우, 3-마이크로폰 어레이가 충분할 수도 있다.
위에서 언급된 바와 같이, 고해상도 신호는 저주파수를 공간적으로 프로세싱하고 고주파수 항들을 통과시킴으로써 획득될 수도 있다. 그러나, 전체 주파수 영역의 프로세싱은 실제로, 연산 복잡도에 있어서의 증가가 특별한 설계에 대해 중요한 관심사가 아닐 경우에 수행될 수도 있다. 4-마이크로폰 독립적 벡터 분석 접근법은 비밍보다는 널링에 더 많이 포커싱하므로, 고주파수 항들에서의 에일리어싱의 효과는 감소될 수도 있다. 비밍 방향에서의 주파수 영역의 대부분이 특히, 작은 마이크로폰간 거리들에 대하여, 널 에일리어싱에 의해 영향을 받지 않은 상태로 있을 수도 있도록, 널 에일리어싱은 비밍 방향에서 희귀한 주파수들에서 발생할 수도 있다. 더 큰 마이크로폰간 거리들에 대하여, 효과는 프로세싱되지 않은 고주파수 항들을 단지 통과시키는 경우와 유사하도록, 널링은 실제로 무작위화 (randomize) 될 수도 있다.
작은 폼팩터 (예를 들어, 핸드헬드 디바이스 (102)) 에 대해서는, 마이크로폰 간격이 너무 작아서 양호한 결과를 지원할 수도 없고, 더 높은 주파수들에서의 성능은 절충될 수도 있으므로, 저주파수들에서 공간적 필터링을 수행하는 것을 회피하는 것이 바람직할 수도 있다. 마찬가지로, 이러한 주파수들은 전형적으로 이미 지향성이고 필터링은 공간적 에일리어싱 주파수보다 높은 주파수들에 대해 비효과적일 수도 있으므로, 고주파수들에서 공간적 필터링을 수행하는 것을 회피하는 것이 바람직할 수도 있다.
4 개 보다 더 적은 마이크로폰들이 이용될 경우, (예를 들어, 불충분한 자유도들로 인해) 3 개의 다른 코너들에서 널들을 형성하는 것이 어려울 수도 있다. 이 경우, 도 14, 도 21, 및 도 22 를 참조하여 논의된 엔드-파이어 페어링과 같은 대안을 이용하는 것이 바람직할 수도 있다.
도 20 은 엔드-파이어 빔들을 결합하는 방법 (2000) 의 플로우차트를 예시한다. 하나의 예에서, 무선 통신 디바이스 (102) 는 하나의 엔드-파이어 방향에서 빔을 적용 (2002) 할 수도 있다. 무선 통신 디바이스 (102) 는 다른 엔드-파이어 방향에서 빔을 적용 (2004) 할 수도 있다. 일부의 예들에서, 마이크로폰 (104a 내지 104e) 쌍은 엔드-파이어 방향들에서 빔들을 적용할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 필터링된 신호들을 결합 (2006) 할 수도 있다.
도 21 은 일반적인 듀얼-쌍 마이크로폰의 경우에서 빔들을 결합하기 위한 방법 (2100) 의 플로우차트를 예시한다. 하나의 예에서, 제 1 마이크로폰 (104a 내지 104e) 쌍은 제 1 방향에서 빔을 적용 (2102) 할 수도 있다. 제 2 마이크로폰 (104a 내지 104e) 쌍은 제 2 방향에서 빔을 적용 (2104) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 필터링된 신호들을 결합 (2106) 할 수도 있다.
도 22 는 3 마이크로폰의 경우에서 빔들을 결합하는 방법 (2200) 의 플로우차트를 예시한다. 이 예에서, 제 1 마이크로폰 (104a) 및 제 2 마이크로폰 (104b) 은 제 1 방향에서 빔을 적용 (2202) 할 수도 있다. 제 2 마이크로폰 (104b) 및 제 3 마이크로폰 (104c) 은 제 2 방향에서 빔을 적용 (2204) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 필터링된 신호들을 결합 (2206) 할 수도 있다. 엔드-파이어 빔폼 (beamform) 들의 각각의 쌍은 +90 및 -90 도 포커싱 구역을 가질 수도 있다. 일 예로서, 전방 (전방-후방 쌍의 +90) 좌측 (좌측-우측 쌍의 +90) 을 가지기 위하여, +90 도 포커스 구역을 둘 모두 갖는 2-엔드-파이어 빔폼들의 조합이 이용될 수도 있다.
도 23 은 4-채널 블라인드 소스 분리를 이용한 4 개의 마이크로폰들 (2304a 내지 2304d) (예를 들어, 제 1 마이크 채널 (2304a), 제 2 마이크 채널 (2304b), 제 3 마이크 채널 (2304c) 및 제 4 마이크 채널 (2304d)) 의 어레이의 블록도이다. 마이크로폰 (2304a 내지 2304d) 채널들은 각각, 4 개의 필터들 (2324a 내지 2324d) 의 각각에 커플링될 수도 있다. 5 개의 스피커들을 완전히 활용하기 위하여, 전방 중심 채널 (2304e) 은 예를 들어, 제 1 필터 (2324a) 및 제 2 필터 (2324b) 의 출력을 통해 전방 우측 채널 (2304a) 및 좌측 채널 (2304b) 을 결합함으로써 획득될 수도 있다.
도 24 는 블라인드 소스 분리 필터 뱅크 (2426) 에 대한 부분적인 라우팅 도면을 예시한다. 4 개의 마이크로폰들 (2404) (예를 들어, 제 1 마이크 (2404a), 제 2 마이크 (2404b), 제 3 마이크 (2404c) 및 제 4 마이크 (2404d)) 은 전방 좌측 (FL) 방향, 전방 우측 (FR) 방향, 후방 좌측 (BL) 방향 및 후방 우측 (BR) 방향에서의 오디오 신호들을 생성하기 위하여 필터 뱅크 (2426) 에 커플링될 수도 있다.
도 25 는 2x2 필터 뱅크 (2526) 에 대한 라우팅 도면을 예시한다. 4 개의 마이크로폰들 (2504) (예를 들어, 제 1 마이크 (2504a), 제 2 마이크 (2404b), 제 3 마이크 (2404c) 및 제 4 마이크 (2404d)) 은 전방 좌측 (FL) 방향, 전방 우측 (FR) 방향, 후방 좌측 (BL) 방향 및 후방 우측 (BR) 방향에서의 오디오 신호들을 생성하기 위하여 필터 뱅크 (2526) 에 커플링될 수도 있다. 2x2 필터 뱅크의 출력에서는, 3-D 오디오 신호들 FL, FR, BR 및 BL 이 출력되는 것에 주목해야 한다. 도 23 에 예시된 바와 같이, 중심 채널은 다른 필터들 중의 2 개 (제 1 및 제 2 필터) 의 조합으로부터 재현될 수도 있다.
이 설명은 다수의 무지향성 마이크로폰들 (2504a 내지 2504d) 이용하여 레코딩된 신호로부터 5.1-채널 레코딩을 제공하는 개시내용들을 포함한다. 다수의 무지향성 마이크로폰들 (2504a 내지 2504d) 을 이용하여 캡처된 신호로부터 바이노럴 레코딩 (binaural recording) 을 생성하는 것이 바람직할 수도 있다. 예를 들어, 사용자 사이드로부터의 5.1 채널 서라운드 시스템이 없을 경우, 사용자가 서라운드 사운드 시스템을 갖는 실제적인 음향 공간에 있는 경험을 가질 수 있도록, 5.1 채널들을 스테레오 바이노럴 레코딩으로 다운믹스 (downmix) 하는 것이 바람직할 수도 있다. 또한, 이 기능은, 사용자가 장소 (spot) 상의 장면을 레코딩하면서 서라운드 레코딩을 감시할 수도 있고 및/또는 홈 씨어터 (home theater) 시스템 대신에 스테레오 헤드셋을 이용하여 자신의 이동 디바이스 상에서 레코딩된 비디오 및 서라운드 사운드를 재생할 수도 있는 옵션을 제공할 수도 있다.
본원에서 설명된 시스템들 및 방법들은 거실 공간에서 지정된 로케이션들 (FL, FR, C, BL (또는 서라운드 좌측), 및 BR (또는 서라운드 우측)) 에 위치된 라우드스피커들을 통해 재생되도록 의도되어 있는 무지향성 마이크로폰들 (2504a 내지 2504d) 의 어레이로부터의 지향성 사운드 소스들을 제공할 수도 있다. 헤드폰들로 이 상황을 재현하는 하나의 방법은 희망하는 음향 공간에서 각각의 라우드스피커로부터 각각의 귀 내부에 위치된 마이크로폰 (2504a 내지 2504d) 까지의 바이노럴 임펄스 응답 (binaural impulse response; BIR) 들 (예를 들어, 바이노럴 전달 함수들) 을 측정하는 오프라인 프로세스를 포함할 수도 있다. 바이노럴 임펄스 응답들은 라우드스피커들의 어레이 및 2 개의 귀들 사이의 모든 소스-수신기 쌍에 대하여, 각각의 라우드스피커로부터의 반사 경로들뿐만 아니라 직접적인 경로들을 포함한, 음향 경로 정보를 인코딩할 수도 있다. 작은 마이크로폰들 (2504a 내지 2504d) 은 실제 인간의 귀들 내부에 위치될 수도 있거나, 실리콘 (silicone) 귀들을 갖는 Head and Torso Simulator (예를 들어, HATS, Bruel and Kjaer, DK) 와 같은 더미 헤드를 이용할 수도 있다.
바이노럴 재현을 위하여, 측정된 바이노럴 임펄스 응답들은 지정된 라우드스피커 로케이션에 대한 각각의 지향성 사운드 소스와 컨볼루션 (convolve) 될 수도 있다. 모든 방향의 소스들을 바이노럴 임펄스 응답들로 컨볼루션한 후, 결과들은 각각의 귀 레코딩에 대해 합산될 수도 있다. 이 경우, 인간의 귀들에 의해 캡처된 좌측 및 우측 신호들을 2 개의 채널들 (예를 들어, 좌측 및 우측) 은 헤드폰을 통해 재생될 수도 있다. 무지향성 마이크로폰들 (2504a 내지 2504d) 의 어레이로부터의 5.1 서라운드 생성은 어레이로부터 바이노럴 재현까지의 경유-포인트로서 이용될 수도 있다. 그러므로, 이 방식은 경유-포인트가 어떻게 생성되는지에 따라 일반화될 수도 있다. 예를 들어, 더 많은 지향성 소스들이 어레이에 의해 캡처된 신호들로부터 생성되고, 이들은 희망하는 라우드스피커 로케이션으로부터 귀들까지의 적절하게 측정된 바이노럴 임펄스 응답들을 갖는 경유-포인트로서 이용될 수도 있다.
음향 신호들을 수신하도록 구성된 2 개 이상의 마이크로폰들 (2504a 내지 2504d) 의 어레이를 가지는 휴대용 오디오 센싱 디바이스 내에서 본원에서 설명된 바와 같은 방법을 수행하는 것이 바람직할 수도 있다. 이러한 어레이를 포함하도록 구현될 수도 있으며 오디오 레코딩 및/또는 음성 통신 애플리케이션들을 위해 이용될 수도 있는 휴대용 오디오 센싱 디바이스의 예들은 전화 핸드셋 (예를 들어, 셀룰러 전화 핸드셋); 유선 또는 무선 핸드셋 (예를 들어, 블루투스 (Bluetooth) 핸드셋); 핸드헬드 오디오 및/또는 비디오 레코더; 오디오 및/또는 비디오 컨텐츠를 레코딩하도록 구성된 개인용 미디어 플레이어; 개인 정보 단말 (personal digital assistant; PDA) 또는 다른 핸드헬드 컴퓨팅 디바이스; 및 노트북 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 다른 휴대용 컴퓨팅 디바이스를 포함한다. 휴대용 컴퓨팅 디바이스들의 클래스는 랩톱 컴퓨터들, 노트북 컴퓨터들, 넷북 컴퓨터들, 울트라-휴대용 컴퓨터들, 태블릿 컴퓨터들, 이동 인터넷 디바이스들, 스마트북들 및 스마트폰들과 같은 명칭들을 갖는 디바이스들을 현재 포함한다. 이러한 디바이스는 디스플레이 스크린을 포함하는 상부 패널과, 키보드를 포함할 수도 있는 하부 패널을 가질 수도 있고, 여기서, 2 개의 패널들은 클램쉘 (clamshell) 또는 다른 힌지식 (hinged) 관계로 접속될 수도 있다. 이러한 디바이스는 상부 표면 상에 터치스크린 디스플레이를 포함하는 태블릿 컴퓨터로서 유사하게 구현될 수도 있다. 이러한 방법을 수행하고 어레이의 사례들을 포함하도록 구성될 수도 있으며 오디오 레코딩 및/또는 음성 통신 애플리케이션들을 위해 이용될 수도 있는 오디오 센싱 디바이스들의 다른 예들은 셋톱 박스 (set-top box) 들 및 오디오 및/또는 비디오 원격회의 디바이스들을 포함한다.
도 26a 는 일반적인 구성에 따른 멀티-마이크로폰 오디오 센싱 디바이스 (2628) 의 블록도를 예시한다. 오디오 센싱 디바이스 (2628) 는 본원에서 개시된 마이크로폰 어레이 (2630) 의 구현예들 중의 임의의 것의 사례를 포함할 수도 있고, 본원에서 개시된 오디오 센싱 디바이스들 중의 임의의 것은 오디오 센싱 디바이스 (2628) 의 사례로서 구현될 수도 있다. 오디오 센싱 디바이스 (2628) 는 또한 본원에서 개시된 바와 같은 방법들 중의 하나 이상의 구현예를 수행함으로써 멀티채널 오디오 신호 (multichannel audio signal; MCS) 를 프로세싱하도록 구성될 수도 있는 장치 (2632) 를 포함할 수도 있다. 장치 (2632) 는 소프트웨어 및/또는 펌웨어를 갖는 하드웨어 (예를 들어, 프로세서) 의 조합으로서 구현될 수도 있다.
도 26b 는 디바이스 (2628) 의 구현예일 수도 있는 통신 디바이스 (2602) 의 블록도를 예시한다. 무선 통신 디바이스 (2602) 는 장치 (2632) 를 포함하는 칩 또는 칩셋 (2634) (예를 들어, 이동 스테이션 모뎀 (mobile station modem; MSM) 칩셋) 을 포함할 수도 있다. 칩/칩셋 (2634) 은 하나 이상의 프로세서들을 포함할 수도 있다. 칩/칩셋 (2634) 은 또한 어레이 (2630) 의 프로세싱 엘리먼트들 (예를 들어, 이하에서 설명되는 오디오 프로세싱 스테이지의 엘리먼트들) 을 포함할 수도 있다. 칩/칩셋 (2634) 은 또한, 무선-주파수 (radio-frequency; RF) 통신 신호를 수신하고 RF 신호 내에서 인코딩된 오디오 신호를 디코딩 및 재현하도록 구성될 수도 있는 수신기와, 장치 (2632) 에 의해 생성되는 프로세싱된 신호에 기초할 수도 있는 오디오 신호를 인코딩하고 인코딩된 오디오 신호를 설명하는 RF 통신 신호를 송신하도록 구성될 수도 있는 송신기를 포함할 수도 있다. 예를 들어, 칩/칩셋 (2634) 의 하나 이상의 프로세서들은 인코딩된 오디오 신호가 잡음-감소된 신호에 기초하도록, 멀티채널 신호의 하나 이상의 채널들에 대해 위에서 설명된 바와 같은 잡음 감소 동작을 수행하도록 구성될 수도 있다.
어레이 (2630) 의 각각의 마이크로폰은 무지향성 (omnidirectional), 양지향성 (bidirectional), 또는 단일지향성 (unidirectional) (예를 들어, 카디오이드 (cardioid)) 인 응답을 가질 수도 있다. 어레이 (2630) 에서 이용될 수도 있는 다양한 타입들의 마이크로폰들은 (제한 없이) 압전 (piezoelectric) 마이크로폰들, 동적 마이크로폰들, 및 일렉트릿 (electret) 마이크로폰들을 포함할 수도 있다. 핸드셋 또는 헤드셋과 같은 휴대용 음성 통신들을 위한 디바이스에서는, 어레이 (2630) 의 인접한 마이크로폰들 사이의 중심-대-중심 간격이 약 1.5 cm 로부터 약 4.5 cm 까지의 범위일 수도 있지만, (예를 들어, 10 또는 15 cm 에 이르는) 더 큰 간격이 핸드셋 또는 스마트폰과 같은 디바이스에서 또한 가능할 수도 있고, (예를 들어, 20, 25, 또는 30 cm 이상에 이르는) 훨씬 더 큰 간격들이 태블릿 컴퓨터와 같은 디바이스에서 가능할 수도 있다. 어레이 (2630) 의 마이크로폰들은 라인을 따라 (균일하거나 불균일한 마이크로폰 간격으로) 또는 대안적으로, 그 중심들이 2 차원 (예를 들어, 삼각형) 또는 3 차원 형상의 정점들에 놓이도록 배열될 수도 있다.
마이크로폰들은 사운드 이외의 방사 (radiatioin) 또는 배출 (emission) 들을 감지하는 트랜스듀서 (transducer) 들로서 더욱 일반적으로 구현될 수도 있다는 것에 분명히 주목해야 한다. 하나의 이러한 예에서, 마이크로폰 쌍은 초음파 트랜스듀서들 (예를 들어, 15, 20, 25, 30, 40 또는 50 킬로헤르쯔 이상보다 더 큰 음향 주파수들을 감지하는 트랜스듀서들) 의 쌍으로서 구현될 수도 있다.
멀티-마이크로폰 오디오 센싱 디바이스 (2628) 의 동작 동안, 어레이 (2630) 는 각각의 채널이 음향 환경에 대한 마이크로폰들 중의 대응하는 하나의 응답에 기초하고 있는 멀티채널 신호를 생성할 수도 있다. 단일 마이크로폰을 이용하여 캡처될 수 있는 것보다 음향 환경의 더욱 완전한 표현을 집합적으로 제공하기 위하여 대응하는 채널들이 서로 상이하도록, 하나의 마이크로폰은 또 다른 마이크로폰보다 더욱 직접적으로 특별한 사운드를 수신할 수도 있다. 일부의 구현예들에서, 칩셋 (2634) 은 하나 이상의 마이크로폰들 (2604a 내지 2604b), 라우드스피커 (2610), 하나 이상의 안테나들 (2603a 내지 2603b), 디스플레이 (2605), 및/또는 키패드 (2607) 에 커플링될 수도 있다.
도 27a 는 하나 이상의 동작들을 수행하도록 구성된 마이크로폰들 (2704a 내지 2704b) 의 어레이 (2730) 의 블록도이다. 어레이 (2730) 가 멀티채널 신호를 생성하기 위하여 마이크로폰들 (2704a 내지 2704b) 에 의해 생성된 신호들에 대한 하나 이상의 프로세싱 동작들을 수행하는 것이 바람직할 수도 있다. 어레이 (2730) 는 (제한 없이) 임피던스 정합, 아날로그-디지털 변환, 이득 제어, 및/또는 아날로그 및/또는 디지털 도메인들에서의 필터링을 포함할 수도 있는 하나 이상의 이러한 동작들을 수행하도록 구성된 오디오 프리프로세싱 스테이지 (preprocessing stage) (2736) 를 포함할 수도 있다.
도 27b 는 하나 이상의 동작들을 수행하도록 구성된 마이크로폰 어레이 (2730) 의 또 다른 블록도이다. 어레이 (2730) 는 아날로그 프리프로세싱 스테이지들 (2738a 및 2738b) 을 포함할 수도 있는 오디오 프리프로세싱 스테이지 (2736) 를 포함할 수도 있다. 하나의 예에서, 스테이지들 (2738a 및 2738b) 은 대응하는 마이크로폰 신호에 대한 (예를 들어, 50, 100, 또는 200 Hz 의 차단 주파수에 의한) 고역통과 필터링 동작을 수행하도록 각각 구성될 수도 있다.
어레이 (2730) 가 디지털 신호로서, 즉, 샘플들의 시퀀스로서 멀티채널 신호를 생성하는 것이 바람직할 수도 있다. 어레이 (2730) 는 예를 들어, 대응하는 아날로그 채널을 샘플링하도록 각각 배열되는 아날로그-디지털 변환기 (analog-to-digital converter; ADC) 들 (2740a 및 2740b) 들을 포함할 수도 있다. 음향 애플리케이션들을 위한 전형적인 샘플링 레이트들은 8 kHz, 12 kHz, 16 kHz, 및 약 8 로부터 약 16 kHz 까지의 범위의 다른 주파수들을 포함할 수도 있지만, 약 44 kHz 만큼 높은 샘플링 레이트들이 또한 이용될 수도 있다. 이 특별한 예에서, 어레이 (2730) 는 또한, 멀티채널 신호 MCS 의 대응하는 채널들 MCS-1, MCS-2 을 생성하기 위하여 대응하는 디지털화된 채널에 대한 하나 이상의 프리프로세싱 동작들 (예를 들어, 에코 상쇄 (echo cancellation), 잡음 감소, 및/또는 스펙트럼 성형) 을 수행하도록 각각 구성되는 디지털 프리프로세싱 스테이지들 (2742a 및 2742b) 을 포함할 수도 있다. 도 27a 및 도 27b 는 2-채널 구현예들을 도시하지만, 동일한 원리들이 임의적인 수의 마이크로폰들 (2704a 내지 2704b) 및 멀티채널 신호 MCS 의 대응하는 채널들에 확장될 수도 있다는 것을 이해할 것이다.
실감적인 오디오 재현을 위한 현재의 포맷들은 (a) 바이노럴 3D, (b) 트랜스오럴 (transaural) 3D, 및 (c) 5.1/7.1 서라운드 사운드를 포함한다. 바이노럴 및 트랜스오럴 3D 둘 모두를 위하여, 전형적으로, 단지 스테레오 채널들/신호들이 송신된다. 서라운드 사운드를 위하여, 단지 스테레오 신호들보다 더 많은 것이 송신될 수도 있다. 이 개시내용은 서라운드 사운드를 위한 스테레오보다 더 많은 것을 송신하기 위하여 이동 디바이스들에서 이용되는 코딩 방식을 제안한다.
현재의 시스템들은 Audio Eng. Soci. Vol. 57, No. 9, 2009 년 9 월의 학술지로부터의 도 1 에 예시된 바와 같은 "B-포맷 오디오" 를 송신할 수도 있다. B-포맷 오디오는 4 개의 채널들을 갖는 1 개의 경유-포인트를 가지고, 특수한 레코딩 설정을 요구한다. 다른 시스템들은 음성-통신이 아닌 브로드캐스팅에 초점이 맞춰진다.
본 시스템들 및 방법들은 실시간 통신 시스템에서 이용되는 4 개의 경유 포인트들을 가지며, 여기서, 경유 포인트는 서라운드 사운드 시스템의 4 개의 코너들 (예를 들어, 전방 좌측, 전방 우측, 후방 좌측 및 후방 우측) 의 각각에 존재할 수도 있다. 이 4 개의 코너들의 사운드들을 송신하는 것은 함께 또는 독립적으로 행해질 수도 있다. 이 구성들에서, 4 개의 오디오 신호들은 임의의 수의 스피치 코덱들을 이용하여 압축될 수도 있다. 일부의 경우들에 있어서, (예를 들어, B-포맷 오디오에서 이용되는 것과 같은) 레코딩 설정을 위한 필요성이 없을 수도 있다. z-축은 생략될 수 있다. 그렇게 하는 것은 신호를 열화시키지 않는데, 이것은 정보가 여전히 인간의 귀들에 의해 포착될 수 있기 때문이다.
새로운 코딩 방식은 스피치 코덱들에 고유한 것들로 주로 제한되는 왜곡을 압축에 제공할 수 있다. 최종적인 오디오 출력은 가능한 라우드스피커 배치에 대해 보간될 수도 있다. 추가적으로, 그것은 (z-축, 및 바이노럴 레코딩을 제외하고는) B-포맷과 같은 다른 포맷들과 양립가능할 수 있다. 또한, 4 개의 오디오 신호들은 주로 상관되지 않을 수도 있으므로, 새로운 코딩 방식은 대부분의 이동 디바이스들의 오디오 경로에 위치된 스피치 코덱들과 직렬로 작동하는 에코 상쇄기들의 이용에 의해 이익을 얻을 수도 있다.
본 시스템들 및 방법들은 실시간 통신의 쟁점을 다룰 수도 있다. 일부의 예들에서, 어떤 하부 대역 (LB) 주파수로부터 어떤 상부 대역 (UB) 주파수까지의 주파수 대역들 (예를 들어, [LB, UB]) 은 개별적인 채널들로서 송신될 수도 있다. 어떤 상부 대역 (UB) 주파수를 초과하여 나이퀴스트 (Nyquist) 주파수까지 (예를 들어, [UB, NF]) 의 상이한 채널들은 이용가능한 채널 용량에 따라 송신될 수도 있다. 예를 들어, 4 개의 채널들이 이용가능한 경우, 4 개의 오디오 채널들이 송신될 수도 있다. 2 개의 채널들이 이용가능한 경우, 전방 및 후방 채널들은 전방 2 개 및 후방 2 개의 채널들을 평균화한 후에 송신될 수도 있다. 하나의 채널이 이용가능한 경우, 모든 마이크로폰 입력들의 평균이 송신될 수도 있다. 일부의 구성들에서는, 채널들이 송신되지 않고, 스펙트럼 대역 복제와 유사한 기법을 이용하여, 상위 대역 (예를 들어, [UB, NF]) 이 하위 대역 (예를 들어, [LB, UB]) 으로부터 생성될 수도 있다. 하부 대역 주파수 (LB) 미만의 그러한 대역들 (예를 들어, [0, LB]) 에 대하여, 모든 마이크로폰 입력들의 평균이 송신될 수도 있다.
일부의 예들에서, 오디오 신호들의 인코딩은 선택적인 인코딩을 포함할 수도 있다. 예를 들어, 사용자가 하나의 특정 지향성 소스 (예를 들어, 사용자의 음성) 를 전송하기를 원할 경우, 무선 통신 디바이스는 다른 방향들의 에너지를 감소시킬 뿐만 아니라 다른 채널들의 동적 범위를 최소화함으로써, 그 방향에 대해 더 많은 코딩 비트 자원들을 할당할 수 있다. 추가적으로 또는 대안적으로, 사용자가 특정 지향성 소스 (예를 들어, 사용자의 음성) 에 관심이 있을 경우, 무선 통신 디바이스는 1 개 또는 2 개의 채널들을 송신할 수 있다.
도 28 은 하나 이상의 오디오 신호들 (2844a 내지 2844d) 의 주파수 대역들의 차트를 예시한다. 오디오 신호들 (2844a 내지 2844d) 은 상이한 방향들로부터 수신된 오디오 신호들을 나타낼 수도 있다. 예를 들어, 하나의 오디오 신호 (2844a) 는 서라운드 사운드 시스템에서 전방 좌측 (FL) 방향으로부터의 오디오 신호일 수도 있고, 또 다른 오디오 신호 (2844b) 는 후방 좌측 (BL) 방향으로부터의 오디오 신호일 수도 있고, 또 다른 오디오 신호 (2844c) 는 전방 우측 (FR) 방향으로부터의 오디오 신호일 수도 있고, 또 다른 오디오 신호 (2844d) 는 후방 우측 (BR) 방향으로부터의 오디오 신호일 수도 있다.
일부의 구성들에 따르면, 오디오 신호 (2844a 내지 2844d) 는 하나 이상의 대역들로 분할될 수도 있다. 예를 들어, 전방 좌측 오디오 신호 (2844a) 는 대역 1A (2846a), 대역 1B (2876a), 대역 2A (2878a), 대역 2B (2880a) 및 대역 2C (2882a) 로 분할될 수도 있다. 다른 오디오 신호들 (2844b 내지 2844d) 은 유사하게 분할될 수도 있다. 본원에서 이용되는 바와 같이, 용어 "대역 1B" 는 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이에 속하는 주파수 대역들 (예를 들어, [LB, UB]) 이라고 지칭할 수도 있다. 오디오 신호 (2844a 내지 2844d) 의 대역들은 하나 이상의 타입들의 대역들을 포함할 수도 있다. 예를 들어, 오디오 신호 (2844a) 는 하나 이상의 협대역 신호들을 포함할 수도 있다. 일부의 구현예들에서, 협대역 신호는 대역 1A (2846a 내지 2846d) 와, 대역 1B (2876a 내지 2876d) 의 일부분 (예를 들어, 4 kHz 미만인 대역 1B (2876a 내지 2876d) 의 일부분) 을 포함할 수도 있다. 다시 말해서, 어떤 상부 대역 주파수 (UB) 가 4 kHz 보다 더 클 경우, 대역 1B (2876a 내지 2876d) 는 협대역 신호보다 더 클 수도 있다. 다른 구현예들에서, 협대역 신호는 대역 1A (2846a 내지 2846d), 대역 1B (2876a 내지 2876d), 및 대역 2A (2878a 내지 2878d) 의 일부분 (예를 들어, 4 kHz 미만인 대역 2A (2878a 내지 2878d) 의 일부분) 을 포함할 수도 있다. 오디오 신호 (2844a) 는 또한 하나 이상의 비-협대역 신호들 (예를 들어, 대역 2A (2878a) 의 일부분 (4 kHz 보다 더 큰 부분), 대역 2B (2880a) 및 대역 2C (2882a)) 을 포함할 수도 있다. 본원에서 이용되는 바와 같이, 용어 "비-협대역" 은 협대역 신호가 아닌 임의의 신호 (예를 들어, 광대역 신호, 수퍼 광대역 신호, 및 전대역 신호) 를 지칭한다.
대역들의 범위들은 다음과 같은 수도 있고: 대역 1A (2846a 내지 2846d) 는 0 로부터 200 Hz 까지 걸쳐 있을 수도 있다. 일부의 구현예들에서, 대역 1A (2846a 내지 2846d) 의 상부 범위는 대략 500 Hz 에 이를 수도 있다. 대역 1B (2876a 내지 2876d) 는 대역 1A (2846a 내지 2846d) 의 최대 주파수 (예를 들어, 200 Hz 또는 500 Hz) 로부터 대략 6.4 kHz 에 이르기까지 걸쳐 있을 수도 있다. 대역 2A (2878a 내지 2878d) 는 대역 1B (2876a 내지 2876d) 의 최대 범위 (예를 들어, 6.4 kHz) 로부터 대략 8 kHz 에 걸쳐 있을 수도 있다. 대역 2B (2880a 내지 2880d) 는 대역 2A (2878a 내지 2878d) 의 최대 범위 (예를 들어, 8 kHz) 로부터 대략 16 kHz 에 이르기까지 걸쳐 있을 수도 있다. 대역 2C (2882a 내지 2882d) 는 대역 2B (2880a 내지 2880d) 의 최대 범위 (예를 들어, 대략 16 kHz) 로부터 대략 24 kHz 에 이르기까지 걸쳐 있을 수도 있다.
일부의 구현예들에서, 대역 1B (2876a 내지 2876d) 의 상부 범위는, 마이크로폰들의 기하학적 배치 및 마이크로폰들의 기계적 설계 (예를 들어, 단일 지향성 마이크로폰들 대 무지향성 마이크로폰들) 를 포함하지만 이에 제한되지 않는 하나 이상의 인자들에 종속될 수도 있다. 예를 들어, 대역 1B (2876a 내지 2876d) 의 상부 범위는, 마이크로폰들이 멀리 떨어져 위치될 때보다, 마이크로폰들이 함께 더 근접하게 위치될 때에 상이할 수도 있다. 이 구현예에서, 다른 대역들 (예를 들어, 대역들 2A 내지 2C (2878a 내지 2878d, 2880a 내지 2880d, 2882a 내지 2882d) 은 대역 1B (2876a 내지 2876d) 로부터 유도될 수도 있다.
대역 1B (2876a 내지 2876d) 의 상부 경계에 이르기까지의 주파수 범위들은 협대역 신호 (예를 들어, 4 kHz 까지) 또는 협대역 한계 (예를 들어, 6.4 kHz) 보다 약간 더 높을 수도 있다. 위에서 설명된 바와 같이, 대역 1B (2876a 내지 2876d) 의 상부 경계가 협대역 신호 (예를 들어, 4 kHz) 보다 더 작을 경우, 대역 2A (2878a 내지 2878d) 의 일부분은 협대역 신호를 포함할 수도 있다. 그에 비해, 대역 1B (2876a 내지 2876d) 의 상부 경계가 협대역 신호 (예를 들어, 4 kHz) 보다 더 클 경우, 대역 2A (2878a 내지 2878d) 는 협대역 신호를 포함하지 않을 수도 있다. 대역 2A (2878a 내지 2878d) 의 상부 경계 (예를 들어, 8 kHz) 에 이르는 주파수 범위들의 일부분은 광대역 신호 (예를 들어, 4 kHz 보다 더 큰 부분) 일 수도 있다. 대역 2B (2880a 내지 2880d) 의 상부 경계 (예를 들어, 16 kHz) 에 이르는 주파수 범위들은 수퍼 광대역 신호일 수도 있다. 대역 2C (2882a 내지 2882d) 의 상부 경계 (예를 들어, 24 kHz) 에 이르는 주파수 범위들은 전대역 신호일 수도 있다.
네트워크의 이용가능성, 및 이동 디바이스 (102) 에서 이용가능한 스피치 코덱들의 이용가능성에 따라서는, 코덱들의 상이한 구성들이 이용될 수도 있다. 압축이 관여될 경우, 오디오 코덱들 및 스피치 코덱들 사이에서 구분이 때때로 행해진다. 스피치 코덱들은 음성 코덱들이라고 지칭될 수도 있다. 오디오 코덱들 및 스피치 코덱들은 상이한 압축 방식들을 가지고, 압축의 양은 둘 사이에서 폭 넓게 변동될 수도 있다. 오디오 코덱들은 더 양호한 충실도를 가질 수도 있지만, 오디오 신호 (2844a 내지 2844d) 를 압축할 때에 더 많은 비트들을 요구할 수도 있다. 따라서, 압축률 (즉, 코덱의 출력 신호의 비트들의 수에 대한 코덱에서의 입력 신호의 비트들의 수) 은 스피치 코덱들보다 오디오 코덱들에 대해 더 낮을 수도 있다. 결과적으로, 셀 (다수의 기지국들에 의해 커버되는 구역) 에서의 오버-디-에어 대역폭 제약들로 인해, 스피치 패킷을 송신하기 위해 요구되는 비트들의 수가 바람직하지 않았기 때문에, 음성을 송신하기 위하여, 오디오 코덱들은 더 이전의 2G (2 세대) 및 3G (3 세대) 통신 시스템들에서 이용되지 않았다. 그 결과, 하나의 이동 디바이스로부터 또 다른 이동 디바이스로의 음성 채널에서 압축된 스피치를 오버-디-에어로 송신하기 위하여, 스피치 코덱들이 2G 및 3G 통신 시스템들에서 이용되었고 그리고 이용되고 있다.
오디오 코덱들은 이동 디바이스들에서 존재하지만, 오디오 패킷들, 즉, 오디오 코덱에 의한 오디오의 압축에 대한 설명의 송신은 오버 디 에어 데이터 채널에서 행해졌다. 오디오 코덱들의 예들은 MPEG-2/AAC 스테레오, MPEG-4 BSAC 스테레오, 리얼 오디오 (Real Audio), SBC 블루투스 (Bluetooth), WMA 및 WMA 10 프로를 포함한다. 이 오디오 코덱들은 3G 시스템들에서의 이동 디바이스들에서 발견될 수도 있지만, 압축된 오디오 신호들은 오버 디 에어, 실시간으로, 트래픽 채널 또는 음성 채널을 통해 송신되지 않았다는 것에 주목해야 한다. 스피치 코덱들은 오디오 신호들을 압축하고 오버 디 에어로 실시간으로 송신하기 위하여 이용된다. 스피치 코덱들의 예들은 AMR 협대역 스피치 코덱 (5.15kbp), AMR 광대역 스피치 코덱 (8.85Kbps), G.729AB 스피치 코덱 (8kbps), GSM-EFR 스피치 코덱 (12.2kbps), GSM-FR 스피치 코덱 (13 kbps), GSM-HR 스피치 코덱 (5.6kpbs), EVRC-NB, EVRC-WB 를 포함한다. 압축된 스피치 (또는 오디오) 는 보코더 패킷 (vocoder packet) 에서 패키징 (packaging) 되고, 트래픽 채널에서 오버 디 에어로 전송된다. 스피치 코덱은 때때로 보코더라고 불린다. 오버 디 에어로 전송되기 전에, 보코더 패킷이 더 큰 패킷 내로 삽입된다. 2G 및 3G 통신들에서는, 음성은 음성-채널들에서 송신되지만, 음성은 또한 보이스-오버-IP (voice-over-IP; VOIP) 를 이용하여 데이터 채널들에서 송신될 수 있다.
오버-디-에어 대역폭에 따라서는, 상부 대역 (UB) 주파수 및 나이퀴스트 주파수 (NF) 사이에서 신호들을 인코딩하기 위하여 다양한 코덱 방식들이 이용될 수도 있다. 이 방식들의 예들은 도 29 내지 도 33 에 제시되어 있다.
도 29a 는 4 개의 전대역 코덱들 (2948a 내지 2948d) 을 이용한 제 1 구성에 대한 하나의 가능한 방식을 예시한다. 위에서 설명된 바와 같이, 오디오 신호들 (2944a 내지 2944d) 은 상이한 로케이션들로부터 수신된 오디오 신호들 (2944a 내지 2944d) (예를 들어, 전방 좌측 오디오 신호 (2944a), 후방 좌측 오디오 신호 (2944b), 전방 우측 오디오 신호 (2944c) 및 후방 우측 오디오 신호 (2944d)) 을 나타낼 수도 있다. 유사하게, 위에서 설명된 바와 같이, 오디오 신호 (2944a 내지 2944d) 는 하나 이상의 대역들로 분할될 수도 있다. 전대역 코덱 (2948a 내지 2948d) 을 이용하면, 오디오 신호 (2944a) 는 대역 1A (2946a), 대역 1B (2976a) 및 대역들 2A 내지 2C (2984a) 를 포함할 수도 있다. 일부의 경우들에 있어서, 대역들의 주파수 범위들은 더 이전에 설명된 것들일 수도 있다.
이 예에서, 각각의 오디오 신호 (2944a 내지 2944d) 는 오디오 신호 (2944a 내지 2944d) 의 다양한 대역들의 압축 및 송신을 위한 전대역 코덱 (2948a 내지 2948d) 을 이용할 수도 있다. 예를 들어, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 에 의해 정의된 주파수 범위 (예를 들어, 대역 1B (2976a 내지 2976d) 를 포함함) 내에 속하는 각각의 오디오 신호 (2944a 내지 2944d) 의 그 대역들이 필터링될 수도 있다. 이 구성에 따르면, 어떤 상부 대역 주파수 (UB) 보다 더 크고 나이퀴스트 주파수보다 더 작은 주파수들을 포함하는 대역들 (예를 들어, 대역들 2A 내지 2C (2984a 내지 2984d)) 에 대하여, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다. 유사하게, 어떤 하부 대역 주파수 (LB) 보다 더 작은 주파수들을 포함하는 대역들 (예를 들어, 대역 1A (2946a 내지 2946d)) 에 대하여, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다. 일부의 구성들에서, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호를 인코딩하는 것은, 그 마이크로폰이 자연적 지연 및 마이크로폰 채널들 사이의 이득 차이를 캡처하므로, 대역들 2A 내지 2C (2984a 내지 2984d) 에 대한 지정된 방향을 나타낼 수도 있다. 일부의 예들에서, 희망하는 로케이션에 가장 근접한 마이크로폰을 캡처하는 것과 필터링된 범위 사이의 차이는, 지향성의 효과가 필터링된 주파수 영역과 비교하여 그렇게 많지 않다는 것이다.
도 29b 는 4 개의 수퍼 광대역 코덱들 (2988a 내지 2988d) 을 이용한 제 1 구성에 대한 하나의 가능한 방식을 예시한다. 수퍼 광대역 코덱 (2988a 내지 2988d) 을 이용하면, 오디오 신호 (2944a 내지 2944d) 는 대역 1A (2946a 내지 2946d), 대역 1B (2976a 내지 2976d) 및 대역들 2A 내지 2B (2986a 내지 2986d) 를 포함할 수도 있다.
이 예에서는, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 에 의해 정의된 주파수 범위 (예를 들어, 대역 1B (2976a 내지 2976d) 를 포함함) 내에 속하는 각각의 오디오 신호 (2944a 내지 2944d) 의 그 대역들이 필터링될 수도 있다. 이 구성에 따르면, 어떤 상부 대역 주파수 (UB) 보다 더 크고 나이퀴스트 주파수보다 더 작은 주파수들을 포함하는 대역들 (예를 들어, 대역들 2A 내지 2B (2986a 내지 2986d)) 에 대하여, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다. 유사하게, 어떤 하부 대역 주파수 (LB) 보다 더 작은 주파수들을 포함하는 대역들 (예를 들어, 대역 1A (2946a 내지 2946d)) 에 대하여, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다.
도 29c 는 4 개의 광대역 코덱들 (2990a 내지 2990d) 을 이용한 제 1 구성에 대한 하나의 가능한 방식을 예시한다. 광대역 코덱 (2990a 내지 2990d) 을 이용하면, 오디오 신호 (2944a 내지 2944d) 는 대역 1A (2946a 내지 2946d), 대역 1B (2976a 내지 2976d) 및 대역 2A (2978a 내지 2978d) 를 포함할 수도 있다.
이 예에서는, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 에 의해 정의된 주파수 범위 (예를 들어, 대역 1B (2976a 내지 2976d) 를 포함함) 내에 속하는 각각의 오디오 신호 (2944a 내지 2944d) 의 그 대역들이 필터링될 수도 있다. 이 구성에 따르면, 어떤 상부 대역 주파수 (UB) 보다 더 크고 나이퀴스트 주파수보다 더 작은 주파수들을 포함하는 대역들 (예를 들어, 대역 2A (2978a 내지 2978d)) 에 대하여, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다. 유사하게, 어떤 하부 대역 주파수 (LB) 보다 더 작은 주파수들을 포함하는 대역들 (예를 들어, 대역 1A (2946a 내지 2946d)) 에 대하여, 희망하는 코너 로케이션 (2944a 내지 2944d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다.
도 30a 는 2 개의 코덱들 (3094a 내지 3094d) 이 오디오 신호들을 평균화한 제 2 구성에 대한 가능한 방식을 예시한다. 일부의 예들에서, 상이한 코덱들 (3094a 내지 3094d) 은 상이한 오디오 신호들 (3044a 내지 3044d) 을 위해 이용될 수도 있다. 예를 들어, 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b) 는 각각 전대역 코덱들 (3094a, 3094b) 을 이용할 수도 있다. 또한, 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 는 협대역 코덱들 (3094c, 3094d) 을 이용할 수도 있다. 도 30a 는 2 개의 전대역 코덱들 (3094a, 3094b), 및 2 개의 협대역 코덱들 (3094c, 3094d) 을 도시하지만, 코덱들의 임의의 조합이 이용될 수도 있고, 본 시스템들 및 방법들은 도 30a 에 도시된 구성에 의해 제한되지 않는다. 예를 들어, 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 는 도 30a 에 도시된 협대역 코덱들 (3094c 내지 3094d) 대신에 광대역 또는 수퍼 광대역 코덱들을 이용할 수도 있다. 일부의 예들에서, 상부 대역 주파수 (UB) 가 협대역 한계 (예를 들어, 4 kHz) 보다 더 클 경우, 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 는 공간적 코딩 효과를 개선시키기 위하여 광대역 코덱들을 이용할 수도 있거나, 네트워크 자원이 제한될 경우에 협대역 코덱들을 이용할 수도 있다.
이 구성에서, 전대역 코덱들 (3094a, 3094b) 은 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 의 어떤 상부 경계를 초과하는 주파수 범위에 대해 하나 이상의 오디오 신호들 (3044a 내지 3044d) 을 평균화할 수도 있다. 예를 들어, 전대역 코덱들 (3094a, 3094b) 은 어떤 상부 대역 주파수 (UB) 보다 더 큰 주파수들을 포함하는 오디오 신호 대역들 (예를 들어, 대역 2A 내지 2C (3092a, 3092b)) 을 평균화할 수도 있다. 동일한 일반적인 방향으로부터 발생하는 오디오 신호들 (3044a 내지 3044d) 은 함께 평균화될 수도 있다. 예를 들어, 전방 좌측 오디오 신호 (3044a) 및 전방 우측 오디오 신호 (3044c) 는 함께 평균화될 수도 있고, 후방 좌측 오디오 신호 (3044b) 및 후방 우측 오디오 신호 (3044d) 는 함께 평균화될 수도 있다.
오디오 신호들 (3044a 내지 3044d) 을 평균화하는 예는 다음과 같이 주어진다. 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b) 는 전대역 코덱들 (3094a, 3094b) 을 이용할 수도 있다. 이 예에서, 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 는 협대역 코덱들 (3094c, 3094d) 을 이용할 수도 있다. 이 예에서, 전대역 코덱들 (3094a, 3094b) 은 각각의 오디오 신호들 (예를 들어, 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b)) 에 대한 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 그 필터링된 대역들 (예를 들어, 대역 1B (3076a 내지 3076b)) 을 포함할 수도 있다. 전대역 코덱들 (3094a, 3094b) 은 또한, 유사하게 지향된 오디오 신호들 (예를 들어, 전방 오디오 신호들 (3044a, 3044c) 및 후방 오디오 신호들 (3044b, 3044d)) 의 어떤 상부 대역 주파수 (UB) 를 초과하는 주파수들을 포함하는 오디오 신호 대역들 (예를 들어, 대역 2A 내지 2C (3092a 내지 3092b)) 을 평균화할 수도 있다. 유사하게, 전대역 코덱들 (3094a, 3094b) 은 어떤 하부 대역 주파수 (LB) 미만의 대역들 (예를 들어, 대역 1A (3046a 내지 3046b)) 을 포함할 수도 있다.
또한, 이 예에서, 협대역 코덱들 (3094c, 3094d) 은 각각의 오디오 신호들 (예를 들어, 전방 우측 오디오 신호 (3044c), 후방 우측 오디오 신호 (3044d)) 에 대한 어떤 하부 대역 주파수 (LB) 및 4 kHz 의 최대치 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들을 포함하는 그 필터링된 대역들 (예를 들어, 대역 1B (3076c, 3076d)) 을 포함할 수도 있다. 협대역 코덱들 (3094c, 3094d) 은 또한, 각각의 오디오 신호들 (예를 들어, 전방 우측 오디오 신호 (3044c), 후방 우측 오디오 신호 (3044d)) 에 대한 어떤 하부 대역 주파수 (LB) 미만의 대역들을 포함할 수도 있다. 이 예에서는, 어떤 상부 대역 주파수 (UB) 가 4 kHz 보다 작을 경우, 희망하는 코너 로케이션 (3044a 내지 3044d) 에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호가 인코딩될 수도 있다.
위에서 설명된 바와 같이, 도 30a 는 2 개의 전대역 코덱들 (3094a, 3094b) 및 2 개의 협대역 코덱들 (3094c, 3094d) 을 도시하지만, 코덱들의 임의의 조합이 이용될 수 있다. 예를 들어, 2 개의 수퍼 광대역 코덱들은 2 개의 전대역 코덱들 (3094a, 3094b) 을 대체할 수 있다.
도 30b 는 하나 이상의 코덱들 (3094a 내지 3094b, 3094e 내지 3094f) 이 오디오 신호들을 평균화한 제 2 구성에 대한 가능한 방식을 예시한다. 이 예에서, 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b) 는 전대역 코덱들 (3094a, 3094b) 을 이용할 수도 있다. 이 예에서, 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 는 광대역 코덱들 (3094e, 3094f) 을 이용할 수도 있다. 이 구성에서, 전대역 코덱들 (3094a, 3094b) 은 상부 경계를 초과하는 주파수 범위의 일부분에 대한 하나 이상의 오디오 신호들 (3044a 내지 3044d) 을 평균화할 수도 있다. 예를 들어, 전대역 코덱들 (2094a, 2094b) 은 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 의 주파수 범위의 일부분 (예를 들어, 대역 2B, 2C (3092a, 3092b)) 에 대한 하나 이상의 오디오 신호들 (3044a 내지 3044d) 을 평균화할 수도 있다. 동일한 일반적인 방향으로부터 발생하는 오디오 신호들 (3044a 내지 3044d) 은 함께 평균화될 수도 있다. 예를 들어, 전방 좌측 오디오 신호 (3044a) 및 전방 우측 오디오 신호 (3044c) 는 함께 평균화될 수도 있고, 후방 좌측 오디오 신호 (3044b) 및 후방 우측 오디오 신호 (3044d) 는 함께 평균화될 수도 있다.
이 예에서, 전대역 코덱들 (3094a, 3094b) 은 대역들 1A (3046a 내지 3046b), 대역 1B (3076a 내지 3076b), 대역 2A (3078a 내지 3078b), 및 평균화된 대역 2B, 2C (3092a 내지 3092b) 를 포함할 수도 있다. 광대역 코덱들 (3094e, 3094f) 은 각각의 오디오 신호들 (예를 들어, 전방 우측 오디오 신호 (3044c), 후방 우측 오디오 신호 (3044d)) 에 대한 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들을 포함하는 그 필터링된 대역들 (예를 들어, 대역 1B (3076c 내지 3076d)) 을 포함할 수도 있다. 광대역 코덱들 (3094e, 3094f) 은 또한, 대역 2A (3078c 내지 3078d) 에 대한 가장 근접한 마이크로폰 신호에서 캡처된 원래의 오디오 신호를 포함할 수도 있다. 가장 근접한 마이크로폰 신호를 인코딩함으로써, (어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들의 공간적 프로세싱만큼 극적이지는 않지만) 고유 시간 및 마이크로폰 채널들 사이의 레벨 차이들에 의해 지향성이 여전히 인코딩될 수도 있다. 광대역 코덱들 (3094e, 3094f) 은 또한, 각각의 오디오 신호들 (예를 들어, 전방 우측 오디오 신호 (3044c), 후방 우측 오디오 신호 (3044d)) 에 대한 어떤 하부 대역 주파수 (LB) 미만의 대역들 (예를 들어, 대역 1A (3046c 내지 3046d)) 을 포함할 수도 있다.
도 31a 는 코덱들 중의 하나 이상이 하나 이상의 오디오 신호들을 평균화할 수도 있는 제 3 구성에 대한 가능한 방식을 예시한다. 이 구성에서 평균화하는 예는 다음과 같이 주어진다. 전방 좌측 오디오 신호 (3144a) 는 전대역 코덱 (3198a) 을 이용할 수도 있다. 후방 좌측 오디오 신호 (3144b), 전방 우측 오디오 신호 (3144c) 및 후방 우측 오디오 신호 (3144d) 는 협대역 코덱들 (3198b, 3198b, 3198c, 3198d) 을 이용할 수도 있다.
이 예에서, 전대역 코덱 (3198a) 은 오디오 신호 (3144a) 에 대한 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들을 포함하는 그 필터링된 대역들 (대역 1B (3176a)) 을 포함할 수도 있다. 전대역 코덱 (3198a) 은 또한, 오디오 신호들 (3144a 내지 3144d) 의 어떤 상부 대역 주파수 (UB) 를 초과하는 주파수들을 포함하는 오디오 신호 대역들 (예를 들어, 대역 2A 내지 2C (3192a)) 을 평균화할 수도 있다. 유사하게, 전대역 코덱 (3198a) 은 어떤 하부 대역 주파수 (LB) 미만의 대역들 (예를 들어, 대역 1A (3146a)) 을 포함할 수도 있다.
협대역 코덱들 (3198b 내지 3198d) 은 각각의 오디오 신호들 (예를 들어, 3144b 내지 3144d) 에 대한 어떤 하부 대역 주파수 (LB) 및 4 kHz 의 최대치 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들을 포함하는 그 필터링된 대역들 (예를 들어, 대역 1B (3176b 내지 3176d)) 을 포함할 수도 있다. 협대역 코덱들 (3198b 내지 3198d) 은 또한, 각각의 오디오 신호들 (예를 들어, 3144b 내지 3144d) 에 대한 어떤 하부 대역 주파수 (LB) 미만의 주파수들을 포함하는 대역들 (예를 들어, 대역 1A (3146b 내지 3146d)) 을 포함할 수도 있다.
도 31b 는 비-협대역 코덱들 중의 하나 이상이 오디오 신호들을 평균화한 제 3 구성에 대한 가능한 방식을 예시한다. 이 예에서, 전방 좌측 오디오 신호 (3144a) 는 전대역 코덱 (3198a) 을 이용할 수도 있다. 후방 좌측 오디오 신호 (3144b), 전방 우측 오디오 신호 (3144c) 및 후방 우측 오디오 신호 (3144d) 는 광대역 코덱들 (3194e, 3194f 및 3194g) 을 이용할 수도 있다. 이 구성에서, 전대역 코덱 (3198a) 은 오디오 신호들 (3144a 내지 3144d) 의 주파수 범위의 일부분 (예를 들어, 대역 2B 내지 2C (3192a, 3192b)) 에 대한 하나 이상의 오디오 신호들 (3144a 내지 3144d) 을 평균화할 수도 있다.
이 예에서, 전대역 코덱 (3198a) 은 대역 1A (3146a), 대역 1B (3176a), 대역 2A (3178a), 및 대역 2B 내지 2C (3192a) 를 포함할 수도 있다. 광대역 코덱들 (3198e 내지 3198g) 은 각각의 오디오 신호들 (예를 들어, 3144b 내지 3144d) 에 대한 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들을 포함하는 그 필터링된 대역들 (예를 들어, 대역 1B (3176b 내지 3176d)) 을 포함할 수도 있다. 광대역 코덱들 (3198e 내지 3198g) 은 또한, 어떤 상부 대역 주파수 (UB) 를 초과하는 주파수들 (예를 들어, 대역 2A (3178b 내지 3178d)) 에 대한 희망하는 코너 로케이션에 가장 근접한 마이크로폰에서 캡처된 원래의 오디오 신호를 포함할 수도 있다. 광대역 코덱들 (3198e 내지 3198g) 은 또한, 각각의 오디오 신호들 (예를 들어, 3144b 내지 3144d) 에 대한 어떤 하부 대역 주파수 (LB) 미만의 주파수들을 포함하는 대역들 (예를 들어, 대역 1A (3146b 내지 3146d)) 을 포함할 수도 있다.
도 32 는 4 개의 협대역 코덱들 (3201a 내지 3201d) 을 예시한다. 이 예에서, 어떤 하부 대역 주파수 (LB) 및 4 kHz 의 최대치 및 어떤 상부 대역 주파수 (UB) 사이의 주파수들을 포함하는 그러한 대역들은 각각의 오디오 신호 (3244a 내지 3244d) 에 대해 필터링될 수도 있다. 어떤 상부 대역 주파수 (UB) 가 4 kHz 보다 작을 경우, 가장 근접한 마이크로폰으로부터의 원래의 오디오 신호는 4 kHz 에 이르는 어떤 상부 대역 주파수 (UB) 보다 더 큰 주파수 범위에 대해 인코딩될 수도 있다. 이 예에서는, 각각의 오디오 신호 (3244a 내지 3244d) 에 대응하는 4 개의 채널들이 생성될 수도 있다. 각각의 채널은 그 오디오 신호 (3244a 내지 3244d) 에 대한 필터링된 대역들 (예를 들어, 대역 1B (3276a 내지 3276d) 의 적어도 일부분을 포함함) 을 포함할 수도 있다. 협대역 코덱들 (3201a 내지 3201d) 은 또한, 각각의 오디오 신호들 (예를 들어, 3244a 내지 3244d) 에 대한 어떤 하부 대역 주파수 (LB) 미만의 주파수들을 포함하는 대역들 (예를 들어, 대역 1A (3246a 내지 3246d)) 을 포함할 수도 있다.
도 33 은 도 29a, 도 29b 또는 도 29c 의 임의의 방식의 4 개의 비-협대역 코덱들을 이용하여 오디오 신호 패킷들 (3376) 을 생성 및 수신하기 위한 방법 (3300) 을 예시하는 플로우차트이다. 방법 (3300) 은 4 개의 오디오 신호들 (2944a 내지 2944d) 을 레코딩 (3302) 하는 것을 포함할 수도 있다. 이 구성에서, 4 개의 오디오 신호들 (2944a 내지 2944d) 은 마이크로폰 어레이에 의해 레코딩 또는 캡처될 수도 있다. 일 예로서, 도 26 및 도 27 에 예시된 어레이들 (2630, 2730) 이 이용될 수도 있다. 레코딩된 오디오 신호들 (2944a 내지 2944d) 은 오디오가 수신되는 방향들에 대응할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 4 개의 방향들 (예를 들어, 전방 좌측 (2944a), 후방 좌측 (2944b), 전방 우측 (2944c) 및 후방 우측 (2944d)) 로부터 나오는 4 개의 오디오 신호들을 레코딩할 수도 있다.
다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3376) 을 생성 (3304) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 패킷들 (3376) 을 생성 (3304) 하는 것은 하나 이상의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 예를 들어, 도 29a 의 코덱 구성이 주어지면, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 내에 속하는 오디오 신호의 대역들 (예를 들어, [LB, UB]) 은 필터링될 수도 있다. 일부의 구현예들에서, 이 대역들을 필터링하는 것은 블라인드 소스 분리 (BSS) 필터를 적용하는 것을 포함할 수도 있다. 다른 구현예들에서, 하부 대역 주파수 (LB) 및 상부 대역 주파수 (UB) 내에 속하는 오디오 신호들 (2944a 내지 2944d) 중의 하나 이상은 쌍들로 결합될 수도 있다. 나이퀴스트 주파수에 이르는 상부 대역 주파수 (UB) 보다 더 큰 대역들에 대하여, 그리고 하부 대역 주파수 (LB) 보다 더 작은 대역들에 대하여, 원래의 오디오 신호 (2944a 내지 2944d) 는 필터링된 오디오 신호와 오디오 채널로 결합될 수도 있다. 다시 말해서, 오디오 채널 (오디오 신호 (2944a 내지 2944d) 에 대응함) 은 나이퀴스트 주파수에 이르는 어떤 상부 대역 주파수 (UB) 를 초과하는 원래의 대역들 (예를 들어, 2A 내지 2C (2984a 내지 2984d) 및 하부 대역 주파수 (LB) 미만의 원래의 대역들 (예를 들어, 대역 1A (2946a 내지 2946d)) 뿐만 아니라, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 필터링된 대역들 (예를 들어, 대역 1B (2976a 내지 2976d)) 을 포함할 수도 있다.
오디오 신호 패킷들 (3376) 을 생성 (3304) 하는 것은 또한, 하나 이상의 비-협대역 코덱들을 오디오 채널들에 적용하는 것을 포함할 수도 있다. 일부의 구성들에 따르면, 무선 통신 디바이스 (102) 는 오디오 채널들을 인코딩하기 위하여 도 29a 내지 도 29c 에 도시된 바와 같은 코덱들의 제 1 구성 중의 하나 이상을 이용할 수도 있다. 예를 들어, 도 29a 에 도시된 코덱들이 주어지면, 무선 통신 디바이스 (102) 는 각각의 오디오 채널에 대한 전대역 코덱들 (2948a 내지 2948d) 을 이용하여 4 개의 오디오 채널들을 인코딩할 수도 있다. 대안적으로, 도 33 의 비-협대역 코덱들은 도 29b 에 예시된 바와 같은 수퍼 광대역 코덱들 (2988a 내지 2988d), 또는 도 29c 에 예시된 바와 같은 광대역 코덱들 (2990a 내지 2990d) 일 수도 있다. 코덱들의 임의이 조합이 이용될 수도 있다.
오디오 신호 패킷들 (3376) 이 생성됨으로써, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3376) 을 디코더로 송신 (3306) 할 수도 있다. 디코더는 무선 통신 디바이스 (102) 와 같은 오디오 출력 디바이스에 포함될 수도 있다. 일부의 구현예들에서, 오디오 신호 패킷들 (3376) 은 오버-디-에어로 송신될 수도 있다.
디코더는 오디오 신호 패킷들 (3376) 을 수신 (3308) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 패킷들 (3376) 을 수신 (3308) 하는 것은 수신된 오디오 신호 패킷들 (3376) 을 디코딩하는 것을 포함할 수도 있다. 디코더는 제 1 구성에 따라 그렇게 할 수도 있다. 상기 예로부터 도출하면, 디코더는 각각의 오디오 채널에 대한 전대역 코덱을 이용하여 오디오 채널들을 디코딩할 수도 있다. 대안적으로, 송신 패킷들 (3376) 이 어떻게 생성되었는지에 따라, 디코더는 수퍼 광대역 코덱들 (2988a 내지 2988d) 또는 광대역 코덱들 (2990a 내지 2990d) 을 이용할 수도 있다.
일부의 구현예들에서, 오디오 신호 패킷들 (3376) 을 수신 (3308) 하는 것은 전방 중심 채널을 재구성하는 것을 포함할 수도 있다. 예를 들어, 수신하는 오디오 출력 디바이스는 전방 중심 오디오 채널을 생성하기 위하여 전방 좌측 오디오 채널 및 전방 우측 오디오 채널을 결합할 수도 있다.
오디오 신호 패킷들 (3376) 을 수신 (3308) 하는 것은 또한 서브우퍼 (subwoofer) 채널을 재구성하는 것을 포함할 수도 있다. 이것은 저역 통과 필터를 통해 오디오 신호들 (2944a 내지 2944d) 중의 하나 이상을 통과시키는 것을 포함할 수도 있다.
다음으로, 수신된 오디오 신호는 오디오 출력 디바이스 상에서 재생 (3310) 될 수도 있다. 일부의 경우들에 있어서, 이것은 오디오 신호를 서라운드 사운드 포맷으로 재생하는 것을 포함할 수도 있다. 다른 경우들에 있어서, 오디오 신호는 스테레오 포맷으로 다운믹스 및 재생될 수도 있다.
도 34 는 (예를 들어, 도 30a 또는 도 30b 의 어느 하나로부터의) 4 개의 코덱들을 이용하여 오디오 신호 패킷들 (3476) 을 생성 및 수신하기 위한 또 다른 방법 (3400) 을 예시하는 플로우차트이다. 방법 (3400) 은 하나 이상의 오디오 신호들 (3044a 내지 3044d) 을 레코딩 (3402) 하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3476) 을 생성 (3404) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 패킷들 (3476) 을 생성 (3404) 하는 것은 하나 이상의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 예를 들어, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 내에 속하는 오디오 신호 (3044a 내지 3044d) 의 대역들 (예를 들어, [LB, UB]) 은 필터링될 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다.
일부의 구현예들에서, 4 개의 하부 대역 채널들 (예를 들어, 도 30a 또는 도 30b 에 예시된 4 개의 오디오 신호들 (3044a 내지 3044d) 에 대응함) 이 생성될 수도 있다. 하부 대역 채널들은 오디오 신호들 (3044a 내지 3044d) 의 [0, 8] kHz 사이의 주파수들을 포함할 수도 있다. 이 4 개의 하부 대역 채널들은 8 kHz 에 이르는 어떤 상부 대역 주파수 (UB) 보다 더 큰 원래의 오디오 신호 및 4 개의 오디오 신호들 (3044a 내지 3044d) 의 하부 대역 주파수 (LB) 미만의 원래의 오디오 신호 (예를 들어, 대역 1A (3046a 내지 3046d)) 뿐만 아니라, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 필터링된 신호 (예를 들어, 대역 1B (3076a 내지 3076d)) 를 포함할 수도 있다. 유사하게, 평균화된 전방/후방 오디오 신호들에 대응하는 2 개의 상위 대역 채널들이 생성될 수도 있다. 상위 대역 채널들은 제로 (zero) 로부터 24 kHz 까지 이르는 주파수들을 포함할 수도 있다. 상위 대역 채널들은 8 kHz 에 이르는 어떤 상부 대역 주파수 (UB) 보다 더 큰 원래의 오디오 신호 및 하부 대역 주파수 (LB) 미만의 원래의 오디오 신호 (예를 들어, 4 개의 오디오 신호 (3044a 내지 3044d) 의 대역 1A (3046a 내지 3046d)) 뿐만 아니라, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 사이의 필터링된 신호 (예를 들어, 대역 1B (3076a 내지 3076d)) 를 포함할 수도 있다. 상위 대역 채널들은 또한 약 8 kHz 를 초과하여 24 kHz 에 이르는 평균화된 오디오 신호를 포함할 수도 있다.
오디오 신호 패킷들 (3476) 을 생성 (3404) 하는 것은 또한, 하나 이상의 코덱들 (3094a 내지 3094f) 을 오디오 채널들에 적용하는 것을 포함할 수도 있다. 일부의 구성들에 따르면, 무선 통신 디바이스 (102) 는 오디오 채널들을 인코딩하기 위하여 도 30a 내지 도 30b 에 도시된 바와 같은 코덱들 (3094a 내지 3094f) 의 제 2 구성 중의 하나 이상을 이용할 수도 있다.
예를 들어, 도 30b 에 도시된 바와 같은 코덱들이 주어지면, 무선 통신 디바이스 (102) 는 전대역 코덱들 (3094a, 3094b) 을 이용하여 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b) 를 각각 인코딩할 수도 있고, 광대역 코덱들 (3094c, 3094d) 을 이용하여 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d) 를 각각 인코딩할 수도 있다. 다시 말해서, 4 개의 오디오 신호 패킷들 (3476) 이 생성될 수도 있다. 전대역 코덱들 (3094a, 3094b) 을 이용하는 오디오 신호들 (3044a 내지 3044d) (예를 들어, 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b)) 에 대응하는 패킷들 (3476) 에 대하여, 패킷들 (3476) 은 그 오디오 신호 (3044a 내지 3044d) (예를 들어, 오디오 신호들 (3044a, 3044b)) 의 하위 대역 채널들 (예를 들어, [0, 8] kHz) 과, 그 일반적인 방향에서의 평균화된 오디오 신호들 (3044a 내지 3044d) (예를 들어, 전방 오디오 신호들 (3044a, 3044c), 및 후방 오디오 신호들 (3044b, 3044d)) 의 24 kHz (예를 들어, 전대역 코덱들 (3094a, 3094b) 에 의해 허용되는 최대 주파수) 에 이르는 상위 대역 채널들을 포함할 수도 있다. 광대역 코덱들 (3094e 내지 3094f) 을 이용하는 오디오 신호들 (3044a 내지 3044d) (예를 들어, 전방 우측 오디오 신호 (3044c) 및 후방 우측 오디오 신호 (3044d)) 에 대응하는 오디오 신호 패킷들 (3476) 에 대하여, 오디오 신호 패킷 (3476) 은 그 오디오 신호 (3044a 내지 3044d) (예를 들어, 오디오 신호들 (3044c, 3044d)) 의 하위 대역 채널들 (예를 들어, [0, 8] kHz) 을 포함할 수도 있다.
오디오 신호 정보가 생성됨으로써, 무선 통신 디바이스 (102) 는 오디오 신호 정보를 송신 (3406) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
디코더는 오디오 신호 정보를 수신 (3408) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 정보를 수신 (3408) 하는 것은 수신된 오디오 신호 정보를 디코딩하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 도 30b 의 코덱 방식이 주어지면, 디코더는 전대역 코덱 (3094a, 3094b) 을 이용하여 전방 좌측 오디오 신호 (3044a) 및 후방 좌측 오디오 신호 (3044b) 를 디코딩할 수도 있고, 광대역 코덱 (3094e, 3094f) 을 이용하여 전방 우측 오디오 신호 (3044b) 및 후방 우측 오디오 신호 (3044d) 를 디코딩할 수도 있다. 오디오 출력 디바이스는 또한, 전대역 오디오 채널들에 포함된 바와 같은 평균화된 상위 대역 채널들의 일부분 (예를 들어, [8, 24] kHz 부분) 을 이용하여 (예를 들어, 전방 우측 오디오 채널에 대한 전방 좌측 오디오 신호의 평균화된 상위 대역 채널을 이용하여, 그리고 후방 우측 오디오 채널에 대한 후방 좌측 오디오 신호의 평균화된 상위 대역 채널을 이용하여) 광대역 오디오 채널들의 [8, 24] kHz 범위를 재구성할 수도 있다.
일부의 구성들에서, 오디오 신호 정보를 수신 (3408) 하는 것은 전방 중심 채널을 재구성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
오디오 신호 정보를 수신 (3408) 하는 것은 또한 서브우퍼 (subwoofer) 신호를 재구성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 수신된 오디오 신호는 오디오 출력 디바이스 상에서 재생 (3410) 될 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
도 35 는 (예를 들어, 도 31a 또는 도 31b 의 어느 하나로부터의) 4 개의 코덱들을 이용하여 오디오 신호 패킷들 (3576) 을 생성 및 수신하기 위한 또 다른 방법 (3500) 을 예시하는 플로우차트이다. 방법 (3500) 은 하나 이상의 오디오 신호들 (3144a 내지 3144d) 을 레코딩 (3502) 하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3576) 을 생성 (3504) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 패킷들 (3576) 을 생성 (3504) 하는 것은 하나 이상의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 예를 들어, 어떤 하부 대역 주파수 (LB) 및 어떤 상부 대역 주파수 (UB) 내에 속하는 오디오 신호 (3144) 의 대역들 (예를 들어, 대역 1B (3176a 내지 3176d)) 은 필터링될 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다.
일부의 구현예들에서, 4 개의 오디오 신호들 (3144) 에 대응하는 4 개의 하부 대역 채널들이 생성될 수도 있다. 일부의 구현예들에서, 이것은 도 34 에서 설명된 바와 같이 행해질 수도 있다. 유사하게, 평균화된 오디오 신호들 (예를 들어, 전방 좌측 오디오 신호 (3144a), 후방 좌측 오디오 신호 (3144b), 전방 우측 오디오 신호 (3144c) 및 후방 우측 오디오 신호 (3144d)) 에 대응하는 상위 대역 채널이 생성될 수도 있다. 일부의 구현예들에서, 이것은 도 34 에서 설명된 바와 같이 행해질 수도 있다.
오디오 신호 패킷들 (3576) 을 생성 (3504) 하는 것은 또한, 하나 이상의 코덱들 (3198a 내지 3198g) 을 오디오 채널들에 적용하는 것을 포함할 수도 있다. 일부의 구성들에 따르면, 무선 통신 디바이스 (102) 는 오디오 채널들을 인코딩하기 위하여 도 30a 내지 도 30b 에 도시된 바와 같은 코덱들 (3198a 내지 3198g) 의 제 3 구성 중의 하나 이상을 이용할 수도 있다. 예를 들어, 도 31b 에 도시된 바와 같은 코덱들이 주어지면, 무선 통신 디바이스 (102) 는 전대역 코덱 (3198a) 을 이용하여 전방 좌측 오디오 신호 (3144a) 를 인코딩할 수도 있고, 광대역 코덱 (3198e), 광대역 코덱 (3198f) 및 광대역 코덱 (3198g) 을 이용하여 후방 좌측 오디오 신호 (3144b), 전방 우측 오디오 신호 (3144c) 및 후방 우측 오디오 신호 (3144d) 를 인코딩할 수도 있다. 다시 말해서, 4 개의 오디오 신호 패킷들 (3576) 이 생성될 수도 있다.
전대역 코덱 (3198a) 을 이용하는 오디오 신호 (3144a) 에 대응하는 패킷 (3576) 에 대하여, 패킷 (3576) 은 그 오디오 신호 (3144a) 의 하위 대역 채널들과, 평균화된 오디오 신호들 (3144a 내지 3144d) 의 24 kHz (예를 들어, 전대역 코덱 (3198a) 에 의해 허용되는 최대 주파수) 에 이르는 상위 대역 채널을 포함할 수도 있다. 광대역 코덱들 (3198e 내지 3198g) 을 이용하는 오디오 신호들 (3144a 내지 3144d) (예를 들어, 오디오 신호들 (3144b 내지 3144d)) 에 대응하는 오디오 신호 패킷들 (3576) 에 대하여, 오디오 신호 패킷 (3576) 은 그 오디오 신호 (3144a 내지 3144d) (예를 들어, 오디오 신호들 (3144b 내지 3144d)) 및 8 kHz 에 이르는 어떤 상부 대역 주파수 (UB) 보다 더 큰 원래의 오디오 신호의 하위 대역 채널들을 포함할 수도 있다.
오디오 신호 정보가 생성됨으로써, 무선 통신 디바이스 (102) 는 오디오 신호 정보를 송신 (3506) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
디코더는 오디오 신호 정보를 수신 (3508) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 정보를 수신 (3508) 하는 것은 수신된 오디오 신호 정보를 디코딩하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 오디오 출력 디바이스는 또한, 전대역 오디오 채널들에 포함된 바와 같은 평균화된 상위 대역 채널들의 일부분 (예를 들어, [8, 24] kHz 부분) 을 이용하여 광대역 오디오 채널들의 [8, 24] kHz 범위를 재구성할 수도 있다.
일부의 구현예들에서, 오디오 신호 정보를 수신 (3508) 하는 것은 전방 중심 채널을 재구성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
오디오 신호 정보를 수신 (3508) 하는 것은 또한 서브우퍼 신호를 재구성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 수신된 오디오 신호는 오디오 출력 디바이스 상에서 재생 (3510) 될 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
도 36 은 인코딩하기 위한 (예를 들어, 도 29a, 도 29b 또는 도 29c 로부터의) 4 개의 협대역 코덱들과, 디코딩하기 위한 4 개의 광대역 코덱들 또는 협대역 코덱들 중의 어느 하나와의 조합을 이용하여 오디오 신호 패킷들 (3676) 을 생성하고 수신하기 위한 또 다른 방법 (3600) 을 예시하는 플로우차트이다. 방법 (3600) 은 하나 이상의 오디오 신호들 (2944) 을 레코딩 (3602) 하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3676) 을 생성 (3604) 할 수도 있다. 오디오 신호 패킷들 (3676) 을 생성 (3604) 하는 것은 하나 이상의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다.
오디오 신호 패킷들 (3676) 을 생성 (3604) 하는 것은 또한, 도 29a 내지 도 29c 에 도시된 바와 같은 하나 이상의 비-협대역 코덱들을 오디오 채널들에 적용하는 것을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 오디오 채널들을 인코딩하기 위하여 도 29b 에 도시된 광대역 코덱들 (2988a 내지 2988d) 을 이용할 수도 있다.
오디오 신호 패킷들 (3676) 이 생성됨으로써, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3676) 을 디코더로 송신 (3606) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다.
디코더는 오디오 신호 패킷들 (3676) 을 수신 (3608) 할 수도 있다. 일부의 구현예들에서, 오디오 신호 패킷들 (3676) 을 수신 (3608) 하는 것은 수신된 오디오 신호 패킷들 (3676) 을 디코딩하는 것을 포함할 수도 있다. 디코더는 오디오 신호 패킷들 (3676) 을 디코딩하기 위하여 하나 이상의 광대역 코덱들 또는 하나 이상의 협대역 코덱들을 이용할 수도 있다. 오디오 출력 디바이스는 또한, 광대역 채널들의 대역폭 확장을 이용하여 수신된 오디오 신호 패킷들 (3676) 을 기초로 오디오 채널들의 [8, 24] kHz 범위를 재구성할 수도 있다. 이 예에서는, 상부 대역 주파수 (UB) 로부터 나이퀴스트 주파수까지의 송신이 필요하지 않다. 이 범위는 스펙트럼 대역 복제 (spectral band replication; SBR) 와 유사한 기법들을 이용하여 하부 대역 주파수로부터 상부 대역 주파수 (UB) 범위까지로 생성될 수도 있다. 하부 대역 주파수 (LB) 미만의 대역들은 예를 들어, 마이크로폰 입력들을 평균함으로써 송신될 수도 있다.
일부의 구성들에서, 오디오 신호 패킷들 (3676) 을 수신 (3608) 하는 것은 전방 중심 채널을 재구성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다.
오디오 신호 패킷들 (3676) 을 수신 (3608) 하는 것은 또한 서브우퍼 채널을 재구성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다. 다음으로, 수신된 오디오 신호는 오디오 출력 디바이스 상에서 재생 (3310) 될 수도 있다. 일부의 구현예들에서, 이것은 도 33 에서 설명된 바와 같이 행해질 수도 있다.
코딩 비트들은 특정 방향에 기초하여 배정되거나 분포될 수도 있다. 이 방향은 사용자에 의해 선택될 수도 있다. 예를 들어, 사용자의 음성이 나오고 있는 방향은 그것에 배정된 더 많은 비트들을 가질 수도 있다. 이것은 다른 방향들의 에너지를 감소시킬 뿐만 아니라, 다른 채널들의 동적 범위를 최소화시킴으로써 수행될 수도 있다. 추가적으로, 상이한 구성들에서는, 서라운드 사운드의 4 개의 코너들의 에너지 분포의 시각화가 생성될 수도 있다. 어느 지향성 사운드가 할당된 더 많은 비트들, 즉, 더 양호한 사운드를 가져야 하는지, 또는 더 양호한 희망하는 사운드 방향을 가져야 하는지에 대한 사용자 선택은 에너지 분포의 시각화에 기초하여 선택될 수도 있다. 이 구성에서는, 1 개 또는 2 개의 채널들이 더 많은 비트들로 인코딩되지만, 하나 이상의 채널들이 송신된다.
도 37 은 1 개 또는 2 개의 오디오 채널들에 대한 인코딩 동안의 상이한 비트 할당이 사용자 선택에 기초할 수도 있는, 오디오 신호 패킷들 (3776) 을 생성 및 수신하기 위한 또 다른 방법 (3700) 을 예시하는 플로우차트이다. 일부의 구현예들에서, 1 개 또는 2 개의 오디오 신호들에 대한 인코딩 동안의 상이한 비트 할당은 서라운드 사운드 시스템의 4 개의 방향들의 에너지 분포의 시각화와 연관된 사용자 선택에 기초할 수도 있다. 이 구현예에서는, 4 개의 인코딩된 소스들이 오버 디 에어 채널들로 송신된다.
방법 (3700) 은 하나 이상의 오디오 신호들 (2944) 을 레코딩 (3702) 하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3776) 을 생성 (3704) 할 수도 있다. 오디오 신호 패킷들 (3776) 을 생성 (3704) 하는 것은 하나 이상의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 내지 도 36 에서 설명된 바와 같이 행해질 수도 있다.
오디오 신호 패킷들 (3776) 을 생성 (3704) 하는 것은 또한, 4 개의 코너들 (예를 들어, 4 개의 오디오 신호들 (2944a 내지 2944d)) 의 에너지 분포의 시각화를 생성하는 것을 포함할 수도 있다. 이 시각화로부터, 사용자는 어느 지향성 사운드가 할당된 더 많은 비트들을 가져야 하는지를 (예를 들어, 사용자의 음성이 어디에서 나오는지를) 선택할 수도 있다. 사용자 선택 (예를 들어, 공간적 방향의 표시 (3878)) 에 기초하여, 무선 통신 디바이스 (102) 는 코덱들 (예를 들어, 도 29a 내지 도 29c 에 도시된 코덱들) 의 제 1 구성의 코덱들 중의 1 개 또는 2 개에 더 많은 비트들을 적용할 수도 있다. 오디오 신호 정보를 생성 (3704) 하는 것은 또한, 하나 이상의 비-협대역 코덱들을 오디오 채널들에 적용하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 사용자 선택을 참조하여 도 33 에서 설명된 바와 같이 행해질 수도 있다.
오디오 신호 패킷들 (3776) 이 생성됨으로써, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3776) 을 디코더로 송신 (3706) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 디코더는 오디오 신호 정보를 수신 (3708) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 수신된 오디오 신호는 오디오 출력 디바이스 상에서 재생 (3710) 될 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 유사하게, 사용자가 특정 지향성 소스 (예를 들어, 사용자의 음성, 또는 사용자가 곧장 나아가는 것에 관심이 있는 일부의 다른 사운드) 에 관심이 있을 경우, 1 개 또는 2 개의 채널들의 송신이 수행될 수도 있다. 이 구성에서는, 하나의 채널이 인코딩 및 송신된다.
도 38 은 하나의 오디오 신호가 사용자 선택에 기초하여 압축 및 송신되는, 오디오 신호 패킷들 (3876) 을 생성 및 수신하기 위한 또 다른 방법 (3800) 을 예시하는 플로우차트이다. 방법 (3800) 은 하나 이상의 오디오 신호들 (2944a 내지 2944d) 을 레코딩 (3802) 하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷들 (3876) 을 생성 (3804) 할 수도 있다. 오디오 신호 패킷들 (3876) 을 생성 (3804) 하는 것은 하나 이상의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 도 33 내지 도 36 에서 설명된 바와 같이 행해질 수도 있다. 오디오 신호 패킷들 (3876) 을 생성 (3804) 하는 것은 또한, 4 개의 코너들 (예를 들어, 4 개의 오디오 신호들 (2944a 내지 2944d)) 의 에너지 분포의 시각화를 생성하는 것을 포함할 수도 있다. 이 시각화로부터, 사용자는 어느 지향성 사운드 (예를 들어, 공간적 방향의 표시 (3878)) 가 인코딩 및 송신되어야 하는지를 (예를 들어, 사용자의 음성이 어디에서 나오는지를) 선택할 수도 있다. 오디오 신호 정보를 생성 (3804) 하는 것은 또한, (도 29a 내지 도 29c 에 도시된 바와 같은) 비-협대역 코덱을 선택된 오디오 채널에 적용하는 것을 포함할 수도 있다. 일부의 구현예들에서, 이것은 사용자 선택에 따라 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
오디오 신호 정보가 생성됨으로써, 무선 통신 디바이스 (102) 는 오디오 신호 패킷 (3876) 을 디코더로 송신 (3806) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다. 오디오 신호 패킷 (3876) 과 함께, 무선 통신 디바이스는 채널 식별정보를 송신 (3806) 할 수도 있다.
디코더는 오디오 신호 정보를 수신 (3808) 할 수도 있다. 일부의 구현예들에서, 이것은 도 33 과 관련하여 설명된 바와 같이 행해질 수도 있다.
다음으로, 수신된 오디오 신호는 오디오 출력 디바이스 상에서 재생 (3810) 될 수도 있다. 일부의 구현예들에서, 수신된 오디오 신호는 도 33 과 관련하여 설명된 바와 같이 재생 (3810) 될 수도 있다. 사용자-정의된 채널들을 인코딩 및 디코딩하고 다른 채널 출력들을 제로화 (zero) 함으로써, 증대되었지만 공간화된 출력이 멀티-채널 재현 (multichannel reproduction) 및/또는 헤드폰 렌더링 (headphone rendering) 시스템을 이용하여 생성될 수도 있다.
도 39 는 코덱 조합들 (3974a 내지 3974d) 의 4 개의 구성들을 포함하는, 오디오 신호 패킷들 (3376) 을 생성함에 있어서 구현될 수도 있는 무선 통신 디바이스 (3902) 의 구현예를 예시하는 블록도이다. 통신 디바이스 (3902) 는 이전에 설명된 어레이 (2630) 와 유사한 어레이 (3930) 를 포함할 수도 있다. 어레이 (3930) 는 이전에 설명된 마이크로폰들과 유사한 하나 이상의 마이크로폰들 (3904a 내지 3904d) 을 포함할 수도 있다. 예를 들어, 어레이 (3930) 는 4 개의 레코딩 방향들 (예를 들어, 전방 좌측, 전방 우측, 후방 좌측 및 후방 우측) 로부터 오디오 신호들을 수신하는 4 개의 마이크로폰들 (3904a 내지 3904d) 을 포함할 수도 있다.
무선 통신 디바이스 (3902) 는 마이크로폰 어레이 (3930) 에 커플링된 메모리 (3950) 를 포함할 수도 있다. 메모리 (3950) 는 마이크로폰 어레이 (3930) 에 의해 제공된 오디오 신호들을 수신할 수도 있다. 예를 들어, 메모리 (3950) 는 4 개의 레코딩된 방향들에 속하는 하나 이상의 데이터 세트들을 포함할 수도 있다. 다시 말해서, 메모리 (3950) 는 전방 좌측 마이크로폰 (3904a) 오디오 신호, 전방 우측 마이크로폰 (3904b) 오디오 신호, 후방 우측 마이크로폰 (3904c) 오디오 신호 및 후방 좌측 마이크로폰 (3904d) 오디오 신호에 대한 데이터를 포함할 수도 있다.
무선 통신 디바이스 (3902) 는 또한, 프로세싱 정보를 수신하는 제어기 (3952) 를 포함할 수도 있다. 예를 들어, 제어기 (3952) 는 사용자 인터페이스로의 사용자 정보 입력을 수신할 수도 있다. 더욱 구체적으로, 사용자는 희망하는 레코딩 방향을 표시할 수도 있다. 다른 예들에서, 사용자는 더 많은 프로세싱 비트들을 할당하기 위한 하나 이상의 오디오 채널들을 표시할 수도 있거나, 사용자는 어느 오디오 채널들을 인코딩 및 송신할 것인지를 표시할 수도 있다. 제어기 (3952) 는 또한 대역폭 정보를 수신할 수도 있다. 예를 들어, 대역폭 정보는 오디오 신호 정보의 송신을 위하여 무선 통신 디바이스 (3902) 에 할당된 대역폭 (예를 들어, 전대역, 수퍼 광대역, 광대역 및 협대역) 을 제어기 (3952) 에 표시할 수도 있다.
제어기 (3952) 로부터의 정보 (예를 들어, 사용자 입력 및 대역폭 정보) 및 메모리 (3950) 에 저장된 정보에 기초하여, 통신 디바이스 (3902) 는 하나 이상의 코덱 구성들 (3974a 내지 3974d) 로부터, 오디오 채널들에 적용하기 위한 특별한 구성을 선택할 수도 있다. 일부의 구현예들에서, 무선 통신 디바이스 상에 존재하는 코덱 구성들 (3974a 내지 3974d) 은 도 29a 내지 도 29c 의 제 1 구성들, 도 30a 내지 도 30b 의 제 2 구성들, 도 31a 내지 도 31b 의 제 3 구성들, 및 도 32 의 구성을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스 (3902) 는 오디오 채널들을 인코딩하기 위하여 도 29a 의 제 1 구성을 이용할 수도 있다.
도 40 은 오디오 신호들을 압축하기 위하여 도 29a 내지 도 29c 의 비-협대역 코덱들과 유사한 4 개의 비-협대역 코덱들 (4048a 내지 4048d) 의 구성 (4074) 을 포함하는 무선 통신 디바이스 (4002) 의 구현예를 예시하는 블록도이다. 무선 통신 디바이스 (4002) 는 마이크로폰들 (4004a 내지 4004d) 의 어레이 (4030), 메모리 (4050), 제어기 (4052), 또는 더 이전에 설명된 엘리먼트들에 대응하는 이 엘리먼트들의 일부의 조합을 포함할 수도 있다. 이 구현예에서, 무선 통신 디바이스 (4002) 는 오디오 신호 패킷들 (3376) 을 인코딩하기 위하여 이용되는 코덱들 (4048a 내지 4048d) 의 구성 (4074) 을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스 (4002) 는 오디오 신호 정보를 인코딩하기 위하여 도 29b 에 설명된 바와 같은 하나 이상의 광대역 코덱들 (2990a 내지 2990d) 을 포함하고 이들을 구현할 수도 있다. 대안적으로, 전대역 코덱들 (2948a 내지 2948d) 또는 수퍼 광대역 코덱들 (2988a 내지 2988d) 이 이용될 수도 있다. 무선 통신 디바이스 (4002) 는 오디오 신호 패킷들 (4076a 내지 4076d) (예를 들어, FL, FR, BL 및 BR 패킷) 을 디코더로 송신할 수도 있다.
도 41 은 선택적인 코덱 프리-필터가 이용될 수도 있는, 코덱 조합들의 4 개의 구성들 (4174a 내지 4174d) 을 포함하는 통신 디바이스 (4102) 의 구현예를 예시하는 블록도이다. 무선 통신 디바이스 (4102) 는 마이크로폰들 (4104a 내지 4104d) 의 어레이 (4130), 메모리 (4150), 제어기 (4152), 또는 더 이전에 설명된 엘리먼트들에 대응하는 이 엘리먼트들의 일부의 조합을 포함할 수도 있다. 코덱 프리-필터 (4154) 는 어떤 오디오 신호 데이터가 메모리에 저장되는지, 그리고 결과적으로, 어느 데이터가 인코딩 및 송신되는지를 제어하기 위하여, 제어기 (4152) 로부터의 정보를 이용할 수도 있다.
도 42 는 선택적인 필터링이 필터 뱅크 어레이 (4226) 의 일부로서 발생할 수도 있는, 코덱 조합들의 4 개의 구성들 (4274a 내지 4274d) 을 포함하는 통신 디바이스 (4202) 의 구현예를 예시하는 블록도이다. 무선 통신 디바이스 (4202) 는 마이크로폰들 (4204a 내지 4204d), 메모리 (4250), 제어기 (4252), 또는 더 이전에 설명된 엘리먼트들에 대응하는 이 엘리먼트들의 일부의 조합을 포함할 수도 있다. 이 구현예에서, 선택적인 필터링은 필터 뱅크 어레이 (4226) 의 일부로서 발생할 수도 있고, 여기서, 4226 은 더 이전에 설명된 대응하는 엘리먼트들과 유사할 수도 있다.
도 43 은 청각 장면으로부터의 사운드 소스 데이터가 코덱 구성들 (4374a 내지 4374d) 중의 하나로 인코딩하기 이전에 하나 이상의 파일들로부터의 데이터와 믹스될 수도 있는, 코덱 조합들의 4 개의 구성들 (4374a 내지 4374d) 을 포함하는 통신 디바이스 (4302) 의 구현예를 예시하는 블록도이다. 무선 통신 디바이스 (4302) 는 마이크로폰들의 어레이 (4330), 메모리 (4350) 및/또는 제어기 (4352), 또는 더 이전에 설명된 엘리먼트들에 대응하는 이 엘리먼트들의 일부의 조합을 포함할 수도 있다. 일부의 구현예들에서, 무선 통신 디바이스 (4302) 는 하나 이상의 믹서들 (4356a 내지 4356d) 을 포함할 수도 있다. 하나 이상의 믹서들 (4356a 내지 4356d) 은 코덱 구성들 중의 하나로 인코딩하기 전에, 오디오 신호들을 하나 이상의 파일들로부터의 데이터와 믹스할 수도 있다.
도 44 는 통합된 코덱을 이용하여 다수의 지향성 오디오 신호들을 인코딩하기 위한 방법 (4400) 을 예시하는 플로우차트이다. 방법 (4400) 은 무선 통신 디바이스 (102) 에 의해 수행될 수도 있다. 무선 통신 디바이스 (102) 는 복수의 지향성 오디오 신호들을 레코딩 (4402) 할 수도 있다. 복수의 지향성 오디오 신호들은 복수의 마이크로폰들에 의해 레코딩될 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 상에 위치된 복수의 마이크로폰들은 전방 좌측 방향, 후방 좌측 방향, 전방 우측 방향, 후방 우측 방향, 또는 일부의 조합으로부터의 지향성 오디오 신호들을 레코딩할 수도 있다. 일부의 경우들에 있어서, 무선 통신 디바이스 (102) 는 예를 들어, 사용자 인터페이스 (312) 를 통해, 사용자 입력에 기초하여 복수의 지향성 오디오 신호들을 레코딩 (4402) 한다.
무선 통신 디바이스 (102) 는 복수의 오디오 신호 패킷들 (3376) 을 생성 (4404) 할 수도 있다. 일부의 구성들에서, 오디오 신호 패킷들 (3376) 은 복수의 오디오 신호들에 기초할 수도 있다. 복수의 오디오 신호 패킷들 (3376) 은 평균화된 신호를 포함할 수도 있다. 위에서 설명된 바와 같이, 복수의 오디오 신호 패킷들 (3376) 을 생성 (4404) 하는 것은 복수의 오디오 채널들을 생성하는 것을 포함할 수도 있다. 예를 들어, 복수의 지향성 오디오 신호들의 일부분은 오버 디 에어로 복수의 오디오 채널들로서 압축 및 송신될 수도 있다. 일부의 경우들에 있어서, 압축되는 지향성 오디오 신호들의 수는 송신되는 오디오 채널들의 수와 동일하지 않을 수도 있다. 예를 들어, 4 개의 지향성 오디오 신호들이 압축될 경우, 송신되는 오디오 채널들의 수는 3 개와 동일할 수도 있다. 오디오 채널들은 하나 이상의 지향성 오디오 신호들에 대응할 수도 있다. 다시 말해서, 무선 통신 디바이스 (102) 는 전방 좌측 오디오 신호에 대응하는 전방 좌측 오디오 채널을 생성할 수도 있다. 복수의 오디오 채널들은 주파수들의 필터링된 범위 (예를 들어, 대역 1B) 및 주파수들의 필터링되지 않은 범위 (예를 들어, 대역들 1A, 2A, 2B, 및/또는 2C) 를 포함할 수도 있다.
복수의 오디오 신호 패킷들 (3376) 을 생성 (4404) 하는 것은 또한, 코덱들을 오디오 채널들에 적용하는 것을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 전대역 코덱, 광대역 코덱, 수퍼 광대역 코덱, 또는 협대역 코덱 중의 하나 이상을 복수의 오디오 신호들에 적용할 수도 있다. 더욱 구체적으로, 무선 통신 디바이스 (102) 는 하위 대역에서의 적어도 하나의 지향성 오디오 신호를 압축할 수도 있고, 상위 대역에서의 상이한 지향성 오디오 신호를 압축할 수도 있다.
일부의 구현예들에서, 복수의 오디오 신호 패킷들 (3376) 을 생성 (4404) 하는 것은 수신된 입력에 기초할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 코덱들의 비트 할당을 결정하기 위하여 사용자로부터의 입력을 수신할 수도 있다. 일부의 경우들에 있어서, 비트 할당은 압축되어야 할 방향들의 에너지의 시각화에 기초할 수도 있다. 무선 통신 디바이스 (102) 는 또한 지향성 오디오 신호들을 압축하는 것과 연관된 입력을 수신할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 어느 지향성 오디오 신호들을 압축 (그리고 오버 디 에어로 송신) 할 것인지에 대한 사용자로부터의 입력을 수신할 수도 있다. 일부의 경우들에 있어서, 입력은 어느 지향성 오디오 신호가 더 양호한 오디오 품질을 가져야 하는지를 표시할 수도 있다. 이 예들에서, 입력은 예를 들어, 무선 통신 디바이스의 디스플레이를 터치함으로써 사용자 손의 제스쳐 (gesture) 에 기초할 수도 있다. 유사하게, 입력은 무선 통신 디바이스의 이동에 기초할 수도 있다.
오디오 신호 패킷들 (3376) 이 생성되면, 무선 통신 디바이스 (102) 는 복수의 오디오 신호 패킷들 (3376) 을 디코더로 송신 (4406) 할 수도 있다. 무선 통신 디바이스 (102) 는 복수의 오디오 신호 패킷들 (3376) 을 오버 디 에어로 송신 (4406) 할 수도 있다. 일부의 구성들에서, 디코더는 오디오 센싱 디바이스와 같은 무선 통신 디바이스 (102) 에 포함된다.
도 45 는 오디오 신호 프로세싱을 위한 방법 (4500) 을 예시하는 플로우차트이다. 방법 (4500) 은 무선 통신 디바이스 (102) 에 의해 수행될 수도 있다. 무선 통신 디바이스 (102) 는 청각 장면을 캡처 (4500) 할 수도 있다. 예를 들어, 복수의 마이크로폰들은 복수의 지향성 소스들로부터 오디오 신호들을 캡처할 수도 있다. 무선 통신 디바이스 (102) 는 각각의 오디오 신호의 도달의 방향을 추정할 수도 있다. 일부의 구현예들에서, 무선 통신 디바이스 (102) 는 레코딩 방향을 선택할 수도 있다. 레코딩 방향을 선택하는 것은 휴대용 오디오 센싱 디바이스 (예를 들어, 이동 통신 디바이스 상의 마이크로폰) 의 방위에 기초할 수도 있다. 추가적으로 또는 대안적으로, 레코딩 방향을 선택하는 것은 입력에 기초할 수도 있다. 예를 들어, 사용자는 더 양호한 오디오 품질을 가져야 하는 방향을 선택할 수도 있다. 무선 통신 디바이스 (102) 는 청각 장면을 적어도 4 개의 오디오 신호들로 분해 (4504) 할 수도 있다. 일부의 구현예들에서, 오디오 신호들은 4 개의 독립적인 방향들에 대응한다. 예를 들어, 제 1 오디오 신호는 전방 좌측 방향에 대응할 수도 있고, 제 2 오디오 신호는 후방 좌측 방향에 대응할 수도 있고, 제 3 오디오 신호는 전방 우측 방향에 대응할 수도 있고, 제 4 오디오 신호는 후방 우측 방향에 대응할 수도 있다. 무선 통신 디바이스 (102) 는 또한 적어도 4 개의 오디오 신호들로 압축 (4506) 할 수도 있다.
일부의 구현예들에서, 청각 장면을 분해 (4504) 하는 것은 오디오 신호들을 하나 이상의 주파수 범위들로 파티셔닝 (partitioning) 하는 것을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스는 오디오 신호들을 협대역 주파수 범위들의 제 1 세트 및 광대역 주파수 범위들의 제 2 세트로 파티셔닝할 수도 있다. 추가적으로, 무선 통신 디바이스는 협대역 주파수 범위들의 세트에 있는 제 1 주파수 대역과 연관되어 있는 오디오 샘플들을 압축할 수도 있다. 오디오 샘플들이 압축됨으로써, 무선 통신 디바이스는 압축된 오디오 샘플들을 송신할 수도 있다.
무선 통신 디바이스 (102) 는 또한 제 1 필터링된 신호를 획득하기 위하여 제 1 엔드-파이어 방향에서 빔을 적용할 수도 있다. 유사하게, 제 2 엔드-파이어 방향에서의 제 2 빔은 제 2 필터링된 신호를 생성할 수도 있다. 일부의 경우들에 있어서, 빔은 하위 임계치 및 상위 임계치 사이에 있는 주파수들에 적용될 수도 있다. 이 경우들에 있어서, 임계치들 (예를 들어, 하위 임계치 또는 상위 임계치) 중의 하나는 마이크로폰들 사이의 거리에 기초할 수도 있다.
무선 통신 디바이스는 제 1 필터링된 신호를 제 2 필터링된 신호의 지연된 버전과 결합할 수도 있다. 일부의 경우들에 있어서, 제 1 및 제 2 필터링된 신호들은 각각 2 개의 채널들을 가질 수도 있다. 일부의 경우들에 있어서, 필터링된 신호 (예를 들어, 제 1 필터링된 신호 및 제 2 필터링된 신호) 의 하나의 채널은 다른 채널들에 관하여 지연될 수도 있다. 유사하게, 결합된 신호 (예를 들어, 제 1 필터링된 신호 및 제 2 필터링된 신호의 결합) 는 서로에 관하여 지연될 수도 있는 2 개의 채널들을 가질 수도 있다.
무선 통신 디바이스 (102) 는 제 1 공간적으로 필터링된 신호를 생성하는 것을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 제 1 방향에서 빔을 갖는 필터를 제 1 쌍의 마이크로폰들에 의해 생성된 신호에 적용할 수도 있다. 유사한 방식으로, 무선 통신 디바이스 (102) 는 제 2 공간적으로 필터링된 신호를 생성할 수도 있다. 일부의 경우들에 있어서, 제 1 쌍의 마이크로폰들 (예를 들어, 제 1 공간적으로 필터링된 신호를 생성하기 위하여 이용되는 것들) 의 축은 제 2 쌍의 마이크로폰들 (예를 들어, 제 2 공간적으로 필터링된 신호를 생성하기 위하여 이용되는 것들) 의 축에 적어도 실질적으로 직교할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 출력 신호를 생성하기 위하여 제 1 공간적으로 필터링된 신호 및 제 2 공간적으로 필터링된 신호를 결합할 수도 있다. 출력 신호는 제 1 공간적으로 필터링된 신호 및 제 2 공간적으로 필터링된 신호의 방향과는 상이한 방향에 대응할 수도 있다.
무선 통신 디바이스는 또한 입력 채널을 레코딩할 수도 있다. 일부의 구현예들에서, 입력 채널은 어레이에서의 복수의 마이크로폰들의 각각에 대응할 수도 있다. 예를 들어, 입력 채널은 4 개의 마이크로폰들의 입력에 대응할 수도 있다. 복수의 멀티채널 필터들은 출력 채널을 획득하기 위하여 입력 채널들에 적용될 수도 있다. 일부의 경우들에 있어서, 멀티채널 필터들은 복수의 시야 방향들에 대응할 수도 있다. 예를 들어, 4 개의 멀티채널 필터들은 4 개의 시야 방향들에 대응할 수도 있다. 하나의 시야 방향에서 멀티채널 필터를 적용하는 것은 다른 시야 방향들에서 널 빔을 적용하는 것을 포함할 수도 있다. 일부의 구현예들에서, 제 1 쌍의 복수의 마이크로폰들의 축은 제 2 쌍의 복수의 마이크로폰들의 축에 직교하는 것으로부터 15 도보다 작을 수도 있다.
위에서 설명된 바와 같이, 복수의 멀티채널 필터들을 적용하는 것은 출력 채널을 생성할 수도 있다. 일부의 경우들에 있어서, 무선 통신 디바이스 (102) 는 바이노럴 신호들의 합에 기초하고 있는 바이노럴 레코딩을 생성하기 위하여 출력 채널을 프로세싱할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 바이노럴 임펄스 응답을 출력 채널에 적용할 수도 있다. 이것은 바이노럴 레코딩을 생성하기 위하여 이용될 수도 있는 바이노럴 신호로 귀착될 수도 있다.
도 46 은 3 차원 오디오를 인코딩하기 위한 방법 (4600) 을 예시하는 플로우차트이다. 방법 (4600) 은 무선 통신 디바이스 (102) 에 의해 수행될 수도 있다. 무선 통신 디바이스 (102) 는 복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출 (4602) 할 수도 있다. 본원에서 이용되는 바와 같이, 용어 "국소화가능한" 은 특별한 방향으로부터의 오디오 소스를 지칭한다. 예를 들어, 국소화가능한 오디오 소스는 전방 좌측 방향으로부터의 오디오 신호일 수도 있다. 무선 통신 디바이스 (102) 는 국소화가능한 오디오 소스들의 수를 결정할 수도 있다. 이것은 각각의 국소화가능한 오디오 소스의 도달 방향을 추정하는 것을 포함할 수도 있다. 일부의 경우들에 있어서, 무선 통신 디바이스 (102) 는 사용자 인터페이스 (312) 로부터의 표시를 검출할 수도 있다. 예를 들어, 사용자는 무선 통신 디바이스 (302) 의 사용자 인터페이스 (312) 로부터의 사용자 입력에 기초하여 하나 이상의 공간적 방향들을 선택할 수도 있다. 사용자 입력의 예들은 사용자의 손에 의한 제스추어 (예를 들어, 무선 통신 디바이스의 터치스크린 상에서의 무선 통신 디바이스의 이동) 를 포함한다.
다음으로, 무선 통신 디바이스 (102) 는 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩 (4604) 할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 상에 위치된 하나 이상의 마이크로폰들은 전방 좌측, 전방 우측, 후방 좌측 및/또는 후방 우측 방향으로부터 나오는 오디오 신호를 레코딩 (4604) 할 수도 있다.
무선 통신 디바이스 (102) 는 복수의 오디오 신호들로 인코딩 (4606) 할 수도 있다. 위에서 설명된 바와 같이, 무선 통신 디바이스 (102) 는 신호를 인코딩하기 위하여 임의의 수의 코덱들을 이용할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 전대역 코덱을 이용하여 전방 좌측 및 후방 좌측 오디오 신호들을 인코딩 (4606) 할 수도 있고, 광대역 코덱을 이용하여 전방 우측 및 후방 우측 오디오 신호들을 인코딩 (4606) 할 수도 있다. 일부의 경우들에 있어서, 무선 통신 디바이스 (102) 는 3 차원 오디오 인코딩 방식에 따라 멀티채널 신호를 인코딩할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 복수의 오디오 신호들을 인코딩 (4606) 하기 위하여 도 29 내지 도 32 와 관련하여 설명된 구성 방식들 중의 임의의 것을 이용할 수도 있다.
무선 통신 디바이스 (102) 는 또한 제 1 필터링된 신호를 획득하기 위하여 제 1 엔드-파이어 방향에서 빔을 적용할 수도 있다. 유사하게, 제 2 엔드-파이어 방향에서의 제 2 빔은 제 2 필터링된 신호를 생성할 수도 있다. 일부의 경우들에 있어서, 빔은 하위 임계치 및 상위 임계치 사이에 있는 주파수들에 적용될 수도 있다. 이 경우들에 있어서, 임계치들 (예를 들어, 하위 임계치 또는 상위 임계치) 중의 하나는 마이크로폰들 사이의 거리에 기초할 수도 있다.
무선 통신 디바이스는 제 1 필터링된 신호를 제 2 필터링된 신호의 지연된 버전과 결합할 수도 있다. 일부의 경우들에 있어서, 제 1 및 제 2 필터링된 신호들은 각각 2 개의 채널들을 가질 수도 있다. 일부의 경우들에 있어서, 필터링된 신호 (예를 들어, 제 1 필터링된 신호 및 제 2 필터링된 신호) 의 하나의 채널은 다른 채널들에 관하여 지연될 수도 있다. 유사하게, 결합된 신호 (예를 들어, 제 1 필터링된 신호 및 제 2 필터링된 신호의 결합) 는 서로에 관하여 지연될 수도 있는 2 개의 채널들을 가질 수도 있다.
무선 통신 디바이스 (102) 는 제 1 공간적으로 필터링된 신호를 생성하는 것을 포함할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 제 1 방향에서 빔을 갖는 필터를 제 1 쌍의 마이크로폰들에 의해 생성된 신호에 적용할 수도 있다. 유사한 방식으로, 무선 통신 디바이스 (102) 는 제 2 공간적으로 필터링된 신호를 생성할 수도 있다. 일부의 경우들에 있어서, 제 1 쌍의 마이크로폰들 (예를 들어, 제 1 공간적으로 필터링된 신호를 생성하기 위하여 이용되는 것들) 의 축은 제 2 쌍의 마이크로폰들 (예를 들어, 제 2 공간적으로 필터링된 신호를 생성하기 위하여 이용되는 것들) 의 축에 적어도 실질적으로 직교할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 출력 신호를 생성하기 위하여 제 1 공간적으로 필터링된 신호 및 제 2 공간적으로 필터링된 신호를 결합할 수도 있다. 출력 신호는 제 1 공간적으로 필터링된 신호 및 제 2 공간적으로 필터링된 신호의 방향과는 상이한 방향에 대응할 수도 있다.
무선 통신 디바이스는 또한 입력 채널을 레코딩할 수도 있다. 일부의 구현예들에서, 입력 채널은 어레이에서의 복수의 마이크로폰들의 각각에 대응할 수도 있다. 예를 들어, 입력 채널은 4 개의 마이크로폰들의 입력에 대응할 수도 있다. 복수의 멀티채널 필터들은 출력 채널을 획득하기 위하여 입력 채널들에 적용될 수도 있다. 일부의 경우들에 있어서, 멀티채널 필터들은 복수의 시야 방향들에 대응할 수도 있다. 예를 들어, 4 개의 멀티채널 필터들은 4 개의 시야 방향들에 대응할 수도 있다. 하나의 시야 방향에서 멀티채널 필터를 적용하는 것은 다른 시야 방향들에서 널 빔을 적용하는 것을 포함할 수도 있다. 일부의 구현예들에서, 제 1 쌍의 복수의 마이크로폰들의 축은 제 2 쌍의 복수의 마이크로폰들의 축에 직교하는 것으로부터 15 도보다 작을 수도 있다.
위에서 설명된 바와 같이, 복수의 멀티채널 필터들을 적용하는 것은 출력 채널을 생성할 수도 있다. 일부의 경우들에 있어서, 무선 통신 디바이스 (102) 는 바이노럴 신호들의 합에 기초하고 있는 바이노럴 레코딩을 생성하기 위하여 출력 채널을 프로세싱할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 바이노럴 임펄스 응답을 출력 채널에 적용할 수도 있다. 이것은 바이노럴 레코딩을 생성하기 위하여 이용될 수도 있는 바이노럴 신호로 귀착될 수도 있다.
도 47 은 코덱을 선택하기 위한 방법 (4700) 을 예시하는 플로우차트이다. 방법 (4700) 은 무선 통신 디바이스 (102) 에 의해 수행될 수도 있다. 무선 통신 디바이스 (102) 는 복수의 오디오 신호들의 에너지 프로파일을 결정 (4702) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 복수의 오디오 신호들의 각각에 대한 에너지 프로파일들을 디스플레이 (4704) 할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 전방 좌측, 전방 우측, 후방 좌측 및 후방 우측 오디오 신호의 에너지 프로파일들을 디스플레이 (4704) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 에너지 프로파일을 선택하는 입력을 검출 (4706) 할 수도 있다. 일부의 구현예들에서, 입력은 사용자 입력에 기초할 수도 있다. 예를 들어, 사용자는 그래픽 표현에 기초하여 압축되어야 하는 에너지 프로파일 (예를 들어, 지향성 사운드에 대응함) 을 선택할 수도 있다. 일부의 예들에서, 선택은 어느 지향성 오디오 신호가 더 양호한 사운드 품질을 가져야 하는지에 대한 표시를 반영할 수도 있고, 예를 들어, 선택은 사용자 음성이 나오는 방향을 반영할 수도 있다.
무선 통신 디바이스 (102) 는 입력과 연관된 코덱을 연관 (4708) 시킬 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 사용자에 의해 선택된 지향성 오디오 신호에 대한 더 양호한 오디오 품질을 생성하기 위하여 코덱을 연관 (4708) 시킬 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 오디오 신호 패킷을 생성하기 위하여 코덱에 기초하여 복수의 오디오 신호들을 압축 (4710) 할 수도 있다. 위에서 설명된 바와 같이, 패킷은 오버 디 에어로 송신될 수도 있다. 일부의 구현예들에서, 무선 통신 디바이스는 또한 채널 식별정보를 송신할 수도 있다.
도 48 은 비트 할당을 증가시키기 위한 방법 (4800) 을 예시하는 플로우차트이다. 방법 (4800) 은 무선 통신 디바이스 (102) 에 의해 수행될 수도 있다. 무선 통신 디바이스 (102) 는 복수의 오디오 신호들의 에너지 프로파일을 결정 (4802) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 복수의 오디오 신호들의 각각에 대한 에너지 프로파일들을 디스플레이 (4804) 할 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 전방 좌측, 전방 우측, 후방 좌측 및 후방 우측 오디오 신호의 에너지 프로파일들을 디스플레이 (4804) 할 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 에너지 프로파일을 선택하는 입력을 검출 (4806) 할 수도 있다. 일부의 구현예들에서, 입력은 사용자 입력에 기초할 수도 있다. 예를 들어, 사용자는 그래픽 표현에 기초하여, 압축을 위해 할당된 더 많은 비트들을 가져야 하는 에너지 프로파일 (예를 들어, 지향성 사운드에 대응함) 을 선택할 수도 있다. 일부의 예들에서, 선택은 어느 지향성 오디오 신호가 더 양호한 사운드 품질을 가져야 하는지에 대한 표시를 반영할 수도 있고, 예를 들어, 선택은 사용자 음성이 나오는 방향을 반영할 수도 있다.
무선 통신 디바이스 (102) 는 입력과 연관된 코덱을 연관 (4808) 시킬 수도 있다. 예를 들어, 무선 통신 디바이스 (102) 는 사용자에 의해 선택된 지향성 오디오 신호에 대한 더 양호한 오디오 품질을 생성하기 위하여 코덱을 연관 (4808) 시킬 수도 있다. 다음으로, 무선 통신 디바이스 (102) 는 입력에 기초하여 오디오 신호들을 압축하기 위하여 이용된 코덱에 대한 비트 할당을 증가 (4810) 시킬 수도 있다. 위에서 설명된 바와 같이, 패킷은 오버 디 에어로 송신될 수도 있다.
도 49 는 무선 통신 디바이스 (4902) 내에 포함될 수도 있는 어떤 컴포넌트들을 예시한다. 위에서 설명된 무선 통신 디바이스들 중의 하나 이상은 도 49 에 도시되어 있는 무선 통신 디바이스 (4902) 와 유사하게 구성될 수도 있다.
무선 통신 디바이스 (4902) 는 프로세서 (4958) 를 포함한다. 프로세서 (4958) 는 범용 단일-칩 또는 멀티-칩 마이크로프로세서 (예를 들어, ARM), 특수 목적 마이크로프로세서 (예를 들어, 디지털 신호 프로세서 (digital signal processor; DSP)), 마이크로제어기, 프로그래밍가능한 게이트 어레이, 등일 수도 있다. 프로세서 (4958) 는 중앙 프로세싱 유닛 (central processing unit; CPU) 라고 지칭될 수도 있다. 단지 단일의 프로세서 (4958) 가 도 49 의 무선 통신 디바이스 (4902) 에서 도시되어 있지만, 대안적인 구성에서는, 프로세서들 (예를 들어, ARM 및 DSP) 의 조합이 이용될 수 있다.
무선 통신 디바이스 (4958) 는 또한 프로세서 (4958) 와 전자 통신하는 메모리 (4956) 를 포함한다 (즉, 프로세서 (4958) 는 메모리 (4956) 로부터 정보를 판독할 수 있고 및/또는 정보를 메모리 (4956) 에 기록할 수 있다). 메모리 (4956) 는 전자 정보를 저장할 수 있는 임의의 전자 컴포넌트일 수도 있다. 메모리 (4956) 는 랜덤 액세스 메모리 (RAM), 판독-전용 메모리 (ROM), 자기 디스크 저장 매체들, 광학 저장 매체들, RAM 내의 플래쉬 메모리 디바이스들, 프로세서 (4958) 와 함께 포함된 온-보드 메모리, 프로그래밍가능한 판독-전용 메모리 (programmable read-only memory; PROM), 소거가능 프로그래밍가능한 판독-전용 메모리 (erasable programmable read-only memory; EPROM), 전기적 소거가능한 PROM (electrically erasable PROM; EEPROM), 레지스터들, 그 조합들을 포함하는 기타 등등일 수도 있다.
데이터 (4960) 및 명령들 (4962) 은 메모리 (4956) 에 저장될 수도 있다. 명령들 (4962) 은 하나 이상의 프로그램들, 루틴들, 서브-루틴들, 함수들, 프로시저 (procedure) 들, 코드, 등을 포함할 수도 있다. 명령들 (4962) 은 단일의 컴퓨터-판독가능한 스테이트먼트 (statement) 또는 다수의 컴퓨터-판독가능한 스테이트먼트들을 포함할 수도 있다. 명령들 (4962) 은 위에서 설명된 방법들 중의 하나 이상을 구현하기 위하여 프로세서 (4958) 에 의해 실행가능할 수도 있다. 명령들 (4962) 을 실행하는 것은 메모리 (4956) 에 저장되어 있는 데이터 (4960) 의 이용에 관여할 수도 있다. 도 49 는 (메모리 (4956) 내의 명령들 (4962) 및 데이터 (4960) 로부터 나올 수도 있는) 프로세서 (4958) 로 로딩되는 일부의 명령들 (4962a) 및 데이터 (4960a) 를 예시한다.
무선 통신 디바이스 (4902) 는 또한, 무선 통신 디바이스 (4902) 및 원격 로케이션 (예를 들어, 통신 디바이스, 기지국, 등) 사이에서 신호들의 송신 및 수신을 가능하게 하기 위하여 송신기 (4964) 및 수신기 (4966) 를 포함할 수도 있다. 송신기 (4964) 및 수신기 (4966) 는 트랜시버 (transceiver; 4968) 라고 집합적으로 지칭될 수도 있다. 안테나 (4970) 는 트랜시버 (4968) 에 전기적으로 커플링될 수도 있다. 무선 통신 디바이스 (4902) 는 또한, (도시되지 않은) 다수의 송신기들 (4964), 다수의 수신기들 (4966), 다수의 트랜시버들 (4968), 및/또는 다수의 안테나들 (4970) 을 포함할 수도 있다.
일부의 구성들에서, 무선 통신 디바이스 (4902) 는 음향 신호들을 캡처하기 위한 하나 이상의 마이크로폰들을 포함할 수도 있다. 하나의 구성에서, 마이크로폰은 음향 신호들 (예를 들어, 음성, 스피치) 전기 또는 전자 신호들로 변환하는 트랜스듀서 (transducer) 일 수도 있다. 추가적으로 또는 대안적으로, 무선 통신 디바이스 (4902) 는 하나 이상의 스피커들을 포함할 수도 있다. 하나의 구성에서, 스피커는 전기 또는 전자 신호들을 음향 신호들로 변환하는 트랜스듀서일 수도 있다.
무선 통신 디바이스 (4902) 의 다양한 컴포넌트들은, 전원 버스, 제어 신호 버스, 상태 신호 버스, 데이터 버스, 등을 포함할 수도 있는 하나 이상의 버스들에 의해 함께 커플링될 수도 있다. 간략함을 위하여, 다양한 버스들이 버스 시스템 (4972) 으로서 도 49 에 예시되어 있다.
본원에서 개시된 방법들 및 장치는 임의의 트랜시빙 (transceiving) 및/또는 오디오 센싱 애플리케이션, 특히, 이러한 애플리케이션들의 이동 또는 이와 다르게 휴대용 사례들에서 적용될 수도 있다. 예를 들어, 본원에서 개시된 구성들의 범위는 코드-분할 다중-접속 (code-division multiple-access; CDMA) 오버-디-에어 인터페이스를 채용하도록 구성된 무선 전화 통신 시스템에서 상주하는 통신 디바이스들을 포함한다. 그럼에도 불구하고, 본원에서 설명된 바와 같은 특징들을 갖는 방법 및 장치는 유선 및/또는 무선 (예를 들어, CDMA, TDMA, FDMA, 및/또는 TD-SCDMA) 송신 채널들을 통한 보이스 오버 IP (Voice over IP; VoIP) 를 채용하는 시스템들과 같은, 당해 분야의 당업자들에게 알려진 폭넓은 범위의 기술들을 채용하는 다양한 통신 시스템들 중의 임의의 것에 상주할 수도 있다는 것을 당해 분야의 당업자들은 이해할 것이다.
본원에서 개시된 통신 디바이스들은 패킷-교환 (예를 들어, VoIP 와 같은 프로토콜들에 따라 오디오 송신들을 전달하도록 배열된 유선 및/또는 무선 네트워크들) 및/또는 회선-교환되는 네트워크들에서 이용하기 위해 구비될 수도 있다는 것이 분명히 고려되고 이에 의하여 개시되어 있다. 또한, 본원에서 개시된 통신 디바이스들은 협대역 코딩 시스템들 (예를 들어, 약 4 또는 5 킬로헤르쯔의 오디오 주파수 범위를 인코딩하는 시스템들) 에서 이용하고 및/또는 전체-대역 광대역 코딩 시스템들 및 분할-대역 광대역 코딩 시스템들을 포함하는 광대역 코딩 시스템들 (예를 들어, 5 킬로헤르쯔보다 더 큰 오디오 주파수들을 인코딩하는 시스템들) 에서 이용하기 위해 구비될 수도 있다는 것이 분명히 고려되고 이에 의하여 개시되어 있다.
설명된 구성들의 상기한 제시내용은 당해 분야의 당업자가 본원에서 개시된 방법들 및 다른 구조들을 제조하거나 이용하는 것을 가능하게 하도록 제공된다. 본원에서 도시되고 설명된 플로우차트들, 블록도들, 및 다른 구조들은 예들일 뿐이며, 이 구조들의 다른 변형들은 또한 개시내용의 범위 내에 있다. 이 구성들에 대한 다양한 수정들이 가능하고, 본원에서 제시된 포괄적인 원리들은 다른 구성들에도 마찬가지로 적용될 수도 있다. 따라서, 본 개시내용은 위에서 도시된 구성들에 제한되도록 의도된 것이 아니라, 오히려, 원래의 개시내용의 일부를 형성하는 출원된 바와 같은 첨부된 청구항들을 포함하는, 본원에서의 임의의 방식으로 개시된 원리들 및 신규한 특징들과 일치하는 가장 폭넓은 범위를 따라야 한다.
당해 분야의 당업자들은 정보 및 신호들이 다양한 상이한 기술들 및 기법들 중의 임의의 것을 이용하여 표현될 수도 있다는 것을 이해할 것이다. 예를 들어, 상기 설명의 전반에 걸쳐 참조될 수도 있는 데이터, 명령들, 커맨드들, 정보, 신호들, 비트들 및 기호들은 전압들, 전류들, 전자기파들, 자기장들 또는 입자들, 광학 필드들 또는 입자들, 또는 그 임의의 조합에 의해 표현될 수도 있다.
본원에서 개시된 바와 같은 구성의 구현을 위한 중요한 설계 요건들은, 특히, 압축된 오디오 또는 시청각 정보 (예를 들어, 본원에서 식별된 예들 중의 하나와 같은 압축 포맷에 따라 인코딩된 파일 또는 스트림) 의 재생과 같은 연산-집약적 애플리케이션들, 또는 광대역 통신들 (예를 들어, 12, 16, 또는 44 kHz 와 같이, 8 킬로헤르쯔보다 더 높은 샘플링 레이트들에서의 음성 통신들) 을 위한 애플리케이션들에 대하여, 프로세싱 지연 및/또는 연산 복잡도 (전형적으로, 초당 백만 명령들 (millions of instructions per second) 또는 MIPS 로 측정됨) 를 최소화하는 것을 포함할 수도 있다.
멀티-마이크로폰 프로세싱 시스템의 목적은 총 잡음 감소에 있어서 10 내지 12 dB 를 달성하는 것, 희망하는 스피커의 이동 동안에 음성 레벨 및 컬러를 유지하는 것, 공격적인 잡음 제거 대신에 잡음이 배경으로 이동되었다는 인지 (perception) 를 획득하는 것, 스피치의 탈반향 (dereverberation), 및/또는 더 많은 공격적인 잡음 감소를 위한 포스트-프로세싱 (post-processing) 의 옵션을 가능하게 하는 것을 포함할 수도 있다.
본원에서 개시된 바와 같은 장치의 구현예의 다양한 엘리먼트들은 의도된 애플리케이션을 위해 적당한 것으로 여겨지는 소프트웨어 및/또는 펌웨어와 하드웨어의 임의의 조합으로 구체화될 수도 있다. 예를 들어, 이러한 엘리먼트들은 예를 들어, 동일한 칩 상에서 또는 칩셋 내의 2 개 이상의 칩들 사이에서 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 하나의 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍가능한 어레이이고, 이 엘리먼트들 중의 임의의 것은 하나 이상의 이러한 어레이들로서 구현될 수도 있다. 이 엘리먼트들의 임의의 2 개 이상, 또는 심지어 전부는 동일한 어레이 또는 어레이들 내에서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예를 들어, 2 개 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다.
본원에서 개시된 장치의 다양한 구현예들의 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, 필드-프로그래밍가능한 게이트 어레이 (field-programmable gate array; FPGA) 들, 애플리케이션-특정 표준 제품 (application-specific standard product; ASSP) 들, 및 애플리케이션-특정 집적 회로 (application-specific integrated circuit; ASIC) 들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그래밍가능한 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다. 본원에서 개시된 장치의 구현예의 다양한 엘리먼트들 중의 임의의 것은 또한, 하나 이상의 컴퓨터들 (예를 들어, "프로세서들" 이라고도 불리는, 명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신 (machine) 들) 로서 구체화될 수도 있고, 이 엘리먼트들의 임의의 2 개 이상, 또는 심지어 전부는 동일한 이러한 컴퓨터 또는 컴퓨터들 내에서 구현될 수도 있다.
본원에서 개시된 바와 같은 프로세싱하기 위한 프로세서 또는 다른 수단은 예를 들어, 동일한 칩 상에 또는 칩셋에서의 2 개 이상의 칩들 사이에서 상주하는 하나 이상의 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 하나의 예는 트랜지스터들 또는 로직 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍가능한 어레이이고, 이 엘리먼트들 중의 임의의 것은 하나 이상의 이러한 어레이들로서 구현될 수도 있다. 이러한 어레이 또는 어레이들은 하나 이상의 칩들 내에서 (예를 들어, 2 개 이상의 칩들을 포함하는 칩셋 내에서) 구현될 수도 있다. 이러한 어레이들의 예들은 마이크로프로세서들, 내장된 프로세서들, IP 코어들, DSP 들, FPGA 들, ASSP 들 및 ASIC 들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍가능한 어레이들을 포함한다. 본원에서 개시된 바와 같은 프로세싱하기 위한 프로세서 또는 다른 수단은 또한, 하나 이상의 컴퓨터들 (명령들의 하나 이상의 세트들 또는 시퀀스들을 실행하도록 프로그래밍된 하나 이상의 어레이들을 포함하는 머신들) 또는 다른 프로세서들로서 구체화될 수도 있다. 프로세서가 내장되어 있는 디바이스 또는 시스템 (예를 들어, 오디오 센싱 디바이스) 의 또 다른 동작에 관한 태스크 (task) 와 같이, 지향성 인코딩 절차에 직접적으로 관련되지 않은 태스크들을 수행하거나 명령들의 다른 세트들을 실행하기 위하여, 본원에서 설명된 바와 같은 프로세서가 이용되는 것이 가능하다. 또한, 본원에서 개시된 바와 같은 방법의 일부가 오디오 센싱 디바이스의 프로세서에 의해 수행되고, 방법의 또 다른 일부는 하나 이상의 다른 프로세서들의 제어 하에서 수행되는 것이 가능하다.
당업자들은 본원에서 개시된 구성들과 관련하여 설명된 다양한 에시적인 모듈들, 논리적 블록들, 회로들, 및 테스트들 및 다른 동작들이 전자 하드웨어, 컴퓨터 소프트웨어 또는 둘 모두의 조합들로서 구현될 수도 있다는 것을 인식할 것이다. 이러한 모듈들, 논리적 블록들, 회로들 및 동작들은 본원에서 개시된 바와 같은 구성을 생성하도록 설계된 범용 프로세서, 디지털 신호 프로세서 (DSP), ASIC 또는 ASSP, FPGA 또는 다른 프로그래밍가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 그 임의의 조합과 함께 구현되거나 수행될 수도 있다. 예를 들어, 이러한 구성은 적어도 부분적으로 하드-와이어드 (hard-wired) 회로로서, 애플리케이션-특정 집적 회로로 제조된 회로 구성으로서, 또는 비-휘발성 저장장치로 로딩된 펌웨어 프로그램, 또는 데이터 저장 매체로부터 또는 데이터 저장 매체로 머신-판독가능한 코드로서 로딩된 소프트웨어 프로그램으로서 구현될 수도 있고, 이러한 코드는 범용 프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들이다. 범용 프로세서는 마이크로프로세서일 수도 있지만, 대안적으로, 프로세서는 임의의 기존의 프로세서, 제어기, 마이크로제어기 또는 상태 머신일 수도 있다. 프로세서는 또한, 컴퓨팅 디바이스들의 조합, 예를 들어, DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 함께 하나 이상의 마이크로프로세서들, 또는 임의의 다른 이러한 구성의 조합으로서 구현될 수도 있다. 소프트웨어 모듈은 RAM (랜덤-액세스 메모리), ROM (판독-전용 메모리), 플래쉬 RAM 과 같은 비휘발성 RAM (nonvolatile RAM; NVRAM), 소거가능 프로그래밍가능한 ROM (EPROM), 전기적 소거가능 프로그래밍가능한 ROM (EEPROM), 레지스터들, 하드 디스크, 제거가능한 디스크, CD-ROM 또는 당해 분야에서 알려진 저장 매체의 임의의 다른 형태 내에 상주할 수도 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독할 수 있고 정보를 저장 매체에 기록할 수 있도록 프로세서에 커플링된다. 대안적으로, 저장 매체는 프로세서에 일체적일 수도 있다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수도 있다. ASIC 은 사용자 단말 내에 상주할 수도 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말 내에 이산 컴포넌트들로서 상주할 수도 있다.
본원에서 개시된 다양한 방법들은 프로세서와 같은 로직 엘리먼트들의 어레이에 의해 수행될 수도 있고, 본원에서 설명된 장치의 다양한 엘리먼트들은 이러한 어레이 상에서 실행하도록 설계된 모듈들로서 구현될 수도 있다는 것에 주목해야 한다. 본원에서 이용되는 바와 같이, 용어 "모듈" 또는 "서브-모듈" 은 컴퓨터 명령들 (예를 들어, 논리적 표현들) 을 소프트웨어, 하드웨어, 또는 펌웨어 형태로 포함하는 임의의 방법, 장치, 디바이스, 유닛 또는 컴퓨터-판독가능한 데이터 저장 매체를 지칭할 수 있다. 동일한 기능들을 수행하기 위하여, 다수의 모듈들 또는 시스템들이 하나의 모듈 또는 시스템 내로 조합될 수 있고, 하나의 모듈 또는 시스템이 다수의 모듈들 또는 시스템들 내로 분리될 수 있다는 것을 이해해야 한다. 소프트웨어 또는 다른 컴퓨터-실행가능한 명령들로 구현될 때, 프로세스의 엘리먼트들은 본질적으로, 예컨대, 루틴들, 프로그램들, 오브젝트들, 컴포넌트들, 데이터 구조들, 등으로 관련된 태스크들을 수행하기 위한 코드 세그먼트 (code segment) 들이다. 용어 "소프트웨어" 는 소스 코드, 어셈블리 언어 코드, 머신 코드, 2 진 코드, 펌웨어, 매크로코드, 마이크로코드, 로직 엘리먼트들의 어레이에 의해 실행가능한 명령들의 임의의 하나 이상의 세트들 또는 시퀀스들, 및 이러한 에들의 임의의 조합을 포함하도록 이해되어야 한다. 프로그램 또는 코드 세그먼트들은 프로세서 판독가능한 매체 내에 저장될 수 있거나, 송신 매체 또는 통신 링크를 통해 반송파 (carrier wave) 에서 구체화된 컴퓨터 데이터 신호에 의해 송신될 수 있다.
본원에서 개시된 방법들, 방식들, 및 기법들의 구현예들은 또한, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신에 의해 판독가능한 및/또는 실행가능한 명령들의 하나 이상의 세트들로서 (예를 들어, 본원에서 열거된 바와 같은 하나 이상의 컴퓨터-판독가능한 매체들에서) 유형적으로 (tangibly) 구체화될 수도 있다. 용어 "컴퓨터-판독가능한 매체" 는 휘발성, 비휘발성, 제거가능한 및 비-제거가능한 매체들을 포함하는, 정보를 저장하거나 전송할 수 있는 임의의 매체를 포함할 수도 있다. 컴퓨터-판독가능한 매체의 예들은 전자 회로, 반도체 메모리 디바이스, ROM, 플래쉬 메모리, 소거가능한 ROM (EROM), 플로피 디스켓 또는 다른 자기 저장장치, CD-ROM/DVD 또는 다른 광학 저장장치, 하드 디스크, 광섬유 매체, 무선 주파수 (RF) 링크, 또는 희망하는 정보를 저장하기 위하여 이용될 수 있으며 액세스될 수 있는 임의의 다른 매체를 포함한다. 컴퓨터 데이터 신호는 전자 네트워크 채널들, 광섬유들, 공기, 전자기, RF 링크들, 등과 같은 송신 매체를 통해 전파할 수 있는 임의의 신호를 포함할 수도 있다. 코드 세그먼트들은 인터넷 또는 인트라넷과 같은 컴퓨터 네트워크들을 통해 다운로드될 수도 있다. 어떤 경우에도, 본 개시내용의 범위는 이러한 구성들에 의해 제한되는 것으로 해석되지 않아야 한다.
본원에서 설명된 방법들의 태스크들의 각각은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이 둘의 조합으로 직접 구체화될 수도 있다. 본원에서 개시된 바와 같은 방법의 구현예의 전형적인 애플리케이션에서는, 로직 엘리먼트들 (예를 들어, 로직 게이트들) 의 어레이가 방법의 다양한 태스크들 중의 하나, 하나 초과, 또는 심지어 전부를 수행하도록 구성된다. 태스크들의 하나 이상 (아마도 전부) 은 또한, 로직 엘리먼트들 (예를 들어, 프로세서, 마이크로프로세서, 마이크로제어기, 또는 다른 유한 상태 머신) 의 어레이를 포함하는 머신 (예를 들어, 컴퓨터) 에 의해 판독가능한 및/또는 실행가능한, 컴퓨터 프로그램 제품 (예를 들어, 디스크들, 플래쉬 또는 다른 비휘발성 메모리 카드들, 반도체 메모리 칩들, 등과 같은 하나 이상의 데이터 저장 매체들) 에서 구체화된 코드 (예를 들어, 명령들의 하나 이상의 세트들) 로서 구현될 수도 있다. 본원에서 개시된 바와 같은 방법의 구현예의 태스크들은 또한 하나를 초과하는 이러한 어레이 또는 머신에 의해 수행될 수도 있다. 이러한 또는 다른 구현예들에서, 태스크들은 셀룰러 전화와 같은 무선 통신을 위한 디바이스 또는 이러한 통신 기능을 갖는 다른 디바이스 내에서 수행될 수도 있다. 이러한 디바이스는 (예를 들어, VoIP 와 같은 하나 이상의 프로토콜들을 이용하여) 회선-교환 및/또는 패킷-교환 네트워크들과 통신하도록 구성될 수도 있다. 예를 들어, 이러한 디바이스는 인코딩된 프레임들을 수신 및/또는 송신하도록 구성된 RF 회로부를 포함할 수도 있다.
본원에서 개시된 다양한 방법들은 핸드셋, 헤드셋, 또는 휴대용 정보 단말 (portable digital assistant; PDA) 과 같은 휴대용 통신 디바이스에 의해 수행될 수도 있고, 본원에서 설명된 다양한 장치는 이러한 디바이스 내에 포함될 수도 있다는 것이 분명히 개시되어 있다. 전형적인 실시간 (예를 들어, 온라인) 애플리케이션은 이러한 이동 디바이스를 이용하여 행해진 전화 통화이다.
하나 이상의 예시적인 구성들에서는, 본원에서 설명된 동작들이 하드웨어, 소프트웨어, 펌웨어 또는 그 임의의 조합으로 구현될 수도 있다. 소프트웨어로 구현될 경우, 이러한 동작들은 하나 이상의 명령들 또는 코드로서 컴퓨터-판독가능한 매체 상에 저장되거나 컴퓨터-판독가능한 매체를 통해 송신될 수도 있다. 용어 "컴퓨터-판독가능한 매체들" 은, 하나의 장소로부터 또 다른 장소까지의 컴퓨터 프로그램의 전송을 용이하게 하는 임의의 매체를 포함하는 컴퓨터 저장 매체들 및 통신 매체들의 둘 모두를 포함한다. 저장 매체들은 컴퓨터에 의해 액세스될 수 있는 임의의 이용가능한 매체들일 수도 있다. 제한이 아닌 예로서, 이러한 컴퓨터-판독가능한 매체들은, 반도체 메모리 (제한 없이, 동적 또는 정적 RAM, ROM, EEPROM, 및/또는 플래쉬 RAM 을 포함할 수도 있음), 또는 강유전성 (ferroelectric), 자기 저항 (magnetoresistive), 오보닉 (ovonic), 폴리머, 또는 상변화 (phase-change) 메모리; CD-ROM 또는 다른 광학 디스크 저장, 자기 디스크 저장 또는 다른 자기 저장 디바이스들, 또는 컴퓨터에 의해 액세스될 수 있는 유형의 구조들에서 명령들 또는 데이터 구조들의 형태로 희망하는 프로그램 코드를 저장하기 위하여 이용될 수 있는 임의의 다른 매체와 같은, 저장 엘리먼트들의 어레이를 포함할 수 있다. 또한, 임의의 접속은 컴퓨터-판독가능한 매체라고 적절하게 칭해진다. 예를 들어, 동축 케이블, 광섬유 케이블, 트위스트 페어 (twisted pair), 디지털 가입자 회선 (digital subscriber line; DSL), 또는 적외선, 라디오 (radio), 및/또는 마이크로파 (microwave) 와 같은 무선 기술을 이용하여 웹사이트, 서버, 또는 다른 원격 소스로부터 명령들이 송신되는 경우, 동축 케이블, 광섬유 케이블, 트위스트 페어, DSL, 또는 적외선, 라디오, 및 마이크로파와 같은 무선 기술은 매체의 정의 내에 포함된다. 본원에서 이용된 바와 같은 디스크 (disk) 및 디스크 (disc) 는 컴팩트 디스크 (compact disc; CD), 레이저 디스크 (laser disc), 광학 디스크 (optical disc), 디지털 다기능 디스크 (digital versatile disc; DVD), 플로피 디스크 (floppy disk) 및 블루레이 디스크 (Blu-ray Disc™ 를 포함하고, 여기서 디스크 (disk) 들은 통상 데이터를 자기적으로 재생하는 반면, 디스크 (disc) 들은 데이터를 레이저들로 광학적으로 재생한다. 상기의 조합들은 컴퓨터-판독가능한 매체들의 범위 내에 또한 포함되어야 한다.
본원에서 설명된 바와 같은 음향 신호 프로세싱 장치는 어떤 동작들을 제어하기 위하여 스피치 입력을 받아들이는 전자 디바이스 내로 편입될 수도 있거나, 그렇지 않을 경우, 통신 디바이스들과 같이, 배경 잡음들로부터의 희망하는 잡음들의 분리로부터 이익을 얻을 수도 있다. 다수의 애플리케이션들은 다수의 방향들로부터 발생하는 배경 사운드들로부터 명료한 희망하는 사운드를 증대 또는 분리시키는 것으로부터 이익을 얻을 수도 있다. 이러한 애플리케이션들은 음성 인식 및 검출, 스피치 증대 및 분리, 음성-작동식 제어, 등과 같은 기능들을 편입하는 전자 또는 컴퓨팅 디바이스들에서의 휴먼-머신 (human-machine) 인터페이스들을 포함할 수도 있다. 이러한 음향 신호 프로세싱 장치가 제한된 프로세싱 기능들을 제공하기만 하는 디바이스들에서 적당하도록 구현하는 것이 바람직할 수도 있다.
본원에서 설명된 모듈들, 엘리먼트들 및 디바이스들의 다양한 구현예들의 엘리먼트들은 예를 들어, 동일한 칩 상에서 또는 칩셋 내의 2 개 이상의 칩들 사이에서 상주하는 전자 및/또는 광학 디바이스들로서 제조될 수도 있다. 이러한 디바이스의 하나의 예는 트랜지스터들 또는 게이트들과 같은 로직 엘리먼트들의 고정된 또는 프로그래밍가능한 어레이이다. 본원에서 설명된 장치의 다양한 구현예들의 하나 이상의 엘리먼트들은 또한, 마이크로프로세서들, 내장된 프로세서들, IP 코어들, 디지털 신호 프로세서들, FPGA 들, ASSP 들, 및 ASIC 들과 같은 로직 엘리먼트들의 하나 이상의 고정된 또는 프로그래밍가능한 어레이들 상에서 실행하도록 배열된 명령들의 하나 이상의 세트들로서 전체적으로 또는 부분적으로 구현될 수도 있다.
장치가 내장되어 있는 디바이스 또는 시스템의 또 다른 동작에 관한 태스크와 같이, 장치의 동작에 직접적으로 관련되지 않은 태스크들을 수행하거나 명령들의 다른 세트들을 실행하기 위하여, 본원에서 설명된 바와 같은 장치의 구현예의 하나 이상의 엘리먼트들이 이용되는 것이 가능하다. 또한, 이러한 장치의 구현예의 하나 이상의 엘리먼트들이 공통인 구조 (예를 들어, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 코드의 일부분들을 실행하기 위하여 이용되는 프로세서, 상이한 시간들에서 상이한 엘리먼트들에 대응하는 태스크들을 수행하기 위하여 실행되는 명령들의 세트, 또는 상이한 시간들에서 상이한 엘리먼트들에 대한 동작들을 수행하는 전자 및/또는 광학 디바이스들의 배열) 를 가지는 것이 가능하다.
상기 설명에서는, 참조 번호들이 때때로 다양한 용어들과 관련하여 이용되었다. 용어가 참조 번호와 관련하여 이용될 경우, 이것은 도면들 중의 하나 이상에서 도시되어 있는 특정 엘리먼트를 지칭하도록 의도될 수도 있다. 용어가 참조 번호 없이 이용될 경우, 이것은 임의의 특별한 도면에 대한 제한 없이 용어를 일반적으로 지칭하도록 의도될 수도 있다.
본 개시내용에 따르면, 이동 디바이스 내의 회로는 다수의 타입들의 압축된 오디오 비트스트림들과 관련하여 신호 변환 커맨드들 및 동반된 데이터를 수신하도록 구비될 수도 있다. 동일한 회로, 상이한 회로, 또는 동일하거나 상이한 회로의 제 2 섹션은 다수의 타입들의 압축된 오디오 비트스트림들에 대한 신호 변환의 일부로서 변환을 수행하도록 구비될 수도 있다. 제 2 섹션은 제 1 섹션에 유익하게 커플링될 수도 있거나, 제 1 섹션과 동일한 회로에 내장될 수도 있다. 추가적으로, 동일한 회로, 상이한 회로, 또는 동일하거나 상이한 회로의 제 3 섹션은 다수의 타입들의 압축된 오디오 비트스트림들에 대한 신호 변환의 일부로서 상보적인 프로세싱을 수행하도록 구비될 수도 있다. 제 3 섹션은 제 1 및 제 2 섹션들에 유익하게 커플링될 수도 있거나, 제 1 및 제 2 섹션들과 동일한 회로에 내장될 수도 있다. 추가적으로, 동일한 회로, 상이한 회로, 또는 동일하거나 상이한 회로의 제 4 섹션은 위에서 설명된 기능성을 제공하는 회로 (들) 의 구성 또는 회로 (들) 의 섹션 (들) 을 제어하도록 구비될 수도 있다.
용어 "결정" 은 폭넓은 다양한 액션들을 망라하고, 그러므로, "결정" 은 계산하는 것, 컴퓨팅하는 것, 프로세싱하는 것, 유도하는 것, 조사하는 것, 룩업 (look up) 하는 것 (예를 들어, 테이블, 데이터베이스 또는 또 다른 데이터 구조에서 룩업하는 것), 확인하는 것 등을 포함할 수 있다. 또한, "결정" 은 수신하는 것 (예를 들어, 정보를 수신하는 것), 액세스하는 것 (예를 들어, 메모리에서 데이터를 액세스하는 것), 등을 포함할 수 있다. 또한, "결정" 은 해결하는 것, 선택하는 것, 선정하는 것, 설정하는 것 등을 포함할 수 있다.
Claims (50)
- 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법으로서,
복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하는 단계;
상기 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩하는 단계; 및
상기 복수의 오디오 신호들을 인코딩하는 단계를 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 1 항에 있어서,
상기 국소화가능한 오디오 소스의 상기 공간적 방향의 상기 표시는 수신된 입력에 기초하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 1 항에 있어서,
국소화가능한 오디오 소스들의 수를 결정하는 단계; 및
각각의 국소화가능한 오디오 소스의 도달 방향을 추정하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 1 항에 있어서,
3 차원 오디오 인코딩 방식에 따라 멀티채널 신호를 인코딩하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 1 항에 있어서,
제 1 필터링된 신호를 획득하기 위하여 제 1 엔드-파이어 방향에서 빔을 적용하는 단계;
제 2 필터링된 신호를 획득하기 위하여, 제 2 엔드-파이어 방향에서 빔을 적용하는 단계; 및
상기 제 1 필터링된 신호를 상기 제 2 필터링된 신호의 지연된 버전과 결합하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 5 항에 있어서,
상기 제 1 및 제 2 필터링된 신호들의 각각은 적어도 2 개의 채널들을 가지고, 상기 필터링된 신호들 중의 하나는 다른 필터링된 신호에 관하여 지연되는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 6 항에 있어서,
상기 제 1 필터링된 신호의 제 2 채널에 관하여 상기 제 1 필터링된 신호의 제 1 채널을 지연시키는 단계; 및
상기 제 2 필터링된 신호의 제 2 채널에 관하여 상기 제 2 필터링된 신호의 제 1 채널을 지연시키는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 6 항에 있어서,
결합된 신호의 제 2 채널에 관하여 상기 결합된 신호의 제 1 채널을 지연시키는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 1 항에 있어서,
제 1 공간적으로 필터링된 신호를 획득하기 위하여, 제 1 방향에서 빔을 갖는 필터를 제 1 쌍의 마이크로폰들에 의해 생성된 신호에 적용하는 단계;
제 2 공간적으로 필터링된 신호를 획득하기 위하여, 제 2 방향에서 빔을 갖는 필터를 제 2 쌍의 마이크로폰들에 의해 생성된 신호에 적용하는 단계; 및
출력 신호를 획득하기 위하여, 상기 제 1 및 제 2 공간적으로 필터링된 신호들을 결합하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 1 항에 있어서,
어레이에서의 복수의 마이크로폰들의 각각에 대하여, 대응하는 입력 채널을 레코딩하는 단계; 및
복수의 시야 방향들의 각각에 대하여, 대응하는 출력 채널을 획득하기 위하여, 대응하는 멀티채널 필터를 복수의 레코딩된 입력 채널들에 적용하는 단계를 더 포함하고,
상기 멀티채널 필터들의 각각은 대응하는 시야 방향에서의 빔 및 다른 시야 방향들에서의 널 빔 (null beam) 을 적용하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 10 항에 있어서,
바이노럴 레코딩 (binaural recording) 을 생성하기 위하여 상기 복수의 출력 채널들을 프로세싱하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 제 5 항에 있어서,
엔드-파이어 방향에서 상기 빔을 적용하는 단계는 상기 빔을 하위 임계치 및 상위 임계치 사이의 주파수들에 적용하는 단계를 포함하고, 상기 하위 및 상위 임계치들 중의 적어도 하나는 마이크로폰들 사이의 거리에 기초하는, 무선 통신 디바이스에 의해 3 차원 오디오를 인코딩하기 위한 방법. - 무선 통신 디바이스에 의해 코덱을 선택하기 위한 방법으로서,
복수의 오디오 신호들의 에너지 프로파일을 결정하는 단계;
상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하는 단계;
에너지 프로파일을 선택하는 입력을 검출하는 단계;
코덱을 상기 입력과 연관시키는 단계; 및
패킷을 생성하기 위하여 상기 코덱에 기초하여 상기 복수의 오디오 신호들을 압축하는 단계를 포함하는, 무선 통신 디바이스에 의해 코덱을 선택하기 위한 방법. - 제 13 항에 있어서,
상기 패킷을 오버 디 에어 (over the air) 로 송신하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 코덱을 선택하기 위한 방법. - 제 13 항에 있어서,
채널 식별정보 (identification) 를 송신하는 단계를 더 포함하는, 무선 통신 디바이스에 의해 코덱을 선택하기 위한 방법. - 무선 통신 디바이스에 의한 비트 할당을 증가시키기 위한 방법으로서,
복수의 오디오 신호들의 에너지 프로파일을 결정하는 단계;
상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하는 단계;
에너지 프로파일을 선택하는 입력을 검출하는 단계;
코덱을 상기 입력과 연관시키는 단계; 및
상기 입력에 기초하여 오디오 신호들을 압축하기 위하여 이용되는 상기 코덱에 대한 비트 할당을 증가시키는 단계를 포함하는, 무선 통신 디바이스에 의한 비트 할당을 증가시키기 위한 방법. - 제 16 항에 있어서,
상기 오디오 신호들의 압축은 4 개의 패킷들이 오버 디 에어로 송신되는 것으로 귀착되는, 무선 통신 디바이스에 의한 비트 할당을 증가시키기 위한 방법. - 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스로서,
복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하는 공간적 방향 회로부;
상기 공간적 방향 회로부에 커플링된 레코딩 회로부로서, 상기 레코딩 회로부는 상기 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩하는, 상기 레코딩 회로부; 및
상기 레코딩 회로부에 커플링된 인코더로서, 상기 인코더는 상기 복수의 오디오 신호들을 인코딩하는, 상기 인코더를 포함하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 18 항에 있어서,
상기 국소화가능한 오디오 소스의 상기 공간적 방향의 상기 표시는 수신된 입력에 기초하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 18 항에 있어서,
국소화가능한 오디오 소스들의 수를 결정하는 오디오 소스 결정 회로부; 및
상기 오디오 소스 결정 회로부에 커플링된 추정 회로부로서, 상기 추정 회로부는 각각의 국소화가능한 오디오 소스의 도달 방향을 추정하는, 상기 추정 회로부를 더 포함하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 18 항에 있어서,
추정 회로부에 커플링된 인코딩 회로부를 더 포함하고, 상기 인코딩 회로부는 3 차원 오디오 인코딩 방식에 따라 멀티채널 신호를 인코딩하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 18 항에 있어서,
분해 회로부에 커플링된 제 1 빔 적용 회로부로서, 상기 제 1 빔 적용 회로부는 제 1 필터링된 신호를 획득하기 위하여 제 1 엔드-파이어 방향에서 빔을 적용하는, 상기 제 1 빔 적용 회로부;
상기 제 1 빔 적용 회로부에 커플링된 제 2 빔 적용 회로부로서, 상기 제 2 빔 적용 회로부는 제 2 필터링된 신호를 획득하기 위하여 제 2 엔드-파이어 방향에서 빔을 적용하는, 상기 제 2 빔 적용 회로부; 및
상기 제 2 빔 적용 회로부 및 상기 제 1 빔 적용 회로부에 커플링된 결합 회로부로서, 상기 결합 회로부는 상기 제 1 필터링된 신호를 상기 제 2 필터링된 신호의 지연된 버전과 결합하는, 상기 결합 회로부를 더 포함하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 22 항에 있어서,
상기 제 1 및 제 2 필터링된 신호들의 각각은 적어도 2 개의 채널들을 가지고, 상기 필터링된 신호들 중의 하나는 다른 필터링된 신호에 관하여 지연되는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 23 항에 있어서,
상기 분해 회로부에 커플링된 지연 회로부를 더 포함하고, 상기 지연 회로부는 상기 제 1 필터링된 신호의 제 2 채널에 관하여 상기 제 1 필터링된 신호의 제 1 채널을 지연시키고, 상기 제 2 필터링된 신호의 제 2 채널에 관하여 상기 제 2 필터링된 신호의 제 1 채널을 지연시키는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 24 항에 있어서,
상기 지연 회로부는 결합된 신호의 제 2 채널에 관하여 상기 결합된 신호의 제 1 채널을 지연시키는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 18 항에 있어서,
분해 회로부에 커플링된 필터 회로부로서, 상기 필터 회로부는 제 1 공간적으로 필터링된 신호를 획득하기 위하여 제 1 방향에서 빔을 갖는 필터를 제 1 쌍의 마이크로폰들에 의해 생성된 신호에 적용하고, 제 2 공간적으로 필터링된 신호를 획득하기 위하여 제 2 방향에서 빔을 갖는 필터를 제 2 쌍의 마이크로폰들에 의해 생성된 신호에 적용하는, 상기 필터 회로부; 및
상기 필터 회로부에 커플링된 결합 회로부를 더 포함하고,
상기 결합 회로부는 출력 신호를 획득하기 위하여 상기 제 1 및 제 2 공간적으로 필터링된 신호들을 결합하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 18 항에 있어서,
분해 회로부에 커플링된 레코딩 회로부로서, 상기 레코딩 회로부는 어레이에서의 복수의 마이크로폰들의 각각에 대하여, 대응하는 입력 채널을 레코딩하는, 상기 레코딩 회로부; 및
상기 레코딩 회로부에 커플링된 멀티채널 필터 회로부로서, 상기 멀티채널 필터 회로부는 복수의 시야 방향들 각각에 대하여, 대응하는 출력 채널을 획득하기 위하여, 대응하는 멀티채널 필터를 복수의 레코딩된 입력 채널들에 적용하는, 상기 멀티채널 필터 회로부를 더 포함하고,
상기 멀티채널 필터들의 각각은 대응하는 시야 방향에서의 빔 및 다른 시야 방향들에서의 널 빔을 적용하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 27 항에 있어서,
상기 멀티채널 필터 회로부에 커플링된 바이노럴 레코딩 회로부를 더 포함하고, 상기 바이노럴 레코딩 회로부는 바이노럴 레코딩을 생성하기 위하여 상기 복수의 출력 채널들을 프로세싱하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 제 22 항에 있어서,
엔드-파이어 방향에서 상기 빔을 적용하는 것은 상기 빔을 하위 임계치 및 상위 임계치 사이의 주파수들에 적용하는 것을 포함하고, 상기 하위 및 상위 임계치들 중의 적어도 하나는 마이크로폰들 사이의 거리에 기초하는, 3 차원 오디오를 인코딩하기 위한 무선 통신 디바이스. - 코덱을 선택하기 위한 무선 통신 디바이스로서,
복수의 오디오 신호들의 에너지 프로파일을 결정하는 에너지 프로파일 회로부;
상기 에너지 프로파일 회로부에 커플링된 디스플레이로서, 상기 디스플레이는 상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하는, 상기 디스플레이;
상기 디스플레이에 커플링된 입력 검출 회로부로서, 상기 입력 검출 회로부는 에너지 프로파일을 선택하는 입력을 검출하는, 상기 입력 검출 회로부;
상기 입력 검출 회로부에 커플링된 연관 회로부로서, 상기 연관 회로부는 코덱을 상기 입력과 연관시키는, 상기 연관 회로부; 및
상기 연관 회로부에 커플링된 압축 회로부로서, 상기 압축 회로부는 패킷을 생성하기 위하여 상기 코덱에 기초하여 상기 복수의 오디오 신호들을 압축하는, 상기 압축 회로부를 포함하는, 코덱을 선택하기 위한 무선 통신 디바이스. - 제 30 항에 있어서,
상기 압축 회로부에 커플링된 송신기를 더 포함하고, 상기 송신기는 상기 패킷을 오버 디 에어로 송신하는, 코덱을 선택하기 위한 무선 통신 디바이스. - 제 30 항에 있어서,
상기 송신기는 채널 식별정보를 송신하는, 코덱을 선택하기 위한 무선 통신 디바이스. - 비트 할당을 증가시키기 위한 무선 통신 디바이스로서,
복수의 오디오 신호들의 에너지 프로파일을 결정하는 에너지 프로파일 회로부;
상기 에너지 프로파일 회로부에 커플링된 디스플레이로서, 상기 디스플레이는 상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하는, 상기 디스플레이;
상기 디스플레이에 커플링된 입력 검출 회로부로서, 상기 입력 검출 회로부는 에너지 프로파일을 선택하는 입력을 검출하는, 상기 입력 검출 회로부;
상기 입력 검출 회로부에 커플링된 연관 회로부로서, 상기 연관 회로부는 코덱을 상기 입력과 연관시키는, 상기 연관 회로부; 및
상기 연관 회로부에 커플링된 비트 할당 회로부로서, 상기 비트 할당 회로부는 상기 입력에 기초하여 오디오 신호들을 압축하기 위하여 이용되는 상기 코덱에 대한 비트 할당을 증가시키는, 상기 비트 할당 회로부를 포함하는, 비트 할당을 증가시키기 위한 무선 통신 디바이스. - 제 33 항에 있어서,
상기 오디오 신호들의 압축은 4 개의 패킷들이 오버 디 에어로 송신되는 것으로 귀착되는, 비트 할당을 증가시키기 위한 무선 통신 디바이스. - 명령들을 갖는 비-일시적인 유형의 컴퓨터-판독가능한 매체를 포함하는, 3 차원 오디오를 인코딩하기 위한 컴퓨터-프로그램 제품으로서,
상기 명령들은,
무선 통신 디바이스로 하여금 복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 상기 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩하게 하기 위한 코드; 및
상기 무선 통신 디바이스로 하여금 상기 복수의 오디오 신호들을 인코딩하게 하기 위한 코드를 포함하는, 3 차원 오디오를 인코딩하기 위한 컴퓨터-프로그램 제품. - 제 35 항에 있어서,
상기 국소화가능한 오디오 소스의 상기 공간적 방향의 상기 표시는 수신된 입력에 기초하는, 3 차원 오디오를 인코딩하기 위한 컴퓨터-프로그램 제품. - 제 35 항에 있어서,
상기 명령들은, 상기 무선 통신 디바이스로 하여금 3 차원 오디오 인코딩 방식에 따라 멀티채널 신호를 인코딩하게 하기 위한 코드를 더 포함하는, 3 차원 오디오를 인코딩하기 위한 컴퓨터-프로그램 제품. - 명령들을 갖는 비-일시적인 유형의 컴퓨터-판독가능한 매체를 포함하는, 코덱을 선택하기 위한 컴퓨터-프로그램 제품으로서,
상기 명령들은,
무선 통신 디바이스로 하여금 복수의 오디오 신호들의 에너지 프로파일을 결정하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 에너지 프로파일을 선택하는 입력을 검출하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 코덱을 상기 입력과 연관시키게 하기 위한 코드; 및
상기 무선 통신 디바이스로 하여금 패킷을 생성하기 위하여 상기 코덱에 기초하여 상기 복수의 오디오 신호들을 압축하게 하기 위한 코드를 포함하는, 코덱을 선택하기 위한 컴퓨터-프로그램 제품. - 제 38 항에 있어서,
상기 명령들은, 상기 무선 통신 디바이스로 하여금 상기 패킷을 오버 디 에어로 송신하게 하기 위한 코드를 더 포함하는, 코덱을 선택하기 위한 컴퓨터-프로그램 제품. - 제 38 항에 있어서,
상기 명령들은, 상기 무선 통신 디바이스로 하여금 채널 식별정보를 송신하게 하기 위한 코드를 더 포함하는, 코덱을 선택하기 위한 컴퓨터-프로그램 제품. - 명령들을 갖는 비-일시적인 유형의 컴퓨터-판독가능한 매체를 포함하는, 비트를 증가시키기 위한 컴퓨터-프로그램 제품으로서,
상기 명령들은,
무선 통신 디바이스로 하여금 복수의 오디오 신호들의 에너지 프로파일을 결정하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 에너지 프로파일을 선택하는 입력을 검출하게 하기 위한 코드;
상기 무선 통신 디바이스로 하여금 코덱을 상기 입력과 연관시키게 하기 위한 코드; 및
상기 무선 통신 디바이스로 하여금 상기 입력에 기초하여 오디오 신호들을 압축하기 위해 이용된 상기 코덱에 대한 비트 할당을 증가시키게 하기 위한 코드를 포함하는, 컴퓨터-프로그램 제품. - 제 41 항에 있어서,
상기 오디오 신호들의 압축은 4 개의 패킷들이 오버 디 에어로 송신되는 것으로 귀착되는, 컴퓨터-프로그램 제품. - 3 차원 오디오를 인코딩하기 위한 장치로서,
복수의 국소화가능한 오디오 소스들의 공간적 방향의 표시를 검출하기 위한 수단;
상기 복수의 국소화가능한 오디오 소스들과 연관된 복수의 오디오 신호들을 레코딩하기 위한 수단; 및
상기 복수의 오디오 신호들을 인코딩하기 위한 수단을 포함하는, 3 차원 오디오를 인코딩하기 위한 장치. - 제 43 항에 있어서,
상기 국소화가능한 오디오 소스의 상기 공간적 방향의 상기 표시는 수신된 입력에 기초하는, 3 차원 오디오를 인코딩하기 위한 장치. - 제 43 항에 있어서,
3 차원 오디오 인코딩 방식에 따라 멀티채널 신호를 인코딩하기 위한 수단을 더 포함하는, 3 차원 오디오를 인코딩하기 위한 장치. - 무선 통신 디바이스에 의해 코덱을 선택하기 위한 장치로서,
복수의 오디오 신호들의 에너지 프로파일을 결정하기 위한 수단;
상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하기 위한 수단;
에너지 프로파일을 선택하는 입력을 검출하기 위한 수단;
코덱을 상기 입력과 연관시키기 위한 수단; 및
패킷을 생성하기 위하여 상기 코덱에 기초하여 상기 복수의 오디오 신호들을 압축하기 위한 수단을 포함하는, 무선 통신 디바이스에 의해 코덱을 선택하기 위한 장치. - 제 46 항에 있어서,
상기 패킷을 오버 디 에어로 송신하기 위한 수단을 더 포함하는, 무선 통신 디바이스에 의해 코덱을 선택하기 위한 장치. - 제 13 항에 있어서,
채널 식별정보를 송신하기 위한 수단을 더 포함하는, 장치. - 비트 할당을 증가시키기 위한 장치로서,
복수의 오디오 신호들의 에너지 프로파일을 결정하기 위한 수단;
상기 복수의 오디오 신호들 각각의 에너지 프로파일들을 디스플레이하기 위한 수단;
에너지 프로파일을 선택하는 입력을 검출하기 위한 수단;
코덱을 상기 입력과 연관시키기 위한 수단; 및
상기 입력에 기초하여 오디오 신호들을 압축하기 위하여 이용되는 상기 코덱에 대한 비트 할당을 증가시키기 위한 수단을 포함하는, 비트 할당을 증가시키기 위한 장치. - 제 49 항에 있어서,
상기 오디오 신호들의 압축은 4 개의 패킷들이 오버 디 에어로 송신되는 것으로 귀착되는, 비트 할당을 증가시키기 위한 장치.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261651185P | 2012-05-24 | 2012-05-24 | |
US61/651,185 | 2012-05-24 | ||
US13/664,701 US9161149B2 (en) | 2012-05-24 | 2012-10-31 | Three-dimensional sound compression and over-the-air transmission during a call |
US13/664,701 | 2012-10-31 | ||
PCT/US2013/040137 WO2013176890A2 (en) | 2012-05-24 | 2013-05-08 | Three-dimensional sound compression and over-the-air-transmission during a call |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150021052A true KR20150021052A (ko) | 2015-02-27 |
KR101705960B1 KR101705960B1 (ko) | 2017-02-10 |
Family
ID=49621612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020147035519A KR101705960B1 (ko) | 2012-05-24 | 2013-05-08 | 3 차원 사운드 압축 및 호출 동안의 오버-디-에어 송신 |
Country Status (6)
Country | Link |
---|---|
US (3) | US20130315402A1 (ko) |
EP (1) | EP2856464B1 (ko) |
JP (1) | JP6336968B2 (ko) |
KR (1) | KR101705960B1 (ko) |
CN (1) | CN104321812B (ko) |
WO (2) | WO2013176890A2 (ko) |
Families Citing this family (58)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11665482B2 (en) | 2011-12-23 | 2023-05-30 | Shenzhen Shokz Co., Ltd. | Bone conduction speaker and compound vibration device thereof |
WO2020051786A1 (en) * | 2018-09-12 | 2020-03-19 | Shenzhen Voxtech Co., Ltd. | Signal processing device having multiple acoustic-electric transducers |
US20130315402A1 (en) | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
US9264524B2 (en) | 2012-08-03 | 2016-02-16 | The Penn State Research Foundation | Microphone array transducer for acoustic musical instrument |
US8884150B2 (en) * | 2012-08-03 | 2014-11-11 | The Penn State Research Foundation | Microphone array transducer for acoustical musical instrument |
US9460729B2 (en) * | 2012-09-21 | 2016-10-04 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
US10194239B2 (en) * | 2012-11-06 | 2019-01-29 | Nokia Technologies Oy | Multi-resolution audio signals |
KR20140070766A (ko) * | 2012-11-27 | 2014-06-11 | 삼성전자주식회사 | 보청 장치의 무선 통신 방법 및 시스템 |
WO2014087195A1 (en) | 2012-12-05 | 2014-06-12 | Nokia Corporation | Orientation Based Microphone Selection Apparatus |
US9521486B1 (en) * | 2013-02-04 | 2016-12-13 | Amazon Technologies, Inc. | Frequency based beamforming |
US10750132B2 (en) * | 2013-03-14 | 2020-08-18 | Pelco, Inc. | System and method for audio source localization using multiple audio sensors |
CN105284129A (zh) * | 2013-04-10 | 2016-01-27 | 诺基亚技术有限公司 | 音频记录和回放装置 |
EP2992687B1 (en) * | 2013-04-29 | 2018-06-06 | University Of Surrey | Microphone array for acoustic source separation |
CN103699260B (zh) * | 2013-12-13 | 2017-03-08 | 华为技术有限公司 | 一种启动终端功能模块的方法及终端设备 |
GB2521649B (en) * | 2013-12-27 | 2018-12-12 | Nokia Technologies Oy | Method, apparatus, computer program code and storage medium for processing audio signals |
KR102201027B1 (ko) | 2014-03-24 | 2021-01-11 | 돌비 인터네셔널 에이비 | 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스 |
KR102216048B1 (ko) * | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
WO2015181727A2 (en) * | 2014-05-26 | 2015-12-03 | Vladimir Sherman | Methods circuits devices systems and associated computer executable code for acquiring acoustic signals |
EP2960903A1 (en) | 2014-06-27 | 2015-12-30 | Thomson Licensing | Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values |
US10073607B2 (en) | 2014-07-03 | 2018-09-11 | Qualcomm Incorporated | Single-channel or multi-channel audio control interface |
CN105451151B (zh) * | 2014-08-29 | 2018-09-21 | 华为技术有限公司 | 一种处理声音信号的方法及装置 |
US9875745B2 (en) * | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
KR102008745B1 (ko) * | 2014-12-18 | 2019-08-09 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 이동 디바이스들을 위한 서라운드 사운드 레코딩 |
CN104637494A (zh) * | 2015-02-02 | 2015-05-20 | 哈尔滨工程大学 | 基于盲源分离的双话筒移动设备语音信号增强方法 |
US9712936B2 (en) * | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
USD768596S1 (en) * | 2015-04-20 | 2016-10-11 | Pietro V. Covello | Media player |
US10187738B2 (en) * | 2015-04-29 | 2019-01-22 | International Business Machines Corporation | System and method for cognitive filtering of audio in noisy environments |
US10327067B2 (en) * | 2015-05-08 | 2019-06-18 | Samsung Electronics Co., Ltd. | Three-dimensional sound reproduction method and device |
GB2540175A (en) | 2015-07-08 | 2017-01-11 | Nokia Technologies Oy | Spatial audio processing apparatus |
US20170018282A1 (en) * | 2015-07-16 | 2017-01-19 | Chunghwa Picture Tubes, Ltd. | Audio processing system and audio processing method thereof |
US9788109B2 (en) | 2015-09-09 | 2017-10-10 | Microsoft Technology Licensing, Llc | Microphone placement for sound source direction estimation |
WO2017143067A1 (en) * | 2016-02-19 | 2017-08-24 | Dolby Laboratories Licensing Corporation | Sound capture for mobile devices |
US11722821B2 (en) | 2016-02-19 | 2023-08-08 | Dolby Laboratories Licensing Corporation | Sound capture for mobile devices |
GB201607455D0 (en) * | 2016-04-29 | 2016-06-15 | Nokia Technologies Oy | An apparatus, electronic device, system, method and computer program for capturing audio signals |
US9858944B1 (en) * | 2016-07-08 | 2018-01-02 | Apple Inc. | Apparatus and method for linear and nonlinear acoustic echo control using additional microphones collocated with a loudspeaker |
KR102277438B1 (ko) | 2016-10-21 | 2021-07-14 | 삼성전자주식회사 | 단말 장치들 간의 멀티미디어 통신에 있어서, 오디오 신호를 송신하고 수신된 오디오 신호를 출력하는 방법 및 이를 수행하는 단말 장치 |
US10362393B2 (en) | 2017-02-08 | 2019-07-23 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10366700B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Device for acquiring and processing audible input |
US10366702B2 (en) | 2017-02-08 | 2019-07-30 | Logitech Europe, S.A. | Direction detection device for acquiring and processing audible input |
US10229667B2 (en) | 2017-02-08 | 2019-03-12 | Logitech Europe S.A. | Multi-directional beamforming device for acquiring and processing audible input |
US9820073B1 (en) | 2017-05-10 | 2017-11-14 | Tls Corp. | Extracting a common signal from multiple audio signals |
US10129648B1 (en) | 2017-05-11 | 2018-11-13 | Microsoft Technology Licensing, Llc | Hinged computing device for binaural recording |
US10789949B2 (en) * | 2017-06-20 | 2020-09-29 | Bose Corporation | Audio device with wakeup word detection |
US10665234B2 (en) * | 2017-10-18 | 2020-05-26 | Motorola Mobility Llc | Detecting audio trigger phrases for a voice recognition session |
TWI690921B (zh) * | 2018-08-24 | 2020-04-11 | 緯創資通股份有限公司 | 收音處理裝置及其收音處理方法 |
WO2020051836A1 (en) * | 2018-09-13 | 2020-03-19 | Alibaba Group Holding Limited | Methods and devices for processing audio input using unidirectional audio input devices |
IL307415B1 (en) | 2018-10-08 | 2024-07-01 | Dolby Laboratories Licensing Corp | Converting audio signals captured in different formats to a reduced number of formats for simplifying encoding and decoding operations |
US11049509B2 (en) * | 2019-03-06 | 2021-06-29 | Plantronics, Inc. | Voice signal enhancement for head-worn audio devices |
CN111986695B (zh) * | 2019-05-24 | 2023-07-25 | 中国科学院声学研究所 | 一种无重叠子带划分快速独立向量分析语音盲分离方法及系统 |
US11380312B1 (en) * | 2019-06-20 | 2022-07-05 | Amazon Technologies, Inc. | Residual echo suppression for keyword detection |
US11638111B2 (en) * | 2019-11-01 | 2023-04-25 | Meta Platforms Technologies, Llc | Systems and methods for classifying beamformed signals for binaural audio playback |
TWI740339B (zh) * | 2019-12-31 | 2021-09-21 | 宏碁股份有限公司 | 自動調整特定聲源的方法及應用其之電子裝置 |
US11277689B2 (en) | 2020-02-24 | 2022-03-15 | Logitech Europe S.A. | Apparatus and method for optimizing sound quality of a generated audible signal |
CN111246285A (zh) * | 2020-03-24 | 2020-06-05 | 北京奇艺世纪科技有限公司 | 一种解说视频中声音的分离方法、音量调节方法及装置 |
US11200908B2 (en) * | 2020-03-27 | 2021-12-14 | Fortemedia, Inc. | Method and device for improving voice quality |
CN112259110B (zh) * | 2020-11-17 | 2022-07-01 | 北京声智科技有限公司 | 音频编码方法及装置、音频解码方法及装置 |
CN113329138A (zh) * | 2021-06-03 | 2021-08-31 | 维沃移动通信有限公司 | 视频拍摄方法、视频播放方法和电子设备 |
WO2024082181A1 (zh) * | 2022-10-19 | 2024-04-25 | 北京小米移动软件有限公司 | 空间音频采集方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012061149A1 (en) * | 2010-10-25 | 2012-05-10 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6289308B1 (en) * | 1990-06-01 | 2001-09-11 | U.S. Philips Corporation | Encoded wideband digital transmission signal and record carrier recorded with such a signal |
US6072878A (en) | 1997-09-24 | 2000-06-06 | Sonic Solutions | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics |
US7184559B2 (en) | 2001-02-23 | 2007-02-27 | Hewlett-Packard Development Company, L.P. | System and method for audio telepresence |
AUPR647501A0 (en) * | 2001-07-19 | 2001-08-09 | Vast Audio Pty Ltd | Recording a three dimensional auditory scene and reproducing it for the individual listener |
US6813360B2 (en) * | 2002-01-22 | 2004-11-02 | Avaya, Inc. | Audio conferencing with three-dimensional audio encoding |
US7099821B2 (en) * | 2003-09-12 | 2006-08-29 | Softmax, Inc. | Separation of target acoustic signals in a multi-transducer arrangement |
US7756713B2 (en) * | 2004-07-02 | 2010-07-13 | Panasonic Corporation | Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information |
US7826624B2 (en) * | 2004-10-15 | 2010-11-02 | Lifesize Communications, Inc. | Speakerphone self calibration and beam forming |
BRPI0607303A2 (pt) | 2005-01-26 | 2009-08-25 | Matsushita Electric Ind Co Ltd | dispositivo de codificação de voz e método de codificar voz |
US20080004729A1 (en) | 2006-06-30 | 2008-01-03 | Nokia Corporation | Direct encoding into a directional audio coding format |
TW200849219A (en) * | 2007-02-26 | 2008-12-16 | Qualcomm Inc | Systems, methods, and apparatus for signal separation |
US20080232601A1 (en) | 2007-03-21 | 2008-09-25 | Ville Pulkki | Method and apparatus for enhancement of audio reconstruction |
US8098842B2 (en) * | 2007-03-29 | 2012-01-17 | Microsoft Corp. | Enhanced beamforming for arrays of directional microphones |
US8005237B2 (en) * | 2007-05-17 | 2011-08-23 | Microsoft Corp. | Sensor array beamformer post-processor |
US8073125B2 (en) | 2007-09-25 | 2011-12-06 | Microsoft Corporation | Spatial audio conferencing |
KR101415026B1 (ko) | 2007-11-19 | 2014-07-04 | 삼성전자주식회사 | 마이크로폰 어레이를 이용한 다채널 사운드 획득 방법 및장치 |
US8175291B2 (en) * | 2007-12-19 | 2012-05-08 | Qualcomm Incorporated | Systems, methods, and apparatus for multi-microphone based speech enhancement |
US8582783B2 (en) | 2008-04-07 | 2013-11-12 | Dolby Laboratories Licensing Corporation | Surround sound generation from a microphone array |
US8396226B2 (en) * | 2008-06-30 | 2013-03-12 | Costellation Productions, Inc. | Methods and systems for improved acoustic environment characterization |
US9025775B2 (en) | 2008-07-01 | 2015-05-05 | Nokia Corporation | Apparatus and method for adjusting spatial cue information of a multichannel audio signal |
US8279357B2 (en) | 2008-09-02 | 2012-10-02 | Mitsubishi Electric Visual Solutions America, Inc. | System and methods for television with integrated sound projection system |
EP2517486A1 (en) | 2009-12-23 | 2012-10-31 | Nokia Corp. | An apparatus |
KR101423737B1 (ko) * | 2010-01-21 | 2014-07-24 | 한국전자통신연구원 | 오디오 신호의 디코딩 방법 및 장치 |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
US8638951B2 (en) | 2010-07-15 | 2014-01-28 | Motorola Mobility Llc | Electronic apparatus for generating modified wideband audio signals based on two or more wideband microphone signals |
US8433076B2 (en) * | 2010-07-26 | 2013-04-30 | Motorola Mobility Llc | Electronic apparatus for generating beamformed audio signals with steerable nulls |
US9456289B2 (en) * | 2010-11-19 | 2016-09-27 | Nokia Technologies Oy | Converting multi-microphone captured signals to shifted signals useful for binaural signal processing and use thereof |
US8819523B2 (en) * | 2011-05-19 | 2014-08-26 | Cambridge Silicon Radio Limited | Adaptive controller for a configurable audio coding system |
RU2618383C2 (ru) * | 2011-11-01 | 2017-05-03 | Конинклейке Филипс Н.В. | Кодирование и декодирование аудиообъектов |
US20130315402A1 (en) | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
-
2012
- 2012-10-31 US US13/664,687 patent/US20130315402A1/en not_active Abandoned
- 2012-10-31 US US13/664,701 patent/US9161149B2/en active Active
-
2013
- 2013-05-08 KR KR1020147035519A patent/KR101705960B1/ko active IP Right Grant
- 2013-05-08 EP EP13727680.4A patent/EP2856464B1/en active Active
- 2013-05-08 CN CN201380026946.9A patent/CN104321812B/zh not_active Expired - Fee Related
- 2013-05-08 WO PCT/US2013/040137 patent/WO2013176890A2/en active Application Filing
- 2013-05-08 JP JP2015514045A patent/JP6336968B2/ja not_active Expired - Fee Related
- 2013-05-16 WO PCT/US2013/041392 patent/WO2013176959A1/en active Application Filing
-
2015
- 2015-09-10 US US14/850,776 patent/US9361898B2/en not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012061149A1 (en) * | 2010-10-25 | 2012-05-10 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
Non-Patent Citations (2)
Title |
---|
Herre, Jürgen, et al. "MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding." Journal of the Audio Engineering Society 56.11 (2008): 932-955. * |
ISO/IEC JTC1/SC29/WG11, "DIS 23003-3:2011, Information technology ─ MPEG audio technologies ─ Part 3: Unified speech and audio coding," 2011.01.31 * |
Also Published As
Publication number | Publication date |
---|---|
JP6336968B2 (ja) | 2018-06-06 |
US20160005408A1 (en) | 2016-01-07 |
US9161149B2 (en) | 2015-10-13 |
US20130315402A1 (en) | 2013-11-28 |
JP2015523594A (ja) | 2015-08-13 |
WO2013176959A1 (en) | 2013-11-28 |
US9361898B2 (en) | 2016-06-07 |
EP2856464A2 (en) | 2015-04-08 |
WO2013176890A2 (en) | 2013-11-28 |
KR101705960B1 (ko) | 2017-02-10 |
WO2013176890A3 (en) | 2014-02-27 |
CN104321812B (zh) | 2016-10-05 |
US20130317830A1 (en) | 2013-11-28 |
EP2856464B1 (en) | 2019-06-19 |
CN104321812A (zh) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101705960B1 (ko) | 3 차원 사운드 압축 및 호출 동안의 오버-디-에어 송신 | |
JP6121481B2 (ja) | マルチマイクロフォンを用いた3次元サウンド獲得及び再生 | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
US8855341B2 (en) | Systems, methods, apparatus, and computer-readable media for head tracking based on recorded sound signals | |
KR101096072B1 (ko) | 오디오 재생 개선을 위한 방법 및 장치 | |
US9015051B2 (en) | Reconstruction of audio channels with direction parameters indicating direction of origin | |
US8284946B2 (en) | Binaural decoder to output spatial stereo sound and a decoding method thereof | |
CN112567763B (zh) | 用于音频信号处理的装置和方法 | |
TW202016925A (zh) | 用於編碼、解碼、場景處理及與以指向性音訊編碼為基礎之空間音訊編碼有關的其他程序之裝置、方法及電腦程式 | |
CN113597776A (zh) | 参数化音频中的风噪声降低 | |
Pulkki et al. | Directional audio coding-perception-based reproduction of spatial sound | |
Pulkki et al. | Perception-based Reproduction of Spatial Sound with Directional Audio Coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
A302 | Request for accelerated examination | ||
AMND | Amendment | ||
E902 | Notification of reason for refusal | ||
AMND | Amendment | ||
E601 | Decision to refuse application | ||
AMND | Amendment | ||
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant |