KR20120089369A - 제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하기 위한 장치 및 방법 - Google Patents
제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하기 위한 장치 및 방법 Download PDFInfo
- Publication number
- KR20120089369A KR20120089369A KR1020127017311A KR20127017311A KR20120089369A KR 20120089369 A KR20120089369 A KR 20120089369A KR 1020127017311 A KR1020127017311 A KR 1020127017311A KR 20127017311 A KR20127017311 A KR 20127017311A KR 20120089369 A KR20120089369 A KR 20120089369A
- Authority
- KR
- South Korea
- Prior art keywords
- parameter
- directional
- spatial audio
- downmix
- audio signal
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims description 42
- 230000008859 change Effects 0.000 claims abstract description 99
- 238000009792 diffusion process Methods 0.000 claims description 92
- 230000001419 dependent effect Effects 0.000 claims description 74
- 230000007480 spreading Effects 0.000 claims description 62
- 238000013507 mapping Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 27
- 230000009466 transformation Effects 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 95
- 230000015572 biosynthetic process Effects 0.000 description 12
- 238000003786 synthesis reaction Methods 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 11
- 238000013459 approach Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000002238 attenuated effect Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 2
- 206010011906 Death Diseases 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 235000009991 pite Nutrition 0.000 description 1
- 244000293655 pite Species 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/44—Receiver circuitry for the reception of television signals according to analogue transmission standards
- H04N5/60—Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/78—Television signal recording using magnetic recording
- H04N5/782—Television signal recording using magnetic recording on tape
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
- Television Receiver Circuits (AREA)
- Mathematical Physics (AREA)
Abstract
공간 오디오 장면에서 제 1 청취 위치 또는 제 1 청취 방향을 나타내는 제 1 파라메트릭 공간 오디오 신호를 제 2 청취 위치 또는 제 2 청취 방향을 나타내는 제 2 파라메트릭 공간 오디오 신호(112, 114)로 변환하는 장치(300)가 제공되며, 본 장치는, 제 2 파라메트릭 공간 오디오 신호(212, 214)를 획득하기 위하여, 제 1 청취 위치 또는 제 1 청취 방향의 변화에 따라 제 1 파라메트릭 공간 오디오 신호(212, 214)를 변경하도록 적응된 공간 오디오 신호 변경 유닛(301, 302)을 포함하고, 제 2 청취 위치 또는 상기 제 2 청취 방향은 상기 변화에 의해 변화된 상기 제 1 청취 위치 또는 상기 제 1 청취 방향에 대응한다.
Description
본 발명은 오디오 처리 분야에 관한 것으로서, 특히, 파라메트릭 공간 오디오 처리 분야에 관한 것이며, 제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하는 것에 관한 것이다. .
공간 사운드 기록은, 기록 위치에 존재하는 것처럼, 재생 측면에서 청취자가 사운드 이미지를 인식할 수 있도록 여러 마이크로폰으로 사운드 필드를 포착하기 위한 것이다. 공간 사운드 기록을 위한 표준 접근 방식들은, 예를 들어, 이후에 [앰비소닉스(Ambisonics)]로 지칭하게 되는, 앰비소닉스에 사용되고, 1973년, J. Aud. Eng. Soc., Vol. 21, No. 1, 2-10 페이지, M.A. Gerzon에 의해, “Periphony: Width-Height Sound Reproduction”에 기재되어 있는 B-포맷 마이크로폰들과 같은, 간단한 스테레오 마이크로폰들 또는, 방향성 마이크로폰들의 보다 정교한 조합들을 사용한다. 일반적으로, 이들 방법은 동시-마이크로폰 기술들로서 지칭된다.
대안으로, 사운드 필드들의 파라메트릭 표현에 기초한 방법들이 적용될 수 있으며, 이는 파라메트릭 공간 오디오 코더들로서 지칭된다. 이들 방법들은 공간 사운드의 인식에 관련된 공간 사이드 정보와 함께 다운믹스 오디오 신호를 결정한다. 예들은, 다음에 [DirAC]로 지칭되는 『2006년 6월 30일부터 7월 2일, 스웨덴, Proceedings of The AES 28th International Conference, 251-258 페이지, Pite, Pulkki, V에 의한 “Directional audio coding in spatial sound reproduction and stereo upmixing,”에 기재된 것 같은 방향성 오디오 코딩(DirAC)』 또는, 다음에 [SAM]으로 지칭되는『2008년 12월, 샌프란시스코, Proceedings of the AES 125th International Convention, Faller, C에 의한 “Microphone Front-Ends for Spatial Audio Coders”에 제안된 소위 공간 오디오 마이크로폰들(SAM) 접근 방식』이다. 공간 큐(cue) 정보는 주파수 서브밴드들의 사운드 필드의 사운드 및 확산의 도래 방향(DOA)으로 기본적으로 구성된다. 합성 스테이지에 있어서, 재생을 위하여 원하는 확성기 신호들은 다운믹스 신호 및 파라메트릭 사이드 정보에 기초하여 결정된다.
즉, 다운믹스 신호들 및 대응하는 공간 사이드 정보는, 설정, 예를 들어, 오디오 장면이 기록될 때 사용되는 상이한 오디오 소스들에 관련하여 마이크로폰들의 방향 및/또는 위치에 따른 오디오 장면을 나타낸다.
본 발명의 목적은 기록된 오디오 장면의 유연한 적응에 대한 개념을 제공하기 위한 것이다.
상기 목적은 청구항 1에 따른 장치, 청구항 17에 따른 방법 및, 청구항 18에 따른 컴퓨터 프로그램에 의해 해결된다.
상술한 모든 방법들은 공통으로, 기록 위치에서 인식된 것처럼, 재생 측면에서 사운드 필드를 렌더링하기 위한 것이다. 기록 위치, 즉, 마이크로폰들의 위치는 또한, 기준 청취 위치로서 지칭될 수 있다. 기록된 오디오 장면의 변경은 이들 공지된 공간 사운드-포착 방법들에 예상되지 않는다.
한편, 가시적인 이미지의 변경은 예를 들어, 비디오 포착의 맥락에서 일반적으로 적용된다. 예를 들어, 광학 줌은 임프레션을 제공하는 카메라의 시각적인 위치를 변경하기 위해 비디오 카메라들에 사용된다. 이미지는 다른 관찰 시점에서 취해졌다. 이는 카메라 위치의 변환에 의해 설명된다. 다른 간단한 화면 변경은 자신의 축 주위의 카메라의 수평 또는 수직 회전이다. 수직 회전은 또한, 패닝 또는 틸팅으로서 지칭된다.
본 발명의 실시예들은 시각적인 움직임에 따라 청취 위치 및/또는 방향을 사실상 변경할 수 있는 장치 및 방법을 제공한다. 즉, 본 발명은, 마이크로폰들의 실제 물리적인 위치 이외의 가시적인 위치 및/또는 방향에 배치된 마이크로폰 구성을 사용하여 획득된 기록에 대응하도록, 청취자가 재생 동안 감지하는 음향 이미지를 변경할 수 있다. 이렇게 하면, 기록된 음향 이미지는 대응하는 변경된 비디오 이미지로 정렬될 수 있다. 예를 들어, 이미지의 일정한 지역에 대한 비디오 줌의 효과는 일관된 방식으로 기록된 공간 오디오 이미지에 적용될 수 있다. 이는, 본 발명에 따라, 공간 오디오 코더의 파라메트릭 도메인 내의 공간 큐 파라미터들 및/또는 다운믹스 신호를 적절히 변경하여 성취된다.
본 발명의 실시예들은 상이한 마이크로폰 설정과 함께 공간 오디오 장면을 기록하지 않고 주어진 공간 오디오 장면 내에 청취자의 변화 위치 및/또는 방향, 예를 들어, 오디오 신호 소스들에 관한 마이크로폰 설정을 기록하는 상이한 위치 및/또는 방향을 유연하게 변경할 수 있다. 즉, 본 발명의 실시예들은 공간 오디오 장면이 기록될 때 기록 위치 또는 청취 위치와 다른 가상 청취 위치 및/또는 가상 청취 방향을 정의할 수 있다.
본 발명의 특정 실시예들은 하나 또는 여러 다운믹스 신호들 및/또는 공간 사이드 정보, 예를 들어, 변경된 청취 위치 및/또는 방향을 반영하기 위해 다운믹스 신호들 및/또는 공간 사이드 정보를 적용하는 도래 방향 및 확산을 사용한다. 즉, 이들 실시예들은 어떤 다른 설정 정보, 예를 들어, 원래의 기록 위치에 대한 상이한 오디오 소스들의 기하학적 정보를 필요로 하지 않는다.
본 발명이 실시예들은 일정한 공간 오디오 포맷에 따라 파라메트릭 공간 오디오 신호들, 예를 들어, 공간 사이드 정보로서 도래 방향 및 확산과 함께 모노 또는 스테레오 다운믹스 신호들을 더 수신하고, 제어 신호들, 예를 들어, 줌 또는 회전 제어 신호들에 따라 데이터를 변환하고, 동일한 공간 오디오 포맷으로 변경된 또는 변환된 데이터, 즉, 연관된 도래 방향 및 확산 파라미터들과 함께 모노 또는 스테레오 다운믹스 신호를 출력한다.
특정 실시예에 있어서, 본 발명의 실시예들은 비디오 카메라 또는 다른 비디오 소스들에 결합되고, 예를 들어, 오디오 경험을 비디오 경험과 동기화를 위해, 그리고, 예를 들어, 비디오 줌이 실행되는 경우에 음향 줌을 실행하기 위해 비디오 카메라에 의해 제공된 줌 제어 또는 회전 제어 신호들에 따라 수신 또는 원래의 공간 오디오 데이터를 변경된 공간 오디오 데이터로 변경하거나, 비디오 카메라가 회전되는 경우 오디오 장면 내에 오디오 회전을 실행하고, 카메라에 장착되지 않기 때문에 마이크로폰들은 카메라와 물리적으로 회전하지 않는다.
상기와 같은 본 발명에 따른 제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하기 위한 장치 및 방법을 이용할 경우, 기록 위치에서 인식된 것처럼 재생의 측면에서 사운드 필드를 렌더링할 수 있다.
본 발명의 실시예들은 다음 도면들을 사용하여 더욱 상세히 설명한다.
도 1은 파라메트릭 공간 오디오 코더의 블록 다이어그램을 도시한다.
도 2는 공간 오디오 코더의 공간 오디오 분석 유닛과 공간 오디오 합성 유닛 사이에 결합된 공간 파라미터 변경 블록의 일 실시예와 함께 도 1의 공간 오디오 코더를 도시한다.
도 3a는 도 2에 대응하며 공간 파라미터 변경 블록의 더욱 상세한 실시예를 도시한다.
도 3b는 도 2에 대응하며 공간 파라미터 변경 블록의 다른 더욱 상세한 실시예를 도시한다.
도 4는 음향 줌의 예시적인 기하학적 개요를 도시한다.
도 5a는 도래 방향(DOA) 맵핑에 대한 방향성 맵핑 함수 fp(k, n, φ, d)의 예를 도시한다.
도 5b는 확산 맵핑에 대한 확산 맵핑 함수 fd(k, n, φ, d)의 예를 도시한다.
도 6은 줌 팩터에 따라 직접 사운드 성분의 가중 필터 H 1 (k, n, φ, d)에 대한 서로 다른 이득 윈도우들을 도시한다.
도 7은 확산 성분에 대해 가중 필터 H 2 (k, n, φ, d)에 대한 예시적인 서브-카디오이드 윈도우(subcardioid window)를 도시한다.
도 1은 파라메트릭 공간 오디오 코더의 블록 다이어그램을 도시한다.
도 2는 공간 오디오 코더의 공간 오디오 분석 유닛과 공간 오디오 합성 유닛 사이에 결합된 공간 파라미터 변경 블록의 일 실시예와 함께 도 1의 공간 오디오 코더를 도시한다.
도 3a는 도 2에 대응하며 공간 파라미터 변경 블록의 더욱 상세한 실시예를 도시한다.
도 3b는 도 2에 대응하며 공간 파라미터 변경 블록의 다른 더욱 상세한 실시예를 도시한다.
도 4는 음향 줌의 예시적인 기하학적 개요를 도시한다.
도 5a는 도래 방향(DOA) 맵핑에 대한 방향성 맵핑 함수 fp(k, n, φ, d)의 예를 도시한다.
도 5b는 확산 맵핑에 대한 확산 맵핑 함수 fd(k, n, φ, d)의 예를 도시한다.
도 6은 줌 팩터에 따라 직접 사운드 성분의 가중 필터 H 1 (k, n, φ, d)에 대한 서로 다른 이득 윈도우들을 도시한다.
도 7은 확산 성분에 대해 가중 필터 H 2 (k, n, φ, d)에 대한 예시적인 서브-카디오이드 윈도우(subcardioid window)를 도시한다.
동일하거나 등가의 기능을 하는 동일하거나 등가의 구성 요소들은 도면의 다음 설명에서 동일하거나 등가의 참조 번호들에 의해 표시된다.
본 발명의 실시예들의 보다 양호한 이해를 위해, 전형적인 공간 오디오 코더를 설명한다. 전형적인 파라메트릭 공간 오디오 코더의 임무는 기록되었던 지점에 존재했던 공간 임프레션(impression)을 재생하는 것이다. 따라서, 공간 오디오 코더는, 도 1에 도시된 것처럼, 분석 부분(100) 및 합성 부분(200)으로 구성된다. 음향 프론트 엔드에서, N 마이크로폰들(102)은 공간 사이드 정보(114)와 함께 L ≤ N 을 갖는 L 다운믹스 신호들(112)을 생성하기 위해 공간 오디오 분석 유닛(100)에 의해 처리된 N 마이크로폰 입력 신호들을 얻도록 배열된다. 디코더, 즉 공간 오디오 합성 유닛에 있어서, 다운믹스 신호(112) 및 공간 사이드 정보(114)는 원래의 공간 임프레션으로 기록된 사운드 필드를 재생하는 M 확성기들(202)에 대한 M 확성기 채널들을 계산하기 위해 사용된다. 두꺼운 라인들(마이크로폰들(102)과 공간 오디오 분석 유닛(100) 사이의 라인들, L 다운믹스 신호들(112), 및 공간 오디오 합성 유닛(200)과 M 확성기들(202) 사이의 M 신호 라인들)은 오디오 데이터를 심볼화 하지만, 공간 오디오 분석 유닛(100)과 공간 오디오 합성 유닛(200) 사이의 얇은 라인들(114)은 공간 사이드 정보를 나타낸다.
다음에는, 공간 오디오 분석 유닛(100)에 의해 실행되는 것과 같은 공간 오디오 분석에 대한 기본적인 단계들을 더욱 상세히 설명한다. 마이크로폰 신호들은, 예를 들어, 단시간 푸리에 변환(short-time Fourier Transform; STFT) 또는 임의의 다른 필터 뱅크를 적용하여 적당한 시간/주파수 표현으로 처리된다. 분석 스테이지에서 결정된 공간 사이드 정보는 사운드의 도래 방향(DOA)에 대응하는 측정(measure)과 분석된 사운드 필드의 직접 및 확산 사운드 사이의 관계를 설명하는 사운드 필드의 확산의 측정을 포함한다.
DirAC에 있어서, 액티브 강도 벡터의 반대 방향으로서 사운드의 DOA를 결정하는 것이 제안되었다. 이와 관련된 음향 정보는 직교 좌표 시스템(Cartesian coordinate system)의 축들과 정렬된 쌍극자 픽업 패턴을 제공하는 마이크로폰들 구성에 의해 획득한 사운드 압력 및 속도에 대응하는 소위 B-포맷 마이크로폰 입력으로부터 도출된다. 즉, B-포맷은 4개의 신호들, 즉 w(t), x(t), y(t) 및 z(t)로 구성된다. 첫 번째 신호는 전방향 마이크로폰에 의해 측정된 압력에 대응하지만, 후자의 3개의 신호들은 직교 좌표 시스템의 3축으로 향하는 숫자 8의 픽업 패턴들을 갖는 마이크로폰들의 신호들이다. 신호들 x(t), y(t) 및 z(t)는 x, y 및 z쪽으로 향하는 입자 속도 벡터들의 성분들과 각각 비례한다. 대안으로, SAM에 제공되는 접근 방식은 사운드의 DOA를 결정하기 위해 스테레오 마이크로폰들의 지향성 패턴의 선험적 지식(priori knowledge)을 사용한다.
확산 측정은 DirAC에서 제안된 것처럼, 사운드 필드의 전체 에너지에 액티브 사운드 강도를 관련시켜 얻을 수 있다. 대안으로, SAM에서 설명한 것과 같은 본 방법은 서로 다른 마이크로폰 신호들 사이의 일관성을 평가하기 위해 제안한다. 확산은 또한 평가된 DOA에 대한 일반적인 신뢰도 측정으로서 고려되었음을 주목한다. 일반성의 손실 없이, 다음에서, 확산이 [1, 0]의 범위에 있으며, 여기서, 1의 값은 순수 확산 사운드 필드를 나타내고, 0의 값은 직접 사운드만이 존재하는 경우에 해당한다고 가정한다. 다른 실시예들에 있어서, 확산에 대한 다른 범위들 및 값들이 사용될 수 있다.
사이드 정보(114)가 수반되는 다운믹스 신호(112)는 마이크로폰 입력 신호들로부터 계산된다. 이는 모노가 될 수 있거나 멀티플 오디오 채널들을 포함할 수 있다. DirAC의 경우에, 전방향 마이크로폰에 의해 얻어진 것으로서, 사운드 압력에 대응하는 모노 신호만이 공통으로 고려된다. SAM 접근 방식에 있어, 2-채널 스테레오 신호가 다운믹스 신호로서 사용된다.
공간 오디오 합성 유닛(200)에 의해 수행되는 것으로서 재생을 위해 사용되는 확성기 신호들의 합성에 대해 상세히 설명한다. 합성(200)의 입력은 다운믹스 신호(112) 및 이들 시간-주파수 표현의 공간 파라미터들(114)이 된다. 이들 데이터로부터, M 확성기 채널들은 계산되어, 공간 오디오 이미지 또는 공간 오디오 임프레션은 올바르게 재생된다. Y i (k, n)는, i = 1… M이고, 시간 및 주파수 지수들, 지수들(k 및 n)을 각각 갖는 시간/주파수 표현으로 i-번째 물리적 확성기 채널의 신호를 나타낸다고 하면, 다음 식에 의해 합성에 대한 다음 기본 신호 모델이 주어진다.
여기서, S(k, n)는 직접 사운드 성분에 대응하고, N(k, n)은 확산 사운드 성분을 나타낸다. 확산 사운드의 정확한 재생을 위해, 비상관 연산(decorrelation operation) Di{}은 각각의 확성기 채널의 확산 성분에 적용되는 것을 주목한다. 스케일링 팩터 g i (k, n)는 재생을 위해 사용된 사이드 정보 및 확성기 구성에 포함된 직접 사운드의 DOA에 의존한다. 적당한 선택은, 다음에 [VBAP]로 지칭되는, 1997년 6월 J. Audio Eng. Soc., Vol.45, 페이지 456-466, Pulkki, V.에 의한 “Virtual sound source positioning using vector base amplitude panning”에서 제안된 벡터 베이스 진폭 패닝 접근 방식에 의해 주어진다.
DirAC에 있어서, 직접 사운드 성분은 모노 다운믹스 신호 W(k, n)의 적당한 스케일링에 의해 결정되고, 다음 식에 따라 획득된다.
확산 사운드 성분은 다음 식에 따라 획득된다.
여기서, M은 사용된 확성기들의 수이다.
SAM에 있어서, (1)과 동일한 신호 모델이 적용되지만, 직접 및 확산 사운드 성분들은 대신에 스테레오 다운믹스 신호들에 기초하여 계산된다.
도 2는 도 1의 예시된 환경에서 통합, 즉 공간 분석 유닛(100)과 공간 오디오 합성 유닛(200)에서 통합된 본 발명의 실시예의 블록 다이어그램을 도시한다. 도 1에 기초하여 설명한 것처럼, 원래의 오디오 장면은 서로 다른 오디오 사운드 소스들에 관련된 위치 및 방향(방향성 마이크로폰들의 경우)을 특정하는 마이크로폰들의 특정 기록 설정으로 기록된다. N 마이크로폰들은 하나 또는 여러 다운믹스 신호들 W(112) 및 공간 사이드 정보(114), 예를 들어, 도래 방향(DOA) φ (114a) 및 확산 Ψ (114b)를 생성하기 위해 공간 오디오 분석 유닛(100)에 의해 처리되는 N 물리적인 마이크로폰 신호들 또는 채널 신호들을 제공한다. 도 1과는 달리, 이들 공간 오디오 신호들(112, 114a, 114b)은 공간 오디오 합성 유닛(200)에 직접 제공되지 않지만, 공간 오디오 장면에서 제 1 청취 위치 및/또는 제 1 청취 방향(본 예에 있어서, 예를 들어, 기록 위치 및 기록 방향)을 나타내는 제 1 파라메트릭 공간 오디오 신호(112, 114a, 114b)를 제 2 파라메트릭 공간 오디오 신호(212, 214a, 214b)로 변환 또는 변경, 즉 제 1 청취 위치 및/또는 제 1 청취 방향과 다른 제 2 청취 위치 및/또는 제 2 청취 방향을 나타내는 변경된 다운믹스 신호 Wmod(212), 변경된 도래 방향 신호 φmod(214a)및/또는 변경된 확산 신호 Ψmod(214b)로 변환 또는 변경하기 위한 장치에 의해 변경된다. 변경된 도래 방향(214a) 및 변경된 확산(214b)은 또한 변경된 공간 오디오 정보(214)로도 지칭한다. 본 장치(300)는 또한 공간 오디오 신호 변경 유닛 또는 공간 오디오 신호 변경 블록(300)으로 지칭된다. 도 3a에서 장치(300)는, 예를 들어 외부의, 제어 유닛(400)에 의해 제공된 제어 신호(d)(402)에 따라 제 1 파라메트릭 공간 오디오 신호(112, 114)를 변경하도록 적응된다. 제어 신호(402)는, 예를 들어, 줌 팩터(d)를 정의하거나 줌 팩터가 되는 줌 제어 신호, 또는 줌 파라미터(d), 또는 비디오 카메라의 줌 제어 및/또는 회전 제어 유닛(400)에 의해 제공되는 회전 제어 신호(402)가 될 수 있다. 일정한 방향의 줌 및 동일한 방항으로의 변환은 그 일정한 방향으로 가상 움직임을 기술하는 두 개의 서로 다른 방향인 것을 주목한다(줌 팩터에 의한 줌, 기준 거리에 관련된 절대 거리 또는 상대 거리에 의한 변환). 따라서, 줌 제어 신호에 관해서 본 명세서의 설명들은 변환 제어 신호들 및 그 역에 상응하도록 적용하고, 줌 제어 신호(402)는 또한 변환 제어 신호로 지칭한다. 용어(d)는 한편으로는 제어 신호(402) 자체를 나타낼 수 있고, 다른 한편으로는 제어 정보 또는 제어 신호에 포함된 파라미터를 나타낼 수 있다. 다른 실시예들에 있어서, 제어 파라미터(d)는 이미 제어 신호(402)를 나타낸다. 제어 파라미터 또는 제어 정보(d)는 거리, 줌 팩터 및/또는 회전 각도 및/또는 회전 방향이 될 수 있다.
도 2로부터 알 수 있듯이, 장치(300)는 수신된 파라메트릭 공간 오디오 신호들(112, 114)과 같은 포맷으로 파라메트릭 공간 오디오 신호들(212, 214)(다운믹스 신호들 및 연관된 사이드 정보/파라미터들)을 제공하도록 적응된다. 따라서, 공간 오디오 합성 유닛(200)은 원래 또는 기록된 공간 오디오 신호(112, 114)와 동일한 방식으로 변경된 공간 오디오 신호(212, 214)를 처리(변경들 없이)할 수 있으며, 이들을 M 물리적인 확성기 신호들(204)로 변환하여 변경된 공간 오디오 장면 또는, 즉 변경된 청취 위치 및/또는, 그렇지 않으면 변화되지 않은 공간 오디오 장면 내의 변경된 청취 방향에 대한 사운드 경험을 생성한다.
즉, 신규 장치 또는 방법의 실시예의 블록 개략도가 도 2에 예시되어 있다. 알 수 있듯이, 공간 오디오 코더(100)의 출력(112, 114)은 사운드 포착을 위해 사용된 원래의 위치에 사용되는 것과 다른 청취 위치에 대응하는 공간 오디오 표현(212, 214)을 획득하기 위하여 외부의 제어 정보(402)에 기초하여 변경된다. 더 정확하게, 다운믹스 신호들(112) 및 공간 사이드 정보(114) 모두는 적절하게 변경된다. 변경 전략은 카메라(400)로부터 직접 획득되거나, 카메라 또는 줌의 정확한 위치에 관한 정보를 제공하는 임의의 다른 사용자 인터페이스(400)로부터 획득될 수 있는 외부 제어(400)에 의해 결정된다. 본 실시예에 있어서, 알고리즘의 작업, 변경 유닛(300)은 광학 줌 또는 카메라 회전이 관객의 시점을 변경하는 방식으로 사운드 장면의 공간 임프레션을 변경하는 것이다. 즉, 변경 유닛(300)은 대응하는 음향 줌 또는, 비디오 줌 또는 비디오 회전에 대응하는 오디오 회전 경험을 제공하도록 적응된다.
도 3a는 “음향 줌 유닛”으로서 지칭되는 장치(300)의 실시예의 블록도 또는 시스템 개요를 도시한다. 도 3a에서 장치(300)의 실시예는 파라미터 변경 유닛(301) 및 다운믹스 변경 유닛(302)을 포함한다. 파라미터 변경 유닛(301)은 도래 방향 변경 유닛(301a) 및 확산 변경 유닛(301b)을 더 포함한다. 파라미터 변경 유닛(301)은, 도래 방향 파라미터(114a)를 수신하고, 변경된 또는 제 2 도래 방향 파라미터(214a)를 획득하기 위해 제어 신호(d)(402)에 따라 제 1 또는 수신된 도래 방향 파라미터(114a)를 변경하도록 적응된다. 파라미터 변경 유닛(301)은 제 1 또는 원래의 확산 파라미터(114b)를 수신하고, 제 2 또는 변경된 확산 파라미터(214b)를 획득하기 위해 확산 변경 유닛(301b)에 의해 제어 신호(402)에 따라 확산 파라미터(114b)를 변경하도록 더 적응된다. 다운믹스 변경 유닛(302)은 하나 이상의 다운믹스 신호들(112)을 수신하고, 제 2 또는 변경된 다운믹스 신호(212)를 획득하기 위해 제 1 또는 원래의 도래 방향 파라미터(114a), 제 1 또는 원래의 확산 파라미터(114b) 및/또는 제어 신호(402)에 따라 제 1 또는 원래의 다운믹스 신호(112)를 변경하도록 적응된다.
카메라가 마이크로폰들(102)로부터 독립적으로 제어되는 경우, 본 발명의 실시예들은 카메라 제어들(402)에 따라 오디오 장면 또는 오디오 인식의 변화를 동기화할 수 있는 가능성을 제공한다. 또한, 방향들은, 카메라(400)가 줌 처리 없이, 즉 회전 제어 신호만을 적용하고 제어 신호(402)를 줌 처리하지 않고, 수평으로만 회전되는 경우, 다운믹스 신호들(112)을 변경하지 않고 시프트 될 수 있다. 이는 도 2 및 도 3에서 “회전 제어기”에 의해 설명된다.
회전 변경은 방향성 리맵핑 또는 방향들의 리맵핑에 관한 섹션에서 보다 상세히 설명한다. 확산 및 다운믹스 변경에 관한 섹션들은 변환 또는 줌 응용(zooming application)에 관련된다.
본 발명의 실시예들은, 예를 들어, 우선 회전 변경을 실행하고 나중에 변환 또는 줌 변경이나 그 역으로 실행하여, 회전 변경 및 변환 또는 줌 변경 모두를 실행하거나, 대응하는 방향성 맵핑 함수들을 제공하여 동시에 둘 모두를 실행하도록 적응될 수 있다.
음향 줌 효과를 성취하기 위해, 청취 위치는 가상으로 변경되며, 이는 분석된 방향들을 적당히 리맵핑 하여 행해진다. 변경된 사운드 장면의 올바른 전체 임프레션을 얻기 위해, 다운믹스 신호는 리맵핑 된 방향들에 의존하는 필터에 의해 처리된다. 이 필터는 바로 가까이에 있는 사운드들의 레벨이 증가될 때 이득들을 변경시키지만, 관심에서 벗어난 영역들로부터 사운드들은 감쇠될 수 있다. 또한, 확산은, 예를 들어, 새로운 청취 위치에 가깝게 나타나는 사운드들이 이전보다 확산이 덜 재생되어야 할 때 동일한 가정으로 스케일링된다.
다음은, 장치(300)에 의해 실행되는 알고리즘 또는 방법에 대해 보다 상세히 설명한다. 음향 줌 유닛의 개요는 도 3a에 도시되어 있다. 우선, 방향들의 리맵핑이 설명되어 있으며(블록(301a), fp(k, n, φ, d),이후에, 확산 변경을 위한 필터(블록 (301b), fd(k, n, φ, d)가 예시되어 있다. 블록(302)은 줌 제어 및 원래의 공간 파라미터들에 의존하는 다운믹스 변경을 설명한다.
다음 섹션에 있어서, 방향들의 리맵핑, 즉 예를 들어, 방향 변경 블록(301a)에 의해 실행되는 것으로서, 도래 방향 파라미터들의 리맵핑을 각각 설명한다.
도래 방향 파라미터(DOA 파라미터)는, 예를 들어, 유닛 벡터(e)에 의해 표현될 수 있다. 또는 3차원 (3D) 사운드 필드 분석에 있어, 벡터는 다음으로 표현될 수 있다.
여기서, 방위각(φ)은 2차원 (2D) 평면, 즉 수평 평면에서 DOA에 대응한다. 앙각(elevation angle)은 θ로 주어진다. 이 벡터는 다음에 설명하는 것처럼 마이크로폰의 새로운 가상 위치에 따라 변경될 것이다.
일반성의 손실 없이, DOA 리맵핑의 예는 표현의 단순화를 위해 2차원의 경우로 제공된다(도 4). 3차원 DOA의 대응하는 리맵핑은 유사한 고려 사항들로 수행될 수 있다.
도 4는 음향 줌의 예시적인 기하학적 개요의 기하학 개요를 도시한다. 위치(S)는 원래의 마이크로폰 기록 위치, 즉, 원래의 청취 위치를 표시하고, 위치(B)는 관찰된 2-차원 평면 내의 공간 위치들을 표시한다. 지금, 청취 위치가 S에서 S2까지, 예를 들어, 제 1 청취 방향의 방향으로 이동된다고 가정한다. 도 4에서 알 수 있는 것처럼, 공간 위치로부터 생성되는 사운드는 기록 위치에 대해서 동일한 각도 위치로 유지되지만, 영역 또는 공간 위치(B)로부터의 사운드들은 측면으로 이동된다. 이는 분석된 각도(α)에서 각도(β)로 변경함으로써 표시된다. 따라서, 각도(β)는 청취자가 S2에 위치되는 경우 B의 각도 위치로부터 들어오는 사운드의 도래 방향을 나타낸다. 고려된 예에 있어서, 방위각은 도 4에 도시된 것처럼 α에서 β로 증가된다, 도래 방향 정보의 리맵핑은 다음 식에 따라 벡터 변환으로서 기재될 수 있다.
여기서, f()는 리맵핑 함수를 나타내고, emod는 변경된 방향 벡터를 나타낸다. 이 함수는, 줌 팩터(d) 및 원래의 평가된 DOA들에 따라, 비선형 변환이다. 도 5a는 도 4에 도시된 2차원 예에 적용될 수 있는 것처럼 α의 상이한 값들에 대한 맵핑 f()에 대한 예들을 도시한다. d = 1의 줌 제어 팩터에 대해서, 즉, 줌이 적용되지 않으며, 각도들은 원래의 DOA α와 동일하다. 줌 제어 팩터들을 증가시키기 위해, β의 값은 또한 증가된다. 함수는 기하학적 고려들로부터 도출될 수 있고, 대안으로는 귀납적으로 선택될 수 있다. 따라서, 방향들의 리맵핑은 각각의 DOA가 함수 f()에 따라 변경된다는 것을 의미한다. 맵핑 fp(k, n, φ, d)은 모든 시간 및 주파수 빈(bin)(k, n)에 대해 실행된다.
비록, 이전에 언급한 것처럼, 도 4에서 줌 파라미터(d)가 원래의 청취 위치(S)와 변경된 청취 위치(S2) 사이의 변한 거리(d)로서 설명되었지만, d는 또한 팩터, 예를 들어, 4x 또는 8x 줌과 같은 광학 줌이 될 수 있다. 특히, 거리로서가 아닌, 팩터로서 d를 팩터로서 보는 폭 또는 필터 제어를 위해, 음향 줌의 용이한 구현을 허용한다. 즉, 줌 파라미터(d)는 본 경우에 거리가 되거나, 적어도 거리에 비례한다.
또한, 본 발명의 실시예들은 상술한 것처럼 예를 들어, 물체(예를 들어, 위치(S)에서 위치 (S2)로 이용시켜 도 4의 물체(A)에 대해)에 대한 거리를 감소시키는 “줌-인” 이외에도, 또한, 예를 들어, 물체(예를 들어, 위치(S2)에서 위치(S)로 이동시켜 도 4의 물체에 대해서)의 거리를 증가시키는 “줌-아웃”을 지원하도록 적응될 수 있음을 주목한다. 이 경우에, 반대의 고려 사항은 청취자가 위치(S)로 이동할 때 청취자의 측면에 위치한 물체들(예를 들어. 위치(S2)에 관한 물체(B))이 청취자의 정면으로 이동하기 때문에, 설명한 것처럼 줌-인과 비교하여 적용한다. 즉, 각도들의 크기는 감소(예를 들어, β에서 α로)된다.
방향들 또는 벡터 변환의 리맵핑은 도래 방향 변경 유닛(301a)에 의해 실행된다. 도 5a는 도 4에 도시된 시나리오에 대해 도래 방향들에 대한 맵핑 함수(줌 팩터(d)에 따라)를 예시적으로 도시한다. 도 5a의 다이어그램은 1에서 2까지의 범위의 x-축 상의 줌 팩터와 y-축 상에서 변경 또는 맵핑 된 각도(β)를 도시한다. 1의 줌 팩터에 대해서, β = α, 즉, 초기 각도는 변경되지 않는다. 참조 부호(512)는 α = 10°에 대한 맵핑 함수 fp를 나타내고, 참조 부호(514)는 α = 30°에 대한 맵핑 함수 fp를 나타내며, 참조 부호(516)는 α = 50°에 대한 맵핑 함수 fp(k, n, φ, d)를 나타내고, 참조 부호(518)는 α = 70°에 대한 맵핑 함수 fp(k, n, φ, d)를 나타내며, 참조 부호(520)는 α = 90°에 대한 맵핑 함수 fp(k, n, φ, d)를 나타낸다.
본 발명의 실시예들은 k 및 n에 의해 정의된 모든 시간 및 주파수 빈 값들에 대한 동일한 맵핑 함수 fp를 사용하도록 적응되거나, 상이한 시간 값들 및/또는 주파수 빈들에 대한 상이한 맵핑 함수들을 사용할 수 있다.
상기 설명으로부터 명백하게 되는 것처럼, 필터 fd의 아이디어는 줌-인 방향들(φ < |γ|)에 대해 확산을 감소시키고 초점 이외의 방향들 (φ > |γ|)에 대해 확산을 증가시키도록 확산(ψ)을 변경시키는 것이다.
맵핑 된 각도(β)의 결정을 간단히 하기 위해, 변경 유닛(301a)의 특정 실시예들은 단지 방향만을 사용하도록 적응되고, 사운드의 도래 방향을 정의하는 모든 소스들, 예를 들어, A 및 B는 제 1 청취 위치에 대해 동일한 거리를 갖는 것, 예를 들어, 단위 반경으로 배열된 것으로 가정한다.
전면 방향들로부터 들어오는 사운드만을 재생하는 확성기 설치, 예를 들어, 전형적인 스테레오 확성기 설치가 고려되는 경우, 맵핑 함수 f()는 DOA들이 맵핑 되는 최대 각도가 제한되도록 설계될 수 있다. 예를 들어, 확성기들이 ±60°에 배치될 때 ±60°의 최대 각도가 선택된다. 이러한 방식은 줌이 적용될 때 전체 사운드 장면이 전면에 유지되고 단지 넓게 된다.
카메라의 회전의 경우, 원래의 방위 값들은 새로운 시선 방향이 제로의 각도에 해당하도록 단지 시프트 된다. 따라서, 20°에 의한 카메라의 수평 회전은 가 될 것이다. 또한, 다운믹스 및 확산은, 회전과 변환이 동시에 수행되지 않는 한, 본 특정 경우에 변경되지 않는다.
상술한 설명으로부터 알 수 있듯이, 회전 변화 또는 차이는 제 1 기준 또는 0° 방향을 정의하는 제 1 청취 방향 각각의 제 1 시청 방향(예를 들어, 시청자 각각의 청취자의 “노이즈”)으로부터 시작하여 도출된다. 청취 방향이 변화할 때, 기준 또는 0° 방향은 그에 따라 변화한다. 따라서, 본 발명의 실시예들은, 제 2 방향성 파라미터가 오디오 장면에서 동일한 “도래의 방향”을 나타내지만, 새로운 기준 방향 또는 좌표계에 관계되도록, 새로운 기준 또는 0° 방향에 따라 원래의 각도들 또는 사운드의 도래의 방향들, 즉, 제 1 방향성 파라미터를 변경시킨다. 유사한 고려 사항들은 제 1 청취 방위의 방향으로 변환 또는 줌으로 인해 도래의 예측된 방향들이 변하는 각각의 줌의 변환을 적용한다(도 4 참조).
제 1 방향성 파라미터(114a) 및 제 2 방향성 파라미터(214a)는 2차원 또는 3차원 벡터들이 될 수 있다. 또한, 제 1 방향성 파라미터(114a)는 벡터가 될 수 있으며, 여기서, 제어 신호(402)는 회전 각도(예를 들어, 상술한 예에서 20°) 및 회전 방향(상술한 2차원 예에서 오른쪽)을 정의하는 회전 제어 신호이며, 파라미터 변경 유닛(301, 301a)은 제 2 방향성 파라미터, 즉, 제 2 또는 변경된 벡터(214a)를 획득하기 위해 회전 방향에 반대 방향으로 회전 각도에 의해 벡터를 회전시키도록 적응된다(상술한 예에서 β=α-20°).
다음 섹션에서는 예를 들어, 확산 변경 유닛(301b)에 의해 실행되는 확산 스케일링에 대해서 더욱 상세히 설명한다.
확산은 DOA-종속 윈도우로 스케일링된다. 특정 실시예들에 있어서, 확산 Ψ(k, n)의 값들은 줌-인 방향들에 대해 감소하지만, 관심 밖의 방향들에 대한 확산 값들은 증가한다. 이는, 사운드 소스들이 청취 위치에 가깝게 위치되는 경우, 사운드 소스들이 적은 확산으로 예측되는 관찰에 대응한다. 따라서, 예를 들어, 최소 줌 팩터(예를 들어, d = 1)에 대해서, 확산은 변경되지 않는다. 카메라 이미지에 의해 커버되는 가시적인 각도의 범위는 확산 값이 증가하거나 감소하는 스케일링에 대한 제어기로서 취해질 수 있다.
용어들, 줌-인-방향들 또는 관심의 방향들은 관심의 각도 윈도우로서 지칭되고, 또한, 제 1 또는 원래의 청취 방향, 예를 들어, 원래의 0° 기준 방향 주위에 배열되는 각도들의 중심 범위로서 지칭된다. 각도 윈도우 또는 중심 범위는 각도 윈도우의 경계를 정의하는 각도 값(γ)에 의해 결정된다. 각도 윈도우 및 각도 윈도우의 폭은 네거티브 경계 각도(-γ) 및 포지티브 경계 각도(γ)로 정의될 수 있으며, 네거티브 경계 각도의 크기는 포지티브 경계 각도와 다를 수 있다. 바람직한 실시예들에 있어서, 네거티브 경계 각도 및 포지티브 경계 각도는 동일한 크기(제 1 청취 방향 주위에 중심이 되는 각도들의 대칭 윈도우 또는 중심 범위)를 갖는다. 또한, 경계 각도의 크기는 각도 폭으로서 지칭되며, 또한, 윈도우의 폭(네거티브 경계 각도에서 포지티브 경계 각도까지)은 전체 각도 폭으로 지칭된다.
본 발명의 실시예들에 따라, 도래 방향 파라미터들, 확산 파라미터들, 및/또는 직접 또는 확산 성분들은, 원래의 도래 방향 파라미터가 관심의 윈도우 내에 있는지의 여부, 예를 들어, DOA-각도 또는 제 1 청취 위치에 관련된 DOA-각도의 크기가 경계 각도 또는 각도 폭(γ)의 크기보다 작은지의 여부, 또는 원래의 도래 방향 파라미터가 관심의 윈도우 이외에 있는지의 여부, 예를 들어, DOA-각도 또는 제 1 청취 위치에 관련된 DOA-각도의 크기가 경계 각도 또는 각도 폭(γ)보다 큰지의 여부에 따라 상이하게 변경될 수 있다. 이는 방향-종속으로서 지칭되며, 대응하는 필터 함수들은 방향 종속 필터 함수들로서 지칭되며, 여기서, 각도 폭 또는 경계 각도(γ)는 대응하는 필터가 파라미터의 증가에서 파라미터의 감소까지 또는 그 역으로 변화하는 각도를 정의한다.
확산 변경 유닛(301b)을 다시 참조하면, 확산 변경 유닛(301b)은 시간/주파수 지수들(k, n), 원래의 도래 방향(φ), 및 줌 제어기(d)에 따르는 함수 fd(k, n, φ, d) 또는 fd에 의해 확산(Ψ)을 변경하도록 적응된다. 도 5b는 필터 함수 fd의 실시예를 도시한다. 필터 fd는, 나중에 설명하게 될 필터 함수 H1의 반전으로서 구현될 수 있지만, 확산 범위에 일치, 예를 들어, [0..1]사이의 범위에 일치하도록 적응된다. 도 5b는 맵핑 함수 또는 필터 fd를 도시하며, 여기서, x-축은 원래 또는 제 1 확산(ψ)을 나타내며, 도 5b에서는 0에서 1까지의 범위를 갖는 ψin로서 지칭되며, y-축은 또한 0에서 1까지의 범위를 갖는 제 2 또는 변경된 확산 ψmod를 나타낸다. 줌이 적용되지 않는 경우(d = 0)에, 필터 fd는 확산을 전혀 변경하지 않으며, 바이패스, 즉, 각각 ψmod=ψin로서 설정된다. 참조 부호(552)는 바이패스 라인을 나타낸다.
원래의 도래 방향이 각도 폭(γ) 내에 있는 경우, 확산은 감소한다. 원래의 도래 방향이 각도 폭(γ) 이외에 있는 경우, 확산은 증가한다. 도 5b는 모양 폭 또는 각도 폭(γ)에 따라 fd의 프로토타입 함수들, 즉 562, 564, 572 및 574를 도시한다. 도 5b에 도시된 예에 있어서, 각도 폭은 γ1보다 γ2가 작다. 즉, γ2<γ1. 따라서, γ2는 γ1보다 큰 줌 팩터(d)에 해당한다.
바이패스 라인(552) 아래의 지역은 필터 fd에 의해 맵핑 이후에 원래의 확산 값(ψin또는 ψ)에 비해 원래의 도래 방향(φ)이 변경된 확산 값(ψmod)의 감소에 의해 반영된 각도 폭(γ) 내에 있는 경우에 변경된 확산 값들(ψmod)을 정의한다. 바이패스 라인(552) 위의 지역은 원래의 도래 방향(φ)이 윈도우 이외에 있는 경우에 변경된 확산 값들(ψmod)로 원래의 확산(ψ)의 맵핑을 나타낸다. 즉, 바이패스 라인(552) 위의 지역은 맵핑 이후에 확산의 증가를 도시한다. 바람직한 실시예들에 있어서, 각도 폭(γ)은 줌 팩터(d)의 증가에 따라 감소한다. 즉, 줌 팩터(d)가 클수록 각도 폭(γ)은 작아진다. 또한, 실시예들은, 줌 팩터(d) 또는 변환 정보가 필터 함수 fd의 각도 폭(γ)뿐만 아니라 각도 또는 팩터에 영향을 주어, 윈도우 내에 있는 경우 확산이 증가하고, 각도 폭(γ)에 의해 정의된 윈도우 이외에 있는 경우 팩터 확산(ψ)이 감소하도록 적응될 수 있다. 이러한 실시예는 도 5b에 도시되어 있으며, 여기서, 각도 폭(γ1)은 줌 팩터(d1)에 대응하고, 각도 폭(γ2)은 줌 팩터(d2)에 대응하며, d2는 d1보다 크고, 이에 따라, 각도 폭(γ2)은 각도 폭(γ1)보다 작다. 또한, 더욱 높은 줌 팩터(d2)에 대응하는 참조 부호(564)에 의해 표시된 함수 fd는 더욱 낮은 줌 팩터(d1)에 대응하는 562로 표시된 필터 함수 fd보다 낮은 변경된 확산 값들(ψmod)로 원래의 확산 값(ψin)을 맵핑 한다. 즉, 필터 함수의 실시예는 더 작은 각도 폭(γ)이 되도록 원래의 확산을 감소시키도록 적응될 수 있다. 대응은 역 방식으로 지역 위의 바이패스 라인(552)에 적용한다. 즉, 필터 함수 fd의 실시예들은 줌 팩터(d) 및 각도 폭(γ)에 따라 변경된 확산 ψmod로 원래의 확산(ψin)을 매핑하도록 적응되거나, 줌 팩터(d)가 클수록 각도 폭(γ)을 작게 하거나, 윈도우 이외의 도래 방향(φ)에 대한 확산을 더 증가시키도록 적응될 수 있다.
다른 실시예들에 있어서, 동일한 방향 종속 윈도우 또는 필터 함수 fd(k, n, φ, d)는 모든 줌 팩터들에 적용된다. 그러나, 높은 변환 또는 줌 팩터들에 대한 작은 각도 폭들을 갖는 상이한 방향 종속 윈도우 또는 필터 함수들의 사용은 사용자의 오디오 경험을 더욱 양호하게 일치시키고, 보다 현실적인 오디오 인식을 제공한다. 상이한 줌 팩터들(윈도우 내의 도래 방향 값(φ)에 대한 줌 팩터를 증가시킴에 따라 확산의 더 큰 감소, 및 도래 방향 값(φ)이 각도 폭(γ)의 경우에 높은 줌 팩터에 대한 확산 값을 증가 또는 높임)에 대한 상이한 맵핑 값들의 응용은 현실적인 오디오 인식을 더 개선한다.
다음은, 예를 들어, 다운믹스 변경 유닛(302)에 의해 실행되는 다운믹스 변경의 실시예들에 대해서 더욱 상세히 설명한다.
다운믹스 신호에 대한 필터들은 출력 신호의 직접 및 확산 부분의 이득을 변경하기 위해 사용된다. 따라서, 공간 오디오 코더 개념의 직접 결과로서, 확성기 신호들은 줌-인 영역의 변경된 사운드는 증폭되지만, 관심 밖의 방향들로부터의 사운드는 감쇠될 수 있다.
다운믹스 신호(112)가 방향성 오디오 코딩(DirAC) 또는 공간 오디오 마이크로폰들(SAM)에 대한 모노 또는 스테레오 신호가 될 수 있으므로, 다음은 변경의 두 개의 상이한 실시예들에 대해 설명한다.
우선, 모노 다운믹스 변경에 대한 실시예, 즉, 모노 다운믹스 오디오 신호 W(112)의 변경에 대한 실시예에 대해 설명한다. 다음 고려 사항에 대해, (1)에 따라 확성기 신호 합성에 이미 적용된 것과 유사한 모노 다운믹스 신호 W(k, n)의 신호 모델을 소개하는데 유용하다.
여기서, S(k, n)는 다운믹스 신호의 직접 사운드 성분을 나타내고, N(k, n)은 원래의 다운믹스 신호의 확산 사운드 성분들을 나타내며, k는 신호가 나타내는 시간 인덱스 또는 시간 순간을 나타내고, n은 주어진 시간 순간(k)에서 신호의 주파수 빈 또는 주파수 채널을 나타낸다.
W mod(k, n)가 변경된 모노 다운믹스 신호를 나타내면, 다음 식에 따라 원래의 다운믹스 신호를 처리하여 얻어진다.
여기서, H 1 (k, n, φ, d) 및 H 2 (k, n, φ, d)는 신호 모델의 직접 및 확산 성분들에 적용된 필터들을 나타내고, φ는 원래의 도래 방향 및 줌 팩터 또는 줌 파라미터를 나타낸다. 직접(112a) 및 확산 사운드 성분들(112b)은 (2), (3)에 유리하게 계산될 수 있으며, 즉,
및
두 필터들은 방향성 종속 가중 함수들이다. 예를 들어, 마이크로폰의 카디오이드 형상 픽업 패턴은 그와 같은 가중 함수들에 대한 설계 기준으로서 선택될 수 있다.
필터 H 1 (k, n, φ, d)는 직접 사운드가 줌-인 영역의 방향들에 대해 증폭되지만, 다른 방향들로부터 들어오는 사운드의 레벨이 감쇠되도록, 상승형 코사인 윈도우(raised cosine window)로서 구현될 수 있다. 일반적으로, 상이한 윈도우 형상들은 직접 및 확산 사운드 성분들에 각각 적용될 수 있다.
윈도우들에 의해 구현된 이득 필터는 실제 변환 또는 줌 제어 팩터(d)에 의해 제어될 수 있다. 예를 들어, 줌은 일반적으로 이득의 폭 및 집중된 방향들에 대한 동일한 이득의 폭을 제어한다. 서로 다른 이득 윈도우들에 대한 예들은 도 6에 제공되어 있다.
도 6은 가중 필터 H 1 (k, n, φ, d)에 대한 서로 다른 이득 윈도우들을 도시한다. 4개의 서로 다른 이득 프로토 형태들이 도시되어 있다.
1. 실선: 줌이 적용되지 않고, 이득이 모든 방향들에 대해 0 dB 이다(612 참조).
2. 사선: 1.3의 줌 팩터가 적용되고, 윈도우 폭은 최대 이득에 대해 210°의 폭을 갖고, 최대 이득은 2.3 dB이다(614 참조).
3. 점선: 2.1의 줌 팩터가 적용되고, 최대 이득에 대한 윈도우 폭은 140°로 감소하며, 최대 이득은 3 dB, 최저 -2.5 dB이 된다(616 참조).
4. 사선-점선: 줌 팩터가 2.8이고, 윈도우 폭은 최대 이득의 30°이며, 이득은 최대 +3 dB 및 최소 -6 dB로 제한된다(618 참조).
도 6으로부터 알 수 있듯이, 도 6에서 0°로 표시된 제 1 청취 방향은 상이한 줌 팩터 종속 방향 종속 윈도우들의 중심을 형성하고, 여기서, 미리 결정된 중심 범위 또는 방향 종속 윈도우들의 폭이 작을수록 줌 팩터가 더 크다. 중심 범위 또는 윈도우의 경계들은 이득이 0 dB이 되는 각도(γ)에 의해 정의된다. 도 6은 동일한 크기를 갖는 포지티브 및 네거티브 경계들과 함께 대칭 윈도우들을 도시한다.
윈도우(614)는 +/- 130°에서 경계들 +/- γ2과 함께 260°의 폭과 함께 미리 결정된 중심 영역 및 최대 이득에 대해 210°의 폭을 갖고, 여기서, 미리 결정된 중심 영역 내측 또는 내부의 직접 성분들은 증가되고, 미리 결정된 중심 영역의 외측의 직접 성분들은 변경 없이 유지된다(이득 = 0 dB).
윈도우(616)는 +/- 90°에서 경계들 또는 각도 폭들 +/- γ3과 함께 180°의 폭과 함께 최대 이득 및 미리 결정된 중심 영역에 대한 140°의 폭을 갖고, 여기서, 미리 결정된 중심 영역 내측 또는 내부의 직접 성분들은 증가되고, 미리 결정된 중심 영역의 외측의 직접 성분들은 감소된다(-2.5dB까지의 네거티브 이득).
윈도우(618)는 +/- 30°에서 경계들 또는 각도 폭들 +/- γ4과 함께 60°의 폭과 함께 최대 이득 및 미리 결정된 중심 영역에 대한 30°의 폭을 갖고, 여기서, 미리 결정된 중심 영역 내측 또는 내부의 직접 성분들은 증가되고, 미리 결정된 중심 영역 외측의 직접 성분들은 감소된다(-6dB까지의 네거티브 이득).
따라서, 특정 실시예에 있어서, 줌 팩터(d)는 폭을 제어하는데, 즉, 네거티브 및 포지티브 경계들 및 전체 폭, 및 프로토타입 윈도우들의 이득을 제어한다. 따라서, 윈도우 폭 및 이득이 원래의 도래 방향들(φ)에 정확하게 적용되도록 미리 설계될 수 있다.
최대 이득은 출력 신호들 내의 왜곡을 피하기 위하여 제한되어야 한다. 여기서 도시된 것과 같은 윈도우의 폭 또는 정확한 형상은 줌 팩터가 이득 윈도우의 다양한 관점에서 어떻게 제어하는지의 예시된 예로서 고려되어야 한다. 다른 구현은 서로 다른 실시예들에서 사용될 수 있다.
필터 H 2 (k, n, φ, d)는 확산 측정 Ψ(k, n)이 변경되는 방법에 대해 유사하게 다운믹스 신호의 확산 부분(112a)을 변경하기 위해 사용되며, 도 7에 도시된 것처럼 서브-카디오이드 윈도우로서 구현될 수 있다. 이와 같은 윈도우들을 적용함으로써, 관심 밖의 방향들로부터 확산 부분은 약간 감쇠하지만, 줌-인 방향들은 변경되지 않거나 거의 변경되지 않는다. 도 7은 도래(φ)의 원래의 방향의 30°와 +30° 사이의 지역에서 변경되지 않은 확산 성분을 거의 유지하고, 원래의 도래 방향(φ)의 0° 방향으로부터 벗어난 각도로 감쇠하는 서브-카디오이드 윈도우(702)를 도시한다. 즉, 줌-인 영역에 대해, 다운믹스 신호의 확산 신호 성분들은 변경되지 않는다. 이는 줌 방향으로 보다 직접 사운드 재생하게 될 것이다. 모든 다른 방향들로부터 나오는 사운드들은, 마이크로폰이 사실상 보다 멀리 배치되기 때문에, 더욱 확산된다. 따라서, 이들 확산 부분들은 원래의 다운믹스 신호의 것들과 비교해 감쇠될 것이다. 물론, 원하는 이득 필터는 이전에 설명한 상승형 코사인 윈도우들을 사용하여 설계될 수도 있다. 그러나, 스케일링이 직접 사운드 변경의 경우보다 덜 현저하게 된다는 것을 주의한다. 다른 실시예들에 있어서, 윈도우들은 줌 팩터에 종속할 수 있는데, 여기서, 윈도우 함수(702)의 기울기는 줌 팩터보다 더 가파르게 된다.
다음에는 스테레오 다운믹스 변경, 즉, 스테레오 다운믹스 신호(W)의 변경에 대한 실시예를 설명한다.
다음은, 다운믹스 변경이 SAM 접근 방식에 요구될 때 스테레오 다운믹스의 경우에 어떻게 수행되어야 하는지를 설명한다. 원래의 스테레오 다운믹스 신호에 대해서, 모노 경우(6)와 유사하게 두 개의 채널들 신호 모델이 도입된다.
또한, 신호 S(k, n)는직접사운드를나타내지만, Ni는 i-th 마이크로폰에 대한 확산 사운드를 나타낸다. (2), (3)과 유사하게, 직접 및 확산 사운드 성분들은 확산 측정에 기초하여 다운믹스 채널들로부터 결정될 수 있다. 이득 팩터(c)는, 두 개의 다운믹스 채널들과 연관된 다른 지향성 패턴으로부터 상승하는 서로 다른 스테레오 채널들의 직접 사운드 성분의 상이한 스케일링에 대응한다. 직접 사운드의 DOA 및 스케일링 팩터의 관계에 대한 자세한 내용은 SAM에서 발견될 수 있다. 이 스케일링이 관찰된 사운드 필드의 사운드의 DOA에 따르기 때문에, 그 값은 변경된 가상 기록 위치로부터 얻은 DOA 리맵핑에 따라 변경되어야 한다.
새로운 가상 마이크로폰 위치에 대응하는 변경된 스테레오 다운믹스 신호는 다음과 같이 기재될 수 있다.
이득 필터들 Gij(k, n, φ, d)의 계산은 모노 다운믹스 경우에 대해 토론 한 것처럼 대응하는 이득 필터들 H i (k, n, φ, d)에 따라 실행된다. 새로운 스테레오 스케일링 팩터 cmod는 새로운 가상 기록 위치에 대응하도록 변경된 DOA의 함수로서 결정된다.
도 2 및 도 3a를 다시 참조하면, 본 발명이 실시예들은 공간 오디오 장면에서 제 1 청취 위치 또는 제 1 청취 방향을 나타내는 제 1 파라메트릭 공간 오디오 신호(112, 114)를 제 2 청취 위치 또는 제 2 청취 방향을 나타내는 제 2 파라메트릭 공간 오디오 신호(212, 214)로 변환하기 위한 장치(300)를 제공하며, 제 2 청취 위치 또는 제 2 청취 방향은 제 1 청취 위치 또는 제 1 청취 방향과는 다르다. 본 장치는 공간 오디오 신호 변경 유닛(301, 302)을 포함한다. 본 장치는 제 2 파라메트릭 공간 오디오 신호(212, 214)를 얻기 위해 제 1 청취 위치 또는 제 1 청취 방향의 변화에 따라 제 1 파라메트릭 스퓨리어스(spurious) 오디오 신호(112, 114)를 변경하도록 적응되며, 여기서, 제 2 청취 위치 또는 제 2 청취 방향은 변화에 의해 변경된 제 1 청취 위치 또는 제 1 청취 방향 변화에 대응한다.
장치(300)의 실시예들은 오직 단일 사이드 정보 파라미터, 예를 들어, 도래 방향(114a) 또는 확산 파라미터(114b), 또는 단지 오디오 다운믹스 신호(112) 또는, 일부 또는 모든 상술한 신호들 및 파라미터들을 변환하도록 적응될 수 있다.
상술한 것처럼, 방향성 오디오 코딩(DirAC)을 사용하는 실시예에 있어서, 아날로그 마이크로폰 신호들은 각각의 시간 순간 또는 블록(k)에 대해서 주파수 표현을 나타내는 마이크로폰 신호들의 다운믹스된 시간/주파수 표현 W(k, n)을 제공하도록 디지털화 및 처리되며, 여기서, 주파수 또는 스펙트럼 표현의 각각의 주파수 빈은 인덱스(n)로 나타낸다. 다운믹스 신호(112)와 함께, 공간 오디오 분석 유닛(100)은, 각각의 주파수 빈(n) 및 각각의 시간 순간(k)에 대해서 방향성 파라미터 또는 정보를 제공하는 각각의 시간 순간(k) 및 대응하는 시간 순간(k)에 대한 각각의 주파수 빈(n)에 대해, 하나의 단위 벡터(eDOA)(식(4) 참조)를 결정한다. 또한, 공간 오디오 분석 유닛(100)은, 각각의 시간 순간(k) 및 각각의 주파수 빈(n)에 대해서, 직접 사운드 또는 오디오 성분들과 확산 사운드 또는 오디오 성분들 사이의 관계를 정의하는 확산 파라미터(ψ)를 결정하며, 여기서, 확산 성분들은, 예를 들어, 두 개 이상의 오디오 소스들 및/또는 오디오 소스들로부터의 오디오 신호들의 반영들에 의해 발생한다.
DirAC는, 오디오 장면을 정의하는 공간 오디오 정보, 예를 들어, 대응하는 하나의 (모노) 다운믹스 오디오 신호 W(k, n) 또는 여러(예를 들어, 스테레오) 다운믹스 오디오 신호들 W1(k, n) 및 W2(k, n)에 관련된 하나의 방향성 정보, 즉 0과 1 사이의 하나의 확산 값 ψ(k, n) 및 유닛 벡터 eDOA(k, n)에 대해서, 마이크로폰들의 오디오 소스들, 반영, 위치 및 방향 및 청취자(각각의 시간 순간(k) 및 각각의 주파수 빈(n)에 대해)를 감소시킴으로써 매우 효율적인 처리 및 효율적인 메모리 코딩이 된다.
따라서, 상술한 방향성 오디오 코딩(DirAC)을 사용하는 실시예들은 각각의 순간(k) 및 각각의 주파수 빈(n)에 대해서, 대응하는 다운믹스 값 W(k, n) 내지 W mod(k, n)에 대응하는 도래 방향 파라미터 값 e(k, n)을 emod(k, n)(φ, φmod로 각각 표시된 도 1 내지 도 3에서)로 변경하거나, 확산 파라미터 값 ψ(k, n)을 ψmod(k, n)로 변경하도록 적응된다.
또한, 공간 오디오 신호 변경 유닛은, 예를 들어, 파라미터 변경 유닛(301) 및 다운믹스 변경 유닛(302)을 포함하거나, 그들로 형성된다. 바람직한 실시예에 따라, 파라미터 변경 유닛(301)은, 변경된 방향성 파라미터(214a)를 결정하고, 원래의 방향성 파라미터(φ)(각각 114a)에 따라 확산 파라미터(ψ)를 처리하고, 원래의 확산 파라미터(ψ)(각각 114b)를 사용하는 식(2 및 3)을 사용하여 다운믹스 신호(112)를 분할하며, 원래의 방향성 파라미터(φ)(각각 114a)에 따라 방향 종속 필터링 H 1 (k, n, φ, d) 및 H 2 (k, n, φ, d)을 적용하기 위해, 원래의 파라미터(114a)를 처리하도록 적응된다. 이전에 설명한 것처럼, 이들 변경들은, 각각의 시간 순간(k) 및 각각의 주파수 순간(n)에 대해서 각각의 변경된 신호들 및/또는 파라미터들을 획득하기 위해, 각각의 시간 순간(k) 및 각각의 주파수 빈(n)에 대해 실행된다.
일 실시예에 따라, 본 장치(300)는, 제어 신호(402), 예를 들어, 회전 제어 신호 또는 줌 제어 신호에 따라 제 2 파라메트릭 공간 오디오 신호의 제 2 방향성 파라미터(214a)를 획득하기 위해, 제 1 파라메트릭 공간 오디오 신호의 제 1 방향성 파라미터(114a)만을 변경하도록 적응된다. 청취 위치/방향의 변경이 변환 또는 줌이 아닌 회전만을 포함하는 경우, 방향성 파라미터 φ(k, n)(114a)의 시프트 또는 대응하는 변경이 충분하다. 대응하는 확산 파라미터들 및 다운믹스 신호 성분들은 변경되지 않은 채 남아 있을 수 있기 때문에, 제 2 다운믹스 신호(212)는 제 1 다운믹스 신호(112)에 대응하고, 제 2 확산 파라미터(214b)는 제 1 확산 파라미터(114b)에 대응한다.
변환의 변화인 경우에, 예를 들어, 줌이 실행되고, 도 5a에 도시된 것처럼 리맵핑 함수에 따른 방향성 파라미터 φ(k, n)(114a)의 변경은 사운드 경험을 미리 개선하고, 오디오 신호와, 예를 들어, 변경되지 않거나 원래의 파라메트릭 공간 오디오 신호에 비교되는 비디오 신호(확산 파라미터 또는 다운믹스 신호의 변경 없이) 사이에 보다 나은 동기화를 제공한다.
필터 fp에 의해 도래 방향을 적응 또는 리맵핑 하는 것만을 포함하는 상기 두 실시예들은 줌 효과의 양호한 임프레션을 미리 제공한다.
다른 실시예에 따라, 본 장치(300)는 필터 H 1 (k, n, φ, d)만을 적용하도록 적응된다. 즉, 본 실시예는 도래 방향 리맵핑 또는 확산 변경을 실행하지 않는다. 본 실시예는. 직접 성분의 방향 종속 가중된 버전을 생성하기 위해, 예를 들어, 다운믹스 신호(112)로부터 직접 성분(112a)만을 결정하고, 필터 함수 H 1 를 직접 성분에 적용하도록 적응된다. 이와 같은 실시예들은 변경된 다운믹스 신호 W mod(212)로서 직접 성분의 방향 종속 가중된 버전의 사용을 위해 더 적응될 수 있거나, 직접 성분의 방향 종속 가중된 버전 및 원래의 또는 변경되지 않은 확산 성분(112b)을 추가, 또는 일반적으로 결합하여, 원래의 다운믹스 신호 W(112)의 확산 성분(112b)을 결정하고 변경된 다운믹스 신호 W mod(212)을 생성하도록 적응될 수 있다. 음향 줌의 개선된 임프레션이 성취될 수 있지만, 줌 효과는, 도래 방향이 변경되지 않기 때문에, 제한된다.
또 다른 실시예에 있어서, 필터들 H 1 (k, n, φ, d) 및 H 2 (k, n, φ, d)는 모두 적용되지만, 도래 방향 리맵핑 또는 확산 변경은 실행되지 않는다. 음향 임프레션은 변경되지 않거나 원래의 파라메트릭 공간 오디오 신호(112, 114)에 비해 개선된다. 줌 임프레션은 또한, 확산 사운드가 존재하지만 여전히 제한될 때, 도래 방향 (φ)이 변경되지 않기 때문에 필터 함수 H 1 (k, n, φ, d)만을 직접 성분에 적용하는 것보다 양호하다(단지 H 1 (k, n, φ, d)만을 이용하는 상술한 실시예 보다 양호).
또 다른 실시예에 있어서는, 단지 필터 fd만이 적용되거나, 또는 즉, 단지 확산 성분(ψ)만이 변경된다. 줌 효과는, 줌-인 지역들(관심의 지역들)의 확산이 감소하고, 관심 밖의 값들이 증가하기 때문에, 원래의 파라메트릭 공간 오디오 신호(112, 114)에 비해 개선된다.
다른 실시예들은 필터 H 1 (k, n, φ, d)만을 적용하여 도래 방향(φ)에 의해 필터 함수 fp의 리맵핑을 실행하도록 적응된다. 즉, 이러한 실시예들은 필터 함수 fd에 따라 확산 변경을 실행하지 않고, 제 2 필터 함수 H 2 (k, n, φ, d)를 원래의 다운믹스 신호 W(112)의 확산 성분에 적용하지 않는다. 이러한 실시예들은 도래 방향 리맵핑만을 적용하는 것보다 양호한 줌 임프레션을 제공한다.
두 필터 함수들 H 1 (k, n, φ, d) 및 H 2 (k, n, φ, d)을 사용하는 다운믹스 변경과 함께 함수 fp에 따른 도래 방향 리맵핑을 적용하는 실시예들은 제 1 필터 함수 H 1 만을 적용하는 것과 함께 단지 도래 방향 리맵핑만을 적용하는 것보다 더 양호한 줌 임프레션들을 제공한다.
함수 fp에 따라 도래 방향 리맵핑을 적용하여, 필터들 H 1 (k, n, φ, d) 및 H 2 (k, n, φ, d)을 사용하는 다운믹스 변경과, 함수 fd를 사용하는 확산 메디케이션(medication)은 최적의 음향 줌 구현을 제공한다.
다시 본 실시예를 참조하면, 리맵핑 단지 도래 방향만을 리맵핑하고, 부가적으로, 확산 파라미터(114b)를 변경하는 것은 오디오 경험을 더 개선하거나, 즉, 공간 오디오 장면 내의 변경된 위치에 관하여 사운드 경험의 적응을 개선한다. 따라서, 다른 실시예들에 있어서, 본 장치(300)는 방향성 파라미터 φ(k, n) 및 확산 파라미터 ψ(k, n)를 변경할 뿐만 아니라, 다운믹스 신호 W(k, n) (100)도 변경하도록 적응될 수 있다.
상기 언급한 장치(300)의 바람직한 실시예들은 공간 오디오 장면에서 변경된 위치에 대하여 오디오 경험을 더 개선하기 위해 다운믹스 신호 W(k, n)를 변경하는 것을 또한 포함한다.
따라서, 실시예들에 있어서, 제 1 방향성 파라미터 φ(k, n)(114a)는 벡터이고, 파라미터 변경 유닛(301)은, 제 2 방향성 파라미터 φmod(k, n)(214a)을 획득하기 위해, 회전 제어 신호에 의해 정의된 방향과 반대 방향으로 회전 제어 신호에 의해 정의된 각도로 제 1 방향성 파라미터를 시프트 또는 변경하도록 적응된다.
다른 실시예들에 있어서, 파라미터 변경 유닛(301)은, 제 1 방향성 파라미터 φ(k, n)에 따른 제 2 방향성 파라미터(214a)로 정의되는 비선형 맵핑 함수(예를 들어, 도 5a에 도시된 것처럼)와, 줌 제어 신호(402) 또는 변경 신호에 의해 정의된 다른 변환 제어 정보에 의해 정의된 줌 팩터(d)를 사용하여 제 2 방향성 파라미터(214a)를 획득하도록 적응된다.
상술한 것처럼, 다른 실시예들에 있어서, 파라미터 변경 유닛(301)은, 제 1 방향성 파라미터 φ(k, n)(114a)에 따라 제 2 확산 파라미터 ψmod(k, n)(214b)를 획득하기 위해, 제 1 파라메트릭 공간 오디오 신호의 제 1 확산 파라미터 ψ(k, n)(114b)를 변경하도록 적응될 수 있다. 파라미터 변경 유닛은, 제 1 방향성 파라미터 φ(k, n)가 미리 결정된 중심 범위, 예를 들어, 원래의 기준 방향의 γ = +/- 30° 이내에 있는 경우(도 5b 참조)에, 제 2 확산 파라미터 ψmod(k, n)를 획득하기 위해 제 1 확산 파라미터 ψ(k, n)를 감소시키고, 및/또는 제 1 방향성 파라미터 φ(k, n)가 미리 결정된 중심 범위 이외에 있는 경우, 예를 들어, 0° 원래의 기준 방향으로부터 + γ = +30° 및 - γ = -30° 로 정의된 중심 범위 이외의 2차원 경우에, 제 2 확산 파라미터 ψmod(k, n)를 획득하기 위해 제 1 확산 파라미터 ψ(k, n)를 증가시키도록 적응된 방향 종속 함수를 사용하여 제2 확산 파라미터 ψmod(k, n)를 획득하도록 또한 적응될 수 있다.
즉, 특정 실시예들에 있어서, 파라미터 변경 유닛(301, 310b)은, 제 1 방향성 파라미터(114a)가 미리 결정된 2차원 또는 3차원 중심 범위의 중심을 형성하는 제 2 또는 변경된 청취 방향으로 제 2 방향성 파라미터의 미리 결정된 중심 범위 이내에 있는 경우에 제 2 확산 파라미터(214b)를 획득하기 위해 제 1 확산 파라미터(114b)를 감소시키고, 및/또는 제 1 방향성 파라미터(114a)가 미리 결정된 중심 범위 이외에 있는 경우에 제 2 확산 파라미터를 획득하기 위해 제 1 확산 파라미터(114b)를 증가시키도록 적응된 방향 종속 함수를 사용하여 제 2 확산 파라미터(214b)를 획득하도록 적응된다. 제 1 또는 원래의 청취 방향은 중심, 예를 들어, 제 1 방향성 파라미터의 미리 결정된 중심 범위의 0°를 정의하며, 여기서, 미리 결정된 중심 범위의 포지티브 및 네거티브 경계는, 제 2 청취 방향이 2차원 또는 3차원 벡터의 여부와 관계없이, 또는 3차원 제 1 청취 방향 주위의 직원뿔(right circular cone)을 정의하는 대응 각도(γ)(예를 들어 30°)에 의해, 2차원(예를 들어 수평) 평면(예를 들어 +/-30°)에서 포지티브 및 네거티브 각도(γ)에 의해 정의된다. 다른 실시예들은 제 1 청취 방향을 정의하는 벡터 또는 제 1 청취 방향 주위에 대칭 및 비대칭, 배열 또는 중심이 되는 서로 다른 미리 결정된 중심 영역들 또는 윈도우들을 포함할 수 있다.
다른 실시예들에 있어서, 방향-종속 함수 fd(k, n, φ, d)는 변경 신호, 예를 들어, 줌 제어 신호에 따르며, 여기서, 미리 결정된 중심 범위, 즉 중심 범위의 네거티브 및 포지티브 경계(또는 일반적으로 경계)를 정의하는 값들(γ) 각각이 작을수록 변환의 변화는 더 크거나, 줌 제어 신호에 의해 정의된 줌 벡터는 더 크게 된다.
다른 실시예들에 있어서, 공간 오디오 신호 변경 유닛은, 제 1 방향성 파라미터 φ(k, n) 및 제 1 확산 파라미터 ψ(k, n)에 따라 제 2 파라메트릭 공간 오디오 신호의 제 2 다운믹스 신호 W mod(k, n)를 획득하기 위해 제 1 파라메트릭 공간 오디오 신호의 제 1 다운믹스 오디오 신호 W(k, n)를 변경하도록 적응된 다운믹스 변경 유닛(302)을 더 포함한다. 다운믹스 변경의 유닛(302)의 실시예들은, 예를 들어, 식(2 및 3)에 기초하여 제 1 확산 파라미터 ψ(k, n)에 따라 제 1 다운믹스 오디오 신호(W)를 직접 성분 S(k, n)(112a) 및 확산 성분 N(k, n)(112b)으로 분할하도록 적응될 수 있다.
다른 실시예들에 있어서, 다운믹스 변경 유닛(302)은 직접 성분의 방향 종속 가중된 버전을 획득하기 위해 제 1 방향 종속 함수 H 1 (k, n, φ, d)를 적용하거나, 확산 성분의 방향-종속 가중된 버전을 획득하기 위해 제 2 방향 종속 함수 H 2 (k, n, φ, d)를 확산 성분에 적용하도록 적응된다. 다운믹스 변경 유닛(302)은 다른 방향 종속 함수 H 1 (k, n, φ, d)를 직접 성분에 적용하여 직접 성분(112a)의 방향 종속 가중된 버전을 생성하도록 적응되며, 다른 방향 종속 함수는, 제 1 방향성 파라미터(114a)가 제 1 방향성 파라미터들의 다른 미리 결정된 중심 범위 내에 있는 경우에 직접 성분(112a)을 증가시키거나, 제 1 방향성 파라미터(114a)가 제 2 방향성 파라미터들의 다른 미리 결정된 범위 이외에 있는 경우에 직접 성분(112a)을 감소시키도록 적응된다. 또 다른 실시예들에 있어서, 다운믹스 변경 유닛은 방향 종속 함수 H 2 (k, n, φ, d)를 확산 성분(112b)에 적용하여 확산 성분(112b)의 방향 종속 가중된 버전을 생성하도록 적응될 수 있으며, 방향 종속 함수는 제 1 방향성 파라미터(114a)가 제 1 방향성 파라미터들의 미리 결정된 중심 범위 내에 있는 경우에 확산 성분을 감소시키고, 및/또는 제 1 방향성 파라미터(114a)가 제 2 방향성 파라미터들의 미리 결정된 범위 이외에 있는 경우에 확산 성분(112b)을 증가시키도록 적응된다.
다른 실시예들에 있어서, 다운믹스 변경 유닛(302)은, 조합에 기초하여, 예를 들어 직접 성분(112a)의 방향 종속 가중된 버전과 확산 성분(112b)의 방향 종속 가중된 버전의 합에 기초하여 제 2 다운믹스 신호(212)를 획득하도록 적응된다. 그러나, 다른 실시예들은 변경된 다운믹스 신호(212)를 획득하기 위해 두 개의 성분들을 합하는 것 이외에 다른 알고리즘들을 적용할 수 있다.
이전에 설명한 것처럼, 다운믹스 변경 유닛(302)의 실시예들은 두 개의 승산기들, 즉 (ψ)1/2 및 (1-ψ)1/2에 의해 다운믹스 신호(W)를 확산 부분 또는 성분(112b) 및 비확산 또는 직접 부분 또는 성분(112a)으로 분할하고, 필터 함수 H 2 에 의해 비-확산 부분(112a)을 필터링하고 필터 함수 H 2 에 의해 필터 확산 부분(112b)을 필터링 하도록 적응될 수 있다. 필터 함수 H 1 또는 H 1 (k, n, φ, d)은 시간/주파수 지수들(k, n), 원래의 도래 방향(φ) 및 줌 파라미터(d)에 종속될 수 있다. 필터 함수 H 1 은 확산(ψ)에 부가적으로 종속될 수 있다. 필터 함수 H 2 또는 H 2 (k, n, φ, d)는 시간/주파수 지수들(k, n), 원래의 도래 방향(φ), 및 줌 파라미터(d)에 종속될 수 있다. 필터 함수 H 2 는 부가적으로 확산(ψ)에 종속될 수 있다. 이전에 설명한 것처럼, 필터 함수 H 2 는 도 7에 도시된 것과 같은 서브-카디오이드 윈도우 에 의해 구현될 수 있거나, 도래 방향(φ)과 무관하게 단순히 감쇠 팩터로서 구현될 수 있다.
상술한 설명을 참조하면, 줌 파라미터(d)는 제어 필터들 H 1 , H 2 및 수정자들(modifiers) 또는 함수들 fd 및 fp(도 3a 참조)에 사용될 수 있다. 필터 함수 H 1 및 fd에 대해서, 줌 파라미터(d)는 적용된 윈도우들 또는 중심 영역들의 모양 폭 또는 각도 폭(γ)(또한, 경계 각도(γ)로서 지칭)을 제어할 수도 있다. 폭(γ)은 예를 들어, 필터 함수가 0 dB(예를 들어, 도 6에서 0 dB 라인 참조)을 갖는 각도로서 정의된다. 각도 폭(γ) 및/또는 이득은 줌 파라미터(d)에 의해 제어될 수 있다. γ에 대한 상이한 값들 및 상이한 최대 이득들 및 최소 이득들의 예는 도 6에 주어진다.
본 장치의 실시예들이 상기에 설명되었고, 여기서, 방향 종속 함수들 및 가중은 제 1 또는 원래의 방향성 파라미터(φ)(도 3a 참조)에 따른다. 다른 실시예들은 제 2 또는 변경된 방향성 파라미터(φmod)에 따라 제 2 또는 변경된 확산(ψmod) 및/또는 필터 함수들 H 1 및 H 2 중 하나 또는 둘 다를 결정하도록 적응될 수 있다. α 가 원래의 방향성 파라미터(φ)에 대응하고, β가 변경된 방향성 파라미터(φmod)(줌-인에 대해)에 대응하는 도 4로부터 결정될 수 있는 것처럼, 줌 팩터(d)가 크면 클수록 더 많은 개체(B)가 중심 또는 정면 위치에서 측면 위치로 이동하고, 또는, 심지어(도 4에 도시된 것보다 더 큰 줌 팩터들의 경우), 가상으로 변경된 위치의 뒤쪽의 위치로 이동한다. 즉, 줌 팩터(d)가 크면 클수록, 청취자의 정면 지역 내의 위치를 나타내는 초기 작은 각도의 크기가 더 증가하며, 여기서, 큰 각도들은 청취자의 측면 지역 내의 위치들을 나타낸다. 방향성 파라미터의 이러한 변경은 도 5a에 도시된 것처럼 함수를 적용하여 고려된다. 또한, 방향 종속 윈도우들 또는 다른 파라미터들과 직접 및 확산 성분들에 대한 함수들은, 도 5a에 도시된 것과 같은 도래 방향 또는 방향성 파라미터 맵핑에 대응하는 비선형 방식으로 줌(d)을 증가시켜 각도 폭(γ)을 감소시켜, 원래의 방향성 파라미터 또는 각도의 변경을 고려하여 설계될 수도 있다. 따라서, 이들 방향 종속 윈도우들 또는 함수들은, 원래의 방향성 파라미터가 직접 사용될 수 있거나(예를 들어, 함수 fp에 의해 사전 변경 없이), 대안으로, 제 1 방향성 파라미터 맵핑 fp이 수행되고 이후에 변경된 방향성 파라미터에 기초한 방향 종속 가중 fd, H 1 및/또는 H 2 )이 유사한 방식으로 실행되도록 적응될 수 있다. 따라서, 도 4를 다시 참조하면, 원래의 방향성 파라미터(줌-인에 대해)를 나타내는 α에 직접 참조하는 방향성 종속 함수들 fd, H 1 및 H 2 , 또는 변경된 방향성 파라미터를 나타내는 β를 참조하는 방향성 종속 함수들 fd, H 1 및 H 2 둘 모두 가능하다.
변경된 방향성 파라미터를 사용하는 실시예들은, 원래의 방향성 파라미터를 사용하는 실시예들과 유사하게, 상이한 줌 팩터들에 대한 상이한 각도 폭들 및/또는 상이한 이득들을 갖는 서로 다른 윈도우들, 또는, 동일한 각도 폭(방향성 파라미터가 상이한 줌 팩터들의 반영으로 이미 매핑 되었기 때문에) 및 동일한 이득을 갖는 동일한 윈도우들, 또는 동일한 각도 폭들을 갖지만 상이한 이득들을 갖는 윈도우들을 사용할 수 있으며, 여기서, 큰 줌 팩터는 큰 이득을 나타낸다(도 6에서 윈도우들과 유사).
도 3b는 장치의 다른 실시예를 도시한다. 도 3b에서 공간 오디오 신호 변경 유닛은 예를 들어, 파라미터 변경 유닛(301) 및 다운믹스 변경 유닛(302)을 포함하거나 그들로 형성된다. 대안의 실시예에 따라, 파라미터 변경 유닛(301)은, 변경된 방향성 파라미터(214a)를 결정하기 위해 원래의 파라미터(114a)를 먼저 처리하고, 이후에 변경된 방향성 파라미터(φmod)(각각의 214a)에 따라 확산 파라미터(ψ)를 처리하고, 도 3a에 기초하여 설명한 것처럼 식들(2 및 3) 및 원래의 확산 파라미터(ψ)(각각의 114b)를 사용하여 다운믹스 신호(112)를 분할하고, 변경된 방향성 파라미터(φmod)(각각의 214a)에 따라 방향 종속 필터링 H 1 및 H 2 를 적용하도록 적응된다. 이전에 설명한 것처럼, 이들 변경들은, 각각의 시간 순간(k) 및 각각의 주파수 순간(n)에 대해서 각각 변경된 신호들 및/또는 파라미터들을 획득하기 위해 각각의 시간 순간(k) 및 각각의 주파수 빈(n)에 대해 실행된다.
도 3b에 따른 장치(300)의 다른 대안의 실시예에 따라, 파라미터 변경 유닛(301)은, 변경된 방향성 파라미터(214a)를 결정하기 위해 원래의 파라미터(114a)를 처리하고, 변경된 확산 파라미터(ψmod 또는 214b)를 결정하기 위해 원래의 방향성 파라미터(φ 또는 114a)에 따라 확산 파라미터(ψ)를 처리하고, 도 3a에 기초하여 설명한 것처럼 식들(2 및 3)과 원래의 확산 파라미터(ψ 또는 114b)를 이용하여 다운믹스 신호(112)를 분할하고, 변경된 방향성 파라미터(φmod, 또는 214a)에 따라 방향 종속 필터링 H 1 및 H 2 를 적용하도록 적응된다.
일 실시예에 따라, 도 3b에 따른 장치(300)는, 제어 신호(402), 예를 들어, 회전 제어 신호 또는 줌 제어 신호에 따라 제 2 파라메트릭 공간 오디오 신호의 제 2 방향성 파라미터(214a)를 획득하기 위해 제 1 파라메트릭 공간 오디오 신호의 제 1 방향성 파라미터(114a)만을 변경하도록 적응된다. 청취 위치/방향의 변화가 회전 및 변환 또는 줌이 없는 회전만을 포함하는 경우에, 방향성 파라미터 φ(k, n)(114a)의 대응하는 변경 또는 시프트는 충분하다. 대응하는 확산 파라미터들 및 다운믹스 신호 성분들은 변경되지 않은 채 남아 있을 수 있기 때문에, 제 2 다운믹스 신호(212)는 제 1 다운믹스 신호(112)에 대응하고, 제 2 확산 파라미터(214b)는 제 1 확산 파라미터(114b)에 대응한다.
변환의 변화인 경우에, 예를 들어, 줌이 실행되고, 도 5a에 도시된 것처럼 리맵핑 함수에 따른 방향성 파라미터 φ(k, n)(114a)의 변경은 사운드 경험을 미리 개선하고, 오디오 신호와, 예를 들어, 변경되지 않거나 원래의 파라메트릭 공간 오디오 신호에 비교되는 비디오 신호(확산 파라미터 또는 다운믹스 신호의 변경 없이) 사이에 보다 나은 동기화를 제공한다.
확산 파라미터(114b)를 변경하는 것은 오디오 경험을 더 개선하거나, 즉 공간 오디오 장면 내에 변경된 위치에 대하여 사운드 경험의 적응을 개선한다. 따라서, 다른 실시예들에 있어서, 장치(300)는 변경된 방향성 파라미터 φmod(k, n)에 따라 방향성 파라미터 φ(k, n) 및 확산 파라미터 ψ(k, n)만을 변경할 뿐만 아니라 다운믹스 신호 W(k, n)(100)를 변경하도록 적응될 수 있다.
도 3b에 따른 장치(300)의 바람직한 실시예들은 공간 오디오 장면에서 변경된 위치에 대하여 오디오 경험을 더 개선하기 위해 원래의 확산 ψ(k, n) 및 변경된 방향성 파라미터 φmod(k, n)에 따라 다운믹스 신호 W(k, n)를 변경하는 것을 또한 포함한다.
따라서, 실시예들에 있어서, 제 1 방향성 파라미터 φ(k, n)(114a)는 벡터이고, 파라미터 변경 유닛(301)은, 제 2 방향성 파라미터 φmod(k, n) (214a)를 획득하기 위해, 회전 제어 신호에 의해 정의된 방향과 반대 방향으로 회전 제어 신호에 의해 정의된 각도로 제 1 방향성 파라미터를 시프트 또는 변경하도록 적응된다.
다른 실시예들에 있어서, 파라미터 변경 유닛(301)은, 제 1 방향성 파라미터 φ(k, n)에 따른 제 2 방향성 파라미터(214a)로 정의되는 비선형 맵핑 함수(예를 들어, 도 5a에 도시된 것처럼)와, 줌 제어 신호(402) 또는 변경 신호에 의해 정의된 다른 변환 제어 정보에 의해 정의된 줌 팩터(d)를 사용하여 제 2 방향성 파라미터(214a)를 획득하도록 적응된다.
상술한 것처럼, 다른 실시예들에 있어서, 파라미터 변경 유닛(301)은, 제 2 방향성 파라미터 φmod(k, n)(214a)에 따라 제 2 확산 파라미터 ψmod(k, n)(214b)를 획득하기 위해, 제 1 파라메트릭 공간 오디오 신호의 제 1 확산 파라미터 ψ(k, n)(114b)를 변경하도록 적응될 수 있다. 파라미터 변경 유닛은, 제 2 방향성 파라미터 φmod(k, n)가 미리 결정된 중심 범위, 예를 들어, 원래의 0° 방향으로 지칭되는 원래의 기준 방향의 +/- 30° 이내에 있는 경우에, 제 2 확산 파라미터 ψmod(k, n)를 획득하기 위해 제 1 확산 파라미터 ψ(k, n)를 감소시키고, 및/또는 제 2 방향성 파라미터 φmod(k, n)가 미리 결정된 중심 범위 이외에 있는 경우, 예를 들어, 0° 원래의 기준 방향으로부터 +30° 및 -30° 로 정의된 중심 범위 이외의 2차원 경우에, 제 2 확산 파라미터 ψmod(k, n)를 획득하기 위해 제 1 확산 파라미터 ψ(k, n)를 증가시키도록 적응된 방향 종속 함수를 사용하여 제 2 확산 파라미터 ψmod(k, n)를 획득하도록 또한 적응될 수 있다.
즉, 특정 실시예들에 있어서, 파라미터 변경 유닛(301, 310b)은, 제 2 방향성 파라미터(214a)가 미리 결정된 2차원 또는 3차원 중심 범위의 중심을 형성하는 제 1 또는 원래의 청취 방향으로 제 2 방향성 파라미터의 미리 결정된 중심 범위 이내에 있는 경우에 제 2 확산 파라미터(214b)를 획득하기 위해 제 1 확산 파라미터(114b)를 감소시키고, 및/또는 제 2 방향성 파라미터(214a)가 미리 결정된 중심 범위 이외에 있는 경우에 제 2 확산 파라미터를 획득하기 위해 제 1 확산 파라미터(114b)를 증가시키도록 적응된 방향 종속 함수를 사용하여 제 2 확산 파라미터(214b)를 획득하도록 적응된다. 제 1 청취 방향은 중심, 예를 들어, 제 2 방향성 파라미터의 미리 결정된 중심 범위의 0°를 정의하며, 여기서, 미리 결정된 중심 범위의 포지티브 및 네거티브 경계는, 제 1 청취 방향이 2차원 또는 3차원 벡터의 여부와 관계없이, 또는 3차원 제 2 청취 방향 주위의 직원뿔을 정의하는 대응 각도(예를 들어 30°)에 의해, 2차원(예를 들어 수평) 평면(예를 들어 +/-30°)에서 포지티브 및 네거티브 각도에 의해 정의된다. 다른 실시예들은 제 1 청취 방향을 정의하는 벡터 또는 제 1 청취 방향 주위에 대칭 및 비대칭, 배열되는 서로 다른 미리 결정된 중심 영역들을 포함할 수 있다.
다른 실시예들에 있어서, 방향-종속 함수 fd(ψ)는 변경신호, 예를 들어, 줌 제어 신호에 따르며, 여기서, 미리 결정된 중심 범위, 즉 중심 범위의 네거티브 및 포지티브 경계(또는 일반적으로 경계)를 정의하는 값들 각각이 작을수록 변환의 변화는 더 크거나, 줌 제어 신호에 의해 정의된 줌 벡터는 더 크게 된다.
다른 실시예들에 있어서, 공간 오디오 신호 변경 유닛은, 제 2 방향성 파라미터 φmod(k, n) 및 제 1 확산 파라미터 ψ(k, n)에 따라 제 2 파라메트릭 공간 오디오 신호의 제 2 다운믹스 신호W mod(k, n)를 획득하기 위해 제 1 파라메트릭 공간 오디오 신호의 제 1 다운믹스 오디오 신호 W(k, n)를 변경하도록 적응된 다운믹스 변경 유닛(302)을 더 포함한다. 다운믹스 변경의 유닛(302)의 실시예들은, 예를 들어, 식(2 및 3)에 기초하여 제 1 확산 파라미터 ψ(k, n)에 따라 제 1 다운믹스 오디오 신호(W)를 직접 성분 S(k, n)(112a) 및 확산 성분 N(k, n)(112b)으로 분할하도록 적응될 수 있다.
다른 실시예들에 있어서, 다운믹스 변경 유닛(302)은 직접 성분의 방향 종속 가중된 버전을 획득하기 위해 제 1 방향 종속 함수 H 1 을 적용하거나, 확산 성분의 방향-종속 가중된 버전을 획득하기 위해 제 2 방향 종속 함수 H 2 를 확산 성분에 적용하도록 적응된다. 다운믹스 변경 유닛(302)은 다른 방향 종속 함수 H 1 을 직접 성분에 적용하여 직접 성분(112a)의 방향 종속 가중된 버전을 생성하도록 적응되며, 다른 방향 종속 함수는, 제 2 방향성 파라미터(214a)가 제 2 방향성 파라미터들의 다른 미리 결정된 중심 범위 내에 있는 경우에 직접 성분(112a)을 증가시키거나, 제 2 방향성 파라미터(214a)가 제 2 방향성 파라미터들의 다른 미리 결정된 범위 이외에 있는 경우에 직접 성분(112a)을 감소시키도록 적응된다. 또 다른 실시예들에 있어서, 다운믹스 변경 유닛은 방향 종속 함수 H 2 를 확산 성분(112b)에 적용하여 확산 성분(112b)의 방향 종속 가중된 버전을 생성하도록 적응될 수 있으며, 방향 종속 함수는 제 2 방향성 파라미터(214a)가 제 2 방향성 파라미터들의 미리 결정된 중심 범위 내에 있는 경우에 확산 성분을 감소시키고, 및/또는 제 2 방향성 파라미터(214a)가 제 2 방향성 파라미터들의 미리 결정된 범위 이외에 있는 경우에 확산 성분(112b)을 증가시키도록 적응된다.
다른 실시예들에 있어서, 다운믹스 변경 유닛(302)은, 조합에 기초하여, 예를 들어 직접 성분(112a)의 방향 종속 가중된 버전과 확산 성분(112b)의 방향 종속 가중된 버전의 합에 기초하여 제 2 다운믹스 신호(212)를 획득하도록 적응된다. 그러나, 다른 실시예들은 변경된 다운믹스 신호(212)를 획득하기 위해 두 개의 성분들을 합하는 것 이외에 다른 알고리즘들을 적용할 수 있다.
이전에 설명한 것처럼, 도 3b에 따라 다운믹스 변경 유닛(302)의 실시예들은 두 개의 승산기들, 즉 (ψ)1/ 2및 (1-ψ)1/2에 의해 다운믹스 신호(W)를 확산 부분 또는 성분(112b) 및 비확산 또는 직접 부분 또는 성분(112a)으로 분할하고, 필터 함수 H 1 에 의해 비-확산 부분(112a)을 필터링하고, 필터 함수 H 2 에 의해 필터 확산 부분(112b)을 필터링 하도록 적응될 수 있다. 필터 함수 H 1 또는 H 1 (φ,ψ)는 시간/주파수 지수들(k, n), 변경된 도래 방향 및 줌 파라미터(d)에 종속될 수 있다. 필터 함수 H 1 은 확산(ψ)에 부가적으로 종속될 수 있다. 필터 함수 H 2 또는 H 2 (φ,ψ))는 시간/주파수 지수들(k, n), 원래의 도래 방향(φ), 및 줌 파라미터(d)에 종속될 수 있다. 필터 함수 H 2 는 부가적으로 확산(ψ)에 종속될 수 있다. 이전에 설명한 것처럼, 필터 함수 H 2 는 도 7에 도시된 것과 같은 서브-카디오이드 윈도우에 의해 구현될 수 있거나, 도래 방향(φmod)과 무관하게 단순히 감쇠 팩터로서 구현될 수 있다.
상술한 설명을 참조하면, 또한 도 3b에 따른 실시예들에 있어서, 줌 파라미터(d)는 제어 필터들 H 1 , H 2 및 수정자들(modifiers) 또는 함수들(fd 및 fp)에 사용될 수 있다. 필터 함수 H 1 및 fd에 대해서, 줌 파라미터(d)는 적용된 윈도우들 또는 중심 영역들의 제어 각도 폭(γ)(또한, 경계 각도(γ)로서 지칭)을 제어할 수도 있다. 폭(γ)은 예를 들어, 필터 함수가 0 dB(예를 들어, 도 6에서 0 dB 라인과 유사)을 갖는 각도로서 정의된다. 각도 폭(γ) 및/또는 이득은 줌 파라미터(d)에 의해 제어될 수 있다. 일반적으로, 도 3a에 따른 실시예들에 관련하여 주어진 설명은 도 3b에 따른 실시예들과 동일한 방식 또는 적어도 유사한 방식으로 적용될 수 있음을 유의해야 한다.
다음은, 본 발명의 실시예들이 비디오 카메라의 줌 제어로 인식된 오디오 이미지를 조정하여 공동 비디오/오디오 재생의 개선된 경험을 유도하는 예시적인 응용들을 설명한다.
전화 회의에 있어서, 액티브 스피커를 향하여 카메라를 자동으로 조정하는 최첨단 기술이다. 이는 통상적으로 토커(talker)에 가깝게 줌 처리하여 연결된다. 사운드는 일반적으로 화면과 일치하지 않는다. 본 발명의 실시예들은 액티브 토커(active talker)에 음향적으로 줌-인의 가능성을 제공한다. 전체 임프레션은, 화면이 초점의 변경되는 것뿐만 아니라 사운드가 주목의 원하는 변화와 일치하기 때문에, 원거리 단말 사용자들에 보다 현실적이다. 간단히, 음향 큐들(cues)은 시각적인 큐들에 해당한다.
예를 들어, 가정 오락 기기용 현대 캠코더들은 서라운드 사운드를 기록할 수 있고, 강력한 광학 줌을 갖는다. 그러나, 기록된 공간 사운드가 카메라의 실제 위치에만 의존하고 이에 의해 카메라 자체에 장착된 마이크로폰들의 위치에만 의존하기 때문에, 광학 줌과 기록된 사이즈 사이의 지각 상응하는 상호 작용이 존재하지 않는다. 클로즈-업 모드에서 촬영된 장면의 경우에, 본 발명은 그에 따라 오디오 이미지를 조정할 수 있다. 이는, 사운드가 화면과 함께 줌 처리되기 때문에, 더욱 자연스럽고 일관성 있는 고객 경험을 유도한다.
본 발명은, 원래의 마이크로폰 신호들이 비디오와 함께 변경되지 않고 기록되고 다른 처리가 실행되지 않은 경우에, 후처리 단계에도 적용될 수 있다는 것이 언급되어야 한다. 원래의 줌 거리가 알려져 있지 않아도, 본 발명은 창조적인 오디오-비주얼 후처리 툴박스들(toolboxes)에 사용될 수 있다. 임의의 줌-길이가 선택될 수 있고, 음향 줌은 사용자에 의해 화면에 일치하도록 조정될 수 있다. 대안으로, 사용자는 그 자신의 바람직한 공간 효과들을 작성할 수 있다. 이들 경우에 있어서, 원래의 마이크로폰 기록 위치는 사용자 정의된 가상 기록 위치로 변경될 수 있다.
본 발명의 방법들의 특정 구현 요구 사항에 따라, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 이러한 구현은, 본 발명의 방법의 실시예가 실행될 수 있도록 프로그램 가능한 컴퓨터 시스템과 협력하는, 디지털 저장 매체, 특히, 전기적으로 판독 가능한 제어 신호가 저장된 디스크, CD, DVD 또는 블루-레이 디스크를 사용하여 구현될 수 있다. 따라서, 일반적으로, 본 발명의 실시예는 기계-판독 가능한 캐리어에 저장된 프로그램 코드로 생성되는 컴퓨터 프로그램이며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터상에서 실행할 때 본 발명의 방법을 실행하도록 동작된다. 따라서, 본 발명의 방법의 실시예들은 컴퓨터 프로그램이 컴퓨터 상에서 실행할 때 적어도 하나의 본 발명의 방법들을 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
앞서 설명은 그 특정 실시예를 참조하여 특히 도시 및 설명되었다. 본 기술에 숙련된 사람은 본 발명의 정신과 범위를 벗어나지 않고 형태 및 상세 사항에 있어 다른 여러 변경안이 구성될 수 있음을 알 수 있다. 따라서, 여러 변경안이 본 명세서에 기재된 광범위한 개념으로부터 벗어나지 않고 다른 실시예들을 적응시켜 구성될 수 있고, 다음 특허 청구 범위에 의해 포함될 수 있음을 알 수 있다.
Claims (18)
- 공간 오디오 장면에서 제 1 청취 위치 또는 제 1 청취 방향을 나타내는 제 1 파라메트릭 공간 오디오 신호(112, 114)를 제 2 청취 위치 또는 제 2 청취 방향을 나타내는 제 2 파라메트릭 공간 오디오 신호(212, 214)로 변환하는 장치(300)로서, 상기 장치는,
상기 제 2 파라메트릭 공간 오디오 신호(212, 214)를 획득하기 위하여, 상기 제 1 청취 위치 또는 상기 제 1 청취 방향의 변화에 따라 상기 제 1 파라메트릭 공간 오디오 신호(112, 114)를 변경하는 공간 오디오 신호 변경 유닛(301, 302)을 포함하되,
상기 제 2 청취 위치 또는 상기 제 2 청취 방향은 상기 변화에 의해 변화된 상기 제 1 청취 위치 또는 상기 제 1 청취 방향에 대응하는, 장치. - 청구항 1에 있어서,
상기 공간 오디오 신호 변경 유닛(301, 302)은, 상기 변화에 대응하는 정보를 제공하는 제어 신호(402)에 따라 상기 제 2 파라메트릭 공간 오디오 신호(212, 214)의 제 2 방향성 파라미터(214a)를 획득하기 위하여 상기 제 1 파라메트릭 공간 오디오 신호(112, 114)의 제 1 방향성 파라미터(114a)를 변경하는 파라미터 변경 유닛(301, 301a)을 포함하는, 장치. - 청구항 2에 있어서,
상기 제 1 방향성 파라미터(114a) 및 상기 제 2 방향성 파라미터(214a)는 2차원 또는 3차원 벡터들인, 장치. - 청구항 2 또는 청구항 3에 있어서,
상기 제 1 방향성 파라미터(114a)는 벡터이고, 상기 제어 신호는 회전 각도 및 회전 방향을 정의하는 회전 제어 신호이며, 상기 파라미터 변경 유닛(301, 301a)은 상기 제 2 방향성 파라미터(214a)를 얻기 위해 상기 회전 방향에 반대 방향으로 상기 회전 각도에 의해 상기 벡터를 회전시키는, 장치. - 청구항 2 내지 청구항 4 중 어느 한 항에 있어서,
상기 제어 신호는 상기 제 1 청취 방향의 방향으로 변환(d)을 정의하는 변환 제어 신호(402)이고,
상기 파라미터 변경 유닛(301, 301a)은 상기 제어 신호에 의해 정의된 상기 변환(d) 및 상기 제 1 방향성 파라미터(114a)에 따라 상기 제 2 방향성 파라미터를 정의하는 비선형 맵핑 함수 fp를 이용하여 상기 제 2 방향성 파라미터(214a)를 획득하는, 장치. - 청구항 2 내지 청구항 4 중 어느 한 항에 있어서,
상기 제어 신호는 상기 제 1 청취 방향의 방향으로 줌 팩터(d)를 정의하는 줌 제어 신호(402)이고,
상기 파라미터 변경 유닛(301, 301a)은 상기 줌 제어 신호에 의해 정의된 상기 줌 팩터(d) 및 상기 제 1 방향성 파라미터(114a)에 따라 상기 제 2 방향성 파라미터를 정의하는 비선형 맵핑 함수 fp를 이용하여 상기 제 2 방향성 파라미터(214a)를 획득하는, 장치. - 청구항 2 내지 청구항 6 중 어느 한 항에 있어서,
상기 파라미터 변경 유닛(301, 301b)은 상기 제 1 방향성 파라미터(114a)에 따라 또는 상기 제 2 방향성 파라미터(214a)에 따라 상기 제 2 파라메트릭 공간 오디오 신호의 제 2 확산 파라미터(214b)를 획득하기 위해 상기 제 1 파라메트릭 공간 오디오 신호의 제 1 확산 파라미터(114b)를 변경하는, 장치. - 청구항 7에 있어서,
상기 파라미터 변경 유닛(301, 310b)은, 상기 제 1 방향성 파라미터(114a)가 상기 제 1 방향성 파라미터의 미리 결정된 중심 범위 내에 있는 경우 상기 제 2 확산 파라미터(214b)를 획득하기 위해 상기 제 1 확산 파라미터(114b)를 감소시키고, 및/또는 상기 제 1 방향성 파라미터(114a)가 상기 미리 결정된 중심 범위의 밖에 있는 경우 상기 제 2 확산 파라미터(214b)를 획득하기 위해 상기 제 1 확산 파라미터(114b)를 증가시키도록 적응된 방향 종속 함수 fd를 이용하여 상기 제 2 확산 파라미터(214b)를 획득하거나,
상기 파라미터 변경 유닛(301, 310b)은 상기 제 2 방향성 파라미터(214a)가 상기 제 2 방향성 파라미터의 미리 결정된 중심 범위 내에 있는 경우 상기 제 2 확산 파라미터(214b)를 획득하기 위해 상기 제 1 확산 파라미터(114b)를 감소시키고, 및/또는 상기 제 2 방향성 파라미터(214a)가 상기 미리 결정된 중심 범위의 밖에 있는 경우 상기 제 2 확산 파라미터(214b)를 획득하기 위해 상기 제 1 확산 파라미터(114b)를 증가시키도록 적응된 방향 종속 함수 fd를 이용하여 상기 제 2 확산 파라미터(214b)를 획득하는, 장치. - 청구항 8에 있어서,
상기 제어 신호는 상기 제 1 청취 방향의 방향으로 변환(d)을 정의하는 변환 제어 신호(402)이고, 상기 방향 종속 함수는 상기 변환에 따르고, 상기 미리 결정된 중심 범위가 작을수록 상기 변환 제어 신호에 의해 정의된 상기 변환이 더 크거나 또는,
상기 제어 신호는 상기 제 1 청취 방향의 방향으로 줌을 정의하는 줌 제어 신호(402)이고, 상기 방향 종속 함수는 상기 줌에 따르고, 및 상기 미리 결정된 중심 범위가 작을수록 상기 줌 제어 신호에 의해 정의된 줌 팩터(d)가 더 큰, 장치. - 청구항 7 내지 청구항 9에 있어서,
상기 공간 오디오 신호 변경 유닛(300)은,
상기 제 1 방향성 파라미터(114a) 및/또는 상기 제 1 확산 파라미터(114b)에 따라 상기 제 2 파라메트릭 공간 오디오 신호의 제 2 다운믹스 신호(212)를 얻기 위해 상기 제 1 파라메트릭 공간 오디오 신호의 제 1 다운믹스 오디오 신호(112)를 변경하는 다운믹스 변경 유닛(302), 또는
상기 제 2 방향성 파라미터(214a) 및/또는 상기 제 1 확산 파라미터(114b)에 따라 상기 제 2 파라메트릭 공간 오디오 신호의 제 2 다운믹스 신호(212)를 얻기 위해 상기 제 1 파라메트릭 공간 오디오 신호의 제 1 다운믹스 오디오 신호(112)를 변경하는 다운믹스 변경 유닛(302)을 포함하는, 장치. - 청구항 10에 있어서,
상기 다운믹스 변경 유닛(302)은 상기 제 1 확산 파라미터(114b)에 따라 상기 제 1 다운믹스 오디오 신호(112)로부터 직접 성분(112a) 및/또는 상기 제 1 다운믹스 오디오 신호(112)로부터 확산 성분(112b)을 도출하는, 장치. - 청구항 11 또는 청구항 12에 있어서,
상기 다운믹스 변경 유닛(302)은, 상기 직접 성분(112a)의 방향 종속 가중된 버전, 상기 확산 성분(112b)의 방향 종속 가중된 버전에 기초하거나, 상기 직접 성분(112a)의 상기 방향 종속 가중된 버전 및 상기 확산 성분(112b)의 상기 방향 종속 가중된 버전의 조합에 기초하여, 상기 제 2 다운믹스 신호(212)를 획득하는, 장치. - 청구항 13에 있어서,
상기 다운믹스 변경 유닛(302)은 다른 방향 종속 함수 H 1 을 상기 직접 성분에 적용하여 상기 직접 성분(112a)의 상기 방향 종속 가중된 버전을 생성하고,
상기 다른 방향 종속 함수는 상기 제 1 방향성 파라미터(114a)가 상기 제 1 방향성 파라미터들의 다른 미리 결정된 중심 범위 내에 있는 경우 상기 직접 성분(112a)을 증가시키고, 및/또는 상기 제 1 방향성 파라미터(114a)가 상기 제 1 방향성 파라미터들의 상기 다른 미리 결정된 범위 밖에 있는 경우 상기 직접 성분(112a)을 감소시키는, 장치. - 청구항 13 또는 청구항 14에 있어서,
상기 다운믹스 변경 유닛은 방향 종속 함수 H 2 를 상기 확산 성분(112b)에 적용하여 상기 확산 성분(112b)의 상기 방향 종속 가중된 버전을 생성하고,
상기 방향 종속 함수는 상기 제 1 방향성 파라미터(114a)가 상기 제 1 방향성 파라미터들의 미리 결정된 중심 범위 내에 있는 경우 상기 확산 성분을 감소시키고, 및/또는 상기 제 1 방향성 파라미터(114a)가 상기 제 1 방향성 파라미터들의 상기 미리 결정된 범위 밖에 있는 경우 상기 확산 성분(112b)을 증가시키거나 또는,
상기 방향 종속 함수는 상기 제 2 방향성 파라미터(214a)가 상기 제 2 방향성 파라미터들의 미리 결정된 중심 범위 내에 있는 경우 상기 확산 성분을 감소시키고, 및/또는 상기 제 2 방향성 파라미터(214a)가 상기 제 2 방향성 파라미터들의 상기 미리 결정된 범위 밖에 있는 경우 상기 확산 성분(112b)을 증가시키는, 장치. - 청구항 1 내지 청구항 15중 어느 한 항에 따른 장치; 및
비디오 카메라를 포함하는 시스템으로서,
상기 장치는 상기 비디오 카메라에 결합되어 비디오 회전 또는 비디오 줌 신호를 제어 신호로서 수신하는, 시스템. - 공간 오디오 장면에서 제 1 청취 위치 또는 제 1 청취 방향을 나타내는 제 1 파라메트릭 공간 오디오 신호(112, 114)를 제 2 청취 위치 또는 제 2 청취 방향을 나타내는 제 2 파라메트릭 공간 오디오 신호(212, 214)로 변환하는 방법으로서, 상기 방법은,
상기 제 2 파라메트릭 공간 오디오 신호를 획득하기 위하여, 상기 제 1 청취 위치 또는 상기 제 1 청취 방향의 변화에 따라 상기 제 1 파라메트릭 공간 오디오 신호를 변경하는 단계를 포함하되,
상기 제 2 청취 위치 또는 상기 제 2 청취 방향은 상기 변화에 의해 변화된 상기 제 1 청취 위치 또는 상기 제 1 청취 방향에 대응하는, 방법. - 컴퓨터 상에서 동작할 때, 청구항 17에 따른 방법을 실행하는 프로그램 코드를 포함하는 컴퓨터 프로그램.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US28759609P | 2009-12-17 | 2009-12-17 | |
US61/287,596 | 2009-12-17 | ||
EP10156263.5 | 2010-03-11 | ||
EP10156263A EP2346028A1 (en) | 2009-12-17 | 2010-03-11 | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
PCT/EP2010/069669 WO2011073210A1 (en) | 2009-12-17 | 2010-12-14 | An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120089369A true KR20120089369A (ko) | 2012-08-09 |
KR101431934B1 KR101431934B1 (ko) | 2014-08-19 |
Family
ID=43748019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020127017311A KR101431934B1 (ko) | 2009-12-17 | 2010-12-14 | 제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하기 위한 장치 및 방법 |
Country Status (15)
Country | Link |
---|---|
US (1) | US9196257B2 (ko) |
EP (2) | EP2346028A1 (ko) |
JP (1) | JP5426035B2 (ko) |
KR (1) | KR101431934B1 (ko) |
CN (1) | CN102859584B (ko) |
AR (1) | AR079517A1 (ko) |
AU (1) | AU2010332934B2 (ko) |
BR (1) | BR112012015018B1 (ko) |
CA (1) | CA2784862C (ko) |
ES (1) | ES2592217T3 (ko) |
HK (1) | HK1176733A1 (ko) |
MX (1) | MX2012006979A (ko) |
RU (1) | RU2586842C2 (ko) |
TW (1) | TWI523545B (ko) |
WO (1) | WO2011073210A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140051927A (ko) * | 2011-06-30 | 2014-05-02 | 톰슨 라이센싱 | 고차 앰비소닉스 표현 내에 포함된 사운드 오브젝트들의 상대적인 위치들을 변경하는 방법 및 장치 |
KR20200100729A (ko) * | 2017-12-18 | 2020-08-26 | 돌비 인터네셔널 에이비 | 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템 |
US11074921B2 (en) | 2017-03-28 | 2021-07-27 | Sony Corporation | Information processing device and information processing method |
Families Citing this family (79)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5728094B2 (ja) | 2010-12-03 | 2015-06-03 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 到来方向推定から幾何学的な情報の抽出による音取得 |
CN103650536B (zh) * | 2011-07-01 | 2016-06-08 | 杜比实验室特许公司 | 上混合基于对象的音频 |
EP2600343A1 (en) | 2011-12-02 | 2013-06-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for merging geometry - based spatial audio coding streams |
US9047863B2 (en) | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
CN104054126B (zh) * | 2012-01-19 | 2017-03-29 | 皇家飞利浦有限公司 | 空间音频渲染和编码 |
WO2013186593A1 (en) | 2012-06-14 | 2013-12-19 | Nokia Corporation | Audio capture apparatus |
KR102201713B1 (ko) | 2012-07-19 | 2021-01-12 | 돌비 인터네셔널 에이비 | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 |
EP2901667B1 (en) | 2012-09-27 | 2018-06-27 | Dolby Laboratories Licensing Corporation | Spatial multiplexing in a soundfield teleconferencing system |
JP6031930B2 (ja) * | 2012-10-02 | 2016-11-24 | ソニー株式会社 | 音声処理装置および方法、プログラム並びに記録媒体 |
EP2733965A1 (en) | 2012-11-15 | 2014-05-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a plurality of parametric audio streams and apparatus and method for generating a plurality of loudspeaker signals |
CN103021414B (zh) * | 2012-12-04 | 2014-12-17 | 武汉大学 | 一种三维音频系统距离调制方法 |
EP2757559A1 (en) * | 2013-01-22 | 2014-07-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation |
US10635383B2 (en) | 2013-04-04 | 2020-04-28 | Nokia Technologies Oy | Visual audio processing apparatus |
US9980074B2 (en) * | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
CN104244164A (zh) * | 2013-06-18 | 2014-12-24 | 杜比实验室特许公司 | 生成环绕立体声声场 |
EP3017446B1 (en) | 2013-07-05 | 2021-08-25 | Dolby International AB | Enhanced soundfield coding using parametric component generation |
GB2521649B (en) | 2013-12-27 | 2018-12-12 | Nokia Technologies Oy | Method, apparatus, computer program code and storage medium for processing audio signals |
US9866986B2 (en) | 2014-01-24 | 2018-01-09 | Sony Corporation | Audio speaker system with virtual music performance |
EP2942981A1 (en) | 2014-05-05 | 2015-11-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | System, apparatus and method for consistent acoustic scene reproduction based on adaptive functions |
CN106465027B (zh) * | 2014-05-13 | 2019-06-04 | 弗劳恩霍夫应用研究促进协会 | 用于边缘衰落幅度平移的装置和方法 |
US9883140B2 (en) * | 2014-05-19 | 2018-01-30 | Apple Inc. | Using the location of a near-end user in a video stream to adjust audio settings of a far-end system |
WO2016084592A1 (ja) | 2014-11-28 | 2016-06-02 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
US9602946B2 (en) | 2014-12-19 | 2017-03-21 | Nokia Technologies Oy | Method and apparatus for providing virtual audio reproduction |
US9794721B2 (en) * | 2015-01-30 | 2017-10-17 | Dts, Inc. | System and method for capturing, encoding, distributing, and decoding immersive audio |
US9924291B2 (en) | 2016-02-16 | 2018-03-20 | Sony Corporation | Distributed wireless speaker system |
KR102617476B1 (ko) * | 2016-02-29 | 2023-12-26 | 한국전자통신연구원 | 분리 음원을 합성하는 장치 및 방법 |
US9826330B2 (en) | 2016-03-14 | 2017-11-21 | Sony Corporation | Gimbal-mounted linear ultrasonic speaker assembly |
KR102561371B1 (ko) | 2016-07-11 | 2023-08-01 | 삼성전자주식회사 | 디스플레이장치와, 기록매체 |
US9794724B1 (en) | 2016-07-20 | 2017-10-17 | Sony Corporation | Ultrasonic speaker assembly using variable carrier frequency to establish third dimension sound locating |
MC200185B1 (fr) | 2016-09-16 | 2017-10-04 | Coronal Audio | Dispositif et procédé de captation et traitement d'un champ acoustique tridimensionnel |
US10187740B2 (en) * | 2016-09-23 | 2019-01-22 | Apple Inc. | Producing headphone driver signals in a digital audio signal processing binaural rendering environment |
MC200186B1 (fr) | 2016-09-30 | 2017-10-18 | Coronal Encoding | Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel |
EP3340648B1 (en) * | 2016-12-23 | 2019-11-27 | Nxp B.V. | Processing audio signals |
WO2018132385A1 (en) * | 2017-01-12 | 2018-07-19 | Pcms Holdings, Inc. | Audio zooming in natural audio video content service |
KR20180090022A (ko) * | 2017-02-02 | 2018-08-10 | 한국전자통신연구원 | 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치 |
WO2018168902A1 (en) * | 2017-03-14 | 2018-09-20 | Ricoh Company, Ltd. | Sound recording apparatus, sound system, sound recording method, and carrier means |
GB2561595A (en) * | 2017-04-20 | 2018-10-24 | Nokia Technologies Oy | Ambience generation for spatial audio mixing featuring use of original and extended signal |
CN110537373B (zh) * | 2017-04-25 | 2021-09-28 | 索尼公司 | 信号处理装置和方法以及存储介质 |
GB2562518A (en) * | 2017-05-18 | 2018-11-21 | Nokia Technologies Oy | Spatial audio processing |
US10299039B2 (en) | 2017-06-02 | 2019-05-21 | Apple Inc. | Audio adaptation to room |
GB2563635A (en) * | 2017-06-21 | 2018-12-26 | Nokia Technologies Oy | Recording and rendering audio signals |
AU2018298874C1 (en) * | 2017-07-14 | 2023-10-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description |
SG11202000285QA (en) * | 2017-07-14 | 2020-02-27 | Fraunhofer Ges Forschung | Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description |
AR112556A1 (es) | 2017-07-14 | 2019-11-13 | Fraunhofer Ges Forschung | Concepto para generar una descripción mejorada de campo de sonido o un campo de sonido modificado |
US11004567B2 (en) | 2017-08-15 | 2021-05-11 | Koko Home, Inc. | System and method for processing wireless backscattered signal using artificial intelligence processing for activities of daily life |
US12094614B2 (en) | 2017-08-15 | 2024-09-17 | Koko Home, Inc. | Radar apparatus with natural convection |
US10412482B2 (en) | 2017-11-08 | 2019-09-10 | Merry Electronics (Shenzhen) Co., Ltd. | Loudspeaker apparatus |
BR112020011026A2 (pt) | 2017-11-17 | 2020-11-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | aparelho e método para codificar ou decodificar parâmetros de codificação de áudio direcional com o uso de quantização e codificação de entropia |
US11082662B2 (en) | 2017-12-19 | 2021-08-03 | Koninklijke Kpn N.V. | Enhanced audiovisual multiuser communication |
USD877121S1 (en) | 2017-12-27 | 2020-03-03 | Yandex Europe Ag | Speaker device |
RU2707149C2 (ru) * | 2017-12-27 | 2019-11-22 | Общество С Ограниченной Ответственностью "Яндекс" | Устройство и способ модифицирования вывода аудиосигнала устройства |
GB201800918D0 (en) * | 2018-01-19 | 2018-03-07 | Nokia Technologies Oy | Associated spatial audio playback |
KR102580673B1 (ko) * | 2018-04-09 | 2023-09-21 | 돌비 인터네셔널 에이비 | Mpeg-h 3d 오디오의 3 자유도(3dof+) 확장을 위한 방법, 장치 및 시스템 |
CN109492126B (zh) * | 2018-11-02 | 2022-03-01 | 廊坊市森淼春食用菌有限公司 | 一种智能交互方法及装置 |
GB201818959D0 (en) * | 2018-11-21 | 2019-01-09 | Nokia Technologies Oy | Ambience audio representation and associated rendering |
US11997455B2 (en) | 2019-02-11 | 2024-05-28 | Koko Home, Inc. | System and method for processing multi-directional signals and feedback to a user to improve sleep |
US10810850B2 (en) | 2019-02-19 | 2020-10-20 | Koko Home, Inc. | System and method for state identity of a user and initiating feedback using multiple sources |
US11971503B2 (en) | 2019-02-19 | 2024-04-30 | Koko Home, Inc. | System and method for determining user activities using multiple sources |
GB2584837A (en) * | 2019-06-11 | 2020-12-23 | Nokia Technologies Oy | Sound field related rendering |
GB2584838A (en) * | 2019-06-11 | 2020-12-23 | Nokia Technologies Oy | Sound field related rendering |
US11962991B2 (en) | 2019-07-08 | 2024-04-16 | Dts, Inc. | Non-coincident audio-visual capture system |
WO2021018378A1 (en) | 2019-07-29 | 2021-02-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for processing a sound field representation in a spatial transform domain |
GB2586461A (en) * | 2019-08-16 | 2021-02-24 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
GB2586586A (en) | 2019-08-16 | 2021-03-03 | Nokia Technologies Oy | Quantization of spatial audio direction parameters |
USD947152S1 (en) | 2019-09-10 | 2022-03-29 | Yandex Europe Ag | Speaker device |
GB2587335A (en) * | 2019-09-17 | 2021-03-31 | Nokia Technologies Oy | Direction estimation enhancement for parametric spatial audio capture using broadband estimates |
US11719804B2 (en) | 2019-09-30 | 2023-08-08 | Koko Home, Inc. | System and method for determining user activities using artificial intelligence processing |
EP3849202B1 (en) | 2020-01-10 | 2023-02-08 | Nokia Technologies Oy | Audio and video processing |
US11443737B2 (en) | 2020-01-14 | 2022-09-13 | Sony Corporation | Audio video translation into multiple languages for respective listeners |
US11240635B1 (en) | 2020-04-03 | 2022-02-01 | Koko Home, Inc. | System and method for processing using multi-core processors, signals, and AI processors from multiple sources to create a spatial map of selected region |
US11184738B1 (en) | 2020-04-10 | 2021-11-23 | Koko Home, Inc. | System and method for processing using multi core processors, signals, and AI processors from multiple sources to create a spatial heat map of selected region |
US11962989B2 (en) | 2020-07-20 | 2024-04-16 | Orbital Audio Laboratories, Inc. | Multi-stage processing of audio signals to facilitate rendering of 3D audio via a plurality of playback devices |
BR112023006291A2 (pt) * | 2020-10-09 | 2023-05-09 | Fraunhofer Ges Forschung | Dispositivo, método ou programa de computador para processar uma cena de áudio codificada usando uma conversão de parâmetro |
MX2023003965A (es) * | 2020-10-09 | 2023-05-25 | Fraunhofer Ges Forschung | Aparato, metodo, o programa de computadora para procesar una escena de audio codificada utilizando una extension de ancho de banda. |
WO2022074202A2 (en) * | 2020-10-09 | 2022-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, or computer program for processing an encoded audio scene using a parameter smoothing |
US20240064485A1 (en) * | 2020-11-30 | 2024-02-22 | The Regents Of The University Of California | Systems and methods for sound-enhanced meeting platforms |
CN115472170A (zh) * | 2021-06-11 | 2022-12-13 | 华为技术有限公司 | 一种三维音频信号的处理方法和装置 |
GB2614254A (en) * | 2021-12-22 | 2023-07-05 | Nokia Technologies Oy | Apparatus, methods and computer programs for generating spatial audio output |
CN115086861B (zh) * | 2022-07-20 | 2023-07-28 | 歌尔股份有限公司 | 音频处理方法、装置、设备及计算机可读存储介质 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4984087A (en) * | 1988-05-27 | 1991-01-08 | Matsushita Electric Industrial Co., Ltd. | Microphone apparatus for a video camera |
JPH03114000A (ja) * | 1989-09-27 | 1991-05-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声再生方式 |
JPH07288899A (ja) * | 1994-04-15 | 1995-10-31 | Matsushita Electric Ind Co Ltd | 音場再生装置 |
JPH07312712A (ja) * | 1994-05-19 | 1995-11-28 | Sanyo Electric Co Ltd | ビデオカメラ及び再生装置 |
JP3830997B2 (ja) * | 1995-10-24 | 2006-10-11 | 日本放送協会 | 奥行方向音響再生装置及び立体音響再生装置 |
JP2002207488A (ja) * | 2001-01-01 | 2002-07-26 | Junichi Kakumoto | 音響と画像の臨場感を表現し伝達する方式 |
GB2374507B (en) * | 2001-01-29 | 2004-12-29 | Hewlett Packard Co | Audio user interface with audio cursor |
JP2003244800A (ja) * | 2002-02-14 | 2003-08-29 | Matsushita Electric Ind Co Ltd | 音像定位装置 |
JP2003284196A (ja) * | 2002-03-20 | 2003-10-03 | Sony Corp | 音像定位信号処理装置および音像定位信号処理方法 |
JP4134794B2 (ja) * | 2003-04-07 | 2008-08-20 | ヤマハ株式会社 | 音場制御装置 |
SE527670C2 (sv) * | 2003-12-19 | 2006-05-09 | Ericsson Telefon Ab L M | Naturtrogenhetsoptimerad kodning med variabel ramlängd |
US20090299756A1 (en) | 2004-03-01 | 2009-12-03 | Dolby Laboratories Licensing Corporation | Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners |
SE0400997D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
JP2005311604A (ja) * | 2004-04-20 | 2005-11-04 | Sony Corp | 情報処理装置及び情報処理装置に用いるプログラム |
JP2006050241A (ja) * | 2004-08-04 | 2006-02-16 | Matsushita Electric Ind Co Ltd | 復号化装置 |
JP2006074386A (ja) | 2004-09-01 | 2006-03-16 | Fujitsu Ltd | 立体音響再生方法、通信装置及びプログラム |
SE0402650D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Improved parametric stereo compatible coding of spatial audio |
US7751572B2 (en) | 2005-04-15 | 2010-07-06 | Dolby International Ab | Adaptive residual audio coding |
TWI330992B (en) | 2005-10-20 | 2010-09-21 | Lg Electronics Inc | Method for encoding and decoding multi-channel audio signal and apparatus thereof |
JP5161109B2 (ja) * | 2006-01-19 | 2013-03-13 | エルジー エレクトロニクス インコーポレイティド | 信号デコーディング方法及び装置 |
JP4940671B2 (ja) * | 2006-01-26 | 2012-05-30 | ソニー株式会社 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
ES2339888T3 (es) | 2006-02-21 | 2010-05-26 | Koninklijke Philips Electronics N.V. | Codificacion y decodificacion de audio. |
TW200742275A (en) | 2006-03-21 | 2007-11-01 | Dolby Lab Licensing Corp | Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information |
EP2082397B1 (en) * | 2006-10-16 | 2011-12-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
US8290167B2 (en) * | 2007-03-21 | 2012-10-16 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for conversion between multi-channel audio formats |
US20080298610A1 (en) * | 2007-05-30 | 2008-12-04 | Nokia Corporation | Parameter Space Re-Panning for Spatial Audio |
US8180062B2 (en) * | 2007-05-30 | 2012-05-15 | Nokia Corporation | Spatial sound zooming |
WO2009001277A1 (en) | 2007-06-26 | 2008-12-31 | Koninklijke Philips Electronics N.V. | A binaural object-oriented audio decoder |
CN101816191B (zh) * | 2007-09-26 | 2014-09-17 | 弗劳恩霍夫应用研究促进协会 | 用于提取环境信号的装置和方法 |
-
2010
- 2010-03-11 EP EP10156263A patent/EP2346028A1/en not_active Withdrawn
- 2010-12-14 CA CA2784862A patent/CA2784862C/en active Active
- 2010-12-14 WO PCT/EP2010/069669 patent/WO2011073210A1/en active Application Filing
- 2010-12-14 JP JP2012543696A patent/JP5426035B2/ja active Active
- 2010-12-14 MX MX2012006979A patent/MX2012006979A/es active IP Right Grant
- 2010-12-14 RU RU2012132354/08A patent/RU2586842C2/ru active
- 2010-12-14 CN CN201080063799.9A patent/CN102859584B/zh active Active
- 2010-12-14 KR KR1020127017311A patent/KR101431934B1/ko active IP Right Grant
- 2010-12-14 BR BR112012015018-9A patent/BR112012015018B1/pt active IP Right Grant
- 2010-12-14 EP EP10796353.0A patent/EP2502228B1/en active Active
- 2010-12-14 AU AU2010332934A patent/AU2010332934B2/en active Active
- 2010-12-14 ES ES10796353.0T patent/ES2592217T3/es active Active
- 2010-12-15 TW TW099143975A patent/TWI523545B/zh active
- 2010-12-17 AR ARP100104731A patent/AR079517A1/es active IP Right Grant
-
2012
- 2012-06-14 US US13/523,085 patent/US9196257B2/en active Active
-
2013
- 2013-03-25 HK HK13103678.8A patent/HK1176733A1/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140051927A (ko) * | 2011-06-30 | 2014-05-02 | 톰슨 라이센싱 | 고차 앰비소닉스 표현 내에 포함된 사운드 오브젝트들의 상대적인 위치들을 변경하는 방법 및 장치 |
US11074921B2 (en) | 2017-03-28 | 2021-07-27 | Sony Corporation | Information processing device and information processing method |
KR20200100729A (ko) * | 2017-12-18 | 2020-08-26 | 돌비 인터네셔널 에이비 | 가상 현실 환경에서 청취 위치 사이의 로컬 전환을 처리하기 위한 방법 및 시스템 |
Also Published As
Publication number | Publication date |
---|---|
MX2012006979A (es) | 2012-07-17 |
TW201146026A (en) | 2011-12-16 |
US9196257B2 (en) | 2015-11-24 |
TWI523545B (zh) | 2016-02-21 |
BR112012015018A2 (pt) | 2022-05-17 |
AU2010332934B2 (en) | 2015-02-19 |
EP2346028A1 (en) | 2011-07-20 |
JP2013514696A (ja) | 2013-04-25 |
BR112012015018B1 (pt) | 2023-11-28 |
WO2011073210A1 (en) | 2011-06-23 |
AU2010332934A1 (en) | 2012-07-26 |
KR101431934B1 (ko) | 2014-08-19 |
CA2784862C (en) | 2020-06-16 |
CN102859584A (zh) | 2013-01-02 |
CA2784862A1 (en) | 2011-06-23 |
HK1176733A1 (zh) | 2013-08-02 |
EP2502228B1 (en) | 2016-06-22 |
ES2592217T3 (es) | 2016-11-28 |
JP5426035B2 (ja) | 2014-02-26 |
CN102859584B (zh) | 2015-11-25 |
EP2502228A1 (en) | 2012-09-26 |
RU2012132354A (ru) | 2014-01-27 |
RU2586842C2 (ru) | 2016-06-10 |
US20130016842A1 (en) | 2013-01-17 |
AR079517A1 (es) | 2012-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101431934B1 (ko) | 제 1 파라메트릭 공간 오디오 신호를 제 2 파라메트릭 공간 오디오 신호로 변환하기 위한 장치 및 방법 | |
US12058501B2 (en) | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding | |
KR101627652B1 (ko) | 바이노럴 렌더링을 위한 오디오 신호 처리 장치 및 방법 | |
EP3197182B1 (en) | Method and device for generating and playing back audio signal | |
US9578439B2 (en) | Method, system and article of manufacture for processing spatial audio | |
CN106664501B (zh) | 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法 | |
US11659349B2 (en) | Audio distance estimation for spatial audio processing | |
US11284211B2 (en) | Determination of targeted spatial audio parameters and associated spatial audio playback | |
CN113597776B (zh) | 参数化音频中的风噪声降低 | |
JP2023515968A (ja) | 空間メタデータ補間によるオーディオレンダリング | |
EP3841763A1 (en) | Spatial audio processing | |
CN114450977A (zh) | 用于在空间变换域中处理声场表示的装置、方法或计算机程序 | |
EP4238318A1 (en) | Audio rendering with spatial metadata interpolation and source position information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170731 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180802 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190802 Year of fee payment: 6 |