KR102220187B1 - 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 - Google Patents
음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 Download PDFInfo
- Publication number
- KR102220187B1 KR102220187B1 KR1020157021230A KR20157021230A KR102220187B1 KR 102220187 B1 KR102220187 B1 KR 102220187B1 KR 1020157021230 A KR1020157021230 A KR 1020157021230A KR 20157021230 A KR20157021230 A KR 20157021230A KR 102220187 B1 KR102220187 B1 KR 102220187B1
- Authority
- KR
- South Korea
- Prior art keywords
- time frame
- sound sources
- directions
- hoa
- previous time
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000014509 gene expression Effects 0.000 claims abstract description 27
- 238000009826 distribution Methods 0.000 claims abstract description 22
- 230000002596 correlated effect Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 56
- 238000012360 testing method Methods 0.000 claims description 19
- 230000003111 delayed effect Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 5
- 238000001514 detection method Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000002123 temporal effect Effects 0.000 abstract description 5
- 238000004364 calculation method Methods 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 21
- BQCADISMDOOEFD-UHFFFAOYSA-N Silver Chemical compound [Ag] BQCADISMDOOEFD-UHFFFAOYSA-N 0.000 description 13
- 229910052709 silver Inorganic materials 0.000 description 13
- 239000004332 silver Substances 0.000 description 13
- 239000011159 matrix material Substances 0.000 description 10
- 230000005428 wave function Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 6
- 239000000203 mixture Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000007480 spreading Effects 0.000 description 2
- 238000003892 spreading Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S3/00—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
- G01S3/80—Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
- General Physics & Mathematics (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
고차 앰비소닉 (HOA)은 3차원 음향을 나타낸다. HOA는 높은 공간 해상도를 제공하고 주요 음원들에 대한 음장의 분석을 용이하게 한다. 본 발명은 음장을 이루는 독립적인 주요 음원들을 식별하고, 그들의 시간적 궤도를 추적하는 것을 목표로 한다. 공지된 응용들은 원래의 HOA 표현의 방향성 전력 분포를 찾음으로써 주요 음원 방향들에 한 모든 가능한 후보들을 탐색하는 것인 반면, 본 발명에서는 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된다. 그러한 연산에 의해, 음장에 대한 그의 기여도가 고도로 방향성을 갖고 확산되는 경우에 오직 하나의 정확한 음원 대신에 오류로 다수를 검출하는 문제가 회피될 수 있다.
Description
본 발명은 음장(sound field)의 고차 앰비소닉 표현(higher order ambisonics representation)에서의 상관되지 않은 음원들(uncorrelated sound sources)의 방향들을 판정하는 방법 및 장치에 관한 것이다.
고차 앰비소닉(HOA)은 WFS(wave field synthesis) 또는 22.2와 같은 채널 기반 접근법들과 같은 기법들 중에서도 3차원 음향을 표현하는 하나의 가능성을 제공한다. 그러나, 채널 기반 방법과는 대조적으로, HOA 표현은 특정 라우드스피커 설정에 무관한 장점을 제공한다. 그러나, 이러한 유연성은 특정 라우드스피커 설정 상의 HOA 표현의 재생에 요구되는 디코딩 프로세스의 댓가이다. 요구되는 라우드스피커들의 수가 통상적으로 매우 많은 WFS 접근법에 비교하면, HOA는 또한 오직 몇개의 라우드스피커로 이루어지는 설정으로 렌더링될 수 있다. HOA의 추가의 장점은, 동일한 표현이 또한 헤드폰으로의 바이노럴 렌더링(binaural rendering)에 대한 어떠한 수정도 없이 이용될 수 있다는 것이다.
HOA는 잘려진 구면 조화(truncated Spherical Harmonics)(SH) 확장에 의한 복소 조화 평면 파(complex harmonic plane wave) 진폭들의 공간 밀도의 표현에 기초한다. 각각의 확장 계수는 각 주파수(angular frequency)의 함수이고, 이는 시간 도메인 함수에 의해 동등하게 표현될 수 있다. 따라서, 일반성을 잃지 않고, 완전한 HOA 음장 표현이 실제로 시간 도메인 함수들로 이루어지는 것으로 가정할 수 있고, 여기서 는 확장 계수들의 수를 표기한다. 이하에서, 이러한 시간 도메인 함수들이 HOA 계수 시퀀스들로서 또는 HOA 채널들로서 참조된다. HOA는 높은 공간 해상도를 제공할 가능성을 가지며, 이는 증가하는 최대 N차 확장으로 개선한다. 이것은 주요 음원들(dominant sound sources)에 관하여 음장의 분석에 대한 가능성을 제공한다.
응용은 HOA 표현으로부터 음장을 구성하는 주어진 HOA 독립적 주요 음원들을 식별하는 방법, 및 그들의 시간적 궤적(temporal trajectory)을 추적하는 방법일 수 있다. 그러한 연산은, 예를 들어, 특허 출원 EP 12305537.8에서 설명된 바와 같이 음장을 주요 방향성 신호들과 나머지 주변 컴포넌트(remaining ambient component)로 분해함으로써 HOA 표현들에 대한 압축을 요구한다. 그러한 방향 추적 방법에 대한 추가의 응용은 대략적 예비 소스 분리(coarse preliminary source separation)일 것이다. 특정 음원들의 신호들을 증폭 또는 감쇠시키기 위해 HOA 음장 레코딩의 사후-생성(post-production)을 위해 추정된 방향 궤적을 사용하는 것이 또한 가능하다.
EP 12305537.8에서, 이하의 3개의 연산들을 연속적으로 수행하는 것이 제안되어 있다:
- 시간 프레임 내에 현재 존재하는 주요 음원들의 수가 식별되고 대응하는 방향들이 탐색된다. 주요 음원들의 수는 HOA 채널 교차상관 행렬의 고유값(eigenvalue)들로부터 판정된다. 주요 음원 방향들의 탐색을 위하여, 고정된 높은 수의 미리정의된 테스트 방향들에 대한 HOA 계수들의 프레임에 대응하는 방향성 전력 분포가 평가된다. 제1 방향 추정값이 방향성 전력 분포에서의 최대값을 찾음으로써 획득된다. 그리고 나서, 나머지 식별된 방향들은 이하의 2개의 연산들을 연속적으로 반복함으로써 알 수 있다: 공간적 인근의 테스트 방향들은 테스트 방향들의 나머지 세트로부터 제거되고 결과적인 세트는 방향성 전력 분포 중 최대에 대한 탐색으로 간주된다.
- 추정된 방향들은 최종 시간 프레임에서 활성인 것으로 간주되는 음원들에 할당된다.
- 할당 이후에, 방향 추정값들에 대한 적절한 스무딩(smoothing)이 수행되어 시간적으로 스무드(smooth)한 방향 궤적을 획득한다.
그러나, 지수적으로 가중된 이동 평균을 계산함으로써 방향성 추정값들에 대한 그러한 시간적 스무딩을 처리하는 것이 원칙적으로 달성되더라도, 이러한 기법은 갑작스러운 방향 변화들 또는 새로운 주요 음향들의 시작을 정확하게 포착할 수 없다는 단점을 갖는다.
이러한 문제를 극복하기 위해, 단순한 통계적 소스 이동 예측 모델을 도입하는 것이 특허 출원 EP 12306485.9에서 제안되었고, 이는 베이지안 학습 규칙(Bayesian learning rule)에 의해 구현된 통계적으로 근거한 스무딩에 채용된다. 그러나, EP 12306485.9 및 EP 12305537.8은 오직 방향성 전력 분포로부터 음원 방향들에 대한 우도 함수(likelihood function)를 계산한다. 이러한 분포는 단위 구체 상에서 거의 균일하게 분포된 샘플링 포인트들에 의해 특정된 방향들로부터의 높은 수의 일반 평면파들의 전력을 나타낸다. 이것은 상이한 방향들로부터의 일반 평면파들 간의 상호 상관에 관한 어떤 정보도 제공하지 않는다. 실제로, 차수 N의 HOA 표현은 일반적으로 제한되어, 공간적으로 대역-제한된 음장을 야기한다. 특히, 이것은 방향성 전력 분포에 대한 방향성 음원의 기여도가 인근에서의 방향들에 대한 진정한 입사 방향들(directions of incidence) 주위에서 번지는 것을 의미한다. 이러한 번짐 효과(smearing effect)는 '확산 함수(dispersion function)'에 의해 수학적으로 설명되고, 이하의 고차 앰비소닉의 공간적 해상도 부분을 참조한다. 그것의 크기는 감소하는 차수의 HOA 표현으로 증가한다. EP 12306485.9 및 EP 12305537.8 방향 추적 방법들은 이전에 발견된 방향들의 인근의 외부의 영역들에 대한 방향의 탐색을 제한함으로써 이러한 효과를 어느 정도까지 고려하고 있다. 그러나, 인근에 대한 특정은, 모든 음원들이 완전한 N차의 HOA 표현으로 인코딩된다는 것을 가정한다. 이러한 가정은 N보다 낮은 차수로 인코딩된 일반 평면파들을 포함하는 N차의 HOA 표현들에 대해 위반된다. 그러한 N보다 낮은 차수의 일반 평면파들은 음원들이 더 넓게 나타나도록 하는 아티스틱 생성(artistic creation)의 결과일 수 있다. 그러나, 그들은 또한 구체 마이크로폰들(spherical microphones)에 의한 HOA 음장 표현의 레코딩으로 발생한다.
EP 12306485.9 및 EP 12305537.8 방향 추적 방법들은, 음장이, 원치않는 특성인, N보다 낮은 차수의 단일의 일반 평면파로 구성되는 경우에 단일의 음원보다 많은 것을 식별할 것이다.
본 발명에 의해 해결될 문제는 HOA 음장에서의 주요 음원들에 대한 판정을 개선하는 것이고, 따라서, 그들의 시간적 궤적들이 추적될 수 있다. 이러한 문제는 청구항 1, 2 및 6에 개시된 방법들에 의해 해결된다. 청구항 6의 방법을 이용하는 장치가 청구항 7에 개시된다.
본 발명은 EP 12306485.9 프로세싱을 개선한다. 본 발명의 프로세싱은 독립적 주요 음원들을 찾고, 시간에 따른 그들의 방향들을 추적한다. '독립적 주요 음원들'이라는 표현은 각각의 음원들의 신호들이 상관되지 않는다는 것을 의미한다. 최신의 방법들 EP1230557.8 및 EP 12306485.9는 오직 원래의 HOA 표현의 방향성 전력 분포를 검토함으로써 주요 음원 방향들에 대한 모든 잠재적 후보들을 탐색하지만, 이하에 설명되는 본 발명의 프로세싱은 각각의 방향 후보에 대한 탐색에 대해, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들을 원래의 HOA 표현으로부터 제거한다. 그러한 연산에 의해, 음장에 대한 그의 기여도가 방향적으로 높은 정도로 확산되는 경우에, 오직 하나의 음원 대신에 다수를 잘못하여 검출하는 문제가 회피될 수 있다. 전술한 바와 같이, 그러한 효과는 N보다 낮은 차수로 인코딩된 일반 평면파들을 포함하는 N차의 HOA 표현들에 대해 발생할 것이다.
EP 12306485.9에서와 같이, 주요 음원 방향들에 대해 발견된 후보들은 그 후에 이전에 발견된 주요 음원들에 할당되고, 통계적 소스 이동 모델에 따라 최종적으로 스무딩된다. 따라서, EP 12306485.9에서와 같이, 본 발명의 프로세싱은 시간적으로 스무드한 방향 추정값들을 제공하고, 갑작스러운 방향 변화들 또는 새로운 주요 음향들의 시작을 포착할 수 있다.
본 발명의 프로세싱은 HOA 표현의 연속하는 프레임들에 대해 주요 음원 방향들에 대한 추정값을 2개의 후속하는 프로세싱에서 판정한다:
HOA 표현의 현재 시간 프레임 로부터, 주요 음원 방향들에 대한 후보 또는 추정값들이 연속적으로 탐색되고, 각각의 음원들에 의해 생성되도록 되어 있는 HOA 표현의 컴포넌트가 판정된다. 이러한 탐색 프로세스의 각각의 반복에서, 각각의 추가의 방향 후보가, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된 원래의 HOA 표현을 나타내는 나머지(residual) HOA 표현으로부터 계산된다. 현재 방향 후보는 다수의 미리정의된 테스트 방향들로부터 선택되어, 선택된 방향으로부터 청취자 위치에 영향을 주는 나머지 HOA 표현의 관련된 일반 평면파의 전력이 모든 다른 테스트 방향들의 것에 비교하여 최대가 되도록 한다.
다음으로, 현재 시간 프레임에 대해 선택된 방향 후보들이 HOA 계수들의 이전 시간 프레임 에서 발견된 주요 음원들에 할당된다. 이후, 결과적인 시간 궤적에 관하여 스무딩되는 최종 방향 추정값들이 베이지안 추론 프로세스를 수행함으로써 계산되고, 여기서 이 베이지안 추론 프로세스는 한편으로는 통계적 선험적(statistical a priori) 음원 이동 모델을 활용하고, 다른 한편으로는 원래의 HOA 표현의 주요 음원 컴포넌트들의 방향성 전력 분포를 활용한다. 선험적 음원 이동 모델은 이전 시간 프레임 에서의 그들의 방향으로부터 개별 음원들의 현재 이동 및 이전 시간 프레임 과 끝에서 두번째의 시간 프레임 과의 사이의 이동을 통계적으로 예측한다.
HOA 계수들의 이전 시간 프레임 에서 발견된 주요 음원들에 대한 방향 추정값들의 할당은, 이전에 발견된 음원의 방향과 방향 추정값의 쌍들 사이의 각도들의 합동 최소화와, 방향 추정값 및 이전 시간 프레임에서 발견된 주요 음원에 관련된 방향성 신호들의 쌍들 사이의 상관 계수의 절대값의 최대화에 의해 달성된다.
원칙적으로, 본 발명의 방법은 HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들을 판정하는데 적절하고, 상기 방법은:
- HOA 계수들의 현재 시간 프레임에서, 주요 음원들에 대한 연속적으로 예비 방향 추정값들을 탐색하는 것, 및 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들을 계산하는 것, 및 대응하는 방향성 신호들을 계산하는 것;
- 상기 계산된 주요 음원들을, 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 상기 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들과 비교하고, 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들을 상관시키는 것에 의해 상기 HOA 계수들의 이전 시간 프레임에서 활성인 대응하는 음원들에 할당하여, 할당 함수를 야기하는 것;
- 상기 할당 함수, 상기 이전 시간 프레임에서의 상기 스무딩된 방향들의 세트, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들의 세트, 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 각각의 소스 이동 각도들의 세트, 및 대응하는 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들을 이용하여 스무딩된 주요 소스 방향들을 계산하는 것;
- 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스의 프레임 지연된 버전을 이용하여 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하는 것
을 포함하고,
상기 이전 시간 프레임에서의 활성인 음원들의 상기 방향성 신호들은 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들로부터 모드 매칭을 이용하여 계산되고,
상기 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 상기 소스 이동 각도들의 세트는 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 그의 추가의 프레임 지연된 버전으로부터 계산된다.
원칙적으로, 본 발명의 장치는 HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들을 판정하는데 적합하고, 상기 장치는:
- 주요 음원들의 예비 방향 추정값들을 HOA 계수들의 현재 시간 프레임에서 연속적으로 탐색하고, 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들을 계산하고, 대응하는 방향성 신호들을 계산하도록 구성되는 수단;
- 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 상기 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들을 비교하고, 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들을 상관시킴으로써 상기 HOA 계수들의 이전 시간 프레임에서 활성인 대응하는 음원들에 상기 계산된 주요 음원들을 할당하여, 할당 기능을 야기하도록 구성되는 수단;
상기 할당 기능, 상기 이전 시간 프레임에서의 스무딩된 방향들의 세트, 상기 이전 시간 프레임에서 활성인 주요 음원들의 인덱스들의 세트, 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 각각의 소스 이동 각도들의 세트, 및 대응하는 주요 음원들에 의해 생성되는 상기 HOA 음장 컴포넌트들을 이용하여 스무딩된 주요 소스 방향들을 계산하도록 구성되는 수단;
- 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스의 프레임 지연된 버전을 이용하여 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하도록 구성되는 수단
을 포함하고,
상기 이전 시간 프레임에서의 활성인 음원들의 상기 방향성 신호들은 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들로부터 모드 매칭을 이용하여 계산되고,
상기 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 상기 소스 이동 각도들의 세트는 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 그의 추가의 프레임 지연된 버전으로부터 계산된다.
본 발명의 장점을 갖는 추가의 실시예들은 각각의 종속 청구항들에서 개시된다.
본 발명의 방향 추적 프로세싱의 원리가 도 1에 예시되며, 이하에서 설명된다. 방향 추적은 길이 L의 HOA 계수 시퀀스들의 입력 프레임들 의 연속적 프로세싱에 기초하는 것으로 가정되며, 여기서 는 프레임 인덱스를 표기한다. 프레임들은 다음과 같이 고차 앰비소닉의 기초 부분에서의 수학식(45)에 특정된 HOA 계수 시퀀스들과 관련하여 정의된다.
여기서, 는 샘플링 주기를 표기하고 B ≤ L은 프레임 시프트를 나타낸다. 연속적 프레임들은 중첩(overlapping), 즉, B < L이라고 가정하는 것이 타당하지만, 반드시 그런 것은 아니다.
제1 단계 또는 스테이지(11)에서, HOA 표현의 번째 프레임 는 주요 음원들에 대해 예비 분석된다. 이러한 프로세싱의 상세 설명은 이하의 예비 방향 탐색 부분에서 제공된다. 특히, 검출된 주요 방향성 신호들의 수 뿐 아니라 대응하는 예비 방향 추정값들 이 판정된다. 추가적으로, 대응하는 개별 주요 음원들뿐 아니라 대응하는 순간 방향성 신호들(instantaneous directional signals) (즉, 일반 평면파 함수들)에 의해 생성되는(것으로 되어 있는) HOA 음장 컴포넌트들 이 계산된다.
개별 예비 방향 추정값들 및 관련된 양들은 순차적 방식으로, 즉, 먼저 d = 1에 대해, 그리고 나서 d = 2에 대해 등으로 계산된다. 제1 단계에서, 원래 HOA 표현 의 방향성 전력 분포는 Ep 12305537.8에서 제안된 바와 같이 계산되고 주요 음원들의 존재에 대해 연속적으로 분석된다. 주요 음원들이 검출되는 경우에, 각각의 예비 방향 추정값 이 계산된다. 또한, 대응하는 방향성 신호 가, 이 음원에 의해 생성되는 것으로 가정되는 현재 프레임 의 그 컴포넌트 와 함께 추정된다. 는 방향성 신호 와 상관되는 의 그 컴포넌트를 나타내는 것으로 가정한다. 최종적으로, HOA 컴포넌트 는 로부터 감산되어 나머지 HOA 표현 를 획득한다. 번째 (d ≥ 2) 예비 방향의 추정이, 대신에 나머지 HOA 표현 을 이용하는 것만 제외하면 첫 번째 것과 완전하게 유사한 방식으로 수행된다. 이에 의해, 번째 음원에 의해 생성된 음장 컴포넌트들이 추가의 방향 탐색에서 배제된다는 것이 명시적으로 보장된다.
방향 할당 단계 또는 스테이지(13)에서, 번째 프레임에서 단계/스테이지(11)에서 발견된 주요 음원들은 번째 프레임에서의 활성인(것으로 가정되는) 대응하는 음원들에 할당된다. 한편으로는, 할당은 현재 시간 프레임 에 대한 예비 방향 추정값들 및 번째 프레임에서 활성인(것으로 가정되는) 음원들의 스무딩된 방향들을 비교함으로써 달성되고, 이는 세트 에 포함되고, 그의 인덱스들은 세트 에 포함된다. 다른 한편으로는, 할당을 위해, 프레임 에서의 검출된 주요 음원들의 순간 방향성 신호들 과 번째 프레임에서 활성인(것으로 가정되는) 음원들의 방향성 신호들 사이의 상관이 활용된다. 할당의 결과는 할당 함수 에 의해 공식화되고, 여기서 는 추적될 예상 음원들의 최대수를 표기하고, 이는 번째 새롭게 발견된 음원이 인덱스 를 이용하여 이전의 활성인 음원에 할당된다는 것을 의미한다.
스무딩된 주요 음원 방향들 단계 또는 스테이지(14)의 모델 기반 계산에서, 프레임 에서의 활성인 주요 음원들의 인덱스들의 세트 , 프레임 에서의 대응하는 주요 소스 방향 추정값들의 세트 , 프레임들 및 사이의 각각의 소스 이동 각도들의 세트 , 발견된 주요 음원들에 의해 생성되도록 되어 있는 HOA 음장 컴포넌트들 , 및 할당 함수 를 이용함으로써 EP 12306485.9에 제안된 통계적 음원 이동 모델에 기초하여, 스무딩된 주요 소스 방향들 이 계산된다. 이러한 모델 기반 스무딩 절차의 상세한 설명은 이하의 스무딩된 주요 음원 방향들의 모델 기반 계산 부분에서 제공된다.
최종 단계 또는 스테이지(15)에서, 세트들 및 에 각각 포함되는 것으로 되어 있는, 현재 활성인 주요 음원들의 인덱스들 및 방향들이, 단계/스테이지(14)로부터의 스무딩된 소스 방향들 및 번째 프레임에서 활성인 것으로 가정된 음원들의 각각의 인덱스들 및 스무딩된 방향들을 포함하는 세트들 및 을 이용하여 판정된다. 이러한 연산은, 적은 수의 연속적인 프레임들에 대해 검출되지 않은 음원들을 부정하게 비활성화(spuriously deactivate)하지 않기 위한 목적을 갖는다.
단계 또는 스테이지(12)는 프레임 의 HOA 표현 및 번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향들의 세트 를 이용하여 번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들의 계산을 수행한다. 계산은 M.A. Poletti에 의한, "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics"(J. Audio Eng. Soc., vol.53(11), pp1004-1125, 2005)에 설명된 바와 같이 모드 매칭의 원리에 기초한다.
소스 이동 각도 추정 단계 또는 스테이지(16)에서, 프레임 에서의 주요 활성인 음원들의 이동 각도들의 세트 가, 각각 및 번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향 추정값들의 2개의 세트들 및 로부터 계산된다. 이동은 프레임들 와 사이에서 일어나는 것으로 이해된다. 활성인 주요 음원의 이동 각도는 프레임 에서의 그의 스무딩된 방향 추정값과 프레임 에서의 것 사이의 아크(arc)이다.
주의: 프레임 에서 활성인 것으로 가정되는 주요 음원에 대해 프레임 로부터의 어떤 방향 추정값도 이용가능하지 않으면, 각각의 이동 각도는 의 최대값으로 설정될 수 있다. 일반적으로, 제1 프레임 및 프레임 값들에 대한 프로세싱을 초기화하는 것이 가능하지 않은 경우, 도 1의 단계들 또는 스테이지들에서 입력될 값들 또는 대응하는 세트들은 비어있거나, 또는 각각 0으로 설정된다.
이 연산은 이 음원의 다음 방향에 대한 선험적 확률이 모든 가능한 방향들에 걸쳐서 균일하게 되게 한다(이하의 현재 활성인 주요 음원들의 인덱스들 및 방향들의 판정 부분을 참고).
프레임 지연들(171 내지 174)은 하나의 프레임 단위로 각각의 신호들을 지연시키고 있다.
이하에서, 전술한 단계들 및 스테이지들이 보다 상세하게 설명된다.
예비 방향 탐색
예비 방향 탐색 단계/스테이지(11)에서, (프레임 에서의) 현재의 주요 음원들의 현재 수 및 각각의 방향들 이 추정된다. 또한, 개별 음원들에 의해 생성되도록 되어 있는 HOA 음장 컴포넌트들 뿐 아니라 대응하는 방향성 신호들 (즉, 일반 평면파 함수들)이 계산된다. 이전에 열거된 양들 모두가 먼저 방향 인덱스 d = 1에 대해 계산되고, 그 후 d = 2에 대해 계산되고, 까지 계산된다.
단일 방향 인덱스에 대한 계산 절차가 도 2에 예시된다. (번째 시간 프레임에 대한 번째 방향의 추정과 관련된)번째 방향의 추정 이후에 생성된 남아있는 HOA 표현 은 이 스테이지에 입력된다. 이에 의해, 루프의 시작에서, 은 원래의 HOA 프레임 에 대응한다는 것이 이해될 것이다. 제1 단계 또는 스테이지(21)에서, 남아있는 HOA 표현 의 방향성 전력 분포 는, 단위 구체 상에서 거의 균일하게 분포되는, 미리정의된 수의 Q개의 이산 테스트 방향들 에 대해 계산된다. 보다 구체적으로는, 각각의 테스트 방향 는 경사각 및 수학식(2)에 따른 방위각 을 포함하는 벡터로서 정의된다.
에 의해 표현되고, 그의 컴포넌트들 은, 번째 시간 프레임에 대한 방향 에 관련된 표현 내에 남아있는 모든 주요 음원들의 합동 전력을 표기한다. 로부터의 방향성 전력 분포 의 실제 계산은 EP 12305537.8에서 제안한 바와 같이 수행될 수 있다. 단계 또는 스테이지(22)에서, 주요 음원의 존재에 대해 방향성 전력 분포 가 분석된다. 주요 소스를 검출하는 한가지 방식이 이하의 주요 음원 존재에 대한 분석 부분에서 설명된다. 주요 음원의 부재가 검출되면, 그 후 방향 탐색이 중단되고 발견된 주요 방향들의 총 수는 로 설정된다. 그렇지 않은 경우, 주요 소스가 검출되면, 좌표 원점에 관한 그의 방향 의 예비 추정값이 단계 또는 스테이지(23)에서 계산되며, 보다 상세한 것은 이하의 주요 음원 방향에 대한 탐색 부분을 참조한다.
연속적으로, 각각의 방향성 신호 및 번째 주요 음원에 의해 생성되는 것으로 가정된 음장 컴포넌트의 HOA 표현 이 단계 또는 스테이지(24)에서 이하의 주요 방향성 신호 및 주요 음원에 의해 생성된 음장의 HOA 표현의 계산 부분에서 보다 상세하게 설명된 바와 같이 계산된다.
최종적으로, 단계 또는 스테이지(25)에서, HOA 컴포넌트 가 로부터 감산되어 나머지 HOA 표현 를 획득하고, 이는 다음(즉, 번째) 방향성 음원의 탐색에 사용된다. 이에 의해, 발견된 번째 음원에 의해 생성된 음장 컴포넌트들이 추가의 방향 탐색에 대해 배제된다는 것이 명시적으로 보장된다.
- 주요 음원 존재에 대한 분석
에 의해 표현되는 음장 내의 주요 음원의 존재를 검출하기 위해, 남아있는 HOA 표현들 의 방향성 전력 분포들 이 고려된다. 한편으로는, 초기 HOA 표현 에 의해 표현된 음장에 비교하여 남아있는 HOA 표현 에 의해 표현된 음장의 중요도에 대한 척도로서 간주될 수 있는 분산비(variance ratio)
을 모니터링하는 것이 타당하다는 것이 실험적으로 발견되었다. 작은 비 는, HOA 표현 에 의해 표현된 음원들 중 어느것도 주요한 것으로 고려되지 않아야 한다는 것을 나타낸다. 다른 한편으로는, 정규화된 방향성 전력 분포들 및 의 분산들의 비
를 관찰하는 것이 또한 타당하다. 정규화된 방향성 전력 분포
분산 은 방향성 전력 분포 의 균일성에 대한 척도로서 간주될 수 있다. 특히, 분산은 작아지면, 보다 더 균일한 전력이 모든 입사 방향들에 걸쳐 분포된다. 공간적으로 확산하는 잡음의 제한적인 경우에, 분산 은 0의 값으로 근접해야 한다. 이러한 고려사항들에 기초하여, 분산비 는 HOA 표현 의 방향성 전력이 의 것보다 더 균일하게 분포되는지를 나타낸다.
전술한 고려사항들을 요약하면, 에 의해 표현되는 음장에는 적어도 단일의 주요 음원들이 항상 존재한다고 가정할 수 있다, 즉, 이다. 즉, 분산비 의 값이 특정 미리정의된 임계값 보다 크고 분산비의 값이 1보다 작은 값을 유지하면, 추가의 주요 소스들이 검출된다(d ≥ 2에 대해).
주요 음원이 검출된다.
- 주요 음원 방향에 대한 탐색
- 주요 음원에 의해 생성된 음장의 HOA 표현 및 주요 방향성 신호의 계산
후속하여, 주요 소스 방향의 예비 추정값 을 판정한 후에, 동일한 음원에 의해 생성되는 것으로 가정된 음장 컴포넌트들의 HOA 표현 뿐 아니라 각각의 방향성 신호 가 도 3에 따라 계산된다. 단계 또는 스테이지(31)에서, 단위 구체 상에서 거의 균일하게 분포되는 것으로 가정되는, 개의 샘플링 위치들 로 이루어지는, 고정된 미리정의된 구체 그리드 가 회전되어, 회전된 샘플링 위치들 로 이루어지는 그리드 를 제공한다. 회전은, 제1 회전된 샘플링 위치 가 예비 방향 추정값 에 대응하도록 수행된다.
단계 또는 스테이지(32)에서, HOA 표현 이, 회전된 그리드 방향들 로부터 관측자 위치(즉, 좌표 원점)에 대해 영향을 주는 것으로 가정되는 개의 평면파 함수들(또한 그리드 방향성 신호들로서 지칭됨) 에 의해 동등하게 표현되는, 소위 공간 도메인으로 변환된다. 평면파 함수들 을 계산하기 위해, 회전된 그리드 방향과 관련하여 모드 행렬 이 다음과 같이 계산되고,
여기서,
이다.
여기서 L은 분석된 HOA 표현의 (샘플들에서의) 길이를 표기하고, 모든 그리드 방향성 신호들의 계산은 수학식(13)과 같은 구체 조화 변환(Spherical Harmonics Transform)에 의해 달성된다(그에 대한 설명은 이하의 구체 조화 변환을 참조한다).
로서 간주될 수 있다.
번째 음원에 의해 생성되는 의 컴포넌트를 판정하기 위해, 이러한 컴포넌트가, 단계 또는 스테이지(33)에서 로부터 예측될 수 있는 평면파 함수들에 의해 동등하게 표현된다고 상정한다. 따라서, 그리드 방향성 신호들 은 로부터 예측되는 것으로 시도된다. 예측된 신호들은 에 의해 표기된다.
그러한 예측을 달성하는 한가지 방식은, 예측된 신호들 이, 예측 오차를 최소화하도록 필터들이 결정되는 선형 필터링에 의해 로부터 생성될 것이라고 가정하는 것이다. 필터들이 (분석 프레임의 지속기간에 비해) 매우 짧은 지속기간의 유한 임펄스 응답(finite impulse response)(FIR) 필터들인 것으로 가정하면, 예측 오차의 최소화는 최신의 최소 제곱(least square) 기법들을 이용하여 달성될 수 있다. 최종적으로, 주요 음원 신호 의 HOA 표현 및 모든 예측되고 상관된 컴포넌트들이, 수학식(15)와 같은 역 구체 조화 변환(inverse Spherical Harmonics Transform)에 의해 단계 또는 스테이지(34)에서 획득된다(그에 대한 설명은 이하의 구체 조화 변환 부분을 참조한다).
이전에 활성인 주요 음원들의 방향성 신호들의 계산
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들 은 수학식(20)에 따른 행렬 내에 포함된다. 이 행렬은 수학식(16)에 의한 모드 매칭의 원리(전술한 Poletti 문서를 참조)를 이용하여 계산된다.
에 의해 계산되고, 여기서,
이다.
직접 할당
전술한 바와 같이, 한편으로는 도 1의 단계/스테이지(13)에서의 할당이 번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향들 및 예비 방향 추정값들 을 비교함으로써 달성되고, 이는 다음의 세트,
내에 포함되고, 여기서, 는 번째 프레임에서 활성인 것으로 되어 있는 번째 음원의 인덱스를 표기한다. 특히, 스무딩된 방향 과 예비 방향 추정값 의 쌍 사이의 각도가 작아질수록, , d번째 새롭게 발견된 주요 음원 방향은 인덱스 를 갖는 이전에 활성인 음원에 대응할 것이다.
다른 한편으로는, 프레임 에서의 검출된 주요 음원들의 순간 방향성 신호들 과 번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들 이 활용된다. 여기서 프레임 은 수학식(20)과 같은, 번째 프레임에서 활성인 것으로 되어 있는 음원들의 개별 방향성 신호들 로 이루어진다.
이 정의를 사용하여, 2개의 신호들 및 사이의 상관 계수 의 절대값이 클수록, 번째 새롭게 발견된 주요 음원 방향은 인덱스 를 갖는 이전에 활성인 음원들에 대응할 것이라는 것을 상정한다. 그러한 상정은, 상관 계수가 2개의 신호들 사이의 선형 종속성에 대한 척도를 제공한다는 사실에 의해 정당화된다.
번째 프레임에서의 어떤 활성 음원에도 속하지 않는 방향 인덱스들 에 대하여, 각도들 은 의 최소 각도로 실질적으로 설정되는 것이 내재적으로 가정되고, 여기서, 예를 들어, 이다. 또한, 방향성 인덱스들 에 대한 상관 계수들 은 실질적으로 0으로 설정된다. 제1 연산은, 모든 이전에 활성인 주요 음원들의 방향들 및 번째 새롭게 발견된 방향 사이의 각도들이 보다 큰 경우, 이 새롭게 발견된 방향은 새로운 음원에 속하도록 선호된다.
할당 문제는 공지된 H.W. Kuhn의 "The Hungarian method for the assignment problem" (Naval research logistics quarterly, vol.2(1-2), pp.83-97, 1955)에 기술된 헝가리안 알고리즘을 이용하여 해결될 수 있다.
스무딩된
주요 음원 방향들의 모델 기반 계산
이 부분은 통계적 음원 이동 모델에 따른 도 1의 단계/스테이지(14)에서의 스무딩된 주요 음원 방향들의 계산을 다룬다. 이 계산에 대한 개별 단계들은 도 4에 예시되고 이하에 더 자세하게 설명된다.
- 주요 음원 방향들에 대한 방향성 선험적 확률 함수들의 계산
계산은 EP 12306485.9에 도입된 간단한 음원 이동 예측 모델에 기초한다. 특히, 번째 새롭게 발견된 주요 음원에 대한 방향성 선험적 확률 함수 는, 3차원 공간에서 단위 구체에 대한 von Mises-Fischer 분포의 이산 버전인 것으로 가정된다.
이다.
이다.
로 설정될 수 있다.
인 것으로 발견되었다(EP 12306485.9 참조).
이러한 계산 배후의 원리는 이전에 음원이 이동한 것 보다 더 적게 선험적 확률 함수의 집중도를 증가시키는 것이다. 이전에 음원이 많이 이동하였으면, 그의 연속적 방향성에 관한 불확실성이 높고, 따라서, 집중 파라미터는 작은 값을 달성해야 한다.
b) 번째 새롭게 발견된 주요 음원에 할당된 소스 인덱스 가 세트 내에 포함되지 않으면, 각각의 음원은 이전에 활성이 아니었던 것으로 간주된다. 결과적으로, 이 소스의 방향에 관한 어떤 선험적 지식도 실제로 이용가능하지 않다. 따라서, 선험적 확률 함수 는 단위 구체 상에서 균일한 것으로 가정되고, 개별 확률들이 모든 테스트 위치들 에 대해 동일한, 즉,
이다.
- 주요 음원 방향들에 대한 방향성 우도 함수의 계산
방향성 우도 함수 는, 개별의 새롭게 검출된 주요 음원들뿐 아니라 할당 함수 에 의해 생성되는 것으로 되어 있는 HOA 음장 컴포넌트들 을 이용하여 단계 또는 스테이지(41)에서 계산된다. 방향성 우도 함수 는 수학식(29)와 같이 개별 테스트 방향들 에 대한 우도들 로 구성된 벡터인 것으로 가정된다.
이다.
이고, 여기서,
이고, 수학식(31)은 테스트 방향 에 관한 모드 벡터를 표기하고(은 이하의 실수치의 구체 조화들(real-valued Spherical Harmonics)의 정의 부분에서 정의된 실수치의 구체 조화를 나타낸다), 여기서,
- 주요 음원 방향들에 대한 방향성 후험적 (posteriori) 확률 함수들의 계산
방향성 후험적 확률 함수들 은, 방향성 선험적 확률 함수들 및 방향성 우도 함수들 을 이용하여 단계 또는 스테이지(43)에서 계산된다. 여기서, 다시 한번, 방향성 후험적 확률 함수 는 수학식(33)와 같이 개별 테스트 방향들 에 대한 후험적 확률들 로 구성된 벡터인 것으로 가정된다.
고정된 방향 인덱스 를 가정하면, 수학식(37)의 분모는 각각의 테스트 방향 에 대해 고정적이다. 후속 방향 탐색을 위해, 오직 후험적 확률 함수들의 최대값이 관심있는 경우에, 그러한 글로벌 스케일링은 관련이 없다. 따라서, 수학식(37)의 분모의 계산은 연산 전력을 절감하기 위해 완전하게 무시할 수 있다는 것을 유의한다.
- 스무딩된 주요 음원 방향들의 계산
스무딩된 음원 방향들 이, 후험적 확률 함수들 을 이용하여 단계 또는 스테이지(44)에서 계산된다. 특히, 프레임 에 대해 발견된 번째 음원의 스무딩된 방향 은 후험적 확률 함수 의 최대값, 즉,
에 대한 탐색에 의해 획득된다.
현재 활성인 주요 음원들의 인덱스들 및 방향들의 판정
프레임 에서의 모든 활성 주요 음원들의 인덱스들 의 세트 및 프레임 에서의 대응하는 주요 소스 방향 추정값들 의 세트 는, 프레임 에서의 모든 활성인 주요 음원 방향들의 스무딩된 추정값들 의 세트 , 대응하는 인덱스들 의 세트 , 및 프레임 에 대해 획득된 스무딩된 주요 음원 방향 추정값들 을 이용하여 도 1의 단계 또는 스테이지(15)에서 계산된다. 이러한 연산은, 예를 들어, 개별 임펄스들 사이에서 짧은 휴지기를 갖는 임펄스형 음향들을 생성하는 캐스터네츠(castanets)와 같은 소스들에 대해 발생할 수 있는, 적은 수의 연속하는 프레임들에 대해 검출되지 않은 음원들을 부정하게 비활성화시키지 않으려는 목적을 갖는다. 따라서, 그들이 오직 미리정의된 수 의 연속적인 프레임들에 대해 검출되지 않은 경우에만, 최종(즉, 번째) 프레임에서 활성인 것으로 가정되었던 음원들을 비활성화하는 것이 타당하다. 이전 고려사항들에 따라, 제1 단계에서, 프레임 에서의 모든 활성 주요 음원들의 인덱스들 의 세트 와 모든 새롭게 검출된 음원들의 인덱스들의 세트
가 계산된다.
이 세트로부터 원하는 세트 가, 개의 이전에 연속적인 프레임들에 대해 검출되지 않았던 그러한 소스들의 인덱스들을 로부터 제거함으로써 획득된다. 프레임 에서의 개의 활성인 주요 음원들이 의 요소들의 수로 설정된다. 최종적으로, 가 의 요소들을 나타내는, 주요 소스 방향 추정값들 이
에 의해 판정된다.
고차
앰비소닉의
기초
고차 앰비소닉(HOA)은, 음원들이 없는 것으로 가정되는, 관심있는 컴팩트한 영역 내의 음장에 대한 설명에 기초한다. 그 경우에, 시간 및 관심 영역 내의 위치 에서의 음압 의 시공간 거동은 물리적으로 제차 방정식(homogeneous equation)에 의해 완전하게 판정된다. 이하에서, 도 5에 도시된 바와 같은 구체 좌표계가 가정된다. 사용된 좌표계에서, 축은 정면 위치를 가리키고, 축은 좌측을 가리키고, 축은 위쪽을 가리킨다. 공간 에서의 위치는 반지름 (즉, 좌표 원점에 대한 거리), 극축(polar axis) 로부터 측정된 경사각 및 축으로부터 평면에서 반시계 방향으로 측정된 방위각 에 의해 표현된다. 는 위치변환을 표기한다.
에 의해 표기된 시간과 관련하여 음압의 푸리에 변환이,
에 따라 구체 조화 급수(series of Spherical Harmonics)로 확장될 수 있다는 것이 보여질 수 있다(E.G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999 참조).
수학식(40)에서, 는 음향의 속도를 표기하고 는 각파수(angular wave number)를 나타내고, 이는 에 의해 각 주파수 에 관련되고, 은 제1종의 구체 베젤 함수(spherical Bessel function)를 표기하고, 은 n차(n order) 및 m도(m degree)의 실수치의 구체 조화들을 표기하고, 이는 이하의 실수치 의 구체 조화들의 정의 부분에서 정의된다. 확장 계수들 은 각파수 에 의존한다. 음압은 공간적으로 대역-제한된다는 것이 내재적으로 가정된다. 따라서, 급수는 상한 N에서 차수 인덱스 n에 관하여 잘라지며, 이는 HOA 표현의 차수라 지칭된다.
음장이 앵글 튜플(angle tuple) 에 의해 특정된 모든 가능한 방향들로부터 도달하는 상이한 각 주파수 의 유한개의 조화 평면파의 중첩에 의해 표현되는 경우, 각각의 평면파 복소 진폭 함수 는 이하의 구체 조화 확장에 의해 표현될 수 있다는 것이 보여질 수 있다(B. Rafaely, "Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution", J. Acoust. Soc. Am., vol.4(116), pp.2149-2157, 2004 참조):
이다.
- 실수치의 구체 조화들의 정의
이고, 여기서,
이다.
- 고차 앰비소닉 의 공간 해상도
에 의해 표현된다.
에 의해 주어진다.
이것은, 특성,
이다.
그러나, 유한 차수 N의 경우에, 방향 로부터의 일반적 평면파의 기여도는 인근 방향들로 번지게 되고, 여기서 번짐의 정도는 차수가 증가함에 따라 감소한다. N의 상이한 값들에 대한 정규화된 함수 의 플롯이 도 6에 제공된다.
임의의 방향 에 대해, 평면파 진폭의 공간 밀도의 시간 도메인 거동은 임의의 다른 방향에서의 그의 거동의 배수이다. 특히, 일부 고정된 방향들 및 에 대한 함수들 및 은 시간 와 관련하여 서로에 대해 높은 정도로 상관된다.
- 구체 조화 변환
와 같이, 벡터 내로 수집하면, 이 벡터는
과 같은 간단한 행렬 곱셈에 의해 수학식(44)에서 정의된 연속적인 앰비소닉 표현 로부터 계산될 수 있다는 것이 수학식(50)에 의해 검증될 수 있고, 여기서, 는 합동 위치변환 및 컨주게이션(conjugation)을 나타내고, 는,
에 의해 정의된 모드 행렬을 표기하며,
이다.
양쪽 수학식 모두가 앰비소닉 표현과 '공간 도메인' 간의 변환 및 가역 변환이 된다. 이러한 변환들은 각각 구체 조화 변환 및 역 구체 조화 변환으로 표기된다. 방향들 가 단위 구체 상에서 거의 균일하게 분포되기 때문에,
본 발명의 프로세싱은 단일 프로세서 또는 전자 회로에 의해, 또는 병렬로 동작하는 및/또는 본 발명의 프로세싱의 상이한 부분들에 대해 동작하는 여러개의 프로세서들 또는 전자 회로들에 의해 수행될 수 있다.
Claims (15)
- 음장의 고차 앰비소닉(Higher Order Ambisonics; HOA) 표현에서 상관되지 않은 음원들의 방향들을 판정하기 위한 방법으로서,
HOA 계수들의 현재 시간 프레임에서, 주요 음원들의 예비 방향 추정값들을 탐색하는 단계; 및
상기 주요 음원들에 기초하여 HOA 음장 컴포넌트들을 판정하는 단계
를 포함하고,
현재의 방향 추정값은 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된 현재 시간 프레임의 원래의 HOA 표현을 나타내는 나머지(residual) HOA 표현에 기초하여 판정되고,
상기 현재의 방향 추정값은 모든 다른 테스트 방향들의 각각의 전력에 대하여, 한 방향으로부터 청취자 위치에 영향을 주는, 상기 나머지 HOA 표현의 관련된 일반 평면파의 전력에 기초하여, 미리정의된 테스트 방향들의 세트 중에서 선택되고,
상기 HOA 계수들의 현재 시간 프레임에 대한 상기 현재의 방향 추정값이 HOA 계수들의 이전 시간 프레임의 적어도 주요 음원에 할당되고, 시간 궤적에 대해 스무딩되는(smoothed), 방법. - 제1항에 있어서,
상기 스무딩하는 것은 베이지안 추론 프로세스(Bayesian inference process)에 기초하고, 이 베이지안 추론 프로세스는 통계적 선험적 음원 이동 모델 및 상기 원래의 HOA 표현의 주요 음원 컴포넌트들의 방향성 전력 분포를 활용하는 방법. - 제2항에 있어서,
상기 통계적 선험적 음원 이동 모델은 개별 음원들의 이동을, 상기 이전 시간 프레임에서의 그들의 방향과, 상기 이전 시간 프레임과 두번째 이전 시간 프레임(penultimate time frame) 사이의 이동에 기초하여 통계적으로 예측하는 방법. - 제2항에 있어서,
상기 방향 추정값들은 방향 추정값과 이전에 발견된 음원의 방향의 쌍들 사이의 각도들의 합동 최소화, 및 상기 HOA 계수들의 이전 시간 프레임에서 발견된 주요 음원 및 방향 추정값과 관련된 방향성 신호들의 쌍들 사이의 상관 계수의 절대값의 최대화에 기초하여 상기 HOA 계수들의 이전 시간 프레임의 주요 음원들에 할당되는, 방법. - 음장의 고차 앰비소닉(HOA) 표현에서 상관되지 않은 음원들의 방향들을 판정하기 위한 방법으로서,
HOA 계수들의 현재 시간 프레임에서, 주요 음원들의 예비 방향 추정값들을 탐색하는 단계와,
상기 주요 음원들에 기초하여 HOA 음장 컴포넌트들을 판정하고, 방향성 신호들을 판정하는 단계와,
상기 현재 시간 프레임의 상기 예비 방향 추정값들과 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들의 비교에 기초하여 상기 HOA 계수들의 이전 시간 프레임에서 활성인 음원들에 상기 주요 음원들을 할당하는 단계와 - 상기 할당은 또한 상기 현재 시간 프레임의 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들의 상관에 기초하여, 할당 함수를 야기함 -,
상기 할당 함수, 상기 이전 시간 프레임에서의 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들, 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 각각의 소스 이동 각도들, 및 상기 주요 음원들에 기초한 상기 HOA 음장 컴포넌트들에 기초하여 스무딩된 주요 소스 방향들을 판정하는 단계와,
상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스들의 프레임 지연된 버전에 기초하여, 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하는 단계
를 포함하고,
상기 이전 시간 프레임에서 활성인 음원들의 상기 방향성 신호들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들에 기초한 모드 매칭에 기초하여 판정되고,
상기 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 상기 소스 이동 각도들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 추가 프레임 지연된 버전에 기초하여 판정되는, 방법. - 음장의 고차 앰비소닉(HOA) 표현에서 상관되지 않은 음원들의 방향들을 판정하기 위한 장치로서,
HOA 계수들의 현재 시간 프레임에서, 주요 음원들의 예비 방향 추정값들을 탐색하고, 상기 주요 음원들에 기초하여 HOA 음장 컴포넌트들을 판정하도록 구성된 프로세서 - 상기 프로세서는 또한 방향성 신호들을 판정하도록 구성됨-
를 포함하고,
상기 프로세서는 또한 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들의 비교에 기초하여 상기 HOA 계수들의 이전 시간 프레임에서 활성인 음원들에 상기 주요 음원들을 할당하도록 구성되고, 상기 할당은 또한 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들의 상관에 기초하여, 할당 함수를 야기하고,
상기 프로세서는 또한 상기 할당 함수, 상기 이전 시간 프레임에서의 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들, 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 각각의 소스 이동 각도들, 및 상기 주요 음원들에 기초한 상기 HOA 음장 컴포넌트들에 기초하여 스무딩된 주요 소스 방향들을 판정하도록 구성되고,
상기 프로세서는 또한 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스들의 프레임 지연된 버전에 기초하여, 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하도록 구성되고,
상기 이전 시간 프레임에서 활성인 음원들의 상기 방향성 신호들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들에 기초한 모드 매칭에 기초하여 판정되고,
상기 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 상기 소스 이동 각도들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 추가 프레임 지연된 버전에 기초하여 판정되는, 장치. - 제5항에 있어서,
검출된 주요 방향성 신호들 및 상기 예비 방향 추정값들의 상기 판정은,
나머지 HOA 표현을 획득하기 위해 HOA 계수들의 상기 현재 시간 프레임으로부터 상기 주요 음원들의 감산에 기초하여 HOA 음장 컴포넌트를 판정하는 단계를 더 포함하고, 이러한 감산 프로세싱은 추가적인 음장 컴포넌트들에 대해 각각의 경우에 남아있는 나머지 HOA 표현에 반복적으로 수행되고, 상기 음장 컴포넌트들은 추가적인 방향 탐색에 대해서 배제되는 방법. - 제7항에 있어서,
단위 구체 상에 거의 균일하게 분포되는 미리정의된 수의 이산적 테스트 방향들에 대한 표현을 판정하는 단계를 더 포함하고,
방향성 전력 분포가 주요 음원의 존재에 대해 분석되고, 주요 음원의 부재의 판정에 기초하여, 상기 방향 탐색은 중단되고, 주요 소스의 검출의 판정에 기초하여, 좌표 원점에 대한 방향의 예비 추정값이 판정되는 방법. - 제8항에 있어서,
동일한 음원에 기초하여 음장 컴포넌트들의 HOA 표현 및 각각의 방향성 신호 가,
회전된 샘플링 위치들의 그리드를 판정하도록, 단위 구체 상에 균일하게 분포되도록 타겟팅되는 샘플링 위치들로 이루어지는, 고정되고 미리정의된 구체 그리드를 회전시키는 것 - 상기 회전은, 제1 회전된 샘플링 위치가 상기 예비 방향 추정값에 대응하도록 수행됨 - ;
상기 남아있는 나머지 HOA 표현을 공간 도메인으로 변환하고 주요 음원 신호들 및 그리드 방향 신호들을 판정하는 것;
상기 주요 음원 신호들로부터 상기 그리드 방향 신호들의 예측을 수행하는 것; 및
상기 남아있는 나머지 HOA 표현에 의해 표현된 음장에 대한 주요 음원의 기여도를 나타내는, 예측된 그리드 방향성 신호들의 HOA 표현을 역 구체 조화 변환(inverse Spherical Harmonics Transform)에 기초하여 판정하는 것
에 기초하여 판정되는 방법. - 제5항에 있어서,
상기 스무딩된 주요 소스 방향들은,
상기 할당 함수, 상기 이전 시간 프레임에서의 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들, 및 상기 소스 이동 각도들에 기초하여, 주요 음원 방향들에 대한 방향성 선험적 확률 함수들을 판정하는 것;
상기 할당 함수 및 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들에 기초하여 주요 음원 방향들에 대한 방향성 우도 함수(directional likelihood function)들을 판정하는 것;
상기 방향성 우도 함수들 및 상기 방향성 선험적 확률 함수들에 기초하여 주요 음원 방향들에 대한 방향성 후험적 확률 함수들을 판정하는 것; 및
주요 음원 방향들에 대한 상기 방향성 후험적 확률 함수들에 기초하여 스무딩된 주요 음원 방향들을 판정하는 것
에 기초하여 판정되는 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13305156.5 | 2013-02-08 | ||
EP20130305156 EP2765791A1 (en) | 2013-02-08 | 2013-02-08 | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
PCT/EP2014/052479 WO2014122287A1 (en) | 2013-02-08 | 2014-02-07 | Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150115779A KR20150115779A (ko) | 2015-10-14 |
KR102220187B1 true KR102220187B1 (ko) | 2021-02-25 |
Family
ID=47780000
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020157021230A KR102220187B1 (ko) | 2013-02-08 | 2014-02-07 | 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9622008B2 (ko) |
EP (2) | EP2765791A1 (ko) |
JP (1) | JP6374882B2 (ko) |
KR (1) | KR102220187B1 (ko) |
CN (1) | CN104995926B (ko) |
TW (1) | TWI647961B (ko) |
WO (1) | WO2014122287A1 (ko) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
EP2800401A1 (en) | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
US20140358565A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
EP3357259B1 (en) | 2015-09-30 | 2020-09-23 | Dolby International AB | Method and apparatus for generating 3d audio content from two-channel stereo content |
CN105516875B (zh) * | 2015-12-02 | 2020-03-06 | 上海航空电器有限公司 | 用于快速测量虚拟声音产生设备空间角度分辨率的装置 |
GR1008860B (el) * | 2015-12-29 | 2016-09-27 | Κωνσταντινος Δημητριου Σπυροπουλος | Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα |
US10089063B2 (en) | 2016-08-10 | 2018-10-02 | Qualcomm Incorporated | Multimedia device for processing spatialized audio based on movement |
JP6723120B2 (ja) * | 2016-09-05 | 2020-07-15 | 本田技研工業株式会社 | 音響処理装置および音響処理方法 |
CN107147975B (zh) * | 2017-04-26 | 2019-05-14 | 北京大学 | 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法 |
US10893373B2 (en) | 2017-05-09 | 2021-01-12 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
US10405126B2 (en) * | 2017-06-30 | 2019-09-03 | Qualcomm Incorporated | Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems |
FR3074584A1 (fr) | 2017-12-05 | 2019-06-07 | Orange | Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence |
CN110751956B (zh) * | 2019-09-17 | 2022-04-26 | 北京时代拓灵科技有限公司 | 一种沉浸式音频渲染方法及系统 |
CN111933182B (zh) * | 2020-08-07 | 2024-04-19 | 抖音视界有限公司 | 声源跟踪方法、装置、设备和存储介质 |
CN112019971B (zh) * | 2020-08-21 | 2022-03-22 | 安声(重庆)电子科技有限公司 | 声场构建方法、装置、电子设备及计算机可读存储介质 |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011117399A1 (en) | 2010-03-26 | 2011-09-29 | Thomson Licensing | Method and device for decoding an audio soundfield representation for audio playback |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9915398D0 (en) | 1999-07-02 | 1999-09-01 | Baker Matthew J | Magnetic particles |
FR2801108B1 (fr) | 1999-11-16 | 2002-03-01 | Maxmat S A | Analyseur chimique ou biochimique a regulation de la temperature reactionnelle |
FR2839565B1 (fr) * | 2002-05-07 | 2004-11-19 | Remy Henri Denis Bruno | Procede et systeme de representation d'un champ acoustique |
FR2858403B1 (fr) * | 2003-07-31 | 2005-11-18 | Remy Henri Denis Bruno | Systeme et procede de determination d'une representation d'un champ acoustique |
EP2297557B1 (en) * | 2008-07-08 | 2013-10-30 | Brüel & Kjaer Sound & Vibration Measurement A/S | Reconstructing an acoustic field |
US8705750B2 (en) * | 2009-06-25 | 2014-04-22 | Berges Allmenndigitale Rådgivningstjeneste | Device and method for converting spatial audio signal |
AU2010305313B2 (en) * | 2009-10-07 | 2015-05-28 | The University Of Sydney | Reconstruction of a recorded sound field |
US9271081B2 (en) * | 2010-08-27 | 2016-02-23 | Sonicemotion Ag | Method and device for enhanced sound field reproduction of spatially encoded audio input signals |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
EP2541547A1 (en) * | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
EP2738962A1 (en) | 2012-11-29 | 2014-06-04 | Thomson Licensing | Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field |
US9913064B2 (en) * | 2013-02-07 | 2018-03-06 | Qualcomm Incorporated | Mapping virtual speakers to physical speakers |
-
2013
- 2013-02-08 EP EP20130305156 patent/EP2765791A1/en not_active Withdrawn
-
2014
- 2014-02-07 KR KR1020157021230A patent/KR102220187B1/ko active IP Right Grant
- 2014-02-07 US US14/766,739 patent/US9622008B2/en active Active
- 2014-02-07 JP JP2015556516A patent/JP6374882B2/ja active Active
- 2014-02-07 CN CN201480008017.XA patent/CN104995926B/zh active Active
- 2014-02-07 WO PCT/EP2014/052479 patent/WO2014122287A1/en active Application Filing
- 2014-02-07 EP EP14703102.5A patent/EP2954700B1/en active Active
- 2014-02-10 TW TW103104224A patent/TWI647961B/zh active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011117399A1 (en) | 2010-03-26 | 2011-09-29 | Thomson Licensing | Method and device for decoding an audio soundfield representation for audio playback |
Non-Patent Citations (1)
Title |
---|
Andrew Wabnitz, et al. TIME DOMAIN RECONSTRUCTION OF SPATIAL SOUND FIELDS USING COMPRESSED SENSING. IEEE International Conference on Acoustics, Speech and Signal Processing. 2011.05.22. |
Also Published As
Publication number | Publication date |
---|---|
US9622008B2 (en) | 2017-04-11 |
TW201448616A (zh) | 2014-12-16 |
JP6374882B2 (ja) | 2018-08-15 |
EP2954700A1 (en) | 2015-12-16 |
KR20150115779A (ko) | 2015-10-14 |
WO2014122287A1 (en) | 2014-08-14 |
US20150373471A1 (en) | 2015-12-24 |
EP2954700B1 (en) | 2018-03-07 |
CN104995926A (zh) | 2015-10-21 |
TWI647961B (zh) | 2019-01-11 |
EP2765791A1 (en) | 2014-08-13 |
JP2016509812A (ja) | 2016-03-31 |
CN104995926B (zh) | 2017-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102220187B1 (ko) | 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 | |
US10609501B2 (en) | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field | |
RU2596592C2 (ru) | Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала | |
US11943604B2 (en) | Spatial audio processing | |
JP6939786B2 (ja) | 音場形成装置および方法、並びにプログラム | |
Majumder et al. | Few-shot audio-visual learning of environment acoustics | |
KR20140074918A (ko) | 직접-산란 분해 | |
CN112799017A (zh) | 声源定位方法、装置、存储介质及电子设备 | |
Dang et al. | A feature-based data association method for multiple acoustic source localization in a distributed microphone array | |
Blochberger et al. | Particle-filter tracking of sounds for frequency-independent 3D audio rendering from distributed B-format recordings | |
Aarabi et al. | Robust sound localization using conditional time–frequency histograms | |
CN112822482B (zh) | 一种确定音视频通话的评估得分的方法与设备 | |
US20070160241A1 (en) | Determination of the adequate measurement window for sound source localization in echoic environments | |
US8290770B2 (en) | Method and apparatus for sinusoidal audio coding | |
CN113835065B (zh) | 基于深度学习的声源方向确定方法、装置、设备及介质 | |
CN115116460B (zh) | 音频信号增强方法、装置、设备、存储介质及程序产品 | |
Manocha et al. | Nord: Non-matching reference based relative depth estimation from binaural speech | |
CN116504264B (zh) | 音频处理方法、装置、设备及存储介质 | |
Esaki et al. | Estimating sound source depth using a small-size array | |
CN110035355B (zh) | 麦克风阵列输出声源的方法、系统、设备及存储介质 | |
US20240205631A1 (en) | Spatial Audio Processing | |
Sakavičius | Improvement of learning-based methods for localization of multiple sound sources | |
CN114898763A (zh) | 用于预测混响时间的方法及其相关产品 | |
CN114333783A (zh) | 一种音频的端点检测方法及设备 | |
Qahani et al. | Realtime stereo localization of a moving speaker using filtered spectrogram correlation map algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |