KR102220187B1 - 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 - Google Patents

음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 Download PDF

Info

Publication number
KR102220187B1
KR102220187B1 KR1020157021230A KR20157021230A KR102220187B1 KR 102220187 B1 KR102220187 B1 KR 102220187B1 KR 1020157021230 A KR1020157021230 A KR 1020157021230A KR 20157021230 A KR20157021230 A KR 20157021230A KR 102220187 B1 KR102220187 B1 KR 102220187B1
Authority
KR
South Korea
Prior art keywords
time frame
sound sources
directions
hoa
previous time
Prior art date
Application number
KR1020157021230A
Other languages
English (en)
Other versions
KR20150115779A (ko
Inventor
알렉산더 크루에게르
스벤 코르돈
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20150115779A publication Critical patent/KR20150115779A/ko
Application granted granted Critical
Publication of KR102220187B1 publication Critical patent/KR102220187B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

고차 앰비소닉 (HOA)은 3차원 음향을 나타낸다. HOA는 높은 공간 해상도를 제공하고 주요 음원들에 대한 음장의 분석을 용이하게 한다. 본 발명은 음장을 이루는 독립적인 주요 음원들을 식별하고, 그들의 시간적 궤도를 추적하는 것을 목표로 한다. 공지된 응용들은 원래의 HOA 표현의 방향성 전력 분포를 찾음으로써 주요 음원 방향들에 한 모든 가능한 후보들을 탐색하는 것인 반면, 본 발명에서는 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된다. 그러한 연산에 의해, 음장에 대한 그의 기여도가 고도로 방향성을 갖고 확산되는 경우에 오직 하나의 정확한 음원 대신에 오류로 다수를 검출하는 문제가 회피될 수 있다.

Description

음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치{METHOD AND APPARATUS FOR DETERMINING DIRECTIONS OF UNCORRELATED SOUND SOURCES IN A HIGHER ORDER AMBISONICS REPRESENTATION OF A SOUND FIELD}
본 발명은 음장(sound field)의 고차 앰비소닉 표현(higher order ambisonics representation)에서의 상관되지 않은 음원들(uncorrelated sound sources)의 방향들을 판정하는 방법 및 장치에 관한 것이다.
고차 앰비소닉(HOA)은 WFS(wave field synthesis) 또는 22.2와 같은 채널 기반 접근법들과 같은 기법들 중에서도 3차원 음향을 표현하는 하나의 가능성을 제공한다. 그러나, 채널 기반 방법과는 대조적으로, HOA 표현은 특정 라우드스피커 설정에 무관한 장점을 제공한다. 그러나, 이러한 유연성은 특정 라우드스피커 설정 상의 HOA 표현의 재생에 요구되는 디코딩 프로세스의 댓가이다. 요구되는 라우드스피커들의 수가 통상적으로 매우 많은 WFS 접근법에 비교하면, HOA는 또한 오직 몇개의 라우드스피커로 이루어지는 설정으로 렌더링될 수 있다. HOA의 추가의 장점은, 동일한 표현이 또한 헤드폰으로의 바이노럴 렌더링(binaural rendering)에 대한 어떠한 수정도 없이 이용될 수 있다는 것이다.
HOA는 잘려진 구면 조화(truncated Spherical Harmonics)(SH) 확장에 의한 복소 조화 평면 파(complex harmonic plane wave) 진폭들의 공간 밀도의 표현에 기초한다. 각각의 확장 계수는 각 주파수(angular frequency)의 함수이고, 이는 시간 도메인 함수에 의해 동등하게 표현될 수 있다. 따라서, 일반성을 잃지 않고, 완전한 HOA 음장 표현이 실제로
Figure 112015076044720-pct00001
시간 도메인 함수들로 이루어지는 것으로 가정할 수 있고, 여기서
Figure 112015076044720-pct00002
는 확장 계수들의 수를 표기한다. 이하에서, 이러한 시간 도메인 함수들이 HOA 계수 시퀀스들로서 또는 HOA 채널들로서 참조된다. HOA는 높은 공간 해상도를 제공할 가능성을 가지며, 이는 증가하는 최대 N차 확장으로 개선한다. 이것은 주요 음원들(dominant sound sources)에 관하여 음장의 분석에 대한 가능성을 제공한다.
응용은 HOA 표현으로부터 음장을 구성하는 주어진 HOA 독립적 주요 음원들을 식별하는 방법, 및 그들의 시간적 궤적(temporal trajectory)을 추적하는 방법일 수 있다. 그러한 연산은, 예를 들어, 특허 출원 EP 12305537.8에서 설명된 바와 같이 음장을 주요 방향성 신호들과 나머지 주변 컴포넌트(remaining ambient component)로 분해함으로써 HOA 표현들에 대한 압축을 요구한다. 그러한 방향 추적 방법에 대한 추가의 응용은 대략적 예비 소스 분리(coarse preliminary source separation)일 것이다. 특정 음원들의 신호들을 증폭 또는 감쇠시키기 위해 HOA 음장 레코딩의 사후-생성(post-production)을 위해 추정된 방향 궤적을 사용하는 것이 또한 가능하다.
EP 12305537.8에서, 이하의 3개의 연산들을 연속적으로 수행하는 것이 제안되어 있다:
- 시간 프레임 내에 현재 존재하는 주요 음원들의 수가 식별되고 대응하는 방향들이 탐색된다. 주요 음원들의 수는 HOA 채널 교차상관 행렬의 고유값(eigenvalue)들로부터 판정된다. 주요 음원 방향들의 탐색을 위하여, 고정된 높은 수의 미리정의된 테스트 방향들에 대한 HOA 계수들의 프레임에 대응하는 방향성 전력 분포가 평가된다. 제1 방향 추정값이 방향성 전력 분포에서의 최대값을 찾음으로써 획득된다. 그리고 나서, 나머지 식별된 방향들은 이하의 2개의 연산들을 연속적으로 반복함으로써 알 수 있다: 공간적 인근의 테스트 방향들은 테스트 방향들의 나머지 세트로부터 제거되고 결과적인 세트는 방향성 전력 분포 중 최대에 대한 탐색으로 간주된다.
- 추정된 방향들은 최종 시간 프레임에서 활성인 것으로 간주되는 음원들에 할당된다.
- 할당 이후에, 방향 추정값들에 대한 적절한 스무딩(smoothing)이 수행되어 시간적으로 스무드(smooth)한 방향 궤적을 획득한다.
그러나, 지수적으로 가중된 이동 평균을 계산함으로써 방향성 추정값들에 대한 그러한 시간적 스무딩을 처리하는 것이 원칙적으로 달성되더라도, 이러한 기법은 갑작스러운 방향 변화들 또는 새로운 주요 음향들의 시작을 정확하게 포착할 수 없다는 단점을 갖는다.
이러한 문제를 극복하기 위해, 단순한 통계적 소스 이동 예측 모델을 도입하는 것이 특허 출원 EP 12306485.9에서 제안되었고, 이는 베이지안 학습 규칙(Bayesian learning rule)에 의해 구현된 통계적으로 근거한 스무딩에 채용된다. 그러나, EP 12306485.9 및 EP 12305537.8은 오직 방향성 전력 분포로부터 음원 방향들에 대한 우도 함수(likelihood function)를 계산한다. 이러한 분포는 단위 구체 상에서 거의 균일하게 분포된 샘플링 포인트들에 의해 특정된 방향들로부터의 높은 수의 일반 평면파들의 전력을 나타낸다. 이것은 상이한 방향들로부터의 일반 평면파들 간의 상호 상관에 관한 어떤 정보도 제공하지 않는다. 실제로, 차수 N의 HOA 표현은 일반적으로 제한되어, 공간적으로 대역-제한된 음장을 야기한다. 특히, 이것은 방향성 전력 분포에 대한 방향성 음원의 기여도가 인근에서의 방향들에 대한 진정한 입사 방향들(directions of incidence) 주위에서 번지는 것을 의미한다. 이러한 번짐 효과(smearing effect)는 '확산 함수(dispersion function)'에 의해 수학적으로 설명되고, 이하의 고차 앰비소닉의 공간적 해상도 부분을 참조한다. 그것의 크기는 감소하는 차수의 HOA 표현으로 증가한다. EP 12306485.9 및 EP 12305537.8 방향 추적 방법들은 이전에 발견된 방향들의 인근의 외부의 영역들에 대한 방향의 탐색을 제한함으로써 이러한 효과를 어느 정도까지 고려하고 있다. 그러나, 인근에 대한 특정은, 모든 음원들이 완전한 N차의 HOA 표현으로 인코딩된다는 것을 가정한다. 이러한 가정은 N보다 낮은 차수로 인코딩된 일반 평면파들을 포함하는 N차의 HOA 표현들에 대해 위반된다. 그러한 N보다 낮은 차수의 일반 평면파들은 음원들이 더 넓게 나타나도록 하는 아티스틱 생성(artistic creation)의 결과일 수 있다. 그러나, 그들은 또한 구체 마이크로폰들(spherical microphones)에 의한 HOA 음장 표현의 레코딩으로 발생한다.
EP 12306485.9 및 EP 12305537.8 방향 추적 방법들은, 음장이, 원치않는 특성인, N보다 낮은 차수의 단일의 일반 평면파로 구성되는 경우에 단일의 음원보다 많은 것을 식별할 것이다.
본 발명에 의해 해결될 문제는 HOA 음장에서의 주요 음원들에 대한 판정을 개선하는 것이고, 따라서, 그들의 시간적 궤적들이 추적될 수 있다. 이러한 문제는 청구항 1, 2 및 6에 개시된 방법들에 의해 해결된다. 청구항 6의 방법을 이용하는 장치가 청구항 7에 개시된다.
본 발명은 EP 12306485.9 프로세싱을 개선한다. 본 발명의 프로세싱은 독립적 주요 음원들을 찾고, 시간에 따른 그들의 방향들을 추적한다. '독립적 주요 음원들'이라는 표현은 각각의 음원들의 신호들이 상관되지 않는다는 것을 의미한다. 최신의 방법들 EP1230557.8 및 EP 12306485.9는 오직 원래의 HOA 표현의 방향성 전력 분포를 검토함으로써 주요 음원 방향들에 대한 모든 잠재적 후보들을 탐색하지만, 이하에 설명되는 본 발명의 프로세싱은 각각의 방향 후보에 대한 탐색에 대해, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들을 원래의 HOA 표현으로부터 제거한다. 그러한 연산에 의해, 음장에 대한 그의 기여도가 방향적으로 높은 정도로 확산되는 경우에, 오직 하나의 음원 대신에 다수를 잘못하여 검출하는 문제가 회피될 수 있다. 전술한 바와 같이, 그러한 효과는 N보다 낮은 차수로 인코딩된 일반 평면파들을 포함하는 N차의 HOA 표현들에 대해 발생할 것이다.
EP 12306485.9에서와 같이, 주요 음원 방향들에 대해 발견된 후보들은 그 후에 이전에 발견된 주요 음원들에 할당되고, 통계적 소스 이동 모델에 따라 최종적으로 스무딩된다. 따라서, EP 12306485.9에서와 같이, 본 발명의 프로세싱은 시간적으로 스무드한 방향 추정값들을 제공하고, 갑작스러운 방향 변화들 또는 새로운 주요 음향들의 시작을 포착할 수 있다.
본 발명의 프로세싱은 HOA 표현의 연속하는 프레임들에 대해 주요 음원 방향들에 대한 추정값을 2개의 후속하는 프로세싱에서 판정한다:
HOA 표현의 현재 시간 프레임
Figure 112015076044720-pct00003
로부터, 주요 음원 방향들에 대한 후보 또는 추정값들이 연속적으로 탐색되고, 각각의 음원들에 의해 생성되도록 되어 있는 HOA 표현의 컴포넌트가 판정된다. 이러한 탐색 프로세스의 각각의 반복에서, 각각의 추가의 방향 후보가, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된 원래의 HOA 표현을 나타내는 나머지(residual) HOA 표현으로부터 계산된다. 현재 방향 후보는 다수의 미리정의된 테스트 방향들로부터 선택되어, 선택된 방향으로부터 청취자 위치에 영향을 주는 나머지 HOA 표현의 관련된 일반 평면파의 전력이 모든 다른 테스트 방향들의 것에 비교하여 최대가 되도록 한다.
다음으로, 현재 시간 프레임에 대해 선택된 방향 후보들이 HOA 계수들의 이전 시간 프레임
Figure 112015076044720-pct00004
에서 발견된 주요 음원들에 할당된다. 이후, 결과적인 시간 궤적에 관하여 스무딩되는 최종 방향 추정값들이 베이지안 추론 프로세스를 수행함으로써 계산되고, 여기서 이 베이지안 추론 프로세스는 한편으로는 통계적 선험적(statistical a priori) 음원 이동 모델을 활용하고, 다른 한편으로는 원래의 HOA 표현의 주요 음원 컴포넌트들의 방향성 전력 분포를 활용한다. 선험적 음원 이동 모델은 이전 시간 프레임
Figure 112015076044720-pct00005
에서의 그들의 방향으로부터 개별 음원들의 현재 이동 및 이전 시간 프레임
Figure 112015076044720-pct00006
과 끝에서 두번째의 시간 프레임
Figure 112015076044720-pct00007
과의 사이의 이동을 통계적으로 예측한다.
HOA 계수들의 이전 시간 프레임
Figure 112015076044720-pct00008
에서 발견된 주요 음원들에 대한 방향 추정값들의 할당은, 이전에 발견된 음원의 방향과 방향 추정값의 쌍들 사이의 각도들의 합동 최소화와, 방향 추정값 및 이전 시간 프레임에서 발견된 주요 음원에 관련된 방향성 신호들의 쌍들 사이의 상관 계수의 절대값의 최대화에 의해 달성된다.
원칙적으로, 본 발명의 방법은 HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들을 판정하는데 적절하고, 상기 방법은:
- HOA 계수들의 현재 시간 프레임에서, 주요 음원들에 대한 연속적으로 예비 방향 추정값들을 탐색하는 것, 및 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들을 계산하는 것, 및 대응하는 방향성 신호들을 계산하는 것;
- 상기 계산된 주요 음원들을, 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 상기 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들과 비교하고, 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들을 상관시키는 것에 의해 상기 HOA 계수들의 이전 시간 프레임에서 활성인 대응하는 음원들에 할당하여, 할당 함수를 야기하는 것;
- 상기 할당 함수, 상기 이전 시간 프레임에서의 상기 스무딩된 방향들의 세트, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들의 세트, 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 각각의 소스 이동 각도들의 세트, 및 대응하는 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들을 이용하여 스무딩된 주요 소스 방향들을 계산하는 것;
- 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스의 프레임 지연된 버전을 이용하여 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하는 것
을 포함하고,
상기 이전 시간 프레임에서의 활성인 음원들의 상기 방향성 신호들은 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들로부터 모드 매칭을 이용하여 계산되고,
상기 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 상기 소스 이동 각도들의 세트는 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 그의 추가의 프레임 지연된 버전으로부터 계산된다.
원칙적으로, 본 발명의 장치는 HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들을 판정하는데 적합하고, 상기 장치는:
- 주요 음원들의 예비 방향 추정값들을 HOA 계수들의 현재 시간 프레임에서 연속적으로 탐색하고, 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들을 계산하고, 대응하는 방향성 신호들을 계산하도록 구성되는 수단;
- 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 상기 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들을 비교하고, 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들을 상관시킴으로써 상기 HOA 계수들의 이전 시간 프레임에서 활성인 대응하는 음원들에 상기 계산된 주요 음원들을 할당하여, 할당 기능을 야기하도록 구성되는 수단;
상기 할당 기능, 상기 이전 시간 프레임에서의 스무딩된 방향들의 세트, 상기 이전 시간 프레임에서 활성인 주요 음원들의 인덱스들의 세트, 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 각각의 소스 이동 각도들의 세트, 및 대응하는 주요 음원들에 의해 생성되는 상기 HOA 음장 컴포넌트들을 이용하여 스무딩된 주요 소스 방향들을 계산하도록 구성되는 수단;
- 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스의 프레임 지연된 버전을 이용하여 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하도록 구성되는 수단
을 포함하고,
상기 이전 시간 프레임에서의 활성인 음원들의 상기 방향성 신호들은 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들로부터 모드 매칭을 이용하여 계산되고,
상기 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 상기 소스 이동 각도들의 세트는 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 그의 추가의 프레임 지연된 버전으로부터 계산된다.
본 발명의 장점을 갖는 추가의 실시예들은 각각의 종속 청구항들에서 개시된다.
본 발명의 예시적인 실시예들은 첨부하는 도면들을 참조하여 설명된다:
도 1은 고차 앰비소닉 신호들의 주요 상관되지 않은 방향성 신호들의 방향들의 추정을 위한 본 발명의 프로세싱의 블록도이다;
도 2는 예비 방향 추정의 상세이다;
도 3은 주요 음원들에 의해 생성된 음장의 HOA 표현 및 주요 방향성 신호의 계산이다;
도 4는 스무딩된 주요 음원 방향들의 모델 기반 계산이다;
도 5는 구체 좌표계이다;
도 6은
Figure 112015076044720-pct00009
인 각도들에 대해 그리고 상이한 앰비소닉 차수 N에 대한 정규화된 확신 함수
Figure 112015076044720-pct00010
이다.
본 발명의 방향 추적 프로세싱의 원리가 도 1에 예시되며, 이하에서 설명된다. 방향 추적은 길이 L의 HOA 계수 시퀀스들의 입력 프레임들
Figure 112015076044720-pct00011
의 연속적 프로세싱에 기초하는 것으로 가정되며, 여기서
Figure 112015076044720-pct00012
는 프레임 인덱스를 표기한다. 프레임들은 다음과 같이 고차 앰비소닉의 기초 부분에서의 수학식(45)에 특정된 HOA 계수 시퀀스들과 관련하여 정의된다.
Figure 112015076044720-pct00013
여기서,
Figure 112015076044720-pct00014
는 샘플링 주기를 표기하고 B ≤ L은 프레임 시프트를 나타낸다. 연속적 프레임들은 중첩(overlapping), 즉, B < L이라고 가정하는 것이 타당하지만, 반드시 그런 것은 아니다.
제1 단계 또는 스테이지(11)에서, HOA 표현의
Figure 112015076044720-pct00015
번째 프레임
Figure 112015076044720-pct00016
는 주요 음원들에 대해 예비 분석된다. 이러한 프로세싱의 상세 설명은 이하의 예비 방향 탐색 부분에서 제공된다. 특히, 검출된 주요 방향성 신호들의 수
Figure 112015076044720-pct00017
뿐 아니라 대응하는
Figure 112015076044720-pct00018
예비 방향 추정값들
Figure 112015076044720-pct00019
이 판정된다. 추가적으로, 대응하는 개별 주요 음원들뿐 아니라 대응하는 순간 방향성 신호들(instantaneous directional signals)
Figure 112015076044720-pct00020
(즉, 일반 평면파 함수들)에 의해 생성되는(것으로 되어 있는) HOA 음장 컴포넌트들
Figure 112015076044720-pct00021
이 계산된다.
개별 예비 방향 추정값들 및 관련된 양들은 순차적 방식으로, 즉, 먼저 d = 1에 대해, 그리고 나서 d = 2에 대해 등으로 계산된다. 제1 단계에서, 원래 HOA 표현
Figure 112015076044720-pct00022
의 방향성 전력 분포는 Ep 12305537.8에서 제안된 바와 같이 계산되고 주요 음원들의 존재에 대해 연속적으로 분석된다. 주요 음원들이 검출되는 경우에, 각각의 예비 방향 추정값
Figure 112015076044720-pct00023
이 계산된다. 또한, 대응하는 방향성 신호
Figure 112015076044720-pct00024
가, 이 음원에 의해 생성되는 것으로 가정되는 현재 프레임
Figure 112015076044720-pct00025
의 그 컴포넌트
Figure 112015076044720-pct00026
와 함께 추정된다.
Figure 112015076044720-pct00027
는 방향성 신호
Figure 112015076044720-pct00028
와 상관되는
Figure 112015076044720-pct00029
의 그 컴포넌트를 나타내는 것으로 가정한다. 최종적으로, HOA 컴포넌트
Figure 112015076044720-pct00030
Figure 112015076044720-pct00031
로부터 감산되어 나머지 HOA 표현
Figure 112015076044720-pct00032
를 획득한다.
Figure 112015076044720-pct00033
번째 (d ≥ 2) 예비 방향의 추정이,
Figure 112015076044720-pct00034
대신에 나머지 HOA 표현
Figure 112015076044720-pct00035
을 이용하는 것만 제외하면 첫 번째 것과 완전하게 유사한 방식으로 수행된다. 이에 의해,
Figure 112015076044720-pct00036
번째 음원에 의해 생성된 음장 컴포넌트들이 추가의 방향 탐색에서 배제된다는 것이 명시적으로 보장된다.
방향 할당 단계 또는 스테이지(13)에서,
Figure 112015076044720-pct00037
번째 프레임에서 단계/스테이지(11)에서 발견된 주요 음원들은
Figure 112015076044720-pct00038
번째 프레임에서의 활성인(것으로 가정되는) 대응하는 음원들에 할당된다. 한편으로는, 할당은 현재 시간 프레임
Figure 112015076044720-pct00039
에 대한 예비 방향 추정값들
Figure 112015076044720-pct00040
Figure 112015076044720-pct00041
번째 프레임에서 활성인(것으로 가정되는) 음원들의 스무딩된 방향들을 비교함으로써 달성되고, 이는 세트
Figure 112015076044720-pct00042
에 포함되고, 그의 인덱스들은 세트
Figure 112015076044720-pct00043
에 포함된다. 다른 한편으로는, 할당을 위해, 프레임
Figure 112015076044720-pct00044
에서의 검출된 주요 음원들의 순간 방향성 신호들
Figure 112015076044720-pct00045
Figure 112015076044720-pct00046
번째 프레임에서 활성인(것으로 가정되는) 음원들의 방향성 신호들
Figure 112015076044720-pct00047
사이의 상관이 활용된다. 할당의 결과는 할당 함수
Figure 112015076044720-pct00048
에 의해 공식화되고, 여기서
Figure 112015076044720-pct00049
는 추적될 예상 음원들의 최대수를 표기하고, 이는
Figure 112015076044720-pct00050
번째 새롭게 발견된 음원이 인덱스
Figure 112015076044720-pct00051
를 이용하여 이전의 활성인 음원에 할당된다는 것을 의미한다.
스무딩된 주요 음원 방향들 단계 또는 스테이지(14)의 모델 기반 계산에서, 프레임
Figure 112015076044720-pct00052
에서의 활성인 주요 음원들의 인덱스들의 세트
Figure 112015076044720-pct00053
, 프레임
Figure 112015076044720-pct00054
에서의 대응하는 주요 소스 방향 추정값들의 세트
Figure 112015076044720-pct00055
, 프레임들
Figure 112015076044720-pct00056
Figure 112015076044720-pct00057
사이의 각각의 소스 이동 각도들의 세트
Figure 112015076044720-pct00058
, 발견된 주요 음원들에 의해 생성되도록 되어 있는 HOA 음장 컴포넌트들
Figure 112015076044720-pct00059
Figure 112015076044720-pct00060
, 및 할당 함수
Figure 112015076044720-pct00061
를 이용함으로써 EP 12306485.9에 제안된 통계적 음원 이동 모델에 기초하여, 스무딩된 주요 소스 방향들
Figure 112015076044720-pct00062
이 계산된다. 이러한 모델 기반 스무딩 절차의 상세한 설명은 이하의 스무딩된 주요 음원 방향들의 모델 기반 계산 부분에서 제공된다.
최종 단계 또는 스테이지(15)에서, 세트들
Figure 112015076044720-pct00063
Figure 112015076044720-pct00064
에 각각 포함되는 것으로 되어 있는, 현재 활성인 주요 음원들의 인덱스들 및 방향들이, 단계/스테이지(14)로부터의 스무딩된 소스 방향들
Figure 112015076044720-pct00065
Figure 112015076044720-pct00066
번째 프레임에서 활성인 것으로 가정된 음원들의 각각의 인덱스들 및 스무딩된 방향들을 포함하는 세트들
Figure 112015076044720-pct00067
Figure 112015076044720-pct00068
을 이용하여 판정된다. 이러한 연산은, 적은 수의 연속적인 프레임들에 대해 검출되지 않은 음원들을 부정하게 비활성화(spuriously deactivate)하지 않기 위한 목적을 갖는다.
단계 또는 스테이지(12)는 프레임
Figure 112015076044720-pct00069
의 HOA 표현
Figure 112015076044720-pct00070
Figure 112015076044720-pct00071
번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향들의 세트
Figure 112015076044720-pct00072
를 이용하여
Figure 112015076044720-pct00073
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들의 계산을 수행한다. 계산은 M.A. Poletti에 의한, "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics"(J. Audio Eng. Soc., vol.53(11), pp1004-1125, 2005)에 설명된 바와 같이 모드 매칭의 원리에 기초한다.
소스 이동 각도 추정 단계 또는 스테이지(16)에서, 프레임
Figure 112015076044720-pct00074
에서의 주요 활성인 음원들의 이동 각도들의 세트
Figure 112015076044720-pct00075
가, 각각
Figure 112015076044720-pct00076
Figure 112015076044720-pct00077
번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향 추정값들의 2개의 세트들
Figure 112015076044720-pct00078
Figure 112015076044720-pct00079
로부터 계산된다. 이동은 프레임들
Figure 112015076044720-pct00080
Figure 112015076044720-pct00081
사이에서 일어나는 것으로 이해된다. 활성인 주요 음원의 이동 각도는 프레임
Figure 112015076044720-pct00082
에서의 그의 스무딩된 방향 추정값과 프레임
Figure 112015076044720-pct00083
에서의 것 사이의 아크(arc)이다.
주의: 프레임
Figure 112015076044720-pct00084
에서 활성인 것으로 가정되는 주요 음원에 대해 프레임
Figure 112015076044720-pct00085
로부터의 어떤 방향 추정값도 이용가능하지 않으면, 각각의 이동 각도는
Figure 112015076044720-pct00086
의 최대값으로 설정될 수 있다. 일반적으로, 제1 프레임
Figure 112015076044720-pct00087
및 프레임
Figure 112015076044720-pct00088
값들에 대한 프로세싱을 초기화하는 것이 가능하지 않은 경우, 도 1의 단계들 또는 스테이지들에서 입력될 값들 또는 대응하는 세트들은 비어있거나, 또는 각각 0으로 설정된다.
이 연산은 이 음원의 다음 방향에 대한 선험적 확률이 모든 가능한 방향들에 걸쳐서 균일하게 되게 한다(이하의 현재 활성인 주요 음원들의 인덱스들 및 방향들의 판정 부분을 참고).
프레임 지연들(171 내지 174)은 하나의 프레임 단위로 각각의 신호들을 지연시키고 있다.
이하에서, 전술한 단계들 및 스테이지들이 보다 상세하게 설명된다.
예비 방향 탐색
예비 방향 탐색 단계/스테이지(11)에서, (프레임
Figure 112015076044720-pct00089
에서의) 현재의 주요 음원들의 현재 수
Figure 112015076044720-pct00090
및 각각의 방향들
Figure 112015076044720-pct00091
이 추정된다. 또한, 개별 음원들에 의해 생성되도록 되어 있는 HOA 음장 컴포넌트들
Figure 112015076044720-pct00092
뿐 아니라 대응하는 방향성 신호들
Figure 112015076044720-pct00093
(즉, 일반 평면파 함수들)이 계산된다. 이전에 열거된 양들 모두가 먼저 방향 인덱스 d = 1에 대해 계산되고, 그 후 d = 2에 대해 계산되고,
Figure 112015076044720-pct00094
까지 계산된다.
단일 방향
Figure 112015076044720-pct00095
인덱스에 대한 계산 절차가 도 2에 예시된다. (
Figure 112015076044720-pct00096
번째 시간 프레임에 대한
Figure 112015076044720-pct00097
번째 방향의 추정과 관련된)
Figure 112015076044720-pct00098
번째 방향의 추정 이후에 생성된 남아있는 HOA 표현
Figure 112015076044720-pct00099
은 이 스테이지에 입력된다. 이에 의해, 루프의 시작에서,
Figure 112015076044720-pct00100
은 원래의 HOA 프레임
Figure 112015076044720-pct00101
에 대응한다는 것이 이해될 것이다. 제1 단계 또는 스테이지(21)에서, 남아있는 HOA 표현
Figure 112015076044720-pct00102
의 방향성 전력 분포
Figure 112015076044720-pct00103
는, 단위 구체 상에서 거의 균일하게 분포되는, 미리정의된 수의 Q개의 이산 테스트 방향들
Figure 112015076044720-pct00104
에 대해 계산된다. 보다 구체적으로는, 각각의 테스트 방향
Figure 112015076044720-pct00105
는 경사각
Figure 112015076044720-pct00106
및 수학식(2)에 따른 방위각
Figure 112015076044720-pct00107
을 포함하는 벡터로서 정의된다.
Figure 112015076044720-pct00108
여기서,
Figure 112015076044720-pct00109
는 위치변환(transposition)을 표기한다. 방향성 전력 분포는 벡터
Figure 112015076044720-pct00110
에 의해 표현되고, 그의 컴포넌트들
Figure 112015076044720-pct00111
은,
Figure 112015076044720-pct00112
번째 시간 프레임에 대한 방향
Figure 112015076044720-pct00113
에 관련된 표현
Figure 112015076044720-pct00114
내에 남아있는 모든 주요 음원들의 합동 전력을 표기한다.
Figure 112015076044720-pct00115
로부터의 방향성 전력 분포
Figure 112015076044720-pct00116
의 실제 계산은 EP 12305537.8에서 제안한 바와 같이 수행될 수 있다. 단계 또는 스테이지(22)에서, 주요 음원의 존재에 대해 방향성 전력 분포
Figure 112015076044720-pct00117
가 분석된다. 주요 소스를 검출하는 한가지 방식이 이하의 주요 음원 존재에 대한 분석 부분에서 설명된다. 주요 음원의 부재가 검출되면, 그 후 방향 탐색이 중단되고 발견된 주요 방향들의 총 수는
Figure 112015076044720-pct00118
로 설정된다. 그렇지 않은 경우, 주요 소스가 검출되면, 좌표 원점에 관한 그의 방향
Figure 112015076044720-pct00119
의 예비 추정값이 단계 또는 스테이지(23)에서 계산되며, 보다 상세한 것은 이하의 주요 음원 방향에 대한 탐색 부분을 참조한다.
연속적으로, 각각의 방향성 신호
Figure 112015076044720-pct00120
Figure 112015076044720-pct00121
번째 주요 음원에 의해 생성되는 것으로 가정된 음장 컴포넌트의 HOA 표현
Figure 112015076044720-pct00122
이 단계 또는 스테이지(24)에서 이하의 주요 방향성 신호 및 주요 음원에 의해 생성된 음장의 HOA 표현의 계산 부분에서 보다 상세하게 설명된 바와 같이 계산된다.
최종적으로, 단계 또는 스테이지(25)에서, HOA 컴포넌트
Figure 112015076044720-pct00123
Figure 112015076044720-pct00124
로부터 감산되어 나머지 HOA 표현
Figure 112015076044720-pct00125
를 획득하고, 이는 다음(즉,
Figure 112015076044720-pct00126
번째) 방향성 음원의 탐색에 사용된다. 이에 의해, 발견된
Figure 112015076044720-pct00127
번째 음원에 의해 생성된 음장 컴포넌트들이 추가의 방향 탐색에 대해 배제된다는 것이 명시적으로 보장된다.
- 주요 음원 존재에 대한 분석
Figure 112015076044720-pct00128
에 의해 표현되는 음장 내의 주요 음원의 존재를 검출하기 위해, 남아있는 HOA 표현들
Figure 112015076044720-pct00129
의 방향성 전력 분포들
Figure 112015076044720-pct00130
이 고려된다. 한편으로는, 초기 HOA 표현
Figure 112015076044720-pct00131
에 의해 표현된 음장에 비교하여 남아있는 HOA 표현
Figure 112015076044720-pct00132
에 의해 표현된 음장의 중요도에 대한 척도로서 간주될 수 있는 분산비(variance ratio)
Figure 112015076044720-pct00133
을 모니터링하는 것이 타당하다는 것이 실험적으로 발견되었다. 작은 비
Figure 112015076044720-pct00134
는, HOA 표현
Figure 112015076044720-pct00135
에 의해 표현된 음원들 중 어느것도 주요한 것으로 고려되지 않아야 한다는 것을 나타낸다. 다른 한편으로는, 정규화된 방향성 전력 분포들
Figure 112015076044720-pct00136
Figure 112015076044720-pct00137
의 분산들의 비
Figure 112015076044720-pct00138
를 관찰하는 것이 또한 타당하다. 정규화된 방향성 전력 분포
Figure 112015076044720-pct00139
의 요소들
Figure 112015076044720-pct00140
Figure 112015076044720-pct00141
은 수학식(7)에 의한
Figure 112015076044720-pct00142
의 요소들에 의존하여 정의된다.
Figure 112015076044720-pct00143
분산
Figure 112015076044720-pct00144
은 방향성 전력 분포
Figure 112015076044720-pct00145
의 균일성에 대한 척도로서 간주될 수 있다. 특히, 분산은 작아지면, 보다 더 균일한 전력이 모든 입사 방향들에 걸쳐 분포된다. 공간적으로 확산하는 잡음의 제한적인 경우에, 분산
Figure 112015076044720-pct00146
은 0의 값으로 근접해야 한다. 이러한 고려사항들에 기초하여, 분산비
Figure 112015076044720-pct00147
는 HOA 표현
Figure 112015076044720-pct00148
의 방향성 전력이
Figure 112015076044720-pct00149
의 것보다 더 균일하게 분포되는지를 나타낸다.
전술한 고려사항들을 요약하면,
Figure 112015076044720-pct00150
에 의해 표현되는 음장에는 적어도 단일의 주요 음원들이 항상 존재한다고 가정할 수 있다, 즉,
Figure 112015076044720-pct00151
이다. 즉, 분산비
Figure 112015076044720-pct00152
의 값이 특정 미리정의된 임계값
Figure 112015076044720-pct00153
보다 크고 분산비의 값이 1보다 작은 값을 유지하면, 추가의 주요 소스들이 검출된다(d ≥ 2에 대해).
Figure 112015076044720-pct00154
주요 음원이 검출된다.
Figure 112015076044720-pct00155
에 대한 값은 '주요'라는 것이 의미하는 것의 해석과 관련하여 설정된다. 본 발명자들은
Figure 112015076044720-pct00156
에 의해 타당한 선택이 주어진다는 것을 발견하였다.
- 주요 음원 방향에 대한 탐색
Figure 112015076044720-pct00157
번째 음원이 검출된 후에, 그의 방향
Figure 112015076044720-pct00158
의 예비 추정값이 방향성 전력 분포
Figure 112015076044720-pct00159
를 채용함으로써 탐색된다. 탐색은, 방향성 전력이 가장 크게 되는, 즉,
Figure 112015076044720-pct00160
이 되는 그 테스트 방향
Figure 112015076044720-pct00161
을 취함으로써 달성된다.
- 주요 음원에 의해 생성된 음장의 HOA 표현 및 주요 방향성 신호의 계산
후속하여, 주요 소스 방향의 예비 추정값
Figure 112015076044720-pct00162
을 판정한 후에, 동일한 음원에 의해 생성되는 것으로 가정된 음장 컴포넌트들의 HOA 표현
Figure 112015076044720-pct00163
뿐 아니라 각각의 방향성 신호
Figure 112015076044720-pct00164
가 도 3에 따라 계산된다. 단계 또는 스테이지(31)에서, 단위 구체 상에서 거의 균일하게 분포되는 것으로 가정되는,
Figure 112015076044720-pct00165
개의 샘플링 위치들
Figure 112015076044720-pct00166
로 이루어지는, 고정된 미리정의된 구체 그리드
Figure 112015076044720-pct00167
가 회전되어, 회전된 샘플링 위치들
Figure 112015076044720-pct00168
로 이루어지는 그리드
Figure 112015076044720-pct00169
를 제공한다. 회전은, 제1 회전된 샘플링 위치
Figure 112015076044720-pct00170
가 예비 방향 추정값
Figure 112015076044720-pct00171
에 대응하도록 수행된다.
단계 또는 스테이지(32)에서, HOA 표현
Figure 112015076044720-pct00172
이, 회전된 그리드 방향들
Figure 112015076044720-pct00173
로부터 관측자 위치(즉, 좌표 원점)에 대해 영향을 주는 것으로 가정되는
Figure 112015076044720-pct00174
개의 평면파 함수들(또한 그리드 방향성 신호들로서 지칭됨)
Figure 112015076044720-pct00175
에 의해 동등하게 표현되는, 소위 공간 도메인으로 변환된다. 평면파 함수들
Figure 112015076044720-pct00176
을 계산하기 위해, 회전된 그리드 방향과 관련하여 모드 행렬
Figure 112015076044720-pct00177
이 다음과 같이 계산되고,
Figure 112015076044720-pct00178
여기서,
Figure 112015076044720-pct00179
이다.
각각의 그리드 방향성 신호
Figure 112015076044720-pct00180
는 수학식(12)와 같은,
Figure 112015076044720-pct00181
번째 시간 프레임의 개별 샘플들로 구성된 로우(row) 벡터이고,
Figure 112015076044720-pct00182
여기서 L은 분석된 HOA 표현의 (샘플들에서의) 길이를 표기하고, 모든 그리드 방향성 신호들의 계산은 수학식(13)과 같은 구체 조화 변환(Spherical Harmonics Transform)에 의해 달성된다(그에 대한 설명은 이하의 구체 조화 변환을 참조한다).
Figure 112015076044720-pct00183
주요 음원 방향의 예비 추정값
Figure 112015076044720-pct00184
은 회전된 샘플링 위치
Figure 112015076044720-pct00185
에 대응하므로, 일반적 평면파 함수
Figure 112015076044720-pct00186
는 원하는 주요 방향성 신호
Figure 112015076044720-pct00187
, 즉,
Figure 112015076044720-pct00188
로서 간주될 수 있다.
Figure 112015076044720-pct00189
번째 음원에 의해 생성되는
Figure 112015076044720-pct00190
의 컴포넌트를 판정하기 위해, 이러한 컴포넌트가, 단계 또는 스테이지(33)에서
Figure 112015076044720-pct00191
로부터 예측될 수 있는 평면파 함수들에 의해 동등하게 표현된다고 상정한다. 따라서, 그리드 방향성 신호들
Figure 112015076044720-pct00192
Figure 112015076044720-pct00193
로부터 예측되는 것으로 시도된다. 예측된 신호들은
Figure 112015076044720-pct00194
에 의해 표기된다.
그러한 예측을 달성하는 한가지 방식은, 예측된 신호들
Figure 112015076044720-pct00195
이, 예측 오차를 최소화하도록 필터들이 결정되는 선형 필터링에 의해
Figure 112015076044720-pct00196
로부터 생성될 것이라고 가정하는 것이다. 필터들이 (분석 프레임의 지속기간에 비해) 매우 짧은 지속기간의 유한 임펄스 응답(finite impulse response)(FIR) 필터들인 것으로 가정하면, 예측 오차의 최소화는 최신의 최소 제곱(least square) 기법들을 이용하여 달성될 수 있다. 최종적으로, 주요 음원 신호
Figure 112015076044720-pct00197
의 HOA 표현 및 모든 예측되고 상관된 컴포넌트들이, 수학식(15)와 같은 역 구체 조화 변환(inverse Spherical Harmonics Transform)에 의해 단계 또는 스테이지(34)에서 획득된다(그에 대한 설명은 이하의 구체 조화 변환 부분을 참조한다).
Figure 112015076044720-pct00198
이전에 활성인 주요 음원들의 방향성 신호들의 계산
Figure 112015076044720-pct00199
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들
Figure 112015076044720-pct00200
은 수학식(20)에 따른 행렬
Figure 112015076044720-pct00201
내에 포함된다. 이 행렬은 수학식(16)에 의한 모드 매칭의 원리(전술한 Poletti 문서를 참조)를 이용하여 계산된다.
Figure 112015076044720-pct00202
여기서,
Figure 112015076044720-pct00203
은 원래의 HOA 음장 표현의
Figure 112015076044720-pct00204
번째 프레임을 표기하고,
Figure 112015076044720-pct00205
Figure 112015076044720-pct00206
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향들
Figure 112015076044720-pct00207
Figure 112015076044720-pct00208
에 관련되는 모드 행렬을 표기한다. 모드 행렬
Figure 112015076044720-pct00209
Figure 112015076044720-pct00210
에 의해 계산되고, 여기서,
Figure 112015076044720-pct00211
이다.
직접 할당
전술한 바와 같이, 한편으로는 도 1의 단계/스테이지(13)에서의 할당이
Figure 112015076044720-pct00212
번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향들 및 예비 방향 추정값들
Figure 112015076044720-pct00213
을 비교함으로써 달성되고, 이는 다음의 세트,
Figure 112015076044720-pct00214
내에 포함되고, 여기서,
Figure 112015076044720-pct00215
Figure 112015076044720-pct00216
번째 프레임에서 활성인 것으로 되어 있는
Figure 112015076044720-pct00217
번째 음원의 인덱스를 표기한다. 특히, 스무딩된 방향
Figure 112015076044720-pct00218
과 예비 방향 추정값
Figure 112015076044720-pct00219
의 쌍 사이의 각도가 작아질수록,
Figure 112015076044720-pct00220
, d번째 새롭게 발견된 주요 음원 방향은 인덱스
Figure 112015076044720-pct00221
를 갖는 이전에 활성인 음원에 대응할 것이다.
다른 한편으로는, 프레임
Figure 112015076044720-pct00222
에서의 검출된 주요 음원들의 순간 방향성 신호들
Figure 112015076044720-pct00223
Figure 112015076044720-pct00224
Figure 112015076044720-pct00225
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들
Figure 112015076044720-pct00226
이 활용된다. 여기서 프레임
Figure 112015076044720-pct00227
은 수학식(20)과 같은,
Figure 112015076044720-pct00228
번째 프레임에서 활성인 것으로 되어 있는 음원들의 개별 방향성 신호들
Figure 112015076044720-pct00229
로 이루어진다.
Figure 112015076044720-pct00230
이 정의를 사용하여, 2개의 신호들
Figure 112015076044720-pct00231
Figure 112015076044720-pct00232
사이의 상관 계수
Figure 112015076044720-pct00233
의 절대값이 클수록,
Figure 112015076044720-pct00234
번째 새롭게 발견된 주요 음원 방향은 인덱스
Figure 112015076044720-pct00235
를 갖는 이전에 활성인 음원들에 대응할 것이라는 것을 상정한다. 그러한 상정은, 상관 계수가 2개의 신호들 사이의 선형 종속성에 대한 척도를 제공한다는 사실에 의해 정당화된다.
이러한 고려사항들에 기초하여, 할당을 특정하는 할당 함수
Figure 112015076044720-pct00236
는 이하의 비용 함수를 최소화하도록 계산된다.
Figure 112015076044720-pct00237
Figure 112015076044720-pct00238
번째 프레임에서의 어떤 활성 음원에도 속하지 않는 방향 인덱스들
Figure 112015076044720-pct00239
에 대하여, 각도들
Figure 112015076044720-pct00240
Figure 112015076044720-pct00241
의 최소 각도로 실질적으로 설정되는 것이 내재적으로 가정되고, 여기서, 예를 들어,
Figure 112015076044720-pct00242
이다. 또한, 방향성 인덱스들
Figure 112015076044720-pct00243
에 대한 상관 계수들
Figure 112015076044720-pct00244
은 실질적으로 0으로 설정된다. 제1 연산은, 모든 이전에 활성인 주요 음원들의 방향들 및
Figure 112015076044720-pct00245
번째 새롭게 발견된 방향
Figure 112015076044720-pct00246
사이의 각도들이
Figure 112015076044720-pct00247
보다 큰 경우, 이 새롭게 발견된 방향은 새로운 음원에 속하도록 선호된다.
할당 문제는 공지된 H.W. Kuhn의 "The Hungarian method for the assignment problem" (Naval research logistics quarterly, vol.2(1-2), pp.83-97, 1955)에 기술된 헝가리안 알고리즘을 이용하여 해결될 수 있다.
스무딩된 주요 음원 방향들의 모델 기반 계산
이 부분은 통계적 음원 이동 모델에 따른 도 1의 단계/스테이지(14)에서의 스무딩된 주요 음원 방향들의 계산을 다룬다. 이 계산에 대한 개별 단계들은 도 4에 예시되고 이하에 더 자세하게 설명된다.
- 주요 음원 방향들에 대한 방향성 선험적 확률 함수들의 계산
새롭게 발견된 주요 음원 방향들에 대해, 방향성 선험적 확률 함수들
Figure 112015076044720-pct00248
Figure 112015076044720-pct00249
이 다음을 이용하여 단계 또는 스테이지(42)에서 계산된다:
- 프레임
Figure 112015076044720-pct00250
에서의 활성인 주요 음원들의 인덱스들
Figure 112015076044720-pct00251
의 세트
Figure 112015076044720-pct00252
,
- 프레임
Figure 112015076044720-pct00253
에서의 대응하는 주요 소스 방향 추정값들
Figure 112015076044720-pct00254
의 세트
Figure 112015076044720-pct00255
,
- 프레임들
Figure 112015076044720-pct00256
Figure 112015076044720-pct00257
사이의 각각의 소스 이동 각도들
Figure 112015076044720-pct00258
의 세트
Figure 112015076044720-pct00259
,
- 및 할당 함수
Figure 112015076044720-pct00260
계산은 EP 12306485.9에 도입된 간단한 음원 이동 예측 모델에 기초한다. 특히,
Figure 112015076044720-pct00261
번째 새롭게 발견된 주요 음원에 대한 방향성 선험적 확률 함수
Figure 112015076044720-pct00262
는, 3차원 공간에서 단위 구체에 대한 von Mises-Fischer 분포의 이산 버전인 것으로 가정된다.
이하에서, 수학식(22)와 같은 방향성 선험적 확률 함수
Figure 112015076044720-pct00263
가 개별 테스트 방향들
Figure 112015076044720-pct00264
에 대한 확률들
Figure 112015076044720-pct00265
로 구성된 벡터에 의해 주어진다.
Figure 112015076044720-pct00266
이다.
개별 테스트 방향들
Figure 112015076044720-pct00267
에 대한 선험적 확률들을 계산하기 위해, 2개의 경우들이 구별된다:
a)
Figure 112015076044720-pct00268
번째 새롭게 발견된 주요 음원에 할당된 소스 인덱스
Figure 112015076044720-pct00269
가 세트
Figure 112015076044720-pct00270
내에 포함되는 경우, 선험적 확률들은,
Figure 112015076044720-pct00271
에 따라 계산되고, 여기서
Figure 112015076044720-pct00272
은 추정된 방향
Figure 112015076044720-pct00273
및 테스트 방향
Figure 112015076044720-pct00274
사이의 각도를 표기하며, 즉,
Figure 112015076044720-pct00275
이다.
또한,
Figure 112015076044720-pct00276
는,
Figure 112015076044720-pct00277
에 따른 소스 이동 각도 추정값
Figure 112015076044720-pct00278
을 이용하여 계산되는 집중 파라미터를 표기하고, 여기서,
Figure 112015076044720-pct00279
Figure 112015076044720-pct00280
로 설정될 수 있다.
파라미터들
Figure 112015076044720-pct00281
Figure 112015076044720-pct00282
에 대한 타당한 값들은
Figure 112015076044720-pct00283
인 것으로 발견되었다(EP 12306485.9 참조).
이러한 계산 배후의 원리는 이전에 음원이 이동한 것 보다 더 적게 선험적 확률 함수의 집중도를 증가시키는 것이다. 이전에 음원이 많이 이동하였으면, 그의 연속적 방향성에 관한 불확실성이 높고, 따라서, 집중 파라미터는 작은 값을 달성해야 한다.
b)
Figure 112015076044720-pct00284
번째 새롭게 발견된 주요 음원에 할당된 소스 인덱스
Figure 112015076044720-pct00285
가 세트
Figure 112015076044720-pct00286
내에 포함되지 않으면, 각각의 음원은 이전에 활성이 아니었던 것으로 간주된다. 결과적으로, 이 소스의 방향에 관한 어떤 선험적 지식도 실제로 이용가능하지 않다. 따라서, 선험적 확률 함수
Figure 112015076044720-pct00287
는 단위 구체 상에서 균일한 것으로 가정되고, 개별 확률들이 모든 테스트 위치들
Figure 112015076044720-pct00288
에 대해 동일한, 즉,
Figure 112015076044720-pct00289
이다.
- 주요 음원 방향들에 대한 방향성 우도 함수의 계산
방향성 우도 함수
Figure 112015076044720-pct00290
는, 개별의 새롭게 검출된 주요 음원들뿐 아니라 할당 함수
Figure 112015076044720-pct00291
에 의해 생성되는 것으로 되어 있는 HOA 음장 컴포넌트들
Figure 112015076044720-pct00292
을 이용하여 단계 또는 스테이지(41)에서 계산된다. 방향성 우도 함수
Figure 112015076044720-pct00293
는 수학식(29)와 같이 개별 테스트 방향들
Figure 112015076044720-pct00294
에 대한 우도들
Figure 112015076044720-pct00295
로 구성된 벡터인 것으로 가정된다.
Figure 112015076044720-pct00296
이다.
개별 우도들
Figure 112015076044720-pct00297
은 EP12305537.8에 설명된 바와 같이, 테스트 방향
Figure 112015076044720-pct00298
로부터 영향을 받는 일반적 평면파들의 전력들에 대한 근사인 것으로 계산된다. 특히,
Figure 112015076044720-pct00299
이고, 여기서,
Figure 112015076044720-pct00300
이고, 수학식(31)은 테스트 방향
Figure 112015076044720-pct00301
에 관한 모드 벡터를 표기하고(
Figure 112015076044720-pct00302
은 이하의 실수치의 구체 조화들(real-valued Spherical Harmonics)의 정의 부분에서 정의된 실수치의 구체 조화를 나타낸다), 여기서,
Figure 112015076044720-pct00303
는 HOA 표현
Figure 112015076044720-pct00304
에 관한 HOA 계수간 상관 행렬(inter-coefficients correlation matrix)을 나타낸다.
- 주요 음원 방향들에 대한 방향성 후험적 (posteriori) 확률 함수들의 계산
방향성 후험적 확률 함수들
Figure 112015076044720-pct00305
은, 방향성 선험적 확률 함수들
Figure 112015076044720-pct00306
및 방향성 우도 함수들
Figure 112015076044720-pct00307
을 이용하여 단계 또는 스테이지(43)에서 계산된다. 여기서, 다시 한번, 방향성 후험적 확률 함수
Figure 112015076044720-pct00308
는 수학식(33)와 같이 개별 테스트 방향들
Figure 112015076044720-pct00309
에 대한 후험적 확률들
Figure 112015076044720-pct00310
로 구성된 벡터인 것으로 가정된다.
Figure 112015076044720-pct00311
개별 후험적 확률들
Figure 112015076044720-pct00312
은 베이지안 규칙(EP 12306485.9 참조)에 따라 다음과 같이 계산된다.
Figure 112015076044720-pct00313
고정된 방향 인덱스
Figure 112015076044720-pct00314
를 가정하면, 수학식(37)의 분모는 각각의 테스트 방향
Figure 112015076044720-pct00315
에 대해 고정적이다. 후속 방향 탐색을 위해, 오직 후험적 확률 함수들의 최대값이 관심있는 경우에, 그러한 글로벌 스케일링은 관련이 없다. 따라서, 수학식(37)의 분모의 계산은 연산 전력을 절감하기 위해 완전하게 무시할 수 있다는 것을 유의한다.
- 스무딩된 주요 음원 방향들의 계산
스무딩된 음원 방향들
Figure 112015076044720-pct00316
Figure 112015076044720-pct00317
이, 후험적 확률 함수들
Figure 112015076044720-pct00318
을 이용하여 단계 또는 스테이지(44)에서 계산된다. 특히, 프레임
Figure 112015076044720-pct00319
에 대해 발견된
Figure 112015076044720-pct00320
번째 음원의 스무딩된 방향
Figure 112015076044720-pct00321
은 후험적 확률 함수
Figure 112015076044720-pct00322
의 최대값, 즉,
Figure 112015076044720-pct00323
에 대한 탐색에 의해 획득된다.
현재 활성인 주요 음원들의 인덱스들 및 방향들의 판정
프레임
Figure 112015076044720-pct00324
에서의 모든
Figure 112015076044720-pct00325
활성 주요 음원들의 인덱스들
Figure 112015076044720-pct00326
의 세트
Figure 112015076044720-pct00327
및 프레임
Figure 112015076044720-pct00328
에서의 대응하는 주요 소스 방향 추정값들
Figure 112015076044720-pct00329
의 세트
Figure 112015076044720-pct00330
는, 프레임
Figure 112015076044720-pct00331
에서의 모든 활성인 주요 음원 방향들의 스무딩된 추정값들
Figure 112015076044720-pct00332
Figure 112015076044720-pct00333
의 세트
Figure 112015076044720-pct00334
, 대응하는 인덱스들
Figure 112015076044720-pct00335
의 세트
Figure 112015076044720-pct00336
, 및 프레임
Figure 112015076044720-pct00337
에 대해 획득된 스무딩된 주요 음원 방향 추정값들
Figure 112015076044720-pct00338
을 이용하여 도 1의 단계 또는 스테이지(15)에서 계산된다. 이러한 연산은, 예를 들어, 개별 임펄스들 사이에서 짧은 휴지기를 갖는 임펄스형 음향들을 생성하는 캐스터네츠(castanets)와 같은 소스들에 대해 발생할 수 있는, 적은 수의 연속하는 프레임들에 대해 검출되지 않은 음원들을 부정하게 비활성화시키지 않으려는 목적을 갖는다. 따라서, 그들이 오직 미리정의된 수
Figure 112015076044720-pct00339
의 연속적인 프레임들에 대해 검출되지 않은 경우에만, 최종(즉,
Figure 112015076044720-pct00340
번째) 프레임에서 활성인 것으로 가정되었던 음원들을 비활성화하는 것이 타당하다. 이전 고려사항들에 따라, 제1 단계에서, 프레임
Figure 112015076044720-pct00341
에서의 모든
Figure 112015076044720-pct00342
활성 주요 음원들의 인덱스들
Figure 112015076044720-pct00343
의 세트
Figure 112015076044720-pct00344
와 모든 새롭게 검출된 음원들의 인덱스들의 세트
Figure 112015076044720-pct00345
와의 결합된 세트
Figure 112015076044720-pct00346
Figure 112015076044720-pct00347
가 계산된다.
이 세트로부터 원하는 세트
Figure 112015076044720-pct00348
가,
Figure 112015076044720-pct00349
개의 이전에 연속적인 프레임들에 대해 검출되지 않았던 그러한 소스들의 인덱스들을
Figure 112015076044720-pct00350
로부터 제거함으로써 획득된다. 프레임
Figure 112015076044720-pct00351
에서의
Figure 112015076044720-pct00352
개의 활성인 주요 음원들이
Figure 112015076044720-pct00353
의 요소들의 수로 설정된다. 최종적으로,
Figure 112015076044720-pct00354
Figure 112015076044720-pct00355
의 요소들을 나타내는, 주요 소스 방향 추정값들
Figure 112015076044720-pct00356
Figure 112015076044720-pct00357
Figure 112015076044720-pct00358
에 의해 판정된다.
이는, 각각의 음원이 프레임
Figure 112015076044720-pct00359
에서 새롭게 검출된 것이 아니면, 이전에 활성인 주요 음원들의 방향들이 고정된 채로 유지된다는 것을 의미한다.
고차 앰비소닉의 기초
고차 앰비소닉(HOA)은, 음원들이 없는 것으로 가정되는, 관심있는 컴팩트한 영역 내의 음장에 대한 설명에 기초한다. 그 경우에, 시간
Figure 112015076044720-pct00360
및 관심 영역 내의 위치
Figure 112015076044720-pct00361
에서의 음압
Figure 112015076044720-pct00362
의 시공간 거동은 물리적으로 제차 방정식(homogeneous equation)에 의해 완전하게 판정된다. 이하에서, 도 5에 도시된 바와 같은 구체 좌표계가 가정된다. 사용된 좌표계에서,
Figure 112015076044720-pct00363
축은 정면 위치를 가리키고,
Figure 112015076044720-pct00364
축은 좌측을 가리키고,
Figure 112015076044720-pct00365
축은 위쪽을 가리킨다. 공간
Figure 112015076044720-pct00366
에서의 위치는 반지름
Figure 112015076044720-pct00367
(즉, 좌표 원점에 대한 거리), 극축(polar axis)
Figure 112015076044720-pct00368
로부터 측정된 경사각
Figure 112015076044720-pct00369
Figure 112015076044720-pct00370
축으로부터
Figure 112015076044720-pct00371
평면에서 반시계 방향으로 측정된 방위각
Figure 112015076044720-pct00372
에 의해 표현된다.
Figure 112015076044720-pct00373
는 위치변환을 표기한다.
그리고 나서,
Figure 112015076044720-pct00374
, 즉,
Figure 112015076044720-pct00375
는 각 주파수(angular frequency)를 나타내고,
Figure 112015076044720-pct00376
는 허수부를 나타내는,
Figure 112015076044720-pct00377
에 의해 표기된 시간과 관련하여 음압의 푸리에 변환이,
Figure 112015076044720-pct00378
에 따라 구체 조화 급수(series of Spherical Harmonics)로 확장될 수 있다는 것이 보여질 수 있다(E.G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999 참조).
수학식(40)에서,
Figure 112015076044720-pct00379
는 음향의 속도를 표기하고
Figure 112015076044720-pct00380
는 각파수(angular wave number)를 나타내고, 이는
Figure 112015076044720-pct00381
에 의해 각 주파수
Figure 112015076044720-pct00382
에 관련되고,
Figure 112015076044720-pct00383
은 제1종의 구체 베젤 함수(spherical Bessel function)를 표기하고,
Figure 112015076044720-pct00384
은 n차(n order) 및 m도(m degree)의 실수치의 구체 조화들을 표기하고, 이는 이하의 실수치 의 구체 조화들의 정의 부분에서 정의된다. 확장 계수들
Figure 112015076044720-pct00385
은 각파수
Figure 112015076044720-pct00386
에 의존한다. 음압은 공간적으로 대역-제한된다는 것이 내재적으로 가정된다. 따라서, 급수는 상한 N에서 차수 인덱스 n에 관하여 잘라지며, 이는 HOA 표현의 차수라 지칭된다.
음장이 앵글 튜플(angle tuple)
Figure 112015076044720-pct00387
에 의해 특정된 모든 가능한 방향들로부터 도달하는 상이한 각 주파수
Figure 112015076044720-pct00388
의 유한개의 조화 평면파의 중첩에 의해 표현되는 경우, 각각의 평면파 복소 진폭 함수
Figure 112015076044720-pct00389
는 이하의 구체 조화 확장에 의해 표현될 수 있다는 것이 보여질 수 있다(B. Rafaely, "Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution", J. Acoust. Soc. Am., vol.4(116), pp.2149-2157, 2004 참조):
Figure 112015076044720-pct00390
여기서, 확장 계수들
Figure 112015076044720-pct00391
Figure 112015076044720-pct00392
에 의해 확장 계수들
Figure 112015076044720-pct00393
과 관련된다.
개별 계수들
Figure 112015076044720-pct00394
이 각 주파수
Figure 112015076044720-pct00395
의 함수라고 가정하는 경우, 역 푸리에 변환(
Figure 112015076044720-pct00396
이라고 표기됨)은 시간 도메인 함수들
Figure 112015076044720-pct00397
을 각각의 n차 및 m도에 대해 제공하고, 이는 단일 벡터
Figure 112015076044720-pct00398
에서 수집되고,
Figure 112015076044720-pct00399
Figure 112015076044720-pct00400
이다.
벡터
Figure 112015076044720-pct00401
내의 시간 도메인 함수
Figure 112015076044720-pct00402
의 위치 인덱스는
Figure 112015076044720-pct00403
에 의해 주어진다. 벡터
Figure 112015076044720-pct00404
의 요소들의 전체 수는
Figure 112015076044720-pct00405
에 의해 주어진다.
최종 앰비소닉 형식은 샘플링 주파수
Figure 112015076044720-pct00406
를 이용하여
Figure 112015076044720-pct00407
의 샘플된 버전을 다음과 같이 제공하고,
Figure 112015076044720-pct00408
이고, 여기서,
Figure 112015076044720-pct00409
는 샘플링 주기를 표기한다.
Figure 112015076044720-pct00410
의 요소들은 앰비소닉 계수들로서 지칭된다. 시간 도메인 신호들
Figure 112015076044720-pct00411
및 따라서 앰비소닉 계수들은 실수치이다.
- 실수치의 구체 조화들의 정의
실수치의 구체 조화들
Figure 112015076044720-pct00412
은,
Figure 112015076044720-pct00413
이고, 여기서,
Figure 112015076044720-pct00414
이다.
연관된 르장드르 함수들(Legendre functions)
Figure 112015076044720-pct00415
은 르장드르 다항식
Figure 112015076044720-pct00416
를 이용하여,
Figure 112015076044720-pct00417
로서 정의되고, 전술한 E.G. Williams 교재와는 달리, Condon-Shortley 위상 항
Figure 112015076044720-pct00418
을 갖지 않는다.
- 고차 앰비소닉 공간 해상도
방향
Figure 112015076044720-pct00419
으로부터 도달하는 일반 평면파 함수
Figure 112015076044720-pct00420
는 HOA에서,
Figure 112015076044720-pct00421
에 의해 표현된다.
평면파 진폭들의 대응하는 공간 밀도
Figure 112015076044720-pct00422
는,
Figure 112015076044720-pct00423
Figure 112015076044720-pct00424
에 의해 주어진다.
이것은, 특성,
Figure 112015076044720-pct00425
를 갖는
Figure 112015076044720-pct00426
Figure 112015076044720-pct00427
사이의 각도
Figure 112015076044720-pct00428
에만 의존하는 것으로서 도시될 수 있는 일반적 평면파 함수
Figure 112015076044720-pct00429
와 공간 확산 함수
Figure 112015076044720-pct00430
와의 곱이라는 것을 수학식(51)로부터 알 수 있다.
예상한 바와 같이, 유한 차수의 한계에서, 즉,
Figure 112015076044720-pct00431
, 공간 확산 함수는 디랙 델타(Dirac delta)
Figure 112015076044720-pct00432
가 되고, 즉,
Figure 112015076044720-pct00433
이다.
그러나, 유한 차수 N의 경우에, 방향
Figure 112015076044720-pct00434
로부터의 일반적 평면파의 기여도는 인근 방향들로 번지게 되고, 여기서 번짐의 정도는 차수가 증가함에 따라 감소한다. N의 상이한 값들에 대한 정규화된 함수
Figure 112015076044720-pct00435
의 플롯이 도 6에 제공된다.
임의의 방향
Figure 112015076044720-pct00436
에 대해, 평면파 진폭의 공간 밀도의 시간 도메인 거동은 임의의 다른 방향에서의 그의 거동의 배수이다. 특히, 일부 고정된 방향들
Figure 112015076044720-pct00437
Figure 112015076044720-pct00438
에 대한 함수들
Figure 112015076044720-pct00439
Figure 112015076044720-pct00440
은 시간
Figure 112015076044720-pct00441
와 관련하여 서로에 대해 높은 정도로 상관된다.
- 구체 조화 변환
단위 구체 상에서 거의 균일하게 분포되는 평면파 진폭들의 공간 밀도가
Figure 112015076044720-pct00442
개의 공간 방향들
Figure 112015076044720-pct00443
에서 이산되어 있다면,
Figure 112015076044720-pct00444
개의 방향성 신호들
Figure 112015076044720-pct00445
이 획득된다. 이러한 신호들을
Figure 112015076044720-pct00446
와 같이, 벡터 내로 수집하면, 이 벡터는
Figure 112015076044720-pct00447
과 같은 간단한 행렬 곱셈에 의해 수학식(44)에서 정의된 연속적인 앰비소닉 표현
Figure 112015076044720-pct00448
로부터 계산될 수 있다는 것이 수학식(50)에 의해 검증될 수 있고, 여기서,
Figure 112015076044720-pct00449
는 합동 위치변환 및 컨주게이션(conjugation)을 나타내고,
Figure 112015076044720-pct00450
는,
Figure 112015076044720-pct00451
에 의해 정의된 모드 행렬을 표기하며,
Figure 112015076044720-pct00452
이다.
방향들
Figure 112015076044720-pct00453
가 단위 구체 상에 거의 균일하게 분포되기 때문에, 모드 행렬은 일반적으로 가역적이다(invertible). 따라서, 연속하는 앰비소닉 표현은,
Figure 112015076044720-pct00454
에 의해 방향성 신호들
Figure 112015076044720-pct00455
로부터 계산될 수 있다.
양쪽 수학식 모두가 앰비소닉 표현과 '공간 도메인' 간의 변환 및 가역 변환이 된다. 이러한 변환들은 각각 구체 조화 변환 및 역 구체 조화 변환으로 표기된다. 방향들
Figure 112015076044720-pct00456
가 단위 구체 상에서 거의 균일하게 분포되기 때문에,
Figure 112015076044720-pct00457
의 근사가 존재하고, 이는 수학식(55)에서
Figure 112015076044720-pct00458
대신에
Figure 112015076044720-pct00459
의 사용을 정당화한다. 또한, 모든 언급된 관계들은 이산적 시간 도메인에 대해 유효하다.
본 발명의 프로세싱은 단일 프로세서 또는 전자 회로에 의해, 또는 병렬로 동작하는 및/또는 본 발명의 프로세싱의 상이한 부분들에 대해 동작하는 여러개의 프로세서들 또는 전자 회로들에 의해 수행될 수 있다.

Claims (15)

  1. 음장의 고차 앰비소닉(Higher Order Ambisonics; HOA) 표현에서 상관되지 않은 음원들의 방향들을 판정하기 위한 방법으로서,
    HOA 계수들의 현재 시간 프레임에서, 주요 음원들의 예비 방향 추정값들을 탐색하는 단계; 및
    상기 주요 음원들에 기초하여 HOA 음장 컴포넌트들을 판정하는 단계
    를 포함하고,
    현재의 방향 추정값은 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된 현재 시간 프레임의 원래의 HOA 표현을 나타내는 나머지(residual) HOA 표현에 기초하여 판정되고,
    상기 현재의 방향 추정값은 모든 다른 테스트 방향들의 각각의 전력에 대하여, 한 방향으로부터 청취자 위치에 영향을 주는, 상기 나머지 HOA 표현의 관련된 일반 평면파의 전력에 기초하여, 미리정의된 테스트 방향들의 세트 중에서 선택되고,
    상기 HOA 계수들의 현재 시간 프레임에 대한 상기 현재의 방향 추정값이 HOA 계수들의 이전 시간 프레임의 적어도 주요 음원에 할당되고, 시간 궤적에 대해 스무딩되는(smoothed), 방법.
  2. 제1항에 있어서,
    상기 스무딩하는 것은 베이지안 추론 프로세스(Bayesian inference process)에 기초하고, 이 베이지안 추론 프로세스는 통계적 선험적 음원 이동 모델 및 상기 원래의 HOA 표현의 주요 음원 컴포넌트들의 방향성 전력 분포를 활용하는 방법.
  3. 제2항에 있어서,
    상기 통계적 선험적 음원 이동 모델은 개별 음원들의 이동을, 상기 이전 시간 프레임에서의 그들의 방향과, 상기 이전 시간 프레임과 두번째 이전 시간 프레임(penultimate time frame) 사이의 이동에 기초하여 통계적으로 예측하는 방법.
  4. 제2항에 있어서,
    상기 방향 추정값들은 방향 추정값과 이전에 발견된 음원의 방향의 쌍들 사이의 각도들의 합동 최소화, 및 상기 HOA 계수들의 이전 시간 프레임에서 발견된 주요 음원 및 방향 추정값과 관련된 방향성 신호들의 쌍들 사이의 상관 계수의 절대값의 최대화에 기초하여 상기 HOA 계수들의 이전 시간 프레임의 주요 음원들에 할당되는, 방법.
  5. 음장의 고차 앰비소닉(HOA) 표현에서 상관되지 않은 음원들의 방향들을 판정하기 위한 방법으로서,
    HOA 계수들의 현재 시간 프레임에서, 주요 음원들의 예비 방향 추정값들을 탐색하는 단계와,
    상기 주요 음원들에 기초하여 HOA 음장 컴포넌트들을 판정하고, 방향성 신호들을 판정하는 단계와,
    상기 현재 시간 프레임의 상기 예비 방향 추정값들과 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들의 비교에 기초하여 상기 HOA 계수들의 이전 시간 프레임에서 활성인 음원들에 상기 주요 음원들을 할당하는 단계와 - 상기 할당은 또한 상기 현재 시간 프레임의 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들의 상관에 기초하여, 할당 함수를 야기함 -,
    상기 할당 함수, 상기 이전 시간 프레임에서의 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들, 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 각각의 소스 이동 각도들, 및 상기 주요 음원들에 기초한 상기 HOA 음장 컴포넌트들에 기초하여 스무딩된 주요 소스 방향들을 판정하는 단계와,
    상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스들의 프레임 지연된 버전에 기초하여, 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하는 단계
    를 포함하고,
    상기 이전 시간 프레임에서 활성인 음원들의 상기 방향성 신호들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들에 기초한 모드 매칭에 기초하여 판정되고,
    상기 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 상기 소스 이동 각도들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 추가 프레임 지연된 버전에 기초하여 판정되는, 방법.
  6. 음장의 고차 앰비소닉(HOA) 표현에서 상관되지 않은 음원들의 방향들을 판정하기 위한 장치로서,
    HOA 계수들의 현재 시간 프레임에서, 주요 음원들의 예비 방향 추정값들을 탐색하고, 상기 주요 음원들에 기초하여 HOA 음장 컴포넌트들을 판정하도록 구성된 프로세서 - 상기 프로세서는 또한 방향성 신호들을 판정하도록 구성됨-
    를 포함하고,
    상기 프로세서는 또한 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들의 비교에 기초하여 상기 HOA 계수들의 이전 시간 프레임에서 활성인 음원들에 상기 주요 음원들을 할당하도록 구성되고, 상기 할당은 또한 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들의 상관에 기초하여, 할당 함수를 야기하고,
    상기 프로세서는 또한 상기 할당 함수, 상기 이전 시간 프레임에서의 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들, 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 각각의 소스 이동 각도들, 및 상기 주요 음원들에 기초한 상기 HOA 음장 컴포넌트들에 기초하여 스무딩된 주요 소스 방향들을 판정하도록 구성되고,
    상기 프로세서는 또한 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스들의 프레임 지연된 버전에 기초하여, 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하도록 구성되고,
    상기 이전 시간 프레임에서 활성인 음원들의 상기 방향성 신호들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들에 기초한 모드 매칭에 기초하여 판정되고,
    상기 두번째 이전 시간 프레임과 상기 이전 시간 프레임 사이의 상기 소스 이동 각도들은, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 추가 프레임 지연된 버전에 기초하여 판정되는, 장치.
  7. 제5항에 있어서,
    검출된 주요 방향성 신호들 및 상기 예비 방향 추정값들의 상기 판정은,
    나머지 HOA 표현을 획득하기 위해 HOA 계수들의 상기 현재 시간 프레임으로부터 상기 주요 음원들의 감산에 기초하여 HOA 음장 컴포넌트를 판정하는 단계를 더 포함하고, 이러한 감산 프로세싱은 추가적인 음장 컴포넌트들에 대해 각각의 경우에 남아있는 나머지 HOA 표현에 반복적으로 수행되고, 상기 음장 컴포넌트들은 추가적인 방향 탐색에 대해서 배제되는 방법.
  8. 제7항에 있어서,
    단위 구체 상에 거의 균일하게 분포되는 미리정의된 수의 이산적 테스트 방향들에 대한 표현을 판정하는 단계를 더 포함하고,
    방향성 전력 분포가 주요 음원의 존재에 대해 분석되고, 주요 음원의 부재의 판정에 기초하여, 상기 방향 탐색은 중단되고, 주요 소스의 검출의 판정에 기초하여, 좌표 원점에 대한 방향의 예비 추정값이 판정되는 방법.
  9. 제8항에 있어서,
    동일한 음원에 기초하여 음장 컴포넌트들의 HOA 표현 및 각각의 방향성 신호 가,
    회전된 샘플링 위치들의 그리드를 판정하도록, 단위 구체 상에 균일하게 분포되도록 타겟팅되는 샘플링 위치들로 이루어지는, 고정되고 미리정의된 구체 그리드를 회전시키는 것 - 상기 회전은, 제1 회전된 샘플링 위치가 상기 예비 방향 추정값에 대응하도록 수행됨 - ;
    상기 남아있는 나머지 HOA 표현을 공간 도메인으로 변환하고 주요 음원 신호들 및 그리드 방향 신호들을 판정하는 것;
    상기 주요 음원 신호들로부터 상기 그리드 방향 신호들의 예측을 수행하는 것; 및
    상기 남아있는 나머지 HOA 표현에 의해 표현된 음장에 대한 주요 음원의 기여도를 나타내는, 예측된 그리드 방향성 신호들의 HOA 표현을 역 구체 조화 변환(inverse Spherical Harmonics Transform)에 기초하여 판정하는 것
    에 기초하여 판정되는 방법.
  10. 제5항에 있어서,
    상기 스무딩된 주요 소스 방향들은,
    상기 할당 함수, 상기 이전 시간 프레임에서의 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들, 및 상기 소스 이동 각도들에 기초하여, 주요 음원 방향들에 대한 방향성 선험적 확률 함수들을 판정하는 것;
    상기 할당 함수 및 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들에 기초하여 주요 음원 방향들에 대한 방향성 우도 함수(directional likelihood function)들을 판정하는 것;
    상기 방향성 우도 함수들 및 상기 방향성 선험적 확률 함수들에 기초하여 주요 음원 방향들에 대한 방향성 후험적 확률 함수들을 판정하는 것; 및
    주요 음원 방향들에 대한 상기 방향성 후험적 확률 함수들에 기초하여 스무딩된 주요 음원 방향들을 판정하는 것
    에 기초하여 판정되는 방법.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
KR1020157021230A 2013-02-08 2014-02-07 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 KR102220187B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305156.5 2013-02-08
EP20130305156 EP2765791A1 (en) 2013-02-08 2013-02-08 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
PCT/EP2014/052479 WO2014122287A1 (en) 2013-02-08 2014-02-07 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Publications (2)

Publication Number Publication Date
KR20150115779A KR20150115779A (ko) 2015-10-14
KR102220187B1 true KR102220187B1 (ko) 2021-02-25

Family

ID=47780000

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157021230A KR102220187B1 (ko) 2013-02-08 2014-02-07 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치

Country Status (7)

Country Link
US (1) US9622008B2 (ko)
EP (2) EP2765791A1 (ko)
JP (1) JP6374882B2 (ko)
KR (1) KR102220187B1 (ko)
CN (1) CN104995926B (ko)
TW (1) TWI647961B (ko)
WO (1) WO2014122287A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US20140358565A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Compression of decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
EP3357259B1 (en) 2015-09-30 2020-09-23 Dolby International AB Method and apparatus for generating 3d audio content from two-channel stereo content
CN105516875B (zh) * 2015-12-02 2020-03-06 上海航空电器有限公司 用于快速测量虚拟声音产生设备空间角度分辨率的装置
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
JP6723120B2 (ja) * 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法
CN107147975B (zh) * 2017-04-26 2019-05-14 北京大学 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法
US10893373B2 (en) 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
FR3074584A1 (fr) 2017-12-05 2019-06-07 Orange Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及系统
CN111933182B (zh) * 2020-08-07 2024-04-19 抖音视界有限公司 声源跟踪方法、装置、设备和存储介质
CN112019971B (zh) * 2020-08-21 2022-03-22 安声(重庆)电子科技有限公司 声场构建方法、装置、电子设备及计算机可读存储介质
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011117399A1 (en) 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9915398D0 (en) 1999-07-02 1999-09-01 Baker Matthew J Magnetic particles
FR2801108B1 (fr) 1999-11-16 2002-03-01 Maxmat S A Analyseur chimique ou biochimique a regulation de la temperature reactionnelle
FR2839565B1 (fr) * 2002-05-07 2004-11-19 Remy Henri Denis Bruno Procede et systeme de representation d'un champ acoustique
FR2858403B1 (fr) * 2003-07-31 2005-11-18 Remy Henri Denis Bruno Systeme et procede de determination d'une representation d'un champ acoustique
EP2297557B1 (en) * 2008-07-08 2013-10-30 Brüel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
US8705750B2 (en) * 2009-06-25 2014-04-22 Berges Allmenndigitale Rådgivningstjeneste Device and method for converting spatial audio signal
AU2010305313B2 (en) * 2009-10-07 2015-05-28 The University Of Sydney Reconstruction of a recorded sound field
US9271081B2 (en) * 2010-08-27 2016-02-23 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011117399A1 (en) 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Andrew Wabnitz, et al. TIME DOMAIN RECONSTRUCTION OF SPATIAL SOUND FIELDS USING COMPRESSED SENSING. IEEE International Conference on Acoustics, Speech and Signal Processing. 2011.05.22.

Also Published As

Publication number Publication date
US9622008B2 (en) 2017-04-11
TW201448616A (zh) 2014-12-16
JP6374882B2 (ja) 2018-08-15
EP2954700A1 (en) 2015-12-16
KR20150115779A (ko) 2015-10-14
WO2014122287A1 (en) 2014-08-14
US20150373471A1 (en) 2015-12-24
EP2954700B1 (en) 2018-03-07
CN104995926A (zh) 2015-10-21
TWI647961B (zh) 2019-01-11
EP2765791A1 (en) 2014-08-13
JP2016509812A (ja) 2016-03-31
CN104995926B (zh) 2017-12-26

Similar Documents

Publication Publication Date Title
KR102220187B1 (ko) 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치
US10609501B2 (en) Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
US11943604B2 (en) Spatial audio processing
JP6939786B2 (ja) 音場形成装置および方法、並びにプログラム
Majumder et al. Few-shot audio-visual learning of environment acoustics
KR20140074918A (ko) 직접-산란 분해
CN112799017A (zh) 声源定位方法、装置、存储介质及电子设备
Dang et al. A feature-based data association method for multiple acoustic source localization in a distributed microphone array
Blochberger et al. Particle-filter tracking of sounds for frequency-independent 3D audio rendering from distributed B-format recordings
Aarabi et al. Robust sound localization using conditional time–frequency histograms
CN112822482B (zh) 一种确定音视频通话的评估得分的方法与设备
US20070160241A1 (en) Determination of the adequate measurement window for sound source localization in echoic environments
US8290770B2 (en) Method and apparatus for sinusoidal audio coding
CN113835065B (zh) 基于深度学习的声源方向确定方法、装置、设备及介质
CN115116460B (zh) 音频信号增强方法、装置、设备、存储介质及程序产品
Manocha et al. Nord: Non-matching reference based relative depth estimation from binaural speech
CN116504264B (zh) 音频处理方法、装置、设备及存储介质
Esaki et al. Estimating sound source depth using a small-size array
CN110035355B (zh) 麦克风阵列输出声源的方法、系统、设备及存储介质
US20240205631A1 (en) Spatial Audio Processing
Sakavičius Improvement of learning-based methods for localization of multiple sound sources
CN114898763A (zh) 用于预测混响时间的方法及其相关产品
CN114333783A (zh) 一种音频的端点检测方法及设备
Qahani et al. Realtime stereo localization of a moving speaker using filtered spectrogram correlation map algorithm

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right