KR20150115779A - 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 - Google Patents

음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 Download PDF

Info

Publication number
KR20150115779A
KR20150115779A KR1020157021230A KR20157021230A KR20150115779A KR 20150115779 A KR20150115779 A KR 20150115779A KR 1020157021230 A KR1020157021230 A KR 1020157021230A KR 20157021230 A KR20157021230 A KR 20157021230A KR 20150115779 A KR20150115779 A KR 20150115779A
Authority
KR
South Korea
Prior art keywords
rti
time frame
hoa
previous time
sound
Prior art date
Application number
KR1020157021230A
Other languages
English (en)
Other versions
KR102220187B1 (ko
Inventor
알렉산더 크루에게르
스벤 코르돈
Original Assignee
톰슨 라이센싱
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 filed Critical 톰슨 라이센싱
Publication of KR20150115779A publication Critical patent/KR20150115779A/ko
Application granted granted Critical
Publication of KR102220187B1 publication Critical patent/KR102220187B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Stereophonic System (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

고차 앰비소닉 (HOA)은 3차원 음향을 나타낸다. HOA는 높은 공간 해상도를 제공하고 주요 음원들에 대한 음장의 분석을 용이하게 한다. 본 발명은 음장을 이루는 독립적인 주요 음원들을 식별하고, 그들의 시간적 궤도를 추적하는 것을 목표로 한다. 공지된 응용들은 원래의 HOA 표현의 방향성 전력 분포를 찾음으로써 주요 음원 방향들에 한 모든 가능한 후보들을 탐색하는 것인 반면, 본 발명에서는 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된다. 그러한 연산에 의해, 음장에 대한 그의 기여도가 고도로 방향성을 갖고 확산되는 경우에 오직 하나의 정확한 음원 대신에 오류로 다수를 검출하는 문제가 회피될 수 있다.

Description

음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치{METHOD AND APPARATUS FOR DETERMINING DIRECTIONS OF UNCORRELATED SOUND SOURCES IN A HIGHER ORDER AMBISONICS REPRESENTATION OF A SOUND FIELD}
본 발명은 음장(sound field)의 고차 앰비소닉 표현(higher order ambisonics representation)에서의 상관되지 않은 음원들(uncorrelated sound sources)의 방향들을 판정하는 방법 및 장치에 관한 것이다.
고차 앰비소닉(HOA)은 WFS(wave field synthesis) 또는 22.2와 같은 채널 기반 접근법들과 같은 기법들 중에서도 3차원 음향을 표현하는 하나의 가능성을 제공한다. 그러나, 채널 기반 방법과는 대조적으로, HOA 표현은 특정 라우드스피커 설정에 무관한 장점을 제공한다. 그러나, 이러한 유연성은 특정 라우드스피커 설정 상의 HOA 표현의 재생에 요구되는 디코딩 프로세스의 댓가이다. 요구되는 라우드스피커들의 수가 통상적으로 매우 많은 WFS 접근법에 비교하면, HOA는 또한 오직 몇개의 라우드스피커로 이루어지는 설정으로 렌더링될 수 있다. HOA의 추가의 장점은, 동일한 표현이 또한 헤드폰으로의 바이노럴 렌더링(binaural rendering)에 대한 어떠한 수정도 없이 이용될 수 있다는 것이다.
HOA는 잘려진 구면 조화(truncated Spherical Harmonics)(SH) 확장에 의한 복소 조화 평면 파(complex harmonic plane wave) 진폭들의 공간 밀도의 표현에 기초한다. 각각의 확장 계수는 각 주파수(angular frequency)의 함수이고, 이는 시간 도메인 함수에 의해 동등하게 표현될 수 있다. 따라서, 일반성을 잃지 않고, 완전한 HOA 음장 표현이 실제로
Figure pct00001
시간 도메인 함수들로 이루어지는 것으로 가정할 수 있고, 여기서
Figure pct00002
는 확장 계수들의 수를 표기한다. 이하에서, 이러한 시간 도메인 함수들이 HOA 계수 시퀀스들로서 또는 HOA 채널들로서 참조된다. HOA는 높은 공간 해상도를 제공할 가능성을 가지며, 이는 증가하는 최대 N차 확장으로 개선한다. 이것은 주요 음원들(dominant sound sources)에 관하여 음장의 분석에 대한 가능성을 제공한다.
응용은 HOA 표현으로부터 음장을 구성하는 주어진 HOA 독립적 주요 음원들을 식별하는 방법, 및 그들의 시간적 궤적(temporal trajectory)을 추적하는 방법일 수 있다. 그러한 연산은, 예를 들어, 특허 출원 EP 12305537.8에서 설명된 바와 같이 음장을 주요 방향성 신호들과 나머지 주변 컴포넌트(remaining ambient component)로 분해함으로써 HOA 표현들에 대한 압축을 요구한다. 그러한 방향 추적 방법에 대한 추가의 응용은 대략적 예비 소스 분리(coarse preliminary source separation)일 것이다. 특정 음원들의 신호들을 증폭 또는 감쇠시키기 위해 HOA 음장 레코딩의 사후-생성(post-production)을 위해 추정된 방향 궤적을 사용하는 것이 또한 가능하다.
EP 12305537.8에서, 이하의 3개의 연산들을 연속적으로 수행하는 것이 제안되어 있다:
- 시간 프레임 내에 현재 존재하는 주요 음원들의 수가 식별되고 대응하는 방향들이 탐색된다. 주요 음원들의 수는 HOA 채널 교차상관 행렬의 고유값(eigenvalue)들로부터 판정된다. 주요 음원 방향들의 탐색을 위하여, 고정된 높은 수의 미리정의된 테스트 방향들에 대한 HOA 계수들의 프레임에 대응하는 방향성 전력 분포가 평가된다. 제1 방향 추정값이 방향성 전력 분포에서의 최대값을 찾음으로써 획득된다. 그리고 나서, 나머지 식별된 방향들은 이하의 2개의 연산들을 연속적으로 반복함으로써 알 수 있다: 공간적 인근의 테스트 방향들은 테스트 방향들의 나머지 세트로부터 제거되고 결과적인 세트는 방향성 전력 분포 중 최대에 대한 탐색으로 간주된다.
- 추정된 방향들은 최종 시간 프레임에서 활성인 것으로 간주되는 음원들에 할당된다.
- 할당 이후에, 방향 추정값들에 대한 적절한 스무딩(smoothing)이 수행되어 시간적으로 스무드(smooth)한 방향 궤적을 획득한다.
그러나, 지수적으로 가중된 이동 평균을 계산함으로써 방향성 추정값들에 대한 그러한 시간적 스무딩을 처리하는 것이 원칙적으로 달성되더라도, 이러한 기법은 갑작스러운 방향 변화들 또는 새로운 주요 음향들의 시작을 정확하게 포착할 수 없다는 단점을 갖는다.
이러한 문제를 극복하기 위해, 단순한 통계적 소스 이동 예측 모델을 도입하는 것이 특허 출원 EP 12306485.9에서 제안되었고, 이는 베이지안 학습 규칙(Bayesian learning rule)에 의해 구현된 통계적으로 근거한 스무딩에 채용된다. 그러나, EP 12306485.9 및 EP 12305537.8은 오직 방향성 전력 분포로부터 음원 방향들에 대한 우도 함수(likelihood function)를 계산한다. 이러한 분포는 단위 구체 상에서 거의 균일하게 분포된 샘플링 포인트들에 의해 특정된 방향들로부터의 높은 수의 일반 평면파들의 전력을 나타낸다. 이것은 상이한 방향들로부터의 일반 평면파들 간의 상호 상관에 관한 어떤 정보도 제공하지 않는다. 실제로, 차수 N의 HOA 표현은 일반적으로 제한되어, 공간적으로 대역-제한된 음장을 야기한다. 특히, 이것은 방향성 전력 분포에 대한 방향성 음원의 기여도가 인근에서의 방향들에 대한 진정한 입사 방향들(directions of incidence) 주위에서 번지는 것을 의미한다. 이러한 번짐 효과(smearing effect)는 '확산 함수(dispersion function)'에 의해 수학적으로 설명되고, 이하의 고차 앰비소닉의 공간적 해상도 부분을 참조한다. 그것의 크기는 감소하는 차수의 HOA 표현으로 증가한다. EP 12306485.9 및 EP 12305537.8 방향 추적 방법들은 이전에 발견된 방향들의 인근의 외부의 영역들에 대한 방향의 탐색을 제한함으로써 이러한 효과를 어느 정도까지 고려하고 있다. 그러나, 인근에 대한 특정은, 모든 음원들이 완전한 N차의 HOA 표현으로 인코딩된다는 것을 가정한다. 이러한 가정은 N보다 낮은 차수로 인코딩된 일반 평면파들을 포함하는 N차의 HOA 표현들에 대해 위반된다. 그러한 N보다 낮은 차수의 일반 평면파들은 음원들이 더 넓게 나타나도록 하는 아티스틱 생성(artistic creation)의 결과일 수 있다. 그러나, 그들은 또한 구체 마이크로폰들(spherical microphones)에 의한 HOA 음장 표현의 레코딩으로 발생한다.
EP 12306485.9 및 EP 12305537.8 방향 추적 방법들은, 음장이, 원치않는 특성인, N보다 낮은 차수의 단일의 일반 평면파로 구성되는 경우에 단일의 음원보다 많은 것을 식별할 것이다.
본 발명에 의해 해결될 문제는 HOA 음장에서의 주요 음원들에 대한 판정을 개선하는 것이고, 따라서, 그들의 시간적 궤적들이 추적될 수 있다. 이러한 문제는 청구항 1, 2 및 6에 개시된 방법들에 의해 해결된다. 청구항 6의 방법을 이용하는 장치가 청구항 7에 개시된다.
본 발명은 EP 12306485.9 프로세싱을 개선한다. 본 발명의 프로세싱은 독립적 주요 음원들을 찾고, 시간에 따른 그들의 방향들을 추적한다. '독립적 주요 음원들'이라는 표현은 각각의 음원들의 신호들이 상관되지 않는다는 것을 의미한다. 최신의 방법들 EP1230557.8 및 EP 12306485.9는 오직 원래의 HOA 표현의 방향성 전력 분포를 검토함으로써 주요 음원 방향들에 대한 모든 잠재적 후보들을 탐색하지만, 이하에 설명되는 본 발명의 프로세싱은 각각의 방향 후보에 대한 탐색에 대해, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들을 원래의 HOA 표현으로부터 제거한다. 그러한 연산에 의해, 음장에 대한 그의 기여도가 방향적으로 높은 정도로 확산되는 경우에, 오직 하나의 음원 대신에 다수를 잘못하여 검출하는 문제가 회피될 수 있다. 전술한 바와 같이, 그러한 효과는 N보다 낮은 차수로 인코딩된 일반 평면파들을 포함하는 N차의 HOA 표현들에 대해 발생할 것이다.
EP 12306485.9에서와 같이, 주요 음원 방향들에 대해 발견된 후보들은 그 후에 이전에 발견된 주요 음원들에 할당되고, 통계적 소스 이동 모델에 따라 최종적으로 스무딩된다. 따라서, EP 12306485.9에서와 같이, 본 발명의 프로세싱은 시간적으로 스무드한 방향 추정값들을 제공하고, 갑작스러운 방향 변화들 또는 새로운 주요 음향들의 시작을 포착할 수 있다.
본 발명의 프로세싱은 HOA 표현의 연속하는 프레임들에 대해 주요 음원 방향들에 대한 추정값을 2개의 후속하는 프로세싱에서 판정한다:
HOA 표현의 현재 시간 프레임
Figure pct00003
로부터, 주요 음원 방향들에 대한 후보 또는 추정값들이 연속적으로 탐색되고, 각각의 음원들에 의해 생성되도록 되어 있는 HOA 표현의 컴포넌트가 판정된다. 이러한 탐색 프로세스의 각각의 반복에서, 각각의 추가의 방향 후보가, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된 원래의 HOA 표현을 나타내는 나머지(residual) HOA 표현으로부터 계산된다. 현재 방향 후보는 다수의 미리정의된 테스트 방향들로부터 선택되어, 선택된 방향으로부터 청취자 위치에 영향을 주는 나머지 HOA 표현의 관련된 일반 평면파의 전력이 모든 다른 테스트 방향들의 것에 비교하여 최대가 되도록 한다.
다음으로, 현재 시간 프레임에 대해 선택된 방향 후보들이 HOA 계수들의 이전 시간 프레임
Figure pct00004
에서 발견된 주요 음원들에 할당된다. 이후, 결과적인 시간 궤적에 관하여 스무딩되는 최종 방향 추정값들이 베이지안 추론 프로세스를 수행함으로써 계산되고, 여기서 이 베이지안 추론 프로세스는 한편으로는 통계적 선험적(statistical a priori) 음원 이동 모델을 활용하고, 다른 한편으로는 원래의 HOA 표현의 주요 음원 컴포넌트들의 방향성 전력 분포를 활용한다. 선험적 음원 이동 모델은 이전 시간 프레임
Figure pct00005
에서의 그들의 방향으로부터 개별 음원들의 현재 이동 및 이전 시간 프레임
Figure pct00006
과 끝에서 두번째의 시간 프레임
Figure pct00007
과의 사이의 이동을 통계적으로 예측한다.
HOA 계수들의 이전 시간 프레임
Figure pct00008
에서 발견된 주요 음원들에 대한 방향 추정값들의 할당은, 이전에 발견된 음원의 방향과 방향 추정값의 쌍들 사이의 각도들의 합동 최소화와, 방향 추정값 및 이전 시간 프레임에서 발견된 주요 음원에 관련된 방향성 신호들의 쌍들 사이의 상관 계수의 절대값의 최대화에 의해 달성된다.
원칙적으로, 본 발명의 방법은 HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들을 판정하는데 적절하고, 상기 방법은:
- HOA 계수들의 현재 시간 프레임에서, 주요 음원들에 대한 연속적으로 예비 방향 추정값들을 탐색하는 것, 및 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들을 계산하는 것, 및 대응하는 방향성 신호들을 계산하는 것;
- 상기 계산된 주요 음원들을, 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 상기 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들과 비교하고, 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들을 상관시키는 것에 의해 상기 HOA 계수들의 이전 시간 프레임에서 활성인 대응하는 음원들에 할당하여, 할당 함수를 야기하는 것;
- 상기 할당 함수, 상기 이전 시간 프레임에서의 상기 스무딩된 방향들의 세트, 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들의 세트, 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 각각의 소스 이동 각도들의 세트, 및 대응하는 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들을 이용하여 스무딩된 주요 소스 방향들을 계산하는 것;
- 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스의 프레임 지연된 버전을 이용하여 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하는 것
을 포함하고,
상기 이전 시간 프레임에서의 활성인 음원들의 상기 방향성 신호들은 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들로부터 모드 매칭을 이용하여 계산되고,
상기 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 상기 소스 이동 각도들의 세트는 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 그의 추가의 프레임 지연된 버전으로부터 계산된다.
원칙적으로, 본 발명의 장치는 HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들을 판정하는데 적합하고, 상기 장치는:
- 주요 음원들의 예비 방향 추정값들을 HOA 계수들의 현재 시간 프레임에서 연속적으로 탐색하고, 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들을 계산하고, 대응하는 방향성 신호들을 계산하도록 구성되는 수단;
- 상기 현재 시간 프레임의 상기 예비 방향 추정값들과 상기 이전 시간 프레임에서 활성인 음원들의 스무딩된 방향들을 비교하고, 상기 현재 시간 프레임의 상기 방향성 신호들과 상기 이전 시간 프레임에서 활성인 음원들의 방향성 신호들을 상관시킴으로써 상기 HOA 계수들의 이전 시간 프레임에서 활성인 대응하는 음원들에 상기 계산된 주요 음원들을 할당하여, 할당 기능을 야기하도록 구성되는 수단;
상기 할당 기능, 상기 이전 시간 프레임에서의 스무딩된 방향들의 세트, 상기 이전 시간 프레임에서 활성인 주요 음원들의 인덱스들의 세트, 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 각각의 소스 이동 각도들의 세트, 및 대응하는 주요 음원들에 의해 생성되는 상기 HOA 음장 컴포넌트들을 이용하여 스무딩된 주요 소스 방향들을 계산하도록 구성되는 수단;
- 상기 스무딩된 주요 소스 방향들, 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 프레임 지연된 버전 및 상기 이전 시간 프레임의 활성인 주요 음원들의 인덱스의 프레임 지연된 버전을 이용하여 상기 현재 시간 프레임의 활성인 주요 음원들의 인덱스들 및 방향들을 판정하도록 구성되는 수단
을 포함하고,
상기 이전 시간 프레임에서의 활성인 음원들의 상기 방향성 신호들은 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 상기 이전 시간 프레임의 HOA 계수들로부터 모드 매칭을 이용하여 계산되고,
상기 끝에서 두번째 시간 프레임과 상기 이전 시간 프레임 간의 상기 소스 이동 각도들의 세트는 상기 이전 시간 프레임의 활성인 주요 음원들의 방향들의 상기 프레임 지연된 버전 및 그의 추가의 프레임 지연된 버전으로부터 계산된다.
본 발명의 장점을 갖는 추가의 실시예들은 각각의 종속 청구항들에서 개시된다.
본 발명의 예시적인 실시예들은 첨부하는 도면들을 참조하여 설명된다:
도 1은 고차 앰비소닉 신호들의 주요 상관되지 않은 방향성 신호들의 방향들의 추정을 위한 본 발명의 프로세싱의 블록도이다;
도 2는 예비 방향 추정의 상세이다;
도 3은 주요 음원들에 의해 생성된 음장의 HOA 표현 및 주요 방향성 신호의 계산이다;
도 4는 스무딩된 주요 음원 방향들의 모델 기반 계산이다;
도 5는 구체 좌표계이다;
도 6은
Figure pct00009
인 각도들에 대해 그리고 상이한 앰비소닉 차수 N에 대한 정규화된 확신 함수
Figure pct00010
이다.
본 발명의 방향 추적 프로세싱의 원리가 도 1에 예시되며, 이하에서 설명된다. 방향 추적은 길이 L의 HOA 계수 시퀀스들의 입력 프레임들
Figure pct00011
의 연속적 프로세싱에 기초하는 것으로 가정되며, 여기서
Figure pct00012
는 프레임 인덱스를 표기한다. 프레임들은 다음과 같이 고차 앰비소닉의 기초 부분에서의 수학식(45)에 특정된 HOA 계수 시퀀스들과 관련하여 정의된다.
Figure pct00013
여기서,
Figure pct00014
는 샘플링 주기를 표기하고 B ≤ L은 프레임 시프트를 나타낸다. 연속적 프레임들은 중첩(overlapping), 즉, B < L이라고 가정하는 것이 타당하지만, 반드시 그런 것은 아니다.
제1 단계 또는 스테이지(11)에서, HOA 표현의
Figure pct00015
번째 프레임
Figure pct00016
는 주요 음원들에 대해 예비 분석된다. 이러한 프로세싱의 상세 설명은 이하의 예비 방향 탐색 부분에서 제공된다. 특히, 검출된 주요 방향성 신호들의 수
Figure pct00017
뿐 아니라 대응하는
Figure pct00018
예비 방향 추정값들
Figure pct00019
이 판정된다. 추가적으로, 대응하는 개별 주요 음원들뿐 아니라 대응하는 순간 방향성 신호들(instantaneous directional signals)
Figure pct00020
(즉, 일반 평면파 함수들)에 의해 생성되는(것으로 되어 있는) HOA 음장 컴포넌트들
Figure pct00021
이 계산된다.
개별 예비 방향 추정값들 및 관련된 양들은 순차적 방식으로, 즉, 먼저 d = 1에 대해, 그리고 나서 d = 2에 대해 등으로 계산된다. 제1 단계에서, 원래 HOA 표현
Figure pct00022
의 방향성 전력 분포는 Ep 12305537.8에서 제안된 바와 같이 계산되고 주요 음원들의 존재에 대해 연속적으로 분석된다. 주요 음원들이 검출되는 경우에, 각각의 예비 방향 추정값
Figure pct00023
이 계산된다. 또한, 대응하는 방향성 신호
Figure pct00024
가, 이 음원에 의해 생성되는 것으로 가정되는 현재 프레임
Figure pct00025
의 그 컴포넌트
Figure pct00026
와 함께 추정된다.
Figure pct00027
는 방향성 신호
Figure pct00028
와 상관되는
Figure pct00029
의 그 컴포넌트를 나타내는 것으로 가정한다. 최종적으로, HOA 컴포넌트
Figure pct00030
Figure pct00031
로부터 감산되어 나머지 HOA 표현
Figure pct00032
를 획득한다.
Figure pct00033
번째 (d ≥ 2) 예비 방향의 추정이, 대신에 나머지 HOA 표현
Figure pct00035
을 이용하는 것만 제외하면 첫 번째 것과 완전하게 유사한 방식으로 수행된다. 이에 의해,
Figure pct00036
번째 음원에 의해 생성된 음장 컴포넌트들이 추가의 방향 탐색에서 배제된다는 것이 명시적으로 보장된다.
방향 할당 단계 또는 스테이지(13)에서,
Figure pct00037
번째 프레임에서 단계/스테이지(11)에서 발견된 주요 음원들은
Figure pct00038
번째 프레임에서의 활성인(것으로 가정되는) 대응하는 음원들에 할당된다. 한편으로는, 할당은 현재 시간 프레임
Figure pct00039
에 대한 예비 방향 추정값들
Figure pct00040
Figure pct00041
번째 프레임에서 활성인(것으로 가정되는) 음원들의 스무딩된 방향들을 비교함으로써 달성되고, 이는 세트
Figure pct00042
에 포함되고, 그의 인덱스들은 세트
Figure pct00043
에 포함된다. 다른 한편으로는, 할당을 위해, 프레임
Figure pct00044
에서의 검출된 주요 음원들의 순간 방향성 신호들
Figure pct00045
Figure pct00046
번째 프레임에서 활성인(것으로 가정되는) 음원들의 방향성 신호들
Figure pct00047
사이의 상관이 활용된다. 할당의 결과는 할당 함수
Figure pct00048
에 의해 공식화되고, 여기서
Figure pct00049
는 추적될 예상 음원들의 최대수를 표기하고, 이는
Figure pct00050
번째 새롭게 발견된 음원이 인덱스
Figure pct00051
를 이용하여 이전의 활성인 음원에 할당된다는 것을 의미한다.
스무딩된 주요 음원 방향들 단계 또는 스테이지(14)의 모델 기반 계산에서, 프레임
Figure pct00052
에서의 활성인 주요 음원들의 인덱스들의 세트
Figure pct00053
, 프레임
Figure pct00054
에서의 대응하는 주요 소스 방향 추정값들의 세트
Figure pct00055
, 프레임들
Figure pct00056
Figure pct00057
사이의 각각의 소스 이동 각도들의 세트
Figure pct00058
, 발견된 주요 음원들에 의해 생성되도록 되어 있는 HOA 음장 컴포넌트들
Figure pct00059
Figure pct00060
, 및 할당 함수
Figure pct00061
를 이용함으로써 EP 12306485.9에 제안된 통계적 음원 이동 모델에 기초하여, 스무딩된 주요 소스 방향들
Figure pct00062
이 계산된다. 이러한 모델 기반 스무딩 절차의 상세한 설명은 이하의 스무딩된 주요 음원 방향들의 모델 기반 계산 부분에서 제공된다.
최종 단계 또는 스테이지(15)에서, 세트들
Figure pct00063
Figure pct00064
에 각각 포함되는 것으로 되어 있는, 현재 활성인 주요 음원들의 인덱스들 및 방향들이, 단계/스테이지(14)로부터의 스무딩된 소스 방향들
Figure pct00065
Figure pct00066
번째 프레임에서 활성인 것으로 가정된 음원들의 각각의 인덱스들 및 스무딩된 방향들을 포함하는 세트들
Figure pct00067
Figure pct00068
을 이용하여 판정된다. 이러한 연산은, 적은 수의 연속적인 프레임들에 대해 검출되지 않은 음원들을 부정하게 비활성화(spuriously deactivate)하지 않기 위한 목적을 갖는다.
단계 또는 스테이지(12)는 프레임
Figure pct00069
의 HOA 표현
Figure pct00070
Figure pct00071
번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향들의 세트
Figure pct00072
를 이용하여
Figure pct00073
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들의 계산을 수행한다. 계산은 M.A. Poletti에 의한, "Three-Dimensional Surround Sound Systems Based on Spherical Harmonics"(J. Audio Eng. Soc., vol.53(11), pp1004-1125, 2005)에 설명된 바와 같이 모드 매칭의 원리에 기초한다.
소스 이동 각도 추정 단계 또는 스테이지(16)에서, 프레임
Figure pct00074
에서의 주요 활성인 음원들의 이동 각도들의 세트
Figure pct00075
가, 각각
Figure pct00076
Figure pct00077
번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향 추정값들의 2개의 세트들
Figure pct00078
Figure pct00079
로부터 계산된다. 이동은 프레임들
Figure pct00080
Figure pct00081
사이에서 일어나는 것으로 이해된다. 활성인 주요 음원의 이동 각도는 프레임
Figure pct00082
에서의 그의 스무딩된 방향 추정값과 프레임
Figure pct00083
에서의 것 사이의 아크(arc)이다.
주의: 프레임
Figure pct00084
에서 활성인 것으로 가정되는 주요 음원에 대해 프레임
Figure pct00085
로부터의 어떤 방향 추정값도 이용가능하지 않으면, 각각의 이동 각도는
Figure pct00086
의 최대값으로 설정될 수 있다. 일반적으로, 제1 프레임
Figure pct00087
및 프레임
Figure pct00088
값들에 대한 프로세싱을 초기화하는 것이 가능하지 않은 경우, 도 1의 단계들 또는 스테이지들에서 입력될 값들 또는 대응하는 세트들은 비어있거나, 또는 각각 0으로 설정된다.
이 연산은 이 음원의 다음 방향에 대한 선험적 확률이 모든 가능한 방향들에 걸쳐서 균일하게 되게 한다(이하의 현재 활성인 주요 음원들의 인덱스들 및 방향들의 판정 부분을 참고).
프레임 지연들(171 내지 174)은 하나의 프레임 단위로 각각의 신호들을 지연시키고 있다.
이하에서, 전술한 단계들 및 스테이지들이 보다 상세하게 설명된다.
예비 방향 탐색
예비 방향 탐색 단계/스테이지(11)에서, (프레임
Figure pct00089
에서의) 현재의 주요 음원들의 현재 수
Figure pct00090
및 각각의 방향들
Figure pct00091
이 추정된다. 또한, 개별 음원들에 의해 생성되도록 되어 있는 HOA 음장 컴포넌트들
Figure pct00092
뿐 아니라 대응하는 방향성 신호들
Figure pct00093
(즉, 일반 평면파 함수들)이 계산된다. 이전에 열거된 양들 모두가 먼저 방향 인덱스 d = 1에 대해 계산되고, 그 후 d = 2에 대해 계산되고,
Figure pct00094
까지 계산된다.
단일 방향
Figure pct00095
인덱스에 대한 계산 절차가 도 2에 예시된다. (
Figure pct00096
번째 시간 프레임에 대한
Figure pct00097
번째 방향의 추정과 관련된)
Figure pct00098
번째 방향의 추정 이후에 생성된 남아있는 HOA 표현
Figure pct00099
은 이 스테이지에 입력된다. 이에 의해, 루프의 시작에서,
Figure pct00100
은 원래의 HOA 프레임
Figure pct00101
에 대응한다는 것이 이해될 것이다. 제1 단계 또는 스테이지(21)에서, 남아있는 HOA 표현
Figure pct00102
의 방향성 전력 분포
Figure pct00103
는, 단위 구체 상에서 거의 균일하게 분포되는, 미리정의된 수의 Q개의 이산 테스트 방향들
Figure pct00104
에 대해 계산된다. 보다 구체적으로는, 각각의 테스트 방향
Figure pct00105
는 경사각
Figure pct00106
및 수학식(2)에 따른 방위각
Figure pct00107
을 포함하는 벡터로서 정의된다.
Figure pct00108
여기서,
Figure pct00109
는 위치변환(transposition)을 표기한다. 방향성 전력 분포는 벡터
Figure pct00110
에 의해 표현되고, 그의 컴포넌트들
Figure pct00111
은,
Figure pct00112
번째 시간 프레임에 대한 방향
Figure pct00113
에 관련된 표현
Figure pct00114
내에 남아있는 모든 주요 음원들의 합동 전력을 표기한다.
Figure pct00115
로부터의 방향성 전력 분포
Figure pct00116
의 실제 계산은 EP 12305537.8에서 제안한 바와 같이 수행될 수 있다. 단계 또는 스테이지(22)에서, 주요 음원의 존재에 대해 방향성 전력 분포
Figure pct00117
가 분석된다. 주요 소스를 검출하는 한가지 방식이 이하의 주요 음원 존재에 대한 분석 부분에서 설명된다. 주요 음원의 부재가 검출되면, 그 후 방향 탐색이 중단되고 발견된 주요 방향들의 총 수는
Figure pct00118
로 설정된다. 그렇지 않은 경우, 주요 소스가 검출되면, 좌표 원점에 관한 그의 방향
Figure pct00119
의 예비 추정값이 단계 또는 스테이지(23)에서 계산되며, 보다 상세한 것은 이하의 주요 음원 방향에 대한 탐색 부분을 참조한다.
연속적으로, 각각의 방향성 신호
Figure pct00120
Figure pct00121
번째 주요 음원에 의해 생성되는 것으로 가정된 음장 컴포넌트의 HOA 표현
Figure pct00122
이 단계 또는 스테이지(24)에서 이하의 주요 방향성 신호 및 주요 음원에 의해 생성된 음장의 HOA 표현의 계산 부분에서 보다 상세하게 설명된 바와 같이 계산된다.
최종적으로, 단계 또는 스테이지(25)에서, HOA 컴포넌트
Figure pct00123
Figure pct00124
로부터 감산되어 나머지 HOA 표현
Figure pct00125
를 획득하고, 이는 다음(즉,
Figure pct00126
번째) 방향성 음원의 탐색에 사용된다. 이에 의해, 발견된
Figure pct00127
번째 음원에 의해 생성된 음장 컴포넌트들이 추가의 방향 탐색에 대해 배제된다는 것이 명시적으로 보장된다.
- 주요 음원 존재에 대한 분석
Figure pct00128
에 의해 표현되는 음장 내의 주요 음원의 존재를 검출하기 위해, 남아있는 HOA 표현들
Figure pct00129
의 방향성 전력 분포들
Figure pct00130
이 고려된다. 한편으로는, 초기 HOA 표현
Figure pct00131
에 의해 표현된 음장에 비교하여 남아있는 HOA 표현
Figure pct00132
에 의해 표현된 음장의 중요도에 대한 척도로서 간주될 수 있는 분산비(variance ratio)
Figure pct00133
을 모니터링하는 것이 타당하다는 것이 실험적으로 발견되었다. 작은 비
Figure pct00134
는, HOA 표현
Figure pct00135
에 의해 표현된 음원들 중 어느것도 주요한 것으로 고려되지 않아야 한다는 것을 나타낸다. 다른 한편으로는, 정규화된 방향성 전력 분포들
Figure pct00136
Figure pct00137
의 분산들의 비
Figure pct00138
를 관찰하는 것이 또한 타당하다. 정규화된 방향성 전력 분포
Figure pct00139
의 요소들
Figure pct00140
Figure pct00141
은 수학식(7)에 의한
Figure pct00142
의 요소들에 의존하여 정의된다.
Figure pct00143
분산
Figure pct00144
은 방향성 전력 분포
Figure pct00145
의 균일성에 대한 척도로서 간주될 수 있다. 특히, 분산은 작아지면, 보다 더 균일한 전력이 모든 입사 방향들에 걸쳐 분포된다. 공간적으로 확산하는 잡음의 제한적인 경우에, 분산
Figure pct00146
은 0의 값으로 근접해야 한다. 이러한 고려사항들에 기초하여, 분산비
Figure pct00147
는 HOA 표현
Figure pct00148
의 방향성 전력이
Figure pct00149
의 것보다 더 균일하게 분포되는지를 나타낸다.
전술한 고려사항들을 요약하면,
Figure pct00150
에 의해 표현되는 음장에는 적어도 단일의 주요 음원들이 항상 존재한다고 가정할 수 있다, 즉,
Figure pct00151
이다. 즉, 분산비
Figure pct00152
의 값이 특정 미리정의된 임계값
Figure pct00153
보다 크고 분산비의 값이 1보다 작은 값을 유지하면, 추가의 주요 소스들이 검출된다(d ≥ 2에 대해).
Figure pct00154
주요 음원이 검출된다.
Figure pct00155
에 대한 값은 '주요'라는 것이 의미하는 것의 해석과 관련하여 설정된다. 본 발명자들은
Figure pct00156
에 의해 타당한 선택이 주어진다는 것을 발견하였다.
- 주요 음원 방향에 대한 탐색
Figure pct00157
번째 음원이 검출된 후에, 그의 방향
Figure pct00158
의 예비 추정값이 방향성 전력 분포
Figure pct00159
를 채용함으로써 탐색된다. 탐색은, 방향성 전력이 가장 크게 되는, 즉,
Figure pct00160
이 되는 그 테스트 방향
Figure pct00161
을 취함으로써 달성된다.
- 주요 음원에 의해 생성된 음장의 HOA 표현 및 주요 방향성 신호의 계산
후속하여, 주요 소스 방향의 예비 추정값
Figure pct00162
을 판정한 후에, 동일한 음원에 의해 생성되는 것으로 가정된 음장 컴포넌트들의 HOA 표현
Figure pct00163
뿐 아니라 각각의 방향성 신호
Figure pct00164
가 도 3에 따라 계산된다. 단계 또는 스테이지(31)에서, 단위 구체 상에서 거의 균일하게 분포되는 것으로 가정되는,
Figure pct00165
개의 샘플링 위치들
Figure pct00166
로 이루어지는, 고정된 미리정의된 구체 그리드
Figure pct00167
가 회전되어, 회전된 샘플링 위치들
Figure pct00168
로 이루어지는 그리드
Figure pct00169
를 제공한다. 회전은, 제1 회전된 샘플링 위치
Figure pct00170
가 예비 방향 추정값
Figure pct00171
에 대응하도록 수행된다.
단계 또는 스테이지(32)에서, HOA 표현
Figure pct00172
이, 회전된 그리드 방향들
Figure pct00173
로부터 관측자 위치(즉, 좌표 원점)에 대해 영향을 주는 것으로 가정되는
Figure pct00174
개의 평면파 함수들(또한 그리드 방향성 신호들로서 지칭됨)
Figure pct00175
에 의해 동등하게 표현되는, 소위 공간 도메인으로 변환된다. 평면파 함수들
Figure pct00176
을 계산하기 위해, 회전된 그리드 방향과 관련하여 모드 행렬
Figure pct00177
이 다음과 같이 계산되고,
Figure pct00178
여기서,
Figure pct00179
이다.
각각의 그리드 방향성 신호
Figure pct00180
는 수학식(12)와 같은,
Figure pct00181
번째 시간 프레임의 개별 샘플들로 구성된 로우(row) 벡터이고,
Figure pct00182
여기서 L은 분석된 HOA 표현의 (샘플들에서의) 길이를 표기하고, 모든 그리드 방향성 신호들의 계산은 수학식(13)과 같은 구체 조화 변환(Spherical Harmonics Transform)에 의해 달성된다(그에 대한 설명은 이하의 구체 조화 변환을 참조한다).
Figure pct00183
주요 음원 방향의 예비 추정값
Figure pct00184
은 회전된 샘플링 위치
Figure pct00185
에 대응하므로, 일반적 평면파 함수
Figure pct00186
는 원하는 주요 방향성 신호
Figure pct00187
, 즉,
Figure pct00188
로서 간주될 수 있다.
Figure pct00189
번째 음원에 의해 생성되는
Figure pct00190
의 컴포넌트를 판정하기 위해, 이러한 컴포넌트가, 단계 또는 스테이지(33)에서
Figure pct00191
로부터 예측될 수 있는 평면파 함수들에 의해 동등하게 표현된다고 상정한다. 따라서, 그리드 방향성 신호들
Figure pct00192
Figure pct00193
로부터 예측되는 것으로 시도된다. 예측된 신호들은
Figure pct00194
에 의해 표기된다.
그러한 예측을 달성하는 한가지 방식은, 예측된 신호들
Figure pct00195
이, 예측 오차를 최소화하도록 필터들이 결정되는 선형 필터링에 의해
Figure pct00196
로부터 생성될 것이라고 가정하는 것이다. 필터들이 (분석 프레임의 지속기간에 비해) 매우 짧은 지속기간의 유한 임펄스 응답(finite impulse response)(FIR) 필터들인 것으로 가정하면, 예측 오차의 최소화는 최신의 최소 제곱(least square) 기법들을 이용하여 달성될 수 있다. 최종적으로, 주요 음원 신호
Figure pct00197
의 HOA 표현 및 모든 예측되고 상관된 컴포넌트들이, 수학식(15)와 같은 역 구체 조화 변환(inverse Spherical Harmonics Transform)에 의해 단계 또는 스테이지(34)에서 획득된다(그에 대한 설명은 이하의 구체 조화 변환 부분을 참조한다).
Figure pct00198
이전에 활성인 주요 음원들의 방향성 신호들의 계산
Figure pct00199
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들
Figure pct00200
은 수학식(20)에 따른 행렬
Figure pct00201
내에 포함된다. 이 행렬은 수학식(16)에 의한 모드 매칭의 원리(전술한 Poletti 문서를 참조)를 이용하여 계산된다.
Figure pct00202
여기서,
Figure pct00203
은 원래의 HOA 음장 표현의
Figure pct00204
번째 프레임을 표기하고,
Figure pct00205
Figure pct00206
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향들
Figure pct00207
Figure pct00208
에 관련되는 모드 행렬을 표기한다. 모드 행렬
Figure pct00209
Figure pct00210
에 의해 계산되고, 여기서,
Figure pct00211
이다.
직접 할당
전술한 바와 같이, 한편으로는 도 1의 단계/스테이지(13)에서의 할당이
Figure pct00212
번째 프레임에서 활성인 것으로 되어 있는 음원들의 스무딩된 방향들 및 예비 방향 추정값들
Figure pct00213
을 비교함으로써 달성되고, 이는 다음의 세트,
Figure pct00214
내에 포함되고, 여기서,
Figure pct00215
Figure pct00216
번째 프레임에서 활성인 것으로 되어 있는
Figure pct00217
번째 음원의 인덱스를 표기한다. 특히, 스무딩된 방향
Figure pct00218
과 예비 방향 추정값
Figure pct00219
의 쌍 사이의 각도가 작아질수록,
Figure pct00220
, d번째 새롭게 발견된 주요 음원 방향은 인덱스
Figure pct00221
를 갖는 이전에 활성인 음원에 대응할 것이다.
다른 한편으로는, 프레임
Figure pct00222
에서의 검출된 주요 음원들의 순간 방향성 신호들
Figure pct00223
Figure pct00224
Figure pct00225
번째 프레임에서 활성인 것으로 되어 있는 음원들의 방향성 신호들
Figure pct00226
이 활용된다. 여기서 프레임
Figure pct00227
은 수학식(20)과 같은,
Figure pct00228
번째 프레임에서 활성인 것으로 되어 있는 음원들의 개별 방향성 신호들
Figure pct00229
로 이루어진다.
Figure pct00230
이 정의를 사용하여, 2개의 신호들
Figure pct00231
Figure pct00232
사이의 상관 계수
Figure pct00233
의 절대값이 클수록,
Figure pct00234
번째 새롭게 발견된 주요 음원 방향은 인덱스
Figure pct00235
를 갖는 이전에 활성인 음원들에 대응할 것이라는 것을 상정한다. 그러한 상정은, 상관 계수가 2개의 신호들 사이의 선형 종속성에 대한 척도를 제공한다는 사실에 의해 정당화된다.
이러한 고려사항들에 기초하여, 할당을 특정하는 할당 함수
Figure pct00236
는 이하의 비용 함수를 최소화하도록 계산된다.
Figure pct00237
Figure pct00238
번째 프레임에서의 어떤 활성 음원에도 속하지 않는 방향 인덱스들
Figure pct00239
에 대하여, 각도들
Figure pct00240
Figure pct00241
의 최소 각도로 실질적으로 설정되는 것이 내재적으로 가정되고, 여기서, 예를 들어,
Figure pct00242
이다. 또한, 방향성 인덱스들
Figure pct00243
에 대한 상관 계수들
Figure pct00244
은 실질적으로 0으로 설정된다. 제1 연산은, 모든 이전에 활성인 주요 음원들의 방향들 및
Figure pct00245
번째 새롭게 발견된 방향
Figure pct00246
사이의 각도들이
Figure pct00247
보다 큰 경우, 이 새롭게 발견된 방향은 새로운 음원에 속하도록 선호된다.
할당 문제는 공지된 H.W. Kuhn의 "The Hungarian method for the assignment problem" (Naval research logistics quarterly, vol.2(1-2), pp.83-97, 1955)에 기술된 헝가리안 알고리즘을 이용하여 해결될 수 있다.
스무딩된 주요 음원 방향들의 모델 기반 계산
이 부분은 통계적 음원 이동 모델에 따른 도 1의 단계/스테이지(14)에서의 스무딩된 주요 음원 방향들의 계산을 다룬다. 이 계산에 대한 개별 단계들은 도 4에 예시되고 이하에 더 자세하게 설명된다.
- 주요 음원 방향들에 대한 방향성 선험적 확률 함수들의 계산
새롭게 발견된 주요 음원 방향들에 대해, 방향성 선험적 확률 함수들
Figure pct00248
Figure pct00249
이 다음을 이용하여 단계 또는 스테이지(42)에서 계산된다:
- 프레임
Figure pct00250
에서의 활성인 주요 음원들의 인덱스들
Figure pct00251
의 세트
Figure pct00252
,
- 프레임
Figure pct00253
에서의 대응하는 주요 소스 방향 추정값들
Figure pct00254
의 세트
Figure pct00255
,
- 프레임들
Figure pct00256
Figure pct00257
사이의 각각의 소스 이동 각도들
Figure pct00258
의 세트
Figure pct00259
,
- 및 할당 함수
Figure pct00260
계산은 EP 12306485.9에 도입된 간단한 음원 이동 예측 모델에 기초한다. 특히,
Figure pct00261
번째 새롭게 발견된 주요 음원에 대한 방향성 선험적 확률 함수
Figure pct00262
는, 3차원 공간에서 단위 구체에 대한 von Mises-Fischer 분포의 이산 버전인 것으로 가정된다.
이하에서, 수학식(22)와 같은 방향성 선험적 확률 함수
Figure pct00263
가 개별 테스트 방향들
Figure pct00264
에 대한 확률들
Figure pct00265
로 구성된 벡터에 의해 주어진다.
Figure pct00266
이다.
개별 테스트 방향들
Figure pct00267
에 대한 선험적 확률들을 계산하기 위해, 2개의 경우들이 구별된다:
a)
Figure pct00268
번째 새롭게 발견된 주요 음원에 할당된 소스 인덱스
Figure pct00269
가 세트
Figure pct00270
내에 포함되는 경우, 선험적 확률들은,
Figure pct00271
에 따라 계산되고, 여기서
Figure pct00272
은 추정된 방향
Figure pct00273
및 테스트 방향
Figure pct00274
사이의 각도를 표기하며, 즉,
Figure pct00275
이다.
또한,
Figure pct00276
는,
Figure pct00277
에 따른 소스 이동 각도 추정값
Figure pct00278
을 이용하여 계산되는 집중 파라미터를 표기하고, 여기서,
Figure pct00279
Figure pct00280
로 설정될 수 있다.
파라미터들
Figure pct00281
Figure pct00282
에 대한 타당한 값들은
Figure pct00283
인 것으로 발견되었다(EP 12306485.9 참조).
이러한 계산 배후의 원리는 이전에 음원이 이동한 것 보다 더 적게 선험적 확률 함수의 집중도를 증가시키는 것이다. 이전에 음원이 많이 이동하였으면, 그의 연속적 방향성에 관한 불확실성이 높고, 따라서, 집중 파라미터는 작은 값을 달성해야 한다.
b)
Figure pct00284
번째 새롭게 발견된 주요 음원에 할당된 소스 인덱스
Figure pct00285
가 세트
Figure pct00286
내에 포함되지 않으면, 각각의 음원은 이전에 활성이 아니었던 것으로 간주된다. 결과적으로, 이 소스의 방향에 관한 어떤 선험적 지식도 실제로 이용가능하지 않다. 따라서, 선험적 확률 함수
Figure pct00287
는 단위 구체 상에서 균일한 것으로 가정되고, 개별 확률들이 모든 테스트 위치들
Figure pct00288
에 대해 동일한, 즉,
Figure pct00289
이다.
- 주요 음원 방향들에 대한 방향성 우도 함수의 계산
방향성 우도 함수
Figure pct00290
는, 개별의 새롭게 검출된 주요 음원들뿐 아니라 할당 함수
Figure pct00291
에 의해 생성되는 것으로 되어 있는 HOA 음장 컴포넌트들
Figure pct00292
을 이용하여 단계 또는 스테이지(41)에서 계산된다. 방향성 우도 함수
Figure pct00293
는 수학식(29)와 같이 개별 테스트 방향들
Figure pct00294
에 대한 우도들
Figure pct00295
로 구성된 벡터인 것으로 가정된다.
Figure pct00296
이다.
개별 우도들
Figure pct00297
은 EP12305537.8에 설명된 바와 같이, 테스트 방향
Figure pct00298
로부터 영향을 받는 일반적 평면파들의 전력들에 대한 근사인 것으로 계산된다. 특히,
Figure pct00299
이고, 여기서,
Figure pct00300
이고, 수학식(31)은 테스트 방향
Figure pct00301
에 관한 모드 벡터를 표기하고(
Figure pct00302
은 이하의 실수치의 구체 조화들(real-valued Spherical Harmonics)의 정의 부분에서 정의된 실수치의 구체 조화를 나타낸다), 여기서,
Figure pct00303
는 HOA 표현
Figure pct00304
에 관한 HOA 계수간 상관 행렬(inter-coefficients correlation matrix)을 나타낸다.
- 주요 음원 방향들에 대한 방향성 후험적 (posteriori) 확률 함수들의 계산
방향성 후험적 확률 함수들
Figure pct00305
은, 방향성 선험적 확률 함수들
Figure pct00306
및 방향성 우도 함수들
Figure pct00307
을 이용하여 단계 또는 스테이지(43)에서 계산된다. 여기서, 다시 한번, 방향성 후험적 확률 함수
Figure pct00308
는 수학식(33)와 같이 개별 테스트 방향들
Figure pct00309
에 대한 후험적 확률들
Figure pct00310
로 구성된 벡터인 것으로 가정된다.
Figure pct00311
개별 후험적 확률들
Figure pct00312
은 베이지안 규칙(EP 12306485.9 참조)에 따라 다음과 같이 계산된다.
Figure pct00313
고정된 방향 인덱스
Figure pct00314
를 가정하면, 수학식(37)의 분모는 각각의 테스트 방향
Figure pct00315
에 대해 고정적이다. 후속 방향 탐색을 위해, 오직 후험적 확률 함수들의 최대값이 관심있는 경우에, 그러한 글로벌 스케일링은 관련이 없다. 따라서, 수학식(37)의 분모의 계산은 연산 전력을 절감하기 위해 완전하게 무시할 수 있다는 것을 유의한다.
- 스무딩된 주요 음원 방향들의 계산
스무딩된 음원 방향들
Figure pct00316
Figure pct00317
이, 후험적 확률 함수들
Figure pct00318
을 이용하여 단계 또는 스테이지(44)에서 계산된다. 특히, 프레임
Figure pct00319
에 대해 발견된
Figure pct00320
번째 음원의 스무딩된 방향
Figure pct00321
은 후험적 확률 함수
Figure pct00322
의 최대값, 즉,
Figure pct00323
에 대한 탐색에 의해 획득된다.
현재 활성인 주요 음원들의 인덱스들 및 방향들의 판정
프레임
Figure pct00324
에서의 모든
Figure pct00325
활성 주요 음원들의 인덱스들
Figure pct00326
의 세트
Figure pct00327
및 프레임
Figure pct00328
에서의 대응하는 주요 소스 방향 추정값들
Figure pct00329
의 세트
Figure pct00330
는, 프레임
Figure pct00331
에서의 모든 활성인 주요 음원 방향들의 스무딩된 추정값들
Figure pct00332
Figure pct00333
의 세트
Figure pct00334
, 대응하는 인덱스들
Figure pct00335
의 세트
Figure pct00336
, 및 프레임
Figure pct00337
에 대해 획득된 스무딩된 주요 음원 방향 추정값들
Figure pct00338
을 이용하여 도 1의 단계 또는 스테이지(15)에서 계산된다. 이러한 연산은, 예를 들어, 개별 임펄스들 사이에서 짧은 휴지기를 갖는 임펄스형 음향들을 생성하는 캐스터네츠(castanets)와 같은 소스들에 대해 발생할 수 있는, 적은 수의 연속하는 프레임들에 대해 검출되지 않은 음원들을 부정하게 비활성화시키지 않으려는 목적을 갖는다. 따라서, 그들이 오직 미리정의된 수
Figure pct00339
의 연속적인 프레임들에 대해 검출되지 않은 경우에만, 최종(즉,
Figure pct00340
번째) 프레임에서 활성인 것으로 가정되었던 음원들을 비활성화하는 것이 타당하다. 이전 고려사항들에 따라, 제1 단계에서, 프레임
Figure pct00341
에서의 모든
Figure pct00342
활성 주요 음원들의 인덱스들
Figure pct00343
의 세트
Figure pct00344
와 모든 새롭게 검출된 음원들의 인덱스들의 세트
Figure pct00345
와의 결합된 세트
Figure pct00346
Figure pct00347
가 계산된다.
이 세트로부터 원하는 세트
Figure pct00348
가,
Figure pct00349
개의 이전에 연속적인 프레임들에 대해 검출되지 않았던 그러한 소스들의 인덱스들을
Figure pct00350
로부터 제거함으로써 획득된다. 프레임
Figure pct00351
에서의
Figure pct00352
개의 활성인 주요 음원들이
Figure pct00353
의 요소들의 수로 설정된다. 최종적으로,
Figure pct00354
Figure pct00355
의 요소들을 나타내는, 주요 소스 방향 추정값들
Figure pct00356
Figure pct00357
Figure pct00358
에 의해 판정된다.
이는, 각각의 음원이 프레임
Figure pct00359
에서 새롭게 검출된 것이 아니면, 이전에 활성인 주요 음원들의 방향들이 고정된 채로 유지된다는 것을 의미한다.
고차 앰비소닉의 기초
고차 앰비소닉(HOA)은, 음원들이 없는 것으로 가정되는, 관심있는 컴팩트한 영역 내의 음장에 대한 설명에 기초한다. 그 경우에, 시간
Figure pct00360
및 관심 영역 내의 위치
Figure pct00361
에서의 음압
Figure pct00362
의 시공간 거동은 물리적으로 제차 방정식(homogeneous equation)에 의해 완전하게 판정된다. 이하에서, 도 5에 도시된 바와 같은 구체 좌표계가 가정된다. 사용된 좌표계에서,
Figure pct00363
축은 정면 위치를 가리키고,
Figure pct00364
축은 좌측을 가리키고,
Figure pct00365
축은 위쪽을 가리킨다. 공간
Figure pct00366
에서의 위치는 반지름
Figure pct00367
(즉, 좌표 원점에 대한 거리), 극축(polar axis)
Figure pct00368
로부터 측정된 경사각
Figure pct00369
Figure pct00370
축으로부터
Figure pct00371
평면에서 반시계 방향으로 측정된 방위각
Figure pct00372
에 의해 표현된다.
Figure pct00373
는 위치변환을 표기한다.
그리고 나서,
Figure pct00374
, 즉,
Figure pct00375
는 각 주파수(angular frequency)를 나타내고,
Figure pct00376
는 허수부를 나타내는,
Figure pct00377
에 의해 표기된 시간과 관련하여 음압의 푸리에 변환이,
Figure pct00378
에 따라 구체 조화 급수(series of Spherical Harmonics)로 확장될 수 있다는 것이 보여질 수 있다(E.G. Williams, "Fourier Acoustics", vol.93 of Applied Mathematical Sciences, Academic Press, 1999 참조).
수학식(40)에서,
Figure pct00379
는 음향의 속도를 표기하고
Figure pct00380
는 각파수(angular wave number)를 나타내고, 이는
Figure pct00381
에 의해 각 주파수
Figure pct00382
에 관련되고,
Figure pct00383
은 제1종의 구체 베젤 함수(spherical Bessel function)를 표기하고,
Figure pct00384
은 n차(n order) 및 m도(m degree)의 실수치의 구체 조화들을 표기하고, 이는 이하의 실수치 의 구체 조화들의 정의 부분에서 정의된다. 확장 계수들
Figure pct00385
은 각파수
Figure pct00386
에 의존한다. 음압은 공간적으로 대역-제한된다는 것이 내재적으로 가정된다. 따라서, 급수는 상한 N에서 차수 인덱스 n에 관하여 잘라지며, 이는 HOA 표현의 차수라 지칭된다.
음장이 앵글 튜플(angle tuple)
Figure pct00387
에 의해 특정된 모든 가능한 방향들로부터 도달하는 상이한 각 주파수
Figure pct00388
의 유한개의 조화 평면파의 중첩에 의해 표현되는 경우, 각각의 평면파 복소 진폭 함수
Figure pct00389
는 이하의 구체 조화 확장에 의해 표현될 수 있다는 것이 보여질 수 있다(B. Rafaely, "Plane-wave Decomposition of the Sound Field on a Sphere by Spherical Convolution", J. Acoust. Soc. Am., vol.4(116), pp.2149-2157, 2004 참조):
Figure pct00390
여기서, 확장 계수들
Figure pct00391
Figure pct00392
에 의해 확장 계수들
Figure pct00393
과 관련된다.
개별 계수들
Figure pct00394
이 각 주파수
Figure pct00395
의 함수라고 가정하는 경우, 역 푸리에 변환(
Figure pct00396
이라고 표기됨)은 시간 도메인 함수들
Figure pct00397
을 각각의 n차 및 m도에 대해 제공하고, 이는 단일 벡터
Figure pct00398
에서 수집되고,
Figure pct00399
Figure pct00400
이다.
벡터
Figure pct00401
내의 시간 도메인 함수
Figure pct00402
의 위치 인덱스는
Figure pct00403
에 의해 주어진다. 벡터
Figure pct00404
의 요소들의 전체 수는
Figure pct00405
에 의해 주어진다.
최종 앰비소닉 형식은 샘플링 주파수
Figure pct00406
를 이용하여
Figure pct00407
의 샘플된 버전을 다음과 같이 제공하고,
Figure pct00408
이고, 여기서,
Figure pct00409
는 샘플링 주기를 표기한다.
Figure pct00410
의 요소들은 앰비소닉 계수들로서 지칭된다. 시간 도메인 신호들
Figure pct00411
및 따라서 앰비소닉 계수들은 실수치이다.
- 실수치의 구체 조화들의 정의
실수치의 구체 조화들
Figure pct00412
은,
Figure pct00413
이고, 여기서,
Figure pct00414
이다.
연관된 르장드르 함수들(Legendre functions)
Figure pct00415
은 르장드르 다항식
Figure pct00416
를 이용하여,
Figure pct00417
로서 정의되고, 전술한 E.G. Williams 교재와는 달리, Condon-Shortley 위상 항
Figure pct00418
을 갖지 않는다.
- 고차 앰비소닉 공간 해상도
방향
Figure pct00419
으로부터 도달하는 일반 평면파 함수
Figure pct00420
는 HOA에서,
Figure pct00421
에 의해 표현된다.
평면파 진폭들의 대응하는 공간 밀도
Figure pct00422
는,
Figure pct00423
Figure pct00424
에 의해 주어진다.
이것은, 특성,
Figure pct00425
를 갖는
Figure pct00426
Figure pct00427
사이의 각도
Figure pct00428
에만 의존하는 것으로서 도시될 수 있는 일반적 평면파 함수
Figure pct00429
와 공간 확산 함수
Figure pct00430
와의 곱이라는 것을 수학식(51)로부터 알 수 있다.
예상한 바와 같이, 유한 차수의 한계에서, 즉,
Figure pct00431
, 공간 확산 함수는 디랙 델타(Dirac delta)
Figure pct00432
가 되고, 즉,
Figure pct00433
이다.
그러나, 유한 차수 N의 경우에, 방향
Figure pct00434
로부터의 일반적 평면파의 기여도는 인근 방향들로 번지게 되고, 여기서 번짐의 정도는 차수가 증가함에 따라 감소한다. N의 상이한 값들에 대한 정규화된 함수
Figure pct00435
의 플롯이 도 6에 제공된다.
임의의 방향
Figure pct00436
에 대해, 평면파 진폭의 공간 밀도의 시간 도메인 거동은 임의의 다른 방향에서의 그의 거동의 배수이다. 특히, 일부 고정된 방향들
Figure pct00437
Figure pct00438
에 대한 함수들
Figure pct00439
Figure pct00440
은 시간
Figure pct00441
와 관련하여 서로에 대해 높은 정도로 상관된다.
- 구체 조화 변환
단위 구체 상에서 거의 균일하게 분포되는 평면파 진폭들의 공간 밀도가
Figure pct00442
개의 공간 방향들
Figure pct00443
에서 이산되어 있다면,
Figure pct00444
개의 방향성 신호들
Figure pct00445
이 획득된다. 이러한 신호들을
Figure pct00446
와 같이, 벡터 내로 수집하면, 이 벡터는
Figure pct00447
과 같은 간단한 행렬 곱셈에 의해 수학식(44)에서 정의된 연속적인 앰비소닉 표현
Figure pct00448
로부터 계산될 수 있다는 것이 수학식(50)에 의해 검증될 수 있고, 여기서,
Figure pct00449
는 합동 위치변환 및 컨주게이션(conjugation)을 나타내고,
Figure pct00450
는,
Figure pct00451
에 의해 정의된 모드 행렬을 표기하며,
Figure pct00452
이다.
방향들
Figure pct00453
가 단위 구체 상에 거의 균일하게 분포되기 때문에, 모드 행렬은 일반적으로 가역적이다(invertible). 따라서, 연속하는 앰비소닉 표현은,
Figure pct00454
에 의해 방향성 신호들
Figure pct00455
로부터 계산될 수 있다.
양쪽 수학식 모두가 앰비소닉 표현과 '공간 도메인' 간의 변환 및 가역 변환이 된다. 이러한 변환들은 각각 구체 조화 변환 및 역 구체 조화 변환으로 표기된다. 방향들
Figure pct00456
가 단위 구체 상에서 거의 균일하게 분포되기 때문에,
Figure pct00457
의 근사가 존재하고, 이는 수학식(55)에서
Figure pct00458
대신에
Figure pct00459
의 사용을 정당화한다. 또한, 모든 언급된 관계들은 이산적 시간 도메인에 대해 유효하다.
본 발명의 프로세싱은 단일 프로세서 또는 전자 회로에 의해, 또는 병렬로 동작하는 및/또는 본 발명의 프로세싱의 상이한 부분들에 대해 동작하는 여러개의 프로세서들 또는 전자 회로들에 의해 수행될 수 있다.

Claims (11)

  1. HOA로 표기되는 음장의 고차 앰비소닉(Higher Order Ambisonics) 표현에서 상관되지 않은 음원들의 방향들
    Figure pct00460
    을 판정하기 위한 방법으로서,
    - HOA 계수들
    Figure pct00461
    의 현재 시간 프레임
    Figure pct00462
    에서, 주요 음원들의 예비 방향 추정값들
    Figure pct00463
    을 연속적으로 탐색하는 단계(11)와, 상기 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들
    Figure pct00464
    을 계산하는 단계(11)
    를 포함하고,
    상기 탐색하는 단계의 각각의 반복에서, 각각의 추가의 방향 추정값이, 이전에 발견된 음원들의 신호들과 상관되는 모든 컴포넌트들이 제거된 원래의 HOA 표현을 나타내는 나머지(residual) HOA 표현
    Figure pct00465
    으로부터 계산되고,
    현재의 방향 추정값은 다수의 미리정의된 테스트 방향들 중에서 선택되어, 선택된 방향으로부터 청취자 위치에 영향을 주는, 나머지 HOA 표현
    Figure pct00466
    의 관련된 일반적 평면파의 전력이 모든 다른 테스트 방향들의 전력과 비교하여 최대가 되도록 하는 방법.
  2. 제1항에 있어서,
    HOA 계수들
    Figure pct00467
    의 상기 현재 시간 프레임
    Figure pct00468
    에 대한 상기 선택된 방향 추정값들이 HOA 계수들
    Figure pct00469
    의 이전 시간 프레임
    Figure pct00470
    에서 발견된 주요 음원들에 할당되고(13), 최종 방향 추정값들이 결과적인 시간 궤적에 대해 스무딩되는(smoothed) 방법.
  3. 제2항에 있어서,
    상기 스무딩(smoothing)은 베이지안 추론 프로세스(Bayesian inference process)를 수행함으로써 수행되고, 이 베이지안 추론 프로세스는 통계적 선험적 음원 이동 모델 및 상기 원래의 HOA 표현의 주요 음원 컴포넌트들의 방향성 전력 분포를 활용하는 방법.
  4. 제3항에 있어서,
    상기 통계적 선험적 모델은 개별 음원들의 이동을, 상기 이전 시간 프레임
    Figure pct00471
    에서의 그들의 방향에 대한 지식과, 상기 이전 시간 프레임
    Figure pct00472
    과 두번째 이전 시간 프레임(penultimate time frame)
    Figure pct00473
    사이의 이동에 대한 지식으로부터 통계적으로 예측하는 방법.
  5. 제3항 또는 제4항에 있어서,
    HOA 계수들의 상기 이전 시간 프레임
    Figure pct00474
    에서 발견된 주요 음원들에 대한 상기 방향 추정값들의 할당은, 방향 추정값과 이전에 발견된 음원의 방향의 쌍들 사이의 각도들의 합동 최소화, 및 방향 추정값 및 HOA 계수들의 상기 이전 시간 프레임
    Figure pct00475
    에서 발견된 주요 음원과 관련된 방향성 신호들의 쌍들 사이의 상관 계수의 절대값의 최대화에 의해 달성되는 방법.
  6. HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들
    Figure pct00476
    을 판정하기 위한 방법으로서,
    - HOA 계수들
    Figure pct00477
    의 현재 시간 프레임
    Figure pct00478
    에서, 주요 음원들의 예비 방향 추정값들
    Figure pct00479
    을 연속적으로 탐색하는 단계(11)와, 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들
    Figure pct00480
    을 계산하는 단계(11)와, 대응하는 방향성 신호들
    Figure pct00481
    을 계산하는 단계(11);
    - 상기 현재 시간 프레임
    Figure pct00482
    의 상기 예비 방향 추정값들
    Figure pct00483
    과 이전 시간 프레임
    Figure pct00484
    에서 활성인 음원들의 스무딩된 방향들
    Figure pct00485
    을 비교함으로써 그리고 상기 현재 시간 프레임
    Figure pct00486
    의 상기 방향성 신호들
    Figure pct00487
    과 상기 이전 시간 프레임
    Figure pct00488
    에서 활성인 음원들의 방향성 신호들
    Figure pct00489
    을 상관시킴으로써, 상기 계산된 주요 음원들을 상기 HOA 계수들의 이전 시간 프레임
    Figure pct00490
    에서 활성인 대응하는 음원들에 할당하여, 할당 함수
    Figure pct00491
    를 야기하는 단계(13);
    - 상기 할당 함수
    Figure pct00492
    , 상기 이전 시간 프레임에서의 상기 스무딩된 방향들의 세트
    Figure pct00493
    , 상기 이전 시간 프레임
    Figure pct00494
    에서의 활성인 주요 음원들의 인덱스들의 세트
    Figure pct00495
    , 두번째 이전 시간 프레임
    Figure pct00496
    과 상기 이전 시간 프레임
    Figure pct00497
    사이의 각각의 소스 이동 각도들의 세트
    Figure pct00498
    , 및 상기 대응하는 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들
    Figure pct00499
    을 이용하여 스무딩된 주요 소스 방향들
    Figure pct00500
    을 계산하는 단계(14); 및
    - 상기 스무딩된 주요 소스 방향들
    Figure pct00501
    , 상기 이전 시간 프레임
    Figure pct00502
    의 활성인 주요 음원들의 방향들의 프레임 지연된(174) 버전
    Figure pct00503
    및 상기 이전 시간 프레임
    Figure pct00504
    의 활성인 주요 음원들의 인덱스들의 프레임 지연된(172) 버전
    Figure pct00505
    을 이용하여, 상기 현재 시간 프레임
    Figure pct00506
    의 활성인 주요 음원들의 인덱스들
    Figure pct00507
    및 방향들
    Figure pct00508
    을 판정하는 단계(15)
    를 포함하고,
    상기 이전 시간 프레임
    Figure pct00509
    에서 활성인 음원들의 상기 방향성 신호들
    Figure pct00510
    은, 상기 이전 시간 프레임
    Figure pct00511
    의 활성인 주요 음원들의 방향들
    Figure pct00512
    의 상기 프레임 지연된(174) 버전 및 상기 이전 시간 프레임의 HOA 계수들
    Figure pct00513
    로부터 모드 매칭을 이용하여 계산되고(12),
    상기 두번째 이전 시간 프레임
    Figure pct00514
    과 상기 이전 시간 프레임
    Figure pct00515
    사이의 상기 소스 이동 각도들의 세트
    Figure pct00516
    는, 상기 이전 시간 프레임
    Figure pct00517
    의 활성인 주요 음원들의 방향들의 상기 프레임 지연된(174) 버전
    Figure pct00518
    및 그의 추가 프레임 지연된(173) 버전
    Figure pct00519
    으로부터 계산되는 방법.
  7. HOA로 표기되는 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향들
    Figure pct00520
    을 판정하기 위한 장치로서,
    - HOA 계수들
    Figure pct00521
    의 현재 시간 프레임
    Figure pct00522
    에서, 주요 음원들의 예비 방향 추정값들
    Figure pct00523
    을 연속적으로 탐색하고, 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트들
    Figure pct00524
    을 계산하고, 대응하는 방향성 신호들
    Figure pct00525
    을 계산하도록 구성되는 수단(11);
    - 상기 현재 시간 프레임
    Figure pct00526
    의 상기 예비 방향 추정값들
    Figure pct00527
    과 상기 이전 시간 프레임
    Figure pct00528
    에서 활성인 음원들의 스무딩된 방향들
    Figure pct00529
    을 비교함으로써, 그리고 상기 현재 시간 프레임
    Figure pct00530
    의 상기 방향성 신호들
    Figure pct00531
    과 상기 이전 시간 프레임
    Figure pct00532
    에서 활성인 음원들의 방향성 신호들
    Figure pct00533
    을 상관시킴으로써, 상기 계산된 주요 음원들을 상기 HOA 계수들의 이전 시간 프레임
    Figure pct00534
    에서 활성인 대응하는 음원들에 할당하여, 할당 함수
    Figure pct00535
    를 야기하도록 구성되는 수단(13);
    - 상기 할당 함수
    Figure pct00536
    , 상기 이전 시간 프레임에서의 상기 스무딩된 방향들의 세트
    Figure pct00537
    , 상기 이전 시간 프레임
    Figure pct00538
    에서의 활성인 주요 음원들의 인덱스들의 세트
    Figure pct00539
    , 상기 두번째 이전 시간 프레임
    Figure pct00540
    과 상기 이전 시간 프레임
    Figure pct00541
    사이의 각각의 소스 이동 각도들의 세트
    Figure pct00542
    , 및 대응하는 주요 음원들에 의해 생성되는 상기 HOA 음장 컴포넌트들
    Figure pct00543
    을 이용하여 스무딩된 주요 소스 방향들
    Figure pct00544
    을 계산하도록 구성되는 수단(14); 및
    - 상기 스무딩된 주요 소스 방향들
    Figure pct00545
    , 상기 이전 시간 프레임
    Figure pct00546
    의 활성인 주요 음원들의 방향들의 프레임 지연된(174) 버전
    Figure pct00547
    및 상기 이전 시간 프레임
    Figure pct00548
    의 활성인 주요 음원들의 인덱스들의 프레임 지연된(172) 버전
    Figure pct00549
    을 이용하여, 상기 현재 시간 프레임
    Figure pct00550
    의 활성인 주요 음원들의 인덱스들
    Figure pct00551
    및 방향들
    Figure pct00552
    을 판정하도록 구성되는 수단
    을 포함하고,
    상기 이전 시간 프레임
    Figure pct00553
    에서 활성인 음원들의 상기 방향성 신호들
    Figure pct00554
    은, 상기 이전 시간 프레임
    Figure pct00555
    의 활성인 주요 음원들의 방향들의 상기 프레임 지연된(174) 버전
    Figure pct00556
    및 상기 이전 시간 프레임의 상기 HOA 계수들
    Figure pct00557
    로부터 모드 매칭을 이용하여 계산되고(12),
    상기 두번째 이전 시간 프레임
    Figure pct00558
    과 상기 이전 시간 프레임
    Figure pct00559
    사이의 상기 소스 이동 각도들의 세트
    Figure pct00560
    는, 상기 이전 시간 프레임
    Figure pct00561
    의 활성인 주요 음원들의 방향들의 상기 프레임 지연된(174) 버전
    Figure pct00562
    및 그의 추가 프레임 지연된(173) 버전
    Figure pct00563
    으로부터 계산되는 장치.
  8. 제6항 또는 제7항에 있어서,
    검출된 주요 방향성 신호들의 수
    Figure pct00564
    및 대응하는 예비 방향 추정값들
    Figure pct00565
    의 상기 판정에서, 대응하는 주요 음원들에 의해 생성되는 HOA 음장 컴포넌트
    Figure pct00566
    가 HOA 계수들
    Figure pct00567
    의 상기 현재 시간 프레임
    Figure pct00568
    로부터 감산되어, 대응하는 나머지 HOA 표현
    Figure pct00569
    을 획득하게 되고, 이러한 감산 프로세싱은, 추가적인 그러한 음장 컴포넌트들에 대해 각각의 경우에 남아있는 나머지 HOA 표현
    Figure pct00570
    에 기초하여 반복적으로 수행되어, 발견된 음장 컴포넌트들이 추가적인 방향 탐색에 대해서 배제되는, 제6항에 따른 방법 또는 제7항에 따른 장치.
  9. 제8항에 있어서,
    단일 방향 인덱스
    Figure pct00571
    에 대해, 남아있는 나머지 HOA 표현
    Figure pct00572
    의 방향성 전력 분포
    Figure pct00573
    가, 단위 구체 상에 거의 균일하게 분포되는 미리정의된 수의 이산적 테스트 방향들
    Figure pct00574
    에 대해 계산되고, 상기 방향성 전력 분포는 주요 음원의 존재에 대해 분석되고, 주요 음원의 부재가 검출되면, 방향 탐색은 중단되고, 주요 소스가 검출되면, 좌표 원점에 관한 그의 방향의 예비 추정값
    Figure pct00575
    이 계산되는 제8항에 따른 방법 또는 제8항에 따른 장치.
  10. 제8항 또는 제9항에 있어서,
    주요 소스 방향의 예비 추정값
    Figure pct00576
    를 판정한 후에, 동일한 음원에 의해 생성되는 것으로 가정되는 음장 컴포넌트들의 HOA 표현
    Figure pct00577
    및 각각의 방향성 신호
    Figure pct00578
    는,
    - 회전된 샘플링 위치들
    Figure pct00579
    의 그리드
    Figure pct00580
    를 제공하도록, 단위 구체 상에 균일하게 분포되도록 타겟팅되는 샘플링 위치들
    Figure pct00581
    로 이루어지는, 고정되고 미리정의된 구체 그리드
    Figure pct00582
    를 회전시키는 것(31) - 상기 회전은, 제1 회전된 샘플링 위치
    Figure pct00583
    가 상기 예비 방향 추정값
    Figure pct00584
    에 대응하도록 수행됨 - ;
    - 상기 남아있는 나머지 HOA 표현
    Figure pct00585
    을, 회전된 그리드 방향들로부터 좌표 원점에 영향을 주는 것으로 가정되는 대응하는 평면파 함수들
    Figure pct00586
    에 의해 동등하게 표현되는 공간 도메인으로 변환하는 것(32) 및 주요 음원 신호들 및 그리드 방향 신호들을 계산하는 것;
    - 주요 음원 신호들로부터 상기 그리드 방향 신호들의 예측을 수행하는 것(33); 및
    - 상기 남아있는 나머지 HOA 표현
    Figure pct00587
    에 의해 표현된 음장에 대한 주요 음원의 기여도를 나타내는, 예측된 그리드 방향성 신호들의 HOA 표현
    Figure pct00588
    을 역 구체 조화 변환(inverse Spherical Harmonics Transform)에 의해 계산하는 것(34)
    과 같이 계산되는, 제8항 또는 제9항에 따른 방법 또는 제8항 또는 제9항에 따른 장치.
  11. 제6항 내지 제10항 중 어느 한 항에 있어서,
    상기 스무딩된 주요 소스 방향들
    Figure pct00589
    의 계산(14)은,
    - 상기 할당 함수
    Figure pct00590
    , 상기 이전 시간 프레임에서의 상기 스무딩된 방향들의 세트
    Figure pct00591
    , 상기 이전 시간 프레임에서의 활성인 주요 음원들의 인덱스들의 세트
    Figure pct00592
    , 및 상기 소스 이동 각도들의 세트
    Figure pct00593
    를 이용하여, 주요 음원 방향들에 대한 방향성 선험적 확률 함수들
    Figure pct00594
    을 계산하는 것(42);
    - 상기 할당 함수
    Figure pct00595
    를 이용하여 그리고 주요 음원들에 의해 생성된 상기 HOA 음장 컴포넌트들
    Figure pct00596
    을 이용하여 주요 음원 방향들에 대한 방향성 우도 함수(directional likelihood function)들
    Figure pct00597
    을 계산하는 것(41);
    - 상기 방향성 우도 함수들
    Figure pct00598
    을 이용하여 그리고 상기 방향성 선험적 확률 함수들
    Figure pct00599
    을 이용하여 주요 음원 방향들에 대한 방향성 후험적 확률 함수들
    Figure pct00600
    을 계산하는 것(43); 및
    - 주요 음원 방향들에 대한 상기 방향성 후험적 확률 함수들
    Figure pct00601
    을 이용하여 스무딩된 주요 음원 방향들
    Figure pct00602
    을 계산하는 것(44)
    과 같이 수행되는 제6항 및 제8항 내지 제10항 중 어느 한 항에 따른 방법, 또는 제7항 내지 제10항 중 어느 한 항에 따른 장치.
KR1020157021230A 2013-02-08 2014-02-07 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치 KR102220187B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20130305156 EP2765791A1 (en) 2013-02-08 2013-02-08 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
EP13305156.5 2013-02-08
PCT/EP2014/052479 WO2014122287A1 (en) 2013-02-08 2014-02-07 Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field

Publications (2)

Publication Number Publication Date
KR20150115779A true KR20150115779A (ko) 2015-10-14
KR102220187B1 KR102220187B1 (ko) 2021-02-25

Family

ID=47780000

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157021230A KR102220187B1 (ko) 2013-02-08 2014-02-07 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치

Country Status (7)

Country Link
US (1) US9622008B2 (ko)
EP (2) EP2765791A1 (ko)
JP (1) JP6374882B2 (ko)
KR (1) KR102220187B1 (ko)
CN (1) CN104995926B (ko)
TW (1) TWI647961B (ko)
WO (1) WO2014122287A1 (ko)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2800401A1 (en) 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US10448188B2 (en) 2015-09-30 2019-10-15 Dolby Laboratories Licensing Corporation Method and apparatus for generating 3D audio content from two-channel stereo content
CN105516875B (zh) * 2015-12-02 2020-03-06 上海航空电器有限公司 用于快速测量虚拟声音产生设备空间角度分辨率的装置
GR1008860B (el) * 2015-12-29 2016-09-27 Κωνσταντινος Δημητριου Σπυροπουλος Συστημα διαχωρισμου ομιλητων απο οπτικοακουστικα δεδομενα
US10089063B2 (en) 2016-08-10 2018-10-02 Qualcomm Incorporated Multimedia device for processing spatialized audio based on movement
JP6723120B2 (ja) * 2016-09-05 2020-07-15 本田技研工業株式会社 音響処理装置および音響処理方法
CN107147975B (zh) * 2017-04-26 2019-05-14 北京大学 一种面向不规则扬声器摆放的Ambisonics匹配投影解码方法
US10893373B2 (en) 2017-05-09 2021-01-12 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
US10405126B2 (en) * 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
FR3074584A1 (fr) * 2017-12-05 2019-06-07 Orange Traitement de donnees d'une sequence video pour un zoom sur un locuteur detecte dans la sequence
CN110751956B (zh) * 2019-09-17 2022-04-26 北京时代拓灵科技有限公司 一种沉浸式音频渲染方法及系统
CN111933182B (zh) * 2020-08-07 2024-04-19 抖音视界有限公司 声源跟踪方法、装置、设备和存储介质
CN112019971B (zh) * 2020-08-21 2022-03-22 安声(重庆)电子科技有限公司 声场构建方法、装置、电子设备及计算机可读存储介质
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011117399A1 (en) * 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
KR20120070521A (ko) * 2010-12-21 2012-06-29 톰슨 라이센싱 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9915398D0 (en) 1999-07-02 1999-09-01 Baker Matthew J Magnetic particles
FR2801108B1 (fr) 1999-11-16 2002-03-01 Maxmat S A Analyseur chimique ou biochimique a regulation de la temperature reactionnelle
FR2839565B1 (fr) 2002-05-07 2004-11-19 Remy Henri Denis Bruno Procede et systeme de representation d'un champ acoustique
FR2858403B1 (fr) 2003-07-31 2005-11-18 Remy Henri Denis Bruno Systeme et procede de determination d'une representation d'un champ acoustique
US8848481B2 (en) 2008-07-08 2014-09-30 Bruel & Kjaer Sound & Vibration Measurement A/S Reconstructing an acoustic field
EP2285139B1 (en) * 2009-06-25 2018-08-08 Harpex Ltd. Device and method for converting spatial audio signal
EP2486561B1 (en) * 2009-10-07 2016-03-30 The University Of Sydney Reconstruction of a recorded sound field
WO2012025580A1 (en) * 2010-08-27 2012-03-01 Sonicemotion Ag Method and device for enhanced sound field reproduction of spatially encoded audio input signals
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2541547A1 (en) * 2011-06-30 2013-01-02 Thomson Licensing Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation
EP2665208A1 (en) 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
EP2738962A1 (en) 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
US9913064B2 (en) * 2013-02-07 2018-03-06 Qualcomm Incorporated Mapping virtual speakers to physical speakers

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011117399A1 (en) * 2010-03-26 2011-09-29 Thomson Licensing Method and device for decoding an audio soundfield representation for audio playback
KR20120070521A (ko) * 2010-12-21 2012-06-29 톰슨 라이센싱 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Andrew Wabnitz, et al. TIME DOMAIN RECONSTRUCTION OF SPATIAL SOUND FIELDS USING COMPRESSED SENSING. IEEE International Conference on Acoustics, Speech and Signal Processing. 2011.05.22. *

Also Published As

Publication number Publication date
US20150373471A1 (en) 2015-12-24
KR102220187B1 (ko) 2021-02-25
CN104995926A (zh) 2015-10-21
WO2014122287A1 (en) 2014-08-14
JP6374882B2 (ja) 2018-08-15
JP2016509812A (ja) 2016-03-31
US9622008B2 (en) 2017-04-11
EP2765791A1 (en) 2014-08-13
CN104995926B (zh) 2017-12-26
TW201448616A (zh) 2014-12-16
EP2954700B1 (en) 2018-03-07
EP2954700A1 (en) 2015-12-16
TWI647961B (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
KR102220187B1 (ko) 음장의 고차 앰비소닉 표현에서 상관되지 않은 음원들의 방향을 판정하는 방법 및 장치
US9689959B2 (en) Method, apparatus and computer program product for determining the location of a plurality of speech sources
RU2744489C2 (ru) Способ и устройство для сжатия и восстановления представления системы амбисоник высшего порядка для звукового поля
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
RU2511672C2 (ru) Оценка местоположения источника звука с использованием фильтрования частиц
JP2021533423A (ja) オーディオ認識方法、ターゲットオーディオを位置決める方法、それらの装置、およびデバイスとコンピュータプログラム
CN113113034A (zh) 用于平面麦克风阵列的多源跟踪和语音活动检测
JP6939786B2 (ja) 音場形成装置および方法、並びにプログラム
WO2014082883A1 (en) Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
CN112799017B (zh) 声源定位方法、装置、存储介质及电子设备
WO2016119388A1 (zh) 一种基于语音信号构造聚焦协方差矩阵的方法及装置
US11172320B1 (en) Spatial impulse response synthesis
Luo et al. Implicit filter-and-sum network for multi-channel speech separation
WO2014047025A1 (en) Source separation using a circular model
Pertilä Online blind speech separation using multiple acoustic speaker tracking and time–frequency masking
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Krause et al. Data diversity for improving DNN-based localization of concurrent sound events
Marelli et al. Efficient approximation of head-related transfer functions in subbands for accurate sound localization
Dehghan Firoozabadi et al. A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers
Toma et al. Efficient Detection and Localization of Acoustic Sources with a low complexity CNN network and the Diagonal Unloading Beamforming
Manocha et al. Nord: Non-matching reference based relative depth estimation from binaural speech
Johnson et al. Latent gaussian activity propagation: using smoothness and structure to separate and localize sounds in large noisy environments
Mosayyebpour et al. Time delay estimation via minimum-phase and all-pass component processing
Llerena et al. Synchronizing Speech Mixtures in Speech Separation Problems under Reverberant Conditions
KR20240097694A (ko) 임펄스 응답 결정 방법 및 상기 방법을 수행하는 전자 장치

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right