KR20220038478A - 공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램 - Google Patents

공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220038478A
KR20220038478A KR1020227006476A KR20227006476A KR20220038478A KR 20220038478 A KR20220038478 A KR 20220038478A KR 1020227006476 A KR1020227006476 A KR 1020227006476A KR 20227006476 A KR20227006476 A KR 20227006476A KR 20220038478 A KR20220038478 A KR 20220038478A
Authority
KR
South Korea
Prior art keywords
sound field
virtual
orientation
rule
listening
Prior art date
Application number
KR1020227006476A
Other languages
English (en)
Inventor
올리버 티에르가르트
알렉산더 니에데르레이트너즈
엠마누엘 하베츠
모리츠 빌드
악셀 프린제
아흐임 쿤츠
알렉산드레 보우더온
더크 마흐네
파비앙 퀴치
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20220038478A publication Critical patent/KR20220038478A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/13Application of wave-field synthesis in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)

Abstract

음장 표현(sound field representation)에 대한 규정된 레퍼런스 포인트 또는 규정된 청취 배향에 관련된 상기 음장 표현을 처리하기 위한 장치로서, 처리된 음장 디스크립션(sound field description)이 획득되도록, 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차 또는 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 사용하여 상기 음장 표현을 처리하거나 - 처리된 음장 디스크립션은 렌더링될 때, 상기 규정된 레퍼런스 포인트와 상이한 타겟 청취 위치에서 또는 규정된 청취 배향과 상이한 타겟 청취 배향에 대하여 상기 음장 표현의 인상(impression)을 제공함 -, 처리된 음장 디스크립션이 획득되도록, 공간 필터를 사용하여 상기 음장 표현을 처리하기 위한 - 상기 처리된 음장 디스크립션은 렌더링될 때, 공간적으로 필터링된 음장 디스크립션의 인상을 제공함 - 음장 프로세서를 포함하고, 상기 음장 프로세서(1000)는, 상기 편차 또는 상기 공간 필터(1030)가 연관된 순방향 변환 규칙(1021) 및 역방향 변환 규칙(1051)을 가지는 공간 변환 도메인에 적용되게끔, 상기 음장 표현을 처리하도록 구성되는, 음장 표현 처리 장치.

Description

공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램
본 발명은 공간 사운드 녹음 및 재생의 분야에 관한 것이다.
일반적으로, 공간 사운드 녹음은 재생 측에서 청취자가 사운드 이미지가 녹음 위치에 있는 것처럼 사운드 이미지를 지각하도록, 다수의 마이크로폰을 가지고 음장(sound field)을 캡쳐하는 것을 목적으로 한다. 구상된 케이스에서, 공간 사운드는 녹음 측에서는 하나의 물리적 위치(레퍼런스 위치라고 불림)에서 캡쳐되는 반면에, 재생 측에서는 공간 사운드가 원본 레퍼런스 위치에 상대적인 임의의 상이한 관점으로부터 렌더링될 수 있다. 상이한 관점은 상이한 청취 위치(가상 청취 위치라고 불림) 및 청취 배향(가상 청취 배향이라고 불림)을 포함한다.
공간 사운드를 원본 녹음 위치에 대해서 임의의 상이한 관점으로부터 렌더링하면 상이한 애플리케이션들이 가능해진다. 예를 들어, 6-자유도(6DoF) 렌더링에서는, 재생 측에 있는 청취자는 가상 공간 내에서 자유롭게 이동하고(보통, 헤드-마운트 디스플레이 및 헤드폰을 착용함) 오디오/비디오 장면을 상이한 관점으로부터 지각할 수 있다. 예를 들어
Figure pct00001
비디오가 공간 사운드와 함께 특정한 위치에서 녹화되었던 3-자유도(3DoF) 애플리케이션에서는, 비디오 이미지가 재생하는 측에서 회전될 수 있고 비디오의 투영이 조절될 수 있다(예를 들어, (예를 들어, 입체(stereographic) 투영 [WolframProj1] 으로부터 "소행성(little planet)" 투영이라고 불리는 그노몬(Gnomonic) 투영 [WolframProj2]으로). 명백하게, 3DoF 또는 6DoF 애플리케이션에서 비디오 관점을 변경할 때에, 재생된 공간 오디오 관점은 이에 따라서 조절되어 일관적인 오디오/비디오 재생이 가능하게 해야 한다.
상이한 관점으로부터의 공간 사운드 녹음 및 재생을 가능하게 하는 상이한 최신식 접근법들이 존재한다. 한 가지 방식은 공간 사운드를 가능한 모든 청취 위치에서 물리적으로 녹음하고, 재생하는 측에서는 가상 청취 위치에 가장 가까운 공간 사운드 재생을 위해서 녹음을 사용하는 것일 것이다. 그러나, 이러한 녹음 접근법은 매우 힘들고 불가능하게 높은 측정 노력을 요구할 것이다. 공간 사운드 재생을 임의의 관점으로부터 여전히 획득하면서 요구되는 물리적 측정 위치를 줄이기 위해서, 비선형 파라메트릭 공간 사운드 녹음 및 재생 기법이 사용될 수 있다. 하나의 예는 [VirtualMic]에서 제안되는 가상 마이크로폰 처리에 기반한 지향성 오디오 코딩(DirAC)이다. 여기에서, 공간 사운드는 작은 개수(3-4 개)의 물리적 위치에만 위치된 마이크로폰 어레이를 가지고 녹음된다. 그 이후에, 도달-방향 및 사운드의 확산과 같은 음장 파라미터가 각각의 마이크로폰 어레이 위치에서 추정될 수 있고, 이제 이러한 정보가 임의의 공간 위치에서의 공간 사운드를 합성하기 위하여 사용될 수 있다. 이러한 접근법이 크게 감소된 측정 위치의 개수와 함께 높은 유연성을 제공하지만, 여전히 여러 측정 위치를 요구한다. 더욱이, 파라메트릭 신호 처리 및 가정된 파라메트릭 신호 모델의 위반은 고품질 사운드 재생 애플리케이션에서 특히 불편하게 들릴 수 있는 처리 아티팩트를 도입할 수 있다.
본 발명의 목적은 음장 표현에 대한 규정된 레퍼런스 포인트 또는 규정된 청취 배향에 관련된 음장 표현을 처리하는 개선된 개념을 제공하는 것이다.
이러한 목적은 제 1 항의 음장 표현을 처리하기 위한 장치, 제 31 항의 음장 표현의 처리 방법, 및 제 32 항의 컴퓨터 프로그램에 의해서 달성된다.
음장 표현을 처리하기 위한 장치 또는 방법에서, 음장 처리는, 처리된 음장 디스크립션(sound field description)이 획득되도록 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차 또는 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 사용하여 일어나는데, 여기에서 처리된 음장 디스크립션은 렌더링될 때, 규정된 레퍼런스 포인트와 상이한 타겟 청취 위치에서 음장 표현의 인상을 제공한다. 대안적으로 또는 추가적으로, 음장 처리는, 처리된 음장 디스크립션이 렌더링될 때, 규정된 청취 배향과 상이한 타겟 청취 배향에 대해서 음장 표현의 인상을 제공하게 하는 방식으로 수행된다. 대안적으로 또는 추가적으로, 음장 처리는 공간 필터를 사용하여 일어나는데, 여기에서 처리된 음장 디스크립션이 획득되고, 처리된 음장 디스크립션은 렌더링될 때, 공간적으로 필터링된 음장 디스크립션의 인상을 제공한다. 특히, 음장 처리는 공간 변환 도메인과 관련하여 수행된다. 특히, 음장 표현은 오디오 신호 도메인에서 복수 개의 오디오 신호를 포함하는데, 이러한 오디오 신호는 라우드스피커 신호, 마이크로폰 신호, 앰비소닉스(Ambisonics) 신호 또는 오디오 객체 신호 또는 오디오 객체 코딩된 신호와 같은 그 외의 멀티-오디오 신호 표현일 수 있다. 음장 프로세서는, 규정된 레퍼런스 포인트 또는 규정된 청취 배향과 타겟 청취 위치 또는 타겟 청취 배향 사이의 편차가 연관된 순방향 변환 규칙 및 역방향 변환 규칙을 가지는 공간 변환 도메인 내에 적용되도록 음장 표현을 처리하도록 구성된다. 더욱이, 음장 프로세서는 처리된 음장 디스크립션을 다시 오디오 신호 도메인에서 생성하도록 구성되는데, 여기에서 오디오 신호 도메인은 다시 한 번 시간 도메인 또는 시간/주파수 도메인이고, 처리된 음장 디스크립션은 상황에 따라서 앰비소닉스 신호, 라우드스피커 신호, 양이 신호(binaural signal) 및/또는 오디오 객체 신호 또는 인코딩된 오디오 객체 신호를 포함할 수 있다.
구현형태에 의존하여, 음장 프로세서에 의해 수행되는 처리는 공간 변환 도메인으로의 순방향 변환을 포함할 수 있고, 공간 변환 도메인 내의 신호, 즉, 가상 위치에 있는 가상 스피커에 대한 가상 오디오 신호가 실제로 계산되며, 애플리케이션에 의존하여, 변환 도메인에서 공간 필터를 사용하여 공간적으로 필터링되거나, 임의의 선택적인 공간 필터링이 없이 역방향 변환 규칙을 사용하여 오디오 신호 도메인으로 다시 변환된다. 따라서, 이러한 구현형태에서, 가상 스피커 신호는 순방향 변환 처리의 출력으로서 실제로 계산되고, 처리된 음장 표현을 나타내는 오디오 신호는 역방향 변환 규칙을 사용하여 역방향 공간 변환의 출력으로서 실제로 계산된다.
그러나, 다른 구현형태에서는 가상 스피커 신호가 실제로 계산되지 않는다. 그 대신에, 순방향 변환 규칙, 선택적인 공간 필터 및 역방향 변환 규칙만이 계산되고 조합되어 변환 규정이 획득되고, 이러한 변환 규정이 바람직하게는 매트릭스의 형태로 입력 음장 표현에 적용되어 처리된 음장 표현, 즉, 오디오 신호 도메인 내의 개별적인 오디오 신호가 획득된다. 그러므로, 순방향 변환 규칙, 선택적인 공간 필터 및 역방향 변환 규칙을 사용하는 이러한 처리는 가상 스피커 신호가 실제로 계산된 것처럼 동일한 처리된 음장 표현을 초래한다. 그러나, 변환 규정을 이렇게 사용할 때에, 가상 스피커 신호는 실제로 계산되지 않았고, 개별적인 규칙들을 조합함으로써 생성된 매트릭스와 같은 개별적인 변환/필터링 규칙의 조합만이 계산되고, 오디오 신호 도메인에서 오디오 신호에 적용된다.
더욱이, 다른 실시형태는 상이한 타겟 청취 위치 및/또는 타겟 배향에 대한, 예를 들어 위치 및 배향의 이산 그리드에 대한 사전에 계산된 변환 규정을 가지는 메모리를 사용하는 것에 관련된다. 실제 타겟 위치 또는 타겟 배향에 의존하여, 최선으로 매칭되는 사전-계산되고 저장된 변환 규정이 메모리 내에서 식별되고, 메모리로부터 취출되며 오디오 신호 도메인에서 오디오 신호에 적용되어야 한다.
이러한 사전-계산된 규칙을 사용하는 것 또는 변환 규정을 사용하는 것은 이것이 전체 변환 규정이거나 부분 변환 규정에 지나지 않더라도 유용한데, 그 이유는 순방향 공간 변환 규칙, 공간 필터링 및 역방향 공간 변환 규칙이 모두 선형 연산이고 서로 조합되고, 가상 스피커 신호의 명시적 계산이 없이 "싱글-샷(single-shot)" 연산으로 적용될 수 있기 때문이다.
구현형태에 의존하여, 일면으로는 순방향 변환 규칙 및 공간 필터링을 조합하여 획득되거나 공간 필터링 및 역방향 변환 규칙을 조합함으로써 획득되는 부분 변환 규정이, 순방향 변환 또는 역방향 변환 중 어느 하나만이 가상 스피커 신호를 사용하여 명시적으로 계산되도록 적용될 수 있다. 따라서, 공간 필터링은 순방향 변환 규칙 또는 역방향 변환 규칙과 조합될 수 있고, 따라서 처리 연산이 경우에 따라서 절약될 수 있다.
실시형태들은 상이한 관점으로부터의 일관적인 공간 사운드 재생을 위해서 가상 라우드스피커 도메인에 관련되어 사운드 장면 수정이 획득된다는 점에서 유리하다.
바람직한 실시형태는, 재생하는 측에서 임의로 오디오 관점을 변경하도록 여전히 허용하면서, 공간 사운드가 단일 레퍼런스 위치에 대해서 녹음되거나 표현되는 실용적인 방법을 설명한다. 오디오 관점의 변화는 예를 들어 회전 또는 전환일 수 있지만, 공간 필터링을 포함하는 청각적 줌(acoustical zoom)에도 영향을 준다. 녹음하는 측에서 공간 사운드는, 예를 들어 마이크로폰 어레이를 사용하여 녹음될 수 있는데, 어레이 위치는 레퍼런스 위치를 나타낸다(이것은 마이크로폰 어레이가 다소 상이한 위치에 위치된 여러 마이크로폰을 포함할 수 있는 경우에도 단일 녹음 위치라고 불리는 반면에 마이크로폰 어레이의 범위는 녹음하는 측의 크기에 비해서 무시될 수 있음). 녹음 위치에서의 공간 사운드는 (더 높은 차수의) 앰비소닉스 신호의 측면에서 표현될 수 있다. 더욱이, 실시형태는 입력으로서 라우드스피커 신호를 사용하도록 일반화될 수 있는데, 라우드스피커 셋업의 스위트 스폿(sweet spot)은 단일 레퍼런스 위치를 나타낸다. 레퍼런스 위치에 상대적인 녹음된 공간 오디오의 관점을 변경하기 위해서, 녹음된 공간 사운드가 가상 라우드스피커 도메인으로 변환된다. 레퍼런스 위치에 상대적인 가상 청취 위치 및 배향에 의존하여 가상 라우드스피커의 위치를 변경하고 가상 라우드스피커 신호를 필터링함으로써, 공간 사운드의 관점이 소망되는 바에 따라서 조절될 수 있다. 최신식 파라메트릭 신호 처리 [VirtualMic]와 반대로, 제공된 접근법은 비선형 처리 아티팩트를 회피하는 완전 선형이다. [AmbiTrans]의 저자는 공간 사운드 장면이 가상 라우드스피커 도메인에서 수정되어, 예를 들어 회전, 워프(warping), 및 지향성 라우드니스 수정을 제공하는 관련된 접근법을 기술한다. 그러나, 이러한 접근법은 레퍼런스 위치에 상대적인 임의의 가상 청취 위치에서 일관적인 오디오 렌더링을 획득하기 위해서 공간 사운드 장면이 어떻게 수정될 수 있는지는 기술하지 않고 있다. 더욱이, [AmbiTrans]에서의 접근법은 앰비소닉스 입력을 위한 처리만을 기술하는 반면에, 실시형태들은 앰비소닉스 입력, 마이크로폰 입력, 및 라우드스피커 입력에 관련된다.
추가적인 구현형태는, 구형 비디오(spherical video)와 같은 대응하는 비디오 이미지를 흉내내기 위해서 오디오 관점의 공간 변환이 수행되고 선택적으로 대응하는 공간 필터링이 수행되는 처리에 관한 것이다. 일 실시형태에서, 처리의 입력 및 출력은 일차 앰비소닉스(first-order Ambisonics; FOA) 또는 더 높은 차수의 앰비소닉스(higher-order Ambisonics; HOA) 신호이다. 진술된 바와 같이, 전체 처리는 단일 매트릭스 승산으로서 구현될 수 있다.
본 출원의 바람직한 실시형태들이 첨부 도면들에 대하여 후속하여 논의된다:
도 1은 음장 프로세서의 개괄적인 블록도를 예시한다;
도 2는 상이한 차수 및 모드에 대한 구형 고조파들의 시각화를 예시한다;
도 3은 가상 라우드스피커 신호를 획득하기 위한 하나의 예시적인 빔 포머를 예시한다;
도 4는 가상 라우드스피커 신호를 필터링하기 위하여 사용되는 하나의 예시적인 공간 윈도우를 보여준다;
도 5는 하나의 예시적인 레퍼런스 위치 및 청취 위치를 고려된 좌표계에서 보여준다;
도 6은 일관적인 오디오 또는 비디오 렌더링을 위한 360° 비디오 이미지의 표준 투영 및 대응하는 오디오 청취 위치를 예시한다;
도 7a는 일관적인 오디오/비디오 렌더링을 위한 360° 비디오 이미지의 수정된 투영 및 대응하는 수정된 오디오 청취 위치를 보여준다;
도 7b는 표준 투영 케이스에서의 비디오 투영을 예시한다;
도 7c는 소행성 투영 케이스에서의 비디오 투영을 예시한다;
도 8은 일 실시형태에서의 음장 표현을 처리하기 위한 장치의 일 실시형태를 예시한다;
도 9a는 음장 프로세서의 일 구현형태를 예시한다;
도 9b는 위치 수정 및 역방향 변환 규정 계산의 일 구현형태를 예시한다;
도 10a는 전체 변환 규정을 사용한 구현형태를 예시한다;
도 10b는 부분 변환 규정을 사용하는 음장 프로세서의 일 구현형태를 예시한다;
도 10c는 추가적인 부분 변환 규정을 사용하는 음장 프로세서의 다른 구현형태를 예시한다;
도 10d는 가상 스피커 신호의 명시적 계산을 사용하는 음장 프로세서의 일 구현형태를 예시한다;
도 11a는 사전-계산된 변환 규정 또는 규칙을 가지는 메모리를 사용하는 일 실시형태를 예시한다;
도 11b는 프로세서 및 변환 규정 계산기를 사용하는 일 실시형태를 예시한다;
도 12a는 앰비소닉스 입력에 대한 공간 변환의 일 실시형태를 예시한다;
도 12b는 라우드스피커 채널에 대한 공간 변환의 일 구현형태를 예시한다;
도 12c는 마이크로폰 신호에 대한 공간 변환의 일 구현형태를 예시한다;
도 12d는 오디오 객체 신호 입력에 대한 공간 변환의 일 구현형태를 예시한다;
도 13a는 앰비소닉스 출력을 획득하기 위한 공간 (역)변환의 일 구현형태를 예시한다;
도 13b는 라우드스피커 출력 신호를 획득하기 위한 공간 (역)변환의 일 구현형태를 예시한다;
도 13c는 양이 출력을 획득하기 위한 공간 (역)변환의 일 구현형태를 예시한다;
도 13d는 도 13c에 대한 대체예에서 양이 출력을 획득하기 위한 공간 (역)변환의 일 구현형태를 예시한다;
도 14는 가상 라우드스피커 신호의 명시적 계산을 가지는, 음장 표현을 처리하기 위한 방법 또는 장치에 대한 흐름도를 예시한다; 그리고
도 15는 가상 라우드스피커 신호의 명시적 계산을 없는, 음장 표현을 처리하기 위한 방법 또는 장치의 일 실시형태에 대한 흐름도를 예시한다.
도 8은 음장 표현에 대한 규정된 레퍼런스 포인트 또는 규정된 청취 배향에 관련된 음장 표현을 처리하기 장치를 예시한다. 음장 표현은 입력 인터페이스(900)를 통해서 획득되고, 입력 인터페이스(900)의 출력에서, 규정된 레퍼런스 포인트 또는 규정된 청취 배향에 관련된 음장 표현(1001)이 이용가능하다. 더 나아가, 이러한 음장 표현은 공간 변환 도메인과 관련하여 동작하는 음장 프로세서(1000)에 입력된다. 다르게 말하면, 음장 프로세서(1000)는 편차 또는 공간 필터(1030)가 연관된 순방향 변환 규칙(1021) 및 역방향 변환 규칙(1051)을 가지는 공간 변환 도메인에 적용되도록 음장 표현을 처리하도록 구성된다.
특히, 음장 프로세서는 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차의 편차를 사용하거나 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 사용하여 음장 표현을 처리하기 위해서 구성된다. 편차는 검출기(1100)에 의해 획득된다. 대안적으로 또는 추가적으로, 검출기(1100)는 타겟 청취 위치 또는 타겟 청취 배향을 편차를 실제로 계산하지 않고서 검출하도록 구현된다. 타겟 청취 위치 및/또는 타겟 청취 배향, 또는 대안적으로, 규정된 레퍼런스 포인트 및 타겟 청취 위치 사이의 편차 또는 규정된 청취 배향 및 타겟 청취 배향 사이의 편차가 음장 프로세서(1000)로 전달된다. 음장 프로세서는 처리된 음장 디스크립션이 얻어지도록 편차를 사용하여 음장 표현을 처리하는데, 여기에서 처리된 음장 디스크립션은 렌더링될 때, 규정된 레퍼런스 포인트와 상이한 타겟 청취 위치에서 또는 규정된 청취 배향과 상이한 타겟 청취 배향에 대한 음장 표현의 인상을 제공한다. 대안적으로 또는 추가적으로, 음장 프로세서는 음장 표현을 공간 필터를 사용하여 처리함으로써, 처리된 음장 디스크립션이 획득되게 하도록 구성되는데, 여기에서 처리된 음장 디스크립션은 렌더링될 때, 공간적으로 필터링된 음장 디스크립션, 즉 공간 필터에 의해서 필터링된 음장 디스크립션의 인상을 제공한다.
그러므로, 공간 필터링이 수행되는지 여부와 무관하게, 음장 프로세서(1000)는 편차 또는 공간 필터(1030)가 연관된 순방향 변환 규칙(1021) 및 역방향 변환 규칙(1051)을 가지는 공간 변환 도메인에 적용되도록 음장 표현을 처리하도록 구성된다. 순방향 및 역방향 변환 규칙은 가상 위치에 있는 가상 스피커들의 세트를 사용하여 유도되지만, 가상 스피커에 대한 신호를 명시적으로 계산할 필요가 없다.
바람직하게는, 음장 표현은 두 개의 또는 세 개 이상인 여러 음장 성분을 포함한다. 더욱이, 그리고 바람직하게는, 검출기(1100)가 처리하기 위한 장치의 명시적인 피쳐로서 제공된다. 그러나, 다른 실시형태에서 음장 프로세서(1000)는 타겟 청취 위치 또는 타겟 청취 배향 또는 대응하는 편차에 대한 입력을 가진다. 더욱이, 음장 프로세서(1000)는, 출력 인터페이스(1200)로 전달된 후에 처리된 음장 디스크립션(1201)의 송신 또는 저장을 위하여 출력될 수 있는 처리된 음장 디스크립션(1201)을 출력한다. 송신의 하나의 종류는, 예를 들어 양이 출력과 관련된, (실제) 라우드스피커를 통한 또는 헤드폰을 통한 처리된 음장 디스크립션의 실제 렌더링이다. 대안적으로, 예를 들어 앰비소닉스 출력의 경우에서와 같이, 처리된 음장 디스크립션(1201)은 출력 인터페이스(1200)에 의해서 출력되고 앰비소닉스 사운드 프로세서로 전달/입력될 수 있다.
도 9a는 음장 프로세서(1000)의 바람직한 구현형태를 예시한다. 특히, 음장 표현은 오디오 신호 도메인에 있는 복수 개의 오디오 신호를 포함한다. 따라서, 음장 프로세서(1001)로 들어가는 입력은 복수 개의 오디오 신호 및, 바람직하게는 앰비소닉스 신호, 라우드스피커 채널, 오디오 객체 데이터 또는 마이크로폰 신호와 같은 적어도 두 개 또는 세 개의 상이한 오디오 신호를 포함한다. 오디오 신호 도메인은 바람직하게는 시간 도메인 또는 시간/주파수 도메인이다.
더욱이, 음장 프로세서(1000)는, 편차 또는 공간 필터가, 연관된 순방향 변환 블록(1020)에 의해 획득된 순방향 변환 규칙(1021)을 가지고, 역방향 변환 블록(1050)에 의해 획득된 연관된 역방향 변환 규칙(1051)을 가지는 공간 변환 도메인 내에 적용되게끔 음장 표현을 처리하도록 구성된다. 더욱이, 음장 프로세서(1000)는 처리된 음장 디스크립션을 오디오 신호 도메인에서 생성하도록 구성된다. 따라서, 바람직하게는, 블록(1050)의 출력, 즉, 라인(1201) 상의 신호는 순방향 변환 블록(1020)으로 들어가는 입력(1001)과 동일한 도메인에 있다.
가상 스피커 신호의 명시적 계산이 수행되는지 여부에 의존하여, 순방향 변환 블록(1020)은 순방향 변환을 실제로 수행하고 역방향 변환 블록(1050)은 역방향 변환을 실제로 변환한다. 가상 스피커 신호의 명시적 계산이 없이 변환 도메인과 관련된 처리만이 수행되는 다른 구현형태에서는, 음장 처리의 목적을 위해서 순방향 변환 블록(1020)이 순방향 변환 규칙(1021)을 출력하고 역방향 변환 블록(1050)이 역방향 변환 규칙(1051)을 출력한다. 더욱이, 공간 필터 구현형태의 경우, 공간 필터는 공간 필터 블록(1030)으로서 적용되거나 공간 필터는 공간 필터 규칙(1031)을 적용함으로써 반영된다. 양자 모두의 구현형태, 즉, 명시적 가상 스피커 신호의 명시적 계산의 유무에 따른 구현형태들은 서로 균등한데, 그 이유는 음장 처리의 출력, 즉, 신호(1201)가 렌더링될 때, 규정된 레퍼런스 포인트와 상이한 타겟 청취 위치에서 또는 규정된 청취 배향과 상이한 타겟 청취 배향에 대해서 음장 표현의 인상을 제공하기 때문이다. 이러한 목적을 위해서, 공간 필터(1030) 및 역방향 변환 블록(1050)은 타겟 위치 또는/및 타겟 배향을 수신하는 것이 바람직하다.
도 9b는 위치 수정 연산의 바람직한 구현형태를 예시한다. 이러한 목적을 위해서, 가상 스피커 위치 결정기(1040a)가 제공된다. 블록(1040a)은 입력으로서, 통상적으로는 규정된 레퍼런스 포인트 주위에서 구 상에 동등하게 분포되는 가상 스피커 위치에 있는 여러 가상 스피커의 규정을 수신한다. 바람직하게는, 250 개의 가상 스피커가 가정된다. 일반적으로, 유용한 고품질 음장 처리 동작을 제공하기 위해서는 50 개 이상의 가상 스피커 또는 및/또는 500 개 이하의 가상 스피커가 있으면 충분하다.
주어진 가상 스피커에 의존하여 그리고 레퍼런스 위치 및/또는 레퍼런스 배향에 의존하여, 블록(1040a)은 레퍼런스 위치 또는/및 레퍼런스 배향과 관련된 각각의 가상 스피커에 대한 방위각/상하각을 생성한다. 이러한 정보는 순방향 변환 블록(1020)에 입력되어 블록(1040a)으로 들어가는 입력에서 규정된 가상 스피커에 대한 가상 스피커 신호가 명시적으로(또는 묵시적으로) 계산될 수 있게 하는 것이 바람직하다.
구현형태에 의존하여, 방위각/상하각 이외의 가상 스피커에 대한 다른 규정, 예컨대 직교 좌표 또는 일면으로는 대응하는 원본 또는 미리 규정된 레퍼런스 위치로 지향되거나, 역방향 변환에 대해서는 타겟 배향으로 지향되는 스피커의 배향에 대응할 배향을 포인팅하는 벡터와 같은 직교 방향 정보가 주어질 수 있다.
블록(1040b)은 입력으로서, 타겟 위치 또는 타겟 배향 또는, 대안적으로 또는 추가적으로, 타겟 청취 위치 또는 타겟 청취 배향으로부터의 규정된 레퍼런스 포인트 또는 규정된 청취 배향 사이의 위치/배향에 대한 편차를 수신한다. 그러면 블록(1040b)은 블록(1040a)에 의해 생성된 데이터 및 블록(1040b)으로 입력되는 데이터로부터, 타겟 위치 또는/및 타겟 배향과 관련된 각각의 가상 스피커에 대한 방위각/상하각을 계산하고, 이러한 정보가 역방향 변환 규정(1050)에 입력된다. 따라서, 블록(1050)은 수정된 가상 스피커 위치/배향을 가지고 역방향 변환 규칙을 실제로 적용할 수 있거나, 가상 스피커 신호의 명시적 사용 및 처리가 없는 구현형태에 대해서 도 9a에 표시된 바와 같이 역방향 변환 규칙(1051)을 출력할 수 있다.
도 10a는 처리된 음장 표현(1201)이 음장 표현(1001)으로부터 계산되도록, 순방향 변환 규칙(1021), 공간 필터(1031) 및 역방향 변환 규칙(1051)으로 이루어진 변환 매트릭스와 같은 전체 변환 규정의 사용에 관련된 구현형태를 예시한다.
도 10b에 예시된 다른 구현형태에서, 부분 변환 매트릭스와 같은 부분 변환 규정이 순방향 변환 규칙(1021) 및 공간 필터(1031)를 조합함으로써 획득된다. 따라서, 부분 변환 규정(1072)의 출력에서, 공간적으로 필터링된 가상 스피커 신호가 획득되고, 이제 이들이 역방향 변환(1050)에 의해서 처리되어 처리된 음장 표현(1201)이 얻어진다.
도 10c에 예시된 다른 구현형태에서, 음장 표현은 순방향 변환(1020)에 입력되어 공간 필터로 들어가는 입력에서 실제 가상 스피커 신호가 얻어진다. 다른 (부분) 변환 규정(1073)은 공간 필터(1031) 및 역방향 변환 규칙(1051)의 조합에 의해서 계산된다. 따라서, 블록(1201)의 출력에서, 처리된 음장 표현, 예를 들어 시간 도메인 또는 시간/주파수 도메인과 같은 오디오 신호 도메인에 있는 복수 개의 오디오 신호가 획득된다.
도 10d는 공간 도메인 내의 명시적 신호가 있는 완전히 별개의 구현형태를 예시한다. 이러한 구현형태에서는 순방향 변환이 음장 표현에 적용되고, 블록(1020)의 출력에서는 예를 들어 250 개의 가상 스피커 신호들의 세트가 획득된다. 공간 필터(1030)가 적용되고, 블록(1030)의 출력에서는, 공간적으로 필터링된, 예를 들어 250 개의 가상 스피커 신호들의 세트가 획득된다. 공간적으로 필터링된 가상 스피커 신호들의 세트는 공간 역방향 변환(1050)을 거쳐서, 처리된 음장 표현(1201)을 출력에서 획득한다.
구현형태에 의존하여, 공간 필터(1031)를 사용하는 공간 필터링이 수행되거나 수행되지 않는다. 공간 필터를 사용하는 케이스, 및 임의의 위치/배향 수정을 수행하지 않는 케이스에서, 순방향 변환(1020) 및 역방향 변환(1050)은 동일한 가상 스피커 위치에 의존한다. 그럼에도 불구하고, 공간 필터(1031)는 가상 스피커 신호가 명시적으로 계산되는지 여부와 무관하게 공간 변환 도메인에서 적용되었다.
더욱이, 임의의 공간 필터링을 수행하지 않는 케이스에서는, 청취 위치 또는 청취 배향을 타겟 청취 위치 및 타겟 배향으로 수정하는 것이 수행되고, 따라서 가상 스피커 위치/배향들이 일면으로는 역변환/역방향 변환에서 그리고 다른 면으로는 순방향 변환에서 달라질 것이다.
도 11a는 1080에서 표시되는 위치 및/또는 배향들의 이산 그리드에 대한 사전-계산된 복수 개의 변환 규정(전체 또는 부분 변환 규정) 또는 순방향, 역방향 또는 필터 규칙을 가지는 메모리의 콘텍스트에서의 음장 프로세서의 일 구현형태를 예시한다.
검출기(1100)는 타겟 위치 및/또는 타겟 배향을 검출하고, 메모리(1080) 내에서 가장 가까운 변환 규정 또는 순방향/역방향/필터링 규칙을 찾기 위해서 이러한 정보를 프로세서(1081)로 전달하도록 구성된다. 이러한 목적을 위해서, 프로세서(1081)는 대응하는 변환 규정 또는 사전-계산된 순방향/역방향/필터링 규칙이 저장되는 위치 및 배들의 이산 그리드의 지식을 가지고 있다. 프로세서(1081)가 가능한 가까운 타겟 위치 또는/및 타겟 배향과 매칭되는 가장 가까운 그리드 포인트를 식별하자마자, 이러한 정보가 메모리 취출기(1082)로 전달되고, 이것은 검출된 타겟 위치 및/또는 배향에 대한 대응하는 전체 또는 부분 변환 규정 또는 순방향/역방향/필터링 규칙을 취출하도록 구성된다. 다른 실시형태들에서, 수학적인 관점에서는 가장 가까운 그리드 포인트를 사용할 필요가 없다. 그 대신에, 가장 가까운 그리드 포인트가 아니라 타겟 위치 또는 배향과 관련된 그리드 포인트를 결정하는 것이 유용할 수 있다. 하나의 예는, 그리드 포인트가 수학적 관점에서는 가장 가까운 것이 아니라 두 번째 또는 세 번째로 가깝거나 네 번째로 가까운 것이 가장 가까운 것보다 바람직한 그리드 포인트인 것일 수 있다. 그 이유는, 최적화가 두 개 이상의 차원을 가지며, 방위각에 대해서는 더 큰 편차를 허용하지만 고도로부터는 더 작은 편차를 허용하는 것이 바람직할 수 있기 때문이다. 이러한 정보는 대응하는 (매트릭스) 프로세서(1090)로 입력되고, 이것은 입력으로서, 음장 표현을 수신하고 처리된 음장 표현(1201)을 출력한다. 사전-계산된 변환 규정은 N 개의 행과 M 개의 열의 차원을 가지는 변환 매트릭스일 수 있고, N과 M은 3 이상의 정수이며, 음장 표현이 M 개의 오디오 신호를 가지고 상기 처리된 음장 표현(1201)이 N 개의 오디오 신호를 가진다. 수학적으로 전치된 공식에서는, 상황이 반대가 될 수 있고, 즉 사전-계산된 변환 규정은 M 개의 행과 N 개의 열의 차원을 가지는 변환 매트릭스일 수 있고, 또는 음장 표현이 N 개의 오디오 신호를 가지고, 처리된 음장 표현(1201)이 M 개의 오디오 신호를 가진다.
도 11a는 매트릭스 프로세서(1090)의 다른 구현형태를 예시한다. 이러한 구현형태에서, 매트릭스 프로세서는, 입력으로서 레퍼런스 위치/배향 및 타겟 위치/배향 또는, 비록 도면에서 도시되지 않지만 대응하는 편차를 수신하는 매트릭스 계산기(1092)에 의해서 신호를 받는다. 이러한 편차에 기반하여, 계산기(1092)는 도 10c에서 논의된 바와 같은 부분 또는 전체 변환 규정 중 임의의 것을 계산하고, 이러한 규칙을 매트릭스 프로세서(1090)로 전달한다. 전체 변환 규정(1071)의 경우, 매트릭스 프로세서(1090)는, 예를 들어 분석 필터뱅크에 의해 획득되는 각각의 시간/주파수 타일에 대하여 조합된 매트릭스(1071)를 사용하여 단일 매트릭스 연산을 수행한다. 부분 변환 규정(1072 또는 1073)의 경우, 프로세서(1090)는 실제 순방향 또는 역방향 변환을 수행하고, 추가적으로 매트릭스 연산을 수행하여 도 10b의 케이스에 대해서는 필터링된 가상 스피커 신호를 획득하거나, 가상 라우드스피커 신호들의 세트로부터는 오디오 신호 도메인에서 처리된 사운드 필터 표현(1201)을 획득한다.
후속하는 섹션에서, 실시형태들이 설명되고, 어떻게 상이한 공간 사운드 표현들이 가상 라우드스피커 도메인으로 변환된 후 수정되어, 원본 레퍼런스 위치에 상대적으로 규정된 임의의 가상 청취 위치(임의의 청취 배향을 포함함)에서 일관적인 공간 사운드 생성을 달성하는지에 대해서 설명된다.
도 1은 제안된 신규한 접근법의 개관적인 블록도를 도시한다. 일부 실시형태는 전체 다이어그램에서 표시된 빌딩 블록들의 서브세트만을 사용하고 애플리케이션 시나리오에 의존하여 특정 처리 블록은 사용하지 않을 것이다.
실시형태들로 들어가는 입력은 시간 도메인 또는 시간-주파수 도메인에서의 다수의(두 개 이상의) 오디오 입력 신호이다. 시간 도메인 입력 신호는 선택적으로 분석 필터뱅크(1010)를 사용하여 시간-주파수 도메인으로 변환될 수 있다. 입력 신호는, 예를 들어 라우드스피커 신호, 마이크로폰 신호, 오디오 객체 신호, 또는 앰비소닉스 성분일 수 있다. 오디오 입력 신호는 규정된 레퍼런스 위치 및 배향과 관련된 공간 음장을 나타낸다. 레퍼런스 위치 및 배향은, 예를 들어
Figure pct00002
방위각 및 고도를 바라보는 스위트 스폿(라우드스피커 입력 신호의 경우), 마이크로폰 어레이 위치 및 배향(마이크로폰 입력 신호의 경우), 또는 좌표계의 중심(앰비소닉스 입력 신호의 경우)일 수 있다.
입력 신호는 제 1 또는 순방향 공간 변환(1020)을 사용하여 가상 라우드스피커 도메인으로 변환된다. 제 1 공간 변환(1020)은, 예를 들어 빔포밍(마이크로폰 입력 신호를 사용할 경우), 라우드스피커 신호 업-믹싱(라우드스피커 입력 신호를 사용할 경우), 또는 평면 파 분해(앰비소닉스 입력 신호를 사용할 경우)일 수 있다. 오디오 객체 입력 신호의 경우, 제 1 공간 변환은 오디오 객체 렌더러(예를 들어, VBAP [Vbap] 렌더러)일 수 있다. 제 1 공간 변환(1020)은 가상 라우드스피커 위치들의 세트에 기반하여 계산된다. 일반적으로, 가상 라우드스피커 위치는 구에 걸쳐서 균일하게 분포되고 레퍼런스 위치 주위에 중심이 있도록 규정될 수 있다.
선택적으로, 가상 라우드스피커 신호는 공간 필터링(1030)을 사용하여 필터링될 수 있다. 공간 필터링(1030)은 소망되는 청취 위치 또는 배향에 의존하여 음장 표현을 가상 라우드스피커 도메인에서 필터링하기 위하여 사용된다. 이것은, 예를 들어 청취 위치가 사운드 소스에 더 근접해질 때 라우드니스를 증가시키기 위해서 사용될 수 있다. 동일한 내용이, 예를 들어 이러한 사운드 객체가 위치될 수 있는 특정한 공간 구역에 대해서도 성립한다.
가상 라우드스피커 위치는 소망되는 청취 위치 및 배향에 의존하여 위치 수정 블록(1040)에서 수정된다. 수정된 가상 라우드스피커 위치에 기반하여, (필터링된) 가상 라우드스피커 신호가 제 2 또는 역방향 공간 변환(1050)을 사용하여 가상 라우드스피커 도메인로부터 역변환되어 두 개 이상의 소망되는 출력 오디오 신호를 획득한다. 제 2 공간 변환(1050)은, 예를 들어 구형 고조파 분해(출력 신호가 앰비소닉스 도메인에서 획득되어야 할 경우), 마이크로폰 신호(출력 신호가 마이크로폰 신호 도메인에서 획득되어야 할 경우), 또는 라우드스피커 신호(출력 신호가 라우드스피커 도메인에서 획득되어야 할 경우)일 수 있다. 제 2 공간 변환(1050)은 제 1 공간 변환(1020)과 독립적이다. 시간-주파수 도메인에서의 출력 신호는 선택적으로 합성 필터뱅크(1060)를 사용하여 시간 도메인으로 변환될 수 있다.
가상 청취 위치의 위치 수정(1040)에 기인하여(이들은 이제 제 2 공간 변환(1050)에서 사용됨), 출력 신호는 레퍼런스 위치 및 배향과 상이할 수 있는 소망되는 시선 방향을 가지는, 소망되는 청취 위치에서의 공간 사운드를 나타낸다.
일부 애플리케이션에서, 실시형태들은, 예를 들어 상이한 사용자-규정된 관점으로부터의
Figure pct00003
카메라의 비디오를 렌더링할 때에, 일관적인 오디오/비디오 재생을 위하여 비디오 애플리케이션과 함께 사용된다. 이러한 경우에, 레퍼런스 위치 및 배향은 보통
Figure pct00004
비디오 카메라의 초기 위치 및 배향에 대응한다. 블록(1040)에서 수정된 가상 라우드스피커 위치를 계산하기 위하여 사용되는 소망되는 청취 위치 및 배향은 이제
Figure pct00005
비디오 내의 사용자-규정된 시청 위치 및 배향에 대응한다. 그렇게 함으로써, 블록(1050)에서 계산된 출력 신호는
Figure pct00006
비디오 내의 사용자-규정된 위치 및 배향의 관점으로부터의 공간 사운드를 나타내게 된다. 분명히, 동일한 원리가 전체(
Figure pct00007
) 가시 범위를 완전히 커버하지 않고 그 일부만 커버하는 애플리케이션들, 예를 들어 사용자-규정된 시청 위치 및 배향을 허용하는 애플리케이션(예를 들어,
Figure pct00008
가시 범위 애플리케이션)에 적용될 수 있다.
일 실시형태에서, 음장 표현은 3차원 비디오 또는 구형 비디오와 연관되고, 규정된 레퍼런스 포인트는 3차원 비디오 또는 구형 비디오의 중심이다. 검출기(110)는 중심과 상이한 실제 관람 포인트를 표시하는 사용자 입력을 검출하도록 구성되고, 실제 시청 포인트는 상기 타겟 청취 위치와 동일하며, 검출기는 검출된 편차를 사용자 입력으로부터 유도하도록 구성되거나, 검출기(110)는 중심을 향해 배향된 규정된 청취 배향과 상이한 실제 시청 배향을 검출하도록 구성되고, 실제 관람 배향은 타겟 청취 배향과 동일하며, 검출기는 검출된 편차를 상기 사용자 입력으로부터 유도하도록 구성된다. 구형 비디오는 360 도 비디오일 수 있지만, 180 도 이상을 커버하는 구형 비디오와 같은 다른 (부분) 구형 비디오도 역시 사용될 수 있다.
추가적인 실시형태에서, 음장 프로세서는 처리된 음장 표현이 3차원 비디오 또는 상기 구형 비디오에 대한 디스플레이 영역에 대한, 음장 디스크립션 내에 포함되는 적어도 하나의 사운드 객체의 표준 또는 소행성 투영(little planet projection) 또는 표준과 소행성 투영 사이의 천이를 나타내게끔, 상기 음장 표현을 처리하도록 구성되고, 디스플레이 영역은 상기 사용자 입력 및 규정된 관람 방향에 의하여 규정된다. 이러한 천이는, 예를 들어 도 7b에서 크기 h가 제로 및 중심 포인트로부터 포인트(S)까지 연장되는 전체 길이 사이에 있는 경우이다.
실시형태들은 시각적 줌을 모사하는 음향 줌(acoustic zoom)을 획득하도록 적용될 수 있다. 시각적 줌에서는, 특정한 구역에 줌인할 때에, 관심 구역(이미지 중심에 있음) 시각적으로 더 가깝게 나타나는 반면에 이미지의 옆에 있는 원치 않는 비디오 객체는 바깥으로 이동하며 궁극적으로는 이미지로부터 사라지게 된다. 청각적으로는, 일관적인 오디오 렌더링이란 줌인할 때에 줌 방향에 있는 오디오 소스는 더 커지는 반면에 옆에 있는 오디오 소스는 바깥으로 이동하고 궁극적으로는 묵음이 된다는 것을 의미할 것이다. 분명하게도, 이러한 효과는 가상 청취 위치를 줌 방향에 위치된 가상 라우드스피커에 더 가깝게 이동시키는 것에 대응한다(추가적인 세부 사항에 대해서는 실시형태 3 참조). 더욱이, 공간 필터링(1030)에서의 공간 윈도우는, 대응하는 가상 라우드스피커가 주밍되는 비디오 이미지에 따른 관심 영역 밖에 있는 경우 가상 라우드스피커의 신호가 감쇠되도록 규정될 수 있다(추가적인 세부 사항에 대해서는 실시형태 2 참조).
많은 애플리케이션에서, 블록(1020)에서 사용되는 입력 신호 및 블록(1050) 내에서 계산되는 출력 신호는 동일한 개수의 신호와 함께 동일한 공간 도메인에서 표현된다. 이것은, 예를 들어 특정한 앰비소닉스 차수의 앰비소닉스 성분이 입력 신호로서 사용된다면, 출력 신호가 동일한 차수의 앰비소닉스 성분에 대응한다는 것을 의미한다. 그럼에도 불구하고, 블록(1050)에서 계산된 출력 신호가 입력 신호와 비교할 때 상이한 공간 도메인에서 그리고 상이한 개수의 신호를 가지고 표현될 수 있는 것이 가능하다. 예를 들어, 출력 신호를 특정 개수의 채널을 가지는 라우드스피커 도메인에서 계산하면서 특정 차수의 앰비소닉스 성분을 입력 신호로서 사용하는 것이 가능하다.
후속하는 설명에서, 도 1의 처리 블록의 특정한 실시형태들이 설명된다. 분석 필터뱅크(1010) 및 합성 필터뱅크(1060) 각각의 경우, 최신식 필터뱅크 또는 시간-주파수 변환, 예컨대 국소 푸리에 변환(short-time Fourier transform; STFT)이 사용될 수 있다. 통상적으로, STFT를 샘플링 주파수 48000Hz에서 1024 개의 샘플의 변환 길이 및 512 개의 샘플의 홉-크기로 사용할 수 있다. 일반적으로, 처리는 각각의 시간 및 주파수에 대해서 개별적으로 수행된다. 일반성을 잃지 않으면서, 시간-주파수 도메인 처리가 후속하는 설명에서 예시된다. 그러나, 이러한 처리는 시간-도메인에서 균등한 방식으로 수행될 수도 있다.
실시형태 1a: 앰비소닉스 입력에 대한 제 1 공간 변환(1020)(도 12a)
이러한 실시형태에서, 제 1 공간 변환(1020)으로의 입력은 시간-주파수 도메인에 있는
Figure pct00009
차 앰비소닉스 신호이다. 앰비소닉스 신호는 각각의 채널(앰비소닉스 성분 또는 계수라고 불림)이 소위 공간 기저 함수의 계수와 등가인 멀티-채널 신호를 나타낸다. 상이한 타입의 공간 기저 함수, 예를 들어 구형 고조파 [FourierAcoust] 또는 원통형 고조파 [FourierAcoust]가 존재한다. 원통형 고조파는 음장을 2D 공간(예를 들어 2D 사운드 재생을 위한 공간)에서 기술할 때에 사용될 수 있는 반면에, 구형 고조파는 음장을 2D 및 3D 공간(예를 들어 2D 및 3D 사운드 재생을 위한 공간)에서 기술하기 위하여 사용될 수 있다. 일반성을 잃지 않으면서, 구형 고조파가 있는 후자의 케이스가 지금부터 고려된다. 이러한 경우에, 앰비소닉스 신호는
Figure pct00010
개의 별개의 신호(성분)로 이루어지고 다음 벡터에 의해서 표시되는데
Figure pct00011
여기에서
Figure pct00012
Figure pct00013
은 각각 주파수 인덱스 및 시간 인덱스이고
Figure pct00014
는 레벨(차수)이며,
Figure pct00015
는 앰비소닉스 계수(성분)
Figure pct00016
의 모드이다. 일차 앰비소닉스 신호(
Figure pct00017
)는 예를 들어 사운드필드(SoundField) 마이크로폰을 사용하여 측정될 수 있다. 더 높은 차수의 앰비소닉스 신호는 예를 들어 아이겐마이크(EigenMike)를 사용하여 측정될 수 있다. 녹음 위치는 좌표계의 및 레퍼런스 위치를 각각 나타낸다.
앰비소닉스 신호
Figure pct00018
을 가상 라우드스피커 도메인으로 변환하기 위하여, 최신식 평면파 분해(plane wave decomposition; PWD)(1022), 즉, 구형 고조파 역분해(inerse spherical harmonic decomposition)를
Figure pct00019
에 적용할 수 있는 것이 바람직하고, 이것은 [FourierAcoust]로서 계산될 수 있다.
Figure pct00020
Figure pct00021
은 방위각
Figure pct00022
및 상하각
Figure pct00023
에서 평가된 차수
Figure pct00024
및 모드
Figure pct00025
의 구형 고조파이다[FourierAcoust]. 각도
Figure pct00026
Figure pct00027
번째 가상 라우드스피커의 위치를 나타낸다. 신호
Figure pct00028
Figure pct00029
번째 가상 라우드스피커의 신호로서 해석될 수 있다.
구형 고조파의 하나의 예는 도 2에 도시되고, 이것은 상이한 레벨(차수)
Figure pct00030
및 모드
Figure pct00031
에 대한 구형 고조파 함수를 보여준다. 차수
Figure pct00032
은 가끔 레벨이라고 불리고 모드
Figure pct00033
도 역시 정도(degree)라고 불릴 수 있다. 도 2에서 알 수 있는 바와 같이, 0차(0차 레벨)의 구형 고조파
Figure pct00034
는 무지향성 음압을 나타내는 반면에, 1차(1차 레벨)의 구형 고조파
Figure pct00035
은 직교 좌표계의 차원들에 따른 쌍극 성분들을 나타낸다.
가상 라우드스피커의 방향
Figure pct00036
을 구 상에서 균일하게 분포되도록 규정하는 것이 바람직하다. 그러나, 애플리케이션에 의존하여 방향은 다르게 선택될 수 있다. 가상 라우드스피커 위치의 총 수는
Figure pct00037
에 의해 표시된다. 숫자
Figure pct00038
가 높아질수록 공간 처리의 정확도는 높아지고 계산 복잡도가 더 높아진다는 것에 주의해야 한다. 실무에서, 가상 라우드스피커의 합리적인 개수는 예를 들어
Figure pct00039
에 의해서 주어진다.
Figure pct00040
개의 가상 라우드스피커 신호들이
Figure pct00041
에 의해 규정되는 벡터 내에 수집되는데, 이것은 가상 라우드스피커 도메인에서 오디오 입력 신호를 나타낸다.
분명하게도, 이러한 실시형태에서
Figure pct00042
개의 라우드스피커 신호
Figure pct00043
은 단일 매트릭스 승산을 오디오 입력 신호에 적용함으로써 계산될 수 있고, 즉,
Figure pct00044
인데, 여기에서
Figure pct00045
매트릭스
Figure pct00046
는 상이한 레벨(차수), 모드, 및 가상 라우드스피커 위치에 대한 구형 고조파를 포함하며, 즉 다음이 성립한다
Figure pct00047
실시형태 1b: 라우드스피커 입력에 대한 제 1 공간 변환(1020)(도 12b)
이러한 실시형태에서, 제 1 공간 변환(1020)으로의 입력은
Figure pct00048
개의 라우드스피커 신호이다. 라우드스피커 대응 셋업은 임의적일 수 있고, 예를 들어 통상적인 5.1, 7.1, 11.1, 또는 22.2 라우드스피커 셋업일 수 있다. 라우드스피커 셋업의 스위트 스폿은 레퍼런스 위치를 나타낸다.
Figure pct00049
번째 라우드스피커 위치 (
Figure pct00050
)는 방위각
Figure pct00051
및 상하각
Figure pct00052
에 의해서 표현된다.
이러한 실시형태에서,
Figure pct00053
개의 입력 라우드스피커 신호는
Figure pct00054
개의 가상 라우드스피커 신호로 변환될 수 있고, 여기에서 가상 라우드스피커들은 각도
Figure pct00055
에 위치된다. 라우드스피커의 개수
Figure pct00056
이 가상 라우드스피커의 개수
Figure pct00057
보다 작으면, 이것은 라우드스피커 업-믹스 문제를 나타낸다. 라우드스피커의 개수
Figure pct00058
이 가상 라우드스피커의 개수
Figure pct00059
를 초과하면, 이것은 다운믹스 문제(1023)를 나타낸다. 일반적으로, 라우드스피커 포맷 변환은 예를 들어 예컨대 [FormatConv]에 설명되는 가상 또는 수동적 업-믹스와 같은 최신식 정적(신호-독립적) 라우드스피커 포맷 변환 알고리즘을 사용하여 달성될 수 있다. 이러한 접근법에서, 가상 라우드스피커 신호는 다음으로서 계산되는데
Figure pct00060
여기에서 다음 벡터
Figure pct00061
는 시간-주파수 도메인에서의 M 개의 입력 라우드스피커 신호를 포함하고,
Figure pct00062
Figure pct00063
은 각각 주파수 인덱스 및 시간 인덱스이다. 더욱이,
Figure pct00064
Figure pct00065
개의 가상 라우드스피커 신호들이다. 매트릭스
Figure pct00066
는 예를 들어 VBAP 패닝 스킴 [Vbap]을 사용하여, [FormatConv] 에 설명된 바와 같이 계산될 수 있는 정적 포맷 변환 매트릭스이다. 포맷 변환 매트릭스는 입력 라우드스피커의
Figure pct00067
개의 위치 및 가상 라우드스피커의
Figure pct00068
개의 위치에 의존한다.
바람직하게는, 가상 라우드스피커의 각도
Figure pct00069
는 구 상에 균일하게 분포된다. 실무에서, 가상 라우드스피커의 개수
Figure pct00070
는 임의로 선택될 수 있는 반면에 개수가 많으면 공간 처리의 정확도가 높아지지만 계산 복잡도가 높아진다. 실무에서, 가상 라우드스피커의 합리적은 계수는 예를 들어
Figure pct00071
에 의해서 주어진다.
실시형태 1c: 마이크로폰 입력에 대한 제 1 공간 변환(1020)(도 12c)
이러한 실시형태에서, 제 1 공간 변환(1020)으로의 입력은
Figure pct00072
개의 마이크로폰이 있는 마이크로폰 어레이의 신호이다. 마이크로폰은 상이한 무지향성, 카디오이드, 또는 쌍극 특성과 같은 상이한 지향성(directivities)을 가질 수 있다. 마이크로폰들은, 일치하는 마이크로폰 어레이(지향성 마이크로폰을 사용할 경우), 선형 마이크로폰 어레이, 원형 마이크로폰 어레이, 불규칙적인 평면형 어레이, 또는 구형 마이크로폰 어레이와 같은 상이한 구성으로 배열될 수 있다. 많은 애플리케이션에서는, 평면형 또는 구형 마이크로폰 어레이가 바람직하다. 실무에서 통상적인 마이크로폰 어레이는, 예를 들어 3cm의 어레이 반경을 가지고
Figure pct00073
개의 무지향성 마이크로폰이 있는 원형 마이크로폰 어레이에 의해서 주어진다.
Figure pct00074
개의 마이크로폰이 위치
Figure pct00075
에 위치된다. 어레이 중심은 레퍼런스 위치를 나타낸다.
Figure pct00076
개의 마이크로폰 신호가 시간-주파수 도메인에서 다음과 같이 주어지는데,
Figure pct00077
여기에서
Figure pct00078
Figure pct00079
은 각각 주파수 인덱스 및 시간 인덱스이고,
Figure pct00080
Figure pct00081
에 위치된
Figure pct00082
개의 마이크로폰의 신호이다.
가상 라우드스피커 신호를 계산하기 위하여, 입력 신호
Figure pct00083
에 빔포밍(1024)을 적용하고 빔포머를 가상 라우드스피커의 위치를 향해서 조향하는 것이 바람직하다. 일반적으로, 빔포밍은 다음과 같이 계산된다
Figure pct00084
여기에서,
Figure pct00085
Figure pct00086
번째 가상 라우드스피커의 신호를 계산하기 위한 빔포머 가중치이며,
Figure pct00087
로 표시된다. 일반적으로, 빔포머 가중치는 시간 및 주파수-의존적일 수 있다. 이전의 실시형태에서와 같이, 각도
Figure pct00088
Figure pct00089
번째 가상 라우드스피커의 위치를 나타낸다. 바람직하게는, 방향들
Figure pct00090
은 구 상에서 균일하게 분포된다. 가상 라우드스피커 위치의 총 수는
Figure pct00091
에 의하여 표시된다. 실무에서, 이러한 개수는 임의로 선택될 수 있는 반면에 개수가 많으면 공간 처리의 정확도가 높아지지만 계산 복잡도가 높아진다. 실무에서, 가상 라우드스피커의 합리적은 계수는 예를 들어
Figure pct00092
에 의해서 주어진다.
빔포밍의 하나의 예가 도 3에 도시된다. 여기에서,
Figure pct00093
는 마이크로폰 어레이(백색 원으로 표시됨)가 위치되는 좌표계의 중심이다. 이러한 위치는 레퍼런스 위치를 나타낸다. 가상 라우드스피커 위치는 검정 도트에 의해서 표시된다.
Figure pct00094
번째 빔포머의 빔은 회색 영역에 의해서 표시된다. 빔포머는
Figure pct00095
번째 라우드스피커(이러한 경우에는
Figure pct00096
)를 향해서 지향되어
Figure pct00097
번째 가상 라우드스피커 신호를 생성한다.
가중치
Figure pct00098
을 얻기 위한 빔포밍 접근법은 소위 매칭된 빔포머를 계산하는 것인데, 여기에서 가중치
Figure pct00099
는 다음에 의해서 주어진다.
Figure pct00100
벡터
Figure pct00101
는 고려된 주파수 대역
Figure pct00102
에 대한 그리고
Figure pct00103
번째 가상 라우드스피커 위치의 소망되는 방향
Figure pct00104
에 대한 어레이 마이크로폰들 사이의 상대 전달 함수(relative transfer function; RTF)를 포함한다. RTF
Figure pct00105
는 예를 들어 교정 측정(calibration measurement)을 사용하여 측정될 수 있거나 평면 파 모델 [FourierAcoust]와 같은 음장 모델을 사용하여 시뮬레이션될 수 있다.
매칭된 빔포머를 사용하는 것 이외에, MVDR, LCMV, 멀티-채널 위너(Wiener) 필터와 같은 다른 빔포밍 기법이 적용될 수 있다.
Figure pct00106
개의 가상 라우드스피커 신호들이
Figure pct00107
에 의해 규정되는 벡터 내에 수집되는데, 이것은 가상 라우드스피커 도메인에서 오디오 입력 신호를 나타낸다.
분명하게도, 이러한 실시형태에서,
Figure pct00108
개의 라우드스피커 신호
Figure pct00109
은 단일 매트릭스 승산을 오디오 입력 신호에 적용함으로써 계산될 수 있고, 즉, 다음이 성립하는데
Figure pct00110
여기에서
Figure pct00111
매트릭스
Figure pct00112
Figure pct00113
개의 가상 라우드스피커 위치에 대한 빔포머 계수를 포함하고, 즉 다음이 성립한다
Figure pct00114
실시형태 1d: 오디오 객체 신호 입력에 대한 제 1 공간 변환(1020)(도 12d)
이러한 실시형태에서, 제 1 공간 변환(1020)으로 들어가는 입력은
Figure pct00115
개의 오디오 객체 신호와 그들의 동반하는 위치 메타데이터이다. 실시형태 1b에서와 유사하게,
Figure pct00116
개의 가상 라우드스피커 신호가 예를 들어 VBAP 패닝 스킴 [Vbap]을 사용하여 계산될 수 있다. VBAP 패닝 스킴(1025)은 오디오 객체 입력 신호의
Figure pct00117
개의 위치 및 가상 라우드스피커의
Figure pct00118
개의 위치에 의존하여
Figure pct00119
개의 가상 라우드스피커 신호를 렌더링한다. 명백하게, VBAP 패닝 스킴 이외의 다른 렌더링 스킴이 대신 사용될 수 있다. 오디오 객체의 위치의 메타데이터는 정적 객체 위치 또는 시변(time-varying) 객체 위치를 표시할 수 있다.
실시예 2: 공간 필터링(1030)
공간 필터링(1030)은
Figure pct00120
내의 가상 라우드스피커 신호를 공간 윈도우
Figure pct00121
로 승산함으로써 적용되는데, 즉,
Figure pct00122
이고 여기에서
Figure pct00123
는 필터링된 가상 라우드스피커 신호를 나타낸다. 공간 필터링(1030)은 예를 들어, 소망되는 청취 위치의 시선 방향을 향하는 공간 사운드를 또는 소망되는 청취 위치의 위치가 사운드 소스 또는 가상 라우드스피커 위치에 근접할 때에 강조하기 위해서 적용될 수 있다. 이것은, 공간 윈도우
Figure pct00124
이 보통 소망되는 청취 위치(벡터
Figure pct00125
에 의해서 표시됨) 및 소망되는 청취 배향 또는 시선 방향(벡터
Figure pct00126
에 의해서 표시됨)에 기반하여 보통 계산되는 음이 아닌 실수 이득 값에 통상적으로 대응한다는 것을 의미한다.
일 예로서, 공간 윈도우
Figure pct00127
은 소망되는 시선 방향을 향해 지향되는 공통 일차 공간 윈도우로서 계산될 수 있고, 이것은 추가적으로 소망되는 청취 위치와 가상 라우드스피커 위치 사이의 거리, 즉,
Figure pct00128
에 따라서 감쇠되거나 증폭된다.
여기에서,
Figure pct00129
Figure pct00130
번째 가상 라우드스피커 위치에 대응하는 방향 벡터이고,
Figure pct00131
는 소망되는 청취 배향에 대응하는 방향 벡터이며,
Figure pct00132
는 소망되는 청취 배향의 방위각이고
Figure pct00133
는 상하각이다. 더욱이,
Figure pct00134
는 공간 윈도우의 형상을 결정하는 일차 파라미터이다. 예를 들어,
Figure pct00135
에 대하여 카디오이드 형상을 가지는 공간 윈도우가 얻어진다. 카디오이드 형상 및 시선 방향
Figure pct00136
를 가지는 대응하는 예시적인 공간 윈도우가 도 4에 도시된다.
Figure pct00137
의 경우, 공간 윈도우가 적용되지 않을 것이고, 거리 가중치
Figure pct00138
만이 유효할 것이다. 거리 가중치
Figure pct00139
는 소망되는 청취 위치 및
Figure pct00140
번째 가상 라우드스피커 사이의 거리에 의존하여 공간 사운드를 강조한다. 가중치
Figure pct00141
는 예를 들어 다음과 같이 계산될 수 있는데,
Figure pct00142
여기에서
Figure pct00143
는 직교 좌표에서의 소망되는 청취 위치이다. 고려된 좌표계의 도면이 도 5에서 도시되는데, 여기에서
Figure pct00144
는 레퍼런스 위치이고
Figure pct00145
은 소망되는 청취 위치이며,
Figure pct00146
는 대응하는 청취 위치 벡터이다. 가상 라우드스피커는 실선 원 상에 위치되고, 검정 도트는 하나의 예시적인 가상 라우드스피커를 나타낸다. 위의 수학식에서 둥근 브라켓 안의 항은 소망되는 청취 위치 및
Figure pct00147
번째 가상 라우드스피커 위치 사이의 거리이다. 인자
Figure pct00148
는 거리 감쇠 계수이다. 예를 들어,
Figure pct00149
의 경우,
Figure pct00150
번째 가상 라우드스피커에 대응하는 파워를 소망되는 청취 위치와 가상 라우드스피커 위치 사이의 거리에 반비례하여 증폭할 것이다. 이것은 사운드 소스 또는 가상 라우드스피커에 의해 표현되는 공간 구역에 접근할 때에 라우드니스를 증가시키는 효과를 모사한다.
일반적으로, 공간 윈도우
Figure pct00151
은 임의로 규정될 수 있다. 음향 줌과 같은 애플리케이션에서, 공간 윈도우는 줌 방향에 중심이 있는 사각 윈도우로서 규정될 수 있는데, 이것은 줌인 할 때에는 더 좁아지고 줌아웃할 때에는 더 넓어진다. 윈도우 폭은, 대응하는 오디오 객체가 주밍된 비디오 이미지로부터 사라지는 경우 측면에 있는 사운드 소스를 윈도우가 감쇠시키도록, 주밍된 비디오 이미지에 일관되게 규정될 수 있다.
분명하게도, 이러한 실시형태에서 필터링된 가상 라우드스피커 신호는 단일 원소별 벡터 승산으로써 가상 라우드스피커 신호로부터 계산될 수 있고, 즉
Figure pct00152
이고, 여기에서
Figure pct00153
는 원소별 승산(슈어 곱(Schur product))이고,
Figure pct00154
는 소망되는 청취 위치 및 배향이 주어질 경우의
Figure pct00155
개의 가상 라우드스피커에 대한 윈도우 가중치이다.
Figure pct00156
개의 필터링된 가상 마이크로폰 신호들이 다음 벡터 내에 수집된다.
Figure pct00157
실시예 3: 위치 수정(1040)
위치 수정(1040)의 목적은 소망되는 청취 배향을 가지는 소망되는 청취 위치의 시점(point-of-view; POV)으로부터 가상 라우드스피커 위치를 계산하는 것이다.
하나의 예가 공간 장면의 상면도를 보여주는 도 6에서 시각화된다. 일반성을 잃지 않으면서, 레퍼런스 위치가 좌표계의 중심에 대응하고, 이것이
Figure pct00158
에 의해 표시된다고 가정한다. 더욱이, 레퍼런스 배향은 전면, 즉, 0-도 방위각 및 0-도 고도 (
Figure pct00159
Figure pct00160
)를 향하고 있다.
Figure pct00161
중심의 실선 원은 가상 라우드스피커가 위치되는 구를 나타낸다. 일 예로서, 도면은
Figure pct00162
번째 가상 라우드스피커의 가능한 위치 벡터
Figure pct00163
를 보여준다.
도 7에서, 소망되는 청취 위치는
Figure pct00164
에 의해서 표시된다. 레퍼런스 위치
Figure pct00165
및 소망되는 청취 위치
Figure pct00166
사이의 벡터는
Figure pct00167
에 의해서 주어진다(실시형태 2a 참조). 알 수 있는 바와 같이, 소망되는 청취 위치의 POV로부터의
Figure pct00168
번째 가상 라우드스피커의 위치가 이러한 벡터에 의하여 표현될 수 있다.
Figure pct00169
소망되는 청취 회전이 레퍼런스 회전과 다르면, 수정된 가상 라우드스피커 위치를 계산할 때에 추가적인 회전 매트릭스가 적용될 수 있고, 즉 다음이 성립한다,
Figure pct00170
예를 들어, 소망되는 청취 배향(레퍼런스 배향에 상대적)이 방위각
Figure pct00171
에 대응한다면, 회전 매트릭스는 [RotMat]에서와 같이 계산될 수 있다.
Figure pct00172
그러면, 수정된 가상 라우드스피커 위치
Figure pct00173
가 제 2 공간 변환(1050)에서 사용된다. 수정된 가상 라우드스피커 위치는 수정된 방위각
Figure pct00174
및 수정된 상하각
Figure pct00175
에 관해서도 표현될 수 있고, 즉 다음이 성립한다,
Figure pct00176
일 예로서, 이러한 실시형태에서 설명된 위치 수정은 구형 비디오 이미지의 상이한 투영을 사용할 때에 일관적인 오디오/비디오 재생을 달성하기 위해 사용될 수 있다. 구형 비디오에 대한 상이한 투영 또는 시청 위치는, 예를 들어 비디오 플레이어의 사용자 인터페이스를 통하여 사용자에 의해서 선택될 수 있다. 이러한 애플리케이션에서, 도 6은 구형 비디오의 표준 투영의 상면도를 나타낸다. 이러한 경우에, 원은 구형 비디오의 픽셀 위치를 표시하고, 수평 라인은 2-차원 비디오 디스플레이(투영면)를 표시한다. 투영된 비디오 이미지(디스플레이 이미지)는 투영 포인트로부터 구형 비디오를 투영함으로써 발견되는데, 이것은 예시적인 이미지 픽셀에 대하여 점선 화살표가 된다. 여기에서, 투영 포인트는 구의 중심
Figure pct00177
에 대응한다. 표준 투영을 사용할 때에, 대응하는 일관적인 공간 오디오 이미지는 소망되는 (가상) 청취 위치를
Figure pct00178
내에, 즉, 도 6에서 도시되는 원의 중심에 배치함으로써 생성될 수 있다. 더욱이, 전술된 바와 같이, 가상 라우드스피커는 구의 표면 상에, 즉 묘사된 원을 따라서 위치된다. 이것은 소망되는 청취 위치가 가상 라우드스피커의 스위트 스폿 내에 위치되는 표준 공간 사운드 재생에 대응한다.
도 7a는
Figure pct00179
비디오를 렌더링하기 위한 공통 투영(common projection)을 나타내는 소위 소행성 투영(little planet projection)을 고려할 때의 상면도를 나타낸다. 이러한 경우에, 구형 비디오가 그로부터 투영되는 투영 포인트는 원점 대신에 구의 후방에 있는 위치
Figure pct00180
에 위치된다. 알 수 있는 바와 같이, 이것은 투영면 상의 천이된 픽셀 위치를 초래한다. 소행성 투영을 사용할 때에, 정확한 (일관적인) 오디오 이미지가 청취 위치를 구의 후방에 있는 위치
Figure pct00181
에 배치함으로써 생성되는 반면에, 가상 라우드스피커 위치는 구의 표면에 남아 있다. 이것은 수정된 가상 라우드스피커 위치가 전술된 바와 같이 청취 위치
Figure pct00182
에 상대적으로 계산된다는 것을 의미한다. 상이한 투영들(비디오 및 오디오 양자 모두에서의 투영들) 사이의 부드러운 천이는 도 7a의 벡터의 길이
Figure pct00183
를 변경함으로써 달성될 수 있다.
다른 예로서, 이러한 실시형태에서 위치 수정은 시각적 줌을 모사하는 음향 줌 효과를 생성하기 위해서도 사용될 수 있다. 시각적 줌을 모사하기 위하여, 가상 라우드스피커 위치를 줌 방향을 향해서 이동시킬 수 있다. 이러한 경우에, 비디오 객체가 주밍된 비디오 이미지 내에서 이동하는 것과 유사하게, 줌 방향에 있는 가상 라우드스피커는 더 가까워지는 반면에, 옆에 있는(줌 방향에 대하여) 가상 라우드스피커는 바깥으로 이동할 것이다.
후속하여, 도 7b 및 도 7c를 참조한다. 일반적으로, 예를 들어 공간 오디오 이미지를 예컨대 대응하는 360° 비디오 이미지의 상이한 투영에 정렬시키기 위해서 공간 변환이 적용된다. 도 7b는 구형 비디오의 표준 투영의 상면도를 예시한다. 원은 구형 비디오를 표시하고, 수평 라인은 비디오 디스플레이 또는 투영면을 나타낸다. 구형 이미지를 비디오 디스플레이에 상대적으로 회전시키는 것은 투영 배향이고(미도시), 이것은 구형 비디오에 대해서 임의로 설정될 수 있다. 디스플레이 이미지는 실선 화살표에 의해 표시되는 것처럼 구형 비디오를 투영 포인트(S)로부터 투영시킴으로써 발견된다. 여기에서, 투영 포인트(S)는 구의 중심에 대응한다. 표준 투영을 사용할 때에, 대응하는 공간 오디오 이미지는 (가상) 청취 레퍼런스 위치를 S에, 즉, 도 7b에 도시되는 원의 중심에 배치함으로써 생성될 수 있다. 더욱이, 가상 라우드스피커는 구의 표면 상에, 즉 묘사된 원을 따라서 위치된다. 이것은 청취 레퍼런스 위치가 스위트 스폿에, 예를 들어 도 7b의 구의 중심에 위치되는 표준 공간 사운드 재생에 대응한다.
도 7c는 소행성 투영의 상면도를 예시한다. 이러한 경우에, 구형 비디오가 그로부터 투영되는 투영 포인트(S)는 원점 대신에 구의 후방에 있는 위치에 위치된다. 소행성 투영을 사용할 때에, 정확한 오디오 이미지가 청취 레퍼런스 위치를 구의 후방에 있는 위치(S)에 배치함으로써 생성되는 반면에, 가상 라우드스피커 위치는 구의 표면에 남아 있다. 이것은 수정된 가상 라우드스피커 위치가 투영에 대응하는 청취 레퍼런스 위치(S)에 상대적으로 계산된다는 것을 의미한다. 상이한 투영들 사이의 부드러운 천이는 도 7c에서 높이 h를 변경함으로써, 즉, 투영 포인트(또는 청취 레퍼런스 위치, 각각)(S)를 수직 실선을 따라서 이동시킴으로써 획득될 수 있다. 따라서, 도 7c의 원의 중심과 상이한 청취 위치(S)는 타겟 청취 위치이고, 시선 방향은 도 7c의 디스플레이로의 시선 방향과 상이한 시선 방향은 타겟 청취 배향이다. 공간적으로 변환된 오디오 데이터를 생성하기 위하여, 구형 고조파는, 예를 들어 원본 가상 라우드스피커 위치 대신에 수정된 가상 라우드스피커 위치에 대해서 계산된다. 수정된 가상 라우드스피커 위치는 청취 레퍼런스 위치(S)를 도시된 바와 같이, 예를 들어 도 7c에 도시된 것처럼 또는 비디오 투영에 따라서 이동시킴으로써 발견된다.
실시형태 4a: 앰비소닉스 출력에 대한 제 2 공간 변환(1050)(도 13a)
이러한 실시형태는 오디오 출력 신호를 앰비소닉스 도메인에서 계산하기 위한 제 2 공간 변환(1050)의 일 구현형태를 설명한다.
소망되는 출력 신호를 계산하기 위하여, (필터링된) 가상 라우드스피커 신호
Figure pct00184
를 구형 고조파 분해(spherical harmonic decomposition; SHD)(1052)를 사용하여 변환할 수 있는데, 이것은 [FourierAcoust]에 따라서 모든
Figure pct00185
개의 가상 라우드스피커 신호에 걸친 가중합으로서 계산되고,
Figure pct00186
여기에서,
Figure pct00187
는 레벨(차수)
Figure pct00188
및 모드
Figure pct00189
의 공액-복소 구형 고조파이다. 구형 고조파는 원본 가상 라우드스피커 위치 대신에 수정된 가상 라우드스피커 위치
Figure pct00190
에서 평가된다. 이것은 오디오 출력 신호가 소망되는 청취 배향을 가지고 소망되는 청취 위치의 관점으로부터 생성되도록 보장한다. 분명하게도, 출력 신호
Figure pct00191
은 임의의 사용자-규정 레벨(차수)
Figure pct00192
까지 계산될 수 있다.
이러한 실시형태에서 출력 신호는 (필터) 가상 라우드스피커 신호, 즉 다음으로부터의 단일 매트릭스 승산으로서 계산될 수 있고,
Figure pct00193
여기에서
Figure pct00194
는 수정된 가상 라우드스피커 위치에서 평가된 구형 고조파를 포함하고,
Figure pct00195
는 소망되는 앰비소닉스 레벨(차수)
Figure pct00196
까지의 출력 신호들을 포함한다.
실시형태 4b: 라우드스피커 출력에 대한 제 2 공간 변환(1050)(도 13b)
이러한 실시형태는 오디오 출력 신호를 라우드스피커 도메인에서 계산하기 위한 제 2 공간 변환(1050)의 일 구현형태를 설명한다. 이러한 경우에, 수정된 가상 라우드스피커 위치
Figure pct00197
를 고려함으로써 가상 라우드스피커의
Figure pct00198
개의 (필터링된) 신호
Figure pct00199
를 소망되는 출력 라우드스피커 셋업의 라우드스피커 신호로 변환하는 것이 바람직하다. 일반적으로, 소망되는 출력 라우드스피커 셋업은 임의로 규정될 수 있다. 일반적으로 사용되는 출력 라우드스피커 셋업은, 예를 들어 2.0(스테레오), 5.1, 7.1, 11.1, 또는 22.2이다. 후속하는 설명에서, 출력 라우드스피커의 개수는
Figure pct00200
로 표시되고 출력 라우드스피커의 위치는 각도
Figure pct00201
에 의해 주어진다.
(필터링된) 가상 라우드스피커 신호를 소망되는 라우드스피커 포맷으로 변환(1053)하기 위하여, 실시형태 1b와 동일한 접근법을 사용하는 것이 바람직하고, 즉, 정적 라우드스피커 변환 매트릭스를 적용한다. 이러한 경우에, 소망되는 출력 라우드스피커 신호는 다음으로써 계산되는데,
Figure pct00202
여기에서
Figure pct00203
은 (필터링된) 가상 라우드스피커 신호를 보유하고,
Figure pct00204
Figure pct00205
개의 출력 라우드스피커 신호를 보유하며,
Figure pct00206
은 포맷 변환 매트릭스이다. 포맷 변환 매트릭스는 출력 라우드스피커 셋업의 각도
Figure pct00207
및 수정된 가상 라우드스피커 위치
Figure pct00208
를 사용하여 계산된다. 이것은 오디오 출력 신호가 소망되는 청취 배향을 가지고 소망되는 청취 위치의 관점으로부터 생성되도록 보장한다. 변환 매트릭스
Figure pct00209
는 예를 들어 VBAP 패닝 스킴 [Vbap]을 사용하여, [FormatConv] 에 설명된 바와 같이 계산될 수 있다.
실시형태 4c: 양이 출력에 대한 제 2 공간 변환(1050)(도 13c 또는 도 13d)
제 2 공간 변환(1050)은 양이 사운드 재생을 위해서 출력 신호를 양이 도메인에서 생성할 수 있다. 한 가지 방법은
Figure pct00210
개의 (필터링된) 가상 라우드스피커 신호
Figure pct00211
를 대응하는 머리-관련 전달 함수(head-related transfer function; HRTF)로 승산하고(1054), 결과적으로 얻어지는 신호들을 합산하는 것, 즉 다음이다,
Figure pct00212
Figure pct00213
여기에서,
Figure pct00214
Figure pct00215
은 좌이 및 우이 각각에 대한 양이 출력 신호이고,
Figure pct00216
Figure pct00217
Figure pct00218
번째 가상 라우드스피커에 대한 대응하는 HRTF이다. 수정된 가상 라우드스피커 방향
Figure pct00219
에 대한 HRTF가 사용된다는 것이 주의한다. 이것은 양이 출력 신호가 소망되는 청취 배향을 가지고 소망되는 청취 위치의 관점으로부터 생성되도록 보장한다.
양이 출력 신호를 생성하기 위한 대안적인 방법은, 중간 라우드스피커 포맷과 같이 실시형태 4b에 설명된 것처럼 가상 라우드스피커 신호를 라우드스피커 도메인으로 제 1 또는 순방향 변환(1055)하는 것을 수행하는 것이다. 지금부터, 중간 라우드스피커 포맷으로부터의 라우드스피커 출력 신호가 출력 라우드스피커 셋업의 위치에 대응하여 좌이 또는 우이에 대한 HRTFT를 적용함으로써(1056) 양이화될 수 있다(binauralized).
양이 출력 신호는 (필터링된) 가상 라우드스피커 신호에 매트릭스 승산을 적용함으로써도 계산될 수 있고, 즉 다음이 성립하며,
Figure pct00220
여기에서
Figure pct00221
는 좌이 및 우이 각각에 대한 J 개의 수정된 가상 라우드스피커 위치에 대한 HRTF를 포함하고, 벡터
Figure pct00222
는 두 개의 양이 오디오 신호를 포함한다.
실시예 5: 매트릭스 승산을 사용한 실시형태
이전의 실시형태들로부터, 출력 신호
Figure pct00223
이 단일 매트릭스 승산을 적용함으로써 입력 신호
Figure pct00224
으로부터 계산될 수 있다는 것이 명백하며, 즉,
Figure pct00225
인데, 여기에서
Figure pct00226
는 다음과 같이 계산될 수 있다
Figure pct00227
여기에서,
Figure pct00228
는 실시형태 1(a-d)에서 설명된 바와 같이 계산될 수 있는 제 1 부분 변환을 위한 매트릭스이고,
Figure pct00229
는 제 2 실시형태에서 설명된 선택적인 공간 필터이며,
Figure pct00230
는 벡터를 벡터가 메인 대각선인 대각 매트릭스로 변환하는 연산자이고,
Figure pct00231
는 소망되는 청취 위치 및 배향에 의존하여 제 2 공간 변환을 위한 매트릭스이며, 이것은 실시형태 4(a-c)에서 설명된 바와 같이 계산될 수 있다. 일 실시형태에서, 소망되는 청취 위치 및 배향에 대해서(예를 들어, 위치 및 배향들의 이산 그리드에 대해서) 매트릭스
Figure pct00232
를 사전에 계산하여 계산 복잡도를 절약하는 것이 가능하다. 시변 위치를 가지는 오디오 객체 입력의 경우,
Figure pct00233
의 위의 계산 중 시불변 부분만이 계산 복잡도를 절약하기 위해서 사전에 계산될 수 있다.
후속하여, 음장 프로세서(1000)에 의해 수행되는 음장 처리의 바람직한 구현형태가 예시된다. 단계 901 또는 1010에서, 두 개 이상의 오디오 입력 신호가 시간 도메인 또는 시간-주파수 도메인에서 수신되는데, 여기에서 신호를 시간-주파수 도메인에서 수신하는 경우, 시간-주파수 표현을 얻기 위해서 분석 필터뱅크가 사용되었다.
단계 1020에서, 제 1 공간 변환이 수행되어 가상 라우드스피커 신호들의 세트를 얻는다. 단계 1030에서, 공간 필터를 가상 라우드스피커 신호에 적용함으로써 선택적인 공간 필터링이 수행된다. 도 14에서 단계(1030)를 적용하지 않는 경우, 임의의 공간 필터링은 수행되지 않고, 가상 라우드스피커의 위치를 청취 위치 및 배향에 의존하여, 즉, 타겟 청취 위치 및/또는 타겟 배향에 의존하여 수정하는 것이 예를 들어 1040b에 표시된 것처럼 수행된다. 단계 1050에서, 오디오 출력 신호를 얻기 위해서, 수정된 가상 라우드스피커 위치에 의존하여 제 2 공간 변환이 수행된다. 단계 1060에서, 출력 신호를 시간 도메인에서 얻기 위해서, 합성 필터뱅크를 선택적으로 적용하는 것이 수행된다.
따라서, 도 14는 처리된 음장 표현의 오디오 출력 신호를 계산하기 위한 가상 스피커 신호의 명시적인 계산, 가상 스피커 신호의 선택적인 명시적 필터링 및 가상 스피커 신호 또는 필터링된 가상 스피커 신호의 선택적인 처리를 예시한다.
도 15는 제 1 공간 변환 매트릭스와 같은 제 1 공간 변환 규칙이 소망되는 오디오 입력 신호 포맷에 의존하여 계산되는 다른 실시형태를 예시하는데, 여기에서 가상 라우드스피커 위치들의 세트는 1021에 표시된 것처럼 가정된다. 단계 1031에서, 소망되는 청취 위치 및/또는 배향에 의존하는 공간 필터의 선택적인 적용이 설명되고, 공간 필터는, 예를 들어 가상 스피커 신호의 임의의 명시적인 계산 및 처리가 없이, 원소별 승산에 의해서 제 1 공간 변환 매트릭스에 적용된다. 단계 1040b에서, 가상 스피커의 위치는 청취 위치 및/또는 배향에 의존하여, 즉, 타겟 위치 및/또는 배향에 의존하여 수정된다. 단계 1051에서, 제 2 공간 변환 매트릭스 또는 일반적으로, 제 2 또는 역방향 공간 변환 규칙이 수정된 가상 스피커 위치 및 소망되는 오디오 출력 신호 포맷에 의존하여 계산된다. 단계 1090에서, 블록(1031, 1021 및 1051)에서의 계산된 매트릭스들이 서로 조합될 수 있고, 그 후에 단일 매트릭스의 형태로 오디오 입력 신호에 승산된다. 대안적으로, 도 10a 내지 도 10d에서 예시된 개별적인 네 가지 케이스에 대해서 설명된 것처럼 조합된 변환 규정을 얻기 위해서 각각의 매트릭스들이 대응하는 데이터에 개별적으로 적용될 수 있고 또는 적어도 두 개의 매트릭스들이 서로 조합될 수 있다.
비록 설명된 개념의 일부 양태들이 장치의 콘텍스트에서 설명되었지만, 이러한 양태가 대응하는 방법의 설명을 역시 나타낸다는 것이 명백하고, 여기에서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 피쳐에 대응한다. 이와 유사하게, 방법의 콘텍스트에서 설명된 양태들도 역시 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 설명을 역시 나타낸다.
특정한 구현형태의 요구 사항에 의존하여, 본 발명의 실시형태들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현형태는 저장된 전자적으로 판독가능한 제어 신호를 가지는 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있는데, 이것은 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 상호동작한다(또는 상호 동작할 수 있다).
본 발명에 따르는 몇 가지 실시형태는 전자적으로 판독가능한 제어 신호를 가지는 데이터 캐리어를 포함하는데, 이것은 프로그래밍가능한 컴퓨터 시스템과 함께 상호 동작하여 본 명세서에서 설명되는 방법들 중 하나가 수행되게 할 수 있다.
일반적으로, 본 발명의 실시형태들은 프로그램 코드가 있는 컴퓨터 프로그램 제품으로서 구현될 수 있고, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때 방법들 중 하나를 수행하도록 동작한다. 프로그램 코드는, 예를 들어 머신 판독가능 캐리어에 저장될 수도 있다.
다른 실시예들은 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위하여 머신 판독가능 캐리어 또는 비일시적 저장 매체에 저장되는 컴퓨터 프로그램을 포함한다.
다르게 말하면, 그러므로, 본 발명의 방법의 일 실시형태는 컴퓨터 프로그램이 컴퓨터에서 실행될 때에 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 프로그램 코드를 가지는 컴퓨터 프로그램이다.
그러므로, 본 발명의 방법의 다른 실시형태는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 기록되는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
그러므로, 본 발명의 방법의 다른 실시형태는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는, 예를 들어 데이터 통신 접속을 통하여, 예를 들어 인터넷을 통하여 전송되도록 구성될 수도 있다.
다른 실시형태는, 본 명세서에서 설명되는 중 방법들 중 하나를 수행하도록 구성되거나 적응되는, 처리 수단, 예를 들어 컴퓨터, 또는 프로그래밍가능한 로직 디바이스를 포함한다.
다른 실시형태는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 그 위에 설치한 컴퓨터를 포함한다.
몇 가지 실시형태들에서, 프로그래밍가능한 로직 디바이스(예를 들어 필드 프로그램가능 게이트 어레이)가 본 명세서에서 설명되는 방법의 기능성 중 일부 또는 전부를 수행하도록 사용될 수도 있다. 몇 가지 실시형태들에서, 필드 프로그램가능 게이트 어레이는 본 명세서에서 설명되는 방법들 중 하나를 수행하기 위하여 마이크로프로세서와 함께 상호동작할 수도 있다. 일반적으로, 이러한 방법은 임의의 하드웨어 장치에 의하여 수행되는 것이 바람직하다.
위에서 설명된 실시형태는 본 발명의 원리에 대한 예시일 뿐이다. 본 명세서에서 설명되는 배치구성 및 세부 사항의 변경 및 변형이 당업자에게는 명백하게 이해될 것이라는 것이 이해된다. 그러므로, 출원 중인 청구항의 범위에 의해서만 제한되고 본 명세서의 실시형태를 기술하고 설명하는 것에 의하여 제시되는 구체적인 세부사항에 의해서 제한되는 것은 의도되지 않는다.
참조 문헌
[AmbiTrans] Kronlachner and Zotter, "Spatial transformations for the enhancement of Ambisonics recordings", ICSA 2014
[FormatConv] M. M. Goodwin and J.-M. Jot, "Multichannel surround format conversion and generalized upmix", AES 30th International Conference, 2007
[FourierAcoust] E. G. Williams, "Fourier Acoustics: Sound Radiation and Nearfield Acoustical Holography", Academic Press, 1999.
[WolframProj1] http://mathworld.wolfram.com/StereographicProjection.html
[WolframProj2] http://mathworld.wolfram.com/GnomonicProjection.html
[RotMat] http://mathworld.wolfram.com/RotationMatrix.html
[Vbap] V. Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", J. Audio Eng. Soc, Vol. 45 (6), 1997
[VirtualMic] O. Thiergart, G. Del Galdo, M. Taseska, E.A.P. Habets, "Geometry-based Spatial Sound Acquisition Using Distributed Microphone Arrays", Audio, Speech, and Language Processing, IEEE Transactions on, Vol. 21 (12), 2013

Claims (32)

  1. 음장 표현(sound field representation)에 대한 규정된 레퍼런스 포인트 또는 규정된 청취 배향에 관련된 상기 음장 표현(1001)을 처리하기 위한 장치로서,
    처리된 음장 디스크립션(sound field description)을 획득하도록, 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차 또는 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 사용하여 상기 음장 표현을 처리하거나 - 처리된 음장 디스크립션은 렌더링될 때, 상기 규정된 레퍼런스 포인트와 상이한 타겟 청취 위치에서 또는 규정된 청취 배향과 상이한 타겟 청취 배향에 대하여 상기 음장 표현의 인상(impression)을 제공함 -, 처리된 음장 디스크립션을 획득하도록, 공간 필터(1030)를 사용하여 상기 음장 표현을 처리하기 위한 - 상기 처리된 음장 디스크립션은 렌더링될 때, 공간적으로 필터링된 음장 디스크립션의 인상을 제공함 - 음장 프로세서(1000)를 포함하고,
    상기 음장 프로세서(1000)는, 상기 편차 또는 상기 공간 필터(1030)가 연관된 순방향 변환 규칙(1021) 및 역방향 변환 규칙(1051)을 가지는 공간 변환 도메인에 관하여 상기 음장 표현에 적용되게끔, 상기 음장 표현을 처리하도록 구성되는, 음장 표현 처리 장치.
  2. 제 1 항에 있어서,
    상기 음장 표현 처리 장치는,
    상기 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차를 검출하거나, 상기 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 검출하거나, 상기 타겟 청취 위치를 검출하고 상기 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차를 결정하거나, 상기 타겟 청취 배향을 검출하고 상기 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 결정하기 위한 검출기(1100)를 더 포함하는, 음장 표현 처리 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 음장 표현(1001)은 상기 공간 변환 도메인과 상이한 오디오 신호 도메인 내의 복수 개의 오디오 신호를 포함하고,
    상기 음장 프로세서(1000)는 처리된 음장 디스크립션(1201)을 상기 공간 변환 도메인과 상이한 오디오 신호 도메인 내에서 생성하도록 구성되는, 음장 표현 처리 장치.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는 상기 음장 표현을,
    상기 공간 변환에 대한 순방향 변환 규칙을 사용하여 - 상기 순방향 변환 규칙(1021)은 가상 스피커 위치들의 세트에 있는 가상 스피커들의 세트에 관련됨 -,
    상기 변환 도메인 내의 공간 필터(1030)를 사용하여, 그리고
    상기 가상 스피커 위치들의 세트를 사용해서 상기 공간 변환에 대한 역방향 변환 규칙(1051)을 사용하여
    처리하도록 구성되고, 또는
    상기 음장 프로세서(1000)는 상기 음장 표현을,
    상기 공간 변환에 대한 순방향 변환 규칙(1021)을 사용하여 - 상기 순방향 변환 규칙(1021)은 가상 스피커 위치들의 세트에 있는 가상 스피커들의 세트에 관련됨 -,
    상기 편차를 사용하여 상기 가상 스피커 위치들의 세트로부터 유도된 수정된 가상 스피커 위치들의 세트를 사용해서, 상기 공간 변환에 대한 역방향 변환 규칙(1051)을 사용하여
    처리하도록 구성되며, 또는
    상기 음장 프로세서(1000)는 상기 음장 표현을,
    상기 공간 변환에 대한 순방향 변환 규칙(1021)을 사용하여 - 상기 순방향 변환 규칙(1021)은 가상 스피커 위치들의 세트에 있는 가상 스피커들의 세트에 관련됨 -,
    상기 변환 도메인 내의 공간 필터(1030)를 사용하여, 그리고
    상기 편차를 사용하여 상기 가상 스피커 위치들의 세트로부터 유도된 수정된 가상 스피커 위치들의 세트를 사용해서, 상기 공간 변환에 대한 역방향 변환 규칙(1051)을 사용하여
    처리하도록 구성되는, 음장 표현 처리 장치.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는 타겟 청취 위치들 또는 타겟 청취 배향들의 그리드의 각각의 그리드 포인트에 대하여, 사전-계산된 변환 규정(transformation definition)(1071, 1072, 1073) 또는 변환 규칙(1021, 1051)을 저장(1080)하도록 구성되고,
    사전-계산된 변환 규정은 순방향 변환 규칙(1021), 공간 필터(1031) 및 역방향 변환 규칙(1051) 중 적어도 두 개를 나타내며,
    상기 음장 프로세서(1000)는, 상기 타겟 청취 위치 또는 상기 타겟 청취 배향에 관련된 그리드 포인트에 대한 변환 규정 또는 변환 규칙을 선택(1081, 1082)하고, 선택된 변환 규정 또는 변환 규칙을 적용(1090)하도록 구성되는, 음장 표현 처리 장치.
  6. 제 5 항에 있어서,
    상기 사전-계산된 변환 규정은 N 개의 행과 M 개의 열의 차원을 가지는 변환 매트릭스이고, N과 M은 3 이상의 정수이며,
    상기 음장 표현이 M 개의 오디오 신호를 가지고 상기 처리된 음장 표현(1201)이 N 개의 오디오 신호를 가지거나, 상기 음장 표현이 N 개의 오디오 신호를 가지고 상기 처리된 음장 표현(1201)이 M 개의 오디오 신호를 가지는, 음장 표현 처리 장치.
  7. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는 변환 규정(1071)을 상기 음장 표현(1001)에 적용(1090)하도록 구성되고,
    상기 음장 프로세서(1000)는,
    상기 규정된 레퍼런스 포인트 또는 상기 규정된 청취 배향에 관련된 가상 스피커들의 가상 위치를 사용하여 상기 순방향 변환 규칙(1021)을 계산하고, 상기 타겟 청취 위치 또는 상기 타겟 청취 배향에 관련된 가상 스피커들의 수정된 가상 위치를 사용하여 상기 역방향 변환 규칙(1051)을 계산하며,
    상기 변환 규정(1071)을 획득하게끔 상기 순방향 변환 규칙(1021) 및 상기 역방향 변환 규칙(1051)을 조합(1092)하도록
    구성되는, 음장 표현 처리 장치.
  8. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는 변환 규정(1071)을 상기 음장 표현(1001)에 적용(1090)하도록 구성되고,
    상기 음장 프로세서(1000)는,
    상기 규정된 레퍼런스 포인트 또는 상기 규정된 청취 배향에 관련된 가상 스피커들의 가상 위치를 사용하여 상기 순방향 변환 규칙(1021)을 계산하고,
    상기 공간 필터(1031)를 계산하며,
    상기 가상 위치 또는 수정된 가상 위치를 사용하여 상기 역방향 변환 규칙(1051)을 계산하고,
    상기 변환 규정(1071)을 획득하도록 상기 순방향 변환 규칙(1021), 상기 공간 필터(1031) 및 상기 역방향 변환 규칙(1051)을 조합(1092)하도록
    구성되는, 음장 표현 처리 장치.
  9. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는,
    상기 규정된 레퍼런스 포인트 또는 상기 규정된 청취 배향에 관련된 미리 규정된 가상 스피커 위치에 있는 가상 스피커에 대한 가상 라우드스피커 신호를 획득하도록, 상기 음장 표현을 상기 순방향 변환 규칙(1021)을 사용하여 상기 오디오 신호 도메인으로부터 상기 공간 도메인으로 순방향 변환(1020)하고,
    상기 타겟 청취 위치 또는 상기 타겟 청취 배향에 관련된 수정된 가상 스피커 위치에 기반하여, 상기 역방향 변환 규칙(1051)을 사용하여 상기 가상 라우드스피커 신호를 상기 오디오 신호 도메인으로 역방향 변환(1050)하거나,
    필터링된 가상 라우드스피커 신호를 획득하도록 상기 공간 필터(1030)를 상기 가상 라우드스피커 신호에 적용하고, 상기 타겟 청취 위치 또는 상기 타겟 청취 배향에 관련된 수정된 가상 스피커 위치 또는 규정된 레퍼런스 위치 또는 청취 배향에 관련된 가상 스피커 위치에 기반하여, 필터링된 가상 라우드스피커 신호를 상기 역방향 변환 규칙을 사용하여 역방향 변환(1050)하도록
    구성되는, 음장 표현 처리 장치.
  10. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 장 프로세서(1000)는,
    부분 변환 규정(1072)을 획득하도록, 상기 순방향 변환 규칙(1021) 및 상기 공간 필터(1031)를 계산하고 상기 순방향 변환 규칙(1021) 및 상기 공간 필터(1031)를 조합하고,
    필터링된 가상 라우드스피커 신호를 획득하도록 상기 부분 변환 규정(1072)을 상기 음장 표현에 적용(1090)하며,
    상기 타겟 청취 위치 또는 상기 타겟 청취 배향에 관련된 수정된 가상 스피커 위치에 기반하거나 상기 규정된 레퍼런스 포인트 또는 상기 규정된 청취 배향에 관련된 가상 스피커 위치에 기반하여, 상기 역방향 변환 규칙을 사용하여 상기 필터링된 가상 라우드스피커 신호를 역방향 변환(1050)하도록
    구성되거나,
    상기 음장 프로세서(1000)는
    상기 타겟 청취 위치 또는 상기 타겟 배향에 관련된 수정된 가상 스피커 위치 또는 상기 규정된 레퍼런스 포인트 또는 청취 배향에 관련된 가상 스피커 위치에 기반하여, 상기 공간 필터(1031) 및 상기 역방향 변환 규칙(1051)을 계산하고,
    부분 변환 규정(1073)을 획득하도록 상기 공간 필터(1031) 및 상기 역방향 변환 규칙(1051)을 조합(1092)하며,
    미리 규정된 가상 스피커 위치에 있는 가상 스피커에 대한 가상 라우드스피커 신호를 획득하도록, 상기 음장 표현을 오디오 신호 도메인으로부터 공간 도메인으로 순방향 변환(1020)하고,
    상기 부분 변환 규정(1073)을 상기 가상 라우드스피커 신호에 적용(1090) 하도록
    구성되는, 음장 표현 처리 장치.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    상기 순방향 변환 규칙(1021), 상기 공간 필터(1031), 상기 역방향 변환 규칙(1051), 변환 규정 또는 부분 변환 규정 또는 사전-계산된 변환 규정 중 적어도 하나는 매트릭스를 포함하고, 또는
    상기 오디오 신호 도메인은 시간 도메인 또는 시간-주파수 도메인인, 음장 표현 처리 장치.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    상기 음장 표현은 복수 개의 앰비소닉스 신호(Ambisonics signal)를 포함하고 - 상기 음장 프로세서(1000)는 평면파 분해(plain wave decomposition) 및 상기 규정된 청취 위치 또는 상기 규정된 청취 배향에 관련된 가상 스피커들의 가상 위치를 사용하여, 상기 순방향 변환 규칙을 계산(1022)하도록 구성됨 -, 또는
    상기 음장 표현은 스위트 스폿(sweet spot)을 가지는 규정된 라우드스피커 셋업에 대한 복수 개의 라우드스피커 채널을 포함하며 - 상기 스위트 스폿은 상기 규정된 레퍼런스 위치를 나타내고, 상기 음장 프로세서(1000)는 상기 스위트 스폿에 관련된 가상 위치에 있는 가상 스피커를 가지는 가상 라우드스피커 셋업으로의 상기 라우드스피커 채널의 업믹스 규칙(upmix rule) 또는 다운믹스 규칙(downmix rule)을 사용하여, 상기 순방향 변환 규칙(1023)을 계산하도록 구성됨 -, 또는
    상기 음장 표현은 상기 규정된 레퍼런스 위치로서의 어레이 중심에 관련된 복수 개의 실제 또는 가상 마이크로폰 신호를 포함하고 - 상기 음장 프로세서(1000)는, 상기 복수 개의 마이크로폰 신호 상의, 상기 가상 스피커들 중 하나의 가상 스피커의 각각의 가상 위치에 대한 빔포밍 연산을 나타내는 빔포밍 가중치로서 상기 순방향 변환 규칙(1024)을 계산하도록 구성됨 -, 또는
    상기 음장 표현은 연관된 위치 정보를 가지는 복수 개의 오디오 객체를 포함하는 오디오 객체 표현을 포함하는 - 상기 음장 프로세서(1000)는 상기 오디오 객체에 대한 위치 정보를 사용하여, 상기 오디오 객체를 상기 규정된 레퍼런스 위치에 관련된 가상 스피커 위치에 있는 가상 스피커로 패닝(panning)하기 위한 패닝 동작을 나타내는 순방향 변환 규칙(1025)을 계산하도록 구성됨 -, 음장 표현 처리 장치.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 음장 프로세서는 상기 공간 필터(1030)를, 상기 순방향 변환 규칙(1021)에서 사용되는 가상 스피커들의 가상 위치에 의존하고 상기 규정된 레퍼런스 위치, 상기 규정된 청취 배향, 상기 타겟 청취 위치, 및 상기 타겟 청취 배향 중 적어도 하나에 추가적으로 의존하여, 윈도우 계수들의 세트로서 계산하도록 구성되는, 음장 표현 처리 장치.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는, 공간 사운드가 상기 타겟 청취 배향에 의해서 표시되는 시선 방향(look direction)을 향하여 강조되도록, 상기 공간 필터(1030)를 음이 아닌 실수 값인 이득 값들의 세트로서 계산하도록 구성되거나,
    상기 음장 프로세서(1000)는 상기 공간 필터(1030)를 공간 윈도우로서 계산하도록 구성되는, 음장 표현 처리 장치.
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
    상기 음장 프로세서는 상기 공간 필터를,
    타겟 시선 방향을 향해 지향된 공통 일차 공간 윈도우로서 또는 상기 타겟 청취 위치와 대응하는 가상 라우드스피커 위치 사이의 거리에 따라서 감쇠되거나 증폭되는 공통 일차 공간 윈도우로서, 또는
    줌-인 동작의 경우에는 더 좁아지고 줌-아웃 동작의 경우에는 더 넓어지는 사각 공간 윈도우로서, 또는
    대응하는 오디오 객체가 주밍된 비디오 이미지로부터 사라지는 경우, 측면에 있는 사운드 소스를 감쇠시키는 윈도우로서
    계산하도록 구성되는, 음장 표현 처리 장치.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
    상기 음장 프로세서는 수정된 가상 라우드스피커 위치를 사용하여 상기 역방향 변환 규칙(1051)을 계산하도록 구성되고,
    상기 음장 프로세서(1000)는 각각의 가상 라우드스피커에 대한 수정된 가상 라우드스피커 위치를,
    상기 규정된 레퍼런스 포인트로부터 상기 가상 위치까지의 원본 위치 벡터,
    상기 타겟 청취 위치 또는 상기 타겟 청취 배향으로부터 유도된 편차 벡터, 및/또는
    미리 규정된 회전과 상이한 타겟 회전을 표시하는 회전 매트릭스
    를 사용하여 계산함으로써, 업데이트된 위치 벡터를 획득하도록 구성되며,
    상기 업데이트된 위치 벡터는 연관된 가상 스피커에 대한 상기 역방향 변환 규칙(1050)을 위하여 사용되는, 음장 표현 처리 장치.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
    처리된 음장 디스크립션은 복수 개의 앰비소닉스 신호를 포함하고 - 상기 음장 프로세서는, 수정된 스피커 위치에서 평가되거나 상기 타겟 배향에 관련된 모든 가상 스피커 신호에 걸친 가중합을 나타내는 고조파 분해를 사용하여 상기 역방향 변환 규칙(1052)을 계산하도록 구성됨 -, 또는
    상기 처리된 음장 디스크립션은 규정된 출력 라우드스피커 셋업에 대한 복수 개의 라우드스피커 채널을 포함하며 - 상기 음장 프로세서(1000)는 규정된 출력 라우드스피커 셋업 내의 가상 라우드스피커들의 위치를 사용하여, 수정된 가상 스피커 위치로부터 유도되거나 상기 타겟 배향에 관련된 라우드스피커 포맷 변환 매트릭스를 사용해서 상기 역방향 변환 규칙(1053)을 계산하도록 구성됨 -, 또는
    상기 처리된 음장 디스크립션은 양이 출력(binaural output)을 포함하는 - 상기 음장 프로세서(1000)는, 수정된 가상 스피커 위치와 연관된 머리-관련 전달 함수(head-related transfer function)를 사용하거나, 규정된 중간 출력 라우드스피커 셋업에 관련된 라우드스피커 포맷 변환 규칙(1055) 및 상기 규정된 출력 라우드스피커 셋업에 관련된 머리-관련 전달 함수(1056)를 사용하여 상기 양이 출력 신호를 계산하도록 구성됨 -, 음장 표현 처리 장치.
  18. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 장치는, 상이한 미리 규정된 편차와 연관된 사전-계산된 계수들의 저장된 세트를 가지는 메모리(1080)를 포함하고,
    상기 음장 프로세서(1000)는,
    상기 상이한 미리 규정된 편차 중에서, 검출된 편차에 가장 가까운 미리 규정된 편차를 검색하고,
    상기 메모리로부터, 가장 가까운 미리 결정된 편차와 연관된 계수들의 사전-계산된 세트를 취출하며,
    상기 계수들의 취출된 사전-계산된 세트를 상기 음장 프로세서로 전달하도록
    구성되는, 음장 표현 처리 장치.
  19. 제 2 항 내지 제 18 항 중 어느 한 항에 있어서,
    상기 음장 표현은 3차원 비디오 또는 구형 비디오(spherical video)와 연관되고 상기 규정된 레퍼런스 포인트는 상기 3차원 비디오 또는 상기 구형 비디오의 중심이며,
    상기 검출기(110)는 상기 중심과 상이한 실제 관람 포인트를 표시하는 사용자 입력을 검출하도록 구성되고, 실제 시청 포인트는 상기 타겟 청취 위치와 동일하며, 상기 검출기는 검출된 편차를 상기 사용자 입력으로부터 유도하도록 구성되거나,
    상기 검출기(110)는 상기 중심을 향해 배향된 규정된 청취 배향과 상이한 실제 시청 배향을 검출하도록 구성되고, 상기 실제 관람 배향은 상기 타겟 청취 배향과 동일하며, 상기 검출기는 검출된 편차를 상기 사용자 입력으로부터 유도하도록 구성되는, 음장 표현 처리 장치.
  20. 제 1 항 내지 제 19 항 중 어느 한 항에 있어서,
    상기 음장 표현은 3차원 비디오 또는 구형 비디오와 연관되고 상기 규정된 레퍼런스 포인트는 상기 3차원 비디오 또는 상기 구형 비디오의 중심이며,
    상기 음장 프로세서는, 처리된 음장 표현이 상기 3차원 비디오 또는 상기 구형 비디오에 대한 디스플레이 영역에 대한, 상기 음장 디스크립션 내에 포함되는 적어도 하나의 사운드 객체의 표준 또는 소행성 투영(little planet projection) 또는 표준과 소행성 투영 사이의 천이를 나타내게끔, 상기 음장 표현을 처리하도록 구성되고,
    상기 디스플레이 영역은 상기 사용자 입력 및 규정된 관람 방향에 의하여 규정되는, 음장 표현 처리 장치.
  21. 제 1 항 내지 제 20 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는,
    상기 음장 디스크립션을 가상 라우드스피커 위치들의 제 1 세트와 연관된 가상 라우드스피커 관련 표현으로 변환하고 - 상기 가상 라우드스피커 위치들의 제 1 세트는 상기 규정된 레퍼런스 포인트와 연관됨 -,
    상기 가상 라우드스피커 위치들의 제 1 세트를 가상 라우드스피커 위치들의 수정된 세트로 변환하며 - 상기 가상 라우드스피커 위치들의 수정된 세트는 상기 타겟 청취 위치와 연관됨 -,
    상기 가상 라우드스피커 관련을 상기 가상 라우드스피커 위치들의 수정된 세트와 연관된 처리된 음장 디스크립션으로 변환하도록
    구성되고,
    상기 음장 프로세서(1000)는 검출된 편차를 사용하여 상기 가상 라우드스피커 위치들의 수정된 세트를 계산하도록 구성되는, 음장 표현 처리 장치.
  22. 제 4 항 내지 제 21 항 중 어느 한 항에 있어서,
    상기 가상 라우드스피커 위치들의 세트는 규정된 청취 배향과 연관되고, 상기 가상 라우드스피커 위치들의 수정된 세트는 상기 타겟 청취 배향과 연관되며,
    상기 타겟 청취 배향은 상기 검출된 편차 및 상기 규정된 청취 배향으로부터 계산되는, 음장 표현 처리 장치.
  23. 제 4 항 내지 제 22 항 중 어느 한 항에 있어서,
    상기 가상 라우드스피커 위치들의 세트는 상기 규정된 청취 위치 및 상기 규정된 청취 배향과 연관되고,
    상기 규정된 청취 위치는, 연관된 비디오의 투영면을 나타내는 디스플레이 영역 상으로의 제 1 투영을 초래하는, 상기 연관된 비디오의 제 1 투영 포인트 및 투영 배향에 대응하며,
    상기 가상 라우드스피커 위치들의 수정된 세트는 상기 연관된 비디오의 상기 투영면에 대응하는 디스플레이 영역 상으로의 제 2 투영을 초래하는, 상기 연관된 비디오의 제 2 투영 포인트 및 제 2 투영 배향과 연관되는, 음장 표현 처리 장치.
  24. 제 1 항 내지 제 23 항 중 어느 한 항에 있어서,
    상기 음장 프로세서는,
    상기 음장 표현을 시간-주파수 도메인 표현으로 변환하기 위한 시간-스펙트럼 컨버터(1010)를 포함하는, 음장 표현 처리 장치.
  25. 제 1 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는 상기 편차 및 상기 공간 필터(1030)를 사용하여 상기 음장 표현을 처리하기 위하여 구성되는, 음장 표현 처리 장치.
  26. 제 1 항 내지 제 25 항 중 어느 한 항에 있어서,
    상기 음장 표현은 입력 차수(input order)를 가지는 앰비소닉스 신호이고,
    상기 처리된 음장 디스크립션은 출력 차수(output order)를 가지는 앰비소닉스 신호이며,
    상기 음장 프로세서(1000)는 상기 출력 차수가 상기 입력 차수와 동일해지도록 상기 처리된 음장 디스크립션을 계산하도록 구성되는, 음장 표현 처리 장치.
  27. 제 1 항 내지 제 26 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는, 상기 편차와 연관된 처리 매트릭스를 획득하고, 상기 처리 매트릭스를 상기 음장 표현에 적용하도록 구성되고,
    상기 음장 표현은 적어도 두 개의 음장 성분을 가지며,
    상기 처리 매트릭스는 NxN 매트릭스이고, N은 2와 같거나 2보다 큰, 음장 표현 처리 장치.
  28. 제 2 항 내지 제 27 항 중 어느 한 항에 있어서,
    상기 검출기(1100)는 상기 편차를 방향 및 길이를 가지는 벡터로서 검출하도록 구성되고,
    상기 벡터는 상기 규정된 레퍼런스 포인트로부터 상기 타겟 청취 위치로의 선형 천이를 나타내는, 음장 표현 처리 장치.
  29. 제 1 항 내지 제 28 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는, 상기 처리된 음장 디스크립션에 의하여 표현되는 사운드 객체의 라우드니스 또는 공간 구역이 상기 음장 표현에 의하여 표현되는 상기 사운드 객체의 라우드니스 또는 공간 구역보다 커지게끔 상기 음장 표현을 처리하기 위하여 구성되고,
    상기 타겟 청취 위치는 상기 사운드 객체 또는 상기 공간 구역에 상기 규정된 레퍼런스 포인트보다 가까운, 음장 표현 처리 장치.
  30. 제 1 항 내지 제 29 항 중 어느 한 항에 있어서,
    상기 음장 프로세서(1000)는,
    각각의 가상 스피커에 대하여, 상기 규정된 레퍼런스 포인트에 대한 별개의 방향을 결정하고,
    결정된 방향에서의 구형 고조파 함수(spherical harmonic function)를 평가하여, 상기 음장 표현으로 구형 고조파 역분해(inverse spherical harmonic decomposition)를 수행하며,
    상기 가상 라우드스피커 위치로부터 상기 타겟 청취 위치까지의 수정된 방향을 결정하고,
    수정된 가상 라우드스피커 위치에서 평가된 구형 고조파 함수를 사용하여 구형 고조파 분해(spherical harmonic decomposition)를 수행하도록
    구성되는, 음장 표현 처리 장치.
  31. 음장 표현(sound field representation)에 대한 규정된 레퍼런스 포인트 또는 규정된 청취 배향에 관련된 상기 음장 표현을 처리하는 방법으로서,
    상기 규정된 레퍼런스 포인트로부터의 타겟 청취 위치의 편차 또는 상기 규정된 청취 배향으로부터의 타겟 청취 배향의 편차를 검출하는 단계; 및
    처리된 음장 디스크립션(sound field description)을 획득하도록, 상기 편차를 사용하여 상기 음장 표현을 처리하거나 - 처리된 음장 디스크립션은 렌더링될 때, 상기 규정된 레퍼런스 포인트와 상이한 타겟 청취 위치에서 또는 규정된 청취 배향과 상이한 타겟 청취 배향에 대하여 상기 음장 표현의 인상(impression)을 제공함 -, 처리된 음장 디스크립션을 획득하도록, 공간 필터(1030)를 사용하여 상기 음장 표현을 처리하는 - 상기 처리된 음장 디스크립션은 렌더링될 때, 공간적으로 필터링된 음장 디스크립션의 인상을 제공함 - 단계(1000)를 포함하고,
    상기 편차 또는 상기 공간 필터(1030)는 순방향 변환 규칙(1021) 및 역방향 변환 규칙(1051)을 가지는 공간 변환 도메인에 관하여 상기 음장 표현에 적용되는, 음장 표현 처리 방법.
  32. 컴퓨터 또는 프로세서에서 실행될 때, 제 31 항에 따른 음장 표현을 처리하기 위한 방법을 수행하기 위한 컴퓨터 프로그램.
KR1020227006476A 2019-07-29 2020-07-27 공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램 KR20220038478A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
PCT/EP2019/070373 WO2021018378A1 (en) 2019-07-29 2019-07-29 Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
EPPCT/EP2019/070373 2019-07-29
PCT/EP2020/071120 WO2021018830A1 (en) 2019-07-29 2020-07-27 Apparatus, method or computer program for processing a sound field representation in a spatial transform domain

Publications (1)

Publication Number Publication Date
KR20220038478A true KR20220038478A (ko) 2022-03-28

Family

ID=67551354

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227006476A KR20220038478A (ko) 2019-07-29 2020-07-27 공간 변환 도메인에서 음장 표현을 처리하기 위한 장치, 방법 또는 컴퓨터 프로그램

Country Status (9)

Country Link
US (1) US20240163628A1 (ko)
EP (1) EP4005246A1 (ko)
JP (1) JP7378575B2 (ko)
KR (1) KR20220038478A (ko)
CN (1) CN114450977A (ko)
BR (1) BR112022001584A2 (ko)
CA (1) CA3149297A1 (ko)
MX (1) MX2022001147A (ko)
WO (2) WO2021018378A1 (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115424609A (zh) * 2022-08-16 2022-12-02 青岛大学 一种自动语音识别方法、系统、介质、设备及终端
CN116719005B (zh) * 2023-08-10 2023-10-03 南京隼眼电子科技有限公司 基于fpga的定点数据处理方法、装置及存储介质
CN117436293A (zh) * 2023-12-21 2024-01-23 国网浙江省电力有限公司电力科学研究院 基于声场重构的低频变压器测点仿真方法和电子设备
CN117910279B (zh) * 2024-03-18 2024-05-28 西北工业大学 基于空间坐标旋转变换的三维声场快速处理方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104041081B (zh) 2012-01-11 2017-05-17 索尼公司 声场控制装置、声场控制方法、程序、声场控制系统和服务器
JP6031930B2 (ja) 2012-10-02 2016-11-24 ソニー株式会社 音声処理装置および方法、プログラム並びに記録媒体
EP2974372A1 (en) * 2013-03-15 2016-01-20 THX Ltd Method and system for modifying a sound field at specified positions within a given listening space
WO2015076149A1 (ja) * 2013-11-19 2015-05-28 ソニー株式会社 音場再現装置および方法、並びにプログラム
US20150189455A1 (en) * 2013-12-30 2015-07-02 Aliphcom Transformation of multiple sound fields to generate a transformed reproduced sound field including modified reproductions of the multiple sound fields
RU2019104919A (ru) 2014-01-16 2019-03-25 Сони Корпорейшн Устройство и способ обработки аудиоданных и его программа
US10231073B2 (en) * 2016-06-17 2019-03-12 Dts, Inc. Ambisonic audio rendering with depth decoding
US10262665B2 (en) * 2016-08-30 2019-04-16 Gaudio Lab, Inc. Method and apparatus for processing audio signals using ambisonic signals
EP3523799B1 (en) * 2016-10-25 2021-12-08 Huawei Technologies Co., Ltd. Method and apparatus for acoustic scene playback
US9980075B1 (en) * 2016-11-18 2018-05-22 Stages Llc Audio source spatialization relative to orientation sensor and output
SG11202000330XA (en) * 2017-07-14 2020-02-27 Fraunhofer Ges Forschung Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description

Also Published As

Publication number Publication date
MX2022001147A (es) 2022-03-25
US20240163628A1 (en) 2024-05-16
CN114450977A (zh) 2022-05-06
WO2021018378A1 (en) 2021-02-04
CA3149297A1 (en) 2021-02-04
JP2022546926A (ja) 2022-11-10
BR112022001584A2 (pt) 2022-03-22
WO2021018830A1 (en) 2021-02-04
US20220150657A1 (en) 2022-05-12
EP4005246A1 (en) 2022-06-01
JP7378575B2 (ja) 2023-11-13

Similar Documents

Publication Publication Date Title
JP7220749B2 (ja) オーディオ再生のためのオーディオ音場表現のデコードのための方法および装置
US11463834B2 (en) Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
EP3320692B1 (en) Spatial audio processing apparatus
US9838825B2 (en) Audio signal processing device and method for reproducing a binaural signal
EP2502228B1 (en) An apparatus and a method for converting a first parametric spatial audio signal into a second parametric spatial audio signal
US9578439B2 (en) Method, system and article of manufacture for processing spatial audio
KR101715541B1 (ko) 복수의 파라메트릭 오디오 스트림들을 생성하기 위한 장치 및 방법 그리고 복수의 라우드스피커 신호들을 생성하기 위한 장치 및 방법
JP7378575B2 (ja) 空間変換領域における音場表現を処理するための装置、方法、またはコンピュータプログラム
US11863962B2 (en) Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
CN106664501A (zh) 基于所通知的空间滤波的一致声学场景再现的系统、装置和方法
JP2013110633A (ja) トランスオーラルシステム
RU2793625C1 (ru) Устройство, способ или компьютерная программа для обработки представления звукового поля в области пространственного преобразования
US12022276B2 (en) Apparatus, method or computer program for processing a sound field representation in a spatial transform domain
WO2018066376A1 (ja) 信号処理装置および方法、並びにプログラム
Jin A tutorial on immersive three-dimensional sound technologies
Deppisch et al. Browser Application for Virtual Audio Walkthrough.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal