KR101909573B1

KR101909573B1 - 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Info

Publication number: KR101909573B1
Application number: KR1020110138434A
Authority: KR
Inventors: 피터 잭스; 요한 마르커스 바트케; 요하네스 보엠; 스벤 고든
Original assignee: 돌비 인터네셔널 에이비
Priority date: 2010-12-21
Filing date: 2011-12-20
Publication date: 2018-10-19
Also published as: EP2469741A1; JP2016224472A; JP2023158038A; CN102547549A; US20120155653A1; JP2020079961A; EP3468074B1; KR102010914B1; EP4343759A3; EP2469742A3; JP6732836B2; KR20190096318A; JP6982113B2; JP2012133366A; JP6022157B2; JP7342091B2; EP2469742B1; EP2469742A2; EP4007188A1; EP3468074A1

Abstract

HOA(higher-order Ambisonics) 기술을 사용한 공간 오디오 장면의 표현은 통상적으로 순간 시간(time instant)마다 많은 수의 계수를 필요로 한다. 오디오 신호의 실시간 전송을 필요로 하는 대부분의 실제 응용에 대해 이 데이터 레이트는 너무 높다. 본 발명에 따르면, HOA 영역 대신에 공간 영역에서 압축이 수행된다. (N+1)²개의 입력 HOA 계수가 공간 영역에서의 (N+1)²개의 등가 신호로 변환되고, 얻어지는 (N+1)²개의 시간-영역 신호가 병렬 인지 코덱의 뱅크에 입력된다. 디코더측에서, 개별 공간-영역 신호가 디코딩되고, 원래의 HOA 표현을 복원하기 위해 공간-영역 계수가 다시 HOA 영역으로 변환된다.

Description

2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING SUCCESSIVE FRAMES OF AN AMBISONICS REPRESENTATION OF A 2- OR 3-DIMENSIONAL SOUND FIELD}

본 발명은 2차원 또는 3차원 음장의 고차 앰비소닉스 표현(Ambisonics representation)의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치에 관한 것이다.

앰비소닉스는 일반적으로 임의의 특정의 스피커 또는 마이크 배치와 독립적인 음장 기술(sound field description)을 제공하는 구면 조화함수(spherical harmonics)에 기초한 특정의 계수를 사용한다. 이것으로부터 합성 장면의 음장 녹음 또는 발생 동안 스피커 위치에 관한 정보를 필요로 하지 않는 기술이 얻어진다. 앰비소닉스 시스템에서의 재현 정확도는 그의 차수 N에 의해 변경될 수 있다. 3D 시스템의 경우 그 차수에 의해 음장을 기술하는 데 필요한 오디오 정보 채널의 수가 결정될 수 있는데, 그 이유는 이것이 구면 조화 기저(spherical harmonic basis)의 수에 의존하기 때문이다. 계수 또는 채널의 수 O는 O = (N+1)²이다.

HOA(higher-order Ambisonics) 기술(즉, 2 이상의 차수)을 사용한 복잡한 공간 오디오 장면의 표현은 통상적으로 순간 시간(time instant)마다 많은 수의 계수를 필요로 한다. 각각의 계수는 상당한 분해능 - 통상적으로, 24 비트/계수 또는 그 이상 - 을 가져야만 한다. 그에 따라, 오디오 장면을 원시 HOA 형식으로 전송하는 데 필요한 데이터 레이트는 높다. 일례로서, 예컨대, EigenMike 녹음 시스템으로 녹음된 3차 HOA 신호는 (3+1)²개의 계수 * 44100Hz * 24 비트/계수 = 16.15 Mbit/s의 대역폭을 필요로 한다. 현재, 오디오 신호의 실시간 전송을 필요로 하는 대부분의 실제 응용에 대해 이 데이터 레이트는 너무 높다. 따라서, 실제적으로 관련있는 HOA-관련 오디오 처리 시스템에 압축 기법이 요망된다.

고차 앰비소닉스는 오디오 장면의 캡처, 조작 및 저장을 가능하게 해주는 수학적 패러다임이다. 공간 내의 기준점에서와 그 근방에서 음장이 푸리에-베셀 급수에 의해 근사화된다. HOA 계수가 이러한 특정의 수학에 기반을 두고 있기 때문에, 최적의 코딩 효율을 달성하기 위해 특정의 압축 기법이 적용되어야 한다. 중복성(redundancy) 및 심리 음향학(psycho-acoustics) 둘다의 측면이 참작되어야만 하고, 복잡한 공간 오디오 장면에 대해서는 종래의 모노 또는 멀티-채널 신호에 대해서와 다르게 기능하는 것으로 예상될 수 있다. 확립된 오디오 형식에 대한 특정의 차이점은 HOA 표현 내의 모든 '채널'이 공간 내의 동일한 기준 위치를 사용하여 계산된다는 것이다. 따라서, 적어도 적은 수의 우세한 음 객체(dominant sound object)를 갖는 오디오 장면에 대해, HOA 계수들 간의 상당한 일치가 예상될 수 있다.

발표된 HOA 신호의 손실 압축 기법은 단지 몇개 밖에 없다. 이들 대부분은 인지 코딩의 카테고리로 간주될 수 없는데, 그 이유는 통상적으로 심리 음향적 모델이 압축을 제어하는 데 이용되지 않기 때문이다. 이와 달리, 몇가지 기존의 방식은 오디오 장면을 기본 모델의 파라미터로 분해하는 것을 사용한다.

1차 내지 3차 앰비소닉스 전송에 대한 초기의 방식

앰비소닉스의 이론이 1960년대 이후로 오디오 제작 및 사용에서 사용되어 왔지만, 지금까지 응용은 대체로 1차 또는 2차 콘텐츠로 제한되었다. 다수의 배포 형식이 사용되어 왔으며, 상세하게는 다음과 같은 것이 있다:

- B-형식: 이 형식은 연구자, 제작자 및 애호가 사이에서 콘텐츠를 교환하는 데 사용되는 표준의 전문적 원시 신호 형식이다. 통상적으로, 이 형식은 계수의 특정의 정규화를 갖는 1차 앰비소닉스에 관련되어 있지만, 또한 3차까지의 규격이 존재한다.

- B-형식의 최근의 고차 변형에서, SN3D와 같은 수정된 정규화 방식, 및 특별한 가중 법칙 - 예컨대, Furse-Malham(일명 FuMa 또는 FMH) 집합 - 으로 인해 통상적으로 앰비소닉스 계수 데이터의 일부의 진폭이 다운스케일링된다. 수신기측에서 디코딩 이전에 테이블 탐색에 의해 정반대의 업스케일링 동작이 수행된다.

- UHJ-형식(일명 C-형식): 이것은 기존의 모노 또는 2-채널 스테레오 경로를 통해 1차 앰비소닉스 콘텐츠를 소비자에게 전달하는 데 적용가능한 계층적 인코딩된 신호 형식이다. 2 채널 - 좌 및 우 - 의 경우, 오디오 장면의 수평 서라운드를 완전히 표현하는 것은 실현가능하지만, 전체 공간 분해능에 대해서는 그렇지 않다. 선택적인 제3 채널은 수평면에서의 공간 분해능을 향상시키고, 선택적인 제4 채널은 높이 차원을 추가한다.

- G-형식: 이 형식은, 집에서 특정의 앰비소닉스 디코더를 사용할 필요없이, 앰비소닉스 형식으로 제작된 콘텐츠을 누구라도 이용할 수 있게 만들기 위해 만들어졌다. 표준의 5-채널 서라운드 설정에 대한 디코딩은 제작측에서 이미 수행되어 있다. 디코딩 동작이 표준화되어 있지 않기 때문에, 원래의 B-형식 앰비소닉스 콘텐츠의 신뢰성있는 재구성이 가능하지 않다.

- D-형식: 이 형식은 임의적인 앰비소닉스 디코더에 의해 생성되는 디코딩된 스피커 신호의 집합을 말한다. 디코딩된 신호는 특정의 스피커 형태 및 디코더 설계의 상세에 의존한다. G-형식은, 특정의 5-채널 서라운드 설정을 말하기 때문에, D-형식 정의의 부분집합이다.

상기한 방식들 중 어느 것도 압축을 염두에 두고 설계되어 있지 않다. 이들 형식 중 일부는 기존의 저용량 전송 경로(예를 들어, 스테레오 링크)를 사용하기 위해 조정되었고, 따라서 전송을 위한 데이터 레이트를 암시적으로 감소시킨다. 그렇지만, 다운믹싱된 신호에는 원래의 입력 신호 정보의 상당 부분이 없다. 따라서, 앰비소닉스 방식의 유연성 및 보편성이 상실된다.

지향 오디오 코딩

2005년경에, DirAC(directional audio coding, 지향 오디오 코딩) 기술이 개발되었으며, 이 기술은 장면을 시간 및 주파수마다 하나의 우세한 음 객체와 주변음(ambient sound)으로 분해하는 것을 목표로 하는 장면 분석에 기초하고 있다. 장면 분석은 음장의 순간 세기 벡터(instantaneous intensity vector)의 평가에 기초하고 있다. 장면의 2 부분이 직접음(direct sound)이 어디서 오는지에 관한 위치 정보와 함께 전송될 것이다. 수신기에서, 시간-주파수 창마다 하나의 우세 음원이 VBAP(vector based amplitude panning)을 사용하여 재생된다. 그에 부가하여, 보조 정보로서 전송된 비에 따라 역상관된 주변음이 생성된다. DirAC 처리가 도 1에 나타내어져 있으며, 여기서 입력 신호는 B-형식을 가진다.

단일 소스 및 주변 신호 모델(single-source-plus-ambience signal model)을 사용하여 DirAC을 특정의 파라메트릭 코딩(parametric coding) 방식으로 해석할 수 있다. 전송의 품질은 모델 가정이 특정의 압축된 오디오 장면에 맞는지 여부에 크게 의존한다. 게다가, 음 분석 스테이지에서 직접음 및/또는 주변음의 어떤 잘못된 검출도 디코딩된 오디오 장면의 재생 품질에 영향을 줄 수 있다. 현재까지, DirAC은 1차 앰비소닉스 콘텐츠에 대해서만 기술되었다.

HOA 계수의 직접 압축

2000년대 후반에, HOA 신호의 인지적이면서 무손실인 압축이 제안되었다.

- 무손실 코딩의 경우, HOA 신호의 중복성을 감소시키기 위해 상이한 앰비소닉스 계수 사이의 교차 상관이 이용되며, 이에 대해서는 E. Hellerud, A. Solvang, U.P. Svensson, "Spatial Redundancy in Higher Order Ambisonics and Its Use for Low Delay Lossless Compression(고차 앰비소닉스에서의 공간 중복성 및 저지연 무손실 압축에 그 사용)", Proc. of IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), April 2009, Taipei, Taiwan, 및 E. Hellerud, U.P. Svensson, "Lossless Compression of Spherical Microphone Array Recordings(구형 마이크 배열 녹음의 무손실 압축)", Proc. of 126th AES Convention, Paper 7668, May 2009, Munich, Germany에 기술되어 있다. 인코딩될 계수의 차수까지의 이전 계수들의 가중 결합으로부터 특정의 차수의 현재 계수를 예측하는 역방향 적응 예측(backward adaptive prediction)이 이용된다. 실세계 콘텐츠의 특성을 평가함으로써 강한 교차 상관을 나타낼 것으로 예상되는 계수들의 그룹이 탐색된다.

이 압축은 계층적 방식으로 동작한다. 계수의 잠재적인 교차 상관이 있는지 분석되는 이웃은 동일한 순간 시간은 물론 이전의 순간 시간에서 동일한 차수까지의 계수만을 포함하며, 그로써 압축이 비트 스트림 레벨에서 확장가능하다

- 인지 코딩은 T. Hirvonen, J. Ahonen, V. Pulkki, "Perceptual Compression Methods for Metadata in Directional Audio Coding Applied to Audiovisual Teleconference(오디오비주얼 원격 회의에 적용되는 방향 오디오 코딩에서의 메타데이터에 대한 인지 압축 방법)", Proc. of 126th AES Convention, Paper 7706, May 2009, Munich, Germany, 및 앞서 언급한 "Spatial Redundancy in Higher Order Ambisonics and Its Use for Low Delay Lossless Compression" 논문에 기술되어 있다. 기존의 MPEG AAC 압축 기법은 HOA B-형식 표현의 개별 채널(즉, 계수)을 코딩하는 데 사용된다. 채널의 차수에 따라 비트 할당을 조정함으로써, 불균일한 공간 노이즈 분포가 얻어졌다. 상세하게는, 하위-차수 채널에 보다 많은 비트를 할당하고 상위-차수 채널에 보다 적은 비트를 할당함으로써, 기준점 근방에서 우수한 정밀도가 달성될 수 있다. 차례로, 원점으로부터의 거리가 증가함에 따라 유효 양자화 노이즈가 상승한다.

도 2는 B-형식 오디오 신호의 이러한 직접 인코딩 및 디코딩의 원리를 나타낸 것이고, 여기서 상부 경로는 상기 Hellerud 등의 압축을 나타내고, 하부 경로는 종래의 D-형식 신호로의 압축을 나타내고 있다. 이들 경우 둘다에, 디코딩된 수신기 출력 신호는 D-형식을 가진다.

HOA 영역에서 직접 중복성(redundancy) 및 무관련성(irrelevancy)을 찾는 것에서의 문제점은 임의의 공간 정보가, 일반적으로, 몇개의 HOA 계수에 걸쳐 '번져(smeared)' 있다는 것이다. 환언하면, 공간 영역에서 적절히 국소화되고 집중되어 있는 정보가 그 주변에 확산되어 있다. 그로써, 심리 음향적 마스킹 제약조건을 확실하게 준수하는 일관성있는 노이즈 할당을 수행하는 것이 아주 어렵다. 게다가, 중요한 정보가 HOA 영역에서 상이한 방식으로 포착되고, 대규모 계수의 미묘한 차이가 공간 영역에서 강한 영향을 미칠 수 있다. 따라서, 이러한 차분적 상세를 보존하기 위해 높은 데이터 레이트가 필요할 수 있다.

공간 스퀴징(Spatial Squeezing)

보다 최근에, B. Cheng, Ch. Ritz, I. Burnett는 '공간 스퀴징' 기술을 개발하였다:

B. Cheng, Ch. Ritz, I. Burnett, "Spatial Audio Coding by Squeezing: Analysis and Application to Compressing Multiple Soundfields(스퀴징에 의한 공간 오디오 코딩: 분석 및 다중 음장의 압축에의 적용)", Proc. of European Signal Processing Conf. (EUSIPCO), 2009,

B. Cheng, Ch. Ritz, I. Burnett, "A Spatial Squeezing Approach to Ambisonic Audio Compression(Ambisonic 오디오 압축에 대한 공간 스퀴징 방법)", Proc. of IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), April 2008,

B. Cheng, Ch. Ritz, I. Burnett, "Principles and Analysis of the Squeezing Approach to Low Bit Rate Spatial Audio Coding(저비트 레이트 공간 오디오 코딩에 대한 스퀴징 방법의 원리 및 분석)", Proc. of IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), April 2007.

음장을 각각의 시간/주파수 창에 대한 선택된 가장 우세한 음 객체들로 분해하는 오디오 장면 분석이 수행된다. 이어서, 좌우 채널의 위치 사이의 새로운 위치에서의 이들 우세한 음 객체를 포함하는 2-채널 스테레오 다운믹스가 생성된다. 스테레오 신호에 대해 동일한 분석이 행해질 수 있기 때문에, 2-채널 스테레오 다운믹스에서 검출된 객체를 360°의 전체 음장에 재매핑함으로써 동작이 부분적으로 반대로 될 수 있다.

도 3은 공간 스퀴징의 원리를 나타낸 것이다. 도 4는 관련된 인코딩 처리를 나타낸 것이다.

이 개념은, 동일한 종류의 오디오 장면 분석에 의존하기 때문에, DirAC와 많은 관련이 있다. 그렇지만, DirAC와 달리, 다운믹스는 항상 2개의 채널을 생성하고, 우세한 음 객체의 위치에 관한 보조 정보를 전송할 필요가 없다.

심리 음향적 원리가 명시적으로 이용되지 않지만, 이 방식은 시간-주파수 타일에 대해 가장 우세한 음 객체만을 전송함으로써 적당한 품질이 이미 달성될 수 있다는 가정을 이용한다. 그와 관련하여, DirAC의 가정에 대한 추가의 아주 필적하는 것이 있다. DirAC와 유사하게, 오디오 장면의 파라미터화에서의 임의의 오류로 인해 디코딩된 오디오 장면의 아티팩트가 생길 것이다. 게다가, 디코딩된 오디오 장면의 품질에 대한 2-채널 스테레오 다운믹스 신호의 임의의 인지 코딩의 영향을 예측하기 어렵다. 이러한 공간 스퀴징의 일반적 아키텍처로 인해, 이는 3차원 오디오 신호(즉, 높이 차원을 갖는 신호)에는 적용될 수 없고, 아무래도 1 이외의 앰비소닉스 차수에 대해 동작하지 않을 것 같다.

앰비소닉스 형식 및 혼합-차수 표현

공간 음 정보를 전체 구의 서브-공간으로 제약하는 것 - 예컨대, 상반구 또는 구면의 훨씬 더 작은 부분만을 커버하는 것 - 이 F. Zotter, H. Pomberger, M. Noisternig, "Ambisonic Decoding with and without Mode-Matching: A Case Study Using the Hemisphere(모드-정합을 사용하는/사용하지 않는 Ambisonic 디코딩: 반구를 사용한 사례 연구)", Proc. of 2nd Ambisonics Symposium, May 2010, Paris, France에서 제안되었다. 궁극적으로, 전체 장면이 대상 오디오 장면을 구성하는 특정의 위치들에 관련될 구면 상의 몇개의 이러한 제약된 '섹터'로 이루어져 있을 수 있다. 이것은 복잡한 오디오 장면의 일종의 혼합-차수 합성(mixed-order composition)을 생성한다. 인지 코딩이 언급되어 있지 않다.

파라메트릭 코딩(Parametric Coding)

WFS(wave-field synthesis) 시스템에서 재생되기로 되어 있는 콘텐츠를 기술하고 전송하는 '전통적인' 방식은 오디오 장면의 개별 음 객체의 파라메트릭 코딩을 통하는 것이다. 각각의 음 객체는 오디오 스트림(모노, 스테레오 또는 기타) 및 전체 오디오 장면 내에서의 음 객체의 역할에 관한 메타 정보 - 즉, 가장 중요한 것은 객체의 위치임 - 로 이루어져 있다. 이 객체-지향 패러다임은 유럽 'CARROUSO', cf. S. Brix, Th. Sporer, J. Plogsties, "CARROUSO - An European Approach to 3D-Audio(CARROUSO - 3D 오디오에 대한 유럽 방식)", Proc. of 110th AES Convention, Paper 5314, May 2001, Amsterdam, The Netherlands에서 WFS 재생을 위해 세부 조정되었다.

각각의 음 객체를 다른 음 객체와 독립적으로 압축하는 한 일례는 다운믹스 시나리오에서의 다중 객체의 결합 코딩 - Ch. Faller, "Parametric Joint-Coding of Audio Sources(오디오 소스의 파라메트릭 결합 코딩)", Proc. of 120th AES Convention, Paper 6752, May 2006, Paris, France에 기술되어 있음 - 이며, 여기서 의미있는 다운믹스 신호(이 다운믹스 신호로부터, 보조 정보의 도움을 받아, 다중-객체 장면이 수신기측에서 디코딩될 수 있음)를 생성하기 위해 간단한 심리 음향적 단서가 사용된다. 로컬 스피커 설정에 대한 오디오 장면 내에 객체를 렌더링하는 것도 역시 수신기측에서 일어날 수 있다.

객체-지향 형식에서, 녹음이 특히 복잡하다. 이론상, 개별 음 객체의 완벽한 '드라이' 녹음('dry' recording) - 즉, 음 객체에 의해 방출된 직접음만을 배타적으로 포착하는 녹음 - 이 필요할 것이다. 이 방식의 과제는 2가지 - 첫째, 마이크 신호 간에 상당한 크로스토크가 있기 때문에 자연스런 '라이브' 녹음에서 드라이 포착(dry capturing)이 어렵고, 둘째, 드라이 녹음으로 구성되는 오디오 장면에는 녹음이 행해진 방의 '분위기'와 자연스러움이 없음 - 이다.

파라메트릭 코딩 및 앰비소닉스

일부 연구자는 앰비소닉스 신호를 다수의 개별 음 객체와 결합시키는 것을 제안하였다. 이론적 근거는 앰비소닉스 표현을 통해 적절히 국소화되지 않는 주변음 및 음 객체를 포착하고 파라미터 방식을 통해 다수의 적절히 배치된 개별 음 객체를 추가하는 것이다. 장면의 객체-지향 부분에 대해, 순수 파라미터 표현(이전 섹션 참조)에 대한 것과 유사한 코딩 메커니즘이 사용된다. 즉, 이들 개별 음 객체는 통상적으로 모노 사운드 트랙과 위치 및 잠재적 움직임에 관한 정보와 함께 온다 - 참조: MPEG-4 AudioBIFS 표준에 대한 앰비소닉스 재생의 도입 -. 그 표준에서, 원시 앰비소닉스 및 객체 스트림을 (AudioBIFS) 렌더링 엔진에 어떻게 전송할지는 오디오 장면의 제작자에 달려 있다. 이것은 MPEG-4에 정의된 임의의 오디오 코덱이 앰비소닉스 계수를 직접 인코딩하는 데 사용될 수 있다는 것을 의미한다.

파면 코딩

객체-지향 방식을 사용하는 대신에, 파면 코딩은 WFS(wave field synthesis) 시스템의 이미 렌더링된 스피커 신호를 전송한다. 인코더는 특정의 스피커 집합에 대한 모든 렌더링을 수행한다. 스피커들로 된 곡선의 의사 직선 윈도우 세그먼트(windowed, quasi-linear segment)에 대해 다차원 시공간 대 주파수 변환이 수행된다. (시간-주파수 및 공간-주파수 둘다에 대한) 주파수 계수는 어떤 심리 음향적 모델을 사용하여 인코딩된다. 보통의 시간-주파수 마스킹에 부가하여, 또한 공간-주파수 마스킹이 적용될 수 있다 - 즉, 마스킹 현상이 공간 주파수의 함수인 것으로 가정된다 -. 디코더측에서, 인코딩된 스피커 채널이 압축 해제되어 재생된다.

도 5는 일련의 마이크가 상부 부분에 있고 일련의 스피커가 하부 부분에 있는 경우의 파면 코딩의 원리를 나타낸 것이다. 도 6은 F. Pinto, M. Vetterli, "Wave Field Coding in the Spacetime Frequency Domain(시공간 주파수 영역에서의 파면 코딩)", Proc. of IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 2008, Las Vegas, NV, USA에 따른 인코딩 처리를 나타낸 것이다.

인지 파면 코딩에 관한 게시된 실험은 시공간 대 주파수 변환이 2-소스 신호 모델에 대한 렌더링된 스피커 채널의 개별 인지 압축에 비해 약 15%의 데이터 레이트를 절감한다는 것을 보여주고 있다. 그럼에도 불구하고, 이 처리는, 어쩌면 스피커 채널들 사이의 복잡한 교차 상관 특성을 포착하지 못하는 것으로 인해, 객체-지향 패러다임에 의해 달성될 압축 효율을 갖지 않는데, 그 이유는 음파가 상이한 때에 각각의 스피커에 도달할 것이기 때문이다. 추가의 단점은 대상 시스템의 특정의 스피커 레이아웃에 밀접하게 결합되어 있다는 것이다.

만능 공간 정보

전통적인 멀티-채널 압축으로부터 시작하여, 만능 오디오 코덱이 상이한 스피커 시나리오를 해결할 수 있다는 개념도 고려되었다. 예컨대, 고정된 채널 할당 및 관계를 갖는 mp3 서라운드 또는 MPEG 서라운드와 달리, 공간 정보의 표현이 특정의 입력 스피커 구성과 독립적으로 설계된다 - 참조: M.M. Goodwin, J.-M. Jot, "A Frequency-Domain Framework for Spatial Audio Coding Based on Universal Spatial Cues(만능 공간 정보에 기초한 공간 오디오 코딩에 대한 주파수-영역 프레임워크)", Proc. of 120th AES Convention, Paper 6751, May 2006, Paris, France; M.M. Goodwin, J.-M. Jot, "Analysis and Synthesis for Universal Spatial Audio Coding(만능 공간 오디오 코딩에 대한 분석 및 합성)", Proc. of 121st AES Convention, Paper 6874, October 2006, San Francisco, CA, USA; M.M. Goodwin, J.-M. Jot, "Primary-Ambient Signal Decomposition and Vector-Based Localisation for Spatial Audio Coding and Enhancement(공간 오디오 코딩 및 향상을 위한 1차-주변 신호 분해 및 벡터-기반 국소화)", Proc. of IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 2007, Honolulu, HI, USA -.

개별 입력 채널 신호의 주파수 영역 변환 이후에, 1차음(primary sound)을 주변 성분과 구별하기 위해 각각의 시간-주파수 타일에 대해 주성분 분석이 수행된다. 결과는, 장면 분석을 위한 Gerzon 벡터를 사용하여, 청취자에 중심을 둔 단위 반경을 갖는 원 상의 위치에 대한 방향 벡터의 미분이다.

도 5는 공간 정보의 다운믹싱 및 전송을 사용한 공간 오디오 코딩을 위한 대응하는 시스템을 나타낸 것이다. (스테레오) 다운믹스 신호가 분리된 신호 성분으로 구성되고, 객체 위치에 관한 메타 정보와 함께 전송된다. 디코더는 다운믹스 신호 및 보조 정보로부터 1차음 및 어떤 주변 성분을 복원하고, 그로써 1차음이 로컬 스피커 구성으로 패닝된다. 이것은 상기 DirAC 처리의 멀티-채널 변형으로서 해석될 수 있는데, 그 이유는 전송된 정보가 아주 유사하기 때문이다.

본 발명에서 해결될 문제점은 오디오 장면의 HOA 표현의 개선된 손실 압축을 제공하는 것이며, 그로써 인지 마스킹과 같은 심리 음향적 현상이 고려된다. 이 문제점은 청구항 1 및 청구항 5에 개시된 방법에 의해 해결된다. 이들 방법을 이용하는 장치가 청구항 2 및 청구항 6에 개시되어 있다.

본 발명에 따르면, 압축이 HOA 영역 대신에 공간 영역에서 수행된다(반면에, 상기한 파면 인코딩에서는 마스킹 현상이 공간 주파수의 함수인 것으로 가정되고, 본 발명은 공간 위치의 함수인 마스킹 현상을 사용한다). (N+1)²개의 입력 HOA 계수가, 예컨대, 평면파 분해에 의해, 공간 영역에서의 (N+1)²개의 등가 신호로 변환된다. 이들 등가 신호 각각은 공간에서 연관된 방향으로부터 오는 일련의 평면파를 나타낸다. 간략화된 방식으로, 얻어진 신호는, 입력 오디오 장면 표현으로부터, 연관된 빔의 범위에 속하는 임의의 평면파를 포착하는 마이크 신호를 형성하는 가상 빔으로 해석될 수 있다.

얻어진 일련의 (N+1)²개의 신호는 병렬 인지 코덱의 뱅크에 입력될 수 있는 종래의 시간-영역 신호이다. 임의의 기존의 인지 압축 기법이 적용될 수 있다. 디코더측에서, 개별 공간-영역 신호가 디코딩되고, 원래의 HOA 표현을 복원하기 위해 공간-영역 계수가 다시 HOA 영역으로 변환된다.

이러한 종류의 처리는 상당한 이점을 가진다:

- 심리 음향적 마스킹 각각의 공간-영역 신호가 다른 공간-영역 신호와 분리되어 처리되는 경우, 코딩 오류가 마스커 신호(masker signal)와 동일한 공간 분포를 가질 것이다. 따라서, 디코딩된 공간-영역 계수를 다시 HOA 영역으로 변환한 후에, 코딩 오류의 순간 전력 밀도의 공간 분포가 원래의 신호의 전력 밀도의 공간 분포에 따라 배치될 것이다. 유익하게도, 그에 의해 코딩 오류가 항상 마스킹된 채로 있도록 보장된다. 복잡한 재생 환경에서조차도, 코딩 오류가 항상 정확히 대응하는 마스커 신호와 함께 전파한다. 그렇지만, 주목할 점은, '스테레오 언마스킹(stereo unmasking)'과 유사한 무언가(참조: M. Kahrs, K.H. Brandenburg, "Applications of Digital Signal Processing to Audio and Acoustics(오디오 및 음향에 디지털 신호 처리의 적용)", Kluwer Academic Publishers, 1998)가 원래 2개(2D 경우) 또는 3개(3D 경우)의 기준 위치 사이에 위치하는 음 객체에 대해 여전히 일어날 수 있다는 것이다. 그렇지만, HOA 입력 자료의 차수가 증가하는 경우 이 잠재적인 위험의 가능성 및 심각성이 감소되는데, 그 이유는 공간 영역에서 상이한 기준 위치 사이의 각도 거리가 감소되기 때문이다. 우세한 음 객체의 위치에 따라 HOA 대 공간 변환을 조정함으로써(이하의 특정 실시예를 참조), 이 잠재적인 문제가 완화될 수 있다.

- 공간 역상관: 오디오 장면은 통상적으로 공간 영역에서 드물게 있고, 보통 기본 주변 음장(ambient sound field) 상부에 있는 몇개의 개별 음 객체의 혼합인 것으로 가정된다. 이러한 오디오 장면을 HOA 영역으로 변환 - 이는 기본적으로 공간 주파수로의 변환임 - 함으로써, 공간적으로 드문(즉, 역상관된) 장면 표면이 높게 상관된 일련의 계수로 변환된다. 개별 음 객체에 관한 임의의 정보가 어느 정도 모든 주파수 계수에 걸쳐 '번져' 있다. 일반적으로, 압축 방법의 목표는, 이상적으로는 Karhunen-Loeve 변환에 따라, 역상관된 좌표계를 선택함으로써 중복성을 감소시키는 것이다. 시간-영역 오디오 신호의 경우, 통상적으로 주파수 영역은 보다 역상관된 신호 표현을 제공한다. 그렇지만, 공간 오디오에 대해서는 그렇지 않은데, 그 이유는 공간 영역이 HOA 영역보다 KLT 좌표계에 더 가깝기 때문이다.

- 시간 상관된 신호의 집중: HOA 계수를 공간 영역으로 변환하는 다른 중요한 측면은 강한 시간 상관을 나타낼 가능성이 있는 신호 성분이 - 동일한 물리적 음원으로부터 방출된 것이기 때문에 - 하나 또는 몇개의 계수에 집중되어 있다는 것이다. 이것은 공간적으로 분포된 시간-영역 신호를 압축하는 것에 관련된 임의의 차후의 처리 단계가 최대 시간-영역 상관을 나타낼 수 있다는 것을 의미한다.

- 이해성: 시간-영역 신호에 대해 오디오 콘텐츠의 코딩 및 인지 압축은 잘 알려져 있다. 이와 달리, 고차 앰비소닉스(즉, 2 이상의 차수)와 같은 복잡한 변환된 영역에서의 중복성 및 심리 음향학이 훨씬 덜 이해되고 많은 수학 및 조사를 필요로 한다. 결과적으로, HOA 영역보다 공간 영역에서 효과가 있는 압축 기법을 사용할 때, 많은 기존의 통찰 및 기법이 훨씬 더 쉽게 적용되고 조정될 수 있다. 유익하게도, 시스템의 일부에 대해 기존의 압축 코덱을 이용함으로써 타당한 결과가 신속히 획득될 수 있다.

환언하면, 본 발명은 다음과 같은 이점을 포함한다:

- 심리 음향적 마스킹 효과의 보다 나은 활용,

- 보다 나은 이해성 및 구현하기 쉬움,

- 공간 오디오 장면의 통상적인 합성에 보다 적합함,

- 기존의 방식보다 나은 역상관 특성.

원칙적으로, 본 발명의 인코딩 방법은 HOA 계수로 표시되는, 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩하는 데 적합하며, 상기 방법은,

- 프레임의 O = (N+1)²개의 입력 HOA 계수를, 구면 상의 기준점의 정규 분포를 나타내는 O개의 공간 영역 신호로 변환하는 단계 - 여기서, N은 상기 HOA 계수의 차수이고, 상기 공간 영역 신호 각각은 공간에서 연관된 방향으로부터 오는 일련의 평면파를 나타냄 -,

- 인지 인코딩 단계 또는 스테이지를 사용하여, 그로써 코딩 오류가 들리지 않도록 선택된 인코딩 파라미터를 사용하여 상기 공간 영역 신호 각각을 인코딩하는 단계, 및

- 프레임의 얻어진 비트 스트림을 결합 비트 스트림으로 멀티플렉싱하는 단계를 포함한다.

원칙적으로, 본 발명의 디코딩 방법은 청구항 제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인코딩된 고차 앰비소닉스 표현의 연속 프레임을 디코딩하는 데 적합하고, 상기 디코딩 방법은,

- 수신된 결합 비트 스트림을 O = (N+1)²개의 인코딩된 공간 영역 신호로 디멀티플렉싱하는 단계,

- 상기 인코딩된 공간 영역 신호 각각을, 선택된 인코딩 유형에 대응하는 인지 디코딩 단계 또는 스테이지를 사용하여 그리고 인코딩 파라미터에 상응하는 디코딩 파라미터를 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하는 단계 - 상기 디코딩된 공간 영역 신호는 구면 상의 기준점의 정규 분포를 나타냄 -, 및

- 상기 디코딩된 공간 영역 신호를 프레임의 O개의 출력 HOA 계수로 변환하는 단계 - 여기서, N은 상기 HOA 계수의 차수임 - 를 포함한다.

원칙적으로, 본 발명의 인코딩 장치는 HOA 계수로 표시되는, 2차원 또는 3차원 음장의 고차 앰비소닉스 표현의 연속 프레임을 인코딩하는 데 적합하며, 상기 장치는,

- 프레임의 O = (N+1)²개의 입력 HOA 계수를, 구면 상의 기준점의 정규 분포를 나타내는 O개의 공간 영역 신호로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 HOA 계수의 차수이고, 상기 공간 영역 신호 각각은 공간에서 연관된 방향으로부터 오는 일련의 평면파를 나타냄 -,

- 인지 인코딩 단계 또는 스테이지를 사용하여, 그로써 코딩 오류가 들리지 않도록 선택된 인코딩 파라미터를 사용하여 상기 공간 영역 신호 각각을 인코딩하도록 구성된 수단, 및

- 프레임의 얻어진 비트 스트림을 결합 비트 스트림으로 멀티플렉싱하도록 구성된 수단을 포함한다.

원칙적으로, 본 발명의 인코딩 장치는 청구항 제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인코딩된 고차 앰비소닉스 표현의 연속 프레임을 디코딩하는 데 적합하며, 상기 장치는,

- 수신된 결합 비트 스트림을 O = (N+1)²개의 인코딩된 공간 영역 신호로 디멀티플렉싱하도록 구성된 수단,

- 상기 인코딩된 공간 영역 신호 각각을, 선택된 인코딩 유형에 대응하는 인지 디코딩 단계 또는 스테이지를 사용하여 그리고 인코딩 파라미터에 상응하는 디코딩 파라미터를 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하도록 구성된 수단 - 상기 디코딩된 공간 영역 신호는 구면 상의 기준점의 정규 분포를 나타냄 -, 및

- 상기 디코딩된 공간 영역 신호를 프레임의 O개의 출력 HOA 계수로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 HOA 계수의 차수임 - 을 포함한다.

본 발명의 유리한 부가적인 실시예가 각자의 종속 청구항에 개시되어 있다.

본 발명의 예시적인 실시예에 대해 첨부 도면을 참조하여 기술한다.
도 1은 B-형식 입력에서의 지향 오디오 코딩(directional audio coding)을 나타낸 도면.
도 2는 B-형식 신호의 직접 인코딩(direct encoding)을 나타낸 도면.
도 3은 공간 스퀴징(spatial squeezing)의 원리를 나타낸 도면.
도 4는 공간 스퀴징 인코딩 처리를 나타낸 도면.
도 5는 파면(Wave Field) 코딩의 원리를 나타낸 도면.
도 6은 파면 인코딩 처리를 나타낸 도면.
도 7은 공간 정보(spatial cue)의 다운믹싱 및 전송을 사용한 공간 오디오 코딩을 나타낸 도면.
도 8은 본 발명의 인코더 및 디코더의 예시적인 실시예를 나타낸 도면.
도 9는 상이한 신호의 BMLD(binaural masking level difference)를 신호의 두 귀 사이의(inter-aural) 위상차 또는 시간차의 함수로서 나타낸 도면.
도 10은 BMLD 모델링을 포함하는 결합 심리 음향적 모델을 나타낸 도면.
도 11은 예시적인 최대의 예상된 재생 시나리오 - 7x5 좌석(일례로서 임의적으로 선택됨)을 갖는 극장 - 를 나타낸 도면.
도 12는 도 11의 시나리오에 대한 최대 상대 지연 및 감쇠의 도출을 나타낸 도면.
도 13은 음장 HOA 성분과 2개의 음 객체 A 및 B의 압축을 나타낸 도면.
도 14는 음장 HOA 성분과 2개의 음 객체 A 및 B에 대한 결합 심리 음향적 모델을 나타낸 도면.

도 8은 본 발명의 인코더 및 디코더의 블록도를 나타낸 것이다. 본 발명의 이 기본 실시예에서, 입력 HOA 표현 또는 신호 IHOA의 연속적인 프레임이 변환 단계 또는 스테이지(81)에서 3차원 구면 또는 2차원 원 상의 기준점의 정규 분포에 따라 공간-영역 신호로 변환된다.

HOA 영역으로부터 공간 영역으로의 변환과 관련하여, 앰비소닉스 이론에서, 공간 내의 특정의 지점에서와 그 근방에서의 음장이 절단된 푸리에-베셀(Fourier-Bessel) 급수에 의해 기술된다. 일반적으로, 기준점이 선택된 좌표계의 원점에 있는 것으로 가정된다. 구좌표를 사용하는 3차원 응용에서, 모든 정의된 인덱스

및

에 대한 계수

를 갖는 푸리에 급수는 방위각

, 기울기

및 원점으로부터의 거리

에서의 음장의 압력

을 기술하고, 여기서

는 파수이고

는

및

에 의해 정의되는 방향에 대한 구면 조화함수에 엄격히 관련되어 있는 푸리에-베셀 급수의 커널 함수이다. 편의상, HOA 계수

가 정의

에서 사용된다. 특정의 차수

에 대해, 푸리에-베셀 급수에서의 계수의 수는 O=(N+1)²이다.

원좌표를 사용하는 2차원 응용에서, 커널 함수는 방위각

에만 의존한다.

인 모든 계수는 0의 값을 가지며 생략될 수 있다. 따라서, HOA 계수의 수는 단지

로 감소된다. 게다가, 기울기

가 고정되어 있다. 2D 경우에 그리고 원 상의 음 객체의 완전 균일 분포의 경우(즉,

인 경우), Ψ 내의 모드 벡터가 공지된 이산 푸리에 변환(DFT)의 커널 함수와 동일하다.

HOA 영역 대 공간 영역 변환에 의해, 입력 HOA 계수에 의해 기술되는 원하는 음장을 정확히 재생하기 위해 인가되어야만 하는 (무한 거리에 평면파를 방출하는) 가상 스피커의 구동기 신호가 도출된다.

모든 모드 계수가 결합되어 모드 행렬 Ψ을 이룰 수 있고, 여기서 i번째 열은 i번째 가상 스피커의 방향에 따른 모드 벡터

를 포함한다. 공간 영역에서의 원하는 신호의 수는 HOA 계수의 수와 같다. 따라서, 모드 행렬 Ψ의 역

에 의해 정의되는 변환/디코딩 문제에 대한 고유의 해가 존재한다:

.

이 변환은 가상 스피커가 평면파를 방출한다는 가정을 사용한다. 실세계 스피커는 재생을 위한 디코딩 규칙이 유념해야 하는 상이한 재생 특성을 가진다.

기준점의 한 일례는 J. Fliege, U. Maier, "The Distribution of Points on the Sphere and Corresponding Cubature Formulae(구면 상의 점의 분포 및 대응하는 입체구적법 수식)", IMA Journal of Numerical Analysis, vol.19, no.2, pp.317-334, 1999에 따른 샘플링 점이다. 이 변환에 의해 획득되는 공간-영역 신호는, 예컨대, MPEG-1 오디오 계층 III (일명 mp3) 표준에 따라 동작하는 독립적인 기지의 'O'개의 병렬 인지 인코더 단계(821, 822, ..., 82O)에 입력되고, 여기서 'O'는 병렬 채널의 수 O에 대응한다. 이들 인코더 각각은 코딩 오류가 들리지 않도록 파라미터화된다. 얻어지는 병렬 비트 스트림이 멀티플렉서 단계 또는 스테이지(83)에서 결합 비트 스트림(BS)으로 멀티플렉싱되어 디코더측으로 전송된다. mp3 대신에, AAC 또는 Dolby AC-3와 같은 임의의 다른 적당한 오디오 코덱 유형이 사용될 수 있다.

디코더측에서, 디멀티플렉서 단계 또는 스테이지(86)는 병렬 인지 코덱의 개별 비트 스트림을 도출하기 위해 수신된 결합 비트 스트림을 디멀티플렉싱하고, 이 개별 비트 스트림은 (선택된 인코딩 유형에 대응하여 그리고 인코딩 파라미터에 상응하는 - 즉, 디코딩 오류가 들리지 않도록 선택된 - 디코딩 파라미터를 사용하여) 미압축된 공간-영역 신호를 복원하기 위해 공지된 디코더 단계 또는 스테이지(871, 872, ..., 87O)에서 디코딩된다. 얻어진 신호 벡터는 각각의 순간 시간에 대해 역변환 단계 또는 스테이지(88)에서 HOA 영역으로 변환되고, 그로써 연속 프레임으로 출력되는 디코딩된 HOA 표현 또는 신호 OHOA를 복원한다.

이러한 처리 또는 시스템을 사용하여, 상당한 데이터 레이트의 감소가 달성될 수 있다. 예를 들어, EigenMike의 3차 녹음으로부터의 입력 HOA 표현은 (3+1)²개의 계수 * 44100 Hz * 24 비트/계수 = 16.9344 Mbit/s의 원시 데이터 레이트를 가진다. 공간 영역으로의 변환에 의해 44100 Hz의 샘플 레이트를 갖는 (3+1)²개의 신호가 얻어진다. 44100*24 = 1.0584 Mbit/s의 데이터 레이트를 나타내는 이들 (모노) 신호 각각은 mp3 코덱을 사용하여 64 kbit/s의 개별 데이터 레이트로 독립적으로 압축된다(이는 모노 신호에 대해 거의 투명하다는 것을 의미함). 이어서, 결합 비트 스트림의 총 데이터 레이트는 (3+1)²개의 신호 * 신호당 64 kbit/s ~ 1 Mbit/s이다.

이 평가는 보수적인 편인데, 그 이유는 청취자 주변의 구 전체가 음으로 균질하게 채워져 있는 것으로 가정하고 있고 상이한 공간 위치에 있는 음 객체들 사이의 임의의 교차-마스킹 효과를 완전히 무시하고 있기 때문이다 - 예컨대, 80dB를 갖는 마스커 신호는 단지 몇도의 각도만큼 떨어져 있는 약한 톤(예컨대, 40 dB)을 마스킹할 것이다 -. 이하에서 기술하는 바와 같이, 이러한 공간 마스킹 효과를 고려함으로써, 높은 압축 인자가 달성될 수 있다. 게다가, 상기 평가는 공간-영역 신호 집합 내의 인접한 위치들 사이의 임의의 상관을 무시하고 있다. 다시 말하지만, 보다 나은 압축 처리가 이러한 상관을 사용하는 경우, 보다 높은 압축비가 달성될 수 있다. 마지막이지만 아주 중요한 것은, 시변 비트 전송률이 허용가능한 경우, 음 장면(sound scene) 내의 객체의 수가 크게 변하기 때문에 - 영화 음(film sound)의 경우 특히 그러함 - 훨씬 더 높은 압축 효율이 예상될 수 있다는 것이다. 얻어지는 비트 레이트를 추가적으로 감소시키기 위해 임의의 음 객체 희소성(sound object sparseness)이 이용될 수 있다.

변형: 심리 음향학

도 8의 실시예에서, 미니멀리스틱(minimalistic) 비트 레이트 제어가 가정된다 - 즉, 모든 개별 인지 코덱이 동일한 데이터 레이트로 실행될 것으로 예상된다 -. 이미 앞서 언급한 바와 같이, 그 대신에 전체 공간 오디오 장면을 고려하는 보다 복잡한 비트 레이트 제어를 사용함으로써 상당한 개선이 달성될 수 있다. 보다 구체적으로는, 시간-주파수 마스킹 및 공간 마스킹 특성의 결합이 주된 역할을 한다. 이것의 공간 차원에 대해, 마스킹 현상은 공간 주파수가 아니라 청취자와 관련한 음 이벤트(sound event)의 절대 각도 위치의 함수이다(주목할 점은, 이러한 이해가 파면 코딩 섹션에서 언급한 Pinto 등에서의 이해와 다르다는 것이다). 마스커(masker)와 마스키(maskee)의 모노딕 제시(monodic presentation)와 비교한 공간 제시(spatial presentation)에 대해 관찰되는 마스킹 임계값을 BMLD(Binaural Masking Level Difference)이라고 한다(참조: J. Blauert, "Spatial Hearing: The Psychophysics of Human Sound Localisation(공간 청취: 사람의 음 국소화의 정신 물리학)", The MIT Press, 1996에서의 섹션 3.2.2). 일반적으로, BMLD는 신호 합성, 공간 위치, 주파수 범위와 같은 몇개의 파라미터에 의존한다. 공간 제시에서의 마스킹 임계값은 모노딕 제시에 대한 것보다 최대 ~20 dB만큼 더 낮을 수 있다. 따라서, 공간 영역에 걸쳐 마스킹 임계값을 이용하는 것은 이것을 고려할 것이다.

A) 본 발명의 일 실시예는 (시간-)주파수는 물론 전체 원 또는 구면에 대한 음 입사 각도(angle of sound incidence) - 각각, 오디오 장면의 차원에 의존함 - 에 의존하는 다차원 마스킹 임계값 곡선을 산출하는 심리 음향적 마스킹 모델을 사용한다. 이 마스킹 임계값은 BMLD를 고려하는 공간 '확산 함수'에 의한 조작을 통해 (N+1)²개의 기준 위치에 대해 획득된 개별 (시간-)주파수 마스킹 곡선을 결합함으로써 획득될 수 있다. 그로써, 근처에 위치하는 - 즉, 마스커까지의 각도 거리가 작게 배치되어 있는 - 신호에 대한 마스커의 영향이 이용될 수 있다.

도 9는 상이한 신호(광대역 노이즈 마스커와 원하는 신호인 사인파 또는 100 μs 임펄스열)에 대한 BMLD를 신호의 두 귀 사이의 위상차 또는 시간차(즉, 위상각 및 시간 지연)의 함수로서 나타낸 것이며, 이에 대해서는 상기 논문 "Spatial Hearing: The Psychophysics of Human Sound Localisation"에 개시되어 있다.

최악의 경우의 특성의 역(즉, 가장 높은 BMLD 값을 갖는 것)이 한 방향에 있는 마스커의 다른 방향에 있는 마스키에 대한 영향을 결정하는 보수적인 "번짐(smearing)" 함수로서 사용될 수 있다. 특정의 경우에 대한 BMLD를 알고 있는 경우, 이 최악의 경우의 요건이 완화될 수 있다. 가장 관심을 끄는 경우는 마스커가 공간적으로 좁지만 (시간-)주파수에서 넓은 노이즈인 경우이다.

도 10은 결합 마스킹 임계값(MT)을 도출하기 위해 BMLD의 모델이 심리 음향적 모델에 어떻게 포함될 수 있는지를 나타낸 것이다. 각각의 공간 방향에 대한 개별 MT가 심리 음향적 모델 단계 또는 스테이지(1011, 1012, ..., 101O)에서 계산되고, 대응하는 공간 확산 함수(SSF) 단계 또는 스테이지(1021, 1022, ..., 102O)에 입력된다 - 이 공간 확산 함수는, 예컨대, 도 9에 도시된 BMLD들 중 하나의 역임 -. 따라서, 각각의 방향으로부터의 모든 신호 기여에 대해 전체 구/원(3D/2D 경우)을 커버하는 MT가 계산된다. 모든 개별 MT의 최대값이 단계/스테이지(103)에서 계산되고, 전체 오디오 장면에 대한 결합 MT를 제공한다.

B) 이 실시예의 추가의 확장은 대상 청취 환경 - 예컨대, 많은 청중이 있는 극장 또는 기타 행사장 - 에서의 음 전파의 모델을 필요로 하는데, 그 이유는 음 인지(sound perception)가 스피커에 대한 청취 위치에 의존하기 때문이다. 도 11은 7*5=35개의 좌석을 갖는 예시적인 극장 시나리오를 나타내고 있다. 극장에서 공간 오디오 신호를 재생할 때, 오디오 인지 및 레벨은 관람석의 크기 및 개별 청취자의 위치에 의존한다. 스윗 스폿 - 즉, 보통 관람석의 중앙 또는 기준 위치(110) - 에서만 '완벽한' 렌더링이 일어날 것이다. 예컨대, 청중의 좌측 주변에 위치하는 좌석 위치가 고려되는 경우, 우측으로부터 도달하는 음이 좌측으로부터 도달하는 음에 비해 감쇠도 되고 지연도 되는데, 그 이유는 우측 스피커까지의 직접 LOS(direct line-of-sight)가 좌측 스피커까지의 직접 LOS보다 더 길기 때문이다. 공간적으로 상이한 방향으로부터의 코딩 오류의 언마스킹 - 즉, 공간적 언마스킹 효과 - 을 방지하기 위해 최악의 경우의 고려 사항에서 비최적의 청취 위치에 대한 음 전파로 인한 이러한 잠재적인 방향-의존적 감쇠 및 지연이 고려되어야만 한다. 이러한 효과를 방지하기 위해, 인지 코덱의 심리 음향적 모델에서 시간 지연 및 레벨 변화가 고려된다

수정된 BMLD 값의 모델링을 위한 수학식을 도출하기 위해, 임의의 마스커 및 마스키 방향의 조합에 대해 최대 예상 상대 시간 지연 및 신호 감쇠가 모델링된다. 이하에서, 예시적인 2차원 설정에 대해 이것이 수행된다. 도 11의 극장 일례의 가능한 간략화가 도 12에 도시되어 있다. 청중이 반경

의 원 - 참조: 도 11에 도시된 대응하는 원 - 내에 있을 것으로 예상된다. 2개의 신호 방향이 고려된다 - 마스커

는 좌측(극장에서의 앞쪽 방향)으로부터 평면파로서 오는 것으로 나타내어져 있고, 마스키

는 도 12의 우측 하부(극장에서 좌측 후방에 대응함)로부터 도달하는 평면파이다 -.

2개의 평면파의 동시 도달 시간의 라인이 양분하는 파선으로 나타내어져 있다. 이 양분하는 선까지의 거리가 가장 큰 원주 상의 2개의 점이 가장 큰 시간/레벨차가 일어나는 관람석 내의 위치이다. 도면에 표시된 우측 하부 지점(120)에 도달하기 전에, 음파는 청취 영역의 주변에 도달한 후에 거리

및

만큼 더 진행한다:

,

.

그러면, 그 지점에서 마스커

와 마스키

사이의 상대 타이밍 차이는

이고,

여기서

는 음속을 나타낸다.

전파 손실의 차이를 구하기 위해, 2배 거리마다

(정확한 숫자는 스피커 기술에 따라 달라짐)만큼의 손실을 갖는 간단한 모델이 그 후에 가정된다. 게다가, 실제의 음원이 청취 영역의 외주부(outer perimeter)로부터

의 거리를 갖는 것으로 가정된다. 그러면, 최대 전파 손실은

로 된다.

이 재생 시나리오 모델은 2개의 파라미터

및

를 포함한다. 이들 파라미터는 각자의 BMLD 항을 추가함으로써 - 즉, 대입함으로써 - 상기한 결합 심리 음향적 모델링에 통합될 수 있다:

.

그로써, 심지어 큰 방에서도 임의의 양자화 오차 노이즈가 다른 공간 신호 성분에 의해 마스킹되도록 보장된다.

C) 이전의 섹션들에서 소개된 것과 동일한 고려사항이 하나 이상의 개별 음 객체를 하나 이상의 HOA 성분과 결합하는 공간 오디오 형식에 적용될 수 있다. 앞서 설명한 바와 같이 대상 환경의 특성을 선택적으로 고려하는 것을 비롯하여, 전체 오디오 장면에 대해 심리 음향적 마스킹 임계값의 추정이 수행된다. 이어서, 개별 음 객체의 개별적인 압축은 물론 HOA 성분의 압축도 비트 할당을 위해 결합 심리 음향적 마스킹 임계값을 고려한다.

HOA 부분 및 어떤 다른 개별 음 객체 둘다를 포함하는 보다 복잡한 오디오 장면의 압축이 상기 결합 심리 음향적 모델과 유사하게 수행될 수 있다. 관련 압축 처리가 도 13에 나타내어져 있다.

상기 고려사항과 병렬로, 결합 심리 음향적 모델은 모든 음 객체를 고려해야만 한다. 이상에서 소개된 것과 동일한 이론적 근거 및 구조가 적용될 수 있다. 대응하는 심리 음향적 모델의 상위 레벨 블록도가 도 14에 도시되어 있다.

Claims

HOA 계수들로 표시되는, 2차원 또는 3차원 음장(sound field)의 고차 앰비소닉스 표현(Ambisonics representation)의 수신된 연속 프레임들에 대해 인코딩을 수행하는 방법으로서,
3차원 입력에 대해 프레임의 O = (N+1)²개의 입력 HOA 계수(IHOA)들, 또는 2차원 입력에 대해 프레임의 O = 2N+1개의 입력 HOA 계수(IHOA)들을, 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타내는 O개의 공간 영역 신호들로 변환하는 단계 - 여기서, N은 상기 입력 HOA 계수들의 차수이고 3 이상이며, 상기 O개의 공간 영역 신호들 각각은 공간에서 연관된 방향들로부터 오는 일련의 평면파(set of plane waves)를 나타내고, 대응하는 변환 행렬은 모드 행렬 Ψ의 역이고, 모든 계수들이 상기 모드 행렬 Ψ에서 결합되고, 여기서 i번째 열은 i번째 기준점의 방향에 따른 모드 벡터
를 포함함 -,
인지 압축 인코딩(perceptual compression encoding) 단계들 또는 스테이지들을 사용하여, 그로써 코딩 오류가 마스킹된 채로 있도록 선택된 인코딩 파라미터들을 사용하여, 상기 O개의 공간 영역 신호들 각각을 인코딩하는 단계, 및
프레임의 얻어진 비트 스트림들을 결합(joint) 비트 스트림(BS)으로 멀티플렉싱하는 단계
를 포함하는, 인코딩을 수행하는 방법.
제1항에 있어서, 상기 인지 압축 인코딩에서 사용되는 마스킹은 심리 음향적 마스킹이고, 시간-주파수 마스킹과 공간 마스킹(spatial masking)의 조합인, 인코딩을 수행하는 방법.
제1항 또는 제2항에 있어서, O개의 공간 영역 신호들로의 상기 변환은 평면파 분해(plane wave decomposition)인, 인코딩을 수행하는 방법.
제1항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 인코딩하는 단계는 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는, 인코딩을 수행하는 방법.
제1항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹(unmasking)을 방지하기 위해서, 상기 인코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치(non-optimum listening position)들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는, 인코딩을 수행하는 방법.
제1항에 있어서, 상기 인지 압축 인코딩 단계들 또는 스테이지들에서 사용되는 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려한 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향(sound direction)들에 대해 결합 마스킹 임계값을 얻도록 형성되는, 인코딩을 수행하는 방법.
제1항에 있어서, 개별 음 객체들은 개별적으로 인코딩되는, 인코딩을 수행하는 방법.
HOA 계수들로 표시되는, 2차원 또는 3차원 음장의 고차 앰비소닉스 표현의 수신된 연속 프레임들에 대해 인코딩을 수행하는 장치로서,
3차원 입력에 대해 프레임의 O = (N+1)²개의 입력 HOA 계수(IHOA)들, 또는 2차원 입력에 대해 프레임의 O = 2N+1개의 입력 HOA 계수(IHOA)들을, 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타내는 O개의 공간 영역 신호들로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 입력 HOA 계수들의 차수이고 3 이상이며, 상기 O개의 공간 영역 신호들 각각은 공간에서 연관된 방향들로부터 오는 일련의 평면파를 나타내고, 대응하는 변환 행렬은 모드 행렬 Ψ의 역이고, 모든 계수들이 상기 모드 행렬 Ψ에서 결합되고, 여기서 i번째 열은 i번째 기준점의 방향에 따른 모드 벡터
를 포함함 -,
인지 압축 인코딩 단계들 또는 스테이지들을 사용하여, 그로써 코딩 오류가 마스킹된 채로 있도록 선택된 인코딩 파라미터들을 사용하여, 상기 O개의 공간 영역 신호들 각각을 인코딩하도록 구성된 수단, 및
프레임의 얻어진 비트 스트림들을 결합 비트 스트림(BS)으로 멀티플렉싱하도록 구성된 수단
을 포함하는, 인코딩을 수행하는 장치.
제8항에 있어서, 상기 인지 압축 인코딩에서 사용되는 마스킹은 심리 음향적 마스킹이고, 시간-주파수 마스킹과 공간 마스킹의 조합인, 인코딩을 수행하는 장치.
제8항 또는 제9항에 있어서, 상기 O개의 공간 영역 신호들로 변환하는 것은 평면파 분해인, 인코딩을 수행하는 장치.
제8항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 인코딩하는 것은 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는, 인코딩을 수행하는 장치.
제8항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹을 방지하기 위해서, 상기 인코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는, 인코딩을 수행하는 장치.
제8항에 있어서, 상기 인지 압축 인코딩 단계들 또는 스테이지들에서 사용되는 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려한 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향들에 대해 결합 마스킹 임계값을 얻도록 형성되는, 인코딩을 수행하는 장치.
제8항에 있어서, 개별 음 객체들은 개별적으로 인코딩되는, 인코딩을 수행하는 장치.
제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인지 압축 인코딩된 고차 앰비소닉스 표현의 수신된 연속 프레임들을 디코딩하는 방법으로서,
3차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = (N+1)²개의 인지 압축 인코딩된 공간 영역 신호들로, 또는 2차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = 2N+1개의 인지 압축 인코딩된 공간 영역 신호들로 디멀티플렉싱하는 단계,
상기 O개의 인코딩된 공간 영역 신호들 각각을, 선택된 인코딩 유형에 대응하는 인지 압축 디코딩 단계들 또는 스테이지들을 사용하여 그리고 인코딩 파라미터들에 상응하는 압축 디코딩 파라미터들을 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하는 단계 - O개의 디코딩된 공간 영역 신호들은 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타냄 -, 및
상기 O개의 디코딩된 공간 영역 신호들을 프레임의 O개의 출력 HOA 계수(OHOA)들로 변환하는 단계 - 여기서, N은 상기 출력 HOA 계수들의 차수임 -
를 포함하는 디코딩 방법.
제15항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 디코딩하는 단계는 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는 디코딩 방법.
제15항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹을 방지하기 위해서, 상기 디코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는 디코딩 방법.
제15항에 있어서, 상기 인지 압축 디코딩 단계들 또는 스테이지들에서 사용되는 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려한 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향들에 대해 결합 마스킹 임계값을 얻도록 형성되는 디코딩 방법.
제15항에 있어서, 개별 음 객체들은 개별적으로 디코딩되는 디코딩 방법.
제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인지 압축 인코딩된 고차 앰비소닉스 표현의 수신된 연속 프레임들을 디코딩하는 장치로서,
3차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = (N+1)²개의 인지 압축 인코딩된 공간 영역 신호들로, 또는 2차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = 2N+1개의 인지 압축 인코딩된 공간 영역 신호들로 디멀티플렉싱하도록 구성된 수단,
상기 O개의 인코딩된 공간 영역 신호들 각각을, 선택된 인코딩 유형에 대응하는 인지 압축 디코딩 단계들 또는 스테이지들을 사용하여 그리고 인코딩 파라미터들에 상응하는 디코딩 파라미터들을 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하도록 구성된 수단 - O개의 디코딩된 공간 영역 신호들은 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타냄 -, 및
상기 O개의 디코딩된 공간 영역 신호들을 프레임의 O개의 출력 HOA 계수(OHOA)들로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 출력 HOA 계수들의 차수임 -
을 포함하는 디코딩 장치.
제20항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 디코딩하는 것은 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는 디코딩 장치.
제20항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹을 방지하기 위해서, 상기 디코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는 디코딩 장치.
제20항에 있어서, 상기 인지 압축 디코딩 단계들 또는 스테이지들을 사용할 때의 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려하는 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향들에 대해 결합 마스킹 임계값을 얻도록 형성되는 디코딩 장치.
제20항에 있어서, 개별 음 객체들은 개별적으로 디코딩되는 디코딩 장치.