KR101909573B1 - 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치 - Google Patents

2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치 Download PDF

Info

Publication number
KR101909573B1
KR101909573B1 KR1020110138434A KR20110138434A KR101909573B1 KR 101909573 B1 KR101909573 B1 KR 101909573B1 KR 1020110138434 A KR1020110138434 A KR 1020110138434A KR 20110138434 A KR20110138434 A KR 20110138434A KR 101909573 B1 KR101909573 B1 KR 101909573B1
Authority
KR
South Korea
Prior art keywords
masking
spatial domain
encoding
spatial
decoding
Prior art date
Application number
KR1020110138434A
Other languages
English (en)
Other versions
KR20120070521A (ko
Inventor
피터 잭스
요한 마르커스 바트케
요하네스 보엠
스벤 고든
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20120070521A publication Critical patent/KR20120070521A/ko
Application granted granted Critical
Publication of KR101909573B1 publication Critical patent/KR101909573B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H20/00Arrangements for broadcast or for distribution combined with broadcast
    • H04H20/86Arrangements characterised by the broadcast information itself
    • H04H20/88Stereophonic broadcast systems
    • H04H20/89Stereophonic broadcast systems using three or more audio channels, e.g. triphonic or quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

HOA(higher-order Ambisonics) 기술을 사용한 공간 오디오 장면의 표현은 통상적으로 순간 시간(time instant)마다 많은 수의 계수를 필요로 한다. 오디오 신호의 실시간 전송을 필요로 하는 대부분의 실제 응용에 대해 이 데이터 레이트는 너무 높다. 본 발명에 따르면, HOA 영역 대신에 공간 영역에서 압축이 수행된다. (N+1)2개의 입력 HOA 계수가 공간 영역에서의 (N+1)2개의 등가 신호로 변환되고, 얻어지는 (N+1)2개의 시간-영역 신호가 병렬 인지 코덱의 뱅크에 입력된다. 디코더측에서, 개별 공간-영역 신호가 디코딩되고, 원래의 HOA 표현을 복원하기 위해 공간-영역 계수가 다시 HOA 영역으로 변환된다.

Description

2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치{METHOD AND APPARATUS FOR ENCODING AND DECODING SUCCESSIVE FRAMES OF AN AMBISONICS REPRESENTATION OF A 2- OR 3-DIMENSIONAL SOUND FIELD}
본 발명은 2차원 또는 3차원 음장의 고차 앰비소닉스 표현(Ambisonics representation)의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치에 관한 것이다.
앰비소닉스는 일반적으로 임의의 특정의 스피커 또는 마이크 배치와 독립적인 음장 기술(sound field description)을 제공하는 구면 조화함수(spherical harmonics)에 기초한 특정의 계수를 사용한다. 이것으로부터 합성 장면의 음장 녹음 또는 발생 동안 스피커 위치에 관한 정보를 필요로 하지 않는 기술이 얻어진다. 앰비소닉스 시스템에서의 재현 정확도는 그의 차수 N에 의해 변경될 수 있다. 3D 시스템의 경우 그 차수에 의해 음장을 기술하는 데 필요한 오디오 정보 채널의 수가 결정될 수 있는데, 그 이유는 이것이 구면 조화 기저(spherical harmonic basis)의 수에 의존하기 때문이다. 계수 또는 채널의 수 O는 O = (N+1)2이다.
HOA(higher-order Ambisonics) 기술(즉, 2 이상의 차수)을 사용한 복잡한 공간 오디오 장면의 표현은 통상적으로 순간 시간(time instant)마다 많은 수의 계수를 필요로 한다. 각각의 계수는 상당한 분해능 - 통상적으로, 24 비트/계수 또는 그 이상 - 을 가져야만 한다. 그에 따라, 오디오 장면을 원시 HOA 형식으로 전송하는 데 필요한 데이터 레이트는 높다. 일례로서, 예컨대, EigenMike 녹음 시스템으로 녹음된 3차 HOA 신호는 (3+1)2개의 계수 * 44100Hz * 24 비트/계수 = 16.15 Mbit/s의 대역폭을 필요로 한다. 현재, 오디오 신호의 실시간 전송을 필요로 하는 대부분의 실제 응용에 대해 이 데이터 레이트는 너무 높다. 따라서, 실제적으로 관련있는 HOA-관련 오디오 처리 시스템에 압축 기법이 요망된다.
고차 앰비소닉스는 오디오 장면의 캡처, 조작 및 저장을 가능하게 해주는 수학적 패러다임이다. 공간 내의 기준점에서와 그 근방에서 음장이 푸리에-베셀 급수에 의해 근사화된다. HOA 계수가 이러한 특정의 수학에 기반을 두고 있기 때문에, 최적의 코딩 효율을 달성하기 위해 특정의 압축 기법이 적용되어야 한다. 중복성(redundancy) 및 심리 음향학(psycho-acoustics) 둘다의 측면이 참작되어야만 하고, 복잡한 공간 오디오 장면에 대해서는 종래의 모노 또는 멀티-채널 신호에 대해서와 다르게 기능하는 것으로 예상될 수 있다. 확립된 오디오 형식에 대한 특정의 차이점은 HOA 표현 내의 모든 '채널'이 공간 내의 동일한 기준 위치를 사용하여 계산된다는 것이다. 따라서, 적어도 적은 수의 우세한 음 객체(dominant sound object)를 갖는 오디오 장면에 대해, HOA 계수들 간의 상당한 일치가 예상될 수 있다.
발표된 HOA 신호의 손실 압축 기법은 단지 몇개 밖에 없다. 이들 대부분은 인지 코딩의 카테고리로 간주될 수 없는데, 그 이유는 통상적으로 심리 음향적 모델이 압축을 제어하는 데 이용되지 않기 때문이다. 이와 달리, 몇가지 기존의 방식은 오디오 장면을 기본 모델의 파라미터로 분해하는 것을 사용한다.
1차 내지 3차 앰비소닉스 전송에 대한 초기의 방식
앰비소닉스의 이론이 1960년대 이후로 오디오 제작 및 사용에서 사용되어 왔지만, 지금까지 응용은 대체로 1차 또는 2차 콘텐츠로 제한되었다. 다수의 배포 형식이 사용되어 왔으며, 상세하게는 다음과 같은 것이 있다:
- B-형식: 이 형식은 연구자, 제작자 및 애호가 사이에서 콘텐츠를 교환하는 데 사용되는 표준의 전문적 원시 신호 형식이다. 통상적으로, 이 형식은 계수의 특정의 정규화를 갖는 1차 앰비소닉스에 관련되어 있지만, 또한 3차까지의 규격이 존재한다.
- B-형식의 최근의 고차 변형에서, SN3D와 같은 수정된 정규화 방식, 및 특별한 가중 법칙 - 예컨대, Furse-Malham(일명 FuMa 또는 FMH) 집합 - 으로 인해 통상적으로 앰비소닉스 계수 데이터의 일부의 진폭이 다운스케일링된다. 수신기측에서 디코딩 이전에 테이블 탐색에 의해 정반대의 업스케일링 동작이 수행된다.
- UHJ-형식(일명 C-형식): 이것은 기존의 모노 또는 2-채널 스테레오 경로를 통해 1차 앰비소닉스 콘텐츠를 소비자에게 전달하는 데 적용가능한 계층적 인코딩된 신호 형식이다. 2 채널 - 좌 및 우 - 의 경우, 오디오 장면의 수평 서라운드를 완전히 표현하는 것은 실현가능하지만, 전체 공간 분해능에 대해서는 그렇지 않다. 선택적인 제3 채널은 수평면에서의 공간 분해능을 향상시키고, 선택적인 제4 채널은 높이 차원을 추가한다.
- G-형식: 이 형식은, 집에서 특정의 앰비소닉스 디코더를 사용할 필요없이, 앰비소닉스 형식으로 제작된 콘텐츠을 누구라도 이용할 수 있게 만들기 위해 만들어졌다. 표준의 5-채널 서라운드 설정에 대한 디코딩은 제작측에서 이미 수행되어 있다. 디코딩 동작이 표준화되어 있지 않기 때문에, 원래의 B-형식 앰비소닉스 콘텐츠의 신뢰성있는 재구성이 가능하지 않다.
- D-형식: 이 형식은 임의적인 앰비소닉스 디코더에 의해 생성되는 디코딩된 스피커 신호의 집합을 말한다. 디코딩된 신호는 특정의 스피커 형태 및 디코더 설계의 상세에 의존한다. G-형식은, 특정의 5-채널 서라운드 설정을 말하기 때문에, D-형식 정의의 부분집합이다.
상기한 방식들 중 어느 것도 압축을 염두에 두고 설계되어 있지 않다. 이들 형식 중 일부는 기존의 저용량 전송 경로(예를 들어, 스테레오 링크)를 사용하기 위해 조정되었고, 따라서 전송을 위한 데이터 레이트를 암시적으로 감소시킨다. 그렇지만, 다운믹싱된 신호에는 원래의 입력 신호 정보의 상당 부분이 없다. 따라서, 앰비소닉스 방식의 유연성 및 보편성이 상실된다.
지향 오디오 코딩
2005년경에, DirAC(directional audio coding, 지향 오디오 코딩) 기술이 개발되었으며, 이 기술은 장면을 시간 및 주파수마다 하나의 우세한 음 객체와 주변음(ambient sound)으로 분해하는 것을 목표로 하는 장면 분석에 기초하고 있다. 장면 분석은 음장의 순간 세기 벡터(instantaneous intensity vector)의 평가에 기초하고 있다. 장면의 2 부분이 직접음(direct sound)이 어디서 오는지에 관한 위치 정보와 함께 전송될 것이다. 수신기에서, 시간-주파수 창마다 하나의 우세 음원이 VBAP(vector based amplitude panning)을 사용하여 재생된다. 그에 부가하여, 보조 정보로서 전송된 비에 따라 역상관된 주변음이 생성된다. DirAC 처리가 도 1에 나타내어져 있으며, 여기서 입력 신호는 B-형식을 가진다.
단일 소스 및 주변 신호 모델(single-source-plus-ambience signal model)을 사용하여 DirAC을 특정의 파라메트릭 코딩(parametric coding) 방식으로 해석할 수 있다. 전송의 품질은 모델 가정이 특정의 압축된 오디오 장면에 맞는지 여부에 크게 의존한다. 게다가, 음 분석 스테이지에서 직접음 및/또는 주변음의 어떤 잘못된 검출도 디코딩된 오디오 장면의 재생 품질에 영향을 줄 수 있다. 현재까지, DirAC은 1차 앰비소닉스 콘텐츠에 대해서만 기술되었다.
HOA 계수의 직접 압축
2000년대 후반에, HOA 신호의 인지적이면서 무손실인 압축이 제안되었다.
- 무손실 코딩의 경우, HOA 신호의 중복성을 감소시키기 위해 상이한 앰비소닉스 계수 사이의 교차 상관이 이용되며, 이에 대해서는 E. Hellerud, A. Solvang, U.P. Svensson, "Spatial Redundancy in Higher Order Ambisonics and Its Use for Low Delay Lossless Compression(고차 앰비소닉스에서의 공간 중복성 및 저지연 무손실 압축에 그 사용)", Proc. of IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), April 2009, Taipei, Taiwan, 및 E. Hellerud, U.P. Svensson, "Lossless Compression of Spherical Microphone Array Recordings(구형 마이크 배열 녹음의 무손실 압축)", Proc. of 126th AES Convention, Paper 7668, May 2009, Munich, Germany에 기술되어 있다. 인코딩될 계수의 차수까지의 이전 계수들의 가중 결합으로부터 특정의 차수의 현재 계수를 예측하는 역방향 적응 예측(backward adaptive prediction)이 이용된다. 실세계 콘텐츠의 특성을 평가함으로써 강한 교차 상관을 나타낼 것으로 예상되는 계수들의 그룹이 탐색된다.
이 압축은 계층적 방식으로 동작한다. 계수의 잠재적인 교차 상관이 있는지 분석되는 이웃은 동일한 순간 시간은 물론 이전의 순간 시간에서 동일한 차수까지의 계수만을 포함하며, 그로써 압축이 비트 스트림 레벨에서 확장가능하다
- 인지 코딩은 T. Hirvonen, J. Ahonen, V. Pulkki, "Perceptual Compression Methods for Metadata in Directional Audio Coding Applied to Audiovisual Teleconference(오디오비주얼 원격 회의에 적용되는 방향 오디오 코딩에서의 메타데이터에 대한 인지 압축 방법)", Proc. of 126th AES Convention, Paper 7706, May 2009, Munich, Germany, 및 앞서 언급한 "Spatial Redundancy in Higher Order Ambisonics and Its Use for Low Delay Lossless Compression" 논문에 기술되어 있다. 기존의 MPEG AAC 압축 기법은 HOA B-형식 표현의 개별 채널(즉, 계수)을 코딩하는 데 사용된다. 채널의 차수에 따라 비트 할당을 조정함으로써, 불균일한 공간 노이즈 분포가 얻어졌다. 상세하게는, 하위-차수 채널에 보다 많은 비트를 할당하고 상위-차수 채널에 보다 적은 비트를 할당함으로써, 기준점 근방에서 우수한 정밀도가 달성될 수 있다. 차례로, 원점으로부터의 거리가 증가함에 따라 유효 양자화 노이즈가 상승한다.
도 2는 B-형식 오디오 신호의 이러한 직접 인코딩 및 디코딩의 원리를 나타낸 것이고, 여기서 상부 경로는 상기 Hellerud 등의 압축을 나타내고, 하부 경로는 종래의 D-형식 신호로의 압축을 나타내고 있다. 이들 경우 둘다에, 디코딩된 수신기 출력 신호는 D-형식을 가진다.
HOA 영역에서 직접 중복성(redundancy) 및 무관련성(irrelevancy)을 찾는 것에서의 문제점은 임의의 공간 정보가, 일반적으로, 몇개의 HOA 계수에 걸쳐 '번져(smeared)' 있다는 것이다. 환언하면, 공간 영역에서 적절히 국소화되고 집중되어 있는 정보가 그 주변에 확산되어 있다. 그로써, 심리 음향적 마스킹 제약조건을 확실하게 준수하는 일관성있는 노이즈 할당을 수행하는 것이 아주 어렵다. 게다가, 중요한 정보가 HOA 영역에서 상이한 방식으로 포착되고, 대규모 계수의 미묘한 차이가 공간 영역에서 강한 영향을 미칠 수 있다. 따라서, 이러한 차분적 상세를 보존하기 위해 높은 데이터 레이트가 필요할 수 있다.
공간 스퀴징(Spatial Squeezing)
보다 최근에, B. Cheng, Ch. Ritz, I. Burnett는 '공간 스퀴징' 기술을 개발하였다:
B. Cheng, Ch. Ritz, I. Burnett, "Spatial Audio Coding by Squeezing: Analysis and Application to Compressing Multiple Soundfields(스퀴징에 의한 공간 오디오 코딩: 분석 및 다중 음장의 압축에의 적용)", Proc. of European Signal Processing Conf. (EUSIPCO), 2009,
B. Cheng, Ch. Ritz, I. Burnett, "A Spatial Squeezing Approach to Ambisonic Audio Compression(Ambisonic 오디오 압축에 대한 공간 스퀴징 방법)", Proc. of IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), April 2008,
B. Cheng, Ch. Ritz, I. Burnett, "Principles and Analysis of the Squeezing Approach to Low Bit Rate Spatial Audio Coding(저비트 레이트 공간 오디오 코딩에 대한 스퀴징 방법의 원리 및 분석)", Proc. of IEEE Intl. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), April 2007.
음장을 각각의 시간/주파수 창에 대한 선택된 가장 우세한 음 객체들로 분해하는 오디오 장면 분석이 수행된다. 이어서, 좌우 채널의 위치 사이의 새로운 위치에서의 이들 우세한 음 객체를 포함하는 2-채널 스테레오 다운믹스가 생성된다. 스테레오 신호에 대해 동일한 분석이 행해질 수 있기 때문에, 2-채널 스테레오 다운믹스에서 검출된 객체를 360°의 전체 음장에 재매핑함으로써 동작이 부분적으로 반대로 될 수 있다.
도 3은 공간 스퀴징의 원리를 나타낸 것이다. 도 4는 관련된 인코딩 처리를 나타낸 것이다.
이 개념은, 동일한 종류의 오디오 장면 분석에 의존하기 때문에, DirAC와 많은 관련이 있다. 그렇지만, DirAC와 달리, 다운믹스는 항상 2개의 채널을 생성하고, 우세한 음 객체의 위치에 관한 보조 정보를 전송할 필요가 없다.
심리 음향적 원리가 명시적으로 이용되지 않지만, 이 방식은 시간-주파수 타일에 대해 가장 우세한 음 객체만을 전송함으로써 적당한 품질이 이미 달성될 수 있다는 가정을 이용한다. 그와 관련하여, DirAC의 가정에 대한 추가의 아주 필적하는 것이 있다. DirAC와 유사하게, 오디오 장면의 파라미터화에서의 임의의 오류로 인해 디코딩된 오디오 장면의 아티팩트가 생길 것이다. 게다가, 디코딩된 오디오 장면의 품질에 대한 2-채널 스테레오 다운믹스 신호의 임의의 인지 코딩의 영향을 예측하기 어렵다. 이러한 공간 스퀴징의 일반적 아키텍처로 인해, 이는 3차원 오디오 신호(즉, 높이 차원을 갖는 신호)에는 적용될 수 없고, 아무래도 1 이외의 앰비소닉스 차수에 대해 동작하지 않을 것 같다.
앰비소닉스 형식 및 혼합-차수 표현
공간 음 정보를 전체 구의 서브-공간으로 제약하는 것 - 예컨대, 상반구 또는 구면의 훨씬 더 작은 부분만을 커버하는 것 - 이 F. Zotter, H. Pomberger, M. Noisternig, "Ambisonic Decoding with and without Mode-Matching: A Case Study Using the Hemisphere(모드-정합을 사용하는/사용하지 않는 Ambisonic 디코딩: 반구를 사용한 사례 연구)", Proc. of 2nd Ambisonics Symposium, May 2010, Paris, France에서 제안되었다. 궁극적으로, 전체 장면이 대상 오디오 장면을 구성하는 특정의 위치들에 관련될 구면 상의 몇개의 이러한 제약된 '섹터'로 이루어져 있을 수 있다. 이것은 복잡한 오디오 장면의 일종의 혼합-차수 합성(mixed-order composition)을 생성한다. 인지 코딩이 언급되어 있지 않다.
파라메트릭 코딩(Parametric Coding)
WFS(wave-field synthesis) 시스템에서 재생되기로 되어 있는 콘텐츠를 기술하고 전송하는 '전통적인' 방식은 오디오 장면의 개별 음 객체의 파라메트릭 코딩을 통하는 것이다. 각각의 음 객체는 오디오 스트림(모노, 스테레오 또는 기타) 및 전체 오디오 장면 내에서의 음 객체의 역할에 관한 메타 정보 - 즉, 가장 중요한 것은 객체의 위치임 - 로 이루어져 있다. 이 객체-지향 패러다임은 유럽 'CARROUSO', cf. S. Brix, Th. Sporer, J. Plogsties, "CARROUSO - An European Approach to 3D-Audio(CARROUSO - 3D 오디오에 대한 유럽 방식)", Proc. of 110th AES Convention, Paper 5314, May 2001, Amsterdam, The Netherlands에서 WFS 재생을 위해 세부 조정되었다.
각각의 음 객체를 다른 음 객체와 독립적으로 압축하는 한 일례는 다운믹스 시나리오에서의 다중 객체의 결합 코딩 - Ch. Faller, "Parametric Joint-Coding of Audio Sources(오디오 소스의 파라메트릭 결합 코딩)", Proc. of 120th AES Convention, Paper 6752, May 2006, Paris, France에 기술되어 있음 - 이며, 여기서 의미있는 다운믹스 신호(이 다운믹스 신호로부터, 보조 정보의 도움을 받아, 다중-객체 장면이 수신기측에서 디코딩될 수 있음)를 생성하기 위해 간단한 심리 음향적 단서가 사용된다. 로컬 스피커 설정에 대한 오디오 장면 내에 객체를 렌더링하는 것도 역시 수신기측에서 일어날 수 있다.
객체-지향 형식에서, 녹음이 특히 복잡하다. 이론상, 개별 음 객체의 완벽한 '드라이' 녹음('dry' recording) - 즉, 음 객체에 의해 방출된 직접음만을 배타적으로 포착하는 녹음 - 이 필요할 것이다. 이 방식의 과제는 2가지 - 첫째, 마이크 신호 간에 상당한 크로스토크가 있기 때문에 자연스런 '라이브' 녹음에서 드라이 포착(dry capturing)이 어렵고, 둘째, 드라이 녹음으로 구성되는 오디오 장면에는 녹음이 행해진 방의 '분위기'와 자연스러움이 없음 - 이다.
파라메트릭 코딩 및 앰비소닉스
일부 연구자는 앰비소닉스 신호를 다수의 개별 음 객체와 결합시키는 것을 제안하였다. 이론적 근거는 앰비소닉스 표현을 통해 적절히 국소화되지 않는 주변음 및 음 객체를 포착하고 파라미터 방식을 통해 다수의 적절히 배치된 개별 음 객체를 추가하는 것이다. 장면의 객체-지향 부분에 대해, 순수 파라미터 표현(이전 섹션 참조)에 대한 것과 유사한 코딩 메커니즘이 사용된다. 즉, 이들 개별 음 객체는 통상적으로 모노 사운드 트랙과 위치 및 잠재적 움직임에 관한 정보와 함께 온다 - 참조: MPEG-4 AudioBIFS 표준에 대한 앰비소닉스 재생의 도입 -. 그 표준에서, 원시 앰비소닉스 및 객체 스트림을 (AudioBIFS) 렌더링 엔진에 어떻게 전송할지는 오디오 장면의 제작자에 달려 있다. 이것은 MPEG-4에 정의된 임의의 오디오 코덱이 앰비소닉스 계수를 직접 인코딩하는 데 사용될 수 있다는 것을 의미한다.
파면 코딩
객체-지향 방식을 사용하는 대신에, 파면 코딩은 WFS(wave field synthesis) 시스템의 이미 렌더링된 스피커 신호를 전송한다. 인코더는 특정의 스피커 집합에 대한 모든 렌더링을 수행한다. 스피커들로 된 곡선의 의사 직선 윈도우 세그먼트(windowed, quasi-linear segment)에 대해 다차원 시공간 대 주파수 변환이 수행된다. (시간-주파수 및 공간-주파수 둘다에 대한) 주파수 계수는 어떤 심리 음향적 모델을 사용하여 인코딩된다. 보통의 시간-주파수 마스킹에 부가하여, 또한 공간-주파수 마스킹이 적용될 수 있다 - 즉, 마스킹 현상이 공간 주파수의 함수인 것으로 가정된다 -. 디코더측에서, 인코딩된 스피커 채널이 압축 해제되어 재생된다.
도 5는 일련의 마이크가 상부 부분에 있고 일련의 스피커가 하부 부분에 있는 경우의 파면 코딩의 원리를 나타낸 것이다. 도 6은 F. Pinto, M. Vetterli, "Wave Field Coding in the Spacetime Frequency Domain(시공간 주파수 영역에서의 파면 코딩)", Proc. of IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 2008, Las Vegas, NV, USA에 따른 인코딩 처리를 나타낸 것이다.
인지 파면 코딩에 관한 게시된 실험은 시공간 대 주파수 변환이 2-소스 신호 모델에 대한 렌더링된 스피커 채널의 개별 인지 압축에 비해 약 15%의 데이터 레이트를 절감한다는 것을 보여주고 있다. 그럼에도 불구하고, 이 처리는, 어쩌면 스피커 채널들 사이의 복잡한 교차 상관 특성을 포착하지 못하는 것으로 인해, 객체-지향 패러다임에 의해 달성될 압축 효율을 갖지 않는데, 그 이유는 음파가 상이한 때에 각각의 스피커에 도달할 것이기 때문이다. 추가의 단점은 대상 시스템의 특정의 스피커 레이아웃에 밀접하게 결합되어 있다는 것이다.
만능 공간 정보
전통적인 멀티-채널 압축으로부터 시작하여, 만능 오디오 코덱이 상이한 스피커 시나리오를 해결할 수 있다는 개념도 고려되었다. 예컨대, 고정된 채널 할당 및 관계를 갖는 mp3 서라운드 또는 MPEG 서라운드와 달리, 공간 정보의 표현이 특정의 입력 스피커 구성과 독립적으로 설계된다 - 참조: M.M. Goodwin, J.-M. Jot, "A Frequency-Domain Framework for Spatial Audio Coding Based on Universal Spatial Cues(만능 공간 정보에 기초한 공간 오디오 코딩에 대한 주파수-영역 프레임워크)", Proc. of 120th AES Convention, Paper 6751, May 2006, Paris, France; M.M. Goodwin, J.-M. Jot, "Analysis and Synthesis for Universal Spatial Audio Coding(만능 공간 오디오 코딩에 대한 분석 및 합성)", Proc. of 121st AES Convention, Paper 6874, October 2006, San Francisco, CA, USA; M.M. Goodwin, J.-M. Jot, "Primary-Ambient Signal Decomposition and Vector-Based Localisation for Spatial Audio Coding and Enhancement(공간 오디오 코딩 및 향상을 위한 1차-주변 신호 분해 및 벡터-기반 국소화)", Proc. of IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), April 2007, Honolulu, HI, USA -.
개별 입력 채널 신호의 주파수 영역 변환 이후에, 1차음(primary sound)을 주변 성분과 구별하기 위해 각각의 시간-주파수 타일에 대해 주성분 분석이 수행된다. 결과는, 장면 분석을 위한 Gerzon 벡터를 사용하여, 청취자에 중심을 둔 단위 반경을 갖는 원 상의 위치에 대한 방향 벡터의 미분이다.
도 5는 공간 정보의 다운믹싱 및 전송을 사용한 공간 오디오 코딩을 위한 대응하는 시스템을 나타낸 것이다. (스테레오) 다운믹스 신호가 분리된 신호 성분으로 구성되고, 객체 위치에 관한 메타 정보와 함께 전송된다. 디코더는 다운믹스 신호 및 보조 정보로부터 1차음 및 어떤 주변 성분을 복원하고, 그로써 1차음이 로컬 스피커 구성으로 패닝된다. 이것은 상기 DirAC 처리의 멀티-채널 변형으로서 해석될 수 있는데, 그 이유는 전송된 정보가 아주 유사하기 때문이다.
본 발명에서 해결될 문제점은 오디오 장면의 HOA 표현의 개선된 손실 압축을 제공하는 것이며, 그로써 인지 마스킹과 같은 심리 음향적 현상이 고려된다. 이 문제점은 청구항 1 및 청구항 5에 개시된 방법에 의해 해결된다. 이들 방법을 이용하는 장치가 청구항 2 및 청구항 6에 개시되어 있다.
본 발명에 따르면, 압축이 HOA 영역 대신에 공간 영역에서 수행된다(반면에, 상기한 파면 인코딩에서는 마스킹 현상이 공간 주파수의 함수인 것으로 가정되고, 본 발명은 공간 위치의 함수인 마스킹 현상을 사용한다). (N+1)2개의 입력 HOA 계수가, 예컨대, 평면파 분해에 의해, 공간 영역에서의 (N+1)2개의 등가 신호로 변환된다. 이들 등가 신호 각각은 공간에서 연관된 방향으로부터 오는 일련의 평면파를 나타낸다. 간략화된 방식으로, 얻어진 신호는, 입력 오디오 장면 표현으로부터, 연관된 빔의 범위에 속하는 임의의 평면파를 포착하는 마이크 신호를 형성하는 가상 빔으로 해석될 수 있다.
얻어진 일련의 (N+1)2개의 신호는 병렬 인지 코덱의 뱅크에 입력될 수 있는 종래의 시간-영역 신호이다. 임의의 기존의 인지 압축 기법이 적용될 수 있다. 디코더측에서, 개별 공간-영역 신호가 디코딩되고, 원래의 HOA 표현을 복원하기 위해 공간-영역 계수가 다시 HOA 영역으로 변환된다.
이러한 종류의 처리는 상당한 이점을 가진다:
- 심리 음향적 마스킹 각각의 공간-영역 신호가 다른 공간-영역 신호와 분리되어 처리되는 경우, 코딩 오류가 마스커 신호(masker signal)와 동일한 공간 분포를 가질 것이다. 따라서, 디코딩된 공간-영역 계수를 다시 HOA 영역으로 변환한 후에, 코딩 오류의 순간 전력 밀도의 공간 분포가 원래의 신호의 전력 밀도의 공간 분포에 따라 배치될 것이다. 유익하게도, 그에 의해 코딩 오류가 항상 마스킹된 채로 있도록 보장된다. 복잡한 재생 환경에서조차도, 코딩 오류가 항상 정확히 대응하는 마스커 신호와 함께 전파한다. 그렇지만, 주목할 점은, '스테레오 언마스킹(stereo unmasking)'과 유사한 무언가(참조: M. Kahrs, K.H. Brandenburg, "Applications of Digital Signal Processing to Audio and Acoustics(오디오 및 음향에 디지털 신호 처리의 적용)", Kluwer Academic Publishers, 1998)가 원래 2개(2D 경우) 또는 3개(3D 경우)의 기준 위치 사이에 위치하는 음 객체에 대해 여전히 일어날 수 있다는 것이다. 그렇지만, HOA 입력 자료의 차수가 증가하는 경우 이 잠재적인 위험의 가능성 및 심각성이 감소되는데, 그 이유는 공간 영역에서 상이한 기준 위치 사이의 각도 거리가 감소되기 때문이다. 우세한 음 객체의 위치에 따라 HOA 대 공간 변환을 조정함으로써(이하의 특정 실시예를 참조), 이 잠재적인 문제가 완화될 수 있다.
- 공간 역상관: 오디오 장면은 통상적으로 공간 영역에서 드물게 있고, 보통 기본 주변 음장(ambient sound field) 상부에 있는 몇개의 개별 음 객체의 혼합인 것으로 가정된다. 이러한 오디오 장면을 HOA 영역으로 변환 - 이는 기본적으로 공간 주파수로의 변환임 - 함으로써, 공간적으로 드문(즉, 역상관된) 장면 표면이 높게 상관된 일련의 계수로 변환된다. 개별 음 객체에 관한 임의의 정보가 어느 정도 모든 주파수 계수에 걸쳐 '번져' 있다. 일반적으로, 압축 방법의 목표는, 이상적으로는 Karhunen-Loeve 변환에 따라, 역상관된 좌표계를 선택함으로써 중복성을 감소시키는 것이다. 시간-영역 오디오 신호의 경우, 통상적으로 주파수 영역은 보다 역상관된 신호 표현을 제공한다. 그렇지만, 공간 오디오에 대해서는 그렇지 않은데, 그 이유는 공간 영역이 HOA 영역보다 KLT 좌표계에 더 가깝기 때문이다.
- 시간 상관된 신호의 집중: HOA 계수를 공간 영역으로 변환하는 다른 중요한 측면은 강한 시간 상관을 나타낼 가능성이 있는 신호 성분이 - 동일한 물리적 음원으로부터 방출된 것이기 때문에 - 하나 또는 몇개의 계수에 집중되어 있다는 것이다. 이것은 공간적으로 분포된 시간-영역 신호를 압축하는 것에 관련된 임의의 차후의 처리 단계가 최대 시간-영역 상관을 나타낼 수 있다는 것을 의미한다.
- 이해성: 시간-영역 신호에 대해 오디오 콘텐츠의 코딩 및 인지 압축은 잘 알려져 있다. 이와 달리, 고차 앰비소닉스(즉, 2 이상의 차수)와 같은 복잡한 변환된 영역에서의 중복성 및 심리 음향학이 훨씬 덜 이해되고 많은 수학 및 조사를 필요로 한다. 결과적으로, HOA 영역보다 공간 영역에서 효과가 있는 압축 기법을 사용할 때, 많은 기존의 통찰 및 기법이 훨씬 더 쉽게 적용되고 조정될 수 있다. 유익하게도, 시스템의 일부에 대해 기존의 압축 코덱을 이용함으로써 타당한 결과가 신속히 획득될 수 있다.
환언하면, 본 발명은 다음과 같은 이점을 포함한다:
- 심리 음향적 마스킹 효과의 보다 나은 활용,
- 보다 나은 이해성 및 구현하기 쉬움,
- 공간 오디오 장면의 통상적인 합성에 보다 적합함,
- 기존의 방식보다 나은 역상관 특성.
원칙적으로, 본 발명의 인코딩 방법은 HOA 계수로 표시되는, 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩하는 데 적합하며, 상기 방법은,
- 프레임의 O = (N+1)2개의 입력 HOA 계수를, 구면 상의 기준점의 정규 분포를 나타내는 O개의 공간 영역 신호로 변환하는 단계 - 여기서, N은 상기 HOA 계수의 차수이고, 상기 공간 영역 신호 각각은 공간에서 연관된 방향으로부터 오는 일련의 평면파를 나타냄 -,
- 인지 인코딩 단계 또는 스테이지를 사용하여, 그로써 코딩 오류가 들리지 않도록 선택된 인코딩 파라미터를 사용하여 상기 공간 영역 신호 각각을 인코딩하는 단계, 및
- 프레임의 얻어진 비트 스트림을 결합 비트 스트림으로 멀티플렉싱하는 단계를 포함한다.
원칙적으로, 본 발명의 디코딩 방법은 청구항 제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인코딩된 고차 앰비소닉스 표현의 연속 프레임을 디코딩하는 데 적합하고, 상기 디코딩 방법은,
- 수신된 결합 비트 스트림을 O = (N+1)2개의 인코딩된 공간 영역 신호로 디멀티플렉싱하는 단계,
- 상기 인코딩된 공간 영역 신호 각각을, 선택된 인코딩 유형에 대응하는 인지 디코딩 단계 또는 스테이지를 사용하여 그리고 인코딩 파라미터에 상응하는 디코딩 파라미터를 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하는 단계 - 상기 디코딩된 공간 영역 신호는 구면 상의 기준점의 정규 분포를 나타냄 -, 및
- 상기 디코딩된 공간 영역 신호를 프레임의 O개의 출력 HOA 계수로 변환하는 단계 - 여기서, N은 상기 HOA 계수의 차수임 - 를 포함한다.
원칙적으로, 본 발명의 인코딩 장치는 HOA 계수로 표시되는, 2차원 또는 3차원 음장의 고차 앰비소닉스 표현의 연속 프레임을 인코딩하는 데 적합하며, 상기 장치는,
- 프레임의 O = (N+1)2개의 입력 HOA 계수를, 구면 상의 기준점의 정규 분포를 나타내는 O개의 공간 영역 신호로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 HOA 계수의 차수이고, 상기 공간 영역 신호 각각은 공간에서 연관된 방향으로부터 오는 일련의 평면파를 나타냄 -,
- 인지 인코딩 단계 또는 스테이지를 사용하여, 그로써 코딩 오류가 들리지 않도록 선택된 인코딩 파라미터를 사용하여 상기 공간 영역 신호 각각을 인코딩하도록 구성된 수단, 및
- 프레임의 얻어진 비트 스트림을 결합 비트 스트림으로 멀티플렉싱하도록 구성된 수단을 포함한다.
원칙적으로, 본 발명의 인코딩 장치는 청구항 제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인코딩된 고차 앰비소닉스 표현의 연속 프레임을 디코딩하는 데 적합하며, 상기 장치는,
- 수신된 결합 비트 스트림을 O = (N+1)2개의 인코딩된 공간 영역 신호로 디멀티플렉싱하도록 구성된 수단,
- 상기 인코딩된 공간 영역 신호 각각을, 선택된 인코딩 유형에 대응하는 인지 디코딩 단계 또는 스테이지를 사용하여 그리고 인코딩 파라미터에 상응하는 디코딩 파라미터를 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하도록 구성된 수단 - 상기 디코딩된 공간 영역 신호는 구면 상의 기준점의 정규 분포를 나타냄 -, 및
- 상기 디코딩된 공간 영역 신호를 프레임의 O개의 출력 HOA 계수로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 HOA 계수의 차수임 - 을 포함한다.
본 발명의 유리한 부가적인 실시예가 각자의 종속 청구항에 개시되어 있다.
본 발명의 예시적인 실시예에 대해 첨부 도면을 참조하여 기술한다.
도 1은 B-형식 입력에서의 지향 오디오 코딩(directional audio coding)을 나타낸 도면.
도 2는 B-형식 신호의 직접 인코딩(direct encoding)을 나타낸 도면.
도 3은 공간 스퀴징(spatial squeezing)의 원리를 나타낸 도면.
도 4는 공간 스퀴징 인코딩 처리를 나타낸 도면.
도 5는 파면(Wave Field) 코딩의 원리를 나타낸 도면.
도 6은 파면 인코딩 처리를 나타낸 도면.
도 7은 공간 정보(spatial cue)의 다운믹싱 및 전송을 사용한 공간 오디오 코딩을 나타낸 도면.
도 8은 본 발명의 인코더 및 디코더의 예시적인 실시예를 나타낸 도면.
도 9는 상이한 신호의 BMLD(binaural masking level difference)를 신호의 두 귀 사이의(inter-aural) 위상차 또는 시간차의 함수로서 나타낸 도면.
도 10은 BMLD 모델링을 포함하는 결합 심리 음향적 모델을 나타낸 도면.
도 11은 예시적인 최대의 예상된 재생 시나리오 - 7x5 좌석(일례로서 임의적으로 선택됨)을 갖는 극장 - 를 나타낸 도면.
도 12는 도 11의 시나리오에 대한 최대 상대 지연 및 감쇠의 도출을 나타낸 도면.
도 13은 음장 HOA 성분과 2개의 음 객체 A 및 B의 압축을 나타낸 도면.
도 14는 음장 HOA 성분과 2개의 음 객체 A 및 B에 대한 결합 심리 음향적 모델을 나타낸 도면.
도 8은 본 발명의 인코더 및 디코더의 블록도를 나타낸 것이다. 본 발명의 이 기본 실시예에서, 입력 HOA 표현 또는 신호 IHOA의 연속적인 프레임이 변환 단계 또는 스테이지(81)에서 3차원 구면 또는 2차원 원 상의 기준점의 정규 분포에 따라 공간-영역 신호로 변환된다.
HOA 영역으로부터 공간 영역으로의 변환과 관련하여, 앰비소닉스 이론에서, 공간 내의 특정의 지점에서와 그 근방에서의 음장이 절단된 푸리에-베셀(Fourier-Bessel) 급수에 의해 기술된다. 일반적으로, 기준점이 선택된 좌표계의 원점에 있는 것으로 가정된다. 구좌표를 사용하는 3차원 응용에서, 모든 정의된 인덱스
Figure 112011101446776-pat00001
Figure 112011101446776-pat00002
에 대한 계수
Figure 112011101446776-pat00003
를 갖는 푸리에 급수는 방위각
Figure 112011101446776-pat00004
, 기울기
Figure 112011101446776-pat00005
및 원점으로부터의 거리
Figure 112011101446776-pat00006
Figure 112011101446776-pat00007
에서의 음장의 압력
Figure 112011101446776-pat00008
을 기술하고, 여기서
Figure 112011101446776-pat00009
는 파수이고
Figure 112011101446776-pat00010
Figure 112011101446776-pat00011
Figure 112011101446776-pat00012
에 의해 정의되는 방향에 대한 구면 조화함수에 엄격히 관련되어 있는 푸리에-베셀 급수의 커널 함수이다. 편의상, HOA 계수
Figure 112011101446776-pat00013
가 정의
Figure 112011101446776-pat00014
에서 사용된다. 특정의 차수
Figure 112011101446776-pat00015
에 대해, 푸리에-베셀 급수에서의 계수의 수는 O=(N+1)2이다.
원좌표를 사용하는 2차원 응용에서, 커널 함수는 방위각
Figure 112011101446776-pat00016
에만 의존한다.
Figure 112011101446776-pat00017
인 모든 계수는 0의 값을 가지며 생략될 수 있다. 따라서, HOA 계수의 수는 단지
Figure 112011101446776-pat00018
로 감소된다. 게다가, 기울기
Figure 112011101446776-pat00019
가 고정되어 있다. 2D 경우에 그리고 원 상의 음 객체의 완전 균일 분포의 경우(즉,
Figure 112011101446776-pat00020
인 경우), Ψ 내의 모드 벡터가 공지된 이산 푸리에 변환(DFT)의 커널 함수와 동일하다.
HOA 영역 대 공간 영역 변환에 의해, 입력 HOA 계수에 의해 기술되는 원하는 음장을 정확히 재생하기 위해 인가되어야만 하는 (무한 거리에 평면파를 방출하는) 가상 스피커의 구동기 신호가 도출된다.
모든 모드 계수가 결합되어 모드 행렬 Ψ을 이룰 수 있고, 여기서 i번째 열은 i번째 가상 스피커의 방향에 따른 모드 벡터
Figure 112011101446776-pat00021
를 포함한다. 공간 영역에서의 원하는 신호의 수는 HOA 계수의 수와 같다. 따라서, 모드 행렬 Ψ의 역
Figure 112011101446776-pat00022
에 의해 정의되는 변환/디코딩 문제에 대한 고유의 해가 존재한다:
Figure 112011101446776-pat00023
.
이 변환은 가상 스피커가 평면파를 방출한다는 가정을 사용한다. 실세계 스피커는 재생을 위한 디코딩 규칙이 유념해야 하는 상이한 재생 특성을 가진다.
기준점의 한 일례는 J. Fliege, U. Maier, "The Distribution of Points on the Sphere and Corresponding Cubature Formulae(구면 상의 점의 분포 및 대응하는 입체구적법 수식)", IMA Journal of Numerical Analysis, vol.19, no.2, pp.317-334, 1999에 따른 샘플링 점이다. 이 변환에 의해 획득되는 공간-영역 신호는, 예컨대, MPEG-1 오디오 계층 III (일명 mp3) 표준에 따라 동작하는 독립적인 기지의 'O'개의 병렬 인지 인코더 단계(821, 822, ..., 82O)에 입력되고, 여기서 'O'는 병렬 채널의 수 O에 대응한다. 이들 인코더 각각은 코딩 오류가 들리지 않도록 파라미터화된다. 얻어지는 병렬 비트 스트림이 멀티플렉서 단계 또는 스테이지(83)에서 결합 비트 스트림(BS)으로 멀티플렉싱되어 디코더측으로 전송된다. mp3 대신에, AAC 또는 Dolby AC-3와 같은 임의의 다른 적당한 오디오 코덱 유형이 사용될 수 있다.
디코더측에서, 디멀티플렉서 단계 또는 스테이지(86)는 병렬 인지 코덱의 개별 비트 스트림을 도출하기 위해 수신된 결합 비트 스트림을 디멀티플렉싱하고, 이 개별 비트 스트림은 (선택된 인코딩 유형에 대응하여 그리고 인코딩 파라미터에 상응하는 - 즉, 디코딩 오류가 들리지 않도록 선택된 - 디코딩 파라미터를 사용하여) 미압축된 공간-영역 신호를 복원하기 위해 공지된 디코더 단계 또는 스테이지(871, 872, ..., 87O)에서 디코딩된다. 얻어진 신호 벡터는 각각의 순간 시간에 대해 역변환 단계 또는 스테이지(88)에서 HOA 영역으로 변환되고, 그로써 연속 프레임으로 출력되는 디코딩된 HOA 표현 또는 신호 OHOA를 복원한다.
이러한 처리 또는 시스템을 사용하여, 상당한 데이터 레이트의 감소가 달성될 수 있다. 예를 들어, EigenMike의 3차 녹음으로부터의 입력 HOA 표현은 (3+1)2개의 계수 * 44100 Hz * 24 비트/계수 = 16.9344 Mbit/s의 원시 데이터 레이트를 가진다. 공간 영역으로의 변환에 의해 44100 Hz의 샘플 레이트를 갖는 (3+1)2개의 신호가 얻어진다. 44100*24 = 1.0584 Mbit/s의 데이터 레이트를 나타내는 이들 (모노) 신호 각각은 mp3 코덱을 사용하여 64 kbit/s의 개별 데이터 레이트로 독립적으로 압축된다(이는 모노 신호에 대해 거의 투명하다는 것을 의미함). 이어서, 결합 비트 스트림의 총 데이터 레이트는 (3+1)2개의 신호 * 신호당 64 kbit/s ~ 1 Mbit/s이다.
이 평가는 보수적인 편인데, 그 이유는 청취자 주변의 구 전체가 음으로 균질하게 채워져 있는 것으로 가정하고 있고 상이한 공간 위치에 있는 음 객체들 사이의 임의의 교차-마스킹 효과를 완전히 무시하고 있기 때문이다 - 예컨대, 80dB를 갖는 마스커 신호는 단지 몇도의 각도만큼 떨어져 있는 약한 톤(예컨대, 40 dB)을 마스킹할 것이다 -. 이하에서 기술하는 바와 같이, 이러한 공간 마스킹 효과를 고려함으로써, 높은 압축 인자가 달성될 수 있다. 게다가, 상기 평가는 공간-영역 신호 집합 내의 인접한 위치들 사이의 임의의 상관을 무시하고 있다. 다시 말하지만, 보다 나은 압축 처리가 이러한 상관을 사용하는 경우, 보다 높은 압축비가 달성될 수 있다. 마지막이지만 아주 중요한 것은, 시변 비트 전송률이 허용가능한 경우, 음 장면(sound scene) 내의 객체의 수가 크게 변하기 때문에 - 영화 음(film sound)의 경우 특히 그러함 - 훨씬 더 높은 압축 효율이 예상될 수 있다는 것이다. 얻어지는 비트 레이트를 추가적으로 감소시키기 위해 임의의 음 객체 희소성(sound object sparseness)이 이용될 수 있다.
변형: 심리 음향학
도 8의 실시예에서, 미니멀리스틱(minimalistic) 비트 레이트 제어가 가정된다 - 즉, 모든 개별 인지 코덱이 동일한 데이터 레이트로 실행될 것으로 예상된다 -. 이미 앞서 언급한 바와 같이, 그 대신에 전체 공간 오디오 장면을 고려하는 보다 복잡한 비트 레이트 제어를 사용함으로써 상당한 개선이 달성될 수 있다. 보다 구체적으로는, 시간-주파수 마스킹 및 공간 마스킹 특성의 결합이 주된 역할을 한다. 이것의 공간 차원에 대해, 마스킹 현상은 공간 주파수가 아니라 청취자와 관련한 음 이벤트(sound event)의 절대 각도 위치의 함수이다(주목할 점은, 이러한 이해가 파면 코딩 섹션에서 언급한 Pinto 등에서의 이해와 다르다는 것이다). 마스커(masker)와 마스키(maskee)의 모노딕 제시(monodic presentation)와 비교한 공간 제시(spatial presentation)에 대해 관찰되는 마스킹 임계값을 BMLD(Binaural Masking Level Difference)이라고 한다(참조: J. Blauert, "Spatial Hearing: The Psychophysics of Human Sound Localisation(공간 청취: 사람의 음 국소화의 정신 물리학)", The MIT Press, 1996에서의 섹션 3.2.2). 일반적으로, BMLD는 신호 합성, 공간 위치, 주파수 범위와 같은 몇개의 파라미터에 의존한다. 공간 제시에서의 마스킹 임계값은 모노딕 제시에 대한 것보다 최대 ~20 dB만큼 더 낮을 수 있다. 따라서, 공간 영역에 걸쳐 마스킹 임계값을 이용하는 것은 이것을 고려할 것이다.
A) 본 발명의 일 실시예는 (시간-)주파수는 물론 전체 원 또는 구면에 대한 음 입사 각도(angle of sound incidence) - 각각, 오디오 장면의 차원에 의존함 - 에 의존하는 다차원 마스킹 임계값 곡선을 산출하는 심리 음향적 마스킹 모델을 사용한다. 이 마스킹 임계값은 BMLD를 고려하는 공간 '확산 함수'에 의한 조작을 통해 (N+1)2개의 기준 위치에 대해 획득된 개별 (시간-)주파수 마스킹 곡선을 결합함으로써 획득될 수 있다. 그로써, 근처에 위치하는 - 즉, 마스커까지의 각도 거리가 작게 배치되어 있는 - 신호에 대한 마스커의 영향이 이용될 수 있다.
도 9는 상이한 신호(광대역 노이즈 마스커와 원하는 신호인 사인파 또는 100 μs 임펄스열)에 대한 BMLD를 신호의 두 귀 사이의 위상차 또는 시간차(즉, 위상각 및 시간 지연)의 함수로서 나타낸 것이며, 이에 대해서는 상기 논문 "Spatial Hearing: The Psychophysics of Human Sound Localisation"에 개시되어 있다.
최악의 경우의 특성의 역(즉, 가장 높은 BMLD 값을 갖는 것)이 한 방향에 있는 마스커의 다른 방향에 있는 마스키에 대한 영향을 결정하는 보수적인 "번짐(smearing)" 함수로서 사용될 수 있다. 특정의 경우에 대한 BMLD를 알고 있는 경우, 이 최악의 경우의 요건이 완화될 수 있다. 가장 관심을 끄는 경우는 마스커가 공간적으로 좁지만 (시간-)주파수에서 넓은 노이즈인 경우이다.
도 10은 결합 마스킹 임계값(MT)을 도출하기 위해 BMLD의 모델이 심리 음향적 모델에 어떻게 포함될 수 있는지를 나타낸 것이다. 각각의 공간 방향에 대한 개별 MT가 심리 음향적 모델 단계 또는 스테이지(1011, 1012, ..., 101O)에서 계산되고, 대응하는 공간 확산 함수(SSF) 단계 또는 스테이지(1021, 1022, ..., 102O)에 입력된다 - 이 공간 확산 함수는, 예컨대, 도 9에 도시된 BMLD들 중 하나의 역임 -. 따라서, 각각의 방향으로부터의 모든 신호 기여에 대해 전체 구/원(3D/2D 경우)을 커버하는 MT가 계산된다. 모든 개별 MT의 최대값이 단계/스테이지(103)에서 계산되고, 전체 오디오 장면에 대한 결합 MT를 제공한다.
B) 이 실시예의 추가의 확장은 대상 청취 환경 - 예컨대, 많은 청중이 있는 극장 또는 기타 행사장 - 에서의 음 전파의 모델을 필요로 하는데, 그 이유는 음 인지(sound perception)가 스피커에 대한 청취 위치에 의존하기 때문이다. 도 11은 7*5=35개의 좌석을 갖는 예시적인 극장 시나리오를 나타내고 있다. 극장에서 공간 오디오 신호를 재생할 때, 오디오 인지 및 레벨은 관람석의 크기 및 개별 청취자의 위치에 의존한다. 스윗 스폿 - 즉, 보통 관람석의 중앙 또는 기준 위치(110) - 에서만 '완벽한' 렌더링이 일어날 것이다. 예컨대, 청중의 좌측 주변에 위치하는 좌석 위치가 고려되는 경우, 우측으로부터 도달하는 음이 좌측으로부터 도달하는 음에 비해 감쇠도 되고 지연도 되는데, 그 이유는 우측 스피커까지의 직접 LOS(direct line-of-sight)가 좌측 스피커까지의 직접 LOS보다 더 길기 때문이다. 공간적으로 상이한 방향으로부터의 코딩 오류의 언마스킹 - 즉, 공간적 언마스킹 효과 - 을 방지하기 위해 최악의 경우의 고려 사항에서 비최적의 청취 위치에 대한 음 전파로 인한 이러한 잠재적인 방향-의존적 감쇠 및 지연이 고려되어야만 한다. 이러한 효과를 방지하기 위해, 인지 코덱의 심리 음향적 모델에서 시간 지연 및 레벨 변화가 고려된다
수정된 BMLD 값의 모델링을 위한 수학식을 도출하기 위해, 임의의 마스커 및 마스키 방향의 조합에 대해 최대 예상 상대 시간 지연 및 신호 감쇠가 모델링된다. 이하에서, 예시적인 2차원 설정에 대해 이것이 수행된다. 도 11의 극장 일례의 가능한 간략화가 도 12에 도시되어 있다. 청중이 반경
Figure 112011101446776-pat00024
의 원 - 참조: 도 11에 도시된 대응하는 원 - 내에 있을 것으로 예상된다. 2개의 신호 방향이 고려된다 - 마스커
Figure 112011101446776-pat00025
는 좌측(극장에서의 앞쪽 방향)으로부터 평면파로서 오는 것으로 나타내어져 있고, 마스키
Figure 112011101446776-pat00026
는 도 12의 우측 하부(극장에서 좌측 후방에 대응함)로부터 도달하는 평면파이다 -.
2개의 평면파의 동시 도달 시간의 라인이 양분하는 파선으로 나타내어져 있다. 이 양분하는 선까지의 거리가 가장 큰 원주 상의 2개의 점이 가장 큰 시간/레벨차가 일어나는 관람석 내의 위치이다. 도면에 표시된 우측 하부 지점(120)에 도달하기 전에, 음파는 청취 영역의 주변에 도달한 후에 거리
Figure 112011101446776-pat00027
Figure 112011101446776-pat00028
만큼 더 진행한다:
Figure 112011101446776-pat00029
,
Figure 112011101446776-pat00030
.
그러면, 그 지점에서 마스커
Figure 112011101446776-pat00031
와 마스키
Figure 112011101446776-pat00032
사이의 상대 타이밍 차이는
Figure 112011101446776-pat00033
이고,
여기서
Figure 112011101446776-pat00034
는 음속을 나타낸다.
전파 손실의 차이를 구하기 위해, 2배 거리마다
Figure 112011101446776-pat00035
(정확한 숫자는 스피커 기술에 따라 달라짐)만큼의 손실을 갖는 간단한 모델이 그 후에 가정된다. 게다가, 실제의 음원이 청취 영역의 외주부(outer perimeter)로부터
Figure 112011101446776-pat00036
의 거리를 갖는 것으로 가정된다. 그러면, 최대 전파 손실은
Figure 112011101446776-pat00037
Figure 112011101446776-pat00038
로 된다.
이 재생 시나리오 모델은 2개의 파라미터
Figure 112011101446776-pat00039
Figure 112011101446776-pat00040
를 포함한다. 이들 파라미터는 각자의 BMLD 항을 추가함으로써 - 즉, 대입함으로써 - 상기한 결합 심리 음향적 모델링에 통합될 수 있다:
Figure 112011101446776-pat00041
.
그로써, 심지어 큰 방에서도 임의의 양자화 오차 노이즈가 다른 공간 신호 성분에 의해 마스킹되도록 보장된다.
C) 이전의 섹션들에서 소개된 것과 동일한 고려사항이 하나 이상의 개별 음 객체를 하나 이상의 HOA 성분과 결합하는 공간 오디오 형식에 적용될 수 있다. 앞서 설명한 바와 같이 대상 환경의 특성을 선택적으로 고려하는 것을 비롯하여, 전체 오디오 장면에 대해 심리 음향적 마스킹 임계값의 추정이 수행된다. 이어서, 개별 음 객체의 개별적인 압축은 물론 HOA 성분의 압축도 비트 할당을 위해 결합 심리 음향적 마스킹 임계값을 고려한다.
HOA 부분 및 어떤 다른 개별 음 객체 둘다를 포함하는 보다 복잡한 오디오 장면의 압축이 상기 결합 심리 음향적 모델과 유사하게 수행될 수 있다. 관련 압축 처리가 도 13에 나타내어져 있다.
상기 고려사항과 병렬로, 결합 심리 음향적 모델은 모든 음 객체를 고려해야만 한다. 이상에서 소개된 것과 동일한 이론적 근거 및 구조가 적용될 수 있다. 대응하는 심리 음향적 모델의 상위 레벨 블록도가 도 14에 도시되어 있다.

Claims (24)

  1. HOA 계수들로 표시되는, 2차원 또는 3차원 음장(sound field)의 고차 앰비소닉스 표현(Ambisonics representation)의 수신된 연속 프레임들에 대해 인코딩을 수행하는 방법으로서,
    3차원 입력에 대해 프레임의 O = (N+1)2개의 입력 HOA 계수(IHOA)들, 또는 2차원 입력에 대해 프레임의 O = 2N+1개의 입력 HOA 계수(IHOA)들을, 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타내는 O개의 공간 영역 신호들로 변환하는 단계 - 여기서, N은 상기 입력 HOA 계수들의 차수이고 3 이상이며, 상기 O개의 공간 영역 신호들 각각은 공간에서 연관된 방향들로부터 오는 일련의 평면파(set of plane waves)를 나타내고, 대응하는 변환 행렬은 모드 행렬 Ψ의 역이고, 모든 계수들이 상기 모드 행렬 Ψ에서 결합되고, 여기서 i번째 열은 i번째 기준점의 방향에 따른 모드 벡터
    Figure 112018054809212-pat00056
    를 포함함 -,
    인지 압축 인코딩(perceptual compression encoding) 단계들 또는 스테이지들을 사용하여, 그로써 코딩 오류가 마스킹된 채로 있도록 선택된 인코딩 파라미터들을 사용하여, 상기 O개의 공간 영역 신호들 각각을 인코딩하는 단계, 및
    프레임의 얻어진 비트 스트림들을 결합(joint) 비트 스트림(BS)으로 멀티플렉싱하는 단계
    를 포함하는, 인코딩을 수행하는 방법.
  2. 제1항에 있어서, 상기 인지 압축 인코딩에서 사용되는 마스킹은 심리 음향적 마스킹이고, 시간-주파수 마스킹과 공간 마스킹(spatial masking)의 조합인, 인코딩을 수행하는 방법.
  3. 제1항 또는 제2항에 있어서, O개의 공간 영역 신호들로의 상기 변환은 평면파 분해(plane wave decomposition)인, 인코딩을 수행하는 방법.
  4. 제1항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 인코딩하는 단계는 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는, 인코딩을 수행하는 방법.
  5. 제1항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹(unmasking)을 방지하기 위해서, 상기 인코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치(non-optimum listening position)들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는, 인코딩을 수행하는 방법.
  6. 제1항에 있어서, 상기 인지 압축 인코딩 단계들 또는 스테이지들에서 사용되는 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려한 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향(sound direction)들에 대해 결합 마스킹 임계값을 얻도록 형성되는, 인코딩을 수행하는 방법.
  7. 제1항에 있어서, 개별 음 객체들은 개별적으로 인코딩되는, 인코딩을 수행하는 방법.
  8. HOA 계수들로 표시되는, 2차원 또는 3차원 음장의 고차 앰비소닉스 표현의 수신된 연속 프레임들에 대해 인코딩을 수행하는 장치로서,
    3차원 입력에 대해 프레임의 O = (N+1)2개의 입력 HOA 계수(IHOA)들, 또는 2차원 입력에 대해 프레임의 O = 2N+1개의 입력 HOA 계수(IHOA)들을, 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타내는 O개의 공간 영역 신호들로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 입력 HOA 계수들의 차수이고 3 이상이며, 상기 O개의 공간 영역 신호들 각각은 공간에서 연관된 방향들로부터 오는 일련의 평면파를 나타내고, 대응하는 변환 행렬은 모드 행렬 Ψ의 역이고, 모든 계수들이 상기 모드 행렬 Ψ에서 결합되고, 여기서 i번째 열은 i번째 기준점의 방향에 따른 모드 벡터
    Figure 112018054809212-pat00057
    를 포함함 -,
    인지 압축 인코딩 단계들 또는 스테이지들을 사용하여, 그로써 코딩 오류가 마스킹된 채로 있도록 선택된 인코딩 파라미터들을 사용하여, 상기 O개의 공간 영역 신호들 각각을 인코딩하도록 구성된 수단, 및
    프레임의 얻어진 비트 스트림들을 결합 비트 스트림(BS)으로 멀티플렉싱하도록 구성된 수단
    을 포함하는, 인코딩을 수행하는 장치.
  9. 제8항에 있어서, 상기 인지 압축 인코딩에서 사용되는 마스킹은 심리 음향적 마스킹이고, 시간-주파수 마스킹과 공간 마스킹의 조합인, 인코딩을 수행하는 장치.
  10. 제8항 또는 제9항에 있어서, 상기 O개의 공간 영역 신호들로 변환하는 것은 평면파 분해인, 인코딩을 수행하는 장치.
  11. 제8항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 인코딩하는 것은 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는, 인코딩을 수행하는 장치.
  12. 제8항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹을 방지하기 위해서, 상기 인코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는, 인코딩을 수행하는 장치.
  13. 제8항에 있어서, 상기 인지 압축 인코딩 단계들 또는 스테이지들에서 사용되는 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려한 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향들에 대해 결합 마스킹 임계값을 얻도록 형성되는, 인코딩을 수행하는 장치.
  14. 제8항에 있어서, 개별 음 객체들은 개별적으로 인코딩되는, 인코딩을 수행하는 장치.
  15. 제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인지 압축 인코딩된 고차 앰비소닉스 표현의 수신된 연속 프레임들을 디코딩하는 방법으로서,
    3차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = (N+1)2개의 인지 압축 인코딩된 공간 영역 신호들로, 또는 2차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = 2N+1개의 인지 압축 인코딩된 공간 영역 신호들로 디멀티플렉싱하는 단계,
    상기 O개의 인코딩된 공간 영역 신호들 각각을, 선택된 인코딩 유형에 대응하는 인지 압축 디코딩 단계들 또는 스테이지들을 사용하여 그리고 인코딩 파라미터들에 상응하는 압축 디코딩 파라미터들을 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하는 단계 - O개의 디코딩된 공간 영역 신호들은 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타냄 -, 및
    상기 O개의 디코딩된 공간 영역 신호들을 프레임의 O개의 출력 HOA 계수(OHOA)들로 변환하는 단계 - 여기서, N은 상기 출력 HOA 계수들의 차수임 -
    를 포함하는 디코딩 방법.
  16. 제15항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 디코딩하는 단계는 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는 디코딩 방법.
  17. 제15항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹을 방지하기 위해서, 상기 디코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는 디코딩 방법.
  18. 제15항에 있어서, 상기 인지 압축 디코딩 단계들 또는 스테이지들에서 사용되는 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려한 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향들에 대해 결합 마스킹 임계값을 얻도록 형성되는 디코딩 방법.
  19. 제15항에 있어서, 개별 음 객체들은 개별적으로 디코딩되는 디코딩 방법.
  20. 제1항에 따라 인코딩된, 2차원 또는 3차원 음장의 인지 압축 인코딩된 고차 앰비소닉스 표현의 수신된 연속 프레임들을 디코딩하는 장치로서,
    3차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = (N+1)2개의 인지 압축 인코딩된 공간 영역 신호들로, 또는 2차원 입력에 대해 수신된 결합 비트 스트림(BS)을 O = 2N+1개의 인지 압축 인코딩된 공간 영역 신호들로 디멀티플렉싱하도록 구성된 수단,
    상기 O개의 인코딩된 공간 영역 신호들 각각을, 선택된 인코딩 유형에 대응하는 인지 압축 디코딩 단계들 또는 스테이지들을 사용하여 그리고 인코딩 파라미터들에 상응하는 디코딩 파라미터들을 사용하여, 대응하는 디코딩된 공간 영역 신호로 디코딩하도록 구성된 수단 - O개의 디코딩된 공간 영역 신호들은 각각 구면 또는 원 상의 기준점들의 정규 분포를 나타냄 -, 및
    상기 O개의 디코딩된 공간 영역 신호들을 프레임의 O개의 출력 HOA 계수(OHOA)들로 변환하도록 구성된 변환 수단 - 여기서, N은 상기 출력 HOA 계수들의 차수임 -
    을 포함하는 디코딩 장치.
  21. 제20항에 있어서, 상기 O개의 공간 영역 신호들 각각을 상기 디코딩하는 것은 MPEG-1 오디오 계층 III 또는 AAC 또는 Dolby AC-3 표준에 대응하는 디코딩 장치.
  22. 제20항에 있어서, 공간적으로 상이한 방향들로부터의 코딩 오류들의 언마스킹을 방지하기 위해서, 상기 디코딩에서 적용되는 마스킹 임계값들을 계산하는 데 비최적의 청취 위치들에 대한 음 전파로 인한 방향-의존적 감쇠 및 지연이 고려되는 디코딩 장치.
  23. 제20항에 있어서, 상기 인지 압축 디코딩 단계들 또는 스테이지들을 사용할 때의 개별 마스킹 임계값들은, 상기 임계값들 각각을, BMLD(Binaural Masking Level Difference)를 고려하는 공간 확산 함수와 결합함으로써 변경되고, 상기 개별 마스킹 임계값들의 최대값은 모든 음 방향들에 대해 결합 마스킹 임계값을 얻도록 형성되는 디코딩 장치.
  24. 제20항에 있어서, 개별 음 객체들은 개별적으로 디코딩되는 디코딩 장치.
KR1020110138434A 2010-12-21 2011-12-20 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치 KR101909573B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP10306472A EP2469741A1 (en) 2010-12-21 2010-12-21 Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP10306472.1 2010-12-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020180121677A Division KR102010914B1 (ko) 2010-12-21 2018-10-12 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20120070521A KR20120070521A (ko) 2012-06-29
KR101909573B1 true KR101909573B1 (ko) 2018-10-19

Family

ID=43727681

Family Applications (3)

Application Number Title Priority Date Filing Date
KR1020110138434A KR101909573B1 (ko) 2010-12-21 2011-12-20 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치
KR1020180121677A KR102010914B1 (ko) 2010-12-21 2018-10-12 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치
KR1020190096615A KR102131748B1 (ko) 2010-12-21 2019-08-08 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Family Applications After (2)

Application Number Title Priority Date Filing Date
KR1020180121677A KR102010914B1 (ko) 2010-12-21 2018-10-12 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치
KR1020190096615A KR102131748B1 (ko) 2010-12-21 2019-08-08 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치

Country Status (5)

Country Link
US (1) US9397771B2 (ko)
EP (5) EP2469741A1 (ko)
JP (6) JP6022157B2 (ko)
KR (3) KR101909573B1 (ko)
CN (1) CN102547549B (ko)

Families Citing this family (107)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
EP2600637A1 (en) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for microphone positioning based on a spatial power density
KR101871234B1 (ko) * 2012-01-02 2018-08-02 삼성전자주식회사 사운드 파노라마 생성 장치 및 방법
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
EP2688066A1 (en) * 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
JP6279569B2 (ja) 2012-07-19 2018-02-14 ドルビー・インターナショナル・アーベー マルチチャンネルオーディオ信号のレンダリングを改善する方法及び装置
US9516446B2 (en) 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
WO2014052429A1 (en) * 2012-09-27 2014-04-03 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
EP2733963A1 (en) 2012-11-14 2014-05-21 Thomson Licensing Method and apparatus for facilitating listening to a sound signal for matrixed sound signals
EP2738962A1 (en) * 2012-11-29 2014-06-04 Thomson Licensing Method and apparatus for determining dominant sound source directions in a higher order ambisonics representation of a sound field
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9832584B2 (en) * 2013-01-16 2017-11-28 Dolby Laboratories Licensing Corporation Method for measuring HOA loudness level and device for measuring HOA loudness level
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
EP2765791A1 (en) * 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US10178489B2 (en) 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9883310B2 (en) * 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
US10475440B2 (en) * 2013-02-14 2019-11-12 Sony Corporation Voice segment detection for extraction of sound source
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9667959B2 (en) 2013-03-29 2017-05-30 Qualcomm Incorporated RTP payload format designs
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US10499176B2 (en) 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9691406B2 (en) 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
CN104244164A (zh) * 2013-06-18 2014-12-24 杜比实验室特许公司 生成环绕立体声声场
EP4425489A2 (en) * 2013-07-05 2024-09-04 Dolby International AB Enhanced soundfield coding using parametric component generation
EP2824661A1 (en) * 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
US9466302B2 (en) 2013-09-10 2016-10-11 Qualcomm Incorporated Coding of spherical harmonic coefficients
DE102013218176A1 (de) * 2013-09-11 2015-03-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und verfahren zur dekorrelation von lautsprechersignalen
US8751832B2 (en) * 2013-09-27 2014-06-10 James A Cashin Secure system and method for audio processing
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
EP2879408A1 (en) * 2013-11-28 2015-06-03 Thomson Licensing Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition
WO2015102452A1 (en) * 2014-01-03 2015-07-09 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
CN118248156A (zh) * 2014-01-08 2024-06-25 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
US9489955B2 (en) 2014-01-30 2016-11-08 Qualcomm Incorporated Indicating frame parameter reusability for coding vectors
US9922656B2 (en) * 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
KR102201961B1 (ko) * 2014-03-21 2021-01-12 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
EP3120352B1 (en) 2014-03-21 2019-05-01 Dolby International AB Method for compressing a higher order ambisonics (hoa) signal, method for decompressing a compressed hoa signal, apparatus for compressing a hoa signal, and apparatus for decompressing a compressed hoa signal
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR102201027B1 (ko) 2014-03-24 2021-01-11 돌비 인터네셔널 에이비 고차 앰비소닉스 신호에 동적 범위 압축을 적용하는 방법 및 디바이스
JP6863359B2 (ja) * 2014-03-24 2021-04-21 ソニーグループ株式会社 復号装置および方法、並びにプログラム
JP6374980B2 (ja) * 2014-03-26 2018-08-15 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
US9852737B2 (en) 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9959876B2 (en) * 2014-05-16 2018-05-01 Qualcomm Incorporated Closed loop quantization of higher order ambisonic coefficients
US9847087B2 (en) * 2014-05-16 2017-12-19 Qualcomm Incorporated Higher order ambisonics signal compression
KR20230162157A (ko) * 2014-06-27 2023-11-28 돌비 인터네셔널 에이비 Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현
CN117636885A (zh) * 2014-06-27 2024-03-01 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
EP2960903A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US9922657B2 (en) * 2014-06-27 2018-03-20 Dolby Laboratories Licensing Corporation Method for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
WO2016001355A1 (en) 2014-07-02 2016-01-07 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
EP2963948A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
EP2963949A1 (en) 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN106463132B (zh) * 2014-07-02 2021-02-02 杜比国际公司 对压缩的hoa表示编码和解码的方法和装置
US9800986B2 (en) 2014-07-02 2017-10-24 Dolby Laboratories Licensing Corporation Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
US9838819B2 (en) * 2014-07-02 2017-12-05 Qualcomm Incorporated Reducing correlation between higher order ambisonic (HOA) background channels
US9847088B2 (en) 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
US9875745B2 (en) * 2014-10-07 2018-01-23 Qualcomm Incorporated Normalization of ambient higher order ambisonic audio data
US10140996B2 (en) 2014-10-10 2018-11-27 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
US9984693B2 (en) * 2014-10-10 2018-05-29 Qualcomm Incorporated Signaling channels for scalable coding of higher order ambisonic audio data
EP3251116A4 (en) 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
EP3073488A1 (en) 2015-03-24 2016-09-28 Thomson Licensing Method and apparatus for embedding and regaining watermarks in an ambisonics representation of a sound field
US10334387B2 (en) 2015-06-25 2019-06-25 Dolby Laboratories Licensing Corporation Audio panning transformation system and method
US12087311B2 (en) 2015-07-30 2024-09-10 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding an HOA representation
EP3329486B1 (en) 2015-07-30 2020-07-29 Dolby International AB Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation
EA035078B1 (ru) 2015-10-08 2020-04-24 Долби Интернэшнл Аб Многоуровневое кодирование сжатых представлений звука или звукового поля
EP4411732A3 (en) 2015-10-08 2024-10-09 Dolby International AB Layered coding and data structure for compressed higher-order ambisonics sound or sound field representations
US9959880B2 (en) * 2015-10-14 2018-05-01 Qualcomm Incorporated Coding higher-order ambisonic coefficients during multiple transitions
US10341802B2 (en) * 2015-11-13 2019-07-02 Dolby Laboratories Licensing Corporation Method and apparatus for generating from a multi-channel 2D audio input signal a 3D sound representation signal
US9881628B2 (en) 2016-01-05 2018-01-30 Qualcomm Incorporated Mixed domain coding of audio
KR101968456B1 (ko) 2016-01-26 2019-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 양자화
CA2999393C (en) 2016-03-15 2020-10-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method or computer program for generating a sound field description
WO2018001489A1 (en) * 2016-06-30 2018-01-04 Huawei Technologies Duesseldorf Gmbh Apparatuses and methods for encoding and decoding a multichannel audio signal
MC200186B1 (fr) * 2016-09-30 2017-10-18 Coronal Encoding Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel
CN109804645A (zh) * 2016-10-31 2019-05-24 谷歌有限责任公司 基于投影的音频代码化
FR3060830A1 (fr) * 2016-12-21 2018-06-22 Orange Traitement en sous-bandes d'un contenu ambisonique reel pour un decodage perfectionne
US10332530B2 (en) 2017-01-27 2019-06-25 Google Llc Coding of a soundfield representation
US10904992B2 (en) 2017-04-03 2021-01-26 Express Imaging Systems, Llc Systems and methods for outdoor luminaire wireless control
WO2018208560A1 (en) * 2017-05-09 2018-11-15 Dolby Laboratories Licensing Corporation Processing of a multi-channel spatial audio format input signal
CN110800048B (zh) 2017-05-09 2023-07-28 杜比实验室特许公司 多通道空间音频格式输入信号的处理
EP3652735A1 (en) 2017-07-14 2020-05-20 Fraunhofer Gesellschaft zur Förderung der Angewand Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
BR112020000759A2 (pt) * 2017-07-14 2020-07-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, método para gerar uma descrição aprimorada de campo sonoro, método para gerar uma descrição modificada de campo sonoro de uma descrição de campo sonoro e metadados em relação a informações espaciais da descrição de campo sonoro, programa de computador, descrição aprimorada de campo sonoro
CN107705794B (zh) * 2017-09-08 2023-09-26 崔巍 增强型多功能数字音频解码器
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10672405B2 (en) * 2018-05-07 2020-06-02 Google Llc Objective quality metrics for ambisonic spatial audio
RU2769788C1 (ru) * 2018-07-04 2022-04-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Кодер, многосигнальный декодер и соответствующие способы с использованием отбеливания сигналов или постобработки сигналов
ES2969138T3 (es) * 2018-12-07 2024-05-16 Fraunhofer Ges Forschung Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación directa de componentes
US10728689B2 (en) * 2018-12-13 2020-07-28 Qualcomm Incorporated Soundfield modeling for efficient encoding and/or retrieval
WO2020171049A1 (ja) * 2019-02-19 2020-08-27 公立大学法人秋田県立大学 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置
US11317497B2 (en) 2019-06-20 2022-04-26 Express Imaging Systems, Llc Photocontroller and/or lamp with photocontrols to control operation of lamp
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
US11212887B2 (en) 2019-11-04 2021-12-28 Express Imaging Systems, Llc Light having selectively adjustable sets of solid state light sources, circuit and method of operation thereof, to provide variable output characteristics
US11636866B2 (en) * 2020-03-24 2023-04-25 Qualcomm Incorporated Transform ambisonic coefficients using an adaptive network
CN113593585A (zh) * 2020-04-30 2021-11-02 华为技术有限公司 音频信号的比特分配方法和装置
CN115376527A (zh) * 2021-05-17 2022-11-22 华为技术有限公司 三维音频信号编码方法、装置和编码器
CN113903353B (zh) * 2021-09-27 2024-08-27 随锐科技集团股份有限公司 一种基于空间区分性检测的定向噪声消除方法及装置
WO2024024468A1 (ja) * 2022-07-25 2024-02-01 ソニーグループ株式会社 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002093556A1 (en) 2001-05-11 2002-11-21 Nokia Corporation Inter-channel signal redundancy removal in perceptual audio coding
WO2006052188A1 (en) 2004-11-12 2006-05-18 Catt (Computer Aided Theatre Technique) Surround sound processing arrangement and method

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ522719A (en) 2000-05-29 2005-01-28 Ginganet Corp Communication device that provides audio and video communication through operation of a remote controller
US6678647B1 (en) * 2000-06-02 2004-01-13 Agere Systems Inc. Perceptual coding of audio signals using cascaded filterbanks for performing irrelevancy reduction and redundancy reduction with different spectral/temporal resolution
TWI393120B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 用於音訊信號編碼及解碼之方法和系統、音訊信號編碼器、音訊信號解碼器、攜帶有位元流之電腦可讀取媒體、及儲存於電腦可讀取媒體上的電腦程式
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
BRPI0807703B1 (pt) 2007-02-26 2020-09-24 Dolby Laboratories Licensing Corporation Método para aperfeiçoar a fala em áudio de entretenimento e meio de armazenamento não-transitório legível por computador
WO2009007639A1 (fr) * 2007-07-03 2009-01-15 France Telecom Quantification apres transformation lineaire combinant les signaux audio d'une scene sonore, codeur associe
US8219409B2 (en) 2008-03-31 2012-07-10 Ecole Polytechnique Federale De Lausanne Audio wave field encoding
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
EP2450880A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Data structure for Higher Order Ambisonics audio data
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002093556A1 (en) 2001-05-11 2002-11-21 Nokia Corporation Inter-channel signal redundancy removal in perceptual audio coding
WO2006052188A1 (en) 2004-11-12 2006-05-18 Catt (Computer Aided Theatre Technique) Surround sound processing arrangement and method

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Erik Hellerud, et al. Spatial redundancy in Higher Order Ambisonics and its use for lowdelay lossless compression. IEEE International Conference on Acoustics, Speech and Signal Processing. 2009. pp.26*

Also Published As

Publication number Publication date
EP2469741A1 (en) 2012-06-27
KR20120070521A (ko) 2012-06-29
JP6335241B2 (ja) 2018-05-30
JP7342091B2 (ja) 2023-09-11
JP6732836B2 (ja) 2020-07-29
JP2023158038A (ja) 2023-10-26
EP4343759A2 (en) 2024-03-27
EP3468074B1 (en) 2021-12-22
JP2022016544A (ja) 2022-01-21
KR20190096318A (ko) 2019-08-19
EP2469742A2 (en) 2012-06-27
US9397771B2 (en) 2016-07-19
JP2020079961A (ja) 2020-05-28
CN102547549A (zh) 2012-07-04
JP2012133366A (ja) 2012-07-12
KR102010914B1 (ko) 2019-08-14
EP2469742B1 (en) 2018-12-05
EP4343759A3 (en) 2024-06-12
JP2016224472A (ja) 2016-12-28
EP4007188B1 (en) 2024-02-14
EP3468074A1 (en) 2019-04-10
JP6022157B2 (ja) 2016-11-09
EP4007188A1 (en) 2022-06-01
CN102547549B (zh) 2016-06-22
KR102131748B1 (ko) 2020-07-08
KR20180115652A (ko) 2018-10-23
JP6982113B2 (ja) 2021-12-17
EP2469742A3 (en) 2012-09-05
JP2018116310A (ja) 2018-07-26
US20120155653A1 (en) 2012-06-21

Similar Documents

Publication Publication Date Title
KR102131748B1 (ko) 2차원 또는 3차원 음장의 앰비소닉스 표현의 연속 프레임을 인코딩 및 디코딩하는 방법 및 장치
JP7181371B2 (ja) レンダリング方法、レンダリング装置及び記録媒体
JP5081838B2 (ja) オーディオ符号化及び復号
RU2551797C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
RU2406166C2 (ru) Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
JP5520300B2 (ja) マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置
US9478228B2 (en) Encoding and decoding of audio signals
JP2016530788A (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
GB2485979A (en) Spatial audio coding
Cheng Spatial squeezing techniques for low bit-rate multichannel audio coding
Väljamäe A feasibility study regarding implementation of holographic audio rendering techniques over broadcast networks
Mouchtaris et al. Multichannel Audio Coding for Multimedia Services in Intelligent Environments
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right