KR102555789B1 - 입체 음향 콘텐츠를 전달하는 3차원 오디오 디코더에서의 모노포닉 신호의 처리 - Google Patents

입체 음향 콘텐츠를 전달하는 3차원 오디오 디코더에서의 모노포닉 신호의 처리 Download PDF

Info

Publication number
KR102555789B1
KR102555789B1 KR1020207018299A KR20207018299A KR102555789B1 KR 102555789 B1 KR102555789 B1 KR 102555789B1 KR 1020207018299 A KR1020207018299 A KR 1020207018299A KR 20207018299 A KR20207018299 A KR 20207018299A KR 102555789 B1 KR102555789 B1 KR 102555789B1
Authority
KR
South Korea
Prior art keywords
rendering
signal
processing
stereophonic
audio
Prior art date
Application number
KR1020207018299A
Other languages
English (en)
Other versions
KR20200100664A (ko
Inventor
그레고리 팔로네
Original Assignee
오렌지
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 오렌지 filed Critical 오렌지
Publication of KR20200100664A publication Critical patent/KR20200100664A/ko
Application granted granted Critical
Publication of KR102555789B1 publication Critical patent/KR102555789B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

본 발명은 헤드셋에 의해 공간적으로 전달되도록 의도되는 디코딩된 신호들을 입체 음향화하는 처리 단계를 포함하는 3차원 오디오 디코더에서의 모노포닉 신호를 처리하는 방법에 관한 것이다. 방법은 모노포닉 신호를 나타내는 데이터 스트림에서, 표시가 공간적 전달 위치 정보와 연관되는 비입체 음향화 처리의 표시의 검출 시에(E200), 디코딩된 모노포닉 신호가 헤드셋을 통하여 전달되기(E240) 위해 2개의 전달 채널을 입체 음향화 처리로부터 출력되는 입체 음향화된 신호와 합산하는 직접적 믹싱 단계(E230)를 통하여 직접 처리되는 2개의 전달 채널을 구성하도록(E220) 위치 정보를 고려하는 스테레오포닉 렌더링 엔진으로 지향되도록(O-E200) 된다. 본 발명은 또한 처리 방법을 구현하는 디코더 디바이스에 관한 것이다.

Description

입체 음향 콘텐츠를 전달하는 3차원 오디오 디코더에서의 모노포닉 신호의 처리
본 발명은 MPEG-H 3차원 오디오 표준을 충족시키는 코덱과 같은 3차원 오디오 디코딩 시스템에서의 오디오 신호의 처리에 관한 것이다. 본 발명은 보다 상세하게는 또한 입체 음향 오디오 신호를 수신하는 헤드셋에 의해 렌더링되도록 의도되는 모노포닉 신호의 처리에 관한 것이다.
입체 음향이란 용어는 오디오 헤드셋 또는 한 쌍의 이어폰에 의한, 그럼에도 불구하고 공간화 효과를 갖는 오디오 신호의 렌더링을 명시한다. 이하에 입체 음향화 또는 입체 음향화 처리라 일컬어지는 오디오 신호의 입체 음향 처리는 음원과 청취자의 귀 사이에서 음향 전달 함수를 재현하는 주파수 영역에서의 HRTF(머리 관련 전달 함수의 의미) 필터 또는 시간 영역에서의 HRIR, BRIR(머리 관련 임펄스 응답, 입체 음향 실내 임펄스 응답의 의미) 필터를 사용한다. 이러한 필터들은 마치 실제 청취 상황에서처럼 청취자가 음원을 위치 추적하는 것을 가능하게 하는 청각 위치 추적 실마리를 시뮬레이션하는 역할을 한다.
우측 귀에 대한 신호는 우측 귀의 전달 함수(HRTF)로 모노포닉 신호를 필터링함으로써 얻어지고, 좌측 귀에 대한 신호는 좌측 귀의 전달 함수로 동일한 모노포닉 신호를 필터링함으로써 얻어진다.
2014년 7월 25일에 공개된 참조된 문서 ISO/IEC 23008-3: “이질적 환경들에서의 고효율 코딩 및 매체 전달 - 파트 3: 3차원 오디오(High efficiency coding and media delivery in heterogenous environments - Part 3: 3D audio)”에 설명하는 MPEG-H 3차원 오디오, 또는 심지어 2014년 4월에 공개된 참조된 문서 ETSI TS 103 190: “디지털 오디오 압축 표준(Digital Audio Compression Standard)”에 설명하는 AC4와 같은 NGA(차세대 오디오) 코덱들에서, 디코더에 의해 수신되는 신호는 초기에 디코딩되며, 그 다음 오디오 헤드셋에 의해 렌더링되기 전에, 상술한 것과 같은 입체 음향화 처리를 거친다. 오디오 헤드셋에 의해 렌더링되는 음향이 공간화되는, 즉 입체 음향화된 신호가 채용되는 경우가 여기서 관심 있는 경우이다.
그러므로, 앞서 언급한 코덱들은 헤드셋을 통해 청취되는 입체 음향화된 신호의, 복수의 가상 확성기에 의한, 렌더링의 가능성을 위한 토대를 놓을 뿐만 아니라 공간화된 음향의, 복수의 실제 확성기에 의한, 렌더링의 가능성을 위한 토대도 놓는다.
특정 경우에, 청취자의 머리를 추적하는 기능(머리-추적 기능)은 입체 음향화 처리와 연관되며, 이러한 기능은 또한 정적 렌더링과는 대조적으로 동적 렌더링으로 지칭된다. 이러한 타입의 처리는 오디오 광경의 렌더링을 안정되게 유지하기 위해 각각의 귀에 렌더링되는 음향을 변경할 목적으로 청취자의 머리의 움직임이 고려되는 것을 가능하게 한다. 즉, 청취자는 청취자가 청취자의 머리를 움직이든 아니면 움직이지 않든 물리적 공간에서의 동일한 위치에 위치될 음원들을 감지할 것이다.
이는 360° 영상 콘텐츠를 보고 청취할 때 중요할 수 있다.
그러나, 특정 콘텐츠가 이러한 타입의 처리로 처리되는 것은 바람직하지 않다. 상세하게는 특정 경우에, 콘텐츠가 상세하게는 입체 음향 렌더링을 위해 생성되었을 때, 예를 들어 신호가 인공 머리를 사용하여 직접 기록되었거나 입체 음향화 처리로 이미 처리되었으면, 그 때 신호는 직접 헤드셋의 이어폰에 의해 렌더링되어야 한다. 이러한 신호는 부가 입체 음향화 처리를 필요로 하지 않는다.
마찬가지로, 콘텐츠 제작자는, 예를 들어 보이스 오프(voice-off)의 경우에, 오디오 신호가 오디오 광경과 관계없이 렌더링되기를, 즉 오디오 신호가 오디오 광경과 별도의 음향으로서 감지되기를 바랄 수 있다.
이러한 타입의 렌더링은, 예를 들어 설명이 오디오 광경과 함께 추가로 렌더링되는 것을 제공 가능하게 할 수 있다. 예를 들어, 콘텐츠 제작자는 의도적인 “수화기” 효과를 얻을 수 있기 위해 음향이 한쪽 귀에 렌더링되기를, 즉 음향이 한쪽 귀에서만 들리기를 바랄 수 있다. 청취자가 청취자의 머리를 움직이더라도 이러한 음향이 다른쪽 귀에는 결코 들리지 않기를 원할 수도 있으며, 이는 앞선 예에서의 경우이다. 콘텐츠 제작자는 청취자가 청취자의 머리를 움직이더라도 (단지 한쪽 귀 내부가 아닌) 청취자의 귀에 대한 오디오 공간에서의 정확한 위치에서 이러한 음향이 렌더링되기를 바랄 수도 있다.
그러한 모노포닉 신호가 디코딩되었고 MPEG-H 3차원 오디오 또는 AC4 코덱과 같은 렌더링 시스템으로 입력되었으면, 그러한 모노포닉 신호는 입체 음향화될 것이다. 음향은 그 다음 (음향이 반대쪽 귀에서 더 조용할지라도) 2개의 귀 사이에 분배될 것이고 머리-추적 처리가, 채용된다면, 음원의 위치가 초기 오디오 광경에서와 동일하게 유지되게 할 것이므로, 청취자가 청취자의 머리를 움직였을 것이라면, 청취자의 귀는 동일한 방식으로 음향을 감지하지 않을 것이며: 그러므로, 2개의 귀 각각에서의 음향의 세기는 머리의 위치에 따라 달라지도록 나타날 것이다.
MPEG-H 3차원 오디오 표준의 하나의 제안된 개정안에서, 2015년 10월의 참조된 기고문 “ISO/IEC JTC1/SC29/WG11 MPEG2015/M37265”는 입체 음향화에 의해 바뀌어지지 않아야 할 콘텐츠를 식별하는 것을 제안한다.
따라서, “양이 분리” 식별이 입체 음향화에 의해 처리되지 않아야 할 콘텐츠와 연관된다.
모든 오디오 요소는 그 다음 “양이 분리”가 참조된 것들을 제외하고 입체 음향화될 것이다. “양이 분리”는 상이한 신호가 귀들 각각으로 공급되는 것을 의미한다.
동일한 방식으로 AC4 표준에서, 데이터 비트는 신호가 이미 가상화되었다는 것을 나타낸다. 이러한 비트는 후처리가 비활성화되는 것을 가능하게 한다. 따라서 식별된 콘텐츠는 오디오 헤드셋에 대해 이미 형식화된 콘텐츠, 즉 입체 음향 콘텐츠이다. 식별된 콘텐츠는 2개의 채널을 포함한다.
이러한 방법들은 오디오 광경의 제작자가 입체 음향화를 바라지 않는 모노포닉 신호의 경우를 다루지 않는다.
이는 “수화기” 모드로 지칭될 것에서의 청취자의 귀에 대한 정확한 위치에서 오디오 광경과 관계없이 모노포닉 신호가 렌더링되는 것을 방지한다. 종래 기술 2-채널 기법을 이용하여, 한쪽 귀에의 원하는 렌더링을 달성하는 한가지의 방식은 채널들 중 하나에서 신호로 구성되고 다른 채널에서 무음의 2-채널 콘텐츠를 생성하는 것, 또는 실제로 원하는 공간적 위치를 고려하여 스테레오포닉 콘텐츠를 생성하고 이러한 콘텐츠를 송신하기 전에 이미 공간화되었던 것으로 이러한 콘텐츠를 식별하는 것일 것이다.
그러나, 이러한 스테레오포닉 콘텐츠가 생성되어야 함에 따라, 이러한 타입의 처리는 복잡성을 일으키고 이러한 스테레오포닉 콘텐츠를 송신하기 위한 부가 대역폭을 필요로 한다.
그러므로, 동일한 헤드셋에 의해 렌더링되는 오디오 광경과 관계없이, 오디오-헤드셋 착용자의 귀에 대한 정확한 위치에서 렌더링될 신호가 사용되는 코덱에 의해 필요로 되는 대역폭을 최적화하면서, 전달되는 것을 가능하게 하는 해결책을 제공하기 위한 요구가 있다.
본 발명은 상기 상황을 개선하는 것을 목적으로 한다.
이러한 목적으로, 본 발명은 오디오 헤드셋에 의해 공간적으로 렌더링되도록 의도되는 디코딩된 신호들 상에서 입체 음향화 처리를 수행하는 단계를 포함하는 3차원 오디오 디코더에서의 오디오 모노포닉 신호를 처리하는 방법을 제안한다. 방법은,
모노포닉 신호를 나타내는 데이터 스트림에서, 렌더링 공간적 위치 정보와 연관된 비입체 음향화-처리 표시를 검출할 시에, 디코딩된 모노포닉 신호가 오디오 헤드셋에 의해 렌더링될 목적으로 2개의 렌더링 채널을 입체 음향화 처리에 기인하는 입체 음향화된 신호와 합산하는 직접적 믹싱 단계로 처리되는 2개의 렌더링 채널을 구성하도록 위치 정보를 고려하는 스테레오포닉 렌더러로 지향되도록 된다.
따라서, 모노포닉 콘텐츠가 청취자의 귀에 대한 정확한 공간적 위치에서 렌더링되어야 하는 것을 구체화하는 것 그리고 모노포닉 콘텐츠가 입체 음향화 처리를 거치지 않는 것이 가능하여, 이러한 렌더링된 신호는 “수화기” 효과를 가질 수 있으며, 즉 스테레오포닉 신호와 동일한 방식으로 그리고 청취자의 머리가 움직이더라도 청취자의 머리 내부의 한쪽 귀에 대한 한정된 위치에서 청취자가 들을 수 있다.
상세하게는, 스테레오포닉 신호들은 각각의 오디오 소스가 채널들 사이의 볼륨 차이(또는 양이간 레벨차의 의미로 ILD) 그리고 때때로 시간차(또는 양이간 시간차의 의미로 ITD)를 갖고 2개의(좌측 및 우측) 출력 채널 각각에서 존재한다는 사실을 특징으로 한다. 스테레오포닉 신호가 헤드셋 상에서 청취될 때, 소스들은 ILD 및/또는 ITD에 따른 좌측 귀와 우측 귀 사이에 위치되는 장소에서인, 청취자의 머리 내부에서 감지된다. 입체 음향 신호들은 소스에서부터 청취자의 귀까지의 음향 경로를 재현하는 필터가 소스들에 적용된다는 점에서 스테레오포닉 신호들과 상이하다. 입체 음향 신호가 헤드셋 상에서 청취될 때, 소스들은 사용되는 필터에 따라 구체 상에 위치되는 장소에서인, 머리의 외부에서 감지된다.
스테레오포닉 및 입체 음향 신호들은 이들이 2개의(좌측 및 우측) 채널로 구성되고 이러한 2개의 채널의 콘텐츠에 대해 상이하다는 점에서 유사하다.
렌더링된 모노(모노포닉의 의미) 신호는 그 때 3차원 오디오 광경을 형성하는 다른 렌더링된 신호들 상에 중첩된다.
이러한 타입의 콘텐츠를 나타내는 데 필요한 대역폭은, 인코딩되고, 송신되고, 그 다음 디코딩될 오디오 광경에서의 공간적 위치를 고려하는 스테레오포닉 신호를 필요로 하는 방법에 반해, 수행될 처리를 디코더에 알리기 위해 비입체 음향화 표시에 더하여 오디오 광경에서의 위치의 표시를 코딩하는 것만이 충분하므로, 최적화된다.
이하에 언급되는 다양한 특정 실시예는 앞서 정의된 처리 방법의 단계들에 독립적으로 또는 서로와의 조합으로 추가될 수 있다.
하나의 특정 실시예에서, 렌더링 공간적 위치 정보는 렌더링 오디오 헤드셋의 단일 채널을 나타내는 2진 데이터이다.
이러한 정보는 하나만의 코딩 비트를 필요로 하며, 이는 필요한 대역폭이 훨씬 더 제한되는 것을 가능하게 한다.
이러한 실시예에서, 2진 데이터로 나타내어지는 채널에 상응하는 렌더링 채널만이 직접적 믹싱 단계에서 입체 음향화된 신호의 상응하는 채널과 합산되며, 다른 렌더링 채널의 값은 무의미하다.
따라서 수행되는 합산은 구현하기에 단순하고 렌더링된 오디오 광경에서 모노 신호의 중첩의 원하는 “수화기” 효과를 달성한다.
하나의 특정 실시예에서, 모노포닉 신호는 렌더링 공간적 위치 정보와 함께 스테레오포닉 렌더러로 지향되는 채널-타입 신호이다.
따라서, 모노포닉 신호는 입체 음향화 처리가 수행되는 단계를 거치지 않고 종래 기술 방법들로 통상적으로 처리되는 채널-타입 신호들과 같이 처리되지 않는다. 이러한 신호는 채널-타입 신호들에 대해 사용되는 기존 렌더러들과 상이한 스테레오포닉 렌더러에 의해 처리된다. 이러한 렌더러는 2개의 채널 상에서 모노포닉 신호를 되풀이하지만, 렌더링 공간적 위치 정보에 따른 인자들을 2개의 채널에 적용시킨다.
이러한 스테레오포닉 렌더러는 더욱이 검출에 따라 구별되는 처리가 채널 렌더러로 입력되는 신호에 적용되는 채널 렌더러, 또는 이러한 스테레오포닉 렌더러에 의해 생성되는 채널들을, 입체 음향화 처리를 수행하는 모듈에 의해 생성되는 입체 음향화된 신호와 합산하는 직접적 믹싱 모듈로 통합될 수 있다.
이러한 채널-타입 신호와 연관된 일 실시예에서, 렌더링 공간적 위치 정보는 양이간 레벨차에 대한 ILD 데이터 또는 보다 일반적으로 좌측 채널과 우측 채널 사이의 레벨 비율에 대한 정보이다.
다른 실시예에서, 모노포닉 신호는 비입체 음향화 표시 및 렌더링 위치 정보를 포함하는 렌더링 파라미터들의 세트와 연관된 대상-타입 신호이며, 신호는 렌더링 공간적 위치 정보와 함께 스테레오포닉 렌더러로 지향된다.
이러한 다른 실시예에서, 렌더링 공간적 위치 정보는, 예를 들어 방위각에 대한 데이터이다.
이러한 정보는 이러한 음향이 오디오 광경 상에 중첩되게 렌더링되도록 오디오 헤드셋의 착용자의 귀에 대한 렌더링 위치가 지정되는 것을 가능하게 한다.
따라서, 모노포닉 신호는 입체 음향화 처리가 수행되는 단계를 거치지 않고 종래 기술 방법들로 통상적으로 처리되는 대상-타입 신호들과 같이 처리되지 않는다. 이러한 신호는 대상-타입 신호들에 대해 사용되는 기존 렌더러들과 상이한 스테레오포닉 렌더러에 의해 처리된다. 비입체 음향화-처리 표시 및 렌더링 위치 정보는 대상-타입 신호와 연관된 렌더링 파라미터들(메타데이터)에 포함된다. 이러한 렌더러는 더욱이 이러한 스테레오포닉 렌더러에 의해 생성되는 채널들을, 입체 음향화 처리를 수행하는 모듈에 의해 생성되는 입체 음향화된 신호와 합산하는 직접적 믹싱 모듈, 또는 대상 렌더러로 통합될 수 있다.
본 발명은 또한 오디오 헤드셋에 의해 공간적으로 렌더링되도록 의도되는 디코딩된 신호들 상에서 입체 음향화 처리를 수행하는 모듈을 포함하는 오디오 모노포닉 신호를 처리하는 디바이스에 관한 것이다. 이러한 디바이스는:
- 모노포닉 신호를 나타내는 데이터 스트림에서, 렌더링 공간적 위치 정보와 연관된 비입체 음향화-처리 표시를 검출할 수 있는 검출 모듈;
- 검출 모듈에 의한 정의 검출의 경우에, 디코딩된 모노포닉 신호를 스테레오포닉 렌더러로 지향시킬 수 있는 재지향에 대한 모듈;
- 2개의 렌더링 채널을 구성하도록 위치 정보를 고려할 수 있는 스테레오포닉 렌더러;
- 오디오 헤드셋에 의해 렌더링될 목적으로 2개의 렌더링 채널을 입체 음향화 처리를 수행하는 모듈에 의해 생성되는 입체 음향화된 신호와 합산함으로써 2개의 렌더링 채널을 직접 처리할 수 있는 직접적 믹싱 모듈을 포함하도록 된다.
이러한 디바이스는 이러한 디바이스가 구현하는 상술한 방법과 동일한 이점들을 갖는다.
하나의 특정 실시예에서, 스테레오포닉 렌더러는 직접적 믹싱 모듈로 통합된다.
따라서, 렌더링 채널들이 구성되는 것은 단지 직접적 믹싱 모듈에서이며, 위치 정보만이 그 때 모노 신호와 함께 직접적 믹싱 모듈로 송신된다. 이러한 신호는 채널 타입 또는 대상 타입일 수 있다.
일 실시예에서, 모노포닉 신호는 채널-타입 신호이고 스테레오포닉 렌더러는 더욱이 다중 채널 신호들에 대한 렌더링 채널들을 구성하는 채널 렌더러로 통합된다.
다른 실시예에서, 모노포닉 신호는 대상-타입 신호이고 스테레오포닉 렌더러는 더욱이 렌더링 파라미터들의 세트들과 연관된 모노포닉 신호들에 대한 렌더링 채널들을 구성하는 대상 렌더러로 통합된다.
본 발명은 설명한 것과 같은 처리 디바이스를 포함하는 오디오 디코더, 그리고 코드 명령어들이 프로세서에 의해 실행될 때, 설명한 것과 같은 처리 방법의 단계들을 구현하는 코드 명령어들을 포함하는 컴퓨터 프로그램에 관한 것이다.
마지막으로, 본 발명은 처리 디바이스로 통합될 수 있거나 통합되지 않을 수 있고, 상술한 것과 같은 처리 방법을 수행하는 명령어들을 포함하는 컴퓨터 프로그램을 저장하는 선택적으로 제거 가능한, 프로세서 판독 가능 저장 매체에 관한 것이다.
본 발명의 다른 특징들 및 이점들이 첨부 도면들을 참조하여 단지 비제한적인 예로서 주어지는 이하의 설명을 읽을 시에 보다 분명히 명백해질 것이다:
- 도 1은 종래 기술에서 볼 수 있는 것과 같은 MPEG-H 3차원 오디오 디코더를 도시한다.
- 도 2는 본 발명의 일 실시예에 따른 처리 방법의 단계들을 도시한다.
- 도 3은 본 발명의 제1 실시예에 따른 처리 디바이스를 포함하는 디코더를 도시한다.
- 도 4는 본 발명의 제2 실시예에 따른 처리 디바이스를 포함하는 디코더를 도시한다.
- 도 5는 본 발명의 일 실시예에 따른 처리 디바이스의 하드웨어 표현을 도시한다.
도 1은 앞서 참조된 문서에서 지정되는 MPEG-H 3차원 오디오 표준으로 표준화된 것과 같은 디코더를 개략적으로 도시한다. 블록(101)은 (메타데이터) 공간화 파라미터들(Obj.MeDa.) 및 HOA(더 높은 차수 앰비소닉스의 의미) 오디오 형식으로의 오디오 신호들과 연관되는 “채널” 타입의 다중 채널 오디오 신호들(Ch.), “대상” 타입의 모노포닉 오디오 신호들(Obj.) 둘 다를 디코딩하는 코어 디코딩 모듈이다.
채널-타입 신호는 디코딩되고 이러한 채널 신호를 오디오 렌더링 시스템에 적응시키기 위해 채널 렌더러(102)(또한 MPEG-H 3차원 오디오 표준으로의 “형식 변환기”라 일컬어짐)에 의해 처리된다. 채널 렌더러는 렌더링 시스템의 특성들을 인지하고 따라서, 실제 확성기들 또는 가상 확성기들에 공급할 목적으로 하나의 신호 당 렌더링 채널(Rdr.Ch)을 전달한다(이는 그 다음 헤드셋에 의한 렌더링을 위해 입체 음향화될 것임).
이러한 렌더링 채널들은 후술하는 대상 및 HOA 렌더러들(103, 105)에 의해 생성되는 다른 렌더링 채널들과 믹싱 모듈(110)에 의해 믹싱된다.
대상-타입 신호들(Obj.)은 모노포닉 신호가 공간화된 오디오 광경에 위치되는 것을 가능하게 하는 공간화 파라미터들(방위각들, 고도), 우선 순위 파라미터들 또는 오디오 볼륨 파라미터들과 같은 메타데이터와 연관된 모노포닉 신호들이다. 이러한 대상 신호들 및 연관된 파라미터들은 디코딩 모듈(101)에 의해 디코딩되고 렌더링 시스템의 특성들을 인지하여, 이러한 모노포닉 신호들을 이러한 특성들에 적응시키는 대상 렌더러(103)에 의해 처리된다. 따라서 생성되는 다양한 렌더링 채널(Rdr.Obj.)은 믹싱 모듈(110)에 의해, 채널 및 HOA 렌더러들에 의해 생성되는 다른 렌더링 채널들과 믹싱된다.
동일한 방식으로, HOA(더 높은 차수 앰비소닉스의 의미) 신호들은 디코딩되고 디코딩된 앰비소닉스 성분들은 이러한 성분들을 오디오 렌더링 시스템에 적응시키기 위해 HOA 렌더러(105)로 입력된다.
이러한 HOA 렌더러에 의해 생성되는 렌더링 채널들(Rdr.HOA)은 다른 렌더러들(102 및 103)에 의해 생성되는 렌더링 채널들과 110에서 믹싱된다.
믹싱 모듈(110)로부터 출력되는 신호들은 렌더링 룸에 위치되는 실제 확성기들(HP)에 의해 렌더링될 수 있다. 이러한 경우에, 믹싱 모듈로부터 출력되는 신호들은 하나의 채널이 하나의 확성기에 상응하는 이러한 실제 확성기들로 직접 공급될 수 있다.
믹싱 모듈로부터 출력되는 신호들이 오디오 헤드셋(CA)에 의해 렌더링되게 될 경우에, 그 때 이러한 신호들은, 예를 들어 MPEG-H 3차원 오디오 표준에 대하여 인용된 문서에 설명하는 것과 같은 입체 음향화 기법들을 이용하여 입체 음향화 처리를 수행하는 모듈(120)에 의해 처리된다.
따라서, 오디오 헤드셋에 의해 렌더링되도록 의도되는 모든 신호는 입체 음향화 처리를 수행하는 모듈(120)에 의해 처리된다.
도 2는 본 발명의 일 실시예에 따른 처리 방법의 단계들을 도시한다.
이러한 방법은 3차원 오디오 디코더에서의 모노포닉 신호의 처리에 관한 것이다. 단계(E200)는 모노포닉 신호를 나타내는 데이터 스트림(SMo)(예를 들어, 오디오 디코더로 입력되는 비트 스트림)이 렌더링 공간적 위치 정보와 연관된 비입체 음향화 표시를 포함하는지 여부를 검출한다. 반대의 경우(단계(E200)에서 아니오)에, 신호는 입체 음향화되어야 한다. 신호는 렌더링 오디오 헤드셋에 의해 E240에서 렌더링되기 전에, 단계(E210)에서 입체 음향화 처리를 수행함으로써 처리된다. 이러한 입체 음향화된 신호는 후술하는 단계(E220)에서 생성되는 다른 스테레오포닉 신호들과 믹싱될 수 있다.
모노포닉 신호를 나타내는 데이터 스트림이 비입체 음향화 표시(Di.) 및 렌더링 공간적 위치 정보(Pos.) 둘 다를 포함하는 경우(단계(E200)에서 예)에, 디코딩된 모노포닉 신호는 단계(E220)에서 처리되도록 스테레오포닉 렌더러로 지향된다.
이러한 비입체 음향화 표시는, 예를 들어 종래 기술에서와 같이, 모노포닉 신호에 주어지는 “양이 분리” 식별 또는 입체 음향화 처리로 신호를 처리하지 않으라는 명령어로서 이해되는 다른 식별일 수 있다. 렌더링 공간적 위치 정보는, 예를 들어 좌측 또는 우측 귀에 대한 음향의 렌더링 위치를 나타내는 방위각, 또는 심지어 모노포닉 신호의 에너지가 좌측 채널과 우측 채널 사이에 분배되는 것을 가능하게 하는 ILD 정보와 같은 좌측 채널과 우측 채널 사이의 레벨차의 표시, 또는 심지어 우측 또는 좌측 귀에 상응하는 단일 렌더링 채널이 사용되게 될 것이라는 표시일 수 있다. 후자의 경우에, 이러한 정보는 매우 소량의 대역폭(하나의 단일 데이터 비트)을 필요로 하는 2진 정보이다.
단계(E220)에서, 위치 정보는 오디오 헤드셋의 2개의 이어폰에 대한 2개의 렌더링 채널을 구성하도록 고려된다. 따라서 구성되는 이러한 2개의 렌더링 채널은 이러한 2개의 스테레오포닉 채널을 입체 음향화 처리(E210)에 기인하는 2개의 입체 음향화-신호 채널과 합산하는 직접적 믹싱 단계(E230)로 직접 처리된다.
스테레오포닉 렌더링 채널들 각각은 그 때 상응하는 입체 음향화된 신호와 합산된다.
이러한 직접적 믹싱 단계를 추종하여, 믹싱 단계(E230)에서 생성되는 2개의 렌더링 채널은 오디오 헤드셋(CA)에 의해 E240에서 렌더링된다.
렌더링 공간적 위치 정보가 렌더링 오디오 헤드셋의 단일 채널을 나타내는 2진 데이터인 실시예에서, 이는 모노포닉 신호가 오로지 이러한 헤드셋의 하나의 이어폰에 의해 렌더링되어야 한다는 것을 의미한다. 그러므로, 스테레오포닉 렌더러에 의해 단계(E220)에서 구성되는 2개의 렌더링 채널은 모노포닉 신호를 포함하는 하나의 채널, 무의미한 그리고 그러므로 가능하게는 부재한 다른 하나의 채널로 구성된다.
직접적 믹싱 단계(E230)에서, 단일 채널이 그러므로 입체 음향화된 신호의 상응하는 채널과 합산되며, 다른 채널은 무의미하다. 그러므로, 이러한 믹싱 단계가 단순화된다.
따라서, 오디오 헤드셋을 착용하는 청취자는 한편으로는, 입체 음향화된 신호로부터 생성되는 공간화된 오디오 광경(동적 렌더링의 경우에, 청취자가 듣는 오디오 광경의 물리적 레이아웃은 청취자가 청취자의 머리를 움직이더라도 동일하게 유지됨) 그리고 다른 한편으로는, 오디오 광경 상에 독립적으로 중첩되는 한쪽 귀와 청취자의 머리의 중심 사이의 청취자의 머리 내부에 위치되는 음향을 들으며, 즉 청취자가 청취자의 머리를 움직이면, 이러한 음향은 한쪽 귀에 대한 동일한 위치에서 들릴 것이다.
그러므로, 이러한 음향은 오디오 광경의 다른 입체 음향화된 음향들 상에 중첩되는 것으로 감지되고, 예를 들어 이러한 오디오 광경에서의 보이스 오프로서 기능할 것이다.
따라서, “수화기” 효과가 달성된다.
도 3은 도 2를 참조하여 설명한 처리 방법을 구현하는 처리 디바이스를 포함하는 디코더의 제1 실시예를 도시한다. 이러한 예시적 실시예에서, 구현된 프로세스에 의해 처리되는 모노포닉 신호는 채널-타입 신호(Ch.)이다.
대상-타입 신호들(Obj.) 및 HOA-타입 신호들(HOA)은 도 1을 참조하여 설명한 블록들(103, 104 및 105)에 대해서와 동일한 방식으로 각각의 블록(303, 304 및 305)에 의해 처리된다. 동일한 방식으로, 믹싱 블록(310)은 도 1의 블록(110)에 대하여 설명한 것과 같은 믹싱을 수행한다.
채널-타입 신호들을 수신하는 블록(330)은 렌더링 위치 공간적 정보(Pos.)의 단편들을 포함하지 않는 다른 신호, 특히 다중 채널 신호와 상이하게 렌더링 위치 공간적 정보(Pos.)와 연관된 비입체 음향화 표시(Di.)를 포함하는 모노포닉 신호를 처리한다. 이러한 단편들의 정보를 포함하지 않는 이러한 신호들과 관련하여, 이러한 신호들은 도 1을 참조하여 설명한 블록(102)에서와 동일한 방식으로 블록(302)에 의해 처리된다.
렌더링 공간적 위치 정보와 연관된 비입체 음향화 표시를 포함하는 모노포닉 신호의 경우, 블록(330)은 라우터 또는 스위치로서의 역할을 하고 디코딩된 모노포닉 신호(Mo.)를 스테레오포닉 렌더러(331)로 지향시킨다. 스테레오포닉 렌더러는 더욱이 디코딩 모듈로부터 렌더링 공간적 위치 정보(Pos.)를 수신한다. 이러한 정보로, 스테레오포닉 렌더러는 렌더링 오디오 헤드셋의 좌측 및 우측 채널들에 상응하는 2개의 렌더링 채널(2 Vo.)을 구성하여, 이러한 채널들이 오디오 헤드셋(CA)에 의해 렌더링될 수 있다.
하나의 예시적 실시예에서, 렌더링 공간적 위치 정보는 좌측 채널과 우측 채널 사이의 양이간 레벨차에 대한 정보이다. 이러한 정보는 이러한 렌더링 공간적 위치를 달성하도록 렌더링 채널들 각각에 적용되어야 하는 인자가 정의되는 것을 가능하게 한다.
이러한 인자들은 인텐시티 스테레오를 설명하는 참조된 문서 MPEG-2 AAC: ISO/IEC 13818-4:2004/DCOR 2, AAC in section 7.2에서와 같이 정의될 수 있다.
오디오 헤드셋에 의해 렌더링되기 전에, 이러한 렌더링 채널들은 입체 음향화 모듈(320)에 의해 생성되는 입체 음향화된 신호의 채널들에 추가되며, 입체 음향화 모듈(320)은 도 1의 블록(120)과 동일한 방식으로 입체 음향화 처리를 수행한다.
채널들을 합산하는 이러한 단계는 직접적 믹싱 모듈(340)에 의해 수행되며, 직접적 믹싱 모듈(340)은 헤드셋(CA)에 의한 렌더링 이전에, 스테레오포닉 렌더러(331)에 의해 생성되는 좌측 채널을 입체 음향화 처리 모듈(320)에 의해 생성되는 입체 음향화된 신호의 좌측 채널과, 그리고 스테레오포닉 렌더러(331)에 의해 생성되는 우측 채널을 입체 음향화 처리 모듈(320)에 기인하는 입체 음향화된 신호의 우측 채널과 합산한다.
따라서, 모노포닉 신호는 입체 음향화 처리 모듈(320)을 거쳐가지 않으며: 모노포닉 신호는 입체 음향화된 신호와 직접 믹싱되기 전에, 스테레오포닉 렌더러(331)로 직접 송신된다.
그러므로, 이러한 신호는 또한 머리-추적 처리를 거치지 않을 것이다. 렌더링되는 음향은 그러므로 청취자의 한쪽 귀에 대한 렌더링 위치에 있을 것이고 청취자가 청취자의 머리를 움직이더라도 이러한 위치에 유지될 것이다.
이러한 실시예에서, 스테레오포닉 렌더러(331)는 채널 렌더러(302)로 통합될 수 있다. 이러한 경우에, 이러한 채널 렌더러는 도 1을 참조하여 설명한 바와 같은 통상적 채널-타입 신호들의 적응, 그리고 렌더링 공간적 위치 정보(Pos.)가 수신될 때, 상술한 바와 같은 렌더러(331)의 2개의 렌더링 채널의 구성 둘 다를 구현한다. 2개의 렌더링 채널만이 그 다음 오디오 헤드셋(CA)에 의한 렌더링 이전에, 직접적 믹싱 모듈(340)로 재지향된다.
하나의 변형 실시예에서, 스테레오포닉 렌더러(331)는 직접적 믹싱 모듈(340)로 통합된다. 이러한 경우에, 라우팅 모듈(330)은 (라우팅 모듈(330)이 비입체 음향화 표시 및 렌더링 공간적 위치 정보를 검출했던) 디코딩된 모노포닉 신호를 직접적 믹싱 모듈(340)로 지향시킨다. 더욱이, 디코딩된 렌더링 공간적 위치 정보(Pos.)는 또한 직접적 믹싱 모듈(340)로 송신된다. 이러한 직접적 믹싱 모듈이 그 다음 스테레오포닉 렌더러를 포함하므로, 이러한 직접적 믹싱 모듈은 렌더링 공간적 위치 정보를 고려한 2개의 렌더링 채널의 구성, 그리고 이러한 2개의 렌더링 채널의, 입체 음향화 처리 모듈(320)에 의해 생성되는 입체 음향화된 신호의 렌더링 채널들과의 믹싱을 구현한다.
도 4는 도 2를 참조하여 설명한 처리 방법을 구현하는 처리 디바이스를 포함하는 디코더의 제2 실시예를 도시한다. 이러한 예시적 실시예에서, 구현된 프로세스를 이용하여 처리되는 모노포닉 신호는 대상-타입 신호(Obj.)이다.
채널-타입 신호들(Ch.) 및 HOA-타입 신호들(HOA)은 도 1을 참조하여 설명한 블록들(102 및 105)에 대해서와 동일한 방식으로 각각의 블록(402 및 405)에 의해 처리된다. 동일한 방식으로, 믹싱 블록(410)은 도 1의 블록(110)에 대하여 설명한 것과 같은 믹싱을 수행한다.
대상-타입 신호들(Obj.)을 수신하는 블록(430)은 렌더링 위치 공간적 정보(Pos.)와 연관된 비입체 음향화 표시(Di.)가 이러한 단편들의 정보가 검출되지 않았던 다른 모노포닉 신호와 상이하게 검출되었던 모노포닉 신호를 처리한다.
이러한 단편들의 정보가 검출되지 않았던 모노포닉 신호들과 관련하여, 이러한 모노포닉 신호들은 블록(404)에 의해 디코딩되는 파라미터들을 사용하여 도 1을 참조하여 설명한 블록(103)에서와 동일한 방식으로 블록(403)에 의해 처리되며, 블록(404)은 도 1의 블록(104)과 동일한 방식으로 메타데이터를 디코딩한다.
렌더링 공간적 위치 정보와 연관된 비입체 음향화 표시가 검출되었던 대상 타입의 모노포닉 신호의 경우, 블록(430)은 라우터 또는 스위치로서의 역할을 하고 디코딩된 모노포닉 신호(Mo.)를 스테레오포닉 렌더러(431)로 지향시킨다.
비입체 음향화 표시(Di.) 및 렌더링 공간적 위치 정보(Pos.)는 대상-타입 신호들과 연관된 메타데이터 또는 파라미터들을 디코딩하는 블록(404)에 의해 디코딩된다. 비입체 음향화 표시(Di.)는 라우팅 블록(430)으로 송신되고 렌더링 공간적 위치 정보는 스테레오포닉 렌더러(431)로 송신된다.
따라서 렌더링 공간적 위치 정보(Pos.)를 수신하는 이러한 스테레오포닉 렌더러는 렌더링 오디오 헤드셋의 좌측 및 우측 채널들에 상응하는 2개의 렌더링 채널을 구성하여, 이러한 채널들이 오디오 헤드셋(CA)에 의해 렌더링될 수 있다.
하나의 예시적 실시예에서, 렌더링 공간적 위치 정보는 원하는 렌더링 위치와 청취자의 머리의 중심 사이의 각도를 한정하는 방위각에 대한 정보이다.
이러한 정보는 이러한 렌더링 공간적 위치를 달성하도록 렌더링 채널들 각각에 적용되어야 하는 인자가 정의되는 것을 가능하게 한다.
좌측 및 우측 채널들에 대한 이득 인자들은 “벡터 베이스 진폭 패닝을 이용한 가상 음원 위치 선정(Virtual Sound Source Positioning Using Vector Base Amplitude Panning)” by Ville Pulkki in J. Audio Eng. Soc., Vol. 45, No. 6, June 1997이라는 명칭의 문서에서 제공된 방식으로 컴퓨팅될 수 있다.
예를 들어, 스테레오포닉 렌더러의 이득 인자들은 이하에 의해 주어질 수 있으며:
g1 = (cosO.sinH + sinO.cosH)/(2.cosH.sinH)
g2 = (cosO.sinH - sinO.cosH)/(2.cosH.sinH)
여기서, g1 및 g2는 좌측 및 우측 채널들의 신호들에 대한 인자들에 상응하고, O는 정면 방향과 대상 사이의 각도(방위각으로 지칭됨)이고, H는 예를 들어, 45°로 설정되는 (확성기들 사이의 반각에 상응하는) 정면 방향과 가상 확성기의 위치 사이의 각도이다.
오디오 헤드셋에 의해 렌더링되기 전에, 이러한 렌더링 채널들은 입체 음향화 모듈(420)에 의해 생성되는 입체 음향화된 신호의 채널들에 추가되며, 입체 음향화 모듈(420)은 도 1의 블록(120)과 동일한 방식으로 입체 음향화 처리를 수행한다.
채널들을 합산하는 이러한 단계는 직접적 믹싱 모듈(440)에 의해 수행되며, 직접적 믹싱 모듈(440)은 헤드셋(CA)에 의한 렌더링 이전에, 스테레오포닉 렌더러(431)에 의해 생성되는 좌측 채널을 입체 음향화 처리 모듈(420)에 의해 생성되는 입체 음향화된 신호의 좌측 채널과, 그리고 스테레오포닉 렌더러(431)에 의해 생성되는 우측 채널을 입체 음향화 처리 모듈(420)에 기인하는 입체 음향화된 신호의 우측 채널과 합산한다.
따라서, 모노포닉 신호는 입체 음향화 처리 모듈(420)을 거쳐가지 않으며: 모노포닉 신호는 입체 음향화된 신호와 직접 믹싱되기 전에, 스테레오포닉 렌더러(431)로 직접 송신된다.
그러므로, 이러한 신호는 또한 머리-추적 처리를 거치지 않을 것이다. 렌더링되는 음향은 그러므로 청취자의 한쪽 귀에 대한 렌더링 위치에 있을 것이고 청취자가 청취자의 머리를 움직이더라도 이러한 위치에 유지될 것이다.
이러한 실시예에서, 스테레오포닉 렌더러(431)는 대상 렌더러(403)로 통합될 수 있다. 이러한 경우에, 이러한 대상 렌더러는 도 1을 참조하여 설명한 바와 같은 통상적 대상-타입 신호들의 적응, 그리고 렌더링 공간적 위치 정보(Pos.)가 파라미터-디코딩 모듈(404)로부터 수신될 때, 상술한 바와 같은 렌더러(431)의 2개의 렌더링 채널의 구성 둘 다를 구현한다. 2개의 렌더링 채널(2Vo.)만이 그 다음 오디오 헤드셋(CA)에 의한 렌더링 이전에, 직접적 믹싱 모듈(440)로 재지향된다.
하나의 변형 실시예에서, 스테레오포닉 렌더러(431)는 직접적 믹싱 모듈(440)로 통합된다. 이러한 경우에, 라우팅 모듈(430)은 (라우팅 모듈(330)이 비입체 음향화 표시 및 렌더링 공간적 위치 정보를 검출했던) 디코딩된 모노포닉 신호(Mo.)를 직접적 믹싱 모듈(440)로 지향시킨다. 더욱이, 디코딩된 렌더링 공간적 위치 정보(Pos.)는 또한 파라미터-디코딩 모듈(404)에 의해 직접적 믹싱 모듈(440)로 송신된다. 이러한 직접적 믹싱 모듈이 그 다음 스테레오포닉 렌더러를 포함하므로, 이러한 직접적 믹싱 모듈은 렌더링 공간적 위치 정보를 고려한 2개의 렌더링 채널의 구성, 그리고 이러한 2개의 렌더링 채널의, 입체 음향화 처리 모듈(420)에 의해 생성되는 입체 음향화된 신호의 렌더링 채널들과의 믹싱을 구현한다.
이제, 도 5는 본 발명에 따른 처리 방법을 구현할 수 있는 처리 디바이스의 하드웨어 실시예의 일 예를 도시한다.
디바이스(DIS)는 저장 공간(530), 예를 들어 메모리(MEM), 및 프로세서(PROC)를 포함하는 처리부(520)를 포함하며, 프로세서(PROC)는 컴퓨터 프로그램(Pg)에 의해 제어되며, 컴퓨터 프로그램(Pg)은 메모리(530)에 저장되고, 본 발명에 따른 처리 방법을 구현한다.
컴퓨터 프로그램(Pg)은 코드 명령어들이 프로세서(PROC)에 의해 실행될 때, 본 발명에 따른 처리 방법의 단계들, 그리고 특히, 모노포닉 신호를 나타내는 데이터 스트림에서, 렌더링 공간적 위치 정보와 연관된 비입체 음향화-처리 표시를 검출할 시에, 오디오 헤드셋에 의해 렌더링될 목적으로 2개의 렌더링 채널을 입체 음향화 처리에 기인하는 입체 음향화된 신호와 합산하는 직접적 믹싱 단계로 직접 처리되는 이러한 2개의 채널을 구성하도록 위치 정보를 고려하는 스테레오포닉 렌더러로 디코딩된 모노포닉 신호를 지향시키는 단계를 구현하는 이러한 명령어들을 포함한다.
전형적으로, 도 2의 설명은 그러한 컴퓨터 프로그램의 알고리즘의 단계들에 적용된다.
초기화 시에, 프로그램(Pg)의 코드 명령어들은 예를 들어, 처리부(520)의 프로세서(PROC)에 의해 실행되기 전에, RAM(미도시)으로 로딩된다. 프로그램 명령어들은 플래시 메모리, 하드 디스크 또는 임의의 다른 비일시적 저장 매체와 같은 저장 매체에 저장될 수 있다.
디바이스(DIS)는, 특히 모노포닉 신호를 나타내는 데이터 스트림(SMo)을 수신할 수 있는 수신 모듈(510)을 포함한다. 디바이스(DIS)는 이러한 데이터 스트림에서, 렌더링 공간적 위치 정보와 연관된 비입체 음향화-처리 표시를 검출할 수 있는 검출 모듈(540)을 포함한다. 디바이스(DIS)는 검출 모듈(540)에 의한 정의 검출의 경우에, 디코딩된 모노포닉 신호를 스테레오포닉 렌더러(560)로 지향시키는 모듈(550)을 포함하며, 스테레오포닉 렌더러(560)는 2개의 렌더링 채널을 구성하도록 위치 정보를 고려할 수 있다.
디바이스(DIS)는 또한 2개의 렌더링 채널을 입체 음향화 처리 모듈에 의해 생성되는 입체 음향화된 신호의 2개의 채널과 합산함으로써 2개의 렌더링 채널을 직접 처리할 수 있는 직접적 믹싱 모듈(570)을 포함한다. 따라서 얻어지는 렌더링 채널들은 출력 모듈(560)을 통하여 오디오 헤드셋(CA)으로 송신되어, 렌더링된다.
이러한 다양한 모듈의 실시예들은 도 3 및 도 4를 참조하여 설명한 것과 같다.
모듈이란 용어는 소프트웨어 구성 요소 또는 하드웨어 구성 요소, 또는 소프트웨어 구성 요소 그 자체가 하나 이상의 컴퓨터 프로그램 또는 서브루틴에 상응하는 하드웨어 및 소프트웨어 구성 요소들의 어셈블리, 또는 보다 일반적으로 당해의 모듈들에 대해 설명하는 것과 같은 기능 또는 기능들의 세트를 구현할 수 있는 프로그램의 임의의 요소에 상응할 수 있다. 동일한 방식으로, 하드웨어 구성 요소는 당해의 모듈에 대한 기능 또는 기능들의 세트를 구현할 수 있는 하드웨어 어셈블리의 임의의 요소(집적 회로, 칩 카드, 메모리 카드 등)에 상응한다.
디바이스는 도 3 또는 도 4에 도시된 것과 같은 오디오 디코더로 통합될 수 있고, 예를 들어, 셋톱박스, 또는 오디오 또는 영상 콘텐츠의 판독기와 같은 멀티미디어 장비로 통합될 수 있다. 이들은 휴대폰 또는 통신 게이트웨이와 같은 통신 장비로 통합될 수도 있다.

Claims (14)

  1. 3차원 오디오 디코더에서의 오디오 모노포닉 신호를 처리하는 방법으로서,
    오디오 헤드셋에 의해 공간적으로 렌더링되는 디코딩된 신호들에 입체 음향화 처리를 수행하는 단계;
    디코딩된 오디오 모노포닉 신호를 나타내는 데이터 스트림에서, 렌더링 공간적 위치 정보와 연관된 비-입체음향화-처리 표시를 검출할 시에(E200), 상기 디코딩된 모노포닉 신호를 스테레오포닉 렌더러 및/또는 믹싱 모듈로 지향하는 단계(E200-예);
    상기 스테레오포닉 렌더러 및/또는 믹싱 모듈에서,
    상기 렌더링 공간적 위치 정보를 사용하여 2개의 렌더링 채널을 구성하는 단계(E220); 및
    상기 오디오 헤드셋에 의해 렌더링될 목적으로 상기 2개의 렌더링 채널을 상기 입체 음향화 처리로부터 기인하는 입체 음향화 신호와 합산하는 직접적 믹싱을 처리하는 단계(E230)를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 렌더링 공간적 위치 정보는 상기 오디오 헤드셋의 단일 채널을 나타내는 2진 데이터인, 방법.
  3. 제2항에 있어서,
    상기 2진 데이터로 나타내어지는 상기 채널에 상응하는 렌더링 채널만이 상기 직접적 믹싱을 처리하는 단계에서 상기 입체 음향화된 신호의 상응하는 채널과 합산되며, 다른 렌더링 채널의 값은 무의미한, 방법.
  4. 제1항에 있어서,
    상기 모노포닉 신호는 상기 렌더링 공간적 위치 정보와 함께 상기 스테레오포닉 렌더러 및/또는 상기 믹싱 모듈로 지향되는 채널-타입 신호인, 방법.
  5. 제4항에 있어서,
    상기 렌더링 공간적 위치 정보는 양이간 레벨차(ILD)에 대한 데이터인, 방법.
  6. 제1항에 있어서,
    상기 모노포닉 신호는 상기 비-입체음향화-처리 표시 및 상기 렌더링 공간적 위치 정보를 포함하는 렌더링 파라미터들의 세트와 연관된 대상-타입 신호이며, 상기 신호는 상기 렌더링 공간적 위치 정보와 함께 상기 스테레오포닉 렌더러 및/또는 상기 믹싱 모듈로 지향되는, 방법.
  7. 제6항에 있어서,
    상기 렌더링 공간적 위치 정보는 방위각에 대한 데이터인, 방법.
  8. 오디오 헤드셋에 의해 공간적으로 렌더링되도록 의도되는 디코딩된 신호들에 입체 음향화 처리를 수행하는 모듈을 포함하는 오디오 모노포닉 신호를 처리하는 디바이스로서:
    - 상기 모노포닉 신호를 나타내는 데이터 스트림에서, 렌더링 공간적 위치 정보와 연관된 비-입체음향화-처리 표시를 검출할 수 있는 검출 모듈(330; 430);
    - 상기 검출 모듈에 의한 정(positive)의 검출의 경우에, 상기 디코딩된 모노포닉 신호를 스테레오포닉 렌더러로 지향시킬 수 있는 재지향에 대한 모듈(330, 430);
    - 상기 위치 정보를 고려하여 2개의 렌더링 채널을 구성하고 그리고 상기 오디오 헤드셋에 의해 렌더링될 목적으로 상기 2개의 렌더링 채널을 입체 음향화 처리를 수행하는 모듈(320; 420)에 의해 생성되는 입체 음향화된 신호와 합산함으로써 상기 2개의 렌더링 채널을 직접 처리할 수 있는 스테레오포닉 렌더러(331; 431) 및/또는 믹싱 모듈(340; 440)을 포함하는 것을 특징으로 하는 디바이스.
  9. 제8항에 있어서,
    상기 스테레오포닉 렌더러는 상기 믹싱 모듈로 통합되는, 디바이스.
  10. 제8항에 있어서,
    상기 모노포닉 신호는 채널-타입 신호이고 상기 스테레오포닉 렌더러는 다중 채널 신호들에 대한 렌더링 채널들을 구성하는 채널 렌더러로 통합되는, 디바이스.
  11. 제8항에 있어서,
    상기 모노포닉 신호는 대상-타입 신호이고 상기 스테레오포닉 렌더러는 렌더링 파라미터들의 세트들과 연관된 모노포닉 신호들에 대한 렌더링 채널들을 구성하는 대상 렌더러로 통합되는, 디바이스.
  12. 제8항 내지 제11항 중 어느 한 항에 청구된 처리 디바이스를 포함하는 오디오 디코더.
  13. 삭제
  14. 제1항 내지 제7항 중 어느 한 항에 청구된 처리 방법을 수행하는 명령어들을 포함하는 컴퓨터 프로그램을 저장하는 프로세서 판독 가능 저장 매체.
KR1020207018299A 2017-12-19 2018-12-07 입체 음향 콘텐츠를 전달하는 3차원 오디오 디코더에서의 모노포닉 신호의 처리 KR102555789B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR1762478A FR3075443A1 (fr) 2017-12-19 2017-12-19 Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural
FR1762478 2017-12-19
PCT/FR2018/053161 WO2019122580A1 (fr) 2017-12-19 2018-12-07 Traitement d'un signal monophonique dans un décodeur audio 3d restituant un contenu binaural

Publications (2)

Publication Number Publication Date
KR20200100664A KR20200100664A (ko) 2020-08-26
KR102555789B1 true KR102555789B1 (ko) 2023-07-13

Family

ID=62222744

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207018299A KR102555789B1 (ko) 2017-12-19 2018-12-07 입체 음향 콘텐츠를 전달하는 3차원 오디오 디코더에서의 모노포닉 신호의 처리

Country Status (8)

Country Link
US (1) US11176951B2 (ko)
EP (2) EP3729832A1 (ko)
JP (2) JP7279049B2 (ko)
KR (1) KR102555789B1 (ko)
CN (1) CN111492674B (ko)
BR (1) BR112020012071A2 (ko)
FR (1) FR3075443A1 (ko)
WO (1) WO2019122580A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114503607B (zh) * 2019-08-19 2024-01-02 杜比实验室特许公司 用于操控音频的双耳化的方法、系统和计算机可读介质
TW202348047A (zh) * 2022-03-31 2023-12-01 瑞典商都比國際公司 用於沉浸式3自由度/6自由度音訊呈現的方法和系統

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160266865A1 (en) 2013-10-31 2016-09-15 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09327100A (ja) * 1996-06-06 1997-12-16 Matsushita Electric Ind Co Ltd ヘッドホン再生装置
US20090299756A1 (en) * 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
US7634092B2 (en) * 2004-10-14 2009-12-15 Dolby Laboratories Licensing Corporation Head related transfer functions for panned stereo audio content
KR100754220B1 (ko) * 2006-03-07 2007-09-03 삼성전자주식회사 Mpeg 서라운드를 위한 바이노럴 디코더 및 그 디코딩방법
WO2009001277A1 (en) * 2007-06-26 2008-12-31 Koninklijke Philips Electronics N.V. A binaural object-oriented audio decoder
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
TWI475896B (zh) * 2008-09-25 2015-03-01 Dolby Lab Licensing Corp 單音相容性及揚聲器相容性之立體聲濾波器
US8620008B2 (en) * 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010122455A1 (en) * 2009-04-21 2010-10-28 Koninklijke Philips Electronics N.V. Audio signal synthesizing
EP2535892B1 (en) * 2009-06-24 2014-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
CN106162500B (zh) * 2015-04-08 2020-06-16 杜比实验室特许公司 音频内容的呈现

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160266865A1 (en) 2013-10-31 2016-09-15 Dolby Laboratories Licensing Corporation Binaural rendering for headphones using metadata processing

Also Published As

Publication number Publication date
CN111492674B (zh) 2022-03-15
WO2019122580A1 (fr) 2019-06-27
RU2020121890A (ru) 2022-01-04
US11176951B2 (en) 2021-11-16
JP2023099599A (ja) 2023-07-13
KR20200100664A (ko) 2020-08-26
BR112020012071A2 (pt) 2020-11-24
EP3729832A1 (fr) 2020-10-28
EP4135350A1 (fr) 2023-02-15
US20210012782A1 (en) 2021-01-14
JP7279049B2 (ja) 2023-05-22
CN111492674A (zh) 2020-08-04
FR3075443A1 (fr) 2019-06-21
JP2021508195A (ja) 2021-02-25

Similar Documents

Publication Publication Date Title
KR101054932B1 (ko) 스테레오 오디오 신호의 동적 디코딩
US11089425B2 (en) Audio playback method and audio playback apparatus in six degrees of freedom environment
US10687162B2 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
JP2019533404A (ja) バイノーラルオーディオ信号処理方法及び装置
JP2023099599A (ja) バイノーラルコンテンツを配信する3d音声デコーダにおけるモノラル信号の処理
JP7371968B2 (ja) メタデータを利用するオーディオ信号処理方法及び装置
CN114600188A (zh) 用于音频编码的装置和方法
CN114067810A (zh) 音频信号渲染方法和装置
KR102148217B1 (ko) 위치기반 오디오 신호처리 방법
WO2008084436A1 (en) An object-oriented audio decoder
Tsingos et al. Surround sound with height in games using Dolby Pro Logic Iiz
RU2779295C2 (ru) Обработка монофонического сигнала в декодере 3d-аудио, предоставляющая бинауральный информационный материал
Chabanne et al. Surround sound with height in games using dolby pro logic iiz
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
US20230011591A1 (en) System and method for virtual sound effect with invisible loudspeaker(s)
CN112255791A (zh) Vr眼镜和观赏vr视频的方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant