KR20160090869A - 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱 - Google Patents

고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱 Download PDF

Info

Publication number
KR20160090869A
KR20160090869A KR1020167016992A KR20167016992A KR20160090869A KR 20160090869 A KR20160090869 A KR 20160090869A KR 1020167016992 A KR1020167016992 A KR 1020167016992A KR 20167016992 A KR20167016992 A KR 20167016992A KR 20160090869 A KR20160090869 A KR 20160090869A
Authority
KR
South Korea
Prior art keywords
channels
channel
audio signal
downmixing
audio
Prior art date
Application number
KR1020167016992A
Other languages
English (en)
Other versions
KR102294767B1 (ko
Inventor
제프리 톰슨
조란 페조
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/447,516 external-priority patent/US9338573B2/en
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20160090869A publication Critical patent/KR20160090869A/ko
Application granted granted Critical
Publication of KR102294767B1 publication Critical patent/KR102294767B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Abstract

고채널 카운트(7개 또는 그 이상의 채널들) 멀티채널 오디오의 채널 카운트들(및 그에 따른 비트레이트들)을 감소시키고, 공간적 정확성과 기본 오디오 품질 사이에서의 트레이드오프들을 가능하게 함으로써 오디오 품질을 최적화하며, 오디오 신호 포맷들을 재생 환경 구성들로 변환하기 위한 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법. 초기 N 채널 카운트는 멀티플렛 팬 법칙들을 사용하는 더 낮은 수의 채널들로의 공간적 매트릭스 믹싱에 의해 M개의 채널들로 감소된다. 멀티플렛 팬 법칙들은 더블렛, 트리플렛, 및 쿼드러플렛 팬 법칙들을 포함한다. 예를 들어, 쿼드러플렛 팬 법칙을 사용하여 N개의 채널들 중 하나의 채널이 쿼드러플렛 채널을 생성하기 위하여 M개의 채널들 중 4개의 채널들로 다운믹싱될 수 있다. 오디오 컨텐츠뿐만 아니라 공간적 정보가 멀티플렛 채널들 내에 포함된다. 업믹싱 동안, 다운믹싱된 채널이 대응하는 멀티플렛 팬 법칙을 사용하여 멀티플렛 채널들로부터 추출된다. 그런 다음, 추출된 채널이 재생 환경 내의 임의의 위치에서 렌더링된다.

Description

고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱{MULTIPLET-BASED MATRIX MIXING FOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO}
본 출원은, "MULTIPLET-BASED MATRIX MIXING FOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO"이라는 명칭으로 2013년 11월 27일에 출원된 미국 가특허 출원 일련 번호 61/909,841호의 정규 출원인 "MULTIPLET-BASED MATRIX MIXING FOR HIGH-CHANNEL COUNT MULTICHANNEL AUDIO"이라는 명칭으로 2014년 11월 26일에 출원된 미국 특허 출원 14/555,324호, 및 "MATRIX DECODER WITH CONSTANT-POWER PAIRWISE PANNING"이라는 명칭으로 2014년 7월 30일에 출원된 미국 특허 출원 일련 번호 14/447,516호에 대한 이익을 주장하며, 이로써 이들 전부의 전체 내용이 본원에 참조로서 편입된다.
다수의 오디오 재현 시스템들이, 때때로 "서라운드 사운드"로 지칭되는 동기식 멀티 채널 오디오를 녹음하고, 송신하며, 재생할 수 있다. 엔터테인먼트 오디오가 가장 단순한 모노포닉(monophonic) 시스템을 가지고 시작하였지만, 실감나는 청취자 몰입감 및 공간적 이미지를 캡처하기 위한 노력으로 2채널(스테레오) 및 더 높은 채널 카운트 포맷들(서라운드 시스템)이 곧 개발되었다. 서라운드 사운드는 2개가 넘는 오디오 채널들을 사용함으로써 오디오 신호의 재현을 향상시키기 위한 기술이다. 컨텐츠가 복수의 별개의 오디오 채널들을 통해 전달되며, 라우드스피커(loudspeaker)들(또는 스피커들)의 어레이를 사용하여 재현된다. 추가적인 오디오 채널들, 또는 "서라운드 채널들"이 청취자에게 몰입감 있는 청취 경험을 제공한다.
서라운드 사운드 시스템들은 전형적으로 사운드 정위(localization) 및 임장감(envelopment)의 감각을 청취자에게 제공하기 위하여 청취자 둘레에 위치된 스피커들을 갖는다. (5.1 포맷과 같은) 단지 몇몇의 채널들을 갖는 다수의 서라운드 사운드 시스템들은 청취자 둘레에 360도 호의 특정 위치들에 위치된 스피커들을 갖는다. 이러한 스피커들은 또한, 스피커들 전부가 서로에 대하여 그리고 청취자의 귀들과 동일한 평면에 존재하도록 배열된다. (7.1, 11.1, 등등과 같은) 다수의 더 고채널 카운트 서라운드 사운드 시스템들은 또한, 오디오 컨텐츠의 높이감을 제공하기 위하여 청취자의 귀들의 평면 위에 위치된 높이 또는 고도(elevation) 스피커들을 포함한다. 흔히 이러한 서라운드 사운드 구성들은, 다른 메인 오디오 채널들 내의 베이스 오디오를 보충하기 위하여 추가적인 저주파수 베이스 오디오를 제공하는 별개의 저주파수 효과(low-frequency effects; LFE) 채널을 포함한다. 이러한 LFE 채널이 단지 다른 오디오 채널들의 대역폭 중 일 부분만을 필요로 하기 때문에, 이는 ".X" 채널로서 지정되며, 여기에서 X는 (5.1 또는 7.1 서라운드 사운드에서와 같이) 0을 포함하는 임의의 양의 정수이다.
이상적으로, 서라운드 사운드 오디오는 별개의 채널들로 믹스(mix)되며, 이러한 채널들은 청취자에게 재생되는 동안 별개인 상태로 유지된다. 그러나, 실제로는, 저장 및 송신 제한들이, 저장 공간 및 송신 대역폭을 최소화하기 위하여 서라운드 사운드 오디오의 파일 크기가 감소되도록 지시한다. 또한, 2채널 오디오 컨텐츠는 2개를 초과하는 채널들을 갖는 오디오 컨텐츠에 비하여 전형적으로 더 다양한 방송 및 재현 시스템들과 호환가능하다.
이러한 요구들을 처리하기 위하여 매트릭싱(Matrixing)이 개발되었다. 매트릭싱은 2개를 초과하는 별개의 오디오 채널들을 갖는 원본 신호를 2채널 오디오 신호로 "다운믹싱(downmix)"하는 것을 수반한다. 2개의 채널들을 넘는 추가적인 채널들은 모든 오디오 채널들로부터의 정보를 포함하는 2채널 다운믹싱을 생성하기 위해 미리결정된 프로세스에 따라 다운믹싱된다. 추가적인 오디오 채널들은 그 이후, 원본 채널 믹스가 어떤 레벨의 근사(approximation)까지 복원될 수 있도록 "업믹싱(upmix)" 프로세스를 사용하여 2채널 다운믹싱으로부터 추출되고 합성될 수 있다. 업믹싱은 입력으로서 2채널 오디오를 수신하고, 재생을 위해 더 많은 수의 채널들을 생성한다. 이러한 재생은 원본 신호의 별개의 오디오 채널들의 용인할 수 있는 근사이다.
몇몇 업믹싱 기술들이 일정 파워 패닝(constant-power panning)을 사용한다. "패닝"의 개념은 영화들 및 특히 단어 "파노라마(panorama)"로부터 도출된다. 파노라마는 모든 방향에서 주어진 영역의 완전한 시각적 뷰(view)를 갖는 것을 의미한다. 오디오 분야에 있어, 오디오는, 연주 중인 모든 사운드들이 그들의 적절한 위치 및 차원에서 청취자에 의해 청취되도록 오디오가 물리적인 공간 내에 배치된 것과 같이 인지될 수 있도록 스테레오 필드 내에서 패닝될 수 있다. 음악 녹음들에 대하여, 악기들이 실제 스테이지 상에 위치되는 장소에 악기들을 배치하는 것이 일반적인 관행이다. 예를 들어, 스테이지 좌측 악기들은 좌측으로 패닝되고, 스테이지 우측 악기들은 우측으로 패닝된다. 이러한 아이디어는 재생 동안 청취자에게 실제 연주를 복제하는 것을 추구한다.
일정 파워 패닝은 입력 오디오 신호가 채널들 사이에서 분배될 때 오디오 채널들에 걸쳐 일정한 신호 파워를 유지한다. 일정 파워 패닝이 광범위하게 사용되고 있지만, 현재 다운믹싱 및 업믹싱 기술들은 원본 믹스에 존재하는 정확한 패닝 거동(behavior) 및 정위를 보존하고 복구하기 위해 애쓰고 있다. 이에 더하여, 일부 기술들은 아티팩트(artifact)을 생성하기 쉬우며, 이들 모두는 시간 및 주파수에서 중첩하지만 상이한 공간적 방향들로부터 발원하는 독립적인 신호들을 분리하기 위한 제한된 능력을 갖는다.
예를 들어, 일부 인기 있는 업믹싱 기술들은 입력 채널들 둘 모두를 대략적으로 동일한 레벨로 정규화하기 위해 전압 제어 증폭기들을 사용한다. 그런 다음 이러한 2개의 신호들이 출력 채널들을 생성하기 위하여 애드 호크(ad-hoc) 방식으로 결합된다. 그러나, 이러한 애드 호크 접근방식에 기인하여, 최종 출력이 희망되는 패닝 거동들을 달성하기 어려우며, 누화와 관련된 문제들을 포함하고 기껏해야 별개의 서라운드 사운드 오디오를 근사화한다.
다른 유형들의 업믹싱 기술들은 단지 몇몇 패닝 위치들에서만 정확하며 이러한 위치들로부터 멀어져서는 부정확하다. 예로서, 일부 업믹싱 기술들은, 업믹싱이 정확하고 예측가능한 거동을 야기하는 제한된 수의 패닝 위치들을 정의한다. 지배 벡터 분석(dominance vector analysis)이 정확한 패닝 위치 지점들에서 제한된 수의 디매트릭싱(dematrixing) 계수들의 미리정의된 세트들 사이에서 보간(interpolate)하기 위해 사용된다. 이러한 지점들 사이에 속하는 임의의 패닝 위치는 디매트릭싱 계수 값들을 찾기 위해 보간을 사용한다. 이러한 보간에 기인하여, 정확한 지점들 사이에 속하는 패닝 위치들이 부정확할 수 있으며 오디오 품질에 부정적인 영향을 줄 수 있다.
본 요약은 아래의 상세한 설명에서 추가로 설명되는 간략화된 형태로 개념들의 선택을 소개하기 위해 제공된다. 본 요약은 청구되는 내용의 핵심 특징들 또는 본질적인 특징들을 식별하도록 의도되지 않으며, 청구되는 내용의 범위를 제한하기 위해 사용되도록 의도되지도 않는다.
멀티플렛(multiplet) 기반 공간적 매트릭싱 코덱 및 방법의 실시예들은 고채널 카운트(7개 또는 그 이상의 채널들) 멀티채널 오디오의 채널 카운트들(및 그에 따른 비트레이트(bitrate)들)을 감소시킨다. 이에 더하여, 코덱 및 방법의 실시예들은, 공간적 정확성과 기본 오디오 품질 사이의 트레이트오프(tradeoff)들을 가능하게 함으로써 오디오 품질을 최적화하고, 오디오 신호 포맷들을 재생 환경 구성들로 변환한다. 이는 부분적으로, 목표 비트레이트 및 그 비트레이트가 지원할 채널들(또는 잔존 채널(surviving channel)들)의 수를 결정함으로써 달성된다. 채널들의 나머지(비잔존 채널들)는 잔존 채널들의 멀티플렛들 상으로 다운믹싱된다. 이는, 채널들의 한 쌍(또는 더블렛(doublet)), 채널들의 트리플렛(triplet), 채널들의 쿼드러플렛(quadruplet), 또는 채널들의 임의의 더 높은 차수의 멀티플렛일 수 있다.
예를 들어, 비잔존 제 5 채널이 4개의 다른 잔존 채널들 상으로 다운믹싱될 수 있다. 업믹싱 동안, 제 5 채널이 4개의 다른 채널들로부터 추출되고 재생 환경에서 렌더링(rendering)된다. 이러한 인코딩된 4개의 채널들은 현존하는 디코더들과의 백워드(backward) 호환성을 위해 다양한 방식들로 추가로 구성되고 결합되며, 그런 다음 손실 또는 무손실 비트레이트 압축 중 하나를 사용하여 압축된다. 디코더에는, 인코딩된 4개의 인코딩된 오디오 채널들뿐만 아니라 (11.x 레이아웃(layout)과 같은) 원본 소스 스피커 레이아웃으로 다시 적절하게 디코딩하는 것을 가능하게 하는 관련된 메타데이터가 제공된다.
채널 감소형(channel-reduced) 신호를 적절하게 디코딩하기 위한 디코더에 대하여, 디코더는 인코딩 프로세스에서 사용되었던 레이아웃들, 파라미터들, 및 계수들을 통지 받아야만 한다. 예를 들어, 인코더가 11.2채널 베이스 믹스(base-mix)를 7.1 채널 감소형 신호로 인코딩했던 경우, 원본 레이아웃, 채널 감소형 레이아웃, 다운믹싱 채널들의 분배, 및 다운믹싱 계수들을 설명하는 정보가 원본 11.2채널 카운트 레이아웃으로 다시 적절하게 디코딩하는 것을 가능하게 하기 위하여 디코더로 송신될 것이다. 이러한 유형의 정보는 비트스트림의 데이터 구조 내에 제공된다. 이러한 성질의 정보가 제공되고 원본 신호를 복원하기 위해 사용될 때, 코덱이 메타데이터 모드로 동작한다.
코덱 및 방법은 또한, 재생 환경의 청취 레이아웃에 매칭되는 출력 채널 레이아웃을 생성하기 위한 레거시(legacy) 컨텐츠에 대한 블라인드 업 믹서(blind up-mixer)로서 사용될 수 있다. 블라인드 업믹싱 사용 케이스의 차이점은, 코덱이 알려진 인코딩 프로세스 대신에 레이아웃 및 신호 추정들에 기초하여 신호 프로세싱 모듈들을 구성한다는 것이다. 따라서, 코덱이 명시적인 메타데이터 정보를 갖지 않거나 또는 이를 사용하지 않을 때, 코덱은 블라인드 모드로 동작한다.
본원에서 설명되는 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법은, 다수의 채널들을 갖는 멀티 채널 오디오를 믹싱, 전달, 및 재현할 때 발생하는 복수의 상호 연관된 문제들을 믹싱 또는 렌더링 기술들의 백워드 호환성 및 유연성을 충분히 감안하는 방식으로 처리하기 위한 시도이다. 사운드 소스들, 마이크로폰들, 또는 스피커들에 대하여 무수한 공간적 배열들이 가능하다는 것; 및 최종 사용자에 의해 소유된 스피커 배열이 예술가, 엔지니어, 또는 엔터테인먼트 오디오의 배급자에게 정확하게 예측될 수 없을 수 있다는 것이 당업자들에 의해 이해될 것이다. 코덱 및 방법의 실시예들은 또한, 더 큰 채널 카운트들에 대하여 더 실행 가능한 품질, 데이터 대역폭, 및 채널 카운트 사이의 실제적인 절충 및 기능성을 달성하기 위한 요구를 처리한다.
멀티플렛 기반 공간적 매트릭싱 코덱 및 방법은, 채널 카운트들(및 그에 따른 비트레이트들)을 감소시키며, 공간적 정확성과 기본 오디오 품질 사이의 트레이드오프들을 가능하게 함으로써 오디오 품질을 최적화하고, 오디오 신호 포맷들을 재생 환경 구성들로 변환하도록 설계된다. 따라서, 코덱 및 방법의 실시예들은 M개의 채널들(및 LFE 채널들)을 갖는 베이스 믹스로부터 N개의 채널들을 갖는 멀티채널 믹스를 생성하고 재생하기 위하여 매트릭싱 및 별개 채널 압축의 조합을 사용하며, 여기에서 N은 M보다 더 크고, N 및 M 둘 모두가 2보다 더 크다. 이러한 기술은, N이 크고, 예를 들어, N이 10 내지 50의 범위 내이고, 서라운드 채널들뿐만 아니라 높이 채널들을 포함할 때; 및 5.1 또는 7.1 서라운드 믹스와 같이 백워드 호환가능 베이스 믹스를 제공하는 것이 희망될 때 특히 유용하다.
(5.1 또는 7.1과 같은) 베이스 채널들 및 추가적인 채널들을 포함하는 사운드 믹스가 주어지면, 본 발명은, 상보적인 업믹싱을 허용할 방식으로 추가적인 채널들을 베이스 채널들 내로 믹스하기 위해 페어와이즈(pairwise), 트리플렛, 및 쿼드러플렛 기반 매트릭스 규칙들의 조합을 사용하며, 상기 업믹싱은 각각의 추가적인 채널의 공간적으로 정의된 사운드 소스의 실감나는 환각(convincing illusion)과 함께 명료성 및 선명도(definition)를 가지고 추가적인 채널들을 복원할 수 있다. (높이 채널들과 같은) 추가적인 채널들을 분리하는 업믹싱을 수행하기 위한 코덱 및 방법의 실시예들에 의해 새로운 디코더들이 인에이블(enable)되며, 반면 레거시 디코더들이 베이스 믹스를 디코딩하도록 인에이블된다.
대안적인 실시예들이 가능하며, 본원에서 논의되는 단계들 및 엘러먼트들이 특정 실시예에 따라 변경되거나, 부가되거나, 또는 제거될 수 있다는 것을 주의해야 한다. 이러한 대안적인 실시예들은, 본 발명의 범위로부터 벗어나지 않고 사용될 수 있는 대안적인 단계들 및 대안적인 엘러먼트들 및 이루어질 수 있는 구조적인 변경들을 포함한다.
이제 도면들을 참조하며, 도면들 내에서 동일한 참조 번호들은 전체에 걸쳐 동일한 부분들을 나타낸다.
도 1은 용어들 "소스", "파형(waveform)", 및 "오디오 객체(audio object)" 사이의 차이점을 예시하는 도면이다.
도 2는 용어들 "베드 믹스(bed mix)", "객체들", 및 "베이스 믹스" 사이의 차이점의 예시이다.
도 3은, 청취자의 귀들과 동일한 평면에 L개의 스피커들 및 청취자의 귀보다 더 높은 높이 링(height ring) 둘레에 배치된 P 개의 스피커들을 갖는 컨텐츠 생성 환경 스피커 레이아웃의 개념의 예시이다.
도 4는 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들의 전반적인 개괄을 예시하는 블록도이다.
도 5는 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 인코더의 비레거시 실시예들의 세부사항들을 예시하는 블록도이다.
도 6은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 디코더의 비레거시 실시예들의 세부사항들을 예시하는 블록도이다.
도 7은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 인코더의 백워드 호환가능 실시예들의 세부사항들을 예시하는 블록도이다.
도 8은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 디코더의 백워드 호환가능 실시예들의 세부사항들을 예시하는 블록도이다.
도 9는 도 5 및 도 7에 도시된 멀티플렛 기반 매트릭스 다운믹싱 시스템의 예시적인 실시예들의 세부사항들을 예시하는 블록도이다.
도 10은 도 6 및 도 8에 도시된 멀티플렛 기반 매트릭스 업믹싱 시스템의 예시적인 실시예들의 세부사항들을 예시하는 블록도이다.
도 11은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들의 전반적인 동작을 예시하는 순서도이다.
도 12는 사인/코사인(Sin/Cos) 패닝 법칙에 대한 패닝 각도(θ)의 함수로서 패닝 가중치들을 예시한다.
도 13은 중심 출력 채널에 대한 동위상 플롯(in-phase plot)에 대응하는 패닝 거동을 예시한다.
도 14는 중심 출력 채널에 대한 이위상(out-of-phase) 플롯에 대응하는 패닝 거동을 예시한다.
도 15는 좌측 서라운드 출력 채널에 대한 동위상 플롯에 대응하는 패닝 거동을 예시한다.
도 16은, 좌측 서라운드 채널 및 우측 서라운드 채널이 별개로 인코딩되고 디코딩되는 다운믹싱 방정식들에 대응하는 2개의 특정 각도들을 예시한다.
도 17은 수정된 좌측 출력 채널에 대한 동위상 플롯에 대응하는 패닝 거동을 예시한다.
도 18은 수정된 좌측 출력 채널에 대한 이위상 플롯에 대응하는 패닝 거동을 예시한다.
도 19는 채널 트리플렛 상으로의 신호 소스 S의 패닝을 예시하는 도면이다.
도 20은 트리플렛 상으로 패닝된 비잔존 제 4 채널의 추출을 예시하는 도면이다.
도 21은 채널 쿼드러플렛 상으로의 신호 소스 S의 패닝을 예시하는 도면이다.
도 22는 쿼드러플렛 상으로 패닝된 비잔존 제 5 채널의 추출을 예시하는 도면이다.
도 23은 재생 환경 및 확장된 렌더링 기술의 예시이다.
도 24는 확장된 렌더링 기술을 사용하는 단위 구 내의 그리고 단위 구 상의 오디오 소스들의 렌더링을 예시한다.
도 25 내지 도 28은 잔존 레이아웃 내에 존재하지 않는 입력 레이아웃 내의 임의의 스피커들에 대한 매트릭스 멀티플렛들의 매핑을 나타내는 룩업(lookup) 테이블들이다.
다음의 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들의 설명에서 첨부된 도면들에 대한 참조가 이루어진다. 이러한 도면들은 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들이 실현될 수 있는 방법의 예시적인 특정한 예들에 의해 도시된다. 다른 실시예들이 이용될 수 있으며, 청구된 내용의 범위로부터 벗어나지 않고 구조적 변화들이 이루어질 수 있다는 것이 이해되어야 한다.
I. 용어
다음은 본 문서에서 사용되는 일부 기본적인 용어들 및 개념들이다. 이러한 용어들 및 개념들 중 일부가 다른 오디오 기술들과 함께 사용될 때 이들이 의미하는 것과 약간 상이한 의미들을 가질 수 있다는 것을 주의해야 한다.
본 문서는 채널 기반 오디오 및 객체 기반 오디오 둘 모두를 논의한다. 음악 또는 사운드트랙들은 전통적으로, 녹음 스튜디오 내에서 복수의 상이한 사운드들을 함께 믹싱하고, 이러한 사운드들이 청취될 위치를 결정하며, 및 스피커 시스템 내의 각각의 개별적인 스피커 상에서 플레이(play)될 출력 채널들을 생성함으로써 생성된다. 이러한 채널 기반 오디오에 있어서, 채널들은 정의된 표준 스피커 구성에 대해 예정된다. 상이한 스피커 구성이 사용되는 경우, 사운드들은 결국 사운드들이 가도록 의도된 장소에 가지 못하거나 또는 정확한 재생 레벨로 재생되지 못할 수 있다.
객체 기반 오디오에 있어서, 모든 상이한 사운드들이, 3차원(3D) 공간에서의 그 위치를 포함하여 사운드들이 재현되어야 할 방법을 설명하는 메타데이터 또는 정보와 함께 결합된다. 그러면, 객체가 정확한 위치에 배치되고 의도된 바와 같이 재현될 수 있도록 주어진 스피커 시스템에 대해 객체를 랜더링하는 것은 재생 시스템에 달린 것이다. 객체 기반 오디오를 이용하면, 음악 또는 사운드트랙은, 상이한 수의 스피커들을 가지거나 또는 청취자에 대하여 상이한 위치들의 스피커들을 갖는 시스템들 상에서 본질적으로 동일해야만 한다. 이러한 방법론이 예술가의 실제 의도를 보존하는데 도움을 준다.
도 1은 용어들 "소스", "파형", 및 "오디오 객체" 사이의 차이점을 예시하는 도면이다. 도 1에 도시된 바와 같이, 용어 "소스"는 하나의 오디오 객체의 베드 믹스 또는 사운드 중 하나의 채널을 나타내는 단일 음파를 의미하기 위해 사용된다. 소스가 3D 공간 내의 특정 위치에 할당될 때, 3D 공간에서의 그것의 위치 및 그 사운드의 조합이 소위 "파형"이다. "오디오 객체"(또는 "객체)는, 파형이 (채널 세트들, 오디오 프리젠테이션(presentation) 계층들, 등과 같은) 다른 메타데이터와 결합되고 향상된(enhanced) 비트스트림의 데이터 구조들 내에 저장될 때 생성된다. "향상된 비트스트림"은 오디오 데이터뿐만 아니라 공간적 데이터 및 다른 유형들의 메타데이터를 포함한다. "오디오 프리젠테이션"은 궁극적으로 멀티플렛 기반 공간적 매트릭싱 디코더로부터 나오는 오디오이다.
문구 "이득 계수"는, 그 볼륨을 증가시키거나 또는 감소시키기 위하여 오디오 신호의 레벨이 조정되는 양이다. 용어 "렌더링"은, 주어진 오디오 분배 포맷을 사용되는 특정 재생 스피커 구성으로 변환하기 위한 프로세스를 나타낸다. 렌더링은, 재생 시스템 및 환경의 주어진 파라미터들 및 제한들에 대하여 재생 공간적 음향 공간(spatial acoustical space)을 가능한 한 원본 공간적 음향 공간에 가깝게 재생성하려고 시도한다.
서라운드 또는 상승형(elevated) 스피커들 중 하나가 재생 환경의 스피커 레이아웃으로부터 빠질 때, 이러한 빠진 스피커들에 대해 예정된 오디오 객체들은 재생 환경 내에 물리적으로 존재하는 다른 스피커들로 재매핑(remap)될 수 있다. 이러한 기능성을 가능하게 하기 위하여, 재생 환경에서 사용되지만 출력 채널과 직접적으로 연관되지 않는 "가상 스피커들"이 정의될 수 있다. 대신, 이들의 신호가 다운믹싱 매핑을 사용하여 물리적인 스피커 채널들로 재라우팅(reroute)된다.
도 2는 용어들 "베드 믹스", "객체들", 및 "베이스 믹스" 사이의 차이점의 예시이다. "베드 믹스" 및 "베이스 믹스" 둘 모두는, 채널들로서 또는 채널 기반 객체들로서 향상된 비트스트림 내에 포함될 수 있는 (5.1, 7.1, 11.1 및 등과 같은) 채널 기반 오디오 믹스들을 지칭한다. 2개의 용어들 사이의 차이점은, 베드 믹스는 비트스트림 내에 포함된 오디오 객체들 중 어떤 것도 포함하지 않는다는 점이다. 베이스 믹스는 (5.1, 7.1, 및 등과 같은) 표준 스피커 레이아웃에 대한 채널 기반 형태로 제공된 완전한 오디오 프리젠테이션을 포함한다. 베이스 믹스에 있어서, 존재하는 임의의 객체들이 채널 믹스 내로 믹스된다. 이는, 베이스 믹스가 베드 믹스 및 임의의 오디오 객체들을 포함하는 것을 도시하는 도 2에 예시된다.
본 문서에서 사용되는 용어 "멀티플렛"은 채널 상으로 패닝된 신호를 갖는 복수의 채널들의 그루핑(grouping)를 의미한다. 예를 들어, 멀티플렛 중 하나의 유형은 신호가 2개의 채널들 상으로 패닝되는 "더블렛"이다. 유사하게, 멀티플렛의 다른 유형은 신호가 3개의 채널들 상으로 패닝되는 "트리플렛"이다. 신호가 4개의 채널들 상으로 패닝될 때, 결과적인 멀티플렛은 소위 "쿼드러플렛"이다. 멀티플렛은, 5개의 채널들, 6개의 채널들, 7개의 채널들 등을 포함하여, 신호가 패닝되는 2개 이상의 채널들의 그루핑을 포함할 수 있다. 교육적인 목적들을 위하여, 본 문서는 단지 더블렛, 트리플렛, 및 쿼드러플렛 케이스들만을 논의한다. 그러나, 본원에서 교시되는 원리들이 5개 또는 그 이상의 채널들을 포함하는 멀티플렛들로 확장될 수 있다는 것을 주의해야 한다.
멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들 또는 이의 측면들은, 특히 아주 많은 수의 채널들이 송신되거나 또는 녹음될 때, 멀티채널 오디오의 녹음 및 전달을 위한 시스템에서 사용된다. 본 문서에서 사용되는 "고채널 카운트" 멀티채널 오디오는 7개 또는 그 이상의 오디오 채널들이 존재하는 것을 의미한다. 예를 들어, 이러한 하나의 시스템에 있어, 다수의 채널들이 녹음되며, 다수의 채널들은 청취자 둘레에 귀 레벨로 배치된 L개의 채널들, 귀 레벨보다 더 높은 레벨로 배치된 높이 링 둘레에 배치된 P개의 채널들, 및 선택적으로 청취자 위의 천정(Zenith)에 또는 그 근처의 중심 채널을 갖는 알려진 재생 기하구조로 구성되는 것으로 가정된다(여기에서, L 및 P는 1보다 더 큰 양의 정수들이다).
도 3은, 청취자의 귀들과 동일한 평면에 L개의 스피커들 및 청취자의 귀보다 더 높은 높이 링 둘레에 배치된 P개의 스피커들을 갖는 컨텐츠 생성 환경 스피커(또는 채널) 레이아웃(300)의 개념의 예시이다. 도 3에 도시된 바와 같이, 청취자(100)는 컨텐츠 생성 환경 스피커 레이아웃(300) 상에 믹스된 컨텐츠를 청취하고 있다. 컨텐츠 생성 환경 스피커 레이아웃(300)은 선택적인 오버헤드(overhead) 스피커(305)를 갖는 11.1 레이아웃이다. 청취자의 귀들과 동일한 평면의 L개의 스피커들을 포함하는 L 평면(310)은, 좌측 스피커(315), 중심 스피커(320), 우측 스피커(325), 좌측 서라운드 스피커(330), 및 우측 서라운드 스피커(335)를 포함한다. 도시된 11.1 레이아웃은 저주파수 효과(LFE 또는 "서브우퍼(subwoofer)") 스피커(340)를 또한 포함한다. L 평면(310)은 또한 서라운드 후방 좌측 스피커(345) 및 서라운드 후방 우측 스피커(350)를 포함한다. 청취자의 귀들(355)의 각각이 또한 L 평면(310) 내에 위치된다.
P(또는 높이) 평면(360)은 좌측 전방 높이 스피커(365) 및 우측 전방 높이 스피커(370)를 포함한다. P 평면(360)은 또한 좌측 서라운드 높이 스피커(375) 및 우측 서라운드 높이 스피커(380)를 포함한다. 선택적인 오버헤드 스피커(305)가 P 평면(360) 내에 위치되는 것으로 도시된다. 대안적으로, 선택적인 오버헤드 스피커(305)는 P 평면(360) 위의 컨텐츠 생성 환경의 천정에 위치될 수 있다. L 평면(310) 및 P 평면(360)이 거리 d만큼 이격된다.
(선택적인 오버헤드 스피커(305)와 함께) 11.1 컨텐츠 생성 환경 스피커 레이아웃(300)이 도 3에 도시되지만, 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들은, 컨텐츠가 7개 또는 더 많은 오디오 채널들을 포함하는 고채널 카운트 환경들에서 믹스될 수 있도록 일반화될 수 있다. 또한, 도 3에서 컨텐츠 생성 환경 스피커 레이아웃(300) 내의 스피커들과 청취자의 머리 및 귀들이 서로 축적이 맞추어지지 않았다는 것을 주의해야 한다. 구체적으로, 청취자의 머리 및 귀들은, 청취자의 귀들 및 스피커들의 각각이 L 평면(310)과 동일한 수평적 평면 내에 존재한다는 개념을 예시하기 위하여 축적보다 더 크게 도시된다.
P 평면(360) 내의 스피커들은 다양한 통상적인 기하구조들에 따라 배열될 수 있으며, 상정된(presumed) 기하구조는 믹싱하는 엔지니어 또는 녹음하는 예술가/엔지니어에게 알려진다. 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들에 따르면, 매트릭스 믹싱의 신규한 방법에 의해 (L + P) 채널 카운트가 더 낮은 수의 채널들로 감소된다(예를 들어, (L + P)개 채널들이 단지 L개의 채널들 상으로 매핑된다). 그런 다음, 감소된 카운트의 채널들이, 감소된 카운트의 채널들의 별개의 성질을 보존하는 알려진 방법들에 의해 인코딩되고 압축된다.
디코딩시, 코덱 및 방법의 실시예들의 동작은 디코더 능력들에 의존한다. 레거시 디코더들에서, 그 안에 믹스된 P개의 채널들을 갖는 감소된 카운트의(L개의) 채널들이 재현된다. 더 진보된 디코더에서, (L + P)개의 채널들의 완전한 콘소트(consort)가 업믹싱에 의해 복원가능하고 그 각각이 (L + P)개의 스피커들 중 대응하는 하나의 스피커로 라우팅된다.
본 발명에 따르면, 업믹싱 및 다운믹싱 동작들(매트릭싱/디매트릭싱) 둘 모두가, 재생시 인지되는 사운드 소스들을 녹음하는 예술가 또는 엔지니어에 의해 의도된 상정된 위치들에 가깝게 대응하여 위치시키기 위한 (페어와이즈, 트리플렛, 및 쿼드러플렛 팬 법칙(pan law)들과 같은) 복수의 팬 법칙들의 조합을 포함한다. 매트릭싱 동작(채널 레이아웃 감소)은, (a) 향상된 비트스트림의 객체 성분(composition) 더하기 베드 믹스; (b) 향상된 비트스트림의 채널 기반 유일(only) 성분의 베드 믹스 채널들에 적용될 수 있다. 이에 더하여, 매트릭싱 동작이 정적 객체들(주변으로 움직이지 않는 객체들)에 적용될 수 있으며, 이는 디매트릭싱 후, 개별적인 객체들에 대한 독립적인 레벨 수정들 및 렌더링을 허용할 충분한 객체 분리를 계속해서 달성할 수 있거나; 또는 (c) 채널 기반 객체들에 매트릭싱 동작을 적용한다.
II. 시스템 개괄
멀티플렛 기반 공간적 매트릭싱 코데 및 방법의 실시예들은, 특정 채널들을 나머지 채널들의 멀티플렛들 상으로 패닝함으로써 고채널 카운트 멀티채널 오디오 및 비트레이트들을 감소시킨다. 이는, 공간적 정확성과 기본 오디오 품질 사이의 트레이드오프들을 가능하게 함으로써 오디오 품질을 최적화하는데 기여한다. 코덱 및 방법의 실시예들은 또한 오디오 신호 포맷들을 재생 환경 구성들로 변환한다.
도 4는 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들의 전반적인 개괄을 예시하는 블록도이다. 도 4를 참조하면, 코덱(400)은 멀티플렛 기반 공간적 매트릭싱 인코더(410) 및 멀티플렛 기반 공간적 매트릭싱 디코더(420)를 포함한다. 처음에, (음악 트랙들과 같은) 오디오 컨텐츠가 컨텐츠 생성 환경(430)에서 생성된다. 이러한 환경(430)은 오디오 소스들을 녹음하기 위한 복수의 마이크로폰들(435)(또는 다른 사운드 캡처링 디바이스들)을 포함할 수 있다. 대안적으로, 오디오 소스들은, 소스를 녹음하기 위하여 마이크로폰을 사용할 필요가 없도록 이미 디지털 신호일 수 있다. 어떠한 사운드 생성 방법일지라도, 오디오 소스들의 각각이 컨텐츠 생성 환경(430)의 출력으로서 최종 믹스로 믹스된다.
컨텐츠 생성자는 생성자의 공간적 의도를 가장 잘 나타내는 N.x 베이스 믹스를 선택하며, 여기에서 N은 정규 채널들의 수를 나타내고, x는 저주파수 채널들의 수를 나타낸다. 또한, N은 1보다 더 큰 양의 정수이고, x는 음수 이외의 정수이다. 예를 들어, 11.1 서라운드 시스템에 있어, N=11 및 x=1이다. 물론 이는 채널들의 최대 수에 지배되기 때문에 N+x≤MAX이고, 여기에서 MAX는 사용가능한 채널들의 최대 수를 나타내는 양의 정수이다.
도 4에서, 최종 믹스는, 오디오 소스들의 각각이 N+x개의 채널들로 믹스되도록 N.x 믹스(440)이다. 그런 다음 최종 N.x 믹스(440)는 멀티플렛 기반 공간적 매트릭싱 인코더(410)를 사용하여 인코딩되고 다운믹싱된다. 인코더(410)는 전형적으로 하나 이상의 프로세싱 디바이스들을 갖는 컴퓨팅 디바이스 상에 위치된다. 인코더(410)는 최종 N.x 믹스를 M개의 정규 채널들 및 x개의 저주파수 채널들을 갖는 M.x 믹스(450)로 인코딩하고 다운믹싱하며, 여기에서 M은 1보다 더 큰 양의 정수이고, M은 N보다 더 작다.
M.x(450) 다운믹싱은 청취자에 의한 소비를 위해 전달 환경(460)을 통해 전달된다. 네트워크(465)를 통한 스트리밍 전달을 포함하여 몇몇 전달 옵션들이 이용가능하다. 대안적으로, M.x(450)는 청취자에 의한 소비를 위해 (광 디스크와 같은) 매체(470) 상에 기록될 수 있다. 이에 더하여, M.x(450) 다운믹싱을 전달하기 위해 사용될 수 있는 본원에서 열거되지 않은 다수의 다른 전달 옵션들이 존재할 수 있다.
전달 환경의 출력은 멀티플렛 기반 공간적 매트릭싱 디코더(420)에 입력되는 M.x 스트림(475)이다. 디코더(420)는 재구성된 N.x 컨텐츠(480)를 획득하기 위하여 M.x 스트림(475)을 디코딩하고 업믹싱한다. 디코더(420)의 실시예들은 전형적으로 하나 이상의 프로세싱 디바이스들을 갖는 컴퓨팅 디바이스 상에 위치된다.
디코더(420)의 실시예들은 M.x 스트림(475) 내에 저장된 압축된 오디오로부터 PCM 오디오를 추출한다. 사용되는 디코더(420)는 데이터를 압축하기 위하여 사용되었던 오디오 압축 기법에 기초한다. 손실 압축, 저비트레이트 코딩, 및 무손실 압축을 포함하는 몇몇 유형들의 오디오 압축 기법들이 M.x 스트림에서 사용될 수 있다.
디코더(420)는 M.x 스트림(475)의 각각의 채널을 디코딩하고, 이들을 N.x 출력(480)에 의해 표현되는 별개의 출력 채널들 내로 확장한다. 이러한 재구성된 N.x 출력(480)이 재생 스피커(또는 채널) 레이아웃을 포함하는 재생 환경(485)에서 재현된다. 재생 스피커 레이아웃은 컨텐츠 생성 스피커 레이아웃과 동일하거나 또는 동일하지 않을 수 있다. 도 4에 도시된 재생 스피커 레이아웃은 11.2 레이아웃이다. 일부 실시예들에 있어, 재생 스피커 레이아웃은 헤드폰들일 수 있고, 그 결과 스피커들은 이로부터 사운드가 재생 환경(485) 내에서 발원(originate)하는 것처럼 보이는 가상 스피커들일 뿐이다. 예를 들어, 청취자(100)가 헤드폰들을 통해 재구성된 N.x 믹스를 청취할 수 있다. 이러한 상황에 있어, 스피커들이 실제 물리적인 스피커들이 아니지만, 사운드들은, 예를 들어, 11.2 서라운드 사운드 스피커 구성에 대응되는 재생 환경(485) 내의 상이한 공간적 위치들로부터 발원하는 것처럼 나타난다.
인코더의 백워드 비호환 실시예들
도 5는 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 인코더(410)의 비레거시 실시예들의 세부사항들을 예시하는 블록도이다. 이러한 비레거시 실시예들에 있어, 인코더(410)는, 레거시 디코더들과의 백워드 호환성이 유지되도록 컨텐츠를 인코딩하지 않는다. 또한, 인코더(410)의 실시예들은 오디오 데이터와 함께 비트스트림 내에 포함된 다양한 유형들의 메타데이터를 사용한다. 도 5에 도시된 바와 같이, 인코더(410)는 멀티플렛 기반 매트릭스 믹싱 시스템(500) 및 압축 및 비트스트림 패킹(packing) 모듈(510)을 포함한다. 컨텐츠 생성 환경(430)으로부터의 출력은 채널 기반 오디오 정보를 포함하는 N.x 펄스 코드 변조(pulse-code modulation; PCM) 베드 믹스(520) 및, 객체 PCM 데이터(530) 및 연관된 객체 메타데이터(540)를 포함하는 객체 기반 오디오 정보를 포함한다. 도 5 내지 도 8에서, 중공형 화살표(hollow arrow)들이 시간 영역 데이터를 나타내며, 반면 속이 채워진(solid) 화살표들이 공간적 데이터를 나타낸다는 것을 주의해야 한다. 예를 들어, N.x PCM 베드 믹스(520)로부터 멀티플렛 기반 매트릭스 믹싱 시스템(500)으로의 화살표가 중공형 화살표이며, 이는 시간 영역 데이터를 나타낸다. 컨텐츠 생성 환경(430)으로부터 객체 PCM(530)으로의 화살표가 속이 채워진 화살표이며, 이는 공간적 데이터를 나타낸다.
N.x PCM 베드 믹스(520)가 멀티플렛 기반 매트릭스 믹싱 시스템(500)으로 입력된다. 시스템(500)은, 이하에서 상세하게 설명되는 바와 같이 N.x PCM 베드 믹스(520)를 프로세싱하며, N.x PCM 베드 믹스의 채널 카운트를 M.x PCM 베드 믹스(550)로 감소시킨다. 이에 더하여, 시스템(500)은, M.x PCM 베드 믹스(550)의 공간적 레이아웃에 대한 데이터인 M.x 레이아웃 메타데이터(560)를 포함하는 여러 가지의 정보를 출력한다. 시스템(500)은 또한, 원본 채널 레이아웃 및 매트릭싱 메타데이터(570)에 대한 정보를 출력한다. 원본 채널 레이아웃은 컨텐츠 생성 환경(430) 내의 원본 채널들의 레이아웃에 대한 공간적 정보이다. 매트릭싱 메타데이터는 다운믹싱 동안 사용된 상이한 계수들에 대한 정보를 포함한다. 구체적으로, 이는, 디코더가 업믹싱하기 위한 정확한 방식을 알 수 있도록 채널들이 다운믹싱 내로 인코딩되었던 방법에 관한 정보를 포함한다.
도 5에 도시된 바와 같이, 객체 PCM(530), 객체 메타데이터(540), M.x PCM 베드 믹스(550), M.x 레이아웃 메타데이터(560), 및 원본 채널 레이아웃 및 매트릭싱 메타데이터(570) 모두가 압축 및 비트스트림 패킹 모듈(510)로 입력된다. 모듈(510)은 이러한 정보를 취하고, 이를 압축하며, 이를 M.x 향상된 비트스트림(580) 내에 패킹한다. 비트스트림이 오디오 데이터에 더하여 공간적 및 다른 유형들의 메타데이터를 또한 포함하기 때문에, 비트스트림이 향상된 것으로서 지칭된다.
멀티플렛 기반 매트릭스 믹싱 시스템(500)의 실시예들은, 총 이용가능한 비트레이트, 채널당 최소 비트레이트, 별개의 오디오 채널, 등과 같은 이러한 변수들을 조사함으로써 채널 카운트를 감소시킨다. 이러한 변수들에 기초하여, 시스템(500)은 원래의 N개의 채널들을 취하고 이들을 M개의 채널들로 다운믹싱한다. 개수 M은 데이터 레이트에 의존한다. 예로서, N이 22개의 원본 채널들과 동일하고 이용가능한 비트레이트가 500Kbits/초인 경우, 시스템(500)은 비트레이트를 달성하기 위하여 M이 8이어야 한다는 것을 결정하고 컨텐츠를 인코딩할 수 있다. 이는, 단지 8개의 오디오 채널들을 인코딩하기에 충분한 대역폭만이 존재한다는 것을 의미한다. 그런 다음, 이러한 8개의 채널들이 인코딩되고 송신될 것이다.
디코더(420)는, 이러한 8개의 채널들이 원래의 22개의 채널들로부터 비롯되었다는 것 및 이러한 8개의 채널들을 다시 22개의 채널들로 업믹싱해야 한다는 것을 알 것이다. 물론, 비트레이트를 달성하기 위하여 어느 정도의 공간적 정확도 손실이 존재할 수 있다. 예를 들어, 주어진 채널당 최소 비트레이트가 32Kbits/채널이라고 가정하자. 총 비트레이트가 128 bits/초인 경우, 4개의 채널들이 32Kbits/채널로 인코딩될 수 있을 것이다. 다른 예에 있어, 인코더(410)에 대한 입력이 11.1 베이스 믹스이고, 주어진 비트레이트가 128 kbits/초이며, 채널당 최소 비트레이트가 32 kbits/초인 것을 상정한다. 이는, 코덱(400) 및 방법이 이러한 11개의 원본 채널들을 취하고, 이들을 4개의 채널들로 다운믹싱하며, 4개의 채널들을 송신하고, 디코더 측에서 이러한 4개의 채널들을 다시 11개의 채널들로 업믹싱할 것임을 의미한다.
디코더의 백워드 비호환 실시예들
M.x 향상된 비트스트림(580)이 렌더링을 위한 디코더(420)를 포함하는 수신 디바이스로 전달된다. 도 6은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 디코더의 비레거시 실시예들의 세부사항들을 예시하는 블록도이다. 이러한 비레거시 실시예들에 있어, 디코더(420)는 이전의 유형들의 비트스트림들과의 백워드 호환성을 보유하지 않으며, 이들을 디코딩할 수 없다. 도 6에 도시된 바와 같이, 디코더(420)는, 멀티플렛 기반 매트릭스 업믹싱 시스템(600), 압축해제(decompression) 및 비트스트림 언패킹(unpacking) 모듈(610), 지연 모듈(620), 객체 포함 렌더링 엔진(630), 및 다운믹서 및 스피커 재매핑 모듈(640)을 포함한다.
도 6에 도시된 바와 같이, 디코더(420)에 대한 입력은 M.x 향상된 비트스트림(580)이다. 그런 다음, 압축해제 및 비트스트림 언패킹 모듈(610)이 비트스트림(580)을 다시 (베드 믹스 및 오디오 객체들을 포함하는) PCM 신호들 및 연관된 메타데이터로 언패킹하고 압축해제한다. 모듈(610)로부터의 출력은 M.x PCM 베드 믹스(645)이다. 이에 더하여, 원본 (N.x) 채널 레이아웃 및 (매트릭싱 계수들을 포함하는) 매트릭싱 메타데이터(650), 객체 PCM(655), 및 객체 메타데이터(660)가 모듈(610)로부터 출력된다.
M.x PCM 베드 믹스(645)는 멀티플렛 기반 매트릭스 업믹싱 시스템(600)에 의해 프로세싱되고 업믹싱된다. 멀티플렛 기반 매트릭스 업믹싱 시스템(600)이 이하에서 추가적으로 논의된다. 시스템(600)의 출력은 N.x PCM 베드 믹스(670)이며, 이는 원본 레이아웃과 동일한 채널(또는 스피커) 레이아웃 구성이다. N.x PCM 베드 믹스(670)는 N.x 베드 믹스(670)를 청취자의 재생 스피커 레이아웃으로 매핑하기 위하여 다운믹서 및 스피커 재매핑 모듈(640)에 의해 프로세싱된다. 예를 들어, N=22 및 M=11인 경우, 22개의 채널들이 인코더(410)에 의해 11개의 채널들로 다운믹싱될 것이다. 그런 다음, 디코더(420)가 11개의 채널들을 취하고 이들을 다시 22개의 채널들로 업믹싱할 것이다. 그러나, 청취자가 단지 5.1 재생 스피커 레이아웃만을 갖는 경우, 모듈(640)은 청취자에 의한 재생을 위하여 이러한 22개 채널들을 다운믹싱하고 이들을 재생 스피커 레이아웃으로 재매핑할 것이다.
다운믹서 및 스피커 재매핑 모듈(640)은 비트스트림(580) 내에 저장된 컨텐츠를 주어진 출력 스피커 구성에 맞추어 적응시키는 것을 담당한다. 이론적으로, 오디오는 어떤 임의적인 재생 스피커 레이아웃에 대해 포맷될 수 있다. 재생 스피커 레이아웃은 청취자 또는 시스템에 의해 선택된다. 이러한 선택에 기초하여, 디코더(420)는 디코딩되어야 할 채널 세트들을 선택하고, 스피커 재매핑 및 다운믹싱이 수행되어야만 하는지를 결정한다. 출력 스피커 레이아웃의 선택은 애플리케이션 프로그래밍 인터페이스(application programming interface; API) 호출을 사용하여 수행된다.
의도된 재생 라우드스피커 레이아웃이 재생 환경(485)(또는 청취 공간)의 실제 재생 라우드스피커 레이아웃과 매칭되지 않을 때, 오디오 프리젠테이션의 전체적인 느낌이 손상될 수 있다. 다수의 대중적인 스피커 구성들에서 오디오 프리젠테이션 품질을 최적화하기 위하여, M.x 향상된 비트스트림이 라우드스피커 재매핑 계수들을 포함할 수 있다.
다운믹서 및 스피커 재매핑 모듈(640)의 실시예들에 대하여 동작의 2개의 모드들이 존재한다. 첫째로, 디코더(420)가 주어진 출력 스피커 구성을 통해 가능한 한 가깝게 원래 인코딩된 채널 레이아웃을 생성하기 위하여 공간적 리매퍼(remapper)를 구성하는 "직접 모드"이다. 둘째로, 소스 구성과 무관하게, 디코더의 실시예들이 컨텐츠를 선택된 출력 채널 구성으로 변환하는 "비직접 모드"이다.
객체 PCM(655)은, M.x PCM 베드 믹스(645)가 멀티플렛 기반 매트릭스 업믹싱 시스템(600)에 의해 프로세싱되는 동안 어떤 레벨의 레이턴시(latency)가 존재하도록 지연 모듈(620)에 의해 지연된다. 지연 모듈(620)의 출력은 지연된 객체 PCM(680)이다. 이러한 지연된 객체 PCM(680) 및 객체 메타데이터(660)가 객체 포함 렌더링 엔진(630)에 의해 합계(sum)되고 렌더링된다.
객체 포함 렌더링 엔진(630) 및 (이하에서 논의되는) 객체 제거 렌더링 엔진은 3D 객체 기반 오디오 렌더링을 수행하기 위한 메인 엔진들이다. 이러한 렌더링 엔진들의 주요 작업은 베이스 믹스로 또는 베이스 믹스로부터 레지스터된(registered) 오디오 객체들을 더하거나 빼는 것이다. 각각의 객체에는, 그것의 방위각, 고도, 거리, 이득을 포함하는 그것의 3D 공간 내의 위치를 나타내는 정보 및 객체가 최근접 스피커 위치로 스냅(snap)되도록 허용되어야 하는지 여부를 나타내는 플래그(flag)가 딸려 있다. 객체 렌더링은 객체를 지시된 위치에 위치시키기 위해 필요한 프로세싱을 수행한다. 렌더링 엔진들은 포인트(point) 및 확장된 소스들 둘 모두를 지원한다. 포인트 소스는 마치 이것이 공간 내의 하나의 특정한 스팟(spot)으로부터 비롯되는 것처럼 들리고, 반면 확장된 소스들은 "폭", "깊이" 또는 이들 둘 모두를 갖는 사운드들이다.
렌더링 엔진들은 구형 좌표계 표현을 사용한다. 컨텐츠 생성 환경(430) 내의 저작 툴이 룸(room)을 구두 박스로서 표현하는 경우, 동심 박스들로부터 동심 구체들로의 변환 및 이의 역이 저작 툴 내의 후드(hood) 하에서 수행될 수 있다. 이러한 방식으로, 벽들 상의 소스들의 배치가 단위 구체 상의 표면들의 배치로 매핑된다.
다운믹서 및 스피커 재매핑 모듈로부터의 베드 믹스 및 객체 포함 렌더링 엔진(630)으로부터의 출력이 N.x 오디오 프리젠테이션(690)을 제공하기 위해 결합된다. N.x 오디오 프리젠테이션(690)은 디코더(420)로부터 출력되며, 재생 스피커 레이아웃(미도시) 상에서 재생된다.
디코더(420)의 모듈들 중 일부가 선택적일 수 있다는 것을 주의해야 한다. 예를 들어, N=M인 경우 멀티플렛 기반 매트릭스 업믹싱 시스템(600)이 요구되지 않는다. 유사하게, N=M인 경우, 다운믹싱 및 스피커 재매핑 모듈(640)이 요구되지 않는다. 그리고, M.x 향상된 비트스트림 내에 객체들이 존재하지 않고 신호가 단지 채널 기반 신호인 경우, 객체 포함 렌더링 엔진(630)이 요구되지 않는다.
인코더의 백워드 호환가능 실시예들
도 7은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 인코더(410)의 레거시 실시예들의 세부사항들을 예시하는 블록도이다. 이러한 레거시 실시예들에 있어, 인코더(410)는, 레거시 디코더들과의 백워드 호환성이 유지되도록 컨텐츠를 인코딩한다. 다수의 컴포넌트들이 백워드 비호환 실시예들과 동일하다. 특히, 멀티플렛 기반 매트릭스 믹싱 시스템(500)이 계속해서 N.x PCM 베드 믹스(520)를 M.x PCM 베드 믹스(550)로 다운믹싱한다. 인코더(410)는 내장된 다운믹싱을 생성하기 위하여 객체 PCM(530) 및 객체 메타데이터(540)를 취하고 이들을 M.x PCM 베드 믹스(550)로 믹스한다. 이러한 내장된 다운믹싱은 레거시 디코더에 의해 디코딩될 수 있다. 이러한 백워드 호환가능 실시예들에 있어, 내장된 다운믹싱은 레거시 디코더들이 디코딩할 수 있는 레거시 다운믹싱을 생성하기 위하여 M.x 베드 믹스 및 객체들 둘 모두를 포함한다.
도 7에 도시된 바와 같이, 인코더(410)는 객체 포함 렌더링 엔진(700) 및 다운믹싱 내장기(embedder)(710)를 포함한다. 백워드 호환성의 목적들을 위하여, 레거시 디코더들이 사용할 수 있는 베이스 믹스를 생성하기 위하여 오디오 객체들 내에 저장된 임의의 오디오 정보가 또한 M.x 베드 믹스(550) 내로 믹스된다. 디코더 시스템이 객체들을 렌더링할 수 있는 경우, 객체들이 이중으로 재현되지 않도록 객체들이 베이스 믹스로부터 제거되어야만 한다. 디코딩된 객체들은 특별히 이러한 목적을 위해 적절한 베드 믹스로 렌더링되고, 그런 다음 베이스 믹스로부터 빼진다.
객체 PCM(530) 및 객체 메타데이터(540)가 엔진(700)으로 입력되고, M.x PCM 베드 믹스(550)와 믹스된다. 그 결과가 내장된 다운믹싱을 생성하는 다운믹싱 내장기(710)에 주어진다. 압축 및 비트스트림 패킹 모듈(510)에 의해, 이러한 내장된 다운믹싱, 다운믹싱 메타데이터(720), M.x 레이아웃 메타데이터(560), 원본 채널 레이아웃 및 매트릭싱 메타데이터(570), 객체 PCM(530), 및 객체 메타데이터(540)가 압축되고 비트스트림으로 패킹된다. 출력은 백워드 호환가능 M.x 향상된 비트스트림(580)이다.
디코더의 백워드 호환가능 실시예들
백워드 호환가능 M.x 향상된 비트스트림(580)이 렌더링을 위한 디코더(420)를 포함하는 수신 디바이스로 전달된다. 도 8은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 디코더(420)의 백워드 호환가능 실시예들의 세부사항들을 예시하는 블록도이다. 이러한 백워드 호환가능 실시예들에 있어, 디코더(420)는, 디코더(420)가 이들을 디코딩하는 것을 가능하게 하기 위하여 이전의 유형들의 비트스트림들과의 백워드 호환성을 보유한다.
디코더(420)의 백워드 호환가능 실시예들은, 객체 제거 부분이 존재한다는 것을 제외하면 도 6에 도시된 비백워드 호환가능 실시예들과 유사하다. 이러한 백워드 호환가능 실시예들이, 레거시 디코더들이 계속해서 디코딩할 수 있는 비트스트림을 제공하는 것이 바람직한 코덱의 레거시 문제들을 처리한다. 이러한 케이스들에 있어, 디코더(420)는 내장된 다운믹싱으로부터 객체들을 제거하고, 그런 다음 원본 업믹싱을 획득하기 위하여 이를 업믹싱한다.
도 8에 도시된 바와 같이, 압축해제 및 비트스트림 언패킹 모듈(610)은, 원본 채널 레이아웃 및 매트릭싱 계수들(650), 객체 PCM(655), 및 객체 메타데이터(660)를 출력한다. 모듈(610)의 출력은 또한 M.x PCM 베드 믹스(645)를 획득하기 위하여 내장된 다운믹싱의 내장된 다운믹싱(800)을 언두(undo)한다. 이는 근본적으로 채널들 및 객체들을 서로 분리한다.
인코딩 후, 새로운 더 작은 채널 레이아웃이 여전히 레거시 디코더들에 의해 사용되는 비트스트림의 부분 내에 저장되기에 너무 많은 채널들을 가질 수 있다. 이러한 케이스들에 있어, 도 7을 참조하여 이상에서 언급된 바와 같이, 더 오래된 디코더들에서 지원되지 않는 채널들로부터의 오디오가 백워드 호환가능 믹스 내에 포함되는 것을 보장하기 위하여 추가적인 내장된 다운믹싱이 수행된다. 존재하는 추가적인 채널들이 백워드 호환가능 믹스로 다운믹싱되며, 별도로 송신된다. 비트스트림이 백워드 호환가능 믹스보다 더 많은 채널들을 지원할 스피커 출력 포맷에 대해 디코딩될 때, 추가적인 채널들로부터의 오디오가 믹스로부터 제거되며 그 대신 별개의 채널들이 사용된다. 내장된 다운믹싱(800)을 언두하는 이러한 동작이 업믹싱 전에 일어난다.
모듈(610)의 출력은 또한 M.x 레이아웃 메타데이터(810)를 포함한다. M.x 레이아웃 메타데이터(810) 및 객체 PCM(655)은 제거된 객체들을 M.x PCM 베드 믹스(645) 내로 렌더링하기 위하여 객체 제거 렌더링 엔진(820)에 의해 사용된다. 객체 PCM(655)이 또한 지연 모듈(620)을 통해 그리고 객체 포함 렌더링 엔진(630) 내로 진행한다. 엔진(630)이 객체 메타데이터(660) 및 지연된 객체 PCM(655)을 취하고, 객체들 및 N.x 베드 믹스(670)를 재생 스피커 레이아웃(미도시) 상에서의 재생을 위한 N.x 오디오 프리젠테이션(690)으로 렌더링한다.
III. 시스템 세부사항들
이제 멀티플렛 기반 공간적 매트릭싱 코덱 및 방법의 실시예들의 컴포넌트들의 시스템 세부사항들이 논의될 것이다. 모듈들, 시스템들, 및 코덱들이 구현될 수 있는 몇몇 방식들 중 소수의 방식들만이 이하에서 상세화된다는 것을 주의해야 한다. 도 9 및 도 10에 도시된 것으로부터 다양한 변형들이 가능하다.
도 9는 도 5 및 도 7에 도시된 멀티플렛 기반 매트릭스 다운믹싱 시스템(500)의 예시적인 실시예들의 세부사항들을 예시하는 블록도이다. 도 9에 도시된 바와 같이, N.x PCM 베드 믹스(520)가 시스템(500)으로 입력된다. 시스템은, 입력 채널들이 그 위에 다운믹싱될 채널들의 수 및 어떤 입력 채널들이 잔존 채널들이고 비잔존 채널들인지를 결정하는 분리 모듈을 포함한다. 잔존 채널들은 유지되는 채널들이고, 비잔존 채널들은 잔존 채널들의 멀티플렛들 상으로 다운믹싱되는 입력 채널들이다.
시스템(500)은 또한 믹싱 계수 매트릭스 다운믹서(910)를 포함한다. 도 9에서 중공형 화살표들은 신호가 시간 영역 신호라는 것을 나타낸다. 다운믹서(910)는 잔존 채널들을 취하고, 이들을 프로세싱하지 않고 통과시킨다(920). 비잔존 채널들은 근접성에 기초하여 멀티플렛들 상으로 다운믹싱된다. 구체적으로, 일부 비잔존 채널들이 잔존 쌍들(또는 더블렛들) 상으로 다운믹싱될 수 있다(930). 일부 비잔존 채널들은 잔존 채널들의 잔존 트리플렛들 상으로 다운믹싱될 수 있다(940). 일부 비잔존 채널들은 잔존 채널들의 잔존 쿼드러플렛들 상으로 다운믹싱될 수 있다(950). 이는 임의의 Y의 멀티플렛들에 대해서 까지 계속될 수 있으며, 여기에서 Y는 2보다 더 큰 양의 정수이다. 예를 들어, Y=8인 경우, 비잔존 채널은 잔존 채널들의 잔존 옥튜플렛(octuplet) 상으로 다운믹싱될 수 있다. 이는 도 9에서 생략부호(960)에 의해 도시된다. 멀티플렛들의 일부, 전부, 또는 임의의 조합이 N.x PCM 베드 믹스(520)를 다운믹싱하기 위하여 사용될 수 있다는 것을 주의해야 한다.
다운믹서(910)로부터의 결과적인 M.x 다운믹싱이 라우드니스(loudness) 정규화 모듈(980) 내로 진행한다. 정규화 프로세스가 이하에서 더 상세하게 논의된다. N.x PCM 베드 믹스(520)가 M.x 다운믹싱을 정규화하기 위해 사용되며, 그 출력은 정규화된 M.x PCM 베드 믹스(550)이다.
도 10은 도 6 및 도 8에 도시된 멀티플렛 기반 매트릭스 업믹싱 시스템(600)의 예시적인 실시예들의 세부사항들을 예시하는 블록도이다. 도 10에서, 두꺼운 화살표들은 시간 영역 신호들을 나타내며, 점선 화살표들은 서브대역 영역(subband-domain) 신호들을 나타낸다. 도 10에 도시된 바와 같이, M.x PCM 베드 믹스(645)가 시스템(600)으로 입력된다. M.x PCM 베드 믹스(645)는, 잔존 채널 Y 멀티플렛들 상으로 다운믹싱되었던 다양한 비잔존 채널들을 획득하기 위하여 오버샘플링형(oversampled) 분석 필터 뱅크(1000)에 의해 프로세싱된다. 제 1 패스(pass)에서, 비잔존 채널의 공간 내의 반경 및 각도와 같은 공간적 정보를 획득하기 위하여 Y 멀티플렛들에 대한 공간적 분석이 수행된다(1010). 다음으로, 잔존 채널들의 Y 멀티플렛들로부터 비잔존 채널이 추출된다(1015). 그런 다음 이러한 제 1 재캡처(recapture)된 채널 C1이 서브대역 파워 정규화 모듈(1020)로 입력된다. 그런 다음 이러한 패스 내에 포함된 채널들이 재패닝(repan)된다(1025).
이러한 패스들은, 생략부호들(1030)에 의해 표시되는 바와 같이 Y개의 멀티플렛들의 각각을 통해 계속된다. 그런 다음 패스들은 Y 멀티플렛들의 각각이 프로세싱될 때까지 순차적으로 계속된다. 도 10은, 쿼드러플렛들로 다운믹싱된 비잔존 채널의 공간 내의 반경 및 각도와 같은 공간적 정보를 획득하기 위하여 쿼드러플렛들에 대한 공간적 분석이 수행된다는 것(1040)을 도시한다. 다음으로, 잔존 채널들의 쿼드러플렛들로부터 비잔존 채널이 추출된다(1045). 그런 다음, 추출된 채널 C(Y-3)이 서브대역 파워 정규화 모듈(1020)로 입력된다. 그런 다음 이러한 패스 내에 포함된 채널들이 재패닝된다(1050).
다음 패스에서, 트리플렛들로 다운믹싱된 비잔존 채널의 공간 내의 반경 및 각도와 같은 공간적 정보를 획득하기 위하여 트리플렛들에 대한 공간적 분석이 수행된다(1060). 다음으로, 잔존 채널들의 트리플렛들로부터 비잔존 채널이 추출된다(1065). 그런 다음, 추출된 채널 C(Y-2)가 모듈(1020)로 입력된다. 그런 다음 이러한 패스 내에 포함된 채널들이 재패닝된다(1070). 유사하게, 마지막 패스에서, 더블렛들로 다운믹싱된 비잔존 채널의 공간 내의 반경 및 각도와 같은 공간적 정보를 획득하기 위하여 더블렛들에 대한 공간적 분석이 수행된다(1080). 다음으로, 잔존 채널들의 더블렛들로부터 비잔존 채널이 추출된다(1085). 그런 다음, 추출된 채널 C(Y-1)이 모듈(1020)로 입력된다. 그런 다음 이러한 패스 내에 포함된 채널들이 재패닝된다(1090).
그런 다음, N.x 업믹싱을 획득하기 위하여 채널들의 각각이 모듈(1020)에 의해 프로세싱된다. 이러한 N.x 업믹싱은 이들을 N.x PCM 베드 믹스(670)로 결합하기 위한 오버샘플링형 합성 필터 뱅크(1095)에 의해 프로세싱된다. 도 6 및 도 8에 도시된 바와 같이, 그런 다음 N.x PCM 베드 믹스(520)가 다운믹서 및 스피커 재매핑 모듈(640)로 입력된다.
IV. 동작적 개괄
멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들은, 채널 카운트들(및 그에 따른 비트레이트들)을 감소시키며, 공간적 정확성과 기본 오디오 품질 사이의 트레이드오프들을 가능하게 함으로써 오디오 품질을 최적화하고, 오디오 신호 포맷들을 재생 환경 구성들로 변환하는 공간적 인코딩 및 디코딩 기술들이다.
인코더(410) 및 디코더(420)의 실시예들은 2개의 주요한 사용 케이스들을 갖는다. 제 1 사용 케이스는 메타데이터 사용 케이스이며, 여기에서 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들이 고채널 카운트 오디오 신호들을 더 낮은 수의 채널들 상으로 인코딩하기 위해 사용된다. 이에 더하여, 이러한 사용 케이스는, 원본 고채널 카운트 오디오의 정확한 근사를 복원하기 위한 더 낮은 수의 채널들의 디코딩을 포함한다. 제 2 사용 케이스는, 수평적 및 상승된 채널 위치들 둘 모두로 구성되는 3D 레이아웃들로의 표준 모노, 스테레오, 또는 (5.1 또는 7.1과 같은) 멀티 채널 레이아웃들 내의 레거시 컨텐츠의 블라인드 업믹싱을 수행하는 블라인드 업믹싱 사용 케이스이다.
메타데이터 사용 케이스
코덱(400) 및 방법의 실시예들에 대한 제 1 사용 케이스는 비트레이트 감소 툴로서의 사용이다. 코덱(400) 및 방법이 비트레이트 감소를 위해 사용될 수 있는 하나의 예시적인 시나리오는 채널당 이용가능한 비트레이트가 코덱(400)에 의해 지원되는 채널당 최소 비트레이트 아래인 때이다. 이러한 시나리오에 있어, 코덱(400) 및 방법의 실시예들이 인코딩되는 채널들의 수를 감소시키고, 그에 따라 잔존 채널들에 대한 더 높은 비트레이트 할당을 가능하게 하기 위하여 사용될 수 있다. 이러한 채널들은 디매트릭싱 이후 아티팩트들의 언마스킹(unmasking)을 방지하기 위하여 충분히 높은 비트레이트를 가지고 인코딩되어야 한다.
이러한 시나리오에서, 인코더(410)는 다음의 인자들 중 하나 이상에 의존하여 비트레이트 감소를 위한 매트릭싱을 사용할 수 있다. 하나의 인자는 (MinBR_Discr로서 지정되는) 개별 채널 인코딩을 위해 요구되는 채널당 최소 비트레이트이다. 다른 인자는 (MinBR_Mtrx로서 지정되는) 매트릭싱된 채널 인코딩을 위해 요구되는 채널당 최소 비트레이트이다. 또 다른 인자는 (BR_Tot로서 지정되는) 이용가능한 총 비트레이트이다.
인코더(410)가 매트릭싱을 사용(engage)하는지(M<N일 때) 또는 사용하지 않는지(M=N일 때) 여부가 다음의 공식에 기초하여 결정된다:
Figure pct00001
이에 더하여, 원본 채널 레이아웃 및 매트릭싱 절차를 설명하는 메타데이터가 비트스트림 내에서 운반된다. 또한, MinBR_Mtrx의 값은 (각각의 개별적인 코덱 기술에 대하여) 디매트릭싱 후 아티팩트들의 언마스킹을 방지하도록 충분히 높게 선택된다.
디코더(420) 측 상에서, 업믹싱은 단지 포맷을 원본 N.x 레이아웃 또는 N.x 레이아웃의 어떤 적절한 서브 세트가 되게 하도록 수행된다. 추가적인 포맷 변환을 위해 업믹싱이 요구된다. 원본 N.x 레이아웃 내에서 운반되는 공간적 분해능(spatial resolution)이 의도된 공간적 분해능이라고 가정하면, 그에 따라서 임의의 추가적인 포맷 변환은 단지 다운믹싱 및 가능한 스피커 재매핑으로 구성될 것이다. 채널 기반 유일 스트림의 케이스에 있어서, 잔존 M.x 레이아웃은 디코더 측에서의 희망되는 다운믹싱 K.x(K<M)의 유도의 시작 지점으로서 (디매트릭싱을 적용하지 않고) 직접적으로 사용될 수 있다(M, N은 정수들이며, N은 M보다 더 크다).
코덱(400) 및 방법이 비트레이트 감소를 위해 사용될 수 있는 다른 예시적인 시나리오는, (22.2와 같은) 원본 고채널 카운트 레이아웃이 높은 공간적 정확성을 가지며, 이용가능한 비트레이트가 모든 채널들을 별개로 인코딩하기에 충분하지만 인접 투명(near-transparent) 기본 오디오 품질 레벨을 제공하기에는 충분하지 않은 때이다. 이러한 시나리오에 있어, 코덱(400) 및 방법의 실시예들은 공간적 정확성을 약간 희생시키지만 그 보답으로 기본 오디오 품질의 개선을 허용함으로써 전체 성능을 최적화하기 위해 사용될 수 있다. 이는, 원본 레이아웃을 (11.2와 같은) 더 적은 채널들을 가지며 충분한 공간적 정확성을 갖는 레이아웃으로 변환하고, 공간적 정확성에 큰 충격을 주지 않으면서 기본 오디오 품질을 더 높은 레벨로 만드는 것을 제공하기 위하여 비트풀(bitpool)의 전부를 잔존 채널들에 할당함으로써 달성된다.
이러한 예에 있어서, 인코더(410)는, 공간적 정확성을 약간 희생시키지만 그 보답으로 기본 오디오 품질의 개선을 허용함으로써 전체 품질을 최적화하기 위한 툴로서 매트릭싱을 사용한다. 잔존 채널들은 최소 수의 인코딩된 채널들을 가지고 원래의 공간적 정확성을 최대한 보존하도록 선택된다. 이에 더하여, 원본 채널 레이아웃 및 매트릭싱 절차를 설명하는 메타데이터가 스트림 내에서 운반된다.
인코더(410)는, 잔존 레이아웃 내로의 객체의 포함뿐만 아니라 추가적인 다운믹싱 내장을 허용하기에 충분히 높을 수 있는 채널당 비트레이트를 선택한다. 또한, M.x 또는 연관된 내장된 다운믹싱 중 하나가 5.1/7.1 시스템들 상에서 직접적으로 플레이가 가능할 수 있다.
이러한 예에서 디코더(420)는, 단지 포맷을 원본 N.x 레이아웃 또는 N.x 레이아웃의 어떤 적절한 서브 세트가 되게 하도록 수행되는 업믹싱을 사용한다. 어떠한 추가적인 포맷 변환도 요구되지 않는다. 원본 N.x 레이아웃 내에서 운반되는 공간적 분해능이 의도된 공간적 분해능이라고 가정하면, 그에 따라서 임의의 추가적인 포맷 변환은 단지 다운믹싱 및 아마도 스피커 재매핑으로 구성될 것이다.
이상의 시나리오들에 대하여, 본원에서 설명되는 인코딩 및 방법은 채널 기반 포맷에 또는 객체 더하기 베이스 믹스 포맷의 베이스 믹스 채널들에 적용될 수 있다. 대응하는 디코딩 동작이 채널 감소형 레이아웃을 다시 원본 고채널 카운트 레이아웃으로 만들 것이다.
속성(property) 디코딩될 채널 감소형 신호에 대하여, 본원에서 설명되는 디코더(420)는 인코딩 프로세스에서 사용되었던 레이아웃들, 파라미터들, 및 계수들을 통지 받아야만 한다. 코덱(400) 및 방법은, 인코더(410)로부터 디코더(420)로 이러한 정보를 통신하기 위한 비트스트림 신택스(syntax)를 정의한다. 예를 들어, 인코더(410)가 22.2채널 베이스 믹스를 11.2채널 감소형 신호로 인코딩했던 경우, 원본 레이아웃, 채널 감소형 레이아웃, 다운믹싱 채널들의 분배, 및 다운믹싱 계수들을 설명하는 정보가 원본 22.2채널 카운트 레이아웃으로 다시 적절하게 디코딩하는 것을 가능하게 하기 위하여 디코더(420)로 송신될 것이다.
블라인드 업믹싱 사용 케이스
코덱(400) 및 방법의 실시예들에 대한 제 2 사용 케이스는 레거시 컨텐츠의 블라인드 업믹싱을 수행하는 것이다. 이러한 능력은, 코덱(400) 및 방법이 레거시 컨텐츠를 재생 환경(485)의 라우드스피커 위치들과 매칭되는 수평 및 상승된 채널들을 포함하는 3D 레이아웃들로 변환하는 것을 허용한다. 블라인드 업믹싱은 모노, 스테레오, 5.1, 7.1, 및 다른 것들과 같은 표준 레이아웃들 상에서 수행될 수 있다.
전반적인 개괄
도 11은 도 4에 도시된 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들의 전반적인 동작을 예시하는 순서도이다. 동작은 다운믹싱된 출력 오디오 신호에 포함시키기 위한 M개의 채널들을 선택함으로써 시작한다(박스(1100)). 이러한 선택은 이상에서 설명된 바와 같이 희망되는 비트레이트에 기초한다. N 및 M이 0이 아닌 양의 정수들이며, N이 M보다 더 크다는 것을 주의해야 한다.
다음으로, M개의 멀티플렛 인코딩된 채널들을 포함하는 PCM 베드 믹스를 획득하기 위하여 멀티플렛 팬 법칙들의 조합을 사용하여 N개의 채널들이 M개의 채널들로 다운믹싱되고 인코딩된다(박스(1110)). 그런 다음, 방법은 PCM 베드 믹스를 네트워크를 통해 희망되는 비트레이트로 또는 그 아래의 비트레이트로 송신한다(박스(1120)). PCM 베드 믹스가 수신되고, 복수의 M개의 멀티플렛 인코딩된 채널들로 분리된다(박스(1130)).
그런 다음, 방법은 M개의 멀티플렛 인코딩된 채널들로부터 N개의 채널들을 추출하고 N개의 채널들을 갖는 결과적인 출력 오디오 신호를 획득하기 위하여 멀티플렛 팬 법칙들의 조합을 사용하여 M개의 멀티플렛 인코딩된 채널들의 각각을 업믹싱하고 디코딩한다(박스(1140)). 이러한 결과적인 출력 오디오 신호가 재생 채널 레이아웃을 갖는 재생 환경에서 렌더링된다(박스(1150)).
코덱(400) 및 방법의 실시예들 또는 이의 측면들은, 특히 (7개를 초과하는) 아주 많은 수의 채널들이 송신되거나 또는 녹음될 때, 멀티채널 오디오의 녹음 및 전달을 위한 시스템에서 사용된다. 예를 들어, 이러한 하나의 시스템에 있어, 다수의 채널들이 녹음되며, 다수의 채널들은 청취자 둘레에 귀 레벨로 배치된 L개의 채널들, 귀 레벨보다 더 높은 레벨로 배치된 높이 링 둘레에 배치된 P개의 채널들, 및 선택적으로 청취자 위의 천정에 또는 그 근처의 중심 채널을 갖는 알려진 재생 기하구조로 구성되는 것으로 가정된다(여기에서, L 및 P는 1보다 더 큰 임의의 정수들이다). P 채널들은 다양한 통상적인 기하구조들에 따라 배열될 수 있으며, 상정된 기하구조는 믹싱하는 엔지니어 또는 녹음하는 예술가/엔지니어에게 알려진다. 본 발명에 따르면, 매트릭스 믹싱의 신규한 방법에 의해 L + P 채널 카운트가 더 낮은 수의 채널들로 감소된다(예를 들어, L + P개가 단지 L개 상으로 매핑된다). 그런 다음, 감소된 카운트의 채널들이, 감소된 카운트의 채널들의 별개의 성질을 보존하는 알려진 방법들에 의해 인코딩되고 압축된다.
디코딩시, 시스템의 동작은 디코더 능력들에 의존한다. 레거시 디코더들에서, 그 안에 믹스된 P개의 채널들을 갖는 감소된 카운트의(L개의) 채널들이 재현된다. 본 발명에 따른 더 진보된 디코더에서, L + P개의 채널들의 완전한 콘소트가 업믹싱에 의해 복원가능하고 그 각각이 L + P개의 스피커들 중 대응하는 하나의 스피커로 라우팅된다.
본 발명에 따르면, 업믹싱 및 다운믹싱 동작들(매트릭싱/디매트릭싱) 둘 모두가, 재생시 인지되는 사운드 소스들을 녹음하는 예술가 또는 엔지니어에 의해 의도된 상정된 위치들에 가깝게 대응하여 위치시키기 위하여 페어와이즈, 트리플렛, 및 바람직하게는 쿼드러플렛 팬 법칙들의 조합을 포함한다.
매트릭싱 동작(채널 레이아웃 감소)은, a) 스트림의 객체 성분 + 베이스 믹스 또는 b) 스트림의 채널 기반 유일 성분의 베이스 믹스 채널들에 적용될 수 있다.
이에 더하여, 매트릭싱 동작이 정적 객체들(주변으로 움직이지 않는 객체들)에 적용될 수 있으며, 이는 디매트릭싱 후, 각각에 대한 레벨 수정들을 허용할 충분한 객체 분리를 계속해서 달성할 수 있다.
V. 동작적 세부사항들
이제 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들의 동작적 세부사항들이 논의될 것이다.
V.A. 다운믹싱 아키텍처
멀티플렛 기반 매트릭스 다운믹싱 시스템(500)의 예시적인 실시예에 있어, 시스템(500)은 N개 채널 오디오 신호를 받아들이고 M개 채널 오디오 신호를 출력하며, 여기에서 N 및 M은 정수들이고 N은 M보다 더 크다. 시스템(500)은, 컨텐츠 생성 환경(원본) 채널 레이아웃, 다운믹싱된 채널 레이아웃, 및 각각의 원본 채널이 각각의 다운믹싱된 채널에 기여할 믹싱 가중치들을 설명하는 믹싱 계수들의 지식을 사용하여 구성될 수 있다. 예를 들어, 믹싱 계수들은 MxN 크기의 매트릭스 C에 의해 정의될 수 있으며, 여기에서 로우(row)들은 출력 채널들에 대응하고 컬럼(column)들은 입력 채널들에 대응하며, 이는 예컨대 다음과 같다:
Figure pct00002
일부 실시예들에 있어, 그런 다음 시스템(500)은 다음과 같이 다운믹싱 동작을 수행할 수 있다:
Figure pct00003
여기에서 xj[n]은 입력 오디오 신호의 j번째 채널이며 1≤j≤N이고, yi[n]은 출력 오디오 신호의 i번째 채널이며 1≤i≤M이고, cij는 매트릭스 C의 ij 엔트리(entry)에 대응하는 믹싱 계수이다.
라우드니스 정규화
시스템(500)의 일부 실시예들은 도 9에 도시된 라우드니스 정규화 모듈(980)을 또한 포함한다. 라우드니스 정규화 프로세스는 원본 신호의 라우드니스에 대해 다운믹싱된 신호의 인지되는 라우드니스를 정규화하도록 설계된다. 매트릭스 C의 믹싱 계수들이 일반적으로 단일 원본 신호 컴포넌트의 파워를 보존하도록 선택되며, 예를 들어, 표준 사인/코사인 패닝 법칙이 단일 컴포넌트에 대하여 파워를 보존할 것이지만, 더 복합적인 신호 물질(signal material)에 대하여 파워 보존 속성들이 유지되지 않을 것이다. 다운믹싱 프로세스가 파워 영역이 아니라 진폭 영역에서 오디오 신호들을 결합하기 때문에, 다운믹싱된 신호의 결과적인 신호 파워는 예측이 불가능하며 신호 의존적이다. 또한, 라우드니스가 인지적(perceptual) 속성과 더 많이 관련되기 때문에, 신호 파워 대신에 다운믹싱된 오디오 신호의 인지되는 라우드니스를 보존하는 것이 더 바람직할 수 있다.
라우드니스 정규화 프로세스는 입력 라우드니스 대 다운믹싱된 라우드니스의 비율을 비교함으로써 수행된다. 입력 라우드니스는 다음의 방정식을 통해 추정된다:
Figure pct00004
여기에서 Lin은 입력 라우드니스 추정치이고, hj[n]은 ITU-R BS.1770-3 라우드니스 측정 표준에서 설명되는 바와 같은 "K" 주파수 가중 필터와 같은 주파수 가중 필터이며, (*)는 콘볼루션(convolution)을 나타낸다.
관찰될 수 있는 바와 같이, 입력 라우드니스는 본질적으로 주파수 가중된 입력 채널들의 제곱 평균 제곱근(root-mean-squared; RMS) 측정치이며, 여기에서 주파수 가중은 라우드니스의 인간 인지와의 상관관계를 개선하도록 설계된다. 유사하게, 출력 라우드니스가 다음의 방정식을 통해 추정된다:
Figure pct00005
여기에서 Lout은 출력 라우드니스 추정치이다.
입력 및 출력 인지 라우드니스들 둘 모두의 추정치들이 계산되었기 때문에, 우리는 다운믹싱된 신호의 라우드니스가 다음의 정규화 방정식을 통해 원본 신호의 라우드니스와 대략 동일해질 수 있도록 다운믹싱된 오디오 신호를 정규화할 수 있다:
Figure pct00006
이상의 방정식에서, 라우드니스 정규화 프로세스가 입력 라우드니스 대 출력 라우드니스의 비율만큼 다운믹싱된 채널들 전부의 스케일링(scaling)을 야기한다는 것이 관찰될 수 있다.
정적 다운믹싱
주어진 출력 채널 yi[n]에 대한 정적 다운믹싱은 다음과 같다:
Figure pct00007
여기에서 xj[n]은 입력 채널들이며, ci,j는 출력 채널 i 및 입력 채널 j에 대한 다운믹싱 계수들이다.
채널당 라우드니스 정규화
채널당 라우드니스 정규화를 사용하는 동적 다운믹싱은 다음과 같다:
Figure pct00008
여기에서 di[n]은 다음과 같이 주어지는 채널 의존 이득이다:
Figure pct00009
그리고 L(x)는 BS.1770에서 정의된 바와 같은 라우드니스 추정 함수이다.
직관적으로, 시간 가변성 채널당 이득들은 각기 정적으로 다운믹싱된 채널의 라우드니스에 의해 나누어진 (적절한 다운믹싱 계수에 의해 가중된) 각각의 입력 채널의 합계된 라우드니스의 비율로서 보여질 수 있다.
총 라우드니스 정규화
총 라우드니스 정규화를 사용하는 동적 다운믹싱은 다음과 같다:
Figure pct00010
여기에서 g[n]은 다음과 같이 주어지는 채널 독립 이득이다:
Figure pct00011
직관적으로, 시간 가변성 채널 독립 이득은 다운믹싱된 채널들의 합계된 라우드니스에 의해 나누어진 입력 채널들의 합계된 라우드니스의 비율로서 보여질 수 있다.
V.B. 업믹싱 아키텍처
도 6에 도시된 멀티플렛 기반 매트릭스 업믹싱 시스템(600)의 예시적인 실시예에 있어, 시스템(600)은 M개 채널 오디오 신호를 받아들이고 N개 채널 오디오 신호를 출력하며, 여기에서 N 및 M은 정수들이고 N은 M보다 더 크다. 일부 실시예들에 있어, 시스템(600)은 다운믹서에 의해 프로세싱된 바와 같은 원본 채널 레이아웃과 동일한 출력 채널 레이아웃을 목표로 할 것이다. 일부 실시예들에 있어, 업믹싱 프로세싱은 분석 및 합성 필터 뱅크들을 포함한 상태로 주파수 영역에서 수행된다. 주파수 영역에서 업믹싱 프로세싱을 수행하는 것은 복수의 주파수 대역들에 대한 개별적인 프로세싱을 허용한다. 다수의 주파수 대역들을 개별적으로 프로세싱하는 것은, 업믹서가 상이한 주파수 대역들이 동시에 사운드 필드 내의 상이한 위치들로부터 방사되는 상황들을 처리하는 것을 허용한다. 그러나, 광대역 시간 영역 신호들에 대해 업믹싱 프로세싱을 수행하는 것이 또한 가능하다는 것을 주의해야 한다.
입력 오디오 신호가 주파수 영역 표현으로 변환이 완료된 후, 여분의 채널들이 본원에서 이전에 설명된 쿼드러플렛 수학적 프레임워크(framework)에 따라서 그 위에 매트릭싱된 임의의 쿼드러플렛 채널 세트들에 대해 공간적 분석이 수행된다. 쿼드러플렛 공간적 분석에 기초하여, 출력 채널들이 다시 이전에 설명된 쿼드러플렛 프레임워크에 따라 쿼드러플렛 세트들로부터 추출된다. 추출된 채널들은, 다운믹싱 시스템(500) 내에서 원래 쿼드러플렛 세트들 상으로 매트릭싱되었던 여분의 채널들에 대응한다. 그런 다음, 쿼드러플렛 세트들이, 다시 이전에 설명된 쿼드러플렛 프레임워크에 따라, 추출된 채널들에 기초하여 적절하게 재패닝된다.
쿼드러플렛 프로세싱이 완료된 후, 다운믹싱된 채널들이 트리플렛 프로세싱 모듈들로 전달되며, 여기에서 여분의 채널들이 본원에서 이전에 설명된 트리플렛 수학적 프레임워크에 따라서 그 위에 매트릭싱된 임의의 트리플렛 채널 세트들에 대해 공간적 분석이 수행된다. 트리플렛 공간적 분석에 기초하여, 출력 채널들이 다시 이전에 설명된 트리플렛 프레임워크에 따라 트리플렛 세트들로부터 추출된다. 추출된 채널들은, 다운믹싱 시스템(500) 내에서 원래 트리플렛 세트들 상으로 매트릭싱되었던 여분의 채널들에 대응한다. 그런 다음, 트리플렛 세트들이, 다시 이전에 설명된 트리플렛 프레임워크에 따라, 추출된 채널들에 기초하여 적절하게 재패닝된다.
트리플렛 프로세싱이 완료된 후, 다운믹싱된 채널들이 페어와이즈 프로세싱 모듈들로 전달되며, 여기에서 여분의 채널들이 본원에서 이전에 설명된 페어와이즈 수학적 프레임워크에 따라서 그 위에 매트릭싱된 임의의 페어와이즈 채널 세트들에 대해 공간적 분석이 수행된다. 페어와이즈 공간적 분석에 기초하여, 출력 채널들이 다시 이전에 설명된 페어와이즈 프레임워크에 따라 페어와이즈 세트들로부터 추출된다. 추출된 채널들은, 다운믹싱 시스템(500) 내에서 원래 페어와이즈 세트들 상으로 매트릭싱되었던 여분의 채널들에 대응한다. 그런 다음, 페어와이즈 세트들이, 다시 이전에 설명된 페어와이즈 프레임워크에 따라, 추출된 채널들에 기초하여 적절하게 재패닝된다.
이때, N개 채널 출력 신호가 (주파수 영역에서) 생성되었으며, 이는 쿼드러플렛, 트리플렛, 및 페어와이즈 세트들로부터 추출된 모든 채널들뿐만 아니라 재패닝된 다운믹싱된 채널들로 구성된다. 채널들을 다시 시간 영역으로 변환하기 전에, 업믹싱 시스템(600)의 일부 실시예들은, 각각의 출력 서브대역 내의 총 파워를 각각의 입력 다운믹싱된 서브대역의 총 파워에 대해 정규화하도록 설계된 서브대역 파워 정규화를 수행할 수 있다. 각각의 입력 다운믹싱된 서브대역의 총 파워는 다음과 같이 추정될 수 있다:
Figure pct00012
여기에서 Yi[m, k]는 주파수 영역에서의 i번째 입력 다운믹싱된 채널이며, Pin[m, k]는 서브대역 총 다운믹싱된 파워 추정치이고, m은 (아마도 필터 뱅크 구조에 기인하여 데시메이트(decimate)된) 시간 인덱스(index)이며, k는 서브대역 인덱스이다.
유사하게, 각각의 출력 서브대역의 총 파워는 다음과 같이 추정될 수 있다:
Figure pct00013
여기에서 Zj[m,k]는 주파수 영역의 j번째 출력 채널이고, Pout[m,k]는 서브대역 총 출력 파워 추정치이다.
입력 및 출력 서브대역 파워들 둘 모두의 추정치들이 계산되었기 때문에, 우리는 서브대역당 출력 신호의 파워가 다음의 정규화 방정식을 통해 서브대역당 입력 다운믹싱된 신호의 파워와 대략 동일해질 수 있도록 출력 오디오 신호를 정규화할 수 있다:
Figure pct00014
이상의 방정식에서, 서브대역 파워 정규화 프로세스가 서브대역당 입력 파워 대 출력 파워의 비율만큼 출력 채널들 전부의 스케일링을 야기한다는 것이 관찰될 수 있다. 업믹서가 주파수 영역에서 수행되지 않는 경우, 서브대역 파워 정규화 프로세스 대신 다운믹싱 아키텍처에서 설명된 것과 유사한 라우드니스 정규화 프로세스가 수행될 수 있다.
모든 출력 채널들이 생성되고 서브대역 파워들이 정규화되면, 주파수 영역 출력 채널들은 주파수 영역 채널들을 다시 시간 영역 채널들을 변환하는 합성 필터 뱅크 모듈로 전송된다.
V.C. 믹싱, 패닝, 및 업믹싱 법칙들
코덱(400) 및 방법의 실시예들에 따른 실제 매트릭스 다운믹싱 및 상보적인 업믹싱은, 스피커 구성에 의존하여 페어와이즈, 트리플렛, 및 바람직하게는 또한 쿼드러플렛 믹싱 법칙들의 조합을 사용하여 수행된다. 다시 말해서, 녹음/믹싱시 특정 스피커가 다운믹싱에 의해 제거되거나 또는 가상화될 예정인 경우, 위치가 a) 한 쌍의 잔존 스피커들 사이의 라인 세그먼트(line segment) 상에 또는 그 근처에 있는 케이스인지, b) 3개의 잔존 채널/스피커들에 의해 구획(define)되는 삼각형 내에 있는 케이스인지, 또는 c) 각각이 꼭지점에 배치된 4개의 채널 스피커들에 의해 구획되는 사변형 내에 있는 케이스인지 여부에 대한 결정이 적용된다.
이러한 마지막 케이스는, 예를 들어, 천정에 배치된 높이 채널을 매트릭싱하기 위해 유익하다. 또한, 코덱(400) 및 방법의 다른 실시예들에 있어, 원본 및 다운믹싱된 채널 레이아웃들의 기하구조가 이를 요구하는 경우 매트릭싱은 쿼드러플렛 채널 세트들을 넘어, 예컨대 퀸튜플렛(quintuplet) 또는 섹스튜플렛(sextuplet) 채널 세트들로 확장될 수 있다는 것을 주의해야 한다.
코덱(400) 및 방법의 일부 실시예들에 있어, 각각의 오디오 채널 내의 신호는, 복수의 서브대역들, 예를 들어, "바크 대역(Bark band)들"과 같은 인지적으로 관련된 주파수 대역들 내로 필터링된다. 이는 바람직하게는 직교 미러 필터(quadrature mirror filter)들의 밴드에 의해 또는 다위상 필터들에 의해 이루어질 수 있으며, 그 다음 선택적으로 (당업계에서 공지된) 각각의 서브대역 내의 샘플들의 요구되는 수를 감소시키기 위한 데시메이션이 이어질 수 있다. 필터링 다음에, 매트릭스 다운믹싱 분석은 오디오 채널들의 각각의 커플링된 세트(쌍, 트리플렛, 또는 쿼드) 내의 각각의 인지적으로 중요한 서브대역 내에서 독립적으로 수행되어야만 한다. 그런 다음, 서브대역들의 각각의 커플링된 세트가, 디코더에서 각각의 서브대역 채널 세트 내에서 상보적인 업믹싱을 수행함으로써 이로부터 원래의 별개의 서브대역 채널 세트가 복원될 수 있는 적절한 다운믹싱을 제공하기 위하여, 바람직하게는 이하에서 기술되는 방정식들 및 방법들에 의해 분석되고 프로세싱된다.
이하의 논의는, 여분의 채널들의 각각이 채널 쌍(더블렛), 트리플렛, 또는 쿼드러플렛 중 하나에 믹스되는 N 대 M 채널들 (및 이의 역)의 다운믹싱 (및 상보적인 업믹싱)을 위한 코덱(400) 및 방법의 실시예들에 따른 선호되는 방법을 기술한다. 동일한 방정식들 및 원리들이 각각의 서브대역 내의 믹싱이든지 또는 광대역 신호 채널들 내의 믹싱이든지 적용가능하다.
디코더 업믹싱 케이스에 있어, 동작들의 순서는, 이러한 순서가 처음으로 쿼드러플렛 세트들, 그 다음으로 트리플렛 세트들, 그 다음으로 채널쌍들을 프로세싱하기 위해 코덱(400) 및 방법의 실시예들에 따라 매우 강력하게 선호된다는 점에 있어서 중요하다. 이는, Y 멀티플렛들이 존재하여 가장 큰 멀티플렛이 처음으로 프로세싱되고, 그 다음으로 큰 멀티플렛이 이어지는 등인 케이스들로 확장될 수 있다. 가장 큰 수의 채널들을 갖는 채널 세트들을 처음으로 프로세싱하는 것이, 업믹서가 가장 광범위하고 가장 전반적인 채널 관계들을 분석하는 것을 허용한다. 트리플렛 또는 페어와이즈 세트들 이전에 쿼드러플렛 세트들을 프로세싱함으로써, 업믹서는 쿼드러플렛 세트 내에 포함된 모든 채널들에 걸쳐 공통적인 관련된 신호 컴포넌트들을 정확하게 분석할 수 있다. 가장 광범위한 채널 관계들이 쿼드러플렛 프로세싱을 통해 분석되고 프로세싱된 후, 그 다음으로 광범위한 채널 관계들이 트리플렛 프로세싱을 통해 분석되고 프로세싱될 수 있다. 가장 한정된 채널 관계들인 페어와이즈 관계들이 마지막에 프로세싱된다. 트리플렛 또는 페어와이즈 세트들이 쿼드러플렛 세트들 이전에 우연히 프로세싱되는 경우, 일부 의미 있는 채널 관계들이 트리플렛 또는 페어와이즈 채널들에 걸쳐 관찰될 수 있을지라도, 이러한 관찰된 채널 관계들이 진짜 채널 관계들의 단지 서브세트일 것이다.
일 예로서, 원본 오디오 신호의 주어진 채널(이러한 채널을 A라 한다)이 쿼드러플렛 세트 상으로 다운믹싱되는 시나리오를 고려하도록 한다. 업믹서에서, 쿼드러플렛 프로세싱이 그 쿼드러플렛 세트에 걸친 채널 A의 공통 신호 컴포넌트들을 분석하고 원본 오디오 채널 A의 근사를 추출하는 것이 가능할 것이다. 임의의 후속 트리플렛 또는 페어와이즈 프로세싱이 예측된 바와 같이 수행될 것이며, 어떠한 추가적인 분석 또는 추출도 채널 A 신호 컴포넌트들에 대해 수행되지 않을 것이고, 이는 이들이 이미 추출되었기 때문이다. 그 대신 트리플렛 프로세싱이 쿼드러플렛 프로세싱 이전에 수행되고 (및 트리플렛 세트가 쿼드러플렛 세트의 서브세트인) 경우, 트리플렛 프로세싱이 그 트리플렛 세트에 걸친 채널 A의 공통 신호 컴포넌트들을 분석하고 상이한 출력 채널(즉, 출력 채널 A가 아닌 채널)로 오디오 신호를 추출할 것이다. 그런 다음, 쿼드러플렛 프로세싱이 트리플렛 프로세싱 이후에 수행되는 경우, 채널 A 신호 컴포넌트들의 일 부분만이 쿼드러플렛 채널 세트에 걸쳐 계속해서 존재할 것이기 때문에 (즉, 채널 A 신호 컴포넌트들의 일 부분이 트리플렛 프로세싱 동안 이미 추출되었기 때문에) 원본 오디오 채널 A가 추출될 수 없을 것이다.
이상에서 설명된 바와 같이, 처음에 쿼드러플렛 세트들을 프로세싱하고, 그 다음에 트리플렛 세트들을 프로세싱하며, 그 다음에 마지막으로 페어와이즈 세트들을 프로세싱하는 것이 프로세싱의 선호되는 시퀀스이다. 이상의 논의가 페어와이즈(더블렛), 트리플렛, 및 쿼드러플렛 세트들을 처리하지만, 임의의 수의 세트들이 가능하다는 것을 주의해야 한다. 페어와이즈 세트들에 대하여 라인이 형성되고, 트리플렛 세트들에 대하여 삼각형이 형성되며, 쿼드러플렛 세트들에 대하여 정사각형이 형성된다. 그러나, 추가적인 유형들의 다각형들이 가능하다.
V.D. 페어와이즈 매트릭싱 케이스
코덱(400) 및 방법의 실시예들에 따르면, 비잔존(또는 여분의) 채널의 위치가 2개의 잔존 채널들(또는 잔존 채널들 내의 대응하는 서브대역들)의 위치들에 의해 획정되는 더블렛 사이에 놓일 때, 다운믹싱될 채널은 이하에서 기술되는 바와 같이 더블렛(또는 페어와이즈) 채널 관계들의 세트에 따라 매트릭싱되어야만 한다.
멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들은 좌측 및 우측 채널들 사이의 채널간 레벨 차이를 계산한다. 이러한 계산이 이하에서 상세하게 도시된다. 또한, 코덱(400) 및 방법은 추정된 패닝 각도를 계산하기 위하여 채널간 레벨 차이를 사용한다. 이에 더하여, 채널간 위상 차이가 좌측 및 우측 입력 채널들을 사용하는 방법에 의해 계산된다. 이러한 채널간 위상 차이는 좌측 및 우측 입력 채널들 사이의 상대적인 위상 차이를 결정하며, 이는 2채널 입력 오디오 신호의 좌측 및 우측 신호들이 동위상인지 또는 이위상인지 여부를 나타낸다.
코덱(400) 및 방법의 일부 실시예들은 다운믹싱 프로세스 및 2채널 다운믹싱으로부터의 후속 업믹싱 프로세스를 결정하기 위하여 패닝 각도(θ)를 사용한다. 또한, 일부 실시예들은 사인/코사인 패닝 법칙을 상정한다. 이러한 상황들에 있어, 2채널 다운믹싱은 다음과 같이 패닝 각도의 함수로서 계산된다:
Figure pct00015
여기에서, Xi는 입력 채널이고, L 및 R은 다운믹싱 채널들이며, θ는 (0과 1 사이에서 정규화된) 패닝 각도이고, 패닝 가중치들의 극성은 입력 채널 Xi의 위치에 의해 결정된다. 전통적인 매트릭싱 시스템들에 있어, 청취자의 전방에 위치된 입력 채널들은 동위상 신호 컴포넌트들을 가지고 (다시 말해서, 패닝 가중치들의 동일한 극성을 가지고) 다운믹싱되며, 청취자 뒤에 위치된 출력 채널들은 이위상 신호 컴포넌트들을 가지고 (다시 말해서, 패닝 가중치들의 반대되는 극성을 가지고) 다운믹싱되는 것이 일반적이다.
도 12는 사인/코사인 패닝 법칙에 대한 패닝 각도(θ)의 함수로서 패닝 가중치들을 예시한다. 제 1 플롯(1200)은 우측 채널에 대한 패닝 가중치들(WR)을 나타낸다. 제 2 플롯(1210)은 좌측 채널에 대한 패닝 가중치들(WL)을 나타낸다. 예로서 그리고 도 12을 참조하면, 중심 채널이 다음과 같이 다운믹싱 함수들을 야기하는 0.5의 패닝 각도를 사용할 수 있다:
Figure pct00016
2채널 다운믹싱으로부터 추가적인 오디오 채널들을 합성하기 위하여, 패닝 각도의 추정치(또는
Figure pct00017
로서 표시되는 추정된 패닝 각도)가 (ICLD로서 표시되는) 채널간 레벨 차이로부터 계산될 수 있다. ICLD가 다음과 같이 정의된다고 하자:
Figure pct00018
신호 컴포넌트가 사인/코사인 패닝 법칙을 사용하여 강도 패닝(intensity panning)을 통해 생성된다고 가정하면, ICLD는 다음과 같이 패닝 각도 추정치의 함수로서 표현될 수 있다:
Figure pct00019
그러면 패닝 각도 추정치는 ICLD의 함수로서 다음과 같이 표현될 수 있다:
Figure pct00020
다음의 각도 합산 및 차이 항등식(identity)들은 나머지 유도들 전체에 걸쳐 사용될 것이다:
Figure pct00021
또한, 다음의 유도들은 5.1 서라운드 사운드 출력 구성을 가정한다. 그러나, 이러한 분석이 추가적인 채널들에 용이하게 적용될 수 있다.
중심 채널 합성
중심 채널은 다음의 방정식을 사용하여 2채널 다운믹싱으로부터 생성된다:
C = aL + bR
여기에서 a 및 b 계수들은 특정한 미리정의된 목표들을 달성하기 위한 패닝 각도 추정치
Figure pct00022
에 기초하여 결정된다.
동위상 컴포넌트들
중심 채널의 동위상 컴포넌트들에 대하여 희망되는 패닝 거동이 도 13에 예시된다. 도 13은 다음과 같은 방정식에 의해 주어지는 동위상 플롯(1300)에 대응하는 패닝 거동을 예시한다:
Figure pct00023
동위상 컴포넌트들에 대한 희망되는 중심 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00024
각도 합산 항등식들을 사용하면, (a로서 표시되는) 제 1 디매트릭싱 계수 및 (b로서 표시되는) 제 2 디매트릭싱 계수들을 포함하는 디매트릭싱 계수들이 다음과 같이 유도될 수 있다:
Figure pct00025
이위상 컴포넌트들
중심 채널의 이위상 컴포넌트들에 대하여 희망되는 패닝 거동이 도 14에 예시된다. 도 14는 다음과 같은 방정식에 의해 주어지는 이위상 플롯(1400)에 대응하는 패닝 거동을 예시한다:
C = 0
이위상 컴포넌트들에 대한 희망되는 중심 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00026
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00027
서라운드 채널 합성
서라운드 채널들이 다음의 방정식들을 사용하여 2채널 다운믹싱으로부터 생성된다:
Ls = aL - bR
Rs = aR - bL
여기에서 Ls는 좌측 서라운드 채널이고 Rs는 우측 서라운드 채널이다. 또한, a 및 b 계수들은 특정한 미리정의된 목표들을 달성하기 위한 패닝 각도 추정치
Figure pct00028
에 기초하여 결정된다.
동위상 컴포넌트들
좌측 서라운드 채널의 동위상 컴포넌트들에 대한 이상적인 패닝 거동이 도 15에 예시된다. 도 15는 다음과 같은 방정식에 의해 주어지는 동위상 플롯(1500)에 대응하는 패닝 거동을 예시한다:
Ls = 0
동위상 컴포넌트들에 대한 희망되는 좌측 서라운드 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00029
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도된다:
Figure pct00030
이위상 컴포넌트들
이위상 컴포넌트들에 대한 좌측 서라운드 채널에 대한 목표는 도 16의 이위상 플롯(1600)에 의해 예시된 바와 같은 패닝 거동을 달성하는 것이다. 도 16은, 좌측 서라운드 채널 및 우측 서라운드 채널이 별개로 인코딩되고 디코딩되는 다운믹싱 방정식들에 대응하는 2개의 특정 각도들을 예시한다(이러한 각도들은 도 16의 이위상 플롯(1600) 상에서 (45° 및 135°에 대응하는) 대략적으로 0.25 및 0.75이다). 이러한 각도들이 다음과 같이 지칭된다:
θLs = 좌측 채널 인코딩 각도(~0.25)
θRs = 우측 서라운드 인코딩 각도(~0.75)
좌측 서라운드 채널에 대한 a 및 b 계수들은 희망되는 출력의 구분적 거동에 기인한 구분 함수(piecewise function)를 통해 생성된다.
Figure pct00031
에 대하여, 좌측 서라운드 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
Figure pct00032
이위상 컴포넌트들에 대한 희망되는 좌측 서라운드 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00033
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00034
Figure pct00035
에 대하여, 좌측 서라운드 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
Figure pct00036
이위상 컴포넌트들에 대한 희망되는 좌측 서라운드 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00037
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00038
Figure pct00039
Figure pct00040
에 대하여, 좌측 서라운드 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
Ls = 0
이위상 컴포넌트들에 대한 희망되는 좌측 서라운드 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00041
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00042
우측 서라운드 채널 생성을 위한 a 및 b 계수들은 이상에서 설명된 바와 같은 좌측 서라운드 채널 생성을 위한 계수들과 유사하게 계산된다.
수정된 좌측 및 수정된 우측 채널 합성
좌측 및 우측 채널들이 중심 및 서라운드 채널들에서 생성된 이러한 컴포넌트들을 (완전히 또는 부분적으로) 제거하기 위하여 다음의 방정식들을 사용하여 수정된다:
L' = aL - bR
R' = aR - bL
여기에서 a 및 b 계수들은 특정한 미리정의된 목표들을 달성하기 위한 패닝 각도 추정치
Figure pct00043
에 기초하여 결정되며, L'는 수정된 좌측 채널이고 R'는 수정된 우측 채널이다.
동위상 컴포넌트들
동위상 컴포넌트들에 대한 수정된 좌측 채널에 대한 목표는 도 17의 동위상 플롯(1700)에 의해 예시된 바와 같은 패닝 거동을 달성하는 것이다. 도 17에서, 0.5의 패닝 각도 θ는 별개의 중심 채널에 대응한다. 수정된 좌측 채널에 대한 a 및 b 계수들은 희망되는 출력의 구분적 거동에 기인한 구분 함수를 통해 생성된다.
Figure pct00044
에 대하여, 수정된 좌측 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
Figure pct00045
동위상 컴포넌트들에 대한 희망되는 수정된 좌측 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00046
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00047
.
Figure pct00048
에 대하여, 수정된 좌측 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
L' = 0
동위상 컴포넌트들에 대한 희망되는 수정된 좌측 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00049
.
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00050
Figure pct00051
.
이위상 컴포넌트들
이위상 컴포넌트들에 대한 좌측 서라운드 채널에 대한 목표는 도 18의 이위상 플롯(1800)에 의해 예시된 바와 같은 패닝 거동을 달성하는 것이다. 도 18에서, 패닝 각도 θ = θLs는 좌측 서라운드 채널에 대한 인코딩 각도에 대응한다. 수정된 좌측 채널에 대한 a 및 b 계수들은 희망되는 출력의 구분적 거동에 기인한 구분 함수를 통해 생성된다.
Figure pct00052
에 대하여, 수정된 좌측 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
Figure pct00053
.
이위상 컴포넌트들에 대한 희망되는 수정된 좌측 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00054
.
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00055
Figure pct00056
.
Figure pct00057
에 대하여, 수정된 좌측 채널에 대한 희망되는 패닝 거동은 다음에 대응한다:
L' = 0.
이위상 컴포넌트들에 대한 희망되는 수정된 좌측 채널 패닝 거동 및 가정된 사인/코사인 다운믹싱 함수들을 대입하는 것이 다음을 야기한다:
Figure pct00058
.
각도 합산 항등식들을 사용하면, a 및 b 계수들이 다음과 같이 유도될 수 있다:
Figure pct00059
Figure pct00060
.
수정된 우측 채널 생성을 위한 a 및 b 계수들은 이상에서 설명된 바와 같은 수정된 좌측 채널 생성을 위한 계수들과 유사하게 계산된다.
계수 보간
이상에서 제공된 채널 합성 유도들은 동위상 또는 이위상인 소스 컨텐츠에 대한 희망되는 패닝 거동을 달성하는 것에 기초한다. 소스 컨텐츠의 상대적인 위상 차이는 다음과 같이 정의되는 채널간 위상 차이(Inter-Channel Phase Difference; ICPD) 속성을 통해 결정될 수 있다:
Figure pct00061
,
여기에서 *는 복소 켤레(complex conjugation)를 나타낸다.
ICPD 값은 범위 [-1,1] 내로 제한되며, 여기에서 -1의 값은 컴포넌트들이 이위상이라는 것을 나타내며 1의 값은 컴포넌트들이 동위상이라는 것을 나타낸다. 그러면 ICPD 속성은 선형 보간을 사용하여 채널 합성 방정식들에서 사용되기 위한 최종 a 및 b 계수들을 결정하기 위해 사용될 수 있다. 그러나, a 및 b 계수들의 직접적인 보간 대신, a 및 b 계수들의 전부가 패닝 각도 추정치
Figure pct00062
의 삼각 함수들을 사용하여 생성된다는 것이 주목될 수 있다.
따라서 선형 보간은 삼각 함수들의 각도 편각(angle argument)들에 대해 수행된다. 이러한 방식으로 선형 보간을 수행하는 것이 2개의 주요한 이점들을 갖는다. 첫째, 이는 임의의 패닝 각도 및 ICPD 값에 대하여 a2 + b2 = 1이라는 속성을 보존한다. 둘째, 이는 요구되는 삼각 함수 호출 횟수를 감소시키며 그럼으로써 프로세싱 요건들을 감소시킨다.
각도 보간은 다음과 같이 계산된 범위 [0,1]에 대해 정규화된 수정된 ICPD 값을 사용한다:
Figure pct00063
.
채널 출력들은 아래에 도시된 바와 같이 계산된다.
중심 출력 채널
중심 출력 채널은 수정된 ICPD 값을 사용하여 생성되며, 이는 다음과 같이 정의된다:
C = aL + bR,
여기에서,
Figure pct00064
Figure pct00065
.
이상의 사인 함수의 편각의 첫번째 항은 제 1 매트릭싱 계수의 동위상 컴포넌트를 나타내며, 반면 두번째 항은 이위상 컴포넌트를 나타낸다. 따라서, α는 동위상 계수를 나타내고, β는 이위상 계수를 나타낸다. 동위상 계수 및 이위상 계수가 함께 위상 계수들로서 알려져 있다.
각각의 출력 채널에 대하여, 코덱(400) 및 방법의 실시예들은 추정된 패닝 각도에 기초하여 위상 계수들을 계산한다. 중심 출력 채널에 대하여, 동위상 계수 및 이위상 계수는 다음과 같이 주어진다:
Figure pct00066
Figure pct00067
.
좌측 서라운드 출력 채널
좌측 서라운드 출력 채널은 수정된 ICPD 값을 사용하여 생성되며, 이는 다음과 같이 정의된다:
Ls = aL - bR
여기에서,
Figure pct00068
Figure pct00069
Figure pct00070
.
어떤 삼각 항등식들 및 위상 랩핑(phase wrapping) 속성들이 이상에서 주어진 방정식들에 대한 α 및 β 계수들을 단순화하기 위해 적용되었다는 것을 주의해야 한다.
우측 서라운드 출력 채널
우측 서라운드 출력 채널은 수정된 ICPD 값을 사용하여 생성되며, 이는 다음과 같이 정의된다:
Rs = aR - bL
여기에서,
Figure pct00071
Figure pct00072
Figure pct00073
.
우측 서라운드 채널에 대한 a 및 b 계수들이, 패닝 각도로서
Figure pct00074
대신에
Figure pct00075
을 사용한다는 것을 제외하면, 좌측 서라운드 채널과 유사하게 생성된다는 것을 주의해야 한다.
수정된 좌측 출력 채널
수정된 좌측 출력 채널은 다음과 같이 수정된 ICPD 값을 사용하여 생성된다:
L' = aL - bR
여기에서,
Figure pct00076
Figure pct00077
Figure pct00078
.
수정된 우측 출력 채널
수정된 우측 출력 채널은 다음과 같이 수정된 ICPD 값을 사용하여 생성된다:
R' = aR - bL
여기에서,
Figure pct00079
Figure pct00080
Figure pct00081
.
우측 채널에 대한 a 및 b 계수들이, 패닝 각도로서
Figure pct00082
대신에
Figure pct00083
를 사용한다는 것을 제외하면, 좌측 채널과 유사하게 생성된다는 것을 주의해야 한다.
이상에서 논의된 내용은 2채널 다운믹싱으로부터 중심, 좌측 서라운드, 우측 서라운드, 좌측, 및 우측 채널들을 생성하기 위한 시스템이다. 그러나, 시스템은 추가적인 패닝 거동들을 정의함으로써 다른 추가적인 오디오 채널들을 생성하기 위해 용이하게 수정될 수 있다.
V.E. 트리플렛 매트릭싱 케이스
코덱(400) 및 방법의 실시예들에 따르면, 비잔존(또는 여분의) 채널의 위치가 3개의 잔존 채널들(또는 잔존 채널들 내의 대응하는 서브대역들)의 위치들에 의해 획정되는 삼각형 내에 있을 때, 다운믹싱될 채널은 이하에서 기술되는 바와 같이 트리플렛 채널 관계들의 세트에 따라 매트릭싱되어야만 한다.
다운믹싱 케이스
비잔존 채널이 삼각형을 형성하는 3개의 잔존 채널들 상으로 다운믹싱된다. 수학적으로, 신호 S는 채널 트리플렛 C1/C2/C3 상으로 패닝된 진폭이다. 도 19는 채널 트리플렛 상으로의 신호 소스 S의 패닝을 예시하는 도면이다. 도 19를 참조하면, 채널 C1과 C2 사이에 위치된 신호 소소 S에 대하여, 채널들 C1/C2/C3이 다음의 신호 모델을 따라 생성되는 것으로 가정한다:
Figure pct00084
여기에서 r은 (범위 [0,1]로 정규화된) 원점으로부터의 신호 소스의 거리이며, θ는 (범위 [0,1]로 정규화된) 채널들 C1과 C2 사이의 신호 소스의 각도이다. 이상의 채널들 C1/C2/C3에 대한 채널 패닝 가중치들이 C1/C2/C3 상으로 패닝될 때 신호 S의 파워를 보존하도록 설계된다는 것을 주의해야 한다.
업믹싱 케이스
트리플렛을 업믹싱할 때 목적은 입력 트리플렛 C1/C2/C3으로부터 4개의 출력 채널들 C1’/C2’/C3‘/C4를 생성함으로써 트리플렛 상으로 다운믹싱되었던 비잔존 채널을 획득하는 것이다. 도 20은 트리플렛 상으로 패닝되었던 비잔존 제 4 채널의 추출을 예시하는 도면이다. 도 20을 참조하면, 제 4 출력 채널 C4의 위치는 원점에 있는 것으로 가정되며, 반면 다른 3개의 출력 채널들 C1'/C2'/C3'의 위치는 입력 채널들 C1/C2/C3과 동일한 것으로 가정된다. 멀티플렛 기반 공간적 매트릭싱 디코더(420)의 실시예들은, 원본 신호 컴포넌트 S의 공간적 위치 및 신호 에너지가 보존되도록 4개의 출력 채널들을 생성한다. 사운드 소스 S의 원래 위치가 멀티플렛 기반 공간적 매트릭싱 디코더(420)의 실시예들로 송신되지 않으며, 이는 오로지 입력 채널들 C1/C2/C3 자체로부터 추정될 수 있다. 디코더(420)의 실시예들은 S의 어떤 임의의 위치에 대하여 4개의 출력 채널들을 적절하게 생성하는 것이 가능하다. 본 섹션의 나머지 부분에 대하여, 보편성의 손실 없이 유도들을 단순화하기 위하여 원본 신호 컴포넌트 S가 단위 에너지를 갖는 것(즉,
Figure pct00085
)으로 가정될 수 있다.
채널 에너지들 C 1 2 /C 2 2 /C 3 2 으로부터의
Figure pct00086
Figure pct00087
추정치들의 유도
다음과 같다고 하자:
Figure pct00088
채널 에너지 비율들
다음의 에너지 비율들은 본 섹션의 나머지 부분 전체에 걸쳐 사용될 것이다:
Figure pct00089
이러한 3개의 에너지 비율들은 범위 [0,1] 내에 있으며, 합계하여 1이다.
C 4 채널 합성
출력 채널 C4는 다음의 방정식을 통해 생성될 것이다.
C4 = aC1 + bC2 + cC3
여기에서, a, b, 및 c 계수들은 추정된 각도
Figure pct00090
및 반경
Figure pct00091
에 기초하여 결정될 것이다.
목표는 다음과 같다:
Figure pct00092
a = da', b = db', 및 c = dc'라고 하면 다음과 같다:
Figure pct00093
이상의 대입들이 다음을 야기한다:
Figure pct00094
d에 대하여 풀면 다음과 같다:
Figure pct00095
따라서, a, b, 및 c 계수들은 다음과 같다:
Figure pct00096
Figure pct00097
또한, 최종 a, b, 및 c 계수들은 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00098
C 1 '/C 2 '/C 3 ' 채널 합성
출력 채널들 C1'/C2'/C3'은, 출력 채널 C4 내에 이미 생성된 신호 컴포넌트들이 입력 채널들 C1/C2/C3으로부터 적절하게 "제거"될 수 있도록 입력 채널들 C1/C2/C3으로부터 생성될 것이다.
C 1 ' 채널 합성
다음과 같다고 하자:
C1' = aC1 - bC2 - cC3
목표는 다음과 같다:
Figure pct00099
a 계수는 다음과 같다고 하자:
Figure pct00100
b = db' 및 c = dc'라고 하면, 다음과 같다:
Figure pct00101
이상의 대입들이 다음을 야기한다:
Figure pct00102
d에 대하여 풀면 다음과 같다:
Figure pct00103
최종 a, b, 및 c 계수들은 다음과 같이 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00104
C 2 ' 채널 합성
다음과 같다고 하자:
C2' = aC2 - bC1 - cC3
목표는 다음과 같다:
Figure pct00105
a 계수는 다음과 같다고 하자:
Figure pct00106
b = db' 및 c = dc'라고 하면, 다음과 같다:
Figure pct00107
이상의 대입들이 다음을 야기한다:
Figure pct00108
d에 대하여 풀면 다음과 같다:
Figure pct00109
최종 a, b, 및 c 계수들은 다음과 같이 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00110
C 3 ' 채널 합성
다음과 같다고 하자:
C3' = aC3 - bC1 - cC2
목표는 다음과 같다:
Figure pct00111
a 계수는 다음과 같다고 하자:
Figure pct00112
b = db' 및 c = dc'라고 하면, 다음과 같다:
Figure pct00113
이상의 대입들이 다음을 야기한다:
Figure pct00114
d에 대하여 풀면 다음과 같다:
d =
Figure pct00115
최종 a, b, 및 c 계수들은 다음과 같이 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00116
트리플렛 채널간 위상 차이(ICPD)
채널간 위상 차이(ICPD) 공간적 속성은 다음과 같이 기초(underlying) 페어와이즈 ICPD 값들로부터의 트리플렛에 대해 계산될 수 있다:
Figure pct00117
여기에서 기초 페어와이즈 ICPD 값들은 다음의 방정식을 사용하여 계산된다:
Figure pct00118
.
트리플렛 신호 모델은 사운드 소스가 트리플렛 채널들 상으로 진폭 패닝되었다는 것을 가정하며, 이는 3개의 채널들이 완전히 상관된다는 것을 의미한다는 것을 주의해야 한다. 트리플렛 ICPD 측정은 3개의 채널들의 총 상관관계를 추정하기 위해 사용될 수 있다. 트리플렛 채널들이 완전히 상관될 때 (또는 거의 완전히 상관될 때), 트리플렛 프레임워크가 고도로 예측가능한 결과들을 갖는 4개의 출력 채널들을 생성하기 위해 이용될 수 있다. 트리플렛 채널들이 상관되지 않을 때, 상관되지 않은 트리플렛 채널들은 가정된 신호 모델을 위반하며 이는 예측할 수 없는 결과들을 야기할 수 있기 때문에 상이한 프레임 워크 또는 방법이 사용되는 것이 바람직할 수 있다.
V.F. 쿼드러플렛 매트릭싱 케이스
코덱(400) 및 방법의 실시예들에 따르면, 어떤 대칭의 상태들이 효과가 있을 때, 여분의 채널(또는 채널 서브대역)이 바람직하게는 사변형 내에 있는 것으로 간주될 수 있다. 이러한 케이스에 있어, 코덱(400) 및 방법의 실시예들은 이하에서 제시되는 관계들의 쿼드러플렛 케이스 세트에 따른 다운믹싱(및 상보적인 업믹싱)을 포함한다.
다운믹싱 케이스
비잔존 채널이 사변형을 형성하는 4개의 잔존 채널들 상으로 다운믹싱된다. 수학적으로, 신호 소스 S는 채널 쿼드러플렛 C1/C2/C3/C4 상으로 패닝된 진폭이다. 도 21은 채널 쿼드러플렛 상으로의 신호 소스 S의 패닝을 예시하는 도면이다. 도 21을 참조하면, 채널 C1과 C2 사이에 위치된 신호 소소 S에 대하여, 채널들 C1/C2/C3/C4가 다음의 신호 모델을 따라 생성되는 것으로 가정한다:
Figure pct00119
여기에서 r은 (범위 [0,1]로 정규화된) 원점으로부터의 신호 소스의 거리이며, θ는 (범위 [0,1]로 정규화된) 채널들 C1과 C2 사이의 신호 소스의 각도이다. 이상의 채널들 C1/C2/C3/C4에 대한 채널 패닝 가중치들이 C1/C2/C3/C4 상으로 패닝될 때 신호 S의 파워를 보존하도록 설계된다는 것을 주의해야 한다.
업믹싱 케이스
쿼드러플렛을 업믹싱할 때 목적은 입력 쿼드러플렛 C1/C2/C3/C4로부터 5개의 출력 채널들 C1’/C2’/C3‘/C4'/C5를 생성함으로써 쿼드러플렛 상으로 다운믹싱되었던 비잔존 채널을 획득하는 것이다. 도 22는 쿼드러플렛 상으로 패닝된 비잔존 제 5 채널의 추출을 예시하는 도면이다. 도 22를 참조하면, 제 5 출력 채널 C5의 위치는 원점에 있는 것으로 가정되며, 반면 다른 4개의 출력 채널들 C1'/C2'/C3'/C4'의 위치는 입력 채널들 C1/C2/C3/C4와 동일한 것으로 가정된다. 멀티플렛 기반 공간적 매트릭싱 디코더(420)의 실시예들은, 원본 신호 컴포넌트 S의 공간적 위치 및 신호 에너지가 보존되도록 5개의 출력 채널들을 생성한다.
사운드 소스 S의 원래 위치가 디코더(420)의 실시예들로 송신되지 않으며, 이는 오로지 입력 채널들 C1/C2/C3/C4 자체로부터 추정될 수 있다. 디코더(420)의 실시예들은 S의 어떤 임의의 위치에 대하여 5개의 출력 채널들을 적절하게 생성하는 것이 가능해야만 한다.
본 섹션의 나머지 부분에 대하여, 보편성의 손실 없이 유도들을 단순화하기 위하여 원본 신호 컴포넌트 S가 단위 에너지를 갖는 것(즉,
Figure pct00120
)으로 가정될 수 있다. 디코더는 먼저 다음과 같이 채널 에너지들 C1 2/C2 2/C3 2/C4 2로부터
Figure pct00121
Figure pct00122
추정치들을 도출한다:
Figure pct00123
C3 및 C4 채널들의 최소 에너지(다시 말해서, min(C3 2, C4 2))가 입력 쿼드러플렛 C1/C2/C3/C4가 이전에 식별된 신호 모델 가정들을 깨뜨릴 때의 상황들을 처리하기 위하여 이상의 방정식들에서 사용된다는 것을 주의해야 한다. 신호 모델은 C3 및 C4의 에너지 레벨들이 서로 동일할 것이라고 가정한다. 그러나, 이것이 임의의 입력 신호 및 C3가 C4와 동일하지 않은 케이스가 아닌 경우, 출력 채널들 C1'/C2'/C3'/C4'/C5에 걸친 입력 신호의 재패닝을 제한하는 것이 바람직할 수 있다. 이는, 최소 출력 채널 C5를 합성하고, 출력 채널들 C1’/C2‘/C3’/C4’를 가능한 한 그들의 대응하는 입력 채널들 C1/C2/C3/C4와 유사하게 보존함으로써 달성될 수 있다. 본 섹션에서, C3 및 C4에 대한 최소 함수의 사용이 이러한 목적을 달성하려고 시도한다.
채널 에너지 비율들
다음의 에너지 비율들은 본 섹션의 나머지 부분 전체에 걸쳐 사용될 것이다:
Figure pct00124
이러한 4개의 에너지 비율들은 범위 [0,1] 내에 있으며, 합계하여 1이다.
C 5 채널 합성
출력 채널 C5는 다음의 방정식을 통해 생성될 것이다.
C5 = aC1 + bC2 + cC3 + dC4
여기에서, a, b, c, 및 d 계수들은 추정된 각도
Figure pct00125
및 반경
Figure pct00126
에 기초하여 결정될 것이다.
목표는 다음과 같다:
Figure pct00127
a = ea', b = eb', c = ec', 및 d = ed'라고 하면 다음과 같다:
Figure pct00128
Figure pct00129
이상의 대입들이 다음을 야기한다:
Figure pct00130
e에 대하여 풀면 다음과 같다:
Figure pct00131
따라서, a, b, c, 및 d 계수들은 다음과 같다:
Figure pct00132
또한, 최종 a, b, c, 및 d 계수들은 다음과 같은 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00133
Figure pct00134
C 1 '/C 2 '/C 3 '/C 4 ' 채널 합성
출력 채널들 C1'/C2'/C3'/C4'는, 출력 채널 C5 내에 이미 생성된 신호 컴포넌트들이 입력 채널들 C1/C2/C3/C4로부터 적절하게 "제거"될 수 있도록 입력 채널들 C1/C2/C3/C4로부터 생성될 것이다.
C 1 ' 채널 합성
C1' = aC1 - bC2 - cC3 - dC4
목표는 다음과 같다:
Figure pct00135
a 계수는 다음과 같다고 하자:
Figure pct00136
b = eb', c = ec', 및 d = ed'라고 하면 다음과 같다:
Figure pct00137
Figure pct00138
이상의 대입들이 다음을 야기한다:
Figure pct00139
e에 대하여 풀면 다음과 같다:
Figure pct00140
최종 a, b, c, 및 d 계수들은 다음과 같은 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00141
Figure pct00142
C 2 ' 채널 합성
C2' = aC2 - bC1 - cC3 - dC4
목표는 다음과 같다:
Figure pct00143
a 계수는 다음과 같다고 하자:
Figure pct00144
b = eb', c = ec', 및 d = ed'라고 하면 다음과 같다:
Figure pct00145
Figure pct00146
이상의 대입들이 다음을 야기한다:
Figure pct00147
e에 대하여 풀면 다음과 같다:
Figure pct00148
최종 a, b, c, 및 d 계수들은 다음과 같은 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00149
C 3 ' 채널 합성
C3' = aC3 - bC1 - cC2 - dC4
목표는 다음과 같다:
Figure pct00150
a 계수는 다음과 같다고 하자:
Figure pct00151
b = eb', c = ec', 및 d = ed'라고 하면 다음과 같다:
Figure pct00152
이상의 대입들이 다음을 야기한다:
Figure pct00153
e에 대하여 풀면 다음과 같다:
Figure pct00154
최종 a, b, c, 및 d 계수들은 다음과 같은 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00155
C 4 ' 채널 합성
C4' = aC4 - bC1 - cC2 - dC3
목표는 다음과 같다:
Figure pct00156
a 계수는 다음과 같다고 하자:
Figure pct00157
b = eb', c = ec', 및 d = ed'라고 하면 다음과 같다:
Figure pct00158
이상의 대입들이 다음을 야기한다:
Figure pct00159
e에 대하여 풀면 다음과 같다:
Figure pct00160
최종 a, b, c, 및 d 계수들은 다음과 같은 채널 에너지 비율들만으로 구성된 식들로 단순화될 수 있다:
Figure pct00161
쿼드러플렛 채널간 위상 차이(ICPD)
채널간 위상 차이(ICPD) 공간적 속성은 다음과 같이 기초 페어와이즈 ICPD 값들로부터의 쿼드러플렛에 대해 계산될 수 있다:
ICPD =
Figure pct00162
여기에서 기초 페어와이즈 ICPD 값들은 다음의 방정식을 사용하여 계산된다:
Figure pct00163
.
쿼드러플렛 신호 모델은 사운드 소스가 쿼드러플렛 채널들 상으로 진폭 패닝되었다는 것을 가정하며, 이는 4개의 채널들이 완전히 상관된다는 것을 의미한다는 것을 주의해야 한다. 쿼드러플렛 ICPD 측정은 4개의 채널들의 총 상관관계를 추정하기 위해 사용될 수 있다. 쿼드러플렛 채널들이 완전히 상관될 때 (또는 거의 완전히 상관될 때), 쿼드러플렛 프레임워크가 고도로 예측가능한 결과들을 갖는 5개의 출력 채널들을 생성하기 위해 이용될 수 있다. 쿼드러플렛 채널들이 상관되지 않을 때, 상관되지 않은 쿼드러플렛 채널들은 가정된 신호 모델을 위반하며 이는 예측할 수 없는 결과들을 야기할 수 있기 때문에 상이한 프레임 워크 또는 방법이 사용되는 것이 바람직할 수 있다.
V.G. 확장된 렌더링
코덱(400) 및 방법의 실시예들은 벡터 기반 진폭 패닝(vector-based amplitude panning; VBAP) 기술들의 신규한 확장을 사용하여 스피커 어레이를 통해 오디오 객체 파형들을 렌더링한다. 전통적인 VBAP 기술들은 단위 구 상에 임의의 수의 임의적으로 위치된 라우드스피커들을 사용하여 3차원 사운드 필드들을 생성한다. 단위 구 상의 반구가 청취자 위에 돔(dome)을 생성한다. VBAP를 이용하면, 생성될 수 있는 대부분의 정위가능(localizable) 사운드는 어떤 삼각형 배열을 표시하는 최대 3개의 채널들로부터 비롯된다. 우연히도 사운드가 2개의 스피커들 사이의 라인 상에 놓인 지점으로부터 비롯되는 경우, VBAP는 단지 이러한 2개의 스피커들을 사용할 것이다. 사운드가 스피커가 위치된 위치로부터 비롯되는 것으로 추정되는 경우, VBAP는 단지 하나의 스피커를 사용할 것이다. 따라서, VBAP는 사운드를 재현하기 위하여 최대 3개의 스피커들 및 최소 1개의 스피커를 사용한다. 재생 환경은 3개를 초과하는 스피커들을 가질 수 있지만, VBAP 기술은 이러한 스피커들 중 단지 3개만을 사용하여 사운드를 재현한다.
코덱(400) 및 방법의 실시예들에 의해 사용되는 확장된 렌더링 기술은 단위 구 밖의 오디오 객체들을 단위 구 내의 임의의 지점으로 렌더링한다. 예를 들어, 3개의 스피커들을 사용하여 삼각형이 생성된다고 가정하자. 3개의 스피커들을 사용하기 위한 이러한 방법들을 확장하고, 라인을 따라 일 지점에 소스를 위치시키는 전통적인 VBAP 방법들을 확장함으로써, 소스는 이러한 3개의 스피커들에 의해 형성된 삼각형 내에서 어디에든지 위치될 수 있다. 렌더링 엔진의 목표는, 인접 스피커들로의 최소량의 누설을 가지고 이러한 기하구조에 의해 생성된 3D 벡터들을 따라 정확한 위치에서 사운드를 생성하기 위한 이득 어레이를 찾는 것이다.
도 23은 재생 환경(485) 및 확장된 렌더링 기술의 예시이다. 청취자(100)는 단위 구(2300) 내에 위치된다. 단위 구(2300)의 절반(반구)만이 도시되었지만, 확장된 렌더링 기술들이 완전한 단위 구(2300) 상의 그리고 그 안의 렌더링을 지원한다는 것을 주의해야 한다. 도 23은 또한, 방사상 거리 r, 방위각 각도 q, 및 편각(polar angle) j를 포함하여 사용되는 구형 좌표계 x-y-z를 예시한다.
멀티플렛들 및 구가 비트스트림 내의 모든 파형들의 위치를 커버해야만 한다. 이러한 아이디어는 필요한 경우 4개 이상의 스피커들로 확장될 수 있으며, 그에 따라 단위 구(2300)의 반구 상의 공간 내의 정확한 위치를 달성하기 위해 그 안에서 작용하기 위한 직사각형들 또는 다른 다각형들을 생성한다.
DTS-UHD 렌더링 엔진은 임의의 라우드스피커 레이아웃들로의 포인트 및 확장된 소스들의 3D 패닝을 수행한다. 포인트 소스는 마치 이것이 공간 내의 하나의 특정한 스팟으로부터 비롯되는 것처럼 들리고, 반면 확장된 소스들은 '폭', 및/또는 '깊이'를 갖는 사운드들이다. 소스의 공간적 확장에 대한 지원은 확장된 사운드의 영역을 커버하는 가상 소스들의 기여들을 모델링하는 것을 이용하여 이루어진다.
도 24는 확장된 렌더링 기술을 사용하는 단위 구(2300) 내의 그리고 단위 구 상의 오디오 소스들의 렌더링을 예시한다. 오디오 소스들은 이러한 단위 구(2300) 내에 또는 이러한 단위 구 상에 어디에든지 위치될 수 있다. 예를 들어, 제 1 오디오 소스는 단위 구 상에(2400) 위치될 수 있으며, 반면 제 2 오디오 소스(2410) 및 제 3 오디오 소스는 확장된 렌더링 기술을 사용함으로써 단위 구 내에 위치될 수 있다.
확장된 렌더링 기술은 청취자(100)를 둘러싸는 단위 구(2300) 상에 존재하는 포인트 또는 확장된 소스들을 렌더링한다. 그러나, 단위 구(2300) 내부에 존재하는 포인트 소스들에 대하여, 소스들은 단위 구(2300)에서 멀어지도록 이동되어야만 한다. 확장된 렌더링 기술은 객체들을 단위 구(2300)에서 멀어지도록 이동시키기 위해 3개의 방법들을 사용한다.
첫째로, 파형이 VBAP(또는 유사한) 기술을 사용하여 단위 구(2300) 상에 위치되면, 사운드를 반경 r을 따라서 끌어 당기기 위하여 이것이 단위 구(2300)의 중심에 위치된 소스와 크로스 페이딩(cross fade)된다. 시스템 내의 모든 스피커들이 크로스 페이딩을 수행하기 위하여 사용된다.
둘째로, 상승형 소스들에 대하여, 사운드는 청취자(100)에게 그것이 더 가깝게 이동하고 있다는 느낌을 주기 위하여 수직 평면에서 연장된다. 사운드를 수직적으로 연장하기 위해 요구되는 스피커들만이 사용된다. 셋째로, 제로(0) 높이를 가지거나 또는 가지지 않을 수 있는 수평 평면 내의 소스들에 대하여, 사운드는 청취자(100)에게 그것이 더 가깝게 이동하고 있다는 느낌을 주기 위하여 다시 수직적으로 연장된다. 액티브 스피커(active speaker)들만이 연장을 수행하도록 요구되는 것들이다.
V.H. 잔존 채널들의 예시적인 선택
입력 레이아웃의 카테고리가 주어지면, 선택된 수의 잔존 채널들(M) 및 다음의 규칙들이 실제 입력 레이아웃과 무관한 고유한 방식으로 각각의 비잔존 채널의 매트릭싱을 지정한다. 도 22 내지 도 25는 잔존 레이아웃 내에 존재하지 않는 입력 레이아웃 내의 임의의 스피커들에 대한 매트릭스 멀티플렛들의 매핑을 나타내는 룩업 테이블들이다.
다음의 규칙들이 도 25 내지 도 28에 적용된다는 것을 주의해야 한다. 입력 레이아웃은 5개의 카테고리들로 분류된다.
1. 높이 채널들을 갖지 않는 레이아웃들;
2. 전방에서만 높이 채널들을 갖는 레이아웃들;
3. (2개의 높이 스피커들 사이의 간격이 > 180°이지 않는) 둘러싸는 높이 채널들을 갖는 레이아웃들
4. 둘러싸는 높이 채널들 및 오버헤드 채널을 갖는 레이아웃들;
5. 둘러싸는 높이 채널들, 오버헤드 채널, 및 청취자 평면 아래의 채널들을 갖는 레이아웃들.
이에 더하여, 각각의 비잔존 채널은 잔존 채널들의 쌍 사이에서 페어와이즈 매트릭싱된다. 일부 시나리오들에 있어, 잔존 채널들의 트리플렛, 쿼드러플렛, 또는 더 큰 그룹이 단일의 비잔존 채널을 매트릭싱하기 위해 사용될 수 있다. 또한 가능하면 언제라도 잔존 채널들의 쌍이 유일한 단 하나의 비잔존 채널을 매트릭싱하기 위해 사용된다.
높이 채널들이 입력 채널 레이아웃에 존재하는 경우, 적어도 하나의 높이 채널이 잔존 채널들 사이에 존재할 것이다. 적절하다면 언제든지 각각의 라우드스피커 링 내의 적어도 3개의 둘러싸는 잔존 채널들이 사용되어야 한다(청취자 평면 링 및 상승된 평면 링에 적용된다).
객체 포함이 없거나 또는 내장된 다운믹싱이 요구되지 않을 때, 제안된 접근방식의 최적화를 위한 다른 가능성들이 존재한다. 첫째, 비잔존 채널들이 아주 제한된 대역폭(예를 들어, Fc=3 kHz)을 가지고 인코딩될 수 있다(이러한 시나리오에서 이들 중 N-M은 "준(quasi) 잔존 채널들"로서 지칭될 것이다). 둘째, Fc 이상의 "준 잔존 채널들" 내의 컨텐츠는 선택된 잔존 채널들 상으로 매트릭싱되어야 한다. 셋째, "준 잔존 채널들"의 낮은 대역들 및 잔존 채널들의 모든 대역들이 인코딩되고 스트림 내에 패킹된다.
이상의 최적화는 계속해서 비트레이트의 상당한 감소를 가지면서 공간적 정확성에 대한 최소한의 충격을 허용한다. 디코더 MIPS를 관리하기 위하여, 디코더 서브대역 샘플들이 디매트릭싱 합성 필터 뱅크 내로 삽입될 수 있도록 디매트릭싱을 위한 시간 주파수 표현의 신중한 선택이 요구된다. 반면, 디매트릭싱이 Fc 아래에서 적용되지 않기 때문에, 디매트릭싱을 위해 요구되는 주파수 분해능에 대한 완환가 가능하다.
V.I. 추가적인 정보
이상의 논의에 있어서, "재패닝"은, 이에 의해 다운믹싱된 채널들을 초과하는 번호의 별개의 채널들(N>M)이 개별적인 채널 세트 내의 다운믹싱으로부터 복원되는 업믹싱 동작을 지칭한다는 것이 이해되어야만 한다. 바람직하게, 이는 각각의 세트에 대하여 복수의 인지적으로 임계적인 서브대역들 각각에서 수행된다.
이러한 방법으로부터의 최적의 또는 거의 최적의 결과들은, 채널 기하구조가 녹음하는 예술가 또는 엔지니어에 의해 (소프트웨어 또는 하드웨어를 통해 명시적으로 또는 암시적으로) 가정될 때 및 이에 더하여 기하구조 및 가정된 채널 구성들 및 다운믹싱 파라미터들이 어떤 수단에 의해 디코더/수신기로 통신될 때 가장 잘 근사화될 것이라는 것이 이해되어야만 한다. 다시 말해서, 원본 녹음이 이상에서 기술된 매트릭싱 방법들에 따라 7.1 채널 다운믹싱으로 믹스되는 특정 마이크로폰/스피커 기하구조에 기초하여 22 채널 별개 믹스를 사용했던 경우, 이러한 상정들이 상보적인 업믹싱을 허용하기 위하여 어떤 수단에 의해 수신기/디코더로 통신되어야만 한다.
하나의 방법은 상정된 원본 기하구조 및 다운믹싱 구성(구성 X의 높이 채널들을 갖는 22---통상적인 배열의 7.1로의 다운믹싱)을 파일 헤더들 내에서 통신할 것이다. 이는 단지 최소량의 데이터 대역폭 및 저빈도(infrequent) 실시간 업데이트만을 요구한다. 파라미터들은, 예를 들어, 현존하는 오디오 포맷들의 예비 필드들 내로 멀티플렉싱될 수 있다. 클라우드 저장, 웹사이트 액세스, 사용자 입력, 및 유사한 것을 포함하는 다른 방법들이 이용가능하다.
코덱(400) 및 방법의 일부 실시예들에 있어, 업믹싱 시스템(600)(또는 디코더)은 원본 오디오 신호 및 채널 감소형 오디오 신호 둘 모두의 채널 레이아웃들 및 믹싱 계수들을 안다. 채널 레이아웃들 및 믹싱 계수들의 지식은, 업믹싱 시스템(600)이 채널 감소형 오디오 신호를 다시 원본 오디오 신호의 적절한 근사로 정확하게 디코딩하는 것을 허용한다. 채널 레이아웃들 및 믹싱 계수들의 지식이 없으면, 업믹서는 원본 오디오 채널들의 적절한 근사들을 생성하기 위해 요구되는 정확한 디코더 기능들 또는 목표 출력 채널 레이아웃을 결정하는 것이 불가능할 것이다.
일 예로서, 원본 오디오 신호가 다음의 채널 위치들에 대응하는 15개의 채널들로 구성될 수 있다: 1) 중심, 2) 전방 좌측, 3) 전방 우측, 4) 좌측 측면 서라운드, 5) 우측 측면 서라운드, 6) 좌측 서라운드 후방, 7) 우측 서라운드 후방, 8) 중심의 좌측, 9) 중심의 우측, 10) 중심 높이, 11) 좌측 높이, 12) 우측 높이, 13) 중심 높이 후방, 14) 좌측 높이 후방, 및 15) 우측 높이 후방. 대역폭 제한들(또는 어떤 다른 동기)에 기인하여, 이러한 고 채널 카운트 오디오 신호를 8개의 채널들로 구성되는 채널 감소형 오디오 신호로 감소시키는 것이 바람직할 수 있다.
다운믹싱 시스템(500)은 원래의 15개의 채널들을 다음의 채널 위치들로 구성되는 8개 채널 오디오 신호로 인코딩하도록 구성될 수 있다: 1) 중심, 2) 전방 좌측, 3) 전방 우측, 4) 좌측 서라운드, 5) 우측 서라운드, 6) 좌측 높이, 7) 우측 높이, 및 8) 중심 높이 후방. 다운믹싱 시스템(500)은, 원본 15개 채널 오디오 신호를 다운믹싱할 때 다음의 믹싱 계수들을 사용하도록 추가적으로 구성될 수 있다:
Figure pct00164
여기에서 상단 로우들은 원본 채널들에 대응하며, 최좌측 컬럼은 다운믹싱된 채널들에 대응하고, 수치적 계수들은 각각의 원본 채널이 각각의 다운믹싱된 채널에 기여하는 믹싱 가중치들에 대응한다.
이상의 예시적인 시나리오에 대하여, 업믹싱 시스템(600)이 채널 감소형 신호로부터 원본 오디오 신호의 근사를 최적으로 또는 거의 최적으로 디코딩하기 위하여, 업믹싱 시스템(600)은 원본 및 다운믹싱된 채널 레이아웃들(즉, 각기, C,FL,FR,LSS,RSS,LSR,RSR,LoC,RoC,CH,LH,RH,CHR,LHR,RHR 및 C,FL,FR,LS,RS,LH,RH,CHR) 및 다운믹싱 프로세스 동안 사용된 믹싱 계수들(즉, 이상의 믹싱 계수 매트릭스)의 지식을 가질 수 있다. 이러한 정보의 지식을 가지면, 업믹싱 시스템이 사용된 실제 다운믹싱 구성을 완전히 알 것이기 때문에, 업믹싱 시스템(600)은 이상에서 기술된 매트릭싱/디매트릭싱 수학적 프레임워크들을 사용하여 각각의 출력 채널에 대해 요구되는 디코딩 기능들을 정확하게 결정할 수 있다. 예를 들어, 업믹싱 시스템(600)은 다운믹싱된 LS 및 RS 채널들로부터 출력 LSR 채널을 디코딩해야 한다는 것을 알 것이며, 업믹싱 시스템이 또한 별개의 LSR 채널 출력을 암시할 LS 및 RS 채널들 사이의 상대적인 채널 레벨들(즉, 각기 0.924 및 0.383)을 알 것이다.
업믹싱 시스템(600)이 원본 및 채널 감소형 오디오 신호들에 대한 관련된 채널 레이아웃 및 믹싱 계수 정보를 획득할 수 없는 경우, 예를 들어, 데이터 채널이 다운믹싱 시스템(500)으로부터 업믹서로 이러한 정보를 송신하기 위해 이용가능하지 않은 경우 또는 수신된 오디오 신호가 이러한 정보가 결정되지 않거나 알려지지 않은 레거시 또는 비다운믹싱된 신호인 경우, 업믹싱 시스템(600)에 대해 적절한 디코딩 기능들을 선택하기 위해 휴리스틱스(heuristics)를 사용함으로써 만족스러운 업믹싱을 수행하는 것이 여전히 가능할 수 있다. 이러한 "블라인드 업믹싱" 케이스들에 있어서, 적절한 디코딩 기능들을 결정하기 위하여 채널 감소형 레이아웃 및 목표 업믹싱된 레이아웃의 기하구조를 사용하는 것이 가능할 수 있다.
예로서, 주어진 출력 채널에 대한 디코딩 기능은 입력 채널들의 한 쌍 사이에서 최근접 라인 세그먼트에 관하여 그 출력 채널들의 위치를 비교함으로써 결정될 수 있다. 예를 들어, 주어진 출력 채널이 입력 채널들의 한 쌍 사이에 정비례적으로(directly) 놓이는 경우, 그 쌍으로부터 동일한 강도의 공통 신호 컴포넌트들을 출력 채널 내로 추출하는 것이 결정될 수 있다. 유사하게, 주어진 출력 채널이 입력 채널들 중 하나에 더 가깝게 놓이는 경우, 디코딩 기능은 이러한 기하구조를 통합하고 더 가까운 채널에 대해 더 큰 강도를 지지할 수 있다. 대안적으로, 적절한 디코딩 기능들을 결정하기 위하여 오디오 신호의 녹음, 믹싱 또는 생산에 대한 가정들을 사용하는 것이 가능할 수 있다. 예를 들어, 높이 채널 컴포넌트들이 예컨대 영화로부터의 "플라이오버(flyover)" 효과 동안 7.1 오디오 신호의 전방 및 후방 채널 쌍들(즉, L-Lsr 및 R-Rsr 쌍들)에 걸쳐 패닝되었을 수 있다는 가정과 같은, 특정 채널들 사이의 관계들에 대한 가정들을 세우는 것이 적절할 수 있다.
또한, 다운믹싱 시스템(500) 및 업믹싱 시스템(600)에서 사용되는 오디오 채널들이 반드시 특정 스피커 위치에 대해 의도된 실제 스피커 공급 신호들과 일치해야 하지는 않을 수 있다는 것이 이해되어야만 한다. 코덱(400) 및 방법의 실시예들은 또한 소위 "객체 오디오" 포맷들에 적용가능하며, 여기에서 오디오 객체는 공간적 위치, 이득, 이퀄라이제이션, 잔향, 확산 등과 같은 수반되는 메타데이터 정보를 가지고 독립적으로 저장되고 송신되는 별개의 사운드 신호에 대응한다. 일반적으로, 객체 오디오 포맷은, 인코더로부터 디코더로 동시에 송신될 것이 요구되는 다수의 동기화된 오디오 객체들로 구성될 것이다.
데이터 대역폭이 제한된 시나리오들에 있어, 다수의 동시적인 오디오 객체들의 존재는 각각의 별개의 오디오 객체 파형으로 개별적으로 인코딩해야 하는 필요성에 기인하여 문제들을 야기할 수 있다. 이러한 케이스에 있어, 코덱(400) 및 방법의 실시예들이 인코딩되도록 요구되는 오디오 객체 파형들의 수를 감소시키기 위해 적용될 수 있다. 예를 들어, 객체 기반 신호 내에 N개의 오디오 객체들이 존재하는 경우, 코덱(400) 및 방법의 실시예들의 다운믹싱 프로세스가 객체들의 수를 M으로 감소시키기 위해 사용될 수 있으며, 여기에서 N은 M보다 더 크다. 그런 다음 압축 기법이 이러한 M개의 객체들을 인코딩할 수 있으며, 이는 원래의 N개의 객체들이 요구했었을 데이터 대역폭보다 더 작은 데이터 대역폭을 요구한다.
디코더 측에서, 원래의 N개의 오디오 객체들의 근사를 복원하기 위해 업믹싱 프로세스가 사용될 수 있다. 그런 다음, 렌더링 시스템이 수반된 메타데이터 정보를 사용하여 이러한 오디오 객체들을 채널 기반 오디오 신호로 렌더링할 수 있으며, 여기에서 각각의 채널이 실제 재생 환경 내의 스피커 위치에 대응한다. 예를 들어, 일반적인 렌더링 방법은 벡터 기반 진폭 패닝 또는 VBAP이다.
VI. 대안적인 실시예들 및 예시적인 동작 환경
본원에서 설명된 것들 이외의 다수의 다른 변형예들이 본 문서로부터 자명해질 것이다. 예를 들어, 실시예에 의존하여, 본원에서 설명된 방법들 및 알고리즘들 중 임의의 것의 특정 행위들, 이벤트들 또는 기능들이 상이한 시퀀스로 수행될 수 있거나, 부가될 수 있거나, 병합될 수 있거나, 또는 (방법들 및 알고리즘들을 실시하기 위해 설명된 행위들 또는 이벤트들 전부가 필수적이지는 않도록) 전적으로 배제될 수 있다. 또한, 특정 실시예들에 있어, 행위들 또는 이벤트들은, 예컨대 멀티 쓰레드 프로세싱, 인터럽트 프로세싱, 또는 다중 프로세서들 또는 프로세서 코어들을 통해서 또는 다른 병렬 아키텍처들 상에서 순차적으로가 아니라 동시에 수행될 수 있다. 이에 더하여, 상이한 태스크들 또는 프로세스들이 함께 기능할 수 있는 상이한 머신들 및 컴퓨팅 시스템들에 의해 수행될 수 있다.
본원에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리적 블록들, 모듈들, 방법들, 및 알고리즘 프로세스들은 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들 둘 모두의 조합으로서 구현될 수 있다. 하드웨어 및 소프트웨어의 이러한 호환성을 명확하게 예시하기 위하여, 다양한 예시적인 컴포넌트들, 블록들, 모듈들, 및 프로세스 액션들이 이상에서 그들의 기능성과 관련하여 일반적으로 설명되었다. 이러한 기능성이 하드웨어로서 또는 소프트웨어로서 구현되는지 여부는 전체 시스템에 부과되는 설계 제약들 및 특정 애플리케이션에 의존한다. 설명된 기능성은 각각의 특정 애플리케이션에 대하여 다양한 방식들로 구현될 수 있지만, 이러한 구현 결정들이 본 문서의 범위로부터의 이탈을 야기하는 것으로서 해석되지 않아야 한다.
본원에 개시된 실시예들과 관련하여 설명된 다양한 예시적인 논리적 블록들 및 모듈들은 머신, 예컨대 범용 프로세서, 프로세싱 디바이스, 하나 이상의 프로세싱 디바이스들을 갖는 컴퓨팅 디바이스, 디지털 신호 프로세서(digital signal processor; DSP), 애플리케이션 특정 집적 회로(application specific integrated circuit; ASIC), 필드 프로그램가능 게이트 어레이(field programmable gate array; FPGA) 또는 다른 프로그램가능 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트들, 또는 본원에서 설명된 기능들을 수행하도록 설계된 이들의 임의의 조합에 의해 구현되거나 또는 수행될 수 있다. 범용 프로세서 및 프로세싱 디바이스는 마이크로프로세서일 수 있지만, 대안예들에 있어, 프로세서는 제어기, 마이크로제어기, 또는 상태 머신, 이들의 조합들, 또는 유사한 것일 수 있다. 프로세서는 또한 컴퓨팅 디바이스들의 조합으로서, 예컨대 DSP 및 마이크로프로세서, 복수의 마이크로프로세서들, DSP 코어와 함께 하나 이상의 마이크로프로세서들의 조합으로서, 또는 임의의 다른 이러한 구성으로서 구현될 수 있다.
본원에서 설명된 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들은 다수의 유형들의 범용 또는 전용 컴퓨팅 시스템 환경들 또는 구성들 내에서 동작가능하다. 일반적으로, 컴퓨팅 환경은, 몇 가지만 예를 들면, 비제한적으로 하나 이상의 마이크로프로세서들에 기반하는 컴퓨터 시스템, 메인프레임 컴퓨터, 디지털 신호 프로세서, 휴대용 컴퓨팅 디바이스, 개인용 전자수첩, 디바이스 제어기, 전기기기 내의 연산 엔진, 모바일 폰, 데스크탑 컴퓨터, 모바일 컴퓨터, 태블릿 컴퓨터, 스마트폰, 및 내장된 컴퓨터를 갖는 전자기기를 포함하는 임의의 유형의 컴퓨터 시스템을 포함할 수 있다.
이러한 컴퓨팅 디바이스들은, 비제한적으로, 개인용 컴퓨터들, 서버 컴퓨터들, 핸드 헬드(hand-held) 컴퓨팅 디바이스들, 랩탑 또는 모바일 컴퓨터들, 셀 폰들 및 PDA들과 같은 통신 디바이스들, 다중프로세서 시스템들, 마이크로프로세서 기반 시스템들, 셋탑 박스들, 프로그램가능 가전기기들, 네트워크 PC들, 미니컴퓨터들, 메인프레임 컴퓨터들, 오디오 또는 비디오 매체 플레이어들, 등을 포함하는 적어도 어떤 최소 연산 능력을 갖는 디바이스들에서 전형적으로 발견될 수 있다. 일부 실시예들에 있어, 컴퓨팅 디바이스들은 하나 이상의 프로세서들을 포함할 것이다. 각각의 프로세서는 전용 마이크로프로세서, 예컨대 디지털 신호 프로세서(DSP), 훨씬 긴 명령어(very long instruction word; VLIW), 또는 다른 마이크로 제어기일 수 있거나, 또는, 다중 코어 CPU 내의 전용 그래픽 프로세싱 유닛(graphics processing unit; GPU) 기반 코어들을 포함하는 하나 이상의 프로세싱 코어들을 갖는 통상적인 중앙 프로세싱 유닛(central processing unit; CPU)들일 수 있다.
본원에 개시된 실시예들과 관련하여 설명된 방법, 프로세스, 또는 알고리즘의 프로세스 액션들은 하드웨어로 직접적으로, 프로세서에 의해 실행되는 소프트웨어 모듈로, 또는 이들 둘의 임의의 조합으로 구현될 수 있다. 소프트웨어 모듈은 컴퓨팅 디바이스에 의해 액세스될 수 있는 컴퓨터 판독가능 매체 내에 포함될 수 있다. 컴퓨터 판독가능 매체는, 착탈가능, 비착탈가능, 또는 이들의 어떤 조합인 휘발성 및 비휘발성 매체 둘 모두를 포함한다. 컴퓨터 판독가능 매체는, 컴퓨터 판독가능 또는 컴퓨터 실행가능 명령어들, 데이터 구조들, 프로그램 모듈들, 또는 다른 데이터와 같은 정보를 저장하기 위해 사용된다. 예시적으로 그리고 비제한적으로, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.
컴퓨터 저장 매체는, 비제한적으로, 컴퓨터 또는 머신 판독가능 매체 또는 저장 디바이스들, 예컨대 블루레이 디스크(Bluray disc; BD)들, 디지털 다기능 디스크(digital versatile disc; DVD)들, 콤팩트 디스크(compact disc; CD)들, 플로피 디스크들, 테이프 드라이브들, 하드 드라이브들, 광 드라이브들, 고체 상태 메모리 디바이스들, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트들, 자기 테이프들, 자기 디스크 저장장치, 또는 다른 자기 저장 디바이스들, 또는 희망되는 정보를 저장하기 위해 사용될 수 있고 하나 이상의 컴퓨팅 디바이스들에 의해 액세스될 수 있는 임의의 다른 디바이스들을 포함한다.
소프트웨어 모듈은, RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 착탈가능 디스크, CD-ROM, 또는 임의의 다른 형태의 비일시적 컴퓨터 판독가능 저장 매체, 매체들, 또는 당업계에서 공지된 물리적 컴퓨터 저장장치 내에 존재할 수 있다. 예시적인 저장 매체는, 프로세서가 저장 매체로부터 정보를 판독하고, 저장 매체로 정보를 기입할 수 있도록 프로세서에 연결될 수 있다. 대안예에 있어, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 애플리케이션 특정 집적 회로(ASIC) 내에 존재할 수 있다. ASIC은 사용자 단말 내에 존재할 수 있다. 대안적으로, 프로세서 및 저장 매체는 사용자 단말 내의 별개의 컴포넌트들로서 존재할 수 있다.
본 문서에서 사용되는 바와 같은 문구 "비일시적"은 "영구적이거나 또는 긴수명"을 의미한다. 문구 "비일시적인 컴퓨터 판독가능 매체"는 일시적인 전파하는 신호만을 제외하고 임의의 그리고 모든 컴퓨터 판독가능 매체를 포함한다. 이는, 예시적이고 비제한적으로, 비일시적 컴퓨터 판독가능 매체, 예컨대 레지스터 메모리, 프로세서 캐시 및 랜덤 액세스 메모리(RAM)을 포함한다.
컴퓨터 판독가능 또는 컴퓨터 실행가능 명령어들, 데이터 구조들, 프로그램 모듈들, 등과 같은 정보의 보유는 또한, 다양한 하나 이상의 변조된 데이터 신호들을 인코딩하기 위한 통신 매체, 전자기파들(예컨대 반송파들), 또는 다른 전송 메커니즘들 또는 통신 프로토콜들을 사용함으로써 달성될 수 있으며, 이는 임의의 유선 또는 무선 정보 전달 메커니즘을 포함한다. 일반적으로, 이러한 통신 매체는 그것의 특성 세트 중 하나 이상을 가지거나 또는 신호 내에 명령어들 또는 정보를 인코딩하는 것과 같은 방식으로 변경된 신호를 지칭한다. 예를 들어, 통신 매체는, 하나 이상의 변조된 데이터 신호들을 운반하는 유선 네트워크 또는 직접 유선 연결과 같은 유선 매체, 및 음향, 라디오 주파수(radio frequency; RF), 적외선, 레이저 및 하나 이상의 변조된 데이터 신호들 또는 전자기파들을 송신하거나, 수신하거나, 또는 이들 둘 모두를 위한 다른 무선 매체와 같은 무선 매체를 포함한다. 이상의 것들 중 임의의 조합들이 또한 통신 매체의 범위 내에 포함되어야 할 것이다.
또한, 본원에서 설명된 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 다양한 실시예들 중 일부 또는 전부를 구현하는 소프트웨어, 프로그램들, 컴퓨터 프로그램 제품들 또는 이들의 부분들은, 컴퓨터 실행가능 명령어 또는 다른 데이터 구조들의 형태로 저장되거나, 수신되거나, 송신되거나, 또는, 컴퓨터 또는 기계 판독가능 매체 또는 저장 디바이스들 및 통신 매체의 임의의 희망되는 조합으로부터 판독될 수 있다.
본원에서 설명된 멀티플렛 기반 공간적 매트릭싱 코덱(400) 및 방법의 실시예들은, 컴퓨팅 디바이스에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행가능 명령어들의 일반적인 맥락에서 추가적으로 설명될 수 있다. 일반적으로, 프로그램 모듈들은 루틴들, 프로그램들, 객체들, 컴포넌트들, 데이터 구조들 등을 포함하며, 이들은 특정한 태스크들을 수행하거나 또는 특정한 추상적인 데이터 유형들을 구현한다. 본원에서 설명된 실시예들은 또한, 태스크들이 하나 이상의 원격 프로세싱 디바이스들에 의해 수행되는 분산형 컴퓨팅 환경들에서 또는 하나 이상의 통신 네트워크들을 통해 링크된 하나 이상의 디바이스들의 클라우드 내에서 실행될 수 있다. 분산형 컴퓨팅 환경에서, 프로그램 모듈들은 매체 저장 디바이스들을 포함하는 로컬 및 원격 컴퓨터 저장 매체 둘 모두에 위치될 수 있다. 더 나아가, 전술된 명령어들은, 부분적으로 또는 전체적으로, 프로세서를 포함하거나 또는 포함하지 않을 수 있는 하드웨어 논리 회로들로서 구현될 수 있다.
본원에서 사용된 조건부 표현, 예컨대 다른 것들 중에서도, "할 수 있는", "일 수 있던", "일 수 있는", "예를 들어", 및 유사한 것은, 특별히 달리 언급되거나 또는 사용된 문맥 내에서 달리 이해되지 않는 한, 일반적으로 다른 실시예들은 포함하지 않지만 특정 실시예들이 특정 특징들, 엘러먼트들 및/또는 상태들을 포함한다는 것을 전달하도록 의도된다. 따라서, 이러한 조건부 표현은 일반적으로, 특징들, 엘러먼트들, 및/또는 상태들이 임의의 방식으로 하나 이상의 실시예들에 대해 요구된다는 것 또는 하나 이상의 실시예들이 필수적으로 저자 입력 또는 프람프팅(prompting)을 갖거나 또는 저자 입력 또는 프람프팅을 갖지 않는 결정을 위한 로직을 포함한다는 것, 이러한 특징들, 엘러먼트들, 및/또는 상태들이 임의의 특정 실시예에 포함되는지 여부 또는 수행되는지 여부를 암시하도록 의도되지 않는다. 용어들 "구성되는", "포함하는", "갖는" 및 유사한 것은 동의어들이며, 개방적인 방식으로 포괄적으로 사용되고, 추가적인 엘러먼트들, 특징들, 행위들, 동작들 등을 배제하지 않는다. 또한, 용어 "또는"은, 예를 들어, 엘러먼트들의 목록과 관련되어 사용될 때, 용어 "또는"이 목록 내의 엘러먼트들 중 하나, 일부, 또는 전부를 의미하도록 그것의 포괄적인 뜻으로 사용된다.
이상에서 상세한 설명이 다양한 실시예들에 적용되는 바와 같은 신규한 특징들을 도시하고, 설명하며, 언급하였지만, 예시된 디바이스들 또는 알고리즘들의 형태 및 세부사항들에 있어서 다양한 생략들, 대체들, 및 변경들이 본 개시의 사상으로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 인식될 바와 같이, 본원에서 설명된 발명들의 특정 실시예들은, 일부 특징들이 서로 별개로 사용되거나 또는 실행될 수 있음에 따라, 본원에서 기술된 특징들 및 장점들의 전부를 제공하지는 않는 형태 내에서 구현될 수 있다.
또한, 내용이 구조적 특징들 및 방법론적 행위들에 특유한 표현으로 설명되었지만, 청부된 청구항들에서 정의되는 내용이 반드시 이상에서 설명된 특정 특징들 또는 행위들에 한정되지 않는다는 것이 이해되어야 한다. 오히려, 이상에서 설명된 특정 특징들 및 행위들은 청구항들을 구현하는 예시적인 형태들로서 개시된다.

Claims (20)

  1. N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법으로서,
    희망되는 비트레이트에 기초하여 다운믹싱된 출력 오디오 신호에 대한 M개의 채널들을 선택하는 단계로서, N 및 M은 0이 아닌 양의 정수들이고, N은 M보다 더 큰, 상기 M개의 채널들을 선택하는 단계;
    M개의 멀티플렛(multiplet) 인코딩된 채널들을 포함하는 펄스 코드 변조(pulse code modulation; PCM) 베드 믹스(bed mix)를 획득하기 위하여 상기 하나 이상의 프로세싱 디바이스들 및 멀티플렛 팬 법칙(pan law)들의 조합을 사용하여 상기 N개의 채널들을 M개의 채널들로 다운믹싱하고 인코딩하는 단계;
    상기 PCM 베드 믹스를 상기 희망되는 비트레이트로 또는 그 아래의 비트레이트로 송신하는 단계;
    상기 복수의 M개의 멀티플렛 인코딩된 채널들을 분리하는 단계;
    상기 M개의 멀티플렛 인코딩된 채널들로부터 상기 N개의 채널들을 추출하고 N개의 채널들을 갖는 결과적인 출력 오디오 신호를 획득하기 위하여, 상기 하나 이상의 프로세싱 디바이스들 및 상기 멀티플렛 팬 법칙들의 조합을 사용하여 상기 M개의 멀티플렛 인코딩된 채널들의 각각을 업믹싱하고 디코딩하는 단계; 및
    재생 채널 레이아웃(layout)을 갖는 재생 환경에서 상기 결과적인 출력 오디오 신호를 렌더링하는 단계
    를 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  2. 제 1 항에 있어서,
    다운믹싱하고 인코딩하는 단계는, 쿼드러플렛(quadruplet) 인코딩된 채널을 획득하기 위하여 상기 N개의 채널들 중 하나의 채널을 상기 M개의 채널들 중 4개의 채널들 상으로 다운믹싱하고 인코딩하기 위한 쿼드러플렛 팬 법칙을 사용하는 단계를 더 포함하는 것인, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  3. 제 1 항에 있어서,
    다운믹싱하고 인코딩하는 단계는, 트리플렛(triplet) 인코딩된 채널을 획득하기 위하여 상기 N개의 채널들 중 하나의 채널을 상기 M개의 채널들 중 3개의 채널들 상으로 다운믹싱하고 인코딩하기 위한 트리플렛 팬 법칙과 결합하여 쿼드러플렛 인코딩된 채널을 획득하기 위하여 상기 N개의 채널들 중 하나의 채널을 상기 M개의 채널들 중 4개의 채널들 상으로 다운믹싱하고 인코딩하기 위한 쿼드러플렛 팬 법칙을 사용하는 단계를 더 포함하는 것인, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  4. 제 3 항에 있어서,
    상기 쿼드러플렛 인코딩된 채널에서 사용된 상기 4개의 M 채널들 중 적어도 일부는, 상기 트리플렛 인코딩된 채널에서 사용된 상기 3개의 M 채널들과 동일한 것인, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  5. 제 1 항에 있어서,
    컨텐츠 생성 환경 채널 레이아웃을 갖는 컨텐츠 생성 환경에서 오디오 컨텐츠를 믹싱하는 단계; 및
    M개의 멀티플렛 인코딩된 채널들을 포함하는 상기 PCM 베드 믹스 및 상기 컨텐츠 생성 환경 채널 레이아웃을 비트스트림 내로 멀티플렉싱하고 상기 비트스트림을 상기 희망되는 비트레이트로 또는 그 아래의 비트레이트로 송신하는 단계
    를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  6. 제 1 항에 있어서,
    상기 컨텐츠 생성 환경 채널 레이아웃에 대한 카테고리를 획득하기 위하여 상기 입력 오디오 신호의 상기 N개의 채널들의 상기 컨텐츠 생성 환경 채널 레이아웃을 카테고리화하는 단계; 및
    상기 카테고리 및 룩업(lookup) 테이블에 기초하여 추출된 멀티플렛 인코딩된 채널들을 상기 재생 채널 레이아웃에 매핑하는 단계
    를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  7. 제 6 항에 있어서,
    상기 컨텐츠 생성 환경 채널 레이아웃을 다음의 5개의 카테고리들 중 하나 이상으로 카테고리화하는 단계를 더 포함하며,
    상기 5개의 카테고리들은: (a) 높이 채널들을 갖지 않는 레이아웃들; (b) 전방에서만 높이 채널들을 갖는 레이아웃들; (c) 둘러싸는 높이 채널들을 갖는 레이아웃들; (d) 둘러싸는 높이 채널들 및 오버헤드(overhead) 채널을 갖는 레이아웃들; (e) 둘러싸는 높이 채널들, 오버헤드 채널, 및 청취자의 귀들의 평면 아래의 채널들을 갖는 레이아웃들인 것인, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  8. 제 1 항에 있어서,
    다음의 속성을 사용하여 M을 선택하는 단계로서, 상기 속성은,
    Figure pct00165
    이고,
    여기에서, MinBR_Mtrx는 매트릭싱된 채널 인코딩에 대해 요구되는 채널당 최소 비트레이트이며, BR_Tot는 총 이용가능 비트레이트이고, MinBR_Discr은 별개 채널 인코딩에 대해 요구되는 채널당 최소 비트레이트인, 상기 M을 선택하는 단계를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  9. 제 1 항에 있어서,
    라우드니스(loudness) 정규화를 달성하기 위하여 상기 M개의 채널들의 각각을 입력 라우드니스 대 출력 라우드니스의 비율에 의해 스케일링하는 단계를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  10. 제 9 항에 있어서,
    상기 라우드니스 정규화는 채널당 라우드니스 정규화이며,
    주어진 출력 채널을 yi[n]으로서 정의하는 단계;
    상기 채널당 라우드니스 정규화를
    Figure pct00166
    으로서 정의하는 단계로서,
    여기에서, di[n]은 다음과 같이 주어지는 채널 종속 이득이며,
    Figure pct00167
    ,
    그리고 L(x)는 라우드니스 추정 함수인, 상기 채널당 라우드니스 정규화를정의하는 단계를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  11. 제 10 항에 있어서,
    상기 라우드니스 정규화는 또한 총 라우드니스 정규화이며,
    상기 총 라우드니스 정규화를
    Figure pct00168
    으로서 정의하는 단계로서,
    여기에서 g[n]은 다음과 같이 주어지는 채널 독립 이득인,
    Figure pct00169
    , 상기 총 라우드니스 정규화를 정의하는 단계를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 송신하기 위한 하나 이상의 프로세싱 디바이스들에 의해 수행되는 방법.
  12. N개의 채널들을 갖는 입력 오디오 신호를 매트릭스 다운믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법으로서,
    잔존 채널들이 총 M개의 채널들이 되도록 상기 N개의 채널들 중 상기 잔존 채널들 및 비잔존 채널들을 선택하는 단계로서, N 및 M은 0이 아닌 양의 정수들이고, N은 M보다 더 큰, 상기 잔존 채널들 및 상기 비잔존 채널들을 선택하는 단계;
    패닝 가중치들을 획득하기 위하여 상기 컴퓨팅 디바이스 및 멀티플렛 팬 법칙들을 사용하여 상기 비잔존 채널들의 각각을 상기 잔존 채널들의 멀티플렛들 상으로 다운믹싱하는 단계로서, 상기 다운믹싱하는 단계는,
    더블렛(doublet) 팬 법칙을 사용하여 일부 비잔존 채널들을 잔존 채널 더블렛들 상으로 다운믹싱하는 단계;
    트리플렛 팬 법칙을 사용하여 일부 비잔존 채널들을 잔존 채널 트리플렛들 상으로 다운믹싱하는 단계;
    쿼드러플렛 팬 법칙을 사용하여 일부 비잔존 채널들을 잔존 채널 쿼드러플렛들 상으로 다운믹싱하는 단계를 더 포함하는, 상기 다운믹싱하는 단계; 및
    상기 잔존 채널 더블렛들, 트리플렛들, 및 쿼드러플렛들을 M개의 채널들을 갖는 비트스트림 내로 인코딩하고 멀티플렉싱하며, 재생 환경에서의 렌더링을 위하여 상기 비트스트림을 송신하는 단계
    를 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 매트릭스 다운믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  13. 제 12 항에 있어서,
    상기 쿼드러플렛 팬 가중치들은, (a) 상기 재생 환경의 원점으로부터의 신호 소스 S의 거리 r, 및 (b) 상기 잔존 채널 쿼드러플렛 내의 제 1 채널과 제 2 채널 사이의 상기 신호 소스 S의 각도 θ에 기초하여 생성되는 것인, N개의 채널들을 갖는 입력 오디오 신호를 매트릭스 다운믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  14. 제 13 항에 있어서,
    다음의 방정식들을 사용하여 상기 잔존 채널 쿼드러플렛 C1, C2, C3, 및 C4에 대한 상기 팬 가중치들을 생성하는 단계로서, 상기 방정식들은:
    Figure pct00170
    ;
    Figure pct00171
    ;
    Figure pct00172
    ; 및
    Figure pct00173
    인, 상기 팬 가중치들을 생성하는 단계를 더 포함하는, N개의 채널들을 갖는 입력 오디오 신호를 매트릭스 다운믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  15. M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법으로서,
    상기 M개의 채널들은 더블렛 채널, 트리플렛 채널, 및 쿼드러플렛 채널로 분리하는 단계;
    상기 컴퓨팅 디바이스 및 쿼드러플렛 팬 법칙을 사용하여 상기 쿼드러플렛 채널로부터 제 1 채널을 추출하는 단계;
    상기 제 1 채널이 추출된 후, 트리플렛 팬 법칙을 사용하여 상기 트리플렛 채널로부터 제 2 채널을 추출하는 단계;
    상기 제 2 채널이 추출된 후, 더블렛 팬 법칙을 사용하여 상기 더블렛 채널로부터 제 3 채널을 추출하는 단계;
    N개의 채널들을 갖는 출력 신호를 획득하기 위하여 상기 제 1 채널, 제 2 채널, 제 3 채널, 및 M개의 채널들을 함께 멀티플렉싱하는 단계; 및
    재생 환경에서 상기 출력 신호를 렌더링하는 단계
    를 포함하는, M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  16. 제 15 항에 있어서,
    상기 제 1 채널을 추출하는 단계는, 상기 제 1 채널을 각각이 계수들에 의해 가중된 상기 쿼드러플렛 채널의 4개의 채널들의 합계로서 획득하는 단계를 더 포함하는 것인, M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  17. 제 16 항에 있어서,
    방정식 C5 = aC1 + bC2 + cC3 + dC4를 사용하여 제 1 채널 C5를 획득하는 단계로서,
    여기에서 상기 a, b, c, 및 d 계수들은 다음의 방정식들에 의해 주어지며,
    Figure pct00174
    ,
    여기에서
    Figure pct00175
    은 C1과 C2 사이의 상기 C5의 추정된 각도이고,
    Figure pct00176
    는 상기 재생 환경의 원점으로부터의 C5의 거리인, 상기 제 1 채널 C5를 획득하는 단계를 더 포함하는, M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  18. 제 15 항에 있어서,
    상기 재생 환경에서 청취자 둘레에 가상 단위 구를 정의하는 단계로서, 상기 청취자는 상기 단위 구의 중심에 존재하는, 상기 가상 단위 구를 정의하는 단계;
    방사상 거리 r, 방위각 각도 q, 및 편각(polar angle) j를 포함하는 가상 구형 좌표계를 상기 단위 구 상에 정의하는 단계; 및
    상기 제 1 채널을 상기 단위 구 내의 위치로 재패닝(repan)하는 단계
    를 더 포함하는, M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  19. 제 18 항에 있어서,
    상기 제 1 채널을 상기 단위 구 렌더링 기술 상에 위치시키는 단계; 및
    상기 제 1 채널을 상기 방사상 거리 r을 따라 끌어 당기기 위하여, 상기 재생 환경 내의 모든 스피커들을 사용하여 상기 제 1 채널을 상기 단위 구의 상기 중심에 위치된 소스와 크로스 페이딩(cross fade)하는 단계
    를 더 포함하는, M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
  20. 제 15 항에 있어서,
    상기 오디오 신호 내에 인코딩된 오디오 컨텐츠를 믹스하기 위해 사용되었던 상기 스피커 레이아웃을 기술하는 컨텐츠 생성 환경 스피커 레이아웃을 상기 오디오 신호로부터 추출하는 단계를 더 포함하는, M개의 채널들을 갖는 오디오 신호를 매트릭스 업믹싱하기 위한 컴퓨팅 디바이스에 의해 수행되는 방법.
KR1020167016992A 2013-11-27 2014-11-26 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱 KR102294767B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361909841P 2013-11-27 2013-11-27
US61/909,841 2013-11-27
US14/447,516 US9338573B2 (en) 2013-07-30 2014-07-30 Matrix decoder with constant-power pairwise panning
US14/447,516 2014-07-30
PCT/US2014/067763 WO2015081293A1 (en) 2013-11-27 2014-11-26 Multiplet-based matrix mixing for high-channel count multichannel audio
US14/555,324 US9552819B2 (en) 2013-11-27 2014-11-26 Multiplet-based matrix mixing for high-channel count multichannel audio
US14/555,324 2014-11-26

Publications (2)

Publication Number Publication Date
KR20160090869A true KR20160090869A (ko) 2016-08-01
KR102294767B1 KR102294767B1 (ko) 2021-08-27

Family

ID=56797954

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167016992A KR102294767B1 (ko) 2013-11-27 2014-11-26 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱

Country Status (8)

Country Link
US (1) US9552819B2 (ko)
EP (2) EP3074969B1 (ko)
JP (1) JP6612753B2 (ko)
KR (1) KR102294767B1 (ko)
CN (1) CN105981411B (ko)
ES (2) ES2710774T3 (ko)
PL (2) PL3074969T3 (ko)
WO (1) WO2015081293A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10972849B2 (en) 2017-08-11 2021-04-06 Samsung Electronics Co., Ltd. Electronic apparatus, control method thereof and computer program product using the same

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016018787A1 (en) * 2014-07-31 2016-02-04 Dolby Laboratories Licensing Corporation Audio processing systems and methods
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9590580B1 (en) 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
EP4333461A3 (en) 2015-11-20 2024-04-17 Dolby Laboratories Licensing Corporation Improved rendering of immersive audio content
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
JP6703884B2 (ja) * 2016-04-13 2020-06-03 日本放送協会 チャンネル数変換装置、放送受信機およびプログラム
US10375498B2 (en) * 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
US11277705B2 (en) 2017-05-15 2022-03-15 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
CN107506409B (zh) * 2017-08-09 2021-01-08 浪潮金融信息技术有限公司 一种多音频数据的处理方法
WO2019049245A1 (ja) * 2017-09-06 2019-03-14 ヤマハ株式会社 オーディオシステム、オーディオ機器、及びオーディオ機器の制御方法
CN111133411B (zh) * 2017-09-29 2023-07-14 苹果公司 空间音频上混
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
JP7309734B2 (ja) 2018-02-15 2023-07-18 ドルビー ラボラトリーズ ライセンシング コーポレイション 音量制御方法および装置
EP3550561A1 (en) * 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
CN111837182A (zh) * 2018-07-02 2020-10-27 杜比实验室特许公司 用于产生或解码包括沉浸式音频信号的位流的方法及装置
US10887717B2 (en) 2018-07-12 2021-01-05 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of sound a source
TWI688280B (zh) 2018-09-06 2020-03-11 宏碁股份有限公司 正交基底修正之音效控制方法及音效輸出裝置
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
CN112216310B (zh) * 2019-07-09 2021-10-26 海信视像科技股份有限公司 音频处理方法与装置、以及多声道系统
US11327802B2 (en) * 2019-07-31 2022-05-10 Microsoft Technology Licensing, Llc System and method for exporting logical object metadata
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
WO2022124620A1 (en) * 2020-12-08 2022-06-16 Samsung Electronics Co., Ltd. Method and system to render n-channel audio on m number of output speakers based on preserving audio-intensities of n-channel audio in real-time
CN113438595B (zh) * 2021-06-24 2022-03-18 深圳市叡扬声学设计研发有限公司 音频处理系统
CN113838470B (zh) * 2021-09-15 2023-10-03 Oppo广东移动通信有限公司 音频处理方法、装置、电子设备及计算机可读介质及产品
WO2023210978A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070086851A (ko) * 2004-11-30 2007-08-27 에이저 시스템즈 인크 오브젝트-기반 사이드 정보를 갖는 공간 오디오의파라메트릭 코딩
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291557A (en) 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
US5319713A (en) 1992-11-12 1994-06-07 Rocktron Corporation Multi dimensional sound circuit
US5638452A (en) 1995-04-21 1997-06-10 Rocktron Corporation Expandable multi-dimensional sound circuit
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US5870480A (en) 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
US6665407B1 (en) 1998-09-28 2003-12-16 Creative Technology Ltd. Three channel panning system
US6507658B1 (en) * 1999-01-27 2003-01-14 Kind Of Loud Technologies, Llc Surround sound panner
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
BRPI0304541B1 (pt) 2002-04-22 2017-07-04 Koninklijke Philips N. V. Method and arrangement for synthesizing a first and a second output sign from an input sign, and, device for providing a decoded audio signal
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US20050052457A1 (en) 2003-02-27 2005-03-10 Neil Muncy Apparatus for generating and displaying images for determining the quality of audio reproduction
US7283684B1 (en) 2003-05-20 2007-10-16 Sandia Corporation Spectral compression algorithms for the analysis of very large multivariate images
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
EP1749296B1 (en) * 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
EP2575129A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
ES2435792T3 (es) * 2008-12-15 2013-12-23 Orange Codificación perfeccionada de señales digitales de audio multicanal
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2539889B1 (en) 2010-02-24 2016-08-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
CN101964202B (zh) * 2010-09-09 2012-03-28 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
CN102158881B (zh) * 2011-04-28 2013-07-31 武汉虹信通信技术有限责任公司 一种全面评估3g视频电话质量的方法和装置
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
JPWO2014068817A1 (ja) * 2012-10-31 2016-09-08 株式会社ソシオネクスト オーディオ信号符号化装置及びオーディオ信号復号装置
CN102984642A (zh) * 2012-12-18 2013-03-20 武汉大学 一种五个扬声器的三维平移方法
JP6082160B2 (ja) 2013-03-28 2017-02-15 ドルビー ラボラトリーズ ライセンシング コーポレイション 任意n角形のメッシュとして編成されたスピーカーを用いたオーディオレンダリング
EP3044786B1 (en) 2013-09-12 2024-04-24 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070086851A (ko) * 2004-11-30 2007-08-27 에이저 시스템즈 인크 오브젝트-기반 사이드 정보를 갖는 공간 오디오의파라메트릭 코딩
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Brecht De Man, et al., A knowledge-engineered autonomous mixing system. Audio Engineering Society Convention 135. 2013.10.17.* *
Jonas Engdegard, et al. Spatial audio object coding (SAOC) - The upcoming MPEG standard on parametric object based audio coding. Audio Engineering Society Convention 124. 2008.05.20.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10972849B2 (en) 2017-08-11 2021-04-06 Samsung Electronics Co., Ltd. Electronic apparatus, control method thereof and computer program product using the same

Also Published As

Publication number Publication date
JP2017501438A (ja) 2017-01-12
EP3074969A4 (en) 2017-08-30
PL3444815T3 (pl) 2020-11-30
EP3074969A1 (en) 2016-10-05
KR102294767B1 (ko) 2021-08-27
ES2772851T3 (es) 2020-07-08
CN105981411B (zh) 2018-11-30
US20150170657A1 (en) 2015-06-18
WO2015081293A1 (en) 2015-06-04
JP6612753B2 (ja) 2019-11-27
US9552819B2 (en) 2017-01-24
EP3444815A1 (en) 2019-02-20
PL3074969T3 (pl) 2019-05-31
EP3074969B1 (en) 2018-11-21
ES2710774T3 (es) 2019-04-26
EP3444815B1 (en) 2020-01-08
CN105981411A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
US20200335115A1 (en) Audio encoding and decoding
US10820134B2 (en) Near-field binaural rendering
TWI443647B (zh) 用以將以物件為主之音訊信號編碼與解碼之方法與裝置
KR101858479B1 (ko) 제 1 및 제 2 입력 채널들을 적어도 하나의 출력 채널에 매핑하기 위한 장치 및 방법
RU2394283C1 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant