KR20120084314A - 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림 - Google Patents

다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림 Download PDF

Info

Publication number
KR20120084314A
KR20120084314A KR1020127013091A KR20127013091A KR20120084314A KR 20120084314 A KR20120084314 A KR 20120084314A KR 1020127013091 A KR1020127013091 A KR 1020127013091A KR 20127013091 A KR20127013091 A KR 20127013091A KR 20120084314 A KR20120084314 A KR 20120084314A
Authority
KR
South Korea
Prior art keywords
downmix
matrix
rendering matrix
audio
rendering
Prior art date
Application number
KR1020127013091A
Other languages
English (en)
Other versions
KR101414737B1 (ko
Inventor
요나스 잉데가드
헤이코 푸른하겐
유에르겐 헤레
코넬리아 팔히
올리버 헬무트
레온 테렌티브
Original Assignee
돌비 인터네셔널 에이비
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비, 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 돌비 인터네셔널 에이비
Publication of KR20120084314A publication Critical patent/KR20120084314A/ko
Application granted granted Critical
Publication of KR101414737B1 publication Critical patent/KR101414737B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

오디오 콘텐츠의 비트스트림 표현에 포함되어 있는 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초하고, 사용자 지정 렌더링 매트리스에 따라 업믹스 신호 표현을 제공하기 위한 장치에 있어서, 상기 장치는 선형 결합 파라미터에 따라 사용자 지정 렌더링 매트릭스의 목표 렌더링 매트릭스로의 선형 결합을 이용하여 수정된 렌더링 매트릭스를 얻도록 구성되는 왜곡 제한기를 포함한다. 상기 장치는 또한 수정된 렌더링 매트릭스를 이용해 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초하여 업믹스 신호 표현을 얻도록 구성되는 신호 프로세서를 포함한다. 상기 장치는 또한 선형 결합 파라미터를 얻기 위해 선형 결합 파라미터를 표현하는 비트스트림 요소를 평가하도록 구성된다.

Description

다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림{APPARATUS FOR PROVIDING AN UPMIX SIGNAL REPRESENTATION ON THE BASIS OF THE DOWNMIX SIGNAL REPRESENTATION, APPARATUS FOR PROVIDING A BITSTREAM REPRESENTING A MULTI-CHANNEL AUDIO SIGNAL, METHODS, COMPUTER PROGRAMS AND BITSTREAM REPRESENTING A MILTI-CHANNEL AUDIO SIGNAL USING A LINEAR COMBINATION PARAMETER}
본 발명에 따른 실시예들은, 오디오 콘텐츠의 비트스트림 표현(bitstream representation)에 포함되어 있는 다운믹스(downmix) 신호 표현 및 객체 관련 파라메트릭 정보(object-related parametirc information)에 기초하고, 사용자 지정 렌더링 매트릭스(user-specified rendering matrix)에 따라 업믹스(upmix) 신호 표현을 제공하기 위한 장치에 관한 것이다.
본 발명에 따른 다른 실시예들은 다중 채널 오디오 신호를 표현하는 비스트트림을 제공하기 위한 장치에 관한 것이다.
본 발명에 따른 다른 실시예들은 오디오 콘텐츠의 비트스트림 표현에 포함되어 있는 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초하고, 사용자 지정 렌더링 매트릭스에 따라 업믹스 신호 표현을 제공하기 위한 방법에 관한 것이다.
본 발명에 따른 다른 실시예들은 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 방법에 관한 것이다.
본 발명에 따른 다른 실시예들은 상기 방법들 중의 하나를 수행하는 컴퓨터 프로그램에 관한 것이다.
본 발명에 따른 또 다른 실시예는 다중 채널 오디오 신호를 표현하는 비트스트림에 관한 것이다.
오디오 프로세싱 기술에서, 청각 효과를 향상시키도록 다중 채널 콘텐츠를 처리하기 위한 오디오 전송 및 오디오 저장에 대한 요구가 증대되고 있다. 다중 채널 오디오 콘텐츠의 사용은 사용자에게 상당한 향상을 가져온다. 예를 들어, 엔터테인먼트 응용들에서 향상된 사용자 만족을 가져오는 3차원 청각 효과가 획득될 수 있다. 그러나, 다중 채널 오디오 콘텐츠는, 다중 채널 오디오 재생을 이용함으로써 스피커 명료도가 향상될 수 있기 때문에 예를 들어, 전화 회의 응용들과 같은, 전문가 환경에서도 유용하다.
그러나, 저비용 또는 전문적인 다중 채널 응용들에서 과도한 자원 소모를 방지하기 위해 오디오 품질과 비트레이트 요구조건들 사이에 좋은 트레이드 오프(trade-off)를 가질 것이 또한 요구된다.
다중 오디오 객체들을 포함하는 오디오 장면들의 효율적 비트율 전송 및/또는 저장에 대한 파라메트릭 기술들이 최근에 제안되었다. 예를 들자면, 예를 들어, 참고문헌 [1]에서 설명되는 바이노럴 큐 코딩(binaural cue coding), 및 예를 들어, 참고문헌[2]에서 설명되는 오디오 소스들의 파라메트릭 조인트 코딩(parametric joint-coding)이 제안되었다. 또한, 예를 들어, 참고문헌 [3] 및 [4]에서 기술되는 MPEG 공간 오디오 객체 코딩(spatial audio object coding, SAOC)이 제안되었다. MPEG 공간 오디오 객체 코딩은 현재 표준화 중에 있으며, 비공개 참고문헌 [5]에 기재되어 있다.
이러한 기술들은 파형 매칭에 의해서 보다는 원하는 출력 장면을 지각적으로 복원하는 것을 목표로 한다.
그러나, 수신측에서의 사용자 상호작용성과 결합하여, 만약 지나친 객체 렌더링이 수행된다면 그러한 기술들은 출력 오디오 신호들의 낮은 오디오 품질을 야기할 수 있다. 이는, 예를 들어, 참고문헌 [6]에 설명되어 있다.
다음에서, 그러한 시스템들이 설명될 것인데, 기본 개념들이 또한 본 발명의 실시예들에 적용됨에 주의해야 한다.
도 8은 그러한 시스템(여기서: MPEG SAOC)에 대한 시스템 개관도를 도시한다. 도 8에 도시된 MPEG SAOC 시스템(800)은 SAOC 인코더(810) 및 SAOC 디코더(820)를 포함한다. SAOC 인코더(810)는 예를 들어, 시간 도메인 신호들로 또는 시간 주파수 도메인 신호들(예를 들어, 푸리에형 변환의 한 셋트의 변환 계수들의 형태로, 또는 QMF 부대역 신호들의 형태로)로 표현될 수 있는 복수의 객체 신호들(x1 내지 xN)을 수신한다. SAOC 인코더(810)는 일반적으로 객체 신호들(x1 내지 xN)과 연관되는 다운믹스 계수들(d1 내지 dN)도 수신한다. 다운믹스 신호의 각각의 채널들에 분리된 다운믹스 계수들의 셋트들이 이용될 수 있다. SAOC 인코더(810)는 일반적으로 연관되는 다운믹스 계수들(d1 내지 dN)에 따라 객체 신호들(x1 내지 xN)을 결합하여 다운믹스 신호의 채널을 얻도록 구성된다. 일반적으로, 객체 신호들(x1 내지 xN)보다 다운믹스 채널들이 더 적다. SAOC 디코더(820) 측에서 객체 신호들의 분리(또는 분리 처리)를 (적어도 대략적으로) 가능하게 하기 위해, SAOC 인코더(810)는 (다운믹스 채널들로 지칭되는) 하나 이상의 다운믹스 신호들(812) 및 부가 정보(814) 모두를 제공한다. 부가 정보(814)는 디코더측 객체에 특정 프로세싱을 가능하게 하기 위해 객체 신호들(x1 내지 xN)의 특성들을 표현한다.
SAOC 디코더(820)는 하나 이상의 다운믹스 신호들(812) 및 부가 정보(814) 모두를 수신하도록 구성된다. 또한, SAOC 디코더(820)는 일반적으로 원하는 렌더링 설정을 표현하는 사용자 상호작용 정보 및/또는 사용자 제어 정보(822)를 수신하도록 구성된다. 예를 들어, 사용자 상호작용 정보/사용자 제어 정보(822)는 스피커 설정 및 객체 신호들(x1 내지 xN)을 제공하는 객체들의 원하는 공간적 배치를 표현할 수 있다.
SAOC 디코더(820)는, 예를 들어, 복수의 디코딩된 업믹스 채널 신호들(
Figure pct00001
내지
Figure pct00002
)을 제공하도록 구성된다. 업믹스 채널 신호들은 예를 들어 다중 스피커 렌더링 배치의 개개의 스피커들과 연괸될 수 있다. SAOC 디코더(820)는, 예를 들어, 하나 이상의 다운믹스 신호들(812) 및 부가 정보(814)에 기초하여 객체 신호들(x1 내지 xN)을, 적어도 대략적으로, 복원하도록 구성되는 객체 분리기(820a)를 포함할 수 있으며, 그렇게 함으로써 복원된 객체 신호들(820b)을 얻는다. 그러나, 복원된 객체 신호들(820b)은 원래의 객체 신호들(x1 내지 xN)에서 약간 벗어날 수 있는데, 예를 들어, 비트율 제약으로 인해 부가 정보(814)가 완벽한 복원을 하기에 완전히 충분하지는 않기 때문이다. SAOC 디코더(820)는 복원된 객체 신호들(820b) 및 사용자 상호작용 정보/사용자 제어 정보(822)를 수신하여, 그에 기초하여, 업믹스 채널 신호들(
Figure pct00003
내지
Figure pct00004
)을 제공하도록 구성될 수 있는 믹서(mixer, 820c)를 더 포함할 수 있다. 믹서(820)는 업믹스 채널 신호들(
Figure pct00005
내지
Figure pct00006
)에 대한 개개의 복원된 객체 신호들(820b)의 기여도를 결정하기 위해 사용자 상호작용 정보/사용자 제어 정보(822)를 사용하도록 구성될 수 있다. 사용자 상호작용 정보/사용자 제어 정보(822)는, 예를 들어, 업믹스 채널 신호들(
Figure pct00007
내지
Figure pct00008
)에 대한 개개의 복원된 객체 신호들(820b)의 기여도를 결정하는 (렌더링 계수들이라고도 지칭되는) 렌더링 파라미터들을 포함할 수 있다.
그러나, 많은 실시예들에 있어서, 도8에서 객체 분리기(820a)로 표시되는 객체 분리, 및 도 8에서 믹서(820c)로 표시되는 믹싱(mixing)은 단일 단계로 수행됨에 주의해야 한다. 이러한 목적을 위해, 하나 이상의 다운믹스 신호들(812)의 업믹스 채널 신호들(
Figure pct00009
내지
Figure pct00010
)로의 직접적 맵핑(direct mapping)을 표현하는 전체 파라미터들이 계산될 수 있다. 이러한 파라미터들은 부가 정보 및 사용자 상호작용 정보/사용자 제어 정보(820)에 기초하여 계산될 수 있다.
이제 도 9a, 9b, 및 9c를 참조하여, 다운믹스 신호 표현 및 객체 관련 바가 정보에 기초하여 업믹스 신호 표현을 얻기 위한 다른 장치가 설명될 것이다. 도 9a는 SAOC 디코더(920)를 포함하는 MPEG SAOC 시스템(900)의 블록 도식도를 도시한다. SAOC 디코더(920)는, 분리된 기능 블록들로, 객체 디코더(922) 및 믹서/렌더링기(926)를 포함한다. 객체 디코더(922)는 (예를 들어, 시간 도메인으로 또는 시간 주파수 도메인으로 표현되는 하나 이상의 다운믹스 신호들의 형태로) 다운믹스 신호 표현에 따라 복수의 복원된 객체 신호들(924) 및 (예를 들어, 객체 메타 데이터의 형태로) 객체 관련 부가 정보를 제공한다. 믹서/렌더링기(924)는 복수의 N개의 객체들과 연관되는 복원된 객체 신호들(924)을 수신하여, 그에 기초하여, 하나 이상의 업믹스 채널 신호들(928)을 제공한다. SAOC 디코더(920)에서, 객체 신호들(924)의 추출은 믹싱/렌더링과 별도로 수행되는데, 이는 객체 디코딩 기능을 믹싱/렌더링 기능으로부터 분리를 가능하게 하지만 상대적으로 높은 계산 복잡도를 야기한다.
이제 도 9b를 참조하여, SAOC 디코더(950)를 포함하는 또 다른 MPEG SAOC 시스템(930)이 간략히 논의될 것이다. SAOC 디코더(950)는 (예를 들어, 하나 이상의 다운믹스 신호들의 형태로) 다운믹스 신호 표현 및 (예를 들어, 객체 메타 데이터의 형태로) 객체 관련 부가 정보에 따라 복수의 업믹스 채널 신호들(958)을 제공한다. SAOC 디코더(950)는 객체 디코딩 및 믹싱/렌더링을 분리하지 않고 합동의 믹싱 프로세스로 업믹스 채널 신호들(958)을 얻도록 설정되는 결합된 객체 디코더 및 믹서/렌더링기를 포함하며, 여기서 상기 합동의 업믹스 프로세스를 위한 파라미터들은 객체 관련 부가 정보 및 렌더링 정보 모두에 의해 결정된다. 합동의 업믹스 프로세스는 또한 객체 관련 부가 정보의 일부로 간주되는 다운믹스 정보에 의해 결정된다.
상기를 요약하면, 업믹스 채널 신호들(928, 958)의 공급은 한 단계의 프로세스 또는 두 단계의 프로세스로 수행될 수 있다.
이제 도 9c를 참조하여, MPEG SAOC 시스템(960)이 설명될 것이다. SAOC 시스템(960)은 SAOC 디코더 대신에 SAOC 대 MPEG 서라운드 트랜스코더(SAOC to MPEG Surround transcoder, 980)를 포함한다.
SAOC 대 MPEG 서라운드 트랜스코더는 (예를 들어, 객체 메타 데이터의 형태로) 객체 관련 부가 정보, 및, 선택적으로, 하나 이상의 다운믹스 신호들 및 렌더링 정보에 관한 정보를 수신하도록 구성되는 부가 정보 트랜스코더(982)를 포함한다. 부가 정보 트랜스코더는 또한 수신된 데이터에 기초하여 (예를 들어, MPEG 서라운드 비트스트림의 형태로) MPEG 서라운드 부가 정보를 제공하도록 구성된다. 따라서, 부가 정보 트랜스코더(982)는, 렌더링 정보 및 선택적으로 하나 이상의 다운믹스 신호들의 콘텐츠에 관한 정보를 고려하여, 객체 인코더로부터 도출되는 객체 관련 (파라메트릭) 부가 정보를 채널 관련 (파라메트릭) 부가 정보로 변환시키도록 구성된다.
선택적으로, SAOC 대 MPEG 서라운드 트랜스코더(980)는 조작된 다운믹스 신호 표현(988)을 얻기 위해, 예를 들어, 다운믹스 신호 표현에 의해, 설명된, 하나 이상의 다운믹스 신호들을 조작하도록 구성될 수 있다. 그러나, 다운믹스 신호 조작기(986)는, SAOC 대 MPEG 서라운드 트랜스코더(980)의 출력되는 다운믹스 신호 표현(988)이 SAOC 대 MPEG 서라운드 트랜스코더의 입력되는 다운믹스 신호 표현과 동일하도록 생략될 수 있다. 다운믹스 신호 조작기(986)는, 예를 들어, 채널 관련 MPEG 서라운드 부가 정보(984)가, 어떤 렌더링 성상(constellation)의 경우일 수 있는, SAOC 대 MPEG 서라운드 트랜스코더(980)의 입력되는 다운믹스 신호 표현에 기초하여 원하는 청각 효과를 제공할 수 없으면, 사용될 수 있다.
따라서, SAOC 대 MPEG 서라운드 트랜스코더(980)는, SAOC 대 MPEG 서라운드 트랜스코더(980)에 입력되는 렌더링 정보에 따라 오디오 객체들을 표현하는 복수의 업믹스 채널 신호들이 MPEG 서라운드 비트스트림(984) 및 다운믹스 신호 표현(988)을 수신하는 MPEG 서라운드 디코더를 이용하여 생성될 수 있는, 다운믹스 신호 표현(988) 및 MPEG 서라운드 비트스트림(984)을 제공한다.
상기를 요약하면, SAOC 인코딩된 오디오 신호들을 디코딩하기 위한 다른 구상들이 사용될 수 있다. 몇몇 경우에 있어서, 다운믹스 신호 표현 및 객체 관련 파라메트릭 부가 정보에 따라 업믹스 채널 신호들(예를 들어, 업믹스 채널 신호들(928, 958))을 제공하는 SAOC 디코더가 사용된다. 이러한 구상에 대한 예시들을 도 9a 및 9b에서 볼 수 있다. 대안으로, SAOC 인코딩된 오디오 정보는, 원하는 업믹스 채널 신호들을 제공하기 위해 MPEG 서라운드 디코더에 의해 사용될 수 있는, 다운믹스 신호 표현(예를 들어, 다운믹스 신호 표현(988)) 및 채널 관련 부가 정보(예를 들어, 채널 관련 MPEG 서라운드 비트스트림(984))를 얻기 위해 트랜스코딩될 수 있다.
도 8에서 주어진 시스템 개관도에서의 MPEG SAOC 시스템(800)에 있어서, 일반적인 프로세싱은 주파수 선택 방법으로 수행되고 각각의 주파수 대역 내에서 다음과 같이 설명될 수 있다:
● N개의 입력 오디오 객체 신호들(x1 내지 xN)은 SAOC 인코더 프로세싱의 일부로써 다운믹싱된다. 모노 다운믹스에 있어서, 다운믹스 계수들은 d1 내지 dN으로 표시된다. 또한, SAOC 인코더(810)는 입력 오디오 객체들의 특성들을 기술하는 부가 정보(814)를 추출한다. MPEG SAOC에 있어서, 각각에 대한 객체 영향력(power)의 관계는 그러한 부가 정보의 가장 기본 형태이다.
● 다운믹스 신호(또는 신호들)(812) 및 부가 정보(814)는 전송 및/또는 저장된다. 이를 위해, 다운믹스 오디오 신호는 (".mp3"라고도 알려진) MEPG-1 레이어(Layer) Ⅱ 또는 Ⅲ, MPEG 고급 오디오 코딩(Advanced Audio Coding, AAC), 또는 임의의 다른 오디오 코더들과 같은 잘 알려진 지각 오디오 코더들을 이용하여 압축될 수 있다.
● 수신측에서, SAOC 디코더(820)는 전송된 부가 정보(814)(및, 물론, 하나 이상의 다운믹스 신호들(812))를 이용하여 원래의 객체 신호("객체 분리")를 복원하려고 개념적으로 시도한다. (복원된 객체 신호들(820b)이라고도 지칭되는) 이러한 근사(approximated) 객체 신호들은 그 다음에 렌더링 매트릭스를 이용하여 (예를 들어, 업믹스 채널 신호들(
Figure pct00011
내지
Figure pct00012
)에 의해 표현될 수 있는) M개의 오디오 출력 채널들에 의해 표현되는 목표 장면에 믹싱된다. 모노 출력에 있어서, 렌더링 매트릭스 계수들은 r1 내지 rN으로 주어진다.
● 실질적으로, 객체 신호들의 분리는 좀처럼 실행(또는 심지어 절대 실행)되지 않는데, (객체 분리기(820a)로 표시되는) 분리 단계 및 (믹서(820c)로 표시되는) 믹싱 단계 모두가 단일 트랜스코딩 단계로 결합되기 때문인데, 이는 종종 엄청난 계산 복잡도의 감소를 가져온다.
그러한 구성은 전송 비트율(N개의 개별 객체 오디오 신호들 또는 개별 시스템 대신에 약간의 다운믹스 채널들과 함께 몇몇 부가 정보를 전송하는 것만이 요구된다) 및 계산 복잡도(프로세싱 복잡도는 오디오 객체들의 수보다는 출력 채널들의 수에 주로 관련된다) 모두의 면에서 엄청나게 효율적인 것으로 알려져 있다. 수신측 사용자에게 있어서 다른 이점은 그의/그녀의 렌더링 설정 선택(모노, 스테레오, 서라운드, 가상 헤드폰 재생, 기타 등등) 및 사용자 상호작용 특성을 고르는 자유를 포함하는데: 렌더링 매트릭스, 및 따라서 출력 장면은 의지, 개인적 취향 또는 다른 기준에 따라 사용자에 의해 상호작용하여 설정되고 변경될 수 있다. 예를 들어, 다른 남아 있는 대화자들로부터의 구별을 최대화하기 위해 하나의 공간적 구역 내에 함께 한 그룹으로부터의 대화자들을 위치시키는 것이 가능하다. 이러한 상호작용성은 디코더 사용자 인터페이스를 제공함으로써 성취된다.
각각의 전송된 사운드 객체에 있어서, 그것의 상대적 수준(relative level) 및 (비-모노 렌더링에 있어서) 렌더링의 공간 위치는 조정될 수 있다. 이는 사용자가 연관되는 그래픽 사용자 인터페이스(graphical user interface, GUI) 슬라이더들(예를 들어: 객체 수준 = +5dB, 객체 위치= -30deg)의 위치를 변경함에 따라 실시간으로 일어날 수 있다.
그러나, 업믹스 신호 표현(예를 들어, 업믹스 채널 신호들(
Figure pct00013
내지
Figure pct00014
))의 제공을 위한 파라미터들의 디코더측 선택은 몇몇 경우에 가청 저하를 가져온다고 알려져 있다.
이러한 상황을 고려하여, (예를 들어, 업믹스 채널 신호들(
Figure pct00015
내지
Figure pct00016
)의 형태로) 업믹스 신호 표현을 제공할 때 가청 왜곡을 감소시키거나 심지어 방지할 수 있는 구상을 창출하는 것이 본 발명의 목적이다.
본 발명에 따른 일 실시예는, 오디오 콘텐츠의 비트스트림 표현에 포함되어 있는 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초하고, 사용자 지정 렌더링 매트릭스에 따라 업믹스 신호 표현을 제공하기 위한 장치를 창출한다. 상기 장치는 선형 결합 파라미터에 따라 사용자 지정 렌더링 매트릭스와 목표 렌더링 매트릭스의 선형 결합을 이용하여 수정된 렌더링 매트릭스를 얻도록 구성되는 왜곡 제한기(distortion limiter)를 포함한다. 상기 장치는 또한 수정된 렌더링 매트릭스를 이용하여 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초하여 업믹스 신호 표현을 얻도록 구성되는 신호 프로세서를 포함한다. 상기 장치는 선형 결합 파라미터를 얻기 위해 선형 결합 파라미터를 표현하는 비트스트림 요소를 평가하도록 구성된다.
본 발명에 따른 이러한 실시예는, 오디오 콘텐츠의 비트스트림 표현으로부터 추출되는 선형 결합 파라미터에 따라 사용자 지정 렌더링 매트릭스와 목표 렌더링 매트릭스의 선형 결합을 수행함으로써 낮은 계산 복잡도로 업믹스 신호 표현의 가청 왜곡이 감소되거나 심지어 방지될 수 있다는 핵심 발상에 기초하는데, 이는 선형 결합이 효율적으로 수행될 수 있기 때문이고, 선형 결합 파라미터 결정이라는 요구되는 과제의 실행이 오디오 신호 디코더(업믹스 신호 표현을 제공하기 위한 장치) 측보다 일반적으로 더 많은 계산 능력이 있는 오디오 신호 인코더 측에서 수행될 수 있기 때문이다.
따라서, 상기에서 논의된 구상은 업믹스 신호 표현을 제공하기 위한 상기 장치에 어떠한 상당한 복잡도를 더하지 않으면서, 사용자 지정 렌더링 매트릭스의 적절하지 못한 선택에서도 감소된 가청 왜곡을 가져오는 수정된 렌더링 매트릭스를 얻는 것을 가능하게 한다. 특히, 왜곡 제한기가 없는 장치와 비교했을 때 심지어 신호 프로세서를 수정할 필요가 없을 수도 있는데, 이는 수정된 렌더링 매트릭스가 신호 프로세서에 대한 입력 분량으로 여겨지고 단지 사용자 지정 렌더링 매트릭스만 대체하기 때문이다. 또한, 본 발명의 구상은, 오디오 콘텐츠의 비트스트림 표현에 포함되어 있는 선형 결합 파라미터를 간단히 설정하여, 인코더 측에서 지정되는 요구조건들에 따라, 오디오 신호 디코더 측에 적용되는 왜곡 제한 구성을 오디오 신호 인코더가 조정할 수 있는 장점을 가져온다. 따라서, 오디오 신호 인코더는 선형 결합 파라미터를 적절히 선택함으로써 디코더(업믹스 신호 표현을 제공하기 위한 장치)의 사용자에게 렌더링 매트릭스의 선택에 관한 자유를 점차 더 많이 또는 더 적게 제공할 수 있다. 이는 주어진 서비스에 대한 사용자의 요구에 오디오 신호 디코더의 적응을 가능하게 하는데, 몇몇 서비스들에 대해서 사용자는 최고의 품질(이는 렌더링 매트릭스를 임의로 조정하는 사용자의 가능성을 감소시키는 것을 의미한다)을 기대할 수 있기 때문이며, 한편 다른 서비스들에 대해서 사용자는 일반적으로 최대한도의 자유(이는 선형 결합 결과에 대한 사용자의 지정 렌더링 매트릭스의 영향을 증대시키는 것을 의미한다)를 기대할 수 있다.
상기를 요약하면, 본 발명의 구상은, 신호 프로세서를 수정할 필요를 야기하지 않으면서, 휴대용 오디오 디코더들에서 특히 중요할 수 있는 디코더 측에서의 높은 계산 효율성을 간단한 구현 가능성과 결합하고, 또한 오디오 서비스들의 서로 다른 형태들에 대한 사용자의 기대를 충족시키는데 중요할 수 있는 오디오 신호 인코더에 대한 높은 제어도를 제공한다.
바람직한 실시예에서, 왜곡 제한기는 목표 렌더링 매트릭스가 무 왜곡(distortion-free) 목표 렌더링 매트릭스인 목표 렌더링 매트릭스를 얻도록 구성된다. 이는 렌더링 매트릭스 선택에 의해 야기되는 왜곡이 없거나 적어도 어떠한 왜곡도 거의 없는 재생 시나리오를 가질 가능성을 가져온다. 또한, 무 왜곡 목표 렌더링 매트릭스의 계산은 몇몇 경우에 매우 간단한 방식으로 수행될 수 있음이 알려져 있다. 더불어, 사용자 지정 렌더링 매트릭스와 무 왜곡 목표 렌더링 매트릭스 사이에서 선택되는 렌더링 매트릭스는 일반적으로 좋은 청각 효과를 가져오는 것으로 알려져 있다.
바람직한 실시예에서, 왜곡 제한기는 목표 렌더링 매트릭스가 유사 다운믹스 목표 렌더링 매트릭스인 목표 렌더링 매트릭스를 얻도록 구성된다. 유사 다운믹스 목표 렌더링 매트릭스의 사용은 매우 낮거나 심지어 최소의 왜곡도를 가져오는 것으로 알려져 있다. 또한, 그러한 유사 다운믹스 렌더링 매트릭스는 매우 적은 계산 노력으로 얻어질 수 있는데, 이는 유사 다운믹스 목표 렌더링 매트릭스가 공통 스케일링 인자(common scaling factor)를 이용한 다운믹스 매트릭스 엔트리들에 대한 스케일링 및 몇몇 부가적인 0 엔트리들의 추가로 얻어질 수 있기 때문이다.
바람직한 실시예에서, 왜곡 제한기는 목표 렌더링 매트릭스를 얻기 위해 에너지 표준화 스칼라(energy normalization scalar)를 이용하여 확장된 다운믹스 매트릭스를 스케일링하도록 구성되는데, 여기서 상기 확장된 다운믹스 매트릭스는, 확장된 다운믹스 매트릭스의 다수의 행들이 사용자 지정 렌더링 매트릭스에 의해 표현되는 렌더링 성상과 동일한, 0 요소들의 행들에 의해 확장되는 다운믹스 매트릭스(다운믹스 매트릭스의 한 행은 다운믹스 신호 표현의 하나 이상의 채널들에 대한 복수의 오디오 객체 신호들의 기여도를 표현한다)의 확장된 버전이다. 그러므로, 확장된 다운믹스 매트릭스는, 다운믹스 매트릭스로부터의 값들을 확장된 다운믹스 매트릭스에 복사, 0 매트릭스 엔트리들의 추가, 및 동일한 에너지 표준화 스칼라를 갖는 모든 매트릭스 요소들에 대한 스칼라 곱셈을 이용하여 얻어진다. 이러한 모든 연산들은, 심지어 매우 간단한 오디오 디코더들에서도, 목표 렌더링 매트릭스가 빠르게 구해지게, 매우 효율적으로 수행될 수 있다.
바람직한 실시예에서, 왜곡 제한기는 목표 렌더링 매트릭스가 최선형(best-effort) 목표 렌더링 매트릭스인 목표 렌더링 매트릭스를 얻도록 구성된다. 이러한 접근법은 유사 다운믹스 목표 렌더링 매트릭스의 사용보다 약간 더 계산적으로 부담이 될지라도, 최선형 목표 렌더링 매트릭스의 사용은 사용자의 원하는 렌더링 시나리오에 대한 더 나은 고려사항을 제공한다. 최선형 목표 렌더링 매트릭스를 이용하여, 목표 렌더링 매트릭스를 결정할 때 왜곡 또는 상당한 왜곡을 가져오지 않는 정도까지 원하는 렌더링 매트릭스에 대한 사용자의 정의가 고려될 수 있다. 특히, 최선형 목표 렌더링 매트릭스는 복수의 스피커들(또는 업믹스 신호 표현의 채널들)에 대한 사용자의 원하는 소리의 세기를 고려한다. 따라서, 최선형 목표 렌더링 매트릭스를 이용할 때 향상된 청취 효과가 생길 수 있다.
바람직한 실시예에서, 왜곡 제한기는 목표 렌더링 매트릭스가 다운믹스 매트릭스 및 사용자의 지정 렌더링 매트릭스에 의해 결정되는 목표 렌더링 매트릭스를 얻도록 구성된다. 따라서, 목표 렌더링 매트릭스는 사용자의 기대에 상대적으로 가깝지만 여전히 실질적으로 무 왜곡 오디오 렌더링을 제공한다. 그러므로, 선형 결합 파라미터는 사용자의 원하는 렌더링에 대한 근사도와 가청 왜곡의 최소화 사이의 트레이드 오프(trade-off)를 결정하는데, 여기서 목표 렌더링 매트릭스의 계산에 대한 사용자 지정 렌더링 매트릭스에 대한 고려는, 목표 렌더링 매트릭스가 선형 결합보다 우세해야 한다고 선형 결합 파라미터가 나타내더라도, 사용자의 요구에 대한 높은 만족도를 제공한다.
바람직한 실시예에서, 왜곡 제한기는, 상기 장치의 주어진 출력 채널에 대한 에너지 표준화 값이 복수의 오디오 객체들에 대한 사용자 지정 렌더링 매트릭스에서 주어진 출력 채널과 관련된 에너지 렌더링 값들의 합과, 복수의 오디오 객체들에 대한 에너지 다운믹스 값들의 합 사이의 비율을 적어도 대략적으로 표현하는, 업믹스 신호 표현을 제공하기 위한 상기 장치의 복수의 출력 오디오 채널들에 대한 개개 채널의 표준화 값들을 포함하는 매트릭스를 계산하기 위해 구성된다. 따라서, 상기 장치의 서로 다른 출력 채널들의 소리의 세기에 관한 사용자의 기대가 어느 정도 충족될 수 있다.
이러한 경우에 왜곡 제한기는, 주어진 출력 채널과 연관되는 목표 렌더링 매트릭스에 대한 한 셋트의 렌더링 값들을 얻기 위해 연관되는 개개 채널의 에너지 표준화 값을 이용하여 한 셋트의 다운믹스 값들을 스케일링하도록 구성된다. 따라서, 상기 장치의 출력 채널에 대한 주어진 오디오 객체의 상대적 기여도는 다운믹스 신호 표현에 대한 주어진 오디오 객체의 상대적 기여도와 동일한데, 이는 실질적으로 오디오 객체들의 상대적 기여도에 대한 수정에 의해 야기될 수 있는 가청 왜곡을 방지할 수 있게 한다. 따라서, 상기 장치의 각각의 출력 채널들은 실질적으로 왜곡되지 않는다. 그럼에도 불구하고, 오디오 객체들에 대한 극도로 뚜렷한 공간 분리 또는 오디오 객체들에 대한 상대적 강도에 대한 지나친 수정에 의해 야기될 수 있는 왜곡을 방지하기 위해 어떤 오디오 객체를 어디에 둘지 및/또는 서로에 대한 오디오 객체들의 상대적 강도를 어떻게 변경할지의 세부사항들이 (적어도 어느 정도) 고려되지 않고 남아 있을지라도, 복수의 스피커들(또는 업믹스 신호 표현의 채널들)을 통한 소리의 세기 왜곡에 관한 사용자의 기대가 고려된다.
그러므로, 복수의 오디오 객채들에 대한 사용자 지정 렌더링 매트릭스에서 주어진 출력 채널과 연관되는 에너지 렌더링 값들(예를 들어, 크기 렌더링 값들의 제곱)의 합과, 복수의 오디오 객체들에 대한 에너지 다운믹스 값들의 합 사이의 비율 평가는 모든 출력 오디오 체널들을 고려하는 것을 가능하게 하는데, 다운믹스 신호 표현이 더 적은 수의 채널들을 포함하더라도, 여전히 오디오 객체들의 공간 재분배에 의해 또는 서로 다른 오디오 객체들의 상대적 소리의 세기에 대한 지나친 변경에 의해 야기될 왜곡을 피한다.
바람직한 실시예에서, 왜곡 제한기는 사용자 지정 렌더링 매트릭스 및 다운믹스 매트릭스에 따라 업믹스 신호 표현을 제공하기 위한 상기 장치의 복수의 출력 오디오 채널들에 대한 개개 채널의 에너지 표준화를 표현하는 매트릭스를 계산하도록 구성된다. 이러한 경우에, 왜곡 제한기는 다운믹스 신호 표현의 서로 다른 채널들과 연관되는 다운믹스 값들(즉, 다운믹스 신호의 채널을 얻기 위해 서로 다른 오디오 객체들의 오디오 신호들에 적용되는 스케일링을 표현하는 값들)의 셋트들의 선형 결합으로 상기 장치의 주어진 출력 채널과 연관되는 목표 렌더링 매트릭스의 한 셋트의 렌더링 계수들을 얻기 위해 개개 채널의 에너지 표준화를 표현하는 매트릭스를 적용하도록 구성된다. 이러한 구상을 이용하여, 다운믹스 신호 표현이 하나 이상의 오디오 채널들을 포함할지라도, 원하는 사용자 지정 렌더링 매트릭스에 잘 적응된 목표 렌더링 매트릭스가 얻어질 수 있으며, 한편 여전히 실질적으로 왜곡을 방지한다. 다운믹스 값들의 셋트들의 선형 결합의 구조는 일반적으로 단지 적은 가청 왜곡만을 초래하는 한 셋트의 렌더링 계수들을 야기하는 것으로 알려져 있다. 그럼에도 불구하고, 목표 렌더링 매트릭스를 도출하기 위한 그러한 접근법을 이용하여 사용자의 기대에 가깝게 하는 것이 가능하다고 알려져 있다.
바람직한 실시예에서, 상기 장치는 오디오 콘텐츠의 비트스트림 표현으로부터 선형 결합 파라미터를 표현하는 인덱스 값을 판독하고, 파라미터 양자화 표를 이용하여 인덱스 값을 선형 결합 파라미터에 맵핑하도록 구성된다. 이는 선형 결합 파라미터를 도출하기 위한 특히 계산적으로 효율적인 구상으로 알려져 있다. 1차원 맵핑 표의 평가보다 더 복잡한 계산들이 수행되는 다른 가능한 구상들과 비교해 볼 때, 이러한 방법들은 사용자의 만족과 계산 복잡도 사이의 더 나은 트레이드 오프를 가져온다고 알려져 있다.
바람직한 실시예에서, 양자화 표는 불균일(non-uniform) 양자화를 표현하는데, 여기서 수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스의 더 강한 기여도를 표현하는 선형 결합 파라미터의 더 작은 값들은 비교적 높은 분해능(resolution)으로 양자화되고, 수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스의 더 작은 기여도를 표현하는 선형 결합 파라미터의 더 큰 값들은 비교적 낮은 분해능으로 양자화된다. 많은 경우에 렌더링 매트릭스에 대한 지나친 설정들만이 상당한 가청 왜곡을 야기하는 것으로 알려져 있다. 따라서, 사용자의 렌더링 기대에 대한 충족과 가청 왜곡의 최소화 사이의 최적의 트레이드 오프를 가능하게 하는 설정을 얻기 위해, 목표 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스의 더 강한 기여도의 구간(region)에서 선형 결합 파라미터의 미세(fine) 조정이 더 중요하다고 알려져 있다.
바람직한 실시예에서, 상기 장치는 왜곡 제한 모드를 표현하는 비트스트림 요소를 평가하도록 구성된다. 이러한 경우에, 왜곡 제한기는 바람직하게는 목표 렌더링 매트릭스가 유사 다운믹스 목표 렌더링 매트릭스이거나 목표 렌더링 매트릭스가 최선형 목표 렌더링 매트릭스인 목표 렌더링 매트릭스를 선택적으로 얻도록 구성된다. 그러한 전환할 수 있는 구상은 다수의 서로 다른 오디오 부분들에 대한 사용자의 렌더링 기대에 대한 충족과 가청 왜곡 사이의 좋은 트레이드 오프을 얻는데 효율적인 가능성을 제공한다고 알려져 있다. 이러한 구상은 또한 디코더 측에서의 실제 렌더링에 대한 오디오 신호 인코더의 적절한 제어를 가능하게 한다. 결과적으로, 온갖 종류의 서로 다른 오디오 서비스들에 대한 요구조건이 만족될 수 있다.
본 발명에 따른 다른 실시예는 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치를 창출한다.
상기 장치는 복수의 오디오 객체 신호들에 기초하여 다운믹스 신호를 제공하도록 구성되는 다운믹서를 포함한다. 상기 장치는 또한 오디오 객체 신호들 및 다운믹스 파라미터들의 특성들을 표현하는 객체 관련 파라메트릭 부가 정보를 제공하도록 구성되는 부가 정보 제공자, 및 수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스와 목표 렌더링 매트릭스의 기여도를 표현하는 선형 결합 파라미터를 포함한다. 비트스트림을 제공하기 위한 상기 장치는 또한 다운믹스 신호, 객체 관련 파라메트릭 부가 정보, 및 선형 결합 파라미터의 표현을 포함하는 비트스트림을 제공하도록 구성되는 비트스트림 포맷터(formatter)를 포함한다.
다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 이러한 장치는 상기에서 논의한 업믹스 신호 표현을 제공하기 위한 장치와 협력하는데 아주 적합하다. 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 상기 장치는 오디오 객체 신호들에 대한 그것의 정보(knowledge)에 따라 선형 결합 파라미터를 제공하는 것을 가능하게 한다. 따라서, 오디오 인코더(즉, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치)는 선형 결합 파라미터를 평가하는 오디오 디코더(즉, 업믹스 신호 표현을 제공하기 위한 상기에서 논의된 장치)에 의해 제공되는 렌더링 품질 상에 강력한 영향을 미칠 수 있다. 그러므로, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하는 상기 장치는 렌더링 결과에 대한 매우 높은 수준의 제어를 가지는데, 이는 많은 서로 다른 시나리오들에서 향상된 사용자 만족도를 제공하다. 따라서, 그것은 실제로, 가청 왜곡의 위험을 무릅쓰고 지나친 렌더링 설정들을 사용하는 것을 사용자에게 허용할지 말지 여부에 대해, 선형 결합 파라미터를 이용하는, 가이드(guidance)를 제공하는 서비스 제공자의 오디오 인코더이다. 그러므로, 상기에서 설명한 오디오 인코더를 이용함으로써 상응하는 부정적인 경제적 결과와 함께 사용자의 실망이 방지될 수 있다.
본 발명에 따른 다른 실시예는, 사용자 지정 렌더링 매트릭스에 따라 오디오 콘텐츠의 비트스트림 표현에 포함되어 있는 다운믹스 신호 표현 및 객체 관련 파라미터 정보에 기초하여 업믹스 신호 표현을 제공하기 위한 방법을 창출한다. 이 방법은 상술한 장치와 동일한 주요 발상에 기초한다.
본 발명에 따른 다른 방법은 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 방법을 창출한다. 상기 방법은 상술한 장치와 동일한 발견(finding)에 기초한다.
본 발명에 따른 다른 실시예는 상기 방법들을 수행하기 위한 컴퓨터 프로그램을 창출한다.
본 발명에 따른 다른 실시예는 다중 채널 오디오 신호를 표현하는 비트스트림을 창출한다. 상기 비트스트림은 오디오 객체들의 특성들을 표현하는 객체 관련 파라메트릭 부가 정보에 복수의 오디오 객체들의 오디오 신호들을 결합하는 다운믹스 신호에 대한 표현을 포함한다. 상기 비트스트림은 또한 수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스 및 목표 렌더링 매트릭스의 기여도를 표현하는 선형 결합 파라미터를 포함한다. 상기 비트스트림은 오디오 신호 인코더 측으로부터 디코더 측 렌더링 파라미터들을 통해 어느 정도의 제어를 가능하게 한다.
본 발명에 따른 실시예들이 첨부된 도면들을 참조하여 이어서 설명될 것인데:
도 1a는 본 발명의 일 실시예에 따른 업믹스 신호 표현을 제공하기 위한 장치에 대한 블록 도식도;
도 1b는 본 발명의 일 실시예에 따른 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치에 대한 블록 도식도;
도 2는 본 발명의 다른 실시예에 따른 업믹스 신호 표현을 제공하기 위한 장치에 대한 블록 도식도;
도 3a는 본 발명의 일 실시예에 따른 다중 채널 오디오 신호를 표현하는 비트스트림에 대한 도식적 표현;
도 3b는 본 발명의 일 실시예에 따른 SAOC 지정(specific) 구성 정보에 대한 상세한 구문 표현;
도 3c는 본 발명의 일 실시예에 따른 SAOC 프레임 정보에 대한 상세한 구문 표현;
도 3d는 SAOC 비트스트림에서 사용될 수 있는 비트스트림 요소 "bsDcuMode"에서 왜곡 제어 모드의 인코딩에 대한 도식적 표현;
도 3e는 SAOC 비트스트림에서 선형 결합 정보를 인코딩하는데 사용될 수 있는 비트스트림 인덱스(idx)와 선형 결합 파라미터 "DcuParam[idx]"의 값 사이의 연관성에 대한 표 표현;
도 4는 본 발명의 다른 실시예에 따른 업믹스 신호 표현을 제공하기 위한 장치에 대한 블록 도식도;
도 5a는 본 발명의 일 실시예에 따른 SAOC 지정 구성 정보에 대한 구문 표현;
도 5b는 SAOC 비트스트림에서 선형 결합 파라미터를 인코딩하는데 사용될 수 있는 비트 스트림 인덱스(idx)와 선형 결합 파라미터(Param[idx]) 사이의 연관성에 대한 표 표현;
도 6a는 청취 검사 조건들을 설명하는 표;
도 6b는 청취 검사의 오디오 항목들을 설명하는 표;
도 6c는 스테레오 대 스테레오 SAOC 디코딩 시나리오에 대한 검사된 다운믹스/렌더링 조건들을 설명하는 표;
도 7은 스테레오 대 스테레오 SAOC 시나리오에 대한 왜곡 제어 유닛(distortion control unit, DCU) 청취 검사 결과에 대한 그래픽 표현;
도 8은 참조(reference) MPEG SAOC 시스템에 대한 블록 도식도;
도 9a는 분리된 디코더 및 믹서를 이용하는 참조 SAOC 시스템에 대한 블록 도식도;
도 9b는 통합된 디코더 및 믹서를 이용하는 참조 SAOC 시스템에 대한 블록 도식도; 및
도 9c는 SAOC 대 MPEG 트랜스코더를 이용하는 참조 SAOC 시스템에 대한 블록 도식도.
1. 도 1a에 따른 업믹스 신호 표현을 제공하기 위한 장치
도 1a는 본 발명의 일 실시예에 따른 업믹스 신호 표현을 제공하기 위한 장치에 대한 블록 도식도를 도시한다.
상기 장치(100)는 다운믹스 신호 표현(110) 및 객체 관련 파라메트릭 정보(112)를 수신하도록 구성된다. 상기 장치(100)는 또한 선형 결합 파라미터(114)를 수신하도록 구성된다. 다운믹스 신호 표현(110), 객체 관련 파라메트릭 정보(112), 및 선형 결합 파라미터(114)는 모두 오디오 콘텐츠의 비트스트림 표현에 포함된다. 예를 들어, 선형 결합 파라미터(114)는 상기 비트스트림 표현 내의 비트스트림 요소에 의해 표현된다. 상기 장치(100)는 또한 사용자 지정 렌더링 매트릭스를 정의하는 렌더링 정보(120)를 수신하도록 구성된다.
상기 장치(100)는, 예를 들어, 개개의 채널 신호들 또는 MPEG 서라운드 부가 정보와 결합하는 MPEG 서라운드 다운믹스 신호인 업믹스 신호 표현(130)을 제공하도록 구성된다.
상기 장치(100)는, 예를 들어,gDCU로 지칭될 수 있는 선형 결합 파라미터(146)에 따라 (렌더링 정보(120)에 의해 직접적으로 또는 간접적으로 표현되는) 사용자 지정 렌더링 매트릭스(144), 및 목표 렌더링 매트릭스의 선형 결합을 이용하여 수정된 렌더링 매트릭스(142)를 얻도록 구성되는 왜곡 제한기(140)를 포함한다
상기 장치(100)는, 예를 들어, 선형 결합 파라미터를 얻기 위해 선형 결합 파라미터(146)를 표현하는 비트스트림 요소(114)를 평가하도록 구성될 수 있다.
상기 장치(100)는 또한 수정된 렌더링 매트릭스(142)를 이용하여 다운믹스 신호 표현(110) 및 객체 관련 파라메트릭 정보(112)에 기초해 업믹스 신호 표현(130)을 얻도록 구성되는 신호 프로세서(148)를 포함한다.
따라서, 상기 장치(100)는, 예를 들어, SAOC 신호 프로세서(148), 또는 임의의 다른 객체 관련 신호 프로세서(148)를 이용하여 좋은 렌더링 품질을 지닌 업믹스 신호 표현을 제공할 수 있다. 수정된 렌더링 매트릭스(142)는, 거의 또는 모든 경우에, 충분히 작은 왜곡을 지닌 충분히 좋은 청취 효과가 달성되도록 왜곡 제한기(140)에 의해 적응된다. 수정된 렌더링 매트릭스는 일반적으로 사용자 지정(요청) 렌더링 매트릭스와 목표 렌더링 매트릭스 "사이에(in-between)"에 있는데, 여기서 사용자 지정 렌더링 매트릭스 및 목표 렌더링 매트릭스에 대한 수정된 렌더링 매트릭스의 유사도가 선형 결합 파라미터에 의해 결정되며, 이는 결과적으로 업믹스 신호 표현(130)에 대한 달성 가능한 렌더링 품질 및/또는 최대 왜곡 수준의 조정을 가능하게 한다.
신호 프로세서(148)는, 예를 들어, SAOC 신호 프로세서일 수 있다. 따라서, 상기 신호 프로세서(148)는 다운믹스 신호 표현(110)에 의해 다운믹싱된 형태로 표현되는 오디오 객체들의 특성들을 표현하는 파라미터들을 얻기 위해 객체 관련 파라메트릭 정보(112)를 평가하도록 구성될 수 있다. 또한, 신호 프로세서(148)는 복수의 오디오 객체들의 오디오 객체 신호들을 결합하여 다운믹스 신호 표현(110)을 도출하기 위해 오디오 콘텐츠의 비트스트림 표현을 제공하는 오디오 인코더 측에서 사용되는 다운믹스 처리(procedure)를 표현하는 파라미터들을 얻을(예를 들어, 수신할) 수 있다. 그러므로, 신호 프로세서(148)는, 예를 들어, 주어진 오디오 프레임과 하나 이상의 주파수 대역들에 대한 복수의 오디오 객체들 사이의 수준 차이를 표현하는 객체 수준 차이 정보(object-level difference information, OLD), 및 주어진 오디오 프레임과 하나 이상의 주파수 대역들에 대한 복수의 오디오 객체들의 쌍들의 오디오 신호들 사이의 상관관계를 표현하는 상호 객체 상관관계 정보(inter-object correlaion information, IOC)를 평가할 수 있다. 더불어, 신호 프로세서(148)는 또한, 예를 들어, 하나 이상의 다운믹스 이득 파라미터들(DMG) 및 하나 이상의 다운 믹스 채널 수준 차이 파라미터들(DCLD)의 형태로, 오디오 콘텐츠의 비트스트림 표현을 제공하는 오디오 인코더 측에서 수행되는 다운믹스를 표현하는 다운믹스 정보(DMG, DCLD)를 평가할 수 있다.
또한, 신호 프로세서(148)는 업믹스 신호 표현(130)의 어떤 오디오 채널들이 서로 다른 오디오 객체들의 오디오 콘텐츠를 포함할 것인지를 나타내는 수정된 렌더링 매트릭스(142)를 수신한다. 따라서, 신호 프로세서(148)는 (DMG 정보 및 DCLD 정보로부터 얻어지는) 다운믹스 프로세스의 그것의 정보뿐만 아니라 오디오 객체들의 (OLD 정보 및 IOC 정보로부터 얻어지는) 그것의 정보를 이용하여 다운믹스 신호 표현(110)에 대한 서로 다른 오디오 객체들의 기여도를 결정하도록 구성된다. 나아가, 신호 프로세서는 수정된 렌더링 매트릭스(142)가 고려되는 업믹스 신호 표현을 제공한다.
따라서, 신호 프로세서(148)는 SAOC 디코더(820)의 기능을 실현시키는데, 여기서 다운믹스 신호 표현(110)은 하나 이상의 다운믹스 신호들(812)를 대신하며, 여기서 객체 관련 파라메트릭 정보(112)는 부가 정보(814)를 대신하고, 수정된 렌더링 매트릭스(142)는 사용자 상호작용/제어 정보(822)를 대신한다. 채널 신호들(
Figure pct00017
내지
Figure pct00018
)은 업믹스 신호 표현(130)의 역할을 한다. 따라서, SAOC 디코더(820)의 상세사항에 대해 언급되었다.
유사하게, 신호 프로세서(148)는 디코더/믹서(920)의 역할을 할 수 있는데, 여기서 다운믹스 신호 표현(110)은 하나 이상의 다운믹스 신호들의 역할을 하며, 여기서 객체 관련 파라메트릭 정보(112)는 객체 메타데이터(metadata)의 역할을 하며, 여기서 수정된 렌더링 매트릭스(142)는 믹서/렌더링기(926)에 대해 렌더링 정보 입력의 역할을 하고, 여기서 채널 신호(928)는 업믹스 신호 표현(130)의 역할을 한다.
대안으로, 신호 프로세서(148)는 통합된 디코더 및 믹서(950)의 기능을 수행할 수 있는데, 여기서 다운믹스 신호 표현(110)은 하나 이상의 다운믹스 신호들의 역할을 할 수 있으며, 여기서 객체 관련 파라메트릭 정보(112)는 객체 메타데이터의 역할을 할 수 있으며, 여기서 수정된 렌더링 매트릭스(142)는 객체 디코더 및 믹서/렌더링기(950)에 대해 렌더링 정보 입력의 역할을 할 수 있고, 여기서 채널 신호들(958)은 업믹스 신호 표현(130)의 역할을 할 수 있다.
대안으로, 신호 프로세서(148)는 SAOC 대 MPEG 서라운드 트랜스코더(980)의 기능을 수행할 수 있는데, 여기서 다운믹스 신호 표현(110)은 하나 이상의 다운믹스 신호들의 역할을 할 수 있으며, 여기서 객체 관련 파라메트릭 정보(112)는 객체 메타데이터의 역할을 할 수 있으며, 여기서 수정된 렌더링 매트릭스(142)는 렌더링 정보의 역할을 할 수 있고, 여기서 MPEG 서라운드 비트스트림(984)와 결합하여 하나 이상의 다운믹스 신호들(988)은 업믹스 신호 표현(130)의 역할을 할 수 있다.
따라서, 신호 프로세서(148)의 기능에 관한 세부사항에 대해, SAOC 디코더(820), 분리된 디코더 및 믹서(920), 통합된 디코더 및 믹서(950), 및 SAOC 대 MPEG 서라운드 트랜스코더(980)의 세부사항에 관하여 언급하였다. 신호 프로세서(148)의 기능과 관련하여 예를 들어, 문헌 [3] 및 [4]에 관하여도 언급하였는데, 여기서 사용자 지정 렌더링 매트릭스(120) 대신에 수정된 렌더링 매트릭스(142)가 본 발명에 따른 실시예들에서 입력 렌더링 정보의 역할을 한다.
왜곡 제한기(140)의 기능에 관한 추가적인 세부사항들이 하기에서 설명될 것이다.
2. 도 1b에 따른 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치
도 1b는 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치(150)에 대한 블록 도식도를 도시한다.
상기 장치(150)는 복수의 오디오 객체 신호들(160a 내지 160N)을 수신하도록 구성된다. 상기 장치(150)는 오디오 객체 신호들(160a 내지 160N)에 의해 표현되는 다중 채널 오디오 신호를 표현하는 비트스트림(170)을 제공하도록 더 구성된다.
상기 장치(150)는 복수의 오디오 객체 신호들(160a 내지 160N)에 기초하여 다운믹스 신호(182)를 제공하도록 구성되는 다운믹서(180)를 포함한다. 상기 장치(150)는 또한 다운믹서(180)에 의해 사용되는 오디오 객체 신호들(160a 내지 160N) 및 다운믹스 파라미터들의 특성들을 표현하는 객체 관련 파라메트릭 부가 정보(186)를 제공하도록 구성되는 부가 정보 제공기(side information provider, 184)를 포함한다. 부가 정보 제공기(184)는 또한 수정된 렌더링 매트릭스에 대한 (원하는) 사용자 지정 렌더링 매트릭스 및 목표 (저 왜곡(low-distortion)) 렌더링 매트릭스의 원하는 기여도를 표현하는 선형 결합 파라미터(188)를 제공하도록 구성된다.
객체 관련 파라메트릭 부가 정보(186)는, 예를 들어, (예를 들어, 대역 측면의 방식(band-wise manner)으로) 오디오 객체 신호들(160a 내지 160N)의 객체 수준 차이를 표현하는 객체 수준 차이 정보(OLD)를 포함할 수 있다. 객체 관련 파라메트릭 부가 정보는 또한 오디오 객체 신호들(160a 내지 160N) 사이의 상관관계를 표현하는 상호 객체 상관관계 정보(IOC)를 포함할 수 있다. 또한, 객체 관련 파라메트릭 부가 정보는 (예를 들어, 객체 측면의 방식(object-wise manner)으로) 다운믹스 이득을 표현할 수 있는데, 여기서 다운믹스 이득 값들은 오디오 객체 신호들(160a 내지 160N)을 결합하여 다운믹스 신호(182)를 얻기 위해 다운믹서(180)에 의해 사용된다. 객체 관련 파라메트릭 부가 정보(186)는 다운믹스 채널 수준 차이 정보(DCLD)를 포함할 수 있는데, 이는 (예를 들어, 만약 다운믹스 신호(182)가 다중 채널 신호라면) 다운믹스 신호(182)의 다중 채널들에 대한 다운믹스 수준들 사이의 차이를 표현한다.
선형 결합 파라미터(188)는 예를 들어 (예를 들어, 파라미터 값 0에 대해) 오직 사용자 지정 다운믹스 매트릭스, (예를 들어, 파라미터 값 1에 대해) 오직 목표 렌더링 매트릭스, 또는 (예를 들어 파라미터 값들 0과 1 사이에 대해) 이러한 양극단 중간의 사용자 지정 렌더링 매트릭스와 목표 렌더링 매트릭스의 임의의 주어진 결합을 사용할 것을 표현하는 0과 1 사이의 숫자 값들일 수 있다.
상기 장치(150)는 또한 비트스트림이 다운믹스 신호(182), 객체 관련 파라메트릭 부가 정보(186), 및 선형 결합 파라미터(188)의 표현을 포함하는 비트스트림(170)을 제공하도록 구성되는 비트스트림 포맷터(190)를 포함한다.
따라서, 상기 장치(150)는 도 8에 따른 SAOC 인코더(810) 또는 도 9a - 9c에 따른 객체 인코더의 기능을 수행한다. 오디오 객체 신호들(160a 내지 160N)은, 예를 들어, SAOC 인코더(810)에 의해 수신되는 객체 신호들(x1 내지 xN)에 대응된다. 다운믹스 신호(182)는, 예를 들어, 하나 이상의 다운믹스 신호들(812)에 대응할 수 있다. 객체 관련 파라메트릭 부가 정보(186)는, 예를 들어, 부가 정보(814) 또는 객체 메타데이터에 대응될 수 있다. 그러나, 상기 1개 채널 다운믹스 신호 또는 다중 채널 다운믹스 신호(182) 및 상기 객체 관련 파라메트릭 부가 정보(186)에 더해, 비트스트림(170)은 또한 선형 결합 파라미터(188)를 인코딩할 수 있다.
따라서, 상기 장치(150)가 비트스트림(170)을 수신하는 오디오 디코더(예를 들어, 장치 100)에 의해 제공되는 충분한 렌더링 품질을 기대하도록, 선형 결합 파라미터(188)를 적절히 설정하여, 오디오 인코더로 간주될 수 있는 상기 장치(150)는 왜곡 제한기(140)에 의해 수행되는 왜곡 제어 방식에 대한 디코더 측 처리에 영향을 준다.
예를 들어, 부가 정보 제공기(184)는 상기 장치(150)의 선택적 사용자 인터페이스(199)로부터 수신되는 품질 요구 정보에 따라 선형 결합 파라미터를 설정할 수 있다. 대안으로, 또는 덧붙여, 부가 정보 제공기(184)는 또한 오디오 객체 신호들(160a 내지 160N), 및 다운믹서(180)의 다운믹싱 파라미터들의 특성들을 고려할 수 있다. 예를 들어, 상기 장치(150)는 하나 이상의 최악의 경우의 사용자 지정 렌더링 매트릭스들이라는 가정 하에 오디오 디코더에서 얻어지는 왜곡의 정도를 추정할 수 있고, 이러한 선형 결합 파라미터의 고려 하에 오디오 신호 디코더에 의해 얻어질 것으로 예상되는 렌더링 품질이 부가 정보 제공기(184)에 의해 여전이 충분하다고 간주되도록 선형 결합 파라미터(188)를 조정할 수 있다. 예를 들어, 만약 부가 정보 제공기(184)가 지나친 사용자 지정 렌더링 설정들이 있음에도 업믹스 신호 표현에 대한 오디오 품질이 심각하게 저하되지 않을 것이라고 여긴다면, 상기 장치(150)는 수정된 렌더링 매트릭스에 강력한 사용자 영향(사용자 지정 렌더링 매트릭스의 영향)을 가능하게 하는 값으로 선형 결합 파라미터(188)를 설정할 수 있다. 이는, 예를 들어, 오디오 신호들(160a 내지 160N)이 충분히 유사한 경우일 수 있다. 그에 반해서, 만약 부가 정보 제공기(184)가 지나친 렌더링 설정들이 뚜렷한 오디오 왜곡을 야기할 수 있다고 여긴다면, 상기 부가 정보 제공기(184)는 사용자(또는 사용자 지정 렌더링 매트릭스)의 비교적 작은 영향을 가능하게 하는 값으로 선형 결합 파라미터(188)를 설정할 수 있다. 이는, 예를 들어, 오디오 디코더 측에서 오디오 객채들의 깨끗한 분리가 어려운(또는 가청 왜곡과 관련되는), 가령 오디오 객체 신호들(160a 내지 160N)이 상당히 다른 경우일 수 있다.
예를 들어, 원하는 렌더링 품질 정보가 사용자 인터페이스를 통해 상기 장치(150)로 입력되거나 분리된 오디오 객체들에 관한 상세한 정보가 오디오 객체 신호들(160a 내지 160N)에 의해 표현되는 것과 같이, 오직 상기 장치(150) 측에서만 이용 가능하고 오디오 디코더(예를 들어, 장치 100) 측에서는 이용 가능하지 않은 선형 결합 파라미터(188)의 설정에 대한 정보를 상기 장치(150)는 사용할 수 있음을 여기서 주의해야 한다.
따라서, 부가 정보 제공기(184)는 매우 의미 있는 방식으로 선형 결합 파라미터(188)를 제공할 수 있다.
3. 도 2에 따른 왜곡 제어 유닛( Distortion Control Unit , DCU )을 구비한 SAOC 시스템
3.1 SAOC 디코더 구조
다음에서, 왜곡 제어 유닛에 의해 수행되는 프로세싱(DCU 프로세싱)이 SAOC 시스템(200)의 블록 도식도가 도시되는 도 2를 참조하여 설명될 것이다. 특히, 도 2는 전체 SAOC 시스템 내의 왜곡 제어 유닛(DCU)을 도시한다.
도 2를 참조하면, SAOC 디코더(200)는, 예를 들어, 1개 채널 다운믹스 신호 또는 2개 채널 다운믹스 신호, 또는 심지어 2개 이상의 채널들을 갖는 다운 믹스 신호를 표현하는 다운믹스 신호 표현(210)을 수신하도록 구성된다. SAOC 디코더(200)는, 예를 들어, 객체 수준 차이 정보(OLD), 상호 객체 상관관계 정보(IOC), 다운믹스 이득 정보(DMG), 및, 선택적으로, 다운믹스 채널 수준 차이 정보(DCLD)와 같은 객체 관련 파라메트릭 부가 정보를 포함하는 SAOC 비트스트림(212)을 수신하도록 구성된다. SAOC 디코더(200)는 또한, gDUC로도 지칭되는, 선형 결합 파라미터(214)를 얻도록 구성된다.
일반적으로, 다운믹스 신호 표현(210), SAOC 비트스트림(212), 및 선형 결합 파라미터(214)는 오디오 콘텐츠의 비트스트림 표현에 포함된다.
SAOC 디코더(200)는 또한, 예를 들어, 사용자 인터페이스로부터 렌더링 매트릭스 입력(220)을 수신하도록 구성된다. 예를 들어, SAOC 디코더(200)는, (업믹스 표현의) 1, 2, 또는 그 이상의 출력 오디오 신호 채널들에 대한 복수의(Nobj) 오디오 객체들의 (사용자 지정, 요구) 기여도를 정의하는 매트릭스(Mren)의 형태로 렌더링 매트릭스 입력(220)을 수신할 수 있다. 렌더링 매트릭스(Mren)는, 예를 들어, 사용자 인터페이스로부터 입력될 수 있는데, 여기서 사용자 인터페이스는 원하는 렌더링 설정의 표현에 대한 서로 다른 사용자 지정 형태를 렌더링 매트릭스(Mren)의 파라미터들로 전환할 수 있다. 예를 들어, 사용자 인터페이스는 수준 슬라이더(slider) 값들의 형태인 입력 및 오디오 객체 위치 정보를 어떠한 맵핑을 이용하여 사용자 지정 렌더링 매트릭스(Mren)로 전환할 수 있다.
여기서, 본 설명에 걸쳐, 파라미터 시간 슬롯을 정의하는 l 및 프로세싱 대역을 정의하는 m 인덱스들은 명료함을 위해 때때로 생략됨에 주의해야 한다. 그럼에도 불구하고, 상기 프로세싱은 인덱스들 l을 갖는 복수의 이어지는 파라미터 시간 슬롯들 및 주파수 대역 인덱스들 m을 갖는 복수의 주파수 대역들에 대해 개별적으로 수행될 수 있음을 유념해야 한다.
SAOC 디코더(200)는 또한 사용자 지정 렌더링 매트릭스(Mren), (하기에서 상세히 설명될) SAOC 비트스트림 정보(212)의 적어도 일부, 및 선형 결합 파라미터(214)를 수신하도록 구성되는 왜곡 제어 유닛(DCU, 240)를 포함한다. 왜곡 제어 유닛(240)은 수정된 렌더링 매트릭스(Mren , lim)를 제공한다.
오디오 디코더(200)는 또한 신호 프로세서로 간주될 수 있고, 다운믹스 신호 표현(210), SAOC 비트스트림(212), 및 수정된 렌더링 매트릭스(Mren , lim)를 수신하는 SAOC 디코딩/트랜스코딩 유닛(248)을 포함한다. SAOC 디코딩/트랜스코딩 유닛(248)은 업믹스 신호 표현으로 간주될 수 있는 하나 이상의 출력 채널들의 표현(230)을 제공한다. 하나 이상의 출력 채널들의 표현(230)은, 예를 들어, 개개의 오디오 신호 채널들에 대한 주파수 도메인 표현, 개개의 오디오 채널들에 대한 시간 도메인 표현, 또는 파라메트릭 다중 채널 표현의 형태를 취할 수 있다. 예를 들어, 업믹스 신호 표현(230)은 MPEG 서라운드 다운믹스 신호 및 MPEG 서라운드 부가 정보를 포함하는 MPEG 서라운드 표현의 형태를 취하도록 한다.
SAOC 디코딩/트랜스코딩 유닛(248)은 신호 프로세서(148)와 동일한 기능을 포함할 수 있고, SAOC 디코더(820), 분리된 코더 및 믹서(920), 통합된 디코더와 믹서(950), 및 SAOC 대 MPEG 서라운드 트랜스코더(980)에 대응될 수 있음에 주의해야 한다.
3.2 SAOC 디코더의 작동에 대한 서론
다음에서, SAOC 디코더(200)의 작동에 대한 간단한 소개가 주어질 것이다.
전체 SAOC 시스템 내에서, 왜곡 제어 유닛(DCU)은 렌더링 인터페이스(예를 들어, 사용자 지정 렌더링 매트릭스, 또는 사용자 지정 렌더링 매트릭스가 도출될 수 있는 정보가 입력되는 사용자 인터페이스)와 실제 SAOC 디코딩/트랜스코딩 유닛 사이의 SAOC 디코더/트랜스코더 프로세싱 체인(chain)에 포함된다.
왜곡 제어 유닛(240)은 렌더링 인터페이스(예를 들어, 렌더링 인터페이스 또는 사용자 인터페이스를 통한, 직접적 또는 간접적, 사용자 지정 렌더링 매트릭스 입력) 및 SAOC 데이터(예를 들어, SAOC 비트스트림(212)으로부터의 데이터)로부터의 정보를 이용하여 수정된 렌더링 매트릭스(Mren , lim)를 제공한다. 더 상세한 설명을 위해, 도2에 관하여 언급하였다. 수정된 렌더링 매트릭스(Mren , lim)는 실질적으로 효과적인 렌더링 설정들을 반영하는 응용(예를 들어, SAOC 디코딩/트랜스코딩 유닛, 248)에 의해 접근될 수 있다.
요소들
Figure pct00019
을 갖는 (사용자 지정) 렌더링 매트릭스(
Figure pct00020
)에 의해 표현되는 사용자 지정 렌더링 시나리오에 기초하여, DCU는 SAOC 렌더링 엔진에 의해 사용될, 제한된 렌더링 계수들을 포함하는 수정된 매트릭스(
Figure pct00021
)을 만들어 내어 지나친 렌더링 설정들을 방지한다. SAOC의 모든 작동 모드들에 있어서, 최종 (DCU 프로세싱된) 렌더링 계수들은:
Figure pct00022

에 따라 산출될 것이다.
선형 결합 파라미터라고도 지칭되는 파라미터 gDCU ∈ [0, 1]는 사용자 지정 렌더링 매트릭스(
Figure pct00023
)에서 무 왜곡 목표 매트릭스(
Figure pct00024
)로의 전환 정도를 정의하는데 사용된다.
상기 파라미터(gDCU)는
gDCU = DcuParam[bsDcuParam]
에 따라 비트스트림 요소 "bsDcuParam"으로부터 도출된다.
따라서, 사용자 지정 렌더링 매트릭스(Mren)와 무 왜곡 목표 렌더링 매트릭스(Mren , tar) 사이의 선형 결합은 선형 결합 파라미터(gDCU)에 따라 형성된다. 선형 결합 파라미터(gDCU)는, (적어도 디코더 측에서) 요구되는 상기 선형 결합 파라미터(gDCU)에 대한 어떠한 어려운 계산이 없도록, 비트스트림 요소로부터 도출된다. 또한, 다운믹스 신호 표현(210), SAOC 비트스트림(212), 및 선형 결합 파라미터를 표현하는 비트스트림 요소를 포함하는 비트스트림으로부터의 선형 결합 파라미터(gDCU)의 도출은, 오디오 신호 인코더가 SAOC 디코더 측에서 수행되는 왜곡 제어 작용(mechanism)을 부분적으로 제어할 기회를 준다.
서로 다른 응용들에 적합한 2가지의 가능한 무 왜곡 목표 매트릭스(
Figure pct00025
) 형태가 있다. 이는 비스트스림 요소 "bsDcuMode"에 의해 제어된다:
● ("bsDcuMode" = 0):
Figure pct00026
가 에너지 표준화된 다운믹스 매트릭스에 상응하는 "유사 다운믹스" 렌더링.
● ("bsDcuMode" = 1):
Figure pct00027
가 다운믹스 및 사용자 지정 렌더링 매트릭스 모두의 기능으로 정의되는 "최선형" 렌더링.
요약하면, 비트스트림 요소들 "bsDcuMode"에 따라 선택될 수 있는 "유사 다운믹스" 렌더링 및 "최선형" 렌더링으로 불리는 2가지의 왜곡 제어 모드들이 있다. 이러한 2가지 모드들은 그것들의 목표 렌더링 매트릭스가 계산되는 점에서 다르다. 다음에서, 2가지의 모드들 "유사 다운믹스" 렌더링 및 "최선형" 렌더링에 대한 목표 렌더링 매트릭스의 계산에 관한 세부사항들이 상세히 설명될 것이다.
3.3 "유사 다운믹스" 렌더링
3.3.1 서론
"유사 다운믹스" 렌더링 방법은 일반적으로 다운믹스가 예술적으로 높은 품질의 중요한 참조(reference)일 경우에 사용될 수 있다. "유사 다운믹스" 렌더링 매트릭스(
Figure pct00028
)는
Figure pct00029

와 같이 계산되는데,
여기서
Figure pct00030
는 (각각의 파라미터 슬롯 l에 대한) 에너지 표준화 스칼라를 표현하고,
Figure pct00031
는,
Figure pct00032
의 행들의 숫자 및 순서가
Figure pct00033
의 성상에 상응하는, 0 요소들의 행들에 의해 확장되는 다운믹스 매트릭스(Dl)이다.
예를 들어, SAOC 스테레오 대 다중채널 트랜스코딩 모드(NMPS = 6). 따리서,
Figure pct00034
는 (N이 입력 오디오 객체들의 수를 나타내는) NMPS × N의 크기이고, 앞부분 왼쪽 및 오른쪽 출력 채널들을 표현하는 그것의 행들은 Dl(또는 Dl의 상응하는 행)과 동일하다.
상기에 대한 이해를 돕기 위해, 렌더링 매트릭스 및 다운믹스 매트릭스에 대한 다음의 정의들이 고려되어야 할 것이다.
입력 오디오 객체들(S)에 적용되는 (수정된) 렌더링 매트릭스(Mrem , lim)는 목표 렌더링된 출력을 Y = Mrem , lim S로 결정한다. 요소들 mi ,j을 갖는 (수정된) 렌더링 매트릭스(Mrem , lim)는 모든 입력 객체들 i(즉, 객체 인덱스 i를 갖는 입력 객체들)을 바람직한 출력 채널들 j(즉, 채널 인덱스 j를 갖는 출력 채널들)로 맵핑한다(map). (수정된) 렌더링 매트리스(Mrem , lim)는
5.1 출력 구성에 대해서,
Figure pct00035

스테레오 출력 구성에 대해서,
Figure pct00036

모노 출력 구성에 대해서,
Figure pct00037

로 주어진다.
동일한 차원들(dimensions)이 일반적으로 또한 사용자 지정 렌더링 매트릭스(Mren) 및 목표 렌더링 매트릭스(Mren , tar)에 적용된다.
(오디오 디코더에서) 입력 오디오 객체들(S)에 적용되는 다운믹스 매트릭스(D)는 다운믹스 신호를 X=DS로 결정한다.
스테레오 다운믹스의 경우에 있어서, 요소들 di ,j(i = 0, 1; j = 0, ..., N-1)을 갖는 (가능한 시간 의존성(dependency)을 보여주기 위해 Dl로도 지칭되는) 2 × N 크기의 다운믹스 매트릭스(D)는
Figure pct00038

와 같이 DMG 및 DCLD 파라미터들로부터 (오디오 디코더에서) 얻어진다.
모노 다운믹스의 경우에 있어서, 요소들 di ,j(i = 0; j = 0, ..., N-1)을 갖는 1 × N 크기의 다운믹스 매트릭스(D)는
Figure pct00039

와 같이 DMG 파라미터들로부터 (오디오 디코더에서) 얻어진다.
다운믹스 파라미터들(DMG 및 DCLD)은 SAOC 비트스트림(212)으로부터 얻어진다.
3.3.2 모든 디코딩/트랜스코딩 SAOC 모드들에 대한 에너지 표준화 스칼라 계산
모든 디코딩/트랜스코딩 SAOC 모드들에 있어서 에너지 표준화 스칼라(
Figure pct00040
)는 다음의 방정식:
Figure pct00041

을 이용하여 계산된다.
3.4 "최선형" 렌더링
3.4.1 서론
"최선형" 렌더링 방법은 일반적으로 목표 렌더링이 중요한 기준인 경우에 사용될 수 있다.
"최선형" 렌더링 매트릭스는 다운믹스 및 렌더링 정보에 의해 결정되는 목표 렌더링 매트릭스를 표현한다. 에너지 표준화는 NMPS × M 크기인 매트릭스(
Figure pct00042
)에 의해 표현되고, 그러므로 각각의 출력 채널에 대한 개개의 값들을 제공한다. 이는, 다음에서 약술되는, 서로 다른 SAOC 작동 모드들에 대해
Figure pct00043
의 서로 다른 계산을 요구한다. "최선형" 렌더링 매트릭스는
다음의 SAOC 모드들 "x-1-1/2/5/b", "x-2-1/b"에 대해서,
Figure pct00044
,
다음의 SAOC 모드들 "x-2-2/5"에 대해서,
Figure pct00045

로 계산된다.
여기서 Dl은 다운믹스 매트릭스이고
Figure pct00046
은 에너지 표준화 매트릭스를 표현한다.
상기 방정식에서 제곱근 연산자는 요소 측면(element-wise)의 제곱근 형태(formation)를 지칭한다.
다음에서, SAOC 모노 대 모노 디코딩 모드 경우에 에너지 표준화 스칼라일 수 있고, 다른 디코딩 모드들 또는 트랜스코딩 모드들의 경우에 에너지 표준화 매트릭스일 수 있는 값
Figure pct00047
에 대한 계산이 상세히 설명될 것이다.
3.4.2 SAOC 모노 대 모노 ("x-1-1") 디코딩 모드
(업믹스 신호 표현으로써) 모노 출력 신호를 얻기 위해 모노 다운믹스 신호가 디코딩되는 "x-1-1" SAOC 모드에 있어서, 에너지 표준화 스칼라(
Figure pct00048
)는 다음의 방정식
Figure pct00049

을 이용하여 계산된다.
3.4.3 SAOC 모노 대 스테레오("x-1-2") 디코딩 모드
(업믹스 신호 표현으로써) 스테레오(2개 채널) 출력을 얻기 위해 모노 다운믹스 신호가 디코딩되는 "x-1-2" SAOC 모드에 있어서, 2 × 1 크기의 에너지 표준화 매트릭스(
Figure pct00050
)는 다음의 방정식
Figure pct00051

을 이용하여 계산된다.
3.4.4 SAOC 모노 대 바이노럴(mono-to-binaural)("x-1-b") 디코딩 모드
(업믹스 신호 표현으로써) 바이노럴 렌더링된 출력 신호를 얻기 위해 모노 다운믹스 신호가 디코딩되는 "x-1-b" SAOC 모드에 있어서, 2 × 1 크기의 에너지 표준화 매트릭스(
Figure pct00052
)는 다음의 방정식
Figure pct00053

을 이용하여 계산된다.
요소
Figure pct00054
는 목표 바이노럴 렌더링 매트릭스(Al ,m)를 포함한다(또는 목표 바이노럴 렌더링 매트릭스(Al ,m)로부터 취득된다).
3.4.5 SAOC 스테레오 대 모노("x-2-1") 디코딩 모드
(업믹스 신호 표현으로써) 1개 채널(모노) 출력 신호를 얻기 위해 2개 채널(스테레오) 다운믹스 신호가 디코딩되는 "x-2-1" SAOC 모드에 있어서, 1 × 2 크기의 에너지 표준화 매트릭스(
Figure pct00055
)는 다음의 방정식
Figure pct00056

을 이용하여 계산되는데, 여기서
Figure pct00057
는 1 × N 크기의 모노 렌더링 매트릭스이다.
3.4.6 SAOC 스테레오 대 스테레오("x-2-2") 디코딩 모드
(업믹스 신호 표현으로써) 스테레오 출력 신호를 얻기 위해 스테레오 다운믹스 신호가 디코딩되는 "x-2-2" SAOC 모드에 있어서, 2 × 2 크기의 에너지 표준화 매트릭스(
Figure pct00058
)는 다음의 방정식
Figure pct00059

을 이용하여 계산되는데, 여기서
Figure pct00060
는 2 × N 크기의 스테레오 렌더링 매트릭스이다.
3.4.7 SAOC 스테레오 대 바이노럴("x-2-b") 디코딩 모드
(업믹스 신호 표현으로써) 바이노럴 렌더링된 출력 신호를 얻기 위해 스테레오 다운믹스 신호가 디코딩되는 "x-2-b" SAOC 모드에 있어서, 2 × 2 크기의 에너지 표준화 매트릭스(
Figure pct00061
)는 다음의 방정식
Figure pct00062

을 이용하여 계산되는데, 여기서 Al ,m은 2 × N 크기의 바이노럴 렌더링 매트릭스이다.
3.4.8 SAOC 모노 대 다중채널("x-1-5") 트랜스코딩 모드
(업믹스 신호 표현으로써) 5개 채널 또는 6개 채널 출력 신호를 얻기 위해 모노 다운믹스 신호가 트랜스코딩되는 "x-1-5" SAOC 모드에 있어서, NMPS × 1 크기의 에너지 표준화 매트릭스(
Figure pct00063
)는 다음의 방정식
Figure pct00064

을 이용하여 계산된다.
3.4.9 SAOC 스테레오 대 다중채널("x-2-5") 트랜스코딩 모드
(업믹스 신호 표현으로써) 5개 채널 또는 6개 채널 출력 신호를 얻기 위해 스테레오 다운믹스 신호가 트랜스코딩되는 "x-2-5" SAOC 모드에 있어서, NMPS × 2 크기의 에너지 표준화 매트릭스(
Figure pct00065
)는 다음의 방정식
Figure pct00066

을 이용하여 계산된다.
3.4.10 Jl의 계산
3.4.5, 3.4.6, 3.4.7., 및 3.4.9에서 항(term, 項)
Figure pct00067
을 계산할 때 수와 관련된 문제들을 방지하기 위해, Jl은 몇몇 실시예들에서 수정된다. 우선 Jl의 고유값들 λ1,2가 계산되어, (J-λ1,2I)=0 을 푼다.
고유값들은 내림(λ1 ≥ λ2)차순으로 정렬되고 더 큰 고유값에 상응하는 고유벡터는 상기 방정식에 따라 계산된다. 양의 x면에 있음이 확인된다(제1 요소는 양(positive)이어야 한다). 제2 고유벡터는 -90도 회전하여 첫 번째로부터 얻어진다:
Figure pct00068

3.4.11 향상된 오디오 객체들(EAO)을 위한 왜곡 제어 유닛(DCU) 응용
다음에서, 왜곡 제어 유닛의 응용에 관한 몇몇 선택적 확장들이 설명될 것인데, 이는 본 발명에 따른 몇몇 실시예들에서 구현될 수 있다.
잔여 코딩 데이터를 디코딩하고 따라서 EAO들의 처리를 지원하는 SAOC 디코더들에 있어서, EAO들을 사용함으로써 제공되는 향상된 오디오 품질을 이용 가능하게 하는 DCU의 제2 파라미터화(parameterization)를 제공하는 것이 의미 있을 수 있다. 이는 잔여 데이터(즉, SAOCExtensionConfigData() 및 SAOCExtensionFrameData())를 포함하는 데이터 구조들의 일부로써 추가로 전송되는 DCU 파라미터들의 제2 대체 셋트(즉, bsDcuMode2 및 bsDcuParam2)을 디코딩하고 이용함으로써 달성될 수 있다. 만약 잔여 코딩 데이터를 디코딩하고, 오직 EAO들만이 임의대로 수정될 수 있으며 반면 모든 비 EAO들은 단일의 공통된 수정만을 받는다는 조건으로 정의되는 엄격한 EAO 모드로 작동한다면, 응용은 이러한 제2 파라미터 셋트를 사용하도록 할 수 있다. 특히, 이러한 엄격한 EAO 모드는 다음의 2가지 조건들을 만족시킬 것을 요구한다:
다운믹스 매트릭스와 렌더링 매트릭스가 동일한 크기(dimensions)를 갖는다(렌더링 채널들의 수가 다운믹스 채널들의 수와 동일함을 의미함).
상기 응용은 오직 단일의 공통 스케일링 인자로 그들에 상응하는 다운믹스 계수들에 관련되는 보통의(regular) 객체들(즉, 비-EAO들) 각각에 대해 렌더링 계수들을 쓴다.
4. 도 3a에 따른 비트스트림
다음에서, 다중 채널 오디오 신호를 표현하는 비트스트림이 그러한 비트스트림(300)의 그래픽적 표현을 도시하는 도 3a를 참조하여 설명될 것이다.
비트스트림(300)은 복수의 오디오 객체들의 오디오 신호들을 결합하는 다운믹스 신호의 표현(즉, 인코딩된 표현)인 다운믹스 신호 표현(302)을 포함한다. 비트스트림(300)은 또한 오디오 객체의 특성들, 및 일반적으로 또한 오디오 인코더에서 수행되는 다운믹스의 특성들을 표현하는 객체 관련 파라메트릭 부가 정보(304)를 포함한다. 객체 관련 파라메트릭 정보(304)는 바람직하게는 객체 수준 차이 정보(OLD), 상호 객체 상관관계 정보(IOC), 다운믹스 이득 정보(DMG), 및 다운믹스 채널 수준 차이 정보(DCLD)를 포함한다. 비트스트림(300)은 또한 (오디오 신호 디코더에 의해 적용되는) 수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스 및 목표 렌더링 매트릭스의 원하는 기여도를 표현하는 선형 결합 파라미터(306)를 포함한다.
비트스트림(170)으로써 상기 장치(150)를 통해 제공될 수 있고, 다운믹스 신호 표현(110), 객체 관련 파라메트릭 정보(112), 및 선형 결합 파라미터(140)를 얻기 위해 상기 장치(100)로, 또는 다운믹스 정보(210), SAOC 비트스트림 정보(212), 및 선형 결합 파라미터(214)를 얻기 위해 상기 장치(200)로 입력될 수 있는 이러한 비트스트림(300)에 관한 추가적인 선택적 세부사항들이 도 3b 및 3c를 참조하여 다음에서 설명될 것이다.
5. 비트스트림 구문 세부사항들
5.1 SAOC 세부 구성 구문
도 5b는 SAOC 지정 구성 정보에 대한 상세한 구문 표현을 도시한다.
도 3b에 따른 SAOC 지정 구성(310)은, 예를 들어, 도 3a에 따른 비트스트림(300)의 헤더(header)의 일부일 수 있다.
SAOC 지정 구성은, 예를 들어, SAOC 디코더에 의해 적용되는 샘플링 주파수를 표현하는 샘플링 주파수 구성을 포함할 수 있다. SAOC 지정 구성은 또한 신호 프로세서(148)의 또는 SAOC 디코딩/트랜스코딩 유닛(248)의 저 지연 모드(low-delay-mode) 또는 고(high) 지연 모드가 사용되어야 하는지 여부를 표현하는 저 지연 모드 구성을 포함한다. SAOC 지정 구성은 또한 신호 프로세서(148)에 의해 또는 SAOC 디코딩/트랜스코딩 유닛(248)에 의해 사용되는 주파수 분해능을 표현하는 주파수 분해능 구성을 포함한다. 또한, SAOC 지정 구성은 신호 프로세서(148)에 의해, 또는 SAOC 디코딩/트랜스코딩 유닛(248)에 의해 사용되는 오디오 프레임들의 길이를 표현하는 프레임 길이 구성을 포함할 수 있다. 더불어, SAOC 지정 구성은 일반적으로 신호 프로세서(148)에 의해, 또는 SAOC 디코딩/트랜스코딩 유닛(248)에 의해 프로세싱되는 오디오 객체들의 수를 표현하는 객체 수 구성을 포함한다. 객체 수 구성은 또한 객체 관련 파라메트릭 정보(112)에, 또는 SAOC 비트스트림(212)에 포함되는 객체 관련 파라미터들의 수를 표현한다. SAOC 지정 구성은 공통 객체 관련 파라메트릭 정보를 갖는 객체들을 지칭하는 객체 관계 구성을 포함할 수 있다. SAOC 지정 구성은 또한 절대 에너지 정보(absolute energy information)가 오디오 인코더로부터 오디오 디코더로 전송되는지 여부를 나타내는 절대 에너지 전송 구성을 포함할 수 있다. SAOC 지정 구성은 또한 오직 하나의 다운믹스 채널이 있는지, 2개의 다운믹스 채널들이 있는지 여부, 또는 선택적으로 2개 이상의 다운믹스 채널들이 있는지 여부를 나타내는 다운믹스 채널 수 구성을 포함할 수 있다. 또한, SAOC 지정 구성은 몇몇 실시예들에서 추가적인 구성 정보를 포함할 수 있다.
SAOC 지정 구성은 또한 선택적 사후 프로세싱(post processing)에 대한 사후 프로세싱 다운믹스 이득이 전송되는지 여부를 정의하는 사후 프로세싱 다운믹스 이득 구성 정보 "bsPdgFlag"를 포함할 수 있다.
SAOC 지정 구성은 또한 "bsDcuMode" 및 "bsDcuParam" 값들이 비트스트림으로 전송되는지 여부를 정의하는 (예를 들어, 1비트 플래그일 수 있는) 플래그 "bsDcuFlag"를 포함한다. 만약 이 "bsDcuFlag" 플래그가 "1"의 값을 취한다면, "bsDucMandatory"로 표시되는 다른 플래그 및 플래그 "bsDucDynamic"가 SAOC 지정 구성(310)에 포함된다. 플래그 "bsDucMandatory"는 왜곡 제어가 오디오 디코더에 의해 적용되어야 하는지 여부를 표현한다. 만약 플래그 "bsDucMandatory"가 1과 같다면, 그 다음에 비트스트림으로 전송되는 파라미터들 "bsDcuMode" 및 "bsDcuParam"을 이용하여 왜곡 제어 유닛이 적용되어야 한다. 만약 플래그 "bsDucMandatory"가 "0"과 같다면, 그 다음에 비트스트림으로 전송되는 왜곡 제어 유닛 파라미터들 "bsDcuMode" 및 "bsDcuParam"은 단지 권장하는 값들이고 또한 다른 왜곡 제어 유닛 설정들이 사용될 수 있다.
다시 말해서, 오디오 인코더는 표준 준수 오디오 디코더에서 왜곡 제어 방법의 사용을 강제하기 위해 플래그 "bsDucMandatory"를 활성화시킬 수 있고, 왜곡 제어 유닛을 적용할지 여부, 만약 그렇다면, 오디오 디코더에서 왜곡 제어 유닛에 대해 어떤 파라미터들을 사용할지 여부에 대한 결정을 미루기 위해 상기 플래그를 비활성화시킬 수 있다.
플래그 "bsDucDynamic"은 "bsDcuMode" 및 "bsDcuParam" 값들의 동적 신호보내기(signaling)를 가능하게 한다. 만약 플래그 "bsDucDynamic"이 비활성화된다면, 파라미터들 "bsDcuMode" 및 "bsDcuParam"은 SAOC 지정 구성에 포함되고, 그렇지 않으면, 이후에 논의될 것으로, 파라미터들 "bsDcuMode" 및 "bsDcuParam"은 SAOC 프레임들, 또는 적어도 SAOC 프레임들의 몇몇에 포함된다. 따라서, 오디오 신호 인코더는 (단일 SAOC 지정 구성, 및 일반적으로 복수의 SAOC 프레임들을 포함하는 오디오 하나 당) 1회 신호보내기, 및 몇몇 또는 모든 SAOC 프래임들 내에서의 상기 파라미터들의 동적 전송 사이를 전환할 수 있다.
파라미터 "bsDcuMode"는 도 3d의 표에 따라 왜곡 제어 유닛(DCU)에 대한 무 왜곡 목표 매트릭스 형태를 정의한다.
파라미터 "bsDcuParam"은 도 3e의 표에 따라 왜곡 제어 유닛(DCU) 알고리즘에 대한 파라미터 값을 정의한다. 다시 말해서, 4비트 파라미터 "bsDcuParam"은 ("DcuParam[ind]" 또는 "DcuParam[idx]"로도 지칭되는) 선형 결합 값(gDCU)에 오디오 신호 디코더에 의해 맵핑될 수 있는 인덱스 값(idx)을 정의한다. 그러므로, 파라미터 "bsDcuParam"은 양자화된 방식으로 선형 결합 파라미터를 표현한다.
도 3b에서 알 수 있는 바와 같이, 파라미터들 "bsDcuMandatory", "bsDcuDynamic", "bsDcuMode", 및 "bsDcuParam"은 디폴트 값 "0"으로 설정되고, 만약 플래그 "bsDcuFlag"가 "0" 값을 취한다면, 이는 어떠한 왜곡 제어 유니 파라미터들도 전송되지 않았음을 의미한다.
SAOC 지정 구성은 또한, 선택적으로, SAOC 지정 구성을 원하는 길이로 하기 위해 1 이상의 바이트 정렬 비트들 "ByteAlign()"을 포함한다.
또한, SAOC 지정 구성은 선택적으로 SAOC 확장 구성 "SAOCExtensionConfig()"을 포함할 수 있는데, 이는 추가적인 구성 파라미터들을 포함한다. 그러나, 상기 구성 파라미터들은 본 발명과 관련이 없으므로, 그 논의는 간결함을 위해 여기서 생략된다.
5.2 SAOC 프레임 구문
다음에서 SAOC 프레임의 구문이 도 3c를 참조하여 설명될 것이다.
SAOC 프레임 "SAOCFrame"은 일반적으로 이전에 논의된 인코딩된 객체 수준 차이 값들(OLD)을 포함하는데, 이는 복수의 주파수 대역들("대역 측면(band-wise)")을 위해, 그리고 복수의 오디오 객체들(오디오 객체 당)을 위해 SAOC 프레임 데이터 내에 포함될 수 있다.
SAOC 프레임은 또한, 선택적으로, 복수의 주파수 대역들(대역 측면)을 위해 포함될 수 있는 인코딩된 절대 에너지 값들(NRG)을 포함한다.
SAOC 프레임은 또한 오디오 객체들의 복수의 결합들을 위해 SAOC 프레임 데이터에 포함되는 인코딩된 상호 객체 상관관계 값들(IOC)을 포함할 수 있다. IOC 값들은 일반적으로 대역 측면 방식으로 포함된다.
SAOC 프레임은 또한 인코딩된 다운믹스 이득 값들(DMG)을 포함하는데, 여기서 일반적으로 SAOC 프레임 당 오디오 객체들마다 하나의 다운믹스 이득 값이 있다.
SAOC 프레임은 또한, 선택적으로, 인코딩된 다운믹스 채널 수준 차이들(DCLD)을 포함하는데, 여기서 일반적으로 오디오 객체마다 그리고 SAOC 프레임마다 하나의 다운믹스 채널 수준 차이 값이 있다.
또한, SAOC 프레임은 통상, 선택적으로, 인코딩된 사후 프로세싱 다운믹스 이득 값들(PDG)을 포함한다.
더불어, SAOC 프레임은 또한, 어떤 상황 하에서는, 하나 이상의 왜곡 제어 파라미터들을 포함할 수 있다. 만약 SAOC 지정 구성 부분에 포함되어 있는 플래그 "bsDcuFlag"가 "1"과 같다면, 비트스트림에서 왜곡 제어 유닛 정보의 사용을 나타내고, 만약 SAOC 지정 구성에서 플래그 "bsDcuDynamic"이 또한 "1"의 값을 취한다면, 동적(프레임 측면(frame-wise)) 왜곡 제어 유닛 정보의 사용을 나타내는데, SAOC 프레임이 플래그 "bsIndependencyFlag"가 활성화되어 있거나 플래그 "bsDcuDynamicUpdate"가 활성화 되어 있는 이른바 "independent" SAOC 프레임이라면, 왜곡 제어 정보는 SAOC 프레임에 포함된다.
여기서 플래그 "bsDcuDynamicUpdate"는 만약 플래그 "bsIndependencyFlag"가 비활성화되어 있다면 오직 SAOC 프레임 내에만 포함되어 있고, 플래그 "bsDcuDynamicUpdate"는 bsDcuMode" 및 "bsDcuParam" 값들이 업데이트되었는지 여부를 정의함에 주의해야 한다. 좀더 정확히, "bsDcuDynamicUpdate" = = 1 은 bsDcuMode" 및 "bsDcuParam" 값이 현재 프레임에서 업데이트 되었음을 의미하고, 한편 "bsDcuDynamicUpdate" = = 0 은 이전에 전송된 값들이 유지되고 있음을 의미한다.
따라서, 만약 왜곡 제어 유닛 파라미터들의 전송이 활성화되고, 왜곡 제어 유닛 데이터의 동적 전송도 활성화되고 플래그 "bsDcuDynamicUpdate"가 활성화된다면, 상기에서 설명된 파라미터들 "bsDcuMode" 및"bsDcuParam"은 SAOC 프레임에 포함된다. 또한, 만약 SAOC 프레임이 "독립적인" SAOC 프레임이며, 왜곡 제어 유닛 데이터의 전송이 활성화되고 왜곡 제어 유닛 데이터의 동적 전송도 활성화된다면, 파라미터들 "bsDcuMode" 및"bsDcuParam"은 또한 SAOC 프레임에 포함된다.
SAOC 프레임은 또한, 선택적으로, 원하는 길이로 SAOC 프레임을 채우기 (fill up) 위해 충당(fill) 데이터 "byteAlign()"을 포함한다.
선택적으로, SAOC 프레임은 "SAOCExt 또는 ExtensionFrame()"으로 지칭되는 추가적인 정보를 포함할 수 있다. 그러나, 이러한 선택적 추가 SAOC 프레임 정보는 본 발명과 관련이 없고, 간결함을 위해, 그러므로 여기서 논의되지 않을 것이다.
완벽하기 하기 위해, 플래그 "bsIndependencyFlag"는 현재의 SAOC 프레임에 대한 무손실 코딩이 이전의 SAOC 프레임과는 독립적으로 행해지는지, 즉, 현재의 SAOC 프레임이 이전의 SAOC 프레임에 대한 정보 없이 디코딩될 수 있는지 여부를 나타냄에 주의해야 한다.
6. 도 4에 따른 SAOC 디코더/ 트랜스코더
다음에서, SAOC에서 왜곡 제어에 대한 렌더링 계수 제한 방식들의 추가적인 실시예들이 설명될 것이다.
6.1 개관
도 4는 본 발명의 일 실시예에 따른 오디오 디코더(400)에 대한 블록 도식도를 도시한다.
오디오 디코더(400)는 다운믹스 신호(410), SAOC 비트스트림(412), (Λ로도 지칭되는) 선형 결합 파라미터(414), 및 (R로도 지칭되는) 렌더링 매트릭스 정보(420)를 수신하도록 구성된다. 오디오 디코더는(400), 예를 들어, 복수의 출력 채널들(130a 내지 130M)의 형태로 업믹스 신호 표현을 수신하도록 구성된다. 오디오 디코더(400)는 SAOC 비트스트림(412)의 SAOC 비트스트림 정보의 적어도 일부분을 수신하는 (DCU로도 지칭되는) 왜곡 제어 유닛(440), 선형 결합 파라미터(414), 및 렌더링 매트릭스 정보(420)를 포함한다. 왜곡 제어 유닛은 수정된 렌더링 매트릭스 정보일 수 있는 수정된 렌더링 정보(Rlim)를 제공한다.
오디오 디코더(400)는 또한 다운믹스 신호(410)를 수신하는 SAOC 디코더 및/또는 SAOC 트랜스코더(448), SAOC 비트스트림(412), 및 수정된 렌더링 정보(Rlim)를 포함하고, 그에 기초하여, 출력 채널들(130a 내지 130M)을 제공한다.
다음에서, 본 발명에 따른 하나 이상의 렌더링 계수 제한 방식을 이용하는 오디오 디코더(400)의 기능이 상세히 논의될 것이다.
일반적인 SAOC 프로세싱은 시간/주파수 선택식으로 수행되고 다음과 같이 설명될 수 있다. SAOC 인코더(예를 들어, SAOC 인코더(150))는 여러 입력 오디오 객체 신호들의 음향심리학적 특성들(예를 들어, 객체 영향력(power) 관계들 및 상관관계들)을 추출하고, 그 다음에 결합된 모노 또는 스테레오 채널(예를 들어, 다운믹스 신호(182) 또는 다운믹스 신호(410))로 그것들을 다운믹싱한다. 이 다운믹스 신호 및 추출된 부가 정보(예를 들어, 객체 관련 파라메트릭 부가 정보 또는 SAOC 비트스트림 정보(412))는 잘 알려진 지각 오디오 코더들을 이용하여 압축된 포맷으로 전송(또는 저장)된다. 수신측에서, SAOC 디코더(418)는, 개념적으로, 전송된 추가 정보(412)를 이용하여 원래의 객체 신호들(즉, 분리된 다운믹싱된 객체들)을 복원하려고 한다. 이러한 근사 객체 신호들은 그 다음에 렌더링 매트릭스를 이용하여 목표 장면에 믹싱된다. 렌더링 매트릭스, 예를 들어 R 또는 Rlim은 각각의 전송된 오디오 객체 및 업믹스 설정 스피커(loudspeaker)에 대해 지정된 렌더링 계수들(RCs)로 구성되어 있다. 이러한 RC들은 모든 분리된/렌더링된 객체들의 이득들 및 공간적 위치들을 결정한다.
실질적으로, 분리 및 믹싱이 계산 복잡도의 막대한 감소를 가져오는 단일의 결합된 프로세싱 단계로 수행되기 때문에, 객체 신호들의 분리는 거의 또는 심지어 전혀 실행되지 않는다. 이 방식은 전송 비트율(다수의 개개의 객체 오디오 신호들 대신에 몇몇 부가 정보(186, 188, 412, 414)와 함께 단지 1개 또는 2개의 다운믹스 채널들(182, 410)을 전송하는 것만을 필요로 한다) 및 계산 복잡도(프로세싱 복잡도는 오디오 객체들의 수보다는 출력 채널들의 수와 주로 관련있다) 둘 다의 면에서 엄청나게 효율적이다. SAOC 디코더는 (파라메트릭 수준으로) 객체 이득들 및 다른 부가 정보를 렌더링된 출력 오디오 장면에 대해 상응하는 신호들(130a 내지 130M)(또는 추가적 디코딩 작업, 즉 일반적으로 다중채널 MPEG 서라운드 렌더링을 위한 사전 프로세싱된 다운믹스 신호)를 생성하기 위해 다운믹스 신호(182, 414)에 적용되는 트랜스코딩 계수들(TCs)로 바로 변환시킨다.
렌더링된 출력 장면에 대한 주관적으로 인지되는 오디오 품질은, [6]에서 설명된 바와 같이, 왜곡 제어 유닛(DCU, 예를 들어 렌더링 매트릭스 수정 유닛)의 적용으로 향상될 수 있다. 이러한 향상은 목표 렌더링 설정들의 적당한 동적 수정을 받아들임으로써 성취될 수 있다. 렌더링 정보의 수정은 시간 및 주파수 변형으로 행해질 수 있는데, 이는 특정 상황 하에서 부자연스러운 사운드 음조(coloration) 및/또는 일시적 변동(temporal fluctuation) 부작용을 야기할 수 있다.
전체 SAOC 시스템 내에서, DCU는 간단한 방법으로 SAOC 디코더/트랜스코더 프로세싱 체인 내에 포함될 수 있다. 즉, 도 4에서 보면, RC들(R)을 제어하여 SAOC의 선취(front-end)에 배치된다.
6.2 기본적인 가설
간접 제어 방법의 기본적인 가설은 다운믹스에서 그것들의 상응하는 객체들의 수준으로부터의 RC들의 왜곡 수준 및 편차 사이의 관계를 고려한다. 이는 다른 객체들에 대해 특정 객체에 RC에 의해 좀더 명확한 감쇠/증가가 적용되는 것의 관측에 기초하는데, 전송된 다운믹스 신호에 대한 더욱 공격적인 수정이 SAOC 디코더/트랜스코더에 의해 수행될 것이다. 다시 말해서: "객체 이득" 값들에 대한 편차가 서로 많이 관련이 있을수록, (동일한 다운믹스 계수들로 가정했을 때) 용납할 수 없는 왜곡이 일어날 가능성이 높다.
6.3 제한 렌더링 계수들의 계산
Nch × Nob 크기(즉, 행들은 출력 채널들(130a 내지 130M)에 상응하고, 열들을 입력 오디오 객체들에 상응한다.)인 매트릭스(R)의 계수들(RC들)로 표현되는 사용자 지정 렌더링 시나리오에 기초하여, DCU는 SAOC 렌더링 엔진(448)에 의해 사실상 이용되는 제한 렌더링 계수들을 포함하는 수정된 매트릭스(Rlim)를 생성하여 지나친 렌더링 설정들을 방지한다. 보편성을 상실하지 않으면서, 이어지는 설명에서, RC들은 표기를 간단히 하기 위해 주파수 불변인 것으로 가정된다. SAOC의 모든 작동 모드들에 있어서 제한 렌더링 계수들은
Figure pct00069

로 도출될 수 있다.
이는 (선형 결합 파라미터로도 지칭되는) 크로스 페이딩(cross-fading) 파라미터 A ∈ [0, 1]를 포함함으로써, (사용자 지정) 렌더링 매트릭스(R)를 목표 매트릭스(
Figure pct00070
)에 대해 혼합하는 것이 실현될 수 있음을 의미한다. 다시 말해서, 제한 매트릭스(Rlim)는 렌더링 매트릭스(R) 및 목표 매트릭스의 선형 결합을 표현한다. 한편, 목표 렌더링 매트릭스는 표준화 인자를 지닌 다운믹스 매트릭스(즉, 다운믹스 채널들이 트랜스코더(448)를 거쳐 지나간다) 또는 정적(static) 트랜스코딩 매트릭스를 야기하는 다른 정적 매트릭스일 수 있다. 이 "유사 다운믹스 렌더링"은 목표 렌더링 매트릭스가 어떠한 SAOC 프로세싱 부작용도 내놓지 못하게 하여 결과적으로 최초의 렌더링 계수들에 전적으로 상관없을지라도 오디오 품질의 면에서 최적의 렌더링 지점을 표현하는 것을 보장한다.
그러나, 만약 어떤 응용이 그의/그녀의 최초의 렌더링 설정(특히, 예를 들어, 하나 이상의 객체들의 공간적 위치)에서 특정 렌더링 시나리오 또는 사용자가 설정한 높은 값을 요구하면, 유사 다운믹스 렌더링은 목표 지점으로 역할하는데 실패한다. 반면에, 다운믹스 및 최초의 렌더링 계수들(예를 들어, 사용자 지정 렌더링 매트릭스) 모두를 고려할 때 그러한 지점은 "최선형 렌더링"으로 해석될 수 있다. 목표 렌더링 매트릭스에 대한 이 두 번째 정의의 목표는 최선의 가능한 방식으로 (예를 들어, 사용자 지정 렌더링 매트릭스에 의해 정의되는) 사용자 지정 렌더링 시나리오를 지키면서, 동시에 지나친 객체 조작으로 인한 가청 저하를 최소 수준으로 유지시키는 것이다.
6.4 유사 다운믹스 렌더링
6.4.1 서론
Ndmx × Nob 크기의 다운믹스 매트릭스(D)는 인코더(예를 들어, 오디오 인코더(150))에 의해 결정되고 어떻게 입력 객체들이 디코더로 전송되는 다운믹스 신호 내로 선형 결합되는지에 관한 정보를 포함한다. 예를 들어, 모노 다운믹스 신호를 이용하여, D는 단일 행 벡터로 그리고 스테레오 다운믹스의 경우 Ndmx = 2로 줄어든다. "유사 다운믹스 렌더링" 매트리스 Rds
Figure pct00071

와 같이 계산되는데, 여기서 NDS는 에너지 표준화 스칼라를 표현하고, DR은 DR의 행들의 수 및 순서가 R의 성상과 상응하도록 0 요소들의 행들에 의해 확장되는 다운믹스 매트릭스이다. 예를 들어, SAOC 스테레오 대 다중채널 트랜스코딩 모드(x-2-5)에서 Ndmx = 2 및 Nch = 6. 따라서 DR은 Nch × Nob 크기이고 앞쪽 왼쪽 및 오른쪽 출력 채널들을 표현하는 그것의 행들은 D와 동일하다.
6.4.2 모든 디코딩/트랜스코딩 SAOC 모드들
모든 디코딩/트랜스코딩 SAOC 모드들에 있어서 에너지 표준화 스칼라(NDS)는 다음의 방정식
Figure pct00072

을 이용하여 계산될 수 있는데, 여기서 연산자 트레이스(trace, X)는 매트릭스(X)의 모든 대각선 요소들의 합을 의미한다. (*)는 켤레 복소수 전치(complex conjugate transpose) 연산자를 의미한다.
6.5 최선형 렌더링
6.5.1 서론
최선형 렌더링 방법은 다운믹스 및 렌더링 정보에 의해 결정되는 목표 렌더링 매트릭스를 설명한다. 에너지 표준화는 Nch × Ndmx 크기의 매트릭스(NBE)로 표현되고, 따라서 (하나 이상의 출력 채널이 있다면) 각각의 출력 채널에 대해 개개의 값들을 제공한다.이는 서로 다른 SAOC 연산 모드들에 대해 서로 다른 NBE의 연산을 요구하는데, 이는 이어지는 부분들에서 개요가 설명된다.
"최선형 렌더링" 매트릭스는
Figure pct00073

와 같이 계산되는데, 여기서 D는 다운믹스 매트릭스이고 NBE는 에너지 표준화 매트릭스를 표현한다.
6.5.2 SAOC 모노 대 모노("x-1-1") 디코딩 모드
"x-1-1" SAOC 모드에 있어서 에너지 표준화 스칼라(NBE)는 다음의 방정식
Figure pct00074

을 이용하여 계산될 수 있다.
6.5.3 SAOC 모노 대 스테레오("x-1-2-") 디코딩 모드
"x-1-2-" SAOC 모드에 있어서 2 × 1 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00075

을 이용하여 계산될 수 있다.
6.5.4 SAOC 모노 대 바이노럴("x-1-b") 디코딩 모드
"x-1-b" SAOC 모드에 있어서 2 × 1 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00076

을 이용하여 계산될 수 있다.
여기서 r1 및 r2는 바이노럴 HRTF 파라미터 정보를 고려한다/포함한다는 것에 또한 주의해야 한다.
상기 3개의 방정식들 모두에 있어서, NBE의 제곱근은, 즉,
Figure pct00077

에서 도출된다는 것에 또한 주의해야 한다(이전의 설명 참조).
6.5.5 SAOC 스테레오 대 모노("x-2-1") 디코딩 모드
"x-2-1" SAOC 모드에 있어서 1 × 2 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00078

을 이용하여 계산될 수 있는데, 여기서 1 × Nob 크기의 모노 렌더링 매트릭스(R1)는
Figure pct00079

와 같이 정의된다.
6.5.6 SAOC 스테레오 대 스테레오("X-2-2") 디코딩 모드
"X-2-2" SAOC 모드에 있어서 2 × 2 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00080

을 이용하여 계산될 수 있는데, 여기서 2 × Nob 크기의 스테레오 렌더링 매트릭스(R2)는
Figure pct00081

와 같이 정의된다.
6.5.7 SAOC 모노 대 바이노럴("X-2-b") 디코딩 모드
"X-2-b" SAOC 모드에 있어서 2 × 2 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00082

을 이용하여 계산될 수 있는데, 여기서 2 × Nob 크기의 바이노럴 렌더링 매트릭스(R2)는
Figure pct00083

와 같이 정의된다.
여기서 r1 및 r2는 바이노럴 HRTF 파라미터 정보를 고려한다/포함한다는 것에 또한 주의해야 한다.
6.5.8 SAOC 모노 대 바이노럴("X-1-5") 트랜스코딩 모드
"X-1-5" SAOC 모드에 있어서 Nch × 1 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00084

을 이용하여 계산될 수 있다.
또한, 각각의 요소에 대해 제곱근을 취할 것이 권장되거나 심지어 몇몇 경우에서 요구된다.
6.5.9 SAOC 스테레오 대 다중채널("X-2-5") 트랜스코딩 모드
"X-2-5" SAOC 모드에 있어서 Nch × 2 크기의 에너지 표준화 매트릭스(NBE)는 다음의 방정식
Figure pct00085

을 이용하여 계산될 수 있다.
6.5.10 (DD*)-1의 계산
항 (DD*)-1의 계산에 있어서 규칙화(regularization) 방법들이 잘못 배열된(ill-posed) 매트릭스 결과를 방지하기 위해 적용될 수 있다.
6.6 렌더링 계수 제한 방식들의 제어
6.6.1 비트스트림 구문의 예시
다음에서 SAOC 지정 구성에 대한 구문 표현이 도 a를 참조하여 설명될 것이다. SAOC 지정 구성 "SAOCSpecificConfig()"는 종래의 SAOC 구성 정보를 포함한다. 또한, SAOC 지정 구성은, 다음에서 좀더 상세히 설명될, DCU 지정 추가(DCU specific addtion, 510)를 포함한다. SAOC 지정 구성은 또한 SAOC 지정 구성의 길이를 조정하는데 이용될 수 있는 하나 이상의 충당 비트들 "ByteAlign()"을 포함한다. 또한, SAOC 지정 구성은 추가적인 구성 파라미터들을 포함하는 SAOC 확장 구성을 선택적으로 포함할 수 있다.
비트스트림 구문 요소 "SAOCSpecificConfig()"에 대한 도 5a에 따른 DCU 지정 추가(510)는 제안된 DCU 방식에 대한 비트스트림 신호보내기의 예시이다. 이는 참고문헌 [8]에 따른 기초(draft) SAOC 표준의 하위 조항 "5.1 SAOC에 대한 페이로드들(payloads)"에서 설명된 구문과 관련된다.
다음에서, 몇몇 파라미터들에 대한 정의가 주어질 것이다.
" bsDcuFlag "
DCU에 대한 설정들이 SAOC 인코더 또는 디코더/트랜스코더에 의해 결정되었는지 여부를 정의한다. 좀더 정확히, " bsDcuFlag " = 1은 SAOC 인코더에 의해 SAOCSpecificConfig()에서 지정된 " bsDcuMode "" bsDcuParam " 값이 DCU에 적용됨을 의미하고, 반면 " bsDcuFlag " = 0은 (디폴트 값들로 초기화된) " bsDcuMode "" bsDcuParma " 변수들이 SAOC 디코더/트랜스코더 응용 또는 사용자에 의해 더 수정될 수 있음을 의미한다.
" bsDcuMode "
DCU의 모드를 정의한다. 좀더 정확히, " bsDcuMode " = 0은 DCU에 의해 "유사 다운믹스" 렌더링 모드가 적용됨을 의미하고, 반면 " bsDcuMode " = 1은 DCU 알고리즘에 의해 "최선형" 렌더링 모드가 적용됨을 의미한다.
" bsDcuParam "
DCU 알고리즘에 대한 혼합 파라미터 값을 정의하는데, 여기서 도 5b의 표는 "bsDcuParam" 파라미터들에 대한 양자화 표를 도시한다.
가능한 " bsDcuParam " 값들이 4비트로 표현되는 16개의 개체들을 갖는 표 부분에 예시로써 있다. 물론 더 크거나 더 작은 임의의 표가 사용될 수 있다. 상기 값들 사이의 간격은 데시벨에서의 최대 객체 분리에 상응하기 위해 대수적(logarithmic)일 수 있다. 그러나 상기 값들은 또한 선형적으로 간격을 두거나, 대수와 선형의 혼합 결합, 또는 임의의 종류의 척도(scale)일 수 있다.
비트스트림에서 "bsDcuMode" 파라미터는 인코더 측에서 그 상황에서 최적의 DCU 알고리즘을 택하는 것을 가능하게 한다. 이는 몇몇 응용들 또는 콘텐츠가 "유사 다운믹스" 렌더링 모드로부터 이득을 얻는 한편 다른 것들은 "최선형" 렌더링 모드로부터 이득을 얻을 수 있기 때문에 매우 유용할 수 있다.
일반적으로, "유사 다운믹스" 렌더링 모드는 반대방향/정방향 호환성이 중요하고 다운믹스가 보존될 필요가 있는 중요한 예술적 품질을 지닌 응용들에 대해 바람직한 방법일 수 있다. 반면에, "최선형" 렌더링 모드는 이러한 경우가 아닌 경우들에서 더 나은 성능을 가질 수 있다.
본 발명에 관련된 이러한 DCU 파라미터들은 물론 SAOC 비트스트림의 임의의 다른 부분들로 전달될 수 있다. 대안적인 위치선정은 어떤 확장 ID가 사용될 수 있는 'SAOCExtensionConfig()" 컨테이너(container)를 이용하는 것일 것이다. 이러한 부분들은 모두, 최소 데이터율 오버헤드를 보장하며, SAOC 헤더에 위치된다.
다른 대안은 DCU 데이터를 페이로드 데이터(즉, SAOCFrame()로)로 나르는 것이다. 이는 시변 신호보내기(time-variant signaling)(예를 들어, 신호 적응 제어)를 가능하게 할 것이다.
융통성 있는 접근법에서는 헤더(즉, 정적 신호보내기) 및 페이로드 데이터(즉, 동적 신호보내기) 모두로 DCU 데이터의 비트스트림 신호보내기를 정의한다. 그러면 SAOC 인코더는 2가지의 신호보내기 방법들 중 하나를 자유롭게 택한다.
6.7 프로세싱 전략
만약 DCU 설정들(예를 들어, DCU 모드 " bsDcuMode " 및 혼합 파라미터 설정 " bsDcuParam ")이 SAOC 인코더에 의해 명시적으로 지정되는 경우(예를 들어, "bsDcuFlag" = 1), SAOC 디코더/트랜스코더는 이러한 값들을 바로 DCU에 적용한다. 만약 DCU 설정들이 명시적으로 지정되지 않는다면(예를 들어, " bsDcuFlag " = 0), SAOC 디코더/트랜스코더는 디폴드 값들을 사용하고 SAOC 디코더/트랜스코더 응용 또는 사용자가 그것들을 수정하는 것을 가능하게 한다. 제1 양자화 인덱스(예를 들어, idx = 0)는 DCU를 작동 못하게 하는데 이용될 수 있다. 대안으로, DCU 디폴드 값(" bsDcuParam ")은 "0" 즉, DCU를 작동 못하게 함, 또는 "1" 즉, 전면 제한일 수 있다.
7. 성능 평가
7.1 청취 검사 설계
제안된 DCM 구상에 대한 지각적 성능을 평가하고 일반적인 SAOC RM 디코딩/트랜스코딩 프로세싱의 결과와 그것을 비교하기 위해 주관 청취 검사가 수행되어 왔다. 다른 청취 검사들과 비교하여, 이 검사의 과제는 2가지의 품질 측면에 관한 지나친 렌더링 상황("단일(soloing) 객체들", "묶음(muting) 객체들")에서의 최상의 가능한 재생 품질을 고찰하는 것이다:
1. 렌더링의 객관성 성취(목표 객체에 대한 적당한 감쇠/증가)
2. 전반적인 장면의 손상 없는(sound) 품질(왜곡, 부작용, 부자연스러움...을 고려)
수정되지 않은 SAOC 프로세싱은 1번 측면을 만족시킬 수 있지만 2번 측면을 만족시킬 수 없고, 한편 단순히 전송된 다운믹스 신호를 이용하는 것은 2번 측면을 만족시킬 수는 있으나 1번 측면은 만족시킬 수 없음을 주지해야 한다.
청취자 실제로 선택할 수 있는 사항들만, 즉, 디코더 측에서 신호로 실제 가능한 요소만을 제시하는 청취 검사가 수행되었다. 그러므로, 제시된 신호들은 일반적인 (DCU에 의해 프로세싱되지 않은) SAOC 디코더의 출력 신호로, SAOC 및 SAOC/DCU 출력의 기저(baseline) 성능을 보여준다. 또한, 다운믹스 신호에 상응하는 사소한 렌더링의 경우가 청취 검사에서 제시된다.
도 6a의 표는 청취 검사 조건들을 설명한다.
제안된 DCU가 일반적인 SAOC 데이터 및 다운믹스들을 이용하여 작동하고 남은 정보에 의존하지 않기 때문에, 상응하는 SAOC 다운믹스 신호들에 어떠한 코어 코더(core coder)도 적용되지 않는다.
7.2 청취 검사 항목들
지나친 임계의 렌더링과 함께 다음의 항목들이 CfP 청취 검사 요소들에서 현재의 청취 검사를 위해 선택되었다.
도 6b의 표는 청취 검사들에 대한 오디오 항목들을 도시한다.
7.3 다운믹스 및 렌더링 설정들
도 6c의 표에서 도시된 렌더링 객체들의 이득들이 고찰된 업믹스 시나리오들에 적용되었다.
7.4 청취 검사 설명
고품질 청취를 허용하도록 설계된 청각적으로 차단된(acoustically isolated) 청취실에서 주관 청취 검사들이 수행되었다. 해드폰들(Lake-People 디지털/아날로그 변환기 및 STAX SRM 모니터를 구비한 STAX SR Lambda Pro)을 이용하여 재생이 되었다.
상기 검사 방법은, 중간 품질 오디오에 대한 주관적 평가를 위한 "Multiple Stimulus with Hidden Reference and Anchors"(MUSHRA) 방법[2]과 유사한 공간 오디오 검증 검사들에서 이용되는 절차를 따랐다. 상기 검사 방법은 제안된 DCU의 지각적 성능을 평가하기 위해 상기에서 설명된 바와 같이 수정되었다. 청취자들은 다음의 청취 검사 수칙들을 지키도록 지시를 받았다:
"응용 시나리오: 귀하가 음악 요소에 대한 전용 리믹스를 귀하에게 가능하게 하는 상호작용형 음악 리믹스 시스템의 사용자라고 상상하십시오. 상기 시스템은 그것의 수준, 공간적 위치 등을 변경하기 위해 각각의 악기에 대한 믹싱 데스크 형태의 슬라이더들(sliders)을 제공합니다. 시스템의 속성상, 많이 지나친 사운드 믹스는 전반적인 사운드 품질을 감쇠시키는 왜곡을 야기할 수 있습니다. 반면, 유사한 악기 수준을 갖는 사운드 믹스는 더 나은 사운드 품질을 만들어내는 경향이 있습니다.
사운드 수정 강도 및 사운드 품질에 대한 그것들의 영향에 관한 서로 다른 프로세싱 알고리즘들을 평가하는 것이 본 검사의 목적입니다.
이 검사에서는 "기준 신호"가 없습니다! 그 대신에 원하는 사운드 믹스에 대한 설명이 아래에서 주어집니다.
각각의 오디오 항목들에 있어서:
- 우선 시스템 사용자로써 귀하가 얻고자 하는 원하는 사운드 믹스들에 대한 설명을 읽고
항목 "BlackCoffee": 사운드 믹스 내의 부드러운 금관악기 부분
항목 "VoiceOverMusic": 부드러운 배경 음악
항목 "Audition": 강한 보컬 사운드 및 부드러운 음악
항목 "LovePop": 사운드 믹스 내의 부드러운 현악기 부분
- 그 다음에 모두를 설명하는 하나의 공통된 등급을 이용하여 신호들에 등급을 매기시기 바랍니다.
- 원하는 사운드 믹스에 대한 렌더링 객관성 달성
- 전반적인 장면의 손상 없는 품질(왜곡, 부작용, 부자연스러움, 공간적 왜곡, ...을 고려)"
수행된 검사들 각각에 총 8명의 청취자들이 참가했다. 모든 대상들은 경험이 있는 청취자들로 간주될 수 있다. 검사 조건들은 각각의 검사 항목 및 각각의 청취자들에 대해 자동적으로 무작위 추출되었다. MUSHRA 척도와 같은 방법으로 분류된 5개의 구간들을 갖는 0부터 100까지의 척도 범위에 의한 컴퓨터 기반 청취 검사 프로그램에 의해 주관적 반응들이 기록되었다. 검사 중에 항목들 간의 즉각적인 전환이 허용되었다.
7.5 청취 검사 결과
도 7의 그래픽 표현에서 도시된 도표는 연관된 95% 신뢰 구간들로 전체 청취자들의 항목 당 평균 점수 및 전체 평가된 항목의 통계적 평균 값을 도시한다.
다음의 논평들은 수행된 청취 검사 결과에 기초하여 이루어질 수 있다: 수행된 청취 검사에 있어서 획득된 MUSHRA 점수들은 제안된 DCU 기능이 전반적인 통계적 평균 값들의 측면에서 일반적인 SAOC RM 시스템과 비교하여 상당히 나은 성능을 제공함을 증명한다. (고찰된 지나친 렌더링 조건에 대해 강한 오디오 부작용을 보이는) 일반적인 SAOC 디코더에 의해 생성되는 모든 항목들의 품질은 원하는 렌더링 시나리오를 전혀 만족시키지 못하는 동일 다운믹스 렌더링 설정들의 품질에 따라 낮게 등급이 매겨짐을 주의해야 한다. 따라서, 제안된 DCU 방법들은 모든 고려된 청취 검사 시나리오들에 있어서 주관적인 신호 품질의 상당한 향상을 가져온다고 결론이 내려질 수 있다.
8. 결론
상기의 논의를 요약하면, SAOC에서 왜곡 제어에 대한 렌더링 계수 제한 방식들이 설명되었다. 본 발명에 따른 실시예들은 최근에 제안된(예를 들어, 참고문헌 [1],[2], [3], [4], 및 [5] 참조) 다중 오디오 객체들을 포함하는 오디오 장면들의 효율적 비트율/저장에 대한 파라메트릭 기술들과 결합하여 이용될 수 있다.
수신 측에서 사용자 상호작용성과 결합하는 그러한 기술들은 만약 지나친 객체 렌더링이 수행된다면(예를 들어, 참고문헌 [6] 참조) (본 발명의 렌더링 계수 제한 방식들을 사용하지 않으며) 관례적으로 출력 신호들의 낮은 품질을 야기할 수 있다.
본 명세서는 원하는 재생 설정(예를 들어, 모노, 스테레오, 5.1, 등)의 선택에 대한 사용자 인터페이스 및 개인의 취향 또는 다른 기준에 따라 렌더링 매트릭스를 제어하여 원하는 출력 렌더링 장면에 대한 상호작용 실시간 수정을 위한 수단을 제공하는 공간 오디오 객체 코딩(SAOC)에 초점을 맞추고 있다. 그러나, 본 발명은 또한 일반적인 파라메트릭 기술들에 적용가능하다.
다운믹스/분리/믹스 기반 파라메트릭 접근법으로 인해, 렌더링된 오디오 출력의 주관적인 품질은 렌더링 파라미터 설정들에 의해 결정된다. 사용자의 선택에 의한 렌더링 설정들에 대한 선택의 자유는 전반적인 사운드 장면 내의 객체에 대한 지나친 이득 조작들과 같은 사용자가 부적절한 객체 렌더링 선택사항들을 선택하는 위험을 수반한다.
상품들에 있어서, 사용자 인터페이스 상의 임의의 설정들에 대해 나쁜 사운드 품질 및/또는 오디오 부작용들을 만들어 내는 것은 어떤 일이 있어도 용납할 수 없다. 생성된 SAOC 오디오 출력의 과도한 저하를 제어하기 위해, 렌더링된 장면의 지각적 품질의 측정을 계산하고, 이 측정(및, 선택적으로, 다른 정보)에 따라 실질적으로 적용되는 렌더링 계수를 수정하는 구상에 기초하는 몇 가지의 컴퓨터를 사용한 방안들이 설명되었다(예를 들어, 참조문헌 [6] 참조).
본 문서는 모든 프로세싱이 전적으로 SAOC 디코더/트랜스코더 내에서 수행되고, 렌더링된 사운드 장면의 지각 오디오 품질의 복잡한 측정에 대한 분명한 계산을 포함하지 않는 렌더링된 SAOC 장면의 주관적 사운드 품질을 보호하기 위한 대안을 설명한다.
이러한 발상들은 그러므로 SAOC 디코더/트랜스코더 체계 내에 구조적으로 간단하면서 지극히 효율적인 방식으로 구현될 수 있다. 제안된 왜곡 제어 유닛(DCU) 알고리즘은 SAOC 디코더의 입력 파라미터들, 즉, 렌더링 계수들을 제한하는 것을 목표로 한다.
상기를 요약하면, 본 발명에 따른 실시예들은, 상기에서 설명된 바와 같은, 오디오 인코더, 오디오 디코더, 인코딩 방법, 디코딩 방법, 및 인코딩 또는 디코딩 또는, 인코딩된 오디오 신호들을 위한 컴퓨터 프로그램들을 생성한다.
9. 대안적인 구현
비록 몇몇 양상들이 장치의 관점에서 설명되었지만, 이러한 양상들은 또한 블록 또는 장치가 방법의 단계나 방법의 단계의 특징에 상응하는 해당 방법에 대한 설명을 나타내는 것이 명백하다. 비슷하게, 방법의 단계의 관점에서 설명된 양상들은 또한 상응하는 블록 또는 항목 또는 상응하는 장치의 특성에 대한 설명을 나타낸다. 방법 단계들의 일부 또는 전부는, 예를 들어, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치들에 의해 (또는 하드웨어 장치들을 이용하여) 실행될 수 있다. 몇몇 실시예들에서, 어떤 하나 이상의 가장 중요한 방법 단계들은 그러한 장치들에 의해 실행될 수 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나, 인터넷과 같은 무선 전송 매체 또는 유선 전송 매체와 같은 전송 매체로 전송될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 상기 구현은, 각각의 방법이 수행되도록, 프로그램 가능한 컴퓨터 시스템과 협력하는 (또는 협력 가능한) 전자적으로 판독가능한 제어 신호들이 그 위에 저장된, 예를 들어, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM, 또는 플래쉬 메모리와 같은 디지털 저장 매체를 이용하여 수행될 수 있다. 그러므로, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 몇몇 실시예들은, 여기서 설명된 방법들 중 하나를 수행할 수 있도록, 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어(carrier)를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로 구현될 수 있으며, 상기 프로그램 코드는 상기 프로그램 제품이 컴퓨터 상에서 구동될 때 상기 방법들 중의 하나를 수행하도록 작동 가능하다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은, 기계 판독 가능한 캐리어 상에 저장된, 여기서 설명된 상기 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해서, 본 발명의 방법의 실시예는, 그러므로, 컴퓨터 프로그램이 컴퓨터 상에서 구동할 때, 여기서 설명된 방법들 중의 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법들에 대한 추가적인 실시예들은, 그러므로, 여기서 설명된 방법들 중의 하나를 수행하기 위한, 그 위에 저장된, 컴퓨터 프로그램을 포함하는 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터로 판독가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 저장된 매체는 일반적으로 실재(tangilbe)하고/실재하거나 변하지 않는다(non-transitionary).
본 발명의 방법의 추가적인 실시예는, 그러므로, 여기서 설명된 방법들 중의 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 스퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어 인터넷과 같은, 데이터 통신 연결을 통해 전송되도록 예를 들어 구성될 수 있다.
추가적인 실시예는 여기서 설명된 방법들 중 하나를 수행하도록 구성되거나 적응된, 예를 들어 컴퓨터, 또는 프로그램 가능한 논리 장치와 같은, 프로세싱 수단을 포함한다.
추가적인 실시예는 여기서 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 그 위에 설치된 컴퓨터를 포함한다.
몇몇 실시예들에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 여기서 설명된 방법들의 기능들 중 몇몇 또는 전부를 수행하는데 이용될 수 있다. 몇몇 실시예들에서, 필드 프로그램 가능한 게이트 어레이는 여기서 설명된 방법들 중의 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 상기 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해서든 수행된다.
상기에서 설명된 실시예들은 단지 본 발명의 원리들에 대한 실례를 보여주는 것이다. 여기서 설명된 배열들 및 세부사항들에 대한 수정 및 변경이 당업자들에게 자명할 것으로 여겨진다. 그러므로, 보류 중인 특허 청구항들의 범위에 의해서만 제한되고 여기서 실시예들에 대한 묘사 및 설명에 의해 제시되는 상세한 설명에 의해서 제한되지 않음을 의도한다.
참고문헌
[1] C. Faller 및 F. Baumgarte, "바이노럴 큐 코딩 - Part Ⅱ: 방식 및 응용(Binaural Cue Coding - Part Ⅱ: Schemes and applications)", 음성 및 오디오 프로세싱에 관한 IEEE 트랜젝션(IEEE Trans. on Speech and Audio Proc.), vol. 11, no. 6, 2003년 11월.
[2] C. Faller, "오디오 소스의 파라메트릭 조인트 코딩(Parametric Joint-Coding of Audio Sources", 제120회 AES 컨벤션, 파리, 2006년, 견본 인쇄 6752.
[3] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "SAC에서 SAOC로 - 공간 오디오의 파라메트릭 코딩에 관한 동향(From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 제22회 Regional UK AES 컨퍼런스, 캠브리지, UK, 2007년 4월.
[4] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers, 및 W. Oomen: "공간 오디오 객체 코딩(SAOC) - 파라메트릭 객체 기반 오디오 코딩에 관한 앞으로의 MPEG 표준(Spatial Audio Object Coding(SAOC) - The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 제24회 AES 컨벤션, 암스테르담, 2008년, 견본 인쇄 7377.
[5] ISO/IEC, "MPEG 오디오 기술 - Part 2: 공간 오디오 객체 코딩(SAOC)(MPEG audio technologies - Part 2: Spatial Audio Object Coding(SAOC)", ISO/IEC JTC1/SC29/WG11 (MPEG) FCD 23003-2.
[6] 미국 특허 출원 제61/173,456호, 왜곡 방지 오디오 신호 프로세싱을 위한 방법, 장치, 및 컴퓨터 프로그램(METHODS, APPARATUS, AND COMPUTER PROGRAMS FOR DISTORTION AVOIDING AUDIO SIGNAL PROCESSING).
[7] EBU 전문적 권고(EBU Technical recommendation): "중간 오디오 품질에 대한 주관 청취 검사를 위한 MUSHRA-EBU 방법(MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality", 문서 B/AIM022, 1999년 10월.
[8] ISO/IEC JTC1/SC29/WG11 (MPEG), 문서 N10843, "ISO/IEC 23003-2에 관한 연구: 200x 공간 오디오 객체 코딩(SAOC)(Study on ISO/IEC 23003-2: 200x Spatial Audio Object Coding(SAOC)", 제89회 MPEG 회의, 런던, UK, 2009년 7월.

Claims (21)

  1. 선형 결합 파라미터(146; gDUC)에 따라 사용자 지정 렌더링 매트릭스(user- specified rendering matrix, Mren)와 목표 렌더링 매트릭스(Mren , tar)의 선형 결합을 이용하여 수정된 렌더링 매트릭스(142; Mren,lim)을 얻도록 구성되는 왜곡 제한기(distortion limiter, 140; 240); 및
    상기 수정된 렌더링 매트릭스를 이용하여 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초해서 업믹스 신호 표현을 얻도록 구성되는 신호 프로세서(signal processor, 148; 248);
    를 포함하되,
    상기 선형 결합 파라미터를 얻기 위해 상기 선형 결합 파라미터(146; gDCU)를 표현하는 비트스트림(bitstream) 요소(306; bsDcuParameter)를 평가하도록 구성되는 것을 특징으로 하는 오디오 콘텐츠의 비트스트림 표현(300)에 포함되어 있는 다운믹스 신호 표현(110; 210) 및 객체 관련 파라메트릭 정보에 기초하고, 사용자 지정 렌더링 매트릭스(144, Mren)에 따라 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  2. 청구항 1에 있어서,
    상기 왜곡 제한기는 상기 목표 렌더링 매트릭스가 무 왜곡(distortion-free) 목표 렌더링 매트릭스인 상기 목표 렌더링 매트릭스(Mren , tar)를 얻도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  3. 청구항 1 또는 2에 있어서,
    상기 왜곡 제한기는:
    Figure pct00086

    에 따라 상기 수정된 렌더링 매트릭스(
    Figure pct00087
    )를 얻도록 구성되며,
    gDUC는 그 값이 구간[0, 1] 내에 있는 상기 선형 결합 파라미터를 지칭하며;
    Figure pct00088
    는 상기 사용자 지정 렌더링 매트릭스를 지칭하고;
    Figure pct00089
    는 상기 목표 렌더링 매트릭스를 지칭하는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  4. 청구항 1 내지 3에 있어서,
    상기 왜곡 제한기는 상기 목표 렌더링 매트릭스가 유사 다운믹스(downmix-similar) 목표 렌더링 매트릭스인 상기 목표 렌더링 매트릭스(Mren , tar)를 얻도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  5. 청구항 1 내지 4에 있어서,
    상기 왜곡 제한기는 상기 목표 렌더링 매트릭스(Mren , tar)를 얻기 위해 에너지 표준화 스칼라(
    Figure pct00090
    )를 이용하여 확장된 다운믹스 매트릭스(
    Figure pct00091
    )를 스케일링(scale) 하도록 구성되며,
    상기 확장된 다운믹스 매트릭스는 다운믹스 매트릭스의 확장된 버전으로, 상기 확장된 다운믹스 매트릭스 행들의 수가 상기 사용자 지정 렌더링 매트릭스(Mren)에 의해 표현되는 렌더링 성상(constellation)과 동일한, 0 요소들의 행들로 확장되는, 다운믹스 매트릭스의 하나 이상의 행들이 상기 다운 믹스 신호 표현의 하나 이상의 채널들에 대한 복수의 오디오 객체 신호들의 기여도를 표현하는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  6. 청구항 1 내지 3에 있어서,
    상기 왜곡 제한기는 상기 목표 렌더링 매트릭스가 최선형(best-effort) 목표 렌더링 매트릭스인 상기 목표 렌더링 매트릭스(Mren , tar)를 얻도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  7. 청구항 1 내지 3 또는 6에 있어서,
    상기 왜곡 제한기는 상기 목표 렌더링 매트릭스가 다운믹스 매트릭스(D) 및 상기 사용자 지정 렌더링 매트릭스(Mren)에 의해 결정되는 상기 목표 렌더링 매트릭스(Mren,tar)를 얻도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  8. 청구항 1 내지 3, 6 또는 7에 있어서,
    상기 왜곡 제한기는, 상기 장치의 주어진 출력 오디오 채널에 대한 에너지 표준화 값이, 적어도 대략, 복수의 오디오 객체들에 대한 상기 사용자 지정 렌더링 매트릭스에서 상기 주어진 출력 오디오 채널에 연관되는 에너지 렌더링 값들의 합과 상기 복수의 오디오 객체들에 대한 에너지 다운믹스 값들의 합 사이의 비율을 표현하는, 업믹스 신호 표현을 제공하기 위한 상기 장치의 복수의 출력 오디오 채널들에 대한 채널 개개의 에너지 표준화 값들을 포함하는 매트릭스(NBE)를 계산하도록 구성되고;
    상기 왜곡 제한기는, 상기 주어진 출력 채널들과 연관되는 상기 목표 렌더링 매트릭스(Mren , tar)에 대한 한 셋트의 렌더링 값들을 얻기 위해, 개개 채널의 에너지 표준화 값을 이용하여 한 셋트의 다운믹스 값들을 스케일링(scale)하도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  9. 청구항 1 내지 3 및 6 내지 8에 있어서,
    상기 왜곡 제한기는:
    1개 채널 다운믹스 신호 표현이고 상기 장치의 2개 채널 출력 신호의 경우에
    Figure pct00092

    에 따라; 또는
    1개 채널 다운믹스 신호 표현이고 상기 장치의 바이노럴(binaural) 렌더링된 출력 신호의 경우에
    Figure pct00093

    에 따라; 또는
    1개 채널 다운믹스 신호 표현이고 상기 장치의 NMPS개의 채널 출력 신호의 경우에
    Figure pct00094

    에 따라 복수의 출력 오디오 채널들에 대한 개개 채널의 에너지 표준화 값들을 포함하는 매트릭스(
    Figure pct00095
    )를 계산하도록 구성되되;
    Figure pct00096
    는 상기 장치의 제1 출력 오디오 채널에 대한 객체 인덱스 j를 갖는 오디의 신호의 원하는 기여도를 표현하는 상기 사용자 지정 렌더링 매트릭스(M
    Figure pct00097
    )의 렌더링 계수들을 지칭하며;
    Figure pct00098
    는 상기 장치의 제2 출력 오디오 채널에 대한 객체 인덱스 j를 갖는 오디의 신호의 원하는 기여도를 표현하는 상기 사용자 지정 렌더링 매트릭스(M
    Figure pct00099
    )의 렌더링 계수들을 지칭하며;
    Figure pct00100
    Figure pct00101
    는 상기 장치의 제1 및 제2 출력 오디오 채널에 대한 객체 인덱스 j를 갖는 오디오 객체의 원하는 기여도를 표현하며, 파라메트릭 HRTF 정보를 고려하는 상기 사용자 지정 렌더링 매트릭스(M
    Figure pct00102
    )의 렌더링 계수들을 지칭하며;
    Figure pct00103
    는 상기 다운믹스 신호 표현들에 대한 객체 인덱스 j를 갖는 오디오 객체의 기여도를 표현하는 다운믹스 계수를 지칭하고;
    ε는 0에 의한 나눗셈을 방지하기 위한 부가적 상수(additive constant) 지칭하고;
    상기 왜곡 제어기는:
    Figure pct00104

    에 따라 상기 목표 렌더링 매트릭스(M
    Figure pct00105
    )를 계산하도록 구성되되,
    D1은 다운믹스 계수 dj를 포함하는 다운믹스 매트릭스를 지칭하는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  10. 청구항 1 내지 3 또는 6 내지 7에 있어서,
    상기 왜곡 제한기는 상기 사용자 렌더링 매트릭스(Mren), 및 다운믹스 매트릭스(D)에 따라 상기 장치의 복수의 출력 오디오 채널들에 대한 개개 채널의 에너지 표준화를 표현하는 매트릭스를 계산하도록 구성되고;
    상기 왜곡 제한기는 상기 다운믹스 신호 표현의 서로 다른 채널들과 연관되는 다운믹스 값들의 셋트들의 선형 결합으로 상기 장치의 주어진 출력 오디오 채널과 연관되는 상기 목표 렌더링 매트릭스(Mren,tar)의 한 셋트의 렌더링 계수들을 얻기 위해 상기 개개 채널의 에너지 표준화를 표현하는 상기 매트릭스를 적용하도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  11. 청구항 1 내지 3 또는 6 내지 7, 또는 10에 있어서,
    상기 왜곡 제한기는:
    2개 채널 다운믹스 신호 표현이고 상기 장치의 다중 채널 출력 오디오 신호의 경우에
    Figure pct00106

    에 따라 복수의 출력 오디오 채널들에 대한 상기 개개 채널의 에너지 표준화를 표현하는 매트릭스(
    Figure pct00107
    )를 계산하도록 구성되되,
    상기
    Figure pct00108
    은 상기 장치의 상기 다중 채널 출력 오디오 신호에 대한 복수의 오디오 객체 신호들의 사용자 지정, 원하는 기여도를 표현하는 상기 사용자 지정 렌더링 매트릭스를 지칭하며;
    Dl은 상기 다운믹스 신호 표현에 대한 복수의 오디오 객체 신호들의 기여도를 표현하는 다운믹스 매트릭스를 지칭하며;
    Figure pct00109
    이고;
    상기 왜곡 제한기는
    Figure pct00110

    에 따라 상기 목표 렌더링 매트릭스(M
    Figure pct00111
    )를 계산하도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  12. 청구항 1 내지 3 또는 6 내지 7, 또는 10에 있어서,
    상기 왜곡 제한기는:
    2개 채널 다운믹스 신호 표현이고 상기 장치의 1개 채널 출력 오디오 신호의 경우에
    Figure pct00112

    에 따라, 또는
    2개 채널 다운믹스 신호 표현이고 상기 장치의 바이노럴 렌더링된 출력 오디오 신호의 경우에
    Figure pct00113

    에 따라 매트릭스(
    Figure pct00114
    )를 계산하도록 구성되되;
    상기
    Figure pct00115
    은 상기 장치의 상기 출력 오디오 신호에 대한 복수의 오디오 객체 신호들의 사용자 지정 원하는 기여도를 표현하는 상기 사용자 지정 렌더링 매트릭스를 지칭하며;
    Dl은 상기 다운믹스 신호 표현에 대한 복수의 오디오 객체 신호들의 기여도를 표현하는 다운믹스 매트릭스를 지칭하고;
    Al ,m은 상기 사용자 지정 렌더링 매트릭스 및 헤드(head) 관련 전송 함수의 파라미터들에 기초하는 바이노럴 렌더링 매트릭스를 지칭하는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  13. 청구항 1 내지 3 또는 6 내지 7에 있어서,
    상기 왜곡 제한기는
    Figure pct00116

    에 따라 에너지 표준화 스칼라(scalar)(
    Figure pct00117
    )를 계산하도록 구성되되,
    Figure pct00118
    는 상기 장치의 출력 오디오 신호에 대한 객체 인덱스 j를 갖는 오디오 객체의 원하는 기여도를 표현하는 상기 사용자 지정 렌더링 매트릭스(
    Figure pct00119
    )에 대한 렌더링 계수를 지칭하며;
    dj는 상기 다운믹스 신호 표현에 대한 객체 인덱스 j를 갖는 오디오 객체의 기여도를 표현하는 다운믹스 계수를 지칭하고;
    ε는 0에 의한 나눗셈을 방지하기 위한 부가적 상수를 지칭하는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  14. 청구항 1 내지 13에 있어서,
    상기 장치는 상기 오디오 콘텐츠의 상기 비트스트림 표현으로부터 상기 선형 결합 파라미터(gDCU)를 표현하는 인덱스 값(idx)을 판독하여 파라미터 양자화 표를 이용해 상기 선형 결합 파라미터(gDCU)에 상기 인덱스 값을 맵핑(map)하도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  15. 청구항 14에 있어서,
    상기 양자화 표는 비정형(non-uniform) 양자화를 표현하고 있는데,
    상기 수정된 렌더링 매트릭스(Mren , lim)에 대한 상기 사용자 지정 렌더링 매트릭스(Mren)의 더 강력한 기여도를 표현하는 상기 선형 결합 파라미터(gDUC)의 더 작은 값들은 더 높은 분해능(resolution)으로 양자화되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  16. 청구항 1 내지 15에 있어서,
    상기 장치는 왜곡 제한 모드를 표현하는 비트스트림 요소(bsDcuMode)를 평가하도록 구성되고,
    상기 왜곡 제한기는, 상기 목표 렌더링 매트릭스가 유사 다운믹스 목표 렌더링 매트릭스이거나, 상기 목표 렌더링 매트릭스가 최선형(best-effort) 목표 렌더링 매트릭스인 상기 목표 렌더링 매트릭스를 선택적으로 얻도록 구성되는 것을 특징으로 하는 업믹스 신호 표현(130; 230)을 제공하기 위한 장치(100; 200).
  17. 복수의 오디오 객체 신호들(160a-160N)에 기초하여 다운믹스 신호(182)를 제공하도록 구성되는 다운믹서(downmixer, 180);
    상기 오디오 객체 신호들(160a-160N)과 다운믹스 파라미터들의 특징들을 표현하는 객체 관련 파라메트릭 부가 정보(186), 및 상기 비트스트림에 기초하여 업믹스 신호 표현을 제공하기 위한 장치(100; 200)에 의해 사용되는 수정된 렌더링 매트릭스(Mren , lim)에 대한 사용자 지정 렌더링 매트릭스(Mren)와 목표 렌더링 매트릭스(Mren,tar)의 원하는 기여도를 표현하는 선형 결합 파라미터(188)를 제공하도록 구성되는 부가 정보 제공기(side information provider, 184); 및
    상기 다운믹스 신호, 상기 객체 관련 파라메트릭 부가 정보, 및 상기 선형 결합 파라미터의 표현을 포함하는 비트스트림(170)을 제공하도록 구성되는 비트스트림 포맷터(bitstream formatter, 190);
    를 포함하는 것을 특징으로 하는 다중 채널 오디오 신호를 표현하는 비트스트림(170)을 제공하기 위한 장치(150).
  18. 선형 결합 파라미터를 얻기 위해 선형 결합 파라미터를 표현하는 비트스트림 요소를 평가하는 단계;
    상기 선형 결합 파라미터에 따라 사용자 지정 렌더링 매트릭스와 목표 렌더링 매트릭스의 선형 결합을 이용하여 수정된 렌더링 매트릭스를 얻는 단계; 및
    상기 수정된 렌더링 매트릭스를 이용해 상기 다운믹스 신호 표현 및 상기 객체 관련 파라메트릭 정보에 기초하여 상기 업믹스 신호 표현을 얻는 단계;
    를 포함하는 오디오 콘텐츠의 비트스트림 표현에 포함되어 있는 다운믹스 신호 표현 및 객체 관련 파라메트릭 정보에 기초하고, 사용자 지정 렌더링 매트릭스에 따라 업믹스 신호 표현을 제공하기 위한 방법.
  19. 복수의 오디오 객체 신호들에 기초하여 다운믹스 신호를 제공하는 단계;
    상기 오디오 객체 신호들 및 다운믹스 파라미터들의 특성들을 표현하는 객체 관련 파라메트릭 부가 정보, 및 수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스와 목표 렌더링 매트릭스의 원하는 기여도를 표현하는 선형 결합 파라미터를 제공하는 단계; 및
    상기 다운믹스 신호, 상기 객체 관련 파라메트릭 부가 정보, 및 상기 선형 결합 파라미터의 표현을 포함하는 비트스트림을 제공하는 단계;
    를 포함하는 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 방법.
  20. 컴퓨터 프로그램이 컴퓨터 상에서 구동할 때 청구항 18 또는 19에 따른 방법을 수행하기 위한 컴퓨터 프로그램.
  21. 복수의 오디오 객체들의 오디오 신호들을 결합하는 다운믹스 신호에 대한 표현(302);
    상기 오디오 객체들의 특성들을 표현하는 객체 관련 파라메트릭 정보(304); 및
    수정된 렌더링 매트릭스에 대한 사용자 지정 렌더링 매트릭스 및 목표 렌더링 매트릭스의 원하는 기여도를 표현하는 선형 결합 파라미터(306);
    을 포함하는 것을 특징으로 하는 다중 채널 오디오 신호를 표현하는 비트스트림(bitstream, 300).
KR1020127013091A 2009-11-20 2010-11-16 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림 KR101414737B1 (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US26304709P 2009-11-20 2009-11-20
US61/263,047 2009-11-20
US36926110P 2010-07-30 2010-07-30
EP10171452 2010-07-30
US61/369,261 2010-07-30
EP10171452.5 2010-07-30
PCT/EP2010/067550 WO2011061174A1 (en) 2009-11-20 2010-11-16 Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter

Publications (2)

Publication Number Publication Date
KR20120084314A true KR20120084314A (ko) 2012-07-27
KR101414737B1 KR101414737B1 (ko) 2014-07-04

Family

ID=44059226

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127013091A KR101414737B1 (ko) 2009-11-20 2010-11-16 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림

Country Status (15)

Country Link
US (1) US8571877B2 (ko)
EP (1) EP2489038B1 (ko)
JP (1) JP5645951B2 (ko)
KR (1) KR101414737B1 (ko)
CN (1) CN102714038B (ko)
AU (1) AU2010321013B2 (ko)
BR (1) BR112012012097B1 (ko)
CA (1) CA2781310C (ko)
ES (1) ES2569779T3 (ko)
MX (1) MX2012005781A (ko)
MY (1) MY154641A (ko)
PL (1) PL2489038T3 (ko)
RU (1) RU2607267C2 (ko)
TW (1) TWI441165B (ko)
WO (1) WO2011061174A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015183060A1 (ko) * 2014-05-30 2015-12-03 삼성전자 주식회사 오디오 객체를 이용한 오디오 콘텐트 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
KR20160136278A (ko) * 2014-03-24 2016-11-29 소니 주식회사 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
WO2011119401A2 (en) 2010-03-23 2011-09-29 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
MY176406A (en) * 2012-08-10 2020-08-06 Fraunhofer Ges Forschung Encoder, decoder, system and method employing a residual concept for parametric audio object coding
EP2717265A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible dynamic adaption of time/frequency resolution in spatial-audio-object-coding
WO2014112793A1 (ko) * 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN105009207B (zh) 2013-01-15 2018-09-25 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
WO2014187987A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
JP6190947B2 (ja) 2013-05-24 2017-08-30 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
CN109712630B (zh) 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
JP6476192B2 (ja) 2013-09-12 2019-02-27 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
CN105659320B (zh) 2013-10-21 2019-07-12 杜比国际公司 音频编码器和解码器
CN105723740B (zh) * 2013-11-14 2019-09-17 杜比实验室特许公司 音频的屏幕相对呈现和用于这样的呈现的音频的编码和解码
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
US9756448B2 (en) 2014-04-01 2017-09-05 Dolby International Ab Efficient coding of audio scenes comprising audio objects
CN105227740A (zh) * 2014-06-23 2016-01-06 张军 一种实现移动终端三维声场听觉效果的方法
WO2016050900A1 (en) 2014-10-03 2016-04-07 Dolby International Ab Smart access to personalized audio
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
CN105989845B (zh) 2015-02-25 2020-12-08 杜比实验室特许公司 视频内容协助的音频对象提取
WO2017035281A2 (en) 2015-08-25 2017-03-02 Dolby International Ab Audio encoding and decoding using presentation transform parameters
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
JP7093841B2 (ja) * 2018-04-11 2022-06-30 ドルビー・インターナショナル・アーベー 6dofオーディオ・レンダリングのための方法、装置およびシステムならびに6dofオーディオ・レンダリングのためのデータ表現およびビットストリーム構造
GB2593136B (en) * 2019-12-18 2022-05-04 Nokia Technologies Oy Rendering audio
CN113641915B (zh) * 2021-08-27 2024-04-16 北京字跳网络技术有限公司 对象的推荐方法、装置、设备、存储介质和程序产品
US20230091209A1 (en) * 2021-09-17 2023-03-23 Nolan Den Boer Bale ripper assembly for feed mixer apparatus

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2323294T3 (es) * 2002-04-22 2009-07-10 Koninklijke Philips Electronics N.V. Dispositivo de decodificacion con una unidad de decorrelacion.
US8843378B2 (en) * 2004-06-30 2014-09-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel synthesizer and method for generating a multi-channel output signal
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
EP1829424B1 (en) 2005-04-15 2009-01-21 Dolby Sweden AB Temporal envelope shaping of decorrelated signals
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
JP4875142B2 (ja) * 2006-03-28 2012-02-15 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
PL2038878T3 (pl) * 2006-07-07 2012-06-29 Fraunhofer Ges Forschung Urządzenie i sposób do łączenia wielu zakodowanych parametrycznie źródeł audio
UA94117C2 (ru) * 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
AU2007312597B2 (en) 2006-10-16 2011-04-14 Dolby International Ab Apparatus and method for multi -channel parameter transformation
WO2008069596A1 (en) * 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN103137132B (zh) * 2006-12-27 2016-09-07 韩国电子通信研究院 用于编码多对象音频信号的设备
EP2111618A4 (en) * 2007-02-13 2010-04-21 Lg Electronics Inc METHOD AND APPARATUS FOR PROCESSING AUDIO SIGNAL
AU2008215232B2 (en) * 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
WO2009049896A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
KR100998913B1 (ko) * 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
EP2250641B1 (en) * 2008-03-04 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for mixing a plurality of input data streams
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160136278A (ko) * 2014-03-24 2016-11-29 소니 주식회사 인코딩 장치 및 인코딩 방법, 디코딩 장치 및 디코딩 방법, 및 프로그램
WO2015183060A1 (ko) * 2014-05-30 2015-12-03 삼성전자 주식회사 오디오 객체를 이용한 오디오 콘텐트 제공 방법, 장치 및 컴퓨터 판독 가능한 기록 매체

Also Published As

Publication number Publication date
MY154641A (en) 2015-07-15
JP2013511738A (ja) 2013-04-04
MX2012005781A (es) 2012-11-06
JP5645951B2 (ja) 2014-12-24
US20120259643A1 (en) 2012-10-11
RU2607267C2 (ru) 2017-01-10
AU2010321013A1 (en) 2012-07-12
PL2489038T3 (pl) 2016-07-29
CN102714038A (zh) 2012-10-03
RU2012127554A (ru) 2013-12-27
TW201131553A (en) 2011-09-16
KR101414737B1 (ko) 2014-07-04
CA2781310C (en) 2015-12-15
EP2489038B1 (en) 2016-01-13
EP2489038A1 (en) 2012-08-22
CN102714038B (zh) 2014-11-05
ES2569779T3 (es) 2016-05-12
TWI441165B (zh) 2014-06-11
US8571877B2 (en) 2013-10-29
AU2010321013B2 (en) 2014-05-29
BR112012012097A2 (pt) 2017-12-12
WO2011061174A1 (en) 2011-05-26
BR112012012097B1 (pt) 2021-01-05
CA2781310A1 (en) 2011-05-26

Similar Documents

Publication Publication Date Title
KR101414737B1 (ko) 다운믹스 신호 표현에 기초하여 업믹스 신호 표현을 제공하기 위한 장치, 다중 채널 오디오 신호를 표현하는 비트스트림을 제공하기 위한 장치, 선형 결합 파라미터를 이용하여 다중 채널 오디오 신호를 표현하는 방법, 컴퓨터 프로그램 및 비트스트림
KR101391110B1 (ko) 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
JP5719372B2 (ja) アップミックス信号表現を生成する装置及び方法、ビットストリームを生成する装置及び方法、並びにコンピュータプログラム
EP2941771B1 (en) Decoder, encoder and method for informed loudness estimation employing by-pass audio object signals in object-based audio coding systems
KR101426625B1 (ko) 평균값을 이용하여 다운믹스 신호 표현 및 이 다운믹스 신호 표현과 관련된 파라메트릭 보조 정보에 기초한 업믹스 신호 표현을 제공하기 위해 하나 이상의 조정된 파라미터를 제공하는 장치, 방법 및 컴퓨터 프로그램
AU2016234987B2 (en) Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
KR101808464B1 (ko) 변형된 출력 신호를 얻기 위해 인코딩된 오디오 신호를 디코딩하기 위한 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180531

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 6