KR20150073180A - 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법 - Google Patents

후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법 Download PDF

Info

Publication number
KR20150073180A
KR20150073180A KR1020157010956A KR20157010956A KR20150073180A KR 20150073180 A KR20150073180 A KR 20150073180A KR 1020157010956 A KR1020157010956 A KR 1020157010956A KR 20157010956 A KR20157010956 A KR 20157010956A KR 20150073180 A KR20150073180 A KR 20150073180A
Authority
KR
South Korea
Prior art keywords
parameter
information
audio object
signal
mixing
Prior art date
Application number
KR1020157010956A
Other languages
English (en)
Other versions
KR101798117B1 (ko
Inventor
사샤 디쉬
하랄드 푹스
조우니 파울루스
레온 테렌티브
올리버 헬무트
위르겐 헤레
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20150073180A publication Critical patent/KR20150073180A/ko
Application granted granted Critical
Publication of KR101798117B1 publication Critical patent/KR101798117B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 디코더가 제공된다. 게다가, 인코더 및 인코딩된 오디오 신호가 제공된다. 디코더는 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 수신함으로써 비-믹싱 정보를 결정하기 위한 비-믹싱 정보 결정기를 포함하며, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높다. 게다가, 디코더는 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 획득하기 위하여, 적어도 하나의 오디오 오브젝트 신호를 나타내는, 다운믹스 신호 상에 비-믹싱 정보를 적용하기 위한 비-믹싱 모듈을 포함한다. 비-믹싱 정보 결정기는 변형된 파라미터 정보가 제 1 주파수 해상도보다 높은 주파수 해상도를 갖는 것과 같이, 변형된 파라미터 정보를 획득하기 위하여 제 1 파라미터 정보와 제 2 파라미터 정보를 변형함으로써 비-믹싱 정보를 결정하도록 구성된다.

Description

후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법{ENCODER, DECODER AND METHODS FOR BACKWARD COMPATIBLE MULTI-RESOLUTION SPATIAL-AUDIO-OBJECT-CODING}
본 발명은 오디오 신호 인코딩, 오디오 신호 디코딩 및 오디오 신호 처리에 관한 것으로서, 특히 후방 호환성 다중 해상도(backward compatible multi-resolution) 공간적 오디오 오브젝트 코딩(SAOC)을 위한 인코더, 디코더 및 방법들에 관한 것이다.
현대 디지털 오디오 시스템들에서, 수신자 면상에 전송된 콘텐츠의 오디오-오브젝트 관련 변형들을 허용하는 것이 주요 추세이다. 이러한 변형들은 공간적으로 분포되는 스피커들을 통한 다중 채널 재생의 경우에 오디오 신호의 선택된 부분들의 이득 변형들 및/또는 전용 오디오 오브젝트들의 공간적 재-위치결정(re-positioning)을 포함한다. 이는 오디오 콘텐츠의 서로 다른 부분들을 서로 다른 스피커들에 개별적으로 전달함으로써 달성될 수 있다.
바꾸어 말하면, 오디오 처리, 오디오 전송, 및 오디오 저장의 기술에 있어서, 오브젝트 기원 오디오 콘텐츠 재생에 대한 사용자 상호작용 및 또한 청력 인상(hearing impression)을 향상시키기 위하여 오디오 콘텐츠 또는 그것들의 일부분들을 개별적으로 제공하기 위한 다중 채널 재생의 확장 가능성들을 허용하려는 요구가 점차 증가하고 있다. 이에 의해, 다중 채널 오디오 콘텐츠의 사용은 사용자를 위하여 상당한 개선을 가져온다. 예를 들면, 3차원 청력 인상이 획득될 수 있는데, 이는 엔터테인먼트 적용들에서 향상된 사용자 만족을 가져온다. 그러나, 다중 채널 오디오 콘텐츠는 또한 전문적인 환경들, 예를 들면 전화 회의 적용들에서 유용한데, 그 이유는 다중 채널 오디오 재생을 사용함으로써 대화자 이해도가 향상될 수 있기 때문이다. 또 다른 가능한 적용은 재생 레벨 및/또는 목소리 부분 또는 서로 다른 악기들과 같은, 서로 다른 부분들(또한 "오디오 오브젝트"로 명칭되는) 또는 트랙들의 공간적 위치를 개별적으로 조정하기 위하여 음악 작품의 청취자에 제공하는 것이다. 사용자는 개인 취향, 음악 작품으로부터 하나 또는 그 이상의 부분의 기록, 교육 목적, 가라오케, 리허설 등을 위한 이유로 그러한 조정을 실행할 수 있다.
예를 들면, 펄스 코드 변조(PCM) 데이터 또는 심지어 압축 오디오 포맷들의 형태에서, 모든 디지털 다중 채널 또는 다중 오브젝트 오디오 콘텐츠의 간단한 개별 전송은 매우 높은 비트레이트를 요구한다. 그러나, 또한 비트 레이트 효율적인 방식으로 오디오 데이터를 전송하고 저장하는 것이 바람직하다. 따라서, 일반적으로 다중 채널/다중 오브젝트 적용들에 의해 야기되는 과도한 자원 부하를 방지하기 위하여 오디오 품질과 비트레이트 필요 사이의 합리적인 균형을 수용하려고 한다.
최근에, 오디오 코딩 분야에서, 예를 들면 동화상 전문가 그룹(Moving Picture Experts Group, MPEG, 이하 MPEG으로 표기) 등에 의해, 비트레이트 효율적 전송/저장 또는 다중 채널/다중 오브젝트 오디오 신호들을 위한 파라미터 기술들이 도입되었다. 일례가 채널 기원 접근법으로서의 MPEG 서라운드[MPS, BCC], 또는 오브젝트 기원 접근법으로서의 MPEG 공간적 오디오 오브젝트 코딩[JSC, SAOC, SAOC1, SAOC2]이다. 또 다른 오브젝트 기원 접근법은 "정보 소스 분리(informed source separation"[ISS1, ISS2, ISS3, ISS4, ISS5, ISS6]로 칭해진다. 이러한 기술들은 채널들/오브젝트들의 다운믹스 및 전송된/저장된 오디오 장면 및/또는 오디오 소스 오브젝트들을 기술하는 부가적인 부가 정보를 기초로 하여 원하는 출력 오디오 장면 또는 원하는 오디오 소스 오브젝트를 재구성하는 것을 목적으로 한다.
그러한 시스템 내의 채널/오브젝트 관련 부가 정보의 추정과 적용은 시간-주파수 선택적 방식으로 수행된다. 따라서, 그러한 시스템들은 이산 푸리에 변환(DFT), 단시간 푸리에 변환(STFT), 또는 필터 뱅크 유사 직각 대칭 필터(QMF) 뱅크들 등과 같은 시간-주파수 변환들을 사용한다. 그러한 시스템들의 기본 원리가 MPEG 공간적 오디오 오브젝트 코딩을 사용하는, 도 4에 도시된다.
단시간 푸리에 변환의 경우에 있어서, 시간적 차원은 시간-블록 수에 의해 표현되고 스펙트럼 차원은 스펙트럼 계수("빈(bin)") 수에 의해 캡쳐링된다(captured). 직각 대칭 필터의 경우에, 시간적 차원은 시간-슬롯 수에 의해 표현되고 스펙트럼 차원은 부-대역 수에 의해 캡쳐링된다. 만일 뒤따르는 제 2 필터 단계의 적용에 의해 직각 대칭 필터의 스펙트럼 해상도가 향상되면, 전체 필터 뱅크는 하이브리드 직각 대칭 필터로 불리고 미세 해상도 부-대역들은 하이브리드 부-대역들로 불린다.
위에서 이미 언급된 것과 같이, 공간적 오디오 오브젝트 코딩에서의 일반적인 처리는 시간-주파수 효율적인 방식으로 수행되고 각각의 주파수 대역 내에서 다음과 같이 설명될 수 있다:
- N 입력 오디오 오브젝트 신호들(s 1 ...s N )은 요소들(d 1 .1 ...d N .P )로 구성되는 다운믹스 매트릭스를 사용하여 인코더 처리의 부분으로서 P 채널들(x 1 ...x P )로 믹싱 다운된다. 게다가, 인코더는 입력 오디오 오브젝트들의 특징들을 기술하는 부가 정보를 추출한다(부가 정보 추출기(SIE) 모듈). MPEG 공간적 오디오 오브젝트 코딩을 위하여, 서로의 오브젝트 파워들(w.r.t.)의 관계들은 그러한 부가 정보의 가장 기본적인 형태이다.
- 다운믹스 신호(들) 및 부가 정보가 전송/저장된다. 이를 위하여, 다운믹스 오디오 신호(들)는 예를 들면 MPEG-1/2 계층 Ⅱ 또는 Ⅲ(aka .mp3), MPEG-2/4 고급 오디오 코딩(AAC) 등과 같은 잘 알려진 지각적 오디오 코더들을 사용하여 압축될 수 있다.
- 수신 단부 상에서, 디코더는 개념적으로 전송된 부가 정보를 사용하여 (디코딩된) 다운믹스 신호들로부터 원래 오브젝트 신호들("오브젝트 분리")을 복원하려고 한다. 이러한 근사치 오브젝트 신호들(
Figure pct00001
)은 그리고 나서 도 4의 계수들(r 1 .1 ...r N .M )에 의해 기술된 렌더링 매트릭스(rendering matrix)를 사용하여 M 오디오 출력 채널들(
Figure pct00002
)에 의해 표현되는 표적 장면(target scene) 내로 믹싱된다. 원하는 표적 정면은 극단의 경우에 있어서, 혼합물 중에서 단지 하나의 소스 신호의 렌더링일 수 있으나(소스 분리 시나리오), 또한 전송된 오브젝트들로 구성되는 어떠한 다른 임의의 음향 장면일 수 있다. 예를 들면, 출력은 단일 채널, 2-채널 또는 5.1 다중 채널 표적 장면일 수 있다.
시간-주파수 기반 시스템들은 정적 시간 및 주파수 해상도를 갖는 시간-주파수(t/f) 변환을 사용할 수 있다. 특정 고정된 시간/주파수-해상도 그리도(grid)의 선택은 일반적으로 시간 및 주파수 해상도 사이의 균형을 포함한다.
고정된 시간/주파수-해상도의 효과는 오디오 신호 혼합물 내의 일반적인 오브젝트 신호들의 예에서 설명된다. 예를 들면, 음조 음향(tonal sound)의 스펙트럼은 기본적인 주파수와 일부 배음(overtone)을 갖는 고조파로 관련된 구조를 나타낸다. 그러한 신호들의 에너지는 특정 주파수 영역들에 집중된다. 그러한 신호들을 위하여, 사용된 시간/주파수-표현의 고주파수 해상도는 신호 혼합물로부터 협대역 음조 스펙트럼 영역들을 분리하는데 효과적이다. 이와 대조적으로, 드럼 음과 같은 트랜지언트 신호들은 종종 독특한 시간적 구조를 갖는다: 실질적인 에너지는 단지 단시간을 위하여 존재하고 광범위한 주파수들에 걸쳐 확산된다. 이러한 신호들을 위하여, 사용된 시간/주파수-표현의 높은 시간적 해상도는 신호 혼합물로부터 트랜지언트 신호 부분을 분리하는데 바람직하다.
표준 공간적 오디오 오브젝트 코딩 표현으로부터 획득된 주파수 해상도는 표준 공간적 오디오 오브젝트 코딩 내의 28의 최대 값을 갖는, 파라미터 대역들의 수에 한정된다. 그것들은 4개의 복잡한 부-대역들로 더 세분하는 가장 낮은 대역들 상에 부가적인 하이브리드 필터링 단계를 갖는 64-대역 직각 대칭 필토 분석으로 구성되는 하이브리드 직각 대칭 필터 뱅크로부터 획득된다. 획득된 주파수 대역들은 인간 청력 시스템의 중요한 대역 해상도를 모방하는 파라미터 대역들로 그룹화된다. 그룹화는 필요한 부가 정보 데이터 비율을 실제 적용들에서 효율적으로 처리될 수 있는 크기로 감소시키도록 허용한다.
현재 오디오 오브젝트 코딩 전략들은 공간적 오디오 오브젝트 코딩 처리의 시간-주파수 선택에서 단지 제한된 다양성만을 제공한다. 예를 들면, MPEG 공간적 오디오 오브젝트 코딩[SAOC][SAOC1]은 이른바 하이브리드 직각 대칭 필터 뱅크 및 그것의 뒤따르는 파라미터 대역들로의 그룹화의 사용에 의해 획득될 수 있는 시간-주파수 해상도에 한정된다. 따라서, 표준 공간적 오디오 오브젝트 코딩 내의 오브젝트 복원은 종종 다른 오디오 객체들로부터의 가청 변조된 혼선(crosstalk)에 이르게 하는 하이브리드 직각 대칭 필터의 거친(coarse) 주파수 해상도로 어려움을 겪는다(예를 들면, 음향 내의 이중-대화 아티팩트들 또는 음악 내의 청각 거칠기).
현존 시스템은 합리적인 분리 품질이 주어지는 합리적으로 낮은 데이터 비율을 생산한다. 주요 문제점은 음조 음향들의 깨끗한 분리를 위한 불충분한 주파수이다. 이는 오브젝트의 음조 성분들을 둘러싸는 다른 오브젝트들의 "할로(halo)"로서 나타낸다. 지각적으로 이는 거칠기 또는 보코더(vocoder) 유사 아티팩트로서 관찰된다. 이러한 할로의 해로운 영향은 파라미터 주파수 해상도를 증가시킴으로써 감소될 수 있다.
512 대역들(44.1 ㎑ 샘플링 레이트에서)과 동일하거나 또는 높은 해상도는 테스트 신호들에서 지각적으로 상당히 향상된 분리를 생산하기에 충분하다는 것을 이해하여야 한다. 그러한 높은 파라미터 해상도의 문제점은 부가 정보가 필요한 양이 비현실적인 양으로 상당히 증가한다는 것이다. 게다가, 현존하는 표준 공간적 오디오 오브젝트 코딩 시스템들과의 호환성이 상실될 수 있다.
따라서, 만일 종래 기술의 위에 설명된 제한들을 극복하는 방법을 알려줄 개념들이 제공되면 이는 매우 바람직할 것이다.
본 발명의 목적은 오디오 오브젝트 코딩을 위한 그러한 향상된 개념들을 제공하는 것이다. 본 발명의 목적은 청구항 1항에 따른 디코더, 청구항 9항에 따른 인코더, 청구항 14항에 따른 인코딩된 오디오 신호, 청구항 15항에 따른 시스템, 청구항 16항에 따른 디코딩 방법, 청구항 17항에 따른 인코딩 방법 및 청구항 18항에 따른 컴퓨터 프로그램에 의해 해결된다.
종래의 공간적 오디오 오브젝트 코딩과 대조적으로, 본 발명의 실시 예들은 다음과 같이 스펙트럼 파라미터화를 제공한다:
- 표준 공간적 오디오 오브젝트 코딩 인코더로부터 기원하는 공간적 오디오 오브젝트 코딩 파라미터 비트 스트림들은 표준 디코더로 획득된 것과 필적하는 지각 품질을 갖는 향상된 디코더에 의해 여전히 디코딩될 수 있고,
- 향상된 공간적 오디오 오브젝트 코딩 파라미터 비트 스트림들은 표준 공간적 오디오 오브젝트 코딩 비트 스트림들로 획득된 것과 필적하는 품질을 갖는 표준 공간적 오디오 오브젝트 코딩 디코더로 디코딩될 수 있고,
- 향상된 공간적 오디오 오브젝트 코딩 파라미터 비트 스트림들은 향상된 디코더로 최적 품질로 디코딩될 수 있고,
- 향상된 공간적 오디오 오브젝트 코딩 디코더는 예를 들면 이용가능한 계산적 자원들에 의존하여 향상 레벨을 동역학적으로 조정할 수 있고,
- 표준 및 향상된 공간적 오디오 오브젝트 코딩 파라미터 비트 스트림들은 예를 들면 다-지점 제어 유닛(MCU) 시나리오에서, 디코더에 의해 제공되는 품질을 갖는 표준 또는 향상된 디코더로 디코딩될 수 있는 하나의 공통 비트 스트림 내로 믹싱될 수 있고,
- 부가적인 파라미터화는 간단하다.
위에 언급된 특성들을 위하여, 표준 공간적 오디오 오브젝트 코딩 디코더에 의해 이해되는 파라미터화를 가지며, 또한 고주파수 해상도 내의 정보의 효율적인 전달을 허용하는 것이 바람직하다. 근본적인 시간-주파수 표현의 해상도는 최대 향상 성능을 결정한다. 여기서 본 발명은 간결하고 후방 호환성 디코딩을 허용하는 향상된 고주파수 정보를 전달하기 위한 방법을 정의한다.
향상된 공간적 오디오 오브젝트 코딩 지각 품질은 예를 들면, 입력 오디오 오브젝트의 특정 특성들에 대한 오디오 오브젝트 큐(cue)를 추정하거나 또는 합성하도록 사용되는 필터 뱅크 또는 변환의 시간/주파수 해상도를 동역학적으로 조정함으로써 획득될 수 있다. 예를 들면, 만일 오디오 오브젝트가 특정 기간 동안에 준-정상적(quasi-stationary)일 때, 파라미터 추정 및 합성은 거친 시간 해상도 및 미세 주파수 해상도 상에서 효과적으로 실행된다. 만일 오디오 오브젝트가 특정 기간 동안에 트랜지언트 또는 정지들을 포함하면, 파라미터 추정 및 합성은 바람직하게는 미세 시간 해상도 및 거친 주파수 해상도를 사용하여 수행된다. 이에 의해, 필터 뱅크 또는 변환의 동역학적 적용은 다음을 허용한다:
- 오브젝트 간 혼선을 방지하기 위하여 준-정상적 신호들의 스펙트럼 분리에서의 고주파수 선택성, 및
- 전- 또는 후-에코들을 최소화하기 위하여 오브젝트 개시 또는 트랜지언트 이벤트들을 위한 높은 시간적 정확성.
동시에, 종래 공간적 오디오 오브젝트 코딩 품질은 오브젝트 신호 특징들을 기술하는 부가 정보에 의존하는 본 발명의 후방 호환성 신호 적응적 변환에 의해 제공되는 시간-주파수 그리드 상에 표준 공간적 오디오 오브젝트 코딩 데이터를 매핑함으로써 획득될 수 있다.
하나의 공통 변환을 사용하여 표준 및 향상된 공간적 오디오 오브젝트 코딩 데이터를 디코딩할 수 있는 것은 표준 및 신규의 향상된 공간적 오디오 오브젝트 코딩 데이터의 믹싱을 포함하는 적용들을 위한 직접적인 후방 호환성을 가능하게 한다. 또한 이는 표준 품질에 대하여 시간-주파수 선택적 향상을 허용한다.
제공되는 실시 예들은 어떠한 시간-주파수 변환에 한정되는 것이 아니며, 고주파수 해상도를 충분히 제공하는 어떠한 변환과 함께 적용될 수 있다. 문서는 전환되는 시간/주파수 해상도를 갖는 이산 푸리에 변환 기반 필터 뱅크에 대한 적용을 설명한다. 이러한 접근법에서, 시간 도메인 신호들은 짧은 블록들로 세분되며, 이는 또한 오버랩할 수 있다. 각각의 짧은 블록 내의 신호의 윈도우잉 함수(정상적으로 중간 및 0으로 가는 두 단부에서 큰 값들을 갖는)에 의해 가중된다. 최종적으로 가중된 신호는 선택된 변환에 의해, 여기서는 이산 푸리에 변환의 적용에 의해 주파수 도메인으로 변환된다.
복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 디코더가 제공된다. 디코더는 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 수신함으로써 비-믹싱 정보를 결정하기 위한 비-믹싱 정보 결정기(un-mixing-information determiner)를 포함하며, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 해상도보다 높다. 게다가, 디코더는 복수의 믹싱되지 않은 오디오 신호를 획득하기 위하여, 적어도 하나의 오디오 오브젝트 신호의 다운믹스를 나타내는, 다운믹스 신호에 대한 비-믹싱 신호를 적용하기 위한 비-믹스 모듈(un-mix module)을 포함한다. 비-믹싱 정보 결정기는 변형된 파라미터 정보가 제 1 주파수 해상도보다 높은 해상도를 갖는 것과 같은, 변형된 파라미터 정보를 획득하기 위하여 제 1 파라미터 정보 및 제 2 파라미터 정보를 변형함으로써 비-믹싱 정보를 결정하도록 구성된다.
게다가, 하나 또는 그 이상의 입력 오디오 오브젝트 신호들을 인코딩하기 위한 인코더가 제공된다. 인코더는 하나 또는 그 이상의 다운믹스 신호를 획득하기 위하여 하나 또는 그 이상의 입력 오디오 오브젝트를 다운믹싱하기 위한 다운믹스 유닛을 포함한다. 게다가, 인코더는 제 2 파라미터 부가 정보의 주파수 해상도가 제 1 파라미터 부가 정보의 주파수 해상도보다 높은 것과 같이, 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 발생시키기 위한 파라미터 부가 정보 발생기를 포함한다.
게다가, 시스템이 제공된다. 시스템은 위에 설명된 것과 같은 인코더 및 위에 설명된 것과 같은 디코더를 포함한다. 인코더는 하나 또는 그 이상의 입력 오디오 오브젝트 신호의 다운믹스를 나타내는 하나 또는 그 이상의 다운믹스 신호를 획득함으로써, 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 정보를 획득함으로써, 그리고 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 획득함으로써 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하도록 구성되며, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높다. 디코더는 하나 또는 그 이상의 다운믹스 신호를 기초로 하고, 제 1 파라미터 부가 정보 및 제 2 파라미터 부가 정보를 기초로 하여 믹싱되지 않은 오디오 신호를 발생시키도록 구성된다.
인코더는 하나 또는 그 이상의 입력 오디오 오브젝트 신호의 다운믹스를 나타내는 하나 또는 그 이상의 다운믹스 신호를 획득함으로써, 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 정보를 획득함으로써, 그리고 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 획득함으로써 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하도록 구성되며, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높다. 디코더는 하나 또는 그 이상의 다운믹스 신호를 기초로 하고, 제 1 파라미터 부가 정보 및 제 2 파라미터 부가 정보를 기초로 하여 오디오 출력 신호를 발생시키도록 구성된다.
게다가, 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 방법이 제공된다. 방법은 다음을 포함한다:
- 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 수신함으로써 바-믹싱 정보를 결정하는 단계를 구비하되, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높음; 및
- 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 획득하기 위하여, 적어도 하나의 오디오 오브젝트 신호의 다운믹스를 나타내는, 다운믹스 신호 상에 비-믹싱 정보를 적용하는 단계.
비-믹싱 정보를 결정하는 단계는 변형된 파라미터 정보가 제 1 주파수 해상도보다 높은 주파수 해상도를 갖는 것과 같이, 변형된 파라미터 정보를 획득하기 위하여 제 1 파라미터 정보 및 제 2 파라미터 정보를 변형하는 단계를 포함한다.
게다가. 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하기 위한 방법이 제공된다. 방법은 다음을 포함한다:
- 하나 또는 그 이상의 다운믹스 신호를 획득하기 위하여 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 다운믹싱하는 단계; 및
- 제 2 파라미터 부가 정보의 주파수 해상도가 제 1 파라미터 부가 정보의 주파수 해상도보다 높은 것과 같이, 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 발생시키는 단계.
게다가. 컴퓨터 또는 신호 프로세서 상에서 실행될 때 위에 설명된 방법들 중 어느 하나를 구현하기 위한 컴퓨터 프로그램이 제공된다.
바람직한 실시 예들이 종속 청구항들에 제공될 것이다.
다음에서, 도면들을 참조하여 본 발명의 실시 예들이 더 상세히 설명될 것이다.
도 1a는 일 실시 예에 따른 디코더를 도시한다.
도 1b는 또 다른 실시 예에 따른 디코더를 도시한다.
도 2a는 일 실시 예에 따른 인코더를 도시한다.
도 2b는 또 다른 실시 예에 따른 인코더를 도시한다.
도 2c는 일 실시 예에 따른 인코딩된 오디오 신호를 도시한다.
도 3은 일 실시 예에 따른 시스템을 도시한다.
도 4는 공간적 오디오 오브젝트 코딩 시스템의 개념적 개요의 개략적인 블록 다이어그램을 도시한다.
도 5는 단일 채널 오디오 신호의 시간적 스펙트럼 표현의 개략적인 다이어그램을 도시한다.
도 6은 공간적 오디오 오브젝트 인코더 내의 부가 정보의 시간-주파수 선택적 계산의 블록 다이어그램을 도시한다.
도 7은 일 실시 예에 따른 후방 호환성 표현을 도시한다.
도 8은 일 실시 예에 따른 정(true) 파라미터 값과 저해상도 평균 값 사이의 차이 곡선을 도시한다.
도 9는 일 실시 예에 따라 향상성을 갖는 후방 호환성 비트 스트림을 제공하는 향상된 인코더의 고-레벨 도해를 도시한다.
도 10은 인코더의 파라미터 경로를 구현하는 특정 실시 예에 따른 인코더의 블록 다이어그램을 도시한다.
도 11은 표준 및 향상된 공간적 오디오 오브젝트 코딩 모두를 디코딩할 수 있는 일 실시 예에 따른 향상된 디코더의 고-레벨 블록 다이어그램을 도시한다.
도 12는 향상된 파라미터 부가 정보 디코딩 유닛의 일 실시 예를 나타내는 블록 다이어그램을 도시한다.
도 13은 일 실시 예에 따른 향상된 공간적 오디오 오브젝트 코딩 디코더로의 표준 공간적 오디오 오브젝트 코딩 비트 스트림들의 디코딩의 블록 다이어그램을 도시한다.
도 14는 일 실시 예에 따른 디코더의 주요 기능적 블록들을 도시한다.
도 15는 음조와 잡음 신호, 및 특히, 고해상도 파워 스펙트럼 및 상응하는 거친 재구성들을 도시한다.
도 16은 위 사례 신호 모두를 위한 변형, 특히 사례 신호들을 위한 상관성 인자들을 도시한다.
도 17은 원래 상관성 인자들 및 두 사례 신호 모두를 위한 감소된-순서 선형 예측 기반 근사치를 도시한다.
도 18은 거친 재구성 상의 모델링된 상관성 인자의 적용 결과를 도시한다.
본 발명의 실시 예들을 설명하기 전에, 최신 공간적 오디오 오브젝트 코딩 시스템들에 대한 더 많은 배경정보가 제공된다.
도 4는 공간적 오디오 오브젝트 코딩 인코더(10) 및 공간적 오디오 오브젝트 코딩 디코더(12)의 일반적인 배치를 도시한다. 공간적 오디오 오브젝트 코딩 인코더(10)는 입력(N)으로서 오브젝트들, 즉 오디오 신호들(s 1 내지 s N )을 수신한다. 특히, 인코더(10)는 오디오 신호들(s 1 내지 s N )을 수신하고 이를 다운믹스 신호(18)로 다운믹싱하는 다운믹서(16)를 포함한다. 대안으로서, 다운믹스는 외부에서 제공될 수 있고("예술적 다운믹스") 시스템은 제공된 다운믹스를 계산된 다운믹스와 맞추도록 부가적인 부가 정보를 추정한다. 도 4에서, 다운믹스 신호는 P-채널 신호가 되도록 도시된다. 따라서, 어떠한 모노(P=1), 스테레오(P=2) 또는 다중-채널(P>2) 다운믹스 신호 구성이 예상가능하다.
스테레오 다운믹스의 경우에 있어서, 다운믹스 신호(18)의 채널들은 L0 R0으로 표시되고, 모노 다운믹스의 경우에는 간단히 L0으로 표시된다. 공간적 오디오 오브젝트 코딩이 개별 오브젝트들(s 1 내지 s N )을 복원할 수 있도록 하기 위하여, 부가 정보 추정기(17)는 공간적 오디오 오브젝트 코딩 디코더(12)에 공간적 오디오 오브젝트 코딩 파라미터들을 포함하는 부가 정보를 제공한다. 예를 들면, 스테레오 다운믹스의 경우에 있어서, 공간적 오디오 오브젝트 코딩 파라미터들은 오브젝트 레벨 차이들(OLD), 오브젝트-간 상관성들(IOC, 오브젝트-간 상관성 파라미터들), 다운믹스 이득 값들(DMG) 및 다운믹스 채널 레벨 차이들(DCLD)을 포함한다. 다운믹스 신호(18)와 함께, 공간적 오디오 오브젝트 코딩 파라미터들을 포함하는 부가 정보(20)는 공간적 오디오 오브젝트 코딩 디코더(12)에 의해 수신되는 공간적 오디오 오브젝트 코딩 출력 데이터 스트림을 형성한다.
공간적 오디오 오브젝트 코딩 디코더(12)는 어떠한 사용자 선택된 채널들(11-1)의 세트 상으로 오디오 신호들(11-1)을 복원하고 제공하기 위하여 다운믹스 신호(18)뿐만 아니라 부가 정보(20)를 수신하는 업믹서(upmixer)를 포함하며 렌더링(rendering)은 공간적 오디오 오브젝트 코딩 디코더(12) 내로 입력된 렌더링 정보(26)에 의해 규정된다.
오디오 신호들(s 1 내지 s N )은 시간 또는 공간적 도메인과 같은, 어떠한 코딩 도메인에서 인코더 내로 입력될 수 있다. 오디오 신호들(s 1 내지 s N )이 펄스 코드 변조 코딩된 것과 같은, 시간 도메인에서 인코더(10) 내로 제공되는 경우에, 인코더(10)는 오디오 신호들이 특정 필터 뱅크 해상도에서 서로 다른 스펙트럼 부분들과 관련된 일부 부-대역들 내에 표현되는, 스펙트럼 도메인 내로 신호들을 제공하기 위하여 하이브리드 직각 대칭 필터 뱅크와 같은, 필터 뱅크를 사용할 수 있다. 만일 오디오 신호들(s 1 내지 s N )이 인코더(10)에 의해 예상되는 표현 내에 존재하면, 스펙트럼 분해를 실행할 필요가 없다.
도 5는 방금 언급된 스펙트럼 도메인 내의 오디오 신호를 도시한다. 알 수 있는 것과 같이, 오디오 신호는 복수의 부-대역 신호로서 표현된다. 각각의 부-대역 신호(301 내지 30K)는 작은 박스들(32)에 의해 표시되는 부-대역 값들의 시간적 시퀀스로 구성된다. 알 수 있는 것과 같이, 부-대역 신호들(301 내지 30K)의 부-대역 값들(32)은 시간에 맞게 서로 동기화되고 따라서 각각의 연속적인 필터 뱅크 시간 슬롯들(34)을 위하여, 각각의 부-대역(301 내지 30K)은 정확한 하나의 부-대역 값(32)을 포함한다. 주파수 축(36)에 의해 도시된 것과 같이, 부-대역 신호들(301 내지 30K)은 서로 다른 주파수 영역들과 관련되고, 시간 축(38)에 의해 도시된 것과 같이, 필터 뱅크 시간 슬롯들(34)은 시간에 맞게 연속적으로 배치된다..
위에 설명된 것과 같이, 도 4의 부가 정보 추출기(17)는 입력 오디오 신호들(s 1 내지 s N )로부터 공간적 오디오 오브젝트 코딩 파라미터들을 계산한다. 현재 구현되는 공간적 오디오 오브젝크 코딩 표준에 따르면, 인코더(10)는 특정 양에 의해, 필터 뱅크 슬롯들(34)과 부-대역 분해에 의해 결정되는 것과 같은 원래 시간/주파수 해상도와 관련하여 감소될 수 있는 시간/주파수 해상도 내의 계산을 실행하며, 이러한 특정 양은 부가 정보(20) 내의 디코더 면으로 시그널링된다. 연속적인 필터 뱅크 시간 슬롯들(34)의 그룹은 공간적 오디오 오브젝트 코딩 프레임(41)을 형성할 수 있다. 또한 공간적 오디오 오브젝트 코딩 프레임(41) 내의 다수의 파라미터 대역이 부가 정보(20) 내에 전달된다. 따라서, 시간/주파수 도메인은 파선들(42)에 의해 도 5에 예시된 시간/주파수 타일들로 세분된다. 도 5에서, 파라미터 대역들은 시간/주파수 타일들의 규칙적인 배치가 획득되도록 하기 위하여 다양하게 도시된 공간적 오디오 오브젝트 코딩 프레임들(41) 내에 동일한 방식으로 분포된다. 그러나, 일반적으로 파라미터 대역들은 각각의 공간적 오디오 오브젝트 코딩 프레임들(41) 내의 스펙트럼 해상도를 위한 서로 다른 필요성에 따라, 하나의 공간적 오디오 오브젝트 프레임부터 그 다음까지 다양할 수 있다. 게다가, 공간적 오디오 오브젝트 프레임들(41)의 길이가 또한 다양할 수 있다. 그 결과, 시간/주파수 타일들의 배치는 불규칙적일 수 있다. 그럼에도 불구하고, 특정 공간적 오디오 오브젝트 코딩 프레임(41) 내의 시간/주파수 타일들은 일반적으로 동일한 기간을 가지며 시간 방향으로 정렬되는데, 즉 상기 공간적 오디오 오브젝트 프레임(41)은 주어진 공간적 오디오 오브젝트 프레임(41)의 시작에서 시작하고 상기 공간적 오디오 오브젝트 프레임(41)의 단부에서 끝난다.
도 4에 도시된 부가 정보 추출기(17)는 다음이 공식에 따라 공간적 오디오 오브젝트 코딩 파라미터들을 계산한다. 특히, 부가 정보 추출기(17)는 다음과 같이 각각의 오브젝트(i)를 위한 오브젝트 레벨 차이들을 계산하는데,
Figure pct00003
여기서 합계 및 지수들(nk)은 모든 시간적 지수(34), 및 공간적 오디오 오브젝트 코딩 프레임(또는 프로세싱 시간 슬롯)을 위한 지수들(l) 및 파라미터 대역을 위한 지수(m)에 의해 참조되는, 특정 시간/주파수 타일(42)에 속하는 모든 스펙트럼 지수(30)를 고려하며,
Figure pct00004
Figure pct00005
의 복소 공액(complex conjugate)이다. 이에 의해, 오디오 신호 또는 오브젝트(i)의 모든 부-대역 값(x i )의 에너지는 합산되고 모든 오브젝트 또는 오디오 신호 중에서 그러한 타일의 가장 높은 에너지 값으로 정규화된다.
또한, 공간적 오디오 오브젝트 코딩 부가 정보 추출기(17)는 서로 다른 입력 오브젝트들(s 1 내지 s N )의 쌍들의 상응하는 시간/주파수 타일들의 유사성 측정을 계산할 수 있다. 비록 공간적 오디오 오브젝트 코딩 부가 정보 추출기(17)가 입력 오브젝트들(s 1 내지 s N )의 모든 쌍 사이의 유사성 측정을 계산할 수 있더라도, 공간적 오디오 오브젝트 코딩 부가 정보 추출기(17)는 또한 유사성 측정들의 시그널링을 억제하거나 또는 공통 스테레오 채널이 왼쪽 또는 오른쪽 채널들을 형성하는 오디오 오브젝트들(s 1 내지 s N )의 유사성 측정들의 계산을 제한할 수 있다. 어떠한 경우에 있어서, 유사성 측정은 오브젝트-간 교차 상관성 파라미터(
Figure pct00006
)로 불린다. 계산은 다음과 같다:
Figure pct00007
여기서 다시 지수들(nk)은 특정 시간/주파수 타일(42)에 속하는 모든 부-대역 값을 고려하고 ij는 오디오 오브젝트들(s 1 내지 s N )의 특정 쌍을 나타내며 Re{}는 복소수 값 인수의 실수 부분(즉, 호수 부분을 버림)만을 보유하는 연산을 나타낸다.
도 4의 다운믹서(16)는 각각의 오브젝트(s 1 내지 s N )에 적용되는 이득 인자들의 사용에 의해 오브젝트들(s 1 내지 s N )을 다운믹싱한다. 즉, 이득 인자(d i )는 오브젝트(i)에 적용되고 그리고 나서 모든 가중된 오브젝트(s 1 내지 s N )가 P=1이면 도 4에 예시된, 모노 다운믹스 신호를 획득하도록 합쳐진다. 만일 P=2이면 도 4에 도시된, 2-채널 다운믹스 신호의 또 다른 예의 경우에 있어서, 이득 인자(d 1 ,i )는 오브젝트(i)에 적용되고 그리고 나서 그러한 모든 이득 증폭된 오브젝트는 왼쪽 다운믹스 채널(L0)을 획득하도록 합쳐지고, 이득 인자들(d 2 ,i )이 오브젝트(i)에 적용되며 그리고 나서 이에 따라 이득 증폭된 오브젝트들이 오른쪽 다운믹스 채널(R0)을 획득하도록 합쳐진다. 위와 유사한 처리가 다중-채널 다운믹스(P>2)의 경우에 적용된다. 이러한 다운믹스 처리는 다운믹스 이득들(DMG i ) 및 스테레오 다운믹스 신호의 경우에 있어서, 다운믹스 레벨 차이들(DCLD)에 의해 디코더 면으로 시그널링된다.
다운믹스 이득들은 다음에 따라 계산되며:
DMG i = 20log10(d i + ε), (모노 다운믹스)
Figure pct00008
여기서 ε는 10-9과 같은 작은 수이다.
다운믹스 채널 레벨 차이들을 위하여 다음의 공식이 적용된다:
Figure pct00009
정상 방식에서, 다운믹서(16)는 각각 모노 다운믹스를 위하여 다음에 따라 다운믹스 신호를 발생시키거나:
Figure pct00010
또는 스테레오 다운믹스를 위하여 다음에 따라 다운믹스 신호를 발생시킨다:
Figure pct00011
따라서, 위에 언급된 공식들에서, 파라미터들 오브젝트 레벨 차이들(OLD) 및 오브젝트-간 상관성들(IOC)은 오디오 신호들이 함수이고, 파라미터들 다운믹스 이득 값들(DMG) 및 다운믹스 채널 레벨 차이들(DCLD)은 다운믹스 계수들(d)의 함수들이다. 그런데, d는 시간 및 주파수에서 변경될 수 있다는 것에 유의하여야 한다.
따라서, 정상 방식에서, 다운믹서(16)는 어떠한 선호도 없이, 즉 모든 오브젝트(s 1 내지 s N )를 동등하게 처리하여 모든 오브젝트(s 1 내지 s N )를 믹싱한다.
디코더 면에서, 업믹서는 다운믹스 과정의 역 및 하나의 계산 단계에서, 매트릭스(R, 문헌에서 또한 종종 A로서 불리는)에 의해 표현되는 "렌더링 정보"(26)의 구현을 실행하는데, 즉 2-채널 다운믹스의 경우에,
Figure pct00012
여기서 매트릭스(E)는 파라미터들(OLD 및 IOC)의 함수이고, 매트릭스(D)는 다음과 같은 다운믹싱 계수들을 포함하며,
Figure pct00013
여기서 D*는 D의 복소수 전치를 나타낸다. 매트릭스(E)는 오디오 오브젝트들(s 1 내지 s N )의 추정된 공분산 매트릭스이다. 현재 공간적 오디오 오브젝트 코딩 구현들에서, 추정된 공분산 매트릭스(D)의 계산은 일반적으로 공간적 오디오 오브젝트 코딩 파라미터들의 스펙트럼/시간 해상도 내에서 실행되는데, 따라서 각각(l, m)을 위하여, 추정된 공분산 매트릭스는 E i ,m 으로서 기록될 수 있다. 추정된 공분산 매트릭스(E i ,m )는 다음과 같이 정의되는 계수를 갖는 크기(N x N)이다:
Figure pct00014
따라서, 다음을 갖는 매트릭스(Ei ,m)는:
Figure pct00015
그것의 사선을 따라 오브젝트 레벨 차이들을 갖는데, 즉 i=j에 대하여
Figure pct00016
인데, 그 이유는 i=j에 대하여
Figure pct00017
이고
Figure pct00018
이기 때문이다. 그것의 사선 외부에 추정된 공분산 매트릭스(E)는 각각, 오브젝트-간 교차 상관성 측정(
Figure pct00019
)과 함께 가중된, 오브젝트들(ij)의 오브젝트 레벨 차이들의 기하 평균을 표현하는 매트릭스 계수들을 갖는다.
도 6은 공간적 오디오 오브젝트 코딩 인코더(10)의 일부분으로서 부가 정보 추정기(SIE)의 일례의 구현의 한 가지 가능한 원리를 나타낸다. 공간적 오디오 오브젝트 코딩 인코더(10)는 믹서(16) 및 부가 정보 추정기(17)를 포함한다. 부가 정보 추정기는 개념적으로 두 개의 모듈로 구성된다: 하나의 모듈은 각각의 신호의 단시간 기반 시간/주파수 표현(예를 들면, 단시간 푸리에 변환 또는 직각 대칭 필터)를 계산한다. 계산된 단시간 시간/주파수 표현은 제 2 모듈(46), 시간/주파수 선택적 부가 정보 추정기 모듈(t/f SIE) 내로 제공된다. 시간/주파수 부가 정보 추정기 모듈(46)은 각각의 시간/주파수 타일을 위한 부가 정보를 계산한다. 현재 공간적 오디오 오브젝트 코딩 구현들에서, 시간/주파수 변환은 고정되고 모든 오디오 오브젝트(s 1 내지 s N )를 위하여 동일하다. 게다가, 모든 오디오 오브젝트(s 1 내지 s N )를 위하여 동일한 공간적 오디오 오브젝트 코딩 프레임들에 대하여 공간적 오디오 오브젝트 코딩 파라미터들이 결정되고 따라서 일부 경우에 있어서 미세 시간적 해상도 또는 다른 경우에 있어서 미세 스펙트럼 해상도를 위한 오브젝트 특이 필요성들을 무시한다.
다음에서, 본 발명의 실시 예들이 설명된다.
도 1a는 일 실시 예에 따라 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 디코더를 도시한다.
디코더는 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 수신함으로써 비-믹싱 정보를 결정하기 위한 비-믹싱 정보 결정기(112)를 포함하며, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높다.
게다가, 디코더는 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 획득하기 위하여, 적어도 하나의 오디오 오브젝트 신호의 다운믹스를 나타내는, 다운믹스 신호에 대한 비-믹싱 정보를 적용하기 위한 비-믹싱 모듈(112)을 포함한다.
비-믹싱 정보 결정기(112)는 변형된 파라미터 정보가 제 1 주파수 해상도보다 높은 주파수 해상도를 갖는 것과 같이, 변형된 파라미터 정보를 획득하기 위하여 제 1 파라미터 부가 정보 및 제 2 파라미터 부가 정보를 변형함으로써 비-믹싱 정보를 결정하도록 구성된다.
도 1b는 또 다른 실시 예에 따른 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 디코더를 도시한다. 도 1b는 디코더는 다운믹스 신호를 획득하기 위하여 시간 도메인 내에서 표현되고 시간-주파수 도메인 내에서 표현되는, 다운믹스 입력을 변환하기 위한 제 1 변환 유닛(111)을 더 포함한다. 게다가, 도 1b의 디코더는 시간-주파수 도메인으로부터 시간 도메인으로 믹싱되지 않은 오디오 신호를 변환하기 위한 제 2 변환 유닛(114)을 포함한다.
도 2a는 일 실시 예에 따라 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하기 위한 인코더를 도시한다.
인코더는 하나 또는 그 이상의 다운믹스 신호를 획득하기 위하여 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 다운믹싱하기 위한 다운믹스 유닛(91)을 포함한다.
게다가, 인코더는 제 2 파라미터 부가 정보의 주파수 해상도가 제 1 파라미터 부가 정보의 주파수 해상도보다 높은 것과 같이, 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 발생시키기 위한 파라미터 부가 정보 발생기(93)를 포함한다.
도 2b는 또 다른 실시 예에 따라 하나 또는 그 이상의 오디오 오브젝트 신호를 발생시키기 위한 인코더를 도시한다. 도 2b의 인코더는 하나 또는 그 이상의 변환된 오디오 오브젝트 신호를 획득하기 위하여 시간 도메인으로부터 시간-주파수 도메인으로 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 변환하기 위한 변환 유닛(92)을 더 포함한다. 도 2b의 실시 예에서, 파라미터 부가 정보 발생기(93)는 하나 또는 그 이상의 변환된 부가 정보를 기초로 하여 제 1 파라미터 부가 정보 및 제 2 파라미터 부가 정보를 발생시키도록 구성된다.
도 2c는 일 실시 예에 따른 인코딩된 오디오 신호를 도시한다. 인코딩된 오디오 신호는 하나 또는 그 이상의 입력 오디오 오브젝트 신호의 다운믹스를 나타내는 다운믹스 부분(51), 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보와 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 포함하는 파라미터 부가 정보 부분(52)을 포함한다. 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높다.
도 3은 일 실시 예에 따른 시스템을 도시한다. 시스템은 위에 설명된 것과 같은 인코더(61) 및 위에 설명된 것과 같은 디코더(62)를 포함한다.
인코더(61)는 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보를 획득하고 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 획득함으로써, 하나 또는 그 이상의 입력 오디오 오브젝트 신호의 다운믹스를 나타내는 하나 또는 그 이상의 다운믹스 신호를 획득함으로써 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하도록 구성되며, 제 2 파라미터 부가 정보의 주파수 해상도는 제 1 파라미터 부가 정보의 주파수 해상도보다 높다.
디코더(62)는 하나 또는 그 이상의 다운믹스 신호를 기초로 하고 제 1 파라미터 부가 정보와 제 2 파라미터 부가 정보를 기초로 하여, 믹싱되지 않은 오디오 신호를 발생시키도록 구성된다.
다음에서, 후방 호환성 주파수 해상도 향상을 사용하는 향상된 공간적 오디오 오브젝트 코딩이 설명된다.
도 7은 실시 예들에 따른 후방 호환성 표현을 도시한다. 표현되려는 신호 특성, 예를 들면 파워 스펙트럼 엔벨로프(71)는 주파수에 대하여 다양하다. 주파수 축은 파라미터 대역들로 분할되고, 신호 기술자(signal descriptor)들의 단일 세트가 각각의 부-대역을 위하여 지정된다. 각각의 주파수 빈(bin)을 위하여 기술을 전달하는 대신에 기술자들의 사용은 개별적으로 지각 품질에서의 상당한 손실 없이 필요한 부가 정보의 양을 절약하도록 허용한다. 표준 공간적 오디오 오브젝트 코딩에서, 각각의 대역을 위한 단일 기술자는 비-방식 기술자들의 평균 값(72, 73, 74)이다. 이해될 수 있는 것과 같이, 이는 그 규모가 신호 특성에 의존하는 정보의 손실을 도입할 수 있다. 도 7에서, 대역들(k-1, k)은 상당히 큰 오류를 가지나, 대역(k+1)에서 오류는 훨씬 작다.
도 8은 일 실시 예, 예를 들면 표준 공간적 오디오 오브젝트 코딩 파라미터화에서의 미세 구조 정보 손실에 따른 정 파라미터 값(true parameter value)과 낮은 해상도 평균 값 사이의 차이 곡선(81)을 도시한다. 본 발명의 발명자들은 디코더 내의 미세-해상도 구조와 근사치를 허용하는 효율적인 방식으로 평군 값들(72, 73, 74, 예를 들면 표준 공간적 오디오 오브젝트 코딩 기술자) 및 정, 미세 해상도 값들 사이의 차이곡선(81)을 파라미터화하고 전송하기 위한 방법을 설명한다.
향상 정보를 혼합물 내의 단일 오브젝트에 추가하는 것은 결과로서 생기는 그러한 특정 오브젝트의 품질뿐만 아니라 근사치의 공간적 위치를 공유하고 일부 스펙트럼 오버랩을 갖는 모든 오브젝트의 품질을 향상시킨다는 것을 이해하여야 한다.
다음에서, 향상된 인코더와 함께 후방 호환되는 향상된 공간적 오디오 오브젝트 코딩 인코더, 특히 후방 호환성 부가 정보 부분과 부가적인 향성성들을 포함하는 비트 스트림을 생산하는 향상된 공간적 오디오 오브젝트 코딩 인코더가 설명된다. 추가된 정보는 향상된 디코더들이 이를 사용하는 동안에 구식의, 표준-부응 디코더들이 단순히 추가된 데이터를 무시하는 것과 같은 방법으로 표준 공간적 오디오 오브젝트 코딩 비트 스트림 내로 삽입될 수 있다. 현존하는 표준 공간적 오디오 오브젝트 디코더들은 파라미터 부가 정보(PSI)의 후방 호환성 부분을 디코딩할 수 있고 오브젝트들의 재구성을 생산할 수 있으며, 향상된 공간적 오디오 오브젝트 코딩 디코더에 의해 사용된 추가된 정보는 대부분의 경우에 있어서 재구성들의 지각 품질을 향상시킨다. 부가적으로, 만일 향상된 공간적 오디오 오브젝트 코딩 디코더가 제한된 자원들 상에서 구동되면, 향상들은 무시될 수 있고 기본 품질 재구성이 여전히 획득된다. 표준 공간적 오디오 오브젝트 코딩 및 표준 공간적 오디오 오브젝트 코딩 호환성 파라미터 부가 정보만을 사용하는 향상된 공간적 오디오 오브젝트 코딩 디코더들으로부터의 재구성들은 서로 다르나, 지각적으로 매우 유사한 것으로 판단된다(차이는 향상된 공간적 오디오 오브젝트 코딩 디코더로 표준 공간적 오디오 오브젝트 코딩 비트 스트림들을 디코딩하는 것과 유사한 성질이다).
도 9는 일 실시 예에 따라 향상성들을 갖는 후방 호환성 비트 스트림을 제공하는 향상된 인코더의 고-레벨 도해를 도시한다.
인코더는 하나 또는 그 이상의 다운믹스 신호를 획득하기 위하여 복수의 오디오 오브젝트 신호를 다운믹싱하기 위한 다운믹스 유닛(91)을 포함한다. 예를 들면, 오디오 오브젝트 신호들(예를 들면, 개별 (오디오) 오브젝트들)은 다운믹스 신호를 생성하기 위하여 다운믹스 유닛(91)에 의해 사용된다. 이는 시간 도메인, 주파수 도메인 내에서 발생할 수 있거나, 또는 심지어 지각적으로 제공되는 다운믹스가 사용될 수 있다.
파라미터 부가 정보 경로에서, (오디오) 오브젝트 신호들은 시간 도메인으로부터 주파수 도메인, 시간-주파수 도메인 또는 스펙트럼 도메인으로(예를 들면, 하나 또는 그 이상의 시간/주파수 변환 서브유닛(921, 922)을 포함하는 변환 유닛(92)에 의해) 변환 유닛(92)에 의해 전달된다.
게다가, 인코더는 파라미터 부가 정보를 발생시키기 위한 파라미터 부가 정보 발생기(93)를 포함한다. 도 9의 실시 예에서, 파라미터 부가 정보 발생기(93)는 예를 들면 파라미터 부가 정보 추출 유닛(94) 및 파라미터 부가 정보 스플리터(PSI splitter, 95)를 포함할 수 있다.그러한 일 실시 예에 따르면, 주파수 도메인 내에서, 파라미터 부가 정보는 파라미터 부가 정보 추출 유닛(94)에 의해 추출된다. 파라미터 부가 정보 스플리터(95)는 그리고 나서 파라미터 부가 정보를 두 부분으로 분할하도록 수행된다: 어떠한 표준 부합 공간적 오디오 오브젝트 코딩 디코더로 디코딩될 수 있는 표준 주파수 해상도 부분, 및 향상된 주파수 해상도 부분. 후자는 표준 디코더들에 의해 무시되나 향상된 디코더들에 의해 이용될 것과 같이, 비트 스트림 구성요소들 내에 "감춰질" 수 있다.
도 10은 위에 설명된 인코더의 파라미터 경로를 구현하는 특정 실시 예에 따른 인코더의 블록 다이어그램을 도시한다. 굵은 흑색 기능 블록들(102, 105, 106, 107, 108, 109)은 본 발명의 처리의 주요 성분들을 나타낸다. 특히, 도 10은 더 유능한 디코더들을 위한 향상성들을 갖는 후방 호환성 비트 스트림을 생산하는 2 단계 인코딩의 블록 다이어그램을 도시한다. 인코더는 두 디코더 버전 모두로 디코딩할 수 있는 파라미터 부가 정보를 생산하도록 구성된다. 도 9의 변환 유닛(92)은 도 10의 트랜지언트 검출 유닛(101), 크리에이트 윈도우 시퀀스 유닛(creat-window-sewuwnce unit, 102), 및 시간/주파수 분석 유닛(103)에 의해 구현된다. 도 10의 나머지 유닛들(104, 105, 106, 107, 108, 109)은 파라미터 부가 정보 추출 유닛(94)과 파라미터 부가 정보 스플리터(95)의 조합의 기능성을 구현할 수 있다.
우선, 신호는 분석 프레임들로 세분되고, 이는 그리고 나서 주파수 도메인 내로 전달된다. 다수의 분석 프레임들이 고정된 길이 파라미터 프레임으로 그룹화되는데, 예를 들면 표준 공간적 오디오 오브젝트 코딩에서 16 및 32 분석 프레임의 길이들이 통상적이다.
신호 특성들은 파라미터 프레임 동안에 준-정상적인 채로 남아 있으며 따라서 단지 하나의 파라미터들의 세트만을 특징으로 할 수 있다는 것이 추정된다. 만일 신호 특징들이 파라미터 프레임 내에서 변화하면, 모델링 오류가 발생되고, 더 긴 파라미터 프레임을 준-정상의 추정이 다시 충족되는 부분들로 세분되는 것이 바람직할 수 있다. 이러한 목적을 위하여, 트랜지언트 검출이 필요하다.
일 실시 예에서, 변환 유닛(92)은 하나 또는 그 이상의 입력 오디오 오브젝트 신호 중 적어도 하나의 신호 값들을 포함하는 신호 변환 블록의 윈도우 길이에 의존하여 시간 도메인으로부터 시간-주파수 도메인으로 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 변환하도록 구성된다. 변환 유닛(92)은 적어도 하나의 오디오 오브젝트 신호의 하나 또는 그 이상에 트랜지언트가 존재하는지를 나타내는 트랜지언트 검출 결과를 결정하기 위한 트렌지언트 검출 유닛(101)을 포함하며, 트랜지언트는 적어도 하나의 오디오 오브젝트 신호의 하나 또는 그 이상에서의 신호 변화를 나타낸다. 게다가, 변환 유닛은 트랜지언트 검출 결과에 의존하여 윈도우 길이를 결정하기 위한 윈도우 시퀀스 유닛(102)을 더 포함한다.
예를 들면, 트랜지언트들은 개별적으로 모든 입력 오브젝트로부터, 그리고 위치가 글로벌 트랜지언트 위치로서 선언되는 오브젝트들 중 하나 내에만 트랜지언트 이벤트가 존재할 때, 트랜지언트 검출 유닛(101)에 의해 검출될 수 있다. 트랜지언트 위치들의 정보는 적절한 윈도우잉 시퀀스를 구성하기 위하여 사용된다. 구성은 예를 들면 다음의 논리를 기초로 할 수 있다:
- 디폴트 윈도우 길이, 즉 디폴트 신호 변환 블록의 길이, 예를 들면 2048 샘플을 설정한다.
- 파라미터 프레임 길이, 예를 들면 50% 오버랩을 갖는 4 디폴트 윈도우와 상응하는 4096 샘플을 설정한다. 파라미터 프레임들은 다수의 윈도우를 함께 그룹화하고 각각의 윈도우를 위하여 개별적으로 기술자들을 갖는 대신에 단일 기술자들의 단일 세트가 전체 블록을 위하여 사용된다. 이는 파라미터 부가 정보의 양의 감소를 허용한다.
- 만일 어떠한 트랜지언트도 검출되지 않았으면, 디폴트 윈도우들 및 완전 파라미터 프레임 길이를 사용한다.
- 만일 트랜지언트가 검출되면, 트랜지언트의 위치에서 더 나은 시간적 해상도를 제공하도록 윈도우잉을 적용한다.
크리에이트 윈도우 시퀀스 유닛(102)은 윈도우잉 시퀀스를 구성한다. 동시에, 이는 또한 하나 또는 그 이상의 분석 윈도우로부터 파라미터 서브-프레임들을 생성한다. 각각이 서브셋은 엔티티(entity)로서 분석되고 각각이 서브-블록을 위하여 파라미터 부가 정보 파라미터들의 한 세트만이 전송된다. 표준 공간적 오디오 오브젝트 코딩 호환성 파라미터 부가 정보를 제공하기 위하여, 정의된 파라미터 블록 길이는 주 파라미터 블록 길이로서 사용되고 그러한 블록 내의 가능하게 위치된 트랜지언트들은 파라미터 서브셋들을 정의한다.
구성된 윈도우 시퀀스는 시간/주파수 분석 유닛(103)에 의해 수행되는 입력 오디오 신호들의 시간-주파수분석을 위하여 출력되고, 파라미터 부가 정보의 향상된 공간적 오디오 오브젝트 코딩 향상성 내로 전송된다.
파라미터 부가 정보는 오브젝트 레벨 차이들(OLD), 오브젝트-간 상관성들(IOC), 및 인코더 내의 개별 오브젝트들로부터 다운믹스 신호를 생성하도록 사용되는 다운믹스 매트릭스(D)의 세트들로 구성된다. 각각의 파라미터 세트는 파라미터들이 관련된 시간적 영역을 정의하는 파라미터 경계와 관련된다. 이는 스펙트럼 빈들의 표준 공간적 오디오 오브젝트 코딩의 파라미터 대역들로의 그룹화 및 오브젝트-간 상관성들, 오브젝트 레벨 차이들 및 대역들 내의 절대 오브젝트 에너지들(NRG)의 추정에 의해 수행된다. 표준 공간적 오디오 오브젝트 코딩의 표기에 뒤따라, 두 오브젝트 스펙트럼(Si(f,n) 및 Sj(f,n))의 정규화 산물이 다음과 같이 정의되며,
Figure pct00020
여기서 매트릭스(K(b,f,n):RB × Fn ×N)는 다음에 의해 프레임(n) 내의 F n 시간/주파수 표현으로부터 B 파라미터 대역들 내로의 매핑을 정의한다:
Figure pct00021
스펙트럼 해상도는 단일 파라미터 블록 내의 프레임들 사이에서 다양할 수 있으며, 따라서 매핑 매트릭스는 데이터를 공통 해상도 기준으로 변환한다. 이러한 파리미터화 타일 내의 최대 오브젝트 에너지는 최대 오브젝트 에너지[NRG(b) = max(nrg i,j (b))]가 되도록 정의된다. 이러한 값을 가짐으로써, 오브젝트 레벨 차이들은 그때 다음과 같이 정규화된 오브젝트 에너지들이 되도록 정의된다:
Figure pct00022
그리고 최종적으로 오브젝트-간 상관성이 다음과 같이 교차-파워들로부터 획득될 수 있다:
Figure pct00023
이는 비트 스트림의 표준 공간적 오디오 오브젝트 코딩 호환성 부분들의 추정을 결론짓는다.
거친 파워 스펙트럼 재구성 유닛(coarse-power-spectrum-reconstruction unit, 105)은 파라미터 분석 블록 내의 스펙트럼 엔벨로프의 거친 추정을 재구성하기 위하여 오브젝트 레벨 차이들 및 절대 오브젝트 에너지들을 사용하도록 구성된다. 엔벨로프는 그러한 블록 내에서 사용되는 가장 높은 주파수 해상도 내에 구성된다.
각각의 분석 윈도우의 원래 스펙트럼은 그러한 윈도우 내의 파워 스펙트럼을 계산하기 위한 파워 스펙트럼 추정 유닛(106)에 의해 사용된다.
획득된 파워 스펙트럼들은 주파수 해상도 적응 우닛(frequency-resolution-adaptation unit, 107)에 의해 공통의 고주파수 해상도 표현으로 변환된다. 이는 예를 들면 파워 스펙트럼 값들을 보간함으로써 수행될 수 있다. 그리고 나서 파라미터 블록 내의 스펙트럼들의 평균을 구함으로써 평균 파워 스펙트럼 프로파일이 계산된다. 이는 파라미터 대역 집합을 제외한 오브젝트 레벨 차이들과 대략 상응한다. 획득된 스펙트럼 프로파일은 미세 해상도 오브젝트 레벨 차이로서 고려된다.
인코더는 제 2 파라미터 부가 정보를 획득하기 위하여 적어도 하나의 오디오 오브젝트 신호 중 하나의 복수의 오브젝트 레벨 차이 각각을 적어도 하나의 오디오 오브젝트 신호의 상기 하나의 파워 스펙트럼 재구성의 값으로 나눔으로써 복수의 보정 인자를 추정하기 위한 델타 추정 유닛(delta-estimation unit, 108)을 더 포함하며, 상기 복수의 오브젝트 레벨 차이는 상기 파워 스펙트럼 해상도보다 높은 주파수 해상도를 갖는다.
일 실시 예에서, 델타 추정 유닛(108)은 제 2 파라미터 부가 정보를 획득하기 위하여 적어도 하나의 오디오 오브젝트 신호에 의존하는 복수의 파라미터 값을 기초로 하여 복수의 보정 인자를 추정하도록 구성되는데, 예를 들면 델타 추정 유닛(108)은 미세 해상도 오브젝트 레벨 차이를 거친 파워 스펙트럼 재구성으로 나눔으로써 보정 인자, "델타"를 추정하도록 구성될 수 있다. 그 결과, 이는 각각의 주파수 빈(bin)을 위하여 거친 스펙트럼이 주어질 때 미세 해상도 오브젝트 레벨 차이와 근사치가 되도록 사용될 수 있는 (예를 들면, 배수의) 보정 인자를 제공한다.
최종적으로, 델타 모델링 유닛(109)은 전송을 위한 효율적인 방식으로 추정된 보정 인자를 모델링하도록 구성된다. 선형 예측 계수들(LPC)을 사용하는 모델링을 위한 한 가지 가능성 나중에 아래에서 설명된다.
효율적으로, 향상된 공간적 오디오 오브젝트 코딩 변형들은 윈도우잉 시퀀스 정보 및 비트 스트림으로 "델타"를 전송하기 위한 파라미터들의 추가로 구성된다.
다음에서, 향상된 디코더가 설명된다.
도 11은 표준 및 향상된 비트 스트림 모두를 디코딩할 수 있는 일 실시 예에 따른 향상된 디코더의 고-레벨 블록 다이어그램을 도시한다. 특히, 도 11은 표준 비트 스트림뿐만 아니라 주파수 해상도 향상성들을 포함하는 비트 스트림 모두를 디코딩할 수 있는 향상된 디코더의 운용 블록 다이어그램을 도시한다.
입력 다운믹스 신호는 시간/주파수 도메인 유닛(111)에 의해 주파수 도메인 내로 전송된다.
추정된 비-믹싱 매트릭스는 비-믹싱 출력을 발생시키기 위하여 비-믹싱 유닛(110)에 의해 변환된 다운믹스 신호 상에 적용된다.
부가적으로, 비-믹싱 내의 오브젝트들의 더 나은 공간적 제어를 허용하기 위하여 비-상관성 경로(decorrelation path)가 포함된다. 비-상관성 유닛(119)은 변환된 다운믹스 신호에 대한 비-상관성을 수행하고 비-상관성의 결과가 비-믹싱 유닛(110)으로 전달된다. 비-믹싱 유닛(110)은 비-믹싱 출력을 발생시키기 위하여 비-상관성 결과를 사용한다.
비-믹싱 출력은 그리고 나서 시간/주파수 변환 유닛(114)에 의해 다시 시간 도메인으로 변환된다.
파라미터 처리 경로는 입력으로서 표준 해상도 파라미터 부가 정보를 취할 수 있으며, 이 경우에 있어서 표준 파라미터 부가 정보 디코딩 유닛(115)에 의해 발생되는, 디코딩된 파라미터 부가 정보는 주파수 해상도 전환 유닛(frequency-resolution-conversion unit, 116)에 의해, 시간/주파수 변환들에서 사용되는 주파수 해상도에 적용된다.
대안의 입력은 파라미터 부가 정보의 표준 주파수 해상도 부분을 향상된 주파수 해상도 부분과 결합하고 계산들은 향상된 주파수 해상도 정보를 포함한다. 더 상세히 설명하면, 향상된 파라미터 부가 정보 디코딩 유닛(117)은 향상된 주파수 해상도를 나타내는 디코딩된 파라미터 부가 정보를 발생시킨다.
비-믹싱 매트릭스 발생기(un-mixing-matrix generator, 118)는 주파수 해상도 전환 유닛(118) 또는 향상된 파라미터 부가 정보 디코딩 유닛(117)으로부터 수신된 디코딩된 파라미터 부가 정보를 기초로 하여 비-믹싱 매트릭스를 발생시킨다. 비-믹싱 매트릭스 발생기(118)는 또한 렌더링 정보를 기초로 하여, 예를 들면 렌더링 매트릭스를 기초로 하여 비-믹싱 매트릭스를 발생시킬 수 있다. 비-믹싱 유닛(110)은 변환된 다운믹스 신호 상에 비-믹싱 매트릭스 발생기(118)에 의해 발생되는, 이러한 비-믹싱 매트릭스를 적용함으로써 비-믹싱 출력을 발생시키도록 구성된다.
도 12는 도 11의 향상된 파라미터 부가 정보 디코딩 유닛(117)이 일 실시 예를 나타내는 블록 다이어그램을 도시한다.
제 1 파라미터 정보는 복수의 제 1 파라미터 값을 포함하며, 제 2 파라미터 정보는 복수의 제 2 파라미터 값을 포함한다. 비-믹싱 정보 결정기(112)는 주파수-해상도-전환 서브유닛(122) 및 결합기(combiner, 124)를 포함한다. 주파수-해상도-전환 유닛(112)은 예를 들면 제 1 파라미터 값들을 복제함으로써, 부가적인 파라미터 값들을 발생시키도록 구성되면, 제 1 파라미터 값들 및 부가적인 파라미터 값들은 복수의 제 1 파라미터 값을 함께 형성한다. 결합기(124)는 변형된 파라미터 정보로서 복수의 변형된 파라미터 값을 획득하기 위하여 제 1 처리된 파라미터 값들과 제 2 파라미터 값들을 결합하도록 구성된다.
일 실시 예에 따르면, 표준 주파수 해상도 부분은 디코딩 서브유닛(121)에 의해 디코딩되고 주파수-해상도-전환 서브유닛(122)에 의해 향상성 부분에 의해 사용되는 주파수 해상도로 전환된다. 향상된 파라미터 부가 정보 디코딩 유닛(123)에 의해 발생되는, 디코딩된 향상성 부분은 결합기(124)에 의해 전환된 표준 해상도 부분과 결합된다.
다음에서, 가능한 구현들을 갖는 두 가지 디코딩 방식이 더 상세히 설명된다.
처음에, 향상된 디코더로의 표준 공간적 오디오 오브젝트 코딩 비트 스트림들의 디코딩이 설명된다.
향상된 공간적 오디오 오브젝트 코딩 디코더는 뛰어난 품질을 갖는 표준 공간적 오디오 오브젝트 인코더들로부터 비트 스트림들을 디코딩할 수 있도록 디자인된다. 디코딩은 파라미터 재구성에만 제한되고 가능한 잔류 스트림들은 무시된다.
도 13은 일 실시 예에 따른 디코딩 과정을 나타내는 표준 공간적 오디오 오브젝트 코딩 디코더로 표준 공간적 오디오 오브젝트 코딩 비트 스트림들을 디코딩하는 블록 다이어그램을 도시한다. 굵은 흑색의 기능성 블록들(131, 132, 133, 135)은 본 발명의 과정의 주요 부분을 나타낸다.
비-믹싱 매트릭스 계산기(131), 시간적 보간기(temporal interpolator, 132), 및 윈도우 주파수 해상도 적응 유닛(133)은 도 11의 표준 파라미터 부가 정보 디코딩 유닛(115), 주파수 해상도 전환 유닛(116), 및 비-믹싱 매트릭스 발생기(118)의 기능성을 구현한다. 윈도우 시퀀스 발생기(134) 및 시간/주파수 분석 모듈(135)은 도 11의 시간/주파수 변환 유닛(111)의 기능성을 구현한다.
정상적으로, 근본적인 시간/.주파수 표현의 주파수 빈들은 파라미터 대역들로 그룹화된다. 대역들의 공간은 인간 청각 시스템이 중요한 대역들과 유사하다. 게다가, 다수의 시간/주파수 표현 프레임들이 파라미터 프레임으로 그룹화될 수 있다. 이러한 운용들 모두 모델링 부정확성의 비용으로 필요한 부가 정보의 양의 감소를 제공한다.
공간적 오디오 오브젝트 코딩 표준에서 설명된 것과 같이, 오브젝트 레벨 차이들과 오브젝트-간 상관성들은 비-믹싱 매트릭스(G = ED*J)를 계산하도록 사용되며, E의 구성요소들은
Figure pct00024
이 오브젝트 교차 상관성 매트릭스와 근사치로서 정의되며, ij는 오브젝트 지수들,
Figure pct00025
이다. 비-믹싱 매트릭스 계산기(131)는 비-믹싱 매트릭스를 계산하도록 수행될 수 있다.
비-믹싱 매트릭스는 그리고 나서 표준 공간적 오디오 오브젝트 코딩 당으로서, 파라미터 프레임에 대한 선행 프레임의 비-믹싱 매트릭스로부터 추정된 값들이 도달되는 파라미터 경계까지 시간적 보간기(132)에 의해 선형으로 보간된다. 이는 각각의 시간-주파수 분석 윈도우 및 파라미터 대역을 위한 비-믹싱 매트릭스들 야기한다.
비-믹싱 매트릭스들의 파라미터 대역 주파수 해상도는 윈도우 주파수 해상도 적응 유닛(133)에 의해 그러한 분석 윈도우 내의 시간/주파수 표현이 해상도로 팽창된다. 보간된 비-믹싱 매트릭스가 시간-프레임 내의 파라미터 대역(b)을 위한 G(b)로서 정의될 때, 그러한 파라미터 대역 내부의 모든 주파수 빈을 위하여 동일한 비-믹싱 계수들이 사용된다.
윈도우 시퀀스 발생기(134)는 입력 다운믹스 오디오 신호를 분석하기 위하여 적절한 윈도우잉 시퀀스를 결정하도록 파라미터 부가 정보로부터 파라미터 세트 범위 정보를 사용하도록 구성된다. 주요 요구조건은 파라미터 부가 정보 내에 파라미터 세트 경계가 존재할 때, 연속적인 분석 윈도우들 사이의 교차 지점이 이와 매칭되어야만 한다는 것이다. 윈도우잉은 또한 각각의 윈도우(위에 설명된 것과 같이, 비-믹싱 데이터 팽창에서 사용되는) 내의 데이터의 주파수 해상도를 결정한다
윈도우잉된 데이터는 그리고 나서 적절한 시간-주파수 변환, 예를 들면, 이산 푸리에 변환, 복소수 변형 이산 푸리에 변환, 또는 홀수 적층 이산 푸리에 변환(ODFT)을 사용하여 시간/주파수 분석 모듈(135)에 의해 주파수 도메인 표현으로 변환된다.
최종적으로, 비-믹싱 유닛(136)은 파라미터 렌더링들(Y)을 획득하기 위하여 다운믹스 신호(X)의 스펙트럼 표현 상에 프레임-당 주파수-당 빈(bin) 비-믹싱 매트릭스들을 적용한다. 출력 채널(j)은 다운믹스 채널들(
Figure pct00026
)의 선형 조합이다.
이러한 과정으로 획득될 수 있는 품질은 대부분의 목적을 위하여 표준 공간적 오디오 오브젝트 코딩 디코더로 획득되는 결과와 지각적으로 구별하기 어렵다.
위의 내용은 개별 오브젝트들의 재구성을 설명하나, 표준 공간적 오디오 오브젝트 코딩에서 렌더링이 비-믹싱 매트릭스 내에 포함되며, 즉 이는 파라미터 보간 내에 포함된다는 것에 유의하여야 한다. 선형 운용으로서, 운용들의 순서는 문제가 되지 않으나, 차이는 주목할 필요가 있다.
다음에서, 향상된 디코더로 향상된 공간적 오디오 오브젝트 코딩 비트 스트림들의 디코딩이 설명된다.
향상된 공간적 오디오 오브젝트 코딩 디코더의 기능은 표준 공간적 오디오 오브젝트 코딩 비트 스트림들의 디코딩에서 이미 설명되었다. 본 섹션은 파라미터 부가 정보 내에 도입된 향상된 공간적 오디오 오브젝트 코딩 향상성들이 더 나은 지각 품질을 획득하기 위하여 어떻게 사용될 수 있는지에 대하여 상세히 설명한다.
도 14는 주파수 해상도 향상성들의 디코딩을 나타내는 일 실시 예에 따른 디코더의 주요 기능 블록들을 도시한다. 굵은 흑색 기능 블록들(141, 142, 143)은 본 발명의 처리의 주요 부분을 나타낸다. 대역에 대한 값 팽창 유닛(141, value-expand-over-band unit), 델타 함수 복원 유닛(142), 델타 적용 유닛(143), 비-믹싱 매트릭스 계산기(131), 시간적 보간기(132), 및 윈도우 주파수 해상도 적응 유닛(133)은 도 11의 향상된 파라미터 부가 정보 디코딩 유닛(117) 및 비-믹싱 매트릭스 발생기(118)의 기능을 구현한다.
도 14의 디코더는 비-믹싱 정보 결정기(112)를 포함한다. 그 중에서도, 비-믹싱 정보 결정기(112)는 델타 함수 복원 유닛(142) 및 델타 적용 유닛(143)을 포함한다. 제 1 파라미터 정보는 적어도 하나의 오디오 오브젝트 신호, 예를 들면 오브젝트 레벨 차이 값들에 의존하여 복수의 제 1 파라미터 값을 포함한다. 제 2 파라미터 정보는 보정 인자 파라미터화를 포함한다. 델타 함수 복원 유닛(142)은 델타 함수를 획득하기 위하여 보정 인자 파라미터화를 가역하도록(invert) 구성된다. 델타 적용 유닛(143)은 비-믹싱 정보를 결정하기 위하여 파라미터 값들 상에, 예를 들면 오브젝트 레벨 차이 값들 상에 델타 함수를 적용하도록 구성된다. 일 실시 예에서, 보정 인자 파라미터화는 복수의 선형 예측 계수를 포함하고, 델타 함수 복원 유닛(142)은 복수의 선형 예측 계수에 의존하여 복수의 보정 인자를 발생시킴으로써 보정 인자 파라미터화를 가역하도록 구성되고, 복수의 보정 인자를 기초로 하여 델타 함수를 발생시키도록 구성된다.
예를 들면, 처음에, 대역에 대한 값 팽창 유닛(141)은 각각의 파라미터 대역을 위하여 향상성들에 사용되는 주파수 해상도, 예를 들면 1024 빈에 오브젝트 레벨 차이 및 오브젝트-간 상관성 값들을 적용한다. 이는 파라미터 대역과 상응하는 주파수 빈들에 대한 값을 복제함으로써 수행된다. 이는 새로운 오브젝트 레벨 차이들(
Figure pct00027
) 및 오브젝트-간 상관성들(
Figure pct00028
)을 야기한다. K(f,b)는 파라미터 대역들(b) 내로의 주파수 빈들(f)의 할당을 정의하는 커널 매트릭스(kernel matrix)이다.
이와 평행하게, 델타 함수 복원 유닛(142)은 팽창된 오브젝트 레벨 차이 및 오브젝트-간 상관성과 동일한 크기의 델타 함수(
Figure pct00029
)를 획득하기 위하여 보정 인자 파라미터화를 가역한다.
그리고 나서, 델타 적용 유닛(143)은 팽창된 오브젝트 레벨 차이 값들 상에 델타를 적용하고, 획득된 미세 해상도 오브젝트 레벨 차이 값들이
Figure pct00030
에 의해 획득된다.
특정 실시 예에서, 비-믹싱 매트릭스들의 계산은 예를 들면, 다음의 표준 공간적 오디오 오브젝트 비트 스트림의 디코딩에서와 같이 비-믹싱 매트릭스 계산기(131)에 의해 수행된다: G9f) = E(f)D*(f)J(f), 여기서
Figure pct00031
이고,
Figure pct00032
이다. 만일 원하면, 렌더링 매트릭스가 비-믹싱 매트릭스(G(f))로 곱해질 수 있다. 시간적 보간기(132)에 의한 시간적 보간은 표준 공간적 오디오 오브젝트 코딩 당으로서 뒤따른다.
각각의 윈도우 내의 주파수 해상도가 공칭 주파수(nominal frequency)와 다를 수(낮을 수) 있기 때문에, 윈도우 주파수 해상도 적응 유닛(113)은 이를 적용하도록 허용하기 위하여 오디오로부터의 스펙트럼 데이터의 해상도와 매칭하도록 비-믹싱 매트릭스들을 적용할 필요가 있다. 이는 예를 들면, 주파수 축에 대한 계수들을 보정 해상도로 재-샘플링함으로써 만들어질 수 있다. 또는 만일 해상도들이 정수 배수이면, 간단하게 고해상도 데이터로부터 낮은 해상도(
Figure pct00033
) 내의 하나의 주파수 빈과 상응하는 지수들의 평균을 냄으로써 만들어질 수 있다.
비트 스트림으로부터의 윈도우잉 시퀀스 정보는 인코더에서 사용되는 것에 대한 완전히 상보적인 시간-주파수 분석을 획득하도록 사용될 수 있거나, 윈도우잉 시퀀스는 표준 공간적 오디오 오브젝트 코딩 비트 스트림 디코딩에서 수행되는 것과 같이, 파라미터 경계들을 기초로 하여 구성될 수 있다. 이를 위하여, 윈도우 시퀀스 발생기(134)가 사용될 수 있다.
다운믹스 오디오의 시간-주파수 분석은 그리고 나서 주어진 윈도우들을 사용하여 시간/주파수 분석 모듈(135)에 의해 수행된다.
최종적으로, 시간적으로 보간되고 스펙트럼으로(가능하게는) 적응된 비-믹싱 매트릭스들은 비-믹싱 유닛(136)에 의해 입력 오디오의 시간-주파수 표현 상에 적용되고, 입력 채널들(
Figure pct00034
)의 선형 조합으로서 출력 채널(j)이 획득될 수 있다.
다음에서, 실시 예들의 특정 양상들이 설명된다.
일 실시 예에서, 도 10의 델타 모델링 유닛(109)은 선형 예측을 수행함으로써 복수의 보정 인자(delta)로부터 선형 예측 계수들을 결정하도록 구성된다.
이제, 그러한 실시 예에 따라 선형 예측 계수들을 사용하는 보정 인자, 델타 및 가능한 모델링 대안의 추정 과정이 설명된다.
처음에, 일 실시 예에 따른 델타 추정이 설명된다.
추정으로의 입력은 파라미터 블록에 대하여, 그리고 오브젝트 레벨 차이 및 절대 오브젝트 에너지 파라미터들을 기초로 하는 파워 스펙트럼 프로파일의 거친 재구성으로부터 추정된 미세 해상도 파워 스펙트럼 프로파일들로 구성된다. 미세 파일 스펙트럼 프로파일들은 다음이 방식으로 계산된다: S i (f,n)은 i번째 오브젝트의 복소수 스펙트럼이고 여기서 f는 주파수 빈 지수이고 0≤nN-1은 길이 N의 모델링 블록 내의 시간적 윈도우 지수이다. 그리고 나서 미세 해상도 파워 스펙트럼은 다음과 같다:
Figure pct00035
거친 재구성은
Figure pct00036
에 의해 (탈양자화된) 오브젝트 레벨 차이들 및 절대 오브젝트 에너지들로부터 계산되며, 여기서 K(f.b)는 파라미터 대역들(b) 내로의 주파수 빈들(f)의 할당을 정의 한 커널 매트릭스이다.
본 섹션에서의 예로서 서로 다른 스펙트럼 특성을 갖는 두 개의 신호가 사용될 것이다: 하나는 실제로 편평 스펙트럼(스펙트럼 기울기를 무시한) (핑크) 잡음이고, 두 번째는 고도로 음조, 즉 뾰족한 스펙트럼을 갖는 악기 철금(glockenspiel)으로부터의 음조이다.
도 15는 음조 및 잡음 신호의 파워 스펙트럼을 도시한다. 그것들의 고해상도 파워 스펙트럼("orig") 및 상응하는 거친 재구성들은 오브젝트 레벨 차이들 및 절대 오브젝트 에너지들("recon")을 기초로 한다. 특히, 도 15는 두 신호 모두의 미세 및 거친 파워 스펙트럼을 도시한다. 더 구체적으로, 원래 음조 신호(151)의 파워 스펙트럼과 원래 잡음 신호(152), 및 음조 신호(153)와 잡음 신호(154)의 재구성된 파워 스펙트럼이 도시된다. 다음의 도면들에서, 신호들(153 및 154)을 위하여 스케일 인자들(재구성된 파워 스펙트럼 파라미터)보다는 완전히 재구성되지 않은 신호들이 도시된 것에 유의하여야 한다.
미세 및 거친 값 사이의 평균 차이가 잡음 신호의 경우에서보다 오히려 작고, 음조 신호에서 매우 크다는 것을 쉽게 알 수 있을 것이다. 이러한 차이들은 모든 오브젝트의 파라미터 재구성에서의 지각적 저하를 야기한다.
보정 인자는 미세 해상도 곡선을 거친 재구성 곡선으로 나눔으로써 획득된다:
C i (f) = P i (f)/Z i (f).
이는 미세 해상도 곡선을 획득하기 위하여 거친 재구성 상에 적용될 수 있는 곱셈 인자의 복원을 허용한다:
Figure pct00037
도 16은 위 예의 두 신호를 위한 변형, 특히, 위 예의 신호들을 위한 보정 인자들을 도시한다. 특히, 음조 신호(151) 및 잡음 신호(152)를 위한 보정 인자들이 도시된다.
다음에서 델타 모델링이 설명된다.
주파수 축에 대한 하나 또는 그 이상의 모델링 블록 내로 보정 곡선(C)이 할당된다. 자연적인 대안은 표준 공간적 오디오 오브젝트 코딩 파라미터 부가 정보를 위하여 사용된 것과 동일한 파라미터 대역 정의들을 사용하는 것이다. 모델링은 그리고 나서 각각의 블록을 위하여 다음의 단계로 개별적으로 수행된다:
1. 스펙트럼 보정 인자(C)는 역 이산 푸리에 변환으로 시간 도메인 자기상관(autocorrelation) 시퀀스로 변환된다.
모델링 블록의 길이가 홀수일 때, 변환되려는 슈도-스펙트럼은 다음과 같이 정의된다:
Figure pct00038
모델링 블록이 짝수일 때, 슈도-스펙트럼은 다음과 같이 정의된다:
Figure pct00039
변환 결과는 그때 r(t) = IDFT(R(l))이다.
2. 결과는 처음 반으로 절단된다:
Figure pct00040
3. 증가하는 모델 순서들을 위한 반사 계수들(k)과 모델링 잔차 분산들(e)을 얻기 위하여 자기상관 시퀀스(r(t)) 상에 레빈슨-더빈 반복(levinson durbin recursion)이 적용된다.
4. 선택적: 모델링 잔차 분산(e)을 기초로 하여, 전체 모델링을 누락하거나(어떠한 이득도 획득되지 않았기 대문에) 또는 적절한 순서를 선택한다.
5. 전송을 위하여 모델 파라미터들이 양자화된다.
각각의 시간/주파수 타일(주파수 범위와 파라미터 차단 시간적 범위를 정의하는 표준 파라미터 대역)을 위하여 델타가 독립적으로 전송되어야만 하는지를 결정하는 것이 가능하다. 결정은 예를 들면 다음을 기초로 하여 만들어질 수 있다:
- 델타 모델링 잔류 에너지의 검사. 만일 모델링 잔류 에너지가 특정 한계를 초과하지 않으면, 향상성 정보는 전송되지 않는다.
- 오디오 오브젝트 신호의 미세 모델링된 파라미터 기술, 델타 모델링, 또는 파워 스펙트럼 엔벨로프의 "뾰족함"/비-편평의 측정, 측정된 값에 의존하여 미세 스펙트럼 해상도를 기술하는, 델타 모델링 파라미터들이 전송되거나 또는 전비-편평송되지 않거나, 혹은 전혀 계산되지 않는다(오디오 오브젝트 신호의 파워 스펙트럼 엔벨로프의 비-편평에 의존하여). 적절한 측정들은 예를 들면, 스펙트럼 파고 인자(spectrum crest factor), 스펙트럼 편평 인자. 또는 최소-최대 비율이다.
- 재구성의 지각 품질이 획득된다. 인코더는 향상성들을 갖거나 또는 갖지 않는 렌더링 재구성들을 계산하고, 각각의 향상성을 위한 품질 이득을 결정한다. 그리고나서 모델링 복잡도와 품질 이득 사이의 적절한 균형 지점이 위치되고, 표시된 향상성이 전송된다. 예를 들면, 신호에 대한 지각적으로 가중된 왜곡 비율 또는 향상된 지각적 측정들이 결정을 위하여 사용될 수 있다. 결정은 각각의 (거친) 파라미터 대역을 위하여 개별적으로 만들어질 수 있으나(즉, 국부적 품질 최적화), 또한 시간-주파수 계수들의 시간- 및 주파수-변형 조작에 의해 야기되는 신호 왜곡들을 설명하기 위하여 인접한 대역들이 고려된다(즉, 글러벌 품질 최적화).
이제, 델타 재구성 및 적용이 설명된다.
보정 곡선의 재구성은 다음의 단계들을 따른다:
1. 수신된 반사 계수들(k, 길이(L-1)의 벡터)이 탈양자화되고 슈도 코드 구문 내의, 길이(L)의 무한 임펄스 응답 필터(IIR filter) 계수들(a)로 변환된다(여기서 함수(X = diag(x))는 매트릭스(X)를 출력하는데 X의 사선 구성요소들은 x이고 X의 비-사선 구성요소들을 0이다):
Figure pct00041
2. 결과로서 생긴 필터(a)의 주파수 응답(h(n))은
Figure pct00042
로 계산되며, 여기서 i는 허수 유닛(
Figure pct00043
)을 나타낸다.
3. 보정 기능 재구성은 Craw(n) = h(n)h*(n)에 의해 이로부터 획득된다.
4. 응답은 통합 평균을 갖는 것으로 정규화되고, 따라서 모델링된 블록의 전체 에너지는
Figure pct00044
을 변경하지 않는다.
5. 보정 인자들이 미세 해상도(
Figure pct00045
)로 확장된, 오브젝트 레벨 차이들 상에 적용된다. 절대 에너지들은 무시되는데 그 이유는 뒤따르는 계산에서 취소될 수 있기 때문이라는 것에 유의하여야 한다.
도 17은 위의 예의 신호 모두를 위한 원래 보정 인자들 및 감소된-순서 선형 예측 코딩 기반 근사치(모델링 이후의)를 도시한다. 특히, 음조 신호(151), 원래 잡음 신호(152)의 원래 보정 인자들, 및 음조 신호(153)와 잡음 신호(154)의 재구성된 보장 인자 추정치들이 도시된다.
도 18은 도 15에 도시된 거친 재구성들 상에 모델링된 보정 인자들을 적용한 결과를 도시한다. 특히, 원래 음조 신호(151)와 원래 잡음 신호(152)의 파워 스펙트럼, 및 음조 신호(153)와 잡음 신호(154)의 재구성된 파워 스펙트럼 추정치가 도시된다. 이러한 곡선들은 이제 다음의 계산에서, 특히 모델링된 보정 인자들의 적용 후에 재구성된 미세 해상도 파워 스펙트럼에서 오브젝트 레벨 차이들 대신에 사용될 수 있다. 여기서는, 더 뚜렷한 비교를 위하여 절대 에너지 정보가 포함되나, 이것들 없이 동일한 원리가 또한 운용된다.
본 발명의 방법 및 장치는 고주파수 해상도를 갖는 필터 뱅크 또는 시간-주파수 변환을 사용하고 부가적인 정보의 효율적인 파라미터화를 제공하여 앞서 언급된 종래 공간적 오디오 오브젝트 코딩 처리의 단점을 보완한다. 게다가, 표준 공간적 오디오 오브젝트 코딩 디코더들이 표준-적합 공간적 오디오 오브젝트 코딩 인코더를 사용하여 획득된 품질과 필적하는 획득가능한 품질에서 정보의 후방 호환성 부분을 디코딩할 수 있는 것과 같은 방법으로 부가적인 정보를 전송하는 것이 가능하고, 또한 향상된 디코더들이 더 나은 지각 품질을 위하여 부가적인 정보를 사용하도록 허용한다. 가장 중요하게는, 부가적인 정보가 효율적인 전송 또는 저장을 위하여 매우 간단한 방식으로 표현될 수 있다.
제시된 본 발명의 방법은 어떠한 공간적 오디오 오브젝트 코딩 전략에도 적용될 수 있다. 이는 어떠한 현재 또는 미래 오디오 포맷들과 결합될 수 있다. 본 발명의 방법은 스펙트럼 부가 정보의 2-레벨 표현에 의한 공간적 오디오 오브젝트 코딩 적용들 내의 향상된 지각적 오디오 품질을 허용한다.
오브젝트 레벨 차이들의 개념을 채널 레벨 차이(CLD)들로 대체할 때, 또한 MPEG 서라운드와 함께 동일한 개념이 사용될 수 있다.
이에 설명된 것과 같이 오디오 인코더 또는 오디오 인코딩 방법 또는 관련 컴퓨터 프로그램이 제공된다. 게다가, 위에 설명된 것과 같이 오디오 디코더 또는 오디오 디코딩 방법 또는 관련 컴퓨터 프로그램이 제공된다. 게다가, 위에 설명된 것과 같이 인코딩된 오디오 신호 또는 인코딩된 오디오 신호가 저장된 저장 매체가 제공된다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다.
본 발명의 분해된 신호는 디지털 저장 매체 상에 저장될 수 있거나 혹은 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체 상에 전송될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 디지털 저장 매체, 예를 들면, 그 안에 저장되는 전자적으로 판독가능한 제어 신호들을 갖는, 플로피 디스크, DVD, 블루-레이, CD, RON, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있으며, 이는 각각의 방법이 실행되는 것과 같이 프로그램가능 컴퓨터 시스템과 협력한다(또는 협력할 수 있다).
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 데이터 저장 매체,또는 컴퓨터 판독가능 매체)이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌
[BCC] C. Faller and F. Baumgarte, Binaural Cue Coding - Part II: Schemes and applications, IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[JSC] C. Faller, Parametric Joint-Coding of Audio Sources, 120th AES Convention, Paris,2006.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - Recent Developments in Parametric Coding of Spatial Audio", 22nd Regional UKAESConference,Cambridge,UK,April2007.
[SAOC2] J. Engdegrd, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Hlzer, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) The Upcoming MPEG Standard on Parametric Object Based Audio Coding", 124th AES Convention, Amsterdam, 2008.
[SAOC] ISO/IEC, MPEG audio technologies Part 2: Spatial Audio Object Coding (SAOC), ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2:2010.
[AAC] M .Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, ISO/IEC MPEG-2 Advanced Audio Coding, J. Audio Eng. Soc, vol 45, no 10, pp. 789-814, 1997.
[ISS1] M. Parvaix and L. Girin: Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding, IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: A watermarking-based method for informed source separation of audio signals with a single sensor, IEEE Transactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus and J. Pinel and R. Badeau and L. Girin and G. Richard: Informed source separation through spectrogram coding and data embedding, Signal Processing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: Informed source separation: source coding meets source separation, IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: An Informed Source Separation System for Speech Signals, INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: Informed Audio Source Separation from Compressed Linear Stereo Mixtures, AES 42nd International Conference: Semantic Audio, 2011.
[ISS7] A. Nesbit, E. Vincent, and M. D. Plumbley: Benchmarking flexible adaptive time-frequency transforms for underdetermined audio source separation, IEEE International Conference on Acoustics, Speech and Signal Processing, pp. 37-40, 2009.
10 : 공간적 오디오 오브젝트 코딩 인코더
12 : 공간적 오디오 오브젝트 코딩 디코더
16 : 다운믹서
17 : 부가 정보 추정기
18 : 다운믹스 신호
20 : 부가 정보
26 : 렌더링 정보
301 내지 30K : 부-대역 신호
32 : 부-대역 값
34 : 필터 뱅크 시간 슬롯
36 : 주파수 축
41 : 공간적 오디오 오브젝트 코딩 프레임
46 : 제 2 모듈
51 : 다운믹스 부분
52 : 파라미터 부가 정보 부분
61 : 인코더
62 : 디코더
71 : 파워 스펙트럼 엔벨로프
91 : 다운믹스 유닛
92 : 변환 유닛
93 : 부가 정보 발생기
94 : 파라미터 부가 정보 추출 유닛
95 : 파라미터 부가 정보 스플리터
101 : 트랜지언트 검출 유닛
102 : 크리에이트 윈도우 시퀀스 유닛
103 : 시간/주파수 분석 유닛
106 : 파워 스펙트럼 추정 유닛
107 : 주파수 해상도 적응 우닛
108 : 델타 추정 유닛
109 : 모델링 유닛
110 : 비-믹싱 유닛
111 : 제 1 변환 유닛
112 : 비-믹싱 정보 결정기
113 : 제 2 변환 유닛
114 : 시간/주파수 변환 유닛
115 : 표준 파라미터 부가 정보 디코딩 유닛
116 : 주파수 해상도 전환 유닛
117 : 향상된 파라미터 부가 정보 디코딩 유닛
118 : 비-믹싱 매트릭스 발생기
119 : 비-상관성 유닛
122 : 주파수-해상도-전환 서브유닛
123 : 향상된 파라미터 부가 정보 디코딩 유닛
124 : 결합기
131 : 비-믹싱 매트릭스 계산기
132 : 시간적 보간기
133 : 윈도우 주파수 해상도 적응 유닛
134 : 윈도우 시퀀스 발생기
135 : 시간/주파수 분석 모듈
141 : 대역에 대한 값 팽창 유닛
142 : 델타 함수 복원 유닛
143 : 델타 적용 유닛
151 : 원래 음조 신호
152 : 원래 잡음 신호
153 : 음조 신호
154 : 잡음 신호

Claims (18)

  1. 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 디코더에 있어서,
    적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 수신함으로써 비-믹싱 정보를 결정하기 위한 비-믹싱 정보 결정기(112)를 구비하되, 상기 제 2 파라미터 부가 정보의 주파수 해상도는 상기 제 1 파라미터 부가 정보의 주파수 해상도보다 높으며; 및
    상기 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 획득하기 위하여, 적어도 하나의 오디오 오브젝트 신호를 나타내는, 다운믹스 신호 상에 비-믹싱 정보를 적용하기 위한 비-믹싱 모듈(113);을 포함하며,
    상기 비-믹싱 정보 결정기(112)는 변형된 파라미터 정보가 상기 제 1 주파수 해상도보다 높은 주파수 해상도를 갖는 것과 같이, 상기 변형된 파라미터 정보를 획득하기 위하여 상기 제 1 파라미터 정보와 상기 제 2 파라미터 정보를 변형함으로써 비-믹싱 정보를 결정하도록 구성되는 것을 특징으로 하는 디코더.
  2. 제 1항에 있어서,
    상기 디코더는 시간-주파수 도메인 내에 표현되는, 다운믹스 신호를 획득하기 위하여 시간 도메인 내에 표현되는, 다운믹스 입력을 변환하기 위한 제 1 변환 유닛(111)을 더 포함하고,
    상기 디코더는 상기 시간-주파수 도메인으로부터 상기 시간 도메인으로 상기 믹싱되지 않은 오디오 신호를 변환하기 위한 제 2 변환 유닛(114)을 포함하는 것을 특징으로 하는 디코더.
  3. 제 1항 또는 2항에 있어서, 상기 비-믹싱 정보 결정기(112)는 상기 변형된 파라미터 정보가 상기 제 2 주파수 해상도와 동일한 주파수 해상도를 갖는 것과 같이, 상기 변형된 파라미터 정보를 획득하기 위하여 상기 제 1 파라미터 정보와 상기 제 2 파라미터 정보를 결합함으로써 상기 비-믹싱 정보를 결정하도록 구성되는 것을 특징으로 하는 디코더.
  4. 제 1항 내지 3항 중 어느 한 항에 있어서,
    상기 제 1 파라미터 정보는 복수의 제 1 파라미터 값을 포함하고, 상기 제 2 파라미터 정보는 복수의 제 2 파라미터 값을 포함하며,
    상기 비-믹싱 정보 결정기(112)는 주파수 해상도 전환 서브유닛(122) 및 결합기(124)를 포함하며,
    상기 주파수 해상도 전환 유닛(112)은 부가적인 파라미터 값들을 발생시키도록 구성되고, 상기 제 1 파라미터 값들과 상기 부가적인 파라미터 값들은 복수의 제 1 처리된 파라미터 값을 함께 형성하며,
    상기 결합기(124)는 상기 변형된 파라미터 정보로서 복수의 변형된 파라미터 값을 획득하기 위하여 상기 제 1 처리된 파라미터 값들과 상기 제 2 파라미터 값들을 결합하도록 구성되는 것을 특징으로 하는 디코더.
  5. 제 1항 내지 4항 중 어느 한 항에 있어서,
    상기 비-믹싱 정보 결정기(112)는 델타 함수 복원 유닛(142) 및 델타 적용 유닛(143)을 포함하고,
    상기 제 1 파라미터 정보는 상기 적어도 하나의 오디오 오브젝트 신호에 의존하는 복수의 파라미터 값을 포함하고 상기 제 2 파라미터 정보는 보정 인자 파라미터화를 포함하며,
    상기 델타 함수 복원 유닛(142)은 델타 함수를 획득하기 위하여 상기 보정 인자 파라미터화를 가역하도록 구성되며,
    상기 델타 적용 유닛(143)은 상기 비-믹싱 정보를 획득하기 위하여 상기 파라미터 갑스들 상에 상기 델타 함수를 적용하도록 구성되는 것을 특징으로 하는 디코더.
  6. 제 5항에 있어서,
    상기 보정 인자 파라미터화는 복수의 선형 예측 계수를 포함하고,
    상기 델타 함수 복원 유닛(142)은 복수의 선형 예측 계수에 의존하여 복수의 보정 인자를 발생시킴으로써 상기 보정 인자 파라미터화를 가역하도록 구성되며,
    상기 델타 함수 복원 유닛(142)은 상기 복수의 보장 인자를 기초로 하여 상기 델타 함수를 발생시키도록 구성되는 것을 특징으로 하는 디코더.
  7. 제 1항 내지 6항 중 어느 한 항에 있어서,
    상기 디코더는 상기 제 1 파라미터 부가 정보에 의존하고 상기 제 2 파라미터 부가 정보에 의존하며 렌더링 정보에 의존하여, 비-믹싱 매트릭스를 발생시키기 위한 비-믹싱 매트릭스 발생기(118)를 더 포함하며,
    상기 비-믹스 모듈(113)은 상기 믹싱되지 않은 오디오 신호를 획득하기 위하여 상기 변환된 다운믹스 상에 상기 비-믹싱 매트릭스를 적용하도록 구성되는 는 것을 특징으로 하는 디코더.
  8. 제 1항 내지 7항 중 어느 한 항에 있어서,
    상기 비-믹싱 모듈(113)은 비-상관성 유닛(119) 및 비-믹싱 유닛(110)을 포함하고,
    상기 비-상관성 유닛(119)은 비-상관성 결과를 획득하기 위하여 상기 변환된 다운믹스에 대한 비-상관성을 수행하도록 구성되며,
    상기 비-믹싱 유닛(110)은 상기 믹싱되지 않은 오디오 신호를 획득하기 위하여 상기 비상관성 결과를 이용하도록 구성되는 것을 특징으로 하는 디코더.
  9. 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하기 위한 인코더에 있어서,
    하나 또는 그 이상의 다운믹스 신호를 획득하기 위하여 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 다운믹싱하기 위한 다운믹스 유닛(91); 및
    제 2 파라미터 부가 정보의 주파수 해상도가 제 1 파라미터 부가 정보의 주파수 해상도보다 높은 것과 같이, 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 발생시키기 위한 파라미터 부가 정보 발생기(93);를 포함하는 것을 특징으로 하는 인코더.
  10. 제 9항에 있어서,
    상기 인코더는 하나 또는 그 이상의 변환된 오디오 오브젝트 신호를 획득하기 위하여 시간 도메인으로부터 시간-주파수 도메인으로 상기 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 변환하기 위한 변환 유닛(92)을 더 포함하며,
    상기 파라미터 부가 정보 발생기(93)는 상기 하나 또는 그 이상의 변환된 오디오 오브젝트 신호를 기초로 하여 상기 제 1 파라미터 부가 정보 및 상기 제 2 파라미터 부가 정보를 발생시키도록 구성되는 것을 특징으로 하는 인코더.
  11. 제 10항에 있어서,
    상기 변환 유닛(92)은 상기 하나 또는 그 이상의 입력 오디오 오브젝트 신호 중 적어도 하나이 신호 값들을 포함하는 신호 변환 블록의 윈도우 길이에 의존하여 상기 시간 도메인으로부터 상기 시간-주파수 도메인으로 상기 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 변환하도록 구성되며,
    상기 변환 유닛(92)은 트랜지언트가 상기 적어도 하나의 오디오 오브젝트 신호 중 하나 또는 그 이상 내에 존재하는지를 나타내는 트랜지언트 검출 결과를 결정하기 위한 트랜지언트 검출 유닛(101)을 포함하고, 트렌지언트는 상기 적어도 하나의 오디오 오브젝트 신호의 하나 또는 그 이상에서의 신호 변화를 나타내며,
    상기 변환 유닛(92)은 상기 트랜지언트 검출 결과에 의존하여 상기 윈도우 길이를 결정하기 위한 윈도우 시퀀스 유닛(102)을 더 포함하는 것을 특징으로 하는 인코더.
  12. 제 9항 내지 11항 중 어느 한 항에 있어서, 상기 인코더는 상기 제 2 파라미터 부가 정보를 획득하기 위하여 상기 적어도 하나의 오디오 오브젝트 신호에 의존하는 복수의 파라미터 값을 기초로 하여 복수의 보정 인자를 추정하기 위한 델타 추정 유닛(108)을 더 포함하는 것을 특징으로 하는 인코더.
  13. 제 12항에 있어서, 상기 인코더는 선형 예측을 수행함으로써 상기 복수의 보장 인자로부터 선형 예측 계수들을 결정하기 위한 델타 모델링 유닛(109)을 더 포함하는 것을 특징으로 하는 인코더.
  14. 하나 또는 그 이상의 입력 오디오 오브젝트 신호의 다운믹스를 나타내는 다운믹스 부분(51); 및
    상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 포함하는 파라미터 부가 정보 부분(52)을 구비하되, 상기 제 2 파라미터 부가 정보의 주파수 해상도는 상기 제 1 파라미터 부가 정보의 주파수 해상도보다 높음;을 포함하는 것을 특징으로 하는 인코딩된 오디오 신호.
  15. 하나 또는 그 이상의 입력 오디오 오브젝트 신호의 다운믹스를 나타내는 하나 또는 그 이상의 다운믹스 신호를 획득하고 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보를 획득하며 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 획득함으로써, 상기 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 인코딩하기 위한 제 9항 내지 13항 중 어느 한 항에 따른 인코더(61)를 구비하되, 상기 제 2 파라미터 부가 정보의 주파수 해상도는 상기 제 1 파라미터 부가 정보의 주파수 해상도보다 높으며; 및
    상기 하나 또는 그 이상의 다운믹스 신호를 기초로 하고 상기 제 1 파라미터 부가 정보와 상기 제 2 파라미터 부가 정보를 기초로 하여, 믹싱되지 않은 오디오 신호를 발생시키기 위한 제 1항 내지 8항 중 어느 한 항에 따른 디코더;를 포함하는 것을 특징으로 하는 시스템.
  16. 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 방법에 있어서,
    적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 수신함으로써 비-믹싱 정보를 결정하는 단계를 구비하되, 상기 제 2 파라미터 부가 정보의 주파수 해상도는 상기 제 1 파라미터 부가 정보의 주파수 해상도보다 높으며; 및
    상기 복수의 믹싱되지 않은 오디오 채널을 포함하는 믹싱되지 않은 오디오 신호를 획득하기 위하여, 적어도 하나의 오디오 오브젝트 신호의 다운믹스를 나타내는, 다운믹스 신호 상에 상기 비-믹싱 정보를 적용하는 단계;를 포함하며,
    상기 비-믹싱 정보를 결정하는 단계는 변형된 파라미터 정보가 상기 제 1 주파수 해상도보다 높은 주파수 해상도를 갖는 것과 같이, 변형된 파라미터 정보를 획득하기 위하여 상기 제 1 파라미터 부가 정보 및 상기 제 2 파라미터 부가 정보를 변형하는 단계;를 포함하는 것을 특징으로 하는 믹싱되지 않은 오디오 신호를 발생시키기 위한 방법.
  17. 하나 또는 그 이상의 다운믹스 신호를 획득하기 위하여 하나 또는 그 이상의 입력 오디오 오브젝트 신호를 다운믹싱하는 단계; 및
    제 2 파라미터 부가 정보의 주파수 해상도는 상기 제 1 파라미터 부가 정보의 주파수 해상도보다 높은 것과 같이, 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 1 파라미터 부가 정보 및 상기 적어도 하나의 오디오 오브젝트 신호에 대한 제 2 파라미터 부가 정보를 발생시키는 단계;를 포함하는 것을 특징으로 하는 하나 또는 그 이상의 오디오 오브젝트 신호를 인코딩하는 방법.
  18. 컴퓨터 또는 신호 프로세서 상에서 실행될 때 제 16항 또는 17항의 방법을 구현하기 위한 컴퓨터 프로그램.
KR1020157010956A 2012-10-05 2013-10-02 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법 KR101798117B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261710128P 2012-10-05 2012-10-05
US61/710,128 2012-10-05
EP13167485.5A EP2717261A1 (en) 2012-10-05 2013-05-13 Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
EP13167485.5 2013-05-13
PCT/EP2013/070533 WO2014053537A1 (en) 2012-10-05 2013-10-02 Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding

Publications (2)

Publication Number Publication Date
KR20150073180A true KR20150073180A (ko) 2015-06-30
KR101798117B1 KR101798117B1 (ko) 2017-12-12

Family

ID=48325510

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157010956A KR101798117B1 (ko) 2012-10-05 2013-10-02 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법

Country Status (21)

Country Link
US (1) US11074920B2 (ko)
EP (2) EP2717261A1 (ko)
JP (1) JP6285939B2 (ko)
KR (1) KR101798117B1 (ko)
CN (1) CN104838442B (ko)
AR (1) AR092927A1 (ko)
AU (1) AU2013326516B2 (ko)
BR (1) BR112015007532B1 (ko)
CA (1) CA2887228C (ko)
ES (1) ES2703327T3 (ko)
HK (1) HK1213360A1 (ko)
MX (1) MX345497B (ko)
MY (1) MY191498A (ko)
PL (1) PL2904609T3 (ko)
PT (1) PT2904609T (ko)
RU (1) RU2669079C2 (ko)
SG (1) SG11201502608XA (ko)
TR (1) TR201900436T4 (ko)
TW (1) TWI545559B (ko)
WO (1) WO2014053537A1 (ko)
ZA (1) ZA201503024B (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2980801A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US10134412B2 (en) * 2015-09-03 2018-11-20 Shure Acquisition Holdings, Inc. Multiresolution coding and modulation system
US11152014B2 (en) 2016-04-08 2021-10-19 Dolby Laboratories Licensing Corporation Audio source parameterization
US10362423B2 (en) 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
CN110870006B (zh) 2017-04-28 2023-09-22 Dts公司 对音频信号进行编码的方法以及音频编码器
WO2019105575A1 (en) * 2017-12-01 2019-06-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN110660401B (zh) * 2019-09-02 2021-09-24 武汉大学 一种基于高低频域分辨率切换的音频对象编解码方法
FR3101741A1 (fr) * 2019-10-02 2021-04-09 Orange Détermination de corrections à appliquer à un signal audio multicanal, codage et décodage associés
GB2598932A (en) * 2020-09-18 2022-03-23 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
CN113314130B (zh) * 2021-05-07 2022-05-13 武汉大学 一种基于频谱搬移的音频对象编解码方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
KR100682904B1 (ko) 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
EP2410523B1 (en) * 2006-07-04 2013-01-30 Electronics and Telecommunications Research Institute Apparatus for restoring multi-channel audio signal using an MPEG surround decoder
WO2008100068A1 (en) * 2007-02-13 2008-08-21 Lg Electronics Inc. A method and an apparatus for processing an audio signal
WO2008114984A1 (en) * 2007-03-16 2008-09-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
MX2010004138A (es) * 2007-10-17 2010-04-30 Ten Forschung Ev Fraunhofer Codificacion de audio usando conversion de estereo a multicanal.
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2175670A1 (en) 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
EP2446435B1 (en) * 2009-06-24 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
KR20110018107A (ko) * 2009-08-17 2011-02-23 삼성전자주식회사 레지듀얼 신호 인코딩 및 디코딩 방법 및 장치
ES2529219T3 (es) * 2009-10-20 2015-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para proporcionar una representación de señal de mezcla ascendente sobre la base de la representación de una señal de mezcla descendente, aparato para proporcionar un flujo de bits que representa una señal de audio de canales múltiples, métodos, programa de computación y un flujo de bits que utiliza una señalización de control de distorsión
KR101309671B1 (ko) * 2009-10-21 2013-09-23 돌비 인터네셔널 에이비 결합된 트랜스포저 필터 뱅크에서의 오버샘플링
EP2323130A1 (en) * 2009-11-12 2011-05-18 Koninklijke Philips Electronics N.V. Parametric encoding and decoding
WO2011083979A2 (en) 2010-01-06 2011-07-14 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
RU2582061C2 (ru) * 2010-06-09 2016-04-20 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Способ расширения ширины полосы, устройство расширения ширины полосы, программа, интегральная схема и устройство декодирования аудио
WO2012037515A1 (en) * 2010-09-17 2012-03-22 Xiph. Org. Methods and systems for adaptive time-frequency resolution in digital data coding
US10497381B2 (en) * 2012-05-04 2019-12-03 Xmos Inc. Methods and systems for improved measurement, entity and parameter estimation, and path propagation effect measurement and mitigation in source signal separation

Also Published As

Publication number Publication date
JP2015535958A (ja) 2015-12-17
EP2904609A1 (en) 2015-08-12
ES2703327T3 (es) 2019-03-08
BR112015007532A2 (pt) 2017-08-22
RU2015116434A (ru) 2016-11-27
ZA201503024B (en) 2016-09-28
MY191498A (en) 2022-06-28
WO2014053537A1 (en) 2014-04-10
TW201423728A (zh) 2014-06-16
PT2904609T (pt) 2019-01-30
HK1213360A1 (zh) 2016-06-30
EP2904609B1 (en) 2018-10-31
RU2669079C2 (ru) 2018-10-08
KR101798117B1 (ko) 2017-12-12
JP6285939B2 (ja) 2018-02-28
BR112015007532B1 (pt) 2021-08-03
US11074920B2 (en) 2021-07-27
AU2013326516B2 (en) 2016-12-22
MX2015004205A (es) 2015-11-13
CA2887228C (en) 2019-09-24
AR092927A1 (es) 2015-05-06
CA2887228A1 (en) 2014-04-10
TWI545559B (zh) 2016-08-11
TR201900436T4 (tr) 2019-02-21
PL2904609T3 (pl) 2019-04-30
AU2013326516A1 (en) 2015-04-23
EP2717261A1 (en) 2014-04-09
US20150213806A1 (en) 2015-07-30
BR112015007532A8 (pt) 2019-02-12
SG11201502608XA (en) 2015-05-28
MX345497B (es) 2017-02-02
CN104838442A (zh) 2015-08-12
CN104838442B (zh) 2018-10-02

Similar Documents

Publication Publication Date Title
KR101798117B1 (ko) 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법
KR101689489B1 (ko) 공간 오디오 객체 코딩에서 시간/주파수 분해능의 하위 호환 가능한 동적 적응을 위한 인코더, 디코더 및 방법들
CN105378832B (zh) 解码器、编码器、解码方法、编码方法和存储介质
KR101837686B1 (ko) 공간적 오디오 객체 코딩에 오디오 정보를 적응시키기 위한 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant