KR102114648B1 - 오디오 프로세싱 시스템에서 신호 역상관 - Google Patents

오디오 프로세싱 시스템에서 신호 역상관 Download PDF

Info

Publication number
KR102114648B1
KR102114648B1 KR1020157021921A KR20157021921A KR102114648B1 KR 102114648 B1 KR102114648 B1 KR 102114648B1 KR 1020157021921 A KR1020157021921 A KR 1020157021921A KR 20157021921 A KR20157021921 A KR 20157021921A KR 102114648 B1 KR102114648 B1 KR 102114648B1
Authority
KR
South Korea
Prior art keywords
decorrelation
audio data
channel
audio
information
Prior art date
Application number
KR1020157021921A
Other languages
English (en)
Other versions
KR20150106949A (ko
Inventor
비네이 멜코테
쿠안-치에 옌
그랜트 에이. 데이비드슨
매튜 펠러
마크 에스. 빈톤
비벡 쿠마
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20150106949A publication Critical patent/KR20150106949A/ko
Application granted granted Critical
Publication of KR102114648B1 publication Critical patent/KR102114648B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)

Abstract

오디오 프로세싱 방법들은 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 단계를 수반할 수 있다. 오디오 데이터는 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 포함할 수 있다. 역상관 프로세스는 오디오 인코딩 또는 프로세싱 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행될 수 있다. 역상관 프로세스는 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행될 수 있다. 역상관 프로세스는 특정 채널들 및/또는 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 역상관 프로세스는 필터링된 오디오 데이터를 생성하기 위해 수신된 오디오 데이터의 일 부분에 역상관 필터를 적용하는 단계를 수반할 수 있다. 역상관 프로세스는 공간 파라미터들에 따라 필터링된 오디오 데이터와 수신된 오디오 데이터의 직접 부분을 결합하기 위해 비-계층적 믹서를 사용하는 단계를 수반할 수 있다.

Description

오디오 프로세싱 시스템에서 신호 역상관{SIGNAL DECORRELATION IN AN AUDIO PROCESSING SYSTEM}
본 개시는 신호 프로세싱에 관한 것이다.
오디오 및 비디오 데이터를 위한 디지털 인코딩 및 디코딩 프로세스들의 개발은 엔터테인먼트 콘텐트의 전달에 계속해서 상당한 영향을 미치고 있다. 메모리 디바이스들의 증가된 용량 및 점점 더 높은 대역폭들에서의 광범위하게 이용 가능한 데이터 전달에도 불구하고, 저장되고 및/또는 송신될 데이터의 양을 최소화하기 위한 계속된 압력이 있다. 오디오 및 비디오 데이터는 종종 함께 전달되며, 오디오 데이터를 위한 대역폭은 종종 비디오 부분의 요건들에 의해 제한된다.
따라서, 오디오 데이터는 종종 높은 압축 인자들에서, 때때로 30:1 이상의 압축 인자들에서 인코딩된다. 신호 왜곡은 적용된 압축의 양에 따라 증가하기 때문에, 트레이드-오프들은 디코딩된 오디오 데이터의 충실도 및 인코딩된 데이터를 저장 및/또는 송신하는 효율성 사이에서 이루어질 수 있다.
게다가, 인코딩 및 디코딩 알고리즘들의 복잡도를 감소시키는 것이 바람직하다. 인코딩 프로세스에 관한 부가적인 데이터를 인코딩하는 것은 단지 부가적인 인코딩된 데이터를 저장 및/또는 송신하는 비용은 고려하지 않고, 디코딩 프로세스를 간소화할 수 있다.
기존의 오디오 인코딩 및 디코딩 방법들은 일반적으로 만족스럽지만, 개선된 방법들이 바람직할 것이다.
본 개시에 설명된 주제의 몇몇 양상들은 오디오 프로세싱 방법들에서 구현될 수 있다. 몇몇 이러한 방법들은 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 단계를 수반할 수 있다. 상기 오디오 데이터는 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 포함할 수 있다. 상기 방법은 오디오 데이터의 적어도 일부에 역상관 프로세스(decorrelation process)를 적용하는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 역상관 프로세스는 상기 오디오 인코딩 또는 프로세싱 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행될 수 있다.
몇몇 구현들에서, 상기 역상관 프로세스는 상기 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행될 수 있다. 상기 주파수 도메인 표현은 완전 복원(perfect reconstruction), 임계-샘플링된 필터뱅크(critically-sampled filterbank)를 적용한 결과일 수 있다. 상기 역상관 프로세스는 상기 주파수 도메인 표현의 적어도 일 부분에 선형 필터들을 적용함으로써 리버브 신호들(reverb signals) 또는 역상관 신호들(decorrelation signals)을 발생시키는 것을 수반할 수 있다. 상기 주파수 도메인 표현은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환(lapped orthogonal transform)을 시간 도메인에서의 오디오 데이터에 적용한 결과일 수 있다. 상기 역상관 프로세스는 전적으로 실수값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 것을 수반할 수 있다.
몇몇 구현들에 따르면, 상기 역상관 프로세스는 특정 채널들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 대안적으로, 또는 부가적으로, 상기 역상관 프로세스는 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 상기 역상관 프로세스는 필터링된 오디오 데이터를 생성하기 위해 상기 수신된 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 역상관 프로세스는 공간 파라미터들에 따라 상기 필터링된 오디오 데이터와 상기 수신된 오디오 데이터의 직접 부분을 결합하기 위해 비-계층적 믹서(non-hierarchal mixer)를 사용하는 것을 수반할 수 있다.
몇몇 구현들에서, 역상관 정보는 오디오 데이터 또는 기타 다른 것과 함께 수신될 수 있다. 상기 역상관 프로세스는 상기 수신된 역상관 정보에 따라 오디오 데이터의 적어도 일부를 역상관하는 것을 수반할 수 있다. 상기 수신된 역상관 정보는 개별 이산 채널들 및 커플링 채널 사이에서의 상관 계수들, 개별 이산 채널들 사이에서의 상관 계수들, 명시적 조성 정보(explicit tonality information) 및/또는 과도 정보(transient information)를 포함할 수 있다.
상기 방법은 수신된 오디오 데이터에 기초하여 역상관 정보를 결정하는 것을 수반할 수 있다. 상기 역상관 프로세스는 결정된 역상관 정보에 따라 오디오 데이터의 적어도 일부를 역상관하는 것을 수반할 수 있다. 상기 방법은 상기 오디오 데이터와 함께 인코딩된 역상관 정보를 수신하는 것을 수반할 수 있다. 상기 역상관 프로세스는 상기 수신된 역상관 정보 또는 상기 결정된 역상관 정보 중 적어도 하나에 따라 오디오 데이터의 적어도 일부를 역상관하는 것을 수반할 수 있다.
몇몇 구현들에 따르면, 오디오 인코딩 또는 프로세싱 시스템은 레거시 오디오 인코딩 또는 프로세싱 시스템일 수 있다. 상기 방법은 상기 레거시 오디오 인코딩 또는 프로세싱 시스템에 의해 생성된 비트스트림에서 제어 메커니즘 요소들을 수신하는 것을 수반할 수 있다. 상기 역상관 프로세스는 적어도 부분적으로 상기 제어 메커니즘 요소들에 기초할 수 있다.
몇몇 구현들에서, 장치는 인터페이스 및 상기 인터페이스를 통해, 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하기 위해 구성된 로직 시스템을 포함할 수 있다. 상기 오디오 데이터는 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 포함할 수 있다. 상기 로직 시스템은 오디오 데이터의 적어도 일부에 역상관 프로세스를 적용하기 위해 구성될 수 있다. 몇몇 구현들에서, 상기 역상관 프로세스는 상기 오디오 인코딩 또는 프로세싱 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행될 수 있다. 상기 로직 시스템은 범용 단일- 또는 다중-칩 프로세서, 디지털 신호 프로세서(DSP), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA) 또는 다른 프로그램 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 또는 이산 하드웨어 구성요소들 중 적어도 하나를 포함할 수 있다.
몇몇 구현들에서, 상기 역상관 프로세스는 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행될 수 있다. 상기 주파수 도메인 표현은 임계-샘플링된 필터뱅크를 적용한 결과일 수 있다. 상기 역상관 프로세스는 상기 주파수 도메인 표현의 적어도 일 부분에 선형 필터들을 적용함으로써 리버브 신호들 또는 역상관 신호들을 발생시키는 단계를 수반할 수 있다. 상기 주파수 도메인 표현은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환을 시간 도메인에서의 오디오 데이터에 적용한 결과일 수 있다. 상기 역상관 프로세스는 전적으로 실수값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 것을 수반할 수 있다.
상기 역상관 프로세스는 특정 채널들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 상기 역상관 프로세스는 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 상기 역상관 프로세스는 필터링된 오디오 데이터를 생성하기 위해 상기 수신된 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 역상관 프로세스는 공간 파라미터들에 따라 상기 필터링된 오디오 데이터와 상기 수신된 오디오 데이터의 부분을 결합하기 위해 비-계층적 믹서를 사용하는 것을 수반할 수 있다.
상기 장치는 메모리 디바이스를 포함할 수 있다. 몇몇 구현들에서, 상기 인터페이스는 로직 시스템 및 메모리 디바이스 사이에서의 인터페이스일 수 있다. 대안적으로, 상기 인터페이스는 네트워크 인터페이스일 수 있다.
상기 오디오 인코딩 또는 프로세싱 시스템은 레거시 오디오 인코딩 또는 프로세싱 시스템일 수 있다. 몇몇 구현들에서, 상기 로직 시스템은 추가로, 상기 인터페이스를 통해, 상기 레거시 오디오 인코딩 또는 프로세싱 시스템에 의해 생성된 비트스트림에서 제어 메커니즘 요소들을 수신하기 위해 구성될 수 있다. 상기 역상관 프로세스는 적어도 부분적으로, 상기 제어 메커니즘 요소들에 기초할 수 있다.
본 개시의 몇몇 양상들은 소프트웨어를 저장한 비-일시적 매체에 구현될 수 있다. 상기 소프트웨어는 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하도록 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 데이터는 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 포함할 수 있다. 상기 소프트웨어는 상기 오디오 데이터의 적어도 일부에 역상관 프로세스를 적용하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 몇몇 구현들에서, 상기 역상관 프로세스는 오디오 인코딩 또는 프로세싱 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행된다.
몇몇 구현들에서, 상기 역상관 프로세스는 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행될 수 있다. 상기 주파수 도메인 표현은 임계-샘플링된 필터뱅크를 적용한 결과일 수 있다. 상기 역상관 프로세스는 상기 주파수 도메인 표현의 적어도 일 부분에 선형 필터들을 적용함으로써 리버브 신호들 또는 역상관 신호들을 발생시키는 것을 수반할 수 있다. 상기 주파수 도메인 표현은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환을 시간 도메인에서의 오디오 데이터에 적용한 결과일 수 있다. 상기 역상관 프로세스는 전적으로 실수값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 것을 수반할 수 있다.
몇몇 방법들은 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것 및 오디오 데이터의 오디오 특성들을 결정하는 것을 수반할 수 있다. 상기 오디오 특성들은 과도 정보를 포함할 수 있다. 상기 방법들은 적어도 부분적으로 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 역상관의 양을 결정하는 것 및 결정된 역상관의 양에 따라 상기 오디오 데이터를 프로세싱하는 것을 수반할 수 있다.
몇몇 인스턴스들에서, 어떤 명시적 과도 정보도 상기 오디오 데이터와 함께 수신되지 않을 수 있다. 몇몇 구현들에서, 과도 정보를 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 것을 수반할 수 있다.
과도 정보를 결정하는 프로세스는 과도 이벤트의 우도(likelihood) 및/또는 심각도(severity)를 평가하는 것을 수반할 수 있다. 과도 정보를 결정하는 프로세스는 상기 오디오 데이터에서 시간적 전력 변화를 평가하는 것을 수반할 수 있다.
상기 오디오 특성들을 결정하는 프로세스는 상기 오디오 데이터와 함께 명시적 과도 정보를 수신하는 것을 수반할 수 있다. 상기 명시적 과도 정보는 확정 과도 이벤트에 대응하는 과도 제어 값, 확정 비-과도 이벤트(definite non-transient event)에 대응하는 과도 제어 값 또는 중간 과도 제어 값 중 적어도 하나를 포함할 수 있다. 상기 명시적 과도 정보는 중간 과도 제어 값 또는 확정 과도 이벤트에 대응하는 과도 제어 값을 포함할 수 있다. 상기 과도 제어 값은 지수 감소 함수의 대상이 될 수 있다.
상기 명시적 과도 정보는 확정 과도 이벤트를 표시할 수 있다. 오디오 데이터를 프로세싱하는 것은 역상관 프로세스를 일시적으로 중단시키거나 또는 속도를 늦추는 것을 수반할 수 있다. 상기 명시적 과도 정보는 확정 비-과도 이벤트에 대응하는 과도 제어 값 또는 중간 과도 값을 포함할 수 있다. 과도 정보를 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 것을 수반할 수 있다. 소프트 과도 이벤트를 검출하는 프로세스는 과도 이벤트의 우도 또는 심각도 중 적어도 하나를 평가하는 것을 수반할 수 있다.
상기 결정된 과도 정보는 상기 소프트 과도 이벤트에 대응하는 결정된 과도 제어 값일 수 있다. 상기 방법은 새로운 과도 제어 값을 획득하기 위해 상기 수신된 과도 제어 값과 상기 결정된 과도 제어 값을 결합하는 것을 수반할 수 있다. 상기 결정된 과도 제어 값 및 상기 수신된 과도 제어 값을 결합하는 프로세스는 상기 결정된 과도 제어 값 및 상기 수신된 과도 제어 값의 최대치를 결정하는 것을 수반할 수 있다.
소프트 과도 이벤트를 검출하는 프로세스는 오디오 데이터의 시간적 전력 변화를 검출하는 것을 수반할 수 있다. 상기 시간적 전력 변화를 검출하는 것은 로그 전력 평균에서의 변화를 결정하는 단계를 수반할 수 있다. 상기 로그 전력 평균은 주파수-대역-가중 로그 전력 평균일 수 있다. 상기 로그 전력 평균에서 변화를 결정하는 것은 시간적 비대칭 전력 차를 결정하는 단계를 수반할 수 있다. 상기 비대칭 전력 차는 증가 전력을 강조할 수 있으며 감소 전력을 약화시킬 수 있다. 상기 방법은 상기 비대칭 전력 차에 기초하여 원 과도 측정치를 결정하는 것을 수반할 수 있다. 상기 원 과도 측정치를 결정하는 것은 상기 시간적 비대칭 전력 차가 가우스 분포에 따라 분포된다는 가정에 기초하여 과도 이벤트들의 우도 함수를 산출하는 것을 수반할 수 있다. 상기 방법은 상기 원 과도 측정치에 기초하여 과도 제어 값을 결정하는 것을 수반할 수 있다. 상기 방법은 지수 감소 함수를 상기 과도 제어 값에 적용하는 것을 수반할 수 있다.
몇몇 방법들은 필터링된 오디오 데이터를 생성하기 위해 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것 및 믹싱 비(mixing ratio)에 따라 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 역상관의 양을 결정하는 프로세스는 적어도 부분적으로, 상기 과도 제어 값에 기초하여 상기 믹싱 비를 수정하는 것을 수반할 수 있다.
몇몇 방법들은 필터링된 오디오 데이터를 생성하기 위해 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 역상관의 양을 결정하는 것은 상기 과도 정보에 기초하여 상기 역상관 필터에 대한 입력을 감쇠시키는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 역상관의 양을 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 것에 응답하여 역상관의 양을 감소시키는 것을 수반할 수 있다.
상기 오디오 데이터를 프로세싱하는 것은 필터링된 오디오 데이터를 생성하기 위해, 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 및 믹싱 비에 따라 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 상기 역상관의 양을 감소시키는 프로세스는 상기 믹싱 비를 수정하는 것을 수반할 수 있다.
상기 오디오 데이터를 프로세싱하는 것은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 상기 필터링된 오디오 데이터에 적용될 이득을 추정하는 것, 상기 필터링된 오디오 데이터에 상기 이득을 적용하는 것, 및 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다.
상기 추정 프로세스는 상기 수신된 오디오 데이터의 전력과 상기 필터링된 오디오 데이터의 전력을 매칭시키는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 이득을 추정 및 적용하는 프로세스들은 더커들(duckers)의 뱅크에 의해 실행될 수 있다. 상기 더커들의 뱅크는 버퍼들을 포함할 수 있다. 고정된 지연이 상기 필터링된 오디오 데이터에 적용될 수 있으며 동일한 지연이 상기 버퍼들에 적용될 수 있다.
상기 더커들에 대한 전력 추정 평활화 윈도우 또는 필터링된 오디오 데이터에 적용될 이득 중 적어도 하나는 적어도 부분적으로, 결정된 과도 정보에 기초할 수 있다. 몇몇 구현들에서, 보다 짧은 평활화 윈도우는 과도 이벤트가 비교적 더 가능성 있거나 또는 비교적 더 강한 과도 이벤트가 검출될 때 적용될 수 있으며, 보다 긴 평활화 윈도우는 과도 이벤트가 비교적 덜 가능성 있고, 비교적 더 약한 과도 이벤트가 검출되거나 또는 어떤 과도 이벤트도 검출되지 않을 때 적용될 수 있다.
몇몇 방법들은 필터링된 오디오 데이터를 생성하기 위해 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 상기 필터링된 오디오 데이터에 적용될 더커 이득을 추정하는 것, 상기 더커 이득을 상기 필터링된 오디오 데이터에 적용하는 것 및 믹싱 비에 따라 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 상기 역상관의 양을 결정하는 프로세스는 상기 과도 정보 또는 상기 더커 이득 중 적어도 하나에 기초하여 상기 믹싱 비를 수정하는 것을 수반할 수 있다.
상기 오디오 특성들을 결정하는 프로세스는 블록 스위칭되는 채널, 커플링 외 채널 또는 사용 중이지 않은 채널 커플링 중 적어도 하나를 결정하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 역상관의 양을 결정하는 것은 역상관 프로세스가 속도가 늦춰지거나 또는 일시적으로 중단되어야 함을 결정하는 것을 수반할 수 있다.
상기 오디오 데이터를 프로세싱하는 것은 역상관 필터 디더링 프로세스를 수반할 수 있다. 상기 방법은 적어도 부분적으로 상기 과도 정보에 기초하여, 상기 역상관 필터 디더링 프로세스가 수정되거나 또는 일시적으로 중단되어야 함을 결정하는 것을 수반할 수 있다. 몇몇 방법들에 따르면, 역상관 필터 디더링 프로세스는 역상관 필터의 디더링 극점(pole)들에 대한 최대 스트라이드 값을 변경함으로써 수정될 것이라고 결정될 수 있다.
몇몇 구현들에 따르면, 장치는 인터페이스 및 로직 시스템을 포함할 수 있다. 상기 로직 시스템은 인터페이스로부터, 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하기 위해, 및 상기 오디오 데이터의 오디오 특성들을 결정하기 위해 구성될 수 있다. 상기 오디오 특성들은 과도 정보를 포함할 수 있다. 상기 로직 시스템은 적어도 부분적으로, 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 역상관의 양을 결정하기 위해 및 결정된 역상관의 양에 따라 상기 오디오 데이터를 프로세싱하기 위해 구성될 수 있다.
몇몇 구현들에서, 어떤 명시적 과도 정보도 상기 오디오 데이터와 함께 수신되지 않을 수 있다. 과도 정보를 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 것을 수반할 수 있다. 과도 정보를 결정하는 프로세스는 과도 이벤트의 우도 또는 심각도 중 적어도 하나를 평가하는 것을 수반할 수 있다. 과도 정보를 결정하는 프로세스는 상기 오디오 데이터에서 시간적 전력 변화를 평가하는 것을 수반할 수 있다.
몇몇 구현들에서, 상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터와 함께 명시적 과도 정보를 수신하는 것을 수반할 수 있다. 상기 명시적 과도 정보는 확정 과도 이벤트에 대응하는 과도 제어 값, 확정 비-과도 이벤트에 대응하는 과도 제어 값 또는 중간 과도 제어 값 중 적어도 하나를 표시할 수 있다. 상기 명시적 과도 정보는 중간 과도 제어 값 또는 확정 과도 이벤트에 대응하는 과도 제어 값을 포함할 수 있다. 상기 과도 제어 값은 지수 감소 함수의 대상이 될 수 있다.
상기 명시적 과도 정보가 확정 과도 이벤트를 표시한다면, 상기 오디오 데이터를 프로세싱하는 것은 역상관 프로세스를 일시적으로 속도를 늦추거나 또는 중단시키는 것을 수반할 수 있다. 상기 명시적 과도 정보가 명확한 비-과도 이벤트에 대응하는 과도 제어 값 또는 중간 과도 값을 포함한다면, 과도 정보를 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 것을 수반할 수 있다. 결정된 과도 정보는 상기 소프트 과도 이벤트에 대응하는 결정된 과도 제어 값일 수 있다.
상기 로직 시스템은 새로운 과도 제어 값을 획득하기 위해 수신된 과도 제어 값과 상기 결정된 과도 제어 값을 결합하기 위해 추가로 구성될 수 있다. 몇몇 구현들에서, 상기 결정된 과도 제어 값 및 상기 수신된 과도 제어 값을 결합하는 프로세스는 상기 결정된 과도 제어 값 및 상기 수신된 과도 제어 값의 최대치를 결정하는 것을 수반할 수 있다.
소프트 과도 이벤트를 검출하는 프로세스는 과도 이벤트의 우도 또는 심각도 중 적어도 하나를 평가하는 것을 수반할 수 있다. 소프트 과도 이벤트를 검출하는 프로세스는 오디오 데이터의 시간적 전력 변화를 검출하는 것을 수반할 수 있다.
몇몇 구현들에서, 상기 로직 시스템은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하며 믹싱 비에 따라 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하기 위해 추가로 구성될 수 있다. 상기 역상관의 양을 결정하는 프로세스는 적어도 부분적으로 상기 과도 정보에 기초하여 상기 믹싱 비를 수정하는 것을 수반할 수 있다.
상기 오디오 데이터에 대한 역상관의 양을 결정하는 프로세스는 상기 소프트 과도 이벤트를 검출하는 것에 응답하여 역상관의 양을 감소시키는 것을 수반할 수 있다. 상기 오디오 데이터를 프로세싱하는 것은 필터링된 오디오 데이터를 생성하기 위해, 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 및 믹싱 비에 따라 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 상기 역상관의 양을 감소시키는 프로세스는 상기 믹싱 비를 수정하는 것을 수반할 수 있다.
상기 오디오 데이터를 프로세싱하는 것은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 상기 필터링된 오디오 데이터에 적용될 이득을 추정하는 것, 상기 이득을 상기 필터링된 오디오 데이터에 적용하는 것 및 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 상기 추정 프로세스는 상기 수신된 오디오 데이터의 전력과 상기 필터링된 오디오 데이터의 전력을 매칭시키는 것을 수반할 수 있다. 상기 로직 시스템은 상기 이득을 추정 및 적용하는 프로세스들을 실행하도록 구성된 더커들의 뱅크를 포함할 수 있다.
본 개시의 몇몇 양상들은 소프트웨어를 저장한 비-일시적 매체에 구현될 수 있다. 상기 소프트웨어는 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하기 위해 및 상기 오디오 데이터의 오디오 특성들을 결정하기 위해 장치를 제어하기 위한 지시들을 포함할 수 있다. 몇몇 구현들에서, 상기 오디오 특성들은 과도 정보를 포함할 수 있다. 상기 소프트웨어는 적어도 부분적으로, 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 역상관의 양을 결정하기 위해 및 결정된 역상관의 양에 따라 상기 오디오 데이터를 프로세싱하기 위해 장치를 제어하기 위한 지시들을 포함할 수 있다.
몇몇 인스턴스들에서, 어떤 명시적 과도 정보도 오디오 데이터와 함께 수신되지 않을 수 있다. 과도 정보를 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 단계를 수반할 수 있다. 과도 정보를 결정하는 프로세스는 과도 이벤트의 우도 또는 심각도 중 적어도 하나를 평가하는 것을 수반할 수 있다. 과도 정보를 결정하는 프로세스는 오디오 데이터에서의 시간적 전력 변화를 평가하는 것을 수반할 수 있다.
그러나, 몇몇 구현들에서, 상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터와 함께 명시적 과도 정보를 수신하는 것을 수반할 수 있다. 상기 명시적 과도 정보는 확정 과도 이벤트에 대응하는 과도 제어 값, 확정 비-과도 이벤트에 대응하는 과도 제어 값 및/또는 중간 과도 제어 값을 포함할 수 있다. 상기 명시적 과도 정보가 과도 이벤트를 표시한다면, 상기 오디오 데이터를 프로세싱하는 것은 역상관 프로세스를 일시적으로 중단시키거나 또는 속도를 늦추는 것을 수반할 수 있다.
상기 명시적 과도 정보가 확정 비-과도 이벤트에 대응하는 과도 제어 값 또는 중간 과도 값을 포함한다면, 과도 정보를 결정하는 프로세스는 소프트 과도 이벤트를 검출하는 것을 수반할 수 있다. 상기 결정된 과도 정보는 상기 소프트 과도 이벤트에 대응하는 결정된 과도 제어 값일 수 있다. 과도 정보를 결정하는 프로세스는 새로운 과도 제어 값을 획득하기 위해 상기 수신된 과도 제어 값과 상기 결정된 과도 제어 값을 결합하는 것을 수반할 수 있다. 상기 결정된 과도 제어 값 및 상기 수신된 과도 제어 값을 결합하는 프로세스는 상기 결정된 과도 제어 값 및 상기 수신된 과도 제어 값의 최대치를 결정하는 것을 수반할 수 있다.
소프트 과도 이벤트를 검출하는 프로세스는 과도 이벤트의 우도 또는 심각도 중 적어도 하나를 평가하는 것을 수반할 수 있다. 소프트 과도 이벤트를 검출하는 프로세스는 상기 오디오 데이터의 시간적 전력 변화를 검출하는 것을 수반할 수 있다.
상기 소프트웨어는 필터링된 오디오 데이터를 생성하기 위해 및 믹싱 비에 따라 상기 수신된 오디오 데이터의 일 부분과 필터링된 오디오 데이터를 믹싱하기 위해 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 역상관의 양을 결정하는 프로세스는 적어도 부분적으로, 과도 정보에 기초하여, 상기 믹싱 비를 수정하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 역상관의 양을 결정하는 프로세스는 상기 소프트 과도 이벤트를 검출하는 것에 응답하여 역상관의 양을 감소시키는 것을 수반할 수 있다.
상기 오디오 데이터를 프로세싱하는 것은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 및 믹싱 비에 따라 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 상기 역상관의 양을 감소시키는 프로세스는 상기 믹싱 비를 수정하는 것을 수반할 수 있다.
상기 오디오 데이터를 프로세싱하는 것은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 일 부분에 역상관 필터를 적용하는 것, 상기 필터링된 오디오 데이터에 적용될 이득을 추정하는 것, 상기 이득을 상기 필터링된 오디오 데이터에 적용하는 것 및 상기 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 것을 수반할 수 있다. 상기 추정 프로세스는 상기 수신된 오디오 데이터의 전력과 상기 필터링된 오디오 데이터의 전력을 매칭시키는 것을 수반할 수 있다.
몇몇 방법들은 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것 및 상기 오디오 데이터의 오디오 특성들을 결정하는 것을 수반할 수 있다. 상기 오디오 특성들은 과도 정보를 포함할 수 있다. 상기 과도 정보는 확정 과도 이벤트 및 확정 비-과도 이벤트 사이에서의 과도 값을 표시하는 중간 과도 제어 값을 포함할 수 있다. 이러한 방법들은 또한 인코딩된 과도 정보를 포함하는 인코딩된 오디오 데이터 프레임들을 형성하는 것을 수반할 수 있다.
상기 인코딩된 과도 정보는 하나 이상의 제어 플래그들을 포함할 수 있다. 상기 방법은 상기 오디오 데이터의 둘 이상의 채널들의 적어도 일 부분을 적어도 하나의 커플링 채널에 커플링하는 것을 수반할 수 있다. 상기 제어 플래그들은 채널 블록 스위치 플래그, 커플링-외 채널 플래그 또는 사용-중-커플링 플래그 중 적어도 하나를 포함할 수 있다. 상기 방법은 확정 과도 이벤트, 확정 비-과도 이벤트, 과도 이벤트의 우도 또는 과도 이벤트의 심각도 중 적어도 하나를 표시하는 인코딩된 과도 정보를 형성하기 위해 제어 플래그들 중 하나 이상의 결합을 결정하는 것을 수반할 수 있다.
과도 정보를 결정하는 프로세스는 과도 이벤트의 우도 또는 심각도 중 적어도 하나를 평가하는 것을 수반할 수 있다. 상기 인코딩된 과도 정보를 확정 과도 이벤트, 확정 비-과도 이벤트, 과도 이벤트의 우도 또는 과도 이벤트의 심각도 중 적어도 하나를 표시할 수 있다. 과도 정보를 결정하는 프로세스는 상기 오디오 데이터에서 시간적 전력 변화를 평가하는 것을 수반할 수 있다.
상기 인코딩된 과도 정보는 과도 이벤트에 대응하는 과도 제어 값을 포함할 수 있다. 상기 과도 제어 값은 지수 감소 함수의 대상이 될 수 있다. 상기 과도 정보를 역상관 프로세스가 일시적으로 속도가 늦춰지거나 또는 중단되어야 함을 표시할 수 있다.
상기 과도 정보는 역상관 프로세스의 믹싱 비가 수정되어야 함을 표시할 수 있다. 예를 들면, 상기 과도 정보는 역상관 프로세스에서의 역상관의 양이 일시적으로 감소되어야 함을 표시할 수 있다.
몇몇 방법들은 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것 및 상기 오디오 데이터의 오디오 특성들을 결정하는 것을 수반할 수 있다. 상기 오디오 특성들은 공간 파라미터 데이터를 포함할 수 있다. 상기 방법들은 적어도 부분적으로, 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 것을 수반할 수 있다. 상기 역상관 필터링 프로세스들은 적어도 한 쌍의 채널들에 대한 채널-특정 역상관 신호들 사이에서 특정 역상관 신호-간 코히어런스("IDC")를 야기할 수 있다. 상기 역상관 필터링 프로세스들은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 적어도 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 채널-특정 역상관 신호들은 상기 필터링된 오디오 데이터에 대한 처리들(operations)을 실행함으로써 생성될 수 있다.
상기 방법들은 상기 채널-특정 역상관 신호들을 생성하기 위해 상기 오디오 데이터의 적어도 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 것, 적어도 부분적으로 상기 오디오 특성들에 기초하여 믹싱 파라미터들(mixing parameters)을 결정하는 것 및 상기 믹싱 파라미터들에 따라 상기 오디오 데이터의 직접 부분과 상기 채널-특정 역상관 신호들을 믹싱하는 것을 수반할 수 있다. 상기 직접 부분은 상기 역상관 필터가 적용되는 부분에 대응할 수 있다.
상기 방법은 또한 다수의 출력 채널들에 관한 정보를 수신하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 프로세스는 적어도 부분적으로 상기 출력 채널들의 수에 기초할 수 있다. 상기 수신 프로세스는 N개의 입력 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것을 수반할 수 있다. 상기 방법은 N개의 입력 오디오 채널들에 대한 오디오 데이터가 K개의 출력 오디오 채널들에 대한 오디오 데이터로 다운믹싱되거나 또는 업믹싱될 것임을 결정하는 것 및 상기 K개의 출력 오디오 채널들에 대응하는 역상관된 오디오 데이터를 생성하는 것을 수반할 수 있다.
상기 방법은 N개의 입력 오디오 채널들에 대한 상기 오디오 데이터를 M개의 중간 오디오 채널들에 대한 오디오 데이터로 다운믹싱하거나 또는 업믹싱하는 것, 상기 M개의 중간 오디오 채널들에 대한 역상관된 오디오 데이터를 생성하는 것 및 상기 M개의 중간 오디오 채널들에 대한 상기 역상관된 오디오 데이터를 K개의 출력 오디오 채널들에 대한 역상관된 오디오 데이터로 다운믹싱하거나 또는 업믹싱하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 두 개의 역상관 필터링 프로세스들을 결정하는 것은 적어도 부분적으로, 수 M의 중간 오디오 채널들에 기초할 수 있다. 역상관 필터링 프로세스들은 적어도 부분적으로, N-대-K, M-대-K 또는 N-대-M 믹싱 방정식들에 기초하여 결정될 수 있다.
상기 방법은 또한 복수의 오디오 채널 쌍들 사이에서 채널-간 코히어런스("ICC")를 제어하는 것을 수반할 수 있다. ICC를 제어하는 프로세스는 ICC 값을 수신하는 것 및 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 ICC 값을 결정하는 것 중 적어도 하나를 수반할 수 있다.
ICC를 제어하는 프로세스는 ICC 값들의 세트를 수신하는 것 또는 적어도 부분적으로 공간 파라미터 데이터에 기초하여 상기 ICC 값들의 세트를 결정하는 것 중 적어도 하나를 수반할 수 있다. 상기 방법은 또한 적어도 부분적으로 상기 ICC 값들의 세트에 기초하여 IDC 값들의 세트를 결정하는 것 및 상기 필터링된 오디오 데이터에 대한 처리들을 실행함으로써 상기 IDC 값들의 세트와 부합하는 채널-특정 역상관 신호들의 세트를 합성하는 것을 수반할 수 있다.
상기 방법은 또한 상기 공간 파라미터 데이터의 제 1 표현과 상기 공간 파라미터 데이터의 제 2 표현 사이에서의 변환의 프로세스를 수반할 수 있다. 상기 공간 파라미터 데이터의 제 1 표현은 개별 이산 채널들과 커플링 채널 사이에서의 코히어런스(coherence)의 표현을 포함할 수 있다. 상기 공간 파라미터 데이터의 제 2 표현은 개별 이산 채널들 사이에서의 코히어런스의 표현을 포함할 수 있다.
상기 오디오 데이터의 적어도 일 부분에 역상관 필터링 프로세스들을 적용하는 프로세스는 상기 필터링된 오디오 데이터를 생성하기 위해 복수의 채널들에 대한 오디오 데이터에 동일한 역상관 필터를 적용하는 것 및 -1로 좌측 채널 또는 우측 채널에 대응하는 상기 필터링된 오디오 데이터를 곱하는 것을 수반할 수 있다. 상기 방법은 또한 상기 좌측 채널에 대응하는 상기 필터링된 오디오 데이터를 참조하여 좌측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키는 것 및 상기 우측 채널에 대응하는 필터링된 오디오 데이터를 참조하여 우측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키는 것을 수반할 수 있다.
상기 오디오 데이터의 적어도 일 부분에 역상관 필터링 프로세스를 적용하는 프로세스는 제 1 채널 필터링된 데이터 및 제 2 채널 필터링된 데이터를 생성하기 위해 제 1 및 제 2 채널에 대한 오디오 데이터에 제 1 역상관 필터를 적용하는 것 및 제 3 채널 필터링된 데이터 및 제 4 채널 필터링된 데이터를 생성하기 위해 제 3 및 제 4 채널에 대한 오디오 데이터에 제 2 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 제 1 채널은 좌측 채널일 수 있고, 상기 제 2 채널은 우측 채널일 수 있고, 상기 제 3 채널은 좌측 서라운드 채널일 수 있으며 상기 제 4 채널은 우측 서라운드 채널일 수 있다. 상기 방법은 또한 상기 제 2 채널 필터링된 데이터에 대하여 상기 제 1 채널 필터링된 데이터의 극성을 반전시키는 것 및 상기 제 4 채널 필터링된 데이터에 대하여 상기 제 3 채널 필터링된 데이터의 극성을 반전시키는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 프로세스들은 상이한 역상관 필터가 중심 채널에 대한 오디오 데이터에 적용될 것인지를 결정하는 것 또는 역상관 필터가 중심 채널에 대한 오디오 데이터에 적용되지 않을 것인지를 결정하는 것을 수반할 수 있다.
상기 방법은 또한 채널-특정 스케일링 인자들 및 복수의 커플링된 채널들에 대응하는 커플링 채널 신호를 수신하는 것을 수반할 수 있다. 상기 적용 프로세스는 채널-특정 필터링된 오디오 데이터를 발생시키기 위해 상기 커플링 채널에 상기 역상관 필터링 프로세스들 중 적어도 하나를 적용하는 것 및 상기 채널-특정 역상관 신호들을 생성하기 위해 상기 채널-특정 필터링된 오디오 데이터에 상기 채널-특정 스케일링 인자들을 적용하는 것을 수반할 수 있다.
상기 방법은 또한 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 역상관 신호 합성 파라미터들을 결정하는 것을 수반할 수 있다. 상기 역상관 신호 합성 파라미터들은 출력-채널-특정 역상관 신호 합성 파라미터들일 수 있다. 상기 방법은 또한 복수의 커플링된 채널들에 대응하는 커플링 채널 신호 및 채널-특정 스케일링 인자들을 수신하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하며 상기 오디오 데이터의 일 부분에 역상관 필터링 프로세스들을 적용하는 프로세스들 중 적어도 하나는 커플링 채널 신호에 역상관 필터들의 세트를 적용함으로써 시드 역상관 신호들(seed decorrelation signals)의 세트를 발생시키는 것, 상기 시드 역상관 신호들을 합성기(synthesizer)에 전송하는 것, 채널-특정 합성된 역상관 신호들을 생성하기 위해 상기 합성기에 의해 수신된 상기 시드 역상관 신호들에 상기 출력-채널-특정 역상관 신호 합성 파라미터들을 적용하는 것, 스케일링된 채널-특정 합성된 역상관 신호들을 생성하기 위해 각각의 채널에 대해 적절한 채널-특정 스케일링 인자들로 상기 채널-특정 합성된 역상관 신호들을 곱하는 것 및 상기 스케일링된 채널-특정 합성된 역상관 신호들을 직접 신호 및 역상관 신호 믹서(direct signal and decorrelation signal mixer)에 출력하는 것을 수반할 수 있다.
상기 방법은 또한 채널-특정 스케일링 인자들을 수신하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하며 상기 오디오 데이터의 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스들 중 적어도 하나는: 상기 오디오 데이터에 역상관 필터들의 세트를 적용함으로써 채널-특정 시드 역상관 신호들의 세트를 발생시키는 것; 상기 채널-특정 시드 역상관 신호들을 합성기에 전송하는 것; 적어도 부분적으로 상기 채널-특정 스케일링 인자들에 기초하여 채널-쌍-특정 레벨 조정 파라미터들의 세트를 결정하는 것; 채널-특정 합성된 역상관 신호들을 생성하기 위해 상기 합성기에 의해 수신된 상기 채널-특정 시드 역상관 신호들에 상기 출력-채널-특정 역상관 신호 합성 파라미터들 및 상기 채널-쌍-특정 레벨 조정 파라미터들을 적용하는 것; 및 상기 채널-특정 합성된 역상관 신호들을 직접 신호 및 역상관 신호 믹서에 출력하는 것을 수반할 수 있다.
상기 출력-채널-특정 역상관 신호 합성 파라미터들을 결정하는 것은 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 IDC 값들의 세트를 결정하는 것 및 상기 IDC 값들의 세트와 부합하는 출력-채널-특정 역상관 신호 합성 파라미터들을 결정하는 것을 수반할 수 있다. 상기 IDC 값들의 세트는 적어도 부분적으로 개별 이산 채널들 및 커플링 채널 사이에서의 코히어런스 및 개별 이산 채널들의 쌍들 사이에서의 코히어런스에 따라 결정될 수 있다.
상기 믹싱 프로세스(mixing process)는 상기 오디오 데이터의 직접 부분과 상기 채널-특정 역상관 신호들을 결합하기 위해 비-계층적 믹서를 사용하는 것을 수반할 수 있다. 상기 오디오 특성들을 결정하는 단계는 상기 오디오 데이터와 함께 명시적 오디오 특성 정보를 수신하는 것을 수반할 수 있다. 상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터의 하나 이상의 속성들에 기초하여 오디오 특성 정보를 결정하는 것을 수반할 수 있다. 상기 공간 파라미터 데이터는 개별 이산 채널들 및 커플링 채널 사이에서의 코히어런스에 대한 표현 및/또는 개별 이산 채널들의 쌍들 사이에서의 코히어런스에 대한 표현을 포함할 수 있다. 상기 오디오 특성들은 조성 정보 또는 과도 정보 중 적어도 하나를 포함할 수 있다.
상기 믹싱 파라미터들을 결정하는 것은 적어도 부분적으로 상기 공간 파라미터 데이터에 기초할 수 있다. 상기 방법은 또한 상기 믹싱 파라미터들을 직접 신호 및 역상관 신호 믹서에 제공하는 것을 수반할 수 있다. 상기 믹싱 파라미터들은 출력-채널-특정 믹싱 파라미터들일 수 있다. 상기 방법은 또한 적어도 부분적으로 상기 출력-채널-특정 믹싱 파라미터들 및 과도 제어 정보에 기초하여 수정된 출력-채널-특정 믹싱 파라미터들을 결정하는 것을 수반할 수 있다.
몇몇 구현들에 따르면, 장치는 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하며 상기 오디오 데이터의 오디오 특성들을 결정하기 위해 구성된 인터페이스 및 로직 시스템을 포함할 수 있다. 상기 오디오 특성들은 공간 파라미터 데이터를 포함할 수 있다. 상기 로직 시스템은 적어도 부분적으로 오디오 특성들에 기초하여, 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하기 위해 구성될 수 있다. 상기 역상관 필터링 프로세스들은 적어도 한 쌍의 채널들에 대한 채널-특정 역상관 신호들 사이에서 특정 IDC를 야기할 수 있다. 역상관 필터링 프로세스들은 필터링된 오디오 데이터를 생성하기 위해 상기 오디오 데이터의 적어도 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 채널-특정 역상관 신호들은 상기 필터링된 오디오 데이터에 대한 처리들을 실행함으로써 생성될 수 있다.
상기 로직 시스템은 상기 채널-특정 역상관 신호들을 생성하기 위해 상기 오디오 데이터의 적어도 일 부분에 상기 역상관 필터링 프로세스들을 적용하고; 적어도 부분적으로 상기 오디오 특성들에 기초하여 믹싱 파라미터들을 결정하며 상기 믹싱 파라미터들에 따라 상기 오디오 데이터의 직접 부분과 상기 채널-특정 역상관 신호들을 믹싱하기 위해 구성될 수 있다. 상기 직접 부분은 상기 역상관 필터가 적용되는 부분에 대응할 수 있다.
상기 수신 프로세스는 출력 채널들의 수에 관한 정보를 수신하는 것을 수반할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 프로세스는 적어도 부분적으로, 상기 출력 채널들의 수에 기초할 수 있다. 예를 들면, 상기 수신 프로세스는 N개의 입력 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것을 수반할 수 있으며 상기 로직 시스템은 N개의 입력 오디오 채널들에 대한 오디오 데이터가 K개의 출력 오디오 채널들에 대한 오디오 데이터로 다운믹싱되거나 또는 업믹싱될 것임을 결정하며 상기 K개의 출력 오디오 채널들에 대응하는 역상관된 오디오 데이터를 생성하기 위해 구성될 수 있다.
상기 로직 시스템은 N개의 입력 오디오 채널들에 대한 오디오 데이터를 M개의 중간 오디오 채널들에 대한 오디오 데이터로 다운믹싱하거나 또는 업믹싱하고; 상기 M개의 중간 오디오 채널들에 대한 역상관된 오디오 데이터를 생성하며; 상기 M개의 중간 오디오 채널들에 대한 상기 역상관된 오디오 데이터를 K개의 출력 오디오 채널들에 대한 역상관된 오디오 데이터로 다운믹싱하거나 또는 업믹싱하기 위해 추가로 구성될 수 있다.
상기 역상관 필터링 프로세스들은 적어도 부분적으로 N-대-K 믹싱 방정식들에 기초하여 결정될 수 있다. 상기 오디오 데이터에 대한 두 개의 역상관 필터링 프로세스들을 결정하는 것은 적어도 부분적으로 수 M의 중간 오디오 채널들에 기초할 수 있다. 상기 역상관 필터링 프로세스들은 적어도 부분적으로 M-대-K 또는 N-대-M 믹싱 방정식들에 기초하여 결정될 수 있다.
상기 로직 시스템은 복수의 오디오 채널 쌍들 사이에서 ICC를 제어하기 위해 추가로 구성될 수 있다. ICC를 제어하는 프로세스는 ICC 값을 수신하는 것 또는 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 ICC 값을 결정하는 것 중 적어도 하나를 수반할 수 있다. 상기 로직 시스템은 적어도 부분적으로 ICC 값들의 세트에 기초하여 상기 IDC 값들의 세트를 결정하며 상기 필터링된 오디오 데이터에 대한 처리들을 실행함으로써 상기 IDC 값들의 세트와 부합하는 채널-특정 역상관 신호들의 세트를 합성하기 위해 추가로 구성될 수 있다.
상기 로직 시스템은 상기 공간 파라미터 데이터에 대한 제 1 표현 및 상기 공간 파라미터 데이터에 대한 제 2 표현 사이에서의 변환의 프로세스를 위해 추가로 구성될 수 있다. 상기 공간 파라미터 데이터에 대한 제 1 표현은 개별 이산 채널들 및 커플링 채널 사이에서의 코히어런스의 표현을 포함할 수 있다. 상기 공간 파라미터 데이터의 제 2 표현은 개별 이산 채널들 사이에서의 코히어런스의 표현을 포함할 수 있다.
상기 오디오 데이터의 적어도 일 부분에 역상관 필터링 프로세스들을 적용하는 프로세스는 필터링된 오디오 데이터를 생성하기 위해 복수의 채널들에 대한 오디오 데이터에 동일한 역상관 필터를 적용하는 것 및 -1로 좌측 채널 또는 우측 채널에 대응하는 상기 필터링된 오디오 데이터를 곱하는 것을 수반할 수 있다. 상기 로직 시스템은 좌-측면 채널에 대응하는 상기 필터링된 오디오 데이터를 참조하여 좌측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키며 상기 우-측면 채널에 대응하는 상기 필터링된 오디오 데이터를 참조하여 우측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키기 위해 추가로 구성될 수 있다.
상기 오디오 데이터의 적어도 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스는 제 1 채널 필터링된 데이터 및 제 2 채널 필터링된 데이터를 생성하기 위해 제 1 및 제 2 채널에 대한 오디오 데이터에 제 1 역상관 필터를 적용하는 것, 및 제 3 채널 필터링된 데이터 및 제 4 채널 필터링된 데이터를 생성하기 위해 제 3 및 제 4 채널에 대한 오디오 데이터에 제 2 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 제 1 채널은 좌-측면 채널일 수 있고, 상기 제 2 채널은 우-측면 채널일 수 있고, 상기 제 3 채널은 좌측 서라운드 채널일 수 있으며 상기 제 4 채널은 우측 서라운드 채널일 수 있다.
상기 로직 시스템은 상기 제 2 채널 필터링된 데이터에 대하여 상기 제 1 채널 필터링된 데이터의 극성을 반전시키며 상기 제 4 채널 필터링된 데이터에 대하여 상기 제 3 채널 필터링된 데이터의 극성을 반전시키기 위해 추가로 구성될 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 프로세스들은 상이한 역상관 필터가 중심 채널에 대한 오디오 데이터에 적용될 것임을 결정하는 것 또는 역상관 필터가 상기 중심 채널에 대한 상기 오디오 데이터에 적용되지 않을 것임을 결정하는 것을 수반할 수 있다.
상기 로직 시스템은 상기 인터페이스로부터 채널-특정 스케일링 인자들 및 복수의 커플링된 채널들에 대응하는 커플링 채널 신호를 수신하기 위해 추가로 구성될 수 있다. 상기 적용 프로세스는 채널-특정 필터링된 오디오 데이터를 발생시키기 위해 상기 커플링 채널에 상기 역상관 필터링 프로세스들 중 적어도 하나를 적용하는 것 및 상기 채널-특정 역상관 신호들을 생성하기 위해 상기 채널-특정 필터링된 오디오 데이터에 상기 채널-특정 스케일링 인자들을 적용하는 것을 수반할 수 있다.
상기 로직 시스템은 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 역상관 신호 합성 파라미터들을 결정하기 위해 추가로 구성될 수 있다. 상기 역상관 신호 합성 파라미터들은 출력-채널-특정 역상관 신호 합성 파라미터들일 수 있다. 상기 로직 시스템은 상기 인터페이스를 통해, 복수의 커플링된 채널들에 대응하는 커플링 채널 신호 및 채널-특정 스케일링 인자들을 수신하기 위해 추가로 구성될 수 있다.
상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하며 상기 오디오 데이터의 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스들 중 적어도 하나는: 상기 커플링 채널 신호에 역상관 필터들의 세트를 적용함으로써 시드 역상관 신호들의 세트를 발생시키는 것; 상기 시드 역상관 신호들을 합성기에 전송하는 것; 채널-특정 합성된 역상관 신호들을 생성하기 위해 상기 합성기에 의해 수신된 상기 시드 역상관 신호들에 상기 출력-채널-특정 역상관 신호 합성 파라미터들을 적용하는 것; 스케일링된 채널-특정 합성된 역상관 신호들을 생성하기 위해 각각의 채널에 대해 적절한 채널-특정 스케일링 인자들과 상기 채널-특정 합성된 역상관 신호들을 곱하는 것; 및 상기 스케일링된 채널-특정 합성된 역상관 신호들을 직접 신호 및 역상관 신호 믹서에 출력하는 것을 수반할 수 있다.
상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하며 상기 오디오 데이터의 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스들 중 적어도 하나는: 상기 오디오 데이터에 채널-특정 역상관 필터들의 세트를 적용함으로써 채널-특정 시드 역상관 신호들의 세트를 발생시키는 것; 상기 채널-특정 시드 역상관 신호들을 합성기에 전송하는 것; 적어도 부분적으로 상기 채널-특정 스케일링 인자들에 기초하여 채널-쌍-특정 레벨 조정 파라미터들을 결정하는 것; 채널-특정 합성된 역상관 신호들을 생성하기 위해 상기 합성기에 의해 수신된 상기 채널-특정 시드 역상관 신호들에 상기 출력-채널-특정 역상관 신호 합성 파라미터들 및 상기 채널-쌍-특정 레벨 조정 파라미터들을 적용하는 것; 및 상기 채널-특정 합성된 역상관 신호들을 직접 신호 및 역상관 신호 믹서에 출력하는 것을 수반할 수 있다.
상기 출력-채널-특정 역상관 신호 합성 파라미터들을 결정하는 것은 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 IDC 값들의 세트를 결정하는 것 및 상기 IDC 값들의 세트와 부합하는 출력-채널-특정 역상관 신호 합성 파라미터들을 결정하는 것을 수반할 수 있다. 상기 IDC 값들의 세트는 적어도 부분적으로, 개별 이산 채널들 및 커플링 채널 사이에서의 코히어런스 및 개별 이산 채널들의 쌍들 사이에서의 코히어런스에 따라 결정될 수 있다.
상기 믹싱 프로세스는 상기 오디오 데이터의 직접 부분과 채널-특정 역상관 신호들을 결합하기 위해 비-계층적 믹서를 사용하는 것을 수반할 수 있다. 상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터와 함께 명시적 오디오 특성 정보를 수신하는 단계를 수반할 수 있다. 상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터의 하나 이상의 속성들에 기초하여 오디오 특성 정보를 결정하는 것을 수반할 수 있다. 상기 오디오 특성들은 조성 정보 및/또는 과도 정보를 포함할 수 있다.
상기 공간 파라미터 데이터는 개별 이산 채널들 및 커플링 채널 사이에서의 코히어런스에 대한 표현 및/또는 개별 이산 채널들의 쌍들 사이에서의 코히어런스에 대한 표현을 포함할 수 있다. 믹싱 파라미터들을 결정하는 것은 적어도 부분적으로 상기 공간 파라미터 데이터에 기초할 수 있다.
상기 로직 시스템은 믹싱 파라미터들을 직접 신호 및 역상관 신호 믹서에 제공하기 위해 추가로 구성될 수 있다. 상기 믹싱 파라미터들은 출력-채널-특정 믹싱 파라미터들일 수 있다. 상기 로직 시스템은 적어도 부분적으로 상기 출력-채널-특정 믹싱 파라미터들 및 과도 제어 정보에 기초하여 수정된 출력-채널-특정 믹싱 파라미터들을 결정하기 위해 추가로 구성될 수 있다.
상기 장치는 메모리 디바이스를 포함할 수 있다. 상기 인터페이스는 로직 시스템 및 메모리 디바이스 사이에서의 인터페이스일 수 있다. 그러나, 상기 인터페이스는 네트워크 인터페이스일 수 있다.
본 개시의 몇몇 양상들은 소프트웨어를 저장한 비-일시적 매체에 구현될 수 있다. 상기 소프트웨어는 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하기 위해 및 상기 오디오 데이터의 오디오 특성들을 결정하기 위해 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 특성들은 공간 파라미터 데이터를 포함할 수 있다. 상기 소프트웨어는 적어도 부분적으로 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하기 위해 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 역상관 필터링 프로세스들은 적어도 한 쌍의 채널들에 대한 채널-특정 역상관 신호들 사이에서 특정 IDC를 야기할 수 있다. 상기 역상관 필터링 프로세스들은 필터링된 오디오 데이터를 생성하기 위해 오디오 데이터의 적어도 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 채널-특정 역상관 신호들은 필터링된 오디오 데이터에 대한 처리들을 실행함으로써 생성될 수 있다.
상기 소프트웨어는 채널-특정 역상관 신호들을 생성하기 위해 상기 오디오 데이터의 적어도 일 부분에 역상관 필터링 프로세스들을 적용하고; 적어도 부분적으로, 상기 오디오 특성들에 기초하여 믹싱 파라미터들을 결정하며; 상기 믹싱 파라미터들에 따라 상기 오디오 데이터의 직접 부분과 상기 채널-특정 역상관 신호들을 믹싱하기 위해 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 직접 부분은 상기 역상관 필터가 적용되는 상기 부분에 대응할 수 있다.
상기 소프트웨어는 출력 채널들의 수에 관한 정보를 수신하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 프로세스는 적어도 부분적으로, 출력 채널들의 수에 기초할 수 있다. 예를 들면, 상기 수신 프로세스는 N개의 입력 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것을 수반할 수 있다. 상기 소프트웨어는 N개의 입력 오디오 채널들에 대한 오디오 데이터가 K개의 출력 오디오 채널들에 대한 오디오 데이터로 다운믹싱되거나 또는 업믹싱될 것임을 결정하도록 및 상기 K개의 출력 오디오 채널들에 대응하는 역상관된 오디오 데이터를 생성하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다.
상기 소프트웨어는 N개의 입력 오디오 채널들에 대한 오디오 데이터를 M개의 중간 오디오 채널들에 대한 오디오 데이터로 다운믹싱하거나 또는 업믹싱하고; M개의 중간 오디오 채널들에 대한 역상관된 오디오 데이터를 생성하며; 상기 M개의 중간 오디오 채널들에 대한 상기 역상관된 오디오 데이터를 K개의 출력 오디오 채널들에 대한 역상관된 오디오 데이터로 다운믹싱하거나 또는 업믹싱하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다.
상기 오디오 데이터에 대한 두 개의 역상관 필터링 프로세스들을 결정하는 것은 적어도 부분적으로 수 M의 중간 오디오 채널들에 기초할 수 있다. 상기 역상관 필터링 프로세스들은 적어도 부분적으로 N-대-K, M-대-K 또는 N-대-M 믹싱 방정식들에 기초하여 결정될 수 있다.
상기 소프트웨어는 복수의 오디오 채널 쌍들 사이에서 ICC를 제어하는 프로세스를 실행하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. ICC를 제어하는 프로세스는 ICC 값을 수신하는 것 및/또는 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 ICC 값을 결정하는 것을 수반할 수 있다. ICC를 제어하는 프로세스는 ICC 값들의 세트를 수신하는 것 또는 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 상기 ICC 값들의 세트를 결정하는 것 중 적어도 하나를 수반할 수 있다. 상기 소프트웨어는 적어도 부분적으로 상기 ICC 값들의 세트에 기초하여 IDC 값들의 세트를 결정하며 상기 필터링된 오디오 데이터에 대한 처리들을 실행함으로써 상기 IDC 값들의 세트와 부합하는 채널-특정 역상관 신호들의 세트를 합성하는 프로세스들을 실행하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다.
상기 오디오 데이터의 적어도 일부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스는 상기 필터링된 오디오 데이터를 생성하기 위해 복수의 채널들에 대한 오디오 데이터에 동일한 역상관 필터를 적용하는 것 및 -1로 좌측 채널 또는 우측 채널에 대응하는 상기 필터링된 오디오 데이터를 곱하는 것을 수반할 수 있다. 상기 소프트웨어는 상기 좌-측면 채널에 대응하는 상기 필터링된 오디오 데이터를 참조하여 좌측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키며 상기 우-측면 채널에 대응하는 상기 필터링된 오디오 데이터를 참조하여 우측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키는 프로세스들을 실행하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다.
상기 오디오 데이터의 일 부분에 상기 역상관 필터를 적용하는 프로세스는 제 1 채널 필터링된 데이터 및 제 2 채널 필터링된 데이터를 생성하기 위해 제 1 및 제 2 채널에 대한 오디오 데이터에 제 1 역상관 필터를 적용하는 것 및 제 3 채널 필터링된 데이터 및 제 4 채널 필터링된 데이터를 생성하기 위해 제 3 및 제 4 채널에 대한 오디오 데이터에 제 2 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 제 1 채널은 좌-측면 채널일 수 있고, 상기 제 2 채널은 우-측면 채널일 수 있고, 상기 제 3 채널은 좌측 서라운드 채널일 수 있으며 제 4 채널은 우측 서라운드 채널일 수 있다.
상기 소프트웨어는 상기 제 2 채널 필터링된 데이터에 대하여 상기 제 1 채널 필터링된 데이터의 극성을 반전시키며 상기 제 4 채널 필터링된 데이터에 대하여 상기 제 3 채널 필터링된 데이터의 극성을 반전시키는 프로세스들을 실행하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 프로세스들은 상이한 역상관 필터가 중심 채널에 대한 오디오 데이터에 적용될 것임을 결정하는 것 또는 역상관 필터가 상기 중심 채널에 대한 오디오 데이터에 적용되지 않을 것임을 결정하는 것을 수반할 수 있다.
상기 소프트웨어는 채널-특정 스케일링 인자들 및 복수의 커플링된 채널들에 대응하는 커플링 채널 신호를 수신하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 적용 프로세스는 채널-특정 필터링된 오디오 데이터를 발생시키기 위해 상기 커플링 채널에 상기 역상관 필터링 프로세스들 중 적어도 하나를 적용하는 것 및 상기 채널-특정 역상관 신호들을 생성하기 위해 상기 채널-특정 필터링된 오디오 데이터에 상기 채널-특정 스케일링 인자들을 적용하는 것을 수반할 수 있다.
상기 소프트웨어는 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 역상관 신호 합성 파라미터들을 결정하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 역상관 신호 합성 파라미터들은 출력-채널-특정 역상관 신호 합성 파라미터들일 수 있다. 상기 소프트웨어는 복수의 커플링된 채널들에 대응하는 커플링 채널 신호 및 채널-특정 스케일링 인자들을 수신하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하며 상기 오디오 데이터의 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스들 중 적어도 하나는: 커플링 채널 신호에 역상관 필터들의 세트를 적용함으로써 시드 역상관 신호들의 세트를 발생시키는 것; 상기 시드 역상관 신호들을 합성기에 전송하는 것; 채널-특정 합성된 역상관 신호들을 생성하기 위해 상기 합성기에 의해 수신된 상기 시드 역상관 신호들에 상기 출력-채널-특정 역상관 신호 합성 파라미터들을 적용하는 것; 스케일링된 채널-특정 합성된 역상관 신호들을 생성하기 위해 각각의 채널에 대해 적절한 채널-특정 스케일링 인자들과 상기 채널-특정 합성된 역상관 신호들을 곱하는 것; 및 상기 스케일링된 채널-특정 합성된 역상관 신호들을 직접 신호 및 역상관 신호 믹서에 출력하는 것을 수반할 수 있다.
상기 소프트웨어는 복수의 커플링된 채널들에 대응하는 커플링 채널 신호 및 채널-특정 스케일링 인자들을 수신하도록 상기 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하며 상기 오디오 데이터의 일 부분에 상기 역상관 필터링 프로세스들을 적용하는 프로세스들 중 적어도 하나는: 상기 오디오 데이터에 채널-특정 역상관 필터들의 세트를 적용함으로써 채널-특정 시드 역상관 신호들의 세트를 발생시키는 것; 상기 채널-특정 시드 역상관 신호들을 합성기에 전송하는 것; 적어도 부분적으로, 상기 채널-특정 스케일링 인자들에 기초하여 채널-쌍-특정 레벨 조정 파라미터들을 결정하는 것; 채널-특정 합성된 역상관 신호들을 생성하기 위해 상기 합성기에 의해 수신된 상기 채널-특정 시드 역상관 신호들에 상기 출력-채널-특정 역상관 신호 합성 파라미터들 및 상기 채널-쌍-특정 레벨 조정 파라미터들을 적용하는 것; 및 상기 채널-특정 합성된 역상관 신호들을 직접 신호 및 역상관 신호 믹서에 출력하는 것을 수반할 수 있다.
상기 출력-채널-특정 역상관 신호 합성 파라미터들을 결정하는 것은 적어도 부분적으로 상기 공간 파라미터 데이터에 기초하여 IDC 값들의 세트를 결정하는 것 및 상기 IDC 값들의 세트와 부합하는 출력-채널-특정 역상관 신호 합성 파라미터들을 결정하는 것을 수반할 수 있다. 상기 IDC 값들의 세트는 적어도 부분적으로 개별 이산 채널들 및 커플링 채널 사이에서의 코히어런스 및 개별 이산 채널들의 쌍들 사이에서의 코히어런스에 따라, 결정될 수 있다.
몇몇 구현들에서, 방법은: 제 1 세트의 주파수 계수들 및 제 2 세트의 주파수 계수들을 포함한 오디오 데이터를 수신하는 것; 상기 제 1 세트의 주파수 계수들에 적어도 부분적으로 기초하여, 상기 제 2 세트의 주파수 계수들의 적어도 일부에 대한 공간 파라미터들을 추정하는 것; 및 수정된 제 2 세트의 주파수 계수들을 발생시키기 위해 상기 제 2 세트의 주파수 계수들에 상기 추정된 공간 파라미터들을 적용하는 것을 수반할 수 있다. 상기 제 1 세트의 주파수 계수들은 제 1 주파수 범위에 대응할 수 있으며 상기 제 2 세트의 주파수 계수들은 제 2 주파수 범위에 대응할 수 있다. 상기 제 1 주파수 범위는 상기 제 2 주파수 범위 아래에 있을 수 있다.
상기 오디오 데이터는 커플링 채널 및 개개의 채널들에 대응하는 데이터를 포함할 수 있다. 상기 제 1 주파수 범위는 개개의 채널 주파수 범위에 대응할 수 있으며 상기 제 2 주파수 범위는 커플링 채널 주파수 범위에 대응할 수 있다. 상기 적용 프로세스는 채널 기반으로 상기 추정된 공간 파라미터들을 적용하는 것을 수반할 수 있다.
상기 오디오 데이터는 둘 이상의 채널들에 대한 상기 제 1 주파수 범위에서의 주파수 계수들을 포함할 수 있다. 상기 추정 프로세스는 둘 이상의 채널들의 주파수 계수들에 기초하여 복합 커플링 채널의 결합된 주파수 계수들을 산출하는 것 및 적어도 제 1 채널에 대해, 상기 제 1 채널의 주파수 계수들 및 상기 결합된 주파수 계수들 사이에서의 교차-상관(cross-correlation) 계수들을 계산하는 것을 수반할 수 있다. 상기 결합된 주파수 계수들은 상기 제 1 주파수 범위에 대응할 수 있다.
상기 교차-상관 계수들은 정규화된 교차-상관 계수들일 수 있다. 상기 제 1 세트의 주파수 계수들은 복수의 채널들에 대한 오디오 데이터를 포함할 수 있다. 상기 추정 프로세스는 상기 복수의 채널들의 다수의 채널들에 대한 정규화된 교차-상관 계수들을 추정하는 것을 수반할 수 있다. 상기 추정 프로세스는 상기 제 1 주파수 범위의 적어도 일부를 제 1 주파수 범위 대역들로 분할하는 것 및 각각의 제 1 주파수 범위 대역에 대한 정규화된 교차-상관 계수를 계산하는 것을 수반할 수 있다.
몇몇 구현들에서, 상기 추정 프로세스는 채널의 상기 제 1 주파수 범위 대역들의 모두에 걸쳐 상기 정규화된 교차-상관 계수들을 평균화하는 것 및 상기 채널에 대한 상기 추정된 공간 파라미터들을 획득하기 위해 상기 정규화된 교차-상관 계수들의 평균에 스케일링 인자를 적용하는 것을 수반할 수 있다. 상기 정규화된 교차-상관 계수들을 평균화하는 프로세스는 채널의 시간 세그먼트에 걸쳐 평균화하는 것을 수반할 수 있다. 상기 스케일링 인자는 증가하는 주파수에 따라 감소할 수 있다.
상기 방법은 상기 추정된 공간 파라미터들의 분산을 모델링하기 위해 잡음의 부가를 수반할 수 있다. 부가된 잡음의 분산은 적어도 부분적으로 상기 정규화된 교차-상관 계수들에서의 분산에 기초할 수 있다. 부가된 잡음의 분산은 적어도 부분적으로 대역들에 걸친 공간 파라미터의 예측에 의존할 수 있으며 상기 예측에 대한 분산의 의존성은 경험적 데이터에 기초한다.
상기 방법은 제 2 세트의 주파수 계수들에 관한 조성 정보를 수신하거나 또는 결정하는 것을 수반할 수 있다. 상기 적용된 잡음은 상기 조성 정보에 따라 달라질 수 있다.
상기 방법은 상기 제 1 세트의 주파수 계수들의 대역들 및 상기 제 2 세트의 주파수 계수들의 대역들 사이에서의 대역-당 에너지 비들을 측정하는 것을 수반할 수 있다. 상기 추정된 공간 파라미터들은 대역-당 에너지 비들에 따라 달라질 수 있다. 몇몇 구현들에서, 상기 추정된 공간 파라미터들은 입력 오디오 신호들의 시간적 변화들에 따라 달라질 수 있다. 상기 추정 프로세스는 단지 실수값의 주파수 계수들에 대한 처리들을 수반할 수 있다.
상기 제 2 세트의 주파수 계수들에 상기 추정된 공간 파라미터들을 적용하는 프로세스는 역상관 프로세스의 일부일 수 있다. 몇몇 구현들에서, 상기 역상관 프로세스는 리버브 신호 또는 역상관 신호를 발생시키는 것 및 그것을 상기 제 2 세트의 주파수 계수들에 적용하는 것을 수반할 수 있다. 상기 역상관 프로세스는 전적으로 실수값의 계수들 상에서 동작하는 역상관 알고리즘을 적용하는 것을 수반할 수 있다. 상기 역상관 프로세스는 특정 채널들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 상기 역상관 프로세스는 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다. 몇몇 구현들에서, 상기 제 1 및 제 2 세트들의 주파수 계수들은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환을 시간 도메인에서의 오디오 데이터에 적용한 결과들일 수 있다.
상기 추정 프로세스는 적어도 부분적으로 추정 이론에 기초할 수 있다. 예를 들면, 상기 추정 프로세스는 적어도 부분적으로, 최대 우도 방법, 베이즈(Bayes) 추정기, 모멘트 추정기, 최소 평균 제곱 에러 추정기 또는 최소 분산 언바이어싱된 추정기의 방법 중 적어도 하나에 기초할 수 있다.
몇몇 구현들에서, 상기 오디오 데이터는 레거시 인코딩 프로세스에 따라 인코딩된 비트스트림에서 수신될 수 있다. 상기 레거시 인코딩 프로세스는 예를 들면, AC-3 오디오 코덱 또는 강화된 AC-3 오디오 코덱의 프로세스일 수 있다. 공간 파라미터들을 적용하는 것은 레거시 인코딩 프로세스와 부합하는 레거시 디코딩 프로세스에 따라 비트스트림을 디코딩함으로써 획득된 것보다 더 공간적으로 정확한 오디오 재생을 생성할 수 있다.
몇몇 구현들은 인터페이스 및 로직 시스템을 포함하는 장치를 수반한다. 상기 로직 시스템은 제 1 세트의 주파수 계수들 및 제 2 세트의 주파수 계수들을 포함한 오디오 데이터를 수신하고; 상기 제 1 세트의 주파수 계수들의 적어도 일부에 기초하여, 상기 제 2 세트의 주파수 계수들의 적어도 일부에 대한 공간 파라미터들을 추정하며; 수정된 제 2 세트의 주파수 계수들을 발생시키기 위해 상기 제 2 세트의 주파수 계수들에 상기 추정된 공간 파라미터들을 적용하기 위해 구성될 수 있다.
상기 장치는 메모리 디바이스를 포함할 수 있다. 상기 인터페이스는 상기 로직 시스템 및 상기 메모리 디바이스 사이에서의 인터페이스일 수 있다. 그러나, 상기 인터페이스는 네트워크 인터페이스일 수 있다.
상기 제 1 세트의 주파수 계수들은 제 1 주파수 범위에 대응할 수 있으며 상기 제 2 세트의 주파수 계수들은 제 2 주파수 범위에 대응할 수 있다. 상기 제 1 주파수 범위는 상기 제 2 주파수 범위 아래에 있을 수 있다. 상기 오디오 데이터는 커플링된 채널 및 개개의 채널들에 대응하는 데이터를 포함할 수 있다. 상기 제 1 주파수 범위는 개개의 채널 주파수 범위에 대응할 수 있으며 상기 제 2 주파수 범위는 커플링 채널 주파수 범위에 대응할 수 있다.
상기 적용 프로세스는 채널 기반으로 상기 추정된 공간 파라미터들을 적용하는 단계를 수반할 수 있다. 상기 오디오 데이터는 둘 이상의 채널들에 대한 상기 제 1 주파수 범위에서의 주파수 계수들을 포함할 수 있다. 상기 추정 프로세스는 상기 둘 이상의 채널들의 주파수 계수들에 기초하여 복합 커플링 채널의 결합된 주파수 계수들을 산출하는 것 및 적어도 제 1 채널에 대해, 상기 제 1 채널의 주파수 계수들 및 상기 결합된 주파수 계수들 사이에서 교차-상관 계수들을 계산하는 것을 수반할 수 있다.
상기 결합된 주파수 계수들은 상기 제 1 주파수 범위에 대응할 수 있다. 상기 교차-상관 계수들은 정규화된 교차-상관 계수들일 수 있다. 상기 제 1 세트의 주파수 계수들은 복수의 채널들에 대한 오디오 데이터를 포함할 수 있다. 상기 추정 프로세스는 상기 복수의 채널들의 다수의 채널들의 정규화된 교차-상관 계수들을 추정하는 것을 수반할 수 있다.
상기 추정 프로세스는 상기 제 2 주파수 범위를 제 2 주파수 범위 대역들로 분할하는 것 및 각각의 제 2 주파수 범위 대역에 대한 정규화된 교차-상관 계수를 계산하는 것을 수반할 수 있다. 상기 추정 프로세스는 상기 제 1 주파수 범위를 제 1 주파수 범위 대역들로 분할하는 것, 상기 제 1 주파수 범위 대역들의 모두에 걸쳐 상기 정규화된 교차-상관 계수들을 평균화하는 것 및 상기 추정된 공간 파라미터들을 획득하기 위해 상기 정규화된 교차-상관 계수들의 평균에 스케일링 인자를 적용하는 것을 수반할 수 있다.
상기 정규화된 교차-상관 계수들을 평균화하는 프로세스는 채널의 시간 세그먼트에 걸쳐 평균화하는 것을 수반할 수 있다. 상기 로직 시스템은 상기 수정된 제 2 세트의 주파수 계수들로의 잡음의 부가를 위해 추가로 구성될 수 있다. 잡음의 부가는 상기 추정된 공간 파라미터들의 분산을 모델링하기 위해 부가될 수 있다. 상기 로직 시스템에 의해 부가된 잡음의 분산은 적어도 부분적으로, 정규화된 교차-상관 계수들에서의 분산에 기초할 수 있다. 상기 로직 시스템은 상기 제 2 세트의 주파수 계수들에 관한 조성 정보를 수신하거나 또는 결정하며 상기 조성 정보에 따라 상기 적용된 잡음을 변경하기 위해 추가로 구성될 수 있다.
몇몇 구현들에서, 상기 오디오 데이터는 레거시 인코딩 프로세스에 따라 인코딩된 비트스트림에서 수신될 수 있다. 예를 들면, 상기 레거시 인코딩 프로세스는 AC-3 오디오 코덱 또는 강화된 AC-3 오디오 코덱의 프로세스일 수 있다.
본 개시의 몇몇 양상들은 소프트웨어를 저장한 비-일시적 매체에 구현될 수 있다. 상기 소프트웨어는 제 1 세트의 주파수 계수들 및 제 2 세트의 주파수 계수들을 포함한 오디오 데이터를 수신하고; 상기 제 1 세트의 주파수 계수들의 적어도 일부에 기초하여, 상기 제 2 세트의 주파수 계수들의 적어도 일부에 대한 공간 파라미터들을 추정하며; 수정된 제 2 세트의 주파수 계수들을 발생시키기 위해 상기 추정된 공간 파라미터들을 상기 제 2 세트의 주파수 계수들에 적용하기 위해 장치를 제어하기 위한 지시들을 포함할 수 있다.
상기 제 1 세트의 주파수 계수들은 제 1 주파수 범위에 대응할 수 있으며 상기 제 2 세트의 주파수 계수들은 제 2 주파수 범위에 대응할 수 있다. 상기 오디오 데이터는 커플링 채널 및 개개의 채널들에 대응하는 데이터를 포함할 수 있다. 상기 제 1 주파수 범위는 개개의 채널 주파수 범위에 대응할 수 있으며 상기 제 2 주파수 범위는 커플링 채널 주파수 범위에 대응할 수 있다. 상기 제 1 주파수 범위는 상기 제 2 주파수 범위 아래에 있을 수 있다.
상기 적용 프로세스는 채널 기반으로 상기 추정된 공간 파라미터들을 적용하는 것을 수반할 수 있다. 상기 오디오 데이터는 둘 이상의 채널들에 대한 상기 제 1 주파수 범위에서의 주파수 계수들을 포함할 수 있다. 상기 추정 프로세스는 상기 둘 이상의 채널들의 주파수 계수들에 기초하여 복합 커플링 채널의 결합된 주파수 계수들을 산출하는 것 및 적어도 제 1 채널에 대해, 상기 제 1 채널의 주파수 계수들 및 상기 결합된 주파수 계수들 사이에서 교차-상관 계수들을 계산하는 것을 수반할 수 있다.
상기 결합된 주파수 계수들은 상기 제 1 주파수 범위에 대응할 수 있다. 상기 교차-상관 계수들은 정규화된 교차-상관 계수들일 수 있다. 상기 제 1 세트의 주파수 계수들은 복수의 채널들에 대한 오디오 데이터를 포함할 수 있다. 상기 추정 프로세스는 상기 복수의 채널들의 다수의 채널들의 정규화된 교차-상관 계수들을 추정하는 것을 수반할 수 있다. 상기 추정 프로세스는 상기 제 2 주파수 범위를 제 2 주파수 범위 대역들로 분할하는 것 및 각각의 제 2 주파수 범위 대역에 대한 정규화된 교차-상관 계수를 계산하는 것을 수반할 수 있다.
상기 추정 프로세스는: 상기 제 1 주파수 범위를 제 1 주파수 범위 대역들로 분할하는 것; 상기 제 1 주파수 범위 대역들의 모두에 걸쳐 상기 정규화된 교차-상관 계수들을 평균화하는 것; 및 상기 추정된 공간 파라미터들을 획득하기 위해 스케일링 인자를 상기 정규화된 교차-상관 계수들의 평균에 적용하는 것을 수반할 수 있다. 상기 정규화된 교차-상관 계수들을 평균화하는 프로세스는 채널의 시간 세그먼트에 걸쳐 평균화하는 것을 수반할 수 있다.
상기 소프트웨어는 또한 상기 추정된 공간 파라미터들의 분산을 모델링하기 위해 상기 수정된 제 2 세트의 주파수 계수들에 잡음을 부가하도록 상기 디코딩 장치를 제어하기 위한 지시들을 포함할 수 있다. 부가된 잡음의 분산은 적어도 부분적으로 상기 정규화된 교차-상관 계수들에서의 분산에 기초할 수 있다. 상기 소프트웨어는 또한 상기 제 2 세트의 주파수 계수들에 관한 조성 정보를 수신하거나 또는 결정하도록 상기 디코딩 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 적용된 잡음은 상기 조성 정보에 따라 달라질 수 있다.
몇몇 구현들에서, 상기 오디오 데이터는 레거시 인코딩 프로세스에 따라 인코딩된 비트스트림에서 수신될 수 있다. 예를 들면, 상기 레거시 인코딩 프로세스는 AC-3 오디오 코덱 또는 강화된 AC-3 오디오 코덱의 프로세스일 수 있다.
몇몇 구현들에 따르면, 방법은: 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것; 상기 오디오 데이터의 오디오 특성들을 결정하는 것; 적어도 부분적으로, 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 역상관 필터 파라미터들을 결정하는 것; 상기 역상관 필터 파라미터들에 따라 역상관 필터를 형성하는 것; 및 상기 오디오 데이터의 적어도 일부에 상기 역상관 필터를 적용하는 것을 수반할 수 있다. 예를 들면, 상기 오디오 특성들은 조성 정보 및/또는 과도 정보를 포함할 수 있다.
상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터와 함께 명시적 조성 정보 또는 과도 정보를 수신하는 것을 수반할 수 있다. 상기 오디오 특성들을 결정하는 것은 상기 오디오 데이터의 하나 이상의 속성들에 기초하여 조성 정보 또는 과도 정보를 결정하는 것을 수반할 수 있다.
몇몇 구현들에서, 상기 역상관 필터는 적어도 하나의 지연 요소를 가진 선형 필터를 포함할 수 있다. 상기 역상관 필터는 전-통과 필터를 포함할 수 있다.
상기 역상관 필터 파라미터들은 상기 전-통과 필터의 적어도 하나의 극점에 대한 디더링 파라미터들 또는 랜덤하게 선택된 극점 위치들을 포함할 수 있다. 예를 들면, 상기 디더링 파라미터들 또는 극점 위치들은 극점 움직임에 대한 최대 스트라이드 값을 수반할 수 있다. 상기 최대 스트라이드 값은 상기 오디오 데이터의 고도 계조 신호들에 대해 실질적으로 0일 수 있다. 상기 디더링 파라미터들 또는 극점 위치들은 극점 움직임들이 제한되는 제한 면적들에 의해 한계가 이루어질 수 있다. 몇몇 구현들에서, 제한 면적들은 원들 또는 환형일 수 있다. 몇몇 구현들에서, 제한 면적들은 고정될 수 있다. 몇몇 구현들에서, 오디오 데이터의 상이한 채널들은 동일한 제한 면적들을 공유할 수 있다.
몇몇 구현들에 따르면, 극점들은 각각의 채널에 대해 독립적으로 디더링될 수 있다. 몇몇 구현들에서, 극점들의 모션들은 제한 면적들에 의해 한계가 이루어지지 않을 수 있다. 몇몇 구현들에서, 극점들은 서로에 대해 실질적으로 일관된 공간 또는 각도 관계를 유지할 수 있다. 몇몇 구현들에 따르면, 극점에서 z-평면 원의 중심으로의 거리는 오디오 데이터 주파수의 함수일 수 있다.
몇몇 구현들에서, 장치는 인터페이스 및 로직 시스템을 포함할 수 있다. 몇몇 구현들에서, 상기 로직 시스템은 범용 단일- 또는 다중-칩 프로세서, 디지털 신호 프로세서(DSP), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA) 또는 다른 프로그램 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직 및/또는 이산 하드웨어 구성요소들을 포함할 수 있다.
상기 로직 시스템은 상기 인터페이스로부터, 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하며 상기 오디오 데이터의 오디오 특성들을 결정하기 위해 구성될 수 있다. 몇몇 구현들에서, 상기 오디오 특성들은 조성 정보 및/또는 과도 정보를 포함할 수 있다. 상기 로직 시스템은 적어도 부분적으로 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 역상관 필터 파라미터들을 결정하고, 상기 역상관 필터 파라미터들에 따라 역상관 필터를 형성하며 상기 역상관 필터를 상기 오디오 데이터의 적어도 일부에 적용하기 위해 구성될 수 있다.
상기 역상관 필터는 적어도 하나의 지연 요소를 가진 선형 필터를 포함할 수 있다. 상기 역상관 필터 파라미터들은 상기 역상관 필터의 적어도 하나의 극점에 대한 디더링 파라미터들 또는 랜덤하게 선택된 극점 위치들을 포함할 수 있다. 상기 디더링 파라미터들 또는 극점 위치들은 극점 움직임들이 제한되는 제한 면적들에 의해 한계가 이루어질 수 있다. 상기 디더링 파라미터들 또는 극점 위치들은 극점 움직임에 대한 최대 스트라이드 값을 참조하여 결정될 수 있다. 상기 최대 스트라이드 값은 상기 오디오 데이터의 고도 계조 신호들에 대해 실질적으로 0일 수 있다.
상기 장치는 메모리 디바이스를 포함할 수 있다. 상기 인터페이스는 상기 로직 시스템 및 상기 메모리 디바이스에서의 인터페이스일 수 있다. 그러나, 상기 인터페이스는 네트워크 인터페이스일 수 있다.
본 개시의 몇몇 양상들은 소프트웨어를 저장한 비-일시적 매체에서 구현될 수 있다. 상기 소프트웨어는: 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하고; 상기 오디오 데이터의 오디오 특성들을 결정하는 것으로서, 상기 오디오 특성들은 조성 정보 또는 과도 정보 중 적어도 하나를 포함하는, 상기 오디오 특성들 결정하기; 적어도 부분적으로 상기 오디오 특성들에 기초하여 상기 오디오 데이터에 대한 역상관 필터 파라미터들을 결정하고; 상기 역상관 필터 파라미터들에 따라 역상관 필터를 형성하며; 상기 오디오 데이터의 적어도 몇몇에 상기 역상관 필터를 적용하도록 장치를 제어하기 위한 지시들을 포함할 수 있다. 상기 역상관 필터는 적어도 하나의 지연 요소를 가진 선형 필터를 포함할 수 있다.
상기 역상관 필터 파라미터들은 상기 역상관 필터의 적어도 하나의 극점에 대한 디더링 파라미터들 또는 랜덤하게 선택된 극점 위치들을 포함할 수 있다. 상기 디더링 파라미터들 또는 극점 위치들은 극점 움직임들이 제한되는 제한 면적들에 의해 한계가 이루어질 수 있다. 상기 디더링 파라미터들 또는 극점 위치들은 극점 움직임에 대한 최대 스트라이드 값을 참조하여 결정될 수 있다. 상기 최대 스트라이드 값은 상기 오디오 데이터의 고도 계조 신호들에 대해 실질적으로 0일 수 있다.
몇몇 구현들에 따르면, 방법은: 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 것; 역상관 필터의 최대 극점 변위에 대응하는 역상관 필터 제어 정보를 결정하는 것; 적어도 부분적으로 상기 역상관 필터 제어 정보에 기초하여 상기 오디오 데이터에 대한 역상관 필터 파라미터들을 결정하는 것; 상기 역상관 필터 파라미터들에 따라 상기 역상관 필터를 형성하는 것; 및 상기 역상관 필터를 상기 오디오 데이터의 적어도 몇몇에 적용하는 것을 수반할 수 있다.
상기 오디오 데이터는 시간 도메인 또는 주파수 도메인에 있을 수 있다. 상기 역상관 필터 제어 정보를 결정하는 단계는 상기 최대 극점 변위의 분명한 표시를 수신하는 단계를 수반할 수 있다.
상기 역상관 필터 제어 정보를 결정하는 것은 오디오 특성 정보를 결정하는 단계 및 적어도 부분적으로, 상기 오디오 특성 정보에 기초하여 상기 최대 극점 변위를 결정하는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 오디오 특성 정보는 조성 정보 또는 과도 정보 중 적어도 하나를 포함할 수 있다.
본 명세서에 설명된 주제의 하나 이상의 구현들의 세부사항들은 이하의 첨부한 도면들 및 설명에 제시된다. 다른 특징들, 양상들, 및 이점들은 설명, 도면들, 및 청구항들로부터 분명해질 것이다. 다음의 도면들의 상대적인 치수들은 일정한 비율로 그려지지 않을 수 있다는 것을 주의하자.
본 발명은 인코딩 및 디코딩 알고리즘들의 복잡도를 감소시킬 수 있다.
도 1A 및 도 1B는 오디오 인코딩 프로세스 동안 채널 커플링의 예들을 도시하는 그래프들이다.
도 2A는 오디오 프로세싱 시스템의 요소들을 예시하는 블록도이다.
도 2B는 도 2A의 오디오 프로세싱 시스템에 의해 실행될 수 있는 동작들의 개요를 제공한다.
도 2C는 대안적인 오디오 프로세싱 시스템의 요소들을 도시하는 블록도이다.
도 2D는 역상관기가 어떻게 오디오 프로세싱 시스템에서 사용될 수 있는지에 대한 예를 도시하는 블록도이다.
도 2E는 대안적인 오디오 프로세싱 시스템의 요소들을 예시하는 블록도이다.
도 2F는 역상관기 요소들의 예들을 도시하는 블록도이다.
도 3은 역상관 프로세스의 예를 예시한 흐름도이다.
도 4는 도 3의 역상관 프로세스를 실행하기 위해 구성될 수 있는 역상관기 구성요소들의 예들을 예시한 블록도이다.
도 5A는 전-통과 필터의 극점들을 이동시키는 예를 도시하는 그래프이다.
도 5B 및 도 5C는 전-통과 필터의 극점들을 이동시키는 대안적인 예들을 도시하는 그래프들이다.
도 5D 및 도 5E는 전-통과 필터의 극점들을 이동시킬 때 적용될 수 있는 제한 면적들의 대안적인 예들을 도시하는 그래프들이다.
도 6A는 역상관기의 대안적인 구현을 예시하는 블록도이다.
도 6B는 역상관기의 또 다른 구현을 예시하는 블록도이다.
도 6C는 오디오 프로세싱 시스템의 대안적인 구현을 예시한다.
도 7A 및 도 7B는 공간 파라미터들의 간소화된 예시를 제공하는 벡터 다이어그램들이다.
도 8A는 여기에 제공된 몇몇 역상관 방법들의 블록들을 예시하는 흐름도이다.
도 8B는 측방향 부호-플립 방법의 블록들을 예시하는 흐름도이다.
도 8C 및 도 8D는 몇몇 부호-플립 방법들을 구현하기 위해 사용될 수 있는 구성요소들을 예시하는 블록도들이다.
도 8E는 합성 계수들을 결정하며 공간 파라미터 데이터로부터의 계수들을 믹싱하는 방법의 블록들을 예시하는 흐름도이다.
도 8F는 믹서 구성요소들의 예들을 도시하는 블록도이다.
도 9는 다채널 경우들에서 역상관 신호들을 합성하는 프로세스를 개괄하는 흐름도이다.
도 10A는 공간 파라미터들을 추정하기 위한 방법의 개요를 제공하는 흐름도이다.
도 10B는 공간 파라미터들을 추정하기 위한 대안적인 방법의 개요를 제공하는 흐름도이다.
도 10C는 스케일링 항(VB) 및 대역 인덱스(l) 사이에서의 관계를 표시하는 그래프이다.
도 10D는 변수들(VM 및 q) 사이에서의 관계를 표시하는 그래프이다.
도 11A는 과도 결정 및 과도-관련 제어들의 몇몇 방법들을 개괄하는 흐름도이다.
도 11B는 과도 결정 및 과도-관련 제어들에 대한 다양한 구성요소들의 예들을 포함하는 블록도이다.
도 11C는 적어도 부분적으로 오디오 데이터의 시간적 전력 변화들에 기초하여 과도 제어값들을 결정하는 몇몇 방법들을 개괄하는 흐름도이다.
도 11D는 과도 제어 값들에 원 과도 값들을 매핑시키는 예를 예시하는 그래프이다.
도 11E는 과도 정보를 인코딩하는 방법을 개괄하는 흐름도이다.
도 12는 여기에 설명된 프로세스들의 양상들을 구현하기 위해 구성될 수 있는 장치의 구성요소들의 예들을 제공하는 블록도이다.
다양한 도면들에서 유사한 참조 부호들 및 명칭들은 유사한 요소들을 표시한다.
다음의 설명은 본 개시의 몇몇 혁신적 양상들, 뿐만 아니라 이들 혁신적 양상들이 구현될 수 있는 콘텍스트들의 예들을 설명하기 위한 특정한 구현들에 관한 것이다. 그러나, 여기에서의 교시들은 다양한 상이한 방식들로 적용될 수 있다. 본 출원에 제공된 예들은 주로 AC-3 오디오 코덱, 및 강화된 AC-3 오디오 코덱(또한 E-AC-3으로서 알려진)에 대하여 설명되지만, 여기에 제공된 개념들은 이에 제한되지 않지만 MPEG-2 AAC 및 MPEG-4 AAC를 포함한, 다른 오디오 코덱들에 적용한다. 게다가, 설명된 구현들은 이에 제한되지 않지만, 인코더들 및/또는 디코더들을 포함한, 다양한 오디오 프로세싱 디바이스들에서 구체화될 수 있으며, 이것은 이동 전화들, 스마트 폰들, 데스크탑 컴퓨터들, 핸드-헬드 또는 휴대용 컴퓨터들, 넷북들, 노트북들, 스마트북들, 태블릿들, 스테레오 시스템들, 텔레비전들, DVD 플레이어들, 디지털 레코딩 디바이스들 및 다양한 다른 디바이스들에 포함될 수 있다. 따라서, 본 개시의 교시들은 도면들에 도시되며 및/또는 여기에 설명된 구현들에 제한되도록 의도되지 않으며, 대신에 광범위한 적용 가능성을 가진다.
AC-3 및 E-AC-3 오디오 코덱들("돌비 디지털" 및 "돌비 디지털 플러스"로서 허가되는 독점 구현들)을 포함한, 몇몇 오디오 코덱들은 채널들 사이에서의 리던던시들을 이용하기 위해 몇몇 형태의 채널 커플링을 이용하고, 데이터를 보다 효율적으로 인코딩하며 코딩 비트-레이트를 감소시킨다. 예를 들면, AC-3 및 E-AC-3 코덱들로, 특정 "커플링-시작-주파수"를 넘는 커플링 채널 주파수 범위에서, 이산 채널들(또한 여기에서 "개개의 채널들"로서 불리우는)의 수정된 이산 코사인 변환(MDCT) 계수들은, 여기에서 "복합 채널" 또는 "커플링 채널"로서 불릴 수 있는, 모노 채널로 다운믹싱된다. 몇몇 코덱들은 둘 이상의 커플링 채널들을 형성할 수 있다.
AC-3 및 E-AC-3 디코더들은 비트스트림에서 전송된 커플링 좌표들에 기초한 스케일 인자들을 사용하여 커플링 채널의 모노 신호를 이산 채널들로 업믹싱한다. 이러한 방식으로, 디코더는 각각의 채널의 커플링 채널 주파수 범위에서 오디오 데이터의, 위상을 제외한, 고 주파수 엔벨로프를 복원한다.
도 1A 및 도 1B는 오디오 인코딩 프로세스 동안 채널 커플링의 예들을 도시하는 그래프들이다. 도 1A의 그래프(102)는 채널 커플링 전에 좌측 채널에 대응하는 오디오 신호를 표시한다. 그래프(104)는 채널 커플링 전에 우측 채널에 대응하는 오디오 신호를 표시한다. 도 1B는 채널 커플링을 포함한 인코딩, 및 디코딩 후 좌측 및 우측 채널들을 도시한다. 이러한 간소화된 예에서, 그래프(106)는 좌측 채널에 대한 오디오 데이터가 실질적으로 변경되지 않음을 표시하는 반면, 그래프(108)는 우측 채널에 대한 오디오 데이터가 현재 좌측 채널에 대한 오디오 데이터와 동 위상임을 표시한다.
도 1A 및 도 1B에 도시된 바와 같이, 커플링-시작 주파수를 넘는 디코딩된 신호는 채널들 사이에서 간섭성(coherent)이 될 수 있다. 따라서, 커플링-시작 주파수를 넘는 디코딩된 신호는 원래 신호와 비교하여, 공간적으로 붕괴된(collapsed) 것처럼 들릴 수 있다. 디코딩된 채널들이, 예를 들면, 헤드폰 가시화를 통한 바이노럴 연주(binaural rendition) 또는 스테레오 라우드스피커들을 통한 재생 상에서 다운믹싱될 때, 커플링 채널들은 간섭적으로(coherently) 합해질 수 있다. 이것은 원래 기준 신호와 비교할 때 음색 미스매치를 야기할 수 있다. 채널 커플링의 부정적 효과들은 디코딩된 신호가 헤드폰들을 통해 바이노럴하게(binaurally) 렌더링될 때 특히 분명할 수 있다.
여기에 설명된 다양한 구현들은 적어도 부분적으로, 이들 효과들을 완화시킬 수 있다. 몇몇 이러한 구현들은 신규의 오디오 인코딩 및/또는 디코딩 툴들을 수반한다. 이러한 구현들은 채널 커플링에 의해 인코딩된 주파수 영역들에서 출력 채널들의 위상 다이버시티를 복원하도록 구성될 수 있다. 다양한 구현들에 따르면, 역상관된 신호는 각각의 출력 채널의 커플링 채널 주파수 범위에서 디코딩된 스펙트럼 계수들로부터 합성될 수 있다.
그러나, 많은 다른 유형들의 오디오 프로세싱 디바이스들 및 방법들이 여기에 설명된다. 도 2A는 오디오 프로세싱 시스템의 요소들을 예시하는 블록도이다. 이러한 구현에서, 오디오 프로세싱 시스템(200)은 버퍼(201), 스위치(203), 역상관기(205) 및 역 변환 모듈(255)을 포함한다. 상기 스위치(203)는 예를 들면, 교차-점 스위치일 수 있다. 상기 버퍼(201)는 오디오 데이터 요소들(220a 내지 220n)을 수신하고, 오디오 데이터 요소들(220a 내지 220n)을 스위치(203)로 포워딩하며 오디오 데이터 요소들(220a 내지 220n)의 사본들을 역상관기(205)에 전송한다.
이 예에서, 상기 오디오 데이터 요소들(220a 내지 220n)은 복수의 오디오 채널들(1 내지 N)에 대응한다. 여기에서, 상기 오디오 데이터 요소들(220a 내지 220n)은 레거시 오디오 인코딩 또는 프로세싱 시스템일 수 있는, 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현들을 포함한다. 그러나, 대안적인 구현들에서, 오디오 데이터 요소들(220a 내지 220n)은 복수의 주파수 대역들(1 내지 N)에 대응할 수 있다.
이러한 구현에서, 오디오 데이터 요소들(220a 내지 220n)의 모두는 스위치(203) 및 역상관기(205) 양쪽 모두에 의해 수신된다. 여기에서, 오디오 데이터 요소들(220a 내지 220n)의 모두는 역상관된 오디오 데이터 요소들(230a 내지 230n)을 생성하기 위해 역상관기(205)에 의해 프로세싱된다. 게다가, 역상관된 오디오 데이터 요소들(230a 내지 230n)의 모두는 스위치(203)에 의해 수신된다.
그러나, 역상관된 오디오 데이터 요소들(230a 내지 230n)의 모두가 역 변환 모듈(255)에 의해 수신되며 시간 도메인 오디오 데이터(260)로 변환되는 것은 아니다. 대신에, 스위치(203)는 역상관된 오디오 데이터 요소들(230a 내지 230n) 중 어떤 것이 역 변환 모듈(255)에 의해 수신될지를 선택한다. 이 예에서, 스위치(203)는 채널에 따라, 오디오 데이터 요소들(230a 내지 230n) 중 어떤 것이 역 변환 모듈(255)에 의해 수신될지를 선택한다. 여기에서, 예를 들면, 오디오 데이터 요소(230a)는 역 변환 모듈(255)에 의해 수신되는 반면, 오디오 데이터 요소(230n)는 수신되지 않는다. 대신에, 스위치(203)는 역상관기(205)에 의해 프로세싱되지 않은, 오디오 데이터 요소(220n)를 역 변환 모듈(255)로 전송한다.
몇몇 구현들에서, 스위치(203)는 채널들(1 내지 N)에 대응하는 미리 결정된 설정들에 따라, 역 변환 모듈(255)에 직접 오디오 데이터 요소(220) 또는 역상관된 오디오 데이터 요소(230)를 전송할지 여부를 결정할 수 있다. 대안적으로, 또는 부가적으로, 스위치(203)는 국소적으로 발생되거나 또는 저장되거나, 또는 오디오 데이터(220)와 함께 수신될 수 있는, 선택 정보(207)의 채널-특정 구성요소들에 따라, 역 변환 모듈(255)에 오디오 데이터 요소(220) 또는 역상관된 오디오 데이터 요소(230)를 전송할지 여부를 결정할 수 있다. 따라서, 오디오 프로세싱 시스템(200)은 특정 오디오 채널들의 선택적 역상관을 제공할 수 있다.
대안적으로, 또는 부가적으로, 스위치(203)는 오디오 데이터(220)에서의 변화들에 따라, 역 변환 모듈(255)에, 직접 오디오 데이터 요소(220) 또는 역상관된 오디오 데이터 요소(230)를 전송할지 여부를 결정할 수 있다. 예를 들면, 스위치(203)는 만약에 있다면, 역상관된 오디오 데이터 요소들(230) 중 어떤 것이 오디오 데이터(220)에서 과도들 또는 조성 변화들을 표시할 수 있는, 선택 정보(207)의 신호-적응적 구성요소들에 따라 역 변환 모듈(255)에 전송되는지를 결정할 수 있다. 대안적인 구현들에서, 스위치(203)는 역상관기(205)로부터 이러한 신호-적응적 정보를 수신할 수 있다. 다른 구현들에서, 스위치(203)는 과도들 또는 조성 변화들과 같은, 오디오 데이터에서의 변화들을 결정하도록 구성될 수 있다. 따라서, 오디오 프로세싱 시스템(200)은 특정 오디오 채널들의 신호-적응적 역상관을 제공할 수 있다.
상기 주지된 바와 같이, 몇몇 구현들에서, 오디오 데이터 요소들(220a 내지 220n)은 복수의 주파수 대역들(1 내지 N)에 대응할 수 있다. 몇몇 이러한 구현들에서, 스위치(203)는 주파수 대역들에 대응하는 미리 결정된 설정들에 따라 및/또는 수신된 선택 정보(207)에 따라 역 변환 모듈(255)에 오디오 데이터 요소(220) 또는 역상관된 오디오 데이터 요소(230)를 전송할지 여부를 결정할 수 있다. 따라서, 오디오 프로세싱 시스템(200)은 특정 주파수 대역들의 선택적 역상관을 제공할 수 있다.
대안적으로, 또는 부가적으로, 스위치(203)는 선택 정보(207)에 의해 또는 역상관기(205)로부터 수신된 정보에 의해 표시될 수 있는, 오디오 데이터(220)에서의 변화들에 따라 역 변환 모듈(255)에 직접 오디오 데이터 요소(220) 또는 역상관된 오디오 데이터 요소(230)를 전송할지 여부를 결정할 수 있다. 몇몇 구현들에서, 스위치(203)는 오디오 데이터에서의 변화들을 결정하도록 구성될 수 있다. 그러므로, 오디오 프로세싱 시스템(200)은 특정 주파수 대역들의 신호-적응적 역상관을 제공할 수 있다.
도 2B는 도 2A의 오디오 프로세싱 시스템에 의해 실행될 수 있는 동작들의 개요를 제공한다. 이 예에서, 방법(270)은 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 프로세스로 시작한다(블록 272). 오디오 데이터는 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 포함할 수 있다. 상기 오디오 인코딩 또는 프로세싱 시스템은, 예를 들면, AC-3 또는 E-AC-3과 같은 레거시 오디오 인코딩 또는 프로세싱 시스템일 수 있다. 몇몇 구현들은 블록 스위칭의 표시들 등과 같은, 레거시 오디오 인코딩 또는 프로세싱 시스템에 의해 생성된 비트스트림에서 제어 메커니즘 요소들을 수신하는 것을 수반할 수 있다. 상기 역상관 프로세스는 적어도 부분적으로 제어 메커니즘 요소들에 기초할 수 있다. 상세한 예들이 이하에 제공된다. 이 예에서, 방법(270)은 또한 오디오 데이터의 적어도 몇몇에 역상관 프로세스를 적용하는 것을 수반한다(블록 274). 상기 역상관 프로세스는 오디오 인코딩 또는 프로세싱 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행될 수 있다.
다시 도 2A를 참조하면, 역상관기(205)는 특정한 구현에 의존하여, 다양한 유형들의 역상관 동작들을 실행할 수 있다. 많은 예들이 여기에 제공된다. 몇몇 구현들에서, 상기 역상관 프로세스는 오디오 데이터 요소들(220)의 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행된다. 상기 역상관 프로세스는 주파수 도메인 표현의 적어도 일 부분에 선형 필터들을 적용함으로써 리버브 신호들 또는 역상관 신호들을 발생시키는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 역상관 프로세스는 전적으로 실수값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 것을 수반할 수 있다. 여기에 사용된 바와 같이, "실수값"은 코사인 또는 사인 변조된 필터뱅크 중 단지 하나를 사용하는 것을 의미한다.
상기 역상관 프로세스는 필터링된 오디오 데이터 요소들을 생성하기 위해 수신된 오디오 데이터 요소들(220a 내지 220n)의 일 부분에 역상관 필터를 적용하는 것을 수반할 수 있다. 상기 역상관 프로세스는 공간 파라미터들에 따라 상기 필터링된 오디오 데이터와 상기 수신된 오디오 데이터의 직접 부분(어떤 역상관 필터도 적용되지 않은)을 결합하기 위해 비-계층적 믹서를 사용하는 것을 수반할 수 있다. 예를 들면, 오디오 데이터 요소(220a)의 직접 부분은 출력-채널-특정 방식으로 오디오 데이터 요소(220a)의 필터링된 부분과 믹싱될 수 있다. 몇몇 구현들은 역상관 또는 리버브 신호들의 출력-채널-특정 결합기(예로서, 선형 결합기)를 포함할 수 있다. 다양한 예들이 이하에 설명된다.
몇몇 구현들에서, 공간 파라미터들은 수신된 오디오 데이터(220)의 분석에 따라 오디오 프로세싱 시스템(200)에 의해 결정될 수 있다. 대안적으로, 또는 부가적으로, 공간 파라미터들은 역상관 정보(240)의 일부 또는 모두로서 오디오 데이터(220)와 함께, 비트스트림에서 수신될 수 있다. 몇몇 구현들에서, 역상관 정보(240)는 개별 이산 채널들 및 커플링 채널 사이에서의 상관 계수들, 개별 이산 채널들 사이에서의 상관 계수들, 명시적 조성 정보 및/또는 과도 정보를 포함할 수 있다. 역상관 프로세스는 적어도 부분적으로 역상관 정보(240)에 기초하여 오디오 데이터(220)의 적어도 일 부분을 역상관하는 것을 수반할 수 있다. 몇몇 구현들은 국소적으로 결정된 및 수신된 공간 파라미터들 및/또는 다른 역상관 정보 양쪽 모두를 사용하도록 구성될 수 있다. 다양한 예들이 이하에 설명된다.
도 2C는 대안적인 오디오 프로세싱 시스템의 요소들을 도시하는 블록도이다. 이 예에서, 오디오 데이터 요소들(220a 내지 220n)은 N개의 오디오 채널들에 대한 오디오 데이터를 포함한다. 상기 오디오 데이터 요소들(220a 내지 220n)은 오디오 인코딩 또는 프로세싱 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현들을 포함한다. 이러한 구현에서, 주파수 도메인 표현들은 완전 복원, 임계-샘플링된 필터뱅크에 적용한 결과이다. 예를 들면, 주파수 도메인 표현들은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환을 시간 도메인에서의 오디오 데이터에 적용한 결과일 수 있다.
역상관기(205)는 오디오 데이터 요소들(220a 내지 220n)의 적어도 일 부분에 역상관 프로세스를 적용한다. 예를 들면, 역상관 프로세스는 오디오 데이터 요소들(220a 내지 220n)의 적어도 일 부분에 선형 필터들을 적용함으로써 리버브 신호들 또는 역상관 신호들을 발생시키는 단계를 수반할 수 있다. 역상관 프로세스는 적어도 부분적으로, 상기 역상관기(205)에 의해 수신된 역상관 정보(240)에 따라 실행될 수 있다. 예를 들면, 역상관 정보(240)는 오디오 데이터 요소들(220a 내지 220n)의 주파수 도메인 표현들과 함께 비트스트림에서 수신될 수 있다. 대안적으로, 또는 부가적으로, 적어도 몇몇 역상관 정보는 국소적으로, 예를 들면, 역상관기(205)에 의해 결정될 수 있다.
역 변환 모듈(255)은 시간 도메인 오디오 데이터(260)를 생성하기 위해 역 변환을 적용한다. 이 예에서, 역 변환 모듈(255)은 완전 복원, 임계-샘플링된 필터뱅크와 같은 역 변환 등가를 적용한다. 완전 복원, 임계-샘플링된 필터뱅크는 오디오 데이터 요소들(220a 내지 220n)의 주파수 도메인 표현들을 생성하기 위해 시간 도메인에서 오디오 데이터에 적용된 것(예로서, 인코딩 디바이스에 의해)에 대응할 수 있다.
도 2D는 역상관기가 어떻게 오디오 프로세싱 시스템에서 사용될 수 있는지에 대한 예를 도시하는 블록도이다. 이 예에서, 오디오 프로세싱 시스템(200)은 역상관기(205)를 포함하는 디코더이다. 몇몇 구현들에서, 디코더는 AC-3 또는 E-AC-3 오디오 코덱에 따라 기능하도록 구성될 수 있다. 그러나, 몇몇 구현들에서, 오디오 프로세싱 시스템은 다른 오디오 코덱들에 대한 오디오 데이터를 프로세싱하기 위해 구성될 수 있다. 상기 역상관기(205)는 여기에서 다른 곳에 설명되는 것들과 같은, 다양한 서브-구성요소들을 포함할 수 있다. 이 예에서, 업믹싱기(225)는 커플링 채널의 오디오 데이터의 주파수 도메인 표현들을 포함하는, 오디오 데이터(210)를 수신한다. 상기 주파수 도메인 표현들은 이 예에서 MDCT 계수들이다.
상기 업믹싱기(225)는 또한 각각의 채널 및 커플링 채널 주파수 범위에 대한 커플링 좌표들(212)을 수신한다. 이러한 구현에서, 스케일링 정보는, 커플링 좌표들(212)의 형태로, 지수-가수 형태로 돌비 디지털 또는 돌비 디지털 플러스에서 계산되어 왔다. 상기 업믹싱기(225)는 상기 채널에 대한 커플링 좌표들로 커플링 채널 주파수 좌표들을 곱함으로써 각각의 출력 채널에 대한 주파수 계수들을 계산할 수 있다.
이러한 구현에서, 상기 업믹싱기(225)는 커플링 채널 주파수 범위에서의 개개의 채널들의 분리된 MDCT 계수들을 역상관기(205)로 출력한다. 따라서, 이 예에서, 역상관기(205)로 입력되는 오디오 데이터(220)는 MDCT 계수들을 포함한다.
도 2D에 도시된 예에서, 역상관기(205)에 의해 출력된 역상관된 오디오 데이터(230)는 역상관된 MDCT 계수들을 포함한다. 이 예에서, 오디오 프로세싱 시스템(200)에 의해 수신된 오디오 데이터의 모두가 또한 역상관기(205)에 의해 역상관되는 것은 아니다. 예를 들면, 커플링 채널 주파수 범위 아래의 주파수들에 대한, 오디오 데이터(245a)의 주파수 도메인 표현들, 뿐만 아니라 커플링 채널 주파수 범위 이상의 주파수들에 대한, 오디오 데이터(245b)에 대한 주파수 도메인 표현들은 역상관기(205)에 의해 역상관되지 않는다. 역상관기(205)로부터 출력되는 역상관된 MDCT 계수들(230)과 함께, 이들 데이터는 역 MDCT 프로세스(255)로 입력된다. 이 예에서, 오디오 데이터(245b)는 스펙트럼 연장 툴, E-AC-3 오디오 코덱의 오디오 대역폭 연장 툴에 의해 결정된 MDCT 계수들을 포함한다.
이 예에서, 역상관 정보(240)는 역상관기(205)에 의해 수신된다. 수신된 역상관 정보(240)의 유형은 구현에 따라 달라질 수 있다. 몇몇 구현들에서, 역상관 정보(240)는 명시적, 역상관기-특정 제어 정보 및/또는 이러한 제어 정보의 기초를 형성할 수 있는 명시적 정보를 포함할 수 있다. 역상관 정보(240)는 예를 들면, 개별 이산 채널들 및 커플링 채널 사이에서의 상관 계수들 및/또는 개별 이산 채널들 사이에서의 상관 계수들과 같은 공간 파라미터들을 포함할 수 있다. 이러한 명시적 역상관 정보(240)는 또한 명시적 조성 정보 및/또는 과도 정보를 포함할 수 있다. 이러한 정보는 적어도 부분적으로, 역상관기(205)에 대한 역상관 필터 파라미터들을 결정하기 위해 사용될 수 있다.
그러나, 대안적인 구현들에서, 어떤 이러한 명시적 역상관 정보(240)도 역상관기(205)에 의해 수신되지 않는다. 몇몇 이러한 구현들에 따르면, 역상관 정보(240)는 레거시 오디오 코덱의 비트스트림으로부터의 정보를 포함할 수 있다. 예를 들면, 역상관 정보(240)는 AC-3 오디오 코덱 또는 E-AC-3 오디오 코덱에 따라 인코딩된 비트스트림에서 이용 가능한 시간 분할 정보를 포함할 수 있다. 상기 역상관 정보(240)는 사용-중-커플링 정보, 블록-스위칭 정보, 지수 정보, 지수 전략 정보 등을 포함할 수 있다. 이러한 정보는 오디오 데이터(210)와 함께 비트스트림에서 오디오 프로세싱 시스템에 의해 수신되었다.
몇몇 구현들에서, 역상관기(205)(또는 오디오 프로세싱 시스템(200)의 또 다른 요소)는 오디오 데이터의 하나 이상의 속성들에 기초하여 공간 파라미터들, 조성 정보 및/또는 과도 정보를 결정할 수 있다. 예를 들면, 오디오 프로세싱 시스템(200)은 커플링 채널 주파수 범위의 밖에 있는, 오디오 데이터(245a 또는 245b)에 기초하여 커플링 채널 주파수 범위에서의 주파수들에 대한 공간 파라미터들을 결정할 수 있다. 대안적으로, 또는 부가적으로, 오디오 프로세싱 시스템(200)은 레거시 오디오 코덱의 비트스트림으로부터의 정보에 기초하여 조성 정보를 결정할 수 있다. 몇몇 이러한 구현들이 이하에서 설명될 것이다.
도 2E는 대안적인 오디오 프로세싱 시스템의 요소들을 예시하는 블록도이다. 이러한 구현에서, 오디오 프로세싱 시스템(200)은 N-대-M 업믹싱기/다운믹싱기(262) 및 M-대-K 업믹싱기/다운믹싱기(264)를 포함한다. 여기에서, N개의 오디오 채널들에 대한 변환 계수들을 포함하는, 오디오 데이터 요소들(220a 내지 220n)은 N-대-M 업믹싱기/다운믹싱기(262) 및 역상관기(205)에 의해 수신된다.
이 예에서, N-대-M 업믹싱기/다운믹싱기(262)는 믹싱 정보(266)에 따라, N개의 채널들에 대한 오디오 데이터를 M개의 채널들에 대한 오디오 데이터로 업믹싱하거나 또는 다운믹싱하도록 구성될 수 있다. 그러나, 몇몇 구현들에서, N-대-M 업믹싱기/다운믹싱기(262)는 패스-스루 요소일 수 있다. 이러한 구현들에서, N=M이다. 믹싱 정보(266)는 N-대-M 믹싱 방정식들을 포함할 수 있다. 믹싱 정보(266)는 예를 들면, 역상관 정보(240), 커플링 채널에 대응하는 주파수 도메인 표현들 등과 함께 비트스트림에서 오디오 프로세싱 시스템(200)에 의해 수신될 수 있다. 이 예에서, 역상관기(205)에 의해 수신되는 역상관 정보(240)는 역상관기(205)가 역상관된 오디오 데이터(230)의 M개의 채널들을 스위치(203)로 출력해야 함을 표시한다.
스위치(203)는 선택 정보(207)에 따라, N-대-M 업믹싱기/다운믹싱기(262)로부터의 직접 오디오 데이터 또는 역상관된 오디오 데이터(230)가 M-대-K 업믹싱기/다운믹싱기(264)로 포워딩될지 여부를 결정할 수 있다. 상기 M-대-K 업믹싱기/다운믹싱기(264)는 믹싱 정보(268)에 따라, M개의 채널들에 대한 오디오 데이터를 K개의 채널들에 대한 오디오 데이터로 업믹싱하거나 또는 다운믹싱하도록 구성될 수 있다. 이러한 구현들에서, 믹싱 정보(268)는 M-대-K 믹싱 방정식들을 포함할 수 있다. N=M인 구현들에 대해, M-대-K 업믹싱기/다운믹싱기(264)는 믹싱 정보(268)에 따라 N개의 채널들에 대한 오디오 데이터를 K개의 채널들에 대한 오디오 데이터로 업믹싱하거나 또는 다운믹싱할 수 있다. 이러한 구현들에서, 믹싱 정보(268)는 N-대-K 믹싱 방정식들을 포함할 수 있다. 믹싱 정보(268)는 예를 들면, 역상관 정보(240) 및 다른 데이터와 함께 비트스트림에서 오디오 프로세싱 시스템(200)에 의해 수신될 수 있다.
N-대-M, M-대-K 또는 N-대-K 믹싱 방정식들은 업믹싱 또는 다운믹싱 방정식들일 수 있다. N-대-M, M-대-K 또는 N-대-K 믹싱 방정식들은 출력 오디오 신호들에 입력 오디오 신호들을 매핑시키는 선형 결합 계수들의 세트일 수 있다. 몇몇 이러한 구현들에 따르면, M-대-K 믹싱 방정식들은 스테레오 다운믹싱 방정식들일 수 있다. 예를 들면, M-대-K 업믹싱기/다운믹싱기(264)는 믹싱 정보(268)에서의 M-대-K 믹싱 방정식들에 따라, 4, 5, 6 이상의 채널들에 대한 오디오 데이터를 2개의 채널들에 대한 오디오 데이터로 다운믹싱하도록 구성될 수 있다. 몇몇 이러한 구현들에서, 좌측 채널("L"), 중심 채널("C") 및 좌측 서라운드 채널("Ls")에 대한 오디오 데이터는, M-대-K 믹싱 방정식들에 따라 좌측 스테레오 출력 채널(Lo)로 결합될 수 있다. 우측 채널("R"), 중심 채널 및 우측 서라운드 채널("Rs")에 대한 오디오 데이터는 M-대-K 믹싱 방정식들에 따라, 우측 스테레오 출력 채널(Ro)로 결합될 수 있다. 예를 들면, M-대-K 믹싱 방정식들은 다음과 같을 수 있다:
Figure 112015078534456-pct00001
대안적으로, M-대-K 믹싱 방정식들은 다음과 같을 수 있다:
Figure 112015078534456-pct00002
,
여기에서 att는 예를 들면 -3dB, -6dB, -9dB 또는 0과 같은 값을 나타낼 수 있다. N=M인 구현들에 대해, 앞서 말한 등식들은 N-대-K 믹싱 방정식들로 고려될 수 있다.
이 예에서, 역상관기(205)에 의해 수신되는 역상관 정보(240)는 M개의 채널들에 대한 오디오 데이터가 그 뒤에 K의 채널들로 업믹싱되거나 또는 다운믹싱될 것임을 표시한다. 역상관기(205)는 M개의 채널들에 대한 데이터가 그 뒤에 K개의 채널들에 대한 오디오 데이터로 업믹싱될지 또는 다운믹싱될지 여부에 의존하여, 상이한 역상관 프로세스를 사용하도록 구성될 수 있다. 따라서, 역상관기(205)는 적어도 부분적으로, M-대-K 믹싱 방정식들에 기초하여 역상관 필터링 프로세스들을 결정하도록 구성될 수 있다. 예를 들면, M개의 채널들이 그 뒤에 K개의 채널들로 다운믹싱된다면, 상이한 역상관 필터들이 그 다음의 다운믹싱에서 결합될 채널들을 위해 사용될 수 있다. 하나의 이러한 예에 따르면, 역상관 정보(240)가 L, R, Ls 및 Rs 채널들에 대한 오디오 데이터가 2개의 채널들로 다운믹싱될 것임을 표시한다면, 하나의 역상관 필터가 L 및 R 채널들 양쪽 모두를 위해 사용될 수 있으며 또 다른 역상관 필터가 Ls 및 Rs 채널들 양쪽 모두를 위해 사용될 수 있다.
몇몇 구현들에서, M=K이다. 이러한 구현들에서, M-대-K 업믹싱기/다운믹싱기(264)는 패스-스루 요소일 수 있다.
그러나, 다른 구현들에서, M>K이다. 이러한 구현들에서, M-대-K 업믹싱기/다운믹싱기(264)는 다운믹싱기로서 기능할 수 있다. 몇몇 이러한 구현들에 따르면, 역상관된 다운믹스를 발생시키는 덜 계산적으로 집중적인 방법이 사용될 수 있다. 예를 들면, 역상관기(205)는 스위치(203)가 역 변환 모듈(255)에 전송할 채널들에 대해서만 역상관된 오디오 데이터(230)를 발생시키도록 구성될 수 있다. 예를 들면, N=6이고, M=2이면, 역상관기(205)는 단지 2개의 다운믹싱된 채널들에 대해서만 역상관된 오디오 데이터(230)를 발생시키도록 구성될 수 있다. 프로세스에서, 역상관기(205)는 6보다는 단지 2개의 채널들에 대한 역상관 필터들을 사용할 수 있어서, 복잡도를 감소시킬 수 있다. 대응하는 믹싱 정보는 역상관 정보(240), 믹싱 정보(266) 및 믹싱 정보(268)에 포함될 수 있다. 따라서, 역상관기(205)는 적어도 부분적으로 N-대-M, N-대-K 또는 M-대-K 믹싱 방정식들에 기초하여 역상관 필터링 프로세스들을 결정하도록 구성될 수 있다.
도 2F는 역상관기 요소들의 예들을 도시하는 블록도이다. 도 2F에 도시된 요소들은 예를 들면, 도 12를 참조하여 이하에 설명되는 장치와 같은, 디코딩 장치의 로직 시스템에서 구현될 수 있다. 도 2F는 역상관 신호 발생기(218) 및 믹서(215)를 포함하는 역상관기(205)를 묘사한다. 몇몇 실시예들에서, 역상관기(205)는 다른 요소들을 포함할 수 있다. 역상관기(205)의 다른 요소들 및 그것들이 어떻게 기능할 수 있는지에 대한 예들이 여기에서의 다른 곳에서 제시된다.
이 예에서, 오디오 데이터(220)는 역상관 신호 발생기(218) 및 믹서(215)로 입력된다. 오디오 데이터(220)는 복수의 오디오 채널들에 대응할 수 있다. 예를 들면, 상기 오디오 데이터(220)는 역상관기(205)에 의해 수신되기 전에 업믹싱된 오디오 인코딩 프로세스 동안 채널 커플링에 기인한 데이터를 포함할 수 있다. 몇몇 실시예들에서, 오디오 데이터(220)는 시간 도메인에 있을 수 있는 반면, 다른 실시예들에서, 오디오 데이터(220)는 주파수 도메인에 있을 수 있다. 예를 들면, 오디오 데이터(220)는 변환 계수들의 시간 시퀀스들을 포함할 수 있다.
역상관 신호 발생기(218)는 하나 이상의 역상관 필터들을 형성하고, 상기 역상관 필터들을 오디오 데이터(220)에 적용하며 결과적인 역상관 신호들(227)을 믹서(215)에 제공할 수 있다. 이 예에서, 믹서는 역상관된 오디오 데이터(230)를 생성하기 위해 역상관 신호들(227)과 오디오 데이터(220)를 결합한다.
몇몇 실시예들에서, 상기 역상관 신호 발생기(218)는 역상관 필터에 대한 역상관 필터 제어 정보를 결정할 수 있다. 몇몇 이러한 실시예들에 따르면, 역상관 필터 제어 정보는 역상관 필터의 최대 극점 변위에 대응할 수 있다. 역상관 신호 발생기(218)는 적어도 부분적으로, 역상관 필터 제어 정보에 기초하여 오디오 데이터(220)에 대한 역상관 필터 파라미터들을 결정할 수 있다.
몇몇 구현들에서, 역상관 필터 제어 정보를 결정하는 것은 오디오 데이터(220)로 역상관 필터 제어 정보의 명확한 표시(예를 들면, 최대 극점 변위에 대한 명확한 표시)를 수신하는 것을 수반할 수 있다. 대안적인 구현들에서, 상기 역상관 필터 제어 정보를 결정하는 것은 오디오 특성 정보를 결정하는 것 및 적어도 부분적으로 오디오 특성 정보에 기초하여 역상관 필터 파라미터들(최대 극점 변위와 같은)을 결정하는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 오디오 특성 정보는 공간 정보, 조성 정보 및/또는 과도 정보를 포함할 수 있다.
역상관기(205)의 몇몇 구현들이 이제 도 3 내지 도 5E를 참조하여 보다 상세히 설명될 것이다. 도 3은 역상관 프로세스의 예를 예시한 흐름도이다. 도 4는 도 3의 역상관 프로세스를 실행하기 위해 구성될 수 있는 역상관기 구성요소들의 예들을 예시한 블록도이다. 도 3의 역상관 프로세스(300)는 적어도 부분적으로, 도 12를 참조하여 이하에 설명되는 것과 같은 디코딩 장치에서 실행될 수 있다.
이 예에서, 프로세스(300)는 역상관기가 오디오 데이터를 수신할 때 시작된다(블록 305). 도 2F를 참조하여 상기 설명된 바와 같이, 오디오 데이터는 역상관기(205)의 역상관 신호 발생기(218) 및 믹서(215)에 의해 수신될 수 있다. 여기에서, 오디오 데이터의 적어도 몇몇은 도 2D의 업믹싱기(225)와 같은, 업믹싱기로부터 수신된다. 이와 같이, 오디오 데이터는 복수의 오디오 채널들에 대응한다. 몇몇 구현들에서, 역상관기에 의해 수신된 오디오 데이터는 각각의 채널의 커플링 채널 주파수 범위에서 오디오 데이터의 주파수 도메인 표현들의 시간 시퀀스(MDCT 계수들)를 포함할 수 있다. 대안적인 구현들에서, 오디오 데이터는 시간 도메인에 있을 수 있다.
블록(310)에서, 역상관 필터 제어 정보가 결정된다. 상기 역상관 필터 제어 정보는 예를 들면, 오디오 데이터의 오디오 특성들에 따라 결정될 수 있다. 도 4에 도시된 예와 같은, 몇몇 구현들에서, 이러한 오디오 특성들은 오디오 데이터와 함께 인코딩된 명시적 공간 정보, 조성 정보 및/또는 과도 정보를 포함할 수 있다.
도 4에 도시된 실시예에서, 역상관 필터(410)는 고정된 지연(415) 및 시변 부분(420)을 포함한다. 이 예에서, 상기 역상관 신호 발생기(218)는 역상관 필터(410)의 시변 부분(420)을 제어하기 위한 역상관 필터 제어 모듈(405)을 포함한다. 이 예에서, 상기 역상관 필터 제어 모듈(405)은 조성 플래그의 형태로 명시적 조성 정보(425)를 수신한다. 이러한 구현에서, 역상관 필터 제어 모듈(405)은 또한 명시적 과도 정보(430)를 수신한다. 몇몇 구현들에서, 명시적 조성 정보(425) 및/또는 명시적 과도 정보(430)는 예로서 역상관 정보(240)의 일부로서, 오디오 데이터와 함께 수신될 수 있다. 몇몇 구현들에서, 명시적 조성 정보(425) 및/또는 명시적 과도 정보(430)는 국소적으로 발생될 수 있다.
몇몇 구현들에서, 어떤 명시적 공간 정보, 조성 정보 또는 과도 정보도 역상관기(205)에 의해 수신되지 않는다. 몇몇 이러한 구현들에서, 역상관기(205)(또는 오디오 프로세싱 시스템의 또 다른 요소)의 과도 제어 모듈은 오디오 데이터의 하나 이상의 속성들에 기초하여 과도 정보를 결정하도록 구성될 수 있다. 역상관기(205)의 공간 파라미터 모듈은 오디오 데이터의 하나 이상의 속성들에 기초하여 공간 파라미터들을 결정하도록 구성될 수 있다. 몇몇 예들이 여기에서의 다른 곳에 설명된다.
도 3의 블록(315)에서, 오디오 데이터의 역상관 필터 파라미터들은 적어도 부분적으로 블록(310)에서 결정된 역상관 필터 제어 정보에 기초하여 결정된다. 역상관 필터는 그 후 블록(320)에 도시된 바와 같이, 역상관 필터 파라미터들에 따라 형성될 수 있다. 필터는 예를 들면 적어도 하나의 지연 요소를 가진 선형 필터일 수 있다. 몇몇 구현들에서, 필터는 적어도 부분적으로 유리 함수에 기초할 수 있다. 예를 들면, 필터는 전-통과 필터를 포함할 수 있다.
도 4에 도시된 구현에서, 역상관 필터 제어 모듈(405)은 적어도 부분적으로 비트스트림에서 역상관기(205)에 의해 수신된 조성 플래그들(425) 및/또는 명시적 과도 정보(430)에 기초하여 역상관 필터(410)의 시변 부분(420)을 제어할 수 있다. 몇몇 예들이 이하에 설명된다. 이 예에서, 역상관 필터(410)는 단지 커플링 채널 주파수 범위에서의 오디오 데이터에만 적용된다.
이 실시예에서, 역상관 필터(410)는 이 예에서 전-통과 필터인 시변 부분(420)에 앞서 고정된 지연(415)을 포함한다. 몇몇 실시예들에서, 역상관 신호 발생기(218)는 전-통과 필터들의 뱅크를 포함할 수 있다. 예를 들면, 오디오 데이터(220)가 주파수 도메인에 있는 몇몇 실시예들에서, 역상관 신호 발생기(218)는 복수의 주파수 빈들의 각각에 대한 전-통과 필터를 포함할 수 있다. 그러나, 대안적인 구현들에서, 동일한 필터가 각각의 주파수 빈에 적용될 수 있다. 대안적으로, 주파수 빈들은 그룹핑될 수 있으며 동일한 필터가 각각의 그룹에 적용될 수 있다. 예를 들면, 주파수 빈들은 주파수 대역들로 그룹핑될 수 있고, 채널에 의해 그룹핑될 수 있으며 및/또는 주파수 대역에 의해 및 채널에 의해 그룹핑될 수 있다.
고정된 지연의 양은 예를 들면, 로직 디바이스에 의해 및/또는 사용자 입력에 따라 선택 가능할 수 있다. 역상관 신호들(227)로의 제어된 혼란을 도입하기 위해, 역상관 필터 제어(405)는 극점들 중 하나 이상이 제한된 영역에서 랜덤하게 또는 의사-랜덤하게 이동하도록 전-통과 필터(들)의 극점들을 제어하기 위해 역상관 필터 파라미터들을 적용할 수 있다.
따라서, 역상관 필터 파라미터들은 전-통과 필터의 적어도 하나의 극점을 이동시키기 위한 파라미터들을 포함할 수 있다. 이러한 파라미터들은 전-통과 필터의 하나 이상의 극점들을 디더링하기 위한 파라미터들을 포함할 수 있다. 대안적으로, 역상관 필터 파라미터들은 전-통과 필터의 각각의 극점에 대한 복수의 미리 결정된 극점 위치들 중에서 극점 위치를 선택하기 위한 파라미터들을 포함할 수 있다. 미리 결정된 시간 간격에서(예를 들면, 돌비 디지털 플러스 블록당 한 번), 전-통과 필터의 각각의 극점에 대한 새로운 위치가 랜덤하게 또는 의사-랜덤하게 선택될 수 있다.
몇몇 이러한 구현들이 이제 도 5A 내지 도 5E를 참조하여 설명될 것이다. 도 5A는 전-통과 필터의 극점들을 이동시키는 예를 도시하는 그래프이다. 그래프(500)는 3차 전-통과 필터의 극점 플롯이다. 이 예에서, 필터는 두 개의 복소 극점들(극점들(505a 및 505c)) 및 하나의 실수 극점(극점(505b))을 가진다. 큰 원은 단위 원(515)이다. 시간에 걸쳐, 극점 위치들은 그것들이, 각각 극점들(505a, 505b, 및 505c)의 가능한 경로들을 제한하는, 제한 영역들(510a, 510b, 및 510c) 내에서 이동하도록 디더링될 수 있다(또는 그 외 변경될 수 있다).
이 예에서, 제한 영역들(510a, 510b, 및 510c)은 원형이다. 극점들(505a, 505b, 및 505c)의 초기(또는 "시드") 위치들은 제한 영역들(510a, 510b, 및 510c)의 중심들에서의 원들에 의해 표시된다. 도 5A의 예에서, 제한 영역들(510a, 510b, 및 510c)은 초기 극점 위치들에 중심을 둔 반경 0.2의 원들이다. 극점들(505a 및 505c)은 복소 공액 쌍에 대응하는 반면, 극점(505b)은 실수 극점이다.
그러나, 다른 구현들은 보다 많거나 또는 보다 적은 극점들을 포함할 수 있다. 대안적인 구현들은 또한 상이한 크기들 또는 형태들의 제한 면적들을 포함할 수 있다. 몇몇 예들이 도 5D 및 도 5E에 도시되며, 이하에 설명된다.
몇몇 구현들에서, 오디오 데이터의 상이한 채널들은 동일한 제한 면적들을 공유한다. 그러나, 대안적인 구현들에서, 오디오 데이터의 채널들은 동일한 제한 면적들을 공유하지 않는다. 오디오 데이터의 채널들이 동일한 제한 면적들을 공유하는지 여부에 관계없이, 극점들은 각각의 오디오 채널에 대해 독립적으로 디더링될 수 있다(또는 그 외 이동될 수 있다).
극점(505a)의 샘플 궤적은 제한 면적(510a) 내에서 화살표들에 의해 표시된다. 각각의 화살표는 극점(505a)의 움직임 또는 "스트라이드"(520)를 나타낸다. 도 5A에 도시되지 않지만, 복소 공액 쌍의 두 개의 극점들, 극점들(505a 및 505c)은 나란히 이동하며, 따라서 극점들은 그것들의 공액 관계를 유지한다.
몇몇 구현들에서, 극점의 움직임은 최대 스트라이드 값을 변경함으로써 제어될 수 있다. 상기 최대 스트라이드 값은 가장 최근의 극점 위치로부터의 최대 극점 변위에 대응할 수 있다. 최대 스트라이드 값은 최대 스트라이드 값과 같은 반경을 가진 원을 정의할 수 있다.
하나의 이러한 예는 도 5A에 도시된다. 극점(505a)은 스트라이드(520a)에 의해 그것의 초기 위치에서 위치(505a')로 변위된다. 스트라이드(520a)는 이전 최대 스트라이드 값, 예로서 초기 최대 스트라이드 값에 따라 제한될 수 있다. 극점(505a)이 그것의 초기 위치로부터 위치(505a')로 이동한 후, 새로운 최대 스트라이드 값이 결정된다. 상기 최대 스트라이드 값은 최대 스트라이드 원(525)을 정의하며, 이것은 최대 스트라이드 값과 같은 반경을 가진다. 도 5A에 도시된 예에서, 다음 스트라이드(스트라이드(520b))는 최대 스트라이드 값과 동일하게 된다. 그러므로, 스트라이드(520b)는 최대 스트라이드 원(525)의 원주 상에서 극점을 위치(505a")로 이동시킨다. 그러나 스트라이드들(520)은 일반적으로 최대 스트라이드 값보다 작을 수 있다.
몇몇 구현들에서, 최대 스트라이드 값은 각각의 스트라이드 후 리셋될 수 있다. 다른 구현들에서, 최대 스트라이드 값은 다수의 스트라이드들 후 및/또는 오디오 데이터에서의 변화들에 따라 리셋될 수 있다.
최대 스트라이드 값은 다양한 방식들로 결정되고 및/또는 제어될 수 있다. 몇몇 구현들에서, 최대 스트라이드 값은 적어도 부분적으로, 역상관 필터가 적용될 오디오 데이터의 하나 이상의 속성들에 기초할 수 있다.
예를 들면, 최대 스트라이드 값은 적어도 부분적으로 조성 정보 및/또는 과도 정보에 기초할 수 있다. 몇몇 이러한 구현들에 따르면, 최대 스트라이드 값은 극점들에서 작은 변화가 발생하게 하거나 또는 어떤 변화도 발생하게 하지 않는, 오디오 데이터(피치 파이프, 하프시코드 등을 위한 오디오 데이터와 같은)의 고도 계조 신호들에 대해 0에 있거나 또는 0에 가까울 수 있다. 몇몇 구현들에서, 최대 스트라이드 값은 과도 신호(폭발, 문 닫힘 등에 대한 오디오 데이터)에서의 공격의 인스턴스에서 0에 있거나 또는 0에 가까울 수 있다. 그 뒤에(예를 들면, 몇 블록들의 시간 기간에 걸쳐), 최대 스트라이드 값은 보다 큰 값으로 램핑될 수 있다.
몇몇 구현들에서, 조성 및/또는 과도 정보는 오디오 데이터의 하나 이상의 속성들에 기초하여, 디코더에서 검출될 수 있다. 예를 들면, 조성 및/또는 과도 정보는 도 6B 및 도 6C를 참조하여 이하에 설명되는, 제어 정보 수신기/발생기(640)와 같은 모듈에 의해 오디오 데이터의 하나 이상의 속성들에 따라 결정될 수 있다. 대안적으로, 명시적 조성 및/또는 과도 정보는 예를 들면, 조성 및/또는 과도 플래그들을 통해, 인코더로부터 송신되고 디코더에 의해 수신된 비트스트림에서 수신될 수 있다.
이러한 구현에서, 극점의 움직임은 디더링 파라미터들에 따라 제어될 수 있다. 따라서, 극점의 움직임이 최대 스트라이드 값에 따라 제한될 수 있는 반면, 극점 움직임의 방향 및/또는 정도는 랜덤 또는 준-랜덤 구성요소를 포함할 수 있다. 예를 들면, 극점의 움직임은 적어도 부분적으로 소프트웨어에 구현된 랜덤 수 발생기 또는 의사-랜덤 수 발생기 알고리즘의 출력에 기초할 수 있다. 이러한 소프트웨어는 비-일시적 매체상에 저장되며 로직 시스템에 의해 실행될 수 있다.
그러나, 대안적인 구현들에서, 역상관 필터 파라미터들은 디더링 파라미터들을 수반하지 않을 수 있다. 대신에, 극점 움직임이 미리 결정된 극점 위치들에 제한될 수 있다. 예를 들면, 미리 결정된 극점 위치들의 수는 최대 스트라이드 값에 의해 정의된 반경 내에 있을 수 있다. 로직 시스템은 다음 극점 위치로서 이들 미리 결정된 극점 위치들 중 하나를 랜덤하게 또는 의사-랜덤하게 선택할 수 있다.
다양한 다른 방법들은 극점 움직임을 제어하기 위해 이용될 수 있다. 몇몇 구현들에서, 극점이 제한 면적의 경계에 도달한다면, 극점 움직임들의 선택은 제한 면적의 중심에 더 가까운 새로운 극점 위치들을 향해 바이어싱될 수 있다. 예를 들면, 극점(505a)이 제한 면적(510a)의 경계를 향해 이동한다면, 최대 스트라이드 원(525)의 중심은 제한 면적(510a)의 중심을 향해 안쪽으로 시프트될 수 있으며, 따라서 최대 스트라이드 원(525)은 항상 제한 면적(510a)의 경계 내에 있다.
몇몇 이러한 구현들에서, 가중 함수는 제한 면적 경계로부터 떨어져 극점 위치를 이동시키려는 경향이 있는 바이어스를 생성하기 위해 적용될 수 있다. 예를 들면, 최대 스트라이드 원(525) 내에서의 미리 결정된 극점 위치들은 다음 극점 위치로서 선택되는 동일한 가능성들을 할당받지 않을 수 있다. 대신에, 제한 면적의 중심에 더 가까운 미리 결정된 극점 위치들은 제한 면적의 중심으로부터 비교적 더 먼 미리 결정된 극점 위치들보다 더 높은 가능성을 할당받을 수 있다. 몇몇 이러한 구현들에 따르면, 극점(505a)이 제한 면적(510a)의 경계에 가까울 때, 다음 극점 움직임은 제한 면적(510a)의 중심을 향할 가능성이 더 높다.
이 예에서, 극점(505b)의 위치들이 또한 변하지만, 극점(505b)이 계속해서 실수인 채로 있도록 제어된다. 따라서, 극점(505b)의 위치들은 제한 면적(510b)의 직경(530)을 따라 항행하도록 제한된다. 대안적인 구현들에서, 그러나, 극점(505b)은 가상 구성요소를 가진 위치들로 이동될 수 있다.
다른 구현들에서, 모든 극점들의 위치들은 단지 반경들을 따라 이동하도록 제한될 수 있다. 몇몇 이러한 구현들에서, 극점 위치에서의 변화들은 단지 극점들을 증가시키거나 또는 감소시키지만(크기에 대하여) 그것들의 위상에 영향을 미치지 않는다. 이러한 구현들은 예를 들면, 선택된 반향 시간 상수를 부여하기에 유용할 수 있다.
보다 높은 주파수들에 대응하는 주파수 계수들에 대한 극점들은 보다 낮은 주파수들에 대응하는 주파수 계수들에 대한 극점들보다 단위 원(515)의 중심에 비교적 더 가까울 수 있다. 우리는 예시적인 구현을 예시하기 위해, 도 5A의 변형인, 도 5B를 사용할 것이다. 여기에서, 주어진 시간 인스턴트에서, 삼각형들(505a"', 505b"' 및 505c"')은 그것들의 시간 변화를 기술하는 디더링 또는 몇몇 다른 프로세스 후 획득된 주파수(f0)에서의 극점 위치들을 표시한다. 505a"'에서의 극점은 z1에 의해 표시되게 하며 505b"'에서의 극점은 z2에 의해 표시되게 하자. 505c"'에서의 극점은 505a"'에서의 극점의 복소 공액이며 따라서
Figure 112015078534456-pct00003
에 의해 표현되며 여기에서 별표는 복소 공액을 표시한다.
임의의 다른 주파수(f)에서 사용된 필터에 대한 극점들은 인자(a(f)/a(f0))에 의해 극점들(z1, z2
Figure 112015078534456-pct00004
)을 스케일링함으로써 이 예에서 획득되며, 여기에서 a(f)는 오디오 데이터 주파수(f)에 따라 감소하는 함수이다. f=f0일 때, 스케일링 인자는 1과 같으며 극점들은 예상된 위치들에 있다. 몇몇 이러한 구현들에 따르면, 보다 작은 그룹 지연들이 보다 낮은 주파수들에 대응하는 주파수 계수들에보다는 보다 높은 주파수들에 대응하는 주파수 계수들에 적용될 수 있다. 여기에서 설명된 실시예에서, 극점들은 하나의 주파수에서 디더링되며 다른 주파수들에 대한 극점 위치들을 획득하기 위해 스케일링된다. 주파수(f0)는 예를 들면 커플링 시작 주파수일 수 있다. 대안적인 구현들에서, 극점들은 각각의 주파수에서 별개로 디더링될 수 있으며 제한 면적들(510a, 510b, 및 510c)은 보다 낮은 주파수들에 비교하여 보다 높은 주파수들에서 근원지에 실질적으로 더 가까울 수 있다.
여기에 설명된 다양한 구현들에 따르면, 극점들(505)은 이동 가능할 수 있지만, 서로에 대하여 실질적으로 일관된 공간 또는 각도 관계를 유지할 수 있다. 몇몇 이러한 구현들에서, 극점들(505)의 움직임들은 제한 면적들에 따라 제한되지 않을 수 있다.
도 5C는 하나의 이러한 예를 도시한다. 이 예에서, 복소 공액 극점들(505a 및 505c)은 단위 원(515) 내에서 시계 또는 반시계 방향으로 이동 가능할 수 있다. 극점들(505a 및 505c)이 이동될 때(예를 들면, 미리 결정된 시간 간격에서), 양쪽 극점들은 랜덤하게 또는 준-랜덤하게 선택되는 각도(θ)만큼 회전될 수 있다. 몇몇 실시예들에서, 이러한 각 운동은 최대 각도 스트라이드 값에 따라 제한될 수 있다. 도 5C에 도시된 예에서, 극점(505a)은 시계 방향으로 각도(θ)만큼 이동되었다. 따라서, 극점(505c)은 극점(505a) 및 극점(505c) 사이에서 복소 공액 관계를 유지하기 위해, 반시계 방향으로 각도(θ)만큼 이동되었다.
이 예에서, 극점(505b)은 실수 축을 따라 이동하기 위해 제한된다. 몇몇 이러한 구현들에서, 극점들(505a 및 505c)은 또한 예로서, 도 5B를 참조하여 상기 설명된 바와 같이, 단위 원(515)의 중심을 향해 또는 그로부터 떨어져 이동 가능할 수 있다. 대안적인 구현들에서, 극점(505b)은 이동되지 않을 수 있다. 다른 구현들에서, 극점(505b)은 실수 축으로부터 이동될 수 있다.
도 5A 및 도 5B에 도시된 예들에서, 제한 면적들(510a, 510b 및 510c)은 원형이다. 그러나, 다양한 다른 제한 면적 형태들이 본 발명자들에 의해 고려된다. 예를 들면, 도 5D의 제한 면적(510d)은 실질적으로 형태가 타원형이다. 극점(505d)은 타원형 제한 면적(510d) 내에서의 다양한 위치들에 위치될 수 있다. 도 5E의 예에서, 제한 면적(510e)은 환형이다. 극점(505e)은 환형의 제한 면적(510d) 내에서 다양한 위치들에 위치될 수 있다.
이제 도 3으로 가면, 블록(325)에서, 역상관 필터는 오디오 데이터의 적어도 몇몇에 적용된다. 예를 들면, 도 4의 상기 역상관 신호 발생기(218)는 입력 오디오 데이터(220)의 적어도 몇몇에 역상관 필터를 적용할 수 있다. 역상관 필터(227)의 출력은 입력 오디오 데이터(220)와 상관되지 않을 수 있다. 게다가, 역상관 필터의 출력은 입력 신호와 실질적으로 동일한 전력 스펙트럼 밀도를 가질 수 있다. 그러므로, 역상관 필터(227)의 출력은 자연스럽게 들린다. 블록(330)에서, 역상관 필터의 출력은 입력 오디오 데이터와 믹싱된다. 블록(335)에서, 역상관된 오디오 데이터가 출력된다. 도 4의 예에서, 블록(330)에서, 믹서(215)는 입력 오디오 데이터(220)(여기에서 "직접 오디오 데이터"로서 불리울 수 있는)와 역상관 필터(227)(여기에서 "필터링된 오디오 데이터"로서 불리울 수 있는)의 출력을 결합한다. 블록(335)에서, 믹서(215)는 역상관된 오디오 데이터(230)를 출력한다. 블록(340)에서 보다 많은 오디오 데이터가 프로세싱될 것이라고 결정된다면, 역상관 프로세스(300)는 블록(305)으로 되돌아간다. 그렇지 않다면, 역상관 프로세스(300)는 종료된다.(블록 345).
도 6A는 역상관기의 대안적인 구현을 예시하는 블록도이다. 이 예에서, 믹서(215) 및 역상관 신호 발생기(218)는 복수의 채널들에 대응하는 오디오 데이터 요소들(220)을 수신한다. 오디오 데이터 요소들(220) 중 적어도 몇몇은 예를 들면, 도 2D의 업믹싱기(225)와 같은, 업믹싱기로부터 출력될 수 있다.
여기에서, 믹서(215) 및 역상관 신호 발생기(218)는 또한 다양한 유형들의 역상관 정보를 수신한다. 몇몇 구현들에서, 역상관 정보의 적어도 몇몇은 오디오 데이터 요소들(220)과 함께 비트스트림에서 수신될 수 있다. 대안적으로, 또는 부가적으로, 역상관 정보의 적어도 몇몇은 국소적으로, 예로서 역상관기(205)의 다른 구성요소들에 의해 또는 오디오 프로세싱 시스템(200)의 하나 이상의 다른 구성요소들에 의해 결정될 수 있다.
이 예에서, 수신된 역상관 정보는 역상관 신호 발생기 제어 정보(625)를 포함한다. 역상관 신호 발생기 제어 정보(625)는 역상관 필터 정보, 이득 정보, 입력 제어 정보 등을 포함할 수 있다. 상기 역상관 신호 발생기는 적어도 부분적으로 상기 역상관 신호 발생기 제어 정보(625)에 기초하여 상기 역상관 신호들(227)을 생성한다.
여기에서, 수신된 역상관 정보는 또한 과도 제어 정보(430)를 포함한다. 역상관기(205)가 과도 제어 정보(430)를 어떻게 사용하고 및/또는 발생시킬 수 있는지에 대한 다양한 예들이 본 개시에서의 다른 곳에 제공된다.
이러한 구현에서, 믹서(215)는 합성기(605) 및 직접 신호 및 역상관 신호 믹서(610)를 포함한다. 이 예에서, 합성기(605)는 역상관 신호 발생기(218)로부터 수신된 역상관 신호들(227)과 같은, 역상관 또는 리버브 신호들의 출력-채널-특정 결합기이다. 몇몇 이러한 구현들에 따르면, 합성기(605)는 역상관 또는 리버브 신호들의 선형 결합기일 수 있다. 이 예에서, 역상관 신호들(227)은, 하나 이상의 역상관 필터들이 역상관 신호 발생기에 의해 적용된, 복수의 채널들에 대한 오디오 데이터 요소들(220)에 대응한다. 따라서, 역상관 신호들(227)은 또한 여기에서 "필터링된 오디오 데이터" 또는 "필터링된 오디오 데이터 요소들"로서 불리울 수 있다.
여기에서, 직접 신호 및 역상관 신호 믹서(610)는 역상관된 오디오 데이터(230)를 생성하기 위해, 복수의 채널들에 대응하는 "직접" 오디오 데이터 요소들(220)을 가진 필터링된 오디오 데이터 요소들의 출력-채널-특정 결합기이다. 따라서, 역상관기(205)는 오디오 데이터의 채널-특정 및 비-계층적 역상관을 제공할 수 있다.
이 예에서, 합성기(605)는 또한 여기에서 "역상관 신호 합성 계수들"로서 불리울 수 있는, 역상관 신호 합성 파라미터들(615)에 따라 역상관 신호들(227)을 결합한다. 유사하게, 직접 신호 및 역상관 신호 믹서(610)는 믹싱 계수들(620)에 따라 직접 및 필터링된 오디오 데이터 요소들을 결합한다. 상기 역상관 신호 합성 파라미터들(615) 및 믹싱 계수들(620)은 적어도 부분적으로 수신된 역상관 정보에 기초할 수 있다.
여기에서, 수신된 역상관 정보는 이 예에서 채널-특정적인, 공간 파라미터 정보(630)를 포함한다. 몇몇 구현들에서, 믹서(215)는 적어도 부분적으로 공간 파라미터 정보(630)에 기초하여 역상관 신호 합성 파라미터들(615) 및/또는 믹싱 계수들(620)을 결정하도록 구성될 수 있다. 이 예에서, 수신된 역상관 정보는 또한 다운믹스/업믹스 정보(635)를 포함한다. 예를 들면, 다운믹스/업믹스 정보(635)는 오디오 데이터의 얼마나 많은 채널들이 다운믹싱된 오디오 데이터를 생성하기 위해 결합되었는지를 표시할 수 있으며, 이것은 커플링 채널 주파수 범위에서의 하나 이상의 커플링 채널들에 대응할 수 있다. 다운믹스/업믹스 정보(635)는 또한 원하는 출력 채널들의 수 및/또는 출력 채널들의 특성들을 표시할 수 있다. 도 2E를 참조하여 상기 설명된 바와 같이, 몇몇 구현들에서, 다운믹스/업믹스 정보(635)는 N-대-M 업믹싱기/다운믹싱기(262)에 의해 수신된 믹싱 정보(266) 및/또는 M-대-K 업믹싱기/다운믹싱기(264)에 의해 수신된 믹싱 정보(268)에 대응하는 정보를 포함할 수 있다.
도 6B는 역상관기의 또 다른 구현을 예시하는 블록도이다. 이 예에서, 역상관기(205)는 제어 정보 수신기/발생기(640)를 포함한다. 여기에서, 제어 정보 수신기/발생기(640)는 오디오 데이터 요소들(220 및 245)을 수신한다. 이 예에서, 대응하는 오디오 데이터 요소들(220)은 또한 믹서(215) 및 역상관 신호 발생기(218)에 의해 수신된다. 몇몇 구현들에서, 오디오 데이터 요소들(220)은 커플링 채널 주파수 범위에서의 오디오 데이터에 대응할 수 있는 반면, 오디오 데이터 요소들(245)은 커플링 채널 주파수 범위 밖에 있는 하나 이상의 주파수 범위들에 있는 오디오 데이터에 대응할 수 있다.
이러한 구현에서, 제어 정보 수신기/발생기(640)는 역상관 정보(240) 및/또는 오디오 데이터 요소들(220 및/또는 245)에 따라 역상관 신호 발생기 제어 정보(625) 및 믹서 제어 정보(645)를 결정한다. 제어 정보 수신기/발생기(640) 및 그것의 기능에 대한 몇몇 예들이 이하에 설명된다.
도 6C는 오디오 프로세싱 시스템의 대안적인 구현을 예시한다. 이 예에서, 오디오 프로세싱 시스템(200)은 역상관기(205), 스위치(203) 및 역 변환 모듈(255)을 포함한다. 몇몇 구현들에서, 스위치(203) 및 역 변환 모듈(255)은 실질적으로 도 2A에 대하여 상기 설명된 바와 같을 수 있다. 유사하게, 믹서(215) 및 역상관 신호 발생기는 실질적으로 여기에서의 다른 곳에 설명된 바와 같을 수 있다.
제어 정보 수신기/발생기(640)는 특정 구현에 따라, 상이한 기능을 가질 수 있다. 이러한 구현에서, 제어 정보 수신기/발생기(640)는 필터 제어 모듈(650), 과도 제어 모듈(655), 믹서 제어 모듈(660) 및 공간 파라미터 모듈(665)을 포함한다. 오디오 프로세싱 시스템(200)의 다른 구성요소들과 마찬가지로, 제어 정보 수신기/발생기(640)의 요소들은 하드웨어, 펌웨어, 비-일시적 매체상에 저장된 소프트웨어 및/또는 그것의 결합들을 통해 구현될 수 있다. 몇몇 구현들에서, 이들 구성요소들은 본 개시에서의 다른 곳에 설명된 바와 같은 로직 시스템에 의해 구현될 수 있다.
필터 제어 모듈(650)은 예를 들면, 도 2E 내지 도 5E를 참조하여 상기 설명된 바와 같이 및/또는 도 11B를 참조하여 이하에 설명된 바와 같이 역상관 신호 발생기를 제어하도록 구성될 수 있다. 과도 제어 모듈(655) 및 믹서 제어 모듈(660)의 기능의 다양한 예들이 이하에 제공된다.
이 예에서, 제어 정보 수신기/발생기(640)는 오디오 데이터 요소들(220 및 245)을 수신하며, 이것은 스위치(203) 및/또는 역상관기(205)에 의해 수신된 오디오 데이터의 적어도 일 부분을 포함할 수 있다. 상기 오디오 데이터 요소들(220)은 믹서(215) 및 역상관 신호 발생기(218)에 의해 수신된다. 몇몇 구현들에서, 오디오 데이터 요소들(220)은 커플링 채널 주파수 범위에서의 오디오 데이터에 대응할 수 있는 반면, 오디오 데이터 요소들(245)은 커플링 채널 주파수 범위의 밖에 있는 주파수 범위에 있는 오디오 데이터에 대응할 수 있다. 예를 들면, 오디오 데이터 요소들(245)은 커플링 채널 주파수 범위의 것 위 및/또는 아래에 있는 주파수 범위에 있는 오디오 데이터에 대응할 수 있다.
이러한 구현에서, 제어 정보 수신기/발생기(640)는 역상관 정보(240), 오디오 데이터 요소들(220) 및/또는 오디오 데이터 요소들(245)에 따라 역상관 신호 발생기 제어 정보(625) 및 믹서 제어 정보(645)를 결정한다. 제어 정보 수신기/발생기(640)는 역상관 신호 발생기 제어 정보(625) 및 믹서 제어 정보(645)를 각각 역상관 신호 발생기(218) 및 믹서(215)에 제공한다.
몇몇 구현들에서, 제어 정보 수신기/발생기(640)는 조성 정보를 결정하기 위해 및 적어도 부분적으로 상기 조성 정보에 기초하여 역상관 신호 발생기 제어 정보(625) 및/또는 믹서 제어 정보(645)를 결정하도록 구성될 수 있다. 예를 들면, 제어 정보 수신기/발생기(640)는 역상관 정보(240)의 일부로서, 조성 플래그들과 같은, 명시적 조성 정보를 통해 명시적 조성 정보를 수신하도록 구성될 수 있다. 제어 정보 수신기/발생기(640)는 수신된 명시적 조성 정보를 프로세싱하도록 및 조성 제어 정보를 결정하도록 구성될 수 있다.
예를 들면, 제어 정보 수신기/발생기(640)가 커플링 채널 주파수 범위에서의 오디오 데이터가 고도 계조임을 결정한다면, 제어 정보 수신기/발생기(640)는 최대 스트라이드 값이, 극점들에서의 작은 변화들이 발생하게 하거나 또는 어떤 변화도 발생하지 않게 하는, 0 또는 거의 0으로 설정되어야 함을 표시하는 역상관 신호 발생기 제어 정보(625)를 제공하도록 구성될 수 있다. 그 다음에(예를 들면, 몇 개의 블록들의 시간 기간에 걸쳐), 최대 스트라이드 값은 보다 큰 값으로 램핑될 수 있다. 몇몇 구현들에서, 제어 정보 수신기/발생기(640)가 커플링 채널 주파수 범위에서의 오디오 데이터가 고도 계조임을 결정한다면, 제어 정보 수신기/발생기(640)는 공간 파라미터들의 추정에서 사용된 에너지들과 같은, 다양한 양들을 산출할 때 비교적 더 높은 평활도가 적용될 수 있음을 공간 파라미터 모듈(665)에 표시하도록 구성될 수 있다. 고도 계조 오디오 데이터를 결정하기 위한 응답들의 다른 예들이 여기에서의 다른 곳에 제공된다.
몇몇 구현들에서, 제어 정보 수신기/발생기(640)는 오디오 데이터(220)의 하나 이상의 속성들에 따라 및/또는 지수 정보 및/또는 지수 전략 정보와 같은, 역상관 정보(240)를 통해 수신되는 레거시 오디오 코드의 비트스트림으로부터의 정보에 따라 조성 정보를 결정하도록 구성될 수 있다.
예를 들면, E-AC-3 오디오 코덱에 따라 인코딩된 오디오 데이터의 비트스트림에서, 변환 계수들에 대한 지수들은 상이하게 코딩된다. 주파수 범위에서의 절대 지수 차들의 합은 로그-규모 도메인에서 신호의 스펙트럼 엔벨로프를 따라 이동된 거리의 측정치이다. 피치-파이프 및 하프시코드와 같은 신호들은 피켓-펜스 스펙트럼을 가지며 그러므로 이러한 거리가 측정되는 경로는 많은 피크들 및 밸리들에 의해 특성화된다. 따라서, 이러한 신호들에 대해, 동일한 주파수 범위에서의 스펙트럼 엔벨로프를 따라 이동된 거리는 비교적 평평한 스펙트럼을 갖는, 예로서 박수 또는 비에 대응하는 오디오 데이터에 대한 신호들에 대한 것보다 더 크다.
그러므로, 몇몇 구현들에서, 제어 정보 수신기/발생기(640)는 커플링 채널 주파수 범위에서의 지수 차들에 따라, 적어도 부분적으로 기초하여 조성 메트릭을 결정하도록 구성될 수 있다. 예를 들면, 제어 정보 수신기/발생기(640)는 커플링 채널 주파수 범위에서의 평균 절대 지수 차에 기초하여 조성 메트릭을 결정하도록 구성될 수 있다. 몇몇 이러한 구현들에 따르면, 조성 메트릭은 단지 커플링 지수 전략이 프레임에서의 모든 블록들에 대해 공유되며 지수 주파수 공유를 표시하지 않을 때만 산출되고, 이 경우에 하나의 주파수 빔에서 다음으로 지수 차를 정의하는 것은 의미가 있다. 몇몇 구현들에 따르면, 조성 메트릭은 단지 E-AC-3 적응적 하이브리드 변환("AHT") 플래그가 커플링 채널을 위해 설정되는 경우에 산출된다.
조성 메트릭이 E-AC-3 오디오 데이터의 절대 지수 차로서 결정된다면, 몇몇 구현들에서, 조성 메트릭은, -2, -1, 0, 1, 및 2가 E-AC-3에 따라 허용된 유일한 지수 차들이기 때문에, 0 및 2 사이에서의 값을 취할 수 있다. 하나 이상의 조성 임계치들은 계조 및 비-계조 신호들을 구별하기 위해 설정될 수 있다. 예를 들면, 몇몇 구현들은 조성 상태에 들어가기 위한 하나의 임계치 및 조성 상태를 빠져나오기 위한 또 다른 임계치를 설정하는 것을 수반한다. 조성 상태를 빠져나오기 위한 임계치는 조성 상태에 들어가기 위한 임계치보다 낮을 수 있다. 이러한 구현들은 히스테리시스의 정도를 제공하여, 상부 임계치 약간 아래의 조성 값들이 부주의로 조성 상태 변화를 야기하지 않도록 할 것이다. 일 예에서, 조성 상태를 빠져나오기 위한 임계치는 0.40인 반면, 조성 상태에 들어가기 위한 임계치는 0.45이다. 그러나, 다른 구현들은 보다 많거나 또는 보다 적은 임계치들을 포함할 수 있으며, 임계치들은 상이한 값들을 가질 수 있다.
몇몇 구현들에서, 조성 메트릭 산출은 신호에 존재하는 에너지에 따라 가중될 수 있다. 이러한 에너지는 지수들로부터 직접 도출될 수 있다. 로그 에너지 메트릭은, 지수들이 E-AC-3에서의 2의 음의 배율들로서 표현되기 때문에, 지수들에 반 비례할 수 있다. 이러한 구현들에 따르면, 에너지가 낮은 스펙트럼의 이들 부분들은 에너지가 높은 스펙트럼의 이들 부분들보다 전체 조성 메트릭에 덜 기여할 것이다. 몇몇 구현들에서, 조성 메트릭 산출은 단지 프레임의 블록 0 상에서만 실행될 수 있다.
도 6C에 도시된 예에서, 믹서(215)로부터의 역상관된 오디오 데이터(230)가 스위치(203)에 제공된다. 몇몇 구현들에서, 스위치(203)는 직접 오디오 데이터(220) 및 역상관된 오디오 데이터(230)의 어떤 구성요소들이 역 변환 모듈(255)에 전송될지를 결정할 수 있다. 따라서, 몇몇 구현들에서, 오디오 프로세싱 시스템(200)은 오디오 데이터 구성요소들의 선택적 또는 신호-적응적 역상관을 제공할 수 있다. 예를 들면, 몇몇 구현들에서, 오디오 프로세싱 시스템(200)은 오디오 데이터의 특정 채널들의 선택적 또는 신호-적응적 역상관을 제공할 수 있다. 대안적으로, 또는 부가적으로, 몇몇 구현들에서, 오디오 프로세싱 시스템(200)은 오디오 데이터의 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 제공할 수 있다.
오디오 프로세싱 시스템(200)의 다양한 구현들에서, 제어 정보 수신기/발생기(640)는 오디오 데이터(220)의 공간 파라미터들의 하나 이상의 유형들을 결정하도록 구성될 수 있다. 몇몇 구현들에서, 적어도 몇몇 이러한 기능은 도 6C에 도시된 공간 파라미터 모듈(665)에 의해 제공될 수 있다. 몇몇 이러한 공간 파라미터들은 개별 이산 채널들 및 커플링 채널 사이에서의 상관 계수들일 수 있으며, 이것은 또한 여기에서 "알파들(alphas)"로서 불리울 수 있다. 예를 들면, 커플링 채널이 4개의 채널들을 위한 오디오 데이터를 포함한다면, 각각의 채널에 대해 1개의 알파인, 4개의 알파들이 있을 수 있다. 몇몇 이러한 구현들에서, 4개의 채널들은 좌측 채널("L"), 우측 채널("R"), 좌측 서라운드 채널("Ls") 및 우측 서라운드 채널("Rs")일 수 있다. 몇몇 구현들에서, 커플링 채널은 상기 설명된 채널들 및 중심 채널에 대한 오디오 데이터를 포함할 수 있다. 알파는, 중심 채널이 역상관될지 여부에 의존하여, 중심 채널에 대해 산출되거나 또는 산출되지 않을 수 있다. 다른 구현들은 보다 크거나 또는 보다 작은 수의 채널들을 수반할 수 있다.
다른 공간 파라미터들은 개별 이산 채널들의 쌍들 사이에서의 상관을 표시하는 채널-간 상관 계수들일 수 있다. 여기에서, 이러한 파라미터들은 때때로 "채널-간 코히어런스" 또는 "ICC"를 반영한 것으로서 불리울 수 있다. 상기 언급된 4-채널 예에서, L-R 쌍, L-Ls 쌍, L-Rs 쌍, R-Ls 쌍, R-Rs 쌍 및 Ls-Rs 쌍에 대해, 수반된 6개의 ICC 값들이 있을 수 있다.
몇몇 구현들에서, 제어 정보 수신기/발생기(640)에 의한 공간 파라미터들의 결정은 예를 들면, 역상관 정보(240)를 통해 비트스트림에서 명시적 공간 파라미터들을 수신하는 것을 수반할 수 있다. 대안적으로, 또는 부가적으로, 제어 정보 수신기/발생기(640)는 적어도 몇몇 공간 파라미터들을 추정하도록 구성될 수 있다. 상기 제어 정보 수신기/발생기(640)는 적어도 부분적으로, 공간 파라미터들에 기초하여 믹싱 파라미터들을 결정하도록 구성될 수 있다. 따라서, 몇몇 구현들에서, 공간 파라미터들의 결정 및 프로세싱에 관한 기능들이, 적어도 부분적으로, 믹서 제어 모듈(660)에 의해 실행될 수 있다.
도 7A 및 도 7B는 공간 파라미터들의 간소화된 예시를 제공하는 벡터 다이어그램들이다. 도 7A 및 도 7B는 N-차원 벡터 공간에서 신호들의 3-D 개념 표현으로 고려될 수 있다. 각각의 N-차원 벡터는 N개의 좌표들이 임의의 N개의 독립적인 시험들에 대응하는 실수-또는 복소-값 랜덤 변수를 나타낼 수 있다. 예를 들면, N개의 좌표들은 주파수 범위 내에서 및/또는 시간 간격 내에서(예로서, 몇 개의 오디오 블록들 동안) 신호의 N개의 주파수-도메인 계수들의 컬렉션에 대응할 수 있다.
먼저 도 7A의 좌측 패널을 참조하면, 이러한 벡터 다이어그램은 좌측 입력 채널(lin), 우측 입력 채널(rin) 및 커플링 채널(xmono), lin 및 rin을 합산함으로써 형성된 모노 다운믹스 사이에서의 공간 관계들을 나타낸다. 도 7A는 인코딩 장치에 의해 실행될 수 있는, 커플링 채널을 형성하는 간소화된 예이다. 좌측 입력 채널(lin) 및 커플링 채널(xmono) 사이에서의 상관 계수는 αL이며 우측 입력 채널(rin) 및 커플링 채널 사이에서의 상관 계수는 αR이다. 따라서, 좌측 입력 채널(lin) 및 커플링 채널(xmono)를 나타내는 벡터들 사이에서의 각도(θL)는 arccos(αL)과 같으며 우측 입력 채널(rin) 및 커플링 채널(xmono)을 나타내는 벡터들 사이에서의 각도(θR)는 arccos(αR)과 같다.
도 7A의 우측 패널은 커플링 채널로부터 개개의 출력 채널을 역상관하는 간소화된 예를 도시한다. 이러한 유형의 역상관 프로세스는 예를 들면, 디코딩 장치에 의해 실행될 수 있다. 커플링 채널(xmono)로 상관되지 않은(그것에 수직하는) 역상관 신호(yL)를 발생시키며 적절한 가중들을 사용하여 그것을 커플링 채널(xmono)과 믹싱함으로써, 개개의 출력 채널(이 예에서 lout)의 진폭 및 커플링 채널(xmono)로부터 그것의 각도 간격은 개개의 입력 채널의 진폭 및 커플링 채널과의 그것의 공간 관계를 정확하게 반영할 수 있다. 역상관 신호(yL)는 커플링 채널(xmono)과 동일한 전력 분포(여기에서 벡터 길이로 표현된)를 가져야 한다. 이 예에서,
Figure 112015078534456-pct00005
.
Figure 112015078534456-pct00006
을 표시함으로써,
Figure 112015078534456-pct00007
.
그러나, 개별 이산 채널들 및 커플링 채널 사이에서의 공간 관계를 복원하는 것은 이산 채널들 사이에서의 공간 관계(ICC들로서 표현된)의 회복을 보장하지 않는다. 이 사실은 도 7B에 예시된다. 도 7B에서의 두 개의 패널들은 두 개의 극한 경우들을 도시한다. lout 및 rout 사이에서의 간격은, 도 7B의 좌측 패널에 도시된 바와 같이, 역상관 신호들(yL 및 yR)이 180°만큼 분리될 때 최대화된다. 이 경우에, 좌측 및 우측 채널들 사이에서의 ICC는 최소화되며 lout 및 rout 사이에서의 위상 다이버시티는 최대화된다. 반대로, 도 7B의 우측 패널에 도시된 바와 같이, lout 및 rout 사이에서의 간격은 역상관 신호들(yL 및 yR)이 0°만큼 분리될 때 최소화된다. 이 경우에, 좌측 및 우측 채널들 사이에서의 ICC는 최대화되며 lout 및 rout 사이에서의 위상 다이버시티는 최소화된다.
도 7B에 도시된 예들에서, 예시된 벡터들의 모두가 동일한 평면에 있다. 다른 예들에서, yL 및 yR은 서로에 대하여 다른 각도들에서 위치될 수 있다. 그러나, yL 및 yR은 커플링 채널(xmono)에 대하여 수직이거나 또는 적어도 실질적으로 수직임이 바람직하다. 몇몇 예들에서, yL 및 yR은 적어도 부분적으로, 도 7B의 평면에 직교하는 평면으로 연장될 수 있다.
이산 채널들이 궁극적으로 청취자들에게 재생되며 제공되기 때문에, 이산 채널들(ICC들) 사이에서의 공간 관계들의 적절한 복원은 오디오 데이터의 공간 특성들의 복원을 상당히 개선할 수 있다. 도 7B의 예들에 의해 보여질 수 있는 바와 같이, ICC들의 정확한 복원은 서로 적절한 공간 관계들을 갖는 역상관 신호들(여기에서, yL 및 yR)을 생성하는 것에 의존한다. 역상관 신호들 사이에서의 이러한 상관은 여기에서 역상관-신호-간 코히어런스 또는 "IDC"로서 불리울 수 있다.
도 7B의 좌측 패널에서, yL 및 yR 사이에서의 IDC는 -1이다. 상기 언급된 바와 같이, 이러한 IDC는 좌측 및 우측 채널들 사이에서의 최소 ICC와 부합한다. 도 7A의 좌측 패널과 도 7B의 좌측 패널을 비교함으로써, 이 예에서 두 개의 커플링된 채널들로, lout 및 rout 사이에서의 공간 관계는 lin 및 rin 사이에서의 공간 관계를 정확히 반영한다는 것이 관찰될 수 있다. 도 7B의 우측 패널에서, yL 및 yR 사이에서의 IDC는 1(완전한 상관)이다. 도 7A의 좌측 패널과 도 7B의 우측 패널을 비교함으로써, 이 예에서 lout 및 rout 사이에서의 공간 관계는 lin 및 rin 사이에서의 공간 관계를 정확하게 반영하지 않는다는 것을 알 수 있다.
따라서, 공간적으로 인접한 개개의 채널들 사이에서의 IDC를 -1로 설정함으로써, 이들 채널들 사이에서의 ICC는 최소화될 수 있으며 채널들 사이에서의 공간 관계는 이들 채널들이 우세할 때 거의 복원될 수 있다. 이것은 원래 오디오 신호의 사운드 이미지에 지각적으로 근사한 전체 사운드 이미지를 야기한다. 이러한 방법들은 여기에서 "부호-플립(sign-flip)" 방법들로서 불리울 수 있다. 이러한 방법들에서, 실제 ICC들의 어떤 지식도 요구되지 않는다.
도 8A는 여기에 제공된 몇몇 역상관 방법들의 블록들을 예시하는 흐름도이다. 여기에 설명된 다른 방법과 마찬가지로, 방법(800)의 블록들은 표시된 순서로 반드시 실행되는 것은 아니다. 게다가, 방법(800)의 몇몇 구현들 및 다른 방법들은 표시되거나 또는 설명된 것보다 많거나 또는 적은 블록들을 포함할 수 있다. 방법(800)은 블록(802)으로 시작하며, 여기에서 복수의 오디오 채널들에 대응하는 오디오 데이터가 수신된다. 오디오 데이터는 예를 들면 오디오 디코딩 시스템의 구성요소에 의해 수신될 수 있다. 몇몇 구현들에서, 오디오 데이터는 여기에 개시된 역상관기(205)의 구현들 중 하나와 같은, 오디오 디코딩 시스템의 역상관기에 의해 수신될 수 있다. 오디오 데이터는 커플링 채널에 대응하는 오디오 데이터를 업믹싱함으로써 생성된 복수의 오디오 채널들에 대한 오디오 데이터 요소들을 포함할 수 있다. 몇몇 구현들에 따르면, 오디오 데이터는 커플링 채널에 대응하는 오디오 데이터에 채널-특정, 시변 스케일링 인자들을 적용함으로써 업믹싱될 수 있다. 몇몇 예들이 이하에 제공된다.
이 예에서, 블록(804)은 오디오 데이터의 오디오 특성들을 결정하는 것을 수반한다. 여기에서, 오디오 특성들은 공간 파라미터 데이터를 포함한다. 상기 공간 파라미터 데이터는, 개개의 오디오 채널들 및 커플링 채널 사이에서의 상관 계수들인, 알파들을 포함할 수 있다. 블록(804)은 예를 들면, 도 2A 이하를 참조하여 상기 설명된 역상관 정보(240)를 통해, 공간 파라미터 데이터를 수신하는 것을 수반할 수 있다. 대안적으로, 또는 부가적으로, 블록(804)은 국소적으로, 예로서 제어 정보 수신기/발생기(640)(예로서, 도 6B 또는 도 6C 참조)에 의해 공간 파라미터들을 추정하는 것을 수반할 수 있다. 몇몇 구현들에서, 블록(804)은 과도 특성들 또는 조성 특성들과 같은, 다른 오디오 특성들을 결정하는 것을 수반할 수 있다.
여기에서, 블록(806)은 적어도 부분적으로, 오디오 특성들에 기초하여 오디오 데이터에 대한 적어도 두 개의 역상관 필터링 프로세스들을 결정하는 것을 수반한다. 상기 역상관 필터링 프로세스들은 채널-특정 역상관 필터링 프로세스들일 수 있다. 몇몇 구현들에 따르면, 블록(806)에서 결정된 역상관 필터링 프로세스들의 각각은 역상관에 관한 동작들의 시퀀스를 포함한다.
블록(806)에서 결정된 적어도 두 개의 역상관 필터링 프로세스들을 적용하는 것은 채널-특정 역상관 신호들을 생성할 수 있다. 예를 들면, 블록(806)에서 결정된 역상관 필터링 프로세스들을 적용하는 것은 적어도 한 쌍의 채널들에 대한 채널-특정 역상관 신호들 사이에서 특정 역상관 신호-간 코히어런스("IDC")를 야기할 수 있다. 몇몇 이러한 역상관 필터링 프로세스들은 또한 여기에서 역상관 신호들로서 불리우는, 필터링된 오디오 데이터를 생성하기 위해 오디오 데이터(예로서, 도 8B 또는 도 8E의 블록(820)을 참조하여 이하에 설명된 바와 같이)의 적어도 일 부분에 적어도 하나의 역상관 필터를 적용하는 것을 수반할 수 있다. 추가 동작들은 채널-특정 역상관 신호들을 생성하기 위해 필터링된 오디오 데이터에 대해 실행될 수 있다. 몇몇 이러한 역상관 필터링 프로세스들은 도 8B 내지 도 8D를 참조하여 이하에 설명된 측방향 부호-플립 프로세스들 중 하나와 같은, 측방향 부호-플립 프로세스를 수반할 수 있다.
몇몇 구현들에서, 블록(806)에서 동일한 역상관 필터가 역상관될 채널들의 모두에 대응하는 필터링된 오디오 데이터를 생성하기 위해 사용될 것이라고 결정될 수 있는 반면, 다른 구현들에서, 블록(806)에서 상이한 역상관 필터가 역상관될 적어도 몇몇 채널들에 대한 필터링된 오디오 데이터를 생성하기 위해 사용될 것이라고 결정될 수 있다. 몇몇 구현들에서, 블록(806)에서 중심 채널에 대응하는 오디오 데이터가 역상관되지 않을 것임이 결정될 수 있는 반면, 다른 구현들에서 블록(806)은 중심 채널의 오디오 데이터에 대한 상이한 역상관 필터를 결정하는 것을 수반할 수 있다. 게다가, 몇몇 구현들에서, 블록(806)에서 결정된 역상관 필터링 프로세스들의 각각이 역상관에 관한 동작들의 시퀀스를 포함하지만, 대안적인 구현들에서, 블록(806)에서 결정된 역상관 필터링 프로세스들의 각각은 전체 역상관 프로세스의 특정한 스테이지와 부합할 수 있다. 예를 들면, 대안적인 구현들에서, 블록(806)에서 결정된 역상관 필터링 프로세스들의 각각은 적어도 두 개의 채널들에 대한 역상관 신호를 발생시키는 것에 관한 동작들의 시퀀스 내에서 특정한 동작(또는 관련된 동작들의 그룹)과 부합할 수 있다.
블록(808)에서, 블록(806)에서 결정된 역상관 필터링 프로세스들이 구현될 것이다. 예를 들면, 블록(808)은 필터링된 오디오 데이터를 생성하기 위해 수신된 오디오 데이터의 적어도 일 부분에 역상관 필터 또는 필터들을 적용하는 것을 수반할 수 있다. 필터링된 오디오 데이터는 예를 들면, 도 2F, 도 4 및/또는 도 6A 내지 도 6C를 참조하여 상기 설명된 바와 같이, 역상관 신호 발생기(218)에 의해 생성된 역상관 신호들(227)과 부합할 수 있다. 블록(808)은 또한 다양한 다른 동작들을 수반할 수 있으며, 그 예들은 이하에 제공될 것이다.
여기에서, 블록(810)은 적어도 부분적으로, 오디오 특성들에 기초하여 믹싱 파라미터들을 결정하는 것을 수반한다. 블록(810)은 적어도 부분적으로 제어 정보 수신기/발생기(640)(도 6C 참조)의 믹서 제어 모듈(660)에 의해 실행될 수 있다. 몇몇 구현들에서, 믹싱 파라미터들은 출력-채널-특정 믹싱 파라미터들일 수 있다. 예를 들면, 블록(810)은 역상관될 오디오 채널들의 각각에 대한 알파 값들을 수신하거나 또는 추정하며, 적어도 부분적으로 상기 알파들에 기초하여 믹싱 파라미터들을 결정하는 것을 수반할 수 있다. 몇몇 구현들에서, 상기 알파들은 과도 제어 정보에 따라 수정될 수 있으며, 이것은 과도 제어 모듈(655)(도 6C 참조)에 의해 결정될 수 있다. 블록(812)에서, 필터링된 오디오 데이터는 믹싱 파라미터들에 따라 오디오 데이터의 직접 부분과 믹싱될 수 있다.
도 8B는 측방향 부호-플립 방법의 블록들을 예시하는 흐름도이다. 몇몇 구현들에서, 도 8B에 도시된 블록들은 블록(806)을 "결정하며" 도 8A의 블록(808)을 "적용하는" 예들이다. 따라서, 이들 블록들은 도 8B에서 "806a" 및 "808a"로서 라벨링된다. 이 예에서, 블록(806a)은 채널들의 쌍에 대한 역상관 신호들 사이에서 특정 IDC를 야기하기 위해 적어도 두 개의 인접한 채널들에 대한 역상관 신호들을 위한 극성 및 역상관 필터들을 결정하는 것을 수반할 수 있다. 이러한 구현에서, 블록(820)은 필터링된 오디오 데이터를 생성하기 위해, 수신된 오디오 데이터의 적어도 일 부분에 블록(806a)에서 결정된 역상관 필터들 중 하나 이상을 적용하는 것을 수반한다. 필터링된 오디오 데이터는 예를 들면, 도 2E 및 도 4를 참조하여 상기 설명된 바와 같이, 역상관 신호 발생기(218)에 의해 생성된 역상관 신호들(227)과 부합할 수 있다.
몇몇 4-채널 예들에서, 블록(820)은 제 1 채널 필터링된 데이터 및 제 2 채널 필터링된 데이터를 생성하기 위해 제 1 및 제 2 채널에 대한 오디오 데이터에 제 1 역상관 필터를 적용하는 것, 및 제 3 채널 필터링된 데이터 및 제 4 채널 필터링된 데이터를 생성하기 위해 제 3 및 제 4 채널에 대한 오디오 데이터에 제 2 역상관 필터를 적용하는 것을 수반할 수 있다. 예를 들면, 제 1 채널은 좌측 채널일 수 있고, 제 2 채널은 우측 채널일 수 있고, 제 3 채널은 좌측 서라운드 채널일 수 있으며 제 4 채널은 우측 서라운드 채널일 수 있다.
역상관 필터들은 특정한 구현에 의존하여, 오디오 데이터가 업믹싱되기 전 또는 후에 적용될 수 있다. 몇몇 구현들에서, 예를 들면, 역상관 필터는 오디오 데이터의 커플링 채널에 적용될 수 있다. 그 뒤에, 각각의 채널에 대해 적절한 스케일링 인자가 적용될 수 있다. 몇몇 예들이 도 8C를 참조하여 이하에 설명된다.
도 8C 및 도 8D는 몇몇 부호-플립 방법들을 구현하기 위해 사용될 수 있는 구성요소들을 예시하는 블록도들이다. 먼저 도 8B를 참조하면, 이러한 구현에서, 역상관 필터는 블록(820)에서 입력 오디오 데이터의 커플링 채널에 적용된다. 도 8C에 도시된 예에서, 커플링 채널에 대응하는 주파수 도메인 표현들을 포함하는, 역상관 신호 발생기 제어 정보(625) 및 오디오 데이터(210)가 역상관 신호 발생기(218)에 의해 수신된다. 이 예에서, 역상관 신호 발생기(218)는 역상관될 모든 채널들에 대해 동일한 역상관 신호들(227)을 출력한다.
도 8B의 프로세스(808a)는 적어도 하나의 쌍의 채널들에 대한 역상관 신호들 사이에서 특정 역상관 신호-간 코히어런스(IDC)를 가진 역상관 신호들을 생성하기 위해 필터링된 오디오 데이터에 대한 처리들을 실행하는 것을 수반할 수 있다. 이러한 구현에서, 블록(825)은 블록(820)에서 생성된 필터링된 오디오 데이터에 극성을 적용하는 것을 수반한다. 이 예에서, 블록(820)에 적용된 극성은 블록(806a)에서 결정되었다. 몇몇 구현들에서, 블록(825)은 인접한 채널들에 대한 필터링된 오디오 데이터 사이에 극성을 반전시키는 것을 수반한다. 예를 들면, 블록(825)은 -1로 좌-측면 채널 또는 우-측면 채널에 대응하는 필터링된 오디오 데이터를 곱하는 것을 수반할 수 있다. 블록(825)은 좌-측면 채널에 대응하는 필터링된 오디오 데이터를 참조하여 좌측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키는 것을 수반할 수 있다. 블록(825)은 또한 우-측면 채널에 대응하는 필터링된 오디오 데이터를 참조하여 우측 서라운드 채널에 대응하는 필터링된 오디오 데이터의 극성을 반전시키는 것을 수반할 수 있다. 상기 설명된 4-채널 예에서, 블록(825)은 제 2 채널 필터링된 데이터에 대하여 제 1 채널 필터링된 데이터의 극성을 반전시키는 것 및 제 4 채널 필터링된 데이터에 대하여 제 3 채널 필터링된 데이터의 극성을 반전시키는 것을 수반할 수 있다.
도 8C에 도시된 예에서, 또한 y로서 표시되는 역상관 신호들(227)이 극성 반전 모듈(840)에 의해 수신된다. 극성 반전 모듈(840)은 인접한 채널들에 대한 역상관 신호들의 극성을 반전시키도록 구성된다. 이 예에서, 극성 반전 모듈(840)은 우측 채널 및 좌측 서라운드 채널에 대한 역상관 신호들의 극성을 반전시키도록 구성된다. 그러나, 다른 구현들에서, 극성 반전 모듈(840)은 다른 채널들에 대한 역상관 신호들의 극성을 반전시키도록 구성될 수 있다. 예를 들면, 극성 반전 모듈(840)은 좌측 채널 및 우측 서라운드 채널에 대한 역상관 신호들의 극성을 반전시키도록 구성될 수 있다. 다른 구현들은 수반된 채널들의 수 및 그것들의 공간 관계들에 의존하여, 다른 채널들에 대한 역상관 신호들의 극성을 반전시키는 것을 수반할 수 있다.
극성 반전 모듈(840)은 부호-플립된 역상관 신호들(227)을 포함한, 역상관 신호들(227)을 채널-특정 믹서들(215a 내지 215d)에 제공한다. 채널-특정 믹서들(215a 내지 215d)은 또한 커플링 채널의 직접, 필터링되지 않은 오디오 데이터(210) 및 출력-채널-특정 공간 파라미터 정보(630a 내지 630d)를 수신한다. 대안적으로, 또는 부가적으로, 몇몇 구현들에서, 채널-특정 믹서들(215a 내지 215d)은 도 8F를 참조하여 이하에 설명되는 수정된 믹싱 계수들(890)을 수신할 수 있다. 이 예에서, 출력-채널-특정 공간 파라미터 정보(630a 내지 630d)는 과도 데이터에 따라, 예로서, 도 6C에 묘사된 것과 같은 과도 제어 모듈로부터의 입력에 따라, 수정되었다. 과도 데이터에 따라 공간 파라미터들을 수정하는 예들이 이하에 제공된다.
이러한 구현에서, 채널-특정 믹서들(215a 내지 215d)은 출력-채널-특정 공간 파라미터 정보(630a 내지 630d)에 따라 커플링 채널의 직접 오디오 데이터(210)와 역상관 신호들(227)을 믹싱하며 결과적인 출력-채널-특정 믹싱된 오디오 데이터(845a 내지 845d)를 이득 제어 모듈들(850a 내지 850d)에 출력한다. 이 예에서, 이득 제어 모듈들(850a 내지 850d)은 또한 여기에서 스케일링 인자들로서 불리우는, 출력-채널-특정 이득들을 출력-채널-특정 믹싱된 오디오 데이터(845a 내지 845d)에 적용하도록 구성된다.
대안적인 부호-플립 방법이 이제 도 8D를 참조하여 설명될 것이다. 이 예에서, 적어도 부분적으로 채널-특정 역상관 제어 정보(847a 내지 847d)에 기초한, 채널-특정 역상관 필터들은 역상관 신호 발생기들(218a 내지 218d)에 의해 오디오 데이터(210a 내지 210d)에 적용된다. 몇몇 구현들에서, 역상관 신호 발생기 제어 정보(847a 내지 847d)는 오디오 데이터와 함께 비트스트림에서 수신될 수 있는 반면, 다른 구현들에서, 역상관 신호 발생기 제어 정보(847a 내지 847d)는 국소적으로(적어도 부분적으로), 예로서 역상관 필터 제어 모듈(405)에 의해 발생될 수 있다. 여기에서, 역상관 신호 발생기들(218a 내지 218d)은 또한 역상관 필터 제어 모듈(405)로부터 수신된 역상관 필터 계수 정보에 따라 채널-특정 역상관 필터들을 발생시킬 수 있다. 몇몇 구현들에서, 단일 필터 설명이 모든 채널들에 의해 공유되는, 역상관 필터 제어 모듈(405)에 의해 발생될 수 있다.
이 예에서, 채널-특정 이득/스케일링 인자는 오디오 데이터(210a 내지 210d)가 역상관 신호 발생기(218a 내지 218d)에 의해 수신되기 전에 오디오 데이터(210a 내지 210d)에 적용되었다. 예를 들면, 오디오 데이터가 AC-3 또는 E-AC-3 오디오 코덱들에 따라 인코딩되었다면, 스케일링 인자들은 오디오 데이터의 나머지를 갖고 인코딩되며 디코딩 디바이스와 같은 오디오 프로세싱 시스템에 의해 비트스트림에서 수신되는 커플링 좌표들 또는 "cplcoord들"일 수 있다. 몇몇 구현들에서, cplcoord들은 또한 이득 제어 모듈들(850a 내지 850d)에 의해 출력-채널-특정 믹싱된 오디오 데이터(845a 내지 845d)(도 8C 참조)에 적용된 출력-채널-특정 스케일링 인자들에 대한 기반일 수 있다.
따라서, 역상관 신호 발생기들(218a 내지 218d)는 역상관될 모든 채널들에 대한 채널-특정 역상관 신호들(227a 내지 227d)을 출력한다. 역상관 신호들(227a 내지 227d)은 또한 도 8D에서, 각각 yL, yR, yLS 및 yRS로서 참조된다.
역상관 신호들(227a 내지 227d)은 극성 반전 모듈(840)에 의해 수신된다. 극성 반전 모듈(840)은 인접한 채널들에 대한 역상관 신호들의 극성을 반전시키도록 구성된다. 이 예에서, 극성 반전 모듈(840)은 우측 채널 및 좌측 서라운드 채널에 대한 역상관 신호들의 극성을 반전시키도록 구성된다. 그러나, 다른 구현들에서, 극성 반전 모듈(840)은 다른 채널들에 대한 역상관 신호들의 극성을 반전시키도록 구성될 수 있다. 예를 들면, 극성 반전 모듈(840)은 좌측 및 우측 서라운드 채널들에 대한 역상관 신호들의 극성을 반전시키도록 구성될 수 있다. 다른 구현들이 수반된 채널들의 수 및 그것들의 공간 관계들에 의존하여, 다른 채널들에 대한 역상관 신호들의 극성을 반전시키는 것을 수반할 수 있다.
극성 반전 모듈(840)은 부호-플립된 역상관 신호들(227b 및 227c)을 포함하여, 역상관 신호들(227a 내지 227d)을 채널-특정 믹서들(215a 내지 215d)에 제공한다. 여기에서, 채널-특정 믹서들(215a 내지 215d)은 또한 직접 오디오 데이터(210a 내지 210d) 및 출력-채널-특정 공간 파라미터 정보(630a 내지 630d)를 수신한다. 이 예에서, 출력-채널-특정 공간 파라미터 정보(630a 내지 630d)는 과도 데이터에 따라 수정되었다.
이러한 구현에서, 채널-특정 믹서들(215a 내지 215d)은 출력-채널-특정 공간 파라미터 정보(630a 내지 630d)에 따라 직접 오디오 데이터(210a 내지 210d)와 역상관 신호들(227)을 믹싱하며 출력-채널-특정 믹싱된 오디오 데이터(845a 내지 845d)를 출력한다.
이산 입력 채널들 사이에서의 공간 관계를 복원하기 위한 대안적인 방법들이 여기에 제공된다. 방법들은 역상관 또는 리버브 신호들이 어떻게 합성될 것인지를 결정하기 위해 합성 계수들을 체계적으로 결정하는 것을 수반할 수 있다. 몇몇 이러한 방법들에 따르면, 최적의 IDC들은 알파들 및 타겟 ICC들로부터 결정된다. 이러한 방법들은 최적인 것으로 결정되는 IDC들에 따라 채널-특정 역상관 신호들의 세트를 체계적으로 합성하는 것을 수반할 수 있다.
몇몇 이러한 체계적 방법들의 개요가 이제 도 8E 및 도 8F를 참조하여 설명될 것이다. 몇몇 예들에 대한 기본 수학 공식들을 포함한, 추가 세부사항들이 이후 설명될 것이다.
도 8E는 합성 계수들을 결정하며 공간 파라미터 데이터로부터의 계수들을 믹싱하는 방법의 블록들을 예시하는 흐름도이다. 도 8F는 믹서 구성요소들의 예들을 도시하는 블록도이다. 이 예에서, 방법(851)은 도 8A의 블록들(802 및 804) 후 시작된다. 따라서, 도 8E에 도시된 블록들은 블록(806)을 "결정하며" 도 8A의 블록(808)을 "적용하는" 추가 예들로서 고려될 수 있다. 그러므로, 도 8E의 블록들(855 내지 865)은 "806b"로서 라벨링되며 블록들(820 및 870)은 "808b"로서 라벨링된다.
그러나, 이 예에서, 블록(806)에서 결정된 역상관 프로세스들은 합성 계수들에 따라 필터링된 오디오 데이터에 대한 처리들을 실행하는 것을 수반할 수 있다. 몇몇 예들이 이하에 제공된다.
선택적 블록(855)은 하나의 형태의 공간 파라미터들로부터 등가 표현으로 변환하는 것을 수반할 수 있다. 도 8F를 참조하면, 예를 들면, 합성 및 믹싱 계수 발생 모듈(880)은 공간 파라미터 정보(630b)를 수신할 수 있으며, 이것은 N개의 입력 채널들 사이에서의 공간 관계들 또는 이들 공간 관계들의 서브세트를 기술하는 정보를 포함한다. 모듈(880)은 하나의 형태의 공간 파라미터들로부터 등가 표현으로 공간 파라미터 정보(630b)의 적어도 몇몇을 변환하도록 구성될 수 있다. 예를 들면, 알파들은 ICC들로 또는 그 역으로 변환될 수 있다.
대안적인 오디오 프로세싱 시스템 구현들에서, 합성 및 믹싱 계수 발생 모듈(880)의 기능의 적어도 몇몇은 믹서(215)가 아닌 요소들에 의해 실행될 수 있다. 예를 들면, 몇몇 대안적인 구현들에서, 합성 및 믹싱 계수 발생 모듈(880)의 기능의 적어도 몇몇은 도 6C에 도시되며 상기 설명된 것과 같은, 제어 정보 수신기/발생기(640)에 의해 실행될 수 있다.
이러한 구현에서, 블록(860)은 공간 파라미터 표현에 대하여 출력 채널들 사이에서의 원하는 공간 관계를 결정하는 것을 수반할 수 있다. 도 8F에 도시된 바와 같이, 몇몇 구현들에서, 합성 및 믹싱 계수 발생 모듈(880)은 다운믹스/업믹스 정보(635)를 수신할 수 있으며, 이것은 N-대-M 업믹싱기/다운믹싱기(262)에 의해 수신된 믹싱 정보(266) 및/또는 도 2E의 M-대-K 업믹싱기/다운믹싱기(264)에 의해 수신된 믹싱 정보(268)에 대응하는 정보를 포함할 수 있다. 합성 및 믹싱 계수 발생 모듈(880)은 또한 공간 파라미터 정보(630a)를 수신할 수 있으며, 이것은 K개의 출력 채널들 사이에서의 공간 관계들, 또는 이들 공간 관계들의 서브세트를 기술하는 정보를 포함한다. 도 2E를 참조하여 상기 설명된 바와 같이, 입력 채널들의 수는 출력 채널들의 수와 같거나 또는 같지 않을 수 있다. 모듈(880)은 적어도 몇몇 쌍들의 K개의 출력 채널들 사이에서 원하는 공간 관계(예를 들면, ICC)를 산출하도록 구성될 수 있다.
이 예에서, 블록(865)은 믹싱 계수들이 또한 적어도 부분적으로 원하는 공간 관계들에 기초하여 결정될 수 있는 원하는 공간 관계들에 기초하여 합성 계수들을 결정하는 것을 수반할 수 있다. 다시 도 8F를 참조하면, 블록(865)에서, 합성 및 믹싱 계수 발생 모듈(880)은 출력 채널들 사이에서의 원하는 공간 관계들에 따라 역상관 신호 합성 파라미터들(615)을 결정할 수 있다. 상기 합성 및 믹싱 계수 발생 모듈(880)은 또한 출력 채널들 사이에서의 원하는 공간 관계들에 따라 믹싱 계수들(620)을 결정할 수 있다.
합성 및 믹싱 계수 발생 모듈(880)은 역상관 신호 합성 파라미터들(615)을 합성기(605)에 제공할 수 있다. 몇몇 구현들에서, 역상관 신호 합성 파라미터들(615)은 출력-채널-특정일 수 있다. 이 예에서, 합성기(605)는 역상관 신호들(227)을 수신하며, 이것은 도 6A에 도시된 것과 같은 역상관 신호 발생기(218)에 의해 생성될 수 있다.
이 예에서, 블록(820)은 필터링된 오디오 데이터를 생성하기 위해, 수신된 오디오 데이터의 적어도 일 부분에 하나 이상의 역상관 필터들을 적용하는 것을 수반한다. 상기 필터링된 오디오 데이터는 예를 들면, 도 2E 및 도 4를 참조하여 상기 설명된 바와 같이, 역상관 신호 발생기(218)에 의해 생성된 역상관 신호들(227)과 부합할 수 있다.
블록(870)은 합성 계수들에 따라 역상관 신호들을 합성하는 것을 수반할 수 있다. 몇몇 구현들에서, 블록(870)은 블록(820)에서 생성된 필터링된 오디오 데이터에 대한 처리들을 실행함으로써 역상관 신호들을 합성하는 것을 수반할 수 있다. 이와 같이, 합성된 역상관 신호들은 필터링된 오디오 데이터의 수정된 버전으로 고려될 수 있다. 도 8F에 도시된 예에서, 합성기(605)는 역상관 신호 합성 파라미터들(615)에 따라 역상관 신호들(227)에 대한 처리들을 실행하도록 및 직접 신호 및 역상관 신호 믹서(610)에 합성된 역상관 신호들(886)을 출력하도록 구성될 수 있다. 여기에서, 합성된 역상관 신호들(886)은 채널-특정 합성된 역상관 신호들이다. 몇몇 이러한 구현들에서, 블록(870)은 스케일링된 채널-특정 합성된 역상관 신호들(886)을 생성하기 위해 각각의 채널에 대해 적절한 스케일링 인자들과 채널-특정 합성된 역상관 신호들을 곱하는 것을 수반할 수 있다. 이 예에서, 합성기(605)는 역상관 신호 합성 파라미터들(615)에 따라 역상관 신호들(227)의 선형 결합들을 만든다.
합성 및 믹싱 계수 발생 모듈(880)은 믹싱 계수들(620)을 믹서 과도 제어 모듈(888)에 제공할 수 있다. 이러한 구현에서, 믹싱 계수들(620)은 출력-채널-특정 믹싱 계수들이다. 믹서 과도 제어 모듈(888)은 과도 제어 정보(430)를 수신할 수 있다. 과도 제어 정보(430)는 오디오 데이터와 함께 수신될 수 있거나 또는 국소적으로, 예로서 도 6C에 도시된 과도 제어 모듈(655)과 같은 과도 제어 모듈에 의해 결정될 수 있다. 믹서 과도 제어 모듈(888)은 적어도 부분적으로 과도 제어 정보(430)에 기초하여 수정된 믹싱 계수들(890)을 생성할 수 있으며, 수정된 믹싱 계수들(890)을 직접 신호 및 역상관 신호 믹서(610)에 제공할 수 있다.
직접 신호 및 역상관 신호 믹서(610)는 직접, 필터링되지 않은 오디오 데이터(220)와 합성된 역상관 신호들(886)을 믹싱할 수 있다. 이 예에서, 오디오 데이터(220)는 N개의 입력 채널들에 대응하는 오디오 데이터 요소들을 포함한다. 직접 신호 및 역상관 신호 믹서(610)는 특정한 구현(예로서, 도 2E 및 대응하는 설명 참조)에 의존하여, 출력-채널-특정 기반으로 오디오 데이터 요소들 및 채널-특정 합성된 역상관 신호들(886)을 믹싱하며 N 또는 M개의 출력 채널들에 대한 역상관된 오디오 데이터(230)를 출력한다.
방법(851)의 프로세스들 중 일부에 대한 상세한 예들이 이어진다. 이들 방법들이 AC-3 및 E-AC-3 오디오 코덱들의 특징들을 참조하여, 적어도 부분적으로 설명되지만, 방법들은 많은 다른 오디오 코덱들에 대한 광범위한 적용 가능성을 가진다.
몇몇 이러한 방법들의 목적은 채널 커플링으로 인해 손실될 수 있는 소스 오디오 데이터의 공간 특성들을 복원하기 위해, 모든 ICC들(또는 ICC들의 선택된 세트)을 정확하게 재생하는 것이다. 믹서의 기능은 다음과 같이 공식화될 수 있다:
Figure 112015078534456-pct00008
(식 1)
식 1에서, x는 커플링 채널 신호를 나타내고, αi는 채널(I)에 대한 공간 파라미터 알파를 나타내고, gi는 채널 I에 대한 "cplcoord"(스케일링 인자에 대응하는)를 나타내고, yi는 역상관된 신호를 나타내며 Di(x)는 역상관 필터(Di)로부터 발생된 역상관 신호를 나타낸다. 역상관 필터의 출력이 입력 오디오 데이터와 동일한 스펙트럼 전력 분포를 갖지만, 입력 오디오 데이터에 상관되지 않는 것이 바람직하다. AC-3 및 E-AC-3 오디오 코덱들에 따르면, cplcoord들 및 알파들은 커플링 채널당 주파수 대역인 반면, 신호들 및 필터는 주파수 빈 단위이다. 또한, 신호들의 샘플들은 필터뱅크 계수들의 블록들에 대응한다. 이들 시간 및 주파수 인덱스들은 간소화를 위해 여기에서 생략된다.
알파 값들은 소스 오디오 데이터의 이산 채널들 및 커플링 채널 사이에서의 상관을 나타내며, 이것은 다음과 같이 표현될 수 있다:
Figure 112015078534456-pct00009
(식 2)
식 2에서, E는 중괄호들 내에서의 항(들)의 예상 값을 나타내고, x*는 x의 복소 공액을 나타내며 si는 채널(I)에 대한 이산 신호를 나타낸다.
역상관 신호들의 쌍 사이에서의 채널-간 코히어런스 또는 ICC는 다음과 같이 도출될 수 있다:
Figure 112015078534456-pct00010
(식 3)
식 3에서, IDCi1 , i2는 Di1(x) 및 Di2(x) 사이에서의 역상관-신호-간 코히어런스("IDC")를 나타낸다. 고정된 알파들로, ICC는 IDC가 +1일 때 최대화되며 IDC가 -1일 때 최소화된다. 소스 오디오 데이터의 ICC가 알려져 있을 때, 그것을 복제하기 위해 요구된 최적의 IDC는 다음과 같이 풀릴 수 있다:
Figure 112015078534456-pct00011
(식 4)
역상관된 신호들 사이에서의 ICC는 식 4의 최적의 IDC 조건들을 만족시키는 역상관 신호들을 선택함으로써 제어될 수 있다. 이러한 역상관 신호들을 발생시키는 몇몇 방법들이 이하에 논의될 것이다. 상기 논의 전에, 그것은 이들 공간 파라미터들의 몇몇 사이에서의 관계들, 특히 ICC들 및 알파들 사이에서의 것을 설명하기 위해 유용할 수 있다.
방법(851)의 선택적 블록(855)을 참조하여 상기 주지된 바와 같이, 여기에 제공된 몇몇 구현들은 하나의 형태의 공간 파라미터들로부터 등가 표현으로 변환하는 것을 수반할 수 있다. 몇몇 이러한 구현들에서, 선택적 블록(855)은 알파들에서 ICC들로 또는 그 역으로 변환하는 것을 수반할 수 있다. 예를 들면, 알파들은 cplcoords(또는 비교 가능한 스케일링 인자들) 및 ICC들 양쪽 모두가 알려져 있다면 고유하게 결정될 수 있다.
커플링 채널은 다음과 같이 발생될 수 있다:
Figure 112015078534456-pct00012
(식 5)
식 5에서, si는 커플링에 수반된 채널(i)에 대한 이산 신호를 나타내며 gx는 x 상에서 적용된 임의의 이득 조정을 나타낸다. 식 2의 x 항을 식 5의 등가 표현으로 교체함으로써, 채널(i)에 대한 알파는 다음과 같이 표현될 수 있다:
Figure 112015078534456-pct00013
각각의 이산 채널의 제곱은 다음과 같이 커플링 채널의 제곱 및 대응하는 cplcoord의 제곱에 의해 표현될 수 있다:
Figure 112015078534456-pct00014
교차-상관 항들은 다음과 같이 대체될 수 있다:
Figure 112015078534456-pct00015
그러므로, 알파들은 이러한 방식으로 표현될 수 있다.
Figure 112015078534456-pct00016
식 5에 기초하여, x의 제곱은 다음과 같이 표현될 수 있다:
Figure 112015078534456-pct00017
그러므로, 이득 조정(gx)은 다음과 같이 표현될 수 있다:
Figure 112015078534456-pct00018
따라서, 모든 cplcoord들 및 ICC들이 알려져 있다면, 알파들은 다음의 식에 따라 계산될 수 있다:
Figure 112015078534456-pct00019
(식 6)
상기 주지된 바와 같이, 역상관된 신호들 사이에서의 ICC는 식 4를 만족시키는 역상관 신호들을 선택함으로써 제어될 수 있다. 스테레오 경우에서, 커플링 채널 신호에 상관되지 않은 역상관 신호들을 발생시키는 단일 역상관 필터가 형성될 수 있다. -1의 최적의 IDC는 간단히 부호-플리핑에 의해, 예로서 상기 설명된 부호-플립 방법들 중 하나에 따라 달성될 수 있다.
그러나, 다채널 경우들에 대한 ICC들을 제어하는 태스크는 보다 복잡하다. 모든 역상관 신호들이 실질적으로 커플링 채널에 상관되지 않음을 보장하는 것 외에, 역상관 신호들 중에서 IDC들은 또한 식 4를 만족해야 한다.
원하는 IDC들을 갖는 역상관 신호들을 발생시키기 위해, 상호 상관되지 않은 "시드" 역상관 신호들의 세트가 먼저 발생될 수 있다. 예를 들면, 역상관 신호들(227)은 여기에서의 다른 곳에 설명된 방법들에 따라 발생될 수 있다. 그 뒤에, 원하는 역상관 신호들이 적절한 가중들과 이들 시드들을 선형적으로 결합함으로써 합성될 수 있다. 몇몇 예들의 개요가 도 8E 및 도 8F를 참조하여 상기 설명된다.
하나의 다운믹스로부터 많은 고-품질 및 상호-상관되지 않은(예로서, 직교) 역상관 신호들을 발생시키는 것은 도전적일 수 있다. 더욱이, 적절한 결합 가중들을 산출하는 것은 행렬 역변환을 수반할 수 있으며, 이것은 복잡도 및 안정성에 대하여 도전할 수 있다.
따라서, 여기에 제공된 몇몇 예들에서, "앵커-및-확장" 프로세스가 구현될 수 있다. 몇몇 구현들에서, 몇몇 IDC들(및 ICC들)은 다른 것들보다 더 중요할 수 있다. 예를 들면, 측방향 ICC들은 대각선 ICC들보다 지각적으로 더 중요할 수 있다. 돌비 5.1 채널 예에서, L-R, L-Ls, R-Rs 및 Ls-Rs 채널 쌍들에 대한 ICC들은 L-Rs 및 R-Ls 채널 쌍들에 대한 ICC들보다 지각적으로 더 중요할 수 있다. 전방 채널들은 후방 또는 서라운드 채널들보다 지각적으로 더 중요할 수 있다.
몇몇 이러한 구현들에서, 가장 중요한 IDC를 위한 식 4의 항들은 먼저 수반된 두 개의 채널들에 대한 역상관 신호들을 합성하기 위해 두 개의 직교 (시드) 역상관 신호들을 결합함으로써 만족될 수 있다. 그 후, 이들 합성된 역상관 신호들을 앵커들로서 사용하며 새로운 시드들을 부가하여, 2차 IDC들에 대한 식 4의 항들이 만족될 수 있으며 대응하는 역상관 신호들이 합성될 수 있다. 이러한 프로세스는 식 4의 항들이 IDC들의 모두에 대해 만족될 때까지 반복될 수 있다. 이러한 구현들은 보다 높은 품질의 역상관 신호들의 사용이 비교적 더 중대한 ICC들을 제어하도록 허용한다.
도 9는 다채널 경우들에서 역상관 신호들을 합성하는 프로세스를 개괄하는 흐름도이다. 방법(900)의 블록들은 도 8A의 블록(806)의 "결정" 프로세스 및 도 8A의 블록(808)의 "적용" 프로세스의 추가 예들로서 고려될 수 있다. 따라서, 도 9에서, 블록들(905 내지 915)은 "806c"로서 라벨링되며 방법(900)의 블록들(920 및 925)은 "808c"로서 라벨링된다. 방법(900)은 5.1 채널 콘텍스트에서 예를 제공한다. 그러나, 방법(900)은 다른 콘테스트들에 대한 광범위한 적용 가능성을 가진다.
이 예에서, 블록들(905 내지 915)은 블록(920)에서 발생되는 상호 상관되지 않은 시드 역상관 신호들의 세트(Dni(x))에 적용될 합성 파라미터들을 산출하는 것을 수반한다. 몇몇 5.1 채널 구현들에서, i={1, 2, 3, 4}이다. 중심 채널이 역상관된다면, 제 5 시드 역상관 신호가 수반될 수 있다. 몇몇 구현들에서, 상관되지 않은(직교) 역상관 신호들(Dni(x))은 모노 다운믹스 신호를 여러 개의 상이한 역상관 필터들에 입력함으로써 발생될 수 있다. 대안적으로, 초기 업믹싱된 신호들은 각각 고유의 역상관 필터로 입력될 수 있다. 다양한 예들이 이하에 제공된다.
상기 주지된 바와 같이, 전방 채널들은 후방 또는 서라운드 채널들보다 지각적으로 더 중요할 수 있다. 그러므로, 방법(900)에서, L 및 R 채널들에 대한 역상관 신호들은 첫 두 개의 시드들 상에서 함께 앵커링되며, 그 후 Ls 및 Rs 채널들에 대한 역상관 신호들이 이들 앵커들 및 나머지 시드들을 사용하여 합성된다.
이 예에서, 블록(905)은 전방 L 및 R 채널들에 대한 합성 파라미터들(ρ 및 ρr)을 산출하는 것을 수반한다. 여기에서, ρ 및 ρr은 다음과 같이 L-R IDC로부터 도출된다.
Figure 112015078534456-pct00020
(식 7)
그러므로, 블록(905)은 또한 식 4로부터 L-R IDC를 산출하는 것을 수반한다. 따라서, 이 예에서, ICC 정보는 L-R IDC를 산출하기 위해 사용된다. 방법의 다른 프로세스들이 또한 입력으로서 ICC 값들을 사용할 수 있다. ICC 값들은 예로서, 커플링 해제된 하위-주파수 또는 상위-주파수 대역들, cplcoord들, 알파들 등에 기초하여, 코딩된 비트스트림으로부터 또는 디코더 측에서의 추정에 의해 획득될 수 있다.
합성 파라미터들(ρ 및 ρr)은 블록(925)에서 L 및 R 채널들에 대한 역상관 신호들을 합성하기 위해 사용될 수 있다. Ls 및 Rs 채널들에 대한 역상관 신호들은 앵커들로서 L 및 R 채널들에 대한 역상관 신호들을 사용하여 합성될 수 있다.
몇몇 구현들에서, Ls-Rs ICC를 제어하는 것이 바람직할 수 있다. 방법(900)에 따르면, 중간 역상관 신호들(D'Ls(x) 및 D'Rs(x))을 시드 역상관 신호들 중 두 개와 합성하는 것은 합성 파라미터들(σ 및 σr)을 산출하는 것을 수반한다. 그러므로, 선택적 블록(910)은 서라운드 채널들에 대해, 합성 파라미터들(σ 및 σr)을 산출하는 것을 수반한다. 중간 역상관 신호들(D'Ls(x) 및 D'Rs(x)) 사이에서의 요구된 상관 계수는 다음과 같이 표현될 수 있다는 것이 도출될 수 있다:
Figure 112015078534456-pct00021
변수들(σ 및 σr)은 그것들의 상관 계수로부터 도출될 수 있다:
Figure 112015078534456-pct00022
그러므로, D'Ls(x) 및 D'Rs(x)는 다음과 같이 정의될 수 있다:
Figure 112015078534456-pct00023
그러나, Ls-Rs ICC가 관심사가 아니라면, D'Ls(x) 및 D'Rs(x) 사이에서의 상관 계수는 -1로 설정될 수 있다. 따라서, 두 개의 신호들은 간단히 남아있는 시드 역상관 신호들에 의해 구성된 서로의 부호-플립된 버전들일 수 있다.
중심 채널은 특정한 구현에 의존하여 역상관되거나 역상관되지 않을 수 있다. 따라서, 중심 채널에 대한 합성 파라미터들(t1 및 t2)을 산출하는 블록(915')의 프로세스는 선택적이다. 중심 채널에 대한 합성 파라미터들은, 예를 들면, L-C 및 R-C ICC들을 제어하는 것이 바람직하다면, 산출될 수 있다. 그렇다면, 제 5 시드(Dn5(x))가 부가될 수 있으며 C 채널에 대한 역상관 신호가 다음과 같이 표현될 수 있다.
Figure 112015078534456-pct00024
원하는 L-C 및 R-C ICC들을 달성하기 위해, 식 4는 L-C 및 R-C IDC들에 대해 만족되어야 한다:
Figure 112015078534456-pct00025
별표들은 복소 공액들을 표시한다. 따라서, 중심 채널에 대한 합성 파라미터들(t1 및 t2)은 다음과 같이 표현될 수 있다:
Figure 112015078534456-pct00026
블록(920)에서, 상호 상관되지 않은 시드 역상관 신호들의 세트(Dni(x), i={1, 2, 3, 4})가 발생될 수 있다. 중심 채널이 역상관된다면, 제 5 시드 역상관 신호가 블록(920)에서 발생될 수 있다. 이들 상관되지 않은(직교) 역상관 신호들(Dni(x))은 모노 다운믹스 신호를 여러 개의 상이한 역상관 필터들로 입력함으로써 발생될 수 있다.
이 예에서, 블록(925)은 다음과 같이, 역상관 신호들을 합성하기 위해 상기-도출된 항들을 적용하는 것을 수반한다:
Figure 112015078534456-pct00027
이 예에서, Ls 및 Rs 채널들에 대한 역상관 신호들(DLs(x) 및 DRs(x))을 합성하기 위한 식들은 L 및 R 채널들에 대한 역상관 신호들(DL(x) 및 DR(x))을 합성하기 위한 식들에 의존한다. 방법(900)에서, L 및 R 채널들에 대한 역상관 신호들은 불완전한 역상관 신호들로 인해 잠재적인 좌-우 바이어스를 완화시키기 위해 함께 앵커링된다.
상기 예에서, 시드 역상관 신호들은 블록(920)에서 모노 다운믹스 신호(x)로부터 발생된다. 대안적으로, 시드 역상관 신호들은 각각의 초기 업믹싱된 신호를 고유 역상관 필터에 입력함으로써 발생될 수 있다. 이 경우에, 발생된 시드 역상관 신호들은 채널-특정일 것이다: Dni(gix), i={L, R, Ls, Rs, C}. 이들 채널-특정 시드 역상관 신호들은 일반적으로 업믹싱 프로세스로 인해 상이한 전력 레벨들을 가질 것이다. 따라서, 그것들을 결합할 때 이들 시드들 중에서 전력 레벨을 정렬하는 것이 바람직하다. 이를 달성하기 위해, 블록(925)에 대한 합성 식들은 다음과 같이 수정될 수 있다:
Figure 112015078534456-pct00028
수정된 합성 식들에서, 모든 합성 파라미터들이 동일한 채로 있다. 그러나, 레벨 조정 파라미터들(λi,j)은 채널(i)에 대한 역상관 신호를 합성하기 위해 채널(j)로부터 발생된 시드 역상관 신호를 사용할 때 전력 레벨을 정렬하도록 요구된다. 이들 채널-쌍-특정 레벨 조정 파라미터들은 다음과 같은, 추정된 채널 레벨 차들에 기초하여 계산될 수 있다:
Figure 112015078534456-pct00029
더욱이, 채널-특정 스케일링 인자들이 이 경우에 이미 합성된 역상관 신호들로 통합되기 때문에, 블록(812)(도 8A)에 대한 믹서 식은 다음과 같이 식 1로부터 수정되어야 한다:
Figure 112015078534456-pct00030
여기에서 다른 곳에 주지된 바와 같이, 몇몇 구현들에서, 공간 파라미터들은 오디오 데이터와 함께 수신될 수 있다. 공간 파라미터들은 예를 들면, 오디오 데이터와 함께 인코딩될 수 있다. 인코딩된 공간 파라미터들 및 오디오 데이터는 예로서, 도 2D를 참조하여 상기 설명된 바와 같이, 디코더와 같은 오디오 프로세싱 시스템에 의해 비트스트림에서 수신될 수 있다. 상기 예에서, 공간 파라미터들은 명시적 역상관 정보(240)를 통해 역상관기(205)에 의해 수신된다.
그러나, 대안적인 구현들에서, 어떤 인코딩된 공간 파라미터들(또는 공간 파라미터들의 불완전한 세트)도 역상관기(205)에 의해 수신되지 않는다. 몇몇 이러한 구현들에 따르면, 도 6B 및 도 6C를 참조하여 상기 설명된, 제어 정보 수신기/발생기(640)(또는 오디오 프로세싱 시스템(200)의 또 다른 요소)는 오디오 데이터의 하나 이상의 속성들에 기초하여 공간 파라미터들을 추정하도록 구성될 수 있다. 몇몇 구현들에서, 제어 정보 수신기/발생기(640)는 여기에 설명된 공간 파라미터 추정 및 관련된 기능을 위해 구성되는 공간 파라미터 모듈(665)을 포함할 수 있다. 예를 들면, 공간 파라미터 모듈(665)은 커플링 채널 주파수 범위의 밖에 있는 오디오 데이터의 특성들에 기초하여 커플링 채널 주파수 범위에서의 주파수들에 대한 공간 파라미터들을 추정할 수 있다. 몇몇 이러한 구현들이 이제 도 10A 이하를 참조하여 설명될 것이다.
도 10A는 공간 파라미터들을 추정하기 위한 방법의 개요를 제공하는 흐름도이다. 블록(1005)에서, 제 1 세트의 주파수 계수들 및 제 2 세트의 주파수 계수들을 포함한 오디오 데이터는 오디오 프로세싱 시스템에 의해 수신된다. 예를 들면, 제 1 및 제 2 세트들의 주파수 계수들은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환을 시간 도메인에서의 오디오 데이터에 적용한 결과일 수 있다. 몇몇 구현들에서, 오디오 데이터는 레거시 인코딩 프로세스에 따라 인코딩될 수 있다. 예를 들면, 레거시 인코딩 프로세스는 AC-3 오디오 코덱 또는 강화된 AC-3 오디오 코덱의 프로세스일 수 있다. 따라서, 몇몇 구현들에서, 제 1 및 제 2 세트들의 주파수 계수들은 실수값의 주파수 계수들일 수 있다. 그러나, 방법(1000)은 그것의 애플리케이션에서 이들 코덱들에 제한되지 않지만, 많은 오디오 코덱들에 광범위하게 적용 가능하다.
제 1 세트의 주파수 계수들은 제 1 주파수 범위에 대응할 수 있으며 제 2 세트의 주파수 계수들은 제 2 주파수 범위에 대응할 수 있다. 예를 들면, 제 1 주파수 범위는 개개의 채널 주파수 범위에 대응할 수 있으며 제 2 주파수 범위는 수신된 커플링 채널 주파수 범위에 대응할 수 있다. 몇몇 구현들에서, 제 1 주파수 범위는 제 2 주파수 범위 아래에 있을 수 있다. 그러나, 대안적인 구현들에서, 제 1 주파수 범위는 제 2 주파수 범위 위에 있을 수 있다.
도 2D를 참조하면, 몇몇 구현들에서, 제 1 세트의 주파수 계수들은 오디오 데이터(245a 또는 245b)에 대응할 수 있으며, 이것은 커플링 채널 주파수 범위의 밖에 있는 오디오 데이터의 주파수 도메인 표현들을 포함한다. 오디오 데이터(245a 및 245b)는 이 예에서 역상관되지 않지만, 그럼에도 불구하고 역상관기(205)에 의해 실행된 공간 파라미터 추정들에 대한 입력으로서 사용될 수 있다. 제 2 세트의 주파수 계수들은 오디오 데이터(210 또는 220)에 대응할 수 있으며, 이것은 커플링 채널에 대응하는 주파수 도메인 표현들을 포함한다. 그러나, 도 2D의 예와 달리, 방법(1000)은 커플링 채널에 대한 주파수 계수들과 함께 공간 파라미터 데이터를 수신하는 것을 수반하지 않을 수 있다.
블록(1010)에서, 제 2 세트의 주파수 계수들의 적어도 일부에 대한 공간 파라미터들이 추정된다. 몇몇 구현들에서, 추정은 추정 이론의 하나 이상의 양상들에 기초한다. 예를 들면, 추정 프로세스는 적어도 부분적으로, 최대 우도 방법, 베이즈 추정기, 모멘트 추정기, 최소 평균 제곱 에러 추정기 및/또는 최소 분산 바이어싱되지 않은 추정기의 방법에 기초할 수 있다.
몇몇 이러한 구현들은 하위 주파수들 및 상위 주파수들의 공간 파라미터들의 동시 확률 밀도 함수들("PDF들")을 추정하는 것을 수반할 수 있다. 예를 들면, 우리는 두 개의 채널들(L 및 R)을 갖는다고 하며 각각의 채널에서 우리는 개개의 채널 주파수 범위에서 저 대역 및 커플링 채널 주파수 범위에서 고 대역을 갖는다. 우리는 따라서 개개의 채널 주파수 범위에서의 L 및 R 채널들 사이에서 채널-간-간섭을 표현하는 ICC_lo 및 커플링 채널 주파수 범위에서 존재하는 ICC_hi를 가질 수 있다.
우리가 큰 트레이닝 세트의 오디오 신호들을 갖는다면, 우리는 그것들을 분할할 수 있으며 각각의 세그먼트에 대해 ICC_lo 및 ICC_hi가 산출될 수 있다. 따라서, 우리는 큰 트레이닝 세트의 ICC 쌍들(ICC_lo 및 ICC_hi)을 가질 수 있다. 이러한 쌍의 파라미터들의 동시 PDF는 히스토그램들로서 산출될 수 있으며 및/또는 파라메트릭 모델들(예를 들면, 가우시안 믹싱 모델들)을 통해 모델링될 수 있다. 이러한 모델은 디코더에서 알려져 있는 시-불변 모델일 수 있다. 대안적으로, 모델 파라미터들은 비트스트림을 통해 디코더에 규칙적으로 전송될 수 있다.
디코더에서, 수신된 오디오 데이터의 특정한 세그먼트에 대한 ICC_lo가 예를 들면, 개개의 채널들 및 복합 커플링 채널 사이에서의 교차-상관 계수들이 어떻게 여기에 설명된 바와 같이 산출되는지에 따라, 산출될 수 있다. 파라미터들의 동시 PDF의 모델 및 ICC_lo의 이러한 값을 고려해보면, 디코더는 무엇이 ICC_hi인지를 추정하려고 시도할 수 있다. 하나의 이러한 추정은 최대-우도("ML") 추정이며, 여기에서 디코더는 ICC_lo의 값을 고려해볼 때 ICC_hi의 조건부 PDF를 산출할 수 있다. 이러한 조건부 PDF는 이제 근본적으로 x-y 축 상에서 표현될 수 있는 양의-실수값의 함수이며, x 축은 ICC_hi 값들의 연속체를 나타내며 y 축은 각각의 이러한 값의 조건부 확률을 나타낸다. ML 추정은 이것이 피크들로서 기능하는 상기 값을 ICC_hi의 추정으로서 선택하는 것을 수반할 수 있다. 다른 한편으로, 최소-평균-제곱-에러("MMSE") 추정은 이러한 조건부 PDF의 평균이며, 이것은 ICC_hi의 또 다른 유효 추정치이다. 추정 이론은 ICC_hi의 추정치를 찾아내기 위한 많은 이러한 툴들을 제공한다.
상기 2-파라미터 예는 매우 간단한 경우이다. 몇몇 구현들에서, 대역들뿐만 아니라 보다 많은 수의 채널들이 있을 수 있다. 공간 파라미터들은 알파들 또는 ICC들일 수 있다. 게다가, PDF 모델은 신호 유형에 대해 조절될 수 있다. 예를 들면, 과도들에 대한 상이한 모델, 계조 신호들에 대한 상이한 모델 등이 있을 수 있다.
이 예에서, 블록(1010)의 추정은 적어도 부분적으로 제 1 세트의 주파수 계수들에 기초한다. 예를 들면, 제 1 세트의 주파수 계수들은 수신된 커플링 채널 주파수 범위의 밖에 있는 제 1 주파수 범위에서 둘 이상의 개개의 채널들에 대한 오디오 데이터를 포함할 수 있다. 추정 프로세스는 둘 이상의 채널들의 주파수 계수들에 기초하여, 제 1 주파수 범위 내에서의 복합 커플링 채널의 결합된 주파수 계수들을 산출하는 것을 수반할 수 있다. 추정 프로세스는 또한 결합된 주파수 계수들 및 제 1 주파수 범위 내에서의 개개의 채널들의 주파수 계수들 사이에서의 교차-상관 계수들을 계산하는 것을 수반할 수 있다. 추정 프로세스의 결과들은 입력 오디오 신호들의 시간적 변화들에 따라 달라질 수 있다.
블록(1015)에서, 추정된 공간 파라미터들은 수정된 제 2 세트의 주파수 계수들을 발생시키기 위해, 제 2 세트의 주파수 계수들에 적용될 수 있다. 몇몇 구현들에서, 제 2 세트의 주파수 계수들에 추정된 공간 파라미터들을 적용하는 프로세스는 역상관 프로세스의 일부일 수 있다. 역상관 프로세스는 리버브 신호 또는 역상관 신호를 발생시키는 것 및 그것을 제 2 세트의 주파수 계수들에 적용하는 것을 수반할 수 있다. 몇몇 구현들에서, 역상관 프로세스는 전적으로 실수값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 것을 수반할 수 있다. 역상관 프로세스는 특정 채널들 및/또는 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 수반할 수 있다.
보다 상세한 예가 이제 도 10B를 참조하여 설명될 것이다. 도 10B는 공간 파라미터들을 추정하기 위한 대안적인 방법의 개요를 제공하는 흐름도이다. 방법(1020)은 디코더와 같은, 오디오 프로세싱 시스템에 의해 실행될 수 있다. 예를 들면, 방법(1020)은 적어도 부분적으로, 도 6C에 예시된 것과 같은 제어 정보 수신기/발생기(640)에 의해 실행될 수 있다.
이 예에서, 제 1 세트의 주파수 계수들은 개개의 채널 주파수 범위에 있다. 제 2 세트의 주파수 계수들은 오디오 프로세싱 시스템에 의해 수신되는 커플링 채널에 대응한다. 제 2 세트의 주파수 계수들은 수신된 커플링 채널 주파수 범위에 있으며, 이것은 이 예에서 개개의 채널 주파수 범위 위에 있다.
따라서, 블록(1022)은 개개의 채널들에 대한 및 수신된 커플링 채널에 대한 오디오 데이터를 수신하는 것을 수반한다. 몇몇 구현들에서, 오디오 데이터는 레거시 인코딩 프로세스에 따라 인코딩될 수 있다. 방법(1000) 또는 방법(1020)에 따라 추정되는 공간 파라미터들을 수신된 커플링 채널의 오디오 데이터에 적용하는 것은 레거시 인코딩 프로세스와 부합하는 레거시 디코딩 프로세스에 따라 수신된 오디오 데이터를 디코딩함으로써 획득된 것보다 더 공간적으로 정확한 오디오 재생을 산출할 수 있다. 몇몇 구현들에서, 레거시 인코딩 프로세스는 AC-3 오디오 코덱 또는 강화된 AC-3 오디오 코덱의 프로세스일 수 있다. 따라서, 몇몇 구현들에서, 블록(1022)은 허수 값들을 가진 주파수 계수들이 아닌 실수값의 주파수 계수들을 수신하는 것을 수반할 수 있다. 그러나, 방법(1020)은 이들 코덱들에 제한되지 않지만, 많은 오디오 코덱들에 광범위하게 적용 가능하다.
방법(1020)의 블록(1025)에서, 개개의 채널 주파수 범위의 적어도 일 부분은 복수의 주파수 대역들로 분할된다. 예를 들면, 개개의 채널 주파수 범위는 2, 3, 4 이상의 주파수 대역들로 분할될 수 있다. 몇몇 구현들에서, 주파수 대역들의 각각은 미리 결정된 수의 연속적인 주파수 계수들, 예로서 6, 8, 10, 12 이상의 연속적 주파수 계수들을 포함할 수 있다. 몇몇 구현들에서, 단지 개개의 채널 주파수 범위의 부분만이 주파수 대역들로 분할될 수 있다. 예를 들면, 몇몇 구현들은 개개의 채널 주파수 범위의 단지 상위-주파수 부분(수신된 커플링 채널 주파수 범위에 비교적 더 가까운)을 주파수 대역들로 분할하는 것을 수반할 수 있다. 몇몇 E-AC-3-기반 예들에 따르면, 개개의 채널 주파수 범위의 상위-주파수 부분은 2 또는 3개의 대역들로 분할될 수 있으며, 그 각각은 12개의 MDCT 계수들을 포함한다. 몇몇 이러한 구현들에 따르면, 단지 1 kHz 이상, 1.5 kHz 이상 등인 개개의 채널 주파수 범위의 부분만이 주파수 대역들로 분할될 수 있다.
이 예에서, 블록(1030)은 개개의 채널 주파수 대역들에서 에너지를 계산하는 것을 수반한다. 이 예에서, 개개의 채널이 커플링으로부터 제외되었다면, 제외된 채널의 밴딩 에너지는 블록(1030)에서 계산되지 않을 것이다. 몇몇 구현들에서, 블록(1030)에서 계산된 에너지 값들은 평탄화될 수 있다.
이러한 구현에서, 개개의 채널 주파수 범위에서의 개개의 채널들의 오디오 데이터에 기초한, 복합 커플링 채널은 블록(1035)에서 생성된다. 블록(1035)은 여기에서 "결합된 주파수 계수들"로서 불리울 수 있는, 복합 커플링 채널에 대한 주파수 계수들을 산출하는 것을 수반할 수 있다. 결합된 주파수 계수들은 개개의 채널 주파수 범위에서의 둘 이상의 채널들의 주파수 계수들을 사용하여 생성될 수 있다. 예를 들면, 오디오 데이터가 E-AC-3 코덱에 따라 인코딩되었다면, 블록(1035)은 "커플링 시작 주파수" 아래의 MDCT 계수들의 로컬 다운믹스를 계산하는 것을 수반할 수 있으며, 이것은 수신된 커플링 채널 주파수 범위에서의 최저 주파수이다.
개개의 채널 주파수 범위의 각각의 주파수 대역 내에서, 복합 커플링 채널의 에너지는 블록(1040)에서 결정될 수 있다. 몇몇 구현들에서, 블록(1040)에서 계산된 에너지 값들은 평탄화될 수 있다.
이 예에서, 블록(1045)은, 개개의 채널들의 주파수 대역들 및 복합 커플링 채널의 대응하는 주파수 대역들 사이에서의 상관에 대응하는, 교차-상관 계수들을 결정하는 것을 수반한다. 여기에서, 블록(1045)에서 교차 상관 계수들을 계산하는 것은 또한 개개의 채널들의 각각의 주파수 대역들에서의 에너지 및 복합 커플링 채널의 대응하는 주파수 대역들에서의 에너지를 계산하는 것을 수반한다. 교차-상관 계수들은 정규화될 수 있다. 몇몇 구현들에 따르면, 개개의 채널이 커플링으로부터 제외된다면, 제외된 채널의 주파수 계수들은 교차-상관 계수들의 계산 시 사용되지 않을 것이다.
블록(1050)은 수신된 커플링 채널로 커플링된 각각의 채널에 대한 공간 파라미터들을 추정하는 것을 수반한다. 이러한 구현에서, 블록(1050)은 교차-상관 계수들에 기초하여 공간 파라미터들을 추정하는 것을 수반한다. 추정 프로세스는 개개의 채널 주파수 대역들의 모두에 걸쳐 정규화된 교차-상관 계수들을 평균화하는 것을 수반할 수 있다. 추정 프로세스는 또한 수신된 커플링 채널로 커플링된 개개의 채널들에 대한 추정된 공간 파라미터들을 획득하기 위해 정규화된 교차-상관 계수들의 평균에 스케일링 인자를 적용하는 것을 수반할 수 있다. 몇몇 구현들에서, 스케일링 인자는 증가하는 주파수에 따라 감소할 수 있다.
이 예에서, 블록(1055)은 추정된 공간 파라미터들에 잡음을 부가하는 것을 수반한다. 잡음은 추정된 공간 파라미터들의 분산을 모델링하기 위해 부가될 수 있다. 잡음은 주파수 대역들에 걸쳐 공간 파라미터의 예상된 예측에 대응하는 규칙들의 세트에 따라 부가될 수 있다. 상기 규칙들은 경험적 데이터에 기초할 수 있다. 상기 경험적 데이터는 큰 세트의 오디오 데이터 샘플들로부터 도출된 측정들 및/또는 관찰들에 대응할 수 있다. 몇몇 구현들에서, 부가된 잡음의 분산은 주파수 대역에 대한 추정된 공간 파라미터, 주파수 대역 인덱스 및/또는 정규화된 교차-상관 계수들의 분산에 기초할 수 있다.
몇몇 구현들은 제 1 또는 제 2 세트의 주파수 계수들에 관한 조성 정보를 수신하거나 또는 결정하는 것을 수반할 수 있다. 몇몇 이러한 구현들에 따르면, 블록(1050 및/또는 1055)의 프로세스는 조성 정보에 따라 변경될 수 있다. 예를 들면, 도 6B 또는 도 6C의 제어 정보 수신기/발생기(640)가 커플링 채널 주파수 범위에서의 오디오 데이터가 고도로 계조임을 결정한다면, 제어 정보 수신기/발생기(640)는 블록(1055)에서 부가된 잡음의 양을 일시적으로 감소시키도록 구성될 수 있다.
몇몇 구현들에서, 추정된 공간 파라미터들은 수신된 커플링 채널 주파수 대역들에 대한 추정된 알파들일 수 있다. 몇몇 이러한 구현들은 예로서, 역상관 프로세스의 일부로서, 커플링 채널에 대응하는 오디오 데이터에 알파들을 적용하는 것을 수반할 수 있다.
방법(1020)에 대한 보다 상세한 예들이 이제 설명될 것이다. 이들 예들은 E-AC-3 오디오 코덱의 콘텍스트에서 제공된다. 그러나, 이들 예들에 의해 예시된 개념들은 E-AC-3 오디오 코덱의 콘텍스트에 제한되지 않지만, 대신에 많은 오디오 코덱들에 광범위하게 적용 가능하다.
이 예에서, 복합 커플링 채널은 이산 소스들의 믹싱으로서 계산된다:
Figure 112015078534456-pct00031
(식 8)
식 8에서, SDi는 채널(i)의 특정 주파수 범위(kstart..kend)의 디코딩된 MDCT 변환의 로우 벡터를 나타내고, kend = KCPL, 빈 인덱스는, 수신된 커플링 채널 주파수 범위의 최저 주파수인, E-AC-3 커플링 시작 주파수에 대응한다. 여기에서, gx는 추정 프로세스에 영향을 미치지 않는 정규화 항을 나타낸다. 몇몇 구현들에서, gx는 1로 설정될 수 있다.
kstart 및 kend 사이에서 분석된 빈들의 수에 관한 결정은 복잡도 제약들 및 알파를 추정하는 원하는 정확도 사이에서의 트레이드-오프에 기초할 수 있다. 몇몇 구현들에서, kstart는 특정한 임계치(예로서, 1 kHz)에서 또는 이상에서의 주파수에 대응할 수 있으며, 따라서, 수신된 커플링 채널 주파수 범위에 비교적 더 가까운 주파수 범위에서의 오디오 데이터가, 알파 값들의 추정을 개선하기 위해 사용된다. 주파수 영역(kstart..kend)은 주파수 대역들로 분할될 수 있다. 몇몇 구현들에서, 이들 주파수 대역들에 대한 교차-상관 계수들은 다음과 같이 계산될 수 있다:
Figure 112015078534456-pct00032
(식 9)
식 9에서, SDi(l)은 하위 주파수 범위의 대역(l)에 대응하는 SDi의 세그먼트를 나타내며, XD(l)은 XD의 대응하는 세그먼트를 나타낸다. 몇몇 구현들에서, 예측(E{})은 예로서, 다음과 같이, 간단한 극점-영점 무한 임펄스 응답("IIR") 필터를 사용하여 근사될 수 있다:
Figure 112015078534456-pct00033
(식 10)
식 10에서,
Figure 112015078534456-pct00034
은 블록(n)까지 샘플들을 사용하여 E{y}의 추정치를 나타낸다. 이 예에서, cci(l)은 단지 현재 블록에 대한 커플링에 있는 이들 채널들에 대해서만 계산된다. 단지 실수-기반 MDCT 계수들만을 고려해볼 때 전력 추정을 제거하는 목적을 위해, a=0.2의 값은 충분한 것으로 발견되었다. MDCT 이외의 다른 변환들에 대해, 및 구체적으로 복소 변환들에 대해, a의 보다 큰 값이 사용될 수 있다. 이러한 경우들에, 0.2<a<0.5에서의 a의 값은 적정할 것이다. 몇몇 하위-복잡도 구현들이 전력들 및 교차-상관 계수들 대신에 계산된 상관 계수(cci(l))의 시간 평활화를 수반할 수 있다. 분자 및 분모를 개별적으로 추정하는 것과 수학적으로 같지 않을지라도, 이러한 하위-복잡도 평활화는 교차-상관 계수들의 충분히 정확한 추정을 제공하는 것으로 발견되었다. 1차 IIR 필터로서 추정 함수의 특정한 구현은 선-입-후-출("FILO") 버퍼에 기초한 것과 같은, 다른 기법들을 통해 구현을 배제하지 않는다. 이러한 구현들에서, 버퍼에서 가장 오래된 샘플은 현재 추정치(E{})로부터 감해질 수 있는 반면, 가장 새로운 샘플은 현재 추정치(E{})에 부가될 수 있다.
몇몇 구현들에서, 평활화 프로세스는 이전 블록에 대해 계수들(SDi)이 커플링 중인지 여부를 고려한다. 예를 들면, 이전 블록에서, 채널(i)이 커플링 중이 아니라면, 현재 블록에 대해, 이전 블록에 대한 MDCT 계수들이 커플링 채널에 포함되지 않을 것이므로, a는 1.0으로 설정될 수 있다. 또한, 이전 MDCT 변환은 E-AC-3 쇼트 블록 모드를 사용하여 코딩되었으며, 이것은 이 경우에 1.0으로 a를 설정하는 것을 추가로 검증한다.
이러한 단계에서, 개개의 채널들 및 복합 커플링 채널 사이에서의 교차-상관 계수들이 결정되었다. 도 10B의 예에서, 블록들(1022 내지 1045)에 대응하는 프로세스들이 실행되었다. 다음의 프로세스들은 교차-상관 계수들에 기초하여 공간 파라미터들을 추정하는 예들이다. 이들 프로세스들은 방법(1020)의 블록(1050)의 예들이다.
일 예에서, KCPL(수신된 커플링 채널 주파수 범위의 최저 주파수) 아래의 주파수 대역들에 대한 교차-상관 계수들을 사용하여, KCPL 위의 MDCT 계수들의 역상관을 위해 사용될 알파들의 추정치가 발생될 수 있다. 하나의 이러한 구현에 따른 cci(l) 값들로부터 추정된 알파들을 계산하기 위한 의사-코드는 다음과 같다:
Figure 112015078534456-pct00035
알파들을 발생시키는 상기 보외법 프로세스에 대한 주요한 입력은 CCm이며, 이것은 현재 영역에 걸쳐 상관 계수들(cci(l))의 평균을 나타낸다. "영역"은 연속적 E-AC-3 블록들의 임의의 그룹핑일 수 있다. E-AC-3 프레임은 하나 이상의 영역으로 구성될 수 있다. 그러나, 몇몇 구현들에서, 영역들은 프레임 경계들을 가로지르지 않는다. CCm은 다음과 같이 계산될 수 있다(상기 의사-코드에서 함수(MeanRegion())로서 표시됨):
Figure 112015078534456-pct00036
(식 11)
식 11에서, i는 채널 인덱스를 나타내고, L은 추정을 위해 사용된 저-주파수 대역들(KCPL 아래)의 수를 나타내며, N은 현재 영역 내에서의 블록들의 수를 나타낸다. 여기에서 우리는 블록 인덱스(n)를 포함하도록 표기법(cci(l))을 확장한다. 평균 교차-상관 계수는 다음으로 각각의 커플링 채널 주파수 대역에 대한 예측된 알파 값을 발생시키기 위해 다음의 스케일링 동작의 반복된 적용을 통해 수신된 커플링 채널 주파수 범위에 보외될 수 있다:
Figure 112015078534456-pct00037
(식 12)
식 12를 적용할 때, 제 1 커플링 채널 주파수 대역에 대한 fAlphaRho는 CCm(i)*MAPPED_VAR_RHO일 수 있다. 의사-코드 예에서, 변수(MAPPED_VAR_RHO)는 평균 알파 값들이 증가하는 대역 인덱스에 따라 감소하려는 경향이 있음을 관찰함으로써 발견적으로 도출되었다. 이와 같이, MAPPED_VAR_RHO는 1.0 미만으로 설정된다. 몇몇 구현들에서, MAPPED_VAR_RHO는 0.98로 설정된다.
이 단계에서, 공간 파라미터들(이 예에서 알파들)이 추정되었다. 도 10B의 예에서, 블록들(1022 내지 1050)에 대응하는 프로세스들이 실행되었다. 다음의 프로세스들은 추정된 공간 파라미터들에 잡음을 부가하거나 또는 그것을 "디더링"하는 예들이다. 이들 프로세스들은 방법(1020)의 블록(1055)의 예들이다.
예측 에러가 어떻게 상이한 유형들의 다채널 입력 신호들의 큰 코퍼스에 대해 주파수에 따라 달라지는지에 대한 분석에 기초하여, 본 발명자들은 추정된 알파 값들에 부여되는 랜덤화의 정도를 제어하는 발견적 규칙들을 공식화하였다. 커플링 채널 주파수 범위에서의 추정된 공간 파라미터들(보외법에 앞서 하위 주파수들로부터의 상관 산출에 의해 획득된)은, 개개의 채널들 모두가 커플링되지 않고 이용 가능할 때, 결국 이들 파라미터들이 원래 신호로부터 커플링 채널 주파수 범위에서 직접 산출된 것처럼 동일한 통계들을 가질 수 있다. 잡음을 부가하는 목적은 경험적으로 관찰된 것과 유사한 통계적 변화를 부여하는 것이다. 상기 의사-코드에서, VB는 분산이 어떻게 대역 인덱스의 함수로서 변하는지를 구술하는 경험적으로-도출된 스케일링 항을 나타낸다. VM은 합성된 분산이 적용되기 전에 알파에 대한 예측에 기초하는 경험적으로-도출된 특징을 나타낸다. 이것은 예측 에러의 분산이 사실상 예측의 함수라는 사실을 설명한다. 예를 들면, 대역에 대한 알파의 선형 예측이 1.0에 가까울 때, 분산은 매우 낮다. 항(CCv)은 현재 공유된 블록 영역에 대한 계산된 cci 값들의 국소적 분산에 기초한 제어를 나타낸다. CCv는 다음과 같이 계산될 수 있다(상기 의사-코드에서 VarRegion()에 의해 표시된):
Figure 112015078534456-pct00038
(식 13)
이 예에서, VB는 대역 인덱스에 따라 디더 분산을 제어한다. VB는 소스로부터 산출된 알파 예측 에러의 대역들에 걸쳐 분산을 검사함으로써 경험적으로 도출되었다. 본 발명자들은 정규화된 분산 및 대역 인덱스(l) 사이에서의 관계가 다음의 식에 따라 모델링될 수 있다는 것을 발견하였다:
Figure 112015078534456-pct00039
도 10C는 스케일링 항(VB) 및 대역 인덱스(l) 사이에서의 관계를 표시하는 그래프이다. 도 10C는 VB 특징의 통합이 대역 인덱스의 함수로서 점진적으로 더 큰 분산을 가질 추정된 알파를 이끌 것임을 보여준다. 식 13에서, 대역 인덱스(l≤3)는 E-AC-3 오디오 코덱의 최저 커플링 시작 주파수인, 3.42 kHz 미만의 영역에 대응한다. 그러므로, 이들 대역 인덱스들에 대한 VB의 값들은 중요하지 않다.
VM 파라미터는 예측 자체의 함수로서 알파 예측 에러의 행동을 검사함으로써 도출되었다. 특히, 본 발명자들은 알파 = -0.59375에서의 피크를 갖고, 예측된 알파 값이 음일 때 예측 에러의 분산이 증가한다는 것을 다채널 콘텐트의 큰 코퍼스의 분석을 통해 발견하였다. 이것은 분석 하에서 현재 채널이 다운믹스(XD)에 음으로 상관될 때, 추정된 알파가 일반적으로 더 혼돈 상태일 수 있음을 의미한다. 이하의 식 14는 원하는 행동을 모델링한다.
Figure 112015078534456-pct00040
(식 14)
식 14에서, q는 예측의 양자화된 버전을 나타내며(의사-코드에서 fAlphaRho에 의해 표시된), 다음에 따라 계산될 수 있다:
q = floor(fAlphaRho*128)
도 10D는 변수들(VM 및 q) 사이에서의 관계를 표시하는 그래프이다. VM은 q=0에서 값에 의해 정규화되어, VM이 예측 에러 분산에 기여하는 다른 인자들을 수정하도록 한다는 것을 주의하자. 따라서, 항(VM)은 단지 q=0이 아닌 값들에 대한 전체 예측 에러 분산에 영향을 미친다. 의사-코드에서, 심볼(iAlphaRho)은 q+128로 설정된다. 이러한 매핑은 iAlphaRho의 음의 값들에 대한 요구를 회피하며 테이블과 같은, 데이터 구조로부터 직접 VM(q)의 값들을 판독하는 것을 허용한다.
이러한 구현에서, 다음 단계는 3개의 인자들(VM, Vb 및 CCv)에 의해 랜덤 변수(w)를 스케일링하는 것이다. VM 및 CCv 사이에서의 기하 평균이 계산되며 스케일링 인자로서 랜덤 변수에 적용될 수 있다. 몇몇 구현들에서, w는 제로 평균 단위 분산 가우스 분포를 갖고 랜덤 숫자들의 매우 큰 테이블로서 구현될 수 있다.
스케일링 프로세스 후, 평활화 프로세스가 적용될 수 있다. 예를 들면, 디더링된 추정된 공간 파라미터들은 시간에 걸쳐, 예로서 단순한 극점-영점 또는 FILO 평활화기를 사용함으로써 평활화될 수 있다. 평활화 계수는 이전 블록이 커플링 중에 있지 않다면, 또는 현재 블록이 블록들의 영역에서 제 1 블록이라면, 1.0으로 설정될 수 있다. 따라서, 잡음 레코드(w)로부터의 스케일링된 랜덤 숫자는 저역-통과 필터링될 수 있으며, 이것은 소스에서 알파들의 분산에 추정된 알파 값들의 분산을 보다 양호하게 매칭시키는 것으로 발견되었다. 몇몇 구현들에서, 이러한 평활화 프로세스는 cci(l)들을 위해 사용된 평활화보다 덜 적극적일 수 있다(즉, 보다 짧은 임펄스 응답을 가진 IIR).
상기 주지된 바와 같이, 알파들 및/또는 다른 공간 파라미터들을 추정할 때 수반된 프로세스들은 적어도 부분적으로 도 6C에 예시되는 것과 같은 제어 정보 수신기/발생기(640)에 의해 실행될 수 있다. 몇몇 구현들에서, 제어 정보 수신기/발생기(640)(또는 오디오 프로세싱 시스템의 하나 이상의 다른 구성요소들)의 과도 제어 모듈(655)은 과도-관련 기능을 제공하도록 구성될 수 있다. 과도 검출의, 및 그에 따라 역상관 프로세스를 제어하는 몇몇 예들이 이제 도 11A 이하를 참조하여 설명될 것이다.
도 11A는 과도 결정 및 과도-관련 제어들의 몇몇 방법들을 개괄하는 흐름도이다. 블록(1105)에서, 복수의 오디오 채널들에 대응하는 오디오 데이터는 예를 들면, 디코딩 디바이스 또는 또 다른 이러한 오디오 프로세싱 시스템에 의해 수신된다. 이하에 설명된 바와 같이, 몇몇 구현들에서, 유사한 프로세스들이 인코딩 디바이스에 의해 실행될 수 있다.
도 11B는 과도 결정 및 과도-관련 제어들을 위한 다양한 구성요소들의 예들을 포함하는 블록도이다. 몇몇 구현들에서, 블록(1105)은 과도 제어 모듈(655)을 포함하는 오디오 프로세싱 시스템에 의해 오디오 데이터(220) 및 오디오 데이터(245)를 수신하는 것을 수반할 수 있다. 오디오 데이터(220 및 245)는 오디오 신호들의 주파수 도메인 표현들을 포함할 수 있다. 오디오 데이터(220)는 커플링 채널 주파수 범위에서의 오디오 데이터 요소들을 포함할 수 있는 반면, 오디오 데이터 요소들(245)은 커플링 채널 주파수 범위의 밖에 있는 오디오 데이터를 포함할 수 있다. 오디오 데이터 요소들(220 및/또는 245)은 과도 제어 모듈(655)을 포함하는 역상관기로 라우팅될 수 있다.
오디오 데이터 요소들(245 및 220) 외에, 과도 제어 모듈(655)은 블록(1105)에서, 역상관 정보(240a 및 240b)와 같은, 다른 연관된 오디오 정보를 수신할 수 있다. 이 예에서, 역상관 정보(240a)는 명시적 역상관기-특정 제어 정보를 포함할 수 있다. 예를 들면, 역상관 정보(240a)는 이하에 설명된 것과 같은 명시적 과도 정보를 포함할 수 있다. 상기 역상관 정보(240b)는 레거시 오디오 코덱의 비트스트림으로부터의 정보를 포함할 수 있다. 예를 들면, 역상관 정보(240b)는 AC-3 오디오 코덱 또는 E-AC-3 오디오 코덱에 따라 인코딩된 비트스트림에서 이용 가능한 시간 분할 정보를 포함할 수 있다. 예를 들면, 역상관 정보(240b)는 사용-중-커플링 정보, 블록-스위칭 정보, 지수 정보, 지수 전략 정보 등을 포함할 수 있다. 이러한 정보는 오디오 데이터(220)와 함께 비트스트림에서 오디오 프로세싱 시스템에 의해 수신될 수 있다.
블록(1110)은 오디오 데이터의 오디오 특성들을 결정하는 것을 수반한다. 다양한 구현들에서, 블록(1110)은 예로서, 과도 제어 모듈(655)에 의해, 과도 정보를 결정하는 것을 수반한다. 블록(1115)은 적어도 부분적으로, 오디오 특성들에 기초하여 오디오 데이터에 대한 역상관의 양을 결정하는 것을 수반한다. 예를 들면, 블록(1115)은 적어도 부분적으로, 과도 정보에 기초하여 역상관 제어 정보를 결정하는 것을 수반할 수 있다.
블록(1115)에서, 도 11B의 과도 제어 모듈(655)은 여기에서의 다른 곳에 설명된 역상관 신호 발생기(218)와 같은, 역상관 신호 발생기에 역상관 신호 발생기 제어 정보(625)를 제공할 수 있다. 블록(1115)에서, 과도 제어 모듈(655)은 또한 믹서(215)와 같은, 믹서에 믹서 제어 정보(645)를 제공할 수 있다. 블록(1120)에서, 오디오 데이터는 블록(1115)에서 이루어진 결정에 따라 프로세싱될 수 있다. 예를 들면, 역상관 신호 발생기(218) 및 믹서(215)의 동작들은 적어도 부분적으로, 과도 제어 모듈(655)에 의해 제공된 역상관 제어 정보에 따라 실행될 수 있다.
몇몇 구현들에서, 도 11A의 블록(1110)은 오디오 데이터와 함께 명시적 과도 정보를 수신하는 것 및 적어도 부분적으로, 상기 명시적 과도 정보에 따라, 상기 과도 정보를 결정하는 것을 수반할 수 있다.
몇몇 구현들에서, 명시적 과도 정보는 확정 과도 이벤트에 대응하는 과도 값을 표시할 수 있다. 이러한 과도 값은 비교적 높은(또는 최대) 과도 값일 수 있다. 높은 과도 값은 과도 이벤트의 높은 우도 및/또는 높은 심각도에 대응할 수 있다. 예를 들면, 가능한 과도 값들이 범위가 0에서 1까지이면, .9 및 1 사이에서의 과도 값들의 범위는 확정 및/또는 극심한 과도 이벤트에 대응할 수 있다. 그러나, 임의의 적절한 범위의 과도 값들, 예로서 0 내지 9, 1 내지 100 등이 사용될 수 있다.
명시적 과도 정보는 확정 비-과도 이벤트에 대응하는 과도 값을 표시할 수 있다. 예를 들면, 가능한 과도 값들이 범위가 1에서 100까지이면, 1 내지 5의 범위에 있는 값은 확정 비-과도 이벤트 또는 매우 가벼운 과도 이벤트에 대응할 수 있다.
몇몇 구현들에서, 명시적 과도 정보는 예로서, 0 또는 1의 이진 표현을 가질 수 있다. 예를 들면, 1의 값은 확정 과도 이벤트와 부합할 수 있다. 그러나, 0의 값은 확정 비-과도 이벤트를 표시하지 않을 수 있다. 대신에, 몇몇 이러한 구현들에서, 0의 값은 확정 및/또는 극심한 과도 이벤트의 부족을 간단히 표시할 수 있다.
그러나, 몇몇 구현들에서, 명시적 과도 정보는 최소 과도 값(예로서, 0) 및 최대 과도 값(예로서, 1) 사이에서의 중간 과도 값들을 포함할 수 있다. 중간 과도 값은 과도 이벤트의 중간 우도 및/또는 중간 심각도에 대응할 수 있다.
도 11B의 역상관 필터 입력 제어 모듈(1125)은 역상관 정보(240a)를 통해 수신된 명시적 과도 정보에 따라 블록(1110)에서 과도 정보를 결정할 수 있다. 대안적으로, 또는 부가적으로, 역상관 필터 입력 제어 모듈(1125)은 레거시 오디오 코덱의 비트스트림으로부터의 정보에 따라 블록(1110)에서 과도 정보를 결정할 수 있다. 예를 들면, 역상관 정보(240b)에 기초하여, 역상관 필터 입력 제어 모듈(1125)은 채널 커플링이 현재 블록에 대해 사용 중이지 않고, 채널이 현재 블록에서 커플링 외에 있으며 및/또는 채널이 현재 블록에서 블록-스위칭됨을 결정할 수 있다.
역상관 정보(240a 및/또는 240b)에 기초하여, 역상관 필터 입력 제어 모듈(1125)은 때때로 블록(1110)에서 확정 과도 이벤트에 대응하는 과도 값을 결정할 수 있다. 그렇다면, 몇몇 구현들에서, 역상관 필터 입력 제어 모듈(1125)은 블록(1115)에서 역상관 프로세스(및/또는 역상관 필터 디더링 프로세스)가 일시적으로 중단되어야 함을 결정할 수 있다. 따라서, 블록(1120)에서 역상관 필터 입력 제어 모듈(1125)은 역상관 프로세스(및/또는 역상관 필터 디더링 프로세스)가 일시적으로 중단되어야 함을 표시하는 역상관 신호 발생기 제어 정보(625e)를 발생시킬 수 있다. 대안적으로, 또는 부가적으로, 블록(1120)에서, 소프트 과도 산출기(1130)는 역상관 필터 디더링 프로세스가 일시적으로 중단되거나 또는 속도를 늦춰야 함을 표시하는, 역상관 신호 발생기 제어 정보(625f)를 발생시킬 수 있다.
대안적인 구현들에서, 블록(1110)은 오디오 데이터와 함께 어떤 명시적 과도 정보도 수신하지 않음을 수반할 수 있다. 그러나, 명시적 과도 정보가 수신되는지 여부에 관계없이, 방법(1100)의 몇몇 구현들은 오디오 데이터(220)의 분석에 따라 과도 이벤트를 검출하는 것을 수반할 수 있다. 예를 들면, 몇몇 구현들에서, 과도 이벤트는 명시적 과도 정보가 과도 이벤트를 표시하지 않을 때조차 블록(1110)에서 검출될 수 있다. 디코더에 의해 결정되거나 또는 검출되는 과도 이벤트, 또는 유사한 오디오 프로세싱 시스템은, 오디오 데이터(220)의 분석에 따라, 여기에서 "소프트 과도 이벤트"로서 불리울 수 있다.
몇몇 구현들에서, 과도 값이 명시적 과도 값으로서 제공되는지 또는 소프트 과도 값으로서 결정되는지에 관계없이, 과도 값은 지수 감소 함수의 대상이 될 수 있다. 예를 들면, 지수 감소 함수는 과도 값이 시간 기간에 걸쳐 초기 값에서 0으로 평활하게 감소하게 할 수 있다. 과도 값이 지수 감소 함수를 겪게 하는 것은 갑작스런 스위칭과 연관된 아티팩트들을 방지할 수 있다.
몇몇 구현들에서, 소프트 과도 이벤트를 검출하는 것은 과도 이벤트의 우도 및/또는 심각도를 평가하는 것을 수반할 수 있다. 이러한 평가들은 오디오 데이터(220)에서 시간적 전력 변화를 산출하는 것을 수반할 수 있다.
도 11C는 적어도 부분적으로, 오디오 데이터의 시간적 전력 변화들에 기초하여 과도 제어 값들을 결정하는 몇몇 방법들을 개괄하는 흐름도이다. 몇몇 구현들에서, 방법(1150)은 적어도 부분적으로 과도 제어 모듈(655)의 소프트 과도 산출기(1130)에 의해 실행될 수 있다. 그러나, 몇몇 구현들에서, 방법(1150)은 인코딩 디바이스에 의해 실행될 수 있다. 몇몇 이러한 구현들에서, 명시적 과도 정보는 방법(1150)에 따라 인코딩 디바이스에 의해 결정되며 다른 오디오 데이터와 함께 비트스트림에 포함될 수 있다.
방법(1150)은 블록(1152)에서 시작되며, 여기에서 커플링 채널 주파수 범위에서의 업믹싱된 오디오 데이터가 수신된다. 도 11B에서, 예를 들면, 업믹싱된 오디오 데이터 요소들(220)은 블록(1152)에서 소프트 과도 산출기(1130)에 의해 수신될 수 있다. 블록(1154)에서, 수신된 커플링 채널 주파수 범위는, 또한 여기에서 "전력 대역들"로서 불리울 수 있는, 하나 이상의 주파수 대역들로 분할된다.
블록(1156)은 업믹싱된 오디오 데이터의 블록 및 각각의 채널에 대한 주파수-대역-가중 로그 전력("WLP")을 계산하는 것을 수반한다. WLP를 계산하기 위해, 각각의 전력 대역의 전력이 결정될 수 있다. 이들 전력들은 로그 값들로 변환되며 그 후 전력 대역들에 걸쳐 평균화될 수 있다. 몇몇 구현들에서, 블록(1156)은 다음의 표현에 따라 실행될 수 있다:
Figure 112015078534456-pct00041
(식 15)
식 15에서, WLP[ch][blk]는 채널 및 블록에 대한 가중된 로그 전력을 나타내고, [pwr_bnd]는 수신된 커플링 채널 주파수 범위가 분할된 주파수 대역 또는 "전력 대역"을 나타내며 meanpwr _ bnd{log(P[ch][blk][pwr_bnd])}는 채널 및 블록의 전력 대역들에 걸쳐 전력의 로그들의 평균을 나타낸다.
밴딩은 다음의 이유들로, 상위 주파수들에서의 전력 변화를 사전-강조(pre-emphasize)할 수 있다. 전체 커플링 채널 주파수 범위가 하나의 대역이라면, P[ch][blk][pwr_bnd]는 커플링 채널 주파수 범위에서의 각각의 주파수에서의 전력의 산술 평균일 것이며 통상적으로 보다 높은 전력을 갖는 하위 주파수들은 P[ch][blk][pwr_bnd]의 값 및 그러므로 log(P[ch][blk][pwr_bnd])의 값을 압도하려는 경향이 있을 것이다. (이 경우에 log(P[ch][blk][pwr_bnd])는, 단지 하나의 대역이 있을 것이기 때문에, 평균 log(P[ch][blk][pwr_bnd])와 동일한 값을 가질 것이다.) 따라서, 과도 검출은 큰 정도로 하위 주파수들에서의 시간적 변화에 기초할 것이다. 예를 들면, 커플링 채널 주파수 범위를 하위 주파수 대역 및 상위 주파수 대역으로 분할하며 그 후 더 정확히 말하면 로그-도메인에서의 두 개의 대역들의 전력을 평균화하는 것은 하위 주파수들의 전력 및 상위 주파수들의 전력의 기하 평균을 산출하는 것과 같다. 이러한 기하 평균은 산술 평균인 것보다 상위 주파수들의 전력에 더 가까울 것이다. 그러므로, 로그(전력)를 결정하며 그 후 평균을 결정하는, 밴딩은 상위 주파수들에서의 시간적 변화에 더 민감한 양을 야기하려는 경향이 있을 것이다.
이러한 구현에서, 블록(1158)은 WLP에 기초하여 비대칭 전력 차("APD")를 결정하는 것을 수반한다. 예를 들면, APD는 다음과 같이 결정될 수 있다:
Figure 112015078534456-pct00042
(식 16)
식 16에서, dWLP[ch][blk]는 채널 및 블록에 대한 차 가중된 로그 전력을 나타내며 WLP[ch][blk][blk-2]는 두 개의 블록들 전에 채널에 대한 가중된 로그 전력을 나타낸다. 식 16의 예는 E-AC-3 및 AC-3과 같은 오디오 코덱들을 통해 인코딩된 오디오 데이터를 프로세싱하는데 유용하며, 여기에서 연속 블록들 사이에 50% 중첩이 있다. 따라서, 현재 블록의 WLP는 두 개의 블록들 전에 WLP에 비교된다. 연속 블록들 사이에 어떤 중첩도 없다면, 현재 블록의 WLP는 이전 블록의 WLP에 비교될 수 있다.
이 예는 이전 블록들의 가능한 시간적 마스킹 효과를 이용한다. 따라서, 현재 블록의 WLP가 이전 블록(이 예에서, 두 개의 블록들 이전의 WLP)의 것 이상이면, APD는 실제 WLP 차로 설정된다. 그러나, 현재 블록의 WLP가 이전 블록의 것보다 작다면, APD는 실제 WLP 차의 반으로 설정된다. 따라서, APD는 증가하는 전력을 강조하며 감소하는 전력을 약화시킨다. 다른 구현들에서, 실제 WLP 차의 상이한 부분, 예로서 실제 WLP 차의 ¼이 사용될 수 있다.
블록(1160)은 APD에 기초하여 원 과도 측정치("RTM")를 결정하는 것을 수반할 수 있다. 이러한 구현에서, 원 과도 측정치를 결정하는 것은 시간적 비대칭 전력 차가 가우스 분포에 따라 분포된다는 가정에 기초하여 과도 이벤트들의 우도 함수를 산출하는 것을 수반한다:
Figure 112015078534456-pct00043
(식 17)
식 17에서, RTM[ch][blk]는 채널 및 블록에 대한 원 과도 측정치를 나타내며, SAPD는 동조 파라미터를 나타낸다. 이 예에서, SAPD가 증가될 때, 비교적 더 큰 전력 차가 RTM의 동일한 값을 생성하기 위해 요구될 것이다.
또한 여기에서 "과도 측정치"로서 불리울 수 있는, 과도 제어 값은 블록(1162)에서 RTM으로부터 결정될 수 있다. 이 예에서, 과도 제어 값은 식 18에 따라 결정된다:
Figure 112015078534456-pct00044
(식 18)
식 18에서, TM[ch][blk]는 채널 및 블록에 대한 과도 측정치를 나타내고. TH는 상부 임계치를 나타내며 TL은 하부 임계치를 나타낸다. 도 11D는 식 18을 적용하며 임계치들(TH 및 TL)이 어떻게 사용될 수 있는지에 대한 예를 제공한다. 다른 구현들은 RTM에서 TM으로의 다른 유형들의 선형 또는 비선형 매핑을 수반할 수 있다. 몇몇 이러한 구현들에 따르면, TM은 RTM의 비-감소 함수이다.
도 11D는 과도 제어 값들로의 원 과도 값들의 매핑의 예를 예시하는 그래프이다. 여기에서, 원 과도 값들 및 과도 제어 값들 양쪽 모두는 범위가 0.0에서 1.0에 이르지만, 다른 구현들은 다른 범위들의 값들을 수반할 수 있다. 식 18 및 도 11D에 도시된 바와 같이, 원 과도 값이 상부 임계치(TH) 이상이면, 과도 제어 값은 이 예에서, 1.0인 그것의 최대 값으로 설정된다. 몇몇 구현들에서, 최대 과도 제어 값은 확정 과도 이벤트와 부합할 수 있다.
원 과도 값이 하부 임계치(TL) 이하이면, 과도 제어 값은 이 예에서 0.0인, 그것의 최소 값으로 설정된다. 몇몇 구현들에서, 최소 과도 제어 값은 확정 비-과도 이벤트와 부합할 수 있다.
그러나, 원 과도 값이 하부 임계치(TL) 및 상부 임계치(TH) 사이에서의 범위(1166) 내에 있다면, 과도 제어 값은 이 예에서 0.0 및 1.0 사이에 있는, 중간 과도 제어 값으로 스케일링될 수 있다. 중간 과도 제어 값은 과도 이벤트의 상대적 우도 및/또는 상대적 심각도와 부합할 수 있다.
도 11C를 다시 참조하면, 블록(1164)에서, 지수 감소 함수는 블록(1162)에서 결정되는 과도 제어 값에 적용될 수 있다. 예를 들면, 지수 감소 함수는 과도 제어 값이 시간 기간에 걸쳐 초기 값에서 0으로 평활하게 감소하게 할 수 있다. 과도 제어 값이 지수 감소 함수를 겪게 하는 것은 갑작스러운 스위칭과 연관된 아티팩트들을 방지할 수 있다. 몇몇 구현들에서, 각각의 현재 블록의 과도 제어 값이 산출될 수 있으며 이전 블록의 과도 제어 값의 지수 감소된 버전에 비교될 수 있다. 현재 블록에 대한 최종 과도 제어 값은 두 개의 과도 제어 값들의 최대치로서 설정될 수 있다.
과도 정보는, 다른 오디오 데이터와 함께 수신되는지 또는 디코더에 의해 결정되는지에 관계없이, 역상관 프로세스들을 제어하기 위해 사용될 수 있다. 과도 정보는 상기 설명된 것들과 같은 과도 제어 값들을 포함할 수 있다. 몇몇 구현들에서, 오디오 데이터에 대한 역상관의 양은 적어도 부분적으로 이러한 과도 정보에 기초하여 수정될 수 있다(예로서, 감소될 수 있다).
상기 설명된 바와 같이, 이러한 역상관 프로세스들은 필터링된 오디오 데이터를 생성하기 위해, 오디오 데이터의 일 부분에 역상관 필터를 적용하는 단계 및 믹싱 비에 따라 수신된 오디오 데이터의 일 부분과 상기 필터링된 오디오 데이터를 믹싱하는 단계를 수반할 수 있다. 몇몇 구현들은 과도 정보에 따라 믹서(215)를 제어하는 것을 수반할 수 있다. 예를 들면, 이러한 구현들은 적어도 부분적으로, 과도 정보에 기초하여 믹싱 비를 수정하는 것을 수반할 수 있다. 이러한 과도 정보는 예를 들면, 믹서 과도 제어 모듈(1145)에 의해 믹서 제어 정보(645)에 포함될 수 있다. (도 11B 참조.)
몇몇 이러한 구현들에 따르면, 과도 제어 값들은 과도 이벤트들 동안 역상관을 중지시키거나 또는 감소시키도록 알파들을 수정하기 위해 믹서(215)에 의해 사용될 수 있다. 예를 들면, 알파들은 다음의 의사 코드에 따라 수정될 수 있다:
Figure 112015078534456-pct00045
앞서 말한 의사 코드에서, alpha[ch][bnd]는 하나의 채널에 대한 주파수 대역의 알파 값을 나타낸다. 용어(decorrelationDecayArray[ch])는 범위가 0에서 1까지에 이르는 값을 취하는 지수 감소 변수를 나타낸다. 몇몇 예들에서, 알파들은 과도 이벤트들 동안 +/-1을 향해 수정될 수 있다. 수정의 정도는 decorrelationDecayArray[ch]에 비례할 수 있으며, 이것은 0을 향해 역상관 신호들에 대한 믹싱 가중들을 감소시키며 그에 따라 역상관을 중지하거나 또는 감소시킬 것이다. decorrelationDecayArray[ch]의 지수 감소는 정상 역상관 프로세스를 느리게 복원한다.
몇몇 구현들에서, 소프트 과도 산출기(1130)는 소프트 과도 정보를 공간 파라미터 모듈(665)에 제공할 수 있다. 적어도 부분적으로 소프트 과도 정보에 기초하여, 공간 파라미터 모듈(665)은 비트스트림에서 수신된 공간 파라미터들을 평활화하기 위한 또는 공간 파라미터 추정에 수반된 에너지 및 다른 양들을 평활화하기 위한 평활화기를 선택할 수 있다.
몇몇 구현들은 과도 정보에 따라 역상관 신호 발생기(218)를 제어하는 것을 수반할 수 있다. 예를 들면, 이러한 구현들은 적어도 부분적으로, 과도 정보에 기초하여 역상관 필터 디더링 프로세스를 수정하거나 또는 일시적으로 중단하는 것을 수반할 수 있다. 이것은 과도 이벤트들 동안 전-통과 필터들의 극점들을 디더링하는 것이 원하지 않는 링잉 아티팩트들을 야기할 수 있기 때문에 유리할 수 있다. 몇몇 이러한 구현들에서, 역상관 필터의 극점들을 디더링하기 위한 최대 스트라이드 값은 적어도 부분적으로, 과도 정보에 기초하여 수정될 수 있다.
예를 들면, 소프트 과도 산출기(1130)는 역상관 신호 발생기(218)의 역상관 필터 제어 모듈(405)에 역상관 신호 발생기 제어 정보(625f)를 제공할 수 있다(또한 도 4 참조). 역상관 필터 제어 모듈(405)은 역상관 신호 발생기 제어 정보(625f)에 응답하여 시변 필터들(1127)을 발생시킬 수 있다. 몇몇 구현들에 따르면, 역상관 신호 발생기 제어 정보(625f)는 다음과 같은, 지수 감소 변수의 최대 값에 따라 최대 스트라이드 값을 제어하기 위한 정보를 포함할 수 있다:
Figure 112015078534456-pct00046
예를 들면, 최대 스트라이드 값은 과도 이벤트들이 임의의 채널에서 검출될 때 앞서 말한 표현으로 곱하여질 수 있다. 디더링 프로세스는 그에 따라 중단되거나 또는 속도가 느려질 수 있다.
몇몇 구현들에서, 이득은 적어도 부분적으로 과도 정보에 기초하여 필터링된 오디오 데이터에 적용될 수 있다. 예를 들면, 필터링된 오디오 데이터의 전력은 직접 오디오 데이터의 전력과 매칭될 수 있다. 몇몇 구현들에서, 이러한 기능은 도 11B의 더커 모듈(1135)에 의해 제공될 수 있다.
더커 모듈(1135)은 소프트 과도 산출기(1130)로부터, 과도 제어 값들과 같은, 과도 정보를 수신할 수 있다. 더커 모듈(1135)은 과도 제어 값들에 따라 역상관 신호 발생기 제어 정보(625h)를 결정할 수 있다. 더커 모듈(1135)은 역상관 신호 발생기(218)에 역상관 신호 발생기 제어 정보(625h)를 제공할 수 있다. 예를 들면, 역상관 신호 발생기 제어 정보(625h)는 역상관 신호 발생기(218)가 직접 오디오 데이터의 전력 이하인 레벨에서 필터링된 오디오 데이터의 전력을 유지하기 위해 역상관 신호들(227)에 적용할 수 있는 이득 값을 포함한다. 더커 모듈(1135)은 커플링 중인 각각의 수신된 채널에 대해, 커플링 채널 주파수 범위에서의 주파수 대역당 에너지를 산출함으로써 역상관 신호 발생기 제어 정보(625h)를 결정할 수 있다.
더커 모듈(1135)은, 예를 들면, 더커들의 뱅크를 포함할 수 있다. 몇몇 이러한 구현들에서, 더커들은 더커 모듈(1135)에 의해 결정된 커플링 채널 주파수 범위에서의 주파수 대역당 에너지를 일시적으로 저장하기 위한 버퍼들을 포함할 수 있다. 고정된 지연은 필터링된 오디오 데이터에 적용될 수 있으며 동일한 지연이 버퍼들에 적용될 수 있다.
더커 모듈(1135)은 또한 믹서-관련 정보를 결정할 수 있으며 믹서 과도 제어 모듈(1145)에 믹서-관련 정보를 제공할 수 있다. 몇몇 구현들에서, 더커 모듈(1135)은 적용될 이득에 기초하여 믹싱 비를 수정하도록 믹서(215)를 제어하기 위한 정보를 필터링된 오디오 데이터에 제공할 수 있다. 몇몇 이러한 구현들에 따르면, 더커 모듈(1135)은 과도 이벤트들 동안 역상관을 중지하거나 또는 감소시키기도록 믹서(215)를 제어하기 위한 정보를 제공할 수 있다. 예를 들면, 더커 모듈(1135)은 다음의 믹서-관련 정보를 제공할 수 있다:
Figure 112015078534456-pct00047
앞서 말한 의사 코드에서, TransCtrlFlag는 과도 제어 값을 나타내며 DecorrGain[ch][bnd]는 필터링된 오디오 데이터의 채널의 대역에 적용하기 위한 이득을 나타낸다.
몇몇 구현들에서, 더커들을 위한 전력 추정 평활화 윈도우는 적어도 부분적으로, 과도 정보에 기초할 수 있다. 예를 들면, 보다 짧은 평활화 윈도우는 과도 이벤트가 비교적 더 가능성 있을 때 또는 비교적 더 강한 과도 이벤트가 검출될 때 적용될 수 있다. 더 긴 평활화 윈도우는 과도 이벤트가 비교적 가능성이 적을 때, 비교적 더 약한 과도 이벤트가 검출될 때 또는 어떤 과도 이벤트도 검출되지 않을 때 적용될 수 있다. 예를 들면, 평활화 윈도우 길이는 윈도우 길이가 플래그 값이 최대 값(예로서, 1.0)에 가까울 때 더 짧으며 플래그 값이 최소 값(예로서, 0.0)에 가까울 때 더 길도록 과도 제어 값들에 기초하여 동적으로 조정될 수 있다. 이러한 구현들은 비-과도 상황들 동안 평활 이득 인자들을 야기하면서 과도 이벤트들 동안 시간 되물림(time smearing)을 회피하도록 도울 수 있다.
상기 주지된 바와 같이, 몇몇 구현들에서 과도 정보는 인코딩 디바이스에 의해 결정될 수 있다. 도 11E는 과도 정보를 인코딩하는 방법을 개괄하는 흐름도이다. 블록(1172)에서, 복수의 오디오 채널들에 대응하는 오디오 데이터가 수신된다. 이 예에서, 오디오 데이터는 인코딩 디바이스에 의해 수신된다. 몇몇 구현들에서, 오디오 데이터는 시간 도메인에서 주파수 도메인으로 변환될 수 있다(선택적 블록 1174).
블록(1176)에서, 과도 정보를 포함한, 오디오 특성들이 결정된다. 예를 들면, 과도 정보는 도 11A 내지 도 11D를 참조하여 상기 설명된 바와 같이 결정될 수 있다. 예를 들면, 블록(1176)은 오디오 데이터에서 시간적 전력 변화를 평가하는 것을 수반할 수 있다. 블록(1176)은 오디오 데이터에서의 시간적 전력 변화에 따라 과도 제어 값들을 결정하는 것을 수반할 수 있다. 이러한 과도 제어 값들은 확정 과도 이벤트, 확정 비-과도 이벤트, 과도 이벤트의 우도 및/또는 과도 이벤트의 심각도를 표시할 수 있다. 블록(1176)은 과도 제어 값들에 지수 감소 함수를 적용하는 것을 수반할 수 있다.
몇몇 구현들에서, 블록(1176)에서 결정된 오디오 특성들은 실질적으로 여기에서의 다른 곳에 설명된 바와 같이 결정될 수 있는, 공간 파라미터들을 포함할 수 있다. 그러나, 커플링 채널 주파수 범위의 밖에 있는 상관들을 산출하는 대신에, 공간 파라미터들은 커플링 채널 주파수 범위 내에서의 상관들을 산출함으로써 결정될 수 있다. 예를 들면, 커플링을 갖고 인코딩될 개개의 채널에 대한 알파들은 주파수 대역 기반으로 상기 채널 및 커플링 채널의 변환 계수들 사이에서의 상관들을 산출함으로써 결정될 수 있다. 몇몇 구현들에서, 인코더는 오디오 데이터의 복소 주파수 표현들을 사용함으로써 공간 파라미터들을 결정할 수 있다.
블록(1178)은 오디오 데이터의 둘 이상의 채널들의 적어도 일 부분을 커플링 채널에 커플링하는 것을 수반한다. 예를 들면, 커플링 채널 주파수 범위 내에 있는, 커플링 채널에 대한 오디오 데이터의 주파수 도메인 표현들은 블록(1178)에서 결합될 수 있다. 몇몇 구현들에서, 하나 이상의 커플링 채널이 블록(1178)에서 형성될 수 있다.
블록(1180)에서, 인코딩된 오디오 데이터 프레임들이 형성된다. 이 예에서, 인코딩된 오디오 데이터 프레임들은 블록(1176)에서 결정된 인코딩된 과도 정보 및 커플링 채널(들)에 대응하는 데이터를 포함한다. 예를 들면, 인코딩된 과도 정보는 하나 이상의 제어 플래그들을 포함할 수 있다. 상기 제어 플래그들은 채널 블록 스위치 플래그, 커플링 외 채널 플래그 및/또는 사용-중-커플링 플래그를 포함할 수 있다. 블록(1180)은 확정 과도 이벤트, 확정 비-과도 이벤트, 과도 이벤트의 우도 또는 과도 이벤트의 심각도를 표시하는 인코딩된 과도 정보를 형성하기 위해 상기 제어 플래그들 중 하나 이상의 결합을 결정하는 것을 수반할 수 있다.
제어 플래그들을 결합함으로써 형성되는지 여부에 관계없이, 인코딩된 과도 정보는 역상관 프로세스를 제어하기 위한 정보를 포함할 수 있다. 예를 들면, 과도 정보는 역상관 프로세스가 일시적으로 중단되어야 함을 표시할 수 있다. 과도 정보는 역상관 프로세스에서의 역상관의 양이 일시적으로 감소되어야 함을 표시할 수 있다. 과도 정보는 역상관 프로세스의 믹싱 비가 수정되어야 함을 표시할 수 있다.
인코딩된 오디오 데이터 프레임들은 또한 커플링 채널 주파수 범위의 밖에 있는 개개의 채널들에 대한 오디오 데이터, 커플링 중이지 않은 채널들에 대한 오디오 데이터 등을 포함하여, 다양한 다른 유형들의 오디오 데이터를 포함할 수 있다. 몇몇 구현들에서, 인코딩된 오디오 데이터 프레임들은 또한 공간 파라미터들, 커플링 좌표들, 및/또는 여기에서의 다른 곳에 설명된 것과 같은 다른 유형들의 부 정보를 포함할 수 있다.
도 12는 여기에 설명된 프로세스들의 양상들을 구현하기 위해 구성될 수 있는 장치의 구성요소들의 예들을 제공하는 블록도이다. 디바이스(1200)는 이동 전화, 스마트폰, 데스크탑 컴퓨터, 핸드-헬드 또는 휴대용 컴퓨터, 넷북, 노트북, 스마트북, 태블릿, 스테레오 시스템, 텔레비전, DVD 플레이어, 디지털 레코딩 디바이스, 또는 다양한 다른 디바이스들 중 임의의 것일 수 있다. 디바이스(1200)는 인코딩 툴 및/또는 디코딩 툴을 포함할 수 있다. 그러나, 도 12에 예시된 구성요소들은 단지 예들이다. 특정한 디바이스는 여기에서 설명된 다양한 실시예들을 구현하도록 구성될 수 있지만, 모든 구성요소들을 포함하거나 또는 포함하지 않을 수 있다. 예를 들면, 몇몇 구현들은 스피커 또는 마이크로폰을 포함하지 않을 수 있다.
이 예에서, 디바이스는 인터페이스 시스템(1205)을 포함한다. 상기 인터페이스 시스템(1205)은 무선 네트워크 인터페이스와 같은, 네트워크 인터페이스를 포함할 수 있다. 대안적으로, 또는 부가적으로, 인터페이스 시스템(1205)은 범용 직렬 버스(USB) 인터페이스 또는 또 다른 이러한 인터페이스를 포함할 수 있다.
디바이스(1200)는 로직 시스템(1210)을 포함한다. 상기 로직 시스템(1210)은 범용 단일- 또는 다중-칩 프로세서와 같은, 프로세서를 포함할 수 있다. 상기 로직 시스템(1210)은 디지털 신호 프로세스(DSP), 애플리케이션 특정 집적 회로(ASIC), 필드 프로그램 가능한 게이트 어레이(FPGA) 또는 다른 프로그램 가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 또는 이산 하드웨어 구성요소들, 또는 그것의 결합들을 포함할 수 있다. 상기 로직 시스템(1210)은 디바이스(1200)의 다른 구성요소들을 제어하도록 구성될 수 있다. 디바이스(1200)의 구성요소들 사이에서의 어떤 인터페이스들도 도 12에 도시되지 않지만, 로직 시스템(1210)은 다른 구성요소들과의 통신을 위해 구성될 수 있다. 다른 구성요소들은 적절하게, 서로와의 통신을 위해 구성되거나 또는 구성되지 않을 수 있다.
상기 로직 시스템(1210)은 인코더 및/또는 디코더 기능과 같은, 다양한 유형들의 오디오 프로세싱 기능을 실행하도록 구성될 수 있다. 이러한 인코더 및/또는 디코더 기능은 이에 제한되지 않지만, 여기에 설명된 인코더 및/또는 디코더 기능의 유형들을 포함할 수 있다. 예를 들면, 로직 시스템(1210)은 여기에 설명된 역상관기-관련 기능을 제공하도록 구성될 수 있다. 몇몇 이러한 구현들에서, 로직 시스템(1210)은 하나 이상의 비-일시적 미디어 상에 저장된 소프트웨어에 따라 동작하도록(적어도 부분적으로) 구성될 수 있다. 상기 비-일시적 미디어는 랜덤 액세스 메모리(RAM) 및/또는 판독-전용 메모리(ROM)와 같은, 로직 시스템(1210)과 연관된 메모리를 포함할 수 있다. 비-일시적 미디어는 메모리 시스템(1215)의 메모리를 포함할 수 있다. 메모리 시스템(1215)은 플래시 메모리, 하드 드라이브 등과 같은, 하나 이상의 적절한 유형들의 비-일시적 저장 미디어를 포함할 수 있다.
예를 들면, 로직 시스템(1210)은 인터페이스 시스템(1205)을 통해 인코딩된 오디오 데이터의 프레임들을 수신하도록 및 여기에 설명된 방법들에 따라 인코딩된 오디오 데이터를 디코딩하도록 구성될 수 있다. 대안적으로, 또는 부가적으로, 로직 시스템(1210)은 메모리 시스템(1215) 및 로직 시스템(1210) 사이에서의 인터페이스를 통해 인코딩된 오디오 데이터의 프레임들을 수신하도록 구성될 수 있다. 상기 로직 시스템(1210)은 디코딩된 오디오 데이터에 따라 스피커(들)(1220)를 제어하도록 구성될 수 있다. 몇몇 구현들에서, 로직 시스템(1210)은 종래의 인코딩 방법들에 따라 및/또는 여기에 설명된 인코딩 방법들에 따라 오디오 데이터를 인코딩하도록 구성될 수 있다. 로직 시스템(1210)은 마이크로폰(1225)을 통해, 인터페이스 시스템(1205) 등을 통해 이러한 오디오 데이터를 수신하도록 구성될 수 있다.
디스플레이 시스템(1230)은 디바이스(1200)의 현상에 의존하여, 하나 이상의 적절한 유형들의 디스플레이를 포함할 수 있다. 예를 들면, 디스플레이 시스템(1230)은 액정 디스플레이, 플라즈마 디스플레이, 쌍안정 디스플레이 등을 포함할 수 있다.
사용자 입력 시스템(1235)은 사용자로부터 입력을 수용하도록 구성된 하나 이상의 디바이스들을 포함할 수 있다. 몇몇 구현들에서, 사용자 입력 시스템(1235)은 디스플레이 시스템(1230)의 디스플레이 위에 놓인 터치 스크린을 포함할 수 있다. 사용자 입력 시스템(1235)은 버튼들, 키보드, 스위치들 등을 포함할 수 있다. 몇몇 구현들에서, 사용자 입력 시스템(1235)은 마이크로폰(1225)을 포함할 수 있고: 사용자는 마이크로폰(1225)을 통해 디바이스(1200)에 대한 음성 명령어들을 제공할 수 있다. 로직 시스템은 스피치 인식을 위해 및 이러한 음성 명령어들에 따라 디바이스(1200)의 적어도 몇몇 동작들을 제어하기 위해 구성될 수 있다.
전력 시스템(1240)은 니켈-카드뮴 배터리 또는 리튬-이온 배터리와 같은, 하나 이상의 적절한 에너지 저장 디바이스들을 포함할 수 있다. 전력 시스템(1240)은 콘센트로부터 전력을 수신하도록 구성될 수 있다.
본 개시에 설명된 구현들에 대한 다양한 수정들이 이 기술분야의 숙련자들에게 쉽게 명백할 수 있다. 여기에 정의된 일반적인 원리들은 본 개시의 사상 또는 범위로부터 벗어나지 않고 다른 구현들에 적용될 수 있다. 예를 들면, 다양한 구현들이 돌비 디지털 및 돌비 디지털 플러스에 대하여 설명되었지만, 여기에 설명된 방법들은 다른 오디오 코덱들과 함께 구현될 수 있다. 따라서, 청구항들은 여기에 도시된 구현들에 제한되도록 의도되지 않지만 본 개시, 여기에 개시된 원리들 및 신규 특징들과 일치하는 가장 넓은 범위에 부합될 것이다.
200: 오디오 프로세싱 시스템 201: 버퍼
203: 스위치 205: 역상관기
215: 믹서 218: 역상관 신호 발생기
220: 직접 오디오 데이터 요소 225: 업믹싱기
230: 역상관된 오디오 데이터 요소 240: 역상관 정보
255: 역 변환 모듈 260: 시간 도메인 오디오 데이터
262: N-대-M 업믹싱기/다운믹싱기 264: M-대-K 업믹싱기/다운믹싱기
405: 역상관 필터 제어 모듈 410: 역상관 필터
605: 합성기 610: 직접 신호 및 역상관 신호 믹서
640: 제어 정보 수신기/발생기 650: 필터 제어 모듈
655: 과도 제어 모듈 660: 믹서 제어 모듈
665: 공간 파라미터 모듈 840: 극성 반전 모듈
850: 이득 제어 모듈 880: 합성 및 믹싱 계수 발생 모듈
888: 믹서 과도 제어 모듈 1130: 소프트 과도 산출기
1135: 더커 모듈 1200: 디바이스
1205: 인터페이스 시스템 1210: 로직 시스템
1215: 메모리 시스템 1220: 스피커
1225: 마이크로폰 1230: 디스플레이 시스템
1235: 사용자 입력 시스템 1240: 전력 시스템

Claims (45)

  1. 비트스트림으로부터 복수의 오디오 채널들에 대응하는 오디오 데이터를 수신하는 단계로서, 상기 오디오 데이터는 오디오 인코딩 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 구비하는, 상기 수신 단계; 및
    상기 오디오 데이터의 적어도 일부에 역상관 프로세스(decorrelation process)를 적용하는 단계로서, 상기 역상관 프로세스는 상기 오디오 인코딩 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행되는, 상기 적용 단계를 포함하고,
    상기 역상관 프로세스는 전적으로 실수 값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 단계를 수반하는, 신호 프로세싱 방법.
  2. 제 1 항에 있어서,
    상기 역상관 프로세스는 상기 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행되는, 신호 프로세싱 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 주파수 도메인 표현은 완전 복원(perfect reconstruction), 임계-샘플링된 필터뱅크(critically-sampled filterbank)를 적용한 결과인, 신호 프로세싱 방법.
  4. 제 3 항에 있어서,
    상기 역상관 프로세스는 상기 주파수 도메인 표현의 적어도 일부에 선형 필터들을 적용함으로써 리버브 신호들(reverb signals) 또는 역상관 신호들(decorrelation signals)을 발생시키는 단계를 수반하는, 신호 프로세싱 방법.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 주파수 도메인 표현은 수정된 이산 사인 변환, 수정된 이산 코사인 변환 또는 랩핑된 직교 변환(lapped orthogonal transform)을 시간 도메인에서 오디오 데이터에 적용한 결과인, 신호 프로세싱 방법.
  6. 제 1 항 또는 제 2 항에 있어서,
    상기 역상관 프로세스는 특정 채널들의 선택적 또는 신호-적응적 역상관을 수반하거나, 특정 주파수 대역들의 선택적 또는 신호-적응적 역상관을 수반하거나, 특정 채널들과 특정 주파수 대역들 모두의 선택적 또는 신호-적응적 역상관을 수반하는, 신호 프로세싱 방법.
  7. 제 1 항 또는 제 2 항에 있어서,
    상기 역상관 프로세스는 필터링된 오디오 데이터를 생성하기 위해 상기 수신된 오디오 데이터의 일부에 역상관 필터를 적용하는 단계를 수반하는, 신호 프로세싱 방법.
  8. 제 7 항에 있어서,
    상기 역상관 프로세스는 공간 파라미터들에 따라 상기 필터링된 오디오 데이터와 상기 수신된 오디오 데이터의 직접 부분을 결합하기 위해 비-계층적 믹서(non-hierarchical mixer)를 사용하는 단계를 수반하는, 신호 프로세싱 방법.
  9. 제 1 항 또는 제 2 항에 있어서,
    상기 오디오 데이터와 함께 역상관 정보를 수신하는 단계를 더 포함하며, 상기 역상관 프로세스는 상기 수신된 역상관 정보에 따라 상기 오디오 데이터의 적어도 일부를 역상관하는 단계를 수반하는, 신호 프로세싱 방법.
  10. 제 9 항에 있어서,
    상기 수신된 역상관 정보는 개별 이산 채널들과 커플링 채널 사이에서의 상관 계수들, 개별 이산 채널들 사이에서의 상관 계수들, 명시적 조성 정보(explicit tonality information) 또는 과도 정보(transient information) 중 적어도 하나를 포함하는, 신호 프로세싱 방법.
  11. 제 1 항 또는 제 2 항에 있어서,
    수신된 오디오 데이터에 기초하여 역상관 정보를 결정하는 단계를 더 구비하며, 상기 역상관 프로세스는 결정된 역상관 정보에 따라 상기 오디오 데이터의 적어도 일부를 역상관하는 단계를 수반하는, 신호 프로세싱 방법.
  12. 제 11 항에 있어서,
    상기 오디오 데이터와 함께 인코딩된 역상관 정보를 수신하는 단계를 더 구비하며, 상기 역상관 프로세스는 상기 수신된 역상관 정보 또는 상기 결정된 역상관 정보 중 적어도 하나에 따라 상기 오디오 데이터의 적어도 일부를 역상관하는 단계를 수반하는, 신호 프로세싱 방법.
  13. 제 1 항 또는 제 2 항에 있어서,
    상기 오디오 인코딩 시스템은 레거시 오디오 인코딩 시스템인, 신호 프로세싱 방법.
  14. 제 13 항에 있어서,
    상기 레거시 오디오 인코딩 시스템에 의해 생성된 비트스트림에서 제어 메커니즘 요소들을 수신하는 단계를 더 구비하며, 상기 역상관 프로세스는 적어도 부분적으로 상기 제어 메커니즘 요소들에 기초하는, 신호 프로세싱 방법.
  15. 인터페이스; 및
    로직 시스템을 포함하는 신호 프로세싱 장치에 있어서,
    상기 로직 시스템은:
    상기 인터페이스를 통해 비트스트림으로부터 복수의 오디오 채널에 대응하는 오디오 데이터를 수신하는 과정으로서, 상기 오디오 데이터는 오디오 인코딩 시스템의 필터뱅크 계수들에 대응하는 주파수 도메인 표현을 구비하는, 상기 오디오 데이터를 수신하는 과정; 및
    상기 오디오 데이터의 적어도 일부에 역상관 프로세스를 적용하는 과정으로서, 상기 역상관 프로세스는 상기 오디오 인코딩 시스템에 의해 사용된 동일한 필터뱅크 계수들로 실행되는, 상기 역상관 프로세스를 적용하는 과정을 실행하도록 구성되며;
    상기 역상관 프로세스는 전적으로 실수 값의 계수들에 대해 동작하는 역상관 알고리즘을 적용하는 것을 포함하는, 신호 프로세싱 장치.
  16. 컴퓨터 프로그램을 저장한 비-일시적 컴퓨터 판독가능한 저장 매체에 있어서,
    상기 컴퓨터 프로그램은 제 1 항 또는 제 2 항의 방법을 실행하도록 장치를 제어하기 위한 지시들을 포함하는, 비-일시적 컴퓨터 판독가능한 저장 매체.
  17. 제 15 항에 있어서,
    상기 역상관 프로세스는 상기 주파수 도메인 표현의 계수들을 또 다른 주파수 도메인 또는 시간 도메인 표현으로 변환하지 않고 실행되는, 신호 프로세싱 장치.
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
KR1020157021921A 2013-02-14 2014-01-22 오디오 프로세싱 시스템에서 신호 역상관 KR102114648B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361764837P 2013-02-14 2013-02-14
US61/764,837 2013-02-14
PCT/US2014/012453 WO2014126682A1 (en) 2013-02-14 2014-01-22 Signal decorrelation in an audio processing system

Publications (2)

Publication Number Publication Date
KR20150106949A KR20150106949A (ko) 2015-09-22
KR102114648B1 true KR102114648B1 (ko) 2020-05-26

Family

ID=50064800

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157021921A KR102114648B1 (ko) 2013-02-14 2014-01-22 오디오 프로세싱 시스템에서 신호 역상관

Country Status (12)

Country Link
US (1) US9830916B2 (ko)
EP (1) EP2956933B1 (ko)
JP (1) JP6038355B2 (ko)
KR (1) KR102114648B1 (ko)
CN (1) CN104995676B (ko)
BR (1) BR112015018981B1 (ko)
ES (1) ES2613478T3 (ko)
HK (1) HK1213686A1 (ko)
IN (1) IN2015MN01954A (ko)
RU (1) RU2614381C2 (ko)
TW (1) TWI618050B (ko)
WO (1) WO2014126682A1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
CN104981867B (zh) 2013-02-14 2018-03-30 杜比实验室特许公司 用于控制上混音频信号的通道间相干性的方法
TWI640843B (zh) * 2014-04-02 2018-11-11 美商克萊譚克公司 用於產生遮罩之高密度對位映圖的方法、系統及電腦程式產品
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3179744B1 (en) * 2015-12-08 2018-01-31 Axis AB Method, device and system for controlling a sound image in an audio zone
CN105702263B (zh) * 2016-01-06 2019-08-30 清华大学 语音重放检测方法和装置
CN105931648B (zh) * 2016-06-24 2019-05-03 百度在线网络技术(北京)有限公司 音频信号解混响方法和装置
CN107895580B (zh) * 2016-09-30 2021-06-01 华为技术有限公司 一种音频信号的重建方法和装置
WO2018096036A1 (en) * 2016-11-23 2018-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for adaptive control of decorrelation filters
US10019981B1 (en) 2017-06-02 2018-07-10 Apple Inc. Active reverberation augmentation
EP3573058B1 (en) * 2018-05-23 2021-02-24 Harman Becker Automotive Systems GmbH Dry sound and ambient sound separation
CN111107024B (zh) * 2018-10-25 2022-01-28 航天科工惯性技术有限公司 时间与频率混合编码的防错解码方法
CN109557509B (zh) * 2018-11-23 2020-08-11 安徽四创电子股份有限公司 一种用于改善脉间干扰的双脉冲信号合成器
CN109672946B (zh) * 2019-02-15 2023-12-15 深圳市昊一源科技有限公司 一种无线通话系统、转发设备、终端设备及转发方法
CN110267064B (zh) * 2019-06-12 2021-11-12 百度在线网络技术(北京)有限公司 音频播放状态处理方法、装置、设备及存储介质
CN110740404B (zh) * 2019-09-27 2020-12-25 广州励丰文化科技股份有限公司 一种音频相关性的处理方法及音频处理装置
CN110740416B (zh) * 2019-09-27 2021-04-06 广州励丰文化科技股份有限公司 一种音频信号处理方法及装置
WO2023097686A1 (zh) * 2021-12-03 2023-06-08 北京小米移动软件有限公司 一种立体声音频信号处理方法及设备/存储介质/装置

Family Cites Families (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8308843D0 (en) 1983-03-30 1983-05-11 Clark A P Apparatus for adjusting receivers of data transmission channels
US5077798A (en) 1988-09-28 1991-12-31 Hitachi, Ltd. Method and system for voice coding based on vector quantization
WO1999041947A1 (en) 1998-02-13 1999-08-19 Koninklijke Philips Electronics N.V. Surround sound reproduction system, sound/visual reproduction system, surround signal processing unit and method for processing an input surround signal
US6175631B1 (en) 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
US7218665B2 (en) 2003-04-25 2007-05-15 Bae Systems Information And Electronic Systems Integration Inc. Deferred decorrelating decision-feedback detector for supersaturated communications
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
US20090299756A1 (en) 2004-03-01 2009-12-03 Dolby Laboratories Licensing Corporation Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
WO2005086139A1 (en) 2004-03-01 2005-09-15 Dolby Laboratories Licensing Corporation Multichannel audio coding
BRPI0509108B1 (pt) * 2004-04-05 2019-11-19 Koninklijke Philips Nv método para codificar uma pluralidade de sinais de entrada, codificador para codificar uma pluralidade de sinais de entrada, método de decodificar dados, e decodificador
SE0400998D0 (sv) 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
DE602005016931D1 (de) * 2004-07-14 2009-11-12 Dolby Sweden Ab Tonkanalkonvertierung
TWI393121B (zh) * 2004-08-25 2013-04-11 Dolby Lab Licensing Corp 處理一組n個聲音信號之方法與裝置及與其相關聯之電腦程式
JP2008517317A (ja) 2004-10-15 2008-05-22 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオデータ処理システム、方法、プログラム要素、及びコンピュータ読み取り可能媒体
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
US7787631B2 (en) 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7961890B2 (en) 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
WO2006132857A2 (en) 2005-06-03 2006-12-14 Dolby Laboratories Licensing Corporation Apparatus and method for encoding audio signals with decoding instructions
WO2007007263A2 (en) 2005-07-14 2007-01-18 Koninklijke Philips Electronics N.V. Audio encoding and decoding
DE602006010712D1 (de) 2005-07-15 2010-01-07 Panasonic Corp Audiodekoder
RU2383942C2 (ru) 2005-08-30 2010-03-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для декодирования аудиосигнала
BRPI0615114A2 (pt) 2005-08-30 2011-05-03 Lg Electronics Inc aparelho e método para codificar e decodificar sinal de áudio
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US7536299B2 (en) * 2005-12-19 2009-05-19 Dolby Laboratories Licensing Corporation Correlating and decorrelating transforms for multiple description coding systems
JP2007178684A (ja) * 2005-12-27 2007-07-12 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ復号装置
US8208641B2 (en) 2006-01-19 2012-06-26 Lg Electronics Inc. Method and apparatus for processing a media signal
TW200742275A (en) 2006-03-21 2007-11-01 Dolby Lab Licensing Corp Low bit rate audio encoding and decoding in which multiple channels are represented by fewer channels and auxiliary information
MX2008012324A (es) 2006-03-28 2008-10-10 Fraunhofer Ges Zur Foeerderung Metodo mejorado para la modulacion de señales en la reconstruccion de audio multicanal.
DE602006010323D1 (de) 2006-04-13 2009-12-24 Fraunhofer Ges Forschung Audiosignaldekorrelator
US8379868B2 (en) 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
EP1883067A1 (en) 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
RU2454825C2 (ru) 2006-09-14 2012-06-27 Конинклейке Филипс Электроникс Н.В. Манипулирование зоной наилучшего восприятия для многоканального сигнала
RU2406166C2 (ru) 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства кодирования и декодирования основывающихся на объектах ориентированных аудиосигналов
DE102007018032B4 (de) 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
US8015368B2 (en) 2007-04-20 2011-09-06 Siport, Inc. Processor extensions for accelerating spectral band replication
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
WO2008153944A1 (en) 2007-06-08 2008-12-18 Dolby Laboratories Licensing Corporation Hybrid derivation of surround sound audio channels by controllably combining ambience and matrix-decoded signal components
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US8064624B2 (en) 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
US20100040243A1 (en) 2008-08-14 2010-02-18 Johnston James D Sound Field Widening and Phase Decorrelation System and Method
CN101842832B (zh) 2007-10-31 2012-11-07 松下电器产业株式会社 编码装置和解码装置
US9336785B2 (en) 2008-05-12 2016-05-10 Broadcom Corporation Compression for speech intelligibility enhancement
EP2144229A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
JP5326465B2 (ja) 2008-09-26 2013-10-30 富士通株式会社 オーディオ復号方法、装置、及びプログラム
TWI413109B (zh) 2008-10-01 2013-10-21 Dolby Lab Licensing Corp 用於上混系統之解相關器
EP2214162A1 (en) 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
EP2214165A3 (en) 2009-01-30 2010-09-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for manipulating an audio signal comprising a transient event
ATE526662T1 (de) 2009-03-26 2011-10-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur änderung eines audiosignals
US8497467B2 (en) 2009-04-13 2013-07-30 Telcordia Technologies, Inc. Optical filter control
ES2524428T3 (es) 2009-06-24 2014-12-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decodificador de señales de audio, procedimiento para decodificar una señal de audio y programa de computación que utiliza etapas en cascada de procesamiento de objetos de audio
GB2465047B (en) 2009-09-03 2010-09-22 Peter Graham Craven Prediction of signals
MY161012A (en) 2009-12-07 2017-03-31 Dolby Laboratories Licensing Corp Decoding of multichannel aufio encoded bit streams using adaptive hybrid transformation
EP2360681A1 (en) 2010-01-15 2011-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for extracting a direct/ambience signal from a downmix signal and spatial parametric information
TWI444989B (zh) 2010-01-22 2014-07-11 Dolby Lab Licensing Corp 針對改良多通道上混使用多通道解相關之技術
JP5299327B2 (ja) 2010-03-17 2013-09-25 ソニー株式会社 音声処理装置、音声処理方法、およびプログラム
BR122019013299B1 (pt) 2010-04-09 2021-01-05 Dolby International Ab aparelho e método para emitir um sinal de áudio esterofônico possuindo um canal esquerdo e um canal direito e meio legível por computador não transitório
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
WO2012026741A2 (ko) 2010-08-24 2012-03-01 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
TR201900417T4 (tr) 2010-08-25 2019-02-21 Fraunhofer Ges Forschung Birden fazla kanala haiz olan bir ses sinyalini enkode etmek için bir cihaz.
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
KR101748756B1 (ko) 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
CN102903368B (zh) * 2011-07-29 2017-04-12 杜比实验室特许公司 用于卷积盲源分离的方法和设备
PL2740222T3 (pl) * 2011-08-04 2015-08-31 Dolby Int Ab Usprawniony stereofoniczny radiowy odbiornik FM poprzez użycie stereo parametrycznego
US8527264B2 (en) 2012-01-09 2013-09-03 Dolby Laboratories Licensing Corporation Method and system for encoding audio data with adaptive low frequency compensation
ES2549953T3 (es) 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ATSC Standard: Digital Audio Compression (AC-3, E-AC-3). Advanced Television Systems Committee. Doc.A/52:2012. 2012.12.17.*
Fielder, et al. Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. Audio Engineering Society Convention 117. 2004.10.28-31.*
Osamu Shimada, et al. A Low Power SBR Algorithm for the MPEG-4 Audio Standard and its DSP Implementation. AES 116th Convention. 2004.05.08.*

Also Published As

Publication number Publication date
CN104995676A (zh) 2015-10-21
HK1213686A1 (zh) 2016-07-08
TW201443877A (zh) 2014-11-16
RU2015133287A (ru) 2017-02-21
CN104995676B (zh) 2018-03-30
US20150380000A1 (en) 2015-12-31
JP6038355B2 (ja) 2016-12-07
EP2956933B1 (en) 2016-11-16
BR112015018981B1 (pt) 2022-02-01
ES2613478T3 (es) 2017-05-24
JP2016510433A (ja) 2016-04-07
IN2015MN01954A (ko) 2015-08-28
KR20150106949A (ko) 2015-09-22
EP2956933A1 (en) 2015-12-23
TWI618050B (zh) 2018-03-11
RU2614381C2 (ru) 2017-03-24
US9830916B2 (en) 2017-11-28
WO2014126682A1 (en) 2014-08-21
BR112015018981A2 (pt) 2017-07-18

Similar Documents

Publication Publication Date Title
KR102114648B1 (ko) 오디오 프로세싱 시스템에서 신호 역상관
KR101724319B1 (ko) 추정된 공간 파라미터들을 사용한 오디오 신호 강화
KR101729930B1 (ko) 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법
US9830917B2 (en) Methods for audio signal transient detection and decorrelation control
US20150371646A1 (en) Time-Varying Filters for Generating Decorrelation Signals

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2017101002929; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20170616

Effective date: 20190325

S901 Examination by remand of revocation
E902 Notification of reason for refusal
S601 Decision to reject again after remand of revocation
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2019101002981; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20190905

Effective date: 20200210

S901 Examination by remand of revocation
GRNO Decision to grant (after opposition)
GRNT Written decision to grant