KR101816506B1 - 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들 - Google Patents

고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들 Download PDF

Info

Publication number
KR101816506B1
KR101816506B1 KR1020167031826A KR20167031826A KR101816506B1 KR 101816506 B1 KR101816506 B1 KR 101816506B1 KR 1020167031826 A KR1020167031826 A KR 1020167031826A KR 20167031826 A KR20167031826 A KR 20167031826A KR 101816506 B1 KR101816506 B1 KR 101816506B1
Authority
KR
South Korea
Prior art keywords
frequency
band
composition
bin
audio signal
Prior art date
Application number
KR1020167031826A
Other languages
English (en)
Other versions
KR20160134871A (ko
Inventor
로빈 테싱
미하엘 슈그
Original Assignee
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 인터네셔널 에이비 filed Critical 돌비 인터네셔널 에이비
Publication of KR20160134871A publication Critical patent/KR20160134871A/ko
Application granted granted Critical
Publication of KR101816506B1 publication Critical patent/KR101816506B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 문서는 오디오 코딩, 디코딩 및 프로세싱의 기술 분야에 관한 것이다. 그것은 구체적으로 효율적인 방식으로 동일한 오디오 신호의 저 주파수 콘텐트로부터 오디오 신호의 고 주파수 콘텐트를 복구하는 방법들에 관한 것이다. 오디오 신호의 제 1 주파수 서브대역(205)에 대한 제 1 대역 조성 값(311, 312)을 결정하기 위한 방법이 설명된다. 제 1 대역 조성 값(311, 312)은 오디오 신호의 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용된다. 상기 방법은 오디오 신호의 샘플들의 블록에 기초하여 대응하는 세트의 주파수 빈들에서의 변환 계수들의 세트를 결정하는 단계; 각각, 상기 변환 계수들의 세트를 사용하여 상기 세트의 주파수 빈들에 대한 빈 조성 값들(341)의 세트를 결정하는 단계; 및 상기 제 1 주파수 서브대역 내에 있는 상기 세트의 주파수 빈들의 둘 이상의 대응하는 인접한 주파수 빈들에 대한 빈 조성 값들(341)의 세트 중 둘 이상의 제 1 서브세트를 조합하고, 그에 의해 상기 제 1 주파수 서브대역에 대한 상기 제 1 대역 조성 값(311, 312)을 산출하는 단계를 포함한다.

Description

고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들{METHODS AND SYSTEMS FOR EFFICIENT RECOVERY OF HIGH FREQUENCY AUDIO CONTENT}
관련 출원들에 대한 상호-참조
본 출원은, 전체적으로 여기에 참조로서 통합되는, 2011년 2월 23일에 출원된, 유럽 특허 출원 번호 제12156631.9호 및 2012년 8월 8일에 출원된 미국 가 특허 출원 번호 제61/680,805호에 대한 우선권의 이득을 주장한다.
본 문서는 오디오 코딩, 디코딩 및 프로세싱의 기술 분야에 관한 것이다. 그것은 구체적으로 효율적인 방식으로 동일한 오디오 신호의 저 주파수 콘텐트로부터 오디오 신호의 고 주파수 콘텐트를 복구하는 방법들에 관한 것이다.
오디오 신호들의 효율적인 코딩 및 디코딩은 종종 음향 심리학적 원칙들에 기초하여 인코딩되고, 송신되고, 및/또는 디코딩될 오디오-관련 데이터의 양을 감소시키는 것을 포함한다. 이것은 예를 들면, 오디오 신호에 존재하지만 청취자에 의해 지각 가능하지 않은 소위 마스킹된 오디오 콘텐트를 폐기하는 것을 포함한다. 대안적으로 또는 또한, 실제 이러한 상위 주파수 콘텐트를 직접 인코딩하지 않고 그것의 상위 주파수 콘텐트에 대한 몇몇 정보를 각각 계속해서 산출하면서 인코딩될 오디오 신호의 대역폭이 제한될 수 있다. 대역-제한된 신호는 그 후 상기 상위 주파수 정보와 함께 인코딩되고 송신되고(또는 저장), 후자는 또한 상위 주파수 콘텐트를 직접 인코딩하는 것보다 적은 리소스들을 요구한다.
HE-AAC(High Efficiency - Advanced Audio Coding; 고 효율성 - 진보된 오디오 코딩)에서의 스펙트럼 대역 복제(Spectral Band Replication; SBR) 및 돌비 디지털 플러스(Dolby Digital Plus)에서의 스펙트럼 확장(Spectral Extension; SPX)은 오디오 신호의 저 주파수 성분에 기초하여 및 부가적인 보조 정보(또한 상위 주파수 정보로서 불리우는)에 기초하여 오디오 신호의 고 주파수 성분을 근사시키거나 재구성하는 오디오 코딩 시스템들에 대한 두 개의 예들이다. 다음으로, 돌비 디지털 플러스의 SPX 기법에 대한 참조가 이루어진다. 그러나, 본 문서에 설명된 방법들 및 시스템들은 HE-AAC에서의 SBR을 포함하여, 일반적으로 고 주파수 재구성 기술들에 적용 가능하다는 것이 주의되어야 한다.
SPX 기반 오디오 인코더에서의 보조 정보의 결정은 통상적으로 상당한 계산 복잡도의 대상이다. 예로서, 보조 정보의 결정은 오디오 인코더의 총 계산 리소스들의 약 50%를 요구할 수 있다. 본 문서는 SPX 기반 오디오 인코더들의 계산 복잡도를 감소시키는 것을 허용하는 방법들 및 시스템들을 설명한다. 특히, 본 문서는 SPX 기반 오디오 인코더들의 맥락에서 조성 산출들을 수행하기 위한 계산 복잡도를 감소시키는 것을 허용하는 방법들 및 시스템들을 설명한다(조성 산출들은 보조 정보를 결정하기 위해 사용된 계산 복잡도의 약 80%를 차지할 수 있다).
US2010/0094638 A1은 대역폭 확장을 위해 적응형 잡음 레벨을 결정하기 위한 장치 및 방법을 설명한다.
일 양태에 따르면, 오디오 신호의 제 1 주파수 서브대역에 대한 제 1 대역 조성 값을 결정하기 위한 방법이 설명된다. 상기 오디오 신호는 다중-채널 오디오 신호(예로서, 스테레오, 5.1 또는 7.1 다중-채널 신호)의 채널의 오디오 신호일 수 있다. 상기 오디오 신호는 범위가 저 신호 주파수에서 고 신호 주파수까지에 이르는 대역폭을 가질 수 있다. 대역폭은 저 주파수 대역 및 고 주파수 대역을 포함할 수 있다. 제 1 주파수 서브대역은 저 주파수 대역 내에 있거나 고 주파수 대역 내에 있을 수 있다. 제 1 대역 조성 값은 제 1 주파수 대역 내에서 오디오 신호의 조성을 나타낼 수 있다. 오디오 신호는 주파수 서브대역이 비교적 높은 정도의 안정된 정현 콘텐트를 포함한다면 주파수 서브대역 내에서 비교적 높은 조성을 갖는 것으로 고려될 수 있다. 다른 한편으로, 오디오 신호는 주파수 서브대역이 비교적 높은 정도의 잡음을 포함한다면 주파수 서브대역 내에서 낮은 조성을 갖는 것으로 고려될 수 있다. 제 1 대역 조성 값은 제 1 주파수 서브대역 내에서 오디오 신호의 상의 변화에 의존할 수 있다.
제 1 대역 조성 값을 결정하기 위한 방법은 오디오 신호의 인코더의 맥락에서 사용될 수 있다. 인코더는 스펙트럼 대역 복제(SBR)(예로서, 고 효율성 - 진보된 오디오 코더(HE-AAC)의 맥락에서 사용되는 바와 같이) 또는 스펙트럼 확장(SPX)(예로서, 돌비 디지털 플러스 인코더의 맥락에서 사용되는 바와 같이)과 같은, 고 주파수 재구성 기술들을 이용할 수 있다. 제 1 대역 조성 값은 오디오 신호의 저 주파수 성분(저 주파수 대역에서의)에 기초하여 오디오 신호의 고 주파수 성분(고 주파수 대역에서의)를 근사시키기 위해 사용될 수 있다. 특히, 제 1 대역 조성 값은 오디오 신호의 수신된(디코딩된) 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 재구성하기 위해 대응하는 오디오 디코더에 의해 사용될 수 있는 보조 정보를 결정하기 위해 사용될 수 있다. 보조 정보는 고 주파수 성분의 주파수 서브대역을 근사시키기 위해, 예를 들면, 저 주파수 성분의 변환된 주파수 서브대역들에 부가될 잡음의 양을 특정할 수 있다.
상기 방법은 오디오 신호의 샘플들의 블록에 기초하여 대응하는 세트의 주파수 빈들에서의 변환 계수들의 세트를 결정하는 단계를 포함할 수 있다. 상기 오디오 신호의 샘플들의 시퀀스는 각각 미리 결정된 수의 샘플들을 포함하는 프레임들의 시퀀스로 그룹핑될 수 있다. 상기 프레임들의 시퀀스 중 하나의 프레임은 샘플들의 하나 이상의 블록들로 세분될 수 있다. 프레임의 인접한 블록들은 중첩할 수 있다(예로서, 최대 50% 만큼). 샘플들의 블록은, 변형 이산 코사인 변환(Modified Discrete Cosine Transform; MDCT) 및/또는 변형 이산 사인 변환(MDST)과 같은, 시간-도메인 대 주파수-도메인 변환을 사용하여 시간-도메인으로부터 주파수-도메인으로 변환될 수 있으며, 그에 의해 변환 계수들의 세트를 산출한다. 샘플들의 블록에 MDST 및 MDCT를 적용함으로써, 복소 변환 계수들의 세트가 제공될 수 있다. 통상적으로, 수 N의 변환 계수들(및 수 N의 주파수 빈들)은 블록 내에서 수 N의 샘플들에 대응한다(예로서, N=128 또는 N=256). 제 1 주파수 서브대역은 복수의 N 주파수 빈들을 포함할 수 있다. 즉, N 주파수 빈들(비교적 높은 주파수 분해능을 가진)은 하나 이상의 주파수 서브대역들(비교적 더 낮은 주파수 분해능을 가진)로 그룹핑될 수 있다. 결과적으로, 감소된 수의 주파수 서브대역들(통상적으로 인코딩된 오디오 신호의 감소된 데이터-레이트들에 대하여 유익한)을 제공하는 것이 가능하고, 여기에서 주파수 서브대역들은 서로의 사이에서 비교적 높은 주파수 선택도를 갖는다(주파수 서브대역들이 복수의 고 분해능 주파수 빈들의 그룹핑에 의해 획득된다는 사실로 인해).
상기 방법은 또한 각각 변환 계수들의 세트를 사용하여 상기 세트의 주파수 빈들에 대한 빈 조성 값들의 세트를 결정하는 단계를 포함할 수 있다. 상기 빈 조성 값들은 통상적으로 개개의 주파수 빈에 대해 결정된다(이러한 개개의 주파수 빈의 변환 계수를 사용하여). 이와 같이, 빈 조성 값은 개개의 주파수 빈 내에서 오디오 신호의 조성을 나타낸다. 예로서, 빈 조성 값은 대응하는 개개의 주파수 빈 내에서의 변환 계수의 위상의 변화에 의존한다.
상기 방법은 또한 제 1 주파수 서브대역 내에 있는 상기 세트의 주파수 빈들의 둘 이상의 대응하는 인접한 주파수 빈들에 대한 상기 빈 조성 값들의 세트 중 둘 이상의 제 1 서브세트를 조합하고, 그에 의해 상기 제 1 주파수 서브대역에 대한 상기 제 1 대역 조성 값을 산출하는 단계를 포함할 수 있다. 즉, 상기 제 1 대역 조성 값은 상기 제 1 주파수 서브대역 내에 있는 상기 둘 이상의 주파수 빈들에 대한 둘 이상의 빈 조성 값들을 조합함으로써 결정될 수 있다. 상기 빈 조성 값들의 세트의 둘 이상의 제 1 서브세트의 조합은 상기 둘 이상의 빈 조성 값들의 평균 및/또는 상기 둘 이상의 빈 조성 값들의 합계를 포함할 수 있다. 예로서, 제 1 대역 조성 값은 상기 제 1 주파수 서브대역 내에 있는 주파수 빈들의 빈 조성 값들의 합계에 기초하여 결정될 수 있다.
이와 같이, 상기 제 1 대역 조성 값을 결정하기 위한 방법은 상기 제 1 주파수 서브대역들 내에 있는 주파수 빈들의 빈 조성 값들에 기초하여, 제 1 주파수 서브대역(복수의 주파수 빈들을 포함한) 내에서의 제 1 대역 조성 값의 결정을 특정한다. 즉, 2-단계들에서 제 1 대역 조성 값을 결정하는 것이 제안되고, 여기에서 제 1 단계는 빈 조성 값들의 세트를 제공하고 제 2 단계는 제 1 대역 조성 값을 산출하기 위해 상기 빈 조성 값들의 세트(중 적어도 일부)를 조합한다. 이러한 2-단계 접근법의 결과로서, 동일한 세트의 빈 조성 값들에 기초하여 상이한 대역 조성 값들(상이한 서브대역 구조들에 대한)을 결정하고, 그에 의해 상이한 대역 조성 값들을 이용하는 오디오 인코더의 계산 복잡도를 감소시키는 것이 가능하다.
일 실시예에서, 상기 방법은 또한 제 2 주파수 서브대역 내에 있는 상기 세트의 주파수 빈들의 둘 이상의 대응하는 인접한 주파수 빈들에 대한 빈 조성 값들의 세트 중 둘 이상의 제 2 서브세트를 조합함으로써 제 2 주파수 서브대역에서의 제 2 대역 조성 값을 결정하는 단계를 포함한다. 상기 제 1 및 제 2 주파수 서브대역들은 적어도 하나의 공통 주파수 빈을 포함할 수 있으며 상기 제 1 및 제 2 서브세트들은 대응하는 적어도 하나의 공통 빈 조성 값을 포함할 수 있다. 즉, 상기 제 1 및 제 2 대역 조성 값들은 적어도 하나의 공통 빈 조성 값에 기초하여 결정될 수 있으며, 그에 의해 상기 대역 조성 값들의 결정에 연결된 감소된 계산 복잡도를 허용한다. 예로서, 상기 제 1 및 제 2 주파수 서브대역들은 오디오 신호의 고 주파수 대역 내에 있을 수 있다. 제 1 주파수 서브대역은 제 2 주파수 서브대역보다 좁을 수 있으며 상기 제 2 주파수 서브대역 내에 있을 수 있다. 상기 제 1 조성 값은 SPX 기반 인코더의 대규모 변이 감쇠의 맥락에서 사용될 수 있으며 상기 제 2 조성 값은 SPX 기반 인코더의 잡음 혼합의 맥락에서 사용될 수 있다.
상기 표시된 바와 같이, 여기에 설명된 방법들은 통상적으로 고 주파수 재구성(HFR) 기술들을 이용하는 오디오 인코더의 맥락에서 사용된다. 이러한 HRF 기술들은 오디오 신호의 고 주파수 성분을 근사시키기 위해, 통상적으로 하나 이상의 주파수 빈들을 오디오 신호의 저 주파수 대역으로부터 고 주파수 대역으로부터의 하나 이상의 주파수 빈들로 변환한다. 이와 같이, 오디오 신호의 저 주파수 성분에 기초한 오디오 신호의 고 주파수 성분을 근사시키는 것은 저 주파수 성분에 대응하는 저 주파수 대역으로부터 오디오 신호의 고 주파수 성분에 대응하는 고 주파수 대역으로 하나 이상의 주파수 빈들의 하나 이상의 저 주파수 변환 계수들을 복제하는 것을 포함할 수 있다. 이러한 미리-결정된 복제 프로세스는 대역 조성 값들을 결정할 때 고려될 수 있다. 특히, 빈 조성 값들이 통상적으로 상기 복제 프로세스에 의해 영향을 받지 않는다는 것이 고려될 수 있으며, 그에 의해 저 주파수 대역 내에서의 주파수 빈에 대해 결정된 빈 조성 값들이 고 주파수 대역 내에서의 대응하는 복제된 주파수 빈들을 위해 사용되도록 허용한다.
일 실시예에서, 제 1 주파수 서브대역은 저 주파수 대역 내에 있으며 제 2 주파수 서브대역은 고 주파수 대역 내에 있다. 상기 방법은 또한 제 2 주파수 서브대역으로 복제되는 주파수 빈들의 둘 이상의 대응하는 주파수 빈들에 대한 빈 조성 값들의 세트 중 둘 이상의 제 2 서브세트를 조합함으로써 제 2 주파수 서브대역에서의 제 2 대역 조성 값을 결정하는 단계를 포함할 수 있다. 즉, 제 2 대역 조성 값(고 주파수 대역 내에 있는 제 2 주파수 서브대역에 대한)은 고 주파수 대역까지 복제되는 주파수 빈들의 빈 조성 값들에 기초하여 결정될 수 있다. 제 2 주파수 서브대역은 제 1 주파수 서브대역 내에 있는 주파수 빈으로부터 복제되는 적어도 하나의 주파수 빈을 포함할 수 있다. 이와 같이, 제 1 및 제 2 서브세트들은 대응하는 적어도 하나의 공통 빈 조성 값을 포함할 수 있으며, 그에 의해 대역 조성 값들의 결정에 연결된 계산 복잡도를 감소시킬 수 있다.
상기 표시된 바와 같이, 오디오 신호는 통상적으로 블록들의 시퀀스(예로서, 각각 N개의 샘플들을 포함하는)로 그룹핑된다. 상기 방법은 오디오 신호의 블록들의 대응하는 시퀀스에 기초하여 변환 계수들의 세트들의 시퀀스를 결정하는 단계를 포함할 수 있다. 결과적으로, 각각의 주파수 빈에 대해, 변환 계수들의 시퀀스가 결정될 수 있다. 즉, 특정한 주파수 빈에 대해, 변환 계수들의 세트들의 시퀀스는 특정한 변환 계수들의 시퀀스를 포함할 수 있다. 특정한 변환 계수들의 시퀀스는 오디오 신호의 블록들의 시퀀스에 대해 특정한 주파수 빈에 대한 빈 조성 값들의 시퀀스를 결정하기 위해 사용될 수 있다.
특정한 주파수 빈에 대한 빈 조성 값을 결정하는 것은 특정한 변환 계수들의 시퀀스에 기초하여 상들의 시퀀스를 결정하는 것 및 상기 위상들의 시퀀스에 기초하여 위상 가속도를 결정하는 것을 포함할 수 있다. 상기 특정한 주파수 빈에 대한 빈 조성 값은 통상적으로 위상 가속도의 함수이다. 예로서, 오디오 신호의 현재 블록에 대한 빈 조성 값은 현재 위상 가속도에 기초하여 결정될 수 있다. 상기 현재 위상 가속도는 현재 위상에 기초하여(현재 블록의 변환 계수에 기초하여 결정된) 및 둘 이상의 이전 위상들에 기초하여(둘 이상의 이전 블록들의 둘 이상의 변환 계수들에 기초하여 결정된) 결정될 수 있다. 상기 표시된 바와 같이, 특정한 주파수 빈에 대한 빈 조성 값은 통상적으로 단지 동일한 특정한 주파수 빈의 변환 계수들에 기초하여 결정된다. 즉, 주파수 빈에 대한 빈 조성 값은 통상적으로 다른 주파수 빈들의 빈 조성 값들로부터 독립적이다.
상기 이미 개괄된 바와 같이, 제 1 대역 조성 값은 스펙트럼 확장(SPX) 기법을 사용하여 오디오 신호의 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용될 수 있다. 제 1 대역 조성 값은 SPX 좌표 재전송 전략, 잡음 혼합 인자 및/또는 대규모 변이 감쇠를 결정하기 위해 사용될 수 있다.
또 다른 양태에 따르면, 잡음 혼합 인자를 결정하기 위한 방법이 설명된다. 본 문서에 설명된 상이한 양태들 및 방법들이 임의의 방식으로 서로와 조합될 수 있다는 것이 주의되어야 한다. 상기 잡음 혼합 인자는 오디오 신호의 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용될 수 있다. 상기 개괄된 바와 같이, 고 주파수 성분은 통상적으로 고 주파수 대역에서의 오디오 신호의 성분들을 포함한다. 상기 고 주파수 대역은 하나 이상의 고 주파수 서브대역들(예로서, 상기 설명된 제 1 및/또는 제 2 주파수 서브대역들)로 세분될 수 있다. 고 주파수 서브대역 내에서의 오디오 신호의 성분은 고 주파수 서브대역 신호로서 불리울 수 있다. 유사한 방식으로, 저 주파수 성분은 통상적으로 저 주파수 대역에서의 오디오 신호의 성분들을 포함하고 저 주파수 대역은 하나 이상의 저 주파수 서브대역들(예로서, 상기 설명된 제 1 및/또는 제 2 주파수 서브대역들)로 세분될 수 있다. 저 주파수 서브대역 내에서의 오디오 신호의 성분은 저 주파수 서브대역 신호로서 불리울 수 있다. 즉, 고 주파수 성분은 고 주파수 대역에서의 하나 이상의 (원래) 고 주파수 서브대역 신호들을 포함할 수 있으며 저 주파수 성분은 저 주파수 대역에서의 하나 이상의 저 주파수 서브대역 신호들을 포함할 수 있다.
상기 개괄된 바와 같이, 상기 고 주파수 성분을 근사시키는 것은 하나 이상의 저 주파수 서브대역 신호들을 고 주파수 대역에 복사하고, 그에 의해 하나 이상의 근사된 고 주파수 서브대역 신호들을 산출하는 것을 포함할 수 있다. 잡음 혼합 인자는 근사된 고 주파수 서브대역 신호들의 조성을 조정하기 위해 오디오 신호의 원래 고 주파수 서브대역 신호의 조성에 따라, 상기 하나 이상의 근사된 고 주파수 서브대역 신호들에 부가되어야 하는 잡음의 양을 표시하기 위해 사용될 수 있다. 즉, 상기 잡음 혼합 인자는 상기 오디오 신호의 (원래) 고 주파수 성분을 근사시키기 위해, 하나 이상의 근사된 고 주파수 서브대역 신호들에 부가될 잡음의 양을 표시할 수 있다.
상기 방법은 하나 이상의 (원래) 고 주파수 서브대역 신호들에 기초하여 타겟 대역 조성 값을 결정하는 단계를 포함할 수 있다. 더욱이, 상기 방법은 상기 하나 이상의 근사된 고 주파수 서브대역 신호들에 기초하여 소스 대역 조성 값을 결정하는 단계를 포함할 수 있다. 상기 조성 값들은 각각의 서브대역 신호들의 위상의 전진을 나타낼 수 있다. 더욱이, 상기 조성 값들은 본 문서에 설명된 바와 같이 결정될 수 있다. 특히, 대역 조성 값들은 본 문서에 개괄된 2-단계 접근법에 기초하여 결정될 수 있으며, 즉 대역 조성 값들은 빈 조성 값들의 세트에 기초하여 결정될 수 있다.
상기 방법은 또한 타겟 및 소스 대역 조성 값들에 기초하여 잡음 혼합 인자를 결정하는 단계를 포함할 수 있다. 특히, 상기 방법은, 근사될 고 주파수 성분의 대역폭이 고 주파수 성분을 근사시키기 위해 사용되는 저 주파수 성분의 대역폭보다 작다면, 소스 대역 조성 값에 기초하여 잡음 혼합 인자를 결정하는 단계를 포함할 수 있다. 결과적으로, 잡음 혼합 인자를 결정하기 위한 계산 복잡도는 잡음 혼합 인자가 오디오 신호의 저 주파수 성분으로부터 도출되는 대역 조성 값에 기초하여 결정되는 방법에 비교하여 감소될 수 있다.
일 실시예에서, 저 주파수 대역은 복사하기 위해 이용가능한 저 주파수 서브대역들 중에서 최저 주파수를 가진 저 주파수 서브대역을 나타내는 개시 대역(예로서, SPX 기반 인코더의 경우에 spxstart 파라미터에 의해 표시된)을 포함한다. 더욱이, 고 주파수 대역은 근사되어야 하는 고 주파수 서브대역들의 최저 주파수를 가진 고 주파수 서브대역을 나타내는 시작 대역(예로서, SPX 기반 인코더의 경우에 spxbegin 파라미터에 의해 표시된)을 포함할 수 있다. 또한, 고 주파수 대역은 근사되어야 하는 고 주파수 서브대역들의 최고 주파수를 가진 고 주파수 서브대역을 나타내는 종료 대역(예로서, SPX 기반 인코더의 경우에 spxend 파라미터에 의해 표시된)을 포함할 수 있다.
상기 방법은 개시 대역(예로서, spxstart 파라미터) 및 시작 대역(예로서, spxbegin 파라미터) 사이에서의 제 1 대역폭을 결정하는 단계를 포함할 수 있다. 더욱이, 상기 방법은 시작 대역(예로서, spxbegin 파라미터) 및 종료 대역(예로서, spxend 파라미터) 사이에서의 제 2 대역폭을 결정하는 단계를 포함할 수 있다. 상기 방법은 제 1 대역폭이 제 2 대역폭보다 크다면, 타겟 및 소스 대역 조성 값들에 기초하여 잡음 혼합 인자를 결정하는 단계를 포함할 수 있다. 특히, 제 1 대역폭이 제 2 대역폭 이상이면, 소스 대역 조성 값은 개시 대역과 개시 대역에 제 2 대역폭을 더한 것 사이에 있는 저 주파수 서브대역의 하나 이상의 저 주파수 서브대역 신호들에 기초하여 결정될 수 있다. 통상적으로, 후자의 저 주파수 서브대역 신호들은 고 주파수 대역까지 복사되는 저 주파수 서브대역 신호들이다. 결과적으로, 계산 복잡도가 제 1 대역폭이 제 2 대역폭 이상인 상황들에서 감소될 수 있다.
다른 한편으로, 상기 방법은 상기 개시 대역과 상기 시작 대역 사이에서의 저 주파수 서브대역의 하나 이상의 저 주파수 서브대역 신호들에 기초하여 저 대역 조성 값을 결정하는 단계, 및 상기 제 1 대역폭이 상기 제 2 대역폭보다 작다면, 상기 타겟 및 상기 저 대역 조성 값들에 기초하여 상기 잡음 혼합 인자를 결정하는 단계를 포함할 수 있다. 상기 제 1 및 제 2 대역폭들을 비교함으로써, 상기 잡음 혼합 인자(및 대역 조성 값들)가 최소 수의 서브대역들(제 1 및 제 2 대역폭들에 관계없이)에 대해 결정되고, 그에 의해 계산 복잡도를 감소시킨다는 것이 보장될 수 있다.
상기 잡음 혼합 인자는 타겟 및 소스 대역 조성 값들(또는 타겟 및 저 대역 조성 값들)의 분산에 기초하여 결정될 수 있다. 특히, 상기 잡음 혼합 인자(b)는 다음과 같이 결정될 수 있으며,
Figure 112016111307510-pat00001
여기에서
Figure 112016111307510-pat00002
은 소스 조성 값(Tcopy)(또는 저 조성 값) 및 타겟 조성 값(Thigh)의 분산이다.
상기 표시된 바와 같이, (소스, 타겟 또는 저) 대역 조성 값들은 본 문서에 설명된 2-단계 접근법을 사용하여 결정될 수 있다. 특히, 주파수 서브대역에서의 대역 조성 값은 오디오 신호의 샘플들의 블록에 기초하여 대응하는 세트의 주파수 빈들에서의 변환 계수들의 세트를 결정함으로써 결정될 수 있다. 그 뒤에, 상기 세트의 주파수 빈들에 대한 빈 조성 값들의 세트는 각각, 상기 변환 계수들의 세트를 사용하여 결정될 수 있다. 상기 주파수 서브대역의 대역 조성 값은 그 후 상기 주파수 서브대역 내에 있는 상기 세트의 주파수 빈들의 둘 이상의 대응하는 인접 주파수 빈들에 대한 빈 조성값들의 세트 중 둘 이상의 제 1 서브세트를 조합함으로써 결정될 수 있다.
추가 양태에 따르면, 오디오 신호의 제 1 주파수 빈에 대한 제 1 빈 조성 값을 결정하기 위한 방법이 설명된다. 제 1 빈 조성 값은 본 문서에 설명된 원칙들에 따라 결정될 수 있다. 특히, 제 1 빈 조성 값은 제 1 주파수 빈의 변환 계수의 위상의 변화에 기초하여 결정될 수 있다. 더욱이, 본 문서에 또한 개괄된 바와 같이, 제 1 빈 조성 값은 오디오 신호의 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용될 수 있다. 이와 같이, 제 1 빈 조성 값을 결정하기 위한 방법은 HFR 기술들을 사용하여 오디오 인코더의 맥락에서 사용될 수 있다.
상기 방법은 오디오 신호의 샘플들의 대응하는 시퀀스의 블록들에 대한 제 1 주파수 빈에서의 변환 계수들의 시퀀스를 제공하는 단계를 포함할 수 있다. 상기 변환 계수들의 시퀀스는 샘플들의 블록들의 시퀀스(상기 설명된 바와 같이)에 대한 주파수-도메인 변환에 시간-도메인을 적용함으로써 결정될 수 있다. 더욱이, 상기 방법은 변환 계수들의 시퀀스에 기초하여 위상들의 시퀀스를 결정하는 단계를 포함할 수 있다. 상기 변환 계수는 복소일 수 있으며 변환 계수의 위상은 복소 변환 계수의 실수 및 허수 부분에 적용된 아크탄젠트 함수에 기초하여 결정될 수 있다. 더욱이, 상기 방법은 위상들의 시퀀스에 기초하여 위상 가속도를 결정하는 단계를 포함할 수 있다. 예로서, 샘플들의 현재 블록에 대해 현재 변환 계수에 대한 현재 위상 가속도가 현재 위상에 기초하여 및 둘 이상의 이전 위상들에 기초하여 결정될 수 있다. 또한, 상기 방법은 변환 계수들의 시퀀스로부터 현재 변환 계수에 기초하여 빈 거듭제곱을 결정하는 단계를 포함할 수 있다. 현재 변환 계수의 거듭제곱은 현재 변환 계수의 제곱 크기에 기초할 수 있다.
상기 방법은 또한 대수 근사를 사용하여 계속되는 변환 계수들의 거듭제곱의 비의 네제곱근을 나타내는 가중 인자를 근사시키는 단계를 포함할 수 있다. 상기 방법은 그 후 제 1 빈 조성 값을 산출하기 위해 근사된 가중 인자에 의해 및/또는 현재 변환 계수의 거듭제곱에 의해 위상 가속도를 가중시키는 것으로 진행할 수 있다. 대수 근사를 사용하여 가중 인자를 근사시키는 결과로서, 정확한 가중 인자의 고 품질 근사가 달성될 수 있는 반면, 동시에 계속되는 변환 계수들의 거듭제곱의 비의 네제곱근의 결정을 수반하는 정확한 가중 인자의 결정에 비교하여 계산 복잡도를 상당히 감소시킨다. 대수 근사는 선형 함수에 의해 및/또는 다항식(예로서, 차수 1, 2, 3, 4, 또는 5의)에 의해 대수 함수의 근사를 포함할 수 있다.
변환 계수들의 시퀀스는 현재 변환 계수(샘플들의 현재 블록에 대한) 및 직전 변환 계수(샘플들의 직전 블록에 대한)를 포함할 수 있다. 가중 인자는 현재 변환 계수 및 직전 변환 계수의 거듭제곱의 비의 네제곱근을 나타낼 수 있다. 더욱이, 상기 표시된 바와 같이, 변환 계수들은 실수 부분 및 허수 부분을 포함한 복소수들일 수 있다. 현재(이전) 변환 계수의 거듭제곱은 현재(이전) 변환 계수의 제곱 실수 부분 및 제곱 허수 부분에 기초하여 결정될 수 있다. 또한, 현재(이전) 위상은 현재(이전) 변환 계수의 실수 부분 및 허수 부분의 아크탄젠트 함수에 기초하여 결정될 수 있다. 현재 위상 가속도는 현재 변환 계수의 위상에 기초하여 및 둘 이상의 직전 변환 계수들의 위상들에 기초하여 결정될 수 있다.
가중 인자를 근사시키는 것은 계속되는 변환 계수들의 시퀀스의 현재 것을 나타내는 현재 가수 및 현재 지수를 제공하는 것을 포함할 수 있다. 더욱이, 가중 인자를 근사시키는 것은 현재 가수 및 현재 지수에 기초하여 미리-결정된 룩업 테이블에 대한 인덱스 값을 결정하는 것을 포함할 수 있다. 룩업 테이블은 통상적으로 복수의 인덱스 값들 및 상기 복수의 인덱스 값들의 대응하는 복수의 지수 값들 사이에서의 관계를 제공한다. 이와 같이, 룩업 테이블은 지수 함수를 근사시키기 위한 효율적인 수단을 제공할 수 있다. 일 실시예에서, 룩업 테이블은 64 또는 그보다 적은 엔트리들(즉, 인덱스 값들 및 지수 값들의 쌍들)을 포함한다. 상기 근사된 가중 인자는 인덱스 값 및 룩업 테이블을 사용하여 결정될 수 있다.
특히, 상기 방법은 가수 및 지수에 기초하여 실수 값 인덱스 값을 결정하는 단계를 포함할 수 있다. (정수 값) 인덱스 값은 그 후 실수 값 인덱스 값을 버림 및/또는 반올림함으로써 결정될 수 있다. 체계적인 버림 또는 반올림 동작의 결과로서, 체계적인 오프셋이 근사에 도입될 수 있다. 이러한 체계적인 오프셋은 본 문서에 설명된 빈 조성 값을 결정하기 위한 방법을 사용하여 인코딩되는 오디오 신호의 지각된 품질에 관해서 유익할 수 있다.
가중 인자를 근사시키는 것은 또한 현재 변환 계수에 앞선 변환 계수를 나타내는 이전 가수 및 이전 지수를 제공하는 것을 포함할 수 있다. 인덱스 값은 그 후 현재 가수, 이전 가수, 현재 지수, 및 이전 지수에 적용된 하나 이상의 덧셈 및/또는 뺄셈 연산에 기초하여 결정될 수 있다. 특히, 인덱스 값은 (ey-ez+2ㆍmy-2ㆍmz)에 대한 모듈로 연산을 수행함으로써 결정될 수 있으며, ey는 현재 가수이고, ez는 이전 가수이고, my는 현재 지수이며 mz는 이전 지수이다.
상기 표시된 바와 같이, 본 문서에 설명된 방법들은 다중-채널 오디오 신호들에 적용 가능하다. 특히, 방법들은 다중-채널 오디오 신호의 한 채널에 적용 가능하다. 다중-채널 오디오 신호들에 대한 오디오 인코더들은 통상적으로, 다중-채널 오디오 신호의 복수의 채널들을 공동으로 인코딩하기 위해, 채널 결합(간단히 결합)으로서 불리우는 코딩 기술을 적용한다. 이를 고려할 때, 일 양태에 따르면, 다중-채널 오디오 신호의 복수의 결합 채널들에 대한 복수의 조성 값들을 결정하기 위한 방법이 설명된다.
상기 방법은 복수의 결합 채널들의 제 1 채널의 샘플들의 블록들의 대응하는 시퀀스에 대한 제 1 시퀀스의 변환 계수들을 결정하는 단계를 포함할 수 있다. 대안적으로, 상기 제 1 시퀀스의 변환 계수들은 복수의 결합 채널들로부터 도출된 결합 채널의 샘플들의 블록들의 시퀀스에 기초하여 결정될 수 있다. 상기 방법은 제 1 채널에 대한(또는 결합 채널에 대한) 제 1 조성 값의 결정으로 진행할 수 있다. 이러한 목적을 위해, 상기 방법은 제 1 변환 계수들의 시퀀스에 기초하여 제 1 시퀀스의 위상들을 결정하는 단계 및 제 1 위상들의 시퀀스에 기초하여 제 1 위상 가속도를 결정하는 단계를 포함할 수 있다. 제 1 채널에 대한(또는 결합 채널에 대한) 제 1 조성 값이 그 후 제 1 위상 가속도에 기초하여 결정될 수 있다. 더욱이, 복수의 결합 채널들의 제 2 채널에 대한 조성 값은 제 1 위상 가속도에 기초하여 결정될 수 있다. 이와 같이, 복수의 결합 채널들에 대한 조성 값들은 단지 결합 채널들 중 단일의 것으로부터 결정된 위상 가속도에 기초하여 결정될 수 있으며, 그에 의해 조성의 결정에 연결된 계산 복잡도를 감소시킬 수 있다. 이것은 결합의 결과로서, 복수의 결합 채널들의 위상들이 조정되는 관찰로 인해 가능하다.
또 다른 양태에 따르면, 스펙트럼 확장(SPX) 기반 인코더에서의 다중-채널 오디오 신호의 제 1 채널에 대한 대역 조성 값을 결정하기 위한 방법이 설명된다. SPX 기반 인코더는 제 1 채널의 저 주파수 성분으로부터 제 1 채널의 고 주파수 성분을 근사시키도록 구성될 수 있다. 이러한 목적을 위해, SPX 기반 인코더는 대역 조성 값을 이용할 수 있다. 특히, SPX 기반 인코더는 근사된 고 주파수 성분에 부가될 잡음의 양을 나타내는 잡음 혼합 인자를 결정하기 위해 대역 조성 값을 사용할 수 있다. 이와 같이, 대역 조성 값은 잡음 혼합 이전에 근사된 고 주파수 성분의 조성을 나타낼 수 있다. 제 1 채널은 다중-채널 오디오 신호의 하나 이상의 다른 채널들과 SPX 기반 인코더에 의해 결합될 수 있다.
상기 방법은 결합 이전에 제 1 채널에 기초하여 복수의 변환 계수들을 제공하는 단계를 포함할 수 있다. 더욱이, 상기 방법은 복수의 변환 계수들에 기초하여 대역 조성 값을 결정하는 단계를 포함할 수 있다. 이와 같이, 잡음 혼합 인자는 원래 제 1 채널의 복수의 변환 계수들에 기초하여, 및 결합된/분리된 제 1 채널에 기초하지 않고 결정될 수 있다. 이것은, 이것이 SPX 기반 오디오 인코더에서의 조성의 결정에 연결된 계산 복잡도를 감소시키도록 허용하기 때문에, 유리하다.
상기 개괄된 바와 같이, 결합 이전에 제 1 채널에 기초하여(즉, 원래 제 1 채널에 기초하여) 결정된 복수의 변환 계수들은 SPX 좌표 재전송 전략을 결정하기 위해 및/또는 SPX 기반 인코더의 대규모 변이 감쇠(LVA: Large Variance Attenuation)를 결정하기 위해 사용되는 빈 조성 값들 및/또는 대역 조성 값들을 결정하기 위해 사용될 수 있다. 원래 제 1 채널에 기초하여(및 결합된/분리된 제 1 채널에 기초하여서가 아닌) 제 1 채널의 잡음 혼합 인자를 결정하기 위해 상기 언급된 접근법을 사용함으로써, 이미 SPX 좌표 재전송 전략을 위해 및/또는 대규모 변이 감쇠(LVA)를 위해 이미 결정되어 온 빈 조성 값들이 재-사용될 수 있으며, 그에 의해 SPX 기반 인코더의 계산 복잡도를 감소시킨다.
또 다른 양태에 따르면, 오디오 신호의 제 1 주파수 서브대역에 대한 제 1 대역 조성 값을 결정하도록 구성된 시스템이 설명된다. 제 1 대역 조성 값은 오디오 신호의 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용될 수 있다. 상기 시스템은 오디오 신호의 샘플들의 블록에 기초하여 대응하는 세트의 주파수 빈들에서 변환 계수들의 세트를 결정하도록 구성될 수 있다. 더욱이, 상기 시스템은 각각 변환 계수들의 세트를 사용하여 상기 세트의 주파수 빈들에 대한 빈 조성 값들의 세트를 결정하도록 구성될 수 있다. 또한, 상기 시스템은 제 1 주파수 서브대역 내에 있는 상기 세트의 주파수 빈들의 둘 이상의 대응하는 인접 주파수 빈들에 대한 빈 조성 값들의 세트 중 둘 이상의 제 1 서브세트를 조합하고, 그에 의해 제 1 주파수 서브대역에 대한 제 1 대역 조성 값을 산출하도록 구성될 수 있다.
또 다른 양태에 따르면, 잡음 혼합 인자를 결정하도록 구성된 시스템이 설명된다. 상기 잡음 혼합 인자는 오디오 신호의 저 주파수 성분에 기초하여 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용될 수 있다. 고 주파수 성분은 통상적으로 고 주파수 대역에서 하나 이상의 고 주파수 서브대역 신호들을 포함하고 저 주파수 성분은 통상적으로 저 주파수 대역에서 하나 이상의 저 주파수 서브대역 신호들을 포함한다. 고 주파수 성분을 근사시키는 것은 하나 이상의 저 주파수 서브대역 신호들을 고 주파수 대역에 복사하고, 그에 의해 하나 이상의 근사된 고 주파수 서브대역 신호들을 산출하는 것을 포함할 수 있다. 상기 시스템은 하나 이상의 고 주파수 서브대역 신호들에 기초하여 타겟 대역 조성 값을 결정하도록 구성될 수 있다. 더욱이, 시스템은 하나 이상의 근사된 고 주파수 서브대역 신호들에 기초하여 소스 대역 조성 값을 결정하도록 구성될 수 있다. 또한, 상기 시스템은 타겟(322) 및 소스(323) 대역 조성 값들에 기초하여 상기 잡음 혼합 인자를 결정하도록 구성될 수 있다.
추가 양태에 따르면, 오디오 신호의 제 1 주파수 빈에 대한 제 1 빈 조성 값을 결정하도록 구성된 시스템이 설명된다. 제 1 대역 조성 값은 오디오 신호의 저 주파수 성분에 기초하여 상기 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용될 수 있다. 상기 시스템은 상기 오디오 신호의 샘플들의 블록들의 대응하는 시퀀스에 대해 상기 제 1 주파수 빈에서의 변환 계수들의 시퀀스를 제공하도록 구성될 수 있다. 더욱이, 상기 시스템은 변환 계수들의 시퀀스에 기초하여 위상들의 시퀀스를 결정하도록, 및 상기 위상들의 시퀀스에 기초하여 위상 가속도를 결정하도록 구성될 수 있다. 또한, 상기 시스템은 대수 근사를 사용하여 계속되는 변환 계수들의 거듭제곱의 비의 네제곱근을 나타내는 가중 인자를 근사시키도록, 및 상기 제 1 빈 조성 값을 산출하기 위해 상기 근사된 가중 인자만큼 상기 위상 가속도를 가중시키도록 구성될 수 있다.
또 다른 양태에 따르면, 고 주파수 재구성을 사용하여 오디오 신호를 인코딩하도록 구성된 오디오 인코더(예로서, HFR 기반 오디오 인코더, 특히 SPX 기반 오디오 인코더)가 설명된다. 상기 오디오 인코더는 본 문서에 설명된 시스템들 중 임의의 하나 이상을 포함할 수 있다. 대안적으로 또는 또한, 상기 오디오 인코더는 본 문서에 설명된 방법들 중 임의의 하나 이상을 수행하도록 구성될 수 있다.
추가 양태에 따르면, 소프트웨어 프로그램이 설명된다. 상기 소프트웨어 프로그램은 프로세서 상에서의 실행을 위해 및 상기 프로세서 상에서 실행될 때 본 문서에 개괄된 방법 단계들을 수행하기 위해 적응될 수 있다.
또 다른 양태에 따르면, 저장 매체가 설명된다. 상기 저장 매체는 프로세서 상에서의 실행을 위해 및 상기 프로세서 상에서 실행될 때 본 문서에 개괄된 방법 단계들을 수행하기 위해 적응된 소프트웨어 프로그램을 포함할 수 있다.
추가 양태에 따르면, 컴퓨터 프로그램 제품이 설명된다. 상기 컴퓨터 프로그램은 컴퓨터 상에서 실행될 때 본 문서에 개괄된 방법 단계들을 수행하기 위한 실행가능한 지시들을 포함할 수 있다.
본 특허 출원에 개괄된 바와 같이 바람직한 실시예들을 포함한 방법들 및 시스템들이 본 문서에 개시된 다른 방법들 및 시스템들과 조합하여 또는 단독으로 사용될 수 있다는 것이 주의되어야 한다. 더욱이, 본 특허 출원에 개괄된 방법들 및 시스템들의 모든 양태들이 임의로 조합될 수 있다. 특히, 청구항들의 특징들은 임의의 방식으로 서로 조합될 수 있다.
본 발명은 첨부한 도면들을 참조하여 대표적인 방식으로 이하에 설명된다.
도 1a, 도 1b, 도 1c, 및 도 1d는 예시적인 SPX 기법을 도시한 도면들.
도 2a, 도 2b, 도 2c, 및 도 2d는 SPX 기반 인코더의 다양한 단계들에서 조성의 사용을 도시한 도면들.
도 3a, 도 3b, 도 3c, 및 도 3d는 조성 값들의 계산과 관련 있는 계산 노력을 감소시키기 위한 예시적인 기법들을 도시한 도면들.
도 4는 원래 오디오 신호에 기초한 조성의 결정 및 분리된 오디오 신호에 기초한 조성의 결정을 비교하는 청취 테스트의 예시적인 결과들을 도시한 도면.
도 5a는 조성 값들의 산출을 위해 사용된 가중 인자를 결정하기 위한 다양한 기법들을 비교하는 청취 테스트의 예시적인 결과들을 도시한 도면.
도 5b는 조성 값들의 산출을 위해 사용된 가중 인자의 근사의 예시적인 정도들을 도시한 도면.
도 1a, 도 1b, 도 1c, 및 도 1d는 SPX 기반 오디오 인코더에 의해 수행된 예시적인 단계들을 도시한다. 도 1a는 예시적인 오디오 신호의 주파수 스펙트럼(100)을 도시하고, 여기에서 주파수 스펙트럼(100)은 기저대역(101)(또한 저 주파수 대역(101)으로 불리우는) 및 고 주파수 대역(102)을 포함한다. 도시된 예에서, 고 주파수 대역(102)은 복수의 서브대역들, 즉 SE 대역 1에서 SE 대역 5까지(SE, 스펙트럼 확장)를 포함한다. 기저대역(101)은 기저대역 컷오프 주파수(103)까지의 하위 주파수들을 포함하고 고 주파수 대역(102)은 기저대역 컷오프 주파수(103)에서 오디오 대역폭 주파수(104)까지 고 주파수들을 포함한다. 기저대역(101)은 오디오 신호의 저 주파수 성분의 스펙트럼에 대응하고 고 주파수 대역(102)은 오디오 신호의 고 주파수 성분의 스펙트럼에 대응한다. 즉, 오디오 신호의 저 주파수 성분은 기저대역(101) 내에서의 주파수들을 포함하고, 여기에서 오디오 신호의 고 주파수 성분은 고 주파수 대역(102) 내에서의 주파수들을 포함한다.
오디오 인코더는 통상적으로 시간-도메인 오디오 신호로부터 스펙트럼(100)을 결정하기 위해 시간-도메인 대 주파수-도메인 변환(예로서, 변형 이산 코사인 변환(MDCT) 및/또는 변형 이산 사인 변환(MDST))을 이용한다. 시간-도메인 오디오 신호는 오디오 신호의 샘플들의 각각의 시퀀스들을 포함한 오디오 프레임들의 시퀀스로 세분될 수 있다. 각각의 오디오 프레임은 복수의 블록들(예로서, 복수의 최대 6개의 블록들)로 세분될 수 있으며, 각각의 블록은 예로서, 오디오 신호의 N 또는 2N개의 샘플들을 포함한다. 프레임의 복수의 블록들은 중첩하며(예로서, 50%의 중첩만큼), 즉 제 2 블록은 그것의 처음에 특정한 수의 샘플들을 포함할 수 있으며, 이것은 직전 제 1 블록의 끝에서의 샘플들과 동일하다. 예로서, 2N 샘플들의 제 2 블록은 N개의 샘플들의 코어 섹션, 및 각각 직전 제 1 블록 및 직후 제 3 블록의 코어 섹션과 중첩하는 N/2 샘플들의 후방/전방 섹션들을 포함할 수 있다. 시간-도메인 오디오 신호의 N(또는 2N) 샘플들의 블록의 시간-도메인 대 주파수-도메인 변환은 통상적으로 대응하는 세트의 주파수 빈들(예로서, N=256)에 대한 N 변환 계수들(TC)의 세트를 제공한다. 예로서, N개의 샘플들의 코어 섹션 및 N/2 샘플들의 중첩하는 후방/전방 섹션들을 가진 2N 샘플들의 블록의 시간-도메인 대 주파수-도메인 변환(예로서, MDCT 또는 MDST)은 N개의 TC들의 세트를 제공할 수 있다. 이와 같이, 50%의 중첩은 평균하여 시간-도메인 샘플들 및 TC들의 1:1 관계를 야기할 수 있으며, 그에 의해 임계적으로 샘플링된 시스템을 산출한다. 도 1a에 도시된 고 주파수 대역(102)의 서브대역들은 서브대역(예로서, M=12)을 형성하기 위해 M개의 주파수 빈들을 그룹핑함으로써 획득될 수 있다. 즉, 고 주파수 대역(102)의 서브대역은 M개의 주파수 빈들을 포함하거나 포괄할 수 있다. 서브대역의 스펙트럼 에너지는 서브대역을 형성하는 M개의 주파수 빈들의 TC들에 기초하여 결정될 수 있다. 예로서, 서브대역의 스펙트럼 에너지는 서브대역을 형성하는 M개의 주파수 빈들의 TC들의 제곱 크기의 합에 기초하여(예로서, 서브대역을 형성하는 M개의 주파수 빈들의 TC들의 제곱 크기의 평균에 기초하여) 결정될 수 있다. 특히, 서브대역을 형성하는 M개의 주파수 빈들의 TC들의 제곱 크기의 합은 서브대역 전력을 산출할 수 있으며, 수 M의 주파수 빈들로 나뉘어진 서브대역 전력은 전력 스펙트럼 밀도(power spectral density; PSD)를 산출할 수 있다. 이와 같이, 기저대역(101) 및/또는 고 주파수 대역(102)은 복수의 서브대역들을 포함할 수 있으며, 여기에서 서브대역들은 각각 복수의 주파수 빈들로부터 도출된다.
상기 표시된 바와 같이, SPX 기반 인코더는 오디오 신호의 기저대역(101)에 의해 오디오 신호의 고 주파수 대역(102)을 근사시킨다. 이러한 목적을 위해, SPX 기반 인코더는 대응하는 디코더가 오디오 신호의 인코딩된 및 디코딩된 기저대역(101)으로부터 고 주파수 대역(102)을 재구성하도록 허용하는 보조 정보를 결정한다. 상기 보조 정보는 통상적으로 고 주파수 대역(102)의 하나 이상의 서브대역들의 스펙트럼 에너지의 표시자들을 포함한다(예로서, 각각 고 주파수 대역(102)의 하나 이상의 서브대역들에 대한 하나 이상의 에너지 비들). 더욱이, 상기 보조 정보는 통상적으로 상기 고 주파수 대역(102)의 하나 이상의 서브대역들에 부가되는 잡음의 양의 표시자들(잡음 혼합으로 불리우는)을 포함한다. 후자의 표시자들은 통상적으로 고 주파수 대역(102)의 하나 이상의 서브대역들의 조성과 관련된다. 즉, 고 주파수 대역(102)의 하나 이상의 서브대역들에 부가되는 잡음의 양의 표시자들은 통상적으로 고 주파수 대역(102)의 하나 이상의 서브대역들의 조성 값들의 산출을 이용한다.
도 1b, 도 1c, 및 도 1d는 기저대역(102)에 기초하여 고 주파수 대역(102)을 근사시키기 위한 예시적인 단계들을 도시한다. 도 1b는 단지 기저대역(101)만을 포함한 오디오 신호의 저 주파수 성분의 스펙트럼(110)을 도시한다. 도 1c는 고 주파수 대역(102)의 주파수들로의 기저대역(101)의 하나 이상의 서브대역들(121, 122)의 스펙트럼 변환을 도시한다. 서브대역들(121, 122)이 고 주파수 대역(102)의 각각의 주파수 대역들(123, 124, 125, 126, 127, 및 128)로 복사된다는 것이 스펙트럼(120)으로부터 보여질 수 있다. 도시된 예에서, 서브대역들(121, 122)은 고 주파수 대역(102)을 가득 채우기 위해, 3번 복사된다. 도 1d는 오디오 신호의 원래 고 주파수 대역(102)(도 1a 참조)이 어떻게 복사된(또는 변환된) 서브대역들(123, 124, 125, 126, 127, 및 128)에 기초하여 근사되는지를 도시한다. SPX 기반 오디오 인코더는 복사된 서브대역들에 랜덤 잡음을 부가할 수 있으며, 따라서 근사된 서브대역들(133, 134, 135, 136, 137, 및 138)의 조성이 고 주파수 대역(102)의 원래 서브대역들의 조성에 대응한다. 이것은 적절한 각각의 조성 표시자들을 결정함으로써 달성될 수 있다. 더욱이, 복사된(및 잡음 혼합된) 서브대역들(123, 124, 125, 126, 127, 및 128)의 에너지는 근사된 서브대역들(133, 134, 135,136, 137, 및 138)의 에너지가 고 주파수 대역(102)의 원래 서브대역들의 에너지에 대응하도록 수정될 수 있다. 이것은 적절한 각각의 에너지 표시자들을 결정함으로써 달성될 수 있다. 결과적으로, 스펙트럼(130)은 도 1a에 도시된 원래 오디오 신호의 스펙트럼(100)을 근사한다는 것이 이해될 수 있다.
상기 표시된 바와 같이, 잡음 혼합을 위해 사용되는(및 통상적으로 서브대역들의 조성의 결정을 요구하는) 표시자들의 결정은 SPX 기반 오디오 인코더의 계산 복잡도에 중요한 영향을 미친다. 특히, 상이한 신호 세그먼트들(주파수 서브대역들)의 조성 값들은 SPX 인코딩 프로세스의 상이한 단계들에서 다양한 목적들을 위해 요구될 수 있다. 통상적으로 조성 값들의 결정을 요구하는 단계들의 개요가 도 2a, 도 2b, 도 2c, 및 도 2d에 도시된다.
도 2a, 도 2b, 도 2c, 및 도 2d에서, 주파수(SPX 서브대역들(0 내지 16)의 형태로)가 SPX 개시 대역(또는 SPX 개시 주파수)(201)(spxstart로서 불리우는), SPX 시작 대역(또는 SPX 시작 주파수)(202)(spxbegin으로 불리우는) 및 SPX 종료 대역(또는 SPX 종료 주파수)(203)(spxend로 불리우는)에 대한 마커들을 갖고 수평 축에 도시된다. 통상적으로, SPX 시작 주파수(202)는 컷오프 주파수(103)에 대응한다. SPX 종료 주파수(203)는 원래 오디오 신호의 대역폭(104)에 또는 오디오 대역폭(104)보다 낮은 주파수에 대응할 수 있다(도 2a, 도 2b, 도 2c, 및 도 2d에 도시된 바와 같이). 인코딩 후, 인코딩된/디코딩된 오디오 신호의 대역폭은 통상적으로 SPX 종료 주파수(203)에 대응한다. 실시예에서, SPX 개시 주파수(201)는 주파수 빈 25번에 대응하고 SPX 종료 주파수(203)는 주파수 빈 229번에 대응한다. 오디오 신호의 서브대역들은 SPX 인코딩 프로세스의 3개의 상이한 단계들에서 도시된다: 원래 오디오 신호(도 2a의 최상부 및 도 2b)의 스펙트럼(200)(예로서, MDCT 스펙트럼) 및 오디오 신호(도 2a, 중간 및 도 2c)의 저 주파수 성분의 인코딩/디코딩 후 오디오 신호의 스펙트럼(210). 오디오 신호의 저 주파수 성분의 인코딩/디코딩은, 에를 들면, 저 주파수 성분의 매트릭싱 및 디매트릭싱 및/또는 결합 및 분리를 포함할 수 있다. 더욱이, 고 주파수 대역(102)으로의 기저대역(101)의 서브대역들의 스펙트럼 변환 후 스펙트럼(220)이 도시된다(도 2a, 최하부 및 도 2d). 오디오 신호의 원래 부분들의 스펙트럼(200)은 도 2a의 "원래"-라인에 도시되고(즉, 주파수 서브대역들(0 내지 16)); 결합/매트릭싱에 의해 수정되는 신호의 부분들의 스펙트럼(210)이 도 2a의 "디매트릭싱된/분리된 저-대역" 라인에 도시되고(즉, 도시된 예에서 주파수 서브대역들(2 내지 6)); 스펙트럼 변환에 의해 수정되는 신호의 부분들의 스펙트럼(220)은 도 2a의 "변환된 고-대역" 라인에 도시된다(즉, 도시된 예에서 주파수 서브대역들(7 내지 14)). SPX 기반 인코더의 프로세싱에 의해 수정되는 서브대역들(206)은 어두운 음영으로서 예시되는 반면, SPX 기반 인코더에 의해 수정되지 않은 채로 있는 서브대역들(205)은 밝은 음영으로서 도시된다.
서브대역들 아래 및/또는 SPX 서브대역들의 그룹들 아래의 브레이스들(231, 232, 233)은 어떤 서브대역들 또는 서브대역들의 어떤 그룹들에 대해 조성 값들(조성 측정치들)이 산출되는지를 표시한다. 더욱이, 어떤 목적을 위해 조성 값들 또는 조성 측정치들이 사용되는지가 표시된다. SPX 개시 대역(spxstart)(201) 및 SPX 종료 대역(spxend)(203) 사이에서의 원래 입력 신호의 대역 조성 값들(231)(즉, 서브대역에 대한 또는 서브대역의 그룹에 대한 조성 값들)이 통상적으로 새로운 SPX 좌표들이 송신될 필요가 있는지 여부("재-전송 전략")에 대한 인코더의 결정을 조종하기 위해 사용된다. SPX 좌표들은 통상적으로 각각의 SPX 대역에 대한 이득 인자들의 형태로 원래의 오디오 신호의 스펙트럼 엔벨로프에 대한 정보를 운반한다. SPX 재-전송 전략은 새로운 SPX 좌표들이 오디오 신호의 샘플들의 새로운 블록에 대해 송신되어야 하는지 여부 또는 샘플들의 (바로) 이전 블록에 대한 SPX 좌표들이 재사용될 수 있는지 여부를 표시할 수 있다. 부가적으로, spxbegin(202) 이상의 SPX 대역들에 대한 대역 조성 값들(231)은 도 2a 및 도 2b에 도시된 바와 같이, 대규모 변이 감쇠(LVA) 계산들에 대한 입력으로서 사용될 수 있다. 대규모 변이 감쇠는 스펙트럼 변환으로부터 잠재적인 에러들을 감쇠시키기 위해 사용될 수 있는 인코더 툴이다. 기저 대역에서 대응하는 성분을 갖지 않는 확장 대역에서의 강한 스펙트럼 성분들(및 그 역 또한 마찬가지이다)은 확장 에러들로 고려될 수 있다. LVA 메커니즘은 이러한 확장 에러들을 감쇠시키기 위해 사용될 수 있다. 도 2b에서의 브레이스들에 의해 보여질 수 있는 바와 같이, 조성 값들(231)은 개개의 서브대역들에 대해(예로서, 서브대역들(0, 1, 2, 등)) 및/또는 서브대역들의 그룹들에 대해(예로서, 서브대역들(11, 12)을 포함한 그룹에 대해) 산출될 수 있다.
상기 표시된 바와 같이, 신호 조성은 고 주파수 대역(102)에서 재구성된 서브대역들에 적용된 잡음 혼합의 양을 결정하기 위해 중요한 역할을 한다. 도 2c에 묘사된 바와 같이, 조성 값들(232)은 디코딩된(예로서, 디매트릭싱된 및 분리된) 저-대역에 대해 및 원래 고-대역에 대해 별개로 계산된다. 이러한 맥락에서 디코딩(예로서, 디매트릭싱 및 분리)은 인코더의 이전 적용된 인코딩 단계들(예로서, 매트릭싱 및 결합 단계들)이 그것이 디코더에서 행할 동일한 방식으로 행하여지지 않는다는 것을 의미한다. 즉, 이러한 디코더 메커니즘은 인코더에서 이미 시뮬레이션된다. 스펙트럼(210)의 서브대역들(0 내지 6)을 포함한 저-대역은 따라서 디코더가 재생성할 스펙트럼의 시뮬레이션이다. 도 2c는 조성이, SPX 서브대역 당(다수의 12개의 변환 계수들(TC들)에 걸친) 또는 SPX 서브대역의 그룹당 산출되는 원래 신호의 조성과 대조적으로, 이 경우에 두 개의 큰 대역들(전용)을 위해 계산된다는 것을 추가로 도시한다. 도 2c에서의 브레이스들에 의해 표시된 바와 같이, 조성 값들(232)이 기저대역(101)에서의 서브대역들(예로서, 서브대역들(0 내지 6)을 포함한)의 그룹에 대해 및 고 주파수 대역(102)에서의 서브대역들(예로서, 서브대역들(7 내지 14)을 포함한)의 그룹에 대해 계산된다.
상기 이외에, 대규모 변이 감쇠(LVA) 계산들은 통상적으로 변환된 변환 계수들(TC들)에 대해 계산되는 또 다른 조성 입력을 요구한다. 조성은 도 2a에서와 동일한 스펙트럼 영역을 위해 측정되지만, 상이한 데이터 상에서, 즉 변환된 저-대역 서브대역들 상에서는 측정되지 않으며, 원래 서브대역들 상에서 측정되지 않는다. 이것은 도 2d에 도시된 스펙트럼(220)에 묘사된다. 조성 값(233)이 변환된 서브대역들에 기초하여 고 주파수 대역(102) 내에서 서브대역들 및/또는 서브대역들의 그룹들에 대해 결정된다.
대체로, 통상적인 SPX 기반 인코더는 인코딩/디코딩 프로세스 동안 원래 오디오 신호로부터 도출된 신호들의 및/또는 원래 오디오 신호의 다양한 서브대역들(205, 206) 및/또는 서브대역들의 그룹들에 대한 조성 값들(231, 232, 233)을 결정한다. 특히, 조성 값들(231, 232, 233)은 오디오 신호의 인코딩된/디코딩된 저 주파수 성분의 및/또는 오디오 신호의 근사된 고 주파수 성분의, 원래 오디오 신호의 서브대역들 및/또는 서브대역들의 그룹들에 대해 결정될 수 있다. 상기 개괄된 바와 같이, 조성 값들(231, 232, 233)의 결정은 통상적으로 SPX 기반 인코더의 전체 계산 노력의 상당한 부분을 이룬다. 다음으로, 조성 값들(231, 232, 233)의 결정에 연결된 계산 노력을 상당히 감소시키도록 허용하고, 그에 의해 SPX 기반 인코더의 계산 복잡도를 감소시키도록 허용하는 방법들 및 시스템들이 설명된다.
서브대역(205, 206)의 조성 값은 시간(t)에 따라 서브대역들(205, 206)의 각속도(ω(t))의 전진을 분석함으로써 결정될 수 있다. 각속도(ω(t))는 시간에 걸쳐 각도 또는 위상(
Figure 112016111307510-pat00003
)의 변화일 수 있다. 결과적으로, 각가속도는 시간에 걸친 각속도(ω(t))의 변화, 즉 각속도(ω(t))의 제 1 도함수 또는 위상(
Figure 112016111307510-pat00004
)의 제 2 도함수로서 결정될 수 있다. 각속도(ω(t))가 시간에 따라 일정하다면, 서브대역(205, 206)은 음색적이고, 각속도(ω(t))가 시간에 따라 변한다면, 서브대역(205, 206)은 덜 음색적이다. 그러므로, 각속도(ω(t))의 변화의 레이트(즉, 각가속도)는 조성의 표시자이다. 예로서, 서브대역(q)의 또는 서브대역들(q)의 그룹의 조성 값들(Tq)(231, 232, 233)은 다음과 같이 결정될 수 있다.
Figure 112016111307510-pat00005
본 문서에서, 서브대역(q)의 또는 서브대역들(q)의 그룹의 조성 값들(Tq)(231, 232, 233)(또한 대역 조성 값들로서 불리우는)을 시간-도메인 대 주파수-도메인 변환에 의해 획득된 상이한 변환 계수들(TC)에 대한(즉, 상이한 주파수 빈들(n)에 대한) 조성 값들(Tn)(또한, 빈 조성 값들로서 불리우는)의 결정으로 나누며 그 뒤에 빈 조성 값들(Tn)에 기초하여 대역 조성 값들(Tq)(231, 232, 233)을 결정하는 것이 제안된다. 이하에 도시된 바와 같이, 대역 조성 값들(Tq)(231, 232, 233)의 이러한 2-단계 결정은 대역 조성 값들(Tq)(231, 232, 233)의 산출에 연결된 계산 노력의 상당한 감소를 허용한다.
이산 시간-도메인에서, 주파수 빈(n)의 변환 계수(TC)에 대한 및 블록(또는 이산 시간 인스턴트)(k)에서의 빈 조성 값(Tn,k)은 예로서 공식에 기초하여 결정될 수 있다.
Figure 112016111307510-pat00006
,
여기에서
Figure 112016111307510-pat00007
n,k,
Figure 112016111307510-pat00008
n,k-1, 및
Figure 112016111307510-pat00009
n,k-2는 각각 시간 도메인들(k, k-1, 및 k-2)에서의 주파수 빈(n)의 변환 계수(TC)의 위상들이고, 여기에서 |TCn,k|2는 시간 인스턴트들(k)에서 주파수 빈(n)의 변환 계수(TC)의 제곱 크기이고, wn,k는 시간 인스턴트(k)에서 주파수 빈(n)에 대한 가중 인자이다. "anglenorm" 함수는 2π의 반복된 덧셈/뺄셈에 의해 범위(-π:π]에 대한 그것의 인수를 정규화한다. "anglenorm" 함수는 표 1에 주어진다.
Figure 112016111307510-pat00010
시간 인스턴트(k)(또는 블록 k에 대한)에서의 서브대역(q)(205, 206)의 또는 서브대역들(q)(205, 206)의 조성 값(Tq,k)(231, 232, 233)은 서브대역(q)(205, 206) 내에 또는 서브대역들(q)(205, 206)의 그룹 내에 포함된 시간 인스턴트(k)(또는 블록 k에 대한)에서의 주파수 빈들(n)의 조상 값들(Tn,k)에 기초하여(예로서, 조성 값들(Tn,k)의 합 또는 그것의 평균에 기초하여) 결정될 수 있다. 본 문서에서, 시간 인덱스(또는 블록 인덱스)(k) 및/또는 빈 인덱스(n)/서브대역 인덱스(q)는 간결함의 이유들로 생략될 수 있다.
위상(
Figure 112016111307510-pat00011
k)(특정한 빈(n)에 대한)은 복소 TC의 실수 및 허수 부분으로부터 결정될 수 있다. 복소 TC들은 예로서, 오디오 신호의 N개의 샘플들의 블록의 MDST 및 MDCT 변환을 수행하고, 그에 의해 각각 복소 TC들의 실수 부분 및 허수 부분을 산출함으로써, 인코더 측에서 결정될 수 있다. 대안적으로, 복소 시간-도메인 대 주파수-도메인 변환들이 사용될 수 있으며, 그에 의해 복소 TC들을 산출할 수 있다. 위상(
Figure 112016111307510-pat00012
k)은 그 후 다음과 같이 결정될 수 있다.
Figure 112016111307510-pat00013
.
atan2 함수는 예로서, 인터넷 링크(http://de.wikipedia.org/wiki/Atan2#atan2)에서 특정된다. 원칙적으로, atan2 함수는 y=Im{TCk} 및/또는 x=Re{TCk}의 음의 값들을 고려하는 y=Im{TCk} 및 x=Re{TCk}의 비의 아크탄젠트 함수로서 설명될 수 있다. 도 2a, 도 2b, 도 2c, 및 도 2d의 맥락에서 개괄된 바와 같이, 상이한 대역 조성 값들(231, 232, 233)은 원래 오디오 신호로부터 도출된 상이한 스펙트럼 데이터(200, 210, 22)에 기초하여 결정되도록 요구할 수 있다. 상이한 대역 조성 계산들이 실제로 동일한 데이터에 기초하는, 특히, 동일한 변환 계수들(TC들)에 기초한다는 것이 도 2a에 도시된 개요에 기초하여 본 발명자에 의해 관찰된다:
1. 원래 고 주파수 대역 TC들의 조성은 SPX 좌표 재-전송 전략 및 LVA를 결정하기 위해서, 뿐만 아니라 잡음 혼합 인자(b)를 산출하기 위해 사용된다. 즉, 원래 고 주파수 대역(102)의 TC들의 빈 조성 값들(Tn)은 고 주파수 대역(102) 내에서 대역 조성 값들(231) 및 대역 조성 값(232)을 결정하기 위해 사용될 수 있다.
2. 분리된/디매트릭싱된 저-대역 TC들의 조성은 잡음 혼합 인자(b)를 결정하기 위해 사용되고 - 고-대역으로의 변환 후 - LVA 산출들에서 사용된다. 즉, 오디오 신호(스펙트럼(210))의 인코딩된/디코딩된 저 주파수 성분의 TC들에 기초하여 결정되는 빈 조성 값들(Tn)은 기저대역(101)에서 대역 조성 값(232)을 결정하기 위해 및 고 주파수 대역(102) 내에서 대역 조성 값들(233)을 결정하기 위해 사용된다. 이것은 스펙트럼(220)의 고 주파수 대역(102) 내에서의 서브대역들의 TC들이 고 주파수 대역(102)에서의 하나 이상의 서브대역들로 기저대역(101)에서의 하나 이상의 인코딩된/디코딩된 서브대역들의 변환에 의해 획득된다는 사실에 기인한다. 이러한 변환은 복사된 TC들의 조성에 영향을 미치지 않으며, 그에 의해 오디오 신호(스펙트럼(210))의 인코딩된/디코딩된 저 주파수 성분의 TC들에 기초하여 결정되는 빈 조성 값들(Tn)의 재사용을 허용한다.
3. 분리된/디매트릭싱된 저-대역 TC들은 통상적으로 단지 결합 영역에서의 원래 TC들과 상이하다(매트릭싱이 완전히 가역성임을 가정할 때, 즉 디매트릭싱 동작이 원래 변환 계수들을 재생성한다고 가정할 때). SPX 개시 주파수(201) 및 결합 시작(cplbegin) 주파수(도시된 예에서 서브대역(2)에 있는 것으로 가정하면) 사이에서의 서브대역들에 대한(및 TC들에 대한) 조성 계산들은 수정되지 않은 원래 TC들에 기초하여 따라서 분리된/디매트릭싱된 저-대역 TC들에 대해 및 원래 TC들에 대해 동일하다(스펙트럼(210)에서 서브대역들(0, 1)의 광 음영에 의해 도 2a에 도시된 바와 같이).
상기 서술된 관찰들은 조성 산출들의 몇몇이 이전 산출된 중간 결과들이 공유될 수 있는, 즉 재사용될 수 있기 때문에 반복될 필요가 없거나 적어도 완전히 수행될 필요가 없다는 것을 제안한다. 많은 경우들에서, 이전 계산된 값들이 그에 따라 재사용될 수 있으며, 이것은 계산 비용을 상당히 감소시킨다. 다음으로, SPX 기반 인코더 내에서 조성의 결정과 관련 있는 계산 비용을 감소시키도록 허용하는 다양한 측정들이 설명된다.
도 2a에서의 스펙트럼들(200, 210)로부터 보여질 수 있는 바와 같이, 고 주파수 대역(102)의 서브대역들(7 내지 14)은 스펙트럼들(200, 210)에서 동일하다. 이와 같이, 또한 대역 조성 값(232)에 대한, 고 주파수 대역(102)에 대한 대역 조성 값들(231)을 재사용하는 것이 가능해야 한다. 불운하게도, 도 2a에서의 겉보기는, 기본 TC들이 동일할지라도, 조성이 양쪽 경우들에서 상이한 대역 구조에 대해 계산된다는 것을 드러낸다. 그러므로, 조성 값들을 재사용할 수 있게 하기 위해, 조성 계산을 두 개의 부분들로 나누는 것이 제안되고, 여기에서 제 1 부분의 출력은 대역 조성 값들(231, 232)을 산출하기 위해 사용될 수 있다.
상기에 이미 개괄된 바와 같이, 대역 조성들(Tq)의 계산은 각각의 TC에 대한 빈-당 조성(Tn)을 산출하는 것(단계 1) 및 대역들로의 빈 조성 값들(Tn)의 평활화 및 그룹핑의 후속 프로세스로 분리될 수 있으며, 그에 의해 각각의 대역 조성 값들(Tq)(231, 232, 233)을 산출한다. 대역 조성 값들(Tq)(231, 232, 233)은 예로서, 빈 조성 값들(Tn)의 가중 합에 기초하여, 대역 조성 값의 대역 또는 서브대역 내에 포함된 빈들의 빈 조성 값들(Tn)의 합에 기초하여 결정될 수 있다.예로서, 대역 조성 값(Tq)은 대응하는 가중 인자들(wn)이 합에 의해 나뉘어진 관련 빈 조성 값들(Tn)의 합에 기초하여 결정될 수 있다. 더욱이, 대역 조성 값들(Tq)의 결정은 미리 결정된 값 범위(예로서, [0,1]의 )로의 (가중) 합의 스트레칭 및/또는 매핑을 포함할 수 있다. 단계 1의 결과로부터, 임의의 대역 조성 값들(Tq)이 도출될 수 있다. 계산 복잡도는 그러므로 이러한 2-단계 접근법의 효율성 이득을 형성하는 단계 1에 주로 존재한다는 것이 주의되어야 한다.
대역 조성 값들(Tq)을 결정하기 위한 2-단계 접근법은 고 주파수 대역(102)의 서브대역들(7 내지 14)에 대한 도 3b에 도시된다. 도시된 예에서, 각각의 서브대역은 12개의 대응하는 주파수 빈들에서의 12개의 TC들로부터 형성된다는 것이 이해될 수 있다. 제 1 단계(단계 1)에서, 빈 조성 값들(Tn)(341)은 서브대역들(7-14)의 주파수 빈들에 대해 결정된다. 제 2 단계(단계 2)에서, 빈 조성 값들(Tn)(341)은, 대역 조성 값들(Tq)(312)(고 주파수 대역(102)에서 대역 조성 값들(Tq)(231)에 대응하는)을 결정하기 위해 및 대역 조성 값(Tq)(322)(고 주파수 대역(102)에서의 대역 조성 값들(Tq)(232)에 대응하는)을 결정하기 위해, 상이한 방식들로 그룹핑된다.
결과적으로, 대역 조성 값(322) 및 대역 조성 값들(312)을 결정하기 위한 계산 복잡도는, 대역 조성 값들(312, 322)이 동일한 빈 조성 값들(341)을 이용하기 때문에, 거의 50%만큼 감소될 수 있다. 이것은 또한 잡음 혼합을 위해 원해 신호의 고-대역 조성을 재사용하고 결과적으로 추가 산출들(참조 번호(302))을 제거함으로써, 조성 계산들의 수가 감소될 수 있음을 도시하는 도 3a에 도시된다. 동일한 것이 결합 시작(cplbegin) 주파수(303) 아래의 서브대역들(0, 1)에 대한 빈 조성 값들(341)에 적용한다. 이들 빈 조성 값들(341)은 대역 조성 값들(311)(기저대역(101)에서 대역 조성 값들(Tq)(231)에 대응하는)을 위해 사용될 수 있으며, 그것들은 대역 조성 값(321)(기저대역(101)에서 대역 조성 값들(Tq)(232)에 대응하는)을 결정하기 위해 재사용될 수 있다.
대역 조성 값들을 결정하기 위한 2-단계 접근법은 인코더 출력에 관해서 투명하다는 것이 주의되어야 한다. 즉, 대역 조성 값들(311, 312, 321, 및 322)은 2-단계 산출에 의해 영향을 받지 않으며 그러므로 1-단계 산출에서 결정되는 대역 조성 값들(231, 232)에 동일하다.
빈 조성 값들(341)의 재사용은 또한 스펙트럼 변환의 맥락에서 이용될 수 있다. 이러한 재사용 시나리오는 통상적으로 스펙트럼(210)의 기저대역(101)으로부터 디매트릭싱된/분리된 서브대역들을 수반한다. 이들 서브대역들의 대역 조성 값(321)은 잡음 혼합 인자(b)(도 3a 참조)를 결정할 때 계산된다. 다시, 대역 조성 값(321)을 결정하기 위해 사용되는 동일한 TC들의 적어도 몇몇은 대규모 변이 감쇠(LVA)를 제어하는 대역 조성 값들(233)을 산출하기 위해 사용된다. 도 3a 및 도 3b의 맥락에서 개괄된 제 1 재사용 시나리오에 대한 차이는 TC들이 LVA 조성 값들(233)을 계산하기 위해 사용되기 전에 스펙트럼 변환의 대상이 된다는 것이다. 그러나, 빈의 빈-당 조성(Tn)(341)은 그것의 이웃 빈들의 조성으로부터 독립적이라는 것이 도시될 수 있다. 결과로서, 빈-당 조성 값들(Tn)(341)은 그것이 TC들(도 3d 참조)에 대해 행해지는 것과 동일한 방식으로 주파수에서 변환될 수 있다. 이것은 고 주파수 대역(102)에서의 LVA의 계산들에서, 잡음 혼합을 위해 기저대역(101)에서 산출된 빈 조성 값들(Tn)(341)의 재사용을 가능하게 한다. 이것은 도 3c에 도시되고, 여기에서 재구성된 고 주파수 대역(102)에서의 서브대역들이 어떻게 스펙트럼(210)의 기저대역(101)으로부터의 서브대역들(0 내지 5)로부터 도출되는지가 도시된다. 스펙트럼 변환 프로세스에 따르면, 기저대역(101)으로부터의 서브대역들(0 내지 5) 내에 포함된 주파수 빈들의 빈 조성 값들(Tn)(341)은 대역 조성 값들(Tq)(233)을 결정하기 위해 재사용될 수 있다. 결과적으로, 대역 조성 값들(Tq)(233)을 결정하기 위한 계산 노력은, 참조 번호(303)에 의해 도시된 바와 같이, 상당히 감소된다. 다시, 인코더 출력이 확장 대역 조성(233)을 도출하는 이러한 수정된 방식에 의해 영향을 받지 않는다는 것이 주의되어야 한다.
대체로, 대역 조성 값들(Tq)의 결정을 빈-당 조성 값들(Tn)을 결정하는 제 1 단계 및 빈-당 조성 값들(Tn)로부터 대역 조성 값들(Tq)을 결정하는 후속 제 2 단계를 수반하는 2-단계 접근법으로 나눔으로써, 대역 조성 값들(Tq)의 계산과 관련 있는 전체 계산 복잡도가 감소될 수 있다는 것이 도시된다. 특히, 2-단계 접근법은 복수의 대역 조성 값들(Tq)(재사용 가능성을 표시하는 참조 번호들(301, 302, 303)에 의해 도시된 바와 같이)의 결정을 위한 빈-당 조성 값들(Tn)의 재사용을 허용하고, 그에 의해 전체 계산 복잡도를 감소시킨다는 것이 도시된다.
2-단계 접근법 및 빈 조성 값들의 재사용으로부터 기인한 성능 개선은 조성이 통상적으로 계산되는 빈들의 수를 비교함으로써 양자화될 수 있다. 원래 기법은
Figure 112016111307510-pat00014
주파수 빈들에 대한 조성 값들을 계산한다(여기에서 부가적인 6개의 조성 값들이 SPX 기반 인코더 내에서의 특정 노치 필터들을 구성하기 위해 사용된다). 상기 설명된 바와 같이 계산된 조성 값들을 재사용함으로써, 조성 값이 결정되는 빈들의 수는
Figure 112016111307510-pat00015
으로 감소된다(여기에서 부가적인 3개의 조성 값들이 SPX 기반 인코더 내에서의 특정 노치 필터들을 구성하기 위해 사용된다). 조성이 최적화 전 및 후에 계산되는 빈들의 비는 조성 알고리즘에 대한 성능 개선(및 복잡도 감소)을 산출한다. 2-단계 접근법은 통상적으로 대역 조성 값들의 직접 계산보다 약간 더 복잡하다는 것이 주의되어야 한다. 복잡한 조성 계산을 위한 성능 이득(즉, 복잡도 감소)은 따라서 상이한 비트 레이트들에 대해 표 2에서 발견될 수 있는 계산된 조성 빈들의 비보다 약간 더 적다.
Figure 112016111307510-pat00016
50% 이상의 조성 값들을 계산하기 위한 계산 복잡도의 감소가 달성될 수 있다는 것이 보여질 수 있다.
상기 개괄된 바와 같이, 2-단계 접근법은 인코더의 출력에 영향을 주지 않는다. 다음으로, 인코더의 출력에 영향을 미칠 수 있는 SPX 기반 인코더의 계산 복잡도를 감소시키기 위한 추가 측정들이 설명된다. 그러나, 지각 테스트들은 - 평균적으로 - 이들 추가 측정들이 인코딩된 오디오 신호들의 지각된 품질에 영향을 미치지 않는다는 것을 도시한다. 이하에 설명된 측정들은 본 문서에 설명된 다른 측정들 외에 또는 대안적으로 사용될 수 있다.
예로서, 도 3c의 맥락에서 도시된 바와 같이, 대역 조성 값들(Tlow(321), Thigh(322))은 잡음 혼합 인자(b)의 계산을 위한 기초이다. 조성은 오디오 신호에 포함된 잡음의 양에 보다 더 또는 보다 덜 역인 속성으로서 해석될 수 있다(즉, 보다 잡음이 많은 -> 덜 음색적이며 그 역 또한 마찬가지이다). 잡음 혼합 인자(b)는 다음과 같이 산출될 수 있다
Figure 112016111307510-pat00017
,
여기에서 Tlow(321)는 디코더-시뮬레이션된 저-대역의 조성이고, Thigh(322)는 원래 고-대역의 조성이고,
Figure 112016111307510-pat00018
는 두 개의 조성 값들(Tlow(321) 및 Thigh(322))의 분산이다.
잡음 혼합의 목적은 원래 고-대역과 같이 재생성된 고-대역 사운드를 만들기 위해 필요한 만큼 많은 잡음을 재생성된 고-대역으로 삽입하는 것이다. 소스 조성 값(고 주파수 대역(102)에서 변환된 서브대역들의 조성을 반영하는) 및 타겟 조성 값(원래 고 주파수 대역(102)에 서브대역들의 조성을 반영하는)은 원하는 타겟 잡음 레벨을 결정하기 위해 고려되어야 한다. 실제 소스 조성은 변환된 고-대역 사본(도 3c 참조)의 조성 값(Tcopy)(323)에 의해서라기보다는, 디코더-시뮬레이션된 저-대역의 조성 값(Tlow)(321)에 의해 정확하게 설명되지 않는다는 것이 본 발명자의 관찰이다. 조성 값(Tcopy)(323)은 도 3c에서의 브레이스에 의해 도시된 바와 같이 고 주파수 대역(102)의 원래 서브대역들(7 내지 14)을 근사시키는 서브대역들에 기초하여 결정될 수 있다. 잡음 혼합이 수행되고 따라서 단지 사실상 고-대역으로 복사되는 저-대역 TC들의 조성만이 부가될 잡음의 양에 영향을 주어야 한다는 것이 변환된 고-대역 상에 있다.
상기 공식에 의해 표시된 바와 같이, 현재 저-대역으로부터의 조성 값(Tlow)(321)은 실제 소스 조성의 추정치로서 사용된다. 이러한 추정치의 정확도에 영향을 미치는 두 개의 경우들이 있을 수 있다.
1. 고-대역을 근사시키기 위해 사용되는 저-대역은 고-대역보다 작거나 같으며 인코더는 중간-대역 랩-어라운드를 접하지 않는다(즉, 타겟 대역은 복사 영역(즉, spxstart 및 spxbegin 사이에서의 영역)의 끝에서 이용가능한 소스 대역들보다 크다). 인코더는 통상적으로 타겟 SPX 대역 내에서의 이러한 랩-어라운드 상황들을 회피하려고 한다. 이것은 도 3c에 도시되고, 여기에서 변환된 서브대역(5)은 서브대역들(0, 1)로 이어진다(타겟 SPX 대역 내에서의 서브대역(0)에 앞서 서브대역(6)의 랩-어라운드 상황을 회피하기 위해). 이러한 경우에, 저-대역은 통상적으로, 고-대역으로, 완전히, 가능하게는 다수 회 복사된다. 모든 TC들이 복사되기 때문에, 저-대역에 대한 조성 추정치는 변환된 고-대역의 조성 추정치에 매우 가까워야 한다.
2. 저-대역은 고-대역보다 크다. 이러한 경우에, 단지 저-대역의 하부 부분만이 고-대역으로 복사된다. 조성 값(Tlow)(321)이 모든 저-대역 TC들에 대해 계산되기 때문에, 변환된 고-대역의 조성 값(Tcopy)(323)은 신호 속성들에 의존하여 및 저-대역 및 고-대역의 크기 비에 의존하여, 조성 값(Tlow)(321)으로부터 벗어날 수 있다.
이와 같이, 조성 값(Tlow)(321)의 사용은 특히, 조성 값(Tlow)(321)을 결정하기 위해 사용되는 서브대역들(0 내지 6)의 모두가 고 주파수 대역(102)으로 변환되는 것이 아닌 상황들에서(예로서, 도 3c에 도시된 예에서의 경우인 것과 같이), 부정확한 잡음 혼합 인자(b)를 야기할 수 있다. 상당한 부정확성들이 고 주파수 대역(102)으로 복사되지 않는 서브대역들(예로서, 도 3c에서의 서브대역(6))이 중요한 음색 콘텐트를 포함하는 경우들에서 발생할 수 있다. 그러므로, 변환된 고-대역의 대역 조성 값(Tcopy)(323)에 기초하여(및 SPX 시작 주파수(201)에서 SPX 시작 주파수(202)로 가는 디코더-시뮬레이션된 저-대역의 대역 조성 값(Tlow)(321)에서가 아닌) 잡음 혼합 인자(b)를 결정하도록 제안된다. 특히, 잡음 혼합 인자(b)는 다음과 같이 결정되고
Figure 112016111307510-pat00019
,
여기에서
Figure 112016111307510-pat00020
는 두 개의 조성 값들(Tcopy(323) 및 Thigh(322))의 분산이다.
SPX 기반 인코더의 개선된 품질을 잠재적으로 제공하는 것 외에, 변환된 고-대역(디코더-시뮬레이션된 저-대역의 대역 조성 값(Tlow)(321) 대신에)의 대역 조성 값(Tcopy)(323)의 사용은 SPX 기반 오디오 인코더의 감소된 계산 복잡도를 야기할 수 있다. 이것은 특히 상기 언급된 경우 2에 대해 참이고, 여기에서 변환된 고-대역은 저-대역보다 좁다. 이러한 이득은 저-대역 및 고-대역 크기들의 디스패리티에 따라 커진다. 소스 조성이 계산되는 대역들의 양은,
Figure 112016111307510-pat00021
일 수 있으며, 여기에서 수(spxbegin-spxstart)는 잡음 혼합 인자(b)가 디코더-시뮬레이션된 저-대역의 대역 조성 값(Tlow)(321)에 기초하여 결정된다면 이용하고 수(spxend-spxbegin)는 잡음 혼합 인자(b)가 변환된 고-대역의 대역 조성 값(Tcopy)(323)에 기초하여 결정된다면 이용한다. 이와 같이, 실시예에서, SPX 기반 인코더는 (spxbegin-spxstart) 및 (spxend-spxbegin)의 최소치에 의존하여, 잡음 혼합 인자(b)의 결정의 모드(대역 조성 값(Tlow)(321)에 기초한 제 1 모드 및 대역 조성 값(Tcopy)(323)에 기초한 제 2 모드)를 선택하고, 그에 의해 계산 복잡도(특히 (spxend-spxbegin)이 (spxbegin-spxstart)보다 작은 경우들에서)를 감소시키도록 구성될 수 있다.
잡음 혼합 인자(b)를 결정하기 위한 수정된 기법은 대역 조성 값들(Tcopy(323) 및/또는 Thigh(322))을 결정하기 위해 2-단계 접근법과 조합될 수 있다는 것이 주의되어야 한다. 이 경우에, 대역 조성 값(Tcopy(323))은 고 주파수 대역(102)으로 변환되는 주파수 빈의 빈 조성 값들(Tn)(341)에 기초하여 결정된다. 재구성된 고 주파수 대역(102)에 기여하는 주파수 빈들은 spxstart(201) 및 spxbegin(202) 사이에 있다. 계산 복잡도에 대하여 최악의 경우에, spxstart(201) 및 spxbegin(202) 사이에서의 주파수 빈들의 모두는 재구성된 고 주파수 대역(102)에 기여한다. 다른 한편으로, 많은 다른 경우(예로서, 도 3c에 도시된 바와 같이)에서, 단지 spxstart(201) 및 spxbegin(202) 사이에서의 주파수 빈들의 서브세트만이 재구성된 고 주파수 대역(102)으로 복사된다. 이를 고려하여, 실시예에서, 잡음 혼합 인자(b)가 빈 조성 값들(Tn)(341)을 사용하여, 즉 대역 조성 값(Tcopy)(323)을 결정하기 위해 상기-언급된 2-단계 접근법을 사용하여 대역 조성 값(Tcopy)(323)에 기초하여 결정된다. 2-단계 접근법을 사용함으로써, (spxbegin-spxstart)가 (spxend-spxbegin)보다 작은 경우들에서조차, 계산 복잡도가 spxstart(201) 및 spxbegin(202) 사이에서의 주파수 범위에서 빈 조성 값들(Tn)(341)을 결정하기 위해 요구된 계산 복잡도에 의해 제한된다는 것이 보장된다. 즉, 2-단계 접근법은 (spxbegin-spxstart)가 (spxend-spxbegin)보다 작은 경우들에서조차, 대역 조성 값(Tcopy)(323)을 결정하기 위한 계산 복잡도가 (spxbegin-spxstart) 사이에 포함된 TC들의 수에 의해 제한된다는 것을 보장한다. 이와 같이, 잡음 혼합 인자(b)는 지속적으로 대역 조성 값(Tcopy)(323)에 기초하여 결정될 수 있다. 그럼에도 불구하고, 조성 값들이 결정되어야 하는 결합 영역에서의 서브대역들(cplbegin 내지 spxbegin)을 결정하기 위해, (spxbegin-spxstart) 및 (spxend-spxbegin)의 최소치를 결정하는 것이 유리할 수 있다. 예로서, (spxbegin-spxstart)가 (spxend-spxbegin)보다 크다면, 주파수 영역의 서브대역들(spxbegin-spxstart)의 적어도 일부에 대한 조성 값들을 결정하기 위해 요구되지 않으며, 그에 의해 계산 복잡도를 감소시킨다.
도 3c에 보여질 수 있는 바와 같이, 빈-조성 값들로부터 대역 조성 값들을 결정하기 위한 2-단계 접근법은 빈-조성 값들의 중요한 재사용을 사용하고, 그에 의해 계산 복잡도를 감소시킨다. 빈 조성 값들의 결정은 주로 원래 오디오 신호의 스펙트럼(200)에 기초하여 빈 조성 값들의 결정에 대해 감소된다. 그러나, 결합의 경우에, 빈 조성 값들은 cplbegin(303) 및 spxbegin(202) 사이에서의 주파수 빈들의 일부 또는 모두에 대한(도 3c에서의 어두운 음영 서브대역들(2 내지 6)의 주파수 빈들에 대한) 결합된/분리된 스펙트럼(210)에 기초하여 결정되도록 요구할 수 있다. 즉, 이전에 계산된 빈-당 조성을 재사용하는 상기 언급된 수단을 이용한 후, 조성 재-계산을 요구할 수 있는 유일한 대역들은 결합 중인 대역들이다(도 3c 참조).
결합은 보통 결합 중인 다중-채널 신호(예로서, 스테레오 신호 또는 5.1 다중-채널 신호)의 채널들 사이에서의 위상 차들을 제거한다. 결합 좌표들의 주파수 공유 및 시간 공유는 또한 결합된 채널들 사이에서의 상관을 증가시킨다. 상기 개괄된 바와 같이, 조성 값들의 결정은 샘플들의 현재 블록의(시간 인스턴트(k)에서) 및 샘플들의 하나 이상의 이전 블록들의(예로서, 시간 인스턴트들(k-1, k-2)에서) 위상들 및 에너지들에 기초한다. 결합에서의 모든 채널들의 위상각들이 동일하기 때문에(결합의 결과로서), 이들 채널들의 조성 값들은 원래 신호의 조성 값들보다 더 상관된다.
SPX 기반 인코더에 대응하는 디코더는 단지 디코더가 인코딩된 오디오 데이터를 포함한 수신된 비트 스트림으로부터 발생하는 분리된 신호에 대한 액세스를 가진다. 인코더 측에서의 잡음 블렌딩 및 대규모 변이 감쇠(LVA)와 같은 인코딩 툴들은 통상적으로 전치된 분리된 저-대역 신호로부터 원래 고-대역 신호를 재생성하도록 의도하는 비들을 계산할 때 이를 고려한다. 즉, SPX 기반 오디오 인코더는 통상적으로 대응하는 디코더만이 인코딩된 데이터(분리된 오디오 신호를 나타내는)에 대한 액세스를 가진다는 것을 고려한다. 그러므로, 잡음 혼합 및 LVA에 대한 소스 조성은 통상적으로 현재 SPX 기반 인코더에서의 분리된 신호로부터 계산된다(예로서 도 2a의 스펙트럼(210)에 도시된 바와 같이). 그러나, 그것이 개념적으로 분리된 신호에 기초하여(즉, 스펙트럼(210)에 기초하여) 조성을 계산하기 위해 이해될지라도, 원래 신호 대신으로부터 조성을 계산하는 지각적 함축들은 그렇게 명확하지 않다. 더욱이, 계산 복잡도는 분리된 신호에 기초한 조성 값들의 부가적인 재계산이 회피될 수 있다면 추가로 감소될 수 있다.
이를 위해, 청취 경험이 분리된 신호의 조성 대신에 원래 신호의 조성을 사용하는 지각적 영향을 평가하기 위해 행해져 왔다(대역 조성 값들(321, 233)을 결정하기 위해). 청취 경험의 결과들이 도 4에 도시된다. MUSHRA(은닉 참조 및 앵커를 가진 다중 자극들) 테스트들이 복수의 상이한 오디오 신호들을 위해 수행되어 왔다. 복수의 상이한 오디오 신호들의 각각에 대해, (왼쪽) 바들(401)은 분리된 신호(스펙트럼(210)을 사용하여)에 기초하여 조성 값들을 결정할 때 획득된 결과들을 표시하고 (오른쪽) 바들(402)은 원래 신호(스펙트럼(200)을 사용하여)에 기초하여 조성 값들을 결정할 때 획득된 결과들을 표시한다. 이해될 수 있는 바와 같이, 잡음 혼합을 위한 및 LVA를 위한 조성 값들의 결정을 위해 원래 오디오 신호를 사용할 때 획득된 오디오 품질은 조성 값들의 결정을 위해 분리된 오디오 신호를 사용할 때 획득된 오디오 품질과 평균적으로 동일하다.
도 4의 청취 경험의 결과들은 조성 값들을 결정하기 위한 계산 복잡도가 대역 조성 값(321) 및/또는 대역 조성 값(323)(잡음 혼합을 위해 사용된) 및 대역 조성 값들(233)(LVA를 위해 사용된)을 결정하기 위해 원래 오디오 신호의 빈 조성 값들(341)을 재사용함으로써 추가로 감소될 수 있다. 그러므로, SPX 기반 오디오 인코더의 계산 복잡도는 추가로 감소될 수 있는 반면, 인코딩된 오디오 신호들의 지각된 오디오 품질에 영향을 미치지 않는다(평균적으로).
분리된 오디오 신호에 기초하여(즉, 도 3c의 스펙트럼(210)의 어두운 음영 서브대역들(2 내지 6)에 기초하여) 대역 조성 값들(321, 233)을 결정할 때조차, 결합으로 인한 위상들의 정렬은 조성의 결정에 연결된 계산 복잡도를 감소시키기 위해 사용될 수 있다. 즉, 결합 대역들을 위한 조성의 재-계산이 회피될 수 없을지라도, 분리된 신호는 규칙적인 조성 계산을 간소화하기 위해 사용될 수 있는 특별한 속성을 보여준다. 특별한 속성은 결합된(및 그 뒤에 분리된) 채널들 모두가 동위상이라는 것이다. 결합에서의 모든 채널들이 결합 대역들에 대해 동일한 위상(
Figure 112016111307510-pat00022
)을 공유하기 때문에, 이러한 위상(
Figure 112016111307510-pat00023
)은 단지 하나의 채널에 대해 한 번 계산될 필요가 있으며 그 후 결합에서의 다른 채널들의 조성 계산에서 재사용될 수 있다. 특히, 이것은 시간 인스턴트(k)에서 위상(
Figure 112016111307510-pat00024
k)을 결정하기 위해 상기 언급된 "atan2" 동작이 단지 결합에 있는 다중-채널 신호의 채널들의 모두에 대해 한 번 수행될 필요가 있음을 의미한다.
결합 채널이 결합에 있는 모든 채널들에 대한 평균을 나타내기 때문에, 위상 계산(분리된 채널들 중 하나 대신에)을 위해 결합 채널 자체를 사용하는 것이 숫자 관점으로부터 유리한 것처럼 보인다. 결합에 있는 채널들에 대한 위상 재-사용은 SPX 인코더에서 구현되어 왔다. 위상 값들의 재사용으로 인해 인코더 출력에서의 어떤 변화들도 없다. 성능 이득은 256 kbps의 비트-레이트로 측정된 구성에 대해 약 3%(SPX 인코더 계산 노력의)이지만, 결합 영역이 SPX 개시 주파수(201)에 더 가까워지기 시작하는, 즉 결합 시작 주파수(303)가 SPX 개시 주파수(201)에 더 가깝게 있는, 보다 낮은 비트-레이트들에 대해 성능 이득이 증가한다는 것이 예상된다.
다음으로, 조성의 결정에 연결된 계산 복잡도를 감소시키기 위한 추가 접근법이 설명된다. 이러한 접근법은 본 문서에 설명된 다른 방법들 외에 또는 대안적으로 사용될 수 있다. 요구된 조성 산출들의 수를 감소시키는 것에 초점을 맞춘 이전에 제공된 최적화들과 대조적으로, 다음의 접근법은 조성 계산 자체의 속도를 높이는 것에 겨냥된다. 특히, 다음의 접근법은 블록(k)에 대한 주파수 빈(n)의 빈 조성 값(Tn,k)을 결정하기 위한 계산 복잡도를 감소시키는 것에 겨냥된다(인덱스(k)는 예로서 시간 인스턴트(k)에 대응한다).
블록(k)에서의 빈(n)의 SPX 빈-당 조성 값(Tn,k)은 다음과 같이 계산될 수 있으며,
Figure 112016111307510-pat00025
여기에서
Figure 112016111307510-pat00026
는 빈(n)의 거듭제곱이고, wn,k는 가중 인자이고,
Figure 112016111307510-pat00027
는 빈(n) 및 블록(k)의 위상각이다. 빈 조성 값(Tn,k)에 대한 상기 언급된 공식은 위상각의 가속도를 나타낸다(상기 빈 조성 값(Tn,k)에 대해 주어진 공식들의 맥락에서 개괄된 바와 같이). 빈 조성 값(Tn,k)을 결정하기 위해 다른 공식들이 사용될 수 있다는 것이 주의되어야 한다. 조성 산출들의 속도를 높이는 것(즉, 계산 복잡도의 감소)은 주로 가중 인자(w)의 결정에 연결된 계산 복잡도의 감소를 겨냥한다.
가중 인자(w)는 다음과 같이 정의될 수 있다
Figure 112016111307510-pat00028
가중 인자(w)는 네제곱근을 제곱근 및 바빌로니안/헤론(Babylonian/Heron) 방법의 제 1 반복으로 대신함으로써 근사될 수 있다, 즉
Figure 112016111307510-pat00029
.
하나의 제곱근 동작의 제거가 이미 효율성을 증가시킬지라도, 여전히 하나의 제곱근 동작 및 블록당, 채널당 및 주파수 빈당 분할이 있다. 상이한 및 계산적으로 보다 효과적인 근사가 다음과 같이 가중 인자를 재기록함으로써 대수 도메인에서 도출될 수 있다:
Figure 112016111307510-pat00030
상기 경우들의 구별은 (Yn,k≤Yn,k-1)인지 또는 (Yn,k>Yn,k-1)인지에 관계없이, 로그 도메인에서의 차이가 항상 음임을 주의함으로써 사용되지 않을 수 있으며, 그에 의해
Figure 112016111307510-pat00031
을 산출한다.
기록의 편리함을 위해, 인덱스들이 떨어지며 Yn,k 및 Yn,k-1은 각각 y 및 z로 대체된다:
Figure 112016111307510-pat00032
.
변수들(y, z)은 이제 각각 지수(ey, ez) 및 정규화된 가수(my, mz)로 분리될 수 있으며, 그에 의해,
Figure 112016111307510-pat00033
를 산출한다.
모두-제로 가수의 특수한 경우가 별도로 처리된다고 가정한다면, 정규화된 가수들(my, mz)은 간격([0,5;1]) 내에 있다. 이러한 간격에서의 log2(x) 함수는 0.0861의 최대 에러 및 0.0573의 평균 에러를 갖고 선형 함수(
Figure 112016111307510-pat00034
)에 의해 근사될 수 있다. 근사 및/또는 계산 복잡도의 원하는 정밀도에 의존하여, 다른 근사들(예로서, 다항식 근사)이 가능하다는 것이 주의되어야 한다. 상기 언급된 근사를 사용하는 것은
Figure 112016111307510-pat00035
를 산출한다.
가수 근사들의 차이는 0.0861의 최대 절대 에러를 갖지만, 평균 에러는 0이고, 따라서 최대 에러의 범위는 [0;0.086](양으로 바이어싱된)에서 [-0.0861;0.0861]로 변화한다.
4에 의한 나눗셈의 결과를 정수 부분 및 나머지로 분리하는 것은
Figure 112016111307510-pat00036
을 산출하고,
여기에서 int{...} 연산은 절단에 의한 그것의 피연산자의 정수 부분을 리턴하고, mod{a,b} 연산은
Figure 112016111307510-pat00037
의 나머지를 리턴한다. 가중 인자(w)의 상기 근사에서, 제 1 표현(
Figure 112016111307510-pat00038
)은 고정된 포인트 아키텍처 상에서
Figure 112016111307510-pat00039
만큼 우측을 향해 간단한 시프트 연산으로 변환한다. 제 2 표현(
Figure 112016111307510-pat00040
)은 2의 거듭제곱들을 포함한 미리 결정된 룩업 테이블을 사용함으로써 계산될 수 있다. 룩업 테이블은 미리-결정된 근사 에러를 제공하기 위해, 미리 결정된 수의 엔트리들을 포함할 수 있다.
적절한 룩업 테이블을 설계하기 위해, 그것은 가수의 근사 에러를 호출하는데 유용하다. 룩업 테이블의 양자화에 의해 도입된 에러는 4로 나누어진, 0.0573인 가수들의 평균 절대 근사 에러보다 상당히 더 작을 필요는 없다. 이것은 0.0143보다 작은 원하는 양자화 에러를 산출한다. 64-엔트리 룩업 테이블을 사용한 선형 양자화는 1/128=0.0078의 적절한 양자화 에러를 야기한다. 이와 같이, 미리 결정된 룩업 테이블은 64개 엔트리들의 총 수를 포함할 수 있다. 일반적으로, 미리 결정된 룩업 테이블에서의 엔트리들의 수는 대수 함수의 선택된 근사와 동조되어야 한다. 특히, 룩업 테이블에 의해 제공된 양자화의 정밀도는 대수 함수의 근사의 정밀도에 따라야 한다.
상기 근사 방법의 지각적 평가는 인코딩된 오디오 신호의 전체 품질이 빈 조성 값들의 추정 에러가 양으로 바이어싱될 때, 즉 근사가 가중 인자를 과소평가하는 것보다 가중 인자(및 결과적인 조성 값들)를 과대평가할 가능성이 더 높을 때 개선된다는 것을 표시한다.
이러한 과대평가를 달성하기 위해, 바이어스가 룩업 테이블에 부가될 수 있으며, 예로서 절반의 바이어스 양자화 단계가 부가될 수 있다. 절반의 바이어스 양자화 단계는 인덱스를 반올림하는 대신에 양자화 룩업 테이블로 인덱스를 버림으로써 구현될 수 있다. 바빌로니안/헤론 방법에 의해 획득된 근사를 매칭시키기 위해, 가중 인자를 0.5에 제한하는 것이 유리할 수 있다.
로그 도메인 근사 함수로부터 기인한 가중 인자(w)의 근사(503)가, 그것의 평균 및 최대 에러의 한계들과 함께, 도 5a에 도시된다. 도 5a는 또한 바빌로니안 근사를 사용하여 결정된 네제곱근 및 가중 인자(502)를 사용하여 정확한 가중 인자(501)를 도시한다. 로그 도메인 근사의 지각적 품질은 MUSHRA 테스팅 기법을 사용하여 청취 테스트에서 검증되었다. 대수 근사(왼쪽 바들(511))를 사용한 지각된 품질은 바빌로니안 근사(중간 바들(512)) 및 네제곱근(오른쪽 바들(513))을 사용하여 지각된 품질에 평균적으로 유사하다는 것이 도 5b에 보여질 수 있다. 다른 한편으로, 대수 근사를 사용함으로써, 전체 조성 계산의 계산 복잡도는 약 28%만큼 감소될 수 있다.
본 문서에서, SPX 기반 오디오 인코더의 계산 복잡도를 감소시키기 위한 다양한 기법들이 설명되었다. 조성 계산들은 SPX 기반 인코더의 계산 복잡도에 대한 주요 기여자로서 식별되었다. 설명된 방법들은 이미 산출된 조성 값들의 재사용을 허용하고, 그에 의해 전체 계산 복잡도를 감소시킨다. 이미 산출된 조성 값들의 재사용은 통상적으로 SPX 기반 오디오 인코더의 출력에 영향을 미치지 않은 채로 있다. 더욱이, 계산 복잡도의 추가 감소를 허용하는 잡음 혼합 인자(b)를 결정하기 위한 대안적인 방식들이 설명되었다. 또한, 빈-당 조성 가중 인자를 위한 효율적인 근사 기법이 설명되었으며, 이것은 지각된 오디오 품질을 손상시키지 않고 조성 계산 자체의 복잡도를 감소시키기 위해 사용될 수 있다. 본 문서에 설명된 기법들의 결과로서, 50% 이상의 범위에서의 SPX 기반 오디오 인코더의 계산 복잡도의 전체 감소가 구성 및 비트 레이트에 의존하여 예상될 수 있다.
본 문서에 설명된 방법들 및 시스템들이 소프트웨어, 펌웨어 및/또는 하드웨어로서 구현될 수 있다. 특정한 구성요소들이, 예로서 디지털 신호 프로세서 또는 마이크로프로세서 상에서 구동하는 소프트웨어로서 구현될 수 있다. 다른 구성요소들이 예로서, 하드웨어로서 및/또는 애플리케이션 특정 집적 회로로서 구현될 수 있다. 설명된 방법들 및 시스템들에서 마주하게 되는 신호들은 랜덤 액세스 메모리 도는 광 저장 미디어와 같은 미디어 상에서 저장될 수 있다. 그것들은, 라디오 네트워크들, 위성 네트워크들, 무선 네트워크들 또는 와이어라인 네트워크들, 예를 들면, 인터넷과 같은, 네트워크들을 통해 전달될 수 있다. 본 문서에 설명된 방법들 및 시스템들을 이용하는 통상적인 디바이스들은 오디오 신호들을 저장 및/또는 렌더링하기 위해 사용되는 휴대용 전자 디바이스들 또는 다른 소비자 장비이다.
당업자는 현재 오디오 코딩 요건들에 구체적으로 적응된 추가 실시예들에 도달하기 위해 상기 개괄된 다양한 개념들을 쉽게 적용할 수 있을 것이다.
100: 주파수 스펙트럼 101: 기저대역
102: 고 주파수 대역 103: 기저대역 컷오프 주파수
130: 스펙트럼 201: SPX 개시 대역
202: SPX 시작 대역 203: SPX 종료 대역
205, 206: 서브대역 210, 220: 스펙트럼
231, 233: 대역 조성 값
311, 312, 321, 322, 323: 대역 조성 값 341: 빈 조성 값
501, 502: 가중 인자

Claims (7)

  1. 오디오 디코더의 오디오 디코딩 방법에 있어서,
    인코딩된 오디오 신호를 오디오 인코더로부터 수신하는 단계로서, 상기 오디오 신호는 제 1 주파수 서브대역(205)에 대한 제 1 대역 조성 값(311, 312) 및 저 주파수 성분을 포함하는, 인코딩된 오디오 신호를 수신하는 단계와;
    상기 수신한 오디오 신호를 디코딩하는 단계와;
    상기 제 1 대역 조성 값을 이용하여 상기 디코딩된 저 주파수 성분에 기초하여 상기 오디오 신호의 고 주파수 성분을 재구성하는 단계를 포함하고,
    상기 오디오 인코더는:
    상기 오디오 신호의 샘플들의 블록에 기초하여 대응하는 주파수 빈들의 세트에서 변환 계수들의 세트를 결정하고;
    각각, 상기 변환 계수들의 세트를 사용하여 상기 주파수 빈들의 세트에 대한 빈 조성 값들(341)의 세트를 결정하고;
    상기 제 1 주파수 서브대역 내에 있는 상기 주파수 빈들의 세트의 둘 이상의 대응하는 인접 주파수 빈들에 대한 상기 빈 조성 값들(341)의 세트 중 둘 이상의 제 1 서브세트를 조합하고, 그에 의해 상기 제 1 주파수 서브대역(205)에 대한 상기 제 1 대역 조성 값(311, 312)을 산출하도록 구성되고,
    상기 오디오 인코더는 또한 상기 오디오 신호의 블록들의 대응하는 시퀀스에 기초하여 변환 계수들의 세트들의 시퀀스를 결정하도록 구성되고,
    특정한 주파수 빈에 대해, 상기 변환 계수들의 세트들의 시퀀스는 특정한 변환 계수들의 시퀀스를 포함하고;
    상기 특정한 주파수 빈에 대한 상기 빈 조성 값(341)을 결정하는 것은:
    상기 특정한 변환 계수들의 시퀀스에 기초하여 위상들의 시퀀스를 결정하는 것; 및
    상기 위상들의 시퀀스에 기초하여 위상 가속도를 결정하는 것을 포함하고;
    상기 특정한 주파수 빈에 대한 상기 빈 조성 값(341)은 상기 위상 가속도의 함수인, 오디오 디코딩 방법.
  2. 제 1 항에 있어서, 상기 오디오 인코더는:
    제 2 주파수 서브대역 내에 있는 상기 주파수 빈들의 세트의 둘 이상의 대응하는 인접 주파수 빈들에 대한 상기 빈 조성 값들(341)의 세트 중 둘 이상의 제 2 서브세트를 조합함으로써 상기 제 2 주파수 서브대역에서의 제 2 대역 조성 값(321, 322)을 결정하고, 상기 제 1 및 제 2 주파수 서브대역들은 적어도 하나의 공통 주파수 빈을 포함하고 상기 제 1 및 제 2 서브세트들은 상기 대응하는 적어도 하나의 공통 빈 조성 값(341)을 포함하는, 오디오 디코딩 방법.
  3. 제 1 항에 있어서,
    상기 오디오 신호의 저 주파수 성분에 기초하여 상기 오디오 신호의 고 주파수 성분을 재구성하는 것은 상기 저 주파수 성분에 대응하는 저 주파수 대역(101)으로부터 상기 고 주파수 성분에 대응하는 고 주파수 대역(102)으로 하나 이상의 주파수 빈들의 하나 이상의 저 주파수 변환 계수들을 복사하는 것을 포함하고;
    상기 제 1 주파수 서브대역은 상기 저 주파수 대역(101) 내에 있고;
    제 2 주파수 서브대역은 상기 고 주파수 대역(102) 내에 있고;
    상기 오디오 인코더는 상기 제 2 주파수 서브대역으로 복사되는 상기 주파수 빈들의 둘 이상의 대응하는 주파수 빈들에 대한 상기 빈 조성 값들(341)의 세트 중 둘 이상의 제 2 서브세트를 조합함으로써 상기 제 2 주파수 서브대역에서의 제 2 대역 조성 값(233)을 결정하고;
    상기 제 2 주파수 서브대역은 상기 제 1 주파수 서브대역 내에 있는 주파수 빈으로부터 복사되는 적어도 하나의 주파수 빈을 포함하고;
    상기 제 1 및 제 2 서브세트들은 상기 대응하는 적어도 하나의 공통 빈 조성 값(341)을 포함하는, 오디오 디코딩 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 빈 조성 값들(341)의 세트 중 둘 이상의 상기 제 1 서브세트를 조합하는 것은,
    상기 둘 이상의 빈 조성 값들(341)을 평균하는 것; 또는
    상기 둘 이상의 빈 조성 값들(341)을 합산하는 것을 포함하는, 오디오 디코딩 방법.
  5. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    주파수 빈에 대한 빈 조성 값(341)은 단지 동일한 주파수 빈의 상기 변환 계수들에 기초하여 결정되는, 오디오 디코딩 방법.
  6. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 제 1 대역 조성 값(311, 312)은 SPX로 불리우는, 스펙트럼 확장 기법을 사용하여 상기 오디오 신호의 저 주파수 성분에 기초하여 상기 오디오 신호의 고 주파수 성분을 근사시키기 위해 사용되고;
    상기 제 1 대역 조성 값(311, 312)은, SPX 좌표 재전송 전략, 잡음 혼합 인자 및/또는 미리 정해진 기준에 비추어 에러로 판정되는 스펙트럼 성분들을 감쇠시키기 위한 대규모 변이 감쇠(LVA: Large Variance Attenuation)를 결정하는 데에 사용되는, 오디오 디코딩 방법.
  7. 오디오 디코더에 있어서,
    제 1 항 내지 제 3 항 중 어느 한 항의 방법을 수행하는, 오디오 디코더.
KR1020167031826A 2012-02-23 2013-02-22 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들 KR101816506B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP12156631.9 2012-02-23
EP12156631 2012-02-23
US201261680805P 2012-08-08 2012-08-08
US61/680,805 2012-08-08
PCT/EP2013/053609 WO2013124445A2 (en) 2012-02-23 2013-02-22 Methods and systems for efficient recovery of high frequency audio content

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020147023193A Division KR101679209B1 (ko) 2012-02-23 2013-02-22 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들

Publications (2)

Publication Number Publication Date
KR20160134871A KR20160134871A (ko) 2016-11-23
KR101816506B1 true KR101816506B1 (ko) 2018-01-09

Family

ID=49006324

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020147023193A KR101679209B1 (ko) 2012-02-23 2013-02-22 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
KR1020167031826A KR101816506B1 (ko) 2012-02-23 2013-02-22 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020147023193A KR101679209B1 (ko) 2012-02-23 2013-02-22 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들

Country Status (9)

Country Link
US (2) US9666200B2 (ko)
EP (3) EP3288033B1 (ko)
JP (2) JP6046169B2 (ko)
KR (2) KR101679209B1 (ko)
CN (2) CN107993673B (ko)
BR (2) BR122021018240B1 (ko)
ES (1) ES2568640T3 (ko)
RU (1) RU2601188C2 (ko)
WO (1) WO2013124445A2 (ko)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR122021018240B1 (pt) * 2012-02-23 2022-08-30 Dolby International Ab Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado
KR20150056770A (ko) * 2012-09-13 2015-05-27 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
WO2014115225A1 (ja) * 2013-01-22 2014-07-31 パナソニック株式会社 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
EP3742440B1 (en) 2013-04-05 2024-07-31 Dolby International AB Audio decoder for interleaved waveform coding
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
JP2016038435A (ja) 2014-08-06 2016-03-22 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
WO2017125559A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling
US10681679B1 (en) * 2017-06-21 2020-06-09 Nxp Usa, Inc. Resource unit detection in high-efficiency wireless system
US10187721B1 (en) * 2017-06-22 2019-01-22 Amazon Technologies, Inc. Weighing fixed and adaptive beamformers
EP3435376B1 (en) 2017-07-28 2020-01-22 Fujitsu Limited Audio encoding apparatus and audio encoding method
CN107545900B (zh) * 2017-08-16 2020-12-01 广州广晟数码技术有限公司 带宽扩展编码和解码中高频弦信号生成的方法和装置
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
CN109036457B (zh) * 2018-09-10 2021-10-08 广州酷狗计算机科技有限公司 恢复音频信号的方法和装置
CN110267082B (zh) * 2019-06-03 2020-05-05 李少锋 按语言最小单元自动切换音视频的播放控制方法及系统
CN116134834A (zh) * 2020-12-31 2023-05-16 深圳市韶音科技有限公司 生成音频的方法和系统

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR920008063B1 (ko) * 1988-11-22 1992-09-22 마쯔시다덴기산교 가부시기가이샤 텔레비젼신호수신장치
US5699477A (en) * 1994-11-09 1997-12-16 Texas Instruments Incorporated Mixed excitation linear prediction with fractional pitch
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US5913189A (en) * 1997-02-12 1999-06-15 Hughes Electronics Corporation Voice compression system having robust in-band tone signaling and related method
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP3654117B2 (ja) * 2000-03-13 2005-06-02 ヤマハ株式会社 時間軸方向における楽音波形信号の伸縮方法
EP1423847B1 (en) * 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US6978001B1 (en) 2001-12-31 2005-12-20 Cisco Technology, Inc. Method and system for controlling audio content during multiparty communication sessions
DE60326782D1 (de) * 2002-04-22 2009-04-30 Koninkl Philips Electronics Nv Dekodiervorrichtung mit Dekorreliereinheit
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
KR100463417B1 (ko) 2002-10-10 2004-12-23 한국전자통신연구원 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
US20060100861A1 (en) 2002-10-14 2006-05-11 Koninkijkle Phillips Electronics N.V Signal filtering
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
JP4252417B2 (ja) * 2003-10-02 2009-04-08 住友重機械工業株式会社 成形機の監視装置及び監視方法
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
US7218240B2 (en) * 2004-08-10 2007-05-15 The Boeing Company Synthetically generated sound cues
US7545875B2 (en) 2004-11-03 2009-06-09 Nokia Corporation System and method for space-time-frequency coding in a multi-antenna transmission system
US7675873B2 (en) 2004-12-14 2010-03-09 Alcatel Lucent Enhanced IP-voice conferencing
US8082156B2 (en) * 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
CN101180676B (zh) * 2005-04-01 2011-12-14 高通股份有限公司 用于谱包络表示的向量量化的方法和设备
US7630882B2 (en) 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
JP4736812B2 (ja) * 2006-01-13 2011-07-27 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
KR101240261B1 (ko) 2006-02-07 2013-03-07 엘지전자 주식회사 이동통신 단말기의 영상 통화 장치 및 방법
CN101149918B (zh) * 2006-09-22 2012-03-28 鸿富锦精密工业(深圳)有限公司 具练唱功能的声音处理装置
JP2008096567A (ja) 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
DE602008001787D1 (de) * 2007-02-12 2010-08-26 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
JP4871894B2 (ja) 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
US8121535B2 (en) 2007-03-02 2012-02-21 Qualcomm Incorporated Configuration of a repeater
WO2009039897A1 (en) 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
US8509454B2 (en) 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
KR100970446B1 (ko) * 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
US8223851B2 (en) 2007-11-23 2012-07-17 Samsung Electronics Co., Ltd. Method and an apparatus for embedding data in a media stream
CN101471072B (zh) * 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US20110254913A1 (en) 2008-12-24 2011-10-20 Panasonic Corporation Conferencing apparatus and communication setting method
UA99878C2 (ru) * 2009-01-16 2012-10-10 Долби Интернешнл Аб Гармоническое преобразование, усовершенствованное перекрестным произведением
CN101527141B (zh) * 2009-03-10 2011-06-22 苏州大学 基于径向基神经网络的耳语音转换为正常语音的方法
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
US8223943B2 (en) 2009-04-14 2012-07-17 Citrix Systems Inc. Systems and methods for computer and voice conference audio transmission during conference call via PSTN phone
US8351589B2 (en) 2009-06-16 2013-01-08 Microsoft Corporation Spatial audio for audio conferencing
US8427521B2 (en) 2009-10-21 2013-04-23 At&T Intellectual Property I, L.P. Method and apparatus for providing a collaborative workspace
WO2011059432A1 (en) * 2009-11-12 2011-05-19 Paul Reed Smith Guitars Limited Partnership Precision measurement of waveforms
US8774787B2 (en) 2009-12-01 2014-07-08 At&T Intellectual Property I, L.P. Methods and systems for providing location-sensitive conference calling
SI2510515T1 (sl) 2009-12-07 2014-06-30 Dolby Laboratories Licensing Corporation Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije
US20110182415A1 (en) 2010-01-28 2011-07-28 Jacobstein Mark Williams Methods and apparatus for providing call conferencing services
MX2012001696A (es) * 2010-06-09 2012-02-22 Panasonic Corp Metodo de extension de ancho de banda, aparato de extension de ancho de banda, programa, circuito integrado, y aparato de descodificacion de audio.
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
BR122021018240B1 (pt) * 2012-02-23 2022-08-30 Dolby International Ab Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado

Also Published As

Publication number Publication date
EP3288033B1 (en) 2019-04-10
EP3288033A1 (en) 2018-02-28
US20150003632A1 (en) 2015-01-01
EP3029672B1 (en) 2017-09-13
EP2817803A2 (en) 2014-12-31
JP2016173597A (ja) 2016-09-29
CN107993673B (zh) 2022-09-27
JP6334602B2 (ja) 2018-05-30
JP6046169B2 (ja) 2016-12-14
BR122021018240B1 (pt) 2022-08-30
WO2013124445A2 (en) 2013-08-29
EP2817803B1 (en) 2016-02-03
RU2601188C2 (ru) 2016-10-27
BR112014020562A2 (ko) 2017-06-20
WO2013124445A3 (en) 2013-11-21
CN107993673A (zh) 2018-05-04
ES2568640T3 (es) 2016-05-03
CN104541327B (zh) 2018-01-12
US20170221491A1 (en) 2017-08-03
RU2014134317A (ru) 2016-04-20
JP2015508186A (ja) 2015-03-16
EP3029672A2 (en) 2016-06-08
EP3029672A3 (en) 2016-06-29
KR20160134871A (ko) 2016-11-23
KR101679209B1 (ko) 2016-12-06
CN104541327A (zh) 2015-04-22
KR20140116520A (ko) 2014-10-02
US9984695B2 (en) 2018-05-29
BR112014020562B1 (pt) 2022-06-14
US9666200B2 (en) 2017-05-30

Similar Documents

Publication Publication Date Title
KR101816506B1 (ko) 고 주파수 오디오 콘텐트의 효율적인 복구를 위한 방법들 및 시스템들
KR101681253B1 (ko) 시간적 잡음/패치 형상화를 사용하여 인코딩 및 인코딩된 오디오 신호를 디코딩하기 위한 장치와 방법
AU2018250490B2 (en) Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
US9343074B2 (en) Apparatus and method for audio encoding and decoding employing sinusoidal substitution
US8433583B2 (en) Audio decoding
US9842594B2 (en) Frequency band table design for high frequency reconstruction algorithms

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant