KR20150114979A - 오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현 - Google Patents

오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현 Download PDF

Info

Publication number
KR20150114979A
KR20150114979A KR1020157023559A KR20157023559A KR20150114979A KR 20150114979 A KR20150114979 A KR 20150114979A KR 1020157023559 A KR1020157023559 A KR 1020157023559A KR 20157023559 A KR20157023559 A KR 20157023559A KR 20150114979 A KR20150114979 A KR 20150114979A
Authority
KR
South Korea
Prior art keywords
bandwidth extension
audio
information
portions
audio information
Prior art date
Application number
KR1020157023559A
Other languages
English (en)
Other versions
KR101771828B1 (ko
Inventor
사샤 디슈
크리스티앙 헴리치
요하네스 힐페르트
줄리앙 로빌리아드
콘스탄틴 슈미츠
슈테판 와일드
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20150114979A publication Critical patent/KR20150114979A/ko
Application granted granted Critical
Publication of KR101771828B1 publication Critical patent/KR101771828B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 오디오 인코더는 입력 오디오 정보의 저주파 부분의 인코딩된 표현을 얻기 위해 저주파 부분을 인코딩하도록 구성된 저주파 인코더, 및 입력 오디오 정보를 기초로 대역폭 확장 정보를 제공하도록 구성된 대역폭 확장 정보 제공기를 포함한다. 오디오 인코더는 대역폭 확장 정보를 인코딩된 오디오 정보에 신호 적응적 방식으로 선택적으로 포함시키도록 구성된다. 오디오 디코더는 저주파 부분의 디코딩된 표현을 얻기 위해 저주파 부분의 인코딩된 표현을 디코딩하도록 구성된 저주파 디코더, 및 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않은 오디오 콘텐츠의 부분들에 대한 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호를 얻고, 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 부분들에 대한 파라미터 유도 대역폭 확장을 사용하여 대역폭 확장 신호를 얻도록 구성된 대역폭 확장을 포함한다.

Description

오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현{Audio Encoder, Audio Decoder, Method for Providing an Encoded Audio Information, Method for Providing a Decoded Audio Information, Computer Program and Encoded Representation Using a Signal-Adaptive Bandwidth Extension}
본 발명에 따른 실시예들은 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 오디오 인코더에 관한 것이다.
본 발명에 따른 추가 실시예들은 인코딩된 오디오 정보를 기초로 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더에 관한 것이다.
본 발명에 따른 추가 실시예들은 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 방법에 관한 것이다.
본 발명에 따른 추가 실시예들은 인코딩된 오디오 정보를 기초로 디코딩된 오디오 정보를 제공하기 위한 방법에 관한 것이다.
본 발명에 따른 추가 실시예들은 상기 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램에 관한 것이다.
본 발명에 따른 추가 실시예들은 오디오 정보를 나타내는 인코딩된 오디오 표현에 관한 것이다.
본 발명에 따른 일부 실시예들은 매우 낮은 비트레이트에 대한 신호 적응적 부가 정보 레이트에 의한 일반 오디오 대역폭 확장에 관한 것이다.
최근 몇 년간, 오디오 콘텐츠의 인코딩 및 디코딩에 대한 증가하는 요구가 성장해왔다. 이용 가능한 비트레이트들과 송신을 위한 저장 용량들 및 인코딩된 오디오 콘텐츠의 저장은 상당히 증가했지만, 적정한 품질의 오디오 콘텐츠의, 특히 통신 시나리오들에서의 음성 신호들의 비트레이트 효율적인 인코딩, 송신, 저장 및 디코딩에 대한 요구가 여전히 존재한다.
현대의 음성 코딩 시스템들은 광대역(WB: wideband) 디지털 오디오 콘텐츠, 즉 최대 7-8㎑의 주파수들을 가진 신호들을 6kbps의 낮은 비트레이트들로 인코딩할 수 있다. 가장 널리 논의되는 예들은 ITU-T 권고 G.722.2(예를 들어, 참조 [1] 참고)뿐만 아니라, 더 최근에 개발된 G.718(예를 들어, 참조들 [4] 및 [10] 참고) 그리고 MPEG 통합 음성 및 오디오 코덱 xHE-AAC(예를 들어, 참조 [8] 참고)이다. AMR-WB로도 또한 알려진 G.722.2와 G.718 모두 6.4 내지 7㎑의 대역폭 확장(BWE: bandwidth extension) 기술들을 이용하여, 기반이 되는 ACELP 코어 코더가 인지적으로 더 관련된 더 낮은 주파수들(특히, 인간 청각 시스템이 위상에 민감한 주파수들)에 "집중"하게 함으로써, 특히 매우 낮은 비트레이트들에서 충분한 품질을 달성하게 한다. xHE-AAC에서는, 강화된 스펙트럼 대역 복제(eSBR: enhanced spectral band replication)가 대역폭 확장(BWE)에 사용된다. 대역폭 확장 프로세스는 일반적으로 두 가지 개념적 접근 방식들로 나뉠 수 있다:
Figure pct00001
고주파(HF: high-frequency) 성분들이 디코딩된 저주파(LF: low-frequency) 코어 코더 신호만으로부터, 즉 인코더로부터 송신된 부가 정보를 필요로 하지 않고 재구성되는 "블라인드" 또는 "인위적" BWE. 이 방식은 16kbps 및 그 이하의 AMR-WB 및 G.718뿐만 아니라, 종래의 협대역 전화 음성(예를 들어, 참조들 [5] 및 [9] 참고)에 대해 작동하는 일부 하위 호환성 있는 대역폭 확장 후처리 시스템들에 의해서도 사용된다.
Figure pct00002
고주파(HF) 콘텐츠 재구성에 사용되는 파라미터들 중 일부가 디코딩된 코어 신호로부터 추정되는 대신, 부가 정보로서 디코더에 송신된다는 점에서 블라인드 대역폭 확장과는 다른 "유도(guided)" BWE. AMR-WB, G.718, xHE-AAC뿐만 아니라, 다른 어떤 코덱들(예를 들어, 참조들 [2], [7] 및 [11] 참고)도 매우 낮은 비트레이트들에서는 아니지만 이 접근 방식을 이용한다.
그러나 오디오 콘텐츠의 재구성에서 충분히 양호한 품질을 제공하는 적절한 대역폭 확장을 낮은 비트레이트들로 제공하는 것은 어렵다고 확인되었다.
따라서 비트레이트와 오디오 품질 간의 개선된 균형점을 가져오는 대역폭 확장 개념이 필요하다.
본 발명에 따른 실시예는 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 오디오 인코더를 안출한다. 오디오 인코더는 입력 오디오 정보의 저주파 부분의 인코딩된 표현을 얻기 위해 저주파 부분을 인코딩하도록 구성된 저주파 인코더를 포함한다. 오디오 인코더는 또한 입력 오디오 정보를 기초로 대역폭 확장 정보를 제공하도록 구성된 대역폭 확장 정보 제공기를 포함한다. 오디오 인코더는 대역폭 확장 정보를 인코딩된 오디오 정보에 신호 적응적 방식으로 선택적으로 포함시키도록 구성된다.
본 발명에 따른 이러한 실시예는, 어떤 타입들의 오디오 콘텐츠에 대해서는, 그리고 심지어 오디오 콘텐츠의 인접한 부분의 어떤 부분들에 대해서는, 어떠한 대역폭 확장 부가 정보도 없이, 또는 단지 소량의 대역폭 확장 부가 정보(예를 들어, 인코딩된 오디오 정보에 포함되는 소수의 대역폭 확장 파라미터들)만으로, 저주파 부분의 인코딩된 표현에 기초하여 양호한 품질 대역폭 확장이 달성될 수 있다는 결과를 기반으로 한다. 그러나 개념은 또한, 다른 타입들의 오디오 콘텐츠에 대해서는, 그리고 심지어 오디오 콘텐츠의 인접한 부분의 다른 부분들에 대해서는, 대역폭 확장 부가 정보(예를 들어, 전용 대역폭 확장 파라미터들) 또는 (예를 들어, 이전에 언급한 경우와 비교할 때) 증가된 양의 대역폭 확장 부가 정보를 인코딩된 오디오 정보에 포함하는 것이 필요할(또는 적어도 매우 바람직할) 수도 있는데, 그렇지 않으면 디코더 측 대역폭 확장이 만족스러운 오디오 품질을 제공하지 않기 때문이라는 결과를 기반으로 한다.
인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시킴으로써(예를 들어, 인코딩된 오디오 정보에 포함되는 대역폭 확장 정보 또는 대역폭 확장 파라미터들의 양을 선택적으로 변화시킴으로써, 또는 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것과 상기 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것의 생략 간에 선택적으로 전환함으로써), 디코더 측 대역폭 확장이 실제로 대역폭 확장 정보를 필요로 하지 않는 경우에 "불필요한" 대역폭 확장 정보가 귀중한 비트레이트를 소비하는 것이 방지될 수 있고, 디코더 측 대역폭 확장을 위해, 즉 오디오 콘텐츠의 디코더 측 재구성을 위해 실제로 대역폭 확장 정보가 요구된다면, 그럼에도 대역폭 확장 정보(또는 증가된 양의 대역폭 확장 정보)가 인코딩된 오디오 정보에 포함되는 것이 보장될 수 있다.
따라서 인코딩된 오디오 정보에 대역폭 확장 정보를 신호 적응적 방식으로, 즉 디코딩된 오디오 신호 표현의 충분히 양호한 품질에 이르기 위해 실제로 대역폭 확장 정보가 요구되는 경우에 선택적으로 포함시킴으로써, 양호한 오디오 품질을 얻을 가능성을 여전히 유지하면서 평균 비트레이트가 감소될 수 있다.
즉, 오디오 인코더는 예를 들어, 오디오 디코더 측에서 파라미터 유도 대역폭 확장을 허용하는 대역폭 확장 정보의 제공과, 오디오 디코더 측에서 블라인드 대역폭 확장의 사용을 필요로 하는 대역폭 확장 정보의 제공 생략 간에 전환할 수 있다.
이에 따라, 위에서 설명한 개념을 사용하여 비트레이트와 오디오 품질 간의 특히 양호한 균형점이 얻어질 수 있다.
선호되는 실시예에서, 오디오 인코더는 저주파 부분의 인코딩된 표현을 기초로 그리고 블라인드 대역폭 확장을 사용하여, (예를 들어, 미리 결정된 품질 측정치에 관해) 충분한 또는 원하는 품질로 디코딩될 수 없는 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기를 포함한다. 이 경우, 오디오 인코더는 검출기에 의해 식별된 입력 오디오 정보의 부분들에 대해 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성된다. (예를 들어, 입력 오디오 정보의 특징들을 기초로, 또는 오디오 인코더 측에서의 오디오 정보의 부분적인 또는 완전한 재구성을 기초로) 저주파 부분의 인코딩된 표현을 기초로 입력 오디오 정보의 어떤 부분들이 충분한(또는 원하는) 품질로 디코딩될 수 없는지를 결정 또는 추정하고, 블라인드 대역폭 확장을 사용함으로써, 입력 오디오 정보의 부분들(예를 들어, 프레임들)에 대해(또는 대등하게는, 인코딩된 오디오 정보의 프레임들 또는 부분들에 대해), 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시킬지 여부를 결정하기 위한 의미있는 기준이 얻어진다. 즉, 검출기에 의해 평가되는 앞서 언급한 기준은 인코딩된 오디오 정보를 디코딩함으로써 달성될 수 있는 청취감과 인코딩된 오디오 정보의 비트레이트 간의 양호한 균형점을 가능하게 한다.
선호되는 실시예에서, 오디오 인코더는 대역폭 확장 파라미터들이 저주파 부분을 기초로 충분한 또는 원하는 정확도로 추정될 수 없는 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기를 포함한다. 이 경우, 오디오 인코더는 검출기에 의해 식별된 입력 오디오 정보의 부분들에 대해 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성된다. 본 발명에 따른 이러한 실시예는 저주파 부분을 기초로 대역폭 확장 파라미터들이 충분한 또는 원하는 정확도로 추정될 수 있는지 여부에 관한 결정이 보통의 계산 노력으로 평가될 수 있는, 그리고 그럼에도 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시킬지 여부를 결정하기 위한 양호한 기준을 구성하는 기준을 구성한다는 결론을 기반으로 한다.
선호되는 실시예에서, 오디오 인코더는 입력 오디오 정보의 부분들을, 그 부분들이 일시적으로 고정된 부분들인지 여부에 따라 그리고 그 부분들이 저역 통과 특성을 갖는지 여부에 따라 식별하도록 구성된 검출기를 포함한다. 더욱이, 오디오 인코더는 일시적으로 고정된 부분들이 저역 통과 특성을 갖는 것에 따라, 검출기에 의해 식별된 입력 오디오 정보의 부분들에 대해 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것을 선택적으로 생략하도록 구성된다.
본 발명에 따른 이러한 실시예는, (비트스트림으로부터의 대역폭 확장 정보 또는 파라미터들에 의존하지 않는) 블라인드 대역폭 확장이 일반적으로 이러한 신호 부분들의 충분히 양호한 재구성을 가능하게 하기 때문에, 일시적으로 고정적이고 저역 통과 특성을 포함하는 입력 오디오 정보 부분들에 대해서는 일반적으로 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시킬 필요가 없다는 결론을 기반으로 한다. 이에 따라, 계산상 효율적인 방식으로 평가될 수 있는, 그리고 그럼에도 (비트레이트와 오디오 품질 간의 균형점 면에서) 양호한 결과들을 가능하게 하는 기준이 존재한다.
선호되는 실시예에서, 검출기는 입력 오디오 정보의 부분들을, 그 부분들이 유성음을 포함하는지 여부에 따라, 그리고/또는 그 부분들이 환경(예를 들어, 자동차) 소음을 포함하는지 여부에 따라, 그리고/또는 그 부분들이 타악기 편성이 없는 음악을 포함하는지 여부에 따라 식별하도록 구성된다. 유성음을 포함하는, 또는 환경 소음을 포함하는, 또는 타악기 편성이 없는 음악을 포함하는 그러한 부분들은 일반적으로 블라인드 대역폭 확장을 사용하여 충분한 오디오 품질로 재구성될 수 있어, 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것을 생략하는 것이 권고될 수 있다고 확인되었다.
선호되는 실시예에서, 오디오 인코더는 저주파 부분의 스펙트럼 포락선과 고주파 부분의 스펙트럼 포락선의 차가 미리 결정된 차 측정치보다 크거나 같은지 여부에 따라 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기를 포함한다. 이 경우, 오디오 인코더는 검출기에 의해 식별된 입력 오디오 정보의 부분들에 대해 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성된다.
블라인드 대역폭 확장은 흔히, 각각의 저주파 부분과 비교할 때 고주파 부분에서(즉, 대역폭 확장 신호에서) 비슷한 스펙트럼 포락선들을 제공하기 때문에, 저주파 부분의 스펙트럼 포락선과 고주파 부분의 스펙트럼 포락선 간의 큰 차이를 포함하는 입력 오디오 정보의 부분들은 일반적으로 블라인드 대역폭 확장을 사용하여 잘 재구성될 수 없다고 확인되었다. 이에 따라, 저주파 부분의 스펙트럼 포락선과 고주파 부분의 스펙트럼 포락선의 차의 평가가 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시킬지 여부를 결정하기 위한 양호한 기준을 구성한다고 확인되었다.
선호되는 실시예에서, 검출기는 입력 오디오 정보의 부분들을, 그 부분들이 무성음을 포함하는지 여부에 따라, 그리고/또는 그 부분들이 타악음들을 포함하는지 여부에 따라 식별하도록 구성된다. 무성음을 포함하는 부분들 및 타악음들을 포함하는 부분들은 일반적으로 저주파 부분의 스펙트럼 포락선이 고주파 부분의 스펙트럼 포락선과 상당히 다른 스펙트럼들을 포함한다고 확인되었다. 이에 따라, 무성음의 그리고/또는 타악음들의 검출이 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시킬지 여부를 결정하기 위한 양호한 기준인 것으로 확인되었다.
선호되는 실시예에서, 오디오 인코더는 입력 오디오 정보의 부분들의 스펙트럼 기울기를 결정하고, 결정된 스펙트럼 기울기가 고정 또는 가변 기울기 임계값보다 크거나 같은지 여부에 따라 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기를 포함한다. 이 경우, 오디오 인코더는 검출기에 의해 식별된 입력 오디오 정보의 부분들에 대해 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성된다. 스펙트럼 기울기가 보통의 계산 노력으로 도출될 수 있으며 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시킬지 여부의 결정에 대한 양호한 기준을 여전히 제공한다고 확인되었다. 예를 들어, 스펙트럼 기울기가 기울기 임계값에 도달하거나 초과한다면, 스펙트럼이 고역 통과 특성을 갖고 블라인드 대역폭 확장에 의해 잘 재구성될 수 없다는 결론을 내릴 수 있다. 특히, 블라인드 대역폭 확장은 일반적으로 양의 기울기를 포함하는 스펙트럼들(여기서는 고주파 부분이 저주파 부분에 비해 강조됨)을 양호한 정확도로 재구성할 수 없다. 더욱이, 양의 스펙트럼 기울기의 경우에는 고주파 부분이 특정한 인지적 관련성이 있기 때문에, 이러한 경우들에 대역폭 확장 정보를 인코딩된 오디오 표현에 포함시키는 것이 권고될 수 있다.
선호되는 실시예에서, 검출기는 입력 오디오 정보의 부분들의 제로 크로싱 레이트를 결정하고, 결정된 제로 크로싱 레이트가 고정 또는 가변 제로 크로싱 레이트 임계값보다 크거나 같은지 여부에 따라 또한 입력 오디오 정보의 부분들을 식별하도록 추가로 구성된다. 제로 크로싱 레이트는 또한, 블라인드 대역폭 확장을 사용하여 잘 재구성될 수 없어, (비트레이트와 오디오 품질 사이의 양호한 균형점을 달성한다는 점에서) 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것이 타당한 입력 오디오 정보의 부분들을 검출하기 위한 양호한 기준이라고 확인되었다.
선호되는 실시예에서, 검출기는 입력 오디오 정보의 신호 부분들을 식별하기 위한 히스테리시스를 적용하여, (인코딩된 오디오 표현에 대역폭 확장 정보가 포함되는) 식별된 신호 부분들과 (인코딩된 오디오 표현에 대역폭 확장 정보가 포함되지 않는) 식별되지 않은 신호 부분들 간의 전이들의 수를 감소시키도록 구성된다. 이러한 전이들은 전이들의 수가 매우 높은 경우에 특히, 어떤 아티팩트들을 가져올 수 있기 때문에, 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것과 인코딩된 오디오 표현에 대역폭 확장 정보를 포함시키는 것의 생략 간의 과도한 전환을 피하는 것이 유리하다고 확인되었다. 이에 따라, 예를 들어 (다음에 가변 기울기 임계값이 되는) 기울기 임계값에 또는 (다음에 가변 제로 크로싱 레이트 임계값이 되는) 제로 크로싱 레이트 임계값에 적용될 수 있는 히스테리시스를 사용하여, 이러한 과제가 달성될 수 있다.
선호되는 실시예에서, 오디오 인코더는 대역폭 확장 정보로서, 적응적 방식으로 인코딩된 오디오 정보 신호에 입력 오디오 정보의 고주파 부분의 스펙트럼 포락선을 나타내는 파라미터들을 선택적으로 포함시키도록 구성된다. 이 실시예는 고주파 부분의 스펙트럼 포락선을 나타내는 파라미터들이 파라미터 유도 대역폭 확장에 특히 중요하여, 입력 오디오 정보의 고주파 부분의 스펙트럼 포락선을 나타내는 상기 파라미터들을 포함시키는 것은 높은 비트레이트를 야기하지 않고 양호한 품질 대역폭 확장을 달성하게 한다는 아이디어를 기반으로 한다.
선호되는 실시예에서, 저주파 인코더는 6㎑ 내지 7㎑의 범위 내에 있는 최대 주파수까지 주파수들을 포함하는 입력 오디오 정보의 저주파 부분을 인코딩하도록 구성된다. 더욱이, 오디오 인코더는 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들 또는 하위 부분들(예를 들어, 대략 6 내지 7㎑의 주파수들을 갖는 신호 부분들)의 세기들을 설명하는 3개 내지 5개의 파라미터들을 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성된다. 이러한 개념은 비트레이트 노력을 실질적으로 양보하지는 않고 양호한 오디오 품질을 야기한다고 확인되었다.
선호되는 실시예에서, 오디오 인코더는 4개의 고주파 신호 부분들(또는 하위 부분들)의 세기들을 설명하는 3 - 5개의 스칼라 양자화된 파라미터들을 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성되며, 고주파 신호 부분들(또는 하위 부분들)은 저주파 부분 위의 주파수 범위들을 커버한다. 4개의 고주파 신호 부분들의 세기들을 설명하는 3 - 5개의 스칼라 양자화된 파라미터들의 사용은 일반적으로, 동일한 신호 부분에 대해 블라인드 대역폭 확장에 의해 얻어질 수 있는 비교적 낮은 오디오 품질을 초과하는 파라미터 유도 대역폭 확장을 달성하기에 충분하다고 확인되었다. 이에 따라, 재구성된 오디오 신호 부분들이 블라인드 대역폭 확장을 사용하여 재구성되는지 아니면 유도 대역폭 확장을 사용하여 재구성되는지와 관계없이, 재구성된 오디오 신호 부분들 사이에는 큰 품질 차들이 없다. 따라서 앞서 언급한 개념이 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환을 가능하게 하는 개념에 잘 적응된다.
선호되는 실시예에서, 오디오 인코더는 스펙트럼이 인접한 주파수 부분들의 에너지들 간의 관계를 설명하는 복수의 파라미터들을 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성되며, 여기서 파라미터들 중 하나의 파라미터는 제 1 대역폭 확장 고주파 부분과 저주파 부분의 에너지 간의 비를 설명하고, 파라미터들 중 다른 파라미터는 다른 대역폭 확장 고주파 부분들(의 쌍들)의 에너지들 간의 비들을 설명한다. 서로 다른(바람직하게는 인접한) 주파수 부분들의 에너지들(또는 대등하게는, 세기들) 간의 비들(또는 차들)을 설명하는 이러한 개념은 대역폭 확장 정보의 효율적인 인코딩을 가능하게 하는 것으로 확인되었다. 스펙트럼이 인접한 주파수 부분들의 에너지들 간의 관계를 설명하는 그러한 파라미터들은 일반적으로 대역폭 확장에 의해 달성될 수 있는 오디오 품질을 실질적으로 양보하지는 않고 단지 소수의 비트들만으로 양자화될 수 있다고 또한 확인되었다.
본 발명에 따른 다른 실시예는 인코딩된 오디오 정보를 기초로 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더를 안출한다. 오디오 디코더는 (오디오 콘텐츠의) 저주파 부분의 디코딩된 표현을 얻기 위해 저주파 부분의 인코딩된 표현을 디코딩하도록 구성된 저주파 디코더를 포함한다. 오디오 디코더는 또한 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않은 오디오 콘텐츠의 부분들에 대해서는 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호를 얻고, 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 부분들에 대해서는 파라미터 유도 대역폭 확장을 사용하여 상기 대역폭 확장 신호를 얻도록 구성된 대역폭 확장을 포함한다.
오디오 콘텐츠의 많은 일반적인 부분들은 블라인드 대역폭 확장을 사용하여 양호한 오디오 품질이 얻어질 수 있는 섹션들과 충분한 오디오 품질을 달성하기 위해 파라미터 유도 대역폭 확장이 요구되는 섹션들 모두를 포함한다고 확인되었기 때문에, 이러한 오디오 인코더는 오디오 콘텐츠의 인접한 부분 내에서라도 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환이 가능하다면 오디오 품질과 비트레이트 간의 양호한 균형점이 달성될 수 있다는 아이디어를 기반으로 한다. 더욱이, 오디오 인코더에 관해 상술한 동일한 고려사항들이 오디오 디코더에도 또한 적용됨이 명백해야 한다.
선호되는 실시예에서, 오디오 디코더는 대역폭 확장 신호를 블라인드 대역폭 확장을 사용하여 얻을지 아니면 파라미터 유도 대역폭 확장을 사용하여 얻을지를 프레임 단위로 결정하도록 구성된다. 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 이러한 미세립(프레임 단위의) 전환은 오디오 콘텐츠의 과도한 열화를 피하기 위해 파라미터 유도 대역폭 확장이 요구되는 일부 프레임들이 규칙적으로 존재한다 하더라도, 비트레이트를 적정하게 낮게 유지하는데 도움이 된다고 확인되었다.
선호되는 실시예에서, 오디오 디코더는 오디오 콘텐츠의 인접한 부분 내에서 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장의 사용 간에 전환하도록 구성된다. 이 실시예는, 오디오 콘텐츠의 심지어 단일(연속한) 부분이 서로 다른 종류들의 통로들(또는 부분들, 또는 프레임들)을 포함하는데, 이들 중 일부는 파라미터 유도 대역폭 확장을 사용하여 인코딩(그리고 그에 따라 디코딩)되어야 하는 한편, 다른 통로들 또는 프레임들은 오디오 품질의 상당한 열화 없이 블라인드 대역폭 확장을 사용하여 디코딩될 수 있다는 결론을 기반으로 한다.
선호되는 실시예에서, 오디오 디코더는 오디오 콘텐츠의 서로 다른 부분들(예를 들어, 프레임들)에 대해, 인코딩된 오디오 정보에 포함된 플래그들을 평가하여, (플래그가 연관되는 프레임에 대해) 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성된다. 이에 따라, 블라인드 대역폭 확장이 사용되어야 하는지 아니면 파라미터 유도 대역폭 확장이 사용되어야 하는지의 결정이 간단히 유지되고, 오디오 디코더는 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하기 위한 상당한 지능을 가질 필요가 없다.
그러나 선호되는 다른 실시예에서, 오디오 디코더는 대역폭 확장 모드 시그널링 플래그를 평가하지 않고 저주파 부분의 인코딩된 표현을 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성된다. 따라서 오디오 디코더에 지능을 제공함으로써, 대역폭 확장 모드 시그널링 플래그가 생략될 수 있으며, 이는 비트레이트를 감소시킨다.
선호되는 실시예에서, 오디오 디코더는 (오디오 콘텐츠의) 저주파 부분의 디코딩된 표현의 하나 또는 그보다 많은 특징들을 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성된다. 저주파 부분의 디코딩된 표현의 특징들은 양호한 정확도로, 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하는데 사용될 수 있는 양들을 구성한다고 확인되었다. 이는 오디오 인코더 측에서 동일한 특징들이 사용되는 경우에 특히 그러하다. 이에 따라, 더 이상 대역폭 확장 모드 시그널링 플래그를 평가할 필요가 없으며, 이는 오디오 인코더 측에서 인코딩된 오디오 표현에 대역폭 확장 모드 시그널링 플래그를 포함시킬 필요가 없기 때문에, 결국 비트레이트의 감소를 가능하게 한다.
선호되는 실시예에서, 오디오 디코더는 양자화된 선형 예측 계수들 및/또는 (오디오 콘텐츠의) 저주파 부분의 디코딩된 표현의 시간 도메인 통계치를 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성된다. 양자화된 선형 예측 계수들이 오디오 디코더 측에서 쉽게 얻어질 수 있으며, 스펙트럼 기울기를 도출하게 함으로써, 그에 따라 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지의 양호한 표시의 역할을 할 수 있다고 확인되었다. 더욱이, 양자화된 선형 예측 계수들이 또한 오디오 인코더 측에서 쉽게 액세스 가능하여, 오디오 인코더 측에서 그리고 오디오 디코더 측에서 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환을 조정하는 것이 쉽게 가능하다. 마찬가지로, 제로 크로싱 레이트와 같은 저주파 부분의 디코딩된 표현의 시간 도메인 통계치가 오디오 디코더 측에서 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하기 위한 신뢰성 있는 양이 된다고 확인되었다.
선호되는 실시예에서, 대역폭 확장은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않는 입력 오디오 정보(또는 콘텐츠)의 시간 부분들에 대해 저주파 부분의 디코딩된 표현의 하나 또는 그보다 많은 특징들을 사용하여 그리고/또는 저주파 디코더의 하나 또는 그보다 많은 파라미터들을 사용하여 대역폭 확장 신호를 얻도록 구성된다. 이러한 블라인드 대역폭 확장은 양호한 오디오 품질을 야기한다고 확인되었다.
선호되는 실시예에서, 대역폭 확장은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않는 입력 오디오 정보(또는 콘텐츠)의 시간 부분들에 대해 스펙트럼 중심 정보를 사용하여 그리고/또는 에너지 정보를 사용하여 그리고/또는 (스펙트럼) 기울기 정보를 사용하여 그리고/또는 코딩된 필터 계수들을 사용하여 대역폭 확장 신호를 얻도록 구성된다. 이러한 양들의 사용은 양호한 품질 대역폭 확장을 얻기 위한 효율적인 방법을 양산한다고 확인되었다.
선호되는 실시예에서, 대역폭 확장은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 시간 부분들에 대해 고주파 부분의 스펙트럼 포락선을 설명하는 비트스트림 파라미터들을 사용하여 대역폭 확장 신호를 얻도록 구성된다. 고주파 부분의 스펙트럼 포락선을 설명하는 비트스트림 파라미터들의 사용은 양호한 품질로 비트레이트 효율적인 파라미터 유도 대역폭 확장을 가능하게 하며, 여기서 스펙트럼 포락선을 설명하는 비트스트림 파라미터들은 일반적으로 높은 비트레이트를 필요로 하지 않지만, 오디오 프레임마다 비교적 적은 수의 비트들만으로 인코딩될 수 있다고 확인되었다. 그에 따라, 파라미터 유도 대역폭 확장 쪽으로의 전환이더라도 비트레이트의 상당한 증가를 야기하지는 않는다.
선호되는 실시예에서, 대역폭 확장은 대역폭 확장 신호를 얻기 위해, 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 비트스트림 파라미터들을 평가하도록 구성된다. 비교적 적은 수의 비트스트림 파라미터들이 인지적으로 중요한 범위에 대한 대역폭 확장을 얻기에 충분하여, 비트레이트의 작은 증가로 양호한 오디오 품질이 얻어질 수 있다고 확인되었다.
선호되는 실시예에서, 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 비트스트림 파라미터들은 오디오 프레임마다 6 내지 15 비트의 대역폭 확장 스펙트럼 성형 파라미터들이 존재하도록 2 또는 3 비트 분해능으로 스칼라 양자화된다. 이러한 선택은 파라미터 유도 대역폭 확장의 매우 높은 비트레이트 효율을 가능하게 하는 한편, 대역폭 확장 품질은 일반적으로, 블라인드 대역폭 확장이 양호한 결과들을 제공하는 오디오 콘텐츠의 "중요하지 않은" 부분들에 대해 블라인드 대역폭 확장을 사용하여 얻어질 수 있는 대역폭 확장 품질과 비교할만하다고 확인되었다. 이에 따라, 블라인드 대역폭 확장이 적용되는 경우와 파라미터 유도 대역폭 확장이 적용되는 경우 모두에 균형이 이루어진 품질이 존재한다.
선호되는 실시예에서, 대역폭 확장은 블라인드 대역폭 확장에서 파라미터 유도 대역폭 확장으로의 전환시 그리고/또는 파라미터 유도 대역폭 확장에서 블라인드 대역폭 확장으로의 전환시 대역폭 확장 신호의 에너지들의 평활화를 수행하도록 구성된다. 이에 따라, 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장의 서로 다른 특성들에 의해 야기될 수도 있는 클릭들 또는 "차단 아티팩트들"이 방지될 수 있다.
선호되는 실시예에서, 대역폭 확장은 블라인드 대역폭 확장이 적용되는 오디오 콘텐츠의 부분을 뒤따르는, 파라미터 유도 대역폭 확장이 적용되는 오디오 콘텐츠의 부분에 대해 대역폭 확장 신호의 고주파 부분을 약화시키도록 구성된다. 더욱이, 대역폭 확장은 파라미터 유도 대역폭 확장이 적용되는 오디오 콘텐츠의 부분을 뒤따르는, 블라인드 대역폭 확장이 적용되는 오디오 콘텐츠의 부분에 대해, 대역폭 확장 신호의 고주파 부분에 대한 약화를 감소시키도록 구성된다. 이에 따라, 블라인드 대역폭 확장은 일반적으로 저역 통과 특성을 보여주는 한편, 이것이 반드시 파라미터 유도 대역폭 확장에 대한 경우는 아니라는 효과가 어느 정도까지 보상될 수 있다. 이에 따라, 디코딩된 블라인드 대역폭 확장을 사용하여 그리고 파라미터 유도 대역폭 확장을 사용하여 디코딩된 오디오 콘텐츠의 부분들 사이의 전이들에서의 아티팩트들이 감소된다.
본 발명에 따른 다른 실시예는 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 방법을 안출한다. 이 방법은 입력 오디오 정보의 저주파 부분의 인코딩된 표현을 얻기 위해 저주파 부분을 인코딩하는 단계를 포함한다. 이 방법은 또한 입력 오디오 정보를 기초로 대역폭 확장 정보를 제공하는 단계를 포함한다. 인코딩된 오디오 정보에 대역폭 확장 정보가 신호 적응적 방식으로 선택적으로 포함된다. 이 방법은 앞서 설명한 오디오 인코더와 동일한 고려사항들을 기반으로 한다.
본 발명에 따른 다른 실시예는 인코딩된 오디오 정보를 기초로 디코딩된 오디오 정보를 제공하기 위한 방법을 안출한다. 이 방법은 저주파 부분의 디코딩된 표현을 얻기 위해 저주파 부분의 인코딩된 표현을 디코딩하는 단계를 포함한다. 이 방법은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않은 오디오 콘텐츠의 부분들에 대해 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호를 얻는 단계를 더 포함한다. 이 방법은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 부분들에 대해 파라미터 유도 대역폭 확장을 사용하여 대역폭 확장 신호를 얻는 단계를 더 포함한다. 이 방법은 앞서 설명한 오디오 디코더와 동일한 고려사항들을 기반으로 한다.
본 발명에 따른 다른 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 앞서 언급한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 안출한다.
본 발명에 따른 다른 실시예는 오디오 정보를 나타내는 인코딩된 오디오 표현을 안출한다. 인코딩된 오디오 표현은 오디오 정보의 저주파 부분의 인코딩된 표현 및 대역폭 확장 정보를 포함한다. 오디오 정보의 모든 부분들에 대해서가 아닌 일부 부분들에 대해 신호 적응적 방식으로 대역폭 확장 정보가 인코딩된 오디오 표현에 포함된다. 이러한 인코딩된 오디오 정보는 앞서 설명한 오디오 인코더에 의해 제공되고, 앞서 설명한 오디오 디코더에 의해 평가될 수 있다.
첨부된 도면들을 참조로 다음에 본 발명에 따른 실시예들이 설명될 것이다.
도 1은 본 발명의 실시예에 따른 오디오 인코더의 개략적인 블록도를 보여준다.
도 2는 본 발명의 다른 실시예에 따른 오디오 인코더의 개략적인 블록도를 보여준다.
도 3은 주파수 부분들 및 그와 연관된 인코딩된 오디오 정보의 그래픽 표현을 보여준다.
도 4는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도를 보여준다.
도 5는 본 발명의 다른 실시예에 따른 오디오 디코더의 개략적인 블록도를 보여준다.
도 6은 본 발명의 실시예에 따른 인코딩된 오디오 표현을 제공하기 위한 방법의 흐름도를 보여준다.
도 7은 본 발명의 실시예에 따른 디코딩된 오디오 표현을 제공하기 위한 방법의 흐름도를 보여준다.
도 8은 본 발명의 실시예에 따른 인코딩된 오디오 표현의 개략도를 보여준다.
1. 도 1에 따른 오디오 인코더
도 1은 본 발명의 실시예에 따른 오디오 인코더의 개략적인 블록도를 보여준다.
도 1에 따른 오디오 인코더(100)는 입력 오디오 정보(110)를 수신하며 이를 기초로, 인코딩된 오디오 정보(112)를 제공한다. 오디오 인코더(100)는 입력 오디오 정보(110)의 저주파 부분의 인코딩된 표현(122)을 얻기 위해 저주파 부분을 인코딩하도록 구성된 저주파 인코더(120)를 포함한다. 오디오 인코더(100)는 또한 입력 오디오 정보(110)를 기초로 대역폭 확장 정보(132)를 제공하도록 구성된 대역폭 확장 정보 제공기(130)를 포함한다. 오디오 인코더(100)는 인코딩된 오디오 정보(112)에 신호 적응적 방식으로 대역폭 확장 정보(132)를 선택적으로 포함시키도록 구성된다.
오디오 인코더(100)의 기능에 관해서는, 오디오 인코더(100)가 입력 오디오 정보(110)의 비트레이트 효율적인 인코딩을 제공한다고 할 수 있다. 예를 들어, 대략 6 또는 7㎑까지의 주파수 범위 내의 저주파 부분이 저주파 인코더(120)를 사용하여 인코딩되는데, 여기서는 공지된 오디오 인코딩 개념들 중 임의의 개념이 사용될 수 있다. 예를 들어, 저주파 인코더(120)는 (예를 들어, AAC 오디오 인코더와 같은) "일반적인 오디오" 인코더 또는 (예를 들어, 선형 예측 기반 오디오 인코더, CELP 오디오 인코더, ACELP 오디오 인코더, 등과 같은) 음성 타입 오디오 인코더일 수 있다. 이에 따라, 입력 오디오 정보의 저주파 부분은 종래의 개념들 중 임의의 개념을 사용하여 인코딩된다. 그러나 대략 6 내지 7㎑까지의 주파수 성분들만이 인코딩되기 때문에, 저주파 부분의 인코딩된 표현(122)의 비트레이트는 적정하게 작게 유지된다. 더욱이, 오디오 인코더(100)는 예를 들어, 대역폭 확장 정보를 예를 들어, 저주파 인코더(120)에 의해 인코딩된 주파수 영역보다 더 높은 주파수들을 포함하는 주파수 영역과 같은 입력 오디오 정보(110)의 고주파 부분을 설명하는 대역폭 확장 파라미터들의 형태로 제공할 수 있다. 따라서 대역폭 확장 정보 제공기(130)는 도 1에 도시되지 않은 오디오 디코더 측에서 수행되는 대역폭 확장을 제어할 수 있는 인코딩된 오디오 정보(112)의 부가 정보를 제공할 수 있다. 대역폭 확장 정보(또는 대역폭 확장 부가 정보)는 예를 들어, 입력 오디오 정보의 고주파 부분의 스펙트럼 형상(또는 스펙트럼 포락선), 즉 저주파 인코더(120)에 의해 커버되지 않는 입력 오디오 정보의 주파수 범위를 나타낼 수 있다.
그러나 오디오 인코더(100)는 인코딩된 오디오 정보(112)에 대역폭 확장 정보가 포함되어야 하는지 여부를 신호 적응적 방식으로 결정하도록 구성된다. 이에 따라, 오디오 인코더(100)는 오디오 디코더 측에서 오디오 정보의 재구성을 위해 대역폭 확장 정보가 요구된다면(또는 적어도 바람직하다면), 단지 대역폭 확장 정보를 인코딩된 오디오 정보(112)에 포함시킬 수 있다. 이와 관련하여, 오디오 인코더는 또한 입력 오디오 정보의 부분에 대해(또는 대등하게는, 인코딩된 오디오 정보의 부분에 대해) 대역폭 확장 정보 제공기(130)에 의해 대역폭 확장 정보(132)가 제공되는지 여부를 제어할 수도 있는데, 이는 대역폭 확장 정보가 인코딩된 오디오 정보에 포함되지 않을 것이라면 입력 오디오 정보의(또는 인코딩된 오디오 정보의) 부분에 대해 대역폭 확장 정보를 제공할 필요가 당연히 없기 때문이다. 이에 따라, 오디오 인코더(100)에 의해 수행되는 어떤 분석 프로세스 및/또는 결정 프로세스를 기초로, 오디오 디코더 측에서 오디오 콘텐츠의 대응하는 부분을 재구성할 때 특정 오디오 품질을 얻기 위해 대역폭 확장 정보가 요구되지 않는다고 확인된다면, 오디오 인코더(100)는 인코딩된 오디오 정보(112)에 대역폭 확장 정보(132)를 포함시키는 것을 피함으로써 인코딩된 오디오 정보(112)의 비트레이트를 가능한 한 작게 유지할 수 있다.
따라서 오디오 인코더(100)는 (오디오 품질을 얻기 위해) 오디오 디코더 측에서 요구되는 경우에만 대역폭 확장 정보를 인코딩된 오디오 정보에 포함시키는데, 이는 한편으로는 인코딩된 오디오 정보(112)의 비트레이트를 감소시키는데 도움이 되고, 다른 한편으로는 인코딩된 오디오 정보를 오디오 디코더 측에서 디코딩할 때 열악한 오디오 품질을 피하기 위해 이것이 요구된다면 인코딩된 오디오 정보(112)에 확실히 적절한 대역폭 확장 정보(132)가 포함되게 한다. 따라서 종래의 솔루션들과 비교할 때 오디오 인코더(100)에 의해 비트레이트와 오디오 품질 간의 개선된 균형점이 달성된다.
예를 들어, 오디오 디코더는 인코딩된 오디오 정보(112)에 대역폭 확장 정보가 포함되어야 하는지 여부(또는 심지어 대역폭 확장 정보가 결정되어야 하는지 여부)를 오디오 프레임마다 결정할 수 있다. 그러나 대안으로, 오디오 디코더는 인코딩된 오디오 정보(112)에 대역폭 확장 정보가 포함되어야 하는지 여부를 "입력"마다(예를 들어, 오디오 파일마다 또는 오디오 스트림마다) 결정할 수도 있다. 이를 위해, 신호 적응적 방식으로 결정이 이루어지도록 (예를 들어, 인코딩 전에) 입력이 분석될 수 있다.
2. 도 2에 따른 오디오 인코더
도 2는 본 발명의 실시예에 따른 오디오 인코더의 개략적인 블록도를 보여준다. 오디오 인코더(200)는 입력 오디오 정보(210)를 수신하며 이를 기초로, 인코딩된 오디오 정보(212)를 제공한다. 오디오 인코더(200)는 앞서 설명한 저주파 인코더(120)와 실질적으로 동일할 수 있는 저주파 인코더(220)를 포함한다. 저주파 인코더(220)는 입력 오디오 정보의(또는 대등하게는, 입력 오디오 정보(210)로 표현되는 오디오 콘텐츠의) 저주파 부분의 인코딩된 표현(222)을 제공한다. 오디오 인코더(200)는 또한, 앞서 설명한 대역폭 확장 정보 제공기(130)와 실질적으로 동일할 수 있는 대역폭 확장 정보 제공기(230)를 포함한다. 대역폭 확장 정보 제공기(230)는 일반적으로 입력 오디오 정보(210)를 수신한다. 그러나 대역폭 확장 정보 제공기(230)는 또한 저주파 인코더(220)로부터 제어 정보(또는 중간 정보)를 수신할 수도 있으며, 여기서 상기 제어 정보(또는 중간 정보)는 예를 들어, 입력 오디오 정보(210)의 저주파 부분의 스펙트럼(또는 스펙트럼 형상 또는 스펙트럼 포락선)에 관한 정보를 포함할 수 있다. 그러나 제어 정보(또는 중간 정보)는 또한 인코딩 파라미터들(예를 들어, LPC 필터 계수들, 또는 MDCT 계수들이나 QMF 계수들과 같은 변환 도메인 값들) 등을 포함할 수도 있다. 더욱이, 대역폭 확장 정보 제공기(230)는 저주파 부분의 인코딩된 표현(222), 또는 이것의 적어도 일부를 선택적으로 수신할 수 있다. 더욱이, 오디오 인코더(200)는 입력 오디오 정보(210)의 주어진 부분에 대해(또는 인코딩된 오디오 정보(212)의 주어진 부분에 대해) 대역폭 확장 정보가 인코딩된 오디오 정보(212)에 포함되는지 여부를 결정하도록 구성된 검출기(240)를 포함한다. 선택적으로, 검출기(240)는 또한, 입력 오디오 정보(210)의(또는 인코딩된 오디오 정보(212)의) 상기 주어진 부분에 대해 대역폭 확장 정보 제공기(230)에 의해 상기 대역폭 확장 정보가 결정되는지 여부를 결정할 수도 있다. 따라서 검출기(240)는 입력 오디오 정보(210), 및/또는 (예를 들어, 앞서 설명한 바와 같은) 저주파 인코더(220)로부터의 제어 정보 또는 중간 정보(224) 및/또는 저주파 부분의 인코딩된 표현(222)을 수신할 수 있다. 더욱이, 검출기(240)는 인코딩된 오디오 정보(212)에 대한 대역폭 확장 정보의 선택적인 포함 및/또는 대역폭 확장 정보의 선택적인 제공을 제어하는 제어 신호(242)를 제공하도록 구성된다.
오디오 인코더(200)의 기능에 관해서는, 오디오 인코더(100)에 대해 이루어진 상기 설명들이 참조된다.
더욱이, 검출기(240)는 대역폭 확장 정보가 인코딩된 오디오 정보(212)에 포함되는지 여부를 결정하고, 이에 따라 인코딩된 오디오 정보(212)를 수신하는 오디오 디코더가 입력 오디오 정보(210)에 의해 설명되는 오디오 콘텐츠를 재구성하는지 여부를 블라인드 대역폭 확장을 사용하여 재구성할지 아니면 파라미터 유도 대역폭 확장(여기서 대역폭 확장 정보는 파라미터 유도 대역폭 확장을 유도하는 파라미터들을 나타냄)을 사용하여 재구성할지를 결정하기 때문에, 검출기(240)가 중심적인 역할을 포함한다는 점이 주목되어야 한다.
일반적으로 말하자면, 검출기는 블라인드 대역폭 확장을 사용하여 저주파 부분의 인코딩된 표현(222)을 기초로 충분한 또는 원하는 품질로 디코딩될 수 없는 입력 오디오 정보의 부분들을 식별한다. 즉, 검출기(240)는 저주파 부분의 인코딩된 표현(222)만으로는 충분한 품질로 블라인드 대역폭 확장을 가능하게 하지 않는 경우를 인지해야 한다. 달리 말하면, 검출기(240)는 바람직하게는, 받아들일 수 있는(또는 원하는) 오디오 품질에 도달하도록 충분한(또는 원하는) 정확도로는 저주파 부분을 기초로 대역폭 확장 파라미터들이 추정될 수 없는 입력 오디오 정보의 부분들을 식별한다. 그에 따라, 검출기(240)는 제어 신호(242)를 사용하여, 저주파 부분의 인코딩된 표현(222)을 기초로 블라인드 대역폭 확장을 사용하여(즉, 인코더로부터 어떠한 대역폭 확장 정보도 수신하지 않고) 충분한 또는 원하는 품질로 디코딩될 수 없는 입력 오디오 정보의 부분들에 대해서는 대역폭 확장 정보가 인코딩된 오디오 정보에 포함되어야 한다고 결정할 수 있다. 대등하게, 검출기는 제어 신호(242)를 사용하여, 저주파 부분(또는 대등하게는, 저주파 부분의 인코딩된 표현(222))을 기초로 충분한 또는 원하는 정확도로 대역폭 확장 파라미터들이 추정될 수 없는 입력 오디오 정보의 부분들에 대해서는 대역폭 확장 정보가 인코딩된 오디오 정보에 포함되어야 한다고 결정할 수 있다.
대역폭 확장 정보가 인코딩된 오디오 정보에 포함되어야 하는 그러한 부분들을 식별하기 위해(또는 대등하게는, 인코딩된 오디오 정보(212)에 대역폭 확장 정보를 포함시킬 필요가 없는 입력 오디오 정보 부분들을 식별하기 위해), 검출기(240)는 서로 다른 전략들을 사용할 수 있다. 앞서 언급한 바와 같이, 검출기(240)는 서로 다른 타입들의 입력 정보를 수신할 수 있다. 어떤 경우들에는, 대역폭 확장 정보가 인코딩된 오디오 정보(212)에 포함되어야 하는지 여부에 관한 검출기의 결정은 입력 오디오 정보(210)에만 기초할 수도 있다. 즉, 검출기(240)는 예를 들어, 입력 오디오 정보(210)를 분석하여, (인코딩된 오디오 정보(212)의 부분들에 대응하는) 입력 오디오 정보의 어떤 부분들에 대해, 받아들일 수 있는(또는 원하는) 오디오 품질에 도달하기 위해 대역폭 확장 정보(232)를 인코딩된 오디오 정보(212)에 포함시킬 필요가 있는지를 알아내도록 구성될 수 있다. 그러나 검출기(240)의 결정은 대안으로, 저주파 인코더(200)에 의해 제공되는 어떤 제어 정보 또는 중간 정보(224)를 기초로 할 수도 있다. 대안으로 또는 추가로, 검출기(240)의 결정은 입력 오디오 정보(210)의 저주파 부분의 인코딩된 표현(222)을 기초로 할 수도 있다. 따라서 검출기는 오디오 디코더 측에서의 블라인드 대역폭 확장이 충분한 오디오 품질을 야기할 것인지(또는 충분한 오디오 품질을 야기할 가능성이 있거나, 또는 충분한 오디오 품질을 야기할 것으로 예상되는지) 여부를 결정(또는 추정)하기 위해 서로 다른 양들을 평가할 수 있다.
예를 들어, 검출기는 입력 오디오 정보(210)의 부분들이 일시적으로 고정적인 부분들인지 여부 그리고 입력 오디오 정보(210)의 부분들이 저역 통과 특성을 갖는지 여부를 결정할 수 있다. 예를 들어, 검출기(240)는 일시적으로 고정적인 부분들로 확인되며 저역 통과 특성을 갖는 부분들에 대해서는 인코딩된 오디오 정보(212)에 대역폭 확장 정보를 포함시킬 필요가 있다는 결론을 낼 수 있는데, 이는 입력 오디오 정보(210)의 이러한 부분들이 블라인드 대역폭 확장을 사용해서도 오디오 디코더 측에서 일반적으로 충분히 양호한 오디오 품질로 재생될 수 있다고 인식되었기 때문이다. 이는 블라인드 대역폭 확장이 일반적으로, 오디오 콘텐츠의 강력한 변화들을 포함하지 않는(또는 오디오 콘텐츠의 어떠한 과도상태들 또는 다른 강력한 변동들도 포함하지 않는) 입력 오디오 정보(또는 콘텐츠)의 부분들에 대해 잘 작동하며, 따라서 일시적으로 고정적인 것으로 여겨질 수 있다는 사실에 기인한다. 더욱이, 저역 통과 특성을 포함하는 오디오 콘텐츠 부분들에 대해, 즉 저주파 부분의 세기가 고주파 부분의 세기보다 더 높은 오디오 콘텐츠 부분에 대해 블라인드 대역폭 확장이 잘 작동한다고 확인되었는데, 이것이 대부분의 블라인드 대역폭 확장 개념들의 기본적인 가정이기 때문이다. 이에 따라, 검출기(240)는 제어 신호(242)를 사용하여, 저역 통과 특성을 갖는 이러한 일시적으로 고정된 부분들에 대해, 인코딩된 오디오 정보(212)에 대역폭 확장 정보를 포함시키는 것을 선택적으로 생략하도록 시그널링할 수 있다.
예를 들어, 검출기(240)는 유성음을 포함하는 입력 오디오 정보의 부분들 및/또는 환경 소음을 포함하는 입력 오디오 정보의 부분들 및/또는 타악기 편성이 없는 음악을 포함하는 입력 오디오 정보의 부분들을 식별하도록 구성될 수 있다. 입력 오디오 정보의 이러한 부분들은 일반적으로 일시적으로 고정적이고 저역 통과 특성을 포함하여, 검출기(240)는 일반적으로 그러한 부분들에 대해서는 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것을 생략하도록 시그널링한다.
대안으로 또는 추가로, 검출기(240)는 입력 오디오 정보의 고주파 부분에서의 스펙트럼 형상이 저주파 부분의 스펙트럼 포락선을 기초로 적정한 정확도로(예를 들어, 블라인드 대역폭 확장에 의해 적용되는 개념들을 사용하여) 예측될 수 있는지 여부를 분석할 수 있다. 이에 따라, 검출기는 예를 들어, (예를 들어, 중간 정보(224)에 의해 또는 저주파 부분의 인코딩된 표현(222)에 의해 설명될 수 있는) 저주파 부분의 스펙트럼 포락선과 (예를 들어, 입력 오디오 정보(210)를 기초로 검출기(240)에 의해 결정될 수 있는) 고주파 부분의 스펙트럼 포락선 간의 차가 미리 결정된 차 측정치보다 크거나 같은지 여부를 결정하도록 구성될 수 있다. 예를 들어, 검출기(240)는 세기 차이에 관해, 또는 형상 차이에 관해, 또는 주파수에 대한 변동들에 관해, 또는 스펙트럼 포락선들의 임의의 다른 특성 특징들에 관해 차를 결정할 수 있다. 이에 따라, 검출기(240)는 저주파 부분의 스펙트럼 포락선과 고주파 부분의 스펙트럼 포락선의 차가 미리 결정된 차 측정치보다 크거나 같다는 확인에 응답하여 대역폭 확장 정보(232)를 입력 오디오 정보에 포함시키도록 결정(그리고 시그널링)할 수 있다. 즉, 검출기(240)는 저주파 부분의 스펙트럼 포락선을 기초로 고주파 부분의 스펙트럼 포락선이 얼마나 양호하게 예측될 수 있는지를 결정할 수 있고, (예를 들어, 고주파 부분의 예측된 스펙트럼 포락선이 고주파 부분의 실제 스펙트럼 포락선과 너무 많이 차이가 나는 경우인) 양호한 결과들로 예측이 불가능한 경우, 오디오 디코더 측에서 대역폭 확장 정보(232)가 요구될 것이라는 결론이 내려질 수 있다. 그러나 고주파 부분의 예측된 스펙트럼 포락선을 고주파 부분의 실제 스펙트럼 포락선과 비교하기보다는, 검출기(240)는 대안으로, 저주파 부분의 스펙트럼 포락선을 고주파 부분의 스펙트럼 포락선과 비교할 수도 있다. 이는 블라인드 대역폭 추정의 적용시 고주파 부분의 스펙트럼 포락선이 일반적으로 저주파 부분의 스펙트럼 포락선과 비슷하다고 가정된다면 이해가 된다.
대안으로 또는 추가로, 검출기(240)는 무성음을 포함하는 부분들 및/또는 타악음들을 포함하는 부분들을 식별할 수 있다. 이러한 경우들에 고주파 부분의 스펙트럼 포락선은 일반적으로 저주파 부분의 스펙트럼 포락선과 크게 다르기 때문에, 검출기는 무성음을 포함하는 또는 타악음들을 포함하는 입력 오디오 정보의(또는 인코딩된 오디오 정보의) 그러한 부분들에 대해 신호 대역폭 확장 정보를 인코딩된 오디오 표현에 포함시킬 수 있다.
그러나 대안으로 또는 추가로, 검출기(240)는 입력 오디오 정보(210)의 부분들의 스펙트럼 기울기를 분석할 수 있다. 또한, 검출기(240)는 입력 오디오 정보의 부분들의 스펙트럼 기울기에 관한 정보를 사용하여, 대역폭 확장 정보(232)가 인코딩된 오디오 정보(212)에 포함되어야 하는지 여부를 결정할 수도 있다. 이러한 개념은 블라인드 대역폭 확장이 고주파 범위와 비교시 저주파 범위에 더 많은 에너지(또는 일반적으로 세기)가 존재하는 오디오 콘텐츠 부분들에 대해 잘 작동한다는 아이디어를 기반으로 한다. 이에 반해, (고주파 범위로도 또한 표기된) 고주파 부분이 "우세하다"면, 즉 상당한 양의 에너지를 포함한다면, 블라인드 대역폭 확장이 일반적으로 오디오 콘텐츠를 잘 재생할 수 없어, 대역폭 확장 정보가 인코딩된 오디오 정보에 포함되어야 한다. 이에 따라, 일부 실시예들에서 검출기는 (주파수에 걸친 에너지들, 또는 일반적으로는 세기들의 분포를 설명하는) 스펙트럼 기울기가 고정 또는 가변 기울기 임계값보다 크거나 같은지 여부를 결정한다. 스펙트럼 기울기가 고정 또는 가변 기울기 임계값보다 크거나 같다면(이는 적어도, 주파수 증가에 따라 에너지 또는 세기가 감소하는 "통상의" 경우와 비교할 때, 오디오 콘텐츠의 고주파 부분에 비교적 큰 에너지, 또는 세기가 존재함을 의미함), 검출기는 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키기로 결정할 수 있다.
앞서 언급한 특징들 중 일부 또는 전부 외에도, 검출기는 또한 입력 오디오 정보의 부분들의 제로 크로싱 레이트를 평가할 수도 있다. 더욱이, 대역폭 확장 정보를 포함시킬지 여부에 관한 검출기의 결정은 또한, 결정된 제로 크로싱 레이트가 고정 또는 가변 제로 크로싱 레이트 임계값보다 크거나 같은지 여부를 기초로 할 수도 있다. 이 개념은 높은 제로 크로싱 레이트가 일반적으로, 고주파들이 입력 오디오 정보에서 중요한 역할을 한다고 나타내고, 이는 결국 오디오 디코더 측에서 파라미터 유도 대역폭 확장이 사용되어야 함을 나타낸다는 고려사항을 기반으로 한다.
더욱이, 검출기(240)는 바람직하게는 어떤 히스테리시스를 사용하여, 인코딩된 오디오 정보로의 대역폭 확장 정보(232) 포함과 상기 포함의 생략 간의 과도한 전환을 피할 수도 있다는 점이 주목되어야 한다. 예를 들어, 히스테리시스는 가변 기울기 임계값에, 가변 제로 크로싱 레이트 임계값에 또는 대역폭 확장 정보의 포함에서 상기 포함의 회피로, 또는 그 반대로의 전이에 관해 결정하는데 사용되는 임의의 다른 임계값에 적용될 수도 있다. 따라서 히스테리시스는 입력 오디오 정보의 현재 부분에 대해 대역폭 확장 정보가 포함되는 경우에 대역폭 확장 정보의 포함의 생략으로 전환할 가능성을 감소시키기 위해 임계값을 변화시킬 수 있다. 비슷하게, 입력 오디오 정보의 현재 부분에 대해 대역폭 확장 정보의 포함이 회피될 때 대역폭 확장 정보의 포함으로 전환할 가능성을 감소시키도록 임계치가 변경될 수도 있다. 따라서 서로 다른 모드들 간의 전이들에 의해 야기될 수 있는 아티팩트들이 감소될 수도 있다.
다음에는, 대역폭 확장 정보 제공기(230)에 관한 일부 세부사항들이 논의될 것이다. 특히, 대역폭 확장 정보(232)가 인코딩된 오디오 정보에 포함되어야 한다는 검출기 시그널링에 응답하여, 인코딩된 오디오 정보(212)에 어떤 정보가 포함되는지가 설명될 것이다. 설명들을 위해, 인코딩된 오디오 표현에 포함되는 파라미터들의 그리고 입력 오디오 정보의 주파수 부분들의 개략적인 표현을 보여주는 도 3에 대한 참조가 또한 이루어질 것이다. 가로 좌표(310)는 주파수를 설명하고, 세로 좌표(312)는 (예를 들어, MDCT 계수들, QMF 계수들, FFT 계수들 등과 같은) 서로 다른 스펙트럼 빈들의 세기(예를 들어, 진폭 또는 에너지와 같은 세기)를 설명한다. 확인될 수 있는 바와 같이, 입력 오디오 정보의 저주파 부분은 예를 들어, 대략 6.4㎑의 주파수까지의 더 낮은 주파수 경계(예를 들어, 0, 또는 50㎐, 또는 300㎐, 또는 임의의 다른 적정한 더 낮은 주파수 경계)에서부터의 주파수 범위를 커버할 수 있다. 확인될 수 있는 바와 같이, 이 저주파 부분(예를 들어, 300㎐ 내지 6.4㎑ 등)에 대해서는 인코딩된 표현(222)이 제공될 수도 있다. 더욱이, 예를 들어, 6.4㎑ 내지 8㎑ 범위의 고주파 부분이 존재한다. 그러나 고주파 부분은 일반적으로 인간 청취자에 의해 인지 가능한 주파수 범위로 제한되는 서로 다른 주파수 범위를 당연히 커버할 수 있다. 그러나 일례로, 참조부호(320)에 도시된 스펙트럼 포락선은 고주파 부분에 불규칙한 형상을 포함한다고 도 3에서 확인될 수 있다. 더욱이, 스펙트럼 포락선(320)은 고주파 부분에 비교적 큰 에너지를 그리고 심지어 7.2㎑ 내지 7.6㎑의 비교적 높은 에너지를 포함한다고 확인될 수 있다. 비교로서, 제 2 스펙트럼 포락선(330)이 또한 도 3에 도시되는데, 여기서 제 2 스펙트럼 포락선(330)은 고주파 부분에서의 (예를 들어, 단위 주파수당) 세기 또는 에너지의 쇠퇴를 보여준다. 이에 따라, 스펙트럼 포락선(320)은 일반적으로 검출기로 하여금, 스펙트럼 포락선(320)을 포함하는 부분에 대해서는 인코딩된 오디오 표현으로의 대역폭 확장 정보의 포함에 대해 결정하게 하는 한편, 스펙트럼 포락선(330)은 일반적으로 검출기로 하여금, 스펙트럼 포락선(330)을 포함하는 오디오 콘텐츠 부분에 대해서는 대역폭 확장 정보의 포함의 생략에 대해 결정하게 할 것이다.
추가 확인될 수 있는 바와 같이, 스펙트럼 포락선(320)을 포함하는 오디오 콘텐츠 부분에 대해서는, 4개의 스칼라 파라미터들이 인코딩된 오디오 표현에 대역폭 확장 정보로서 포함될 것이다. 제 1 스칼라 파라미터는 예를 들어, 6.4㎑ 내지 6.8㎑의 주파수 영역에 대한 스펙트럼 포락선(또는 스펙트럼 포락선의 평균)을 설명할 수 있고, 제 2 스칼라 파라미터는 6.8㎑ 내지 7.2㎑의 주파수 영역에 대한 스펙트럼 포락선(320)(또는 그 평균)을 설명할 수 있고, 제 3 스칼라 파라미터는 7.2㎑ 내지 7.6㎑의 주파수 영역 스펙트럼에 대한 포락선(320)(또는 그 평균)을 설명할 수 있고, 제 4 스칼라 파라미터는 7.6㎑ 내지 8㎑의 주파수 영역에 대한 스펙트럼 포락선(또는 그 평균)을 설명할 수 있다. 스칼라 파라미터들은 스펙트럼 포락선을 절대적인 또는 상대적인 방식으로, 예를 들어 스펙트럼으로 진행하는 주파수 범위(또는 영역)를 참조로 설명할 수 있다. 예를 들어, 제 1 스칼라 파라미터는 6.4㎑ 내지 6.8㎑의 주파수 영역에서의 스펙트럼 포락선과 더 낮은 주파수 영역(예를 들어, 6.4㎑ 미만)에서의 스펙트럼 포락선 간의 (예를 들어, 어떠한 양으로 정규화될 수 있는) 세기 비를 설명할 수 있다. 제 2, 제 3 및 제 4 스칼라 파라미터들은 예를 들어, 제 2 스칼라 파라미터가 6.8㎑ 내지 7.2㎑의 주파수 범위에서의 스펙트럼 포락선(의 평균 값)과 6.4㎑ 내지 6.8㎑의 주파수 범위에서의 스펙트럼 포락선 간의 비를 설명할 수 있도록, 예를 들어, 인접한 주파수 범위들에서 스펙트럼 포락선(의 세기들) 간의 차(또는 비)를 설명한다.
더욱이, 저주파 부분, 즉 6.4㎑ 미만의 주파수 부분의 인코딩된 표현은 어떤 경우든 포함될 수도 있다는 점이 주목되어야 한다. 6.4㎑ 미만의 주파수 부분(저주파 부분)은 잘 알려진 인코딩 개념들 중 임의의 개념을 사용하여, 예를 들어 AAC(또는 이것의 도함수) 또는 (예를 들어, CELP, ACELP, 또는 이것의 도함수와 같은) 음성 코딩과 같은 "일반적인 오디오" 인코딩을 사용하여 인코딩될 수 있다. 이에 따라, 스펙트럼 포락선(320)을 포함하는 오디오 콘텐츠 부분에 대해서는, 저주파 부분의 인코딩된 표현과 (비교적 적은 수의 비트들을 사용하여 양자화될 수 있는) 4개의 스칼라 대역폭 확장 파라미터들이 인코딩된 오디오 표현에 포함될 것이다. 이에 반해, 스펙트럼 포락선(330)을 포함하는 오디오 콘텐츠 부분에 대해서는, 저주파 부분의 인코딩된 표현만이 인코딩된 오디오 표현에 포함될 것이지만, 어떠한 (스칼라) 대역폭 확장 파라미터들도 인코딩된 오디오 표현에 포함되지 않을 것이다(그럼에도 스펙트럼 포락선(330)이 규칙적이고 쇠퇴하는(저역 통과) 특성을 나타내므로 심각한 문제들을 야기하지 않으며, 이는 블라인드 대역폭 확장을 사용하여 잘 재생될 수 있다).
결론적으로 말하면, 오디오 인코더(200)는 입력 오디오 정보의 고주파 부분의 스펙트럼 포락선을 나타내는 파라미터들을 인코딩된 오디오 정보에 신호 적응적 방식으로 대역폭 확장 정보로서 선택적으로 포함시키도록 구성된다. 예를 들어, 도 3을 참조로 언급한 스칼라 대역폭 확장 파라미터들은 인코딩된 오디오 정보에 신호 적응적 방식으로 포함될 수 있다. 일반적으로 말하자면, 저주파 인코더(220)는 6 내지 7㎑ 범위에 있는 최대 주파수까지 주파수들을 포함하는, 입력 오디오 정보(210)의 저주파 부분을 인코딩하도록 구성될 수 있다(여기서는 도 3의 예에 6.4㎑의 경계가 사용되었다). 더욱이, 오디오 인코더는 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 파라미터들을 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성될 수 있다. 도 3의 예에서는, 대략 400㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 4개의 스칼라 파라미터들이 도시되었다. 즉, 오디오 인코더는 4개의 고주파 신호 부분들의 세기들을 설명하는 4개의 스칼라 양자화된 파라미터들을 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성될 수 있으며, 고주파 신호 부분들은 (예를 들어, 도 3을 참조로 설명된 바와 같은) 저주파 부분 위의 (예를 들어, 도 3에 도시된 바와 같은) 주파수 범위들을 커버한다. 예를 들어, 오디오 인코더는 스펙트럼이 인접한 주파수 부분들의 에너지들 또는 세기들 간의 관계를 설명하는 복수의 파라미터들을 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성될 수 있으며, 여기서 파라미터들 중 하나는 제 1 대역폭 확장 고주파 부분의 에너지 또는 세기와 저주파 부분의 에너지 또는 세기 간의 비를 설명하고, 파라미터들 중 다른 하나는 다른 대역폭 확장 고주파 부분들의 에너지들 또는 세기들 간의 비들을 설명하였다(여기서 대역폭 확장 고주파 부분들은 6.4 내지 6.8㎑, 6.8 내지 7.2㎑, 7.2㎑ 내지 7.6㎑ 그리고 7.6㎑ 내지 8㎑의 주파수 부분들일 수도 있다. 대안으로, (고주파 신호 부분들의 세기들을 설명하는) 3개 내지 5개의 포락선 형상 파라미터들은 양자화된 벡터일 수도 있다. 벡터 양자화는 일반적으로 스칼라 양자화보다 다소 더 효율적이다. 다른 한편으로, 벡터 양자화는 스칼라 양자화보다 더 복잡하다. 즉, 4개의 대역폭 확장 에너지 값들의 양자화는 대안으로, (스칼라 양자화를 사용하기보다는) 벡터 양자화를 사용하여 수행될 수 있다.
결론적으로 말하면, 오디오 인코더는 검출기에 의해 파라미터 유도 대역폭 확장이 바람직할 것으로 확인된 입력 오디오 정보의(또는 인코딩된 오디오 표현의) 부분들에 대해서는 인코딩된 오디오 표현의 비트레이트가 단지 약간 증가되게, 비교적 간단한 대역폭 확장 정보를 인코딩된 오디오 표현에 포함시키도록 구성될 수도 있다.
3. 도 4에 따른 오디오 디코더
도 4는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록도를 보여준다. 도 4에 따른 오디오 디코더(400)는 (예를 들어, 오디오 인코더(100)에 의해 또는 오디오 인코더(200)에 의해 제공될 수 있는) 인코딩된 오디오 정보(410)를 수신하고, 이를 기초로, 디코딩된 오디오 정보(412)를 제공한다.
오디오 디코더(400)는, 인코딩된 오디오 정보(410)(또는 적어도, 그에 포함된 저주파 부분의 인코딩된 표현)를 수신하고, 저주파 부분의 인코딩된 표현을 디코딩하여, 저주파 부분의 디코딩된 표현(422)을 얻는 저주파 디코더(420)를 포함한다. 오디오 디코더(400)는 또한, 인코딩된 오디오 정보(410)에 어떠한 대역폭 확장 파라미터들도 포함되지 않는 (인코딩된 오디오 정보(410)로 표현되는) (인코딩된) 오디오 콘텐츠의 부분들에 대해 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호(432)를 얻도록 구성되며, 인코딩된 오디오 정보(또는 인코딩된 오디오 표현)(410)에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 부분들에 대해서는 (인코딩된 오디오 정보(410)에 포함된 대역폭 확장 정보 또는 대역폭 확장 파라미터들을 사용하는) 파라미터 유도 대역폭 확장을 사용하여 대역폭 확장 신호(432)를 얻는 대역폭 확장(430)을 포함한다.
이에 따라, 오디오 디코더(400)는 인코딩된 오디오 정보(410)에 대역폭 확장 파라미터들이 포함되는지 여부와 관계없이 대역폭 확장을 수행할 수 있다. 따라서 오디오 디코더는 인코딩된 오디오 정보(410)에 적응할 수 있고, 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환이 존재하는 개념을 가능하게 한다. 그에 따라, 오디오 디코더(400)는 블라인드 대역폭 확장을 사용하여 충분한 품질로 재구성될 수 없는 오디오 콘텐츠의 부분들(예를 들어, 프레임들)에 대해서만 대역폭 확장 파라미터들이 포함되는 인코딩된 오디오 정보(410)를 다룰 수 있다. 따라서 저주파 부분의 디코딩된 표현과 대역폭 확장 신호 모두를 포함하는 디코딩된 오디오 정보(412)(여기서 대역폭 확장 신호가 예를 들어, 저주파 부분의 디코딩된 표현(422)에 추가됨으로써 디코딩된 오디오 정보(412)를 얻을 수 있음)가 제공될 수 있다.
따라서 오디오 디코더(400)는 오디오 품질과 비트레이트 간의 양호한 균형점을 얻는데 도움이 된다.
오디오 디코더(400)의 추가 선택적인 개선이 예를 들어, 도 5를 참조로 아래 설명될 것이다.
4. 도 5에 따른 오디오 디코더
도 5는 본 발명의 다른 실시예에 따른 오디오 디코더(500)의 개략적인 블록도를 보여준다. 오디오 디코더(500)는 (인코딩된 오디오 표현으로 또한 표기되는) 인코딩된 오디오 정보(510)를 수신하고 이를 기초로, (디코딩된 오디오 표현으로 또한 표기되는) 디코딩된 오디오 정보(512)를 제공한다. 오디오 디코더(500)는 저주파 디코더(420)와 같을 수도 있고 비교할 만한 기능을 이행할 수도 있는 저주파 디코더(520)를 포함한다. 따라서 저주파 디코더(500)는 인코딩된 오디오 정보(510)에 의해 표현되는 오디오 콘텐츠의 저주파 부분의 디코딩된 표현(522)을 제공한다. 오디오 디코더(500)는 또한, 대역폭 확장(430)과 동일한 기능을 이행할 수 있는 대역폭 확장(530)을 포함한다.
따라서 대역폭 확장(530)은 저주파 부분의 디코딩된 표현(522)과 결합(예를 들어, 이에 부가)되는 대역폭 확장 신호(532)를 제공함으로써, 디코딩된 오디오 정보(512)를 얻을 수 있다. 대역폭 확장(530)은 예를 들어, 저주파 부분의 디코딩된 표현(522)을 수신할 수 있다. 그러나 대안으로, 대역폭 확장(532)은 저주파 디코더(520)에 의해 제공되는 (보조 정보 또는 중간 정보로도 또한 여겨질) 제어 정보(524)를 수신할 수 있다. 보조 정보 또는 제어 정보 또는 중간 정보(524)는 예를 들어, 오디오 콘텐츠의 저주파 부분의 스펙트럼 형상, 저주파 부분의 디코딩된 표현의 제로 크로싱 레이트, 또는 대역폭 확장 프로세스에 도움이 되는 저주파 디코더(520)에 의해 사용되는 임의의 다른 중간량을 나타낼 수 있다. 더욱이, 오디오 디코더는, 대역폭 확장(530)에 의해 블라인드 대역폭 확장 또는 파라미터 유도 대역폭 확장이 수행되어야 하는지를 표시하는 제어 정보(542)를 제공하도록 구성된 제어부(540)를 포함한다. 제어부(540)는 제어 정보(542)를 제공하기 위해 서로 다른 타입들의 정보를 사용할 수 있다. 예를 들어, 제어부(540)는 인코딩된 오디오 정보(510)에 포함될 수 있는 대역폭 확장 모드 비트스트림 플래그를 수신할 수 있다. 예를 들어, 인코딩된 오디오 정보의 각각의 부분(예를 들어, 프레임)마다 하나의 대역폭 확장 모드 비트스트림 플래그가 존재할 수 있는데, 이는 제어부(540)에 의해, 인코딩된 오디오 정보로부터 추출될 수 있고, 제어 정보(542)를 도출하는데 사용될 수도 있다(또는 제어 정보(542)를 즉시 구성할 수도 있다). 그러나 대안으로, 제어부(540)는, 저주파 부분을 나타내고 그리고/또는 저주파 부분을 어떻게 디코딩할지를 설명하는(그리고 이에 따라 "저주파 부분 디코딩 정보"로 또한 표기되는) 정보를 수신할 수 있다. 대안으로 또는 추가로, 제어부(540)는 저주파 디코더로부터 제어 정보 또는 보조 정보 또는 중간 정보(524)를 수신할 수 있는데, 이들은 예를 들어, 저주파 부분의 스펙트럼 포락선에 관한 정보, 및/또는 저주파 부분의 디코딩된 표현의 제로 크로싱 레이트에 관한 정보를 전달할 수도 있다. 그러나 제어 정보 또는 보조 정보 또는 중간 정보(524)는 또한 저주파 부분의 디코딩된 표현(522)의 통계치에 관한 정보를 전달할 수도 있고, 또는 (저주파 부분 디코딩 정보로도 또한 표기되는) 저주파 부분의 인코딩된 표현으로부터 저주파 디코더(520)에 의해 도출되는 임의의 다른 중간 정보를 나타낼 수도 있다.
대안으로 또는 추가로, 제어부(540)는 저주파 부분의 디코딩된 표현(522)을 수신할 수 있고, 그 자체가 저주파 부분의 디코딩된 표현(522)으로부터 특징 값들(예를 들어, 제로 크로싱 레이트 정보, 스펙트럼 포락선 정보, 스펙트럼 기울기 정보 등)을 도출할 수도 있다.
이에 따라, 제어부(540)는 비트스트림 플래그를 평가하여, (블라인드 대역폭 확장이 사용되어야 하는지 아니면 파라미터 유도 대역폭 확장이 사용되어야 하는지를 시그널링하는) 이러한 비트스트림 플래그가 인코딩된 오디오 정보(510)에 포함된다면 블라인드/ 파라미터 유도 제어 정보(542)를 제공할 수 있다. 그러나 (예를 들어, 비트레이트를 절약하기 위해) 이러한 비트스트림 플래그가 인코딩된 오디오 정보(510)에 포함되지 않는다면, 제어부(540)는 일반적으로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 다른 정보를 기초로 결정한다. 이를 위해, (저주파 부분의 인코딩된 표현과, 또는 그 서브세트와 같을 수 있는) 저주파 부분 디코딩 정보가 제어부(540)에 의해 평가될 수 있다. 대안으로 또는 추가로, 제어부는 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하기 위해, 즉 제어 정보(542)를 제공하기 위해 저주파 부분의 디코딩된 표현(522)을 고려할 수 있다. 더욱이, 저주파 디코더(520)가 제어부(540)에 의해 사용 가능한 임의의 중간량들을 제공한다면, 제어부(540)는 저주파 디코더(520)에 의해 제공되는 제어 정보 또는 보조 정보 또는 중간 정보(524)를 선택적으로 사용할 수 있다.
이에 따라, 제어부(540)는 대역폭 확장을 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간에 전환할 수 있다.
블라인드 대역폭 확장의 경우, 대역폭 확장(530)은 어떠한 추가 비트스트림 파라미터들도 평가하지 않고 저주파 부분의 디코딩된 표현(522)을 기초로 대역폭 확장 신호(532)를 제공할 수 있다. 이에 반해, 파라미터 유도 대역폭 확장의 경우, 대역폭 확장(530)은 오디오 콘텐츠의 고주파 부분의 특성들(즉, 대역폭 확장 신호의 특성들)의 결정을 돕는 추가(전용) 대역폭 확장 비트스트림 파라미터들을 고려하여 대역폭 확장 신호(532)를 제공할 수 있다. 그러나 대역폭 확장(530)은 또한 저주파 부분의 디코딩된 표현(522), 및/또는 저주파 디코더(520)에 의해 제공되는 제어 정보 또는 보조 정보 또는 중간 정보(524)를 사용하여, 대역폭 확장 신호(532)를 제공할 수 있다.
따라서 블라인드 대역폭 확장의 사용과 파라미터 유도 대역폭 확장 간의 결정은 (일반적으로 인코딩된 오디오 정보에 의해 표현되는 오디오 콘텐츠의 고주파 부분을 설명하는) 대역폭 확장 신호를 얻기 위해 (일반적으로 저주파 부분의 디코딩된 표현을 제공하기 위해 저주파 디코더(520)에 의해 사용되지 않는) 전용 대역폭 확장 파라미터들이 적용되는지 여부를 효과적으로 결정한다.
상기한 것을 요약하자면, 오디오 디코더(500)는 대역폭 확장 신호(532)를 블라인드 대역폭 확장을 사용하여 얻을지 아니면 파라미터 유도 대역폭 확장을 사용하여 얻을지를 프레임 단위로 결정하도록 구성될 수 있다(여기서 "프레임"은 오디오 콘텐츠의 부분의 일례이며, 여기서 프레임은 예를 들어, 10ms 내지 40ms의 듀레이션을 포함할 수 있고, 바람직하게는 대략 20 ms ± 2 ms의 듀레이션을 가질 수도 있다). 따라서 오디오 디코더는 매우 미세한 시간 입도로 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간에 전환하도록 구성될 수도 있다.
또한, 오디오 디코더(500)는 일반적으로, 오디오 콘텐츠의 인접한 부분 내에서 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장의 사용 간에 전환하도록 구성될 수 있다는 점이 주목되어야 한다. 따라서 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환은 오디오 콘텐츠의 인접한 부분 내에서 실질적으로 언제든(물론 프레이밍을 고려하여) 수행되어, 대역폭 확장을 오디오 콘텐츠의 단일 부분의 서로 다른 부분들의 (변화하는) 특성들에 적응시킬 수 있다.
앞서 언급한 바와 같이, 오디오 디코더(바람직하게는 제어부(540))는 오디오 콘텐츠의 서로 다른 부분들(예를 들어, 프레임들)에 대해 인코딩된 오디오 정보(510)에 포함된 플래그들(예를 들어, 프레임당 하나의 단일 비트 플래그)을 평가하여, 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성될 수 있다. 이 경우, 오디오 콘텐츠의 각각의 부분에 대해 시그널링 플래그가 인코딩된 오디오 정보에 포함되어야 한다는 점을 희생하여, 제어부(540)가 매우 간단히 유지될 수 있다. 그러나 대안으로, 제어부(540)는 (전용) 대역폭 확장 모드 시그널링 플래그를 평가하지 않고 (저주파 부분의 상기 인코딩된 표현으로부터 저주파 디코더(520)에 의해 도출되는 제어 정보 또는 보조 정보 또는 중간 정보(524)의 사용을 포함할 수 있고, 또한 저주파 디코더(520)에 의해 저주파 부분의 인코딩된 표현으로부터 도출되는 디코딩된 표현(522)의 사용을 포함할 수 있는) 저주파 부분의 인코딩된 표현을 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성될 수 있다. 따라서 비트스트림에서의 시그널링 오버헤드 없이도 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환이 수행될 수 있다.
오디오 디코더(또는 제어부(540))는 저주파 부분의 디코딩된 표현의 하나 또는 그보다 많은 특징들을 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성될 수 있다. 예를 들어, 스펙트럼 기울기 정보, 제로 크로싱 레이트 정보 등과 같은 이러한 특징들은 저주파 부분의 디코딩된 표현(522)으로부터 추출될 수도 있고, 또는 제어 정보/보조 정보/중간 정보(524)에 의해 시그널링될 수도 있다. 예를 들어, 오디오 디코더(또는 제어부(540))는 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 (예를 들어, 제어 정보/보조 정보/중간 정보(524)에 포함될 수도 있는) 양자화된 선형 예측 계수들을 기초로 그리고/또는 저주파 부분의 디코딩된 표현(522)의 시간 도메인 통계치에 따라 결정하도록 구성될 수 있다.
다음에는, 대역폭 확장을 어떻게 달성하는지의 일부 개념들이 설명될 것이다. 예를 들어, 대역폭 확장은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않는 (입력) 오디오 콘텐츠의 시간 부분들에 대해 (제어 정보/보조 정보/중간 정보(524)에 의해 시그널링될 수 있는) 저주파 부분의 디코딩된 표현(522)의 하나 또는 그보다 많은 특징들 및/또는 저주파 디코더(520)의 하나 또는 그보다 많은 파라미터들을 사용하여 대역폭 확장 신호(532)를 얻도록 구성될 수 있다. 따라서 대역폭 확장(530)은 블라인드 대역폭 확장을 수행할 수 있는데, 이는 인코딩된 오디오 정보에 의해 표현된 오디오 콘텐츠의 고주파 부분에 대해 저주파 부분의 디코딩된 표현으로부터 결론을 내리기 위한 아이디어를 기반으로 한다. 예를 들어, 대역폭 확장(530)은 인코딩된 오디오 정보(510)에 대역폭 확장 파라미터들이 포함되지 않는 입력 오디오 콘텐츠의 시간 부분들에 대해 스펙트럼 중심 정보를 사용하여 그리고/또는 에너지 정보를 사용하여 그리고/또는 (예를 들어, 코딩된) 필터 계수들을 사용하여 대역폭 확장 신호(532)를 얻도록 구성될 수도 있다. 이에 따라, 양호한 블라인드 대역폭 확장이 달성될 수 있다.
그러나 서로 다른 블라인드 대역폭 확장 개념들도 또한 당연히 적용될 수 있다.
그러나 대역폭 확장은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 시간 부분들에 대해 고주파 부분의 스펙트럼 포락선을 설명하는 비트스트림 파라미터들을 사용하여 대역폭 확장 신호(532)를 얻도록 구성될 수도 있다. 즉, 파라미터 유도 대역폭 확장은 고주파 부분의 스펙트럼 포락선을 설명하는 비트스트림 파라미터들을 사용하여 수행될 수 있다. 고주파 부분의 스펙트럼 포락선을 설명하는 비트스트림 파라미터들은 (그럼에도, 블라인드 대역폭 확장에 의해 사용되는 양들 중 일부 또는 전부에 추가로 의존할 수 있는) 파라미터 유도 대역폭 확장을 지원할 수 있다.
예를 들어, 대역폭 확장은 바람직하게는 대역폭 확장 신호를 얻기 위해, 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 비트스트림 파라미터들을 평가하도록 구성되어야 한다고 확인되었다. 이러한 비교적 적은 수의 비트스트림 파라미터들의 사용은 비트레이트를 실질적으로 증가시키는 것이 아니라, "서로 다른" 신호 부분들의 경우에 대역폭 확장의 충분한 개선을 여전히 가져와, "서로 다른" 신호 부분들에 대해 이와 같이 유도 대역폭 확장에 의해 달성 가능한 품질은 블라인드 대역폭 확장을 사용하여 "쉬운" 신호 부분들에 대해 얻어질 수 있는 품질과 비교할 만하다(여기서 "서로 다른" 신호 부분들은 블라인드 대역폭 확장이 양호한 또는 받아들일 수 있는 오디오 품질을 야기할 신호 부분들인데 반해, "쉬운" 신호 부분들은 블라인드 대역폭 확장이 충분한 결과들을 가져오는 신호 부분들이다).
이에 따라, 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 비트스트림 파라미터들은 프레임마다 6 내지 15 비트의 대역폭 확장 스펙트럼 성형 파라미터들이 존재하도록 2 또는 3 비트 분해능으로 스칼라 양자화되는 것이 바람직하다. 대역폭 확장 정보의 이러한 낮은 비트레이트는 오디오 콘텐츠의 "서로 다른" 부분들의 경우에 적정하게 양호한 대역폭 확장을 얻기에 이미 충분하다고 확인되었다.
선택적으로, 대역폭 확장(530)은 블라인드 대역폭 확장에서 파라미터 유도 대역폭 확장으로의 전환시 그리고/또는 파라미터 유도 대역폭 확장에서 블라인드 대역폭 확장으로의 전환시 대역폭 확장 신호의 에너지들의 평활화를 수행하도록 구성될 수 있다. 이에 따라, 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간의 전환시 스펙트럼 형상의 불연속성이 감소된다. 예를 들어, 대역폭 확장은 블라인드 대역폭 확장이 적용되는 오디오 콘텐츠의 부분을 뒤따르는, 파라미터 유도 대역폭 확장이 적용되는 오디오 콘텐츠의 부분에 대해 대역폭 확장 신호의 고주파 부분을 약화시키도록 구성될 수도 있다. 또한, 대역폭 확장은 파라미터 유도 대역폭 확장이 적용되는 오디오 콘텐츠의 부분을 뒤따르는, 블라인드 대역폭 확장이 적용되는 오디오 콘텐츠의 부분에 대해 대역폭 확장 신호의 고주파 부분에 대한 약화를 감소시키도록(즉, 대역폭 확장 신호의 고주파 부분을 다소 강조하도록) 구성될 수도 있다. 그러나 대역폭 확장 모드들 간의 전환시 고주파 부분의 스펙트럼 형상의 불연속성을 감소시키는 임의의 다른 동작에 의해 평활화가 또한 수행될 수도 있다. 따라서 아티팩트들을 감소시킴으로써 오디오 품질이 개선된다.
결론적으로 말하면, 오디오 디코더(500)는 인코딩된 오디오 정보에 대역폭 확장 정보가 제공되는 경우와 인코딩된 오디오 정보에 어떠한 대역폭 확장 정보도 제공되지 않는 경우 모두에 오디오 콘텐츠의 양호한 품질의 디코딩을 가능하게 한다. 오디오 디코더는 미세한 시간 입도로(예를 들어, 프레임 단위로) 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장 간에 전환할 수 있는데, 여기서 아티팩트들은 작게 유지된다.
5. 도 6에 따른, 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 방법
도 6은 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 방법(600)의 흐름도를 보여준다. 이 방법(600)은 입력 오디오 정보의 저주파 부분의 인코딩된 표현을 얻기 위해 저주파 부분을 인코딩하는 단계(610)를 포함한다. 방법(600)은 또한 입력 오디오 정보를 기초로 대역폭 확장 정보를 제공하는 단계(620)를 포함하며, 여기서는 인코딩된 오디오 정보에 대역폭 확장 정보가 신호 적응적 방식으로 선택적으로 포함된다.
도 6에 따른 방법(600)은 오디오 인코더에 대해(그리고 오디오 디코더에 대해서도) 본 명세서에서 설명한 특징들 및 기능들 중 임의의 것에 의해 보완될 수 있다는 점이 주목되어야 한다.
6. 도 7에 따른, 디코딩된 오디오 정보를 제공하기 위한 방법
도 7은 본 발명의 실시예에 따라, 디코딩된 오디오 정보를 제공하기 위한 방법(700)의 흐름도를 보여준다. 방법(700)은 저주파 부분의 디코딩된 표현을 얻기 위해 저주파 부분의 인코딩된 표현을 디코딩하는 단계(710)를 포함한다. 방법(700)은 또한 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않은 오디오 콘텐츠의 부분들에 대해서는 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호를 얻는 단계(720)를 포함한다. 더욱이, 방법(700)은 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 오디오 콘텐츠의 부분들에 대해 파라미터 유도 대역폭 확장을 사용하여 대역폭 확장 신호를 얻는 단계(730)를 포함한다.
도 7에 따른 방법(700)은 오디오 디코더에 대해(그리고 오디오 인코더에 대해서도) 본 명세서에서 설명한 특징들 및 기능들 중 임의의 것에 의해 보완될 수 있다는 점이 주목되어야 한다.
7. 도 8에 따른 인코딩된 오디오 표현
도 8은 오디오 정보를 나타내는 인코딩된 오디오 표현(800)의 개략도를 보여준다.
(인코딩된 오디오 정보로도 또한 표기되는) 인코딩된 오디오 표현은 오디오 정보의 저주파 부분의 인코딩된 표현을 포함한다. 예를 들어, 오디오 정보의 제 1 부분에 대해, 예를 들어 오디오 정보의 제 1 프레임에 대해 오디오 정보의 저주파 부분의 인코딩된 표현(810)이 제공된다. 더욱이, 오디오 정보의 제 2 부분(예를 들어, 제 2 프레임)에 대해 오디오 정보의 저주파 부분의 인코딩된 표현이 또한 제공된다. 그러나 인코딩된 오디오 표현(800)은 또한 대역폭 확장 정보를 포함하며, 여기서 대역폭 확장 정보는 오디오 정보의 모든 부분들에 대해서가 아닌 일부 부분들에 대해, 인코딩된 오디오 표현 신호에 적응적 방식으로 포함된다. 예를 들어, 오디오 정보의 제 1 부분에 대해 대역폭 확장 정보(812)가 포함된다. 이에 반해, 오디오 정보의 제 2 부분에 대해서는 어떠한 대역폭 확장 정보도 제공되지 않는다.
결론적으로 말하면, 인코딩된 오디오 표현(800)은 일반적으로 본 명세서에서 설명한 오디오 인코더들에 의해 제공되고, 본 명세서에서 설명한 오디오 디코더들에 의해 평가된다. 물론, 인코딩된 오디오 표현은 비-일시적 컴퓨터 판독 가능 매체 등에 저장될 수도 있다. 더욱이, 인코딩된 오디오 표현(800)은 오디오 인코더 및 오디오 디코더에 대해 설명한 특징들, 정보 아이템들 등 중 임의의 것에 의해 보완될 수도 있다는 점이 주목되어야 한다.
8. 결론들 및 추가 양상들
본 발명에 따른 실시예들은,
Figure pct00003
입력 오디오의 고주파 콘텐츠(예를 들어, 고주파 부분)가 저주파 오디오(예를 들어, 오디오 콘텐츠의 저주파 부분)로부터 충분히 잘 재구성될 수 없는 경우에만, 유도 대역폭 확장을 사용하고, 즉 20ms마다(예를 들어, 오디오 프레임마다) 몇 비트들의 부가 정보를 전송하고,
Figure pct00004
블라인드 대역폭 확장, 즉 스펙트럼 중심, 에너지, 기울기, 인코딩된 필터 계수들 종과 같은 저주파 핵심 특징들(예를 들어, 재구성된 저주파 부분의 특징들)로부터 고주파 성분들의(예를 들어, 고주파 부분의) 종래의 재구성을 사용하고,
Figure pct00005
부가 정보의 벡터 양자화 대신 스칼라를 이용함으로써 그리고 푸리에 변환들 및 자기 상관 및/또는 필터 계산들과 같은 상당량의 데이터 포인트들을 수반하는 동작들을 피함으로써 매우 낮은 계산 복잡도를 나타내고,
Figure pct00006
입력 신호 특성들에 대해 강력한, 즉 음악뿐만 아니라 모든 타입들의 음성에 대해 잘 작동하기 위해 조용한 환경들에서의 성인 음성과 같은 특정 입력 신호들에 대해서는 최적화되지 않는
블라인드 및 파라미터 유도 대역폭 확장의 신호 적응적 결합으로서 "최소 유도" 대역폭 확장을 제안함으로써 기존의, 종래 대역폭 확장 기술들의 약점들 및 매우 낮은 비트레이트 오디오 코딩에서의 종래의 대역폭 확장의 문제점들을 해결한다.
본 발명에 따른 실시예들의 유도 대역폭 확장 부분에서 부가 정보로서 어떤 파라미터(들)를 송신할지, 그리고 언제 파라미터들을 송신할지의 의문이 미답변 상태로 있다.
AMR-WB와 같은 광대역 코덱들에서는, 코어 코더 영역 위의 고주파 영역의 스펙트럼 포락선이 적절한 품질로 대역폭 확장을 수행하는데 필요한(또는 바람직한) 가장 중요한 데이터를 나타낸다고 확인되었다. 스펙트럼 미세 구조 및 시간 포락선과 같은 다른 모든 파라미터들은 디코딩된 코어 신호로부터 아주 정확히 도출될 수 있고 인지적 중요성이 거의 없다. 따라서 여기서 설명한 최소 유도 대역폭 확장의 유도 부분만이 고주파 스펙트럼 포락선을 부가 정보로서(예를 들어, 대역폭 확장 정보로서 송신한다). 이는 대역폭 확장 부가 정보 레이트를 낮게 유지하는데 도움이 된다. 더욱이, 블라인드 대역폭 확장들은 더 또는 덜 확연한 저역 통과 특성을 갖는 일시적으로 고정적인 신호 통로들에 대해 충분한, 즉 적어도 받아들일 수 있는 품질을 제공한다고 실험으로 확인되었다. 유성음, 환경 소음 및 타악기 편성이 없는 음악 섹션들이 일반적인 예들이다. 사실, 광대역 음성 및 오디오 코딩 시스템에 대한 대부분의 입력은 일반적으로 이러한 카테고리에 속한다.
그러나 순간 스펙트럼들이 저주파(코어 코더) 영역(또는 저주파 부분)에서와는 매우 다른 포락선을 고주파 영역에서(예를 들어, 고주파 부분에서) 나타내는 신호 세그먼트들은 바람직하게는, 고주파 스펙트럼 포락선의 양자화된 표현을 부가 정보로서(예를 들어, 대역폭 확장 정보로서) 송신하는 유도 대역폭 확장을 통해 코딩되어야 한다. 그 이유는 이러한 스펙트럼 구성들 상에서, 블라인드 대역폭 확장들은 일반적으로, 코딩된 필터 계수들 또는 (음성 코더들에서의 여기(excitation)로서도 또한 알려진) 스펙트럼 형상의 잔여 신호로 주어지는 코어 신호 포락선으로부터 고주파 스펙트럼 포락선 진행을 예측할 수 없기 때문이다. 중요한 예들은 무성음, 특히 "s" 또는 독일어 "z"와 같은 강한 마찰음들 및 파찰음들뿐만 아니라, 주로 현대 음악에서 특정 타악음들이기도 하다. 따라서 본 발명에 따른 실시예들에서는, 이러한 "예측할 수 없는" 고주파 스펙트럼들에 대해서만 유도 대역폭 확장이 활성화된다.
본 발명에 따른 최소 유도 대역폭 확장은 xHE-AAC의 낮은 지연 버전인 LD-USAC와 관련하여, 13.2kbits/s로 6.4 내지 8.0㎑의 광대역 코딩된(WB-coded) 신호 대역폭을 연장하도록 구현되었다. 인코더 측에서, 블라인드/유도 결정은 인지 주파수 스케일에 대한 입력 신호의 스펙트럼 기울기(ACELP-코딩 경로에 또한 사용된 기존 특징)뿐만 아니라 (다른 코딩 모드 결정들에 또한 이용되는) 기존의 과도상태 검출기에 의해 제공되는 입력 신호의 제로 크로싱 레이트의 변화와 같은 시간 도메인 특징들로부터도 20ms의 코덱 프레임마다 계산된다. 보다 구체적으로, 스펙트럼 기울기가 양수- 이는 주파수가 증가함에 따라 스펙트럼 에너지가 증가하는 경향이 있음을 의미함 -이고, 지정된 임계치 이상이며, 동시에 제로 크로싱 레이트가 특정 비로 증가했거나 특정 임계치 이상? 이는 현재 프레임이 잡음 있는 파형 통로의 시간을 나타내거나 그 안에 있음을 의미함 -이라면, 유도 대역폭 확장이 선택되어 시그널링된다. 그렇지 않으면, 블라인드 대역폭 확장이 선택된다. 앞서 언급한 임계치들과 관련하여, 유도와 블라인드 대역폭 확장 사이를 왔다갔다 전환할 가능성을 줄이기 위해 간단한 히스테리시스가 또한 적용된다. 프레임에 유도 대역폭 확장 모드가 채택되면, 연속한 프레임들에 사용될 결정 임계치들은 코덱이 그대로 유도 모드를 유지할 가능성이 더 크도록 다소 낮아진다. 블라인드 모드로 다시 전환하기로 결정되면, 원래의 임계치들이 복귀되어, 대역폭 확장 결정이 즉시 유도 모드로 다시 토글할 가능성을 적게 한다.
프레임별 대역폭 확장 프로시저의 나머지는 다음과 같이 요약된다:
1. 대역폭 확장이 블라인드 모드라면, 비트스트림에서 하나의 비트를 사용해 "0"을 송신하여 이 모드를 디코더에 시그널링한다. 선택적으로, 코어 신호의 디코더 측 분석에 의해 블라인드 대역폭 확장을 사용할 때는 어떠한 비트도 송신하지 않고 디코더가 프레임을 식별하게 한다.
2. 대역폭 확장이 유도 모드라면, 비트스트림에서 하나의 비트를 사용하여 "1"을 송신한다. 그러면 인코더가 입력 신호의 400㎐를 각각 커버하는 4개의 주파수 이득 인덱스들을 계산하여, 디코더에서 6.4 내지 8㎑ 대역폭 확장 영역의 정확한 스펙트럼 성형을 가능하게 한다. 낮은 지연의 USAC 실현에서, 4개의 인덱스들 각각은 이전 QMF 에너지에(또는 제 1 대역폭 확장 이득의 경우에는 4.8-6.4㎑ QMF 스펙트럼의 에너지에) 대한 4개의 대역폭 확장 영역 QMF 에너지들 중 하나의 스칼라 양자화의 결과이다. 2dB의 스텝 크기를 갖는 2-비트 중층 양자화기가 이용되므로, 이득들은 -3…3dB의 값 범위를 커버하고 프레임당 8 비트를 소비한다. 이는 유도 대역폭 확장 프레임당 9 비트 또는 선택적으로, 단계 1에서와 같은 시그널링을 배제한다면 8 비트의 총 부가 정보를 산출한다.
3. 대응하는 디코더에서, 제 1 대역폭 확장 비트가 판독된다. 이것이 "0"이라면, 블라인드 대역폭 확장이 사용되고, 그렇지 않으면 8개의 더 많은 비트들이 판독되어 유도 대역폭 확장이 사용된다. 선택적으로, 첫 번째 대역폭 확장 비트의 판독이 스킵되고(이 비트는 비트스트림에 존재하지 않으므로), 단계 1에서 언급한 바와 같이 코어 신호 분석에 의해 블라인드/유도 결정이 국소적으로 수행된다.
4. 디코더에서 블라인드 대역폭 확장 모드가 결정되었다면, 디코딩된 코어 신호의 특징들만을 사용한 대역폭 확장이 수행된다. 이러한 대역폭 확장은 기본적으로 참조들 [2], [3], [6] 및 [9] 중 하나에서 설명하는 대역폭 확장 개념을 따르지만, QMF에서는 DFT 도메인 대신에 그리고 코어 QMF 스펙트럼으로부터 도출된 저-복잡도 특징들, 예를 들어 스펙트럼 중심/기울기만을 따른다.
5. 디코더에서 유도 대역폭 확장 모드가 선택되었다면, 4개의 2-비트 이득 인덱스들이 QMF 에너지 이득들로 역양자화되고, 단계 4에서와 같이 재구성된 QMF 대역폭 확장 영역 대역들의 스펙트럼 성형에 적용된다. 즉, 코어 신호로부터 외삽되는(그 결과, 파라미터 유도 대역폭 확장을 구성하는) 스케일링을 통하는 대신, 비트스트림에서 송신된 스케일 팩터들을 통해 스펙트럼 성형이 이루어진다는 점을 제외하면, 여기서도 블라인드 대역폭 확장이 이용된다.
6. 하나의 프레임에서 다른 프레임으로 블라인드와 유도 대역폭 확장 간의 전환시, 고주파 에너지들의 단순한 평활화가 수행되어 블라인드 대역폭 확장의 저역 통과와 같은 행동에 의해 야기되는 아티팩트들(고주파 에너지 불연속성들)의 전환을 최소화한다. 평활화는 기본적으로 블라인드 대역폭 확장과 유도 대역폭 확장 간의 크로스 페이더로서 작용하는데: 어떤 블라인드 대역폭 확장 프레임(들)을 따르는 제 1 유도 대역폭 확장 프레임은 그 고주파 영역에서 다소 약화되는 한편, 어떤 유도 대역폭 확장(들) 이후의 첫 번째 블라인드 대역폭 확장 프레임의 약화는 다소 감소된다.
일반적인 전화 음성 콘텐츠 및 인기 음악에서, 실험들은 LD-USAC에서 모든 20ms 프레임들의 약 13%가 유도 대역폭 확장을 이용하고 있다고 판명하였다. 따라서 평균 대역폭 확장 부가 정보 레이트는 프레임 또는 0.1kbit/s당 대략 2 비트에 이른다. 이는 본 명세서에서 언급된 유도 음성 코더 대역폭 확장들 중 임의의 것 또는 (e)SBR(예를 들어, 참조 [8] 참고)의 레이트들보다 훨씬 낮다.
이 섹션에서 단계별 설명의 선택적인 방법으로서 제안되는 바와 같이, 디코더에 대한 대역폭 확장 모드 결정의 1-비트 시그널링은 인코더와 디코더 모두가 코어 코딩된 신호로부터의 그 결정을 비트 정확한 방식으로 도출할 수 있다면, 회피될 수 있다는 점이 추가로 주목될 것이다. 이는 인코더가 국소적으로 디코딩된 코어 신호로부터 도출된 어떤 특징들을 기초로 대역폭 확장 모드를 선택한다면 달성될 수 있는데, 이는 디코더에서 이용 가능한 유일한 신호이기 때문이다. 특정 프레임에서 어떠한 송신 에러도 발생하지 않았고 인코더와 디코더 모두 (앞서 언급한 바와 같이, 제로 크로싱 레이트와 같은 디코딩된 잔여 신호로부터의 시간 도메인 통계치 또는 양자화된 LPC 계수들과 같은) 정확히 동일한 코어 신호 특징들로부터 대역폭 확장 모드를 결정한다고 가정하면, 인코더와 디코더에서 모드 결정이 동일하다.
본 발명에 따른 실시예들은 9-13kbit/s의 비트레이트들로 관찰될 수 있는 광대역 코덱들에서의 특정 품질 딜레마를 극복한다. 한편으로, 이러한 레이트들은 이미 너무 낮아 심지어 보통량의 대역폭 확장 데이터의 송신도 정당화할 수 없어, 1kbit/s 이상의 부가 정보를 갖는 일반적인 유도 대역폭 확장 시스템들을 배제한다고 확인되었다. 다른 한편으로는, 실현 가능한 블라인드 대역폭 확장은 코어 신호로부터의 적절한 파라미터 예측의 불가능성으로 인해 적어도 어떤 타입들의 음성 또는 음악 자료에 대해서는 상당히 더 나쁜 소리가 나게 한다고 확인되었다. 따라서 유도 대역폭 확장 방식의 부가 정보 레이트를 1kbit/s 훨씬 아래의 레벨로 감소시키는 것이 바람직하며, 이는 매우 낮은 비트레이트 코딩에서도 이것의 채택을 허용한다고 확인되었다. 본 발명에 따른 실시예들에서 사용되는 접근 방식은 블라인드 대역폭 확장에 의해 열악하게 또는 차선으로 재구성된 일반적인 입력 신호들의 세그먼트들을 식별하고, 부가 정보가 고주파 재구성 품질을 받아들일 수 있는 레벨(또는 적어도, 그 신호 상에서 평균 블라인드 대역폭 확장 품질의 범위에 있는 레벨)로 개선할 필요가 있는 그러한 세그먼트들에 대해서만 송신하는 것이다. 즉, 블라인드 대역폭 확장에 의해 적정하게 잘 재생성되는 고주파 입력 신호 부분들은 매우 적은 대역폭 확장 부가 정보로 또는 어떠한 대역폭 확장 부가 정보도 없이 코딩되어야 하며, 블라인드 대역폭 확장이 코덱 품질의 전체 인상을 열화시킬 통로들만이 이들의 고주파 성분들을 유도 대역폭 확장에 의해 재생되게 해야 한다. 부가 정보 레이트를 신호 적응적인 방식으로 조정하는 이러한 대역폭 확장 설계가 본 발명의 과제이며 "최소 유도 대역폭 확장"이라고 한다.
본 발명에 따른 실시예들은 최근 몇 년 간 문서화된 다수의 대역폭 확장 접근 방식들(예를 들어, 참조들 [1], [2], [3], [4], [5], [6], [7], [8], [9] 및 [10] 참고)을 능가한다. 일반적으로, 이들 모두는 입력 신호의 순간 특성들과 관계없이 주어진 동작 포인트에서 완전히 블라인드 또는 완전히 유도이다. 더욱이, 블라인드 대역폭 확장들의 모든 구현들(예를 들어, 참조들 [1], [3], [4], [5], [9] 및 [10] 참고)은 음성 신호들에 대해 배타적으로 최적화되며, 이에 따라 (일부 공보들에서도 언급한) 음악과 같은 다른 입력에 대해서는 만족스러운 품질을 양산할 가능성이 없다. 마지막으로, 부가 정보의 푸리에 변환들, LPC 필터 계산들 또는 벡터 양자화를 이용하는 종래의 대역폭 확장 실현들의 대부분은 비교적 복잡하다. 이는 모바일 디바이스들의 대부분이 매우 한정적인 계산 전력을 제공한다면, 모바일 전기 통신 시장들에서 새로운 코딩 기술의 채택에 단점을 야기할 수 있다.
추가로 결론적으로 말하면, 본 발명에 따른 실시예들은 앞서 설명한 바와 같이 오디오 인코더 또는 오디오 인코딩을 위한 방법 또는 관련된 컴퓨터 프로그램을 안출한다.
본 발명에 따른 추가 실시예들은 앞서 설명한 바와 같이 오디오 디코더 또는 오디오 디코딩 방법 또는 관련된 컴퓨터 프로그램을 안출한다.
본 발명에 따른 추가 실시예들은 앞서 설명한 바와 같이 인코딩된 오디오 신호 또는 인코딩된 오디오 신호를 저장한 저장 매체를 안출한다.
9. 구현 대안들
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 또는 그보다 많은 단계가 이러한 장치에 의해 실행될 수도 있다.
본 발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있고 또는 인터넷과 같은 유선 송신 매체 또는 무선 송신 매체와 같은 송신 매체 상에서 송신될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 물건이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 (예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에서 설명한 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 구현될 수 있다.
본 명세서에서 설명한 방법들은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 수행될 수 있다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 어레인지먼트들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.
참조들
[1] B. Bessette et al., "The Adaptive Multi-rate Wideband Speech Codec (AMR-WB)," IEEE Trans. on Speech and Audio Processing, Vol. 10, No. 8, Nov. 2002.
[2] B. Geiser et al., "Bandwidth Extension for Hierarchical Speech and Audio Coding in ITU-T Rec. G.729.1," IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 8, Nov. 2007.
[3] B. Iser, W. Minker, and G. Schmidt, Bandwidth Extension of Speech Signals, Springer Lecture Notes in Electrical Engineering, Vol. 13, New York, 2008.
[4] M. Jelinek and R. Salami, "Wideband Speech Coding Advances in VMR-WB Standard," IEEE Trans. on Audio, Speech, and Language Processing, Vol. 15, No. 4, May 2007.
[5] I. Katsir, I. Cohen, and D. Malah, "Speech Bandwidth Extension Based on Speech Phonetic Content and Speaker Vocal Tract Shape Estimation," in Proc. EUSIPCO 2011, Barcelona, Spain, Sep. 2011.
[6] E. Larsen and R. M. Aarts, Audio Bandwidth Extension: Application of Psycho-acoustics, Signal Processing and Loudspeaker Design, Wiley, New York, 2004.
[7] J. Makinen et al., "AMR-WB+: A New Audio Coding Standard for 3rd Generation Mobile Audio Services," in Proc. ICASSP 2005, Philadelphia, USA, Mar. 2005.
[8] M. Neuendorf et al., "MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types," in Proc. 132nd AES Convention, Budapest, Hungary, Apr. 2012. Also appears in the Journal of the AES, 2013.
[9] H. Pulakka and P. Alku, "Bandwidth Extension of Telephone Speech Using a Neural Network and a Filter Bank Implementation for Highband Mel Spectrum," IEEE Trans. on Audio, Speech, and Language Processing, Vol. 19, No. 7, Sep. 2011.
[10] T. Vaillancourt et al., "ITU-T EV-VBR: A Robust 8-32 kbit/s Scalable Coder for Error Prone Telecommunications Channels," in Proc. EUSIPCO 2008, Lausanne, Switzer-land, Aug. 2008.
[11] L. Miao et al., "G.711.1 Annex D and G.722 Annex B: New ITU-T Superwideband codecs," in Proc. ICASSP 2011, Prague, Czech Republic, May 2011.

Claims (32)

  1. 입력 오디오 정보(110; 210)를 기초로 인코딩된 오디오 정보(112; 212)를 제공하기 위한 오디오 인코더(100; 200)로서,
    상기 입력 오디오 정보의 저주파 부분의 인코딩된 표현(122; 222)을 얻기 위해 상기 저주파 부분을 인코딩하도록 구성된 저주파 인코더(120; 220); 및
    상기 입력 오디오 정보를 기초로 대역폭 확장 정보(132; 232)를 제공하도록 구성된 대역폭 확장 정보 제공기(130; 230)를 포함하며,
    상기 오디오 인코더는 대역폭 확장 정보를 상기 인코딩된 오디오 정보에 신호 적응적 방식으로 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  2. 제 1 항에 있어서,
    상기 오디오 인코더는 상기 저주파 부분의 인코딩된 표현을 기초로 그리고 블라인드 대역폭 확장을 사용하여, 충분한 또는 원하는 품질로 디코딩될 수 없는 상기 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기(240)를 포함하며,
    상기 오디오 인코더는 상기 검출기에 의해 식별된 상기 입력 오디오 정보의 부분들에 대해 상기 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 오디오 인코더는 대역폭 확장 파라미터들이 상기 저주파 부분을 기초로 충분한 또는 원하는 정확도로 추정될 수 없는 상기 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기(240)를 포함하며,
    상기 오디오 인코더는 상기 검출기에 의해 식별된 상기 입력 오디오 정보의 부분들에 대해 상기 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  4. 제 1 항 내지 제 3 항 중 한 항에 있어서,
    상기 오디오 인코더는 상기 입력 오디오 정보의 부분들을, 상기 부분들이 일시적으로 고정된 부분들인지 여부에 따라 그리고 상기 부분들이 저역 통과 특성을 갖는지 여부에 따라 식별하도록 구성된 검출기(240)를 포함하며,
    상기 오디오 인코더는 일시적으로 고정된 부분들이 저역 통과 특성을 갖는 것에 따라, 상기 검출기에 의해 식별된 상기 입력 오디오 정보의 부분들에 대해 상기 인코딩된 오디오 정보에 대역폭 확장 정보를 포함시키는 것을 선택적으로 생략하도록 구성되는,
    오디오 인코더(100; 200).
  5. 제 4 항에 있어서,
    상기 검출기는 상기 입력 오디오 정보의 부분들을, 상기 부분들이 유성음을 포함하는지 여부에 따라, 그리고/또는 상기 부분들이 환경 소음을 포함하는지 여부에 따라, 그리고/또는 상기 부분들이 타악기 편성이 없는 음악을 포함하는지 여부에 따라 식별하도록 구성되는,
    오디오 인코더(100; 200).
  6. 제 1 항 내지 제 5 항 중 한 항에 있어서,
    상기 오디오 인코더는 저주파 부분의 스펙트럼 포락선과 고주파 부분의 스펙트럼 포락선 간의 차가 미리 결정된 차 측정치보다 크거나 같은지 여부에 따라 상기 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기(240)를 포함하며,
    상기 오디오 인코더는 상기 검출기에 의해 식별된 상기 입력 오디오 정보의 부분들에 대해 상기 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  7. 제 6 항에 있어서,
    상기 검출기는 부분들이 무성음을 포함하는지 여부에 따라 상기 부분들을 식별하도록 구성되고, 그리고/또는
    상기 검출기는 부분들이 타악음을 포함하는지 여부에 따라 상기 부분들을 식별하도록 구성되는,
    오디오 인코더(100; 200).
  8. 제 1 항 내지 제 7 항 중 한 항에 있어서,
    상기 오디오 인코더는 상기 입력 오디오 정보의 부분들의 스펙트럼 기울기를 결정하고, 결정된 스펙트럼 기울기가 고정 또는 가변 기울기 임계값보다 크거나 같은지 여부에 따라 상기 입력 오디오 정보의 부분들을 식별하도록 구성된 검출기(240)를 포함하며,
    상기 오디오 인코더는 상기 검출기에 의해 식별된 상기 입력 오디오 정보의 부분들에 대해 상기 인코딩된 오디오 정보에 대역폭 확장 정보를 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  9. 제 8 항에 있어서,
    상기 검출기는 상기 입력 오디오 정보의 부분들의 제로 크로싱 레이트를 결정하고, 결정된 제로 크로싱 레이트가 고정 또는 가변 제로 크로싱 레이트 임계값보다 크거나 같은지 여부에 따라 또는 상기 제로 크로싱 레이트가 제로 크로싱 레이트 변화 임계값을 초과하는 시간적 변화를 포함하는지 여부에 따라 또한 상기 입력 오디오 정보의 부분들을 식별하도록 추가로 구성되는,
    오디오 인코더(100; 200).
  10. 제 2 항 내지 제 9 항 중 한 항에 있어서,
    상기 검출기(240)는 상기 입력 오디오 정보의 신호 부분들을 식별하기 위한 히스테리시스를 적용하여, 식별된 신호 부분들과 식별되지 않은 신호 부분들 간의 전이들의 수를 감소시키도록 구성되는,
    오디오 인코더(100; 200).
  11. 제 1 항 내지 제 10 항 중 한 항에 있어서,
    상기 오디오 인코더는 상기 대역폭 확장 정보로서, 적응적 방식으로 상기 인코딩된 오디오 정보 신호에 상기 입력 오디오 정보의 고주파 부분의 스펙트럼 포락선을 나타내는 파라미터들을 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  12. 제 1 항 내지 제 11 항 중 한 항에 있어서,
    상기 저주파 인코더는 6 내지 7㎑ 범위에 있는 최대 주파수까지 주파수들을 포함하는, 상기 입력 오디오 정보의 저주파 부분을 인코딩하도록 구성되며,
    상기 오디오 인코더는 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 파라미터들을 상기 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성되는,
    오디오 인코더(100; 200).
  13. 제 12 항에 있어서,
    상기 오디오 인코더는 4개의 고주파 신호 부분들의 세기들을 설명하는 4개의 스칼라 양자화된 파라미터들을 상기 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성되며,
    상기 고주파 신호 부분들은 상기 저주파 부분 위의 주파수 범위들을 커버하는,
    오디오 인코더(100; 200).
  14. 제 12 항 또는 제 13 항에 있어서,
    상기 오디오 인코더는 스펙트럼이 인접한 주파수 부분들의 에너지들 또는 세기들 간의 관계를 설명하는 복수의 파라미터들을 상기 인코딩된 오디오 표현에 선택적으로 포함시키도록 구성되며,
    상기 파라미터들 중 하나의 파라미터는 제 1 대역폭 확장 고주파 부분과 저주파 부분의 에너지 또는 세기 간의 비 또는 차를 설명하고,
    상기 파라미터들 중 다른 파라미터는 다른 대역폭 확장 고주파 부분들의 에너지들 또는 세기들 간의 비들 또는 차들을 설명하는,
    오디오 인코더(100; 200).
  15. 인코딩된 오디오 정보(410; 510)를 기초로 디코딩된 오디오 정보(412; 512)를 제공하기 위한 오디오 디코더(400; 500)로서,
    저주파 부분의 디코딩된 표현(422; 522)을 얻기 위해 상기 저주파 부분의 인코딩된 표현을 디코딩하도록 구성된 저주파 디코더(420; 520); 및
    상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않은 오디오 콘텐츠의 부분들에 대해서는 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호(432; 532)를 얻고, 상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 상기 오디오 콘텐츠의 부분들에 대해서는 파라미터 유도 대역폭 확장을 사용하여 상기 대역폭 확장 신호를 얻도록 구성된 대역폭 확장(430; 530)을 포함하는,
    오디오 디코더(400; 500).
  16. 제 15 항에 있어서,
    상기 오디오 디코더는 상기 대역폭 확장 신호를 블라인드 대역폭 확장을 사용하여 얻을지 아니면 파라미터 유도 대역폭 확장을 사용하여 얻을지를 프레임 단위로 결정하도록 구성되는,
    오디오 디코더(400; 500).
  17. 제 15 항 또는 제 16 항에 있어서,
    상기 오디오 디코더는 오디오 콘텐츠의 인접한 부분 내에서 블라인드 대역폭 확장과 파라미터 유도 대역폭 확장의 사용 간에 전환하도록 구성되는,
    오디오 디코더(400; 500).
  18. 제 15 항 내지 제 17 항 중 한 항에 있어서,
    상기 오디오 디코더는 상기 오디오 콘텐츠의 서로 다른 부분들에 대해 상기 인코딩된 오디오 정보에 포함된 플래그들을 평가하여, 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성되는,
    오디오 디코더(400; 500).
  19. 제 15 항 내지 제 17 항 중 한 항에 있어서,
    상기 오디오 디코더는 대역폭 확장 모드 시그널링 플래그를 평가하지 않고 상기 저주파 부분의 인코딩된 표현을 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성되는,
    오디오 디코더(400; 500).
  20. 제 19 항에 있어서,
    상기 오디오 디코더는 상기 저주파 부분의 디코딩된 표현의 하나 또는 그보다 많은 특징들을 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성되는,
    오디오 디코더(400; 500).
  21. 제 19 항 또는 제 20 항에 있어서,
    상기 오디오 디코더는 선형 예측 계수들을 기초로 그리고/또는 상기 저주파 부분의 디코딩된 표현의 시간 도메인 통계치를 기초로 블라인드 대역폭 확장을 사용할지 아니면 파라미터 유도 대역폭 확장을 사용할지를 결정하도록 구성되는,
    오디오 디코더(400; 500).
  22. 제 15 항 내지 제 21 항 중 한 항에 있어서,
    상기 대역폭 확장은 상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않는 상기 입력 오디오 콘텐츠의 시간 부분들에 대해 상기 저주파 부분의 디코딩된 표현의 하나 또는 그보다 많은 특징들을 사용하여 그리고/또는 상기 저주파 디코더의 하나 또는 그보다 많은 파라미터들을 사용하여 상기 대역폭 확장 신호를 얻도록 구성되는,
    오디오 디코더(400; 500).
  23. 제 15 항 내지 제 22 항 중 한 항에 있어서,
    상기 대역폭 확장은 상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않는 상기 입력 오디오 콘텐츠의 시간 부분들에 대해 스펙트럼 중심 정보를 사용하여 그리고/또는 에너지 정보를 사용하여 그리고/또는 기울기 정보를 사용하여 그리고/또는 필터 계수들을 사용하여 상기 대역폭 확장 신호를 얻도록 구성되는,
    오디오 디코더(400; 500).
  24. 제 15 항 내지 제 23 항 중 한 항에 있어서,
    상기 대역폭 확장은 상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 상기 오디오 콘텐츠의 시간 부분들에 대해 고주파 부분의 스펙트럼 포락선을 설명하는 비트스트림 파라미터들을 사용하여 상기 대역폭 확장 신호를 얻도록 구성되는,
    오디오 디코더(400; 500).
  25. 제 24 항에 있어서,
    상기 대역폭 확장은 상기 대역폭 확장 신호를 얻기 위해, 300㎐ 내지 500㎐의 대역폭들을 갖는 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 비트스트림 파라미터들을 평가하도록 구성되는,
    오디오 디코더(400; 500).
  26. 제 25 항에 있어서,
    상기 고주파 신호 부분들의 세기들을 설명하는 3개 내지 5개의 비트스트림 파라미터들은 오디오 프레임마다 6 내지 15 비트의 대역폭 확장 스펙트럼 성형 파라미터들이 존재하도록, 2 또는 3 비트 분해능으로 스칼라 양자화되는,
    오디오 디코더(400; 500).
  27. 제 15 항 내지 제 26 항 중 한 항에 있어서,
    상기 대역폭 확장은 블라인드 대역폭 확장에서 파라미터 유도 대역폭 확장으로의 전환시 그리고/또는 파라미터 유도 대역폭 확장에서 블라인드 대역폭 확장으로의 전환시 상기 대역폭 확장 신호의 에너지들의 평활화를 수행하도록 구성되는,
    오디오 디코더(400; 500).
  28. 제 27 항에 있어서,
    상기 대역폭 확장은 블라인드 대역폭 확장이 적용되는 상기 오디오 콘텐츠의 부분을 뒤따르는, 파라미터 유도 대역폭 확장이 적용되는 상기 오디오 콘텐츠의 부분에 대해 상기 대역폭 확장 신호의 고주파 부분을 약화시키도록 구성되고,
    상기 대역폭 확장은 파라미터 유도 대역폭 확장이 적용되는 상기 오디오 콘텐츠의 부분을 뒤따르는, 블라인드 대역폭 확장이 적용되는 상기 오디오 콘텐츠의 부분에 대해 상기 대역폭 확장 신호의 고주파 부분에 대한 레벨의 약화 또는 증가를 감소시키도록 구성되는,
    오디오 디코더(400; 500).
  29. 입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 방법(600)으로서,
    상기 입력 오디오 정보의 저주파 부분의 인코딩된 표현을 얻기 위해 상기 저주파 부분을 인코딩하는 단계(610); 및
    상기 입력 오디오 정보를 기초로 대역폭 확장 정보를 제공하는 단계(620)를 포함하며,
    상기 인코딩된 오디오 정보에 대역폭 확장 정보가 신호 적응적 방식으로 선택적으로 포함되는,
    입력 오디오 정보를 기초로 인코딩된 오디오 정보를 제공하기 위한 방법(600).
  30. 인코딩된 오디오 정보를 기초로 디코딩된 오디오 정보를 제공하기 위한 방법(700)으로서,
    저주파 부분의 디코딩된 표현을 얻기 위해 상기 저주파 부분의 인코딩된 표현을 디코딩하는 단계(710);
    상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되지 않은 오디오 콘텐츠의 부분들에 대해 블라인드 대역폭 확장을 사용하여 대역폭 확장 신호를 얻는 단계(720); 및
    상기 인코딩된 오디오 정보에 대역폭 확장 파라미터들이 포함되는 상기 오디오 콘텐츠의 부분들에 대한 파라미터 유도 대역폭 확장을 사용하여 상기 대역폭 확장 신호를 얻는 단계(730)를 포함하는,
    인코딩된 오디오 정보를 기초로 디코딩된 오디오 정보를 제공하기 위한 방법(700).
  31. 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 제 29 항 또는 제 30 항에 따른 방법을 수행하기 위한,
    컴퓨터 프로그램.
  32. 오디오 정보를 나타내는 인코딩된 오디오 표현(800)으로서,
    상기 오디오 정보의 저주파 부분의 인코딩된 표현(810, 820); 및
    대역폭 확장 정보(812)를 포함하며,
    상기 대역폭 확장 정보는 상기 오디오 정보의 모든 부분들에 대해서가 아닌 일부 부분들에 대해 상기 인코딩된 오디오 표현에 신호 적응적 방식으로 포함되는,
    오디오 정보를 나타내는 인코딩된 오디오 표현(800).
KR1020157023559A 2013-01-29 2014-01-28 오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현 KR101771828B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361758205P 2013-01-29 2013-01-29
US61/758,205 2013-01-29
PCT/EP2014/051641 WO2014118185A1 (en) 2013-01-29 2014-01-28 Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension

Publications (2)

Publication Number Publication Date
KR20150114979A true KR20150114979A (ko) 2015-10-13
KR101771828B1 KR101771828B1 (ko) 2017-08-25

Family

ID=50029037

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157023559A KR101771828B1 (ko) 2013-01-29 2014-01-28 오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현

Country Status (20)

Country Link
US (1) US9646624B2 (ko)
EP (4) EP3067890B1 (ko)
JP (1) JP6239007B2 (ko)
KR (1) KR101771828B1 (ko)
CN (2) CN105264599B (ko)
AR (2) AR094681A1 (ko)
AU (1) AU2014211479B2 (ko)
BR (1) BR112015017753B1 (ko)
CA (4) CA2985115C (ko)
ES (4) ES2959240T3 (ko)
HK (1) HK1218179A1 (ko)
MX (1) MX347062B (ko)
MY (1) MY185176A (ko)
PL (4) PL3070713T3 (ko)
PT (3) PT3070713T (ko)
RU (1) RU2641461C2 (ko)
SG (1) SG11201505912QA (ko)
TW (1) TWI533288B (ko)
WO (1) WO2014118185A1 (ko)
ZA (1) ZA201506312B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024080597A1 (ko) * 2022-10-12 2024-04-18 삼성전자주식회사 오디오 비트스트림을 적응적으로 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9886959B2 (en) * 2005-02-11 2018-02-06 Open Invention Network Llc Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless
KR101261677B1 (ko) 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
SG11201505903UA (en) * 2013-01-29 2015-08-28 Fraunhofer Ges Forschung Apparatus and method for synthesizing an audio signal, decoder, encoder, system and computer program
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN106294331B (zh) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
GB201620317D0 (en) * 2016-11-30 2017-01-11 Microsoft Technology Licensing Llc Audio signal processing
TWI807562B (zh) 2017-03-23 2023-07-01 瑞典商都比國際公司 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合
EP3382702A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to an artificial bandwidth limitation processing of an audio signal
US10650806B2 (en) 2018-04-23 2020-05-12 Cerence Operating Company System and method for discriminative training of regression deep neural networks
US11570849B2 (en) * 2018-12-06 2023-01-31 Schneider Electric Systems Usa, Inc. Wireless instrument area network node with internal force sensor
KR20210003507A (ko) * 2019-07-02 2021-01-12 한국전자통신연구원 오디오 코딩을 위한 잔차 신호 처리 방법 및 오디오 처리 장치
US20230345195A1 (en) * 2020-06-22 2023-10-26 Sony Group Corporation Signal processing apparatus, method, and program
CN112019282B (zh) * 2020-08-13 2022-10-28 西安烽火电子科技有限责任公司 一种短波时变信道衰落带宽估计方法
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置
CN113035211B (zh) * 2021-03-11 2021-11-16 马上消费金融股份有限公司 音频压缩方法、音频解压缩方法及装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8901032A (nl) 1988-11-10 1990-06-01 Philips Nv Coder om extra informatie op te nemen in een digitaal audiosignaal met een tevoren bepaald formaat, een decoder om deze extra informatie uit dit digitale signaal af te leiden, een inrichting voor het opnemen van een digitaal signaal op een registratiedrager, voorzien van de coder, en een registratiedrager verkregen met deze inrichting.
JPH0758629B2 (ja) * 1989-08-24 1995-06-21 矢崎総業株式会社 端子係止具付コネクタ
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US7469206B2 (en) * 2001-11-29 2008-12-23 Coding Technologies Ab Methods for improving high frequency reconstruction
KR101271069B1 (ko) * 2005-03-30 2013-06-04 돌비 인터네셔널 에이비 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
TWI319565B (en) * 2005-04-01 2010-01-11 Qualcomm Inc Methods, and apparatus for generating highband excitation signal
US9043214B2 (en) 2005-04-22 2015-05-26 Qualcomm Incorporated Systems, methods, and apparatus for gain factor attenuation
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US7953605B2 (en) 2005-10-07 2011-05-31 Deepen Sinha Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension
US7835904B2 (en) * 2006-03-03 2010-11-16 Microsoft Corp. Perceptual, scalable audio compression
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
RU2455709C2 (ru) * 2008-03-03 2012-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ и устройство для обработки аудиосигнала
BRPI0910511B1 (pt) * 2008-07-11 2021-06-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho e método para decodificar e codificar um sinal de áudio
PL4231290T3 (pl) * 2008-12-15 2024-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder powiększania szerokości pasma audio, powiązany sposób oraz program komputerowy
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
PL2273493T3 (pl) * 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
CN102612712B (zh) * 2009-11-19 2014-03-12 瑞典爱立信有限公司 低频带音频信号的带宽扩展
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
CA2903681C (en) * 2011-02-14 2017-03-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
CN102543086B (zh) * 2011-12-16 2013-08-14 大连理工大学 一种基于音频水印的语音带宽扩展的装置和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024080597A1 (ko) * 2022-10-12 2024-04-18 삼성전자주식회사 오디오 비트스트림을 적응적으로 처리하는 전자 장치, 방법, 및 비일시적 컴퓨터 판독가능 저장 매체

Also Published As

Publication number Publication date
TW201443883A (zh) 2014-11-16
PL3067890T3 (pl) 2018-06-29
CN105264599B (zh) 2019-05-10
PT3067890T (pt) 2018-03-08
HK1218179A1 (zh) 2017-02-03
CA2985121A1 (en) 2014-08-07
AU2014211479B2 (en) 2017-02-23
EP3054446A1 (en) 2016-08-10
JP6239007B2 (ja) 2017-11-29
ES2664185T3 (es) 2018-04-18
EP3070713A1 (en) 2016-09-21
WO2014118185A1 (en) 2014-08-07
TWI533288B (zh) 2016-05-11
EP3070713B1 (en) 2018-01-17
EP2951822A1 (en) 2015-12-09
CA2898637C (en) 2020-06-16
US20150332702A1 (en) 2015-11-19
CN105264599A (zh) 2016-01-20
PL3054446T3 (pl) 2024-02-19
AR115823A2 (es) 2021-03-03
CA2985121C (en) 2019-03-12
EP2951822B1 (en) 2019-11-13
RU2641461C2 (ru) 2018-01-17
US9646624B2 (en) 2017-05-09
BR112015017753A2 (pt) 2018-05-02
ES2659177T3 (es) 2018-03-14
CN110111801B (zh) 2023-11-10
CA2985115C (en) 2019-02-19
PL2951822T3 (pl) 2020-06-29
PL3070713T3 (pl) 2018-07-31
CA2985105A1 (en) 2014-08-07
CA2985115A1 (en) 2014-08-07
ZA201506312B (en) 2016-12-21
PT3070713T (pt) 2018-04-24
AU2014211479A1 (en) 2015-09-10
KR101771828B1 (ko) 2017-08-25
AR094681A1 (es) 2015-08-19
RU2015136792A (ru) 2017-03-10
MY185176A (en) 2021-04-30
CA2985105C (en) 2019-03-12
MX2015009682A (es) 2015-11-30
CN110111801A (zh) 2019-08-09
MX347062B (es) 2017-04-10
EP3054446C0 (en) 2023-08-09
ES2768179T3 (es) 2020-06-22
EP3067890B1 (en) 2018-01-03
ES2959240T3 (es) 2024-02-22
SG11201505912QA (en) 2015-08-28
BR112015017753B1 (pt) 2022-05-31
EP3054446B1 (en) 2023-08-09
CA2898637A1 (en) 2014-08-07
EP3067890A1 (en) 2016-09-14
PT2951822T (pt) 2020-02-05
JP2016509257A (ja) 2016-03-24

Similar Documents

Publication Publication Date Title
KR101771828B1 (ko) 오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현
CA2984066C (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
CA2984562C (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant