KR101852749B1 - 주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장 - Google Patents

주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장 Download PDF

Info

Publication number
KR101852749B1
KR101852749B1 KR1020167014361A KR20167014361A KR101852749B1 KR 101852749 B1 KR101852749 B1 KR 101852749B1 KR 1020167014361 A KR1020167014361 A KR 1020167014361A KR 20167014361 A KR20167014361 A KR 20167014361A KR 101852749 B1 KR101852749 B1 KR 101852749B1
Authority
KR
South Korea
Prior art keywords
signal
shaping
bandwidth extension
module
frequency domain
Prior art date
Application number
KR1020167014361A
Other languages
English (en)
Other versions
KR20160075768A (ko
Inventor
사샤 디슈
마르쿠스 뮬트러스
벤자민 슈베르트
마르쿠스 슈넬
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160075768A publication Critical patent/KR20160075768A/ko
Application granted granted Critical
Publication of KR101852749B1 publication Critical patent/KR101852749B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

본 발명은 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스를 제공하며, 그 오디오 디코더 디바이스는,
비트스트림을 수신하고, 비트스트림으로부터 인코딩된 오디오 신호를 도출하도록 구성된 비트스트림 수신기;
인코딩된 오디오 신호로부터 시간 도메인에서 디코딩된 오디오 신호를 도출하기 위해 구성된 코어 디코더 모듈;
디코딩된 오디오 신호의 시간적인 엔벨로프를 결정하도록 구성된 시간적인 엔벨로프 생성기;
주파수 도메인 대역폭 확장 신호를 생성하도록 구성된 대역폭 확장 모듈 - 대역폭 확장 모듈은, 시간 도메인에서 잡음 신호를 생성하도록 구성된 잡음 생성기를 포함하고, 대역폭 확장 모듈은, 형상화된 잡음 신호를 생성하기 위해, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하는 잡음 신호의 시간적인 형상화를 위해 구성된 사전-형상화 모듈을 포함하며, 대역폭 확장 모듈은, 형상화된 잡음 신호를 주파수 도메인 잡음 신호로 변환하도록 구성된 시간-투-주파수 변환기를 포함하고, 주파수 도메인 대역폭 확장 신호는 주파수 도메인 잡음 신호에 의존함 -;
디코딩된 오디오 신호를 주파수 도메인 디코딩된 오디오 신호로 변환하도록 구성된 시간-투-주파수 변환기;
대역폭 확장된 주파수 도메인 오디오 신호를 생성하기 위해 주파수 도메인 디코딩된 오디오 신호 및 주파수 도메인 대역폭 확장 신호를 결합하도록 구성된 결합기; 및
대역폭 확장된 주파수 도메인 오디오 신호를 대역폭-확장된 시간 도메인 오디오 신호로 변환하도록 구성된 주파수-투-시간 변환기를 포함한다.

Description

주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장{Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain}
본 발명은, 스피치(speech) 및 오디오 코딩에 관한 것으로, 더 상세하게는, 오디오 대역폭 확장(BWE)에 관한 것이다.
대역폭 확장 기술들은, 오디오 코덱의 유효 출력 대역폭을 넓힘으로써 오디오 코텍의 인지가능한 품질을 향상시키는데에 촛점에 맞춰져 있다. 근본적인 코어 코더를 이용하여 전체 대역폭 범위를 코딩하는 것 대신에, 대역폭 확장 기술을 사용하는 코덱들은, 인지가능하게 덜 중요한 고주파수(HF) 범위들에서의 더 작은 비트 소비를 허용한다. 따라서, 더 중요한 저주파수(LF) 범위를 더 높은 정밀도로 프로세싱하는 코어 코더에 이용가능한 더 많은 비트들이 존재한다. 그 이유때문에, 대역폭 확장 기술들은, 낮은 비트 레이트들에서 적절한 인지 품질을 실현할 필요가 있는 코덱들에서 일반적으로 사용된다.
일반적으로, 구별될 필요가 있는 2개의 상이한 기본적인 대역폭 확장 접근법들, 즉 블라인드(blind) 대역폭 확장 및 안내된(guided) 대역폭 확장이 존재한다. 블라인드 대역폭 확장에서, 어떠한 부가적인 사이드(side) 정보도 송신되지 않는다. 따라서, 디코더 측 상에 삽입될 HF-콘텐츠는, 코어 코더의 디코딩된 LF-신호로부터 도출된 정보만을 사용하여 생성된다. 값비싼 사이드 정보의 송신이 필요하지 않으므로, 블라인드 대역폭 확장 기술들은, 가장 낮은 비트 레이트들에서 동작하는 코덱들 또는 백워드-호환가능한(backward-compatible) 사후-프로세싱(post-processing) 절차들에 매우 적절하다. 한편, 제어가능성의 부족은 단지, 블라인드 대역폭 확장을 사용하는 대역폭의 비교적 작은 유효 확장(예를 들어, [1]의 6.4-7.0kHz)만을 허용한다. 블라인드 접근법과는 대조적으로, 안내된 대역폭 확장에서, HF-콘텐츠는, 인코더 측에서 추출되고 비트스트림에서 사이드 정보로서 인코더에 송신되는 파라미터들을 사용하여 복원된다. 따라서, 안내된 대역폭 확장은, HF-복원의 더 양호한 제어를 가능하게 하며, 더 넓은 유효 대역폭들을 가능하게 한다. 부가적인 비트 소비로 인해, 안내된 대역폭 확장 기술들은, 블라인드 대역폭 확장을 통합하는 시스템들로서 더 높은 비트 레이트들에서 동작하는 코덱틀에 대해 일반적으로 사용된다.
더 상세하게, 대역폭 확장을 실현하기 위한 상이한 방법들이 존재한다:
스피치 코딩에서, 예를 들어, G.722.2(AMR-WB) [1]에서와 같이 그들의 근본적인 코어 코더들에 밀접하게 관련된 일반적으로 소스-필터 모델-기반 대역폭 확장 방법들이 사용된다. AMR-WB에서, ACEP(대수 코드-여기된 선형 예측) 코어 코더의 6.4kHz의 출력 대역폭은, 백색 잡음을 여기 도메인으로 주입함으로써 7.0kHz로 확장된다. 후속하여, 확장된 여기는, 코어 코더의 선형 예측(LP) 필터로부터 도출된 필터에 의해 형상화된다. 비트 레이트에 의존하여, 삽입된 잡음의 스캐일링에 대한 이득은, 코어 코더 정보만을 사용하여 추정되거나, 그것은 인코더에서 추출되고 송신된다. 이러한 대역폭 확장 방법은, 그 방법이 자신의 통합(synthesis) 메커니즘들을 사용하고 있고 그에 따라 부가적으로 동일한 도메인에서 수행되어야 하므로, 자신의 근본적인 코딩 방식에 매우 의존한다.
오디오 코딩에서의 잘-알려진 코어 코더 독립적인 대역폭 확장 기술은 스펙트럼 대역 복제(spectral band replication)(SBR)[2]이다. 이전의 예와는 대조적으로, 스펙트럼 대역 복제는, 자신의 근본적인 코어 코더와는 독립적으로 적용될 수 있다. 제 1 단계로서, 입력 신호는, 예를 들어, 직교위상 미러 필터 분석 필터 뱅크(QMF)를 사용함으로써 인코더 측 상에서 LF-부분 및 HF-부분으로 분할된다. HF-부분이 스펙트럼 대역 복제에 의해 프로세싱되는 동안, LF-신호는 코어 코더에 공급된다. 따라서, LF-신호에 대한 HF-신호의 시간-주파수-엔벨로프(envelope) 뿐만 아니라 HF-신호의 조성(tonality)/잡음도(noisiness)를 설명하는 파라미터들이 추출되고 송신된다. 디코딩한 이후, 신호는, 인코더에서 사용된 것과 동일한 타입의 분석 필터 뱅크를 사용하여 변환된다. HF-콘텐츠를 복원하기 위해, 디코딩된 신호는, 송신된 파라미터들을 고려하여, 카피되고, HF-범위로 미러링되거나 부분-와이즈(portion-wise)로 이조(transpose)되고, 본래의 조성/잡음도와 매칭하도록 사후-프로세싱되며, 시간적으로 뿐만 아니라 스펙트럼적으로 형상화된다. 후속하여, 시간 도메인 출력 신호는, 대응하는 통합 필터 뱅크에 의해 생성된다.
이전에 언급된(준(semi)-) 파라미터적 방법들과는 대조적으로, 대역폭 확장을 위해 다수의 비트 레이트 선택적인 계층들을 사용하는 다중 계층 접근법들이 또한 존재한다. 이러한 원리는 또한, 스캐일링가능한 코딩방식들에 밀접하게 관련된다. 그들 기술들은 종종, 상호동작가능한 방식으로 기존의 코딩 시스템들을 확장시키기 위해 사용된다. [3]에서, 코어 코더와는 독립적인 변형된 이산 코사인 변환(MDCT) 기반 코딩 방식을 이용하여 부가적인 대역폭(8.0-14.4 kHz)을 프로세싱하는 G.711.1 및 G.722에 대한 슈퍼 광대역(SWB) 대역폭 확장이 제시된다. 이러한 접근법은, HF-부분들의 정확한 복원을 가능하게 하지만, 부가적으로 필요한 높은 비트 소비의 희생한다.
상기-언급된 대역폭 확장 접근법들이 본 발명의 스피치 및 오디오 코딩 시스템들에서 광범위하게 확산되지만, 그들 모두는 특정한 결점들 또는 단점들을 각각 노출한다.
대역폭 확장을 위한 개선된 개념을 제공하는 것이 본 발명의 목적이다.
이러한 목적은 비트스트림을 디코딩하기 위한 디코더 디바이스에 의해 달성되며, 여기서, 오디오 디코더 디바이스는 다음을 포함한다:
비트스트림을 수신하고, 비트스트림으로부터 인코딩된 오디오 신호를 도출하도록 구성된 비트스트림 수신기;
인코딩된 오디오 신호로부터 시간 도메인에서 디코딩된 오디오 신호를 도출하기 위해 구성된 코어 디코더 모듈;
디코딩된 오디오 신호의 시간적인 엔벨로프를 결정하도록 구성된 시간적인 엔벨로프 생성기;
주파수 도메인 대역폭 확장 신호를 생성하도록 구성된 대역폭 확장 모듈 - 대역폭 확장 모듈은, 시간 도메인에서 잡음 신호를 생성하도록 구성된 잡음 생성기를 포함하고, 대역폭 확장 모듈은, 형상화된 잡음 신호를 생성하기 위해, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하는 잡음 신호의 시간적인 형상화를 위해 구성된 사전-형상화 모듈을 포함하며, 대역폭 확장 모듈은, 형상화된 잡음 신호를 주파수 도메인 잡음 신호로 변환하도록 구성된 시간-투-주파수 변환기를 포함하고, 주파수 도메인 대역폭 확장 신호는 주파수 도메인 잡음 신호에 의존함 -;
디코딩된 오디오 신호를 주파수 도메인 디코딩된 오디오 신호로 변환하도록 구성된 시간-투-주파수 변환기;
대역폭 확장된 주파수 도메인 오디오 신호를 생성하기 위해 주파수 도메인 디코딩된 오디오 신호 및 주파수 도메인 대역폭 확장 신호를 결합하도록 구성된 결합기; 및
대역폭 확장된 주파수 도메인 오디오 신호를 대역폭-확장된 시간 도메인 오디오 신호로 변환하도록 구성된 주파수-투-시간 변환기.
본 발명은, 근본적인 코어 코딩 기술과는 독립적으로 기본적으로 적용될 수 있는 대역폭 확장 개념을 제공한다. 또한, 본 발명은, 특히 스피치 신호들에 대해 높은 인지 품질로, 낮은 비트 레이트 동작 포인트들에 대해 슈퍼 광대역 주파수 범위들까지 대역폭 확장을 제공한다. 이것은, 시간 도메인에서 시간적으로 형상화된 잡음 신호들을 생성함으로써 달성되며, 그 신호들은 주파수 도메인 디코딩된 오디오 신호로 변환 및 삽입된다.
용어 주파수 도메인 대역폭 확장 신호는, 디코딩된 오디오 신호에 포함되지 않는 주파수들을 포함하는 신호를 지칭한다.
예를 들어, 통합된 스피치 및 오디오 코딩(MPEG-D USAC)에 포함된 바와 같은 1개 초과의 단일 코어 코더를 포함하는 유연한 신호-적응적 시스템들에서, 상이한 코어 코더들 사이에서의 트랜지션에서 발생하는 스위칭 아티팩트(artifact)들은, 대역폭 확장이 또한 동시에 스위칭되어야 하므로, 강조될 수 있다. 이들 문제점들은, 본 발명에 따른 코어 코더 독립적인 대역폭 확장 기술을 적용함으로써 극복될 수 있다.
스펙트럼 대역 복제는, 특히, LF-컴포넌트의 HF-부분으로의 패칭(patching)으로 인해 스피치가 코딩되는 경우 짜증스러울 수도 있는 아티팩트들을 도입한다. 한편으로, 그들 아티팩트들은 LF-콘텐츠 및 패칭된 HF-콘텐츠의 상관으로 인해 발생한다. 다른 한편으로, LF-부분과 HF-부분 사이의 가능한 스펙트럼 미스매치는 급격한 사운딩 불협화음 왜곡들을 유도한다. 그와 대조적으로, 본 발명에 따른 디코더 디바이스는 아티팩트들 및 급격한 사운딩을 생성하는 것을 회피한다.
스펙트럼 대역 복제의 다른 단점은, 패칭된 HF-부분의 시간적인 구조를 조작하기 위한 제한된 가능성이다. 콘텐츠의 비트 레이트 유효 파라미터적인 시간-주파수-표현의 필요성으로 인해, 시간적인 해상도가 제한된다. 이것은, 예를 들어, 성문 펄스들의 피치는 높고, 또한 높은 시간적인 가변성을 나타내는 여성의 스피치를 프로세싱하기에 유리하지 않다. 본 발명에 따른 디코더 디바이스는, 스펙트럼 대역 복제와는 대조적으로, 여성의 스피치를 복원하는데 매우 적합하다.
마지막으로, 다중 계층들에 기초한 대역폭 확장은, 스펙트럼적으로 정확한 방식 및 시간적으로 정확한 방식 둘 모두로 HF-콘텐츠를 복원할 수 있지만, 다른 한편으로는, 그의 필요한 비트 소비가 파라미터적인 접근법들에 대한 것보다 상당히 더 높다. 본 발명에 따른 디코더 디바이스는 그러한 접근법들에 강요된 것보다 더 낮은 비트 소비를 제공한다.
따라서, 본 발명은, 잘-알려진 이전에 설명된 대역폭 확장 기술들의 이점들을 결합시키면서 그들의 단점들을 없애는 새로운 대역폭 확장 개념을 제공한다. 더 상세하게, 낮은 비트 레이트의 높은 품질의 슈퍼 광대역 스피치 코딩을 가능하게 하면서 근본적인 코어 코더와는 독립적인 개념이 제공된다.
본 발명은, 슈퍼 광대역 범위까지 출력 대역폭들에 대해 특히 스피치에 대한 높은 인지 품질로 제공된다. 본 발명에 따른 대역폭 확장은 잡음 삽입에 기초한다. 부가적으로, 새로운 대역폭 확장은 자신의 근본적인 코어 코덱과는 독립적이다. 따라서, 표준 스피치 코딩 대역폭 확장과는 대조적으로, 본 발명은, 기본적으로 상이한 코딩 방식들을 포함하는 스위칭 시스템의 상단 상에서 사용되기에 적합하다.
새로이 제안된 대역폭 확장의 신호 및 코어 디코더의 신호의 혼합이 스펙트럼 대역 복제에 상당하는 시간-주파수-표현에서 수행되므로, 기술들 둘 모두는 결합된 시스템으로 용이하게 결합될 수 있으며, 여기서, 프레임 단위 기반의 심리스한 스위칭 또는 주어진 프레임 내에서의 블렌딩(blending)이 가능할 것이다. 새로운 대역폭 확장이 주로 스피치에 촛점이 맞춰져 있지만, 이러한 접근법은 음악 또는 혼합된 콘텐츠를 포함하는 신호들을 프로세싱하기에 바람직할 수도 있다. 스위칭은, 송신된 사이드 정보에 의해 또는 코어 신호를 분석함으로써 디코더에서 도출된 파라미터들에 의해 제어될 수 있다.
본 발명에 따르면, 필터 뱅크들이 높은 피치의(예를 들어, 여성의) 스피치를 복원하기 위해 본질적인 시간 해상도를 제한하므로, 시간 도메인에서 시간적인 해상도가 스펙트럼 대역 복제 프로세싱에 적용된 것과 유사한 해상도들(여기서, 잡음이 시간-주파수-표현 내에서 생성 및 형상화됨)에서보다 더 높기 때문에, 잡음의 생성 및 후속 형상화가 시간 도메인에서 행해진다.
위에서 언급된 문제점들을 회피하고 요건들을 여전히 충족시키기 위해, 새로운 대역폭 확장은 다음의 프로세싱 단계들을 수행한다: 먼저, 단일 잡음 신호가 시간 도메인에서 생성되며, 여기서, 샘플들의 수는 시스템의 프레임 레이트 뿐만 아니라 선택된 샘플 레이트 및 잡음 신호의 대역폭으로부터 발생한다. 후속하여, 잡음 신호는, 디코딩된 코어 코더의 신호의 시간적인 엔벨로프에 기초하여 시간적으로 형상화된다. 또한, 결합된 시간-주파수-표현된 신호는, 역변환에 의해 대역폭 확장된 시간 도메인 오디오 신호로 변환된다.
대역폭 확장 기술들은 일반적으로, 유효 출력 대역폭을 넓힘으로써 인지 품질을 향상시키기 위해 스피치 및 오디오 코딩에서 사용된다. 따라서, 대부분의 이용가능한 비트들은 코어 코더 내에서 사용될 수 있으며, 더 중요한 더 낮은 주파수 범위에서 더 높은 정밀도를 가능하게 한다. 기존의 접근법들이 존재하지만(이들 중 몇몇은 넓은 수용을 획득했음), 그 접근법들 모두는, 상이한 코딩 방식들에 기초하여 다수의 스위칭가능한 코어 코더들을 포함하는 시스템에 의한 스피치 프로세싱에 대한 실행가능성이 부족하다. 본 발명에 따른 대역폭 확장이 코어 디코더 기술과는 독립적이므로, 본 발명은, 위에서-언급된 애플리케이션 및 다른 것들에 완벽하게 적합한 대역폭 확장 기술을 제안한다.
본 발명에 따른 대역폭 확장 내에서, 사전-형성화될 수 있는 시간적인 엔벨로프를 갖는 완전히 종합적인 확장 신호들이 생성될 수도 있으며, 그에 의해, 근본적인 코어 코더 신호에 적응된다. 확장 신호의 시간적인 엔벨로프의 형상화는, 그것이 대역폭 확장 사후-형상화 프로세스에서 이용되는 순수한(genuine) 필터 뱅크 또는 변환 도메인 내에서 이용가능한 것보다 상당히 더 높은 시간 해상도로 행해질 수 있다.
본 발명의 선호되는 실시예에 따르면, 주파수 도메인 대역폭 확장 신호는, 스펙트럼 대역 복제 없이 생성된다. 이들 특성들을 결합함으로써, 필요한 계산 노력이 최소화될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 잡음 신호의 시간적인 형상화가 과하게 강조된(overemphasized) 방식으로 행해지는 그러한 방식으로 구성된다. 디코딩된 오디오 신호의 본래의 시간적인 엔벨로프에 기초하여 잡음 신호를 형상화하는 것 대신, 과하게 강조된 방식으로 이러한 형상화를 수행하는 것이 또한 가능하다. 이것은, 엔벨로프 기반으로 사전-형상화 이득들을 도출하기 전에, 진폭들의 관점들에서 시간적인 엔벨로프를 확산시킴으로써, 즉 동적 확장에 의해, 특히 측정되는 것보다 훨씬 더 급격한 펄스들을 표현하기 위해 측정된 엔벨로프를 변경시킴으로써 실현될 수 있다. 이러한 지나친 강조가 실제 본래의 엔벨로프를 표현하지 않지만, 예를 들어, 모음(vowel)들과 같은 몇몇 신호 부분들의 명료함이 매우 낮은 비트레이트들에 대해 개선된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 대역 통과 필터들의 뱅크에 의해 잡음 신호를 수 개의 서브대역 잡음 신호들로 분할시키고 서브대역 잡음 신호들 각각에 대해 특정한 시간적인 형상화를 수행함으로써 잡음 신호의 시간적인 형상화가 서브대역-와이즈(subband-wise)로 행해지는 그러한 방식으로 구성된다.
잡음 신호를 균일하게 사전-형상화시키는 것 대신, 형상화는, 대역 통과 필터들의 뱅크에 의해 잡음 신호를 수 개의 서브대역들로 분할시키고 모든 각각의 서브대역 신호에 대해 특정한 형상화를 수행함으로써 더 정밀하게 행해질 수 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 주파수 도메인 대역폭 확장 신호의 주파수 범위를 셋팅하기 위해 구성되는 주파수 범위 선택기를 포함한다. 형상화된 잡음 신호를 시간-주파수-표현으로 변환한 이후, 대역폭 확장된 주파수-도메인 오디오 신호의 타겟팅된 대역폭이 선택될 수도 있으며, 필요하다면, 의도된 스펙트럼 포지션으로 시프팅될 수도 있다. 이들 특성들에 의해, 대역폭-확장된 시간 도메인 오디오 신호의 주파수 범위는 용이한 방식으로 선택될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 주파수 도메인 대역폭 확장 신호의 주파수 도메인에서 시간적인 및/또는 스펙트럼적인 형상화를 위해 구성되는 사후-형상화 모듈을 포함한다. 이들 특성들에 의해, 주파수 도메인 대역폭 확장 신호는, 정제(refinement)를 위해 부가적인 시간적인 트렌드 및/또는 스펙트럼 엔벨로프에 대해 적응될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 비트스트림 수신기는, 비트스트림으로부터 사이드 정보 신호를 도출하도록 구성되며, 여기서, 대역폭 확장 모듈은, 사이드 정보 신호에 의존하여 주파수 도메인 대역폭 확장 신호를 생성하도록 구성된다. 다른 표현으로 하면, 인코더 내에서 추출되었고 비트스트림을 통해 송신되었던 부가적인 사이드 정보는, 주파수 도메인 대역폭 확장 신호의 추가적인 정제를 위해 적용될 수도 있다. 이들 특성들에 의해, 대역폭-확장된 시간 도메인 오디오 신호의 인지된 품질이 추가적으로 증가될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 잡음 생성기는 사이드 정보 신호에 의존하여 잡음 신호를 생성하도록 구성된다. 이러한 실시예에서, 잡음 생성기는, 대역폭-확장된 시간 도메인 오디오 신호의 인지된 품질을 추가적으로 개선하기 위해, 스펙트럼적으로 평평한 백색 잡음 대신 스펙트럼 틸트(tilt)를 갖는 잡음 신호를 획득하기 위한 방식으로 제어될 수 있다.
본 발명의 선호되는 실시예에 따르면, 사전-형상화 모듈은, 사이드 정보 신호에 의존하여 잡음 신호의 시간적인 형상화를 위해 구성된다. 사전-형상화 내에서, 사이드 정보는, 예를 들어, 사전-형상화를 위해 사용되는 코어 디코더 신호의 특정한 타겟 대역폭을 선택하기 위해 사용될 수 있다.
본 발명의 선호되는 실시예에 따르면, 사후 형상화 모듈은, 사이드 정보 신호에 의존하여 주파수 도메인 출력 잡음 신호의 시간적인 및/또는 스펙트럼적인 형상화를 위해 구성된다. 사후-형상화에서 사이드 정보를 사용하는 것은, 주파수 도메인 대역폭 확장 신호의 코오스한(coarse) 시간-주파수-엔벨로프가 본래의 엔벨로프를 따른다는 것을 보장할 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 시간 도메인에서 추가적인 잡음 신호를 생성하도록 구성된 추가적인 잡음 생성기, 추가적인 형상화된 잡음 신호를 생성하기 위해, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하여 추가적인 잡음 신호의 시간적인 형상화를 위해 구성된 추가적인 사전-형상화 모듈, 및 추가적인 형상화된 잡음 신호를 추가적인 주파수 도메인 잡음 신호로 변환하도록 구성된 추가적인 시간-투-주파수 변환기를 포함하며, 여기서, 주파수 도메인 대역폭 확장 신호는 추가적인 주파수 도메인 잡음 신호에 의존한다. 2개 또는 그 초과의 주파수 도메인 잡음 신호를 사용하여 주파수 도메인 대역폭 확장 신호를 생성하는 것은, 대역폭-확장된 시간 도메인 오디오 신호의 인지된 품질의 증가를 유도할 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 추가적인 잡음 신호의 시간적인 형상화가 과하게 강조된 방식으로 행해지는 그러한 방식으로 구성된다. 디코딩된 오디오 신호의 본래의 시간적인 엔벨로프에 기초하여 추가적인 잡음 신호를 형상화하는 것 대신, 과하게 강조된 방식으로 이러한 형상화를 수행하는 것이 또한 가능하다. 이것은, 시간적인 엔벨로프 기반으로 사전-형상화 이득들을 도출하기 전에, 진폭들의 관점들에서 시간적인 엔벨로프를 확산시킴으로써 실현될 수 있다. 이러한 지나친 강조가 실제 본래의 엔벨로프를 표현하지 않지만, 예를 들어, 모음들과 같은 몇몇 신호 부분들의 명료함이 매우 낮은 비트레이트들에 대해 개선된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 대역 통과 필터들의 뱅크에 의해 추가적인 잡음 신호를 수 개의 추가적인 서브대역 잡음 신호들로 분할시키고 추가적인 서브대역 잡음 신호들 각각에 대해 특정한 시간적인 형상화를 수행함으로써 추가적인 잡음 신호의 시간적인 형상화가 서브대역-와이즈로 행해지는 그러한 방식으로 구성된다.
추가적인 잡음 신호를 균일하게 사전-형상화시키는 것 대신, 형상화는, 대역 통과 필터들의 뱅크에 의해 추가적인 잡음 신호를 수 개의 서브대역들로 분할시키고 모든 각각의 서브대역 신호에 대해 특정한 형상화를 수행함으로써 더 정밀하게 행해질 수 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 시간 도메인에서 톤(tone) 신호를 생성하도록 구성된 톤 생성기, 형상화된 톤 신호를 생성하기 위해, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하여 톤 신호의 시간적인 형상화를 위해 구성되는 사전-형상화 모듈, 및 형상화된 톤 신호를 주파수 도메인 톤 신호로 변환하도록 구성된 시간-투-주파수 변환기를 포함하며, 여기서, 주파수 도메인 대역폭 확장 신호는 주파수 도메인 톤 신호에 의존한다.
상기 톤 생성기는, 모든 종류들의 톤들, 예를 들어, 사인 톤들, 삼각형 및 정방형 웨이브 톤들, 톱니 모양의 톤들, 아티팩트적인 음성 스피치를 닮은 펄스들 등을 생성하도록 기능적일 수도 있다. 종합적인 잡음 신호들을 프로세싱하는 것에 부가하여, 시간적으로 형상화되고 후속하여 주파수 표현으로 변환되는 종합적인 톤 컴포넌트들을 시간 도메인에서 생성하는 것이 또한 가능하다. 이러한 경우, 시간 도메인에서의 형상화는, 예를 들어, 일반적인 주파수 도메인 표현에서 가능하지 않은 톤들의 ADSR(어택(attack), 감쇠(decay), 지속, 릴리즈)을 정밀하게 모델링하기에 유익하다. 주파수 도메인 톤 신호의 부가적인 사용은, 대역폭 확장된 시간 도메인 신호의 품질을 추가적으로 증가시킬 수도 있다.
본 발명의 선호되는 실시예에 따르면, 코어 디코더 모듈은, 시간 도메인 코어 디코더 및 주파수 도메인 코어 디코더를 포함하며, 여기서, 시간 도메인 코어 디코더 또는 주파수 도메인 코어 디코더 중 어느 하나는, 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 도출하기 위해 사용된다. 이들 특성들은, 통합된 스피치 및 오디오 코딩(MPEG-D USAC) 환경에서 본 발명을 사용하는 것을 허용한다.
본 발명의 선호되는 실시예에 따르면, 제어 파라미터 추출기는, 디코딩된 오디오 신호로부터 코어 디코더 모듈에 의해 사용되는 제어 파라미터들을 추출하기 위해 구성되며, 여기서, 대역폭 확장 모듈은, 제어 파라미터들에 의존하여 주파수 도메인 대역폭 확장 신호를 생성하도록 구성된다. 주파수 도메인 대역폭 확장 신호가 코어 코더 엔벨로프에 기초하여 블라인드하게 생성되거나, 코어 코더 신호로부터 도출된 파라미터들에 의해 제어될 수도 있지만, 그 신호는 또한, 인코더로부터의 추출 및 송신된 파라미터들에 의해 부분적으로 안내된 방식으로 생성될 수 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하여 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며, 여기서, 사전-형상화 모듈은, 사전-형상화 모듈에 대한 형상화 이득들에 의존하여 잡음 신호의 시간적인 형상화를 위해 구성된다. 이들 특성들은 본 발명을 용이한 방식으로 구현하는 것을 허용한다.
본 발명의 선호되는 실시예에 따르면, 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위한 형상화 이득 계산기는, 제어 파라미터들에 의존하여 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위해 구성된다. 이들 특성들은 본 발명을 용이한 방식으로 구현하는 것을 허용한다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하여 추가적인 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며, 여기서, 추가적인 사전-형상화 모듈은, 추가적인 사전-형상화 모듈에 대한 형상화 이득들에 의존하여 추가적인 잡음 신호의 시간적인 형상화를 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 추가적인 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위한 형상화 이득 계산기는, 제어 파라미터들에 의존하여 추가적인 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈은, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하여 톤 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며, 여기서, 톤 사전-형상화 모듈은, 톤 사전-형상화 모듈에 대한 형상화 이득들에 의존하여 톤 신호의 시간적인 형상화를 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 톤 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위한 형상화 이득 계산기는, 제어 파라미터들에 의존하여 추가적인 사전-형상화 모듈에 대한 형상화 이득들을 설정하기 위해 구성된다.
추가적인 양상에서, 목적은, 비트스트림을 디코딩하기 위한 방법에 의해 달성되며, 그 방법은 다음의 단계들을 포함한다:
비트스트림을 수신하고, 비트스트림 수신기를 사용하여 비트스트림으로부터 인코딩된 오디오 신호를 도출하는 단계;
코어 디코더 모듈을 사용하여, 시간 도메인에서, 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 도출하는 단계;
시간적인 엔벨로프 생성기를 사용하여 디코딩된 오디오 신호의 시간적인 엔벨로프를 결정하는 단계;
다음의 단계들을 실행하는 대역폭 확장 모듈을 사용하여 주파수 도메인 대역폭 확장 신호를 생성하는 단계;
대역폭 확장 모듈의 잡음 생성기를 사용하여 시간 도메인에서 잡음 신호를 생성하는 단계,
대역폭 확장 모듈의 사전-형상화 모듈을 사용하여 형상화된 잡음 신호를 생성하기 위해, 디코딩된 오디오 신호의 시간적인 엔벨로프에 의존하여 잡음 신호의 시간 형상화하는 단계, 및
형상화된 잡음 신호를 주파수 도메인 잡음 신호로 변환하는 단계 - 주파수 도메인 대역폭 확장 신호는, 대역폭 확장 모듈의 시간-투-주파수 변환기를 사용하여 주파수 도메인 잡음 신호에 의존함 -;
추가적인 시간-투-주파수 변환기를 사용하여, 디코딩된 오디오 신호를 주파수 도메인 디코딩된 오디오 신호로 변환하는 단계;
결합기를 사용하여 대역폭 확장된 주파수 도메인 오디오 신호를 생성하기 위해 주파수 도메인 디코딩된 오디오 신호 및 주파수 도메인 대역폭 확장 신호를 결합하는 단계; 및
주파수-투-시간 변환기를 사용하여 대역폭 확장된 주파수 도메인 오디오 신호를 대역폭-확장된 시간 도메인 오디오 신호로 변환하는 단계.
추가적인 양상에서, 목적은, 프로세서 상에서 구동하는 경우 본 발명의 방법을 실행하는 컴퓨터 프로그램에 의해 달성된다.
본 발명의 바람직한 실시예들은, 첨부한 도면들에 대해 후속하여 설명된다.
도 1은, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 1 실시예를 도시한다.
도 2는, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 2 실시예를 도시한다.
도 3은, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 3 실시예를 도시한다.
도 4는, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 4 실시예를 도시한다.
도 1은, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 1 실시예를 도시한다.
오디오 디코더 디바이스(1)는 다음을 포함한다:
비트스트림(BS)을 수신하고, 비트스트림(BS)으로부터 인코딩된 오디오 신호(EAS)를 도출하도록 구성된 비트스트림 수신기(2);
인코딩된 오디오 신호(EAS)로부터 시간 도메인에서 디코딩된 오디오 신호(DAS)를 도출하기 위해 구성된 코어 디코더 모듈(3);
디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)를 결정하도록 구성된 시간적인 엔벨로프 생성기(4);
주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성된 대역폭 확장 모듈(5) - 대역폭 확장 모듈(5)은, 시간 도메인에서 잡음 신호(NOS)를 생성하도록 구성된 잡음 생성기(6)를 포함하고, 대역폭 확장 모듈(5)은, 형상화된 잡음 신호(SNS)를 생성하기 위해, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하는 잡음 신호(NOS)의 시간적인 형상화를 위해 구성된 사전-형상화 모듈(7)을 포함하며, 대역폭 확장 모듈(5)은, 형상화된 잡음 신호(SNS)를 주파수 도메인 잡음 신호(FNS)로 변환하도록 구성된 시간-투-주파수 변환기(8)를 포함하고, 주파수 도메인 대역폭 확장 신호(BEF)는 주파수 도메인 잡음 신호(FNS)에 의존함 -;
디코딩된 오디오 신호(DAS)를 주파수 도메인 디코딩된 오디오 신호(FDS)로 변환하도록 구성된 시간-투-주파수 변환기(9);
대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 생성하기 위해 주파수 도메인 디코딩된 오디오 신호(FDS) 및 주파수 도메인 대역폭 확장 신호(BEF)를 결합하도록 구성된 결합기(10); 및
대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 대역폭-확장된 시간 도메인 오디오 신호(BAS)로 변환하도록 구성된 주파수-투-시간 변환기(11).
본 발명은, 근본적인 코어 코딩 기술과는 독립적으로 기본적으로 적용될 수 있는 대역폭 확장 개념을 제공한다. 또한, 본 발명은, 특히 스피치 신호들에 대해 높은 인지 품질로, 낮은 비트 레이트 동작 포인트들에 대해 슈퍼 광대역 주파수 범위들까지 대역폭 확장을 제공한다. 이것은, 시간 도메인에서 시간적으로 형상화된 잡음 신호들(SNS)을 생성함으로써 달성되며, 그 신호들은 주파수 도메인 디코딩된 오디오 신호(FDS)로 변환 및 삽입된다.
예를 들어, 통합된 스피치 및 오디오 코딩(MPEG-D USAC)에 포함된 바와 같은 1개 초과의 단일 코어 코더를 포함하는 유연한 신호-적응적 시스템들에서, 상이한 코어 코더들 사이에서의 트랜지션에서 발생하는 스위칭 아티팩트(artifact)들은, 대역폭 확장이 또한 동시에 스위칭되어야 하므로, 강조될 수 있다. 이들 문제점들은, 본 발명에 따른 코어 코더 독립적인 대역폭 확장 기술을 적용함으로써 극복될 수 있다.
스펙트럼 대역 복제는, 특히, LF-컴포넌트의 HF-부분으로의 패칭으로 인해 스피치가 코딩되는 경우 짜증스러울 수도 있는 아티팩트들을 도입한다. 한편으로, 그들 아티팩트들은 LF-콘텐츠 및 패칭된 HF-콘텐츠의 상관으로 인해 발생한다. 다른 한편으로, LF-부분과 HF-부분 사이의 가능한 스펙트럼 미스매치는 급격한 사운딩 불협화음 왜곡들을 유도한다. 그와 대조적으로, 본 발명에 따른 디코더 디바이스(1)는 아티팩트들 및 급격한 사운딩을 생성하는 것을 회피한다.
스펙트럼 대역 복제의 다른 단점은, 패칭된 HF-부분의 시간적인 구조를 조작하기 위한 가능성의 부족이다. 콘텐츠의 비트 레이트 유효 파라미터적인 시간-주파수-표현의 필요성으로 인해, 시간적인 해상도가 제한된다. 이것은, 예를 들어, 성문 펄스들의 피치는 높고, 또한 높은 시간적인 가변성을 나타내는 여성의 스피치를 프로세싱하기에 유리하지 않다. 본 발명에 따른 디코더 디바이스(1)는, 스펙트럼 대역 복제와는 대조적으로, 여성의 스피치를 복원하는데 매우 적합하다.
마지막으로, 다중 계층들에 기초한 대역폭 확장은, 스펙트럼적으로 정확한 방식 및 시간적으로 정확한 방식 둘 모두로 HF-콘텐츠를 복원할 수 있지만, 다른 한편으로는, 그의 필요한 비트 소비가 파라미터적인 접근법들에 대한 것보다 상당히 더 높다. 본 발명에 따른 디코더 디바이스(1)는 그러한 접근법들에 강요된 것보다 더 낮은 비트 소비를 제공한다.
따라서, 본 발명은, 잘-알려진 이전에 설명된 대역폭 확장 기술들의 이점들을 결합시키면서 그들의 단점들을 없애는 새로운 대역폭 확장 개념을 제공한다. 더 상세하게, 낮은 비트 레이트의 높은 품질의 슈퍼 광대역 스피치 코딩을 가능하게 하면서 근본적인 코어 코더(3)와는 독립적인 개념이 제공된다.
본 발명은, 슈펴 광대역 범위까지 출력 대역폭들에 대해 특히 스피치에 대한 높은 인지 품질로 제공된다. 본 발명에 따른 대역폭 확장은 잡음 삽입에 기초한다. 부가적으로, 새로운 대역폭 확장은 자신의 근본적인 코어 코덱과는 독립적이다. 따라서, 표준 스피치 코딩 대역폭 확장과는 대조적으로, 본 발명은, 기본적으로 상이한 코딩 방식들을 포함하는 스위칭 시스템의 상단 상에서 사용되기에 적합하다.
새로이 제안된 대역폭 확장의 신호 및 코어 디코더의 신호의 혼합이 스펙트럼 대역 복제에 상당하는 시간-주파수-표현에서 수행되므로, 기술들 둘 모두는 결합된 시스템으로 용이하게 결합될 수 있으며, 여기서, 프레임 단위 기반의 심리스한 스위칭 또는 주어진 프레임 내에서의 블렌딩(blending)이 가능할 것이다. 새로운 대역폭 확장이 주로 스피치에 촛점이 맞춰져 있지만, 이러한 접근법은 음악 또는 혼합된 콘텐츠를 포함하는 신호들을 프로세싱하기에 바람직할 수도 있다. 스위칭은, 송신된 사이드 정보에 의해 또는 코어 신호(DAS)를 분석함으로써 디코더(3)에서 도출된 파라미터들에 의해 제어될 수 있다.
본 발명에 따르면, 필터 뱅크들이 높은 피치의(예를 들어, 여성의) 스피치를 복원하기 위해 본질적인 시간 해상도를 제한하므로, 시간 도메인에서 시간적인 해상도가 스펙트럼 대역 복제 프로세싱에 적용된 것과 유사한 해상도들(여기서, 잡음이 시간-주파수-표현 내에서 생성 및 형상화됨)에서보다 더 높기 때문에, 잡음의 생성 및 후속 형상화가 시간 도메인에서 행해진다.
위에서 언급된 문제점들을 회피하고 요건들을 여전히 충족시키기 위해, 새로운 대역폭 확장은 다음의 프로세싱 단계들을 수행한다: 먼저, 단일 잡음 신호(NOS)가 시간 도메인에서 생성되며, 여기서, 샘플들의 수는 시스템의 프레임 레이트 뿐만 아니라 선택된 샘플 레이트 및 잡음 신호의 대역폭으로부터 발생한다. 후속하여, 잡음 신호(NOS)는, 디코딩된 코어 코더의 신호(DAS)의 시간적인 엔벨로프(TED)에 기초하여 시간적으로 형상화된다. 또한, 결합된 시간-주파수-표현된 신호(BFS)는, 역변환에 의해 대역폭 확장된 시간 도메인 오디오 신호(BAS)로 변환된다.
대역폭 확장 기술들은 일반적으로, 유효 출력 대역폭을 넓힘으로써 인지 품질을 향상시키기 위해 스피치 및 오디오 코딩에서 사용된다. 따라서, 대부분의 이용가능한 비트들은 코어 코더(3) 내에서 사용될 수 있으며, 더 중요한 더 낮은 주파수 범위에서 더 높은 정밀도를 가능하게 한다. 기존의 접근법들이 존재하지만(이들 중 몇몇은 넓은 수용을 획득했음), 그 접근법들 모두는, 상이한 코딩 방식들에 기초하여 다수의 스위칭가능한 코어 코더들을 포함하는 시스템에 의한 스피치 프로세싱에 대한 실행가능성이 부족하다. 본 발명에 따른 대역폭 확장이 코어 디코더 기술과는 독립적이므로, 본 발명은, 위에서-언급된 애플리케이션 및 다른 것들에 완벽하게 적합한 대역폭 확장 기술을 제안한다.
본 발명에 따른 대역폭 확장 내에서, 사전-형성화될 수 있는 시간적인 엔벨로프를 갖는 완전히 종합적인 확장 신호들이 생성될 수도 있으며, 그에 의해, 근본적인 코어 코더 신호(DAS)에 적응된다. 확장 신호(SNS)의 시간적인 엔벨로프의 형상화는, 그것이 대역폭 확장 사후-형상화 프로세스에서 이용되는 순수한(genuine) 필터 뱅크 또는 변환 도메인 내에서 이용가능한 것보다 상당히 더 높은 시간 해상도로 행해질 수 있다.
본 발명의 선호되는 실시예에 따르면, 주파수 도메인 대역폭 확장 신호(BEF)는, 스펙트럼 대역 복제 없이 생성된다. 이들 특성들을 결합함으로써, 필요한 계산 노력이 최소화될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 잡음 신호(NOS)의 시간적인 형상화가 과하게 강조된 방식으로 행해지는 그러한 방식으로 구성된다. 디코딩된 오디오 신호(DAS)의 본래의 시간적인 엔벨로프(TED)에 기초하여 잡음 신호(NOS)를 형상화하는 것 대신, 과하게 강조된 방식으로 이러한 형상화를 수행하는 것이 또한 가능하다. 이것은, 시간적인 엔벨로프 기반(TED)으로 사전-형상화 이득들을 도출하기 전에, 진폭들의 관점들에서 시간적인 엔벨로프를 확산시킴으로써 실현될 수 있다. 이러한 지나친 강조가 실제 본래의 엔벨로프(TED)를 표현하지 않지만, 예를 들어, 모음들과 같은 몇몇 신호 부분들의 명료함이 매우 낮은 비트레이트들에 대해 개선된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 대역 통과 필터들의 뱅크에 의해 잡음 신호(NOS)를 수 개의 서브대역 잡음 신호들로 분할시키고 서브대역 잡음 신호들 각각에 대해 특정한 시간적인 형상화를 수행함으로써 잡음 신호(NOS)의 시간적인 형상화가 서브대역-와이즈로 행해지는 그러한 방식으로 구성된다.
잡음 신호(NOS)를 균일하게 사전-형상화시키는 것 대신, 형상화는, 대역 통과 필터들의 뱅크에 의해 잡음 신호(NOS)를 수 개의 서브대역들로 분할시키고 모든 각각의 서브대역 신호에 대해 특정한 형상화를 수행함으로써 더 정밀하게 행해질 수 있다.
또한, 본 발명은 비트스트림(BS)을 디코딩하기 위한 방법에 관한 것이며, 여기서, 방법은 다음의 단계들을 포함한다:
비트스트림(BS)을 수신하고, 비트스트림 수신기(2)를 사용하여 비트스트림(BS)으로부터 인코딩된 오디오 신호(EAS)를 도출하는 단계;
코어 디코더 모듈(3)을 사용하여, 시간 도메인에서, 인코딩된 오디오 신호(EAS)로부터 디코딩된 오디오 신호(DAS)를 도출하는 단계;
시간적인 엔벨로프 생성기(4)를 사용하여 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)를 결정하는 단계;
다음의 단계들을 실행하는 대역폭 확장 모듈(5)을 사용하여 주파수 도메인 대역폭 확장 신호(BEF)를 생성하는 단계;
대역폭 확장 모듈(5)의 잡음 생성기(6)를 사용하여 시간 도메인에서 잡음 신호(NOS)를 생성하는 단계,
대역폭 확장 모듈(5)의 사전-형상화 모듈(7)을 사용하여 형상화된 잡음 신호(SNS)를 생성하기 위해, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 잡음 신호(NOS)의 시간 형상화하는 단계, 및
대역폭 확장 모듈(5)의 시간-투-주파수 변환기(8)를 사용하여, 형상화된 잡음 신호(SNS)를 주파수 도메인 잡음 신호(FNS)로 변환하는 단계 - 주파수 도메인 대역폭 확장 신호(BEF)는, 주파수 도메인 잡음 신호(FNS)에 의존함 -;
추가적인 시간-투-주파수 변환기(9)를 사용하여, 디코딩된 오디오 신호(DAS)를 주파수 도메인 디코딩된 오디오 신호(FDS)로 변환하는 단계;
결합기(10)를 사용하여 대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 생성하기 위해 주파수 도메인 디코딩된 오디오 신호(FDS) 및 주파수 도메인 대역폭 확장 신호(BEF)를 결합하는 단계; 및
주파수-투-시간 변환기(11)를 사용하여 대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 대역폭-확장된 시간 도메인 오디오 신호(BAS)로 변환하는 단계.
또한, 본 발명은, 프로세서 상에서 구동하는 경우 본 발명에 따른 방법을 실행하는 컴퓨터 프로그램에 관한 것이다.
도 2는, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 2 실시예를 도시한다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 주파수 도메인 대역폭 확장 신호(BEF)의 주파수 범위를 셋팅하기 위해 구성되는 주파수 범위 선택기(12)를 포함한다. 형상화된 잡음 신호(SNS)를 시간-주파수-표현(FNS)으로 변환한 이후, 대역폭 확장된 주파수-도메인 오디오 신호(BEF)의 타겟팅된 대역폭이 선택될 수도 있으며, 필요하다면, 의도된 스펙트럼 포지션으로 시프팅될 수도 있다. 이들 특성들에 의해, 대역폭-확장된 시간 도메인 오디오 신호(BAS)의 주파수 범위는 용이한 방식으로 선택될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 주파수 도메인 대역폭 확장 신호(BEF)의 주파수 도메인에서 시간적인 및/또는 스펙트럼적인 형상화를 위해 구성되는 사후-형상화 모듈을 포함한다. 이들 특성들에 의해, 주파수 도메인 대역폭 확장 신호(BEF)는, 정제를 위해 부가적인 시간적인 트렌드 및/또는 스펙트럼 엔벨로프에 대해 적응될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 비트스트림 수신기(2)는, 비트스트림(BS)으로부터 사이드 정보 신호(SIS)를 도출하도록 구성되며, 여기서, 대역폭 확장 모듈(5)은, 사이드 정보 신호(SIS)에 의존하여 주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성된다. 다른 표현으로 하면, 인코더 내에서 추출되었고 비트스트림(BS)을 통해 송신되었던 부가적인 사이드 정보는, 주파수 도메인 대역폭 확장 신호(BEF)의 추가적인 정제를 위해 적용될 수도 있다. 이들 특성들에 의해, 대역폭-확장된 시간 도메인 오디오 신호(BAS)의 인지된 품질이 추가적으로 증가될 수도 있다.
본 발명의 선호되는 실시예에 따르면, 잡음 생성기(6)는 사이드 정보 신호(SIS)에 의존하여 잡음 신호(NOS)를 생성하도록 구성된다. 이러한 실시예에서, 잡음 생성기(6)는, 대역폭-확장된 시간 도메인 오디오 신호(BAS)의 인지된 품질을 추가적으로 개선하기 위해, 스펙트럼적으로 평평한 백색 잡음 대신 스펙트럼 틸트(tilt)를 갖는 잡음 신호를 획득하기 위한 방식으로 제어될 수 있다.
본 발명의 선호되는 실시예에 따르면, 사전-형상화 모듈(7)은, 사이드 정보 신호(SIS)에 의존하여 잡음 신호(NOS)의 시간적인 형상화를 위해 구성된다. 사전-형상화 내에서, 사이드 정보는, 예를 들어, 사전-형상화를 위해 사용되는 코어 디코더 신호(DAS)의 특정한 타겟 대역폭을 선택하기 위해 사용될 수 있다.
본 발명의 선호되는 실시예에 따르면, 사후-형상화 모듈(13)은, 사이드 정보 신호(SIS)에 의존하여 주파수 도메인 대역폭 확장 신호(BEF)의 시간적인 및/또는 스펙트럼적인 형상화를 위해 구성된다. 사후-형상화에서 사이드 정보를 사용하는 것은, 주파수 도메인 대역폭 확장 신호(BEF)의 코오스한 시간-주파수-엔벨로프가 본래의 엔벨로프(TED)를 따른다는 것을 보장할 수도 있다.
도 3은, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 3 실시예를 도시한다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 시간 도메인에서 추가적인 잡음 신호(NOSF)를 생성하도록 구성된 추가적인 잡음 생성기(14), 추가적인 형상화된 잡음 신호(SNSF)를 생성하기 위해, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 추가적인 잡음 신호(NOSF)의 시간적인 형상화를 위해 구성된 추가적인 사전-형상화 모듈(15), 및 추가적인 형상화된 잡음 신호(SNSF)를 추가적인 주파수 도메인 잡음 신호(FNSF)로 변환하도록 구성된 추가적인 시간-투-주파수 변환기(16)를 포함하며, 여기서, 주파수 도메인 대역폭 확장 신호(BEF)는 추가적인 주파수 도메인 잡음 신호(FNSF)에 의존한다. 2개의 주파수 도메인 잡음 신호들(FNS, FNSF)를 사용하여 주파수 도메인 대역폭 확장 신호(BEF)를 생성하는 것은, 대역폭-확장된 시간 도메인 오디오 신호(BAS)의 인지된 품질의 증가를 유도할 수도 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 추가적인 잡음 신호(NOSF)의 시간적인 형상화가 과하게 강조된 방식으로 행해지는 그러한 방식으로 구성된다. 이것은, 시간적인 엔벨로프 기반으로 사전-형상화 이득들을 도출하기 전에, 진폭들의 관점들에서 시간적인 엔벨로프를 확산시킴으로써 실현될 수 있다. 이러한 지나친 강조가 실제 본래의 엔벨로프를 표현하지 않지만, 예를 들어, 모음들과 같은 몇몇 신호 부분들의 명료함이 매우 낮은 비트레이트들에 대해 개선된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 대역 통과 필터들의 뱅크에 의해 추가적인 잡음 신호(NOSF)를 수 개의 추가적인 서브대역 잡음 신호들로 분할시키고 추가적인 서브대역 잡음 신호들 각각에 대해 특정한 시간적인 형상화를 수행함으로써 추가적인 잡음 신호(NOSF)의 시간적인 형상화가 서브대역-와이즈로 행해지는 그러한 방식으로 구성된다.
추가적인 잡음 신호를 균일하게 사전-형상화시키는 것 대신, 형상화는, 대역 통과 필터들의 뱅크에 의해 추가적인 잡음 신호를 수 개의 서브대역들로 분할시키고 모든 각각의 서브대역 신호에 대해 특정한 형상화를 수행함으로써 더 정밀하게 행해질 수 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 시간 도메인에서 톤 신호(TOS)를 생성하도록 구성된 톤 생성기(17), 형상화된 톤 신호(STS)를 생성하기 위해, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 톤 신호(TOS)의 시간적인 형상화를 위해 구성되는 톤 사전-형상화 모듈(18), 및 형상화된 톤 신호(STS)를 주파수 도메인 톤 신호(FTS)로 변환하도록 구성된 시간-투-주파수 변환기(19)를 포함하며, 여기서, 주파수 도메인 대역폭 확장 신호(BEF)는 주파수 도메인 톤 신호(FTS)에 의존한다. 종합적인 잡음 신호들(NOS, NOSF)을 프로세싱하는 것에 부가하여, 시간적으로 형상화되고 후속하여 주파수 표현(FTS)으로 변환되는 종합적인 톤 컴포넌트들을 시간 도메인에서 생성하는 것이 또한 가능하다. 이러한 경우, 시간 도메인에서의 형상화는, 예를 들어, 일반적인 주파수 도메인 표현에서 가능하지 않은 톤들의 ADSR(어택, 감쇠, 지속, 릴리즈)을 정밀하게 모델링하기에 유익하다. 주파수 도메인 톤 신호(FTS)의 부가적인 사용은, 대역폭 확장된 시간 도메인 신호(BAS)의 양을 추가적으로 증가시킬 수도 있다.
주파수 도메인 잡음 신호(FNS), 추가적인 주파수 도메인 신호(FNSF) 및/또는 주파수 도메인 톤 신호는 결합기(20)에 의해 결합될 수도 있다.
도 4는, 개략적인 뷰로 본 발명에 따른 오디오 디코더 디바이스의 제 4 실시예를 도시한다.
본 발명의 선호되는 실시예에 따르면, 코어 디코더 모듈(5)은, 시간 도메인 코어 디코더(21) 및 주파수 도메인 코어 디코더(22)를 포함하며, 여기서, 시간 도메인 코어 디코더(21) 또는 주파수 도메인 코어 디코더(22) 중 어느 하나는, 인코딩된 오디오 신호(EAS)로부터 디코딩된 오디오 신호(DAS)를 도출하기 위해 선택가능하다. 이들 특성들은, 통합된 스피치 및 오디오 코딩(MPEG-D USAC) 환경에서 본 발명을 사용하는 것을 허용한다.
본 발명의 선호되는 실시예에 따르면, 제어 파라미터 추출기(23)는, 디코딩된 오디오 신호(DAS)로부터 코어 디코더 모듈(3)에 의해 사용되는 제어 파라미터들(CP)을 추출하기 위해 구성되며, 여기서, 대역폭 확장 모듈(5)은, 제어 파라미터들(CP)에 의존하여 주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성된다. 주파수 도메인 대역폭 확장 신호(BEF)가 코어 코더 엔벨로프에 기초하여 블라인드하게 생성되거나, 코어 코더 신호로부터 도출된 파라미터들에 의해 제어될 수도 있지만, 그 신호는 또한, 인코더로부터의 추출 및 송신된 파라미터들에 의해 부분적으로 안내된 방식으로 생성될 수 있다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)을 설정하기 위해 구성된 형상화 이득 계산기(24)를 포함하며, 여기서, 사전-형상화 모듈(7)은, 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)에 의존하여 잡음 신호(NOS)의 시간적인 형상화를 위해 구성된다. 이들 특성들은 본 발명을 용이한 방식으로 구현하는 것을 허용한다.
본 발명의 선호되는 실시예에 따르면, 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)을 설정하기 위한 형상화 이득 계산기(24)는, 제어 파라미터들(CP)에 의존하여 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)을 설정하기 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며, 여기서, 추가적인 사전-형상화 모듈(14)은, 추가적인 사전-형상화 모듈(14)에 대한 형상화 이득들에 의존하여 추가적인 잡음 신호(NOSF)의 시간적인 형상화를 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들을 설정하기 위한 형상화 이득 계산기는, 제어 파라미터들(CP)에 의존하여 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들을 설정하기 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 대역폭 확장 모듈(5)은, 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 톤 사전-형상화 모듈(18)에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며, 여기서, 톤 사전-형상화 모듈(18)은, 톤 사전-형상화 모듈(18)에 대한 형상화 이득들에 의존하여 톤 신호(TOS)의 시간적인 형상화를 위해 구성된다.
본 발명의 선호되는 실시예에 따르면, 톤 사전-형상화 모듈(18)에 대한 형상화 이득들을 설정하기 위한 형상화 이득 계산기는, 제어 파라미터들(CP)에 의존하여 추가적인 사전-형상화 모듈(18)에 대한 형상화 이득들을 설정하기 위해 구성된다.
도 4는, 스위칭된 코딩 시스템의 일 향상으로서 새로운 대역폭 확장 스텝-바이-스텝(step-by-step)의 선호되는 실시예를 도시한다. 예시적인 시스템은, 12.8kHz의 내부 샘플링 레이트 및 20ms 프레이밍에서 각각 구동하는 시간 도메인 코더 디코더(21) 및 주파수 도메인 코어 디코더(22)를 포함한다. 이러한 주어진 셋팅은, 프레임 당 256개의 디코더 출력 샘플들 및 6.4kHz의 출력 대역폭을 초래한다. 대역폭 확장의 적용에 의해, 시스템의 유효 출력 대역폭은, 32.0kHz의 샘플링 레이트에서, 하나의 잡음 신호에 대해 14.4kHz까지 확장되는 것으로 제안된다. 따라서, 다음의 단계들이 각각의 프레임에 대해 수행될 수도 있다:
잡음 생성의 단계에서, 8.0kHz 유효 대역폭(14.4 kHz - 6.4 kHz)의 잡음 프레임은, 16.0kHz의 샘플링에서 백색 잡음의 20ms를 생성함으로써 획득될 수도 있으며, 320개의 잡음 샘플들을 초래한다.
코어 디코더로부터의 파라미터 추출 파라미터들을 제어하는 단계에서, 예를 들어, 기본적인 주파수 및 스피치 코더의 롱텀 예측기(LTP) 이득이 재사용될 수도 있다. 또한, 코어 디코더 출력 신호로부터의 파라미터들, 예를 들어, 스펙트럼 중심 및 제로-크로싱(zero-crossing) 레이트가 추출될 수도 있다. 또한, 사전-형상화의 강도에 대한 결정은 제어 파라미터들, 예를 들어, 높은 기본적인 주파수에 대한 강한 형상화 및 높은 긴 시간 예측기 이득(높은 피치된 모음) 및 높은 스펙트럼 중심에 대한 약한 형상화 또는 형상화 없음 및 제로-크로싱 레이트(치찰음(sibilant))에 기초할 수도 있다.
시간적인 엔벨로프 생성의 단계에서, 고역-통과 필터는, 코어 디코더 출력 신호(DAS)로부터 DC 부분 및 매우 낮은 주파수들을 제거하는데 사용될 수도 있고, 시간 샘플들은 에너지들로 변환될 수도 있으며, 선형 예측 코딩(LPC) 계수들은 에너지들로부터 계산될 수도 있다.
형상화 이득들의 계산의 단계에서, 선형 예측 코딩 계수들은, 320개의 샘플들의 길이의 주파수 응답으로 변환될 수도 있으며, 그 응답은 평활한 시간적인 엔벨로프를 표현하고, 평활한 시간적인 엔벨로프 샘플들은, 타겟팅된 형상화 강도를 고려하여 이득값들로 변환될 수도 있다.
시간적인 사전-형상화의 단계에서, 사전-형상화 이득값들은 잡음 샘플들에 적용될 수도 있다.
시간-투-주파수 변환의 단계에서, 코어 디코더 출력 신호(DAS)는, 400Hz 대역폭 및 1.25ms 홉 사이즈의 필터들을 포함하는 분석 직교위상 미러 필터-뱅크에 의해 프로세싱될 수도 있으며, 이는, 20개의 직교위상 미러 필터-서브대역들 및 16개의 시간 슬롯들의 시간-투-주파수-매트릭스를 초래한다. 또한, 잡음 프레임은, 디코더 출력 신호에 대한 것과 동일한 셋팅들을 포함하는 추가적인 직교위상 미러 필터-뱅크에 의해 프로세싱될 수도 있으며, 이는, 16개의 직교위상 미러 필터-서브대역들 및 16개의 시간 슬롯들의 시간-투-주파수-매트릭스를 초래한다.
전치(transposition)(대역폭 선택) 단계에서, 잡음 프레임은, 타겟팅된 주파수 범위로 시프팅될 수도 있으며, 디코더 신호 매트릭스의 상단 상에서 36개의 직교위상 미러 필터-서브대역들 및 16개의 시간 슬롯들의 출력 T/F-매트릭스로 적층할 수도 있다.
시간적인 및 스펙트럼적인 사후-형상화의 단계에서, 중요한 신호 부분들(예를 들어, 트랜션트(transient))에 대한 정확한 시간적인 트렌드는, 송신된 사이드-정보에 의한 이조된 직교위상 미러 필터-엔벨로프의 시간적인 사후-형상화에 의해 보장될 수도 있다. 또한, 본래의 스펙트럼 틸트 및 전체 에너지는, 송신된 사이드-정보에 의한 이조된 직교위상 미러 필터-엔벨로프의 스펙트럼 사후-형상화에 의해 근사될 수도 있다.
통합하는 단계에서, 36개의 서브대역들의 출력 시간-투-주파수-매트릭스는, 40개의 서브대역 통합 직교위상 미러 필터-뱅크에 의해 프로세싱될 수도 있으며, 이는, 32.0kHz 샘플링 레이트 및 14.4kHz의 유효 대역폭의 슈퍼 광대역 시간 도메인 출력 신호(BAS)를 초래한다.
설명된 실시예들의 디코더 및 방법들에 대해, 다음이 언급되어야 한다:
몇몇 양상들이 장치의 맥락에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특성에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 아이템 또는 특성의 설명을 표현한다.
특정한 구현 요건들에 의존하면, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 몇몇 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 구동되는 경우 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수도 있다.
다른 실시예들은, 머신 판독가능 캐리어 또는 비-일시적인 저장 매체 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 따라서, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(상부에 기록됨)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수도 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.
몇몇 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 몇몇 또는 모두를 수행하기 위해 사용될 수도 있다. 몇몇 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수도 있다. 일반적으로, 방법들은 유리하게 임의의 하드웨어 장치에 의해 수행된다.
본 발명이 수 개의 실시예들의 관점들에서 설명되었지만, 본 발명의 범위 내에 있는 수정들, 치환들, 및 등가물들이 존재한다. 또한, 본 발명의 방법들 및 구성들을 구현하는 많은 대안적인 방식들이 존재함을 유의해야 한다. 따라서, 다음의 첨부된 청구항들은, 본 발명의 실제 사상 및 범위 내에 있는 것으로 그러한 모든 수정들, 치환들 및 등가물들을 포함하는 것으로 해석됨이 의도된다.
참조 부호들:
1 오디오 디코더 디바이스
2 비트스트림 수신기
3 코어 디코더 모듈
4 시간적인 엔벨로프 생성기
5 대역폭 확장 모듈
6 잡음 생성기
7 사전-형상화 모듈
8 시간-투-주파수 변환기
9 시간-투-주파수 변환기
10 결합기
11 주파수-투-시간 변환기
12 주파수 범위 선택기
13 사후-형상화 모듈
14 추가적인 잡음 생성기
15 추가적인 사전-형상화 모듈
16 추가적인 시간-투-주파수 변환기
17 톤 생성기
18 톤 사전-형상화 모듈
19 시간-투-주파수 변환기
20 결합기
21 시간 도메인 코어 디코더
22 주파수 도메인 코어 디코더
23 제어 파라미터 추출기
24 형상화 이득 계산기
BS 비트스트림
EAS 인코딩된 오디오 신호
DAS 디코딩된 오디오 신호
TED 시간적인 엔벨로프
BEF 주파수 도메인 대역폭 확장 신호
NOS 잡음 신호
SNS 형상화된 잡음 신호
FNS 주파수 도메인 잡음 신호
FDS 주파수 도메인 디코딩된 오디오 신호
BFS 대역폭-확장된 주파수 도메인 오디오 신호
BAS 대역폭-확장된 시간 도메인 오디오 신호
FSR 주파수 범위 선택된 주파수 도메인 잡음 신호
SIS 사이드 정보 신호
NOSF 추가적인 잡음 신호
SNSF 추가적인 형상화된 잡음 신호
FNSF 추가적인 주파수-도메인 잡음 신호
TOS 톤 신호
STS 형상화된 톤 신호
FTS 주파수 도메인 톤 신호
SG 형상화 이득들
CP 제어 파라미터들
참조문헌:
[1] Bessette, B.; et al.: "The Adaptive Multirate Wideband Speech Codec (AMR-WB)", IEEE Transactions on Speech and Audio Processing, Vol. 10, No. 8, November 2002
[2] Dietz, M.; et al.: "Spectral Band Replication, a novel approach in audio coding", Proceedings of the 112th AES Convention, May 2002
[3] Miao, L.; et al.: "G.711.1 Annex D and G.722 Annex B - New ITU-T Super Wideband Codecs", IEEE ICASSP 2011, pp. 5232-5235

Claims (24)

  1. 비트스트림(BS)을 디코딩하기 위한 오디오 디코더 디바이스로서,
    상기 오디오 디코더 디바이스(1)는,
    상기 비트스트림(BS)을 수신하고, 상기 비트스트림(BS)으로부터 인코딩된 오디오 신호(EAS)를 도출하도록 구성된 비트스트림 수신기(2);
    상기 인코딩된 오디오 신호(EAS)로부터 시간 도메인에서 디코딩된 오디오 신호(DAS)를 도출하기 위해 구성된 코어 디코더 모듈(3);
    상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)를 결정하도록 구성된 시간적인 엔벨로프 생성기(4);
    주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성된 대역폭 확장 모듈(5) - 상기 대역폭 확장 모듈(5)은, 시간 도메인에서 잡음 신호(NOS)를 생성하도록 구성된 잡음 생성기(6)를 포함하고, 상기 대역폭 확장 모듈(5)은, 형상화된 잡음 신호(SNS)를 생성하기 위해, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하는 상기 잡음 신호(NOS)의 시간적인 형상화를 위해 구성된 사전-형상화 모듈(7)을 포함하며, 상기 대역폭 확장 모듈(5)은, 상기 형상화된 잡음 신호(SNS)를 주파수 도메인 잡음 신호(FNS)로 변환하도록 구성된 시간-투-주파수 변환기(8)를 포함하고, 상기 주파수 도메인 대역폭 확장 신호(BEF)는 상기 주파수 도메인 잡음 신호(FNS)에 의존함 -;
    상기 디코딩된 오디오 신호(DAS)를 주파수 도메인 디코딩된 오디오 신호(FDS)로 변환하도록 구성된 시간-투-주파수 변환기(9);
    대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 생성하기 위해 상기 주파수 도메인 디코딩된 오디오 신호(FDS) 및 상기 주파수 도메인 대역폭 확장 신호(BEF)를 결합하도록 구성된 결합기(10); 및
    상기 대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 대역폭-확장된 시간 도메인 오디오 신호(BAS)로 변환하도록 구성된 주파수-투-시간 변환기(11)를 포함하는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  2. 제 1 항에 있어서,
    상기 주파수 도메인 대역폭 확장 신호(BEF)는, 스펙트럼 대역 복제 없이 생성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  3. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 잡음 신호(NOS)의 시간적인 형상화가 과하게 강조된(overemphasized) 방식으로 행해지는 방식으로 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  4. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 대역 통과 필터들의 뱅크에 의해 상기 잡음 신호(NOS)를 수 개의 서브대역 잡음 신호들로 분할시키고 상기 서브대역 잡음 신호들 각각에 대해 특정한 시간적인 형상화를 수행함으로써 상기 잡음 신호(NOS)의 시간적인 형상화가 서브대역-와이즈(subband-wise)로 행해지는 방식으로 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  5. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 주파수 도메인 대역폭 확장 신호(BEF)의 주파수 범위를 셋팅하기 위해 구성되는 주파수 범위 선택기(12)를 포함하는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  6. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 주파수 도메인 대역폭 확장 신호(BEF)의 주파수 도메인에서 시간적인 형상화, 스펙트럼적인 형상화 및 시간적 및 스펙트럼적인 형상화 중의 하나를 위해 구성되는 사후-형상화 모듈을 포함하는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  7. 제 1 항에 있어서,
    상기 비트스트림 수신기(2)는, 상기 비트스트림(BS)으로부터 사이드 정보 신호(SIS)를 도출하도록 구성되며,
    상기 대역폭 확장 모듈(5)은, 상기 사이드 정보 신호(SIS)에 의존하여 상기 주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  8. 제 7 항에 있어서,
    상기 잡음 생성기(6)는, 상기 사이드 정보 신호(SIS)에 의존하여 상기 잡음 신호(NOS)를 생성하도록 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  9. 제 7 항에 있어서,
    상기 사전-형상화 모듈(7)은, 상기 사이드 정보 신호(SIS)에 의존하여 상기 잡음 신호(NOS)의 시간적인 형상화를 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  10. 제 7 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 사이드 정보 신호(SIS)에 의존하여 상기 주파수 도메인 대역폭 확장 신호(BEF)의 주파수 도메인에서 시간적인 형상화, 스펙트럼적인 형상화 및 시간적 및 스펙트럼적인 형상화 중의 하나를 위해 구성되는 사후-형상화 모듈을 포함하는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  11. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 시간 도메인에서 추가적인 잡음 신호(NOSF)를 생성하도록 구성된 추가적인 잡음 생성기(14), 추가적인 형상화된 잡음 신호(SNSF)를 생성하기 위해, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 상기 추가적인 잡음 신호(NOSF)의 시간적인 형상화를 위해 구성된 추가적인 사전-형상화 모듈(15), 및 상기 추가적인 형상화된 잡음 신호(SNSF)를 추가적인 주파수 도메인 잡음 신호(FNSF)로 변환하도록 구성된 추가적인 시간-투-주파수 변환기(16)를 포함하며,
    상기 주파수 도메인 대역폭 확장 신호(BEF)는 상기 추가적인 주파수 도메인 잡음 신호(FNSF)에 의존하는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  12. 제 11 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 추가적인 잡음 신호(NOSF)의 시간적인 형상화가 과하게 강조된 방식으로 행해지는 방식으로 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  13. 제 11 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 대역 통과 필터들의 뱅크에 의해 상기 추가적인 잡음 신호(NOSF)를 수 개의 추가적인 서브대역 잡음 신호들로 분할시키고 상기 추가적인 서브대역 잡음 신호들 각각에 대해 특정한 시간적인 형상화를 수행함으로써 상기 추가적인 잡음 신호(NOSF)의 시간적인 형상화가 서브대역-와이즈로 행해지는 방식으로 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  14. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 시간 도메인에서 톤 신호(TOS)를 생성하도록 구성된 톤 생성기(17), 형상화된 톤 신호(STS)를 생성하기 위해, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 상기 톤 신호(TOS)의 시간적인 형상화를 위해 구성되는 톤 사전-형상화 모듈(18), 및 상기 형상화된 톤 신호(STS)를 주파수 도메인 톤 신호(FTS)로 변환하도록 구성된 시간-투-주파수 변환기(19)를 포함하며,
    상기 주파수 도메인 대역폭 확장 신호(BEF)는 상기 주파수 도메인 톤 신호(FTS)에 의존하는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  15. 제 1 항에 있어서,
    상기 코어 디코더 모듈(3)은, 시간 도메인 코어 디코더(21) 및 주파수 도메인 코어 디코더(22)를 포함하며,
    상기 시간 도메인 코어 디코더(21) 또는 상기 주파수 도메인 코어 디코더(22) 중 어느 하나는, 상기 인코딩된 오디오 신호(EAS)로부터 상기 디코딩된 오디오 신호(DAS)를 도출하기 위해 사용되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  16. 제 1 항에 있어서,
    제어 파라미터 추출기(23)는, 상기 디코딩된 오디오 신호(DAS)로부터 상기 코어 디코더 모듈(3)에 의해 사용되는 제어 파라미터들(CP)을 추출하기 위해 구성되며,
    상기 대역폭 확장 모듈(5)은, 상기 제어 파라미터들(CP)에 의존하여 상기 주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  17. 제 1 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 상기 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)을 설정하기 위해 구성된 형상화 이득 계산기(24)를 포함하며,
    상기 사전-형상화 모듈(7)은, 상기 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)에 의존하여 상기 잡음 신호(NOS)의 시간적인 형상화를 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  18. 제 17 항에 있어서,
    상기 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)을 설정하기 위한 상기 형상화 이득 계산기(24)는, 상기 제어 파라미터들(CP)에 의존하여 상기 사전-형상화 모듈(7)에 대한 형상화 이득들(SG)을 설정하기 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  19. 제 11 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 상기 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며,
    상기 추가적인 사전-형상화 모듈(15)은, 상기 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들에 의존하여 상기 추가적인 잡음 신호(NOSF)의 시간적인 형상화를 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  20. 제 19 항에 있어서,
    제어 파라미터 추출기(23)는, 상기 디코딩된 오디오 신호(DAS)로부터 상기 코어 디코더 모듈(3)에 의해 사용되는 제어 파라미터들(CP)을 추출하기 위해 구성되고,
    상기 대역폭 확장 모듈(5)은, 상기 제어 파라미터들(CP)에 의존하여 상기 주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성되고,
    상기 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들을 설정하기 위한 상기 형상화 이득 계산기는, 상기 제어 파라미터들(CP)에 의존하여 상기 추가적인 사전-형상화 모듈(15)에 대한 형상화 이득들을 설정하기 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  21. 제 14 항에 있어서,
    상기 대역폭 확장 모듈(5)은, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 상기 톤 사전-형상화 모듈(18)에 대한 형상화 이득들을 설정하기 위해 구성된 형상화 이득 계산기를 포함하며,
    상기 톤 사전-형상화 모듈(18)은, 상기 톤 사전-형상화 모듈(18)에 대한 형상화 이득들에 의존하여 상기 톤 신호(TOS)의 시간적인 형상화를 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  22. 제 21 항에 있어서,
    제어 파라미터 추출기(23)는, 상기 디코딩된 오디오 신호(DAS)로부터 상기 코어 디코더 모듈(3)에 의해 사용되는 제어 파라미터들(CP)을 추출하기 위해 구성되고,
    상기 대역폭 확장 모듈(5)은, 상기 제어 파라미터들(CP)에 의존하여 상기 주파수 도메인 대역폭 확장 신호(BEF)를 생성하도록 구성되고,
    상기 톤 사전-형상화 모듈(18)에 대한 형상화 이득들을 설정하기 위한 상기 형상화 이득 계산기는, 상기 제어 파라미터들(CP)에 의존하여 상기 톤 사전-형상화 모듈(18)에 대한 형상화 이득들을 설정하기 위해 구성되는, 비트스트림을 디코딩하기 위한 오디오 디코더 디바이스.
  23. 비트스트림(BS)을 디코딩하기 위한 방법으로서,
    상기 비트스트림(BS)을 수신하고, 비트스트림 수신기(2)를 사용하여 상기 비트스트림(BS)으로부터 인코딩된 오디오 신호(EAS)를 도출하는 단계;
    코어 디코더 모듈(3)을 사용하여, 시간 도메인에서, 상기 인코딩된 오디오 신호(EAS)로부터 디코딩된 오디오 신호(DAS)를 도출하는 단계;
    시간적인 엔벨로프 생성기(4)를 사용하여 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)를 결정하는 단계;
    다음의 단계들을 실행하는 대역폭 확장 모듈(5)을 사용하여 주파수 도메인 대역폭 확장 신호(BEF)를 생성하는 단계;
    상기 대역폭 확장 모듈(5)의 잡음 생성기(6)를 사용하여 시간 도메인에서 잡음 신호(NOS)를 생성하는 단계,
    상기 대역폭 확장 모듈(5)의 사전-형상화 모듈(7)을 사용하여, 형상화된 잡음 신호(SNS)를 생성하기 위해, 상기 디코딩된 오디오 신호(DAS)의 시간적인 엔벨로프(TED)에 의존하여 상기 잡음 신호(NOS)를 시간 형상화하는 단계, 및
    상기 대역폭 확장 모듈(5)의 시간-투-주파수 변환기(8)를 사용하여 상기 형상화된 잡음 신호(SNS)를 주파수 도메인 잡음 신호(FNS)로 변환하는 단계 - 상기 주파수 도메인 대역폭 확장 신호(BEF)는, 주파수 도메인 잡음 신호(FNS)에 의존함 -;
    추가적인 시간-투-주파수 변환기(9)를 사용하여, 상기 디코딩된 오디오 신호(DAS)를 주파수 도메인 디코딩된 오디오 신호(FDS)로 변환하는 단계;
    결합기(10)를 사용하여 대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 생성하기 위해 상기 주파수 도메인 디코딩된 오디오 신호(FDS) 및 상기 주파수 도메인 대역폭 확장 신호(BEF)를 결합하는 단계; 및
    주파수-투-시간 변환기(11)를 사용하여 상기 대역폭 확장된 주파수 도메인 오디오 신호(BFS)를 대역폭-확장된 시간 도메인 오디오 신호(BAS)로 변환하는 단계를 포함하는, 비트스트림(BS)을 디코딩하기 위한 방법.
  24. 청구항 제 23 항에 따른 방법을 실행하기 위하여 컴퓨터 판독가능 기록 매체에 저장된 컴퓨터 프로그램.
KR1020167014361A 2013-10-31 2014-10-30 주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장 KR101852749B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13191127.3 2013-10-31
EP13191127 2013-10-31
PCT/EP2014/073375 WO2015063227A1 (en) 2013-10-31 2014-10-30 Audio bandwidth extension by insertion of temporal pre-shaped noise in frequency domain

Publications (2)

Publication Number Publication Date
KR20160075768A KR20160075768A (ko) 2016-06-29
KR101852749B1 true KR101852749B1 (ko) 2018-06-07

Family

ID=51845400

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167014361A KR101852749B1 (ko) 2013-10-31 2014-10-30 주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장

Country Status (11)

Country Link
US (1) US9805731B2 (ko)
EP (1) EP3063761B1 (ko)
JP (1) JP6396459B2 (ko)
KR (1) KR101852749B1 (ko)
CN (1) CN105706166B (ko)
CA (1) CA2927990C (ko)
ES (1) ES2657337T3 (ko)
MX (1) MX355452B (ko)
RU (1) RU2666468C2 (ko)
TR (1) TR201802303T4 (ko)
WO (1) WO2015063227A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
CN110534128B (zh) * 2019-08-09 2021-11-12 普联技术有限公司 一种噪音处理方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1451812B1 (en) * 2001-11-23 2006-06-21 Koninklijke Philips Electronics N.V. Audio signal bandwidth extension
WO2012110447A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
US20120288117A1 (en) * 2011-05-13 2012-11-15 Samsung Electronics Co., Ltd. Noise filling and audio decoding
JP2013117730A (ja) * 2007-08-27 2013-06-13 Telefon Ab L M Ericsson ノイズ補充と帯域拡張との間の遷移周波数の適合

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3605706B2 (ja) * 1994-10-06 2004-12-22 伸 中川 音響信号再生方法及び装置
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
EP1653627B1 (en) 2003-07-29 2009-09-30 Panasonic Corporation Audio signal band expansion apparatus and method
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
CN101140759B (zh) * 2006-09-08 2010-05-12 华为技术有限公司 语音或音频信号的带宽扩展方法及系统
JP2008096567A (ja) * 2006-10-10 2008-04-24 Matsushita Electric Ind Co Ltd オーディオ符号化装置およびオーディオ符号化方法ならびにプログラム
DK3591650T3 (da) * 2007-08-27 2021-02-15 Ericsson Telefon Ab L M Fremgangsmåde og indretning til udfyldning af spektrale huller
US9275652B2 (en) * 2008-03-10 2016-03-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for manipulating an audio signal having a transient event
CN101281748B (zh) * 2008-05-14 2011-06-15 武汉大学 用编码索引实现的空缺子带填充方法及编码索引生成方法
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
EP2239732A1 (en) * 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
PL2273493T3 (pl) * 2009-06-29 2013-07-31 Fraunhofer Ges Forschung Kodowanie i dekodowanie z rozszerzaniem szerokości pasma
US8515768B2 (en) * 2009-08-31 2013-08-20 Apple Inc. Enhanced audio decoder
KR101773631B1 (ko) * 2010-06-09 2017-08-31 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 대역 확장 방법, 대역 확장 장치, 프로그램, 집적 회로 및 오디오 복호 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1451812B1 (en) * 2001-11-23 2006-06-21 Koninklijke Philips Electronics N.V. Audio signal bandwidth extension
JP2013117730A (ja) * 2007-08-27 2013-06-13 Telefon Ab L M Ericsson ノイズ補充と帯域拡張との間の遷移周波数の適合
WO2012110447A1 (en) * 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
US20120288117A1 (en) * 2011-05-13 2012-11-15 Samsung Electronics Co., Ltd. Noise filling and audio decoding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Bernd Geiser, et al. Bandwidth extension for hierarchical speech and audio coding in ITU-T Rec. G. 729.1. IEEE Transactions on Audio, Speech, and Language Processing, 2007, Vol.15,No.8, pp.2496-2509. *
G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729. ITU-T Recommendation G.729.1. 2006.05. *
G.729-based embedded variable bit-rate coder: An 8-32 kbit/s scalable wideband coder bitstream interoperable with G.729. ITU-T Recommendation G.729.1. 2006.05.*
Ulrich Kornagel. Techniques for artificial bandwidth extension of telephone speech. Signal Processing, 2006.06.01, Vol.86, no.6, pp.1296-1306. *

Also Published As

Publication number Publication date
CN105706166B (zh) 2020-07-14
CA2927990A1 (en) 2015-05-07
EP3063761B1 (en) 2017-11-22
JP6396459B2 (ja) 2018-09-26
US20160240200A1 (en) 2016-08-18
MX2016005167A (es) 2016-07-05
ES2657337T3 (es) 2018-03-02
RU2016121163A (ru) 2017-12-05
JP2016541012A (ja) 2016-12-28
RU2666468C2 (ru) 2018-09-07
CN105706166A (zh) 2016-06-22
CA2927990C (en) 2018-08-14
TR201802303T4 (tr) 2018-03-21
WO2015063227A1 (en) 2015-05-07
MX355452B (es) 2018-04-18
KR20160075768A (ko) 2016-06-29
EP3063761A1 (en) 2016-09-07
US9805731B2 (en) 2017-10-31

Similar Documents

Publication Publication Date Title
KR101852749B1 (ko) 주파수 도메인에서의 시간적인 사전-형상화된 잡음의 삽입에 의한 오디오 대역폭 확장
US11915712B2 (en) Audio encoder and decoder using a frequency domain processor, a time domain processor, and a cross processing for continuous initialization
US20210287689A1 (en) Audio encoder and decoder using a frequency domain processor with full-band gap filling and a time domain processor
US9424847B2 (en) Bandwidth extension parameter generation device, encoding apparatus, decoding apparatus, bandwidth extension parameter generation method, encoding method, and decoding method
JP6067601B2 (ja) 音声/音楽統合信号の符号化/復号化装置
KR101792712B1 (ko) 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조
US9390722B2 (en) Method and device for quantizing voice signals in a band-selective manner
BR112016009563B1 (pt) Extensão de largura de banda de áudio através da inserção de ruído temporal pré- formado no domínio de frequência

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant