KR101414305B1 - 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램 - Google Patents

저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR101414305B1
KR101414305B1 KR1020127010336A KR20127010336A KR101414305B1 KR 101414305 B1 KR101414305 B1 KR 101414305B1 KR 1020127010336 A KR1020127010336 A KR 1020127010336A KR 20127010336 A KR20127010336 A KR 20127010336A KR 101414305 B1 KR101414305 B1 KR 101414305B1
Authority
KR
South Korea
Prior art keywords
domain
audio content
encoded
mode
window
Prior art date
Application number
KR1020127010336A
Other languages
English (en)
Other versions
KR20120063527A (ko
Inventor
랄프 가이어
마르쿠스 쉬넬
제레미 르콤트
콘스탄틴 쉬미드트
기욤 푸쉬
니콜라우스 레텔바흐
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20120063527A publication Critical patent/KR20120063527A/ko
Application granted granted Critical
Publication of KR101414305B1 publication Critical patent/KR101414305B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Abstract

오디오 신호 인코더(100)는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간-도메인 표현(122)에 기초하여 스펙트럼 계수(124)의 세트 및 잡음-형상화 정보(126)를 획득하도록 구성된 변환-도메인 경로(12)를 포함한다. 변환-도메인 경로는 오디오 콘텐츠의 시간-도메인 표현 또는 이의 사전 처리된 버전을 윈도잉하고, 오디오 콘텐츠의 윈도잉된 표현을 획득하며, 시간-도메인-대-주파수-도메인-변환을 적용하여, 오디오 콘텐츠의 윈도잉된 시간-도메인 표현으로부터 스펙트럼 계수의 세트를 도출하도록 구성되는 시간-도메인-대-주파수-도메인 변환기(130)를 포함한다. 오디오 신호 인코더는 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분에 기초하여 코드-여기 정보(144) 및 선형-예측-도메인 매개 변수 정보를 획득하도록 구성되는 CELP 경로(140)를 포함한다. 시간-도메인-대-주파수-도메인 변환기(136)는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 분석 윈도우(520)를 적용하도록 구성된다. 오디오 신호 인코더는 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 선택적으로 앨리어싱 소거 정보(164)를 제공하도록 구성된다.

Description

저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램{AUDIO SIGNAL ENCODER, AUDIO SIGNAL DECODER, METHOD FOR PROVIDING AN ENCODED REPRESENTATION OF AN AUDIO CONTENT, METHOD FOR PROVIDING A DECODED REPRESENTATION OF AN AUDIO CONTENT and COMPUTER PROGRAM FOR USE IN LOW DELAY APPLICATIONS}
본 발명에 따른 실시예들은 오디오 콘텐츠의 입력 표현에 기초하여 오디오 콘텐츠의 인코딩된 표현을 제공하는 오디오 신호 인코더에 관한 것이다.
본 발명에 따른 실시예들은 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 오디오 신호 디코더에 관한 것이다.
본 발명에 따른 실시예들은 오디오 콘텐츠의 입력 표현에 기초하여 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법에 관한 것이다.
본 발명에 따른 실시예들은 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법에 관한 것이다.
본 발명에 따른 실시예들은 상기 방법들을 수행하는 컴퓨터 프로그램에 관한 것이다.
본 발명에 따른 실시예들은 낮은 지연을 갖는 통합 음성 및 오디오 코딩을 위한 새로운 코딩 방식에 관한 것이다.
다음에서, 본 발명의 배경이 본 발명의 이해 및 이점을 용이하게 하기 위해 간략히 설명된다.
지난 10 년 동안, 양호한 비트율 효율을 가진 오디오 콘텐츠를 디지털식으로 저장하여 분배할 수 있는 가능성을 생성하는데 많은 노력이 기울어져 왔다. 이런 방식의 하나의 중요한 업적은 국제 표준 ISO/IEC 14496-3의 정의이다. 이 표준의 파트 3은 오디오 콘텐츠의 인코딩 및 디코딩에 관한 것이고, 파트 3의 서브파트 4는 일반적인 오디오 코딩에 관한 것이다. ISO/IEC 14496 파트 3, 서브파트 4는 일반적인 오디오 콘텐츠의 인코딩 및 디코딩에 대한 개념을 정의한다. 게다가, 품질을 개선하고, 및/또는 필요한 비트율을 감소시키기 위해 추가적인 개선 사항이 제안되었다.
더욱이, 특히 음성 신호를 인코딩 및 디코딩하기 위해 적응되는 오디오 코더 및 오디오 디코더가 개발되었다. 이와 같은 음성 최적화된 오디오 코더는, 예컨대, 3세대 파트너십 프로젝트의 기술 사양 "3GPP TS 26.090", "3GPP TS 26.190" 및 "3GPP TS 26.290"에 기재되어 있다.
낮은 인코딩 및 디코딩 지연이 바람직한 많은 애플리케이션이 있다는 것을 발견하였다. 예컨대, 현저한 지연이 이와 같은 애플리케이션에서 불쾌한 사용자 인상을 초래하기 때문에, 낮은 지연은 실시간 멀티미디어 애플리케이션에서 바람직하다.
그러나, 또한, 품질과 비트율 사이의 양호한 트레이드오프(tradeoff)가 때때로 오디오 콘텐츠에 따라 서로 다른 코딩 모드 사이의 전환을 필요로 하는 것으로 발견되었다. 오디오 콘텐츠의 변동은, 예컨대, 변환-코딩된-여기-선형-예측-도메인 모드와 (예컨대, 대수-코드-여기-선형-예측-도메인 모드와 같은) 코드-여기-선형-예측-도메인 모드 사이에서, 또는 주파수 도메인 모드와 코딩된-여기-선형-예측-도메인 모드 사이에서와 같은 코딩 모드 사이에서 변경할 욕구를 갖는 것으로 발견되었다. 이것은 일부 오디오 콘텐츠(또는 연속된 오디오 콘텐츠의 일부 부분)가 모드 중 하나에서 높은 코딩 효율로 인코딩될 수 있지만, 다른 오디오 콘텐츠(또는 동일한 연속된 오디오 콘텐츠의 다른 부분)는 다른 모드에서 양호한 코딩 효율로 인코딩될 수 있다는 사실로 인한 것이다.
이러한 상황을 고려하여, 전환을 위한 큰 비트율 오버헤드를 필요로 하지 않고, 또한 오디오 품질을 현저하게 손상시키지 않고 (예컨대, 전환 "클릭(click)"의 형식으로) 서로 다른 모드 사이에서 전환하는 것이 바람직한 것으로 발견되었다. 게다가, 서로 다른 모드 사이에서의 전환은 낮은 인코딩 및 디코딩 지연을 갖는 목표와 호환할 수 있어야 하는 것으로 발견되었다.
이러한 상황을 고려하여, 본 발명의 목적은 서로 다른 코딩 모드 사이에서 전환할 때에 비트율 효율, 오디오 품질 및 지연 사이의 양호한 트레이드오프를 갖는 멀티모드 오디오 코딩에 대한 개념을 생성하는 것이다.
본 발명에 따른 실시예는 오디오 콘텐츠의 입력 표현에 기초하여 오디오 콘텐츠의 인코딩된 표현을 제공하는 오디오 신호 인코더를 생성한다. 오디오 신호 인코더는, 변환-도메인 모드로 인코딩될 오디오 콘텐츠의 부분의 시간-도메인 표현에 기초하여 한 세트의 스펙트럼 계수 및 잡음 형상화(noise shaping) 정보(예컨대, 스케일 팩터 정보 또는 선형-예측-도메인 매개 변수 정보)를 획득하도록 구성된 변환-도메인 경로를 포함하여, 상기 스펙트럼 계수가 오디오 콘텐츠의 잡음 형상화 (예컨대, 스케일-팩터-처리 또는 선형-예측-도메인 잡음 형상화) 버전의 스펙트럼을 나타내도록 한다. 변환-도메인 경로는 오디오 콘텐츠의 시간-도메인 표현 또는 이의 사전 처리된(pre-processed) 버전을 윈도잉하고, 오디오 콘텐츠의 윈도잉된 표현을 획득하며, 시간-도메인-대-주파수-도메인-변환을 적용하여 오디오 콘텐츠의 윈도잉된 시간-도메인 표현으로부터 스펙트럼 계수의 세트를 도출하도록 구성되는 시간-도메인-대-주파수-도메인 변환기를 포함한다. 오디오 신호 인코더는 또한, (예컨대, 대수(algebraic) 코드-여기된(code-excited) 선형 예측-도메인 모드와 같이) (또한 간단히 CELP 모드로 명시되는) 코드-여기된 선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에 기초하여 (예컨대, 대수 코드 여기 정보와 같은) 코드-여기 정보 및 선형-예측-도메인 정보를 획득하도록 구성되는 (간단히 ACELP 경로로 명시되는) 코드-여기된 선형-예측-도메인 모드 경로를 포함한다. 시간-도메인-대-주파수-도메인 변환기는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 분석 윈도우를 적용하도록 구성된다. 오디오 신호 인코더는 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 (변환-도메인 모드로 인코딩되는) 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 선택적으로 앨리어싱 소거(aliasing cancellation) 정보를 제공하도록 구성된다.
본 발명에 따른 이러한 실시예는 코딩 효율(예컨대, 평균 비트율의 관점에서), 오디오 품질 및 코딩 지연 사이의 양호한 트레이드오프가 변환-도메인 모드와 CELP 모드 사이의 전환에 의해 획득될 수 있다는 연구 결과에 기초하며, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉은 오디오 콘텐츠의 다음 부분이 인코딩되는 모드와 무관하며, 특히 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환에 적응되지 않는 윈도잉의 사용으로부터 생성되는 앨리어싱 아티팩트의 감소 또는 소거는 앨리어싱 소거 정보의 선택적 제공에 의해 가능해진다. 따라서, 앨리어싱 소거 정보의 선택적 제공에 의해, 윈도우가 오디오 콘텐츠의 다음 부분과의 시간적 중복(또는 심지어 앨리어싱 소거 중복)을 포함하는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임)의 윈도잉을 위한 윈도우를 이용할 수 있다. 이것은 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분의 시퀀스에 대한 양호한 코딩 효율을 허용하는데, 그 이유는 오디오 콘텐츠의 다음 부분 사이의 시간적 중복을 갖는 그런 윈도우의 사용이 디코더측에서 특히 효율적인 중복-및-추가를 가질 가능성을 생성하기 때문이다. 더욱이, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉을 위한 동일한 윈도우를 이용함으로써 지연이 낮게 유지된다. 환언하면, 오디오 콘텐츠의 다음 부분이 인코딩되는 모드에 관한 지식은 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 윈도우를 선택하는데 필요하지 않다. 따라서, 오디오 콘텐츠의 현재 부분의 윈도잉은 오디오 콘텐츠의 다음 부분의 인코딩을 위한 인코딩 모드가 알려지기 전에 수행될 수 있기 때문에 코딩 지연은 작게 유지된다. 그럼에도 불구하고, 변환-도메인으로 인코딩되는 오디오 콘텐츠의 부분에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 변환에 완벽하게 적합하지 않은 윈도우의 사용에 의해 도입된 아티팩트는 앨리어싱 소거 정보를 이용하여 디코더 측에서 소거될 수 있다.
따라서, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 변환 시에 일부 추가적 앨리어싱 소거 정보가 필요할지라도 양호한 평균 코딩 효율이 획득된다. 앨리어싱 소거 정보의 제공에 의해 오디오 품질은 높은 레벨로 유지되고, 지연은 오디오 콘텐츠의 다음 부분이 인코딩되는 모드와 무관한 윈도우를 선택함으로써 작게 유지된다.
요약하기 위해, 상술한 바와 같은 오디오 인코더는 낮은 코딩 지연과 양호한 비트율 효율을 조합하여, 여전히 양호한 오디오 품질을 허용한다.
바람직한 실시예에서, 시간-도메인-대-주파수-도메인 변환기는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 동일한 윈도우를 적용하도록 구성된다.
바람직한 실시예에서, 미리 정해진 비대칭 윈도우는 좌측 윈도우 절반 및 우측 윈도우 절반을 포함하며, 좌측 윈도우 절반은 윈도우 값이 제로(0)에서 윈도우 중심 값(윈도우의 중심에서의 값)으로 단조(monotonically) 증가하는 좌측 전환 기울기(left-sided transition slope), 및 윈도우 값이 윈도우 중심 값보다 크고, 윈도우가 최대로 구성하는 오버슈트(overshoot) 부분을 포함한다. 우측 윈도우 절반은 윈도우 값이 윈도우 중심 값에서 제로(0)로 단조 감소하는 우측 전환 기울기 및 우측 제로 부분을 포함한다. 이와 같은 비대칭 윈도우를 이용함으로써, 코딩 지연은 특히 작게 유지될 수 있다. 또한, 오버슈트 부분을 이용하여 좌측 윈도우 절반을 강조함으로써, CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환에서의 앨리어싱 아티팩트는 비교적 작게 유지된다. 따라서, 앨리어싱 소거 정보는 비트율 효율적 방식으로 인코딩될 수 있다.
바람직한 실시예에서, 좌측 윈도우 절반은 제로 윈도우 값의 1 %만을 포함하고, 우측 제로 부분은 우측 윈도우 절반의 윈도우 값의 적어도 20 %의 길이를 포함한다. 이와 같은 윈도우는 특히 변환-도메인 모드와 CELP 모드 사이에서 오디오 코더 전환 시의 응용에 적합한 것으로 발견되었다.
바람직한 실시예에서, 미리 정해진 비대칭 분석 윈도우의 우측 윈도우 절반의 윈도우 값은 미리 정해진 비대칭 분석 윈도우의 우측 윈도우 절반에 오버슈트 부분이 없도록 윈도우 중심 값보다 작다. 이와 같은 윈도우 형상은 CELP 모드로 인코딩된 오디오 콘텐츠의 부분으로의 전환에서 비교적 작은 앨리어싱 아티팩트를 갖는 것으로 발견되었다.
바람직한 실시예에서, 미리 정해진 비대칭 분석 윈도우의 비제로 부분은 프레임 길이보다 적어도 10 % 짧다. 따라서, 지연은 특히 작게 유지된다.
바람직한 실시예에서, 오디오 신호 인코더는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 적어도 40 %의 시간적 중복을 포함하도록 구성된다. 이 경우에, 신호 인코더는 또한 바람직하게는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분 및 코드-여기 선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 시간적 중복을 포함하도록 구성된다. 오디오 신호 인코더는, 앨리어싱 소거 정보가 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분으로부터 오디오 신호 디코더에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환 시에 앨리어싱 아티팩트를 소거하기 위한 앨리어싱 소거 신호의 제공을 허용하도록 선택적으로 앨리어싱 소거 정보를 제공하기 위해 구성된다. 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분(예컨대, 프레임 또는 서브프레임) 사이에 상당한 중복을 제공함으로써, 시간-도메인-대-주파수-도메인 변환을 위해 예컨대 수정된 이산 코사인 변환과 같은 랩핑된(lapped) 변환을 이용할 수 있는데, 이와 같은 랩핑된 변환의 시간 도메인 앨리어싱은 변환-도메인 모드로 인코딩되는 다음 프레임 사이의 중복에 의해 감소되거나 심지어 완전히 소거된다. 그러나, 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환에서는, 완벽한 앨리어싱 소거를 초래하지 않는 (또는 심지어 어떤 앨리어싱 소거도 초래하지 않는) 어떤 시간적 중복이 또한 있다. 시간적 중복은 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에서 프레이밍의 과도한 수정을 방지하는데 이용된다. 그러나, 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환 시에 중복에서 발생하는 앨리어싱 아티팩트를 감소 또는 소거하기 위해, 앨리어싱 소거 정보가 제공된다. 더욱이, 앨리어싱은 앨리어싱 소거 정보가 비트율 효율적 방식으로 인코딩될 수 있도록 미리 정해진 비대칭 분석 윈도우의 비대칭으로 인해 비교적 작게 유지된다.
바람직한 실시예에서, 오디오 신호 인코더는, (바람직하게는 변환-도메인 모드로 인코딩되는) 오디오 콘텐츠의 현재 부분의 윈도잉된 표현이 오디오 콘텐츠의 다음 부분이 CELP 모드로 인코딩될 지라도 오디오 콘텐츠의 다음 부분과 중복하도록 오디오 콘텐츠의 현재 부분과 시간적으로 중복하는 오디오 콘텐츠의 다음 부분의 인코딩을 위해 이용되는 모드와 무관한 (바람직하게는 변환-도메인 모드로 인코딩되는) 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 윈도우를 선택하도록 구성된다. 오디오 콘텐츠의 다음 부분이 CELP 모드로 인코딩될 수 있는 검출에 응답하여, 오디오 신호 인코더는 앨리어싱 소거 정보를 제공하도록 구성되며, 앨리어싱 소거 정보는 오디오 콘텐츠의 다음 부분의 변환-도메인 모드 표현으로 나타내는 (또는 이에 포함되는) 앨리어싱 소거 신호 성분(component)을 나타낸다. 따라서, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 두 부분의 시간 도메인 표현을 중복 및 추가하여 달성되는 (대안적으로, 즉 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 있는데서) 앨리어싱 소거는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환 시에 앨리어싱 소거 정보에 기초하여 달성된다. 따라서, 전용 앨리어싱 소거 정보를 이용하여, 모드 전환 이전의 오디오 콘텐츠의 부분의 윈도잉은 영향을 받지 않을 수 있어 지연을 감소시키는데 도움을 준다.
바람직한 실시예에서, 시간-도메인-대-주파수-도메인 변환기는, CELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 윈도우를 적용하여, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분이 오디오 콘텐츠의 이전의 부분을 인코딩하는 모드와 무관하고, 오디오 콘텐츠의 다음 부분을 인코딩하는 모드와 무관한 동일한 미리 정해진 비대칭 분석 윈도우를 이용하여 윈도잉되도록 구성된다. 윈도잉은 또한 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉된 표현이 CELP 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분과 시간적으로 중복하도록 적용된다. 따라서, 특히 간단한 윈도잉 기법이 획득될 수 있고, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분은 항상 동일한 미리 정해진 비대칭 분석 윈도우을 이용하여 (예컨대, 오디오 콘텐츠의 일부에 걸쳐) 인코딩된다. 따라서, 비트율 효율을 증가시키는 분석 윈도우의 어느 타입을 이용할지를 신호할 필요가 없다. 또한, 인코더 복잡도(및 디코더 복잡도)는 매우 작게 유지될 수 있다. 상술한 바와 같이, 비대칭 분석 윈도우는 변환-도메인 모드에서 CELP 모드로의 전환 및 다시 CELP 모드에서 변환-도메인 모드로의 전환의 양방에 적합한 것으로 발견되었다.
바람직한 실시예에서, 오디오 신호 인코더는 오디오 콘텐츠의 현재 부분이 CELP 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분을 뒤따르는 경우에 선택적으로 앨리어싱 소거 정보를 제공하도록 구성된다. 앨리어싱 소거 정보의 제공은 또한 이와 같은 전환에 유용하고, 양호한 오디오 품질을 보장하는 것으로 발견되었다.
바람직한 실시예에서, 시간-도메인-대-주파수-도메인 변환기는, 미리 정해진 비대칭 분석 윈도우와 상이하고, CELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 전용 비대칭 전환 분석 윈도우를 적용하도록 구성된다. 전환 후에 전용 윈도우의 이용은 전환 시에 비트율 오버헤드를 감소시키는데 도움을 줄 수 있는 것으로 발견되었다. 또한, 전용 비대칭 전환 분석 윈도우를 이용해야 하는 결정이 이미 결정을 필요로 하는 시간에 이용 가능한 정보에 기초하여 행해질 수 있기 때문에, 전환 후에 전용 비대칭 전환 분석 윈도우의 이용은 상당한 추가 지연을 가져 오지 않는 것으로 발견되었다. 따라서, 앨리어싱 소거 정보의 량은 감소될 수 있거나, 어떤 앨리어싱 소거 정보에 대한 필요성도 어떤 경우에 제거될 수 있다.
바람직한 실시예에서, 코드-여기된 선형-예측-도메인 경로(CELP 경로)는, (코드-여기된 선형-예측-도메인 모드로 이용되는) 대수-코드-여기된 선형-예측-도메인 모드(ACELP 모드)로 인코딩되는 오디오 콘텐츠의 부분에 기초하여 대수-코드-여기 정보 및 선형-예측-도메인 매개 변수 정보를 획득하도록 구성되는 대수-코드-여기된 선형-예측-도메인 경로(ACELP 경로)이다. 대수-코드-여기된 선형-예측-도메인 경로를 코드-여기된 선형-예측-도메인 경로로 이용함으로써, 특히 높은 코딩 효율이 많은 경우에 달성될 수 있다.
본 발명에 따른 실시예는 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 오디오 신호 디코더를 생성한다. 오디오 신호 디코더는 스펙트럼 계수의 세트 및 잡음 형상화 정보에 기초하여 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현을 획득하도록 구성된 변환 도메인 경로를 포함한다. 변환-도메인 경로는 주파수-도메인-대-시간-도메인 변환 및 윈도잉을 적용하여, 스펙트럼 계수의 세트 또는 이의 사전 처리된 버전으로부터 오디오 콘텐츠의 윈도잉된 시간-도메인 표현을 도출하도록 구성되는 주파수-도메인-대-시간-도메인 변환기를 포함한다. 오디오 신호 디코더는 또한, 코드-여기 정보 및 선형-예측-도메인 매개 변수 정보에 기초하여 코드-여기된 선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간-도메인 표현을 획득하도록 구성되는 코드-여기된 선형-예측-도메인 경로를 포함한다. 주파수-도메인-대-시간-도메인 변환기는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 합성 윈도우를 적용하도록 구성된다. 오디오 신호 디코더는 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 선택적으로 앨리어싱 소거 정보에 기초하여 앨리어싱 소거 신호를 제공하도록 구성된다.
이러한 오디오 신호 디코더는, 코딩 효율, 오디오 품질 및 코딩 지연 사이의 양호한 트레이드오프가 오디오 콘텐츠의 다음 부분이 변환-도메인 모드로 인코딩되든 CELP 모드로 인코딩되든 무관하게 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉을 위한 동일한 미리 정해진 비대칭 합성 윈도우를 이용하여 획득될 수 있다는 연구 결과에 기초한다. 비대칭 합성 윈도우를 이용함으로써, 오디오 신호 디코더의 낮은 지연 특성은 개선될 수 있다. 코딩 효율은 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분에 적용되는 윈도우 사이에 중복을 가짐으로써 높게 유지될 수 있다. 그럼에도 불구하고, 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환의 경우에 중복으로부터 생성되는 앨리어싱 아티팩트는 앨리어싱 소거 신호에 의해 소거되며, 이러한 앨리어싱 소거 신호는 선택적으로 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임)에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환 시에 제공된다. 더욱이, 여기에 설명되는 오디오 신호 디코더는 상술한 오디오 신호 인코더와 동일한 이점을 포함하고, 여기에 설명되는 오디오 신호 디코더는 상술한 오디오 신호 인코더와 협력하는데 적합한 것으로 지적되어야 한다.
바람직한 실시예에서, 주파수-도메인-대-시간-도메인 변환기는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 동일한 윈도우를 적용하도록 구성된다.
바람직한 실시예에서, 미리 정해진 비대칭 윈도우는 좌측 윈도우 절반 및 우측 윈도우 절반을 포함한다. 좌측 윈도우 절반은 윈도우 값이 제로에서 윈도우 중심 값으로 단조 증가하는 좌측 제로 부분 및 좌측 전환 기울기를 포함한다. 우측 윈도우 절반은 윈도우 값이 윈도우 중심 값보다 크고, 윈도우가 최대치를 포함하는 오버슈트 부분을 포함한다. 우측 윈도우 절반은 또한 윈도우 값이 윈도우 중심 값에서 제로로 단조 감소하는 우측 전환 기울기를 포함한다. 좌측 제로 부분의 존재가 오디오 콘텐츠의 현재 부분의 시간 도메인 오디오 신호와 무관한 상기 제로 부분의 (우측) 단부까지 (오디오 콘텐츠의 이전의 부분의) 오디오 신호의 재구성을 허용하기 때문에 미리 정해진 비대칭 합성 윈도의 그런 선택은 특히 낮은 지연을 생성하는 것으로 발견되었다. 따라서, 오디오 콘텐츠는 비교적 적은 지연으로 렌더링(rendering)될 수 있다.
바람직한 실시예에서, 좌측 제로 부분은 좌측 윈도우 절반의 윈도우 값의 적어도 20 %의 길이를 포함하고, 우측 윈도우 절반은 제로 윈도우 값의 1 %만을 포함한다. 이와 같은 비대칭 윈도우는 낮은 지연 응용에 적합하고, 이와 같은 미리 정해진 비대칭 합성 윈도우는 또한 상술한 유익한 미리 정해진 비대칭 분석 윈도우와 협력하는데 적합한 것으로 발견되었다.
바람직한 실시예에서, 미리 정해진 비대칭 윈도우의 좌측 윈도우 절반의 윈도우 값은 미리 정해진 비대칭 합성 윈도우의 좌측 윈도우 절반에 오버슈트 부분이 없도록 윈도우 중심 값보다 작다. 따라서, 오디오 콘텐츠의 양호한 낮은 지연 재구성은 상술한 비대칭 분석 윈도우와 함께 달성될 수 있다. 또한, 윈도우는 양호한 주파수 응답을 포함한다.
바람직한 실시예에서, 미리 정해진 비대칭 윈도우의 비제로 부분은 프레임 길이보다 적어도 10 % 짧다.
바람직한 실시예에서, 오디오 신호 디코더는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 적어도 40 %의 시간적 중복을 포함하도록 구성된다. 오디오 신호 디코더는 또한 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분 및 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 시간적 중복을 포함하도록 구성된다. 오디오 신호 디코더는, 앨리어싱 소거 신호가 (변환-도메인 모드로 인코딩되는) 오디오 콘텐츠의 현재 부분에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분으로의 전환 시에 앨리어싱 아티팩트를 감소하거나 소거하도록 선택적으로 앨리어싱 소거 정보에 기초하여 앨리어싱 소거 신호를 제공하기 위해 구성된다. 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 상당한 중복을 가짐으로써, 순조로운(smooth) 전환이 획득될 수 있고, (예컨대 역 수정된 이산 코사인 변환과 같은) 랩핑된 변환으로부터 생성될 수 있는 앨리어싱 아티팩트는 소거된다. 따라서, 상당한 중복을 이용함으로써, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시퀀스에 대한 다음 부분(예컨대, 프레임 또는 서브프레임) 사이의 전환의 순조로움 및 코딩 효율을 향상시킬 수 있다. 프레이밍에서 변덕스러운 행위(inconstancies)를 방지하고, 오디오 콘텐츠의 다음 부분의 인코딩 모드와 무관한 미리 정해진 비대칭 합성 윈도우의 이용을 허용하기 위해, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분과 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 시간적 중복의 존재는 수락된다. 그럼에도 불구하고, 이와 같은 전환 시에 발생하는 아티팩트는 앨리어싱 소거 신호에 의해 소거된다. 따라서, 낮은 코딩 지연을 유지하고, 높은 평균 코딩 효율을 가지면서, 전환 시에 양호한 오디오 품질이 획득될 수 있다.
바람직한 실시예에서, 오디오 신호 디코더는, 오디오 콘텐츠의 현재 부분의 윈도잉된 표현이 오디오 콘텐츠의 다음 부분이 CELP 모드로 인코딩될지라도 오디오 콘텐츠의 다음 부분(의 표현)과 중복하도록 오디오 콘텐츠의 현재 부분과 시간적으로 중복하는 오디오 콘텐츠의 다음 부분의 인코딩을 위해 이용되는 모드와 무관한 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 윈도우를 선택하도록 구성된다. 오디오 콘텐츠의 다음 부분이 CELP 모드로 인코딩되는 검출에 응답하여, 오디오 신호 디코더는 또한, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분에서 CELP 모드로 인코딩되는 오디오 콘텐츠의 다음(후속) 부분으로의 전환 시에 앨리어싱 아티팩트를 감소시키거나 소거하는 앨리어싱 소거 신호를 제공하도록 구성된다. 따라서, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 변환-도메인 모드로 인코딩되는 다음 오디오 프레임의 시간-도메인 표현에 의해 소거될 수 있는 그런 앨리어싱 아티팩트는 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분이 참으로 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 앨리어싱 소거 신호를 이용하여 소거된다. 이러한 메카니즘으로 인해, 오디오 콘텐츠의 다음 부분이 CELP 모드로 인코딩될지라도 전환의 품질의 성능 저하는 방지된다.
바람직한 실시예에서, 주파수-도메인-대-시간-도메인 변환기는, CELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 합성 윈도우를 적용하여, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분이 오디오 콘텐츠의 이전의 부분을 인코딩하는 모드와 무관하고, 또한 오디오 콘텐츠의 다음 부분을 인코딩하는 모드와 무관한 동일한 미리 정해진 비대칭 합성 윈도우를 이용하여 윈도잉되도록 구성된다. 미리 정해진 비대칭 합성 윈도우는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉된 시간 도메인 표현이 CELP 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분의 시간 도메인 표현과 시간적으로 중복하도록 적용된다. 따라서, 동일한 미리 정해진 비대칭 합성 윈도우는 오디오 콘텐츠의 인접한 이전의 및 다음 부분을 인코딩하는 모드와 무관한 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에 이용된다. 따라서, 특히 간단한 오디오 신호 디코더 구현이 가능하다. 또한 합성 윈도우의 타입의 어떤 신호 전송을 이용할 필요가 없어, 비트율 요구를 감소시킨다.
바람직한 실시예에서, 오디오 신호 디코더는 오디오 콘텐츠의 현재 부분이 CELP 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분을 뒤따르는 경우에 선택적으로 앨리어싱 소거 정보에 기초하여 앨리어싱 소거 신호를 제공하도록 구성된다. 때때로, 또한, 앨리어싱 소거 정보를 이용하여 CELP 모드로 인코딩되는 오디오 콘텐츠의 부분에서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분으로의 전환 시에 앨리어싱을 취급하는 것이 바람직하다. 이러한 개념은 비트율 효율과 지연 특성 사이의 양호한 트레이드오프를 가져오는 것으로 발견되었다.
다른 바람직한 실시예에서, 주파수-도메인-대-시간-도메인 변환기는, 미리 정해진 비대칭 합성 윈도우와 상이하고, CELP 모드로 인코딩되는 오디오 콘텐츠의 부분을 뒤따르면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 전용 비대칭 전환 합성 윈도우를 적용하도록 구성된다. 이와 같은 개념에 의해 앨리어싱 아티팩트의 존재는 방지될 수 있는 것으로 발견되었다. 또한, 전환 후에 전용 윈도우의 이용은 이와 같은 전용 윈도우의 선택에 필요한 정보가 이미 이러한 전용 합성 윈도우를 적용할 시에 이용 가능하기 때문에 낮은 지연 특성을 심각하게 손상시키지 않는 것으로 발견되었다.
바람직한 실시예에서, 코드-여기된 선형-예측-도메인 경로(CELP 경로)는, 대수-코드-여기 정보 및 선형-예측-도메인 매개 변수 정보에 기초하여 (코드-여기된 선형-예측-도메인 모드로 이용되는) 대수-코드-여기된 선형-예측-도메인 모드(ACELP 모드)로 인코딩되는 오디오 콘텐츠의 시간-도메인 표현을 획득하도록 구성되는 대수-코드-여기된 선형-예측-도메인 경로(ACELP 경로)이다. 대수-코드-여기된 선형-예측-도메인 경로를 코드-여기된 선형-예측-도메인 경로로 이용함으로써, 특히 높은 코딩 효율이 많은 경우에 달성될 수 있다.
본 발명에 따른 추가적 실시예들은 오디오 콘텐츠의 입력 표현에 기초하여 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법 및, 오디오 콘텐츠의 인코딩된 표현에 기초하여 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법을 생성한다. 본 발명에 따른 추가적 실시예들은 상기 방법들 중 적어도 하나를 수행하는 컴퓨터 프로그램을 생성한다.
상기 방법들 및 상기 컴퓨터 프로그램은 상술한 오디오 신호 인코더 및 상술한 오디오 신호 디코더와 동일한 연구 결과에 기초하고, 오디오 신호 인코더 및 오디오 신호 디코더에 대해 논의된 어떤 특징 및 기능에 의해 보충될 수 있다.
본 발명에 따른 실시예들은 이후에 첨부된 도면을 참조로 설명될 것이다.
도 1은 본 발명의 실시예에 따른 오디오 신호 인코더의 개략적인 블록도를 도시한 것이다.
도 2a-2c는 도 1에 따른 오디오 신호 인코더에 이용하기 위한 변환 도메인 경로의 개략적인 블록도를 도시한 것이다.
도 3은 본 발명의 실시예에 따른 오디오 신호 디코더의 개략적인 블록도를 도시한 것이다.
도 4a-4c는 도 3에 따른 오디오 신호 디코더에 이용하기 위한 변환 도메인 경로의 개략적인 블록도를 도시한 것이다.
도 5는 본 발명에 따른 일부 실시예에 이용되는 사인 윈도우(점선) 및 G.718 분석 윈도우(실선)의 비교를 도시한 것이다.
도 6은 본 발명에 따른 일부 실시예에 이용되는 사인 윈도우(점선) 및 G.718 합성 윈도우(실선)의 비교를 도시한 것이다.
도 7은 사인 윈도우의 시퀀스의 그래픽 표현을 도시한 것이다.
도 8은 G.718 분석 윈도우의 시퀀스의 그래픽 표현을 도시한 것이다.
도 9는 G.718 합성 윈도우의 시퀀스의 그래픽 표현을 도시한 것이다.
도 10은 사인 윈도우(실선) 및 ACELP(사각형으로 표시된 선)의 시퀀스의 그래픽 표현을 도시한 것이다.
도 11은 G.718 분석 윈도우(실선), ACELP(사각형으로 표시된 선) 및 포워드(forward) 앨리어싱 소거("FAC")(점선)의 시퀀스를 포함하는 낮은 지연 통합된-음성-및-오디오-코딩(USAC)에 대한 제 1 옵션의 그래픽 표현을 도시한 것이다.
도 12는 도 11에 따른 낮은 지연 통합된-음성-및-오디오-코딩에 대한 제 1 옵션에 상응하는 합성에 대한 시퀀스의 그래픽 표현을 도시한 것이다.
도 13은 G.718 분석 윈도우(실선), ACELP(사각형으로 표시된 선) 및 FAC(점선)의 시퀀스를 이용한 낮은 지연 통합된-음성-및-오디오-코딩에 대한 제 2 옵션의 그래픽 표현을 도시한 것이다.
도 14는 도 13에 따른 낮은 지연 통합된-음성-및-오디오-코딩에 대한 제 2 옵션에 상응하는 합성에 대한 시퀀스의 그래픽 표현을 도시한 것이다.
도 15는 고급-오디오-코딩(AAC)에서 적응형-멀티-레이트-광대역-플러스 코딩(AMR-WB+)로의 전환의 그래픽 표현을 도시한 것이다.
도 16은 적응형-멀티-레이트-광대역-플러스 코딩(AMR-WB+)에서 고급-오디오-코딩(AAC)으로의 전환의 그래픽 표현을 도시한 것이다.
도 17은 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)에서 낮은-지연-수정된-이산-코사인-변환(LD-MDCT)의 분석 윈도우의 그래픽 표현을 도시한 것이다.
도 18은 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)에서 낮은-지연-수정된-이산-코사인-변환(LD-MDCT)의 합성 윈도우의 그래픽 표현을 도시한 것이다.
도 19는 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)과 시간-도메인 코덱 사이의 스위칭을 위한 예시적 윈도우 시퀀스의 그래픽 표현을 도시한 것이다.
도 20은 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)과 시간-도메인 코덱 사이의 스위칭을 위한 예시적 분석 윈도우 시퀀스의 그래픽 표현을 도시한 것이다.
도 21a는 시간-도메인 코덱에서 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)으로의 전환을 위한 분석 윈도우의 그래픽 표현을 도시한 것이다.
도 21b는 보통의 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD) 분석 윈도우에 비해 시간-도메인 코덱에서 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)으로의 전환을 위한 분석 윈도우의 그래픽 표현을 도시한 것이다.
도 22는 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)과 시간-도메인 코덱 사이의 스위칭을 위한 예시적 합성 윈도우 시퀀스의 그래픽 표현을 도시한 것이다.
도 23a는 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)에서 시간-도메인 코덱으로의 전환을 위한 합성 윈도우의 그래픽 표현을 도시한 것이다.
도 23b는 보통의 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD) 합성 윈도우에 비해 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)에서 시간-도메인 코덱으로의 전환을 위한 합성 윈도우의 그래픽 표현을 도시한 것이다.
도 24는 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)과 시간-도메인 코덱 사이의 윈도우 시퀀스 스위칭을 위한 전환 윈도우의 대안적 선택의 그래픽 표현을 도시한 것이다.
도 25는 시간-도메인 신호 및 대안적 프레이밍의 대안적 윈도잉의 그래픽 표현을 도시한 것이다.
도 26은 시간-도메인 코덱에 TDA 신호를 제공하여, 중요한 샘플링을 달성하기 위한 대안의 그래픽 표현을 도시한 것이다.
다음에는, 본 발명에 따른 여러 실시예가 설명될 것이다.
다음에 설명되는 실시예에서, 대수-코드-여기된 선형-예측-도메인 경로(ACELP 경로)는 코드-여기된 선형-예측-도메인 경로(CELP 경로)의 일례로서 설명되고, 대수-코드-여기된 선형-예측-도메인 모드(ACELP 모드)는 코드-여기된 선형-예측-도메인 모드(CELP 모드)의 일례로서 설명되는 것으로 여기에 언급된다. 또한, 대수-코드-여기 정보는 코드 여기 정보의 일례로서 설명될 것이다.
그럼에도 불구하고, 서로 다른 타입의 코드-여기된 선형-예측-도메인 경로는 여기에 설명된 ACELP 경로 대신에 이용될 수 있다. 예컨대, ACELP 경로 대신에, 코드-여기된 선형-예측-도메인 경로의 어떤 다른 변형은, 예컨대, RCELP 경로, LD-CELP 경로 또는 VSELP 경로와 같이 이용될 수 있다.
요약하면, 선형 예측을 통한 음성 생성의 소스 필터 모델은 오디오 인코더의 측면 및 오디오 디코더의 측면의 양방에 이용되고, 코드 여기 정보는, 주파수 도메인으로의 변환을 수행하지 않고, CELP 모드로 인코딩되는 오디오 콘텐츠의 재구성을 위한 선형-예측 모델(예컨대, 선형-예측 합성 필터)을 여기(또는 자극)하도록 적응되는(또한 자극 신호로 명시되는) 여기 신호를 직접 인코딩함으로써 인코더 측에서 도출되며, 여기 신호는, 주파수-도메인-대-시간-도메인 변환을 수행하지 않고, CELP 모드로 인코딩되는 오디오 콘텐츠의 재구성을 위한 선형-예측 모델(예컨대, 선형-예측 합성 필터)을 여기(또는 자극)하도록 적응되는(또한 자극 신호로 명시되는) 여기 신호를 재구성하도록 오디오 디코더의 측에서 코드-여기 정보로부터 직접 도출되는 공통점을 가진 여러 개념이 코드-여기된-선형-예측-도메인 경로를 구현하기 위해 이용될 수 있다.
환언하면, 오디오 신호 인코더 및 오디오 신호 디코더에서의 CELP 경로는 통상적으로 여기 신호(또는 자극 신호, 또는 잔여 신호)의 "시간-도메인" 인코딩 또는 디코딩과 (모델 또는 필터가 바람직하게는 성도(vocal tract)를 모델링하도록 구성될 수 있는) 선형-예측-도메인 모델(또는 필터)의 사용을 조합한다. 상기 "시간-도메인" 인코딩 또는 디코딩에서, 여기 신호(또는 자극 신호, 또는 잔여 신호)는 적절한 코드워드를 이용하여 (여기 신호의 시간-도메인-대-주파수-도메인 변환을 수행하지 않거나, 여기 신호의 주파수-도메인-대-시간-도메인 변환을 수행하지 않고) 직접 인코딩되거나 디코딩될 수 있다. 여기 신호의 인코딩 또는 디코딩을 위해, 여러 타입의 코드워드가 이용될 수 있다. 예컨대, Huffmann-코드워드 (또는 Huffmann 인코딩 기법 또는 Huffmann 디코딩 기법)는 (Huffmann-코드워드가 코드 여기 정보를 형성할 수 있도록) 여기 신호의 샘플을 인코딩 또는 디코딩하는데 이용될 수 있다. 그러나, 대안적으로, 서로 다른 적응 및/또는 고정된 코드북은, 선택적으로 (이들 코드워드가 코드 여기 정보를 형성하도록) 벡터 양자화 또는 벡터 인코딩/디코딩과 조합하여 여기 신호의 인코딩 및 디코딩에 이용될 수 있다. 일부 실시예에서, 대수 코드북은 여기 신호(ACELP)의 인코딩 및 디코딩에 이용될 수 있지만, 서로 다른 코드북 타입이 또한 적용 가능하다.
요약하면, 모두 CELP 경로에 이용될 수 있는 여기 신호의 "직접" 인코딩에 대한 많은 다양한 개념이 존재한다. 그래서, 아래에서 설명되는 ACELP 개념을 이용하는 인코딩 및 디코딩은 CELP 경로의 구현을 위한 다양한 가능성에서 일례로서만 간주되어야 한다.
1. 도 1에 따른 오디오 신호 인코더
다음에는, 본 발명의 실시예에 따른 오디오 신호 인코더(100)는 이와 같은 오디오 신호 인코더(100)의 개략적 블록도를 도시한 도 1을 참조로 설명될 것이다. 오디오 신호 인코더(100)는 오디오 콘텐츠의 입력 표현(110)을 수신하여, 이에 기초하여, 오디오 콘텐츠의 인코딩된 표현(112)을 제공하도록 구성된다. 오디오 신호 인코더(100)는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임)의 시간 도메인 표현(122)을 수신하여, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(122)에 기초하여 (인코딩된 형식으로 제공될 수 있는) 한 세트의 스펙트럼 계수(124) 및 잡음 형상화 정보(126)를 획득하도록 구성되는 변환 도메인 경로(120)를 포함한다. 변환 경로(120)는 스펙트럼 계수(124)를 제공하여 스펙트럼 계수가 오디오 콘텐츠의 잡음 형상화된 버전의 스펙트럼을 나타내도록 구성된다.
오디오 신호 인코더(100)는 또한, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(142)을 수신하여, (또한 간략히 ACELP 모드로 명시되는) 대수-코드-여기된 선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에 기초하여 대수-코드-여기 정보(144) 및 선형-예측-도메인 매개 변수 정보(146)를 획득하도록 구성되는 (간략히 ACELP 경로로 명시되는) 대수-코드-여기된 선형-예측-도메인 경로(140)를 포함한다. 오디오 신호 인코더(100)는 또한 앨리어싱 소거 정보를 제공하도록 구성되는 앨리어싱 소거 정보 제공(160)을 포함한다.
변환 도메인 경로는, 오디오 콘텐츠의 시간 도메인 표현(122)(또는, 더욱 정확하게는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현) 또는 이의 사전 처리된 버전을 윈도잉하고, 오디오 콘텐츠의 윈도잉된 표현(또는, 더욱 정확하게는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉된 버전)을 획득하며, 오디오 콘텐츠의 윈도잉된 (시간-도메인) 표현으로부터 스펙트럼 계수의 세트(124)를 도출시키기 위해 시간-도메인-대-주파수-도메인-변환을 적용하도록 구성되는 시간-도메인-대-주파수-도메인 변환기(130)를 포함한다. 시간-도메인-대-주파수-도메인 변환기(130)는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분을 뒤따르면서 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 분석 윈도우를 적용하도록 구성된다.
오디오 신호 인코더, 또는 더욱 정확하게는, 앨리어싱 소거 정보 제공(160)은 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 (변환 도메인 모드로 인코딩되는 것으로 추정되는) 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 선택적으로 앨리어싱 소거 정보를 제공하도록 구성된다. 대조적으로, 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 다른 부분이 (변환 도메인 모드로 인코딩되는) 오디오 콘텐츠의 현재 부분을 뒤따를 경우에는 앨리어싱 소거 정보는 제공될 수 없다.
따라서, 동일한 미리 정해진 비대칭 분석 윈도우는 오디오 콘텐츠의 다음 부분이 변환-도메인 모드로 인코딩되든지 ACELP 모드로 인코딩되든지 무관하게 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉을 위해 이용된다. 미리 정해진 비대칭 분석 윈도우는 통상적으로 오디오 콘텐츠의 다음 부분(예컨대, 프레임 또는 서브프레임) 사이의 중복을 위해 제공하여, 통상적으로 오디오 신호 디코더에서 효율적인 중복-및-추가 동작을 수행시켜 아티팩트 차단을 방지하는 가능성 및 양호한 코딩 효율을 생성한다. 그러나, 통상적으로 또한, 오디오 콘텐츠의 두 다음 (및 부분적으로 중복) 부분이 변환 도메인 모드로 코딩될 경우에 중복-및-추가 동작에 의해 인코더 측에서 앨리어싱 아티팩트를 소거할 수 있다. 이에 반해, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분과 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 전환에서도 미리 정해진 비대칭 분석 윈도우의 사용은, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 전환을 위해 잘 작업하는 중복-및-추가 앨리어싱 소거가 더 이상 효율적이지 않다는 도전을 가져오는데, 그 이유는 통상적으로 중복 없이(특히, 페이드-인(fade-in) 윈도잉 또는 페이드-아웃(fade-out) 윈도잉 없이) 시간적으로 급격히 제한된 샘플의 블록만이 ACELP 모드로 인코딩되기 때문이다.
그러나, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 전환, 심지어, 앨리어싱 소거 정보가 선택적으로 이와 같은 전환 시에 제공될 경우에 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분과 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 전환에 이용되는 동일한 비대칭 분석 윈도우를 이용할 수 있는 것으로 발견되었다.
따라서, 시간-도메인-대-주파수-도메인 변환기(130)는 어느 분석 윈도우가 오디오 콘텐츠의 현재 시간 부분의 분석에 이용되어야 하는지를 결정하기 위해 오디오 콘텐츠의 다음 부분이 인코딩되는 모드에 대한 어떤 지식을 필요로 하지 않는다. 결과적으로, 디코더 측에서 효율적인 중복-및-추가 동작을 허용하도록 상당한 중복을 위해 제공하는 비대칭 분석 윈도우를 여전히 이용하면서, 지연은 매우 적게 유지될 수 있다. 게다가, 오디오 품질을 크게 손상시키지 않고 변환 도메인 모드에서 ACELP 모드로 스위칭할 수 있는데, 그 이유는 앨리어싱 소거 정보(164)가 미리 정해진 비대칭 분석 윈도우가 완벽하게 이와 같은 전환에 적합하지 않다는 사실을 설명하기 위해 이와 같은 전환 시에 제공되기 때문이다.
다음에는, 오디오 신호 인코더(100)에 대한 일부 더욱 상세 사항이 설명된다.
1.1. 변환 도메인 경로에 관한 상세 사항
1.1.1. 도 2a에 따른 변환 도메인 경로
도 2a는 변환 도메인 경로(120)에 대신할 수 있고, 주파수-도메인 경로로 간주될 수 있는 변환 도메인 경로(200)의 개략적인 블록도를 도시한다.
변환 도메인 경로(200)는 주파수-도메인 모드로 인코딩되는 오디오 프레임의 시간 도메인 표현(210)을 수신하며, 주파수-도메인 모드는 변환-도메인 모드에 대한 예이다. 변환 도메인 경로(200)는 시간 도메인 표현(210)에 기초하여 스펙트럼 계수(214)의 인코딩된 세트 및 인코딩된 스케일 팩터 정보(216)를 제공하도록 구성된다. 변환 도메인 경로(200)는 시간 도메인 표현(210)의 사전 처리된 버전(220a)을 획득하도록 시간 도메인 표현(210)의 선택적 사전 처리(220)를 포함한다. 변환 도메인 경로(200)는 또한, 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉된 시간 도메인 표현(221a)을 획득하도록 (상술한 바와 같이) 미리 정해진 비대칭 분석 윈도우가 시간 도메인 표현(210) 또는 이의 사전 처리된 버전(220a)에 적용되는 윈도잉(221)을 포함한다. 변환 도메인 경로(200)는 또한 주파수 도메인 표현(222a)이 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 윈도잉된 시간 도메인 표현(221)으로부터 도출되는 시간-도메인-대-주파수-도메인 변환(222)을 포함한다. 변환 도메인 경로(200)는 또한 스펙트럼 형상화가 주파수 도메인 표현(222a)을 형성하는 주파수 도메인 계수 또는 스펙트럼 계수에 적용되는 스펙트럼 처리(223)를 포함한다. 따라서, 스펙트럼 스케일된 주파수 도메인 표현(223a)은 예컨대 주파수 도메인 계수 또는 스펙트럼 계수의 세트의 형식으로 획득된다. 양자화 및 인코딩(224)은 스펙트럼 계수(240)의 인코딩된 세트를 획득하도록 스펙트럼 스케일된 (즉, 스펙트럼으로 형상화된) 주파수 도메인 표현(223a)에 적용된다.
변환 도메인 경로(200)는 또한, 예컨대, 주파수 마스킹 효과 및 시간적 마스킹 효과에 대해, 오디오 콘텐츠의 어느 성분(예컨대, 어느 스펙트럼 계수)이 높은 해상도로 인코딩되어야 하는지를 결정하고, 어느 성분에 대해(예컨대, 어느 스펙트럼 계수에 대해) 비교적 낮은 해상도를 가진 인코딩이 충분한지를 결정하기 위해 오디오 콘텐츠를 분석하도록 구성되는 음향 심리학 분석(225)을 포함한다. 따라서, 음향 심리학 분석(225)은, 예컨대, 다수의 스케일 팩터 밴드의 음향 심리학 관련성을 나타내는 스케일 팩터(225a)를 제공할 수 있다. 예컨대, (비교적) 큰 스케일 팩터는 (비교적) 높은 음향 심리학 관련성의 스케일 팩터 밴드와 관련될 수 있지만, (비교적) 작은 스케일 팩터는 (비교적) 낮은 음향 심리학 관련성의 스케일 팩터 밴드와 관련될 수 있다.
스펙트럼 처리(223)에서, 스펙트럼 계수(222a)는 스케일 팩터(225a)에 따라 가중된다. 예컨대, 서로 다른 스케일 팩터 밴드의 스펙트럼 계수(222a)는 상기 각각의 스케일 팩터 밴드에 관련된 스케일 팩터(225a)에 따라 가중된다. 따라서, 높은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수는 스펙트럼 형상화된 주파수 도메인 표현(223a)에서 낮은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수보다 높게 가중된다. 따라서, 높은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수는 스펙트럼 처리(223)에서 높은 가중치로 인해 효과적으로 양자화/인코딩(224)에 의해 높은 양자화 정확도로 양자화된다. 낮은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수(222a)는 스펙트럼 처리(223)에서 낮은 가중치로 인해 효과적으로 양자화/인코딩(224)에 의해 낮은 해상도로 양자화된다.
주파수 도메인 브랜치(200)는 결과적으로 스케일 팩터(225a)의 인코딩된 표현인 스펙트럼 계수(214)의 인코딩된 세트 및 인코딩된 스케일 팩터 정보(216)를 제공한다. 인코딩된 스케일 팩터 정보(216)가 효과적으로 서로 다른 스케일 팩터 밴드에 걸친 양자화 잡음의 분포를 결정하는 스펙트럼 처리(223)에서 스펙트럼 계수(222a)의 스케일링을 나타내기 때문에 인코딩된 스케일 팩터 정보(216)는 효과적으로 잡음 형상화 정보를 구성한다.
추가적 상세 사항에 대해, 주파수 도메인 모드에서 오디오 프레임의 시간 도메인 표현의 인코딩을 나타내는 소위 "고급 오디오 코딩"에 관한 문헌에 대한 참조가 행해진다.
더욱이, 변환 도메인 경로(200)는 통상 시간적으로 중복한 오디오 프레임을 처리하는 것으로 언급된다. 바람직하게는, 시간-도메인-대-주파수-도메인 변환(222)은, 예컨대, 수정된-이산-코사인-변환(MDCT)과 같은 랩핑된 변환의 실행을 포함한다. 따라서, 대략 N/2 스펙트럼 계수(222a)만이 N 시간 도메인 샘플을 가진 오디오 프레임에 제공된다. 따라서, 예컨대, N/2 스펙트럼 계수(214)의 인코딩된 세트는 N 시간 도메인 샘플의 프레임의 완전한(또는 거의 완전한) 재구성에 충분하지 않다. 오히려, 두 다음 프레임의 중복은 통상적으로 오디오 콘텐츠의 시간 도메인 표현을 완전히 (또는 적어도 거의 완전히) 재구성하기 위해 필요로 된다. 환언하면, 두 다음 오디오 프레임의 스펙트럼 계수(214)의 인코딩된 세트는 통상적으로, 디코더 측에서, 주파수 도메인 모드로 인코딩되는 두 다음 프레임의 시간적 중복 영역에서 앨리어싱을 소거하기 위해 필요로 된다.
그러나, 앨리어싱이 주파수 도메인 모드로 인코딩되는 프레임에서 ACELP 모드로 인코딩되는 프레임으로의 전환 시에 소거되는 방법에 대한 추가적 상세 사항은 아래에서 설명된다.
1.1.2. 도 2b에 따른 변환 도메인 경로
도 2b는 변환 도메인 경로(120)에 대신할 수 있는 변환 도메인 경로(230)의 개략적인 블록도를 도시한다.
변환-코딩된-여기-선형-예측-도메인 경로로 간주될 수 있는 변환 도메인 경로(230)는 변환-코딩된-여기-선형-예측-도메인 모드(또한 간략히 TCX-LPD 모드로 명시됨)로 인코딩되는 오디오 프레임의 시간 도메인 표현(240)을 수신하며, TCX-LPD 모드는 변환 도메인 모드에 대한 예이다. 변환 도메인 경로(230)는 잡음 형상화 정보로 간주될 수 있는 스펙트럼 계수(244)의 인코딩된 세트 및 인코딩된 선형-예측-도메인 매개 변수(246)를 제공하도록 구성된다. 변환 도메인 경로(230)는 선택적으로 시간 도메인 표현(240)의 사전 처리된 버전(250a)을 제공하도록 구성되는 사전 처리(250)를 포함한다. 변환 도메인 경로는 또한, 시간 도메인 표현(240)에 기초하여 선형-예측-도메인 필터 매개 변수(251a)를 계산하도록 구성되는 선형-예측-도메인 매개 변수 계산(251)을 포함한다. 선형 예측 도메인 매개 변수 계산(251)은, 예컨대 선형-예측-도메인 필터 매개 변수를 획득하기 위해 시간 도메인 표현(240)의 상관 분석을 수행하도록 구성될 수 있다. 예컨대, 선형-예측-도메인 매개 변수 계산(251)은 3세대 파트너십 프로젝트의 문서 "3GPP TS 26.090", "3GPP TS 26.190" 및 "3GPP TS 26.290"에 기재되어 있는 바와 같이 수행될 수 있다.
변환 도메인 경로(230)는 또한 시간 도메인 표현(240) 또는 이의 사전 처리된 버전(250a)이 선형-예측-도메인 필터 매개 변수(251a)에 따라 구성되는 필터를 이용하여 필터링되는 LPC 기반 필터링(262)을 포함한다. 따라서, 필터링된 시간 도메인 신호(262a)는 선형-예측-도메인 매개 변수(251a)에 기초하는 필터링(262)에 의해 획득된다. 필터링된 시간 도메인 신호(262a)는 윈도잉된 시간 도메인 신호(263a)를 획득하도록 윈도잉(263)에서 윈도잉된다. 윈도잉된 시간 도메인 신호(263a)는 시간-도메인-대-주파수-도메인 변환(264)에 의해 주파수-도메인 표현으로 변환되어, 시간-도메인-대-주파수-도메인 변환(264)의 결과로서 스펙트럼 계수(264a)의 세트를 획득한다. 그 다음, 스펙트럼 계수(264a)의 세트는 스펙트럼 계수(244)의 인코딩된 세트를 획득하도록 양자화/인코딩(265)에서 양자화되어 인코딩된다.
변환 도메인 경로(230)는 또한 인코딩된 선형-예측-도메인 매개 변수(246)를 제공하도록 선형-예측-도메인 매개 변수(251a)의 양자화 및 인코딩(266)을 포함한다.
변환 도메인 경로(230)의 기능에 관하여, 선형-예측-도메인 매개 변수 계산(251)은 필터링(262)에 적용되는 선형-예측-도메인 필터 정보(251a)를 제공한다고 할 수 있다. 필터링된 시간 도메인 신호(262a)는 시간 도메인 표현(240) 또는 이의 사전 처리된 버전(250a)의 스펙트럼 형상화된 버전이다. 일반적으로, 시간 도메인 표현(240)에 의해 나타낸 오디오 신호의 명료도(intelligibility)에 더욱 중요한 시간 도메인 표현(240)의 성분이 시간 도메인 표현(240)에 의해 나타낸 오디오 콘텐츠의 명료도에 덜 중요한 시간 도메인 표현(240)의 스펙트럼 성분보다 높게 가중되도록 필터링(262)은 잡음 형상화를 수행한다고 할 수 있다. 따라서, 오디오 콘텐츠의 명료도에 더욱 중요한 시간 도메인 표현(240)의 스펙트럼 성분의 스펙트럼 계수(264a)는 오디오 콘텐츠의 명료도에 덜 중요한 스펙트럼 성분의 스펙트럼 계수(264a)에 비해 강조된다.
결과적으로, 시간 도메인 표현(240)의 더 중요한 스펙트럼 성분과 관련된 스펙트럼 계수는 낮은 중요도의 스펙트럼 성분의 스펙트럼 계수보다 더 높은 양자화 정확도로 효율적으로 양자화될 것이다. 따라서, 양자화/인코딩(250)에 의해 생성된 양자화 잡음은 (오디오 콘텐츠의 명료도에 관하여) 더 중요한 스펙트럼 성분은 (오디오 콘텐츠의 명료도에 관하여) 덜 중요한 스펙트럼 성분보다 양자화 잡음에 의해 덜 심각하게 영향을 받도록 형상화된다.
따라서, 인코딩된 선형-예측-도메인 매개 변수(246)는 양자화 잡음을 형상화하는데 적용된 필터링(262)을 인코딩된 형식으로 나타내는 잡음 형상화 정보로 간주될 수 잇다.
게다가, 바람직하게는 랩핑된 변환이 시간-도메인-대-주파수-도메인 변환(264)에 이용되는 것으로 언급되어야 한다. 예컨대, 수정된-이산-코사인-변환(MDCT)은 시간-도메인-대-주파수-도메인 변환(264)에 이용된다. 따라서, 변환 도메인 경로에 의해 제공되는 인코딩된 스펙트럼 계수(244)의 수는 오디오 프레임의 시간 도메인 샘플의 수보다 작다. 예컨대, N/2 스펙트럼 계수(244)의 인코딩된 세트는 N 시간 도메인 샘플을 포함하는 오디오 프레임에 제공될 수 있다. 오디오 프레임의 N 시간 도메인 샘플의 완전한(또는 거의 완전한) 재구성은 상기 프레임과 관련된 N/2 스펙트럼 계수(244)의 인코딩된 세트에 기초하여 가능하지 않다. 오히려, 두 다음 오디오 프레임의 재구성된 시간 도메인 표현 사이의 중복-및-추가가 시간 도메인 앨리어싱을 소거하는데 필요로 되며, 시간 도메인 앨리어싱은, 예컨대, N/2 스펙트럼 계수의 보다 작은 수가 N 시간 도메인 샘플의 오디오 프레임과 관련된다는 사실에 이해 생성된다. 따라서, 통상적으로, 상기 두 다음 프레임 사이의 시간적 중복 영역에서의 앨리어싱 아티팩트를 소거하기 위해 디코더 측에서 TCX-LPD 모드로 인코딩되는 두 다음 오디오 프레임의 시간 도메인 표현을 중복하는 것이 필요하다.
그러나, TCX-LPD 모드로 인코딩되는 오디오 프레임과 ACELP 모드로 인코딩되는 다음 오디오 프레임 사이의 전환 시에 앨리어싱의 소거를 위한 메카니즘은 아래에 설명된다.
1.1.3. 도 2c에 따른 변환 도메인 경로
도 2c는 변환 도메인 경로(120)에 대신할 수 있고, 변환-코딩된-여기-선형-예측-도메인 경로로 간주될 수 있는 변환 도메인 경로(260)의 개략적인 블록도를 도시한다.
변환 도메인 경로(260)는 TCX-LPD 모드로 인코딩되는 오디오 프레임의 시간 도메인 표현을 수신하여, 이에 기초하여, 잡음 형상화 정보로 간주될 수 있는 스펙트럼 계수(274)의 인코딩된 세트 및 인코딩된 선형-예측-도메인 매개 변수(276)를 제공하도록 구성된다. 변환 도메인 경로(260)는, 사전 처리(250)와 동일하고, 시간 도메인 표현(270)의 사전 처리된 버전을 제공하는 선택적 사전 처리(280)를 포함한다. 변환 도메인 경로(260)는 또한, 선형-예측-도메인 필터 매개 변수(281a)를 수신하여, 이에 기초하여, 선형-예측-도메인 필터 매개 변수의 스펙트럼 도메인 표현(282b)을 제공하도록 구성되는 선형-예측-도메인-대-스펙트럼-도메인 변환(282)을 포함한다. 변환 도메인 경로(260)는 또한, 시간 도메인 표현(270) 또는 이의 사전 처리된 버전(280a)을 수신하여, 시간-도메인-대-주파수-도메인 변환(284)에 윈도잉된 시간 도메인 신호(283a)를 제공하도록 구성되는 윈도잉(283)을 포함한다. 시간-도메인-대-주파수-도메인 변환(284)은 스펙트럼 계수(284a)의 세트를 제공한다. 스펙트럼 계수(284)의 세트는 스펙트럼 처리(285)에서 스펙트럼으로 처리된다. 예컨대, 스펙트럼 계수(284a)의 각각은 선형-예측-도메인 필터 매개 변수의 스펙트럼 도메인 표현(282a)의 관련된 값에 따라 스케일된다. 따라서, 스케일된 (즉, 스펙트럼으로 형상화된) 스펙트럼 계수(285a)의 세트가 획득된다. 양자화 및 인코딩(286)은 스펙트럼 계수(274)의 인코딩된 세트를 획득하도록 스케일된 스펙트럼 계수(285a)의 세트에 적용된다. 따라서, 스펙트럼 도메인 표현(282a)의 관련된 값이 비교적 큰 값을 포함하는 스펙트럼 계수(284a)는 스펙트럼 처리(285)에서 비교적 높은 가중치를 부여하지만, 스펙트럼 도메인 표현(282a)의 관련된 값이 비교적 작은 값을 포함하는 스펙트럼 계수(284a)는 스펙트럼 처리(285)에서 비교적 작은 가중치를 부여한다. 따라서, 서로 다른 가중치는 스펙트럼 계수(285a)를 도출할 때에 스펙트럼 계수(284a)에 적용되며, 여기서, 가중치는 스펙트럼 도메인 표현(282a)의 값에 의해 결정된다.
선택적으로, 스펙트럼 형상화가 필터 뱅크(262)에 의해서보다 스펙트럼 처리(285)에 의해 수행될지라도 변환 도메인 경로(260)는 변환 도메인 경로(230)와 유사한 스펙트럼 형상화를 수행한다.
다시 말하면, 선형-예측-도메인 필터 매개 변수(281a)는 인코딩된 선형-예측-도메인 매개 변수(276)를 획득하도록 양자화/인코딩(288)으로 양자화되고 인코딩된다. 인코딩된 선형-예측-도메인 매개 변수(276)는 스펙트럼 처리(285)에 의해 수행되는 잡음 형상화를 인코딩된 형식으로 나타낸다.
다시 말하면, 시간-도메인-대-주파수-도메인 변환(284)은 바람직하게는, 스펙트럼 계수(274)의 인코딩된 세트가 통상적으로 예컨대 오디오 프레임의 N 시간 도메인 샘플의 수에 비해 예컨대 N/2 스펙트럼 계수의 보다 작은 수를 포함하도록 랩핑된 변환을 이용하여 수행된다. 따라서, TCX-LPD 모드로 인코딩되는 오디오 프레임의 완전한(또는 거의 완전한) 재구성은 스펙트럼 계수(274)의 단일 인코딩된 세트에 기초하여 가능하지 않다. 오히려, TCX-LPD 모드로 인코딩되는 두 다음 오디오 프레임의 시간 도메인 표현은 통상적으로 앨리어싱 아티팩트를 소거하기 위해 오디오 신호 디코더 중복-및-추가된다.
그러나, TCX-LPD 모드로 인코딩되는 오디오 프레임에서 ACELP 모드로 인코딩되는 오디오 프레임으로의 전환 시에 앨리어싱 아티팩트의 소거를 위한 개념은 아래에 설명된다.
1.2. 대수-코드- 여기된 선형-예측-도메인 경로에 관한 상세 사항
다음에는, 대수-코드-여기된-선형-예측-도메인 경로(140)에 관한 일부 상세 사항이 설명될 것이다.
ACELP 경로(140)는 선형-예측-도메인 매개 변수 계산(251) 및 어떤 경우에는 선형-예측-도메인 매개 변수 계산(281)과 동일한 선형-예측-도메인 매개 변수 계산(150)을 포함한다. ACELP 경로(140)는 또한, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(142) 및, 또한 선형-예측-도메인 매개 변수 계산(150)에 의해 제공되는 (선형-예측-도메인 필터 매개 변수일 수 있는) 선형-예측-도메인 매개 변수(150aa)에 따라 ACELP 여기 정보(152)를 제공하도록 구성되는 ACELP 여기 계산(152)을 포함한다. ACELP 경로(140)는 또한 대수-코드-여기 정보(144)를 획득하도록 ACELP 여기 정보(152)의 인코딩(154)을 포함한다. 게다가, ACELP 경로(140)는 인코딩된 선형-예측-도메인 매개 변수 정보(146)를 획득하도록 선형-예측-도메인 매개 변수 정보(150a)의 양자화 및 인코딩(156)을 포함한다. ACELP 경로는, 예컨대, 3세대 파트너십 프로젝트의 문서 "3GPP TS 26.090", "3GPP TS 26.190" 및 "3GPP TS 26.290"에 기재된 ACELP 코딩의 기능과 유사하거나 심지어 동일한 기능을 포함할 수 있는 것으로 언급된다. 그러나, 시간 도메인 표현(142)에 기초하여 대수-코드-여기 정보(144) 및 선형-예측-도메인 매개 변수 정보(146)의 제공을 위한 여러 개념은 또한 일부 실시예에 적용될 수 있다.
1.3. 앨리어싱 소거 정보 제공에 관한 상세 사항
다음에는, 앨리어싱 소거 정보 제공(160)에 관한 일부 상세 사항이 설명되며, 이는 앨리어싱 소거 정보(164)를 제공하는데 이용된다.
바람직하게는, 앨리어싱 소거 정보에는 선택적으로, 변환 도메인 모드(예컨대, 주파수 도메인 모드 또는 TCX-LPD 모드)로 인코딩되는 오디오 콘텐츠의 부분에서 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분으로의 전환이 제공되지만, 앨리어싱 소거 정보의 제공은 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서 또한 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분으로의 전환 시에 생략된다. 앨리어싱 소거 정보(164)는, 예컨대, 스펙트럼 계수(124)의 세트 및 잡음 형상화 정보(126)에 기초하여 오디오 콘텐츠의 부분의 (변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분의 시간-도메인 표현과의 중복-및-추가 없이) 개별 디코딩에 의해 획득되는 오디오 콘텐츠의 부분의 시간 도메인 표현에 포함되는 앨리어싱 아티팩트를 소거하기 위해 적응되는 신호를 인코딩할 수 있다.
상술한 바와 같이, 스펙트럼 계수(124)의 세트 및 잡음 형상화 정보(126)에 기초하여 단일 오디오 프레임의 디코딩에 의해 획득되는 시간 도메인 표현은 시간-도메인-대-주파수-도메인 변환 및 또한 오디오 디코더의 주파수-도메인-대-시간-도메인 변환기에서 랩핑 변환의 이용에 의해 생성되는 시간 도메인 앨리어싱을 포함한다.
앨리어싱 소거 정보 제공(160)은, 예컨대, 합성 결과 신호(170a)가 스펙트럼 계수(124)의 세트 및 잡음 형상화 정보(126)에 기초하여 오디오 콘텐츠의 현재 부분의 개별 디코딩에 의해 오디오 신호 디코더에서 또한 획득되는 합성 결과를 나타내도록 합성 결과 신호(170a)를 계산하기 위해 구성되는 합성 결과 계산(170)을 포함할 수 있다. 합성 결과 신호(170a)는 또한 오디오 콘텐츠의 입력 표현(110)을 수신할 수 있는 오류 계산(172)으로 이송될 수 있다. 오류 계산(172)은 오디오 콘텐츠의 입력 표현(110)과 합성 결과 신호(170a)를 비교하여, 오류 신호(172a)를 제공할 수 있다. 오류 신호(172a)는 오디오 신호 디코더에 의해 획득할 수 있는 합성 결과와 오디오 콘텐츠의 입력 표현(110) 사이의 차를 나타낸다. 오류 신호(172)의 주요 기여가 통상적으로 시간 도메인 앨리어싱에 의해 결정됨에 따라, 오류 신호(172)는 디코더 측 앨리어싱 소거에 적합하다. 앨리어싱 소거 정보 제공(160)은 또한 오류 신호(172a)가 앨리어싱 소거 정보(164)를 획득하기 위해 인코딩되는 오류 인코딩(174)을 포함한다. 따라서, 오류 신호(172a)는 선택적으로, 앨리어싱 소거 정보가 비트율 효율적인 방식으로 오류 신호(172a)를 나타내도록 앨리어싱 소거 정보(164)를 획득하기 위해 오류 신호(172a)의 예상된 신호 특성에 적응될 수 있는 방식으로 인코딩된다. 따라서, 앨리어싱 소거 정보(164)는 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분으로의 전환 시에 앨리어싱 아티팩트를 감소시키거나 심지어 제거하기 위해 적응되는 앨리어싱 소거 신호의 디코더 측 재구성을 허용한다.
여러 인코딩 개념이 오류 인코딩(174)에 이용될 수 있다. 예컨대, 오류 신호(172a)는 (스펙트럼 값, 및 상기 스펙트럼 값의 양자화 및 인코딩을 획득하기 위해 시간-도메인-대-주파수-도메인 변환을 포함하는) 주파수 도메인 인코딩에 의해 인코딩될 수 있다. 양자화 잡음의 여러 타입의 잡음 형상화가 적용될 수 있다. 그러나, 대안적으로, 여러 오디오 인코딩 개념이 오류 신호(172a)를 인코딩하는데 이용될 수 있다.
더욱이, 오디오 디코더에서 도출될 수 있는 추가 오류 소거 신호는 오류 계산(172)에 고려될 수 있다.
2. 도 3에 따른 오디오 신호 디코더
다음에는, 오디오 신호 인코더(100)에 의해 제공되는 인코딩된 오디오 표현(112)을 수신하여, 오디오 콘텐츠의 상기 인코딩된 표현을 디코딩하도록 구성되는 오디오 신호 디코더가 설명된다. 도 3은 본 발명의 실시예에 따른 이와 같은 오디오 신호 디코더(300)의 개략적 블록도를 도시한다.
오디오 신호 디코더(300)는 오디오 콘텐츠의 인코딩된 표현(310)을 수신하여, 이에 기초하여, 오디오 콘텐츠의 디코딩된 표현(312)을 제공하도록 구성된다.
오디오 신호 디코더(300)는 스펙트럼 계수(322)의 세트 및 잡음 형상화 정보(324)를 수신하도록 구성되는 변환 도메인 경로(320)를 포함한다. 변환 도메인 경로(320)는 스펙트럼 계수(322)의 세트 및 잡음 형상화 정보(324)에 기초하여 변환 도메인 모드(예컨대, 주파수 도메인 모드 또는 변환-코딩된-여기 선형-예측-도메인-모드)로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(326)을 획득하도록 구성된다. 오디오 신호 디코더(300)는 또한 대수-코드-여기된 선형-예측-도메인 경로(340)를 포함한다. 대수-코드-여기된 선형-예측-도메인 경로(340)는 대수-코드-여기 정보(342) 및 선형-예측-도메인 매개 변수 정보(344)를 수신하도록 구성된다. 대수-코드-여기된 선형-예측-도메인 경로(340)는 대수-코드-여기 정보(342) 및 선형-예측-도메인 매개 변수 정보(344)에 기초하여 대수-코드-여기된 선형-예측-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(346)을 획득하도록 구성된다.
오디오 신호 디코더(300)는 앨리어싱 소거 정보(362)를 수신하여, 이에 기초하여 앨리어싱 소거 신호(364)를 제공하도록 구성되는 앨리어싱 소거 신호 제공기(360)를 더 포함한다.
오디오 신호 디코더(300)는, 예컨대, 조합(380)을 이용하여, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(326)을 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(346)과 조합하여, 오디오 콘텐츠의 디코딩된 표현(312)을 획득하도록 더 구성된다.
변환 도메인 경로(320)는, 주파수-도메인-대-시간-도메인 변환(332) 및 윈도잉(334)을 적용하여, 스펙트럼 계수(322)의 세트 또는 이의 사전 처리된 버전으로부터 오디오 콘텐츠의 윈도잉된 시간 도메인 표현을 도출하도록 구성되는 주파수-도메인-대-시간-도메인 변환기(330)를 포함한다. 주파수-도메인-대-시간-도메인 변환기(330)는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분을 뒤따르도면서 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 합성 윈도우를 적용하도록 구성된다.
오디오 신호 디코더(또는 더욱 정확하게는, 앨리어싱 소거 신호 제공기(360))는 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 (변환-도메인 모드로 인코딩되는) 오디오 콘텐츠의 현재 부분을 뒤따를 경우에 선택적으로 앨리어싱 소거 정보(362)에 기초하여 앨리어싱 소거 신호(364)를 제공하도록 구성된다.
오디오 신호 디코더(300)의 기능에 관해, 오디오 신호 디코더(300)는 오디오 콘텐츠의 디코딩된 표현(312)을 제공할 수 있다고 할 수 있으며, 이 오디오 콘텐츠의 부분은 서로 다른 모드, 즉 변환-도메인 모드 및 ACELP 모드로 인코딩된다. 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임)의 경우, 변환 도메인 경로(320)는 시간 도메인 표현(326)을 제공한다. 그러나, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 프레임의 시간 도메인 표현(326)은, 주파수-도메인-대-시간-도메인 변환기(330)가 통상적으로 시간 도메인 표현(326)을 제공하기 위해 역 랩핑된 변환을 이용하기 때문에 시간 도메인 앨리어싱을 포함할 수 있다. 예컨대, 역 수정된 이산 코사인 변환(IMDCT)일 수 있는 역 랩핑된 변환에서, 스펙트럼 계수(322)의 세트는 프레임의 시간 도메인 샘플로 맵핑될 수 있으며, 여기서, 프레임의 시간 도메인 샘플의 수는 상기 프레임과 관련된 스펙트럼 계수(322)의 수보다 클 수 있다. 예컨대, 오디오 프레임과 관련된 N/2 스펙트럼 계수가 있을 수 있고, N 시간 도메인 샘플은 변환 도메인 경로(320)에 의해 상기 프레임에 제공될 수 있다. 따라서, 실질적으로 앨리어싱이 없는 시간 도메인 표현은 (예컨대, 조합(380)에서) 변환 도메인 모드로 인코딩되는 두 다음 프레임에 대해 획득된 (시간적으로-시프트된) 시간 도메인 표현을 중복-및-추가함으로써 획득된다.
그러나, 앨리어싱 소거는, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임 또는 서브프레임)에서 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분으로의 전환 시에 더욱 곤란하다. 바람직하게는, 변환 도메인 모드로 인코딩되는 프레임 또는 서브프레임에 대한 시간 도메인 표현은 (비제로) 시간 도메인 샘플이 ACELP 브랜치에 의해 제공되는 (통상적으로 블록의 형태의) 시간 부분으로 시간적으로 연장한다. 더욱이, ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분의 이전에 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분은 통상적으로 어느 정도의 시간 도메인 앨리어싱을 포함하며, 그러나, 이러한 시간 도메인 앨리어싱은 ACELP 브랜치에 의해 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분에 제공되는 시간 도메인 샘플에 의해 소거될 수 없다(반면에, 시간 도메인 앨리어싱은 오디오 콘텐츠의 다음 부분이 변환-도메인 모드로 인코딩되었을 경우에 변환-도메인 브랜치에 의해 제공되는 시간 도메인 표현에 의해 실질적으로 소거되었다).
그러나, 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분으로의 전환에서의 앨리어싱은 앨리어싱 소거 신호 제공기(360)에 의해 제공되는 앨리어싱 소거 신호(364)에 의해 감소되거나, 심지어 제거된다. 이를 위해, 앨리어싱 소거 신호 제공기(360)는 앨리어싱 소거 정보를 평가하여, 이에 기초하여, 시간 도메인 앨리어싱 소거 신호를 제공한다. 앨리어싱 소거 신호(364)는, 예컨대, 시간 도메인 앨리어싱을 감소시키거나 심지어 제거하기 위해 변환 도메인 경로에 의해 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에 제공되는 N 시간 도메인 샘플의 시간 도메인 표현의 우측 절반(또는 더 짧은 우측 부분)에 추가된다. 앨리어싱 소거 신호(364)는, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분의 (비제로) 시간 도메인 표현(346)이 변환 도메인 모드로 인코딩되는 오디오 콘텐츠의 시간 도메인 표현과 중복하지 않는 시간 부분 및, ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분의 (비제로) 시간 도메인 표현이 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 이전의 부분의 시간 도메인 표현과 중복하는 시간 부분의 양방에 추가될 수 있다. 따라서, ("클릭" 아티팩트 없이) 순조로운 전환이 변환-도메인 모드로 인코딩되는 시간 도메인 표현의 부분과, ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이에서 획득될 수 있다. 앨리어싱 아티팩트는 앨리어싱 소거 신호를 이용하여 이와 같은 전환에서 감소되거나 심지어 제거될 수 있다.
결과적으로, 오디오 신호 디코더(300)는 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분(예컨대, 프레임)의 시퀀스를 효율적으로 취급할 수 있다. 이와 같은 경우에, 시간 도메인 앨리어싱은 변환-도메인 모드로 인코딩되는 다음(시간적으로 중복) 프레임의(예컨대, N 시간 도메인 샘플의) 시간 도메인 표현의 중복-및-추가에 의해 소거된다. 따라서, 어떤 추가적 중복 없이 순조로운 전환이 획득된다. 예컨대, 오디오 프레임마다 N/2 스펙트럼 계수를 평가하고, 50 % 시간적 프레임 중복을 이용함으로써, 중요한 샘플링이 이용될 수 있다. 변환-도메인 모드로 인코딩되는 오디오 프레임의 이러한 시퀀스에 대해 아티팩트 차단을 방지하면서 매우 양호한 코딩 효율이 획득된다.
또한, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분을 뒤따르든지 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분이 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 현재 부분을 뒤따르든지 무관하게 동일한 미리 정해진 비대칭 합성 윈도우를 이용함으로써, 지연은 상당히 적게 유지될 수 있다.
더욱이, 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분과 ACELP 모드로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 전환의 오디오 품질은, 특히 적응된 합성 윈도우를 이용하지도 않고, 앨리어싱 소거 정보에 기초하여 제공되는 앨리어싱 소거 신호를 이용함으로써 높게 유지될 수 있다.
따라서, 오디오 신호 디코더(300)는 코딩 효율, 코딩 지연 및 오디오 품질 사이에 양호한 절충안(compromise)을 제공한다.
2.1. 변환 도메인 경로에 관한 상세 사항
다음에는, 변환 도메인 경로(320)에 관한 상세 사항이 주어질 것이다. 이를 위해, 변환 경로(320)의 구현에 대한 예들이 설명될 것이다.
2.1.1. 도 4a에 따른 변환 도메인 경로
도 4a는 본 발명에 따른 일부 실시예에서 변환 도메인 경로(320)에 대신할 수 있고, 주파수-도메인 경로로 간주될 수 있는 변환 도메인 경로(400)의 개략적인 블록도를 도시한다.
변환 도메인 경로(400)는 스펙트럼 계수(412)의 인코딩된 세트 및 인코딩된 스케일 팩터 정보(414)를 수신하도록 구성된다. 변환 도메인 경로(400)는 주파수 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(416)을 제공하도록 구성된다.
변환 도메인 경로(400)는, 스펙트럼 계수(412)의 인코딩된 세트를 수신하여, 이에 기초하여, 스펙트럼 계수(420a)의 디코딩된 및 역 양자화된 세트를 제공하는 디코딩 및 역 양자화(420)를 포함한다. 변환 도메인 경로(400)는 또한, 인코딩된 스케일 팩터 정보(414)를 수신하여, 이에 기초하여, 디코딩된 및 역 양자화된 스케일 팩터 정보(421a)를 제공하는 디코딩 및 역 양자화(421)를 포함한다.
변환 도메인 경로(400)는 또한, 스펙트럼 처리(422)가, 예컨대, 디코딩된 및 역 양자화된 스펙트럼 계수(420a)의 스케일-팩터-밴드-와이즈(wise) 스케일링을 포함할 수 있는 스펙트럼 처리(422)를 포함한다. 따라서, 스펙트럼 계수(422a)의 스케일된 (즉, 스펙트럼으로 형상화된) 세트가 획득된다. 스펙트럼 처리(422)에서, (비교적) 작은 스케일링 팩터는 (비교적) 높은 음향 심리학 관련성이 있는 그러한 스케일 팩터 밴드에 적용될 수 있지만, (비교적) 큰 스케일링은 (비교적) 작은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수에 적용된다. 따라서, (비교적) 낮은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수에 대한 효율적인 양자화 잡음에 비해 (비교적) 높은 음향 심리학 관련성을 가진 스케일 팩터 밴드의 스펙트럼 계수에 대한 효율적인 양자화 잡음이 더 작은 것으로 도달된다. 스펙트럼 처리에서, 스펙트럼 계수(420a)는 스펙트럼 계수(422a)를 획득하기 위해 각각의 관련된 스케일 팩터와 승산될 수 있다.
변환 도메인 경로(400)는 또한 스케일된 스펙트럼 계수(422a)를 수신하여, 이에 기초하여, 시간 도메인 신호(423a)를 제공하도록 구성되는 주파수-도메인-대-시간-도메인 변환(423)을 포함할 수 있다. 예컨대, 주파수-도메인-대-시간-도메인 변환은, 예컨대, 역 수정된 이산 코사인 변환과 같은 역 랩핑된 변환일 수 있다. 따라서, 주파수-도메인-대-시간-도메인 변환(423)은, 예컨대, N/2 스케일된 (스펙트럼으로 형상화된) 스펙트럼 계수(422a)에 기초하여 N 시간 도메인 샘플의 시간 도메인 표현(423a)을 제공할 수 있다. 변환 도메인 경로(400)는 또한 시간 도메인 신호(423a)에 적용되는 윈도잉(424)을 포함할 수 있다. 예컨대, 상술한 바와 같이, 그리고 아래에 더 상세히 논의되는 바와 같이, 미리 정해진 비대칭 합성 윈도우는 시간 도메인 신호(423a)에 적용되어, 이로부터 윈도잉된 시간 도메인 신호(424a)를 도출할 수 있다. 선택적으로, 사후 처리(425)는 주파수 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(426)을 획득하도록 윈도잉된 시간 도메인 신호(424a)에 적용될 수 있다.
따라서, 주파수 도메인 경로로 간주될 수 있는 변환 도메인 경로(420)는, 스펙트럼 처리(422)에 적용되는 스케일 팩터 기반 양자화 잡음 형상화를 이용하여 주파수 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(416)을 제공하도록 구성된다. 바람직하게는, N 시간 도메인 샘플의 시간 도메인 표현은 N/2 스펙트럼 계수의 세트에 제공되며, 여기서, 시간 도메인 표현(416)은, (주어진 프레임에 대한) 시간 도메인 표현(416)의 시간 도메인 샘플의 수가 (주어진 프레임에 대한) 스펙트럼 계수(412)의 인코딩된 세트의 스펙트럼 계수의 수보다 (예컨대, 2의 팩터 또는 다른 팩터만큼) 더 크다는 사실로 인해 약간의 앨리어싱을 포함한다.
그러나, 상술한 바와 같이, 시간 도메인 앨리어싱은, 주파수 도메인으로 인코딩되는 오디오 콘텐츠의 다음 부분 사이의 중복-및-추가 동작, 또는 주파수 도메인 모드로 인코딩되는 오디오 콘텐츠의 부분과 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환의 경우에 앨리어싱 소거 신호(364)의 추가에 의해 감소되거나 소거된다.
2.1.2. 도 4b에 따른 변환 도메인 경로
도 4b는 변환 도메인 경로이고, 변환 도메인 경로(320)에 대신할 수 있는 변환-코딩된-여기 선형-예측-도메인 경로(430)의 개략적인 블록도를 도시한다.
TCX-LPD 경로(430)는 잡음 형상화 정보로 간주될 수 있는 스펙트럼 계수(442)의 인코딩된 세트 및 인코딩된 선형-예측-도메인 매개 변수(444)를 수신하도록 구성된다. TCX-LPD 경로(430)는 스펙트럼 계수(442)의 인코딩된 세트 및 인코딩된 선형-예측-도메인 매개 변수(444)에 기초하여 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(446)을 제공하도록 구성된다.
TCX-LPD 경로(430)는, 디코딩 및 역 양자화의 결과로서, 스펙트럼 계수(450a)의 디코딩된 및 역 양자화된 세트를 제공하는 스펙트럼 계수(442)의 인코딩된 세트의 디코딩 및 역 양자화(450)를 포함한다. 디코딩된 및 역 양자화된 스펙트럼 계수(450a)는, 디코딩된 및 역 양자화된 스펙트럼 계수에 기초하여 시간 도메인 신호(451a)를 제공하는 주파수-도메인-대-시간-도메인 변환(451)으로 입력된다. 주파수-도메인-대-시간-도메인 변환(451)은, 예컨대, 디코딩된 및 역 양자화된 스펙트럼 계수(450a)에 기초하여 역 랩핑된 변환의 실행을 포함하여, 상기 역 랩핑된 변환의 결과로서 시간 도메인 신호(451a)를 제공할 수 있다. 예컨대, 역 수정된 이산 코사인 변환은 디코딩된 및 역 양자화된 스펙트럼 계수(450a)로부터 시간 도메인 신호(451a)를 도출하도록 수행될 수 있다. 시간 도메인 표현(451a)의 시간 도메인 샘플의 수(예컨대, N)는, 예컨대, 시간 도메인 신호(451a)의 N 시간 도메인 샘플이 N/2 스펙트럼 계수(450a)에 응답하여 제공될 수 있도록 랩핑된 변환의 경우에 주파수-도메인-대-시간-도메인 변환으로 입력된 스펙트럼 계수(450a)의 수(예컨대, N/2)보다 클 수 있다.
TCX-LPD 경로(430)는 또한 윈도잉된 시간 도메인 신호(452a)를 도출하기 위해 합성 윈도우 기능이 시간 도메인 신호(451a)의 윈도잉에 적용되는 윈도잉(452)을 포함한다. 예컨대, 미리 정해진 비대칭 합성 윈도우는 시간 도메인 신호(451a)의 윈도잉된 버전으로서 윈도잉된 시간 도메인 신호(452a)를 획득하도록 윈도잉(452)에 적용될 수 있다. TCX-LPD 경로(430)는 또한 디코딩된 선형-예측-도메인 매개 변수 정보(453a)가 인코딩된 선형-예측-도메인 매개 변수(444)로부터 도출되는 디코딩 및 역 양자화(453)를 포함한다. 디코딩된 선형-예측-도메인 매개 변수 정보는, 예컨대, 선형-예측 필터에 대한 필터 계수를 포함할 수 있다(또는 나타낼 수 있다). 필터 계수는, 예컨대, 3세대 파트너십 프로젝트의 기술적 명세서 "3GPP TS 26.090", "3GPP TS 26.190" 및 "3GPP TS 26.290"에 기재되어 있는 바와 같이 디코딩될 수 있다. 따라서, 필터 계수(453a)는 선형-예측-코딩-기반 필터링(454)에서 윈도잉된 시간 도메인 신호(452a)를 필터링하는데 이용될 수 있다. 환언하면, 윈도잉된 시간 도메인 신호(452a)로부터 필터링된 시간 도메인 신호(454a)를 도출하는데 이용되는 필터(예컨대, 유한-임펄스-응답 필터)의 계수는 상기 필터 계수를 나타낼 수 있는 디코딩된 선형-예측-도메인 매개 변수 정보(453a)에 따라 조정될 수 있다. 따라서, 윈도잉된 시간 도메인 신호(452a)는 필터 계수(453a)에 따라 조정되는 선형-예측-코딩-기반 신호 합성(454)의 자극 신호(stimulus signal)의 역할을 할 수 있다.
선택적으로, 사후-처리(455)는 필터링된 시간 도메인 신호(454a)로부터 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(446)을 도출하기 위해 적용될 수 있다.
요약하면, 인코딩된 선형-예측-도메인 매개 변수(444)에 의해 나타내는 필터링(454)은 스펙트럼 계수(442)의 인코딩된 세트에 의해 나타내는 필터 자극 신호(452a)로부터 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(446)을 도출하기 위해 적용된다. 따라서, 잘 예측 가능한, 즉, 선형-예측 필터에 잘 적응되는 그러한 신호에 대한 양호한 코딩 효율이 획득된다. 이와 같은 신호에 대해, 자극은 스펙트럼 계수(442)의 인코딩된 세트에 의해 효율적으로 인코딩될 수 있지만, 신호의 다른 상관 특성은 선형-예측-필터 계수(453a)에 따라 결정되는 필터링(454)에 의해 고려될 수 있다.
그러나, 시간 도메인 앨리어싱은 주파수-도메인-대-시간-도메인 변환(451)에 랩핑된 변환을 적용함으로써 시간-도메인 표현(446)에 도입되는 것으로 언급된다. 시간 도메인 앨리어싱은 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 다음 부분의 (시간적으로-시프트된) 시간 도메인 표현(446)의 중복-및-추가함으로써 소거될 수 있다. 시간 도메인 앨리어싱은 대안적으로 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환에서 앨리어싱 소거 신호(364)를 이용하여 감소되거나 소거될 수 있다.
2.1.3. 도 4c에 따른 변환 도메인 경로
도 4c는 본 발명에 따른 일부 실시예에서 변환 도메인 경로(320)에 대신할 수 있는 변환 도메인 경로(460)의 개략적인 블록도를 도시한다.
변환 도메인 경로(460)는 주파수-도메인 잡음 형상화를 이용하는 변환-코딩된 여기-선형-예측-도메인 경로(TCX-LPD 경로)이다. TCX-LPD 경로(460)는 잡음 형상화 정보로 간주될 수 있는 스펙트럼 계수(472)의 인코딩된 세트 및 인코딩된 선형-예측-도메인 매개 변수(474)를 수신하도록 구성된다. TCX-LPD 경로(460)는 스펙트럼 계수(472)의 인코딩된 세트 및 인코딩된 선형-예측-도메인 매개 변수(472)에 기초하여 TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(476)을 제공하도록 구성된다.
TCX-LPD 경로(460)는, 스펙트럼 계수(472)의 인코딩된 세트를 수신하여, 이에 기초하여, 디코딩된 및 역 양자화된 스펙트럼 계수(480a)를 제공하도록 구성되는 디코딩/역 양자화(480)를 포함한다. TCX-LPD 경로(460)는 또한, 인코딩된 선형-예측-도메인 매개 변수(472)를 수신하여, 이에 기초하여, 예컨대, 선형-예측-코딩(LPC) 필터의 필터 계수와 같은 디코딩된 및 역 양자화된 선형-예측-도메인 매개 변수(481a)를 제공하도록 구성되는 디코딩 및 역 양자화(481)를 포함한다. TCX-LPD 경로(460)는 또한, 디코딩된 및 역 양자화된 선형-예측-도메인 매개 변수(481)를 수신하여, 선형-예측-도메인 매개 변수(481a)의 스펙트럼 도메인 표현(482a)을 제공하도록 구성되는 선형-예측-도메인-대-스펙트럼-도메인 변환(482)을 포함한다. 예컨대, 스펙트럼 도메인 표현(482a)은 선형-예측-도메인 매개 변수(481a)에 의해 나타낸 필터 응답의 스펙트럼 도메인 표현일 수 있다. TCX-LPD 경로(460)는 스케일된 스펙트럼 계수(483a)의 세트를 획득하도록 선형 예측 도메인 매개 변수(481)의 스펙트럼 도메인 표현(482a)에 따라 스펙트럼 계수(480a)를 스케일링하도록 구성되는 스펙트럼 처리(483)를 더 포함한다. 예컨대, 스펙트럼 계수(480a)의 각각은 스펙트럼 도메인 표현(482a)의 스펙트럼 계수 중 하나 이상에 따라 (또는 의존하여) 결정되는 스케일링 팩터와 승산될 수 있다. 따라서, 스펙트럼 계수(480a)의 가중치는 인코딩된 선형-예측-도메인 매개 변수(472)에 의해 나타낸 선형-예측-코딩 필터의 스펙트럼 응답에 의해 효율적으로 결정된다. 예컨대, 선형-예측 필터가 비교적 큰 주파수 응답을 포함하는 주파수에 대한 스펙트럼 계수(480a)는 상기 스펙트럼 계수(480a)와 관련된 양자화 잡음이 감소되도록 스펙트럼 처리(483)에서 작은 스케일링 팩터로 스케일될 수 있다. 이에 반해, 인코딩된 선형-예측-도메인 매개 변수(472)에 의해 나타낸 선형-예측 필터가 비교적 작은 주파수 응답을 포함하는 주파수에 대한 스펙트럼 계수(480a)는 이와 같은 스펙트럼 계수(480a)에 대해 효율적인 양자화 잡음이 비교적 크도록 스펙트럼 처리(483)에서 비교적 큰 스케일링 팩터로 스케일될 수 있다. 따라서, 스펙트럼 처리(483)는 인코딩된 선형-예측-도메인 매개 변수(472)에 따라 양자화 잡음의 형상화를 효율적으로 가져온다.
스케일된 스펙트럼 계수(483a)는 시간 도메인 신호(484a)를 획득하기 위해 주파수-도메인-대-시간-도메인 변환(484)으로 입력된다. 주파수-도메인-대-시간-도메인 변환(484)은, 예컨대, 역 수정된 이산 코사인 변환과 같은 랩핑된 변환을 포함한다. 따라서, 시간 도메인 표현(484a)은 스케일된 (즉, 스펙트럼으로 형상화된) 스펙트럼 계수(283a)에 기초하여 이와 같은 주파수-도메인-대-시간-도메인 변환의 실행의 결과일 수 있다. 시간 도메인 표현(484a)은, 주파수-도메인-대-시간-도메인 변환으로 입력되는 스케일된 스펙트럼 계수(483a)의 수보다 큰 시간 도메인 샘플의 수를 포함할 수 있는 것으로 언급된다. 시간 도메인 신호(484a)는, TCX-LPD 모드로 인코딩되는 오디오 콘텐츠의 다음 부분(예컨대, 프레임 또는 서브프레임)의 시간 도메인 표현(476)의 중복-및-추가, 또는 서로 다른 모드로 인코딩되는 오디오 콘텐츠의 부분 사이의 전환의 경우에 앨리어싱 소거 신호(364)의 추가에 의해 소거되는 도메인 앨리어싱 성분을 포함한다.
TCX-LPD 경로(460)는 또한 시간 도메인 신호(484a)를 윈도잉하여, 그로부터 윈도잉된 시간 도메인 신호(485a)를 도출하기 위해 적용되는 윈도잉(485)을 포함한다. 윈도잉(485)에서, 미리 정해진 비대칭 합성 윈도우는 아래에 논의되는 바와 같이 본 발명에 따른 일부 실시예에 이용될 수 있다.
선택적으로, 사후-처리(486)는 윈도잉된 시간 도메인 신호(485a)로부터 시간 도메인 표현(476)을 도출하기 위해 적용될 수 있다.
TCX-LPD 경로(460)의 기능을 요약하면, TCX-LPD 경로(460)의 중앙 부분인 스펙트럼 처리(483)에서, 잡음 형상화가 디코딩된 및 역 양자화된 스펙트럼 계수(480a)에 적용된다고 할 수 있으며, 여기서, 잡음 형상화는 선형-예측-도메인 매개 변수에 따라 조정된다. 결과적으로, 윈도잉된 시간 도메인 신호(485a)는 주파수-도메인-대-시간-도메인 변환(484) 및 윈도잉(485)을 이용하여 스케일된 잡음 형상화된 스펙트럼 계수(483a)에 기초하여 제공되며, 여기서, 바람직하게는, 약간의 앨리어싱을 도입하는 랩핑된 변환이 이용된다.
2.2. ACELP 경로에 관한 상세 사항
다음에는, ACELP 경로(340)에 관한 일부 상세 사항이 설명될 것이다.
ACELP 경로(340)는 ACELP 경로(140)에 비해 역 기능을 수행할 수 있는 것으로 언급된다. ACELP 경로(340)는 대수-코드-여기 정보(342)의 디코딩(350)을 포함한다. 디코딩(350)은 디코딩된 대수-코드-여기 정보(350a)를 여기 신호 계산 및 사후-처리(351)에 제공하며, 이러한 사후-처리(351)는 결과적으로 ACELP 여기 신호(351a)를 제공한다. ACELP 경로는 또한 선형-예측-도메인 매개 변수의 디코딩(352)을 포함한다. 디코딩(352)은 선형-예측-도메인 매개 변수 정보(344)를 수신하여, 이에 기초하여, 예컨대, (또한 LPC 필터로 명시되는) 선형-예측 필터의 필터 계수와 같은 선형-예측-도메인 매개 변수(352a)를 제공한다. ACELP 경로는 또한 선형-예측-도메인 매개 변수(352a)에 따라 여기 신호(351a)를 필터링하도록 구성되는 합성 필터링(353)을 포함한다. 따라서, 합성된 시간 도메인 신호(353a)는 ACELP 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간 도메인 표현(346)을 도출하기 위해 사후-처리(354)에서 선택적으로 사후 처리되는 합성 필터링(353)의 결과로서 획득된다.
ACELP 경로는 ACELP 모드로 인코딩되는 오디오 콘텐츠의 시간적 제한된 부분의 시간 도메인 표현을 제공하도록 구성된다. 예컨대, 시간 도메인 표현(346)은 오디오 콘텐츠의 부분의 시간 도메인 신호를 조리 정연하게 나타낼 수 있다. 환언하면, 시간 도메인 표현(346)은 시간 도메인 앨리어싱이 없을 수 있고, 블록 형상화된 윈도우에 의해 제한될 수 있다. 따라서, 시간 도메인 표현(346)은, 잘 구분된 시간적 블록의 경계에서 아티팩트를 차단하지 않도록 주의해야 할지라도 (블록 타입 윈도우 형상을 가진) 잘 구분된 시간적 블록의 오디오 신호를 재구성하기에 충분할 수 있다.
추가적 상세 사항은 아래에 설명된다.
2.3. 앨리어싱 소거 신호 제공기에 관한 상세 사항
다음에는, 앨리어싱 소거 신호 제공기(360)에 관한 일부 상세 사항이 설명된다. 앨리어싱 소거 신호 제공기(360)는 앨리어싱 소거 정보(362)를 수신하고, 앨리어싱 소거 정보(362)의 디코딩(370)을 수행하여, 디코딩된 앨리어싱 소거 정보(370a)를 획득하도록 구성된다. 앨리어싱 소거 신호 제공기(360)는 또한 디코딩된 앨리어싱 소거 정보(370a)에 기초하여 앨리어싱 소거 신호(364)의 재구성(372)을 수행하도록 구성된다.
상술한 바와 같이, 앨리어싱 소거 정보(360)는 다양한 형식으로 인코딩될 수 있다. 예컨대, 앨리어싱 소거 정보(362)는 주파수-도메인 표현 또는 선형-예측-도메인 표현으로 인코딩될 수 있다. 따라서, 서로 다른 양자화 잡음 형상화 개념은 앨리어싱 소거 신호의 재구성(372)에 적용될 수 있다. 어떤 경우에, 주파수-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분에서의 스케일 팩터는 앨리어싱 소거 신호(364)의 재구성에 적용될 수 있다. 어떤 다른 경우에는, 선형-예측-도메인 매개 변수(예컨대, 선형-예측 필터 계수)는 앨리어싱 소거 신호(364)의 재구성(372)에 적용될 수 있다. 대안적으로, 또는 부가적으로, 잡음 형상화 정보는,예컨대, 주파수-도메인 표현 이외에, 인코딩된 앨리어싱 소거 정보(362)에 포함될 수 있다. 더욱이, 변환-도메인 경로(320) 또는 ACELP 브랜치(340)로부터의 추가적 정보는 선택적으로 앨리어싱 소거 신호(364)의 재구성(372)에 이용될 수 있다. 더욱이, 아래에 상세히 설명되는 바와 같이, 윈도잉은 앨리어싱 소거 신호의 재구성(372)에 이용될 수 있다.
요약하면, 서로 다른 신호 디코딩 개념은 앨리어싱 소거 정보(362)의 포맷에 따라 앨리어싱 소거 정보(362)에 기초하여 앨리어싱 소거 신호(364)를 제공하기 위해 이용될 수 있다.
3. 윈도잉 및 앨리어싱 소거 개념
다음에는, 오디오 신호 인코더(100) 및 오디오 신호 디코더(300)에 적용될 수 있는 윈도잉 및 앨리어싱 소거의 개념에 관한 상세 사항이 상세히 설명된다.
다음에는, 낮은 지연 통합된-음성-및-오디오-코딩(USAC)에서의 윈도우 시퀀스의 상태에 대한 설명은 제공된다.
낮은 지연 통합된-음성-및-오디오-코딩(USAC) 개발의 본 실시예에서, 과거에는 확장된 중복을 가진 고급-오디오-코딩-강화된-낮은-지연(AAC-ELD)으로부터의 낮은 지연 윈도우는 이용되지 않는다. 대신에, ITU-T G.718 표준에서 사용되는 것과 동일하거나 유사한 사인 윈도우 또는 낮은 지연 윈도우가 (예컨대, 시간-도메인-대-주파수-도메인 변환기(130) 및/또는 주파수-도메인-대-시간-변환기(330)에) 이용된다. 이러한 G.718 윈도우는 지연을 줄이기 위해 고급-오디오-코딩-강화된-낮은-지연 윈도우(AAC-ELD 윈도우)와 유사한 비대칭 형상을 갖지만, 그것은 단지 두번 중복(2x 중복), 즉 정상적인 사인 윈도우와 같은 중복을 갖는다. 다음의 도면(특히 도 5 내지 9)은 사인 윈도우와 G.718 윈도우 사이의 차이를 예시한다.
다음의 도면에서는, 400 샘플의 프레임 길이는 도면의 격자를 윈도우에 더 잘 맞게 하기 위해 추정되는 것으로 언급된다. 그러나, 실제 시스템에서는, 512의 프레임 길이가 바람직하다.
3.1. 사인 윈도우와 G.718 분석 윈도우 사이의 비교(도 5 내지 9)
도 5는 (점선으로 나타낸) 사인 윈도우 및 (실선으로 나타낸) G.718 분석 윈도우의 비교를 도시한다. 사인 윈도우 및 G.718 분석 윈도우의 윈도우 값의 그래픽 표현을 도시한 도 5를 참조하면, 가로 좌표(510)는 0과 400 사이의 샘플 인덱스를 갖는 시간 도메인 샘플의 측면에서 시간을 나타내고, 세로 좌표(512)는 (예컨대, 정규화된 윈도우 값일 수 있는) 윈도우 값을 나타내는 것으로 언급된다.
도 5에서 볼 수 있듯이. 실선(520)으로 나타내는 G.718 분석 윈도우는 비대칭이다. 볼 수 있듯이, 좌측 윈도우 절반(시간 도메인 샘플(0 내지 199))은 윈도우 값이 제로(0)에서 1의 윈도우 중심 값으로 단조 증가하는 전환 기울기(522), 및 윈도우 값이 1의 윈도우 중심 값보다 큰 오버슈트 부분(524)을 포함한다. 오버슈트 부분(524)에서, 윈도우는 최대(524a)를 포함한다. G.718 분석 윈도우는 또한 중심(526)에서 1의 중심값을 포함한다. G.718 분석 윈도우는 또한 우측 윈도우 절반(시간 도메인 샘플(201 내지 400))을 포함한다. 우측 윈도우 절반은 윈도우 값이 1의 윈도우 중심 값에서 0으로 단조 감소하는 우측 전환 기울기(520a)를 포함한다. 우측 윈도우 절반은 또한 우측 제로 부분(530)을 포함한다. 여기서, G.718 분석 윈도우는 400 샘플의 프레임 길이를 갖는 부분(예컨대, 프레임 또는 서브프레임)을 윈도잉하기 위해 시간-도메인-대-주파수-도메인 변환기(130)에 이용될 수 있는 것으로 언급되며, 상기 프레임의 마지막 50 샘플은 G.718 분석 윈도우의 우측 제로 부분(530)으로 인해 고려되지 않게 될 수 있다. 따라서, 시간-도메인-대-주파수-도메인 변환은 프레임의 모든 400 샘플이 이용 가능하기 전에 시작될 수 있다. 오히려, 그것은 현재 분석된 프레임의 350 샘플이 시간-도메인-대-주파수-도메인 변환을 시작하기 위해 충분히 이용 가능하다.
또한, 좌측 윈도우 절반에서 (단지) 오버슈트 부분(524)을 포함하는 윈도우(520)의 비대칭 형상은 오디오 신호 인코더/오디오 신호 디코더 처리 체인(chain)에서의 낮은 지연 신호 재구성에 잘 적응된다.
상술한 바를 요약하면, 도 5는 사인 윈도우(점선) 및 G.718 분석 윈도우(실선)의 비교를 도시하며, G.718 분석 윈도우의 우측 상의 50 샘플은 (사인 윈도우를 이용한 인코더에 비해) 인코더에서 50 샘플의 지연 감소를 생성시킨다.
도 6은 사인 윈도우(점선) 및 G.718 합성 윈도우(실선)의 비교를 도시한 것이다. 가로 좌표(610)는 시간 도메인 샘플의 측면에서 시간을 나타내고, 시간 도메인 샘플은 0과 400 사이의 샘플 인덱스를 갖는다. 세로 좌표(612)는 (정규화된) 윈도우 값을 나타낸다.
알 수 있는 바와 같이. 주파수-도메인-대-시간-도메인 변환기(330)를 윈도잉하기 위해 이용될 수 있는 G.718 합성 윈도우(620)는 좌측 윈도우 절반 및 우측 윈도우 절반을 포함한다. 좌측 윈도우 절반(샘플(0 내지 199))은 좌측 제로 부분(622) 및, 윈도우 값이 제로(샘플(50))에서 예컨대 1의 윈도우 중심 값으로 단조 증가하는 좌측 전환 기울기(624)를 포함한다. G.718 합성 윈도우(620)는 또한 1(샘플(200))의 중심 윈도우 값을 포함한다. 우측 윈도우 부분(샘플(201 내지 400))은 최대(628a)를 포함하는 오버슈트 부분(628)을 포함한다. 우측 윈도우 절반(샘플(201 내지 400))은 또한 윈도우 값이 윈도우 중심 값(1)에서 0으로 단조 감소하는 우측 전환 기울기(630)를 포함한다.
G.718 합성 윈도우(620)는, 변환-도메인 경로(320)에서, 변환-도메인 모드로 인코딩되는 오디오 프레임의 400 샘플을 윈도잉하는데 적용될 수 있다. G.718 윈도우의 좌측(좌측 제로 부분(622))의 50 샘플은 (예컨대, 400 샘플의 비제로 시간적 확장을 포함하는 윈도우에 비해) 디코더에서 다른 50 샘플의 지연 감소를 생성시킨다. 이전의 오디오 프레임의 오디오 콘텐츠가 오디오 콘텐츠의 현재 부분의 시간 도메인 표현을 획득하기 전에 오디오 콘텐츠의 현재 부분의 제 50 샘플의 위치까지 출력될 수 있다는 사실에서 지연 감소가 생성된다 . 따라서, 이전의 오디오 프레임 (또는 오디오 서브프레임)과 현재 오디오 프레임 (또는 오디오 서브프레임) 사이의 (비제로) 중복 영역은 디코딩된 오디오 표현을 제공할 때에 지연 감소를 생성시키는 좌측 제로 부분(622)의 길이만큼 감소된다. 그러나, 다음 프레임은 50 % 만큼(예컨대, 200 샘플만큼) 시프트될 수 있다. 추가적 상세 사항은 아래에서 논의될 것이다.
상술한 바를 요약하면, 도 6은 사인 윈도우(점선) 및 G.718 합성 윈도우(실선)의 비교를 도시하며, G.718 분석 윈도우의 좌측 상의 50 샘플은 디코더에서 다른 50 샘플의 지연 감소를 생성시킨다. G.718 합성 윈도우(620)는, 예컨대, 주파수-도메인-대-시간-도메인 변환기(330)에서, 윈도잉(424), 윈도잉(452) 또는 윈도잉(485)에 이용될 수 있다.
도 7은 사인 윈도우의 시퀀스의 그래픽 표현을 도시한다. 가로 좌표(710)는 오디오 샘플 값의 측면에서 시간을 나타내고, 세로 좌표(712)는 정규화된 윈도우 값을 나타낸다. 볼 수 있듯이, 제 1 사인 윈도우(720)는, 예컨대, 400 샘플(0과 399 사이의 샘플 인덱스)의 프레임 길이를 갖는 제 1 오디오 프레임(722)과 결합된다. 제 2 사인 윈도우(730)는 400 오디오 샘플(200과 599 사이의 샘플 인덱스)의 길이를 갖는 제 2 오디오 프레임(732)과 결합된다. 볼 수 있듯이, 제 2 오디오 프레임(732)은 제 1 오디오 프레임(722)에 대해 200 샘플만큼 오프셋된다. 또한, 제 1 오디오 프레임(722) 및 제 2 오디오 프레임(732)은, 예컨대, 200 오디오 샘플(200과 399 사이의 샘플 인덱스)의 시간적 중복을 포함한다. 환언하면, 제 1 오디오 프레임(722) 및 제 2 오디오 프레임(732)은 (예컨대, +/- 1 샘플의 허용 오차를 가진) 대략 50 %의 시간적 중복을 포함한다.
도 8은 G.718 분석 윈도우의 시퀀스의 그래픽 표현을 도시한다. 가로 좌표(810)는 시간 도메인 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(812)는 정규화된 윈도우 값을 나타낸다. 제 1 G.718 분석 윈도우(820)는 샘플 0에서 샘플 399로 확장하는 제 1 오디오 프레임(822)과 결합된다. 제 2 G.718 분석 윈도우(830)는 샘플 200에서 샘플 599로 확장하는 제 2 오디오 프레임(832)과 결합된다. 볼 수 있듯이, 제 1 G.718 분석 윈도우(820) 및 제 2 G.718 분석 윈도우(830)는, 예컨대, 150 샘플(+/- 1 샘플)의 (비제로 윈도우 값만을 고려할 때) 시간적 중복을 포함한다. 이러한 문제에 관해, 제 1 G.718 분석 윈도우(820)는 샘플 0과 샘플 399 사이에서 확장하는 제 1 프레임(822)과 결합된다. 그러나, 제 1 G.718 분석 윈도우(820)는, 분석 윈도우(820,830)의 (비제로 윈도우 값의 측면에서 측정된) 중복이 150 샘플 값(+/- 1 샘플 값)로 감소되도록 예컨대 50 샘플(우측 제로 부분(530))의 우측 제로 부분을 포함한다. 도 8에서 볼 수 있듯이, 두 인접한 오디오 프레임(822,832) 사이의 시간적 중복(전체적으로 200 샘플 값 +/- 1 샘플 값)이 있고, 또한 두 (둘만의) 윈도우(820,830)의 비제로 부분 사이의 시간적 중복(전체적으로 150 샘플 +/- 1 샘플)이 있다.
도 8에 도시된 G.718 분석 윈도우의 시퀀스는 주파수-도메인-대-시간-도메인 변환기(130)에 의해 및 변환-도메인 경로(200, 230, 260)에 의해 적용될 수 있는 것으로 언급된다.
도 9는 G.718 합성 윈도우의 시퀀스의 그래픽 표현을 도시한다. 가로 좌표(910)는 시간 도메인 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(912)는 합성 윈도우의 정규화된 값을 나타낸다.
도 9에 따른 G.718 합성 윈도우의 시퀀스는 제 1 G.718 합성 윈도우(920) 및 제 2 G.718 합성 윈도우(930)를 포함한다. 제 1 G.718 합성 윈도우(920)는 제 1 프레임(922)(오디오 샘플 0 내지 399)과 결합되며, 여기서, (좌측 제로 부분(622)에 상응하는) 제 1 G.718 합성 윈도우(920)의 좌측 제로 부분은 제 1 프레임(922)의 시작에서, 예컨대, 다수의 약 50 샘플을 커버한다. 따라서, 제 1 G.718 합성 윈도우의 비제로 부분은 대략 샘플 50에서 샘플 399로 확장한다. 제 2 G.718 합성 윈도우(930)는 오디오 샘플 200에서 오디오 샘플 599로 확장하는 제 2 오디오 프레임(932)과 결합된다. 알 수 있는 바와 같이, 제 2 G.718 합성 윈도우(930)의 좌측 제로 부분은 샘플 200에서 샘플 249로 확장하여, 결과적으로 제 2 오디오 프레임(932)의 시작에서, 예컨대, 다수의 약 50 샘플을 커버한다. 제 2 G.718 합성 윈도우(930)의 비제로 영역은 샘플 250에서 샘플 599로 확장한다. 알 수 있는 바와 같이, 제 1 G.718 합성 윈도우 및 제 2 G.718 합성 윈도우(930)의 비제로 영역 사에서 샘플 250에서 샘플 399 까지 중복 영역이 있다. 추가적인 G.718 합성 윈도우는 도 9에서 볼 수 있는 바와 같이 균등하게 이격된다. .
3.2. 사인 윈도우 ACELP 시퀀스
도 10은 사인 윈도우(실선) 및 ACELP(사각형으로 표시된 선)의 시퀀스의 그래픽 표현을 도시한 것이다. 보여지는 바와 같이, 제 1 변환-도메인 프레임(1012)은 샘플 0에서 샘플 399로 확장하고, 제 2 변환-도메인 프레임(1022)은 샘플 200에서 샘플 599로 확장하며, 제 1 ACELP 오디오 프레임(1032)은 샘플 400에서 샘플 799로 확장하고, 비제로 값은 샘플 500과 샘플 700 사이에 있으며, 제 2 ACELP 오디오 프레임(1042)은 샘플 600에서 샘플 999로 확장하고, 비제로 값은 샘플 700과 샘플 900 사이에 있으며, 제 3 변환-도메인 오디오 프레임(1052)은 샘플 800에서 샘플 1199로 확장하고, 제 4 변환-도메인 오디오 프레임(1062)은 샘플 1000에서 샘플 1399로 확장한다. 볼 수 있듯이, 제 2 변환-도메인 오디오 프레임(1022)과 제 1 ACELP 오디오 프레임(1032)의 비제로 부분의 사이(샘플 500과 샘플 600 사이)에는 시간적 중복이 있다. 마찬가지로, 제 2 ACELP 오디오 프레임(1042)의 비제로 부분과 제 3 변환-도메인 오디오 프레임(1052)의 사이(샘플 800과 샘플 900 사이)에 중복이 있다.
(점선으로 도시되고, 간단히 FAC로 명시되는) 포워드 앨리어싱 소거 신호(1070)는 제 2 변환-도메인 오디오 프레임(1022)에서 제 1 ACELP 오디오 프레임(1032)으로의 전환 시에, 및 또한 제 2 ACELP 오디오 프레임(1042)에서 제 3 변환-도메인 오디오 프레임(1052)으로의 전환 시에 제공된다.
도 10에서 보여지는 바와 같이, 전환은 점선으로 예시되는 포워드 앨리어싱 소거(1070,1072)(FAC)의 도움으로 완전한 재구성 (또는 적어도 거의 완전한 구성)을 허용한다. 포워드 앨리어싱 소거 윈도우(1070,1072)의 형상은 바로 실례(illustration)이고, 정확한 값을 반영하지 않는 것으로 언급되어야 한다. (사인 윈도우와 같은) 대칭 윈도우의 경우, 이러한 기술은 MPEG 통합된-음성-및-오디오-코딩(USAC)에도 이용되는 기술과 유사하거나, 심지어 동일하다.
3.3. 모드 전환의 윈도우 - 제 1 옵션
다음에는, 변환-도메인 모드로 인코딩되는 오디오 프레임과 ACELP 모드로 인코딩되는 오디오 프레임 사이에서 전환을 위한 제 1 옵션이 도 11 및 12를 참조로 설명될 것이다.
도 11은 낮은 지연 통합된-음성-및-오디오-코딩(USAC)에 대한 제 1 옵션에 따른 윈도잉의 그래픽 표현을 도시한 것이다. 도 11은 G.718 분석 윈도우(실선), ACELP(사각형으로 표시된 선) 및 포워드 앨리어싱 소거(점선)의 시퀀스의 그래픽 표현을 도시한 것이다.
도 11에서, 가로 좌표(1110)는 (시간 도메인) 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1112)는 정규화된 윈도우 값을 나타낸다. 변환-도메인 모드로 인코딩되는 제 1 오디오 프레임은 샘플 0에서 샘플 399로 확장하고, 참조 번호(1122)로 명시된다. 변환-도메인 모드로 인코딩되는 제 2 오디오 프레임은 샘플 200에서 샘플 599로 확장하고, (1132)로 명시된다. ACELP 모드로 인코딩되는 제 3 오디오 프레임은 오디오 샘플 400에서 샘플 799로 확장하고, (1142)로 명시된다. 또한 ACELP 모드로 인코딩되는 제 4 오디오 프레임은 샘플 600에서 샘플 999로 확장하고, (1152)로 명시된다. 샘플 800에서 샘플 1199로 확장하는 제 5 오디오 프레임은 변환-도메인 모드로 인코딩되고, (1162)로 명시된다. 변환-도메인 모드로 인코딩되는 제 6 오디오 프레임은 오디오 샘플 1000에서 샘플 1399로 확장하고, (1172)로 명시된다.
알 수 있는 바와 같이, 제 1 오디오 프레임(1122)의 오디오 샘플은, 예컨대, 도5에 도시된 G.718 분석 윈도우(520)와 동일할 수 있는 G.718 분석 윈도우(1120)를 이용하여 윈도잉된다. 마찬가지로, 제 2 오디오 프레임(1132)의 오디오 샘플(시간 도메인 샘플)은, 도 11에서 알 수 있는 바와 같이 샘플(200) 및 (350) 사이에서 G.718 분석 윈도우(1120)를 가진 비제로 중복 영역을 포함하는 G.718 분석 윈도우(1130)를 이용하여 윈도잉된다. 오디오 프레임(1142)의 경우, (500) 및 (700) 사이의 샘플 인덱스를 가진 오디오 샘플의 블록은 ACELP 모드로 인코딩된다. 그러나, (400) 및 (500) 사이 및 또한 (700) 및 (800) 사이의 샘플 인덱스를 가진 오디오 샘플은 제 3 오디오 프레임(1142)에 관련된 ACELP 매개 변수(대수 코드 여기 정보 및 선형-예측-도메인 매개 변수 정보)에 고려되지 않는다. 따라서, 제 3 오디오 프레임(1142)에 관련된 ACELP 정보(대수 코드 여기 정보(144) 및 선형-예측-도메인 매개 변수 정보(146))는 단지 제 4 오디오 프레임(1152)에 관련된 ACELP 정보로 인코딩된다. 환언하면, ACELP 모드로 인코딩되는 오디오 프레임(1142, 1152)의 경우, 각각의 오디오 프레임(1142, 1152)의 중심에서 오디오 샘플의 시간적 제한된 블록만이 ACELP 코딩으로 간주된다. 대조적으로, 확장된 좌측 제로 부분(예컨대, 약 100 샘플) 및 확장된 우측 제로 부분(예컨대, 약 100 샘플)은 ACELP 모드로 인코딩되는 오디오 프레임에 대한 ACELP 코딩에 고려되지 않게 된다. 따라서, 오디오 프레임의 ACELP 코딩은 약 200 비제로 시간 도메인 샘플(예컨대, 제 3 프레임(1142)에 대한 샘플 500 내지 700 및 제 4 프레임(1142)에 대한 샘플 700 내지 900)을 인코딩하는 것으로 언급된다. 이에 반해, 비제로 오디오 샘플의 더욱 높은 수는 변환-도메인 모드로 오디오 프레임마다 인코딩된다. 예컨대, 약 350 오디오 샘플은 변환 도메인 모드로 인코딩된 오디오 프레임(예컨대, 제 1 오디오 프레임(1122)에 대한 오디오 샘플 0 내지 349 및 제 2 오디오 프레임(1132)에 대한 오디오 샘플 200 내지 549)에 대해 인코딩된다. 더욱이, G.718 분석 윈도우(1160)는 제 5 오디오 프레임(1162)의 변환-도메인 인코딩을 위한 시간 도메인 샘플을 윈도잉하기 위해 적용된다. G.718 분석 윈도우(1170)는 제 6 오디오 프레임(1172)의 변환 도메인 인코딩을 위한 시간 도메인 샘플을 윈도잉하기 위해 적용된다.
볼 수 있듯이, G.718 분석 윈도우(1130)의 우측 전환 기울기(비제로 부분)은 제 3 오디오 프레임(1142)에 대해 인코딩되는 (비제로) 오디오 샘플의 블록(1140)과 시간적으로 중복한다. 그러나, G.718 윈도우(1130)의 우측 전환 기울기가 다음 G.718 분석 윈도우의 좌측 전환 기울기와 중복하지 않는다는 사실은 시간 도메인 앨리어싱 성분의 발생을 초래한다. 그러나, 이와 같은 시간 도메인 앨리어싱 성분은 포워드-앨리어싱-소거 윈도잉(FAC 윈도우(1136))을 이용하여 결정되어, 앨리어싱 소거 정보(164)의 형식으로 인코딩된다. 환언하면, 변환-도메인 모드로 인코딩되는 오디오 프레임 및 ACELP 모드로 인코딩되는 다음 오디오 프레임에서의 전환 시에 나타나는 시간 도메인 앨리어싱은 FAC 윈도우(1136)를 이용하여 결정되어, 앨리어싱 소거 정보(164)를 획득하도록 인코딩된다. FAC 윈도우(1136)는 오류 계산(172) 또는 오디오 신호 인코더(100)의 오류 인코딩(174)에 적용될 수 있다. 따라서, 앨리어싱 소거 정보(164)는, 인코딩된 형식으로, 제 2 오디오 프레임(1132)에서 제 3 오디오 프레임(1142)으로의 전환 시에 나타나는 앨리어싱을 나타낼 수 있으며, 여기서, 포워드 앨리어싱 소거 윈도우(1136)는 앨리어싱의 가중치(예컨대, 오디오 신호 인코더에서 획득되는 앨리어싱의 추정치)를 주는데 이용될 수 있다.
마찬가지로, 앨리어싱은 ACELP 모드로 인코딩되는 제 4 오디오 프레임(1152)에서 변환 도메인 모드로 인코딩되는 제 5 오디오 프레임(1162)으로의 전환 시에 나타날 수 있다. G.718 분석 윈도우(1162)의 좌측 전환 부분이 이전의 G.718 분석 윈도우의 우측 전환 기울기와 중복하지 않고, 오히려 ACELP 모드로 인코딩되는 시간 도메인 오디오 샘플의 블록과 중복한다는 사실에 의해 유발되는 이러한 전환에서의 앨리어싱은 (예컨대, 합성 결과 계산(170) 및 오류 계산(172)를 이용하여) 결정되고, 예컨대, 오류 인코딩(174)을 이용하여 인코딩되어, 앨리어싱 소거 정보(164)를 획득한다. 앨리어싱 신호의 인코딩(174)에서, 포워드 앨리어싱 소거 윈도우(1156)가 적용될 수 있다.
요약하면, 앨리어싱 소거 정보는 선택적으로 제 2 프레임(1132)에서 제 3 프레임(1142)으로의 전환 및 또한 제 4 프레임(1152)에서 제 5 프레임(1162)으로의 전환 시에 제공된다.
추가로 요약하면, 도 11은 낮은 지연 통합된-음성-및-오디오-코딩에 대한 제 1 옵션을 도시한다. 도 11은 G.718 분석 윈도우(실선), ACELP(사각형으로 표시된 선) 및 FAC(점선)의 시퀀스를 도시한 것이다. G.718 윈도우와 같은 비대칭 윈도우에 대해, FAC와의 조합은 기존의 개념에 비해 상당한 개선을 가져오는 것으로 발견되었다. 특히, 코딩 지연, 오디오 품질 및 코딩 효율 사이의 양호한 트레이오프가 달성된다.
도 12는 도 11에 따른 개념에 상응하는 합성에 대한 시퀀스의 그래픽 표현을 도시한다. 환언하면, 도 12는 도 3에 따른 오디오 신호 디코더(300)에 이용될 수 있는 프레이밍 및 윈도잉의 그래픽 표현을 도시한 것이다.
가로 좌표(1210)는 (시간 도메인) 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1212)는 정규화된 윈도우 값을 나타낸다. 변환-도메인 모드로 인코딩되는 제 1 오디오 프레임(1222)은 오디오 샘플 0에서 오디오 샘플 399로 확장하고, 변환-도메인 모드로 인코딩되는 제 2 오디오 프레임(1232)은 오디오 샘플 200에서 오디오 샘플 599로 확장하며, ACELP 모드로 인코딩되는 제 3 오디오 프레임(1242)은 오디오 샘플 400에서 오디오 샘플 799로 확장하며, ACELP 모드로 인코딩되는 제 4 오디오 프레임(1252)은 오디오 샘플 600에서 오디오 샘플 999로 확장하며, 변환 도메인 모드로 인코딩되는 제 5 오디오 프레임(1262)은 오디오 샘플 800에서 오디오 샘플 1199로 확장하며, 그리고 변환-도메인 모드로 인코딩되는 제 6 오디오 프레임(1272)은 오디오 샘플 1000에서 오디오 샘플 1399로 확장한다. 주파수-도메인-대-시간-도메인 변환(423,451,484)에 의해 제 1 오디오 프레임(1222)에 제공되는 오디오 샘플은 도 6에 따른 G.718 합성 윈도우(620)와 동일할 수 있는 제 1 G.718 합성 윈도우(1220)를 이용하여 윈도잉된다. 마찬가지로, 제 2 오디오 프레임(1232)에 제공되는 오디오 샘플은 G.718 합성 윈도우(1230)를 이용하여 윈도잉된다. 따라서, 0과 399 사이의 오디오 샘플 인덱스를 가진 오디오 샘플 또는, 더욱 정확하게는, 50과 399 사이의 오디오 샘플 인덱스를 가진 비제로 오디오 샘플은 (즉, 제 1 오디오 프레임(1222)에 관련된 스펙트럼 계수(322)의 세트 및 제 1 오디오 프레임(1222)에 관련된 잡음 형상화 정보(324)에 기초하여) 제 1 오디오 프레임(1222)에 제공된다. 마찬가지로, 200과 599 사이의 오디오 샘플 인덱스를 가진 오디오 샘플은 제 2 오디오 프레임(1232)에 제공된다(비제로 오디오 샘플은 250과 599 사이의 샘플 인덱스를 갖는다). 따라서, 제 1 오디오 프레임(1222)에 제공되는 (비제로) 오디오 샘플과 제 2 오디오 프레임(1232)에 제공되는 (비제로) 오디오 샘플 사이에는 시간적 중복이 있다. 제 1 오디오 프레임(1222)에 제공되는 오디오 샘플은 제 2 오디오 프레임(1232)에 제공되는 오디오 샘플과 중복-및-추가되어, 앨리어싱을 소거한다. 그러나, 제 2 오디오 프레임(1232)에 제공되는 200과 599 사이의 오디오 샘플 인덱스를 가진 오디오 샘플은 제 2 G.718 합성 윈도우(1230)를 이용하여 윈도잉된다. ACELP 모드로 인코딩되는 제 3 오디오 프레임(1242)에 대해, (비제로) 시간 도메인 오디오 샘플은, ACELP 인코딩에 대해서는 일반적인 바와 같이, 제한된 블록(1240) 내에서만 제공된다. 그러나, 제 2 오디오 프레임(1232)에 제공되고, G.718 합성 윈도우(1230)의 우측 전환 기울기를 이용하여 윈도잉되는 시간 도메인 샘플은 (비제로) 시간 도메인 샘플이 ACELP 경로(340)에 의해 제공되는 블록(1240)에 의해 정의된 시간적 영역으로 확장한다. 그러나, ACELP 경로(340)에 의해 제공되는 시간 도메인 샘플은 G.718 합성 윈도우(1230)의 우측 윈도우 절반 내의 앨리어싱을 충분히 소거하지 못한다. 그러나, (샘플 400에서 샘플 599로 확장하는 제 2 오디오 프레임(1232)과 제 3 오디오 프레임(1242) 사이의 중복 영역 내에서, 또는 적어도 상기 중복 영역의 부분 내에서) 변환 도메인 모드로 인코딩되는 제 2 프레임(1232)에서 ACELP 모드로 인코딩되는 제 3 오디오 프레임(1242)으로의 전환 시에 앨리어싱을 소거하기 위해 앨리어싱 소거 신호가 제공된다. 앨리어싱 소거 신호는 인코딩된 오디오 콘텐츠를 나타내는 비트스트림으로부터 추출될 수 있는 앨리어싱 소거 정보(362)에 기초하여 제공된다. 앨리어싱 소거 정보는 디코딩되고(단계 370), 앨리어싱 소거 신호는 디코딩된 앨리어싱 소거 정보(362)에 기초하여 재구성된다(단계 372). 포워드-앨리어싱-소거 윈도우(1236)는 앨리어싱 소거 신호(364)의 재구성에 적용된다. 따라서, 앨리어싱 소거 신호는 변환-도메인 모드로 인코딩되는 제 2 프레임(1232)과 ACELP 모드로 인코딩되는 제 3 오디오 프레임(1242) 사이에서 전환 시에 앨리어싱을 감소시키거나, 심지어 제거하며, 이러한 앨리어싱은 변환 도메인으로 인코딩되는 다음 오디오 프레임의 (윈도잉된) 시간 도메인 샘플에 의해 (전환의 부재 시에) 보통 소거된다.
제 4 오디오 프레임(1252)은 ACELP 모드로 인코딩된다. 따라서, 시간 도메인 샘플의 블록(1250)은 제 4 오디오 프레임(1252)에 제공된다. 그러나, 비-제로 오디오 샘플만이 ACELP 브랜치(340)에 의해 제 4 오디오 프레임(1252)의 중심 부분에 제공되는 것으로 언급된다. 게다가, 확장된 좌측 제로 부분(오디오 샘플 600 내지 700) 및 확장된 우측 제로 부분(오디오 샘플 900 내지 1000)은 ACELP 경로에 의해 제 4 오디오 프레임(1252)에 제공된다.
제 5 오디오 프레임(1262)에 제공되는 시간 도메인 표현은 G.718 합성 윈도우(1260)를 이용하여 윈도잉된다. G.718 합성 윈도우(1260)의 좌측 비제로 부분(전환 기울기)은 비제로 오디오 샘플이 ACELP 경로(340)에 의해 제 4 오디오 프레임(1252)에 제공되는 시간 부분과 시간적으로 중복한다. 따라서, ACELP 경로(340)에 의해 제 4 오디오 프레임(1252)에 제공되는 오디오 샘플은 변환 도메인 경로에 의해 제 5 오디오 프레임(1262)에 제공되는 오디오 샘플과 중복-및-추가된다.
게다가, 앨리어싱 소거 신호(364)는, 앨리어싱 소거 정보(362)에 기초하여 앨리어싱 소거 신호 제공기(360)에 의해 (예컨대, 제 4 오디오 프레임(1252)과 제 5 오디오 프레임(1262) 사이의 시간적 중복 동안에) 제 4 오디오 프레임(1252)에서 제 5 오디오 프레임(1262)으로의 전환 시에 제공된다. 앨리어싱 소거 신호의 재구성에서, 앨리어싱 소거 윈도우(1256)가 적용될 수 있다. 따라서, 앨리어싱 소거 신호(364)는, 제 4 오디오 프레임(1252) 및 제 5 오디오 프레임(1262)의 시간-도메인 샘플을 중복-및-추가할 가능성을 유지하면서 앨리어싱을 소거하는데 잘 적응된다.
3.4. 모드 전환의 윈도우 - 제 2 옵션
다음에는, 서로 다른 모드로 인코딩되는 오디오 프레임 사이의 전환의 수정된 윈도잉이 설명될 것이다.
도 13 및 14에 따른 윈도잉 기법은 변환 도메인 모드에서 ACELP 모드로의 전환에서 도 11 및 12에 따른 윈도잉 기법과 동일한 것으로 언급된다. 그러나, 도 13 및 14에 따른 윈도잉 기법은 ACELP 모드에서 변환 도메인 모드로의 전환에서는 도 11 및 12에 따른 윈도잉 기법과 상이하다.
도 13은 낮은-지연 통합된-음성-및-오디오-코딩에 대한 제 2 옵션의 그래픽 표현을 도시한 것이다. 도 13은 G.718 분석 윈도우(실선), ACELP(사각형으로 표시된 선) 및 포워드 앨리어싱 소거(점선)의 시퀀스의 그래픽 표현을 도시한 것이다.
포워드 앨리어싱 소거는 변환 코더에서 ACELP로의 전환에만 이용된다. ACELP에서 변환 코더로의 전환의 경우에는, 사각형 윈도우 형상이 변환 코딩 모드로의 전환 윈도우의 좌측에 이용된다.
이제, 도 13을 참조하면, 가로 좌표(1310)는 시간 도메인 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1312)는 정규화된 윈도우 값을 나타낸다. 제 1 오디오 프레임(1322)은 변환 도메인 모드로 인코딩되고, 제 2 오디오 프레임(1332)은 변환 도메인 모드로 인코딩되며, 제 3 오디오 프레임(1342)은 ACELP 모드로 인코딩되고, 제 4 오디오 프레임(1352)은 ACELP 모드로 인코딩되며, 제 5 오디오 프레임(1362)은 변환 도메인 모드로 인코딩되고, 그리고 제 6 오디오 프레임(1372)은 또한 변환 도메인 모드로 인코딩된다.
제 1 프레임(1322), 제 2 프레임(1332) 및 제 3 프레임(1342)의 인코딩은 도 11을 참조로 설명된 제 1 프레임(1122), 제 2 프레임(1132) 및 제 3 프레임(1142)의 인코딩과 동일한 것으로 언급된다. 그러나, 제 4 오디오 프레임(1352)의 중심 부분(1350)의 오디오 샘플은 도 13에서 알 수 있는 바와 같이 ACELP 브랜치(140)만을 이용하여 인코딩되는 것으로 언급되어야 한다. 환언하면, (700)과 (900) 사이의 샘플 인덱스를 갖는 시간-도메인 샘플은 제 4 오디오 프레임(1352)의 ACELP 정보(144, 146)의 제공을 위해 고려된다. 제 5 오디오 프레임(1362)과 관련된 변환 도메인 정보(124)의 제공을 위해서는, 전용 전환 분석 윈도우(1360)이 (예컨대, 윈도잉(221,263,283)을 위해) 시간-도메인-대-주파수-도메인 변환기(130)에 적용된다.
따라서, ACELP 코딩 모드에서 변환 도메인 코딩 모드로의 전환에 앞서 제 4 오디오 프레임(1352)을 인코딩할 때에 ACELP 경로(140)에 의해 인코딩되는 시간-도메인 샘플은 변환 도메인 경로(120)를 이용하여 제 5 오디오 프레임(1362)을 인코딩할 때에 고려되지 않게 된다.
전용 전환 분석 윈도우(1360)는 (일부 실시예에서는 단계적으로 증가할 수 있고, 일부 다른 실시예에서는 매우 가파르게 증가할 수 있는) 좌측 전환 기울기, 일정한 (비제로) 윈도우 부분 및 우측 전환 기울기를 포함한다. 그러나, 전용 전환 분석 윈도우(1360)는 오버슈트 부분을 포함하지 않는다. 오히려, 전용 전환 분석 윈도우(1360)의 윈도우 값은 G.718 분석 윈도우 중 하나의 윈도우 중심 값으로 제한된다. 또한, 전용 전환 분석 윈도우(1360)의 우측 윈도우 절반 또는 우측 전환 기울기는 다른 G.718 분석 윈도우의 우측 윈도우 절반 또는 우측 전환 기울기와 동일할 수 있는 것으로 언급되어야 한다.
제 5 오디오 프레임(1362)을 뒤따르는 제 6 오디오 프레임(1372)은, G.718 분석 윈도우(1320, 1330)와 동일하고, 제 1 오디오 프레임(1322) 및 제 2 오디오 프레임(1332)의 윈도잉에 이용되는 G.718 분석 윈도우(1370)를 이용하여 윈도잉된다. 특히, G.718 분석 윈도우(1370)의 좌측 전환 기울기는 전용 전환 분석 윈도우(1360)의 우측 전환 기울기와 시간적으로 중복한다.
상술한 바를 요약하면, 전용 전환 분석 윈도우(1360)는 ACELP 도메인으로 인코딩되는 이전의 오디오 프레임에 뒤따르는 변환 도메인으로 인코딩되는 오디오 프레임의 윈도잉에 적용된다. 이 경우에, ACELP 도메인으로 인코되는 이전의 프레임(1352)의 오디오 샘플(예컨대, 700과 900 사이의 샘플 인덱스를 가진 오디오 샘플)은 전용 전환 분석 윈도우(1360)의 형상으로 인해 변환 도메인으로 인코딩되는 다음 프레임(1362)의 인코딩에 대해 고려하지 않게 된다. 이를 위해, 전용 전환 분석 윈도우(1360)는 ACELP 모드로 인코딩되는 오디오 샘플(예컨대, ACELP 블록(1350)의 오디오 샘플)에 대한 제로 부분을 포함한다.
따라서, ACELP 모드에서 변환 도메인 모드로의 전환 시에는 앨리어싱이 없다. 그러나, 전용 윈도우 타입, 즉 전용 전환 분석 윈도우(1360)가 적용되어야 한다.
이제, 도 14를 참조로, 도 13을 참조로 논의된 인코딩 개념에 적응되는 디코딩 개념이 설명된다.
도 14는 도 13에 따른 분석에 상응하는 합성에 대한 시퀀스의 그래픽 표현을 도시한 것이다. 환언하면, 도 14는 도 3에 따른 오디오 신호 디코더(300)에 이용될 수 있는 합성 윈도우의 시퀀스의 그래픽 표현을 도시한 것이다. 가로 좌표(1410)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1412)는 정규화된 윈도우 값을 나타낸다. 제 1 오디오 프레임(1422)은 변환 도메인 모드로 인코딩되고, G.718 합성 윈도우(1420)를 이용하여 디코딩되며, 제 2 오디오 프레임(1432)은 변환 도메인 모드로 인코딩되고, G.718 합성 윈도우(1430)를 이용하여 디코딩되며, 제 3 오디오 프레임(1442)은 ACELP 모드로 인코딩되고, ACELP 블록(1440)을 획득하도록 디코딩되며, 제 4 오디오 프레임(1452)은 ACELP 모드로 인코딩되고, ACELP 블록(1450)을 획득하도록 디코딩되며, 제 5 오디오 프레임(1462)은 변환 도메인 모드로 인코딩되고, 전용 전환 합성 윈도우(1460)를 이용하여 디코딩되며, 그리고, 제 6 오디오 프레임(1472)은 변환 도메인 모드로 인코딩되고, G.718 합성 윈도우(1470)를 이용하여 디코딩된다.
제 1 오디오 프레임(1422), 제 2 오디오 프레임(1432) 및 제 3 오디오 프레임(1442)의 디코딩은 도 12을 참조로 설명된 오디오 프레임(1222,1232,1242)의 디코딩과 동일한 것으로 언급된다. 그러나, ACELP 모드로 인코딩되는 제 4 오디오 프레임(1452)에서 변환 도메인 모드로 인코딩되는 제 5 오디오 프레임(1462)으로의 전환에서의 디코딩은 상이하다.
전용 전환 합성 윈도우(1460)는, 전용 전환 합성 윈도우(1460)가 ACELP 경로(340)에 의해 제공되는 (비제로) 오디오 샘플에 대한 제로 값을 취하도록 전용 전환 합성 윈도우(1460)의 좌측 윈도우 절반이 적응된다는 점에서 G.718 합성 윈도우(1260)와 다르다. 환언하면, 변환 도메인 경로(320)만은 ACELP 경로가 (블록(1450)에 대해) 제로 시간-도메인 샘플을 제공하는 샘플 시간 인스턴스(instances)에 제로 시간-도메인 샘플을 제공하도록 전용 전환 합성 윈도우(1460)는 제로 값을 포함한다. 따라서, ACELP 경로에 의해 오디오 프레임(1452)에 제공되는 (비제로) 시간-도메인 샘플(비제로 시간 도메인 샘플의 블록(1450))과, 변환 도메인 경로에 의해 오디오 프레임(1462)에 제공되는 시간-도메인 샘플 사이의 중복은 방지된다.
더욱이, 좌측 제로 부분(샘플 800 내지 샘플 899) 이외에, 전용 전환 합성 윈도우(1460)는 윈도우 값이 (예컨대, 1의) 중심 윈도우 값을 취하는 좌측 상수 부분(샘플 900 내지 샘플 999)을 포함한다. 따라서, 앨리어싱 아티팩트는 전용 전환 합성 윈도우(260)의 좌측 부분에서 방지되거나 적어도 감소된다. 전용 전환 합성 윈도우(1460)의 우측 윈도우 절반은 바람직하게는 G.718 합성 윈도우의 우측 윈도우 절반과 동일하다.
상술한 바를 요약하면, 전용 전환 합성 윈도우(260)는, ACELP 모드로 인코딩되는 이전의 오디오 프레임에 뒤따르고, 변환-도메인 모드로 인코딩되는 오디오 프레임에 변환-도메인 경로를 이용하여 변환-도메인 모드로 인코딩되는 오디오 콘텐츠의 부분의 시간-도메인 표현(326)을 제공할 때에 전용 전환 합성 윈도우(260)가 윈도잉(424, 452, 485)에 이용된다. 전용 전환 합성 윈도우(1460)는, 윈도우의 좌측 절반(샘플 800 내지 899)의 50 %를 채울 수 있는 좌측 제로 부분 및, 전용 전환 합성 윈도우(1460)의 좌측 절반(샘플 900 내지 999)의 나머지 50 %(+/- 1 샘플)를 채울 수 있는 좌측 일정한 부분을 포함한다. 전용 전환 합성 윈도우(1460)의 우측 절반은 G.718 합성 윈도우의 우측 절반과 동일할 수 있고, 오버슈트 부분 및 우측 전환 기울기를 포함할 수 있다. 따라서, ACELP 모드로 인코딩되는 프레임(1452)과 변환-도메인 모드로 인코딩되는 프레임(1462) 사이에는 앨리어싱이 없는 전환이 획득될 수 있다.
더 요약하면, 도 13은 낮은-지연 통합된-음성-및-오디오-코딩에 대한 제 2 옵션을 도시한다. 도 13은 G.718 분석 윈도우(실선), ACELP(사각형으로 표시된 선) 및 포워드 앨리어싱 소거(점선)의 시퀀스의 그래픽 표현을 도시한 것이다. 포워드 앨리어싱 소거는 변환 코더(변환-도메인 경로)에서 ACELP(ACELP 경로)로의 전환에만 이용된다. ACELP에서 변환 코더로의 전환의 경우에는, 사각형 (또는 계단형) 윈도우 형상(예컨대, 샘플 800 내지 999)은 변환 코딩 모드로의 전환 윈도우(1360)의 좌측에 이용된다.
도 14는 도 13의 분석에 상응하는 합성에 대한 시퀀스의 그래픽 표현을 도시한 것이다.
3.5. 옵션들의 논의
양방의 옵션(도 11 및 12에 따른 옵션 및 도 13 및 14에 따른 옵션)은 현재 낮은-지연 통합된-음성-및-오디오 코딩이 개발에 고려된다. (도 11 및 12에 따른) 제 1 옵션은 양호한 주파수 응답과 같은 윈도우가 변환 코딩의 모든 블록에 이용되는 이점을 갖는다. 그러나, 결점은 추가 데이터(예컨대, 포워드 앨리어싱 소거 정보)가 FAC 부분에 대해 코딩되어야 한다는 것이다.
제 2 옵션은 ACELP에서 변환 코더로의 전환에서 포워드 앨리어싱 소거(FAC)에 추가적인 데이터가 필요치 않다는 이점을 갖는다. 이것은 특히 일정한 비트율을 필요로 하는 경우에 유리하다. 그러나, 결점은 전환 윈도우(1360 또는 1460)의 주파수 응답이 정상적인 윈도우(1320, 1330, 1370, 1420, 1430, 1470)보다 나쁘다는 것이다.
3.6. 모드 전환의 윈도잉 - 제 3 옵션
다음에는 다른 옵션이 논의된다. 제 3 옵션은 ACELP로의 변환 코더의 전환에도 사각형 윈도우를 이용하는 것이다. 이러한 제 3 옵션은 변환 코더와 ACELP 사이의 결정이 이때 사전에 한 프레임이 알려져야 함에 따라 추가적인 지연을 일으킨다. 따라서, 이러한 옵션은 낮은-지연 통합된-음성-및-오디오 코딩에 최적이 아니다. 그럼에도 불구하고, 제 3 옵션은 지연이 최고의 관련성이 없는 일부의 실시예에 이용될 수 있다.
4. 대안적 실시예
4.1. 개요
다음에는, 낮은-지연을 가진 통합된-음성-및-오디오-코딩(USAC)에 대한 다른 새로운 코딩 기법이 설명된다. 특히, 그것은 주파수-도메인 코덱 AAC-ELD 및 시간-도메인 코덱 AMR-WB 또는 AMR-WB+ 사이의 스위칭에 기초할 수 있다. 시스템(또는, 본 발명에 따른 실시예)은 통신 애플리케이션에 충분히 낮은 지연을 유지하면서 오디오 코덱과 음성 코덱 사이의 콘텐츠-의존 스위칭의 이점을 유지한다. AAC-ELD에 이용되는 낮은-지연 필터뱅크(LD-MDCT)는 AAC-ELD에 비해 어떤 추가적인 지연을 도입하지 않고 시간-도메인 코덱으로 및 으로부터의 크로스-페이드를 허용하는 전환 윈도우에 의해 활용되고 수정된다.
아래에 설명되는 개념은 도 1에 따른 오디오 신호 인코더(100) 및/또는 도 3에 따른 오디오 신호 디코더(300)에 이용될 수 있는 것으로 언급되어야 한다.
4.2. 참조 예 1: 통합된-음성-및-오디오-코딩 ( USAC )
소위 USAC 코덱은 음악 모드와 음성 모드 사이의 스위칭을 허용한다. 음악 모드에서, 고급 오디오 코딩(AAC)과 유사한 MDCT-기반 코덱이 활용된다. 음성 모드에서는, 적응-멀티-레이트-광대역+ (AMR-WB+)와 유사한 코덱이 활용되며, 이를 USAC 코덱에서 "LPD-모드"라 한다. 아래에 설명되는 바와 같이, 두 모드 사이에서 순조롭고 효율적인 전환을 허용하도록 특별한 주의가 요구된다.
다음에는, AAC에서 AMR-WB+로의 전환에 대한 개념이 설명된다. 이러한 개념을 이용하여, AMR-WB+로 스위칭하기 전의 마지막 프레임은 고급 오디오 코딩(AAC)의 "시작" 윈도우와 유사한 윈도우로 윈도잉되지만, 우측에서는 시간-도메인 앨리어싱이 없다. AAC-코딩된 샘플이 AMR-WB+ 코딩된 샘플로 크로스-페이드되는 64 샘플의 전환 영역이 이용 가능하다. 이것은 도 15에서 예시된다. 도 15는 통합된-음성-및-오디오 코딩 시에 AAC에서 AMR-WB+로의 전환에 이용되는 윈도우의 그래픽 표현을 도시한 것이다. 가로 좌표(1510)는 시간을 나타내고, 세로 좌표(1512)는 윈도우 값을 나타낸다. 상세 사항을 위해, 도 15에 대한 참조가 행해진다.
다음에는, AMR-WB+에서 AAC로의 전환에 대한 개념이 간략히 설명된다. 고급 오디오 코딩(AAC)으로 다시 스위칭할 때, 제 1 AAC의 프레임은 AAC의 "정지" 윈도우와 동일한 윈도우로 윈도잉된다. 이런 식으로, 시간-도메인 앨리어싱은 의도적으로 시간-도메인-코딩된 AMR-WB+ 신호에서 상응하는 음의 시간-도메인 앨리어싱을 추가하여 소거되는 크로스-페이드 범위에 도입된다. 이것은 도 16에서 예시되고, 도 16은 AMR-WB+에서 AAC로의 전환에 대한 개념의 그래픽 표현을 도시한 것이다. 가로 좌표(1610)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1612)는 윈도우 값을 나타낸다. 추가적 상세 사항을 위해, 도 16에 대한 참조가 행해진다.
4.3. 참조 예 2: MPEG -4 강화된 낮은-지연 AAC ( AAC - ELD )
소위 "강화된 낮은-지연 AAC"(또한 간략히 "AAC-ELD" 또는 "고급-오디오-코딩-강화된-낮은-지연"으로 명시됨) 코덱은 또한 "LD-MDCT"라는 수정된-이산-코사인 변환(MDCT)의 특별한 낮은-지연 플레이버(flavor)에 기초한다. LD-MDCT에서, 중복은 MDCT에 대한 2의 팩터 대신에 4의 팩터로 확장된다. 이것은, 중복이 비대칭 방식으로 추가되어, 이전에서의 샘플만을 활용함에 따라 추가적인 지연 없이 달성된다. 한편, 미래에 대한 룩-어헤드(look-ahead to the future)는 분석 윈도우의 우측에서 일부 제로 값만큼 감소된다. 분석 및 합성 윈도우는 도 17 및 18에 예시된다. 도 17은 AAC-ELD에서 LD-MDCT의 분석 윈도우의 그래픽 표현을 도시하고, 도 18은 AAC-ELD에서 LD-MDCT의 합성 윈도우의 그래픽 표현을 도시한다. 도 17에서, 가로 좌표(1710)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1712)는 윈도우 값을 나타낸다. 라인(1720)은 분석 윈도우의 윈도우 값을 나타낸다. 도 18에서, 가로 좌표(1810)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1812)는 윈도우 값을 나타낸다. 라인(1820)은 합성 윈도우를 나타낸다.
AAC-ELD 코딩은 이러한 윈도우만을 활용하며, 지연을 도입하는 윈도우 형상 또는 블록 길이의 어떠한 스위칭을 활용하지 않는다. 이러한 하나의 윈도우(예컨대, 오디오 신호 인코더의 경우에는 도 17에 따른 분석 윈도우(1720), 및 오디오 신호 디코더의 경우에는 도 18에 따른 합성 윈도우(1820))는 정지 및 과도 신호의 양방에 대해 어떤 타입의 오디오 신호에 잘 역할을 한다.
4.4. 참조 예의 논의
다음에는 섹션 4.2 및 4.3에서 설명된 참조 예에 대한 간략한 논의가 제공될 것이다.
USAC 코덱은 오디오 코덱 및 음성 코덱 사이의 스위칭을 허용하지만, 이러한 스위칭은 지연을 도입한다. 음성 모드로의 전환을 수행하는데 필요한 전환 윈도우가 있을 시에, 룩-어헤드는 다음의 프레임이 음성형인지의 여부를 판단하기 위해 필요하다. 음성형이면, 현재 프레임은 전환 윈도우로 윈도잉되어야 한다. 따라서, 이러한 개념은 통신 애플리케이션에 필요한 낮은-지연을 가진 코딩 시스템에 적절하지 않다.
AAC-ELD 코덱은 통신 애플리케이션을 위한 낮은-지연을 허용하지만, 낮은 비트율로 코딩되는 음성 신호에 대해서는, 이러한 코덱의 성능이 또한 낮은 지연을 갖는 전용 음성 코덱(예컨대, AMR-WB)보다 뒤떨어진다.
그래서, 이러한 상황에 비추어, 음성 및 음악 신호의 양방에 이용할 수 있는 가장 효율적인 코딩 모드를 갖기 위해 AAC-ELD와 음성 코덱 사이를 스위칭하는 것이 바람직한 것으로 발견되었다. 또한, 이러한 스위칭이 이상적으로 시스템에 어떤 추가적인 지연을 추가하지 않는 것으로 발견되었다.
AAC-ELD에 이용된 바와 같은 LD-MDCT에 대해, 음성 코덱으로의 이러한 스위칭은 간단한 방식으로 가능하지 않는 것으로 발견되었다. 또한, 음성 세그먼트의 LD-MDCT 윈도우에 의해 커버되는 전체 시간-도메인 부분을 코딩하는 가능한 솔루션은 LD-MDCT의 4배(4 x) 중복으로 인해 엄청난 오버헤드를 생성시키는 것으로 발견되었다. 주파수-도메인 코딩된 샘플 중 하나의 프레임(예컨대, 512 주파수 값)으로 교체하기 위해, 4 x 512 시간-도메인 샘플은 시간-도메인 코더로 코딩되어야 한다.
이러한 상황에 비추어, 코딩 효율, 지연 및 오디오 품질 간의 양호한 트레이드오프를 제공하는 개념을 생성하는 것이 바람직하다.
4.5. 도 19 내지 23b에 따른 윈도잉 개념
다음에는, 본 발명의 실시예에 따른 접근법이 설명되고, AAC-ELD와 시간-도메인 코덱 사이에서 효율적이고 지연 없는 스위칭을 허용한다.
이러한 섹션에 제시된 제안된 접근법에서, AAC-ELD의 LD-MDCT는 (예컨대, 시간-도메인-대-주파수-도메인 변환기(130) 또는 주파수-도메인-대-시간-도메인 변환기(330))에서 활용되고, 어떤 추가적인 지연을 도입하지 않고 시간-도메인 코덱으로의 효율적인 스위칭을 허용하는 전환 윈도우에 의해 수정된다.
예시적인 윈도우 시퀀스는 도 19에 도시된다. 도 19는 AAC-ELD와 시간-도메인 코덱 사이의 스위칭을 위한 예시적인 윈도우 시퀀스를 도시한다. 도 19에서, 가로 좌표(1910)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(1912)는 윈도우 값을 나타낸다. 곡선의 의미에 관한 상세 사항을 위해, 도 19의 레전드(legend)에 대한 참조가 행해진다.
예컨대, 도 19는 LD-MDCT 분석 윈도우(1920a-1920e), LD-MDCT 합성 윈도우(1930a-1930e), 시간-도메인 코딩된 신호에 대한 가중치(1940), 및 시간-도메인 신호의 시간-도메인 앨리어싱에 대한 가중치(1950a, 1950b)를 도시한다.
다음에는 분석 윈도잉에 대한 상세 사항이 설명된다. 분석 윈도우의 시퀀스를 추가적으로 설명하기 위해, 도 20은 합성 윈도우 없이 동일한 시퀀스(또는 윈도우 시퀀스)(예컨대, 도 19에 도시된 동일한 윈도우 시퀀스)를 도시한다. 가로 좌표(2010)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2012)는 윈도우 값을 나타낸다. 환언하면, 도 20은 AAC-ELD와 시간-도메인 코덱 사이의 스위칭을 위한 예시적인 분석 윈도우 시퀀스를 도시한다. 라인의 의미에 관한 상세 사항을 위해, 도 20의 레전드에 대한 참조가 행해진다.
도 20은 LD-MDCT 분석 윈도우(2020a-2020e), 시간-도메인 코딩된 신호에 대한 가중치(2040), 및 시간-도메인 신호의 시간-도메인 앨리어싱에 대한 가중치(2050a, 2050b)를 도시한다.
도 20에서, 시퀀스는 시간-도메인 코덱이 인계받는 지점까지 (도 17에 도시된 바와 같은) 정상 LD-MDCT 윈도우(2020a, 2020b)로 구성되는 것을 알 수 있다. AAC-ELD에서 시간-도메인 코덱으로의 전환에 필요한 특별한 전환 윈도우가 없다. 따라서, 룩-어헤드가 시간-도메인 코덱으로 스위칭하는 결정에 필요하지 않아, 추가적 지연이 필요하지 않다.
시간-도메인 코덱에서 AAC-ELD로의 전환에서, 특별한 전환 윈도우(2020c)가 필요하지만, (시간-도메인 코딩된 신호에 대한 가중치(2040)로 나타내는) 시간-도메인 코딩된 신호와 중복하는 이러한 윈도우의 좌측 부분만이 정상적인 AAC-ELD 윈도우(2020a, 2020b, 2020d, 2020e)와 상이하다. 이러한 전환 윈도우(2020c)는 도 21a에 예시되고, 도 21b이 정상적인 AAC-ELD 분석 윈도우와 비교된다.
도 21a는 시간-도메인 코덱에서 AAC-ELD로의 전환을 위한 분석 윈도우(2020c)의 그래픽 표현을 도시한다. 가로 좌표(2110)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2112)는 윈도우 값을 나타낸다.
라인(2120)은 윈도우 내의 위치의 함수로서 분석 윈도우(2020c)의 윈도우 값을 나타낸다.
도 21b는 정상적인 AAC-ELD 분석 윈도우(2020a, 2020b, 2020d, 2020e, 2170)(점선)에 비해 시간-도메인 코덱에서 AAC-ELD로의 전환을 위한 분석 윈도우(2020c, 2120)(실선)의 그래픽 표현을 도시한다. 가로 좌표(2160)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2162)는 (정규화된) 윈도우 값을 나타낸다
도 20의 분석 윈도우의 시퀀스에 대해, 전환 윈도우(2020c)를 뒤따르는 모든 분석 윈도우는 전환 윈도우(2020c)의 비제로 부분의 입력 샘플 좌측을 이용하지 않는 것으로 더 언급되어야 한다. 이들 윈도우 계수(또는 윈도우 값)가 도시되지만, 실제 처리에서는 이들이 입력 신호에 적용되지 않는다. 이것은 전환 윈도우(2020c)의 비제로 부분의 분석 윈도잉 입력 버퍼 좌측을 제로화(zeroing)함으로써 달성된다.
다음에는, 합성 윈도잉에 대한 상세 사항이 설명된다. 합성 윈도잉은 상술한 오디오 디코더에 이용될 수 있다. 합성 윈도잉에 대해, 도 22는 상응하는 시퀀스를 도시한다. 이러한 시퀀스는 분석 윈도잉의 역시간(time-reversed) 버전과 유사한 것처럼 보이지만, 지연 고려 사항으로 인해, 여기에 몇 가지 개별적인 설명을 받아야 한다.
환언하면, 도 22는 AAC-ELD와 시간-도메인 코덱 사이의 스위칭을 위한 예시적인 합성 윈도우 시퀀스의 그래픽 표현을 도시한다. 라인의 의미에 관한 상세 사항을 위해, 도 22의 레전드에 대한 참조가 행해진다.
도 22에서, 가로 좌표(2210)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2212)는 윈도우 값을 나타낸다. 도 22는 LD-MDCT 합성 윈도우(2220a 내지 2220e), 시간-도메인 코딩된 신호에 대한 가중치(2240), 및 시간-도메인 신호의 시간-도메인 앨리어싱에 대한 가중치(2250a, 2250b)를 도시한다.
AAC-ELD에서 시간-도메인 코덱으로 스위칭하기 전에, 그도 23a에 상세히 도시된 하나의 전환 윈도우(2220c)가 있다. 그러나, 이러한 전환 윈도우(2220c)는 디코더에서 어떤 추가적인 지연을 도입하지 않는데, 그 이유는, 완료될 중복-추가를 위한 부분 및, 따라서 역 LD-MDCT의 시간-도메인 출력의 완전한 재구성을 위한 부분인 이러한 윈도우의 좌측 부분이 도 23b에서 알 수 있는 바와 같이 (예컨대, 합성 윈도우(2220a, 2220b, 2220d, 2220e)의 정상적인 AAC-ELD 합성 윈도우의 좌측 부분과 동일하기 때문이다. 분석 윈도우 시퀀스와 마찬가지로, 또한, 전환 윈도우(2220c)의 비제로 부분중 보이는 전환 윈도우(2220c) 이전의 합성 윈도우(2220a, 2220b)의 부분이 실제로 출력 신호에 기여하지 못하는 것으로 여기서 언급되어야 한다. 실질적인 구현에서, 이것은 전환 윈도우(2220c)의 비제로 부분에 대한 이들 윈도우 우측의 출력을 제로화함으로서 달성된다.
시간-도메인 코덱에서 AAC-ELD로 다시 스위칭할 때, 특별한 윈도우가 필요하지 않다. 정상적인 AAC-ELD 합성 윈도우(2220e)는 AAC-ELD 코딩된 신호 부분의 시작 부분에서 바로 이용될 수 있다.
도 23a는 AAC-ELD에서 시간-도메인 코덱으로의 전환을 위한 합성 윈도우(2220c, 2320)의 그래픽 표현을 도시한다. 도 23a에서, 가로 좌표(2310)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2312)는 윈도우 값을 나타낸다. 라인(2320)은 이상적인 샘플 위치의 함수로서 합성 윈도우(2220c)의 값을 나타낸다.
도 23b는 정상적인 AAC-ELD 합성 윈도우(2020a, 2020b, 2020d, 2020e, 2370)(점선)에 비해 AAC-ELD에서 시간-도메인 코덱으로의 전환을 위한 합성 윈도우(2220c)(실선)의 그래픽 표현을 도시한다. 가로 좌표(2360)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2362)는 (정규화된) 윈도우 값을 나타낸다
다음에는 시간-도메인 코딩된 신호의 가중치가 설명된다.
도 20(분석 윈도우 시퀀스) 및 도 22(합성 윈도우 시퀀스)의 양방에 도시되어 있지만, 시간-도메인 코딩된 신호의 가중치는 한 번만 적용되고, 바람직하게는, 디코더(300)에서 시간-도메인 코딩 및 디코딩 후에 적용된다. 그러나, 또한, 생성된 전체 가중치가 도 19, 20 및 22에 사용된 가중 함수에 상응하도록, 대안적으로, 인코더에서, 즉, 시간-도메인 코딩 전에, 또는 인코더 및 디코더의 양방에 적용될 수 있다.
이들 도면으로부터, 가중 함수(도트로 표시된 실선, 라인(1940, 2040, 2240))로 커버되는 시간-도메인 샘플의 전체 범위는 입력 샘플의 두 프레임보다 약간 긴 것으로 볼 수 있다. 더욱 정확하게는, 이러한 예에서, 시간-도메인으로 코딩되는 2*N+0.5*N 샘플은 LD-MDCT-기반 코덱으로 코딩되지 않는 (프레임마다 N 새로운 입력 샘플을 가진) 두 프레임에 의해 도입된 갭을 채우기 위해 필요하다. 예컨대, N = 512이면, 2*512+256 시간-도메인 샘플은 2*512 스펙트럼 값 대신에 시간-도메인으로 코딩되어야 한다. 따라서, 절반 프레임만의 오버헤드가 시간-도메인 코덱으로 다시 스위칭하여 도입된다.
다음에는, 시간-도메인 앨리어싱에 관한 몇 가지 상세 사항이 설명된다. 시간-도메인 코덱으로 및 다시 변환 코덱으로의 변환에서, 시간-도메인 앨리어싱은 이웃한 LD-MDCT-코딩된 프레임에 의해 도입된 타임-도메인 앨리어싱을 소거하기 위해 의도적으로 도입된다. 예컨대, 시간-도메인 앨리어싱은 앨리어싱 소거 신호 제공기(360)에 의해 도입될 수 있다. 도트로 표시되고, (1950a, 1950b, 2050a, 2050b, 2250a, 2250b)으로 명시되는 점선은 이러한 동작을 위한 가중 함수를 나타낸다. 시간-도메인 코딩된 신호는 이러한 가중 함수와 승산되어, 제각기 역시간 형식으로 윈도잉된 시간-도메인 신호에 추가되고, 그로부터 감산된다.
4.6. 도 24에 따른 윈도잉 개념
다음에는 전환의 길이에 대한 대안적 설계가 설명된다.
도 20의 분석 시퀀스 및 도 22의 합성 시퀀스를 더 자세히 검토하면, 전환 윈도우는 정확히 서로의 역시간 버전이 아닌 것으로 볼 수 있다. 합성 전환 윈도우는 정확히 서로의 역시간 버전이 아니다. 합성 전환 윈도우(도 23a)는 분석 전환 윈도우(도 21a)보다 짧은 비제로 부분을 갖는다. 분석 및 합성의 양방에 대해, 길뿐만 아니라 짧은 버전이 가능하고, 독립적으로 선택될 수 있다. 그러나, 이들은 여러 가지 이유로 인해 이런 식으로 (도 20 및 22에 도시된 바와 같이) 선택된다. 이에 대해 더욱 상세히 설명하기 위해, 도 24에 도시된 바와 같이 두 선택 사항을 가진 버전이 서로 다르게 형성된다.
도 24는 AAC-ELD와 시간-도메인 코덱 사이의 윈도우 시퀀스 스위칭을 위한 전환 윈도우의 대안적 선택의 그래픽 표현을 도시한다. 도 24에서, 가로 좌표(2410)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2412)는 윈도우 값을 나타낸다. 도 24는 LD-MDCT 분석 윈도우(2420a 내지 2420e), LD-MDCT 합성 윈도우(2430a 내지 2430e), 시간-도메인 코딩된 신호에 대한 가중치(2440), 및 시간-도메인 신호의 시간-도메인 앨리어싱에 대한 가중치(2450a 내지 2450b)를 도시한다. 라인 타입에 관한 상세 사항의 경우, 도 24의 레전드에 대한 참조가 행해진다.
도 24에 도시된 이러한 대안에서, AAC-ELD에서 시간-도메인 코덱으로의 전환시에 시간-도메인 앨리어싱에 대한 가중 함수는 좌측으로 확장되는 것으로 볼 수 있다. 이것은, 시간-도메인 신호의 추가적인 부분이 실제 크로스-페이드를 위한 것이 아니라 의도적 시간-도메인 앨리어싱(또는 시간-도메인 앨리어싱 소거)를 위해 필요하다는 것을 의미한다. 이것은 비효율적이고 불필요한 것으로 추정된다. 따라서, 짧은 합성 전환 윈도우 및 이에 상응하여 (도 19에 도시된 바와 같은) 짧은 시간-도메인 앨리어싱 영역에 대한 대안이 AAC-ELD에서 시간-도메인 코덱으로의 전환을 위해 바람직하다.
한편, 시간-도메인 코덱에서 AAC-ELD로의 전환을 위해, (도 19에 비해) 짧은 분석 전환 윈도우는 이러한 윈도우에 대한 나쁜 주파수 응답을 생성시킨다. 또한, 도 19에서 긴 시간-도메인 앨리어싱 영역은, 이러한 전환에서, 이들 샘플이 시간-도메인 코덱으로부터 되는대로 이용 가능함에 따라 시간-도메인 코덱에 의해 코딩될 어떤 추가적인 샘플을 필요로 하지 않는다. 그래서, 긴 전환 윈도우 및 이에 상응하여 (도 19에서와 같은) 긴 시간-도메인 앨리어싱 영역에 대한 대안이 시간-도메인 코덱에서 AAC-ELD로의 전환을 위해 바람직하다.
그러나, 인코더(100) 및 디코더(300)에 대한 일부 실시예에서, 오디오 인코더(100) 및 오디오 디코더(300)에서 도 19의 윈도잉 기법의 응용이 약간의 이점을 가져오도록 나타날지라도, 도 24에 따른 윈도잉 기법이 적용될 수 있다.
4.7. 도 25에 따른 윈도잉 개념
다음에는 시간-도메인 신호 및 대안적 프레이밍의 대안적 윈도잉이 설명된다.
지금까지 설명에서, 시간-도메인 신호는 시간-도메인 인코딩 및 디코딩을 적용한 후에 한 번만 윈도잉되는 것으로 고려된다. 이러한 윈도잉 프로세스는 또한 두 단계, 즉, 시간-도메인 인코딩 전의 하나의 단계 및 시간-도메인 디코딩 후의 하나의 단계로 분할될 수 있다. 이것은 AAC-ELD에서 시간-도메인 코덱으로의 전환에서 도 25에 예시된다.
도 25는 시간-도메인 신호 및 대안적 프레이밍의 대안적 윈도잉의 그래픽 표현을 도시한다. 가로 좌표(2510)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2512)는 (정규화된) 윈도우 값을 나타낸다. 도 25는 LD-MDCT 분석 윈도우 값(2520a-2520e), LD-MDCT 합성 윈도우(2530a-2530d), 시간-도메인 코덱 전의 윈도잉을 위한 분석 윈도우(2542), 시간-도메인 코덱 후의 TDA 폴딩/언폴딩(folding/unfolding) 및 윈도잉을 위한 합성 윈도우(2552), 시간-도메인 코덱 후의 제 1 MDCT를 위한 분석 윈도우(2562), 및 시간-도메인 코덱 후의 제 1 MDCT를 위한 합성 윈도우(2572)를 도시한다.
도 25는 또한 시간-도메인 코덱의 프레이밍에 대한 대안을 도시한다. 시간-도메인 코덱에서, 모든 프레임은 전환에 중요하지 않은 샘플링으로 인해 누락된 샘플을 보상할 필요없이 동일한 길이를 가질 수 있다. 그러나, 그 후, MDCT-코덱은 다른 MDCT 프레임(라인(2562 및 2572))보다 더 많은 스펙트럼 값을 가진 시간-도메인 코덱 후에 제 1 MDCT를 가짐으로써 그것에 대해 보상할 필요가 있을 수 있다.
전체적으로, 도 25에 도시된 이러한 대안은 통합된-음성-및-오디오- 코딩 코덱 (USAC 코덱)과 매우 유사하지만 훨씬 낮은 지연을 가진 코덱을 형성한다.
ACELP에서 TCX로 진행할 때에 AMR-WB+에서 행해진 바와 같이, 이러한 대안의 추가적 작은 수정은 시간-도메인 코덱에서 AAC-ELD으로의 윈도잉된 전환(라인(2542, 2552, 2562, 2572))을 사각형 전환으로 대체하는 것이다 . AMR-WB+를 "시간-도메인 코덱"으로 이용하는 코덱에서, 이것은 또한, ACELP 프레임 후에 ACELP에서 AAC-ELD로의 직접적인 전환이 없지만, 항상 그 사이에 TCX 프레임이 있다는 것을 의미할 수 있다. 이런 식으로, 특정 전환으로 인한 잠재적인 추가적인 지연은 제거되고, 전체 시스템은 AAC-ELD의 지연만큼 작은 지연을 갖는다. 더욱이, 이것은, 음성형 신호의 경우에 다시 AAC-ELD로의 효율적인 스위칭이 AAC-ELD에서 ACELP로의 스위칭보다 더 효율적이고, ACELP 및 TCX의 양방이 동일한 LPC 필터링을 공유함에 따라 스위칭을 더욱 유연하게 한다.
4.8. 도 26에 따른 윈도잉 개념
다음에는, TDA 신호를 시간-도메인 코덱에 공급하여, 중요한 샘플링을 달성하는 대안이 설명된다.
도 26은 대안적 변형을 도시한다. 도 26은 TDA 신호를 시간-도메인 코덱에 공급하여, 중요한 샘플링을 달성하기 위한 대안을 도시한다. 도 26에서, 가로 좌표(2610)는 오디오 샘플의 측면에서 시간을 나타내고, 세로 좌표(2612)는 (정규화된) 윈도우 값을 나타낸다. 도 12는 LD-MDCT 분석 윈도우(2620a 내지 2620e), LD-MDCT 합성 윈도우(2630a 내지 2630e), 시간-도메인 코덱 전의 윈도잉 및 TDA를 위한 분석 윈도우(2642a), 및 시간-도메인 코덱 후의 TDA 언폴딩 및 윈도잉을 위한 합성 윈도우(2652a)를 도시한다. 라인들에 관한 상세 사항의 경우, 도 26의 레전드에 대한 참조가 행해진다.
이러한 변형에서, 시간-도메인 코덱에 대한 입력 신호는 LD-MDCT와 동일한 윈도잉 및 TDA 메카니즘에 의해 처리되고, 시간-도메인 앨리어싱 신호는 시간-도메인 코덱으로 공급된다. 디코딩 후에, TDA, 언폴딩 및 윈도잉은 시간-도메인 코덱의 출력 신호에 적용된다.
이러한 대안의 이점은 전환 시에 중요한 샘플링이 달성된다는 것이다. 결점은 시간-도메인이 시간-도메인 신호 대신에 TDA 신호를 코딩한다는 것이다. 디코딩된 TDA 신호를 언폴딩한 후, 코딩 오류는 반영되어, 프리에코(pre-echo) 아티팩트를 발생시킬 수 있다.
4.9. 다른 대안
다음에는, 인코딩 및 디코딩의 개선을 위해 이용될 수 있는 몇 가지 추가 대안이 설명된다.
현재 MPEG에서의 개발 중인 USAC 코덱의 경우, AAC 및 TCX 부분의 통합(unification)에 대한 노력이 진행 중이다. 이러한 통합은 포워드 앨리어싱 소거(FAC) 및 주파수-도메인 잡음-형상화(FDNS)의 기술에 기초한다. 이들 기술은 또한 AAC-ELD의 낮은-지연을 유지하면서 코덱처럼 AAC-ELD와 AMR-WB+ 사이의 스위칭과 관련하여 적용될 수 있다.
이러한 개념에 관한 몇 가지 상세 사항은 도 1 내지 14를 참조로 논의되었다.
다음에는, 소위 "리프팅 구현(lifting implementation)"아 간단히 설명되며, 이는 일부 실시예에 적용될 수 있다. AAC-ELD의 LD-MDCT는 또한 효율적인 리프팅 구조로 구현될 수 있다. 여기에 설명된 전환 윈도우의 경우, 이러한 리프팅 구현은 또한 활용될 수 있고, 전환 윈도우는 단순히 리프팅 계수의 일부를 생략하여 획득된다.
5. 가능한 수정
상술한 실시예에 관해, 많은 수정이 적용될 수 있는 것으로 언급되어야 한다. 특히, 서로 다른 윈도우 길이가 요구 사항에 따라 선택될 수 있다. 또한, 윈도우의 스케일링이 수정될 수 있다. 당연히, 변환-도메인 브랜치에 적용된 윈도우와 ACELP 브랜치에 적용된 윈도잉 사이의 스케일링은 변경될 수 있다. 또한, 일부 사전 처리 단계 및/또는 사후 처리 단계는, 본 발명의 일반적인 개념을 수정하지 않고, 상술한 처리 블록의 입력에 도입될 수 있고, 또한 상술한 처리 블록 사이에 도입될 수 있다. 당연히, 다른 수정이 또한 행해질 있다.
6. 구현 대안
일부 양태가 장치와 관련하여 설명되었지만, 이들 양태는 또한 상응하는 방법에 대한 설명을 명백히 나타내며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 상응한다. 유사하게도, 방법 단계와 관련하여 설명된 양태는 또한 상응하는 장치의 상응하는 블록 또는 항목 또는 특징에 대한 설명을 나타낸다. 방법 단계의 일부 또는 모두는 예컨대, 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계 중 일부의 하나 이상은 이와 같은 장치에 의해 실행될 수 있다.
발명의 인코딩된 오디오 신호는 디지털 저장 매체 상에 저장될 수 있거나, 무선 전송 매체와 같은 전송 매체 또는 인터넷과 같은 유선 전송 매체 상에서 전송될 수 있다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 이런 구현은 디지털 저장 매체, 예컨대, 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 이용하여 실행될 수 있으며, 이들은 전자식 판독 가능한 제어 신호를 저장하여, 각각의 방법이 실행되도록 하는 프로그램 가능한 컴퓨터 시스템과 협력한다 (또는 협력할 수 있다). 그래서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예들은 여기에 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자식 판독 가능한 제어 신호를 가진 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 가진 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 이 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행할 시에 방법 중 하나를 수행하기 위해 동작 가능하다. 프로그램 코드는, 예컨대, 기계 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예들은, 기계 판독 가능한 캐리어 상에 저장되고, 여기에 설명된 방법 중 하나를 실행하는 컴퓨터 프로그램을 포함한다.
그래서, 환언하면, 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 실행할 시에, 여기에 설명된 방법 중 하나를 실행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램이다.
그래서, 발명의 방법의 추가 실시예는, 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 기록한 데이터 캐리어 (또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 통상적으로 실체적 및/또는 비과도적(tangible and/or non-transitionary)이다.
그래서, 발명의 방법의 추가 실시예는 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는, 예컨대, 데이터 통신 접속을 통해, 예컨대, 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는, 여기에 설명된 방법 중 하나를 실행하기 위해 구성되거나 적응되는 처리 수단, 예컨대, 컴퓨터, 또는 프로그램 가능한 논리 디바이스를 포함한다.
추가 실시예는 여기에 설명된 방법 중 하나를 실행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 여기에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 (예컨대, 전자식 또는 광학식으로) 수신기로 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는, 예컨대, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은, 예컨대, 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예들에서, 프로그램 가능한 논리 디바이스 (예컨대, 필드 프로그램 가능 게이트 어레이)는 여기에 설명된 방법의 일부 또는 모든 기능을 실행하는데 이용될 수 있다. 일부 실시예들에서, 필드 프로그램 가능 게이트 어레이는 여기에 설명된 방법 중 하나를 실행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 이들 방법은 바람직하게는 어떤 하드웨어 장치에 의해 실행된다.
상술한 실시예들은 단지 본 발명의 원리를 위해 예시한 것이다. 여기에 설명된 배치 및 상세 사항의 수정 및 변형은 당업자에게는 자명한 것으로 이해된다. 그래서, 여기의 실시예의 설명을 통해 제시된 특정 상세 사항에 의해 제한되지 않고, 첨부한 특허청구범위의 범주에 의해서만 제한되는 것으로 의도된다.

Claims (27)

  1. 오디오 콘텐츠의 입력 표현(110)에 기초하여 상기 오디오 콘텐츠의 인코딩된 표현(112)을 제공하기 위한 오디오 신호 인코더(100)에 있어서,
    스펙트럼 계수들(124)이 상기 오디오 콘텐츠의 잡음-형상화된(noise-shaped) 버전(223a; 262a; 285a)의 스펙트럼을 기술(describe)하도록, 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분의 시간-도메인 표현(122)에 기초하여 스펙트럼 계수들(124)의 세트 및 잡음-형상화 정보(126)를 획득하도록 구성되는 변환-도메인 경로(120) - 상기 변환-도메인 경로(120; 200; 230; 260)는 시간-도메인-대-주파수-도메인 변환기(130;222;264;284)를 포함하며, 상기 시간-도메인-대-주파수-도메인 변환기는 상기 오디오 콘텐츠의 시간-도메인 표현(220a; 280a) 또는 이의 사전-처리된(pre-processed) 버전(262a)을 윈도잉하고, 상기 오디오 콘텐츠의 윈도잉된 표현(221a;263a;283a)을 획득하고, 상기 오디오 콘텐츠의 윈도잉된 시간-도메인 표현으로부터 스펙트럼 계수들(222a;264a;284a)의 세트를 도출하도록 시간-도메인-대-주파수-도메인-변환을 적용하도록 구성됨 -;
    코드-여기된(code-excited) 선형-예측-도메인 모드(CELP 모드)로 인코딩되는 상기 오디오 콘텐츠의 부분에 기초하여 코드-여기 정보(144) 및 선형-예측-도메인 매개변수 정보(146)를 획득하도록 구성되는 코드-여기된 선형-예측-도메인 경로(CELP 경로)(140)를 포함하고,
    상기 시간-도메인-대-주파수-도메인 변환기(130; 221,222; 263,264; 283,284)는, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1142;1342)이 상기 오디오 콘텐츠의 현재 부분(1132;1332)을 뒤따를 경우 및 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 모두에서, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1122;1322)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 분석 윈도우(520;1130;1330)를 적용하도록 구성되고,
    상기 오디오 신호 인코더는, 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1142;1342)이 상기 오디오 콘텐츠의 상기 현재 부분(1132; 1332)을 뒤따를 경우에, 상기 오디오 콘텐츠의 다음 부분(1142;1342)의 변환-도메인 모드 표현에 의해 표현되는 앨리어싱(aliasing) 소거 신호 성분(component)들을 나타내는 앨리어싱 소거 정보(164)를 선택적으로 제공하도록 구성되는,
    오디오 신호 인코더.
  2. 제 1 항에 있어서,
    상기 시간-도메인-대-주파수-도메인 변환기(130;222;264;284)는, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1142;1342)이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 및 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 모두에서, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1122;1322)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1132; 1332)의 윈도잉을 위한 동일한 윈도우(520,1130,1330)를 적용하도록 구성되는, 오디오 신호 인코더.
  3. 제 1 항에 있어서,
    상기 미리 정해진 비대칭 분석 윈도우(520,1130,1330)는 좌측 윈도우 절반 및 우측 윈도우 절반을 포함하며,
    상기 좌측 윈도우 절반은 윈도우 값들이 제로에서 윈도우 중심 값으로 단조(monotonically) 증가하는 좌측 전환 기울기(522), 및 윈도우 값들이 상기 윈도우 중심 값보다 크고 상기 윈도우가 최대값(524a)을 포함하는 오버슈트 부분(524)을 포함하고,
    상기 우측 윈도우 절반은 윈도우 값들이 상기 윈도우 중심 값에서 제로로 단조 감소하는 우측 전환 기울기(528) 및 우측 제로 부분(530)을 포함하는, 오디오 신호 인코더.
  4. 제 3 항에 있어서,
    상기 좌측 윈도우 절반은 제로 윈도우 값들 중 1 퍼센트 이하(no more than)를 포함하고,
    상기 우측 제로 부분(530)은 상기 우측 윈도우 절반의 윈도우 값들의 적어도 20 %의 길이를 포함하는, 오디오 신호 인코더.
  5. 제 3 항에 있어서,
    상기 미리 정해진 비대칭 분석 윈도우(520)의 상기 우측 윈도우 절반의 윈도우 값들은 상기 미리 정해진 비대칭 분석 윈도우의 상기 우측 윈도우 절반에 오버슈트 부분이 없도록 상기 윈도우 중심 값보다 작은, 오디오 신호 인코더.
  6. 제 1 항에 있어서,
    상기 미리 정해진 비대칭 분석 윈도우(520)의 비-제로 부분은 프레임 길이보다 적어도 10 % 짧은, 오디오 신호 인코더.
  7. 제 1 항에 있어서,
    상기 오디오 신호 인코더는 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분들(1122,1132,1162,1172; 1322,1332,1362,1372)이 적어도 40 %의 시간적 중복(temporal overlap)을 포함하도록 구성되고,
    상기 오디오 신호 인코더는 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1132;1332) 및 상기 코드-여기된 선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1142;1342)이 시간적 중복을 포함하도록 구성되며,
    상기 오디오 신호 인코더는, 상기 앨리어싱 소거 정보(164)가 오디오 신호 디코더(300)에서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1232)으로부터 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1242)으로의 전환 시에 앨리어싱 아티팩트(artifact)들을 소거하기 위한 앨리어싱 소거 신호(364)의 제공을 허용하도록 선택적으로 상기 앨리어싱 소거 정보를 제공하도록 구성되는, 오디오 신호 인코더.
  8. 제 1 항에 있어서,
    상기 오디오 신호 인코더는, 상기 오디오 콘텐츠의 다음 부분(1142;1342)이 상기 CELP 모드로 인코딩될지라도 상기 오디오 콘텐츠의 현재 부분(1132;1332)의 윈도잉된 표현(221a;263a;283a)이 상기 오디오 콘텐츠의 상기 다음 부분과 중복하도록, 상기 오디오 콘텐츠의 상기 현재 부분과 시간적으로 중복하는 상기 오디오 콘텐츠의 다음 부분(1142;1342)의 인코딩을 위해 이용되는 모드와 독립적으로 상기 오디오 콘텐츠의 현재 부분의 윈도잉을 위한 윈도우(1130;1330)를 선택하도록 구성되고,
    상기 오디오 신호 인코더는, 상기 오디오 콘텐츠의 상기 다음 부분(1142;1342)이 CELP 모드로 인코딩된다는 검출에 응답하여, 상기 오디오 콘텐츠의 상기 다음 부분(1142;1342)의 변환-도메인 모드 표현에 의해 표현되는 앨리어싱 소거 신호 성분들을 나타내는 앨리어싱 소거 정보(164)를 제공하도록 구성되는, 오디오 신호 인코더.
  9. 제 1 항에 있어서,
    상기 시간-도메인-대-주파수-도메인 변환기(130; 221, 222; 263, 264; 283, 284)는, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1162)의 윈도잉된 표현(221a;263a;283a)이 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1152)과 시간적으로 중복하도록, 그리고 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분들(1122,1132,1162,1172)이 상기 오디오 콘텐츠의 이전의 부분을 인코딩하는 모드와 독립적으로 그리고 상기 오디오 콘텐츠의 다음 부분을 인코딩하는 모드와 독립적으로 동일한 미리 정해진 비대칭 분석 윈도우(520,1120,1130,1160,1170)를 이용하여 윈도잉되도록, 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1152)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1162)의 윈도잉을 위한 상기 미리 정해진 비대칭 분석 윈도우(520;1160)를 적용하도록 구성되는, 오디오 신호 인코더.
  10. 제 9 항에 있어서,
    상기 오디오 신호 인코더는, 상기 오디오 콘텐츠의 상기 현재 부분(1162)이 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1152)을 뒤따르는 경우에 선택적으로 앨리어싱 소거 정보(164)를 제공하도록 구성되는, 오디오 신호 인코더.
  11. 제 1 항에 있어서,
    상기 시간-도메인-대-주파수-도메인 변환기(130; 221,222; 263,264; 283,284)는 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1352)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1362)의 윈도잉을 위한, 상기 미리 정해진 비대칭 분석 윈도우(520;1320,1330,1370)와 상이한, 전용 비대칭 전환 분석 윈도우(1360)를 적용하도록 구성되는, 오디오 신호 인코더.
  12. 제 1 항에 있어서,
    상기 코드-여기된 선형-예측-도메인 경로(CELP 경로)(140)는 대수-코드-여기된 선형-예측-도메인 모드(CELP 모드)로 인코딩되는 상기 오디오 콘텐츠의 부분에 기초하여 대수-코드-여기 정보(144) 및 선형-예측-도메인 매개변수 정보(146)를 획득하도록 구성되는 대수-코드-여기된 선형-예측-도메인 경로인, 오디오 신호 인코더.
  13. 오디오 콘텐츠의 인코딩된 표현(310)에 기초하여 상기 오디오 콘텐츠의 디코딩된 표현(312)을 제공하기 위한 오디오 신호 디코더(300)에 있어서,
    스펙트럼 계수들(322;412,442,472)의 세트 및 잡음-형상화 정보(324;414;444;474)에 기초하여 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1222,1232,1262,1272;1422,1432,1462,1472)의 시간-도메인 표현(326;416;446;476)을 획득하도록 구성되는 변환-도메인 경로(320;400;430;460) ― 상기 변환-도메인 경로는, 주파수-도메인-대-시간-도메인 변환(423;451;484) 및 윈도잉(424;452;485)을 적용하여, 상기 스펙트럼 계수들의 세트 또는 이의 사전 처리된 버전으로부터 상기 오디오 콘텐츠의 윈도잉된 시간-도메인 표현(424a;452a;485a)을 도출하도록 구성되는 주파수-도메인-대-시간-도메인 변환기(330;423,424;451,452;484,485)를 포함함 ―;
    코드-여기 정보(342) 및 선형-예측-도메인 매개변수 정보(344)에 기초하여 코드-여기된 선형-예측-도메인 모드(CELP 모드)로 인코딩되는 상기 오디오 콘텐츠의 시간-도메인 표현(346)을 획득하도록 구성되는 코드-여기된 선형-예측-도메인 경로(340)를 포함하며,
    상기 주파수-도메인-대-시간-도메인 변환기는, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1242;1442)이 상기 오디오 콘텐츠의 현재 부분(1232;1432)을 뒤따를 경우 및 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 모두에서, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1222;1422)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분의 윈도잉을 위한 미리 정해진 비대칭 합성 윈도우(620;1230;1430)를 적용하도록 구성되고,
    상기 오디오 신호 디코더(300)는, 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우에, 상기 오디오 콘텐츠의 인코딩된 표현(310)에 포함되며, 상기 오디오 콘텐츠의 다음 부분(1142;1342)의 변환-도메인 모드 표현에 의해 표현되는 앨리어싱 소거 신호 성분들을 나타내는 앨리어싱 소거 정보(362)에 기초하여 앨리어싱 소거 신호(364)를 선택적으로 제공하도록 구성되는,
    오디오 신호 디코더.
  14. 제 13 항에 있어서,
    상기 주파수-도메인-대-시간-도메인 변환기(330;423,424;451,452;484,485)는, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1242;1442)이 상기 오디오 콘텐츠의 현재 부분(1232;1432)을 뒤따를 경우 및 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 모두에서, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1222;1422)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1232;1432)의 윈도잉을 위한 동일한 윈도우(620;1230;1430)를 적용하도록 구성되는, 오디오 신호 디코더.
  15. 제 13 항에 있어서,
    상기 미리 정해진 비대칭 합성 윈도우(620;1230;1430)는 좌측 윈도우 절반 및 우측 윈도우 절반을 포함하며,
    상기 좌측 윈도우 절반은 좌측 제로 부분(622) 및 윈도우 값들이 제로에서 윈도우 중심 값으로 단조 증가하는 좌측 전환 기울기(624)를 포함하고,
    상기 우측 윈도우 절반은 윈도우 값들이 상기 윈도우 중심 값보다 크고 윈도우가 최대값(628a)을 포함하는 오버슈트 부분(628) 및, 윈도우 값들이 상기 윈도우 중심 값에서 제로로 단조 감소하는 우측 전환 기울기(630)를 포함하는, 오디오 신호 디코더.
  16. 제 15 항에 있어서,
    상기 좌측 제로 부분(622)은 상기 좌측 윈도우 절반의 윈도우 값들의 적어도 20 %의 길이를 포함하고,
    상기 우측 윈도우 절반은 제로 윈도우 값들 중 1 퍼센트 이하(no more than)를 포함하는, 오디오 신호 디코더.
  17. 제 15 항에 있어서,
    상기 미리 정해진 비대칭 합성 윈도우(620;1220,1230,1260;1420,1430,1470)의 상기 좌측 윈도우 절반의 윈도우 값들은 상기 미리 정해진 비대칭 합성 윈도우의 상기 좌측 윈도우 절반에 오버슈트 부분이 없도록 상기 윈도우 중심 값보다 작은, 오디오 신호 디코더.
  18. 제 13 항에 있어서,
    상기 미리 정해진 비대칭 합성 윈도우(620;1220,1230,1260;1420,1430,1470)의 비-제로 부분은 프레임 길이보다 적어도 10 % 짧은, 오디오 신호 디코더.
  19. 제 13 항에 있어서,
    상기 오디오 신호 디코더는 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분들(1222,1232,1262,1272;1422,1432,1462,1472)이 적어도 40 %의 시간적 중복을 포함하도록 구성되고,
    상기 오디오 신호 디코더는 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1232;1432) 및 상기 코드-여기된 선형-예측-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1242;1442)이 시간적 중복을 포함하도록 구성되며,
    상기 오디오 신호 디코더는, 상기 앨리어싱 소거 신호가 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분으로부터 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분으로의 전환 시에 앨리어싱 아티팩트들을 감소시키거나 또는 소거하도록, 선택적으로 상기 앨리어싱 소거 정보(362)에 기초하여 상기 앨리어싱 소거 신호(364)를 제공하도록 구성되는 오디오 신호 디코더.
  20. 제 13 항에 있어서,
    상기 오디오 신호 디코더는, 상기 오디오 콘텐츠의 다음 부분(1242;1442)이 상기 CELP 모드로 인코딩되더라도 상기 오디오 콘텐츠의 현재 부분(1232;1432)의 윈도잉된 표현(424a;452a;485a)이 상기 오디오 콘텐츠의 상기 다음 부분과 시간적으로 중복하도록, 상기 오디오 콘텐츠의 상기 현재 부분(1232;1432)과 시간적으로 중복하는 상기 오디오 콘텐츠의 상기 다음 부분의 인코딩을 위해 이용되는 모드와 독립적으로 상기 오디오 콘텐츠의 상기 현재 부분의 윈도잉을 위한 윈도우(1230;1430)를 선택하도록 구성되고,
    상기 오디오 신호 디코더(300)는, 상기 오디오 콘텐츠의 상기 다음 부분이 상기 CELP 모드로 인코딩된다는 검출에 응답하여, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1232;1432)으로부터 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분(1242;1442)으로의 전환 시에 앨리어싱 아티팩트들을 감소시키거나 또는 소거하기 위해 앨리어싱 소거 신호(364)를 제공하도록 구성되는, 오디오 신호 디코더.
  21. 제 13 항에 있어서,
    상기 주파수-도메인-대-시간-도메인 변환기(330;423,424;451,452;484,485)는, 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분들(1222;1232;1262;1272)이 상기 오디오 콘텐츠의 이전의 부분이 인코딩되는 모드와 독립적으로 그리고 상기 오디오 콘텐츠의 다음 부분이 인코딩되는 모드와 독립적으로 동일한 미리 정해진 비대칭 합성 윈도우(620;1220,1230,1260,1270)를 이용하여 윈도잉되도록, 그리고 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1262;1462)의 윈도잉된 시간 도메인 표현(424a;452a;485a)이 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1252;1452)과 시간적으로 중복하도록, 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 이전의 부분(1252;1452)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분의 윈도잉을 위한 상기 미리 정해진 비대칭 합성 윈도우(620;1230;1430)를 적용하도록 구성되는, 오디오 신호 디코더.
  22. 제 21 항에 있어서,
    상기 오디오 신호 디코더는, 상기 오디오 콘텐츠의 상기 현재 부분(1262)이 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분(1252)을 뒤따르는 경우에 앨리어싱 소거 정보(362)에 기초하여 선택적으로 앨리어싱 소거 신호(364)를 제공하도록 구성되는, 오디오 신호 디코더.
  23. 제 13 항에 있어서,
    상기 주파수-도메인-대-시간-도메인 변환기(330;423,424;451,452;484,485)는, 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 부분(1452)을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 현재 부분(1462)의 윈도잉을 위한, 상기 미리 정해진 비대칭 합성 윈도우(620;1230;1430)와 상이한, 전용 비대칭 전환 합성 윈도우(1460)를 적용하도록 구성되는, 오디오 신호 디코더.
  24. 제 13 항에 있어서,
    상기 코드-여기된 선형-예측-도메인 경로(340)는 대수-코드-여기 정보(342) 및 선형-예측-도메인 매개변수 정보(344)에 기초하여 대수-코드-여기된 선형-예측-도메인 모드(CELP 모드)로 인코딩되는 상기 오디오 콘텐츠의 시간-도메인 표현(346을 획득하도록 구성되는 대수-코드-여기된 선형-예측-도메인 경로인, 오디오 신호 디코더.
  25. 오디오 콘텐츠의 입력 표현에 기초하여 상기 오디오 콘텐츠의 인코딩된 표현을 제공하기 위한 방법에 있어서,
    스펙트럼 계수들이 상기 오디오 콘텐츠의 잡음-형상화된 버전의 스펙트럼을 기술하도록, 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분의 시간-도메인 표현에 기초하여 스펙트럼 계수들의 세트 및 잡음-형상화 정보를 획득하는 단계 ― 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 시간-도메인 표현 또는 이의 사전 처리된 버전은 윈도잉되고, 시간-도메인-대-주파수-도메인-변환이 상기 오디오 콘텐츠의 윈도잉된 시간-도메인 표현으로부터 스펙트럼 계수들의 세트를 도출하도록 적용됨 ―; 및
    코드-여기된 선형-예측-도메인 모드(CELP 모드)로 인코딩되는 상기 오디오 콘텐츠의 부분에 기초하여 코드-여기 정보 및 선형-예측-도메인 정보를 획득하는 단계를 포함하며,
    상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 모두에서, 미리 정해진 비대칭 분석 윈도우가 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분의 윈도잉을 위해 적용되며,
    상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 현재 부분을 뒤따를 경우에, 상기 오디오 콘텐츠의 다음 부분의 변환-도메인 모드 표현에 의해 표현되는 앨리어싱 소거 신호 성분들을 나타내는 앨리어싱 소거 정보가 선택적으로 제공되는,
    오디오 콘텐츠의 인코딩된 표현을 제공하기 위한 방법.
  26. 오디오 콘텐츠의 인코딩된 표현에 기초하여 상기 오디오 콘텐츠의 디코딩된 표현을 제공하기 위한 방법에 있어서,
    스펙트럼 계수들의 세트 및 잡음-형상화 정보에 기초하여 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 부분의 시간-도메인 표현을 획득하는 단계 ― 주파수-도메인-대-시간-도메인-변환 및 윈도잉이 상기 스펙트럼 계수들의 세트 또는 이의 사전 처리된 버전으로부터 상기 오디오 콘텐츠의 윈도잉된 시간-도메인 표현을 도출하도록 적용됨 ―; 및
    코드-여기 정보 및 선형-예측-도메인 매개변수 정보에 기초하여 코드-여기된 선형-예측-도메인 모드(CELP 모드)로 인코딩되는 상기 오디오 콘텐츠의 시간-도메인 표현을 획득하는 단계를 포함하며,
    상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 현재 부분을 뒤따를 경우 및, 상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우 모두에서, 미리 정해진 비대칭 합성 윈도우가 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 이전의 부분을 뒤따르면서 상기 변환-도메인 모드로 인코딩되는 상기 오디오 콘텐츠의 상기 현재 부분의 윈도잉을 위해 적용되고,
    상기 CELP 모드로 인코딩되는 상기 오디오 콘텐츠의 다음 부분이 상기 오디오 콘텐츠의 상기 현재 부분을 뒤따를 경우에, 상기 오디오 콘텐츠의 인코딩된 표현에 포함되며, 상기 오디오 콘텐츠의 상기 다음 부분의 변환-도메인 모드 표현에 의해 표현되는 앨리어싱 소거 신호 성분들을 나타내는 앨리어싱 소거 정보에 기초하여 앨리어싱 소거 신호가 선택적으로 제공되는,
    오디오 콘텐츠의 디코딩된 표현을 제공하기 위한 방법.
  27. 컴퓨터 상에서 실행될 때 제25항 또는 제26항에 따른 방법을 수행하기 위한 컴퓨터 프로그램을 저장하는 컴퓨터 판독가능 저장 매체.
KR1020127010336A 2009-10-20 2010-10-19 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램 KR101414305B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25345009P 2009-10-20 2009-10-20
US61/253,450 2009-10-20
PCT/EP2010/065753 WO2011048118A1 (en) 2009-10-20 2010-10-19 Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications

Publications (2)

Publication Number Publication Date
KR20120063527A KR20120063527A (ko) 2012-06-15
KR101414305B1 true KR101414305B1 (ko) 2014-07-02

Family

ID=43447915

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127010336A KR101414305B1 (ko) 2009-10-20 2010-10-19 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램

Country Status (17)

Country Link
US (1) US8630862B2 (ko)
EP (1) EP2473995B9 (ko)
JP (1) JP5243661B2 (ko)
KR (1) KR101414305B1 (ko)
CN (1) CN102859588B (ko)
AR (1) AR078702A1 (ko)
BR (3) BR112012009032B1 (ko)
CA (1) CA2778373C (ko)
ES (1) ES2533098T3 (ko)
HK (1) HK1172992A1 (ko)
MX (1) MX2012004518A (ko)
MY (1) MY162251A (ko)
PL (1) PL2473995T3 (ko)
RU (1) RU2596594C2 (ko)
TW (1) TWI435317B (ko)
WO (1) WO2011048118A1 (ko)
ZA (1) ZA201203611B (ko)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
BR122021009256B1 (pt) * 2008-07-11 2022-03-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Codificador e decodificador de áudio para estruturas de codificação de sinais de áudio amostrados
EP2311032B1 (en) * 2008-07-11 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
JP5510559B2 (ja) * 2010-12-20 2014-06-04 株式会社ニコン 音声制御装置および撮像装置
EP2550653B1 (en) 2011-02-14 2014-04-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
JP6110314B2 (ja) * 2011-02-14 2017-04-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法
BR112013020592B1 (pt) 2011-02-14 2021-06-22 Fraunhofer-Gellschaft Zur Fôrderung Der Angewandten Forschung E. V. Codec de áudio utilizando síntese de ruído durante fases inativas
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
EP3239978B1 (en) 2011-02-14 2018-12-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
CN103503061B (zh) 2011-02-14 2016-02-17 弗劳恩霍夫应用研究促进协会 在一频谱域中用以处理已解码音频信号的装置及方法
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
AR085224A1 (es) 2011-02-14 2013-09-18 Fraunhofer Ges Forschung Codec de audio utilizando sintesis de ruido durante fases inactivas
TWI484479B (zh) 2011-02-14 2015-05-11 Fraunhofer Ges Forschung 用於低延遲聯合語音及音訊編碼中之錯誤隱藏之裝置和方法
RU2647652C1 (ru) * 2011-04-21 2018-03-16 Самсунг Электроникс Ко., Лтд. Способ квантования коэффициентов кодирования с линейным предсказанием, способ кодирования звука, способ деквантования коэффициентов кодирования с линейным предсказанием, способ декодирования звука и носитель записи
JP6178304B2 (ja) * 2011-04-21 2017-08-09 サムスン エレクトロニクス カンパニー リミテッド 量子化装置
JPWO2013061584A1 (ja) * 2011-10-28 2015-04-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
CN103548080B (zh) * 2012-05-11 2017-03-08 松下电器产业株式会社 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
MX353385B (es) * 2012-06-28 2018-01-10 Fraunhofer Ges Forschung Codificación de audio basada en predicción lineal que utiliza cálculo de distribución de probabilidades mejorado.
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
RU2618848C2 (ru) 2013-01-29 2017-05-12 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для выбора одного из первого алгоритма кодирования аудио и второго алгоритма кодирования аудио
AU2014310547B2 (en) * 2013-08-23 2017-01-12 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing an audio signal using a combination in an overlap range
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN105336336B (zh) 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP3067886A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
US10146500B2 (en) * 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1278184A2 (en) * 2001-06-26 2003-01-22 Microsoft Corporation Method for coding speech and music signals

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
CN1157076C (zh) * 2001-04-19 2004-07-07 北京邮电大学 移动通信系统性能的仿真方法
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
CA2566372A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding models
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
WO2006114368A1 (de) * 2005-04-28 2006-11-02 Siemens Aktiengesellschaft Verfahren und vorrichtung zur geräuschunterdrückung
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
AU2007331763B2 (en) * 2006-12-12 2011-06-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
JP5295372B2 (ja) * 2008-09-17 2013-09-18 フランス・テレコム デジタルオーディオ信号におけるプリエコーの減衰
EP3764356A1 (en) * 2009-06-23 2021-01-13 VoiceAge Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1278184A2 (en) * 2001-06-26 2003-01-22 Microsoft Corporation Method for coding speech and music signals

Also Published As

Publication number Publication date
WO2011048118A1 (en) 2011-04-28
TWI435317B (zh) 2014-04-21
MY162251A (en) 2017-05-31
JP2013508766A (ja) 2013-03-07
RU2596594C2 (ru) 2016-09-10
MX2012004518A (es) 2012-05-29
JP5243661B2 (ja) 2013-07-24
AU2010309839A1 (en) 2012-05-17
US8630862B2 (en) 2014-01-14
RU2012118782A (ru) 2013-11-10
EP2473995B1 (en) 2014-12-17
CN102859588B (zh) 2014-09-10
BR112012009032B1 (pt) 2021-09-21
CN102859588A (zh) 2013-01-02
AR078702A1 (es) 2011-11-30
BR122020024243B1 (pt) 2022-02-01
BR112012009032A2 (pt) 2020-08-18
BR122020024236B1 (pt) 2021-09-14
ZA201203611B (en) 2013-02-27
CA2778373A1 (en) 2011-04-28
HK1172992A1 (en) 2013-05-03
EP2473995B9 (en) 2016-12-21
ES2533098T3 (es) 2015-04-07
CA2778373C (en) 2015-12-01
TW201137861A (en) 2011-11-01
PL2473995T3 (pl) 2015-06-30
EP2473995A1 (en) 2012-07-11
US20120265541A1 (en) 2012-10-18
KR20120063527A (ko) 2012-06-15

Similar Documents

Publication Publication Date Title
KR101414305B1 (ko) 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램
KR101411759B1 (ko) 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
EP3268957B1 (en) Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
KR101325335B1 (ko) 오디오 샘플 인코드 및 디코드용 오디오 인코더 및 디코더
KR101508819B1 (ko) 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩
JP5600822B2 (ja) 正弦波置換を用いた音声符号化および復号化のための装置および方法
US9047859B2 (en) Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
CN106575505B (zh) Fd/lpd转换环境中的帧丢失管理
AU2010309839B2 (en) Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications
EP3002751A1 (en) Audio encoder and decoder for encoding and decoding audio samples

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170529

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180619

Year of fee payment: 5