KR20170124590A - 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더 - Google Patents

에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더 Download PDF

Info

Publication number
KR20170124590A
KR20170124590A KR1020177028465A KR20177028465A KR20170124590A KR 20170124590 A KR20170124590 A KR 20170124590A KR 1020177028465 A KR1020177028465 A KR 1020177028465A KR 20177028465 A KR20177028465 A KR 20177028465A KR 20170124590 A KR20170124590 A KR 20170124590A
Authority
KR
South Korea
Prior art keywords
audio
gain factor
signal
current
band
Prior art date
Application number
KR1020177028465A
Other languages
English (en)
Inventor
제레미 르콩트
파비안 바우어
랄프 스페르슈나이더
아서 트리타르트
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170124590A publication Critical patent/KR20170124590A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

오디오 프레임들을 포함하는 비트스트림으로부터 오디오 신호를 생산하도록 구성되는 오디오 디코더가 제공되는데, 오디오 디코더는: 비트스트림으로부터 직접적으로 디코딩된 코어 대역 오디오 신호를 유도하도록 구성되는 코어 대역 디코딩 모듈; 코어 대역 오디오 신호로부터 그리고 비트스트림으로부터 파라미터로 디코딩된 대역폭 확장 오디오 신호를 유도하도록 구성되는 대역폭 확장 모듈, - 상기 대역폭 확장 오디오 신호는 적어도 하나의 주파수 대역을 갖는 주파수 도메인 신호를 기초로 함 -; 및 오디오 신호를 생산하기 위하여 코어 대역 오디오 신호 및 대역폭 확장 오디오 신호를 결합하도록 구성되는 결합기;를 포함하고, 대역폭 확장 모듈은 오디오 프레임 손실이 발생하는 현재 오디오 프레임 내에, 적어도 하나의 주파수 대역을 위한 현재 오디오 프레임을 위한 조정된 신호 에너지가 현재 오디오 프레임을 위한 현재 이득 인자를 기초로 하여 설정되는 것과 같이 구성되는 에너지 조정 모듈을 포함하고, 현재 이득 인자는 적어도 하나의 주파수 대역의 추정된 신호 에너지를 기초로 하여 이전 오디오 프레임으로부터 또는 비트스트림으로부터의 이득 인자로부터 유도되며, 추정된 신호 에너지는 코어 대역 오디오 신호의 현재 오디오 프레임의 스펙트럼으로부터 유도된다.

Description

에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더{AUDIO DECODER HAVING A BANDWIDTH EXTENSION MODULE WITH AN ENERGY ADJUSTING MODULE}
본 발명은 오디오 디코더 및 향상된 패킷 손실 은닉 개념을 갖는 방법에 관한 것이다.
스펙트럼 대역 복제(spectral Band Replication, SBR)는 다른 대역폭 확장 기술들 같이, 코어 코더 스테이지(core coder stage)의 상단 상의 오디오 신호들의 스펙트럼 고대역 부분들을 인코딩하고 디코딩하는 것을 의미한다. 스펙트럼 대역 복제는 [ISO09}에서 표준화되고 다양한 적용 표준들, 예를 들면 3GPP[3GP12a], DAB+[EBU10] 및 DRM[EBU12]에서 사용되는, MPEG-4 프로파일 고효율-고급 오디오 코딩(HE-AAC) 내의 고급 오디오 코딩(AAC)과 함께 사용된다.
*고급 오디오 코딩과 함께 최신 스펙트럼 대역 복제 디코딩이 [ISO09, 섹션 4.6.18]에서 설명된다.
도 1은 분석 및 합성 필터뱅크, 고주파수 발생기를 디코딩하는 스펙트럼 대역 복제 데이터 및 고주파수 조정기(HF adjuster)를 포함하는 최신 스펙트럼 대역 복제 디코더를 도시한다.
● 최신 스펙트럼 대역 복제 디코딩에서, 코어 코더의 출력은 원래 신호의 저역-통과(low-pass) 필터링된 표현이다. 이는 스펙트럼 대역 복제 디코더의 직각 대칭 필터(QMF) 분석 필터뱅크로의 입력(xpcm_in)이다.
● 이러한 필터뱅크(xQMF_ana)의 출력은 패칭(patching)이 발생하는, 고주파수 발생기로 전달된다. 패칭은 기본적으로 저-대역 스펙트럼의 고-대역들로의 복제이다.
● 패칭된 스펙트럼(xHF_patched)은 이제 스펙트럼 대역 복제 디코딩으로부터 획득되는, 고-대역들(엔벨로프들)의 스펙트럼 정보와 함께, 고주파수 조정기로 주어진다. 엔벨로프 정보는 허프만(Huffman) 디코딩될 것이고, 그리고 나서 별도로 디코딩되고 마지막으로 엔벨로프 데이터를 획득하기 위하여 탈-양자화될 것이다. 획득된 엔벨로프 데이터는 특정 시간, 예를 들면 그것의 완전한 프레임 또는 부분들을 포함하는 스케일 인자들의 세트이다. 고주파수 조정기는 모든 대역(k)을 위하여 인코더 측에서 가능한 한 원래의 고-대역 에너지들과 매칭이 가장 잘 이루어지도록 하기 위하여 패칭된 고-대역들의 에너지를 적절하게 조정한다. 방정식 1 및 도 2는 이를 분명하게 하는데:
Figure pct00001
여기서
ERef[k]는 스펙트럼 대역 복제 비트스트림 내에 인코딩된 형태로 전송되는, 하나의 대역(k)을 위한 에너지를 나타내고;
EEst[k]는 고주파수 발생기에 의해 패칭된, 하나의 고-대역(k)으로부터의 에너지를 나타내며;
EEstAvg[l]은 시작 대역(
Figure pct00002
) 및 정지 대역(
Figure pct00003
) 사이의 대역들의 범위로서 정의되는, 하나의 스케일 인자 대역(l) 내부의 평균의 고-대역 에너지를 나타내며;
Figure pct00004
EAdj[k]는 gainsbr을 사용하여, 주파수 조정기에 의해 조정되는, 하나의 고-대역(k)으로부터의 에너지를 나타내며;
gsbr[k]는 방정식 (1)에 도시된 나눗셈으로부터 얻어지는, 하나의 이득 인자를 나타낸다.
● 합성 대칭 직각 필터 필터뱅크는 처리된 대칭 직각 필터 샘플들을 디코딩한다.
xHF_adj to PCM audio
xpcm_out
만일 재구성된 스펙트럼이 원래 고-대역들에 존재였으나 고주파수 발생기에 의해 패칭된, 잡음이 부족하면, 각각이 대역(k)을 위하여 특정 잡음 플로어(noise floor, Q)와 함께 일부 부가적인 잡음을 추가하는 가능성이 존재한다.
Figure pct00005
게다가, 최신 스펙트럼 대역 복제는 특정 한계들 내에서 스펙트럼 대역 복제 프레임 경계들의 이동 및 프레임 당 다수의 엔벨로프들를 허용한다.
CELP/HVXC와 함께 스펙트럼 대역 복제 디코딩이 [EBU12, 섹션 5.6.2.2]에서 설명된다. DRM 내의 CELP/HVXC + 스펙트럼 대역 복제 디코더는 섹션 1.1.1에서 설명되는, 고효율 고급 오디오 코딩에서의 최신 스펙트럼 대역 복제 디코딩과 밀접하게 관련된다. 기본적으로, 도 1이 적용된다.
엔벨로프 정보의 디코딩은 [EBU12, 섹션 5.6.2.2.4]에서 설명되는 것과 같이, 음성(speech) 유사 신호들의 스펙트럼 특성들에 적응된다.
정규 AMR-WB 디코딩에서, 고-대역 여기(excitation)는 백색 잡음(white noise, uHB1(n))을 발생시킴으로써 획득된다. 고-대역 여기의 파워는 저대역 여기(u2(n))의 파워와 동일하게 설정되는데, 이는 다음을 의미한다:
Figure pct00006
최종적으로 고-대역 여기는 다음에 의해 발견되는데:
Figure pct00007
여기서
Figure pct00008
는 이득 인자이다.
23.85 kbit/s 모드에서,
Figure pct00009
는 수신된 이득 지수(부가 정보)로부터 디코딩된다.
6.60, 12.65, 14.25, 15.85, 18.25, 19.85 및 23.05 kbit/s 모드들에서, gHB는 [0,1,1,0]에 의해 경계를 이루는 보이싱 정보(voicing information)를 사용하여 추정된다. 우선, 합성의 기울기(tilt)가 발견되는데:
Figure pct00010
여기서
Figure pct00011
는 400㎐의 컷-오프 주파수(cutoff frequency)를 갖는 고-대역 필터링된 낮은 대역 음성 합성(
Figure pct00012
)이다. gHB이 그리고 나서 다음에 의해 발견되는데:
Figure pct00013
여기서 gSP = 1-etilt는 음성 신호를 위한 이득이고, gBG = 1.25gSP는 배경 잡음 신호를 위한 이득이며, wSP는 음성 활성 검출(voice activity detection, VAD)이 온(ON)일 때 1로 설정되고 음성 활성 검출이 오프일 때 0으로 설정되는, 가중 함수이다. 고주파수들에서 더 적은 에너지가 존재하는 보이싱된 세그먼트들의 경우에, etilt는 낮은 이득(gHB)을 야기하는 1에 접근한다. 이는 보이싱된 세그먼트들의 경우에 발생된 잡음의 에너지를 감소시킨다.
그리고 나서 고-대역 선형 예측(LP) 합성 필터(AHB(z))가 가중된 저-대역 선형 예측 합성 필터로부터 유도되는데:
Figure pct00014
여기서
Figure pct00015
는 보간된 선형 예측 합성 필터이다.
Figure pct00016
는 12.8㎑의 샘플링 레이트를 가지나 이제 16㎑ 신호를 위하여 사용되는 신호를 분석하여 계산되었다. 이는 12.8㎑ 도메인 내의 대역(5.1-5.6㎑)이 16㎑ 도메인 내의 6.4-7.0㎑에 매핑될 것을 의미한다.
uHB(n)은 그리고 나서 AHB(z)를 통하여 필터링된다. 이러한 고-대역 합성(sHB(n))의 출력은 6부터 7㎑까지의 통과-대역을 갖는, 대역-통과 유한 임펄스 응답(FIR) 필터(HHB(z))를 통하여 필터링된다. 최종적으로, sHB는 합성된 음성 신호를 생산하기 위하여 합성된 음성에 추가된다.
AMR-WB+에서 고주파수 신호는 입력 신호의 위의(fs/4) 주파수 성분들 중에서 구성된다. 낮은 레이트로 고주파수 신호를 표현하기 위하여, 대역폭 확장(BWE) 접근법이 사용된다. 대역폭 확장에서, 에너지 정보는 스펙트럼 엔벨로프 및 프레임 에너지의 형태로 디코더에 보내지나, 신호의 미세 구조는 LF 신호 내의 수신된(디코딩된) 여기 신호로부터 디코더에서 외삽된다(extrapol.ated).
다운 샘플링된 신호(sHF)의 스펙트럼은 다운 샘플링 이전에 고주파수 대역의 폴딩된(folded) 버전으로서 알 수 있다. 선형 예측 분석은 이러한 신호의 스펙트럼 엔벨로프를 모델링하는, 계수들의 세트를 획득하기 위하여 sHP(n) 상에서 실행된다. 일반적으로, 선형 예측 신호에서보다 더 적은 파라미터가 필요하다. 여기서, 순서 8의 필터가 사용된다. 선형 예측 계수들은 그리고 나서 ISP 표현으로 변환되고 전송을 위하여 양자화된다.
고주파수 신호의 합성은 일종의 대역폭 확장 메커니즘을 구현하고 선형 예측 디코더로부터 일부 데이터를 사용한다. 이는 AMR-WB 음성 디코더에서 사용되는 대역폭 학장 메커니즘의 진보이다. 고주파수 디코더가 도 3에 도시된다.
고주파수 신호들을 두 단계로 합성된다:
1. 고주파수 여기의 계산;
2. 고주파수 여기로부터 고주파수 신호들의 계산.
고주파수 여기는 64-샘플 서브프레임 기반으로 스칼라(scalar) 인자들(또는 이득들)을 갖는 시간 도메인 내의 저주파수 여기 신호를 형상화함으로써 획득된다. 이러한 고주파수 여기는 출력의 "버즈니스(buzziness)"를 감소시키도록 후처리되고, 그리고 나서 고주파수 선형 예측 합성 필터(1/AHF(z))에 의해 필터링된다. 결과는 에너지 변동을 평활화하기 위하여 더 후처리된다. 또 다른 정보를 위하여 [3GP09]가 참조된다.
고급 오디오 코딩과 함께 스펙트럼 대역 복제 내의 패킷-손실 은닉이 3GPP TS 26.402[3GP12a, 섹션 5.2]에 제시되고 그 뒤에 DRW[EBU12, 섹션 5.6.3.1] 및 DAB[EBU10, 섹션 A2]에서 재사용된다.
프레임 손실의 경우에, 프레임 당 엔벨로프들의 수는 0으로 설정되고 마지막 유효한 수신된 엔벨로프 데이터가 재사용되며 모든 은닉된 프레임을 이하여 일정한 비율에 의해 에너지가 감소된다.
결과로서 생긴 엔벨로프 데이터는 그리고 나서 고주파수 발생기 중에서 패칭된 고대역들을 조정하기 위하여 사용되는, 이득들을 계산하기 위하여 고주파수 조정기가 이를 사용하는 정상 디코딩 과정 내로 제공된다, 나머지 스펙트럼 대역 복제 디코딩은 종전과 같이 발생한다.
게다가, 코딩된 잡음 플로어 델타 값들은 델타 디코딩된 잡음 플로어를 그대로 유지하도록 하는, 0으로 설정한다. 디코딩 과정의 끝에서, 이는 잡음 플로어의 에너지가 고주파수 신호의 에너지를 따르는 것을 의미한다.
게다가, 사인(sine)들을 추가하기 위한 플래그(flag)들이 정리된다(cleared).
최신 스펙트럼 대역 복제 은닉은 또한 복원에 주의한다. 이는 미스매칭된 프레임 경계들로부터 야기할 수 있는 에너지 갭(energy gap)들과 관련하여 은닉된 신호로부터 정확하게 디코딩된 신호로의 평활한 전이를 위하여 수행한다.
CELP/HVXC와 함께 최신 스펙트럼 대역 복제 은닉이 [EBU12, 섹션 5.6.3.2]에서 설명되고, 아래에 간단하게 설명된다:
훼손된 프레임이 검출될 때마다, 미리 결정된 데이터 값들의 세트가 스펙트럼 대역 복제 디코더에 적용된다. 이는 "높은 주파수들을 향하여 롤-오프(roll-off)를 나타내는, 낮은 상대적 재생 레벨에서 고정된 고대역 스펙트럼 엔벨로프"를 생산한다. 여기서, 스펙트럼 대역 복제 은닉은 스펙트럼 대역 복제 도메인 내의 어떠한 전용 페이딩(fading)을 갖지 않는, 어느 정도의 안정 잡음(comfort noise)을 삽입한다. 이는 청취자의 귀를 잠재적으로 시끄러운 오디오 파열로부터 방지하고 일정한 대역폭의 인상을 유지시킨다.
G.718의 최신 대역폭 확장의 은닉이 [ITU08, 7.11.1.7.1]에서 설명되고 아래에 간단하게 설명된다.
계층 1 및 2를 위하여 독점적으로 이용 가능한, 저지연 모드에서, 고주파수 대역(6000-7000㎐)의 은닉이 어떠한 프레임 삭제도 발생하지 않을 때와 동일한 방법으로 정확하게 실행된다. 계층 1, 2, 및 3을 위한 클린-채널(clean-channel) 디코더 운영은 다음과 같다: 블라인드(blind) 대역폭 확장이 적용된다. 6400-7000㎐ 범위 내의 스펙트럼이 여기 도메인 내에 적절하게 스케일링된, 백색 잡음 신호로 채워진다(고대역의 에너지는 반드시 저대역 에너지를 매칭하여야만 한다). 그리고 나서 이는 12.8㎑ 도메인에서 사용되는 것과 동일한 선형 예측 합성 필터로부터의 가중에 의해 유도되는 필터와 합성된다. 계층 4 및 5를 위하여 어떠한 대역폭 확장도 실행되지 않는데, 그 이유는 그러한 계층들은 8㎑까지 완전한 대역을 포함하기 때문이다.
디폴트 운영에서 16㎑ 샘플링 주파수에서 합성된 신호의 고주파수 대역을 재구성하기 위하여 낮은 복잡도 처리가 실행된다. 우선, 스케일링된 고주파수 대역 여기(u'HB(n))가 다음과 같이 프레임을 통하여 선형으로 감쇠되는데:
Figure pct00017
여기서 프레임 길이는 320 샘플이고 gatt(n)은 다음과 같이 주어지는 감쇠 인자이다:
Figure pct00018
위의 방정식에서,
Figure pct00019
은 평균 피치 이득이다. 이는 적응 코드북의 은닉 동안에 사용된 것과 동일한 이득이다. 그리고 나서, 대역-통과 필터의 메모리가 gatt(n)을 사용하여 감쇠된다. 최종적으로, 고주파수 여기 신호(u'''(n))가 합성 필터를 통하여 필터링된다. 합성된 신호는 그리고 나서 16㎑ 샘플링 주파수에서 은닉된 합성에 더해진다.
AMR-WB에서의 최신 블라인드 대역폭 학장의 은닉이 [3GP12b, 6.2.4]에서 설명되고 여기에 간단하게 요약된다:
프레임이 손실되거나 또는 부분적으로 손실될 때, 고대역 이득 파라미터는 수신되지 않고 대신에 고대역 이들을 위한 추정이 사용된다. 이는 불량/손실 음성 프레임들의 경우에, 고대역 재구성이 서로 다른 모든 모드를 위하여 동일한 방법으로 운영하는 것을 의미한다.
프레임이 손실된 경우에, 고대역 선형 예측 합성 필터는 코어 대역으로부터의 선형 예측 코딩(LPC) 계수들로부터 평소와 같이 유도된다. 유일한 예외는 선형 예측 코딩 계수들이 비트스트림으로부터 디코딩되지 않았고 정규 AMR-WB 은닉 접근법을 사용하여 외삽되었다는 사실이다. AMR-WB+에서의 최신 대역폭 학장의 은닉이 [3GP09, 6.2]에서 설명되고 여기에 간단하게 요약된다:
패킷 손실의 경우에, 고주파수 디코더 내부에 존재하는 제어 데이터가 불량 프레임 표시기 벡터(BFI = (bfi0, bfi1, bfi2, bfi3)로부터 발생된다. 이러한 데이터들은
Figure pct00020
, BFIGAIN, 및 ISF 보간을 위한 서브프레임들의 수이다. 이러한 데이터의 본질이 아래에 더 상세히 정의된다:
Figure pct00021
은 이미턴스 스펙트럼 주파수(immittance spectral frequency, ISF) 파라미터들의 손실을 나타내는 이진 플래그이다. 고주파수 신호를 위한 이미턴스 스펙트럼 주파수 파라미터들이 HF20, 40, 또는 80인 제 1 패킷(제 1 서브프레임을 포함하는) 내에 항상 전송되기 때문에, 손실 플래그는 항상 제 1 서브프레임(bfi0)의 bfi 표시기로 설정된다. 손실된 고주파수 이득들의 표시를 위해서도 마찬가지이다. 만일 현재 모드의 제 1 패킷/서브프레임이 손실되면(HF20, 40, 도는 80) 이득은 손실되고 은닉될 필요가 있다.
고주파수 이미턴스 스펙트럼 주파수 벡터들의 은닉은 코더 이미턴스 스펙트럼 주파수들을 위한 이미턴스 스펙트럼 주파수 은닉과 매우 유사하다. 주 개념은 마지막 뛰어난 이미턴스 스펙트럼 주파수 벡터를 재사용하나, 이를 평균 이미턴스 스펙트럼 주파수 벡터(평균 이미턴스 스펙트럼 주파수 벡터는 오프라인에서 연마된다(trained))를 향하여 이동하는 것이다:
Figure pct00022
대역폭 확장 이득들(
Figure pct00023
)은 다음의 소스 코드에 따라 추정된다(코드에서:
Figure pct00024
; 2.807458은 디코더 상수이다):
Figure pct00025
"fs/4에서의 크기를 매칭하기 위한 이득들"을 유도하기 위하여, 클린 채널 디코딩에서와 동일한 알고리즘이 실행되나, 고주파수 및/또는 저주파수 부분을 위한 이미턴스 스펙트럼 주파수들이 이미 은닉될 수 있다는 예외를 갖는다. 선형 dB 보간, 요약 및 이득들의 적용 같은 뒤따르는 모든 단계는 클린 채널 경우와 동일하다.
여기를 유도하기 위하여, 아래와 같은 경우 이후에 저대역 여기가 사용되는 정확하게 수신된 프레임에서와 동일한 과정이 적용된다:
● 무작위적이었다(randomized)
● 서브프레임 이득들을 갖는 시간 도메인 내에서 증폭되었다
● 선형 예측 필터를 갖는 주파수 도메인 내에서 형상화되었다
● 에너지는 시간이 지남에 따라 평활되었다.
그리고 나서 도 3에 따라 합성이 실행된다.
AES(Audio Engineering Society) 총회 논문 6789(Scheineder, Krauss 및 Ehret) [SKE06]는 마지막 유효한 스펙트럼 대역 복제 엔벨로프 데이터를 재사용하는 은닉 기술을 설명한다. 만일 하나 이상의 스펙트럼 대역 복제 프레임이 손실되면, 페이드아웃(fadeout)이 적용된다. "기본 원리는 스펙트럼 대역 복제 처리가 새로 전송된 데이터로 지속될 수 있을 때까지 간단하게 마지막 알려진 유효한 스펙트럼 대역 복제 프레임 값들을 잠그는 것이다. 게다가, 만일 하나 이상의 스펙트럼 대역 복제 프레임이 디코딩될 수 없으면 페이드-아웃이 실행된다".
AES 총회 논문 6962(Sang-Uk Ryu 및 Kenneth Rose) [RR06]는 이전 및 그 다음 프레임으로부터의 스펙트럼 대역 복제 데이터를 사용하여, 파라미터 정보를 추정하는 은닉 기술을 설명한다. 고대역 엔벨로프들은 주변 프레임들 내의 에너지 진화로부터 적응적으로 추정된다.
패킷 손실 은닉 개념들은 패킷 손실 동안에 지각적으로 저하된 오디오 신호를 생산할 수 있다.
본 발명의 목적은 오디오 디코더 및 향상된 패킷 손실 은닉 개념을 갖는 방법을 제공하는 것이다.
본 발명의 목적은 오디오 프레임들을 포함하는 비트스트림으로부터 오디오 신호를 생산하도록 구성되는 오디오 디코더에 의해 달성되는데, 오디오 디코더는:
비트스트림으로부터 직접적으로 디코딩된 코어 대역 오디오 신호를 유도하도록 구성되는 코어 대역 디코딩 모듈;
코어 대역 오디오 신호로부터 그리고 비트스트림으로부터 파라미터로 디코딩된 대역폭 확장 오디오 신호를 유도하도록 구성되는 대역폭 확장 모듈, - 상기 대역폭 확장 오디오 신호는 적어도 하나의 주파수 대역을 갖는 주파수 도메인 신호를 기초로 함 -; 및
오디오 신호를 생산하기 위하여 코어 대역 오디오 신호 및 대역폭 확장 오디오 신호를 결합하도록 구성되는 결합기(combiner);를 포함하고,
대역폭 확장 모듈은 오디오 프레임 손실이 발생하는 현재 오디오 프레임 내에, 적어도 하나의 주파수 대역을 위한 현재 오디오 프레임을 위한 조정된 신호 에너지가 현재 오디오 프레임을 위한 현재 이득 인자를 기초로 하여 설정되는 것과 같이 구성되는 에너지 조정 모듈을 포함하고,
현재 이득 인자는 적어도 하나의 주파수 대역의 추정된 신호 에너지를 기초로 하여 이전 오디오 프레임으로부터의 이득 인자로부터 유도되며,
추정된 신호 에너지는 코어 대역 오디오 신호의 현재 오디오 프레임의 스펙트럼으로부터 유도된다.
본 발명에 따른 오디오 디코더는 에너지와 관련하여 대역폭 확장 모듈을 코어 대역 디코딩 모듈에 연결하거나, 또는 바꾸어 말하면, 대역폭 확장 모듈이 코어 대역 디코딩 모듈이 무엇을 수행하더라도, 은닉 동안에 코어 대역 디코딩 모듈 에너지-방식을 따르는 것을 보장한다.
이러한 접근법의 혁신은 은닉 경우에 있어서, 고대역 발생이 더 이상 엔벨로프 에너지들에 엄격하게 적응되지 않는다는 것이다. 이득 고정(gain locking)의 기술로, 고대역 에너지들은 은닉 동안에 저대역 에너지들에 적응되고 따라서 더 이상 마지막 뛰어난 프레임 내에 전송된 데이터에만 의존하지 않는다. 이러한 진행은 고대역 재구성을 위하여 저대역 정보를 사용하는 발상을 받아들인다.
이러한 접근법으로, 어떠한 부가적인 데이터(예를 들면, 페이드아웃 인자)도 코어 코더로부터 대역폭 확장 코더로 전달될 필요가 없다. 이는 본 기술이 대역폭 확장을 갖는 어떠한 코더에도, 특히 이득 계산이 본질적으로 이미 실행된(방정식 1), 스펙트럼 대역 복제에 쉽게 적용 가능하도록 한다.
본 발명의 오디오 디코더의 은닉은 코어 대역 디코딩 모듈의 페이딩 슬로프(fading slope)를 고려한다. 이는 전체로서 의도된 페이드아웃의 행동에 이르게 한다.
코어 대역 디코딩 모듈의 주파수 대역들의 에너지들이 지각적이 될 수 있고 매력 없는 인상을 야기할 수 있는, 대역 제한된 신호의 대역폭 확장 모듈의 주파수 대역들의 에너지들보다 느리게 페이드아웃하는 상황들이 방지된다.
게다가, 코어 대역 디코딩 모듈의 주파수 대역들의 에너지들이 코어 대역 디코딩 모듈의 주파수 대역들과 비교하여, 대역폭 확장 모듈의 주파수 대역들이 너무 많이 증폭되기 때문에 아티팩트들을 야기할 수 있는, 대역폭 확장 모듈의 주파수 대역들의 에너지들보다 빠르게 페이드아웃하는 상황들이 또한 방지된다.
비-페이딩과는 대조적으로 특정 신호의 스펙트럼 경사만을 보존하는, 미리 정의된 에너지 레벨들(예를 들면 CELP/HVXC+SBR 디코더에서와 같이)을 갖는 대역폭 확장을 갖는 디코더는 신호들의 스펙트럼 특성과 관계없이 본 발명의 오디오 디코더를 작동하고, 따라서 지각적으로 디코딩된 오디오 신호의 감쇠가 방지된다.
제안된 기술은 코어 대역 디코딩 모듈(아래에서의 코어 코더)의 상단 상에서 어떠한 대역폭 확장 방법과 함께 사용될 수 있다. 대부분의 대역폭 확장 기술은 원래 에너지 레벨들 및 코어 스펙트럼의 복사 후에 획득되는 에너지 레벨들 사이의 대역 당 이득을 기초로 한다. 제안된 기술은 최신 기술에서와 같이, 이전 오디오 프레임의 에너지들 상에서 작동하지 않으나, 이전 오디오 프레임의 이득들 상에서 작동한다.
오디오 프레임이 손실되거나 또는 판독될 수 없을 때(또는 바꾸어 말하면, 만일 오디오 프레임 손실이 발생하면) 마지막 뛰어난 프레임으로부터의 이득들은 대역폭 확장 모듈의 주파수 대역들의 에너지들을 조정하는, 코어 대역 디코딩 모듈의 정상 디코딩 과정 내로 제공된다(방정식 1 참조). 이는 은닉을 형성한다. 코더 대역 디코딩 모듈 은닉에 의해 코어 대역 디코딩 모듈 상에 적용되는 어떠한 페이드아웃은 저대역과 고대역 사이의 에너지 비율을 잠금으로써 대역폭 확장 모듈의 주파수 대역들의 주파수들에 자동으로 적용될 것이다.
적어도 하나의 주파수 대역을 갖는 주파수 도메인 신호는 예를 들면, 대수 코드-여기된 선형 예측 여기 신호(ACELP 여기 신호)일 수 있다.
일부 실시 예들에서, 대역폭 확장 모듈은 적어도 오디오 프레임 손실이 에너지 조정 모듈에 발생하는 현재 오디오 프레임 내의 현재 이득 인자를 전달하도록 구성되는 이득 인자 제공 모듈(gain factor providing module)를 포함한다.
바람직한 실시 예에서 이득 인자 제공 모듈은 오디오 프레임 손실이 발생하는 현재 오디오 프레임 내에서 현재 이득 인자는 이전 오디오 프레임의 이득 인자인 것과 같은 방법으로 구성된다. 이러한 실시 예는 단지 마지막 뛰어남 프레임 내의 마지막 엔벨로프를 위하여 유도되는 이득을 잠금으로써 대역폭 확장 디코딩 모듈 내에 포함된 페이드아웃을 완전히 블활성화하는데:
Figure pct00026
여기서 EAdj[k]는 가능한 한 뛰어나게 원래 에너지 분포를 표현하도록 조정된, 대역폭 확장 모듈의 하나의 주파수 대역(k)으로부터의 에너지를 나타내고;
Figure pct00027
는 현재 프레임의 이득 인자를 나타내며;
Figure pct00028
은 이전 프레임의 이득 인자를 나타낸다.
*다른 바람직한 실시 예에서 이득 인자 제공 모듈은 프레임 손실이 발생하는 현재 오디오 프레임 내에서 현재 이득 인자가 이전 오디오 프레임의 이득 인자로부터 그리고 이전 오디오 프레임의 신호 클래스(signal class)로부터 계산되는 것과 방법으로 구성된다.
이러한 실시 예는 과거 이득들을 기초로 하여 그리고 이전에 수신된 프레임의 신호 클래스 상에 적응적으로 이득들을 계산하기 위한 신호 분류기(signal classifier)를 사용하는데:
Figure pct00029
여기서
Figure pct00030
는 이전 오디오 프레임 이득 인자(
Figure pct00031
) 및 이전 오디오 프레임의 신호 클래스(
Figure pct00032
)에 의존하는, 함수를 나타낸다. 신호 클래스들은 장애음(obstruent, 파열음(stop), 파찰음(affricative), 마찰음(fricative)의 하위 클래스들 갖는), 공명음(sonorant, 하위 클래스들: 비음(nasal), 플랩 접근음(flap approximant), 모음(vowel)), 설측음(lateral), 전동음(trill)과 같은 언어음(speech sound)의 클래스들을 언급할 수 있다.
바람직한 실시 예에서 이득 인자 제공 모듈은 오디오 프레임 손실이 발생하는 뒤따르는 오디오 프레임들의 수를 계산하도록 구성되고 오디오 프레임 손실이 발생하는 뒤따르는 오디오 프레임들의 수가 미리 정의된 수를 초과하는 경우에 이득 인자 저하(lowering) 과정을 실행하도록 구성된다.
만일 마찰음이 상당한 프레임 손실(뒤따르는 오디오 프레임들 내의 다수의 프레임 손실) 바로 전에 발생하면, 코어 대역 디코딩 모듈의 고유의 디폴트 페이드아웃은 너무 느릴 수 있고 다라서 이득 고정과 조합하여 편안하고 자연스런 음향을 장담할 수 없다. 이러한 문제의 지각된 결과는 대역폭 확장 모듈의 주파수 대역들 내에 너무 많은 에너지를 갖는 장시간의 마찰음일 수 있다. 이러한 이유 때문에 다수의 프레임 손실을 위한 검사가 실행될 수 있다. 만일 이러한 검사가 양의 값이면 이득 인자 저하 과정이 실행될 수 있다.
바람직한 실시 예에서 이득 인자 저하 과정은 현재 이득 인자가 제 1 임계를 초과하는 경우에 현재 이득 인자를 제 1 수치로 나눔으로써 현재 이득 인자를 낮추는 단계를 포함한다. 이러한 특징들에 의해 제 1 임계(경험적으로 결정될 수 있는)를 초과하는 이득들은 낮아진다.
바람직한 실시 예에서 이득 인자 저하 과정은 현재 이득 인자가 제 1 임계보다 큰 제 2 임계를 초과하는 경우에 현재 이득 인자를 제 1 수치보다 큰 제 2 수치로 나눔으로써 낮추는 단계를 포함한다. 이러한 특징들은 가장 높은 이득들도 심지어 빠르게 감소하는 것을 보장한다. 제 2 임계를 초과하는 모든 이득은 빠르게 감소될 것이다.
일부 실시 예들에서 이득 인자 저하 과정은 저하 이후의 현재 임계가 제 1 임계 아래인 경우에 현재 이득 인자를 제 1 임계로 설정하는 단계를 포함한다. 이러한 특징들에 의해 감소된 이득들은 제 1 임계 아래로 떨어지는 것이 방지된다.
일례가 슈도 코드 1 내에서 알 수 있는데:
Figure pct00033
여기서 previousFrameErrorFlag는 다수의 프레임 손실이 존재하는지를 나타내는, 플래그이고, BWE_GAINDEC는 제 1 임계를 나타내며, 50*BWE_GAINDEC는 제 2 임계를 나타내며 gain[k]는 주파수 대역(k)을 위한 현재 이득 인자를 나타낸다.
일부 실시 예들에서, 대역폭 확장 모듈은 적어도 하나의 주파수 대역에 잡음을 가산하도록 구성되는 잡음 발생기 모듈을 포함하고, 현재 오디오 프레임의 잡음 에너지를 계산하기 위하여 오디오 프레임 손실이 발생하는 현재 오디오 프레임 내에서 이전 오디오 프레임의 적어도 하나의 주파수 대역의 잡음 에너지에 대한 신호 에너지의 비율이 사용된다.
대역폭 확장에서 구현되는 잡음 플로어 특징(즉, 원래 신호의 잡음을 유지하기 위한 부가적인 잡음 성분들)이 존재하는 경우에, 또한 잡음 플로어를 향한 이득 고정의 개념을 적응시키는 것이 필요하다. 이를 달성하기 위하여, 은닉되지 않은 프레임들의 잡음 플로어 에너지 레벨들은 대역폭 확장 모듈의 주파수 대역들의 에너지를 고려하는, 잡음 비율로 전환된다. 비율은 버퍼로 저장되고 은닉 경우에 잡음 레벨을 위한 기초일 수 있다. 주요 장점은 비율(prev_noise[k])의 계산에 기인하여 잡음 플로어의 코어 코더 에너지로의 더 나은 결합이다.
슈도 코드 2는 아래를 나타내는데:
Figure pct00034
여기서 frameErrorFlag는 프에임 손실이 존재하는지를 나타내는 플래그이고 prev_noise[k]는 주파수 대역(k)의 에너지(nrHighband[k]) 및 주파수 대역(k)의 잡음 레벨(noiseLevel[k]) 사이의 비율이다.
바람직한 실시 예에서 오디오 디코더는 코어 대역 오디오 신호의 현재 오디오 프레임의 스펙트럼을 설정하고 코어 대역 오디오 신호의 현재 오디오 프레임의 스펙트럼으로부터 적어도 하나의 주파수 대역을 위한 현재 프레임을 위하여 추정된 신호 에너지를 유도하도록 구성되는 스펙트럼 분석 모듈을 포함한다.
일부 실시 예들에서 이득 인자 제공 모듈은 오디오 프레임 손실이 발생하지 않는, 현재 오디오 프레임이 그 뒤에 오디오 프레임 손실이 발생하는, 이전 오디오 프레임 상에서 뒤따르는 경우에, 만일 코어 대역 디코딩 모듈의 오디오 프레임들과 관련하여 대역폭 확장 모듈의 오디오 프레임들 사이의 지연이 지연 임계보다 작으면, 현재 오디오 프레임을 위하여 수신된 이득 인자가 현재 프레임을 위하여 사용되고, 반면에 만일 코어 대역 디코딩 모듈의 오디오 프레임들과 관련하여 대역폭 확장 모듈의 오디오 프레임들 사이의 지연이 지연 임계보다 크면, 이전 오디오 프레임으로부터의 이득 인자는 현재 프레임을 위하여 사용되는 것과 같은 방법으로 구성된다.
은닉의 상단 상에서, 대역폭 확장 모듈에서 프레이밍(framing)에 특별한 주의가 필요하다. 대역폭 확장 모듈의 오디오 프레임들 및 코어 대역 디코딩 모듈의 오디오 프레임들은 때때로 정확하게 정렬되지 않으나 특정 지연을 가질 수 있다. 따라서 하나의 손실된 패킷이 동일한 패킷 내에 포함된 코어 신호에 대하여 지연되는 대역폭 확장 데이터를 포함하는 경우가 발생할 수 있다.
이러한 경우에 결과는 이미 디코더 내에 은닉된, 이전 코어 대역 디코딩 모듈 오디오 프레임의 대역폭 확장 모듈의 주파수 대역들의 부분들을 생성하기 위하여 손실 이후 첫 번째 뛰어난 패킷이 확장 데이터를 포함할 수 있다는 것이다.
이러한 이유 대문에, 프레이밍이 코어 대역 디코딩 모듈 및 대역폭 확장 모듈의 각각의 특성들에 의존하여, 복원 동안에 고려될 필요가 있다. 이는 오류로서 대역폭 확장 모듈 내의 제 1 오디오 프레임 또는 그것의 부분들을 처리하고 가장 최근의 이득들을 즉시 적용하지 않고 하나의 부가적인 프레임을 위한 제 1 오디오 프레임으로부터 잠긴 이득들을 유지하는 것을 의미할 수 있다.
제 1 뛰어난 프레임을 위한 잠긴 이득들을 유지할지 유지하지 않을지는 지연에 의존한다. 서로 다른 지연들을 갖는 코덱들에 대한 실험적 적용은 서로 다른 지연들을 갖는 코덱들에 대하여 서로 다른 장점을 갖는다. 상당히 작은 지연들(예를 들면 1ms)을 갖는 코덱들을 위하여, 제 1 뛰어난 오디오 프레임을 위하여 가장 최근의 이득들을 사용하는 것이 더 낫다.
바람직한 실시 예에서 대역폭 확장 모듈은 코어 대역 오디오 신호 및 비트스트림을 기초로 하여, 에너지 조정 모듈에 전달되는, 적어도 하나의 주파수 대역을 갖는 원시(raw) 주파수 도메인 신호 생성하도록 구성되는 신호 발생기 모듈을 포함한다.
바람직한 실시 예에서 대역폭 확장 모듈은 주파수 도메인 신호로부터 대역폭 확장 오디오 신호를 생산하도록 구성되는 신호 합성 모듈을 포함한다.
본 발명의 목적은 오디오 프레임들을 포함하는 비트스트림으로부터 오디오 신호를 생산하기 위한 방법에 의해 달성될 수 있다. 방법은:
비트스트림으로부터 직접적으로 디코딩된 코어 대역 오디오 신호를 유도하는 단계;
코어 대역 오디오 신호 및 비트스트림으로부터 파라미터로 디코딩된 대역폭 확장 오디오 신호를 유도하는 단계, - 상기 대역폭 확장 오디오 신호는 적어도 하나의 주파수 대역을 갖는 주파수 도메인 신호를 기초로 함 -; 및
오디오 신호를 생산하기 위하여 코어 대역 오디오 신호 및 대역폭 확장 오디오 신호를 결합하는 단계;를 포함하고,
오디오 프레임 손실이 발생하는 현재 오디오 프레임 내에서, 적어도 하나의 주파수 대역을 위한 현재 오디오 프레임을 위하여 조정된 신호 에너지는 현재 오디오 프레임을 위한 현재 이득 인자를 기초로 하여 설정되고,
, 현재 이득 인자는 적어도 하나의 주파수 대역을 위한 추정된 신호 에너지를 기초로 하여 이전 오디오 프레임 또는 비트스트림으로부터 이득 인자로부터 유도되며,
추정된 신호 에너지는 코어 대역 오디오 신호의 현재 오디오 프레임의 스펙트럼으로부터 유도된다.
본 발명의 목적은 또한 컴퓨터 또는 프로세서 상에서 구동할 때, 위에 설명된 방법을 실행하기 위한 컴퓨터 프로그램에 의해 달성될 수 있다.
본 발명의 바람직한 실시 예들이 첨부된 도면들을 참조하여 그 뒤에 설명된다.
도 1은 분석 및 합성 필터뱅크, 고주파수 발생기를 디코딩하는 스펙트럼 대역 복제 데이터 및 고주파수 조정기를 포함하는 최신 스펙트럼 대역 복제 디코더를 도시한다.
도 2는 스펙트럼 대역 복제 디코딩을 도시한다.
도 3은 고주파수 디코더를 도시한다.
도 4는 본 발명에 따른 오디오 디코더의 일 실시 예를 개략적으로 도시한다.
도 5는 본 발명에 따른 오디오 디코더의 일 실시 예의 프레이밍을 도시한다.
도 4는 본 발명에 따른 오디오 디코더(1)의 일 실시 예를 개략적으로 도시한다. 오디오 디코더(1)는 오디오 프레임들(AF)을 포함하는 비트스트림(BS)으로부터 오디오 신호(AS)를 생산하도록 구성된다. 오디오 디코더(1)는:
비트스트림(BS)으로부터 디코딩된 코어 대역 오디오 신호(CBS)를 직접적으로 유도하도록 구성되는 코어 대역 디코딩 모듈;
코어 대역 오디오 신호(BES) 및 비트스트림(BS)으로부터 파라미터로 디코딩된 대역폭 확장 오디오 신호(BES)를 유도하도록 구성되는 대역폭 확장 모듈(2), - ㅅ상기 대역폭 확장 오디오 신호(BES)는 적어도 하나의 주파수 대역을 갖는 주파수 도메인 신호(FDS)를 기초로 함 -; 및
오디오 신호(AS)를 생산하기 위하여 코어 대역 오디오 신호(CBS) 및 대역폭 확장 오디오 신호(BES)를 결합하도록 구성되는 결합기(4);를 포함하고,
대역폭 확장 모듈(3)은 오디오 프레임 손실(AFL)이 발생하는 현재 오디오 프레임 내에서, 적어도 하나의 주파수 대역(FB)을 위한 현재 오디오 프레임(AF2)을 위하여 조정된 신호 에너지가 현재 오디오 프레임(AF2)을 위한 현재 이득 인자(CGF)를 기초로 하여 설정되는 것과 같은 방법으로 구성되는 에너지 조정 모듈(5)을 포함하고,
현재 이득 인자(CGF)는 적어도 하나의 주파수 대역(FB)을 위한 추정된 신호 에너지(EE)를 기초로 하여 이전 오디오 프레임(AF1)으로부터의 이득 인자로부터 유도되며
코어 대역 오디오 신호(CBS)의 현재 오디오 프레임(AF2)의 추정된 신호 에너지(EE)는 스펙트럼으로부터 유도된다.
본 발명에 따른 오디오 디코더(1)는 에너지와 관련하여, 또는 바꾸어 말하면 대역폭 확장 모듈(3)이 무엇을 하더라도, 코어 대역 디코딩 모듈(2)이 은닉 동안에 에너지 방식으로 코어 대역 디코딩 모듈(2)을 따르는 것을 보장하도록 대역폭 확장 모듈(3)을 코어 대역 디코딩 모듈에 연결한다.
본 접근법이 갖는 혁신은 은닉 경우에 있어서, 고대역 발생이 더 이상 엔벨로프 에너지들에 엄격하게 적응되지 않는다는 것이다. 이득 고정의 기술로, 고대역 에너지들은 은닉 동안에 저대역 에너지들에 적응되고 따라서 더 이상 마지막 뛰어난 프레임(AF1) 내에 전송된 데이터에만 의존하지 않는다. 이러한 진행은 고대역 재구성을 위하여 저대역 정보를 사용하는 발상을 받아들인다.
이러한 접근법으로, 어떠한 부가적인 데이터(예를 들면, 페이드아웃 인자)도 코어 코더(2)로부터 대역폭 확장 코더(3)로 전달될 필요가 없다. 이는 본 기술이 대역폭 확장을(3) 갖는 어떠한 코더(1)에도, 특히 이득 계산이 본질적으로 이미 실행된(방정식 1), 스펙트럼 대역 복제에 쉽게 적용 가능하도록 한다.
*본 발명의 오디오 디코더(1)의 은닉은 코어 대역 디코딩 모듈(2)의 페이딩 슬로프를 고려한다. 이는 전체로서 의도된 페이드아웃의 행동에 이르게 한다.
코어 대역 디코딩 모듈(2)의 주파수 대역들(FB)의 에너지들이 지각적이 될 수 있고 매력 없는 인상을 야기할 수 있는, 대역 제한된 신호의 대역폭 확장 모듈(3)의 주파수 대역들(FB)의 에너지들보다 느리게 페이드아웃하는 상황들이 방지된다.
게다가, 코어 대역 디코딩 모듈(2)의 주파수 대역들(FB)의 에너지들이 코어 대역 디코딩 모듈(2)의 주파수 대역들(FB)과 비교하여, 대역폭 확장 모듈(3)의 주파수 대역들(FB)이 너무 많이 증폭되기 때문에 아티팩트들을 야기할 수 있는, 대역폭 확장 모듈(3)의 주파수 대역들(FB)의 에너지들보다 빠르게 페이드아웃하는 상황들이 또한 방지된다.
비-페이딩과는 대조적으로 특정 신호의 스펙트럼 경사만을 보존하는, 미리 정의된 에너지 레벨들(예를 들면 CELP/HVXC+SBR 디코더에서와 같이)을 갖는 대역폭 확장을 갖는 디코더는 신호들의 스펙트럼 특성과 관계없이 본 발명의 오디오 디코더(1)를 작동하고, 따라서 지각적으로 디코딩되는 오디오 신호(AS)의 감쇠가 방지된다.
제안된 기술은 코어 대역 디코딩 모듈(2, 아래에서의 코어 코더)의 상단 상에서 어떠한 대역폭 확장 방법(BWE)과 함께 사용될 수 있다. 대부분의 대역폭 확장 기술은 원래 에너지 레벨들 및 코어 스펙트럼의 복사 후에 획득되는 에너지 레벨들 사이의 대역 당 이득을 기초로 한다. 제안된 기술은 이전 오디오 프레임의 에너지들 상에서 작동하지 않으나, 최신 기술에서와 같이, 이전 오디오 프레임(AF1)의 이득들 상에서 작동한다.
오디오 프레임(AF2)이 손실되거나 또는 판독될 수 없을 때(또는 바꾸어 말하면, 만일 오디오 프레임 손실(AFL)이 발생하면) 마지막 뛰어난 프레임으로부터의 이득들은 대역폭 확장 모듈(3)의 주파수 대역들(FB)의 에너지들을 조정하는, 코어 대역 디코딩 모듈(2)의 정상 디코딩 과정 내로 제공된다(방정식 1 참조). 이는 은닉을 형성한다. 코더 대역 디코딩 모듈 은닉에 의해 코어 대역 디코딩 모듈(2) 상에 적용되는 어떠한 페이드아웃은 저대역과 고대역 사이의 에너지 비율을 잠금으로써 대역폭 확장 모듈(3)의 주파수 대역들(FB)의 주파수들에 자동으로 적용될 것이다.
일부 실시 예들에서, 대역폭 확장 모듈(3)은 적어도 오디오 프레임 손실(AFL)이 에너지 조정 모듈(5)에 발생하는 현재 오디오 프레임(AF2) 내에 현재 이득 인자(CGF)를 전달하도록 구성되는 이득 인자 제공 모듈(6)을 포함한다.
바람직한 실시 예에서 이득 인자 제공 모듈(6)은 오디오 프레임 손실(AFL)이 발생하는 현재 오디오 프레임(AF2) 내에서 현재 이득 인자(CGF)가 이전 오디오 프레임(AF1)의 이득 인자인 것과 같은 방법으로 구성된다.
다른 바람직한 실시 예에서 이득 인자 제공 모듈(6)은 프레임 손실(AFL)이 발생하는 현재 오디오 프레임(AF2) 내에서 현재 이득 인자(CGF)가 이전 오디오 프레임의 이득 인자로부터 그리고 이전 오디오 프레임의 신호 클래스로부터 계산되는 것과 방법으로 구성된다.
이러한 실시 예는 과거 이득들을 기초로 하여 그리고 이전에 수신된 프레임(AF1)의 신호 클래스 상에 적응적으로 이득들을 계산하기 위한 신호 분류기를 사용한다. 신호 클래스들은 장애음(파열음, 파찰음, 마찰음의 하위 클래스들 갖는), 공명음(하위 클래스들: 비음, 플랩 접근음, 모음), 설측음, 전동음과 같은 언어음의 클래스들을 언급할 수 있다.
*바람직한 실시 예에서 이득 인자 제공 모듈(6)은 오디오 프레임 손실(AFL)이 발생하는 뒤따르는 오디오 프레임들의 수를 계산하도록 구성되고 오디오 프레임 손실(AFL)이 발생하는 뒤따르는 오디오 프레임들의 수가 미리 정의된 수를 초과하는 경우에 이득 인자 저하 과정을 실행하도록 구성된다.
만일 마찰음이 상당한 프레임 손실(뒤따르는 오디오 프레임들(AF) 내의 다수의 프레임 손실(AFL)) 바로 전에 발생하면, 코어 대역 디코딩 모듈(2)의 고유의 디폴트 페이드아웃은 너무 느릴 수 있고 따라서 이득 고정과 조합하여 편안하고 자연스런 음향을 장담할 수 없다. 이러한 문제의 지각된 결과는 대역폭 확장 모듈(3)의 주파수 대역들)FB) 내에 너무 많은 에너지를 갖는 장시간의 마찰음일 수 있다. 이러한 이유 때문에 다수의 프레임 손실(AFL)을 위한 검사가 실행될 수 있다. 만일 이러한 검사가 양의 값이면 이득 인자 저하 과정이 실행될 수 있다.
바람직한 실시 예에서 이득 인자 저하 과정은 현재 이득 인자가 제 1 임계를 초과하는 경우에 현재 이득 인자를 제 1 수치로 나눔으로써 현재 이득 인자를 낮추는 단계를 포함한다. 이러한 특징들에 의해 제 1 임계(경험적으로 결정될 수 있는)를 초과하는 이득들은 낮아진다.
바람직한 실시 예에서 이득 인자 저하 과정은 현재 이득 인자가 제 1 임계보다 큰 제 2 임계를 초과하는 경우에 현재 이득 인자를 제 1 수치보다 큰 제 2 수치로 나눔으로써 현재 이득 인자를 낮추는 단계를 포함한다. 이러한 특징들은 가장 높은 이득들도 심지어 빠르게 감소하는 것을 보장한다. 제 2 임계를 초과하는 모든 이득은 빠르게 감소될 것이다.
일부 실시 예들에서 이득 인자 저하 과정은 저하 이후의 현재 임계가 제 1 임계 아래인 경우에 현재 이득 인자를 제 1 임계로 설정하는 단계를 포함한다. 이러한 특징들에 의해 감소된 이득들은 제 1 임계 아래로 떨어지는 것이 방지된다.
일부 실시 예들에서, 대역폭 확장 모듈(3)은 적어도 하나의 주파수 대역에 잡음(NOI)을 가산하도록 구성되는 잡음 발생기 모듈(7)을 포함하고, 현재 오디오 프레임(AF2)의 잡음 에너지를 계산하기 위하여 오디오 프레임 손실(AFL)이 발생하는 현재 오디오 프레임(AF2) 내에서 이전 오디오 프레임(AF1)의 적어도 하나의 주파수 대역(FB)의 잡음 에너지에 대한 신호 에너지의 비율이 사용된다.
대역폭 확장(3)에서 구현되는 잡음 플로어 특징(즉, 원래 신호의 잡음을 유지하기 위한 부가적인 잡음 성분들)이 존재하는 경우에, 또한 잡음 플로어를 향한 이득 고정의 개념을 적응시키는 것이 필요하다. 이를 달성하기 위하여, 은닉되지 않은 프레임들의 잡음 플로어 에너지 레벨들은 대역폭 확장 모듈의 주파수 대역들의 에너지를 고려하는, 잡음 비율로 전환된다. 비율은 버퍼로 저장되고 은닉 경우에 잡음 레벨을 위한 기초일 수 있다. 주요 장점은 비율의 계산에 기인하여 잡음 플로어의 코어 코더 에너지로의 더 나은 결합이다.
바람직한 실시 예에서 오디오 디코더(1)는 코어 대역 오디오 신호(CBS)의 현재 오디오 프레임(AF2)의 스펙트럼을 설정하고 코어 대역 오디오 신호(CBS)의 현재 오디오 프레임(AF2)의 스펙트럼으로부터 적어도 하나의 주파수 대역(FB)을 위한 현재 프레임(AF2)을 위하여 추정된 신호 에너지(EE)를 유도하도록 구성되는 스펙트럼 분석 모듈(8)을 포함한다.
바람직한 실시 예에서 대역폭 확장 모듈(3)은 코어 대역 오디오 신호(CBS) 및 비트스트림(BS)을 기초로 하여, 에너지 조정 모듈(5)에 전달되는, 적어도 하나의 주파수 대역(FB)을 갖는 원시 주파수 도메인 신호(RFS)를 생성하도록 구성되는 신호 발생기 모듈(9)을 포함한다.
바람직한 실시 예에서 대역폭 확장 모듈(3)은 주파수 도메인 신호(FDS)로부터 대역폭 확장 오디오 신호(BES)를 생산하도록 구성되는 신호 합성 모듈(10)을 포함한다.
도 5는 본 발명에 따른 오디오 디코더(1)의 일 실시 예의 프레이밍을 도시한다.
일부 실시 예들에서 이득 인자 제공 모듈(6)은 오디오 프레임 손실(AFL)이 발생하지 않는, 현재 오디오 프레임(AF2)이 그 뒤에 오디오 프레임 손실(AFL)이 발생하는, 이전 오디오 프레임(AF1) 상에서 뒤따르는 경우에, 만일 코어 대역 디코딩 모듈(2)의 오디오 프레임들(AF')과 관련하여 대역폭 확장 모듈(3)의 오디오 프레임들(AF) 사이의 지연(DEL)이 지연 임계보다 작으면, 현재 오디오 프레임(AF2)을 위하여 수신된 이득 인자가 현재 프레임(AF2)을 위하여 사용되고, 반면에 만일 코어 대역 디코딩 모듈(2)의 오디오 프레임들(AF')과 관련하여 대역폭 확장 모듈(3)의 오디오 프레임(AF)들 사이의 지연(DEL)이 지연 임계보다 크면, 이전 오디오 프레임(AF1)으로부터의 이득 인자는 현재 프레임(AF2)을 위하여 사용되는 것과 같은 방법으로 구성된다.
은닉의 상단 상에서, 대역폭 확장 모듈(3)에서 프레이밍에 특별한 주의가 필요하다. 대역폭 확장 모듈의 오디오 프레임들(AF) 및 코어 대역 디코딩 모듈(3)의 오디오 프레임들(AF)은 때때로 정확하게 정렬되지 않으나 특정 지연(DEL)을 가질 수 있다. 따라서 하나의 손실된 패킷이 동일한 패킷 내에 포함된 코어 신호에 대하여 지연되는 대역폭 확장 데이터를 포함하는 경우가 발생할 수 있다.
이러한 경우에 결과는 이미 디코더(2) 내에 은닉된, 이전 코어 대역 디코딩 모듈 오디오 프레임의 대역폭 확장 모듈(3)의 주파수 대역들(FB)의 부분들을 생성하기 위하여 손실 이후 첫 번째 뛰어난 패킷이 확장 데이터를 포함할 수 있다는 것이다.
이러한 이유 대문에, 프레이밍이 코어 대역 디코딩 모듈 및 대역폭 확장 모듈의 각각의 특성들에 의존하여, 복원 동안에 고려될 필요가 있다. 이는 오류로서 대역폭 확장 모듈(3) 내의 제 1 오디오 프레임 또는 그것의 부분들을 처리하고 가장 최근의 이득들을 즉시 적용하지 않고 하나의 부가적인 프레임을 위한 제 1 오디오 프레임으로부터 잠긴 이득들을 유지하는 것을 의미할 수 있다.
*제 1 뛰어난 프레임을 위한 잠긴 이득들을 유지할지 유지하지 않을지는 지연에 의존한다. 서로 다른 지연들을 갖는 코덱들에 대한 실험적 적용은 서로 다른 지연들을 갖는 코덱들에 대하여 서로 다른 장점을 갖는다. 상당히 작은 지연들(예를 들면 1ms)을 갖는 코덱들을 위하여, 제 1 뛰어난 오디오 프레임을 위하여 가장 최근의 이득들을 사용하는 것이 더 낫다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 블록 아이템 혹은 상응하는 장치의 특징을 나타낸다. 일부 또는 모든 방법 단계는 예를 들면 마이크로프로세서, 프로그램가능 컴퓨터 또는 전자 회로 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수 있다. 일부 실시 예들에서, 하나 또는 그 이상의 가장 중요한 방법 단계는 그러한 장치에 의해 실행될 수 있다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 예를 들면, 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 디지털 저장 매체, 예를 들면, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터로 판독될 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 일반적으로 유형 및/또는 비-시간적이다.
본 발명의 방법의 또 다른 실시 예는 따라서 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터를 수신기로 전달하도록(예를 들면, 전자적으로 또는 광학적으로) 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들면, 컴퓨터 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들면 컴퓨터 프로그램을 수신기로 전달하기 위한 파일 서버를 포함할 수 있다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
참고문헌:
[3GP09] 3GPP; Technical Specification Group Services and System Aspects, Extended adaptive multi-rate - wideband (AMR-WB+) codec, 3GPP TS 26.290, 3rd Generation Partnership Project, 2009.
[3GP12a] General audio codec audio processing functions; Enhanced aacPlus general audio codec; additional decoder tools (release 11), 3GPP TS 26.402, 3rd Generation Partnership Project, Sep 2012.
[3GP12b] Speech codec speech processing functions; adaptive multi-rate - wideband (AMRWB) speech codec; error concealment of erroneous or lost frames, 3GPP TS 26.191, 3rd Generation Partnership Project, Sep 2012.
[EBU10] EBU/ETSI JTC Broadcast, Digital audio broadcasting (DAB); transport of advanced audio coding (AAC) audio, ETSI TS 102 563, European Broadcasting Union, May 2010.
[EBU12] Digital radio mondiale (DRM); system specification, ETSI ES 201 980, ETSI, Jun 2012.
[ISO09] ISO/IEC JTC1/SC29/WG11, Information technology coding of audio-visual objects part 3: Audio, ISO/IEC IS 14496-3, International Organization for Standardization, 2009.
[ITU08] ITU-T, G.718: Frame error robust narrow-band and wideband embedded variable bit-rate coding of speech and audio from 8-32 kbit/s, Recommendation ITU-T G.718, Telecommunication Standardization Sector of ITU, Jun 2008.
[RR06] Sang-Uk Ryu and Kenneth Rose, Frame loss concealment for audio decoders employing spectral band replication, Convention Paper 6962, Electrical and Computer Engineering, University of California, Oct 2006, AES.
[SKE06] Andreas Schneider, Kurt Krauss, and Andreas Ehret, Evaluation of real-time transport protocol configurations using aacplus, Convention paper 6789, AES, May 2006, Presented at the 120th Convention 2006 May 20-23.
1 : 오디오 디코더
2 : 코어 대역 디코딩 모듈
3 : 대역폭 확장 모듈
4 : 결합기
5 : 에너지 조정 모듈
6 : 이득 인자 제공 모듈
7 : 잡음 발생기 모듈
8 : 스펙트럼 분석 모듈
9 : 신호 발생 모듈
10 : 신호 합성 모듈
AS : 오디오 신호
BS : 비트스트림
AF : 오디오 프레임
CBS : 코어 대역 오디오 신호
BES : 대역폭 확장 오디오 신호
FDS : 주파수 도메인 신호
FB : 주파수 대역
AFL : 오디오 프레임 손실
CGF : 현재 이득 인자
EE : 추정된 신호 에너지
NOI : 잡음
DEL : 지연
RFS : 원시 주파수 도메인 신호

Claims (15)

  1. 오디오 프레임들(AF)을 포함하는 비트스트림(BS)으로부터 오디오 신호(AS)를 생산하도록 구성되는 오디오 디코더에 있어서,
    상기 비트스트림(BS)으로부터 직접적으로 디코딩된 코어 대역 오디오 신호(CBS)를 유도하도록 구성되는 코어 대역 디코딩 모듈(2);
    상기 코어 대역 오디오 신호(CBS) 및 상기 비트스트림(BS)으로부터 파라미터로 디코딩된 대역폭 확장 오디오 신호(BES)를 유도하도록 구성되는 대역폭 확장 모듈(3), - 상기 대역폭 확장 오디오 신호(BES)는 적어도 하나의 주파수 대역(FB)을 갖는 주파수 도메인 신호(FDS)를 기초로 함 -; 및
    상기 오디오 신호(AS)를 생산하기 위하여 상기 코어 대역 오디오 신호(CBS) 및 상기 대역폭 확장 오디오 신호(BES)를 결합하도록 구성되는 결합기(4);를 포함하고,
    상기 대역폭 확장 모듈(3)은,
    오디오 프레임 손실(AFL)이 발생하는 현재 오디오 프레임(AF2)에서, 상기 적어도 하나의 주파수 대역(FB)을 위한 상기 현재 오디오 프레임(AF2)에 대해 조정된 신호 에너지가 상기 현재 오디오 프레임(AF2)을 위한 현재 이득 인자(CGF)를 기초로 하여 설정되도록 구성되는 에너지 조정 모듈(5)을 포함하고,
    상기 현재 이득 인자(CGF)는,
    상기 적어도 하나의 주파수 대역을 위하여 추정된 신호 에너지(EE)를 기초로 하여 이전 오디오 프레임(AF1)으로부터의 이득 인자로부터 유도되며,
    상기 추정된 신호 에너지(EE)는, 상기 코어 대역 오디오 신호(CBS)의 상기 현재 오디오 프레임(AF2')의 스펙트럼으로부터 유도되는 것을 특징으로 하는 오디오 디코더.
  2. 제 1항에 있어서, 상기 대역폭 확장 모듈(3)은 적어도 상기 오디오 프레임 손실(AFL)이 발생하는 상기 현재 오디오 프레임(AF2)에서 상기 현재 이득 인자(CGF)를 상기 에너지 조정 모듈(5)에 전달하도록 구성되는 이득 인자 제공 모듈(6)을 포함하는 것을 특징으로 하는 오디오 디코더.
  3. 제 2항에 있어서, 상기 이득 인자 제공 모듈(6)은 상기 오디오 프레임 손실(AFL)이 발생하는 상기 현재 오디오 프레임(AF2)에서 상기 현재 이득 인자(CGF)가 상기 이전 오디오 프레임(AF1)의 이득 인자가 되도록 구성되는 것을 특징으로 하는 오디오 디코더.
  4. 제 2항에 있어서, 상기 이득 인자 제공 모듈(6)은 상기 오디오 프레임 손실(AFL)이 발생하는 상기 현재 오디오 프레임(AF2)에서 상기 현재 이득 인자(CGF)가 상기 이전 오디오 프레임(AF1)의 이득 인자로부터 그리고 상기 이전 오디오 프레임(AF1)의 신호 클래스로부터 계산되도록 구성되는 것을 특징으로 하는 오디오 디코더.
  5. 제 2항에 있어서, 상기 이득 인자 제공 모듈(6)은 상기 오디오 프레임 손실(AFL)이 발생하는 뒤따르는 오디오 프레임들의 수를 계산하도록 구성되고 상기 오디오 프레임 손실(AFL)이 발생하는 상기 뒤따르는 오디오 프레임들의 수가 미리 정의된 수를 초과하는 경우에 이득 인자 저하 과정(gain factor lowering procedure)을 실행하도록 구성되는 것을 특징으로 하는 오디오 디코더.
  6. 제 5항에 있어서, 상기 이득 인자 저하 과정은 상기 현재 이득 인자가 제 1 임계를 초과하는 경우에 상기 현재 이득 인자를 제 1 수치로 나눔으로써 상기 현재 이득 인자를 낮추는 단계를 포함하는 것을 특징으로 하는 오디오 디코더.
  7. 제 5항에 있어서, 상기 이득 인자 저하 과정은 상기 현재 이득 인자가 상기 제 1 임계보다 큰 제 2 임계를 초과하는 경우에 상기 현재 이득 인자를 상기 제 1 수치보다 큰 제 2 수치로 나눔으로써 상기 현재 이득 인자를 낮추는 단계를 포함하는 것을 특징으로 하는 오디오 디코더.
  8. 제 5항에 있어서, 상기 이득 인자 저하 과정은 저하 이후의 현재 임계가 상기 제 1 임계 아래인 경우에 상기 현재 이득 인자를 상기 제 1 임계로 설정하는 단계를 포함하는 것을 특징으로 하는 오디오 디코더.
  9. 제 1항에 있어서, 상기 대역폭 확장 모듈(3)은 상기 적어도 하나의 주파수 대역(FB)에 잡음(NOI)을 가산하도록 구성되는 잡음 발생기 모듈(7)을 포함하고, 상기 현재 오디오 프레임(AF2)의 잡음 에너지를 계산하기 위하여 상기 오디오 프레임 손실(AFL)이 발생하는 상기 현재 오디오 프레임(AF2)에서 상기 이전 오디오 프레임(AF1)의 상기 적어도 하나의 주파수 대역(FB)의 상기 잡음 에너지에 대한 상기 신호 에너지의 비율이 사용되는 것을 특징으로 하는 오디오 디코더.
  10. 제 1항에 있어서, 상기 오디오 디코더(1)는 상기 코어 대역 오디오 신호(CBS)의 상기 현재 오디오 프레임(AF2)의 스펙트럼을 설정하고 상기 코어 대역 오디오 신호(CBS)의 상기 현재 오디오 프레임(AF2)의 스펙트럼으로부터 상기 적어도 하나의 주파수 대역(FB)을 위한 상기 현재 프레임(AF2)을 위하여 상기 추정된 신호 에너지(EE)를 유도하도록 구성되는 스펙트럼 분석 모듈(8)을 포함하는 것을 특징으로 하는 오디오 디코더.
  11. 제 2항에 있어서, 상기 이득 인자 제공 모듈(6)은 추가 오디오 프레임 손실(AFL)이 발생하지 않는, 추가 현재 오디오 프레임이, 추가 오디오 프레임 손실(AFL)이 발생하는, 추가 이전 오디오 프레임을 이후에 뒤따르는 경우에, 만일 코어 대역 디코딩 모듈(2)의 오디오 프레임들(AF1', AF2')과 관련하여 상기 대역폭 확장 모듈(3)의 오디오 프레임들(AF1, AF2) 사이의 지연(DEL)이 지연 임계보다 작으면, 추가 현재 오디오 프레임을 위하여 수신된 이득 인자가 상기 추가 현재 프레임을 위하여 사용되고, 반면에 만일 상기 코어 대역 디코딩 모듈(2)의 상기 오디오 프레임들(AF1', AF2')과 관련하여 상기 대역폭 확장 모듈(3)의 상기 오디오 프레임들(AF1, AF2) 사이의 지연(DEL)이 상기 지연 임계보다 크면, 상기 추가 이전 오디오 프레임으로부터의 이득 인자가 상기 추가 현재 프레임을 위하여 사용되도록 구성되는 것을 특징으로 하는 오디오 디코더.
  12. 제 1항에 있어서, 상기 대역폭 확장 모듈(3)은 상기 코어 대역 오디오 신호(CBS) 및 상기 비트스트림(BS)을 기초로 하여, 상기 에너지 조정 모듈(5)에 전달되는, 적어도 하나의 주파수 대역(FB)을 갖는 원시 주파수 도메인 신호(RFS)를 생성하도록 구성되는 신호 발생기 모듈(9)을 포함하는 것을 특징으로 하는 오디오 디코더.
  13. 제 1항에 있어서, 상기 대역폭 확장 모듈(3)은 상기 주파수 도메인 신호(FDS)로부터 상기 대역폭 확장 오디오 신호(BES)를 생산하도록 구성되는 신호 합성 모듈(10)을 포함하는 것을 특징으로 하는 오디오 디코더.
  14. 오디오 프레임들(AF)을 포함하는 비트스트림(BS)으로부터 오디오 신호(AS)를 생산하기 위한 방법에 있어서,
    상기 비트스트림(BS)으로부터 직접적으로 디코딩된 코어 대역 오디오 신호(CBS)를 유도하는 단계;
    상기 코어 대역 오디오 신호(CBS) 및 상기 비트스트림(BS)으로부터 파라미터로 디코딩된 대역폭 확장 오디오 신호(BES)를 유도하는 단계, - 상기 대역폭 확장 오디오 신호(BES)는 적어도 하나의 주파수 대역(FB)을 갖는 주파수 도메인 신호(FDS)를 기초로 함 -; 및
    상기 오디오 신호(AS)를 생산하기 위하여 상기 코어 대역 오디오 신호(CBS) 및 상기 대역폭 확장 오디오 신호(BES)를 결합하는 단계;를 포함하고,
    오디오 프레임 손실(AFL)이 발생하는 현재 오디오 프레임(AF2)에서, 상기 적어도 하나의 주파수 대역(FB)을 위한 상기 현재 오디오 프레임(AF2)에 대해 조정된 신호 에너지가 상기 현재 오디오 프레임(AF2)을 위한 현재 이득 인자(CGF)를 기초로 하여 설정되고,
    상기 현재 이득 인자(CGF)는, 상기 적어도 하나의 주파수 대역(FB)을 위하여 추정된 신호 에너지를 기초로 하여 이전 오디오 프레임(AF1)으로부터의 이득 인자로부터 유도되며,
    상기 추정된 신호 에너지는, 상기 코어 대역 오디오 신호(CBS)의 상기 현재 오디오 프레임(AF2')의 스펙트럼으로부터 유도되는 것을 특징으로 하는 오디오 신호(AS)를 생산하기 위한 방법.
  15. 컴퓨터 또는 프로세서 상에서 구동할 때, 제 14항의 방법을 실행하기 위한 컴퓨터 프로그램을 저장한 컴퓨터 판독가능 저장 매체.

KR1020177028465A 2013-06-21 2014-06-18 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더 KR20170124590A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13173152.3 2013-06-21
EP13173152 2013-06-21
EP14167050 2014-05-05
EP14167050.5 2014-05-05
PCT/EP2014/062902 WO2014202701A1 (en) 2013-06-21 2014-06-18 Audio decoder having a bandwidth extension module with an energy adjusting module

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167001236A Division KR101991421B1 (ko) 2013-06-21 2014-06-18 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더

Publications (1)

Publication Number Publication Date
KR20170124590A true KR20170124590A (ko) 2017-11-10

Family

ID=51022308

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167001236A KR101991421B1 (ko) 2013-06-21 2014-06-18 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더
KR1020177028465A KR20170124590A (ko) 2013-06-21 2014-06-18 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167001236A KR101991421B1 (ko) 2013-06-21 2014-06-18 에너지 조정 모듈을 갖는 대역폭 확장 모듈을 구비한 오디오 디코더

Country Status (18)

Country Link
US (2) US10096322B2 (ko)
EP (1) EP3011560B1 (ko)
JP (1) JP6228298B2 (ko)
KR (2) KR101991421B1 (ko)
CN (1) CN105431898B (ko)
AU (1) AU2014283285B2 (ko)
BR (1) BR112015031605B1 (ko)
CA (1) CA2915001C (ko)
ES (1) ES2697474T3 (ko)
HK (1) HK1224368A1 (ko)
MX (1) MX358362B (ko)
MY (1) MY169410A (ko)
PL (1) PL3011560T3 (ko)
PT (1) PT3011560T (ko)
RU (1) RU2642894C2 (ko)
SG (1) SG11201510458UA (ko)
TW (1) TWI564883B (ko)
WO (1) WO2014202701A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3011560B1 (en) * 2013-06-21 2018-08-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder having a bandwidth extension module with an energy adjusting module
JP6576934B2 (ja) * 2014-01-07 2019-09-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド 圧縮済みオーディオ信号の信号品質ベース強調及び補償
WO2019081070A1 (en) * 2017-10-27 2019-05-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR
CN109668917B (zh) * 2018-09-29 2020-06-19 中国科学院高能物理研究所 一种利用单色器获得不同能量带宽x射线的方法
CN113324546B (zh) * 2021-05-24 2022-12-13 哈尔滨工程大学 罗经失效下的多潜航器协同定位自适应调节鲁棒滤波方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009117A (en) * 1996-09-17 1999-12-28 Kabushiki Kaisha Toyoda Jidoshokki Seisakusho Spread spectrum communication system
WO1999050828A1 (en) 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6763142B2 (en) * 2001-09-07 2004-07-13 Nline Corporation System and method for correlated noise removal in complex imaging systems
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US6985856B2 (en) * 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
CA2603255C (en) 2005-04-01 2015-06-23 Qualcomm Incorporated Systems, methods, and apparatus for wideband speech coding
CN101213590B (zh) * 2005-06-29 2011-09-21 松下电器产业株式会社 可扩展解码装置及丢失数据插值方法
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
MX2011000361A (es) * 2008-07-11 2011-02-25 Ten Forschung Ev Fraunhofer Un aparato y un metodo para generar datos de salida por ampliacion de ancho de banda.
WO2010051857A1 (en) * 2008-11-10 2010-05-14 Oticon A/S N band fm demodulation to aid cochlear hearing impaired persons
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8428938B2 (en) * 2009-06-04 2013-04-23 Qualcomm Incorporated Systems and methods for reconstructing an erased speech frame
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
CA2792011C (en) * 2010-07-19 2016-04-26 Dolby International Ab Processing of audio signals during high frequency reconstruction
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
EP2950308B1 (en) * 2013-01-22 2020-02-19 Panasonic Corporation Bandwidth expansion parameter-generator, encoder, decoder, bandwidth expansion parameter-generating method, encoding method, and decoding method
EP3011560B1 (en) * 2013-06-21 2018-08-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder having a bandwidth extension module with an energy adjusting module

Also Published As

Publication number Publication date
CA2915001A1 (en) 2014-12-24
RU2016101607A (ru) 2017-07-26
JP2016530548A (ja) 2016-09-29
MX2015017846A (es) 2016-04-18
CA2915001C (en) 2019-04-02
EP3011560B1 (en) 2018-08-01
AU2014283285A1 (en) 2016-02-11
CN105431898B (zh) 2019-09-06
KR101991421B1 (ko) 2019-06-21
TW201513097A (zh) 2015-04-01
WO2014202701A1 (en) 2014-12-24
PL3011560T3 (pl) 2019-01-31
SG11201510458UA (en) 2016-01-28
JP6228298B2 (ja) 2017-11-08
TWI564883B (zh) 2017-01-01
ES2697474T3 (es) 2019-01-24
US10096322B2 (en) 2018-10-09
US20160180854A1 (en) 2016-06-23
CN105431898A (zh) 2016-03-23
KR20160024920A (ko) 2016-03-07
EP3011560A1 (en) 2016-04-27
BR112015031605A2 (pt) 2017-07-25
MY169410A (en) 2019-04-01
US20190027153A1 (en) 2019-01-24
PT3011560T (pt) 2018-11-09
AU2014283285B2 (en) 2017-09-21
RU2642894C2 (ru) 2018-01-29
MX358362B (es) 2018-08-15
HK1224368A1 (zh) 2017-08-18
BR112015031605B1 (pt) 2022-03-29

Similar Documents

Publication Publication Date Title
US10276176B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
CN105765651B (zh) 使用错误隐藏提供经解码的音频信息的音频解码器及方法
US20190027153A1 (en) Audio Decoder Having A Bandwidth Extension Module With An Energy Adjusting Module

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application