KR20100105733A - 코딩 및 디코딩 방법 및 장치 - Google Patents

코딩 및 디코딩 방법 및 장치 Download PDF

Info

Publication number
KR20100105733A
KR20100105733A KR1020107016392A KR20107016392A KR20100105733A KR 20100105733 A KR20100105733 A KR 20100105733A KR 1020107016392 A KR1020107016392 A KR 1020107016392A KR 20107016392 A KR20107016392 A KR 20107016392A KR 20100105733 A KR20100105733 A KR 20100105733A
Authority
KR
South Korea
Prior art keywords
frame
superframe
encoding
background noise
current
Prior art date
Application number
KR1020107016392A
Other languages
English (en)
Other versions
KR101147878B1 (ko
Inventor
이얄 슬로못
리빈 장
진리앙 다이
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20100105733A publication Critical patent/KR20100105733A/ko
Application granted granted Critical
Publication of KR101147878B1 publication Critical patent/KR101147878B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

인코딩 방법은, 잔존 기간(hangover period) 내에 배경 노이즈 특성 파라미터들을 추출하는 단계; 상기 잔존 기간 후의 제1 수퍼프레임에 있어서, 상기 잔존 기간 내에서 상기 추출된 배경 노이즈 특성 파라미터들 및 상기 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하는 단계; 상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대한 배경 노이즈 특성 파라미터 추출 및 DTX(Discontinuous Transmission) 결정을 수행하는 단계; 상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터들, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩을 수행하는 단계를 포함한다. 또한, 디코딩 방법, 인코딩 장치 및 디코딩 장치에 대해서도 개시된다. 본 발명에 따르면, 대역폭 점유를 크게 줄일 수 있고 신호 품질을 확보할 수 있다.

Description

코딩 및 디코딩 방법 및 장치{CODING AND DECODING METHODS AND DEVICES}
본 발명은 통신 기술 분야에 관한 것이며, 보다 구체적으로는 인코딩 및 디코딩을 위한 방법 및 장치에 관한 것이다.
음성 통신에서, 배경 노이즈의 인코딩 및 디코딩은 국제 통신 연합(ITU)에서 발표한 G.729B에 규정된 노이즈 처리 방식에 따라 수행된다.
무음 압축 기술이 음성 인코더에 도입되어 있으며, 도 1은 신호 처리의 개략도를 도시하고 있다.
무음 압축 기술은 3가지 모듈을 주로 포함한다: 음성 액티비티 검출(VAD: Voice Activity Detection), 불연속적 전송(DTX: Discontinuous Transmission), 및 컴포트 노이즈 제너레이터(CNG: Comfort Noise Generator). VAD 및 DTX는 인코더에 포함되어 있는 모듈이고, CNG는 디코딩 측에 포함되어 있는 모듈이다. 도 1은 무음 압축 시스템의 원리를 나타내는 개략도이고, 기본적인 프로세스는 다음과 같다.
먼저, 전송 측(즉, 인코딩 측)에서, 각각의 입력 신호 프레임에 있어서, VAD 모듈은 현재의 입력 신호 프레임을 분석하고 검출하며, 음성 신호가 이 현재의 신호 프레임에 포함되어 있는 지를 검출한다. 음성 신호가 이 현재의 신호 프레임에 포함되어 있다면, 이 현재의 신호 프레임은 음성 프레임으로서 표시된다. 그렇지 않으면, 이 현재의 신호 프레임은 비-음성 프레임으로서 표시된다.
그런 다음, 인코더는 VAD 검출 결과에 기초하여 현재의 신호를 인코딩한다. VAD 검출 결과가 음성 프레임을 나타내면, 신호는 음성 인코딩을 위해 음성 인코더에 입력되고 음성 프레임이 출력된다. VAD 검출 결과가 비-음성 프레임을 나타내면, 신호는 DTX 모듈에 입력되고, 이 DTX 모듈에서 비-음성 인코더를 사용하여 배경 노이즈 처리를 수행하고 비-음성 프레임을 출력한다.
최종적으로, 수신된 신호 프레임(음성 프레임 및 비-음성 프레임을 포함함)이 수신 측(디코딩 측)에서 디코딩된다. 수신된 신호 프레임이 음성 프레임이면, 음성 디코더에 의해 디코딩된다. 그렇지 않으면, CNG 모듈에 입력되고, 이 CNG 모듈에서 비-음성 프레임에서 전송된 파라미터에 기초하여 배경 노이즈를 디코딩한다. 컴포트 배경 노이즈 또는 무음이 발생되어 그 디코딩된 신호는 더욱 자연스럽고 연속적으로 소리를 낸다.
이러한 가변 비트-레이트 인코딩 방식을 인코더에 도입하고 무음 위상(silence phase)의 신호에 대해 적절한 인코딩을 수행함으로써, 무음 압축 기술은, 배경 노이즈가 불연속적일 수도 있다는 문제를 효과적으로 해결하여 합성 신호의 질을 높인다. 그러므로 디코딩 측에서의 배경 노이즈는 컴포트 노이즈와 같이 언급될 수도 있다. 게다가, 배경 노이즈 인코딩 레이트는 음성 인코딩 레이트보다 훨씬 낮으므로, 시스템의 평균 인코딩 레이트가 실질적으로 감소하여 대역폭이 효과적으로 세이브된다.
G.729B에서, 신호 처리는 프레임 단위로 수행된다. 프레임의 길이는 10 ms이다. 대역폭을 세이브하기 위해, G.729.1은 또한 무음 압축 시스템 요건을 규정하고 있다. 배경 노이즈가 있을 때, 시스템은 전체적인 신호 인코딩 질을 떨어뜨리지 않고서도 낮은 비트-레이트로 배경 노이즈를 인코딩하고 전송해야 한다. 환언하면, DTX 및 CNG 요건이 규정되어 있다. 더 중요한 것은, DTX/CNG 시스템이 G.729B와 호환될 수 있어야만 한다는 것이다. G.729B에 기반한 DTX/CNG 시스템이 G.729.1에 기반한 시스템에 간단하게 이식될 수 있을지라도, 두 가지 문제가 여전히 해결되어야 한다. 첫째, 두 개의 인코더가 서로 상이한 길이의 프레임을 처리할 것이고, 이에 따라 직접 이식(direct transplantation)이 문제로 된다. 또한, 729B에 기반한 DTX/CNG 시스템은 상대적으로 간단한, 특히 파라미터 추출 부분이다. G.729.1에서 DTX/CNG의 요건을 충족하기 위해, 729B에 기반한 DTX/CNG 시스템은 연장될 수 있다. 둘째, G.729.1에 기반한 시스템은 광대역 신호를 처리할 수 있지만 G.729B에 기반한 시스템은 저대역 신호만을 처리할 수 있다. 그러므로 배경 노이즈 신호(4000Hz ~ 7000Hz)의 고대역 성분을 처리하는 방식은 완전한 시스템을 형성하기 위해서는 G.7291에 기반한 DTX/CNG 시스템에 부가되어야만 한다.
종래의 기술은 적어도 다음과 같은 문제점을 안고 있다. 기존의 G.729B에 기반한 시스템은 저대역 배경 노이즈만을 처리할 수 있고 따라서 G.729.1에 기반한 시스템에 이식될 때는 신호 코딩 품질을 확보할 수 없다.
위의 관점에서, 본 발명의 실시예는 인코딩 및 디코딩을 위한 방법 및 장치를 제공하며, 이러한 방법 및 장치는 G.729B로부터 확장되고, G.729.1 기술 표준의 요건을 충족할 수 있고, 신호 통신 대역폭이 상당히 감소하는 동시에 신호 인코딩 품질도 확보할 수 있다.
상기 문제점을 해결하기 위해, 본 발명의 실시예는 인코딩 방법을 제공하며, 상기 인코딩 방법은,
잔존 기간(hangover period) 내에 배경 노이즈 특성 파라미터들을 추출하는 단계;
상기 잔존 기간 후의 제1 수퍼프레임에 있어서, 상기 잔존 기간 내에서 상기 추출된 배경 노이즈 특성 파라미터들 및 상기 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하는 단계;
상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대한 배경 노이즈 특성 파라미터 추출 및 DTX(Discontinuous Transmission) 결정을 수행하는 단계;
상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터들, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩을 수행하는 단계
를 포함한다.
또한, 디코딩 방법이 제공되며, 상기 디코딩 방법은,
제1 수퍼프레임의 제1 프레임 이전의 음성 인코딩 프레임으로부터 제1 수퍼프레임의 제1 프레임에 대한 CNG(Comfort Noise Generator) 파라미터들을 획득하는 단계;
상기 CNG 파라미터들에 기초해서 상기 제1 수퍼프레임의 상기 제1 프레임에 대한 배경 노이즈 디코딩을 수행하는 단계
를 포함하며,
상기 CNG 파라미터들은,
상기 음성 인코딩 프레임의 고정 코드북 이득(fixed codebook gain)으로부터 평활화되는 롱-텀 평활화 고정 코드북 이득(long-term smoothed fixed codebook gain)에 의해 결정되는 표적 여기 이득(target excited gain); 및
상기 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화 LPC 필터 계수에 의해 정의되는 LPC 필터 계수
를 포함한다.
또한, 인코딩 장치가 제공되며, 상기 인코딩 장치는,
잔존 기간 내에 배경 노이즈 특성 파라미터들을 추출하도록 구성되어 있는 제1 추출 유닛;
상기 잔존 기간 후의 제1 수퍼프레임에 있어서, 상기 잔존 기간 내에 상기 추출된 배경 노이즈 특성 파라미터들 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하도록 구성되어 있는 제2 인코딩 유닛;
상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들의 각각의 프레임에 대해 배경 노이즈 특성 파라미터 추출을 수행하도록 구성되어 있는 제2 추출 유닛;
상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 제1 수퍼프레임 후의 수퍼프레임들의 각각의 프레임에 대해 DTX(Discontinuous Transmission) 결정을 수행하도록 구성되어 있는 DTX 결정 유닛; 및
상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터들, 상기 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩을 수행하도록 구성되어 있는 제3 인코딩 유닛
을 포함한다.
또한, 디코딩 장치가 제공되며, 상기 디코딩 장치는,
제1 수퍼프레임의 제1 프레임 이전의 음성 인코딩 프레임으로부터 제1 수퍼프레임의 제1 프레임에 대한 CNG(Comfort Noise Generator) 파라미터들을 획득하도록 구성되어 있는 CNG 파라미터 획득 유닛; 및
상기 CNG 파라미터들에 기초하여 상기 제1 수퍼프레임의 제1 프레임에 대해 배경 노이즈 디코딩을 수행하도록 구성되어 있는 제1 디코딩 유닛
을 포함하며,
상기 CNG 파라미터들은,
상기 음성 인코딩 프레임의 고정 코드북 이득으로부터 평활화되는 롱-텀 평활화 고정 코드북 이득에 의해 결정되는 표적 여기 이득(target excited gain); 및
상기 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화 LPC 필터 계수에 의해 정의되는 LPC 필터 계수
를 포함한다.
본 발명은 종래 기술에 비해 다음과 같은 이점을 제공할 수 있다.
본 발명의 실시예에 따르면, 배경 노이즈 특성 파라미터가 잔존 기간(hangover period) 내에 추출되고; 이 잔존 기간 후의 제1 수퍼프레임에 있어서, 이 잔존 기간 내에 추출된 배경 노이즈 특성 파라미터 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터에 기초하여 배경 노이즈 인코딩이 수행되고; 이 제1 수퍼프레임 후의 수퍼프레임에 있어서, 이 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임 동안 배경 노이즈 특성 파라미터 추출 및 DTX 결정이 수행되며; 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩이 수행된다. 장점은 다음과 같이 달성될 수 있다.
첫째, 신호 통신 대역폭이 상당히 감소하는 동시에 인코딩 품질이 확보된다.
둘째, G.729.1 시스템 사양의 요건이 기존의 G.729B 시스템에 의해 만족될 수 있다.
셋째, 배경 노이즈 특성 파라미터의 유연하고 정확한 추출에 의해 배경 노이즈를 더 정교하게 인코딩할 수 있다.
도 1은 무음 압축 시스템의 개략도이다.
도 2는 G.729.1 인코더의 개략도이다.
도 3은 G.729.1 디코더의 개략도이다.
도 4는 본 발명의 제1 실시예에 따른 인코딩 방법의 흐름도이다.
도 5는 제1 수퍼프레임을 인코딩하는 흐름도이다.
도 6은 저대역 성분 파라미터 추출 및 DTX 결정을 나타내는 흐름도이다.
도 7은 저대역 성분 배경 노이즈 파라미터 추출 및 현재의 수퍼프레임에서의 DTX 결정을 나타내는 흐름도이다.
도 8은 본 발명의 제1 실시예에 따른 디코딩 방법의 흐름도이다.
도 9는 본 발명의 제1 실시예에 따른 인코딩 장치의 개략도이다.
도 10은 본 발명의 제1 실시예에 따른 디코딩 장치의 개략도이다.
첨부된 도면을 참조하여 본 발명의 실행에 대해 더 상세하게 설명한다.
첫째, G.729B 표준에 기반한 시스템의 관련 원리에 대한 도입이 이루어진다.
1.1.2. 음성 코드 스트림 및 배경 노이즈 코드 스크림의 인코딩 파라미터들 간의 유사성 및 차이점
현재의 음성 인코더에서, 배경 노이즈의 동기화 원리는 음성의 동기화 원리와 동일하다. 양자의 경우, CELP(Code Excited Linear Prediction) 모델이 적용된다. 음성의 동기화 원리는 다음과 같다: 음성 S(n)은 합성 필터 v(n)을 여기 신호 e(n)으로 여기함으로써 생긴 출력으로서 생각될 수 있다. 즉, s(n)=e(n)*v(n). 이것은 음성 합성에 대한 수학적 모델이다. 이 모델은 배경 노이즈를 합성하는 데도 사용된다. 그러므로 배경 노이즈 코드 스트림으로 전송된 배경 노이즈 및 무음의 특성들을 설명하는 특성 파라미터들은 음성 코드 스트림에서의 특성 파라미터들, 즉 합성 필터 파라미터 및 신호 합성에서 사용된 여기 파라미터와 실질적으로 동일하다.
음성 코드 스트림에서, 합성 필터 파라미터(들)는 LSF 양자화 파라미터(들)를 주로 말하며, 여기 신호 파라미터(들)는 적응성-코드북 지연(adaptive-codebook delay), 적응성-코드북 이득, 고정 코드북 파라미터, 및 고정 코드북 이득 파라미터를 포함할 수 있다. 상이한 음성 인코더들에 따라, 이러한 파라미터들은 다양한 수의 양자화된 비트 및 다양한 타입의 양자화를 가질 수 있다. 동일한 인코더에 있어서, 수 개의 레이트가 포함되는 경우, 인코딩 파라미터는 다양한 레이트 하에서 여전히 다양한 수의 양자화된 비트 및 다양한 타입의 양자화를 가질 수 있는 데, 그 이유는, 신호 특성이 다양한 관점 및 특징으로 설명될 수 있기 때문이다.
음성 인코딩 파라미터(들)와는 달리, 배경 노이즈 인코딩 파라미터(들)는 배경 노이즈의 특성들을 설명한다. 배경 노이즈의 여기 신호는 간단한 랜덤 노이즈 시퀀스로서 고려될 수 있다. 이러한 시퀀스는 인코딩 측 및 디코딩 측의 랜덤 노이즈 발생 모듈에서 간단하게 발생될 수 있다. 그런 다음, 이러한 시퀀스들의 크기(amplitude)는 에너지 파라미터에 의해 제어될 수 있으며, 최종 여기 신호가 발생될 수 있다. 그러므로 여기 신호의 특성 파라미터는 일부의 다른 특성 파라미터로부터 추가의 설명 없이도, 에너지 파라미터에 의해 나타내어질 수 있다. 그러므로 배경 노이즈 코드 스트림에서, 그 여기 파라미터는 음성 프레임과는 상이한 현재의 배경 노이즈 프레임의 에너지 파라미터이다. 음성 프레임과 마찬가지로, 배경 노이즈 코드 스트림에서의 합성 필터 파라미터(들)는 LSF 양자화 파라미터(들)이지만, 특정한 양자화 방법은 다를 수 있다. 위의 분석의 관점에서, 배경 노이즈를 인코딩하는 방식은 사실상 "음성"을 인코딩하는 간단한 방식으로 고려될 수 있다.
G.729B에서의 노이즈 처리 방식(729B 프로토콜이라 칭함)
1.2.1 DTX/CNG 기술적 개관
G.729B에서의 무음 압축 방식은 초기의 무음 압축 기술이고, 그 배경 노이즈 인코딩 및 디코딩 기술의 알고리즘 모델은 CELP이다. 그러므로 전송된 배경 노이즈 파라미터들은 CELP 모델에 기초하여 추출되는 데, 이러한 파라미터들로는, 배경 노이즈를 설명하는 합성 필터 파라미터(들) 및 여기 파라미터(들)를 들 수 있다. 여기 파라미터(들)는 배경 노이즈 에너지를 설명하는 데 사용되는 에너지 파라미터(들)이다. 음성 여기를 설명하는 데 사용되는 적응성 코드북 파라미터 및 고정 코드북 파라미터는 존재하지 않는다. 필터 파라미터 및 음성 인코딩 파라미터는 기본적으로 일관적이며, LSF 파라미터이다. 인코딩 측에서, 입력 음성 신호의 각각의 프레임에 있어서, VAD 결정이 현재의 신호가 배경 노이즈임을 나타내는 "0"이면, 인코더는 신호를 DTX 모듈에 공급한다. DTX 모듈은 입력 신호로부터 배경 노이즈 파라미터를 추출한 다음, 각각의 프레임의 파라미터들에서의 변화에 기초하여 배경 노이즈를 인코딩한다. 수 개의 이전의 파라미터들과 비교해서 현재의 프레임으로부터 추출된 필터 파라미터 및 에너지 파라미터에 큰 변화가 있는 경우, 현재의 배경 노이즈 특성들이 이전의 배경 노이즈 특성들과는 크게 다르다는 것을 의미한다. 이때, 노이즈 인코딩 모듈은 현재의 프레임으로부터 추출된 배경 노이즈 파라미터들을 인코딩하고, 이것들을 SID(Silence Insertion Descriptor) 프레임으로 어셈블링한다. SID 프레임은 디코딩 측으로 전송된다. 그렇지 않으면, NODATA 프레임(데이터 없음)은 디코딩 측으로 전송된다. SID 프레임 및 NODATA 프레임 양자를 비-음성 프레임이라 말할 수 있다. 디코딩 측에서, 배경 노이즈 위상에 입력되면, CNG 모듈은 그 수신된 비-음성 프레임에 기초하여 인코딩 측 배경 노이즈 특성을 설명하는 컴포트 노이즈를 합성할 수 있다.
G.729B에서, 신호 처리는 프레임 단위로 수행된다. 프레임의 길이는 10ms이다. DTX, 노이즈 인코딩, 및 729B의 CNG 모듈은 다음의 세 개의 장에서 설명한다.
1.2.2 DTX 모듈
DTX 모듈은 주로 배경 노이즈 파라미터를 추정하고 양자화하며, SID 프레임을 전송하도록 구성되어 있다. 비-음성 위상에서, DTX 모듈은 배경 노이즈 정보를 디코딩 측에 전송한다. 배경 노이즈 정보는 전송을 위해 SID 프레임을 캡슐화한다. 현재의 배경 노이즈가 안정적이지 않으면, SID 프레임이 전송된다. 그렇지 않으면, 데이터를 포함하지 않는 NODATA 프레임이 전송된다. 부가적으로, 두 개의 연속적인 SID 프레임들 간의 간격은 두 개의 프레임에 제한될 수 있다. 배경 노이즈가 안정적이지 않으면, SID 프레임들은 연속적으로 송신되어야 하며, 이에 따라 다음의 SID 프레임의 전송이 지연될 것이다.
인코딩 측에서, DTX 모듈은 인코더 내의 VAD 모듈의 출력, 자동상관 계수, 및 일부의 이전의 여기 샘플을 수신한다. 각각의 프레임에서, DTX 모듈은 0, 1, 2를 각각 가지는 비-전송 프레임, 음성 프레임, 및 SID 프레임을 설명한다. 프레임 타입은 Ftyp=0, Ftyp=1, Ftyp=2이다.
배경 노이즈 추정의 대상은 배경 노이즈의 에너지 레벨 및 스펙트럼 엔벨로프를 포함하고, 이것은 음성 인코딩 파라미터와 실질적으로 유사하다. 그러므로 스펙트럼 엔벨로프의 계산은 두 개의 이전의 프레임으로부터의 파라미터들을 사용하는 음성 인코딩 파라미터의 계산과 실질적으로 유사하다. 에너지 파라미터는 수 개의 이전의 프레임의 에너지의 평균이다.
DTX 모듈의 주요 동작
a. 각각의 프레임의 자동상관 계수들을 저장
각각의 입력 신호 프레임에 있어서, 즉 음성 프레임 또는 비-음성 프레임에 있어서, 현재의 프레임 t의 자동상관 계수는 버퍼에 보존되어 있을 수 있다. 이 자동상관 계수는 r' t(j), j=0...10으로 표현되고, 여기서 j는 각각의 프레임에 있어서 자동상관 함수의 인덱스이다.
b. 현재의 프레임 타입의 추정
현재의 프레임이 음성 프레임이면, 즉 VAD=1이면, 현재의 프레임 타입은 1로 설정된다. 현재의 프레임이 비-음성 프레임이면, 현재의 LPC 필터 At(z)은 이전의 프레임(들) 및 현재의 프레임의 자동상관 계수(들에 기초해서 계산될 수 있다. At(z)의 계산 이전에, 두 개의 연속적인 프레임의 자동상관 계수들의 평균은 먼저 다음과 같이 계산될 수 있다:
Figure pct00001
여기서 Ncur = 2. Rt(j)의 계산 후, 레빈슨-더빈 알고리즘(Levinson-Durbin algorithm)을 사용하여 At(z)을 계산할 수 있다. 또한, 레빈슨-더빈 알고리즘을 사용하여 잔류 에너지 Et를 계산할 수 있고, 이것은 프레임의 여기 에너지의 간단한 추정치로서 취해질 수 있다.
현재 프레임의 타입은 다음과 같이 추정될 수 있다.
(1) 현재 프레임은 제1 인액티브 프레임이고, 이 프레임은 SID 프레임으로서 설정된다 신호 에너지를 특징짓는 변수
Figure pct00002
를 Et와 같다고 하고, 프레임의 수를 특징짓는 파라미터 kE가 1에 설정되어 있다고 하면,
Figure pct00003
(2) 다른 비-음성 프레임에 있어서, 알고리즘은 이전의 SID 프레임의 파라미터와 현재의 대응 파라미터를 비교한다. 현재의 필터가 이전의 필터와 크게 다르거나 현재의 여기 에너지가 이전의 여기 에너지와 크게 다르면, 플래그 flag_change가 1과 같다고 하자. 그렇지 않으면, 플래그의 값은 변하지 않은 채로 남게 된다.
(3) 현재의 카운터 count_fr은 현재의 프레임과 이전의 SID 간의 프레임의 수를 나타낸다. 이 값이 Nmin보다 크면, SID 프레임이 전송된다. flag_change가 1과 같으면, SID 프레임도 전송된다. 다른 경우들에서는, 현재 프레임이 전송되지 않는다.
Figure pct00004
SID 프레임의 경우, 카운터 count_fr 및 플래그 flag_change가 0으로 다시 초기화된다.
c. LPC 필터 계수
이전의 SID의 LPC 필터 Asid(z)의 계수를 asid(j), j=0...10이라고 하자. 현재 프레임과 이전 프레임의 SID-LPC 필터들 간의 이타쿠라 거리(Itakura distance)가 소정의 임계치를 초과하면, 이것들은 크게 다른 것으로 고려될 수 있다.
Figure pct00005
여기서 Ra(j), j=0...10은 SID 필터 계수의 자동상관 계수들이다.
Figure pct00006
d. 프레임 에너지
프레임 에너지의 합은 다음과 같이 계산될 수 있다:
Figure pct00007
이때,
Figure pct00008
는 대수 도메인(logarithmic domain)에서 5-비트 양자화기로 양자화된다. 디코딩된 대수 에너지 Eq는 이전의 디코딩된 SID 대수 에너지
Figure pct00009
와 비교된다. 이것들이 2dB 이상만큼 다르지 않다면, 크게 다른 에너지를 가지고 있는 것으로 고려될 수 있다.
1.2.3 노이즈 인코딩 및 SID 프레임
SID 프레임에서의 파라미터는 LPC 필터 계수(스펙트럼 엔벨로프) 및 에너지 양자화 파라미터이다.
SID-LPC 필터를 계산할 때, 연속적인 노이즈 프레임들 간의 안정성이 고려된다.
첫째, 현재의 SID 프레임 이전의 Np 프레임들의 평균 LPC 필터
Figure pct00010
를 계산한다. 자동상관 함수 및
Figure pct00011
를 사용한다. 이때,
Figure pct00012
를 레빈슨-더빈 알고리즘에 입력하여
Figure pct00013
를 얻는다.
Figure pct00014
는 다음과 같이 표현될 수 있다:
Figure pct00015
여기서 Np의 값은 6에 고정되어 있다. 프레임 t'의 수는 범위[t-1, t-Ncur]를 가진다. 그러므로 SID-LPC 필터는 다음과 같이 표현될 수 있다:
Figure pct00016
환언하면, 알고리즘은 수 개의 이전의 프레임의 평균 LPC 필터 계수
Figure pct00017
을 계산한 다음, 그 계산된 값을 현재의 LPC 필터 계수 At(z)와 비교된다. 두 계수 간에 약간의 차이가 있다면, LPC 계수가 양자화될 때 수 개의 이전의 프레임의 평균
Figure pct00018
이 현재 프레임을 위해 선택될 것이다. 그렇지 않으면, 현재 프레임의 At(z)이 선택될 것이다. LPC 필터 계수의 선택 후, 알고리즘은 이러한 LPC 필터 계수를 LSF 도메인으로 변환할 수 있고, 그런 다음 양자화 인코딩이 수행된다. 양자화 인코딩의 선택 방법은 음성 인코딩을 위한 양자화 인코딩 방법과 동일하다.
에너지 파라미터(들)는 대수 도메인에서 5-비트 선형 양자화기로 양자화된다. 이 방법에서, 배경 노이즈 인코딩은 완료하였다. 그런 다음, 이러한 인코딩된 비트는 표 A에 도시된 바와 같이 SID 프레임에서 캡슐화된다.
표 B.2/G.729
파라미터 설명 비트
LFS 양자화기의 교환된 예언가 인덱스 1
LSF 양자화기의 제1 스테이지 벡터 5
LSF 양자화기의 제2 스테이지 벡터 4
이득(에너지) 5
SID 프레임의 파라미터는 4개의 코드북 인덱스로 이루어져 있고, 이것들 중 하나는 에너지 양자화 인덱스(5 비트)를 나타낸다. 나머지 3개의 인덱스는 스펙트럼 양자화 인덱스(10 비트)를 나타낼 수 있다.
1.2.4 CNG 모듈
디코딩 측에서, 보간된 LPC 합성 필터를 여기하기 위해 레벨 제어 가능한 의사 화이트 노이즈(level controllable pseudo white noise)를 사용하여 컴포트 배경 노이즈를 획득하는 데, 이것은 실질적으로 음성 합성과 유사하다. 여기서, 여기 레벨 및 LPC 필터 계수는 이전의 SID 프레임으로부터 각각 획득된다. 서브프레임의 LPC 필터 계수는 SID 프레임에서 LSP 파라미터의 보간에 의해 획득될 수 있다. 보간 방법은 음성 인코더에서의 보간 방식과 유사하다.
의사 화이트 노이즈 여기 ex(n)은 음성 여기 ex1(n) 및 가우시안 화이트 노이즈 여기 ex2(n)의 혼합이다. ex1(n)에 대한 이득은 상대적으로 작다. ex1(n)을 사용하는 목적은 음성과 비-음성 간의 전이(transition)를 더 자연스럽게 하기 위함이다.
그러므로 여기 신호를 획득한 후, 컴포트 배경 노이즈를 획득하기 위해 합성 필터를 여기하는 데 사용될 수 있다.
인코딩 측 및 디코딩 측에서의 비-음성 인코딩 및 디코딩은 동기화를 유지해야만 하고, 양측은 SID 프레임 및 비-전송 프레임을 위한 여기 신호를 발생시킬 것이다.
첫째, 표적 여기 이득
Figure pct00019
이 정의되고, 이것은 현재 프레임의 여기된 평균 에너지의 제곱근으로서 취해진다.
Figure pct00020
는 이하의 평활화 알고리즘으로 획득될 수 있고 여기서
Figure pct00021
는 디코딩된 SID 프레임에 대한 이득이다:
Figure pct00022
80개의 심벌이 2개의 서브프레임으로 분할된다. 각각의 서브프레임에 있어서, CNG 모듈의 여기 신호는 다음과 같이 합성될 수 있다.
(1) 피치 지연(pitch delay)은 범위 [40,103]에서 무작위로 선택된다.
(2) 비-제로 펄스의 위치 및 심벌이 서브프레임의 고정 코드북 벡터로부터 무작위로 선택된다(이러한 비-제로 펄스의 위치 및 심벌 구조는 G.729와 호환 가능하다).
(3) 이득을 가진 적응성 코드북 여기 신호가 선택되고 ea(n),n=0...39로서 라벨이 붙는다. 선택된 고정 코드북 여기 신호는 ef(n),n=0...39로서 라벨이 붙는다. 이때, 서브프레임 에너지에 기초해서, 적응성 이득 Ga 및 고정 코드북 이득 Gf는 다음과 같이 계산될 수 있다.
Figure pct00023
Gf는 네거티브 값을 선택할 수 있다는 것에 유의하라.
다음과 같이 정의된다:
Figure pct00024
ACELP의 여기 구조로부터, 다음을 얻는다:
Figure pct00025
적응성 코드북 이득 Ga가 고정되어 있으면,
Figure pct00026
를 특징짓는 알고리즘은 Gf와 관련해서 2차 알고리즘이 된다:
Figure pct00027
Ga의 값은 위의 알고리즘이 해답을 가지도록 제한될 것이다. 또한, 일부의 큰 적응성 코드북 이득의 어플리케이션이 제한될 수 있다. 이 방법에서, 적응성 코드북 이득 Ga는 다음의 범위에서 무작위로 선택될 수 있다:
Figure pct00028
단,
Figure pct00029
알고리즘
Figure pct00030
의 근(roots) 중에서 최소 절대값을 가지는 근 Gf의 값으로서 취한다.
마지막으로, G.729 여기 신호는 다음과 같이 구성될 수 있다:
Figure pct00031
합성된 신호 ex(n)은 다음과 같은 방식으로 합성될 수 있다.
E1을 ex1(n)의 에너지라 하고, E2를 ex2(n)의 에너지라 하고, E3을 ex1(n) 및 ex2(n)의 곱이라 하자.
Figure pct00032
계산의 포인트 수(point number)는 그 자체의 크기를 초과한다.
α 및 β를 혼합된 여기에서의 ex1(n) 및 ex2(n)의 스케일링 계수(scaling coefficients)로 하고, 여기서 α는 0.6에 설정되어 있고, β는 다음과 같은 2차식 알고리즘(quadratic algorithm)에 의해 결정된다:
Figure pct00033
단,
Figure pct00034
β에 대한 해답이 없으면, β는 0으로 설정되고 α는 1로 설정될 것이다. CNG 모듈의 최종적인 여기는 ex(n)이 될 것이다:
ex(n) = αex1(n) + βex2(n)
729.B 인코더에서 DTX/CNG 모듈의 기본적인 원리는 전술한 바와 같다.
1.3 G.729.1 인코더 및 디코더의 기본적인 흐름
G.729.1은 ITU가 발표한 차세대 음성 인코딩 디코딩 표준이다(레퍼런스[1]을 참조하라). 8-32 kbps 스케일러블 광대역(50-7000 Hz)에 걸친 ITU-TG.729에 대한 확장이다. 디폴트에 의해, 인코더 입력 및 디코더 출력에서의 샘플링 레이트는 16000Hz이다. 인코더에 의해 발생된 코드 스트림은 계층화되어 있는 데, 12개의 임베디드 층을 포함하고, 각각 층 1 ~ 12라 한다. 층 1은 코어 층이고 8kbps의 비트 레이트에 대응한다. 이 층은 G729 코드 스트림과 호환 가능하기 때문에 G.729EV는 G.279와 상호 운용이 가능하다. 층 2는 저대역 향상 층이고 4kbps가 증가된다. 층 3 ~ 12는 광대역 향상 층이고 전체적으로 20kbps가 증가될 수 있는 데, 층마다 2kbps가 증가한다.
G.729.1 인코더 및 디코더는 3-스테이지 구조에 기초를 두고 있다: 임베디드 CELP(Code-Excited Linear-Prediction) 인코딩 및 디코딩, TDBWE(Time-Domain BandWidth Extension), 및 TDAC(Time-Domain Alias Cancellation)으로 공지되어 있는 추정 변환 인코딩 및 디코딩. 임베디드 CELP 위상 동안, 층 1 및 층 2가 생성되어, 8kbps 및 12kbps 저대역 합성 신호(50-4000 Hz)가 발생된다. TDBWE 스테이지에서는 층 3이 생성되고 14kbps 광대역 출력 신호(50-7000 Hz)가 생성된다. TDAC 스테이지는 MDCT(Modified Discrete Cosine Transform) 도메인에서 동작하고, 층 4 ~ 12가 생성된다. 그러므로 신호 품질은 14kbps에서 32kbps로 증가한다. TDAC 인코딩 및 디코딩은 CELP 인코딩 및 디코딩 에러 신호 및 4000-7000 Hz 대역 입력 신호가 가중된 50-4000 Hz 대역을 나타낸다.
도 2를 참조하면, G.729.1 인코더를 나타내는 기능 블록도가 도시되어 있다. 인코더는 20 ms 입력 수퍼프레임에서 동작한다. 디폴트에 의해, 입력 신호 SWB(n)는 16000 Hz에서 샘플링된다. 그러므로 입력 서브프레임은 320 샘플의 길이를 가진다.
첫째, 입력 신호 SWB(n)는 QMF 필터 (H1(z),H2(z))에 의해 두 개의 서브밴드로 분할된다. 낮은 서브밴드 신호
Figure pct00035
는 50 Hz의 차단 주파수를 가지는 하이 패스 필터에서 사전 처리된다. 출력 신호 SLB(n)은 8kbps ~ 12kbps 저대역 임베디드 CELP 인코더를 사용하여 인코딩된다. 13Kbps의 레이트에서 CELP 인코더의 로컬 합성 신호
Figure pct00036
와 SLB(n) 사이의 차 신호 dLB(n)가 센스 가중 필터(WLB(z))를 통과하여 신호
Figure pct00037
을 얻는다. 신호
Figure pct00038
은 주파수-도메인에 대해 MDCT를 거친다. 가중 필터 WLB(z)는 필터의 출력 신호
Figure pct00039
과 높은 서브대역 입력 신호 SHB(n) 간의 스펙트럼 연속성을 유지하기 위해, 이득 보상을 포함한다.
높은 서브대역 성분은 (-1)n과 승산되어 스펙트럼 상에서 접히게 된다(folded). 신호
Figure pct00040
가 얻어진다.
Figure pct00041
는 3000Hz의 차단 주파수를 가지는 로우 패스 필터에 의해 사전 처리된다. 필터링된 신호 SHB(n)은 TDBWE 인코더에서 인코딩된다. MDCT 변환이 신호 SHB(n)에 대해 수행되어 주파수-도메인 신호를 얻는다.
마지막으로, MDCT 계수의 2개 세트
Figure pct00042
및 SHB(n)는 TDAC 인코더에서 인코딩된다.
또한, 일부의 다른 파라미터가 FEC(Frame Erasure Concealment) 인코더에 의해 전송되어 전송 동안 프레임 손실이 발생할 때 야기되는 에러를 개선한다.
도 3은 디코더 시스템의 블록도이다. 디코더의 동작 모드는 수신된 코드 스트림의 층들의 수에 결정되는 데, 등가적으로 수신 레이트에 의해 결정된다.
(1) 수신 레이트가 8kbps 또는 12kbps이면(즉, 제1 층 또는 최초의 2개 층만이 수신된다), 임베디드 CELP 디코더가 제1 층 또는 최초의 2개 층의 코드 스트림을 디코딩하고, 디코딩된 신호
Figure pct00043
를 획득하며, 포스트-필터링을 수행하여
Figure pct00044
을 획득하고, 이것은 하이 패스 필터를 통과하여
Figure pct00045
를 획득한다. QMF 합성 필터 뱅크는 입력 신호를 생성하고, 이 입력 신호는 0에 설정된 고주파 합성 신호
Figure pct00046
를 가진다.
(2) 수신 레이트가 142kbps이고(즉, 최초의 3개 층이 수신된다), CELP 디코더가 저대역 성분을 디코딩하는 경우, TDBWE 디코더는 고대역 신호 성분
Figure pct00047
를 디코딩한다. MDCT 변환이
Figure pct00048
에 대해 수행되고, 높은 서브밴드 성분 스펙트럼에서 3000 Hz보다 높은 주파수 성분(15 kHz 샘플링 레이트에서 7000 Hz보다 높은 주파수에 대응함)은 0에 설정되고, 그런 다음 역 MDCT 변환이 수행된다. 스펙트럼 변환은 수퍼임포지션(superimposition) 후에 수행된다. 재구성된 고대역 신호
Figure pct00049
는 QMF 필터 뱅크에서 CELP 디코더에 의해 디코딩된 저대역 성분
Figure pct00050
과 합성되어, (하이 패스 필터링을 수행함이 없이) 16 kHz의 레이트를 가지는 광대역 신호를 획득한다.
(3) 수신된 코드 스트림이 14 kbps보다 높은 레이트를 가지고(최초의 4개 이상의 층에 대응함), CELP 디코더가 디코딩에 의해 낮은 서브밴드 성분
Figure pct00051
를 얻고 TDBWE 디코더가 디코딩에 의해 높은 서브밴드 성분
Figure pct00052
을 얻는 경우, TDAC 디코더는 저대역(0 - 4000 Hz) 재구성된 가중 차이 및 고 대역(4000 - 7000 Hz) 재구성된 신호에 대응하는,
Figure pct00053
Figure pct00054
의 재구성을 담당한다. (고 대역에서, 비-수신 서브밴드 및 TDAC 제로 코드 항당 서브밴드는 레벨 조정 서브밴드 신호
Figure pct00055
로 대체된다). 역 MDCT 및 오버래핑 가산(overlapping addition) 후,
Figure pct00056
Figure pct00057
는 시간-도메인 신호로 변환된다. 그런 다음, 저 대역 신호
Figure pct00058
는 센스 가중 필터에 의해 처리된다. 가변의 인코딩으로부터의 영향을 완화하기 위해, 저대역 신호 및 고대역 신호
Figure pct00059
Figure pct00060
에 대해 포워드/백워드 에코 검출 및 압축을 수행한다. 저대역 합성 신호
Figure pct00061
에 대해서는 포스트-필터링을 수행한다. 고대역 합성 신호
Figure pct00062
에 대해서는 (-1)n 스펙트럼 폴딩(folding)을 수행한다. 그런 다음, QMF 합성 필터 뱅크는 신호
Figure pct00063
Figure pct00064
를 결합하여 오버-샘플링하고, 최종적으로 16kHz 광대역 신호가 획득된다.
1.4 G729.1 DTX/CNG 시스템 요건
대역폭을 세이브하기 위해, G.729.1은 또한 무음 압축 시스템 요건을 정의한다. 배경 노이즈의 존재 시, 시스템은 전체적인 신호 인코딩 품질을 떨어뜨리지 않으면서 저-레이트 인코딩 방법으로 배경 노이즈를 인코딩하고 전송해야 한다. 환언하면, DTX 및 CNG 요건이 정의된다. 더 중요한 것은, DTX/CNG 시스템은 G.729B와 호환될 수 있어야만 한다는 점이다. G.279B 기반의 DTX/CNG 시스템이 G.279.1에 간단하게 이식될 수 있을지라도, 두 가지 문제를 해결해야 한다. 첫째, 두 개의 인코더는 상이한 길이의 프레임을 처리하고, 이에 따라 직접 이식이 문제가 될 수 있다. 게다가, 729B 기반의 DTX/CNG 시스템은 상대적으로 간단한, 특히 파라미터 추출 부분이다. G.729.1 DTX/CNG 시스템 요건을 충족하기 위해, 729B 기반의 DTX/CNG 시스템은 확장되어야 한다. 둘째, G.729.1은 광대역을 가지는 신호들을 처리하고 G.729B는 협대역을 가지는 신호들을 처리한다. 배경 노이즈 신호(4000Hz ~ 7000Hz)의 고대역 성분은 완전한 시스템을 형성하기 위해 G.729.1 기반의 DTX/CNG 시스템에 부가되어야 한다.
G.279.1에서, 배경 노이즈의 고대역 및 저대역은 개별적으로 처리될 수 있다. 고대역 처리는 상대적으로 간단하다. 배경 노이즈 특성 파라미터의 인코딩은 음성 인코더의 TDBWE 인코딩이라 말할 수 있다. 결정 부분은 주파수-도메인 엔벨로프의 안정성과 시간-도메인 엔벨로프의 안정성을 비교한다. 본 발명의 기술적 솔루션 및 문제점은 저주파 대역, 즉 저대역에 집중되어 있다. 이하의 G.729.1 DTX/CNG 시스템은 저대역 DTX/CNG 성분과 관련된 프로세스를 말한다.
도 4는 본 발명의 인코딩 방법의 제1 실시예를 나타내고 다음과 같은 단계를 포함한다.
단계 401에서, 배경 노이즈 특성 파라미터(들)는 잔존 기간 내에 추출된다.
단계 402에서, 잔존 기간 후의 제1 수퍼프레임에서, 배경 노이즈 인코딩은 잔존 기간 내의 그 추출된 배경 노이즈 특성 파라미터(들) 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터(들)에 기초하여 수행되어, 제1 SID 프레임을 획득한다.
단계 403에서, 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 배경 노이즈 특성 파라미터 추출 및 DTX 결정은 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대해 수행된다.
단계 404에서, 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 배경 노이즈 인코딩은 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터(들), 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 수행된다.
본 발명의 실시예에 따르면, 배경 노이즈 특성 파라미터(들)는 잔존 기간 내에 추출되고; 잔존 기간 후의 제1 수퍼프레임에 있어서, 잔존 기간 내에서 그 추출된 배경 노이즈 특성 파라미터(들) 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터(들)에 기초하여 배경 노이즈 인코딩이 수행된다.
제1 수퍼프레임 후의 수퍼프레임에 있어서, 배경 노이즈 특성 파라미터 추출 및 DTX 결정은 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대해 수행된다.
제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터(들), 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩이 수행된다. 다음과 같은 장점이 달성된다.
첫째, 신호 통신 대역폭이 상당히 감소하는 동시에 인코딩 품질이 확보된다.
둘째, G.729.1 시스템 사양의 요건이 기존의 G.729B 시스템에 의해 만족될 수 있다.
셋째, 배경 노이즈 특성 파라미터의 유연하고 정확한 추출에 의해 배경 노이즈를 더 정교하게 인코딩할 수 있다.
본 발명의 다양한 실시예에서는, G.729.1과 관련된 기술적 표준에 대한 요건을 충족시키기 위해, 각각의 수퍼프레임이 20 ms에 설정되고 각각의 수퍼프레임에 포함된 프레임은 10 ms에 설정될 수 있다. 본 발명의 다양한 실시예에 따르면, G.279.1의 기술적 요건을 충족시키도록 G.729B의 확장이 달성될 수 있다. 한편, 당업자라면 본 발명의 다양한 실시예에 제공된 기술적 솔루션을 비 G.729.1 시스템에도 적용할 수 있다는 것을 이해할 수 있다. 마찬가지로, 배경 노이즈는 낮은 대역폭을 점유할 수 있고 통신 품질을 높일 수 있다. 환언하면, 본 발명의 어플리케이션은 G.729.1 시스템에 제한되지 않는다.
첨부된 도면을 참조하여 본 발명의 인코딩 방법의 제2 실시예를 이하에 상세히 설명한다.
G729.1 및 G729B에서, 상이한 길의 프레임들을 인코딩하되, 이전의 프레임마다 20 ms로, 후자의 프레임마다 10 ms로 인코딩한다. 환언하면, G729.1에서의 한 프레임은 G729B에서 두 개의 프레임에 대응한다. 설명을 간단히 하기 위해, G729.1에서의 한 프레임을 수퍼프레임이라 하고 G729B에서의 한 프레임을 여기서는 프레임이라 한다. G729.1 DTX/CNG 시스템의 설명에서, 본 발명은 주로 이러한 차이에 초점을 맞춘다. 즉, G279B DTX/CNG 시스템은 ITU729.1의 시스템 특성에 적합하도록 갱신되고 확장된다.
I. 노이즈 학습
첫째, 배경 노이즈의 초기 120ms가 음성 인코딩 레이트로 인코딩된다.
배경 노이즈 특성 파라미터를 정확하게 추출하기 위해, 음성 프레임 종료 후의 소정의 기간 내에(VAD 결과는 현재의 프레임이 액티브 음성으로부터 인액티브 배경 노이즈로 변화하였음을 나타낸다), 배경 노이즈 처리 단계가 즉시 시작되는 것은 아니다. 오히려, 배경 노이즈는 음성 인코딩 레이트로 계속해서 인코딩된다. 이러한 잔존 기간은 통상적으로 6 수퍼프레임, 즉 120ms 동안 지속된다(AMR 및 AMRWB라 말할 수 있다).
둘째, 잔존 기간 내에, 각각의 수퍼프레임의 각각의 10ms 프레임 동안, 배경 노이즈의 자동상관 계수 r't ,k(j), j=0...10가 버퍼링될 수 있고, 여기서 t는 수퍼프레임 인덱스이고 k=1,2는 각각의 수퍼프레임에서 제1 및 제2 10ms 프레임에 대한 인덱스이다. 이러한 자동상관 계수는 잔존 단계 동안 배경 노이즈의 특성을 반영할 수 있다. 배경 노이즈를 인코딩할 때, 이러한 자동상관 계수를 사용하여 배경 노이즈 특성 파라미터를 정확하게 추출함으로써 배경 노이즈를 더 정확하게 인코딩할 수 있다. 실제의 어플리케이션에서, 노이즈 학습의 지속 기간은 필요에 따라 설정될 수 있으며, 120ms에 제한되지 않는다. 잔존 기간은 필요에 따라 임의의 다른 값으로 설정될 수 있다.
Ⅱ. 잔존 단계 후 제1 수퍼프레임의 인코딩
잔존 단계가 종료에 이른 후, 배경 노이즈는 배경 노이즈 프로세싱으로서 처리된다. 도 5는 제1 수퍼프레임을 인코딩하는 흐름도이고, 다음과 같은 단계를 포함한다.
잔존 단계가 종료된 후의 제1 수퍼프레임에서, 노이즈 학습 단계 및 현재의 수퍼프레임 동안 추출된 배경 노이즈 특성 파라미터들을 인코딩하여, 제1 SID 수퍼프레임을 획득할 수 있다. 잔존 위상 후의 제1 수퍼프레임에서, 배경 노이즈 파라미터가 인코딩되고 전송된다. 그러므로 이러한 수퍼프레임을 일반적으로 제1 SID 수퍼프레임이라 한다. 인코딩된 제1 SID 수퍼프레임이 디코딩 측으로 전송되어 디코딩된다. 하나의 수퍼프레임은 두 개의 10ms 프레임에 대응하기 때문에, 인코딩 파라미터를 정확하게 획득하기 위해, 배경 노이즈 특성 파라미터 At(z) 및 Et를 제2 10ms 프레임으로부터 추출할 것이다.
LPC 필터 At(z) 및 잔류 에너지 Et는 다음과 같이 계산된다.
단계 501에서, 버퍼 내의 모든 자동상관 계수들의 평균이 계산된다:
Figure pct00065
여기서 Ncur=5이고, 즉 버퍼 크기가 10개의 10ms 프레임이다.
단계 502에서, LPC 필터 At(z)는 레빈슨-더빈 알고리즘에 기초하여 자동상관 계수 평균 Rt(j)로부터 계산되며, 여기서 계수는 at(j), j=0...10이다. 잔류 에너지 Et도 레빈슨-더빈 알고리즘에 기초하여 자동상관 계수 평균 Rt(j)로부터 계산되며, 이것은 현재의 수퍼프레임의 에너지 파라미터의 간단한 추정치로서 취해진다.
실제의 어플리케이션에서, 수퍼프레임 에너지 파라미터의 더 안정된 추정치를 획득하기 위해, 롱-텀 평활화(long-term smoothing)를 그 추정된 잔류 에너지 Et에 대해 수행하고, 그 평활화된 에너지 추정치 E_LT를 현재의 수퍼프레임의 에너지 파라미터의 최종 추정치로서 취할 수 있으며, 이것은 Et에 재할당된다. 평활화 동작은 다음과 같다:
Figure pct00066
여기서 0<α<1이다. 바람직한 실시예에서, α는 0.9가 될 수 있거나 필요에 따라 임의의 다른 값으로 설정될 수 있다.
단계 503에서, 알고리즘은 LPC 필터 계수 At(z)를 LSF 도메인으로 변환시킨 다음, 양자화 인코딩을 수행한다.
단계 504에서, 대수 도메인에서 잔류 에너지 파라미터 Et에 대해 선형 양자화를 수행한다.
배경 노이즈 저 대역 성분의 인코딩이 완료된 후, 이러한 인코딩된 비트는 SID에서 캡슐화되어 디코딩 측으로 전송된다. 그러므로 SID 프레임의 저대역 성분의 인코딩이 완료된다.
본 발명의 실시예에서, 제1 SID 프레임의 저대역 성분이 인코딩될 때, 잔존 단계 동안 배경 노이즈의 특성이 완전하게 고려된다. 잔존 위상 동안 배경 노이즈의 특성이 인코딩 파라미터에서 반영됨으로써 이러한 인코딩 파라미터는 현재의 배경 노이즈의 특성을 최대한으로 나타낸다. 그러므로 본 발명의 실시예에서의 파라미터 추출은 G.279B보다 더 정확하고 신뢰성 있게 될 수 있다.
Ⅲ. DTX 결정
설명을 간단히 하기 위해, 추출된 파라미터를 PARAt ,k의 형태로 표시하고, 여기서 t는 수퍼프레임 인덱스이고, "k=1,2"는 각각의 수퍼프레임에서 제1 및 제2 10ms 프레임에 대한 인덱스이다. 제1 수퍼프레임과 다른 비-음성 수퍼프레임에 있어서, 파라미터 추출 및 DTX 결정은 10ms 프레임마다 수행될 수 있다.
도 6은 저대역 성분 파라미터 추출 및 DTX를 나타내는 흐름도이고, 이하와 같은 단계를 포함한다.
첫째, 제1 수퍼프레임 후의 제1 10ms 프레임에 대해 배경 노이즈 파라미터 추출 및 DTX 결정이 수행된다.
제1 10ms 프레임에 있어서, 스펙트럼 파라미터 배경 노이즈의 At ,1(z) 및 여기 에너지 파라미터 Et ,1은 다음과 같이 계산될 수 있다.
단계 601에서, 현재 프레임의 고정 평균 자동상관 계수 Rt ,1(j)은 4개의 최근의 연속적인 10ms 프레임, r't ,1(j), r'(t-1),2(j), r'(t-1),1(j), r'(t-2),2(j)의 자동상관 계수에 대한 값들에 기초해서 계산될 수 있다:
Figure pct00067
여기서 rmin1(j) 및 rmin2(j)는 r't ,1(j), r'(t-1),2(j), r'(t-1),1(j), r'(t-2),2(j) 중에서 다음의 가장 작은 자동상관 계수 놈(norm) 값 및 그 다음의 가장 작은 자동상관 계수 놈을 가지는 자동상관 계수들을 나타내며, 즉 가장 큰 자동상관 계수 놈 값 및 가장 작은 자동상관 계수 놈 값을 배제한 중간 자동상관 계수 놈 값들을 가지는 두 개의 10ms 프레임의 자동상관 계수들이다.
r't ,1(j), r'(t-1),2(j), r'(t-1),1(j), r'(t-2),2(j)의 자동상관 계수 놈은 다음과 같다:
Figure pct00068
중간의 자동상관 계수 놈 값을 가지는 두 개의 10ms 프레임의 자동상관 계수들에 대응하는 rmin1(j) 및 rmin2(j)에 따라 4개의 자동상관 계수 놈 값들이 분류된다.
단계 602에서, 배경 노이즈의 LPC 필터 At ,1(z)은 레빈슨-더빈 알고리즘에 기초하여 현재 프레임의 고정 평균 자동상관 계수 Rt ,1(z)로부터 계산되며, 여기서 계수들은 at(j), j=0...10이다. 잔류 에너지 Et ,1도 레빈슨-더빈 알고리즘에 기초해서 현재 프레임의 고정 평균 자동상관 계수 Rt ,1(j)로부터 계산된다.
실제의 어플리케이션에서, 프레임 에너지의 더 안정한 추정치를 획득하기 위해, 롱-텀 평활화(long-term smoothing)를 그 추정된 잔류 에너지 Et ,1에 대해 수행하고, 그 평활화된 에너지 추정치 E_LT를 현재 프레임의 여기 에너지 추정치로서 취할 수 있으며, 이것은 Et ,1에 재할당된다. 평활화 동작은 다음과 같다:
Figure pct00069
여기서 α는 0.9이다.
단계 603에서, 파라미터 추출 후, 현재의 10ms 프레임에 대해 DTX 결정이 수행된다. 구체적으로, DTX 결정은 다음과 같다.
알고리즘은 이전의 SID 수퍼프레임에서의 저대역 성분 인코딩 파라미터(SID 수퍼프레임은 DTX 결정이 수행된 후 인코딩되어 전송될 배경 노이즈 수퍼프레임이다. 수퍼프레임이 전송되지 않았다는 것으로 DTX 결정이 나타내면, SID 수퍼프레임이라는 명칭이 부여되지 않는다)와 현재의 10ms 프레임의 그 대응하는 인코딩 파라미터를 비교한다. 현재의 LPC 필터 계수가 이전의 SID 수퍼프레임에서의 LPC 필터 계수와 크게 다르거나 현재의 에너지 파라미터가 이전의 SID 수퍼프레임의 에너지 파라미터와 크게 다른 경우(이하의 알고리즘을 참조), 현재의 10ms 프레임의 파라미터 변화 플래그 flag_change_first는 1에 설정된다. 그렇지 않으면, 0으로 설정된다. 이번 단계에서의 특정한 결정 방법은 G.729B와 유사하다.
첫째, 이전의 SID 수퍼프레임에서 LPC 필터 Asid(z)의 계수가 asid(j), j=0...10인 것으로 가정한다. 현재의 10ms 프레임과 이전의 SID 수퍼프레임의 LPC 필터들 간의 이타쿠라 거리가 소정의 임계치를 초과하면, flag_change_first는 1에 설정된다. 그렇지 않으면, 0에 설정된다.
Figure pct00070
thr은 특정의 임계치이고, 일반적으로 1.0 내지 1.5의 범위 내에 있다. 본 실시예에서는 1.342676475이다. Ra(j), j=0...10은 이전의 SID 수퍼프레임의 LPC 필터 계수의 자동상관 계수들이다.
Figure pct00071
그런 다음, 전체적으로 4개의 10ms 프레임, 즉 현재의 10ms 프레임과 3개의 최근의 10ms 프레임의 잔류 에너지의 평균을 계산할 수 있다:
Figure pct00072
노이즈 인코딩 단계 동안 현재의 수퍼프레임이 제2 수퍼프레임이면(즉, 그 이전의 수퍼프레임이 제1 수퍼프레임이다), Et -2,2의 값은 0이다.
Figure pct00073
은 대수 도메인에서 양자화기로 양자화된다. 디코딩된 대수 에너지 Eq ,1은 이전의 SID 수퍼프레임의 디코딩된 대수 에너지
Figure pct00074
와 비교된다. 이것들이 3dB 이상 차이가 나는 경우, flag_change_first는 1에 설정된다. 그렇지 않으면, 0에 설정된다:
Figure pct00075
당업자라면 두 개의 여기 에너지 간의 차이가 필요에 따라 임의의 다른 값으로 설정될 수 있다는 것을 이해할 것이며, 이러한 값은 본 발명의 범주 내에 해당되는 값이다.
배경 노이즈 파라미터 추출 및 제1 10ms 프레임의 DTX 결정 후, 배경 노이즈 파라미터 추출 및 DTX 결정은 제2 10ms 프레임에 대해 수행될 수 있다.
배경 노이즈 파라미터 추출 및 제2 10ms 프레임의 DTX 결정은 제1 10ms 프레임과 유사하다. 제2 10ms 프레임의 관련 파라미터는: 4개의 연속적인 10ms 프레임의 자동상관 계수들의 고정 평균 Rt ,2(j), 4개의 연속적인 10ms 프레임의 프레임 에너지의 평균
Figure pct00076
, 및 제2 10ms 프레임의 DTX 플래그 flag_change_second.
Ⅳ. 현재의 프레임의 저대역 성분에 대한 배경 노이즈 파라미터 추출 및 DTX 결정
도 7은 현재의 프레임에서 저대역 성분 배경 노이즈 파라미터 추출 및 DTX 결정을 나타내는 흐름도이며, 다음과 같은 단계를 포함한다.
단계 701에서, 현재 프레임의 저대역 성분의 최종 DTX 플래그 flag_change는 다음과 같이 결정된다:
Figure pct00077
환언하면, 10ms 프레임의 DTX 결정이 1을 나타내면, 현재 프레임의 저대역 성분의 최종 결정은 1을 나타낸다.
단계 702에서, 현재의 수퍼프레임의 최종 DTX 결정이 이루어지고, 현재의 수퍼프레임의 최종 DTX 결정은 현재 수퍼프레임의 고대역 성분을 포함한다. 이때, 고대역 성분의 특성도 고려되어야 한다. 현재의 수퍼프레임의 최종 DTX 결정은 저대역 성분 및 고대역 성분 모두에 의해 이루어진다. 현재의 수퍼프레임의 최종 DTX 결정이 1을 나타내면, 단계 703이 수행된다. 현재의 수퍼프레임의 최종 DTX 결정이 0을 나타내면, 디코딩은 수행되지 않으며 데이터를 포함하지 않는 NODATA가 디코딩 측에 송신된다.
단계 703에서, 현재의 수퍼프레임의 최종 DTX 결정이 1을 나타내면, 현재의 수퍼프레임의 배경 노이즈 특성 파라미터(들)가 추출된다. 현재의 수퍼프레임의 배경 노이즈 특성 파라미터(들)가 추출되는 소스는 두 개의 현재 10ms 프레임의 파라미터일 수 있다. 환언하면, 현재의 두 개의 10ms 프레임의 파라미터를 평활화하여 현재의 수퍼프레임의 배경 노이즈 인코딩 파라미터를 획득한다. 배경 노이즈 특성 파라미터를 추출하고 배경 노이즈 특성 파라미터를 평활화하는 프로세스는 다음과 같다:
첫째, 평활화 인자 smooth_rate를 결정한다:
Figure pct00078
환언하면, 제1 10ms 프레임의 DTX 결정이 0을 나타내고 제2 10ms 프레임의 DTX 결정이 1을 나타내면, 평활화 동안 제1 10ms 프레임의 배경 노이즈 특성 파라미터에 대한 평활화 가중은 0.1이고 제2 10ms 프레임의 배경 노이즈 특성 파라미터의 평균 가중은 0.9이다. 그렇지 않으면, 두 개의 10ms 프레임의 배경 노이즈 특성 파라미터에 대한 평활화 가중은 모두 0.5이다.
그런 다음, 두 개의 10ms 프레임의 배경 노이즈 특성 파라미터가 평활화되어 현재의 수퍼프레임의 LPC 필터 계수를 획득하고 두 개의 10ms 프레임의 프레임 에너지의 평균을 계산한다. 프로세스는 다음과 같다.
첫째, 두 개의 10ms 프레임의 자동상관 계수의 고정 평균으로부터 그 평활화된 평균 Rt(j)를 다음과 같이 계산할 수 있다:
Figure pct00079
평활화된 평균 Rt(j)를 계산한 후, 레빈슨-더빈 알고리즘에 기초해서 LPC 필터 At(z)을 획득할 수 있다. 계수는 at(j), j=0,...,10이다.
그런 다음, 두 개의 10ms 프레임의 프레임 에너지의 평균
Figure pct00080
를 계산할 수 있다:
Figure pct00081
이 방법에서, 현재의 수퍼프레임의 저대역 성분의 인코딩 파라미터를 획득할 수 있다: LPC 필터 계수 및 프레임 에너지 평균. 배경 노이즈 특성 파라미터 추출 및 DTX 제어는 현재의 수퍼프레임에서 각각의 10ms 프레임의 특성들을 완전하게 고려하였다. 그러므로 알고리즘은 정확하다.
Ⅵ. SID 프레임 인코딩
G.729B와 마찬가지로, SID 프레임의 스펙트럼 파라미터들의 최종 인코딩은 연속적인 노이즈 프레임들 간의 안정성을 고려하였다. 특정한 연산은 G.729B와 유사하다.
첫째, 현재의 수퍼프레임 이전의 Np 수퍼프레임들의 평균 LPC 필터
Figure pct00082
를 계산한다. 자동상관 함수
Figure pct00083
의 평균을 여기서 사용한다. 이때,
Figure pct00084
를 레빈슨-더빈 알고리즘에 입력하여
Figure pct00085
를 얻는다.
Figure pct00086
는 다음과 같이 표현될 수 있다:
Figure pct00087
여기서 Np의 값은 5에 고정되어 있다. 그러므로 SID-LPC 필터는 다음과 같이 주어진다:
Figure pct00088
환언하면, 알고리즘은 수 개의 이전의 수퍼프레임의 평균 LPC 필터 계수
Figure pct00089
를 계산할 것이다. 그런 다음, 현재의 LPC 필터 At(z)과 비교된다. 두 계수 간에 약간의 차이가 있다면, LPC 계수가 양자화될 때 수 개의 이전의 수퍼프레임의 평균
Figure pct00090
이 현재의 수퍼프레임을 위해 선택될 것이다. 그렇지 않으면, 현재의 수퍼프레임의 At(z)이 선택된다. 특정의 비교 방법은 단계 602에서 10ms 프레임에 대한 DTX 결정 방법과 유사하고, 여기서 thr3은 특성의 임계치이고 일반적으로는 1.0과 1.5 사이이다. 본 실시예에서는 1.0966466이다. 당업자라면 필요에 따라 임의의 다른 값으로 설정될 수 있다는 것을 이해할 것이며, 이러한 값은 본 발명의 범주 내에 해당되는 값이다.
LPC 필터 계수를 선택한 후, 알고리즘은 이러한 LPC 필터 계수를 LSF 도메인으로 변환시킨다. 그런 다음, 양자화 인코딩이 수행된다. 양자화 인코딩의 선택 방법은 G.729B에서의 양자화 인코딩 방법과 유사하다.
대수 도메인에서 에너지 파라미터에 대해 선형 양자화가 수행된다. 그런 다음, 인코딩된다. 그러므로 배경 노이즈의 인코딩이 완료된다. 그런 다음, 이러한 인코딩된 비트들이 SID 프레임으로 캡슐화된다.
Ⅶ. CNG 방식
CELP 모델에 기반한 인코딩에서, 최적의 인코딩 파라미터를 획득하기 위해, 인코딩 측도 디코딩 프로세스를 포함하며, 이것은 CNG 시스템에서는 예외가 없다. 즉, G.729.1에서, 인코딩 측도 CNG 모듈을 포함해야 한다. G.729.1에서의 CNG에 있어서, 그 프로세스 흐름은 G.729B에 기초한다. 프레임 길이가 20ms일지라도, 배경 노이즈는 여전히 기본적인 데이터 처리 길이와 같이 10ms로 처리된다. 이전의 장(section)으로부터, 제1 SID 수퍼프레임의 인코딩 파라미터는 제2 10ms 프레임에서 인코딩된다는 것은 알려져 있다. 그러나 이 경우, 시스템은 제1 SID 수퍼프레임의 제1 10ms 프레임에서 CNG 파라미터들을 생성해야만 한다. 분명하게도, 제1 SID 수퍼프레임의 제1 10ms 프레임의 CNG 파라미터들은 SID 수퍼프레임의 인코딩 파라미터로부터 획득될 수 없지만, 이전의 음성 인코딩 수퍼프레임으로부터는 획득될 수 있다. 이러한 특별함 때문에, G.729.1에서 제1 SID 수퍼프레임의 제1 10ms 프레임에서의 CNG 방식은 G.729B와는 다르다. G.729B와 전술한 CNG 방식은 비교해 보면, 그 차이점은 다음과 같다.
(1) 표적 여기 이득
Figure pct00091
은 롱-텀 평활화된 고정 코드북 이득
Figure pct00092
에 의해 정의되고, 이것은 음성 인코딩 프레임의 고정 코드북 이득으로부터 평활화된다:
Figure pct00093
여기서 0<γ<1이다. 본 실시예에서는, γ=0.4가 선택될 수 있다.
(2) LPC 필터 계수 Asid(z)는 롱-텀 평활화된 LPC 필터 계수
Figure pct00094
에 의해 정의되며, 이것은 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되다.
Figure pct00095
다른 연산은 729B와 유사하다.
고정 코드북 이득 및 이 고정 코드북 이득으로부터 평활화된 LPC 필터 계수 및 음성 인코딩 프레임의 LPC 필터 계수를 각각 gain_code 및 Aq(z)으로 놓자. 이러한 롱-텀 평활화된 파라미터들은 다음과 같이 계산될 수 있다.
Figure pct00096
위의 연산은 음성 수퍼프레임의 각각의 서브프레임에서 평활화를 수행하고, 평활화 인자 β의 범위는 0<β<1이다. 본 실시예에서, β는 0.5이다.
부가적으로, 제1 SID 수퍼프레임의 제1 10ms 프레임은 729B와는 약간 다르다는 점을 제외하곤, 모든 다른 10ms 프레임 모두에 있어서 CNG 방식은 G.729B와 유사하다.
위의 실시예에서, 잔존 기간은 120ms 또는 140ms이다.
위의 실시예에서, 잔존 기간 내에서 배경 노이즈 특성 파라미터를 추출하는 프로세스는, 잔존 기간 내의 수퍼프레임의 각각의 프레임에 있어서, 프레임의 배경 노이즈의 자동상관 계수를 저장하는 단계를 포함한다.
위의 실시예에서, 잔존 기간 후의 제1 수퍼프레임에 있어서, 잔존 기간 내에서 그 추출된 배경 노이즈 특성 파라미터 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터에 기초하여 배경 노이즈를 수행하는 프로세스는:
잔존 기간 후 제1 수퍼프레임의 제1 프레임 및 제2 프레임 내에서, 각각의 프레임의 배경 노이즈의 자동상관 계수를 저장하는 단계; 및
제2 프레임 내에서, 두 개의 프레임의 그 추출된 자동상관 계수 및 잔존 기간 내의 배경 노이즈 특성 파라미터에 기초해서 제1 수퍼프레임의 LPC 필터 계수 및 잔류 에너지 Et를 추출하고, 배경 노이즈 인코딩을 수행하는 단계
를 포함한다.
위의 실시예에서, 상기 LPC 필터 계수를 추출하는 프로세스는,
제1 수퍼프레임 및 이 제1 수퍼프레임 이전에 있는 4개의 수퍼프레임의 자동상관 계수들의 평균을 잔존 기간 내에 계산하는 단계; 및
레빈슨-더빈 알고리즘에 기초해서 자동상관 계수들의 평균으로부터 LPC 필터 계수를 계산하는 단계
를 포함한다.
상기 잔류 에너지 Et를 추출하는 프로세스는 레빈슨-더빈 알고리즘에 기초해서 잔류 에너지를 계산하는 단계를 포함할 수 있다.
제2 프레임 내에서 배경 노이즈 인코딩을 수행하는 프로세스는,
LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하는 단계; 및
대수 도메인에서 잔류 에너지에 대해 선형 양자화 인코딩을 수행하는 단계
를 포함한다.
위의 실시예에서, 잔류 에너지를 계산한 후 그리고 잔류 에너지를 양자화하기 전에, 상기 방법은,
잔류 에너지에 대한 롱-텀 평활화를 수행하는 단계
를 더 포함하고,
평활화 알고리즘은 E_LT = αE_LT + (1-α)Et이고, 단 0<α<1이고, 롱-텀 평활화 에너지 추정치 E_LT의 값이 잔류 에너지의 값이다.
위의 실시예에서, 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 제1 수퍼프레임 후에 이 수퍼프레임들의 각각의 프레임에 대한 배경 노이즈 특성 파라미터 추출을 수행하는 프로세스는,
최근 4개의 연속적인 프레임의 자동상관 계수들의 값들에 기초해서 현재 프레임의 고정 평균 자동상관 계수를 계산하는 단계로서, 상기 고정 평균 자동상관 계수는 최근 4개의 연속적인 프레임의 자동상관 계수들의 중간 놈 값들을 가지는 두 개의 프레임의 자동상관 계수들의 평균인, 상기 고정 평균 자동상관 계수를 계산하는 단계; 및
레빈슨-더빈 알고리즘에 기초해서 고정 평균 자동상관 계수로부터 LPC 필터 계수 및 배경 노이즈의 잔류 에너지를 계산하는 단계
를 포함한다.
위의 실시예에서, 잔류 에너지를 계산한 후, 상기 방법은,
현재 프레임의 에너지 추정치를 획득하기 위해 잔류 에너지에 대해 롱-텀 평활화를 수행하는 단계
를 더 포함할 수 있고,
평활화 알고리즘은
E_LT = αE_LT1 + (1-α)Et ,k이고, 단 0<α<1이고, 현재 프레임의 평활화된 에너지 추정치는 잔류 에너지로서 할당되며, 이 할당 알고리즘은 다음과 같고,
Et ,k = E_LT
여기서, k=1,2이고 제1 프레임 및 제2 프레임을 각각 나타낸다.
다양한 실시예에서, α=0.9이다.
위의 실시예에서, 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 제1 수퍼프레임 후에 이 수퍼프레임들의 각각의 프레임에 대한 DTX 결정을 수행하는 프로세스는,
현재 프레임의 LPC 필터 계수 및 이전의 SID 수퍼프레임의 LPC 필터 계수가 사전 설정된 임계치를 초과하거나 현재 프레임의 에너지 추정치가 이전의 SID 수퍼프레임의 에너지 추정치와는 실질적으로 다르면, 현재 프레임의 파라미터 변화 플래그를 1에 설정하는 단계; 및
현재 프레임의 LPC 필터 계수 및 이전의 SID 수퍼프레임의 LPC 필터 계수가 사전 설정된 임계치를 초과하지 않거나 현재 프레임의 에너지 추정치가 이전의 SID 수퍼프레임의 에너지 추정치와는 실질적으로 다르지 않으면, 현재 프레임의 파라미터 변화 플래그를 0에 설정하는 단계
를 포함할 수 있다.
위의 실시예에서, 현재 프레임의 에너지 추정치가 이전의 SID 수퍼프레임의 에너지 추정치와는 실질적으로 다르면,
4개의 프레임(현재의 10ms 프레임 및 최근 3개의 이전 프레임)의 잔류 에너지들의 평균을 현재 프레임의 에너지 추정치로서 계산하는 단계;
잔류 에너지들의 평균을 대수 도메인에서 양자화기로 양자화하는 단계; 및
디코딩된 대수 에너지와 이전의 SID 수퍼프레임의 디코딩된 대수 에너지 간의 차이가 사전 설정된 값을 초과하면, 현재 프레임의 에너지 추정치가 이전의 SID 수퍼프레임의 에너지 추정치와 실질적으로 다르다고 결정하는 단계
를 더 포함할 수 있다.
위의 실시예에서, 제1 수퍼프레임 후에 수퍼프레임들에서의 각각의 프레임에 대한 DTX 결정을 수행하는 프로세스는,
현재의 수퍼프레임의 프레임이 1의 DTX 결정을 가지면, 현재의 수퍼프레임의 저대역 성분의 DTX 결정은 1을 나타내는 것을 포함한다.
위의 실시예에서, 현재의 수퍼프레임의 최종 DTX 결정이 1을 나타내면, "제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 그 추출된 배경 노이즈 특성 파라미터, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터, 및 최종 DTX 결정에 기초해서 배경 노이즈 인코딩을 수행하는" 프로세스는,
현재의 수퍼프레임의 제1 프레임의 DTX 결정이 제로를 나타내고 제2 프레임의 DTX 결정이 1을 나타내면, 평활화 인자는 0.1이고, 그렇지 않으면, 평활화 인자는 0.5인 것을 포함하는, 현재의 수퍼프레임에 대한 평활화 인자를 결정하는 단계; 및
현재 수퍼프레임의 제1 프레임 및 제2 프레임에 대한 파라미터 평활화를 수행하는 단계로서, 평활화된 파라미터는 배경 노이즈 인코딩을 수행하기 위한 현재의 수퍼프레임의 특성 파라미터인, 상기 평활화를 수행하는 단계;
상기 파라미터 평활화는,
제1 프레임의 고정 평균 자동상관 계수 및 제2 프레임의 고정 평균 자동상관 계수로부터 평활화된 평균 Rt(j)을 Rt(j)=smooth_rateRt ,1(j)+(1-smooth_rate)Rt ,2(j)에 따라 계산하는 단계로서, 여기서 smooth_rate는 평활화 인자이고, Rt , 1(j)는 제1 프레임의 고정 평균 자동상관 계수이고, Rt ,2(j)는 제2 프레임의 고정 평균 자동상관 계수인, 상기 평활화된 평균 Rt(j)을 계산하는 단계;
레빈슨-더빈 알고리즘에 기초하여 평활화된 평균 Rt(j)로부터 LPC 필터 계수를 계산하는 단계; 및
상기 제1 프레임의 에너지 추정치 및 상기 제2 프레임의 에너지 추정치로부터 평활화된 평균
Figure pct00097
Figure pct00098
에 따라 계산하는 단계로서, 여기서
Figure pct00099
은 제1 프레임의 에너지 추정치이고,
Figure pct00100
는 제2 프레임의 에너지 추정치인, 상기 평활화된 평균
Figure pct00101
을 계산하는 단계
를 포함할 수 있다.
위의 실시예에서, "현재의 수퍼프레임의 그 추출된 배경 노이즈 특성 파라미터들, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종 DTX 결정에 기초해서 배경 노이즈 인코딩을 수행하는" 프로세스는,
현재의 서브프레임 이전의 복수의 서브프레임의 자동상관 계수들의 평균을 계산하는 단계;
현재의 수퍼프레임 이전의 복수의 수퍼프레임의 자동상관 계수들의 평균에 기초하여 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 평균 LPC 필터 계수를 계산하는 단계;
평균 LPC 필터 계수와 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 작거나 같으면, 평균 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하는 단계;
평균 LPC 필터 계수와 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 크면, 현재의 수퍼프레임의 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하는 단계; 및
대수 도메인에서 에너지 파라미터(들)에 대해 선형 양자화 인코딩을 수행하는 단계
를 포함할 수 있다.
위의 실시예에서, 복수의 수퍼프레임의 수는 5이다. 당업자는 필요에 따라 임의의 다른 수의 프레임을 선택할 수 있다.
위의 실시예에서, 잔존 기간 내에 배경 노이즈 특성 파라미터들을 추출하는 프로세스 이전에, 상기 방법은,
잔존 기간 내에 배경 노이즈를 음성 인코딩 레이트로 인코딩하는 단계
를 더 포함할 수 있다.
도 8은 본 발명에 따른 디코딩 방법의 제1 실시예를 도시하며, 이하의 단계를 포함한다.
단계 801에서, 제1 수퍼프레임의 제1 프레임 이전의 음성 인코딩 프레임으로부터 제1 수퍼프레임의 제1 프레임에 대한 CNG 파라미터를 획득한다.
단계 802에서, CNG 파라미터들에 기초해서 제1 수퍼프레임의 제1 프레임에 대한 배경 노이즈 디코딩을 수행한다. CNG 파라미터는,
음성 인코딩 프레임의 고정 코드북 이득으로부터 평활화되는 롱-텀 평활화 고정 코드북 이득에 의해 결정되는 표적 여기 이득(target excited gain); 및
음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화 LPC 필터 계수에 의해 정의되는 LPC 필터 계수
를 포함할 수 있다.
실제의 어플리케이션에서, 표적 여기 이득은 다음과 같이 결정될 수 있다:
표적 여기 이득 = γ*고정 코드북 이득, 0<γ<1.
실제의 어플리케이션에서, 필터 계수는 다음과 같이 정의될 수 있다:
필터 계수 = 음성 인코딩 프레임의 필터 계수로부터 평활화되는 롱-텀 평활화된 필터 계수.
위의 어플리케이션에서, 롱-텀 평활화 계수는 0 이상이거나 1 이하일 수 있다.
위의 어플리케이션에서, 롱-텀 평활화 인자는 0.5이다.
위의 어플리케이션에서, γ=0.4이다.
위의 어플리케이션에서, 제1 수퍼프레임의 제1 프레임에 대한 배경 노이즈 디코딩을 수행하는 프로세스 후,
제1 수퍼프레임의 제1 프레임이 아닌 프레임들에 있어서, 이전의 SID 수퍼프레임으로부터 CNG 파라미터들을 획득하는 단계 후, 상기 획득된 CNG 파라미터들에 기초하여 배경 노이즈 디코딩을 수행하는 단계
가 포함될 수 있다.
도 9는 본 발명의 제1 실시예에 따른 인코딩 장치를 도시한다.
제1 추출 유닛(901)은 잔존 기간 내에 배경 노이즈 특성 파라미터들을 추출하도록 구성되어 있다.
제2 인코딩 유닛(902)은 잔존 기간 후의 제1 수퍼프레임에 있어서, 잔존 기간 내에 상기 추출된 배경 노이즈 특성 파라미터들 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하도록 구성되어 있다.
제2 추출 유닛(903)은 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 제1 수퍼프레임 후의 수퍼프레임들의 각각의 프레임에 대해 배경 노이즈 특성 파라미터 추출을 수행하도록 구성되어 있다.
DTX 결정 유닛(904)은 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 제1 수퍼프레임 후의 수퍼프레임들의 각각의 프레임에 대해 DTX 결정을 수행하도록 구성되어 있다.
제3 인코딩 유닛(905)은 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터(들), 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩을 수행하도록 구성되어 있다.
위의 실시예에서, 잔존 기간은 102ms 또는 140ms이다.
위의 실시예에서, 제1 추출 유닛은,
잔존 기간 내의 수퍼프레임의 각각의 프레임에 있어서, 잔존 기간 내의 수퍼프레임의 각각의 프레임의 배경 노이즈의 자동상관 계수를 저장하도록 구성되어 있는 버퍼 모듈
을 포함한다.
위의 실시예에서, 제2 인코딩 유닛은,
잔존 기간 후의 제1 수퍼프레임의 제1 프레임 및 제2 프레임 내에서, 잔존 기간 후에 제1 수퍼프레임의 대응하는 제1 프레임 및 제2 프레임의 배경 노이즈의 자동상관 계수를 저장하도록 구성되어 있는 추출 모듈; 및
잔존 기간 후의 제1 수퍼프레임의 제2 프레임 내에서, 제1 프레임 및 제2 프레임의 추출된 자동상관 계수 및 잔존 기간 내의 그 추출된 배경 노이즈 특성 파라미터들에 기초해서 LPC 필터 계수 및 제1 수퍼프레임의 잔류 에너지를 추출하도록 구성된 인코딩 모듈
을 포함한다.
위의 실시예에서, 제2 인코딩 유닛은,
잔류 에너지에 대한 롱-텀 평활화를 수행하도록 구성되어 있는 잔류 에너지 평활화 모듈
을 포함하며,
평활화 알고리즘은 E_LT = αE_LT + (1-α)Et이고, 단 0<α<1이고, 평활화된 에너지 추정치 E_LT의 값이 잔류 에너지의 값이다.
위의 실시예에서, 제2 추출 유닛은,
최근 4개의 연속적인 프레임의 자동상관 계수들의 값들에 기초해서 현재 프레임의 고정 평균 자동상관 계수를 계산하도록 구성되어 있는 제1 계산 모듈로서, 상기 고정 평균 자동상관 계수는 최근 4개의 연속적인 프레임의 자동상관 계수들의 중간 놈 값들을 가지는 두 개의 프레임의 자동상관 계수들의 평균인, 상기 제1 계산 모듈; 및
레빈슨-더빈 알고리즘에 기초해서 고정 평균 자동상관 계수로부터 LPC 필터 계수 및 배경 노이즈의 잔류 에너지를 계산하도록 구성되어 있는 제2 계산 모듈
을 포함한다.
위의 실시예에서, 제2 추출 유닛은,
현재 프레임의 에너지 추정치를 획득하기 위해 잔류 에너지에 대해 롱-텀 평활화를 수행하도록 구성되어 있는 제2 잔류 에너지 평활화 모듈
를 더 포함할 수 있고,
평활화 알고리즘은
E_LT = αE_LT1 + (1-α)Et ,k이고, 단 0<α<1이고, 현재 프레임의 평활화된 에너지 추정치는 잔류 에너지로서 할당되며, 이 할당 알고리즘은 다음과 같고,
Et ,k = E_LT
여기서, k=1,2이고 제1 프레임 및 제2 프레임을 각각 나타낸다.
위의 실시예에서, DTX 결정 유닛은,
현재 프레임의 LPC 필터 계수 및 이전의 SID 수퍼프레임의 LPC 필터 계수가 사전 설정된 임계치를 초과하면, 결정 커맨드를 발생시키는 임계치 비교 모듈;
4개의 프레임(현재의 프레임 및 최근 3개의 이전의 프레임)의 잔류 에너지들의 평균을 현재 프레임의 에너지 추정치로서 계산하고, 대수 도메인에서 상기 잔류 에너지들의 평균을 양자화기로 양자화하고, 디코딩된 대수 에너지와 이전의 SID 수퍼프레임의 디코딩된 대수 에너지의 차이가 사전 설정된 값을 초과하면, 결정 커맨드를 발생시키는 에너지 비교 모듈; 및
상기 결정 커맨드에 따라 현재 프레임의 파라미터 변화 플래그를 1에 설정하도록 구성되어 있는 제1 결정 모듈
을 더 포함할 수 있다.
위의 실시예에서,
현재 수퍼프레임의 프레임에 대한 DTX 결정이 1을 나타내면, 현재의 수퍼프레임의 저대역 성분에 대한 DTX 결정이 1을 나타내도록 구성되어 있는 제2 결정 유닛
이 포함될 수 있다.
제3 인코딩 유닛은,
현재의 수퍼프레임의 최종 DTX 결정이 1을 나타내면, 평활화 커맨드를 발생시키도록 구성된 평활화 커맨드 모듈; 및
상기 평활화 커맨드를 수신하면, 현재의 수퍼프레임에 대한 평활화 인자를 결정하도록 구성되어 있는 평활화 인자 결정 모듈
을 포함할 수 있다.
현재의 수퍼프레임의 제1 프레임의 DTX 결정이 제로를 나타내고 제2 프레임의 DTX 결정이 1을 나타내면, 평활화 인자는 0.1이고, 그렇지 않으면, 평활화 인자는 0.5이다.
파라미터 평활화 모듈은,
현재 수퍼프레임의 제1 프레임 및 제2 프레임에 대한 파라미터 평활화를 수행하도록 구성되어 있고, 상기 평활화된 파라미터들은 배경 노이즈 인코딩을 수행하기 위한 현재의 수퍼프레임의 특성 파라미터들이고,
상기 파라미터 평활화는,
제1 프레임의 고정 평균 자동상관 계수 및 제2 고정 평균 자동상관 계수로부터 평활화된 평균 Rt(j)을 Rt(j)=smooth_rateRt ,1(j)+(1-smooth_rate)Rt ,2(j)에 따라 계산하는 단계로서, 여기서 smooth_rate는 평활화 인자이고, Rt , 1(j)는 제1 프레임의 고정 평균 자동상관 계수이고, Rt ,2(j)는 제2 프레임의 고정 평균 자동상관 계수인, 상기 평활화된 평균 Rt(j)을 계산하는 단계;
레빈슨-더빈 알고리즘에 기초하여 평활화된 평균 Rt(j)로부터 LPC 필터 계수를 계산하는 단계; 및
상기 제1 프레임의 에너지 추정치 및 상기 제2 프레임의 에너지 추정치로부터 평활화된 평균
Figure pct00102
Figure pct00103
에 따라 계산하는 단계로서, 여기서
Figure pct00104
은 제1 프레임의 에너지 추정치이고,
Figure pct00105
는 제2 프레임의 에너지 추정치인, 상기 평활화된 평균
Figure pct00106
을 계산하는 단계
를 포함할 수 있다.
위의 실시예에서, 제3 인코딩 유닛은,
현재의 수퍼프레임 이전의 복수의 수퍼프레임의 자동상관 계수들의 계산된 평균에 기초하여 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 평균 LPC 필터 계수를 계산하도록 구성되어 있는 제3 계산 유닛;
평균 LPC 필터 계수와 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 작거나 같으면, 평균 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하도록 구성되어 있는 제1 인코딩 모듈;
평균 LPC 필터 계수와 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 크면, 현재의 수퍼프레임의 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하도록 구성되어 있는 제2 인코딩 모듈; 및
대수 도메인에서 에너지 파라미터에 대해 선형 양자화 인코딩을 수행하도록 구성되어 있는 제3 인코딩 모듈
을 포함할 수 있다.
위의 실시예에서, α=0.9이다.
위의 실시예에서,
잔존 기간 내에 배경 노이즈를 음성 인코딩 레이트로 인코딩하도록 구성되어 있는 제1 인코딩 유닛
이 포함될 수 있다.
본 발명의 인코딩 장치는 본 발명의 인코딩 방법에 대응하는 작업 프로세스를 가진다. 따라서, 대응하는 방법 실시예와 동일한 기술적 효과가 달성될 수 있다.
도 10은 본 발명의 제1 실시예에 따른 디코딩 장치를 도시한다.
CNG 파라미터 획득 유닛(1001)은 제1 수퍼프레임의 제1 프레임 이전의 음성 인코딩 프레임으로부터 제1 수퍼프레임의 제1 프레임에 대한 CNG 파라미터들을 획득하도록 구성되어 있다.
제1 디코딩 유닛(1002)은 CNG 파라미터들에 기초하여 제1 수퍼프레임의 제1 프레임에 대해 배경 노이즈 디코딩을 수행하도록 구성되어 있으며,
상기 CNG 파라미터들은,
음성 인코딩 프레임의 고정 코드북 이득으로부터 평활화되는 롱-텀 평활화 고정 코드북 이득에 의해 결정되는 표적 여기 이득(target excited gain); 및
음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화 LPC 필터 계수에 의해 정의되는 LPC 필터 계수
를 포함한다.
실제의 어플리케이션에서, 표적 이득은 다음과 같이 결정될 수 있다:
표적 여기 이득 = γ*고정 코드북 이득, 0<γ<1.
실제의 어플리케이션에서, 필터 계수는 다음과 같이 정의될 수 있다:
필터 계수 = 음성 인코딩 프레임의 필터 계수로부터 평활화되는 롱-텀 평활화된 필터 계수.
위의 어플리케이션에서, 롱-텀 평활화 계수는 0 이상이거나 1 이하일 수 있다.
바람직하게, 롱-텀 평활화 인자는 0.5일 수 있다.
위의 어플리케이션에서,
제1 수퍼프레임이 아닌 프레임들에 있어서, 이전의 SID 수퍼프레임으로부터 CNG 파라미터들을 획득한 후, 상기 획득된 CNG 파라미터들에 기초하여 배경 노이즈 디코딩을 수행하도록 구성되어 있는 제2 디코딩 유닛
도 포함될 수 있다.
위의 실시예에서, γ=0.4이다.
본 발명의 디코딩 장치는 본 발명의 디코딩 방법에 대응하는 작업 프로세스를 가진다. 따라서, 대응하는 디코딩 방법 실시예와 동일한 기술적 효과가 달성될 수 있다.
본 발명의 전술한 실시예들은 본 발명의 범주를 제한하는 데 사용되지 않는다. 본 발명의 정신 및 원리 내에서 이루어진 다양한 변화, 동등한 대체, 및 개선은 본 발명의 범주 내에 해당된다.

Claims (42)

  1. 인코딩 방법에 있어서,
    잔존 기간(hangover period) 내에 배경 노이즈 특성 파라미터들을 추출하는 단계;
    상기 잔존 기간 후의 제1 수퍼프레임에 있어서, 상기 잔존 기간 내에서 상기 추출된 배경 노이즈 특성 파라미터들 및 상기 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하는 단계;
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대한 배경 노이즈 특성 파라미터 추출 및 DTX(Discontinuous Transmission) 결정을 수행하는 단계;
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터들, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩을 수행하는 단계
    를 포함하는 인코딩 방법.
  2. 제1항에 있어서,
    상기 잔존 기간은 120ms 또는 140ms인, 인코딩 방법.
  3. 제1항에 있어서,
    상기 잔존 기간 내에 배경 노이즈 특성 파라미터들을 추출하는 단계의 프로세스는,
    상기 잔존 기간 내의 수퍼프레임의 각각의 프레임에 있어서, 상기 잔존 기간 내에서 상기 수퍼프레임의 각각의 프레임의 배경 노이즈의 자동상관 계수를 획득하는 단계
    를 포함하는, 인코딩 방법.
  4. 제1항에 있어서,
    상기 잔존 기간 후의 제1 수퍼프레임에 있어서, 상기 잔존 기간 내에서 상기 추출된 배경 노이즈 특성 파라미터들 및 상기 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하는 단계의 프로세스는,
    상기 잔존 기간 후에 상기 제1 수퍼프레임의 제1 프레임 및 제2 프레임 내에서, 상기 잔존 기간 후의 상기 제1 수퍼프레임의 대응하는 제1 프레임 및 제2 프레임의 배경 노이즈의 자동상관 계수를 저장하는 단계; 및
    상기 잔존 기간 후에 상기 제1 수퍼프레임의 상기 제2 프레임 내에서, 상기 제1 프레임 및 상기 제2 프레임의 자동상관 계수 및 상기 잔존 기간 내의 상기 추출된 배경 노이즈 특성 파라미터들에 기초해서 상기 제1 수퍼프레임의 LPC 필터 계수 및 잔류 에너지 Et를 추출하고, 배경 노이즈 인코딩을 수행하는 단계
    를 포함하는, 인코딩 방법.
  5. 제4항에 있어서,
    상기 LPC 필터 계수를 추출하는 단계의 프로세스는,
    상기 제1 수퍼프레임 및 상기 제1 수퍼프레임 이전에 있는 4개의 수퍼프레임의 자동상관 계수들의 평균을 상기 잔존 기간 내에 계산하는 단계; 및
    레빈슨-더빈 알고리즘(Levinson-Durbin algorithm)에 기초해서 상기 자동상관 계수들의 평균으로부터 상기 LPC 필터 계수를 계산하는 단계
    를 포함하며,
    상기 잔류 에너지 Et를 추출하는 단계의 프로세스는,
    상기 레빈슨-더빈 알고리즘에 기초해서 상기 잔류 에너지를 계산하는 단계
    를 포함하며,
    상기 제2 프레임 내에서 배경 노이즈 인코딩을 수행하는 단계의 프로세스는,
    상기 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하는 단계; 및
    대수 도메인에서 상기 잔류 에너지에 대해 선형 양자화 인코딩을 수행하는 단계
    를 포함하는, 인코딩 방법.
  6. 제5항에 있어서,
    상기 잔류 에너지를 계산한 후 그리고 상기 잔류 에너지를 양자화하기 전에, 상기 인코딩 방법은,
    상기 잔류 에너지에 대한 롱-텀 평활화(long-term smoothing)를 수행하는 단계
    를 더 포함하고,
    평활화 알고리즘은 E_LT = αE_LT + (1-α)Et이고, 단 0<α<1이고, 상기 평활화된 에너지 추정치 E_LT의 값이 양자화를 위한 잔류 에너지의 값인, 인코딩 방법.
  7. 제1항에 있어서,
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대한 배경 노이즈 특성 파라미터 추출을 수행하는 단계의 프로세스는,
    최근 4개의 연속적인 프레임의 자동상관 계수들의 값들에 기초해서 현재 프레임의 고정 평균 자동상관 계수를 계산하는 단계로서, 상기 고정 평균 자동상관 계수는 상기 최근 4개의 연속적인 프레임의 자동상관 계수들의 중간 놈(norm) 값들을 가지는 두 개의 프레임의 자동상관 계수들의 평균인, 상기 고정 평균 자동상관 계수를 계산하는 단계; 및
    레빈슨-더빈 알고리즘에 기초해서 상기 고정 평균 자동상관 계수로부터 LPC 필터 계수 및 배경 노이즈의 잔류 에너지를 계산하는 단계
    를 포함하는, 인코딩 방법.
  8. 제7항에 있어서,
    잔류 에너지를 계산한 후,
    상기 방법은,
    상기 현재 프레임의 에너지 추정치를 획득하기 위해 상기 잔류 에너지에 대해 롱-텀 평활화를 수행하는 단계
    를 더 포함하고,
    평활화 알고리즘은,
    E_LT = αE_LT1 + (1-α)Et ,k이고, 단 0<α<1이고, 상기 현재 프레임의 평활화된 에너지 추정치는 양자화를 위한 잔류 에너지로서 다음과 같이 할당되며,
    Et ,k = E_LT
    여기서, k=1,2이고, 제1 프레임 및 제2 프레임을 각각 나타내는, 인코딩 방법.
  9. 제1항에 있어서,
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대한 DTX 결정을 수행하는 단계의 프로세스는,
    상기 현재 프레임의 LPC 필터 계수 및 이전의 SID 수퍼프레임의 LPC 필터 계수가 사전 설정된 임계치를 초과하거나 상기 현재 프레임의 에너지 추정치가 상기 이전의 SID 수퍼프레임의 에너지 추정치와는 실질적으로 다르면, 상기 현재 프레임의 파라미터 변화 플래그를 1에 설정하는 단계; 및
    상기 현재 프레임의 LPC 필터 계수 및 이전의 SID 수퍼프레임의 LPC 필터 계수가 사전 설정된 임계치를 초과하지 않거나 상기 현재 프레임의 에너지 추정치가 상기 이전의 SID 수퍼프레임의 에너지 추정치와는 실질적으로 다르지 않으면, 현재 프레임의 파라미터 변화 플래그를 0에 설정하는 단계
    를 포함하는, 인코딩 방법.
  10. 제9항에 있어서,
    상기 현재 프레임의 에너지 추정치가 이전의 SID 수퍼프레임의 에너지 추정치와는 실질적으로 다르면,
    상기 현재 프레임 및 최근 3개의 이전 프레임의 잔류 에너지들의 평균을 상기 현재 프레임의 에너지 추정치로서 계산하는 단계;
    상기 잔류 에너지들의 평균을 대수 도메인에서 양자화기로 양자화하는 단계; 및
    상기 디코딩된 대수 에너지와 이전의 SID 수퍼프레임의 디코딩된 대수 에너지 간의 차이가 사전 설정된 값을 초과하면, 상기 현재 프레임의 에너지 추정치가 상기 이전의 SID 수퍼프레임의 에너지 추정치와 실질적으로 다르다고 결정하는 단계
    를 더 포함하는, 인코딩 방법.
  11. 제1항에 있어서,
    상기 제1 수퍼프레임 후의 수퍼프레임들에서의 각각의 프레임에 대한 DTX 결정을 수행하는 단계의 프로세스는,
    현재의 수퍼프레임의 프레임이 1의 DTX 결정을 가지면, 상기 현재의 수퍼프레임의 저대역 성분에 대한 DTX 결정은 1을 나타내는 것을 포함하는, 인코딩 방법.
  12. 제11항에 있어서,
    상기 현재의 수퍼프레임의 최종 DTX 결정이 1을 나타내면, "제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터, 및 최종 DTX 결정에 기초해서 배경 노이즈 인코딩을 수행하는 단계"의 프로세스는,
    상기 현재의 수퍼프레임의 제1 프레임의 DTX 결정이 제로를 나타내고 제2 프레임의 DTX 결정이 1을 나타내면, 평활화 인자는 0.1이고, 그렇지 않으면, 평활화 인자는 0.5인, 상기 현재의 수퍼프레임에 대한 평활화 인자를 결정하는 단계;
    상기 현재 수퍼프레임의 제1 프레임 및 제2 프레임에 대한 파라미터 평활화를 수행하는 단계로서, 평활화된 파라미터들은 배경 노이즈 인코딩을 수행하기 위한 현재의 수퍼프레임의 특성 파라미터들이고, 상기 파라미터 평활화는, 상기 제1 프레임의 고정 평균 자동상관 계수 및 제2 프레임의 고정 평균 자동상관 계수로부터 평활화된 평균 Rt(j)을 Rt(j)=smooth_rateRt ,1(j)+(1-smooth_rate)Rt ,2(j)에 따라 계산하되, 여기서 smooth_rate는 평활화 인자이고, Rt , 1(j)는 제1 프레임의 고정 평균 자동상관 계수이고, Rt ,2(j)는 제2 프레임의 고정 평균 자동상관 계수인, 상기 파라미터 평활화를 수행하는 단계;
    상기 레빈슨-더빈 알고리즘에 기초하여 평활화된 평균 Rt(j)로부터 LPC 필터 계수를 계산하는 단계; 및
    상기 제1 프레임의 에너지 추정치 및 상기 제2 프레임의 에너지 추정치로부터 평활화된 평균
    Figure pct00107
    Figure pct00108
    에 따라 계산하는 단계로서, 여기서
    Figure pct00109
    은 제1 프레임의 에너지 추정치이고,
    Figure pct00110
    는 제2 프레임의 에너지 추정치인, 상기 평활화된 평균
    Figure pct00111
    을 계산하는 단계
    를 포함하는, 인코딩 방법.
  13. 제1항에 있어서,
    상기 "현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터들, 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종 DTX 결정에 기초해서 배경 노이즈 인코딩을 수행하는 단계"의 프로세스는,
    상기 현재의 서브프레임 이전의 복수의 서브프레임의 자동상관 계수들의 평균을 계산하는 단계;
    상기 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 자동상관 계수들의 평균에 기초하여 상기 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 평균 LPC 필터 계수를 계산하는 단계;
    상기 평균 LPC 필터 계수와 상기 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 작거나 같으면, 상기 평균 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하는 단계;
    상기 평균 LPC 필터 계수와 상기 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 크면, 상기 현재의 수퍼프레임의 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하는 단계; 및
    대수 도메인에서 에너지 파라미터에 대해 선형 양자화 인코딩을 수행하는 단계
    를 포함하는, 인코딩 방법.
  14. 제13항에 있어서,
    상기 복수의 수퍼프레임의 수는 5인, 인코딩 방법.
  15. 제1항에 있어서,
    상기 잔존 기간 내에 배경 노이즈 특성 파라미터들을 추출하는 단계의 프로세스 이전에,
    상기 잔존 기간 내에 상기 배경 노이즈를 음성 인코딩 레이트로 인코딩하는 단계
    를 더 포함하는 인코딩 방법.
  16. 제6항 또는 제8항에 있어서,
    α는 0.9인, 인코딩 방법.
  17. 디코딩 방법에 있어서,
    제1 수퍼프레임의 제1 프레임 이전의 음성 인코딩 프레임으로부터 제1 수퍼프레임의 제1 프레임에 대한 CNG(Comfort Noise Geneator) 파라미터들을 획득하는 단계;
    상기 CNG 파라미터들에 기초해서 상기 제1 수퍼프레임의 상기 제1 프레임에 대한 배경 노이즈 디코딩을 수행하는 단계
    를 포함하며,
    상기 CNG 파라미터들은,
    상기 음성 인코딩 프레임의 고정 코드북 이득(fixed codebook gain)으로부터 평활화되는 롱-텀 평활화 고정 코드북 이득(long-term smoothed fixed codebook gain)에 의해 결정되는 표적 여기 이득(target excited gain); 및
    상기 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화 LPC 필터 계수에 의해 정의되는 LPC 필터 계수
    를 포함하는, 디코딩 방법.
  18. 제17항에 있어서,
    상기 롱-텀 평활화에 대한 인자는 0보다 크고 1보다 작은, 디코딩 방법.
  19. 제17항에 있어서,
    상기 제1 수퍼프레임의 상기 제1 프레임에 대한 배경 노이즈 디코딩을 수행하는 단계의 프로세스 후,
    상기 제1 수퍼프레임의 제1 프레임이 아닌 프레임들에 있어서, 이전의 SID 수퍼프레임으로부터 CNG 파라미터들을 획득하는 단계 후, 상기 획득된 CNG 파라미터들에 기초하여 배경 노이즈 디코딩을 수행하는 단계
    를 더 포함하는 인코딩 방법.
  20. 제18항에 있어서,
    상기 롱-텀 평활화에 대한 인자는 0.5인, 디코딩 방법.
  21. 제17항에 있어서,
    상기 표적 여기 이득은,
    표적 여기 이득 = γ*고정 코드북 이득, 0<γ<1
    에 따라 결정되는, 디코딩 방법.
  22. 제21항에 있어서,
    γ=0.4인, 디코딩 방법.
  23. 제17항에 있어서,
    상기 LPC 필터 계수는,
    LPC 필터 계수 = 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화된 LPC 필터 계수
    로서 정의되는, 디코딩 방법.
  24. 인코딩 장치에 있어서,
    잔존 기간 내에 배경 노이즈 특성 파라미터들을 추출하도록 구성되어 있는 제1 추출 유닛;
    상기 잔존 기간 후의 제1 수퍼프레임에 있어서, 상기 잔존 기간 내에 상기 추출된 배경 노이즈 특성 파라미터들 및 제1 수퍼프레임의 배경 노이즈 특성 파라미터들에 기초하여 배경 노이즈 인코딩을 수행하도록 구성되어 있는 제2 인코딩 유닛;
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 상기 제1 수퍼프레임 후의 수퍼프레임들의 각각의 프레임에 대해 배경 노이즈 특성 파라미터 추출을 수행하도록 구성되어 있는 제2 추출 유닛;
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 제1 수퍼프레임 후의 수퍼프레임들의 각각의 프레임에 대해 DTX(Discontinuous Transmission) 결정을 수행하도록 구성되어 있는 DTX 결정 유닛; 및
    상기 제1 수퍼프레임 후의 수퍼프레임들에 있어서, 현재의 수퍼프레임의 추출된 배경 노이즈 특성 파라미터들, 상기 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 배경 노이즈 특성 파라미터들, 및 최종의 DTX 결정에 기초하여 배경 노이즈 인코딩을 수행하도록 구성되어 있는 제3 인코딩 유닛
    을 포함하는 인코딩 장치.
  25. 제24항에 있어서,
    상기 잔존 기간은 120ms 또는 140ms인, 인코딩 장치.
  26. 제24항에 있어서,
    상기 제1 추출 유닛은,
    상기 잔존 기간 내의 수퍼프레임의 각각의 프레임에 있어서, 상기 잔존 기간 내의 수퍼프레임의 각각의 프레임의 배경 노이즈의 자동상관 계수를 획득하도록 구성되어 있는 버퍼 모듈
    을 포함하는, 인코딩 장치.
  27. 제24항에 있어서,
    상기 제2 인코딩 유닛은,
    상기 잔존 기간 후의 제1 수퍼프레임의 제1 프레임 및 제2 프레임 내에서, 상기 잔존 기간 후에 상기 제1 수퍼프레임의 대응하는 제1 프레임 및 제2 프레임의 배경 노이즈의 자동상관 계수를 저장하도록 구성되어 있는 추출 모듈; 및
    상기 잔존 기간 후의 제1 수퍼프레임의 제2 프레임 내에서, 제1 프레임 및 제2 프레임의 추출된 자동상관 계수 및 상기 잔존 기간 내의 상기 추출된 배경 노이즈 특성 파라미터들에 기초해서 LPC 필터 계수 및 제1 수퍼프레임의 잔류 에너지 Et를 추출하도록 구성된 인코딩 모듈
    을 포함하는, 인코딩 장치.
  28. 제27항에 있어서,
    상기 제2 인코딩 유닛은,
    상기 잔류 에너지 Et에 대한 롱-텀 평활화를 수행하도록 구성되어 있는 잔류 에너지 평활화 모듈
    을 포함하며,
    평활화 알고리즘은 E_LT = αE_LT + (1-α)Et이고, 단 0<α<1이고, 평활화된 에너지 추정치 E_LT의 값이 양자화를 위한 잔류 에너지의 값인, 인코딩 장치.
  29. 제24항에 있어서,
    상기 제2 추출 유닛은,
    최근 4개의 연속적인 프레임의 자동상관 계수들의 값들에 기초해서 현재 프레임의 고정 평균 자동상관 계수를 계산하도록 구성되어 있는 제1 계산 모듈로서, 상기 고정 평균 자동상관 계수는 상기 최근 4개의 연속적인 프레임의 자동상관 계수들의 중간 놈 값들을 가지는 두 개의 프레임의 자동상관 계수들의 평균인, 상기 제1 계산 모듈; 및
    레빈슨-더빈 알고리즘에 기초해서 상기 고정 평균 자동상관 계수로부터 LPC 필터 계수 및 배경 노이즈의 잔류 에너지를 계산하도록 구성되어 있는 제2 계산 모듈
    을 포함하는, 인코딩 장치.
  30. 제29항에 있어서,
    상기 제2 추출 유닛은,
    상기 현재 프레임의 에너지 추정치를 획득하기 위해 상기 잔류 에너지에 대해 롱-텀 평활화를 수행하도록 구성되어 있는 제2 잔류 에너지 평활화 모듈
    를 더 포함하고,
    평활화 알고리즘은
    E_LT = αE_LT1 + (1-α)Et ,k이고, 단 0<α<1이고, 현재 프레임의 평활화된 에너지 추정치는 양자화를 위한 잔류 에너지로서 다음과 같이 할당되며,
    Et ,k = E_LT
    여기서, k=1,2이고, 제1 프레임 및 제2 프레임을 각각 나타내는, 인코딩 장치.
  31. 제24항에 있어서,
    상기 DTX 결정 유닛은,
    현재 프레임의 LPC 필터 계수 및 이전의 SID 수퍼프레임의 LPC 필터 계수가 사전 설정된 임계치를 초과하면, 결정 커맨드를 발생시키는 임계치 비교 모듈;
    현재 프레임 및 최근 3개의 이전의 프레임의 잔류 에너지들의 평균을 현재 프레임의 에너지 추정치로서 계산하고, 대수 도메인에서 양자화기로 상기 잔류 에너지들의 평균을 양자화하고, 디코딩된 대수 에너지와 이전의 SID 수퍼프레임의 디코딩된 대수 에너지의 차이가 사전 설정된 값을 초과하면, 결정 커맨드를 발생시키는 에너지 비교 모듈; 및
    상기 결정 커맨드에 따라 현재 프레임의 파라미터 변화 플래그를 1에 설정하도록 구성되어 있는 제1 결정 모듈
    을 포함하는, 인코딩 장치.
  32. 제31항에 있어서,
    상기 DTX 결정 유닛은,
    상기 현재의 수퍼프레임의 프레임에 대한 DTX 결정이 1을 나타내면, 상기 현재의 수퍼프레임의 저대역 성분에 대한 DTX 결정이 1을 나타내도록 구성되어 있는 제2 결정 유닛
    을 더 포함하며,
    상기 제3 인코딩 유닛은,
    상기 현재의 수퍼프레임의 최종 DTX 결정이 1을 나타내면, 평활화 커맨드를 발생시키도록 구성된 평활화 커맨드 모듈; 및
    상기 평활화 커맨드를 수신하면, 현재의 수퍼프레임에 대한 평활화 인자를 결정하도록 구성되어 있는 평활화 인자 결정 모듈로서, 상기 현재의 수퍼프레임의 제1 프레임의 DTX 결정이 제로를 나타내고 상기 현재의 수퍼프레임의 제2 프레임의 DTX 결정이 1을 나타내면, 평활화 인자는 0.1이고, 그렇지 않으면, 평활화 인자는 0.5인, 상기 평활화 인자 결정 모듈; 및
    상기 현재의 수퍼프레임의 제1 프레임 및 제2 프레임에 대한 파라미터 평활화를 수행하도록 구성되어 있는 파라미터 평활화 모듈로서, 상기 평활화된 파라미터들은 배경 노이즈 인코딩을 수행하기 위한 현재의 수퍼프레임의 특성 파라미터들인, 상기 파라미터 평활화 모듈
    을 포함하며,
    상기 파라미터 평활화는,
    제1 프레임의 고정 평균 자동상관 계수 및 제2 고정 평균 자동상관 계수로부터 평활화된 평균 Rt(j)을 Rt(j)=smooth_rateRt ,1(j)+(1-smooth_rate)Rt ,2(j)에 따라 계산하는 단계로서, 여기서 smooth_rate는 평활화 인자이고, Rt , 1(j)는 제1 프레임의 고정 평균 자동상관 계수이고, Rt ,2(j)는 제2 프레임의 고정 평균 자동상관 계수인, 상기 평활화된 평균 Rt(j)을 계산하는 단계;
    레빈슨-더빈 알고리즘에 기초하여 평활화된 평균 Rt(j)로부터 LPC 필터 계수를 계산하는 단계; 및
    상기 제1 프레임의 에너지 추정치 및 상기 제2 프레임의 에너지 추정치로부터 평활화된 평균
    Figure pct00112
    Figure pct00113
    에 따라 계산하는 단계로서, 여기서
    Figure pct00114
    은 제1 프레임의 에너지 추정치이고,
    Figure pct00115
    는 제2 프레임의 에너지 추정치인, 상기 평활화된 평균
    Figure pct00116
    을 계산하는 단계
    를 포함하는, 인코딩 장치.
  33. 제24항에 있어서,
    상기 제3 인코딩 유닛은,
    상기 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 자동상관 계수들의 계산된 평균에 기초하여 상기 현재의 수퍼프레임 이전의 복수의 수퍼프레임의 평균 LPC 필터 계수를 계산하도록 구성되어 있는 제3 계산 유닛;
    상기 평균 LPC 필터 계수와 상기 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 작거나 같으면, 상기 평균 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하도록 구성되어 있는 제1 인코딩 모듈;
    상기 평균 LPC 필터 계수와 상기 현재의 수퍼프레임의 LPC 필터 계수 간의 차이가 사전 설정된 값보다 크면, 현재의 수퍼프레임의 LPC 필터 계수를 양자화 인코딩을 위한 LSF 도메인으로 변환하도록 구성되어 있는 제2 인코딩 모듈; 및
    대수 도메인에서 에너지 파라미터에 대해 선형 양자화 인코딩을 수행하도록 구성되어 있는 제3 인코딩 모듈
    을 포함하는, 인코딩 장치.
  34. 제28항 또는 제30항에 있어서,
    α=0.9인, 인코딩 장치.
  35. 제24항에 있어서,
    상기 잔존 기간 내에 배경 노이즈를 음성 인코딩 레이트로 인코딩하도록 구성되어 있는 제1 인코딩 유닛
    을 더 포함하는 인코딩 장치.
  36. 디코딩 장치에 있어서,
    제1 수퍼프레임의 제1 프레임 이전의 음성 인코딩 프레임으로부터 제1 수퍼프레임의 제1 프레임에 대한 CNG(Comfort Noise Generator) 파라미터들을 획득하도록 구성되어 있는 CNG 파라미터 획득 유닛; 및
    상기 CNG 파라미터들에 기초하여 상기 제1 수퍼프레임의 제1 프레임에 대해 배경 노이즈 디코딩을 수행하도록 구성되어 있는 제1 디코딩 유닛
    을 포함하며,
    상기 CNG 파라미터들은,
    상기 음성 인코딩 프레임의 고정 코드북 이득으로부터 평활화되는 롱-텀 평활화 고정 코드북 이득에 의해 결정되는 표적 여기 이득(target excited gain); 및
    상기 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화 LPC 필터 계수에 의해 정의되는 LPC 필터 계수
    를 포함하는, 디코딩 장치.
  37. 제36항에 있어서,
    상기 롱-텀 평활화에 대한 인자는 0보다 크고 1보다 작은, 디코딩 장치.
  38. 제37항에 있어서,
    상기 롱-텀 평활화에 대한 인자는 0.5인, 디코딩 장치.
  39. 제36항에 있어서,
    상기 제1 수퍼프레임의 제1 프레임이 아닌 프레임들에 있어서, 이전의 SID 수퍼프레임으로부터 CNG 파라미터들을 획득한 후, 상기 획득된 CNG 파라미터들에 기초하여 배경 노이즈 디코딩을 수행하도록 구성되어 있는 제2 디코딩 유닛을 더 포함하는 디코딩 장치.
  40. 제36항에 있어서,
    상기 표적 여기 이득은,
    표적 여기 이득 = γ*고정 코드북 이득, 0<γ<1
    에 따라 결정되는, 디코딩 장치.
  41. 제40항에 있어서,
    γ=0.4인, 디코딩 장치.
  42. 제36항에 있어서,
    상기 LPC 필터 계수는,
    LPC 필터 계수 = 음성 인코딩 프레임의 LPC 필터 계수로부터 평활화되는 롱-텀 평활화된 LPC 필터 계수
    로서 정의되는, 디코딩 장치.
KR1020107016392A 2008-03-26 2009-03-26 코딩 및 디코딩 방법 및 장치 KR101147878B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2008100840776A CN101335000B (zh) 2008-03-26 2008-03-26 编码的方法及装置
CN200810084077.6 2008-03-26

Publications (2)

Publication Number Publication Date
KR20100105733A true KR20100105733A (ko) 2010-09-29
KR101147878B1 KR101147878B1 (ko) 2012-06-01

Family

ID=40197557

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020107016392A KR101147878B1 (ko) 2008-03-26 2009-03-26 코딩 및 디코딩 방법 및 장치

Country Status (7)

Country Link
US (2) US8370135B2 (ko)
EP (1) EP2224428B1 (ko)
KR (1) KR101147878B1 (ko)
CN (1) CN101335000B (ko)
BR (1) BRPI0906521A2 (ko)
RU (1) RU2461898C2 (ko)
WO (1) WO2009117967A1 (ko)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4368575B2 (ja) 2002-04-19 2009-11-18 パナソニック株式会社 可変長復号化方法、可変長復号化装置およびプログラム
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
DE102008009720A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Dekodierung von Hintergrundrauschinformationen
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
WO2010047566A2 (en) * 2008-10-24 2010-04-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core
ES2552179T3 (es) * 2010-04-14 2015-11-26 Voiceage Corporation Libro de códigos de innovación combinado flexible y escalable para ser usado en codificador y decodificador CELP
WO2012002768A2 (ko) * 2010-07-01 2012-01-05 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
CN101895373B (zh) * 2010-07-21 2014-05-07 华为技术有限公司 信道译码方法、系统及装置
EP2458586A1 (en) * 2010-11-24 2012-05-30 Koninklijke Philips Electronics N.V. System and method for producing an audio signal
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
JP2013076871A (ja) * 2011-09-30 2013-04-25 Oki Electric Ind Co Ltd 音声符号化装置及びプログラム、音声復号装置及びプログラム、並びに、音声符号化システム
KR102138320B1 (ko) * 2011-10-28 2020-08-11 한국전자통신연구원 통신 시스템에서 신호 코덱 장치 및 방법
CN103093756B (zh) * 2011-11-01 2015-08-12 联芯科技有限公司 舒适噪声生成方法及舒适噪声生成器
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
US20130155924A1 (en) * 2011-12-15 2013-06-20 Tellabs Operations, Inc. Coded-domain echo control
CN103187065B (zh) 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9065576B2 (en) 2012-04-18 2015-06-23 2236008 Ontario Inc. System, apparatus and method for transmitting continuous audio data
US9472208B2 (en) * 2012-08-31 2016-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Method and device for voice activity detection
EP2927905B1 (en) * 2012-09-11 2017-07-12 Telefonaktiebolaget LM Ericsson (publ) Generation of comfort noise
MX344169B (es) 2012-12-21 2016-12-07 Fraunhofer Ges Forschung Generacion de ruido de confort con alta resolucion espectro-temporal en transmision discontinua de señales de audio.
MX366279B (es) 2012-12-21 2019-07-03 Fraunhofer Ges Forschung Adicion de ruido de confort para modelar el ruido de fondo a bajas tasas de bits.
MY172161A (en) 2013-01-29 2019-11-15 Fraunhofer Ges Forschung Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
BR112015017633B1 (pt) 2013-01-29 2021-02-23 Fraunhofer-Gellschaft Zur Foerderung Der Angewandten Forschung E.V Conceito de preenchimento de ruído
EP3550562B1 (en) * 2013-02-22 2020-10-28 Telefonaktiebolaget LM Ericsson (publ) Methods and apparatuses for dtx hangover in audio coding
EP3564953B1 (en) * 2013-04-05 2022-03-23 Dolby Laboratories Licensing Corporation Apparatus and methods for expanding and compressing to reduce quantization noise using advanced spectral extension
CN105225668B (zh) 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
EP3011555B1 (en) 2013-06-21 2018-03-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Reconstruction of a speech frame
BR112015031181A2 (pt) 2013-06-21 2017-07-25 Fraunhofer Ges Forschung aparelho e método que realizam conceitos aperfeiçoados para tcx ltp
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
EP3057377B1 (en) * 2013-11-07 2021-12-29 Huawei Technologies Co., Ltd. Network device, terminal device and voice service control method
US10074375B2 (en) * 2014-01-15 2018-09-11 Samsung Electronics Co., Ltd. Weight function determination device and method for quantizing linear prediction coding coefficient
US10410645B2 (en) 2014-03-03 2019-09-10 Samsung Electronics Co., Ltd. Method and apparatus for high frequency decoding for bandwidth extension
WO2015134579A1 (en) 2014-03-04 2015-09-11 Interactive Intelligence Group, Inc. System and method to correct for packet loss in asr systems
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
WO2015162500A2 (ko) * 2014-03-24 2015-10-29 삼성전자 주식회사 고대역 부호화방법 및 장치와 고대역 복호화 방법 및 장치
CN104978970B (zh) 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统
US9572103B2 (en) * 2014-09-24 2017-02-14 Nuance Communications, Inc. System and method for addressing discontinuous transmission in a network device
CN105846948B (zh) * 2015-01-13 2020-04-28 中兴通讯股份有限公司 一种实现harq-ack检测的方法及装置
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
CN106160944B (zh) * 2016-07-07 2019-04-23 广州市恒力安全检测技术有限公司 一种超声波局部放电信号的变速率编码压缩方法
ES2956797T3 (es) * 2018-06-28 2023-12-28 Ericsson Telefon Ab L M Determinación de parámetros de ruido de confort adaptable
CN115132214A (zh) 2018-06-29 2022-09-30 华为技术有限公司 立体声信号的编码、解码方法、编码装置和解码装置
CN109490848B (zh) * 2018-11-07 2021-01-01 国科电雷(北京)电子装备技术有限公司 一种基于两级信道化的长短雷达脉冲信号检测方法
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
CN112037803B (zh) * 2020-05-08 2023-09-29 珠海市杰理科技股份有限公司 音频编码方法及装置、电子设备、存储介质

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2020899C (en) * 1989-08-18 1995-09-05 Nambirajan Seshadri Generalized viterbi decoding algorithms
JP2877375B2 (ja) * 1989-09-14 1999-03-31 株式会社東芝 可変レートコーデックを用いたセル転送方式
JP2776094B2 (ja) * 1991-10-31 1998-07-16 日本電気株式会社 可変変調通信方法
US5559832A (en) * 1993-06-28 1996-09-24 Motorola, Inc. Method and apparatus for maintaining convergence within an ADPCM communication system during discontinuous transmission
JP3090842B2 (ja) * 1994-04-28 2000-09-25 沖電気工業株式会社 ビタビ復号法に適応した送信装置
US5742734A (en) * 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
FI105001B (fi) * 1995-06-30 2000-05-15 Nokia Mobile Phones Ltd Menetelmä odotusajan selvittämiseksi puhedekooderissa epäjatkuvassa lähetyksessä ja puhedekooderi sekä lähetin-vastaanotin
US5774849A (en) * 1996-01-22 1998-06-30 Rockwell International Corporation Method and apparatus for generating frame voicing decisions of an incoming speech signal
US5689615A (en) * 1996-01-22 1997-11-18 Rockwell International Corporation Usage of voice activity detection for efficient coding of speech
US6269331B1 (en) 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
US5960389A (en) 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
KR100389853B1 (ko) 1998-03-06 2003-08-19 삼성전자주식회사 카타로그정보의기록및재생방법
SE9803698L (sv) * 1998-10-26 2000-04-27 Ericsson Telefon Ab L M Metoder och anordningar i ett telekommunikationssystem
BRPI9915652B1 (pt) * 1998-11-24 2016-09-06 Ericsson Telefon Ab L M processo para realizar transmissão descontínua num sistema de comunicações, e, sistema de comunicações de fala
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
GB2356538A (en) * 1999-11-22 2001-05-23 Mitel Corp Comfort noise generation for open discontinuous transmission systems
US6687668B2 (en) 1999-12-31 2004-02-03 C & S Technology Co., Ltd. Method for improvement of G.723.1 processing time and speech quality and for reduction of bit rate in CELP vocoder and CELP vococer using the same
KR100312335B1 (ko) 2000-01-14 2001-11-03 대표이사 서승모 음성부호화기 중 쾌적 잡음 발생기의 새로운 sid프레임 결정방법
US6662155B2 (en) * 2000-11-27 2003-12-09 Nokia Corporation Method and system for comfort noise generation in speech communication
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US7031916B2 (en) 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
US7099387B2 (en) * 2002-03-22 2006-08-29 Realnetorks, Inc. Context-adaptive VLC video transform coefficients encoding/decoding methods and apparatuses
US7613607B2 (en) * 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
PL1897085T3 (pl) 2005-06-18 2017-10-31 Nokia Technologies Oy System i sposób adaptacyjnej transmisji parametrów szumu łagodzącego w czasie nieciągłej transmisji mowy
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US8260609B2 (en) 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US7573907B2 (en) 2006-08-22 2009-08-11 Nokia Corporation Discontinuous transmission of speech signals
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101627426B (zh) * 2007-03-05 2013-03-13 艾利森电话股份有限公司 用于控制稳态背景噪声的平滑的方法和设备
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
US8315756B2 (en) 2009-08-24 2012-11-20 Toyota Motor Engineering and Manufacturing N.A. (TEMA) Systems and methods of vehicular path prediction for cooperative driving applications through digital map and dynamic vehicle model fusion

Also Published As

Publication number Publication date
EP2224428A4 (en) 2011-01-12
RU2010130664A (ru) 2012-05-10
US20100280823A1 (en) 2010-11-04
US7912712B2 (en) 2011-03-22
WO2009117967A1 (zh) 2009-10-01
RU2461898C2 (ru) 2012-09-20
BRPI0906521A2 (pt) 2019-09-24
KR101147878B1 (ko) 2012-06-01
EP2224428B1 (en) 2015-06-10
CN101335000A (zh) 2008-12-31
US20100324917A1 (en) 2010-12-23
EP2224428A1 (en) 2010-09-01
CN101335000B (zh) 2010-04-21
US8370135B2 (en) 2013-02-05

Similar Documents

Publication Publication Date Title
KR101147878B1 (ko) 코딩 및 디코딩 방법 및 장치
US9715883B2 (en) Multi-mode audio codec and CELP coding adapted therefore
US7167828B2 (en) Multimode speech coding apparatus and decoding apparatus
JP4861196B2 (ja) Acelp/tcxに基づくオーディオ圧縮中の低周波数強調の方法およびデバイス
JP5203929B2 (ja) スペクトルエンベロープ表示のベクトル量子化方法及び装置
US7020605B2 (en) Speech coding system with time-domain noise attenuation
US7693710B2 (en) Method and device for efficient frame erasure concealment in linear predictive based speech codecs
US9672840B2 (en) Method for encoding voice signal, method for decoding voice signal, and apparatus using same
EP3537438A1 (en) Quantizing method, and quantizing apparatus
WO2010028301A1 (en) Spectrum harmonic/noise sharpness control
KR20030046451A (ko) 음성 코딩을 위한 코드북 구조 및 탐색 방법
CN103050121A (zh) 线性预测语音编码方法及语音合成方法
MX2013004673A (es) Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo.
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
US10672411B2 (en) Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy
CN101651752B (zh) 解码的方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150417

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160418

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170421

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180418

Year of fee payment: 7