KR101999563B1 - 켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법 - Google Patents

켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101999563B1
KR101999563B1 KR1020137022984A KR20137022984A KR101999563B1 KR 101999563 B1 KR101999563 B1 KR 101999563B1 KR 1020137022984 A KR1020137022984 A KR 1020137022984A KR 20137022984 A KR20137022984 A KR 20137022984A KR 101999563 B1 KR101999563 B1 KR 101999563B1
Authority
KR
South Korea
Prior art keywords
gain
frame
fixed
contribution
codebook
Prior art date
Application number
KR1020137022984A
Other languages
English (en)
Other versions
KR20140023278A (ko
Inventor
블라디미르 말레노프스키
Original Assignee
보이세지 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=46637577&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=KR101999563(B1) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by 보이세지 코포레이션 filed Critical 보이세지 코포레이션
Publication of KR20140023278A publication Critical patent/KR20140023278A/ko
Application granted granted Critical
Publication of KR101999563B1 publication Critical patent/KR101999563B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

코드화된 사운드 신호의, 서브 프레임을 포함하는 프레임에 있어서 여기의 고정 기여의 이득을 양자화는 장치 및 방법으로서, 고정 여기 기여의 이득은 프레임의 분류를 나타내는 파라메타를 이용하여 서브 프레임에서 추정된다.
고정 여기 기여의 이득은 추정된 이득을 이용하여 서브 프레임에서 양자화된다. 그 장치 및 방법은 코드화된 사운드 신호의 프레임에 있어서의 여기의 적응 및 고정 기여의 이득을 결합 양자화하는데 이용된다. 프레임의 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 검색하기 위해, 프레임의 분류를 나타내는 파라메타를 이용하여 고정 여기 기여의 이득이 추정되고, 이득 코드북은 수신된 이득 코드북 인덱스에 응답하여 보정 인자를 공급하며, 곱셈기는 추정된 이득과 보정 인자를 승산하여 고정 여기 기여의 양자화된 이득을 제공한다.

Description

켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법{DEVICE AND METHOD FOR QUANTIZING THE GAINS OF THE ADAPTIVE AND FIXED CONTRIBUTIONS OF THE EXCITATION IN A CELP CODEC}
본 발명은 코드화된 사운드 신호에 있어서 여기(excitation)의 고정 기여(fixed contribution)의 이득 양자화에 관한 것이다. 또한, 본 발명은 여기의 적응 및 고정 기여의 이득 결합 양자화(joint quantization of the gains)에 관한 것이다.
ACELP(Algebraic Code-Excited Linear Prediction)와 같은, 예를 들어, CELP(Code-Exited Linear Prediction) 코덱 구조와 같은 코덱 구조의 부호화기에 있어서, 입력 음성 또는 오디오 신호는 프레임이라고 부르는 짧은 세그먼트들로 처리된다. 빠르게 가변하는 입력 사운드 신호의 속성을 포획하기 위해서, 각 프레임은 서브 프레임으로 추가 분할된다. 또한, CELP 코덱 구조는 전체 여기를 형성하기 위하여 함께 부가되는 여기의 고정 코드북 기여(fixed codebook contribution)와 적응 코드북 기여(adaptive codebook contribution)를 생성한다. 여기의 적응 및 고정 코드북 기여와 관련되어 있는 이득은 양자화 되고, 다른 인코딩 파라메터들과 함께 복호화기로 전송된다. 여기의 적응 코드북 기여 및 고정 코드북 기여는 명세서 전반에 걸쳐 여기의 "적응 기여" 및 "고정 기여"라 할 것이다.
부호화기에서 복호화기로 인코딩 파라메터들을 전송하는 동안 발생할 수 있는 패킷 손실 또는 프레임 소거에 대한 코덱의 견고성을 개선하는 적응 및 고정 여기 기여들의 이득들을 양자화하기 위한 기술들이 요구된다.
제 1 측면에 따르면, 본 발명은 코드화된 사운드 신호의 서브 프레임을 포함하는 프레임에 있어서 여기의 고정 기여의 이득을 양자화는 장치에 관한 것으로, 그 장치는 프레임의 분류를 나타내는 파라메타에 대한 입력과; 프레임의 서브 프레임에 있어서 여기의 고정 기여의 이득의 추정기 - 상기 추정기는 프레임의 분류를 나타내는 파라메타를 공급받음 - 및, 추정된 이득을 이용하는 서브 프레임에 있어서의 여기의 고정 기여의 이득의 예측 양자화기를 포함한다.
본 발명은 코드화된 사운드 신호의 서브 프레임을 포함하는 프레임에 있어서 여기의 고정 기여의 이득을 양자화하는 방법에 관한 것으로, 그 방법은 프레임의 분류를 나타내는 파라메타를 수신하고; 프레임의 분류를 나타내는 파라메타를 이용하여 프레임의 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하고; 추정된 이득을 이용하여 서브 프레임에 있어서의 여기의 고정 기여의 이득을 예측 양자화하는 것을 포함한다.
제 3 측면에 따르면, 코드화된 사운드 신호의 프레임에 있어서 여기의 적응 및 고정 기여의 이득들을 결합 양자화하는 장치가 제공되는데, 그 장치는 여기의 적응 기여의 이득의 양자화기와, 여기의 고정 기여의 이득을 양자화하는 상술한 장치를 포함한다.
본 발명은 코드화된 사운드 신호의 프레임에 있어서 여기의 적응 및 고정 기여의 이득들을 결합 양자화하는 방법에 관한 것으로, 그 방법은 여기의 적응 기여의 이득을 양자화하고; 상술한 방법을 이용하여 여기의 고정 기여의 이득을 양자화하는 것을 포함한다.
제 5 측면에 따르면, 프레임의 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 검색하는 장치가 제공되는데, 그 장치는 이득 코드북 인덱스의 수신기와; 서브 프레임에 있어서의 여기의 고정 기여의 이득의 추정기 - 상기 추정기는 프레임의 분류를 나타내는 파라메타를 공급받음 - 와 ; 이득 코드북 인덱스에 응답하여 보정 인자(correction factor)를 공급하는 이득 코드북과; 서브 프레임에 있어서의 여기의 고정 기여의 양자화된 이득을 제공하기 위한 보정 인자와 추정된 이득의 곱셈기를 포함한다.
본 발명은 프레임의 서브 프레임에 있어서 여기의 고정 이득의 양자화된 이득을 검색하는 방법에 관한 것으로, 그 방법은 이득 코드북 인덱스를 수신하고; 프레임의 분류를 나타내는 파라메타를 이용하여 서브 프레임에 있어서 여기의 고정 기여의 이득을 추정하고; 이득 코드북 인덱스에 응답하여 이득 코드북으로부터 서브 프레임에 대한 보정 인자를 공급하고; 상기 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 제공하기 위해 보정 인자와 추정된 이득을 승산하는 것을 포함한다.
본 발명은 프레임의 서브 프레임에 있어서 여기의 적응 및 고정 기여의 양자화된 이득을 검색하는 장치와 관련되며, 그 장치는 이득 코드북 인덱스의 수신기와; 서브 프레임에 있어서 여기의 고정 기여의 이득의 추정기 - 상기 추정기는 프레임의 분류를 나타내는 파라메타를 공급받음 - 와; 이득 코드북 인덱스에 응답하여 서브 프레임에 대한 보정 인자와 여기의 적응 기여의 양자화된 이득을 공급하는 이득 코드북과; 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 제공하기 위한, 보정 인자와 추정된 이득의 곱셈기를 포함한다.
추가적인 측면에 따르면, 본 발명은 프레임의 서브 프레임에 있어서 여기의 적응 및 고정 기여의 양자화된 이득을 검색하는 방법을 설명하며, 그 방법은 이득 코드북 인덱스를 수신하고; 프레임의 분류를 나타내는 파라메타를 이용하여 서브 프레임에 있어서 여기의 고정 기여의 이득을 추정하고; 이득 코드북 인덱스에 응답하여 이득 코드북으로부터 서브 프레임에 대한 보정 인자와 여기의 적응 기여의 양자화된 이득을 공급하고; 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 제공하기 위해, 보정 인자와 추정된 이득을 승산하는 것을 포함한다.
이하에서는, 코드화된 사운드 신호에 있어서 여기의 고정 기여의 이득 양자화 및 그 여기의 적응 및 고정 기여의 이득의 결합 양자화가 설명된다. 양자화는 소정 개수의 서브 프레임들에 적용될 수 있고, 임의의 샘플링 주파수로 샘플링된 오디오 신호(입력 사운드 신호) 또는 임의의 입력 음성에 이용될 수 있다. 또한, 여기의 적응 및 고정 기여들의 이득들은 프레임간 예측(inter-frame prediction)의 필요성 없이 양자화된다. 프레임간 예측이 없으면 인코딩된 파라메타들을 전송하는 동안 발생할 수 있는 프레임 소거 또는 패킷 손실에 대한 견고성이 개선된다.
상술한 특징 및 다른 특징은 첨부된 도면을 참조하여 예시적으로 제시된, 예시적인 실시 예의 아래의 비 제한적 설명으로부터 보다 명확해질 것이다.
첨부 도면에 있어서,
도 1은 CELP-기반 부호화기에서 필터링된 여기의 구성을 기술하는 개략도,
도 2는 각 프레임의 제 1 서브 프레임에 있어서 여기의 고정 기여의 이득을 추정하는 추정기를 설명하는 개략적인 블럭도,
도 3은 제 1 서브 프레임을 뒤따르는 모든 서브 프레임들에 있어서 여기의 고정 기여의 이득을 추정하는 추정기를 설명하는 개략적인 블럭도,
도 4는 추정 계수들이 계산되어 각 서브 프레임에 대한 이득 코드북을 고안하는데 사용되는 상태 머신을 설명하는 개략적인 블럭도,
도 5는 이득 양자화기를 설명하는 개략적인 블럭도,
도 6은 도 5의 이득 양자화기와 등가인 이득 양자화기의 또 다른 실시예의 개략적인 블럭도이다.
여기의 적응 기여의 이득은 직접 양자화되지만 여기의 고정 기여의 이득은 추정된 이득을 통해 양자화된다. 여기의 고정 기여의 이득의 추정은 부호화기와 복호화기 양쪽에 존재하는 파라메타들에 기초한다. 이 파라메타들은 현재 프레임의 처리동안에 계산된다. 그러므로, 상술한 바와 같이, 프레임 소거에 대한 코덱(CODEC)의 견고성을 개선한 양자화 또는 디코딩 도중에 이전 프레임으로부터의 정보는 요구되지 않는다.
이하의 설명은 예를들어, ACELP(Algebraic Code-Excited Linear Prediction)와 같은 CELP(Code-Excited Linear Prediction) 코덱 구조를 참조하겠지만, 본 발명의 주제는 다른 유형의 코덱 구조들에도 적용될 수 있다는 것을 주의해야 한다.
여기의 적응 및 고정 기여들에 대한 최적의 무양자화 이득( optimal unquantized gains )
CELP 코딩 기술에 있어서, 여기는 2가지 기여, 즉, 적응 기여(적응 코드북 여기) 및 고정 기여(고정 코드북 여기)로 구성된다. 적응 코드북은 장기간 예측에 기초하며, 따라서 과거의 여기와 관련된다. 여기의 적응 기여는 피치 레그(pitch lag)의 추정된 값 주위의 폐 루프 탐색(closed-loop search)에 의해 발견된다. 추정된 피치 레그는 상관 분석에 의하여 발견된다. 폐 루프 탐색은 적응 코드북 이득에 의해 스케일링(scaling)된 여기의 필터링된 적응 기여와, 타겟 신호(CELP 코딩에 있어서, 입력 음성 또는 오디오 신호(입력 사운드 신호)의 인지 필터링 버전(perceptually filtered version))간의 MSWE(Mean Square Weighted Error)를 최소화하는 것을 포함한다. 폐 루프 탐색에 있어서 필터는 CELP 코딩 기술에 알려진 가중 합성 필터(weighted synthesis filter)에 대응한다. 또한, 고정 코드북 탐색은 (여기의 적응 기여를 제거한 후) 갱신된 타겟 신호와 고정 코드북 이득에 의해 스케일링된 여기의 필터된 고정 기여간의 MSE(Mean Squared Error)를 최소화함에 의해 수행된다. 전체 필터된 여기의 기여는 도 1에 도시된다. 추가적인 참조를 위해, CELP 코딩의 구현은 다음과 같은 문서, 즉 3GPP TS 26.190, "Adaptive Multi-Rate-Wideband (AMR-WB) speech codec; Transcoding functions"에 설명되어 있으며, 그 문서의 전체 내용은 본 명세서에서 참조로서 인용된다.
도 1은 CELP 부호화기에 있어서 필터된 전체 여기의 구조를 기술하는 개략도이다. 상술한 타겟 신호에 의해 형성된 입력 신호(101)는 x(i)로 표시되며, 여기의 적응 및 고정 기여에 대한 이득의 탐색 동안에 기준으로서 사용된다. 여기의 필터된 적응 기여는 y(i)로 표기되고, 여기(이노베이션(innovation))의 필터링된 고정 기여는 z(i)로 표기된다. 대응하는 이득은 여기의 적응 기여에 대해서는 gp로 표기되고, 여기의 고정 기여에 대해서는 gc로 표기된다. 도 1에 도시된 바와 같이, 증폭기(104)는 이득 gp를 여기의 필터링된 적응 기여 y(i)에 적용하고, 증폭기(105)는 이득 gc를 여기의 필터링된 고정 기여 z(i)에 적용한다. 최적의 양자화된 이득들은, 증폭기(104)의 출력에 있는 신호 gpy(i)를 타겟 신호 xi로 부터 감산하는 제 1 감산기(107) 및 증폭기(105)의 출력에 있는 신호 gcz(i)를 감산기(107)의 감산의 결과로부터 감산하는 제 2 감산기(108)를 통하여 계산된 에러 신호 e(i)의 평균 제곱을 최소화함에 의해 발견된다. 도 1의 전체 신호들에 있어서, 인덱스 i는 서로 다른 신호 샘플들을 나타내며, 0 내지 L-1이다(L은 각 서브 프레임의 길이임). 당업자라면 알겠지만, 필터링된 적응 코드북 기여는 일반적으로 적응 코드북 여기 벡터 v(n)와 가중 합성 필터의 임펄스 응답 h(n)간의 콘볼루션, 즉, y(n)=v(n)*h(n)으로서 계산된다. 마찬가지로, 필터된 고정 코드북 여기 z(n)은 z(n)=c(n)*h(n)으로 계산된다. 여기서, c(n)은 고정 코드북 여기이다.
타겟 신호x(i), 여기의 필터된 적응 여기y(i) 및 여기의 필터된 고정 기여 z(i)를 알고 있다고 가정하면, 무양자화 이득 gp 및 gc의 최적 세트는 다음과 같은 수학식에 의해 주어진 에러 신호의 에너지e(i)를 최소화함에 의해 발견된다.
e(i)=x(i)-gpy(i)-gcz(i), i=0, . . . ,L-1 (1)
수학식(1)은 아래와 같이 벡터 형태로 주어질 수 있다.
e=x-gp y-gc z (2)
그리고, 아래와 같은 에러 신호의 에너지를 최소화하면(t는 벡터 전치(vector transpose)임),
Figure 112013079280060-pct00001
아래와 같은 최적의 무양자화 이득이 획득된다.
Figure 112013079280060-pct00002
(3)
여기에서, 상수 또는 상관 c0, c1, c2, c3, c4 및 c5는 아래와 같이 계산된다.
c0=yty, c1=xty, c2=ztz, c3=xtz, c4=ytz, c5=xtx. (4)
수학식(3)에서의 최적 이득들은 직접 양자화되는 것이 아니라, 이후에 설명할 이득 코드북을 훈련하는데 사용된다. 여기의 고정 기여의 이득에 예측을 적용한 후, 이득값은 공동으로 양자화된다. 그 예측은 여기의 고정 기여의 이득의 추정값 gc0을 계산함으로써 수행된다. 여기의 고정 기여의 이득은 gc=gc0·γ에 의해 주어지고, γ은 보정 인자이다. 그러므로, 각 코드북 엔트리는 2개의 값을 포함한다. 제 1 값은 여기의 적응 기여의 양자화 이득 gp에 대응한다. 제 2 값은 여기의 고정 기여의 추정된 이득 gc0을 승산하는데 사용되는 보정 인자γ에 대응한다. 이득 코드북(gp 및 γ)에 있어서의 최적 인덱스는 타겟 신호와 필터링된 전체 여기간의 평균 제곱 에러를 최소화함으로써 발견된다. 여기의 고정 기여의 이득의 추정은 아래에서 상세히 기술된다.
여기의 고정 기여의 이득의 추정
각 프레임은 특정 개수의 서브-프레임들을 포함한다. 프레임내의 서브-프레임들의 개수를 K라 하고, 현재 서브-프레임의 인덱스를 k라 하겠다. 여기의 고정 기여의 이득 추정 gco는 각 서브-프레임에서 다르게 수행된다.
도 2는 각 프레임의 제 1 서브-프레임에 있어서 여기의 고정 기여의 이득(이하에서는 고정 코드북 이득이라 함)의 추정기(200)를 기술하는 블럭도이다.
그 추정기(200)는 현재 프레임의 분류를 나타내는 파라메타 t에 응답하여, 고정 코드북 이득의 추정을 우선적으로 계산한다. 그 다음, 고정 코드북으로부터의 이노베이션 코드 벡터의 에너지는 필터링된 이노베이션 코드 벡터의 에너지를 고려하기 위해, 추정된 고정 코드북 이득으로부터 감산된다. 결과하는 추정된 고정 코드북 이득은 이득 코드북으로부터 선택된 보정 인자에 의해 승산되어, 양자화된 고정 코드북 이득 gc를 생성한다.
일 실시예에서, 추정기(200)는 대수 도메인에 있어서 고정 코드북 이득의 선형 추정의 계산기(201)를 포함한다. 고정 코드북으로부터의 이노베이션 코드 벡터(202)의 1-에너지(unity-energy)를 가정하여, 고정 코드북 이득이 추정된다. 오직 하나의 추정 파라메타인, 현재 프레임의 분류를 나타내는 파라메타 t가 계산기(201)에 의해 이용된다. 그 다음, 감산기(203)는 계산기(201)의 출력에 있는 대수 도메인에서의 선형의 추정된 고정 코드북 이득으로부터, 대수 도메인에 있는 고정 코드북으로부터의 필터링된 이노베이션 코드 벡터(202)의 에너지를 감산한다. 변환기(204)는 감산기(203)으로부터의 대수 도메인에 있어서의 추정된 고정 코드북 이득을 선형 도메인으로 변환한다. 변환기(204)로부터의 선형 도메인의 출력은 추정된 고정 코드북 이득 gc0이다. 곱셈기(205)는 이득 코드북으로부터 선택된 보정 인자(206)와 추정된 이득 gc0를 승산한다. 상기 단락에서 설명한 바와 같이, 곱셈기(205)의 출력은 양자화된 고정 코드북 이득 gc를 구성한다.
여기의 적응 기여의 양자화된 이득 gp(이하에서는 적응 코드북 이득이라 함)은 이득 코드북으로부터 직접 선택된다. 곱셈기(207)는 필터링된 여기의 필터링된 적응 기여(209)를 생성하기 위하여, 적응 코드북으로부터의 필터링된 적응 여기(208)를 양자화된 적응 코드북 이득 gp와 승산한다. 또 다른 곱셈기(210)는 필터링된 여기의 필터링된 고정 기여(211)을 생성하기 위하여, 양자화된 고정 코드북 이득 gc을 고정 코드북으로부터의 필터링된 이노베이션 코드 벡터(202)와 승산한다. 마지막으로, 가산기(212)는 총 필터링된 여기(214)를 형성하기 위해 여기의 필터링된 적응 기여(209)와 고정 기여(211)를 가산한다.
현재 프레임의 제 1 서브-프레임에 있어서, 감산기(203)의 출력에 있는 대수 도메인에서의 추정된 고정 코드북 이득은 아래와 같이 주어진다.
Figure 112013079280060-pct00003
(5)
여기서,
Figure 112013079280060-pct00004
이다.
수학식(5)의 로그 안의 내항은 필터링된 이노베이션 벡터(202)의 에너지의 제급근에 대응한다(Ei는 프레임 n의 제 1 서브-프레임에 있어서 필터링된 이노베이션 벡터의 에너지이다.). 이 내항(에너지 Ei의 제곱근)은 필터링된 이노베이션 벡터(202)의 에너지 Ei의 제 1 계산기(215) 및 에너지 Ei의 제곱근의 계산기(216)에 의해 결정된다. 그 다음, 계산기(217)는 감산기(203)의 음의 입력으로의 인가를 위해 에너지 Ei의 제곱근의 대수를 계산한다. 내항(에너지 Ei의 제곱근)은 비-제로 에너지(non-zero energy)를 가진다. 그 에너지는 log(0)를 피하기 위해 올-제로 프레임(all-zero frame)의 경우에 소량 증분된다.
계산기(201)에 있어서 고정된 코드북 이득의 추정은, 대수 영역에서, 대용량 신호 데이터베이스(훈련)상에서의 평균 제곱 최소화에 의하여 각 서브-프레임마다 발견되는 추정 계수 a0 및 a1와 선형이며, 이에 대해서는 이하에서 설명하겠다. 그 수학식에서 유일한 추정 파라메타(202)인, t는 프레임 n에 대한 분류 파라메타를 나타낸다(일 실시예에 있어서, 이 값은 프레임 n내의 모든 서브 프레임에 대해 일정하다.). 프레임들의 분류에 대한 자세한 내용은 아래에 제공된다. 마지막으로, 대수 도메인에 있어서 이득의 추정 값은 계산기(204)에 의해 선형 도메인 (
Figure 112013079280060-pct00005
))으로 다시 변환되고, 이득 코드북의 최선 인덱스(best index)에 대한 탐색 프로세스에 사용되는데, 이에 대해서는 이하에서 설명하겠다.
위첨자 (1)은 현재 프레임 n의 제 1 서브-프레임을 나타낸다.
앞서 설명한 바와 같이, 현재 프레임의 분류를 나타내는 파라메타 t는 추정된 고정 코드북 이득 gc0의 계산에 사용된다. 다른 코드북은 다른 클래스(class)의 음성 신호들을 위해 고안될 수 있다. 그러나, 이것은 메모리 요건을 증가시킬 것이다. 또한, 제 1 프레임을 뒤따르는 프레임들에 있어서 고정 코드북 이득의 추정은 현재 프레임내의 이전 서브-프레임들로부터의 이용 가능한 적응 및 고정 코드북 이득과 프레임 분류 파라메타 t에 기반할 수 있다. 상기 추정은 프레임 소거에 대한 견고성을 증가시키기 위해 프레임 경계(frame boundary)에 국한된다.
예를들어, 프레임들은 무성음, 유성음, 제너릭(generic) 또는 천이 프레임으로 분류될 수 있다. 다른 대안이 그 분류를 위해 사용될 수 있다. 비-제한적인 예시적 실시 예로서 이하에 예시가 제공된다. 또한, 음성 클래스의 개수는 상기에서 사용된 개수와 다를 수 있다. 예를 들어, 일 실시 예에 있어서 그 분류는 단지 유성음 또는 무성음일 수 있다. 다른 실시 예에서, 강 유성음(strongly voiced) 및 강 무성음(strongly unvoiced)과 같은 더 많은 클래스가 추가될 수 있다.
분류 추정 파라메타 t에 대한 값은 임의로 선택될 수 있다. 예를 들면, 협대역 신호의 경우, 파라메타 t의 값들은 각각 무성음, 유성음, 제너릭 및 천이 프레임에 대해 1, 3, 4 및 7로 설정된다. 광대역 신호의 경우, 그들은 각각 0, 2, 4 및 6으로 설정된다. 그러나, 각 클래스마다 추정 파라메타 t에 대해 다른 값들이 사용될 수 있다. 이러한 추정을 포함하여, 추정 파라메타들을 결정하기 위한 고안 및 훈련에 있어서의 분류 파라메타 t로 인해 고정 코드북 이득의 보다 나은 추정 gc0이 이루어진다.
프레임내의 제 1 서브-프레임을 뒤따르는 서브-프레임들은 약간 다른 추정 기법을 사용한다. 실제에 있어서 그 차이는, 이러한 서브-프레임들에 있어서, 현재 프레임내의 이전 서브-프레임으로부터의 양자화된 적응 코드북 이득과 양자화된 고정 코드북 이득이 보조 추정 파라메타로 이용되어 효율을 증가시킨다는 것이다.
도 3은 현재 프레임내의 제 1 서브-프레임을 뒤따르는 서브-프레임에 있어서의 고정 코드북 이득을 추정하는 추정기(300)의 개략적인 블럭도이다. 추정 파라메타들은 현재 프레임내의 이전 서브-프레임들로부터의 적응 및 고정 코드북 이득의 양자화된 값(파라메타들(301)) 및 분류 파라메타 t를 포함한다. 이러한 파라메타들(301)은 gp (1), gc (1), gp (2), gc (2)등으로써 표시되는데, 여기에서 윗첨자는 첫번째, 두 번째 및 다른 이전의 서브-프레임들을 지칭한다. 고정 코드북 이득의 추정이 계산되고, 이득 코드북으로부터 선택된 보정 인자에 의해 승산되어, 여기의 고정 기여의 이득을 형성하는 양자화된 고정 코드북 이득 gc를 생성한다(이와 같이 추정된 고정 코드북 이득은 제 1 서브-프레임의 고정 이득과는 다르다).
일 실시예에 있어서, 계산기(302)는 대수 도메인에 있어서의 고정 코드북 이득의 선형 추정을 계산하고, 변환기(303)는 이득 추정을 선형 도메인으로 변환한다. 이전 서브-프레임들로부터의 양자화된 적응 코드북 이득 gp (1) , gp (2) 등은 직접 계산기(302)로 공급되는 반면에, 이전 서브 프레임들로부터의 양자화된 고정 코드북 이득 gc (1) , gc (2) 등은 대수 계산기(304)를 통해 대수 도메인에 있어서의 계산기(302) 로 공급된다. 곱셈기(305)는 이득 코드북으로부터 선택된 보정 인자(306)와 변환기(303)로부터의 추정된 고정 코드북 이득 gc0(제 1 서브-프레임의 이득과는 다름)을 승산한다. 앞에서 설명한 바와 같이, 곱셈기(305)는 여기의 고정 기여의 이득을 형성하는, 양자화된 고정 코드북 이득 gc를 출력한다.
제 1 곱셈기(307)는 이득 코드북으로부터 바로 선택된 양자화된 적응 코드북 이득 gp과 적응 코드북으로부터의 필터링된 적응 여기(308)를 승산하여, 여기의 적응 기여(309)를 생성한다. 제 2 곱셈기(310)는 양자화된 고정 코드북 이득 gc과 고정 코드북으로부터의 필터링된 이노베이션 코드벡터(311)를 승산하여, 여기의 고정 기여(312)를 생성한다. 가산기(313)는 여기의 필터링된 적응 기여(309)와 여기의 필터링된 고정 기여(312)를 가산하여, 현재 프레임에 대한 총 필터링된 여기(314)를 형성한다.
대수 도메인의, 현재 프레임의 k번째 서브-프레임의 계산기(302)로 부터의 추정된 고정 코드북 이득은 아래와 같다.
Figure 112013079280060-pct00006
(6)
여기에서,
Figure 112013079280060-pct00007
는 서브-프레임 k에 있어서 대수 도메인의 양자화된 고정 코드북 이득이고,
Figure 112013079280060-pct00008
는 서브-프레임 k에 있어서 양자화된 적응 코드북 이득이다.
예를들면, 일 실시예에 있어서, 4개의 서브-프레임들이 이용되며(K=4), 그에 따라 대수 도메인의 계산기(302)로부터의 2번째, 3번째 및 4번째 서브 프레임의 추정된 고정 코드북 이득은 아래의 관계식과 같다.
Figure 112013079280060-pct00009
,
Figure 112013079280060-pct00010
, 및
Figure 112013079280060-pct00011
고정 코드북 이득의 상술한 추정은 현재 프레임의 모든 이전 서브-프레임들의 양자화된 적응 및 고정 코드북 이득을 기반으로 한다. 또한, 이 추정 기법과 제 1 서브 프레임에서 사용된 기법간에는 또 다른 차이가 있다. 고정 코드북으로부터의 필터링된 이노베이션 벡터의 에너지는 계산기(302)로부터의 대수 도메인의 고정 코드북 이득의 선형 추정으로부터 감산되지 않는다. 그 이유는 추정 수학식에서 이전 서브 프레임으로부터의 양자화된 적응 코드북 및 고정 코드북 이득을 이용하기 때문이다. 제 1 서브-프레임에 있어서, 이노베이션 벡터의 단위 에너지를 가정하여, 계산기(201)로부터 선형 추정이 실행된다. 후속하여 이 에너지는 감산되어, 추정된 고정 코드북 이득이 그의 최적값(또는 적어도 그에 근접한 값)과 동일한 레벨로 되게 한다. 제 2 서브 프레임 및 그에 후속하는 서브-프레임들에 있어서, 고정 코드북 이득의 이전의 양자화된 값은 이미 이 레벨에 있으며, 따라서 필터된 이노베이션 벡터의 에너지를 고려할 필요가 없다. 추정 계수 ai 및 bi는 각 서브-프레임마다 다르며, 그들은 이하에서 설명할 대용량 훈련 데이터 베이스를 오프라인에서 사용하여 결정된다.
추정 계수의 계산
추정 계수의 최적 세트는 남성 및 여성 화자(male and female talkers)에 의한 다양한 언어 및 레벨의 선명한 음성 신호, 잡음이 섞인 음성 신호, 혼합된 음성 신호를 포함하는 대용량 데이터베이스상에서 발견된다.
추정 계수는 대용량 데이터베이스상의 적응 및 고정 코드북 이득의 최적 무양자화 값으로 코덱을 구동함으로써 계산된다. 최적 무양자화 적응 및 고정 코드북 이득은 수학식 (3) 및 (4)에 따라 발견된다.
다음 설명에서는, 데이터베이스가 N+1 프레임들로 구성되고, 프레임 인덱스가 n=0,...,N라고 가정한다. 프레임 인덱스 n은 프레임에 기반하여 가변하는, 훈련에서 이용된 파라메타(분류, 제 1 서브-프레임 이노베이션 에너지 및 최적의 적응 및 고정 코드북 이득)에 추가된다.
추정 계수는 그 데이터베이스내의 모든 프레임에 걸쳐서의 대수 도메인의 최적 이득과 추정된 고정 코드북 이득간의 평균 제곱 에러를 최소화함으로써 발견된다.
제 1 서브-프레임의 경우, 평균 제곱 에러 에너지는 아래와 같다.
Figure 112013079280060-pct00012
(7)
수학식 (5)로부터, 프레임 n의 제 1 서브-프레임에 있어서의 추정된 고정 코드북 이득은 아래와 같이 된다.
Figure 112013079280060-pct00013
그 다음 평균 제곱 에러 에너지는 아래와 같다
Figure 112013079280060-pct00014
(8)
상기 수학식(8)에 있어서, Eest는 대수 도메인에 있어서 추정 및 최적의 고정 코드북 이득들간의 에러의 (전체 데이터 베이스상의) 총 에너지이다. 제 1 서브-프레임에 있어서의 최적의 고정 코드북 이득은,
Figure 112013079280060-pct00015
로 표시된다. 상술한 바와 같이, Ei(n)은 고정 코드북으로부터의 필터링된 이노베이션 벡터의 에너지이고, t(n)은 프레임 n의 분류 파라메타이다. 상부 인덱스(1)는 제 1 서브-프레임을 나타내는데 이용되며, n은 프레임 인덱스이다.
최소화 문제는 대수 도메인에 있어서의 이노베이션 벡터의 정규화 이득을 정의함으로써 단순화될 수 있다. 즉,
Figure 112013079280060-pct00016
(9)
이다.
그 다음, 총 에러 에너지는,
Figure 112013079280060-pct00017
(10)
가 된다.
상기에서 정의한 MES(평균 제곱 에러) 문제의 해법은 아래의 한 쌍의 편도 함수에 의하여 발견된다.
Figure 112013079280060-pct00018
상술한 수학식들로부터 결과하는 추정 계수의 최적화 이득은 아래와 같다.
Figure 112013079280060-pct00019
(11)
제 1 서브 프레임에 있어서의 고정 코드북 이득의 추정은 대수 도메인에서 실행되며, 추정된 고정 코드북 이득은 대수 도메인에 있어서의 이노베이션 벡터의 정규화 이득(
Figure 112013079280060-pct00020
)과 가능한 근접해야 한다.
제 2 프레임 및 다른 후속 프레임들의 경우, 추정 기법은 약간 다르다. 에러 에너지는 다음과 같다.
Figure 112013079280060-pct00021
(12)
여기서,
Figure 112013079280060-pct00022
이다. 수학식(6)을 수학식(12)로 대체하면 다음과 같다.
Figure 112013079280060-pct00023
(13)
각 프레임의 제 2 서브 프레임 및 후속 서브-프레임들에 있어서의 추정 계수의 계산을 위해, 이전 프레임들의 고정 및 적응 코드북 이득의 양자화 값이 상기 수학식(13)에 사용된다. 비록, 최적 무양자화 이득을 제자리에 사용할 수 있지만, 양자화 값을 이용하면 모든 서브-프레임에서 최대의 추정 효율을 이끌어내고, 결과적으로, 이득 양자화기의 전반적인 성능이 더 좋아지게 된다.
그러므로, 현재 서브-프레임의 인덱스가 커지면 추정 계수의 개수가 증가한다. 이득 양자화는 이하에서 설명된다. 추정 계수 ai 및 bi 는 각 서브-프레임마다 다르지만, 단순화를 위해 동일 기호가 이용되었다. 일반적으로, 그들은 그와 연관된 위첨자(k)를 가지거나, 각 서브-프레임마다 다르게 표기된다. 이때 k는 서브-프레임 인덱스이다.
수학식(13)에 있어서 에러 함수의 최소화는 아래와 같은 선형 방정식 시스템으로 된다.
Figure 112013079280060-pct00024
(14)
이 시스템의 해법, 즉, 추정 계수
Figure 112013079280060-pct00025
의 최적 세트는, 복잡한 수식으로 되기 때문에, 여기에 제공되지 않는다. 통상적으로 그것은 예를 들어, MATLAB와 같은 선형 방정식 솔버(linear equation solver)를 갖춘 수학 소프트웨어에 의해 해결된다. 이것은 오프라인에서 실행되는 것이 바람직하며, 인코딩 프로세스 동안에는 실행되지 않는다.
제 2 서브-프레임의 경우, 수학식(14)은 아래와 같이 된다.
Figure 112013079280060-pct00026
상술한 바와 같이, 추정 계수의 계산은 도 4에 도시된 바와 같은 이득 양자화로 대체된다. 보다 상세하게, 도 4는 각 서브-프레임마다 추정 계수가 계산되는(401) 상태 머신(400)을 기술하는 개략적인 블럭도이다. 그 다음, 각 서브 프레임마다, 계산된 추정 계수를 이용하여 이득 코드북이 고안된다(402). 다음, 계산된 추정 계수 및 이득 코드북 고안에 기초하여 서브 프레임에 대한 이득 양자화(403)가 실행된다. 고정 코드북 이득의 추정 그 자체는 각 서브-프레임에 있어서 약간 다르며, 추정 계수는 최소 평균 제곱 에러에 의하여 발견되고, 이득 코드북은 예를 들어 MacQueen, J.B(1967), "Some Methods for classification and Analysis of Multivariate Observations", Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, pp.281-297에 설명된 KMEANS 알고리즘을 이용하여 고안될 수 있으며, 상기 문헌의 전체 내용은 본 명세서에 참고로서 인용된다.
이득 양자화
도 5는 이득 양자화기(500)를 도시한 개략적인 블럭도이다.
이득 양자화하기 전에, 적응 코드북으로부터의 필터링된 적응 여기(501) 및 고정 코드북으로부터의 필터링된 이노베이션 코드 벡터(502)는 이미 알고 있다고 가정한다. 부호화기에서의 이득 양자화는 MMSE(Minimun Mean Square Error: 최소 평균 제곱 에러) 측면에서 고안된 이득 코드북(503)을 탐색함으로써 수행된다. 앞에서 기술된 바와 같이, 이득 코드북(503)내의 각 엔트리는 두 개의 값, 즉, 여기의 고정 기여에 대한 보정 인자 γ 및 양자화된 적응 코드북 이득 gp을 포함한다. 고정 코드북 이득의 추정은 미리 수행되며, 추정된 고정 코드북 이득 gc0는 이득 코드북(503)으로부터 선택된 보정 인자 γ을 승산하는데 사용된다. 각 서브-프레임에 있어서, 이득 코드북(503)은 이득 코드북의 인덱스들의 번호인 인덱스 q=0,.., Q-1, Q에 대해 완벽하게 탐색된다. 양자화된 적응 코드북 이득 gp이 특정 임계치 미만으로 되도록 지시받은 경우에, 탐색 범위의 제한이 가능하다. 탐색 범위를 줄일 수 있도록, 코드북 엔트리는 적응 코드북 이득 gp의 값에 따라 오름차순으로 정리될수 있다.
도 5를 참조하면, 2-엔트리 이득 코드북(503)이 탐색되며, 각 인덱스는 두 값, 즉 적응 코드북 이득 gp 및 보정 인자γ를 제공한다. 곱셈기(504)는 보정 인자 γ와 추정된 고정 코드북 이득 gc0을 승산하고, 결과하는 값은 여기의 고정 기여의 양자화 이득(505)(양자화된 고정 코드북 이득)으로 사용된다. 또 다른 곱셈기(506)는 적응 코드북으로부터의 필터링된 적응 여기(505)와 이득 코드북(503)으로부터의 양자화된 적응 코드북 이득 gp을 승산하여 여기의 적응 기여(507)를 생성한다. 곱셈기(508)는 필터링된 이노베이션 코드벡터(502)와 양자화된 고정 코드북 이득(505)을 승산하여, 여기의 고정 기여(509)를 생성한다. 가산기(510)는 여기의 적응 기여(507)과 고정 기여(509)를 가산하여, 필터링된 총 여기(511)를 형성한다. 감산기(512)는 타겟 신호 xi로부터 필터링된 총 여기(511)를 감산하여, 에러 신호 ei를 생성한다. 계산기(513)는 에러신호 ei의 에너지(515)를 계산하여, 그것을 이득 코드북 탐색 메카니즘에 다시 제공한다. 이득 코드북(501)의 모든 인덱스 또는 그 인덱스들의 서브 세트는 이러한 방식으로 탐색되며, 가장 낮은 에러 에너지(515)를 산출하는 이득 코드북(503)의 인덱스가 최종 인덱스(winning index)로 선택되어, 복호화기로 전송된다.
이득 양자화는 수학식(2)에서 에러의 에너지를 최소화시킴으로써 수행될 수 있다. 상기 에너지는 아래와 같다.
Figure 112013079280060-pct00027
(15)
gc
Figure 112013079280060-pct00028
로 대체하면 다음과 같은 관계식을 얻을 수 있다.
Figure 112013079280060-pct00029
(16)
여기서, 상수 또는 상관 c0, c1, c2, c3, c4 및 c5는 상술한 수학식(4)에서와 같이 계산될 수 있다. 상기 상수 또는 상관 c0, c1, c2, c3, c4 , c5 추정된 이득 gc0는 이득 코드북(503)의 탐색 이전에 계산되며, 그 다음, 수학식(16)에서의 에너지는 각 코드북 인덱스(엔트리값 gp γ의 각 세트)마다 계산된다.
에러 신호 ei의 가장 낮은 에너지(515)를 이끄는 이득 코드북(503)으로부터의 코드 벡터가 최종 코드벡터로서 선택되며, 그의 엔트리 값들은 양자화 값 gp 및 γ에 대응한다. 그 다음, 고정 코드북 이득의 양자화 값이
Figure 112013079280060-pct00030
로 계산된다.
도 6은, 도 5에서 마찬가지로, 수학식(16)을 이용하여 에러 신호 ei의 에너지 Ei의 계산을 수행하는 등가 이득 양자화기(600)의 개략적인 블럭도이다. 보다 구체적으로, 이득 양자화기(600)는 이득 코드북(601), 상수 또는 상관의 계산기(602) 및 에러 신호의 에너지(604)의 계산기(603)를 포함한다. 계산기(602)는 수학식(4), 타겟 벡터 x, 적응 코드북으로부터의 필터링된 적응 여기 벡터 y 및 고정 코드북으로부터의 필터링된 고정 코드벡터 z를 이용하여, 상수 또는 상관 c0, c1, c2, c3, c4 및 c5를 계산한다. 여기서, t는 벡터 전치를 나타낸다. 계산기(603)는 수학식(16)을 이용하여 추정된 고정 코드북 이득 gc0과, 계산기(602)로부터의 상관 c0, c1, c2, c3, c4 및 c5와, 이득 코드북(601)로부터의 양자화된 적응 코드북 이득 gp 및 보정 인자γ로부터, 에러 신호 ei의 에너지 Ei를 계산한다. 계산기(603)로부터의 에러신호의 에너지(604)는 이득 코드북 탐색 메커니즘으로 다시 공급된다. 다시 말해, 이득 코드북(601)의 인덱스들의 전체 또는 서브 세트는 이러한 방식으로 탐색되며, 가장 낮은 에러 에너지(604)를 산출하는 이득 코드북의 인덱스가 최종 인덱스로 선택되어, 복호화기로 전송된다.
도 6의 이득 양자화기(600)에 있어서, 이득 코드북(601)은 서브-프레임에 따라 달라질 수 있는 크기를 가진다. 증가된 개수의 추정 파라메타로 인해, 프레임내의 후위 서브 프레임(later sub-frame)에서 보다 양호한 고정 코드북의 추정이 달성된다. 그러므로, 후위 서브-프레임에 보다 적은 개수의 비트가 사용될 수 있다. 일 실시예에서는, 4개의 서브 프레임들이 이용되는데, 거기에서는 이득 코드북에 대한 비트의 번호가 각각 서브-프레임 1, 2, 3 및 4에 대응하는 8, 7, 6 및 6이다. 보다 낮은 비트 레이트의 또 다른 실시예에서는, 각 서브 프레임에 6 비트가 이용된다.
복호화기에 있어서, 수신 인덱스는 이득 코드북으로부터 양자화 적응 코드북 이득 gp과 보정 인자γ의 값들을 검색하는데 사용된다. 고정 코드북 이득의 추정은 앞에서 설명한 바와 같이 부호화기에서와 같은 방식으로 수행된다. 고정 코드북 이득의 양자화 값은 수학식
Figure 112013079280060-pct00031
에 의해 계산된다. 적응 코드벡터 및 이노베이션 코드벡터는 비트스트림으로부터 디코딩되어, 각각의 적응 및 고정 코드북 이득에 의해 승산되는 적응 및 고정 여기 기여로 된다. 두 개의 여기 기여들은 함께 가산되어 총 여기를 형성한다. 합성 신호는 CELP 코딩 분야에 알려진 LP 합성 필터를 통하여 총 여기를 필터링함으로써 발견된다.
신호 분류
예를 들어, 도 1의 파라메타 t와 같은 프레임의 분류를 결정하는데 다른 방법이 이용될 수 있다. 이하에서는 프레임들이 무성음, 유성음, 제너릭 또는 천이 프레임으로 분류되는 비 제한적 예시가 설명된다. 그러나, 음성 클래스들의 개수는 이 예시에서 사용된 것과 다를 수 있다. 예를 들어, 일 실시 예에 있어서 그 분류는 단지 유성음 또는 무성음일 수 있다. 다른 실시 예에서, 강 유성음(strongly voiced) 및 강 무성음(strongly unvoiced)과 같은 더 많은 클래스가 추가될 수 있다.
신호 분류는 3 단계로 수행될 수 있는데, 각 단계는 특정 신호 클래스를 판별한다. 첫 번째로, SAD(Signal Activity Detector)는 활성 음성 프레임과 불활성 음성 프레임을 판별한다. 만약, 불활성 음성 프레임이 검출되면(배경 잡음 신호), 분류 체인이 종료되고 프레임은 CNG(Comfort Noise Generation)로 인코딩된다. 활성 음성 프레임이 검출되면, 그 프레임은 제 2 분류기에 의해 무성음 프레임인지를 판별받는다. 그 분류기가 프레임을 무성음 음성 신호로 분류하면, 분류 체인은 종료되며 프레임은 무성음 신호에 대해 최적화된 코딩 방법을 사용하여 인코딩된다. 그렇지 않을 경우, 프레임은 "안정 유성음(stable voiced)" 분류 모듈을 통하여 처리된다. 프레임이 안정 유성음 프레임으로 분류되면, 프레임은 안정 유성음 신호에 대해 최적화된 코딩 방법을 사용하여 인코딩한다. 그렇지 않으면, 프레임은 유성음 온셋(voiced onset) 또는 빠르게 전개되는 유성음 신호(rapidly evolving voiced signal)와 같은 비정상 신호 세그먼트(non-stationary signal segment)를 포함할 가능성이 있다. 전형적으로 이러한 프레임들은 양호한 주관적 품질을 유지하는 범용 부호화기 및 높은 비트 레이트를 요구한다. 개시된 이득 양자화 기법은 안정 유성음 및 범용 프레임에 대해 발전 및 최적화 되었다. 그러나, 그것은 다른 신호 클래스에 대해 쉽게 확장될 수 있다.
이하에서는, 무성음 및 유성음 신호 프레임의 분류가 설명될 것이다.
사운드 신호의 무성음 부분은 주기적 성분을 누락시키는 것을 특징으로 하며, 에너지 및 스펙트럼이 신속하게 변화하는 불안정 프레임과, 이들 특성들이 상대적으로 안정적으로 유지되는 안정 프레임으로 추가 분할될 수 있다. 무성음 프레임의 분류는 이하의 파라메타를 이용한다.
- 평균 정규화 상관으로서 계산된 보이싱 측정(voicing measure)
Figure 112013079280060-pct00032
;
- 평균 스펙트럼 기울기 측정
Figure 112013079280060-pct00033
;
- 익스플로시브 신호 세그먼트(explosive signal segment)를 효율적으로 검출하기 위한 로우 레벨(low level)
Figure 112013079280060-pct00034
에서의 최대 단기 에너지 증가;
- 프레임 안정성을 평가하는데 이용되는 최대 단기 에너지 변동
Figure 112013079280060-pct00035
;
- [Jelinek, M., Valillancourt, T., Gibbs, J., "G.718: A new embedded speech and audio coding standard with high resilience to error-prone transmission channels", In IEEE Communications Magazine, Vol. 47, pp. 117-123, October 2009]에 설명된(그의 전체 내용은 본 명세서에서 참조로서 인용됨) 무성음 신호로부터 음악을 판별하기 위한 음색 안정성(tonal stability); 및
- 매우 낮은 에너지 신호를 검출하기 위한 상대적인 프레임 에너지
Figure 112013079280060-pct00036
보이싱 측정
보이싱 측정을 결정하는데 이용되는 정규화 상관은 개방-루프 피치 분석의 일부로서 계산된다. CELP 코딩 기술에 있어서, 개방-루프 탐색 모듈은 통상적으로 프레임당 2개의 추정치를 출력한다. 여기에서, 그것은 정규화 상관 측정을 출력하는데 이용된다. 이러한 정규화 상관은 소정 가중 신호와 개방-루프 피치 지연에서의 과거 가중 신호에 대해 계산된다. 가중 음성 신호
Figure 112013079280060-pct00037
는 인지 가중 필터를 이용하여 계산된다. 예를 들어, 광대역 신호에 적합한 고정 분모(fixed denominator)를 가진 인지 가중 필터가 이용된다. 인지 가중 필터의 예시적인 전달 함수는 아래와 같다.
Figure 112013079280060-pct00038
여기에서,
Figure 112013079280060-pct00039
이고, A(z)는 Levinson-Durbin 알고리즘을 이용하여 계산된 LP(Linear Prediction) 필터의 전달 함수로서, 아래와 같다.
Figure 112013079280060-pct00040
LP 분석 및 개방-루프 피치 분석은 CELP 코딩 기술에 잘 알려져 있으며, 따라서, 추가적인 설명은 하지 않겠다.
보이싱 측정
Figure 112013079280060-pct00041
은 이하의 수학식에 의해 주어진 평균 정규화 상관으로서 정의된다.
Figure 112013079280060-pct00042
여기에서,
Figure 112013079280060-pct00043
,
Figure 112013079280060-pct00044
Figure 112013079280060-pct00045
은 각각 현재 프레임의 전반부(first half)의 정규화 상관, 현재 프레임의 후반부(second half)의 정규화 상관 및 룩-어헤드(look-ahead)(다음 프레임의 시작)의 정규화 상관이다. 상관에 대한 인수(argument)는 개방-루프 피치 래그(open-loop pitch lag)이다.
스펙트럼 기울기
스펙트럼 기울기는 에너지의 주파수 분포에 대한 정보를 포함한다. 스펙트럼기울기는, 주파수 영역에 있어서, 저 주파수에 집중된 에너지와 고 주파수에 집중된 에너지간의 비율로서 추정될 수 있다. 그러나, 그것은 신호의 2개의 제 1 자기 상관 계수들간의 비율과 같이 다른 방식으로 추정될 수도 있다.
[J.D.Johnston, "Transform Coding of Audio Signals Using Perceptual Noise Criteria", IEEE Journal on Selected Areas in Communications, vol.6,no.2,pp.314-323, February 1988]에 설명된 바와 같이(그의 전체 내용은 본 명세서에서 참조로서 인용됨), 인지 임계 대역을 뒤따른 고주파수 및 저주파수에 있어서의 에너지가 계산된다. 고주파수의 에너지는 아래와 같은 수학식을 이용하여 마지막 2개의 임계 대역들의 평균 에너지로서 계산된다.
Figure 112013079280060-pct00046
여기에서,
Figure 112013079280060-pct00047
는 i번째 대역의 임계 대역 에너지이고, bmax는 최종 임계 대역이다. 저주파수에서의 에너지는 아래와 같은 수학식을 이용하여 첫번째 10개의 임계 대역들의 평균 에너지로서 계산된다.
Figure 112013079280060-pct00048
여기에서 bmin은 첫번째 임계 대역이다.
중간 임계 대역들은 계산에서 제외되었는데 그 이유는 그들이 저주파수에서 고에너지 집중을 가진 프레임(통상적으로 유성음)과 고주파수에서 고에너지 집중을 가진 프레임(통상적으로 무성음)간에 판별을 개선하는 경향이 없기 때문이다. 중간에서의 에너지 내용은 추가 설명될 임의 클래스에 대한 특성이 아니며, 결정 혼란을 증가시킨다.
스펙트럼 기울기는 아래와 같다.
Figure 112013079280060-pct00049
여기에서,
Figure 112013079280060-pct00050
Figure 112013079280060-pct00051
은 각각
Figure 112013079280060-pct00052
Figure 112013079280060-pct00053
와 동일한 방식으로 계산된 마지막 2개의 임계 대역 및 첫번째 10개의 임계 대역내의 평균 잡음 에너지이다. 추정된 잡음 에너지가 배경 잡음의 존재를 설명하기 위해 기울기 계산에 추가되었다. 스펙트럼 기울기 계산은 프레임당 2회 실행되며, 평균 스펙트럼 기울기가 계산되어 무성음 프레임 분류에 이용된다. 즉,
Figure 112013079280060-pct00054
이다.
여기에서,
Figure 112013079280060-pct00055
는 이전 프레임의 후반부에 있어서의 스펙트럼 기울기이다.
로우 레벨에서의 최대 단기 에너지 증가
입력 사운드 신호 s(n)에 대한 로우 레벨(dE0)에서의 최대 단기 에너지 증가가 평가되는데, 여기에서 n=0은 현재 프레임의 제 1 샘플에 대응한다. 신호 에너지는 서브 프레임당 2회 평가된다. 예를 들어, 프레임당 4개의 서브 프레임의 시나리오를 가정하면, 에너지는 프레임당 8회 계산된다. 전체 프레임 길이가, 예를 들어, 256 샘플이면, 이런 짧은 세그먼트들의 각각은 32 샘플들을 가질 수 있다. 이러한 계산에서는, 이전 프레임으로부터의 마지막 32 샘플과 다음 프레임으로부터의 처음 32 샘플들의 단기 에너지들이 고려된다. 단기 에너지들은 이하의 수학식을 이용하여 계산된다.
Figure 112013079280060-pct00056
여기에서, j=-1 및 j=8은 이전 프레임의 끝 및 다음 프레임의 시작에 각각 대응한다. 다른 9개의 단기 에너지 세트는 이하의 수학식을 이용하여 상술한 수학식에서 신호 인덱스들을 16 샘플만큼 시프트시켜 계산된다.
Figure 112013079280060-pct00057
충분히 낮은, 즉 조건
Figure 112013079280060-pct00058
을 충족하는 에너지의 경우, 제 1 에너지 세트에 대해 이하의 비율이 계산되고,
Figure 112013079280060-pct00059
(j=-1,...,6에 대해)
j=0,...,7을 가진
Figure 112013079280060-pct00060
에 대해 동일한 계산이 반복되어 두 세트의 비율
Figure 112013079280060-pct00061
Figure 112013079280060-pct00062
을 획득한다. 이들 2 세트에 있어서 단지 최대치만이 로우 레벨에서의 최대 단기 에너지 증가를 나타내는 아래의 수학식에 의해 탐색된다.
Figure 112013079280060-pct00063
최대 단기 에너지 변화
이 파라메타 dE는 로우 레벨에서의 최대 단기 에너지 증가와 유사하지만, 로우 레벨 조건이 적용되지 않는다는 차이가 있다. 따라서, 그 파라메타는 이하의 4개 값들의 최대로서 계산된다.
Figure 112013079280060-pct00064
Figure 112013079280060-pct00065
Figure 112013079280060-pct00066
(j=1,..,7)
Figure 112013079280060-pct00067
(j=1,..,8)
무성음 신호 분류
무성음 신호 프레임의 분류는 상술한 파라메타, 즉, 보이싱 측정
Figure 112013079280060-pct00068
과, 평균 스펙트럼 기울기
Figure 112013079280060-pct00069
와, 로우 레벨에서의 최대 단기 에너지 증가 dEO 및 최대 단기 에너지 변동 dE에 기초한다. 그 알고리즘은 잡음 에너지 갱신 단계 동안에 계산된 상대적 프레임 에너지, SAD 플래그 및 음색 안정 파라메타에 의해 뒷받침된다. 이들 파라메타에 대한 보다 세부적인 정보에 대해서는 예를 들어, [Jelinek, M., ET AL., "Advances in source-controlled variable bitrate wideband speech coding", Special Workshop in MAUI (SWIM): Lectures by masters in speech processing, Maui, Hawaii, January 12-14, 2004]를 참조하면 되고, 그의 전체 내용은 본 명세서에서 참조로서 인용된다.
상대적 프레임 에너지는 다음과 같다.
Figure 112013079280060-pct00070
여기에서,
Figure 112013079280060-pct00071
는 전체 프레임 에너지(dB)이고,
Figure 112013079280060-pct00072
Figure 112013079280060-pct00073
에 의해 각 활성 프레임동안에 갱신된 장기 평균 프레임 에너지이다.
광대역 신호의 무성음 분류에 대한 규칙은 아래와 같이 요약된다.
Figure 112013079280060-pct00074
AND
[마지막 프레임 불활성 OR 무성음 OR ((eold<2.4) AND (rx(0)<0.66))]
Figure 112013079280060-pct00075
AND
Figure 112013079280060-pct00076
AND
NOT [(음색_안정성
Figure 112013079280060-pct00077
- 14) AND 1로 설정된 SAD 플래그]
이 조건의 제 1 라인은 낮은 에너지 신호들 및 고 주파수에서 그들의 에너지를 집중시키는 낮은 상관을 가진 신호들과 관련된다. 제 2 라인은 유성음 오프셋(offset)을 커버하고, 제 3 라인은 익스플로시브 신호 세그먼트를 커버하고, 제 4 라인은 유성음 온셋(onset)과 관련된다. 마지막 라인은 음악 신호를 식별하는데, 그렇지 않을 경우 무성음으로 선언(declaration)된다.
조합된 조건들이 충족되면, 분류는 현재 프레임을 무성음으로 선언함에 의해 종료된다.
유성음 신호 분류
프레임이 불활성 프레임 또는 무성음 프레임으로 분류되지 않으면, 그것이 안정 유성음 프레임인지 검사한다. 결정 규칙은 (1/4 서브샘플 분해능(subsample resolution)을 가진) 각 서브 프레임에 있어서의 정규화 상관
Figure 112013079280060-pct00078
, 평균 스펙트럼 기울기
Figure 112013079280060-pct00079
및 (1/4 서브샘플 분해능을 가진) 모든 서브 프레임에 있어서의 개방-루프 피치 추정치에 기초한다.
개방-루프 피치 추정 절차는 3가지 개방-루프 피치 레그, 즉, 전반부 프레임(first half-frame), 후반부 프레임(second half-frame) 및 룩-어헤드(다음 프레임의 전반부 프레임)에 대응하는
Figure 112013079280060-pct00080
Figure 112013079280060-pct00081
을 계산한다. 4개의 서브 프레임 모두에 있는 정확한 피치 정보를 획득하기 위해, 1/4 샘플 분해능 단편 피치 세분(sample resolution fractional pitch refinement)이 계산된다. 이 세분은 인지 가중 입력 신호
Figure 112013079280060-pct00082
(예를 들어, 상술한 인지 가중 필터를 통해 필터링된 입력 사운드 신호 s(n))에 대해 계산된다. 각 서브 프레임의 시작시에, 간격(-7, +7)에서, 이하의 지연, 즉, 제 1 및 제 2 서브 프레임에 대한
Figure 112013079280060-pct00083
와, 제 3 및 제 4 서브 프레임에 대한
Figure 112013079280060-pct00084
을 이용하여 1 샘플의 분해능을 가진 짧은 상관 분석(short correlation analysis)(40 샘플)이 수행된다. 그 다음 그 상관은 단편 위치(fractional position)에 있는 그들의 최대치 주변
Figure 112013079280060-pct00085
에 보간된다. 최대 상관을 산출하는 값이 세분된 피치 레그(refined pitch lag)로서 선택된다.
4개의 서브 프레임 모두에 있어서의 세분된 개방-루프 피치 레그를 T(0), T(1), T(2) 및 T(3)라 하고, 그들의 대응하는 정규화 상관을 C(0), C(1), C(2) 및 C(3)라 하자. 그러면, 유성음 신호 분류 조건은 다음과 같다.
[C(0)>0.605] AND
[C(1)>0.605] AND
[C(2)>0.605] AND
[C(3)>0.605] AND
Figure 112013079280060-pct00086
Figure 112013079280060-pct00087
상술한 유성음 신호 분류 조건은, 모든 서브 프레임에 있어서 정규화 상관이 충분히 높아야 되고, 프레임에 걸쳐 피치 추정치가 나뉘어지지 않아야 하며, 낮은 주파수에 에너지가 집중되어야 한다는 것을 나타낸다. 이러한 조건이 충족되면, 현재 프레임을 유성음으로 선언함에 의해 분류가 종료된다. 그렇지 않으며, 현재 프레임은 제너릭으로서 선언된다.
비록 본 발명이 비 제한적인 예시적인 실시 예를 참조하여 상기에서 설명되었지만, 이들 실시 예는 본 발명의 사상 및 본질을 벗어나지 않고도, 첨부된 청구범위의 범주내에서 수정될 수 있다.
500: 이득 양자화기
501: 필터링된 적응 여기
502: 필터링된 이노베이션 코드 벡터
503: 이득 코드북
504: 곱셈기
505: 양자화 이득
506: 곱셈기
507: 여기의 적응 기여
508: 곱셈기
509: 여기의 고정 기여
510: 가산기
511: 필터링된 총 여기
512: 감산기
513: 계산기
515:에러 신호의 에너지

Claims (50)

  1. 코드화된 사운드 신호의, 서브 프레임을 포함하는 프레임에 있어서 여기의 고정 기여의 이득을 양자화는 장치로서,
    상기 프레임의 분류를 나타내는 파라메타를 수신하는 입력 장치와;
    프레임의 분류를 나타내는 파라메타를 이용하여, 상기 프레임의 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하는 추정기와;
    추정된 이득을 이용하여, 서브 프레임에 있어서의 여기의 고정 기여의 이득을 예측 양자화하는 예측 양자화기를 포함하고,
    상기 예측 양자화기는 상기 여기의 고정 기여의 이득의 양자화로서 상기 추정된 이득에 대한 보정 인자를 판정하고,
    상기 보정 인자에 의해 승산된 상기 추정된 이득은 상기 여기의 고정 기여의 양자화 이득을 제공하며,
    상기 추정기는, 상기 프레임의 제 1 서브 프레임에 대해,
    (a) 상기 프레임의 분류를 나타내는 파라메타에 응답하여, 대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 제 1 계산기와,
    (b) 상기 제 1 계산기로부터의 선형 이득 추정으로부터, 대수 영역내의 고정 코드북으로부터의 필터링된 이노베이션 코드벡터의 에너지를 감산하는 감산기 - 상기 감산기는 대수 영역에서 이득을 생성함 -와,
    (c) 추정된 이득을 생성하기 위해, 상기 감산기로부터의 대수 영역의 이득을 선형 영역으로 변환하는 변환기와,
    (d) 여기의 고정 기여의 양자화 이득을 생성하기 위해, 보정 인자로 추정 이득을 승산하는 곱셈기를 포함하며,
    상기 추정기는, 제 1 서브 프레임을 뒤따르는 상기 프레임의 각 서브 프레임에 대해, 여기의 고정 기여의 이득을 추정하기 위해, 프레임의 분류를 나타내는 파라메타와, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득에 응답하는
    양자화 장치.
  2. 제 1 항에 있어서,
    상기 추정기는, 제 1 서브 프레임을 뒤따르는 각 서브 프레임에 대해,
    대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 제 2 계산기와,
    추정된 이득을 생성하기 위해 대수 영역의 선형 추정을 선형 영역으로 변환하는 변환기를 포함하며,
    프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득은 양자화된 이득이고,
    여기의 적응 기여의 양자화된 이득은 상기 제 2 계산기에 직접 공급되는 반면, 여기의 고정 기여의 양자화된 이득은 제 3 대수 계산기를 통해 대수 영역내의 상기 제 2 계산기로 공급되는
    양자화 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 추정기는, 여기의 고정 기여의 이득의 추정을 위해, 프레임의 각 서브 프레임마다 다른 추정 계수를 사용하는
    양자화 장치.
  4. 코드화된 사운드 신호의 프레임에 있어서 여기의 적응 및 고정 기여의 이득들을 결합 양자화하는 장치로서,
    상기 여기의 적응 기여의 이득의 양자화기와,
    청구항 제 1 항 또는 제 2 항에서 정의된, 상기 여기의 고정 기여의 이득을 양자화하는 장치를 포함하는
    결합 양자화 장치.
  5. 제 4 항에 있어서,
    추정된 이득에 대한 보정 인자와 여기의 적응 기여의 양자화 이득을 각각으로 포함하는 엔트리들을 가진 이득 코드북 장치를 포함하는
    결합 양자화 장치.
  6. 제 5 항에 있어서,
    여기의 적응 기여의 이득의 양자화기와 여기의 고정 기여의 이득의 예측 양자화기는 이득 코드북 장치를 탐색하고, 여기의 고정 기여의 이득의 양자화로서, 이득 코드북 장치의 하나의 엔트리로부터의 여기의 적응 기여의 이득과, 이득 코드북 장치의 동일한 엔트리의 보정 인자를 선택하는
    결합 양자화 장치.
  7. 제 5 항에 있어서,
    프레임의 각 서브 프레임에 대한 이득 코드북 장치의 고안기(designer)를 포함하는
    결합 양자화 장치.
  8. 제 7 항에 있어서,
    상기 이득 코드북 장치는 프레임의 서로 다른 서브 프레임들에 있어서 다른 크기를 가지는
    결합 양자화 장치.
  9. 프레임의 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 검색하는 장치로서,
    이득 코드북 인덱스의 수신기와;
    프레임의 분류를 나타내는 파라메타를 이용하여, 상기 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하는 추정기와;
    이득 코드북 인덱스에 응답하여 보정 인자(correction factor)를 공급하는 이득 코드북 장치와;
    상기 서브 프레임에 있어서의 여기의 고정 기여의 양자화된 이득을 제공하기 위해 보정 인자와 추정된 이득을 승산하는 곱셈기를 포함하며,
    상기 추정기는, 상기 프레임의 제 1 서브 프레임에 대해,
    (a) 상기 프레임의 분류를 나타내는 파라메타에 응답하여, 대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 계산기와,
    (b) 상기 계산기로부터의 선형 이득 추정으로부터, 대수 영역내의 고정 코드북으로부터의 필터링된 이노베이션 코드벡터의 에너지를 감산하는 감산기 - 상기 감산기는 대수 영역에서 이득을 생성함 -와,
    (c) 추정된 이득을 생성하기 위해, 상기 감산기로부터의 대수 영역내의 이득을 선형 영역으로 변환하는 변환기를 포함하며,
    상기 추정기는, 제 1 서브 프레임을 뒤따르는 상기 프레임의 각 서브 프레임에 대해, 여기의 고정 기여의 이득을 추정하기 위해, 프레임의 분류를 나타내는 파라메타와, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득에 응답하는
    검색 장치.
  10. 프레임의 서브 프레임에 있어서 여기의 적응 및 고정 기여들의 양자화된 이득들을 검색하는 장치로서,
    이득 코드북 인덱스의 수신기와;
    프레임의 분류를 나타내는 파라메타를 이용하여, 상기 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하는 추정기와;
    이득 코드북 인덱스에 응답하여 서브 프레임에 대한 보정 인자(correction factor)와 여기의 적응 기여의 양자화된 이득을 공급하는 이득 코드북 장치와;
    상기 서브 프레임에 있어서의 여기의 고정 기여의 양자화된 이득을 제공하기 위해 보정 인자와 추정된 이득을 승산하는 곱셈기를 포함하며,
    상기 추정기는, 상기 프레임의 제 1 서브 프레임에 대해,
    (a) 상기 프레임의 분류를 나타내는 파라메타에 응답하여, 대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 계산기와,
    (b) 상기 계산기로부터의 선형 이득 추정으로부터, 대수 영역내의 고정 코드북으로부터의 필터링된 이노베이션 코드벡터의 에너지를 감산하는 감산기 - 상기 감산기는 대수 영역에서 이득을 생성함 -와,
    (c) 추정된 이득을 생성하기 위해, 상기 감산기로부터의 대수 영역의 이득을 선형 영역으로 변환하는 변환기를 포함하며,
    상기 추정기는, 제 1 서브 프레임을 뒤따르는 상기 프레임의 각 서브 프레임에 대해, 여기의 고정 기여의 이득을 추정하기 위해, 프레임의 분류를 나타내는 파라메타와, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득에 응답하는
    검색 장치.
  11. 제 10 항에 있어서,
    상기 이득 코드북 장치는 추정된 이득에 대한 보정 인자와 여기의 적응 기여의 양자화 이득을 각각으로 포함하는 엔트리들을 구비하는
    검색 장치.
  12. 코드화된 사운드 신호의, 서브 프레임을 포함하는 프레임에 있어서 여기의 고정 기여의 이득을 양자화는 방법으로서,
    상기 프레임의 분류를 나타내는 파라메타를 수신하는 단계와;
    프레임의 분류를 나타내는 파라메타를 이용하여, 상기 프레임의 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하는 단계와;
    추정된 이득을 이용하여, 서브 프레임에 있어서의 여기의 고정 기여의 이득을 예측 양자화하는 단계를 포함하고,
    여기의 고정 기여의 이득을 예측 양자화하는 상기 단계는, 상기 여기의 고정 기여의 이득의 양자화로서 상기 추정된 이득에 대한 보정 인자를 판정하는 단계를 포함하고,
    상기 보정 인자에 의해 승산된 상기 추정된 이득은 상기 여기의 고정 기여의 양자화 이득을 제공하며,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 상기 프레임의 제 1 서브 프레임에 대해,
    (a) 상기 프레임의 분류를 나타내는 파라메타에 응답하여, 대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 단계와,
    (b) 선형 이득 추정으로부터, 대수 영역내의 고정 코드북으로부터의 필터링된 이노베이션 코드벡터의 에너지를 감산하여 대수 영역에서 이득을 생성하는 단계와,
    (c) 추정된 이득을 생성하기 위해, 상기 감산으로부터의 대수 영역의 이득을 선형 영역으로 변환하는 단계와,
    (d) 여기의 고정 기여의 양자화 이득을 생성하기 위해, 보정 인자로 추정 이득을 승산하는 단계를 포함하며,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 제 1 서브 프레임을 뒤따르는 상기 프레임의 각 서브 프레임에 대해, 여기의 고정 기여의 이득을 추정하기 위해, 프레임의 분류를 나타내는 파라메타와, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득에 응답하는
    양자화 방법.
  13. 제 12 항에 있어서,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 제 1 서브 프레임을 뒤따르는 각 서브 프레임에 대해,
    대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 단계와,
    추정된 이득을 생성하기 위해 대수 영역의 선형 추정을 선형 영역으로 변환하는 단계를 포함하며,
    프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 기여의 이득은 양자화된 이득이고, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 고정 기여의 이득은 대수 영역에 있어서의 양자화된 이득인,
    양자화 방법.
  14. 제 12 항 또는 제 13 항에 있어서,
    여기의 고정 기여의 이득을 추정하는 상기 단계는,
    여기의 고정 기여의 이득의 추정을 위해, 프레임의 각 서브 프레임마다 다른 추정 계수를 사용하는
    양자화 방법.
  15. 코드화된 사운드 신호의 프레임에 있어서 여기의 적응 및 고정 기여의 이득들을 결합 양자화하는 방법으로서,
    상기 여기의 적응 기여의 이득을 양자화하는 단계와,
    청구항 제 12 항 또는 제 13 항에서 정의된 방법을 이용하여, 상기 여기의 고정 기여의 이득을 양자화하는 단계를 포함하는
    결합 양자화 방법.
  16. 제 15 항에 있어서,
    상기 결합 양자화 방법은,
    추정된 이득에 대한 보정 인자와 여기의 적응 기여의 양자화 이득을 각각으로 포함하는 엔트리들을 가진 이득 코드북을 이용하는
    결합 양자화 방법.
  17. 제 16 항에 있어서,
    여기의 적응 기여의 이득을 양자화하는 단계 및 여기의 고정 기여의 이득을 양자화하는 단계는,
    이득 코드북을 탐색하는 단계와,
    여기의 고정 기여의 이득의 양자화로서, 이득 코드북의 하나의 엔트리로부터의 여기의 적응 기여의 이득과, 이득 코드북의 동일한 엔트리의 보정 인자를 선택하는 단계를 포함하는
    결합 양자화 방법.
  18. 프레임의 서브 프레임에 있어서 여기의 고정 기여의 양자화된 이득을 검색하는 방법으로서,
    이득 코드북 인덱스를 수신하는 단계와;
    프레임의 분류를 나타내는 파라메타를 이용하여, 상기 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하는 단계와;
    이득 코드북으로 부터 및 서브 프레임에 대하여, 이득 코드북 인덱스에 응답하여 보정 인자(correction factor)를 공급하는 단계와;
    상기 서브 프레임에 있어서의 여기의 고정 기여의 양자화된 이득을 제공하기 위해 보정 인자와 추정된 이득을 승산하는 단계를 포함하며,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 상기 프레임의 제 1 서브 프레임에 대해,
    (a) 상기 프레임의 분류를 나타내는 파라메타에 응답하여, 대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 단계와,
    (b) 선형 이득 추정으로부터, 대수 영역내의 고정 코드북으로부터의 필터링된 이노베이션 코드벡터의 에너지를 감산하여 대수 영역에서 이득을 생성하는 단계와,
    (c) 추정된 이득을 생성하기 위해, 상기 감산으로부터의 대수 영역의 이득을 선형 영역으로 변환하는 단계를 포함하며,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 제 1 서브 프레임을 뒤따르는 상기 프레임의 각 서브 프레임에 대해, 여기의 고정 기여의 이득을 추정하기 위해, 프레임의 분류를 나타내는 파라메타와, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득에 응답하는
    검색 방법
  19. 제 18 항에 있어서,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 프레임의 각 서브 프레임마다 다른 추정 계수를 사용하는 단계를 포함하는,
    검색 방법.
  20. 프레임의 서브 프레임에 있어서 여기의 적응 및 고정 기여들의 양자화된 이득들을 검색하는 방법으로서,
    이득 코드북 인덱스를 검색하는 단계와;
    프레임의 분류를 나타내는 파라메타를 이용하여, 상기 서브 프레임에 있어서의 여기의 고정 기여의 이득을 추정하는 단계와;
    이득 코드북으로 부터 및 서브 프레임에 대하여, 이득 코드북 인덱스에 응답하여 보정 인자(correction factor)와 여기의 적응 기여의 양자화된 이득을 공급하는 단계와;
    상기 서브 프레임에 있어서의 여기의 고정 기여의 양자화된 이득을 제공하기 위해 보정 인자와 추정된 이득을 승산하는 단계를 포함하며,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 상기 프레임의 제 1 서브 프레임에 대해,
    (a) 상기 프레임의 분류를 나타내는 파라메타에 응답하여, 대수 영역내의 여기의 고정 기여의 이득의 선형 추정을 계산하는 단계와,
    (b) 선형 이득 추정으로부터, 대수 영역내의 고정 코드북으로부터의 필터링된 이노베이션 코드벡터의 에너지를 감산하여 대수 영역에서 이득을 생성하는 단계와,
    (c) 추정된 이득을 생성하기 위해, 상기 감산으로부터의 대수 영역의 이득을 선형 영역으로 변환하는 단계를 포함하며,
    여기의 고정 기여의 이득을 추정하는 상기 단계는, 제 1 서브 프레임을 뒤따르는 상기 프레임의 각 서브 프레임에 대해, 여기의 고정 기여의 이득을 추정하기 위해, 프레임의 분류를 나타내는 파라메타와, 프레임의 적어도 하나의 이전 서브 프레임의 여기의 적응 및 고정 기여의 이득을 이용하는 단계를 포함하는,
    검색 방법.
  21. 제 20 항에 있어서,
    상기 이득 코드북은 추정된 이득에 대한 보정 인자와 여기의 적응 기여의 양자화 이득을 각각으로 포함하는 엔트리들을 포함하는
    검색 방법.

  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
KR1020137022984A 2011-02-15 2012-02-14 켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법 KR101999563B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161442960P 2011-02-15 2011-02-15
US61/442,960 2011-02-15
PCT/CA2012/000138 WO2012109734A1 (en) 2011-02-15 2012-02-14 Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec

Publications (2)

Publication Number Publication Date
KR20140023278A KR20140023278A (ko) 2014-02-26
KR101999563B1 true KR101999563B1 (ko) 2019-07-15

Family

ID=46637577

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137022984A KR101999563B1 (ko) 2011-02-15 2012-02-14 켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법

Country Status (18)

Country Link
US (1) US9076443B2 (ko)
EP (2) EP2676271B1 (ko)
JP (2) JP6072700B2 (ko)
KR (1) KR101999563B1 (ko)
CN (2) CN103392203B (ko)
AU (1) AU2012218778B2 (ko)
CA (1) CA2821577C (ko)
DE (1) DE20163502T1 (ko)
DK (1) DK2676271T3 (ko)
ES (1) ES2812598T3 (ko)
HR (1) HRP20201271T1 (ko)
HU (1) HUE052882T2 (ko)
LT (1) LT2676271T (ko)
MX (1) MX2013009295A (ko)
RU (1) RU2591021C2 (ko)
SI (1) SI2676271T1 (ko)
WO (1) WO2012109734A1 (ko)
ZA (1) ZA201305431B (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626982B2 (en) * 2011-02-15 2017-04-18 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
US9111531B2 (en) 2012-01-13 2015-08-18 Qualcomm Incorporated Multiple coding mode signal classification
AU2013314636B2 (en) * 2012-09-11 2016-02-25 Telefonaktiebolaget L M Ericsson (Publ) Generation of comfort noise
FR3007563A1 (fr) * 2013-06-25 2014-12-26 France Telecom Extension amelioree de bande de frequence dans un decodeur de signaux audiofrequences
CN104299614B (zh) 2013-07-16 2017-12-29 华为技术有限公司 解码方法和解码装置
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
EP3038104B1 (en) * 2013-08-22 2018-12-19 Panasonic Intellectual Property Corporation of America Speech coding device and method for same
PL3058568T3 (pl) 2013-10-18 2021-07-05 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Koncepcja kodowania sygnału audio i dekodowania sygnału audio z wykorzystaniem związanych z mową informacji kształtowania widmowego
CN105723456B (zh) 2013-10-18 2019-12-13 弗朗霍夫应用科学研究促进协会 自适应编码及解码音频信号的编码器、解码器、编码和解码方法
CN106683681B (zh) 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
CA3074749A1 (en) 2017-09-20 2019-03-28 Voiceage Corporation Method and device for allocating a bit-budget between sub-frames in a celp codec
US11710492B2 (en) * 2019-10-02 2023-07-25 Qualcomm Incorporated Speech encoding using a pre-encoded database
CN116052700B (zh) * 2022-07-29 2023-09-29 荣耀终端有限公司 声音编解码方法以及相关装置、系统

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5681862A (en) * 1993-03-05 1997-10-28 Buckman Laboratories International, Inc. Ionene polymers as microbicides
US5450449A (en) * 1994-03-14 1995-09-12 At&T Ipm Corp. Linear prediction coefficient generation during frame erasure or packet loss
SE504397C2 (sv) 1995-05-03 1997-01-27 Ericsson Telefon Ab L M Metod för förstärkningskvantisering vid linjärprediktiv talkodning med kodboksexcitering
DE69620967T2 (de) * 1995-09-19 2002-11-07 At & T Corp., New York Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
JP3230966B2 (ja) * 1995-10-09 2001-11-19 日本ガスケット株式会社 金属製ガスケット
TW326070B (en) * 1996-12-19 1998-02-01 Holtek Microelectronics Inc The estimation method of the impulse gain for coding vocoder
US5953679A (en) * 1997-04-16 1999-09-14 The United States Of America As Represented By The Secretary Of Army Method for recovery and separation of trinitrotoluene by supercritical fluid extraction
FI113571B (fi) * 1998-03-09 2004-05-14 Nokia Corp Puheenkoodaus
US6141638A (en) * 1998-05-28 2000-10-31 Motorola, Inc. Method and apparatus for coding an information signal
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6314393B1 (en) * 1999-03-16 2001-11-06 Hughes Electronics Corporation Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder
CN1075733C (zh) * 1999-07-30 2001-12-05 赵国林 一种养颜口服液及其制作方法
EP1132892B1 (en) * 1999-08-23 2011-07-27 Panasonic Corporation Speech encoding and decoding system
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
AU7486200A (en) * 1999-09-22 2001-04-24 Conexant Systems, Inc. Multimode speech encoder
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
EP1235203B1 (en) * 2001-02-27 2009-08-12 Texas Instruments Incorporated Method for concealing erased speech frames and decoder therefor
JP4390803B2 (ja) * 2003-05-01 2009-12-24 ノキア コーポレイション 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置
US20070282601A1 (en) * 2006-06-02 2007-12-06 Texas Instruments Inc. Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
US8010351B2 (en) * 2006-12-26 2011-08-30 Yang Gao Speech coding system to improve packet loss concealment
US8655650B2 (en) * 2007-03-28 2014-02-18 Harris Corporation Multiple stream decoder

Also Published As

Publication number Publication date
CN103392203A (zh) 2013-11-13
AU2012218778B2 (en) 2016-10-20
AU2012218778A1 (en) 2013-07-18
MX2013009295A (es) 2013-10-08
NZ611801A (en) 2015-06-26
JP2017097367A (ja) 2017-06-01
ZA201305431B (en) 2016-07-27
SI2676271T1 (sl) 2020-11-30
CN104505097A (zh) 2015-04-08
RU2591021C2 (ru) 2016-07-10
LT2676271T (lt) 2020-12-10
US20120209599A1 (en) 2012-08-16
JP6072700B2 (ja) 2017-02-01
JP2014509407A (ja) 2014-04-17
EP2676271B1 (en) 2020-07-29
ES2812598T3 (es) 2021-03-17
DK2676271T3 (da) 2020-08-24
JP6316398B2 (ja) 2018-04-25
EP3686888A1 (en) 2020-07-29
US9076443B2 (en) 2015-07-07
WO2012109734A8 (en) 2012-09-27
RU2013142151A (ru) 2015-03-27
KR20140023278A (ko) 2014-02-26
DE20163502T1 (de) 2020-12-10
HUE052882T2 (hu) 2021-06-28
CN104505097B (zh) 2018-08-17
HRP20201271T1 (hr) 2020-11-13
CA2821577A1 (en) 2012-08-23
EP2676271A4 (en) 2016-01-20
CA2821577C (en) 2020-03-24
CN103392203B (zh) 2017-04-12
WO2012109734A1 (en) 2012-08-23
EP2676271A1 (en) 2013-12-25

Similar Documents

Publication Publication Date Title
KR101999563B1 (ko) 켈프 코덱에 있어서 여기의 적응 및 고정 기여의 이득을 양자화 하기 위한 장치 및 방법
CA2833874C (en) Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
US8712764B2 (en) Device and method for quantizing and inverse quantizing LPC filters in a super-frame
US8392178B2 (en) Pitch lag vectors for speech encoding
US11922960B2 (en) Method and device for quantizing linear predictive coefficient, and method and device for dequantizing same
EP3125241B1 (en) Method and device for quantization of linear prediction coefficient and method and device for inverse quantization
RU2005137320A (ru) Способ и устройство для квантования усиления в широкополосном речевом кодировании с переменной битовой скоростью передачи
JP3254687B2 (ja) 音声符号化方式
WO2024021747A1 (zh) 声音编解码方法以及相关装置、系统
US10115408B2 (en) Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a CELP codec
NZ611801B2 (en) Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec
Chui et al. A hybrid input/output spectrum adaptation scheme for LD-CELP coding of speech

Legal Events

Date Code Title Description
AMND Amendment
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant