KR20010080646A - 강화된 파형 보간 코더 - Google Patents

강화된 파형 보간 코더 Download PDF

Info

Publication number
KR20010080646A
KR20010080646A KR1020017006823A KR20017006823A KR20010080646A KR 20010080646 A KR20010080646 A KR 20010080646A KR 1020017006823 A KR1020017006823 A KR 1020017006823A KR 20017006823 A KR20017006823 A KR 20017006823A KR 20010080646 A KR20010080646 A KR 20010080646A
Authority
KR
South Korea
Prior art keywords
waveform
signal
phase
synthesis
analysis
Prior art date
Application number
KR1020017006823A
Other languages
English (en)
Inventor
고테스맨오데드
Original Assignee
린다 에스. 스티븐슨
더 리전트 오브 더 유니버시티 오브 캘리포니아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 린다 에스. 스티븐슨, 더 리전트 오브 더 유니버시티 오브 캘리포니아 filed Critical 린다 에스. 스티븐슨
Publication of KR20010080646A publication Critical patent/KR20010080646A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/097Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

향상된 분석-합성 형 보간 음성 코더는 4 kbps에서 작동가능하다. 신규한 특징은 저속 전개 파형의 분석-합성 양자화, 분산 위상의 분석-합성 벡터 양자와, 천이에 대한 특별 피치 서치, 및 스위치 예측 분석-합성 게인 벡터 양자화를 포함한다. 주관적 품질 테스트는 4 kbps에서 MPEG-4를 초과하고, 6.3 kbps에서 G.723.1 보다 약간 양호하다는 것을 나타낸다.

Description

강화된 파형 보간 코더{ENHANCED WAVEFORM INTERPOLATIVE CODER}
본 출원은 미국 특허청에 1998년 12월 1일에 출원된 가출원 no.60/110,522 및 1998년 12월 1일 출원된 가출원 no.60/110,641 의 출원에 따른 권리를 주장한다.
발명의 배경
최근, 4kbps 이하의 속도에서의 톨 품질 음성 코더를 개발하는 데 관심이 증가해 오고 있다. 코드 활성 선형 예측 (code-excited linear prediction, CELP) 코더와 같은 파형 코더에 의하여 생성된 음성 품질은 5 kbps 이하의 속도에서급속히 하강한다 [B.S. Atal 및 M.R. Schroeder, "상당히 느린 비트 속도에서의 음성의 추계적 코딩 (Stochastic Coding of Speech at Very Low Bit Rate)", Proc. Int. Conf. Comm. 암스테르담, pp 1610-1613, 1984]. 한편, 파형 보간 (WI) 코더와 같은 파라메트릭 코더, 정현파 변형 코더 (sinusoidal-transform coder, STC), 및 다중대역 활성 (multiband-excitation, MBE) 코더는 낮은 속도에서 양호한 품질을 생성하나, 톨 품질은 달성되지 않는다 [Y.Shoham, "시간 주파수-보간을 기초한 2.4 kbps 내지 4.0 kbps 에서의 고품질 음성 코딩 (High Quality Speech Coding at 2.4 to 4.0 kbps Based on Time Frequency-Interpolation)" IEEE ICASSP '93, Vol.Ⅱ, pp,167-170, 1993; W.B. Kleijn 및 K.K. Paliwal 에 의한 음성 코딩 합성에서 "코딩 및 합성을 위한 파형 보간 (Waveform Interpolation for Codingand Synthesis)", Elsevier Science B.V., chapter 5, pp. 175-207, 1995; I.S. Burnett 및 D.H. Pham, "프레임-프레임 분석-분석을 사용하는 다중 프로토타입 파형 코딩 (Multi-Prototype Waveform Coding using Frame-by-Frame Analysis-by-Synthesis)", IEEE ICASSP '97, pp. 1567-1570, 1997; R.J. McAulay 및 T.F. Quatieri, W.B. Kleijn 및 K.K. Paliwal, Elsevier Science B.V., 에 의한 음성 코딩 합성에서 "정현파 코딩 (Sinusoidal Coding)", chapter 4, pp. 121-173, 1995; 및 D. Griffin 및 J.S. Lim, "다중대역 활성 보코더 (Multiband Excition Vocoder)", IEEE Trans. ASSP, Vol. 36, No. 8, pp. 1223-1235, 8월 1988]. 이것은 주로, 개방 루프에서 통상적으로 행해지는 파라미터 추정에 대한 신뢰성의 부족, 및 비-정적 음성 세그먼트의 부적절한 모델링에 기인한다. 또한, 파라메트릭 코더에서 위상 정보는 통상적으로 전송되지 않고, 이것은 다음의 2가지 이유를 위한 것이다; 첫째, 위상은 2차 지각 중요성을 가지며, 둘째 어떠한 유효 위상 양자화 기법도 알려지지 않는다. WI 코더는 통상적으로 저속 전개 파형에 대한 고정 위상 벡터를 사용한다 [Shoham의 상기 문헌; Kleijn 외,의 상기 문헌; 및 Burnett 외,의 상기 문헌 참조]. 예컨대, Kleijn 외,에서 고정된 남성 화자 추출 위상이 사용되었다. 한편, 파형을 직접 양자화함으로써, CELP 와 같은 파형 코더는 과잉 비트수를 위상 정보로 지각적으로 요구되는 것 이상으로 암시적으로 할당한다.
발명의 요약
본 발명은 파라미터 추정을 위한 분석-합성 (analysis-by-synthesis, AbS)을 채용하는 파라다임, 및 비-정적 세그먼트용으로 매우 적합한 신규한 피치 서치 기술을 수행함으로써 전술한 단점들을 극복한다. 일실시예에서, 본 발명은 활성 신호의 분산 위상의 신규한 효과적인 AbS 벡터 양자화 (VQ) 인코딩을 제공하여, 상당히 느린 비트 속도에서 파형 코더용 뿐만 아니라 파라메트릭 코더용으로 사용될 수 있는 파형 보간 (WI) 코더의 성능을 향상시킨다. 본 발명의 향상된 분석-합성 파형 보간 (EWI) 코더는 지각적 가중화를 채용하고, 래핑되지 않은 어떠한 위상도 요구하지 않는 본 기법을 채용한다.
WI 코더는 저속 전개 파형 (SEW) 의 다운샘플링 및 업샘플링을 위한 비이상적 로우 패스 필터를 사용한다. 본 발명의 다른 실시예에서, 비이상적 필터를 고려하는 신규한 AbS SEW 양자화 기법이 제공된다. 재구성된 SEW 및 본래의 SEW 간의 향상된 정합이 획득되며, 본 천이에서 가장 주목할 만하다.
피치 정확성은 WI 코더에서 고품질 재생 음성에 대하여 결정적이다. 본 발명의 다른 실시예에서는 다양한 세그먼트 경계를 기초로 신규한 피치 서치 기술을 제공한다; 이것은 천이 동안 가장 확률이 큰 피치 주기에 또는 급속히 변하는 피치를 가지는 다른 세그먼트에 로킹하도록 한다.
통상적으로 음성 코딩에서, 게인 시퀀스는 다운샘플링되고 보간된다. 그 결과, 상기 게인 시퀀스는 파열음 및 온셋 (onset) 시에 종종 스미어 (smear) 된다. 본 문제점을 완화하기 위하여, 본 발명의 다른 실시예는 템포럴 (temporal) 가중을 기초로 한 신규한 스위치 예측 AbS 게인 VQ 기법을 제공한다.
보다 구체적으로, 본 발명은, 현저한 피치 이행성이 존재할 수도 있으며, 신호가 전개하는 파형을 가지는, 저속 데이터에서 입력 신호의 보간 코딩을 위한 방법을 제공하고, 상기 방법은,
(a) 파형의 본래의 시퀀스와 양자화되고 보간된 파형의 시퀀스 사이의 축적되고 가중화된 뒤틀림을 획득함으로써 신호에서의 뒤틀림을 감소시키는 SEW 의 AbS VQ 단계;
(b) 분산 위상의 AbS 양자화 단계;
(c) 스펙트럼 도메인 피치 서치 및 템퍼럴 도메인 피치 서치 모두를 이용하여 신호의 가장 확률이 큰 피치 주기에 로킹하는 단계;
(d) 상기 입력 신호에서 국부적 고에너지 현상을 강조하도록, 신호 게인의 AbS VQ 에서의 템포럴 가중을 사용하는 단계;
(e) 자기 상관 (self correlation) 을 코드북 벡터에 부가하고, 신호 파형 및 코드북 파형 간의 유사성을 최대화하도록, 신호 게인의 AbS VQ에서 고상관 및 저상관 합성 필터 모두를 벡터 양자화기 코드북에 적용시키는 단계;
(f) 각각 소정수의 값으로 구성된 복수의 형태를 획득하기 위하여 신호 게인의 AbS VQ 에서의 각 게인값을 사용하고, 상기 형태를, 상기 소정수의 값, 예컨대 2-50, 바람직하게는 5-20 범위의 값을 각각 가지는 형태의 벡터 양자화 코드북과 비교하는 단계; 및
(g) 복수의 비트, 예컨대 4 비트가 SEW 분산 위상에 할당되는 코더를 사용하는 단계 들 중 하나 이상, 및 바람직하게는 모든 단계를 포함한다.
본 발명의 방법은 일반적으로 어떠한 파형 신호와도 사용될 수 있으며, 특히음성 신호에서 유용하다. SEW 의 AbS VQ 의 단계에서, 파형의 본래의 시퀀스 및 양자화되고 보간된 파형의 시퀀스 사이의 축적되고 가중화된 뒤틀림을 획득함으로써 신호에서의 뒤틀림이 감소된다. 분산 위상의 AbS 양자화의 단계에서, 소정의 파형에 대한 크기 및 위상 정보를 포함하는 하나 이상의 코드북이 제공된다. 입력의 선형 위상은 원래대로 정렬된 후, 반복적으로 시프트되어 하나 이상의 코드북에서 포함된 크기 및 위상 정보로부터 재구성된 복수의 파형과 비교된다. 반복적으로 시프트된 입력 중 하나와 가장 잘 정합하는 재구성된 파형이 선택된다. 신호의 가장 확률이 큰 피치 주기에 로킹되는 단계에서, 본 발명은 템포럴 도메인 피치를 서치하는 단계, 상기 템포럴 도메인 피치의 세그먼트에 대한 경계를 정의하는 단계, 상기 세그먼트를 반복적으로 축소시키고 확장시킴으로써 경계의 길이를 최대화시키는 단계, 및 상기 세그먼트를 시프트시킴으로써 유사성을 최대화시키는 단계를 포함한다. 본 서치는 바람직하게는 100Hz 및 500 Hz에서 각각 실행된다.
도면의 간단한 설명
도 1은 AbS SEW 벡터 양자화의 블록도이다.
도 2는 최적화된 SEW를 보간시킴으로써 비정적 음성 세그먼트를 위하여 획득된 향상된 파형 정합을 도시하는 진폭-시간 플롯을 도시한다.
도 3은 AbS 분산 위상 벡터 양자화의 블록도이다.
도 4는 변형된 중간 레퍼런스 시스템 (MIRS) 및 비 MIRS (플랫) 음성에 대하여, 위상 벡터 양자화 vs. 비트수의 세그먼트적으로 가중화된 신호 대 잡음비의 플롯이다.
도 5는 4비트 위상 벡터 양자화와 및 남성 추출 고정 위상을 비교하는 주관적 A/B 테스트의 결과를 도시한다.
도 6은 EWI 코더의 피치 서치의 블록도이다.
도 7은 템포럴 가중을 사용하여 스위치-예측 AbS 게인 VQ 의 블록도이다.
발명의 상세한 설명
본 발명은 다수의 실시예를 가지며, 상기 실시예 중 몇몇은 다른 실시예들로부터 독립적으로 사용될 수 있어서, 음성 및 다른 신호 코딩 시스템을 향상시킨다. 본 실시예는 AbS SEW 최적화, 신규한 분산 위상 양자화기, 피치 서치 기법, 스위치-예측 AbS 게인 VQ, 및 비트 할당을 포함하는 우수한 코딩 시스템을 생성하도록 협력한다.
AbS SEW 양자화
통상적으로 WI 코더에서, SEW 는 비이상적 로우 패스 필터로 다운샘플링 및 업샘플링에 의하여 뒤틀린다. 이러한 뒤틀림을 감소시키기 위하여, 도 1에 도시된 AbS SEW 양자화 기법이 사용된다. 입력 SEW 벡터, rm및 보간 벡터간의 축적된 가중 뒤틀림, Dwl을 고려하여 다음과 같이 주어진다.
여기서, 제 1 합계는 많은 현재 뒤틀림의 합계이며, 제 2 합계는 예견 (lookahead) 뒤틀림의 합계이다. H는 에르미트 (이항 + 켤레 복소수) 을 나타내고, M은 프레임당 파형수이고, L은 파형의 예견수이고,(t)는 범위 0≤α(t)≤1 에서의 증가 보간 함수이고, Wm은 대각선 행렬이고, 그의 엘리먼트, Wkk는 k 번째 하모닉의 조합된 스펙트럼 가중 및 화성으로 다음과 같이 주어진다.
여기서, P는 피치 주기이고, K는 하모닉의 수이고, g는 게인이고, A(z) 및는 각각 입력 및 양자화된 LPC 다항식이고, 스펙트럼 가중화 파라미터는을 만족한다. 또한, 하모닉 수의 역수, 즉 1/K 파라미터, 게인, 즉 g 파라미터, 또는 입력 및 양자화된 LPC 다항식의 다른 조합, 즉 A(Z) 및파라미터를 생략하는 것도 가능하다.
보간된 SEW 벡터는 다음과 같이 주어진다.
여기서, t는 시간이며, m은 프레임에서의 파형수이며,은 각각 이전및 현재의 프레임에서 양자화된 SEW 이다. 파라미터는 0에서 1의 증가 선형 함수이다. 수학식 (1)에서의 축적된 뒤틀림은 모델링 뒤틀림 및 양자화 뒤틀림의 합과 동일하다는 것을 알 수 있다.
여기서, 양자화 뒤틀림은 다음과 같이 주어진다.
모델링 뒤틀림을 최소화하는 최적 벡터, rM,opt는 다음과 같이 주어진다.
여기서,
따라서, 수학식 (1) 의 축적된 뒤틀림을 가지는 VQ 는 수학식 (5) 의 뒤틀림을 사용하여 단순화 될 수 있다.
재구성된 SEW 및 본래의 SEW 간의 향상된 정합이 획득되며, 천이에서 가장 주목할만 하다. 도 2는 최적화된 SEW를 보간시킴으로써 비정적 음성 세그먼트를 위하여 획득된 향상된 파형 정합을 도시한다.
AbS 위상 양자화
분산 위상 벡터 양자화 기법이 도 3에 도시되어 있다. 잔차 신호로부터 추출되고, 펄스가 위치 0에 위치하도록 순환적으로 시프트되는 피치 주기를 고려하기 바란다. 이산 푸리에 변환 (DFT) 이 r로 나타나게 한다; 결과적인 DFT 위상은 크기을 따라 파형의 펄스 형태를 결정하는 분산 위상,이다. SEW 파형 r은 복소 DFT 계수의 벡터이다. 복소수는 크기 및 위상을 나타낼 수 있다. 양자화 후, 양자화된 크기 벡터의 성분은 양자화 위상의 지수에 의하여 곱해져서 에러 DFT를 생성시키도록 입력 DFT 로부터 도출된 양자화된 파형DFT,을 산출한다. 이후, 에러 DFT 는 조합된 합성 및 가중 필터 W(z)/A(z) 에 의하여 가중시킴으로써 지각 도메인으로 변환된다. 원래의 선형 위상 정렬에서, 인코더는 지각적 도메인 에러의 에너지를 최소화시키는 위상에 대하여 서치하고 피크가 시간 0에 위치되도록 신호를 시프트한다. 이후, 서치 동안 입력 파장의 정제 주기 시프트를 허용하여 선형 위상을 증분적으로 증가시키거나 감소시켜서, 입력 파형 및 양자화된 파형 간의 어떠한 잔차 위상 시프트도 제거한다. 원래의 선형 위상 정렬 직후 발생하는 것으로 도 3에 도시되어도, 정제 선형 위상 정렬 단계는 주기의 어느 곳에서도, 예컨대 X 및 + 단계 사이에서 발생할 수 있다. 위상 분산 양자화는 파형 정합을 향상시키기 위함이다. 유효 양자화는 지각적 가중 뒤틀림을 사용함으로써 획득될 수 있다.
크기는 위상보다 지각적으로 보다 중요하고, 따라서 먼저 양자화되어야 한다. 또한, 위상이 먼저 양자화된다면, 위상에 대하여 사용가능한 상당히 제한된 비트 할당이, 다소 향상된, 그러나 덜 중요한 파형 정합을 위하여 상당히 저하된 크기의 스펙트럼 정합을 유발할 것이다. 상기 뒤틀림에 대하여, 양자화 위상 벡터는 다음과 같이 주어진다.
여기서, i 는 작동하는 위상 코드북 인덱스이며,는 각 대각선 위상 지수 매트릭스이며, 여기서 i 는 작동하는 위상 코드북 인덱스이고, 각 위상 지수 매트릭스는 다음과 같이 주어진다.
위상 양자화에 대한 AbS 서치는 각 후보자 위상 코드벡터에 대하여 수학식 10의 평가를 기초로 한다. 위상 후보자의 삼각 함수 만이 사용되므로, 래핑되지 않은 위상이 방지된다. EWI 코더는 AbS 위상 양자화를 위하여 최적화된 SEW, rM,opt, 및 최적화 가중화, WM,opt를 사용한다.
등가적으로, 양자화된 위상 벡터는 다음과 같이 단순화 될 수 있다.
여기서,는 k 번째 입력 DFT 계수, r(k) 의 위상이다. M 벡터 세트에 대한 평균 글로벌 뒤틀림 측정은 다음과 같다.
수학식 13에서의 글로벌 뒤틀림을 최소화하는, j 번째 클러스터에 대한 k 번째 하모닉의 위상의 중심 등식 [A. Gersho 외, "벡터 양자화 및 신호 압축 (Vector Quantization and Signal Compression)", Kluwer Academic Publishers, 1992] 은 다음과 같이 주어진다.
이들 중심 등식은 위상의 삼각 함수를 사용하며, 따라서 어떠한 래핑되지 않은 위상을 요구하지 않는다.대신를 사용하는 것은 가능하다.
위상 벡터의 차원은 피치 주기에 좌우하며, 따라서 가변 차원 VQ 가 실행되었다. WI 시스템에서, 가능한 피치 주기값은 8개의 범위로 분리되며, 피치 주기의 각 범위에 대하여, 최적 코드북은 각 범위에서의 최대 피치 주기 보다 작은 차원의 벡터가 0 패드 (pad) 되도록 고안된다.
시간에 걸친 피치 변화는 양자화기가 피치 범위 코드북 중에서 스위치하도록 한다. 이러한 스위치가 발생할 때 마다 평활한 위상 변화를 달성하기 위하여,오버랩된 트레이닝 클러스터가 사용되었다.
위상 양자화 기법은 WI 코더의 일부로서 실행되었으며, SEW 위상을 양자화시키는 데 사용되었다. 제안된 위상 VQ 의 목적 성능은 다음의 조건 하에서 테스트되었다.
ㆍ위상 비트 : 매 20ms 마다 0-6, 0-300 비트/초의 비트 속도.
ㆍ8 피치 범위가 선택되며, 트레이닝이 각 범위에 대하여 실행.
ㆍ변형 IRS (MIRS) 필터링된 음성 (여성 + 남성)
ㆍ트레이닝 세트 : 99,323 벡터.
ㆍ테스트 세트 : 83,099 벡터.
ㆍ비 MIRS 필터링된 음성 (여성 + 남성)
ㆍ트레이닝 세트 : 101,359 벡터.
ㆍ테스트 세트 : 95,446 벡터.
ㆍ크기는 양자화되지 않는다.
양자화기의 세그먼트 가중화 신호 대 잡음 비 (SNR) 는 도 4에 도시되어 있다. 제안된 시스템은 비 MIRS 필터링된 음성에 대하여 작게는 6 비트에 대하여 대략 14 dB SNR 이고, MIRS 필터링된 음성에 대하여 거의 10 dB을 달성한다.
최근 WI 코더는 남성 화자 추출 분산 위상을 사용하였다 [Kleijn 외, 상기에; Y.Shoham, " 1.2 내지 2.4 KBPS 에서의 상당히 낮은 복합 보간 음성 코딩 (Very Low Complexity Interpolative Speech Coding at 1.2 to 2.4 KBPS), IEEE ICASSP '97, pp. 1599-1602, 1997]. 주관적인 A/B 테스트가 실행되어 단지 4비트를 사용하여, 본 발명의 분산 위상과 남성 추출 분산 위상을 비교한다. 본 테스트 데이터는 8명의 여성 화자 및 8명의 남성 화자의 16 개의 MIRS 음성 문장을 포함한다. 테스트 동안, 모든 파일 쌍은 교대 순으로 2번 실행되고, 청취자는 시스템의 어느 쪽을 선택하거나 또는 선택하지 않는 것으로 투표할 수 있다. 음성 재료는 분산 위상만이 매 20 ms 마다 양자화되는 WI 시스템을 사용하여 합성된다. 21명의 청취자들이 본 테스트에 참가하였다. 도 5에 도시된 바와 같이, 테스트 결과는 4 비트 위상 VQ를 사용함으로써 음성 품질에서의 향상을 보여준다. 남성 화자보다 여성 화자에 대하여 보다 큰 향상이 있다. 이것은 여성에 대하여 벡터당 보다 큰 비트수, 여성 음성에 대하여 덜한 스펙트럼 마스킹, 및 여성에 대한 보다 큰 정도의 위상 분산 변화에 의한 것으로 설명될 수 있다. 분산 위상 양자화에 대한 코드북 고안은 평활 위상 변화의 관점에서의 견고함 및 파형 정합 간에서 타협한다. 각 피치값에 대하여 국부적으로 최적화된 코드북은 평균에서 파형 정합을 향상시킬 수 있으나, 시간적 가공물을 유발할 수 있는 갑작스런 과도의 변화를 때로 유발할 수 있다.
피치 서치
EWI 코더의 피치 서치는, 도 6에 도시된 바와 같이 약 100Hz에서 채용된 스펙트럼 도메인 서치 및 500 Hz에서 채용된 템포럴 도메인 서치로 구성된다. 스펙트럼 도메인 피치 서치는 하모닉 정합에 기초한다 [McAuley 외, 상기에; Griffin 외, 상기에; 및 E.Shlomot, V.Cuperman, 및 A. Gersho, "4 kbps 에서 음성의 혼성코딩 (Hybrid Coding of Speech at 4 kbps)", IEEE 음성 코딩 워크샵, pp. 37-38, 1997]. 템포럴 도메인 피치 서치는 가변하는 세그먼트 경계를 기초로 한다. 이것은, 천이 동안에도 가장 확률이 큰 피치 주기 상에 또는 급속히 가변하는 피치를 가지는 다른 세그먼트 상에 로킹을 허용한다 (예컨대, 스피치 온셋 또는 오프셋 또는 신속히 변하는 주기). 초기에, 피치 주기, P(ni) 는 가중 음성 sw(n) 의 표준화 상관을 최대화시킴으로써 매 2 ms 마다 즉시 ni서치되며, 즉:
여기서, τ는 세그먼트에서의 시프트이며, △ 는 계산의 단순성을 위하여 합산에서 사용되는 증분 세그먼트이며,이다. 이후, 매 10ms 마다, 가중 평균 피치값이 다음에 의하여 계산된다.
여기서, ρ(ni) 는 P(ni) 에 대한 표준화된 상관이다. 상기 값들 (160, 10, 5) 는 특정 코더를 위한 것이고, 예시용으로 사용되었다. 수학식 14는 도6의 템포럴 도메인 피치 서치 및 템포럴 도메인 피치 정제 블록을 설명한다. 수학식 15는 도 6의 가중 평균 피치 블록을 설명한다.
게인 양자화
게인 궤도는 다운샘플링 및 보간에 의하여 파열음 및 온셋 동안 통상적으로 희미해진다. 본 문제점이 제기되고, 음성 굴곡 (crispness) 은 도 7에 도시된 바와 같이, 신규한 스위치 예측 AbS 게인 VQ 기술을 제공하는 본 발명의 실시예에 따라 향상된다. 스위치 예측이 서로 다른 레벨의 게인 상관에 대하여 허용하고 게인 아웃라이어 (outlier) 의 발생을 감소시키기 위하여 도입된다. 특히 파열음 및 온셋에 대한 음성 굴곡을 향상시키기 위하여, 템포럴 가중이 AbS 게인 VQ 에 사용된다. 가중은 템포럴 게인의 단조 (monotonic) 함수이다. 32 벡터 각각의 2개의 코드북이 사용된다. 각 코드북은 연관된 예측기 계수 Pi, 및 DC 오프셋 Di를 가진다. 양자화 목표 벡터는 t(m) 으로 나타낸 DC 제거 로그 게인 벡터이다. 최소 가중 평균 제곱 에러 (WMSE) 에 대한 서치는 코드북의 모든 벡터, cij(m) 에 걸쳐 수행된다. 양자화된 목표는 합성 필터를 통하여 양자화된 벡터, cij(m) 를 통과시킴으로써 획득된다. 각 양자화 목표 벡터는 서로 다른 값의 제거된 DC 를 가질 수 있으므로, 양자화 DC 는 상태 업데이트 후 필터 메모리에 일시적으로 부가되고, 다음 양자화 벡터의 DC 가 필터링이 실행되기 전에 상기 필터 메모리로부터 추출된다. 예측기 계수가 공지되어 있으므로, 직접 VQ 가 계산을 단순화하기 위하여 사용될 수 있다. 합성 필터는 자기 상관을 코드북 벡터에 부가한다. 모든 조합이 시도되고, 높은 또는 낮은 자기 상관이 사용되는 지의 여부는 최상의 결과를 산출하는 지에 좌우한다.
비트 할당
코더의 비트 할당이 표 1에 주어졌다. 프레임 길이는 20mn 이고, 10 파형이 프레임당 추출된다. 피치 및 게인은 프레임당 2회 코드화된다.
EWI 코더에 대한 비트 할당
파라미터 비트/프레임 비트/초
LPC 18 900
피치 2x6=12 600
게인 2x6=12 600
REW 20 1000
SEW magn. 14 700
SEW 위상 4 200
80 4000
주관적 결과
주관적 A/B 테스트가 실행되어 본 발명의 4 kbps EWI 코더를 4 kbps에서의 MPEG-4 및 G.723.1과 비교한다. 본 테스트 데이터는 12명의 여성 화자 및 12명의 남성 화자의 24개 MIRS 음성 문장을 포함한다. 14명의 청취자들이 본 테스트에 참가하였다. 표 2 내지 표 4에 나타낸 테스트 결과는, EWI의 주관적 품질이 4 kbps에서의 MPEG-4의 품질 및 5.3 kbps 에서의 G.723.1 의 품질을 초과하고,6.3 kbps 에서의 G.723.1 의 품질보다 약간 양호하다는 것을 나타낸다.
테스트 4 kbps WI 4 kbps MPEG-4
여성 65.48% 34.52%
남성 61.90% 38.10%
63.69% 36.31%
표 2는 4 kbps WI 코더 및 4 kbps MEPG-4 간의 비교를 위한 주관적인 A/B 테스트의 결과를 나타낸다. 95% 특정성 (certainty) 으로, WI 선호도는 [58.63%, 68.75%] 에 있다.
테스트 4 kbps WI 5.3 kbps G.723.1
여성 57.74% 42.26%
남성 61.31% 38.69%
59.52% 40.48%
표 3은 4 kbps WI 코더 및 5.3 kbps G.723.1 간의 비교를 위한 주관적인 A/B 테스트의 결과를 나타낸다. 95% 특정성으로, WI 선호도는 [54.17%, 64.88%] 에 있다.
테스트 4 kbps WI 6.3 kbps G.723.1
여성 54.76% 45.24%
남성 52.98% 47.02%
53.87% 46.13%
표 4는 4 kbps WI코더와 6.3 kbps G.723.1 간의 비교를 위한 주관적인 A/B 테스트의 결과를 나타낸다. 95% 특정성으로, WI 선호는 [48.51%, 59.23%] 에 있다.
본 발명은 WI 코더, 분산 위상의 분석-합성 벡터 양자화, SEW 의 AbS 최적화, 천이를 위한 특별 피치 서치, 및 스위치 예측 분석-합성 게인 VQ의 성능을 향상시키는 몇몇의 새로운 기술을 사용한다. 이들 특성은 알고리즘 및 이들의 견고성을 향상시킨다. 본 테스트 결과는, EWI 코더의 성능이 6.3 kbps에서의 G.723.1 의 성능을 약간 초과하고, 따라서 EWI 는 적어도 세정된 음성 조건에서 톨 품질에 상당히 근접하여 달성한다는 것을 나타낸다.

Claims (31)

  1. 현저한 피치 이행성이 존재하는 낮은 데이터 속도에서 입력 신호를 보간 코딩하기 위한 방법으로서, 상기 신호는 저속 전개 파형을 가질 수 있으며, 상기 방법은:
    (a) 저속 전개 파형의 분석-합성 벡터 양자화 (analysis-by-synthesis vector-quantization) 단계;
    (b) 분산 위상의 분석-합성 양자화 단계;
    (c) 스펙트럼 도메인 피치 서치 및 템포럴 도메인 피치 서치 모두를 사용하여 상기 신호의 가장 확률이 큰 피치 주기에 로킹하는 단계;
    (d) 신호 게인의 분석-합성 벡터 양자화시 템포럴 가중화 (temporal weighting) 를 사용하는 단계;
    (e) 상기 신호 게인의 분석-합성 벡터 양자화시 고상관 및 저상관 합성 필터 모두를 벡터 양자화기 코드북에 적용시켜 자기 상관을 코드북 벡터에 부가시키는 단계;
    (f) 상기 신호 게인의 분석-합성 벡터 양자화 내의 각 게인값을 사용하는 단계; 및
    (g) 내부의 복수의 비트가 저속 전개 파형 위상에 할당되는 코더를 사용하는 단계 중 하나 이상을 포함하는 것을 특징으로 하는 보간 코딩 방법.
  2. 제 1 항에 있어서, 상기 신호는 음성인 것을 특징으로 하는 보간 코딩 방법.
  3. 제 1 항에 있어서, 상기 방법은 단계 (a) 내지 (g) 각각을 사용하는 것을 특징으로 하는 보간 코딩 방법.
  4. 제 1 항에 있어서, 상기 저속 전개 파형의 분석-합성 벡터 양자화의 단계에서, 파형의 본래 시퀀스 및 양자화되고 보간된 파형의 시퀀스 간의 축적되고 가중화된 뒤틀림을 획득함으로써 상기 신호에서의 뒤틀림이 감소되는 것을 특징으로 하는 보간 코딩 방법.
  5. 제 1 항에 있어서, 소정의 파형에 대한 크기 및 위상 정보를 포함하는 하나 이상의 코드북을 제공하는 단계를 포함하고, 상기 분산 위상의 상기 분석-합성 양자화 단계는, 입력의 선형 위상을 원래대로 정렬시킨 후, 상기 원래대로 정렬된 선형 위상 입력을 반복적으로 시프트하는 단계, 상기 시프트된 입력을 상기 하나 이상의 코드북에 포함된 크기 및 위상 정보로부터 재구성된 복수의 파형과 비교하는 단계, 및 상기 반복적으로 시프트된 입력 중 하나와 가장 잘 정합하는 상기 재구성된 파형을 선택하는 단계로 실행되는 것을 특징으로 하는 보간 코딩 방법.
  6. 제 1 항에 있어서, 상기 신호의 상기 가장 확률이 큰 피치 주기에 로킹하는 상기 단계에서의 상기 템포럴 도메인 피치를 서칭하는 상기 방법은, 상기 템포럴도메인 피치의 세그먼트에 대한 경계를 정의하는 단계, 최상의 경계를 선택하고 상기 세그먼트를 반복적으로 시프트시키고 상기 세그먼트를 축소시키고 확장시킴으로써 유사성을 최대화시키는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  7. 제 1 항에 있어서, 상기 스펙트럼 도메인 피치 서치 및 템포럴 도메인 피치 서치는, 상기 신호의 상기 가장 확률이 큰 피치 주기에 로킹시키는 상기 단계에서, 약 100 Hz 및 500 Hz에서 각각 실행되는 것을 특징으로 하는 보간 코딩 방법.
  8. 제 1 항에 있어서, 상기 신호 게인의 상기 분석-합성 벡터 양자화시 상기 템포럴 가중화의 상기 단계는 시간의 함수로서 변하여, 상기 입력 신호의 국부적 고에너지 현상을 강조하는 것을 특징으로 하는 보간 코딩 방법.
  9. 제 1 항에 있어서, 상기 신호 게인의 상기 분석-합성 벡터 양자화시 상기 고상관 및 저상관 합성 필터 사이의 선택은 상기 게인 파형 및 코드북 파형 간의 유사성을 최대화시키도록 하는 것을 특징으로 하는 보간 코딩 방법.
  10. 제 1 항에 있어서, 상기 신호 게인의 상기 분석-합성 벡터 양자화에서의 게인의 각 값은 각각 소정수의 값으로 구성된 복수의 형태를 획득하는 데 사용되고, 상기 형태를 각각 상기 소정수의 값을 가지는 형태의 벡터 양자화된 코드북과 비교하는 것을 특징으로 하는 보간 코딩 방법.
  11. 저속 데이터에서 저속 전개 파형을 가지는 입력 신호를 보간 코딩하는 방법으로서, 상기 방법은 상기 저속 전개 파형의 분석-합성 벡터 양자화를 사용하는 것을 특징으로 하는 보간 코딩 방법.
  12. 제 11 항에 있어서, 상기 파형의 본래의 시퀀스 및 양자화되고 보간된 파형의 시퀀스 간의 축적되고 가중 뒤틀림을 획득함으로써 상기 신호에서의 뒤틀림이 감소되는 것을 특징으로 하는 보간 코딩 방법.
  13. 저속 데이터에서 분산 위상을 가지는 저속 전개 파형을 가지는 입력 신호를 보간 코딩하는 방법으로서, 상기 방법은 상기 분산 위상의 분석-합성 양자화를 포함하는 것을 특징으로 하는 보간 코딩 방법.
  14. 제 13 항에 있어서, 소정의 파형에 대한 크기 및 위상 정보를 포함하는 하나 이상의 코드북을 제공하는 단계, 상기 입력의 선형 위상을 원래대로 정렬시킨 후, 상기 원래대로 정렬된 선형 위상 입력을 반복적으로 시프트하는 단계, 상기 시프트된 입력을 상기 하나 이상의 코드북에 포함된 크기 및 위상 정보로부터 재구성된 복수의 파형과 비교하는 단계, 및 상기 반복적으로 시프트된 입력 중 하나와 가장 잘 정합하는 상기 재구성된 파형을 선택하는 단계를 포함하는 것을 특징으로 하는 보간 코딩 방법.
  15. 제 14 항에 있어서, 특정 벡터 세트 M 에 대한 평균 글로벌 뒤틀림 측정은:
    이고, j 번째 클러스터에 대한 k 번째 하모닉스의 위상에 대한 다음의 식;
    을 사용하여 상기 글로벌 뒤틀림을 최소화시키는 단계를 포함하는 것을 특징으로 하는 보간 코딩 방법.
  16. 제 14 항에 있어서, 특정 벡터 섹터 M에 대한 평균 글로벌 뒤틀림 측정은:
    이고, j 번째 클러스터에 대한 k 번째 하모닉스의 위상에 대한 다음의 식;
    을 사용하여 상기 글로벌 뒤틀림을 최소화시키는 단계를 포함하는 것을 특징으로 하는 보간 코딩 방법.
  17. 느린 데이터 속도로 입력 신호를 보간 코딩하는 방법으로서, 스펙트럼 도메인 피치 서치 및 템포럴 도메인 피치 서치를 모두 사용하여 신호의 가장 확률이 큰 피치 주기에 로킹하는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  18. 제 17 항에 있어서, 상기 템포럴 도메인 피치를 서칭하는 단계는, 상기 템포럴 도메인 피치의 세그먼트에 대한 경계를 정의하는 단계, 및 상기 세그먼트를 반복적으로 축소시키고 확장시키며, 상기 세그먼트를 시프트시킴으로서 유사성을 최대화시키는 경계의 위치를 선택하는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  19. 제 18 항에 있어서, 상기 템포럴 도메인 피치를 서칭하는 방법은 다음의 식에 따르고:
    여기서, τ는 세그먼트에서의 시프트이고, Δ 는 계산 단순성을 위하여 합산에 사용되는 증분 세그먼트이고, Nj는 코더에 대하여 계산된 수인 것을 특징으로 하는 보간 코딩 방법.
  20. 제 19 항에 있어서, 다음 식에 따라 상기 가중 평균 피치를 획득하는 단계를 포함하고:
    여기서, ρ(ni) 는 P(ni) 에 대한 표준화 상관인 것을 특징으로 하는 보간 코딩 방법.
  21. 제 19 항에 있어서, 상기 신호의 상기 가장 확률이 큰 피치 주기에 로킹하는 상기 단계에서 상기 스펙트럼 도메인 피치 서치 및 상기 템포럴 도메인 피치 서치가 각각 100 Hz 및 500 Hz에서 실행되는 것을 특징으로 하는 보간 코딩 방법.
  22. 느린 데이터 속도에서 입력 신호를 보간 코딩하는 방법으로서, 상기 신호 게인의 분석-합성 벡터 양자화에서 템포럴 가중화를 사용하는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  23. 제 22 항에 있어서, 상기 템포럴 가중은 시간의 함수로서 변하여 상기 입력신호의 국부적 고에너지 현상을 강조하는 것을 특징으로 하는 보간 코딩 방법.
  24. 느린 데이터 속도로 입력 신호를 보간 코딩하는 방법으로서, 신호 게인의 분석-합성 벡터 양자화시 고상관 및 저상관 합성 필터를 벡터 양자화 코드북에 적용시켜, 자기 상관 (self correlation) 을 상기 코드북 벡터에 부가하는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  25. 제 24 항에 있어서, 상기 고상관 및 저상관 합성 필터 사이의 선택은 상기 신호 파형 및 코드북 파형 간의 유사성을 최대화시키도록 하는 것을 특징으로 하는 보간 코딩 방법.
  26. 느린 데이터 속도로 입력 신호를 보간 코딩하는 방법으로서, 신호 게인의 분석-합성 벡터 양자화에서 게인의 각 값을 사용하는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  27. 제 26 항에 있어서, 상기 게인의 상기 각 값은 각각 소정수의 값으로 구성된 복수의 형태를 획득하는 데 사용되고, 상기 형태를 상기 소정수의 값을 각각 가지는 형태의 벡터 양자화 코드북과 비교하는 것을 특징으로 하는 보간 코딩 방법.
  28. 제 27 항에 있어서, 상기 소정수의 값은 2 내지 50 인 것을 특징으로 하는보간 코딩 방법.
  29. 제 28 항에 있어서, 상기 소정수의 값은 5 내지 20 인 것을 특징으로 하는 보간 코딩 방법.
  30. 저속 데이터에서 저속 전개 파형을 가지는 입력 신호를 보간 코딩하는 방법으로서, 내부의 복수의 비트가 상기 저속 전개 파형 위상에 할당되는 코더를 사용하는 단계를 구비하는 것을 특징으로 하는 보간 코딩 방법.
  31. 제 30 항에 있어서, 4비트가 상기 코더에서 상기 저속 전개 파형 위상에 할당되는 것을 특징으로 하는 보간 코딩 방법.
KR1020017006823A 1998-12-01 1999-12-01 강화된 파형 보간 코더 KR20010080646A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US11064198P 1998-12-01 1998-12-01
US11052298P 1998-12-01 1998-12-01
US60/110,641 1998-12-01
US60/110,522 1998-12-01
PCT/US1999/028449 WO2000033297A1 (en) 1998-12-01 1999-12-01 Enhanced waveform interpolative coder

Publications (1)

Publication Number Publication Date
KR20010080646A true KR20010080646A (ko) 2001-08-22

Family

ID=26808108

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017006823A KR20010080646A (ko) 1998-12-01 1999-12-01 강화된 파형 보간 코더

Country Status (7)

Country Link
US (1) US7643996B1 (ko)
EP (1) EP1155405A1 (ko)
JP (1) JP2002531979A (ko)
KR (1) KR20010080646A (ko)
CN (1) CN1371512A (ko)
AU (1) AU1929400A (ko)
WO (1) WO2000033297A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7899667B2 (en) * 2006-06-19 2011-03-01 Electronics And Telecommunications Research Institute Waveform interpolation speech coding apparatus and method for reducing complexity thereof
US8589151B2 (en) 2006-06-21 2013-11-19 Harris Corporation Vocoder and associated method that transcodes between mixed excitation linear prediction (MELP) vocoders with different speech frame rates
US7937076B2 (en) 2007-03-07 2011-05-03 Harris Corporation Software defined radio for loading waveform components at runtime in a software communications architecture (SCA) framework
WO2013147667A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Vector quantizer
US9379880B1 (en) * 2015-07-09 2016-06-28 Xilinx, Inc. Clock recovery circuit
CN111243608A (zh) * 2020-01-17 2020-06-05 中国人民解放军国防科技大学 一种基于深度自编码机低速率语音编码方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58140798A (ja) * 1982-02-15 1983-08-20 株式会社日立製作所 音声ピツチ抽出方法
JPH0332228A (ja) * 1989-06-29 1991-02-12 Fujitsu Ltd ゲイン―シェイプ・ベクトル量子化方式
US5517595A (en) * 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
WO2000060579A1 (en) * 1999-04-05 2000-10-12 Hughes Electronics Corporation A frequency domain interpolative speech codec system

Also Published As

Publication number Publication date
JP2002531979A (ja) 2002-09-24
US7643996B1 (en) 2010-01-05
CN1371512A (zh) 2002-09-25
EP1155405A1 (en) 2001-11-21
AU1929400A (en) 2000-06-19
WO2000033297A1 (en) 2000-06-08

Similar Documents

Publication Publication Date Title
Spanias Speech coding: A tutorial review
US5781880A (en) Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual
US5517595A (en) Decomposition in noise and periodic signal waveforms in waveform interpolation
US5751903A (en) Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset
US6233550B1 (en) Method and apparatus for hybrid coding of speech at 4kbps
CA2031006C (en) Near-toll quality 4.8 kbps speech codec
EP2633521B1 (en) Coding generic audio signals at low bitrates and low delay
CA2167025C (en) Estimation of excitation parameters
US7584095B2 (en) REW parametric vector quantization and dual-predictive SEW vector quantization for waveform interpolative coding
US7039581B1 (en) Hybrid speed coding and system
US20060064301A1 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US8145477B2 (en) Systems, methods, and apparatus for computationally efficient, iterative alignment of speech waveforms
KR19990088582A (ko) 신호의기본주파수를추정하기위한방법및장치
Kleijn et al. A 5.85 kbits CELP algorithm for cellular applications
US7139700B1 (en) Hybrid speech coding and system
Gottesman et al. Enhanced waveform interpolative coding at low bit-rate
KR20010080646A (ko) 강화된 파형 보간 코더
Özaydın et al. Matrix quantization and mixed excitation based linear predictive speech coding at very low bit rates
Stegmann et al. Robust classification of speech based on the dyadic wavelet transform with application to CELP coding
Korse et al. Entropy Coding of Spectral Envelopes for Speech and Audio Coding Using Distribution Quantization.
JP2000514207A (ja) 音声合成システム
Gottesman et al. High quality enhanced waveform interpolative coding at 2.8 kbps
EP0713208B1 (en) Pitch lag estimation system
Gottesman et al. Enhanced analysis-by-synthesis waveform interpolative coding at 4 KBPS.
Haagen et al. Waveform interpolation

Legal Events

Date Code Title Description
N231 Notification of change of applicant
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid