KR20010022092A - 이격 대역 선형 예상 보코더 - Google Patents

이격 대역 선형 예상 보코더 Download PDF

Info

Publication number
KR20010022092A
KR20010022092A KR1020007000661A KR20007000661A KR20010022092A KR 20010022092 A KR20010022092 A KR 20010022092A KR 1020007000661 A KR1020007000661 A KR 1020007000661A KR 20007000661 A KR20007000661 A KR 20007000661A KR 20010022092 A KR20010022092 A KR 20010022092A
Authority
KR
South Korea
Prior art keywords
pitch
frame
value
frequency
voicing
Prior art date
Application number
KR1020007000661A
Other languages
English (en)
Inventor
스테빤 삐에르 빌렛떼
아멧 메멧 콘도즈
Original Assignee
제임스 빅터 리드
유니버시티 오브 서레이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제임스 빅터 리드, 유니버시티 오브 서레이 filed Critical 제임스 빅터 리드
Publication of KR20010022092A publication Critical patent/KR20010022092A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

분해 및 합성 접근법을 사용하는 인코더(도 2 내지 6)를 사용하는 인코더를 포함하는 음성 코더에 관한 것이다. 상기 인코더는, 주파수 영역 및 시간 영역 모두의 분해를 필요로 하는 피치 결정 알고리즘, 보이싱 결정 알고리즘 및 스펙트랄 진폭들을 결정하기 위한 알고리즘, 그리고 결정된 값들을 양자화하기 위한 수단을 사용한다. 디코더 또한 기술된다.

Description

이격 대역 선형 예상 보코더{SPLIT BAND LINEAR PREDICTION VOCODOR}
본 발명은 원격 통신 시스템에서의 특정한 적용예에 관련된 것이다.
도 1 은 음성 코더의 계략도이다.
도 2 는 본 발명에 따른 음성 코더의 인코더를 도시한 블록 다이어그램이다.
도 3 은 아날로그 입력 음성 신호의 파형을 도시한 것이다.
도 4 는 도 2 의 인코더에 사용된 피치 탐지(detection) 알고리즘을 도시한 블록 다이어그램이다.
도 5 는 보이싱 절단 주파수의 결정을 도시한 것이다.
도 6a 는 한 프레임에 대한 LPC 스펙트럼을 도시한 것이다.
도 6b 는 도 6a 의 LPC 스펙트럼에서 유도된 스펙트랄 진폭들을 도시한 것이다.
도 6c 는 도 6b 의 스펙트랄 진폭들에서 유도된 양자화 벡터를 도시한 것이다.
도 7 은 음성 코더의 디코더를 도시한 것이다.
도 8 은 상기 LSF 계수들에 대한 에너지-종속 보간(interpolation) 요소를 도시한 것이다.
도 9 는 상기 비양자화된 스펙트랄 진폭들을 검토하기 위해 사용된 지각적-강화(perceptually-enhanced) LPC 스펙트럼을 도시한 것이다.
도면을 참고로 하여 여기에 기술된 인코더 및 디코더는, 적합한 지정 신호 처리기내에 수행된 소프트웨어 명령들로서 알고리즘적으로 구현되는 것은 명백한 사실이다. 도면에 도시된 블록들은, 음성 코더내의 구별된 하드웨어 구성요소들을 나타내기 보다는 상기 처리기에 의해 수행된 각 처리 단계의 기능의 설명을 용이하게 하기 위한 것들이다. 별법으로, 물론 상기 인코더 및 디코더들은 하드웨어 구성요소들을 사용하여 구현될 수 있다.
본 발명에 따라, 사전 지정된 갯수의 디지털 샘플들로 각각 구성된 프레임들로 분할되는 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더가 제공되는데, 상기 인코더는,
샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단으로서, 주파수 영역 기술(주파수 영역 분해)을 사용하여 샘플들을 분해하기 위한 제 1 추정 수단, 시간 영역 기술(시간 영역 분해)를 사용하여 샘플들을 분해하기 위한 제 2 추정 수단, 및 상기 피치 값을 유도하기 위해 상기 주파수 영역 및 시간 영역 분해의 결과를 사용하기 위한 피치 계산 수단을 포함하는 피치 결정 수단;
각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
상기 제 1 계산 수단은 다수의 후보 피치 값들 각각에 대한 피치의 제 1 수치를 발생시키며, 상기 제 2 계산 수단은 상기 후보 피치 값들 각각에 대한 제 2 수치를 발생시키며, 그리고, 상기 계산 수단은 상기 제 1 수치들중 적어도 일부의 각각과 상응하는 상기 제 2 수치를 조합하고, 상기 조합 결과에 따라 상기 후보 피치 값들에서 하나를 선택하는 것을 특징으로 하는 음성 코더가 제공된다.
본 발명의 다른 면에 따라, 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더가 제공되는데 상기 인코더는,
디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
상기 피치 결정 수단은, 상기 피치 값의 추정을 결정하기 위한 피치 추정 수단 및 상기 추정에서 피치 값을 유도하기 위한 피치 정제 수단을 포함하며, 상기 피치 정제 수단은, 상기 피치 추정 수단에 의해 결정된 상기 피치 값의 상기 추정에 대해 분포된 단편적인 값들을 포함하는 한 세트의 후보 피치 값들을 정의하고, 상기 프레임의 주파수 스펙트럼의 피크들을 식별하고, 상기 각 후보 피치 값에 대해, 상기 프레임의 주파수 스펙트럼의 다른 고조파 주파수들(kωo, 상기에서 ωo= 2π/P 이고 P는 상기 추가의 후보 피치 값이고 k 는 정수임)에서의 진폭들과 상기 피크들을 상관시키고, 그리고 상기 프레임에 대한 피치의 값으로 최대 상관 관계를 제공하는 상기 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더가 제공된다.
본 발명의 다른 면에 따라, 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더가 제공되는데 상기 인코더는,
디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리하되 개별적인 고조파 주파수 대역들의 상기 유성화/무성화 상태를 계산하지 않으면서, 보이싱 절단 주파수를 각 프레임에 대해 결정하기 위한 보이싱 수단;
각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 계수들, 상기 피치 값, 상기 보이싱 절단 주파수, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는 것을 특징으로 하는 음성 코더가 제공된다.
본 발명의 다른 면에 따라, 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,
디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 주파수들에 중심된 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 표준화된 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더가 제공된다.
본 발명의 다른 면에 따라, 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더가 제공되는데 상기 인코더는,
디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
각 프레임의 전위 부분과 후위 부분에 대한 선 스펙트랄 주파수(line spectral frequency; LSF) 계수들의 각 세트를 발생하기 위해 샘플들을 분해하기 위한 선행 예상 코딩 수단;
각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 LSF 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
상기 양자화 수단은,
LSF'2 = αLSF'1 + (1-α)LSF'3 (상기에서 LSF'3 및 LSF'1 은 각각 현재 프레임 및 현재 프레임을 인접 선행하는 프레임의 상기 후위 부분의 양자화된 LSF 계수들의 세트들이고, α는 제 1 벡터 양자화 코드북의 벡터임) 라는 등식에 의해 현재 프레임의 상기 전위 부분에 대한 한 세트의 양자화된 LSF 계수들(LSF'2)을 정의하고,
제 2 벡터 양자화 코드북의 각 LSF 양자화 벡터들 Q2, Q3 과 각 예상 값들 P2, P3 의 조합으로서, 상기 현재 프레임의 상기 전위 및 후위 부분들에 대한 상기 양자화된 LSF 계수들 LSF'2, LSF'3 의 상기 각 세트를 각각 정의하고(상기에서 P2= λQ1 이고 P3 = λQ2 임, λ는 상수이며, Q1 은 상기 인접 선행 프레임의 상기 후위 부분에 대한 상기 LSF 양자화 벡터임), 그리고
상기 현재 프레임에 대해 상기 선형 예상 코딩 수단에 의해 발생된 상기 LSF 계수들(LSF2, LSF3)과 상기 상응하는 양자화된 LSF 계수들(LSF'2, LSF'3) 사이의 왜곡의 수치를 최소화하기 위하여 상기 제 1 및 제 2 벡터 양자화 코드북들에서 상기 벡터 Q3 및 상기 멕터 α를 각각 선택하는 것을 특징으로 하는 음성 코더가 제공된다.
본 발명의 다른 면에 따라, LSF 계수들, 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 한 세트의 양자화 색인들을 디코딩하기 위한 음성 코더에 있어서,
상기 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 상기 색인들에서 여기 신호를 유도하기 위한 처리 수단;
상기 LSF 계수들에 따라 상기 여기 신호를 필터링하기 위한 LPC 합성 필터;
상기 LPC 합성 필터에서의 피치 사이클 에너지와 상기 여기 신호내의 상응하는 피치 사이클 에너지를 비교하기 위한 수단;
상기 비교된 피치 사이클 에너지들 사이의 차이를 감소시키기 위하여 상기 여기 신호를 수정하기 위한 수단; 및
상기 수정된 여기 신호를 필터링하기 위한 다른 LPC 합성 필터를 포함하는 것을 특징으로 하는 음성 코더가 제공된다.
본 발명의 실시예는 예시적인 목적으로 사용된 도면을 참조하여 하기에서 기술될 것이다.
도 1 은 인코더[1] 및 디코더[2]를 포함하는 음성 코더의 개략도이다. 아날로그 입력 음성 신호 Si(t)는 인코더[1]에 수신되어 일반적으로 샘플링 주파수 8 kHz 로 샘플링된다. 상기 샘플링된 음성 신호는 그후 프레임들로 분할되고 각 프레임은 인코딩되어 입력 신호의 파형을 나타내는 한 세트의 양자화 색인들(비교적 소수의 비트들을 포함)를 생성한다. 연속적인 프레임들에 대한 상기 양자화 색인들은 통신 채널[3]을 통해 디코더[2]로 전송되고, 상기 디코더[2]는 원래 입력 음성 신호에 상응하는 아날로그 출력 음성 신호 So(t)를 합성하기 위하여 수신된 양자화 색인들을 처리한다. 음성 코더를 사용하는 원격통신 링크의 경우, 음성 채널은 음성 신호 입력단에서 인코더, 접수단에서 디코더를 필요로 한다. 그러므로, 원격통신 링크의 한 단부와 관련된 음성 코더는, 이중(duplex) 링크의 경우 분리된 채널들, 단일 링크의 경우 동일한 채널에 연결된 인코더 및 디코더 모두를 필요로 한다.
도 2 는 이격-대역(Split-Band) LPC(SB-LPC)로 여기에서 통칭되는 본 발명에 따른 음성 코더의 한 실시예에서의 인코더를 도시한다. 상기 음성 코더는 분해(analysis) 및 합성(synthesis) 기술을 사용한다.
전술한 음성 코더는 2.4 kb/s 의 비트 속도로 동작하도록 설계된다. 그러나, 앙자화 색인들이 갱신되는 속도 및 사용되는 양자화 수준에 따라 더 낮거나 더 높은 비트 속도들(예를 들면, 1.2 kb/s 내지 6.8 kb/s 범위내의 비트 속도들)도 가능하다.
먼저, 아날로그 입력 음성 신호가 저역 통과 필터링되어 가청 범위 밖의 주파수들은 제거된다. 상기 저역 통과 필터링된 신호는 그후 8 kHz 의 샘플링 주파수로 샘플링된다. 상기에 따른 디지털 신호 di(t)는 그후, 특정한 구현예에서,
의 형태의 전달 함수 H(z)를 가지는 고역 통과 필터[10]에 신호를 통과시킴으로써 사전 조절된다.
상기 고역 통과 필터[10]의 효과로, 존재할 수 있는 모든 DC 레벨을 제거된다.
상기 사전 조절된 디지털 신호는 그후, 신호를 프레임들로 분할하는데 효과적인 해밍 윈도우(hamming window)[11]를 통과한다. 상기 예에서, 각 프레임은 160 샘플들의 길이이고, 이것은 20 ms 의 프레임 갱신 시간 간격에 해당한다. 상기 해밍 윈도우[11]의 계수 WHamm(i)는
로 정의된다.
각 프레임의 주파수 스펙트럼은 그후 선형 시변(time-varying) 필터, 특히 공지된 Levinson-Durbin 알고리즘을 사용하여 얻어진 LPC 계수들의 프리셋(preset) 번호 L 을 가지는 올-폴(all-pole) 선형 예상 LPC 필터[12]의 출력에 따라 모델링된다. 상기 LPC 필터[12]는 현재 프레임내의 각 입력 샘플과 L 선행 샘플들 사이에 선형 관계가 만들어지도록 한다. 그러므로 i 번째 입력 샘플은 ai로 표현되고 LPC 계수들은 LPC(j)로 표현되고, LPC(j)의 값들은 상기 식을 최소화하도록 선택된다.
상기에서 예를 들면 N =160 이고 L = 10 이다.
LPC 계수들 LPC(0), LPC(1)... LPC(9)은 그후 상기 프레임들에 대한 상응하는 선 스펙트랄 주파수(line spectral frequency;LSF) 계수들 LSF(0), LSF(1)... LSF(9)을 발생시키기 위하여 변형된다. 이것은 공지된 근 탐색 방법(root search method)을 사용하여 LPC-LSF 변환기[13]에 의해 수행된다.
상기 LSF 계수들은 그후 벡터 양자화부(quantizer)[14]로 통과되어 벡터 양자화 과정을 겪은 뒤 인코더의 제 1 출력 Oi로 라우팅(routing)되는 프레임에 대한 LSF 양자화 색인을 발생시킨다. 별법으로, 상기 LSF 계수들은 스칼라 양자화부를 사용하여 양자화될 수도 있다.
공지된 바와 같이, LSF 계수들은 항상 단조(monotonic)이므로, 이것은 LPC 계수들을 사용하는 경우보다 상기 양자화 과정을 더욱 단순하게 만든다. 더우기, 상기 LSF 계수들은 디코더에서 필요한 과정인 프레임-대-프레임 보간(interpolation)을 더욱 용이하게 만든다.
벡터 양자화 과정은, 주파수에 비교적 가까워 입력 음성 신호의 주파수 스펙트럼내의 현저한 피크를 나타내는 계수들에 더욱 큰 가중치를 주는 방식으로 상기 LSF 계수들의 상대 주파수들을 고려한다.
본 발명의 특정한 구현예에서, 상기 LSF 계수들은 총 24 비트를 사용하여 양자화된다. 상기 계수들 LSF(0), LSF(1), LSF(2)은 8 비트를 사용하여 양자화되는 제 1 그룹 G1을 형성하고, 계수들 LSF(3), LSF(4), LSF(5)은 8 비트를 사용하여 양자화되는 제 2 그룹 G2을 형성하고, 계수들 LSF(6), LSF(7), LSF(8) 또한 8 비트를 사용하여 양자화되는 제 3 그룹 G3을 형성한다.
LSF 계수들의 각 그룹은 별도로 양자화된다. 설명의 목적으로, 상기 양자화 과정은 그룹 G1을 참고로 하여 자세히 기술될 것이다. 그러나, 그룹 G2및 G3에 대해서도 동일한 과정이 사용된다.
벡터 양자화 과정은 1 에서 256 으로 번호가 매겨진 28엔트리들을 포함하는 코드북을 사용하여 수행된다. 상기 코드북에서 r 번째 엔트리(entry)는, 계수들 LSF(0), LSF(1), LSF(2)에 각각 상응하는 Vr(0), Vr(1), Vr(2) 3 개의 엘리먼트의로 구성된다. 상기 양자화 과정의 목표는 실제 LSF 계수들을 가장 잘 매칭시키는 벡터를 선택하는 것이다.
상기 코드북의 각 엔트리에 대해 벡터 양자화부[14]는 상기 합산을 형성한다.
상기에서, W(i)는 가중치(weighting) 요소이고, 최소 합산을 제공하는 엔트리는 그룹 G1내의 LSF 계수들에 대한 8 비트 양자화 색인을 정의한다.
상기 가중치 요소의 효과는 LSF 계수들이 비교적 가까운 더욱 현저한 피크들의 상기 합산에 있어서 중요성을 강조하는 것이다.
현재 프레임 n 내의 160 샘플들의 RMS 에너지 Eo는 배경 신호 추정 블록(background signal estimation block)[15]에서 계산되고, 상기 값은 하기의 기준에 따라 배경 에너지 추정 EBG n의 값을 갱신하는데 사용된다.
상기에서 EBG n-1은 인접하여 선행하는 프레임 n-1에 대한 배경 에너지 추정이다. 만일 EBG n이 1 미만이면, EBG n는 1 로 셋팅된다.
EBG n및 EO의 값들은 그후, 하기의 기준에 따라 입력 신호의 배경 구성요소들 및 상기 음성의 RMS 에너지의 예상 값들을 나타내는 NRGS 및 NRGB 의 값들을 갱신하는데 사용된다.
NRGBn< 0.05 일 경우 NRGBn는 0.05 로 셋팅되고,
이며, NRGSn<2.0 이면, NRGSn는 2.0 으로 셋팅되고, NRGBn> NRGSn일 경우 NRGSn는 NRGBn로 셋팅된다.
설명을 위해, 도 3 은 현재 프레임 Fo의 간격(20 ms) 내에 포함된 아날로그 입력 음성 신호 Si(t)의 파형을 도시한 것이다.
파형은 인간 음성의 중요한 특징인 비교적 큰 피치 펄스 Pu를 나타낸다. 상기 프레임의 피치 또는 피치 주기 P 는 프레임내의 연속적인 피치 펄스들 사이의 시간 간격으로서 정의되고, 이것은 상기 시간 간격내에 포함된 샘플들의 갯수의 항으로 표현될 수 있다. 상기 피치 주기 P 는 기본 피치 주파수 ωo에 반비례한다. 상기에서 ωo= 2/P 이다.
8 kHz 로 샘플링된 음성에 있어서, 약 50 Hz 에서 535 Hz 범위내의 기본 피치 주파수에 상응하는 15 에서 150 샘플들의 피치 주기를 고려하는 것이 합당하다. 기본 피치 주파수 ωo는 물론 다수의 고조파 주파수들을 동반한다.
이미 설명된 바와 같이, 피치 주기 P 는 음성 신호의 중요 특징이고, 따라서 인코더의 제 2 출력 O2로 라우팅되는 또다른 양자화 색인의 기초를 형성한다. 더우기, 피치 주기 P 는 인코더에 의해 생성된 다른 양자화 색인들의 결정에 매우 중요하다. 그러므로, 소망의 정확도 및 가능한 한 신뢰성 있는 방식으로 피치 주기 P 를 계산하는데 조심할 필요성이 있다. 이를 위해, 피치 탐지부[16]는 각 프레임이, 도 4 를 참조하여 자세히 기술되는 피치 탐지 알고리즘을 사용하여 주파수 영역 및 시간 영역 모두에서 분해되도록 한다.
주파수 영역에서의 분해를 용이하게 하기 위하여, 이산 푸리에 변환이 512 지점 빠른 푸리에 변환(fast Fourier transform;FFT) 알고리즘을 사용하여 DFT 블록[17]에서 수행된다. 샘플들은 현재 프레임에 중심된(centred) 221 지점 카이저(Kaiser) 윈도우[18]를 통해 상기 DFT 블록[17]에 공급되고, 상기 샘플들은 0~512 의 번호들로 매겨진다.
도 4 를 보면, 결과적인 주파수 스펙트럼의 크기들 M(i)은 상기 변환의 실수 및 허수 성분들 SWR(i) 및 SWI(i)을 사용하여 블록[401]에서 계산되고, 복잡성을 감소시키기 위하여 이것은 사전 지정된 절단 주파수(Cut)까지의 각 주파수 i 에서 행해진다. 상기에서 i 는 0 에서 255 사이의 상기 FFT의 출력 샘플들에 대해 표현된다. 상기 실시예에서, 상기 절단 주파수는 최고 예상된 기본 피치 주파수를 훨신 초과하는 1.5 kHz 에 상응하는 i=90 에 존재한다.
크기 M(i)는
로 계산된다.
M(i)의 RMS 값, Mmax는 블록[402]에서,
로 계산된다.
피치 추정 알고리즘의 성능을 개선하기 위하여, 크기 M(i)는 블록[404]~[407]에서 사전 처리된다.
블록[404]에서, 주파수 스펙트럼내의 주 피크들을 비-강조하기 위하여 바이어스(bias)가 인가된다. 어떠한 M(i)라도 Mmax를 초과하면, (M(i)Mmax)1/2로 주어진 새로운 크기로 대체된다. 음성 내용에 대해 더 중요한 저 주파수들을 강조하기 위해 추가의 바이어스가 부가되고, 상기 목적을 위해, 각 크기는 팩터에 의해 가중된다.
배경 노이즈에 대한 성능을 개선하기 위하여, 블록[405]에서 노이즈 제거 알고리즘이 가중된 크기들에 적용된다. 상기 목적을 위해, 각 크기 M(i)는 배경 노이즈의 추정 Mmem(i)을 얻기위해 비-음성 프레임들 동안 추적(track)된다. EO< 1.5 EBG n일 경우, Mmem(i)의 값은
M'mem(i) = 0.9 Mmem(i) + 0.1 M(i)
로 주어진 새로운 값 M'mem(i)을 생성하기 위해 갱신된다.
비율 NRGSn/NRGBn이 임계값(일반적으로 5 에서 20) 미만이고, 음성에 추가로 현저한 배경 노이즈를 포함한다는 것을 지시하는, 현재 프레임에 대한 Mmem의 갱신의 미발생의 경우에는, 배경 노이즈의 영향을 감소시키기 위하여 값 kM'mem(i)(k는 상수, 일반적으로 0.9)이 주파수 스펙트럼내의 각 주파수 i 에 대해 M(i)에서 감산된다. 상기 차이가 음이거나 0 에 가까운 임계값 0.0001 미만일 경우, M(i)는 상기 임계값으로 셋팅된다.
결과적인 크기들 M'(i)는 피크들을 탐지하기 위하여 그후 블록[406]에서 분해된다. 이것은 각 크기 M'(i)를 인접 크기들 M'(i-1) 및 M'(i+1)와 비교함으로서 행해지고, 상기 두개보다 클 경우 피크로 선포된다. 탐지된 각 피크에 대해, 크기는 amppk(l)로 저장되고, 주파수 freqpk(l)로 저장된다. 상기에서 l 은 피크의 번호이다.
평탄화(smoothing) 알고리즘은 블록[407]에서 크기들 M'(i)에 적용되어 주파수 스펙트럼에 대해 비교적 평탄화된 엔벨롭(envelope)을 발생시킨다. 상기 평탄화 알고리즘은 2 단계로 수행된다. 제 1 단계에서, 변수 x 는 0 으로 초기화되고, 0 에서 시작해 Cut-1 로 끝나는 i 의 각 값에서 상기 크기 M'(i)와 비교된다. x 가 M'(i) 미만일 경우, x 는 상기 값으로 셋팅된다. 다른 경우에 있어서, M'(i)의 값은 x 로 셋팅되고, x 는 엔벨롭 손상(decay) 요소, 예를 들면 0.85 로 곱해진다. 동일한 과정이 반대 방향에서, 즉 Cut-1 에서 시작하여 0 에서 끝나는 i 의 값에 대해 다시 수행된다.
상기 과정의 효과는 주파수 스펙트럼의 평탄화된 지수적으로 손상시키는 엔벨롭을 나타내는 0 ≤i ≤Cut-1 에 대한 크기 a(i) 의 세트를 발생시키는 것이다. 특히, 상기 과정은 더욱 큰 피크들 다음에 존재하는 비교적 작은 피크들을 제거하는데 효과적이다.
블록[406]에서 수행되는 피크-탐지 과정이 모든 피크들 심지어 작은 피크라도 식별하는 것은 명백하다. 상기 알고리즘의 후속 단계에서의 처리의 양을 감소시키기 위하여, 크기 amppk가 동일한 주파수에서의 크기의 c 요소 배 미만일 경우 블록[408]에 의해 버려진다. 예를 들어 c 는 0.5 로 셋팅된다.
블록[407]에서 발생된 크기 값들 a(i), 및 블록 [406] 및 [408]에서 발생된 잔류 진폭 및 주파수 값들 amppk및 freqpk는 피치 주기의 제 1 추정을 계산하기 위하여 블록[409]에서 사용된다.
상기를 위해, 함수 Met1 이 15 내지 150 범위의 각 후보 피치 주기 P 에 대해 계산된다. 복잡성을 감소시키기 위하여, 이것은 0.5 에서 75 값까지의 단계 및 통합된 단계들을 사용하여 행해질 수도 있다. Met1은 하기의 식을 사용하여 계산된다.
상기에서 e(k, o) = Max1(amppk(1)D(freqpk(1)-k o)), 이고, o=2/P 이고, K( o)는 절단 주파수 이하의 고조파들의 갯수이고, 그리고 D(freqpk(1)-k o)=sinc(freqpk(1)-k o)이다.
요컨대, 상기 표현은 피치 후보 P 의 고조파 진폭들 a(k o) 및 최적 피크 진폭들 e(k o)에 의해 정의된 콤(comb) 필터의 주파수 응답 사이의 상호-상관(cross-correlation) 함수로 생각될 수도 있다. 함수 D(freqpk(1)-k o)는 특정한 검색 거리내의 주파수 스펙트럼내의 첫번째 피크와 피치 후보 P 의 k 번째 고조파 주파수 사이의 주파수 이격과 관련된 거리 수치이다. e(k o)가 거리 수치 및 피크 진폭 모두에 좌우되므로, 최적 값 e(k o)는 고조파 주파수 k o와 상기 피크들의 주파수들 사이의 최소 이격에 상응하지 않을 수도 있다.
각 피치 후보 P 에 대해 Met1( o)를 계산한 후, 구한 값들은, 더욱 작은 후보들을 위해 상기 값들을 바이어싱하기 위해 가중 요소 b1-(1-0.1P/150)에 의해 곱해진다.
Met1( o)의 값이 높을수록, 상응하는 피치 후보가 실제 피치 값일 개연성이 커진다. 더우기, 상기 피치 후보가 실제 피치 값의 두배라면(즉, 피칭 더블링(doubling)), Met1( o)의 값은 작을 것이다. 전술한 바와 같이, 이것은 상기 과정의 뒷 단계들에서 원치않는 피치 후보들을 제거시킨다.
가장 유력한 피치 후보를 식별하기 위하여, Met1( o)의 피크 값들은 블록[410]에서 탐지된다. 이것은, 5 개의 연속적인 피치 범위들, 즉 15~27.5, 28~49.5, 50~94.5, 95~124.5, 125~150 의 피치 범위에서의 최대치 및 추적된 피치 trP(후술될 것임)의 ±5 범위내에서의 최대값에 대해 탐지하기 위하여 블록[409]에서 발생된 Met1( o)의 값들을 처리함으로써 수행된다. 상기 5 개의 연속적인 피치 범위들은 각 범위내에서의 피치 더블링(doubling) 및 피치 반분(halving)의 가능성을 제거하도록 선택된다. 이것은 한 범위에서 탐지된 피크는 동일한 범위내의 다른 모든 피크들 피치의 2 배 또는 1/2 배를 가질 수 없음을 나타낸다. 상기 방법으로, 6 개의 피크 값들 Met1(1), Met1(2), Met1(3), Met1(4), Met1(5), Met1(6)이 각각의 피치 값들 P1, P2, P3, P4, P5, P6과 함께 후속의 처리를 위해 보존된다. Met1( o)를 최대화하는 o의 값은 피치 값의 합당한 추정을 제공한다. 이것은 때때로 에러에 민감하다. 때때로 실제 피치 값의 반(즉, 피치 반분)인 피치 값으로 식별할 수도 있다.
상기 문제를 해결하기 위하여, 제 1 추정에서 유도된 6 개의 후보 피치 값들 P1, P2, P3, P4, P5, P6의 각각에 대해 블록[411]에서 피치의 제 2 추정이 계산된다.
단일 피치 주기 P 에 걸쳐 입력 샘플들의 절대값의 다른 합산들을 형성함으로써 시간-영역 분해 기술을 사용하여 상기 제 2 추정이 계산될 수 있다. 상기를 위해, 합산
이 N-80 와 N+79 사이의 k 의 각 값에 대해 형성된다. 상기 에서 N 은 현재 프레임의 중심에서의 샘플 번호이다. 따라서 각 후보 피치 값 P1, P2, P3, P4, P5, P6에 대해, 160 합산들의 각 세트가 발생되고, 상기 세트내의 각 합산은 상기 프레임내의 다른 위치에서 시작한다.
피치 후보가 실제 피치 값에 근접할 경우, 상응하는 세트의 합산들 사이에는 편차(variation)가 없거나 거의 없어야 한다. 그러나, 상기 후보 및 실제 피치 값들이 매우 다르다면(예를 들면, 후보 피치 값이 실제 피치 값의 절반일 경우), 상기 세트의 합산 사이에는 현저한 편차가 존재할 것이다. 상기와 같은 편차를 탐지하기 위하여, 각 세트의 합산들은 고역 통과 필터링되고, 상기 고역 통과 필터링된 값들의 제곱의 합은 제 2 추정 Met2 를 계산하는데 사용된다. 음성이 매우 주기적일 때 피치 다중 에러들을 감소시키기 위해 작은 오프셋 값이 가산된다. 각 제 2 추정 Met2(1), Met2(2), Met2(3), Met2(4), Met2(5), Met2(6)이, 제 1 추정을 사용하여 선택된 후보 피치 값들 P1, P2, P3, P4, P5, P6각각에 대해 계산된다. Met2 의 값이 작을수록, 상응하는 피치 후보가 실제 피치 값일 개연성은 더욱 커진다. 피치 반분의 경우, Met2 의 값은 커질 것이고, 이것은 상기 원치않는 피치 후보의 제거를 용이하게 한다.
선택적으로, 제 1 및 제 2 추정 Met1 및 Met2 의 신뢰성을 더 개선하기 위해, 현재 프레임에 대한 입력 샘플들이 블록[412]에서 자기-상관(auto-correlate)될 수도 있다. 상기 표준화된 자기-상관은 2 개의 가장 큰 값들(V1,V2)을 발견하기 위해 조사되고, 상기 값들의 연속적인 발생 사이의 상응하는 래그(lag) L1,L2(샘플들의 번호로 표시됨) 또한 결정된다. V1과 V2사이의 비율이 사전 셋팅된 임계값(일반적으로 약 1.1)을 초과하면, 상기 값들 L1,L2이 정확한 피치 값에 근접한 값이라는 가능성이 높아진다. 그럴 경우, L1또는 L2에 근접하는 후보 피치 값들에 대한 Met1 및 Met2 의 값들이, 피치 값의 최종 추정에서 선택의 기회를 개선하기 위해 각 가중 요소들 b2및 b3에 의해 곱셈된다.
Met1 및 Met2의 값들은 추적된 피치 값 trP 에 따라 블록[413]에서 더욱 가중된다. 현재 프레임이 음성을 포함한다면, 즉 EO> 1.5 EBG n일 경우, trP 의 값은 바로 이전의 프레임에 대해 추정된 피치 값을 사용하여 갱신되고, 상기 갱신의 범위는 음성 에너지의 더 높은 값들보다 더 크다. 그 비율,
은 각 후보 피치 값 P1, P2, P3, P4, P5, P6에 대해 계산된다.
상기 예에서,가 0.5 미만일 경우, 후보 피치 값은 이전 프레임들의 피치 값들에서 계산된 추적된 피치 값에 가까울 경우, Met1 및 Met2 의 각 값들은 가중 요소들 b4및 b5에 의해 곱해진다. b4및 b5의 값들은 프레임내의 배경 노이즈의 레벨에 좌우된다. 상기가 비교적 높게 결정되면, 즉 NRGS/NRGB < 10 일 경우, b4는 1.25 에 셋팅되고 b5는 0.85 에 셋팅된다. 그러나,<0.3(즉, 후보 피치 값이 추적된 값에 더욱 가깝다면) b4는 1.56 에 셋팅되고 b5는 0.72 에 셋팅된다. 현저한 배경 노이즈가 존재하지 않는다는 것이 결정된다면, 예를 들면, NRGS/NRGB > 10 일 경우, 바이어스의 범위는 감소된다.<0.5 일 경우, b4는 1.1 로 셋팅되고 b5는 0.9 로 셋팅된다.<0.3 일 경우, b4는 1.21 로 셋팅되고 b5는 0.8 로 셋팅된다.
Met2 의 가중된 값들은 그후 명백하게 가망이 없는 모든 후보 피치 값을 버리는데 사용된다. 상기 목표를 위해, Met2 의 가중된 값들은 최소 값을 탐지하기 위해블록[414]에서 분해되고, 다른 값이 프리셋된 요소(예를 들면, 2.0) + 정수(예를 들면, 0.1) 이상 상기 최소값을 초과할 경우, Met1(ωo) 및 P 의 상응하는 값들과 함께 버려진다.
전술한 바와 같이, 상기 피치 후보가 정확한 값에 근접한다면, Met1 은 매우 커질 것이고, Met2 는 매우 작아질 것이다. 그러므로, Met1 및 Met2 에서 유도된 비율은 상기 피치 후보의 정확성 또는 다른 것들에 대한 매우 민감한 측도를 제공한다.
따라서, 블록[415]에서, 비율(상기에서 Met'1 및 Met'2 는 Met1 및 Met2 의 가중된 값임)은 나머지 피치 후보들 각각에 대해 계산되고, 최고 비율 R 에 상응하는 후보 피치 값은 현재 프레임에 대한 추정된 피치 값 Po으로 선택된다. 상기 추정된 피치 값 Po이 실제 피치 값의 약수가 아닌 것을 확증하기 위한 점검이 그 후 이루어진다. 상기를 위해, 비율 Sm= Po/ Pn이 나머지 각 후보 피치 값 Pn에 대해 계산되고, 상기 비율이 1 보다 큰 정수에 가깝다면(예를 드면 상기 정수의 0.3 이내), Po는 프레임에 대한 추정된 피치 값으로서 블록[416]에서 확증된다.
도 4 와 관련해 상술된 피치 알고리즘은 매우 견실(robust)하며, 피치 더블링 및 피치 반분을 제거하기 위하여 주파수 및 시간 영역 모두의 조합을 포함한다.
후보 값이 해당하는 범위에 좌우되는 0.5 샘플 또는 1 샘플 내의 정확도로 피치 값 Po이 추정되지만, 상기 정확도는 인코더의 후속 단들에서 수행될 필요가 있는 과정에는 충분하지 않으므로 더욱 양호한 정확도가 요구된다. 그러므로 정제된 피치 값은 피치 정제 블록[19]에서 추정된다.
상기를 용이하게 하기 위하여, 512 지점 빠른 푸리에 변환 알고리즘을 다시 사용하여 제 2 이산 푸리에 변환이 DFT 블록[20]에서 수행된다. 전술한 바와 같이, 샘플들은 221 지점 카이저 윈도우[18]를 통해 DFT 블록[17]에 공급되었다. 상기 윈도우는 현재 필요한 처리 기술에 있어 너무 넓어, 더 협소한 윈도우가 요구된다. 그럼에도 불구하고, 상기 윈도우는 적어도 3 피치 주기에서 넓어야 한다. 그러므로, 입력 샘플들은, 피치 탐지부[16]에서 탐지된 피치 값 Po에 민감한 가변 길이 윈도우[21]를 통해 DFT 블록[20]에 공급된다. 상기 예에서, 3 개의 다른 윈도우 사이즈들이 범위 Po≥70, 70 > Po≥55, 및 55 > Po에 각각 해당하는 221, 181 및 161 로 사용된다. 또한, 현재 프레임에 중심되어진 카이저 윈도우들이 존재한다.
피치 정제 블록[19]은 추정된 피치 값 Po의 한 쪽에 분포된 단편적 값들을 포함하는 새로운 세트의 후보 피치 값들을 발생시킨다. 상기 실시예에서, 상기 피치 후보 값들(Po포함)의 총계가 사용된다. Met1 의 새로운 값은 그후 상기 후보 피치 값들의 각각에 대해 계산되고, Met1 의 최대값을 주는 후보 피치 값이, 모든 후속 과정들의 기초가 되는 정제된 피치 값 Pref으로 선택된다.
Met1 의 새로운 값들은 도 4 에 관해 전술된 것과 같은 과정(그러나 소정의 중요한 변형이 있음)을 사용하여 피치 정제 블록[19]에서 계산된다. 먼저, 크기 M(i)가 스펙트럼의 낮은 주파수 범위 대신에(즉, i 에서 Cut-1 의 값들) DFT 블록[20]에 의해 발생된 전체 주파수 스펙트럼에 대해 계산된다. 두번째, 상기 등식 1 에 표현된 합산은, 1.5 kHz(i = 90 에 해당)까지의 kωo의 값들에 대한 제 1 부분(저 주파수) 및 kωo의 나머지 값들에 대한 부분, 즉 2 부분으로 수행된다. 상기 합산의 2 부분들은 다른 요소들 0.25 및 1.0 에 의해 각각 가중된다.
전술한 바와 같이, 추정된 피치 값 Po은 저 주파수 범위의 분해에 기초되었으므로, 상기 분해에서 제외된 높은 주파수들이 상기추정의 부정확성에 영향을 크게 미친다. 상기 제외를 보정하기 위하여, 높은 주파수들이 블록[19]에서 수행된 분해에 포함되어, 상기 합산의 각 부분에 인가된 가중 요소의 상대 크기에 의해 그 영향이 강조된다. 더우기, 낮은 주파수들의 영향(이제는 원하지 않음)을 가진, 블록[404]에서 크기 값들 M(i)에 초기에 인가된 바이어스가 상기 분해에서 제거되고, 결과적으로 값 Mmax(블록[402]에서 초기에 계산된)이 또한 필요하지 않게 된다.
블록[19]에서 발생된 정제된 피치 값 Pref이, 피치 양자화 색인를 발생시키기 위해 양자화되는 벡터 양자화부[22]로 통과된다.
상기 실시예에서, 피치 양자화 색인은 7 비트들(128 레벨에 해당)에 의해 정의되고, 벡터 양자화부[22]는, 사람의 귀가 더욱 큰 피치 값들에서의 피치 부정확성에 대해 덜 민감하다는 사실을 고려하기 위해 지수적(exponential) 양자화부이다. 상기 양자화된 피치 레벨 Lp(i) 은
로 정의된다.
8 kHz 의 샘플링 속도에서 80 개까지의 고조파 주파수들이 DTF 블록[20]의 4 kHz 대역폭내에 포함될 수 있다는 것을 알 수 있을 것이다. 명백하게, 매우 많은 갯수의 비트들이 상기 모든 고조파들을 각각 모두 인코딩하는데 필요할 것이고, 이것은 비교적 작은 비트 속도가 요구되는 음성 코더에 있어서 실용적이지 못하다. 더욱 경제적인 인코딩 모델이 요구된다.
도 5 에 관해 설명하면, DFT 블록[20]에서 유도된 실제 주파수 스펙트럼은 보이싱(voicing) 블록[23]에서 분해되어, 2 부분으로 스펙트럼을 분할하는 보이싱 절단 주파수 Fc를 셋팅한다. 상기 2 부분은 음성의 주기적 요소인 보이싱 절단 주파수 Fc이하의 유성화된 부분, 및 음성의 랜덤 요소인 무성화된 부분이다.
스펙트럼의 유성화된 부분 및 무성화된 부분이 일단 상기 방식으로 분리되면, 상기 부분들은, 각 개별적인 고조파 대역의 유성화/무성화 상태에 대한 정보를 발생하고 전송할 필요 없이 디코더에서 독립적으로 처리될 수 있다.
각 고조파 대역은, 2π/Pref로 주어진 기본 주파수 ωo의 k 배에 중심된다.
먼저, 각 고조파 대역의 형상은, 선택된 가변 길이 윈도우[21]의 푸리에 변환에 의해 주어진 대역(유성화된 것으로 가정)에 대한 이상적인 고조파 형상과 상관된다. 이것은 각 고조파 대역에 대해 상관 함수 S1를 발생시킴으로써 이루어진다. k 번째 고조파 대역에 대해,
상기에서 M(a) 는 FFT(빠른 푸리에 변환)에 있어서 a 지점에서의 스펙트럼의 복소수 값이고, ak및 bk는 상기 대역에 대한 합산의 한계이고, W(m)은 선택된 윈도우에서 유도된 상기 대역에 대한 이상적인 고조파 형상의 크기에 상응하고, m 은 실제적인 고조파 대역에서 a 위치에 해당하는 이상적인 고조파 형상에서의 위치를 정의하는 정수이다. 이것은 하기의 식으로 주어진다.
SF 는 상기 FFT 의 사이즈이며, Sbt 는 업-샘플링 비율, 즉 상기 FFT 에서 지점들의 갯수에 대한 윈도우내의 지점들의 개수의 비율이다.
S1에 덧붙여, 2 표준화 함수 S2및 S3가 발생되는데, 상기에서
이다.
상기 3 함수 S1(k), S2(k) 및 S3(k)는 그후 조합되어 아래와 같이 주어진 표준화된 상관 함수 V(k)를 발생시킨다.
상기에서 k 는 고조파 대역들의 갯수이다. V(k) 는 1 + 3(k-10)/40 의 승(power)을 함으로써 더욱 바이어싱된다.
실제 및 이상적인 고조파 형상 사이의 정확한 상관 관계가 존재할 경우, V(k)의 값은 통일될 것이다. 도 5 는 고조파 대역들의 총 갯수 K 가 25(즉, k = 1 에서 25)인 주파수 스펙트럼의 경우에 대한 일반적으로 표준화된 상관 함수 V(k)의 형태를 도시한다. 상기 도면에서 도시된 바와 같이, 스펙트럼의 저 주파수 끝부분에서의 고조파 대역들은 비교적 통일적이며, 따라서 유성화될 가능성이 많다.
Fc에 대한 값을 셋팅하기 위하여, 함수 V(k)는 k 의 각 값에 대해 상응하는 임계(threshold) 함수 THRES(k)과 비교된다. 일반적인 임계 함수 THRES(k)의 형태는 도 5 에 또한 도시되어 있다.
THRES(k)를 계산하기 위하여, 하기의 값들이 사용된다.
E-lf, E-hf, tr-E-lf, tr-E-hf, ZC, L1, L2, PKY1, PKY2, T1, T2
상기 값들은 하기와 같이 정의된다.
(Eo n< 2 EBG n) 이며, 프레임 계수기(counter)가 20 이하일 경우,
trn- E - lf = 0.9 trn-1- E - lf + 0.1 En-lf 이며,
trn- E - hf = 0.9 trn-1- E - lf + 0.1 En-hf 이다.
반면, (Eo n< 1.5 EBG n)일 경우에는,
trn- E - lf = 0.97 trn-1- E - lf + 0.03 En-lf 이며,
trn- E - hf = 0.97 trn-1- E - hf + 0.03 En-hf 이다.
또한, tro- E - lf = 108이며, tro- E - hf = 107이다.
ZC 가 0 으로 셋팅되고, 각 -N/2 와 N/2 사이의 각 i 에 대해,
ip[i] x ip[i-1] < 0 일 경우,
ZC = ZC + 1 이다.
상기에서 ip 는 참조된 입력 음성이며, ip[0]은 현재 프레임의 스펙트럼을 얻기 위해 사용된 윈도우의 중심에 존재하는 입력 샘플에 해당한다.
상기에서 redidual(잉여)(i) 는 LPC 역 필터[28]의 출력에서 발생된 LPC 잉여 신호이고, 잉여(0)은 ip(0)에 해당한다.
PKY1 = L2/L1
PKY2 = L2'/L1'
상기 에서 L1', L2' 는 L1, L2 에 대해 각각 계산되지만, 상응하게 감소된 항의 갯수에 대해 평균된 최고 잉여 값의 한쪽에 대해 사전 지정된 갯수의 값들은 배제된다. PKY1 및 PKY2 는 모두 잉여 음성의 "피크"를 지시하지만, PKY2 는 예외적으로 큰 피크들에 대해 덜 민감하다.
(NRGS < 30 x NRGB) 일 경우, 즉 노이즈 배경 조건이 우세할 경우, 그리고 (E - lf > tr- E - lf) 및 (E - hf > tr - E -hf)일 경우, 저-고 주파수 에너지 비(LH-비)는 하기의 표현으로 주어진다.
LH-비 = (E - lf - 0.9tr - E - lf)/(E - hf - 0.9tr - E - hf)
이고, (E - lf < tr - E - lf)일 경우,
LH-비 = 0.02,
이고, (E - hf < tr - E - hf)일 경우,
LH-비 = 1.0 이며, LH-비는 0.02 및 1.0 사이로 한정된다.
상기 노이즈 배경 조건에서, 2 가지 다른 상황이 존재한다. 즉, 바로 이전 프레임에서의 임계 값 THRES(k) 는 프레임에 대한 절단 주파수 Fc이하로 되는 제 1 경우와 바로 이전 프레임에서의 임계 값 THRES(k) 는 프레임에 대한 절단 주파수 Fc이상으로 되는 제 2 경우가 있다.
(LH-비 < 0.2) 이라면, 제 1 경우에 대해,
THRES(k) = 1.0 - ½(1.0 - 1/π(k-1)ωo) 이고, 제 2 경우에 대해서는
THRES(k) = 1.0 - ⅓ (1.0 - 1/π(k-1)ωo) 이며, 상기 값들은 하기와 같이 수정된다.
THRES(k) = 1.0 - (1.0 - THRES(k))(LH-비 x 5)½
LH-비 > 0.2 이라면, 제 1 경우에 대해,
THRES(k) = 1.0 - ½(1.0 - 1/π(k-1)ωox 0.125) 이고, 제 2 경우에 대해서는
THRES(k) = 1.0 - ⅓ (1.0 - 1/π(k-1)ωox 0.125) 이며, LH-비 ≥1.0 일 경우, 상기 값들은 하기와 같이 수정된다.
THRES(k) = 1 - (1 - THRES(k))½.
에너지 비를 정의하면,
상기에서 Eo는 전체 주파수 스펙트럼의 에너지이고,
Emax 는 현재 프레임들에서 만나게 되는 최대 에너지의 추정이고(ER < 0.1 일 경우 ER 은 0.1 로 셋팅됨),
(ER < 0.4) 일 경우, 상기 임계 값들은 하기와 같이 수정된다.
THRES(k) = 1.0 - (1.0 - THRES(k))(2.5 ER)½. 그리고,
(ER > 0.4) 일 경우, 상기 임계 값들은 하기와 같이 수정된다.
THRES(k) = 1.0 - (1.0 - THRES(k))½.
더우기, THRES(k) > 0.85 일 경우, 상기 수정된 값들은 하기와 같이 더 수정된다.
THRES(k) = 0.85 + ½(THRES(k) - 0.85)
마지막으로, ¾K ≤k ≤K 일 경우, THRES(k)의 값은 하기와 같이 수정된다.
THRES(k) = 1.0 - ½(1.0 - THRES(k))
깨끗한 배경 조건(NRGS ≥30.0 NRGB)에서, 제 1 경우에 대해,
THRES(k) = 1.0 - 0.6(1.0 - 1/π(k-1) x 0.25)이고, 제 2 경우에 대해,
THRES(k) = 1.0 - 0.45(1.0 - 1/π(k-1) x 0.25)이다.
상기 값들은 하기의 조건들에 따라 연속적인 수정을 겪게 된다.
입력 음성이 저대역 필터링되고 표준화된 상호-상관이 정수 래그(lag) 값 Pref- 3 에서 Pref+ 3 에 대해 계산되고, 상기 상호-상관의 최대 값 CM 이 결정된다.
잡음 및 깨끗한 배경 조건들에 대해 상기에서 유도된 THRES(k)의 값들은 하기 조건 체계를 만족시키기 위해 제 1 조건에 따라 수정된다.
1. (PKY > 1.8)이고 (PKY2 > 1.7)일 경우, THRES(k) = 0.5 THRES(k).
2. (PKY > 1.7)이고 (CM > 0.35)일 경우, THRES(k) = 0.45 THRES(k).
3. (PKY > 1.6)이고 (CM > 0.2)일 경우, THRES(k) = 0.55 THRES(k).
4. (CM > 0.85) 또는 (PKY1 > 1.4 및 CM > 0.5) 또는 (PKY1 > 1.5 및 CM> 0.35)일 경우, THRES(k) = 0.75 THRES(k).
5. (CM < 0.55)이고 (PKY1 < 1.25)일 경우, THRES(k) = 1 - 0.25(1 - THRES(k)).
6. (CM < 0.7)이고 (PKY1 < 1.4)일 경우, THRES(k) = 1 - 0.75(1 - THRES(k)).
마지막으로, (E-OR > 0.7) 이고 (ER < 0.11) 이거나, (ZC > 90)일 경우,
THRES(k) = 1 - 0.5(1 - THRES(k))이다. 상기에서
이다. 합산 Sv는 하기와 같이 형성된다.
상기에서 V(k) > THRES(k) 일 경우 B(k) = 5 S3이고, 다른 경우에는 B(k) = S3이다. 그리고 tvoice(k)는 값 "1" 또는 값 "0" 중 하나를 취한다.
사실상, 값 tvoice(k) 은 시험 보이싱 절단 주파수 Fc을 정의하여, tvoice(k)가 Fc이하의 k 의 모든 값들에서 "1"이고, Fc이상의 k 의 모든 값들에서 "0"이다. 도 5 는 제 1 시험 절단 주파수 F1 c을 정의하는 제 1 세트의 값들 t1 voice(k), 및 제 2 시험 절단 주파수 F2 c을 정의하는 제 2 세트의 값들 t2 voice(k)을 도시한다. 상기 실시예에서, 합산 Sv는 값들의 8 개 다른 세트들, t1 voice(k), t2 voice(k),..., t8 voice(k)에 대해 형성되고, 각각은 다른 시험 절단 주파수 F1 c, F2 c,...,F8 c을 정의한다. 최대 합산 Sv을 제공하는 값들의 세트는 프레임에 대한 보이싱 절단 주파수를 결정할 것이다.
상기 합산에서 함수 (2tvoice(k)-1)의 효과는 tvoice(k)가 "0" 값을 가질 때마다, 즉 저단 주파수 위에서의 k 의 값에서, 차이 값(V(k) - THRES(k))의 부호를 반대로 하는 것이다. 도 5 에 도시된 예에서, 함수 (2tvoice(k)-1)의 효과는, 보이싱 절단 주파수 Fc가 상관 함수 V(k) 의 딥(dip) D 이하 또는 상기 딥 이상의 높은 값 F2 c에 존재하는 F1 c값으로 셋팅되어야 할지를 결정하는 것이다. 도 5 의 N 으로 표시된 k 의 범위에서, 값 V(k)는 값 THRES(k) 미만이며, 합산 Sv의 차이 값(V(k)-THRES(k))은 음이다. 값 t1 voice(k)의 제 1 세트가 사용된다면, 상기의 효과는 범위 N 내에서 (V(k)-THRES(k))의 부호를 반대로 하여 전체 합산에 양의 기여를 한다.
이와 반대로, 값 t2 voice(k)의 제 2 세트가 사용된다면, 상기의 효과는 범위 N 내에서 (V(k)-THRES(k))의 부호를 유지하여 전체 합산에 음의 기여를 한다. 도 5 에서 P 로 표시된 범위에서, 반대의 현상이 나타난다. 즉 t1 voice(k)의 제 1 세트는 상기 범위에 대한 합산에 음의 기여를 가져오지만, t2 voice(k)의 제 2 세트는 상기 합산에 양의 기여를 가져온다. 그러나, 도 5 의 사선으로 표시된 각 영역의 상대적인 면적에서 명백한 바와 같이, 범위 N 에서의 차이 값(V(k) - THRES(k))의 효과는 범위 P 에서보다 훨씬 크고, 상기 예에서, t1 voice(k) 값의 제 1 세트는 최대 합산 Sv을 제공하고, 프레임에 대한 보이싱 절단 주파수(F1 c)을 결정하는데 사용될 것이다.
8 가지 가능한 값들에서 Fc의 값을 선택하였으므로, 해당하는 색인(1 내지 8)은, 보이싱 양자화부[24]를 통해 인코더의 제 3 출력 O3에 라우팅되는 보이싱 양자화 색인을 제공한다. 상기 양자화 색인은 8 개 가능한 주파수 레벨들에 해당하는 3 개의 비트들에 의해 정의된다.
피치 Pref에 대한 값 및 현재 프레임에 대한 보이싱 절단 주파수 Fc을 정한 뒤, 각 고조파 대역에 대한 스펙트랄 진폭이 진폭 결정 블록[25]에서 계산된다. 스펙트랄 진폭들은, LPC 역 필터[28]의 출력부에서 발생된 윈도우된 LPC 잉여 신호에 대해 블록[27]에서 이산 푸리에 변환(빠른 푸리에 변화으로 구현된)을 수행함으로써 생성된 주파수 스펙트럼에서 유도된다. 필터[28]는 최초 입력 음성 신호, 및 LSF 비양자화부(dequantiser)[29]에서 LSF 양자화 색인을 비양자화하고 LSF-LPC 변환부[30]에서 비양자화된 LSF 값들을 변환함으로써 발생된 재생된 LPC 계수들의 세트가 공급된다.
고조파 대역(k 번째 대역)은 주파수 스펙트럼의 무성화된 부분에 존재할 경우 즉, 보이싱 절단 주파수 Fc이상에 존재하면, 상기 대역의 스펙트랄 진폭 amp(k)은 대역내의 RMS 에너지로 주어진다.
상기에서 Mr(a)는, FFT 의 실수 및 허수 부분에서 이전에 계산된 LPC 잉여 신호에서 유도된 주파수 스펙트럼에서 위치 a 에서의 복소수 값이고, ak및 bk는 k 번째 대역의 합산의 한계들이며, β는 상기 윈도우의 함수인 표준화 요소이다.
한편, 고조파 대역이 주파수 스펙트럼의 유성화된 부분에 존재할 경우, 즉 절단 주파수 Fc이하에 존재하면, k 번째 대역에 대한 스펙트럴 진폭 amp(k)는 하기와 같이 주어진다.
상기에서 W(m)은 등식 2 및 3 에 관계하여 정의된 것과 같다.
상기 방식으로 얻어진 스펙트랄 진폭들은 동일한 평균을 가지도록 표준화된다.
표준화된 스펙트랄 진폭들은 진폭 양자화부[26]에서 그후 양자화된다. 이것은 가용한 비트들의 갯수에 좌우되는 다양한 양자화 기술들을 사용하여 행해질 수 있음은 물론이다. 상기 특정 실시예에서, 벡터 양자화 과정이 사용되고, 프레임에 대한 LPC 주파수 스펙트럼 P(ω)에 대한 문의가 이루어진다. 상기 LPC 주파수 스펙트럼 P(ω)는 LPC 필터[12]의 주파수 응답을 나타내고 하기의 형태를 가진다.
상기에서 LPC(1)은 LPC 계수들이다. 상기 실시예에서, 10 개의 LPC 계수들이 존재한다. 즉 L = 10.
LPC 주파수 스펙트럼 P(ω)이 도 6a 에 도시되고, 상응하는 스펙트럴 진폭 amp(k)이 도 6b 에 도시된다. 상기 예에서, 10 개의 고조파 대역들(k=1 에서 10)만이 도시된다.
LPC 주파수 스펙트럼은 가장 큰 크기를 포함하는 4 고조파 대역들을 발견하기 위해 조사되고, 상기 예에서 k=1, 2, 3 및 5 에 해당하는 고조파 대역들이 존재한다. 도 6c 에서 도시한 바와 같이, 상응하는 스펙트랄 진폭들 amp(1), amp(2), amp(3), amp(5)은 8 엘리먼트 벡터의 제 1 의 4 엘리먼트들 V(1), V(2), V(3), V(4)를 형성하고, 상기 벡터의 마지막 4 엘리먼트들(V(5) 내지 V(8))는 6 개의 나머지 스펙트랄 진폭들, amp(4), amp(6) 내지 amp(10)에서 적절한 평균을 취함으로써 형성된다. 상기를 위해, 엘리먼트 V(5)는 amp(4)에 의해 형성되고, 엘리먼트 V(6)는 amp(6) 및 amp(7)의 평균에 의해 형성되고, 엘리먼트 V(7)은 amp(8)에 의해 형성되고, 엘리먼트 V(8)은 amp(9) 및 amp(10)의 평균에 의해 형성된다.
벡터 양자화 과정은 코드북내의 엔트리들을 참고하여 수행되고, (LPC 스펙트랄 형태에 의해 가중된 평균 제곱 오차 수치를 사용하여) 조립된 벡터에 가장 잘 매칭되는 엔트리가 프레임의 진폭 양자화 색인의 제 1 부분으로 선택된다.
또한 진폭 양자화 색인의 제 2 부분은 프레임의 초기 음성 입력의 RSM 에너지 Rm으로 계산된다.
진폭 양자화 색인의 제 1 부분은 주파수 스펙트럼의 "형태"를 나타지만, 진폭 양자화 색인의 제 2 부분은 음성 신호의 볼륨에 관련된 스케일 요소를 나타낸다. 상기 실시예에서, 색인의 제 1 부분은 6 비트들로 구성되고(64엔트리들을 포함하는 코드북에 해당하고 각각은 다른 스펙트럴 "형태"를 나타낸다), 색인의 제 2 부분은 5 비트로 구성된다. 상기 2 부분,은, 인코더의 제 4 출력 O4으로 보내지는 11 비트 진폭 양자화 색인을 형성하도록 조합된다.
가용한 비트들의 갯수에 따라, 다양한 다른 기술들이 스펙트랄 진폭을 양자화하기 위해 사용될 수 있다. 예를 들면, 양자화 코드북은 더욱 크거나 작은 엔트리 갯수를 포함할 수 있으며, 각 엔트리는 더욱 크거나 작은 갯수의 진폭 값들로 구성된 벡터를 포함할 수 있다.
지금까지 설명한 바와 같이, 디코더는 색인,, 및에 따라 동작하여 잉여 신호를 합성하고 이에 따라 디코더 LPC 합성 필터에 공급되는 여기(excitation) 신호를 발생시킨다.
결론적으로, 인코더는 입력 음성 신호의 각 프레임에 대한 한 세트의 양자화 색인들,,,를 발생시킨다.
상기 인코더 비트 속도는 양자화 색인들을 정의하는데 사용된 비트들의 갯수에 좌우되고 또한 양자화 색인의 갱신 속도에 좌우된다.
전술한 예에서, 각 양자화 색인에 대한 갱신 주기는 20ms(프레임 갱신 주기와 동일)이고 비트 속도는 2.4 kb/s 이다. 상기 예에서 각 양자화 색인에 대해 사용된 비트들의 갯수는 하기의 표 1 에 요약되어 있다.
*파라미터들의 더 양호한 양자화 또는 에러 방지 및 동기를 위해 3 개의 추가 비트들(총 48 비트 제공)이 사용될 수 있다.
표 1 은 또한 음성 인코더가 1.2 kb/p, 3.9 kb/p, 4.0 kb/p, 5.2 kb/p 및 6.8 kb/p 로 각각 동작하는 5 개의 추가 예들에 있어 양자화 색인들 사이의 분포를 요약한 것이다.
상기 일부 예들에서, 전부 또는 일부 양자화 색인들은 10 ms 간격, 즉 프레임당 2 번씩 갱신된다. 상기 경우에 한 프레임에서 제 1 의 10 ms 갱신 주기 동안 유도된 피치 양자화 색인은 제 2 의 10 ms 갱산 주기 동안 유도된 피치 양자화 색인보다 많은 갯수의 비트들에 의해 정의될 수도 있다. 상기는, 제 1 갱신 주기 동안 유도된 피치 값이 제 2 갱신 주기동안 유도된 피치 값에 대한 바이어스로서 사용될 수 있어 후반 피치 값이 더욱 소수의 비트들을 사용하여 정의될 수 있기 때문이다.
1.2 kb/s 속도의 경우, 프레임 길이는 40 ms 이다. 상기에서, 피치 및 보이싱 양자화 색인,는 각 프레임의 반에 대해 결정되고, 상기 프레임의 나머지 반에 대한 색인들은 인접한 반 프레임내의 각 파라미터들에서 외삽법(extrapolation)에 의해 얻어진다.
현재 40ms 프레임의 전위 및 후위 반부분에 대한 LSF 계수들(LSF2, LSF3)은, 서로를 참조하고, 인접 선행 프레임의 전위 반 및 상응하는 LSF 양자화 벡터에 대한 LSF 계수들(LSF1)을 참조하여 양자화된다.
각 반 프레임에 대한 목표 양자화된 LSF 계수들(LSF'1, LSF'2, LSF'3)은, 상기 반 프레임에 대한 각 예상 값(P1, P2, P3)와 벡터 양자화 코드북에 포함된 각 LSF 양자화 벡터(Q1, Q2, Q3)의 합에 의해 주어진다. 상기에서,
LSF'1 = P1 + Q1,
LSF'2 = P2 + Q2, 및
LSF'3 = P3 + Q3.
각 예상 값 P2, P3 는 인접 선행 반 프레임에 대한 각 LSF 양자화 벡터 Q1, Q2 에서 하기와 같이 얻어진다.
P2 = λQ1, 및
P3 = λQ2
상기에서 λ는 일반적으로 0.5~0.7 범위내의 일정한 예상 요소이다.
비트 속도를 감소시키기 위해, 목표 양자화된 LSF 계수들 LSF'2(현재 프레임의 전위 반에 대한)를 인접 반 프레임에 대한 목표 양자화된 LSF 계수들(LSF'1, LSF'3)에 의해 정의하는 것이 유용하다. 따라서
LSF'2 = αLSF'1 + (1-α)LSF'3 등식 4
상기에서 α는 4 비트 색인에 의해 표현된 16 엔트리 코드북내의 10 엘리먼트의 벡터이다.
상기 등식들에서
LSF'3(1-λ-λα) = Q3 + λαLSF'1 - λ2Q1 등식 5
로 표시될 수 있다.
상기 등식 4 및 5 에서 변수들은 벡터 α및 Q3 이고, 상기 벡터들은 하기와 같이 주어진 에러 함수 ε(지각적으로 가중될 수 있는)를 최소화하기 위해 변경된다. 상기 에러 함수 ε는,
ε= (LSF'3 - LSF3)2+ (LSF'2 - LSF2)2으로 주어지고,
현재 프레임의 실제 및 양자화된 LSF 계수들 사이의 왜곡(distortion) 수치를 나타낸다.
각 코드북들은 최소 에러 함수 ε를 제공하는 벡터 α및 Q3 의 조합을 발견하기 위해 검색되고, 코드북들에서 검색된 엔트리들은 각각 현재 프레임에 대한 28 비트 LSF 양자화 색인의 4 및 24 비트 성분들을 정의한다. 2.4 kb/s 인코더에 관해 전술한 바와 유사한 방식으로, 벡터 양자화 코드북에 포함된 LSF 양자화 벡터들은, 28엔트리들(1~256으로 번호매겨짐)을 각각 포함하는 3 개의 그룹으로 구성되고, 이것은 제 1 의 3 , 제 2 의 3, 및 마지막 4 LSF 계수들에 해당한다. 각 그룹내의 선택된 엔트리는 상기 3 그룹들에 대한 총 24 비트를 제공하는 8 비트 양자화 색인을 정의한다.
도 3 내지 6 에 대해 전술한 음성 코더는 단일 비트 속도로 동작할 것이다. 별법으로, 음성 코더는 2 이상의 다른 비트 속도들 중 하나로 선택적으로 동작가능한 적응형 다중-속도(adaptive multi-rate;AMR) 코더일 수 있다. 상기의 특정한 구현에서, 상기 AMR 코더는 전술한 비트 속도들중 하나로 선택적으로 동작가능하고, 각 속도에 대한 양자화 색인들 사이의 비트들의 배분은 표 1 에 요약되어 있다. 음성 인코더의 출력부 01, 02, 03, 04에서 발생된 양자화 색인들은 도 7 에 도시된 바와 같이, 디코더로 통신 채널을 통해 전송된다. 디코더에서, 양자화 색인들은 재생되고, 비양자화 블록들[30, 31, 32 및 33]의 입력부 I1, I2, I3및 I4에 각각 공급된다.
비양자화 블록[30]은 프레임의 비양자화된 LSF 계수들의 세트를 출력하고, LPC 합성 필터[34]에 공급된 LPC 계수들의 상응하는 세트를 재생하는데 사용된다.
비양자화 블록[31, 32 및 33]은 각각 피치의 비양자화된 값들(Pref), 보이싱 절단 주파수(Fc), 및 스펙트랄 진폭(amp(k))을 RMS 에너지 Rm과 함께 출력하고, 상기 값들은 LPC 합성 필터[34]를 위한 여기 신호 Ex를 발생시키는데 사용된다. 상기를 위해, Pref, Fc, amp(k) 및 Rm값들은 상기 여기 신호의 유성화된 부분(즉 Fc이하의 주파수를 포함하는 부분)을 합성하는 제 1 여기 발생부[35]로 공급되고, 상기 여기 신호의 무성화된 부분(즉 Fc이상의 주파수를 포함하는 부분)을 합성하는 제 2 여기 발생부[36]로 공급된다.
제 1 여기 발생부[35]는 각 고조파 대역의 주파수에서 각 시누소이드(sinusoid)를 발생시킨다. 이것은 보이싱 절단 주파수 Fc까지의 기본 피치 주파수 ωo=(2π/Pref)의 정수배에 존재한다. 상기를 위해, 제 1 여기 발생부[35]는 Akcos(kθ) 형태의 시누소이드의 세트를 발생시키는데, k 는 정수이다.
비양자화된 피치 값(Pref)을 사용하여 합성 프레임내의 각 피치 사이클의 시작과 끝이 결정되고, 각 피치 사이클에 대해 파라미터들의 새로운 세트가 보간에 의해 얻어진다.
샘플 i 에서의 위상 θ(i)는 하기의 식으로 주어진다.
θ(i) = θ(i-1) + 2π[ωlast(1-x) + ωo·x],
ωlast는 인접 선행 프레임에 대해 결정된 기본 피치 주파수이며, x = k/F 여기서 F 는 한 프레임내의 샘플들의 총 갯수이고, k 는 현재 프레임에 합성된 현재 피치 사이클의 중간의 샘플 위치이다.
상기 식의 항 ωlast(1-x) + ωo·x 은 피치 사이클마다 위상에서 진행 편이(progressive shift)를 일으켜 프레임 경계에서 완만한 위상 전이(transition)를 보장하게 된다. 각 시누소이드의 진폭 Ak은 현재 프레임에 대한 amp(k) Rm합과 관련이 있다. 그러나, 피치 사이클 대 피치 사이클 원칙에 따라 행해지는 현재 및 인접 선행 프레임들의 진폭들 사이의 보간은 하기와 같이 적용된다.
(i) 고조파 주파수 대역은 현재 프레임내의 주파수 스펙트럼의 무성화된 부분에 존재하지만 인접 선행 프레임에서는 주파수 스펙트럼의 유성화된 부분에 존재하였을 경우, 상기 음성 신호는 점점 작아진다. 상기 경우에서, 시누소이드는 현재 프레임에 대해 여기 발생부[35]에 의해 발생되지만, 이전 프레임의 진폭을 사용하여 현재 프레임의 길이에 대해 적절한 램핑(ramping) 요소(각 피치 사이클에 대해 바람직하게 일정하게 유지되는) 에 의해 규모가 감소된다.
(ii) 고조파 주파수 대역이 현재 프레임의 주파수 스펙트럼의 유성화된 부분에 존재하지만 인접 선행 프레임에서는 주파수 스펙트럼의 무성화된 부분에 존재하였을 경우, 음성 신호의 시작이 존재하는 것으로 가정된다. 상기 경우에서, 현재 프레임의 진폭이 사용되지만, 적절한 램핑 요소(각 피치 사이클에 대해 바람직하게일정하게 유지되는) 에 의해 규모가 증가된다.
(iii) 고조파 주파수 대역이 현재 및 인접 선행 프레임에서의 주파수 스펙트럼의 유성화된 부분에 존재할 경우, 정상 음성으로 가정된다. 상기 경우에서, 진폭은 현재 프레임의 길이에 걸쳐 현재 및 이전 진폭 값들 사이에서 보간된다.
별법으로, 유성화된 부분 합성이, DFT 사이즈가 보간된 피치 길이와 동일한 역 DFT 방법에 의해 구현될 수 있다. 각 피치 사이클에서, DFT로의 입력은, 보간된 절단 주파수들 Fc및 0 들의 지점들까지의 디코딩되고 보간된 스펙트랄 진폭들로 구성된다.
여기 신호의 무성화된 부분을 합성하는데 사용되는 제 2 여기 발생부[36]는 백색 노이즈 시퀀스를 발생시키는 랜덤 노이즈 발생부(random noise generator)를 포함한다. "오버랩 및 가산" 기술이, 현재 보간된 피치 사이클에 해당하는 일련의 Pref샘플들에서 상기 시퀀스를 추출하는데 사용된다. 상기는, 전체 256 샘플 폭을 가지고 160 샘플들의 단계에서 프레임마다 백색 노이즈 시퀀스를 따라 활주하는 사다리꼴 윈도우를 사용하여 이루어진다. 윈도우된 샘플들은 256 지점 빠른 푸리에 변환을 거치게 되고 이에 따른 주파수 스펙트럼은 비양자화된 스펙트랄 진폭들에 의해 형상화된다. Fc이상의 주파수 범위에서, 주파수 스펙트럼의 각 고조파 대역 k는 상기 대역에 대해 비양자화되고 스케일된 스펙트랄 진폭 Rmamp(k)에 의해 형상화된다. 그리고 Fc이하의 주파수 범위(스펙트럼의 유성화된 부분에 해당)에서, 각 고조파 대역의 진폭은 0 으로 셋팅된다. 역 푸리에 변환이 형상화된 주파수 스펙트럼에 인가되어 시간 여역에서 무성화된 여기 신호를 발생시킨다. 현재 피치 사이클에 해당하는 샘플들은 그후 무성화된 여기 신호를 형성하는데 사용된다. "오버랩 및 가산"기술은 디코딩된 음성 신호의 평탄화를 증가시킨다.
제 1 여기 발생부[35]에 의해 발생된 유성화된 여기 신호 및 제 2 여기 발생부[36]에 의해 발생된 무성화된 여기 신호는 가산부[37]에서 가산되고, 조합된 여기 신호 Ex 는 LPC 합성 필터[34]로 출력된다. LPC 합성 필터[34]는 디코딩된 LSF 계수들에서 유도된 보간된 LPC 계수들을 수신하고, 출력 음성 신호 So(t)를 합성하기 위해 상기 조합된 여기 신호를 필터링하기 위해 상기 계수들을 사용한다.
평탄한 출력 음성 신호 So(t)를 발생시키기 위하여, LPC 계수들에 있어서의 모든 변화는 점진적이어야 하므로, 보간이 바람직하다. LPC 계수들 사이를 직접적으로 보간하는 것은 불가능하다. 그러나, LSF 계수들 사이를 보간하는 것은 가능하다.
연속적인 프레임들이 음성으로 완벽히 채워져 프레임내의 RMS 에너지들이 완전히 동일하다면, 상기 프레임들에 대한 LSF 계수들의 2 세트는 너무 동떨어져 있지는 않을 것이고 따라서 선형 보간이 적용될 수 있다. 그러나, 프레임이 음성 및 침묵을 포함한다면, 즉 프레임이 음성 시작(onset) 또는 음성 감소(tail-off) 문제가 발생될 수 있다. 상기 상황에서, 현재 프레임에 대한 LSF 계수들 및 인접 선행 프레임에 대한 LSF 계수들은 매우 다를수 있으며, 따라서 선형 보간은 실제 음성 패턴을 왜곡시켜 노이즈를 발생시킬 것이다.
음성 시작의 경우, 현재 프레임내의 RMS 에너지 Ec는 인접 선행 프레임의 RMS 에너지 Ep보다 크다. 그러나 음성 감소의 경우에서는 그 반대이다.
상기 문제를 해결하기 위한 관점에서, 에너지-종속 보간이 적용된다. 도 8 은 0.125(음성 시작) 에서 8.0(음성 감소) 범위를 가지는 다른 비율들 Ep/Ec에 대한 프레임에 걸친 보간 요소의 변이를 도시한다. 도 8 에서, 에너지-종속 보간 요소들의 영향은 LSF 계수들의 더욱 현저한 세트 쪽으로 바이어스를 부가하여 프레임의 유성화된 부분이 배경 노이즈에 더욱 적합한 필터를 통과하지 못하도록 하는 것이다.
보간 절차가 LSF 보간부[38]내의 LSF 계수들에 적용되고, 상기와 같이 얻어진 보간된 값들이, 해당 LPC 계수들이 발생하는 LSF-LPC 변환부[39]로 통과된다.
음성 품질을 증가시키기 위하여, 합성된 출력 음성에 후처리를 수행하여 LPC 주파수 스펙트럼의 골짜기부에서의 노이즈의 영향을 감소시키는 것이 지금까지 보편적이었으나, 상기에서 음성의 LPC 모델은 비교적 빈약하였다. 이것은 적절한 필터들을 사용함으로써 달성되었으나, 상기와 같은 필터링은 일부 스펙트랄 틸트(tilt)를 야기하고 이것은 최종 출력 신호를 감소시켜 음성 품질을 감소시켰다.
상기 실시예에서, 과거에 행해진 방법과 같이 LPC 합성 필터[34]의 출력을 처리하는 대신, 다른 기술이 사용되었다. 상기 실시예에 사용된 기술은 디코더 블록[33]의 출력에서 발생된 스펙트랄 진폭들을 가중하는 것에 의존하고 있다. k 번째 스펙트랄 진폭에 인가된 가중 요소 Q(kωo)는 전술한 LPC 스펙터럼 P(ω)에서 유도된다. LPC 스펙트럼 P(ω)은 피크-보간된 스펙트럼 H(ω)을 발생시키기 위하여 피크-보간되고, 가중 함수 Q(ω)는 λ승을 가지는 P(ω) 와 H(ω)의 비율로 주어진다.
상기에서 λ는 0.00 ~ 1.0 범위내이고 바람직하게는 0.35 이다.
함수 P(ω) 및 H(ω)는 Q(ω)P(ω)에 의해 주어진 지각적으로 증가된 LPC 스펙트럼에 따라 도 9 에서 도시된다.
상기 도면에서 살펴볼 수 있는 바와 같이, 가중 함수 Q(ω)의 효과는 피그들 사이의 골짜기 지역내의 LPC 스펙트럼의 값을 감소시키는 것이고, 이에 따라 상기 지역내의 노이즈가 감소된다. 적절한 가중 Q(kωo)이 비양자화된 스펙트랄 진폭들에 대해 지각적 가중 블록[40]에서 인가될 때, 이들의 효과는 출력 음성 신호의 품질을 개선하는 것이다. 이것은 후-처리되었던 것과 같지만, 과거에 사용된 후-처리 기술과 관련한 스펙트랄 틸트 및 소리 감소를 야기시키기 않는다.
LPC 합성 필터[34]의 출력은 에너지에 있어서 변동할 수 있으므로, 출력은 바람직하게 제어된다. 이것은 도 7 의 점선으로 표시된 선택적 회로를 사용하여 2 단으로 행해진다. 제 1 단에서, 실제 피치 사이클 에너지가 블록[41]에서 계산되고, 상기 에너지는 비율 회로[2]에서 소망의 보간된 피치 사이클 에너지와 비교되어 비율 값을 발생시킨다. 여기 신호 Ex의 상응하는 피치 사이클이 멀티플라이어[43]에서 상기 비율 값과 곱셈되어 비교된 에너지들 사이의 차이를 감소시키고, 그후 추가의 LPC 합성 필터[44]로 전달되어 평탄화된 출력 음성 신호가 합성된다.

Claims (45)

  1. 사전 지정된 갯수의 디지털 샘플들로 각각 구성된 프레임들로 분할되는 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서, 상기 인코더는,
    샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
    각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단으로서, 주파수 영역 기술(주파수 영역 분해)을 사용하여 샘플들을 분해하기 위한 제 1 추정 수단, 시간 영역 기술(시간 영역 분해)를 사용하여 샘플들을 분해하기 위한 제 2 추정 수단, 및 상기 피치 값을 유도하기 위해 상기 주파수 영역 및 시간 영역 분해의 결과를 사용하기 위한 피치 계산 수단을 포함하는 피치 결정 수단;
    각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
    각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
    각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
    상기 제 1 계산 수단은 다수의 후보 피치 값들 각각에 대한 피치의 제 1 수치를 발생시키며, 상기 제 2 계산 수단은 상기 후보 피치 값들 각각에 대한 제 2 수치를 발생시키며, 그리고, 상기 계산 수단은 상기 제 1 수치들중 적어도 일부의 각각과 상응하는 상기 제 2 수치를 조합하고, 상기 조합 결과에 따라 상기 후보 피치 값들에서 하나를 선택하는 것을 특징으로 하는 음성 코더.
  2. 제 1 항에 있어서, 상기 계산 수단은, 상기 각 제 1 수치 및 상기 상응하는 제 2 수치의 비율을 형성함으로써 상기 조합들을 형성하고, 상기 형성된 비율들에 따라 상기 하나의 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 계산 수단은, 상기 각 후보 피치 값과 1 이상의 이전 프레임들에서 유도된 추적된 피치 값을 비교하고, 상기 수치들이 조합되기 전에 상기 비교에 따른 각각의 양들만큼 상응하는 상기 제 1 및 제 2 수치들을 가중하는 것을 특징으로 하는 음성 코더.
  4. 제 3 항에 있어서, 상기 가중의 양들은 또한 상기 현재 프레임의 배경 노이즈의 레벨에 좌우되는 것을 특징으로 하는 음성 코더.
  5. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 제 1 추정 수단은, 각 프레임에 대한 제 1 주파수 스펙트럼을 발생시키고, 상기 제 1 주파수 스펙트럼내의 피크들을 식별하고, 상기 제 1 주파수 스펙트럼이 평탄화 과정을 겪도록 하여 평탄화된 주파수 스펙트럼을 발생시키며, 그리고 각 후보 피치 값에 대해 상기 제 1 주파수 스펙트럼에서 식별된 피크들과 상기 평탄화된 주파수 스펙트럼의 다른 고조파 주파수들(kωo, 상기에서 ωo= 2π/P 이고 P는 후보 피치 값이고 k 는 정수임)에서의 진폭들과 상관시켜(correlate) 상기 피치 값의 상기 제 1 수치를 각각 발생시키는 것을 특징으로 하는 음성 코더.
  6. 제 5 항에 있어서, 상기 피크들의 식별에 앞서, 상기 제 1 주파수 스펙트럼을 형성하는 크기 값들은 상기 스펙트럼에 대한 RMS 값과 비교되고, 상기 비교에 따라 가중되어 상기 RMS 값보다 더 큰 크기를 가지는 피크를 덜 강조(de-emphasize)하게 되는 것을 특징으로 하는 음성 코더.
  7. 제 6 항에 있어서, 상기 크기 값들은, 주파수를 감소시키는 함수로서 증가하는 요소(factor)에 의해 더 가중되는 것을 특징으로 하는 음성 코더.
  8. 제 7 항에 있어서, 상기 제 1 주파수 스펙트럼의 크기들은 상기 현재 프레임의 배경 노이즈를 고려하기 위해 조정되는 것을 특징으로 하는 음성 코더.
  9. 제 5 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 상관에 앞서, 상기 제 1 주파수 스펙트럼에서 식별된 각 피크의 상기 크기는, 상기 평탄화된 주파수 스펙트럼의 상응하는 크기와 비교되고, 상기 비교에 따라 버려지거나 유지되는 것을 특징으로 하는 음성 코더.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서, 상기 제 1 추정 수단은, 프리셋(preset)된 갯수의 주파수 대역들 각각에 대해 단일 후보 피치 값을 선택하며, 상기 제 2 추정 수단은, 상기 제 1 추정 수단에 의해 선택된 상기 각 후보 피치 값들에 대해 상기 피치의 제 2 수치를 발생시키는 것을 특징으로 하는 음성 코더.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서, 상기 선택된 후보 피치 값은 상기 피치 값의 추정을 제공하며, 상기 계산 수단은 상기 추정에서 상기 피치 값을 결정하기 위한 피치 정제(refinement) 수단을 포함하는 것을 특징으로 하는 음성 코더.
  12. 제 11 항에 있어서, 상기 피치 정제 수단은,
    상기 추정에 대해 분포된 단편적인 값들을 포함하는 한 세트의 추가 후보 피치 값들을 정의하며, 상기 프레임에 대한 추가의 주파수 스펙트럼을 발생시키며, 상기 추가의 주파수 스펙트럼내의 피크들을 식별하며, 추가의 평탄화된 주파수 스펙트럼을 발생시키기 위해 상기 추가의 주파수 스펙트럼이 평탄화 과정을 겪도록 하며, 각 추가의 후보 피치 값에 대해, 상기 추가의 주파수 스펙트럼내에서 식별된 피크들과 상기 평탄화된 주파수 스펙트럼내의 다른 고조파 주파수들(kωo, 상기에서 ωo= 2π/P 이고 P는 상기 추가의 후보 피치 값이고 k 는 정수임)에서의 진폭들을 상관시키며, 그리고 상기 프레임에 대한 피치의 값으로 최대 상관 관계를 제공하는 상기 추가의 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 피치 결정 수단은, 각 프레임의 전위(leading) 부분에 대한 피치의 제 1 값 및 각 프레임의 후위(trailing) 부분에 대한 피치의 제 2 값을 결정하며, 상기 양자화 수단은 상기 양 피치 값들을 모두 양자화하는 것을 특징으로 하는 음성 코더.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 상기 프레임에서의 주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리시키기 위하여 각 프레임에 대해 적어도 하나의 보이싱 절단(cut-off) 주파수를 결정하며, 상기 진폭 결정 수단은, 상기 보이싱 수단 및 상기 피치 결정 수단에 의해 각각 결정되는 상기 보이싱 절단 주파수 및 상기 피치 값에 따라 각 프레임에 대해 스펙트랄 진폭들을 발생시키는 것을 특징으로 하는 음성 코더.
  15. 제 14 항에 있어서, 각 프레임에 대해 상기 보이싱 수단은,
    (i) 상기 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 각 주파수 대역에 대한 보이싱 수치를 유도하는 단계;
    (ii) 각 고조파 주파수 대역에 대한 상기 보이싱 수치와 임계 값을 비교하여 양 또는 음의 값인 비교 값을 발생시키는 단계;
    (iii) 상기 상응하는 고조파 주파수 대역이 시험 절단 주파수 이상에 존재할 경우, 상기 비교 값의 부호를 반전시키는 양만큼 각 비교 값을 바이어싱(biasing)하는 단계;
    (iv) 상기 바이어싱된 비교 값들을 상기 프레임의 다수의 고조파 주파수 대역들에 걸쳐 합산하는 단계;
    (v) 다수의 다른 시험 절단 주파수들에 대해 상기 (i) 내지 (iv) 단계들을 반복하는 단계; 및
    (vi) 상기 프레임에 대한 보이싱 절단 주파수로서 최대 합산을 제공하는 상기 시험 절단 주파수를 선택하는 단계를 수행하는 것을 특징으로 하는 음성 코더.
  16. 제 15 항에 있어서, 상기 보이싱 수단은, 상기 고조파 주파수 대역의 형상과 상기 대역에 대한 참고(reference) 형상을 상관시킴으로써 형성되는 것을 특징으로 하는 음성 코더.
  17. 제 16 항에 있어서, 상기 입력 음성 신호에 윈도우 함수를 부가하고, 상기 윈도우된 입력 음성 신호에서 상기 고조파 주파수 대역들을 포함하는 상기 주파수 스펙트럼을 유도하기 위한 수단을 포함하며, 상기 참고 형상은 상기 윈도우 함수에서 유도되는 것을 특징으로 하는 음성 코더.
  18. 제 14 항 내지 제 17 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 각 프레임의 전위 부분을 위한 제 1 상기 보이싱 절단 주파수, 및 각 프레임의 후위 부분을 위한 제 2 상기 보이싱 절단 주파수를 결정하는 것을 특징으로 하는 음성 코더.
  19. 제 1 항 내지 제 18 항 중 어느 한 항에 있어서, 상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 주파수들에 중심된(centered) 다른 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더.
  20. 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,
    디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
    샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
    각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
    각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
    각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
    각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
    상기 피치 결정 수단은, 상기 피치 값의 추정을 결정하기 위한 피치 추정 수단 및 상기 추정에서 피치 값을 유도하기 위한 피치 정제 수단을 포함하며, 상기 피치 정제 수단은, 상기 피치 추정 수단에 의해 결정된 상기 피치 값의 상기 추정에 대해 분포된 단편적인 값들을 포함하는 한 세트의 후보 피치 값들을 정의하고, 상기 프레임의 주파수 스펙트럼의 피크들을 식별하고, 상기 각 후보 피치 값에 대해, 상기 프레임의 주파수 스펙트럼의 다른 고조파 주파수들(kωo, 상기에서 ωo= 2π/P 이고 P는 상기 추가의 후보 피치 값이고 k 는 정수임)에서의 진폭들과 상기 피크들을 상관시키고, 그리고 상기 프레임에 대한 피치의 값으로 최대 상관 관계를 제공하는 상기 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더.
  21. 제 20 항에 있어서, 상기 피치 추정 수단은, 주파수 영역 기술(주파수 영역 분해)을 사용하여 샘플들을 분해하기 위한 제1 추정 수단, 시간 영역 기술(시간 영역 분해)를 사용하여 샘플들을 분해하기 위한 제 2 추정 수단, 및 상기 시간 및 주파수 영역 분해의 결과에서 상기 피치 값의 상기 추정을 유도하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
  22. 제 20 항 또는 제 21 항에 있어서, 상기 피치 정제 수단은, 상기 피크들의 진폭들과, 상기 피크들이 식별되는 주파수 스펙트럼의 지수적으로 손상되는 엔벨롭(envelope)의 고조파 주파수들(kωo)에서의 진폭들을 상관시키는 것을 특징으로 하는 음성 코더.
  23. 제 20 항 내지 제 22 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리하기 위해 각 프레임에 대해 적어도 하나의 보이싱 절단 주파수를 결정하며, 상기 진폭 결정 수단은, 상기 보이싱 수단 및 상기 피치 결정 수단에 의해 각각 결정된 상기 보이싱 절단 주파수 및 상기 피치 값에 따라 스펙트랄 진폭들을 발생시키는 것을 특징으로 하는 음성 코더.
  24. 제 23 항에 있어서, 각 프레임에 대해 상기 보이싱 수단은,
    (i) 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 각 주파수 대역에 대한 보이싱 수치를 유도하는 단계;
    (ii) 각 고조파 주파수 대역에 대한 상기 보이싱 수치와 임계 값을 비교하여 양 또는 음의 값인 비교 값을 발생시키는 단계;
    (iii) 상기 상응하는 고조파 주파수 대역이 시험 절단 주파수 이상에 존재할 경우, 상기 비교 값의 부호를 반전시키는 양만큼 각 비교 값을 바이어싱(biasing)하는 단계;
    (iv) 상기 바이어싱된 비교 값들을 상기 프레임의 다수의 고조파 주파수 대역들에 걸쳐 합산하는 단계;
    (v) 다수의 다른 시험 절단 주파수들에 대해 상기 (i) 내지 (iv) 단계들을 반복하는 단계; 및
    (vi) 상기 프레임에 대한 보이싱 절단 주파수로서 최대 합산을 제공하는 상기 시험 절단 주파수를 선택하는 단계를 수행하는 것을 특징으로 하는 음성 코더.
  25. 제 24 항에 있어서, 상기 보이싱 수단은, 상기 고조파 주파수 대역의 형상과 상기 대역에 대한 참고(reference) 형상을 상관시킴으로써 형성되는 것을 특징으로 하는 음성 코더.
  26. 제 25 항에 있어서, 상기 입력 음성 신호에 윈도우 함수를 부가하고, 상기 윈도우된 입력 음성 신호에서 상기 고조파 주파수 대역들을 포함하는 주파수 스펙트럼을 유도하기 위한 수단을 포함하며, 상기 참고 형상은 상기 윈도우 함수에서 유도되는 것을 특징으로 하는 음성 코더.
  27. 제 20 항 내지 제 26 항 중 어느 한 항에 있어서, 상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 피치 값에 고조파적으로 관련된 주파수들에 중심된(centered) 다른 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더.
  28. 제 20 항 내지 제 27 항 중 어느 한 항에 있어서, 상기 피치 결정 수단은, 각 프레임의 전위(leading) 부분에 대한 피치의 제 1 값 및 각 프레임의 후위(trailing) 부분에 대한 피치의 제 2 값을 결정하며, 상기 양자화 수단은 상기 양 피치 값들을 모두 양자화하는 것을 특징으로 하는 음성 코더.
  29. 제 23 항 내지 제 26 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 각 프레임의 전위 부분을 위한 제 1 상기 보이싱 절단 주파수, 및 각 프레임의 후위 부분을 위한 제 2 상기 보이싱 절단 주파수를 발생하는 것을 특징으로 하는 음성 코더.
  30. 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,
    디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
    샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
    각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
    주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리하되 개별적인 고조파 주파수 대역들의 상기 유성화/무성화 상태를 계산하지 않으면서, 보이싱 절단 주파수를 각 프레임에 대해 결정하기 위한 보이싱 수단;
    각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
    각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 계수들, 상기 피치 값, 상기 보이싱 절단 주파수, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는 것을 특징으로 하는 음성 코더.
  31. 제 30 항에 있어서, 각 프레임에 대해 상기 보이싱 수단은,
    (i) 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 각 주파수 대역에 대한 보이싱 수치를 유도하는 단계;
    (ii) 각 고조파 주파수 대역에 대한 상기 보이싱 수치와 임계 값을 비교하여 양 또는 음의 값인 비교 값을 발생시키는 단계;
    (iii) 상기 상응하는 고조파 주파수 대역이 시험 절단 주파수 이상에 존재할 경우, 상기 비교 값의 부호를 반전시키는 양만큼 각 비교 값을 바이어싱(biasing)하는 단계;
    (iv) 상기 바이어싱된 비교 값들을 상기 프레임의 다수의 고조파 주파수 대역들에 걸쳐 합산하는 단계;
    (v) 다수의 다른 시험 절단 주파수들에 대해 상기 (i) 내지 (iv) 단계들을 반복하는 단계; 및
    (vi) 상기 프레임에 대한 보이싱 절단 주파수로서 최대 합산을 제공하는 상기 시험 절단 주파수를 선택하는 단계를 수행하는 것을 특징으로 하는 음성 코더.
  32. 제 31 항에 있어서, 상기 보이싱 수단은, 상기 각 고조파 주파수 대역의 형상과 상기 대역에 대한 참고(reference) 형상을 상관시킴으로써 형성되는 것을 특징으로 하는 음성 코더.
  33. 제 32 항에 있어서, 상기 입력 음성 신호에 윈도우 함수를 부가하고, 상기 윈도우된 입력 음성 신호에서 상기 고조파 주파수 대역들을 포함하는 주파수 스펙트럼을 유도하기 위한 수단을 포함하며, 상기 참고 형상은 상기 윈도우 함수에서 유도되는 것을 특징으로 하는 음성 코더.
  34. 제 30 항 내지 제 33 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 각 프레임의 전위 부분에 대한 제 1 보이싱 절단 주파수, 및 각 프레임에 대한 후위 부분에 대한 제 2 보이싱 절단 주파수를 결정하며, 상기 양자화 수단은 상기 두 보이싱 절단 주파수의 값들을 양자화하는 것을 특징으로 하는 음성 코더.
  35. 제 15, 24 또는 31 항 중 어느 한 항에 있어서, 상기 임계 값은 상기 입력 음성 신호의 배경 성분의 레벨에 좌우되는 것을 특징으로 하는 음성 코더.
  36. 제 35 항에 있어서, 상기 보이싱 수단은, 배경 성분의 상기 레벨에 따라 상기 임계 값의 추정을 계산하고, 본 명세서에서 정의된 E-lf/E-hf, T2/T1, ZC, 또는 ER 중 1 이상의 값에 따라 상기 추정을 수정하고, 그리고 본 명세서에 정의된 PKY1, PKY2, CM, 및 E-OR 중 1 이상의 값에 따라 상기 추정을 더 수정하는 것을 특징으로 하는 음성 코더.
  37. 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,
    디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
    샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;
    각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
    각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
    각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
    각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
    상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 주파수들에 중심된 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 표준화된 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더.
  38. 제 37 항에 있어서, 각 프레임에 대한 상기 스펙트랄 진폭들은 상기 프레임에 대한 LPC 잉여(residual) 신호에서 유도되는 것을 특징으로 하는 음성 코더.
  39. 제 37 항에 있어서, 각 프레임에 대한 상기 스펙트랄 진폭들은 상기 프레임의 예상 계수들에서 유도된 LPC 주파수 스펙트럼을 참고하여 양자화되는 것을 특징으로 하는 음성 코더.
  40. 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,
    디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;
    각 프레임의 전위 부분과 후위 부분에 대한 선 스펙트랄 주파수(line spectral frequency; LSF) 계수들의 각 세트를 발생하기 위해 샘플들을 분해하기 위한 선행 예상 코딩 수단;
    각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;
    각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;
    각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및
    한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 LSF 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,
    상기 양자화 수단은,
    LSF'2 = αLSF'1 + (1-α)LSF'3 (상기에서 LSF'3 및 LSF'1 은 각각 현재 프레임 및 현재 프레임을 인접 선행하는 프레임의 상기 후위 부분의 양자화된 LSF 계수들의 세트들이고, α는 제 1 벡터 양자화 코드북의 벡터임) 라는 등식에 의해 현재 프레임의 상기 전위 부분에 대한 한 세트의 양자화된 LSF 계수들(LSF'2)을 정의하고,
    제 2 벡터 양자화 코드북의 각 LSF 양자화 벡터들 Q2, Q3 과 각 예상 값들 P2, P3 의 조합으로서, 상기 현재 프레임의 상기 전위 및 후위 부분들에 대한 상기 양자화된 LSF 계수들 LSF'2, LSF'3 의 상기 각 세트를 각각 정의하고(상기에서 P2= λQ1 이고 P3 = λQ2 임, λ는 상수이며, Q1 은 상기 인접 선행 프레임의 상기 후위 부분에 대한 상기 LSF 양자화 벡터임), 그리고
    상기 현재 프레임에 대해 상기 선형 예상 코딩 수단에 의해 발생된 상기 LSF 계수들(LSF2, LSF3)과 상기 상응하는 양자화된 LSF 계수들(LSF'2, LSF'3) 사이의 왜곡의 수치를 최소화하기 위하여 상기 제 1 및 제 2 벡터 양자화 코드북들에서 상기 벡터 Q3 및 상기 멕터 α를 각각 선택하는 것을 특징으로 하는 음성 코더.
  41. 제 40 항에 있어서, 상기 제 2 벡터 양자화 코드북은, 한 세트내의 LSF 계수들의 어떤 그룹들이 양자화되었는지에 따라 적어도 2 그룹의 상기 벡터들을 포함하는 것을 특징으로 하는 음성 코더.
  42. 제 40 항 또는 제 41 항에 있어서, 상기 왜곡의 수치는,
    ε= W1(LSF'3 - LSF3)2+ W2(LSF'2 - LSF2)2(상기에서 W1및 W2는 지각 가중치들임)로 주어지는 에러 함수 ε인 것을 특징으로 하는 음성 코더.
  43. 제 1 항 내지 제 42 항 중 어느 한 항에 있어서,
    상기 인코더에 의해 발생된 상기 양자화 색인들을 디코딩하기 위한 수단; 및 상기 입력 음성 신호를 나타내는 디지털 신호의 시퀀스를 발생시키기 위하여 상기 디코딩된 양자화 색인들을 처리하기 위한 수단을 포함하는 디코더를 더 포함하는 것을 특징으로 하는 음성 코더.
  44. 제 37 항 내지 39 항 중 어느 한 항에 있어서,
    상기 인코더에 의해 발생된 상기 양자화 색인들을 디코딩하기 위한 수단; 및 상기 입력 음성 신호를 나타내는 디지털 신호의 시퀀스를 발생시키기 위하여 상기 디코딩된 양자화 색인들을 처리하기 위한 처리 수단을 포함하는 디코더를 포함하는데, 상기 처리 수단은,
    상기 디코딩된 예상 계수들 및 상응하는 피크-보간된 LPC 주파수 스펙트럼에서 유도된 LPC 주파수 스펙트럼의 비율에서 유도된 가중 요소들에 의해, 상기 진폭 양자화 색인의 상기 제 1 부분에서 유도된 상기 디코딩된 스펙트랄 진폭들을 가중하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
  45. LSF 계수들, 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 한 세트의 양자화 색인들을 디코딩하기 위한 음성 코더에 있어서,
    상기 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 상기 색인들에서 여기 신호를 유도하기 위한 처리 수단;
    상기 LSF 계수들에 따라 상기 여기 신호를 필터링하기 위한 LPC 합성 필터;
    상기 LPC 합성 필터에서의 피치 사이클 에너지와 상기 여기 신호내의 상응하는 피치 사이클 에너지를 비교하기 위한 수단;
    상기 비교된 피치 사이클 에너지들 사이의 차이를 감소시키기 위하여 상기 여기 신호를 수정하기 위한 수단; 및
    상기 수정된 여기 신호를 필터링하기 위한 다른 LPC 합성 필터를 포함하는 것을 특징으로 하는 음성 코더.
KR1020007000661A 1998-05-21 1999-05-18 이격 대역 선형 예상 보코더 KR20010022092A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB9811019.0 1998-05-21
GBGB9811019.0A GB9811019D0 (en) 1998-05-21 1998-05-21 Speech coders
PCT/GB1999/001581 WO1999060561A2 (en) 1998-05-21 1999-05-18 Split band linear prediction vocoder

Publications (1)

Publication Number Publication Date
KR20010022092A true KR20010022092A (ko) 2001-03-15

Family

ID=10832524

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007000661A KR20010022092A (ko) 1998-05-21 1999-05-18 이격 대역 선형 예상 보코더

Country Status (11)

Country Link
US (1) US6526376B1 (ko)
EP (1) EP0996949A2 (ko)
JP (1) JP2002516420A (ko)
KR (1) KR20010022092A (ko)
CN (1) CN1274456A (ko)
AU (1) AU761131B2 (ko)
BR (1) BR9906454A (ko)
CA (1) CA2294308A1 (ko)
GB (1) GB9811019D0 (ko)
IL (1) IL134122A0 (ko)
WO (1) WO1999060561A2 (ko)

Families Citing this family (60)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
US7092881B1 (en) * 1999-07-26 2006-08-15 Lucent Technologies Inc. Parametric speech codec for representing synthetic speech in the presence of background noise
FR2804813B1 (fr) * 2000-02-03 2002-09-06 Cit Alcatel Procede de codage facilitant la restitution sonore des signaux de parole numerises transmis a un terminal d'abonne lors d'une communication telephonique par transmission de paquets et equipement mettant en oeuvre ce procede
JP3558031B2 (ja) * 2000-11-06 2004-08-25 日本電気株式会社 音声復号化装置
US7016833B2 (en) * 2000-11-21 2006-03-21 The Regents Of The University Of California Speaker verification system using acoustic data and non-acoustic data
WO2002054744A1 (en) * 2000-12-29 2002-07-11 Nokia Corporation Audio signal quality enhancement in a digital network
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
FI119955B (fi) * 2001-06-21 2009-05-15 Nokia Corp Menetelmä, kooderi ja laite puheenkoodaukseen synteesi-analyysi puhekoodereissa
KR100347188B1 (en) * 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US20030048129A1 (en) * 2001-09-07 2003-03-13 Arthur Sheiman Time varying filter with zero and/or pole migration
DE60307252T2 (de) * 2002-04-11 2007-07-19 Matsushita Electric Industrial Co., Ltd., Kadoma Einrichtungen, verfahren und programme zur kodierung und dekodierung
US6961696B2 (en) * 2003-02-07 2005-11-01 Motorola, Inc. Class quantization for distributed speech recognition
US6915256B2 (en) * 2003-02-07 2005-07-05 Motorola, Inc. Pitch quantization for distributed speech recognition
US7233894B2 (en) * 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
WO2004084182A1 (en) * 2003-03-15 2004-09-30 Mindspeed Technologies, Inc. Decomposition of voiced speech for celp speech coding
GB2400003B (en) * 2003-03-22 2005-03-09 Motorola Inc Pitch estimation within a speech signal
US6988064B2 (en) * 2003-03-31 2006-01-17 Motorola, Inc. System and method for combined frequency-domain and time-domain pitch extraction for speech signals
US7117147B2 (en) * 2004-07-28 2006-10-03 Motorola, Inc. Method and system for improving voice quality of a vocoder
CN1779779B (zh) * 2004-11-24 2010-05-26 摩托罗拉公司 提供语音语料库的方法及其相关设备
US20090319277A1 (en) * 2005-03-30 2009-12-24 Nokia Corporation Source Coding and/or Decoding
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
KR100900438B1 (ko) * 2006-04-25 2009-06-01 삼성전자주식회사 음성 패킷 복구 장치 및 방법
JP4946293B2 (ja) * 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
CN1971707B (zh) * 2006-12-13 2010-09-29 北京中星微电子有限公司 一种进行基音周期估计和清浊判决的方法及装置
US8036886B2 (en) 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
EP2945158B1 (en) * 2007-03-05 2019-12-25 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
WO2008126382A1 (ja) * 2007-03-30 2008-10-23 Panasonic Corporation 符号化装置および符号化方法
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
US8260220B2 (en) * 2009-09-28 2012-09-04 Broadcom Corporation Communication device with reduced noise speech coding
FR2961938B1 (fr) * 2010-06-25 2013-03-01 Inst Nat Rech Inf Automat Synthetiseur numerique audio ameliore
US8862465B2 (en) 2010-09-17 2014-10-14 Qualcomm Incorporated Determining pitch cycle energy and scaling an excitation signal
RU2596584C2 (ru) * 2010-10-25 2016-09-10 Войсэйдж Корпорейшн Кодирование обобщенных аудиосигналов на низких скоростях передачи битов и с низкой задержкой
US20140365212A1 (en) * 2010-11-20 2014-12-11 Alon Konchitsky Receiver Intelligibility Enhancement System
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
ES2535609T3 (es) 2011-02-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio con estimación de ruido de fondo durante fases activas
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
BR112013020324B8 (pt) 2011-02-14 2022-02-08 Fraunhofer Ges Forschung Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
EP4243017A3 (en) 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
AU2012217158B2 (en) 2011-02-14 2014-02-27 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Information signal representation using lapped transform
CN103493129B (zh) 2011-02-14 2016-08-10 弗劳恩霍夫应用研究促进协会 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法
PL2676268T3 (pl) * 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
US9142220B2 (en) 2011-03-25 2015-09-22 The Intellisis Corporation Systems and methods for reconstructing an audio signal from transformed audio information
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
JP6010539B2 (ja) * 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
US9947331B2 (en) * 2012-05-23 2018-04-17 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, encoder, decoder, program and recording medium
EP2951814B1 (en) 2013-01-29 2017-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-frequency emphasis for lpc-based coding in frequency domain
US9208775B2 (en) * 2013-02-21 2015-12-08 Qualcomm Incorporated Systems and methods for determining pitch pulse period signal boundaries
US9959886B2 (en) * 2013-12-06 2018-05-01 Malaspina Labs (Barbados), Inc. Spectral comb voice activity detection
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
JP6891736B2 (ja) * 2017-08-29 2021-06-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN108281150B (zh) * 2018-01-29 2020-11-17 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4731846A (en) * 1983-04-13 1988-03-15 Texas Instruments Incorporated Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
US5216747A (en) 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法

Also Published As

Publication number Publication date
GB9811019D0 (en) 1998-07-22
CA2294308A1 (en) 1999-11-25
WO1999060561A2 (en) 1999-11-25
JP2002516420A (ja) 2002-06-04
AU761131B2 (en) 2003-05-29
US6526376B1 (en) 2003-02-25
WO1999060561A3 (en) 2000-03-09
AU3945499A (en) 1999-12-06
CN1274456A (zh) 2000-11-22
EP0996949A2 (en) 2000-05-03
BR9906454A (pt) 2000-09-19
IL134122A0 (en) 2001-04-30

Similar Documents

Publication Publication Date Title
KR20010022092A (ko) 이격 대역 선형 예상 보코더
US6377916B1 (en) Multiband harmonic transform coder
KR100388387B1 (ko) 여기파라미터의결정을위한디지탈화된음성신호의분석방법및시스템
US5890108A (en) Low bit-rate speech coding system and method using voicing probability determination
EP1914728B1 (en) Method and apparatus for decoding a signal using spectral band replication and interpolation of scale factors
JP3241959B2 (ja) 音声信号の符号化方法
KR100388388B1 (ko) 재생위상정보를사용하는음성합성방법및장치
US6453287B1 (en) Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
EP1313091B1 (en) Methods and computer system for analysis, synthesis and quantization of speech
WO1996002050A1 (en) Harmonic adaptive speech coding method and system
JPH08328591A (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
US5884251A (en) Voice coding and decoding method and device therefor
Cho et al. A spectrally mixed excitation (SMX) vocoder with robust parameter determination
Etemoglu et al. Matching pursuits sinusoidal speech coding
US6438517B1 (en) Multi-stage pitch and mixed voicing estimation for harmonic speech coders
EP0713208B1 (en) Pitch lag estimation system
KR100557113B1 (ko) 다수의 대역들을 이용한 대역별 음성신호 판정장치 및 방법
JPH05281995A (ja) 音声符号化方法
Farsi Advanced Pre-and-post processing techniques for speech coding
Choi Pitch Synchronous Waveform Interpolation for Very Low Bit Rate Speech Coding
MXPA00000703A (en) Split band linear prediction vocodor
Cheetham Mathematical techniques for low bit-rate speech coding
Stegmann et al. CELP coding based on signal classification using the dyadic wavelet transform

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid