KR20010022092A

KR20010022092A - 이격 대역 선형 예상 보코더

Info

Publication number: KR20010022092A
Application number: KR1020007000661A
Authority: KR
Inventors: 스테빤 삐에르 빌렛떼; 아멧 메멧 콘도즈
Original assignee: 제임스 빅터 리드; 유니버시티 오브 서레이
Priority date: 1998-05-21
Filing date: 1999-05-18
Publication date: 2001-03-15
Also published as: CA2294308A1; AU761131B2; CN1274456A; WO1999060561A3; GB9811019D0; WO1999060561A2; US6526376B1; BR9906454A; JP2002516420A; EP0996949A2; AU3945499A; IL134122A0

Abstract

분해 및 합성 접근법을 사용하는 인코더(도 2 내지 6)를 사용하는 인코더를 포함하는 음성 코더에 관한 것이다. 상기 인코더는, 주파수 영역 및 시간 영역 모두의 분해를 필요로 하는 피치 결정 알고리즘, 보이싱 결정 알고리즘 및 스펙트랄 진폭들을 결정하기 위한 알고리즘, 그리고 결정된 값들을 양자화하기 위한 수단을 사용한다. 디코더 또한 기술된다.

Description

이격 대역 선형 예상 보코더{SPLIT BAND LINEAR PREDICTION VOCODOR}

본 발명은 원격 통신 시스템에서의 특정한 적용예에 관련된 것이다.

도 1 은 음성 코더의 계략도이다.

도 2 는 본 발명에 따른 음성 코더의 인코더를 도시한 블록 다이어그램이다.

도 3 은 아날로그 입력 음성 신호의 파형을 도시한 것이다.

도 4 는 도 2 의 인코더에 사용된 피치 탐지(detection) 알고리즘을 도시한 블록 다이어그램이다.

도 5 는 보이싱 절단 주파수의 결정을 도시한 것이다.

도 6a 는 한 프레임에 대한 LPC 스펙트럼을 도시한 것이다.

도 6b 는 도 6a 의 LPC 스펙트럼에서 유도된 스펙트랄 진폭들을 도시한 것이다.

도 6c 는 도 6b 의 스펙트랄 진폭들에서 유도된 양자화 벡터를 도시한 것이다.

도 7 은 음성 코더의 디코더를 도시한 것이다.

도 8 은 상기 LSF 계수들에 대한 에너지-종속 보간(interpolation) 요소를 도시한 것이다.

도 9 는 상기 비양자화된 스펙트랄 진폭들을 검토하기 위해 사용된 지각적-강화(perceptually-enhanced) LPC 스펙트럼을 도시한 것이다.

도면을 참고로 하여 여기에 기술된 인코더 및 디코더는, 적합한 지정 신호 처리기내에 수행된 소프트웨어 명령들로서 알고리즘적으로 구현되는 것은 명백한 사실이다. 도면에 도시된 블록들은, 음성 코더내의 구별된 하드웨어 구성요소들을 나타내기 보다는 상기 처리기에 의해 수행된 각 처리 단계의 기능의 설명을 용이하게 하기 위한 것들이다. 별법으로, 물론 상기 인코더 및 디코더들은 하드웨어 구성요소들을 사용하여 구현될 수 있다.

본 발명에 따라, 사전 지정된 갯수의 디지털 샘플들로 각각 구성된 프레임들로 분할되는 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더가 제공되는데, 상기 인코더는,

샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단으로서, 주파수 영역 기술(주파수 영역 분해)을 사용하여 샘플들을 분해하기 위한 제 1 추정 수단, 시간 영역 기술(시간 영역 분해)를 사용하여 샘플들을 분해하기 위한 제 2 추정 수단, 및 상기 피치 값을 유도하기 위해 상기 주파수 영역 및 시간 영역 분해의 결과를 사용하기 위한 피치 계산 수단을 포함하는 피치 결정 수단;

각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;

각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 제 1 계산 수단은 다수의 후보 피치 값들 각각에 대한 피치의 제 1 수치를 발생시키며, 상기 제 2 계산 수단은 상기 후보 피치 값들 각각에 대한 제 2 수치를 발생시키며, 그리고, 상기 계산 수단은 상기 제 1 수치들중 적어도 일부의 각각과 상응하는 상기 제 2 수치를 조합하고, 상기 조합 결과에 따라 상기 후보 피치 값들에서 하나를 선택하는 것을 특징으로 하는 음성 코더가 제공된다.

본 발명의 다른 면에 따라, 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더가 제공되는데 상기 인코더는,

디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;

상기 피치 결정 수단은, 상기 피치 값의 추정을 결정하기 위한 피치 추정 수단 및 상기 추정에서 피치 값을 유도하기 위한 피치 정제 수단을 포함하며, 상기 피치 정제 수단은, 상기 피치 추정 수단에 의해 결정된 상기 피치 값의 상기 추정에 대해 분포된 단편적인 값들을 포함하는 한 세트의 후보 피치 값들을 정의하고, 상기 프레임의 주파수 스펙트럼의 피크들을 식별하고, 상기 각 후보 피치 값에 대해, 상기 프레임의 주파수 스펙트럼의 다른 고조파 주파수들(kω_o, 상기에서 ω_o= 2π/P 이고 P는 상기 추가의 후보 피치 값이고 k 는 정수임)에서의 진폭들과 상기 피크들을 상관시키고, 그리고 상기 프레임에 대한 피치의 값으로 최대 상관 관계를 제공하는 상기 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더가 제공된다.

주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리하되 개별적인 고조파 주파수 대역들의 상기 유성화/무성화 상태를 계산하지 않으면서, 보이싱 절단 주파수를 각 프레임에 대해 결정하기 위한 보이싱 수단;

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 계수들, 상기 피치 값, 상기 보이싱 절단 주파수, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는 것을 특징으로 하는 음성 코더가 제공된다.

본 발명의 다른 면에 따라, 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 주파수들에 중심된 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 표준화된 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더가 제공된다.

각 프레임의 전위 부분과 후위 부분에 대한 선 스펙트랄 주파수(line spectral frequency; LSF) 계수들의 각 세트를 발생하기 위해 샘플들을 분해하기 위한 선행 예상 코딩 수단;

한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 LSF 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 양자화 수단은,

LSF'2 = αLSF'1 + (1-α)LSF'3 (상기에서 LSF'3 및 LSF'1 은 각각 현재 프레임 및 현재 프레임을 인접 선행하는 프레임의 상기 후위 부분의 양자화된 LSF 계수들의 세트들이고, α는 제 1 벡터 양자화 코드북의 벡터임) 라는 등식에 의해 현재 프레임의 상기 전위 부분에 대한 한 세트의 양자화된 LSF 계수들(LSF'2)을 정의하고,

제 2 벡터 양자화 코드북의 각 LSF 양자화 벡터들 Q2, Q3 과 각 예상 값들 P2, P3 의 조합으로서, 상기 현재 프레임의 상기 전위 및 후위 부분들에 대한 상기 양자화된 LSF 계수들 LSF'2, LSF'3 의 상기 각 세트를 각각 정의하고(상기에서 P2= λQ1 이고 P3 = λQ2 임, λ는 상수이며, Q1 은 상기 인접 선행 프레임의 상기 후위 부분에 대한 상기 LSF 양자화 벡터임), 그리고

상기 현재 프레임에 대해 상기 선형 예상 코딩 수단에 의해 발생된 상기 LSF 계수들(LSF2, LSF3)과 상기 상응하는 양자화된 LSF 계수들(LSF'2, LSF'3) 사이의 왜곡의 수치를 최소화하기 위하여 상기 제 1 및 제 2 벡터 양자화 코드북들에서 상기 벡터 Q3 및 상기 멕터 α를 각각 선택하는 것을 특징으로 하는 음성 코더가 제공된다.

본 발명의 다른 면에 따라, LSF 계수들, 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 한 세트의 양자화 색인들을 디코딩하기 위한 음성 코더에 있어서,

상기 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 상기 색인들에서 여기 신호를 유도하기 위한 처리 수단;

상기 LSF 계수들에 따라 상기 여기 신호를 필터링하기 위한 LPC 합성 필터;

상기 LPC 합성 필터에서의 피치 사이클 에너지와 상기 여기 신호내의 상응하는 피치 사이클 에너지를 비교하기 위한 수단;

상기 비교된 피치 사이클 에너지들 사이의 차이를 감소시키기 위하여 상기 여기 신호를 수정하기 위한 수단; 및

상기 수정된 여기 신호를 필터링하기 위한 다른 LPC 합성 필터를 포함하는 것을 특징으로 하는 음성 코더가 제공된다.

본 발명의 실시예는 예시적인 목적으로 사용된 도면을 참조하여 하기에서 기술될 것이다.

도 1 은 인코더[1] 및 디코더[2]를 포함하는 음성 코더의 개략도이다. 아날로그 입력 음성 신호 S_i(t)는 인코더[1]에 수신되어 일반적으로 샘플링 주파수 8 kHz 로 샘플링된다. 상기 샘플링된 음성 신호는 그후 프레임들로 분할되고 각 프레임은 인코딩되어 입력 신호의 파형을 나타내는 한 세트의 양자화 색인들(비교적 소수의 비트들을 포함)를 생성한다. 연속적인 프레임들에 대한 상기 양자화 색인들은 통신 채널[3]을 통해 디코더[2]로 전송되고, 상기 디코더[2]는 원래 입력 음성 신호에 상응하는 아날로그 출력 음성 신호 S_o(t)를 합성하기 위하여 수신된 양자화 색인들을 처리한다. 음성 코더를 사용하는 원격통신 링크의 경우, 음성 채널은 음성 신호 입력단에서 인코더, 접수단에서 디코더를 필요로 한다. 그러므로, 원격통신 링크의 한 단부와 관련된 음성 코더는, 이중(duplex) 링크의 경우 분리된 채널들, 단일 링크의 경우 동일한 채널에 연결된 인코더 및 디코더 모두를 필요로 한다.

도 2 는 이격-대역(Split-Band) LPC(SB-LPC)로 여기에서 통칭되는 본 발명에 따른 음성 코더의 한 실시예에서의 인코더를 도시한다. 상기 음성 코더는 분해(analysis) 및 합성(synthesis) 기술을 사용한다.

전술한 음성 코더는 2.4 kb/s 의 비트 속도로 동작하도록 설계된다. 그러나, 앙자화 색인들이 갱신되는 속도 및 사용되는 양자화 수준에 따라 더 낮거나 더 높은 비트 속도들(예를 들면, 1.2 kb/s 내지 6.8 kb/s 범위내의 비트 속도들)도 가능하다.

먼저, 아날로그 입력 음성 신호가 저역 통과 필터링되어 가청 범위 밖의 주파수들은 제거된다. 상기 저역 통과 필터링된 신호는 그후 8 kHz 의 샘플링 주파수로 샘플링된다. 상기에 따른 디지털 신호 d_i(t)는 그후, 특정한 구현예에서,

의 형태의 전달 함수 H(z)를 가지는 고역 통과 필터[10]에 신호를 통과시킴으로써 사전 조절된다.

상기 고역 통과 필터[10]의 효과로, 존재할 수 있는 모든 DC 레벨을 제거된다.

상기 사전 조절된 디지털 신호는 그후, 신호를 프레임들로 분할하는데 효과적인 해밍 윈도우(hamming window)[11]를 통과한다. 상기 예에서, 각 프레임은 160 샘플들의 길이이고, 이것은 20 ms 의 프레임 갱신 시간 간격에 해당한다. 상기 해밍 윈도우[11]의 계수 W_Hamm(i)는

로 정의된다.

각 프레임의 주파수 스펙트럼은 그후 선형 시변(time-varying) 필터, 특히 공지된 Levinson-Durbin 알고리즘을 사용하여 얻어진 LPC 계수들의 프리셋(preset) 번호 L 을 가지는 올-폴(all-pole) 선형 예상 LPC 필터[12]의 출력에 따라 모델링된다. 상기 LPC 필터[12]는 현재 프레임내의 각 입력 샘플과 L 선행 샘플들 사이에 선형 관계가 만들어지도록 한다. 그러므로 i 번째 입력 샘플은 a_i로 표현되고 LPC 계수들은 LPC(j)로 표현되고, LPC(j)의 값들은 상기 식을 최소화하도록 선택된다.

상기에서 예를 들면 N =160 이고 L = 10 이다.

LPC 계수들 LPC(0), LPC(1)... LPC(9)은 그후 상기 프레임들에 대한 상응하는 선 스펙트랄 주파수(line spectral frequency;LSF) 계수들 LSF(0), LSF(1)... LSF(9)을 발생시키기 위하여 변형된다. 이것은 공지된 근 탐색 방법(root search method)을 사용하여 LPC-LSF 변환기[13]에 의해 수행된다.

상기 LSF 계수들은 그후 벡터 양자화부(quantizer)[14]로 통과되어 벡터 양자화 과정을 겪은 뒤 인코더의 제 1 출력 O_i로 라우팅(routing)되는 프레임에 대한 LSF 양자화 색인을 발생시킨다. 별법으로, 상기 LSF 계수들은 스칼라 양자화부를 사용하여 양자화될 수도 있다.

공지된 바와 같이, LSF 계수들은 항상 단조(monotonic)이므로, 이것은 LPC 계수들을 사용하는 경우보다 상기 양자화 과정을 더욱 단순하게 만든다. 더우기, 상기 LSF 계수들은 디코더에서 필요한 과정인 프레임-대-프레임 보간(interpolation)을 더욱 용이하게 만든다.

벡터 양자화 과정은, 주파수에 비교적 가까워 입력 음성 신호의 주파수 스펙트럼내의 현저한 피크를 나타내는 계수들에 더욱 큰 가중치를 주는 방식으로 상기 LSF 계수들의 상대 주파수들을 고려한다.

본 발명의 특정한 구현예에서, 상기 LSF 계수들은 총 24 비트를 사용하여 양자화된다. 상기 계수들 LSF(0), LSF(1), LSF(2)은 8 비트를 사용하여 양자화되는 제 1 그룹 G₁을 형성하고, 계수들 LSF(3), LSF(4), LSF(5)은 8 비트를 사용하여 양자화되는 제 2 그룹 G₂을 형성하고, 계수들 LSF(6), LSF(7), LSF(8) 또한 8 비트를 사용하여 양자화되는 제 3 그룹 G₃을 형성한다.

LSF 계수들의 각 그룹은 별도로 양자화된다. 설명의 목적으로, 상기 양자화 과정은 그룹 G₁을 참고로 하여 자세히 기술될 것이다. 그러나, 그룹 G₂및 G₃에 대해서도 동일한 과정이 사용된다.

벡터 양자화 과정은 1 에서 256 으로 번호가 매겨진 2⁸엔트리들을 포함하는 코드북을 사용하여 수행된다. 상기 코드북에서 r 번째 엔트리(entry)는, 계수들 LSF(0), LSF(1), LSF(2)에 각각 상응하는 V_r(0), V_r(1), V_r(2) 3 개의 엘리먼트의로 구성된다. 상기 양자화 과정의 목표는 실제 LSF 계수들을 가장 잘 매칭시키는 벡터를 선택하는 것이다.

상기 코드북의 각 엔트리에 대해 벡터 양자화부[14]는 상기 합산을 형성한다.

상기에서, W(i)는 가중치(weighting) 요소이고, 최소 합산을 제공하는 엔트리는 그룹 G₁내의 LSF 계수들에 대한 8 비트 양자화 색인을 정의한다.

상기 가중치 요소의 효과는 LSF 계수들이 비교적 가까운 더욱 현저한 피크들의 상기 합산에 있어서 중요성을 강조하는 것이다.

현재 프레임 n 내의 160 샘플들의 RMS 에너지 E_o는 배경 신호 추정 블록(background signal estimation block)[15]에서 계산되고, 상기 값은 하기의 기준에 따라 배경 에너지 추정 E_BG ⁿ의 값을 갱신하는데 사용된다.

상기에서 E_BG ^n-1은 인접하여 선행하는 프레임 n-1에 대한 배경 에너지 추정이다. 만일 E_BG ⁿ이 1 미만이면, E_BG ⁿ는 1 로 셋팅된다.

E_BG ⁿ및 E_O의 값들은 그후, 하기의 기준에 따라 입력 신호의 배경 구성요소들 및 상기 음성의 RMS 에너지의 예상 값들을 나타내는 NRGS 및 NRGB 의 값들을 갱신하는데 사용된다.

NRGBⁿ< 0.05 일 경우 NRGBⁿ는 0.05 로 셋팅되고,

이며, NRGSⁿ<2.0 이면, NRGSⁿ는 2.0 으로 셋팅되고, NRGBⁿ> NRGSⁿ일 경우 NRGSⁿ는 NRGBⁿ로 셋팅된다.

설명을 위해, 도 3 은 현재 프레임 F_o의 간격(20 ms) 내에 포함된 아날로그 입력 음성 신호 S_i(t)의 파형을 도시한 것이다.

파형은 인간 음성의 중요한 특징인 비교적 큰 피치 펄스 P_u를 나타낸다. 상기 프레임의 피치 또는 피치 주기 P 는 프레임내의 연속적인 피치 펄스들 사이의 시간 간격으로서 정의되고, 이것은 상기 시간 간격내에 포함된 샘플들의 갯수의 항으로 표현될 수 있다. 상기 피치 주기 P 는 기본 피치 주파수 ω_o에 반비례한다. 상기에서 ω_o= 2/P 이다.

8 kHz 로 샘플링된 음성에 있어서, 약 50 Hz 에서 535 Hz 범위내의 기본 피치 주파수에 상응하는 15 에서 150 샘플들의 피치 주기를 고려하는 것이 합당하다. 기본 피치 주파수 ω_o는 물론 다수의 고조파 주파수들을 동반한다.

이미 설명된 바와 같이, 피치 주기 P 는 음성 신호의 중요 특징이고, 따라서 인코더의 제 2 출력 O₂로 라우팅되는 또다른 양자화 색인의 기초를 형성한다. 더우기, 피치 주기 P 는 인코더에 의해 생성된 다른 양자화 색인들의 결정에 매우 중요하다. 그러므로, 소망의 정확도 및 가능한 한 신뢰성 있는 방식으로 피치 주기 P 를 계산하는데 조심할 필요성이 있다. 이를 위해, 피치 탐지부[16]는 각 프레임이, 도 4 를 참조하여 자세히 기술되는 피치 탐지 알고리즘을 사용하여 주파수 영역 및 시간 영역 모두에서 분해되도록 한다.

주파수 영역에서의 분해를 용이하게 하기 위하여, 이산 푸리에 변환이 512 지점 빠른 푸리에 변환(fast Fourier transform;FFT) 알고리즘을 사용하여 DFT 블록[17]에서 수행된다. 샘플들은 현재 프레임에 중심된(centred) 221 지점 카이저(Kaiser) 윈도우[18]를 통해 상기 DFT 블록[17]에 공급되고, 상기 샘플들은 0~512 의 번호들로 매겨진다.

도 4 를 보면, 결과적인 주파수 스펙트럼의 크기들 M(i)은 상기 변환의 실수 및 허수 성분들 SWR(i) 및 SWI(i)을 사용하여 블록[401]에서 계산되고, 복잡성을 감소시키기 위하여 이것은 사전 지정된 절단 주파수(Cut)까지의 각 주파수 i 에서 행해진다. 상기에서 i 는 0 에서 255 사이의 상기 FFT의 출력 샘플들에 대해 표현된다. 상기 실시예에서, 상기 절단 주파수는 최고 예상된 기본 피치 주파수를 훨신 초과하는 1.5 kHz 에 상응하는 i=90 에 존재한다.

크기 M(i)는

로 계산된다.

M(i)의 RMS 값, M_max는 블록[402]에서,

로 계산된다.

피치 추정 알고리즘의 성능을 개선하기 위하여, 크기 M(i)는 블록[404]~[407]에서 사전 처리된다.

블록[404]에서, 주파수 스펙트럼내의 주 피크들을 비-강조하기 위하여 바이어스(bias)가 인가된다. 어떠한 M(i)라도 M_max를 초과하면, (M(i)M_max)^1/2로 주어진 새로운 크기로 대체된다. 음성 내용에 대해 더 중요한 저 주파수들을 강조하기 위해 추가의 바이어스가 부가되고, 상기 목적을 위해, 각 크기는 팩터에 의해 가중된다.

배경 노이즈에 대한 성능을 개선하기 위하여, 블록[405]에서 노이즈 제거 알고리즘이 가중된 크기들에 적용된다. 상기 목적을 위해, 각 크기 M(i)는 배경 노이즈의 추정 M_mem(i)을 얻기위해 비-음성 프레임들 동안 추적(track)된다. E_O< 1.5 E_BG ⁿ일 경우, M_mem(i)의 값은

M'_mem(i) = 0.9 M_mem(i) + 0.1 M(i)

로 주어진 새로운 값 M'_mem(i)을 생성하기 위해 갱신된다.

비율 NRGSⁿ/NRGBⁿ이 임계값(일반적으로 5 에서 20) 미만이고, 음성에 추가로 현저한 배경 노이즈를 포함한다는 것을 지시하는, 현재 프레임에 대한 M_mem의 갱신의 미발생의 경우에는, 배경 노이즈의 영향을 감소시키기 위하여 값 kM'_mem(i)(k는 상수, 일반적으로 0.9)이 주파수 스펙트럼내의 각 주파수 i 에 대해 M(i)에서 감산된다. 상기 차이가 음이거나 0 에 가까운 임계값 0.0001 미만일 경우, M(i)는 상기 임계값으로 셋팅된다.

결과적인 크기들 M'(i)는 피크들을 탐지하기 위하여 그후 블록[406]에서 분해된다. 이것은 각 크기 M'(i)를 인접 크기들 M'(i-1) 및 M'(i+1)와 비교함으로서 행해지고, 상기 두개보다 클 경우 피크로 선포된다. 탐지된 각 피크에 대해, 크기는 amp_pk(l)로 저장되고, 주파수 freq_pk(l)로 저장된다. 상기에서 l 은 피크의 번호이다.

평탄화(smoothing) 알고리즘은 블록[407]에서 크기들 M'(i)에 적용되어 주파수 스펙트럼에 대해 비교적 평탄화된 엔벨롭(envelope)을 발생시킨다. 상기 평탄화 알고리즘은 2 단계로 수행된다. 제 1 단계에서, 변수 x 는 0 으로 초기화되고, 0 에서 시작해 Cut-1 로 끝나는 i 의 각 값에서 상기 크기 M'(i)와 비교된다. x 가 M'(i) 미만일 경우, x 는 상기 값으로 셋팅된다. 다른 경우에 있어서, M'(i)의 값은 x 로 셋팅되고, x 는 엔벨롭 손상(decay) 요소, 예를 들면 0.85 로 곱해진다. 동일한 과정이 반대 방향에서, 즉 Cut-1 에서 시작하여 0 에서 끝나는 i 의 값에 대해 다시 수행된다.

상기 과정의 효과는 주파수 스펙트럼의 평탄화된 지수적으로 손상시키는 엔벨롭을 나타내는 0 ≤i ≤Cut-1 에 대한 크기 a(i) 의 세트를 발생시키는 것이다. 특히, 상기 과정은 더욱 큰 피크들 다음에 존재하는 비교적 작은 피크들을 제거하는데 효과적이다.

블록[406]에서 수행되는 피크-탐지 과정이 모든 피크들 심지어 작은 피크라도 식별하는 것은 명백하다. 상기 알고리즘의 후속 단계에서의 처리의 양을 감소시키기 위하여, 크기 amp_pk가 동일한 주파수에서의 크기의 c 요소 배 미만일 경우 블록[408]에 의해 버려진다. 예를 들어 c 는 0.5 로 셋팅된다.

블록[407]에서 발생된 크기 값들 a(i), 및 블록 [406] 및 [408]에서 발생된 잔류 진폭 및 주파수 값들 amp_pk및 freq_pk는 피치 주기의 제 1 추정을 계산하기 위하여 블록[409]에서 사용된다.

상기를 위해, 함수 Met1 이 15 내지 150 범위의 각 후보 피치 주기 P 에 대해 계산된다. 복잡성을 감소시키기 위하여, 이것은 0.5 에서 75 값까지의 단계 및 통합된 단계들을 사용하여 행해질 수도 있다. Met1은 하기의 식을 사용하여 계산된다.

상기에서 e(k, _o) = Max₁(amp_pk(1)D(freq_pk(1)-k _o)), 이고, _o=2/P 이고, K( _o)는 절단 주파수 이하의 고조파들의 갯수이고, 그리고 D(freq_pk(1)-k _o)=sinc(freq_pk(1)-k _o)이다.

요컨대, 상기 표현은 피치 후보 P 의 고조파 진폭들 a(k _o) 및 최적 피크 진폭들 e(k _o)에 의해 정의된 콤(comb) 필터의 주파수 응답 사이의 상호-상관(cross-correlation) 함수로 생각될 수도 있다. 함수 D(freq_pk(1)-k _o)는 특정한 검색 거리내의 주파수 스펙트럼내의 첫번째 피크와 피치 후보 P 의 k 번째 고조파 주파수 사이의 주파수 이격과 관련된 거리 수치이다. e(k _o)가 거리 수치 및 피크 진폭 모두에 좌우되므로, 최적 값 e(k _o)는 고조파 주파수 k _o와 상기 피크들의 주파수들 사이의 최소 이격에 상응하지 않을 수도 있다.

각 피치 후보 P 에 대해 Met1( _o)를 계산한 후, 구한 값들은, 더욱 작은 후보들을 위해 상기 값들을 바이어싱하기 위해 가중 요소 b1-(1-0.1P/150)에 의해 곱해진다.

Met1( _o)의 값이 높을수록, 상응하는 피치 후보가 실제 피치 값일 개연성이 커진다. 더우기, 상기 피치 후보가 실제 피치 값의 두배라면(즉, 피칭 더블링(doubling)), Met1( _o)의 값은 작을 것이다. 전술한 바와 같이, 이것은 상기 과정의 뒷 단계들에서 원치않는 피치 후보들을 제거시킨다.

가장 유력한 피치 후보를 식별하기 위하여, Met1( _o)의 피크 값들은 블록[410]에서 탐지된다. 이것은, 5 개의 연속적인 피치 범위들, 즉 15~27.5, 28~49.5, 50~94.5, 95~124.5, 125~150 의 피치 범위에서의 최대치 및 추적된 피치 trP(후술될 것임)의 ±5 범위내에서의 최대값에 대해 탐지하기 위하여 블록[409]에서 발생된 Met1( _o)의 값들을 처리함으로써 수행된다. 상기 5 개의 연속적인 피치 범위들은 각 범위내에서의 피치 더블링(doubling) 및 피치 반분(halving)의 가능성을 제거하도록 선택된다. 이것은 한 범위에서 탐지된 피크는 동일한 범위내의 다른 모든 피크들 피치의 2 배 또는 1/2 배를 가질 수 없음을 나타낸다. 상기 방법으로, 6 개의 피크 값들 Met1(1), Met1(2), Met1(3), Met1(4), Met1(5), Met1(6)이 각각의 피치 값들 P₁, P₂, P₃, P₄, P₅, P₆과 함께 후속의 처리를 위해 보존된다. Met1( _o)를 최대화하는 _o의 값은 피치 값의 합당한 추정을 제공한다. 이것은 때때로 에러에 민감하다. 때때로 실제 피치 값의 반(즉, 피치 반분)인 피치 값으로 식별할 수도 있다.

상기 문제를 해결하기 위하여, 제 1 추정에서 유도된 6 개의 후보 피치 값들 P₁, P₂, P₃, P₄, P₅, P₆의 각각에 대해 블록[411]에서 피치의 제 2 추정이 계산된다.

단일 피치 주기 P 에 걸쳐 입력 샘플들의 절대값의 다른 합산들을 형성함으로써 시간-영역 분해 기술을 사용하여 상기 제 2 추정이 계산될 수 있다. 상기를 위해, 합산

이 N-80 와 N+79 사이의 k 의 각 값에 대해 형성된다. 상기 에서 N 은 현재 프레임의 중심에서의 샘플 번호이다. 따라서 각 후보 피치 값 P₁, P₂, P₃, P₄, P₅, P₆에 대해, 160 합산들의 각 세트가 발생되고, 상기 세트내의 각 합산은 상기 프레임내의 다른 위치에서 시작한다.

피치 후보가 실제 피치 값에 근접할 경우, 상응하는 세트의 합산들 사이에는 편차(variation)가 없거나 거의 없어야 한다. 그러나, 상기 후보 및 실제 피치 값들이 매우 다르다면(예를 들면, 후보 피치 값이 실제 피치 값의 절반일 경우), 상기 세트의 합산 사이에는 현저한 편차가 존재할 것이다. 상기와 같은 편차를 탐지하기 위하여, 각 세트의 합산들은 고역 통과 필터링되고, 상기 고역 통과 필터링된 값들의 제곱의 합은 제 2 추정 Met2 를 계산하는데 사용된다. 음성이 매우 주기적일 때 피치 다중 에러들을 감소시키기 위해 작은 오프셋 값이 가산된다. 각 제 2 추정 Met2(1), Met2(2), Met2(3), Met2(4), Met2(5), Met2(6)이, 제 1 추정을 사용하여 선택된 후보 피치 값들 P₁, P₂, P₃, P₄, P₅, P₆각각에 대해 계산된다. Met2 의 값이 작을수록, 상응하는 피치 후보가 실제 피치 값일 개연성은 더욱 커진다. 피치 반분의 경우, Met2 의 값은 커질 것이고, 이것은 상기 원치않는 피치 후보의 제거를 용이하게 한다.

선택적으로, 제 1 및 제 2 추정 Met1 및 Met2 의 신뢰성을 더 개선하기 위해, 현재 프레임에 대한 입력 샘플들이 블록[412]에서 자기-상관(auto-correlate)될 수도 있다. 상기 표준화된 자기-상관은 2 개의 가장 큰 값들(V₁,V₂)을 발견하기 위해 조사되고, 상기 값들의 연속적인 발생 사이의 상응하는 래그(lag) L₁,L₂(샘플들의 번호로 표시됨) 또한 결정된다. V₁과 V₂사이의 비율이 사전 셋팅된 임계값(일반적으로 약 1.1)을 초과하면, 상기 값들 L₁,L₂이 정확한 피치 값에 근접한 값이라는 가능성이 높아진다. 그럴 경우, L₁또는 L₂에 근접하는 후보 피치 값들에 대한 Met1 및 Met2 의 값들이, 피치 값의 최종 추정에서 선택의 기회를 개선하기 위해 각 가중 요소들 b₂및 b₃에 의해 곱셈된다.

Met1 및 Met2의 값들은 추적된 피치 값 trP 에 따라 블록[413]에서 더욱 가중된다. 현재 프레임이 음성을 포함한다면, 즉 E_O> 1.5 E_BG ⁿ일 경우, trP 의 값은 바로 이전의 프레임에 대해 추정된 피치 값을 사용하여 갱신되고, 상기 갱신의 범위는 음성 에너지의 더 높은 값들보다 더 크다. 그 비율,

은 각 후보 피치 값 P₁, P₂, P₃, P₄, P₅, P₆에 대해 계산된다.

상기 예에서,가 0.5 미만일 경우, 후보 피치 값은 이전 프레임들의 피치 값들에서 계산된 추적된 피치 값에 가까울 경우, Met1 및 Met2 의 각 값들은 가중 요소들 b₄및 b₅에 의해 곱해진다. b₄및 b₅의 값들은 프레임내의 배경 노이즈의 레벨에 좌우된다. 상기가 비교적 높게 결정되면, 즉 NRGS/NRGB < 10 일 경우, b₄는 1.25 에 셋팅되고 b₅는 0.85 에 셋팅된다. 그러나,<0.3(즉, 후보 피치 값이 추적된 값에 더욱 가깝다면) b₄는 1.56 에 셋팅되고 b₅는 0.72 에 셋팅된다. 현저한 배경 노이즈가 존재하지 않는다는 것이 결정된다면, 예를 들면, NRGS/NRGB > 10 일 경우, 바이어스의 범위는 감소된다.<0.5 일 경우, b₄는 1.1 로 셋팅되고 b₅는 0.9 로 셋팅된다.<0.3 일 경우, b₄는 1.21 로 셋팅되고 b₅는 0.8 로 셋팅된다.

Met2 의 가중된 값들은 그후 명백하게 가망이 없는 모든 후보 피치 값을 버리는데 사용된다. 상기 목표를 위해, Met2 의 가중된 값들은 최소 값을 탐지하기 위해블록[414]에서 분해되고, 다른 값이 프리셋된 요소(예를 들면, 2.0) + 정수(예를 들면, 0.1) 이상 상기 최소값을 초과할 경우, Met1(ω_o) 및 P 의 상응하는 값들과 함께 버려진다.

전술한 바와 같이, 상기 피치 후보가 정확한 값에 근접한다면, Met1 은 매우 커질 것이고, Met2 는 매우 작아질 것이다. 그러므로, Met1 및 Met2 에서 유도된 비율은 상기 피치 후보의 정확성 또는 다른 것들에 대한 매우 민감한 측도를 제공한다.

따라서, 블록[415]에서, 비율(상기에서 Met'1 및 Met'2 는 Met1 및 Met2 의 가중된 값임)은 나머지 피치 후보들 각각에 대해 계산되고, 최고 비율 R 에 상응하는 후보 피치 값은 현재 프레임에 대한 추정된 피치 값 P_o으로 선택된다. 상기 추정된 피치 값 P_o이 실제 피치 값의 약수가 아닌 것을 확증하기 위한 점검이 그 후 이루어진다. 상기를 위해, 비율 S_m= P_o/ P_n이 나머지 각 후보 피치 값 P_n에 대해 계산되고, 상기 비율이 1 보다 큰 정수에 가깝다면(예를 드면 상기 정수의 0.3 이내), P_o는 프레임에 대한 추정된 피치 값으로서 블록[416]에서 확증된다.

도 4 와 관련해 상술된 피치 알고리즘은 매우 견실(robust)하며, 피치 더블링 및 피치 반분을 제거하기 위하여 주파수 및 시간 영역 모두의 조합을 포함한다.

후보 값이 해당하는 범위에 좌우되는 0.5 샘플 또는 1 샘플 내의 정확도로 피치 값 P_o이 추정되지만, 상기 정확도는 인코더의 후속 단들에서 수행될 필요가 있는 과정에는 충분하지 않으므로 더욱 양호한 정확도가 요구된다. 그러므로 정제된 피치 값은 피치 정제 블록[19]에서 추정된다.

상기를 용이하게 하기 위하여, 512 지점 빠른 푸리에 변환 알고리즘을 다시 사용하여 제 2 이산 푸리에 변환이 DFT 블록[20]에서 수행된다. 전술한 바와 같이, 샘플들은 221 지점 카이저 윈도우[18]를 통해 DFT 블록[17]에 공급되었다. 상기 윈도우는 현재 필요한 처리 기술에 있어 너무 넓어, 더 협소한 윈도우가 요구된다. 그럼에도 불구하고, 상기 윈도우는 적어도 3 피치 주기에서 넓어야 한다. 그러므로, 입력 샘플들은, 피치 탐지부[16]에서 탐지된 피치 값 P_o에 민감한 가변 길이 윈도우[21]를 통해 DFT 블록[20]에 공급된다. 상기 예에서, 3 개의 다른 윈도우 사이즈들이 범위 P_o≥70, 70 > P_o≥55, 및 55 > P_o에 각각 해당하는 221, 181 및 161 로 사용된다. 또한, 현재 프레임에 중심되어진 카이저 윈도우들이 존재한다.

피치 정제 블록[19]은 추정된 피치 값 P_o의 한 쪽에 분포된 단편적 값들을 포함하는 새로운 세트의 후보 피치 값들을 발생시킨다. 상기 실시예에서, 상기 피치 후보 값들(P_o포함)의 총계가 사용된다. Met1 의 새로운 값은 그후 상기 후보 피치 값들의 각각에 대해 계산되고, Met1 의 최대값을 주는 후보 피치 값이, 모든 후속 과정들의 기초가 되는 정제된 피치 값 P_ref으로 선택된다.

Met1 의 새로운 값들은 도 4 에 관해 전술된 것과 같은 과정(그러나 소정의 중요한 변형이 있음)을 사용하여 피치 정제 블록[19]에서 계산된다. 먼저, 크기 M(i)가 스펙트럼의 낮은 주파수 범위 대신에(즉, i 에서 Cut-1 의 값들) DFT 블록[20]에 의해 발생된 전체 주파수 스펙트럼에 대해 계산된다. 두번째, 상기 등식 1 에 표현된 합산은, 1.5 kHz(i = 90 에 해당)까지의 kω_o의 값들에 대한 제 1 부분(저 주파수) 및 kω_o의 나머지 값들에 대한 부분, 즉 2 부분으로 수행된다. 상기 합산의 2 부분들은 다른 요소들 0.25 및 1.0 에 의해 각각 가중된다.

전술한 바와 같이, 추정된 피치 값 P_o은 저 주파수 범위의 분해에 기초되었으므로, 상기 분해에서 제외된 높은 주파수들이 상기추정의 부정확성에 영향을 크게 미친다. 상기 제외를 보정하기 위하여, 높은 주파수들이 블록[19]에서 수행된 분해에 포함되어, 상기 합산의 각 부분에 인가된 가중 요소의 상대 크기에 의해 그 영향이 강조된다. 더우기, 낮은 주파수들의 영향(이제는 원하지 않음)을 가진, 블록[404]에서 크기 값들 M(i)에 초기에 인가된 바이어스가 상기 분해에서 제거되고, 결과적으로 값 M_max(블록[402]에서 초기에 계산된)이 또한 필요하지 않게 된다.

블록[19]에서 발생된 정제된 피치 값 P_ref이, 피치 양자화 색인를 발생시키기 위해 양자화되는 벡터 양자화부[22]로 통과된다.

상기 실시예에서, 피치 양자화 색인은 7 비트들(128 레벨에 해당)에 의해 정의되고, 벡터 양자화부[22]는, 사람의 귀가 더욱 큰 피치 값들에서의 피치 부정확성에 대해 덜 민감하다는 사실을 고려하기 위해 지수적(exponential) 양자화부이다. 상기 양자화된 피치 레벨 L_p(i) 은

로 정의된다.

8 kHz 의 샘플링 속도에서 80 개까지의 고조파 주파수들이 DTF 블록[20]의 4 kHz 대역폭내에 포함될 수 있다는 것을 알 수 있을 것이다. 명백하게, 매우 많은 갯수의 비트들이 상기 모든 고조파들을 각각 모두 인코딩하는데 필요할 것이고, 이것은 비교적 작은 비트 속도가 요구되는 음성 코더에 있어서 실용적이지 못하다. 더욱 경제적인 인코딩 모델이 요구된다.

도 5 에 관해 설명하면, DFT 블록[20]에서 유도된 실제 주파수 스펙트럼은 보이싱(voicing) 블록[23]에서 분해되어, 2 부분으로 스펙트럼을 분할하는 보이싱 절단 주파수 F_c를 셋팅한다. 상기 2 부분은 음성의 주기적 요소인 보이싱 절단 주파수 F_c이하의 유성화된 부분, 및 음성의 랜덤 요소인 무성화된 부분이다.

스펙트럼의 유성화된 부분 및 무성화된 부분이 일단 상기 방식으로 분리되면, 상기 부분들은, 각 개별적인 고조파 대역의 유성화/무성화 상태에 대한 정보를 발생하고 전송할 필요 없이 디코더에서 독립적으로 처리될 수 있다.

각 고조파 대역은, 2π/P_ref로 주어진 기본 주파수 ω_o의 k 배에 중심된다.

먼저, 각 고조파 대역의 형상은, 선택된 가변 길이 윈도우[21]의 푸리에 변환에 의해 주어진 대역(유성화된 것으로 가정)에 대한 이상적인 고조파 형상과 상관된다. 이것은 각 고조파 대역에 대해 상관 함수 S₁를 발생시킴으로써 이루어진다. k 번째 고조파 대역에 대해,

상기에서 M(a) 는 FFT(빠른 푸리에 변환)에 있어서 a 지점에서의 스펙트럼의 복소수 값이고, a_k및 b_k는 상기 대역에 대한 합산의 한계이고, W(m)은 선택된 윈도우에서 유도된 상기 대역에 대한 이상적인 고조파 형상의 크기에 상응하고, m 은 실제적인 고조파 대역에서 a 위치에 해당하는 이상적인 고조파 형상에서의 위치를 정의하는 정수이다. 이것은 하기의 식으로 주어진다.

SF 는 상기 FFT 의 사이즈이며, Sbt 는 업-샘플링 비율, 즉 상기 FFT 에서 지점들의 갯수에 대한 윈도우내의 지점들의 개수의 비율이다.

S₁에 덧붙여, 2 표준화 함수 S₂및 S₃가 발생되는데, 상기에서

및

이다.

상기 3 함수 S₁(k), S₂(k) 및 S₃(k)는 그후 조합되어 아래와 같이 주어진 표준화된 상관 함수 V(k)를 발생시킨다.

상기에서 k 는 고조파 대역들의 갯수이다. V(k) 는 1 + 3(k-10)/40 의 승(power)을 함으로써 더욱 바이어싱된다.

실제 및 이상적인 고조파 형상 사이의 정확한 상관 관계가 존재할 경우, V(k)의 값은 통일될 것이다. 도 5 는 고조파 대역들의 총 갯수 K 가 25(즉, k = 1 에서 25)인 주파수 스펙트럼의 경우에 대한 일반적으로 표준화된 상관 함수 V(k)의 형태를 도시한다. 상기 도면에서 도시된 바와 같이, 스펙트럼의 저 주파수 끝부분에서의 고조파 대역들은 비교적 통일적이며, 따라서 유성화될 가능성이 많다.

F_c에 대한 값을 셋팅하기 위하여, 함수 V(k)는 k 의 각 값에 대해 상응하는 임계(threshold) 함수 THRES(k)과 비교된다. 일반적인 임계 함수 THRES(k)의 형태는 도 5 에 또한 도시되어 있다.

THRES(k)를 계산하기 위하여, 하기의 값들이 사용된다.

E-lf, E-hf, tr-E-lf, tr-E-hf, ZC, L₁, L₂, PKY1, PKY2, T₁, T₂

상기 값들은 하기와 같이 정의된다.

(E_o ⁿ< 2 E_BG ⁿ) 이며, 프레임 계수기(counter)가 20 이하일 경우,

trⁿ- E - lf = 0.9 tr^n-1- E - lf + 0.1 Eⁿ-lf 이며,

trⁿ- E - hf = 0.9 tr^n-1- E - lf + 0.1 Eⁿ-hf 이다.

반면, (E_o ⁿ< 1.5 E_BG ⁿ)일 경우에는,

trⁿ- E - lf = 0.97 tr^n-1- E - lf + 0.03 Eⁿ-lf 이며,

trⁿ- E - hf = 0.97 tr^n-1- E - hf + 0.03 Eⁿ-hf 이다.

또한, tr^o- E - lf = 10⁸이며, tr^o- E - hf = 10⁷이다.

ZC 가 0 으로 셋팅되고, 각 -N/2 와 N/2 사이의 각 i 에 대해,

ip[i] x ip[i-1] < 0 일 경우,

ZC = ZC + 1 이다.

상기에서 ip 는 참조된 입력 음성이며, ip[0]은 현재 프레임의 스펙트럼을 얻기 위해 사용된 윈도우의 중심에 존재하는 입력 샘플에 해당한다.

상기에서 redidual(잉여)(i) 는 LPC 역 필터[28]의 출력에서 발생된 LPC 잉여 신호이고, 잉여(0)은 ip(0)에 해당한다.

PKY1 = L2/L1

PKY2 = L2'/L1'

상기 에서 L1', L2' 는 L1, L2 에 대해 각각 계산되지만, 상응하게 감소된 항의 갯수에 대해 평균된 최고 잉여 값의 한쪽에 대해 사전 지정된 갯수의 값들은 배제된다. PKY1 및 PKY2 는 모두 잉여 음성의 "피크"를 지시하지만, PKY2 는 예외적으로 큰 피크들에 대해 덜 민감하다.

(NRGS < 30 x NRGB) 일 경우, 즉 노이즈 배경 조건이 우세할 경우, 그리고 (E - lf > tr- E - lf) 및 (E - hf > tr - E -hf)일 경우, 저-고 주파수 에너지 비(LH-비)는 하기의 표현으로 주어진다.

LH-비 = (E - lf - 0.9tr - E - lf)/(E - hf - 0.9tr - E - hf)

이고, (E - lf < tr - E - lf)일 경우,

LH-비 = 0.02,

이고, (E - hf < tr - E - hf)일 경우,

LH-비 = 1.0 이며, LH-비는 0.02 및 1.0 사이로 한정된다.

상기 노이즈 배경 조건에서, 2 가지 다른 상황이 존재한다. 즉, 바로 이전 프레임에서의 임계 값 THRES(k) 는 프레임에 대한 절단 주파수 F_c이하로 되는 제 1 경우와 바로 이전 프레임에서의 임계 값 THRES(k) 는 프레임에 대한 절단 주파수 F_c이상으로 되는 제 2 경우가 있다.

(LH-비 < 0.2) 이라면, 제 1 경우에 대해,

THRES(k) = 1.0 - ½(1.0 - 1/π(k-1)ω_o) 이고, 제 2 경우에 대해서는

THRES(k) = 1.0 - ⅓ (1.0 - 1/π(k-1)ω_o) 이며, 상기 값들은 하기와 같이 수정된다.

THRES(k) = 1.0 - (1.0 - THRES(k))(LH-비 x 5)^½

LH-비 > 0.2 이라면, 제 1 경우에 대해,

THRES(k) = 1.0 - ½(1.0 - 1/π(k-1)ω_ox 0.125) 이고, 제 2 경우에 대해서는

THRES(k) = 1.0 - ⅓ (1.0 - 1/π(k-1)ω_ox 0.125) 이며, LH-비 ≥1.0 일 경우, 상기 값들은 하기와 같이 수정된다.

THRES(k) = 1 - (1 - THRES(k))^½.

에너지 비를 정의하면,

상기에서 E_o는 전체 주파수 스펙트럼의 에너지이고,

Emax 는 현재 프레임들에서 만나게 되는 최대 에너지의 추정이고(ER < 0.1 일 경우 ER 은 0.1 로 셋팅됨),

(ER < 0.4) 일 경우, 상기 임계 값들은 하기와 같이 수정된다.

THRES(k) = 1.0 - (1.0 - THRES(k))(2.5 ER)^½. 그리고,

(ER > 0.4) 일 경우, 상기 임계 값들은 하기와 같이 수정된다.

THRES(k) = 1.0 - (1.0 - THRES(k))^½.

더우기, THRES(k) > 0.85 일 경우, 상기 수정된 값들은 하기와 같이 더 수정된다.

THRES(k) = 0.85 + ½(THRES(k) - 0.85)

마지막으로, ¾K ≤k ≤K 일 경우, THRES(k)의 값은 하기와 같이 수정된다.

THRES(k) = 1.0 - ½(1.0 - THRES(k))

깨끗한 배경 조건(NRGS ≥30.0 NRGB)에서, 제 1 경우에 대해,

THRES(k) = 1.0 - 0.6(1.0 - 1/π(k-1) x 0.25)이고, 제 2 경우에 대해,

THRES(k) = 1.0 - 0.45(1.0 - 1/π(k-1) x 0.25)이다.

상기 값들은 하기의 조건들에 따라 연속적인 수정을 겪게 된다.

입력 음성이 저대역 필터링되고 표준화된 상호-상관이 정수 래그(lag) 값 P_ref- 3 에서 P_ref+ 3 에 대해 계산되고, 상기 상호-상관의 최대 값 CM 이 결정된다.

잡음 및 깨끗한 배경 조건들에 대해 상기에서 유도된 THRES(k)의 값들은 하기 조건 체계를 만족시키기 위해 제 1 조건에 따라 수정된다.

1. (PKY > 1.8)이고 (PKY2 > 1.7)일 경우, THRES(k) = 0.5 THRES(k).

2. (PKY > 1.7)이고 (CM > 0.35)일 경우, THRES(k) = 0.45 THRES(k).

3. (PKY > 1.6)이고 (CM > 0.2)일 경우, THRES(k) = 0.55 THRES(k).

4. (CM > 0.85) 또는 (PKY1 > 1.4 및 CM > 0.5) 또는 (PKY1 > 1.5 및 CM> 0.35)일 경우, THRES(k) = 0.75 THRES(k).

5. (CM < 0.55)이고 (PKY1 < 1.25)일 경우, THRES(k) = 1 - 0.25(1 - THRES(k)).

6. (CM < 0.7)이고 (PKY1 < 1.4)일 경우, THRES(k) = 1 - 0.75(1 - THRES(k)).

마지막으로, (E-OR > 0.7) 이고 (ER < 0.11) 이거나, (ZC > 90)일 경우,

THRES(k) = 1 - 0.5(1 - THRES(k))이다. 상기에서

이다. 합산 S_v는 하기와 같이 형성된다.

상기에서 V(k) > THRES(k) 일 경우 B(k) = 5 S₃이고, 다른 경우에는 B(k) = S₃이다. 그리고 t_voice(k)는 값 "1" 또는 값 "0" 중 하나를 취한다.

사실상, 값 t_voice(k) 은 시험 보이싱 절단 주파수 F_c을 정의하여, t_voice(k)가 F_c이하의 k 의 모든 값들에서 "1"이고, F_c이상의 k 의 모든 값들에서 "0"이다. 도 5 는 제 1 시험 절단 주파수 F¹ _c을 정의하는 제 1 세트의 값들 t¹ _voice(k), 및 제 2 시험 절단 주파수 F² _c을 정의하는 제 2 세트의 값들 t² _voice(k)을 도시한다. 상기 실시예에서, 합산 S_v는 값들의 8 개 다른 세트들, t¹ _voice(k), t² _voice(k),..., t⁸ _voice(k)에 대해 형성되고, 각각은 다른 시험 절단 주파수 F¹ _c, F² _c,...,F⁸ _c을 정의한다. 최대 합산 S_v을 제공하는 값들의 세트는 프레임에 대한 보이싱 절단 주파수를 결정할 것이다.

상기 합산에서 함수 (2t_voice(k)-1)의 효과는 t_voice(k)가 "0" 값을 가질 때마다, 즉 저단 주파수 위에서의 k 의 값에서, 차이 값(V(k) - THRES(k))의 부호를 반대로 하는 것이다. 도 5 에 도시된 예에서, 함수 (2t_voice(k)-1)의 효과는, 보이싱 절단 주파수 F_c가 상관 함수 V(k) 의 딥(dip) D 이하 또는 상기 딥 이상의 높은 값 F² _c에 존재하는 F¹ _c값으로 셋팅되어야 할지를 결정하는 것이다. 도 5 의 N 으로 표시된 k 의 범위에서, 값 V(k)는 값 THRES(k) 미만이며, 합산 S_v의 차이 값(V(k)-THRES(k))은 음이다. 값 t¹ _voice(k)의 제 1 세트가 사용된다면, 상기의 효과는 범위 N 내에서 (V(k)-THRES(k))의 부호를 반대로 하여 전체 합산에 양의 기여를 한다.

이와 반대로, 값 t² _voice(k)의 제 2 세트가 사용된다면, 상기의 효과는 범위 N 내에서 (V(k)-THRES(k))의 부호를 유지하여 전체 합산에 음의 기여를 한다. 도 5 에서 P 로 표시된 범위에서, 반대의 현상이 나타난다. 즉 t¹ _voice(k)의 제 1 세트는 상기 범위에 대한 합산에 음의 기여를 가져오지만, t² _voice(k)의 제 2 세트는 상기 합산에 양의 기여를 가져온다. 그러나, 도 5 의 사선으로 표시된 각 영역의 상대적인 면적에서 명백한 바와 같이, 범위 N 에서의 차이 값(V(k) - THRES(k))의 효과는 범위 P 에서보다 훨씬 크고, 상기 예에서, t¹ _voice(k) 값의 제 1 세트는 최대 합산 S_v을 제공하고, 프레임에 대한 보이싱 절단 주파수(F¹ _c)을 결정하는데 사용될 것이다.

8 가지 가능한 값들에서 F_c의 값을 선택하였으므로, 해당하는 색인(1 내지 8)은, 보이싱 양자화부[24]를 통해 인코더의 제 3 출력 O₃에 라우팅되는 보이싱 양자화 색인을 제공한다. 상기 양자화 색인은 8 개 가능한 주파수 레벨들에 해당하는 3 개의 비트들에 의해 정의된다.

피치 P_ref에 대한 값 및 현재 프레임에 대한 보이싱 절단 주파수 F_c을 정한 뒤, 각 고조파 대역에 대한 스펙트랄 진폭이 진폭 결정 블록[25]에서 계산된다. 스펙트랄 진폭들은, LPC 역 필터[28]의 출력부에서 발생된 윈도우된 LPC 잉여 신호에 대해 블록[27]에서 이산 푸리에 변환(빠른 푸리에 변화으로 구현된)을 수행함으로써 생성된 주파수 스펙트럼에서 유도된다. 필터[28]는 최초 입력 음성 신호, 및 LSF 비양자화부(dequantiser)[29]에서 LSF 양자화 색인을 비양자화하고 LSF-LPC 변환부[30]에서 비양자화된 LSF 값들을 변환함으로써 발생된 재생된 LPC 계수들의 세트가 공급된다.

고조파 대역(k 번째 대역)은 주파수 스펙트럼의 무성화된 부분에 존재할 경우 즉, 보이싱 절단 주파수 F_c이상에 존재하면, 상기 대역의 스펙트랄 진폭 amp(k)은 대역내의 RMS 에너지로 주어진다.

상기에서 M_r(a)는, FFT 의 실수 및 허수 부분에서 이전에 계산된 LPC 잉여 신호에서 유도된 주파수 스펙트럼에서 위치 a 에서의 복소수 값이고, a_k및 b_k는 k 번째 대역의 합산의 한계들이며, β는 상기 윈도우의 함수인 표준화 요소이다.

한편, 고조파 대역이 주파수 스펙트럼의 유성화된 부분에 존재할 경우, 즉 절단 주파수 F_c이하에 존재하면, k 번째 대역에 대한 스펙트럴 진폭 amp(k)는 하기와 같이 주어진다.

상기에서 W(m)은 등식 2 및 3 에 관계하여 정의된 것과 같다.

상기 방식으로 얻어진 스펙트랄 진폭들은 동일한 평균을 가지도록 표준화된다.

표준화된 스펙트랄 진폭들은 진폭 양자화부[26]에서 그후 양자화된다. 이것은 가용한 비트들의 갯수에 좌우되는 다양한 양자화 기술들을 사용하여 행해질 수 있음은 물론이다. 상기 특정 실시예에서, 벡터 양자화 과정이 사용되고, 프레임에 대한 LPC 주파수 스펙트럼 P(ω)에 대한 문의가 이루어진다. 상기 LPC 주파수 스펙트럼 P(ω)는 LPC 필터[12]의 주파수 응답을 나타내고 하기의 형태를 가진다.

상기에서 LPC(1)은 LPC 계수들이다. 상기 실시예에서, 10 개의 LPC 계수들이 존재한다. 즉 L = 10.

LPC 주파수 스펙트럼 P(ω)이 도 6a 에 도시되고, 상응하는 스펙트럴 진폭 amp(k)이 도 6b 에 도시된다. 상기 예에서, 10 개의 고조파 대역들(k=1 에서 10)만이 도시된다.

LPC 주파수 스펙트럼은 가장 큰 크기를 포함하는 4 고조파 대역들을 발견하기 위해 조사되고, 상기 예에서 k=1, 2, 3 및 5 에 해당하는 고조파 대역들이 존재한다. 도 6c 에서 도시한 바와 같이, 상응하는 스펙트랄 진폭들 amp(1), amp(2), amp(3), amp(5)은 8 엘리먼트 벡터의 제 1 의 4 엘리먼트들 V(1), V(2), V(3), V(4)를 형성하고, 상기 벡터의 마지막 4 엘리먼트들(V(5) 내지 V(8))는 6 개의 나머지 스펙트랄 진폭들, amp(4), amp(6) 내지 amp(10)에서 적절한 평균을 취함으로써 형성된다. 상기를 위해, 엘리먼트 V(5)는 amp(4)에 의해 형성되고, 엘리먼트 V(6)는 amp(6) 및 amp(7)의 평균에 의해 형성되고, 엘리먼트 V(7)은 amp(8)에 의해 형성되고, 엘리먼트 V(8)은 amp(9) 및 amp(10)의 평균에 의해 형성된다.

벡터 양자화 과정은 코드북내의 엔트리들을 참고하여 수행되고, (LPC 스펙트랄 형태에 의해 가중된 평균 제곱 오차 수치를 사용하여) 조립된 벡터에 가장 잘 매칭되는 엔트리가 프레임의 진폭 양자화 색인의 제 1 부분으로 선택된다.

또한 진폭 양자화 색인의 제 2 부분은 프레임의 초기 음성 입력의 RSM 에너지 R_m으로 계산된다.

진폭 양자화 색인의 제 1 부분은 주파수 스펙트럼의 "형태"를 나타지만, 진폭 양자화 색인의 제 2 부분은 음성 신호의 볼륨에 관련된 스케일 요소를 나타낸다. 상기 실시예에서, 색인의 제 1 부분은 6 비트들로 구성되고(64엔트리들을 포함하는 코드북에 해당하고 각각은 다른 스펙트럴 "형태"를 나타낸다), 색인의 제 2 부분은 5 비트로 구성된다. 상기 2 부분,은, 인코더의 제 4 출력 O₄으로 보내지는 11 비트 진폭 양자화 색인을 형성하도록 조합된다.

가용한 비트들의 갯수에 따라, 다양한 다른 기술들이 스펙트랄 진폭을 양자화하기 위해 사용될 수 있다. 예를 들면, 양자화 코드북은 더욱 크거나 작은 엔트리 갯수를 포함할 수 있으며, 각 엔트리는 더욱 크거나 작은 갯수의 진폭 값들로 구성된 벡터를 포함할 수 있다.

지금까지 설명한 바와 같이, 디코더는 색인,, 및에 따라 동작하여 잉여 신호를 합성하고 이에 따라 디코더 LPC 합성 필터에 공급되는 여기(excitation) 신호를 발생시킨다.

결론적으로, 인코더는 입력 음성 신호의 각 프레임에 대한 한 세트의 양자화 색인들,,,및를 발생시킨다.

상기 인코더 비트 속도는 양자화 색인들을 정의하는데 사용된 비트들의 갯수에 좌우되고 또한 양자화 색인의 갱신 속도에 좌우된다.

전술한 예에서, 각 양자화 색인에 대한 갱신 주기는 20ms(프레임 갱신 주기와 동일)이고 비트 속도는 2.4 kb/s 이다. 상기 예에서 각 양자화 색인에 대해 사용된 비트들의 갯수는 하기의 표 1 에 요약되어 있다.

*파라미터들의 더 양호한 양자화 또는 에러 방지 및 동기를 위해 3 개의 추가 비트들(총 48 비트 제공)이 사용될 수 있다.

표 1 은 또한 음성 인코더가 1.2 kb/p, 3.9 kb/p, 4.0 kb/p, 5.2 kb/p 및 6.8 kb/p 로 각각 동작하는 5 개의 추가 예들에 있어 양자화 색인들 사이의 분포를 요약한 것이다.

상기 일부 예들에서, 전부 또는 일부 양자화 색인들은 10 ms 간격, 즉 프레임당 2 번씩 갱신된다. 상기 경우에 한 프레임에서 제 1 의 10 ms 갱신 주기 동안 유도된 피치 양자화 색인은 제 2 의 10 ms 갱산 주기 동안 유도된 피치 양자화 색인보다 많은 갯수의 비트들에 의해 정의될 수도 있다. 상기는, 제 1 갱신 주기 동안 유도된 피치 값이 제 2 갱신 주기동안 유도된 피치 값에 대한 바이어스로서 사용될 수 있어 후반 피치 값이 더욱 소수의 비트들을 사용하여 정의될 수 있기 때문이다.

1.2 kb/s 속도의 경우, 프레임 길이는 40 ms 이다. 상기에서, 피치 및 보이싱 양자화 색인,는 각 프레임의 반에 대해 결정되고, 상기 프레임의 나머지 반에 대한 색인들은 인접한 반 프레임내의 각 파라미터들에서 외삽법(extrapolation)에 의해 얻어진다.

현재 40ms 프레임의 전위 및 후위 반부분에 대한 LSF 계수들(LSF2, LSF3)은, 서로를 참조하고, 인접 선행 프레임의 전위 반 및 상응하는 LSF 양자화 벡터에 대한 LSF 계수들(LSF1)을 참조하여 양자화된다.

각 반 프레임에 대한 목표 양자화된 LSF 계수들(LSF'1, LSF'2, LSF'3)은, 상기 반 프레임에 대한 각 예상 값(P1, P2, P3)와 벡터 양자화 코드북에 포함된 각 LSF 양자화 벡터(Q1, Q2, Q3)의 합에 의해 주어진다. 상기에서,

LSF'1 = P1 + Q1,

LSF'2 = P2 + Q2, 및

LSF'3 = P3 + Q3.

각 예상 값 P2, P3 는 인접 선행 반 프레임에 대한 각 LSF 양자화 벡터 Q1, Q2 에서 하기와 같이 얻어진다.

P2 = λQ1, 및

P3 = λQ2

상기에서 λ는 일반적으로 0.5~0.7 범위내의 일정한 예상 요소이다.

비트 속도를 감소시키기 위해, 목표 양자화된 LSF 계수들 LSF'2(현재 프레임의 전위 반에 대한)를 인접 반 프레임에 대한 목표 양자화된 LSF 계수들(LSF'1, LSF'3)에 의해 정의하는 것이 유용하다. 따라서

LSF'2 = αLSF'1 + (1-α)LSF'3 등식 4

상기에서 α는 4 비트 색인에 의해 표현된 16 엔트리 코드북내의 10 엘리먼트의 벡터이다.

상기 등식들에서

LSF'3(1-λ-λα) = Q3 + λαLSF'1 - λ²Q1 등식 5

로 표시될 수 있다.

상기 등식 4 및 5 에서 변수들은 벡터 α및 Q3 이고, 상기 벡터들은 하기와 같이 주어진 에러 함수 ε(지각적으로 가중될 수 있는)를 최소화하기 위해 변경된다. 상기 에러 함수 ε는,

ε= (LSF'3 - LSF3)²+ (LSF'2 - LSF2)²으로 주어지고,

현재 프레임의 실제 및 양자화된 LSF 계수들 사이의 왜곡(distortion) 수치를 나타낸다.

각 코드북들은 최소 에러 함수 ε를 제공하는 벡터 α및 Q3 의 조합을 발견하기 위해 검색되고, 코드북들에서 검색된 엔트리들은 각각 현재 프레임에 대한 28 비트 LSF 양자화 색인의 4 및 24 비트 성분들을 정의한다. 2.4 kb/s 인코더에 관해 전술한 바와 유사한 방식으로, 벡터 양자화 코드북에 포함된 LSF 양자화 벡터들은, 2⁸엔트리들(1~256으로 번호매겨짐)을 각각 포함하는 3 개의 그룹으로 구성되고, 이것은 제 1 의 3 , 제 2 의 3, 및 마지막 4 LSF 계수들에 해당한다. 각 그룹내의 선택된 엔트리는 상기 3 그룹들에 대한 총 24 비트를 제공하는 8 비트 양자화 색인을 정의한다.

도 3 내지 6 에 대해 전술한 음성 코더는 단일 비트 속도로 동작할 것이다. 별법으로, 음성 코더는 2 이상의 다른 비트 속도들 중 하나로 선택적으로 동작가능한 적응형 다중-속도(adaptive multi-rate;AMR) 코더일 수 있다. 상기의 특정한 구현에서, 상기 AMR 코더는 전술한 비트 속도들중 하나로 선택적으로 동작가능하고, 각 속도에 대한 양자화 색인들 사이의 비트들의 배분은 표 1 에 요약되어 있다. 음성 인코더의 출력부 0₁, 0₂, 0₃, 0₄에서 발생된 양자화 색인들은 도 7 에 도시된 바와 같이, 디코더로 통신 채널을 통해 전송된다. 디코더에서, 양자화 색인들은 재생되고, 비양자화 블록들[30, 31, 32 및 33]의 입력부 I₁, I₂, I₃및 I₄에 각각 공급된다.

비양자화 블록[30]은 프레임의 비양자화된 LSF 계수들의 세트를 출력하고, LPC 합성 필터[34]에 공급된 LPC 계수들의 상응하는 세트를 재생하는데 사용된다.

비양자화 블록[31, 32 및 33]은 각각 피치의 비양자화된 값들(P_ref), 보이싱 절단 주파수(F_c), 및 스펙트랄 진폭(amp(k))을 RMS 에너지 R_m과 함께 출력하고, 상기 값들은 LPC 합성 필터[34]를 위한 여기 신호 E_x를 발생시키는데 사용된다. 상기를 위해, P_ref, F_c, amp(k) 및 R_m값들은 상기 여기 신호의 유성화된 부분(즉 F_c이하의 주파수를 포함하는 부분)을 합성하는 제 1 여기 발생부[35]로 공급되고, 상기 여기 신호의 무성화된 부분(즉 F_c이상의 주파수를 포함하는 부분)을 합성하는 제 2 여기 발생부[36]로 공급된다.

제 1 여기 발생부[35]는 각 고조파 대역의 주파수에서 각 시누소이드(sinusoid)를 발생시킨다. 이것은 보이싱 절단 주파수 F_c까지의 기본 피치 주파수 ω_o=(2π/P_ref)의 정수배에 존재한다. 상기를 위해, 제 1 여기 발생부[35]는 A_kcos(kθ) 형태의 시누소이드의 세트를 발생시키는데, k 는 정수이다.

비양자화된 피치 값(Pref)을 사용하여 합성 프레임내의 각 피치 사이클의 시작과 끝이 결정되고, 각 피치 사이클에 대해 파라미터들의 새로운 세트가 보간에 의해 얻어진다.

샘플 i 에서의 위상 θ(i)는 하기의 식으로 주어진다.

θ(i) = θ(i-1) + 2π[ω_last(1-x) + ω_o·x],

ω_last는 인접 선행 프레임에 대해 결정된 기본 피치 주파수이며, x = k/F 여기서 F 는 한 프레임내의 샘플들의 총 갯수이고, k 는 현재 프레임에 합성된 현재 피치 사이클의 중간의 샘플 위치이다.

상기 식의 항 ω_last(1-x) + ω_o·x 은 피치 사이클마다 위상에서 진행 편이(progressive shift)를 일으켜 프레임 경계에서 완만한 위상 전이(transition)를 보장하게 된다. 각 시누소이드의 진폭 A_k은 현재 프레임에 대한 amp(k) R_m합과 관련이 있다. 그러나, 피치 사이클 대 피치 사이클 원칙에 따라 행해지는 현재 및 인접 선행 프레임들의 진폭들 사이의 보간은 하기와 같이 적용된다.

(i) 고조파 주파수 대역은 현재 프레임내의 주파수 스펙트럼의 무성화된 부분에 존재하지만 인접 선행 프레임에서는 주파수 스펙트럼의 유성화된 부분에 존재하였을 경우, 상기 음성 신호는 점점 작아진다. 상기 경우에서, 시누소이드는 현재 프레임에 대해 여기 발생부[35]에 의해 발생되지만, 이전 프레임의 진폭을 사용하여 현재 프레임의 길이에 대해 적절한 램핑(ramping) 요소(각 피치 사이클에 대해 바람직하게 일정하게 유지되는) 에 의해 규모가 감소된다.

(ii) 고조파 주파수 대역이 현재 프레임의 주파수 스펙트럼의 유성화된 부분에 존재하지만 인접 선행 프레임에서는 주파수 스펙트럼의 무성화된 부분에 존재하였을 경우, 음성 신호의 시작이 존재하는 것으로 가정된다. 상기 경우에서, 현재 프레임의 진폭이 사용되지만, 적절한 램핑 요소(각 피치 사이클에 대해 바람직하게일정하게 유지되는) 에 의해 규모가 증가된다.

(iii) 고조파 주파수 대역이 현재 및 인접 선행 프레임에서의 주파수 스펙트럼의 유성화된 부분에 존재할 경우, 정상 음성으로 가정된다. 상기 경우에서, 진폭은 현재 프레임의 길이에 걸쳐 현재 및 이전 진폭 값들 사이에서 보간된다.

별법으로, 유성화된 부분 합성이, DFT 사이즈가 보간된 피치 길이와 동일한 역 DFT 방법에 의해 구현될 수 있다. 각 피치 사이클에서, DFT로의 입력은, 보간된 절단 주파수들 F_c및 0 들의 지점들까지의 디코딩되고 보간된 스펙트랄 진폭들로 구성된다.

여기 신호의 무성화된 부분을 합성하는데 사용되는 제 2 여기 발생부[36]는 백색 노이즈 시퀀스를 발생시키는 랜덤 노이즈 발생부(random noise generator)를 포함한다. "오버랩 및 가산" 기술이, 현재 보간된 피치 사이클에 해당하는 일련의 P_ref샘플들에서 상기 시퀀스를 추출하는데 사용된다. 상기는, 전체 256 샘플 폭을 가지고 160 샘플들의 단계에서 프레임마다 백색 노이즈 시퀀스를 따라 활주하는 사다리꼴 윈도우를 사용하여 이루어진다. 윈도우된 샘플들은 256 지점 빠른 푸리에 변환을 거치게 되고 이에 따른 주파수 스펙트럼은 비양자화된 스펙트랄 진폭들에 의해 형상화된다. F_c이상의 주파수 범위에서, 주파수 스펙트럼의 각 고조파 대역 k는 상기 대역에 대해 비양자화되고 스케일된 스펙트랄 진폭 R_mamp(k)에 의해 형상화된다. 그리고 F_c이하의 주파수 범위(스펙트럼의 유성화된 부분에 해당)에서, 각 고조파 대역의 진폭은 0 으로 셋팅된다. 역 푸리에 변환이 형상화된 주파수 스펙트럼에 인가되어 시간 여역에서 무성화된 여기 신호를 발생시킨다. 현재 피치 사이클에 해당하는 샘플들은 그후 무성화된 여기 신호를 형성하는데 사용된다. "오버랩 및 가산"기술은 디코딩된 음성 신호의 평탄화를 증가시킨다.

제 1 여기 발생부[35]에 의해 발생된 유성화된 여기 신호 및 제 2 여기 발생부[36]에 의해 발생된 무성화된 여기 신호는 가산부[37]에서 가산되고, 조합된 여기 신호 Ex 는 LPC 합성 필터[34]로 출력된다. LPC 합성 필터[34]는 디코딩된 LSF 계수들에서 유도된 보간된 LPC 계수들을 수신하고, 출력 음성 신호 S_o(t)를 합성하기 위해 상기 조합된 여기 신호를 필터링하기 위해 상기 계수들을 사용한다.

평탄한 출력 음성 신호 S_o(t)를 발생시키기 위하여, LPC 계수들에 있어서의 모든 변화는 점진적이어야 하므로, 보간이 바람직하다. LPC 계수들 사이를 직접적으로 보간하는 것은 불가능하다. 그러나, LSF 계수들 사이를 보간하는 것은 가능하다.

연속적인 프레임들이 음성으로 완벽히 채워져 프레임내의 RMS 에너지들이 완전히 동일하다면, 상기 프레임들에 대한 LSF 계수들의 2 세트는 너무 동떨어져 있지는 않을 것이고 따라서 선형 보간이 적용될 수 있다. 그러나, 프레임이 음성 및 침묵을 포함한다면, 즉 프레임이 음성 시작(onset) 또는 음성 감소(tail-off) 문제가 발생될 수 있다. 상기 상황에서, 현재 프레임에 대한 LSF 계수들 및 인접 선행 프레임에 대한 LSF 계수들은 매우 다를수 있으며, 따라서 선형 보간은 실제 음성 패턴을 왜곡시켜 노이즈를 발생시킬 것이다.

음성 시작의 경우, 현재 프레임내의 RMS 에너지 E_c는 인접 선행 프레임의 RMS 에너지 E_p보다 크다. 그러나 음성 감소의 경우에서는 그 반대이다.

상기 문제를 해결하기 위한 관점에서, 에너지-종속 보간이 적용된다. 도 8 은 0.125(음성 시작) 에서 8.0(음성 감소) 범위를 가지는 다른 비율들 E_p/E_c에 대한 프레임에 걸친 보간 요소의 변이를 도시한다. 도 8 에서, 에너지-종속 보간 요소들의 영향은 LSF 계수들의 더욱 현저한 세트 쪽으로 바이어스를 부가하여 프레임의 유성화된 부분이 배경 노이즈에 더욱 적합한 필터를 통과하지 못하도록 하는 것이다.

보간 절차가 LSF 보간부[38]내의 LSF 계수들에 적용되고, 상기와 같이 얻어진 보간된 값들이, 해당 LPC 계수들이 발생하는 LSF-LPC 변환부[39]로 통과된다.

음성 품질을 증가시키기 위하여, 합성된 출력 음성에 후처리를 수행하여 LPC 주파수 스펙트럼의 골짜기부에서의 노이즈의 영향을 감소시키는 것이 지금까지 보편적이었으나, 상기에서 음성의 LPC 모델은 비교적 빈약하였다. 이것은 적절한 필터들을 사용함으로써 달성되었으나, 상기와 같은 필터링은 일부 스펙트랄 틸트(tilt)를 야기하고 이것은 최종 출력 신호를 감소시켜 음성 품질을 감소시켰다.

상기 실시예에서, 과거에 행해진 방법과 같이 LPC 합성 필터[34]의 출력을 처리하는 대신, 다른 기술이 사용되었다. 상기 실시예에 사용된 기술은 디코더 블록[33]의 출력에서 발생된 스펙트랄 진폭들을 가중하는 것에 의존하고 있다. k 번째 스펙트랄 진폭에 인가된 가중 요소 Q(kω_o)는 전술한 LPC 스펙터럼 P(ω)에서 유도된다. LPC 스펙트럼 P(ω)은 피크-보간된 스펙트럼 H(ω)을 발생시키기 위하여 피크-보간되고, 가중 함수 Q(ω)는 λ승을 가지는 P(ω) 와 H(ω)의 비율로 주어진다.

상기에서 λ는 0.00 ~ 1.0 범위내이고 바람직하게는 0.35 이다.

함수 P(ω) 및 H(ω)는 Q(ω)P(ω)에 의해 주어진 지각적으로 증가된 LPC 스펙트럼에 따라 도 9 에서 도시된다.

상기 도면에서 살펴볼 수 있는 바와 같이, 가중 함수 Q(ω)의 효과는 피그들 사이의 골짜기 지역내의 LPC 스펙트럼의 값을 감소시키는 것이고, 이에 따라 상기 지역내의 노이즈가 감소된다. 적절한 가중 Q(kω_o)이 비양자화된 스펙트랄 진폭들에 대해 지각적 가중 블록[40]에서 인가될 때, 이들의 효과는 출력 음성 신호의 품질을 개선하는 것이다. 이것은 후-처리되었던 것과 같지만, 과거에 사용된 후-처리 기술과 관련한 스펙트랄 틸트 및 소리 감소를 야기시키기 않는다.

LPC 합성 필터[34]의 출력은 에너지에 있어서 변동할 수 있으므로, 출력은 바람직하게 제어된다. 이것은 도 7 의 점선으로 표시된 선택적 회로를 사용하여 2 단으로 행해진다. 제 1 단에서, 실제 피치 사이클 에너지가 블록[41]에서 계산되고, 상기 에너지는 비율 회로[2]에서 소망의 보간된 피치 사이클 에너지와 비교되어 비율 값을 발생시킨다. 여기 신호 E_x의 상응하는 피치 사이클이 멀티플라이어[43]에서 상기 비율 값과 곱셈되어 비교된 에너지들 사이의 차이를 감소시키고, 그후 추가의 LPC 합성 필터[44]로 전달되어 평탄화된 출력 음성 신호가 합성된다.

Claims

사전 지정된 갯수의 디지털 샘플들로 각각 구성된 프레임들로 분할되는 입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서, 상기 인코더는,

샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단으로서, 주파수 영역 기술(주파수 영역 분해)을 사용하여 샘플들을 분해하기 위한 제 1 추정 수단, 시간 영역 기술(시간 영역 분해)를 사용하여 샘플들을 분해하기 위한 제 2 추정 수단, 및 상기 피치 값을 유도하기 위해 상기 주파수 영역 및 시간 영역 분해의 결과를 사용하기 위한 피치 계산 수단을 포함하는 피치 결정 수단;

각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;

각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 제 1 계산 수단은 다수의 후보 피치 값들 각각에 대한 피치의 제 1 수치를 발생시키며, 상기 제 2 계산 수단은 상기 후보 피치 값들 각각에 대한 제 2 수치를 발생시키며, 그리고, 상기 계산 수단은 상기 제 1 수치들중 적어도 일부의 각각과 상응하는 상기 제 2 수치를 조합하고, 상기 조합 결과에 따라 상기 후보 피치 값들에서 하나를 선택하는 것을 특징으로 하는 음성 코더.
제 1 항에 있어서, 상기 계산 수단은, 상기 각 제 1 수치 및 상기 상응하는 제 2 수치의 비율을 형성함으로써 상기 조합들을 형성하고, 상기 형성된 비율들에 따라 상기 하나의 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더.
제 1 항 또는 제 2 항에 있어서, 상기 계산 수단은, 상기 각 후보 피치 값과 1 이상의 이전 프레임들에서 유도된 추적된 피치 값을 비교하고, 상기 수치들이 조합되기 전에 상기 비교에 따른 각각의 양들만큼 상응하는 상기 제 1 및 제 2 수치들을 가중하는 것을 특징으로 하는 음성 코더.
제 3 항에 있어서, 상기 가중의 양들은 또한 상기 현재 프레임의 배경 노이즈의 레벨에 좌우되는 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서, 상기 제 1 추정 수단은, 각 프레임에 대한 제 1 주파수 스펙트럼을 발생시키고, 상기 제 1 주파수 스펙트럼내의 피크들을 식별하고, 상기 제 1 주파수 스펙트럼이 평탄화 과정을 겪도록 하여 평탄화된 주파수 스펙트럼을 발생시키며, 그리고 각 후보 피치 값에 대해 상기 제 1 주파수 스펙트럼에서 식별된 피크들과 상기 평탄화된 주파수 스펙트럼의 다른 고조파 주파수들(kω_o, 상기에서 ω_o= 2π/P 이고 P는 후보 피치 값이고 k 는 정수임)에서의 진폭들과 상관시켜(correlate) 상기 피치 값의 상기 제 1 수치를 각각 발생시키는 것을 특징으로 하는 음성 코더.
제 5 항에 있어서, 상기 피크들의 식별에 앞서, 상기 제 1 주파수 스펙트럼을 형성하는 크기 값들은 상기 스펙트럼에 대한 RMS 값과 비교되고, 상기 비교에 따라 가중되어 상기 RMS 값보다 더 큰 크기를 가지는 피크를 덜 강조(de-emphasize)하게 되는 것을 특징으로 하는 음성 코더.
제 6 항에 있어서, 상기 크기 값들은, 주파수를 감소시키는 함수로서 증가하는 요소(factor)에 의해 더 가중되는 것을 특징으로 하는 음성 코더.
제 7 항에 있어서, 상기 제 1 주파수 스펙트럼의 크기들은 상기 현재 프레임의 배경 노이즈를 고려하기 위해 조정되는 것을 특징으로 하는 음성 코더.
제 5 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 상관에 앞서, 상기 제 1 주파수 스펙트럼에서 식별된 각 피크의 상기 크기는, 상기 평탄화된 주파수 스펙트럼의 상응하는 크기와 비교되고, 상기 비교에 따라 버려지거나 유지되는 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서, 상기 제 1 추정 수단은, 프리셋(preset)된 갯수의 주파수 대역들 각각에 대해 단일 후보 피치 값을 선택하며, 상기 제 2 추정 수단은, 상기 제 1 추정 수단에 의해 선택된 상기 각 후보 피치 값들에 대해 상기 피치의 제 2 수치를 발생시키는 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서, 상기 선택된 후보 피치 값은 상기 피치 값의 추정을 제공하며, 상기 계산 수단은 상기 추정에서 상기 피치 값을 결정하기 위한 피치 정제(refinement) 수단을 포함하는 것을 특징으로 하는 음성 코더.
제 11 항에 있어서, 상기 피치 정제 수단은,

상기 추정에 대해 분포된 단편적인 값들을 포함하는 한 세트의 추가 후보 피치 값들을 정의하며, 상기 프레임에 대한 추가의 주파수 스펙트럼을 발생시키며, 상기 추가의 주파수 스펙트럼내의 피크들을 식별하며, 추가의 평탄화된 주파수 스펙트럼을 발생시키기 위해 상기 추가의 주파수 스펙트럼이 평탄화 과정을 겪도록 하며, 각 추가의 후보 피치 값에 대해, 상기 추가의 주파수 스펙트럼내에서 식별된 피크들과 상기 평탄화된 주파수 스펙트럼내의 다른 고조파 주파수들(kω_o, 상기에서 ω_o= 2π/P 이고 P는 상기 추가의 후보 피치 값이고 k 는 정수임)에서의 진폭들을 상관시키며, 그리고 상기 프레임에 대한 피치의 값으로 최대 상관 관계를 제공하는 상기 추가의 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 12 항 중 어느 한 항에 있어서, 상기 피치 결정 수단은, 각 프레임의 전위(leading) 부분에 대한 피치의 제 1 값 및 각 프레임의 후위(trailing) 부분에 대한 피치의 제 2 값을 결정하며, 상기 양자화 수단은 상기 양 피치 값들을 모두 양자화하는 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 13 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 상기 프레임에서의 주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리시키기 위하여 각 프레임에 대해 적어도 하나의 보이싱 절단(cut-off) 주파수를 결정하며, 상기 진폭 결정 수단은, 상기 보이싱 수단 및 상기 피치 결정 수단에 의해 각각 결정되는 상기 보이싱 절단 주파수 및 상기 피치 값에 따라 각 프레임에 대해 스펙트랄 진폭들을 발생시키는 것을 특징으로 하는 음성 코더.
제 14 항에 있어서, 각 프레임에 대해 상기 보이싱 수단은,

(i) 상기 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 각 주파수 대역에 대한 보이싱 수치를 유도하는 단계;

(ii) 각 고조파 주파수 대역에 대한 상기 보이싱 수치와 임계 값을 비교하여 양 또는 음의 값인 비교 값을 발생시키는 단계;

(iii) 상기 상응하는 고조파 주파수 대역이 시험 절단 주파수 이상에 존재할 경우, 상기 비교 값의 부호를 반전시키는 양만큼 각 비교 값을 바이어싱(biasing)하는 단계;

(iv) 상기 바이어싱된 비교 값들을 상기 프레임의 다수의 고조파 주파수 대역들에 걸쳐 합산하는 단계;

(v) 다수의 다른 시험 절단 주파수들에 대해 상기 (i) 내지 (iv) 단계들을 반복하는 단계; 및

(vi) 상기 프레임에 대한 보이싱 절단 주파수로서 최대 합산을 제공하는 상기 시험 절단 주파수를 선택하는 단계를 수행하는 것을 특징으로 하는 음성 코더.
제 15 항에 있어서, 상기 보이싱 수단은, 상기 고조파 주파수 대역의 형상과 상기 대역에 대한 참고(reference) 형상을 상관시킴으로써 형성되는 것을 특징으로 하는 음성 코더.
제 16 항에 있어서, 상기 입력 음성 신호에 윈도우 함수를 부가하고, 상기 윈도우된 입력 음성 신호에서 상기 고조파 주파수 대역들을 포함하는 상기 주파수 스펙트럼을 유도하기 위한 수단을 포함하며, 상기 참고 형상은 상기 윈도우 함수에서 유도되는 것을 특징으로 하는 음성 코더.
제 14 항 내지 제 17 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 각 프레임의 전위 부분을 위한 제 1 상기 보이싱 절단 주파수, 및 각 프레임의 후위 부분을 위한 제 2 상기 보이싱 절단 주파수를 결정하는 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 18 항 중 어느 한 항에 있어서, 상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 주파수들에 중심된(centered) 다른 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더.
입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,

디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;

샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;

각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;

각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 선형 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 피치 결정 수단은, 상기 피치 값의 추정을 결정하기 위한 피치 추정 수단 및 상기 추정에서 피치 값을 유도하기 위한 피치 정제 수단을 포함하며, 상기 피치 정제 수단은, 상기 피치 추정 수단에 의해 결정된 상기 피치 값의 상기 추정에 대해 분포된 단편적인 값들을 포함하는 한 세트의 후보 피치 값들을 정의하고, 상기 프레임의 주파수 스펙트럼의 피크들을 식별하고, 상기 각 후보 피치 값에 대해, 상기 프레임의 주파수 스펙트럼의 다른 고조파 주파수들(kω_o, 상기에서 ω_o= 2π/P 이고 P는 상기 추가의 후보 피치 값이고 k 는 정수임)에서의 진폭들과 상기 피크들을 상관시키고, 그리고 상기 프레임에 대한 피치의 값으로 최대 상관 관계를 제공하는 상기 후보 피치 값을 선택하는 것을 특징으로 하는 음성 코더.
제 20 항에 있어서, 상기 피치 추정 수단은, 주파수 영역 기술(주파수 영역 분해)을 사용하여 샘플들을 분해하기 위한 제1 추정 수단, 시간 영역 기술(시간 영역 분해)를 사용하여 샘플들을 분해하기 위한 제 2 추정 수단, 및 상기 시간 및 주파수 영역 분해의 결과에서 상기 피치 값의 상기 추정을 유도하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
제 20 항 또는 제 21 항에 있어서, 상기 피치 정제 수단은, 상기 피크들의 진폭들과, 상기 피크들이 식별되는 주파수 스펙트럼의 지수적으로 손상되는 엔벨롭(envelope)의 고조파 주파수들(kω_o)에서의 진폭들을 상관시키는 것을 특징으로 하는 음성 코더.
제 20 항 내지 제 22 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리하기 위해 각 프레임에 대해 적어도 하나의 보이싱 절단 주파수를 결정하며, 상기 진폭 결정 수단은, 상기 보이싱 수단 및 상기 피치 결정 수단에 의해 각각 결정된 상기 보이싱 절단 주파수 및 상기 피치 값에 따라 스펙트랄 진폭들을 발생시키는 것을 특징으로 하는 음성 코더.
제 23 항에 있어서, 각 프레임에 대해 상기 보이싱 수단은,

(i) 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 각 주파수 대역에 대한 보이싱 수치를 유도하는 단계;

(ii) 각 고조파 주파수 대역에 대한 상기 보이싱 수치와 임계 값을 비교하여 양 또는 음의 값인 비교 값을 발생시키는 단계;

(iii) 상기 상응하는 고조파 주파수 대역이 시험 절단 주파수 이상에 존재할 경우, 상기 비교 값의 부호를 반전시키는 양만큼 각 비교 값을 바이어싱(biasing)하는 단계;

(iv) 상기 바이어싱된 비교 값들을 상기 프레임의 다수의 고조파 주파수 대역들에 걸쳐 합산하는 단계;

(v) 다수의 다른 시험 절단 주파수들에 대해 상기 (i) 내지 (iv) 단계들을 반복하는 단계; 및

(vi) 상기 프레임에 대한 보이싱 절단 주파수로서 최대 합산을 제공하는 상기 시험 절단 주파수를 선택하는 단계를 수행하는 것을 특징으로 하는 음성 코더.
제 24 항에 있어서, 상기 보이싱 수단은, 상기 고조파 주파수 대역의 형상과 상기 대역에 대한 참고(reference) 형상을 상관시킴으로써 형성되는 것을 특징으로 하는 음성 코더.
제 25 항에 있어서, 상기 입력 음성 신호에 윈도우 함수를 부가하고, 상기 윈도우된 입력 음성 신호에서 상기 고조파 주파수 대역들을 포함하는 주파수 스펙트럼을 유도하기 위한 수단을 포함하며, 상기 참고 형상은 상기 윈도우 함수에서 유도되는 것을 특징으로 하는 음성 코더.
제 20 항 내지 제 26 항 중 어느 한 항에 있어서, 상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 피치 값에 고조파적으로 관련된 주파수들에 중심된(centered) 다른 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더.
제 20 항 내지 제 27 항 중 어느 한 항에 있어서, 상기 피치 결정 수단은, 각 프레임의 전위(leading) 부분에 대한 피치의 제 1 값 및 각 프레임의 후위(trailing) 부분에 대한 피치의 제 2 값을 결정하며, 상기 양자화 수단은 상기 양 피치 값들을 모두 양자화하는 것을 특징으로 하는 음성 코더.
제 23 항 내지 제 26 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 각 프레임의 전위 부분을 위한 제 1 상기 보이싱 절단 주파수, 및 각 프레임의 후위 부분을 위한 제 2 상기 보이싱 절단 주파수를 발생하는 것을 특징으로 하는 음성 코더.
입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,

디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;

샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;

주파수 스펙트럼을 유성화된 부분과 무성화된 부분으로 분리하되 개별적인 고조파 주파수 대역들의 상기 유성화/무성화 상태를 계산하지 않으면서, 보이싱 절단 주파수를 각 프레임에 대해 결정하기 위한 보이싱 수단;

각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 계수들, 상기 피치 값, 상기 보이싱 절단 주파수, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는 것을 특징으로 하는 음성 코더.
제 30 항에 있어서, 각 프레임에 대해 상기 보이싱 수단은,

(i) 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 각 주파수 대역에 대한 보이싱 수치를 유도하는 단계;

(ii) 각 고조파 주파수 대역에 대한 상기 보이싱 수치와 임계 값을 비교하여 양 또는 음의 값인 비교 값을 발생시키는 단계;

(iii) 상기 상응하는 고조파 주파수 대역이 시험 절단 주파수 이상에 존재할 경우, 상기 비교 값의 부호를 반전시키는 양만큼 각 비교 값을 바이어싱(biasing)하는 단계;

(iv) 상기 바이어싱된 비교 값들을 상기 프레임의 다수의 고조파 주파수 대역들에 걸쳐 합산하는 단계;

(v) 다수의 다른 시험 절단 주파수들에 대해 상기 (i) 내지 (iv) 단계들을 반복하는 단계; 및

(vi) 상기 프레임에 대한 보이싱 절단 주파수로서 최대 합산을 제공하는 상기 시험 절단 주파수를 선택하는 단계를 수행하는 것을 특징으로 하는 음성 코더.
제 31 항에 있어서, 상기 보이싱 수단은, 상기 각 고조파 주파수 대역의 형상과 상기 대역에 대한 참고(reference) 형상을 상관시킴으로써 형성되는 것을 특징으로 하는 음성 코더.
제 32 항에 있어서, 상기 입력 음성 신호에 윈도우 함수를 부가하고, 상기 윈도우된 입력 음성 신호에서 상기 고조파 주파수 대역들을 포함하는 주파수 스펙트럼을 유도하기 위한 수단을 포함하며, 상기 참고 형상은 상기 윈도우 함수에서 유도되는 것을 특징으로 하는 음성 코더.
제 30 항 내지 제 33 항 중 어느 한 항에 있어서, 상기 보이싱 수단은, 각 프레임의 전위 부분에 대한 제 1 보이싱 절단 주파수, 및 각 프레임에 대한 후위 부분에 대한 제 2 보이싱 절단 주파수를 결정하며, 상기 양자화 수단은 상기 두 보이싱 절단 주파수의 값들을 양자화하는 것을 특징으로 하는 음성 코더.
제 15, 24 또는 31 항 중 어느 한 항에 있어서, 상기 임계 값은 상기 입력 음성 신호의 배경 성분의 레벨에 좌우되는 것을 특징으로 하는 음성 코더.
제 35 항에 있어서, 상기 보이싱 수단은, 배경 성분의 상기 레벨에 따라 상기 임계 값의 추정을 계산하고, 본 명세서에서 정의된 E-lf/E-hf, T₂/T₁, ZC, 또는 ER 중 1 이상의 값에 따라 상기 추정을 수정하고, 그리고 본 명세서에 정의된 PKY1, PKY2, CM, 및 E-OR 중 1 이상의 값에 따라 상기 추정을 더 수정하는 것을 특징으로 하는 음성 코더.
입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,

디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;

샘플들을 분해하고, 각 프레임에 대한 적어도 한 세트의 선형 예상 계수들을 발생시키는 선행 예상 코딩(linear predictive coding;LPC) 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;

각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;

각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및

각 프레임에 대한 한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 예상 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 진폭 결정 수단은, 상기 피치 결정 수단에 의해 결정된 상기 피치 값에 고조파적으로 관련된 주파수들에 중심된 주파수 대역들에 대한 한 세트의 스펙트랄 진폭들을 각 프레임에 대해 발생시키며, 상기 양자화 수단은, 진폭 양자화 색인의 제 1 부분을 발생시키기 위해 표준화된 상기 스펙트랄 진폭들을 양자화하는 것을 특징으로 하는 음성 코더.
제 37 항에 있어서, 각 프레임에 대한 상기 스펙트랄 진폭들은 상기 프레임에 대한 LPC 잉여(residual) 신호에서 유도되는 것을 특징으로 하는 음성 코더.
제 37 항에 있어서, 각 프레임에 대한 상기 스펙트랄 진폭들은 상기 프레임의 예상 계수들에서 유도된 LPC 주파수 스펙트럼을 참고하여 양자화되는 것을 특징으로 하는 음성 코더.
입력 음성 신호를 인코딩하기 위한 인코더를 포함하는 음성 코더에 있어서,상기 인코더는,

디지털 샘플들을 발생시키기 위해 상기 입력 음성 신호를 샘플링하고, 사전 지정된 갯수의 샘플들로 각각 구성된 프레임들로 분할하기 위한 수단;

각 프레임의 전위 부분과 후위 부분에 대한 선 스펙트랄 주파수(line spectral frequency; LSF) 계수들의 각 세트를 발생하기 위해 샘플들을 분해하기 위한 선행 예상 코딩 수단;

각 프레임에 대한 적어도 하나의 피치 값을 결정하기 위한 피치 결정 수단;

각 프레임내의 유성화된 신호들 및 무성화된 신호들의 수치를 정의하기 위한 보이싱(voicing) 수단;

각 프레임에 대한 진폭 정보를 발생시키기 위한 진폭 결정 수단; 및

한 세트의 양자화 색인들을 발생시키기 위하여, 상기 세트의 LSF 계수들, 상기 피치 값, 상기 유성화된 신호들 및 무성화된 신호들의 상기 수치, 및 상기 진폭 정보를 양자화하기 위한 양자화 수단을 포함하는데,

상기 양자화 수단은,

LSF'2 = αLSF'1 + (1-α)LSF'3 (상기에서 LSF'3 및 LSF'1 은 각각 현재 프레임 및 현재 프레임을 인접 선행하는 프레임의 상기 후위 부분의 양자화된 LSF 계수들의 세트들이고, α는 제 1 벡터 양자화 코드북의 벡터임) 라는 등식에 의해 현재 프레임의 상기 전위 부분에 대한 한 세트의 양자화된 LSF 계수들(LSF'2)을 정의하고,

제 2 벡터 양자화 코드북의 각 LSF 양자화 벡터들 Q2, Q3 과 각 예상 값들 P2, P3 의 조합으로서, 상기 현재 프레임의 상기 전위 및 후위 부분들에 대한 상기 양자화된 LSF 계수들 LSF'2, LSF'3 의 상기 각 세트를 각각 정의하고(상기에서 P2= λQ1 이고 P3 = λQ2 임, λ는 상수이며, Q1 은 상기 인접 선행 프레임의 상기 후위 부분에 대한 상기 LSF 양자화 벡터임), 그리고

상기 현재 프레임에 대해 상기 선형 예상 코딩 수단에 의해 발생된 상기 LSF 계수들(LSF2, LSF3)과 상기 상응하는 양자화된 LSF 계수들(LSF'2, LSF'3) 사이의 왜곡의 수치를 최소화하기 위하여 상기 제 1 및 제 2 벡터 양자화 코드북들에서 상기 벡터 Q3 및 상기 멕터 α를 각각 선택하는 것을 특징으로 하는 음성 코더.
제 40 항에 있어서, 상기 제 2 벡터 양자화 코드북은, 한 세트내의 LSF 계수들의 어떤 그룹들이 양자화되었는지에 따라 적어도 2 그룹의 상기 벡터들을 포함하는 것을 특징으로 하는 음성 코더.
제 40 항 또는 제 41 항에 있어서, 상기 왜곡의 수치는,

ε= W₁(LSF'3 - LSF3)²+ W₂(LSF'2 - LSF2)²(상기에서 W₁및 W₂는 지각 가중치들임)로 주어지는 에러 함수 ε인 것을 특징으로 하는 음성 코더.
제 1 항 내지 제 42 항 중 어느 한 항에 있어서,

상기 인코더에 의해 발생된 상기 양자화 색인들을 디코딩하기 위한 수단; 및 상기 입력 음성 신호를 나타내는 디지털 신호의 시퀀스를 발생시키기 위하여 상기 디코딩된 양자화 색인들을 처리하기 위한 수단을 포함하는 디코더를 더 포함하는 것을 특징으로 하는 음성 코더.
제 37 항 내지 39 항 중 어느 한 항에 있어서,

상기 인코더에 의해 발생된 상기 양자화 색인들을 디코딩하기 위한 수단; 및 상기 입력 음성 신호를 나타내는 디지털 신호의 시퀀스를 발생시키기 위하여 상기 디코딩된 양자화 색인들을 처리하기 위한 처리 수단을 포함하는 디코더를 포함하는데, 상기 처리 수단은,

상기 디코딩된 예상 계수들 및 상응하는 피크-보간된 LPC 주파수 스펙트럼에서 유도된 LPC 주파수 스펙트럼의 비율에서 유도된 가중 요소들에 의해, 상기 진폭 양자화 색인의 상기 제 1 부분에서 유도된 상기 디코딩된 스펙트랄 진폭들을 가중하기 위한 수단을 포함하는 것을 특징으로 하는 음성 코더.
LSF 계수들, 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 한 세트의 양자화 색인들을 디코딩하기 위한 음성 코더에 있어서,

상기 피치 값, 유성화된 신호들 및 무성화된 신호들의 수치, 및 진폭 정보를 나타내는 상기 색인들에서 여기 신호를 유도하기 위한 처리 수단;

상기 LSF 계수들에 따라 상기 여기 신호를 필터링하기 위한 LPC 합성 필터;

상기 LPC 합성 필터에서의 피치 사이클 에너지와 상기 여기 신호내의 상응하는 피치 사이클 에너지를 비교하기 위한 수단;

상기 비교된 피치 사이클 에너지들 사이의 차이를 감소시키기 위하여 상기 여기 신호를 수정하기 위한 수단; 및

상기 수정된 여기 신호를 필터링하기 위한 다른 LPC 합성 필터를 포함하는 것을 특징으로 하는 음성 코더.