KR0127901B1

KR0127901B1 - 음성 인코딩 장치 및 그 방법

Info

Publication number: KR0127901B1
Application number: KR1019880007692A
Authority: KR
Inventors: 해리 켓첨 리챠드; 바스티안 클레이엔 윌리암; 죤 크라신스키 다니엘
Original assignee: 엘리 와이스; 아메리칸 텔리폰 앤드 텔레그라프 캄파니
Priority date: 1987-06-26
Filing date: 1988-06-25
Publication date: 1998-04-04
Also published as: US4899385A; DE3854453D1; ATE127952T1; HK183496A; AU596014B2; AU1838488A; JP2657927B2; EP0296763B1; KR890001021A; CA1335841C; JPS6454497A; DE3854453T2; EP0296763A1

Abstract

내용없음

Description

음성 인코딩 장치 및 그 방법

제1도는 본 발명의 요지에 따른 보코더의 단면도와 분석기 및 합성기를 형성하는 블럭도.

제2도는 가상 탐색 기술을 사용하는 코드북으로부터의 여기 벡터의 형성에 대한 그래프도.

제3도 내지 6도는 본 발명의 벡터 및 매트릭스 동작의 그래프도.

제7도는 제1도의 적응 탐색기를 상세히 설명한 도시도.

제8도는 제7도의 가상 탐색 제어기를 상세히 설명한 도시도.

제9도는 제77도의 에너지 계산기를 상세히 설명한 도시도.

* 도면의 주요 부분에 대한 부호의 설명

101 : 분석기, 102 : 목표 여기 계산기,

105,152 : 확률 코드북, 106 : 적응 탐색기,

104,155 : 적응 코드북, 701 : 탐색 결정기,

708 : 가상 탐색 제어기, 703,709 : 에너지 계산기,

706,701 : 에러 계산기, 714 : 후보 선택기

본 발명은 음성에 대한 낮은 비트 레이트의 코딩 및 디코딩에 관하며 특히 개선된 코드 여기형 선형예측 보코더(improved code excited liner predictive vocoder)에 관한다.

코드 여기형 선형 예측 코딩(CELP)은 잘 알려진 기술이다. 이 코딩 기술은 선형 예측(linear predictive)(LPC)필터의 여기를 위해 인코드된 여기 정보를 활용하여 음성을 합성 한다. 상기 여기(excitation)는 구성적 단계마다 후보 여기 벡터의 테이블을 탐색함으로써 발견된다

LPC 필터를 결정하기 위해 입력 음성(input speech)상에서 LPC 분석이 실행된다. 상기 분석은 테이블 또는 코드북으로부터 다양한 후보 벡터에 의해 여기될 때 LPC 필터의 출력들을 비교함으로써 진행된다. 입력 음성과 그에 상응하는 합성된 출력이 얼마나 잘 일치하느냐에 따라 최상의 후보가 선택된다. 최상의 일치가 이루어진후에 최상의 코드북 엔트리 및 필터를 나타내는 정보가 합성기로 송신된다. 상기 합성기는 동일한 코드북을 가지며 이 코드북에 있는 적절한 엔트리를 액세스하고 그것을 사용하여 동일한 LPC 필터를 여기한다.

상기 코드북은 벡터들로 구성되는데 이 벡터들의 성분은 연속적인 여기 샘플이다. 각 벡터는 프레임에 있는 음성 샘플의 수와 동일한 수의 여기 샘플을 포함한다. 상기 벡터는 다음의 두가지 방법중 한가지로 구성될 수 있다. 제1의 방법은 임의의 샘플 세트를 사용하여 벡터를 정의하는 것이다. 제2의 방법은, 여기 정보의 선형 어레이를 따라 윈도우를 이동시킴으로써 벡터를 정의하는 것이다.

CELP 코드북의 벡터에서 사용되는 여기 샘플들은 일련의 많은 공급원으로부터 나올수 있다. 한가지 특별한 예가 확률적으로 여기된 선형 예측(Stochastically Excited Linear Prediction (SELP)method)방법이며, 이 방법은 화이트 노이즈(white noise) 또는 랜덤 넘버(random number)들을 샘플로서 사용한다. 또다른 방법은 적응 코드북을 사용하는 것이다. 이 설계에 있어서, 현재 프레임을 위해 결정된 합성 여기를 사용하여 미래 프레임에 대한 코드북을 새롭게 한다. 이 절차로 인해 여기 코드북은 음성에 적응될 수 있다.

음성을 코딩하는 CELP 기술의 문제점은 코드북에 있는 정보의 여기 세트 각각을 LPC 필터를 여기하는데 사용해야만 하고 그런 다음 에러 범위를 이용하여 그 여기 결과를 비교해야만 한다는 점이다. 일반적으로 원래의 음성 샘플과 정보 세트 각각에 대한 여기 정보로부터 발생된 합성된 음성 샘플들 사이의 제곱차의 합을 결정하는데 상기 에러 범위의 사용된다. 이 계산은 코드북에 저장된 여기 정보의 각 트에 대한 콘볼루션을 LPC 필터에 연관시킨다. 상기 계산은 여기 정보에 대한 벡터 및 매트릭스 동작과 LPC 필터를 이용하여 실행된다. 상기 문제는 아주 많은 계산, 즉 4.8Kbs 보코더에 있어서 초당 약 500만번의 곱셈-덧셈 동작이며 이것은 실행되어야만 한다.

해법

후술되는 문제를 해결하고 고효율의 CELP 계산기 장치를 이용하는 보코더에 의해 기술적 진보를 달성한다. 상기 계산기 장치는 유한 임펄스 응답(finite impulse reponse) LPC 필터와 오버래핑 코드북(overlapping codebook)을 이용하여 CELP 동작에 대한 계산을 순환적으로 실행한다. 상기 오버래핑 코드북으로부터 액세스된 각각의 여기 벡터에 있어서는, 종래의 방법에서 액세스된 여기 백터의 모든 셈플들과는 달리, 액세스된 벡터중 단지 두 개의 샘플 포인트만이 산술 동작을 가지며 실행되어야 한다.

본 발명에 따른 방법은 현재 음성 프레임에 응답하여 여기 정보의 목표 세트를 형성하는 단계와 동일한 음성 프레임에 응답하여 필터 계수 세트를 결정하는 단계와, 상기 필터 계수에 응답하여 유한 임펄스 응답 필터 모델을 계산하는 단계와, 테이블에 저장된 여기 정보의 다수 후보 세트 각각을 상기 유한 임펄스 응답 필터에 연속적으로 인가하여 에러값을 순환적으로 계산함으로써 상기 여기 후보 세트 각각에 대한 유한 임펄스 응답 필터의 응답과 상기 목표 여기 세트 사이의 에러값을 결정하는 단계와, 음성 프레임을 재생하기 위해 가장 작은 에러값을 가지고 있던 테이블에서 선택된 후보 세트의 위치를 나타내는 정보와 상기 픽터 계수를 연결하는 단계를 포함한다.

상기 방법은 또한 원래의 목표 여기 세트에서 선택된 후보 여기 세트를 빼서 다른 목표 여기 세트를 형성하는 단계와, 유한 임펄스 응답 필터에 응답해서 다른 테이블에 저장된 다른 다수의 후보 여기 세트 각각에 다른 에러값을 순환적으로 계산하는 단계와, 가장 작은 에러값을 갖고 있는 다른 후보 세트 중 하나를 선택하는 단계와 현재 프레임에 대한 음성을 재생하기 위해 선택된 다른 후보 세트의 테이블에서 그 위치를 나타내는 정보를 연결하는 단계를 더 포함한다.

상기 후보 여기 세트는 오버래핑 방법에 의해 테이블에 저장되며 그로 인해 각 후보 세트는 단지 제1및 제2의 여기 정보의 서브세트에 의해 이전의 후보 세트와 차이가 나며 또한 상기 순환적인 계산단계는 순간 에러값(temporary error value)를 형성하기 위해 이전의 후보 세트의 에러값으로부터 여기정보의 상기 제1의 서브세트의 효과를 제거하는 단계와, 현재의 후보 여기 후보 세트에 대한 에러값을 계산중에 형성하기 위해 에러값으로부터 상기 순간 에러값에 대해 여기 정보의 상기 제2서브세트의 효과를 더하는 단계를 포함한다.

또한 상기 목표 여기 세트를 형성하는 단계는 이전의 프레임에 대해 정보의 링잉(ringing)세트를 계산하는 단계와, 중간 세트를 발생시키기 위한 현재 프레임에 대한 음성으로부터 상기 링잉 세트를 빼는단계와, 현재의 프레임에 대한 필터 계수에 기초해서 화이트닝 필터링(whitening filtering)하는 단계를 포함한다.

또한, 상기 링잉 세트 계산 단계는 합성 여기 세트를 형성하기 위해 각각의 테이블로부터 선택된 후보 여기 세트를 더하는 단계와, 상기 필터 계수에 기초해서 상기 합성 여기 세트를 필터링하는 단계와, 필터 계수 및 이전의 프레임으로부터 필터된 합성 여기 세트에 기초하여 제로-임펄스 응답 필터링 단계를 포함한다. 또한 상기 방법은 상기 정보 테이블을 새롭게 상기 합성 여기 세트를 제1테이블에 더하는 단계를 더 포함한다.

본 발명에 따른 장치는 현재의 프레임으로부터 목표 여기 세트를 형성하는 계산기와, 상기 현재의 프레임에 응답해서 필터 계수를 결정하는 분석기와, 상기 필터 계수로부터 유한 임펄스 응답 필터 정보를 계산하는 계산기와, 상기 유한 임펄스 응답 필터 정보에 응답해서 테이블에 저장된 다수의 후보 여기세트 각각에 대한 에러값과 저장된 후보 여기 각각에 대한 에러값과 상기 목표 여기 세트에 대한 에러값을 계산하는 순환 계산기와, 디코더에 의한 재생을 위해 상기 필터 계수와 가장 작은 값을 가지고 있던 테이블에 선택된 후보 여기 세트의 위치를 전송하는 인코더를 포함한다.

제1도는 본 발명의 목적에 따른 보코더의 블럭도를 도시한다. 소자(101) 내지 (112)는 보코더의 분석기 부분을 표시하며, 반면에 소자(151) 내지 (157)은 보코더의 합성기를 표시한다. 제1도의 분석기 부분은 경로(120)을 통해 수신된 인입 음성에 응답해서 아날로그 음성을 디지탈 샘플로 디지탈적으로 샘플화하고 공지된 기술을 사용하여 이들 디지탈 샘플들을 프레임으로 그룹화한다. 각각의 프레임에 있어서, 상기 분석기 부분은 음성 트랙의 포맷 특성을 나타내는 LPC계수를 계산하고 스케이링 인자와 함께 상기 프레임에 대한 음성에 가장 근접한 확률 코드북(105)과 적응 코드북(104) 둘 모두로부터 엔트리를 탐색한다. 상기 엔트리와 스케일링 정보는 분석기 부분에 의해 결정된 바에 따라 여기 정보를 정의한다. 그런 다음 상기 여기 및 계수 정보는 경로(145)를 통해 인코더(109)에 의해 제1도에 도시한 보코더의 합성기 부분으로 송신된다. 확률 발생기(153)과 적응 발생기(154)는 상기 코드북 엔트리와 스케일링 인자에 응답해서 보코더의 분석기 부분에서 계산된 여기 정보를 재생하며 또한 이 여기 정보를 활용하여 LPC 필터를 여기하며 상기 LPC 필터는 음성을 재생하도록 상기 분석기 부분으로부터 수신된 LPC계수에 의해 결정된다.

제1도의 분석기 부분 기능을 자세히 고려한다.

분석기(101)은 알려진 기술을 사용하여 LPC 계수 결정을 위해 들어오는 음성에 응답한다. 이들 계수들은 목표 여기 계산기(102), 스펙트럼 가중 계산기(103), 인코더(109), 필터(110), 제로-입력 응답 필터(111)에 송신된다. 인코드(109)는 나중의 계수가 경로(145)를 통해 디코더(151)에 송신되도록 하기 위해 LPC 계수에 응답한다. 스펙트럼 가중 계산기(103)는 상기 계수들에 응답해서 스펙트럼 가중정보를 매트릭스 형태로 계산하며 상기 가중 정보는 중요한 음성 내용을 가지도록 공지된 음성 부분을 강조한다. 이 스펙트럼 가중 정보는 유한 임펄스 응답 LPC 필터에 기초한다. 상기 유한 임펄스 응답필터의 활용함으로써 탐색시(106) 및 (107)에서 수행되는 계산을 실행하는데 필요한 많은 계산 과정이 감소한다. 상기 탐색기는 상기 스펙트럼 가중 정보를 활용하여 코드북(104)와 (105)로부터 여기 정보에 대한 최상의 후보를 결정한다.

목표 여기 계산기(102)는 탐색기(106) 및 (107)가 근접하고자 하는 목표 여기를 계산한다. 상기 목표 여기는 분석기(101)에 의해 계산된 LPC 계수에 기초한 화이트닝 필터를 이전의 프레임의 여기 영향과 LPC 필터를 뺀 인입 신호로 콘벌브(connvolving)함으로써 계산된다. 이전의 프레임에 대한 후자의 영향은 필터(110)과 (111)에 의해 계산된다. 이전의 프레임에 대한 상기 여기 및 LPC 필터를 고려해야만 하는 이유는 이들 인자들이 LPC 필터의 링잉으로 종종 참조되는 현재의 프레임에 있는 신호 성분을 생성하기 때문이다. 후술될 바와 같이, 필터(110,111)은 이전의 프레임으로부터의 LPC 계수와 계산된 여기에 응답해서 상기 링잉 신호를 결정하고 이것을 경로(144)를 통해 감산기(112)로 전송한다. 감산기(112)는 상기 나중의 신호와 현재의 음성에 응답해서 상기 링잉 신호를 뺀 현재의 음성을 나타내는 나머지 신호를 계산한다. 계산기(102)는 상기 나머지 신호에 응답해서 목표 여기 정보를 계산하고 나중의 정보를 경로('123)을 통해 탐색기(106) 및 (107)에 전송한다.

상기 후의 탐색기는 인코더(109)와 경로(145)를 통해 코드북 인덱스 및 스케일링 인자 형태로 도 1의 합성기 부분으로 전송되는, 합성기 여기로도 칭해지는 상기 계산된 여기를 연속적으로 결정하는 동작을 한다. 각 탐색기는 일부의 계산된 여기를 계산한다. 먼저, 적응 탐색기(106)는 여기 정보를 계산하고 경로(127)을 통해 계산된 것을 확률 탐색기(107)에 송신한다. 탐색기(107)는 경로(123)을 통해 수신된 목표 여기와 적응 탐색기(106)로부터의 여기 정보에 응답해서 계산기(102)에 의해 계산된 목표여기에 가장 근접하는 계산된 여기의 나머지 부분을 계산한다. 탐색기(107)은 목표 여기에서 탐색기(106)에 의해 결정된 여기를 감산함으로써 계산될 나머지 여기를 결정한다. 탐색기(106,107)에 의해 결정된 계산된 여기 또는 합성 여기는 경로(127,126)을 통해 각각 가산기(108)에 송신된다. 가산기(108)는 현재의 프레임에 대한 합성 여기에 도착되게 하기 위해 2개의 여기 성분을 함께 더한다. 상기 합성기는 합성 여기를 사용하여 합성된 음성을 생성한다.

가산기(108)의 출력은 또한(128)을 통해 필터(110) 및 적응 코드북(104)에 송신된다. 경로(128)을 통해 송신된 여기 정보는 적응 코드북(104)을 새롭게 하기 위해 활용된다. 상기 코드북 인덱스들 및 스케일링 인자는 탐색기(106,107)로부터 경로(125) 및 (124)를 통해 인코더(109)에 각각 송신된다.

탐색기(106)는 적응 코드북(104)에 저장된 여기 정보 세트를 액세스하고 또한 각각의 정보 세트를 활용함으로써 경로(123)을 통해 수신된 목표 여기와 코드북(104)로부터 액세스된 여기 세트 사이의 에러 범위를 최소화한다. 적응 코드북(104)에 저장된 정보는 인간 음성의 동적 범위에 있어 변화를 허용하지 않기 때문에 각각의 액세스된 정보 세트에 대해 스케일링 인자도 또한 계산된다.

상기 사용된 에러 범위는 원래 음성과 합성된 음성 사이의 차의 제곱이다. 상기 합성 음성은 제1도의 합성기 부분에서 LPC 필터(117)의 출력상에서 재생된다. 상기 합성 음성은 코드북(104) 및 링잉신호로부터 얻어전 합성 여기 정보를 고려하여 계산되며, 음성 신호는 목표 여기 및 링잉 신호로부터 계산된다. 매트릭스로서 표현된 계산기(103)로부터 가중 징보를 활용하는 분석기(102)에 의해 결정된바에 따라 LPC 필터의 콘벌루션을 실행으로써 합성 음성에 대한 여기 정보가 활용된다. 상기 에러 범위는 코드북(104)로부터 얻어진 각 정보의 세트에 대해 구해지며 가장 낮은 값을 주는 여기 정보 세트는 현재 프레임에 대해 활용되어진 정보의 세트이다.

탐색기(106)가 스케일링 계수와 함께 활용되어질 여기 정보의 세트를 결정한 후에, 코드북내의 상기 인덱스 및 스케일링 인자는 경로(125)를 통해 인코더(109)에 송신되고, 여기 정보도 또한 경로(127)을 통해 확률 탐지기(107)에 송신된다. 확률 탐지기(107)는 경로(123)을 통해 수신된 목표 여기로부터 적응 탐색기(106)의 여기 정보를 뺀다. 그런 다음 확률 탐색기(107)도 적응 탐색기(106)에 의해 수행된 것과 유사한 동작을 수행한다.

적응 코드북(104)내의 여기 정보는 앞의 프레임에서 나온 여기 정보이다. 각 프레임에 있어서, 여기정보는 샘플된 원래 음성에 대한 샘플수와 동일한 수의 샘플로 구성된다. 유리하게, 상기 여기 정보는 4.8Kbps 송신률에 대해 55개의 샘플로 구성될 수 있다. 상기 코드북은 푸시 다운 목록으로 구성되어 있기 때문에 코드북에 현재 있는 가장 최근의 샘플 대신에 새로운 샘플 세트가 간단하게 넣어진다. 코드북(104)외의 여기 정보 세트를 활용할 때는, 탐색기(106)는 샘플 세트를 무질서하게 다루는 것처럼 상기 샘플들 세트를 취급하는 것이 아니라 여기 샘플들의 선형 배열처럼 코드북내의 샘플들을 취급한다. 예를 들어, 탐색기(106)는 코드북(104)부터 샘플 1 내지 샘플 55를 활용함으로써 정보의 제1후보세트를 형성하고, 코드북으로부터 샘플 2 내지 샘플 56을 이용함으로써 정보의 제2후보 세트를 형성한다. 이러한 형태의 탐색 코드북을 오버래핑 코드북이라 칭한다.

이 선형 탐색 기술은 코드북에 있는 샘플의 끝을 접근하는 기술이기 때문에 더 이상의 활용될 정보세트는 없다. 정보의 세트를 또한 여기 벡터로 칭한다. 이점에서 상기 탐색기는 가상 탐색을 수행한다. 가상 탐색은 테이블로부터 반복액세스된 정보를 정보 세트의 뒷 부분에 연관시키며 이를 위해 테이블에는 샘플이 존재하지 않는다. 이 가상 탐색 기술로 인해 적응 탐색기(106)는 음성의 소리가 나지 않는 영역으로부터 음성의 소리가 나는 영역으로의 변환되는 것에 대해 더욱 빠르게 반응할 수 있다. 그 이유는 소리가 나지 않는 음성 영역에서 여기가 화이트 노이즈와 유사하지만 반면에 소리가 나는 영역에서는 기본적인 주파수가 존재하기 때문이다. 일단 코드북으로부터 기본적인 주파수가 인식되면 그것은 반복된다.

제2도는 코드북에 저장되어 있는 여기 샘플의 일부를 도시한 것으로서 설명의 편의상 여기 세트당 단지 10개의 샘플만이 있는 것으로 가정한다. 라인(201)은 코드북의 내용을 도시하고 라인(202),(203)및 (204)는 가상 탐색 기술을 활용하여 형성된 여기 세트를 도시한다. 상기 라인(202)에 도시된 여기세트는 라인(201)상의 샘플(205)에서 시작하는 코드북을 탐색함으로써 형성될 수 있다. 샘플(205)에서의 시작에 있어서는 테이블에 오직 9개의 샘플이 있으며, 그러므로 샘플(208)은 샘플(208)로서 반복되어 라인(202)에 도시된 여기 세트의 10번째 샘플을 형성한다. 라인(202)의 샘플(208)은 라인(201)의 샘플(205)에 대응한다. 라인 (203)은 라인(202)에 도시된 것에 뒤이은 여기 세트를 도시하며 라인(201)상의 샘플(206)에서 시작함으로써 형성된다. 샘플(206)에서의 시작에 있어서는 코드북내에 단지 8개의 샘플만이 존재하며, 그러므로 샘플(210)과 같이 그룹화된 라인(203)의 제1번째 2 샘플은 샘플(211)과 같이 그룹화된 라인(203)에 도시된 여기 세트의 끝에서 반복된다. 라인(203)에 도시된 현저한 피크가 피치 피크(pitch peak)이면 이 피치는 샘플(201)과 (211)에서 반복되었다는 것을 숙련된 기술자들은 관찰할 수 있다. 라인(204)는 코드북내의 샘플 (207)에서 시작하면서 형성된 제3번째 여기 세트를 도시한다. 도시된 바와 같이 (212)로 표시된 3 샘플들은 라인(204)에 도시된 여기 세트의 말단 부분에서 반복되며 샘플(213)도 마찬가지이다. 코드북(104)의 내용이 각각의 프레임의 종료부에서 새롭게되기 때문에 라인(201)의 (207)로 라벨이 붙어있는 초기 피치 피크가 탐색기(106 및 107)에 수행되는 탐색의 누적이 되도록 실현하는 것이 중요하다. 상기 확률 탐색기(107)은 일반적으로 음소리가 나지 않는 영역에서 소리가 나는 영역으로 들어가면 (207)과 마찬가지로 피치 피크에 첫번째로 도달한다.

확률 탐색기(107)는 적용 탐색기(106)와 유사한 방법으로 기능하지만 확률 탐색기는 목표 여기 계산기로부터의 목표 여기와 탐색기(106)에 의해 발견된 가장 잘 우수한 정합을 나타내는 여기와의 사이의 차를 목표 여기로서 사용한다는 점이 다르다. 덧붙이면, 탐색기(107)는 가상 탐색을 실행하지 않는다.

제1도의 분석기 부분을 자세하게 설명한다. 이 설명은 매트릭스 및 벡터 수학에 기초한다. 목표 여기 계산기(102)는 다음과 같은 방법으로 목표 여기 벡터 t를 계산한다.

s=Ht+z

H 매트릭스는 LPC 분석기(101)로부터 경로(121)를 통해 수신된 LPC 계수에 의해 정의된 전-극성 LPC 합성기(all-pole LPC synthesis)의 매트릭스이다. H에 의해 표현된 필터의 구조는 본 명세서에서 나중에 더욱더 상세히 설명될 것이며 이것은 본 발명의 요지의 일부이다. 상기 벡터 Z는 이전의 프레임 동안에 수신된 여기로부터의 전-극성 필터의 링잉을 나타낸다. 앞에서 설명된 바와같이 벡터 Z는 LPC 필터(110)와 제로-입력 응답 필터(111)로부터 유도된다. 계산기(102) 및 감산기(112)는 벡터 S에서 벡터 Z을 감산함으로써 또한 LPC 분석기(101)에 의해 발생되고 경로(121)를 통해 전송된 LPC계수로부터 유도된 전-제로(all-zero) LPC 분석 필터를 통해 상기 결과적인 신호 벡터를 처리함으로써 목표 여기를 나타내는 벡터 t를 얻는다. 상기 목표 여기 벡터 t는 전-제로 LPC 분석 필터 즉 화이트닝 필터의 콘볼루숀 동작의 실행에 의해 얻어지며, 또한 원래의 음성으로부터 링잉을 감산하여 차 신호를 얻는다. 이 콘볼루숀은 잘 알려진 신호 처리 기술에 의해 수행된다.

적응 탐색기(106)는 적응 코드북(104)를 탐색하여 목표 여기 벡터 t와 가장 잘 정합되는 후보 여기 벡터 r을 찾는다. 벡터 r는 또한 여기 정보의 세트로도 언급된다. 최고의 정합을 결정하기 위해 사용된 에러 범위는 원래의 음성과 합성 음성 사이의 차의 제곱이다. 원래의 음성은 벡터 s에 의해 주어지고 합성 음성은 벡터 y에 의해 주어지며 이것은 다음과 같은 식으로 계산된다.

y=HL_ir_i+z

여기서 L_i는 스케일링 인자이다.

상기 에러 범위는 다음의 형태로 쓰여질 수 있다.

e=(Ht+z-HL_ir_i-z)^T(Ht+z-HL_ir_i-z) (1)

상기 에러 범위에서, 매트릭스 H는 지각적으로(perceptually) 중요한 이들 스펙트럼 부분이 강조되도록 하기 위해 수정된다. 이것은 잘 알려진 극-대역 와이딩(ploe-bandwidth widing)기술에 의해 이루어진다. 식(1)은 다음과 같이 다시 씌여질 수 있다.

e=(t-L_ir_i)^TH^TH(t - L_ir_i) (2)

식(2)는 다음에 도시한 바와같이 쓸수 있다.

e=t^TH^THt+L_ir_i ^TH^THL_ir_i-2L_ir_i ^TH^THt (3)

식(3)이 제1항은 주어진 어떤 프레임에 대하여 상수이고 어느 r_i벡터가 코드북(104)으로부터 활용될 것인가를 결정하는데 있어서 에러의 계산으로부터 드롭된다. 코드북(104)내의 각각의 여기 벡터 r_i에 있어서, 가장 낮은 값 e를 갖는 r_i를 선택하기 위해 식(3)은 풀여져야만 하고 에러 범위 e는 결정되여야만 한다. 이것은 L_i와 관련하여 부분 도함수를 취하고 이것을 제로로 설정함으로써 스프레이트 포워드 방식으로 실행되며 다음과 같은 식을 생성한다.

식(4)의 분자는 보통 상호 상관 항으로 칭해지며 분모는 에너지항으로 언급된다. 상기 에너지 항은 상호 상환 항보다 더 많은 계산을 요구한다. 이유은 상호 상관항에서 마지막 세 요소의 적은 오직 벡터를 생성하는 프레임당 오직 한번의 계산을 필요로 하기 때문이며, 그런 다음 각각의 새로운 후보 벡터 r_i에 대해 이동된 후호 벡터와 상호 상관 항의 마지막 3요소의 계산으로부터 생성된 상수 벡터와의 도트적을 간단하게 취할 필요가 있다.

상기 에너지항은 먼저 Hr_i를 계산하고 그런 다음 이것을 이동시켜 Hr_i와 Hr_i사이의 내적을 취한다. 이로 인해 다수의 매트릭스와 다수의 계산을 요하는 벡터 동작이 생긴다. 본 발명은 계산의 횟수를 감소시키고 합성 음성의 결과를 향상시킨다.

본 발명은 종래에 사용된 기술에 대해 무한 임펄스 응답 LPC 필터보다는 유한 임펄스 응답 필터를 활용함으로써 상기 목적을 실현한다. 일정한 응답 길이를 갖는 유한 임펄스 응답 필터를 상요하면 종래 기술과는 다른 대칭을 갖는 H 매트릭스가 생성된다. 상기 H 매트릭스는 매트릭스 표시와 관련하여 유한 임필스 응답 필터의 동작을 나타낸다. 상기 필터가 유한 입펄스 응답 필터이기 때문에, 이 필터의 콘볼루션과 각각의 후보 벡터 r_i로 표시되는 여기 정보로 인해 유한수의 응답 샘플을 발생하는 벡터 r_i의 각각의 샘플이 생기며 이것은 R 넘버의 샘플로 설계된다. Hr_i를 계산하는 매트릭스 벡터 동작이 콘볼루숀 동작으로 수행될 때 후보 벡터 r_i내의 각 샘플의 결과로부터 나오는 모든 R 응답 포인트는 서로 합해져서 합성 음성의 프레임을 형성한다.

유한 임펄스 응답 필터로 표현되는 H 매트릭스 N+R을 N으로 나눈 매트릭스이며 여기서 N은 샘플의 프레임 길이이며 R은 샘플수에서 임펄스 응답이 연결된 길이이다. 이러한 형태의 H 매트릭스를 사용하면, 응답 벡터 Hr은 N+R의 길이를 갖는다. 이러한 형태의 H 매트릭스는 다음과 같이 식(5)로 표현된다.

H 매트릭스 이항에 의해 H매트릭스는 다음과 같이 식 (6)처럼 씌여진다.

A=H^TH (6)

식(6)은 매트릭스 A의 결과이고 이것은 식(7)로 도시된 바와 같이 N을 N 제곱으로 나눈 것이며, 대칭이고 토이플리츠(Toeplitz)이다.

식(7)은 N이 5일때 H^TH로부터 생기는 A 매트릭스를 도시한다. R의 값에 따라 매트릭스 A에서의 그에 해당하는 인수가 0이 될 것이라는 것을 당분야에 익숙한 기술인은 식(5)에서 알 수 있을 것이다. 예를 들어 R=2이면, 인수 A₂, A₃, A₄는 0이된다.

제3도는 에너지항이 무엇인가를 도시하며 제1후보 벡터 r_i에 있어서 이 벡터는 5개의 샘플을 포함하며 이것은 N이 5임을 의미한다. 상기 샘플 X₀부터 X₄는 적응 코드북(104)에 저장된 것번째 5개의 샘플이다. 제2후보 벡터에 있어서 식(4)의 에너지 항의 계산은 제4도에 도시되어 있다. 도4는 단지 후보 벡터가 변환되었다는 것과 X₀샘플은 삭제하고 X₅샘플은 부가함으로써 변환되었다는 것을 도시한다.

상기 제3도에서 도시된 에너지항의 계산값은 스칼라값이다. 제4도에 도시된 바와 같이 단지 X₅샘플은 삭제하고 X₀샘플은 부가함으로써 r_i에 대한 상기 스칼러 값은 후보 벡터 r₂의 스칼러 값과는 다르게 된다. 유한 임펄스 응답 필터의 활용으로 인해 매트릭스 A에 발생된 대칭과 토이플리츠 때문에 제4도의 스칼라값은 다음 방법에 의해 쉽게 계산될 수 있다. 먼저 X₀샘플로 인한 공헌은 제5도에서 도시된 것과 마찬가지로 쉽게 결정될 수 있다는 것을 인식함으로써 제거되어진다. 이 공헌은 쉽게 제거될 수 있는데 왜냐하면 이것은 항(501)에 (502)를 연관시키고 항(504)에 항(503)을 연관시키는 곱셈 및 덧셈 동작에 기초하기 때문이다. 유사하게 제6도는 그 공헌이 항(601)에 항(602)를 연관시키는 동작과 항(604)에 항(603)을 연관시키는 동작때문이다라는 것을 인식함으로써 항 X₅의 부가를 상기 스칼러 값에 부가할 수 있다는 것을 도시한다. 제5도에서 표시된 항의 공헌을 빼버리고 제6도에 표시한 항의 효과를 부가함으로써 제4도의 에너지항은 제3도의 에너지항으로부터 순환적으로 계산될 수 있다. 이 순환적인 계산 방법이 벡터 r_i의 크기와 A 매트릭스와는 독립적이다라는 것은 당 분야에 익숙한기술인에게는 분명하다. 이 순환 방법은 코드북(104) 또는 적용 코드북(105)내에 포함된 후보 벡터들로 하여금 서로 비교되도록 하지만 각각의 새로운 여기 벡터가 코드북으로부터 취해지는 것과 같이 제5도와 제6도에 도시된 부가적인 동작만을 필요로 한다.

일반적으로. 이 순환 계산은 다음의 방법으로 수학적으로 표현될 수 있다. 일련의 마스킹 매트릭스를 I_K로 정의하며 여기서 마지막의 것은 K번째 행에서 나타난다.

또한 다음과 같이 단위 매트릭스를 I로 나타낼 수 있다.

또한 이동 매트릭스는 다음과 같이 정의한다.

토이플리츠 매트릭스에 있어서, 다음의 알려진 정리를 적용한다.

S^TAS=(I-I₁)A(I-I₁) (11)

A 또는 H^TH는 토이플리즈이과, 에너지항에 대한 순환 계산은 명명법에 따라 다음과 같이 표현된다. 먼저 r_j+1벡터와 관련된 에너지항은 다음과 같이 E_j+1로서 표현된다.

E_j+1=r^T _j+1H^THr_j+1(12)

또한, 벡터 r_j+1은 r_j+1의 새로운 샘플을 포함하는 벡터와 결합된 이항 변형에 따라 다음과 같이 표현될 수 있다.

r_j+l=Sr_j+(I-I_N-1)r_j+1(13)

이동 매트릭스 S를 제거하기 위해 식(11)의 이론을 활용하면 식(12)는 다음의 형태로 다시 씌여진다.

E_j+1=E_j+2[r^T _j+1(I-I_N-1)H^THSr_j-r^T _j(I-I₁)H^THI₁r_j]r^T _jH^THI₁r_j+r^T _j+1(I-I_N-1)H^TH(I-I_N-1)r_j+1(14)

식(14)에서 알 수 있는 바와 같이 I 및 S 매트릭스는 하나의 확실한 수와 함께 우세제로를 포함하기 때문에 식(14)를 계산하는데 필요한 계산의 수는 식(3)을 계산하는데 필요한 수보다 크게 감소한다. 당분야 익숙한 기술인에 의한 세부적 분석은 식(14)의 계산이 단지 2Q+4 부동소수점 동작만을 필요로한다는 것을 지적할 것이며 여기서 Q는 R 또는 N 보다 작은 값이다. 이것은 계산수에 있어서는 식(3)에서 필요한 계산수보다 크게 감소된다. 이 계산수의 감소는 무한 임펄스 응답 필터보다는 유한 임펄스 응답 필터를 활용함으로써 또한 H_tH 매트릭스의 토이플리츠 성질에 의해 이루어질 수 있다.

식(14)는 코드북(104)의 보통의 탐색 동안에 에너지항을 적절히 계산한다. 그렇지만 가상 탐색을 시작하면, 식(14)는 에너지 항을 더 이상 정확하게 계산할 수 없게 되는데 왜냐하면 제2도의 라인(204)상의 샘플(213)에 의해 도시된 바와 같은 가상 샘플은 2배의 비로 변화하기 때문이다.

또한 제2도의 샘플(214)에 의해 도시된 보통 탐색의 샘플들은 여기 벡터의 중간에서도 변화한다.이 상태는 샘플(214)와 같이 코드북내의 실제 샘플을 벡터 w_i에 의해 설계되고 또한 제2도의 샘플(213)과 같이 이들 가상부분을 벡터 v_i로 표시함으로써 순환적인 방법에 의해 풀 수 있다. 또한, 가상샘플은 여기 벡터 전체의 절반보다 적게 한정된다. 에너지 항은 이 조건을 활용하는 식(14)로부터 아래와 같이 다시 씌여질 수 있다.

E_i=w^T _iH^THw_i+2_i ^TH^THw_i+v_i ^TH^THv_i(15)

식(]5)의 첫번째 및 세번째 항은 다음과 같은 방법에 따라 계산을 줄일 수 있다. 식(15)의 첫번째항의 순환을 다음과 같이 쓸 수 있다.

w^T _j+1H^THw_j+1=w_j ^TH^THw_j-2j^T(I-I₁)H^THI₁w_j; (16) 및 V_j와_j+1사이의 관계를 다음과 같이 쓸 수 있다.

_j+1=S²(I-I_P+1)V_j+(I-I_N-2)V_j+1(17)

이것은 식(15)의 세번째 항을 다음의 식을 이용함으로써 감소되도록 한다.

H^THv_j+1=S²H^THv_j+S²H^TH(I_p-I_p+1)v_j+(I-I_N-2)H^THS²(I-I_p+1)v_j+H^TH(I-I_N-2)v_j+1(18)

변수 p는 코드북(104)내에 실제로 존재하는 샘플의 수이며 현재의 여기 벡터에서 현재로 사용되고있는 것이다. 샘플수의 예가 제2도의 샘플(214)에 의해 주어진다. 식(15)의 제2항은 v_i ^TH^TH가 단순히 매트릭스 산술내의 H^THv_i의 이항이기 때문에 식(18)에 의해서도 감소될 수 있다. 당분야에 익숙한 기술인은 탐색의 비가 실제의 코드북 샘플을 통해 행해지며 가상 샘플들은 다르다는 것을 즉시 발견할수 있다. 위에서 예시된 예에서 상기 가상 샘플은 실제 샘플의 비에 2배의 비로 탐색된다.

제7도는 제1도의 적응 탐색기(106)를 더욱 상세히 도시한다. 앞에서 상술한 바와 같이 적응 탐색기(106)는 두가지의 탐색 동작 즉 가상 및 연속 동작을 수행한다. 연속 탐색 동작 동안에, 탐색기(106)은 적응 코드북(104)로부터 완전히 후부 여기 벡터를 액세스하며, 반면에 가상 탐색 동안에 적응 탐색기(106)는 코드북(104)로부터 부분적인 후보 여기 벡터를 액세스하고 제2도에 도시한 바와 같이 코드북(104)으로부터 액세스된 후보 벡터의 처음 부분을 후보 여기 벡터의 나중 부분으로 반복한다. 상기 가상 탐색 동작은 블록(708) 내지 (712)에 의해 수행되며, 상기 연속적인 탐색 동작은 블럭(702)에서 (706)을 통해 수행된다. 탐색 결정기(701)는 가상 또는 연속 탐색중 어느 것이 수행되는 가에 의해 결정된다. 후보 선택기(714)는 코드북이 완전히 탐색되었는지를 결정하고, 코드북이 완전히 탐색되지 않았으면, 선택기(714)는 탐색 결정기(701)로 돌아온다.

탐색 결정기(701)은 경로(122)를 통해 수신된 스팩 트럼 가중 매트릭스와 경로(123)을 통해 수신된 목표 여기 벡터에 응답해서 탐색 코드북(104)을 완전히 제어한다. 후보 벡터의 제1그룹이 코드북(104)으로부터 완전히 채워져서 필요한 계산이 블럭(702)부터 (706)까지에 의해 수행되며 후보 여기벡터의 제2그룹은 블럭(708)로부터 (712)에 의해 조정되고 벡터 부분들은 반복된다.

만일 후보 여기 벡터의 제1그룹이 코드북(104)로부터 엑세스되면 탐색 결정기는 액세스되어야 할 목표 여기 벡터, 스팩트럼 가중 매트릭스, 및 후보 여기 벡터의 인덱스를 경로(727)을 통해 연속 탐색 제어기(702)와 통신시킨다. 상기 제어기는 후보 백터 인덱스에 응답해서 코드북(104)을 액세스한다. 그런 다음 상기 연속 탐색 제어기(702)는 목표 여기 벡터, 스팩트럼 가중 매트릭스 인덱스 및 후보 여기 벡터를 경로(728)를 통해 블럭(703) 및 (704)으로 이동시킨다.

블럭(704)는 경로(728)을 통해 수신된 제1후보 여기 벡터에 응답하여 식(3)의 H^THt와 동일한 순간 벡터를 계산하고 이 순간 벡터와 경로(728)를 통해 수신된 정보를 경로(729)를 통해 상호-상관 계산기(705)로 전송한다. 제1후보 벡터 후에 블록(704)는 경로(728)를 통해 수신된 정보를 경로(729)로 보낸다. 계산시(705)는 식(3)의 상호-상관 항을 계산한다.

에너지 계산기(703)는 경로(728)상의 정보에 응답해서 식(14)에 의해 지적된 동작을 수행함으로써 식(3)의 에너지 항을 계산한다. 계산기(703)은 계산된 값을 경로(733)을 통해 에러 계산기(706)에 전송한다.

에러 계산기(706)은 경로(730) 및(733)을 통해 수신된 정보에 응답하여 상기 에너지 값과 상기 상호-상관 값을 더함으로써 에러 값을 계산하고 후보 수, 스케일링 인자, 후보값과 함께 상기 계산된 에러값을 경로(703)을 통해 후보 선택기(714)로 전송한다.

후보 선택기(714)는 경로(732)를 통해 수신된 정보에 응답하여 그 에러값이 가장 낮은 후보의 정보를 유지하며 경로(732)를 통해 활성화될 때 경로(731)을 통해 탐색 결정기(701)로 되돌아간다.

탐색 결정(701)가 후보 벡터의 제2그룹이 코드북(104)로부터 액세스되는 것을 결정할 때 경로(720)을 통해 목표 여기 벡터, 스팩트럼 가중 매트릭스, 후보 여기 벡터 인덱스를 가상 탐색 제어기(708)에 전송한다. 상기 탐색 제어기는 코드북(104)을 액세스하여 경로(720)을 통해 수신된 액세스된 코드 여기 벡터와 정보를 경로(721)를 통해 블록(710,721)으로 전송한다.

경로(722,723)을 통해 블럭(710,711,712)은 블럭(704,705,706)에 의해 수행된 것과 동일한 동작을 수행한다. 블럭(709)는 블럭(703)이 한 것과 같이 식(3)의 에너지항의 계산 동작을 수행한다. 그러나 블럭(709)는 에너지 계산기(703)에 의해 활용된 것과 같이 식(14)보다는 식(15)에 의해 활용된다.

후보 벡터 인덱스, 스케일링 인자, 후보 벡터, 그리고 (724)를 통해 수신된 에러값 각각에 있어서, 후보 선택기(714)는 상기 후보 벡터, 스케일링 인자, 및 가장 낮은 값을 갖는 벡터의 인덱스를 유지한다. 모든 후보 벡터가 처리되어진다음에, 그런 다음 후보 선택기(714)는 가장 낮은 에러값을 갖는 선택된 후보 벡터의 인덱스와 스케일링 인자를 경로(125)를 통해 인코더(109)로 전송하며, 또한 선택된 여기 벡터를 경로(127)를 통해 가산기(108)로 경로(127)를 통해 확률 탐색기(107)로 전송한다.

제8도는 가상 탐색 제어기(708)를 더욱 상세히 도시한다. 적응 코드북 엑세서(801)는 경로(702)를 통해 수신된 후보 인덱스에 응답해서 코드북(104)을 액세스하고 이 액세스된 후보 여기 벡터와 경로(720)를 통해 수신된 정보를 경로(803)를 통해 샘플 중계기(802)로 전송한다. 샘플 중계기(802)는 후보 벡터에 응답해서 이 후보 벡터의 제1부분을 그 후보 벡터의 마지막 부부에 중계하고 그런 다음 제7도의 경로(721)을 통해 블록(709) 및 (710)으로 전송된 완전한 후보 여기 벡터를 얻는다.

제9도는 식(18)에 의해 지적된 동작을 수행하는데 있어서 에너지 계산기(709)의 동작을 자세히 도시한 것이다. 실제 에너지 성분 계산기(901)는 식(18)의 제1항에 필요한 동작을 수행하며 경로(911)을 통해 가산기(905)에 그 결과를 전송한다. 순간 가상 켁터 계산기(902)는 식(18)에 따라 H^THv_i항을 계산하여 경로(721)을 통해 수신된 정보에 함께 그 결과를 경로(910)를 통해 계산기(903,904)로 전송한다. 경로(910)상의 정보에 응답하여, 혼합 에너지 성분 계산기(903)는 식(15)의 2번째 항에 필요한 동작을 수행하여 경로(913)을 통해 가산기(905)에 그 결과를 전송한다. 경로(910)상의 정보에 응답하여, 가상 에너지 성분 계산기(904)는 식(15)의 3번쩨 항에 필요한 동작을 수행한다. 가산기(905)는 경로(911,912,913)의 정보에 응답하여 에너지 값을 계산하고 이 값을 경로(726)으로 전송한다.

확률 탐색기(107)는 제7도에 도시한 것과 같이 블럭(701) 내지 (706) 및 블록(174)와 유사한 블럭들을 구비한다. 그렇지만, 동일한 탐색 결정기(701)는 경로(1277)을 통해 수신된 선택된 후보 여기 벡터와 경로(123)을 통해 수신된 목표 여기 벡터에서 감산함으로써 제2목표 여기 벡터를 형성한다. 또한, 상기 결정기는 항상 제어기(702)를 위해 제어를 보낸다.

위에서 언급한 실시예는 단지 본 발명의 원리를 설명한 것이고 본 발명의 범위와 정신에서 벗어남이 없이 숙련된 기술에 의해 다른 배열이 설계될 수 있다는 것을 이해할 수 있다.

Claims

테이블에 저장된 여기 정보의 다수의 후보 세트를 이용하는 음성 인코딩 방법에서, 상기 음성은 음성 프레임들을 포함하며 프레임 각각은 다수의 샘플을 포함하는 상기 음성 인코딩 방법에 있어서, 상기 여기 정보의 후보 세트를 오버래핑 방법으로 테이블을 저장하는 단계로서, 이에 의해 각각의 후보는 여기 정보의 제1및 제2서브세트에 의해서만 설정된 이전의 후보와는 다르게 되며 여기 정보의 상기 제1서브세트는 각각의 후보세트의 시작으로부터 연속적인 샘플을 포함하며 여기 정보의 상기 제2서브세트는 각각의 후보 세트의 마지막으로부터 연속적인 샘플을 포함하는, 상기 여기 정보의 후보 세트 저장단계; 상기 음성 프레임중 현재의 프레임에 응답해서 여기 정보의 목표 세트를 형성하는 단계; 상기 음성 프레임중 상기 한 프레임에 응답해서 필터 계수 세트를 결정하는 단계; 상기 필터 계수 세트롭터 유한 임펄스 응답 필터를 모델하는 정보를 계산하는 단계, 상기 유한 임펄스 응답 필터 정보에 응답해서 여기 정보의 상기 다수의 후보 세트중 현재의 각각의 세트에 대한 에러값과 여기 정보의 상기 후보세트와 여기 정보의 상기 목표 세트 각각에 대한 에러값을 순환적으로 계산하는 단계로서, 여기 정보의 상기 이전의 후보 세트중 여기 정보의 상기 제1서브세트에 의해 공헌되는 여기 정보의 상기 이전의 후보 세트에 대한 상기 에러값의 일부를 여기 정보의 상기 이전의 후보 세트에 대한 상기 에러값에서 감산하여 순간 에러값을 형성하며 여기 정보의 상기 후보 세트의 각각의 세트중 여기 정보의 제2서브세트에 의해 공헌되는 여기 정보의 상기 후보 세트 각각의 세트에 대한 에러값의 일부를 상기 순간 에러값에 가산함으로써 여기 정보의 상기 후보 세트의 각각의 세트에 대한 에러값을 형성하는, 상기 순환적 계산 단계; 여기 정보의 상기 후보 세트중 계산된 에러값이 가장 작은 후보 세트를 선택하는 단계; 여기 정보의 상기 후보 세트중 상기 선택된 세트의 테이블에서 위치를 결정하는 단계; 상기 필터 계수세트에 여기 정보의 상기 후보 세트중 상기 선택된 세트의 상기위치를 나타내는 정보를 연결하는 단계를 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제1항에서 상기 유일한 임펄스 응답 필터 정보에 응답해서 다른 테이블에 저장된 여기 정보의 다른 다수의 후보 세트 각각에 대한 다른 에러값과 상기 다른 테이블의 상기 후보 세트와 여기 정보의 목표 세트와 상기 테이블로부터 여기 정보의 상기 선택된 세트 각각에 대한 다른 에러값을 순환적로 계산하는 단계; 상기 다른 테이블로 여기 정보의 상기 다른 다수의 후보 세트중 그다른 에러값이 가장 작은 후보 세트를 선택하는 단계; 상기 다른 테이블에서 여기 정보의 상기 후보 세트중 상기 선택된 후보 세트의 상기 다른 테이블에서 상기 위치를 나타내는 정보를 또한 연결하는 단계를 더 포함하는 제1항에 있어서.
제2항에서, 여기 정보의 상기 다른 다수의 후보 세트에 대한 상기 다른 에러값을 순환적으로 계산하는 단계는 여기 정보의 상기 목표 세트에서 여기 정보의 상기 선택된 후보 세트를 감산함으로써 상기 다른 테이블의 상기 후보 세트 각각에 대한 다른 에러값에서 사용하기 위해 여러 정보의 다른 목표 세트를 형성하는 단계를 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제3항에 있어서, 여기 정보의 상기 후보 세트 각각은 다수의 샘플을 포함하며 상기 제1서브세트는 여기 정보의 상기 이전의 후보 세트의 제1샘플이며 상기 제2서브세트는 여기 정보의 상기 후보세트 각각의 마지막 샘플인 것을 특징으로 하는 음성 인코딩 방법.
제4항에서, 상기 저장하는 단계는 테이블에서 여기 정보의 상기 후보 세트를 시간순으로 (chrono-logical order) 배열하는 단계를 더 포함하며, 상기 인코딩 방법은 상기 테이블로부터 여기 정보의 상기선택된 후보 세트와 상기 다른 테이블로부터 여기 정보의 상기 선택된 후보 세트를 가산함으로써 상기 현재의 프레임에 대한 여기 정보의 합성 세트를 형성하는 단계; 상기 테이블에서 여기 정보의 가장 오래된 후보 세트를 대체함으로써 여기 정보의 상기 합성 세트로 상기 테이블을 새롭게 하는 단계를 더 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제3항에 있어서, 여기 정보의 상기 목표 세트를 형성하는 단계는 여기 정보의 합성 세트를 형성하기 위해 상기 테이블로부터 여기 정보의 상기 선택된 후보 세트를 상기 다른 테이블로부터 여기 정보의 상기 선택된 후보 세트에 가산하는 단계; 상기 이전 프레임에 대한 필터 계수에 응답해서 상기 이전 프레임으로부터의 여기 정보의 상기 합성 세트를 필터링하는 단계; 정보의 링잉 세트를 형성하기 위해 상기 이전 프레임에 대한 필터 계수에 응답해서 여기 정보의 필터된 합성 세트를 제로-입력 응답 필터링하는 단계; 정보의 중간 세트를 발생하기 위해 상기 정보의 링잉 세트를 여기 정보의 상기후보 세트 각각에 대한 상기 음성의 프레임중 상기 현재의 프레임에서 감산하는 단계; 여기 정보의 목표 세트를 형성하기 위해 상기 현재 프레임에 대한 필터 계수에 기초해서 정보의 상기 중간 세트를 화이트닝 필터링하는 단계를 포함하는 것을 특징으로 하는 음성 인코딩 방법.
재생을 위한 디코더와 연결되는 음성 인코딩 방법에 있어서, 상기 음성이 음성 프레임으로 그룹화하는 단계로서, 상기 각각의 프레임은 음성 벡터에 의해 표현되며 상기 각각의 음성 벡터는 다수의 샘플을 가지며 또한 상기 음성 벡터는 상기 음성의 일부를 나타내는, 상기 그룹화하는 단계 ; 상기 음성 벡터중 현재의 프레임에 응답해서 필터 계수 세트를 계산하는 단계, 상기 현재의 음성 벡터에 대한 필터 계수에 기초해서 유한 임펄스 응답 필터를 모델하도록 응답 매트릭스를 계산하는 단계 ; 상기 응답매트릭스상에서 매트릭스의 동작에 의해 토이플리츠 형성의 스펙트럼 가중 매트릭스를 계산하는 단계 ; 상기 현재의 음성 벡터에 선행하는 이전의 음성 벡터로부터 또한 상기 현재의 벡터로부터 링잉 벡터를 계산하는 단계 ; 상기 현재의 음성 벡터와 상기 링잉 벡터에 응답해서 목표 벡터를 계산하는 단계 ; 상기 목표 벡터와 상기 스펙트럼 가중 매트릭스와 오버래핑 테이블에 저장된 다수의 후보 여기 벡터 각각에 응답해서 상호-상관 값을 계산하는 단계, 상기 목표 벡터와 상기 스펙트럼 가중 매트릭스에 응답해서 상기 후보 여기 벡터 각각에 대한 에너지 값과 상기 후보 여기 벡터와 상기 링잉 벡터 각각에 대한 에너지 값을 계산하는 단계로서, 상기 이전의 후보 여기 벡터에 대해 계산된 에너지값으로부터 상기 테이블의 이전의 후보 여기 벡터의 제1샘플의 공헌을 제거함으로서 순간 에너지값을 형성하고 또한 상기 순간 에너지값에 상기 테이블의 현재의 후보 여기 벡터의 마지막 샘플의 공헌을 가산함으로써 상기 현재의 후보 여기 벡터에 대한 상기 에너지값을 형성하는, 상기 에너지값 계산 단계를 포함하는 것을 특징을 하는 음성 인코딩 방법
제7항에 있어서, 상기 후보 여기 여기 벡터 각각에 대한 상기 상호-상관값을 계산하는 단계는, 상기 스펙트럼 가중 매트릭스와 상기 목표 여기 벡터 사이의 매트릭스 동작에 의해 순간 벡터를 형성하는 단계 ; 상기 후보 여기 벡터 각각과 상기 순간 벡터로부터 상기 상호-상관값을 형성하는 단계 ; 를 더 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제7항에 있어서, 상기 목표 여기 벡터와 상기 테이블의 상기 선택된 후보 벡터에 응답해서 다른목표 여기 벡터를 계산하는 단계 ; 상기 다른 목표와 상기 스펙트럼 매트릭스와 다른 오버래핑 테이블에 저장된 다수의 다른 후보 벡터 각각에 응답해서 다른 상호-상관값을 계산하는 단계 ; 상기 다른 목표 벡터와 상기 스펙트럼 가중 매트릭스와 상기 다른 테이블로부터 상기 다른 후보 벡터 각각에 응답해서 다른 에너지값을 계산하는 단계 ; 상기 다른 테이블로부터 상기 다른 후보 여기 벡터중 그 다른 에러값이 가장 작은 것을 선택하는 단계 ; 선택된 다른 후보 여기 벡터의 다른 테이블에서 위치를 정의하는 정보를 연결하는 단계를 더 포함하는 것을 특징으로 하는 음성 인코딩 방법
제9항에 있어서, 상기 목표 여기 벡터를 계산하는 단계는, 중간 벡터를 발생하기 위해 상기 음성 벡터로부터 상기 링잉 벡터를 감산하는 단계 ; 상기 목표 여기 벡터를 형성하기 위해 상기 현재의 음성 벡터의 상기 필터 계수에 기초해서 상기 중간 벡터를 화이트닝 필터링하는 단계를 더 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제10항에 있어서, 상기 링잉 벡터를 계산하는 단계는, 합성 여기 벡터를 형성하기 위해 상기 테이블의 상기 선택된 후보 여기 벡터를 상기 다른 테이블로부터 상기 선택된 다른 후보 여기 벡터에 가산하는 단계 ; 상기 이전의 음성 벡터에 대한 필터 계수에 기초해서 상기 이전의 음성 벡터로부터 상기 합성 여기 벡터를 필터링하는 단계 ; 상기 링잉 벡터를 생성하기 위해 상기 이전의 음성 벡터에 대한 상기 필터 계수에 기초해서 필터된 합성 여기 벡터를 제로-입력 응답 필터링하는 단계를 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제1항에 있어서, 상기 다수의 후보 여기 벡터는 상기 테이블에 시간순으로 저장되며, 상기 방법은 상기 테이블에서 상기 후보 여기 벡터중 가장 오래된 것을 대체함으로써 상기 현재의 음성 벡터에 대한 합성 여기 벡터로 상기 테이블을 새롭게 하는 단계를 더 포함하는 것을 특징으로 하는 음성 인코딩방법.
재생을 위한 디코더와 연결시키는 음성 인코딩 장치로서, 상기 음성은 음성 프레임을 포함하며 프레임 각각은 다수의 샘플을 포함하는, 상기 음성 인코딩 장치에 있어서, 상기 음성 프레임중 현재의 프레임에 응답해서 여기 정보의 목표 세트를 형성하는 수단, 상기 음성 프레임중 현재의 프레임에 응답해서 필터 계수 세트를 결정하는 수단 ; 여기 정보의 후보 세트를 오버래핑 방법으로 테이블에 저장하며, 이에 의해 각각의 후보 세트는 여기 정보의 제1 및 제2후보 서브세트에 의해서만 이정의 후보세트와는 다르게 되는, 상기 저장하는 수단 ; 상기 필터 계수 세트로부터 유한 임펄스 응답 필터를 모델하는 정보를 계산하는 수단 ; 상기 유한 임펄스 응답 필터 정보에 응답해서 상기 테이블에 저장된 여기 정보의 다수의 후보 세트 각각에 대한 에러값과 여기 정보의 상기 후보 세트 각각과 여기 정보의 상기 목표 세트에 대한 에러 값을 순환적으로 계산하는 수단으로서, 여기 정보의 상기 이전의 후보 세트에 대한 에러값으로부터 여기 정보의 상기 제1서브세트의 공헌을 제거함으로써 순간 에러값을 형성하며 또한 상기 순간 에러값에 여기 정보의 상기 제2서브세트의 공헌을 가산함으로써 여기 정보의 상기 현재의 후보 세트에 대한 상기 에러값을 형성하는, 상기 순환적으로 에러값을 계산하는 수단, 여기 정보의 상기 후보중 그 계산된 에러값이 가장 작은 것을 선택하는 수단 ; 여기 정보의 상기 후보중 상기 선택된 후보의 상기 테이블에서 위치를 결정 하는 수단, 상기 필터 계수 세트를 여기 정보의 상기 후보 세트중 선택된 것의 결정된 위치를 나타내는 정보에 연결하는 수단을 포함하는 것을 특징으로 하는 음성인코딩 방법.
제13항에서, 상기 유한 임펄스 응답 필터 정보에 응답해서 상기 다른 테이블에 저장된 여기 정보의 다른 다수의 후보 세트 각각에 대한 다른 에러값과 상기 다른 테이블의 상기 후보 세트 각각과 여기 정보의 상기 목표 세트와 상기 테이블로부터 여기 정보의 상기 선택된 세트에 대한 다른 에러값을 순환적으로 계산하는 수단 ; 상기 다른 테이블로부터 여기 정보의 상기 다른 다수의 상기 후보 세트중 그 다른 에러값이 가장 작은 것을 선택하는 수단 ; 여기 정보의 상기 다른 다수의 상기 후보 세트중 선택된 것의 위치를 상기 다른 테이블에서 결정하는 수단을 더 포함하며, 상기 연결 수단은 상기 다른 테이블에서 여기 정보의 상기 후보 세트중 상기 선택된 것의 결정된 위치를 나타내는 정보를 또한 연결시키는 것을 특징으로 하는 음성 인코딩 방법.
제14항에 있어서, 상기 다른 에러값을 순환적을 계산하는 수단은 여기 정보의 상기 다수의 후보세트 각각에 대한 여기 정보의 상기 선택된 후보 세트를 여기 정보의 다른 목표 세트로부터 감산함으로써 상기 다른 테이블의 상기 후보 세트 각각에 대한 상기 다른 에러값을 계산하는데 상요하기 위해 여기 정보의 다른 목표 세트를 형성하는 단계를 포함하는 것을 특징으로 하는 음성 인코딩 장치.
제15항에 있어서, 여기 정보의 각각의 후보 세트는 다수의 샘플을 포함하며 제1서브세트는 여기 정보의 상기 이전의 후보 세트의 제1샘플이며 제2서브세트는 여기 정보의 상기 후보 세트 각각의 마지막 샘플인 것을 특징으로 하는 음성 인코딩 방법.
제16항에 있어서, 상기 다수의 후보 여기 벡터는 상기 테이블에 시간순으로 저장되며, 상기 장치는 상기 테이블로부터 여기 정보의 상기 선택적 후보 세트와 상기 다른 테이블로부터 여기 정보의 상기 선택된 후보 세트를 가산함으로써 상기 현재의 프레임에 대한 여기 정보의 합성 세트를 형성하는 수단을 더 포함하는 것을 특징으로 하는 음성 인코딩 방법.
제15항에 있어서, 여기 정보의 상기 목표 세트를 형성하는 수단은 여기 정보의 합성 세트를 형성하기 위해 상기 테이블로부터 여기 정보의 상기 선택된 후보 세트를 상기 다른 테이블로부터 여기 정보의 상기 선택된 후보 세트에 가산하는 수단 ; 상기 이전의 프레임에 대한 필터 계수에 기초해서 상기 이전의 프레임으로 부터 여기 정보의 상기 합성 세트를 필터링하는 수단 ; 정보의 링잉 세트를 생성하기 위해 상기 이전의 프레임에 대한 상기 필터 계수에 기초해서 여기 정보의 필터된 합성 세트를 제로-입력 응답 필터링하는 수단 ; 정보의 중간 세트를 발생하기 위해 정보의 상기 링잉 세트를 여기 정보의 상기 후보 세트 각각에 대한 상기 음성 프레임중 현재의 프레임으로부터 감산하는 수단 ; 여기 정보의 상기 목표 세트를 형성하기 위해 상기 현재의 프레임에 대한 필터 계수에 기초해서 정보의 상기 중간 세트를 화이트닝 필터링하는 수단을 포함하는 것을 특징으로 하는 음성 인코딩 방법.