KR20070112832A

KR20070112832A - 잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들

Info

Publication number: KR20070112832A
Application number: KR1020077022667A
Authority: KR
Inventors: 로히트 카푸어; 세라핀 디아즈 스핀돌라
Original assignee: 콸콤 인코포레이티드
Priority date: 2005-03-11
Filing date: 2006-03-13
Publication date: 2007-11-27
Also published as: AU2006222963B2; CA2600713A1; JP5203923B2; KR100957265B1; MX2007011102A; IL185935A; JP2008533529A; US8155965B2; NO20075180L; TWI389099B; RU2371784C2; RU2007137643A; KR100956623B1; BRPI0607624A2; KR20090119936A; US20060206334A1; AU2006222963A1; EP1856689A1; TW200638336A; BRPI0607624B1

Abstract

일 실시예에서, 본 발명은 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 보코더, 상기 보코더의 입력에 동작가능하게 연결된 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 필터를 포함하는 인코더, 상기 인코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 입력 및 상기 보코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 출력을 갖는 합성기를 포함하며, 상기 인코더는 메모리를 포함하며, 상기 인코더는 음성 세그먼트들을 분류하고 음성 세그먼트들을 인코딩하는, 메모리에 저장된 명령을 실행하도록 적용되며,

상기 디코더는 메모리를 포함하며, 상기 디코더는 잔여 신호를 확장 또는 압축된 버젼의 잔여 음성 신호로 시간-와핑하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된다.

Description

잔여분 변경에 의한 보코더 내부의 시간 와핑 프레임들{TIME WARPING FRAMES INSIDE THE VOCODER BY MODIFYING THE RESIDUAL}

본 출원은 2005년 3월 11일 출원된 "Time Warping Frames Inside the Vocoder by Modifying the Residual"이라는 명칭의 미국 가출원 60/660,824를 우선권으로 주장하는데, 상기 가출원은 본 출원의 일부로서 본 명세서에 참조된다.

본 발명은 통상적으로 보코더에서 보코더 프레임들을 시간 와핑(확장 또는 비교)하는 방법에 관한 것이다. 시간 와핑은 패킷 스위칭된 네트워크에서 다수의 애플리케이션을 가지며, 보코더 패킷은 동기적으로 도달할 수도 있다. 시간 와핑이 보코더 내부 또는 보코더 외부에서 실행될 수도 있지만, 보코더에서 이를 실행하는 것은 와핑된 프레임의 더욱 우수한 품질 및 감소된 계산 로드와 같은 다수의 장점을 제공한다. 본 문서에 제공된 방법은 음성 데이터를 보코딩하기 위해 본 명세서에서 참조되는 유사한 기술을 이용하는 소정의 보코더에 적용될 수 있다.

본 발명은 음성 신호를 조작함으로써 음성 프레임들을 시간 와핑하는 장치 및 방법을 포함한다. 일 실시예에서, 본 발명 및 장치는 4세대 보코더(4GV)에 사용되며, 이에 한정되지는 않는다. 개시된 실시예는 음성 세그먼트의 상이한 타입을 확장/압축하기 위한 방법 및 장치를 포함한다.

전술한 관점에서, 본 발명의 설명된 특징은 일반적으로 음성 통신을 위해 하나 이상의 개선된 시스템, 방법 및/또는 장치에 관련된다.

일 실시예에서, 본 발명은 음성 세그먼트를 분류하는 단계, 코드 여기 선형 예측을 이용하여 음성 세그먼트를 인코딩하는 단계, 및 잔여 음성 신호의 확장 또는 압축된 버젼에 대해 잔여 음성 신호를 시간 와핑하는 단계를 포함한다.

다른 실시예에서, 음성을 통신하는 방법은 선형 예측 코딩 필터를 통해 음선 신호를 전송하는 단계를 더 포함하며, 그로 인해 음선 신호에서 단기간 상관이 제거되고, 선형 예측 코딩 상수 및 잔여 신호를 출력한다.

다른 실시예에서, 인코딩은 코더 여기된 선형 예측 인코딩이며, 시간 와핑 단계는 피치 지연을 추정하는 단계, 음성 프레임을 피치 기간으로 분할하는 단계를 포함하며, 여기서 피치 기간의 경계는 음성 프레임의 다양한 포인트에서 피치 지연을 이용하고, 만일 피치 지연 신호가 압축된 경우 피치 기간을 오버랩핑하고, 만일 피치 잔여 신호가 확장된 경우 피치 기간을 부가하여 결정된다.

다른 실시예에서, 인코딩은 피치 기간 인코딩이며, 시간 와핑의 단계는 적어도 하나의 피치 기간을 추정하는 단계, 적어도 하나의 피치 기간을 인터폴레이팅하는 단계, 잔여 음성 신호를 확장할 때 적어도 하나의 피치 기간을 부가하는 단계, 및 잔여 음성 신호를 압축할 때 적어도 하나의 피치 기간을 감산하는 단계를 포함한다.

다른 실시예에서, 인코딩은 잡음 여기 선형 예측 인코딩이며, 시간 와핑 단계는 음성 세그먼트를 동기화하기 전에 음성 세그먼트의 상이한 부분에 대해 가능한 상이한 이득을 적용하는 단계를 포함한다.

다른 실시예에서, 본 발명은 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 보코더를 포함하며, 인코더는 적어도 하나의 출력 및 보코더의 입력에 동작가능하게 연결된 적어도 하나의 입력을 갖는 보코더를 포함하며, 디코더는 인코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 입력 및 보코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 출력을 갖는 합성기를 포함한다.

다른 실시예에서, 인코더는 메모리를 포함하는데, 여기서 인코더는 1/8 프레임, 프로토타입 피치 기간, 코드 여기 선형 예측 또는 잡음 여기 선형 예측으로 음성 세그먼트를 분류하는 것을 포함하는, 메모리에 포함된 명령을 실행하도록 적용된다.

다른 실시예에서, 디코더는 메모리를 포함하며, 디코더는 잔여 신호의 확장 또는 압축된 버젼에 대해 잔여 신호를 시간 와핑하는 것을 포함하는, 메모리에 저장된 명령을 실행하도록 적용된다.

본 발명의 추가의 응용예는 이하의 설명, 청구항 및 도면을 통해 명백할 것이다. 그러나 상세한 설명 및 특정예는 단지 설명을 위해 제공되는 것이며, 당업자에게 본 발명의 사상 내에서 다양한 변경 및 변형이 가능하기 때문에, 본 발명은 한정하는 것은 아니다.

본 발명은 이하의 도면, 상세한 설명 및 청구항을 통해 완전하게 이해될 것이다.

도1은 선형 예측 코딩(LPC) 보코더의 블록도이다.

도2A는 유성음을 포함하는 음성 신호이다.

도2B는 무성음을 포함하는 음성 신호이다.

도2C는 과도 음성을 포함하는 음성 신호이다.

도3은 잔여분의 인코딩 이전의 음성의 LPC 필터링을 나타낸 블록도이다.

도4A는 원음의 그래프이다.

도4B는 LPC 필터링 후, 잔여 음성 신호의 그래프이다.

도5는 이전과 현재의 프로토타입 피치 기간 사이의 인터폴레이션을 이용하는 파형의 생성을 도시한다.

도6A는 인터폴레이션을 통해 피치 지연을 결정하는 도면이다.

도6B는 피치 기간을 설명하는 도면이다.

도7A는 피치 기간의 형태로 원음 신호를 표현한다.

도7B는 중첩-가산법을 이용하여 확장된 음선 신호를 나타낸다.

도7C는 음성-가산법을 이용하여 압축된 음선 신호를 나타낸다.

도7D는 가중치가 잔여 신호를 압축하기 위해 어떻게 사용되는 지를 나타낸다.

도7E는 중첩-가산법을 이용하지 않고 압축된 음성 신호를 나타낸다.

도7F는 가중치가 잔여 신호를 확장하기 위해 어떻게 사용되는 지를 나타낸 다.

도8은 가중-중첩법에 사용되는 두 식을 나타낸다.

"설명"이라는 용어는 "예, 실례, 또는 예증"을 의미하는데 사용된다. "예"로서 설명된 소정의 실시예는 반드시 다른 실시예에 비해 바람직하거나 장점을 갖는 것을 한정하는 것은 아니다. 보코더에서 시간- 와핑을 이용하는 특징

인간의 음성은 두 성분으로 구성된다. 하나의 성분은 피치-민감성 기본 파형을 포함하며, 다른 성분은 피치-민감성이 아닌 고정된 주파수이다. 소리의 인식된 피치는 주파수에 대한 귀의 반응, 즉 대부분 실질적이 목적의 경우, 피치는 주파수이다. 고조파 성분은 인간 음성에 대해 구별되는 특성을 부가한다. 이들은 음성 코드 및 음성 트랙의 물리적 형태와 함께 변경되며, 포먼트(formant)라고 불린다.

인간의 음성은 디지털 신호(s(n)(10))로 표현될 수 있다. s(n)(10)이 상이한 음성 및 침묵 기간을 포함하는 통상의 대화 동안 획득되는 디지털 음성 신호라고 가정하자. 음선 신호(s(n)(10))는 프레임(20)으로 분할된다. 일 실시예에서, s(n)(10)은 8kHz로 디지털적으로 샘플링된다.

현재의 코딩 방식은 음성에 고유한 모든 자연적인 반복성을 제거함으로써 디지털화된 음성 신호(10)를 낮은 비트 레이트 신호로 압축한다. 음성은 통상적으로, 입술 및 혀의 기계적 종작으로부터 기인하는 단기간 반복성, 및 음성 코드의 진동에서 기인하는 장기적 반복성을 보인다. 선형 예측 코딩(LPC)은 잔여 음성 신호(30)를 생성하는 중복성을 제거함으로써 음성 신호(10)를 필터링한다. 이어 LPC는 최종 잔여 신호를 백색 가우시안 잡음으로서 모델링한다. 음성 파형의 샘플링된 값은 다수의 과거 샘플(40)의 합을 가중함으로써 예측될 수도 있는데, 이들 각각에는 선형 예측 상수(50)가 곱해진다. 따라서, 선형 예측 코더는 필터 상수(50) 및 전체 대역폭 음선 신호(10)가 아닌 양자화된 잡음을 전송함으로써 감소된 비트 레이트를 달성한다. 잔여 신호(30)는 잔여 신호(30)의 현재 프레임(20)으로부터 프로토타입 기간(100)을 추출함으로써 인코딩된다.

본 발명의 방법 및 장치에 의해 사용된 LPC 보코더(70)의 일 실시예의 블록도가 도1에 도시된다. LPC의 기능은 원음 신호와 유한 기간에 걸친 추정된 음성 신호 사이의 제곱차의 합을 최소화하는 것이다. 이는 프레임(20) 마다 통상적으로 추정된 예측 상수(50)의 유일한 세트를 생성할 수도 있다. 프레임(20)은 통상적으로 20ms 기간이다. 시변 디지털 필터(75)의 전달 함수는 이하와 같이 주어진다:

여기서 예측 상수(50)는 a_k 및 G에 의해 표현된다.

합은 k=1부터 k=p까지 계산된다. 만일 LPC-10 방법이 사용되면, P=10이다. 이는 처음 10개의 상수(50)가 LPC 합성기(80)로 전송되는 것을 의미한다. 상수를 계산하기 위한 2개의 가장 공통적으로 사용된 방법은 공분산법 및 자동상관 방법이지만, 이에 한정되지는 않는다.

상이한 화자가 상이한 속도로 말하는 것은 통상적인 것이다. 시간 압축은 개별 화자들에 대한 속도 변화의 효과를 감소시키는 한 방법이다. 두 음성 패턴 사이의 시간 차는, 최대 일치가 서로 달성되도록, 한 화자의 시간 축을 와핑함으로써 감소될 수도 있다. 이러한 시간 압축 기술은 시간-와핑으로 알려져 있다. 더욱이, 시간-와핑은 이들의 피치를 변화시키지 않고 음성 신호를 압축 또는 확장시킨다.

통상적인 보코더는 바람직한 8kHz 레이트로 160 샘플(90)을 포함하여, 20msec 기간의 프레임(20)을 생성한다. 이러한 프레임(20)의 시간-와핑된 압축 버젼은 20msec보다 작은 기간을 갖는 반면, 시간-와핑된 확장 버젼은 20msec보다 긴 기간을 갖는다. 음성 데이터의 시간-와핑은 패킷 스위칭된 네트워크를 통해 음성 데이터를 전송할 때 현저한 장점을 가지며, 이는 음성 패킷의 전송에서 지연 지터를 유도한다. 이러한 네트워크에서, 시간-와핑은 상기한 지연 지터의 효과를 완화시키고 "동기성"(synchronous looking) 음성 스트림을 생성한다.

본 발명의 실시예는 음성 잔여분(30)을 곱함으로써 보코더(70) 내부의 시간-와핑 프레임(20)에 대한 장치 및 방법과 관련된다. 일 실시예에서, 본 발명의 방법 및 장치는 4GV에서 사용된다. 개시된 실시예는 프로토타입 피치 기간(PPP), 코드 여기 선형 예측(CELP) 또는 (비여기 선형 예측(NELP)) 코딩을 이용하여 인코딩된 상이한 타입의 4GV 음성 세그먼트(110)를 확장/압축하기 위한 방법 및 장치 또 는 시스템을 포함한다.

"보코더"(70)라는 용어는 통상적으로 인간 음성 생성의 모델에 기초하여 파라미터를 추출함으로써 유성음화된 음성을 압축하는 장치를 의미한다. 보코더(70)는 인코더(204) 및 디코더(206)를 포함한다. 인코더(204)는 입중계 음성을 분석하고 관련 파라미터를 추출한다. 일 실시예에서, 인코더는 필터(75)를 포함한다. 디코더(206)는 자신이 전송 채널(208)을 통해 인코더(204)로부터 수신하는 파라미터를 이용하여 음성을 분석한다. 일 실시예에서, 디코더는 합성기(80)를 포함한다. 음성 신호(10)는 보코더(70)에 의해 프로세싱된 데이터 및 블록의 프레임(20)으로 분할된다.

기술 분야의 당업자는 인간 음성이 많은 다양한 방식으로 분류될 수 있음을 이해할 것이다. 음성의 통상의 분류는 유성음, 무성음, 및 과도 음성이다. 도2A는 유성화된 음성 신호(s(n)(402))이다. 도2A는 피치 기간(100)으로 알려진 유성음의 측정가능한 공통 특성을 도시한다.

도2B는 무성음 신호(s(n)(404))이다. 무성음 신호(404)는 컬러링된 음성과 유사하다.

도2C는 과도 음성 신호(s(n)(406))(즉, 유성음화도 무성음화도 되지 않은 음성)를 도시한다. 도2C에 도시된 과도 음성(406)의 예는 무성음과 유성음 사이의 과도현상을 나타낼 수도 있다. 이러한 3개의 분류가 총괄적인 것은 아니다. 비교가능한 결과를 달성하기 위해, 설명된 방법에 따라 사용될 수도 있는 음성의 많은 상이한 분류가 존재한다. 4 GV 보코더 는 4개의 상이한 프레임 타입을 사용

본 발명의 일 실시예에 사용된 4세대 보코더(4GV)(70)는 무선 네트워크를 통한 사용을 위해 관심을 끄는 특징을 제공한다. 이러한 특징 중 일부는 품질 대 비트율의 균형을 위한 성능, 증가된 패킷 에러 레이트(PER)에도 불구한 더욱 탄력적인 보코딩, 소거의 우수한 은폐 등을 포함한다. 4GV 보코더(70)는 4개의 상이한 인코더(204) 및 디코더(206) 중 소정의 것을 이용할 수 있다. 상이한 인코더(204) 및 디코더(206)는 상이한 코딩 방식에 따라 동작한다. 소정의 인코더(204)는 소정의 특성을 나타내는 음성 신호(s(n))(10)의 코딩 부분에서 더욱 효과적이다. 따라서, 일 실시예에서, 인코더(204) 및 디코더(206) 모드는 현재 프레임(20)의 분류에 기초하여 선택될 수도 있다.

4GV 인코더(204)는 음성 데이터의 각각의 프레임(20)을 4개의 상이한 프레임(20) 타입: 프로토타입 피치 기간 파형 인터폴레이션(PPPWI), 코드 여기 선형 예측(CELP), 잡음 여기 선형 예측(NELP), 또는 묵음 1/8번째 레이트 프레임 중 하나로 인코딩한다. CELP는 불충분한 주기를 갖는 음성 또는 하나의 주기적 세그먼트(110)로부터 다른 세그먼트로의 변화를 포함하는 음성을 인코딩하기 위해 사용된다. 따라서, CELP 모드는 과도 음성으로 분류된 프레임을 코딩하기 위해 통상적으로 선택된다. 이러한 세그먼트(110)는 단지 하나의 프로토타입 피치 기간으로부터 정확하게 재구성될 수 없기 때문에, CELP는 완전한 음성 세그먼트(110)의 특성을 인코딩한다. CELP 모드는 선형 예측 잔여 신호(30)의 양자화된 버젼으로 선형 예측 음성 트랙 모델을 여기시킨다. 설명된 모든 인코더(204) 및 디코더(206) 중에 서, CELP는 일반적으로 더욱 정확한 음성 재생을 제공하지만, 더 높은 비트 레이트를 필요로 한다.

프로토타입 피치 기간(PPP) 모드는 유성음으로 분류된 프레임(20)들을 코딩하기 위해 선택될 수 있다. 유성음은 PPP 모드에 의해 활용되는 느린 시변 주기적 성분을 포함한다. PPP 모드는 각각의 프레임(20) 내에서 피치 기간의 서브 세트를 코딩한다. 음성 신호(10)의 잔여 기간(100)은 이러한 프로토타입 기간들(100) 사이에 인터폴레이팅함으로써 재구성된다. 유성음의 주기성을 활용함으로써, PPP는 CELP보다 더 낮은 비트 레이트를 달성할 수 있으며, 지각적으로 정확한 방식으로 음성 신호(10)를 여전히 재생할 수 있다.

PPPWI는 사실상 주기적인 음성 데이터를 인코딩하는데 사용된다. "프로토타입" 피치 기간(PPP)과 유사한 상이한 피치 기간(100)이 이러한 음성의 특성을 나타낸다. 이러한 PPP는 인코더(204)가 인코딩을 필요로 하는 유일한 음성 정보이다. 디코더는 음성 세그먼트(110)에서 다른 피치 기간(100)을 재구성하도록 이러한 PPP를 사용할 수 있다.

"잡음 여기된 선형 예측"(NELP) 인코더(204)는 무성음으로 분류된 프레임들(20)을 코딩하도록 선택된다. NELP 코딩은 신호 재생의 관점에서 효율적으로 동작하며, 여기서 음성 신호(10)는 피치 구조를 아주 조금 갖거나 갖지 않는다. 특히, NELP는 무성음 또는 배경 잡음과 같은 특성상 잡음 유사한 음성을 인코딩하는데 사용된다. NELP는 무성음을 모델링하기 위해 필터링된 의사-랜덤 잡음 신호를 이용한다. 이러한 음성 세그먼트(110)의 잡음 유사 특성은 디코더(206)에서 랜덤 신호를 생성하고 이들에 적절한 게인을 적용함으로써 재구성될 수 있다. NELP는 코딩된 음성에 대한 가장 간단한 모델을 이용하며, 결국 더 낮은 비트레이트를 달성한다.

1/8번째 레이트 프레임들은 예를 들어, 사용자가 말하지 않은 기간인, 묵음을 인코딩하는데 사용된다.

전술한 4개의 보코딩 방식 모두는 도3에 도시된 바와 같이 초기 LPC 필터링 절차를 공유한다. 음성은 4개의 카테고리 중 하나로 특성화한 후, 음성 신호(10)는, 선형 예측을 이용하여 음성에서 단기간 상관을 필터링하는 선형 예측 코딩(LPC) 필터(80)를 통해 전달된다. 이러한 블록의 출력은 LPC 상수(50), 및 음성 신호로부터 제거된 단기간 상관을 갖는 기본적으로 원음 신호(10)인 "잔여" 신호(30)이다. 이어 잔여 신호(30)는 프레임(20)에 대해 선택된 보코딩 방법에 의해 사용된 특정 방법을 이용하여 인코딩된다.

도4A-4B는 원음 신호(10) 및 LPC 블록(80) 이후의 잔여 신호(30)의 예를 도시한다. 잔여 신호(30)는 원음(10)보다 더욱 명료한 피치 기간(100)을 나타낸다. 따라서, 이는 잔여 신호(30)가 원음 신호(10)(이는 또한 단기간 상관을 포함함)보다 더욱 명료하게 음성 신호의 피치 기간(100)을 결정하기 위해 사용될 수 있는 이유를 설명한다. 잔여 시간 와핑

전술한 바와 같이, 시간-와핑은 음성 신호(10)의 확장 또는 압축을 위해 사용될 수 있다. 다수의 방법이 이를 달성하기 위해 사용될 수 있는 반면, 이들 방 법 대부분은 신호(10)로부터 피치 기간을 부가 또는 삭제하는 것에 기초한다. 치기 기간(100)의 부가 또는 삭제는 잔여 신호(30)를 수신한 후, 신호(30)가 합성되기 전에 디코더(206)에서 행해질 수 있다. CELP 또는 PPP(NELP 아님)를 이용하여 인코딩된 음성 데이터의 경우, 신호는 다수의 피치 기간(100)을 포함한다. 따라서, 피치 기간 보다 더 작은 소정의 유닛이 현저한 음성 인공물의 도입을 초래하는 위상 불연속을 유발하기 때문에, 음성 신호(10)로부터 부가 또는 삭제될 수 있는 가장 작은 유닛은 피치 기간(100)이다. 따라서, CELP 또는 PPP 음성에 대해 적용된 시간-와핑 방법의 일 단계는 피치 기간(100)의 추정이다. 이러한 피치 기간(100)은 CELP/PPP 음성 프레임(20)에 대한 디코더(206)에 이미 알려져 있다. PPP 및 CELP의 경우, 피치 정보는 자동 상관 방법을 이용하여 인코더(204)에 의해 계산되고 디코더(206)로 전송된다. 따라서, 디코더(206)는 피치 기간(100)의 정확한 정보를 갖는다. 이는 디코더(206)에서 본 발명의 시간-와핑 방법을 적용하는 것을 간단하게 한다.

더욱이, 전술한 바와 같이, 신호(10)를 합성하기 전에 신호(10)를 시간 와핑하는 것이 더욱 간단하다. 만일 이러한 시간-와핑 방법이 신호(10)를 디코딩한 후 적용되면, 신호(10)의 피치 기간(100)은 추정될 필요가 있다. 이는 추가의 계산을 필요로 할 뿐만 아니라, 잔여 신호(30)가 또한 LPC 정보(170)를 포함하므로, 피치 기간(100)의 추정이 매우 정확하지 않게 할 수도 있다.

다른 한편으로, 만일 추가의 피치 기간(100) 추정이 너무 복잡하지 않으면, 디코딩 후 시간 와핑의 실행은 디코더(206)에 대한 변경을 필요로 하지 않으며, 따 라서 모든 보코더(80)에 대해 단지 한 차례 실행될 수 있다.

LPC 코딩 합성을 이용하여 신호를 합성하기 이전에 디코더(206)에서 시간-와핑을 실행하는 다른 이유는 압축/확장이 잔여 신호(30)에 적용될 수 있다는 것이다. 이는 선형 예측 코딩(LPC) 합성이 시간-와핑된 잔여 신호(30)에 적용되게 한다. LPC 상수(50)는 음성이 어떻게 소리를 내고 와핑 후에 합성을 적용하는 것이 올바른 LPC 정보(170)가 신호(10)에 유지되는 것을 보장하는가에 기여한다.

다른 한편으로, 만일 시간-와핑이 잔여 신호(30)의 디코딩 후에 행해지면, LPC 합성은 시간-와핑 전에 이미 행해진다. 따라서, 특히, 만일 피치 기간(100) 예측 포스트-디코딩이 매우 정확하지 않다면, 와핑 절차는 신호(10)의 LPC 정보(170)를 변경시킬 수 있다. 일 실시예에서, 본 출원에 개시된 시간-와핑 방법에 의해 실시된 단계는 소프트웨어에 위치된 명령 또는 메모리(82)에 위치된 펌웨어(81)와 같이 저장된다. 도1에서, 메모리는 디코더(206) 내부에 위치된 것으로 도시된다. 메모리(82)는 또한 디코더(206) 외부에 위치될 수 있다.

(4GV 중 하나와 같은) 인코더(204)는 프레임(20)이 유성, 무성 또는 과도 음성을 나타내는 지에 따라, 음성 프레임(20)을 PPP(주기적), CELP(약간 주기적) 또는 NELP(잡음)으로 분류할 수도 있다. 음성 프레임(20) 타입에 대한 정보를 이용함으로써, 디코더(206)는 상이한 방법을 이용하여 상이한 프레임(20)을 시간-와핑할 수 있다. 예를 들어, NELP 음성 프레임(20)은 피치 기간의 어떠한 개념도 없으며, 그 잔여 신호(30)는 "랜덤" 정보를 이용하여 디코더(206)에서 생성된다. 따라서, CELP/PPP의 피치 기간(100) 추정은 NELP에 적용되지 않으며, 통상적으로 NELP 프레임(20)은 피치 기간(100)보다 더 작은 기간에 의해 와핑(확장/압축)될 수도 있다. 이러한 정보는, 시간-와핑이 디코더(206)에서 잔여 신호(30)를 디코딩한 후 실행되는 경우 유용하지 않다. 통상적으로, 디코딩 후, NELP 유사 프레임(20)의 시간-와핑은 음성 인공물을 초래한다. 다른 한편으로, 디코더(206)에서 NELP 프레임(20)의 와핑은 훨씬 양호한 품질을 생성한다.

따라서, 포스트-디코더(즉, 잔여 신호(30)가 합성된 후)와 대조적으로 디코더(206)에서 시간-와핑(즉, 잔여 신호(30)의 합성 이전)을 실행하는 것은 두 가지 장점이 있다: (i) 계산 오버헤드의 감소(예를 들어, 피치 기간(100)에 대한 탐색이 방지됨) 및 (ii) a) 프레임(20) 타입의 정보, b) 와핑된 신호에 대한 LPC 합성을 실행 및 c) 피치 기간의 더욱 정확한 추정/정보로 인한 개선된 와핑 품질. 잔여 시간 와핑 방법

본 발명의 방법 및 장치가 PPP, CELP 및 NELP 디코더에서 음성 잔여분(30)을 시간-와핑하는 실시예가 이하에 개시된다. 이하의 두 단계, (i)확장 또는 압축된 버젼에 대해 잔여 신호(30)를 시간-와핑하는 단계, 및 (ii)LPC 필터(80)를 통해 시간 와핑된 잔여분(30)을 전송하는 단계는 각각의 디코더(206)에서 실행된다. 더욱이, 단계(i)는 PPP, CELP 및 NELP 음성 세그먼트(110)에 대해 상이하게 실행된다. 실시예는 이하에 설명될 것이다. 음성 세그먼트(110)가 PPP 일 경우 잔여 신호의 시간- 와핑

전술한 바와 같이, 음성 세그먼트(110)가 PPP인 경우, 신호로부터 부가 또는 삭제될 수 있는 가장 작은 유닛은 피치 기간(100)이다. 신호(10)가 프로토타입 피치 기간(100)으로부터 디코딩(및 잔여분(30) 재구성)될 수 있기 전에, 디코더(206)는 앞선 프로토타입 피치 기간(100)(이는 저장됨)으로부터 현재 프레임(20)의 프로토타입 피치 기간(100)으로 신호(10)를 인터폴레이팅하여, 누락 피치 기간(100)을 프로세스에 부가한다. 프로세스는 도5에 도시된다. 이러한 인터폴레이션은 다소의 인터폴레이팅된 피치 기간(100)을 생성함으로써 그 자체를 더욱 용이하게 시간-와핑에 제공한다. 이는 PLC 합성을 통해 전송되는, 압축 또는 확장된 잔여 신호(30)를 생성한다. 음성 세그먼트(110)가 CELP 일 때 잔여 신호의 시간- 와핑

앞서 설명한 바와 같이, 음성 세그먼트(110)가 PPP인 경우, 신호로부터 부가 또는 삭제될 수 있는 가장 작은 유닛은 피치 기간(100)이다. 다른 한편, CELP의 경우, 와핑은 PPP의 경우와 같이 간단하지 않다. 잔여분(30)을 와핑하기 위해, 디코더(206)는 인코딩된 프레임(20)에 포함된 피치 지연(180) 정보를 이용한다. 피치 지연(180)은 실제로 프레임(20)의 단부에서의 피치 지연(180)이다. 심지어 주기적 프레임(20)에서도, 피치 지연(180)은 다소 변경될 수도 있음을 이해해야 한다. 프레임의 소정의 포인트에서 피치 지연(180)은 최종 프레임(20)의 단부에서의 피치 지연(180)과 현재 프레임(20)의 단부에서의 피치 지연 사이의 인터폴레이터에 의해 추정될 수 있다. 이는 도6에 도시된다. 프레임(20)의 모든 포인트에서 피치 지연(180)이 알려지면, 프레임(20)은 피치 기간(100)으로 분할된다. 피치 기간(100)의 경계는 프레임(20)의 다양한 포인트에서 피치 지연(180)을 이용하여 결 정된다.

도6은 프레임(20)을 자신의 피치 기간(100)으로 분할하는 방법의 예를 도시한다. 예를 들어, 샘플 번호(70)는 대략 70과 동일한 피치 지연(180)을 가지며, 샘플 번호(142)는 대략 72와 같은 피치 지연(180)을 갖는다. 따라서, 피치 기간(100)은 샘플 번호[1-70] 및 샘플 번호[71-142]에서 기원한다. 도6B 참조.

일단 프레임(20)이 피치 기간(100)으로 분할되면, 이러한 피치 기간(100)은 잔여분(30)의 크기를 증가/감소시키기 위해 중첩-부가될 수 있다. 도7B 내지 7F를 참조. 중첩 및 부가 합성에서, 변경된 신호는 입력 신호(10)로부터 세그먼트를 여기시키고, 이들을 시간 축을 따라 재위치 설정하고, 합성 신호(150)를 구성하기 위해 가중된 중첩 부가를 실행함으로써 얻어진다. 일 실시예에서, 세그먼트(110)는 피치 기간(100)과 동일할 수 있다. 중첩 가산법은 두 개의 음성 세그먼트(110)를 음성의 세그먼트(110)를 "합"함으로써 하나의 음성 세그먼트(110)로 대체한다. 음성의 합은 가능하면 많은 음성 품질을 유지하는 방식으로 행해진다. 음성 품질을 유지하고 음성으로의 인공물의 도입을 최소화하는 것은 합할 세그먼트를 주의 깊게 선택함으로써 달성된다. (인공물은 클릭, 팝 등과 같은 원치 않는 아이템이다.) 음성 세그먼트(110)의 선택은 세그먼트 "유사성"에 기초한다. 음성 세그먼트의 "유사성"이 밀접할수록, 최종 음성 품질이 더욱 우수하며, 음성의 두 세그먼트(110)가 음성 잔여분(30)의 크기를 감소/증가시키도록 중첩될 때 음성 인공물이 도입될 확률은 더욱 낮아진다. 피치 기간이 중첩 가산되는 지를 결정하기 위한 유용한 법칙은 두 세그먼트가 유사한지의 여부이다(예로써, 만일 피치 지연이 15샘플들보다 작게 상이하면, 이는 약 1.8msec에 대응함).

도7C는 중첩-가산이 잔여분(30)을 압축하기 위해 어떻게 사용되는 지를 나타낸다. 중첩/가산법의 제1 단계는 입력 샘플 시퀀스(s[n])(10)를 앞서 설명된 바와 같이 피치 기간으로 세그먼팅하는 것이다. 도7A에서, 4피치 기간(100)(PPs)을 포함하는 원음 신호(10)가 도시된다. 다음 단계는 도7A에 도시된 신호(10)의 피치 기간(100)을 제거하는 단계 및 이러한 피치 기간(100)을 합해진 피치 기간(100)으로 대체하는 단계를 포함한다. 예를 들어, 도7C에서, 피치 기간(PP2) 및 (PP3)이 제거되고, 이어 PP2 및PP3가 중첩-가산되는 하나의 피치 기간(100)으로 대체된다. 특히, 도7C에서, 피치 기간(100)(PP2) 및 (PP3)는 제2 피치 기간(100)(PP2)의 기여가 계속 감소하고 PP3의 기여가 증가하도록 중첩-가산된다. 가산-중첩법은 두 개의 상이한 음성 세그먼트(110)로부터 하나의 음성 세그먼트(110)를 생성한다. 일 실시예에서, 가산-중첩은 가중된 샘플을 이용하여 실행된다. 이는 도8에서 식a) 및 b)로 설명된다. 가중은 세그먼트1(110)의 제1 PCM(펄스 코딩된 변조) 샘플과 세그먼트2(110)의 최종 PCM 샘플 사이의 원만한 전이를 제공하기 위해 사용된다.

도7D는 중첩-가산되는 PP2 및 PP3의 다른 그래픽 설명이다. 교차 표시는, 하나의 세그먼트(110)를 제거하고 나머지 이웃한 세그먼트(110)를 인접(도7E에 도시됨)하게 하는 것을 간단하게 하는 것과 비교할 때, 이러한 방법에 의해 압축된 신호(10) 시간의 인식된 품질을 향상시킨다.

피치 기간(100)이 변경될 때, 중첩-가산법은 동등하지 않은 길이의 두 피치 기간(110)을 합할 수도 있다. 이러한 경우, 더욱 우수한 합산이 두 피치 기 간(100)의 피크를 중첩-가산하기 전에 이들을 정렬시킴으로써 달성될 수도 있다. 확장/압축된 잔여분은 이어 LPC 합성을 통해 전송된다. 음성 확장

음성을 확장하는 간단한 방식은 동일한 PCM 샘플의 다수의 반복을 행하는 것이다. 그러나 한 차례 이상 동일한 PCM 샘플의 반복은 인간에 의해 용이하게 검출되는 인공물인 피치 평탄부를 갖는 영역(음성은 다소 "로봇" 같이 소리를 낼 수도 있음)을 생성할 수 있다. 음성 품질을 보존하기 위해, 부가-중첩법이 사용될 수도 있다.

도7B는 이러한 음성 신호(10)가 본 발명의 중첩-가산법을 이용하여 어떻게 확장될 수 있는지를 나타낸다. 도7B에서, 피치 기간(100)(PP1 및 PP2)으로부터 생성된 부가 피치 기간(100)이 부가된다. 부가 피치 기간(100)에서, 피치 기간(100)(PP2 및 PP1)은 제2 피치(PP2) 기간(100)의 기여가 계속 감소하고 PP1의 기여가 증가하도록 중첩-가산된다. 도7F는 중첩 가산되는 PP2 및 PP3의 다른 그래픽 설명이다. 음성 세그먼트가 NELP 일 때 잔여 신호의 시간- 와핑

NELP 음성 세그먼트의 경우, 인코더는 LPC 정보 및 음성 세그먼트(110)의 상이한 부분에 대한 이득을 인코딩한다. 음성이 사실상 매우 잡음과 유사하므로, 소정의 다른 정보를 인코딩하는 것이 필수적이지 않다. 일 실시예에서, 게인은 16 PCM 샘플의 세트로 인코딩된다. 따라서, 예를 들어, 160 샘플의 프레임은 10 인코딩된 게인 값으로 표현될 수 있는데, 음성의 각각의 16 샘플에 대해 1이다. 디코 더(206)는 랜덤 값들을 생성하고 이들에 대해 각각의 게인을 적용함으로써 잔여 신호(30)를 생성한다. 이러한 경우, 피치 기간(100)의 개념이 없을 수도 있으며, 그 때문에, 확장/압축은 피치 기간(100)의 입도이어야 하는 것은 아니다.

NELP 세그먼트를 확장 또는 압축하기 위해, 디코더(206)는 세그먼트(110)이 확장 또는 압축되는지에 따라, 160보다 더 크거나 더 작은 수의 세그먼트(110)를 생성한다. 따라서, 10 디코딩된 게인이 확장 또는 압축된 잔여분(30)을 생성하도록 샘플에 부가된다. 이러한 10 디코딩된 게인이 원래의 160 샘플에 대응하기 때문에, 확장/압축된 샘플에 직접 적용되지 않는다. 다양한 방법이 이러한 게인을 적용하기 위해 사용될 수 있다. 이러한 소정의 방법은 이하에서 설명된다.

만일 생성될 샘플의 수가 160보다 작으면, 모든 10게인이 적용될 필요는 없다. 예를 들어, 만일 샘플의 수가 144이면, 첫 번째 9 게인이 적용될 수도 있다. 이러한 예에서, 제1 게인이 첫 번째 16 샘플, 샘플 1-16에 적용되며, 두 번째 게인은 다음 16 샘플, 샘플 17-32에 적용되는 방식이다. 유사하게, 만일 샘플이 160보다 크면, 10번째 게인은 1회 이상 적용될 수 있다. 예를 들어, 만일 샘플의 수가 192이면, 10번째 게인은 샘플145-160, 161-176, 및 177-192에 적용될 수 있다.

택일적으로, 샘플은 동일한 수의 10세트로 분할될 수 있으며, 각각의 세트는 동일한 수의 샘플을 가지며, 10 게인은 10세트에 적용될 수 있다. 예를 들어, 만일 샘플의 수가 140이면, 10게인은 각각 14 샘플의 세트에 적용될 수 있다. 이러한 예에서, 제1 게인은 첫 번째 14 샘플, 샘플 1-14에 적용되며, 제2 게인은 다음 14 샘플, 샘플 15-28에 적용되는 방식이다.

샘플의 수가 10으로 완전하게 나눠질 수 없는 경우, 10번째 게인은 10으로 나눈 후 얻어지 나머지 샘플에 적용될 수 있다. 예를 들어, 만일 샘플의 수가 145이면, 10게인은 각각 14 샘플의 세트에 적용될 수 있다. 택일적으로, 10번째 게인은 샘플 141-145에 적용된다.

시간-와핑 이후, 확장/압축된 잔여분(30)은 소정의 전술한 인코딩 방법을 사용할 때 LPC 합성을 통해 전송된다.

당업자는 정보 및 신호들이 임의의 다수의 상이한 기술들 및 테크닉들을 사용하여 표현될 수 있음을 인식할 것이다. 예를 들어, 상기 설명을 통해 참조될 수 있는 데이터, 지시들, 명령들, 정보, 신호들, 비트들, 심볼들 및 칩들은 전압들, 전류들, 전자기파들, 전자기장들, 또는 전자기 입자들, 광학계들 또는 광학 입자들, 또는 그들의 임의의 조합에 의해 표시될 수 있다.

당업자는 또한 본 명세서에 개시된 실시예들과 관련하여 설명된 논리적인 블럭들, 모듈들, 회로들, 및 알고리즘 단계들이 전자하드웨어, 컴퓨터 소프트웨어, 또는 그들의 조합으로서 실행될 수 있음을 인식할 것이다. 상기 하드웨어 및 소프트웨어의 상호교환가능성을 명백히 설명하기 위해, 다양한 요소들, 블럭들, 모듈들, 회로들, 및 단계들이 그들의 기능성에 관련하여 전술되었다. 상기 기능성이 하드웨어로 실행되는지 또는 소프트웨어로 실행되는지의 여부는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약에 따라 결정한다. 당업자는 각각의 특정 애플리케이션을 위해 다양한 방식들로 설명된 기능성을 실행할 수 있지만, 상기 실행 결정들은 본 발명의 영역으로부터 벗어나는 것으로 해석될 수 없다.

본 명세서에서 개시된 실시예와 관련하여 다양하게 설명되는 논리들, 논리 블럭들, 모듈들, 및 회로들은 범용 프로세서, 디지털 신호 처리기(DSP), 응용 집적 회로(ASIC), 현장 프로그램가능한 게이트 어레이(FPGA), 또는 다른 프로그램가능한 로직 디바이스, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 요소들, 또는 본 명세서에 개시된 기능을 수행하도록 설계된 그들의 임의의 조합을 사용하여 실행되거나 수행될 수 있다. 범용 프로세서는 마이크로프로세서가 될 수 있지만, 선택적으로 프로세서는 임의의 종래의 프로세서, 제어기, 마이크로제어기, 또는 상태 기계가 될 수 있다. 프로세서는 또한 예를 들어, DSP 및 마이크로프로세서의 조합, 복수의 마이크로프로세서, DSP 코어와 결합된 하나 또는 그 이상의 마이크로프로세서, 또는 임의의 다른 구성과 같은 컴퓨팅 장치들의 조합으로서 실행될 수 있다.

본 명세서에 개시된 실시예와 관련하여 설명되는 방법 또는 알고리즘의 단계는 하드웨어에서, 프로세서에 의해 실행되는 소프트웨어 모듈에서, 또는 그들의 조합에서 즉시 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드디스크, 제거가능한 디스크, CD-ROM 또는 임의의 다른 저장 매체 형태로 당업자에게 공지된다. 예시적인 저장 매체는 저장매체로부터 정보를 판독하고 정보를 기록할 수 있는 프로세서에 접속된다. 선택적으로, 저장 매체는 프로세서의 필수 구성요소이다. 프로세서 및 저장 매체는 ASIC 내에 상주할 수 있다. ASIC은 사용자 터미널 내에 상주할 수 있다. 선택적으로, 프로세서 및 저장 매체는 사용자 디바이스내에서 이산요소들로서 상주할 수 있다.

개시된 실시예의 전술된 설명은 당업자가 본 발명을 구현하고 이용하기에 용이하도록 하기 위하여 제공되었다. 이들 실시예에 대한 여러 가지 변형은 당업자에게 자명하며, 여기서 한정된 포괄적인 원리는 본 발명의 사용 없이도 다른 실시예에 적용될 수 있다. 따라서, 본 발명은 설명된 실시예에 한정되는 것이 아니며, 여기에 개시된 원리 및 신규한 특징에 나타낸 가장 넓은 범위에 따른다.

Claims

음성 통신 방법으로서,

잔여 음성 신호를 상기 잔여 음성 신호의 확장 또는 압축된 버젼으로 시간-와핑하는 단계; 및

상기 시간-와핑된 잔여 음성 신호를 합성하는 단계를 포함하는,

음성 통신 방법.
제1항에 있어서,

음성 세그먼트들을 분류하는 단계; 및

상기 음성 세그먼트들을 인코딩하는 단계를 더 포함하는 것을 특징으로 하는 음성 통신 방법.
제2항에 있어서,

상기 음성 세그먼트들을 인코딩하는 단계는, 프로토타입 피치 기간, 코드 여기된 선형 예측, 잡음 여기된 선형 예측 또는 1/8 프레임 코딩을 이용하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제2항에 있어서,

선형 예측 코딩 필터를 통해 상기 음성 신호를 전송하여, 상기 음성 신호의 단기간 상관이 제거되는 단계; 및

선형 예측 코딩 상수 및 잔여 신호를 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 통신 방법.
제2항에 있어서,

상기 음성 세그먼트들을 분류하는 단계는, 상기 프레임들이 유성음, 무성음 또는 과도 음성을 나타내는 지에 따라, 음성 프레임들을 주기적, 약간 주기적 또는 잡음으로 카테고리화하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제2항에 있어서,

상기 코딩은 코드 여기된 선형 예측 인코딩인 것을 특징으로 하는 음성 통신 방법.
제2항에 있어서,

상기 인코딩은 프로토타입 피치 기간 인코딩인 것을 특징으로 하는 음성 통신 방법.
제2항에 있어서,

상기 인코딩은 잡음 여기된 선형 예측 인코딩인 것을 특징으로 하는 음성 통신 방법.
제6항에 있어서, 상기 시간-와핑 단계는,

피치 기간을 추정하는 단계; 및

상기 잔여 신호를 수신한 후, 상기 피치 기간 중 적어도 하나를 가산 또는 감산하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제6항에 있어서, 상기 시간-와핑 단계는,

피치 지연을 추정하는 단계;

음성 프레임을 피치 기간들로 분할하는 단계를 포함하는데, 상기 피치 기간들의 경계는 상기 음성 프레임의 다양한 포인트에서 상기 피치 지연을 이용하여 결정되며;

만일 상기 잔여 음성 신호가 감소될 때 상기 피치 기간들을 중첩하는 단계; 및

만일 상기 잔여 음성 신호가 증가될 때 상기 피치 기간들을 부가하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제7항에 있어서, 상기 시간 와핑 단계는,

적어도 하나의 피치 기간을 추정하는 단계;

상기 적어도 하나의 피치 기간을 인터폴레이팅하는 단계;

상기 잔여 음성 신호를 확장할 때, 상기 적어도 하나의 피치 기간을 부가하 는 단계; 및

상기 잔여 음성 신호를 압축할 때, 상기 적어도 하나의 피치 기간을 감산하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제8항에 있어서,

상기 인코딩 단계는 선형 예측 코딩 정보를 음성 세그먼트의 상이한 부분들의 게인으로서 인코딩하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제10항에 있어서, 만일 상기 음성 잔여 신호가 감소되는 경우, 상기 피치 기간들을 중첩하는 단계는,

입력 샘플 시퀀스를 샘플들의 블록으로 세그먼팅하는 단계;

일정한 시간 간격들로 상기 잔여 신호의 세그먼트들을 제거하는 단계;

상기 제거된 세그먼트들을 합하는 단계; 및

상기 제거된 세그먼트들을 합해진 세그먼트로 대체하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제10항에 있어서,

상기 피치 지연을 추정하는 단계는 최종 프레임의 단부의 피치 지연과 현재 프레임의 단부 사이에 인터폴레이팅하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제10항에 있어서,

상기 피치 기간들을 부가하는 단계는 음성 세그먼트를 합하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제10항에 있어서,

만일 상기 잔여 음성 신호가 증가되는 경우 상기 피치 기간들을 부가하는 단계는, 제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제12항에 있어서,

상기 게인은 음성 샘플들의 세트들에 대해 인코딩되는 것을 특징으로 하는 음성 통신 방법.
제13항에 있어서,

상기 제거된 세그먼트를 합하는 단계는, 제1 피치 기간 세그먼트의 기여를 증가시키고 제2 피치 기간 세그먼트의 기여를 감소시키는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제15항에 있어서,

유사한 음성 세그먼트들을 선택하는 단계를 더 포함하며, 상기 유사한 음성 세그먼트들을 합해지는 것을 특징으로 하는 음성 통신 방법.
제15항에 있어서,

음성 세그먼트들을 상관시키는 단계를 더 포함하며, 그로 인해, 유사한 음성 세그먼트들이 선택되는 것을 특징으로 하는 음성 통신 방법.
제16항에 있어서,

제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 단계는, 상기 제1 피치 기간 세그먼트의 기여가 증가하고 상기 제2 피치 기간 세그먼트의 기여가 감소하도록 상기 제1 및 제2 피치 세그먼트들을 부가하는 단계를 포함하는 것을 특징으로 하는 음성 통신 방법.
제17항에 있어서,

랜덤 값들을 생성하고 상기 게인을 상기 랜덤 값들에 적용시킴으로써, 잔여 신호를 생성하는 단계를 더 포함하는 것을 특징으로 하는 음성 통신 방법.
제17항에 있어서,

10 인코딩된 게인 값들로서 상기 선형 예측 코딩 정보를 나타내는 단계를 더 포함하며, 각각의 인코딩된 게인 값은 음성의 16 샘플들을 나타내는 것을 특징으로 하는 음성 통신 방법.
적어도 하나의 입력 및 적어도 하나의 출력을 갖는 보코더로서,

상기 보코더의 입력에 동작가능하게 연결된 적어도 하나의 입력 및 적어도 하나의 출력을 갖는 필터를 포함한 인코더; 및

상기 인코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 입력 및 상기 보코더의 적어도 하나의 출력에 동작가능하게 연결된 적어도 하나의 출력을 갖는 합성기를 포함하는 디코더를 포함한,

보코더.
제24항에 있어서,

상기 디코더는 메모리를 포함하는데, 상기 디코더는 잔여 음성 신호를 상기 잔여 신호의 확장 또는 압축된 버젼으로 시간-와핑하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
제24항에 있어서,

상기 인코더는 메모리를 포함하며, 상기 인코더는 1/8 프레임, 프로토타입 피치 기간, 코드-여기된 선형 예측 또는 잡음-여기된 선형 예측으로서 음성 세그먼트를 분류하는 것을 포함하는, 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
제26항에 있어서,

상기 디코더는 메모리를 포함하며, 상기 디코더는 잔여 신호를 상기 잔여 음성 신호의 확장 또는 압축된 버젼으로 시간-와핑하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
제27항에 있어서, 상기 필터는,

음선 신호의 단기간 상관을 제거하고; 및

선형 예측 코딩 상수 및 잔여 신호를 출력하도록 적용된 선형 예측 코딩 필터인 것을 특징으로 하는 보코더.
제27항에 있어서,

상기 인코더는 메모리를 포함하며, 상기 인코더는 코드-여기된 선형 예측 인코딩을 이용하여 상기 음성 세그먼트들을 인코딩하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
제27항에 있어서,

상기 인코더는 메모리를 포함하며, 상기 인코더는 프로토타입 피치 기간 인코딩을 이용하여 상기 음성 세그먼트들을 인코딩하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
제27항에 있어서,

상기 인코더는 메모리를 포함하며, 상기 인코더는 잡음-여기된 선형 예측 인코딩을 이용하여 상기 음성 세그먼트를 인코딩하는 것을 포함하는, 상기 메모리에 저장된 소프트웨어 명령을 실행하도록 적용된 것을 특징으로 하는 보코더.
제29항에 있어서, 상기 시간-와핑 소프트웨어 명령은,

적어도 하나의 피치 기간을 추정하고; 및

상기 잔여 신호를 수신한 후, 상기 적어도 하나의 피치 기간을 가산 또는 감산하는 것을 포함함을 특징으로 하는 보코더.
제29항에 있어서, 상기 시간-와핑 소프트웨어 명령은,

피치 지연을 추정하고;

음성 프레임을 피치 기간들로 분할하는 것을 포함하는데, 상기 피치 기간들의 경계는 상기 음성 프레임의 다양한 포인트에서 상기 피치 지연을 이용하여 결정되며;

만일 상기 잔여 음성 신호가 감소되는 경우 상기 피치 기간들을 중첩하고; 및

만일 상기 잔여 음성 신호가 증가되는 경우 상기 피치 기간들을 부가하는 것을 포함함을 특징으로 하는 보코더.
제30항에 있어서, 상기 시간-와핑 소프트웨어 명령은,

적어도 하나의 피치 기간을 추정하고;

상기 적어도 하나의 피치 기간을 인터폴레이팅하고;

상기 잔여 음성 신호를 확장할 때, 상기 적어도 하나의 피치 기간을 부가하고; 및

상기 잔여 음성 신호를 압축할 때, 상기 적어도 하나의 피치 기간을 감산하는 것을 포함함을 특징으로 하는 보코더.
제31항에 있어서,

잡음-여기된 선형 예측 인코딩 소프트웨어 명령을 이용하여 상기 음성 세그먼트를 인코딩하는 것은 선형 예측 코딩 정보를 음성 세그먼트의 상이한 부분의 게인으로서 인코딩하는 것을 포함함을 특징으로 하는 보코더.
제33항에 있어서,

만일 상기 음성 잔여 신호가 감소되는 경우, 상기 피치 기간들을 중첩하는 명령은,

입력 샘플 시퀀스를 샘플들의 블록들로 세그먼팅하고;

일정한 시간 간격들로 상기 잔여 신호의 세그먼트들을 제거하고;

상기 제거된 세그먼트들을 합치고; 및

상기 제거된 세그먼트들을 합쳐진 세그먼트로 대체하는 것을 포함함을 특징으로 하는 보코더.
제33항에 있어서,

상기 피치 지연을 추정하는 명령은, 최종 프레임의 단부의 피치 지연과 현재 프레임의 단부 사이의 인터폴레이팅을 포함하는 것을 특징으로 하는 보코더.
제33항에 있어서,

상기 피치 기간들을 부가하는 명령은 음성 세그먼트들을 합치는 것을 포함함을 특징으로 하는 보코더.
제33항에 있어서,

만일 상기 음성 잔여 신호가 증가되는 경우 상기 피치 기간들을 부가하는 명령은, 제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 것을 포함함을 특징으로 하는 보코더.
제35항에 있어서,

상기 게인은 음성 샘플들의 세트에 대해 인코딩된 것을 특징으로 하는 보코더.
제36항에 있어서,

상기 제거된 세그먼트들을 합하는 명령은 제1 피치 기간 세그먼트의 기여를 증가시키고 제2 피치 기간 세그먼트의 기여를 감소시키는 것을 포함함을 특징으로 하는 보코더.
제38항에 있어서,

유사한 음성 세그먼트들을 선택하는 단계를 더 포함하며, 상기 유사한 음성 세그먼트들은 합쳐지는 것을 특징으로 하는 보코더.
제38항에 있어서,

상기 시간-와핑 명령은 음성 세그먼트들을 상관시키는 것을 더 포함하며, 그로 인해, 유사한 음성 세그먼트들이 선택되는 것을 특징으로 하는 보코더.
제39항에 있어서,

제1 피치 세그먼트 및 제2 피치 기간 세그먼트로부터 생성된 추가의 피치 기간을 부가하는 명령은, 상기 제1 피치 기간 세그먼트의 기여가 증가하고 상기 제2 피치 기간 세그먼트의 기여가 감소하도록 상기 제1 및 제2 피치 세그먼트들을 부가하는 것을 포함함을 특징으로 하는 보코더.
제40항에 있어서,

상기 시간-와핑 명령은 랜덤 값들을 생성하고 상기 게인들을 상기 랜덤 값들에 적용시킴으로써, 잔여 음성 신호를 생성하는 것을 더 포함함을 특징으로 하는 보코더.
제40항에 있어서,

상기 시간-와핑 명령은, 10 인코딩된 게인 값들로서 상기 선형 예측 코딩 정보를 나타내는 것을 더 포함하며, 각각의 인코딩된 게인 값은 음성의 16 샘플들을 나타내는 것을 특징으로 하는 보코더.