KR19990077151A

KR19990077151A - 음성 재생 속도 변환 장치

Info

Publication number: KR19990077151A
Application number: KR1019980705288A
Authority: KR
Inventors: 나오야 다나카; 히로아키 다케다
Original assignee: 모리시타 요이찌; 마쯔시다덴기산교 가부시키가이샤
Priority date: 1996-11-11
Filing date: 1997-11-10
Publication date: 1999-10-25
Also published as: CA2242610C; WO1998021710A1; CA2242610A1; JP3891309B2; DE69736279T2; CN1163868C; EP0883106A1; EP0883106A4; EP0883106B1; ES2267135T3; CN1208490A; US6115687A; AU4886397A; DE69736279D1; KR100327969B1

Abstract

본 발명에 따른 음성 재생 속도 변환 장치에서는, 입력 음성 신호 또는 입력 잔차 신호중에서 동일한 길이를 갖는, 2개의 이웃하는 파형간에 파형 차가 최소인 두 개의 파형을 선택하고, 이들 두 파형을 오버랩시킴으로써 오버랩된 파형을 계산한 후, 입력 음성 신호 또는 입력 잔차 신호의 일부를 오버랩된 파형으로 대체하거나 입력 음성 신호 또는 입력 잔차 신호에 오버랩된 파형을 삽입함으로써 음성 재생 속도가 변환된다.

Description

음성 재생 속도 변환 장치

음성의 피치를 변화시키지 않고서 재생 속도를 임의의 속도로 변환하는 방법으로서, 포인터 간격 제어 오버랩 및 가산(Pointer Interval Control Overlap and Add;PICOLA) 방법이 알려져 있다. PICOLA 방법의 원리는 1986년 10월 일본 음향학회 강연 논문집 1-4-14에 소개된, 모리타 나오타카 및 이타쿠라 후미타다에 의한 "포인터 간격 제어 오버랩 및 가산(PICOLA)에 의한 음성의 시간축상에서의 수정 알고리즘 및 그 평가"에서 도입되었다.

또한, 이러한 PICOLA 방법을 프레임 단위로 분할된 음성 신호에 적용하여 극소의 버퍼 메모리로 재생 속도를 변환하는 것이 일본 비심사된 특허 공개 평성 제8-137491호에 개시되어 있다.

도 9에 PICOLA 방법으로 음성 재생 속도를 변환하는 종래의 장치에 대한 블록도가 도시된다. 도 9에 도시된 음성 재생 속도 변환 장치에서는, 디지탈화된 음성 신호가 기록 매체(1)에 기록되고, 프레이밍부(2)는 기록 매체(1)로부터 음성 신호를 사전결정된 길이 LF 샘플의 프레임 단위로 페치한다. 프레이밍부(2)에 의해서 페치된 음성 신호는, 버퍼 메모리(3)에 임시 저장되는 한편, 피치 주기 계산부(6)에 제공된다. 피치 주기 계산부(6)는 음성 신호의 피치 주기 Tp를 계산하여, 파형 오버래핑부(9)에 제공함과 동시에 처리 개시 위치 포인터를 버퍼 메모리(3)에 저장한다. 파형 오버래핑부(9)는 입력 음성의 피치 주기를 이용하여 버퍼 메모리(3)에 저장된 음성 신호의 파형을 오버랩시키며, 이 오버랩된 파형을 파형 합성부(5)로 출력한다. 파형 합성부(5)는 버퍼 메모리(3)에 저장된 음성 신호 파형과 파형 오버래핑부(9)에서 처리된 오버랩된 파형으로부터 출력 음성 신호 파형을 합성하여 출력 음성을 출력한다.

이러한 음성 재생 속도 변환 장치에서는, 다음과 같은 처리에 의해 피치를 변화시키지 않고서 재생 속도를 변환한다.

우선, 고속 재생을 실행하는 때의 처리 방법이 도 10 및 도 1l을 이용하여 설명된다. 도면에서, P0는, 파형 오버랩 처리 프레임의 헤드(a head)를 나타내는 포인터이다. 파형 오버랩 처리에서, 처리 프레임은 음성 피치 주기 Tp의 2주기분의 길이를 갖는 LW 샘플이다. 또한, 입력 음성의 속도가 1이고 소망 재생 속도가 r인 경우, L은 다음 수학식 1로 주어지는 샘플 수이다.

L= Tp{1/(r-1)}

이 L은 출력 파형(c)의 길이에 대응하는 샘플이고, 후술하는 바와 같이, Tp＋L 샘플의 입력 음성이 L 샘플의 출력 음성으로서 재생된다. 따라서, r=(Tp＋L)/L이 되어, 수학식 1의 관계가 도출된다.

프레이밍부(2)에 의해 기록 매체(1)로부터 페치된 입력 음성은 버퍼 메모리(3)에 저장된다. 동시에, 피치 주기 계산부(6)는 입력 음성의 피치 주기 Tp를 계산하여, 파형 오버래핑부(9)에 입력한다. 또한, 피치 주기 계산부(6)는 수학식 1을 이용해서 피치 주기 Tp로부터 L을 계산하고, 다음 처리를 위한 개시 위치인 P0'를 결정하여, 버퍼 메모리내의 포인터로서 버퍼 메모리(3)에 제공한다.

파형 오버래핑부(9)는 버퍼 메모리(3)에서, 포인터 P0에 의해 표시된 처리 개시 위치로부터 파형 오버랩 처리 프레임 LW(=2T) 샘플의 파형을 페치하여, 삼각 윈도우 함수(triangle window function)에 따른 시간축 방향에서 처리 프레임의 전반 부분(파형 A)을 감소시키고 후반 부분(파형 B)을 증가시킨 후, 파형 A와 파형 B를 가산하여 오버랩된 파형 C을 계산한다.

파형 합성부(5)는 입력 음성 파형으로부터 파형 오버래핑 처리 프레임의 파형(파형 A＋파형 B)을 제거하고 이 제거된 파형 대신에 도 10에 도시된 오버랩된 파형(파형 C)을 삽입한다. 그 후, 입력 파형상에서 (P0＋Tp＋L)의 위치를 표시하는 P0'(합성 파형상에서 파형 C의 헤드＋L점의 위치를 표시하는 P1)까지 입력 음성 파형 D가 오버랩된 파형에 부가된다. 또한, r>2인 때 파형 C상에 P1이 존재하는데, 이 경우, 파형 C는 P1으로 표시된 위치까지 출력된다.

결과적으로, 합성된 출력 파형(c)의 길이는 L 샘플이 되며, 이 때 Tp＋L 샘플의 입력 음성은 L 샘플의 출력 음성으로서 재생된다. 다음 파형 오버랩 처리는 입력 파형상의 PO'점으로부터 개시된다.

도 11은 도 10을 이용하여 설명된 앞서의 처리에서, 버퍼 메모리(3)에 저장된 음성 신호와 프레이밍부(2)에 의한 프레이밍의 관계를 나타낸 도면이다.

본래, 버퍼 메모리(3)에서 파형 오버랩 처리에 필요한 버퍼 길이는 입력 음성의 최대 피치 주기 Tpmax의 2주기분이다. 그러나, 입력 음성이 사전결정된 프레임 길이 LF의 샘플로 분할되어 입력되므로, 처리 개시 위치 PO는 입력 음성의 첫 프레임내의 임의의 위치에 위치하며, 버퍼 길이는 입력 프레임 길이의 정수배이어야 한다. 따라서, 버퍼 길이는 (LF＋2 Tpmax)를 초과하는 LF의 배수의 최소 값이다. 예컨대, 입력 프레임 길이 LF가 160 샘플이고, 피치 주기의 최대치 Tpmax가 145이면, 버퍼 길이는 3LF= 480샘플을 필요로 한다.

버퍼 메모리에서의 처리시에, 버퍼 메모리의 내용은 LF 샘플의 입력시마다 시프트되며, 첫 프레임에 처리 개시 위치 P0가 입력된 때만 파형 오버래핑이 처리된다. 그 이외의 때는, 입력 신호가 그대로 출력 신호가 된다.

다음으로, 저속 재생을 행하는 방법에 대하여 도 12를 참조하여 설명한다.

고속 재생의 경우와 마찬가지로, P0는 파형 오버랩 처리 프레임의 헤드를 표시하는 포인터이다. 본 설명의 파형 오버랩 처리에서, 처리 프레임은 음성의 피치 주기 Tp의 2주기분의 길이를 갖는 LW 샘플이다. 또한, 입력 음성의 속도가 1이고 소망하는 재생 속도가 r로 주어졌을 때, L은 다음 수학식 2에 의해 주어지는 샘플의 수이다.

L= Tp{r/(1-r)}

저속 재생의 경우에는, 후술하는 바와 같이, L 샘플의 입력 음성이 Tp＋L 샘플의 출력 음성으로서 재생된다. 따라서, r= L/(Tp＋L)으로 되어, 수학식 2가 얻어진다.

파형 오버래핑부(9)는, 삼각 윈도우 함수에 따른 시간축 방향에서 처리 프레임의 전반 부분(파형 A)을 증가시키고, 후반 부분(파형 B)을 감소시킨 후, 파형 A와 파형 B를 가산하여, 오버랩된 파형 C을 계산한다.

파형 합성부(5)는 도 12에 도시된 입력 신호 파형(a)의 파형 A와 파형 B와의 사이에, 오버랩된 파형(파형 C)을 삽입한다. 그 후, 입력 파형상에서 (P0＋L) 점의 위치를 표시하는 P0'(합성 파형상에서는 파형 C의 헤드＋L 점의 위치를 표시하는 P1)까지, 입력 음성 파형 B이 오버랩된 파형에 부가된다. r>0.5인 때, Pl은 파형 B가 아니라, 오버랩된 처리 프레임으로부터 계속되는 파형 D상에 존재하며, 이 경우 파형 D가 P0'에 의해 표시된 위치까지 출력된다.

결과적으로, 합성된 출력 파형(c)의 길이는 Tp＋L 샘플이고, L 샘플의 입력 음성이 Tp＋L 샘플의 출력 음성으로서 재생된다. 또한, 다음 파형 오버랩 처리는 입력 파형의 P0'점으로부터 개시된다.

버퍼 메모리(3)에 저장된 음성 신호와, 프레이밍부(2)에 의한 프레이밍과의 관계는 고속 재생의 경우와 동일하다.

그런데, 전술한 음성 재생 속도 변환 장치에서는, 입력 음성의 피치 주기를 구하고, 이 피치 주기에 근거하여 파형의 오버래핑을 행하고 있다. 피치 주기로 나뉘어진 입력 음성을 피치 파형이라고 칭하며, 통상 피치 파형은 서로간에 대단히 유사성이 높으므로, 파형 오버랩 처리에 이용하는 데 적합하다.

그러나, 피치 주기 계산에 오류가 발생하면, 인접하는 피치 파형간의 차가 증대하여, 결과적으로 파형 오버래핑 후 출력 음성의 품질이 저하하는 문제가 발생한다. 피치 주기의 계산 오류가 발생하는 주된 원인으로서 다음과 같은 것이 생각된다. 일반적으로, 계산된 피치 주기는, 입력 음성의 특정 간격(피치 주기 분석 간격이라고 칭함)을 나타낸다. 피치 주기가 피치 주기 분석 간격내에서 급격히 변할 경우, 계산된 피치 주기와 실제의 피치 주기간에 차가 커진다. 따라서, 출력 음성 품질의 저하를 억제하기 위해서는, 파형 오버랩 처리 위치에서의 최적의 피치 파형을 획득할 필요가 있다.

발명의 개시

본 발명은 이상과 같은 사정을 감안하여 이루어진 것으로, 음성 재생 속도를 변환하기 위한 파형 오버랩에 기인한 왜곡을 감소시키고, 출력 음성의 품질을 향상시킬 수 있는 음성 재생 속도 변환 장치를 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위해 본 발명에서는, 입력 음성 신호 또는 입력 잔차 신호(residual signals)에 있어서, 동일한 길이의 인접하는 두 파형간의 파형 차가 최소인 두 개의 파형을 선택하여 오버랩된 파형을 계산하고, 이 오버랩된 파형을 입력 음성 신호 또는 입력 잔차 신호의 일부로 교체하거나 입력 음성 신호 또는 입력 잔차 신호에 삽입함으로써 음성의 재생 속도 변환을 실현하고 있다.

본 발명에 따르면, 오버랩할 파형을 정확히 선택할 수 있으므로, 속도 변환된 음성의 품질이 향상된다.

또한, 본 발명에서는 음성 부호화 장치로부터의 출력 정보가, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수, 피치 주기 정보 및 예측 잔차(a predictive residual)를 나타내는 음원 정보(voice source information)로 나눔으로써 부호화하는 음성 부호화 장치의 디코더와 조합하여 이용된다.

본 발명에 따르면, 음성 부호화 장치로부터의 출력 정보를 이용함에 의해, 부호화된 음성 신호의 재생 속도를 변환하는데 드는 계산 비용을 크게 감소시킬 수 있다.

본 발명에 따르면, 디지탈화된 입력 음성 신호가 일시적으로 저장되는 버퍼 메모리와, 버퍼 메모리에 저장된 음성 신호 파형을 오버랩시키는 파형 오버래핑부와, 버퍼 메모리내의 입력 음성 파형과 오버랩된 음성 파형으로부터 출력 음성 파형을 합성하는 파형 합성부를 구비하는 음성 재생 속도 변환 장치에 있어서, 버퍼 메모리로부터 인접하는 동일한 길이의 2개 음성 파형을 페치하는 파형 페치부와, 파형 페치부에 의해서 페치된 2개 음성 파형간의 차를 계산하는 파형 차 계산부(a form difference calculating section)를 포함하되, 파형 오버래핑부는 파형 차 계산부에 의해 계산된 차가 최소가 되는 2개의 음성 파형을 선택하여 오버랩시키도록 구성된다.

또한, 본 발명에 따른 음성 재생 속도 변환 장치는, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부와, 계산된 선형 예측 계수를 이용하여 입력 음성 신호로부터 예측 잔차 신호를 계산하는 역 필터(an inverse filter)와, 선형 예측 계수를 이용하여 예측 잔차 신호로부터 음성 신호를 합성하는 합성 필터(a synthesize filter)를 포함하되, 역 필터에 의해 계산된 예측 잔차 신호는 버퍼 메모리에 저장되고, 파형 합성부에 의해 합성된 예측 잔차 신호는 합성 필터로 출력된다.

이에 따라, 피치 파형을 결정하기 용이하고 피치 파형을 정확히 페치할 수 있게 하는 예측 잔차 신호를 이용하여 재생 속도 변환 처리를 실행할 수 있으므로, 재생 음성의 품질을 향상시킬 수 있다.

또한, 본 발명에서는, 음성 신호를 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 나눔으로써 부호화하는 음성 부호화 장치와 결합되는데, 예측 잔차를 나타내는 음원 정보는 버퍼 메모리에 일시적으로 저장되고, 파형 페치부는 피치 주기 정보를 기초로 버퍼 메모리로부터 페치된 음성 파형의 길이 범위를 판정한다.

또한, 본 발명에서는, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 나눔으로써 음성 신호를 부호화하는 음성 부호화 장치와 결합되는데, 예측 잔차를 나타내는 음원 정보는 버퍼 메모리에 일시적으로 저장되고, 파형 페치부는 피치 주기 정보를 기초로 버퍼 메모리로부터 페치된 음성 파형의 길이 범위를 판정한다.

또한, 본 발명에서는, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부와, 계산된 선형 예측 계수를 이용하여 입력 음성 신호로부터 예측 잔차 신호를 계산하는 역 필터와, 선형 예측 계수를 보간하는 선형 예측 계수 보간부와, 선형 예측 계수를 이용하여 예측 잔차 신호로부터 음성 신호를 합성하는 합성 필터를 제공하되, 상기 역 필터에 의해 계산된 예측 잔차 신호는 버퍼 메모리에 일시적으로 저장되고, 파형 합성부는 합성된 예측 잔차 신호를 합성 필터로 출력하며, 선형 예측 계수 보간부는 합성된 예측 잔차 신호에 대해 최적의 선형 예측 계수가 되도록 선형 예측 계수를 보간하고, 합성 필터는 이 보간된 선형 예측 계수를 이용하여 출력 음성 신호를 출력한다.

이에 따라, 합성된 예측 잔차 신호에 대해 최적의 계수가 되도록 보간된 선형 예측 계수를 이용하여 출력 음성 신호가 합성되므로, 음성 품질을 향상시킬 수 있다.

본 발명은 디지탈화된 음성 신호를 음성의 피치(a pitch)를 변화시키지 않고서 임의의 속도로 재생하는 음성 재생 속도 변환 장치에 관한 것이다.

본 명세서에서 "음성" 및 "음성 신호"라 함은 인간이 발생하는 음성뿐만 아니라, 악기 등으로부터 발생하는 모든 음향 신호를 나타내는데 사용된다.

도 1은 본 발명의 제 1 실시예에 따른 음성 재생 속도 변환 장치의 블록도,

도 2는 본 발명의 제 1 실시예에 따라 재생 속도를 변환하기 위한 대상 파형의 파형도,

도 3은 본 발명의 제 2 실시예에 따른 음성 재생 속도 변환 장치의 블록도,

도 4는 본 발명의 제 3 실시예에 따른 음성 재생 속도 변환 장치의 블록도,

도 5는 본 발명의 제 4 실시예에 따른 음성 재생 속도 변환 장치의 블록도,

도 6은 본 발명의 제 5 실시예에 따른 음성 재생 속도 변환 장치의 블록도,

도 7은 처리 프레임의 위치, 윈도우 함수 형상 및 가중치, 및 오버랩 처리의 관계를 예시하는 도면,

도 8은 본 발명의 제 6 실시예에 따른 음성 재생 속도 변환 장치의 블록도,

도 9는 종래의 음성 재생 속도 변환 장치의 블록도,

도 10는 고속 재생의 경우에 대한 입력 파형, 오버랩된 파형, 출력 파형의 관계를 예시한 도면,

도 11은 프레이밍된 입력 신호, 버퍼 메모리내의 입력 신호, 시프트된 후의 버퍼 메모리내의 입력 신호의 관계를 나타낸 도면,

도 12는 저속 재생의 경우에 대한 입력 파형, 오버랩된 파형, 출력 파형의 관계를 나타낸 도면이다.

이하, 본 발명의 실시예에 대하여 도면을 참조하여 구체적으로 설명한다.

(제 1 실시예)

도 1에, 제 1 실시예에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시된다. 도면에서, 전술한 도 9에 표시된 장치의 각부와 동일 기능을 갖는 부분에는 동일 부호를 사용하고 있다.

본 음성 재생 속도 변환 장치에서, 파형 페치부(7)는 페치할 파형의 개시 위치 및 길이를 버퍼 메모리(3)에 제공하며, 버퍼 메모리(3)로부터 (다수의) 인접하는 동일한 길이의 2개 음성 파형을 페치한다. 파형 차 계산부(8)는 파형 페치부(7)에 의해 페치된 2개의 음성 파형간의 차를 계산하여, 그 파형 차가 최소인 길이의 파형을 선택한 후, 오버랩 처리를 위한 프레임을 결정한다. 그리고 나서, 파형 오버래핑부(9)는 파형 차 계산부(8)에서 결정된 2개의 파형을 오버랩한다.

또, 전술한 도 9에 도시된 장치와 마찬가지로, 디지탈화된 음성 신호는 기록 매체(1)에 기록되며, 프레이밍부(2)는 기록 매체(1)로부터 사전결정된 길이 LF 샘플의 프레임 단위로 음성 신호를 페치하는데, 프레이밍부(2)에 의해 페치된 음성 신호는 버퍼 메모리(3)에 임시 저장된다. 또한, 파형 합성부(5)가 버퍼 메모리(3)에 저장된 음성 신호 파형과 파형 오버래핑부(9)에서 처리된 오버랩된 파형으로부터 출력 음성 신호 파형을 합성한다.

이러한 재생 속도 변환 장치의 기록 매체(1), 프레이밍부(2), 버퍼 메모리(3), 파형 오버래핑부(9), 파형 합성부(5)의 기능 및 처리는 종래의 장치와 동일하므로 설명을 생략하며, 파형 페치부(7), 파형 차 계산부(8)의 기능과 오버랩 처리 프레임을 결정하는 프로세스에 대해 주로 설명한다.

파형 페치부(7)는, 도 2에 도시된 바와 같이 오버랩 처리 프레임용 후보 파형(19)으로서, 버퍼 메모리(3)로부터의 처리 개시 위치 포인터 P0로부터 인접하는 동일한 길이 Tc의 2개 음성 파형(파형 A와 파형 B)을 페치한다.

파형 차 계산부(8)는 파형 A와 파형 B의 두 파형간의 파형 차를 계산한다. 2개 파형간의 차 Err는, 파형 A가 x(n)이고 파형 B가 y(n)이며, n이 샘플점일 때, 다음 수학식 3으로 나타내어진다.

Err=Σ{x(n)-y(n)}²(Σ는 n=0으로부터 Tc-1까지 가산)

파형 차 계산부(8)는 처리 개시 위치로서 고정된 버퍼 메모리(3)로부터의 포인터 P0를 이용하여, 상이한 길이(샘플 수)의 파형 A 및 B의 다른 이웃하는 두 개 파형을 페치하여 이들 두 파형간의 차 Err를 계산한다. 상이한 길이(샘플 수)의 두 개 파형 A 및 B를 순차적으로 취함으로써 다수의 파형 차 Err가 계산된다. 그리고 최소 파형 차 Err를 갖는 파형 A 및 B의 결합이 선택된다.

이 경우, Err는 파형 길이 Tc에서 샘플들의 차의 합이므로, 상이한 길이 Tc를 갖는 파형들의 차를 직접 비교하는 것은 불가능하다. 따라서, 예컨대, Err를 Tc에서의 샘플들의 수로 나눈 값, 즉, 한 샘플에 대한 평균 차 Err/Tc를 이용하여 차를 비교할 수 있다. 파형 길이 Tc에서 샘플링 수의 범위는 사전결정되므로, 예를 들어, 8㎑ 샘플링의 음성 신호에 대해서는 16내지 160개의 샘플이 적절하다. 파형의 길이 Tc를 사전결정된 범위내에서 변화시켜서, 각각의 Tc에 대해 평균 차 Err/Tc를 계산하고, 그들을 비교함으로써, 평균 차가 최소인 Tc가 구하려는 파형의 길이로 결정된다.

파형 오버래핑부(9)는 파형 차 계산부(8)로부터 선택된 2개의 파형 A 및 B를 오버랩 처리 프레임(14)으로서 페치하여, 처리 프레임(파형 A) 및 처리 프레임(파형 B)을 상이한 삼각 윈도우 함수에 따라 개별적으로 처리한 후, 두 파형을 오버랩시킴으로써 오버랩된 파형(15)을 생성한다.

파형 합성부(5)는 버퍼 메모리(3)로부터 입력 음성 파형(16)을 페치하여, 입력 음성 파형(16)을 오버랩된 파형(15)으로 대체하거나, 재생속도 r에 기초해 입력 음성 파형(16)에 오버랩된 파형(15)을 삽입함으로써 속도 변환된 출력 음성(17)을 발생한다.

이와 같은 본 실시예에 의하면, 파형 페치부(7)가 버퍼 메모리(3)로부터, 합성할 파형의 후보로서 한 쌍의 인접하는 파형 A 및 B를 페치하고, 페치할 파형의 길이를 점차 변화시키며, 각 파형쌍에 있어서의 파형간의 차 Err/Tc를 계산하고, 파형 차 Err/Tc가 최소가 되는 파형 A 및 B의 쌍을 선택하여 합성하므로, 파형 A 및 B의 오버랩에 기인한 왜곡이 감소되어, 출력 음성의 품질을 향상시킬 수 있다.

(제 2 실시예)

제 2 실시예는 피치 파형이 현저히 나타나는 잔차 신호에 의해 재생 속도 변환 처리를 실행하는 예이다.

도 3에는, 제 2 실시예에 따른 음성 재생 속도 변환 장치의 기능 블록이 도시된다. 또, 도면에서 전술한 도 1 및 도 9에 도시된 장치의 각부와 동일 기능을 갖는 부분에는 동일 부호를 사용하였다.

이 음성 재생 속도 변환 장치는, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부(30)와, 계산된 선형 예측 계수를 이용하여 입력 음성 신호로부터 예측 잔차 신호를 계산하는 역 필터(31)와, 선형 예측 계수를 이용하여 예측 잔차 신호로부터 음성 신호를 합성하는 합성 필터(32)를 구비한다. 본 실시예에 따른 음성 재생 속도 변환 장치의 그 밖의 구성은 제 1 실시예와 동일하다.

이상 설명된 바와 같이 구성된 음성 재생 속도 변환 장치에서, 프레이밍부(2)에서 페치된 입력 음성 프레임(12)은 선형 예측 분석부(30)와 역 필터(31)로 입력된다. 선형 예측 분석부(30)는 입력 음성 프레임(12)으로부터 선형 예측 계수(33)를 계산하며, 역 필터(31)는 이 선형 예측 계수(33)를 이용하여 입력 음성 프레임(12)으로부터 잔차 신호(34)를 계산한다.

역 필터(31)에서 계산된 잔차 신호(34)는 버퍼 메모리(3), 파형 페치부(7), 파형 차 계산부(8) 및 파형 오버래핑부(9)에서 본 발명의 제 1 실시예에서 설명된 재생 속도 변환 처리에 따라 파형합성되어, 파형 합성부(5)로부터 합성 잔차 신호(35)로서 출력된다.

합성 필터(32)는 선형 예측 분석부(30)로부터 제공된 선형 예측 계수(33)를 이용하여, 합성 잔차 신호(35)로부터 합성된 출력 음성(36)을 계산하여 출력한다.

이와 같이 본 발명의 실시예에서는, 선형 예측 계수로 나타내여지는 스펙트럼 포락선 정보(spectrum envelope information)가 제거된 입력 음성 신호인 예측 잔차 신호로부터 2개의 파형을 페치하여 파형합성한다. 예측 잔차 신호는 본래의 입력 신호보다도 피치 파형이 현저히 나타나므로, 본 발명의 실시예에서 설명한 바와 같이 잔차 신호를 이용하여 음성 재생 속도의 변환을 처리함으로써, 피치 파형이 정확히 페치될 수 있어서, 재생 음성의 품질을 향상시킬 수 있다.

(제 3 실시예)

제 3 실시예에서는, 음성 재생 속도 변환 장치와 음성 부호화 장치를 조합하고, 음성 부호화 장치로부터 출력되는 음성 부호화 정보를 속도 변환 처리에 사용함으로써 계산의 복잡도가 감소된다.

도 4에는, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시되어 있다. 또, 도면에서 전술한 도 1, 도 3 및 도 9에 도시된 장치의 각부와 동일 기능을 갖는 부분에는 동일 부호를 사용하였다.

이러한 음성 재생 속도 변환 장치에서는, 본 발명의 제 2 실시예에서의 기억 매체(1), 프레이밍부(2), 선형 예측 분석부(30) 및 역 필터(31)가 그를 포함하는 음성 코딩 장치의 디코더(40)로 대체되었다. 음성 부호화 장치의 디코더(40)는, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 나눔으로써 음성 신호를 부호화하는 기능을 갖는다. 이러한 음성 부호화 장치로서 대표적으로 CELP(Code Excited Linear Predictive coding)가 알려져 있다. 또한 일반적으로, CELP와 같은 고효율 음성 부호화 장치에서, 각 부호화 정보는 프레임 단위로 부호화된다. 따라서, 디코더(40)로부터 출력되는 음원 신호(41)는 음성 부호화 장치에 의해 사전결정된 길이의 프레임 단위의 신호이므로, 본 발명의 음성 재생 속도 변환 장치의 입력으로서 직접 사용될 수 있다.

본 실시예에 따른 음성 재생 속도 변환 장치에서, 디코더(4O)로부터 출력되는 프레임 단위의 음원 신호(41)는 버퍼 메모리(3)에 저장되고, 피치 주기 정보(42)는 파형 페치부(43)에 입력되며, 선형 예측 계수(33)는 합성 필터(32)에 입력된다.

파형 페치부(43)는 버퍼 메모리(3)로부터 길이 Tc의 인접하는 파형 A 및 B를 페치하며, 상이한 길이의 파형 A 및 B로 이루어진 다수의 쌍을 파형 차 계산부(8)에 순차적으로 공급한다. 또한, 파형 페치부(43)에서 페치된 파형의 길이 Tc의 범위가 피치 주기 정보(42)에 따라 변화되므로, 차를 계산하는데 있어서의 계산의 복잡도가 크게 감소될 수 있다. 또한, 디코더로부터 출력된 선형 예측 계수(33)는 합성 필터(32)의 입력으로서 이용된다.

이와 같이, 음성 신호를 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리함으로써 부호화하는 음성 부호화 장치의 디코더와, 본 발명의 음성 재생 속도 변환 장치를 조합함으로써, 음성 부호화 장치로부터 출력되는 정보를 이용하여 음성 부호화 장치에서 부호화된 음성 신호의 재생 속도를 변환함으로써 계산의 복잡도를 감소시킬 수 있다.

(제 4 실시예)

제 4 실시예의 음성 재생 속도 변환 장치는, 음성 부호화 장치와 조합하여, 음성 부호화 장치로부터 출력되는 음성 부호화 정보를 이용함으로써, 계산의 복잡도를 감소시킨다.

도 5에는, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블록이 도시되어 있다. 또한, 도면에서 전술한 제 3 실시예의 각 부와 동일 기능을 갖는 부분에는 동일 부호를 사용하였다.

이 음성 재생 속도 변환 장치에서는, 제 3 실시예에 구비된 합성 필터(32)와 동일 기능을 갖는 합성 필터(32')가 음성 부호화 장치의 디코더(40)와 버퍼 메모리(3) 사이에 제공된다. 합성 필터(32')는 음원 신호 프레임(41)과 선형 예측 계수(33)로부터 복호화된 음성 신호를 생성하여, 합성 음성 신호(44)로서 버퍼 메모리(3)에 저장한다. 음원 신호(41)는 디코더(40)로부터 프레임 단위로 입력되므로, 합성 음성 신호(44)도 프레임 단위의 신호가 된다. 따라서, 본 발명의 음성 재생 속도 변환 장치의 입력으로서 직접 사용가능하다.

이상 설명된 바와 같이, 음성 신호를 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리함으로써 부호화하는 음성 부호화 장치와, 본 발명의 음성 재생 속도 변환 장치를 조합하고, 음성 부호화 장치로부터 출력되는 정보를 이용하여, 음성 부호화 장치에서 부호화된 음성 신호의 재생 속도를 변환함으로써, 계산의 복잡도를 감소시킬 수 있다.

(제 5 실시예)

제 5 실시예에 따른 음성 재생 속도 변환 장치에서는, 합성된 잔차 신호에 대해 최적의 계수가 되도록 선형 예측 계수를 보간함으로써, 음성 품질을 향상시킬 수 있다.

도 6에는, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블록이 도시되어 있다. 또한, 도면에서 전술한 각 실시예의 각부와 동일 기능을 갖는 부분에는 동일 부호를 사용하였다.

본 실시예의 음성 재생 속도 변환 장치는, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부(30)와, 계산된 선형 예측 계수(33)를 이용하여 입력 음성 신호로부터 예측 잔차 신호(34)를 계산하는 역 필터(31)와, 선형 예측 계수를 이용하여 입력 음성 신호로부터 음성 신호를 합성하는 합성 필터(32)와, 합성된 잔차 신호에 대해 최적의 계수가 되도록 선형 예측 계수(33)를 보간하는 선형 예측 계수 보간부(60)를 포함한다. 그 밖의 구성은 본 발명의 제 1 실시예(도 1 참조)와 동일하다.

이러한 음성 재생 속도 변환 장치에서는, 프레이밍부(2)에서 기록 매체(1)로부터 페치된 입력 음성 프레임(12)이 선형 예측 분석부(30)에 입력된다. 선형 예측 분석부(30)는 입력 음성 프레임(12)으로부터 선형 예측 계수(33)를 계산하여 역 필터(31) 및 선형 예측 계수 보간부(60)로 출력한다. 역 필터(21)는 선형 예측 계수(33)를 이용하여 입력 음성 프레임(12)으로부터 잔차 신호(34)를 계산한다. 이 잔차 신호(34)는 제 1 실시예에서 설명된 재생 속도 변환 처리에 의해 파형합성되어, 파형 합성부(5)로부터 합성 잔차 신호(35)로서 출력된다.

선형 예측 계수 보간부(60)는 파형 합성부(5)로부터 처리 프레임 위치 정보(61)를 수신하여, 합성 잔차 신호(35)에 대해 최적의 계수가 되도록 선형 예측 계수(33)를 보간한다. 보간된 선형 예측 계수(62)는 합성 필터(32)에 입력되며, 합성 잔차 신호(35)로부터 출력 음성 신호(36)가 합성된다.

합성 잔차 신호(35)에 대해 최적의 계수가 되도록 선형 예측 계수(33)를 보간하는 방법의 일례가 도 7을 참조하여 설명된다.

도 7의 (a)에 도시하는 바와 같이, 합성 잔차 신호(35)를 계산하기 위한 처리 프레임이 입력 프레임1, 2 및 3에 걸쳐 있다고 가정한다. 파형을 오버랩시키는데 사용할 윈도우 함수의 형상은 도 7의 (b)에 도시된 바와 같은 형상과 가중치를 갖는 것으로 가정한다. 따라서, 도 7의 (c)에 도시하는 바와 같이 오버랩 처리에 의해 생성된 오버랩된 파형에 포함되는 데이터 량은, 윈도우 함수 형상을 고려함으로써 가중치 w1, w2, w3를 갖는 간격 F1, F2, F3에 포함된 데이터 량이다. 이 오버랩된 파형에 포함된 본래의 데이터 량을 기준으로하여 다음 수학식 4에 따라 보간된 선형 예측 계수(62)가 구해진다.

(보간된 선형 예측 계수)

=(프레임1의 선형 예측 계수)×(가중치 w1)

=(프레임2의 선형 예측 계수)×(가중치 w2)

=(프레임3의 선형 예측 계수)×(가중치 w3)

단, w1＋w2＋w3=1

또한, 가중치 w1, w2, w3와 관련하여, 윈도우 함수 형상을 고려해야할 뿐 아니라, 프레임 1, 2, 3 각각의 선형 예측 계수의 유사성 등도 고려해야 한다. 또한, 계산할 보간된 선형 예측 계수는 1개일 필요는 없고, 다수의 계수도 이용가능하며, 이것은 오버랩된 파형을 다수의 부분으로 나누고, 각각의 부분에 대하여 최적의 보간된 선형 예측 계수를 계산함으로써 얻어진다. 또한, 선형 예측 계수를 보간하는 처리에 있어서는, 각 선형 예측 계수를 보간 처리에 적합한 LSP 파라미터 등으로 변환하고, 변환된 LSP 파라미터 등을 보간 처리하여, 계산된 결과를 선형 예측 계수로 재변환함으로써 성능을 향상시킬 수 있다.

(제 6 실시예)

제 6 실시예에 따른 음성 재생 속도 변환 장치에서는, 음성 재생 속도 변환 장치를 음성 부호화 장치와 조합하여 사용하고, 음성 부호화 장치로부터 제공되는 음성 부호화 정보를 이용함으로써 연산량이 감소된다.

도 8에는, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블록이 도시되어 있다.

이 음성 재생 속도 변환 장치는, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리함으로써 음성 신호를 부호화하는, 제 3 실시예에서 이용된 음성 부호화 장치(디코더40)가 본 발명의 제 5 실시예에서의 기록 매체(1) 및 프레이밍부(2)로 대체됨으로써 제공된다.

디코더(40)로부터 출력된 음원 신호 프레임(41)은 버퍼 메모리(3)에 입력되며, 선형 예측 계수(33)는 선형 예측 계수 보간부(60)에 입력된다. 또한, 피치 주기 정보(42)는 파형 페치부(43)에 입력되어, 파형 페치부(43)에서 페치할 파형의 길이 Tc의 범위가 피치 주기 정보(42)에 따라 스위칭된다. 이에 따라, 페치할 파형의 길이 Tc의 범위가 제한되므로, 파형 차를 획득하는데 있어서의 계산의 복잡도를 크게 감소시킬 수 있다.

이상 설명한 바와 같은 실시예에 의하면, 음성 신호를 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리함으로써 부호화하는 음성 부호화 장치와, 본 발명의 음성 재생 속도 변환 장치를 조합하고, 음성 부호화 장치로부터 출력되는 정보를 이용하여 음성 부호화 장치에서 부호화된 음성 신호의 재생 속도를 변환할 수 있으므로, 계산의 복잡도가 감소된다.

(제 7 실시예)

본 발명의 음성 재생 속도 변환 장치는 그 처리 알고리즘이 프로그래밍 언어로 기술된 소프트웨어로 실현될 수 있다. 프로그램을 플로피 디스크 등의 기억 매체에 기록하고, 기록 매체를 퍼스널 컴퓨터와 같은 범용 신호 처리 장치에 접속하여, 프로그램을 실행시킴으로써, 본 발명의 음성 재생 속도 변환 장치의 기능이 성취될 수 있다.

본 발명은 상술한 실시예에 한정되지 않고 본 발명의 범주내에서 변경된 실시예에 적용될 수 있다.

이상과 같이, 본 발명에 따른 음성 재생 속도 변환 장치는, 기록 매체에 기록된 음성 신호를 음성의 피치를 변화시키지 않고 임의의 속도로 재생하는 데 유용하고, 출력 음성의 품질을 향상시키는 데 적합하다.

Claims

음성 재생 속도 변환 장치에 있어서,

입력 음성 신호의 음성 파형으로부터 동일한 길이를 갖고 파형 차(form difference)가 최소인 2개의 인접하는 음성 파형을 선택하는 파형 선택 수단과,

상기 파형 선택 수단에서 선택된 상기 2개의 음성 파형을 오버랩시키는 파형오버래핑 수단과,

상기 입력 음성의 음성 파형의 일부를 상기 오버랩된 음성 파형으로 대체하거나 상기 입력 음성의 상기 음성 파형에 상기 오버랩된 음성 파형을 삽입함으로써 속도 변환된 출력 음성 파형을 생성하는 파형 합성 수단

포함하는 음성 재생 속도 변환 장치.
제 1 항에 있어서,

상기 파형 선택 수단은,

상기 입력 음성 신호의 음성 파형 데이터가 저장된 버퍼 메모리로부터, 동일한 길이를 갖는 인접하는 2개의 음성 파형의 다수의 쌍을 페치하는 페치 수단으로서, 상기 두 파형의 각 쌍의 길이는 상이하게 이루어지는 상기 페치 수단과,

상기 페치 수단에 의해 상기 버퍼 메모리로부터 페치된 음성 파형의 다수의 쌍들로부터 파형 차가 최소인 음성 파형의 쌍을 검출하는 수단을 구비하는

음성 재생 속도 변환 장치.
제 1 항에 있어서,

상기 파형 선택 수단은,

상기 입력 음성 신호의 음성 파형 데이터로서, 피치 파형을 현저히 나타내는 예측 잔차 신호의 파형 데이터를 이용하는 음성 재생 속도 변환 장치.
제 3 항에 있어서,

상기 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석 수단과,

상기 계산된 선형 예측 계수를 이용하여 상기 입력 음성 신호로부터 상기 예측 잔차 신호를 계산하는 역 필터와,

상기 선형 예측 계수를 이용하여 상기 파형 합성 수단으로부터 출력되는 합성 잔차 신호로부터 음성 신호를 합성하는 합성 필터

를 포함하는 음성 재생 속도 변환 장치.
제 4 항에 있어서,

선형 예측 분석 수단에서 계산된 상기 선형 예측 계수를 상기 합성 잔차 신호에 대해 최적의 계수가 되도록 보간하는 선형 예측 계수 보간 수단을 더 포함하며,

상기 합성 필터는 상기 보간된 선형 예측 계수를 이용하여 출력 음성 신호를 합성하는

음성 재생 속도 변환 장치.
제 1 항에 있어서,

음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리함으로써 부호화하는 음성 부호화 장치의 출력 정보를 이용하여 속도 변환 처리를 실행하는 음성 재생 속도 변환 장치.
제 6 항에 있어서,

상기 파형 선택 수단은,

상기 음원 정보가 저장된 버퍼 메모리로부터 인접하는 동일한 길이의 2개 음성 파형의 다수의 쌍을 페치하여, 상기 피치 주기 정보에 기초해서 페치할 파형의 길의 범위를 설정하는 페치 수단으로서, 상기 두 음성 파형의 각 쌍의 길이는 상이하게 이루어지는 상기 페치 수단과,

상기 페치 수단에 의해 상기 버퍼 메모리로부터 페치된 음성 파형의 다수의 쌍들로부터, 두 파형간의 파형 차가 최소인 음성 파형의 쌍을 검출하는 수단을 구비하는

음성 재생 속도 변환 장치.
제 7 항에 있어서,

상기 선형 예측 계수를 이용하여 합성 잔차 신호로부터 음성 신호를 합성하는 합성 필터를 더 포함하며,

상기 합성 잔차 신호는 상기 파형 합성 수단으로부터 상기 합성 필터로 입력되는 음성 재생 속도 변환 장치.
제 8 항에 있어서,

상기 음성 부호화 장치의 출력 정보에 포함된 상기 선형 예측 계수를, 상기 합성 잔차 신호에 대해 최적이 되도록 보간하는 선형 예측 계수 보간 수단을 구비하며,

상기 합성 필터는 상기 보간된 선형 예측 계수를 이용하여 출력 음성 신호를 합성하는 음성 재생 속도 변환 장치.
제 6 항에 있어서,

상기 음성 부호화 장치의 상기 출력 정보에 포함되어 있는 음원 정보로부터, 상기 음성 부호화 장치의 상기 출력 정보에 포함되어 있는 선형 예측 계수를 이용하여 합성 음성 신호를 합성하는 합성 필터를 구비하며,

상기 합성 음성 신호는 상기 파형 선택 수단에 제공되는 음성 재생 속도 변환 장치.
제 10 항에 있어서,

상기 파형 선택 수단은,

상기 입력 음성 신호의 음성 파형 데이터가 저장된 버퍼 메모리로부터 동일한 길이의 인접하는 2개 음성 파형의 다수의 쌍을 페치하고, 상기 피치 주기 정보에 기초해서 페치할 파형의 길이의 범위를 설정하는 페치 수단으로서, 상기 2개 파형의 각 쌍의 길이는 상이하게 이루어지는 상기 페치 수단과,

상기 페치 수단에 의해 상기 버퍼 메모리로부터 페치된 상기 음성 파형의 다수의 쌍들로부터 두 파형간의 파형 차가 최소인 음성 파형의 쌍을 검출하는 수단을 구비하는

음성 재생 속도 변환 장치.
음성 재생 속도를 변환하는 방법에 있어서,

입력 음성 신호의 음성 파형으로부터 동일한 길이를 갖고 파형 차가 최소인 인접하는 2개의 음성 파형을 선택하는 단계와,

상기 선택된 2개의 음성 파형을 오버랩시키는 단계와,

상기 입력 음성의 상기 음성 파형의 일부를 상기 오버랩된 음성 파형으로 대체하거나, 상기 입력 음성의 상기 음성 파형에 상기 오버랩된 음성 파형을 삽입함으로써 속도 변환된 출력 음성 파형을 생성하는 단계를

포함하는 음성 재생 속도 변환 방법.
제 12 항에 있어서,

상기 입력 음성 신호의 음성 파형 데이터가 저장된 버퍼 메모리로부터 인접하는 동일한 길이의 2개 음성 파형의 다수의 쌍들을 페치하는 단계로서, 상기 2개 파형의 각 쌍의 길이는 상이하게 이루어지는 상기 페치하는 단계와,

상기 페치하는 단계에서 상기 버퍼 메모리로부터 페치된 상기 음성 파형의 다수의 쌍들로부터 상기 두 파형간의 파형 차가 최소인 음성 파형의 쌍을 검출하는 단계

를 더 포함하는 음성 재생 속도 변환 방법.
컴퓨터를 동작시키기 위한 컴퓨터 프로그램 제품에 있어서,

컴퓨터에 의해 판독가능한 매체와,

입력 음성 신호의 음성 파형으로부터 동일한 길이를 갖는 파형간의 파형 차가 최소인 인접하는 2개의 파형을 선택하도록 컴퓨터 프로세서에게 지시하는 제 1 프로그램 지시 수단과,

상기 선택된 2개의 음성 파형을 오버랩시키도록 컴퓨터 프로세서에게 지시하는 제 2 프로그램 지시 수단

을 포함하되,

상기 각 프로그램 지시 수단은 실행가능한 형식으로 상기 매체상에 기록되며, 연관된 프로세서에 의한 실행을 위해 컴퓨터 메모리내로 로딩가능한 컴퓨터 프로그램 제품.
제 14 항에 있어서,

상기 제 1 프로그램 지시 수단은,

상기 입력 음성 신호의 음성 파형 데이터가 저장된 버퍼 메모리로부터 인접하는 동일한 길이의 2개 음성 파형의 다수의 쌍들을 페치하도록 컴퓨터 프로세서에게 지시하는 제 3 프로그램 지시 수단으로서, 상기 두 음성 파형의 각 쌍의 길이는 상이하게 이루어지는 상기 제 3 프로그램 지시 수단과,

상기 제 3 프로그램 지시 수단에 의해 상기 버퍼 메모리로부터 페치된 음성 파형의 다수의 쌍들로부터 상기 두 파형간의 파형 차가 최소인 음성 파형의 쌍을 검출하도록 컴퓨터 프로세서에게 지시하는 제 4 프로그램 지시 수단을 구비하는

컴퓨터 프로그램 제품.