KR100327969B1

KR100327969B1 - 음성재생속도변환장치및음성재생속도변환방법

Info

Publication number: KR100327969B1
Application number: KR1019980705288A
Authority: KR
Inventors: 나오야 다나카; 히로아키 다케다
Original assignee: 모리시타 요이찌; 마쯔시다덴기산교 가부시키가이샤
Priority date: 1996-11-11
Filing date: 1997-11-10
Publication date: 2002-04-17
Also published as: AU4886397A; CN1163868C; CN1208490A; EP0883106A4; EP0883106B1; DE69736279T2; US6115687A; EP0883106A1; ES2267135T3; KR19990077151A; JP3891309B2; CA2242610A1; CA2242610C; DE69736279D1; WO1998021710A1

Abstract

이 음성 재생 속도 변환 장치는, 입력 음성 신호 또는 입력 잔차 신호에 있어서, 인접하는 길이가 동일한 2개의 파형의 오차가 최소로 되도록 파형을 선택하고, 이들 두 파형을 오버랩시킴으로써 오버랩된 파형을 산출하여, 이 오버랩된 파형을 입력 음성 신호 또는 입력 잔차 신호의 일부와 대체 혹은 삽입하는 것에 의해 음성의 재생 속도 변환을 실현하고 있다.

Description

음성 재생 속도 변환 장치 및 음성 재생 속도 변환 방법{SOUND REPRODUCING SPEED CONVERTER}

음성의 피치를 변화시키지 않고서 재생 속도를 임의의 속도로 변환하는 방법의 하나로서, PICOLA(Pointer Interval Control Overlap and Add) 방식이 있다. PICOLA 방식의 원리는 일본 음향학회 강연 논문집 1-4-14(1988년 3월)에 소개된, 모리타 나오타카 및 이타쿠라 후미타다에 의한 "포인터 이동량 제어에 의한 중복 가산법(PICOLA)을 이용한 음성의 시간축상에서의 수정 알고리즘 및 그 평가"에서 소개되어 있다. 또한, PICOLA 방식을 프레임 단위로 분할된 음성 신호에 대해 적용하여 극소의 버퍼 메모리로 재생 속도 변환을 실현하는 방법이 일본 특허 공개 평성 제 8-137491 호에 개시되어 있다.

도 9에 종래의 PICOLA 방식에 의한 음성 재생 속도 변환 장치의 블럭도가 도시된다. 도 9에 도시된 음성 재생 속도 변환 장치에서는, 디지털화된 음성 신호가 기록 매체(1)에 기록되어 있고, 프레이밍부(2)가 기록 매체(1)로부터 음성 신호를 사전 결정된 길이 LF 샘플의 프레임 단위로 페치한다. 프레이밍부(2)에 의해서 페치된 음성 신호는, 버퍼 메모리(3)에 일시적으로 저장되는 한편, 피치 주기 계산부(6)에 제공된다. 피치 주기 계산부(6)는 음성 신호의 피치 주기 Tp를 산출하여, 파형 오버래핑부(9)에 제공함과 동시에 처리 개시 위치 포인터를 버퍼 메모리(3)에 저장한다. 파형 오버래핑부(9)는 입력 음성의 피치 주기를 이용하여 버퍼 메모리(3)에 저장되어 있는 음성 신호의 파형을 오버랩시키며, 이 오버랩된 파형을 파형 합성부(5)로 출력한다. 파형 합성부(5)는 버퍼 메모리(3)에 저장되어 있는 음성 신호 파형과 파형 오버래핑부(9)에 의해 계산된 오버랩된 파형으로부터 출력 음성 신호 파형을 합성하여 출력 음성을 출력한다.

이러한 음성 재생 속도 변환 장치는, 다음과 같은 처리에 의해 음정을 변화시키지 않고서 재생 속도를 변환한다.

우선, 고속 재생을 실행하는 때의 처리 방법을 도 10 및 도 1l을 이용하여 설명한다. 도면에 있어서, P0은 파형의 오버랩 처리가 실행되고 있는 프레임의 헤드(a head)를 나타내는 포인터이다. 파형 오버랩 처리는, 음성의 피치 주기 Tp의 2주기분의 길이 LW 샘플을 처리 프레임으로 한다. 또한, l은 입력 음성의 속도를 1로 하고, 소망 재생 속도가 r로 제공될 때,

에서 인가되는 샘플 수이다. 이 L은 출력 파형(c)의 길이에 대응하는 샘플이고, 후술하는 바와 같이, Tp＋L 샘플의 입력 음성이 L 샘플의 출력 음성으로서 재생된다. 따라서, r=(Tp＋L)/L이 되어, 수학식 1의 관계가 도출된다.

기록 매체(1)로부터 프레이밍부(2)에 의해 페치된 입력 음성은 버퍼 메모리(3)에 저장된다. 동시에, 피치 주기 계산부(6)는 입력 음성의 피치 주기 Tp를 산출하여, 파형 오버래핑부(9)에 입력한다. 또한, 피치 주기 계산부(6)는 피치 주기 Tp로부터 수학식 1을 이용해서 L을 산출하고, 다음 처리 개시 위치 P0'를 결정하여, 버퍼 메모리내의 포인터로서 버퍼 메모리(3)에 제공한다.

파형 오버래핑부(9)는 버퍼 메모리(3)로부터, 포인터 P0이 표시하는 처리 개시 위치로부터 파형 오버랩 처리 프레임 LW(=2Tp) 샘플의 파형을 페치하여, 처리 프레임의 전반 부분(파형 A)에 대해서는 시간축 방향으로 감소하는 삼각 윈도우 함수(triangle window function)를, 후반 부분(파형 B)에 대해서는 시간축 방향으로 증가하는 삼각 윈도우 함수를 계산한 후, 파형 A와 파형 B를 가산하여 오버랩된 파형 C를 산출한다.

파형 합성부(5)는 도 10에 도시한 입력 신호 파형 (a)로부터, 파형 오버래핑 처리 프레임의 파형(파형 A＋파형 B)을 제거하고, 대신에 도 10에 도시된 오버랩된 파형(파형 C)을 삽입한다. 그 후, 입력 파형상에서 (P0＋Tp＋L) 점의 위치를 표시하는 P0'(합성 파형상에서 파형 C의 헤드＋L점의 위치를 표시하는 P1)까지 입력 음성 파형 D를 부가한다. 또한, r>2인 때는, P1이 파형 C상에 존재하게 되는데, 이 경우, 파형 C는 P1이 표시된 위치까지 출력된다.

이 결과, 합성된 출력 파형(c)의 길이는 L 샘플이 되며, 이 때 Tp＋L 샘플의 입력 음성은 L 샘플의 출력 음성으로서 재생되게 된다. 다음 파형 오버랩 처리는 입력 파형상의 PO'점으로부터 실행된다.

도 11은 도 10을 이용하여 설명된 상기한 처리에 대해서, 버퍼 메모리(3)에 저장된 음성 신호와 프레이밍부(2)에 의한 프레이밍과의 관계를 나타낸 도면이다.

본래, 버퍼 메모리(3)에 있어서, 파형 오버랩 처리에 필요한 버퍼 길이는 입력 음성의 최대 피치 주기 Tpmax의 2주기분이다. 그러나, 입력 음성이 사전 결정된 프레임 길이 LF의 샘플마다 분할되어 입력되므로, 처리 개시 위치 PO는 입력 음성의 첫 프레임내의 임의의 위치에 위치하게 되고, 또한 버퍼 길이는 입력 프레임 길이의 정수배이어야 하기 때문에, 버퍼 길이는 (LF＋2Tpmax) 이상이고 LF의 배수 중 최소인 것으로 된다. 예컨대, 입력 프레임 길이 LF가 160 샘플, 피치 주기의 최대값 Tpmax가 145이면, 버퍼 길이는 3LF=480 샘플을 필요로 한다.

버퍼 메모리에서의 처리는, LF 샘플의 입력이 있을 때마다 버퍼 메모리의 내용을 시프트하며, 처리 개시 위치 P0이 헤드 프레임내에 입력된 때만 파형 오버래핑 처리를 실행하면 좋다. 그 이외의 때는, 입력 신호가 그대로 출력 신호로 된다.

다음으로, 저속 재생을 행하는 방법에 대해서 도 12를 참조하여 설명한다.

고속 재생의 경우와 마찬가지로, P0은 파형 오버랩 처리 프레임의 헤드를 표시하는 포인터이다. 파형 오버랩 처리는, 음성의 피치 주기 Tp의 2주기분의 길이 LW 샘플을 처리 프레임으로 한다. 또한, 입력 음성의 속도가 1로 하고 소망하는 재생 속도가 r로 주어졌을 때, L은 다음 수학식 2에 의해 주어지는 샘플 수이다.

저속 재생의 경우는, 후술하는 바와 같이, L 샘플의 입력 음성이 Tp＋L 샘플의 출력 음성으로서 재생되게 된다. 따라서, r=L/(Tp＋L)로 되어, 수학식 2의 관계가 도출된다.

파형 오버래핑부(9)는, 처리 프레임의 전반 부분(파형 A)에 대해서는 시간축 방향으로 증가하는 삼각 윈도우 함수를, 후반 부분(파형 B)에 대해서는 시간축 방향으로 감소하는 삼각 윈도우 함수를 계산한 후, 파형 A와 파형 B를 가산하여, 오버랩된 파형 C를 산출한다.

파형 합성부(5)는 도 12에 도시된 입력 신호 파형(a)의 파형 A와 파형 B와의 사이에, 오버랩된 파형(파형 C)을 삽입한다. 그 후, 입력 파형상에서 (P0＋L) 점의 위치를 나타내는 P0'(합성 파형상에서는 파형 C의 헤드＋L 점의 위치를 표시하는 P1)까지, 입력 음성 파형 B를 부가한다. r>0.5인 때, P1은 파형 B가 아니라, 오버랩된 처리 프레임으로 계속되는 파형 D상에 존재하게 되는데, 이 경우 파형 D를 P0'이 표시된 위치까지 출력된다.

이 결과, 합성된 출력 파형(c)의 길이는 Tp＋L 샘플로 되고, L 샘플의 입력 음성이 Tp＋L 샘플의 출력 음성으로서 재생되게 된다. 또한, 다음 파형 오버랩 처리는 입력 파형의 P0'점으로부터 실행된다.

버퍼 메모리(3)에 저장된 음성 신호와, 프레이밍부(2)에 의한 프레이밍과의 관계는 고속 재생의 경우와 동일하다.

그런데, 전술한 음성 재생 속도 변환 장치는, 입력 음성의 피치 주기를 구하고, 이 피치 주기에 근거하여 파형의 오버래핑을 행하고 있다. 피치 주기로 나뉘어진 입력 음성을 피치 파형이라고 칭하고, 일반적으로 피치 파형끼리는 대단히 유사성이 높으므로, 파형 오버랩 처리에 이용하는 데 적합하다.

그러나, 피치 주기 계산에 오류가 발생하면, 인접하는 피치 파형 간의 오차가 증대하여, 결과적으로 파형 오버래핑 후의 출력 음성의 품질이 저하하는 문제가 발생한다. 피치 주기의 계산 오류가 발생하는 주된 원인으로서 다음과 같은 것이 생각된다. 일반적으로, 계산된 피치 주기는, 입력 음성의 임의의 일부 구간(피치 주기 분석 간격이라고 칭함)을 대표하는 피치 주기이고, 피치 주기 분석 간격 내에서 피치 주기가 급격히 변화하고 있는 경우에는, 계산된 피치 주기와 실제의 피치 주기간에 차가 커지기 때문이다. 따라서, 출력 음성 품질의 저하를 억제하기 위해서는, 파형 오버랩 처리 위치에 있어서의 최적의 피치 파형을 구할 필요가 있다.

발명의 개시

본 발명은 이상과 같은 사정을 감안하여 이루어진 것으로, 음성 재생 속도 변환시의 파형 오버랩에 의해서 발생하는 왜곡을 감소시키고, 출력 음성의 품질을 향상시킬 수 있는 음성 재생 속도 변환 장치를 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위해 본 발명에서는, 입력 음성 신호 또는 입력 잔차 신호(residual signals)에 있어서, 인접하는 길이가 동일한 2개의 파형의 오차가 최소로 되도록 파형을 선택하고, 그 2개의 파형을 오버랩핑시킴으로써 오버랩된 파형을 계산하고, 이 오버랩된 파형을 입력 음성 신호 또는 입력 잔차 신호의 일부와 교체하거나 혹은 삽입함으로써 음성의 재생 속도 변환을 실현하고 있다.

본 발명에 따르면, 오버랩할 파형을 정확히 선택할 수 있으므로, 속도 변환된 음성의 품질이 향상된다.

또한, 본 발명에서는 음성 정보를, 스펙트럼 정보를 나타내는 선형 예측 계수, 피치 주기 정보, 및 예측 잔차(a predictive residual)를 나타내는 음원 정보(voice source information)로 분리하여 부호화하는 음성 부호화 장치의 디코더와 조합해서 음성 부호화 장치로부터의 출력 정보를 이용한다.

본 발명에 따르면, 음성 부호화 장치로부터의 출력 정보를 이용하는 것에 의해, 부호화된 음성 신호의 재생 속도 변환의 계산 비용을 크게 감소시킬 수 있다.

본 발명은, 디지털화된 입력 음성 신호가 일시적으로 저장되는 버퍼 메모리와, 버퍼 메모리에 저장된 음성 신호 파형을 오버랩시키는 파형 오버래핑부와, 버퍼 메모리내의 입력 음성 파형과 오버랩된 음성 파형으로부터 출력 음성 파형을 합성하는 파형 합성부를 구비하는 음성 재생 속도 변환 장치에 있어서, 버퍼 메모리로부터 인접하는 동일한 길이의 2개의 음성 파형을 페치하는 파형 페치부와, 파형 페치부에 의해서 페치된 2개의 음성 파형 간의 오차를 계산하는 파형 차 계산부(a form difference calculating section)를 포함하되, 파형 오버래핑부는 파형 차 계산부에 의해 계산된 차가 최소로 되는 2개의 음성 파형을 선택하여 오버랩시키도록 구성된다.

또한, 본 발명은, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 산출하는 선형 예측 분석부와, 산출된 선형 예측 계수를 이용하여 입력 음성 신호로부터 예측 잔차 신호를 계산하는 역 필터(an inverse filter)와, 선형 예측 계수를 이용하여 예측 잔차 신호로부터 음성 신호를 합성하는 합성 필터(a synthesize filter)를 포함하되, 역 필터가 계산한 예측 잔차 신호를 버퍼 메모리에 저장하고, 파형 합성부가 합성한 예측 잔차 신호를 합성 필터로 출력하도록 구성한 것이다.

이에 따라, 피치 파형을 결정하기 용이한 예측 잔차 신호를 이용하여 재생 속도 변환 처리를 실행할 수 있어, 피치 파형을 정확히 페치할 수 있으므로, 재생 음성의 품질이 향상된다.

또한, 본 발명은, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치와 조합한 구성이고, 버퍼 메모리가 예측 잔차를 나타내는 음원 정보를 일시적으로 저장하고, 파형 페치부가 피치 주기 정보를 기초로 버퍼 메모리로부터 페치할 음성 파형의 길이 범위를 설정하도록 한 것이다.

또한, 본 발명은, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치와 조합한 구성이며, 버퍼 메모리가 복호 음성 신호를 일시적으로저장되고, 파형 페치부가 피치 주기 정보를 기초로 버퍼 메모리로부터 페치할 음성 파형의 길이 범위를 설정하도록 한 것이다.

또한, 본 발명은, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부와, 계산된 선형 예측 계수를 이용하여 입력 음성 신호로부터 예측 잔차 신호를 계산하는 역 필터와, 선형 예측 계수를 보간하는 선형 예측 계수 보간부와, 선형 예측 계수를 이용하여 예측 잔차 신호로부터 음성 신호를 합성하는 합성 필터를 구비하되, 버퍼 메모리가 역 필터에 의해 계산된 예측 잔차 신호를 일시적으로 저장하고, 파형 합성부는 합성한 예측 잔차 신호를 상기 합성 필터로 출력하며, 선형 예측 계수 보간부는 합성된 예측 잔차 신호에 대해 최적이 되도록 선형 예측 계수를 보간하고, 합성 필터는 보간된 선형 예측 계수를 이용하여 출력 음성 신호를 합성하는 형태로 구성한 것이다.

이에 따라, 합성된 예측 잔차 신호에 대해 최적이 되도록 보간된 선형 예측 계수를 이용하여 출력 음성 신호가 합성되므로, 음성 품질을 향상시킬 수 있다.

본 발명은 디지털화된 음성 신호를 음성의 피치(a pitch)(음정)를 변화시키지 않고서 임의의 속도로 재생하는 음성 재생 속도 변환 장치에 관한 것이다.

본 명세서에서는 "음성" 및 "음성 신호"를 인간이 발생하는 음성뿐만 아니라, 악기 등으로부터 발생하는 모든 음향 신호를 나타내는 것으로서 사용한다.

도 1은 본 발명의 실시예 1에 따른 음성 재생 속도 변환 장치의 블럭도,

도 2는 본 발명의 실시예 1에서 재생 속도 변환 대상 파형으로 되는 음성 신호의 파형도,

도 3은 본 발명의 실시예 2에 따른 음성 재생 속도 변환 장치의 블럭도,

도 4는 본 발명의 실시예 3에 따른 음성 재생 속도 변환 장치의 블럭도,

도 5는 본 발명의 실시예 4에 따른 음성 재생 속도 변환 장치의 블럭도,

도 6은 본 발명의 실시예 5에 따른 음성 재생 속도 변환 장치의 블럭도,

도 7은 처리 프레임의 위치, 윈도우 함수 형상 및 가중치, 및 오버랩 처리의 관계를 예시하는 도면,

도 8은 본 발명의 실시예 6에 따른 음성 재생 속도 변환 장치의 블럭도,

도 9는 종래의 음성 재생 속도 변환 장치의 블럭도,

도 10은 고속 재생의 경우에 대한 입력 파형, 오버랩된 파형, 출력 파형의 관계를 예시한 도면,

도 11은 프레이밍된 입력 신호, 버퍼 메모리내의 입력 신호, 시프트된 후의 버퍼 메모리내의 입력 신호의 관계를 나타낸 도면,

도 12는 저속 재생의 경우에 대한 입력 파형, 오버랩된 파형, 출력 파형의 관계를 나타낸 도면이다.

이하, 본 발명의 실시예에 대해서 도면을 참조하여 구체적으로 설명한다.

(실시예 1)

도 1에, 실시예 1에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시된다. 또한, 전술한 도 9에 표시된 장치의 각부(各部)와 동일 기능을 갖는 부분에는 동일 부호를 부여하고 있다.

본 음성 재생 속도 변환 장치에서는, 파형 페치부(7)가 버퍼 메모리(3)에 파형을 페치하는 개시 위치와 페치할 파형의 길이를 제공하고, 인접하는 동일 길이의 2개의 음성 파형을 버퍼 메모리(3)로부터 페치하고, 파형 차 계산부(8)가 파형 페치부(7)에 의해 페치된 2개의 음성 파형 간의 오차를 계산하고, 또한 오차가 최소인 길이의 파형을 선택하며, 오버랩 처리 프레임을 결정한다. 그리고, 파형 오버래핑부(9)는 파형 차 계산부(8)에서 결정된 2개의 파형을 오버랩한다.

또, 전술한 도 9에 도시된 장치와 마찬가지로, 기록 매체(1)에 디지털화된 음성 신호가 기록되고, 프레이밍부(2)가 음성 신호를 사전 결정된 길이 LF 샘플의 프레임 단위로 기록 매체(1)로부터 페치하며, 프레이밍부(2)에 의해 페치된 음성 신호를 일시적으로 버퍼 메모리(3)에 저장한다. 또한, 파형 합성부(5)가 버퍼 메모리(3)에 저장되어 있는 음성 신호 파형과 파형 오버래핑부(9)에 의해 계산된 오버랩된 파형으로부터 출력 음성 신호 파형을 합성한다.

이러한 장치의 기록 매체(1), 프레이밍부(2), 버퍼 메모리(3), 파형 오버래핑부(9), 파형 합성부(5)의 기능 및 재생 속도 변환 처리는 종래의 장치와 동일하므로 설명을 생략하며, 파형 페치부(7), 파형 차 계산부(8)의 기능과 오버랩 처리 프레임의 결정 프로세스에 대해서 주로 설명한다.

파형 페치부(7)는, 도 2에 도시된 바와 같이 오버랩 처리 프레임용 후보 파형(19)으로서, 버퍼 메모리(3)로부터 처리 개시 위치 포인터 P0으로부터 인접하는 동일한 길이 Tc의 2개의 음성 파형(파형 A와 파형 B)을 페치한다.

파형 차 계산부(8)는 파형 A와 파형 B의 두 파형 간의 파형 차를 계산한다.2개 파형 간의 오차 Err는, 파형 A를 x(n), 파형 B를 y(n), n을 샘플점으로서 다음과 같이 나타내어진다.

파형 차 계산부(8)는 처리 개시 위치 포인터 P0을 고정한 채로, 포인터 P0으로부터 페치할 연속하는 2개의 파형 A 및 B의 길이(샘플 수)를 상이하게 다른 2개의 파형 A, B를 버퍼 메모리(3)로부터 판독하여 파형 간의 오차 Err를 계산한다. 처리 개시 위치 포인터 P0을 고정한 채로, 2개의 파형 A, B의 길이(샘플 수)를 순차적으로 상이하게 파형 간의 오차 Err을 계산한다. 그리고, 파형 차 Err가 최소로 되는 파형 A, B의 조합을 선택한다.

여기서, Err은 파형 길이 Tc에 있어서의 적산(積算) 오차이기 때문에, 길이 Tc가 다른 파형에 대한 파형 차끼리를 직접 비교할 수 없다. 따라서, 예컨대, 파형간 오차 Err를 샘플 수에서 Tc로 나눈 값, 즉, 한 샘플점에 대한 평균 오차 Err/Tc를 이용하는 것에 의해 파형간 오차의 비교가 가능해진다. 파형 길이 Tc는 사전 결정되고, 취한 값의 범위가 정해져 있고, 예를 들어, 8㎑ 샘플링의 음성 신호에 대해서는 16 내지 160 샘플 정도가 좋다. 파형의 길이 Tc를 결정된 범위 내에서 변화시켜서, 각각의 Tc에 대해 평균 오차 Err/Tc를 계산하고, 그들을 비교함으로써, 평균 오차를 최소로 하는 Tc가 구해진 파형의 길이로 된다.

파형 오버래핑부(9)에서는 파형 차 계산부(8)로부터 선택된 2개의 파형 A, B를 오버랩 처리 프레임(14)으로서 페치하여, 처리 프레임(파형 A) 및 처리 프레임(파형 B)으로 서로 다른 삼각 윈도우 함수를 연산한 후에, 두 파형을 오버랩시켜 오버랩된 파형(15)을 생성한다.

파형 합성부(5)에서는 버퍼 메모리(3)로부터 입력 음성 파형(16)을 페치함과 동시에, 재생 속도 r에 근거하여 오버랩된 파형(15)을 입력 음성 파형(16)의 일부와 교환 또는 삽입하여 속도 변환된 출력 음성(17)을 발생시킨다.

이와 같은 본 실시예에 의하면, 파형 페치부(7)가 버퍼 메모리(3)로부터 파형 합성 후보로 되는 인접하는 한 쌍의 파형 A 및 B를 페치하고, 페치할 대상으로 되는 파형의 길이를 점차 변화시켜, 각 파형쌍에 있어서의 파형간의 오차 Err/Tc를 계산하고, 파형간의 오차 Err/Tc가 최소가 되는 파형 A 및 B의 세트를 합성 대상으로 하기 때문에, 파형 A 및 B의 오버랩에 의해서 발생하는 왜곡을 감소시켜, 출력 음성의 품질을 향상시킬 수 있다.

(실시예 2)

실시예 2는 피치 파형이 현저히 나타나는 잔차 신호에 의해 재생 속도 변환 처리를 실행하는 예이다.

도 3에, 실시예 2에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시된다. 또, 전술한 도 1 및 도 9에 도시된 장치의 각부와 동일 기능을 갖는 부분에는 동일 부호를 부여하고 있다.

이 음성 재생 속도 변환 장치는, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부(30)와, 계산된 선형 예측 계수를이용하여 입력 음성 신호로부터 예측 잔차 신호를 계산하는 역 필터(31)와, 선형 예측 계수를 이용하여 예측 잔차 신호로부터 음성 신호를 합성하는 합성 필터(32)를 구비하고 있다. 본 실시예에 따른 음성 재생 속도 변환 장치의 그 밖의 구성은 실시예 1과 동일하다.

이상 설명된 바와 같이 구성된 음성 재생 속도 변환 장치에서는, 프레이밍부(2)에 의해 페치된 프레임 단위의 입력 음성(12)이 선형 예측 분석부(30)와 역 필터(31)로 입력된다. 선형 예측 분석부(30)에서는 프레임 단위의 입력 음성(12)으로부터 선형 예측 계수(33)를 계산하며, 역 필터(31)에서는 선형 예측 계수(33)를 이용하여 입력 음성(12)으로부터 잔차 신호(34)가 계산된다.

역 필터(31)에 의해 계산된 잔차 신호(34)는 버퍼 메모리(3), 파형 페치부(7), 파형 차 계산부(8) 및 파형 오버래핑부(9)에 의해, 실시예 1에서 설명한 재생 속도 변환 처리에 따라 파형 합성되어, 파형 합성부(5)로부터 합성 잔차 신호(35)로서 출력된다.

합성 필터(32)는 선형 예측 분석부(30)로부터 제공된 선형 예측 계수(33)를 이용해서, 합성 잔차 신호(35)로부터 출력 합성 음성(36)을 계산하여 출력한다.

이와 같이 본 실시예는, 입력 음성 신호로부터 선형 예측 계수에 의해 나타내어지는 스펙트럼 포락선 정보(spectrum envelope information)를 제거한 신호인 예측 잔차 신호로부터 2개의 파형 A 및 B를 페치하여 파형 합성한다. 예측 잔차 신호는 본래의 입력 신호보다도 피치 파형이 현저히 나타나는 특성이 있기 때문에, 본 실시예와 같이 잔차 신호상에서 재생 속도 변환 처리를 실행함으로써, 피치 파형을 정확히 페치할 수 있어서, 재생 음성의 품질을 향상시킬 수 있다.

(실시예 3)

실시예 3은, 음성 재생 속도 변환 장치와 음성 부호화 장치를 조합하고, 상기 음성 부호화 장치로부터 출력되는 음성 부호화 정보를 속도 변환 처리에서 이용함으로써 연산량의 삭감을 행하게 된다.

도 4에, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시되어 있다. 또, 전술한 도 1, 도 3 및 도 9에 도시된 장치의 각부와 동일 기능을 갖는 부분에는 동일 부호를 부여하고 있다.

본 음성 재생 속도 변환 장치는, 실시예 2에 있어서의 기록 매체(1), 프레이밍부(2), 선형 예측 분석부(30) 및 역 필터(31)의 각부를, 이들 각 기능을 구비한 음성 부호화 장치의 디코더(40)로 치환한 것이다. 음성 부호화 장치의 디코더(40)는, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 기능을 갖는다. 이러한 음성 부호화 장치의 대표적으로는 CELP(Code Excited Linear Predictive coding)가 있다. 또한 일반적으로, CELP로 대표되는 고효율 음성 부호화 장치에서는, 각 부호화 정보가 프레임 단위로 부호화되고 있다. 따라서, 디코더(40)로부터 출력되는 음원 신호(41)는 음성 부호화 장치에 의해 사전 결정된 길이의 프레임 단위의 신호이고, 본 발명의 음성 재생 속도 변환 장치의 입력으로서 직접 사용할 수 있다.

본 실시예에 따른 음성 재생 속도 변환 장치에서는, 디코더(4O)로부터 출력되는 프레임 단위의 음원 신호(41)는 버퍼 메모리(3)에 저장되고, 피치 주기 정보(42)는 파형 페치부(43)에 입력되며, 또한 선형 예측 계수(33)를 합성 필터(32)에 입력한다.

파형 페치부(43)에서는 실시예 1과 마찬가지로 하여 버퍼 메모리(3)로부터 길이 Tc의 인접하는 파형 A 및 B를 페치하며, 길이 Tc를 순차적으로 달리하여 복수 세트의 파형 A 및 B를 파형 차 계산부(8)로 공급한다. 또한, 파형 페치부(43)는 페치하는 파형의 길이 Tc가 취하는 값의 범위를, 피치 주기 정보(42)에 따라 변화하는 것에 의해, 파형차 계산에 필요한 연산량을 대폭적으로 삭감할 수 있다. 또한, 디코더로부터 출력된 선형 예측 계수(33)는 합성 필터(32)의 입력으로서 이용된다.

이와 같이, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치의 디코더와, 본 발명의 음성 재생 속도 변환 장치를 조합함으로써, 음성 부호화 장치로부터 출력되는 정보를 이용하여 음성 부호화 장치가 부호화한 음성 신호의 재생 속도를 적은 연산량으로 실현할 있다.

(실시예 4)

실시예 4의 음성 재생 속도 변환 장치는, 음성 부호화 장치와 조합하여, 상기 음성 부호화 장치로부터 출력되는 음성 부호화 정보를 이용함으로써, 연산량의 삭감을 실행하고 있다.

도 5에, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시되어 있다. 또한, 전술한 실시예 3의 각부와 동일 기능을 갖는 부분에는 동일 부호를 부여하고 있다.

이 음성 재생 속도 변환 장치에서는, 실시예 3에 구비된 합성 필터(32)와 동일 기능을 갖는 합성 필터(32')를, 음성 부호화 장치의 디코더(40)와 버퍼 메모리(3)와의 사이에 배치하고 있다. 합성 필터(32')가 프레임 단위의 음원 신호(41)와 선형 예측 계수(33)로부터 복호 음성 신호를 생성하여 합성 음성 신호(44)로서 버퍼 메모리(3)에 저장한다. 디코더(40)로부터 음원 신호(41)가 프레임 단위로 입력되므로, 합성 음성 신호(44)도 프레임 단위의 신호가 되고, 따라서 본 발명의 음성 재생 속도 변환 장치의 입력으로서 직접 사용할 수 있는 것이다.

이와 같이, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치와, 본 발명의 음성 재생 속도 변환 장치를 조합하는 것에 의해, 음성 부호화 장치로부터 출력되는 정보를 이용하여, 음성 부호화 장치가 부호화한 음성 신호의 재생 속도를 적은 연산량으로 실현할 수 있다.

(실시예 5)

실시예 5에 따른 음성 재생 속도 변환 장치는, 선형 예측 계수를 합성된 예측 잔차 신호에 대해서 최적이 되도록 보간하는 것에 의해, 음성 품질을 향상시키는 음성 재생 속도 변환 장치이다.

도 6에, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시되어 있다. 또한, 전술한 각 실시예의 각부와 동일 기능을 갖는 부분에는 동일 부호를 부여하고 있다.

이 음성 재생 속도 변환 장치는, 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 계산하는 선형 예측 분석부(30)와, 계산된 선형 예측 계수(33)를 이용하여 입력 음성 신호로부터 예측 잔차 신호(34)를 계산하는 역 필터(31)와, 선형 예측 계수를 이용하여 입력 음성 신호로부터 음성 신호를 합성하는 합성 필터(32)와, 선형 예측 계수(33)를 합성된 예측 잔차 신호에 대해서 최적이 되도록 보간하는 선형 예측 계수 보간부(60)를 구비하고 있다. 그 밖의 구성에 대해서는 실시예 1(도 1 참조)과 동일하다.

이러한 음성 재생 속도 변환 장치에서는, 프레이밍부(2)에서 기록 매체(1)로부터 페치된 프레임 단위의 입력 음성(12)이 선형 예측 분석부(30)로 제공된다. 선형 예측 분석부(30)는 프레임 단위의 입력 음성(12)으로부터 선형 예측 계수(33)를 계산하여 역 필터(31) 및 선형 예측 계수 보간부(60)로 출력한다. 역 필터(21)는 선형 예측 계수(33)를 이용하여 입력 음성(12)으로부터 잔차 신호(34)를 계산한다. 이 잔차 신호(34)는 실시예 1에서 설명한 재생 속도 변환 처리에 의해 파형 합성되어, 파형 합성부(5)로부터 합성 잔차 신호(35)로서 출력된다.

선형 예측 계수 보간부(60)는 파형 합성부(5)로부터 처리 프레임 위치 정보(61)를 수신하여, 선형 예측 계수(33)를 합성 잔차 신호(35)에 대해서 최적이되도록 보간한다. 보간된 선형 예측 계수(62)는 합성 필터(32)에 입력되며, 합성 잔차 신호(35)로부터 출력 음성 신호(36)가 합성된다.

여기서, 선형 예측 계수(33)를 합성 잔차 신호(35)에 대해 최적이 되도록 보간하는 방법의 일례에 대해서 도 7을 참조하여 설명한다.

도 7의 (a)에 도시하는 바와 같이, 합성 잔차 신호(35)를 계산하기 위한 처리 프레임이 입력 프레임1, 2 및 3에 걸쳐 있다고 가정한다. 이때, 파형을 오버랩에 이용하는 윈도우 함수의 형상은 도 7의 (b)에 도시된 바와 같은 윈도우 함수의 형상과 가중치를 갖는 것으로 가정한다. 따라서, 도 7의 (c)에 도시하는 바와 같이 오버랩 처리에 의해 생성되는 오버랩된 파형에 포함되는 데이터 량은, 구간 F1, F2, F3에 포함되는 데이터 량을 윈도우 함수 형상을 고려한 가중치 w1, w2, w3에 의해서 가중치 부가한 것으로 된다. 이 오버랩된 파형에 포함되는 본래의 데이터 량을 기준으로 하면, 보간된 선형 예측 계수(62)는 다음과 같이 구해진다.

또한, 가중치 w1, w2, w3에 대해서는, 윈도우 함수 형상을 고려해야할 뿐만 아니라, 프레임 1, 2, 3 각각의 선형 예측 계수의 유사성 등도 고려해야 한다. 또한, 계산할 보간된 선형 예측 계수는 1개일 필요는 없으며, 오버랩된 파형을 복수의 부분으로 분할하여, 각각의 부분에 대해서 최적의 보간 선형 예측 계수를 구해도 좋다. 또한, 선형 예측 계수를 보간하는 처리에 있어서는, 각 선형 예측 계수를 보간 처리에 적합한 LSP 파라미터 등으로 변환하고, 변환된 LSP 파라미터 등에 대해서 보간 처리를 실행하여, 계산 후에 선형 예측 계수로 재변환함으로써 성능을 향상시킬 수 있다.

(실시예 6)

실시예 6에 따른 음성 재생 속도 변환 장치는, 음성 부호화 장치와 조합하여 사용하고, 음성 부호화 장치로부터 출력되는 음성 부호화 정보를 이용함으로써 연산량의 삭감을 행하고 있다.

도 8에, 본 실시예에 따른 음성 재생 속도 변환 장치의 기능 블럭이 도시되어 있다.

이 음성 재생 속도 변환 장치는, 실시예 5의 기록 매체(1) 및 프레이밍부(2)로 전환하여, 실시예 3에서 이용한, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치(디코더(40))가 배치되어 있다.

디코더(40)로부터 출력된 음원 신호 프레임(41)은 버퍼 메모리(3)에 입력되고, 선형 예측 계수(33)는 선형 예측 계수 보간부(60)에 입력된다. 또한, 피치 주기 정보(42)는 파형 페치부(43)에 입력되어, 파형 페치부(43)가 페치할 파형의 길이 Tc의 취한 값의 범위가 피치 주기 정보(42)에 따라 전환된다. 이에 따라, 페치할 파형의 길이 Tc의 값의 범위가 제한되므로, 파형 오차에 필요한 연산량을 대폭적으로 삭감할 수 있다.

이상 같이, 본 실시예에 의하면, 음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수와, 피치 주기 정보와, 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치와, 본 발명의 음성 재생 속도 변환 장치를 조합함으로써, 음성 부호화 장치로부터 출력되는 정보를 이용하여 음성 부호화 장치가 부호화한 음성 신호의 재생 속도를 적은 연산량으로 실현할 수 있다.

(실시예 7)

본 발명의 음성 재생 속도 변환 장치는 그 처리 알고리즘이 프로그래밍 언어에 의해 기술하고, 소프트웨어로서 실현할 수 있다. 프로그램을 플로피 디스크 등의 기억 매체에 기록하고, 퍼스널 컴퓨터 등의 범용 신호 처리 장치에 기록 매체를 접속하여, 프로그램을 실행시킴으로써, 본 발명의 음성 부호화 장치의 기능을 실현할 수 있다.

본 발명은 상술한 실시예에 한정되지 않고, 본 발명의 요지를 벗어나지 않는 범위 내에서 변형 실시 가능하다.

이상과 같이, 본 발명에 따른 음성 재생 속도 변환 장치는, 기록 매체에 기록된 음성 신호를 음성의 피치(음정)를 변화시키지 않고 임의의 속도로 재생하는데 유용하고, 출력 음성의 품질의 향상을 도모하는 데 적합하다.

Claims

음성 재생 속도 변환 장치에 있어서,

입력 음성 신호의 음성 파형내로부터 인접하고 있고, 길이가 동일하며, 파형간 오차(waveform difference)가 최소인 2개의 음성 파형을 선택하는 파형 선택 수단과,

상기 파형 선택 수단에 의해 선택된 상기 2개의 음성 파형을 오버랩시키는 파형 오버래핑 수단과,

오버랩된 음성 파형을 상기 입력 음성의 음성 파형의 일부와 대체 또는 삽입하여 속도 변환된 출력 음성 파형을 생성하는 파형 합성 수단

을 포함하되,

상기 파형 선택 수단은

상기 입력 음성 신호의 음성 파형 데이터가 저장된 버퍼 메모리로부터 인접하고 또한 길이가 동일한 2개의 음성 파형을 음성 파형의 길이를 각 세트마다 상이하게 복수 세트 페치하는 파형 페치 수단과,

상기 버퍼 메모리로부터 페치된 음성 파형의 각 세트로부터 파형간 오차가 최소인 음성 파형의 세트를 검출하는 파형차 계산 수단을 구비하는

음성 재생 속도 변환 장치.
제 1 항에 있어서,

상기 파형 선택 수단은 상기 입력 음성 신호의 음성 파형 데이터로서 피치 파형이 현저히 나타나는 예측 잔차 신호의 파형 데이터를 이용하며,

상기 음성 재생 속도 변환 장치는,

상기 입력 음성 신호의 스펙트럼 정보를 나타내는 선형 예측 계수를 산출하는 선형 예측 분석 수단과,

상기 산출된 선형 예측 계수를 이용하여 상기 입력 음성 신호로부터 상기 예측 잔차 신호를 산출하는 역 필터와,

상기 선형 예측 계수를 이용하여 상기 파형 합성 수단으로부터 출력되는 합성 잔차 신호로부터 음성 신호를 합성하는 합성 필터를 포함하는

음성 재생 속도 변환 장치.
제 2 항에 있어서,

상기 선형 예측 분석 수단이 산출한 상기 선형 예측 계수를 상기 합성 잔차 신호에 대해서 보간하는 선형 예측 계수 보간 수단을 구비하며,

상기 합성 필터는 상기 보간된 선형 예측 계수를 이용하여 출력 음성 신호를 합성하는

음성 재생 속도 변환 장치.
제 1 항에 있어서,

음성 신호를, 스펙트럼 정보를 나타내는 선형 예측 계수, 피치 주기 정보 및 예측 잔차를 나타내는 음원 정보로 분리하여 부호화하는 음성 부호화 장치의 출력 정보를 이용하여 속도 변환 처리를 실행하며,

상기 파형 선택 수단은,

상기 음원 정보가 저장된 버퍼 메모리로부터 인접하고 또한 길이가 동일한 2개의 음성 파형을, 음성 파형의 길이를 각 세트마다 상이하게 복수 세트 페치하는 한편, 상기 피치 주기 정보를 기초로 페치할 음성 파형의 길이 범위를 설정하는 페치 수단과,

상기 버퍼 메모리로부터 페치된 음성 파형의 각 세트로부터 파형간 오차가 최소인 음성 파형의 세트를 검출하는 수단을 구비하는

음성 재생 속도 변환 장치.
제 4 항에 있어서,

상기 파형 합성 수단으로부터 출력되는 합성 잔차 신호가 입력되어, 상기 선형 예측 계수를 이용하여 상기 합성 잔차 신호로부터 음성 신호를 합성하는 합성 필터를 구비하는 음성 재생 속도 변환 장치.
제 5 항에 있어서,

상기 음성 부호화 장치의 출력 정보에 포함된 상기 선형 예측 계수를 상기 합성 잔차 신호에 대해 보간하는 선형 예측 계수 보간 수단을 구비하며,

상기 합성 필터는 상기 보간된 선형 예측 계수를 이용하여 출력 음성 신호를 합성하는

음성 재생 속도 변환 장치.
제 4 항에 있어서,

상기 음성 부호화 장치의 상기 출력 정보에 포함되어 있는 음원 정보로부터 상기 출력 정보에 포함되어 있는 선형 예측 계수를 이용하여 합성 음성 신호를 합성하는 합성 필터를 구비하며,

상기 합성 음성 신호를 상기 파형 선택 수단에 제공하는

음성 재생 속도 변환 장치.
제 7 항에 있어서,

상기 파형 선택 수단은,

상기 합성 음성 신호의 파형 데이터가 저장된 버퍼 메모리로부터 인접하고또한 길이가 동일한 2개 음성 파형을 음성 파형의 길이를 각 세트마다 상이하게 복수 세트 페치하는 한편, 상기 피치 주기 정보를 기초로 페치할 음성 파형의 길이의 범위를 설정하는 페치 수단과,

상기 버퍼 메모리로부터 페치한 음성 파형의 각 세트로부터 파형간 오차가 최소인 음성 파형의 세트를 검출하는 수단을 구비하는

음성 재생 속도 변환 장치.
음성 재생 속도를 변환하는 방법에 있어서,

입력 음성 신호의 음성 파형으로부터 인접하여 있고 길이가 동일하며 파형간 오차가 최소인 2개의 음성 파형을 선택하는 단계와,

선택된 2개의 음성 파형을 오버랩시키는 단계와,

오버랩된 음성 파형을 상기 입력 음성의 음성 파형의 일부와 대체 또는 삽입하여 속도 변환된 출력 음성 파형을 생성하는 단계

를 포함하되,

상기 음성 파형 선택 단계는

상기 입력 음성 신호의 음성 파형 데이터가 저장된 버퍼 메모리로부터 인접하고 또한 길이가 동일한 2개 음성 파형을 음성 파형의 길이를 각 세트마다 상이하게 복수 세트 페치하는 파형 페치 단계와,

상기 버퍼 메모리로부터 페치된 음성 파형의 각 세트로부터 파형간 오차가최소인 음성 파형의 세트를 검출하는 파형차 산출 단계를 구비하는

음성 재생 속도 변환 방법.