KR100656968B1

KR100656968B1 - 음속변환장치와 음속변환방법 및 컴퓨터 독출가능기록매체

Info

Publication number: KR100656968B1
Application number: KR1020040037494A
Authority: KR
Inventors: 나가야스가츠요시; 야마모토고이치
Original assignee: 가부시끼가이샤 도시바
Priority date: 2003-05-27
Filing date: 2004-05-25
Publication date: 2006-12-13
Also published as: CN1573931A; US20050010398A1; CN1266675C; KR20040102336A; JP2004354462A; JP3871657B2; EP1482483A3; EP1482483A2

Abstract

본 발명에 따른 음속변환장치는, 입력되는 음성신호로부터 피치주기를 산출하는 피치주기 산출부와, 음성신호의 음성파형을 피치주기만큼 잘라내고 그 음성파형을 시간축 반전시킨 반전파형을 음성신호에 삽입함으로써 신장처리를 실행하는 신장처리부를 구비하고 있다.

Description

음속변환장치와 음속변환방법 및 컴퓨터 독출가능 기록매체 {SPEECH RATE CONVERSION APPARATUS, METHOD AND COMPUTER-READABLE RECORD MEDIUM THEREOF}

도 1은 본 발명의 1실시예에서의 음속변환장치의 구성을 나타낸 블럭도,

도 2는 음성신호의 파형을 피치주기만큼 잘라낸 상태를 설명하는 설명도,

도 3은 잘라낸 음성신호의 시간축 반전을 행한 상태를 설명하는 설명도,

도 4는 음성파형에 가중계수를 승산한 상태를 설명하는 설명도,

도 5는 가중 파형을 가산한 상태를 설명하는 설명도,

도 6은 삽입한 음성파형의 합성을 설명하는 설명도,

도 7은 합성한 음성파형을 삽입함으로써 신장처리를 설명하는 설명도,

도 8은 본 발명의 실시예의 신장처리의 흐름을 나타낸 플로우차트이다.

＜도면부호의 설명＞

1 --- 음성파형 프레임 추출부, 2 --- 피치주기 산출부,

3 --- 시간축 신장부, 100 --- 음속변환장치.

본 발명은 음성신호의 음속을 변화시키기 위한 음속변환장치에 관한 것이다.

입력되는 음성의 속도변환을 행하기 위한 일반적인 수법으로서, PICOLA(Pointer Interval Control OverLap and Add)에 의해 음성의 시간축을 압축 및 확장하는 파형처리방법이 알려져 있다(예컨대, "Compression and Expansion on Time Axis of Speech Using Pointer Interval Control OverLap and Add (PICOLA) Method and its Evaluation" 참조).

이 음속변환에서는, 입력되는 음성 데이터를 특정의 프레임길이로 잘라내고, 자동상관함수(autocorrelation function) 등을 이용해서 프레임에서의 피치주기를 얻어 압축 및 신장처리를 실행하도록 되어 있다.

그러나, 이 방법에서는, 신장처리를 할 때에 음성 이외의 배경음향으로서 군중의 왁자지껄한 소리나 파도소리와 같은 근무작위음(near-random sound: 近無作爲音)이 있을 때, 파형 삽입의 주기에 대응하는 소름끼치는 기생진동음(parasitic sound: 寄生振動音)(대개는 음악소리의 일종)이 과도하게 발생하게 된다.

한편, 상술한 소름끼치는 기생진동음이 나지 않게 하는 방법으로서, 위상(phase)을 무작위화해서 중첩(superimpose)시키는 방법이 알려져 있다(예컨대, 일본 특개평5-108095호의 단락 [0015], 도 1 참조).

그렇지만, 이와 같은 방법에서도 파형을 시프트시키는 동안 위상을 무작위화하여 생성한 무작위화 음성 세그먼트 파형을 부가하거나 중첩시키는 복잡한 처리가 필요하게 되어 스루풋(throughput: 처리량)의 부하가 커지기 때문에, 이 방법을 실시간 처리가 필요한 처리 시스템에 짜 넣는 것이 어렵게 된다.

상술한 바와 같이, 종래 기술의 음속변환에서는, 배경 음향으로서 근무작위음이 있을 때 파형 삽입의 주기에 대응하는 소름끼치는 소리가 과도하게 발생한다는 문제점이 있었다.

또한, 이 문제점에 대한 해결책으로서, 파형을 시프트시키는 동안 위상을 무작위화하여 생성한 무작위화 음성 세그먼트 파형을 부가하거나 중첩시키는 방법이 알려져 있지만, 복잡한 처리가 필요하게 되어 스루풋의 부하가 커지기 때문에, 이 방법을 실시간 처리가 필요한 처리 시스템에 짜 넣는 것이 어렵다는 문제점이 있었다.

따라서, 본 발명은 상술한 바와 같은 문제점을 감안하여 이루어진 것으로, 그 목적은 배경 음향으로서 근무작위음이 있는 경우의 음속변환에 있어서도 소름끼치는 기생진동음이 발생하지 않는 동안에 극히 간단한 처리에 의해 양호한 음질을 갖는 음속변환장치를 실현하는데 있다.

상기 목적을 달성하기 위해 본 발명은, 입력되는 음성신호로부터 피치주기를 산출하는 피치주기 산출부와, 음성신호의 음성파형을 피치주기만큼 잘라내고 그 음성파형을 시간축 반전시킨 반전파형을 음성신호에 삽입함으로써 신장처리를 실행하는 신장처리부를 구비하여 구성된 것을 특징으로 한다.

그 결과로서, 소름끼치는 기생진동음을 발생시키지 않고도 상당히 간단하게 양호한 음질을 갖는 음속변환을 실현할 수 있게 된다.

(실시예)

이하, 도면을 참조하면서 본 발명의 1실시예를 상세히 설명한다. 도 1은 본 발명의 1실시예에서의 음속변환장치의 구성을 나타낸 블럭도이다.

음속변환장치(100)는, 음성파형 프레임 추출부(1)와 피치주기 산출부(2) 및 시간축 신장부(3)를 갖추고 있다. 상기 음성파형 프레임 추출부(1)는 피치주기를 얻기 위해 입력음성신호의 소정의 프레임길이를 가진 음성파형을 잘라내는 역할을 한다. 또, 상기 피치주기 산출부(2)는 음성파형 프레임 추출부(1)에서 잘라내어진 음성신호로부터 피치주기(Tp)를 산출하여 이 피치주기(Tp)를 시간축 신장부(3)로 입력하는 역할을 한다.

다음에는, 상기 피치주기를 산출하는 방법으로서, 자동상관함수(autocorrelation function)를 이용하여 피치주기를 산출하는 방법에 대해 설명한다. 자동상관함수를 이용해서 피치주기를 산출하는 방법에 있어서, 자동상관(自動相關)은, 입력음성신호가 유한한 시간길이를 갖고, 프레임길이(Tc)의 간격(상술한 프레임길이에 대응함) 내에서만 존재하며, 그 신호가 프레임길이(Tc)의 간격 이외에서는 항상 제로(0)라는 가정 하에서 얻어지게 된다. 즉, 이러한 단시간 자동상관값 Rn(k)는 수학식 1에 나타낸 것과 같이 얻어진다.

여기서, m = 0, 1, 2, …, Tc-1-k

Tc는 입력음성신호가 존재한다고 가정한 경우의 시간간격이고, k는 단시간 자동상관값 Rn(k)을 산출할 때에 음성파형을 지연시키는 경우의 지연시간이며, 이들 사이에는 Tc≫k의 관계가 있다. 단시간 자동상관값 Rn(k)이 최대로 되도록 k의 값이 수학식 1에서 얻어질 때 그 값이 피치주기로 된다. 이렇게 해서 얻어진 피치주기(Tp)는 시간축 신장부(3)로 보내지고, 이 시간축 신장부(3)에서는 다음에 설명하는 바와 같은 신장처리가 수행된다.

신장처리에서는, 도 2에 도시된 바와 같이 피치주기 산출부(2)에 의해 산출된 피치주기가 Tp이고, 신장계수가 R(예컨대, 1＜R≤2)이며, 프레임길이 추출부의 잘라낸 음성파형이 Tc=Tp/(R-1)이라고 가정했을 때, 먼저 복수의 음성파형이 피치주기만큼 잘라내어진다. 여기서는, 파형 A와 파형 B의 연속한 2개의 음성파형이 있는 그대로 간단히 잘라내어진다. 그 후, 도 3에 도시된 바와 같이 파형 A의 음성파형이 시간축 반전에 의해 파형 A'로 변환되게 된다.

도 4에 도시된 바와 같이, 파형 B와의 접촉점[파형 A의 종단(終端)]으로부터 Lp 부분까지의 파형 A는 0∼1의 가중계수와 승산되어 파형 D1의 음성파형을 작성한다. 여기서, Lp는 소정의 시간길이로서 피치주기(Tp)보다 짧고, 대략 Lp = 1/5 ∼ 1/6Tp이다. 마찬가지로, 파형 A와의 접촉점[파형 B의 초단(初端: 시단)]으로부터 Lp 부분까지의 파형 B, 초단으로부터 Lp 부분까지의 파형 A' 및 종단으로부터 Lp 부분까지의 파형 A'는 1∼0의 사이, 0∼1의 사이 및 1∼0의 사이에서 직선적으로 각각 변화하는 가중계수와 승산되어 파형 C1, 파형 C2 및 파형 D2의 음성파형을 작성한다.

파형 C1 및 파형 C2의 작성된 음성파형과 파형 D1 및 파형 D2의 음성파형은 각각 가산되어 파형 C 및 파형 D의 음성파형을 작성한다(도 5). 더욱이, 도 6에 도시된 바와 같이, Lp 부분은 파형 A'의 음성파형의 초단 및 종단의 잘라낸 부분으로서, 이 Lp 부분에 파형 C 및 파형 D의 음성파형이 각각 삽입되어 파형 A"의 음성파형으로 합성되게 된다.

마지막으로, 이 파형 A"를 파형 A와 파형 B의 음성파형 사이에 삽입시켜 Tc=Tp/(R-1)의 파형으로부터 신장계수 R을 만족하는 Tc+Tp=Tp/(R-1)의 파형을 작성한다(도 7).

상술한 구성에 의해, 삽입되는 음성파형이 시간축 반전에 의해 변환된 파형이기 때문에, 과도하게 발생하여 입력 음성신호를 잘라내는 모든 프레임의 주기에 대응하던 소름끼치는 기생진동음이 발생하지 않게 된다. 또한, 삽입되는 음성파형의 초단부 및 종단부의 파형으로서 0∼1의 사이 또는 1∼0의 사이에서 직선적으로 변화하는 가중계수를 승산한 파형을 이용함으로써, 신장처리를 실행하는 경우에도 작은 왜곡을 갖는 음성파형이 얻어지도록 삽입되는 파형 A"와 파형 A 및 파형 B 사이에 평탄한 접점을 갖는 파형과 같이 접촉이 이루어질 수 있게 된다. 더욱이, 삽입되는 음성파형은 시간축 반전과 같은 극히 간단한 처리에 의해 실현될 수 있게 된다.

한편, 여기서는 신장처리가 파형 A의 음성파형을 변환하여 얻은 파형 A"를 삽입함으로써 수행되는 실시예에 대해 설명했지만, 마찬가지로 파형 B의 음성파형을 변환하는 경우에도 적용할 수가 있다.

다음에는, 본 발명의 1실시예의 신장처리의 흐름에 대해 도 8의 플로우차트를 참조로 해서 설명한다. 먼저, 입력되는 음성신호에서 소정의 프레임길이(Tc)의 음성파형을 잘라내고(단계 S1), 자동상관함수 등을 이용해서 이 잘라낸 프레임길이(Tc)의 음성파형으로부터 피치주기(Tp)를 얻는다(단계 S2). 이렇게 해서 얻어진 피치주기(Tp)로부터, 처리목표의 2개의 음성파형(파형 A, B)을 입력된 음성신호로부터 피치주기(Tp)만큼 잘라내고(단계 S3), 그 후 파형 A의 음성파형을 시간축 반전에 의해 파형 A'로 변환시킨다(단계 S4).

파형 B의 단부로부터 Lp 부분까지의 파형 A에 0∼1의 사이에서 직선적으로 변화하는 가중계수를 승산하여 파형 D1을 작성한다. 마찬가지로, 파형 A의 단부로부터 Lp 부분까지의 파형 B에 1∼0의 사이에서 직선적으로 변화하는 가중계수를 승산하여 파형 C1을 작성한다. 더욱이, 파형 A'의 초단 및 종단으로부터 Lp 부분까지의 부분에 각각 0∼1의 사이 및 1∼0의 사이에서 직선적으로 변화하는 가중계수를 승산하여 파형 C2와 파형 D2의 음성파형을 작성한다(단계 S5).

파형 C1과 파형 C2의 음성파형을 가산하여 파형 C의 음성파형을 작성한다(단계 S6A). 마찬가지로, 파형 D1과 파형 D2의 음성파형을 가산하여 파형 D의 음성파형을 작성한다(단계 S6B).

그 후, 파형 A'의 시작점 및 끝점으로부터 Lp 부분까지의 음성파형을 잘라내고, 그 잘라낸 부분에 파형 C와 파형 D의 음성파형을 각각 삽입함으로써, 파형 A"를 합성한다(단계 S7). 더욱이, 이 파형 A"의 음성파형을 파형 A와 파형 B 사이에 삽입해서(단계 S8) 음성파형을 신장시킨다. 다음의 프레임에 대하여 단계 S1∼S8을 반복해서 실행하고, 신장시켜야 할 입력음성신호가 입력되지 않을 때 이 신장처리를 종료한다(단계 S9).

여기서는 도 1에 구성된 음속변환장치 내에서 실시되는 신장처리에 대해 설명했지만, 상술한 단계 S1∼S8을 갖춘 신장처리는 도 1에 도시된 바와 같은 신장처리부(3) 이외에 CPU와 같은 프로세서가 구비된 컴퓨터에 의해 실행되는 소프트웨어로 실시할 수도 있다. 여기서, 잘라낸 파형에 승산되는 가중계수는 직선적으로 변화하는 형태에 한정되는 것은 아니다.

한편, 텔레비전 세트, DVD 플레이어 등에 조립되는 음성출력부와 같은 다수의 변형례 및 기타의 실시예도 본 발명에 관련된 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술을 이용해서 실시할 수 있는 것인 바, 그 실시되는 변형례는 모두 본 발명의 범위 내의 기술이라 할 것이다.

상술한 바와 같이 본 발명에 의하면, 소름끼치는 기생진동음을 발생시키지 않고도 양호한 음질을 갖는 음속변환을 극히 간단한 처리에 의해 실현할 수 있게 된다.

Claims

입력되는 음성신호로부터 피치주기를 산출하는 피치주기 산출부와,

상기 음성신호의 음성파형을 피치주기만큼 잘라내고 그 음성파형을 시간축 반전시킨 반전파형을 상기 음성신호에 삽입함으로써 신장처리를 실행하는 신장처리부를 구비하여 구성된 것을 특징으로 하는 음속변환장치.
입력되는 음성신호로부터 소정의 프레임길이의 음성프레임을 추출하는 음성프레임 추출부와,

상기 음성프레임으로부터 피치주기를 산출하는 피치주기 산출부 및,

상기 음성프레임의 음성파형을 피치주기만큼 잘라내고 그 음성파형을 시간축 반전시킨 반전파형을 상기 음성프레임에 삽입함으로써 신장처리를 실행하는 신장처리부를 구비하여 구성된 것을 특징으로 하는 음속변환장치.
제1항에 있어서, 상기 신장처리부가, 복수의 음성파형을 피치주기만큼 연속해서 잘라내고 적어도 하나 이상의 반전파형을 삽입함으로써 신장처리를 실행하도록 된 것을 특징으로 하는 음속변환장치.
제2항에 있어서, 상기 신장처리부가, 복수의 음성파형을 피치주기만큼 연속해서 잘라내고 적어도 하나 이상의 반전파형을 삽입함으로써 신장처리를 실행하도 록 된 것을 특징으로 하는 음속변환장치.
제1항에 있어서, 상기 신장처리부가, 상기 반전파형을 반전 전에 잘라낸 음성파형과 잘라낸 다음의 음성파형 사이에 삽입함으로써 신장처리를 실행하도록 된 것을 특징으로 하는 음속변환장치.
제2항에 있어서, 상기 신장처리부가, 상기 반전파형을 반전 전에 잘라낸 음성파형과 잘라낸 다음의 음성파형 사이에 삽입함으로써 신장처리를 실행하도록 된 것을 특징으로 하는 음속변환장치.
제5항에 있어서, 상기 반전파형이, 잘라내어 시간축 반전시킨 파형의 초단부에 가중을 부여하고, 그 부분을 반전 전에 잘라낸 음성파형의 종단부와 가산하고 합성함으로써 얻어지도록 된 것을 특징으로 하는 음속변환장치.
제6항에 있어서, 상기 반전파형이, 잘라내어 시간축 반전시킨 파형의 초단부에 가중을 부여하고, 그 부분을 반전 전에 잘라낸 음성파형의 종단부와 가산하고 합성함으로써 얻어지도록 된 것을 특징으로 하는 음속변환장치.
제5항에 있어서, 상기 반전파형이, 잘라내어 시간축 반전시킨 파형의 종단부에 가중을 부여하고, 그 부분을 잘라낸 다음의 음성파형의 초단부와 가산하고 합성 함으로써 얻어지도록 된 것을 특징으로 하는 음속변환장치.
제6항에 있어서, 상기 반전파형이, 잘라내어 시간축 반전시킨 파형의 종단부에 가중을 부여하고, 그 부분을 잘라낸 다음의 음성파형의 초단부와 가산하고 합성함으로써 얻어지도록 된 것을 특징으로 하는 음속변환장치.
입력되는 음성신호로부터 피치주기를 산출하는 단계와,

상기 음성신호의 음성파형을 피치주기만큼 잘라내고 그 음성파형을 시간축 반전시킨 반전파형을 상기 음성신호에 삽입함으로써 신장처리를 실행하는 단계를 구비하여 이루어진 것을 특징으로 하는 음속변환방법.
제11항에 있어서, 상기 신장처리가, 복수의 음성파형을 피치주기만큼 연속해서 잘라내고 적어도 하나 이상의 반전파형을 삽입함으로써 실행되는 것을 특징으로 하는 음속변환방법.
제11항에 있어서, 상기 신장처리가, 상기 반전파형을 반전 전에 잘라낸 음성파형과 잘라낸 다음의 음성파형 사이에 삽입함으로써 실행되는 것을 특징으로 하는 음속변환방법.
제13항에 있어서, 상기 반전파형이, 잘라내어 시간축 반전시킨 파형의 초단 부에 가중을 부여하고, 그 부분을 반전 전에 잘라낸 음성파형의 종단부와 가산하고 합성함으로써 얻어지는 것을 특징으로 하는 음속변환방법.
제13항에 있어서, 상기 반전파형이, 잘라내어 시간축 반전시킨 파형의 종단부에 가중을 부여하고, 그 부분을 잘라낸 다음의 음성파형의 초단부와 가산하고 합성함으로써 얻어지는 것을 특징으로 하는 음속변환방법.
컴퓨터에 의해, 입력되는 음성신호로부터 피치주기를 산출하는 단계와, 상기 음성신호의 음성파형을 피치주기만큼 잘라내고 그 음성파형을 시간축 반전시킨 반전파형을 상기 음성신호에 삽입함으로써 신장처리를 실행하는 단계를 수행하도록 하기 위한 음속변환 프로그램이 기록된 것을 특징으로 하는 컴퓨터 독출가능 기록매체.