KR20010111630A

KR20010111630A - 시간/피치 변환 장치 및 시간/피치 변환 방법

Info

Publication number: KR20010111630A
Application number: KR1020010032477A
Authority: KR
Inventors: 오까자끼아끼히꼬; 오지마요시나리; 와까스기준
Original assignee: 니시무로 타이죠; 가부시끼가이샤 도시바
Priority date: 2000-06-12
Filing date: 2001-06-11
Publication date: 2001-12-19
Also published as: US20010051870A1; JP2001356799A

Abstract

본 발명은 구성의 대형화, 처리의 복잡화를 초래하지 않고, 또한 재생 음질을 손상시키지 않고 재생 음성의 피치/재생 시간을 용이하게 변경할 수 있는 시간/피치 변환 장치 및 시간/피치 변환 방법을 제공하는 것을 과제로 한다.

본 발명은 주파수 데이터로서 압축된 음성 데이터의 스펙트럼을 시프트한 후 데이터의 보간/추출을 행하여, 시계열 데이터의 음성 데이터로 역 변환하도록 구성된다.

Description

시간/피치 변환 장치 및 시간/피치 변환 방법{DEVICE AND METHOD FOR CONVERTING TIME/PITCH}

본 발명은 입력이 시계열 데이터가 아니라 주파수 데이터인 신호를 재생하는 시스템에 있어서, 재생 음성의 시간 또는 피치 변환을 행하는 시간/피치 변환 장치 및 시간/피치 변환 방법에 관한 것이다.

레코딩의 피치 변환용 이펙터(effecter), 커머셜 제작 등의 연주 시간을 변경하는 장치, 회의 녹음, 인터뷰, 뉴스 등의 화속 변환 장치, 가라오케 등의 피치 컨트롤러 등의 여러 가지 용도로 피치 변환 기술이 필요해지고 있다.

종래, 음성 데이터의 피치를 변환하는 수법으로는 시간 영역에서의 처리와 주파수 영역에서의 처리 2가지로 대별된다. 시간 영역에서의 처리에서는 시간축 상에서 파형의 불연속점이 발생하여, 음성 재생시에 귀에 거슬리는 노이즈로서 나타나고 있었다. 이것에 비해 주파수 영역에서의 처리에서는 이러한 불연속점의 발생이 없기 때문에 노이즈를 생성하지는 않았다. 그러나, 녹음 테이프나 CD 등의 미디어에서는 음성이 시계열 데이터로서 기록되어 있기 때문에, 주파수 영역에 있어서 피치 변환을 행하기 위해서는 FFT(고속 푸리에 변환) 등의 시간←→주파수 변환을 행할 필요가 있었다. 그러나, FFT를 행하기 위해서는 많은 연산을 행해야만 하고, 연산 회로의 처리 능력이 커져야 하는 결점이 있었다.

다음에, 피치 변환에 대하여 상세하게 설명한다.

피치를 변환하는 수법으로는, 상술한 바와 같이,

(a) 시간 영역에서의 데이터 처리에 의한 것

(b) 주파수 영역에서의 데이터 처리에 의한 것

2가지로 대별되지만, 주로 가라오케의 키 컨트롤 등의 간이적인 시스템에는 전자의 수법이, 악기 등의 음질에 관한 요구가 엄격한 시스템에는 후자의 수법이 이용되고 있었다.

도 13에 상기 (a)의 수법에 의한 피치 변환의 일례를 나타낸다. 시간 영역에서의 처리에서는 시계열 데이터의 재생 속도를 제어함으로써 피치의 업/다운을 행하지만, 도 13에 도시한 바와 같이, 동시에 재생 시간이 단축 혹은 연장되어 있는 것에 주의가 필요하다. 즉, 피치를 내린 경우에는 동시에 재생 시간이 연장되고, 한편 피치를 올린 경우에는 동시에 재생 시간이 단축된다. 여기서는, 재생 시간은 변화시키지 않고 피치만을 변환하는 것을 목적으로 하고 있고, 재생 시간은 원(元) 데이터의 재생 시간과 동일해야만 한다. 그 때문에, 원 데이터의 피치를 내린 경우에는 반드시 어디에선가 중복 부분이 생기고, 또한 피치를 올린 경우에 반드시 어디에선가 데이터의 누락 부분이 생기게 된다. 이들은 시계열 상에서의 데이터가 불연속으로 되기 때문에, 그대로 재생하면 노이즈가 발생하여 음질이 나빠지게 된다. 이러한 문제점을 회피하기 위한 기술로서, 크로스 페이드(cross fade) 처리가 있다. 이 처리는, 도 14에 도시한 바와 같이, 피치를 내린 경우에는 연속 파형의 종료를 페이드 아웃(fade out)하고, 그것과 동시에 다음의 연속 파형의 개시를 페이드 인(fade in)하여 크로스 페이드 연속을 행한다. 이것에 의해서 접속점에서의 노이즈는 감소한다. 한편, 피치를 올린 경우에는 데이터의 누락 부분을 보충하기 위해서 동일 데이터를 2회 재생하고, 마찬가지로 크로스 페이드 연속에 의해서 접속점에서의 노이즈는 감소된다. 그러나, 이 크로스 페이드 처리에서는 페이드 아웃 음(音)과 페이드 인 음의 위상이 역전되어 있는 경우 등은 좋은 결과를 얻을 수 없는 경우도 있다. 또한, 재생음에 주기적인 파동이 발생하는 것도 문제시되고 있었다.

다음에, 상기 (b)의 처리로 피치를 변화시키는 수법은 도 15에 도시한 바와 같이 주파수축 상에서 데이터를 시프트함으로써 용이하게 피치 변화를 행할 수 있고, 또한 시간축 상에서의 불연속점도 발생하지 않는다. 이 때문에, 상기 (a)에 비해 재생음의 음질이 좋은 것이 특징이다. 그러나, 테이프나 CD 등으로부터 출력되는 음성 데이터는 시계열 데이터이고, 이것을 시간 영역으로부터 주파수 영역으로 변환하기 위해서는 FFT 등의 연산 처리가 필요하다. 이 연산 처리는 주로 연산 회로와 메모리로 구성되는 DSP(디지털·시그널·프로세서) 등의 장치 또는 시스템으로 행할 수 있지만, 많은 연산을 행해야만 하고, 연산 회로의 처리 능력이 커야만 하는 결점이 있었다.

다음에, 음성 데이터의 재생 시간을 변화시키는 시간 변환 기술에 대하여 설명한다.

재생음의 피치를 변화시키지 않고 재생 시간의 단축, 연장만을 행하는 것을 시간 스트레치/컴프레션이라고 하고, 주로 화속(話速) 변환이나 샘플러(sampler)라는 기기에 이용되고 있다. 이것은 상술한 피치 변환 기술을 응용하여 실현할 수 있다.

재생 속도를 느리게 하여 재생 시간을 길게 한 경우에는, 상술한 이유로 재생음의 피치가 내려가기 때문에, 이것을 피치 변환 기술을 사용하여 원 피치로 복귀하도록 조작한다. 이에 따라, 도 16에 도시한 바와 같이 피치는 그대로인 채로 재생 시간만을 연장할 수 있다. 한편, 재생 시간을 단축하기 위해서는 이것과는 반대의 조작을 행하면 좋다.

지금까지 자주 이용되어 온 CD, 음악 테이프 등의 시계열 데이터를 그대로 기록한 미디어를 재생하고, 시간 스트레치/컴프레션을 행하는 경우에는 재생 속도를 컨트롤하는 장치를 사용하여 미디어로부터의 판독 속도를 가변시키거나, 혹은 재생 속도는 그대로인 채로 시스템에 큰 버퍼 메모리를 갖게 하여 재생 시간의 조절을 행하는 수법이 채용되고 있었다. 단, 양자 모두 복잡한 부가 장치나 대규모 처리가 필요해 간단하게 실현할 수는 없었다.

이상 설명한 바와 같이, 음성 데이터의 피치를 변환하는 종래의 변환 수법 중, 시간 영역에서의 처리에 있어서는 음성 데이터의 불연속을 회피하기 위한 크로스 페이드 처리을 행하고 있지만, 이 처리를 행하여도 재생음으로부터 노이즈를 확실하게 제거하는 것은 곤란하여, 음질이 열화되는 문제점을 초래하고 있었다. 한편, 주파수 영역에서의 처리에 있어서는 음성 데이터를 시간 영역으로부터 주파수 영역으로 변환하는 처리가 필요하고, 이 처리를 행하기 위해서는 대규모적인 구성과 많은 시간이 필요로 된다는 문제점을 초래하고 있었다.

그래서, 본 발명은 상기의 문제점을 감안하여 이루어진 것으로, 그 목적으로 하는 부분은 구성의 대형화, 처리의 복잡화를 초래하지 않고, 또한 재생 음질을 손상시키지 않고 재생 음성의 피치/재생 시간을 용이하게 변경할 수 있는 시간/피치 변환 장치 및 시간/피치 변환 방법을 제공하는 것에 있다.

도 1은 본 발명의 한 실시예에 따른 시간/피치 변환 장치의 기능을 포함하는 MP3 인코더/디코더의 구성을 나타내는 도면.

도 2는 주파수 영역에서의 정현파 데이터의 일례를 나타내는 도면.

도 3은 도 2에 대응한 출력 음성 신호를 나타내는 도면.

도 4는 도 2의 주파수를 2배로 시프트한 정현파 데이터를 나타내는 도면.

도 5는 도 4의 데이터를 보간한 정현파 데이터를 나타내는 도면.

도 6은 도 3의 음성 신호를 피치 업한 출력 음성 신호를 나타내는 도면.

도 7은 도 2의 주파수를 1/2배로 시프트한 정현파 데이터를 나타내는 도면.

도 8은 도 7의 데이터를 추출한 정현파 데이터를 나타내는 도면.

도 9는 도 3의 음성 신호를 피치 다운한 출력 음성 신호를 나타내는 도면.

도 10은 본 발명의 다른 실시예에 따른 시간/피치 변환 장치의 기능을 포함하는 음성 재생 시스템의 구성을 나타내는 도면.

도 11은 도 3의 음성 신호를 시간 스트레치한 출력 음성 신호를 나타내는 도면.

도 12는 도 3의 음성 신호를 시간 컴프레션(compression)한 출력 음성 신호를 나타내는 도면.

도 13은 음성 데이터의 피치 변환의 한 종래예를 나타내는 도면.

도 14는 크로스 페이드 처리의 일례를 나타내는 도면.

도 15는 음성 데이터의 피치 변환의 다른 종래예를 나타내는 도면.

도 16은 음성 데이터의 시간 스트레치의 한 종래 수법을 나타내는 도면.

<도면의 주요 부분에 대한 부호의 설명>

1 : 인코더

2 : 디코더

11, 26 : 하이브리드 필터 뱅크

12 : 심리 청각 분석부

13 : 반복 루프

14 : 하프만 부호화부

15 : 사이드 정보 부호화부

16 : 비트 스트림 형성부

21 : 비트 스트림 해석부

22 : 스케일 팩터 복호화부

23 : 하프만 테이블 복호화부

24 : 하프만 부호화부

25 : 역 양자화부

111 : 서브밴드 분석 필터 뱅크

112 : 적응 블록 길이 MDCT

113, 261 : 절첩 왜곡 삭감 버터플라이부

121, 122 : FFT

123 : 비예측 가능성 측정부

124 : 심리 청각 엔트로피 평가부

125 : 신호 대 마스크비 계산부

131 : 비선형 양자화부

132 : 스케일 팩터 계산부

133 : 버퍼 제어부

262 : 역 MDCT

263 : 서브밴드 합성 필터 뱅크

상기 목적을 달성하기 위해서, 과제를 해결하는 제1 수단은 주파수 데이터로서 압축된 음성 데이터를 입력하고, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻는 음성 재생 시스템에 구비되는 시간/피치 변환 장치에 있어서, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 음성 데이터의 피치 변환량에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하여, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하는 시프트 수단과, 상기 시프트 수단에 의해 시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하는 보간/추출 수단을 구비하고, 상기 보간/추출 수단으로 얻어진 주파수 영역에서의 음성 데이터가 시계열 데이터의 음성 데이터로 역 변환될 때 음성 데이터의 피치를 변화시키는 것을 특징으로 한다.

제2 수단은 주파수 데이터로서 압축된 음성 데이터를 입력하고, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 얻어지는 시계열 데이터의 디지털 음성 데이터를 DAC에 의해 아날로그 음성 데이터로 변환하여 재생하는 음성 재생 시스템에 구비되는 시간/피치 변환 장치에 있어서, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 재생 음성의 재생 시간에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하여, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하는 시프트 수단과, 상기 시프트 수단에 의해 시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하는 보간/추출 수단과, 재생 음성의 재생 시간에 따라서 주파수가 가변의 클럭 신호를 생성하고, 생성된 클럭 신호를 적어도 상기 DAC에 공급하는 클럭 생성 수단을 구비하고, 상기 클럭 생성 수단으로부터 공급된 클럭 신호에 기초하여 상기 DAC가 시계열 데이터의 디지털 음성 데이터를 아날로그 음성 데이터로 변환할 때 음성 데이터의 재생 시간을 확장/단축하는 것을 특징으로 한다.

제3 수단은, 상기 제1 또는 제2 수단에 있어서, 상기 주파수 데이터로서 압축된 음성 데이터는 임의의 데이터 판독 속도가 가능한 기억 매체에 저장되어 있는 것을 특징으로 한다.

제4 수단은 주파수 데이터로서 압축된 음성 데이터를 입력하고, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 음성 데이터의 피치 변화량에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하고, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하여 시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하며, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하고, 보간/추출에 의해 얻어진 주파수 영역에서의 음성 데이터가 시계열 데이터의 음성 데이터로 역 변환될 때 음성 데이터의 피치를 변화시키는 것을 특징으로 한다.

제5 수단은 주파수 데이터로서 압축된 음성 데이터를 입력하고, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 재생 음성의 재생 시간에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하고, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하여 시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하고, 재생 음성의 재생 시간에 따라서 주파수가 가변의 클럭 신호를 생성하고, 생성된 클럭 신호를 적어도 DAC에 공급하고, 주파수 영역으로부터 시간 영역으로의 역 변환으로 얻어진 시계열 데이터의 디지털 음성 데이터를 상기 DAC가 공급된 클럭 신호에 기초하여 아날로그 음성 데이터로 변환할 때 음성 데이터의 재생 시간을 확장/단축하는 것을 특징으로 한다.

<실시예>

이하, 도면을 이용하여 본 발명의 한 실시예를 설명한다.

도 1은 본 발명의 한 실시예에 따른 시간/피치 변환 장치의 기능을 포함하는 MP3 인코더/디코더의 구성을 나타낸다.

이 실시예에서는 MPEG 음성 압축 방식의 하나인 MP3 방식에 의해 압축된 압축 음성을 재생할 때의 피치 변환에 대하여 설명한다. 또, 음성 데이터가 주파수 데이터이면 전부 적용 가능하기 때문에, MP3 외에 ACC 등의 MPEG 음성 압축 방식이라도 실시 가능하고, 또한 음성 압축은 특히 MPEG 방식에 한정되지는 않는다. MPEG에 의한 압축 음성 데이터는 이미 주파수 데이터로서 기록되어 있기 때문에, 시계열 데이터를 기록한 미디어의 재생과 같이 주파수·시간 변환할 필요는 없다. 이 점을 이용하고, 또한 MPEG의 압축 음성 데이터의 디코드시에 행해지는 필터 연산 처리를 거의 변경하지 않고, 필터 연산 처리의 알고리즘을 실행하는 소프트웨어에 몇 스텝의 프로그램을 추가하는 것만으로 주파수 영역에서의 스펙트럼 정보의 조작을 행하여 재생 음성의 피치 변환을 용이하게 실현하도록 하고 있다.

도 1에 있어서, 이 실시예의 MP3 인코더/디코더는 시계열 데이터인 음성 데이터를 입력하고, 이 음성 데이터를 종래부터 알려져 있는 MP3의 압축 방식에 의해 주파수 영역에서의 데이터로 압축 변환하는 인코더(1)와, 이 인코더(1)의 주파수 영역에서의 출력을 받아, 이 출력을 시계열 데이터로 역 변환하여 시계열 데이터의 음성 데이터로서 출력하는 디코더(2)를 구비하여 구성되어 있다. 인코더(1)는 하이브리드 필터 뱅크(11)와, 심리 청각 분석부(12)와, 반복 루프(13)와, 반복 루프(13)의 출력을 받아 하프만 부호화 처리를 행하는 하프만 부호화부(14)와, 반복 루프(13)의 출력을 받아 사이드 정보의 부호화를 행하는 사이드 정보 부호화부(15)와, 하프만 부호화부(14)의 출력과 사이드 정보 부호화부(15)의 출력을 받아 비트 스트림을 형성하는 비트 스트림 형성부(16)를 구비하고, 하이브리드 필터 뱅크(11)는 서브밴드 분석 필터 뱅크(111)와, 적응 블록 길이 MDCT(112)와, 절첩 왜곡 삭감 버터플라이부(113)를 구비하고, 심리 청각 분석부(12)는 256점의 FFT(고속 푸리에 변환 : 121)와, 1024점의 FFT(122)와, 피예측 가능성 측정부(123)와, 심리 청각 엔트로피 평가부(124)와, 신호 대 마스크비 계산부(125)를 구비하고, 반복 루프(13)는 비선형 양자화부(131)와, 스케일 팩터 계산부(132)와, 버퍼 제어부(133)를 구비하여 구성되어 있다.

디코더(2)는 인코더(1)의 비트 스트림 형성부(16)의 주파수 영역에서의 출력을 받아 비트 스트림을 해석하는 비트 스트림 해석부(21)와, 비트 스트림 해석부(21)의 출력을 받아 스케일 팩터 복호화를 행하는 스케일 팩터 복호화부(22)와, 비트 스트림 해석부(21)의 출력을 받아 하프만 테이블 복호화를 행하는 하프만테이블 복호화부(23)와, 비트 스트림 해석부(21) 및 하프만 테이블 복호화부(23)의 출력을 받아 하프만 부호화를 행하는 하프만 부호화부(24)와, 스케일 팩터 복호화부(22) 및 하프만 부호화부(24)의 출력을 받아 역 양자화를 행하여 스펙트럼 정보를 얻는 역 양자화부(25)와, 역 양자화부(25)의 출력을 받아 시계열 데이터로서의 음성 데이터를 재생하고, 또한 이 재생 과정에 있어서 이 실시예의 특징이 되는 피치 변환 처리를 행하는 시프트 수단과 보간/추출 수단을 포함하는 하이브리드 필터 뱅크(26)를 구비하고, 하이브리드 필터 뱅크(26)는 역 양자화부(25)에서 얻어진 스펙트럼 정보를 버터플라이 연산하는 절첩 왜곡 삭감 버터플라이부(261)와, 절첩 왜곡 삭감 버터플라이부(261)의 출력을 받아 역 푸리에 변환을 행하는 역 MDCT(262)와, 역 MDCT(262)의 출력을 받아 서브밴드 합성을 행하는 서브밴드 합성 필터 뱅크(263)를 구비하여 구성된다.

디코더(2)의 하이브리드 필터 뱅크(26)에서는 버터플라이 연산, 역 MDCT, QMF 합성의 처리를 행하고 있지만, 이들 처리는 소프트웨어에 의한 하나로 종합된 알고리즘으로서 처리된다. 또한, 이 알고리즘에서는 피치 변환 처리를 행하기 위해서, 시프트 수단에 의해 우선 주파수·시간 변환을 행할 때 주파수 영역에서의 스펙트럼 정보의 시프트를 행하여 재생 음성의 주파수를 결정하고, 보간/추출 수단에 의해 시프트된 스펙트럼 정보에 대하여 주파수 영역에서의 데이터의 보간 또는 추출의 처리를 행하여 데이터의 개수를 맞춘다. 이에 따라, 피치를 변경함과 동시에, 스펙트럼 정보를 시간 영역으로 복귀시킨 경우에 재생 시간이 변하지 않도록 한다.

다음에, 상기 처리에 대하여, 도 2에 도시한 바와 같은 주파수 영역의 정현파 데이터를 일례로서 도 3∼도 9를 참조하여 설명한다. 이하, FFT/역 FFT를 이용하여 대역 0∼16㎑의 스펙트럼 정보에 대하여 시뮬레이션한 결과에 기초하여 설명한다. 역 FFT에 입력하는 데이터는 1㎑의 정현파, 샘플링 주파수=32㎑, 샘플 수=64로 한다.

피치 변환 처리를 하지 않는 경우에는 출력 음성 신호는 도 3에 도시된 바와 같이 된다. 이러한 음성 신호의 피치를 2배로 올리는 경우를 생각하자. 우선, 도 4에 도시한 바와 같이 도 2에 도시한 스펙트럼 정보를 2배의 주파수가 되도록 시프트한다. 이 때, 스펙트럼 정보의 대역은 32㎑까지 확대되지만, 확대된 대역을 절반인 16㎑까지로 하여 이후의 대역을 삭제한다. 이에 따라, 0∼16㎑ 대역의 데이터 수는 64에서 절반인 32로 된다. 이 상태에서 주파수 영역으로부터 시간 영역으로 변환하면, 재생 시간이 도 3에 도시한 4000㎲로부터 절반인 2000㎲로 짧아지게 된다. 이것을 회피하기 위해서, 도 4에 도시한 스펙트럼 정보에 대하여 데이터를 보간하고, 도 5에 도시한 바와 같이 데이터 수를 32로부터 시프트하기 전과 동수인 64로 증가시킨다. 데이터의 보간은, 예를 들면 두개의 데이터 사이의 중간점의 데이터를 부가하는 1차 보간 방법에 의해서 행해진다. 이와 같이 하여, 데이터를 보간하여 샘플 수를 64로 한 후, 주파수 영역으로부터 시간 영역에서의 데이터로 역 변환한다. 그 결과, 재생 데이터는 도 6에 도시한 바와 같이 재생 시간이 4000㎲ 그대로로 주파수 2㎑의 정현파가 된다. 즉, 재생 시간을 변화시키지 않고, 정현파 데이터의 피치를 2배로 올릴 수 있다.

다음에, 도 2에 도시한 정현파 데이터의 피치를 1/2배로 내리는 경우를 생각하자. 이 경우에는, 도 2에 도시한 스펙트럼 정보에 대하여 도 7에 도시한 바와 같이 스펙트럼 정보를 1/2의 주파수가 되도록 시프트한다. 이에 따라, 스펙트럼 정보의 대역은 16㎑로부터 8㎑로 좁아진다. 이 상태에서 주파수 영역으로부터 시간 영역으로 변환하면, 재생 시간이 4000㎲로부터 2배인 8000㎲로 길어지게 된다. 이것을 회피하기 위해서, 도 7에 도시한 스펙트럼 정보에 대하여 데이터를 추출하고, 도 8에 도시한 바와 같이 데이터 수를 64로부터 시프트하기 전과 동수인 32(0∼8 ㎑의 대역)로 줄인다. 데이터의 추출은, 예를 들면 두개의 데이터 사이의 중간점의 데이터를 삭제하는 방법에 의해서 행해진다. 이와 같이 하여, 데이터를 추출하여 샘플수를 32로 한 후, 주파수 영역으로부터 시간 영역에서의 데이터로 역 변환한다. 그 결과, 재생 데이터는 도 9에 도시한 바와 같이 재생 시간이 4000㎲ 그대로로 주파수 0.5㎑의 정현파가 된다. 즉, 재생 시간을 변화시키지 않고, 정현파 데이터의 피치를 1/2로 내릴 수 있다.

이상 설명한 바와 같이, 상기 실시예에 있어서의 피치 변환에 있어서, 시간 영역에서의 처리보다도 노이즈가 작고 정밀도가 좋은 주파수 영역에서의 처리를 MP3, AAC 등의 주파수 데이터로서 기록되어 있는 것을 이용하여 행하고, 주파수로부터 시간으로의 변환 과정에 있어서, 주파수 시프트, 데이터 보간/추출이라는 소프트웨어에 있어서의 몇 스텝의 처리를 추가하는 것만으로, 재생 음성의 피치를 임의로 가변하는 것을 용이하게 실현할 수 있다. 또한, MP3, AAC 등의 압축 데이터가 기록된 압축 기억 매체로부터는 주파수 단위의 데이터가 출력되기 때문에, 이것을 이용함으로써, 테이프나 CD 등과 같이 시간 영역으로부터 주파수 영역으로의 데이터 변환이라는 큰 처리로 연산 장치에 부담을 주지 않게 된다. 또한, 시간 영역의 데이터 그대로를 취급하지 않기 때문에, 재생 음성에 귀에 거슬리는 노이즈가 발생하는 일도 없어진다

다음에, 앞의 실시예를 응용한 시간 스트레치/컴프레션에 대하여 설명한다.

도 10은 본 발명의 다른 실시예에 따른 시간/피치 변환 장치의 기능을 포함하는 음성 데이터 재생 장치의 구성을 나타내는 도면이다.

도 10에 있어서, 음성 데이터 재생 장치는 압축 음성 신호를 출력하는 기억 매체(31)와, 이 기억 매체(31)로부터 출력된 압축 음성 신호를 받는 기억 매체 I/F 회로(32)와, 기억 매체 I/F 회로(32)의 출력을 받아 도 1에 도시한 인코더(1)와 디코더(2) 및 시간/피치 변환 장치의 기능을 갖는 DSP(디지털·시그널·프로세서 : 33)와, DSP(33)로부터 출력되는 디지털 신호를 아날로그 신호로 변환하는 DAC(34)와, 클럭 스피드 설정 신호를 받아 클럭 신호를 생성하는 클럭 스피드 가변 회로(35)와, 클럭 스피드 가변 회로(35)의 출력을 받아 시스템의 클럭 신호를 생성하는 시스템 클럭 생성 회로(36)를 구비하여 구성된다.

이러한 구성에 있어서, 음성 데이터의 판독처가 기억 매체(31)이기 때문에 판독 속도가 임의로 되고, 판독 데이터의 디코드에 요하는 MIPS값(단위 시간 당의 처리 능력)만 만족시키고 있으면, DSP(33)의 시스템 클럭을 자유롭게 설정할 수 있다. 또한, 도 10에 도시한 구성만으로 완결되고, 음성의 재생만을 목적으로 한 시스템이면, 다른 회로에 샘플링 주파수 등의 결정된 주파수의 클럭을 전송할 필요가없기 때문에, DAC(34)의 시스템 클럭도 자유롭게 결정할 수 있다. 즉, 재생음에 영향을 미치지 않으면, 도 10에 도시한 시스템의 시스템 클럭 그 자체를 가변으로 하여도 문제는 되지 않는다. 또한, 시스템 클럭을 가변으로 하는 것은 용이하게 행할 수 있다. 여기서는, 이 특징을 이용하여 앞의 실시예의 방법으로 음성 데이터의 피치를 미리 변화시켜 놓고, DAC(34)를 포함시킨 시스템 전체의 시스템 클럭을 가변으로 함으로써, 재생음의 피치를 변화시키지 않고서 재생 시간만을 변화시키는 동작을 설명한다.

우선, 시간 스트레치에 대하여 설명한다. 시스템 클럭 생성 회로(36)에 있어서, 시스템 클럭을 통상 동작시의 1/2이 되도록 미리 설정해 둔다. 시스템 전체의 클럭을 가변으로 하는 것은 분주 회로의 고안 등으로 간단하게 행할 수 있다. 또, 시스템 클럭을 1/2로 함으로써 DSP(33)의 MIPS값은 반감되지만, 입력 데이터의 디코드에 지장을 초래하지 않는 한 특별히 문제가 되지는 않는다. 앞의 실시예에서 설명한 수법으로 도 2 및 도 3에 도시한 데이터에 대하여 하이브리드 필터 뱅크(26)를 조작하여, 주파수 영역으로부터 시간 영역으로 역 변환할 때 데이터의 피치를 2배로 올린다. 이에 따라, DAC(34)에 주어지는 시스템 클럭은 통상 동작시의 1/2이기 때문에, 그 결과 역 변환되어 얻어진 재생 음성의 피치는 도 11에 도시한 바와 같이 원래와 동일해지고, 또한 재생 시간이 2배로 확장된다.

한편, 시간 컴프레션의 경우에는 상기한 경우와 반대로 되고, 시스템 클럭 생성 회로(36)에 있어서, 미리 시스템 클럭을 통상 동작시의 2배로 설정해 놓고, 앞의 실시예에서 설명한 수법으로 도 2 및 도 3에 도시한 데이터에 대하여 하이브리드 필터 뱅크(26)를 조작하고, 데이터를 주파수 영역으로부터 시간 영역으로 역 변환할 때 데이터의 피치를 1/2배로 내린다. 이에 따라, DAC(34)에 주어지는 시스템 클럭은 통상 동작시의 2배이기 때문에, 그 결과 역 변환되어 얻어진 재생 음성의 피치는 도 12에 도시한 바와 같이 원래와 동일해지고, 또한 재생 시간이 1/2배로 단축된다.

이와 같이, DAC(34)를 포함시킨 음성 재생 시스템의 경우에, 앞의 실시예의 구성에 간단한 시스템 클럭의 가변 회로를 추가하는 것만으로, 종래와 같이 판독 속도 제어 장치나 큰 버퍼 메모리 및 메모리 매니지먼트 장치를 부가하지 않고, 시간 스트레치/컴프레션 조작을 용이하게 실현할 수 있다. 즉, 동일한 시스템 클럭으로 구동되는 연산 회로와 DAC로 구성되는 음성 재생 시스템에서는, 음성 재생만을 목적으로 함으로써 시스템 클럭을 임의의 스피드로 가변으로 할 수 있는 것을 이용하여, 상술한 실시예의 구성에 있어서의 동작 클럭을 변화시키는 것만으로 데이터의 피치를 고정한 채로 재생 시간만을 연장 또는 단축하는 시간 스트레치/컴프레션 기능을 용이하게 실현하는 것이 가능하다.

이상 설명한 바와 같이, 본 발명에 따르면, 주파수 데이터로서 압축된 음성 데이터의 스펙트럼을 시프트한 후 데이터의 보간/추출을 행하여 시계열 데이터의 음성 데이터로 역 변환하도록 하였기 때문에, 재생 시간을 변화시키지 않고 재생 음성의 피치를 용이하게 변경할 수 있다. 또한, 상기 역 변환 처리 외에, 디지털 음성 신호를 아날로그 음성 신호로 변환할 때의 동작 클럭 신호의 주파수를 재생시간에 따라서 변화시키도록 하였기 때문에, 피치를 변화시키지 않고 재생 음성의 재생 시간을 용이하게 확장/단축할 수 있다.

Claims

주파수 데이터로서 압축된 음성 데이터를 입력하고, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻는 음성 재생 시스템에 포함하는 시간/피치 변환 장치에 있어서,

주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 음성 데이터의 피치 변환량에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하여, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하는 시프트 수단과,

상기 시프트 수단에 의해 시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하는 보간/추출 수단을 포함하고,

상기 보간/추출 수단으로 얻어진 주파수 영역에서의 음성 데이터가 시계열 데이터의 음성 데이터로 역 변환될 때 음성 데이터의 피치를 변화시키는

것을 특징으로 하는 시간/피치 변환 장치.
주파수 데이터로서 압축된 음성 데이터를 입력하고, 주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 얻어지는 시계열 데이터의 디지털 음성 데이터를 DAC에 의해 아날로그 음성 데이터로 변환하여 재생하는 음성 재생 시스템에 포함되는 시간/피치 변환 장치에 있어서,

주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 재생 음성의 재생 시간에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하여, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하는 시프트 수단과,

상기 시프트 수단에 의해 시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하는 보간/추출 수단과,

재생 음성의 재생 시간에 따라서 주파수가 가변의 클럭 신호를 생성하고, 생성된 클럭 신호를 적어도 상기 DAC에 공급하는 클럭 생성 수단을 포함하고,

상기 클럭 생성 수단으로부터 공급된 클럭 신호에 기초하여 상기 DAC가 시계열 데이터의 디지털 음성 데이터를 아날로그 음성 데이터로 변환할 때 음성 데이터의 재생 시간을 확장/단축하는

것을 특징으로 하는 시간/피치 변환 장치.
제1항 또는 제2항에 있어서,

상기 주파수 데이터로서 압축된 음성 데이터는 임의의 데이터 판독 속도가 가능한 기억 매체에 저장되어 있는 것을 특징으로 하는 시간/피치 변환 장치.
주파수 데이터로서 압축된 음성 데이터를 입력하고,

주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 음성 데이터의 피치 변화량에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하여, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하며,

시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하고,

보간/추출에 의해 얻어진 주파수 영역에서의 음성 데이터가 시계열 데이터의 음성 데이터로 역 변환될 때 음성 데이터의 피치를 변화시키는

것을 특징으로 하는 시간/피치 변환 방법.
주파수 데이터로서 압축된 음성 데이터를 입력하고,

주파수 데이터로서 압축된 음성 데이터를 주파수 영역으로부터 시간 영역으로 역 변환하여 시계열 데이터의 음성 데이터를 얻을 때, 재생 음성의 재생 시간에 따라서 주파수 영역에서의 음성 데이터의 스펙트럼을 시프트하여, 시계열 데이터의 음성 데이터의 재생 주파수를 결정하며,

시프트되어 얻어진 주파수 영역에서의 스펙트럼에 대하여 음성 데이터를 보간 또는 추출하고, 시프트 전후의 주파수 영역에서의 스펙트럼의 음성 데이터 수를 동일 대역폭으로 동일하게 하고,

재생 음성의 재생 시간에 따라서 주파수가 가변의 클럭 신호를 생성하고, 생성된 클럭 신호를 적어도 DAC에 공급하며,

주파수 영역으로부터 시간 영역으로의 역 변환으로 얻어진 시계열 데이터의 디지털 음성 데이터를 상기 DAC가 공급된 클럭 신호에 기초하여 아날로그 음성 데이터로 변환할 때 음성 데이터의 재생 시간을 확장/단축하는

것을 특징으로 하는 시간/피치 변환 방법.