KR20000010930A

KR20000010930A - 음성 속도 변환 방법 및 그 장치

Info

Publication number: KR20000010930A
Application number: KR1019980709078A
Authority: KR
Inventors: 도루 다카기; 노부마사 세이야마; 아츠시 이마이; 아키오 안도
Original assignee: 닛폰 호소 교카이
Priority date: 1997-03-14
Filing date: 1998-03-13
Publication date: 2000-02-25
Also published as: NO985301L; DE69816221D1; EP0910065A1; JPH10257596A; EP0910065B1; KR100283421B1; DK0910065T3; WO1998041976A1; EP0910065A4; US6205420B1; NO985301D0; CN1219264A; CA2253749A1; CA2253749C; NO316414B1; CN1101581C; DE69816221T2; JP2955247B2

Abstract

분석 프로세서(3)가 속성에 따라 분석 과정을 입력 음성 데이터에 적용한다. 블록 데이터 분리부(4)는 블록 음성 데이터를 생성하기 위해, 분석 프로세서(3)에 의해 얻어진 분석 결과에 따라, 입력 음성 데이터를 소정의 시간폭을 가진 블록 단위로 분리하고, 그 블록 음성 데이터를 블록 데이터 저장부(5)에 저장한다. 접속 데이터 생성부(6)는 그 블록 음성 데이터를 사용해서 접속 데이터를 생성하고, 그 접속 데이터를 접속 데이터 저장부(7)에 저장한다. 설정된 음성 속도에 해당하는 상태에 따라서, 접속 순서 생성부(8)는 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성한다. 음성 데이터 접속부(9)는 이미 블록 데이터 저장부(5)에 저장된 블록 음성 데이터 및 접속 데이터 저장부(7)에 저장된 접속 데이타에 블록 접속 순서에 따라 연속적으로 접속하고 그렇게해서 일련의 음성 데이터를 생성한다.

Description

음성 속도 변환 방법 및 그 장치

일반적으로, 예를 들어, 한 사람(청취자)이 다른 사람(발성자)의 음성을 들는 경우, 청취자의 청취 능력, 예를 들면, 청취자의 음성 인식 임계 속도(음성을 정확하게 확인할 수 있는 최대의 음성 속도)가 나이나 신체의 어떤 이상 때문에 쇠퇴하게 되면 청취자가 보통 속도의 음성 혹은 빠르게 말하는 음성을 확인하는 것이 가끔 어려워지게 된다. 이런 경우 보통은 청취자는 소위 보청기를 사용하여 청취 능력을 보충할 수 있다.

그러나 쇠퇴한 청취 능력을 가졌거나 청각 이상이 있는 사람이 사용하는 종래의 보청기는 주파수 특성, 이득 제어등을 개선함으로 해서 청각 기관의 외이와 중이의 전달 특성을 보충할 수 있을 뿐이다. 그러므로 주로 청각 기관의 쇠퇴와 연관되는 음성 인식 능력이 쇠퇴하는 그런 문제는 보충될 수 없다.

위의 입장에서, 최근에는 발성자의 음성을 처리하여 음성 속도가 실질적으로 실시간에 청취자의 청취능력에 적합할 수 있도록 함으로써 청각을 도울수 있는 음성 속도 제어형의 보청기가 생각되었다.

이 음성 속도 제어형의 보청기에 따르면, 시간대에 따라서 발성자의 음성을 확장하는 확장 과정을 실행하고, 이 확장 과정에서 얻어진 음성을 출력 버퍼 메모리에 연속적으로 저장하며, 그리고 저장된 음성을 출력함으로서, 청취자의 청취 능력의 쇠퇴를 보충하기 위해 발성자의 음성 속도가 변하게 된다(속도 감소됨).

그러나 종래 기술의 상기 음성 속도 제어형의 보청기에는 다음에 기술하는 문제점들이 존재한다.

우선, 종래 기술의 상기 음성 속도 제어형의 보청기는 음성 데이터 입력을 확장 과정에 의해 위에서 설명된 것과 같이 확장하고, 확장 과정에 의해 얻어진 음성 데이터를 연속적으로 출력 버퍼 메모리에 저장하며, 그리고 저장된 음성 데이터를 출력한다. 그러므로, 예를 들면, 청취자가 청취하는 중에 음성 속도를 더 많이 줄이거나 음성 속도를 본래의 속도로 회복하기를 원하는 경우에, 출력 버퍼 메모리에 저장된 모든 음성 데이터가 출력되기까지는 음성 속도는 원래의 속도로 회복될 수 없다.

이런 이유로, 청취하는 중에 음성 속도를 회복하기 위해, 현재의 음성 속도가 본래의 속도로 회복될 수 있기까지에는 꽤 긴 시간 지연의 문제가 있다.

또한 종래 기술의 상기 음성 속도 제어형의 보청기는 청취 능력을 보충하기 위해 발성자의 음성 속도를 변하게하는(속도 감소됨) 응용 분야에서 쇠퇴한 청취 능력을 가진 상기의 청취자뿐만이 아니라 보통의 청취 능력을 가지고 있으나 ,예를 들면, 외국어를 듣기 원하는 청취자도 사용할 수 있다. 그러나 이런 경우에, 위에서와 같이, 청취하는 중에 음성의 속도를 바꾸는데 시간 지연의 문제가 있다.

상기 환경의 입장에서 본 발명은 만들어졌고, 본 발명의 목적은 청취자의 조작에 즉시 따르기 위해 출력 음성의 음성 속도를 변환할 수 있고, 그렇게 해서 청취자의 입장에서의 사용상의 편의를 극도로 개선할 수 있는 음성 속도 변환 방법 및 그 장치를 제공하는데 있다.

본 발명은 텔레비젼 세트, 라디오, 데이프 녹음기, 비디오 테이프 녹화기, 비디오 디스크 플레이어 등과 같은 다양한 비디오 장치, 오디오 장치, 의료 장치등에 사용되는 음성 속도 변환 방법 및 그 장치에 관한 것으로서, 그리고 더 특별히는 발성자의 음성을 처리함으로서 그 음성의 속도가 청취자의 청취 능력에 적합하도록 하는 속도 변환된 음성을 제공할 수 있는 음성 속도 변환 방법 및 그 장치에 관한 것이다.

도 1은 본 발명에 따른 음성 속도 변환 방법과 그 방법을 구현한 음성 속도 변환 장치의 한 예를 보여주는 블록 다이아그램이다.

도 2는 도 1에 도시된 접속 데이터 생성부에서 실행되는 접속 데이터 생성 단계의 한 예를 도시한 것이다.

도 3은 도 1에 도시된 접속 순서 생성부에서 실행되는 접속 순서 생성 단계의 한 예를 도시한 것이다.

상기 목적을 달성하기 위해, 분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 단계; 분석 과정에 의해 얻어진 정보를 바탕으로 하여, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 단계; 분리된 음성 데이터를 블록 음성 데이터로 저장하는 단계; 음성 데이터의 확장을 시간대에 따라서 얻기 위해, 대체되거나 모든 블록의 인접한 블록 음성 데이터 사이에 삽입될 접속 데이터를 생성하고, 그 접속 데이터를 저장하는 단계; 청취자의 조작에 반응하여 어떤 음성 속도에 해당하는 출력 음성 데이터를 생성하기 위해 블록 접속 순서를 생성하는 단계; 및 블록 단위로 이미 분리되어 저장된 블록 음성 데이터와 블록 접속 순서에 따른 접속 데이터를 연속적으로 접속하여 출력 음성 데이터를 생성하는 단계를 포함하는 음성 속도 변환 방법이 청구항 1에 제시된다.

따라서, 출력 음성의 음성 속도는 청취자의 조작에 즉시 따르도록 변환될 수 있으며, 그래서 청취자 입장에서의 사용상의 편의가 극도로 개선될 수 있다.

청구항 1에 제시된 발명의 청구항 2에 제시된 음성 속도 변환 방법에서, 접속 데이터는 해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 위치한 음성 데이터에, 각각 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우을 블록마다 적용하고, 그리고 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 생성된다.

상기 목적을 달성하기 위해, 분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 분석 프로세서; 상기 분석 프로세서에 의해 얻어진 분석 결과에 따라, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 블록 데이터 분리부; 상기 블록 데이터 분리부에 의해 블록 음성 데이터로 분리된 음성 데이터를 저장하는 블록 데이터 저장부; 상기 블록 데이터 분리부에 의해 얻어진 블록 음성 데이터를 사용하여, 대체되거나 인접한 블록 음성 데이터 사이에 삽입될 수 있는 접속 데이터를 생성하는 접속 데이터 생성부; 상기 접속 데이터 생성부에 의해 생성된 접속 데이터를 저장하는 접속 데이터 저장부; 설정된 음성 속도에 해당하는 상태에 따라 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 생성부; 및 상기 블록 접속 순서 생성부에 의해 얻어진 블록 접속 순서에 따라, 이미 상기 블록 데이터 저장부에 저장된 블록 음성 데이터와 상기 접속 데이터 저장부에 저장된 접속 데이터에 연속적으로 접속하여 일련의 음성 데이터를 생성하는 음성 데이터 접속부를 포함하는 음성 속도 변환 장치가 청구항 3에 제시된다.

청구항 3에 제시된 발명의 청구항 4에 제시된 음성 속도 변환 장치에서, 상기 접속 데이터 생성부는 해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 위치한 음성 데이터 각각에, 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우를 블록마다 적용하고, 그리고 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 접속 데이터를 생성한다.

청구항 3에 제시된 발명의 청구항 5에 제시된 음성 속도 변환 장치에서, 상기 접속 순서 생성부는, 각 속성들의 확장 배율들을 시간대에 따라서 저장하는 기록 가능한 메모리; 및 소정의 시간 구간에서 상기 기록 가능한 메모리에 저장된 각 속성들의 시간대에서의 확장 배율들을 읽고, 그 확장 배율들과 상기 블록 데이터 저장부의 출력인 블록 길이 및 상기 음성 데이터 접속부의 출력인 미리 연결된 정보에 따라 매 순간 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 결정 프로세서를 포함한다.

도 1은 본 발명의 일실시예에 따른 음성 속도 변환 장치를 구현한 것을 보여주는 블록 다이아그램이다.

이 도면에서 도시된 음성 속도 변환 장치(1)는 입력 음성 신호를 디지털 음성 신호로 변환하기 위한 A/D 컨버터(2), 음성 데이터의 속성을 분석하기 위한 분석 프로세서(3), 블록 음성 데이터를 생성하기 위해 음성 데이터를 블록 데이터로 분리하는 블록 데이터 분리부(4), 블록 음성 데이터를 저장하기 위한 블록 데이터 메모리(5), 블록 음성 데이터를 접속하는데 필요한 접속 데이터를 생성하는 접속 데이터 생성부(6), 접속 데이터를 저장하기 위한 접속 데이터 메모리(7), 블록 음성 데이터와 접속 데이터의 접속 순서를 생성하기 위한 접속 순서 생성기(8), 접속 순서에 따라 블록 음성 데이터와 접속 데이터를 접속함으로서 일련의 음성 데이터를 생성하는 음성 데이터 접속부(9) 및 일련의 음성 데이터를 음성 신호들로 변환하는 D/A 컨버터(10)를 포함한다.

음성 속도 변환 장치(1)는 속성에 기초하여 발성자에 의해 입력된 음성 데이터에 분석 과정을 적용하고, 그 음성 데이터를 분석 과정에 의해 유도되어진 분석된 정보에 따른 소정의 시간폭의 블록 단위로 분리하며, 그리고 블록 데이터를 저장한다. 또한 시간대에 따라서 음성 데이터의 확장을 얻기 위해, 음성 속도 변환 장치(1)는 대체되거나 모든 블록의 인접한 블록 음성 데이타 사이에 삽입될 음성 데이터를 생성하고 그 음성 데이터를 저장한다. 그러면 음성 속도 변환 장치(1)는 청취자의 조작에 응하여 어떤 속도에 대응하는 출력 음성 데이터를 생성하기 위하여 블록 접속 순서를 생성하고, 이미 블록 단위로 분리되고 저장된 그 음성 데이터(블럭 음성 데이터)와 이미 저장된 대체/삽입될 음성 데이터(접속 데이터)를 접속 순서에 따라 연속하여 접속하여 출력 음성 데이터를 생성한다. 그 결과 음성 출력의 음성 속도는 청취자의 조작에 응하여 즉각 뒤따를 수 있다.

A/D 컨버터(2)는 입력 신호를 소정의 샘플링 비율(예를 들어 32 kHz)로 샘플링하여 입력 음성 신호를 디지털 음성 데이터로 변환하는 A/D 변환 회로 및 상기 A/D 변환 회로로부터의 디지털 음성 데이터 출력을 수신하여 저장하며 그 데이터를 FIFO 방식으로 출력하는 FIFO 메모리를 포함한다.

A/D 컨버터(2)는 발성자측의 입력 단말기로 입력되는 음성 신호, 예를 들면, 마이크로폰, 텔레비젼, 라디오등의 비디오 장치, 오디오 장치등의 아날로그 소리 출력 단말의 출력인 음성 신호를 수신하고, 그 음성 신호를 디지털 음성 데이터로 A/D 변환하며, 그 결과인 음성 데이터를 버퍼링하면서, 그 음성 데이터를 분석 프로세서(3)과 블록 데이터 분리부(4)로 출력한다.

분석 프로세서(3)는 A/D 컨버터(2)의 출력인 음성 데이터를 수신하는 입력 과정; 입력 과정에서 얻어진 음성 데이터의 샘플링 비율을 4 kHz까지 낮춤으로서 많은 이어지는 과정을 줄이는 삭제(줄이는) 과정; A/D 컨버터(2)의 출력인 음성 데이터와 상기 삭제 과정에 의해 얻어진 음성 데이터의 속성을 분석하여 그 음성 데이터를 음성있는 소리, 음성없는 소리 및 소리 없음으로 나누는 속성 분석 과정; 및 자동 상호관련 분석을 실행하여 상기 음성있는 소리, 음성없는 소리 및 소리 없음의 주기성을 감지하며 감지된 결과에 근거하여 음성 데이터를 나누는데 필요한 블록 길이(블록 단위의 반복에 기인하는 음색의 변화, 예를 들면 저음과 같은 손실을 막기 위해 필요한 블록 길이)를 결정하는 블록 길이 결정 과정을 연속하여 실행한다. 그리고 분석 프로세서(3)는 그 결과인 분리된 정보(음성있는 소리, 음성없는 소리 및 소리 없음의 블록 길이들)를 블록 데이터 분리부(4)로 전송한다.

본 실시예에서는, 상기 속성 분석 과정에서, A/D 컨버터(2)의 출력인 음성 데이터의 제곱의 합이 약 30 ms의 윈도우 폭을 사용하여 계산되고, 또한 음성 데이터의 전력값 P는 약 5 ms의 구간에서 계산된다. 또한, 전력값 P와 이전에 설정된 문턱값 P_min가 서로 비교되고, 결과로서 "P < P_min"을 만족하는 데이터 영역이 소리 없는 구간으로 결정되고 또한 "P_min≤ P" 를 만족하는 데이터 영역이 음성있는 소리 구간과 음성없는 구간으로 결정된다. 그러면, A/D 컨버터(2)의 출력인 음성 데이터를 제로 교차 분석하는 것과 상기 삭제 과정들에 의해 얻어진 음성 데이터를 자동 상관 분석하는 것이 실행된다. 이런 분석 결과들과 상기 전력값 P에 기초하여, "P_min≤ P"를 만족하는 음성 데이터의 음성 영역이 음성 코드의 진동을 가진 음성 구간(음성있는 소리 구간)에 속하는가 혹은 음성 코드의 진동을 가지지 않은 음성 구간(음성없는 소리 구간)에 속하는가 하는 것이 결정된다. 본 실시예에서는, 소음이나 음악같은 배경 소리같은 속성들은 A/D 컨버터(2)의 출력인 음성 데이터의 속성으로 간주될 것이다. 그러나, 일반적으로 소음과 배경 소리의 신호로부터 음성 신호들을 정확하게 자동적으로 식별하는 것이 어렵기 때문에, 소음과 배경 소리들은 음성있는 소리, 음성없는 소리 및 소리 없음의 어느 하나로 분류된다.

또한, 상기 블록 길이 결정 과정은 상이한 긴/짧은 윈도우 폭들을 가진 자동 상관 분석을, 음성있는 소리의 피치(pitch) 주기가 분포되어 있는 속성 분석 과정에 의해 1.25 ms 에서 28.0 ms 의 넓은 범위에 걸친 음성있는 소리로 결정된 음성 데이터에 적용하고, 그리고 가능한 정밀하게 피치 주기들(피치 주기들은 음성 코드의 진동 주기)을 감지하며, 그리고 각 피치 주기들이 각각의 블록 길이에 해당하도록 감지 결과들에 기초하여 블록 길이들을 결정한다. 그 사이에, 상기 블록 길이 결정 과정은 속성 분석 과정에 의해 음성없는 소리 구간과 소리없음 구간이라고 결정된 구간들에서 음성 데이터로부터 10 ms 미만의 주기성을 감지하고, 감지된 결과들에 기초하여 블록 길이들을 결정한다. 그 결과 음성있는 소리, 음성없는 소리 및 소리없음의 각 블록 길이들이 블록 데이터 분리부(4)에 분리 정보로 공급된다.

블록 데이터 분리부(4)는 분석 프로세서(3)의 출력인 분리 정보에 의해 표시되는 음성있는 소리, 음성없는 소리 및 소리없음의 블록 길이들에 기초하여 A/D 컨버터(2)의 출력인 음성 데이터를 분리한다. 그리고 블록 데이터 분리부(4)는 이 분리 과정에 의해 블록 단위로 얻어진 음성 데이터(블럭 음성 데이터)와 음성 데이터의 블럭 길이들을 블록 데이터 메모리(5)와 접속 데이타 생성부(6) 양쪽에 공급한다.

블록 데이터 메모리(5)는 원형 버퍼를 갖추고 있다. 블록 데이터 메모리(5)는 블록 음성 데이터(블럭 단위의 음성 데이터)와 블록 데이터 분리부(4)의 출력인 음성 데이터의 블록 길이들을 수신하고, 그들을 임시로 원형 버퍼에 저장하고, 임시로 저장된 각 블록 길이들을 적절하게 읽으며, 그 블록 길이들을 접속 순서 생성부(8)에 공급한다. 또한, 블록 데이터 메모리(5)는 임시로 저장된 블록 음성 데이터를 적절하게 읽어서 그런 블록 음성 데이터를 음성 데이터 접속부(9)에 공급한다.

그러면 접속 데이터 생성부(6)는 블록 데이터 분리부(4)의 출력인 블록 음성 데이터를 수신하고, 윈도우를 매 블록마다, 도 2에서 보는바와 같이 시간 구간 d (ms)에서 선형으로 변화하는, A 윈도우와 B 윈도우를 사용하여 해당 블록의 시작 부분에 위치한 음성 데이터와 계속되는 블록의 시작 부분에 위치한 음성 데이터에 적용하고, 시간 구간 d (ms)의 접속 데이터를 생성하기 위해 계속되는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더하며, 그런 접속 데이터를 접속 데이터 메모리(7)에 공급한다. [0.5 (ms)]부터 [해당 블록과 계속되는 블록의 블록 길이들 중 가장 짧은 것] 까지의 값이 시간 구간 d로 선택될 수 있으나, 블록 길이들 중 가장 짧은 것은 접속 데이터 메모리(7)에 더 작은 용량의 버퍼를 제공할 수 있게 된다.

접속 데이터 메모리(7)은 원형 버퍼를 가지고 있고, 접속 데이터 생성부(6)의 출력인 접속 데이터를 수신하며, 접속 데이터를 그 원형 버퍼에 임시로 저장하며, 임시로 저장된 그 접속 데이터를 적절하게 읽으며, 그 접속 데이터를 음성 데이터 접속부(9)에 공급한다.

접속 순서 생성부(8)는 각 속성들의 시간대에 따라서 확장 배율들, 즉, 디지털 볼륨같은 디지털 설정 수단을 조작함으로서 청취자에 의한 입력인 확장 배율들을 저장하기 위한 쓰기 가능한 메모리; 및 이전에 설정된 소정의 시간 구간에서, 예를 들면 약 100 ms의 시간 구간에서, 상기 쓰기 가능한 메모리에 저장된 각 속성들의 확장 배율들을 시간대에 따라서 읽으며, 이런 확장 배율들과 블록 데이터 저장부(5)의 출력인 각 블록 길이들 및 음성 데이터 접속부(9)의 출력인 미리 접속된 정보에 기초하여 블록 단위의 음성 데이터의 접속 순서(청취자에 의해 설정되는 요망되는 음성 속도를 구현하기 위해 필요한 접속 순서)와 모든 순간의 블록 단위의 접속 데이터를 생성하는 접속 순서 결정 프로세서를 포함한다.

그러면, 음성있는 소리 구간, 음성없는 소리 구간 및 소리없음 구간이 잇달아 번갈아서 나타나는 음성 신호들이 입력이 되는 상황에서, 블록 음성 데이터의 속성이 전환된 것이 도 3에서 도시된 음성 데이터 접속부(9)의 출력인 미리 접속된 정보에 의해 감지될 수 있을 때에, 혹은 상기 쓰기 가능한 메모리로부터 읽힌 블록 음성 데이터의 확대 배율들이, 같은 속성들을 가진 그 블록 음성 데이터가 비록 여전히 접속되어 있더라도, 변화된 것이 감지될 수 있을 때에, 그 접속 순서를 생성하는 것을 시작하는 상태가 준비되었다는 것이 결정된다. 그 순간의 시각이 시각 T₀로 결정된다.

그러면 접속 데이터 메모리(7)의 출력인 접속 데이터에서 생기는, 최종적으로 연결된 블록에 대응하는, 접속 데이터는 수학식 1에 의해 주어진 상태를 만족하는 시각에서 대체/삽입된다.

L/2 < rㆍS_i- S_o

이때 "S_i"는 음성 속도가 변화되기 전에 블록 데이터 메모리(5)로부터 음성 데이터 접속부(9)로 이미 출력된 블록 음성 데이터의 모든 블록 길이들을 시작 시각 T₀부터 전부 더한 것이고, "S_o"는 이미 접속되어 있는 블록 음성 데이터의 모든 블록 길이들을 상기 시작 시각 T₀부터 전부 더한 것이며, "r" (이때 r ≥ 1.0)은 목표로 하는 확장 배율이고, "L"은 마지막으로 접속되었던 블록 음성 데이터의 블록 길이이다. 그러면, 접속 데이터를 생성하는데 사용된 블록의 일부분의 다음에 위치하는, 마지막으로 접속한 블록의 일부분이 다시 되풀이하여 접속되고, 남아있는 블록들이 이 블록 다음에 연속하여 접속된다는 것을 나타내는 접속 순서가 생성되고 음성 데이터 접속부(9)에 공급된다.

따라서, 도 3에 도시된 예에서, 블록(1)이 연속하여 블록(8)에 접속되었을 때 그 시점에서 수학식 1에 의해 주어진 상태가 만족될 수 있기 때문에, 그 블록(8)에 해당하는 접속 데이터가 그 블록(8) 다음에 대체/삽입되며, 접속 데이터를 생성하는데 사용되는 블록(8)의 일부분의 다음에 위치한 일부분이 되풀이하여 접속된다. 도 3에 도시된 예에서, 블록(4)은 이미 한번 되풀이하여 접속했다.

음성 데이터 접속부(9)는, 이미 접속된 블록 음성 데이터 같은 접속된 내용을 미리 접속된 정보로서 접속 순서 생성부(8)에 공급한다. 동시에, 접속 순서 생성부(8)의 출력인 접속 순서에 기초하여, 음성 데이터 접속부(9)는 블록 데이터 메모리(5)의 출력인 블록 음성 데이터와 접속 데이터 메모리(7)의 출력인 접속 데이터를 접속하여 일련의 음성 데이터를 생성한다. 그러면 음성 데이터 접속부(9)는 그 결과인 일련의 음성 데이터를 버퍼링하면서 D/A 컨버터(10)에 공급한다.

D/A 컨버터(10)는 음성 데이터를 저장하고 FIFO 방식으로 그 음성 데이터를 출력하는 메모리와 소정의 샘플링 비율(예를 들면 32 kHz)로 그 메모리로부터 음성 데이터를 읽으며 그 음성 데이터를 음성 신호들로 D/A 변환하는 D/A 변환 회로를 포함한다. D/A 컨버터(10)는 음성 데이터 접속부(9)의 출력인 일련의 음성 신호를 수신하고 그 음성 데이터를 음성 신호들로 D/A 변환하며, 결과인 음성 신호들을 출력단으로부터 출력한다.

이러한 방법으로, 본 실시예에서는, 이전에 저장된 블록 음성 데이터와 접속 데이터의 순서를 제어하여, 청취자의 조작에 대응하여 어떤 음성 속도를 나타내는 음성 속도 변환 제어 정보에 기초하여 출력 음성이 만들어질 수 있다. 그러므로 청취자가 손으로 조작을 하여 음성 속도를 바꾸더라도 그 음성은 원하는 속도로 즉시 출력될 수 있다. 그래서 중간에 음성 속도가 변하더라도 청취자가 시간 지연을 느끼지 않는 것이 가능하다.

결과적으로, 본 발명에 따른 음성 속도 변환 장치(1)를 텔레비젼 세트, 라디오, 데이프 녹음기, 비디오 테이프 녹화기, 비디오 디스크 플레이어 등과 같은 다양한 비디오 장치, 오디오 장치, 의료 장치에 단지 적용함으로써, 발성자의 음성을 처리함으로 해서 음성 속도가 청취자의 청취 능력에 맞춰질 때에 출력 음성의 음성 속도가 청취자의 조작에 대응하여 즉각 바뀔수 있다.

상기 실시예에서, 도 2에서 도시된 것처럼 선형으로 변화하는 A 윈도우와 B 윈도우를 접속 데이터 생성부(6)에서 사용하여 윈도우들이 각 블록 음성 데이터의 시작 부분들에 적용되었다. 그러나, 각각 코사인 곡선을 가진 윈도우들을 사용함으로 해서 각 블록 음성 데이터의 시작 부분들에 그 윈도우들이 적용될 수 있을 것이다. 또, 접속 데이터 메모리(7)의 버퍼 용량이 크다면 그 윈도우는 각 블록 음성 데이터의 시작 부분들만이 아니라 전 블록 길이에도 적용될 수 있을 것이다.

더욱이, 상기 실시예에서, 도 3에 도시된 바와 같이, 참조 번호 (4)와 (8)의 블록 음성 데이터의 접속 데이터와 참조 번호 (4)와 (8)의 블록 음성 데이터의 후반부는 접속 순서 생성부(8)에서 단 한번 반복된다. 그러나 만약 확장 배율 "r"이 "r>2"을 만족한다면, 같은 블록 음성 데이터가 두 번 혹은 그 이상 반복될 것이다.

위에서 설명한 것처럼, 본 발명에 의하면, 출력 음성의 음성 속도는 청취자의 조작에 즉각 따르도록 변환될 수 있으며, 그래서 청취자측에서 사용의 편의성이 극도로 개선될 수 있다.

Claims

분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 단계;

분석 과정에 의해 얻어진 정보를 바탕으로 하여, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 단계;

분리된 음성 데이터를 블록 음성 데이터로 저장하는 단계;

음성 데이터의 확장을 시간대에 따라서 얻기 위해, 대체되거나 모든 블록의 인접한 블록 음성 데이터 사이에 삽입될 접속 데이터를 생성하고, 그 접속 데이터를 저장하는 단계;

청취자의 조작에 반응하여 어떤 음성 속도에 해당하는 음성 데이터를 생성하기 위해 블록 접속 순서를 생성하는 단계; 및

블록 단위로 이미 분리되어 저장된 블록 음성 데이터와 블록 접속 순서에 따른 접속 데이터를 연속하여 접속하여 출력 음성 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
제 1항에 있어서, 접속 데이터는

해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 위치한 음성 데이터 각각에, 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우를 사용하여 각 윈도우를 매 블록 적용하고, 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 생성되는 것을 특징으로 하는 음성 속도 변환 방법.
분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 분석 프로세서;

상기 분석 프로세서에 의해 얻어진 분석 결과에 따라, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 블록 데이터 분리부;

상기 블록 데이터 분리부에 의해 블록 음성 데이터로 분리된 음성 데이터를 저장하는 블록 데이터 저장부;

상기 블록 데이터 분리부에 의해 얻어진 블록 음성 데이터를 사용하여, 대체되거나 인접한 블록 음성 데이터 사이에 삽입될 수 있는 접속 데이터를 생성하는 접속 데이터 생성부;

상기 접속 데이터 생성부에 의해 생성된 접속 데이터를 저장하는 접속 데이터 저장부;

설정된 음성 속도에 해당하는 상태에 따라 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 생성부; 및

상기 블록 접속 순서 생성부에 의해 얻어진 블록 접속 순서에 따라, 이미 상기 블록 데이터 저장부에 저장된 블록 음성 데이터와 상기 접속 데이터 저장부에 저장된 접속 데이터를 연속적으로 접속하여 일련의 음성 데이터를 생성하는 음성 데이터 접속부를 포함하는 것을 특징으로 하는 음성 속도 변환 장치.
제 3항에 있어서, 상기 접속 데이터 생성부는,

해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 연속하는 블록의 시작 부분에 위치한 데이터 각각에, 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우를 사용하여 각 윈도우를 매 블록마다 적용하고, 그리고 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 접속 데이터를 생성함을 특징으로 하는 음성 속도 변환 장치.
제 3항에 있어서, 상기 접속 순서 생성부는,

각 속성들의 시간대에서의 확장 배율들을 저장하는 기록 가능한 메모리; 및

소정의 시간 구간에서 상기 기록 가능한 메모리에 저장된 각 속성들의 확장 배율들을 시간대에 따라서 읽고, 그 확장 배율들과 상기 블록 데이터 저장부의 출력인 블록 길이 및 상기 음성 데이터 생성부의 출력인 미리 연결된 정보에 따라 매 순간 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 결정 프로세서를 포함하는 것을 특징으로 하는 음성 속도 변환 장치.