KR20000010930A - 음성 속도 변환 방법 및 그 장치 - Google Patents

음성 속도 변환 방법 및 그 장치 Download PDF

Info

Publication number
KR20000010930A
KR20000010930A KR1019980709078A KR19980709078A KR20000010930A KR 20000010930 A KR20000010930 A KR 20000010930A KR 1019980709078 A KR1019980709078 A KR 1019980709078A KR 19980709078 A KR19980709078 A KR 19980709078A KR 20000010930 A KR20000010930 A KR 20000010930A
Authority
KR
South Korea
Prior art keywords
block
data
connection
voice data
voice
Prior art date
Application number
KR1019980709078A
Other languages
English (en)
Other versions
KR100283421B1 (ko
Inventor
도루 다카기
노부마사 세이야마
아츠시 이마이
아키오 안도
Original Assignee
닛폰 호소 교카이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 닛폰 호소 교카이 filed Critical 닛폰 호소 교카이
Publication of KR20000010930A publication Critical patent/KR20000010930A/ko
Application granted granted Critical
Publication of KR100283421B1 publication Critical patent/KR100283421B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants

Abstract

분석 프로세서(3)가 속성에 따라 분석 과정을 입력 음성 데이터에 적용한다. 블록 데이터 분리부(4)는 블록 음성 데이터를 생성하기 위해, 분석 프로세서(3)에 의해 얻어진 분석 결과에 따라, 입력 음성 데이터를 소정의 시간폭을 가진 블록 단위로 분리하고, 그 블록 음성 데이터를 블록 데이터 저장부(5)에 저장한다. 접속 데이터 생성부(6)는 그 블록 음성 데이터를 사용해서 접속 데이터를 생성하고, 그 접속 데이터를 접속 데이터 저장부(7)에 저장한다. 설정된 음성 속도에 해당하는 상태에 따라서, 접속 순서 생성부(8)는 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성한다. 음성 데이터 접속부(9)는 이미 블록 데이터 저장부(5)에 저장된 블록 음성 데이터 및 접속 데이터 저장부(7)에 저장된 접속 데이타에 블록 접속 순서에 따라 연속적으로 접속하고 그렇게해서 일련의 음성 데이터를 생성한다.

Description

음성 속도 변환 방법 및 그 장치
일반적으로, 예를 들어, 한 사람(청취자)이 다른 사람(발성자)의 음성을 들는 경우, 청취자의 청취 능력, 예를 들면, 청취자의 음성 인식 임계 속도(음성을 정확하게 확인할 수 있는 최대의 음성 속도)가 나이나 신체의 어떤 이상 때문에 쇠퇴하게 되면 청취자가 보통 속도의 음성 혹은 빠르게 말하는 음성을 확인하는 것이 가끔 어려워지게 된다. 이런 경우 보통은 청취자는 소위 보청기를 사용하여 청취 능력을 보충할 수 있다.
그러나 쇠퇴한 청취 능력을 가졌거나 청각 이상이 있는 사람이 사용하는 종래의 보청기는 주파수 특성, 이득 제어등을 개선함으로 해서 청각 기관의 외이와 중이의 전달 특성을 보충할 수 있을 뿐이다. 그러므로 주로 청각 기관의 쇠퇴와 연관되는 음성 인식 능력이 쇠퇴하는 그런 문제는 보충될 수 없다.
위의 입장에서, 최근에는 발성자의 음성을 처리하여 음성 속도가 실질적으로 실시간에 청취자의 청취능력에 적합할 수 있도록 함으로써 청각을 도울수 있는 음성 속도 제어형의 보청기가 생각되었다.
이 음성 속도 제어형의 보청기에 따르면, 시간대에 따라서 발성자의 음성을 확장하는 확장 과정을 실행하고, 이 확장 과정에서 얻어진 음성을 출력 버퍼 메모리에 연속적으로 저장하며, 그리고 저장된 음성을 출력함으로서, 청취자의 청취 능력의 쇠퇴를 보충하기 위해 발성자의 음성 속도가 변하게 된다(속도 감소됨).
그러나 종래 기술의 상기 음성 속도 제어형의 보청기에는 다음에 기술하는 문제점들이 존재한다.
우선, 종래 기술의 상기 음성 속도 제어형의 보청기는 음성 데이터 입력을 확장 과정에 의해 위에서 설명된 것과 같이 확장하고, 확장 과정에 의해 얻어진 음성 데이터를 연속적으로 출력 버퍼 메모리에 저장하며, 그리고 저장된 음성 데이터를 출력한다. 그러므로, 예를 들면, 청취자가 청취하는 중에 음성 속도를 더 많이 줄이거나 음성 속도를 본래의 속도로 회복하기를 원하는 경우에, 출력 버퍼 메모리에 저장된 모든 음성 데이터가 출력되기까지는 음성 속도는 원래의 속도로 회복될 수 없다.
이런 이유로, 청취하는 중에 음성 속도를 회복하기 위해, 현재의 음성 속도가 본래의 속도로 회복될 수 있기까지에는 꽤 긴 시간 지연의 문제가 있다.
또한 종래 기술의 상기 음성 속도 제어형의 보청기는 청취 능력을 보충하기 위해 발성자의 음성 속도를 변하게하는(속도 감소됨) 응용 분야에서 쇠퇴한 청취 능력을 가진 상기의 청취자뿐만이 아니라 보통의 청취 능력을 가지고 있으나 ,예를 들면, 외국어를 듣기 원하는 청취자도 사용할 수 있다. 그러나 이런 경우에, 위에서와 같이, 청취하는 중에 음성의 속도를 바꾸는데 시간 지연의 문제가 있다.
상기 환경의 입장에서 본 발명은 만들어졌고, 본 발명의 목적은 청취자의 조작에 즉시 따르기 위해 출력 음성의 음성 속도를 변환할 수 있고, 그렇게 해서 청취자의 입장에서의 사용상의 편의를 극도로 개선할 수 있는 음성 속도 변환 방법 및 그 장치를 제공하는데 있다.
본 발명은 텔레비젼 세트, 라디오, 데이프 녹음기, 비디오 테이프 녹화기, 비디오 디스크 플레이어 등과 같은 다양한 비디오 장치, 오디오 장치, 의료 장치등에 사용되는 음성 속도 변환 방법 및 그 장치에 관한 것으로서, 그리고 더 특별히는 발성자의 음성을 처리함으로서 그 음성의 속도가 청취자의 청취 능력에 적합하도록 하는 속도 변환된 음성을 제공할 수 있는 음성 속도 변환 방법 및 그 장치에 관한 것이다.
도 1은 본 발명에 따른 음성 속도 변환 방법과 그 방법을 구현한 음성 속도 변환 장치의 한 예를 보여주는 블록 다이아그램이다.
도 2는 도 1에 도시된 접속 데이터 생성부에서 실행되는 접속 데이터 생성 단계의 한 예를 도시한 것이다.
도 3은 도 1에 도시된 접속 순서 생성부에서 실행되는 접속 순서 생성 단계의 한 예를 도시한 것이다.
상기 목적을 달성하기 위해, 분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 단계; 분석 과정에 의해 얻어진 정보를 바탕으로 하여, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 단계; 분리된 음성 데이터를 블록 음성 데이터로 저장하는 단계; 음성 데이터의 확장을 시간대에 따라서 얻기 위해, 대체되거나 모든 블록의 인접한 블록 음성 데이터 사이에 삽입될 접속 데이터를 생성하고, 그 접속 데이터를 저장하는 단계; 청취자의 조작에 반응하여 어떤 음성 속도에 해당하는 출력 음성 데이터를 생성하기 위해 블록 접속 순서를 생성하는 단계; 및 블록 단위로 이미 분리되어 저장된 블록 음성 데이터와 블록 접속 순서에 따른 접속 데이터를 연속적으로 접속하여 출력 음성 데이터를 생성하는 단계를 포함하는 음성 속도 변환 방법이 청구항 1에 제시된다.
따라서, 출력 음성의 음성 속도는 청취자의 조작에 즉시 따르도록 변환될 수 있으며, 그래서 청취자 입장에서의 사용상의 편의가 극도로 개선될 수 있다.
청구항 1에 제시된 발명의 청구항 2에 제시된 음성 속도 변환 방법에서, 접속 데이터는 해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 위치한 음성 데이터에, 각각 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우을 블록마다 적용하고, 그리고 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 생성된다.
상기 목적을 달성하기 위해, 분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 분석 프로세서; 상기 분석 프로세서에 의해 얻어진 분석 결과에 따라, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 블록 데이터 분리부; 상기 블록 데이터 분리부에 의해 블록 음성 데이터로 분리된 음성 데이터를 저장하는 블록 데이터 저장부; 상기 블록 데이터 분리부에 의해 얻어진 블록 음성 데이터를 사용하여, 대체되거나 인접한 블록 음성 데이터 사이에 삽입될 수 있는 접속 데이터를 생성하는 접속 데이터 생성부; 상기 접속 데이터 생성부에 의해 생성된 접속 데이터를 저장하는 접속 데이터 저장부; 설정된 음성 속도에 해당하는 상태에 따라 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 생성부; 및 상기 블록 접속 순서 생성부에 의해 얻어진 블록 접속 순서에 따라, 이미 상기 블록 데이터 저장부에 저장된 블록 음성 데이터와 상기 접속 데이터 저장부에 저장된 접속 데이터에 연속적으로 접속하여 일련의 음성 데이터를 생성하는 음성 데이터 접속부를 포함하는 음성 속도 변환 장치가 청구항 3에 제시된다.
청구항 3에 제시된 발명의 청구항 4에 제시된 음성 속도 변환 장치에서, 상기 접속 데이터 생성부는 해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 위치한 음성 데이터 각각에, 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우를 블록마다 적용하고, 그리고 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 접속 데이터를 생성한다.
청구항 3에 제시된 발명의 청구항 5에 제시된 음성 속도 변환 장치에서, 상기 접속 순서 생성부는, 각 속성들의 확장 배율들을 시간대에 따라서 저장하는 기록 가능한 메모리; 및 소정의 시간 구간에서 상기 기록 가능한 메모리에 저장된 각 속성들의 시간대에서의 확장 배율들을 읽고, 그 확장 배율들과 상기 블록 데이터 저장부의 출력인 블록 길이 및 상기 음성 데이터 접속부의 출력인 미리 연결된 정보에 따라 매 순간 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 결정 프로세서를 포함한다.
따라서, 출력 음성의 음성 속도는 청취자의 조작에 즉시 따르도록 변환될 수 있으며, 그래서 청취자 입장에서의 사용상의 편의가 극도로 개선될 수 있다.
도 1은 본 발명의 일실시예에 따른 음성 속도 변환 장치를 구현한 것을 보여주는 블록 다이아그램이다.
이 도면에서 도시된 음성 속도 변환 장치(1)는 입력 음성 신호를 디지털 음성 신호로 변환하기 위한 A/D 컨버터(2), 음성 데이터의 속성을 분석하기 위한 분석 프로세서(3), 블록 음성 데이터를 생성하기 위해 음성 데이터를 블록 데이터로 분리하는 블록 데이터 분리부(4), 블록 음성 데이터를 저장하기 위한 블록 데이터 메모리(5), 블록 음성 데이터를 접속하는데 필요한 접속 데이터를 생성하는 접속 데이터 생성부(6), 접속 데이터를 저장하기 위한 접속 데이터 메모리(7), 블록 음성 데이터와 접속 데이터의 접속 순서를 생성하기 위한 접속 순서 생성기(8), 접속 순서에 따라 블록 음성 데이터와 접속 데이터를 접속함으로서 일련의 음성 데이터를 생성하는 음성 데이터 접속부(9) 및 일련의 음성 데이터를 음성 신호들로 변환하는 D/A 컨버터(10)를 포함한다.
음성 속도 변환 장치(1)는 속성에 기초하여 발성자에 의해 입력된 음성 데이터에 분석 과정을 적용하고, 그 음성 데이터를 분석 과정에 의해 유도되어진 분석된 정보에 따른 소정의 시간폭의 블록 단위로 분리하며, 그리고 블록 데이터를 저장한다. 또한 시간대에 따라서 음성 데이터의 확장을 얻기 위해, 음성 속도 변환 장치(1)는 대체되거나 모든 블록의 인접한 블록 음성 데이타 사이에 삽입될 음성 데이터를 생성하고 그 음성 데이터를 저장한다. 그러면 음성 속도 변환 장치(1)는 청취자의 조작에 응하여 어떤 속도에 대응하는 출력 음성 데이터를 생성하기 위하여 블록 접속 순서를 생성하고, 이미 블록 단위로 분리되고 저장된 그 음성 데이터(블럭 음성 데이터)와 이미 저장된 대체/삽입될 음성 데이터(접속 데이터)를 접속 순서에 따라 연속하여 접속하여 출력 음성 데이터를 생성한다. 그 결과 음성 출력의 음성 속도는 청취자의 조작에 응하여 즉각 뒤따를 수 있다.
A/D 컨버터(2)는 입력 신호를 소정의 샘플링 비율(예를 들어 32 kHz)로 샘플링하여 입력 음성 신호를 디지털 음성 데이터로 변환하는 A/D 변환 회로 및 상기 A/D 변환 회로로부터의 디지털 음성 데이터 출력을 수신하여 저장하며 그 데이터를 FIFO 방식으로 출력하는 FIFO 메모리를 포함한다.
A/D 컨버터(2)는 발성자측의 입력 단말기로 입력되는 음성 신호, 예를 들면, 마이크로폰, 텔레비젼, 라디오등의 비디오 장치, 오디오 장치등의 아날로그 소리 출력 단말의 출력인 음성 신호를 수신하고, 그 음성 신호를 디지털 음성 데이터로 A/D 변환하며, 그 결과인 음성 데이터를 버퍼링하면서, 그 음성 데이터를 분석 프로세서(3)과 블록 데이터 분리부(4)로 출력한다.
분석 프로세서(3)는 A/D 컨버터(2)의 출력인 음성 데이터를 수신하는 입력 과정; 입력 과정에서 얻어진 음성 데이터의 샘플링 비율을 4 kHz까지 낮춤으로서 많은 이어지는 과정을 줄이는 삭제(줄이는) 과정; A/D 컨버터(2)의 출력인 음성 데이터와 상기 삭제 과정에 의해 얻어진 음성 데이터의 속성을 분석하여 그 음성 데이터를 음성있는 소리, 음성없는 소리 및 소리 없음으로 나누는 속성 분석 과정; 및 자동 상호관련 분석을 실행하여 상기 음성있는 소리, 음성없는 소리 및 소리 없음의 주기성을 감지하며 감지된 결과에 근거하여 음성 데이터를 나누는데 필요한 블록 길이(블록 단위의 반복에 기인하는 음색의 변화, 예를 들면 저음과 같은 손실을 막기 위해 필요한 블록 길이)를 결정하는 블록 길이 결정 과정을 연속하여 실행한다. 그리고 분석 프로세서(3)는 그 결과인 분리된 정보(음성있는 소리, 음성없는 소리 및 소리 없음의 블록 길이들)를 블록 데이터 분리부(4)로 전송한다.
본 실시예에서는, 상기 속성 분석 과정에서, A/D 컨버터(2)의 출력인 음성 데이터의 제곱의 합이 약 30 ms의 윈도우 폭을 사용하여 계산되고, 또한 음성 데이터의 전력값 P는 약 5 ms의 구간에서 계산된다. 또한, 전력값 P와 이전에 설정된 문턱값 Pmin가 서로 비교되고, 결과로서 "P < Pmin"을 만족하는 데이터 영역이 소리 없는 구간으로 결정되고 또한 "Pmin≤ P" 를 만족하는 데이터 영역이 음성있는 소리 구간과 음성없는 구간으로 결정된다. 그러면, A/D 컨버터(2)의 출력인 음성 데이터를 제로 교차 분석하는 것과 상기 삭제 과정들에 의해 얻어진 음성 데이터를 자동 상관 분석하는 것이 실행된다. 이런 분석 결과들과 상기 전력값 P에 기초하여, "Pmin≤ P"를 만족하는 음성 데이터의 음성 영역이 음성 코드의 진동을 가진 음성 구간(음성있는 소리 구간)에 속하는가 혹은 음성 코드의 진동을 가지지 않은 음성 구간(음성없는 소리 구간)에 속하는가 하는 것이 결정된다. 본 실시예에서는, 소음이나 음악같은 배경 소리같은 속성들은 A/D 컨버터(2)의 출력인 음성 데이터의 속성으로 간주될 것이다. 그러나, 일반적으로 소음과 배경 소리의 신호로부터 음성 신호들을 정확하게 자동적으로 식별하는 것이 어렵기 때문에, 소음과 배경 소리들은 음성있는 소리, 음성없는 소리 및 소리 없음의 어느 하나로 분류된다.
또한, 상기 블록 길이 결정 과정은 상이한 긴/짧은 윈도우 폭들을 가진 자동 상관 분석을, 음성있는 소리의 피치(pitch) 주기가 분포되어 있는 속성 분석 과정에 의해 1.25 ms 에서 28.0 ms 의 넓은 범위에 걸친 음성있는 소리로 결정된 음성 데이터에 적용하고, 그리고 가능한 정밀하게 피치 주기들(피치 주기들은 음성 코드의 진동 주기)을 감지하며, 그리고 각 피치 주기들이 각각의 블록 길이에 해당하도록 감지 결과들에 기초하여 블록 길이들을 결정한다. 그 사이에, 상기 블록 길이 결정 과정은 속성 분석 과정에 의해 음성없는 소리 구간과 소리없음 구간이라고 결정된 구간들에서 음성 데이터로부터 10 ms 미만의 주기성을 감지하고, 감지된 결과들에 기초하여 블록 길이들을 결정한다. 그 결과 음성있는 소리, 음성없는 소리 및 소리없음의 각 블록 길이들이 블록 데이터 분리부(4)에 분리 정보로 공급된다.
블록 데이터 분리부(4)는 분석 프로세서(3)의 출력인 분리 정보에 의해 표시되는 음성있는 소리, 음성없는 소리 및 소리없음의 블록 길이들에 기초하여 A/D 컨버터(2)의 출력인 음성 데이터를 분리한다. 그리고 블록 데이터 분리부(4)는 이 분리 과정에 의해 블록 단위로 얻어진 음성 데이터(블럭 음성 데이터)와 음성 데이터의 블럭 길이들을 블록 데이터 메모리(5)와 접속 데이타 생성부(6) 양쪽에 공급한다.
블록 데이터 메모리(5)는 원형 버퍼를 갖추고 있다. 블록 데이터 메모리(5)는 블록 음성 데이터(블럭 단위의 음성 데이터)와 블록 데이터 분리부(4)의 출력인 음성 데이터의 블록 길이들을 수신하고, 그들을 임시로 원형 버퍼에 저장하고, 임시로 저장된 각 블록 길이들을 적절하게 읽으며, 그 블록 길이들을 접속 순서 생성부(8)에 공급한다. 또한, 블록 데이터 메모리(5)는 임시로 저장된 블록 음성 데이터를 적절하게 읽어서 그런 블록 음성 데이터를 음성 데이터 접속부(9)에 공급한다.
그러면 접속 데이터 생성부(6)는 블록 데이터 분리부(4)의 출력인 블록 음성 데이터를 수신하고, 윈도우를 매 블록마다, 도 2에서 보는바와 같이 시간 구간 d (ms)에서 선형으로 변화하는, A 윈도우와 B 윈도우를 사용하여 해당 블록의 시작 부분에 위치한 음성 데이터와 계속되는 블록의 시작 부분에 위치한 음성 데이터에 적용하고, 시간 구간 d (ms)의 접속 데이터를 생성하기 위해 계속되는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더하며, 그런 접속 데이터를 접속 데이터 메모리(7)에 공급한다. [0.5 (ms)]부터 [해당 블록과 계속되는 블록의 블록 길이들 중 가장 짧은 것] 까지의 값이 시간 구간 d로 선택될 수 있으나, 블록 길이들 중 가장 짧은 것은 접속 데이터 메모리(7)에 더 작은 용량의 버퍼를 제공할 수 있게 된다.
접속 데이터 메모리(7)은 원형 버퍼를 가지고 있고, 접속 데이터 생성부(6)의 출력인 접속 데이터를 수신하며, 접속 데이터를 그 원형 버퍼에 임시로 저장하며, 임시로 저장된 그 접속 데이터를 적절하게 읽으며, 그 접속 데이터를 음성 데이터 접속부(9)에 공급한다.
접속 순서 생성부(8)는 각 속성들의 시간대에 따라서 확장 배율들, 즉, 디지털 볼륨같은 디지털 설정 수단을 조작함으로서 청취자에 의한 입력인 확장 배율들을 저장하기 위한 쓰기 가능한 메모리; 및 이전에 설정된 소정의 시간 구간에서, 예를 들면 약 100 ms의 시간 구간에서, 상기 쓰기 가능한 메모리에 저장된 각 속성들의 확장 배율들을 시간대에 따라서 읽으며, 이런 확장 배율들과 블록 데이터 저장부(5)의 출력인 각 블록 길이들 및 음성 데이터 접속부(9)의 출력인 미리 접속된 정보에 기초하여 블록 단위의 음성 데이터의 접속 순서(청취자에 의해 설정되는 요망되는 음성 속도를 구현하기 위해 필요한 접속 순서)와 모든 순간의 블록 단위의 접속 데이터를 생성하는 접속 순서 결정 프로세서를 포함한다.
그러면, 음성있는 소리 구간, 음성없는 소리 구간 및 소리없음 구간이 잇달아 번갈아서 나타나는 음성 신호들이 입력이 되는 상황에서, 블록 음성 데이터의 속성이 전환된 것이 도 3에서 도시된 음성 데이터 접속부(9)의 출력인 미리 접속된 정보에 의해 감지될 수 있을 때에, 혹은 상기 쓰기 가능한 메모리로부터 읽힌 블록 음성 데이터의 확대 배율들이, 같은 속성들을 가진 그 블록 음성 데이터가 비록 여전히 접속되어 있더라도, 변화된 것이 감지될 수 있을 때에, 그 접속 순서를 생성하는 것을 시작하는 상태가 준비되었다는 것이 결정된다. 그 순간의 시각이 시각 T0로 결정된다.
그러면 접속 데이터 메모리(7)의 출력인 접속 데이터에서 생기는, 최종적으로 연결된 블록에 대응하는, 접속 데이터는 수학식 1에 의해 주어진 상태를 만족하는 시각에서 대체/삽입된다.
L/2 < rㆍSi- So
이때 "Si"는 음성 속도가 변화되기 전에 블록 데이터 메모리(5)로부터 음성 데이터 접속부(9)로 이미 출력된 블록 음성 데이터의 모든 블록 길이들을 시작 시각 T0부터 전부 더한 것이고, "So"는 이미 접속되어 있는 블록 음성 데이터의 모든 블록 길이들을 상기 시작 시각 T0부터 전부 더한 것이며, "r" (이때 r ≥ 1.0)은 목표로 하는 확장 배율이고, "L"은 마지막으로 접속되었던 블록 음성 데이터의 블록 길이이다. 그러면, 접속 데이터를 생성하는데 사용된 블록의 일부분의 다음에 위치하는, 마지막으로 접속한 블록의 일부분이 다시 되풀이하여 접속되고, 남아있는 블록들이 이 블록 다음에 연속하여 접속된다는 것을 나타내는 접속 순서가 생성되고 음성 데이터 접속부(9)에 공급된다.
따라서, 도 3에 도시된 예에서, 블록(1)이 연속하여 블록(8)에 접속되었을 때 그 시점에서 수학식 1에 의해 주어진 상태가 만족될 수 있기 때문에, 그 블록(8)에 해당하는 접속 데이터가 그 블록(8) 다음에 대체/삽입되며, 접속 데이터를 생성하는데 사용되는 블록(8)의 일부분의 다음에 위치한 일부분이 되풀이하여 접속된다. 도 3에 도시된 예에서, 블록(4)은 이미 한번 되풀이하여 접속했다.
음성 데이터 접속부(9)는, 이미 접속된 블록 음성 데이터 같은 접속된 내용을 미리 접속된 정보로서 접속 순서 생성부(8)에 공급한다. 동시에, 접속 순서 생성부(8)의 출력인 접속 순서에 기초하여, 음성 데이터 접속부(9)는 블록 데이터 메모리(5)의 출력인 블록 음성 데이터와 접속 데이터 메모리(7)의 출력인 접속 데이터를 접속하여 일련의 음성 데이터를 생성한다. 그러면 음성 데이터 접속부(9)는 그 결과인 일련의 음성 데이터를 버퍼링하면서 D/A 컨버터(10)에 공급한다.
D/A 컨버터(10)는 음성 데이터를 저장하고 FIFO 방식으로 그 음성 데이터를 출력하는 메모리와 소정의 샘플링 비율(예를 들면 32 kHz)로 그 메모리로부터 음성 데이터를 읽으며 그 음성 데이터를 음성 신호들로 D/A 변환하는 D/A 변환 회로를 포함한다. D/A 컨버터(10)는 음성 데이터 접속부(9)의 출력인 일련의 음성 신호를 수신하고 그 음성 데이터를 음성 신호들로 D/A 변환하며, 결과인 음성 신호들을 출력단으로부터 출력한다.
이러한 방법으로, 본 실시예에서는, 이전에 저장된 블록 음성 데이터와 접속 데이터의 순서를 제어하여, 청취자의 조작에 대응하여 어떤 음성 속도를 나타내는 음성 속도 변환 제어 정보에 기초하여 출력 음성이 만들어질 수 있다. 그러므로 청취자가 손으로 조작을 하여 음성 속도를 바꾸더라도 그 음성은 원하는 속도로 즉시 출력될 수 있다. 그래서 중간에 음성 속도가 변하더라도 청취자가 시간 지연을 느끼지 않는 것이 가능하다.
결과적으로, 본 발명에 따른 음성 속도 변환 장치(1)를 텔레비젼 세트, 라디오, 데이프 녹음기, 비디오 테이프 녹화기, 비디오 디스크 플레이어 등과 같은 다양한 비디오 장치, 오디오 장치, 의료 장치에 단지 적용함으로써, 발성자의 음성을 처리함으로 해서 음성 속도가 청취자의 청취 능력에 맞춰질 때에 출력 음성의 음성 속도가 청취자의 조작에 대응하여 즉각 바뀔수 있다.
상기 실시예에서, 도 2에서 도시된 것처럼 선형으로 변화하는 A 윈도우와 B 윈도우를 접속 데이터 생성부(6)에서 사용하여 윈도우들이 각 블록 음성 데이터의 시작 부분들에 적용되었다. 그러나, 각각 코사인 곡선을 가진 윈도우들을 사용함으로 해서 각 블록 음성 데이터의 시작 부분들에 그 윈도우들이 적용될 수 있을 것이다. 또, 접속 데이터 메모리(7)의 버퍼 용량이 크다면 그 윈도우는 각 블록 음성 데이터의 시작 부분들만이 아니라 전 블록 길이에도 적용될 수 있을 것이다.
더욱이, 상기 실시예에서, 도 3에 도시된 바와 같이, 참조 번호 (4)와 (8)의 블록 음성 데이터의 접속 데이터와 참조 번호 (4)와 (8)의 블록 음성 데이터의 후반부는 접속 순서 생성부(8)에서 단 한번 반복된다. 그러나 만약 확장 배율 "r"이 "r>2"을 만족한다면, 같은 블록 음성 데이터가 두 번 혹은 그 이상 반복될 것이다.
위에서 설명한 것처럼, 본 발명에 의하면, 출력 음성의 음성 속도는 청취자의 조작에 즉각 따르도록 변환될 수 있으며, 그래서 청취자측에서 사용의 편의성이 극도로 개선될 수 있다.

Claims (5)

  1. 분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 단계;
    분석 과정에 의해 얻어진 정보를 바탕으로 하여, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 단계;
    분리된 음성 데이터를 블록 음성 데이터로 저장하는 단계;
    음성 데이터의 확장을 시간대에 따라서 얻기 위해, 대체되거나 모든 블록의 인접한 블록 음성 데이터 사이에 삽입될 접속 데이터를 생성하고, 그 접속 데이터를 저장하는 단계;
    청취자의 조작에 반응하여 어떤 음성 속도에 해당하는 음성 데이터를 생성하기 위해 블록 접속 순서를 생성하는 단계; 및
    블록 단위로 이미 분리되어 저장된 블록 음성 데이터와 블록 접속 순서에 따른 접속 데이터를 연속하여 접속하여 출력 음성 데이터를 생성하는 단계를 포함하는 것을 특징으로 하는 음성 속도 변환 방법.
  2. 제 1항에 있어서, 접속 데이터는
    해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 위치한 음성 데이터 각각에, 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우를 사용하여 각 윈도우를 매 블록 적용하고, 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 생성되는 것을 특징으로 하는 음성 속도 변환 방법.
  3. 분석 과정을 입력 음성 데이터에 속성에 따라 적용하는 분석 프로세서;
    상기 분석 프로세서에 의해 얻어진 분석 결과에 따라, 입력된 음성 데이터를 소정의 시간폭의 블록 단위로 분리하는 블록 데이터 분리부;
    상기 블록 데이터 분리부에 의해 블록 음성 데이터로 분리된 음성 데이터를 저장하는 블록 데이터 저장부;
    상기 블록 데이터 분리부에 의해 얻어진 블록 음성 데이터를 사용하여, 대체되거나 인접한 블록 음성 데이터 사이에 삽입될 수 있는 접속 데이터를 생성하는 접속 데이터 생성부;
    상기 접속 데이터 생성부에 의해 생성된 접속 데이터를 저장하는 접속 데이터 저장부;
    설정된 음성 속도에 해당하는 상태에 따라 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 생성부; 및
    상기 블록 접속 순서 생성부에 의해 얻어진 블록 접속 순서에 따라, 이미 상기 블록 데이터 저장부에 저장된 블록 음성 데이터와 상기 접속 데이터 저장부에 저장된 접속 데이터를 연속적으로 접속하여 일련의 음성 데이터를 생성하는 음성 데이터 접속부를 포함하는 것을 특징으로 하는 음성 속도 변환 장치.
  4. 제 3항에 있어서, 상기 접속 데이터 생성부는,
    해당 블록의 시작 부분에 위치한 음성 데이터와, 계속되는 블록의 시작 부분에 연속하는 블록의 시작 부분에 위치한 데이터 각각에, 소정의 시간 구간에서 소정의 라인을 가진 두 개의 윈도우를 사용하여 각 윈도우를 매 블록마다 적용하고, 그리고 연속하는 블록의 시작 부분을 해당 블록의 시작 부분에 중첩하여 더함으로써 접속 데이터를 생성함을 특징으로 하는 음성 속도 변환 장치.
  5. 제 3항에 있어서, 상기 접속 순서 생성부는,
    각 속성들의 시간대에서의 확장 배율들을 저장하는 기록 가능한 메모리; 및
    소정의 시간 구간에서 상기 기록 가능한 메모리에 저장된 각 속성들의 확장 배율들을 시간대에 따라서 읽고, 그 확장 배율들과 상기 블록 데이터 저장부의 출력인 블록 길이 및 상기 음성 데이터 생성부의 출력인 미리 연결된 정보에 따라 매 순간 블록 음성 데이터와 접속 데이터의 블록 접속 순서를 생성하는 접속 순서 결정 프로세서를 포함하는 것을 특징으로 하는 음성 속도 변환 장치.
KR1019980709078A 1997-03-14 1998-03-13 음성 속도 변환 방법 및 그 장치 KR100283421B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9061015A JP2955247B2 (ja) 1997-03-14 1997-03-14 話速変換方法およびその装置
JP9-061015 1997-03-19
PCT/JP1998/001063 WO1998041976A1 (fr) 1997-03-14 1998-03-13 Procede et dispositif permettant de modifier la vitesse des sons vocaux

Publications (2)

Publication Number Publication Date
KR20000010930A true KR20000010930A (ko) 2000-02-25
KR100283421B1 KR100283421B1 (ko) 2001-03-02

Family

ID=13159086

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980709078A KR100283421B1 (ko) 1997-03-14 1998-03-13 음성 속도 변환 방법 및 그 장치

Country Status (10)

Country Link
US (1) US6205420B1 (ko)
EP (1) EP0910065B1 (ko)
JP (1) JP2955247B2 (ko)
KR (1) KR100283421B1 (ko)
CN (1) CN1101581C (ko)
CA (1) CA2253749C (ko)
DE (1) DE69816221T2 (ko)
DK (1) DK0910065T3 (ko)
NO (1) NO316414B1 (ko)
WO (1) WO1998041976A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445342B1 (ko) * 2001-12-06 2004-08-25 박규식 듀얼 에스오엘에이 알고리듬을 이용한 음성속도변환방법및 시스템

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6671292B1 (en) * 1999-06-25 2003-12-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for adaptive voice buffering
US6505153B1 (en) 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
EP1309965B1 (en) * 2000-08-09 2010-12-15 Thomson Licensing Method and system for enabling audio speed conversion
MXPA03001200A (es) * 2000-08-10 2003-06-30 Thomson Licensing Sa Sistema y metodo para habilitar la conversion de velocidad de audio.
US6993246B1 (en) 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
WO2002050798A2 (en) * 2000-12-18 2002-06-27 Digispeech Marketing Ltd. Spoken language teaching system based on language unit segmentation
US7149412B2 (en) 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
EP1361740A1 (de) * 2002-05-08 2003-11-12 Sap Ag Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs
DE10220520A1 (de) * 2002-05-08 2003-11-20 Sap Ag Verfahren zur Erkennung von Sprachinformation
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
GB0228245D0 (en) * 2002-12-04 2003-01-08 Mitel Knowledge Corp Apparatus and method for changing the playback rate of recorded speech
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
US7412378B2 (en) * 2004-04-01 2008-08-12 International Business Machines Corporation Method and system of dynamically adjusting a speech output rate to match a speech input rate
US20060187770A1 (en) * 2005-02-23 2006-08-24 Broadcom Corporation Method and system for playing audio at a decelerated rate using multiresolution analysis technique keeping pitch constant
US7643820B2 (en) * 2006-04-07 2010-01-05 Motorola, Inc. Method and device for restricted access contact information datum
TWI312500B (en) 2006-12-08 2009-07-21 Micro Star Int Co Ltd Method of varying speech speed
WO2008108239A1 (ja) * 2007-02-27 2008-09-12 Nec Corporation 音声認識システム、方法およびプログラム
JP4390289B2 (ja) 2007-03-16 2009-12-24 国立大学法人電気通信大学 再生装置
JP5093648B2 (ja) 2007-05-07 2012-12-12 国立大学法人電気通信大学 再生装置
US8447609B2 (en) * 2008-12-31 2013-05-21 Intel Corporation Adjustment of temporal acoustical characteristics
CN101989252B (zh) * 2009-07-30 2012-10-03 华晶科技股份有限公司 连续数据的数值分析方法及系统
JP5593244B2 (ja) * 2011-01-28 2014-09-17 日本放送協会 話速変換倍率決定装置、話速変換装置、プログラム、及び記録媒体
US9036844B1 (en) 2013-11-10 2015-05-19 Avraham Suhami Hearing devices based on the plasticity of the brain
US9934793B2 (en) * 2014-01-24 2018-04-03 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
US9899039B2 (en) * 2014-01-24 2018-02-20 Foundation Of Soongsil University-Industry Cooperation Method for determining alcohol consumption, and recording medium and terminal for carrying out same
KR101621766B1 (ko) * 2014-01-28 2016-06-01 숭실대학교산학협력단 음주 판별 방법, 이를 수행하기 위한 기록매체 및 단말기
KR101621780B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101569343B1 (ko) 2014-03-28 2015-11-30 숭실대학교산학협력단 차신호 고주파 신호의 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
KR101621797B1 (ko) 2014-03-28 2016-05-17 숭실대학교산학협력단 시간 영역에서의 차신호 에너지법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치
JP6912303B2 (ja) * 2017-07-20 2021-08-04 東京瓦斯株式会社 情報処理装置、情報処理方法、及びプログラム
CN113611325B (zh) * 2021-04-26 2023-07-04 珠海市杰理科技股份有限公司 基于清浊音实现的语音信号变速方法、装置和音频设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0287741B1 (en) * 1987-04-22 1993-03-31 International Business Machines Corporation Process for varying speech speed and device for implementing said process
JP2612868B2 (ja) 1987-10-06 1997-05-21 日本放送協会 音声の発声速度変換方法
JP2890530B2 (ja) 1989-10-06 1999-05-17 松下電器産業株式会社 音声速度変換装置
EP0427953B1 (en) * 1989-10-06 1996-01-17 Matsushita Electric Industrial Co., Ltd. Apparatus and method for speech rate modification
EP0527527B1 (en) * 1991-08-09 1999-01-20 Koninklijke Philips Electronics N.V. Method and apparatus for manipulating pitch and duration of a physical audio signal
US5305420A (en) * 1991-09-25 1994-04-19 Nippon Hoso Kyokai Method and apparatus for hearing assistance with speech speed control function
JPH06202691A (ja) 1993-01-07 1994-07-22 Nippon Telegr & Teleph Corp <Ntt> 音声情報再生速度制御方法
EP0608833B1 (en) * 1993-01-25 2001-10-17 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
JP3147562B2 (ja) 1993-01-25 2001-03-19 松下電器産業株式会社 音声速度変換方法
JP3373933B2 (ja) 1993-11-17 2003-02-04 三洋電機株式会社 話速変換装置
JP3457393B2 (ja) 1994-09-14 2003-10-14 日本放送協会 話速変換方法
JP3123397B2 (ja) 1995-07-14 2001-01-09 トヨタ自動車株式会社 車両用舵角比可変操舵装置
JPH09152889A (ja) 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 話速変換装置
US6009386A (en) * 1997-11-28 1999-12-28 Nortel Networks Corporation Speech playback speed change using wavelet coding, preferably sub-band coding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100445342B1 (ko) * 2001-12-06 2004-08-25 박규식 듀얼 에스오엘에이 알고리듬을 이용한 음성속도변환방법및 시스템

Also Published As

Publication number Publication date
NO985301L (no) 1998-12-16
DE69816221D1 (de) 2003-08-14
EP0910065A1 (en) 1999-04-21
JPH10257596A (ja) 1998-09-25
EP0910065B1 (en) 2003-07-09
KR100283421B1 (ko) 2001-03-02
DK0910065T3 (da) 2003-10-27
WO1998041976A1 (fr) 1998-09-24
EP0910065A4 (en) 2000-02-23
US6205420B1 (en) 2001-03-20
NO985301D0 (no) 1998-11-13
CN1219264A (zh) 1999-06-09
CA2253749A1 (en) 1998-09-24
CA2253749C (en) 2002-08-13
NO316414B1 (no) 2004-01-19
CN1101581C (zh) 2003-02-12
DE69816221T2 (de) 2004-02-05
JP2955247B2 (ja) 1999-10-04

Similar Documents

Publication Publication Date Title
KR100283421B1 (ko) 음성 속도 변환 방법 및 그 장치
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
EP1826900A1 (en) Vehicle-mounted sound control system
JP3630609B2 (ja) 音声情報再生方法ならびに装置
JP2000152394A (ja) 軽度難聴者用補聴装置、軽度難聴者対応伝送システム、軽度難聴者対応記録再生装置、及び軽度難聴者対応再生装置
JP3308567B2 (ja) ディジタル音声処理装置及びディジタル音声処理方法
JPH09198089A (ja) 再生速度変換装置
JP2001184100A (ja) 話速変換装置
JP3081469B2 (ja) 話速変換装置
JP3378672B2 (ja) 話速変換装置
JP3162945B2 (ja) ビデオテープレコーダ
JPH1070790A (ja) 話速検出方法、話速変換方法および話速変換機能付補聴器
JP3373933B2 (ja) 話速変換装置
JPH0916193A (ja) 話速変換装置
JP3357742B2 (ja) 話速変換装置
JP4212253B2 (ja) 話速変換装置
JP3284968B2 (ja) 話速変換機能を有する補聴器
JPH06289895A (ja) リアルタイム話速変換方法
JPH11167396A (ja) 音声記録再生装置
JPH09146587A (ja) 話速変換装置
KR100359988B1 (ko) 실시간 화속 변환 장치
JPH0772896A (ja) 音声の圧縮伸長装置
JPH0698398A (ja) 音声の無音区間検出伸長装置及び音声の無音区間検出伸長方法
KR100372576B1 (ko) 오디오신호 가공방법
WO1993009531A1 (en) Processing of electrical and audio signals

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121121

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20131118

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20141120

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20151118

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20161123

Year of fee payment: 17

FPAY Annual fee payment

Payment date: 20171117

Year of fee payment: 18

EXPY Expiration of term